Bioinformatik ved på Københavns Universitet

Publiceret Juli 2002

Til september starter bioinformatikuddannelsen på Københavns Universitet. Det er  en kandidatuddannelse, hvorpå man kan blive optaget med en Bachelorgrad i et naturvidenskabeligt fag eller tilsvarende. Uddannelsen vil give en grundig indføring i teoretisk og praktisk molekylær bioinformatik, som jeg vil forsøge at give et overblik over nedenfor.

Hvad er bioinformatik?

Bioinformatikken er blevet drevet frem af den moderne molekylærbiologiske og genetiske forskning, som ganske enkelt ikke har kunnet klare sig uden. Specielt genomprojekterne er afhængige af computere til lagring og analyse af data. Mange introduktioner til bioinformatik starter med historien om den eksplosive vækst af DNA- og protein- databaserne, hvor alene det at holde bare nogenlunde styr på disse data er en stor opgave.  Bioinformatikkens vigtigste mission er imidlertid i analysen af data: de enorme mængder af gener, proteiner, DNA og RNA molekyler betyder nemlig, at det er umuligt at analysere dem alle med de traditionelle eksperimentelle metoder.

De fleste forbinder nok bioinformatik med denne molekylære bioinformatik, og det er da også den type bioinformatik, vi vil beskæftige os med, selvom informatik naturligvis også vinder indpas i andre grene af biologien. Bioinformatik er et relativt nyt begreb og stadig ikke fuldt defineret. For nogle handler det om at bruge datalogiske metoder i biologien og spørgsmålet "hvorfor kan man ikke bare ansætte en datalog?" er ikke helt ualmindeligt. For andre drejer bioinformatikken om avancerede matematiske og statistiske metoder til analyse af biologiske sekvenser eller om at bygge fysisk inspirerede modeller af biologiske systemer.  Og for en hulens masse handler bioinformatik om at surfe på nettet og bruge de tilgængelige metoder til at analysere deres favorit-protein eller genom. Alle disse holdninger er for snævre, selvom de hver især beskriver et hjørne af bioinformatikken. Bioinformatik går ud på at anvende metoder fra de matematisk-fysisk-datalogiske fag til at analysere (molekylær-) biologiske, biokemiske og medicinske problemstillinger. For at kalde sig bioinformatiker, mener jeg, at man skal have et rimeligt indgående kendskab til områder af biologi/biokemi såvel som områder af de matematisk-fysisk-datalogiske fag.

Lad os tage et par eksempler. Jeg har allerede nævnt genomprojekterne, hvor man med større og større hastighed sekventerer genomer. Nogle af genomprojekterne foregår i kæmpestore laboratorier, som nærmest minder om fabrikker, hvor snesevis af sekventeringsmaskiner kører døgnet rundt. Da DNA sekvenserne bliver aflæst i tilfældige bidder af 500-1000 baser, er det første spørgsmål, som melder sig, hvordan alle disse stumper passer sammen. Dette gigantiske puslespil  kaldes assembly problemet, og er en af bioinformatikkens klassikere. Der er blevet udviklet algoritmer til at løse problemet effektivt, og de bruges rutinemæssigt i sekventeringslaboratorierne. Der er dog begrænsninger på hvor lange DNA sekvenser man kan assemble udfra sådanne tilfældige stumper, og specielt når sekvensen indeholder gentagne sekvenser, som for eksempel det humane genom gør til overflod. Derfor var mange skeptiske overfor om firmaet Celera Genomics kunne sekventere det humane genom med såkaldt whole genome shot-gun. Det var kun takket være en samtænkning af den eksperimentelle metode og assembly algoritmen, at det kunne lade sig gøre. De viste, at problemet med repeterede sekvenser (og andre assembly problemer) blev løst ved at sekventere begge ender af sekvenser af kendt længde. Bioinformatikken blev inddraget fra begyndelsen, i stedet for, at man købte en computer og ansatte en datalog da man stod med alle stumperne og ikke anede hvad man skulle stille op.

Det primære produkt fra genomprojekterne er DNA sekvenser og det næste store spørgsmål er, hvordan man herefter "læser" disse sekvenser. Fra for eksempel den medicinske forskning og den farmaceutiske industri er der naturligvis en enorm interesse i at lokalisere de proteinkodende gener.  Det er ikke så let som man ofte får indtryk af – bare tænk på kontroversen om antallet af gener i det humane genom. Man kender stort set hele DNA sekvensen, men diskuterer stadig, om der er 30,  40 eller 50 tusinde gener. Der er udviklet mange bioinformatiske metoder til at analysere DNA sekvenserne med, og de gør det muligt, at finde en meget stor del af de protein-kodende gener. Nogle af de gener, som ikke ligner kendte proteiner, er dog svære at identificere korrekt, og det er det, som giver anledning til kontroversen. Der ligger meget arbejde forude med at forbedre metoderne til identifikation af gener og for eksempel kunne identificere alternativ splejsning, som formodentlig er langt mere udbredt, end man forventede for blot få år siden. Der ligger imidlertid endnu større udfordringer i at afkode alt det, som IKKE er proteinkodende, og her ligger der formodentlig store opdagelser. Det bliver for eksempel mere og mere klart, at der findes masser af ukendte ikke-kodende RNA gener, og det vil være et af bioinformatikkens spændende felter de kommende år, se figur 1.

Ikke-kodende RNA
Figur 1. Ikke-kodende RNA gener har en struktur, som
primært er bestemt af base-parringsmønstret i molekylet.
Dette vises ofte som her i en flad såkaldt sekundærstruktur.
Sådanne gener har ikke kodon-strukturen som de
protein-kodende gener, så man må i stedet lede efter
base-parringsmønstre, når man søger efter sådanne gener.
Dette er svært rent algoritmisk, men det viser sig også, at
mange tilfældigt udklippede genomiske DNA sekvenser kan
folde til noget, som ser ganske tilforladeligt ud og har lige
så lav beregnet fri energi som rigtige RNA strukturer. Den
her viste "struktur" er for eksempel en tilfældig genereret
RNA sekvens (fra Workman & Krogh, Nucl. Acids Res., 27,
4816 (2002)).

Det, at finde gener og andre ting i genomer, er naturligvis kun det første spæde skridt til en forståelse af biologien. Det lidt stalinistisk klingende begreb "systembiologi" dækker over forsøg på at finde sammenhængene imellem alle disse gener, proteiner, RNA molekyler o.s.v., og forstå hvordan smådelene spiller sammen for at skabe en celle og holde de biologiske processer i gang. Nogle af de nye eksperimentelle teknikker åbner mulighed for at arbejde i denne retning. I DNA array eksperimenter kan man for eksempel måle ekspressionen af tusinder af gener samtidigt og herudfra i princippet finde ud af, hvordan og hvor meget de forskellige gener vekselvirker. Reelt er det dog vanskeligt, og her i systembiologiens barndom må man nok nøjes med at udrede sammenhængene i lidt mindre genetiske netværk.

Ind imellem gen-identifikation og systembiologi ligger der selvfølgelig mange andre spændende bioinformatiske opgaver. Tænk bare på det klassiske proteinfoldningsproblem: hvordan finder man den tre-dimesionelle struktur af et protein udfra aminosyre sekvensen? Fra den ene kant har man brugt kendte strukturer til at forudsige strukturen med såkaldt homologi-modelering, men det siger sig selv, at man her er begrænset til proteiner, som ligner en kendt struktur. Fra en anden kant har man angrebet problemet med fysiske metoder og forsøgt at konstruere generelle kraftfelter og simulere proteinfoldningen i computeren. Idag er man nået et skridt videre ved at kombinere disse to metoder på nye måder. Med det stadigt voksende arsenal af kendte strukturer er det ikke helt urealistisk, at man om relativt få år kan forudsige de fleste proteinstrukturer.

Uddannelsen

Uddannelsen på KU er en to-årig overbygningsuddannelse, hvor man som sagt kan blive optaget med en bachelor i et naturvidenskabligt fag (geo fagene dog undtaget) eller noget tilsvarende, så som ingeniør eller medicin. I de første tre semestre følges kurser af tre forskellige typer: bioinformatiske kernekurser, redskabskurser og specialkurser (se tabellen). Man skal have cirka lige mange points fra hver af de tre kursustyper. I det sidste semester laves speciale. Det er målet, at alle kandidater når op på et fælles grund-niveau i biologi, datalogi og statistik. Det gøres ved at tilbyde introduktionskurser i de tre fag, så de studerende får det de mangler fra deres grunduddannelse.  På længere sigt, vil der blive krævet, at de studerende, der optages, allerede har en vis baggrund i alle tre områder. Der vil både i kursusvalg og gennem specialet  være mulighed for at specialisere sig i mange retninger, teoretiske såvel som anvendelses-orienterede.

Bioinformatiske Kernekurser

Bioinformatiske grundfag som indeholder alignment-metoder, søgning efter sekvensmotiver, fylogenetisk analyse, protein- og RNA-struktur analyse og forudsigelse, analyse af ekspressionsdata og meget mere.

Bioinformatiske Redskabskurser

Kurser, som kan styrke de studerendes forudsætinger indenfor biologi, datalogi, fysik, kemi,matematik og statistik. Primært eksisterende kurser på Fakultetet andre fag.

Bioinformatiske Specialkurser

Kurser i mere specialicerede bioinformatiske emner. Det kan være almindelige kurser eller projektarbejde og kan foregå på KU eller en anden institution eller virksomhed.

Uddannelsen bliver koordineret af Bioinformatik-centret, der blev etableret i marts i år på initiativ af flere af de naturvidenskabelige fag under det Naturvidenskabelige Fakultet ved KU. Centret hører under Molekylærbiologisk Institut, men er fysisk placeret på Zoologisk Institut i Universitets­parken, indtil det nye BioCenter på Tagensvej er klar til indflytning i 2005, hvorefter centret flytter sammen med Molekylærbiologisk Institut. Bioinformatikcentret er stadig under etablering, men vil allerede om et halvt års tid bestå af en professor, en adjunkt, en forskningslektor og 3-4 ph. d. studerende. Cirka halvdelen af disse stillinger er betalt af det Naturvidenskabelige Fakultet og den anden halvdel af midler fra forskningsrådene og EU. Centret sigter imod en tværvidenskabelig sammensætning med både teoretisk og anvendt bioinformatisk forskning.

Det er vigtigt både for bioinformatik og biologi, at de to fag er tæt knyttet, og noget af det mest spændende er, når eksperimenter og bioinformatik spiller tæt sammen. Selvom jeg også er en stor tilhænger af teoretisk bioinformatik, synes jeg det er et vigtigt mål at få bioinformatik ud i laboratorierne. Derfor ser jeg det som en positiv udvikling, at de fleste danske universiteter har lavet bioinformatik-uddannelser, for på den måde at få bioinformatisk forskning såvel som uddannede kandidater. Da bioinformatik tilmed ikke på nogen måde er instrument-tung, er der al mulig grund til at satse på, at alle landets universiteter får opbygget stærk forskning på dette område.

Yderligere information om kandidatuddannelsen og Bioinformatik-centret kan findes på vores hjemmeside www.binf.ku.dk.