Bioinformatik ved Aarhus Universitet

Publiceret Juli 2002

Gennem de sidste seneste 20 år er mængden af tilgængelige biologisk data vokset eksplosivt. På trods af en næsten tilsvarende vækst i computeres regnekraft og informationsteknologiens formåen generelt, kræver analyse og håndtering af de hastigt voksende mængder af data stadig særdeles effektive beregningsmetoder samt computerbaserede værktøjer, der udnytter den tilgængelige informationsteknologi til det yderste. Udvikling af sådanne værktøjer kræver solide kundskaber inden for en lang række traditionelle discipliner, heriblandt biologi, statistik og datalogi. Kombinationen af disse fagkundskaber betegnes ofte som bioinformatik.

Mere generelt kan man sige at bioinformatik er en flerfaglig disciplin med fokus på udvikling og anvendelse af beregningsmetoder og computerbaserede værktøjer til indsamling, håndtering og analyse af biologisk data. Behovet for sådanne værktøjer vokser hastigt i takt med den fortsatte udvikling af eksperimentelle teknikker til indsamling af biologisk data; eksempelvis teknikker til aflæsning og sammensætning af korte DNA fragmenter, som anvendes ved kortlægning af genomer, eller teknikker til undersøgelse af genetisk variation eller geners udtryksmønstre i forskellige individer og under forskellige forhold, som blandt andet kan anvendes til kortlægning af sammenhænge mellem genetiske egenskaber og sygdomsmønstre. I de kommende år vil der være et fortsat voksende behov for effektive metoder til analyse af biologisk dette samt tilsvarende data, eksempelvis til identifikation af ligheder mellem to eller flere genomer, eller til søgning efter karakteristika blandt en mængde geners udtryksmønstre over et sygdomsforløb.

Bioinformatik er mange ting

De aktiviteter der typisk betegnes som bioinformatik spænder bredt og kan med fordel opdeles med udgangspunkt i deres primære formål; at anvende eller udvikle computerbaserede værktøjer til indsamling, håndtering eller analyse af biologisk data. Der skelnes altså mellem brugere og udviklere, hvor en bruger er en person, der anvender computerbaserede værktøjer til analyse af data i forbindelse med et biologisk eller medicinsk arbejde, mens en udvikler er en person, der udvikler nye beregningsmetoder og computerbaserede værktøjer til analyse af biologisk data. En væsentlig drivkraft bag bioinformatik er selvfølgelig samspillet mellem brugere og udviklere, hvor brugernes behov for værktøjer til stadighed motiverer nye problemstillinger, som undersøges af udviklere med henblik på konstruktion af effektive værktøjer, der forhåbentlig gør det muligt for brugerne at overveje nye biologiske eller medicinske problemstillinger.

Den beskrevne opdeling i brugere og udviklere er grov og skal ikke forstås som en enten-eller opdeling; en forsker kan sagtens være både bruger og udvikler i forskellige dele af sit arbejde, ofte er det dog klart hvilken af de to aktiviteter der udgør tyngden i arbejdet. Det er ligeledes vigtigt at understrege, at udvikling spænder fra teoretisk arbejde indenfor matematik, statistik eller datalogi, over mere praktiske aktiviteter i forbindelse med softwareudvikling, til opsætning og sammensætning af eksisterende programmer og databaser. Arbejdet med at udvikle et bioinformatisk værktøj tager ofte sit udgangspunkt i en statistisk modellering og beskrivelse af den biologiske problemstilling, efterfulgt af overvejelser om de algoritmer og datastrukturer, der skal udgøre det beregningsmæssige fundament i løsningen. Herefter følger udvikling og indkøring af den software, der implementerer den beskrevne løsning. Typisk skal det færdige program kunne bruge data fra en række gængse databaser samt betjenes via en www-grænseflade. Alt i alt kræver udvikling af et bioinformatisk værktøj en lang række teoretiske og praktiske færdigheder fra både biologi, molekylær biologi, statistik og datalogi. Behovet for udvikling af teoretisk velfunderede værktøjer vil vokse i takt med datamængden og de mere komplicerede biologiske spørgsmål der ønskes besvaret.

Etablering af Center for Bioinformatik

Aarhus Universitet har en lang tradition for forskning og undervisning indenfor bioinformatik. Jotun Hein, som indtil 1. september 2001 var lektor ved Afdeling for Genetik og Økologi, Aarhus Universitet, men nu er professor i bioinformatik ved Oxford University, har undervist en lang række kurser indenfor bioinformatiske emner. Disse kurser er blevet fulgt af forskere og studerende fra både biologi, datalogi og statistik, hvilket tidligt førte til etableringen af en gruppe på tværs af eksisterende institutter med en fælles interesse for bioinformatik. Ved Datalogisk Institut har der f.eks. gennem forskelllige samarbejder været aktiviteter indenfor bioinformatik i snart 10 år; dels gennem studerende, der har arbejdet som studenterprogrammører på bioinformatik relaterede projekter, dels gennem en række kandidat- og Ph.D.-projekter.

Center for Bioinformatik, eller Bioinformatics Research Center (BiRC), ved Aarhus Universitet blev etableret i januar 2001 som et samarbejde mellem Det Naturvidenskabelige Fakultet, Det Sundhedsvidenskabelige Fakultet og Aarhus Universitetshospital. Centerets aktiviteter er for nuværende baseret på en bevilling fra Aarhus Universitets forskningsfond fordelt over fire år. Etableringen af BiRC er i stor udstrækning foretaget med udgangspunkt i den gruppe af, der blev etableret omkring Jotun Heins tidlige aktiviteter indenfor bioinformatik.

I marts 2001 flyttede BiRC ind i Officersbygningen beliggende i den sydlige del af Universitetsparken. For tiden er der otte videnskabelige medarbejdere, seks kandidat- og Ph.D.-studerende, samt otte studenterprogrammører, som har kontorplads i Officersbygningen. Herudover er der en række forskere og studerende fra både datalogi, biologi, molekylær biologi, statistik og medicin, som er tæt knyttet til BiRC gennem forskellige samarbejder. Endvidere huser Officersbygningen to medarbejdere fra Biobasen ved Aarhus Universitet samt to medarbejdere fra en nystartet bioinformatik virksomhed, som arbejder med softwareudvikling.

Siden etableringen af BiRC er de lokale aktiviteter indenfor bioinformatik blevet styrket, såvel i form af nyansættelser af både forskere og studenterprogrammører, som i form af nye interne og eksterne samarbejdspartnere, heriblandt det tætte samarbejde med Biobasen. Hovedparten af de forskere og studerende der for tiden er direkte knytte til BiRC er udviklere, hvilket afspejler den ønskede profil, som et center for udvikling af bioinformatiske metoder i bred forstand.

En kandidatuddannelse i bioinformatik

Gennem årene er der ved Aarhus Universitet blevet udbudt en række kurser indenfor bioinformatik (se vores www-side http://www.birc.dk/Sstudies for en delvis oversigt). I forbindelse med etableringen af BiRC var det naturligt også at overveje at etablere et sammenhængende uddannelsesforløb i bioinformatik. Uddannelsesforløbet blev tilrettelagt som en 2-årig kandidatuddannelse ved IT-Vest og Aarhus Universitet, der bygger på en bacheloruddannelse i biologi, molekylærbiologi, medicin, datalogi, statistik, matematik, eller lignende uddannelser. Uddannelsen er struktureret som halvandet år med fag i et omfang af 18 studiepoint (960 ECTS) efterfulgt af et specialeprojekt på et halvt år. Samarbejdet med IT-Vest var naturligt, da de i samarbejde med bl.a. Aarhus Universitet, Aalborg Universitet, Syddansk Universitet og Handelshøjskolen i Aarhus udbyder en lang række andre informationsteknologiske overbygningsuddannelser, se www.it-vest.dk for yderligere information om IT-Vest.

Formålet med kandidatuddannelsen i bioinformatik ved Aarhus Universitet er at give studerende med en forudgående akademisk baggrund på mindst bachelorniveau en videregående uddannelsen indenfor bioinformatik, hvor d. Der fokuseres på softwareudvikling og centrale emner inden for biologi og statistik. De studerende uddannes til udviklere med en god forståelse for de problemstilling som brugere arbejder med. Uddannelsens kerneområder er: Programmering, algoritmer og datastrukturer, udvikling af store software systemer, håndtering af store datamængder, analyse af biologiske sekvenser og strukturer, molekylær evolution og statistiske modeller. Disse emner dækkes gennem et 2-årigt fuldtidsstudium bestående af omkring ti kurser og et speciale projekt. Undervisningen tilrettelægges som en kombination af forelæsninger og øvelsestimer på mindre hold, hvor der under hele forløbet lægges lige vægt på teori og praksis.

Sammensætning af et 2-årigt uddannelsesforløb

Med udgangspunkt i de kvalifikationer der findes i BiRC valgte vi at fokusere på et uddannelsesforløb der sigter mod at uddanne udviklere af bioinformatiske metoder med et solidt kendskab til brugernes behov. Uddannelsesforløbet er derfor tilrettelagt så det giver den studerende specielle forudsætninger for at medvirke ved udviklingen af bioinformatiske værktøjer og deltage i analysen af de store mængder af genetiske og molekylærbiologiske data som er tilgængelige og som bliver indsamlet over de næste mange år. Derudover kvalificerer uddannelsen den studerende til at løse tekniske og designmæssige opgaver indenfor IT-området generelt, selvom studiet først og fremmest fokuserer på opgaver der relaterer sig til anvendelse af IT indenfor bioteknologi.

Speciale projekt

Bioinformatik og algoritmer

Sammensatte systemer

Genomanalyse

Algoritmer og datastrukturer

Molekylær populationsgenetik og evolution

Proteinstruktur

Grundlæggende programmering

Markov modeller

Biostatistik

Mat./Bio. begreber

Tabel 1: Uddannelsesforløbet i bioinformatik består af 10 kurser og et specialeprojekt fordelt over fire semestre.

Udvikling af effektive værktøjer til analyse og håndtering af store mængder biologisk data kræver solid fagkundskab til områder inden for biologi og statistik kombineret med stor ekspertise inden for softwareudvikling. Dette er hvad vi sigter mod at formidle i de ti kurser der sammen med et specialeprojekt udgør vores uddannelsesforløb i bioinformatik. Kurserne tager udgangspunkt i emner inden for datalogi, biologi og statistik som beskrevet nedenfor og sammensættes som vist i tabellen ovenfor.

Følgende kurser har udgangspunkt i datalogiske emner:

Grundlæggende Programmering: Indføring i UNIX omgivelser samt introduktion til programmeringsbegreber og metoder til systematisk udvikling og afprøvning af mindre programmer. Sideløbende fokus på grundlæggende bioinformatiske problemstillinger samt programmer der kan anvendes til løsning af disse.

Algoritmer og Datastrukturer: Indføring i grundlæggende algoritmer og datastrukturer, herunder søgning, fletning, sortering, lister, køer, stakke, træer. Derudover basal teori om korrekthed og effektivitet af algoritmer samt gennemgang af grundlæggende beregningsparadigmer, herunder del-og-kombiner, dynamisk programmering, samt kombinatorisk søgning.

Bioinformatik og Algoritmer: Indføring i effektive algoritmer, der løser specifikke biologiske problemstillinger. Indledningsvist fokus på metoder til sammenligning af to eller flere biologiske sekvenser, dels klassiske metoder, dels probabilistiske metoder baseret på skjulte Markov-modeller. Dernæst fokus på metoder til strukturforudsigelse og analyse af store datamængder, f.eks. clustering. Desuden teori om kompleksitet af problemer, specielt NP fuldstændige problemstillinger i forbindelse med sammenligning af flere sekvenser og forudsigelse af struktur. Ved øvelserne lægges vægt på implementation af metoder og eksperimentel undersøgelse af disses opførelse i praksis.

Sammensatte Systemer: Fokus på problemstillinger, der opstår når en programmeringsløsning kræver at flere komponenter kombineres.  Indføring i brug og udvikling af større programbiblioteker, kobling af eksisterende programmer med egne programmer ved brug af script-sprog, udvikling af brugergrænseflader samt brug af databaser til håndtering af store datamængder.

Følgende kurser har udgangspunkt i matematiske og statistiske emner:

Biostatistik: Elementær indføring i sandsynlighedsregning og statistik med henblik på biologiske anvendelser.  Sandsynlighedsregning behandles med henblik på de statistiske anvendelser. De statistiske modeller præsenteres i forbindelse med biologiske eksempler.

Matematiske Begreber: Introduktion, eller genopfriskning, af matematiske begreber. Eksempelvis lineær algebra, uendelige summer og integraler.

Markov Modeller: Introduktion til Markov-kæder og skjulte Markov-modeller, som i stor udstrækning anvendes til modellering af biologiske systemer.

Følgende kurser har udgangspunkt i biologiske emner:

Biologiske Begreber: Introduktion, eller genopfriskning, af molekylær biologiske begreber og arbejdsmetoder.

Molekylær Populationsgenetik og Evolution: Belyser hvordan DNA sekvenser kan benyttes til at undersøge evolutionære processer i populationer samt fylogenetiske sammenhænge mellem organismer. M.  Modeller, metoder og problemer i analysen af DNA sekvenser vil blive gennemgået og diskuteret, og der vil blive lagt vægt på metodernes anvendelse på sekvensdata fra vidt forskellige typer organismer. Computere vil blive benyttet til visualisering af modeller samt løsning af opgaver.

Proteinstruktur: Indføring i de begreber, der anvendes inden for moderne biomolekylær strukturbeskrivelse samt nogle af de principper, der ligger til grund for makromolekylers foldning og deres vekselvirkning med andre molekyler. Desuden søgning efter strukturel information ved anvendelse af strukturdatabaser.

Genomanalyse: Metoder til analyse af hele genomer; herunder gen-finding, søgning efter regulatoriske sekvenser, rekonstruktion af metabolske pathways samt funktionel klassifikation af gener. Anvendelse af DNA-chip teknologi.  Desuden fokus på udvikling af genomer, eksempelvis populationsvariation og homologimodellering på genomniveau. Endelige anvendes computerprogrammer til analyse af tilgængelig genomdata.

Et fleksibelt studieforløb

Da bioinformatik spænder over en række forskellige fagområder vil en uddannelse i bioinformatik naturligvis henvende sig til studerende med forskellige baggrunde såsom datalogi, biologi, statistik eller ingeniørvidenskab eller. Vi har forsøgt at tilrettelagt vores uddannelsesforløb således at studerende med en baggrund der betyder at de allerede har kundskaber svarende til et eller flere kurser kan følge øvrige kurser ved Aarhus Universitet. Eksempelvis vil en studerende med en bachelorgrad i datalogi ikke have behov for at følge Grundlæggende Programmering og Algoritmer og Datastrukturer, men kan så vælge at følge nogle af de øvrige kurser der udbydes ved Datalogisk Institut.

Denne fleksibilitet i sammensætning af kurser betyder at vi forholdsvist nemt kan sammensætte et relevant uddannelsesforløb for studerende med meget forskellige baggrunde. Kurser som Bioinformatik og Algoritmer, Sammensatte Systemer og Genomanalyse vil dog være nye for hovedparten af de studerende og vil således være med til at binde en inhomogen gruppe af studerende sammen.

Konklusion

Det beskrevne uddannelsesforløb i bioinformatik blev godkendt af ministeriet i sommeren 2001 med henblik på opstart i 2002. I det forgange forårssemester har vi haft et par studerende, der har fulgt nogle af de kurser der allerede udbydes. I løbet af foråret har vi ad forskellige kanaler reklameret for uddannelsen og bioinformatik, hvilket har resulteret i et optag på i alt 8 studerende, der starter på uddannelsen i september 2002. Dette tal forventes at stige i takt med at kendskabet til uddannelsen samt bioinformatik generelt efter al sandsynlighed vil øges.