Bioinformatik – fremtidens "tørre" laboratorium

Publiceret Juli 2002

Går man rundt på et universitetsinstitut eller forskningscenter vil man møde et udbredt og uundværligt forskningsudstyr i ethvert lokale: computeren. Engang blev den først og fremmest brugt til tekstbehandling og figurtegning, men i løbet af få år er computeren for de fleste forskere blevet et alment og dagligt videnskabeligt værktøj. Den er nødvendig for at opsamle og analysere resultater, søge og læse videnskabelig litteratur, offentliggøre artikler, og kommunikere med kolleger. Det er resultatet af den tredje videnskabelige revolution i det 20. århundrede, som nu udfolder sig. Efter atomfysikken og gensplejsningen revolutionerede naturvidenskaben og menneskeheden, betød informationsteknologien en endnu større omvæltning. Informationsteknologi har gjort opsamling af resultater så let indenfor et stigende antal områder, så adgang til resultater ikke længere er den begrænsende faktor for at undersøge videnskabelige problemer. Sagt på en anden måde: Vi bliver oversvømmet af resultater, som vi ikke kan analysere. Paradoksalt er begrænsningen i dag selve computerteknologien. Indtil i dag er computere baseret på silicon chips og deres hastighed er steget eksponentielt. Nærmer vi os den teoretiske grænse for silicon-baseret teknologi, hvor alternativer som "quantum computing" kan blive løsningen? Der er brug for mere computerforskning og udvikling af nye systemer, som kan skabe sammenhæng i de mængder af informationer, computerne har gjort os i stand til at samle. Udfordringen er, at udvikle systemer til at analysere informationer, som er så komplekse, at vi ikke selv kan overskue dem.

Hvad får millioner af forskere foran computerskærmene tiden til at gå med? Udover tekstbehandling, figurtegning, e-mails og webbrowsing bruges computeren til analysering, modellering, simulering, søgning og visualisering af resultater. I molekylærbiologien udvikles metoder til at beherske de enorme mængder af ny viden om genomet. Computere udvikles, så de kan lære under arbejdet og give større fleksibilitet i indsamling og analyse af resultater. Nye metoder til at søge information og videnskabelige resultater er under udvikling af den videnskabelige publikationsindustri.

For godt 10 år siden så en ny disciplin indenfor naturvidenskaben dagens lys og den har siden vokset sig stor og stærk: Bioinformatik. Ikke alle anerkender bioinformatik som et selvstændigt forskningsområde med sit eget teoretiske grundlag og uafhængige anvendelsesområde. Skeptikerne spørger: Er bioinformatik en videnskab eller bare en teknologiplatform? Eller sagt ligeud, hvor er forskningen i bioinformatik? Hvis det er et forskningsområde, hvad er det teoretiske fundament og de vigtigste fremskridt? Hvilken rolle spiller computerberegninger ("computation") i eksperimentel forskning? Er en sammenligning af hundreder af genomsekvenser for at finde bevarede genstrukturer bare et biologisk problem undersøgt med computermetoder? Kan alle tekniske aspekter af computerforskning i molekylær biologi betegnes som bioinformatik?

Fortalerne svarer: Bioinformatik er en stor succes. Den dækker over teori og praksis for computation indenfor alle områder af biologisk forskning, lige fra ren forskning i algoritmer til computation anvendt i eksperimentel forskning. Bioinformatik har haft medvind takket være den eksplosive vækst i computerteknologi samtidig med udviklingen af strømlinet forskning betegnet "high-throughput" biologi (genomics, proteomics, etc.). Der er ingen tvivl om at moderne bioinformatik har bidraget til udviklingen af flere nye områder i biologien og forøget vores viden om biologiske systemers struktur, funktion og evolution. Det er derfor relevant at undersøge, hvilke er de vigtigste bestanddele i bioinformatik og hvad er tilknytningen til de biologiske videnskaber?

Bioinformatik er et frodigt forskningsområde, som repræsenterer en ny slags biologi, den resultat-styrede, induktive analyse og simulering af biologiske systemer. Fundamentale områder indenfor naturvidenskab bl.a. proteiners sekvenshomologi, analyse af proteinstruktur, dyrearters fylogeni og taxonomi, simulering af molekylære netværk og annotering af genomet bliver undersøgt med bioinformatik. Bioinformatik kan føres tilbage til begyndelsen af 1980'erne samtidig med starten af molekylærbiologien. Milestene i udviklingen er algoritmer til sammenligning af proteinsekvenser (tidlige 1980'er), fri adgang til data og databaser (midt 1980'er), hurtige systemer til databasesøgning (sene 1980'er), sofistikerede systemer til forudsigelse af proteinstruktur (tidlige 1990'er), annotering af genomet (midten af 1990'er) og systemer til functional genomics (sene 1990'er). Svaret på spørgsmålet, om bioinformatik er et selvstændigt forskningsområde og ikke kun en teknologiplatform, er bekræftende. Computation er et centralt element i moderne forskning. Den eksperimentelle biologi bruger bioinformatik på linie med andre teknologier (gensplejsning, elektronmikroskopi, massespektrometri, etc.) til at udforske vigtige spørgsmål. Computerforskere betragter deres sofistikerede og omhyggelige beregninger som virkelige, "tørre" forsøg med kontroller og testning af hypoteser. I dag rangerer bioinformatik på linie med de øvrige discipliner i den eksperimentelle biologi.

Ethvert etableret forskningsområde har sin internationale konference og sit internationale selskab.  Siden 1993 har en gruppe computerforskere afholdt den årlige International Conference on Intelligent Systems for Molecular Biology (ISMB) med stigende deltagelse. I 2001 blev konferencen holdt i København (Tivoli!) med 1300 deltagere. Initiativtagerne til konferencen var forskere med interesse for kunstig intelligens. Da computerforskere og biologer med "cross-over" interesser mødte hinanden ved de første konferencer var kløften mellem disciplinerne dyb. Biologerne forstod ikke meget af computerforskningen og computerforskerne forstod ikke meget af biologien. Biologerne mente at opbygning af et databaser var et overvældende problem og computerforskerne ville sige: "Det er ingen større sag; vi kan lave en database, som kan rumme det". Når computerforskere holdt foredrag om samling af DNA sekvenser sagde biologerne: "Nej! I mangler alle de svære dele". Siden er kløften blevet mindre takket være gensidig oplæring.

International Society for Computational Biology (ISCB) blev oprettet i 1997 for at være den officielle og internationale organisation bag den årlige internationale ISMB konference. ISCB er et akademisk selskab dedikeret til at fremme den videnskabelige forståelse af levende systemer gennem computation. Hovedvægten er på betydningen af informationsteknologi i udviklingen af molekylær biologi. Bioinformatik - den unikke blanding af molekylær biologi og computerforskning - er blevet voksen i de sidste år, og har fået status af en selvstændig videnskabelig disciplin. Et kik på programmet for den internationale ISMB konference giver et godt indtryk af bioinformatik: "Genome Annotation; Functional Genomics; Systems Biology; Predictive Methods; Microarrays; Structural Biology; Data Visualization; Phylogeny and Evolution; Data Mining; Sequence Comparison".

Enkelte eksempler kan belyse, at bioinformatik har haft stor betydning  i de sidste 10 år. Offentliggørelsen af sekvensen af det humane genom i 2001 står som en enestående bedrift i naturvidenskaben. Fremtidige generationer må afgøre om det førte til et paradigme skift i biologien og biomedicinen, at vi nu kan læse "Livets Bog". Det er uden for al tvivl, at bioinformatik var et væsentlig element i succesen af det humane genomprojekt. Uden kraftige computersystemer, sofistikerede algoritmer, avanceret databehandling og ikke mindst, dygtige computerbiologer, ville indsatsen være dømt til at mislykkes. I den postgenome fase er udfordringen til bioinformatikken at udvikle systemer til funktionel genomics.

Systembiologi beskriver kontrol og kommunikation i hele organismer. I dag kan analyser på systemniveau fortolkes på det molekylære niveau takket være molekylærbiologien med sekventering af genomer og måling af genekspression på genchips. Simuleringssoftware er en vigtig komponent i systembiologien. På baggrund af hypoteser udarbejdes modeller, som simuleres i "tørre" forsøg. Computersimulering forudsiger resultater, som kan undersøges i "våde" forsøg. Herefter forkastes eller bekræftes modellen.  

Computer-aided design (CAD) af mikroorganismer anvendes til at udvikle genetisk modificerede bakterier til industrielle bioprocesser. Mange gener i bakterierne er unødvendige i de industrielle omgivelser, som i modsætning til de naturlige omgivelser er velkontrollerede. Ved simulering af bakteriens metabolisme lykkedes det at konstruere en virtuel celle med 127 gener fra Mycoplasma genitalium genomet, som er tilstrækkelige for "selv-opholdelse". Generne omfatter transcription, translation, membrantransport, glycolyse og phospholipidsyntese. Nogen vil sige, at det ikke er andet end et biologisk legetøj, men legetøjsmodellen består ikke desto mindre af 495 reaktioner og 4268 molekyler.

Bioinformatikken vil ændre fokus og indhold i den postgenome fase. Indtil nu har analyse af nukleotidsekvenser, proteinsekvenser og strukturer været bioinformatikkens kød og blod. I fremtiden vil analyse af transkripter på genchips, proteomics, molekylære interaktioner, metaboliske netværk og vævsmorfologi være emnerne for bioinformatik. Vi er på vej mod den "hellige gral" i computerbiologien: udarbejdelsen af realistiske, detaljerede in silico modeller af komplekse biologiske systemer med molekylære, tidsmæssige og rumlige parametre. Hvad betyder denne udvikling for fremtidens bioinformatik? Hvordan skal vi uddanne den næste generation af forskere? Basal forståelse af algoritmer og erfaring med programmering er essentiel for enhver studerende. Derudover er det nødvendigt at bibringe en grundig indsigt i databasemetoder, modelleringsteknikker, kompleks data præsentation, database integration, videns management og simulering. Det er opmuntrende at de danske universiteter har taget fat på udfordringen og vil placere bioinformatik på linie med de øvrige fag, som indgår i den eksperimentelle og molekylære biologi.