3200000000 G, A, T og C'er klogere

Publiceret Juli 2000

Under festlige former var USAs præsident Bill Clinton den 27. juni vært for et arrangement, hvor lederen af det offentlige Human Genome Project, Francis Collins sammen med Craig Venter fra den private rival Celera fejrede at de to havde fremstillet en første råskitse af den humane genomsekvens. Men hvad kan vi så bruge al denne information til?

Fra DNA til funktion

At forstå liv er langt hen af vejen et spørgsmål om at forstå hvordan proteiner laves. I den moderne biologi opfatter vi livets funktionelle enhed - cellen - som et gigantisk samspil mellem alle de forskellige proteiner (og RNA molekyler), som generne koder for. Nogle proteiner udgør strukturelle komponenter i cellen mens andre fungerer som enzymer, der katalyserer dens mange biokemiske reaktioner. I en kompliceret organisme som et menneske, der består af op mod 1014  celler, er der endvidere en vis arbejdsdeling mellem de forskellige celletyper. En celle i vores lever indeholder f. eks. nogle andre proteiner end en hjernecelle, og denne forskel fremkommer ved at der er forskellige gener som er tændt og slukket i de to celletyper.

Eftersom vi kender den genetiske kode cellerne benytter sig af til aflæsning af gener, så vil vi udfra genomsekvensen - i princippet - kunne beregne den eksakte aminosyrerækkefølge for alle proteinerne i mennesket. Dette var baggrunden for at iværksætte det humane genomprojekt for mere end 10 år siden, og nu står vi med alle 3,2 milliarder bogstaver i det man har kaldt "livets bog". Betyder det så at vi nu forstår menneskets biologi ned i den mindste detalje? Svaret er er i første omgang nej - desværre.

Hvor ligger generne?

Det første problem vi møder, er annoteringen af genomet, dvs bestemmelsen af hvor på DNAet de enkelte gener begynder og slutter. Det er kun cirka 3 % af genomet, som koder for proteinsekvenser, og det har vist sig at være et ikke-trivielt problem at definere hvilke sekvenser der er exons (dvs proteinkodende), og hvilke der er introns eller intergeniske regioner. Problemets omfang fremgår af det forhold at selv nu hvor vi kender hele sekvensen, så svinger genomforskerenes skøn over antallet af gener stadig fra 35.000 til 150.000. Et særligt problem udgøres af alternativ splejsning, som potentielt kan mangedoble antallet af proteiner. Vi ved stadig meget lidt om den biologiske signifikans af alternative proteinprodukter fra samme gen.

Det kan forventes at bioinformatiske metoder vil blive vigtige i annoteringsarbejdet, men i mange tilfælde vil eksperimentel verificering af de forudsagte proteinprodukter være nødvendig. Under alle omstændigheder må vi nok indstille os på at der går adskillige år før vi har en nogenlunde troværdig annotering af genomet.

Men selv når det lykkes at lave en høj-kvalitets annotering, så vil det gælde for langt de fleste proteiner, at på trods af at vi kender deres aminosyresekvens, kender vi ikke deres funktion.

Genetik som værktøj

Størsteparten af vores viden om proteiners funktion har vi fra genetik. Genetikeren benytter sig  af en "destruktiv" tilgang når han skal  finde ud af hvad et gen gør. Først ødelægger han genet og så ser han hvilken proces organismen ikke længere kan udføre. Derfra kan han så resonnere ?baglæns? og finde ud af hvad det normale gen gør i en rask organisme. Studier af sådanne mutanter der er defekte i et givet gen har især været informative i encellede modelorganismer som bakterier og gær. Ved en kombination af genetiske og biokemiske metoder har man fået identificeret en lang række gener som koder for proteiner, der er ansvarlige for  den basale husholdning i cellen.

Nu er det så heldigt at mange af disse husholdningsgener ligner hinanden en hel del fra organisme til organisme - en slags molekylær vidnesbyrd om Darwins udviklingsteori - nok til at man kan identificere de tilsvarende menneskegener udfra sekvensen. Men det fortæller os kun om funktionen af en meget lille del af generne. En gærcelle indeholder f. eks. kun ca. 6000 gener, og der er stadig mange af disse vi ikke kender funktionen af.

I takt med at flere og flere genomer bliver sekventeret vil sekvenssammenligninger blive af stigende betydning i arbejdet med at forudsige proteiners funktion. Men ofte vil bioinformatikken blot give os en generel viden om det pågældende protein, f. eks. at det ligner en transkriptionsfaktor eller at det har en homolog i bananfluer. Hvis vi vil vide hvad vores protein gør, må vi stadig rejse os fra computeren og gå ind i laboratoriet.

Det er naturligvis ikke muligt direkte at lave genetiske eksperimenter med mennesker. Dels kan vi af etiske grunde ikke bare sådan begynde at ødelægge løs på vores gener for at finde ud af  hvad de gør. Men selvom vi kunne, ville der være store tekniske problemer forbundet med at udføre sådanne forsøg - på mange måder de samme vanskeligheder der hidtil har gjort behandling af sygdomme ved hjælp af genterapi perspektivløs.

I stedet kan man bruge mus som modelsystem. Musen ligner mennesket genetisk, og de fleste menneskegener genfinder vi i en beslægtet udgave hos musen. Tilmed kan man i mus ved hjælp af knock-out teknikken specifikt eliminere et givet gen og så studere hvilke konsekvenser det får for musen. Der er derfor en meget stor interesse i at sammenligne de to genomer, og både NIH og Celerea har annonceret at man agter at sekventere hele muse-genomet. Knock-out teknikken er imidlertid ikke uden problemer. Den er forholdsvis kostbar og langsommelig, og ofte vil musens fænotype ikke umiddelbart give en svaret på hvad genets funktion er. 

Arvelige sygdomme

En anden kilde til viden om funktionen af humane gener er arvelige sygdomme. Man kan sige at disse sygdomme udgør naturens eget genetiske eksperiment, hvor symptomerne på sygdommen indirekte giver os en ide om hvad funktionen af det tilsvarende raske gen normalt er. Nu er arvelige sygdomme, hvor der kun er et enkelt gen der er gået i stykker, ret sjældne, og for mange af disse har man allerede identificeret det ansvarlige gen inden sekventeringsprojektet nåede frem til det.

For de fleste sygdomme er der tale om et kompliceret samspil mellem flere forskellige gener og påvirkninger fra miljøet. F. eks. så ved vi bl.a. fra studier af enæggede tvillinger at man kan være arveligt disponeret for at udvikle diabetes, men der er masser af mennesker som på trods af en disponering aldrig udvikler sygdommen. Noget tilsvarende gælder for nogle af de store folkesygdomme som cancer og hjerte- karsygdomme, og i en vis udstrækning også for psykiske lidelser som f. eks. schizofreni og maniodepressivitet.

SNP - statistiske pejlemærker

Med den færdige genomsekvens i hånden findes der en genvej til at studere den arvelige komponent af sådanne komplekse sygdomsdisponeringer eller tilstande. En slags black-box tilgang, hvor man benytter sig af en statistisk metode til at anskueliggøre at en given DNA region er involveret. Metoden udnytter det forhold at DNA stykker som ligger tæt på hinanden på kromosomerne har en tendens til at blive nedarvet sammen fra generation til generation. Hvis man derfor opsætter en række "pejlemærker" med tætte mellemrum  hele vejen langs genomet, vil man kunne spørge om der er nogle af disse mærker, der ofte findes sammen med sygdommen man interesserer sig for.

I praksis opsætter man ikke pejlemærker, men udnytter den naturlige variation der er i DNA sekvensen fra person til person. I snit udviser en ud af 300 baser i DNAet forskelle, og nogle steder i DNAet er disse forskelle af en sådan art at mennesker kan deles op i to grupper (lidt på samme måde som ens blodtype kan være enten rhesus positiv eller rhesus negativ). Disse polymorfier kaldes SNPer ("single nucleotide polymophisms"), og man anslår at når man har fundet 200.000-300.000 SNPer jævnt fordelt hen over genomet, så vil alle gener være dækket ind.

Et sådant SNP kort er især interessant fordi man i dag ved hjælp af chips-teknologien udfra en DNA prøve meget hurtigt kan bestemme profilen af samtlige 300.000 SNP polymorfier hos en person. DNA chipsene fungerer på den måde at man for hver eneste af de 300.000 SNP har to sonder som måler om den ene eller den anden udgave af sekvensen er repræsenteret i DNA prøven. Ved at sammenligne en gruppe personer som lider af en given sygdom med en rask kontrolgruppe, vil man muligvis kunne finde frem til en eller flere SNPer, som har en forskelig statistisk fordeling i de to grupper, hvilket antyder at de ligger i nærheden af et gen som har betydning for udviklingen af sydommen.

Man kan så begynde at lede på DNAet i omegnen af SNPen efter et gen som er muteret hos (en relativt større del af) patientgruppen. Medicinalfirmaet Glaxo Wellcome har på den måde og udfra et foreløbigt SNP kort identificeret to gener, som man mener har betydning for udviklingen af Alzheimer's sygdom. Man kan dernæst begynde at studere den molekylærbiologiske sammenhæng de pågældende gener virker i, og på den måde arbejde sig frem mod en egentlig forståelse af sygdomsmekanismen. Denne viden kan danne basis for en mere målrettet udvikling af nye typer medicin.

Risikogrupper

Man kan også blot vælge at benytte SNP informationen til at opdele personer i forskellige risikogrupper med hensyn til en given sygdom. Højrisikogrupper for f. eks. visse cancerformer kan så screenes, så sygdommen opdages tidligere. Eller man kan sætte ind med forbyggende arbejde i form af diæt over for personer som er disponeret for at udvikle hjerte-karsygdomme.

En anden mulighed er at benytte SNP screeninger til at identificere personer der ikke kan tåle forskellige former for medicin. Således planlægger Glaxo Welcome at benytte en SNP screening til at identificere patienter som ikke kan tåle firmaets præparat Lamictal. Lamictal bruges mod epilepsi, men en lille del af patienterne udvikler nogle meget voldsomme bivirkninger efter behandlingen. Hvis disse bivirkninger er genetisk betingede, vil man kunne finde frem til en SNP profil for disse, og så screene patienterne inden behandlingen igangsættes.

SNP konsortiet 

Interessen for at fremstille SNP kortet over det humane genom er derfor enorm, og flere bioteknologiske virksomheder iværksatte for et par år siden storstilede SNP programmer i 100 millioner dollars klassen. Det drejede sig i første række om de amerikanske firmaer Celera, Incyte og Curagen og om franske Genset. Meningen var selvfølgelig at man ville sælge retten til at benytte SNP kortet eller sælge DNA chips som direkte kan monitorere SNP profilerne.

Netop udsigten til at disse firmaer skulle komme først med det patenterede SNP kort og dermed i praksis kontrollere anvendelsen af genomet til medicinske formål fik sidste år 10 af verdens største medicinalfirmaer til at gå sammen i et utraditionelt samarbejde med den britiske fond The Wellcome Trust. Firmaerne - der tæller sværvægtere som SmithKline-Beecham, Novartis, Bristol-Myers Squibb, Hoffmann-La Roche og Glaxo Wellcome - dannede sammen et konsortium som planlægger at kortlægge 300.000 SNPer fordelt udover hele genomet. Meningen er at konsortiets SNPer skal offentliggøres løbende og være frit tilgængelig for alle (se konsortiets hjemmeside: http://snp.cshl.org).

Denne alliance er naturligvis ikke udtryk for at disse firmaer er blevet idealister og har opgivet at tjene penge. Initiativet viser tværtimod at den basale viden om genomet fremover bliver af så central betydning for medicinalbranchen, at man ikke ønsker at se nogen form for begrænsning i adgangen hertil.

DNA og skæbne

Som det fremgår af ovenstående er sammenhængen mellem vores gener, og hvad vi er, langtfra simpel. Der er en skærende kontrast mellem den lineære relation fra DNA sekvens til aminosyrerækkefølge på den ene side, og så det komplekse og nonlineære samspil vores gener udviser med omgivelserne i formningen af "fremtoningspræget" - med Wilhelm Johannsens træffende ord - eller fænotypen som vi kalder det nu om dage.

Og lige så velegnet vores reduktionistiske logik var til at afdække hvordan den genetiske kode fungererede, lige så meget kommer den til kort i beskrivelsen af  processerne som fører fra genotype til fænotype (det vil alle der har prøvet at bruge genetik til at beskrive dynamikken i et netværk af proteinkinaser kunne snakke med om!).

I mangel af bedre kan vi ty til statistiske metoder som f. eks. SNP analyserne. Men det er vigtigt at vi erkender disse metoders begrænsninger, i og med at de udtaler sig om korrelationer frem for årsagssammenhænge. Biologiske systemer er kendetegnet ved en robusthed og redundans som bevirker at en given genotype kan fortolkes vidt forskelligt -  af genetiske, af miljømæssige, af historiske eller af stokastiske årsager. Hvis vi derfor får at vide at vi har en SNP profil der indebærer X % risiko for at få coloncancer eller for at udvikle schizofreni, så er det ikke ensbetydende med at vi får disse tilstande. Vi kan blot tænke på de (100-X) % af befolkningen der lever lykkeligt med den samme SNP profil uden at udvikle sygdommene (og X vil som regel være meget mindre end 50). I tiden fremover vil vi opleve en strøm af diagnostiske DNA kits fra spåmændende i medicinalindustrien, og det bliver en stor udfordring at holde fast i at disse ikke nødvendigvis rummer svaret på vores skæbne.