Bioinformatik og lægemidler

Publiceret Juli 2002

Lægemiddelindustriens mål er, ikke overraskende, at udvikle nye og bedre lægemidler. Selektionen af hvilke projekter der er interessante er en kompliceret proces, hvor der indgår en række parametre: Hvilket behov er der for et nyt lægemiddel indenfor et sygdomsområde? Hvor sikker er diagnosen? Kendskab til de underliggende sygdoms mekanismer og hvilken erfaring besidder firmaet, patent situationen etc. I analysen af mulige behandlings former indenfor en diagnosticeret sygdom kan der identificeres såkaldte "unmet needs" – sygdomme hvor der ikke eksistere en tilstrækkelig god behandling. Et af målene for forskningen er derfor at identificere de potentielle targets imod hvilke lægemidler kan udvikles.

Nye targets

Historisk set har mere eller mindre tilfældige observationer af stoffer, der påvirker CNS funktioner bidraget væsentlig til vores forståelse af og identifikation af neurotransmitter systemer. Den mere rationelle udvikling af lægemidler har været et tæt samspil mellem medicinalkemien og dyreadfærdsbiologien. Med udviklingen af radioisotoper i 1960'erne udvikles der en begyndende forståelse af den molekylære kompleksitet af neurotransmitter receptorerne. Kloningen af receptor familierne i 80'erne og 90'erne gav mulighed for at tilskrive effekt og bivirkninger til forskellige receptorer. Med genom sekvensen [1,2] har mulighederne ændret sig fra at arbejde med farmakologisk velbeskrevne receptorer, til nu at skulle håndtere et stort antal molekylært identificerede potentielle targets hvis funktion i relation til funktion og sygdomme endnu er ukendt. Analyseres alle de lægemidler der i dag er på markedet interagere de med 4-500 primære target proteiner, typisk G-protein koblede receptorer, enzymer, transporter, ionkanaler etc. Disse er typisk proteiner der naturligt interagere med små endogene ligander.

Diagram for target identifikation/validering af G-protein koblede receptorer
Figur 1. Diagram for target identifikation/validering af G-protein koblede receptorer. Identifikationen af potentielle nye target proteiner er en multi-disciplinær proces hvor bioinformatik og molekylær biologiske processer indgår som en integreret enhed.

Sammenlignes antallet af target proteinerne med antallet af identificerede gener før sekventeringen af det humane genom, var der i medicinalindustrien en forventning om, at genom sekvensen ville give ophav til mellem 4-5000 nye targets. Tal hvis størrelse især blev promoveret af den del af industrien, der var involveret i sekventeringsprogrammerne. Antallet af gener er endnu ikke afklaret, men indenfor de traditionelle target klasser, hvor lave mere specifikke søgninger er muligt synes antallet af nye targets at være betydeligt mindre end forventet (se figur 2). Blandt target klasserne er G-protein koblede receptorer det primære interaktions molekyle for ca 40 % af alle lægemidler. Det var derfor naturligt for Lundbeck at fokusere på nye target proteiner indenfor denne klasse.

Hvorledes kan det sandsynliggøres at en given receptor vil være et godt target for lægemiddeludvikling og for hvilken sygdom? Den gren af bioinformatikken der beskæftiger sig med gen identifikation udgør den væsentligste del i de indledende faser. Vi benytter en række metoder baseret på forskellige sekvenssammenlignings algoritmer, til at identificere potentielle kodende sekvenser. De identificerede sekvenser analyseres for mulige konserverede motiver. Først undersøges hvorvidt fordelingen af hydrofobe og hydrofile aminosyrer er i overensstemmelse med en 7-transmembran topologi. Der anvendes statistiske modeller i form af "Hidden Markov Modeller" [3] og Neurale Netværk [4] til forudsigelse af trans-membrane protein segmenter. Hvis det kan sandsynliggøres, at en given sekvens indeholder 7 transmembrane domæner antages det, at den kan tilhøre familien af G-protein koblede receptore. Derudover undersøges, om de identificerede sekvenser indeholder sekvens motiver (eg. -DRY- element i klasse 1 rhodopsin lignende receptorer), der er essentielle for funktion. Resultatet af disse analyser er en "orphan" receptor (da agonisten ikke er kendt). Dernæst forsøges en klassifikation baseret på sammenligninger med kendte receptorer for, at få en indikation af hvilken type ligand, der kan tænkes at aktivere receptoren. (Dvs. monoamin lignende ligand, nukleotid, peptid lignende ligand etc.). Til klassifikation anvendes også statistiske modeller i form af "Hidden Markov Model" profiler (eller Pfam) [5], sekvens alignment profiler eller identifikation af sekvens familie specifikke sekvens motiver (Prnts) [6]. Hvis to eller flere klassifikations metoder indikerer en identisk sub-familie relation antages sekvensen at tilhøre denne familie.

Target valideringen fortsætter med den del af bioinformatikken, der søger at strukturere diverse biologiske informationer. Informationer om receptorens normale ekspressions mønster i dyr og mennesker, og om det er ændret under forskellige sygdomstilstande inddrages. Informationer om kendte genetiske variationer og hvorvidt der er information om orthologe receptorer (ækvivalente receptorer i andre specier). Det undersøges desuden om genet er forsøgt deleteret i en dyre model (gen "Knock Out"). Baseret på disse oplysninger udvælges kandidat gener, der potentielt kunne være involveret i CNS relaterede sygdomme indenfor Lundbecks interesse områder.

Antallet af forventede orphan GPCR
Figur 2. Antallet af forventede orphan GPCR og dermed potentielle nye target har ændret sig som følge af genom sekventeringerne og forbedrede bioinformatiske analyser I februar 2000 var forventningen baseret på en ekstrapolation fra de kendte genom sekvenser, at der endnu var mellem 2-400 ukendte GPCR og dermed ialt 350-550 orhphan receptorer. Ved publikationen af de første genom sekvenser blev det klart, at antallet var mindre ca 300 orphans. Som udviklingen af de bioinformatiske metoder er blevet forbedret er antallet af orphan receptorer blevet reduceret til ca 155 i februar 2002. Se en større gengivelse her.

Det er vigtigt at påpege, at bioinformatikken giver os mulighed for at lave en forhåbentlig optimal prioritering af de potentielle targets. Der er efterfølgende en række eksperimentelle muligheder for at udforske funktionen af receptorerne enten ved genetiske metoder som "knock out" eller "anti-sense" metoder.

En alternativ strategi er at screene receptoren mod selekterede biblioteker af stoffer (endogene ligander, metabolitter, kendte lægemiddler, peptider o. a.). Problemet er blot, at der i den form for screeninger er flere ukendte parametre. Det vides ikke med sikkerhed, om en given target sekvens er en G-protein koblet receptor, liganden er ikke kendt og endelig er signaleringskaskaden heller ikke kendt. Screeningsmetoderne til identification af agonister er derfor baseret på generaliserede signaleringspathways, hvor der benyttes flere forskellige G-proteiner, promiskøse G-proteiner eller muterede G-proteiner. Til identifikationen af antagonister kan benyttes muterede former af receptoren, der udviser konstitutiv aktivitet. Hvis det lykkedes at finde et aktivt stof, viser det sig ofte kun at være et værktøj til at finde andre mere selektive og høj affine stoffer, der kan benyttes til den egentlige target validering i dyremodeller. Endogene ligander kan også identificeres ved screening af naturlige peptide fraktioner isoleret fra væv. Denne sidste metode er dog temmelig arbejdskrævende, men er blevet betydelig hurtigere efter udvikling af sensitive massespektroskopiske metoder.

Komplementære og meget anvendte metoder til forståelse af sygdomsbiologien tager udgangspunkt i bestemmelsen af de molekylære forskelle mellem sygdoms- og normal-tilstanden. I genekspressionsanalyser bestemmes mRNA niveauer ved hjælp af micro array metoder[7] ,og proteomics metoder  identificeres ændringer i protein komplekser og modificerings niveauer ved hjælp af masse spektrometrisk analyse [8]. Disse metoder har dog indtil videre haft deres største betydning i diagnosen. Problemet med disse metoder set fra et lægemiddeludviklingssynspunkt er for det første, at det er svært at differentiere mellem årsag og virkning og for det andet, at en lang række regulerede proteiner falder udenfor de traditionelle target klasser, hvor det endnu ikke har vist sig muligt at udvikle små molekyler, der er virksomme lægemidler.

Genetik variation og lægemidler

Genom sekventering har også givet informationer om genvariationer i dyr og mennesker, som enkelt nukleotid variationer (single nucleotide polymorphism; SNP), grupper af SNP?er (haplotyper) og mikrosatellit variationer. En række parallelle tiltag, der systematisk har søgt at identificere polymorfier har vist, at der kan identificeres omkring én SNP pr 600 bp i det humane genom. Viden om SNP variationers betydning for virkningen af lægemidler har givet håb om at udvikle bedre lægemidler hvis virkningsmekanisme er tilpasset patienternes genotype. Denne type analyse anvendes allerede i nogen udstrækning i klinikken til klassifikation af cancer typer, således at den optimale chemotherapeutiske behandling kan anvendes.

Genetisk variation påvirker metabolismen af lægemidler

Efter et potentielt lægemiddel har gennemgået alle de obligatoriske og nødvendige test i en række dyremodeller, indledes de kliniske studier med et fase I studium, der kort sagt har det mål at bestemme, ved hvilken koncentration der observeres toksiske effekter af det potentielle læge middel. Hovedparten af alle anvendte lægemidler omsættes af ét af tre cytochrome P450 (CYP) enzymer. Disse enzymer findes i flere isoformer med forskellig aktivitet overfor givne lægemidler. Som eksempel kan nævnes CYP2D6, der er involveret i omsætningen af ca 20% af alle lægemidler. CYP2D6 er hovedenzymet i nedbrydningen af nortriptyline, men de forskellige genetisk identificerbare varianter giver ophav til såkaldte "poor metabolizers", der skal doseres med 10-20 mg, mens patienter med en normal metabolisme eller en ultra hurtig variant skal doseres med henholdsvis 75-150 mg og 500 mg. I kliniske studier hvor disse variationer ikke er klarlagt, vil det være overordentlig vanskeligt at bestemme en generel maksimal dosis, med det resultat at den maksimal tilladte dosis enten vil være for lav for hurtigt metabolisernede patienter eller for høj til de dårligt metaboliserende patienter. Den simple relation mellem CYP2D6 isoformerne og nortryptylines metabolisme kræver næppe bioinformatisk støtte, men for en række stoffer og specielt for interaktionen mellem forskellige lægemidler er sammenhængene mere komplekse hvor en række andre parametre spiller ind som f. eks genreguleringen af de forskellige metaboliserende enzymer.

Genetisk variation påvirker effekten af lægemidler

Det er et velkendt fænomen, at der indenfor diagnostiserede sygdomme er større eller mindre dele af patienterne, der ikke respondere på er givent lægemiddel. Der kan være mange årsager til den manglende effekt, men det forhold, at diagnosen baseres på ikke molekylære observationer, hvorimod lægemidlerne i stadig større udstrækning udvikles på baggrund af en molekylær sygdomsforståelse, er en vigtig årsag. Specielt indenfor cancer diagnostistikken har genekspression analyser givet mulighed for en mere specifik diagnose og dermed muligheden for en focuseret udvikling af lægemidler.

Et andet forhold der er vigtig for forståelsen af lægemidlers effekt er patienternes genetiske forskelle. Forskelle i metabolisme er allerede nævnt, men variationer i signalerings kaskaderne spiller også en vigtig rolle. Spørgsmålet til bioinformatikken er, hvordan vi får information om de relevante genetiske variationer, og kan disse variationer give os information om sygdommene til at udvikle potentielle nye angrebsvinkler til behandling. Der er i området to forskellige tilgange; én hvor alle de gener der kunne tænkes at være involveret i en sygdom og et lægemiddels molekylær virkningsmekanisme bestemmes og den genetiske variation af disse gener korreleres til lægemidlets effekt. Hidtil er det hovedsageligt variationer i det primære target, som er blevet identificeret som feks polymorfier i den -adrenerge receptor i astma behandlingen. Den anden og meget mere ambitiøse tilgang er at bestemme alle SNP variationer for patienterne og derefter korrelere disse data med virkningseffekten. SNP studier har vist, at variationerne i det humane genom ligger i blokke (også kaldet haplotyper), hvor flere SNP variationer kan karakteriseres ved enkelt velvalgt SNP. Resultatet af en sådan analyse bør, hvis patient materialet er tilstrækkeligt stort give information om hvilke genetiske variationer der bidrager signifikant til behandlingseffekten.

Forventningen til fremtidens lægemidler er udviklingen af "skræddersyet" medicin, der er tilpasset den enkelte patient på baggrund af en molekylært baseret diagnose og en genetisk profilering. Der er vigtigt at påpege, at de nævnte aspekter af den molekylære og genetisk baserede diagnostik endnu er i sin vorden, og det kræver nøje etiske overvejelser, i hvor stor udstrækning adgangen til specielt genetisk information fremover vil kunne inddrages i behandlingen.

Referencer

  1. Venter, JC et al. The sequence of the human genome. Science. 2001 Feb 16;291(5507):1304-51.
  2. Lander, ES et al. Initial sequencing and analysis of the human genome. Nature. 2001 Feb 15;409(6822):860-921.
  3. Krogh, A et al. Predicting transmembrane protein topology with a hidden Markov model: application to complete genomes. J Mol Biol. 2001 Jan 19;305(3):567-80.
  4. Rost, B et al. Topology prediction for helical transmembrane proteins at 86% accuracy. Protein Sci. 1996 Aug;5(8):1704-18.
  5. Sonnhammer, EL et al. Pfam: a comprehensive database of protein domain families based on seed alignments. Proteins. 1997 Jul;28(3):405-20.
  6. Attwood, TK and Beck, ME PRINTS--a protein motif fingerprint database. Protein Eng. 1994 Jul;7(7):841-8.
  7. Knudsen S. A Biologist?s guide to analysis of DNA microarray data. Wiley-Interscience, USA pp. 125, 2002
  8. Yarmush, ML and Jayaraman, A Advances in proteomic technologies. Annu Rev Biomed Eng. 2002;4:349-73.