Kemoinformatik: Lær computeren at finde nye lægemidler

Publiceret April 2007

Den eksplosive vækst i antallet og størrelsen af kemiske databaser har gjort computerkraft nødvendig i jagten på nye lægemidler

Lægemiddelforskning er blevet et særdeles tværfagligt område udviklet i grænsefladerne mellem mere traditionelle discipliner som kemi, biokemi, humanbiologi og farmakologi. Ligesom inden for mange andre naturvidenskabelige fag er computeren i lægemiddelforskning blevet adopteret som et vigtigt værktøj til at behandle og integrere den kraftigt stigende mængde af tilgængelig information. Computeren understøtter ikke længere kun forskere i traditionel forskning; den er blevet et fundamentalt element som har ændret den måde forskningen udføres på.

Kemoinformatik – kemiens pendant til bioinformatik - kan defineres som udvikling af computermetoder, der tillader forskere at håndtere store mængder af kemisk information og finde korrelationer imellem kemiske stoffers struktur og egenskaber [1]. Selvom ordet kemoinformatik er relativt nyt, er der lavet beslægtet forskning siden midt i 1960’erne under navnet SAR (Structure-Activity Relationships) [2-3]. I de seneste år har området været i en rivende udvikling drevet af udviklingen inden for både hardware, software og i særdeleshed i mængden af tilgængelig information.

Jagten på nye lægemidler, som kan kurere og forebygge sygdomme, er en vanskelig og ekstremt dyr proces, oftest som at lede efter en nål i en høstak. Kun 11% af lægemidlerne i klinisk udvikling når markedet, og de fleste stoffer stoppes pga. lav effektivitet, høj toksicitet eller metaboliske og farmakokinetiske problemer [4]. De fleste opgaver inden for lægemiddelforskningen er for komplekse til at kunne løses vha. faste principper eller tommelfingerregler; og det er netop denne kompleksitet, der har skabt behovet for kemoinformatik. De komplekse opgaver løses i stedet ved udvikling af computermodeller baseret på resultater fra tidligere publicerede studier.

En af kemoinformatikkens centrale opgaver er at forudsige en kemisk strukturs biologiske aktivitet og biotilgængelighed ved brug af SAR (figur 1). Den biologiske aktivitet (eller bindingsaffiniteten) fortæller hvor godt et givet molekyle passer ind i et protein og hvor kraftige vekselvirkninger, der er mellem proteinet og molekylet.

Forudsigelse af bindingsaffiniet (pIC50) ved brug af computermodellering
Figur 1. Forudsigelse af bindingsaffiniet (pIC50) ved brug af computermodellering.

Biotilgængeligheden er en helt fundamental egenskab, som beskriver, hvor stor en del af et lægemiddel der kommer ind i blodbanen og videre til det protein, det skal virke på. Biotilgængeligheden er en overordnet term for alle de vigtige farmakokinetiske egenskaber, der styrer det forhindringsløb et molekyle skal igennem på den lange vej gennem menneskets krop, dvs. hvor godt det opløses i mave-tarmsystemet, absorberes fra tarmene ind i blodbanen, distribueres via blodbanen og undgår leverens metabolisme af fremmede stoffer. I virkeligheden er der tale om et trade-off mellem nogle fundamentale kemiske egenskaber, f.eks. skal et lægemiddel være tilstrækkelig hydrofilt til at det kan opløses i mave-tarmsystemet, men på samme tid lipofilt nok til at kunne passere gennem den biologiske membran i tarmene og videre over i blodbanen.

Computerbaseret forudsigelse af mulige lægemiddelkandidater gør valget af de stoffer, der indgår i lægemiddelindustriens pipeline, langt mere målrettet end ved brug af HTS (High Throughput Screening) alene. Der er et stort behov for gode computermodeller, som kan forudsige relevante egenskaber tidligt i et lægemiddels udviklingsfase. Dette skyldes, at tidligt i lægemiddeludviklingen er de kemiske stoffer kun tilgængelige i meget små mængder – eller måske kun in silico (i computeren) – og stofferne kan derfor kun karakteriseres ved brug af forudsigelsesmetoder. I sådanne tilfælde kan kemoinformatisk forudsigelse af egenskaber være langt hurtigere end eksperimentelle målinger. Ikke desto mindre er det stadig nødvendigt at stadfæste lægemiddelkandidaternes egenskaber eksperimentelt, når udviklingen skrider fremad, og stofferne er syntetiseret i tilstrækkeligt store kvantiteter.

Teknikker

1. Videnbaserede komplekse matematiske modeller

Mange kemoinformatiske metoder inden for lægemiddelforskning baseres på den antagelse, at kendskab til både succesfulde og forfejlede lægemiddelkandidaters strukturer og egenskaber kan bruges til at udvælge og optimere lægemiddelkandidater fremover. Ved at sikre sig, at nye lægemiddelkandidater har fysisk-kemiske egenskaber, der svarer til andre succesfulde lægemidler, vil man statistisk øge andelen af lægemidlerkandidater, der ender som godkendte lægemidler.

Illustration af en kemoinformatisk klassifikation
Figur 2. Illustration af en kemoinformatisk
klassifikation. De kemiske stoffers struktur
oversættes til numeriske fingeraftryk, der
kan bruges til at træne og teste f.eks. et
neuralt netværk [7].

Lipinski var den første til at udlede et sæt af tommelfingerregler (kendt som "Lipinski’s rule of five": ROF [5]), der kan hjælpe med at afgøre om et kemisk stof vil kunne udvikles til et lægemiddel eller ej. Da Lipinskis regelsæt hurtigt opnåede stor popularitet, prøvede adskillige forskningsgrupper at anvende ROF på generelle kemiske databaser i håb om at finde lægemiddellignende molekyler på en hurtig og nem måde. Desværre er der et større antal af de kemiske stoffer, som lever op til Lipinskis regler. Med andre ord kunne ROF ikke skelne mellem lægemidler og almindelige kemikalier i tilstrækkelig grad. Derfor begyndte mange forskere at udvikle mere komplekse – og mere præcise – metoder baseret på avancerede statistiske metoder og "kunstig intelligens", som f.eks. neurale netværk, hvor man lærer en computer at kende forskel på stoffer, der er gode lægemiddelkandidater, og dem som ikke er det, ved at præsentere den for en række eksempler [6-7]. Figur 2 illustrerer, hvorledes man bruger en række deskriptorer eller fingeraftryk, der beskriver de molekylære strukturer, som inputparametre i et neuralt netværk til at udvikle en forudsigelsesmetode, som kan estimere molekylers egenskaber.

Eksempel: Forudsigelse af pH-afhængig opløselighed af lægemiddelkandidater

Ovenstående kan illustreres med en model, vi selv har udviklet i vores Kemoinformatikgruppe på CBS/BioCentrum, DTU, som kan forudsige den pH-afhængige opløselighed for lægemiddelkandidater [8]. Opløseligheden i vand og dens afhængighed af pH i mavesækken og tarmene er en nøglefaktor, der bestemmer, hvorvidt lægemidlerne kan gives oralt. Selvom adskillige modeller er blevet udviklet til forudsigelse af kemiske stoffers opløselighed i vand, så har fokus ikke været rettet imod de ioniserbare stoffer, som udgør 60% af de godkendte lægemidler. Ioniserbare stoffers opløselighed kan variere op til 1000 gange med pH-værdien, der kan antage værdier mellem 1 og 8 gennem de forskellige dele af mave-tarmsystemet. Hvis opløseligheden er for lav i bare en af disse dele, vil stoffet udfælde og udskilles, før det når at passere fra mave-tarmsystemet til det kardiovaskulære system (blodbanen) (figur 3). Derfor kunne en model, der kan forudsige pH-afhængig opløselighed i vand for lægemiddellignende stoffer ud fra deres molekylstruktur være meget nyttig i lægemiddelindustriens pipeline.

pH-værdierne i de forskellige dele af mave-tarmsystemet og den pH-afhængige opløselighed for en ioniserbar lægemiddelkandidat
Figur 3. pH-værdierne i de forskellige dele af mave-tarmsystemet og den pH-afhængige opløselighed for en ioniserbar lægemiddelkandidat. For Verpamil, et velkendt lægemiddel mod for højt blodtryk og hjerterytmeforstyrrelser, kan opløseligheden variere med en faktor 1000 afhængig af pH.

Modellen blev udviklet på baggrund af allerede publicerede opløseligheder fra PhysProp-databasen (www.syrres.com). En 2-dimensionel struktur i form af en SMILES-streng (Simplified Molecular Input Line Entry Specification) præsenteres for modellen, der vha. det trænede neurale netværk forudsiger opløseligheden af stoffet i dets neutrale form. Samtidig bruges et modul fra programmet Marvin (www.chemaxon.com/Marvin) til at forudsige stoffets syre-base dissociationskoefficienten (pKa). Den neutrale opløselighed og dissociationskoefficienterne kombineres ved brug af Henderson-Hasselbach ligningen [9], og modellen returnerer den forudsagte pH-afhængige opløselighedskurve (figur 4).

Procesdiagram for den pH-afhængige opløselighedsmodel for lægemiddelkandidater og opløselighedsprofilen for Ketoprofen
Figur 4. Procesdiagram for den pH-afhængige opløselighedsmodel for lægemiddelkandidater og opløselighedsprofilen for Ketoprofen [8].

I samarbejde med TopoTarget A/S er den pH-afhængige opløselighedsmodel for nylig blevet valideret. Modellen blev anvendt til at forudsige opløselighedskurver for en serie af Histone Deacetylase (HDAC) inhibitorer, der indgår i firmaets pipeline, og på baggrund af resultaterne bliver firmaets bibliotek af mulige lægemiddelkandidater nu filtreret og optimeret.

De to hovedstrategier i virtual screening
Figur 5. De to hovedstrategier i virtual
screening: proteinbaseret screening
(øverst) og pharmacophore-baseret
screening (nederst). Søgealgoritmen
kræver, at de røde atomer
(pharmacophoren) sidder i den
fastbestemte position, mens resten af
molekylet kan variere.

2. "Virtual screening"-teknikker

Hovedmålet for virtuel screening er at identificere nye potentielle lægemidler ved at gennemsøge kæmpestore stofbiblioteker (databaser med mange tusinder af kemiske stoffer). Sædvanligvis bruges "docking"-teknikker, når proteinstrukturen er kendt. I tilfælde hvor proteinstrukturen ikke er tilgængelig, bruges pharmacophore eller similaritetsbaserede metoder (figur 5).

En »pharmacophore« kan defineres som et sæt af funktionelle kemiske grupper placeret i en specifik geometrisk konformation, der netop giver den ønskede biologiske aktivitet [4]. "Pharmacophores" kan bruges på to måder: i) til at udvælge nye molekyler med lignende biologisk aktivitet og ii) til at optimere den biologiske aktivitet og farmakokinetiske egenskaber af lægemiddelkandidater. Brugen af pharmacophore-metoden er blevet meget populær i de seneste år. Med denne teknik kan databaser med millioner af kommercielt tilgængelige kemiske stoffer screenes effektivt mhp. at finde molekyler, der kan videreføres i lægemiddelindustriens HTS-pipeline. Man kan også udvælge stoffer baseret på søgealgoritmer, der måler den molekylære similaritet (strukturel lighed). Denne metode er baseret på den antagelse, at stoffer med ens strukturelle egenskaber ligeledes vil have ens biologisk aktivitet [10].

Fremtidige perspektiver

Vores mål i Kemoinformatikgruppen på CBS er at bruge kemoinformatik til at bygge bro imellem den kemiske og den biologiske verden og at inkorporere viden om de biologiske pathways (reaktionsveje) i vores modeller. Vores nuværende og specielt de kommende projekter har derfor en mere holistisk indgangsvinkel til interaktionerne mellem små molekyler (både syntetiske og naturstoffer), proteiner og gener, hvilket kan give et nyttigt indblik i, hvorledes biologiske systemer responderer på ydre påvirkninger. Et af vores store interesseområder er modellering af lægemidlers toksiske påvirkning på mennesker. Vi har derudover startet et helt nyt forskningsprogram, som søger at reintegrere naturstoffer som mulige lægemidler vha. virtuel screening-teknikker og kemogenomiske metoder for at organisere vekselvirkning mellem små molekyler og proteiner.

Desuden har vi etableret et nyt kursus på DTU, "Kemoinformatik inden for lægemiddelforskning" på M.Sc.-niveau med det formål at introducere deltagerne til forskellige kemoinformatiske metoder. I kurset, hvor der blev undervist for første gang i efteråret 2006, viser vi eksempler på brug af kemoinformatik i moderne lægemiddelforskning og giver deltagerne praktisk erfaring gennem hands on-øvelser. Kurset udbydes for anden gang i efteråret 2007, og der undervises også under åben uddannelse.

Referencer

  1. T. Engel, J. Chem. Inf. Model. 46 (2006) 2267.
  2. C. Hansch og T. Fujita, J. Am. Chem. Soc. 86 (1964) 1616.
  3. T. Fujita et al. J. Am. Chem. Soc. 86 (1964) 5175.
  4. A.K. Ghose, T. Herbertz, J.M. Salvino og J.P.Mallamo, Drug Discovery Today 11;23/24 (2006) 1107.
  5. C.A. Lipinski, F. Lombardo, B.W. Dominy og P.J. Feeney, Adv. Drug Delivery Rev., 23 (1997) 3.
  6. S.Ó. Jónsdóttir, F.S. Jørgensen og S. Brunak, Bioinformatics 21 (2005) 2145.
  7. T.M. Frimurer, R. Bywater, L. Nærum, L.N. Lauritsen og Søren Brunak, J. Chem. Inf. Comput. Sci. 40 (2000) 1315.
  8. N.T. Hansen, I. Kouskoumvekaki, F.S. Jørgensen, S. Brunak og S.Ó. Jónsdóttir, J. Chem. Inf. Model. 46 (2006) 2601.
  9. K.A. Hasselbalch, Die Biochem. Z. 78 (1916) 112-144.
  10. P. Willet, Biochem. Soc. Trans. 31 (2003) 603.

Offentliggjort i Dansk Kemi nr. 6/7, 2007. Gengives efter aftale med forfatterne.

Figur 1. Forudsigelse af bindingsaffiniet (pIC50) ved brug af computermodellering.Figur 2. Illustration af en kemoinformatisk klassifikation. De kemiske stoffers struktur oversættes til numeriske fingeraftryk, der kan bruges til at træne og teste f.eks. et neuralt netværk [7].Figur 3. pH-værdierne i de forskellige dele af mave-tarmsystemet og den pH-afhængige opløselighed for en ioniserbar lægemiddelkandidat. For Verpamil, et velkendt lægemiddel mod for højt blodtryk og hjerterytmeforstyrrelser, kan opløseligheden variere med en faktor 1000 afhængig af pH.Figur 4. Procesdiagram for den pH-afhængige opløselighedsmodel for lægemiddelkandidater og opløselighedsprofilen for Ketoprofen [8].Figur 5. De to hovedstrategier i virtual screening: proteinbaseret screening (øverst) og pharmacophore-baseret screening (nederst). Søgealgoritmen kræver, at de røde atomer (pharmacophoren) sidder i den fastbestemte position, mens resten af molekylet kan variere.  Velkommen | Møder | BioZoom | Information | English Opdateret: 07.01.2008 Velkommen | Møder | BioZoom | Information | English Opdateret: 07.01.2008