PLoS ONE: Machine Learning Prediction of Cancer Cell Herkkyys Drugs Perustuu Perimän ja kemialliset ominaisuudet
tiivistelmä
ennustaminen vaste tietyn syövän joka hoito on tärkeä tavoite nykyaikaisen onkologian että pitäisi lopulta johtaa yksilöllisten. Suurikapasiteettisten seulonnat potentiaalisesti aktiivisten yhdisteiden vastaan paneelin genomisesti heterogeeninen syöpäsolulinjojen ovat paljastettiin useita suhteita genomista muutoksia ja huumeiden vastauksia. Erilaisia laskennallisia lähestymistapoja on ehdotettu ennustaa herkästi genomista ominaisuuksia, kun taas toiset ovat käyttäneet kemiallisia ominaisuuksia huumeiden selvittää niiden vaikutusta. Yrittäessään yhdistää nämä täydentävät lähestymistavat, kehitimme koneoppimismalleja ennustaa vastetta syövän solulinjat lääkehoitoa, määrällisesti kautta IC
50-arvot, jotka perustuvat sekä genomisen piirteet solulinjojen ja kemialliset ominaisuudet tarkasteltavaa huumeita. Mallit ennustettu IC
50 arvoja 8-kertaiseksi ristivalidointi ja riippumaton
sokea
testi determinaatiokerroin R
2 0,72 ja 0,64 vastaavasti. Lisäksi mallien pystyivät ennustamaan verrattavissa olevalla tarkkuudella (R
2 0,61) IC50 solulinjojen kudoksesta ei käytetty koulutuksessa vaiheessa. Meidän
in silico
malleja voidaan käyttää optimoimaan kokeensuunnittelussa huumausaineiden solun seulonnat arvioimalla suuri osa puuttuu IC
50-arvot pikemmin kuin kokeellisesti mittaamiseksi. Vaikutukset tuloksemme ylitetä
virtual
lääkeseulontamenetelmä suunnittelu: mahdollisesti tuhansia lääkkeitä voitaisiin probed
in silico
järjestelmällisesti testata potentiaalisen tehon kuin syöpälääkkeitä perustuu niiden rakenteeseen, mikä tarjoamalla laskennallinen puitteet tunnistaa uusia huumeiden repositioning mahdollisuuksia sekä viime kädessä olla hyötyä henkilökohtaisen lääketieteen yhdistämällä genominen piirteitä potilaiden huumeiden herkkyys.
Citation: Menden MP, Iorio F, Garnett M, McDermott U, Benes CH, Ballester PJ, et al. (2013) Machine Learning Prediction of Cancer Cell Herkkyys Drugs Perustuu Perimän ja kemialliset ominaisuudet. PLoS ONE 8 (4): e61318. doi: 10,1371 /journal.pone.0061318
Editor: Gajendra P. S. Raghava, CSIR-instituutti Microbial Technology, India
vastaanotettu: 26 lokakuu 2012; Hyväksytty: 07 maaliskuu 2013; Julkaistu: 30 huhtikuu 2013
Copyright: © 2013 Menden et al. Tämä on avoin pääsy artikkeli jaettu ehdoilla Creative Commons Nimeä lisenssi, joka sallii rajoittamattoman käytön, jakelun ja lisääntymiselle millä tahansa välineellä edellyttäen, että alkuperäinen kirjoittaja ja lähde hyvitetään.
Rahoitus: Tämä työ rahoittivat Euroopan molekyylibiologian laboratorion PhD ohjelma MPM, Sangerin /Euroopan bioinformatiikan instituutin ESPOD ohjelma FI, Medical Research Council metodologia Research Fellowship PJB, Wellcome Trust apurahan MG ja CHB ja Cancer Research UK UM. Rahoittajat ollut mitään roolia tutkimuksen suunnittelu, tiedonkeruu ja analyysi, päätös julkaista tai valmistamista käsikirjoituksen.
Kilpailevat edut: Kirjoittajat ovat ilmoittaneet, etteivät ole kilpailevia intressejä ole.
Johdanto
Suurikapasiteettinen seulonta suuri määrä molekyylejä on laajalti käytetty lähestymistapa tunnistaa johtoyhdisteitä kohdistamaan suotuisa vaikutus tiettyyn fenotyyppiin. Yhteydessä syövän, kirjastojen kemiallisia kokonaisuuksia on testattu tällä tavoin vastaan paneelit solulinjoja kasvatetaan erilaisissa olosuhteissa ja heterogeeninen genomisen taustat [1]. Sen jälkeen uraauurtava työ ”NCI-60”, kokoelma 59 ihmisen syövän solulinjoissa kehittänyt National Cancer Institute for
in vitro
huumeiden seulonta [2], viimeaikaiset tunnusmerkki tutkimukset ovat osoittaneet, että seulonta hyvin suuri solulinja kokoelmat voivat saada toistaa tunnettuja ja tunnistaa uusia molekyylitason genomista tekijöitä huumeiden herkkyys [1], [3] – [5].
näissä tutkimuksissa käyttäen systemaattista tilastollisen päättelyn ja regressiomenetelmiä, tekijä kuten onkogeenisia vaurioita , korkea tai alhainen perus-geenin ilmentymisen ja muut genotyyppisten piirteitä on liittynyt profiileihin lisääntyneestä herkkyydestä /vastustuskykyä tiettyjä yhdisteitä. Esimerkiksi soveltamalla monimuuttuja varianssianalyysi [6] ja ”Elastinen Net” regressio puitteet [7] perustettiin huumeisiin genotyyppi yhdistyksiä on vahvistettu ja täydennetty markkereita kudosspesifisyyttä ja uusia yhteyksiä, esim.
EWS-FLI1
translokaatio in Ewingin sarkooma ja herkkyys
PARP
estäjiä, on tunnistettu ja edelleen kokeellisesti validoitu. Näiden tutkimusten tulokset ovat julkisesti saatavilla, joka tarjoaa ainutlaatuisia voimavaroja, jotka tukevat löytämään uusia ennakoivan biomarkkereita henkilökohtaista syövän hoidossa.
kasvattaminen entisestään kokoa pidetään teissolulinjasta /yhdiste paneelit olisi erittäin hyödyllistä, koska se tarjoaa perustan parantaa tarkkuutta ja ennusteita sekä päätellyn yhdistysten. Tämä vaatii kuitenkin suurempaa infrastruktuurien ja kustannukset kasvaa seulonnan koon. Lisäksi johtuen erilaiset tekniset ja logistiset syistä suurikapasiteettisten näyttö [7], saatu yhdiste-by-solulinja matriisin lääkkeen tehon (tyypillisesti yhteenveto niiden IC
50, puoli maksimaalinen (50%) estävä pitoisuus aineen suhteen solujen elinkelpoisuuden) ei useinkaan ole täydellinen. Vaikka monet vaiheet on automatisoitu, täyttö kokeellisesti jokaiselle aukolle voi olla kallista ja työlästä [6]. Siten tarkka työkalu puuttuvia IC
50- ja arvioida niitä uusia solulinjoja olisi arvokasta lääkeaineiden seulontaan suunnitteluun.
Lisäksi vankka ennuste työkalu
in silico
tunnistaminen mahdollisesti tehokkaita lääkkeitä hoitamiseksi tietyn syövän voitaisiin käyttää lääkeaineen uudelleensijoitus [8], [9]. Lähestymistapa tällaista edustaa COMPARE algoritmilla [10], [11], joka käyttää lääkevaste profiilit NCI-60 seulonta kautta ”syyllisyys-by-yhdistys” paradigma. Tämän periaatteen lääkkeet aiheuttivat samanlaisen huumeisiin vastaus profiilin poikki solulinjoja NCI-60 paneeli on oletettu yhteinen vaikutustapa (MoA), jolloin MoA löytö uusia lääkkeitä (jos niiden kasvain-tukahduttaminen profiili on samanlainen kuin tunnetun ja hyvin tunnettu lääke) sekä löytö uusien tai sivuvaikutuksia varten perustettu huumeiden.
Viime kädessä
in silico
menetelmiä ennustaa lääkkeiden tehokkuuden perustuvan molekyylitasolla tekemistä kasvaimia (eli genomin, transcriptome) olisi merkittävä virstanpylväs kohti yksilöllisiä hoitoja syöpäpotilaille perustuu molekyylien biomarkkereita [12].
tulokset
siis tutkittava, onko mahdollista rakentaa koneoppimismalleja (lisätietoja ”Materiaalit ja menetelmät” osiossa ”koneoppiminen” mom), joka voi ennustaa lääkeaineen herkkyys käyttäen solulinjaa seulonta kokeellista tietoa, jossa solulinjat käsitellään vaihteleva pitoisuus tietyn lääkeaineen ja tuloksena annos-vaste-käyrä tiivistää IC
50. Olemme keskittyneet kattavin syöpälääkkeen seulonta aineisto käytettävissä tähän mennessä, mistä ”Genomics of Drug Herkkyys Cancer” (GDSC) hanke [3]. Kunkin lääkkeen, neuroverkkomallin koulutettiin ennustaa sen IC
50 poikittaisesta paneelista solulinjojen perustuvat genomiseen taustalla jokaisen solun, kuten tyypillistä microsatellite epävakaus tila (1 = epävakaa tai 0 = vakaa), somaattiset koodaus variantit koodaussekvenssi 77 syövän geenien (1 = muutokset proteiinisekvenssin ja 0 = villi tyyppi) ja kopioi numero muutoksia ilmaiseva geenin monistuminen ja poistamista niistä syövän geenien (1 = vahvistus /yli 7 kappale numeroita, 0 = villityypin /välillä 1 tai 7 kopioida numeroita, ja -1 = poisto /ei kopioluku). Kuitenkin ennusteita Näiden alustavien mallien rajoittui, erityisesti niille lääkkeillä ilman tunnettu onkogeenin-to-lääkkeen vaste riippuvuutta.
perusteltu, että syöpäsolujen herkkyyttä lääkemolekyylejä ohjaa piirteitä molemmista solut ja huumeet. Ottaa huomioon, että solun ominaisuudet ovat lopulta kytketty sisempi toimintaa solun, lääkkeen ominaisuuksia ovat fysikaalis-kemialliset ominaisuudet, jotka korreloivat kyky molekyylin ylittää solukalvon (esim lipofiilisyys) tai sen selektiivisyys solunsisäisen tavoitteita (esim sormenjäljet koodaa kemiallisen rakenteen ).
Itse paljon työtä on tehty Quantitative Structure-Activity Relationship (QSAR) lähestymistapoja ennustavat koko solun aktiivisuutta molekyylien perustuu niiden kemiallisten ominaisuuksien [13] – [16], mukaan lukien sovellukset ennustavat syövän vastaista aktiivisuutta in lääkkeitä [17], [18]. Tällainen QSAR lähestymistavat perustuvat yksinomaan kemiallisia ominaisuuksia ei voi erottaa kestävästä ja herkkiä solulinjoja. Esimerkiksi rakentaa malli ilman tietoa solulinjojen, malli on eivät pysty ennustamaan solulinja A olevan kestävämpi kuin solulinjan B huumeiden C, joka on tärkein tavoite on integroida kemiallisten ja genomista ominaisuuksia meidän malleissa.
siksi laajentaneet koneoppimismalleja sisällyttää syötteenä kemiallisia ominaisuuksia huumeiden ohella molekulaarinen solulinjoista (katso kuva 1). Tämä integroiva lähestymistapa ei ainoastaan integroi kaksi toisiaan täydentävää virtoja tietoa, mutta mahdollistaa myös malli on koulutettu paljon suurempia määriä dataa, joka on usein keskeinen tekijä parantaa ennustavan suorituskykyä (katso kuva 2). Näin ollen data on ennalta käsitelty sisältämään 689 kemialliset kuvaukset huumeiden ja 138 genomi-ominaisuuksia erottaa solulinjoista, jolloin tulo tilaan 827 ominaisuuksia.
Menetelmä perustuu kahteen eri syötevirtojen: (1) solulinja piirteet 77 onkogeenien ja niiden mutaatio tilan, (2) lääke ominaisuuksia, joita generoidaan Padel ohjelmistojen [19] yksinkertaistetun molekyyli-input line osuusjärjestelmästä (SMILES), katso menetelmä yksityiskohdat osasta. Jatkuva IC
50-arvo on ennustettu state-of-the-art koneoppimisen algoritmeja (neuroverkot ja satunnainen metsät).
Suorituskyky monia lääkeaineita malli (punaisella tähdellä) ja perhe 111 yksittäisen lääkkeen mallit (sininen histogrammi) esitetään käyttämällä kolmea eri lukuja: (A) Pearsonin korrelaatio R
p, (B) determinaatiokerroin R
2, ja (C) tehollisarvo error RMSE.
Chemical kuvaajat muodostettiin kanssa Padel ohjelmistojen [19] alkaen yksinkertaistettua molekyyli-input line osuusjärjestelmästä (SMILES) rakenteita. Kuvaajat sisältävät fysikaalis ominaisuuksia, kuten painoa, lipofiilisyydestä, sääntö viisi, ja lisäksi sormenjäljet lääkkeiden (lisätietoja ”Materiaalit ja menetelmät” osiossa ”Ominaisuudet” momentti, ja https://padel.nus.edu.sg/software /padeldescriptor /).
rakentamisesta mallia, käytimme GDSC seulonta tietoja 608 genomisesti ominaista solulinjojen ja 111 lääkkeitä, joita kemialliset tiedot olivat saatavilla (katso kuvio 2 ja menetelmät lisätietoja). Julkaistu versio Tämän matriisin omistaa 38930 IC
50-arvot (~58% koko, johtuu teknisistä ja logistisista syistä).
Me tehdään 8-kertaisesti ristivalidointi, jossa Koepakettia kunkin kertainen ei käytetty koulutusta siten mittaamaan ennusteita tuloksena mallien kaikkien lääkkeiden sijasta kunkin lääkkeen erikseen. Neuroverkkojen pystyivät puuttuvia log (IC
50) arvot testin sarjaa, jossa on keskimäärin Pearsonin korrelaatiokerrointa (R
p), determinaatiokerroin (
R
2
) ja tehollisarvo virhe (RMSE) (Text S1) 0,85, 0,72 ja 0,83 kaikissa 111 lääkkeet, vastaavasti (kuvio 3A). Vaihtoehtoisesti satunnainen metsät saavuttaa vertailukelpoisia esityksiä (R
p 0,85,
R
2
0,72 ja RMSE 0,84; kaikki yksityiskohdat oheismateriaalia). Lisäksi teimme sokea koe käyttäen 13565 uutta kokeellista IC
50-arvot saivat vain harjoittelun jälkeen mallimme varmistaakseen meidän ristivalidointi tuloksiin (lääke-to-solulinjaan matriisi päivitetään ~18%, nämä hiljattain luotu IC
50s käytetään yksinomaan sokeat Koepakettia). Tulokset sokea koe oli lähes yhtä hyvä kuin ristivalidointi, saamiseen R
p 0,79,
R
2
0,64 ja RMSE oli 0,97 (kuvio S1, Text S2). Tarkkuus ennustukset kannusti meitä kouluttaa verkkoihin vähemmillä IC
50-arvot. Merkillistä, ennusteita mallien ei laskenut merkittävästi pois laatua, vaikka määrä koulutusta tietojen aleni 20% kokonaismäärästä (kuvio 3B).
Ennusteet saavutetaan 8-kertaiseksi cross -validations. Suorituskyky arvot yksinomaan lasketaan testin sarjaa. (A) välinen korrelaatio ennustetun kokeelliseen havaittuun log (IC
50) arvot (Pearsonin korrelaatio R
p = 0,85; determinaatiokerroin R
2 = 0,72, tehollisarvo virhe RMSE = 0,83). Vaikka on olemassa rikastuminen resistenttien solulinjojen, jotka yleensä korkeampia log (IC
50) arvoja kuin herkkä solulinjat, alempi log (IC
50) arvot ovat edelleen kohtuullisesti ennustaa. (B) odotettu parantaminen IC
50 ennustuksen täyttämällä kokeellisesti aukkoja solun ja huumeiden matriisiin. Pystysuora harmaa viiva vastaa julkaistun datasarja (täytetään ~58%, johtuen logistisista syistä), joka vastaa tuloksia paneelissa (A). Kuitenkin samanlainen tarkkuudet (R
p 0,84 sijasta 0,85, R
2 0,70 sijasta 0,72) voidaan saavuttaa käyttämällä yksinomaan 20% koko matriisin.
Käyttäen varianssianalyysi (ANOVA) tunnistamaan huumeiden-to-onkogeenin yhdistysten tutkimme kuinka hyvin IC
50-arvot ennustettu Koepakettia käyttämällä mallia kerrattava yhdistysten ilmenee kokeellisten tietojen, esimerkiksi, onko tietty mutaatio on jolloin herkkyys tai resistenssi lääkkeen [3]. Käyttämällä vain ennustettu IC
50-arvot, me oikein jää 79% (168/213) ja merkittävät havainnot samalla t-testiä taipumus (positiivinen tai negatiivinen vaikutus huumeiden herkkyys) tunnistetaan kokeellinen IC
50s. Kun tarkastellaan vain merkitseviä meidän malli (p-arvo säädettiin Benjamini-Hochberg, FDR = 0,2), me oikein ennusti 28% (59/213) kaikista kokeellisesti tunnistettu yhdistyksiä. Jos emme onnistuneet havaitsemaan yhdistyksen ANOVA vaikutus koko on usein pieni, tai kokeellinen korrelaatio liittyy mutaatio joko ole tai harvoin edustettuina osajoukon solulinjoissa ennustettu IC
50-arvot. Varsinkin kun esimerkkinä tämän menettelyn hyödyllisyyden, käyttäen vain ennustettu IC
50-arvot tunnistimme tiedetään lääke-to-onkogeenin järjestöjen, kuten herkkyys
BRAF
-mutated solujen linjat
MEK1 /2
estäjät (kuvio 4B) [20]. Valikoima ennustettu IC
50-arvot lääkeaineen ovat tyypillisesti kapeammat kuin havaitut arvot ja on todennäköistä, koska tällä hetkellä saatavilla genomista aineisto on riittävä selittämään havaittua valikoiman lääkevasteita poikki solulinjoissa.
(A) analyysi varianssi (ANOVA) kokeellisten tietojen ja ennustettu tuotto huumeiden-to-onkogeenin yhdistysten (20% FDR). Koko kunkin yhdistyksen (piste) on verrannollinen käsiteltyjen solulinjojen sisältävän erityisen mutatoitunut onkogeeni. Siniset pisteet osoittavat samaa t-testi suuntaus meidän ennusteet, ja punaisia päinvastainen. (B) Ennustettu ja mitataan IC
50s
BRAF
-mutated vastaan villityypin solulinjoja altistettiin
MEK1 /2
Inhibiittori PD-0325901 (p- arvo ennustus = 1,91 x 10
-05, t-testi useita hypoteesi korjata Benjamini Hochberg).
lisäksi arvioimme ennusteita mallimme tuntemattomia solulinjoja. Siksi olemme soveltaneet tiukempia 8-kertaiseksi ristivalidointi, jossa solulinja joko sisällyttää junassa tai Koepakettia. Nämä mallit saavutti R
p 0,82,
R
2
0,68 ja RMSE oli 0,89 (kuvio S2) osoittaa tarkkuus mallimme ennustaa IC
50-arvot kokonaan uudet solulinjat. Vuonna ylimääräinen simulointi, lähdimme pois kaikki syövän solulinjoissa tietystä kudoksesta, esim. poistimme kaikki keuhkosyövän solulinjat (106 ulos 608 solulinjojen) ja silti saanut R
p 0,79,
R
2
0,61 ja RMSE oli 0,99 (kuvio S3).
keskustelu
Tuloksemme osoittavat, että käyttämällä genomista piirteitä solulinjoista ja kemiallisia tietoja huumeista, on mahdollista rakentaa
in silico
monille lääkkeille malleja puuttuvia IC
50 arvoja epäparametrinen konealgoritmeja kuten neuroverkot ja satunnainen metsät. Tuotokseksi meidän menetelmän, päätimme tutkia IC 50 arvot syntyvät Garnett et al. [3], jonka avulla voimme vertailla tuloksia niihin, mutta muita tietoja (kuten rajattu IC50 tai käyrän alapuolinen alue), saattaa tarjota lisää tietoa ja mahdollisesti johtaa vakaampi malleja.
Pearson korrelaatio (Fig. 2A) ja determinaatiokerroin (Fig. 2B) usean lääkkeen malli ovat merkittävästi paremmat kuin yksittäisen lääkkeen malleja, kun taas Keskineliövirhe virhe on samanlainen (kuvio 2C). Tämä tarkoittaa, että virhe (keskimäärin) ennustaa tietyn IC50-arvo on sama monille lääkkeille ja yksittäisen lääkkeen mallit (RMSE) ja, koska jotkut lääkkeet ovat aktiivisia eri pitoisuusalueisiin, malli pystyy kattamaan paljon suurempi dynaaminen alue samanlaisella tarkkuudella. Determinaatiokertoimen tasapainottaa nämä kaksi termiä, ja siten laajempia samalla Keskineliövirhe kasvattaa R
2. Kiitos käyttämällä kemiallisia kuvaajista, monille lääkkeille mallit koulutetaan joiden tietomäärä, joka on kaksi kertaluokkaa suurempi kuin datan kouluttaa jokaisen yksittäisen lääkkeen malli. Tämä suurempi aineisto painot vaikeus koulutukseen heterogeeninen vastauksena arvot poikki huumeita.
Useissa tapauksissa käyttö usean lääkkeen mallien sallittu
in silico
tunnistamista genomisen liittyviä tapahtumia muuttunut huumeiden herkkyys , mikä on mahdollista vain, kun genomista ominaisuuksia pidetään.
Vaikka mallit eivät vangita kaikkia tunnettuja geeni huumeiden yhdistysten odotamme kuin suuremmat huumeiden herkkyys ja genomista aineistot ovat käytettävissä tulevina vuosina ennusteita näiden malleja kasvaa. Uskomme, että ennusteita mallimme johtuu suuri määrä solulinjoja ja laaja huumeiden GDSC paneelissa näytteet intensiivisesti kemiallinen tila yhteisten syöpälääkkeiden (kemoterapeuttiset ja estäjät). Vielä on määriteltävä, miten nämä mallit ennustavat täysin tuntemattomia perheitä terapeuttisia aineita.
ennustava kyky meidän menetelmiä yksittäisten arvojen on vielä vähäistä, ja voitaisiin parantaa laajentamalla joukko tulo on tarjolla ylimääräisiä kerroksia molekyylien karakterisointi solulinjoissa, kuten pohjapinta transkription profiileja ja phosphoproteomic tietoja. Nämä tietotyypit on käytetty ennustamaan lääkkeen vasteita eri yhteyksissä [21] – [24]. Toinen tärkeä laajennus voisi olla sisällyttää geenin ilmentymisen tietojen seuraavista lääkehoitoa, voimakas
in silico
resurssi ennustamiseen hoitotuloksia ja selvittämisessä yhdiste toimintatapa [25], [26], sekä lupaava gateway tunnistamisen uuden lääkkeen repositioning mahdollisuuksia [27]. Lisäksi epigenetiikan tietoja voitaisiin parantaa ennustuksen valmiuksia tulevien menetelmien [28].
menetelmässä käytetään puhtaasti kokeellista tietoa, mutta ylimääräisiä ennusteita voidaan odottaa mukaan lukien tieto perusverkon [29]. On osoitettu, että ennustaminen lääkevaste ja toimintatapa kopiointiin profilointi on merkittävästi parannettu kun pariksi tunnetaan a priori geeni ja proteiini verkkoja [30], [31] ja huumeiden yhtäläisyyksiä ovat päätellä perustuvat vastaaviin
in silico
ennustettu törmäysdif koulutusjakson [32]. Ennen tieto voi myös lisätä tulkittavuutta tuloksia. Tunnettu sääntely suhteet geenien ja transkription tietoja [33] ja proteiini verkkoja [34] voidaan käyttää tunnistamaan vapautuneilla polkuja, ja edelleen liittyy genomisen muutokset, jotka ohjaavat ne [35], jossa tuodaan esiin aliverkot tärkeitä lääkkeen vaste.
sisällyttäminen näitä lisäominaisuuksia edellyttää järjestelmää priorisoida tulo ominaisuuksia perustuu niiden vaikutusta lopulliseen koulutetut mallia. Yhdistykset välillä ominaisuuksia ja tuloksia voitaisiin yksiselitteisesti paljastetaan integroimalla meidän malleissa valinnat kriteerit ja dimensionality vähentäminen tekniikoita.
Mitä ennustavia malleja, olemme käyttäneet standardi koneoppimisen menetelmiä (neuroverkot ja satunnainen metsät), annetaan niiden joustavuus ja luotettavuuden kuin ennustavia malleja. Otollisen maaperän lisätutkimuksia tutkii edellytä muiden mallintamisen tekniikoita, mukaan lukien lineaarinen regressio menetelmiä (esim LASSO, ElasticNets).
Tuloksemme osoittavat myös, että voidaan arvioida tarkkuutta ennuste eriasteisia niukkuus vuonna data, joka voi olla käyttöä suunniteltaessa kokeissa, joissa kattavuus on tasapainotettava tarkasti. Lisäksi, koska mallit pystyvät ennustamaan IC
50 Solulinjoihin ei seulottu vielä, ennusteita näistä malleista voidaan päättää, onko kannattavaa laajentaa paneelin solulinjojen tai pikemminkin keskittyä muutamaan valitut.
vaikutukset tuloksemme ylittää niiden hyödyllisyys optimoida koetta huumeiden näytöstä. Kun malli on rakennettu, sitä voitaisiin käyttää järjestelmällisesti testata mahdollista vaikutusta uusia lääkkeitä
in silico
, joka perustuu niiden kemiallisten ominaisuuksien ja samankaltaisuus. Nämä ennusteet voi auttaa arvioimaan mahdollisten aktiivisuuden uusien lääkkeiden, esim. suurista kemiallisten kirjastojen voidaan seuloa. Lisäksi ennusteet kliinisesti hyväksyttyjä lääkkeitä odotetaan paljastaa ehdokkaita lääkkeen repurposing ja mahdollisesti tunnistaa tietyn sairauden alatyyppejä, jotka olisivat herkin [8]. Vaikka solulinjat eivät ole tarkka kopio todellinen kasvaimia, kattava ennustemallit kuten meidän yhdessä laajennettu genomista ja epigenomic aineistot voi olla hyvä välityspalvelimen edistävän uusia terapeuttisia strategioita räätälöidään yksittäisille potilaille [12].
Materiaalit ja menetelmät
Training aineisto
Käytimme tietoja Genomics of Drug Herkkyys Cancer hanke [3], joka sisältää 639 syöpäsolulinjoilla, jokainen niistä ominaista joukko genomista ominaisuuksia (lisätietoja seuraavassa kohdassa). Luonnehdinta ei ole täydellinen jokaiselle solulinjan, ja siksi suodatettu pois solulinjat yli 15 puuttuu genomista piirteitä, mikä vähensi joukon valitun solulinjoja 639 608. aineisto sisältää 131 huumeita. Kuten menetelmässä hyödynnetään kemiallisen rakenteen kunkin lääkkeen, tämä tieto yksinkertaistetussa molekyyli-input line osuusjärjestelmästä (SMILES) -muodossa vaaditaan. Siksi emme pitäneet 20 aineita hoitoon SMILES ei ollut saatavilla, ja rakensimme mallin jäljellä 111 huumeita.
Tuloksena matriisin 608 solulinjojen 111 lääkkeet on 67488 mahdollista huumeiden vastekuvaajat, kukin tiivistää sen IC
50-arvo (lääkeaineen pitoisuus uM yksiköissä tarvitaan hävittämään 50% syöpäsoluja). Tällä hetkellä aineisto sisältää 38930 IC
50-arvot ulos näistä 67488 (58%), jossa puuttuvat arvot lähinnä logistisista syistä kuten koordinoiva mittauksia eri seulonta keskuksista. Log IC
50 vaihtelee -7,40 (IC
50~4 • 10
-8 M, herkin huume-solu yhdistelmä) ja 6,91 (IC
50~8 • 10
6 M, kaikkein kestävä). Huomaa, että erittäin suuret ja pienet arvot ovat ekstrapolointeja IC
50, joilla ei ole kliinistä merkitystä. Käytämme näitä alueita tässä tutkimuksessa kuin ovat niitä käytetään paperi- Garnett et al. [3], että vertaamme tuloksia vastaan.
Blind testi aineisto
syntyy testi sarjaa aikana ristivalidointi arvioimiseksi odotettavissa virhe (yksityiskohdat ristivalidointi jakso). Kuitenkin jopa ristivalidointi voi yliarvioida mahdollinen suorituskyky koneoppimisen menetelmiin. Siksi teimme todella sokea koe, jotta voidaan osoittaa mahdollisille ominaisuuksia meidän rajat validoitu malleja puuttuvia IC50 arvot 608 solulinjoissa 111 lääkkeet matriisi (Kuva S1). Sokea koe sisältää 13565 vastikään luotu IC
50-arvot, jotka on saatu sen jälkeen, kun koulutus on hankittu, tai asian toisin, erä uutta kokeellista tietoa on tuotettu itsenäisesti vahvistaa mallimme. Yhteenvetona voidaan todeta, 58% IC
50-arvot ovat alkuperäisessä aineisto (käytetään ristivalidointi), vielä 18% käytetään sokea testi (riippumaton testi).
Ominaisuudet
on kaksi erilaista syöttää tietovirtojen meidän menetelmässä: genominen taustan kullekin tasyöpäsolulinja ja kemialliset ominaisuudet huume. Ensimmäisen tulodatavirran, syöpäsolulinjoissa on tunnusomaista mutaation aseman 77 onkogeenien, jossa jokainen niistä on edelleen kuvattu kopioluvun muutos (kaikki korkean asteen vahvistus tai homotsygoottinen deleetio syövän geeni) ja sekvenssin vaihtelu (muutokset proteiinisekvenssin, esimerkiksi ei-synonyymi yhden emäksen monimuotoisuus). Lisäksi on yksi binary ominaisuus mikrosatelliittimerkki vakauden tilan kunkin solulinjan. Solulinja ominaisuuksia on koodattu seurasi:
mikrosatelliittien epävakaus tila
Sequence vaihtelu
Kopioi numero vaihtelu
Kaikki mutaatiot katsotaan, meillä on 77 mahdollista kopio määrä variaatioita plus 77 mahdollisen sekvenssin muunnelmia ja yksi microsatellite vakautta arvo, joka laskee jopa 155 mahdollista solulinjaan ominaisuuksia. Kuitenkin muutamat mutaatiotapahtumaa ominaisuuksia puuttuu joidenkin solulinjojen, ja me konservatiivisesti poistettu ominaisuus, jos se puuttui tahansa solulinjan. Tämä johti viimeiset 138 genomista tunnusomaiset piirteet kunkin tasyöpäsolulinja.
Toinen tulodatavirrasta sisältää 1D ja 2D kemialliset ominaisuudet kunkin lääkkeen. Meillä syntyy näitä kemiallisia ominaisuuksia käyttäen Padel ohjelmistoa (v2.11, ladattavissa projektin verkkosivuilta, https://padel.nus.edu.sg/software/padeldescriptor/) [19] päässä SMILES oletusasetuksilla. 722 ominaisuudet ovat fysikaalis kuvaajat ja 881 saadaan sormenjäljet, mikä johtaa yhteensä 1603 kemiallisia ominaisuuksia. Olemme mukana vain kemiallisia ominaisuuksia, jotka voitiin laskea kaikkien huumeiden. Lisäksi poistimme kaikki ominaisuus on sama arvo kaikissa huumeet, saadaan lopulliset 689 kemiallisia ominaisuuksia kunkin lääkkeen (esim. Atomin count, bond count, molekyylipaino, XlogP tai pubchem sormenjälki, muutamia mainitakseni). Luettelo huumeet on saatavilla Oheismateriaali (taulukko S1).
Kun yhdessä syövän solulinja ja huumeiden virta, käytimme 827 ominaisuuksia rakentaa ennustavia malleja log IC
50 arvo tietyn solulinjan läsnä ollessa tietyn lääkkeen.
Ristiinvalidointi
Käytimme 8-kertaisesti ristivalidointi rakennettaessa malleja. Siksi meidän erottaa alkuperäisen aineisto kahdeksaan yhtä suureen sarjaa IC
50-arvot, saadaan satunnaisesti jakamalla kaikkien IC
50s matriisin osaksi 8 jäteastioita. Yksi heistä oli yksinomaan testauksessa käytetty (ei osallistu ilmoituksista koulutus), muut kuusi oli tarkoitettu koulutus mallia ja loput pala käytettiin rajat koulutusta. Cross-validointi on prosessi, jota käytetään välttämään ali- ja overfitting [36] esimerkiksi määrittelemällä optimaalinen määrä piilossa yksiköiden ja koulutus toistojen varten neuroverkko (lisätietoja ”Koneoppiminen” -osiossa). Me pyöritetään iteratiivisesti sarjat niin että jokainen datapiste käytettiin ainakin kerran koulutukseen, rajat koulutusta tai testausta. Lopuksi saatu 8 mallia, jotka olivat yhtä ennustavaa.
Lisäksi, käytimme tiukempia versio edellä kuvattua 8-kertainen rajat validointi. Olemme varmistaneet, että testi, juna ja rajat junan eivät jaa mitään solulinjaa, joka saattaa esiintyä ei-ankarat versio (kuvattu edellä). Oletetaan esimerkiksi, solulinja C1 on käsitelty lääkkeillä D1, D2 ja D3; Ei-tiukat rajat validointi, yhdistelmä C1-D1, C1-D2 ja C1-D3 saattaa jakautua testi, juna ja rajat junan; että tiukat rajat validointi, joka yhdessä C1 yksinomaan esiintyy yhdessä näistä kolmesta.
Koneoppiminen
neuroverkot, käytimme Java täytäntöönpanoa alkaen Encog 3.0.1 (https://www.heatonresearch.com/encog) [37], [38] of myötäkytkentärakenne monikerroksinen perceptron, jossa määritellään kolme eri kerrosta: input, piilotettu (tai keskellä) ja lähtö kerros. Jokainen perceptron kerroksen on täysin kytketty kunkin perceptron ylemmän kerroksen. Useita ominaisuuksia määräytyy syötettyjen yksiköiden tai asian toisin, tarvitaan perceptrons ensimmäiseen kerrokseen. Lukumäärä piilossa yksiköiden tutkittiin harjoittelun aikana määrittämiseksi oikea malli monimutkaisuus, joka oli välillä 1 ja 30 piilossa yksikköä. Lisäksi kullekin tulolle ja piiloneuronin oli myös harhaa, joka on pysyvä aktivointi panosta kyseisiin perceptrons. Käytimme yksi lähtö yksikön ennustamiseksi jatkuvan log (IC
50) arvo.
perceptron aktivointi toiminto, jonka avulla verkon ennustaa epälineaarinen toiminta, käytimme sigmoid funktio, joka palauttaa arvot aikavälissä 0 1. Siksi meillä oli normalisoida IC
50-arvot (raaka IC
50-arvot, ei lokitilaa) myös osaksi alueella 0 1, joka tehtiin seuraavien logistinen kaltainen toiminto:
: Havaittu /odotettu IC50-arvo, jonka on oltava positiivinen luku on suurempi kuin nolla.
koulutettu verkkoon kimmoisan virhe backpropagation täytäntöönpanon välillä Encog oletusparametrit [39]. Tutustumiseen lopulliseen malliin monimutkaisuus, jota on kuvattu useita piilotettuja yksiköitä ja määrä koulutusta toistojen, tutkimme eri neuroverkon arkkitehtuurit 1 30 piilossa yksiköiden ja koulutettu niitä maksimaalisen 400 toistojen. Haimme globaali minimi että rajat koulutus maisema (minimointi tehollisarvo virhe rajat koulutusta set) varten vältetään ali- tai overfitting (yleensä välillä 21 ja 27 piilossa yksiköiden valittiin paras malli jälkeen noin 300 toistojen).
Veimme satunnainen metsä [40] regressiomalleja tutkimaan, oliko merkittävää suorituskyvyn paraneminen käyttämällä vaihtoehtoista epäparametrinen koneoppimisen menetelmiin (Text S3). Satunnainen metsä on kokonaisuus monia erilaisia regressio puita satunnaisesti samasta koulutus data (suositeltu arvo n = 500 puuta käytettiin).
Tiedonsaantijärjestelyt
Aineisto on täysin avoin ja