PLoS ONE: CanDrA: Syöpä-Specific Kuljettajan missensemutaatio Lisäykset kanssa optimoitu ominaisuudet

tiivistelmä

Kuljettajan mutaatiot ovat somaattisia mutaatioita, jotka tarjoavat kasvu etu kasvaimen soluihin, kun taas matkustajan mutaatiot ovat ne eivät toiminnallisesti liittyvät kasvaimen synnyssä. Eron kuljettajia matkustajista on haastavaa, koska kuljettajat esiintyy huomattavasti harvemmin kuin matkustajaa, ne ovat yleensä alhainen esiintyvyys, niiden toiminnot ovat monitekijäinen eikä intuitiivisesti selvä. Missensemutaatioita ovat erinomaisia ​​ehdokkaita kuljettajina, kun ne tapahtuvat useammin ja ovat mahdollisesti helpompi tunnistaa kuin muita mutaatioita. Vaikka useita menetelmiä on kehitetty ennustamiseksi toiminnallisia vaikutuksia missensemutaatioita, vain muutama on suunniteltu erityisesti tunnistaa kuljettajan mutaatioita. Kun yhä useammat mutaatiot löydetään, tarkempi ennustemallit voidaan kehittää koneoppimisen lähestymistapoja, jotka systemaattisesti luonnehtivat yhdenmukaisuutta ja erikoisuus missensemutaatioita alla taustalla tiettyjen syöpätyyppien. Tässä esitämme syöpä kuljettaja merkintä (CanDrA) työkalu, joka ennustaa missense kuljettaja mutaatiot perustuvat joukko 95 rakenne- ja kehittyvä ominaisuuksia laskea yli 10 toiminnallisia Ennustusalgoritmien kuten RAILON, siivilöidä, ja MutationAssessor. Kautta ominaisuus optimointi ja valvoo koulutusta, CanDrA päihittää nykyisten työkalujen analysoinnissa glioblastoma multiforme ja munasarjakarsinooman aineistoja The Cancer Genome Atlas ja Cancer Cell Line Encyclopedia projekti.

Citation: Mao Y, Chen H, Liang H , Meric-Bernstam F, Mills GB, Chen K (2013) CanDrA: Syöpä-Specific Kuljettajan missensemutaatio Lisäykset kanssa optimoitu ominaisuudet. PLoS ONE 8 (10): e77945. doi: 10,1371 /journal.pone.0077945

Editor: Tatjana Adamovič, Karolinska Institutet, Ruotsi

vastaanotettu: 13 kesäkuu 2013; Hyväksytty: 05 syyskuu 2013; Julkaistu: 30 lokakuu 2013

Copyright: © 2013 Mao et al. Tämä on avoin pääsy artikkeli jaettu ehdoilla Creative Commons Nimeä lisenssi, joka sallii rajoittamattoman käytön, jakelun ja lisääntymiselle millä tahansa välineellä edellyttäen, että alkuperäinen kirjoittaja ja lähde hyvitetään.

Rahoitus: Tämä työ tuettiin osittain National Institutes of Health (https://www.nih.gov/) [lupanumeroon 1R01CA172652, CA168394, CA083639, CA143883, UL1TR000371 ja 1U01CA180964]; MD Anderson Cancer Center Sheikh Khalifa Ben Zayed Al Nahyan Institute of Henkilökohtainen Cancer Therapy (https://www.mdanderson.org/education-and-research/research-at-md-anderson/personalized-advanced-therapy/institute-for-personalized-cancer-therapy/index.html) ja National Cancer Institute Cancer Center Support Grant (https://cancercenters.cancer.gov/) [P30 CA016672]. Rahoittajat ollut mitään roolia tutkimuksen suunnittelu, tiedonkeruu ja analyysi, päätös julkaista tai valmistamista käsikirjoituksen.

Kilpailevat edut: Kirjoittajat ovat ilmoittaneet, etteivät ole kilpailevia intressejä ole.

Johdanto

Syöpä on monimutkainen geneettinen sairaus. Esiintyminen ja eteneminen useimmat syövät voidaan katsoa kertyneen mutaatioita syövän genomin [1]. Eri vaiheissa syövän synnyn, ryhmä avaimen mutaatioita, kutsutaan kuljettajat, muuta merkittävästi normaalia solukkojärjestelmän [2], [3], ja antaa kasvun ja eloonjäämisen etuja kasvainsolujen [4]. Kuitenkin, koska luontainen genomisen epävakautta esiintyy kasvaimia, kuljettajalla mutaatioita tapahtuu taustalla suuri määrä mutaatioita, kutsutaan matkustajia, jotka eivät ole toiminnallisesti liittyvät kasvaimen synnyssä. Tunnistaminen kuljettaja mutaatioiden on kriittinen tehtävä syövän genomiikka. Muutama ohjaimet on tunnistettu ja käytetään laajasti diagnostisia ja /tai prognostisia biomarkkereiden tai huumeiden tavoitteet syövän hoidossa [5], [6]. Tutkimus että kuulustella tietyn kuljettajan mutaatioita ja niiden kliininen merkitys ollaan laajalti toteutetaan useiden syöpätyyppien [7], [8], mutta lisäponnisteluja vaaditaan järjestelmällistä genominlaajuisten luonnehdinta kuljettajan mutaatioiden ja niiden toiminnalliset vaikutukset.

suurin mutaatioiden havaittu syöpä ovat pistemutaatioita. Kun esiintyy koodaavan alueen geenien, ne voivat muuttaa proteiinia koodaavat sekvenssit, vaikuttaa proteiinien rakenteen ja ilmentymisen, tai häiritä proteiini-proteiini-vuorovaikutuksia [9]. Mutaatiot, jotka muuttavat aminohapposekvenssiä kutsutaan ei-synonyymi mutaatioita, joista suurin osa on missensemutaatioita korvaavia aminohappotähdettä. Toisin frame-shift tai nonsensemutaatiota, joka yleensä johtaa katkaistu proteiineihin, funktio missensemutaatioita on vähemmän ilmeinen. Kuitenkin suuri määrä missensemutaatioita on osoitettu kuljettajina, kuten

BRAF

V600E mutaatio melanooman [10], ja

KRAS

G12D ja G12V mutaatiot peräsuolen syöpä [11] .

harvinaisuus ja esiintyvyys on alhainen kuljettajan mutaatioiden tekevät niistä erittäin vaikea ennustaa käyttäen tavanomaisia ​​tilastollisia menetelmiä, jotka edellyttävät kohtuullisia näytteen koot [1], [12] – [14]. Tiedosta paljon haja voidaan katsoa johtuvan korkean geneettinen heterogeenisyys taustalla kliinisesti määritelty syöpätyyppeihin. Lisäksi funktio missensemutaatio voi riippua monista muista tekijöistä, jotka ovat vaihtelevia eri olosuhteissa, kuten geneettinen alttius, läsnäolo muiden somaattisten mutaatioiden, solulinjaan, ja vaihe maligniteetin.

Viime vuosina useita laskennallisia menetelmiä on ehdotettu arvioimiseksi toiminnallisia vaikutuksia, joiden mutaatiot. Yhdessä nämä menetelmät ovat laskettu yli 90 merkityksellisiä määriä ja ominaisuuksia, jotka kuvaavat ominaisuuksia mutaation ja siihen liittyvä sivuston näkökohtia (a) evoluution säilyttämistä, (b) fysikaalis-kemialliset ominaisuudet proteiinien, (c) proteiinin domeenit, ja (d) sekvenssin yhteydessä. Erilaisia ​​menetelmiä voidaan käyttää näiden neljän tyyppisiä ominaisuuksia erikseen tai yhdessä. Erityisesti, MutationAssessor [9] ja SIFT [15] käyttämällä tyypin (a) ominaisuuksia, SNPs3D käyttää tyyppiä (a) ja (b), CanPredict [16] käytetään tyypit (a) ja (c), MutationTaster [17] ja SNAP [18] käyttämällä tyypit (a), (b), ja (c), ja RAILON [19] ja PolyPhen 2 [20] käyttää kaikkia neljää ominaisuuksia.

Useimmat näistä menetelmistä oli suunniteltu ratkaisemaan yleinen geneettinen ongelma, eli syrjimällä vahingollisia mutaatioita ei-vahingollista niistä. Kuitenkin, useimmat algoritmit eivät pidä geneettisen tai sairauden yhteydessä, jonka mutaatio esiintyy. Vaikka ne voidaan arvioida somaattisten missensemutaatioita, tulokset selvästi puuttuu spesifisyys [13], [14], [19]. Koska kuljettaja mutaatiot määritelty tietyn taudin yhteydessä kuljettaja mutaatio ennustus menetelmä ei olisi tarkka ottamatta huomioon tautikohtaisia ​​tekijät, kuten syövän tyypistä, sairauden vaiheessa, mutaatio esiintyvyys, mutaatio taajuuksia, ja muita kliinisiä tekijöitä.

joukossa julkaistuja menetelmiä, RAILON on ainoa, joka nimenomaisesti pitää syöpä-tyyppinen-tekijät [19]. Vuonna RAILON, 86 eri ominaisuuksia kaikista neljästä ominaisuus tyyppejä käytetään kuvaamaan kunkin missensemutaatio, ja luokittelu mallien koulutetaan syöpää tyyppikohtaista tavalla käytettäessä satunnaista metsä algoritmi. Koulutuksen tiedot syövän tyyppi sisältää joukon kuratoituja kuljettajan mutaatioita kuin myönteisiä esimerkkejä ja lähes yhtä monta synteettisiä matkustajan mutaatioiden (SPM) kuin kielteisiä esimerkkejä.

Vaikka RAILON on merkittävästi kehittyneempi ennustaa kuljettaja mutaatiot, muutaman varoitukset olemassa. Ensinnäkin, ei ole selvää, onko SPMs ovat riittäviä mallinnus laaja kirjo matkustajan mutaatioita, jotka tapahtuvat. Edelleen, viimeaikaiset todisteet on ilmoittanut, että esiintyminen matkustajan mutaatioiden vaikuttavat määriteltävissä tekijät, esim sekvenssikontekstissa, replikointi ajoitus, ja geenien ilmentyminen, jotka todennäköisesti ole riittävän edustaa joukko satunnaisia ​​SPMs [21], [22]. Toinen viime aikoina menetelmät ovat luoneet uusia ennustavan ominaisuuksia [9], [23] – [26], joita ei ole otettu huomioon kehitys RAILON algoritmia. Kolmanneksi on epäselvää, onko satunnainen metsä algoritmi on optimaalinen suhteellisen vähäinen koko koulutuksen asettaa ja korkean dimensionaalisuus paikkatietoaineistojen analysoitavaksi. Neljänneksi suuri määrä mutaation kertyneen datan viimeaikaisten laajamittaisten syöpä Genomikartoituksen projekteja ja yhteisöllisiä projekteja luettuna kliininen sekvensointi ei ole riittävästi integroitu RAILON parantaa ennusteita.

Koska nämä näkökohdat, meillä pyrittiin arvioimaan, onko tarkempi kuljettaja mutaatio ennusteita voidaan saavuttaa sisällytetään systemaattisesti suuri määrä vastikään käytettävissä olevien tietojen ja olemassa olevat algoritmit. Aloitimme suorittamalla kattavan analyysin mutaation tietojen COSMIC tietokantaan [27], The Cancer Genome Atlas (TCGA), ja Cancer Cell Line Encyclopedia (CCLE) hanke [28] ja johdettuja sarjaa koulutuksen ja testituloksia valvontaanasettamista malli koulutus ja arviointi. Suoritimme perusteellisen analyysin nykyisiä välineitä vertailla ja valita tehokkaimmat ominaisuudet. Pyrkimyksemme johtanut uuden syövän kuljettaja käsinkirjoitustyökalun, CanDrA, joka yhdistää meidän kuratoituja tiedot ja ominaisuudet laskemaan kuljettajan pisteet kullekin mahdolliselle missensemutaatio tietyn ihmisen syövän tyyppi. Olemme osoittaneet, että CanDrA saavutetaan parempi herkkyys ja tarkkuus kuin muut työkalut ennustamisessa kuljettajan mutaatioita glioblastoma multiforme (GBM) ja munasarjakarsinooman (OVC). CanDrA ja siihen liittyvä aineistot suuria syövän tyypit (esim, rinta-, paksusuolen ja peräsuolen, pahanlaatuinen melanooma, ja okasolusyöpä ihosyöpä) on saatavissa https://bioinformatics.mdanderson.org/main/CanDrA.

Materiaalit ja menetelmät

tiedonhoitoa

tiukka sarja (S).

Kaksi missensemutaatio aineistoja, GBM ja OVC, oli kuratoinut niistä raportoidaan COSMIC (V58), TCGA, ja CCLE projekti. TCGA data oli kaikkiaan 727 mutaatioiden 142 GBM näytteitä ja 11005 mutaatiot 316 OVC näytteistä [13], [14]. Kosminen sisältämät tiedot 640 mutaatiot 351 GBM primäärikasvain näytteitä ja 237 212 OVC primaarikasvaimen näytteitä. Me on määritelty kuljettajan mutaatio, joka havaittiin ainakin kaksi erilaista näytettä, joko TCGA tai KOSMINEN. Ollakseen tiukat, me ulkopuolelle toistuvia mutaatioita, jotka samaan aikaan muiden otaksuttu toiminnallisia mutaatioita kuten indeleitä, nonsensemutaatiota, nonstop mutaatioita, silmukointikohtamutaatio, ja luennanaloituskeskus mutaatioista samassa geenissä samasta näytteestä. Ne päällekkäisyyttä dbSNP sivustot myös ulkopuolelle. Tämä prosessi johti 67 kuljettajan mutaatioiden GBM ja 61 ulkopuolelta ladattavien suurin (92,5% ja 80,3%, tässä järjestyksessä), josta oli pidetty kuljettajat aiemmissa tutkimuksissa [19].

Valitsimme matkustajan mutaatiot hyper -mutated näytteitä, joilla on puute DNA-vaurioita korjaus ovat paljon suuremmat murto matkustajan mutaatioiden kuin ei-hyper-mutatoitunut näytteitä [14]. Kolme GBM näytteet tunnistettiin TCGA, joista jokaisella on yli 55 missensemutaatioita, ja kaksi OVC näytettä todettiin, joissa jokaisessa on yli 130 mutaatiota. Ehdokas suljettiin pois, jos se sijaitsi syöpä geeni (kuten määritelty COSMIC syöpä väestönlaskennan tai joita RAILON tutkimuksessa), tai päällekkäin dbSNP. Lopuksi, 95 ja 246 mutaatioiden vastaavasti valittu GBM ja OVC. Olemme myös kuratoinut toinen joukko matkustajan mutaatioiden alkaen CCLE hanke, joka sisältää mutaatioita 27 GBM solulinjoista ja 19 OVC solulinjoissa. Levittämisen jälkeen samoja kriteerejä, 490 mutaatioiden GBM ja 462 mutaatioiden ulkopuolelta ladattavien valittiin.

Yhteenvetona neljä tiukkoja sarjaa muodostettiin: GBM.S1, GBM.S2, OVC.S1 ja OVC.S2 (taulukko 1 ja taulukot S1-S4 File S1). Nämä sarjat käytettiin riippumattomien testi asettaa mittaamaan CanDrA n toimintaa muiden työkalujen.

Laajentunut sarja (E).

Monet mutaatioita esiintyy toistuvasti lähellä (hotspot) eri syöpätyyppien. Esimerkiksi

BRAF

V600 mutaatio tapahtuu papillaarinen kilpirauhasen karsinooma, paksusuolen ja peräsuolen syöpä, melanooma ja ei-pienisoluinen keuhkosyöpä, samoin kuin

BRAF

N580S, E585K, D593V, F594L, G595R , L596V, T598I, V599D, V599E, V599K, V599R, K600E, ja A727V mutaatioita. Useimmat näistä mutaatioista ovat ryhmittyneet kahteen hotspot alueeseen: glysiinirikkaan P silmukan N lohko ja aktivointi segmentissä ja reunustavat alueet [29]. Monia samanlaisia ​​hotspot mutaatiot havaitaan

TP53, PIK3CA, KRAS,

muun muassa [30], [31]. Nämä mutaatiot on samanlaisia ​​ominaisuuksia ja todennäköisesti on samankaltaisia ​​toimintoja eri syöpätyyppejä. Jotta tarkoittavat tällaista yhtäläisyydestä syöpätyyppejä, rakensimme syöpää tyyppikohtaista mutta vain tietyissä kuljettajien ja matkustajien seuraavia empiirisiä sääntöjä.

Tietyn syövän tyyppi, me kutsumme missensemutaatio kuljettaja mutaatio, jos se esiintyy geenin mutatoitunut tässä syöpätyypin ja 1) sitä havaitaan vähintään 3 primaarikasvaimen näytettä (riippumatta syövän tyypistä), tai 2) sen päällä leikkaa vähintään 4 mutaatiota (kuten indeleitä, dinukleotidi tai trinukleotidi mutaatioita), tai 3) se on keskitetty 25 emäsparin alue, joka leikkaa ainakin 5 mutaatioita COSMIC tietokantaan. Me vähennetty kuljettajan mutaatioita asettaa S sarjasta varmistaa niiden keskinäinen riippumattomuus. Tämä prosessi johti 1529 ja 1768 otaksuttu ajurit GBM ja OVC, vastaavasti.

Matkustaja mutaatioita syövän tyyppiä valittiin ne, jotka esiintyvät vain kerran primaarikasvaimen näytteet tästä syöpätyypin, ei missään COSMIC syöpä väestönlaskenta geeni, ja eivät vastaa muita mutaatioita sisällä 31-emäsparin ikkunan koko COSMIC tietokantaan. Olemme myös vähennetään matkustaja mutaatioita asettaa S sarjasta. Tämä prosessi johti 1259 ja 8075 matkustajia GBM ja OVC, vastaavasti (taulukko 1).

Yhdistämällä näiden oletettujen kuljettajille ja matkustajille jokaisen syövän tyypistä, kahden laajennetun aineistot muodostettiin: GBM.Ex ja OVC.Ex . Niitä käytettiin myös koulutusta sarjat ominaisuuksien hallintaan ja valvoo koulutusta.

Tarkempi Ominaisuudet

Kunkin missensemutaatio, 95 ominaisuudet (taulukko S5 File S1) hankittiin neljältä tietoportaalien: RAILON n SNVBOX [19], Ensembl Vaihtoehto Vaikutus Predictor [32], Mutation arvioija [9] ja ANNOVAR [33]. Joukossa ovat UniProtKB merkinnät, evoluution säilyttäminen tulokset, proteiini fysikaalis-kemialliset ominaisuudet, sekvenssikontekstissa indeksit, ja toiminnallinen vaikutus tulokset lasketaan algoritmeilla kuten SEULOA [15], PolyPhen-2 [20], Condel [25], Mutation arvioija [9], PhyloP [26], GERP ++ [24] ja LRT [23].

Feature Selection and Evaluation

pieni osa noin 6,0% tietoja ei ollut käytettävissä näitä tietoja portaaleja. SNVBOX jäi noin 13,3% dataa 29 piirteitä, koska ei ole niihin liittyviä UniProt proteiinidomeenin tietoja noin mutaation sivustoja. ANNOVAR jäi noin 15% tietojen ominaisuuksia, kuten Phylop, Gerp ++ ja LRT tulokset tuntemattomasta syystä. Helpottaakseen tutkimuksissamme olemme substituoidut puuttuvat ominaisuudet niiden kanssa lähimmän mutaatioiden saman geenin käyttäen k-lähimmän naapurin algoritmi. Meidän Arvioinnin minimaalisesti vaikuta toimintaan koska valittu testi sarjaa olivat lähes ilman puuttuvia ominaisuuksia.

arvioitiin ennakoivan miten kukin ominaisuus perustuu U-testi ja käyrän alapuolinen alue (AUC ) vastaanottimen toimivien ominaiskäyrän. Ominaisuudet ei-merkitsevä

p

arvoista, Bonferroni korjauksen ja AUC alle tietyn kynnysarvon jätettiin lisäanalyysiä; sillä oli muutamia ominaisuuksia, jotka voivat ottaa käyttöön aineisto (väestö) erityinen harhojen (esim AACOSMIC). Sitten arvioitiin ominaisuus yhdistelmiä käyttäen hybridi ominaisuuden valinta-algoritmin. Ensinnäkin, kaikki mahdolliset yhdistelmät, joissa on vähemmän kuin 4 valitut ominaisuudet laskettiin ja arvioitiin perustuen keskimääräiseen AUC 10-kertaiseksi ristivalidointi (toistetaan 5 kertaa) koulutusta aineisto. Toiseksi paras ominaisuus yhdistelmä laajennettiin edelleen käyttäen Hill-kiipeilyä hakustrategia [34], joka iteratiivisesti sisältyi jäljellä piirteitä nykyinen yhdistelmä. Ominaisuus asettaa että saavutetaan suurin AUC rajat validointi valittiin optimaalinen set.

Luokittelu tulokset ja Tulospalvelu

Käytämme painotettua tukivektoriluokitin (SVM) [35], koska meidän luokittelija jotta käsitellä epätasapainoinen numerot kuljettajien ja matkustajien harjoitussarjassa. CanDrA luokittelee mutaatio 3 ryhmään: kuljettaja, ei-call, ja matkustaja, joka perustuu tulokset laskema SVM (Kuva S1 File S1) [36]. Mukaan pisteet jakaumia, mutaatio luokitellaan kuljettajaa, jos sen arvo on suurempi kuin 90

persentiilin näiden matkustajan mutaatioiden training set matkustajana jos sen tulos on pienempi kuin 10

persentiilin näiden kuljettajan mutaatioita, tai ei-puhelun toisin. Lisäksi CanDrA laskee luottamusvälin pisteet kullekin ennustus, määritellään osa mutaatioista, jotka ovat ääri tulokset samassa luokassa koulutuksessa tietojen (kuva S1 File S1). Esimerkiksi jos mutaatio on luokiteltu kuljettajan ja sen arvo on suurempi kuin 95% kuljettajista koulutukseen asetettu, sen luottamus pisteet on yhtä kuin 0,05. Nämä luottamus tulokset ovat siis

de facto

merkitys

P

arvojen arviointiin empiirinen luokan-viisasta pisteet jakauma koulutukseen aineisto.

Tulokset

Ominaisuudet valinta ja yleinen luokitus tulokset

GBM tunnistimme 28 ominaisuuksia, jotka erikseen läpäissyt AUC (

Vastaa