PLoS ONE: vertailu Prognostic Utility on Diverse Molecular Data keskuudessa lncRNA, DNA Metylointi, microRNA, ja mRNA yli viisi ihmisen syövissä
tiivistelmä
Johdanto
Advances in suurikapasiteettisia tekniikoita ovat tuottaneet erilaisia informatiivinen molekyylimarkkereita syövän lopputuloksen ennustaminen. Long ei-koodaavat RNA (lncRNA) ja DNA Metylointia uudentyyppisten lupaavia markkereita ovat nousemassa avainmolekyylejä ihmisen syövissä; kuitenkin ennustetekijöiden hyödyllisyys Tällaisten erilaisten molekyylien tiedot pysyvät löytäjäänsä.
Materiaalit ja menetelmät
Ehdotimme laskennallinen putki (IDFO) ennustaa potilaan selviytymistä tunnistamalla Ennuste liittyvät biomarkkerit käyttäen multi tyyppinen molekyyli data (mRNA, microRNA, DNA: n metylaatio, ja lncRNA) alkaen 3198 näytteistä viidestä syöpätyyppeihin. Arvioimme ennustavan suorituskykyä sekä yksittäisten molekyylien tiedot ja integroitu monen tyyppinen molekyyli tietojen elossaololuku kerrostumista, ja verrattiin niiden suhteellinen merkitys kunkin syöpätyyppi, vastaavasti. Survival analyysi käyttäen Coxin monimuuttuja regressio suoritettiin tutkimaan vaikutusta IDFO-tunnistettu markkereita ja perinteiset muuttujat hoitotulokseen.
Tulokset
Käyttämällä IDFO lähestymistapa, saimme hyviä ennusteita suorituskyky molekyyli- aineistot (bootstrap tarkkuus: +0,71-0,97) viidessä syöpätyypeissä. Näyttävästi, lncRNA tunnistettiin paras ennustetekijöiden ennustaja on validoitu ikäluokat neljän syöpätyyppien, jonka jälkeen DNA: n metylaatio, mRNA, ja sitten microRNA. Löysimme sisällytti monen tyyppinen molekyyli tiedot osoittivat samanlaisia ennusteita yhden tyypin molekyyli data, mutta lukuun ottamatta lncRNA + DNA metylaatio yhdistelmät kahdessa syövissä. Survival analyysi suhteellinen vaara mallien vahvisti korkean käyttövarmuuden varten lncRNA ja DNA Metylointia ennustetta riippumattomista tekijöistä perinteisten kliinisten muuttujien.
Johtopäätös
Tutkimuksemme tarjoaa tietoa järjestelmällisesti ymmärtämään ennustetekijöiden suorituskykyä erilaisten molekyyli- tiedot sekä yksittäisinä että aggregaatti kuvioita, jotka voivat olla erityinen viittaus siihen liittyviä myöhempiä tutkimuksia.
Citation: Xu L, Fengji L, Changning L, Liangcai Z, Yinghui L, Yu L, et al. (2015) vertailu Prognostic Utility on Diverse Molecular Data keskuudessa lncRNA, DNA Metylointi, microRNA, ja mRNA yli viisi ihmisen syövissä. PLoS ONE 10 (11): e0142433. doi: 10,1371 /journal.pone.0142433
Editor: Rossella Rota, Ospedale Pediatrico Bambino Gesu ”, ITALIA
vastaanotettu: 09 heinäkuu 2015; Hyväksytty: 21 lokakuu 2015; Julkaistu 25 marraskuuta 2015
Copyright: © 2015 Xu et al. Tämä on avoin pääsy artikkeli jaettu ehdoilla Creative Commons Nimeä lisenssi, joka sallii rajoittamattoman käytön, jakelun ja lisääntymiselle millä tahansa välineellä edellyttäen, että alkuperäinen kirjoittaja ja lähde hyvitetään
Data Saatavuus: Tiedot ovat potilastiedot. Johtuen eettisiä rajoituksia, tiedot ovat saatavissa Cancer Genome Atlas (TCGA) Tiedot portaali tutkijoille, jotka täyttävät pääsyä luottamuksellisia tietoja: https://tcga-data.nci.nih.gov/tcga/.
rahoitus: kirjoittajat eivät tuki ja rahoitus raportoida.
kilpailevat edut: kirjoittajat ovat ilmoittaneet, etteivät ole kilpailevia intressejä ole.
Johdanto
Cancer ennuste ennustus on tärkeää valvoa kärsimystä, etenemiseen ja kuolemaan potilailla. Tarkka tulos ennustus voidaan käyttää kliinisesti valita paras useiden käytettävissä hoitoja syöpäpotilaille ja parantaa selviytymismahdollisuuksia [1, 2]. Perinteisesti ennuste perustuu kliinisiin patologisia muuttujia kuten kasvain vaiheessa, etäpesäke, ja patologinen diagnostinen ikä [3]. Viime aikoina useita erottuva molekyyli biomarkkerit on kartoitettu ja sovellettu käyttää kliinisen tuloksen potilaiden, kuten proteiini-pohjainen (fosforylaatio todetaan, solun pinnan reseptorit), DNA-pohjainen (SNP, CNV), ja RNA-pohjainen ( mRNA, microRNA, ncRNA) [4-7]. Lisäksi on yhä enemmän näyttöä viittaa siihen, että pitkään ei-koodaava RNA (lncRNA) ja DNA: n metylaatio voi välittää onkogeenisia tai kasvain tukahduttava tuloksia, jotka edustavat uusia luokkia lupaavien biomarkkereiden [5]. Kuitenkin useimmat tutkimukset keskittyvät joko yhden syöpää sukua tai yksittäisissä alustan tietokantaa, kun taas kattavan vertailun määrittää suhteellinen ennustetekijöiden teho kunkin luokan molekyylien tiettyyn syöpään olisi mieluiten Tehokkaamman diagnostinen alustalla. Tämä mahdollistaisi myös huomioon, onko kohdistaminen liitoksen biomarkkerit antaisi paremman hallinnan syöpien [2]. Huolimatta kasvavasta tietojen saatavuutta kuvaavat näiden eri molekyylejä, aiemmat tutkimukset tai käytettävissä kehysten /putkilinjat eivät ole tutkineet näitä kysymyksiä.
Strategiat kuten RT-PCR ja immunohistokemia ovat tutkineet huomattavan määrän biomarkkereita ennusteen [8- 10]. Kuitenkin suurin osa biomarkkerit löytyivät ”arvauksia” kuin
kautta
järjestelmällinen, genomin laajuinen lähestymistapa. Lisäksi vain muutama on käytetty hoitopaikassa ja hyödyllisyys valtaosa näistä märkälaboratoriokoe-pohjainen merkkiaineita vielä ratkaistava [4]. Viime aikoina käyttäen suuren läpimenon profiilit, tietotekniikassa kuten kone-oppimisen lähestymistapoja [11-16] ja eri selviytymisen mallit [17-19] joita sovelletaan tunnistamaan ehdokas biomarkkerit kanssa ennustetekijöiden arvoja tauti. Vaikka nämä menetelmät on kertynyt paljon molekyyli allekirjoituksia riittävä tarkkuus, pieni systemaattinen tutkimus on tehty määrittämään ennustetekijöiden teho erilaisten molekyyli- allekirjoitusten ja niiden suhteellinen merkitys. Tämä johtuu siitä, että useimmat tutkimukset kärsivät yhdestä tai useammasta seuraavista neljästä ongelmat: (i) puutos molekyyliprofiilien, (ii) rajoitettu yhteen syöpään sukuperää, (iii) alikehittynyt strategioita tutkia optimaalinen ennustavia kannalta suuren ulottuvuuden tietojen ja kasvaimen heterogeenisyys. Kuitenkin, The Cancer Genome Atlas (TCGA) hanke yhteenlaskettu suuri määrä genomista tietojen havaittiin lisäävän ymmärrystä kliinisen patologioita erilaisten molekyylien alustojen ihmisen syövissä [20-23], joka auttaisi käännös biologisen datan ennustetekijöiden apuohjelma.
tässä tutkimuksessa olemme toteuttaneet putki tunnistaa ennusteeseen liittyviä biomarkkereita monen omic profiilit sisältäen RNA-seq, DNA: n metylaatio Helmi siru, ja microRNA-kohdat ja verrattiin niiden suhteellinen ennustetekijöiden valta viidessä TCGA syövissä . Aikana mallintamisprosessin, biomarkkerit ratkaiseva kliiniseen tulokseen rankattiin ja valittu käyttämällä Iteratiivinen Poisto Feature Optimal (IDFO) lähestymistapa. Lisäksi arvioimme ennustearvo apuohjelmia sekä yksittäisten että integroitu monen omic ennustajia tutkia niiden osuus mallintaa suorituskykyä, ja ennusteita erilaisten molekyylien ennustavat vastaavissa syöpiä arvioitiin edelleen riippumaton testi sarjaa. Survival analyysiä käytettiin määrittämään ennustetekijöiden hyödyllisyyttä IDFO tunnistamattomiksi ennustajia yksin tai yhdessä kliinisessä muuttujia. Lisäksi helpottaa käyttöä lähestymistapamme, myös toteutettiin yleisesti saatavilla R lähdekoodi (CAPM.R), jonka avulla tutkijat rakentaa ennusteen mallina muille aineistoja. Tutkimuksemme tarjoaa dynaamisen riskinarviointijärjestelmän syövän ennuste ennustus, joka ei ainoastaan paljastaa ennustetekijöiden hyödyllisyys monen omic dataa syöpätyyppejä, mutta myös helpottaa ymmärtämistä lncRNA ja DNA: n metylaatio mahdollisina ennustetekijöitä merkintöinä syövän etenemiseen.
Materiaalit ja menetelmät
Tietoaineistot
koottu 3198 julkisesti saatavilla kasvain näytteet taulukkopohjaisia tietoja joukossa viisi syöpien The Cancer Genome Atlas (TCGA) hanke, joka on julkaistu in [20, 24-27] (taulukko A S1 File kuvataan yksityiskohtaisesti otosjakaumat). Kaikki kasvain näytteet valittiin perustuu seuraaviin kriteereihin: (a) allekirjoituksista (mRNA /lncRNA /microRNA selostukset, DNA: n metylaatio koettimet) puuttui 50% kasvain näytteet poistettiin kuin merkityksetön, (b) näytteet Hyväksytty kliinisten tietojen ( esimerkiksi, elinaika, ikä, kasvain vaihe), (c) kasvain potilailla, joilla on vain enintään kuukauden selviytymisen leikkauksen jälkeen ei otettu välttämään mahdolliset sekoittavien vaikutusta leikkauksen jälkeisiä komplikaatioita. Useimmat kasvain näytteet koostuu kolmesta eri molekyyli- profiloinnin aineistoja, joista RNA-seq, microRNA-kohdat, ja DNA: n metylaatio Bead siru. Neljä eri molekyyli- allekirjoitusten uutettiin kuin ennuste ennustajia kolmesta molekyyli dataprofiileja, kuten lncRNA ja mRNA allekirjoitusta RNA-seq profiilit, DNA: n metylaatio allekirjoitukset olivat DNA metylaatio Helmi ChIP 450k /27k ja microRNA allekirjoitukset olivat peräisin microRNA- seq profiileja. Kullekin molekyylitason tietoa profiilin, me satunnaisesti valittu kaksi kolmasosaa kasvain näytteiden rakentaa (eli ”juna”) ennustemallit tunnistamaan parhaan suorituskyvyn ennustajia, ja viimeinen kolmannes näytteiden käytettiin riippumattoman kokeen näiden ennustavat. Aineistot, jotka vastaavat eri syöpiä analysoitiin erikseen. Lisäksi sillä lopputuloksen ennustaminen potilaiden kasvain näytteet jaettiin joko ”hyvä” tai ”huono” tulos ryhmien ennuste tarroja. Kynnys Kahden tuloksen ryhmää määriteltiin perusteella kliinisen luonnehdinta vastaavien syöpiä (joka on etuna saadaan kaksi tuloksesta ryhmiin samankokoiset jokaisessa syöpä).
Dichotomization selviytymisen tietojen
Me kahtia sensuroitu selviytymisen tiedot kunkin syöpätyypin määrittämällä kynnyksen sulku aikaa 2 vuotta potilaille paksusuolen adenokarsinooma (COAD), 3 vuotta keuhkojen okasolusyöpä (LUSC), vakavien cystadeno karsinooma (OV), kohdun corpus endomet- karsinooma (UCEC), ja 5 vuotta rintojen invasiivisia karsinooma (BRCA). Potilaat, jotka asuivat yli lähetyserää leimattiin ”hyvää ennustetta” kuolleen leimattiin ”huonoa ennustetta. Potilaat, joilla on sensuroitu elossaoloaika, jotka olivat ennen raja kynnys jätettiin (esim alle 1 kk).
Pre-processing genomista ja epigenome profiilit
RNA-seq: TCGA RNA-seq tason 2 tiedot normalisoituivat ja käsitellään laskemalla lukee kilolta pohja miljoonasosaa kartoitettu lukee (RPKM) arvo ilmentymistä lncRNA /mRNA-transkriptien. Vastaamaan koottu selostukset yksityiskohtaisiksi lncRNAs /mRNA: t, kaikki transkriptit linjattu Human Genome viittauksella luettelossa olevasta UCSC (GRCh37 /hg19), kun taas selostukset kanssa puolet pituudet kanssa käytettäessä lncRNA /mRNA tunnistettiin ottelun [28].
MicroRNA-kohdat: microRNA ekspressiotasoja analysoitiin
kautta
TCGA microRNA sekvensointi tason 3 datan (Illumina Genome Analyzer Hiseq 2000). Laskennallinen lausekkeita transkriptien kohdistamalla tiettyyn miRNA haettiin sekä miRNA isoformia ja kvantifiointiin tiedostot (saatavana TCGA data portaalin kanssa metatiedostojen merkitsemiseksi kukin aineisto) [29].
DNA Metylointi Helmi ChIP: Tällä DNA: n metylaatio aineistoja useimmissa kasvain ikäluokat muodostuvat Illumina 450K ja /tai 27K array alustoilla. Näin ollen meidän on valittu päällekkäisyydet CpG: t (mitattuna Infinium tyypin II-määritys), joka oli läsnä sekä näiden alustojen (Infinium 450K ja 27K) ja ei ollut enemmän kuin 10% puuttuvat arvot kaikissa näytteissä jokaisessa syöpä, vastaavasti .
Allekirjoitus arviointimenetelmä: IDFO
IDFO lähestymistapa koostuu kolmesta perustoimintojen (kuva 1):
ennuste Risk priorisointi (PRP) ranking. Oli useita ehdokkaan muuttujia monipuolinen molekyyliprofiilien, mikä maksaa valtavasti laskentaa aikana malli koulutusta. Voittaa tämä ”ulottuvuus kirous”, olemme kehittäneet tätä ennalta biomarkkereiden ranking strategia: ennuste Risk priorisointi (PRP) seuloa edustavimmat ennustetekijöiden muuttujat kuten alunperin malli harjoitusominaisuuksia jokaisen molekyyliprofiilin, vastaavasti. Tässä prosessissa, selvitimme kaksi vaihetta:
laskelma talteen differentiaalisesti ilmaisi /denaturoidulla allekirjoitukset
x
i
kahden tuloksen ryhmää. Kuten kaava, (1) Tässä oli keskimäärin ilmaus /metylaatio arvo allekirjoituksen
x
i
että 1
st ryhmä, ja se oli keskimäärin ilmaus /metylaatio arvo on
x
i
että 2
ed ryhmä,
σ
oli keskihajonta kahden vastaavan ryhmän, 1 = ryhmä yksi, 2 = kaksi.
P
unicox
, laskelman univariate Cox
p
arvo molekyylimerkkiaineet
x
i
, jossa käytettiin ilmaisua /metylaatio arvoja
x
i
kuin muuttuja varten univariate Coxin selviytyminen analyysi.
Lopuksi
PRP
vaara arvo
allekirjoituksesta
x
i
laskettiin käyttäen tätä kaavaa, (2) Kun johdettu yhtälöstä 1.
Malli rakennuksessa. Sillä kattavasti arvioidaan ennustetekijöiden kykyä monikanavajakelun molekyylien vastaaviin syöpätyyppejä, käytimme 5 koneoppimismalleja yhdistettynä 4 piirreirrotuksen strategioita perustaa suorituskyvyn putki. Kaksi muuta vaihetta käytettiin: mallin rakentaminen ja ominaisuuksien hallintaan. Viisi koneoppimisen algoritmeja (ks täydentävässä Methods in S1 File) ehdotettiin pienoismallit, jotka ovat tukivektorikone (SVM), k-lähimmän naapurin (KNN), logistinen regressio (LR), satunnainen metsä (RF) ja NaiveBayes ( HUOM). Miten kukin luokittelija arvioitiin käyttämällä 632-Bootstrap menetelmällä, käyttäen tätä kaavaa, (3) Jos
n
oli kokonaismäärä toistojen, ja olivat
i
th
kokeilu juna tarkkuutta ja testin tarkkuutta. Täällä jaamme kaksi kolmasosaa näytteitä koulutusta ja yhden kolmasosan näytteitä, jotka molemmat poimittiin alkuperäisestä opetustiedostoiksi.
Feature valinta. Tässä menettelyssä, ehdotimme neljä piirreirrotuksen strategioita, nimittäin SVM-RFE, RF-IS, LASSO ja PFS (täydentävä Methods in S1 File), joka määrittelee optimaalisen joukon ominaisuuksia kokonaisvaltaisesti. Ominaisuus valintamenettely käynnistetään PRP algoritmin sijoittui n-top-painotettu ominaisuuksia (tarkemmat luvut ks Täydentävät Menetelmät ja kuvassa A S1 File) ja sitten iteratiivisesti poistaa numeron tai osa vähiten tärkeä /keskeiset piirteet määritellään perustuen vastaaviin louhinta strategioita kunnes korkein bootstrap tarkkuutta saatiin. Aikana ominaisuus optimointiprosessia, keskimäärin tarkkuus 10000 kertaa random uusien näytteiden kanssa korvaaminen laskettiin arvio tarkasti jokaisen iteratiivisen valitun ominaisuus asetetaan. Arvioidaan vakautta PRP ominaisuuden joukkoon, Monte Carlo simuloinnin avulla R paketti GMCT [30] esitettiin myös satunnaisesti valitsemalla yhtä monta varustelu vastaaville molekyylimalleja kussakin kasvain. Lopuksi korkein bootstrap mallin todettiin paras ennuste malli ja sen seulotaan pois ominaisuuksia testattiin sitten Koepakettia itsenäiseen validointi. Malli rakentaminen, tilastollinen analyysi ja kuvaajat suoritettiin käyttäen Bioconductor (www.bioconductor.org).
Tämä vuokaavio sisältää kolme perusvaihetta: (i) PRP sijoitusta molekyylien ominaisuuksia, (ii) mallin rakentaminen ja (iii) ominaisuus optimointi ja validointi.
tilastot
Opiskelijan
t
testejä käytettiin vertailla ero ilmaistaan allekirjoituksia (mRNA: t, lncRNAs, DNA: n metylaatio, ja MikroRNA) joukossa kaksi riskiryhmään. Wilcoxonin testi hyväksyttiin arvioida tilastollisen merkityksen selviytymisen jakautuminen kahden ennusteen ryhmää luokiteltuna MCPHR malleissa kohti tätä kaavaa, (4) Jos
S
1 ja
S
2 oli määrä eloonjääneiden kahdessa riskiryhmiin,
V
1 ja
V
2 oli varianssi
S
1 ja
S
2.
likelihoods suhde testiä käytettiin vertaamaan sovitus kaksi mallia (esim IDFO ennustaja mallien kanssa ja ilman ylimääräisiä muuttujia), joka oli perustuvat laskemalla todennäköisyys suhde. Uskottavuusfunktio laskettiin käyttäen tätä kaavaa, (5) jossa
S
(
t
i
) oli eloonjääminen toiminto, joka osoitti osuus
i
th
potilaan elossa aika
t
; Tiheysfunktio
f
(
t
i
) oli todennäköisyys kuolla pienessä aikaväli
t
;
w
i
oli painotettu keskimääräinen eloonjäämisaste laskettuna, jossa
V
i
oli varianssi eloonjäämisluvut ;
n
oli potilaiden kokonaismäärä vastaavissa ikäryhmät. Kaplan-Meier-analyysi ja log-rank todennäköisyys malleja käytettiin testaamaan eroja selviytymisen ja Kaplan-Meier -käyrät piirrettiin perustuu mediaani riskiluku.
p
arvoja kaikessa tilastolliset testit alle 0,05 pidettiin merkittävinä. Yllä tilastolliset analyysit suoritettiin käyttäen R paketit: selviytymistarpeen ja ”survcomp”.
Monimuuttujatestaus Coxin suhteellisen Hazard regressio
Coxin monimuuttuja suhteellinen vaara regressiomallin, suosituin matemaattinen mallinnus lähestymistapaa sovellettiin arvioida riskisuhteita, suhteelliset riskit, mikä vastaa 95%: n luottamusväli (CI) ja selviytymisen käyrät käyttämällä useita /useita selittävät muuttujat (molekyyli- ja /tai kliinisten muuttujat). Esimerkiksi parametrinen malli perustui eksponentiaalijakauman käyttämällä tätä kaavaa, (6) Jos
h
(
t
) oli vaara toiminnon
x
1,
x
2,
… x
k
olivat kovariaatit, ja
β
1,
β
2,
…
,
β
k
olivat kertoimia vastaavien covariates, jossa
β 0
edusti kovariaattina riskitekijä liittyy ”huonon ennusteen” päinvastoin,
β 0
osoitti kovariaattina suojattu tekijä liittyy ”hyvään ennusteeseen. Jatkuva
α
tässä mallissa edusti log-perushasardiin, koska log
h
(
t
) =
α
tai
h
(
t
) =
exp
(
α
), kun kaikki
x
arvot olivat nolla.
Risk tulokset
.
R
(
t
) laskettiin ennustetekijöiden riski kunkin potilaan, ja määritellään lineaarisena yhdistelmänä ennustaja muuttujia painotettu niiden Coxin regressiokertoimia, ja lasketaan tämän kaavan, ( 7) Jos
R
(
t
) oli diabetesriskitestiin potilaan
t
,
h
(
t
) oli vaara laskemaa monimuuttuja Coxin regressiomallin (johdettu yhtälön 6).
R-koodit: CAPM
avulla käyttäjät voivat hakea meidän rakennettava putki muihin aineistoja, toteutimme julkisesti käytettävissä R lähdekoodi (CAPM.r) suorittaa syövän ennuste ennustus, joka on vapaasti saatavilla https://www.escience.cn/people/lixu/index.html.
tulokset
arviointi ennustetekijöiden suorituskykyä erilaisten molekyylien tietojen
vuokaavio Tutkimuksemme on esitetty kuvassa 2. Me koota 3198 julkisesti saatavilla kasvain näytteet taulukkopohjaisia tietoja joukossa viisi TCGA syöpätyyppeihin: rintojen invasiivisia karsinooma ( BRCA) [26], paksusuolen adenokarsinooma (COAD) [27], keuhkojen okasolusyöpä (LUSC) [25], kohdun corpus endomet- karsinooma (UCEC) [31] ja vakavien cystadeno karsinooma (OV) [24]. Viisi syöpätyyppeihin valittiin, koska niiden TCGA ikäluokat mukana riittävästi näytteitä useita erityyppisiä molekyylitason tietoa ja kliinisten tietojen (taulukko A S1 File). Kukin syöpätyypin koostui neljästä molekyylien tietoprofiilit, mukaan lukien (i) lncRNA: Illumina HiSeq 2000 RNA Sequencing V2; (Ii) mRNA: Illumina HiSeq 2000 RNA Sequencing V2; (Iii) DNA: n metylaatio: Illumina Infinium ihmisen DNA Metylointi 27K, 450k; (Iv): microRNA: Illumina Genome Analyzer /HiSeq 2000 microRNA sekvensointialustamme. Jotta kattavasti arvioida ennusteita neljän tyyppisiä molekyyli allekirjoitusten niiden syövät rakensimme ryhmä 5 luokittelijoiden (SVM [32], KNN [33], NaiveBayes [34], RandomForest [35], multinomiaalinen logistinen regressio [14]) yhdistettynä 4 piirreirrotuksen strategiat: vähiten Absolute Kutistuminen ja valinta Operator (LASSO) [36], tukivektorikone perustuu Rekursiivinen Feature Elimination (SVM-RFE) [37], Random Forest merkitys taajuuksien perustuvat ominaisuuksien hallintaan (RF-IS) [38], ja priorisointi-eliminoitu ominaisuuksien hallintaan (PFS) (täydentävä Methods in S1 File) rakentaa ennuste laskennallinen putkistoa, joka nimettiin iteratiivinen poistaminen Feature Optimization menetelmällä (IDFO, katso menetelmät ja kuvio 1).
Tämä putki sisältää neljä pääasiassa menettelyt: I) Tietojenkäsittely. Olemme koottu kokoelma 3198 kasvaimen näytteiden viittä ihmisen syövissä, joka koostuu neljän tyyppisiä molekyyli tiedot mukaan lukien lncRNA, microRNA, mRNA, ja DNA: n metylaatio. Jokaisella molekyylitason dataa vastaavissa syövissä jalostettiin array perustuu matriisi CAPM esikäsittely menetelmiä. II) Ominaisuus sijoitusta. Molecular piirteitä liittyy ennusteeseen analysoitiin ja lajitellaan mukaan PRP algoritmin. Kutakin molekyylitason tietoa, valitsimme top-painotettu 100 allekirjoitusta kuin alustava ominaisuus asetetaan kussakin viidestä syöpien, vastaavasti. III) Malli rakennus ja ominaisuuksien hallintaan. Tässä prosessissa, hyväksyimme viisi luokittelijoiden yhdessä neljän ominaisuuden valinta algoritmit luoda ennusteen ennusteen lähtötilanteessa. Aikana ominaisuus valintaprosessin, kunkin ryhmän ominaisuudet harjoitteli 10000 kertaa satunnaistaminen ja tehokkaimpiin ominaisuus paneeli korkein bootstrap tarkkuus valittiin kullekin molekyylitason tietoa kohti syöpä. IV) Validation. Arvioidaan ennusteita kunkin molekyyli tietojen tehokkaimpiin ominaisuuksia on edelleen sovellettu riippumattoman kokeen jokaisessa syövän ikäluokat, vastaavasti.
aikana ominaisuus optimointiprosessia, luokittelijoiden kunkin molekyyli tiedot olivat aluksi kouluttama ennuste Risk priorisointi algoritmia (PRP; katso menetelmät) sijoittui ominaisuuksia ja sitten iteratiivisesti poistaa numeron tai osa vähiten tärkeä /keskeiset piirteet, jotka määritettiin neljän piirreirrotuksen strategioita kunnes optimaalinen paneeli ominaisuuksia havaittiin. Arvioida vakauden PRP menetelmän, Monte Carlo Simulation (MCS) suoritettiin myös valita yhtä suuria ominaisuuksia, kuten satunnaisia validointi vastaavien profiilien kunkin kasvaimen. Luokitin korkein bootstrap tarkkuus [39] tunnistettiin optimaalinen malli ja paras suorituskyky ennustajat testattiin sitten itsenäinen testissä ikäryhmät. Malli esitykset kunkin molekyylitason tietoa ( ”juna”) yhdistettynä vastaaviin ominaisuuksien hallintaan strategioita on korostettu kuvassa 3a-3e. Havaitsimme, että, 1) bootstrap tarkkuudet kaikkien luokittelijoiden vaihtelivat 0,71-0,97 (taulukko B S1 File), joka osoitti hyvää suorituskykyä IDFO lähestymistavan useille syöpätyyppeihin; 2) PRP sijoittui toiminnoiltaan johti huomattavasti nykyistä tarkempaa verrattuna satunnaisesti valittuun MCS toiminnoiltaan (keskiarvo tarkkuus: PRP = 0,81, MCS = 0,59; yksipuolinen Wilcoxonin testi:
P
1.12e -5); 3), ja ei havaittu selvää eroa luokittelu algoritmeja suhteen kasvaimia, ja suorituskyky erilaisia molekyylien allekirjoituksia ei vaihdellut merkittävästi eri syöpien, vahvistaa erittäin vankka perimää ja epigeneettiset tietojen ennusteeseen ennustaminen; 4) kaikkien 20 optimaalinen ennustemalleja (5 syövät * 4 molekyyli- aineistoja), 12 20: stä (60%) saatiin PFS algoritmin, jota seurasi LASSO (30%) ja SVM-RFE (10%), mikä osoittivat, että meidän uusi ominaisuus valinta ehdotettu lähestymistapa oli hyvä suorituskyky vastaa perinteisten menetelmien (taulukko B S1 File). Myöhemmin verrata ennustavan suorituskykyä neljän tyyppisiä molekyyli allekirjoituksia puolueettoman validointi, haimme paras ennuste ennustajat kustakin koulutusmallin riippumattomalle Koepakettia. Erityisesti, kuten kuvassa 3F lncRNA allekirjoitukset havainnollistetaan parhaan suorituskyvyn neljällä syövissä: BRCA (test set tarkkuus: 0,78,
N
testijärjestelyä
= 159), COAD (Koepakettia tarkkuus: 0,85,
N
testijärjestelyä
= 48), LUSC (Koepakettia tarkkuus: 0,77,
N
Koepakettia
= 56), ja OV (Koepakettia tarkkuus: 0,79,
N
testijärjestelyä
= 75). DNA: n metylaatio oli toiseksi paras ennustaja BRCA (testipakkauksesta tarkkuus: 0,76,
N
testijärjestelyä
= 73), COAD (Koepakettia tarkkuus: 0,79,
N
Koepakettia
= 67), LUSC (Koepakettia tarkkuus: 0,77,
N
testijärjestelyä
= 42), munasarjasyöpä (Koepakettia tarkkuus: 0,7,
N
Koepakettia
= 146), ja kolmanneksi paras ennustavat in UCEC (Koepakettia tarkkuus: 0,8,
N
Koepakettia
= 81). mRNA ja microRNA perinteisten kliinisten lähtötilanteessa markkereita, rankattiin alhaisempi kuin meidän alkuperäiset odotukset. mRNA oli kolmanneksi paras ennustavat in BRCA (Koepakettia tarkkuus: 0,64,
N
testijärjestelyä
= 159), COAD (Koepakettia tarkkuus: 0,64,
N
Koepakettia
= 48), LUSC (Koepakettia tarkkuus: 0,76,
N
testijärjestelyä
= 56) ja OV (testi set tarkkuus: 0,6,
N
Koepakettia
= 75). MicroRNA tiedot johti huonompi ennusteita verrattuna kaikkiin muihin tietotyyppejä. Lisäksi johtuen merkittävä suorituskykyä lncRNAs potilaan selviytymistä kerrostumista, me suoritetaan edelleen kirjallisuuden haku tutkimaan mahdollisuutta todistusaineistoa korrelaatio IDFO-seulotaan lncRNAs ja ennusteen etenemistä. Kaikista 157 optimaalinen lncRNA ennustajia viidessä syöpiä (21 BRCA, 36 COAD, 33 LUSC, 41 OV, 37 UCEC), 22 lncRNAs oli aikaisemmin raportoitu kirjallisuudessa (taulukko F ja kuvio B S1 File). Nämä tulokset viittaavat, että lähestymistapamme voisi mahdollisesti tunnistaa trustable ennusteeseen liittyy lncRNAs, ja me oletettuja vastatunnistetun lncRNAs, joko yksin tai komposiitti markkereita, voi olla ratkaisevaa kliinistä käytäntöä.
(AE) Best ennustavia malleja jokaisen molekyylitason dataa viiden ihmisen syövissä eri ominaisuuksien hallintaan strategioita (sarakkeet merkitty ominaisuus valinta strategiat: LASSO, PFS, SVM-RFE, RF-IS, ja MCS; rivit merkitty molekyyli allekirjoitukset), (F) Test set tarkkuudet neljän tyyppisiä molekyyli allekirjoitukset viidessä TCGA syövissä (rivit merkitty molekyyli tietotyyppejä, sarakkeet ilmoitettu syöpätyyppeihin). Erottaakseen tulosten välillä koulutuksen ja testauksen, käytimme sinisen eriä harjoitusjärjestyksen (Kuva 3A-3E) ja punaisen eriä testitulosten. * BRCA = rinta invasiivisia karsinooma; COAD = paksusuolen adenokarsinooma; LUSC = Lung okasolusyöpä; UCEC = Kohdun Corpus endomet- syöpä; OV = Vakavien kystadenokarsinooma.
Integrointi monen omic biomarkkerit on ennusteen ennusteen
Viimeaikaiset tutkimukset viittasivat integroidun monen omic allekirjoituksia voitaisiin tehokkaasti parantaa mallin tehokkuuden [28, 40]. Tutkia, onko tällainen hypoteesi oli tarkoituksenmukaista kahtia kokonaiselinaika ennustus, laajensimme IDFO lähestymistapa tutkia suorituskykyä integroiva mallinnus monen tyyppinen molekyyli data viidessä syövissä. Koska integroiva mallit vaativat näytteet paitsi sisältävät usean omic profiileja, vaan myös niitä, jotka täyttävät ennustetekijöiden kriteerit, havaitsimme lopullinen 20 integroitu monen omic tietoryhmien viidessä syöpätyyppejä, mukaan lukien 15 kahden hengen-yhdistelmä ryhmien ja 5 kolminkertainen -combination ryhmät (katso taulukko C S1 File). Koska oli riittämätön määrä mikroRNA-seuraavien näytteiden päällekkäin kolmen muun molekyyli profiileilla microRNA allekirjoitukset jätettiin integroidussa mallinnus analyysia. Taulukko C S1 File listattu ennustavan tarkkuudet ( ’test’) 20 integroituja malleja. Kaiken 80% integroidun monen omic data yhdistelmät eivät näytä merkittävästi parantunut ennusteita verrattuna yksittäisten molekyylien tiedot (Kuva 4A-4C), lukuun ottamatta lncRNA + DNA: n metylaation malleja kahdessa syövän tyyppiä OV ja UCEC (kuvio 4D ja 4E) (OV: yksipuolinen Wilcoxonin testi, DNA metyyli + lncRNA
vs
. DNA metyyli:
P
1.2E-4, DNA metyyli + lncRNA
vs
. lncRNA:
P
4.7e-3, UCEC: DNA metyyli + lncRNA
vs
. DNA metyyli:
P
1.7e-4, DNA metyyli + lncRNA
vs
. lncRNA:
P
8.2e-5). Sitä paitsi, jossa kasvua molekyyli tyyppejä, suorituskyky kolmoissidoksen ryhmien oli mukaisesti keskimääräistä tasoa yhden tyypin molekyyli malleja rajoitettu häiriöitä kaikissa viidessä syövän tyyppejä. Näin ollen suurin osa integroidun monen omic tietomallien osoittivat samanlaisia ennusteita omien yksittäisten molekyylien tietomallien, mikä viittaa tietosisältöä integroitu multi-platform data saattaa pitkälti olla tarpeeton kannalta elossaololuku kerrostumista. Samanlaisia tuloksia havaittiin myös äskettäin rintasyövän mallinnuksen hoitotutkimuspopulaatioon [1].
(A) BRCA (N
limittyy
= 178), (B) COAD (N
limittyy
= 161), (C) LUSC (N
limittyy
= 97), (D) OV (N
limittyy
= 145), (E) UCEC (N
limittyy
= 84). Vastaaville malleja kunkin syöpä, suoritimme 10000 kertaa satunnaisia halkaisu 2/3 koulutusta ja 1/3 testaus käyttäen IDFO putki. Katkoviivanuolet punainen laatikko osoitti merkittävästi parantunut suorituskyky kaksi integroitua mallia (D) OV ja (E) UCEC verrattuna yksittäisten tietojen tyypin malleja (kaksipuolinen Wilcoxonin testi,
P
0,01); pilkullinen sininen laatikko määritellyt kolme yksittäistä tietotyyppi malleja mr, lnr ja meth. Integroitu ryhmä koostuvat molemmat double-yhdistelmä ja triple-yhdistelmä molekyyli allekirjoitus malleja. Yksittäiset ryhmä sisälsi kolme eri molekyyli- tietotyyppi malleja. Harmaa viiva seitsemän laatikkoa esittää ennustavaa malleja integroituneita ryhmiä ja yksittäisiä ryhmiä. N
päällekkäisyyksiä
on määrä päällekkäisyyttä näytteen esiintyi kaikissa kolmessa molekyyli- tietoprofiilit (mRNA, lncRNA ja DNA: n metylaatio), lnr = lncRNA, mr = mRNA, meth = DNA: n metylaatio, mr + lnr = mRNA + lncRNA, mr + met = mRNA + DNA: n metylaatio, lnr + met = lncRNA + DNA: n metylaatio, mr + lnr + met = mRNA + lncRNA + DNA: n metylaatio.
Survival analyysi: validointi IDFO ennustavat on sensuroitu Eloonjääntitulokset
lisäksi tutkia yhdistyksen välillä IDFO ennustavia ja kliinistä tulosta BRCA, COAD, LUSC, UCEC ja OV, me altistaa paras ennustavat vastaavien tietojen profiilit Coxin monimuuttuja suhteellinen vaara regressio ( MCPHR) analyysi [41] arvioida korrelaatio IDFO-ennustavat kanssa ennusteen riski ja tutkia niiden kliinistä apuohjelmia.