PLoS ONE: Korkea n mukainen in ennuste ennustaminen peräsuolen syövän poikki Independent Tietoaineistot Multi-Gene Module Expression Profiles

tiivistelmä

Huomattava osa potilaista, joilla peräsuolen syöpä on suuri riski taudin uusiutumisen jälkeen leikkauksen. Nämä potilaat voidaan tunnistaa analysoimalla ilmentyminen profiilit allekirjoituksen geenien kasvaimia. Mutta ei ole yksimielisyyttä, mitkä geenit olisi käytettävä ja suorituskykyä määritettyjen allekirjoituksen geenien vaihtelee suuresti eri aineistoja, jotka estävät niiden täytäntöönpanon rutiini kliinisissä sovelluksissa. Sen sijaan käyttää yksittäisiä geenejä, tässä me toiminnallisia usean geenin moduulit merkittäviä ilme muuttuu välillä toistuvat ja uusiutumista vapaa kasvaimia, käytti niitä allekirjoituksista ennustamiseen peräsuolen syövän uusiutumista useita aineistoja kerättiin erikseen ja profiloitu eri microarray alustoille. Multi-geeni moduulit tunnistimme on merkittävä rikastumista tunnettuja geenejä ja biologisissa prosesseissa, jotka liittyvät syövän kehitystä, mukaan lukien geenit kemokiinin kautta. Useimmat silmiinpistävän, ne palvelukseen merkittävän rikastamisen somaattisten mutaatioiden löytyy peräsuolen syöpä. Nämä tulokset vahvistivat toiminnallista merkitystä näistä moduuleista peräsuolen syövän kehitystä. Lisäksi nämä toiminnalliset moduulit eri aineistojen päällekkäin merkittävästi. Lopuksi osoitetaan, että hyödyntämällä edellä mainitut tiedot näistä moduuleista, meidän moduuli perustuu luokittelija välttää mielivaltainen istuva luokittimen toimintaa ja seulomalla allekirjoituksia harjoitusdatasta, ja saavutti yhdenmukaistavan ennusteeseen ennustuksen poikki kolme itsenäistä aineistoja, joka omistaa jopa käyttämällä hyvin pieniä koulutus sarjaa kasvaimia.

Citation: Li W, Wang R, Yan Z, Bai L, Sun Z (2012) korkea n mukainen in ennuste ennustaminen peräsuolen syövän poikki Independent Tietoaineistot Multi-Gene Module Expression Profiles. PLoS ONE 7 (3): e33653. doi: 10,1371 /journal.pone.0033653

Editor: Ju-Seog Lee, University of Texas MD Anderson Cancer Center, Yhdysvallat

vastaanotettu: 12 syyskuu 2011; Hyväksytty: 17 helmikuu 2012; Julkaistu: 16 maaliskuu 2012

Copyright: © 2012 Li et al. Tämä on avoin pääsy artikkeli jaettu ehdoilla Creative Commons Nimeä lisenssi, joka sallii rajoittamattoman käytön, jakelun ja lisääntymiselle millä tahansa välineellä edellyttäen, että alkuperäinen kirjoittaja ja lähde hyvitetään.

Rahoitus: rahoitus 973 projekti nro 2009CB918801 ja nro 2011CBA00802, http: //www.most.gov.cn; National Natural Science Foundation of China rahaston nro 31171274, https://www.nsfc.gov.cn/. Rahoittajat ollut mitään roolia tutkimuksen suunnittelu, tiedonkeruu ja analyysi, päätös julkaista tai valmistamista käsikirjoituksen.

Kilpailevat edut: Kirjoittajat ovat ilmoittaneet, etteivät ole kilpailevia intressejä ole.

Johdanto

peräsuolen syöpä on yksi johtavista syy syövän kuolleisuus. Noin 20-30%: lla potilaista vaiheessa II ja 50%: lla potilaista vaiheessa III kokemus uusiutunut leikkauksen jälkeen [1]. Tarkkuus ja vakaus ennuste ennustaminen ovat kriittisiä määritettäessä asianmukainen hoito järjestelmää koskevat eri toistumisen riskiä. Viimeaikaiset tutkimukset ovat osoittaneet, ilmaisun profiilia usean geenin allekirjoitusten parempi ennuste ennustaja potilaille, joilla on peräsuolen syöpä kuin perinteiset menetelmät käyttäen kliinisiä tai patologisia piirteitä, ja jotkut tulee markkinoille [2] – [7]. Nämä allekirjoitus geenit tyypillisesti tunnistettiin ilmentyvät eri geeneistä välillä koulutuksen joukon kasvainten potilailta tai ilman tauti uusiutuu. Niiden ilme tuloksia käytettiin sitten kouluttaa tilastollinen luokittelija, joka voi parhaiten erottamaan kaksi ryhmää koulutuksen kasvaimia. Joissakin tapauksissa nämä vaiheet eli geenin valinta ja luokittelija rakentaminen, iteroidaan optimoimiseksi sekä valintoja.

Yksi suuri ongelma näiden usean geenin luokittelijoiden on, että niiden allekirjoitus geenit vaihtelevat huomattavasti eri ikäryhmälle tutkimusten eri populaatioissa potilaista, ja eri mikrosirujen alustoja, oletettavasti johtuen alhaisesta mukaisesti välillä microarray ilmaisun data [8]. Saada yksimielisyyteen listan allekirjoituksen geenien, on arvioitu, että tuhannet kasvain näytteet tarvittaisiin koulutusta tällaisten luokittelijoiden [9]. Tämän seurauksena useita raportoitu sarjaa allekirjoitus geenien erittäin riippui harjoitusnäytteille ja oli vain päällekkäisiä minimaalisesti [10]. Toinen huolenaihe on, että valinta tilastollinen luokittelija on mielivaltainen ja puuttuu selkeä biologinen perusta, niin että luokittelija voidaan yli-asentama aineisto, josta se oli keksitty. Esimerkiksi eräässä tuoreessa tutkimuksessa, monen geenin luokittelijoiden konstruoitu yhdestä aineisto oli rajat validoitu eri aineisto todeta, että niiden ennustearvon pieneni huomattavasti [3]. Tällainen vähennys johtui puuttuvia geenejä geenissä luokittelija suhteessa parhaaseen luokittelija rakennettu rajat validointi aineisto. Siksi nämä tekijät ovat johtaneet korkea vaihtelua ennakoivan suorituskyvyn usean geenin luokittelijoiden ja rajoittaneet niiden yleistynyt käyttö kliinisessä käytännössä.

Äskettäin korkeampi mukaisesti eri microarray aineisto on raportoitu ilmaisua malleja multi -geenin moduulit, eli ryhmät toiminnallisesti liittyvien geenien [11] – [14]. Motivoi Tämän toteamuksen pyrittiin tunnistamaan tällaisia ​​yksiköitä yhdistämällä molempien geenien ilmentymistä ja proteiinien vuorovaikutus tietojen ja käytetään eniten ilmentyvät eri moduulit rakentaa uusi luokitin. Mikä tärkeintä, me varmistaneet, että nämä moduulit ovat ei-satunnaisesti liittyy peräsuolen syövän uusiutumista eri aineistoja, ja että moduulit eri aineistoja limittyvät merkittävästi enemmän geenejä kuin satunnaisesti, mikä osoittaa limittyvät prosenttiosuus sijoilla moduulit hallussaan erottelukyky voimaa. Tällä tavoin voimme välttää käyttämällä alhaisen mukaisesti geenin allekirjoituksia ja mielivaltainen tilastollinen toiminto sopivaksi. Osoitimme sen soveltaminen kolme riippumatonta aineistoja paksusuolen syöpäpotilaiden että profiloitu eri mikrosirujen alustalla ja saatu toistettavissa ennusteiden tarkkuus 74%, 76% ja 68%, ja AUC (pinta-ala ROC) arvot 79%, 79% ja 72 % by hiuksiin One-Out validointi. Kohtuulliset tarkkuudet nähdään kun koon pienentäminen opetustiedostoiksi (34, 10 tai 18 kasvaimet) ja vaihtelu poikki aineistoja edelleen alhainen, mikä on ~ 1/2 olemassa olevien monen geenin luokittimiin.

Materiaalit ja menetelmät

Tietolähde

Kasvain ekspressiotietojen ja esikäsittely.

kolme julkisen esikäsitellyt microarray aineistoja Kolorektaalituumorien alla käytettiin; Huomaa, että luokittelu potilaiden, toistuvat ja kertaluonteiset, kutsutaan todellinen tila on kuvattu alkuperäisessä papereita tai kuvausta tiedostoja:

Saksalainen aineisto [3]: Se sisälsi 55 Saksan primaarisessa peräsuolen syöpä (vaihe I ja II), jossa 29 potilaat ovat tauti uusiutuu vapaasti ja niiden seuranta-ajan vähintään 5,3 vuotta leikkauksen jälkeen. Ilmentyminen Tuumorinäytteissä profiloitu on Affymetrix HG-U133A alustalla.

Barrier aineisto [5]: Se sisälsi 50 potilasta, joilla on vaiheen II peräsuolen syövän. 25 heistä ovat sairauden uusiutumisriski vapaasti ja niiden seuranta-ajan vähintään 5 vuotta leikkauksen jälkeen. Ilmentyminen Tuumorinäytteissä profiloitu on Affymetrix HG-U133A alustalla.

GSE5206 [15]: Se sisälsi 100 potilasta, joilla on vaiheen I-IV peräsuolen syövän. 23 heistä oli uusiutunut leikkauksen jälkeen. Ei ole tietoa niiden seurata aikaa. Täällä poistimme 37 näytettä korkeamman vaiheen (III ja IV) toistuvat vapaa sarjaa ja metsälehmus 63 potilasta ennustamiseen validointi. Ilmentyminen Tuumorinäytteissä profiloitu on Affymetrix HG-U133_plus_2 alustalla.

Kunkin koetin jossa puuttuvat arvot, haimme R paketti ”imputoidaan” [16] täyttyä keskiarvoa sen k- naapurit Geenit useamman koettimet käsitelty keskiarvo niiden ekspressiotaso.

Gene ontologia tiedot.

Gene ontologia (GO) dataa Molecular allekirjoitukset Database (MsigDB) v2.5 [17] käytettiin, johon kuului 1454 GO sarjaa ja 8299 geenejä.

Protein -yhteisvaikutustutkimukset.

proteiini vuorovaikutus Aineisto ladata HPRD tietokannasta [18] (release 8) ja BioGRID tietokanta [ ,,,0],19], joka sisälsi 6511 solmut ja 29694 vuorovaikutusta.

Tunnettuja geenit liittyvät peräsuolen syövän uusiutumista.

peräsuolen syövän uusiutumiseen liittyviä geenejä kerättiin perustuu niiden merkinnät kahdesta lähteestä, tässä järjestyksessä: OMIM tietokanta (www.ncbi.nlm.nih.gov/omim) [20] ja online-kirjallisuutta kaivos- käyttäen PubGene (https://www.pubgene.org/) [21]. Saimme 41 liittyvien geenien OMIM tietokannasta. Käyttämällä PubGene, ensin etsittiin liittyviä geenejä termin ”peräsuolen syöpä” ja ”toistuminen” saada 2793 ja 1609 geenejä, tässä järjestyksessä, ja sitten otti leikkauspisteessä näiden kahden geenin luettelot viimeinen osuus 1038 peräsuolen syövän uusiutumiseen liittyviä geenejä .

Paksusuolisyöpä somaattisen mutaation tietoja.

somaattinen mutaatio tiedot ja peräsuolen syöpä on ladattu COSMIC tietokannasta [22] kategoriassa ”paksusuolen kudos”, ei osa- kudos, peräaukon ja liite, jossa on kaikki kaksi histologinen ehdot: ja -karsinooman.

rakentaminen GO koekspressoimalla verkkojen

Rakensimme verkkojen kunkin GO geeniperimä. Tämä oli kolmesta syystä: (1) se osoittautui hyödyllistä sisällyttää ennakkotietoja, esim. geenit samassa reittejä, helpottaa laskennallisten menetelmien tunnistamisessa toiminnallisia moduuleja [23] – [26]; (2) se mahdollistaa monitoiminen geenejä on läsnä useampi kuin yksi funktionaalinen moduuli; (3) monet vuorovaikutus tiedot saatiin in vitro ja mahdollisesti ole fysiologisia tilanteita ja siksi rajoittamalla vuorovaikutukset geenin sisällä ontologian voi vähentää tällaisia ​​vääriä positiivisia. Tarkemmin sanoen kunkin GO geeniperimä, geenien ei läsnä microarray aineisto poistettiin. Loput geenit Kunkin GO sarjan käytetään kärkipisteet verkon ja reunat vedettiin perustuvat proteiinien -yhteisvaikutustutkimukset. Jokainen kärki on liittynyt

n

ulotteinen ekspressiovektori, jossa

n

on kokonaislukumäärä kasvaimen näytteiden aineisto. Arvo kussakin ulottuvuus on ekspressiotason tämän geenin vastaavassa kasvaimen näytteestä. Reuna minkä tahansa kaksi pistettä on painotettu niiden koekspressoimalla tason [27]. Tässä valitsimme Pearsonin korrelaatiokerroin mitata co-ekspressiotaso. Huomaa, että on olemassa muutamia muita vaihtoehtoisia mittoja, esim. Spearmanin korrelaatio ja keskinäinen tiedotus, ja nämä mittarit yleensä johtivat samanlaisia ​​tuloksia verkon ominaisuuksia ja moduuli löytö [28]. Lisäksi Pearsonin korrelaatiokerroin on laajalti käytetty ja ehdotettu olevan hyvä tapa käsitellä ääniä sisällä microarray data [29], [30], koska se mittaa yhteistyöhön aste kahden ekspressiovektoreita, mutta ei lujuuden niistä. Erityisesti paino reunan välissä kaksi pistettä

i

ja

j

määritellään absoluuttinen arvo henkilön korrelaatiokerroin niiden ekspressiovektoreita,: (1) B

tunnistaminen toiminnalliset modulit

on olemassa useita tapoja tunnistaa moduulirakennelmien verkon sisällä ja menetelmän valinta riippuu monista tekijöistä, kuten verkon rakenteita [31]. Kun otetaan huomioon tiivis rakenne kunkin GO verkkoon, sovelletaan painotettua Girvan ja Newman (GN) algoritmi [32] moduulin löytö. Verrattuna muihin olemassa oleviin menetelmiin, jotka alkavat siemeniä solmuja ja tutkia läheisyydessä korkean teki moduulirakennelmien [11], [33] – [36], GN algoritmi on reuna-suuntautunut ja etsiä maailmanlaajuisesti optimaalisen moduuleja. Se perustuu lyhin-polku-algoritmi laskee betweenness kaikkien reunojen ja toistuvat poistaa reuna korkeimmalla betweenness. Tässä betweenness pisteet reuna on määritelty summa kaikkien lyhimmän polun läpi kulkee, ja jakamalla sen paino vastaavan reunan. Alkuperäinen GN algoritmi aina leikkaa dendrogrammia suurimmillaan Q-arvo, joka johtaa suureen vaihteluun moduuli koko ja joskus valtava moduulien alhainen biologinen yhtenäisyys [37]. Tämän ongelman välttämiseksi, me tarvitaan jokainen moduuli sisältää enintään 20 geenejä. Yksityiskohtaiset menettelyt ovat seuraavat:

Laske betweenness tulokset kaikkien reunojen kussakin GO verkossa.

Etsi reuna jolla on eniten pisteitä ja poistaa sen kuvaaja.

Toista edellä mainitut vaiheet, kunnes ei eristetty taulukoissa esiintyy yli 20 geenejä.

Singletons vain yksi geeni huomiotta.

Rank ilmentyvät eri moduulien välillä kasvaimia ja ilman toistumisen

ilmaisu väliset muutokset kasvainten kanssa ja ilman toistumisen arvioitiin meidän P-SAGE algoritmi [38]. Moduulisyvyydelle

s

joissa on yhteensä

k

geenejä, pisteet ero merkitys (SDS) määritellään seuraavasti: (2) missä on

t

pisteet

i

nnen geenin moduulissa

s

. Huomata, että SDS tulokset korreloi moduuli koko

k

saimme niitä vastaavien p-arvojen Khin neliö jakelun, joita käytetään lajittelemaan toiminnallisia moduuleja nousevassa. Moduulien paremman sijoittumisen, eli kaikkein ilmentyvät eri moduulit pienempiä p-arvoja, joita käytetään arviointi- ja ennusteen ennustaminen.

Ennuste ennuste paradigma

Järjestelmä ennusteen paradigman.

Koska koulutus joukko kasvain näytteet, me jakaa sen kahtia, [R 1] ja [R2], joissa jokaisessa on n kertaluonteiset ja n-1 toistuva kasvaimia. Nämä kaksi puolikasta pidetään kaksi itsenäistä aineistoja. Sitten, oletamme testi kasvain (eli leimaamattomia) X toistuvaksi ja laittaa se [R1] ja [R2], so [R1 + X] ja [R2 + X]. Olemme tunnistaneet alkuun N moduulit [R1 + X] ja [R2 + X], tässä järjestyksessä, ja jos testi kasvaimeen X liittyy suuri riski toistumista, kaksi sarjaa Tuloksena moduulien tulee ulottua huomattavasti. Laskimme päällekkäiset prosenttiosuus (OPN), joka lasketaan suhdeluvut niiden leikkauspiste ja niiden liitto, jälkeen normalisoitui vastaan ​​päällekkäisyyden prosenttiosuutta moduulien tunnistettiin [R1] ja [R2]. Jotta vältettäisiin mahdollinen harha tietyn split, me toistuva satunnainen split ja yli 10 kertaa keskiarvon löytämiseksi OPN . Lopuksi laskettu OPN Eri N = 100, 200 … 500 ja käyttää keskiarvoa ennustavan pisteet OP . Korkeampi OP pisteet merkitsevät suurempi riski toistumisen liittyvä testi kasvain X. Tällä tavoin voimme välttää yhteisen strategian optimoida mielivaltainen ytimen toiminto, joka ei ole selkeää biologinen perusta.

Arviointi ja vertailu.

kunkin aineisto, sen kasvain näytteet jaettiin koulutus- asettaa ja Koepakettia. Raportoimme Tunnusluku, tarkkuus ja AUC, jossa R paketti, ROCR. Vuonna jätä yksi validointi, yksi kasvain oli satunnaisesti valittu koepaketin ja loput kasvaimet käytetään koulutukseen asetettu. Tällä tavoin ennustusyksikkö suoritettiin n kertaa, jossa n on kokonaismäärä kasvaimia aineisto. Vuonna vahvistusten lukumäärän kanssa koulutuksen näytettä ovat 34, 18 tai 10, teimme ennustetta (n-34), (n-18) tai (n-10) kertaa. Sitten sattumanvaraisesti valitsi koulutus joukko kasvaimia 5 kertaa ja ilmoitetaan keskimääräinen, maksimaalinen ja minimaalinen suorituskyky. Esitys verrattiin muihin menetelmiin käyttää näitä kolmea mikrosirujen aineistoja.

Tulokset

Käytimme kaksi itsenäistä aineistoja varhaisen peräsuolen syövän potilaiden tarkistaa kaksi keskeistä hypoteesia: (1) parhaiten ilmentyvät eri moduulit ovat ei-satunnaisesti liittyy kasvaimen uusiutumisen; (2) tällaisia ​​yksiköitä tunnistettiin eri aineistot limittyvät merkittävästi enemmän geenejä kuin satunnaisesti.

Katsaus useimpien ilmentyvät eri moduulien tunnistamista

tunnistaminen eniten ilmentyvät eri moduulit mukana kolme pääasiallista vaihetta: verkko rakentaminen, topologinen moduuli löytö, arviointi differentiaalikaavojen at moduulitasolla (kuva 1, tarkempi kuvaus Menetelmä ja MATRIERAL jakso). Lyhyesti, me ensin ryhmitelty geenejä suuriksi ryhmään niiden GO huomautusta. Koska geeni voi olla useampi kuin yksi funktionaalinen rooli, nämä GO ryhmät voivat päällekkäisiä tiettyjen geenien. Sen sijaan rakentaa yhden jättiläinen verkko, käytimme proteiini -yhteisvaikutustutkimukset rakentaa verkostoja kullekin näistä GO määrittää geenien ja tunnistettu monen geenien moduulit, eli ryhmät geenien tiheästi kytketty verkkotopologian ja suhteellisen erillään muusta verkkoon. Lopuksi ero ilmaus kunkin moduulin välillä kasvainten kanssa ja ilman tauti uusiutuu sijoittui saada alkuun N moduulit myöhempää analysointia.

tunnistaminen kaikkein ilmentyvät eri moduulit ovat kolme keskeistä vaihetta. Ensinnäkin GO koekspressoi verkko rakennetaan yhdistetty proteiini-proteiini vuorovaikutus verkko, joka oli peräisin HPRD ja BioGRID tietokanta, ja GO geeni asettaa yhdessä. Reunat verkon punnittiin koekspressoimalla tason välillä vastaavien sidoksissa solmuja. Toiseksi, toiminnalliset modulit tunnistettiin painotetulla Girvan-Newman-algoritmi [32]. Lopuksi, toiminnalliset modulit rankattiin niiden ero tasojen toistuvien ja kertaluonteisten kasvainten, jotka arvioi p-SAGE algoritmi [38].

rakennettu GO verkot sisältävät 4428 geenejä yhteensä molempien Barrier ja saksalainen aineistot kuin ne käytetään samoja mikrosirun alustalle. Otimme alkuun 100, 200, …, 500 moduulit myöhempää analysointia varten (taulukko S1). Nämä moduulit on ilmennetty eri p-arvo ei ole suurempi kuin 0,005 sekä saksaksi aineisto ja Barrier aineisto.

Kaikkein ilmentyvät eri moduulit kuin satunnaisesti liittyy kasvaimen uusiutumisen

Kuten voidaan nähdä kuviossa 2, löysimme merkittävä rikastamiseen liittyvien geenien kanssa peräsuolen syövän uusiutumista näissä moduulit tunnistetaan Saksan aineisto mukaan sekä OMIM ja PubGene merkinnät (katso menetelmät). Vertailua varten tuottamaamme sarjaa sama määrä geenejä, jotka tunnistettiin tärkeimmiksi ilmentyvät eri käyttäen yksittäisiä geenipohjaiset t-testillä ( ”t-testi geenit”), tai kaikkein ilmentyvät eri GO geenin sarjaa paremmuusjärjestykseen P- SALVIA. Verrattuna näiden kahden tarkastukset, löysimme suurempia osuuksia paksusuolen syövän uusiutumisen liittyviä geenejä olivat ylimmässä 50-500 moduulit. Ne ovat noin 1.9~3.5 kertaa (OMIM) ja 2~2.7 ajat (PubGene) korkeammat verrattuna ykköseksi sijoitettu yksittäisiä geenejä, 2.6~4.7 kertaa (OMIM) ja 1.7~2.1 (PubGene) kertaa suurempi verrattuna sijoilla GO geenin sarjaa (kuvio 2 ). Samanlaisia ​​tuloksia nähtiin myös varten Barrier aineisto (kuvio S1).

Tunnetut CRC-geenit koottiin PubGene (A) tai OMIM (B). Prosentit verrattiin huippu ilmentyvät eri geenit (t-testi geenien) kanssa sama määrä geenejä huippu sijoittui N moduuleja, tai GO-geeni, joissa on sama määrä sijoilla N moduuleja.

Erityisesti analysoitaessa Saksan aineisto, löysimme kolme kemokiinien (CXCL9, CXCL10 ja CXCL11) ja niiden yhteinen reseptori CXCR3 top 10 moduulia. Tämä on sopusoinnussa viimeisten tietojen mukaan CXCR3 ja toinen ligandi CXCL10 invaasiota liittyvät ominaisuudet kolorektaalisyövässä [39], [40]. Jos haluat nähdä nämä tulokset olivat toistettavia, me satunnaisesti jakaa Saksan aineisto kahtia, joista kukin on pienempi aineisto 14 tai 15 ei-toistuva kasvaimia ja 13 toistuva kasvaimia, jonka tunnuksena alkuun 100 moduulien ja tarkista jos nämä kemokiinin liittyvät geenit näy . Suoritimme niin satunnainen halkeaa 1000 kertaa ja lasketaan taajuudet geenien, jotka näkyvät vähintään kerran molempiin puolikkaat huippu 100 moduuleja. Myös otetaan huomioon napa geenejä, jotka ovat enemmän vuorovaikutuksessa kumppanien olisi suurempi mahdollisuus näy enemmän moduuleja, me normalisoitui taajuus kunkin geenin vastaan ​​yhteyden. Olemme löytäneet kolme kemokiinien: CXCL10, CXCL9 ja CXCL11, mutta ei niiden reseptorin CXCR3 näkyvät yleisimmät (30,5% -44,1%) kaikissa 1000 halkeaa. Olemme kuitenkin suorittaa sama analyysi Barrier aineisto eikä löytänyt mitään kolmesta kemokiinien näy top 100 moduulit satunnaisia ​​split. Kuitenkin löysimme 19 ja 18 jäsenen geenien kemokiinin signalointireitillä (190 geenit yhteensä) kuratoitujen at Kegg tietokannan ilmaantui vähintään kerran top 100 moduulit saksaksi aineisto ja Barrier aineisto (taulukko S2). Ne limitetään 9 geenejä (Stat2, STAT3, LYN, MAPK1, FOXO3, NFKB1, GSK3b, PAK1 ja PTK2B). Nämä tulokset osoittavat mahdollisuuden, että alkuun moduulit pystyivät kaapata merkittäviä muutoksia (10%) kemokiinin signalointireitillä liittyy kasvaimen uusiutumisen, ja ovat toistettavissa eri aineistoja. Mutta se voi olla vaikea edelleen saada alas geenit näissä moduuleja käyttää vankka markkereita.

Koska kasvain kehittyy kertyminen somaattisista mutaatioista, myös arvioida, jos on olemassa huomattava korrelaatio alkuun moduulien ja somaattiset mutaatiot tunnistettiin peräsuolen syövän COSMIC tietokannasta. Ensin tunnistetaan moduulit, jotka sisältävät merkittävän määrän mutaatioiden Fisherin tarkkaa testiä (p sulku: 0,05). Nämä moduulit nimettiin mutaation Moduulit (MMS). Sitten lasketaan prosenttiosuudet MMS huippu N moduulit ja loput moduulit saada rikastamiseen suhde. Suurempi suhde osoittaa korkeampaa rikastuminen mutaatioiden alkuun N moduulit. Saksan aineisto, löysimme sen päälle 50-500 moduuleja päällekkäin merkittävästi MMS (Fisherin tarkka testi, p 0,002), jossa rikastamiseen tulokset noin 3-4 (kuva 3). Sen sijaan teimme samanlainen analyysi päälle geenejä vastaavien numeroiden tunnistetaan tavanomaiseen t-testiä ( ”t-testi geenit”), mutta ei ollut eroa päällekkäisyyttä geenien MMS (Fisherin tarkka testi, p-arvot 0,25). Prosenttiosuudet muuntunut geenien top t-testiä geenien vs. loput geenit ovat samankaltaisia. Arvioida, rikastamista mutaatiot pöytämallisina liittyy kasvaimen uusiutumisen, me permutoidaan etiketeissä ”toistuminen” ja ”ei-toistuminen” tunnistaa alkuun moduulien ja löysivät rikastus suhteet ovat noin 1,3, joka on verrattavissa t-testin geenejä. Samanlainen tuloksia havaittiin myös Barrier aineisto (kuva S2).

Sen sijaan säätimet ovat t-testin geenin ja permutaatio testi. T-testi-geenin analyysi suoritettiin käyttäen samaa määrää alkuun differentiaalisesti ilmentyvien geenien kuin joukko geenejä, joita vastaavat ylä- N moduulit.

Tämän vuoksi olemme vahvistaneet ensimmäinen olettaen, että määritellyistä huippu- moduulit kuin satunnaisesti liittyy kasvaimen uusiutumisen kahdessa eri riippumattomat aineistoja. Siksi nämä moduulit voidaan käyttää vakaampi ennustajia kuin erityisiä geenejä ennustetta ennustamiseen.

Kaikkein ilmentyvät eri moduulit oli suurempi toistettavuus

Seuraavaksi tutkimme jos päällekkäisyys prosenttiosuudet alkuun moduulit ovat huomattavasti korkeampi kuin valvonta voidaan käyttää erottelukyky metristä. Havaitsimme top 100-1000 moduulit Barrier ja Saksan aineistoja, vastaavasti, ja löysi nämä moduulit kahdesta eri aineistojen päällekkäin merkitsevästi (p 1.75E-74). Heidän päällekkäisiä prosenttiosuudet (25,3% -54,9%) on yli 7 kertaa suurempi kuin päällekkäisiä prosenttiosuudet top t-testiä geenien (3,3% -6,6%) ja on myös noin 2 kertaa keskimääräisestä päällekkäisten prosenttiluvut pöytämallisina yksilöi permutoiminen tarrat (kuvio 4). Merkillistä, nämä päällekkäiset prosenttiosuudet ovat suuremmat kuin äärimmäisen saadut arvot permutaation tapauksissa poikkeavat havainnot (Grubbs harha testi, p-arvo 0,006). Yhdessä nämä tulokset tukevat meidän toinen oletus ja ehdotti päällekkäiset prosenttiosuudet alkuun moduulit ovat informatiivisia ennustaa kasvaimen uusiutumisen.

päällekkäiset prosenttiosuus lasketaan suhde määrää risteyksessä ja liitto geenejä. Vertasimme prosenttiosuus päällekkäisten geenien päälle sijoittui N-moduulit, top t testi geenien kanssa sama määrä geenejä huippu N moduulit, ja niiden vastaavat permutation testi valvontaa.

A novel luokittelija perustuu useimmissa ilmentyvät eri moduulit voidaan tuottaa vankempi ennusteeseen ennusteita

koska edellä validointien meidän kaksi keskeistä oletuksiin, suunnittelimme ennuste ennustaminen paradigma seuraavasti. Lyhyesti, me jakaa opetusjoukolla kasvainten kahteen erilaista. Kukin sarja sisältää sekä toistuvia ja kertaluonteisia kasvaimia, niin että vastaava alkuun moduulit voidaan päätellä. Päällekkäisellä prosenttiosuus (OP_old) näistä moduulit kummassakin laskettiin. Koska testi kasvain, oletimme on ”toistuva” ja laita se jokaisen sarjan tunnistaa uuden alkuun moduulien ja lasketaan uusi päällekkäisten prosenttiosuus (OP_new). Jos testi kasvain on ”toistuva” odotetusti, vanha ja uusi päällekkäisiä prosentit pitäisi olla vertailukelpoisia; muuten uusi päällekkäiset prosentit olisi pienempi. Tällä tavoin voimme välttää käyttämällä erityisiä geenejä, vaan käytti koko tiedot alkuun moduulien, koska kuten edellä on esitetty, vain jälkimmäinen on ei-satunnaisesti liittyy kasvaimen uusiutumisen. Olemme myös välttää ongelmallinen vaihe sopiva koulutus kasvaimen datan mielivaltaista tilastolaskentatoiminto. Sen sijaan päällekkäisten prosenttiosuudet pöytämallisina käytettiin jota osoitimme pitäisi olla riittävän syrjiviä valtaa. Lisätietoja löytyy Menetelmä ja MATRIERAL osassa ja kuviossa 5. Seuraavassa osoitimme arviointi tämän menetelmän kolme riippumatonta aineistot ja verrataan sen suorituskykyä että aikaisempien menetelmien käyttäen samoja aineistoja.

koulutus kasvain asetetaan ensin näytteet sattumanvaraisesti koko kasvain aineistot ja sitten jakaa satunnaisesti kahteen yhtä suureen osaan, kukin osa lukien kertaluonteiset ja toistuvia sarjaa. Niiden vastaava top moduuleja päätellä lähestymistavan edellä mainitut ja päällekkäiset prosenttiosuus (OP_old) laskettiin. Jokaista testiä kasvain X, laitamme sen toistuvat sarjat molempien osien muodostavan uuden lausekkeen matriiseista. Kaikkein ilmentyvät eri moduuleista kaksi uutta ilmaisua matriksit ovat päätellä vastaavasti. Päällekkäiset prosenttiosuus (OP_new) näiden kahden alkuun moduulien lasketaan ja normalisoidaan OP_old. Ottaen huomioon harha halkaisu vaiheessa 2, satunnainen halkeaa toistettiin 10 kertaa. Keskiarvo normalisoitu OP osoitetaan Koekasvain X.

Jätä yksi validointi.

arvioitiin ensin suorituskyky meidän ennustus menetelmä hiuksiin One-Out validointi, joka on suosittu valinta käytetty aiemmissa tutkimuksissa. Me raportoi tuloksista tarkkuus (tosi positiivinen nopeus pisteessä lähimpään pisteeseen (0,1) ja ROC), herkkyys, spesifisyys ja AUC vertailla olemassa olevien monen geenin luokittelijoiden (Kuva 6, yksityiskohtaiset tiedot taulukossa S3 ). Saksan aineisto, menetelmämme saavuttaa paremman suorituskyvyn kuin viime kahden menetelmän tarkkuus 76%, noin 5-7% suurempi (Lin07: 71%; Garman08: 69%), herkkyys on 65%, noin 3-24% korkeampi (Lin07: 62%; Garman08: 41%), ja spesifisyys 93%, noin 5-14% suurempi (Lin07: 79%; Garman08: 88%). For Barrier aineisto, menetelmämme saavutti tarkkuus 74%, herkkyys 72%, spesifisyys 84%, mikä on hieman vähemmän kuin Barrier06 tulokset (tarkkuus: 80%; herkkyys: 75%, spesifisyys 85%) käyttäen tämä aineisto ja tuloksena Barrier06 allekirjoitukset. Mutta se on paljon suurempi kuin toinen tulos käyttäen samaa aineisto ja toinen Wang04 allekirjoitus (tarkkuus: 67%). Sillä GSE5206 aineisto, joka ei ole erityisiä seurata aikaa, meidän menetelmä saavutti alimman mutta silti kohtuullisen tarkasti (68%). Se on myös paljon pienempi kuin tarkkuudet saavuttaa alkuperäisen menetelmillä keksi käyttäen tätä aineisto (90%; Garman08 menetelmä). Olemme kuitenkin huomattava, että tämä Garman08 menetelmä, kun sitä sovelletaan eri aineisto (Saksan aineisto), saavutti vain 69% tarkkuudella. Tietoja 21% ero Garman08 menetelmän eri aineistojen voi ehdottaa mahdollisia yli istuva ongelma sen luokittelija tai epätoivottavan vaihtelevat suuresti sen suorituskykyä. Sen sijaan menetelmämme oli paljon pienempi vaihtelu (8% ero), jossa on 74-76% tarkkuudella alkuvaiheen (I tai II) kasvaimia Barrier ja saksaksi aineistoja, ja 68% tarkkuudella vaiheen I-IV kasvaimia GSE5206 aineisto. Vastaavat AUC-arvot menetelmämme oli myös samanlainen kaikissa kolmessa aineistot: saksa – 79%, Barrier – 79% ja GSE5206 – 70%.

vertailu AUC (A) ja tarkkuus (B) kolme aineistot: Eri väritys järjestelmät ja muoto osoittavat kolme riippumatonta aineistot (oranssi ympyrä: saksa aineisto, sininen timantti: Barrier aineisto, vihreä neliö: GSE5206 aineisto). TX_Y menetelmät (X: 500 tai 1000 MDMs, Y: 10 tai 18 viite kasvaimia tai Jätä-One-Out menetelmä (LOO)). Täytetyt symbolit merkitsevät keskiarvo AUC; Vertailu tarkkuudet (C), herkkyydet (D) ja erityispiirteet (E) ennusteen ennusteen välillä menetelmää ja esillä olevien menetelmien kanssa samaan aineistoja, kuten LOO tulokset Lin07 (L) [3], Garman08 (G) [42] , Barrier06 (B) [5], ja myös Barrier06 tulokset saadaan käyttämällä 34 kasvaimet (TS34), 18 kasvaimet (TS18) tai 10 kasvaimet (TS 10) koulutus asetettu. Täytetyt symbolit ovat keskiarvo. * Kohdat pilkullinen ympyrän lopputulokset olisivat menetelmiä, jotka on validoitu käyttämällä päättäjät löysi saman aineisto.

Voit tarkistaa näytteiden koko vaikutusta ennustamiseen menetelmistä, pienempiä näytteitä koko 34, 18, 10 on suoritettu. Keskimääräinen arvo ja vaihteluväli (pienin ja suurin arvo) tarkkuus, herkkyys, spesifisyys ja AUC raportoidaan kussakin tapauksessa (kuva 6, yksityiskohtaiset tiedot taulukossa S3, ja ROC käyrä kuvassa S3).

Validation 34 opetusnäytteitä.

poimittiin sattumanvaraisesti n näytteet jokaisesta aineisto, jossa n = 34, koulutusta asetettu ennustaa toistumisen riskiä loput kasvaimia. Saksan ja Barrier aineistoja, esitykset ovat paljon korkeammat kuin tulokset LOO validointi. Yksityiskohtaisesti, Saksan aineisto, menetelmämme saavutti tarkkuus 78%, AUC 80%, herkkyys on 80%, ja spesifisyys 76%. For Barrier aineistoja, se saavuttaa korkeampi tarkkuus 81% ja spesifisyys 86%, ja vähemmän herkkyys 78% kuin muut menetelmät (käyttäen Barrier allekirjoitus: tarkkuus: 80%; herkkyys: 91%, spesifisyys 72%, käyttäen Wang04 allekirjoitus: tarkkuus: 70%). Lisäksi menetelmämme oli vain paljon vähemmän vaihtelua (13% Barrier aineisto) kuin Barrier06 menetelmä (31%). Sillä GSE5206 aineistoja, suorituskyky on samanlainen LOO validointi, tarkkuus 70%, AUC 66%, herkkyys on 74% ja spesifisyys 68%.

Validation kanssa 18 tai 10 opetusnäytteitä.

Vastaa