PLoS ONE: tarkka ja luotettava Cancer Luokittelu perustuu Todennäköisyyspohjainen päättely Pathway Activity

tiivistelmä

With suurikapasiteettisia tekniikoita mittaamiseen genominlaajuisten ekspressioprofiileja, useita menetelmiä on ehdotettu löytää diagnostisia markkereita, jotka voivat tarkasti syrjiä eri luokkiin sairaus. Kuitenkin tekijät, kuten pienen otoskoon tyypillisiä kliinisiä tietoja, luontainen kohina suurikapasiteettisten mittauksia, ja heterogeenisyys eri näytteitä, usein vaikea löytää luotettava geenimerkkejä. Tämän ongelman ratkaisemiseksi, useat tutkimukset ovat ehdottaneet käytön pathway -pohjainen markkereita, sen sijaan, että yksittäiset geenimerkkejä rakentamiseen luokitin. Koska joukko tunnettuja polkuja, nämä menetelmät arvioida toiminnan tasolla kunkin reitin tekemällä yhteenvedon ilmaus arvoja sen jäsenen geenit, ja käytä koulutusjakson toimintaa luokitusta. On osoitettu, että polku luokittimiin tyypillisesti saadaan luotettavampia tuloksia verrattuna perinteisiin geeni-luokittimiin. Tässä artikkelissa, ehdotamme uuden luokittelun perustuva menetelmä todennäköisyyspohjaisiin päättely reitin toimintaan. Tietyn näytteen, laskemme log-todennäköisyys suhde eri taudin fenotyyppejä perustuu ilmentymisen tasolla kunkin geenin. Aktiivisuuden tietyn reitin sitten päätellä yhdistämällä log-todennäköisyys suhde muodostavien geenejä. Käytämme ehdotettu menetelmä luokitusta rintasyövän metastaasi, ja osoittaa, että se synnyttää suuremman tarkkuuden ja tunnistaa enemmän toistettavissa polku markkereita verrattuna useita nykyisiä signalointia päättely menetelmiä.

Citation: Su J, Yoon BJ, Dougherty ER (2009) tarkkoja ja luotettavia Cancer Luokittelu perustuu Todennäköisyyspohjainen päättely Pathway Activity. PLoS ONE 4 (12): e8161. doi: 10,1371 /journal.pone.0008161

Editor: Gustavo Stolovitzky, IBM Thomas J. Watsonin tutkimuskeskus, Yhdysvallat

vastaanotettu: 18 syyskuu 2009; Hyväksytty 13 marraskuuta 2009; Julkaistu: 7. joulukuuta 2009

Copyright: © 2009 Su et al. Tämä on avoin pääsy artikkeli jaettu ehdoilla Creative Commons Nimeä lisenssi, joka sallii rajoittamattoman käytön, jakelun ja lisääntymiselle millä tahansa välineellä edellyttäen, että alkuperäinen kirjoittaja ja lähde hyvitetään.

Rahoitus: Edward R . Dougherty tukee osittain National Science Foundation, CCF-0634794. Rahoittajat ollut mitään roolia tutkimuksen suunnittelu, tiedonkeruu ja analyysi, päätös julkaista tai valmistamista käsikirjoituksen.

Kilpailevat edut: Kirjoittajat ovat ilmoittaneet, etteivät ole kilpailevia intressejä ole.

Johdanto

käyttöönotto kohtuuhintaisia ​​microarray teknologian mittaamiseen genominlaajuisten ekspressioprofiileja on johtanut kehitystä lukuisia menetelmiä kohdella eri eri luokkiin monimutkainen sairaus, kuten syöpä, läpi transcriptome analyysi [1] – [4 ]. Erityisesti on ollut merkittävää tutkimusta kartoitus differentiaalisesti ilmentyvien geenien eri fenotyyppejä [5] – [9], joita voidaan käyttää diagnostisia markkereita luokituksessa tautitilojen tai lopputuloksen ennustaminen lääkehoitojen [1] – [4] , [10] – [12]. Kuitenkin löytää luotettava geenimerkkejä on haastava ongelma, ja useat viimeaikaiset tutkimukset ovat kyseenalaistaneet luotettavuuden monien luokittimet perustuu yksittäisiin geenimerkkejä [13] – [19]. Pieni otoskoko tyypillisistä kliinisistä tiedoista, jotka käytetään rakentamaan luokittelija on yksi tärkeimmistä tekijöistä, jotka tekevät tämän ongelman vaikeaa. Meillä on usein etsiä harvoja hyviä markkerigeeni joukossa tuhansien geenien perustuu rajalliseen määrään näytteitä, mikä tekee suorituskykyä perinteisen ominaisuus valintamenetelmien varsin arvaamattomia [20]. Luontainen mittaus kohinaa suurikapasiteettisten kokeelliset tiedot ja heterogeenisuus näytteet ja potilaat tehdä ongelman vielä mahtavampi.

Yksi mahdollinen tapa ratkaista tämä ongelma on tulkita ekspressiotietojen tasolla toiminnallisia moduuleja, kuten signalointireittejä ja molekyylipainon komplekseja, sen sijaan, että tasolla yksittäisten geenien. Itse asiassa, yksi puutteista monien geenin-luokituksessa menetelmiä on, että markkerigeenin usein valittu toisistaan ​​riippumatta, vaikka niiden toiminnallinen tuotteet voivat olla vuorovaikutuksessa toistensa kanssa. Näin ollen valittu geenimerkkejä voivat sisältää tarpeettomia tietoja, ja ne eivät saa synergisesti parantaa yleistä luokituksen suorituskykyä. Me voi lievittää tätä ongelmaa yhdessä analysoimalla ekspressiotasot ryhmien toiminnallisesti liittyviä geenejä, jotka voidaan saada perustuen transcriptome analyysiin [21] – [23], GO merkinnät [24], tai muista lähteistä. Itse asiassa useat tutkimukset [23], [25] – [28] ovat osoittaneet, että polku markkereita ovat toistettavissa verrattuna yhden geenin markkereita ja ne voivat tarjota tärkeitä biologisia oivalluksia taustalla olevien mekanismien, jotka johtavat eri sairauksien fenotyypit. Lisäksi polku-pohjainen luokittelijoiden usein saavuttaa sama tai korkeampikin luokituksen suorituskykyä verrattuna perinteisiin geenipohjaisten luokittelijoiden.

Jos haluat käyttää polku-pohjainen merkkiaineita luokitusta, tarvitsemme tapa päätellä aktiivisuuden tietyn reitin, joka perustuu ilmentymistasojen muodostavien geenejä. Viime aikoina useita reitin aktiivisuuden päättelyn menetelmiä on ehdotettu tähän tarkoitukseen. Esimerkiksi, Guo et ai. [25] ehdotetaan käytettäväksi keskiarvo tai mediaani ilmentymisen arvo jäsenen geenien päätellä signalointia. Tomfohr et ai. [28] ja Bild et ai. [23] käytetään ensimmäisen pääkomponenttina ilmentymisen profiili jäsenen geenit arvioida aktiivisuuden tietyn reitin. Viime aikoina, Lee et ai. [26] esitetty menetelmä, joka ennustaa signalointia käyttäen vain osaa geenien reitin, jota kutsutaan ehto reagoivien geenien (CORGs), joiden yhteinen ekspressiotasot voi tarkasti erottamaan fenotyypit etua.

tässä artikkelissa ehdotamme uutta menetelmää probabilistic päättely reitin toimintaan. Tietyn reitin, ehdotettu menetelmä arvioi log-todennäköisyys suhde eri fenotyyppejä perustuu ekspressiotaso kunkin jäsenen geenin. Aktiivisuustaso koulutusjakson jälkeen päätellä yhdistämällä log-todennäköisyys suhteet geenien jotka kuuluvat polkuun. Käytämme menetelmää luokitusta rintasyövän metastaasi, ja osoittaa, että se voi saavuttaa parempaa tarkkuutta verrattuna moniin edellisestä polku lähestymistapoja. Lisäksi osoitamme, että ehdotettu signalointia päättelyn menetelmää voidaan löytää enemmän toistettavissa polku markkereita, jotka säilyttävät erotteleva teho eri aineistojen.

Methods

Tietoaineistot

Saimme kaksi riippumatonta rintasyöpä aineistoja suurilta geeniekspressiotutkimuksissa Wang et al. [11] (viitataan nimellä ”USA” aineisto tässä työssä) ja van’t Veer et al. [10] (viitataan nimellä ”Alankomaat” aineisto). Wang et al.: N aineisto [11] sisältää geeniekspressioprofiilien 286 syöpäpotilaista Yhdysvalloista, jossa etäpesäkkeitä havaittiin 107 niistä loput 179 olivat etäpesäke-ilmaiseksi. Toinen aineisto tutkineet van’t Veer et al. [10] sisältää geeniekspressioprofiilien 295 potilasta Alankomaista, jossa 79 oli etäpesäkkeitä ja 216 olivat etäpesäke-ilmaiseksi. Tässä tutkimuksessa emme pitäneet seurannan ajan tai esiintyminen kaukainen etäpesäke.

saamiseksi joukko tunnettuja biologisia polkuja, me viittasi MSigDB (Molecular allekirjoitukset Database) versio 2.4 (päivitetty huhtikuu 7, 2008) [21]. Me ladattu kanoninen reittejä C2 kuratoitu geenin sarjaa, joka sisältää 639 geenin sarjaa saatu useista koulutusjakson tietokannoista, kuten Kegg (Kioto Encyclopedia of Genes and Genomit) tietokanta [29] ja GenMAPP [30]. Nämä geeni sarjat kootaan domain asiantuntijoita ja ne tarjoavat kanonisen esityksiä biologisia prosesseja. Joukko polkuja saatu MSigDB kattaa yli 5000 erillinen geeni, jossa 3271 niistä löytyy molemmissa microarray alustoille käyttämät kaksi rintasyöpä geeniekspression tutkimuksia [10], [11].

Probabilistic päättely Pathway Activity

kunkin koulutusjakson, ensin tunnistaneet geenejä, jotka olivat mukana ekspressioprofiileja kahdessa rintasyövän aineistoja. Geenit, jotka eivät sisälly näihin aineistoja poistettiin geenin asetettu tietyn reitin. Tarkastellaan polku, joka sisältää geenit poistamisen jälkeen geenejä, joiden ilmentyminen ei ollut saatavilla. Koska näyte, joka sisältää ekspressiotasot jäsenen geenit, arvioimme signalointia seuraavasti (1), jossa on log-todennäköisyys suhde (LLR) kahden fenotyyppejä kiinnostavia geenin. LLR annetaan (2) missä on ehdollinen todennäköisyystiheysfunktion (PDF) ilmentymisen tasosta geenin fenotyypin 1, ja on ehdollinen PDF alle fenotyyppi 2. Suhdeluku on todennäköisyyksiin indikaattori, joka kertoo mikä fenotyyppi on enemmän todennäköisesti perustuu ilmentymistason nnen jäsenen geenin. Yhdistämme todisteita kaikkien jäsenen geenit päätellä yleistä signalointia. Reitti aktiivisuus voi toimia erottelevan pisteet luokittelua varten näytettä eri fenotyyppejä perustuu aktivointi tasolla tietyn reitin. Käsitteellisesti voimme tarkastella tätä lähestymistapaa laskemalla suhteellinen tuki kahdelle eri fenotyyppien avulla Naiivi Bayes malli [31], [32], joka perustuu geeniekspressioprofiili koulutusjakson.

Jotta laskea todennäköisyyssuhdearvon, meidän täytyy arvioida PDF kunkin fenotyypin. Oletamme, että geeni-ilmentymisen tason geenin fenotyypin seuraa Gaussin jakaumalla ja keskiarvo ja keskihajonta. Nämä parametrit arvioitiin kaikkien saatavilla olevien näytteiden vastaavat fenotyypin. Arvioitu PDF: voidaan sitten käyttää laskettaessa log-todennäköisyys suhde. Käytännön sovelluksissa usein ei ole tarpeeksi koulutusta tietoja luotettavasti arvioida kunkin PDF ja. Tämä saattaa tehdä laskenta LLR herkkä pienille muutoksille geeniekspressioprofiili. Tämän ongelman välttämiseksi, me normalisoida seuraavasti (3) missä ja ovat keskiarvo ja keskihajonta kaikissa näytteissä, vastaavasti. Kuvio 1 esittää yleistä menettelyä päättelemällä aktiivisuuden tietyn reitin.

Kunkin geenin koulutusjakson, arvioimme ehdollinen todennäköisyys tiheysfunktiot (PDF: t) eri fenotyyppejä. Perustuen arvioituihin PDF, me muuttaa ilmaus arvot jäsenen geenejä log-todennäköisyys suhde (LLR) saamiseksi LLR matriisi geeniekspression matriisi. LLR matriisi normalisoidaan sitten, ja signalointia päätellään yhdistämällä normalisoitu LLR sen jäsenen geenit.

erotteluärsykeominaisuuksi- voima Pathway Markers

Jotta vertailla ehdotetun reitin aktiivisuus päättely järjestelmä muihin nykyisiin menetelmiin, me suorittaneet seuraavat kokeet. Meidän Ensimmäisessä kokeessa valitsimme top 50 ilmentyvät eri väyliä käyttäen ehdottaman menetelmän Tian et ai. [22]. Arvioida kyky tietyn väylän syrjimällä fenotyyppejä, Tian et ai. laskee -testi tilastojen tulokset kaikille jäsenen geenit ja ottavat keskimäärin laskea koostetussa pisteet, joka voi toimia indikaattorina koulutusjakson n erotteleva voima. Sen jälkeen prescreening top 50 polkuja, jotka ovat suurimmat absoluuttiset arvot, me lasketaan aktiivisuus pisteet kullekin näistä reiteistä käyttäen ehdotettu päättelyn menetelmää sekä muita menetelmiä. Saatu polku aktiivisuuspisteytykset käytettiin sitten laskemaan -testi tilastotiedot pisteet kullekin opastemerkintää. -testi Pisteet käytettiin arvioimaan erotteleva voimaa opastemerkintä ja vertailla eri päättelyn menetelmiä.

Tässä työssä vertasimme viisi erilaista signalointia päättely menetelmiä: keskiarvo ja mediaani menetelmät [25], PCA-pohjainen menetelmä [23], [28] mukaan CORG perustuva menetelmä [26], ja päättelyn ehdotettu menetelmä tässä asiakirjassa. Sillä keskiarvo, mediaani, ja CORG perustuvat menetelmät, me lasketaan pisteet ottamalla keskiarvo-testi tulokset ilmaisun arvojen jäsenen geenit. PCA-pohjainen menetelmä, me lasketaan ottamalla keskiarvo

absoluuttinen

-testin tulokset geenin ilmentymisen arvoja, koska PCA voivat luonnollisesti yhdistää ilmaisun arvot riippumatta siitä, ovatko ne korreloivat positiivisesti tai negatiivisesti korreloivat fenotyyppi kiinnostaa. Meidän ehdotettu menetelmä, me lasketaan ottamalla keskiarvo-testi tulokset LLR jäsenen geenit, koska arvioimme koulutusjakson aktiivisuuspisteistä perustuu LLR alkuperäisten sijaan ilmaisun arvot.

arvioitiin myös luotettavuutta jokainen päättely menetelmä hyvien opastemerkintä, jonka sijoitus reittejä käyttäen jompaakumpaa rintasyövän aineistoja, ja sitten arvioidaan syrjivä teho poluista, jotka perustuvat muihin aineisto. Jälleen -testin tilastot reitin aktiivisuuspisteytykset käytettiin vertailla eri päättelyn menetelmiä.

Meidän Toisessa kokeessa me laskenut -testi tilastojen tulokset kaikille 639 reittejä ilman prescreening, ja verrattiin tehokkuutta eri signalointia päättely perustuvat menetelmät lasketun tulokset. Kuten ensimmäisessä kokeessa, arvioitiin myös luotettavuutta kunkin inference tapa löytää tehokkaita reitin markkereita, jonka sijoitus väyliä mukaan -testin tulokset arvioitiin käyttäen yhtä aineistoja, ja sitten arvioidaan niiden syrjivää virta toisaalta aineisto.

Evaluation of Classification suorituskyky

jotta voitaisiin arvioida luokituksen suorituskyky ehdotetun reitin aktiivisuuden päättelyn menetelmää, me suorittaneet seuraavat ristivalidointi kokeita.

sisällä -dataset kokeita

, näytteet on aineisto jaettiin sattumanvaraisesti viiteen subsets samankokoisia, jossa näytteet neljässä näistä subsets käytettiin koulutus luokittimen ja loput osajoukko käytettiin arvioitaessa luokituksen suorituskykyä. Tätä on toistettu käyttäen kustakin seikasta kuin testipakkauksesta saada luotettavampia tuloksia. Harjoitussarjassa jaettiin jälleen kolmeen yhtä suureen subsets. Kaksi kolmasosaa käytettiin ranking polku markkereita ja rakentaa luokittelijan (jäljempänä ”markkeri-arviointi” aineisto), ja kolmasosa opetusjoukolla käytettiin ominaisuuksien hallintaan (jäljempänä ”ominaisuus-valinta” aineisto). Kaikki näytteet harjoitussarjassa käytettiin arvioida PDF geenin ilmentymisen arvot eri fenotyyppejä. Rakentaa luokittelija, arvioimme jokaisen reitin perusteella erotteleva valtaa sen toiminnan pisteet luokitella näytteitä. Polut lajiteltiin kasvava järjestyksessä -arvo. Sen jälkeen ranking polkuja, rakensimme luokittelija, joko perustuvat logistinen regressio tai LDA (lineaarinen erotteluanalyysi), seuraavasti. Perustuen markkeri-arvioinnin aineisto, ensin rakennettu luokitin vain yksi ominaisuus, eli opastemerkintää alhaisimman -arvo. Suorituskyky luokittimen mitattiin sitten laskemalla AUC (Area Under ROC Curve) [33] on ominaisuus-valinta aineisto. Seuraavaksi suurennetaan joukko ominaisuuksia valitsemalla opastemerkintää alin -arvo kesken jäljellä reittejä. Uusi luokittelija oli koulutettu käyttäen valittujen ominaisuuksien merkkiaineen-arvioinnin aineisto ja sen luokittelu suorituskyky oli jälleen arvioitava ominaisuus valinta aineisto. Lisätyn opastemerkintä pidettiin ominaisuus asetetaan, jos AUC lisääntyi, ja se poistettiin toisin. Me toisti edellä prosessi kaikille opastemerkintä optimoida luokittelija. Suorituskyky optimoitu lajittelijan arvioitiin laskemalla AUC testissä aineisto. Nämä kokeet on toistettava 100 satunnaisen osiot koko aineisto. Raportoimme AUC keskiarvona 500 kokeiluja, koska yleistä suorituskykyä mitta luokittelumenetelmänä käsillä. Yleinen prosessi within-aineisto kokeilu on esitetty kuvassa. 2A.

(A) Kun sisäinen aineisto kokeissa osa koulutusta asetettu, viitataan nimellä markkeri-arviointi asetettu, käytetään sijoitusta polku markkereita mukaan niiden erotteleva vallan ja rakentaminen luokittelija. Optimaalinen joukko ominaisuuksia valitaan perustuen jäljellä koulutuksen asetettu, viitataan sillä ominaisuus-valinta set. Suorituskyky tuloksena luokittelija arvioidaan käyttämällä testin aineisto. (B) Rajat aineisto kokeissa yksi aineistoja käytetään löytää optimaalinen joukko ominaisuuksia, ja toinen aineisto on tarkoitus rakentaa luokittelija perustuu ennalta ominaisuuksia ja arvioida luokittelija.

jotta voitaisiin arvioida toistettavuus koulutusjakson markkereita eri aineisto, suoritimme

rajat aineisto kokeet

, jossa yksi aineisto käytettiin valittaessa polku markkereita, ja toinen aineisto käytettiin rakentamiseen luokitin perustuu valittuun markkereita ja arvioimalla sen suorituskykyä. Ensin valitaan optimaalinen joukon ominaisuuksia (ts opastemerkintä), joka perustuu yhteen aineisto, optimoimalla AUC metristä. Prosessi valitsemiseksi ominaisuuksia oli samanlainen kuin se, jota käytettiin within-aineisto kokeita. Näytteet muissa aineisto jaettiin viiteen subsets samankokoisia. Neljä viidesosaa näytteitä käytettiin kouluttaa luokittelijan avulla valitut ominaisuudet, ja viidennes näytteitä käytettiin arvioitaessa suorituskykyä rakennettu luokittelija. Me toisti kokeen käyttämällä kunkin viiden subsets testin asettaa ja käyttää loput koulutukseen. Edellä koe toistettiin 100 satunnaisen osiot koko aineisto, ja keskimääräinen AUC yli 500 kokeiluja ilmoitettiin suorituskykyä toimenpide. On tärkeää huomata, että ominaisuus valinta suoritetaan yksinomaan perustuu ensimmäiseen aineisto. Aikana ristivalidointi kokeita käyttäen toista aineisto, harjoitussarjassa (joka koostuu neljä viidesosaa näytteiden samassa aineisto) käytetään vain rakentaa luokittelija perustuu ennalta joukko ominaisuuksia. Yleinen tavoite Näiden rajat aineisto kokeet on arvioida toistettavuus ominaisuuksia, valitaan käyttämällä ehdotettua signalointia päättelyyn järjestelmä, eri aineistoja. Kuvio 2B esittää koko prosessin rajat aineisto kokeilu.

Jos haluat vertailla ehdotetun menetelmän kanssa muiden menetelmien Suoritimme kuvattava-aineisto kokeet ja rajat aineisto kokeet, joissa käytetään muuta signalointia päättely menetelmiä ( keskiarvo, mediaani, PCA, ja CORG). Lisäksi arvioitiin myös suorituskykyä geenin perustuva luokittelija, joka käyttää yksittäisiä geenejä diagnostisia markkereita, noudattaen samanlaista menetelmää. Tässä tutkimuksessa olemme mukana top 50 opastemerkintä alkuperäiseen merkki asettaa, jotka valittiin mukaan menetelmän Tian et ai. [22] jollaista on jo käsitelty edellisessä momentissa. Jotta geeni-pohjainen luokittelija, me mukana top 50 geenimerkkejä alin -arvoja alkuperäisessä merkki asettaa, pitääkseen enimmäismäärä samoja ominaisuuksia.

Computing alapuolinen alue ROC Curve

tässä työssä me arvioida suorituskykyä luokittelija AUC (Area Under ROC Curve). AUC metrinen on laajalti käytetty arvioitaessa luokitusta menetelmiä, koska se voi tarjota hyödyllisen yhteenvetotilasto luokituksen suorituskykyä koko alueella spesifisyyden ja herkkyyden arvoja. Laske AUC otimme menetelmä ehdotettu [33]. Tietyn luokituksen anna olla tuotos luokitin positiivisten näytteiden, ja anna on lähtö negatiivisista näytteistä. Sitten AUC metriikka lajittelijan saadaan: (4) missä on osoitinmuuttujan. AUC on todella empiirinen todennäköisyys, että satunnaisesti valittu positiivinen näyte on sijoittunut korkeammalle kuin satunnaisesti valittu negatiivinen näyte. Voidaan osoittaa, että AUC toimenpide vastaa Mann-Whitney-testi (kutsutaan myös Wilcoxonin-sum test) tilastot.

Tulokset

Todennäköisyyspohjainen Pathway Toiminta päättely Parantaa erotteluärsykeominaisuuksiin Virta Pathway markers

arvioitiin erotteleva voima opastemerkintä, jossa reitti toiminta oli päätellä käyttäen ehdotettu menetelmä sekä muita päättely menetelmiä. Tehokasta vertailu ehdotetun päättelyn menetelmää muihin nykyisiin menetelmiin, suoritimme samanlaisia ​​kokeita kuin suoritettiin [26] arvioida erotteleva valtaa reitin markkereita. Jokaista rintasyöpä aineisto, ensin käytetty menetelmää Tian et ai. [22] ja valitse top 50 polkuja joukossa 639 polkuja saatu MSigDB [21] (ks Methods). Me lasketaan todellinen aktiivisuuspisteytykset top 50 polkuja perustuu kunkin signalointia päättelyyn järjestelmään, ja sijoittui polkuja mukaan heidän erotteleva valtaa. Kuvio 3 esittää syrjivä voima alkuun polkuja, jossa akselin vastaa määrää alkuun väyliä, joiden katsottiin, ja akselilla esitetään keskimääräiset absoluuttisen -score alkuun polkuja. Vertasimme viisi signalointia päättelyn menetelmiä, nimittäin CORG perustuva menetelmä [26], PCA-tekniikkaan perustuva menetelmä [23], [28], keskiarvo ja mediaani menetelmiä [25], ja LLR perustuva menetelmä Tässä asiakirjassa esitetään. Vertailun vuoksi myös arvioitiin syrjivä voima alkuun 50 yhden geenin markkereita, jotka on valittu joukosta 3271 geenit kattamien 639 väyliä käytetään tässä tutkimuksessa. Saadut tulokset Alankomaat rintasyövän aineisto [10], ja USA: ssa rintasyövän aineisto [11] on esitetty kuviossa. 3A ja kuvio. 3B, vastaavasti. Kuten näemme näistä tuloksista, ehdotettu signalointia päättelyn järjestelmä, joka laskee reitin aktiivisuuden pisteet yhdistämällä log-todennäköisyys suhteet jäsenen geenit, paransi voimaa opastemerkintä erottamaan metastaattisen näytteiden ja ei-metastasoitunut näytteiden . Mielenkiintoista, alkuun geenimerkkejä usein verrattuna suotuisasti polkuun markkereita. Alankomaiden aineisto, ekspressiotasoja alkuun geenien oli suurempi syrjivää valtaa kuin koulutusjakson aktiivisuuspisteytykset päätellyt CORG, PCA, keskiarvo, ja mediaani menetelmiä. Vain polku aktiivisuuspisteytykset arvioima ehdotettu menetelmä olivat syrjivää kuin geenien ilmentymisen arvoja. Yhdysvaltoja aineisto, geenimerkkejä olivat selvempiä eroja kuin opastemerkintä perustuva keskiarvo, mediaani, ja PCA menetelmiä, mutta vähemmän erotteleva verrattuna opastemerkintä perustuu ehdotettuun menetelmään ja CORG menetelmällä.

(A) Keskiarvo absoluuttinen -score alkuun merkkiaineita Alankomaissa rintasyöpä aineisto. Pathway toiminta on päätellä viidestä eri menetelmiä: CORG, PCA, keskiarvo, mediaani, ja LLR (ehdotettu menetelmä). Erotteluärsykeominaisuuksiin voima alkuun geenimerkkejä arvioitiin vertailun (merkintä ”Gene”). (B) Keskimääräinen absoluuttinen -score alkuun merkkiaineita Yhdysvalloissa rintasyövän aineisto. (C) Merkit rankattiin perustuu Alankomaissa aineisto ja keskimääräinen absoluuttinen -score alkuun merkkiaineiden laskettiin perustuen Yhdysvaltojen aineisto. (D) Merkit rankattiin perustuvat USA aineisto ja keskimääräinen absoluuttinen -score alkuun merkkiaineiden laskettiin perustuen Alankomaissa aineisto.

arvioimiseksi toistettavuus opastemerkintä, me sijoittui markkereita perustuu yhteen aineisto ja arvioitiin niiden keskimääräinen absoluuttinen -score käyttämällä muita aineisto. Kuvio 3C esittää tuloksen sijoitusta markkereita perustuu Alankomaissa aineisto ja laskemalla keskimääräinen absoluuttinen -score alkuun merkkiaineiden avulla USA aineisto. Samoin Fig. 3D näyttää tuloksen sijoitusta markkereita perustuu USA aineisto ja laskemalla keskiarvon ylä- reittejä käyttäen Alankomaat aineisto. Nämä tulokset osoittavat selvästi, että polku markkereita valitaan perustuen ehdotettu päättely menetelmä säilyttää huomattavan suuri erotteleva teho eri aineistoja. Itse asiassa molemmat rajat aineisto kokeissa polku aktiivisuuspisteytykset laskettu LLR menetelmällä olivat paljon syrjivää kuin aktiivisuuspisteytykset laskettu muilla päättelyn menetelmiä sekä ilmaisun arvoja alkuun geenimerkkejä. Kaiken kaikkiaan nämä tulokset osoittavat, että ehdotettu menetelmä voi löytää parempia diagnostisia markkereita korkeamman toistettavuus. Huomaa myös, että yhden geenin markkereita, jotka oli huomattavan suuri erotteleva teho sisällä aineisto (katso kuviot. 3A ja 3B), menetti suurimman osan syrjivät vallan eri aineisto.

Seuraavaksi suoritimme samanlaisia ​​kokeita kaikki 639 reittejä ja kaikki 3271 geenit kuulu näiden reittien ilman prescreening (katso menetelmät). Tulokset näistä kokeista on esitetty kuvassa. 4, jossa akselilla osoittaa suhde alkuun reittejä, joita käytetään laskemaan keskimääräinen absoluuttinen -score, ja akselin vastaa arvioidun keskimääräisen absoluuttisen -score alkuun polkuja. Erotteluärsykeominaisuuksiin voima reitin markkereita ja yhden geenin markkereita Alankomaiden aineisto on esitetty kuviossa. 4A, ja syrjivää voima markkereita USA aineisto on esitetty kuviossa. 4B. Saadut tulokset rajat aineisto kokeet on koottu kuvioon. 4C ja 4D. Kuviossa. 4C markkereita paremmuusjärjestykseen erotteleva virta Alankomaiden asetettu, ja niiden keskimääräinen absoluuttinen -scores laskettiin käyttäen USA aineisto. Tulokset ranking markkereita perustuu USA aineisto ja laskemalla tulokset käyttämällä Alankomaiden joukko on esitetty kuvassa. 4D. Kaikki nämä kokeet osoittavat, että signalointia tulokset mitattiin ehdotetut LLR menetelmä ovat paljon erotteleva kuin tulokset lasketaan muiden päättelyn menetelmiä ja myös ekspression yksittäisten geenien arvot. Lisäksi voimme nähdä, että polku markkereita, jotka valittiin perustuu LLR-pohjainen reitin aktiivisuuspisteytykset ovat toistettavissa ja niiden toiminnan tulokset säilyttää merkittävän määrän syrjiviä valmiudet poikki itsenäinen aineistoja.

(A) keskimääräinen absoluuttinen – pistemäärä alkuun merkkiaineita Alankomaiden aineisto. (B) Keskimääräinen absoluuttinen -score alkuun merkkiaineita USA aineisto. (C) Merkit rankattiin perustuu Alankomaissa aineisto ja keskimääräinen absoluuttinen -score alkuun merkkiaineiden laskettiin perustuen Yhdysvaltojen aineisto. (D) Merkit rankattiin perustuvat USA aineisto ja keskimääräinen pistemäärä alkuun merkkiaineiden laskettiin perustuen Alankomaissa aineisto.

Ehdotettu Pathway Activity Päättely Scheme Johtaa tarkempaa ja luotettavampaa luokittelijat

Käytimme ehdotetun signalointia inference järjestelmän luokittelun rintasyövän metastaasi, arvioida sen hyödyllisyyttä syrjimällä eri syövän fenotyyppejä. Oikeudenmukaisen ja tehokkaan verrattuna muihin päättely järjestelmiä, me taas antoi samanlaisen koejärjestelyistä jota käytettiin [26] arvioida suorituskykyä CORG perustuva menetelmä, state-of-the-art-reitin aktiivisuuden päättelyn järjestelmään joka käyttää vain ehto reagoivien geenien tietyn reitin. Jokaista rintasyöpä aineisto, suoritimme viisinkertaisesti ristivalidointi kokeissa jossa neljä viidesosaa näytteitä käytettiin rakentamiseen luokittimen ja jäljellä viidennes näytteitä käytettiin arvioitaessa luokitusta suorituskyky (katso menetelmät). Vaikka rakentamisen luokittelija, käytimme LLR-pohjainen signalointia inference arviointimenetelmää erotteleva teho kunkin opastemerkintää ja valitsemalla optimaalinen joukko markkereita käytettäväksi luokitin. Rakennettu luokittelija käyttää myös koulutusjakson aktiivisuuspisteytykset laskema ehdotettu päättely, jolla voitaisiin erottaa metastaattisen rintasyövän näytettä ei-metastasoituneen näytteitä. Meidän kokeissa määrittelimme lähtökohtaisista opastemerkintä kuin alkuun 50 polkuja valita käyttämällä menetelmää Tian et ai. [22] (ks Methods). Arvioimme luokituksen suorituskykyä käyttäen AUC metristä. Olemme toistaneet viisinkertaisen ristivalidointi 100 satunnainen osio annettu aineisto, ja keskimäärin tuloksena 500 AUC saada luotettavan suorituskyvyn mittari luokituksen menetelmän. Verrata luokittelu suorituskykyä eri päättelyn menetelmiä, myös toisti edellisen kokeita käyttäen CORG, PCA, keskiarvo, ja mediaani menetelmiä inferring koulutusjakson toimintaa. Vertailun vuoksi arvioitiin myös suorituskykyä geenin-luokituksessa menetelmällä. Olemme mukana top 50 syrjivät geenien alkuperäiseen merkki asettaa, pitää enimmäismäärä ominaisuuksia samat kaikille luokittelumenetelmiä.

Kuva 5 on koottu tulokset ristivalidointi kokeita. Ensimmäisessä koesarjassa, käytimme logistinen regressio luokituksessa näytteet. Luokittelun tuloksia erilaisia ​​lähestymistapoja perustuu logistinen regressio on esitetty kuviossa. 5A. Kaksi pylväsdiagrammein vasemmalla kuviossa. 5 vastaavat kaksi puitteissa-aineisto kokeet perustuvat USA rintasyövän aineisto (merkintä ”USA”) ja Alankomaissa aineisto (merkintä ”Alankomaat”), tässä järjestyksessä. Näissä puitteissa-aineisto kokeet, alkuperäisen sarjan ylempiä 50 markkereita on valittu koko aineisto, jotta voidaan vähentää vaikutusta herkkyyden merkki valinnassa verrattaessa eri reitin perustuvia menetelmiä. Rajat validointi kokeita on suoritettu perustuen valitun alkuperäisen joukon markkereita (katso menetelmät). Kuten näemme näissä pylväskaaviot, ehdotettu menetelmä saavuttanut korkeimman luokitustarkkuudesta kaikkien menetelmiä, kummassakin kokeessa. CORG perustuva menetelmä verrattuna suotuisasti muihin reittiin perustuvien menetelmien, vaikka sijoittuivat ehdotettu menetelmä. Voimme myös nähdä, että geeni-pohjainen luokittelija menestynyt hyvin sisällä aineisto kokeita, mikä ei ole yllättävää, jos otetaan huomioon korkea syrjivä teho alkuun geenimerkkejä havaittu kuvioissa. 3A ja 3B.

pylväskaaviot tarkoittavat keskimääräistä AUC eri luokitusta menetelmiä. Viisi polku perustuvat menetelmät, joissa käytetään erillistä signalointia päättely järjestelmien (LLR, CORG, PCA, keskiarvo ja mediaani) sekä geenin perustuva menetelmä verrattiin. (A) Luokitteluosuudet rakennettiin perustuu logistinen regressio. Tulokset sisällä-aineisto kokeet perustuu Yhdysvalloissa ja Alankomaissa aineistot näkyvät kahdessa kaaviossa vasemmalla. Kaavioista oikealla esittävät tuloksia rajat aineisto kokeita. (B) Esitys erilaisen luokituksen perustuvat menetelmät LDA (lineaarinen erotteluanalyysi).

tulokset rajat aineisto kokeet näkyvät kahdessa baarissa kaavioita oikealla kuvion. 5A. Kaavio merkintä ”USA-Alankomaat” esitetään tulokset valitsemalla ominaisuuksien avulla Yhdysvaltojen aineisto, ja koulutus /arvioidaan luokittelija käyttämällä Alankomaat aineisto. Tulokset on esitetty kuviossa.

Vastaa