PLoS ONE: Integroidun Gene Network Construction Analysoi syövän uusiutumiseen käyttäminen Semi-ohjattu oppiminen
tiivistelmä
Background
Ennuste syövän uusiutumiseen on tärkeä tutkimuskohde bioinformatiikan ja on haasteellinen johtuen pienestä otoksesta verrattuna suuri määrä geenejä. On ollut useita yrityksiä ennustaa syövän uusiutumiseen. Useimmat tutkimukset palveluksessa valvottu lähestymistapa, joka käyttää vain muutama leimattu näytteitä. Semi-ohjattu oppiminen voi olla hyvä vaihtoehto tämän ongelman ratkaisemiseksi. On ollut muutamia yrityksiä perustuu moninaiset oletuksiin paljastaa yksityiskohtaisia roolit tunnistettu syöpää geenien uusiutuminen.
Tulokset
Jotta ennustaa syövän uusiutuminen ehdotimme uutta semi-ohjattu oppiminen algoritmi perustuu kuvaajan laillistamisen lähestymistapaa. Olemme muuttaneet geenin ilmentymisen datan kuvaajan rakenne puoliksi valvottu oppiminen ja integroitu proteiini -yhteisvaikutustutkimukset kanssa geenien ilmentymisen datan valita funktionaalisesti liittyvien geenin paria. Sitten me ennusti syövän uusiutumisen soveltamalla Laillistamisprosessi lähestymistapa rakennettu kuvaajan sisältää sekä merkityt että merkitsemättömät solmuja.
Johtopäätökset
Keskimääräinen parannus nopeudella tarkkuuden kolmelle eri syövän aineistoja oli 24,9 % verrattuna nykyisiin valvottu ja puoliksi valvottu menetelmiä. Suoritimme toiminnallinen rikastamiseen geenissä verkoissa käytetty oppimiseen. Olemme havainneet, että nämä geeni verkot liittyvät merkittävästi syöpään uusiutumista liittyviä biologisia toimintoja. Meidän algoritmi kehitettiin standardin C ++ ja on saatavana Linux ja MS Windows formaatteja STL kirjastossa. -ohjelmatiedosto On vapaasti saatavilla osoitteessa: https://embio.yonsei.ac.kr/~Park/ssl.php.
Citation: Park C, Ahn J, Kim H, Park S (2014) Integrative Gene Network Construction Analysoi syövän uusiutumiseen käyttäminen Semi-ohjattu oppiminen. PLoS ONE 9 (1): e86309. doi: 10,1371 /journal.pone.0086309
Editor: Peter Csermely, Semmelweis University, Unkari
vastaanotettu: 3. heinäkuuta 2013. Hyväksytty: 9. joulukuuta 2013. Julkaistu: 31 tammikuu 2014
Copyright: © 2014 Park et al. Tämä on avoin pääsy artikkeli jaettu ehdoilla Creative Commons Nimeä lisenssi, joka sallii rajoittamattoman käytön, jakelun ja lisääntymiselle millä tahansa välineellä edellyttäen, että alkuperäinen kirjoittaja ja lähde hyvitetään.
Rahoitus: Tämä työ tukivat National Research Foundation of Korea (NRF) avustus rahoittama Korean hallitus (MSIP) (NRF-2012R1A2A1A01010775). Rahoittajat ollut mitään roolia tutkimuksen suunnittelu, tiedonkeruu ja analyysi, päätös julkaista tai valmistamista käsikirjoituksen.
Kilpailevat edut: Kirjoittajat ovat ilmoittaneet, etteivät ole kilpailevia intressejä ole.
Johdanto
tunnistaminen syöpä biomarkkereita diagnoosi ja ennuste on yksi tärkeimmistä tutkimusalat bioinformatiikan. Käyttö tarkka syövän biomarkkereiden avulla voidaan määrittää asianmukainen hoito perustuu potilaan tilasta. Nämä biomarkkerit voidaan esittää luettelon geenien tai geenin verkon rakenne. Microarray perustuvat geenin ilmentymisen on käytetty tunnistamaan nämä biomarkkerit [1], [2], [3]. Lisäksi, useat viimeaikaiset tutkimukset ovat käytetään paitsi geeni-ilmentymisen tietoja, mutta myös interactome tietoja parantaa ennustavan suorituskykyä. Tunnettuja syöpään liittyvät geenit eivät ole erotettavissa geeniekspressiotason yksin. Chuang
et al
. osoittivat, että integrointi interactome ja transcriptome tiedot olivat käyttökelpoisia tunnistamiseen ekspressoidaan toiminnallisten aliverkot ja vuorovaikutuksista aliverkot toimi markkerina suuremmalla luokitustarkkuudesta [4]. Taylor
et al
. analysoidaan globaali modulaarisuus proteiinia vuorovaikutuksessa verkkoihin ja paljasti, että Moduulien väliset napa, yksi kahden solmukohdat, oli useammin liittynyt oncogenesis [5]. Ahn
et al
. Ehdotettu uusi ja tarkka luokitus menetelmällä käyttäen integrointi sekä interactome ja transcriptome data [6]. He myös rakennettu syöpää geenistä verkkoja, jotka ovat peräisin niiden luokittelu menetelmä, ja se paljasti, että syöpään liittyvien geenien verkossa on tärkeä rooli syövän [6].
Vaikka geenin ilmentyminen ja interactome tiedot ovat erittäin hyödyllisiä syövän tutkimus, suhteellisen pieni määrä näytteitä verrattuna määrä geenien johtaa haasteiden analyysi [7]. Luotettavuus löytää geenit ilmentyvät differentiaalisesti kahden eri olosuhteissa on vähentynyt pienestä otoksesta. On yritetty voittaa tämä rajoitus microarray-pohjainen geenien ilmentyminen tietoja [8]. Shi
et al
. mainitsi, että saadakseen microarray tietoja kliinistä seurantaa tieto on aikaa vievää, kallista ja rajoittaa näytteen saatavuus [9]. Nämä havainnot merkitsevät sitä, että olemassa oleva valvottu-oppiminen lähestymistavat joka käyttää vain merkittyjä tietoja on vielä rajoituksia.
Yksi lähestymistapa täydentämisestä pieniä määriä leimattuja data on puoliksi valvottu oppiminen, joka on yhdistelmä super- valvottava- ja ilman valvontaa menetelmiä. Semi-ohjattu oppiminen yhdistää merkitty ja nimeämättömän aineiston rakentaa oppimisen malli parannetulla tarkkuudella [10]. Yleensä semi-ohjattua luokitusta käytetään, kun on olemassa enemmän nimeämättömän aineiston kuin merkitty tietoja. Tällaisessa tapauksessa ajatellaan, että tieto leimaamattoman tiedot ovat käyttökelpoisia päättely Tarkka luokitus sääntöjen oppimisprosessin aikana.
Äskettäin puoliksi valvottu oppiminen lähestymistavat ovat laajalti käytössä biologiseen data-analyysi mukaan lukien geneettiset vuorovaikutukset. Sinä
et al
. kehitti graafiperusteisen puoliksi valvottu oppiminen luokittelija, joka voi ennustaa pairwise synteettisiä geneettisiä vuorovaikutusta [11]. Koska geneettinen vuorovaikutus profiilit voivat auttaa luomaan parempaa ymmärtämistä välisten yhteyksien geenien ja toiminnallisia polkuja, tarkka algoritmi ennustaa geneettinen vuorovaikutusten on erittäin toivottavaa puuttumisesta huolimatta korkean tarkkuuden funktionaalinen geeni verkkoon. Semi-valvottu oppimiskäsitykselle on myös sovellettu ennusteeseen liittyviä tutkimuksia. Nguyen
et al
. Ehdotettu puoliksi valvottu oppiminen perustuva menetelmä ennustaa geenien tauti päättelemällä sekä tautigeenejä ja niiden naapureiden proteiini vuorovaikutuksen verkkoja [12]. Bair
et al
. Ehdotettu käyttäen sekä saatavilla kliinisiä tietoja ja geenien ilmentyminen tietojen tunnistamiseksi osajoukko geenien käytetään suorittamaan puoliksi valvottu klusterointi [13]. Heidän menetelmää käytettiin paljastaa alatyyppejä syövän ja ennustaa potilaan eloonjäämisen. Joshua Smith
et al
. käytetyt geeniekspressioprofiilit tunnistaa geenin luokitin liittyy suuri riski etäpesäke ja kuoleman paksusuolensyöpä [14].
Kuten edellä mainittiin, osittain valvottu lähestymistavat voivat täydentää rajoitukset geeniekspression data-analyysi, kuten koska puuttuminen osoitettu kliininen luokka kullekin potilaalle. Shi
et al
. Ehdotettu puoliksi valvottu luokittelija perustuu alhaisen tiheyden erottaminen, jotka voivat tunnistaa riskialttiit ja matalan riskin potilailla [9]. Tämä tutkimus, joka käytetty leimattu ja leimaamaton geeniekspression näytteitä, osoitti parannettu tarkkuus verrattuna nykyisiin lähestymistapoihin perustuva ohjattu oppiminen. Kuitenkaan ei ole ollut yrittää soveltaa sekä semi-ohjattu oppiminen ja integrointi interactome ja transcriptome tiedot voittaa pieni määrä merkitty näytteitä ja parantaa suorituskykyä luokituksen ja ennusteen. Integrointi heterogeeniset tiedot voivat auttaa erottamaan merkittävämpää geenien geeniekspression data tarkoitus rakentaa luokittelijoiden, kuten edellä mainittiin.
Tässä artikkelissa, käytimme kuvaajan laillistaminen ja integrointi transcriptome ja interactome data rakentaa novel puoliksi valvottu oppiminen-pohjainen luokittelija ihmisen syövän, ja rakennettu syöpää tietyn geenin verkkoon. Käyrä laillistamiseen perustuu moninaiset olettamus, ”jossa rakentaminen kuvaajan malleja on tärkeä vaihe. Sen suunnittelussa kuvaajamallin luokitusta, rakensimme kaavion käyttämällä leimattuja ja leimaamattomia näytteitä solmuja. Yhteyden kahden näytteen välillä laskettiin käyttäen valittuja informatiivinen geenin paria. Valitessaan hyödyllistä geeniä paria, me integroitu proteiini-proteiini-vuorovaikutuksen (PPI) datan geenien ilmentyminen tietoja. PPI tietojen tietoa toiminnallisen suhteen keskuudessa proteiineja ja levitettiin geenejä kytketty PPI-lääkkeitä. Kun olet valinnut geeni paria, haimme pisteytyssysteemin ehdotettu aikaisemmassa paperissa [6]. Keskityimme rinta-, peräsuolen ja eturauhasen syöpiä ennustaa syövän uusiutuminen. Kolme syöpäpotilaiden mRNA ilmaisu tallentamia sekä leimaamaton ja merkitty näytteitä.
osoittaneet, että (i) ehdotettu semi-ohjattu oppiminen luokituksessa parannettu ennustuksen suorituskyky verrattuna olemassa oleviin menetelmiin, kuten TSVM, joka on puoli- valvotaan oppiminen versio SVM, (ii) ehdotettu menetelmää sovellettiin eri syöpiä, (iii) ehdotettu menetelmä oli vahvaa riippumatta luokan etiketin suhteen ja (iv) syöpä-geenistä verkon peräisin luokittelija on biologisesti merkityksellisiä, ja syöpä-geenit tämän verkon oli rooli jäseninä monimutkaisten biologisten prosessien.
Methods
rakentaa puoliksi valvottu oppiminen luokittelija, meidän ensimmäinen integroitu geenien ilmentyminen tietoja PPI ja tunnistettu informatiivinen geeni paria leimatun näytteitä. Toiseksi, rakensimme otoksen kuvaajamallin käyttäen valittua informatiivinen geenejä, jotta voidaan rakentaa luokittelija.
Data
ladataan geenin ilmentymisen aineistoja kolme syövät päässä Gene Expression Omnibus (GEO ) tietokanta. Taulukossa 1 on yhteenveto yksityiskohdista aineistojen. Geeniekspressiota aineisto GSE2990 koostui 125 invasiivisen rintasyövän näytteet luokitellaan kahteen ryhmään, korkean ja matalan riskin toistumisen; 64 näytettä ei ollut luokan etiketti. Geeniekspressiota aineisto GSE17536 koostui 177 peräsuolen syöpäpotilailla. Näytteet luokiteltiin kolmeen ryhmään: ”uusiutuminen”, ”no toistuminen,” ja ”leimaamattoman.” Perustuen havaintoihin toistumisen viiden vuoden seurannassa, tarrat jaettiin näytteisiin. Merkitsemätön Näytteet ei ollut kliinistä seurantatietoja. Geeniekspressiota aineisto GSE17538 koostui 213 paksusuolensyöpä näytteitä, jotka oli myös luokitellaan kolmeen ryhmään edellä. Yksityiskohtaisempi kuvaus aineistoja mukaan kokeellinen alusta on esitetty taulukossa S2 File S1.
Meillä on myös ladattu 194988 ihmisen PPI-lääkkeitä päässä I2D tietokannasta, johon sisältyi tiedossa, kokeellinen, ja ennusti PPI-lääkkeitä . Koska proteiinit näissä protonipumpun estäjiä kartoitettiin osaksi geeniin symboleja Universal Protein Resource (UniProt), saimme 108544 protonipumpun estäjien poistamisen jälkeen monistaa PPI-lääkkeiden ja protonipumpun estäjien, joka sisälsi proteiineja, joita ei kartoitettu geeni symbolin.
Järjestelmän yleiskatsaus
Tässä jaksossa kuvataan uutta graafiperusteisen puoliksi valvottu oppiminen algoritmi syövän ennustetta. Kuvaaja koostuu solmuista ja reunat, jotka vastaavat näytteitä ja vuorovaikutusta kahden näytteen välillä, vastaavasti. Käyrä on rakennettu sekä merkityt että merkitsemättömät näytteet geeniekspression data, ja leimaamaton näytteet myöhemmin merkitty perustuvat geometriasta kuvaajan rakenne. Siksi on erittäin tärkeää tuottaa näyte-pohjainen kuvaaja annetusta aineisto. Ehdotamme uutta kuvaajan rakennusmenetelmän joka on erikoistunut microarray aineisto. Tämän perusteella kuvaajan rakennusmenetelmän kehitimme puoliksi valvottu oppiminen algoritmi, joka käyttää kaavion laillistamisen.
Tässä menetelmässä itse kuvio on luokittelija. Siten parametrit rakentaa kuvaajan tarkoita, että ne ovat keskeisiä tekijöitä luokittimen. Luokituksen tulokset riippuvat parametrit. Semi-ohjattu oppiminen yleensä hyödyntää ominaisuutta tai taustalla tietoa nimeämättömän aineiston. Tämä lähestymistapa edellyttää, että nimeämättömän aineiston avulla pystyy parantamaan luokituksen suorituskykyä. Tämän erottava piirre puoliksi valvottu oppiminen, me hyödyntää nimeämättömän aineiston rakentamiseen luokittelija.
Ehdotettu menetelmä on kaksivaiheinen. Ensimmäinen vaihe on määrittää ehdokas optimaaliset parametrit kuvaajan laillistamiseen vaihtelemalla parametri vaihteluvälit
k
kertainen rajat validointi. Tämän vaiheen jälkeen luomme kuvaaja sekä merkityt että merkitsemättömät näytteet. Sitten me selville onko luokittelutulokset kaaviosta laillistamiseen muutetaan tai lähentyneet. Jos niitä muutetaan, pidämme luokitellut nimeämättömän aineiston kuten äskettäin merkitty tiedot ja käyttää niitä määrittää optimaalisen ehdokas parametrit. Tässä toistuvan prosessin, tiedot leimaamatonta näytteiden annetaan. Aiempi semi-ohjattu oppiminen menetelmä ehdotettu [9] käytetään myös merkitsemätön näytteitä rakentaa luokittelija perustuu Low Density Separation (LDS). Kuvio 1 esittää koko työnkulun myös semi-valvoo oppimismoduuli määrittämiseksi optimaaliset parametrit meidän menetelmää.
Ensin laaditaan kaavio varten regularization vain leimatun näytteiden vaihtelemalla kahta parametria. Tässä vaiheessa käytämme
k
kertainen rajat validointi määrittää optimaalisen parametrisarjan. Sitten sovelletaan osittain valvottu oppimisen saadun optimaalisen parametrisarjan ja ennustaa etiketit tuntemattoman näytteen. Ehdotettu menetelmä käyttää leimaamatonta näyte tietoa rakentaa luokittelija iteroimalla menettelyä.
yksityiskohtia puoliksi valvottu oppimismoduulin tässä työnkulku on kuvattu seuraavissa osissa. Tämä moduuli koostuu seuraavista kolmesta ydin vaiheet: (1) tunnistaminen informatiivinen geenin pareittain (2) rakentaminen näytettä kaavioita valittujen geenien, ja (3) laillistaminen kuvaajan ja ennustaminen etiketeissä leimaamattoman näytteitä. Työnkulun puoliksi valvottu oppiminen moduuli on esitetty kuviossa 2.
Käytämme kuvaajan laillistaminen lähestymistapa semi-valvottu oppiminen, ja tarkoitus ehdotettu menetelmä on ennustaa etiketit leimaamattoman näytteitä.
tunnistaminen informatiivinen Gene Parit
on kymmeniä tuhansia geenien microarray aineistoja, ja vain jotkut niistä ovat erityisiä luokitusta näytteen. Informatiivinen geeni paria osoittavat vuorovaikutuksia, jotka tarkkeitaKCharselect kahdessa päinvastoin luokkaa leimattujen näytteiden. Hyväksyimme ja muuttaneet aiemmin ehdotettu järjestelmä tunnistaa vuorovaikutusta geeniekspression aineisto [6]. Tässä tutkimuksessa olemme osoittaneet, että intensiteetti yhteisvaikutusten voi olla erilaiset normaalit solut ja kasvainsoluissa. Olemme myös selvitetty, että muutoksia vuorovaikutuksen taso voisi olla syy tai seuraus tumorigeneesin, ja että muutos proteiinin kompleksit voivat vaikuttaa eri vuorovaikutusten seurauksena tumorigeneesin.
muutosten mittaamiseksi vuorovaikutusta voidaan pitää koska tunnistaminen riippuvuutta kahden geenejä. Suuri korrelaatioarvo kahden geenin välillä, koska jonkin verran muutos osoittaa, että on olemassa voimakas riippuvuus näiden kahden geenin välissä. Pohjautuvien, ehdotamme pisteytys järjestelmän laskea liitoksen lujuus kahden geenin välillä, joka on yhdistetty PPI. Käyttämällä tätä toimenpidettä, voimme helpottaa valintaa informatiivinen vuorovaikutuksia geeniekspression aineistoja, koska syöpä erityinen verkko rakennettiin perustuu samanlainen pisteytys funktio. Toisin sanoen, voimme valita vuorovaikutuksia määritelty kasvaimen uusiutumisen käyttäen ehdotettuja pisteytyksen järjestelmään. Pisteet kahden geenin lasketaan seuraavalla kaavalla: missä
g
iC
1 ja
g
iC
2 ovat vektoreita mRNA ilmaisun arvo geenin
i
luokan 1 ja luokan 2 näytettä, vastaavasti, ja
g
JC
1 ja
g
JC
2 levittävät mRNA ilmaisun arvo geenin
j
luokan 1 ja luokan 2 näytettä. Ainoastaan geeni paria, pisteytys arvo on yli
kynnys
g
katsotaan olevan merkitsevää eroa kahden luokan. Tämä pisteytys ohjelma suoritetaan vain leimatun näytettä geeniekspression aineisto. Yksinkertainen esimerkki laskettaessa Score arvojen on esitetty kuvassa S1 File S1.
rakentaminen otospohjaisen Graph
rakennettu näyte-pohjainen kuvaaja laillistamisen. Paino näytepari lasketaan Pearson Korrelaatiokerroin (PCC) kahden näytteen vektorit, jotka muodostuvat geeneistä, kuten elementit, joissa geenit on saatu informatiivinen geenistä paria. Sekä leimattu ja leimaamaton näytteitä käytetään kaaviossa. Paino funktio on seuraava: missä
S
*
i
ja
S
*
j
ovat vektoreita mRNA ilmaisun arvo näytteen
i
ja näyte
j
vastaavasti valitun geenin paria arvoja suurempia kuin
kynnys
s
. Oletetaan, että on olemassa merkittävä suhde kahden näytteen välillä, kun ne ovat erittäin liittyvät toisiinsa positiivinen tai negatiivinen malli. Voimme muuttaa geeniekspressiota aineisto osaksi kuvaajan rakenne, joka voidaan laillistaa. Yksinkertainen esimerkki laskeminen Painoarvo on esitetty kuvassa S1 File S1.
Regularisointi että Graph
Perustuu otospohjaisen kuvaajan rakenne on johdettu edellä mainitun menetelmän, tarrat osoitetaan leimaamatonta solmut. Tämän saavuttamiseksi käytämme perus laillistamisen lähestymistapaa. Säännönmukaisuutta graafin, arvioimme Laillistamisprosessi perustuvat puitteet jakotukin oletuksiin. Kustannukset toiminto laillistaminen on seuraava: missä
y
ja
Ŷ
osoittavat vastaavasti alkuperäisen tarrat ja arvioidun etiketit sekä leimattu ja leimaamaton tiedot.
W
ij
osoittaa painon välillä solmun
i
ja solmu
j
. Kokonaismäärä sekä merkityt että merkitsemättömät solmut on
n
, ja määrä merkitty solmujen on
l
. Meidän ongelma,
y
osoittaa leimattu ja leimaamaton näytteitä syövän aineisto, ja
W
ij
saadaan käyttämällä painoa funktio määritelty yllä luvussa. Käyttämällä kustannusfunktio, me mitata yhdenmukaisuus alkuperäisen merkintöjä käyttäen ensimmäinen termi, ja asetamme rangaistus laillistamiseen käyttäen toista termiä. Käyttäen toinen termi, laskemme painotettu ero kahden solmut ottamatta huomioon vai ei ne on merkitty. Suuret Tämän kustannusfunktion on minimoida painotettu ero kaikkien solmujen. Tämä prosessi viittaa laillistaminen ja vastaa etiketti eteneminen algoritmi. Meidän tapauksessamme on tarpeetonta siirtää etikettien merkitty tietoja, koska ne on jo kliinisesti todennettu. Siksi ensimmäinen termi kustannusfunktion,
Ŷ
i
on pakotettu olemaan yhtä suuri kuin
y
i
. Tämän seurauksena kustannukset toiminto voidaan muuttaa seuraavaan funktion kuvaajan Laplacian.
jossa
L
on epä-normalisoitu kuvaaja Laplacian ja
D
on diagonaalinen matriisi painomatriisi
W
. Tämä toiminto rankaisee nopeita etiketti muutokset
Ŷ
kahden lähellä datapisteiden mukaisesti annettuja painomatriisi. Erilaisia arvioita on ehdotettu minimoimaan tämän toiminnon päälle
Ŷ
u
, jossa
Ŷ
u
ilmaisee arvioidun merkintä nimeämättömän aineiston ja
Ŷ
l
osoittaa leimatun tiedot. Minimointi toiminnon suhteen
Ŷ
u
muuntaa sen seuraava funktio.
ennustaa etiketit nimeämättömän aineiston avulla sitä laskettaessa. Koska emme keskittyä kehittämään uusia puoliksi valvottu oppiminen algoritmi käytämme yleistä laillistamista lähestymistapa painotettu näyte kaavio, ja se riittää, että sovelletaan yleistä lähestymistapaa ongelmaamme.
Tulokset
Me tehdään kokeita saada optimaalinen yhdistelmä kahta kynnystä pisteet geenin parin ja näytteen paino perustuu kuvaajan. Sitten kun menetelmämme useita nykyisiä menetelmiä, jotta voidaan arvioida sen suorituskykyä. Lopuksi analysoidaan verkon johdettu meidän menetelmää tunnetun syöpään liittyvät geenin luettelosta.
saaminen Optimal parametrit
käytetään kahta muuttujaa sekä tunnistaa informatiivinen geeniä paria ja määrittää painot näyte paria . Löytää optimaalinen yhdistelmiä näitä kahta muuttujaa, mittasimme tarkkuutta luokitusehdotuksen mallia käyttäen
k
kertainen rajat validointi vaihtelemalla näitä kahta muuttujaa. Muutimme
kynnys
g
arvoa 0,15-0,6 välein 0,05 ja
kynnys
s
arvoa 0,72-0,9 välein 0,02. Kaiken kaikkiaan suoritimme 100 eri kokeita vaihdellen näiden kahden kynnysarvot ja mittaamalla tarkkuutta kunkin kokeen keskiarvo
k
tarkkuudet syntyvän
k
kertainen rajat validointi. Kuva S2 File S1 kuvaa työnkulun arvioinnin menetelmämme. Mitata tarkkuus puoliksi valvottu opetusmenetelmänä, voimme vain käyttää leimattuja näytteitä ja olettaa, että jotkut näytteistä oli merkitsemätön. Käyttämällä näitä kahta ryhmää leimatun ja leimaamattoman näytteitä, rakensimme kaavion ja suorittaa laillistamista.
Voit selvittää luokittelun leimaamatonta näytteitä, haimme heuristista menetelmää, jota kutsutaan luokan Mass normalisointi (CMN) ehdottama [15]. Yleensä päätös sääntö määrittää etiketti 1 solmuun
i
jos laskettu arvo, kun laillistaminen on suurempi kuin 0,5, ja etiketti 0 muuten. Tämä päätös lähestymistapa toimii vain, kun luokat ovat erillään toisistaan. Koska geenien ilmentyminen tietoja ei aina ole sama määrä näytteitä kunkin luokan otimme CMN tunnistaa lopullista luokan etiketti. CMN säätää peruste luokan mukaista etikettiä suhde massan luokkiin.
Koetulokset on saatu vaihtelemalla parametrit esitetään kuviossa 3. Teimme 100 eri kokeissa, vaihtelemalla kahden raja-arvot kukin aineisto. Kutakin koetta varten suoritimme
k
kertainen rajat validointi ja keskimäärin
k
tarkkuuksia. Tämän prosessin oli verrata tarkkuutta luokittelun 100 eri kokeessa. Olemme myös suorittaa samat kokeet, jonka korjattu aineisto, joka oli sama määrä näytteitä sekä uusiutumisen ja ei-toistuminen ryhmät koska eri suhteissa luokan tarroja voi vaikuttaa suorituskykyyn lajittelijan. Meidän menetelmässä käytetään semi-ohjattu oppiminen-pohjainen kuvaaja laillistaminen, johon vaikuttaa geometrinen rakenne kaavion luokitella etiketissä. Jos suhteellinen suhde kahden luokan vaihtelevat huomattavasti, etiketeissä pieni määrä näytteitä ei saa läpi etenevää kuvaaja. Tämä voi vaikuttaa luokitteluun suorituskykyyn. Kaikki valitut syövän aineistot jaettiin alkuperäinen ja säätää näytteen ryhmissä. Jäljempänä tässä artikkelissa kuvaamme suoritetusta kokeesta, jossa nämä kaksi ryhmää. Saimme kaksi optimaaliset raja-arvot maksimaalinen tarkasti jokaisen aineisto, kuten kuvassa 3. Olemme myös löytäneet optimaaliset kynnysarvot kun vaihdat
k
arvon rajat validointi. Kokeelliset tulokset
k
= 5 ja
k
= 20 kerrotaan taulukossa S5 File S1. Koetulokset on esitetty taulukossa 2. osoittavat tehokkuuden nimeämättömän aineiston avulla, myös suorittaa ulos kokeissa vaihtelevan määrän leimaamatonta näytteitä. Koetulos toteen, että tarkkuus on parantunut, jos yhä määrän leimaamatonta näytteitä. Tämä Koetulos esitetään taulukossa S6 File S1.
Suoritimme 100 eri kokeissa vaihdettaessa kaksi kynnysarvoa ja saadut 100 keskimääräinen tarkkuudet kullekin aineisto käyttäen 10-kertainen cross validointi. Löysimme maksimi, minimi, ja keskimääräinen tarkkuudet kullekin aineisto kahdessa tapauksessa. (1) Me suorittaa 10-kertainen syötön validointi yli 100 kertaa, vaihdellen kahden kynnyksen alkuperäisen näytteen, kuten on esitetty taulukossa 1. (2) myös suorittaa 10-kertainen syötön validointi yli 100 kertaa, vaihdellen kahden kynnyksen jälkeen tasapainotus näytteiden lukumäärä on kaksi luokkaa. Me satunnaisesti poistettu näytteistä 27, 73 ja 83 ei-toistuminen ryhmät GSE2990, GSE17536, ja GSE17538, vastaavasti.
Vertailu nykyisten menetelmien
Vertasimme ehdotettu menetelmä on kolme tyypillistä ohjatulla luokituksella algoritmit toteutetaan Weka 3.6.8, nimittäin Support Vector Machine (SVM) [16], Naiivi Bayes [17], ja Random Forest [18]. Lisäksi vertasimme myös menetelmämme kanssa TSVM, joka on puoliksi valvottu oppiminen versio SVM ja toteutettiin SVM-valossa.
Vertasimme tarkkuudet, kuten herkkyydet ja erityispiirteet, ehdotetun menetelmän ja muita menetelmiä käyttäen 10-kertainen cross validointi. Olemme jaettu aineisto kahteen ryhmään, kuten edellä on mainittu, ja toistettiin kokeen 15 kertaa kunkin kolmen syöpätyyppeihin. Laskimme keskiarvot tarkkuus, herkkyys ja spesifisyys kullekin aineisto oikaistun ryhmässä. Herkkyys ja spesifisyys TSVM ei lasketa, koska TSVM SVM-valon edellyttäen tarkkuus, täsmällisyys, ja muistaa. Taulukkoon 3 on koottu näiden testien tulokset. Alkuperäisessä ryhmässä, tarkkuutta menetelmämme oli yleensä parempi kuin vertailumetodeihin. Erityisesti suorituskyky ero ehdotettu menetelmä ja muita algoritmeja säätää ryhmässä oli suurempi kuin alkuperäisessä ryhmässä. Jos osuus luokkanimiin on puolueellinen koulutus aineisto, luokitin voi olla yli asennettu kohti suurempaa etiketti. Osuus luokkanimiin alkuperäisessä ryhmässä oli puolueellinen kohti ei-toistuminen label ”-1”. Siksi herkkyys ja useimpien menetelmissä verrattuna, myös meidän menetelmä, olivat erilaiset. Koska ennustavat molemmat merkinnät on tärkeää ennustaa toistumisen syöpä, korkeampi luokitus herkkyys ja tarkkuus ovat parempia. Oikaistun ryhmässä, meidän menetelmä oli korkeampi herkkyys, spesifisyys ja tarkkuus kuin vertailumenetelmiä. Yleensä me vahvisti, että ehdotettu menetelmä oli suorituskyky parempi kuin muiden menetelmien.
Keskimääräinen tarkkuus kasvoi 24,9% verrattuna neljän nykyisen menetelmiä. Esimerkiksi, kuten on esitetty taulukossa 3, tarkkuus ehdotettu menetelmä oli 0,725 ja tarkkuutta TSVM oli 0,543 ja rintasyövän aineisto säätämättä luokan etiketti suhde, noin 33% parannus. Keskimääräinen parannus suhde kaikkien aineistojen oli 24,9%. Viisi kuudesta kokeellisen aineistot sisälsivät oikaistun otokseen ryhmiä, ja tarkkuuden ehdotetun menetelmän oli korkeampi kuin nykyiset menetelmät. Keskimääräinen tarkkuuden ero ehdotetun menetelmän ja sen kilpailijoiden oli 0,139. Olemme myös saaneet AUC-arvot kullekin kokeellinen aineisto. Kuten kuviossa 4 on esitetty, ehdotettu menetelmä osoitti erityisen suurempi AUC-arvo rintasyövän aineisto ja korkeampi AUC-arvo verrattuna muihin olemassa oleviin menetelmiin neljä kuudesta kokeellisen aineistot.
verrattuna AUC-arvot ehdotettu menetelmä ja muut ohjattu oppiminen algoritmeja.
lisäksi teimme itsenäinen testi, jossa käytimme helpotus-F valita informatiivinen geenien sijaan PPI. Olemme myös suorittaa tilastollisen analyysin merkitsevää eroa tarkkuuden vertailun keskuudessa menetelmiä. Yksityiskohtaiset kokeelliset tulokset on kuvattu tukevat tiedot taulukon S1, taulukko S3, ja taulukko S4 File S1.
Keskustelu
Suorituskyky luokittelun menetelmä vaikuttaa osuutta koulutus data kussakin luokassa. Laskennallinen osuus Ehdotetun menetelmän määrittäminen johdonmukainen tarkkuuden eroja luokassa suhteessa. Tämä on edullista, koska näytteiden lukumäärä kunkin luokan ei voi säätää aikana riippumattoman testauksen. Lisäksi vaikka luokittelu perustuu osittain ohjattu oppiminen on sovellettu mikrosirun aineistoja, tulokset Ehdotettu menetelmä osoittaa, että lähestymistapa perustuu ”tasaisuus oletus” riitti kliinisissä sovelluksissa.
vähentämiseksi ulottuvuutta microarray data, valitsimme geeni, joissa on voimakas biologisen vuorovaikutuksen. Siksi otospohjaisen kuvaaja regularization rakennettiin perustuu biologiseen tietoon. Valitut geeniperimä voidaan nimitystä toistuminen-geenistä verkkoon. Meidän analyysi osoitti, että tämä geeni verkko oli biologisesti merkityksellisiä osalta syövän uusiutumiseen. Analysoida syöpää uusiutuminen-geenistä verkkoon, rikastuttanut informatiivinen geeniperimä peräisin optimaalinen parametrijoukon käyttäen Gene ontologia (GO) tietokanta ja Bingo [19]. Useiden rikastettu GO termejä, keskityimme jotka liittyvät syövän uusiutumiseen. Joukossa useita toistumisen liittyviä termejä, keskityimme GO termejä liittyvistä ”leviämisen” ja analysoi Saharan geeni verkkojen niille GO termejä, viitaten kirjallisuudessa. Paremmin analysoida yksityiskohtia sub verkkoihin liittyvät joukkotuhoaseiden leviämisen kussakin syövän, me havainnollisti verkkojen avulla Cytoscape [20], kuten kuvassa 5, kuva S3 File S1, ja kuva S4 File S1.
oranssinväristä solmut ovat onkogeenien.
ehdotettu menetelmä tunnistaa sub-geeni verkko koostuu BRCA1, CCND1, STAT1 ja CCNB1, kuvassa 4, jossa ensisijainen onkogeeni BRCA1 kytkettiin toisen onkogeeni CCND1 ja kaksi napa jäsennelty geenejä, CCNB1 ja STAT1. Oletimme, että nämä geeni aliverkot liittyivät rintasyöpään toistumisen. CCND1, CCNB1, ja STAT1 geenit naapurimaiden BRCA1 on myös raportoitu olevan tärkeitä rooleja rintasyövän uusiutumisen. CCND1 on ensisijainen geenin säätelyyn solusyklin etenemistä, ja Shu
et al
. raportoitu yhdistyksen rintasyövän riskin ja eloonjääminen perustuu CCND1 polymorfismien [21]. CCNB1 oncotype DX-geeni oli raportoitu, että STAT1 oli merkittävästi liittyvät aktivointi IFN-γ ja sen tuumorin vastaista vaikutusta [22], [23]. Jos STAT1 riippuvainen MHC-proteiinien on parannettu, kasvaimen proliferaatiota ja eloonjäämistä estyy aktivointi IFN-γ. Desmedt
et al
. päätteli, että aktivointi STAT1 tärkeä rooli kuoleman kasvainsolujen ja aktivointi apoptoottisten geenien [23].
Johtopäätökset
Tässä tutkimuksessa ehdotimme uutta semi-ohjattu oppiminen menetelmä perustuu kuvaajan laillistamiseen, jotta voidaan ennustaa syövän uusiutumiseen. Osoitimme myös, että uusiutuminen-geenistä verkkojen peräisin Ehdotettu menetelmä sisältää monia toistumisen liittyviä geenejä. Olemme integroineet PPI datan geenien ilmentyminen tietojen tuottamiseksi informatiivinen geeniperimä ja analysoida biologinen prosessi liittyvät toistumisen.