PLoS ONE: ennustaminen onkogeeninen vuorovaikutukset ja syöpään liittyvien Signaling Networks Perustuu verkkorakenteen
tiivistelmä
Syöpä on yhä tunnustettu systeemibiologiaan sairaus, koska monet tutkijat ovat osoittaneet, että tämä pahanlaatuinen fenotyyppi ilmenee epänormaali proteiini-proteiini, sääntely- ja metabolisia yhteisvaikutuksia aiheuttama samanaikainen rakenteellisia ja sääntelyyn liittyviä muutoksia useiden geenien ja polkuja. Siksi tunnistaminen onkogeenisten vuorovaikutusten ja syöpään liittyvien signalointi verkot on ratkaisevan tärkeää ymmärtää paremmin syöpään. Kuten kokeelliset tekniikat määrityspäivä vuorovaikutusta ja signalointi verkot ovat työvoimavaltaisia ja aikaa vievää, kehittää laskennallinen lähestymistapa, joka tämän tehtävän olisi erittäin arvokasta. Tätä varten esitämme tässä uudenlainen laskennallinen lähestymistapa perustuu verkkotopologian ja koneoppimisen pystyy ennustamaan onkogeeniset vuorovaikutusta ja poimia tärkeät syöpään liittyvien signalointi aliverkkoihin alkaen integroitu verkko Ihmisgeenejä vuorovaikutusten (
INHGI
). Tämä lähestymistapa, jota kutsutaan
graph2sig
, on kaksitahoinen: ensinnäkin se antaa onkogeenisiä tulokset kaikille vuorovaikutukset
INHGI
ja sitten nämä onkogeenisten tulokset käytetään reuna painot poimia onkogeenisen signalointi aliverkkoihin alkaen
INHGI
. Mitä ennustaminen onkogeenisten vuorovaikutusten, osoitimme, että
graph2sig
on voitava saada takaisin 89% tunnetuista onkogeenisten vuorovaikutus tarkkuudella 77%. Lisäksi vuorovaikutusta, joka sai hyvät onkogeeniset tulokset ovat rikastuneet geenit, jotka mutaatioita on kausaalisesti osallisena syövän. Olemme myös osoittaneet, että
graph2sig
on mahdollisesti käyttökelpoisia talteen kasvaimia synnyttävän signalointi aliverkkoihin: yli 80% rakennettu aliverkoiksi sisältävät yli 50% alkuperäisestä vuorovaikutukset niiden vastaavien kasvaimia synnyttävän lineaarinen polkuja läsnä Kegg PATHWAY tietokantaan. Lisäksi mahdolliset onkogeeniset signaloinnin aliverkot löydettiin
graph2sig
tukee kokeellista näyttöä. Yhdessä nämä tulokset viittaavat siihen, että
graph2sig
voi olla hyödyllinen väline tutkijat mukana syöpätutkimukseen kiinnostuneita havaitsemaan signalointi verkkojen altteimmat myötävaikuttaa syntymistä pahanlaatuisen fenotyypin.
Citation: Acencio ML, Bovolenta LA, Camilo E, Lemke N (2013) ennustaminen onkogeeninen vuorovaikutukset ja syöpään liittyvien Signaling Networks Perustuu verkkoon. PLoS ONE 8 (10): e77521. doi: 10,1371 /journal.pone.0077521
Editor: Julio Vera, University of Erlangen-Nürnberg, Saksa
vastaanotettu: 01 huhtikuu 2013; Hyväksytty: 03 syyskuu 2013; Julkaistu: 25 lokakuu 2013
Copyright: © 2013 Acencio et al. Tämä on avoin pääsy artikkeli jaettu ehdoilla Creative Commons Nimeä lisenssi, joka sallii rajoittamattoman käytön, jakelun ja lisääntymiselle millä tahansa välineellä edellyttäen, että alkuperäinen kirjoittaja ja lähde hyvitetään.
Rahoitus: Tämä työ on tukenut avustuksin # 2010 /20684-3, # 2012 /13450-1, # 2012 /00741-8 ja # 2013 /02018-4 päässä São Paulo Research Foundation. Rahoittajat ollut mitään roolia tutkimuksen suunnittelu, tiedonkeruu ja analyysi, päätös julkaista tai valmistamista käsikirjoituksen.
Kilpailevat edut: Kirjoittajat ovat ilmoittaneet, etteivät ole kilpailevia intressejä ole.
Johdanto
syöpä fenotyyppi ohjaa samanaikainen ilmentyminen kuusi biologisia ominaisuuksia: omavaraisuutta kasvun signaaleja, sieto kasvua estävät signaaleja, välttäminen apoptoosin, jatkuva angiogeneesi, rajattomat replikatiivisia potentiaalia ja kudosten ja metastaasit [1] . Kaikki nämä ”tunnusmerkkejä syöpä” syntyä seurauksena monimutkainen vuorovaikutus keskuudessa onkogeenisiä signaaleja, jotka ovat sarjaa peräkkäisiä fyysistä ja biokemiallisia reaktioita, kuten fosforylaatio, defosforylaatio, sitovia, dissosiaatio jne., Jotka käynnistyvät onkogeenien tai kasvaimen synnyssä ja huipentuu ilmaisussa perus- solun fysiologian muutokset liittyvät pahanlaatuiseen fenotyyppiin.
yleensä onkogeenisiä signaaleja häiritä normaalia vuorovaikutusta, niin kauan kuin nämä signaalit etenevät signalointiverkon. Esimerkiksi yli-ilmentyminen
CCND1
, geeni, joka on tärkeä säätelijä solusyklin etenemistä, on seurausta konstitutiivisen onkogeenisten signalointi laukaisee mutatoitunut KRAS monia syöpäsoluja [2]. Vuorovaikutukset loppupään KRAS ja ylävirtaan CCND1 on häiriintynyt ja tämän seurauksena,
CCND1
yliekspressoidaan. Kuitenkin yli-ilmentyminen CCND1 yksin riitä ajaa onkogeenisen muutoksen kautta omavaraisuuden kasvua signaalit tukevat mutatoitunut KRAS. Sen sijaan, lisäksi onkogeenisiä signaaleja muuttamalla ydin- kaupan ja ubikitiinipromoottori-välitteisen proteolyysin tarvitaan edistämään ydinvoiman säilyttäminen yli-ilmennetty CCND1 [3], edellyttäen, josta jatkuvan leviämisen solusta, yksi niistä ominaisuuksista, tarvitaan koko pahanlaatuisiksi, voi olla yllä.
edellä mainittu esimerkki vahvistaa sen, että normaali solu muuntuu syöpäsolun vain, jos on useita normaalin vuorovaikutukset ovat samanaikaisesti häiritsee useiden onkogeeninen signaaleja. Tässä suhteessa määrittämiseksi onkogeenisiä rooli yksittäisten geenien tai proteiinien on riittämätön tulkita koukerot signalointireittien osallisina syövän. Määritys onkogeenisiä rooli geenien ja proteiinien järjestelmien tasolla, toisaalta, olisi parempi tätä tarkoitusta varten, ja kuten itse asiassa, systeemibiologian lähestymistapoja on vakuuttavasti osoitettu olevan onnistunut paljastamaan toimintaan syöpä signalointipolkujen (katsauksia syövän systeemibiologian, katso [4] ja [5]).
yhdistelmä koneoppimisen ja graafiteoria on yksi systeemibiologian lähestymistapoja käytetään määrittämään ja ennustaa, miten fenotyypit ilmenevät vuorovaikutus biologisten kohteiden. Olemme aikaisemmin käyttäneet tätä lähestymistapaa ennakoida olennaisia geenien genomin laajuisesti ja määrittämiseksi solussa säännöt olennaisuuden koskevat
Escherichia coli
[6] ja
Saccharomyces cerevisiae
[7]. Lisäksi olemme myös käyttäneet yhdistelmä koneoppimisen ja graafiteoria ennustaa patologisten druggable geenejä ja määrittää säännöt sairastuvuutta ja druggability ihmisen [8]. Sen lisäksi saavuttaa onnistunut ennustaminen hinnat, olemme myös saaneet biologisesti uskottavaa solu- sääntöjen näissä tapauksissa. Nämä havainnot sai meidät tutkimaan, onko yhdistelmä koneoppimisen ja graafiteoria olisi myös hyödyllistä paljastaa on järjestelmätason miten syöpä signalointireiteissä toimia yhdessä tuottaa pahanlaatuiseen fenotyyppiin.
Tätä varten me läsnä tässä paperissa uusi laskentamenetelmä perustuu koneoppimisen ja graafiteoria,
graph2sig
, joka määrittää (1) kasvaimia synnyttävän potentiaalin vuorovaikutuksen, eli sen kyky välittää onkogeenisen signaaleja integroitu verkko ihmisten geeni vuorovaikutukset (INHGI) ja (2) poimii INHGI potentiaalista syöpään liittyvien signalointi aliverkkoihin annetaan kaksi kiinnostuksen kohteena olevia geenejä käyttämällä onkogeenisiä tulokselle asetettujen vuorovaikutusta. Käyttämällä
graph2sig
, pystyimme luotettavasti ennustaa onkogeenisiä vuorovaikutusten sekä poimittava
INHGI
aliverkot sisältävät tunnettuja ja potentiaalisia onkogeenisten reitit tukevat kokeellista näyttöä. Parhaan tietomme mukaan tämä on ensimmäinen kerta, että yhdistelmä koneoppimisen ja graafiteoria käytetään ennustamaan sekä kasvaimia synnyttävän potentiaalin yhteisvaikutuksia ja mahdollisia syöpään liittyvien signalointi aliverkkoja.
Materiaalit ja menetelmät
tavoitteet
graph2sig
on kaksijakoinen: ennustaminen kasvaimia synnyttävän potentiaalin yhteisvaikutuksia (kuvio 1) ja uuttamalla mahdollisten onkogeenisten signaloinnin aliverkkoihin päässä
INHGI
(kuva 2). Ensimmäinen vaihe
graph2sig
on rakentaminen
INHGI
ja laskenta verkon centralities geenien
INHGI
(taulukko 1). Toinen vaihe koskee käyttää näitä lasketaan verkon centralities koulutusta harjoittelua varten koneoppimisen algoritmeja (tai oppijat) tuottaa ennustemalleja osoittamiseksi onkogeeninen vuorovaikutuksista. Kolmas vaihe on näille ”onkogeenisiä” () jokaiseen vuorovaikutukseen näiden ennustemallit (kuva 1).
Kun rakennuksen
INHGI
ja laskemalla verkon centralities, tasapainoinen koulutus ryhmiä rakennetaan ja esitetään valitun koneoppimisen algoritmia (säkkeihin J48), joka puolestaan luo ennustemallit kuten kuvataan (A). Nämä ennustemallit yhdistetään yhteen lopullisessa ennustemallissa äänestyksessä algoritmilla. Tämä lopullinen mallia käytetään osoittamaan onkogeenisen pistemääriä vuorovaikutusta
INHGI
peräisin
wINHGI
kuvan (B).
(A) Hakemus on
REA
wINHGI
luo luettelon polkuja sekä niiden kustannukset kunkin parin geenien ja nämä kustannukset muunnetaan painot ja normalisoitu siten, että pienin paino on nolla ja maksimi paino on 1 (B) Kaksikymmentä aliverkkoihin syntyy tästä luettelosta polkujen ja aliverkon jolla on korkein keskimääräinen klusterointi kerroin valitaan. (C) Kunkin parin geenien, 41 aliverkot syntyy, ja näistä aliverkkoihin, se, jolla on korkein keskimääräinen klusterointi kerroin valitaan lopullinen potentiaali syöpään liittyvien aliverkkoon.
neljäs vaihe on löytää polkuja kahden kiinnostuksen kohteena olevia geenejä, ja
INHGI
kanssa korkeimmat arvot käyttämällä rekursiivista luettelointi algoritmi (
REA
) [9], polku löytää algoritmi, joka listaa polut mukaisessa järjestyksessä painonsa (tässä tapauksessa). Viimeinen vaihe on valinta ja yhdistäminen polkuja saapuvat
REA
rakentamiseen mahdollisten syöpään liittyvien signalointi aliverkon sisältävät eniten kasvaimia synnyttävän väyliä yhdistää ja (kuva 2). Nämä vaiheet toteutettiin vuonna bash skriptin saatavilla https://www.lbbc.ibb.unesp.br/graph2sig.
Ensimmäinen vaihe:
INHGI
rakentaminen ja laskentaa verkon centralities
INHGI
rakentamiseen.
INHGI
, joka sisältää vain kokeellisesti todistettu vuorovaikutukset, rakennettiin perustuu oletukseen, että kaksi geeniä, ja, koodaus vastaavasti proteiineja ja, ovat vuorovaikutuksessa geenien jos
(i) B ja vuorovaikutuksessa fyysisesti (proteiini fyysinen vuorovaikutus),
(ii) B-transkriptiotekijän suoraan säätelee transkriptiota geenin, eli sitoutuu promoottorialueelle ja (transkription säätelyyn vuorovaikutus), tai
(iii)
entsyymejä ja jakaa metaboliittien, eli tuote, joka on luotu katalysoi entsyymiä käytetään reagenssina, jota katalysoi entsyymi tai entsyymi tuottaa aineenvaihduntatuote, joka on yhteydessä ei-entsymaattinen (metabolinen vuorovaikutus). Kokeellisesti todentaa ihmisten välisestä vuorovaikutuksesta saatiin eri lähteistä mukaan tapahtuvaa vuorovaikutusta kuten alla on kuvattu.
Proteiini-proteiini fyysinen vuorovaikutusten tulokset saatiin versio 1.3 Human Integrated proteiini-proteiini-vuorovaikutuksen Reference (HIPPIE), tietokannan omistettu kokoelma kokeellisesti todistettu ja teki ihmisen proteiini-proteiini vuorovaikutusten integroitu useista lähteistä [10]. Me kerätty HIPPIE ainoastaan vuorovaikutuksia havaita Koetekniikat jotka saivat tulokset 5 tai enemmän, eli tekniikoita, joita pitävät HIPPIE asiantuntija kuraattorit kuin ne, joilla on korkea luotettavuus ja pieni virheprosentti [10]. Proteiini-proteiini vuorovaikutusten peräisin HIPPIE (ja kaikkien muiden vastaavien tietokantojen tosiasiassa) katsotaan undirected vuorovaikutusta, koska tällainen vuorovaikutus on tarkoitus olla suuntaamaton. Koska louhinta mahdollisten onkogeenisten signalointi aliverkkoihin iältään
INHGI
riippuu luotavan vuorovaikutusten eli suunta signaalivuo proteiinien, ja vuorovaikutukset jos meidän lähteen koulutus tietojen Kegg PATHWAY [11], ohjataan (katso tarkemmin osiossa ”rakentaminen koulutus aineistojen”), kukin proteiini-proteiini vuorovaikutus – muuttui kahdessa eri suunnatulla yhteisvaikutuksia: ja.
Human transkription säätelyyn vuorovaikutukset saatiin nykyisen version Human Transkription asetuksen Interaction tietokanta (HTRIdb; [12]). Luoneet ryhmä, HTRIdb on kokoelma kokeellisesti todistettu vuorovaikutukset ihmisen transkriptiotekijöitä ja niiden kohdegeenien havaita 14 erillistä Koetekniikat käsittää sekä pienen ja suuren mittakaavan tekniikoita. Me kerätään HTRIdb kaikista transkriptiotekijöiden /kohdegeenien vuorovaikutusta.
metabolisia poimittiin ihmisen aineenvaihdunnan malli Recon 1 [13] koodilla toteutetaan Mathematica
® 7.0 (Wolfram Research, Inc.) . Olemme ulkopuolelle näiden metabolisia yhteisvaikutuksia syntyy niin sanottu ”valuutan aineenvaihduntatuotteita”, runsaasti molekyyli- lajit koko solun suurimman osan aikaa, ja näin ollen epätodennäköistä, asettaa mitään rajoituksia dynamiikkaa aineenvaihduntareaktioiden [14]. Mietimme valuutta metaboliittien kahdeksan eniten liitetty aineenvaihduntatuotteiden (ADP, ATP, H, HO, NADP, NADPH, ortofosfaatti ja pyrofosfaatti) alkuperäisessä aineenvaihdunnan malli Recon 1. Lisäksi olemme lisätään joukko metabolisia yhteisvaikutuksia joitakin tärkeitä vuorovaikutuksia, jotka ovat puuttuu Recon 1: PIK3CA PDPK1, PIK3CA ILK, PIK3CA AKT3, PIK3CA AKT2, PIK3CA AKT1, PIK3CB PDPK1, PIK3CB ILK, PIK3CB AKT3, PIK3CB AKT2, PIK3CB AKT1, PIK3CD PDPK1, PIK3CD ILK, PIK3CD AKT3, PIK3CD AKT2, PIK3CD AKT1 ja PTEN AKT1.
Viimeinen
INHGI
on ohjannut muodostama verkosto integrointi proteiinin fyysisen, aineenvaihdunnan ja kopioinnin säätely vuorovaikutusten kautta geenien yhteistä näille tietokokonaisuuksia (ks Dataset S1). Ennen kuin integraatio muunsimme kaikki ihmisen geeni nimet heidän GeneID – kuten antamat Entrez Gene tietokannan [15] – jotta vältettäisiin väärien vuorovaikutusten vuoksi geenin nimi epäselvyyttä.
laskeminen verkon centralities.
kunkin geenin
INHGI
, me lasketaan 4 verkon keskeisyyden toimenpiteitä lueteltu taulukossa 1. Lyhyesti, aste keskeisyys () määritellään linkkien määrä solmuun (meidän tapauksessamme, geeni). Klusterointi kerroin () solmun (meidän tapauksessamme, geenin) kvantifioi kuinka lähellä solmu ja sen naapurit ovat olemaan klikki, so kaikki solmut kytketty kaikkiin solmuihin. Sillä
INHGI
, määritellään osuus yhteyksiä geenien sisällä naapurustossa jaettuna linkkien määrä, jotka voivat niiden välillä. Betweenness keskeisyys () kuvastaa roolia solmun (meidän tapauksessamme, geenin) maailmanlaajuisen verkon arkkitehtuuri ja, että
INHGI
, määritellään osa lyhimpiä polkuja välillä ja kulkee. Läheisyys keskeisyys () mittaa sitä, miten lähelle solmun (meidän tapauksessamme, geeni) on kaikille muille verkossa ja, että
INHGI
, määritellään keskimääräinen lyhin tie välillä ja kaikkien muiden geenien tavoitettavissa se. Kaikki nämä verkko keskeisyyden toimenpiteet laskettiin Python paketti
NetworkX
1.6 [16].
Toinen vaihe: sukupolvi ennustemallit
rakentaminen koulutus aineistoja.
rakennettu kaksi ryhmää tasapainoinen koulutuksen aineistoja, eli aineistot sisältävät saman määrän positiivisia (tässä tapauksessa, joka tunnetaan onkogeeninen vuorovaikutukset) ja negatiivinen (meidän tapauksessamme, ei-onkogeenisiä vuorovaikutukset) esimerkkejä: ”normaali aineistot” ja ” sekoitettujen aineistot ”. Nämä koulutus tiedot ovat saatavilla https://www.lbbc.ibb.unesp.br/graph2sig.
rakennettaessa koulutus aineistoja, ensin kokosi listan kasvaimia synnyttävän vuorovaikutusten – vuorovaikutusten tiedetään välittää onkogeenisia signaaleja – alkaen syöpä reitin karttoja, jonka Kegg pATHWAY tietokannan [11] ja sitten kartoitettu ne INHGI. Lopullinen lista onkogeenisten vuorovaikutusten käyttää positiivisina esimerkkeinä kouluttaa koneoppimisen algoritmia koostuu 265 onkogeeninen vuorovaikutusten läsnä INHGI (ks Dataset S1). Mitä tulee negatiivinen esimerkeistä pitää ”ei-onkogeenisiä vuorovaikutukset” jäljellä vuorovaikutus läsnä INHGI, koska tällä hetkellä ei ole mahdollista rakentaa lista vuorovaikutusta ei tiedetä lähettää onkogeenisia signaaleja. Me satunnaisesti valittu 1000 erilaista 265 näiden ei-onkogeenisiä vuorovaikutusta ja yhdistää ne luetteloon 265 tunnettujen onkogeenisten yhteisvaikutuksia rakentaa 1000 erilaista koulutusta aineistoja sisältävä 530 vuorovaikutusta kukin. Nämä ovat ”normaali aineistot”. Näistä normaali aineistoja, luomme 10000 erilaista ”sekoitetaan aineistoja” satunnaisesti laahustavat luokkanimiin (onkogeeninen ja ei-onkogeenisiä) keskuudessa vuorovaikutusta (kuva 1).
rakentaminen ennustemallit.
käytimme versio 3.7.5 on WEKA (Waikaton Environment for Knowledge Analysis) ohjelmistopaketti, kokoelma koneoppimisen algoritmeja tiedon louhintaan tehtäviin [17], tuottaa ennustemallit. Käytimme harjoitusdatasta kuvattu edellisessä jaksossa kouluttaa bootstrap yhdistämällä (pussitus), koneen oppiminen ensemble meta-algoritmi, joka yhdistää useita pohja oppilaiden [18]. Meidän tapauksessamme me valitaan pohja oppija J48 algoritmiin, WEKA n täytäntöönpano C4.5 Päätöksentekokaaviota [19], jossa oletusparametrit.
Yleensä sukupolven ennustemallit pakkaamalla johdetaan seuraavasti: (1) bootstrap jäljittelee koulutuksen aineisto luodaan; (2) kukin toisinto esitetään alustaan oppija että kuin rakentaa ennustemallit; ja (3) nämä ennustemallit lopulta yhdistetään yhteen malliin. Meidän tapauksessamme, säkitys oli konfiguroitu tuottamaan 20 bootstrap rinnakkaisnäytettä kustakin koulutuksen aineisto ja nämä rinnakkaista sitten esiteltiin J48 että puolestaan syntyy 20 ennustemallit kullekin koulutusta aineisto. Nämä mallit lopulta yhdistetään yhteen malli jokaiselle koulutukseen aineisto yhteensä 1000 yhdistetty ”normaali” malleja (syntyy normaalista aineistot) ja 10000 yhdistetty ”sekoitetaan” malleja (syntyvät sekoitetaan aineistot).
Suorituskyky rakennettua ennustemallit.
arvioitiin suorituskyky meidän ennustemallit arvioimalla niiden muistaa, tarkkuus ja ala vastaanottava toimivat (ROC) (AUC). Recall on osuus todellinen onkogeenisten vuorovaikutuksia, jotka ovat ennusti oikein sellaisenaan kaikkia todellinen syöpään liittyvien vuorovaikutusten:
TP (tosi positiivinen) tarkoittaa määrää todellisen syöpään liittyvien vuorovaikutusten ennusti oikein sellaisenaan ja FN (epätosi negatiivinen) tarkoittaa määrää todellisen syöpään liittyvien vuorovaikutusten virheellisesti ennustaa ei tiedetään liittyvän syöpään, vastaavasti.
Precision on osuus todellinen syöpään liittyviä yhteisvaikutuksia, jotka ennusti oikein sellaisenaan kaikkia vuorovaikutuksia ennusti kuten syöpään liittyvät:
FP tarkoittaa määrää vuorovaikutusten todellisuudessa ei tiedetä liittyvän syöpään virheellisesti ennustaa syöpään liittyvien vuorovaikutusten, vastaavasti.
AUC on yhteenveto mitta ROC käyrä – tontti tosi positiivisia vs. vääriä positiivisia, joka osoittaa todennäköisyys oikeita positiivisia ennustus funktiona todennäköisyys väärän positiivisen ennusteen kaikille mahdollisille kynnysarvojen [20] – ja vastaa todennäköisyyttä, että satunnaisesti valittua kielteinen esimerkki (meidän tapauksessamme, ei-onkogeenisiä vuorovaikutus) on pienempi arvioitu todennäköisyys kuuluvan positiivisen luokkaan kuin satunnaisesti valittu myönteinen esimerkki (meidän tapauksessa onkogeenisen vuorovaikutus) [21].
käyttäen WEKA, arvioimme edellä mainittuja mittareita suorittamalla 10-kertainen ristivalidointi testata 1000 yhdistetyn normaalin ja 10000 yhdistetty sekoitetaan ennustemallit. 10-kertainen ristivalidointi toimii seuraavasti: kukin aineisto on satunnaisesti jaettu 10 subsets. Niistä 10 osajoukkoja, yksi osajoukko säilyy sillä validointitiedot testaamiseksi malli, ja loput 9 osajoukot käytetään koulutukseen tietoja. Rajat validointi jälkeen prosessi toistetaan 10 kertaa, kuhunkin 10 osajoukkojen käytetään täsmälleen kerran kuin validointitiedot. 10 tulokset laskokset sitten keskiarvo, jolloin saadaan yksittäinen arvio kunkin Tunnusluku kunkin ennustemallin. Meidän tapauksessamme, kukin Tunnusluku kunkin ennustemallin on keskimäärin 200 tulosta, koska jokainen malli on yhdistelmä 20 muita malleja. Lopuksi, raportoimme mittariston arvioima 10-kertaiseksi ristivalidointi kuin mediaanit 1000 yhdistetyn normaalin ja 10000 yhdistetty sekoitetaan ennustemallit.
tilastollisessa vertailussa suorituskyvyn toimenpiteiden arvioidut meidän ennustemallit tuottamat normaali ja sekoitettujen aineistoja suoritettiin Mann-Whitney-U-testi [22]. Vakiintuneen yleissopimukset koneoppimisen yhteisö, käytimme tätä testiä, koska siinä ei oletuksia taustalla jakelusta suorituskyvyn mittaaminen avulla arvioidaan ennustemalleja [23]. Erot suorituskyvyn mittaaminen arvioidun meidän ennustemallit syntyy normaalia ja sekoitetaan aineistoja, joiden p-arvo 0.005 katsottiin tilastollisesti merkitsevä.
Kolmas vaihe: ennustaminen mahdollisten onkogeenisten yhteisvaikutuksia
koottuna 1000 Yhdistetyt normaali ennustemallit rakennettu edellisessä vaiheessa yhteen malliin (saatavilla https://www.lbbc.ibb.unesp.br/graph2sig) käyttämällä ”Äänestä”, joka on WEKA täytäntöönpano äänestyksen meta-algoritmi, joka yhdistää ulostulo ennusteet kunkin ennustemallin eri säännöillä [24]. Sitten soveltanut tätä single ennustemalli, joka sisältää 20000 malleja seurauksena yhdistelmän 1000 yhdistetyn malleja, jotka puolestaan sisältää 20 malleja kunkin, määrittää arvot eli mahdollisuudet välittää onkogeeniset signaaleja, koko joukko vuorovaikutusta INHGI arvoihin. Lopullinen arvo on keskimäärin 20000 arvojen erikseen määrittämä kunkin mallin yhtenäisessä ennustemalli.
Neljäs vaihe: suorituksen rekursiivinen luettelointi algoritmi (
REA
) B
löytää polkuja korkeimmat arvot kahden geenien ja
INHGI
,
graph2sig
käyttötarkoituksia
REA
[9]. Tämä algoritmi luetellaan polkujen välillä alku ja loppu solmu päinvastaisessa järjestyksessä niiden kustannusten, jotta reitin pienin on sijoittunut ykköseksi polkuja. Ennen kuin se täyttää
REA
, arvot
INHGI
muunnetaan kustannukset (), koska
REA
pitää painot reunojen kustannuksina. Näin polku kanssa maksimi, jossa on kokonaismäärä vuorovaikutukset polun, vastaa reitin pienin
REA
.
REA
lisäksi valitsemalla Käynnistä solmun – meidän tapauksessamme geeni, joka laukaisee onkogeenisel- signaali – ja loppu solmu – meidän tapauksessamme kiinnostavan geenin, joka vastaanottaa onkogeenisel- signaali laukaisee start geeni – on myös mahdollista määritellä jopa maksimiarvo ennalta määritetty kunkin koko verkon. Sillä
INHGI
, esimerkiksi
REA
avulla määritellä enintään polkuja. Kunkin parin -,
graph2sig
kulkee
REA
kanssa 41 eri arvoilla: 100-1000 askelin 100 polkuja, 2000-10000 askelin 1000 polkuja, 20000-100000 lisäyksin 10000 polkuja, 200000-1000 tuhatta askelin 100000 polkuja ja 1500000-3000000 askelin 500000 polkuja.
From 41 ryhmien polut palauttama
REA
, 41 potentiaali syöpään liittyvien signalointi aliverkkoihin rakennetaan kullekin – parin, kuten on esitetty seuraavassa osassa.
lopullinen vaihe: uuttamalla mahdollisten syöpään liittyvien signalointi aliverkkoihin
tässä viimeisessä vaiheessa
graph2sig
, mistä kunkin ryhmän polkuja palautetaan
REA
(esim ryhmä 1000 polkuja tai 100000 polkuja) kunkin – pari, mahdolliset syöpään liittyvien signalointi aliverkko on rakennettu seuraavasti:
kunkin polku, muunnetaan painon, kun;
arvot normalisoidaan siten, että sekä seuraavaa: (1), jossa on normalisoitu etäisyydelle ja on laskennallinen paino (1) ja polku;
Kaksikymmentä aliverkkoihin on rakennettu siten, että kukin aliverkko käsittää joukolla polkuja, joissa on välillä 0 0,95 välein 0,05 (kuva 2);
aliverkko jolla on korkein keskimääräinen klusterointi kerroin kaikille 20 aliverkot valitaan mahdolliset syöpään liittyvien signalointi aliverkko (kuva 2).
tällä tasolla
graph2sig
sisältää kokoelman 41 mahdollisten syöpään liittyvien signalointi aliverkkoihin jokaisen – pair . Lopullisena potentiaali syöpään liittyvien signalointi aliverkossa jokaiselle – pari on aliverkon kanssa korkein keskimääräinen ryhmittely kerroin joukossa 41 aliverkkoihin (kuva 2).
Tulokset ja keskustelu
INHGI
: yleispiirteet
rakentaminen
INHGI
on olennainen
graph2sig
koska hyödyntäminen verkoston keskeisyyden toimenpiteitä geenien koulutusta ominaisuuksia koneoppimisen ehdotettu lähestymistapa tässä on ydin koko prosessin. Lisäksi uuttamalla signalointi aliverkon järkevää vain verkossa yhteydessä. Näin ollen on tärkeää olla tietoinen joitakin yleisiä piirteitä
INHGI
koska nämä ominaisuudet voivat olla hyödyllisiä resursseja analysointiin ja tulosten tulkintaa.
INHGI
on suunnattu verkko sisällytetä 19789 geenejä ja 318332 vuorovaikutusta. Näistä 19789 geenit, 13932 vuorovaikutuksessa toisiinsa 242716 proteiini fyysisiä vuorovaikutuksia (katsotaan tässä ohjeiden vuorovaikutusta; katso yksityiskohdat ”Methods”), 1166 kautta 24299 metabolisia yhteisvaikutuksia ja 18310 kautta 51317 transkription säätelyyn vuorovaikutusta. Lisäksi 896 geenejä vuorovaikutuksessa toisiinsa proteiinin fysikaaliset ja metabolisia yhteisvaikutuksia, 12508 kautta proteiini fyysinen ja transkription säätelyyn vuorovaikutusta ja 1042 kautta aineenvaihdunnan ja transkription säätelyyn yhteisvaikutuksia (ks Dataset S1).
INHGI
on varmasti kaukana täydellisestä, jos ajatellaan esimerkiksi arvioissa lasketaan Stumpf ja työtovereiden [25]: ne ovat arvioineet, että koko ihmisen verkoston proteiini-proteiini vuorovaikutusten on noin 650000 vuorovaikutusta. Näin ollen,
INHGI
sisältää 19% kokonaismäärästä arvioitu ihmisen proteiini-proteiini-vuorovaikutusten 121358 suuntaamaton proteiini-proteiini-vuorovaikutukset ovat läsnä tässä verkossa. Lisäksi
INHGI
sisältää noin 46%: n jo tunnistettu 43059 ihmisen geenejä (mukaan EntrezGene tietokantaan [15] näytetty 10. syyskuuta, 2012). Loput 23211 geenit puuttuvat
INHGI
ovat transkriptionaalisesti säätelevät vähintään yhden transkriptiotekijän ymmärtää, että tulevaisuudessa,
INHGI
korotetaan lisäämällä vähintään 23211 transkription säätelyyn vuorovaikutusta.
Koska epätäydellisyydestä
INHGI
edellä – itse asiassa huomattava piirre kaikissa verkoissa on rakennettu yksinomaan kokeellisesti validoitu vuorovaikutukset – tulokset on kuvattu seuraavissa kappaleissa ovat voimassa vain nykyinen
INHGI
. Mikä tahansa muutos rakenteessa
INHGI
muuttaa myös verkon keskeistä toimenpiteitä ja sen seurauksena, rakentaminen ennustemallit sekä tehtävän arvojen.
arviointi suorituskykyä ennustemallit
toinen ja kolmas vaiheet
graph2sig
huolta vastaavasti sukupolven ennustemallit ja osoittamiseksi onkogeenisiä tulokset,, jotta vuorovaikutusta
INHGI
. Ennen tehtävän arvojen (kuten kuvattu yksityiskohtaisesti ”Methods”), me pyrkinyt arvioimaan suorituskykyä syntyvän ennustemallit toipumiseen tunnettuja kasvaimia synnyttävän yhteisvaikutuksia ja erottaa ei-onkogeenisiä päässä onkogeenisistä vuorovaikutusta. Tätä varten me arvioi suoritustaan mittaamalla niiden mediaani muistaa, tarkkuus ja AUC poikki 1000 normaalin malleja (katso ”Menetelmät” lisätietoja).
Ennen analysointia suorituskyvyn mittaaminen meidän ennustemallit, arvioimme suorituskykyä mittaamalla, ennustemallit syntyvät sekoitetaan aineistot ja sitten verrataan niitä ennustemallit syntyvät normaalista aineistot. Tämä tehtiin sen tarkastamiseksi, ennustemallit rakennettu kouluttamalla säkkeihin J48 ei-sekoitetaan aineistoja oppinut piirteet todella liittyvät syöpään sijasta piirteitä liittyy satunnaisia osajoukko geenien. Tätä vertailua varten, käytimme Mann-Whitney-U-testi [22] kuvatulla tavalla ”Methods”. Sillä sekoitetaan malleja, muistaa vaihteli 0,22-0,81 kanssa mediaani 0,49, tarkkuus vaihteli 0,39-0,69 joiden mediaani 0,5 ja AUC vaihteli 0,38-0,62 kanssa mediaani 0,49. Kaikki nämä arvot ovat tilastollisesti erilaisia kuin suorituskyvyn mittaaminen normaalin malleja (p-arvo kaikissa toimenpiteissä), mikä osoittaa, että piirteet todella liittyvät syöpään oli oppinut meidän normaali ennustemallit.
Sen jälkeen vahvistuksen siitä, että ennustus mallit syntyvät normaalista aineistoja todennäköisesti oppia piirteet todella liittyvät syöpään, pyrimme analysoimaan niiden suorituskyvyn mittaaminen. Kuten kuviossa 3, kutsuminen ennustemallit vaihteli 0,83-,94 joiden mediaani 0,89 ja niiden tarkkuus vaihteli 0,71-0,83 kanssa mediaani 0,77. Sitten ennustemallit oikein talteen 89% tunnetuista onkogeenisten vuorovaikutus tarkkuudella 77%. Lisäksi todennäköisyys vuorovaikutuksen ennustettu kasvaimia synnyttävän todella kuuluu joukon tunnettuja onkogeenisten vuorovaikutusten vaihteli 84%: sta 93% ja mediaani 89% osoittamalla tavalla mediaani AUC (kuva 3).
Boxplot osoittavat jakelu muistaa, tarkkuus ja AUC-arvot 1000 ennustemallit tuotetaan normaalista aineistot (punaiset laatikot) ja 10000 ennustemallit tuotetaan sekoitetaan aineistot (siniset laatikot). Jakaumia suoritusarvot malleille syntyvät normaalista ja sekoitetaan aineistot ovat tilastollisesti erilainen sen mukaan, Mann-Whitney-U-testiä (p-arvo kaikille toimille).
Vaikka meidän ennustemallit pystyvät palauttaa useimmat tunnetuista onkogeenisten vuorovaikutusten joka käy ilmi niiden korkea muistaa (mediaani 89%), niiden kyky erottaa onkogeenisen ulkopuolisista onkogeenisistä on vähäisempi kuin paljastui niiden kohtalainen tarkkuus (mediaani 77%). Tämä osoittaa tiettyä melutasoa harjoitustietosivut joka todennäköisesti liittyy olemassaolon jaetun yhteisiä piirteitä välillä onkogeeninen ja ei-onkogeenisen vuorovaikutusten aiheuttamaa meidän ennustemallit jotta saadaan kohtalainen suorituskyky erotteleva kasvaimia synnyttävän ei-onkogeenisistä vuorovaikutusta.