PLoS ONE: päättelemällä Tree Syy mallit Cancer Progression todennäköisyydellä Raising
tiivistelmä
Olemassa tekniikoita rekonstruoimaan puu malleja etenemisen akkumuloidulle prosesseissa, kuten syövän, pyrkivät arvioimaan syy yhdistämällä korrelaatio ja frekventistisiin käsite ajallinen prioriteetti. Tässä artikkelissa, me määrittelemme uusi teoreettinen kehys kutsutaan CAPRESE (syövän etenemisessä Uuttamalla Single reunat) rekonstruoida tällaisia malleja perustuu käsitteeseen todennäköisyyksiin syy määritelty Suppes. Pidämme yleinen rekonstruktio asetus monimutkaistaa melun tietojen takia biologinen vaihtelu sekä kokeellista tai mittausvirheitä. Parantaa sietokykyä melulle määrittelemme ja käyttää kutistuminen kaltainen estimaattori. Me todistaa oikeellisuuden algoritmimme näyttämällä asymptoottinen lähentyminen oikean puun miedoissa rajoitteita melutasosta. Lisäksi synteettisiin tiedot, osoitamme, että lähestymistapamme päihittää state-of-the-art, että se on tehokas jopa suhteellisen pieni määrä näytteitä ja että sen suorituskyky nopeasti konvergoi sen asymptootti kun näytteiden määrä lisääntyy. Oikeasti syöpä aineistoja saadaan eri teknologioihin, korostamme biologisesti merkittäviä eroja progressions päätellä suhteessa muihin kilpaileviin tekniikoita ja myös osoittaa, kuinka validoida conjectured biologisia suhteita etenemiseen malleja.
Citation: Loohuis LO, Caravagna G, Graudenzi A, Ramazzotti D, Mauri G, Antoniotti M, et al. (2014) päättelemällä Tree Syy mallit Cancer Progression todennäköisyydellä Raising. PLoS ONE 9 (10): e108358. doi: 10,1371 /journal.pone.0108358
Editor: Lars Kaderali, Technische Universität Dresden, lääketieteellisen tiedekunnan, Saksa
vastaanotettu: 11 huhtikuu 2014; Hyväksytty: 27 elokuu 2014; Julkaistu: 09 lokakuu 2014
Copyright: © 2014 Olde Loohuis et al. Tämä on avoin pääsy artikkeli jaettu ehdoilla Creative Commons Nimeä lisenssi, joka sallii rajoittamattoman käytön, jakelun ja lisääntymiselle millä tahansa välineellä edellyttäen, että alkuperäinen kirjoittaja ja lähde hyvitetään.
Data Saatavuus: Tällä kirjoittajat vahvistavat, että kaikki tiedot taustalla olevat havainnot ovat täysin saatavilla rajoituksetta. Kaikki tiedot sisältyvät paperin.
Rahoitus: Tätä työtä tukivat National Science Foundation myöntää CCF-0836649 ja CCF-0926166 ja Lombardian alueella (Italia) alle tutkimushankkeet RetroNet kautta ASTIL [12 -4-5148000-40]; UA 053 ja nedd Project [ID14546A Rif SAL-7] Fondo Accordi Istituzionali 2009. rahoittajat ollut mitään roolia tutkimuksen suunnittelu, tiedonkeruu ja analyysi, päätös julkaista tai valmistamista käsikirjoituksen.
Kilpailevat edut: kirjoittajat ovat ilmoittaneet, ettei kilpailevia etuja olemassa.
Johdanto
Syöpä on sairaus evoluution. Sen aloittaminen ja eteneminen aiheutuvat dynaamiset somaattisia muutoksia genomin ilmeni pistemutaatioita, rakenteelliset muutokset, DNA: n metylaation ja histonimodifikaation muutokset [1].
Nämä genomiset muutokset syntyvät satunnaisia prosesseja, ja koska yksittäiset kasvain solut kilpailevat tilaa ja resursseja, luonnonvalinta variantit ovat luonnollisesti valittu. Jos esimerkiksi läpi mutaatioiden solu hankkii kyvyn sivuuttaa anti-kasvua signaaleja ruumiista, tämä solu voi menestyä ja jakaa, ja sen jälkeläiset voivat lopulta hallitsevat joitakin osa (t) kasvain. Tämä
kloonilaajenemisen
voidaan pitää
diskreetti tila
syövän etenemisen, merkitty hankinta joukko geneettisiä tapahtumia. Syöpä etenemistä voidaan ajatella sekvenssin näistä erillisin askelin, jossa kasvain hankkii tiettyjä erillisiä ominaisuuksia kussakin tilassa. Eri eteneminen sekvenssit ovat mahdollisia, mutta jotkut ovat yleisempiä kuin toiset, eikä jokainen järjestys on toteuttamiskelpoinen [2].
Viimeisten kahden vuosikymmenen aikana monia erityisiä geenejä ja geneettisiä mekanismeja, jotka osallistuvat eri syöpätyyppien on tunnistettu (katso esimerkiksi [3], [4] yleiskatsaus yhteisiä syövän geenien ja [5], [6] tiettyjä geneettisiä analyysejä munasarja- ja keuhkojen adenokarsinooma, vastaavasti), ja
hoitoja
kohdistaminen aktiivisuus näiden geenien kehitetään nyt nopeaan tahtiin [2]. Mutta valitettavasti
syy ja ajalliset suhteet
joukossa geneettisiä tapahtumia ajo syövän etenemisen pysyvät suurelta osin hämäräksi.
Suurin syy tähän tilanteeseen on se, että tieto paljastuu data saadaan tavallisesti vain yksi (tai muutaman) ajankohtina, sen sijaan yli taudin kulkuun. Puran tämän dynaamisen tiedon käytettävissä
poikkileikkaus
data on haastavaa, ja yhdistelmä matemaattisia, tilastollisia ja laskennallisia menetelmiä tarvitaan. Viime vuosina useita menetelmiä poimia etenemistä malleja poikkileikkaustiedot on kehitetty, alkaen uraauurtava työ yksireittinen-malleja Fearon ja Vogelsteinin [7]. Erityisesti erimallisia oncogenetic puiden kehitettiin vuosien varrella. Ytimessä joitakin näistä menetelmistä, esim. [8], [9], on käyttää
korrelaatio
tunnistaa välisiä suhteita geneettisiä tapahtumia. Nämä tekniikat rekonstruoida
puu
malleja etenemistä itsenäisinä asyklisiä polkuja oksat eikä jokien yhtymäkohdista. Distinct malleja oncogenetic puiden sijaan perustuvat
suurimman uskottavuuden estimointi
, esimerkiksi [10], [11], [12]. Yleisempiä
Markovin ketju
malleja, esim [13], kuvaavat joustavampi todennäköisyyspohjaisiin verkkoja, vaikka laskennallisesti kallis parametriestimoinnissa. Muita viime mallit ovat konjunktiivista Bayesian Networks, CBNs [14], [15], että ote
suunnattu syklitön verkko
, mutta määräämällä erityisrajoitteiden yhteisestä tapahtumien esiintymisestä. Lopuksi hieman eri yhteydessä ajallinen malleja rekonstruoitiin aika-kurssi geenien ilmentyminen tietoja [16], [17].
Tässä raportissa esitellään uusi teoreettinen kehys kutsutaan CAPRESE (syövän etenemisessä Uutto Single reunat) rekonstruoida kumulatiivinen progressiivinen ilmiöitä, kuten syövän etenemistä. Oletamme alkuperäiseen ongelmaan asetus [8], ja ehdottaa uutta tekniikkaa päätellä
todennäköisyyksiin etenemistä puut myynnissä maassa poikkileikkaustiedot. Toisin kuin suurin todennäköisyys arvioihin perustuvia tekniikoita, tavoitteenamme on louhinta
minimaalinen
etenemisen malli selittää, missä järjestyksessä mutaatioita esiintyy ja kerääntyä. Menetelmä on teknologia agnostikko, eli sitä voidaan soveltaa aineisto on peräisin kaikenlaisia (epi) geneettiset tiedot kuten syvä exome sekvensointi, bisulfiitti sekvensointi, SNP paneelit, jne., (Katso tulokset), ja ottaa syötteenä joukko ennalta valitun geneettisiä tapahtumia, joiden läsnäolo tai puuttuminen kunkin tapahtuman kustakin näytteestä.
CAPRESE perustuu kahteen tärkeimmät ainesosat: sijaan käyttämällä
korrelaatio
päätellä etenemistä rakenteet, emme perusta tekniikka on käsite
todennäköisyyspohjaisiin syy
, ja lisäämään kestävyyttä melulta, hyväksymme
kutistuminen kaltainen estimaattori
mitata syy keskuudessa tahansa pari tapahtumia. Tarkemmin sanottuna osalta ensimmäinen ainesosa, hyväksymme käsite (alustava) syy ehdottamat Suppes in [18]. Sen perustehtävä intuitio on yksinkertainen: tapahtuma aiheuttaa tapahtuma jos ilmenee
ennen
ja esiintymistä
nostaa todennäköisyyttä
tarkkailla. Tämä on hyvin yksinkertainen käsite Todennäköisyyspohjaisia syy, joka ei sinänsä käsitellä monia ongelmia, jotka liittyvät sen (kuten epäsymmetria, yleisiä syitä, ja seulonta pois [19]), ja se sisältää
näennäisiä
sekä
aito
aiheuttaa. Kuten on käynyt ilmi, tämä perusajatus yhdistettynä suodatin riippumaton progressions alkaen samasta juuresta, on erinomainen työkalu opastaa etenemistä uuttamalla poikkileikkaustiedot – yksi, joka päihittää yleisesti käytetty korrelaation perustuvia menetelmiä.
Todennäköisyyspohjainen syy käytettiin biolääketieteen sovelluksissa ennen (esim löytää kuljettajan geenejä CNV tietojen [20], ja poimia syitä biologisesta aikasarjan tietoja [21]), mutta parhaan tietomme koskaan päätellä
etenemistä malleja
puuttuminen
suoran ajallisen tiedon.
louhinta ongelmaa monimutkaistaa sekä vääriä positiivisia ja vääriä negatiivisia huomautuksia (ks [22], jossa käsitellään tästä asiasta perustuu jälleenrakentamisen [8]), kuten yhden tarjoamia luontainen vaihtelu biologisten prosessien (esim
geneettinen heterogeenisyys
) ja
menetelmävirheiden
. Tämä aiheuttaa ongelman, koska vaikka todennäköisyys lisääminen on erittäin tarkka työkalu, se itsessään ei ole riittävän luotettava melulta. Ehdollinen määrästä kohinaa, me riippuvat sekä todennäköisyyksiin syy ja vankempi (mutta vähemmän tarkka) korrelaatio perustuva metrinen optimaalisella tavalla. Siksi meidän esitellä meidän toinen ainesosa, joka on
kutistuminen kaltainen estimaattori
mitata syy keskuudessa tahansa pari tapahtumia. Intuitio taustalla estimaattorin, joka on läheistä sukua kutistuminen estimaattorin alkaen [23], on löytää optimaalinen tasapaino todennäköisyyden lisääminen toisaalta ja korrelaatio toisaalta määrästä riippuen melua.
Me todistaa oikeellisuutta algoritmimme osoittamalla, että yhä otoskoot, rekonstruoitu puu asymptoottisesti lähestyy oikea (Lause 3). Lievissä rajoituksia melun hinnat, tämä tulos pätee jälleenrakentamiseen ongelma läsnäollessa yhtenäinen melusta sekä.
Tutkimme myös suorituskykyä CAPRESE todenmukaisempiin asetukset rajoitettu otoskokoja. Käyttäen synteettistä tiedot, osoitamme, että näissä olosuhteissa, meidän algoritmi päihittää state-of-the-art puu rekonstruointialgoritmi of [8] (katso tulokset). Erityisesti meidän kutistuminen kaltainen estimaattori tuottaa keskimäärin lisääntynyt herkkä melulle, joka takaa sen parempaan oncotrees [8]. Suorituskyky on määritellään
rakenteellinen samankaltaisuus
välillä rekonstruoitu puu ja todellinen puu, eikä niiden aiheuttamaa jakelun kuten tehdään esimerkiksi siinä [11]. Tämä tieto on erityisen sopiva tavoite rekonstruoimiseksi etenemisen malli, jossa data-todennäköisyys fit on toissijainen ”kutsuvan” mahdollisesti minimaalinen joukko kausaalisuhteiden.
Lisäksi osoitamme, että CAPRESE toimii hyvin jo suhteellisen pieni määrä näytteitä ja että sen suorituskyky nopeasti konvergoi sen asymptootti kun näytteiden määrä lisääntyy. Tämä tulos vihjeitä sovellettavuutta algoritmin suhteellisen pieni aineistot vaarantamatta tehokkuutta.
huomauttaa, että jatkotutkimuksiin synteettisiin tiedot viittaavat siihen, että CAPRESE päihittää tunnettu Bayesian probabilistic graafisen mallin sekä (eli
konjunktiivisessa Bayes-verkot
[14], [15]), joka oli alun perin jälleenrakentamiseksi monimutkaisempia topologioita, esimerkiksi DAG, mutta oli osoittautunut tehokkaaksi palautuksessa puurakenteita sekä [24] (ks Results).
Lopuksi sovellamme tekniikkaa muutoksia arvioidaan sekä Vertaileva Genominen Hybridisaatio ja Next Generation Sequencing tekniikoita (katso tulokset). Edellisessä tapauksessa, osoitamme, että algoritmi [8] ja CAPRESE highlight biologisesti merkittäviä eroja munasarja-, ruoansulatuskanavan ja suun syöpä, mutta meidän johtopäätökset ovat tilastollisesti merkittäviä. Jälkimmäisessä, me vahvistaa äskettäin löydetty välisestä suhteesta kaksi keskeistä geenien leukemia.
Methods
Ongelmanasettelu
perustamiseen jälleenrakennuksen ongelma on seuraava . Olettaen, että meillä on joukko mutaatioita (
tapahtumien
, vuonna todennäköisyyksiin terminologia) ja näytteet, me edustavat poikkileikkauksen aineisto kuin binary matriisi, jossa merkintä, jos mutaatio havaittiin näytteessä, ja toisin. Ongelma ratkaisemme tässä asiakirjassa on poimia joukko reunoja antaen etenemistä
tree
tästä matriisi, joka meillä huomautus, vain epäsuorasti antaa tietoa etenemisen ajoitus. Juuri mallinnetaan käyttäen (erikois) tapahtuma siten, että
heterogeeninen etenemisen reittejä
tai
metsien
voidaan rekonstruoida. Tarkemmin sanottuna pyrimme rekonstruoimiseksi
juurtunut puu
joka tyydyttää: jokaisella solmulla on korkeintaan yksi saapuvan reuna, juuri ei ole saapuvia reunat ole
sykliä
.
Jokainen etenemistä puu subsumes jakautuminen tarkkailla osajoukon mutaatioiden syöpä näyte, joka voidaan virallistaa seuraavasti:
Määritelmä 1. (puu aiheuttama jakelu)
Anna
olla puu ja
leimaavan toiminnon ilmaiseva riippumaton todennäköisyys kunkin reunan,
generoi jakelun jossa havaitsemisen todennäköisyys näytteen kanssa joukon muutoksia
on
(1)
, jossa kaikki tapahtumat
oletetaan olevan tavoitettavissa juuresta
, ja
on joukko reunat yhdistävät juuresta tapahtumien
.
Haluamme korostaa kahta liittyvät ominaisuudet puiden aiheuttama jakeluun. Ensimmäinen, jakelu subsumes, että koska mitään suuntautunut reuna, joka on havaittu näyte sisältää muutoksen todennäköisyydellä, joka on havaitsemisen todennäköisyys jälkeen. Tästä syystä, jos syyt, havaitsemisen todennäköisyys on suurempi kuin todennäköisyys tarkkailemalla vastaavasti ajallista prioriteettiperiaatteesta jonka mukaan kaikki syyt täytyy edeltää ajoissa, niiden vaikutukset [25].
Toiseksi tulo aineisto on joukko näytteitä syntyy, ihannetapauksessa tuntemattomasta jakautuminen aiheuttamien tuntematon puu tai metsä että pyrimme uudelleenrakentamisen. Kuitenkin joissakin tapauksissa, voi olla, että ei puu olemassa, joiden aiheuttama jakelu generoi
juuri
näitä lähtötietoja. Kun näin tapahtuu, laite havaittujen näytteiden hieman poikkeaa yhtään puuta aiheuttamaa jakelun. Mallintaa nämä tilanteet käsitteeseen
kohinaa
voidaan ottaa käyttöön, joka riippuu asiayhteydestä, jossa tietoja kerätään. Lisäämällä melu mallin mutkistaa jälleenrakentamiseen ongelma (katso tulokset).
oncotree
lähestymistapaa.
[8] Desper
et al.
kehittänyt menetelmän purkaa etenemiseen puut, nimeltään
”oncotrees”
, staattinen CNV tiedot. In [22] Szabo
et al.
Laajennettiin asettamiseen Desper jälleenrakentamiseen ongelma huomioon sekä
vääriä positiivisia
ja
negatiivit
että lähtötietoja. Näissä oncotrees, solmut edustavat CNV tapahtumia ja reunat vastaavat mahdollisia progressions yhdestä tapahtumasta toiseen.
jälleenrakennus Ongelma on juuri edellä kuvatulla tavalla, ja jokainen puu on juurtunut erityinen tapahtuma. Valinta, joka reuna sisällyttää puu perustuu arvioijan (2), joka antaa jokaiselle reunan painoarvoltaan sekä suhteellinen että yhteinen taajuuksilla tapahtumista – näin mittaus
korrelaatio
. Estimaattorin arvioidaan jälkeen myös kuhunkin näyte aineisto. Tässä määritelmässä oikeanpuoleisin termi on (symmetrinen)
uskottavuussuhde
varten ja esiintyvät yhdessä, kun taas äärimmäisenä vasemmalla on epäsymmetrinen
ajallinen prioriteetti
mitataan esiintymistiheys. Tämä implisiittinen muoto ajoitus oletetaan, että jos esiintyy
useammin
kuin, niin se todennäköisesti tapahtuu
aikaisemmin
, mikä tyydyttää
oncotree on juurtunut puu joiden kokonaispaino ( eli summa painot reunojen) on maksimoitu, ja voidaan rekonstruoida vaiheissa käyttäen Edmond algoritmia [26]. Rakenteeltaan, saatu kuvaaja on oikea puu juuret ovat: kussakin tapauksessa esiintyy vain kerran,
jokien yhtymäkohdista
ovat poissa, toisin sanoen, tapauksessa aiheuttaa enintään yksi muu tapahtuma. Tätä menetelmää on käytetty johtamaan progressions eri syövän aineistoja esimerkiksi [27], [28], [29]), ja vaikka useita menetelmiä, jotka ulottuvat tämän kehyksen olemassa (esim [9], [11], [15] ), parhaan tietomme mukaan se on tällä hetkellä ainoa menetelmä, joka pyrkii ratkaisemaan täsmälleen sama ongelma kuin yksi tutkittu tässä paperin ja tarjoavat siten vertailtaessa vastaan.
todennäköisyyspohjaisen lähestymistapa syy
lyhyesti läpi lähestymistapaa todennäköisyyspohjaiset syy, johon meidän menetelmä perustuu. Saat laajan keskustelun tästä aiheesta viittaamme [19].
uraauurtavan [18], Suppes ehdotti seuraavaa käsite.
Määritelmä 2. (Probabilistic syy, [18] ).
Mistään kaksi tapahtumaa
ja
, esiintyvät vastaavasti ajoittain
ja
alla lievä oletukset,
tapahtuma
on ensi näkemältä syynä tapahtuman
jos se tapahtuu ennen kuin vaikutus ja syy nostaa todennäköisyyttä vaikutus, eli
(3) B-
Kuten [19] edellä mainitut ehdot eivät yleensä riitä väittää, että tapahtuma on syynä tapahtuman. Itse asiassa ensi näkemältä syynä on joko
aito
tai
vääriä
. Jälkimmäisessä tapauksessa, että olosuhteet pitää huomautuksissa johtuu joko sattumaa tai läsnäolo tietyn kolmannen
sekoittava tekijä
, liittyvät sekä ja [18]. Aito syitä, sen sijaan, täyttävät Määritelmä 2 ja eivät ole seulotaan pois millään sekoittavia tekijä. Kuitenkin, niiden ei tarvitse olla suoria syitä. Katso kuva 1.
Esimerkki alustavaa topologia, jossa kaikki reunat ovat ensi näkemältä syitä, mukaan Määritelmä 3: on todennäköisyys nostaja ja se tapahtuu useammin. Vuonna jäljellä, me suodattaa vääriä syyt ja valita vain oikeita joukossa aito tuottaen yhden syyn alustavaa topologia.
Huomaa, että pidämme poikkileikkaustiedot jossa mitään tietoa ja on saatavilla, joten meidän jälleenrakennukseen ympäristössä olemme rajoitettu harkita ainoastaan
todennäköisyys nostamalla
(PR) omaisuus, eli, mikä vaikeuttaa syrjiä aito ja väärä syistä. Nyt tarkistaa joitakin sen ominaisuuksia.
Lause 1. (Riippuvuus).
Kun
PR
pitää kahden tapahtuman välillä
ja
, niin tapahtumia
tilastollisesti riippuvaisia
positiivisessa mielessä, eli
(4) B
Tämä ja seuraava ehdotus ovat tunnettuja tosiasioita PR; niiden johto sekä todisteet kaikki tulokset esittelemme on File S1. Huomaa, että päinvastainen vaikutuksia pätee myös: kun tapahtumat ja ovat edelleen riippuvaisia mutta kielteisessä mielessä, eli, PR ei pidä, eli.
Haluamme käyttää epäsymmetrisyys PR onko pari tapahtumia ja tyydyttää syy suhteen niin ennen etenemisessä puussa, mutta valitettavasti PR täyttää seuraavat omaisuutta.
Lause 2. (Mutual PR). .
Eli jos nostaa havaitsemisen todennäköisyys, nostaa sitten havaitsemisen todennäköisyys liikaa.
Kuitenkin, jotta voidaan määritellä syy-seuraus joukossa geneettisiä tapahtumia, voimme käyttää
luottamus
meidän arvio todennäköisyys nostaa päättää suuntaan syy suhdetta paria tapahtumia. Toisin sanoen, jos nostaa todennäköisyys
enemmän
kuin päinvastoin, niin on todennäköisempää syy kuin. Huomaa, että tämä on terve niin kauan kuin jokainen tapahtuma on
korkeintaan
yksi syy; muuten,
usein myöhässä tapahtumia
on enemmän kuin yksi syy, jotka ovat melko yleisiä biologisia progressiivinen ilmiöitä, tulisi kohdella eri tavalla. Kuten on mainittu, PR ei ole symmetrinen, ja
suuntaan
todennäköisyydellä lisääminen riippuu suhteellisesta taajuuksilla tapahtumista. Teemme tätä epäsymmetriaa tarkkoja seuraavassa ehdotus.
Lause 3. (Probability lisääminen ja ajallinen prioriteetti).
Mistään kaksi tapahtumaa
ja
siten, että todennäköisyys lisääminen
pitää, olemme
(5) B
Eli, koska PR pitää kahden tapahtuman välillä, herättää todennäköisyys
enemmän
kuin nostaa todennäköisyyttä, jos ja vain jos havaitaan useammin kuin. Huomaa, että käytämme suhde arvioida PR eriarvoisuutta. Todiste tästä ehdotus on tekninen ja löytyy File S1. Tästä tuloksesta seuraa, että jos me mitataan ajoitus tapahtumana osuus sen esiintyminen (eli merkitsee, että tapahtuu ennen), tämä käsite PR subsumes saman käsitteen ajallista ensisijaisia aiheuttama puun. Olemme myös huomauttaa, että tämä on myös ajallinen prioriteetti mainittava selvästi kertoimien Desper menetelmällä. Näiden tulosten, määritellään seuraavasti käsite syy.
Määritelmä 3.
esitämme, että
on ensi näkemältä syynä
jos
on todennäköisyys nostaja
, ja sitä esiintyy useammin:
termi
alustavaa topologia
suunnatun asyklinen graafi (yli joitakin tapahtumia), jossa kunkin reunan edustaa alustavaa syy. Kun korkeintaan yksi saapuva reuna on kullekin tapahtumaan (eli tapahtuma on korkeintaan
ainutlaatuinen syy
, todellisessa maailmassa), kutsumme tätä rakennetta
yhden syyn alustavaa topologia
. Intuitiivisesti tämä viimeinen luokka topologies vastaavat puita tai yleisemmin metsät, kun ne on irrotettu osia, jotka pyrimme uudelleenrakentamisen.
Ennen siirtymistä käyttöön algoritmimme voimme keskustella meidän määritelmä
syy
, sen asema määriteltäessä jälleenrakentamisen ongelmia ja joitakin sen rajoituksia. Kuten jo mainittiin, voi olla, että joillekin alustavaa syy tapahtuman, on kolmas tapahtuma ennen molemmat, niin että syyt ja lopulta aiheuttaa. Vaihtoehtoisesti voi aiheuttaa sekä ja itsenäisesti, ja syy suhde havaita ja on pelkästään
vääriä
. Yhteydessä puiden jälleenrakennuksen ongelma, nimittäin kun oletetaan, että jokainen tapahtuma on korkeintaan ainutlaatuinen syy, tavoitteena on suodattaa pois väärä reunat yleisestä alustavaa topologian, joten poimia yhden syyn alustavaa rakenne (katso kuva 1).
Määritelmä 3 esitetään Suppes perusajatus alustavaa syy, kun se sivuuttaa syvemmälle keskusteluja aiheuttamisperiaatteelle jotka tähtäävät erottamaan todelliset aito ja väärä syistä, esimerkiksi seulonta-off, tausta yhteydessä d-erottelu [30], [31], [19]. Meidän tarkoituksiin kuitenkin edellä mainittu määritelmä on riittävä, kun kaikki merkittävät haittavaikutukset ovat, eli kaikki aito syyt havaitaan suljettuun maailman oletus, ja pyrimme purkanut
järjestyksessä
etenemisen keskuudessa niitä (tai määrittää, että ei ole ilmeistä suhteen), sen sijaan talteen syy-
sinänsä
. Huomaa, että nämä oletukset ovat vahvoja ja voisi heikentyä tulevaisuudessa (ks Keskustelut), mutta ovat yhteisiä meille ja [8].
Lopuksi muistamme muutama algebrallisia tarvittavat vaatimukset meidän kehys on hyvin on määritelty. Ensinnäkin, PR on laskettavissa: jokainen mutaatio olisi noudatettava todennäköisyydellä tiukasti. Lisäksi tarvitaan kunkin parin mutaatioiden olla
erotettavissa
kannalta PR, joka on kunkin parin mutaatioiden ja, tai samalla tavalla kuin edellä mainittu edellytys. Mikä tahansa ei-erotettavissa parin tapahtumia voidaan yhdistää yhdeksi komposiitti tapahtuma. Tästä lähtien, oletamme nämä ehdot voidaan varmentaa.
Suorituskyky toimenpide ja synteettiset aineistot
hyödyntäneet
synteettinen data
arvioida suorituskykyä CAPRESE kuin funktio aineisto koko ja vääriä positiivisia ja negatiivisia hintoja. Monia erilaisia synteettisiä aineistoja luotiin tätä tarkoitusta varten, kuten jäljempänä selitetään. Algoritmi suorituskykyä mitattiin kannalta
Tree Edit Etäisyys
(TED, [32]), eli pienin kustannuksin sekvenssi solmun muokkaustoimintojen (relabeling, deleetion ja insertion), joka muuttaa rekonstruoitu puut osaksi ne tietojen tuottamiseen. Valinta Tämän toimenpiteen arviointi on perusteltu sillä, että olemme kiinnostuneita
rakenne
takana asteittainen ilmiö syövän kehittyminen ja erityisesti olemme kiinnostuneita mitta aidon syitä, menetämme ja vääriä syitä, emme tunnusta (ja poistaa). Lisäksi, koska topologiat samanlaisia jakaumien voi olla rakenteeltaan erilainen päätämme suorituskyvyn mittaamiseksi käyttämällä rakenteellisia etäisyys sijaan matkan suhteen jakaumat. Sisällä valtakunta rakenteellinen mittareita ”olemme kuitenkin myös arvioineet suorituskykyä
Hamming Etäisyys
[33], toinen yleisesti käytetty rakenteellinen metristä, ja saimme analogisia tuloksia (ei kuvassa).
Synteettinen luonti ja kokeellinen ympäristössä.
Synteettiset aineistoja kertyi näytteitä eri satunnainen puista pakko syvyyttä, koska leveä oksat ovat vaikeampi rekonstruoida kuin polut, ja ottamalla näytteitä tapahtuma todennäköisyydet (katso File S1).
Ellei nimenomaisesti mainita, kaikissa kokeissa käytettiin erillistä satunnaisia puita (tai metsiä, vastaavasti testin suorittamiseksi) tapahtumien jokaisen. Tämä tuntuu melko kohtuullinen määrä tapahtumia ja on sopusoinnussa tavanomaisen koon rekonstruoitu puita, esim. [34], [35], [36], [37].
skaalautuvuus
tekniikoita testattiin määrä näytteitä vaihtelevat, sen kanssa vaiheen, ja monistamalla riippumattomat aineistoja jokaiselle parametrien asetus (katso kuvatekstin lukujen lisätietoja).
sisältyi muotoa
melu
generoimaan aineistot, jotta selittämään realistisen läsnäolon
biologista kohinaa
(kuten yhden tarjoamia sivustakatsoja mutaatioita, geneettinen heterogeenisyys jne) ja
menetelmävirheiden
. Kohinan parametri merkitsee todennäköisyyttä, että joka tapauksessa oletetaan, satunnaisen arvon (yhtenäiset todennäköisyys), näytteenoton jälkeen puusta aiheuttama jakeluun. Algoritmien tämä prosessi merkitsee keskimäärin satunnainen merkinnät kussakin näytteessä (esim olemme keskimäärin yksi virhe per näyte). Haluamme arvioida, nämä meluisia näytteet voivat virheellisesti jälleenrakennusprosessiin, jopa alhainen arvoja. Huomaa, että olettaen tasaisesti jakautunut saattaa esiintyä häiriöitä yksinkertaistettu koska jotkut tapahtumat voivat olla vakaampi, tai helppo mitata, kuin toiset. Kuitenkin käyttöön datan sekä
vääriä positiivisia
(nopeudella) ja
negatiivisten
(nopeudella) tekee päättelyn ongelma olennaisesti vaikeampaa, ja tutkittiin ensin vuonna [22].
tulokset-osiossa viitataan tietosarjat intensiteetillä kuin meluisa synteettinen aineisto. Vuonna numeerinen kokeita, on yleensä diskretointi on suoritettu, (eli melu).
Tulokset
Puran etenemistä puut todennäköisyydellä lisäämistä ja kutistuminen kaltainen estimaattori
CAPRESE jälleenrakennus menetelmä kuvataan algoritmi 1. algoritmi on samanlainen Desper ja Szabo algoritmi, tärkein ero on vaihtoehtoinen paino toiminto perustuu kutistuminen kaltainen estimaattori.
algoritmi 1. CAPRESE: puumainen jälleenrakennukseen kutistuminen kaltainen estimaattori.
1: harkita joukko geneettisiä tapahtumia plus erityinen tapahtuma, lisätään jokaisen näytteen aineisto;
2: määrittää matriisin, jossa jokainen osa sisältää kutistumista -kuten estimaattori mukaan havaittu todennäköisyys tapahtumista ja;
3: [PR syy] määrittelevät puun, jossa sillä jos ja vain jos:
4: [Itsenäinen progressions suodatin] määritellä, korvata reuna reuna, jos kaikissa, se omistaa
Määritelmä 4. (Kutistuminen kaltainen estimaattori).
Määrittelemme of the kutistuminen kaltainen estimaattori
että luottamus syy suhde alkaen United
kuin
(6) B
jossa
ja
(7) B
Tämä estimaattori on samanlainen henki kutistuminen estimaattorin (katso [23]) ja yhdistää normalisoitu versio PR,
karkea arvio
, jossa on
korjauskerroin
(tässä tapauksessa korrelaatio perustuva mitta ajallisen etäisyyden keskuudessa tapahtumat), määrittämään oikea järjestys luottamus kunkin syy suhteen. Meidän on analoginen että
kutistuminen kerroin
ja voi olla Bayes tulkinta perustuu vahvuus Uskomme, että ja ovat kausaalisesti liittyvät toisiinsa ja todisteet, joka nostaa todennäköisyyttä. Koska suljetussa muodossa ratkaisu optimaalinen arvo, voidaan luottaa ristivalidointi simuloidun datan. Voima kutistuminen (ja meidän kutistuminen kaltaiset arvioijan) piilee mahdollisuus määrittää optimaalisen arvon tasapainottaa vaikutuksen korjauskerroin on raaka mallin arvion optimaalista esityksiä huonosti aiheuttamiin esiintymät päättelyn ongelman. Olennainen ero on kuitenkin välillä arvioijan ja klassista kutistuminen, että meidän estimaattori pyritään parantamaan suorituskykyä
yleinen
jälleenrakentamista, ei rajoitu suorituskykyä estimaattorin itse on laita kutistuminen. Eli metrinen indusoi tilaaminen tapahtumiin heijastaa luottamusta heidän syy. Lisäksi koska emme tee oletusta siitä taustalla jakelu, opimme sen empiirisesti rajat validointi. Seuraavassa kohdissa osoitamme, että kutistuminen kaltainen estimaattori on tehokas tapa saada tällainen tilaus varsinkin kun tiedot ovat meluisia. Vuonna CAPRESE käytämme pareittain matriisi versio estimaattorin.
Raaka estimaattori ja korjauskerroin.
Tarkastelemalla vain raaka estimaattori, me sisältäisi reunan puussa johdonmukaisesti kannalta of Määritelmä 3 (menetelmät) ja jos on paras todennäköisyys kasvattaja. Kun tapahtumia ja ovat erottamattomat kannalta ajallinen prioriteetti, mikä ei riitä päättää niiden syy-yhteys, jos sellaisia on. Tämä luontainen moniselitteisyys on epätodennäköistä käytännössä vaikka periaatteessa on mahdollista. Huomaa, että tämä muotoilu on monotoninen normalisoitu versio PR suhteen.
Lause 4. (monotoninen normalisointi).
Mistään kaksi tapahtumaa
ja
meillä
(8) B
Tämä raaka malli estimaattori täyttää: kun se yleensä pari tapahtumat näkyvät disjointly (eli ne osoittavat anti- syy kuvio), kun se on yleensä ei ole syy-yhteyttä tai anti-syy voidaan päätellä ja kaksi tapahtumaa ovat tilastollisesti riippumattomia, ja kun se pyrkii, syy-yhteyden suhde kahden tapahtumaa on aito. Siksi tarjoaa kvantifiointi luottamus varten PR syy suhdetta. Itse asiassa minkä tahansa mahdollisen syy reuna, termi esitetään arvio
virheprosentti
on siis osoittajan raaka malli antaa arvion siitä, kuinka usein on itse aiheuttanut. Estimaattori on sitten normalisoidaan vaihtelevat ja.
kuitenkaan ei tarjoa yleistä kriteeri yksikäsitteistänyt keskuudessa aitoa syitä tietyn tapahtuman. Näytämme erityistapaus, jossa ei ole riittävä estimaattori. Tarkastellaanpa esimerkiksi syy-lineaarinen polku:. Tässä tapauksessa, kun arvioidaan ehdokkaan vanhemmat ja olemme: niin ja ovat aitoja syitä, vaikka haluaisimme valita sijasta. Niinpä voimme vain päätellä, että ja, eli osittainen tilaus, joka ei auta disentangle suhdetta keskuudessa ja suhteessa.
Tässä tapauksessa kertoimien avulla voidaan määrittää, kumpi kahdesta aito syyt tapahtuu lähempänä aikanaan sen (, yllä olevassa esimerkissä). Yleensä tällainen korjauskerroin antaa tietoa
ajallista etäisyyttä
tapahtumien välillä, ottaen huomioon tilastollinen riippuvuus.