PLoS ONE: vertaileva analyysi menetelmät niiden monistumia Muutokset Cancer

tiivistelmä

monistumia muutokset (CNAs) on tärkeä rooli syövän synnyssä. Vaikka useat laskennalliset menetelmät on ehdotettu yksilöimiseksi CNAs, niiden suhteellisia ansioita edelleen suureksi osaksi tuntemattomia käytännössä, koska hyvin harvat ponnistelut ovat keskittyneet vertaileva analyysi menetelmien. Helpottaakseen tutkimuksissa toistuvien CNA tunnistamisen syövän genomin, on välttämätöntä tehdä kattava vertailu suorituskyky ja rajoitukset keskuudessa nykyisillä menetelmillä. Tässä asiakirjassa, kuusi edustaja menetelmiä ehdotettu viimeistään kuuden vuoden verrataan. Näitä ovat yhden vaiheen ja kaksivaiheista lähestymistapaa, työskentelee raaka intensiteettisuhdetta tiedot ja diskretoidaan tietoja vastaavasti. Ne perustuvat eri tekniikoita, kuten ydin regressio, korrelaatio diagonaalinen segmentointi, semi-parametrinen permutaatio ja syklinen permutaatio järjestelmiä. Tutkimme useita ehtoja kuten tyypin I virhemäärä, ilmaisemistehoa, Receiver Operating Ominaisuudet (ROC) käyrä ja pinta-ala (AUC), ja laskennallinen kompleksisuus, arvioida suorituskykyä menetelmien mukaisesti useita simulointi skenaarioita. Me luonnehtia myös niiden kykyjä sovelluksia kaksi todellista aineistoja saadaan syöpiä keuhkoadenokarsinooma ja glioblastooma. Tämä vertailututkimus osoittaa yleiset ominaisuudet nykyisiä menetelmiä tunnistaa toistuvia CNAs, ja lisäksi antaa uusia näkökulmia niiden vahvuudet ja heikkoudet. Uskotaan hyödyllistä vauhdittaa uusia ja entistä parempia menetelmiä.

Citation: Yuan X, Zhang J, Zhang S, Yu G, Wang Y (2012) vertaileva analyysi menetelmät niiden monistumia Muutokset Syöpä. PLoS ONE 7 (12): e52516. doi: 10,1371 /journal.pone.0052516

Editor: Noam Shomronin, Tel Avivin yliopisto, Israel

vastaanotettu: 07 elokuu 2012; Hyväksytty: 14 marraskuu 2012; Julkaistu: 20 joulukuu 2012

Copyright: © 2012 Yuan et al. Tämä on avoin pääsy artikkeli jaettu ehdoilla Creative Commons Nimeä lisenssi, joka sallii rajoittamattoman käytön, jakelun ja lisääntymiselle millä tahansa välineellä edellyttäen, että alkuperäinen kirjoittaja ja lähde hyvitetään.

Rahoitus: Tämä työ tukivat Natural Science Foundation of China alle avustusten 61201312, 61070137, 61202175 ja 91130006; Yhdysvaltain National Institutes of Health alle avustusten CA160036, CA149147, ja GM085665; ja tukema hanke Natural Science Basic Research Plan Shaanxin maakunnassa Kiinassa (ohjelmanumero 2012JQ8027, 2012JQ1010); ja perustutkimus rahastojen Central yliopistot (K50511030002, K50511030001, ja K5051270012). Rahoittajat ollut mitään roolia tutkimuksen suunnittelu, tiedonkeruu ja analyysi, päätös julkaista tai valmistamista käsikirjoituksen.

Kilpailevat edut: Kirjoittajat ovat ilmoittaneet, etteivät ole kilpailevia intressejä ole.

Johdanto

tunnistaminen monistumia muutokset (CNAs) syövässä genomeja on tärkeä askel paikallistamiseen syövän kuljettajan geenejä ja ymmärtämään mekanismeja kasvain aloittamista. Monet ihmisen syövissä, mukaan lukien munasarja- vakavien karsinooma [1], keuhkon adenokarsinooma [2], glioblastoma multiforme [3], ja muiden syöpien [4], [5], ovat pitkälti tutkittu analysoimalla CNAs. Kuitenkin tunnistettu CNAs korkean esiintymistiheyden useiden näytteiden muodostavat vain pienen osan kliinisesti tai biologisesti relevantti poikkeavuuksien varten moniin syöpiin. Yleisin syy puuttuu joitakin tunnettuja kuljettaja mutaatioiden on, että lähes kaikki syövät ovat heterogeenisiä [6], mikä osoittaa, että monet toistuvat CNAs näkyvät vain osajoukko näytteitä (eli näytteitä alatyyppejä) ja vastaavasti niiden taajuudet ovat vähemmän äärimmäisiä koko näytteitä. Tähän haasteeseen, useita tilastollisia ja laskennallisia menetelmiä, joilla lupaavia tuloksia on raportoitu. Ne on jaettu yhden vaiheen [7], [8], [9], [10] ja kaksivaiheista lähestymistapaa [3], [4], [11], [12], [13]. Monet heistä tarkistettiin ja keskusteltiin Rueda ja Diaz-Uriarte-elokuvien paperi [14].

Yksi erinomainen ilmiö kopioluvun profiileja on, että osa markkereita muutetaan samanlainen alueilla useita genomien ja loput markkereita vaihdetaan satunnaisesti paikoissa genomien. Siten taajuus CNA esiintyvistä näytteitä käytetään yleensä auttaa erottamaan toistuvia tapahtumia satunnaisia ​​merkkejä. Kuitenkin, johtuen monimutkaisia ​​rakenteita kopioluvun tietojen tunnistamista vähemmän äärimmäisiä toistuvia CNAs on äärimmäisen vaikeaa. Alla profiili todellinen kopiomäärä aineisto osoittaa monimutkaisuus CNAs, ja edelleen käyttää sitä havainnollistetaan, miksi vähemmän äärimmäisiä CNAs on vaikea havaita.

Kuva 1a ja Kuva 1b esittävät nopeus CNA esiintyminen koko perimän ja sen taajuus poikki näytteet joukko keuhkosyövässä, joka sisältää 371 näytettä ja 216327 markkereita [3], [5]. Voidaan todeta, luvuista, että suurin osa markkereita muutetaan (monistetaan tai poistetaan), ainakin yksi näyte, ja monet niistä ovat päällekkäin osa näytteistä. Lisäksi, koot CNA alueiden vaihtelevat kromosomi kromosomiin. Tietyn joukko

N

syöpänäytteissä, olettaen, että kaikki havaitut CNAs ovat satunnaisesti jakautuneet genomiin kussakin näytteessä, odotettu todennäköisyys (E (

P

)) yhden CNA merkki jaettua vähintään

n

näytettä (vastaa tiettyä prosenttiosuutta

f

koko näytteistä) voidaan arvioida käyttämällä yhtälöä (1), ja näin ollen odotettavissa oleva määrä (E (

l

)) tällaisten jaetun merkkiaineiden genomissa voidaan ilmaista yhtälöllä (2). (1) (2), jossa

L

on pituus genomin analysoitavan;

r

ki

ja

r

kj

ovat CNA hinnat

i

nnen ja

j

nnen näytteiden

k

nnes osajoukko, joka tarkoittaa

k

nteen yhdistelmä

n

näytteet valitaan koko

N

näytettä. Tässä kokonaismäärä yhdistelmiä valitsemalla

n myynnissä maassa

N

edustaa.

Täällä käytämme log

2-suhteet 0,322 (2,5 kappaletta) ja -0,415 (1,5 kopiota) määritellä monistukset ja poistot. (A) keskimääräinen hinnat CNA monistamista ja poistamista joukossa 371 näytteet ovat 0,0379 ja 0,0417, vastaavasti. (B) Suuri osa monistukset ja poistot ovat alle 0,1 keruutaajuuden.

Tarkastellaan joukon 100 näytettä, joilla kummallakin 1000 markkereita, ja kussakin näytteessä määrien CNA ovat 0,035 monistamista ja 0,040 poistettaviksi (nämä taajuudet ovat suhteellisesti vähemmän kuin yllä mainituin keuhkosyövän aineisto). Jos oletamme CNAs sijoitetaan satunnaisesti genomiin, todennäköisyys yhden markkerin jaettu vähintään 100

f

(0

f

≤1) näytteet voidaan pitää kumulatiivisen todennäköisyyden , kutsutaan

P

c

(

f

) (yhtälön (3)). Esimerkiksi

P

c

(0,1) on yhtä kuin 0,0027, kun kyseessä on vahvistus, joka osoittaa, että todennäköisyys yhden markkerin monistetaan vähintään 10 (0,1 kertoo 100) näytteet on 0,0027. Kuvio 2 esittää tällaisen kumulatiivisen todennäköisyyden vs. taajuus yhden CNA merkki poikki 100 näytettä. Näin ollen useita tällaisia ​​markkereita koko genomista voidaan arvioida 1000

P

c

(

f

). (3)

Jos taajuus käytetään tilastotieto testata merkitys CNAs erikseen, arvioitu

p

-arvon että markkeri taajuuden

f

voidaan laskea käyttäen yhtälöä (4), joka on alle max-T menettely hallita perhe-viisas virheprosentti (FWER) [15]. Selkeästi ymmärtää suhde CNA taajuuden ja sen

p

-arvo, osoitamme

p

-arvo funktiona taajuuden vaihtelevat 0,01-1 monistamista ja poistetaan erikseen Kuva 3. voidaan todeta, että

p

-arvon pienenee tihennetystä CNA, ja erityisesti,

p

-arvo on 0,05, kun

f

= 0,13 jos kyseessä on vahvistus ja

p

-arvo on yhtä suuri kuin 0,05, kun

f

= 0,14, kun kyseessä on poisto. Nämä viittaavat siihen, että jos

p

-arvo sulku 0,05 käytetään, CNA markkereita taajuuden alle 0,13 vahvistusta (tai alle 0,14 poistettavaksi) ei voitu havaita, kun taas todellinen tietoja kuten taajuus voi olla merkittävää biologista merkitystä sillä monet CNAs saattaa vaikuttaa vain vähemmistö syöpänäytteissä [3], [7]. (4) B

Kun kyseessä on vahvistus, p-arvo (0,12) = 0,20 ja p-arvo (0,13) = 0,05; kun on kyse poistamisesta, p-arvo (0,13) = 0,18 ja p-arvo (0,14) = 0.05.

Yleensä taajuus-tilaston ja satunnainen permutaatio merkkiaineiden edellä esimerkki on vain perusstrategia testata merkitystä. Tämän täydentämiseksi strategia, monia menetelmiä suunnitella eri tilastoja ja nolla jakaumat tähän haasteeseen. Esimerkiksi STAC (merkitys testaus Poikkeava Copy numero) [4] ehdotetaan uutta tilastotieto ”jalanjälki” pisteet kunkin merkin ja vahvistetaan jakelun hypoteesia, että havaitut CNA alueet ovat yhtä sijoittaa mihin tahansa koko genomin; Synergisillä (Perimän merkityksellisten tavoitteiden Cancer) [3] tulokset kunkin merkin yhdistelemällä taajuus ja amplitudi, ja rakentaa puoliksi tarkalleen arviolta null jakelu, ja sen laajentamista GISTIC2.0 [11] katsoo eroa taustalla taajuuden välinen keskipiste CNAs ja laaja CNAs ja tulokset kunkin merkin verrannollinen sen amplitudi; CMDS (korrelaatiomatriisin Diagonal Segmentointi) [9] tulokset kukin merkki perustuu sen korrelaatioita ympäröivine sivustoja ja rakentaa opiskelijan

t

jakelu; ja dinamic (Discovering Kopioi numero Aberrations ilmenee Cancer) [13] työllistää yhteenveto tilastotieto ja syklisen permutaation järjestelmä tuottaa null jakeluun. Lisäksi säätää tilastolliset arvot ja parantaa null jakaumat, monet menetelmissä käytetään irrotettavaa algoritmi puolitushaulla testata CNAs [3], [13], [16], [17]. Tämä auttaa paljon tunnistamaan matalan keskivaikea-taajuus (tai /ja vähän tai kohtalaisesti-amplitudi) merkkiaineita.

Yhdessä viimeaikainen edistysaskel genomi teknologioiden ja nopea tuotannon valtava aineistoja, uusia menetelmiä kehittyneempiä ominaisuuksia ja toimintoja havaitsemiseksi toistuvien CNAs jatkuvasti esiin. Kuitenkin suhteellinen vahvuudet ja heikkoudet nykyisiä menetelmiä on vaikea erottaa, koska ei ole kattavaa suorituskyvyn vertailuja. Tämä on todellinen ongelma erityisesti näkökulmasta biologisten tutkijat täytyy valita menetelmä, jolla aineisto kiinnostava. Tässä artikkelissa, me vertailla kuusi klassista ja julkisesti saatavilla olevia menetelmiä perustein lukien tyypin I virhemäärä, ilmaisemistehoa, Receiver Operating Ominaisuudet (ROC) käyrä ja pinta-ala (AUC), ja laskennallinen monimutkaisuus, jotta käyttäjät voivat nopeasti yleiskatsaus niistä ja niiden suorituskykyä. Erilaiset simulointi aineistot ja kaksi todellista aineistot saadaan keuhkoadenokarsinooma ja glioblastooma näytteitä käytetään arvioimaan menetelmiä.

Materiaalit ja menetelmät

menetelmät niiden Toistuva CNAs

Erilaisia tilastollisia ja laskennallisia menetelmiä on ehdotettu hiljattain tunnistamiseksi toistuvia CNAs. Nämä menetelmät voidaan luokitella eri tavoin, kuten kehyksiä, strategioita luoda null jakaumia, lähdekoodit, ja niin edelleen. Yleensä eri syöpä aineistot on erilaiset profiilit ja geenien kopioluvun muutoksia, ja ne voivat vaatia erilaisia ​​laskennallisia menetelmiä analyysiin, koska ei ole olemassa yhtä menetelmää, joka voisi olla sopiva kaikille aineistoja. On tarpeen tutkia ne menetelmät, joilla on eri ominaisuuksia ja erilaisia ​​etuja. Peilata tätä, me valita huolellisesti kuusi edustavia menetelmiä arvioinnin ja vertailun, joka perustuu niiden raportoitu tehokkuudesta todellisissa sovelluksissa. Me luettelo kuudesta menetelmiä taulukossa 1 sekä niiden ominaisuuksia yleiskatsaus. Näitä menetelmiä on kehitetty eri sovitusmenetelmät vuonna viimeistään kuuden vuoden ja jotkut niistä ovat laajalti käytetty syövän data-analyysi [2], [18], [19]. Yleiseen ymmärtämistä, annamme lyhyt yhteenveto niiden periaatteiden seuraavasti.

(1) STAC [4].

Panos STAC on binary matriisi

x

, jossa kukin osa

x

ij

edustaa asemaa

j

nnen markkeri näyte

i

. Erityisesti

x

ij

= 1 tarkoittaa vahvistusta (tai poistetaan),

x

ij

= 0 tarkoittaa normaalia. Se analysoi vahvistusta ja poisto matriisit erikseen, ja testaa merkitys niitä samalla tavalla. Nollahypoteesi takana STAC on, että havaitut CNA segmentit sijoitetaan satunnaisesti missä tahansa kromosomissa pidetään [4], [17], joten permutoitua näytteitä voidaan säilyttää alkuperäisen rakenteet kopioluvun data. STAC tekee kaksi tilastoja, taajuus poikkeama ja ”jalanjälki”, arvioimaan

p

-arvot kullekin merkki, ja ohjaa perhe-viisas virheprosentti (FWER), joka perustuu äärimmäinen oikea häntätodennäköisyys [4 ], [13], [20].

”taajuus” varten merkki

x

lasketaan osuus näytteiden jakaminen poikkeavuus, kun taas ”jalanjälkeä” varten merkki

x

lasketaan useissa paikoissa sisältämien pino, joka on joukko väliajoin sisältävän

x

poikki näytteitä [4]. Periaatteena ”jalanjälki” on, että tiukempi asetelmat poikkeavuudet ovat vähemmän todennäköisesti odotettavissa sattumalta ja ovat siten todennäköisesti ehdottaa biologisesti relevantteja tapahtumia, kun taas rennompi asetelmat poikkeavuuksien voisi luulla matkustaja mutaatioita suuremmalla todennäköisyydellä.

(2) synergisillä [3].

Tämä menetelmä vaatii segmentoitua lähtötiedot jatkuvalla log

2-arvot johtui yhdestä näytteestä analyysimenetelmät kuten CBS [21] ja GLAD [22] . Se permutoi yksittäisiä merkintöjä koko genomin olettamalla markkereita ovat riippumattomia [3], [17], ja saa puoliksi tarkka arvioidaan null jakelu perustuu kierteen toiminto [3] (5), jossa on jakelu (histogrammi ) monistus-

i

: s näyte. Perustuen null jakelu, synergisillä käyttää

G

-score yhdistyvät sekä taajuus ja amplitudi (yhtälö 6) merkityksen arvioimiseksi kunkin markkerin ja korjaa useita hypoteesin testauksen kautta Benjamini-Hochberg FDR menettely [23] . Samaa menettelyä sovelletaan analyysi poistetaan ja LOH (heterotsygoottisuuden menetys). (6) missä ja ovat taajuuden vahvistusta ja keskimääräinen amplitudi

j

nnen merkki koko näytteitä.

intuitio takana

G

-score on, että poikkeama on suurempi amplitudi ja taajuus on todennäköisemmin kuljettaja tapahtuma. Jotta lievittää sivuvaikutus huippu alueilla, joilla on korkein amplitudi ja taajuus, synergisillä hyväksyy ”peel-off” algoritmi iteratiivisesti testata CNAs sisällä merkittäviä alueita.

(3) KC-SMART [8 ].

Erilaiset edellä kahta menetelmää, yhden vaiheen puitteissa on omaksunut tässä menetelmässä ilman edeltävää vaihetta segmentoida (tasoitus) kopioluvun profiileja. Periaatteena KC-SMART on, että se asetetaan ytimen toiminto kussakin paikassa

m

rakentaa tilastotieto, ydin tasoitettu arvio (KSE) [8] 🙁 7), missä on tiivistää positiivinen tai negatiivinen log

2-suhteet kaikkien näytettä kutakin sijainti, on ytimen toiminto (esim flat-top Gaussin ytimen toiminto), ja on joukko markkereita noin sijainti

m

ja se on yleensä määritellään perustuen leveyden ytimen toiminto. Teoriassa tämä tilasto katsoo korrelaatiot joukossa kopiomäärä datan ja sisältää saatuja tietoja lähialueiden markkereita.

Tunnistaa huippukohtia (eli toistuvat CNAs), menetelmä vertaa havaittua KSE jokaista paikkaa vastaan ​​null jakelu joka on perustettu kautta permutaatioiden henkilölokia

2-suhteet genomissa harkitaan. Korjaa vaikutuksen useiden hypoteesien testaus, KC-SMART tekee Bonferroni strategiaa kertomalla arvioitu

p

-arvot käyttäen kokonaismäärä paikoissa testattavan.

(4) CMDS [9] .

lähtötietoja CMDS on pitkälti samanlainen kuin KC-SMART. Tämä menetelmä ei suoraan hyödyntää taajuus ja amplitudi kopioluvun poikkeamia rakentaa Testimuuttuja. Se Määrittää RCNA pisteet kunkin merkin. RCNA pisteet on keskimäärin korrelaatioarvo ympäröivään sivustoja merkkiaineen. Nollahypoteesi CMDS on, että ei ole korrelaatiota merkkiaineiden sisällä kromosomeja, joten se voidaan luoda satunnaisesti permutoimalla yksittäisiä markkereita venytys kromosomin harkitaan. Voit säästää laskennallisen ajan, CMDS käyttää tietoja havaitut korrelaatioarvot kopiomäärä genomin laaditaan vakiomuotoinen normaalijakaumaa, kun läheisesti arviolta

t

jakeluun. Useiden testausta vaikutus on myös korjattu käyttää Bonferroni strategiaa, aivan kuten KC-SMART-menetelmällä.

intuitiivinen käsite takana CMDS on, että kopiomäärä kohina ei korreloi kun toistuvat CNAs ovat vahvasti. Toinen erinomainen ominaisuus CMDS on, että se ei analysoida vahvistusta ja poisto erikseen, vaan käyttää keskimääräinen kopioluku arvo yli ennalta ikkunan kaikissa näytteissä ja sen merkitys tasolla [9], onko vastaava merkki on vahvistus tai poisto. Tämä eroaa useimmista muista nykyiset menetelmät.

(5) dinamic [13].

Tämä menetelmä hyväksyy sekä jatkuva raaka-signaalin ja diskreetin segmentoituja tietoja. Se tekee yhteenvedon tilasto, joka sisältää sekä taajuus ja amplitudi kunkin merkin analysoimiseksi joko laajentaa tai poisto. Kaksi uudet piirteet taustalla dinamic tehdään seuraavasti. Ensinnäkin se käyttää syklisen permutaation strategia tuottaa null jakelu [13], [17], joka säilyttää rakenteita alkuperäisen kopioluvun dataa korkeampi kuin useimmat muut menetelmät, kuten STAC [4] ja GISTIC2.0 [ ,,,0],11]. Toiseksi, lisätä tehoa havaitsemiseksi vähemmän äärimmäisiä CNA markkereita, menetelmä hyödyntää ”peel-off” algoritmi eroaa käyttämät synergisillä [3], joka arvioi merkitykset uusien alueiden poistamalla kaikki aberraatioita limitetään aiemmin havaittujen toistuvat alueet, kun taas dinamic uudelleen testeissä markkereita luomalla uuden null jakelu uutta tietoa matriisi, jossa aiemmin havaittujen markkereita

K

ovat nolla ja markkereita osaltaan merkitystä

K

skaalataan käyttäen tekijä.

Tämä menetelmä on tarkoitus testata yksi merkki kussakin ”peel-off” Iterointimenettelyn, jolloin laskennallisen kustannus on merkittävä ongelma, erityisesti silloin, kun suuri määrä iteraatioita tarvitaan. Tätä varten dinamic tarjoaa

Quick Look

ja

Yksityiskohtaiset Katsokaa

alustoja käyttäjän asetukset. Ensimmäisessä vaihtoehdossa, alkuperäinen null jakelua käytetään uudelleen testata merkitystä äärimmäisissä markkereita, ja näin ollen säästää pala laskennallisen ajan. Lisäksi merkitys useiden testaus korjataan käyttäen max-T menettely täsmälleen kuten STAC [4].

(6) GAIA [16].

Toisin kuin muut nykyisin käytössä olevat menetelmät [3 ], [13], [24], GAIA (Genomic analyysi Tärkeää muutostyöt) sisältää sisällä näytteen homogeenisuus osaksi ”peel-off” menettely sen tilastollinen hypoteesi puitteet: ensimmäinen, yksittäisiä merkintöjä satunnaisesti ionivaihdettua tuottaa null jakelu, jonka perusteella havaittu määrä (lukumäärä poikkeavuuksien poikki näytteitä, tämä vastaa vaikutus taajuus kromosomipoikkeavuuksien) kunkin markkerin arvioidaan ja määritetty merkitsevyystasolla; Toinen, GAIA määrittelee tasalaatuisuuden arvon kullekin pariksi viereisen merkkiaineiden jokaisesta näytteestä ja tuottaa uuden tietomatriisi nimeltään

H

(

N

×

M

-1), vuonna jossa jokainen elementti

H

ij

∈ {0, 0,5, 1}, edustaa maksimi, keski tai vähintään tasalaatuisuus; Lopuksi, homogeeninen irrotettavaa suoritetaan matriisin

H

laajentaa rajoja merkittävien alueiden havaittu aiemmin. Tämä ”kuori-off ’järjestelmään odotettiin tunnistaa enemmän toistuvia CNA huippuja ja jättää vääriä huiput.

arviointi Menetelmät

Melko arvioidaan suhteellisia ansioita näistä menetelmistä on välttämätöntä, mutta tämä on monimutkainen johtuen useista realistinen kysymyksiä. Ensinnäkin lähtötiedot formaatit (segmentoidut tai raaka) eri algoritmeja eivät aina sama, ja ne vaativat segmentoitu tulot yleensä hyväksyä erilaisia ​​segmentointia algoritmeja. Esimerkiksi oletuksena segmentointi algoritmit STAC, synergisillä, dinamic, ja GAIA ovat GenePix Pro 4.0 [25], GLAD [22], CBS [26], ja VEGA [27] vastaavasti. Ottaen huomioon, että eri segmentointi algoritmeja voi olla erilaisia ​​kykyjä käsittelyssä yksittäisissä CNA profiileja, ja siten aiheuttaa suuri vaikutus loppupään analyysiin, päätämme käyttää CBS segmentointialgoritmi [26] kaikille kaksivaiheinen menetelmistä tässä vertailussa tutkimuksessa, koska CBS on erittäin suosittu algoritmi ja se toimii johdonmukaisesti hyvin havaitsemisessa kopioluvun muutoksia [28]. Toiseksi merkitys lähdöt kuudesta menetelmiä ovat kahdenlaisia:

p

-arvot (STAC, KC-Smar, CMDS, ja dinamic) ja

q

-arvot (synergisillä ja GAIA), ja kynnysarvot julistetaan merkittävää nämä menetelmät ovat erilaiset. Tasapuolisen vertailun, me valitsemme yleisesti käytetty kynnysten 0,05

p

-arvo ja 0,25

q

-arvo täällä. Kolmanneksi parametrit eri menetelmät eroavat suuresti. Esimerkiksi dinamic edellyttää tuloon iteraatioiden, jossa oletusasetus on 10. Tällainen asetus ei yleensä ole riittävän suuri todellisissa sovelluksissa, koska saattaa olla suuri määrä poikkeavien markkereita, jotka olisi arvioitava. Näin ollen meidän muuttaa oletusasetus osaksi useampiin täytäntöönpanossa algoritmin. Useimpien algoritmin parametrit, me käyttää oletusasetuksia mahdollisimman paljon tai arvot ehdotettu papereita tai ohjelma-asiakirjoissa. Lopuksi erilaisia ​​algoritmeja kirjoitettu eri kielillä ja toteuttaa eri alustoilla, kuten on esitetty taulukossa 1. Tämä lisää vaikeuksia vertailla laskennallisen aikaan menetelmiä käytännössä.

kvantitatiivisesti arvioida suorituskykyä menetelmiä, testaamme neljä yleisesti käytetty kriteerien [13], [28], [29], [30], joka perustuu useiden simulointi aineistoja. Kriteerit on kuvattu yksityiskohtaisesti alla.

1. Tyypin I virheprosentti.

arvioitaessa tyypin I virheprosentti on tutkia merkityksen merkityksen tasoja johtui tilastollisia menetelmiä havaitsemiseksi toistuvien CNAs [13], [30]. Jos tyypin I virhemäärä on liian konservatiivinen tai liian aggressiivinen, aiottu merkitys

p

-arvot (tai

q

-arvoja) vähentäminen tai kadonnut, ja se ei hyväksy todellisiin vääriä positiivisia tuloksissa. Niinpä tarkkuuden tyypin I virheprosentti on kriittinen indeksi arvioimiseksi menetelmiä. Tätä varten me simuloida useita () on toistettu aineistojen null maahan totuus CNAs, ja laskea tyypin I virheprosentti kaavalla (8) 🙁 8) jossa on kynnys soittamalla merkittäviä (esim), ja on osoitinmuuttujan eli mahdolliset CNAs in aineisto on julistettu merkittävä, sitten; muuten. Siten yhtälö (8) on todella laskelma perhe-viisas tyypin I virheprosentti [17].

2. Detection voima.

Koska CNA on rakenteellinen yksikkö ja se yleensä sisältää useita markkereita, havaitseminen teho voidaan laskea kahdella tavalla: yksikköperusteinen ja merkki laskelmien perusteella.

CNA yksikkö perustuva tunnistus teho:

varten maa totuus (toistuva) CNA yksikkö, on tarpeen tarkkailla kuinka todennäköistä se voidaan onnistuneesti julistaa merkittävä menetelmällä. Määrittelemme tämä tunnistus tehon herkkyys havaita toistuvia CNA yksikkö. Yleensä, juuri havaita rajat (tai kaikkien markkereiden) toistuvat CNA yksikön on vaikea saavuttaa, ja tämä ei aina ole välttämätöntä sijoittaa geenejä, joita CNA. Esimerkiksi geenit voidaan kartoittaa, jos osa markkereiden niistä limitetään havaittu CNA yksikköä. Kätevään arvioinnin, käytämme keskellä markkerin toistuvan CNA yksikön sen määrittämiseksi, onko laite on ilmoitettu, eli jos keskimmäinen merkki havaitaan, sitten oletamme, että laite on onnistuneesti havaittu, muuten se ei ole. Näin ollen CNA yksikkö perustuva tunnistus teho menetelmän voidaan laskea [30] (9), jossa on kokonaismäärä maa totuus CNA yksikköä kussakin simuloidussa aineisto, ja osoittaa, kuinka monta maa totuus CNA yksiköt, joita ilmoitettu merkittäviä

i

: s aineisto.

CNA merkki perustuva tunnistus teho:

lisäksi sijainnin syövän kuljettajan geenejä, toistuvat CNAs voidaan myös käyttää analysoimaan kromosomi epävakautta hakemisto ja muut biologiset merkitykset [1]. Joten se on tarpeen nähdä, kuinka monta maa totuus markkereita havaitaan. Niinpä me määrittelemme tämän valtaa kuin yhtälö (10) [30], jossa on kokonaismäärä maa totuus CNA markkereita ja osoittaa, kuinka monta maa totuus markkereita, jotka tunnistetaan oikein

i

nnen aineisto . (10) B

3. Vastaanotin toimii ominaisuudet (ROC) käyrä ja AUC toimenpide.

lisäarvioimiseksi yleistä suorituskykyä kuudella eri menetelmällä mitattuna sekä herkkyys ja tarkkuus kautta ROC käyrät, joka osoittaa, kuinka paljon prosentteina maa totuus markkerit valitaan conditioned tietyllä vääriä positiivisia. Lisäksi mitataan pinta-ala (AUC) ja näiden menetelmien kanssa tarkoituksena on arvioida niiden keskimääräinen suorituskyky varsinkin kun jotkut ROC käyrät ovat ylittäneet.

4. Laskennallinen monimutkaisuus.

Arvioimme laskennallisen monimutkaisuuden perustuu suoritusaika ja muistin käyttö. Koska eri menetelmiä toteutetaan yleensä eri alustoilla, kuten C ++, R kieli ja Java, vertailua laskennallisen ajan voisi vaikuttaa. Voit voittaa tämän ongelman ja antaa yleinen vertailun tehokkuutta kuudesta menetelmistä, annamme iso-O monimutkaisuutta niiden lisäksi senhetkiseen kertaa.

Simulaatio Tietoaineistot

Real aineistot harvoin ovat täysin vahvistaneet maa totuus CNAs, ja näin ollen voida käyttää arvioimaan suorituskykyä menetelmiä. Kuitenkin simulointiteknologiat tarjota järkevä tapa ratkaista tämä ongelma [31]. Koska neljä arviointikriteerit kuvitettu edellä hyödynnetään määrällisesti menetelmiä eri näkökulmista, on välttämätöntä käyttää erilaisia ​​simulointi järjestelmiä tuottamaan erilaisia ​​aineistoja.

Ensimmäistä kriteeriä testaus tyypin I virheprosentti, me hyväksyy simulointi algoritmi käyttöön Hsu et al [32] ja Walter et ai [13] luoda null aineistoja. Algoritmi perustuu epävakauden-valinta malli [33], jota on alun perin käytetty monet tutkijat mallintaa LOH (Heterotsygotian menetys). Periaate simuloida kopioluvun aberraatioita alle epävakaus valinnan mallia voidaan yksinkertaisesti tiivistää seuraavasti [13]. Merkitsimen tila on ensinnäkin merkitään joko 0, kun ei poikkeavuus tai 1, kun poikkeavuus. Tuottaa peräkkäisiä markkereita, jotka ovat ominaisia ​​korreloivat pitkin yhtä kromosomin pituus

M

, ensimmäinen merkki sijainti

x

k

(

k

∈ {1, 2 , …,

M

}) on ennalta määritellyissä ja asema sen lähialueiden merkki

x

k

+1 sitten mallinnetaan perustuu siirtymisen todennäköisyyttä [13],

p

a, b

(

d

) =

p

(

T

(

x

k

+ 1) =

Vastaa