PLoS ONE: TAGCNA: menetelmää tunnistaa merkittävät konsensuksen tapahtumia Kopioi numero Muutokset Cancer

tiivistelmä

Somaattiset kopioluvun muutos (CNA) on yleinen ilmiö syövän genomin. Erottaminen merkittävä konsensus tapahtumia (SCE) satunnainen taustan CNAs useista eri aiheista on osoittautunut arvokkaaksi välineeksi tutkia syöpään. Jotta tiedettäisiin SCE hyväksyttävällä tyypin I virhemäärä, parempi tietotekniikassa tulisi kehittää perustuttava kohtuullisiin tilastoihin ja null jakaumia. Tässä artikkelissa, ehdotamme uutta lähestymistapaa nimeltä TAGCNA tunnistamiseksi SCE somaattisten CNAs jotka voivat käsittää syöpää kuljettajan geenejä. TAGCNA työllistää irrotettavaa permutaatio järjestelmä tuottaa kohtuullinen null jakaminen perustuu ennalta jossa valitaan tunnisteen CNA markkereita genomista harkitaan. Osoitamme tilastollista voimaa TAGCNA simuloituihin kentällä totuus tiedot, ja vahvistaa sen soveltuvuus kahdella julkisesti saatavilla syöpä aineistot: keuhkojen ja eturauhasen adenokarsinooma. TAGCNA tunnistaa SCE, joiden tiedetään olevan mukana esikasvaintekijät (

esim

EGFR, CDK4) ja tuumorisuppressorigeeneille (

esim

CDKN2A, CDKN2B), ja tarjoaa monia muita SCE mahdollinen biologinen merkitystä näitä tietoja. TAGCNA voidaan analysoida merkitystä CNAs erilaisissa syövissä. Sitä toteutetaan R ja on vapaasti saatavilla https://tagcna.sourceforge.net/.

Citation: Yuan X, Zhang J, Yang L, Zhang S, Chen B, Geng Y, et al. (2012) TAGCNA: menetelmää tunnistaa merkittävät konsensuksen tapahtumia Kopioi numero Muutokset Cancer. PLoS ONE 7 (7): e41082. doi: 10,1371 /journal.pone.0041082

Editor: Gayle E. Woloschak, Northwestern University Feinberg School of Medicine, Yhdysvallat

vastaanotettu: 03 helmikuu 2012; Hyväksytty: 17 Kesäkuu 2012; Julkaistu: 18 heinäkuu 2012

Copyright: © 2012 Yuan et al. Tämä on avoin pääsy artikkeli jaettu ehdoilla Creative Commons Nimeä lisenssi, joka sallii rajoittamattoman käytön, jakelun ja lisääntymiselle millä tahansa välineellä edellyttäen, että alkuperäinen kirjoittaja ja lähde hyvitetään.

Rahoitus: Tämä työ tukivat Natural Science Foundation of China alle Grants 61070137, 91130006 ja 60933009; Yhdysvaltain National Institutes of Health alle Grants CA160036, CA149147, ja GM085665; ja tukema hanke Natural Science Basic Research Plan Shaanxin maakunnassa Kiinassa (Ohjelmanro 2012JQ8027); tieteen ja teknologian Research Development Program Shaanxin maakunnassa Kiinassa (nro 2009K01-56), ja perustutkimus rahastojen Central yliopistot (nro K50511030002). Rahoittajat ollut mitään roolia tutkimuksen suunnittelu, tiedonkeruu ja analyysi, päätös julkaista tai valmistamista käsikirjoituksen.

Kilpailevat edut: Kirjoittajat ovat ilmoittaneet, etteivät ole kilpailevia intressejä ole.

Johdanto

Somaattiset kopioluvun muutokset (CNAs) jaetaan koko genomin lähes kaikissa ihmisen syövistä [1]. Yksi systemaattista toimia tutkitaan vaikutus CNAs syövän kehitykseen on erottaa huomattava yksimielisyys tapahtumia (SCE), jotka edustavat ”kuljettaja mutaatiot” satunnaisesta taustan CNAs jotka edustavat ”matkustaja mutaatioiden” [2], [3]. Erittäin korkean resoluution array teknologian ja laaja kokoelma syöpäpotilailla edelleen kokonaisvaltainen käsitys mutaatiotapahtumaa tällaiseen ohjelmaan [1], [3], [4]. Tämä puolestaan ​​johtaa kriittinen vaatimus on tietotekniikassa tunnistamiseksi merkitys poikkeamia, jotka ovat yhteisiä useille aiheista.

Tällä hetkellä monet tilastolliset lähestymistapoja on kehitetty. STAC (merkitys testaus Poikkeava Copy numero) [5] testit CNAs erikseen monistuksia ja poistot, ja se vaatii binary lähtötiedot matriiseja, jossa ”yksi” merkitsee vahvistus (tai poisto) ja ”nolla” edustaa normaalitilaan. Tämä menetelmä hyödyntää kahta täydentäviä tilastoja: taajuus ja jalanjälki, mittaamaan kunkin merkin alle hypoteesia, että havaitut CNA alueet ovat yhtä sijoittaa mihin tahansa poikki genomin tutkittavina. Erityisesti ”taajuus” tilastoa käytetään heijastamaan yleisyyttä poikkeavuus poikki näytteitä ja ”jalanjälki” tilastoa käytetään heijastamaan tiukka linjaus poikkeavan alueen poikki näytteitä. Lisäksi ”jalanjälki” huomioi korrelaatiot keskuudessa poikkeavuuksien pituudet CNA alueilla. Kuitenkin molemmat tilastoja ei ole sisällytetty amplitudin poikkeamia, joten joitakin tärkeitä tietoja voidaan hukata, koska korkean tason monistukset ja poistot voivat johtaa erilaisiin biologisiin vaikutuksia verrattuna matalan tason poikkeavuuksien [6]. Samanlaisia ​​STAC, synergisillä (Genomic merkityksellisten tavoitteiden Cancer) [3] analysoidaan myös monistukset ja poistot erikseen, mutta se vaatii lähtötiedot segmentoitu signaaleja. Tämä menetelmä suunnittelee G-pisteet sisällyttämällä molemmat taajuus ja amplitudi poikkeamia, ja määrittää G-pisteet kunkin merkin arvioimiseksi merkitys perustuu osittain juuri arviolta null jakeluun. Null jakauma on perustettu olettamalla CNA markkereita ovat riippumattomia. Näin ollen yhteisvaikutukset vierekkäisten markkereita ohitetaan CNA: llä [7]. Parantaakseen ilmaisemistehoa, laajentamista synergisillä, GISTIC2.0 [8], on ehdotettu, joka pitää eroa taustalla taajuuden välillä polttoväli CNAs ja laaja CNAs ja tulokset kunkin merkin verrannollinen sen amplitudi. Toinen samanlainen menetelmä on dinamic (Discovering Kopioi numero Aberrations ilmenee Cancer) [9], jossa määritellään yhteenveto tilastotieto kunkin merkin ja suunnittelee uuden kehyksen merkityksen arviointiin. Se työllistää syklisen permutaation järjestelmä tuottaa null jakeluun, jossa rakenteellinen informaatio alkuperäisestä kopioluvun data säilyy. Dinamic edelleen tekee ”irrotettava” algoritmi havaita vähemmän usein merkkiaineita. Yleensä se piirre, että edellä mainittuja menetelmiä osuus on niiden kaksivaiheista lähestymistapaa, eli he tarvitsevat ennen vaiheen discretizing CNA signaaleja käyttämällä yksittäisiä-näytteen analysointia menetelmiä [10], [11]. Välttämiseksi riippuvuutta yksittäisistä-analyysissä monet kirjoittajat ehdottavat yksivaiheista laskennallinen lähestymistapa. Esimerkiksi KC-SMART (Kernel konvoluutio: Tilastolaskutoimituksen Menetelmä Poikkeava Region Detection) [12] suoraan analysoidaan raaka intensiteettisuhdetta data (eli tietoja ilman diskretointi yksittäisissä näytteissä) tunnistaa SCE käyttämällä uutta tilastotieto: Kernel tasoitettu Arvio (KSE ), jossa otetaan huomioon signaalin voimakkuuden vierekkäisten markkerit; ja CMDS (korrelaatiomatriisille Diagonal Segmentointi) [13] tulokset kukin merkki perustuu sen korrelaatiot ympäröivään sivustoja raaka intensiteettisuhteet. Monet muut perustuvia lähestymistapoja Shah [14] ja Rueda

et al.

[7].

Sisällä Nykyiset lähestymistavat, kolme yhteistä ja tärkeät komponentit voidaan tiivistää seuraavasti: (1) tiedot platform, eli raaka intensiteettisuhdetta tietoja tai diskretoidaan data (vastaa yhden vaiheen tai kaksivaiheinen lähestymistapa), havaitsemiseksi SCE; (2) tilastotieto liittyy genomisen yksikköä (

esim.

Markkereita tai geenejä); ja (3) null jakelu testaamiseen tilaston. Kuitenkin yksi yllättävän vaikea kysymys on se, miten tehdä johdonmukaisuus kolmen komponentin, ottaen huomioon CNA rakenteisiin ja tilastollista merkittävyyttä. Toistaiseksi ei ole olemassa varmaa ratkaisua tähän kysymykseen. Yhden vaiheen menetelmät voivat johtaa suureen biasointisignaali tilastojen [15], jossa nolla jakelu ei ole aivan sopusoinnussa tarkoituksenaan tunnistaa SCE satunnaisesta tausta CNAs,

esim

nollahypoteesia taustalla CMDS on, että ei ole CNA. Tässä tapauksessa SCE ilmaisemistehoa voi suuresti vaikuttaa esiintymistodennäköisyys satunnaisten CNAs. Kaksivaiheinen menetelmät hyödyntävät usein rajatulla CNAs (voitot ja tappiot) tuottaa null jakelun kautta permutaatiot. Kuitenkin monet heistä hyväksyy merkki perustuva pisteytys mutta aluekohtaisia ​​permutaatio järjestelmiä, kuten STAC ja dinamic menetelmiä. Synergisillä ohjelma tekee ulos kohtuullisen yhdenmukaisuuden kolmesta osasta, mutta se ei pidä korrelaatioista keskuudessa markkereita. Tämä saattaa tehdä tilastollisen merkittävyyden konservatiivinen useita testaus [16], ja ne voivat olla biologisesti relevantti [7]. Kaiken useimmat nykyiset menetelmät joko yhden vaiheen tai kaksivaiheinen kehysten määrällisesti CNAs ja testata merkitys perustuu yksittäisten markkereita, jotka liittyvät yleensä toistensa kanssa. Tämä voi johtaa vähentynyt teho havaitsemisessa CNA alueilla erityisesti niille vähemmän äärimmäisiä alueilla [7]. Lisäksi ne yleensä tuottavat null jakaumat sekoitus SCE (false nollahypoteesi) ja satunnainen taustan CNAs (true nollahypoteesi). Tämä on teoreettisesti poikkesi todellisesta null jakelun tilastollisen hypoteesin testaus, vähentää merkitys merkityksen arviointiin.

Näiden seikkojen tässä artikkelissa ehdotamme uutta lähestymistapaa, TAGCNA, tunnistamiseksi SCE perustuu jatkuvaan segmentoitujen signaali suhteet. Lähestymistapa koostuu kahdesta vaiheesta. Ensimmäinen, valitse tag CNA markkereita genomista analysoidaan, ja sitten tuottaa uutta tietoa matriisin, joka koostuu tag markkereita, joista kukin on tekee sisällyttämällä sekä taajuus ja amplitudi CNA; ja toiseksi, tietojen perusteella matriisi, luo null jakelu käyttämällä irrotettavaa permutaatio järjestelmään. Ensisijainen ominaisuudet lähestymistavasta ovat: (1) sekä pisteytys ja permutaatio erottamisessa on perustuvat tag marker-tason huomioiden korrelaatiot toistensa naapureina markkerit; (2) keskiarvo nolla jakelu siirtyy vasemmalle johtuen irrotuslisävarustetta menettelyn tag merkkiaineita, lähestyy että totuudesta null jakeluun. TAGCNA voidaan analysoida tietoja yksittäisten kromosomien sekä saatujen tietojen genomin laajuista tutkimusta. Testaamme sen tilastollinen voima laajaan simuloitu kentällä totuus data, ja sitten soveltaa sitä kaksi todellista aineistoja keuhko- ja eturauhasen syöpiä. TAGCNA onnistuneesti tunnistaa SCE liittyvät tunnettuihin syövän kuljettajan geenejä, ja tarjoaa monia muita SCE mahdollisten biologista merkitystä.

Materiaalit ja menetelmät

Data Format

Original dataa esikäsitellään yksittäisillä -sample analyysimenetelmät kuten CBS [10], [17], ja se tallennetaan matriisiin

X

(

N

×

L

), jossa kukin rivi edustaa altista ja kukin sarake edustaa merkki. TAGCNA aloittaa työn tästä pisteestä. Se hyväksyy kynnysarvot (

θ

amp ja

θ

del) määritellä monistukset ja poistot on

X

, ja erottaa

X

kahteen matriiseihin

X

amp (

N

×

L

) ja

X

del (

N

×

L

). TAGCNA analysoi vahvistusta ja poistetaan erikseen, koska ne ovat yleensä pidetään pelaa erilliset tehtävät syövän kehittymisessä.

matrix

X

amp (tai

X

del), aberraatio on edustettuna log

2-suhde, eikä poikkeama edustaa nolla. Alla kuvataan TAGCNA periaate testata merkitystä CNAs joko analyysissä laajentaa tai poistamisen tietojen matriisi.

valitseminen Tag CNA merkkiaineet

Somaattiset CNA on rakenteellinen vaihtelua ihmisen perimän, mikä anturit genomissa on luonnostaan ​​korreloivat vaikka CNAs ovat satunnaisia ​​tausta tapahtumia. On toivottavaa säilyttää tämä korrelaatio ja maksimoida riippumattomia toisistaan ​​testisuureen analysointiin CNAs. Nämä seikat johtivat meidät suunnittelemaan TAGCNA testata CNAs jakamalla genomin pieniksi korrelaatio lohkot ja valitsemalla tag markkereita eri lohkoja, joiden oletetaan riippumattomia. Pisteytys ja permutaatio menettelyt TAGCNA suoritetaan sitten tag markkereita.

(a) matriisi profiili 100 aiheita ja 1000 markkerit; valkoinen värillinen kannat osoittavat kopiomäärä muutoksia. (B) korrelaatio arvo kullekin markkeri, joka on keskimääräinen kerroin keskuudessa ympäröivä markkereita. (C) Block korrelaatioarvo johtui osio genomin perustuvat (b). (D) uusi data matriisi koostuu tag CNA markkereita (tässä

N

= 100,

M

= 50); kukin tunniste markkeri valitaan kustakin lohkosta (c), jossa punaisia ​​pisteitä ovat keskellä lohkojen, jotka edustavat tag markkereita.

CNA korrelaatio lohko osio suoritetaan perustuu joukko aiheita (Kuvio 1). Ensimmäinen vaihe on laskea korrelaatiokertoimet vierekkäisten merkkiaineiden kautta Pearson korrelaatio kaava [13] 🙁 1) jossa

r

ij

on korrelaatiokerroin merkkiaineiden

i

ja

j

;

N

on näytteiden määrä;

x

ni

on log

2-suhde aihe

n

at merkki

i

; , Ja ovat log

2-suhde keskiarvot ja keskihajonnat merkkiaineiden

i

ja

j

kaikissa aiheista. Sitten saadaan korrelaatioarvo kunkin merkin

k

keskiarvoistamalla kertoimilla keskuudesta ympäröivälle markkereita yhtälön (2) [13] 🙁 2) missä

w

on ennalta määritetyn ikkunan koko noin merkki

k

. Kuvio 1 (b) esittää korrelaation arvo 1000 markkerien exampled väestöstä. Hyödyntää paikkatietojen johdonmukaisuutta vieressä markkereita, oletamme, että korrelaatioarvot läheisellä markkereita ovat samalla tasolla ja työllistää CBS algoritmi [10] osioida koko genomin lohkoihin jossa korrelaatioarvojen vaihtaa vierekkäisten (kuvio 1 (c )). Kussakin lohkossa, yksi tunniste markkeri valitaan sen keskeltä päällä. Siten kokonaismäärä tag markkereita on määrä lohkoja johtui osio genomin. Uusi data matriisi T (

N × M

) jälkeen tuotetaan perustuu tag markkereita (kuvio 1 (d)), jossa

M

on määrä tag markkereita.

Peel-off permutation ja arviointi Statistical merkitys

tietojen perusteella matriisi

T

, TAGCNA suorittaa irrotettavaa permutaatio [3], [9] tuottaa null jakeluun alla hypoteesin että ei ole SCE, jonka mukaan kaikilla tag merkkiaineiden

T

ovat matkustajia, ja sitten arvioidaan tilastollisen merkityksen havaittu tag markkereita. Peilata tähän, TAGCNA tulokset jokainen merkin merkki

m

sisällyttämällä taajuus ja amplitudi CNA [3] 🙁 3), jossa

t

nm

on log

2-suhde aiheen

n

at tag merkki

m

matriisissa

T

. Huomaa, että merkitys tunnisteen markkeri on tarkoitus edustaa merkitystä vastaavan genomin lohko.

Se alkaa tag markkeri data matriisi

T

(

N

×

M

), ja generoi null jakelu

D

1 läpi permutaatioista tietoihin. Perustuen

D

1, merkitsevyystaso on kullekin tag merkki. Jos merkitsevyystaso on alle cutoff (

esim

0,05), vastaava markkereita (

esim of the

i

nnen tag merkki) poistetaan matriisista seuraavan iterointia permutaatio ja merkitsevyystestillä. Tämä menettely jatkuu, kunnes saavutetaan nolla jakelu

D

H

, jonka perusteella ei ole ylimääräisiä tag markkereita tunnistetaan merkittäviä. Tässä menettelyssä keskiarvo nolla jakelu siirtyy vasemmalle vähitellen,

esim

toisen iteroinnin,

D

2 siirtyy vasemmalle verrattuna

D

1.

nyt kuvaamme menetelmän kuoriutumisadheesiotesti permutaatio ja merkitsevyystestillä yksityiskohtaisesti, joka on myös esitetty kuviossa 2. alussa nolla jakelu

D

1 arvioidaan käyttämällä permutaatio matriisin

T

1 (

T

1 =

T

). Perustuen

D

1, kukin tunniste markkeri on osoitettu p-arvo. Tämä algoritmi voidaan jakaa seuraavasti:

oppiaineiden suorittaa permutaatio tunnisteen markkereita eli satunnaisesti aseta tunnisteen merkkiaineiden tag paikoissa genomin.

ionivaihdettua aineisto

δ

(

T

1), laske pisteet yli tag marker

m

, merkitään

S

m

(

δ

(

T

1)),

m

= 1, 2, …,

m

.

Toista vaiheet (1) ja (2)

E

kertaa, eli suorittaa

E

permutaatiot aineisto, ja siten saada

E

permutoitua aineistot

δ

1 (

T

1),

δ

2 (

T

1), …,

δ

E

(

T

1), ja vastaavat tulokset

S

m

(

δ

1 (

T

1)),

S

m

(

δ

2 (

T

1)), …

S

m

(

δ

E

(

T

1)).

Anna

D

1 olla jakelussa max

m S

m

(

δ

(

T

1)) yli kaikki

E

muunnelmia, ja määritellä p-arvo tag marker

m

0 (

m

0∈ {1 …

M

}), jonka äärimmäinen oikea todennäköisyys [5], [9] 🙁 4) missä I (·) on osoitinmuuttujan.

Myöhemmin TAGCNA skannaukset p-arvot kaikissa tag markkereita. Jos mikä tahansa yksi tai useampi p-arvot ovat alle merkitys cutoff (

esim.

0,05), vastaava tunniste markkerit poistetaan (kuvio 2). Sitten uusi data matriisi

T

2 on tuotettu ilman sisällyttämällä merkittävää tag markkereita. Perustuen

T

2, nolla jakelu

D

2 voidaan luoda kautta yllä kuvatut vaiheet ja merkityksen taso loput tag markkereita voidaan arvioida.

menettely jatkuu kunnes saavutetaan nolla jakelu

D

H

, jonka perusteella ilman ylimääräisiä tag markkereita voidaan tunnistaa merkittävät. Menettelyn aikana, jono tietojen matriisien

T

1,

T

2, …,

t

H

ja jono null jakaumat

D

1,

D

2, …,

D

H

saadaan. Huomaamme, että sarakkeiden määrä tietojen matriisit pienenevät ja keinot null jakaumia liikkuu vasemmalle vähitellen yhdessä järjestyksessä. Tämä merkitsee, että

t

H

ehkä kuulu korkeasti äärimmäinen tag markkereita ja osuus todellisen nollahypoteesi on kasvanut huomattavasti, joten tuloksena nolla jakelu

D

H

saattaisi erittäin lähellä totuutta null jakeluun. Lopuksi, joka perustuu

D

H

, TAGCNA merkittävyyttä arvioidaan tasot kaikkien havaittujen tag markkereita uudelleen. Tämä saattaa parantaa tehoa tunnistamiseksi vähemmän äärimmäisiä SCE: ssä ja myös korjata p-arvojen suhteen tilastollista merkittävyyttä.

Tulokset

simulaatiotutkimuksia

Real aineistoja on harvoin täysin vahvistettu maa totuus SCE, joten on vaikea arvioida suorituskykyä tilastollisten menetelmien todellisiin tietoihin. Tässä osiossa suunnittelemme simulaatiotutkimuksia testata tilastollista voimaa lähestymistapamme. Simulointi esittämä malli Willenbrock ja Fridlyand [18] muunnetaan tuottamaan CNA aineistoja erilaisissa parametriasetukset. Kussakin ympäristössä, me simuloida 100 aiheita jokaisessa on 10000 markkereita. Log

2-suhde kutakin aihe syntyy sekoittamalla normaalit ja syöpäsoluja. Osuus normaalien solujen tietyn kohde vedetään yhtenäinen jakautuminen 0,3 ja 0,7. Gaussin melu keskiarvo on nolla ja vaihteleva varianssi lisätään kuhunkin aiheeseen. Täällä pidämme kolme tasoa varianssia Gaussin kohinan jakauma eli sen keskihajonta (SD) (σ) vedetään tasaisesti [0,1, 0,2], [0,2, 0,4] tai [0,4, 0,6] [18] vuonna simulointia kunkin aihe. Edelleen tehdä simulaatio realistisempi, lisäämme kaksi ei-SCE alueille pituus ulottuu 50 500 kuhunkin aiheeseen. Asennot kuin SCE alueet satunnaisesti valittu venyttää simuloidun genomin, ja log

2-suhteet alueiden syntyy tasaisesti välillä 0,585 (kappaletta 3) ja 1,322 (kappaletta 5). Kolme maa totuus SCE on upotettu simuloidussa aineistot. Tukin

2-suhteet ja pituudet niistä määritellään Ratio = {0,585, 1, 1,322} ja L = {200, 100, 50}, vastaavasti. Taajuus kaikkien kolmen SCE poikki aiheita merkitään

f

. Kaksi taajuutta tasoa, 0,15 ja 0,20, pidetään simulointiin eri genomin aineistoja.

Toteutamme TAGCNA simuloidun aineistot asettamalla parametrit

θ

mp ja

θ

del 0,1 ja -0,1, sekä

w

20, ja verrata sen suorituskykyä vastaan ​​CMDS [13], joka perustuu ROC käyrät, jotka on esitetty kuviossa 3. Jokainen ROC käyrä on piirretty yhdelle simulointiin parametrien asetukseen, jossa TPR (tosi positiivisia) versus FPR (vääriä positiivisia) lasketaan eri merkitys tasoilla ja sen jälkeen keskimäärin yli 100 simuloitu Toistoja. Kuvasta 3 voidaan todeta, että useimmissa tapauksissa, TAGCNA on tehokkaampi kuin CMDS kannalta suurempien alueiden alla ROC käyrät. Siksi TAGCNA on arvokas väline tunnistamisessa SCE taustasta CNAs.

TPR ja FPR ovat keskimäärin yli 100 simuloitu toistojen kussakin parametriasetus. Käytämme kaksi vaihtoehtoa (eli b = 10 ja b = 20) CMDS menetelmän data-analyysi.

Lisäksi, tutkia käyttäytymistä TAGCNA alle todellisen nollahypoteesi, että ei ole olemassa SCE me hyväksymme algoritmi käyttöön Walter et al. [9] simuloida null CNA aineistot ja suorittaa TAGCNA näiden tietojen. Jälleen kolme tasoa Gaussin kohina pidetään simuloinnissa järjestelmässä, jolla pyritään osoittamaan vankka käyttäytymistä TAGCNA. Tulokset näistä kokeista on esitetty taulukossa 1. Kussakin tapauksessa tyypin I virheprosentti oli tuloksena TAGCNA lasketaan seuraavasti:

Simuloida 600 aliotosten simulaation avulla algoritmia oletus parametrointi Walter ym työ [9].

kutakin tietojen kopiointi, toteuttaa TAGCNA perustuu 1000 permutaatioiden, ja määrittää, onko CNAs ovat merkittäviä p-arvo 0,05.

Laske toistojen määrä, joissa on olemassa merkittävä CNAs, ja määrittelevät tyypin I virheprosentti koska osa näistä aliotosten vuonna 600 Toistoja.

arvot tyypin I virhemäärä taulukossa 1 ovat hyvin lähellä 0,05, mikä osoittaa, että TAGCNA on hieman konservatiivinen ja permutaatio menettelyn tag CNA merkkiaineita on suhteellisen kohtuullinen.

Application Real Tietoaineistot

sovellettu TAGCNA kaksi yleisesti saatavilla syöpä aineistot. Ensimmäinen käsittää 371 keuhkoadenokarsinooma aiheita, joista jokainen sisältää 216327 markkereita. Tämä aineisto saadaan TSP (kasvain Sequencing Project) hanke ja se on saatavilla osoitteessa https://www.broadinstitute.org/cancer/pub/tsp/[19]. Toinen on peräisin 82 eturauhasen adenokarsinooma aiheita TCGA (Cancer Genome Atlas) hanke, jokainen aihe profiloitiin käyttäen SNP6.0 vuonna 1868857 markkereita, ja tiedot ovat saatavilla osoitteessa https://cancergenome.nih.gov/. Alkuperäiset CNA data segmentoidaan kautta yksittäiset-näytteen analysointia ja muuttuvat tulo muodossa TAGCNA kuvatulla tavalla ohjelmistopaketti dokumentti. TAGCNA toteutetaan kussakin kromosomissa analysoimiseksi vahvistusta ja poisto erikseen. Asetamme log

2-suhde kynnykset

θ

amp ja

θ

del kohteeseen 0,848 (3,6 kappaletta) ja -0,737 (1,2 kopiota), joka on asettaessaan synergisillä menetelmän analysoinnissa syövän genomien [19], sekä parametri

w

20, ja suorita 1000 satunnainen permutaatio merkityksen arvioimiseksi tag markkereita. Tag markkereita p-arvot alle 0,05 katsotaan merkittävästi, ja näin ollen kyseisen genomin lohkot pidetään SCE.

Tulos keuhkojen adenokarsinooma aineisto.

Kuviossa 4 on esitetty merkitys maisema koko genomin johtui analyysi keuhkojen adenokarsinooma aineisto. TAGCNA tunnistaa yhteensä 16 monistukset ja 29 poistot eri kromosomeissa luetellut molemmin puolin kuviossa 4. geenejä, joita nämä SCE on annettu taulukossa S1. Monet tunnetut syövän kuljettajan geenejä sisältyvät tulokseen. Esimerkiksi EGFR (epidermaalinen kasvutekijäreseptori) on onkogeeni sisältyvät 7p11.2 (p-arvo 0,001). Sen monistukset voi johtaa yli ilmaisun ja hallitsematon solujen jakautumisen, joka on taipumus syöpään [20]. Suurin päätellä kopioluku at 7p11.2 on 9,1, ja siellä on 11 (3%) potilailla, joilla oli kopiomäärä yli kynnyksen 3.6 klo alueen ja 50 (13,5%) henkilöillä yläpuolella kynnyksen 2.5.

-log10 ( p-arvot) annetaan vahvistus ja poistamista alueilla vastaavasti. Katkoviivalla vihreä viiva on sijoitettu 1,3 (vastaava p-arvo 0,05) kuin katkaisu vaatii merkittävää yksimielisyyttä tapahtumia. Kromosomi 23 ilmaisee sukupuolikromosomi.

Käytämme Venn-kaavio vertailla SCE johtui TAGCNA kanssa alkaen synergisillä kuviossa 5. TAGCNA tarjoaa tilastollinen tuki 80% monistumistapahtumia ja 50% poistetaan tapahtumia, jotka synergisillä havaitaan. Suurin osa päällekkäin SCE käsittää yhden tai useamman onkogeenien tai tuumorisuppressorigeeneille. Lisäksi osa ei-päällekkäiseen poisto SCE of TAGCNA tukee CMDS tulos [13], kuten 10q21.2 ja 15q11.1. Lisäksi oletamme, että nykyiset lähestymistavat saattavat menettää joitakin SCE osoitettu olevan tilastollista ja biologista merkitystä. Täällä luonnehtia yksi SCE (21q22.2) yksilöivät TAGCNA. Häviämä 21q22.2 (p-arvo 0,001) esiintyy 11 (3%) potilailla, joilla oli kopiomäärä alle 1,2 ja esiintyy 24 (6,5%) potilailla, joilla oli kopiomäärä alle 1,5, ja pienin päätellä kopiomäärä on 0,3. Tämä SCE kattaa kolme geeniä (PCP4, DSCAM, ja TMPRSS3), jossa TMPRSS3 on validoitu olevan kliinisesti ja biologisesti liittyvät ihmisen sairauksiin [21], [22].

Päällekkäin vahvistusta ja poisto tapahtumat ovat lueteltu ylä- ja alaosassa on Venn-kaavio. Täällä käytämme yhteistä cutoffs q 0,05 ja p 0,05 synergisillä ja TAGCNA, vastaavasti.

Kuvassa 5 on helppo huomata, että useita uusia SCE havaita TAGCNA vuonna poisto on suurempi kuin, että vahvistusta. Tutkiminen kopioluvun profiileja keuhkoadenokarsinooma aineisto ja havaitun SCE paljastaa kaksi syytä ristiriita. Yleisin selitys on, että poisto tapahtuma on läsnä useammin kuin vahvistus tapahtuma [19] ja useimmat deleetiot ovat heterogeenisuus (eli yhden kopion menetystä) [3], kuten nähdään keuhkoadenokarsinooma näytteet 17p11.2 poisto . Tässä, 6,8% näytteistä osoittavat poistetaan suuruusluokkaa välillä 1 ja 1,5, kun taas vain muutama (1%) näytteistä osoittavat poistetaan suuruusluokkaa alle 1. Näin ollen, 17p11.2 on vähemmän äärimmäisiä alue (eli taajuus ja voimakkuus ovat suhteellisen matala), joita ei voitu havaita alle nolla jakelu myötävaikuttanut useiden suurten poisto SCE. Tällainen alueet saavuttaisivat merkitys poistamalla SCE genomista ja uudelleen uusien null jakaumia suorittaman TAGCNA. Toinen selitys on, että korrelaatiokertoimen joukossa poistetaan koettimet tässä aineisto on suhteellisesti suurempi kuin yksi vahvistus koettimia, jolloin havaitsemiseen yksittäisten koettimien ottamatta huomioon korrelaatiot johtaisi korkeampaan konservatiivisuuskerrointa. Esimerkiksi häviämä 7q11.22 osoitetaan p-arvo on alle 0.001 TAGCNA, mutta se on raportoinut synergisillä q-arvo on yli 0,025.

Tulos eturauhaseen adenokarsinooma aineisto.

merkitys maiseman koko genomin analysoitiin TAGCNA eturauhaseen adenokarsinooma aineisto esitetään kuvassa 6. yhteensä 91 vahvistus SCE: ssä ja 97 poistetaan SCE on yksilöity aineisto, ja katettu geenit ovat taulukossa S2. Useimmat näistä SCE on osoitettu olevan biologisesti merkityksellisiä ja tukevat aikaisemmin raportoituja lukuja. Esimerkiksi monistuksia at 1q21.1, 7p21.2, 7q36.1, 8q13.3, 8q23.1, 9p13.1, 14q24.2, 14q32.31, ja 16p11.2 esitellään Outi [23], jossa 7p21.2 sisältää transkriptiotekijän ETV1, jonka todettiin olevan olennaisesti yli-ilmentynyt osajoukko eturauhasen syöpien ja 14q24.2 on läheisyydessä HIF1A, koodaaman proteiinin tämän geenin on osoitettu olevan yli-ilmentynyt useissa eturauhasen syöpiä; ja monistukset at 11p15.4, 3p12.3, 3p12.1, 13q13.3, 17q12, 7p15.3, 7p15.2, 7q34, 5q35.3, ja 8p11.23 raportoidaan muut kirjoittajat [24], [25 ], [26], [27]. Deleetioita 2q14.2, 4p16.1,4q26, 6q13, 9p13.1, 10q23.2, 16q23.1, ja 17p13.3 esitellään Outi [23], jossa 10q23.2 and16q23.1 ovat erittäin lähellä tärkeitä potentiaali tuumorisuppressorigeeneissä PTEN ja HSD17B2; ja poistot on 8p12, 1q21.2, 5p15.2,5p14.3,5p12,14q12, 14q32.31, 6q14.1,13q13.3, 3q26.1, 11p15.4, ja 20p13 esittelevät muiden kirjoittajien [25 ], [26], [27], [28]. Nämä tulokset osoittavat, että TAGCNA sovelletaan analyysi todellinen CNA aineistoja.

-log10 (p-arvot) annetaan vahvistus ja poistetaan alueita vastaavasti. Katkoviivalla vihreä viiva on sijoitettu 1,3 (vastaava p-arvo 0,05) kuin katkaisu vaatii merkittävää yksimielisyyttä tapahtumia. Kromosomi 23 ilmaisee sukupuolikromosomi. Monet tärkeät SCE on lueteltu molemmin puolin kuvion.

Lisäksi, monia muita monistuminen ja poistetaan SCE tunnistetaan TAGCNA (A osa niistä on lueteltu taulukossa 2), jota voidaan käyttää lisätutkimuksia varten. Esimerkiksi 12p11.21 ja 15q24.1 käsittää geenien FGD4 ja HCN4 vastaavasti. Mutaatiot nämä geenit on liittynyt Charcot-Marie-Tooth tyyppiä 4H [29] ja sairas sinus syndrome2 [30] vastaavasti. Toteamme, että kaksi SCE osoittaa tilastollista merkitsevyyttä (p-arvo 0,001) sekä vahvistus ja poisto tilanteissa. Toinen poisto SCE 10q23.1 sisältää GRID1, jonka on osoitettu liittyvän kanssa lisääntynyt riski sairastua skitsofreniaan [31].

Keskustelu

Yleinen yhteenveto

tunnistaminen SCE somaattisten kopiomäärä data on osoittautunut tehokkaaksi tekniikka löytää syövän kuljettajan geenejä. Tässä artikkelissa ehdotamme uutta lähestymistapaa TAGCNA tavoitteena lisätä tilastollista tehoa havaitsemiseksi SCE. TAGCNA motivoi huolellisesti huomioon biologiset ja tilastollista merkittävyyttä. Jos haluat säilyttää luontainen korrelaatiot CNA tiedot ja tehdä johdonmukaisuus tilastotieto ja permutaatio menettely, TAGCNA rakentaa CNA lohkot ja testaa tilastollista merkitystä tag markkereita, jotka edustavat lohkoja. Korjaa p-arvot määritetty koodata merkkiaineita, TAGCNA tekee irrotettavaa permutaatio järjestelmä tuottaa kohtuullinen null jakelu.

Teemme simulaatiotutkimuksia tutkia suorituskykyä TAGCNA verrattuna kuin CMDS menetelmän. Koska molemmat menetelmät ovat pitäneet korrelaatiot toistensa naapureina markkereita ja mallinnettu keskiarvo korrelaatiot käyttämällä ikkunan kokoa, tasapuolisen vertailun, me valitsemme

w

= 20, koska oletusarvo CMDS algoritmin [13 ], simuloinnissa tutkimuksissa. Tulos osoittaa, että TAGCNA esittelee korkeampi tosi positiivisia samalla väärien positiivisten määrä eri simulointi aineistoja kuin CMDS menetelmän.

Vastaa