PLoS ONE: Mutation Discovery in alueiden Segmentaalinen Cancer Genome Amplifikaatiot Conan-SNV: Seosta malli Next Generation sekvensointi Tumors

tiivistelmä

Seuraava sukupolvi sekvensointi on nyt käytössä kustannustehokkaasti luettelointi täydestä mutaatiotutkimukset täydennys kasvaimen genomin erityisesti yhden nukleotidin variantteja (SNVs). Useimmat nykyiset laskennallisia ja tilastollisia malleja analysointiin seuraavan sukupolven sekvensointi tietoja, mutta eivät selitä syöpää erityisiä biologisia ominaisuuksia, kuten somaattisten segmentaalista kopioluvun muutokset (CNAs) -joka vaativat erityiskohtelua datan. Tässä esittelemme Conan-SNV (Copy Number Annotated SNV): uusi algoritmi päättely yhden nukleotidin variantteja (SNVs), jotka limittyvät kopiomäärä muutoksia. Menetelmä perustuu mallintamiseen ajatus, että genomialuetta segmenttikohtaisten päällekkäisyyttä ja vahvistus aiheuttaa laajennettu genotyyppi tila, jossa osajoukko genotyyppien näytteille voimakkaasti vinoutunut alleeliset jakaumat vuonna SNVs (jolloin niistä tulisi havaita menetelmillä, jotka olettavat diploidian). Me käyttöön käsite mallinnus alleeliset lukemien sekvensointi dataa paneelia Binomial seoksen malleja, joissa määrä seosten tietyn lokuksen genomissa on ilmoittanut diskreetti kopiomäärä tila annetaan syötteenä. Käytimme Conan-SNV on aiemmin julkaistu koko genomin shotgun datajoukon saatu lobulaarinen rintasyöpä ja osoitettava, että se pystyy löytää 21 kokeellisesti uusittu somaattinen kuin synonyymi mutaatiot lobulaarinen rintasyövän genomia, joita ei havaittu käyttämällä kopiomäärä tunteeton SNV tunnistus algoritmeja. Tärkeää on, ROC-analyysi osoittaa, että lisääntynyt herkkyys Conan-SNV ei johda suhteettoman menetykseen spesifisyys. Tätä tuki myös analyysi äskettäin julkaissut lymfooma genomin suhteellisen lepotilassa karyotyyppi, jossa Conan-SNV osoittivat samanlaisia ​​tuloksia muiden soittajien paitsi alueilla kopioluvun voitto jossa lisääntynyt herkkyys oli myönnetty. Tuloksemme osoittavat, että genomisesti epävakaa kasvaimissa, kopioluku merkintä varten SNV havaitsemiseksi on kriittinen täysin luonnehtia mutaatiostatuksesta maisemaa syövän genomien.

Citation: Crisan A, Goya R, Ha G, Ding J, Prentice LM , Oloumi A, et al. (2012) Mutation Discovery in alueiden Segmentaalinen Cancer Genome Amplifikaatiot Conan-SNV: Seosta malli Next Generation sekvensointi kasvaimia. PLoS ONE 7 (8): e41551. doi: 10,1371 /journal.pone.0041551

Editor: Tšad Creighton, Baylor College of Medicine, Yhdysvallat

vastaanotettu: 30 kesäkuu 2011; Hyväksytty: 27 Kesäkuu 2012; Julkaistu: 16 elokuu 2012

Copyright: © Crisan et al. Tämä on avoin pääsy artikkeli jaettu ehdoilla Creative Commons Nimeä lisenssi, joka sallii rajoittamattoman käytön, jakelun ja lisääntymiselle millä tahansa välineellä edellyttäen, että alkuperäinen kirjoittaja ja lähde hyvitetään.

Rahoitus: Tämä työ rahoittivat Kanadan Breast Cancer Foundation (apurahan SPS), ja Kanadan Institutes of Health Research University of British Columbia /Simon Fraser yliopiston bioinformatiikan koulutusohjelma (stipendi AC). Rahoittajat ollut mitään roolia tutkimuksen suunnittelu, tiedonkeruu ja analyysi, päätös julkaista tai valmistamista käsikirjoituksen.

Kilpailevat edut: Kirjoittajat ovat ilmoittaneet, etteivät ole kilpailevia intressejä ole.

Johdanto

Viimeaikaiset edistysaskeleet massiivisesti rinnakkaisen genomin lyhyen lukea sekvensointimenetelmiin (niin sanottujen seuraavan sukupolven sekvensointi (NGS)) ovat asettaneet tavoitteeksi täydellisen rajauksen syövän genomin maisemien alas yhden nukleotidin ratkaisemista käytännön ulottuvilla. Uusia analysoinnissa lyhyen lukea sekvenssin tilastotietoja tarvitaan kuitenkin erityisesti ne, jotka pystyvät selviytymään koko genomin maisemia kasvaimia. Syöpä genomit tehdään monimuotoista somaattisen poikkeavuus, mukaan lukien yhden nukleotidin mutaatiot, translokaatiot, geenifuusioissa, poistot, inversioiden ja segmentaalisen genomin kopioluvun muutokset (CNAs). Useita eri somaattisten poikkeama on raportoitu esiintyvän yhdessä: esimerkiksi Kadota et ai. [1] havaittu toistuvia mutaatioita

PIK3CA

rintasyövän kanssa Alleelispesifisen amplifikaatioita mutanttialleelin samassa kasvaimet ja ehdotti, että

PIK3CA

pistemutaatioita samanaikaisessa CNA vahvistus johti synergistisiä kasvaimia aiheuttavalle vaikutukselle . Vastaavasti, Laframboise et ai. [2] osoitti alleelin spesifinen monistuminen on

EGFR

mutantti alleeli keuhkosyövän solulinjaa; esimerkkejä vahvistus kanssa yhdessä esiintyvät somaattisia mutaatioita

MYC

[3],

HRAS

[4], ja

MET

[5] on myös havaittu. Yhteistyössä esiintyminen yhden nukleotidin variantteja alueilla segmenttikohtaisten kopioluvun monistuksen asettaa erityisiä ongelmia, koska tuntemattoman seokset alleelin runsaus voi aiheutua prosessista segmenttikohtaisten monistamisen ja /tai myöhemmän valinta, joissakin tapauksissa sekoittavat tulkintaa. Tämä johtuu siitä, että seokset alleelien tahansa asema voi olla vinossa, jolloin poikkeamat teoreettisesta taajuus (0,5) heterotsygoottisten varianttien odotetaan diploidi genomien. Kuviossa 1 on esitetty esimerkki kromosomista 19 on lobulaarinen rintakarsinooman genomin raportoitu Shah et ai. [6] ja esittää vinossa vuonna alleelifrekvenssi pois Heterotsygoottisuuden takia alleelispesifisen kopioluvun monistuksen 19q. Sekä B-alleelin taajuus analyysi array data ja alleeliset suhde analyysi NGS tiedot tukevat mono-alleelinen monistuksella 19q tässä genomissa. Raportoimme tässä asiakirjassa, että tämä tapahtuma satamat 7 rinnakkaisiin somaattisista mutaatioista (katso tulokset) geeneissä (selityksin sen karyogram), jotka ovat havaittavissa analyyttisillä menetelmillä, jotka olettavat diploidian. Tarkka ja herkkä muunnos kutsuvan menetelmiä voi siten vaatia käsitteellistä sisällyttäminen yhteistyössä nykyisten segmentoituja kopioluvun variantteja (somaattisten tai ituradan) osaksi tulkintaa mitattuna alleelin taajuuksilla NGS tiedot. Tiheä genotyypitys paneelit ovat mahdollistaneet kvantifiointiin alleelispesifinen CNAs sisällyttämällä kopioluvun kanssa alleelinen genotyyppi. Algoritmeja kuten QuantiSNP [7], Vanilla Ice [8], Birdsuite [9], PennCNV [10] ja PIKNIK [11] malli alleelispesifinen CNAs laajentamalla genotyyppi tila-avaruus tavanomaisesta kolme diploidinen genotyyppiä: aa (homotsygoottinen merkittäviä alleeli), ab (heterotsygoottinen) ja bb (homotsygoottinen vähäinen alleelin). Vahvistimille alueiden määrä mahdollisia genotyypit luonnollisesti laajentaa, esimerkiksi triploideja kromosomi tai segmentoituja voitto voisi olla seuraavat genotyypit:. Huolimatta saatujen tietojen kautta nämä menetelmät, kaikki lopulta rajoittavat tarkkuutta ja laajuus array suunnittelu. Tärkeintä on, että löytö uusien somaattisten pistemutaatioiden ei yleensä ole mahdollista array alustoilla. Seuraavan sukupolven sekvensointi voittaa nämä rajoitukset, koska koko genomin shotgun-sekvensointi (WGSS) voi kysellä koko genomin ja paljastaa somaattiset mutaatiot loci eivät kuulu rakenteet. Lisäksi taajuus alleelien tietyssä näytteessä on digitaalinen laskenta harjoituksen, jonka dynaamista aluetta ei ole rajoitettu hybridisaatiolla ja fluoresenssin intensiteetti värikylläisyyttä ja herkkyys rajoitteet.

somaattisten korkean tason monistuminen 19q varsi on vahvistettu NGS sekä Affymetrix SNP6.0 tiedot. Novel somaattisia variantteja, jotka olivat ei havaita samtools variantti soittajan tai SNVMix ovat korostettu karyogram. A) ja B) osoittavat raaka loki kopiomäärä ja b alleeli intensiteetti vastaavasti normaalin DNA (samasta potilaasta) on Affymetrix SNP 6,0 array. Sininen väri osoittaa diploidi (neutraali) kopiomäärä tila; kirkkaampi väri punainen korkeamman tason vahvistusta. Kolme erillistä bändejä (B) osoittavat läsnäolo alleelien kätkeminen yksi kolmesta diploidi genotyyppiä: AA, AB ja BB. C) ja D) esittää etäpesäkekasvainten kopiomäärä ja b alleeli intensiteettiä vastaavasti. Korkean tason vahvistus on 19q varsi liitetään B alleeli intensiteetiltään osoittavat poissaolo AB heterotsygoottinen (keskellä) bändi, joka oli läsnä normaalissa. E) esittää alleelinen laskee seuraavan sukupolven sekvensointi kannat edustettuina array suhteessa syvyyteen; alleelinen lasketaan yhteen kokonaismäärä lukee sisältävät variantin kussakin asemassa jaettuna syvyys tuossa asemassa. F) esittää raaka kopion NGS tiedot selityksin kanssa vahvistus ja ilmoittaa samalla sivustoja amplifikaation paljastui ortogonaalisella array alustalla.

Useat syöpä genomeja on nyt syvästi sekvensoitiin NGS ja analysoitiin CNAs ja SNVs itsenäisesti käyttämällä bioinformatiikan lähestymistapoja jälkeen kohdennettuja validointi vahvistaa somaattisten muutoksiin. Nämä tutkimukset ovat paljastaneet uusia somaattisten pistemutaatioiden akuuttia myelooista leukemiaa [12], [13], rintasyövän [6], [14], munasarjasyöpä [15], melanooma [16], lymfooma [17] ja keuhkosyövän [18 ]. Work Pleasance et al. [16], Chiang et ai. [19] ja oman työn [6] mukaan CNAs voidaan päätellä sekvenssitiedot kuitenkaan mikään näistä tutkimuksista ovat käyttäneet algoritmeja, jotka nimenomaan integroida CNAs ilmoittamaan päättely SNVs. Tässä osoitamme, miten sisällyttämällä CNA tietojen SNV löytö syövän genomisekvenssitiedosta saannot ylimääräisiä uusia somaattisia mutaatioita, jotka olivat havaittavissa tavanomaisilla SNV Ennustusalgoritmien suunniteltu normaaliin diploid genomien.

Tutkimukset kuten Ding et al. [14] ja oman [6] ovat käyttäneet ultra syvää suunnattu amplikonin sekvensointia arvioida taajuus mutaatioiden väestön kasvainsolujen havaitakseen Saharan hallitseva tai harvinaisia ​​kloonisolulinjojen populaatiot. Tässä osoitamme, että ei-diploidi alleelin suhteet voivat syntyä myös alueilta kopioluvun liittyvät häiriöt alleeliset runsautta. Olemme päätellä, että tutkittaessa kopioluvun johtaa lisääntyneeseen herkkyyteen havaita sekä ituradan ja somaattiset variantteja ei-diploidi alueilla syövän genomien.

Tulokset

Conan-SNV malli

Voit puuttua alleeliset valtioiden alueilla kopioluvun poikkeavuus, kehitimme uuden mallin, Conan-SNV, suunniteltu sisältämään tietoa kopioluvun valtiolle yksittäisiä kantoja. Kuvattu kaavamaisesti kuviossa 2A, minkä generatiivinen todennäköisyyspohjaisiin graafisen mallin kuvassa 2B, malli käyttää hierarkkista Bayes [20] ehdollisen itsenäisyyden kehyksen parametrien arviointi ja päättelyyn. Conan-SNV liittyy SNVMix1 kuvatun mallin Goya et al. [21], mutta merkittäviä eroja; eli SNVMix1 ei koodaa kopioluvun muutokset, joita esiintyy yleisesti syövän genomien (kuten 19q vahvistus on esitetty kuviossa 1). Tämän rajoituksen voittamiseksi, Conan-SNV syöttää joukon alleelisen laskee ja diskreetti kopioluvun annetaan kunkin aseman tiedot. Esimerkki tulot ja lähtö on esitetty kuviossa 2C. Tavoitteena on ennustaa, pois kiinteän määrän genotyyppien (tiedotti kopioluku tila), olisi todennäköisesti ovat herättäneet havaittuun alleelisen laskee tietyssä asemassa. Alleelinen laskennat edustettuina määrä lukee kussakin asemassa, jotka vastaavat viitteen, jossa

T

on kokonaismäärä tehtävissä tulo. Annoimme edustavat kokonaismäärä lukee linjassa asentoon

i

(tai syvyys) on tulo. Esittelemme kun kopioluku valtiolle asemassa

i

, ja oletamme tiedetään suorituksen aikana. Teoriassa koko lastitilan alleelin valtioiden voitaisiin päätellä tietoisena absoluuttinen kopioluvun kuitenkin määritysmenetelmät absoluuttisen kopiomääräksi aCGH tiedot pysyvät ongelmallista ja käytännössä on epätodennäköistä, että kaikki valtiot voisivat ratkaista vaikka nykyinen näytteenotto syvyyksiin NGS (katso keskustelu). Siksi on alustava arvio, olemme määritelleet kopiomäärä valtio,, jossa TAPPIO vastaa poisto, NEUT on kopioluvun neutraali, GAIN likipitäen alhainen päällekkäisyyttä, AMP suunnilleen matalan keskitason vahvistus ja HLAMP on korkean tason kopioluvun vahvistusta. Tässä käytämme HMM-pohjainen, jonka ovat kuvanneet [6]. He avain intuition Conan-SNV malli on joka informoi tila-avaruus mahdollisten genotyyppien asemassa

i

seuraavasti: (1) Loss segmentit analysoidaan neutraalilla tilaesityksen koska he esittävät haasteita, jotka vaativat näkökohdat jotka ovat erillään monistukset ja itse asiassa voi jopa vaatia ilmaisen normaali genomin. Kirjanpito kopiomäärä voittoja on erityisen tärkeää silloin, kun tällaiset muutokset ovat alleelin erityisiä, ja kun alleeli, jota vahvistetaan on viittaus alleeli. Tarkastellaan esimerkiksi tapausta, jossa tämä aiheuttaa genotyyppi tila-avaruus. Mallimme on siis teoriassa kykenee havaitsemaan variantteja alleelinen jakaumat vinossa pois heterotsygotian (eli

aaaab

tai

abbbb

). Annoimme edustavat parametri binomijakaumasta joka koodaa odotettu osuus lukee vastaavia referenssijaksoa tiettyä kopiomäärä valtion ja genotyypin tilassa. Voimme siis ilmaista todennäköisyyttä havainnoimiseksi lukumäärällä lukee tietyn syvyyden, kopioluku valtio, genotyyppi ja mallin parametrit seuraavasti: (2) jolloin oletetaan jaetaan mukaan valtion erityinen binomijakaumasta indeksoitu genotyyppi

ja

kopioluku. Olemme myös koodaavat kopioluvun erityisiä ennen yli genotyyppejä, olettaen että genotyyppien varten kopiomäärä valtion c jaetaan mukaan Multinomijakauma jossa mitta kaikille, joissa on kokonaismäärä kantojen kopioluku valtion. Käytämme Bayesin sääntö laskea posterior todennäköisyys, että genotyyppi

k

johti Havaintojen nimenomaisella koodausta kopioluvun valtion: (3), jossa on useita mahdollisia genotyyppien varten kopiomäärä tilassa

c

(katso yhtälö (1)). Koska voimme sitten valita laskea: missä mikä tahansa muunnos genotyyppi tilassa (eli mikä tahansa tila, joka ei ole

aa

,

aaa

,

aaaa

jne sillä tapauksesta riippuen) edustaa yksi todennäköisyys, että asema koodaa SNV.

A) Conan-SNV genotyyppi tilaesityksen laajennus esitetty kaavamaisesti. Koska korkeampi vahvistus kohdataan, suuremman genotyyppi tila-tilaa tarvitaan paremmin erilaisia ​​tapahtumia, jotka voivat aiheutua monistuksia (esimerkkejä kuvassa S1). B) Conan-SNV generatiivinen probabilistic graafinen malli. Ympyrät edustavat satunnaismuuttujia, ja pyöristetty neliöt edustavat kiinteitä vakioita. Varjostetut solmut osoittavat havaittu tietoja, kuten alleelinen laskee, kun taas valkoinen solmut osoittavat määriä, joita päätellä harjoituksen aikana vaikka odotus maksimoinnista. edustaa CNA valtioiden segmentin (määritelty HMM kuvaavat Shah et ai. [6]), joka ulottuu asentoon

i

; edustaa genotyyppi, joka vaihtelee CNA tilassa; on määrä lukee ja on lukumäärällä lukee; on ennen nykyisten yli genotyypit ja ulottuu majoittaa CNA todetaan; ja on genotyyppispesifinen binomi parametri genotyypin k CNA tilassa Ci. C) Esimerkki Conan-SNV tulon ja lähdön. Conan-SNV vie alleelinen laskee ja samoin on CNA segmentin dataa syötteenä, kun taas SNVMix vaatii vain alleeliset laskee. Samat asemat ja laskee tarjotaan molemmat algoritmit, jotka antavat erilaisia ​​tuloksia. Joissakin tapauksissa conan-SNV soittaa variantti, jossa on

aaaab

tai

AAAB

genotyyppi, joka muuten jäädä huomaamatta SNVMix; kuitenkin myös Conan-SNV myös genotyypin kantoja

abbbb

sijaan

bb

(kuten SNVMix [21] olisi), joka mahdollistaa paremman tapahtumien selityksen.

Hyperpriors ja hyperparameters.

oletetaan jakelussa noudatetaan konjugaatti Dirichlet’n jakaumaa parametreja. Tämä on käyttäjän määrittelemä parametri. Tutkimuksessamme asetimme jotta suosia ei-variantti valtioiden sillä useimmat tehtävissä genomissa on homotsygoottisia referenssisekvenssissä (so villityypin). Oletamme jakelussa noudatetaan konjugaatti Beta jakelu parametreilla. Asetamme käyttäen biologisia intuition että homotsygoottinen vertailupositioiden on lähes ”puhdas”, vähenevien osuus kohti homotsygoottinen variantti kantoja. Kaikki hyperparameter asetukset on esitetty taulukossa S1.

Malli istuva ja parametrien estimointi.

Koska vapaan mallin parametrit, voimme osoitti kuinka käyttää yhtälöitä (3) ja (4) päätellä varten kaikki

i

vuonna lähtötiedot. Kuten osoitti [21], on edullista sovittaa malli tietoihin käyttämällä odotusarvo maksimointi (EM) oppia. Sillä Conan-SNV, me käsittelemään tiedot kunkin kopiomäärä valtion erikseen ja ajaa EM kunkin datajoukon itsenäisesti (ks Methods). Kuvaamme sen lyhyesti. Anna edustavat täydellinen tehtävissä lähtötietojen selvennettävä kopiomäärä tilassa

c

. Iteroimalla yli kopioluku valtiot, E-vaihe koostuu Computing kaavalla (3) kullekin paikalle, ja nykyinen arvioihin. M-vaihe uudelleen arvioiden standardin konjugaatin päivittäminen: (5) (6) Algoritmi jatkuu kunnes koko data log taka enää kasvaa tai suurin iteraatioiden on saavutettu.

Conan-SNV suorituskyky simuloidun datan.

simuloidaan noin 1000 positiot kullekin kopiomäärä valtio kouluttaa mallin ja sitten arvioida suorituskykyä 100 simuloitu testissä sarjaa, joka myös esillä 1000 kantoja per kopiomäärä tilassa. Positiot simuloitiin mukaan binomijakau-, jossa oli peräisin hyperparameters kuvattu taulukossa S1, jossa syvyys simuloitu Poisson jakauma. Jakautuminen genotyyppien kunkin simuloidun kopioluvun valtiot jaettiin satunnaisesti näytteet mukaan (myös lasketaan hyperparameters). Keskimääräinen AUC ja 95% luottamusvälit sekä herkkyys kolmella eri vääriä positiivisia arvoja (0.01,0.05, ja 0,1) laskettiin kullekin CNA-tilassa ja on esitetty taulukossa S2. Conan-SNV ja SNVMix oli lähes identtinen suorituskykyä eri kopiomäärä todetaan kuitenkin Conan-SNV oli parantunut herkkyys korkein CN tilassa. CN tila 5, on vääriä positiivisia arvoja 0,01, 0,05 ja 0,1, Conan oli keskimääräinen herkkyys 0,77, 0,84 ja 0,88 taas SNVMix oli herkkyys 0,72, 0,78 ja 0,82. Nämä tulokset eivät olleet tilastollisesti merkitseviä, mutta ne toteavat marginaalinen parantaminen Conan-SNV yli SNVMix kärsimättä erityisyyttä.

kokeellinen validointi Conan-SNV malli

Voit selvittää herkkyys ja tarkkuus Conan-SNV todellisiin kasvain tietojen haimme mallin metastaattista lobulaarinen karsinooma aiemmin julkaistu [6] ja sen jälkeen uudelleen sekvensoitiin kaikki romaanin ennusteiden mallin perustaa sen tarkkuus. Genomin oli segmentoitu erillisiin CNA segmentteihin käyttäen HMM mallia kuvatulla [6] ja näytteillä muuttuja CNA maisemaa. Kuten raportoitu aiemmin, 30,2% genomin ennustettiin tappiona /neutraali, 44,5% oli voitto, 19,1% vahvistus ja 4,2% korkean tason vahvistus (katso taulukko S3). Kopiomäärä oli yhdenmukainen tietoja, jotka on johdettu Affymetrix Snp6 genotyypityksen array (kuvio 1) vahvistaa, että ennustettu alueet kopioluvun vaihtelut eivät indusoi Illumina sekvensointialustamme. Kuvassa 1 kromosomi 19 ja mainitsee esimerkin somaattisen korkean tason vahvistus on 19q varsi, joka myös osoittaa vinossa vuonna alleelifrekvenssi, kaukana heterotsygotia takia alleelispesifisen kopiomäärä vahvistusta. Sekä B-alleelin taajuus analyysi array data ja alleeliset suhde analyysi NGS tiedot tukevat mono-alleelinen monistuksella 19q tässä genomissa. Uudelleen analyysi genomin Conan-SNV teki yhteensä 61643 SNV kehottaa eksoni genomin alueita (NCBI rakentaa 36,1, Ensembl V51 merkinnät); verrataan 58518 ennusteisiin SNVMix [21] ja 51085 kanssa samtools mpileup variantti soittaja [22]. Kuvio 3 esittää päällekkäistä Conan-SNV, samtools ja SNVMix ennusteita. Kaikkiaan 49966 ennustukset olivat yhteisiä kaikille kolme menetelmää viittaa kohtuullisen yleistä sopimusta. Kuitenkin, 2857 ennustukset olivat conan-spesifisiä. Sitä vastoin vain 781 kannat olivat spesifisiä samtools ja 64 olivat spesifisiä SNVMix. Kuvio 3A esittää päällekkäisyys Conan-SNV, samtools ja SNVMix. Neutraali alueet kanna 191 Conan-erityisiä ennusteita samalla Gain, monistaminen ja korkean tason Amplifikaatiot kanna 977, 589 ja 1100 Conan-erityisiä ennusteita vastaavasti. Mielenkiintoista Conan-SNV kutsuttu enemmän SNVs neutraalissa valtioissa verrattuna SNVMix huolimatta jakavat yhteiset puitteet. Ehdotamme, että nimenomaisesti huomioon CNAs koulutukseen menettelyjä mahdollistaa paremman parametrien estimointia joka muutoin vaikuttaa alleeliset vinossa amplifioidussa alueilla (katso menetelmät). SNVs alueilla AMP of HLAMP kutsutaan SNVMix eikä Conan-SNV oli matala syvyyksiin. Nämä syviä sekvenssit alueilla AMP ja HLAMP voi heijastaa rajoja resoluutiota kopioluvun algoritmin. Sellaisella syviä binomisen todennäköisyydet, että suurempi määrä alleelispesifinen kopioluvun genotyyppejä, limittäin siten painottaa enemmän etukäteen soittaa lopullinen genotyyppi (joka yksipuolisesti homotsygoottinen viite genotyyppi).

erottamalla CNA valtio esittää rikastuminen Conan-SNV erityisiä ennusteita GAIN, AMP ja HLAMP segmenttejä genomista.

kuviossa 3A oli huomattava rikastuminen Conan-erityisiä SNVs in CNA vahvistusta valtioissa. Vuodesta täydellinen luettelo 2857 Conan-erityisiä ennusteita, me suodattaa pois kaikki asemat, jotka olivat läsnä dbSNP V130 ja tämän jälkeen määriteltiin 140 proteiinia koodaavan, ei-synonyymi korvaaminen SNVs ehdokkaita validointi kohdennetuilla, ultra syvää amplikonin sekvensointia (esitetty kaavamaisesti kuviossa 4) metastasoituneessa ja ensisijaisen (yhdeksän vuotta aikaisemmin) kasvain genomin DNA: n sekä normaalin buffy coat genomin DNA samasta potilaasta. Kaikkiaan 52 SNVs ei voitu ratkaista johtuen PCR-amplikonin vika validoinnin aikana, jolloin 88 jäljellä tarkempaa analysointia varten. Taulukossa 1 esitetään 21/125 (23,9%) romaani, koodaus, ei-synonyymi somaattisia mutaatioita, jotka todensi syvä amplikonin sekvensointia. Kaikkien näiden somaattisten muunnelmia, niiden ennustettu genotyypit olivat erittäin vääristynyt viitteen alleeli oli todennäköisin genotyyppiä aab, AAAB tai aaaab (taulukko 1). Nämä amplikoneja tuotti keskimäärin lukee edustaa mutantti alleeli Metastasoituneessa genomin (joiden keskimääräinen syvyys kattavuus 96669), kun taas normaali genomin amplikoneista oli keskimäärin mutantti alleeli tiheys ja keskimääräinen syvyys kattavuus 71963. Huomaa, että vain yksi somaattisen mutaation, K187M vuonna ZNF607, sinkkisormipolypeptidiin proteiinia oletettavasti osallisena transkription säätelyyn, vahvistettiin myös primaarikasvaimen. Tämä tukee päätelmä [6], että vain harvat mutaatiot läsnä etäpesäkekasvainten olivat läsnä ensisijainen diagnoosi, ja olivat siten ehdokas kuljettajia kasvaimen. Lisäksi tunnistimme 42 (47,7%) ituradan variantit, joissa SNV oli läsnä sekä normaalissa että metastaattisessa DNA. Lopuksi, 20 (22,7%) kantoja epäonnistui toteuttamaan vahvistus SNVs ja katsottiin vääriä positiivisia ennusteita. Viisi kannat (5,68%) olivat tuloksettomia, koska erot kattavuutta normaalin ja etäpesäkekasvainten validointitiedot oli liian suuri tehdä johtopäätöksiä. Täydellinen yhteenveto kaikista 140 kantoja on saatavana taulukossa S4. Mahdolliset toiminnalliset vaikutukset kunkin 21 somaattisista mutaatioista arvioitiin käyttäen MutationAssessor (https://mutationassessor.org), ja on esitetty täydentävän materiaalin.

Sub-heterotsygoottista alleelin runsaus voi aiheutua ala-hallitseva populaatioissa solujen tai epätasainen alleeli vahvistusta alueilla kopioluvun poikkeama. Esimerkiksi etuoikeutetut kopioluku liittyvän monistamisen villityyppisen alleelin johtaisi alle heterotsygoottinen suhteet somaattisen mutantti alleeli. Erityisesti keskimääräinen runsaus romaani somaattisten SNVs päässä validointi kokeita edellä, oli neljä mutaatiota (vaikuttavien geenien

NCF2

,

IPO9

,

ZNF480

ja

ZSCAN22

), joilla osuus on alle 10%. Ottamatta huomioon kopioluvun tila, todennäköisyys ei-viittaus tapahtuma olisi alaspäin painotettu, mikä johtaa herkkyyden. Lisäksi ituradan alleelinen suhdeluvut voitaisiin vahvistaa, onko kopion määrä segmentissä mukana on pääasiassa mono-alleelinen. Tutkimme alleelinen suhdeluvut kaikille informatiivinen tehtävissä CNA segmenteissä analysoitu. Löysimme seitsemäntoista 42 validoitu ituradan variantteja myös näytteillä huomattavaa alleeliset vinossa, kuten taulukosta 2 (katso menetelmät). Erityisesti ituradan variantit asemissa CHR 19: 40691038, CHR 19: 42074256, CHR 19: 50869860 ja CHR 19: 59415177 sisällä korkean tason amplikoni on CHR 19 oli alleeliset jakaumat kasvain, jotka olivat vinossa merkittävästi poissa normaalijakaumasta (Chi Sq testi,). Nämä ituradan SNP: t ovat proksimaalisesti somaattiset mutaatiot K187M in

ZNF607

, E24 * vuonna

PRR19

, Q311 * vuonna

ALDH16A1

, E16Q vuonna

ZNF480

, V328M in

LILRA2

, ja G348E in

ZSCAN22

. Kaikkein parsimonious selitys Näiden löydösten että somaattiset mutaatiot olivat myöhemmin tapahtuma, mutta ei tiedetä, jos ne tapahtuvat yhden vahvistetuista kromosomien tai jäljellä unamplified sisar kromosomi. Erilainen vahvistusmenettely vaadittaisiin, jotta tämä päättely. Tätä tukee lisäksi 424 SNVs sisällä 19q korkean tason amplikoni (CHR 19: 24301089-63793263 katso taulukko S5), joka ennustettiin olevan joko aaaab tai abbbb Conan-SNV, mutta ei lähetetty voimassaolon jatkamiseksi. Rikastamista vinot

ituradan

alleelien alueilla merkittäviä kopioluvun muutos tekee mahdollinen selitys alleelista vinouttamasta somaattisten varianttien samassa alueilla johtuen kasvaimen normaaliin sekoittumisen erittäin epätodennäköistä. Lopuksi OncoSNP https://groups.google.co.uk/group/quantisnp/web/downloads-oncosnp algoritmi ennustaa epätasapainoinen vahvistus ulottuu CHR 19: 32439833-63789666 (kuva S1) vastaavaan Affymetrix SNP 6.0 tiedot. Tämä segmentti ennustettiin OncoSNP sisältävän 638 variantteja, ja 591 variantit, tukemalla tekemisestä alleelispesifisen amplifikaation 19q. Mielenkiintoista, alleelifrekvenssi K187M in

ZNF607

, ainoa somaattisten variantti löytyy primaarikasvaimen (16,67%) oli johdonmukaisesti etäpesäketuumorikudoksen (15,25%), mikä viittaa siihen, että muut 19q esiintyy mutaatioita myöhemmin kasvain evoluutio.

Conan-SNV noutaa lisää utaretulehdusmallia tinkimättä kokonaistarkkuus.

arvioi suorituskykyä arvioimalla ala vastaanotin operaattori ominaiskäyrä (AUC) Conan-SNV ja SNVMix. Kannat käytetty maa totuus oli saatu Affymetrix SNP 6,0 kantoja genotyyppi käyttäen CRLMM [23] ja lisäksi kanssa OncoSNP (katso menetelmät). Vaikka korkea luottamus CRLMM puheluja oli toiminut riittävän vertailukohtana SNVMix in [21], on tärkeää huomata, että CRLMM olettaa diploidiaan ja sen puhelut siten rikastaa heterotsygoottinen kantoja, jotka lähestyvät odotettavissa alleelinen jakaumat diploidinen genomien. OncoSNP päinvastoin, laajentaa valtion tilaa majoittaa genotyyppien aiheuttamien CNA tapahtumia ja voivat siten kaapata alleelispesifisillä monistuksissa. Kuten aiemmin mainittiin, OncoSNP puhelut olivat yhtäpitävä NGS tiedot ja tukenut tätä käsitystä, että kromosomi 1 ja 19 ovat alleelispesifinen monistuksissa (taulukko S6 ja kuvio S1).

ROC tulokset OncoSNP viittaavat siihen, että Conan-SNV ja SNVMix suorittaa samalla, paitsi alueilla korkean tason monistuksissa (katso kuva 5). AUC varten SNVs alueilla GAIN oli 0,998 varten SNVMix ja 0,999 varten Conan-SNV. Monistamista ja korkean tason monistamisen jälkeen AUC (0,998, 0,999) ja (0,991, 0,998) vastaavasti. Tutkiminen jakautuminen puhelut (taulukko S7) toteamme Conan-SNV puhelut enemmän totta positiivisia yleistä verrattuna SNVMi1, joka havaittiin myös simulaatio tietojen joukko, mutta sovelletaan myös soittamalla enemmän vääriä positiivisia. Läheisyys AUC mittausten viittaa siihen, että väärät positiiviset käyttöön Conan-SNV eivät ylitä ylimääräisiä tosi positiivisia noudetaan. ROC for HLAMP on hyvin erilainen kuin muut, koska SNP päässeen alleelispesifinen CNA alueilla kromosomin 1 ja 19, joita ei voitu havaita SNVMix.

CRLMM tulokset ovat vertailukohtana variantteja, jotka on helppo havaita SNVMix. Alapuolinen alue ROC-käyrän laskelmat osoittivat, että Conan-SNV suorittaa samalla tavalla SNVMix näillä paikoilla (kuva S2). AUC SNVs alueilla GAIN oli 0,979 varten SNVMix ja 0,975 varten Conan-SNV. Monistamista ja korkean tason monistamisen jälkeen AUC (0,991, 0,990) ja (0,911, 0,928) vastaavasti. Tämä viittaa siihen, että lisääntynyt herkkyys saama Conan-SNV ei vaaranna sen kokonaistarkkuus verrattuna SNVMix, joka myös osoittaa käyttäen OncoSNP suorituksen arvioimiseksi.

Conan-SNV suorituskyky on lepotilassa kasvain.

genominen maisema kasvaimen vaihtelee eri syöpätyyppejä. Conan-SNV sovelletaan kasvainten levossa genomin arkkitehtuurit sekä ne, joilla on enemmän häiriöitä karyotyyppejä; tämän osoittamiseksi arvioimme Conan-SNV: n suorituskykyä lymfooma kasvain julkaistu alunperin Morin et al [24], jossa 71,9% genomin ennustettiin kuin menetys /neutraali, 22,1% oli voitto, 4,30% vahvistus ja 1,67% korkean tason vahvistus (katso menetelmät). Käytimme Conan-SNV, SNVMix sekä samtools profiloida mutaatioprosessiin maisemaa lymfooma kasvain genomin; kunkin menetelmän löytyi 62162, 61352 ja 47164 variantteja (kuvio 3B). Tämän kasvain, noin 30 x kattavuus WGSS aineisto sovitetun normaalin DNA oli saatavilla, mikä mahdollistaa sen varmistamiseen somaattisten mutaatioiden suoraan itse datan. Kaikkiaan 782 variantteja olivat ainutlaatuisia Conan-SNV, muuten oli korkea välisen sopimuksen kaikkien kolmen menetelmän (kuva S4). Käytimme mutationSeq ohjelmiston läsnäolon määrittämiseksi somaattisten variantteja (ks menetelmät). Tämä tuotti 392, 365 ja 228 somaattiset mutaatiot Conan-SNV, SNVMix ja samtools (taulukko S8). Niistä 228 somaattista ennustuksia samtools, 221 havaittiin myös Conan-SNV; ja kaikki 365 somaattista ennustuksia SNVMix löytyivät Conan-SNV (kuva S4). Läsnäolo ainutlaatuiset somaattisten variantteja Conan oli lähes yksinomaan alueilla kopioluvun GAIN (19/22).

Vastaa