PLoS ONE: SomatiCA: tunnistaa, luonnehtia ja kvantifiointi somaattisen Kopioi numero Aberrations Cancer Genome Sequencing Data

tiivistelmä

Koko Genomikartoituksen sovitetun kasvaimeen normaalissa näytteessä pareja on tulossa rutiinia syöpätutkimuksessa. Kuitenkin analyysi somaattisten copy-numero muuttuu sekvenointitulosten on edelleen haastava riittämättömyyden vuoksi sekvensoinnin kattavuus, tuntematon kasvain näyte puhtauden ja subclonal heterogeenisyys. Tässä kuvaamme laskennallisen puitteissa, nimeltään SomatiCA, jossa nimenomaisesti osuus kasvaimen puhtauden ja subclonality analyysissä somaattisten kopioluvun profiileja. Kun lukea syvyydet (RD) ja vähemmässä alleelifrekvenssit (LAF) syötteenä, SomatiCA ohjelman toisto 1) sekoittumisasteeseen kunkin kasvaimen näytteen, 2) somaattinen alleelinen copy-numero kunkin genominen segmentti, 3) osa kasvainsolujen subclonal muutos kunkin somaattisen kopiomäärä poikkeaman (SCNA), ja 4) luettelon huomattavan genomista poikkeama tapahtumia kuten voitto, tappio ja LOH. SomatiCA on saatavana Bioconductor R paketin https://www.bioconductor.org/packages/2.13/bioc/html/SomatiCA.html.

Citation: Chen M, Gunel M, Zhao H (2013) SomatiCA: tunnistaa, luonnehtia ja kvantifiointi somaattisen Kopioi numero Aberrations Cancer Genome Sequencing Data. PLoS ONE 8 (11): e78143. doi: 10,1371 /journal.pone.0078143

Editor: Jörg D. Hoheisel, Deutsches Krebsforschungszentrum, Saksa

vastaanotettu: 31 heinäkuu 2013; Hyväksytty: 07 syyskuu 2013; Julkaistu: 12 marraskuu 2013

Copyright: © 2013 Chen et al. Tämä on avoin pääsy artikkeli jaettu ehdoilla Creative Commons Nimeä lisenssi, joka sallii rajoittamattoman käytön, jakelun ja lisääntymiselle millä tahansa välineellä edellyttäen, että alkuperäinen kirjoittaja ja lähde hyvitetään.

Rahoitus: Tämä tutkimus tukivat NIH avustuksen R01 GM59507. Rahoittajat ollut mitään roolia tutkimuksen suunnittelu, tiedonkeruu ja analyysi, päätös julkaista tai valmistamista käsikirjoituksen. Ei ylimääräistä ulkoista rahoitusta saatiin tähän tutkimukseen.

Kilpailevat edut: Kirjoittajat ovat ilmoittaneet, etteivät ole kilpailevia intressejä ole.

Johdanto

aikana syövän synnyn on usein korjauksilla annostusta ja /tai rakenne tuumorisuppressorigeeneille tai onkogeenien syöpäsoluissa kautta somaattisten kromosomi muutoksia. Tunnistaminen genomialuetta monistumia muutoksia (voitot ja tappiot) kasvaimen genomeja on tehokas tapa löytää syövän kuljettajan geenejä [1]. Ihannetapauksessa tällaiset kuvaamista tulee sisältää sekä tarkka määrittely kromosomaalisen raja-arvot kunkin muutos ja absoluuttinen arviointi kappale, kussakin kromosomisegmentin. Aikaisemmat tutkimukset käytetään oligonukleotidigeenisirumenetelmää päätellä genominlaajuisten kopioluvun muutoksia. Viimeaikaiset edistysaskeleet massiivisesti rinnakkaissekvensointijärjestelmät tarjota tehokas vaihtoehto DNA mikrosiruja havaitsemiseksi kopioluvun muutoksia [2]. Edut sekvensointi perustuvia lähestymistapoja ovat sen kattava ja puolueeton tutkimus kaikkien genomisen muunnelmia [3] ja kyky havaita sekä kopioluvun poikkeamia (CNAs) ja yhden nukleotidin vaihtelut (SNVs) samanaikaisesti kunkin näytteen, joka tarjoaa kriittistä tietoa ymmärrystämme syövän genomin evoluutio.

Monet algoritmeja on kehitetty havaitsemaan kopioluvun vaihtelut (CNVs) koko perimän DNA tai exome sekvensointi tietoja, kuten menetelmät, joissa käytetään raaka read-syvyys [2] – [5], luettavuuden pari linjaus [6], [7], split-lukea kartoitus [8], [9] ja kokoonpano-pohjainen (AS) menetelmät [10], [11]. Kuitenkin nämä menetelmät eivät sovellu hyvin päätellä absoluuttinen somaattisten kopioluvun koska ne on kehitetty analysoimaan tietoja normaalista sijaan kasvaimen näytteitä. Verrattuna normaaliin näytteitä, kasvaimen näytteet on joitakin ainutlaatuisia ominaisuuksia, kuten: (i) tuntematon osa normaaleja soluja (sekoittumisasteeseen), jotka ovat lähes aina sekoitetut syöpäsolujen; ja (ii) heterogeenisyys syöpäsolujen väestöstä johtuen käynnissä subclonal kehitystä. Vaikka joitakin menetelmiä on kehitetty somaattinen CNA (SCNA) tunnistaminen kokonaan syöpä Genomikartoituksen, useimmat heistä eivät mallinnetaan kasvain puhtaus [12], [13]. Niille osuus kasvaimen puhtautta, ExomeCNV [14] arvioidaan sekoittumisasteeseen perustui suurimpaan Heterotsygotian menetys (LOH) alue genomissa, joka todennäköisesti tuottaa puolueellinen arvio. Entistä yleisesti käytetty vaihtoehto ExomeCNV on oletusasetus 0,3 sekoittumisasteeseen. Ohjaus-FREEC [15] vaaditaan siihen erittely normaalin kontaminaation taso tai ennalta määritetyn ploidia arvioida normaalin kontaminaation kautta mediaani siirtymä kopioluvun muuttuneessa alueilla kohti lähtötilanteessa normaali. Molemmat menetelmät on alhainen sietokyky saastumista. Algoritmeja kehitetty arrayCGH tietoja, kuten ASCAT [16] ja ehdoton [17], ovat erikoistuneet arvioida kasvaimen puhtausvaatimukset, mutta eivät tarjoa kattavat puitteet subclonality tunnistamiseen tai segmentti calling.

Tässä esittelemme SomatiCA, eli novel kehys, joka pystyy tunnistaa, luonnehtia ja määrän SCNAs syöpään Genomikartoituksen (kuvio 1). Suoraan osuus kasvaimen puhtauden ja subclonality, SomatiCA kehitetty erityisesti analysoida kasvaimen näytteiden saastumisen ja /tai heterogeenisyys. Ensinnäkin SomatiCA segmenttejä genomista ja tunnistaa ehdokas CNAs käyttäen sekä lukea syvyydessä (RD) ja vähemmässä alleelifrekvenssit (LAF) Yhdistetyistä lukee. Toiseksi SomatiCA arvioi sekoittumisasteeseen suhteellisesta kopioluvun suhteet kasvaimeen normaali pair by Bayes rajallinen sekoitus malli, joka on korkea toleranssi saastumista normaaleista soluista. Lopuksi SomatiCA määrällisesti somaattinen copy-numero ja subclonality kunkin genomista segmenttiä ohjaamaan sen kuvaamisessa. Tulokset SomatiCA voidaan lisäksi integroitu SNVs samasta sekvensointi kokeen ymmärtää paremmin kasvaimen kehittymistä.

Ensinnäkin SomatiCA segmenttejä genomista ja tunnistaa ehdokas CNAs käyttäen sekä lukea syvyydessä (RD) ja vähemmässä alleelifrekvenssit (LAF) Yhdistetyistä lukee. Toiseksi SomatiCA arvioi sekoittumisasteeseen suhteellisesta kopioluvun suhteet kasvaimeen normaali pair by Bayes rajallinen sekoitus malli, joka on korkea toleranssi saastumista normaaleista soluista. Lopuksi SomatiCA määrällisesti somaattinen copy-numero ja subclonality kunkin genomista segmenttiä ohjaamaan sen kuvaamisessa.

Tulokset

segmentointi strategia SomatiCA

Vaikka seuraavan sukupolven sekvensoinnin ( NGS) tekniikka tuottaa dataa Tarkempaa kuin SNP paneelit ja array vertaileva genominen hybridisaatio (aCGH), signaali mutkistaa mappability, GC-pitoisuus, linjaus bias ja muita asioita [15]. Tämä tekee analyysin NGS tietoja ole vain suoraa mukautettava nykyiset menetelmiään aCGH mutta laajennus edellyttää erityisen huolellisesti monista tekijöistä, jotka vaikuttavat tietojen analysointi ja tulkinta. Esimerkiksi kun laadunvalvonta ja de-noising, useat olemassa NGS CNV soittamalla välineitä suoraan soveltaa kehitettyjä menetelmiä aCGH tietojen [14]. Kuitenkin kun käytetään CBS [18], joka on yleisesti käytetty menetelmä aCGH datan, löysimme se oli hyvin herkkä vaihtelusta NGS signaaleja ja raportoitu muutos pistettä todennäköisesti vääriä positiivisia (ks simuloinnin tulokset).

kontrasti, SomatiCA toteuttaa tasoitus-pohjainen de-noising askel vaikutusten vähentämiseksi harha input LAF (kuva S1). Koska ensimmäisen muutoksen pistettä havaita CBS, toteutimme muuttuja valintamenettelyn poistaa muutos kohtia, jotka ovat todennäköisesti vääriä positiivisia. Tämä saavutetaan SomatiCA käyttämällä CBS havaittu muutos pisteitä kuin ennustavat tulo LAF ja sitten suorittamalla vaihteleva valikoima kautta Bayes Information Criterion (BIC), joka on LARS [19] ratkaisu polku. Valitun muutoksen pistettä, SomatiCA edelleen arvioi, onko ne kaapata muutoksia somaattisten copy-numerot. Määrällisesti nämä muutokset, määrittelemme somaattisten suhde kuin RD suhde kasvaimen pariksi normaalia segmentin (identtiset kattavuus kasvain ja normaali näyte oletettu). SomatiCA saa suurimman todennäköisyyden arvio (MLE) somaattisen suhde kutakin segmentti käyttää RD tiedot kaikista pariksi SNP kyseisessä segmentissä. Kaksi vierekkäistä segmenttiä yhdistetään jos ero somaattisten suhde on pienempi kuin T, joka on viritys parametri toteutuksesta oletusarvo 0,05, mikä vastaa 5%: n muutos somaattisten copy-numero ilman normaalia saastumista. Mles somaattisen suhde hienostuneen segmenteille lasketaan uudelleen. Tämä hienostuneisuus menettelyä sovelletaan, kunnes ei vierekkäisten segmenttien somaattisten suhde eron alle T. SomatiCA, tietoa molemmista ituradan heterotsygoottinen ja homotsygoottinen SNP hyödynnetään. LAF on heterotsygoottinen paikkoja käytetään alkuperäisessä segmentointi. RD on heterotsygoottinen ja homotsygoottinen sivustot laskennassa käytetään somaattisten suhteet.

Simulaatio Strategia

Teemme simulaatioita arvioida tilastollisen tehon SomatiCA ja vertailuja muihin menetelmiin. Koska validoitu biologisia aineistoja, kuten simulaatiotutkimuksia voi tuottaa oivalluksia hyviä ja huonoja puolia eri menetelmiä. Kuitenkin monimutkaisuuden vuoksi genomin ja järjestys prosessi, esimerkiksi ei-tasainen jakautuminen RD poikki genomiin NGS, se on ei-triviaali simuloida syöpään sekvenointitulosten jotka keräävät monimutkaisuus todellisissa NGS tietoja. Innoittamana Ivakhno et al [12], käytimme normaali näyte (tarkoittavat kuten GLI-N1, julkaisematon data) simuloida syöpään sekvenointitulosten seuraavasti (skriptit Teksti S1):

Monista RD ja vähemmässä alleeli laskee päässä GLI-N1 näytettä.

kutakin 10 kb genomista ikkuna, arvioida mediaani ja keskihajonta RD kaikista sivustojen ja vähemmässä alleeli laskee kaikkien heterotsygoottista sivustoja.

Ennaltamäärättyjen kantoja, aseta SCNA tapahtumien välillä 10 kb kokonaisen kromosomin, vaihtelevalla suuruudet muutoksia, kuten kaksinkertainen poistot, LOH, 1 ja 2 kopioluku voitot (sekä erilaisia ​​subclonalities lukien 20% ja 40%). Jokainen poikkeama sisältää vähintään 5 heterotsygoottinen sivustoja.

Simulaatio SCNA tapahtumiin muuttamalla mediaania vastasi windows.

Simulaatio RD ja vähemmässä alleeli arvojen toisiinsa SCNA tapahtumiin ikkunoiden läpi normaalijakaumat välineet sama kuin muuttunut mediaanit johtui vaihe 4) ja keskihajonta sama arvioiden vaihe 2).

sekoittaa pseudo syövän laskee ja normaali määrä gradientilla sekoittumisasteeseen, 0,2, 0,4 ja 0,6.

lisäksi varsinaisen RD raportoitu GLI-N1 (-60 x), simuloida lukea syvyydet 40 × ja 20 × satunnaisesti poistamalla osa lukee.

Kaikkiaan simuloitiin 90 syöpä genomit (3 sekoittumisen hinnat * 3 kattavuus * 10) ja jokainen niistä sisälsi 40 SCNAs.

SomatiCA tehokkaasti vähentää vääriä positiivisia että segmentointi

sovellettu SomatiCA näihin simuloitu tiedot arvioida suorituskyvyn SCNA havaitsemiseen eri skenaarioissa. Vertasimme sen suorituskyky CBS ja cumSeg [20], joka on samanlainen segmentointi, jossa käytetään mallin valinta tunnistaa muutoksen kohdat eri aluksi yli-tunnistus vaiheessa. Oikeudenmukaisen vertailuja, haimme samaa tasoitus ja hienostuneisuus menettely kuin toteutettu SomatiCA sekä CBS ja cumSeg. Ottaen huomioon, että CBS ja cumSeg eivät säädä sekoittumisasteeseen käytimme lievempää kriteeri sen määrittämiseksi, onko SCNA puhelu oli positiivinen löytö. Jos somaattisten suhde oli alle 0,8 tai suurempi kuin 1,2, vastaava segmentti oli ilmoitettu olevan genomin alueella somaattisista voitto tai tappio. Jotta todellinen positiivinen SCNA puhelun, me tarvitaan havaitut raja-arvot 100 kb totta niistä.

Kaiken CBS ja SomatiCA päihitti cumSeg herkkyyden havaitsemaan SCNAs suurempi kuin 1 Mb (kuva 2). Kuitenkin CBS oli 30% vääriä positiivisia puhelut taas SomatiCA saavutetaan suurempi tarkkuus. Lisäksi CBS hoidettiin-tunnistaa raja-arvot samalle muutos. Keskimäärin CBS raportoitu 1,82 segmenttejä varten ~ 1 Mb tapahtuma ja 3.15 segmenttejä varten -10 Mb tapahtumia. Sen sijaan SomatiCA ja cumSeg raportoitu 1,01 ja 1,07 segmenttejä varten SCNAs yli 1 Mb. Tämä parannus johtuu mallin valinta askel muutokseen pistettä, joka poistaa ne osoittavat pieniä vaihteluita, mikä todennäköisesti seurausta samasta poikkeavuus.

Yhteenveto tarkkuuden ja herkkyyden yli 90 simuloitu syövän genomeja eri sekoittumisen hinnat ja kattavuus . CBS ja SomatiCA päihitti cumSeg herkkyyden havaitsemaan SCNAs suurempi kuin 1% vääriä positiivisia puhelut taas SomatiCA saavutetaan suurempi tarkkuus. Sillä SCNAs pienempi kuin 1 Mb, CBS silti edelleen korkea herkkyys 98%, mutta yli 60% CBS puheluista olivat vääriä positiivisia. Sekä SomatiCA ja cumSeg käytetään mallinvalintaan tehokkaasti vähentää väärien positiivisten määrä joitakin kompromisseja herkkyyttä.

SCNAs pienempi kuin 1 Mb, CBS silti edelleen korkea herkkyys 98%, mutta yli 60% CBS puhelut olivat vääriä positiivisia. Sekä SomatiCA ja cumSeg käytetään mallinvalintaan tehokkaasti vähentää väärien positiivisten määrä joitakin kompromisseja herkkyyttä. SomatiCA havaittu 83% simuloitu SCNAs taas cumSeg vain jää 10%. Toteamme, että penalization läpi mallin valinta on vain yksi monista syistä alemman herkkyyden pienemmissä SCNAs tunnistamiseen. Koska SomatiCA segmentit genomin perustuvat vain LAF Heterotsygoottisista sivustoja, se voi unohtaa harhautumista vähemmillä heterotsygoottista sivustoja. Kromosomeissa 3-15 on GLI-N1 näyte, jota käytettiin mallina simulaatio, etäisyydet vierekkäisten heterotsygoottinen sivustoja vaihtelivat 5 bp (1% kvantiili) ja 17036 emäsparin (99% kvantiili) ja mediaani 453 emäsparin . Määrä heterotsygoottinen sivustojen sisällä huomaamatta SCNAs vaihteli 6 76 mediaani oli 22 Strong riippuvuutta määrä heterotsygoottinen sivustoja on merkittävä haitta kaikki lähestymistavat käyttävät LAF (tai BAF) kromosomissa segmentointi. Epäyhtenäinen kattavuus ja virheitä signaaliin sekvenointitulosten tekee haastavaa tehdä päättely vain muutamia markkereita. Käytännössä suosittelemme käyttämään RD menetelmiä täydentävänä lähestymistapoja kattaa useampia SCNA tapahtumien (kuten käsitellään laajemmin keskusteluun).

Kun saastuminen normaaleista soluista lisääntyi yli 50% (sekoittumisasteeseen = 0,6), kaikki kolme menetelmää kärsi voima ja tarkkuus havaitsemiseen kopioida vaihteluilta. Esimerkiksi kun sekoittumisasteeseen on 0,6, odotettu somaattiset suhde yhden kopion menetystä ja yksi kopio voitto on 0,8 ja 1,2. Näin cutoff arvoja käytettiin aiemmassa vertailuissa voi olla liian tiukkoja tunnistaa SCNA tapahtumiin. Tämä viittaa siihen, että on tärkeätä mukauttaa parametrien sekoittumisasteeseen SCNA calling.

Explicit mallintaminen sekoittumisasteeseen

Kuten mainitsimme, tuntematon osa normaalien solujen ja heterogeenisyys syöpäsolun väestöstä kaksi tekijää vaativat erityistä huomiota analyysien kasvaimen näytteitä. Aloitamme selittämällä, miten sekoittumisasteeseen vaikuttaisi SCNAs kutsuvan käyttämällä hypoteettinen esimerkki. Jos kasvain näyte 0, 1, 3 ja 4 kopiota eri kromosomisegmentit sekoittuu 40% pariksi normaali näyte 2 kappaletta, odotetut somaattiset suhteet ovat 0,4, 0,7, 1,3 ja 1,6, vastaavasti. Ilman säätö sekoittumisen korko, päätellä copy-numerot olisi 1, 2 (tai 1), 2 (tai 3), ja 3, tässä järjestyksessä. Tässä tapauksessa kaksinkertainen poistoja olisi virheellisesti kutsutaan LOHs, kun taas todellinen LOHs olisi lähes mahdoton havaita tuloksena virheellinen päättely kappaleeseen numeroita. Yksi keskeinen havainto on se, että on olemassa yleinen muutos odotetun somaattisten suhteet tulleista ilman saastumista, ja tämä yleinen siirtyminen voitaisiin käyttää päätellä sekoittumisasteeseen. On kuitenkin olemassa kaksi komplikaatioiden hyödyntää tätä havaintoa ensin, tyypit SCNAs ovat tuntemattomia (esim. On 4 tyyppiä meidän hypoteettinen esimerkki); Toinen, läsnäolo subclonal SCNAs voi mutkistaa somaattisten suhde profiilin ja näin ollen vaikuttaa kopioluku. Näiden kysymysten johdonmukaisesti, olemme kehittäneet probabilistisen mallin alle täyden Bayes kehyksen alla.

perusidea sekoittumisasteeseen estimointia SomatiCA on, että somaattinen suhteet klonaalisen segmenttien keskittyvät tietty diskreetti taso taas on subclonal segmenteillä ei ole rajoituksia. Joka perustuu sen somaattisten suhde, jokainen genominen segmentti voidaan joko määritetty kokonaisluku copy-numero tai luokiteltu subclonal tapahtuma. Osuus sekoitetut normaaleja soluja voidaan arvioida siirtyminen somaattisten suhteiden klonaalisia SCNAs niiden odotuksia puhdas ja homogeeninen kasvain näytteissä. Tämän saavuttamiseksi, ensin arvioitu todennäköisin määrä komponentteja panos somaattisten suhde jakelu, sitten asennetaan Bayes rajallinen seos malli määrittää kopioluvun kunkin segmentin perustuvat vastaaviin posterior todennäköisyys, ja lopulta me arvioitu sekoittumisasteeseen toimesta optimaalinen ratkaisu myötävaikuttanut selitys kopioluvun muutos kaikista klonaalisia segmenttien kokonaisluku tasoilla.

malli on samanlainen ehdoton [17], Gaussin seos malli tunnistaa kasvaimen puhtautta ja ploidia päälle arrayCGH tai low-pass sekvenointitulosten, jossa suuria eroja oletuksiin ollessa: 1) ABSOLUTE olettaa tasaisen jakelun subclonal tapahtumista; in SomatiCA, subclonal tapahtumat tunnistaa perustuen posterior todennäköisyydet, eli lähtö kokonaisluku copy numerot; 2) ABSOLUTE rajoittaa genomisen massa kullekin copy-tilaan samalla SomatiCA ei. Lisäksi nämä kaksi tapaa ottaa eri määriä syötteenä. ABSOLUTE vie copy-suhde syötteenä sellainen määrä mittaa paikallisen DNA annostus ilmastointi on aneuploidia- kasvain, kun taas SomatiCA käyttää somaattisen suhde, joka on ehdoton toimenpide normaalin ja kasvaimen näytteitä ilman ilmastointi maailmanlaajuisesta toimenpiteestä kasvaimen ploidia (sama katteen kahden kirjastojen oletetaan). Käyttö somaattisen suhde vapauttaa SomatiCA päässä arvio ploidia. Sen sijaan etsiä kaikkia mahdollisia yhdistelmiä ploidia ja sekoittumisasteeseen, SomatiCA vain etsii liuosta sekoittumisasteeseen kanssa somaattisten suhteessa 1 vastaava kokonaisluku kopiomäärän 2.

arvioitiin suorituskyky meidän menetelmän avulla 90 simuloitu syöpä genomeja. SomatiCA syntyy tarkkaa arviota sekoittumisasteeseen vaikka peitto oli niinkin alhainen kuin 20 ×. Vertailun vuoksi myös arvioitu sekoittumisasteeseen ehdottomalla ja variantti ASCAT. ASCAT käyttää BAF ja logR suhde (ilmastointi on aneuploidia- kasvaimen) arvioida kasvaimen ploidian ja puhtaus, joka ei ole suoraan sovellettavissa tietomme. Meidän vertailuja, käytimme muunnelma ASCAT algoritmi, joka ylläpitää sen tärkeimmät ominaisuudet: laskimme koko etäisyys alleelinen kokonaisluvun kopiomäärä ratkaisu kunkin segmentin ja summataan kaikki segmentit; Sitten etsimme ratkaisua on sekoittumisasteeseen että minimoidaan koko matkan. Ehdotonta, joukossa viiden suurimman kombinaatioiden sekoittumisasteeseen ja ploidia (todennäköisyyden), valitsimme yksi kopio suhteessa 1 vastaava kokonaisluku kopioiden lukumäärää 2 koska lopullinen ratkaisu. Tulokset esitetty yhteenvetona kuviossa 3 osoittavat, että SomatiCA on verrattavissa suorituskykyä ehdoton ja suoriutuu ASCAT.

Sekä SomatiCA ja ehdoton päihittää ASCAT-variantti. SomatiCA saavuttaa vertailukelpoisia suorituskykyä ehdoton muutamia rajoituksia, keventää laskennallista taakkaa.

Uskomme kahdesta syystä osaltaan paremman suorituskyvyn SomatiCA verrattuna ASCAT-variantti. Ensinnäkin ASCAT arvioi kokonaisluku kappale numero kunkin segmentin käyttäen kokonaisluku lähimpänä havaittu somaattisen alleeliset kopio. Kun lisäaine on korkea, tämä lähentäminen on ongelmallinen. Esimerkiksi kun sekoittumisasteeseen on 0,6, somaattisen kopio kaksoishäviämärokote on 1.2. Kokonaisluku kopioluku tähän kaksoishäviämärokote tapahtuma on määrätty 1 sijasta 0. Sen sijaan SomatiCA ennalta laskee useita mahdollisia erillisiä tasoja histogrammista somaattisen suhteet ja määrittää kokonaisluvun kopiomäärä perustuu järjestyksessä sen diskreetti taso käyttämällä tason 2 kopio referenssinä. Siksi on yhä kykenee arvioimaan absoluuttinen kopiomäärä hyvin suurella tarkkuudella, kun lisäaine on korkea. Toiseksi ASCAT optimoi kaikkien SNP, kun taas SomatiCA otetaan huomioon vaikutuksen sisäisen kasvaimen subclonal heterogeenisuus ja vain optimoi yli klonaalinen tapahtumia. Tämä lähestymistapa kompensoi aliarvioimiseen optimoinnista kanssa kaikissa segmenteissä.

Lisäksi SomatiCA saavuttaa vertailukelpoisia suorituskykyä ehdoton muutamia rajoituksia, keventää laskennallinen taakka. SomatiCA ei rajoita genomi-massa kullekin copy-tilassa, tai suhteellinen osuus alakloonit. Mahdolliset subklooneja, jonka tunnuksena on alhainen posterior todennäköisyyksiä, eivät kuulu sekoittumisasteeseen arvio. Sillä oletuksella kappaleen suhde 1 vastaava kokonaisluku kopiomäärän 2, SomatiCA vain optimoi yhden parametrin – sekoittumisasteeseen, mikä vähentää taakkaa samanaikaisen arvio sekoittumisasteeseen ja ploidia. Keskimääräinen CPU käyntiaika varten sekoittumisasteeseen arviointi in SomatiCA on 27,5 sekuntia (5000 MCMC askelta) taas että ABSOLUTE (ploidia vaihteli 0,95-4) on 450 sekuntia. Vuonna SomatiCA The ploidia voidaan arvioida keskiarvoistamalla kopioluvun yli genomin oikaisun jälkeen sekoittumisasteeseen.

lisäksi tutkinut simuloitu genomeja, joilla on korkea normaali saastumista, jossa seoksessa oli 0,6. Me päätellä kopion numero SCNAs havaittujen näistä simuloitu genomeja kanssa säätö käyttäen arvioitu sekoittumisasteeseen päässä SomatiCA, ja vertasivat tuloksia kopiomäärä päätellä ilman säätö, ja ne, joilla säätö käyttäen sekoittumisasteeseen 0,2 ja jotka käyttävät 0,4. Kuten kuvassa S2 estimoinnin SomatiCA auttanut lisäämään tarkkuutta päätelty kopioluvun inference varten SCNAs verrattuna asettamalla sekoittumisasteeseen ennalta määritelty (ja virheellinen) tasolla.

Subclonality luonnehdinta

läsnäolo geneettinen monimuotoisuus kasvain näytteissä, eli subclonality, tarjoaa tärkeitä vihjeitä kasvaimen kehittymistä. Tarkka päättely kopioluvun aseman sopeuttamalla sekoittumisasteeseen tarjoaa mahdollisuuksia SomatiCA tunnistaa subclonal muutoksiin taustaa vasten hallitseva niistä. SomatiCA luonnehtii subclonality kunkin segmentin kautta suorittamalla hypoteesin testaukseen. Se laskee ensin kappale numero kunkin segmentin kontrolliryhmässä normaalissa näytteessä. Sitten se testaa, onko kopion määrä muutosta vastaava kasvaimen näyte voi johtaa muutokseen täsmälleen yhden kopion yhden alleelin. Meidän simulointitutkimus, otimme 4~5 SCNAs (yli 10 Mb, subclonal prosenttiosuus 0,2 tai 0,4) kromosomissa 12.-15 kussakin simuloidussa syövän genomin. Kaikkiaan kunkin yhdistelmän sekoittumisasteeseen ja kattavuus on 46 oikeita positiivisia subclonal tapahtumia kymmenessä simuloitu syöpä genomeja. Subclonal puheluita muista kromosomit vääriä positiivisia, jotka johtuvat joko aliarviointiin klonaalisia tapahtumien tai Luokitteluvirheillä kopioluvun neutraali tapahtuma. Kun sekoittumisasteeseen on 0,2 tai 0,4, SomatiCA talteen 87% todellisesta subclonal tapahtumia (40 ulos 46) ja raportoitu 8 vääriä positiivisia keskimäärin. Kun sekoittumisasteeseen on 0,6, SomatiCA saattoi silti takaisin 84% todellisesta subclonal tapahtumien mutta raportoitu 20 vääriä positiivisia. 95% vääriä positiivisia subclonal tapahtumia luokitellaan väärin alkaen kopiomäärä neutraali tapahtumia. Tämä tulos osoittaa, että SomatiCA saavuttaa korkean tarkkuuden havaitsemiseen klonaalinen tapahtumista. Kuitenkin kun sekoittumisasteeseen saa enemmän, enemmän vääriä positiivisia puheluita syntyisi Luokitteluvirheillä kopioluvun neutraali tapahtumia.

Sovellus TCGA benchmark 4 data

Käytimme TCGA mutaatio kutsuvan benchmark 4 aineistoja arvioida suorituskykyä SomatiCA ja muiden todellisiin tietoihin. Tämä koko Genomikartoituksen benchmark aineisto sopii tällaisen arvioinnin, koska se koostuu keinotekoisesti sekoittaa näytteiden osuus kasvaimen näytteiden gradientilla 20%: sta 95%. Olemme keskittäneet analyysi 7. sekoitettu HCC1143 näytteitä sekvensoitiin 30 × (taulukko 1). Kunkin sekoitettu näytteeseen, ensin suoritetaan segmentointi toteutetaan SomatiCA ja laskettiin somaattisten suhteiden avulla HCC1143 30 x normaalin näytteen sopiva pari. Olemme säätää mediaani tuumorin kirjastoon, jotta mediaanit kaksi olivat samat. Sitten panos somaattisia suhdeluvut SomatiCA, ASCAT-variantti ja ehdoton. Kutakin näytettä varten ABSOLUTE lähtö 19 toteutettavissa yhdistelmiä sekoittumisasteeseen ja ploidia (sallitun alueen ploidia asetettu olla 0,95-4), joka kattoi laajan. Otetaan näyte HCC1143.n60t40 esimerkkinä (60% normaalit solut sekoitetaan 40% kasvainsoluja), arvioitu sekoittumisasteeseen on vaihteli +0,32-0,84. Vastaamaan olettamus vuonna SomatiCA, me valita manuaalisesti ehdoton ratkaisuja kopiosuhdetta 1 vastaava kokonaisluku kopiomäärän 2 (tai). Kuitenkin toteamme, että valitut ehdoton ratkaisuja sellaisissa kriteerit ovat tarkempia kuin ratkaisuja ylhäältä SCNA-fit log-todennäköisyys pisteet. Kiteytämme kuvattujen arvioiden taulukossa 1. Kaiken SomatiCA on verrattavissa suorituskykyä ehdoton. Sekä päihittävät ASCAT-variantti. Kolmessa samanlaiset näytteet 25% saastuminen normaaleista soluista (vaikkakin eri piikki-in SNVs käyttöön), SomatiCA tuotti tarkempi ja vakaa arvioita. Tämä tulos viittaa siihen, että vastaavuus on 1 kokonaisluvun kopioiden lukumäärää 2 voi olla kohtuullinen oletus tehdä syövän sekvenointitulosten kanssa pariksi normaalissa näytteessä sekvensoitiin vertailukelpoisessa syvyyteen.

Kun tulos korjattiin arvioitu sekoittumisen korko, käytimme SomatiCA kutsua SCNAs näissä näytteissä. Kuvio 4 esittää somaattisten kopioluvun ja subclonality tunnettu siitä, 7 näytettä analysoitiin. Tuloksena on yhdenmukainen näytteitä eri sekoittamalla osuus normaalien solujen, mikä osoittaa luotettavuutta SomatiCA eri määrin saastumista. Kuitenkin, koska on mahdollista mallia overfitting ja väistämättömiä tunnistettavuus ongelma, SomatiCA ei raportoi mitään sekoittumisasteeseen yli 80%. Sillä TCGA benchmark 4 näyte HCC1143.n80t20 ja HCC1143.n95t5 (sekoitettu 80% ja 95% normaalit solut), SomatiCA vain raportoitu segmentointi tuloksia ilman korjattuna sekoittumisasteeseen.

soitettu Tuloksena on yhdenmukainen näytteitä eri sekoitussuhde normaalien solujen, mikä osoittaa luotettavuutta SomatiCA eri määrin saastumista.

soveltaminen SomatiCA on GBM näyte

sovellettu SomatiCA koko Genomikartoituksen tiedot Complete Genomics alustan potilaan, joilla on diagnosoitu primaarinen glioblastooma (GBM) (julkaisemattomia tuloksia). Kuvassa S3 ja S4, osoitamme segmentointi peräisin SomatiCA ja sen vertailu CBS ja cumSeg käyttämällä kromosomien 7 ja 10 vastaavasti. Arvioitu sekoittumisasteeseen tälle näytteelle oli 37,1%. Säätämisen jälkeen sekoittumisasteeseen tunnistimme 121 SCNAs joiden koot vaihtelevat 3428 bp koko kromosomin. Nämä SCNAs kuului yksi kopio voitto koko kromosomissa 7, yksi kopio vahvistuksen koko kromosomin 9, ja molemmat LOHs ja copy-neutraali LOHs kromosomissa 10. Olemme edelleen verranneet näitä SCNAs 20 tunnettujen GBM kuljettajat lueteltu [21] ja totesi, että nämä SCNAs osoitti päällekkäisyydestä 15 ulos 20 tunnetaan GBM kuljettajia. Näistä monistuksella CDK6, EGFR ja MET, ja poisto on NF1 ovat klonaalisia taas muut tapahtumat ovat subclonal.

Keskustelu

Tässä artikkelissa olemme kuvanneet uusi laskennallinen puitteet, SomatiCA, tunnistaa SCNAs syöpään sekvensointi tietoja. Se kehitettiin vastaamaan saastumisen ja heterogeenisuus Tuumorinäytteissä, kaksi suurta haastetta syövän genomianalyysi. Laajat simulaatiot ovat osoittaneet parempi suorituskyky meidän menetelmien päälle nykyisiä.

SomatiCA on toteutettu neljä toiminnalliset moduulit R: alustava segmentointi, arvio somaattisten suhdetta segmentointi tarkentaminen korjattuna sekoittumisasteeseen ja subclonality luonnehdinta . Kukin moduuli SomatiCA voidaan kutsua itsenäisesti. Se on yksinkertaista toteuttaa räätälöityjä menettely, johon sisältyy yksi tai kaikki moduulit SomatiCA. Vaikka tiedot motivoiva kehittämiseen SomatiCA muodostettiin selvitettiin genomin alustan tulo SomatiCA on RD ja LAF kaikille pariksi SNP sivustoja, joten se yleisesti sovellettavissa analysoida tietoja muiden alustojen. SomatiCA on myös skaalautuva, koska segmentointi eri kromosomeissa voidaan kytkeä rinnan (Teksti S2 varten käsikirja SomtiCA paketti).

Huolimatta monista eduista, emme huomaa, että on olemassa useita varoituksia käyttää SomatiCA.

Ensinnäkin SomatiCA vaatii kartoitus viittaus genomin ja genotyyppi kutsuvan kuten esikäsittelyä vaiheita. On osoitettu, että mappability, GC-pitoisuus bias ja laadunvalvonta mitta lukee kaikki vaikuttavat lukea syvyydet siten CNV soittamalla [22]. Vaikka vaikutukset näistä asioista voidaan lyhentää SCNA soittamalla pariksi normaali-kasvainnäytteestä jossain määrin erityisiä varotoimia tarvitaan edelleen koskien valintaa aligners, kartoitus laatu suodattimet ja genotyypin soittajat. Sekvensointi syvyys voi myös vaikuttaa suorituskykyyn SomatiCA. SomatiCA kehitettiin jaksotusta tietojen kunnon kattavuus 30 × tai suurempi. Alhaisen kattavuus näytteitä (esimerkiksi 0,01-0,5 x), suosittelemme erikoistunut menetelmien, kuten BIC-kohdat [23] ja CNAnorm [24].

Toiseksi segmentointi vuonna SomatiCA tukeutuu muutos pistettä havaittujen CBS. Tuoreessa tutkimuksessa, Cai et al [25] kertoi, että CBS oli puute havaitsemiseen harva ja lyhyt segmentit välein pituudet alle 40 datapistettä. On myös esitetty meidän simulaatiotutkimuksia että segmentit vain muutamia markkereita yleensä unohdetaan CBS ja siten mukaan SomatiCA. Alhainen herkkyys lyhyen segmenttien pahentaa vielä käytön laimennetun signaalin heterotsygoottinen sivustoja. Siksi SomatiCA, kuten hetkellä toteutetaan, ei ehkä sovi harva ja lyhyt segmentti löytö syövän sekvensointi tietoja. Tämä on yleinen ongelma, että menetelmiä käyttämällä BAF (LAF). Mukaan kyselyn 3131 syöpänäytteissä mediaani pituus polttovälin SCNAs ilmoitettiin olevan 1,8 Mb (0,5 kb-85 Mb). Tunnistaa monenlaisia ​​SCNAs useita satoja emäsparia jopa kromosomi, suosittelemme harkitsemaan täydentäviä lähestymistapoja käytännössä. Segmentoitumisen menetelmä SomatiCA kuuluu luokkaan globaalin lähestymistapoja, jotka edellyttävät taitepisteissä testaamalla taustaa vasten koko kromosomi. Paikalliset lähestymistavat, joissa viitataan näihin menetelmiin jotka pyrkivät tunnistamaan SCNAs vertaamalla RD kasvaimen genomin kanssa sovitetun normaalin genomin kummassakin perimän asemaa (tai ikkunan), kuten BIC-kohdat [23], CNVseg [12]

Vastaa