PLoS ONE: Toiminnallinen kopioluvun Muutokset Cancer

tiivistelmä

Ymmärtäminen molekyylitason syövän vaatii luonnehdinta sen geneettisiä vaurioita. DNA-siru teknologiat voivat antaa yksityiskohtaisia ​​raaka tietoja kromosomipoikkeamakoe Tuumorinäytteissä. Laskennallinen analyysi on tarpeen (1) päätellä raaka array tietojen todellinen vahvistus tai poisto tapahtumia kromosomaalisten fragmenttien ja (2) erottaa syy kromosomaalisia muutoksia alkaen toiminnallisesti neutraaleja. Me esittää kattava laskennallinen lähestymistapa, RAE, joiden tarkoituksena on vahvasti kartta kromosomaalisia muutoksia Tuumorinäytteissä ja arvioida niiden toiminnallinen merkitys syövässä. Osoittaakseen menetelmät, me kokeellisesti profiili kopioluvun muutoksia kliinisesti aggressiivista alatyypin pehmytkudossarkooman, pleomorphic liposarkooman, ja laskennallisesti johtamiseksi muotokuva ehdokkaan onkogeenisten muutoksia ja niiden kohdegeenien. Monet vaikuttavat geenit tiedetään olevan osallisena sarcomagenesis; toiset ovat uusia, mukaan lukien välittäjiä adiposyyttien erilaistumiseen, ja se voi sisältää arvokkaita terapeuttisia kohteita. Yhdessä esitämme tilastollisesti luotettava menetelmä sovellettavat korkean resoluution genomista tietojen laajuuden arvioimiseksi ja toiminta kopioluvun muutoksia syöpää.

Citation: Taylor BS, Barretina J, Socci ND, DeCarolis P, Ladanyi M, Meyerson M, et al. (2008) Toiminnallinen kopioluvun Muutokset Cancer. PLoS ONE 3 (9): e3179. doi: 10,1371 /journal.pone.0003179

Editor: Greg Gibson, The University of Queensland, Australia

vastaanotettu: 07 elokuu 2008; Hyväksytty: 19 elokuu 2008; Julkaistu: 11 syyskuu 2008

Copyright: © 2008 Taylor et al. Tämä on avoin pääsy artikkeli jaettu ehdoilla Creative Commons Nimeä lisenssi, joka sallii rajoittamattoman käytön, jakelun ja lisääntymiselle millä tahansa välineellä edellyttäen, että alkuperäinen kirjoittaja ja lähde hyvitetään.

Rahoitus: Tämä työ tuettiin osittain: Tällä pehmytkudossarkooman Program Project (P01 CA047179, SS, NDS ja CS), The sarkooma Genome Project, ja The Kristen Ann Carr Fund. Rahoittajat ollut mitään roolia tutkimuksen suunnittelu, tiedonkeruu ja analyysi, päätös julkaista tai valmistamista käsikirjoituksen.

Kilpailevat edut: Kirjoittajat ovat ilmoittaneet, etteivät ole kilpailevia intressejä ole.

Johdanto

Ihmisen syöpä johtuu osittain peruuttamatonta rakenteellisia mutaatioita. Nämä voivat aiheuttaa muutoksia DNA kopioluvun erillisiä paikkoihin genomissa [1]. Aberraatioita Tämän tyyppinen vaikuttaa geenien ja tuottaa näin transformoidun fenotyypin. Kattava luonnehdinta Näiden poikkeavuuksien on välttämätön askel ymmärtämään sairauden etiologiassa ja edistää kehitystä kohdennettujen hoitomuotojen [2], [3], [4], [5], [6], [7]. Tekniikat perustuvat microarray teknologia voi samanaikaisesti mitata tuhansista miljooniin DNA-kohtien genomin DNA kopiomäärä muutoksia. Ne sisältävät array vertaileva genominen hybridisaatio (array CGH) ja yhden emäksen monimuotoisuus (SNP) paneelit (tarkistetaan [8]). Nämä yhä herkkää tekniikkaa on käytetty kuvaamaan paitsi poikkeavuuksia syöpä, mutta myös kuvaamaan kopioluvun vaihtelu ihmisiin [9], ja perustan geneettisiä häiriöitä (tarkistetaan [10]).

Koska sen kyky tunnistaa uusia onkogeenien ja tuumorisuppressorigeeneille syövässä, kaksi strategiaa on käytetty analysoida kopioluvun joukko tietoja kasvaimia. Perinteinen lähestymistapa segmentit meluisa koetin-tason tietojen yksittäisissä kasvaimissa (jakamalla genomin alueisiin yhtä kopioluvun) [11], [12], havaitsee harhautumista jolla on maailmanlaajuinen kynnys, ja heuristisesti määrittelee rajat alueiden muuttumattomat [13] , [14]. Uudemmat algoritmeihin strategiat käyttää tilastollisia malleja analysointia varten useiden näytteiden [15], [16], [17]. Viime aikoina, Beroukhim et ai. Ehdotettu mielenkiintoinen kattavat puitteet arvioitaessa kopioluvun muutos kasvaimen ikäluokat [18]. Samanaikaisesti näiden laskennallisen kehitykseen, on käynnistetty toimia analysoida suuri kasvain kokoelmia eri syöpätyyppien, kuten kokeiluvaiheen Cancer Genome Atlas [19] [Cancer Genome Atlas (TCGA) Research Network 2008 toimitti]. Niitä kerätään eri lähteistä ja kriteereitä, jotka todennäköisesti johtavat sisäisten kasvainten heterogeenisyys ja välillä kasvaimen vaihtelua. Siksi tärkeitä ratkaisemattomia kysymyksiä on edelleen. Miten muutokset yksittäisten kasvainten havaitaan ja yhdistetään, kun näytteitä vaihdella huomattavasti niiden meluominaisuudet? Miten genomin jaettava ja arvioidaan luonnollisemmin ilmi, miten muutokset syntyvät? Mitkä ovat ominaisuuksia realistinen tausta malli, jotka mahdollistavat tunnistamisen tilastollisesti merkitsevästi toistuvat ja siksi todennäköisemmin toiminnallisia muutoksia?

Tässä artikkelissa kuvaamme laskennallinen kehys, jossa käsitellään kukin puoli tätä ongelmaa. Me (i) kehittää erillisiä pisteytysmallit eri muutos tyyppejä, jossa parametrit on sovitettu ominaisuuksien yksittäisten kasvainten, (ii) käyttää segmentointi keskeytyskohtia jakaa genomin analysoitavaksi että korostetaan fyysinen luonne kopioluvun muutos, (iii) rakentaa satunnainen poikkeama malli, joka approksimoi biologinen prosessi, jossa muutoksia syntyy, ja käyttää sitä (iv) arvioidaan tilastollisen merkityksen havaittu muutoksia. Tämä tunnistaa genomista kiinnostavat alueet (ROI) muutettu useammin kuin olisi odotettavissa sattumalta, ja siksi todennäköisemmin ajaa kasvaimien syntyyn (kuvio 1). Käytämme menetelmää suuri varasto kiinteiden kasvainten testata sen suorituskykyä. Olemme myös soveltaa RAE uudenlaista korkean resoluution kopioluvun datasarjan tuotetaan meidän laboratorioissa joukko pleomorphic liposarkooma näytteiden havainnollistaa sen kykyä johtaa uusiin löytöihin.

Input on joukko potilaita; kasvain DNA, (un) sovitetun kuin kasvain DNA, ja liity viittaus normaalia kohortissa. Kasvain ja ei-kasvain näytteet kvantifioidaan, normalisoitu, ja jollei laadunvalvontaa. Arvioinnissa vaiheessa yksittäiset näytteet segmentoidaan ja monen komponenttimalli Parametrisoidaan kutakin; tämä tuottaa ilmaisin Yksikopioiselle vahvistuksen, vahvistus, hemizygous menetys, ja homotsygoottinen poisto. Kaikissa kasvaimet, yhtenäinen keskeytyskohta profiilin (UBP) on johdettu kokonaisuus segmentointi breakpoints, ja kukin alue on sävelletty voitto ja tappio. Tausta malli satunnainen aberraatioita rakennettu täydentävää pilkkominen ja permutaatio perimän alueita, ja p-arvot osoitetaan ja joka on korjattu useita hypoteesin testaukseen. Tuotoksen vaiheessa, RAE määrittää genomiset rajojen kiinnostavat alueet (ROI), ohjauslaitteet ituradan ja väestön kopioluvun vaihtelua, ja raportit tilastollisesti merkittäviä muutoksia.

Tulokset

Ulkoiset lähteet vaihtelu

ensimmäisessä vaiheessa RAE, me käsitellä luotettavasti havaitsemaan kopioluvun muutos yksittäisissä kasvaimia. Jokainen kasvain, mukaan lukien potilaiden, joilla on sama syöpätyyppi, vaihtelee niiden kohinan ominaisuudet. Keskitymme täällä kokeellista kohinaa ja ongelma homogeeninen kasvaimen DNA. Lisäksi lähde biologinen melu on rakenteellista vaihtelua, jota käsittelemme myöhemmin. Ensiksi mainitun osalta löysimme ainakin neljä erillistä jotka voivat peittää kopioluvun muuttuu kasvain ja tämä motivoi lähtö globaali kynnysarvot havaitsemiseksi muutoksiin. Niihin kuuluvat (i) heikkolaatuisen sovitettu ei-kasvain DNA-näytteet, (ii) strooman sekoittumisen, (iii) kasvain heterogeenisuus, ja (iv) epäjohdonmukainen kasvain profiilin, ja keskustelemme kukin vuorollaan.

vaihtelu laatu vastaaviin normaaleihin näytteistä.

Monet ryhmät, kuten omat, ovat havainneet merkittäviä kuin diploidinen kopioluvun joissakin normaaleissa näytteissä (kuvio S1). Syyt voivat sisältää lähteen kudoksen (kun kyseessä on

normaali

kudoksen vieressä kasvain), erilaiset käsittelyä protokollat ​​kasvaimen ja normaalin näytteet, ennen kemoterapiaa DNA normaalien verisoluja, verenkierrossa olevia kasvainsoluja, ja muu kontaminaatio normaalia DNA: ta. Vuonna

pariksi

analyysi, tämä ei-neutraali signaali vaimentaa tai muuten muuttaa kasvain signaalin. Tämän estämiseksi, me korvata viittaus normaali aineisto tunnettujen diploidinen fenotyypin ja analysoida kasvaimia parittoman muodossa (menetelmät). Tämä viite syntyy satunnaisesti valitsemalla osajoukon liity yksilöt HapMap keräämisen, ja tuottaa johdonmukaisen diploidinen signaalin kasvaimen määrän ja normalisoinnin (Methods S1, Taulukko S1, ja kuvio S2). Me melun vähentämiseksi tässä uudessa intensiteettisuhdetta segmentoimalla yksittäiset kasvaimet [11], [12]. Tämä prosessi korreloi lähialueiden merkkiaineiden yhteiset kopioluvun, osoitetaan aritmeettinen keskiarvo koetin-tason signaali poikki markkereita kussakin segmentissä (menetelmät). Vaikka me vältä vastaaviin normaaleihin DNA tässä vaiheessa, emme käytä korkealaatuista osajoukko ituradan tapahtuman suodatuksen jälkeen tilastollinen arviointi (menetelmät).

stroomakasvaimet sekoittumisen.

Toinen lähde melun on kasvain epäpuhtaus, hyvin dokumentoitu ongelma [20], [21]. Yksittäisten kasvaimet ovat eri kuin tuumorisolun saastumista. Tämä vähentää suhde signaali-kohina sisällä ja välillä kasvaimia. Se vaarantaa myös tarkka genotyypityksen ajantasaisen menettämisestä Heterotsygoottisuuden (LOH) analyysit. Tämä vaarantaa havaitsemista kaksi tärkeää luokkaa muutos-: copy-neutraali ja poisto-liittyvä LOH. Saastuminen kasvain DNA ei-vainsolukasvun DNA kykenee sen vaikutus maailmanlaajuisesti yhtä vaimentaa signaalia lainkaan loci on kasvain. Ratkaisumme on kaksijakoinen. Ensin otamme yksittäisen kasvainten lähestymistapa asettamalla kynnyksiä log

2 signaali havaita poikkeavuuksia, mikä tiedon keruuseen kasvaimia, jotka muuten eivät tarjoa riittävää signaalia havaita kuin diploidinen kopioluvun muutoksia verrattuna puhtaampaan kasvainnäytteestä. Toiseksi meidän yhtenäistää suuruus muutoksen kaikista kasvaimista helpottamiseksi välillä kasvaimeen vertailtavuus, tärkeä ominaisuus verrattaessa kasvainten vaihtelevan strooman sekoittumisen.

Kasvain epäyhtenäisyys.

Kolmas melun lähde on ehkä kaikkein sekoittavia. Näemme todisteita väli- kopioluvun useita kasvaintyypeissä. Esimerkiksi kun arvon monosomia (tai ChrX in miespotilas) vahvistetaan luottamusta jatkuvan log

2 arvoa, joka vastaa erillisiä kokonaisluku kopioida menetys, tämä signaali on usein varren pituus tappio, joka kuuluu välissä diploidinen ja loki

2 arvoa yhden kopion menetystä. Tämä voi olla alleelispesifinen kopioluvun yksinomaan joko äidin tai isän kromosomista, tai todennäköisemmin ilmoitetaan mahdollisuudesta, että useita erillisiä mutta siihen liittyviä subklooneja esiintyy yhden klonaalinen kasvain. Kun yhden kopion menetystä kromosomissa on olemassa vain yksi kahdesta erillisestä kasvainsolupopulaatioissa, on konvoluution muuttumisen vähentämiseksi suuruus tapahtuman mitattuna sekapopulaatiosta (kuva S3). Siksi useat otaksuttu kasvainsolupopulaatioissa differentiaalisesti vaikuttaa signaalin

paikallinen

tavalla erillisiä alueita samassa kasvain. Niinpä päätimme yksittäisen kasvainten vaihtoehto maailmanlaajuinen kynnys muutos, edellisen ollessa herkempiä havaitsemiseksi tällaista arvoituksellinen signaalin.

epäjohdonmukaisuus kopioluvun profiilin.

Lopuksi epätarkkuus kopioluvun segmentointi on viimeinen ulkoiset lähde vaihtelua vaarantamatta Tapahtumakynnykset yksittäisissä kasvaimia. Suuri määrä tietoa koodaa alkuperäisen koetin-tason tietojen tiheä paneelit kuten Affymetrix 250 K SNP array. Segmentointi on suunniteltu vähentämään että tietosisällön vähimmäismäärää erillisiä voitot, tappiot, ja neutraali kopioluku. Suurin vähennys tieto on näytteissä tuottamaan muutamia segmenttejä, ja vähiten näytteissä korkea segmentin count (kuva S4). Tämä ei kuitenkaan ole yhtenäistä suhdetta koetin-kohinan (Eq. 1, Methods). Näin ollen koska ominaisuudet koetin tason melu ovat erilaisia ​​kuin segmentointi, käytämme vain jälkimmäinen kaikissa seuraavissa vaiheissa analyysi.

Multi-komponentti pisteytys malli kopioluvun muutos

sopeutua tähän monimuotoisuuden vaihtelua yksittäisten kasvainten kehitimme säädettävä multi-komponentti malli havaita poikkeavuuksia, ensimmäinen ydin piirre RAE. Aloitamme erottamalla segmentoitua kopioluvun neljään

komponentteja

, kukin koodaavat aseman muutos tyyppiä; yhden kopion vahvistus (A

0), vahvistus (A

1), hemizygous tappio (D

0), ja homotsygoottinen deleetio (D

1). Tämä erottaa molemmat analyysi koko hyötyä menetys, mutta myös erityisiä ja intuitiivinen luokat jokaisen. Tämä on tarpeen, koska jokainen muutos aiheuttaa eri analyyttinen haasteita, ei ainoastaan ​​dynaamisen alueen, mutta myös niiden meluominaisuuksien, joka on usein unohdetaan. Myös jakamalla koko signaali näihin neljään eri luokkaan, on mahdollista mallia voi poimia enemmän tietoa ja tuottaa entistä tarkemmin yksittäisen tapahtuman puhelut.

Herkkyys.

analyysi asettaa kasvaimia, on kaksi attribuutteja, jotka kuvaavat kopioluvun vahvistus, taajuus ja amplitudi. Tällä yhden otoksen tasolla tämä on yhtä kuin ”ilmaisin” ja ”integraattori”, entinen tunnistaminen olemassaolon tapahtuman ja jälkimmäinen määrittämällä sen suuruus suhteessa alkuperäiseen amplitudi. Me perusteltu, että koodaava havaitseminen tapahtuman erillään sen amplitudi olisi useita etuja: (i) ilmaisin toimii marginaalissa signaalin ja melun ja on vankka käyttöönottoa villityypin signaali, (ii) koska amplitudi on rajaton ja vaihtelee funktiona strooman saastumisen olisi standardoida helpottamiseksi välillä kasvaimen vertailukelpoisuus, ja (iii) meidän tilastollinen malli, joka testaa onko muutos ylittää satunnainen poikkeama korko, joka perustuu ensisijaisesti toistumista poikki näytteistä, me haluavat lisätä voimaamme havaitsemiseksi harvoin, mutta hyvin korkea-amplitudi tapahtumia. Niin, nämä ovat erikseen koodattu yhden kopion vahvistus (A

0) ja vahvistus (A

1).

Loss.

Lähestymme genomi menetys hieman eri tavalla, joskin samanlaista käsitteellinen kehys. On olemassa useita haasteita ainutlaatuisia alleelisille menetys, joka oikeuttaa muokattu lähestymistapa, ja jokainen näistä on tärkeä biologinen seuraus. Ensinnäkin poisto on rajoitettu sen alueella; vain kaksi kopiota lokuksen voidaan menettää. Tämä on eri asia kuin vahvistus. Puuttuu todellinen suuruus, DNA on joko ”läsnä” tai ”poissa”, ja siksi samanlainen pisteytys järjestelmä olisi sopimatonta. Tämä täydellinen puuttuminen signaali (tai suuruus) vastaa homotsygoottinen poisto. Toinen analyyttinen komplikaatio on negatiivinen vinossa jakeluun segmentointi ympärillä diploideille piikin (kuva S5). Toistaiseksi tämä on ominaisuus ainutlaatuinen genomisen menetys ja vaikeuttaa havaitsemista hemizygous menetys, kun sen siirtyminen villityypin signaali tulee piirteetön. Kuitenkin tarkasti havaitsemaan yhden kopion menetys on tärkeää. Biologinen rinnakkain on klassinen tuumorisuppressori malli, sellainen, jossa somaattisten mutaation tai metylaation yhden alleelin on kytketty menetys muita. Nämä menetykset ovat usein laaja, ja ne voivat kohdistaa useita loci, vähentää funktio useamman kuin yhden geenin. Kuitenkin tämä kuuluu reunoilla havaittavuutta tällaisessa meluisassa järjestelmä. Voittaa nämä monimutkaisuutta, myös erottaa poistetaan kahteen osaan. Toisin kuin malli vahvistuksen, molemmat osat ovat ”ilmaisimet”, toinen hemizygous tappio (D

0), ja toinen homotsygoottinen deleetio (D

1) (parametroinnista käsitellään Methods S1).

Soft syrjintää.

Vaikka on olemassa monia vaihtoehtoja optimoitua näiden muutos tyyppejä, keskeinen piirre lähestymistapamme on käyttää

pehmeä

syrjintää. Tarjoavat luotettavan (ja binääri) arvon olemassaolon tapahtuman meluisassa järjestelmä on vaikeaa. Tämä pahentaa yhden kopion tapahtumia marginaalit signaalin ja kohinan. Näin ollen olemme havainneet, että jopa sen jälkeen, segmentointi, joka on aineisto laajuinen log

2 kynnys havaita muutos on tehoton niin meluisassa järjestelmä (tuloksia ei ole esitetty). Vaihtoehtoisesti on merkittävä ennakkotapaus pehmeää erottelijoihin meluisissa järjestelmissä, ja sopeudumme tätä periaatetta havaita kopioluvun muutos. Ajatellaan esimerkiksi muuttaminen kasvupaikalla kahdessa kasvaimissa, sekä jolla on samanlaiset amplitudit. Entinen ylittää

kova

kynnyksen pieni suuruus; Jälkimmäisessä ei, mutta jälleen vain pieni suuruusluokkaa. On epätodennäköistä, että tämä nimellisesti vastaavien lokus tuloksia muuttuneessa biologian entisessä, mutta jälkimmäinen on tosiasiassa rangaistaan ​​(kuvio 2A). Joten, saavuttaa pehmeä syrjintää jokaisen muuttaminen tyypin, käytämme sigmoidisen toimintoa parametrit sijainti (

E

) ja kaltevuuden (

β

) (kuvio 2B, Methods). Tämä toiminto kartat jatkuva log

2 suhteet, teoreettisesti ulottuen ± ∞, vakioarvoon välillä 0 ja ± 1 (riippuen merkki

β

). Vaihtelemalla suuruus

β

, voimme tehdä toiminnon käyttäytyä enemmän tai vähemmän kuin terävä kynnys. Lisäksi, koska parametrit (

E

,

β

) määritetään yksittäisten kasvainten tiedot ja mukautettava kunkin muutoksiin tyypin, voimme vaihdella toiminnon herkkyys, johon mahtuu hyvin erilaisia ​​malleja melua aikaisemmin käsitelty (kuvio 2C, Methods S1). Tämä mukautuva parametrisointi on myös mekanismi, jonka avulla voimme poimia tietoa vaativimpiinkin kasvain profiileja. Tämä joustavuus osittain poistaa tarpeen subjektiivisen laadun valvonnan poistamisesta pohjimmiltaan epäinformatiivisia näytteitä. Yksittäisten kasvaimet, joissa on monimutkainen ja /tai epäyhtenäinen kuvio signaalin (kuva S5), parametrointi tuottaa konservatiivisia arvoja

E

ja

β

kullekin muutos tyyppi, tukahduttaa suuri osa koko signaalin suunnittelu. Tämä on erityisen tärkeää analysoitaessa harvinaista kasvaintyypeille jossa lähdemateriaali on arvossaan ja poistaminen näytteiden selvä haitta. Lopuksi, kun pehmeä vaikuttavia tekijöitä yhden kopion vahvistus sekä mono- ja bialleelisten tappiot yhdistetään kaikissa kasvaimia, ne ovat välityspalvelinta uusiutumisen kunkin muuttamisen tyyppiä. Yhdistämisessä poikki kasvaimia on aiheena seuraavassa jaksossa.

(a) meluisassa järjestelmä, pehmeä syrjivä (punainen) on asetettu rinnakkain kova kynnys (musta); jotka molemmat antaa pisteitä joko jatkuva tai binääri arvoja vastaavasti (suluissa) varten luotettavasti kopioida neutraalia tai vahvistetut loci (musta) ja haastavia tapausten marginaali signaalin (vihreä). Tämä osoittaa hyödyksi pehmeän syrjintää. (B) toiminnalliset muoto pehmeä naattori sigmoidisen toiminto parametrit sijainti (

E

) ja kaltevuuden (

β

). (C) Yksittäiset kasvainten lähestymistapa havaitsemiseen voitto ja tappio; multi-komponentti malli parameterized kahden kasvaimia (punainen ja sininen), mikä osoittaa, että kasvain-ominaisuudet tuottavat erilaisia ​​vaikuttavia tekijöitä yhden kopion voitto ja tappio (kiinteä), vahvistus (katkoviivavälähdykset), ja homotsygoottinen deleetio (pisteviiva). Parametrointi valitsee arvot

E

ja

β

siten, että niiden suuruus (unsigned) liikkuu osoitettuun suuntaan (legenda).

Laskemalla muutokset

yhtenäinen breakpoint profiilin (UBP).

Olimme kiinnostuneita tunnistamaan realistisin yksikkö genomin joihin muutokset todennäköisesti syntyy ja joille meidän monikomponenttijärjestelmän malli olisi arvioitava tilastollisesti. Kuten hyvänlaatuinen variantteja, patogeeniset muutokset ovat segmentoituja, muuttamalla ~kilobase kokonaisiin-kromosomin kokoinen osuuksilla DNA. Miksi analysointiin arvioimalla erittäin tiheä sarja markkereita ( 238,000), kun ehkä vain 50~20,000 ovat aidosti riippumattomia havaintoja? Koska vaurioita muuttaa DNA-fragmentit, tunsimme RAE tulisi toimia näillä. Siksi otimme etuna keskeytyskohdat tuottamien yksittäisten kasvainten segmentointia. Tämä nimenomaan korreloi lähialueiden antureista segmentissä samanlaisia ​​kopioluvun ja suunnilleen rakenteellisia muutoksia perimässä. Yhtenäistämme ainutlaatuinen murtuessa kannat havaittiin kaikissa kasvaimia ja nämä luoda uuden jaon genomin (kuvio 3A, Methods). Nämä äskettäin määritelty alueet ovat syöpää tyyppikohtaisia ​​ja lopullisen analyysiyksikkö. Tällä vältetään sekä keinotekoinen pituusskaala ja tilastolliset kompromisseja silloin, kun käyttöjärjestelmänä on yksittäisiä merkintöjä, kuten vaikutus usean hypoteesin testaukseen, kun mittaukset ovat osittain riippuvaisia ​​(Methods S1).

(a) tiheys Ihmisen rekombinaatio kuormittajat (top; mediaani väli kuormittajat on noin 55 kb) kattaa segmentointi (punainen) koetin-tason tietojen (tummansininen) on -5 mb alueen 13q14.13-3 neljässä pleomorphic liposarkooma. Ainutlaatuinen kasvaimeen liittyviä raja-arvot (mustat nuolet) määritellä UBP (alueet r

1-6, alhaalla), pienin joista (r

3) kattaa neljä geenejä, mukaan lukien kasvain vaimennin

RB1 ​​

(suunta transkription ilmoitettu). (B) kromosomissa 1p, tiheys jakelu ennustetun rekombinaation kuormittajat (punainen), jonka leveys on sama kuin mediaani välinen etäisyys kaikkien p-varsi kuormittajat (56 kb), ja jakelu niiden satunnaistaminen (sininen). Näytteenottomenettelyn kunnioittaa muoto alkuperäisestä jakelun ja siksi sekvenssien ominaisuuksia että taustalla se. (C) koko jakelun alueilla johdettu segmentointia ja myöhemmin määritelty yhtenäinen murtuessa profiilin (UBP, harmaa), ja ne hotspot-pilkkoutuu alueilla saman permutoidun aikana nolla malli sukupolvi (kuten, sininen).

yhdistäminen todisteita muutos eri kasvaimista.

Jos haluat ilmoittaa yhteenvedon muutoksia näillä alueilla kokoelma kasvaimia, yhdistimme havaitut muutokset kaikilla potilailla. Tapa, jolla teemme voimme arvioida merkitystä tapahtuman kautta verrattuna nolla jakelun puhtaasti satunnaisia ​​poikkeamia. Jokainen komponentti on ensin tiivistää keskimääräinen poikki näytteet kullakin alueella UBP. Me sitten laskea yhteenvedon pisteet (Eq. 3) sekä täydellistä voitto ja tappio (A ’ja D ”vastaavasti), joka yhdistää todisteet yksittäisten muutos tyypit (menetelmät). Pääasiallinen etu tässä lähestymistavassa on joustavuus. Null malli (aihe seuraavassa kappaleessa) voidaan luoda arvioida: mitä tahansa alkuperäisen neljästä osasta, summana täydellistä voitto ja tappio (oletus) tai painottamalla yhden muutoksen tyyppi suhteessa toiseen. Viimeisenä yhdistäminen askel, me analyyttisesti johtaa epävarmuus tässä tiivistelmässä pisteet kullekin alueelle UBP. Tämä on tärkeä ominaisuus lähestymistapamme. Levittämällä virhe segmentointi kaikista kasvaimista ulottuu tietyssä lokuksessa, tuotamme edustus epävarmuus meidän mittauksen muutos kussakin lokuksessa (Methods S1). Tämä epävarmuus on luontainen osa mitä tahansa pisteytys malli, mutta ei tällä hetkellä käytetä nykyisten menetelmien.

tausta malli.

Kehitämme tausta mallin merkityksen arviointiin kasvaimen spesifisiä muutoksia , kolmas ydin piirre RAE. Ominaisuudet realistisen tausta poikkeavuus malli ihmisen syövissä ovat monimutkaisia ​​ja ratkaisematon tutkimusala. Ensimmäisessä lähestymisessä, oletamme kasvain profiili on yhdistelmä sekä kuljettajan ja matkustajan muutoksia. Lisäksi alueet valitaan kasvain span geenejä, joiden häiritsi toiminto muuttaa normaalin solun fenotyyppi. Oletamme näiden on upotettu keskellä ei-spesifinen aneuploidian, ehkä tuote lisäämällä genomin epästabiilisuuden. Tämä korjaa stokastisesti hankitut muutokset aikana neoplastiset etenemisen, mutta jotka ovat pohjimmiltaan neutraali tuumoribiologiassa. Tämä viittaa prosessi ulottuu mielivaltaisen on selvästi ei-satunnainen, sekä suhde normaalin geneettisen liikevaihdon ja hankintaan kopioluvun muutos. Tämä merkitsee sitä, kasvaimeen liittyvät raja-arvot tunnistetaan segmentointi on vain pieni murto-osa koko raja-arvot genomissa. Joten, me arveltu, että taustalla mallin pitäisi sisällyttää osia tämän hyvänlaatuinen geneettistä taustaa. Yhteydessä kopioluvun aberraatioita, Valitsemamme ennustetusta ihmisen rekombinaatio kuormittajat.

Kuormittajat, paikallinen määrää on lisättävä ihmisen rekombinaatio, ovat ominaisia ​​alleeliset ja ei-alleeliset ((N) AHR) homologisia rekombinaatio. Nahr puolestaan ​​on yksi mekanismi, jolla

de novo

rakenteellisia variantteja vahvistetaan genomissa. Osaa näistä variantteja tuottaa kopioluvun muutos, vähän joka on patogeeninen. Itse asiassa aikaisemmat tutkimukset liittävät korkeat Nahr kanssa segmentaalisia päällekkäisyyksiä. Nämä sekvenssit ovat siten alttiita murtaa ja uudelleenjärjestelyn (tarkistetaan [22], [23], [24]). Lisäksi kopioluvun vaihtelu on tiukasti kytketty aina segmentin päällekkäisyyksien ihmisen genomissa [9], [25]. Niinpä käytämme satunnainen prosessi rekombinaatiota kuormittajat joka ilmaisee tämän mekanismin. Nämä kuormittajat Arvioitu kuviot kytkentäepätasapainossa (LD) välillä säilynyt yksilöitä, mikä rekombinaatio esiintyy koko isiensä linjaa [26]. Täydennämme kasvain breakpoints mukaisella tavalla sekä tämän korkeamman asteen rakenne Ihmisen genomin ja kuviot geneettisen monimuotoisuuden.

satunnaistettu genomisen kannat ennustetun rekombinaation kuormittajat (

n

= 32996 , HapMap vaihe II [27]), jossa on hylätty-näytteenottomenettely joka simuloi etuoikeutettu ominaisuuksia taustalla jakelua koskevien rekombinaation (kuvio 3B). Nämä satunnaistettiin kannat käytetään pilkkomiskohtia suurimman kasvaimen lohkoilla ennen permutaatio (menetelmät). Täydentävät eristämistä genomin lisäksi toimittamat kasvain segmentointi ennen permutaatio on myös operatiivinen etu. Se lisää permutaatiosymbolia tilaa kasvain kun segmentointi tuottaa alhainen segmentti lasken jotka murto ovat copy-muuttunut, ja loput ovat suuria genomi- koko, mutta pohjimmiltaan diploidinen. Ilman ylimääräistä jako, muuttuneen segmentti voidaan ionivaihdettua osaksi äärellinen määrä kantoja, rajoittaa mallia. Murtuvat suurin copy-neutraali segmenttien tarjoaa kuitenkin paljon suurempi määrä kantoja, johon mielenkiinnon kohteena olevan alueen järjestystä voidaan vaihdella.

ottaa tutkittu useita permutaatio malleja, päätimme nolla jakelu johdettu genominlaajuisten permutaatio (Methods S1). Lyhyesti, (i) segmentit kunkin kasvaimen jaetaan edelleen (lohkaista) asemissa satunnaistetun rekombinaation kohteiden, minkä jälkeen (ii) UBP on johdettu uudelleen tästä modifioitu kokonaisuus raja-arvot (kuvio 3C), (iii): n arvot multi-komponentti malli kullakin alueella tämän UBP (A

0 A

1, D

0, D

1) pennutoidaan yhteen toiseen asemaan UBP kussakin näytteessä ja re -Yhdistetty poikki kasvaimet (katso menetelmät). Tämä toistetaan tyypillisesti 10000 kertaa tuottaa nolla jakautuminen 10

8 sijoitettiin alueilla.

arvioiminen merkitys ja tunnistaa kiinnostavat alueet

Voit antaa tilastollista merkitystä, erikseen voitto ja tappio käytämme tätä null jakelua permutoitu tietojen laskemiseksi p-arvojen perusteella, miten usein sattumanvaraisesti permutoitua pisteet ylittää näytteen pisteet (Eq. 3). Me korjaa useita hypoteesin testauksen kanssa Benjamini-Hochberg vääriä löytö korko menettelyn [28]. Tämä korjaus tehdään kaikkien kokeiden, jotka vastaavat alueita UBP. Riippuen segmentointi profiilia näytteiden sairauden tyyppi, tämä johtaa vähenemiseen yhdestä kolmeen suuruusluokkaan tehokkaan testeissä verrattuna yksittäisiä merkintöjä. Tuloksena q-arvon määrittelee osa siedetty vääriä positiivisia ylittää tietyn pisteet johtuvat sattuman meidän taustalla malli. Alueet suodatetaan sitten perustuvat q-arvo tyypillisen cutoff 0,01 (FDR≤1%).

Tutkittavat alueet (ROI).

vieressä tutkia lopullisen ytimen ominaisuus RAE, rajojen määräämisestä alueille merkittävien vahvistusta ja poisto. Jos muutos vaikuttaa onkogeneesiin, niin oletetaan, että genomin alueella on valittu sen vaikutus geenin sisältöä. Tämä tapahtuma voi muuttaa yhden geenin tai useita toisistaan ​​riippumattomia tapahtumia voi kohdistaa koordinoidun geenejä. Nämä vauriot voivat myös yhteistyössä kehittyvät satunnaisella muutoksia, jotka ovat vähän biologisia vaikutuksia. Ei-satunnainen muutokset ovat tilastollisesti merkittävä suhteessa meidän null malli ja siksi ovat ehdokas kiinnostavat alueet. Kuitenkin kiinnostavat alueet eivät tarkasti määritelty, mutta ovat intuitiivisia ja motivoi ensisijaisesti kaksi asiaa. Ensinnäkin biologinen tutkija on kiinnostunut pääasiassa hallittavissa ja tulkittavia tapahtumia, ehkä liittyy yhden geenin. Toiseksi näemme visuaalisesti tiedoissa alueilla focality jossa huiput muutos on olemassa, mutta sekoitti meluisa data, mukaan lukien läheiset tai naapurimaiden huippujen. Kaapata molemmat, me toteuttaa kahdessa vaiheessa määrittää ROI. Ensimmäinen vaihe tunnistaa alueilla merkittävää muutosta (q≤0.01). Nämä ovat (i) eristettyjä alueita UBP (singletons) missä polttovälin muutos on vaikuttanut yhden lokuksen, tai (ii) useiden fyysisesti vierekkäisten alueita, jotka ovat yhdistettävä ja annettava suurin genomista rajat tapahtuman. Toinen vaihe on suunniteltu kuulustella nämä laajat voittoja ja tappioita varten huiput hienompaa mittakaavan ja merkittävämpiä muutoksia. Nämä ovat todennäköisesti sisältää onkogeenit ja tuumorisuppressorigeenit, täyttävät ensimmäisen intuitiivinen kriteerit ROI, mutta ovat monimutkaisia ​​eniten toinen. Näin ollen, on olemassa kahdenlaisia ​​epätarkkuus, jotka vaikuttavat määrittämiseen alueiden polttovälin muuttamisen. Spatial epätäsmällisyys liittyy kokeellinen järjestelmä, jossa

true

aseman muutos on mittaamatta johtuu merkki valinta, array kokoonpano, ja rajallinen resoluutio. Mittaus epätäsmällisyys viittaa virhe lisätyistä yksittäisistä tapahtumista kussakin näytteessä ja heijastaa sekä melu luonnostaan ​​kokeessa ja vaihtelevuus tuottaman otoskoko. Entinen on kiinteä ja paranevat array tiheys kasvaa. Jälkimmäinen on meidän sisällyttää nimenomaisesti toiseen vaiheeseen meidän algoritmin, mutta puuttuu ennen lähestymistavoista [13], [14], [18], [29]. Tietyn laaja alue, joka sisältää loci ylittävät kynnysarvo, havaitsemme huiput yhteenvedossa pisteet (L

2, Eq. 3). Jos huippu havaitaan, se yhdistetään viereisen loci tämän laajemman alueen merkitystä, jos heidän L

2 kuuluuko huippu n välein virhe (kuva 4, katso menetelmät). Tässä graafinen esitys tiedoista,

RB1 ​​

tuumorisuppressoriproteiinia, käsitellään yksityiskohtaisemmin jäljempänä, havaitaan huippu samalla yhdistettiin alueilla, jalostaa rajoja ROI niiltä ulottuu ~ 3 mb sekvenssin ja 20

Vastaa