PLoS ONE: Erityiset genomialuetta differentiaalisesti Vaikuttavat Kopioi numero muutostyöt, erillisten syöpätyyppejä, kootussa Sytogeneettiset Data

tiivistelmä

Background

Alueellinen genomista kopioluvun muutokset (CNA) havaitaan valtaosa syövistä. Sen lisäksi on erityisesti suunnattu tunnettu, kanoninen onkogeenien, CNAs voi myös olla hienovaraisempi määriteltäisiin moduloimaan geneettistä potentiaalia ja laaja geeniekspressiomalleja sairastua kasvaimia. Kaikki merkittävät erot yleistä CNA malleja eri syöpätyyppejä voi siis kohta kohti erityisiä biologisten mekanismien toimivat näissä syövissä. Lisäksi eroja CNA profiilit voi olla hyötyä syövän luokitusten ne toteutuisivat huomautus järjestelmiä.

Keskeiset havainnot

Olemme analysoineet molekyylitason sytogeneettinen tietoja 25579 kasvaimista näytteistä, jotka oli luokiteltu 160 syöpä tyypit mukaan International Classification of Disease (ICD) koodausjärjestelmä. Korjattaessa erot yleisen CNA taajuusvälillä syöpätyyppejä, jotka liittyvät syövät usein todettu klusterin yhdessä mukaan yhtäläisyyksiä niiden CNA profiileja. Perustuen satunnaistamisjakson lähestymistapaan, etäisyys toimenpiteitä klusterin dendrogrammissa käytettiin tunnistamaan näitä erityisiä genomialuetta joka vaikutti merkittävästi tätä signaalia. Tämä lähestymistapa tunnistettu 43 ei-neutraali genomiset alueet, joiden alttius esiintymisen kopioluvun muutoksia vaihteli syöpätyyppi käsillä. Vain osa niistä käyvät lokusten päällekkäin aiemmin hiljaista, erittäin toistuva (hot-spot) sytogeneettisen epätasapaino alueilla.

Johtopäätökset

Niinpä monet genomialuetta, yksinkertainen null-hypoteesi itsenäisyyden välillä syöpätyypin ja suhteellinen kopiomäärä muutos taajuutta voidaan hylätä. Koska joissakin näistä alueista näyttää suhteellisen alhainen yleinen CNA taajuuksilla, ne voivat kohta kohti toissijaiset genomista tavoitteita, jotka ovat mukautuvasti asiaa, mutta ei välttämättä välttämättömiä syövän kehittymisessä.

Citation: Kumar N, Cai H, von Mering C, Baudis M (2012) Erityiset genomialuetta differentiaalisesti Vaikuttavat Kopioi numero muutostyöt, erillisten syöpätyyppejä, kootussa Sytogeneettiset Data. PLoS ONE 7 (8): e43689. doi: 10,1371 /journal.pone.0043689

Editor: Patrick Tan, Duke-National University of Singapore Graduate Medical School, Singapore

vastaanotettu: 30 huhtikuu 2012; Hyväksytty: 23 heinäkuu 2012; Julkaistu: 24 elokuu 2012

Copyright: © Kumar et al. Tämä on avoin pääsy artikkeli jaettu ehdoilla Creative Commons Nimeä lisenssi, joka sallii rajoittamattoman käytön, jakelun ja lisääntymiselle millä tahansa välineellä edellyttäen, että alkuperäinen kirjoittaja ja lähde hyvitetään.

Rahoitus: Kirjoittajat ei ole rahoitusta tai tukea raportti.

kilpailevat edut: kirjoittajat ovat ilmoittaneet, etteivät ole kilpailevia intressejä ole.

Johdanto

Genetic muutoksia, kuten pistemutaatiot, alueellinen kopiomäärä muutokset /poikkeamia (CNA) ja rakenteelliset muutokset (esim geeni fuusio tapahtumista) ovat kaikki tunnusmerkkejä syöpä. CNAs syntyy somaattisten muutoksia kasvainsolun genomiin erilaisia ​​mekanismeja ja voidaan havaita lähes kaikissa syöpätyyppien, vaihtelevassa määrin. Tähän mennessä yleisimmin käytetty menetelmiä havaitsemiseksi CNAs ovat kromosomi- ja array-pohjainen vertaileva genominen hybridisaatio (CGH) tekniikat [1] – [4]. Lokalisoitu, toistuva CNAs (hot-spots) on osoitettu kohdistaa kanoninen onkogeenien (esim päällekkäisyyksiä /amplifikaatioita MYC, MYCN, REL loci) tai tuumorisuppressorigeeneille (esimerkiksi deleetioita CDKN2A /B, TP53, ATM loci). Jotkut alueelliset CNAs kuten voitot 8q ja tappiot 3p ovat läsnä useiden syöpätyyppien, kun taas muut epätasapainoa voidaan pitkälti rajoitettu määrä syövän yksiköiden [5].

Aineistot integroitu useiden syöpätyyppien on aiemmin analysoitu, raportoimaan alueellisen ”hot-spot” usein CNAs [5], [6]. Tietyn joukon yksittäisiä tuumorin näytteiden lukumäärä ja jakauma CNAs vaihtelee huomattavasti [5], ja tämä geneettinen heterogeenisyys on käytetty havaita ja ilmoittaa yhdessä esiintyvät CNAs [7].

Periaatteessa erityisiä kuvioita ja yhtäläisyyksiä yksilön ja /tai tautikohtaisten CNA profiileja voisi osoittaa selvästi oncogenomic mekanismit toimivat eri syöpätyyppejä ja yksilöitä, on riittävän suuri mittauspisteiden lukumäärä. Todellakin, klusterointi CNA malleja on käytetty tunnistamaan oncogenomic yhtäläisyyksiä [5], [8] – [11]. Mukauttaminen kasaustekniikoiden analyysiin CNA kuvioita on tehty aiemmista tutkimuksista [12] – [14]. Muutamia poikkeuksia lukuun ottamatta [5], [14] kuitenkin otospohjainen klusterointi on ollut pääpaino tällaisten tutkimusten toistaiseksi. Sen sijaan, me täällä tutkia kasautumiseen syöpätyyppien, ei yksittäisten syöpänäytteissä.

Sekä kuvaileva ja klusterointi perustuvia analyyseja CNA useiden syöpätyyppien kärsivät bias kohti useammin esiintyviä tapahtumia. Koska heterogeenisuus yleistä CNA signaalia, jotka eroavat toisistaan ​​keskiarvo taajuuksilla CNAs kohti syövän tyyppiä (kuva 1a), klusterointi tulokset voivat vääristyä riippuen taudin yhteisöjä analysoitu. Tämä vaihtelu yleistä CNA esiintyminen taajuuksien poikki syöpätyyppejä voidaan yksinkertaisesti velkaa erojen keskimääräinen aika olevia kliinisiä havaitsemista tai eri etenemisen ominaisuuksia, ja olisi korjattava ennen klusterointi analyysejä. Parhaan tietomme mukaan toistaiseksi ei täytäntöönpano on raportoitu kattavasti, erittäin laajamittainen klusterointi analyysi taajuus-normalisoitu syövän CNA profiileja.

Boxplots osoittavat CNA frekvenssijakaumia keskuudessa kasvainnäytteestä 10 satunnaisesti valitut syöpätyyppeihin. Boxplot delineations merkitä persentiili 5%, 25%, 75% ja 95%. Punaiset viivat kuvaavat keskimääräisen esiintyvyyden jokaisen syövän tyypin, kun taas sininen viiva yleinen keskimääräinen taajuus kaikissa 160 syöpätyyppeihin analysoidaan täällä. Taajuus arvot on määritelty suhde näytteiden määrä osoittaa CNA Genomisen alueen (ts sytogeneettinen nauhat) yli näytteiden kokonaismäärä että syövän tyyppi. a) Ennen normalisointi b) jälkeen normalisointi. Vuonna b) nimellinen taajuus jakauma kunkin syöpätyypin on uudelleen mitoitettu niin, että sen keskimääräinen vastaa yleistä keskiarvoa kaikissa syöpätyyppeihin. (NOS – ”ei ole mainittu”: korkean kertaluvun luokituksia, ei enempää määritetty yksityiskohtaisempia tasoja).

Täällä keskitymme tunnistamiseen genomialueiden merkittävästi vaikuttaviin klusterointi syöpä tyypit. Tästä lähtien me viitata niihin ”ei-neutraali” alueilla. Koska lähtökohtana meidän analyysi, käytämme hierarkkinen klusterointi järjestää syöpätyyppejä perusteella niiden CNA taajuuden profiileja. Sitten työllistävät permutaatio lähestymistapa arvioida suhteellinen osuus yksittäisten genomista alueiden laadun klustereiden ja johdetun suhde puuhun. Klusterijärjestelyssä laatu voidaan päätellä luontainen toimenpiteestä (tiivistää haara pituudet: puun pituus tilastot) ja genomin alueita, jotka hylkäävät nollahypoteesi kutsutaan ei-neutraali. Tunnistetut alueet verrataan kanoninen CNA hot-spots (eli niitä esiintyy yleisimmin koko aineisto).

Nykyinen analyysi perustuu tietoihin yhteensä 25579 näytettä, jotka jaetaan 160 eri syöpä yksiköt (taulukko S1) mukaan kansainvälistä luokitusta Disease in Oncology (ICD-O 3). Meidän lähestymistapamme on ainutlaatuinen, koska se a) keskitytään vähemmän klusterointi sellaisenaan vaan enemmänkin yksilön genomialuetta parhaiten tukevat klustereiden, b) käyttää ansiot toimenpide kytketty permutaatio strategian validointi, c) suorittaa CNA taajuus normalisointi ennen analysointia, ja d) perustuu erittäin suuri tietokokonaisuutta, käsitellään standardoidulla setup. Pyrimme tunnistamiseksi mahdollisia syöpää tietyn kuljettajan /modulaattori alueita, joita ei ole havaittu aikaisemmin pitkälti hot-spot-keskittynyt lähestymistapoja. Kaikki taustalla syöpä data on saatavilla kautta Progenetix arkistoon (www.progenetix.org; [15]).

Tulokset

Keskimääräinen yleinen esiintyvyys CNAs koko genomin vaihtelee eri syöpätyyppien (kuva 1a). Koska suhteellisen painon CNAs yksittäisiin genomialuetta tietyllä syöpä riippuu siitä, mitä havaittiin yleistä genominlaajuisia taajuus, me lasketaan yhteen kaikki potilaiden näytteistä syövän tyypin ja normalisoitu taajuudet CNAs jokaisen syövän tyypistä yleistä keskiarvoa havaittu kaikkialla koko datajoukon (kuva 1b, Kuva S1). Normalisoitu CNA taajuus profiilit sitten ryhmittyneet käyttäen hierarkkinen klusterointi.

arvioida laatua ja biologisen signaalin klusterointi, me merkitty kunkin syöpätyypin sen ”root” solutyypin (ts erilaistumattomaan solutyypin josta kasvain todennäköisesti alkunsa). Odotimme syövät samaa juurta solutyypistä klusterin yhdessä; Tässä käytettiin ulkoisena välityspalvelinta odotetun biologisen suhteita syövän yhteisöjä. Random Index [16] on käytetty laskemaan ulkoisen klusterin laadun mitta. Kasvaimet samaa solutyyppiä todellakin usein ryhmittyneet yhteen, yleensä 2-3 pienryhmissä (kuva 2). Johdonmukaisuutta Tämän ryhmittelyn oli merkittävästi suurempi kuin odotettua sattumanvaraisesti osoittaen biologisesti merkittäviä eroja CNA profiilien välillä kasvainten erillisiä alkuperää. Leikkaaminen puun useita korkeuksia aina johtanut havaitun laadun klustereiden, joka oli parempi kuin odotettu satunnainen arvo (kuva 2), lukuun ottamatta leikattu korkeimmalla tasolla, mikä johti vain kolme klustereita. Tämä voimakkaasti puolla täysin neutraali esiintyminen rakenteessa CNAs genomissa, ja tukee korrelaatio biologisesti merkityksellisiä ryhmien syövän yhteisöistä ja niiden CNA profiileja.

a) esimerkkejä yksittäisistä kromosomi segmenttien, osoittaen havaittujen CNA taajuudet stratifioitu solutyypistä. Jokainen piste on yhteenveto kaikista näytteistä kuulu mihinkään erityisesti ICD tyyppi, värikoodatut root solutyypistä. Vasemmassa paneelissa, kolme kromosomi segmentit osoittaneet, että näytteille vahva erot solutyyppien; oikealla kolme kielteisiä esimerkkejä ilman tällaista signaalia. Kaikki p-arvot korjattiin useita testaus mukaan Benjamini-Hochberg. b) dendrogrammia (puu) on saatu käyttämällä hierarkkista Ward ryhmittely globaalin taajuus-normalisoitu CNA profiilit kaikilla 160 genomialuetta. Syöpätyyppejä ovat jälleen värikoodattu mukaan solutyypin alkuperän, samalla legenda kuin a). Osiointi puun leikkaamalla eri korkeuksilla tuottaa useita klustereita; validointi näiden ryppäitä syövän alkuperä (metrinen: Random Index) osoittaa, että klusteroinnin toimii huomattavasti paremmin kuin odotettiin sattumanvaraisesti.

satunnaistamiset koko taajuus matriisi johtaa täydelliseen menettämiseen signaalin läsnä klusterointi puu (kuva S2), ja myös vähensi voimakkaasti tiivistää haaran pituudet puiden korkeus tilastoa.

Non-neutraali CNAs

normalisoitua ja aihekokonaisuuksien taajuus matriisi käsittää 160 laajamittainen genomiset alueet ja 160 syöpätyyppien on esitetty kuviossa 3. sen määrittämiseksi, kuinka paljon kunkin yksittäisen genomin alueella vaikuttaa koko signaalin, me yksilöllisesti satunnaistettiin sen poikkisuunnassa syöpätyyppejä, samalla kun loput datan ennallaan. Sitten tutki kaventumiseen kokorunko- tilastojen (TLS) on klusterointi dendrogrammia, kun 100000 riippumaton satunnaistamiset, määrittää tilastollista merkitystä kyseisen alueen osuus. Tuloksena syöpää erilaiset CNA alueet ovat tärkeitä, koska ne eivät voi olla täysin neutraali ja on mahdollista määritellä välisiä suhteita syöpätyyppeihin. Todellakin, 43 pois 160 genomialueiden (taulukko S1) havaittiin olevan ei-neutraali osuus (Bonferronin-korjattu p-arvo) yhteenlasketun syövän CNA tiedot. Huomaa, että voitto ja tappio tapahtumia kohdellaan itsenäisesti, eikä etuoikeutetut painottumista -tappioista havaittu joukossa havaittu ei-neutraali alueet (22 voitot ja 21 tappiot). CNA esiintyminen taajuudet kuin neutraali genomialuetta levittää perusteellinen koko taajuusalueen (kuva 4). Vain 13 (8 voitot ja 5 tappiota) ei-neutraali alueilla havaittiin muutettu yleistä useammin kuin keskimäärin (kuvio 5, risteyksessä musta ja harmaa suorakulmio), mikä osoittaa, että osajoukko usein muuttunut hotspot alueilla kuljettaa havaittavissa olevan signaalin erottaa syöpä tyypit (lukumäärä usein muuttaa alueiden seisoo 59, Bonferronin-korjattu p-arvo, taulukko S1). Tämä havainto korostaa meidän keskeinen asia, että ei vain usein CNA alueita olisi käytettävä klusterin ja merkintöjä syöpätyyppeihin.

a) Heatmap on CNA profiileja genomialuetta (sama klusterointi kuin kuvassa 2). Genominen paikat ovat edustettuina oranssi väri harkittaessa päällekkäisyyksiä /voittoja, ja sinisenä, kun otetaan huomioon poistot /tappiot. Värin intensiteetti osoittaa suhteellinen CNA taajuuksilla; eniten kärsineen alueen jokaisen rivin mielivaltaisesti asettaa on kirkkain väri (1,0) näyttämistä varten. b) Pienet alueet (mustat suorakulmioita on heatmap) on zoomataan näyttää, miten ei-neutraali CNAs pystyvät erottamaan syöpätyyppeihin. Esimerkki osoittaa, että 7q etusijassa saadut aivokasvaimia (punainen etiketit) on edullisesti menetetty sukusolujen (musta etiketit), myelooista ja myeloproliferatiivinen syöpätyyppeihin (sininen tarroja). c) Pienet alueet (punainen suorakulmioita on heatmap) on zoomataan osoittaa, kuinka 8q etusijassa menetetty medullublastomas (ekomerkintöjä) ja etusijassa saadut kasvaimia (vaaleanpunainen etiketit). Jotkut kromosomit muodostuvat kokonaan ei-neutraalin alueilla (kuten kromosomien 18 ja 7). Huomaa, että erotuskyly CNA tietojen kromosomissa on rajoitettu (karkeasti vastaten sytogeneettinen band resoluutio).

genomialuetta (nauhat) on lajiteltu niiden yleinen esiintyvyys CNAs havaittu. Ne alueet, jotka ovat informatiivisia suhteen syöpätyypin klustereiden on merkitty nuolilla. a) otetaan huomioon päällekkäisyyksiä (voitot) b) Ottaen poistot (tappiot).

Perimän kärsivien alueiden CNAs joko keskimääräistä useammin (musta suorakulmio), tai ei-neutraalisti suhteessa syöpää tyyppinen luokitukset (harmaa suorakaide). Leikkauspiste määritellään alueet, jotka vaikuttavat sekä usein ja ei-neutraalisti. Muutokset ovat värikoodattu (voitot oranssi ja tappiot sinisellä).

22 genomista välein poikki 12 kromosomia todettiin olevan informatiivinen kun otetaan huomioon erityisesti päällekkäisyyksien /voitot vain (taulukko 1 ja kuva 5). Kaikki kolme genomista segmenttiä kromosomi 18 (18p1, 18p2, 18q2) osoitti signaalin. Muiden kromosomien kuten kromosomin 1 (1q2,1q3,1q4,1p2), kromosomi 3 (3q1, 3q2, 3p1), kromosomi 12 (12q1,12q2) ja kromosomi 21 (21p1, 21q1) yli 50% perimän alueet olivat informatiivinen kuin voittoja, mikä viittaa samanaikainen osallistuminen useiden loci näistä kromosomeista. Muutokset kromosomissa 1 (1p2), kromosomi 3 (3p1, 3q1), kromosomi 5 (5q2, 5q3), kromosomi 9 (9p1), kromosomi 11 (11p1), kromosomi 12 (12q1, 12q2), kromosomi 18 (18p1, 18q1 , 18q2) ja kromosomi 21 (21p1, 21q1) olivat valikoivasti informatiivinen vain voittoja. Mitä poistot /tappiot, 10 kromosomeja kattaa 21 genomialuetta todettiin olevan ei-neutraali. Kuten kromosomin 18 voittoja, täydellinen kromosomissa 7 (7p1, 7p2, 7q1, 7q2, 7q3) havaittiin olevan informatiivinen kun hävisi (taulukko 1). Tiedoksi alueet kromosomissa 1 (1p1,1q1, 1q2, 1q3, 1q4) ja kromosomissa 9 (9q1, 9q3, 9p2) kattoi yli 50% genomista segmenttejä näistä kromosomeista. Valikoiva tappiot havaittiin kromosomissa 1 (1p1, 1q1), kromosomi 6 (6q2), 7 (7q1, 7q2, 7q3, 7p2), 8 (8q1, 8q2), 9 (9p2, 9q1, 9q3), 12 (12p1) , 16 (16q1). CNAs kromosomijaksosta 1 (1q2, 1q3, 1q4), kromosomi 3 (3q2), kromosomi 7 (7p1), kromosomin 19 (19p1) ja kromosomi 22 (22q1) oli informatiivinen sekä voitto ja tappio tapahtumia. Tämä on pieni osa (16%) ei-neutraali CNA. Osallistumista alueen sekä voitto ja tappio saattaa osoittaa useita adaptiivisesti asiaan loci, ja /tai kohti yleensä epävakaa näiden alueiden.

Syöpä Eriäviä luonne kuin neutraali CNA

antaa muutamia esimerkkejä syövän luokitteluun käyttäytymisen puolueellisin muutoksia, valitsimme muutamia rikastetun muutosten ja analysoitiin niitä erityisten esiintyminen eri syöpiä. Esimerkkinä ovat syöpä yhteisöt osoittavat hallitseva tappiot versus voitot 7q. Etuuskohteluun tappiot joihin 7q havaittiin sukusolujen, myelooinen ja myeloproliferatiivinen kasvaimet (kuvio 3), kun taas neuroepithelial aivokasvaimia (muun yhteisöt) ensisijaisesti näkyy voitot 7q. Häviöt joihin 7q ovat yleisiä myelooista ja myeloproliferatiivista kasvaimissa [17] – [20] ja jotka ovat korkea ikä ja vastustuskyky hoitoja [21], [22]. Kuitenkin tässä osoitamme, että 7q tappiot ovat varsin ominaisia ​​myelooista kasvaimia ja edistää niiden selektiivinen poikkeaminen muista syöpätyyppeihin. 7q tappiot itusolukasvaimet ei ollut tutkittu yksityiskohtaisesti [23], [24]. Kun kertyminen 7q tappiot lähinnä pelkästään myelooisen /myeloproliferatiivinen neoplasioista ja sukusolujen kasvaimia ja toisin kuin kromosomissa 7 (q) voitot havaittu esim. neuroepithelial aivokasvaimia, on houkuttelevaa ehdottaa osallistumista ainakin yksi yhteinen oncogenetic mekanismi toimii näissä kliinisesti etuyhteydettömille syöpäsairauksia.

Kromosomi 8q voitot voidaan havaita useimmissa syöpä yksiköiden [5], [6]. Kuitenkin meidän analyysi 8q tappiot rikastettiin ei-neutraali tapahtumia. Etuuskohteluun tappiot joihin 8q oli läsnä joissakin aivokasvaimia (esim medulloblastooma, kuva 3), joka erottaa ne muista epiteelikasvaimet. Erot etuoikeutettu tappiot joihin 8q erotettu neuroepithelial kasvaimet kahteen luokkaan sekä ottaa voitot 7q mutta vain yksi (lähinnä meduloblastomas) etuoikeutetusta tappiot 8q (kuva S3). Häviöt kromosomijaksosta 8q poikki medulloblastoomien on raportoitu muutama [25] tutkimuksilla ennen. Analyysimme osoittaa, että 8q tappiot valitaan joissakin medulloblastoomien ja siksi voivat olla tärkeitä syövän kehityksen /etenemisen. Etuuskohteluun tappiot 8q havaittiin myös itusolukasvaimet erottaa ne muista epiteelin neoplasioihin (kuva S4).

Toisena esimerkkinä rajoitettua CNA tyyppejä me tarkasteltiin myös syöpien näytetään voittoja kromosomijaksosta 18. follikulaari lymfoomat näytteillä erityisiä voitot kromosomissa 18, jossa kuten kasvaimia mieluummin löysä kromosomissa 18 (kuva S4). Kromosomi 18 voitot ovat hyvin yleisiä rakkulamaista lymfoomaa ja on tarkoitus saada aikaan vaihtoehtoisen mekanismin BCL2 aktivointi [26], [27]. Kuitenkin tässä osoitamme, että tämä CNA tapahtuma tilastollisesti erottaa ne muista syöpätyyppeihin.

Keskustelu

Nykyinen tutkimus on suurin analyysin tasalla syöpään CNA tiedot, tavoitteena havaita oncogenomic ominaisuuksia, jotka voivat olla erityisesti liittyvän tai rikastettu tietyissä osajoukkoja syövän yhteisöistä. Toisin kuin geeni-keskeinen lähestymistapoja, analyysimme arvioi täydelliset tiedot tilaa genomista kopioluvun epätasapainon koko genomin profilointia kokeita.

Kaiken taajuus CNAs poikki genomista välein vaihtelivat välillä 0,01%: sta 23% ( Kuvio 4). Klusterointi syöpätyyppien perusteella niiden taajuuden profiilien avulla on määritelty luokan taustalla molekyyli signaalien on kohtisuorassa histologisten luokituksia tai kliinisen luokat (jälkimmäinen perustuu pääosin kyseinen elin /kudos). Syöpä tyypit vaihtelevat toisistaan ​​niiden CNA runsaus, CNA koko kirjo ja aste perimän epävakaisuuden. Osalta genomista kattavuus, suuri CNAs ovat yleensä yleisiä syöpään [6], eikä sitä pitäisi jättää tilastollisia analyysejä syövän genomin kuvioita. Verrattaessa CNA profiilit syöpätyyppien, niiden monimutkaisuus ja vaihtelu taajuuksia on harkittava. Kun korjaamalla näitä parametreja, alueellinen CNAs määritellään eroavuus yleisen profiilit voidaan rajattu.

Me tehdään analyysi maailmanlaajuisen syöpä CNA aineisto, tunnistaminen 43 genomialuetta 15. kromosomeissa yhtä merkittävä CNA profiilin erot syöpätyyppeihin. On selvää, nämä muutokset eivät kata koko kirjon CNA tapahtumien syöpä, mutta määrittelevät osajoukon genomialueiden jotka voivat olla mahdollisesti mukautuva linkin erillisten biologian eri syöpätyyppien. Nämä alueet limittyvät melko huonosti hot-spot alueilla havaittu monissa syövissä. Tämä viittaa siihen, että hot-spot alueilla, joskin usein liittyvät kanoninen onkogeenien ehkä aina ole kovin hyödyllinen auttamiseksi tietoperusteisissa arviointi syövän (ala) tyyppejä.

Tauti erityisiä tutkimuksia on mahdollista havaita edustava kirjo oncogenomic poikkeamia tietyn yhteisöjä. Voidaan olettaa, että syöpä tyyppi tietyillä alueilla korostettu lähestymistapamme oli keskusteltu yhteydessä julkaisuistaan. Kuitenkin nykyinen tutkimus, pyrimme tarjoamaan uutta, yleistynyt lähestymistapa tunnistaa genomista seikat liittyvät synnyssä yksittäisten syövän yhteisöistä. Vaikka tässä esitellään ”globaalin” lähestymistavan ilman kokonaisuus esivalinnan, menetelmämme voi osoittautua arvokasta, kun kohdistaminen asiaa genomista erotinmerkeille rajallinen, biologisesti liitännäisyhtiöllä sarjaa.

Koska nykyinen analyysi perustuu pääasiassa molekyyli- sytogeneettisen data kromosomaalisesta CGH kokeiluja erotuskyky useiden megabases, vain päätelty tietoa syy-geenien läsnä ei-neutraali alueet voisivat saada. Tulevista korkearesoluutioinen genomista array ja /tai sekvenointitulosten, samanlainen analyysit tarkemmin määritellään ei-neutraali CNAs ja voivat olla arvokkaita lähtökohtia integrointi tuloksia toimivien reittien puitteissa. Olemme äskettäin ilmoitti perustaneensa ja julkinen saatavuus viittaus resurssi oncogenomic array data (www.arraymap.org [28]), jotka toimivat lähtökohtana tällaisia ​​lähestymistapoja sekä meidän puolelta samoin kuin kiinnostuneelle tutkimuksen yhteisö. Lisäksi vaikka olemme keskittäneet nykyinen analyysi yksinomaan on CNA aineisto, menetelmämme pitäisi olla erityisen arvokasta, kun se yhdistetään muihin sarjaa liittyvän diagnostiikan (esimerkiksi pistemutaatio data), jolloin luovutus mahdollinen kuljettaja geenien ei-neutraali alueet saattaa tulla toteutettavissa.

Materiaalit ja menetelmät

data

Tutkimuksemme perustuu hyvin selityksin syövän CNA dataa Progenetix hankkeen [5], mukaan lukien yhteensä 25579 näytteiden analysoitiin kromosomaalinen (cCGH, 18708) ja array CGH (aCGH; 6871) kokeita. Kliiniset näytteet oli luokiteltu 160 erillistä syöpä yhteisöt mukaan International Classification of Disease koodien (ICD). Tuolloin kirjoitettaessa Progenetix kokoelma on suurin voimavara selityksin, koko genomin CNA profilointitiedot syövässä.

analyysimme, alueellinen CNA tietoja kaikista syöpätyyppeihin alennettiin 80 genomista välein kattaa koko genomiin lukuun ottamatta sukupuolikromosomeiksi. Gain ja menetys tapahtumia tarkasteltiin erikseen analyysiin, jolloin matriisin mitat, jossa on näytteiden lukumäärä ja on määrä genomista välein (

eli

160).

Syöpä Clustering

taajuus CNA muutoksia kaikissa genomista välein laskettiin kullekin ICD tyyppi ja koko taajuus matriisi oli normalisoidaan sitten (kuvio S1). Taajuus matriisi tilattiin käyttäen hierarkkinen Ward klusterointi. Yhteenlasketun erotusetäisyyden syövän yksiköiden saadaan käyttämällä hierarkkista klusterointi voidaan analysoida jäsentämällä klusterointi puu (dendrogrammissa). Puu edustaa sukulaisuuden ryhmissä läsnä samassa haaran (samanlainen fylogeneettiseen puut). Satunnaistettu data häiritsee puu täysin (kuva S2), ja koko puun korkeus tilastollinen vähenee 3-kertaiseksi, mikä täydellinen menetys tilaustiedot läsnä alkuperäisessä puussa.

Menetelmä vertailuun Tree Pituus

Käytimme puun pituus olennaisena toimenpiteenä verrata syöpään yhdistysten saadaan käyttämällä klusterointi ja arvioida tietoja läsnä puussa; tätä käytettiin määrittämään ei-neutraali CNAs. Tällä on etuja perinteisiin klustereiden arviointitekniikoista, koska se a) ei vaadi ulkoisia kultakantaan tiedot, ja b) ei vaadi leikkaamista puun mielivaltaisella etäisyydellä. Yleinen puiden korkeus määritellään summana kaikki suorat vanhemman ja lapsen suhde tiepituuksilla puussa. Tree etäisyydet (oksa pituudet) heijastavat yleensä CNA profiilin poikkeamia kahden syöpiä (tai ryhmien syövät). Mille tahansa solmu, puun pituus välinen solmu ja sen välittömässä vanhemman voidaan mitata. Yleinen puiden korkeus on puun solmujen kuin saadaan = (kuva S3).

Tree pituus tilastoista (TLS).

Tunnistaa genomialuetta jotka eivät ole neutraaleja vaikuttaa CNA olemme kehittäneet seuraavia permutaatio strategia:

Normalized taajuuksilla CNA kaikilla genomista välein lasketaan kaikkien syöpätyyppeihin.

syöpä luokitus puu saadaan käyttäen hierarkkinen Ward klusterointi.

havaitut kaikkien puiden korkeus () lasketaan edellä mainitulla tavalla (kuva S5).

laskuri asetetaan nollaan jokaista genomista välein huomioiden.

kaikkiin genomista intervalli, sen asema arvot sekoitetaan kaikkien näytteiden Säilyttämällä kaikkien taajuus sama ().

taajuus CNA at genomista aikaväli lasketaan uudelleen satunnaistamisen jälkeen kaikissa syöpätyyppeihin. Sekoittaminen edellisessä vaiheessa muuttaa taajuutta välin kaikkien syöpätyyppien pitäen normalisoidun frekvenssijakautuman kaikkien muiden genomisten välein.

taajuudet välein normalisoitu taajuus matriisi vaiheen yksi on korvattu permutoitua taajuudet tämä väli ja ionivaihdettua yleinen puu heigh () lasketaan.

Jos C kasvatetaan kuten C = C + 1.

p-arvo genomista sijainti, lopussa N ( 100000) permutaatiot lasketaan seuraavasti.

p-arvot kaikilla bändejä korjataan vääriä löytö korko käyttäen Bonferroni korjausta.

Frequency Based Enrichment (FBE) B

usein havaittujen CNA alueille ( ”hot-spot”) ovat genomista tapahtuvat muutokset useammin odotettua alla täysin satunnainen null malli. Tällaisia ​​hot-spot CNAs voidaan tunnistaa käyttämällä binomitodennäköisyyden toiminto [29]. Oletetaan genomista väli esittää CNA poikki näytteet ulos näytteitä. Taustalla CNA taajuus () voidaan esittää keskimääräinen taajuuden muutoksen kaikissa välein. P-arvo, että taajuus CNA, on enemmän kuin taajuus () saadaan käyttämällä binomitodennäköisyyden toiminto.

Genominen välein esiintyy suuri poikkeama keskiarvosta osoitetaan alhaiset p-arvot. Kaikki p-arvot korjataan vääriä löytö korko käyttäen Bonferroni korjausta.

tukeminen Information

Kuva S1.

Menetelmä CNA taajuuden normalisointia poikki syöpätyyppeihin. Kaikki taajuudet joukossa syöpätyyppeihin normalisoitiin keskimääräisen esiintyvyyden CAN muutosten poikki poikki 160 syöpätyyppeihin. Tämä normalisointi saavutettiin kertomalla syöpää tyyppikohtaista taajuuksia indeksillä, jonka arvo laskettiin esitetty.

Doi: 10,1371 /journal.pone.0043689.s001

(PNG) B Kuva S2.

Dendrogrammi of permutoitua taajuus matriisi. Tätä klustereiden, taajuudet joukossa syöpätyyppeihin olivat permutoidaan ja sitten normalisoida. Hierarchial Ward klustereiden suoritettiin sitten ja dendrogrammia puu näkyy saatiin. Puun pituus on vakavasti vaikuttaa permutaatio. Tässä satunnaistetussa klusterointia, samanlainen syöpätyyppeihin enää ryhmitelty yhteen.

Doi: 10,1371 /journal.pone.0043689.s002

(PDF) B Kuva S3.

Pieni alueita heatmap isossa kuvassa 3 on esitetty tässä. Nämä alueet edustavat voitot ja tappiot 7q ja 8q. 8q muutokset erottaa toisistaan ​​kaksi aivokasvaimia, jossa alaryhmä osoittaa etuoikeutettu tappiot 8q (ekomerkintöjä) ja muut harvoin osoittaa osallistumista 8q lokuksen (punainen merkki). Siten riippuen 8q osallistumisesta neuroepithelial kasvaimia voidaan jakaa kahteen eri ryhmään. Molemmat osoittavat 7q voittoja.

Doi: 10,1371 /journal.pone.0043689.s003

(PDF) B Kuva S4.

Esimerkkejä ei-neutraali CNA alueilla. a) Heatmap on CNA profiileja genomialuetta (sama kuin kuvassa 3). b) Pienet alueet (punainen suorakulmioita on heatmap) on zoomataan osoittaa, kuinka 8q etusijassa menetetään in sukusolujen (musta etiketit) kasvaimet ja etusijassa saadut epiteelin syövän tyypit (vaaleanpunainen etiketit). c) Pienet alueet (mustat suorakulmioita on heatmap) on zoomataan osoittaa, kuinka 18q etusijassa saadut medullublastomas (ruskea etiketit) ja etusijassa menetetty kasvaimia (vaaleanpunainen etiketit). Esimerkit tässä osoittavat, että miten kaksi erilaista ei-neutraali muutosten ero kasvaimia peräisin itusolukasvaimet ja follikulaarinen lymfoomat.

Doi: 10,1371 /journal.pone.0043689.s004

(PDF) B Kuva S5.

laskeminen kaikkien puiden korkeus. Kaaviokuva summatun haaran pituus puiden korkeus tilastotieto. Kaiken puiden korkeus lasketaan summaamalla etäisyyttä kaikille vanhemmille ja lapsen solmuja. Huomaa, että haara pituudet terminaalin oksat ( ”lehdet”) ei oteta huomioon. Kaiken puiden korkeus =.

Doi: 10,1371 /journal.pone.0043689.s005

(PDF) B Taulukko S1.

Taulukko tietoa syöpätyyppeihin käyttää analyysissä, ei-neutraali ja hot-spot p-arvot. Taulukosta, jossa on tietoja kaikista syöpätyyppeihin käytetään tässä analyysissä vastaavan määrän näytteitä niihin ja juureen solutyypin kunkin syöpä. Taulukossa on myös tietoja ei-neutraali ja hot-spot p-arvot on saatu kaikkien genomisen bändejä analyysissä.

Doi: 10,1371 /journal.pone.0043689.s006

(ODS) B

Vastaa