PLoS ONE: tunnistaminen Cancer Gene Networks Ominaista Toistuva Genominen Muutoksia on Population

tiivistelmä

Korkea resoluutio, koko järjestelmän karakterisointien ovat osoittaneet kykyä tunnistaa genomialuetta jotka läpikäyvät genomista poikkeavuuksia. Tällaiset tutkimustyötä usein pyritään yhdistämällä näiden alueiden sairauden etiologiaa ja lopputulos. Tunnistaminen vastaava biologinen prosesseja, jotka ovat vastuussa sairauksien ja sen lopputulos on edelleen haastava. Käyttäen uusia analyyttisiä menetelmiä, jotka hyödyntävät rakenne biologinen verkot, voimme tunnistaa tarkasti ne verkot, jotka ovat erittäin merkittävästi, nonrandomly muuttunut alueilla kopioluvun monistuksen havaittu järjestelmissä laajuinen analyysi. Osoitamme tätä menetelmää rintasyövän, jos asia osajoukko polkuja tunnistettu näillä alueilla on osoitettu olevan erittäin liittyy tautiin selviytymisen ja uusiutumisen.

Citation: Efroni S, Ben-Hamo R, Edmonson M, Greenblum S, Schaefer CF, Buetow KH (2011) tunnistaminen Cancer Gene Networks Ominaista Toistuva Genominen Muutokset populaatiossa. PLoS ONE 6 (1): e14437. doi: 10,1371 /journal.pone.0014437

Editor: Toshi Shioda, Massachusetts General Hospital, Yhdysvallat

vastaanotettu: 17 kesäkuu 2010; Hyväksytty: 08 lokakuu 2010; Julkaistu: 04 tammikuu 2011

Tämä on avoin-yhteys artikkeli jaettu ehdoilla Creative Commons Public Domain ilmoitus, jonka mukaan, kun se on saatettu julkisia, tämä työ saa vapaasti kopioida, levittää, lähetetään, modifioitu, rakennettu, tai muuten käyttää kuka tahansa laillista tarkoitusta.

Rahoitus: sE rahoittaa Euroopan unioni kautta uudelleenintegroitumisapurahat apurahat (IRG) ohjelma. Rahoittajat ollut mitään roolia tutkimuksen suunnittelu, tiedonkeruu ja analyysi, päätös julkaista tai valmistamista käsikirjoituksen.

Kilpailevat edut: Kirjoittajat ovat ilmoittaneet, etteivät ole kilpailevia intressejä ole.

Johdanto

Biologinen fenotyyppejä syntyä seurauksena geenien vuorovaikutuksessa kautta monimutkaisissa verkoissa. Onkogeneesiin on osoitettu olevan riippuvaisia ​​biologinen verkoissa, jotka ohjaavat prosessit, kuten apoptoosi, vanhenemista, proliferaatiota ja angiogeneesiä [1], [2]. On kuitenkin selvää, että nykyinen tietämys, joka käsittelee vaikutus monipuolinen syöpä fenotyyppejä on epätäydellinen. Tämä on erityisen totta, kun se tulee ymmärtää liittyviä prosesseja tautiin lopputulokseen.

Monimutkainen kokoelma perimän muutoksia tapahtua kasvainsolun evoluution, kuten mutaatiot, translokaatiot ja kopioluvun muutoksia. Esimerkiksi genominlaajuisia analyysi rintasyövistä lukuisat tekniikat ovat toistuvasti osoittaneet toistuvia kuvioita kopioluvun muutos (CNA) [3], [4], [5], [6], [7], [8], [ ,,,0],9], [10], [11]. Geenien ilmentymistä näissä muuttaa segmentit on osoitettu korreloivan kopioluku tilan alue [3], [9], [12], [13], [14], [15], [16], [17], [18], [19]. On kuitenkin epäselvää, ovatko nämä toistuvat kuviot ovat tärkein sarja CNAs tai edustaa vain osaa keskeisten alueiden.

Patterns kopioluvun muutos ovat osoittautuneet arvokkaiksi luokittelu syövän alatyyppejä ja voi toimia ennustajina potilaiden hoitotuloksiin [19]. Nämä muutokset kohdistuvat geenit, jotka vaikuttavat verkkoja, jotka tarjoavat kasvaimet selektiivisen etu solujen normaalin koostumuksen. Koska niiden yhdessä lopputulokseen, on todennäköistä, ne myös vaikuttavat prosessit, jotka ajavat kliinisen fenotyyppien ja vaste interventioita.

tunnistaminen prosessien kohteena alueet tunnistettu järjestelmän kattavan analyysin on monimutkainen. Esimerkiksi kopioluvun-muutettu alueet sisältävät suuria määriä geenejä. On myös valtava määrin välillä yksilöiden heterogeenisyys kartoitus alueiden todettu muuttaa.

Työ muiden tunnistaa prosessien taustalla monimutkainen piirteet on yhdistänyt perinyt variantteja ja verkko analyysi kartoittaa monitekijäinen, heterogeeninen tauti fenotyypit [20]. Tässä työssä, kirjoittajat laajentaa perinteisen geenikartoitukseen lähestymistavat sisällyttämällä otaksuttu geeni vuorovaikutukset puuttua heterogeenisuus. Toiset ovat tutkineet moniulotteisen aineistoja, jotka sisältävät erilaisia ​​genomin mittakaavassa mittaukset samanaikaisesti yhteydessä reittejä [21], [22], [23] .. Ne koskevat tilastollisen menetelmän mitata polku rikastamiseen ja käyttää geeni-ilmentymisen tietojen arvioimiseksi vaihtelu signalointia. Tällaisella analysoi ne hypothesize uuden solun toimintoja.

Teoksessa esitetään tässä, me kohteliaisuus ja laajentaa näitä lähestymistapoja järjestelmällisesti analysoimaan somaattiset CNAs tunnistaa biologinen verkkoihin taustalla syöpä fenotyyppejä. Osoitamme menetelmää käyttäen rintasyöpä tietojen joukko Chin et al [24]. Tunnistamme muuttunut reittejä eri tavalla kohdistettu kopiomäärä poikkeavuuksia.

Kuten edellisessä lähestymistapoja, me osoite ja heterogeenisyys kuvioita tunnustamalla, että erilaiset kuviot CNA voivat edustaa vaihtoehtoisia reittejä, jotka syöpäsolut voivat ottaa muuttamaan saman ydinjoukko yhteisiä biologisia prosesseja. Näennäinen heterogeenisyys kartta sijainti liittyy CNAs voi yksinkertaisesti johtua siitä, että geenit käsittävät tietyn verkon jaetaan koko genomin. Siksi testata, onko yksittäinen kanonisen reitit ovat ei-satunnaisesti kohdennettu poikki kopiomäärä muutosta alueilla. Toisin kuin edellisessä lähestymistapoja, me hyödyntää olemassa olevien verkon rakenne toisin kuin de novo verkostojen luominen. Verkko vuorovaikutus vahvistettiin näiden kanoninen verkkojen käytti hyödyksi kartoituksessa fenotyyppien. Käytämme aiemmin kuvattu menetelmiä [25], onko muuttunut tila ei-satunnaisesti muuttunut prosessit voivat ennustaa potilaiden hoitotuloksiin.

Tulokset

Chin et al. olemme raportoineet aiemmin, genomin laajuinen kopioluvun ja geeniekspressioanalyysiä 145 ensisijainen rintasyövän kasvaimia [19]. Nämä muutokset määritettiin käyttämällä genomin BAC array CGH [26], [27], [28], [29] koostuu 2464 BACia valittujen noin mega pohja välein pitkin genomiin kuten aiemmin on kuvattu [26], [28]. Hyödyntämällä tätä datajoukko ja prosessi kuvattu materiaalit ja menetelmät, geeni sisältö kunkin segmentin kuvattu Chin et al. tunnistettiin.

Canonical biologinen verkon rakenteesta tiedot ja geeni sisältöä saatiin julkisista lähteistä [30], [31], [32] .A yhteensä 565 kanoninen reittejä tutkittiin. Nämä reitit ovat kokoelmia vuorovaikutuksia, jotka ovat osajoukkoja suurempia biologinen verkkojen kuratoinut kaapata tiettyjä toimintoja. Siksi niiden geeni sisältö ei ole ainutlaatuinen. Geeni sisältö näiden reittien vaihtelee dramaattisesti. Esimerkiksi polun ”hajoamista RAR ja RXR, että proteasomin [33]) sisältää vain 2 geenejä, kun taas IL12: n signaloinnin Pathway” [34], [35], [36]) sisältää 80.

jotta voidaan ottaa huomioon heterogeenisyys geenin osallistuminen kun analyysi suoritetaan käyttäen verkon malli määritellään uuden tilastollisen metrinen (kuvattu yhtälöissä (2.5) ja (2.6) Materiaalit ja menetelmät). Merkitys kunkin reitin poikki näytteen arvioitiin käyttämällä Fisherin Omnibus [49] ja säädetään monimuuttujille käyttäen Bonferoni menetelmää.

Soveltamalla menetelmiä toimittamien tietojen Chin et al., Tunnistamme reittejä, joissa geenejä muuttaa CNAs ovat erittäin merkittävästi yliedustettuina verrattuna satunnainen odotukset (taulukko S1).

havainnollistamiseksi erilaisia ​​yliedustus kaavoja tietyn verkon esitämme CNA liittyvien tapahtumien polku ”CDC25 ja CHK1 ”[37] (kuvio 1). Kuvassa geenien monistuminen merkitään läpi violetti neliö ja geenideleetio- kautta musta neliö.

Purple suorakaiteen merkitsevät geenin monistaminen ja mustat neliöt merkitsevät poisto. Jokainen pylväs edustaa satunnaisesti valittu aihe, joissa on yhteensä 18 aiheita. Kukin rivi edustaa eri geenin reitin geenien. Eri aiheita kohdentaa ”CDC25 ja CHK1” polku läpi vuorotellen genomista strategioita. Reitti yhtenä yksikkönä, kuitenkin, on suunnattu koko väestössä.

Kuten kuviossa 1 esitetään, ei yhden geenin sisällä reitti näyttää olevan ero kohde CNA yli 18 rintasyövän esitetyt näytteet … tai kun tutkitaan koko jäljellä 127 yksilöiden tutkimuksessa.

Toisaalta, voimme nähdä, että polku, yksikkönä, on suunnattu lähes jokaisessa aihe paneelissa (koko paneeli aiheiden tämän reitin on sisällytetty taulukkoon S2). Huomaa, metrinen (katso materiaalit ja menetelmät) kompensoi reitin kokoa. Sinänsä saada merkittävää p-arvo, suurempi väyliä täytyy kerätä useampia geenin lisäyksiä tai poistoja.

vieressä arvioinut verkot tunnistetaan yliedustus CNA liittyy tautiin lopputulokseen. Käyttämällä signalointia ja polku johdonmukaisuus tulokset [26], me ryhmittyneet yksilöt mukaan niiden polku käyttötiedot ja suorittaa eloonjääminen analyysi. Kun me osittaa potilaat kahteen ryhmään, voimme tehdä eloonjäämiskäyrien ja tarkista, onko ne erottavat väestö merkittävällä tavalla (kuva 2).

Tämä toteutustapa, joka on korostettu kautta erittäin merkittävä p-arvoa kuin kohteena genomista muutoksia, on suuri merkitys sen kyky ositusta potilaiden ennustetta. Luku osoittaa, miten merkittävä genomista muutoksia osoittavat reitin n merkitys kuin kerrostuminen välineenä.

iteroimalla yli kokoelma satoja polkuja, huomaamme 29 polkuja, jotka täyttävät merkitys kriteerit p 0,05 (taulukko S3) . Kuitenkin säädettäessä useita testejä käyttäen Bonferronin menetelmää vain kaksi väyliä merkittävästi kohteena genomista muutokset ovat myös erittäin liittyy selviytymisen; ”” Hypoxic ja happi homeostaasin säätely HIF-1-alfa ”[38], [39], [40] , ja glykosaminoglykaanin hajoaminen [viitteet].

vaihtoehtoinen lähestymistapa säätämällä useiden vertailujen arvioimiseksi merkitys on vahvistaa havainnot niitä polkuja, jotka osoittavat marginaalinen merkitys kaikkialla aineistoja. Kaksi julkista tietuekokonaisuudet ekspressiotietojen ja sairaus tulos valittiin Gene Expression Omnibus-tietokanta (https://www.ncbi.nlm.nih.gov/geo) [41] Ensimmäinen datajoukko (GSE2990) [42] sisälsi 189 yksilöitä. Toinen (GSE3494) [43] sisälsi 251 yksilöä. Geenien ilmentyminen sekä aineistojen käytti Affymetrix puitteissa määritellään geenin ilmentymistä tilassa. Alkuperäisestä 29 polkuja havaittu merkittävästi liittyvän hengissä Chin et al. [19], 8 havaittiin olevan merkittäviä GSE2990 ja 8 havaittiin olevan merkittäviä GSE3494. Yhteensä 4 polkuja havaittiin olevan merkittäviä kaikissa kolmessa aineistoja. Concordance joukossa aineistot on enemmän kuin olisi odotettavissa sattumalta yksin.

Keskustelu

Edellä esitetyt tulokset viittaavat siihen, että geenit CNA kuin satunnaisesti kohdistaa prosessien tärkeä onkogeeniselle tilassa. Teoksessa esitetään tässä tarjoamme keinon objektiivisesti tunnistaa biologinen prosesseja, jotka saattavat joutua näiden muutosten. Lisäksi reitit yliedustettuina näissä segmenteissä eronnut aktiivisuutta ja johdonmukaisuutta, joka liittyy syöpään lopputulokseen.

kokonaismäärä reitit tunnistettu ei-satunnaisesti kohdistettuja on silmiinpistävä. Yksi mahdollinen selitys on epäitsenäisyys geenin sisällön liittyvät kunkin reitin. Hierarkkinen klusterointi käytävien hyödyntää p-arvo liittyy ei-satunnainen kohdistaminen (taulukko S4) vahvistaa, että reitit, joilla liittyviä nimiä yleisesti klusterin korkea korrelaatio (r 0,5, tuloksia ei ole esitetty). Tarkastus reitin p-arvot poikki yksilöiden osoittaa valtavaa vaihtelua (taulukko S4). Tämä viittaa siihen, monipuolinen taustalla molekyylitason mekanismit ajo oncogenesis. Valitettavasti mitään selvää kuviota kasautumisesta yksilöiden ilmenee analyysi reittiin erityisiä vaihtelua.

CNA on aiemmin osoitettu, osoittaa yhdessä potilaiden hoitotuloksiin [44], [45], [46], [47] ). Vuonna Chin et al. [19] yksittäisten kopiomäärä muuttunut segmenttien osoittivat yhdessä selviytymisen ja tauti uusiutuu, vaan ne epätasaisesti. Kun otetaan joukko, he huomasivat, että muuttaminen, tai mitä he tunnistettu ”toistuva amplikoneihin” nähtiin lisääntynyt eloonjääminen kesto (p 0,04) ja etäpesäkkeenä (p 0,01).

Saadut tulokset mistä polku perustuva analyysi saman datajoukon tuottaa silmiinpistävää parannusta ja viittaavat siihen, että reitit voi edustaa parempi tapa arvioida toistuvia muutoksia. Kaksi polkuja osoittavat erittäin merkittävä yhdistyksen sisällä Chin et al. yksin ja 4 polkuja osoittavat merkityksen useille data ilme aineistoja. Koska suuri dimensionaalisuus järjestelmien laajuisten tietojen, on aina olemassa vaara yli asennusta. Sellaisenaan tulokset yksittäisen tutkimuksen pitäisi tarkastella skeptisesti. Kuitenkin merkittävä concordance useiden antaa riippumattomia validointi.

Lisääntynyt toistettavuus ja vaikutuksen suuruuteen liittyvän reitin tila verrattuna ovat suoraan tarkastelu ”toistuva” alueet voivat johtua useista tekijöistä. Tällä mekaanisella tasolla, tarkastelu dataa reitin tasolla sallii tietoa eri alueiden osallistumista verkossa. Se, että mikä tahansa toistuva alue monistetaan ei enää ole kriittinen ennustaja. Mikä syntyy sen sijaan on, että on tärkeää sarjaa muuttuneen alueille, joiden yksittäisiä jäseniä osuma eri puolilla kohdennettua reitin. Pathways ennalta koota vaikutuksia useiden geenien. Sellaisena se on mahdollista havaita monigeenisiin vuorovaikutusta, joka vaikuttaa syöpää fenotyypit mutta joka, jos ei koonnut polku, voi epäonnistua jotta testin tilastollisen merkityksen pienessä aineisto.

CNA on vain yksi tekijä, joka voitaisiin ajaa reitin osallistumista fenotyypit. Monet muut genomista mekanismien (esim. Yksittäinen geenimutaatioita, epigeneettiset aktivointi /hiljentäminen) voi vaikuttaa tilan kautta. Sellaisenaan reitit tunnistetaan tässä ovat osajoukko todennäköisesti mukana.

Käsitteellisesti, on todennäköistä, että koska reitti on taustalla yksikkö fenotyypin, keskittyen polkuja kasvattaa signaalin ja vähentää melua. Genominen muutoksia aikana kertyviä onkogeneesiin ja sairauden etenemistä tapahtuvat sattumanvaraisesti. Havaitut johdonmukaisuus todennäköisesti syntyy, koska tietyt prosessit on muutettava saapua tietyn fenotyypin. Näennäinen genomista heterogeenisyys, ”kohina”, johtuu siitä, on olemassa useita tapoja reittiä voidaan muuttaa. Kaikki nämä tavat ovat ”signaali” näkökulmasta polun.

On mahdollista spekuloida, että analyysin kaltaisia ​​suoritetaan kopioluvun muutos polkuun (yllä) voi olla hyötyä muille genomin analyysit kuten genominlaajuisten mutaatiostatuksesta näyttöjä tai yhdistyksen tutkimuksia. Esimerkiksi monimutkainen mutaatiokaavojen nähty 1672 geenien tunnettu ihmisen ja rintasyövän [48] ovat kaikki havaittu muuttua geenien yhden tai useamman 6 kanoninen polkuja tila tunnistettiin geenien ilmentyminen tietojen yleisesti erottaa kasvaimen normaalista [25] . Vastaavasti monimutkainen, alhainen pariton-suhde haplotyyppi yhdistysten kuviot voivat heijastaa heterogeeninen reittejä muuttamaan yhteisiä polkuja. Edellä havainnot on useita käytännön vaikutuksia harkitsee seuraavan sukupolven interventiostrategioita. Ensinnäkin verkot tarjoavat perustan suunnittelussa kombinatorisista hoitoja. Tutkiminen verkot ja niiden toiminta valtioiden, antaa järkevä millä tavoin määritetään geeniyhdistelmän on kohdistettava, jotta muuttaa tilan kriittinen solmuja. On myös mielenkiintoista, että kaikki muutokset väyliä todetaan vaikuttaa lopputulokseen. Tämä havaittu ero vaikutusta lopputulokseen, mikä saattaa heijastaa tuotettu luonnollisen kokeiden kasvain, voi myös osoittautua tärkeäksi priorisointi, mitkä geenit ja vuorovaikutukset voidaan parhaiten tuottavasti pyritään parantamaan lopputulokseen.

Materiaalit ja menetelmät

Mapping Entrez Gene Golden Path

NCBI: n Entrez Gene tietokanta sisältää 36470 ihmisen kirjaa, 25441 heistä selityksin kuten proteiinia koodaavan. Jokaisen geenin Tästä käytimme erilaisia ​​menetelmiä löytää sen sijainti Golden Path genomin sekvenssissä. Version (hg18) genomin tietokanta sisältää huomautuksia lisäämällä jota käytimme mahdollisuuksien mukaan. Joissakin tapauksissa käytimme BLAT löytää genomista paikkoihin.

sijainnit noin 18342 (~54%) geenit selityksin suoraan Golden Path n remove ja refGene taulukoita. Vaikka tämä on yksinkertaisin tapa viittaus, se jättää 18128 geenejä unmapped, 6757 (~18.5%) heistä proteiinia koodaavan.

Jos suora geeni merkintä ei ollut saatavilla, etsimme Golden Path n merkintöjä varten sijainnit liittyvien sekvenssien eri lähteistä, alla tärkeysjärjestyksessä:

mRNA liittymiset päässä Entrez Gene n ”gene2accession” pöytä

ristiviittaus liittymiset päässä HUGO tietokannasta

ristiviittaus liittymiset päässä uniSTS tietokannasta

ensisijainen edustaja järjestyksessä liittyy UniGene cluster

mRNA-sekvenssit liittyvät UniGene cluster

EST-sekvenssit liittyvät UniGene cluster

liittyminen kerättiin kustakin näistä lähteistä puolestaan ​​ja sitten katsoi ylös eri Golden Path merkintä taulukoita (all_mrna, stsMap, clonePos, ja all_est). Paikallisesti rakennettu tietokanta mRNA ja refseq BLAT tulokset (koottu Robert Clifford) etsittiin myös tarjoaa joitakin muita otteluita. Tuloksena genomista sijainnit haun sekvenssit yhteen, ja hyväksytään geenin asemassa, jos paikat kuuluisi 3 mb alue (3 mb ollessa jokseenkin mielivaltainen sulku perustuu Havaituista remove-pohjainen geenikartoitukseen noin 2,3 mb). Jos kromosomi merkintä oli saatavilla Entrez Gene, Hugo, tai uniSTS genomista kannat otettiin mukaan vain ne olisivat samassa kromosomissa. Tunnettu kromosomi huomautus tarvittiin tapauksessa UniGene mRNA ja EST-sekvenssi hakuja.

Jos liittyminen selityksiä ollut käytettävissä, mutta kannat ei löydetty, teimme oman BLAT hakuja. Tämä oli välttämätöntä eräille liittymiset, jotka eivät näy Golden Path tietokantaan (esimerkiksi ”XM_” -sarjan ennusti refseqs). Jos kromosomi merkintä oli käytettävissä geenin BLAT haku ajettiin vain vastaan, että kromosomi, muuten kaikki kromosomeja etsittiin. Tulokset yhteen ja hyväksytty geenin asemassa, jos ne kuuluvat 10 mb tai pienempi alue. Tämä on vähemmän tiukka vaatimus kuin käytetty liittymistä-pohjainen karttajärjestelmä, mutta se voi tarjota ainakin yleinen asema, paljon täsmällisempi kuin sytogeneettinen perustuva koordinoi (ainoat mappausinformaatiota saatavilla jo jonkin Entrez Gene merkinnät). Jos uskottava ottelut löydettiin monien kromosomien, geeni kartoitus hylättiin epäselvä.

BLAT tulokset selityksin yhdellä neljään hakutyyppejä, joten merkinnät voidaan sulkea pois myöhemmin, jos niitä pidetään liian laaja. Neljä luokat ovat:

Yksi täydellinen kumppani hakusekvenssistä todettiin. Ihanteellinen kartoitustuloksen.

Enemmän kuin yksi täydellinen kumppani hakusekvenssistä todettiin.

Yksi lähes täydellisesti (vähintään 95% mutta vähemmän kuin 100%: n identiteetti) havaittiin.

Multiple lähes täydellinen löytynyt.

etuuskohtelu annettiin täydellinen refseq vastaa tuloksissa – eli täydellinen BLAT ottelu on refseq pidettiin geenin perimän aseman, riippumatta muista läsnä olevista lähes täydellisen ottelut tuloksissa.

Jos kartoitusta ei millä tahansa edellä mainituilla menetelmillä muutaman raakaöljyn menetelmiä viimeisenä yritettiin:

Jos geeni oli sijoitettu koskevasta NCBI genomista jatkumosekvenssi (NC_ * sarja liittymisen kautta EG: n ”gene2refseq” taulukko), ja viereisen geenin samassa kromosomissa, käsivarsi,

ja bändi voisi löytyä Golden Path suhteellinen

välinen etäisyys geenien NCBI järjestyksessä

levitettiin kultainen polku koordinaatit lähentää

asemaansa.

Jos geeni oli vain sytogeneettinen sijainti käytettävissä, koordinaatit Golden Path-kartoitettu geenien kanssa samaan sytogeneettisiä sijainti ryhmitelty ja liitto asemansa syntyy. Tuloksena kartoitukset ovat hyvin laaja, mutta ainakin vaiheessa yleisen molekyyli- alue, joka voi vielä olla hyödyllistä joissakin olosuhteissa.

Mapping BAC: Golden Path

Toinen aineisto on kartoitettava Golden Path muodostui joukko BAC: käytettyjen CGH paneelit Chin et al [24]. Kuten Entrez Gene mapping prosessin kultainen polku merkintä tietokannassa on ihanteellinen pöytä meidän tarkoituksiin, ”bacEndPairs”, pitämällä genominen kannat BAC: ien, joiden pää sekvenssit ovat molemmat kartoitettu. Kuitenkin vain noin 39% BAC meidän setti sisältää kohdan tässä taulukossa. ”FishClones” taulukosta kuvaukset vielä 6%: n BAC: ien. Muilta käytimme BAC liittyvät merkinnät perustana kartoittamiseen.

NCBI klooni rekisterissä edellyttäen merkittävä lähde BAC merkintöjä. Siitä, poimimamme BAC liittyvä liittymistä, pään sekvenssi, STS ja kromosomi tietoa. Rekisterin myös rajat yhteydet uniSTS, josta keräsimme lisää liittyvä liittymiset. Olemme etsineet tuloksena sekvenssit Golden Path n all_mrna, clonePos, stsMap, ja all_ests taulukoita. Otimme erityisesti huomioon mitään tulosta BAC pään sekvenssejä. Lisäksi klooni rekisterin, me käytetään myös merkintöjä päässä UCSF 2,0 paneelit (tietoja https://cancer.ucsf.edu/array/analysis/), sekä GenBank kirjaa löytymistä BAC nimet otsikossa lohkon. Genome kuvaukset vastaanotettujen BAC, jos he eivät enää kuin 500 kb pituudeltaan, ja kuvaukset on epäselvä kromosomeja hylättiin.

BACia joita ei löydy käyttämällä NCBI klooni rekisterin tai UCSF array merkintöjä, yritimme korvike-pohjainen kartoitus lähestymistapaa. Chin et als [1] CGH array merkinnät edellyttäen karkea genomista sijainti (megabases), jonka koordinaatit linjassa parhaiten vanhempi genomin rakentaa, hg16. Kunkin BAC, poimimamme sekvenssi tunnuksia hg16 jotka selityksin olevan lähellä tätä asemaa. Sarjaa sekvenssit uutettiin kustakin all_mrna, stsMap, ja all_est merkintä taulukoita. Sillä mRNA: t ja STS, käytimme sekvenssit sijaitsevat välillä ± 5 kb kohdesijaintia. Sillä EST, otimme sekvenssit välillä ± 1 kb kohdepaikan. Nämä uutetaan sekvenssit käytettiin korvikkeita BAC, ja katseli hg18, haku (tärkeysjärjestyksessä) mRNA STS, ja EST. Tätä lähestymistapaa käytetään tuottamaan hg18 kantoja noin 8,7% BAC.

BAC: joita ei voitu kuvata hg18 jollakin edellä esitetyistä menetelmistä, toinen pass tehtiin löytää tuottaa lähentämään kantoja perustuu interpoloitu naapurimaiden BAC paikoissa. Kunkin BAC, yritimme löytää reunustavien BACia kanssa hg18 kuvaukset. Sitten levitetään suhteessa siirtymät on hg18 kannat perustuvat etäisyyksillä hg16 kantoja. Tämä oli tarpeen vain noin 1,4% BAC.

BAC esikäsittely.

Kahdet muunnetun genomisen kantoja generoidaan kullekin BAC, jota me kutsumme laajennettu ja laajennettu koordinaatit.

Laajennetut koordinaatit ovat yritys kompensoida monissa tapauksissa, joissa BAC kartoitus ja lopun sekvenssi ovat puutteelliset. Niiden tarkoituksena on varmistaa, että kaikki BAC: kattavat vähimmäismäärä genomin, ja että täysin kartoitettu BAC: älä syrjäyttää BACia ottaa vähemmän täydellinen kartoitus merkinnät. Tämä merkitsee laajenevan kartoitettu BAC koordinaatit enintään noin 165kb, joka on meidän havainto keskikokoa BAC: ien, joissa molemmat pää sekvenssit on kartoitettu. Koordinaatit ole laajennettu jos molemmilla loppuun sekvenssit on kartoitettu, tai jos olemassa olevaa mappausinformaatiota kattaa 100kb tai enemmän. Jos yhden pään sekvenssi kartoitus on tiedossa, laajennus on tehty päässä ankkuroitu pää, toisin koordinaatit laajennetaan yhtä kumpaankin suuntaan. Törmäykset laajentamisen välillä tiiviisti kartoitettu BAC: tunnistetaan ja ratkaistaan ​​usean pass prosessi, jossa käytettävissä välilyöntiä osoitetaan tasan BAC:. Jos laajennus yhteen suuntaan aiheuttaa päällekkäisyyden naapurimaiden BAC, asianmukaiset korvaavat laajeneminen yritetään toiseen suuntaan, ellei tätä varten on vahvistettu läsnäolo tunnetun pään sekvenssi.

Laajennettu koordinaatit perustua laajennettu kuvaukset jakamalla määrittämätön genomin alueita naapurisatamista BAC:. Tämä antaa pseudo-laatoitus kattavuus genomin, joka mahdollistaa tietyn alueen liittyvän sopivin BAC asetettu. Luodaan laajennettu koordinaatit vaatii laajentunut koordinaatit lasketaan ensin, jotta kohtuullisin tehtävä puuttua alueilla.

Laajennetut ja laajennettu koordinaatit lasketaan dynaamisesti BAC jäsenyys CGH array työstettävän kanssa. Vaikka hg16-pohjainen CGH paneelit oli tarkoitettu näyte genomin säännöllisin väliajoin, niiden lasketaan tehtävissä hg18 eivät ole niin siististi toisistaan. Näitä tarkoituksia varten BAC: t järjestetään havaitsimme niitä hg18.

On tapauksia, joissa BAC koordinaatit päällekkäisyyksiä. Tapauksissa, joissa BAC lasketaan valehdella kokonaan suuremman BAC, sitä pienempi BAC vastaanottaa saman lopullisen koordinaatit suurempi BAC (se on pohjimmiltaan pidetään kahtena). Tapauksissa, joissa BAC osittain päällekkäinen toisen, koordinaatit päällekkäisyys alueella jätetään ennalleen, eikä tai laajentavat suoritetaan loppuun kanssa päällekkäin.

Yhdistetään BAC: geeneillä

on olemassa kolme perustyyppiä risteyskohdissa geenin ja BAC koordinaatit:

geenin kartoitus kuuluu kokonaan BAC: n kartoitus.

geenin kartoitus on osittain sisällä BAC: n kartoitus ja osittain sen ulkopuolella.

geenin kartoitus on suurempi kuin BAC: n kartoitus. Tämä voi johtua geenien erittäin laaja sytogeneettisesti johdetun geenin kuvaukset.

Gene-to-BAC yhdistysten ensimmäistä tyyppiä ovat triviaaleja laskea. Kahdessa viimeksi mainitussa tapauksessa vaatia joitakin lisätoimia onko geeni tulisi liittyä BAC vai ei. Associations yleensä hylätään, jos pituus BAC kartoitus on pienempi kuin yksi kolmasosa pituus geenin kartoitus. Tämä estää yhdistysten tekeillä perustuu epäolennainen päällekkäisyyksiä. Jos laajennettu joukko BAC koordinaattien käytetään, yhdistys hylätään ellei vähintään 50% geenin koordinaatit sijoituttava BAC koordinaatit. Koska laajennettua tilaa BAC: laatta genomin kokonaan, tämä vaihe takaa, että geenit raja-alueilla osoitetaan yhdelle BAC yksinomaan. Erityisiä yhdistysten BAC: ien ja niiden geenejä on kuvattu aikaisemmin Chin et al. [24].

tunnistaminen Geenit Copy Number Altered Alueet. Jotta voitaisiin tunnistaa geenien kopiomäärä muuttunut alueilla oli tarpeen kääntämiseen BAC: koordinaatin käytetään vertailevassa genominen hybridisaatio (CGH) määritykset osaksi genomiin koordinaatit. Tämä edellytti Kartoitus Entrez Gene tietokantaa ja CGH BAC: yhteiseen koordinaattiavaruuden (Golden Path ihmisen genomi build hg18), ja sitten päällekkäin tulokset. Nämä prosessit on kuvattu täydentävän materiaalin [19].

Mapping geenejä Pathways

määritetty luettelo geenejä käytettiin kuhunkin väylän mukaan kysely Pathway Interaction Database [49].

p-arvon väylän n genomista muutoksia tietyssä näytteessä

Jokainen polku verkko on katsottu joukko geenejä. Eli jokaisen koulutusjakson, ja mukaan (2,4), me listattu geenit, jotka ovat jäseniä reitin.

Määritä todennäköisyys, että polku on osua täsmälleen k osumia, ensin laskea todennäköisyys, että reitti on satunnaisesti osuma kertaa. G geenit määrällisesti tietyllä alustalla (esimerkiksi alustan, joka kattaa koko genomin kattavat suunnilleen G = 24000), ja N

i geenien polku i (N

i on yleensä välillä 10-70 geenejä) saamme: (2.4) todennäköisyys satunnaisesti lyömällä nolla

k

i

,

j

geenejä, koska

M

j

geenit muuttuvat näytteessä

j

on hypergeometrisen kertymäfunktio: (2.5) Siihen liittyvä p-arvo määritellään näin ollen: (2,6) B

p-arvo globaalin reitin yhtäläisyyskohdistusta populaation

Voidakseen tilastollisesti määrittää genomista kohdentaminen koulutusjakson poikki potilaita, meidän täytyy kerrata poikki p-arvot on määritelty (2.5). Tämä on itse asiassa yhdistelmä yksipuolinen binomi testejä. Tämä on ratkaistu eri tekniikoilla, kuten Fisherin Omnibus [50], joita käytämme täällä. Tämä testi tilastot reitin

i

ilmaistaan ​​täällä: (2,7) ja vastaava p-arvo on: (2.8) missä on Chi-square kertymäfunktio ja

d

ovat useita vapausasteita (näytteiden lukumäärä).

tukeminen Information

Taulukko S1.

Bonferroni korjausta sovellettiin p-arvot lasketaan käyttämällä Fisherin Omnibus testi sen puuttua monivertailuja. Arvo merkitys oli assign olevan 8,834 x 10

-5, joka on 0,05 /566 (kun 566 on määrä polkuja). Taulukko S1 näyttää kaikki 566 polkuja laskettu Chin aineisto kanssa p-arvo lasketaan kautta Fisherin Omnibus testi. Lisäksi jokainen p-arvo oli säädetty ja polku merkittävyys antaa uudelleen.

Doi: 10,1371 /journal.pone.0014437.s001

(0,65 MB DOC) B Taulukko S2.

Taulukossa S2 näyttää koko paneeli aiheiden seuraavista polku ”cdc25 ja CHK1 sääntelyyn polku vastauksena DNA vaurioita”. Tämä polku koostuu 9 geenejä. Tämä taulukko osoittaa kopioluvun muutoksia poikki 145 Rintasyöpäpotilas: -1 osoittaa poisto, 1 tarkoittaa vahvistusta ja 0 osoittaa mitään merkittävää muutosta.

Doi: 10,1371 /journal.pone.0014437.s002

(0,19 MB DOC )

Taulukko S3.

Taulukko S3, esitetään tässä, näyttää kaikki keinot, jotka todettiin olevan merkittävä käyttäen Kaplan-Meier selviytymisen analyysi. Kaikki reitit esitetään tässä todettiin merkittävästi kohdennettua kautta kopioluvun muutos käyttämällä Fisherin Omnibus testi (korjauksen jälkeen). Kaikki 29 reittejä testattiin kaksi muuta julkista aineistoja saada GEO (https://www.ncbi.nlm.nih.gov/geo). A – toiminta, C – johdonmukaisuus.

Doi: 10,1371 /journal.pone.0014437.s003

(0,05 MB DOC) B Taulukko S4.

Taulukossa yksityiskohtaisesti Fisherin Omnibus arvo kullekin reitin.

Vastaa