PLoS ONE: Selvittämisessä Genominen Muutokset peräsuolen syövän kautta Transkription alatyyppi-Based Network analyysi
tiivistelmä
Sekä transkription alatyyppi ja signalointiverkolla analyysit ovat osoittautuneet hyödyllisiksi syövän Genomitutkimuksen. Nämä kaksi lähestymistapaa käytetään tavallisesti erillään olemassa oleviin tutkimuksiin. Olemme selvää, että selvittämisessä genomista muutokset perustuvat syövän transkription alatyyppejä voi auttaa paljastaa alatyypin-tietyn kuljettajan verkkoja ja tarjota oivalluksia kehittämiselle yksilöllisiä terapeuttisia strategioita. Tässä tutkimuksessa määrittelimme transkription alatyyppejä peräsuolen syöpä (CRC) ja tunnistaa kuljettajan verkkoja /väyliä kunkin alatyypin. Hakeminen konsensus klusterointi potilaalle kohortin kanssa 1173 näytettä tunnistettu kolme transkription alatyyppiä, joka todensi riippumattomalla kohortin 485 näytettä. Kolme alatyyppiä leimasi eri transkription liittyvien ohjelmien normaalin aikuisen paksusuoli, varhainen paksusuolen alkionkehityksen ja epiteelin mesenkymaalitransitioon, vastaavasti. He osoittivat myös tilastollisesti erilaisia kliinisiä tuloksia. Kunkin alatyypin, kartoitimme somaattinen mutaatio ja kopioluvun vaihtelu dataa integroidun signalointiverkolla ja tunnistettu alatyyppi-tietyn kuljettajan verkkoja käytettäessä satunnaista walk-strategiapeli. Huomasimme, että genomista muutokset Wnt signalointireitillä olivat yleisiä kaikissa kolmessa alatyyppiä; kuitenkin ainutlaatuinen yhdistelmiä koulutusjakson muutoksia kuten Wnt, VEGF ja Notch ajoi erillisiä molekyyli- ja kliinisten fenotyyppien eri CRC alatyyppejä. Tuloksemme muodostettava yhtenäinen ja integroitu kuva ihmisen CRC joka yhdistää genomista muutoksia molekyyli- ja kliinisiä seurauksia, ja joka tarjoaa oivalluksia kehittämistä yksilöllisiä terapeuttisia strategioita eri CRC alatyyppejä.
Citation: Zhu J, Wang J Shi Z, Franklin JL, Deane NG, Coffey RJ, et al. (2013) Selvittämisessä Perimän Muutokset peräsuolen syövän kautta Transkription alatyyppi-Based Network Analysis. PLoS ONE 8 (11): e79282. doi: 10,1371 /journal.pone.0079282
Editor: Amanda Ewart Toland, Ohio State University Medical Center, Yhdysvallat
vastaanotettu: 19 elokuu 2013; Hyväksytty: 20 syyskuu 2013; Julkaistu: 15 marraskuu 2013
Copyright: © 2013 Zhu et al. Tämä on avoin pääsy artikkeli jaettu ehdoilla Creative Commons Nimeä lisenssi, joka sallii rajoittamattoman käytön, jakelun ja lisääntymiselle millä tahansa välineellä edellyttäen, että alkuperäinen kirjoittaja ja lähde hyvitetään.
Rahoitus: rahoitus Yhdysvallat terveydenhuoltoreserviläinen myöntää GM088822, CA126479, CA159988, CA095103, CA069457, DK052334, ja CA068485. Rahoittajat ollut mitään roolia tutkimuksen suunnittelu, tiedonkeruu ja analyysi, päätös julkaista tai valmistamista käsikirjoituksen.
Kilpailevat edut: Kirjoittajat ovat ilmoittaneet, etteivät ole kilpailevia intressejä ole.
Johdanto
peräsuolen syöpä (CRC) on merkittävä syy maailmanlaajuiseen syöpää sairastuvuus [1]. Viimeisten kolmen vuosikymmenen aikana, molekyyligenetiikan tutkimukset ovat paljastaneet joitakin kriittisiä mutaatioita taustalla patogeneesi CRC [2]. Viime aikoina on kehitys suurikapasiteettisten sekvensointiteknologioihin tuhannet geneettisiä muutoksia on havaittu CRC. Sen lisäksi, että rajallinen määrä tunnettuja usein mutatoitu onkogeenit tai kasvaimeen synnyssä, kuten APC, KRAS, PIK3CA ja TP53, paljon suurempi määrä geenejä on mutatoitu alhaisella taajuudella [3]. On ehdotettu, että somaattiset mutaatiot löytyvät syövät ovat joko ”kuljettajat” tai ”matkustajia” [3]. Miten erottaa kuljettajat matkustajien tuhansista matalataajuista mutaatiot on tullut suuri haaste syöpätutkimukseen.
Koska signalointipolkujen ja verkostoja kuin yksittäiset geenit ohjaavat kurssin tumorigeneesin ja etenemisen [4], useat tutkimukset ovat käyttäneet asiantuntijoiden laatimiin väyliä auttaa tulkitsemaan suuren suoritustehon genomi- muutokset [3], [5], [6]. Vaikka hyödyllistä, nämä menetelmät rajoittavat kattavuutta ja kattavuuden kuraattorina polkuja [7]. Näin ollen verkko-lähestymistavat kuten HotNet [8] ja Netwalker [9] on kehitetty, jossa menestyksekäs soveltaminen tunnistamisen aliverkot, jotka on rikastunut genomisen muunnelmia [6], [10].
Verkko -pohjainen menetelmät ovat alkaneet tarjota järjestelmiä taso monimutkaisesta genomista muunnelmia. Koska nykyiset tutkimukset yleensä harkita kaikkia kasvainnäytteestä yhteen vastoin tavanomaista valvontaa, ne ovat yleensä tunnistaa signalointi verkkojen yhteinen kaikille kasvain näytteet ja saattaa epäonnistua puuttumaan heterogeenisuus syöpä genomien.
Transkription alatyyppi analyysi on tarjonnut suuri oivalluksia tauti biologia, ennustetta ja henkilökohtainen hoitomuotoja eri syöpätyyppejä [11], [12]. Mielenkiintoista, vaikka molemmat transkription alatyypin ja signalointiverkolla analyysit ovat osoittautuneet hyödyllisiksi syövän Genomitutkimuksen, nämä kaksi lähestymistapaa käytetään tavallisesti erillään olemassa oleviin tutkimuksiin. Olemme selvää, että selvittämisessä genomista muutokset perustuvat syövän transkription alatyyppejä voi auttaa paljastaa alatyypin-tietyn kuljettajan verkkoja ja tarjota oivalluksia kehittämiselle henkilökohtainen hoitostrategioiden.
CRC, The TCGA (Cancer Genome Atlas) verkko äskettäin raportoitu luokittelu kolme transkription alatyyppejä, joka nimettiin ”MSI /CIMP”, ”Invasive”, ja ”CIN”, vastaavasti [13]. Kuitenkin analyysi rajattiin useat tekijät. Ensinnäkin alatyyppejä tunnistettiin suhteellisen pieni potilas kohortin vain 220 näytettä eikä riippumatonta validointi suoritettiin jättäen yleisyyttä alatyypin luokituksen todistettu. Seuraavaksi puutteen vuoksi selviytymisen tietoja riittävästi seurata aikaa TCGA kohortin kliinistä merkitystä alatyypeistä on vahvistamatta. Ei ole selvää, jolla kriteereitä ”invasiivisia” alatyypin leimattiin ja onko sitä tukevat biologiset ja kliiniset tiedot. Vaikka se on hyvin mielenkiintoista yhdistää globaali genomista ominaisuuksia, kuten mikrosatelliitti Epävakaus (MSI), CpG-saarekkeen metylaation fenotyyppi (CIMP), ja kromosomi epävakaus (CIN) ja transkription alatyyppejä, se on edelleen suuri haaste kääntää nämä yhdistykset kohdennettuihin terapeuttisten eri CRC alatyyppejä.
tässä tutkimuksessa oletamme, että hyvin heterogeeninen genomista muutoksia havaittiin CRC voi lähentyä rajoitetun määrän erillisiä järjestelmiä, jotka ohjaavat ainutlaatuinen geeniekspressiomalleja eri transkription alatyyppejä. Ensinnäkin, jatkoimme TCGA havainnot suorittamalla alatyypin löytö perustuu geenien ilmentyminen tietoja 1173 CRC kasvain näytteet kertynyt viimeisen kymmenen vuoden aikana, validoitu tunnistettu alatyyppejä riippumattomalla kohortin 485 näytettä, ja liittyvät jokaisen alatyypin ainutlaatuinen biologian ja kliiniseen tulokseen. Seuraavaksi kartoitetaan somaattinen mutaatio ja kopioluvun vaihtelu (CNV) dataa integroidun signalointiverkolla ja tunnistaa kuljettajan verkko kunkin alatyypin. Päätellä verkkojen ja niihin liittyvien reitit korreloivat täydellisesti alavirtaan transkription ohjelmia ominainen kullekin alatyypin, joka tarjoaa vahvaa aihetodiste tehokkuudesta lähestymistapamme ja pätevyyden meidän päättely. Perustuen ainutlaatuinen yhdistelmiä koulutusjakson muutokset ja kliinisiin tuloksiin, olemme ehdottaneet erityistä terapeuttista strategioita eri CRC alatyyppejä.
Materiaalit ja menetelmät
Data Acquisition and Processing
Kuten taulukossa S1 File S1, geenien ilmentyminen tietoja 1173 ihmisen CRC näytteet ladataan Gene Expression Omnibus (GEO) tietokanta rakentaa löytö kohortti. Geenien ilmentyminen tietoja johonkin muuhun 485 ihmisen CRC näytteet ladata GEO tietokannasta, ArrayExpress arkisto ja The Cancer Genome Atlas (TCGA) luoda validointi kohortti. Jokaista Affymetrix geeniekspressiota aineisto, Robust monisirumoduulit Analysis (RMA) algoritmi [14] käytettiin tietojenkäsittely, mukaan lukien kvantiili- normalisointi ja log2-muunnos. Jotta ilmentymistaso vertailukelpoisia eri aineistoja, me edelleen normalisoitui ilmentymistason kukin koetin asetettu kussakin näytteessä suhteessa sen keskimääräinen ilmentymistä kaikissa näytteissä samassa aineisto, vähentämällä sen keskimääräinen että aineisto kustakin sen ekspressiomittaukset [ ,,,0],15]. Kuten kuviossa S1 File S2, ekspressiotaso poikki aineistoja on verrattavissa tämän jälkeen normalisointi. Sitten koetin sarja tunnisteet kartoitettu geeni symbolien perusteella kartoitus tiedosto, jonka vastaavat tietokannat. Koetinsarjojen kartoitettu useita geenejä eliminoitu. Kun useita koetinsarjojen kartoitettiin samalle geenin, mediaani käytettiin edustamaan geeniekspression tasolla. Sillä TCGA geenien ilmentyminen perustuvat tiedot Agilent 244 K Gene Expression Microarray, Level 3 geenien ilmentyminen tietojen (log 2 lowess normalisoitu (Cy5 /Cy3) kutisteta geeni symboli) on ladattu ja ilmaisun arvot kullekin geeni tarkoittaa myös keskitetty. 10481 geeni symboleja yleinen kaikissa aineistoja valittiin myöhemmin analyysejä.
tutkia geenien ilmentymisen muutoksia CRC näytteissä suhteessa normaaliin limakalvolle näytteitä, geenien ilmentyminen tiedot näistä 182 näytteet normalisoitiin yhdessä RMA-algoritmia [14 ]. Sitten me normalisoitu ilmentymistason geenin g kussakin näytteessä suhteessa sen keskimääräinen ilmentyminen viisi normaalin limakalvon näytettä, vähentämällä sen keskimääräinen normaalissa näytteet jokaisesta sen ilmentymisen mittauksen.
karakterisoimiseksi alkion kehittäminen paksusuolen teimme aika kurssin mikrosirun tutkimuksessa käyttämällä sisäsiittoinen C57BL /6 (Jackson Laboratories, Bar Harbor, mE) hiiret (Gene Expression Omnibus, GSE38831). Tutkimus toteutettiin tiukasti mukaisesti eläinten hoitoon ja käyttöön suuntaviivoja ja hyväksymistä Vanderbilt Institutional Animal Care ja Käytä komitea (IACUC). Hiiriä seurattiin koko kokeen merkkejä hätä aikana normaalin elinkaaren vaikka mitään kokeellista manipulointia näiden hiirten tehtiin lisäksi jalostukseen. Jos merkkejä hätä nähtiin aikana viikoittain seuranta, hiiret tapettiin CO2 tukehduttamalla seurasi niskanmurrolla vähentää eläinten kärsimystä. Seitsemän näytettä vastaavat hiiren paksusuolen kehittämiseen E13.5 on E18.5 ja aikuisten (kahdeksan viikkoa synnytyksen jälkeinen) kerättiin. Alkion paksusuolen keräämistä ja RNA: n valmistaminen suoritettiin, kuten aiemmin on kuvattu [16]. RNA-näytteet jätettiin Vanderbilt Functional Genomics resurssin (FSGR, https://array.mc.vanderbilt.edu), jossa RNA puhdistettiin käyttämällä RNeasy-kittiä (QIAGEN, alencia, CA) ja hybridisoitiin Affymetrix hiiri Genome 430 2,0 GeneChip- Expression Array (Santa Clara, CA) valmistajan ohjeiden mukaisesti. RMA-algoritmia käytettiin datan normalisointi. Hiiren geenin symbolit kartoitettiin ihmisen geeni symbolien ihmisen ja hiiren Orthology lista saatavilla hiiren Genome Informatics (https://www.informatics.jax.org/).
CNV tiedot ja somaattisen mutaation tiedot TCGA näytteitä sovitetun geenien ilmentyminen tietoja ladata TCGA verkkosivuilla.
signalointipolkujen kuratoinut NCI-Nature, Cancer Cell kartta, ja REACTOME ladattiin Pathway Commons tietokanta (viimeisin versio kesäkuu 2011). BioCarta signalointipolkujen ladattiin NCI Pathway Interaction Database (kesäkuu 2011). Integrointi väyliä kaikista edellä mainituista lähteistä johti signalointiverkossa sisältävä 3152 geenejä ja 47833 reunat. Sen suurin komponentti sisälsi 3078 geenejä ja 47772 reunat, jota käytettiin päättely alkupään kuljettajan aliverkot.
Co-ilmaisu Network ja moduulin Analysis
Perustuen geenien ilmentymisen matriisi 10481 geenejä ja 1173 näytteiden löytö kohortin laskimme Pearsonin korrelaatiokertoimet kaikille 54920440 geeniä paria. Rakentaminen koekspressoimalla verkko edellyttää asianmukaista valinta kynnyksen pareittain korrelaatiokertoimet. Jotta varmistetaan biologista merkitystä rakennetun verkon, käytimme tietoon ohjattu menetelmä kynnys valinta [17]. Erityisesti arvioimme toiminnallinen samankaltaisuus kunkin parin geenien perustuu Gene ontologia (GO) biologisen prosessin huomautusta käyttäen Resnik semanttisen samanlaisuuden [18]. Keskimääräinen toiminnallinen samankaltaisuus geenin paria eri korrelaatio vaihtelee laskettiin ja piirrettiin (kuva S2 File S2). Perustuen juoni, absoluuttinen Pearsonin korrelaatiokerroin 0,45 valittiin kynnysarvovalvonta koska jyrkkä nousu toiminnallinen samankaltaisuus tapahtuu tämän kynnyksen yläpuolella sekä positiivisia että negatiivisia korrelaatioita. Perustuen asetettuja geeni koekspressoimalla verkon 8546 geenien ja 508071 reunat rakennettiin. Käytimme aiemmin julkaistu Iteratiivinen Clique leimaus (ICE) algoritmi [17] määrittämään suhteellisen itsenäisiä ilmentäminen rinnakkain moduulit geenin ilmentäminen rinnakkain verkkoon (kuva 1A ja taulukko S2 File S1). Keskittyä suuria transkription ohjelmia, me tarvitaan jokainen moduuli on vähintään 20 ainutlaatuisia geenejä.
(A) Tutkimuksen suunnittelu. Yksityiskohtainen kuvaus menetelmistä ja tietojen tutkimuksessa käytetyt löytyy taulukosta S2 File S1; (B) Kohteen käytetty menetelmä päätellä alkupään kuljettajan aliverkkoihin yksittäisten alatyyppejä.
Transkription alatyyppi Identification
alatyypin löytö teimme konsensus keskimääräinen sidos hierarkkinen klusterointi [19] , joka perustuu geeneihin edellä tunnistetut moduulit ja kaikki discovery näytteet (kuva 1A ja taulukko S2 File S1). Klusterointi suoritettiin GenePattern [20], käyttäen samoja parametreja kuin [12]. Mainittujen alaryhmien CRC, SigClust suoritettiin arvioimaan merkitystä kaikkien pareittaisten yhdistelmien [21] (kuva 1A ja taulukko S2 File S1). Tunnistaa näytteet, voi edustaa sen alaryhmä hyvin, arvioimme, kuinka hyvin kukin näyte on sen alakonsernin. Erityisesti näytteen
i
, me lasketaan
a (i) B keskimääräisenä etäisyys
i
ja kaikki muut näytteet alaryhmä, jossa
i
kuuluu. Sitten välinen keskimääräinen etäisyys
i
ja kaikki näytteet kustakin muiden alaryhmien laskettiin vastaavasti, ja pienin keskimääräinen etäisyys,
b (i),
tunnistettiin. Seuraavaksi laskimme siluetti leveys
s (i) B määrittelemien:
s
(
i
) = (
b
(
i
) –
(
i
)) /max (
(
i
),
b
(
i
)) [22]. Näytteet, joissa on positiivinen siluetti arvo oli säilytetty ”core” näytteitä vastaavan alatyypin (kuva 1A ja taulukko S2 File S1). Tämä analyysi suoritettiin käyttäen siluetti paketin R.
rakentaminen alatyyppi luokitin ja määrittäminen allekirjoitus Geenit Jokainen alatyyppi
Käytimme lähin kutistunut centroid luokitusjärjestelmän mukaisesti Prediction Analysis mikrosirujen (PAM) [23] rakentaa luokittelijoiden edellä määritellyn alatyyppejä. Ajoimme 10-kertainen ristivalidointi 100 kertaa arvioidakseen luokittelijoiden joissa on eri määrä geenejä. Valitun luokittelija, käytimme seuraava sääntö määrittää kunkin geenin että luokittelija on alatyyppi. Ensiksi geenit merkittävästi ylöspäin säännelty (yksisuuntaisen Studentin t-testi,
p
0,05) yhdessä alatyypin verrattuna kaikkiin muihin alatyyppeihin määriteltiin up geenien tämän alatyypin. Seuraavaksi jäljellä geenejä, joita on huomattavasti alaspäin säännelty yhden alatyypin verrattuna kaikkiin muihin alatyyppeihin määriteltiin alas geenien tämän alatyypin. Kunkin alatyyppi, sekä ylös geenien ja alas geenien pidettiin allekirjoitus geenejä.
Kuljettajan Aliverkon Identification
palveluksessa Netwalker algoritmi [9] Kuljettajan aliverkon tunnistamiseen ( Kuva 1A ja taulukossa S2 File S1). Koska integroitu signalointi verkkoon ja aloittaa todennäköisyydet kullekin solmulle määritetty perustuen genomi- vaihtelu tila, käytetty algoritmi random walk uudelleenkäynnistyksen tekniikka [24] laskea lopullisen prioriteetti pisteet kullekin solmulle, joka perustuu vakaan tilan todennäköisyydet. Olemme perustaneet alun todennäköisyydet kaikille 3078 geenien perustuu niiden somaattinen mutaatio ja CNV tiedot kustakin alatyypin erikseen. Kuten kuviossa 1B, me lasketaan kaksi binary matriiseja perustuen somaattinen mutaatio data (1 ei-hiljainen mutaatio, 0 muille) ja CNV data (1 geenien voitot tai tappiot alueille suhde ≥1.2 tai ≤0.8, 0 muille) kunkin alatyypin erikseen.
Voit antaa suurempi paino perimän muutoksia havaittiin näytteissä, joissa on vähemmän kokonaismäärä muutoksia ja muutoksia havaittiin useita näytteitä, suoritimme sarakkeittain normalisoinnin seurasi riveittäin yhteenvetoa kunkin binary matriisi, ja siten transformoitiin kukin matriisi vektoriin. Jotta alatyyppi, nyt kuvaamaan
n
kuin koko joukko geenejä ja
m
kuin näytteiden kokonaismäärä. Somaattinen mutaatio asema geenin
i
määritellään seuraavasti:
, missä on arvo geeni
i
näytteessä
j
somaattisten mutaatio matriisi. Samoin CNV asema geenin
i
määritellään seuraavasti:, jossa on arvo geeni
i
näytteessä
j
on CNV matriisissa. Seuraava ja kunkin geenin yhdistettiin yhdessä samalla painolla. Aloita todennäköisyys geenien
i
() on siis määritelty:
Netwalker algoritmi, uudelleenkäynnistyksen todennäköisyys oli asetettu 0,5 ja lähentymistä määritettiin, missä on todennäköisyys geenien
i
klo
t
th iterointia.
arvioimiseksi tilastollisen merkityksen pisteiden kunkin geenin, rakensimme 1000 erilaista satunnaisesti permutoitua alku todennäköisyydet ja tuotetaan 1000 sarjaa satunnainen tulokset. Kunkin geenin verkossa, paikallinen
p
arvon arvioitiin vertaamalla todellisia pisteet satunnainen tulokset samasta geenistä, ja globaali
p
arvon arvioitiin vertaamalla todellisia pisteet satunnainen pisteiden kaikkien geenien [9]. Merkittävä maailmanlaajuinen
p
arvo osoittaa yleistä merkitystä solmun osalta tulo aloittaa todennäköisyydet, kun taas merkittävä paikallinen
p
arvo takaa, että merkitystä ei yksinkertaisesti johtuu verkkoon. Kunkin alatyyppi, suurin liitetyn laitteen muodostaman merkittävien geenien (paikallinen
p
0,05 ja globaali
p
0,05) ilmoitettiin kuljettaja aliverkkoon.
Survival Analysis
Standard Kaplan-Meier selviytymisen dikäyrät CRC alaryhmiä, ja selviytyminen eroa ryhmien välillä arvioitiin tilastollisesti käyttämällä log-rank-testi. Yksiulotteista ja monimuuttuja Coxin suhteellinen vaara Regressioanalyysistä käytettiin arvioimaan potentiaalisen riippumattoman ennustetekijöiden liittyy selviytymisen. Kaikki nämä analyysit suoritettiin käyttäen selviytymistä paketin R.
GO ja Kegg Väylät rikastus Analysis
GO ja Kegg polku rikastamiseen analyysit suoritettiin käyttäen WebGestalt, jossa Hypergeometrinen testiä käytettiin rikastamiseen analyysi ja Benjamini-Hochberg menettelyä käytettiin ohjaamaan False Discovery Rate (FDR) [25].
Verkko visualisointi
verkot visualisoitiin käyttäen Cytoscape [26].
tulokset
tunnistaminen Kolme transkription alatyypit CRC
Käytimme vakiintunut menetelmä, konsensus Clustering [19], että luotettava tunnistaminen transkription alatyyppejä [12], [27]. Yleensä geenejä korkean ilme varianssi poikki näytteen kohortti valitaan klusterin näytteitä [28]. Tämä geeni valinta menetelmä ei pysty erottamaan biologisen varianssi teknisistä varianssi. Koska dysregulaatio keskeinen signalointireitin johtaa yleensä koordinoitua ilmentyminen muuttuu loppupään geenejä, ryhmät geenien koekspressoi poikki näytteen kohortti (ts koekspressoimalla moduuleja) voi paremmin taustalla biologista varianssi. Siksi meidän ensimmäinen rakennettiin geenin ilmentäminen rinnakkain verkkoon ja tunnistettu 33 koekspressoimalla moduulit, joissa on yhteensä 1472 ainutlaatuisia geenejä löytö kohortin kanssa 1173 CRC näytteet (taulukko S1 File S1). Sitten suoritimme konsensus klustereiden avulla geenejä näistä moduuleista, arvioidaan klusterin merkitys ja tunnistaa kairausnäytteitä kunkin klusterin kuten aiemmin on kuvattu [12].
Mukaan yksimielisyys matriisit ja empiirinen kertymäfunktio (CDF) tontteja kuvissa S3A ja S3B File S2 klusterointi vakaus lisääntyi huomattavasti 2 klustereita 3 klusterit kun taas mitään selvää kasvua havaittiin yli 3 klustereita, mikä viittaa siihen, että 1173 CRC näytteet voitaisiin voimakkaasti jakaa kolmeen ryhmään. Arvioimme lisäksi klusterin merkitys käyttäen SigClust [21] ja vahvistettiin tilastollisesti merkitsevä kaikkien kolmen klustereiden (Kuva S3C File S2). Seuraavat Verhaak et ai. [12], määrittelimme ”kairausnäytteitä” jokaiselle alatyypin kuin ne, joilla on suurempi samankaltaisuus omaan luokkaan kuin mihin tahansa muihin luokkiin ja tunnistettu 985 erillistä näytettä perustuen niiden positiivinen siluetti leveys [22] (Kuva S3D File S2).
Seuraavaksi käytimme PAM rakentamaan luokittelija edellä määritellyn alatyyppejä. Kutistuminen PAM automaattista geenin valinta ja voi mahdollisesti tehdä luokittelija tarkempi vähentämällä vaikutuksesta meluisa geenejä. Pienin keskimääräinen ristivalidointi virhe 0,5% saavutettiin käyttämällä kaikkia 1472 geenit perustuen 100 kertaa 10-kertainen cross validointi, mikä viittaa siihen, että meluisa geenit ehkä jo poistettu meidän koekspressoimalla moduulipohjainen geenin valintamenettelyä. Rento virhemäärä vaatimus, PAM pystyi edelleen vähentää geenien luokittelija. Esimerkiksi kun virhemäärä kasvoi 9%, luokitin, jossa 853 geenien ilmoitettiin. Luokitteluosuudet alentunut geenin numerot ovat yleensä edullisia luokitustehtävissä; kuitenkin, koska tärkeä tavoite tässä tutkimuksessa oli ymmärtää biologian taustalla eri alatyyppejä, valitsimme 1472-geeni luokittelija helpottaa myöhempää GO rikastamiseen analyysi.
Käyttäen kuvattua menetelmää Materiaalit ja menetelmät, löysimme 449 allekirjoitus geenit alatyypin 1 (punainen palkki kuvassa 2, on 402 geenejä säädellään ylöspäin ja 47 geenien alassäädetty), 505 allekirjoitusta geenit alatyypin 2 (vihreä palkki kuvassa 2, jossa on 500 geenejä säädellään ylöspäin ja 5 geenien alaspäin säännelty) ja 512 allekirjoitus geenien alatyypin 3 (sininen palkki kuvassa 2, jossa on 480 geenejä säädellään ylöspäin ja 32 geenien alassäädetty, taulukko S3 File S3). Lisäksi kuusi geeniä, jota ei voida määritellä allekirjoituksen geenit perustuvat kriteereihin leimattiin musta palkki kuvassa 2 (yläosassa lämpö kartta).
(A) käyttäminen 1472 valitun geenin, 985 kairausnäytteitä löytö kohortin koottiin kolmeen alatyyppiin. Jokaisen alatyyppi, näytteet ja allekirjoitus geenit leimattiin samaa väriä (punainen palkki alatyyppi 1, vihreä palkki alatyyppi 2 ja sininen palkki alatyyppi 3). Biologiset prosessit rikastettu allekirjoitus geenejä kunkin alatyypin näkyvät vieressä väripalkit; (B) Käyttäen samaa tilaaminen allekirjoituksen geenien ja CRC alatyyppi (A), geeniekspressiomalli varten 485 CRC näytteet validointi kohortin näytettiin.
edelleen testata biologisen merkitystä allekirjoitus geenit, me laskenut pareittain toiminnallinen samankaltaisuus kaikkien geenien allekirjoitus perustuu GO biologisen prosessin huomautusta käyttäen Resnik semanttisen samanlaisuuden [18]. Kunkin allekirjoituksen, keskimääräinen pareittain toiminnallinen samankaltaisuus kaikissa allekirjoituksen geenit oli merkittävästi korkeampi kuin sama määrä geenejä satunnaisesti valittu 1472 geeneistä (p 0,001 alatyyppi 1, p = 0,018 alatyyppi 2, ja p = 0,001 alatyypin 3, permutation testi).
pieni ristivalidointi virhe PAM analyysissä, erottuva ilme kaavoja kunkin alatyypin kuvan 2, ja merkittävä toiminnallinen johdonmukaisuus allekirjoituksen geenien kunkin alatyypin ilmaisee että CRC alatyyppi luokitus on sekä tarkka ja hyvin tuettu erilaisia ekspressiomalleja toiminnallisesti liittyvän allekirjoituksen geenejä.
Jos haluat vertailla meidän koekspressoimalla moduuli perustuva lähestymistapa geenin valinta yhden geenin perustuva menetelmä, me toistuva edellä ryhmittely analyysi perustuu samaan joukko geenejä (1472), jolla on suurin mediaani absoluuttinen poikkeama koko 1173 näytettä. Verrattuna menetelmämme, yhden geenin perustuva menetelmä syntyy suurempi keskimääräinen ristivalidointi virhe PAM analyysi (2% vs. 0,5%). Lisäksi useimmat alatyypin erityisiä allekirjoituksia tuotettu yhden geenin perustuva menetelmä ei ollut merkittävää toiminnallista yhtenäisyyttä verrattuna satunnainen geeni luettelot samankokoisia.
validointi kolmesta CRC alatyypit riippumaton kohortti
validoimiseksi CRC alatyypeistä löysi yllä, me koottu riippumaton geenien ilmentyminen aineisto 485 CRC näytteitä kuudesta lisäresursseja (taulukko S1 File S1). Alatyypin etiketit validointi näytteitä ennustettiin käyttämällä edellä rakennettu PAM luokitin kanssa todennäköisyydet yksittäisten näytteiden annetaan taulukossa S4 File S3. Käyttämällä samaa tilaaminen geenien ja CRC alatyypeistä, joita käytettiin kuviossa 2A, geenien ilmentyminen varten 485 näytteiden validointi setti havainnollistettu kuviossa 2B. Visuaalinen vertailu Kuviot 2A ja 2B esitetään, että kolme alatyyppejä CRC yksilöityjen löytö Laitetta voidaan voimakkaasti uudelleen vuonna validointi aineisto.
Direction of Gene Expression Muutokset
alatyyppi tunnistamisen, olemme keskittyneet suhteellisen geeniekspression muutoksia kaikissa kasvainnäytteestä. Selventää edelleen ehdoton suuntaan geenin ilmentyminen muuttuu, vertasimme ilmentymistä allekirjoituksen geenien jokaisessa CRC alatyypin niiden ilmentyminen normaaleissa paksusuolen limakalvon näytteitä. Kuten kuviossa 3A ja taulukossa S5 File S1 yleensä allekirjoitus geenit alatyypin 1 oli säädellään ylöspäin alatyypin 1 mutta säädellä vähentävästi alatyypin 2 ja 3 verrattuna normaaliin. Allekirjoitus geenit alatyypin 2 selvästi säädellä vähentävästi alatyyppeihin 1 ja 3 verrattuna normaaliin, mutta alassäätöä oli heikompi alatyypin 2. Signature geenit alatyypin 3 oli säädelty kaikissa CRC näytteet verrattuna normaaliin, jossa vahvin ylössäätöä havaittu alatyypin 3 ja vain kohtalainen ylössäätöä havaittu alatyypin 2. Samanlaisia suuntaus oli verrattaessa TCGA näytteitä validointi kohortin kanssa 22 normaalin näytteitä TCGA.
(A) Expression of allekirjoitus geenejä kolmessa CRC alatyyppeihin verrattuna ilmentymisen normaaleissa näytteissä. Lämpö kartta perustui 1472 valittujen geenien ja geenien ilmentymisen aineisto GSE17536 177 ihmisen CRC näytteiden ja viisi normaalia limakalvonäytteistä. (B) välinen korrelaatio geeniekspressiomalli kolme CRC alatyyppiä ja ekspressiokuvion eri vaiheissa hiiren paksusuolen kehittäminen perustuu liittyvän ajan geenejä. Aikasarjat on merkitty vaaka-akselilla, kun taas Pearsonin korrelaatiokertoimet ovat merkitty pystyakselille (Points edustavat Pearsonin korrelaatiokertoimet, pylväät edustavat 95%: n luottamusväli). (C) ilmentymistä EMT allekirjoituksen geenien kolmessa CRC alatyyppeihin.
Ainutlaatuinen syöpäbiologian eri CRC Alatyypit
On ehdotettu, että CRC kasvaimen kehittymisen ja etenemisen esitetään yhteenveto sikiön kehityksen ja epiteelin mesenkymaalitransitioon (EMT) ohjelmat [29], [30]. Perehtyä biologisen merkityksen kolmesta CRC alatyyppiä, tutkimme geenien ilmentyminen kolmen alatyypin sisällä yhteyksissä normaalin paksusuolen kehittämisen ja EMT.
Ensin syntyy geeniekspressiovektoria aineisto (katso materiaalit ja menetelmät ) normaalin hiiren paksusuolen kehitys (E13.5-E18.5 ja aikuisten) ja määritellyt kehitykseen liittyviä geenejä kuin top1000 geenien kanssa suurin mediaani absoluuttinen poikkeama eri ajankohtina joukossa, joilla on korkea korrelaatio kehitykseen ajankohtina (absoluuttinen Spearman korrelaatiokerroin 0,9). Joka perustuu kehitykseen liittyviä geenejä, arvioimme korrelaatio ilmentymiskuviot eri CRC alatyyppejä ja eri kehitysvaiheissa ajankohtina. Erityisesti kunkin parin CRC-alatyypin ja kehityksen ajankohtana, laskimme Pearsonin korrelaatiokerroin alatyypin centroids kehittämisen liittyvien geenien ja ekspressiotasot samat geenit ajanhetkellä. Kuten kuviossa 3B, geeniekspressiomalleja alatyypin 3 (sininen viiva) olivat samanlaisia kuin alkuvaiheessa hiiren paksusuolen kehitys taas geeniekspressiomalli alatyypin 2 (vihreä linja) oli samanlainen kuin aikuisten paksusuolen. Johdonmukaisesti, GO rikastamiseen analyysi osoitti, että alatyyppi 3 allekirjoitusta merkittävästi rikastettu geenien leviämisen liittyvissä prosesseissa, kuten solukierron (FDR = 9,95 x 10
-24), DNA aineenvaihduntaa (FDR = 9,18 x 10
-12) ja mRNA aineenvaihduntaa (FDR = 2,63 x 10
-7) (kuva 2). On hyvin tunnettua, että varhainen alkionkehitys on ominaista nopea solun proliferaatio. Toisaalta, alatyypin 2 allekirjoituksen merkitsevästi rikastunut geenien eriytetty tarvittavat toiminnot kypsempi kehitysvaiheessa, kuten sileän lihaksen supistuminen (FDR = 7,00 x 10
-4) ja neurologisia järjestelmän prosessi (FDR = 1,56 x 10
-14). Nämä geenit ovat tukahdutettu eriytymättömissä alkion soluihin [31], joka oli samaa mieltä niiden lyhensi ilmaisun 3, mutta ei alatyypin 2 (kuvio 3A). Yhdessä nämä tulokset viittaavat siihen, että alatyyppi 3 kasvaimia uudelleen alussa paksusuolen kehityshäiriöitä geeniekspression ohjelmia, kun taas alatyypin 2 kasvaimia paremmin yllä geeniekspression ohjelmia normaalin aikuisen paksusuolessa.
Seuraavaksi tutkimme ekspressiokuviota aiemmin julkaistu EMT allekirjoitus [30] näihin kolmeen alalajiin. Allekirjoituksen peräisin microarray aineisto [30] vertaamalla solulinjoja osoittaen mesenkymaaliset kaltainen geeniekspressiomalli (korkea VIM ja alhainen CDH1) vs. solulinjoissa epiteelin kaltainen geeniekspressiomalli (alhainen VIM ja korkea CDH1). 149 geenit säädellään ylöspäin mesenkymaalisten kaltainen solulinjojen kanssa
p
-arvo 0,01
t
-testi käytettiin analyysimme. Nämä geenit oli paljon korkeampi ekspressiotaso in alatyypin 1 kasvaimissa verrattuna kahteen muuhun alatyyppeihin (kuvio 3C). GO rikastamiseen analyysi osoitti, että alatyyppi 1 allekirjoituksen rikastettiin geenien solujen vaeltamiseen (FDR = 2,0 × 10
-4) ja verisuonen morfogeneesiin (FDR = 7.49 x 10
-5), biologiset prosessit liittyvät läheisesti EMT [32], [33]. Siten EMT-ohjelma on ominaista alatyypin 1. Täydellinen GO termejä rikastettu alatyypin allekirjoituksia löytyy taulukosta S6 File S3.
Erilliset Kliiniset tulokset eri CRC Alatyypit