PLoS ONE: Consensus Pathways Sekaantunut prognoosi peräsuolen syövän Tunnistetut tukee systemaattinen Enrichment analysointi geeniekspressioprofilointi Opiskelu

tiivistelmä

Background

Monet geenien ilmentymisen profilointi (GEP) tutkimukset ennusteeseen kolorektaalisyövän (CRC) on suoritettu, mutta ei luotettava geeniä allekirjoitusta ennustamiseksi CRC ennusteen on löydetty. Bioinformatiikan rikastamiseen työkalut ovat tehokas tapa tunnistaa biologisia prosesseja korkean suoritustehon tietojen analysointi.

Keskeiset havainnot

Olemme ensimmäistä kertaa kerätty tulokset 23 toistaiseksi julkaistu riippumaton GEP tutkimukset CRC ennusteeseen. Näissä 23 tutkimuksissa 1475 ainutlaatuinen, kartoitetaan geenit tunnistettiin, joista 124 (8,4%) on raportoitu ainakin kahdessa tutkimuksessa, jossa 54 heistä osoittaa koostuvat suuntaan ilmaisun muutoksen välillä yhden tutkimuksissa. Käyttämällä näitä tietoja, yritimme puutetta toistettavuus havaittu geenien raportoitu yksittäisissä GEP tutkimuksissa suorittamalla pathway -pohjainen rikastamiseen analyysi. Käytimme jopa kymmenen välineitä yliedustus analyysiä Gene ontologia (GO) luokkien tai Kyoto Encyclopedia of Genes and Genomit (Kegg) reittejä kunkin kolmen geenin luettelot (1475, 124 ja 54 geenit). Tämä strategia, joka perustuu testaus useita työkaluja, pystyimme tunnistamaan oksidatiivisen fosforylaation ketjun ja soluväliaineen reseptori vuorovaikutusluokan, sekä yleisen luokan liittyvät soluproliferaatioon ja apoptoosiin, ainoana merkittävästi ja johdonmukaisesti yliedustettuna reittejä kolmessa geenissä luettelot, joita raportoitiin useita rikastamiseen työkaluja.

Johtopäätökset

pathway -pohjainen rikastaminen analyysi 23 itsenäistä geeniekspressioprofilointi tutkimuksia ennustetta CRC tunnistettu merkittävästi ja johdonmukaisesti yliedustettuna ennustetekijöitä luokat CRC. Nämä yliedustettuina luokat ovat toiminnallisesti selvästi liittyvät syövän etenemiseen, ja ansaitsevat lisätutkimuksia.

Citation: Lascorz J, Chen B, Hemminki K, Försti A (2011) Consensus Pathways Sekaantunut prognoosi peräsuolen syövän Tunnistetut tukee systemaattinen Enrichment analysointi geeniekspressioprofilointi Studies. PLoS ONE 6 (4): e18867. doi: 10,1371 /journal.pone.0018867

Editor: Tšad Creighton, Baylor College of Medicine, Yhdysvallat

vastaanotettu: 01 joulukuu 2010; Hyväksytty: 15 maaliskuu 2011; Julkaistu: 25 huhtikuu 2011

Copyright: © 2011 Lascorz et al. Tämä on avoin pääsy artikkeli jaettu ehdoilla Creative Commons Nimeä lisenssi, joka sallii rajoittamattoman käytön, jakelun ja lisääntymiselle millä tahansa välineellä edellyttäen, että alkuperäinen kirjoittaja ja lähde hyvitetään.

Rahoitus: Tämä työ tukivat Saksan kansallinen Genome Research Network (NGFN-Plus) (01GS08181), Deutsche Krebshilfe (saksa Cancer AID) (107318), ja Euroopan unionin (EU) (TERVEYS-F4-2007-200767). Rahoittajat ollut mitään roolia tutkimuksen suunnittelu, tiedonkeruu ja analyysi, päätös julkaista tai valmistamista käsikirjoituksen.

Kilpailevat edut: Kirjoittajat ovat ilmoittaneet, etteivät ole kilpailevia intressejä ole.

Johdanto

peräsuolen syöpä (CRC) on kolmanneksi yleisin syöpä ja neljänneksi suurin syy syövän kuolemaan maailmanlaajuisesti, joiden käyttöikä riski Länsi-Euroopan ja Pohjois-Amerikan populaatiot noin 5% [1].

Monet geeniekspressioprofilointi (GEP) tutkimukset CRC on tehty viimeisen kymmenen vuoden aikana käyttäen sirutekniikkaa. Mukaan niiden mahdollisia kliinisiä sovelluksia, ne voidaan jakaa kolmeen ryhmään [2]: tutkimukset karsinogeneesin prosessiin, tutkimuksia ennusteeseen ennustamiseen, ja tutkimuksia hoitovastetta ennustamiseen. Ne osoittavat vain vähän päällekkäisyyttä tunnistettu geenejä, eikä luotettavaa allekirjoitusta käyttökelpoinen kliinisessä käytössä on todettu. Tällä hetkellä, International Union syöpää vastaan ​​(UICC) TNM luokittelu pahanlaatuisia kasvaimia perustuu kliinis pysähdyspaikan edelleen standardin CRC ennustus [3].

keskittyneet tutkimukset ennuste ennustus, jotka käsittävät heterogeeninen GEP tutkimuksissa. Niiden tarkoituksena on tunnistaa geeniekspressioprofiili erottamaan aggressiivisempia välillä vähemmän aggressiivisia CRC, joka perustuu eri ominaisuuksia, jotka liittyvät taudin etenemistä, kuten olemassaolon uusiutumisen läsnäolo etäpesäkkeitä, tai Eloonjääntitulokset. Tähän mennessä vain yksi meta-analyysi kymmenen GEP tutkimuksissa on raportoitu luettelon 13 geenien differentiaalisesti ilmaistut CRC hyvän ja huonon ennusteen, raportoinut vähintään kaksi riippumatonta tutkimusta [4].

Useita syitä ovat olleet ehdotettu selittää puute toistettavuus GEP tutkimuksissa CRC, kuten alimitoitettu tutkimuksissa ei ole validoitu tulosten eroja tutkimussuunnitelma ja tilastollisia sudenkuopat analysoinnissa microarray ilmaisun tiedot syövän tulos [3]. Muutokset biologisia ominaisuuksia tarvitsevat koordinoitua vaihtelua ilmentymistä geenin sarjaa, jotka säätelevät biologista aktiivisuutta, ja tämä tieto voi tuskin olla peräisin muutoksista ilmentyminen yksittäisten geenien kun päällekkäisyyksiä joukossa tutkimuksia on niin pieni [5]. Enrichment analyysityökalut, jotka arvioivat yliedustus erityisen geenin luokkia tai reittejä geenissä luettelossa, ovat lupaava strategia tunnistaa biologisia luokkiin osallinen tutkimuksen kohteena prosessissa [6].

Kattava analyysi käytettävissä bioinformatiikan rikastamiseen välineitä on äskettäin julkaistu [6]. Perustuen algoritmia käytetään, rikastamisen työkaluja voidaan luokitella kolmeen luokkaan: yksikkö rikastus analyysi (SEA tai luokka I); geeniperimä rikastus analyysiä (GSEA tai luokka II); ja modulaarinen rikastus analyysi (MEA tai luokka III). Kaikissa työkalut, panos luettelo geenien kartoitetaan biologisesti tietokantoihin, ja sitten tilastollinen analyysi tarkastelee rikastaminen geenin jäsentä kustakin merkinnän ehdoista ja korjaa useita testaus [6]. Käytimme useita SEA työkaluja saman tulon geenin luettelot, ja vain rikastettua luokat saatu useita työkaluja katsottiin osoittavan aitoa ennustuksen. Tämä strategia, joka perustuu testaus useita työkaluja, on suositeltavaa, jotta saadaan mahdollisimman tyydyttäviä tuloksia [7].

Gene ontologia (GO) [8] ja Kyoto Encyclopedia of Genes and Genomit (Kegg) [9] ovat kaksi tärkeintä merkintä tietokantoja kerätä biologista tietoa geenien, jotka tekevät niistä erittäin sopivia bioinformatiikan skannaus rikastamiseen analyysi [6]. Tällä hetkellä, GO on tietoa 18261 ihmisen geenituotteiden, kun taas Kegg kartat 373 eri reittejä. Tavoitteena oli tunnistaa toimintakategorioihin (GO termejä ja Kegg polkuja), jotka johdonmukaisesti yliedustettuna tilastollisesti merkittävällä tavalla luetteloon differentiaalisesti ilmentyvien geenien päätellä GEP tutkimuksista CRC ennusteeseen. Ensin kerätään tietoja 23 julkaistut riippumattomat GEP tutkimukset ennustetta CRC purkaa geenien raportoitu vähintään kaksi niistä, ja sitten nämä geenit käytettiin systemaattista rikastamiseen analyysin useiden riippumattomien SEA työkaluja. Näin me voitti puute toistettavuus havaittiin molemmissa geeneissä raportoitu yksittäisissä GEP tutkimuksissa ja yliedustettuna luokat ilmoittamien rikastamiseen analyysityökalut, ja voi tunnistaa johdonmukaisesti rikastettua luokkia.

Tulokset

Meta -analyysiohjelman on GEP tutkimusten

yhteensä 1897 eri geenin tunnisteet (ID: t) on raportoitu olevan ilmentyvät differentiaalisesti 23 itsenäistä GEP tutkimuksia ennustetta CRC (taulukko 1). Niistä, ainutkertaisten, kartoitettiin geenit oli 1475, joista 603 geenejä säädellään ylöspäin ja 794 säädellä vähentävästi huono ennuste näytteissä, kun taas 78 oli vastakkaiseen suuntaan ilmaisun muutoksen yksi- tutkimuksia. Vuodesta 1475 geenit, 124 geenit (8,4%) on raportoitu useammalla kuin yhdellä GEP tutkimuksessa (115 kahteen, ja yhdeksän kolmessa tutkimuksessa), 19 heistä (15,3%) oli säädellään ylöspäin huonon ennusteen näytteissä kahdessa tutkimuksessa, 35 alassäädetty (28,2%), ja 70, jossa on erottuvan suunnan ilmaisu muutos kahden tutkimuksessa. Siten 54 ulos 124 geenien (43,5%) ilmoitti samaan suuntaan geeniekspression muutokseen kahdessa eri GEP tutkimuksessa. Yhdeksästä geenit raportoitu kolmessa tutkimuksessa (ATP5C1, CA2, CYP51A1, FN1, HSP90AB1, IQGAP1, RPS5, SPP1, ja TXN), vain CYP51A1 ja SPP1 osoittivat samaan suuntaan ilmaisun muutoksia kaikissa kolmessa tutkimuksessa (taulukko S1). Kaikki nämä yhdeksän geenit sisällytettiin 54 geenin luettelosta. Ei ollut taipumusta geenien ilmoittamat kaksi tutkimusta keksiä useammin kahdesta GEP joissa tutkitaan saman ominaisuuden liittyvän sairauden ennusteeseen (olemassaolo toistuminen, läsnäolo etäpesäkkeitä tai eloonjääminen) kuin mistä tahansa kahdesta tutkimuksesta. Seitsemän tutkimukset tutkivat toistuminen raportoitu 541 ainutlaatuinen geenejä, joista 15 (2,8%) kahdessa tutkimuksessa. 13 tutkimukset liittyvät etäpesäkkeiden raportoitu 934 ainutlaatuinen geenejä, 50 heistä (5,3%) kahdessa tutkimuksessa. Lopuksi kaksi liittyviä tutkimuksia selviytymisen raportoitu 34 ainutlaatuinen geenejä, yksikään niistä yhteisiä molemmissa tutkimuksissa.

Katso taulukko S1 ja taulukko S2 on täydellinen luettelo geenien.

Enrichment analyysit

kolme geeniä luetteloita käytettiin rikastamiseen analysoi: kaikki 1475 geenit raportoitu 23 itsenäistä GEP tutkimuksissa 124 geenit raportoitu vähintään kaksi GEP tutkimuksessa (riippumatta Johdonmukaisen ilmaisun välinen muutos tutkimukset), ja 54 geenit raportoitu vähintään kaksi GEP tutkimukset johdonmukaisesti suunnan geenien ilmentyminen muutos näytteiden välillä huono ja hyvä ennuste. Kymmenen rikastamiseen työkaluja käytettiin saamiseksi merkittävästi yliedustettuna GO Biologinen prosessi, GO Molecular Function luokkia, ja Kegg väyliä (taulukot S3, S4, S5).

määrä ilmoitetaan rikastettua luokkien osoitti huomattavaa vaihtelevuutta eri välineiden (taulukko 2), vaikka sama merkitys kynnys (P-arvo 0,05 korjauksen jälkeen useiden testaus) ja analysointi olosuhteissa (koko genomin referenssinä tausta ja vähintään kaksi geeniä tulo luettelosta rikastetun luokka) soveltamista kaikissa analyyseissä . Saatu P-arvot rikastamista yhden GO tai Kegg aikavälillä usein vaihteli useita kertaluokkia eri työkalujen (taulukot S3, S4, S5). Yleensä työkalut GeneCodis [10] ja WebGestalt [11] raportoitu enemmän rikastettua luokkia kuin muut työkalut, ja monet rikastettua luokista on raportoitu vain GeneCodis (taulukot S3, S4, S5). GeneCodis luokitellaan myös huomattavasti pienempi määrä geenejä tulo luettelosta raportoitu rikastunut GO luokkia. Toisaalta, koontiprosessorille työkalun [12] raportoivat vähemmän rikastetun luokkiin kuin muut välineet (taulukko 2).

tunnistaminen johdonmukaisesti rikastetun luokkien

Huolimatta määrä vaihtelee of yliedustettuina luokat ilmoittamien eri rikastamiseen työkaluja, useita luokkia raportoi monet työkaluista. Välttämiseksi vääriä positiivisia, haimme kaksi tiukkoja valinta kynnysarvot ennen kuin pitää luokkaan johdonmukaisesti rikastunut. Ensinnäkin, vain luokat raportoitu rikastua useita työkaluja geenissä luetteloon valittiin (taulukko S6). Niistä vain luokat yhteistä ainakin kaksi kolmesta geenistä luettelot katsottiin johdonmukaisesti rikastettu. Käyttämällä näitä kahta valintakriteerit, kuusi yleinen GO Biologinen prosessi luokat (solujen lisääntymistä, positiivinen säätely biologisen prosessin, positiivinen säätely soluprosessin, apoptoosin säätelyyn, solujen jakautumisen, ja vastaus kemiallinen ärsyke), viisi GO Molecular Function ryhmiin ( vetyionien transmembraani- transporter toimintaa, epäorgaanisen kationin transmembraani- transporter toimintaa, yksiarvoinen epäorgaaninen kationi transmembraani- transporter aktiivisuutta, proteiineihin ja laskostumattoman proteiiniin sitoutumisen), ja seitsemän Kegg väyliä (soluväliaineen reseptorivuorovaikutuksessa, fokaalisen adheesion, Huntingtonin tauti, oksidatiivinen fosforylaatio, reittejä syöpä , Parkinsonin tauti, ja pienisoluinen keuhkosyöpä) on johdonmukaisesti yliedustettuna GEP tutkimuksissa ennustetta CRC (taulukko 3). Osuus ylä- ja alas geenien oli samanlainen kussakin johdonmukaisesti rikastetun GO ja Kegg luokkia, kuten 124-geenin listan (tuloksia ei ole esitetty). Suhde rikastus oli korkeammat tarkempia ja hyvin määritelty Kegg väyliä kuin laajat GO luokat (kuvio 1). Korkea päällekkäisyys yksittäisten geenien välillä 18 ryhmää havaittiin myös (taulukko 4). Tämän perusteella päällekkäisyyttä, kolme biologisesti mielekäs yksilökategoria ryhmiä saatiin lopulta:

Suuri joukko lukien kuusi yleistä GO Biologinen prosessi luokat (solujen lisääntymistä, positiivinen säätely biologisen prosessin, positiivinen säätely soluprosessin, sääntely apoptoosin, solujen jakautumisen, ja vastaus kemiallinen ärsyke), yhdessä kahden GO Molecular Function luokat proteiineihin sitoutumisen ja laskostumattoman proteiineihin. Kegg luokka reittejä syövän myös päällekkäisiä näiden GO luokkiin.

Kolme Kegg sellaisia ​​keinoja oksidatiivinen fosforylaatio, Huntingtonin taudin ja Parkinsonin taudin, sekä kolme GO Molecular Function luokat (vetyionien transmembraaninen transporter toimintaa, epäorgaanisen kationin transmembraani- transporter aktiivisuus, ja monovalenttinen epäorgaanisen kationin transmembraanisen kuljettajan toimintaa), jotka sisältävät viisikymmentäkuusi yli viisi yhteisiä geenejä.

kaksi Kegg sellaisia ​​keinoja soluväliaineen reseptorin vuorovaikutus ja fokaalisen adheesion, jossa kaikki kuusi geeniä näissä kahdessa Kegg ryhmiin sisältyvät myös suuri GO Molecular Function luokka proteiineihin.

suhde rikastaminen = sellaisten havaittujen jaettuna useissa odotettavissa geenejä kustakin GO tai Kegg luokan geenissä luetteloon (mukaan WebGestalt tai vaihtoehtoisesti DAVID tai GOTM työkalut). GO BP, Gene ontologia Biologinen prosessi; GO MF, Gene ontologia Molecular Function; Kegg, Kyoto Encyclopedia of Genes and Genomit.

rikastus analysoinnin Ingenuity ohjelmistoa vahvistivat saadut tulokset GO ja Kegg tietokantoja. Ainoa yliedustettuina kanoninen väylän 124 geenissä luettelo oli oksidatiivinen fosforylaatio (P

korjattu = 2,7 × 10

-2), kun tämä luokka oli kolmanneksi merkittävin polku (P

korjattu = 1,0 × 10

-5) keskuudessa 159 rikastettu kanoninen pääsyväylistä 1475 geeniperimä. Tulokset Bio funktioluokista olivat liian epäspesifisiä, koska suuri määrä rikastettua luokkien ilmoitettava kunkin kolmen geenin luettelot (61-77 rikastettu ehdot) (taulukko 2). Kuitenkin yleinen luokat solukuoleman, syövän ja solujen kasvun ja lisääntymisen olivat neljän parhaan rikastettu termejä kolmessa geenissä luettelot, jossa korjataan P-arvot välillä 10

-4 ja 10

-20 (tuloksia ei ole esitetty) .

rikastus analyysi kaikkien rikastamiseen työkalut suoritettiin myös yksilöllisesti neljä erillistä GEP tutkimusten raportointi yli 100 ainutlaatuista kartoitettu geeni [13] – [16] (taulukko S7). Vuodesta 18 GO /Kegg ehdot, yleinen GO luokat raportoitu vain joidenkin neljä erillistä GEP opetukseen, vaikka tarkempi Kegg väyliä näytti raportoitu useimmiten. Vuonna GEP tutkimuksessa Bertucci et al. [14] Lähes kaikki 18 luokat tuli ulos yliedustettuna geenin luettelosta.

Keskustelu

suuri määrä julkaistujen microarray tutkimuksia ennusteeseen CRC, osoittaa hyvin alhainen päällekkäisyyttä tulosten on tarjonnut mitään yleisesti hyväksyttyä geeniekspressioprofiili ennustamiseksi CRC ennustetta. Lisäksi ei genomin laajuinen yhdistys tutkimukset lopputuloksen CRC on julkaistu, mutta ovat nyt käynnissä [3]. Heterogeenisyys GEP tutkimuksen suunnittelu koskevat ominaisuudet liittyvät taudin etenemiseen tekee johdonmukaisen vertailun tulosten välillä yksittäisen tutkimuksissa hyvin vaikea [17]. Täällä raportoimme tuloksista lähestymistapamme, jossa käytimme suurin kokoelma GEP tutkimuksia CRC ennusteeseen toistaiseksi, ja ensimmäistä kertaa sovellettu ja verrataan useita rikastamiseen työkaluja puretut geenin luetteloihin. Tämä strategia pystyimme tunnistamaan oksidatiivisen fosforylaation ketjun ja soluväliaineen reseptori vuorovaikutusluokan, sekä yleisen luokan liittyvät soluproliferaatioon ja apoptoosiin, ainoana merkittävästi ja johdonmukaisesti yliedustettuna reittejä mukana CRC etenemiseen.

ensimmäisessä osassa tutkimuksen yritimme puutetta toistettavuus GEP tutkimuksissa CRC ennusteeseen valitsemalla geenit raportoitu yli yhdessä tutkimuksessa, joka yrittää vähentää vääriä positiivisia tuloksia. Kaikkiaan 1475 ainutlaatuista, selityksin geenit tunnistettu 23 itsenäistä GEP tutkimuksissa 124 geenit (8,4%) on raportoitu ainakin kahdessa tutkimuksessa, ja vain 9 niistä (0,6%) kolmessa tutkimuksessa, jotka antavat meille selkeän kuvan siitä, puute toistettavuus yksittäisen geenin tasolla. Tämä puute toistettavuus ei näytä johtuvan eri tutkittujen ominaisuuksien syöpään liittyvät ennusteeseen, koska osuus geenien raportoinut kaksi tutkimusta saman luokan (2,8% uusiutumisen, 5,3% etäpesäke tutkimuksissa ja 0% hengissä tutkimuksissa) oli jopa pienempi kuin kaikkien muiden tutkimusten yhdessä (8,4%). Yllättäen 70 Näistä 124 geeneistä (56,5%) osoitti vastakkaisia ​​suuntaan ilme muutos kahden yksittäisen tutkimuksessa, kun taas toinen 54 (43,5%) ilmaisu muutos oli samaan suuntaan, 19 säädelty (15,3%) ja 35 alassäädetty (28,2%). Osuus ylä- ja alas -regulated geenit oli suunnilleen sama myös kussakin johdonmukaisesti rikastetun GO ja Kegg luokkia. Epäjohdonmukaisuuksia suuntaan differentiaalisen ekspression voi johtua useista tekijöistä: ensimmäinen, suuri määrä vääriä positiivisia havaittu microarray geeniekspressiotutkimuksissa [18]; toiseksi, overgeneralization vertailujen meta-analyysejä, erityisesti liittyvät koeasetelma ja viitteellisesti ilmentämiseen; kolmanneksi, heterogeenisyys kudosnäytteistä käytettiin kussakin tutkimuksessa; ja neljänneksi, epätarkat tulokset heikon tutkimuksen suunnittelu [19]. Kuitenkin selkeä selitys näiden erojen puuttuu. Vain yksi edellinen meta-analyysi kymmenen GEP tutkimuksissa on raportoitu luettelon 13 geenien differentiaalisesti ilmaistut CRC hyvän ja huonon ennusteen, raportoinut vähintään kaksi riippumatonta tutkimusta [4]. Vertailu meidän tulokset osoittivat, että kahdeksan geenit ovat läsnä myös meidän 124 geenissä lista, jolla on sama suunta ilmaisun muutoksen (IGF2, IQGAP1, YWHAH, DEK, TP53, OAS1, WR, ja PDCD10), kolme niistä ( IGF2, TP53 ja WR), joka kuuluu ryhmään pääryhmään liittyvien solujen lisääntymisen ja apoptoosin. Muut viisi geenit raportoineet Cardoso et al. olivat itse asiassa ole läsnä toinen GEP mainittujen tutkimusten meta-analyysissä.

toinen osa analyysimme hyödynsi vapaasti käytettävissä rikastamiseen välineitä havaita, jotka GO luokkia tai Kegg väyliä merkittävästi yliedustettuna kolme geeniä sarjaa saatu 23 geenin ilmentymisen profilointi tutkimuksissa (1475, 124 tai 54 geenin lista). Täällä, yritimme voittaa tunnetun erot yliedustukseksi analyysitulokset käyttämällä jopa kymmenen eri yksikössä rikastus analyysi (SEA tai luokka I) rikastamiseen työkaluja. Valitsimme vain ne luokat, jotka raportoitiin olevan yliedustettuina useita työkaluja ja ainakin kaksi kolmesta geenistä luettelot johdonmukaisesti rikastettu luokkiin. Gene asettaa rikastus analyysityökaluja (GSEA tai luokka II) ei pidetty, koska ne vaativat tiivistää biologinen arvo (esim. Lauseke kertaluokkamuutos) kullekin geenien tulo, joka ei ollut saatavilla useimmissa tutkimuksissa. Äskettäin kehitetty modulaarinen rikastus analyysityökaluja (MEA tai luokka III) harkita ohjelmien väliset suhteet GO termejä, mutta ne vaativat suhteellisen suuria geeni tulo listojen biologisesti mielekäs analyysi [6], ja tämä ei ollut tutkimuksessamme.

rikastus työkaluja kärsivät useista rajoituksista, joita on kuvattu yksityiskohtaisesti muualla [6], [7], ja se on suositeltavaa testata useita työkaluja, vaikka niillä on samanlaisia ​​ominaisuuksia ja toimintoja [7]. Esimerkiksi, on havaittu, että samalla lähtötiedot, kymmenen erilaista ontologisia analyysiohjelmiin johti P-arvot vaihtelevat useita kertaluokkia noin GO termejä [7]; sama vaikutus havaittiin myös tutkimuksessa. Kegg väyliä edustavat suhteellisen hyvin määritelty tunnettuja biologisia polkuja, eikä entistä laaja GO luokkia. Käyttö koulutusjakson luokituksen työkaluja ei muutenkaan ole vailla ongelmia [20]. Tuore yliedustus analyysi väyliä genomin laajuinen yhdistys tutkimuksessa tiedot myös raportoitu eroja tuloksen välillä kolmessa reitin rikastamiseen työkaluja käytimme (DAVID, koota ja WebGestalt) [20]. Tekijöitä, jotka voivat aiheuttaa tällaisia ​​eroja tuloksiin sisältyvät: lähteet ja versiot merkintätiedostoja; tilastollista mallia sovellettiin rikastamiseen analyysia; joukko viittaus geenejä, joiden P-arvot kullekin aikavälillä tulokset lasketaan; ja menetelmä korjauksen useille kokeiluja [21]. Meidän analyysi, koko genomin käytettiin viitteellisesti, ja merkitys kynnys korjatun P-arvo 0,05 käytettiin kaikissa analyyseissä. Tästä huolimatta yhdenmukaisuus käytetyissä olosuhteissa, myös havaittu huomattavaa vaihtelua määrä ilmoitetaan rikastunut luokkien ja P-arvot. Siten tämä vaihtelu voi johtua tilastollisen mallin haki rikastamiseen analyysin menetelmän korjauksen useille testaus, ja erot versiot GO ja Kegg tietolähteitä käytetään. Kuitenkin ja huolimatta tämä näennäinen vaihtelu, useimmat rikastetun luokkien raportoimat tiukempia välineitä sisällytettiin ne ilmoitetaan näiden työkalujen raportoinnin suuremman määrän kannalta, osoittavat hyödyllisyys tutkimuksemme strategiaa. Siten bioinformatiikan rikastamiseen työkalut ovat tehokas tapa tunnistaa biologisia prosesseja suurikapasiteettisten data-analyysi, mutta valinta rikastetun luokkiin perustuu ainoastaan ​​yhteen rikastamiseen väline vaikuttaa melko mielivaltaisesti.

Lopulta soveltamisen tiukka valinta kriteerit, yhteensä 18 luokkaan (11 GO termejä ja seitsemän Kegg polkuja) pidettiin johdonmukaisesti yliedustettuna geenin luetteloissa poimittu 23 eri GEP tutkimuksia CRC ennusteeseen. Vuonna 124 geeniä listan, erittäin korkea päällekkäisyys geenien joukossa 18 luokat havaittiin, vähentämällä kategoriaa biologista merkitystä kolme selvästi erilaista ryhmää. Ensimmäinen, joka on hyvin yleinen ryhmä liittyy solujen lisääntymistä, apoptoosin ja proteiinin sitoutuminen, joka sisälsi suuri osa geenien kunkin kolmen geenin sarjaa. Toinen, ja mielenkiintoinen, oksidatiivisen fosforylaation ketju, mukaan lukien seitsemän geenit (ATP5C1, ATP6AP1, ATP6V1H, COX5B, COX6B1, NDUFA1, ja UQCRC1) (kuvio S1), joista viisi on jaettu Huntingtonin ja Parkinsonin taudin Kegg ryhmiin. Jo useita vuosikymmeniä sitten ehdotettiin, että heikentynyt oksidatiivista metaboliaa saattaa aiheuttaa pahanlaatuisten kasvainten [22]. Tämä oletus, joka tunnetaan nimellä Warburg hypoteesi, on löysivät laajan kokeellisen lähestymistavat osoittavat vuorovaikutuksen mitokondrioiden aineenvaihdunnan ja kasvaimen kasvua [23], [24]. Kun lisäksi ituradan mutaatioita mitokondrion sukkinaattidehydrogenaasi (kompleksi II oksidatiivisen fosforylaation ketju) alayksikköjen SDHD, SDHC, ja SDHB ovat usein syynä paragangliooma pään ja kaulan sekä feokromosytoomaa [25]. Myös Huntingtonin ja Parkinsonin taudin, muut kaksi rikastettua Kegg sellaisia ​​keinoja geenien kanssa oksidatiivisen fosforylaation ketjun, jotka liittyvät mitokondrioiden [26]. Kolmanneksi molemmat Kegg termejä soluväliaineen reseptorivuorovaikutuksessa ja fokaalisen adheesion sisälsi neljä yhteistä geenejä (COL5A1, FN1, SPP1, ja TNXB) (kuva S2). Spesifisten vuorovaikutusten soluväliaineen molekyylien kontrolloida solun toimintoja, kuten tarttuvuus, erilaistumista, apoptoosia ja proliferaatiota [27]. Siten ja perustuvat toiminnallisiin luokkiin geenien, ne näyttävät lupaavilta tutkimuksiin, joiden tarkoituksena tutkia niiden mahdollista vaikutusta ennusteeseen CRC. Erityisesti niitä Kegg sellaisia ​​keinoja oksidatiivisen fosforylaation, soluväliaineen reseptorivuorovaikutuksessa ja polttovälin tarttuvuus saattaa tarjota uusia tavoitteita lääkekehityksessä. Kuusi 23 riippumattoman GEP tutkimuksia rikastuminen analyysi GO ja /tai Kegg luokat niiden luettelo eri tavalla ilmaistuna geenejä, kaikissa tapauksissa käyttää vain yhtä rikastamiseen työkalu. Vain GEP tutkimuksessa Jorissen et al. [16] ilmoitetaan kahden Kegg väyliä myös raportoitu meidän analyysi (ECM-reseptorin vuorovaikutus ja polttovälin tarttuvuus). Kun etsittiin yliedustettuna luokkien yksittäisissä GEP tutkimuksissa väliset selvät erot tutkimuksissa havaittiin. Vaikka ehdot erityisten Kegg sellaisia ​​keinoja oksidatiivisen fosforylaation ja soluväliaineen molekyylien raportoitu yleisesti, yleinen GO termejä raportoitu globaalissa lähestymistapaa tunnistettiin vain muutamia tutkimuksia. Nämä tulokset osoittavat, että lähestymistapamme yhdistää datan 23 yksittäisten GEP tutkimuksia paitsi pystyy tunnistamaan yhteisen reittejä ilmoittamat yksittäiset suuret tutkimuksissa, mutta se pystyy myös raportoimaan uusia johdonmukaisesti yliedustettuna reittejä, jotka voivat kadota pieniä tutkimuksia.

Johtopäätöksenä meidän pathway -pohjainen rikastaminen analyysi 23 itsenäistä geeniekspressioprofilointi tutkimuksia ennusteen CRC osoitti oksidatiivisen fosforylaation ketju, soluväliaineen reseptorivuorovaikutuksessa luokka, ja yleinen luokka liittyvät solujen lisääntymisen ja apoptoosin merkittävästi ja johdonmukaisesti yliedustettuna ennustetekijöitä luokat CRC. Nämä luokat ovat toiminnallisesti selvästi liittyvät syövän etenemiseen, ja ansaitsevat lisätutkimuksia. Olisi erityisen kiinnostavaa, jos tulevaisuudessa GEP tutkimuksissa käytetyt suuret näytteessä ikäluokat voisivat vahvistaa tuloksemme ja tunnistaa nämä tuoteryhmät luokittelijoiden huonon ennusteen.

Materiaalit ja menetelmät

geeniekspressioprofilointi (GEP) tutkimukset

yhteensä 27 GEP tutkimusten ennustetta ennustamiseen CRC otettiin mukaan analyysiin (taulukko 1): 16 GEP tutkimuksissa nimetty kahdessa äskettäin arviot [2], [3], kolme lisätutkimuksia sisältyy meta-analyysin [4], ja kahdeksan muuta Viimeaikaisissa tutkimuksissa (PubMed haku tammikuusta 2009 maaliskuuhun 2010) ei sisälly edellisessä arvostelut /meta-analyysi. Neljä 27 tutkimuksissa käytettiin osittain päällekkäisiä näytteitä [28] – [31], ja toisessa tutkimuksessa [32] oli itse asiassa jatkoa aiemmalle yhden [33], vähentää kokonaismäärä riippumattomia tutkimuksia 23. Mukaan tutkittu ominaisuus liittyvät taudin etenemiseen, seitsemän tutkimukset perustuivat olemassaolon toistumista, kolmetoista läsnäolosta etäpesäkkeiden, kaksi Eloonjääntitulokset ja toinen yhdistelmä selviytymisen ja uusiutumisen tiedot. Koska heterogeenisen luonteen saatavilla tietoja, ei yritetty tehdä määrällisiä meta-analyysit.

Gene set kokoelma

On raportoitu, että tyypin geenin tunnisteen käytetään määrittelemään differentiaalisesti säännelty geenejä voi mahdollisesti vaikuttaa tuloksiin myöhemmän analyysin [21]. Käytimme virallista HUGO geeni tunnuksen johdonmukainen tunnisteena raportoitu geenejä. Jos geeni symboli ei raportoitu GEP tutkimuksessa käytimme seuraavia työkaluja muuntaa raportoitu tunnisteiden geeniin symboli: NetAffx alkaen Affymetrix (www.affymetrix.com), EntrezGene NCBI (www.ncbi.nlm.nih. gov /geeni /), ja Gene ID muuntaminen työkalu DAVID bioinformatiikan resursseja [34]. Monissa tapauksissa määrä geenin tunnisteiden (ID: t) on raportoitu, että GEP tutkimuksessa ei todellisuudessa vastaa selityksin geenejä, mutta koettimet ilmaisun array tai GenBankIDs. Kun lisäksi useissa tutkimuksissa laskettiin joitakin geenejä enemmän kuin kerran. Siksi nykyinen määrä selityksin geenejä lopulta käytettiin oli pienempi kuin yksi ilmoittama suurin osa GEP tutkimuksista (taulukko 1).

Gene luettelot

luettelot selityksin geenien raportoitu kunkin on 23 itsenäisen GEP tutkimukset ennustetta CRC mukana analyysissä yhdistettiin, jotta voidaan tunnistaa ne geenit raportoitu kahdessa tai useammassa tutkimuksessa. Kolme erilaista geeniä luettelot harkitaan myöhemmin rikastamiseen analyysi: kaikki ainutlaatuisia, selityksin geenit raportoitu (1475 geenejä) (taulukko S2); nämä geenit raportoitu vähintään kaksi GEP tutkimuksessa (124 geenit) (taulukko S1); ja niitä, jotka lisäksi osoitti samaan suuntaan geeniekspression muutokseen, joko ylös- tai alaspäin-asetuksen kahdessa GEP tutkimuksessa (54 geenejä) (taulukko S1).

rikastus analyysi

suoritettu rikastamiseen analyyseistä tietokantoja GO (biologisen prosessin ja Molecular Function) ja Kegg polkuja. Kaikkien rikastamiseen työkalut, tulo geeniperimä koostui 1475 geenin luettelossa, 124 geeniä luettelosta, tai 54-geenin luettelosta, vastaavasti.

Ten rikastus ohjelmistotyökaluja (katso URL-osoitteet) valittiin perustuen niiden luomiseen saatavuus , niiden usein ulkonäkö viime julkaisuissa ja niiden käyttäjäystävällinen sovellus. Oletus vaihtoehtoa sovellettiin kaikki työkalut, joiden merkitys kynnys 0,05 oikaistun P-arvo, ainakin kaksi geeniä tulo luettelosta rikastetun luokassa, ja koko genomista referenssinä tausta. Sillä KERÄTÄÄN suositeltu ln (Bayes kerroin) 6 käytettiin merkitys kynnys. Nerokkuus ohjelmisto käyttää omaa kaksi tietokantaa, Top Bio Function ja Top Canonical Pathways, jotka kuitenkin ovat verrattavissa GO ja Kegg tietokannat, vastaavasti, jota muut rikastamiseen työkaluja. Tärkeimmät tilastolliset ja useita testaus korjaus menetelmiä, joita jokaisen työkalun on esitetty taulukossa S8.

Tasaisen rikastettu luokkia

Vain GO tai Kegg luokkia raportoitu merkittävästi rikastaa useita rikastamiseen työkaluja geenin lista pidettiin johdonmukaisesti yliedustettuna. Yrittäessään valita vain kärkipään ryhmiin, otimme huomioon koko erot GO ja Kegg tuoteryhmät kuin erot ryhmien määrä ilmoitetaan jokaisen työkalun. Määrä työkaluja perustettiin kynnys oli, kunkin geenin lista ja GO tai Kegg tietokantoja, joka raportoi vähintään viisi yhteistä rikastetun luokat että useita työkaluja (taulukko S6). Sekä 54 ja 124 geeniä luettelosta, kynnys oli kolme rikastamiseen työkaluja GO biologisen prosessin ja Molecular Function, ja kaksi rikastamiseen työkaluja Kegg reittejä. Sillä 1475 geenin luettelosta, kynnys oli viisi rikastamiseen työkaluja GO biologisen prosessin ja Molecular Function, ja neljä rikastamiseen välineitä Kegg väyliä (taulukko S6). Koska kolme geeniä luettelot liittyvät (54 geeniä luettelo on sisällytetty 124 geenissä lista, joka on osa 1475-geenin lista), me lisäksi valittu luokista raportoitu rikastettu suuri 1475-geenin lista ja ainakin yksi

Vastaa