PLoS ONE: ToP A Trend-of-Taudista eteneminen menettely toimii hyvin tunnistaminen Cancer Geenit Multi-State kohortti Gene Expression Data for Human peräsuolen Cancer

tiivistelmä

Merkittävästi ilmaistuna geenejä uutettu microarray geenien ilmentyminen tiedot ovat osoittautuneet erittäin hyödyllistä tunnistaa geneettisten biomarkkerit sairauksia, kuten syöpää. Kuitenkin, jotka johtuvat liittyvän sairauden päätellä luettelosta differentiaalisesti ilmentyvien geenien on osoittautunut vähemmän kuin yksinkertaista. Vuonna järjestelmissä sairaus kuten syöpä, miten geenit ovat vuorovaikutuksessa toistensa kanssa pitäisi merkitystä yhtä paljon kuin geeni-ilmentymisen. Täällä uusi lähestymistapa, käytimme verkon ja taudin etenemisen ominaisuuksia yksittäisten geenien valtion erityinen geeni-geeni vuorovaikutuksen verkkoja (GGINs) valita syöpään geenejä ihmisen peräsuolen syöpä (CRC) ja saada paljon suurempi osumatarkkuus tunnetun syöpä geenit verrattuna menetelmiin ei perustu verkon teoriaan. Rakensimme GGINs yhdistämällä geenien ilmentyminen microarray tietoja useista valtioiden – terveisiin (Nor), adenooma (Ade), tulehduksellinen suolistosairaus (IBD) ja CRC – proteiini-proteiini-vuorovaikutuksen tietokantaan ja Gene ontologia. Me muokkausmerkintöjä verkossa astetta ja klusterointi kertoimia yksittäisten geenien GGINs kuin sairauden tila muuttui yhdestä toiseen. Näistä me päätellä valtion sekvenssit Nor-Ade-CRC ja Nor-IBD-CRC molemmat osoitti suuntaus (taudin) eteneminen (ToP) kohti CRC, ja laatineet ToP valintamenettelyä syövän geenien CRC. Niistä 141 valittujen ehdokkaiden avulla ToP, -50%: lla oli kirjallisuudessa tukea syöpä geenit, verrattuna osuma hinnat 20%: sta 30% standardimenetelmiä käyttämällä vain geenien ilmentyminen tietoja. Niistä 16 ehdokasta syövän geenien koodaama transkriptiotekijöitä, 13 tiedettiin olevan kasvaimia synnyttäviä ja kolme olivat uusia: CDK1, SNRPF, ja ILF2. Tunnistimme 13 141 ennustetun syövän geenien ehdokkaaksi markkereita varhaiseen havaitsemiseen CRC, 11 ja 2. Ade ja IBD toteaa, vastaavasti.

Citation: Chung FH, Lee HH-C, Lee HC (2013 ) ToP A Trend-of-Taudista eteneminen menettely toimii hyvin tunnistaminen Cancer Geenit Multi-State kohortti Gene Expression Data for Human peräsuolen syövän. PLoS ONE 8 (6): e65683. doi: 10,1371 /journal.pone.0065683

Editor: Frank Emmert-Streib, Belfastin yliopisto, Iso-Britannia

vastaanotettu: 04 joulukuu 2012; Hyväksytty: 26 huhtikuu 2013; Julkaistu: 14 kesäkuu 2013

Copyright: © 2013 Chung et al. Tämä on avoin pääsy artikkeli jaettu ehdoilla Creative Commons Nimeä lisenssi, joka sallii rajoittamattoman käytön, jakelun ja lisääntymiselle millä tahansa välineellä edellyttäen, että alkuperäinen kirjoittaja ja lähde hyvitetään.

Rahoitus: Tämä työ tukivat National Science neuvosto (ROC) myöntää NSC 100-2911-I-008-001 (varten Center for Dynaamiset Biomarkers ja Translational Medicine, National Central University) ja NSC 99-2911-I-008-100, ja Cathy General Hospital-National Central University Grant 99CGH-NCU-A3. Rahoittajat ollut mitään roolia tutkimuksen suunnittelu, tiedonkeruu ja analyysi, päätös julkaista tai valmistamista käsikirjoituksen.

Kilpailevat edut: Kirjoittajat ovat ilmoittaneet, etteivät ole kilpailevia intressejä ole.

Johdanto

peräsuolen syöpä (CRC) on neljänneksi suurin syy syövän kuolemaan maailmanlaajuisesti, mutta sijoitus korkeampi taloudellisesti kehittyneissä yhteiskunnissa. Kuten muiden syöpien, CRC on järjestelmien tauti, ilmeisen useita toiminnallisia häiriöitä kasvainsoluihin. Global geeniekspressioprofilointi käyttäen oligomeerisen DNA mikrosiruja on laajalti käytetty saada tietoa taustalla olevien mekanismien monimutkaisia ​​sairauksia, mukaan lukien CRC [1], [2]. Aiemmat tutkimukset geeniekspressioprofiilien antaneet erillisiä näkökulmia molekyylitasolla etiologiaa CRC [3] – [6]. Välinen päällekkäisyys julkaistu geeni allekirjoitukset eri tutkimukset CRC näyttivät olevan pieni. Varhain todettiin tunnistaminen erilaisesti ilmaisi geenien (DEGS) kahdessa kohortin näytteissä oli potentiaalisesti käyttökelpoinen lähestymistapa [7] – [9]. Piirustus päätellen pitkän listan DEGS on kuitenkin työlästä ja voi johtaa hyvin erilaisia ​​tuloksia [10]. Gene sarjaa analyysi, menetelmä perustuu

priori

biologiset tiedot, kuten Gene ontologia (GO) ja Kyoto Encyclopedia of Genes and Genomit (Kegg) moduuleihin, jotka ovat toiminnallisesti selityksin [10], osittain vastaa haasteeseen. Peruste tälle lähestymistavalle, joka ryhmät DEGS toiminnallisiksi subsets käyttäen GO tai Kegg (tai jotain vastaavaa), juontuu havainto, että useimmat geenit toimivat osana ryhmää sijaan yksittäin [11]. Koska samaa kohortin genomista profiilit tiedetään olevan hyvin heterogeeninen, valmiiksi ryhmitelty geenin sarjat eivät välttämättä kuvasta todellista ryhmittymä kohortin tutkittavana. Lisäksi suurin osa ihmisen geenejä ei ole vielä osoitettu selvä polku tai proteiinikompleksi [12].

Useita mahdollisia syitä CRC on paljastunut, mutta globaalissa varten dynaamisia ominaisuuksia syövän prosesseja jää epäselväksi. Proteiini-proteiini vuorovaikutusten (PPI) ovat olennaisia ​​biologisia prosesseja, ja proteiini-vuorovaikutuksen verkkoja (PIN) tarjoaa maailmanlaajuisesti vielä staattisen kuvan solumekanismeja solussa. Dynaaminen ominaisuudet PIN voidaan paljastanut integroimalla PPI data geeniekspressioprofiilien [13]. Geenit kanssa korreloi ekspressiotasoja yli erilaiset fysiologiset tilat tai yli yksilöiden kohortti on todennäköisesti osallisena samankaltaisia ​​toimintoja tai solun prosesseja. Esimerkiksi geenejä säätelee yhteinen transkriptiotekijä odotetaan olevan korreloi geeniekspressioiden. Geeni vuorovaikutusverkosto (GGIN) rakennettu yhdistämällä geenien ilmentyminen tietoja PPI data on tarkoitus vuorovaikutuksen kartan bio-molekyylejä, jotka osoittavat yhteistyötä sääntelyyn suhteita, koekspressoimalla yhdistysten loppupään fyysinen vuorovaikutus koodaamien proteiinien ”vuorovaikutuksessa” geenit , ja mahdollisesti muut suhteet geenien [14]. Monia menetelmiä, joissa käytetään esimerkiksi korrelaatiokertoimen [15], [16], keskinäinen tietoa [17], [18], simuloitu jäähdytys [19], ja reverse engineering lähestymistapoja [20], [21] on sovellettu uudelleen rakentaa GGINs laajamittaista geenien ilmentyminen tietoja malliorganismit lukien hiiva ja ihmisen. Useat tutkimukset osoittivat louhinnan dynaamisten ominaisuuksien kunto-erityisverkostojen integroimalla geeni koekspressoimalla kuvioita ja fyysinen proteiini vuorovaikutusten [13], [22], [23].

syövän ollessa järjestelmien tauti, systeeminen muutokset syöpäsolun aikana syövän etenemisen odotetaan mitattavasti ilmestynyt tapahtuvien muutosten GGINs rakennettu kerättyjä tietoja eri tiloissa taudin. Tärkeä syy syövän on sarjamuotoisesti kertynyt geenimutaatioita [24]. Viimeaikaiset järjestelmällinen seulonnat syövän genomien ovat paljastaneet merkittävän määrän toiminnallisesti heterogeeninen geenien tai napojen, jotka mutatoituneet Kolorektaalituumorien [25] – [27]. Koska napa geenit ovat tärkeitä funktio solun, on oletettu, että muutos tilan navan geenin oli suurempi todennäköisyys kuin keskimäärin geenin mikä keskeytymisen toiminnallisen muutoksen solussa. Näin ollen keskitin geenin normaalissa tilassa, joka tuli ei-napa-geenin pitäisi olla korkeampi todennäköisyys mikä on taudin liittyy menetys solujen toimintaa, kun taas päinvastainen voi heijastaa vahvistuksen solujen toiminnassa.

Tässä rakensimme GGINs neljän fysiologisessa – normaali (Nor), suolen kasvainten (Ade), tulehduksellinen suolistosairaus (IBD), ja CRC – integroimalla geenien ilmentyminen tietoja neljä vastaavaa sarjaa kohortin mikrosiruja Human Protein viitetietokantaan (HPRD ) [28]. Tietyssä tilassa, kaksi geeniä oletettiin ”vuorovaikutuksessa”, jos ekspression intensiteetit korreloivat voimakkaasti, ja jos koodaamien proteiinien pari tiedettiin vuorovaikutuksessa. Käyttämällä GGINs rakensimme, olemme kehittäneet ToP (trendi etenemisen) menettely, jolla geenejä, joiden astetta ja klustereiden kertoimet [29] vuonna GGINs muuttunut vaiheessa suuntaus etenemisen syövän, tai geenejä, jotka eivät ole keskuksista Nor verkko vaan tulla solmukohdissa CRC verkossa, valittiin mahdollisesti syöpää geenejä.

soveltanut toP menettely valtion sekvenssit Nor-Ade-CRC ja Nor-IBD-CRC ja valittujen geenien tilastollista merkittävyyttä (permutaatio testi

p

-arvo 0,001) oli samaa luokkaa kuin tavanomaisilla menetelmillä kuten eBayes ja SAM. Kuitenkin geenit valitaan ToP oli paljon suurempi osumatarkkuus (-50%,

p

-arvo 0,001) tunnettujen syövän geenien kuin osuma hinnat saadaan eBayes ja SAM (-20%,

p

-arvo ~ 0,5). Koska ToP analyysi perustuu tietoihin jono valtioita vaan käytti sitä myös tunnistamaan mahdolliset biomarkkereita varhaiseen diagnosointiin havaitsemiseen CRC klo Ade ja IBD valtiot.

Materiaalit ja menetelmät

näytteet ja mikrosirut

Data antamat Gyorffy ryhmä [30] annetun genominlaajuisten geeniekspressioprofiili kudosnäytteistä 53 ihmisen potilaita arvioitiin HG-U133 Plus 2.0 alustan mikrosiruja (Affymetrix, Santa Clara), joka lista 18267 geenit, jotka ladattu Gene Expression Omnibus (GEO) tietokannasta (GEO tulonumero. GSE4183). Taulukot tehtiin potilaiden kudoksista ryhmitelty neljään fysiologisessa jäädytettyjen paksusuolen koepala: 8 Nor, ja 15 kukin Ade, IBD, ja CRC, vastaavasti. Colon koepaloja otettiin aikana rutiini endoscopical intervention ennen hoitoa [31]. Tarkkuus microarray ilmaisun arvot todensi TaqMan RT-PCR-määritys [30]. Analyysit microarray data toteutetaan tässä työssä tehtiin R ympäristössä (versio 2.12.0).

Valinta Merkittävät DEGS

Merkittävästi ilmaistuna geenejä valittiin käyttäen merkitys Analyysi mikrosirujen algoritmin ( SAM) [9] ja yksisuuntainen varianssianalyysi (ANOVA) [32]. Tilastolliset kynnysarvot

p

-arvo Studentin

t

-testin ja taita muutos käytetyt SAM määritettiin käyttäen julkaistiin reaaliaikaisia ​​PCR tuloksia 84 geenejä [30] (kuva S1) . Käytimme kaksi tilaa, (1) kahden luokan parittoman tilan valitsemiseksi geenejä, joiden keskimääräinen ekspressiotaso oli merkitsevästi erilainen kahdessa ryhmässä näytteiden (analoginen välillä eikä

t

-testi) ja (2) multi luokan mode valita geenejä, joiden keskimääräinen ilme oli erilainen poikki joukko näytteitä suurempi kuin kaksi (analoginen yksisuuntainen ANOVA). Empiirinen Bayes tilastot (eBayes) käytettiin vaihtoehtona tilastollinen malli. Katsausta varten näiden algoritmien nähdä [33]. FDR [34] laskettiin käyttäen sekä Opiskelijan

t

-testaukset ja ANOVA testit käyttäen satunnainen permutaatio SAM kautta R paketti ”siggenes”.

rakentaminen GGIN

Protein -proteiini vuorovaikutus (PPI) tietoja 30047 proteiinia merkinnät ja 39194 vuorovaikutukset on ladattu HPRD [28] ja integroitiin valtion erityisiä microarray geenien ilmentyminen tietojen rakentaa GGINs, yksi kutakin tilaa. Tietyn tilan ja Pearson

p

-arvo (katso jäljempänä) kynnyksen

p

0, olemme mukana pari geenien GGIN jos: (1)

p

-arvon parin ei ollut suurempi kuin

p

0; (2) proteiini parin geenin koodaama pari on liitetty PPI data. Tietyn tilan ja joukko microarray data, Pearsonin korrelaatiokerrointa (PCC) kunkin geenin-parin laskettiin voimakkuudet poikki asetettu pari. Toisin sanoen, jos joukko

n

mikrosiruja käytetään laskenta, PCC on, että toisistaan ​​kaksi

n

intensiteettiä. Tilastollinen päättely perustuu PCC suoritettiin permutaatio testejä ja

t

-tilasto. Kutsumme

p

-arvo vastaa PPC Pearson

p

-arvo. Verkon ominaisuudet ovat

n

-riippuvaisella. Tulokset annetaan ovat 8-näytteen verkoissa. Jotta 8-näyte Nor, yksi verkko rakennettiin (kunkin

p

0). Kunkin kolmen muun 15-näytteen todetaan, 100 verkot rakennettiin, kukin kahdeksan näytettä asetetaan satunnaisesti valittu 15 näytettä. Käytämme vakio verkko terminologiaa. Sanomme solmu

i

kanssa asteen

k

i

on

k

i

naapureita. Klusterijärjestelyssä kerroin

C

solmun on suhde linkkien määrä

e

joukossa naapurit tutkinto

k

solmun useita mahdollisia tällaisten linkkien:

C

= 2

e Twitter /(

k

(

k

-1)) [29]. Kaavoista verkkojen tehtiin käyttämällä avoimen lähdekoodin alusta Cytoscape (versio 2.7.0) kautta ”reuna-painotettu kevät-embedded” layout toiminto. Oletusparametrejä arvoja käytettiin, paitsi että ”toistojen” kullekin solmulle nostettiin 200, ja ”vahvuus” muutettiin 1500 törmäysten välttämiseksi. Plug-in ”GOlorize” [35] käytettiin automaattisesti värin määräämiseen geeni solmut korostaa rikastettua geeni-ontologia termejä. Väri ja leveys reunan käytettiin ilmaisemaan merkki ja vahvuus korrelaatio, vastaavasti; punainen (sininen) positiiviselle (negatiivinen) korrelaatio.

Functional Sub-verkkojen ja FFN

Geenit kussakin valtion erityinen GGIN osoitettiin yliedustettuna biologisia toimintoja määriteltyjä GO aikavälillä yhdistys [36]. Rikastus analyysit perustuvat ehdolliseen hypergeometrisen testi [37] tehtiin käyttämällä R paketti GOstats [38] ladattavissa Bioconductor verkkosivuilla [39]. Perustuen funktionaalinen geeni asetetaan GGIIN pienennettiin FFN helpottaa silmämääräisesti.

ToP ja ToP + SAM (TPS) valintamenettelyt Cancer Gene Discovery

alkuun menettely (kuvio 1) sovelletaan sekvenssin Nor-X-CRC (X = Ade tai IBD, tapauksesta riippuen) koostui vaiheet: (1) Muodosta GGINs Nor, X, ja CRC käyttäen kynnysarvoa Pearson

p

– arvo 0,01. (2) Valitse geenin, jos: (a) se näkyy ainakin yksi GGIN; (B) sitä ainakin yhdellä GGIN täyttää asteen

D

4 ja klustereiden kerroin

C

0; (C) sen

D

ja

C

nousu pitkin jono (mutta ei rajoitusta on asetettu Nor-X pari). (3) muodostaa oman ryhmänsä ennustetun syövän geenien koodaavat avain transkriptiotekijöitä. TPS menettelyssä, ylimääräinen suodatus vaihe lisäsi: (4) Rajoita valitut geenit olla DEG (oikaistu

p

-arvot 0,05, taita muutos 1,5 tai 1 /1,5) at ainakin X vs. Nor tai CRC vs. Nor.

DEG, ilmentyvät eri geenistä; PPIN, proteiini-proteiini-vuorovaikutuksen kautta. Laatikot on oikealla olevassa sarakkeessa havainnollistaa, miten ennustetut tuumorigeenisen geeni Cdc6 täyttää ToP kriteerit: geeni-geeni vuorovaikutus alaverkon liittyy se kasvaa huomattavasti, koska valtio etenemistä normaalista kautta adenooma CRC.

osumatarkkuus for Cancer Genes

osumatarkkuus on määritelty suhteena valittujen geenien ne näyttivät annetaan syöpään liittyvien geenin

CancerGenes

[40] kokonaismäärään valittujen geenien ilmoitetaan prosentteina.

CancerGenes

luettelee asiantuntija-selityksin syöpään liittyvät geenit keskeisten julkisten tietokantojen lukien Cellmap.org (https://cancer.cellmap.org), Entrez Gene [41], ja Sanger CGC [42], ja syöpä arvostelut [24], [42] – [44]. Yhteensä 3165 geenit koottiin ja erilaisten lähteiden (esimerkiksi syöpä geeni, kasvain vaimennin, vakautta geeni,

jne.

) Olivat kaikki mukana osumatarkkuus laskenta. Koska Affymetrix HG-U133 Plus 2.0 array alustan luettelee 18267 geenejä ja

CancerGenes

luetellaan 3165 geenejä, satunnaisessa geenien antaisi osumatarkkuus lähes 20%.

satunnaistaminen

Me tehdään kahdenlaisia ​​satunnaistamiset. Type-1: Erikseen jokaista geeniä, muokkaamaan intensiteetit on koko joukko paneelit. Kussakin tapauksessa satunnaistamisen, yksi lakaista kaikki geenit tehtiin. Tämä prosessi säästää jakelun intensiteetit kustakin geenistä mutta tuhoaa intensiteetti korrelaatio geeniä paria. Tyyppi-2: satunnaisesti määrittää geenin pareittain kunkin linkin verkossa. Menettelyn konservoitunut useita linkkejä, mutta ei verkon topologian. Kussakin satunnaistamista, yksi lakaista kaikki linkit verkon suoritettiin. Tämä prosessi säästää useita linkkejä, mutta ei topologia, verkon. Yritimme kolmannen, tyypin 3, topologia säästävä satunnaistamista verkoissa, joissa topologiassa ei muutettu, mutta geenit satunnaistettiin verkon solmut. Tämä osoittautui ole totta satunnaistamista.

valinta Merkit varhaiseen diagnosointiin havaitseminen CRC

biomarkkerit varhaiseen toteamiseen, että Ade tila valittiin TPS geeniperimä varten Nor-Ade -CRC sekvenssi (katso Results) ne, joissa on viisi-kertaisesti tai enemmän kasvua (verkko) tutkinto eikä Ade ja ollessa DEG kanssa

p

-arvo 0,0001 in Ade vs. Nor. Vastaavasti biomarkkereita varhaiseen havaitsemiseen in IBD tilassa, jossa IBD korvaa Ade.

Tulokset

Merkittävät ilmentyvät eri Genes

kokonaissarja valittujen 2666 DEGS (FDR 0,001, Opiskelijan

t

-testi (SAM)

p

-arvo 0,05, taita muutos 1,5; kuva S1) oli liiton DEGS erikseen valitaan kolme valtion paria; ADE vs. NOR, 1652 geenejä; CRC vs. NOR, 1100 geenejä; IBD vs. NOR: 1629 geenejä. DEGS luokiteltiin mennä yhteentoista toiminnalliset modulit: DNA: n replikaatio, DNA korjaukseen, solusyklin, solujen lisääntymistä, RNA aineenvaihdunta, transkriptio, translaatio, apoptoosin, signaalitransduktion, immuunijärjestelmä, soluadheesiota (taulukko S1). Lämpöä kartta tuottama kaksisuuntainen valvomatta hierarkkinen klusterointi menetelmällä (kuva S2) esittää pirstoutuminen kahteen osaan CRC, mikä suhteellinen heterogeenisyys syöpänäytteissä. Kuitenkin mitään vaikeuksia talteen CRC erityisiä DEGS on havainnut.

Disease Verkot olivat suurempia ja monimutkaisempia, ja CRC Network oli Korkein Monimutkaisuus

Tulokset GGINs mainittu, 8-näytteen verkoissa. Oli yksi GGIN, mutta 100 GGINs kunkin tautitilojen rakennettiin (katso menetelmät). Määrä geenejä ja (geeni-geeni) linkit sekä lyheni Pearson

p

-arvo kynnys

p

0 [45] vuonna rakennettu GGINs (kuva 2), odotetusti . Sillä annetaan

p

0 sekä geenin ja linkkinumerot kasvoi etenemisen Nor ADE IBD /CRC. Gene numero IBD verkossa oli hieman suurempi kuin vuonna CRC, mutta linkki numeron CRC oli merkittävästi suurempi kuin IBD. Aste jakaumat neljän verkon tottelivat teho-lakeja. Mitä verkon monimutkaisuuden (taulukko 1), neljä verkot kuuluu kolme ryhmää, nousevassa järjestyksessä monimutkaisuus: Nor, Ade ja IBD, ja CRC. Kaikki neljä verkot koostuvat kytketty sub-verkkoja tai klustereita. Kolme tauti verkostoja jokainen hallitsee jättiläinen klusteri, joka sisältää (keskimäärin) 760, 971, ja 1388 geenit, sillä Ade, IBD, ja CRC, vastaavasti. Nor verkossa ei ole valtava klusterin; sen kaksi suurinta klustereita vastaavasti oli 219 ja 73 geenit.

määrä geenejä (A) ja geeni-parin vuorovaikutusten (B) tautikohtaisten verkkojen funktiona Pearson

p

-arvo kynnys,

p

0, että 8-näyte geeni-verkkoihin kuuluvien potilaiden neljän valtion tyyppiä: Nor, Ade, IBD, ja CRC. Non-Nor tulokset keskimäärin yli 100 satunnaisesti 8-näytejoukoille. Virhe palkit osoittavat standardipoikkeamat. Tähdellä edellä (alla) käyrät antavat

p

-arvot kahden näytteen Opiskelijan

t

-testin välillä CRC ja IBD (CRC ja Nor): *

p

– arvo 10

-4; **

p

-arvo 10

-8; ***

p

-arvo 10

-12; ****

p

-arvo 10

-16.

CRC Verkko oli Korkein Monimutkaisuus ja oli laadullisesti erilainen kuin IBD Network

prosenttiosuus napa kaltaisten geenien lisääntyi sairauden vaikeusasteen (kuva 3, katso kuva S3 yhdet GGINs). Esimerkiksi, alle 0,5%: n geenien Nor, mutta yli 10% CRC oli astetta korkeampi kuin 11; vain CRC oli merkittävä määrä geenejä kanssa astetta 16 tai enemmän; vain CRC oli kuin vähäinen osuus geenien kanssa astetta yli 16 samalla kun sillä korkein klustereiden kertoimen. Vaikka paljon suurempi, monimutkaisuus IBD verkon oli samanlainen kuin Ade. IBD oli enemmän geenejä astetta jopa 5 kuin CRC, mutta vähemmän korkea solmut ja paljon vähemmän solmuja korkean asteen ja suurten klustereiden kertoimet (kuva 3).

Genes aste 1 ei ole esitetty. Klusterointi kerroin geenin asteen 2 on joko 0 tai 1. Tähdet osoittavat

p

-arvot (Wilcoxonin rank sum testit) suhteessa Nor: *

p

-arvo 0,05 ; **

p

-arvo 0,01.

koot Gene Sarjaa Toiminnalliset moduulit FFNs Yleensä Lisääntynyt kanssa sairauden vaikeusasteen

FFNs vähenivät GGINs kautta DEGS osio mukaan GO termejä (kuvio 4; katso taulukko S2 GO rikastamiseen analyysiä varten toiminnalliset moduulit). Koot toiminnallisten moduulien FFNs yleensä lisääntyi sairauden vaikeusasteen (kuva S4). Suhteet Nor CRC ja Ade CRC järjestetään kaikille 11 funktioita ( ” ” symboli viittaa koot geenin määrä toiminnallisia moduuleja, jossa p-arvo on alle 10

-4). Suhde Nor Ade CRC pidettiin 10 11 funktioita (immuunijärjestelmän toimintaan oli poikkeus), jossa suuntaus on erityisen vahva RNA aineenvaihduntaa, transkriptio, DNA korjaukseen, DNA: n replikaatiota, ja solusyklin. Vertailun vuoksi suhteessa Nor IBD järjestetään vain kuusi toiminnot: käännös, soluadheesio, solun proliferaation, immuunijärjestelmän, signaalitransduktiota ja apoptoosin. Suhde Nor Ade IBD ei pidä hyvää tilastollista tukea mitään toimintoja.

Solmut ovat toiminnallisia moduuleja nimetty Gene ontologia termejä. Toiminnalliset moduulit, jotka sisältävät vähemmän kuin 70 geenien ei ole esitetty. Halkaisija moduulin asteikkojen logaritmi geenien moduulin. Värisävy moduulin osoittaa, kuinka monta sisäisen moduulin geeni-geeni vuorovaikutuksia per geeni. Paksuus reuna ilmaisee useita toisiinsa moduulin geeni-geeni vuorovaikutuksia.

Ade-CRC Pair oli merkittävästi suurempi Inter-FFN Prosenttiosuus risteyksiä Functional Link Sarjaa

Jokaista funktion FFN lista in-toiminto linkkejä, nimittäin vuorovaikutusta kahden geenien toiminnallinen moduuli, on rakennettu, ja prosenttiosuus, Inter-FFN risteyksiä linkin sarjaa laskettiin (kuvio 5). ADE-CRC leikkauspiste erottui Peränpitäjänä suhteessa muihin viiteen risteyksiä. Lähes kaikki toiminnalliset modulit viisi risteyksiä olivat tiiviisti nippuna arvoissa tyypillisesti puolet koko vastaavien Ade-CRC risteyksiä. Suhteessa muihin viiteen risteyksiä ADE-CRC risteyksiä oli

p

-arvot 10

-2 kaikissa paitsi yhdessä toiminnot (soluadheesiota), ja 10

– 3 seitsemässä toiminnot (kuva 5). Samanlainen kohtelu Ade-IBD risteyksiä todettiin, että kaikki toiminnot oli

p

-arvot lähellä ykköstä. Suhteellisen suuri päällekkäisyys ° settejä Ade ja CRC on todettu, ennen kuin [46] – [48].

0 Tietyn toiminnallisen moduulin, prosenttiosuus päällekkäisyyttä ilmaistaan ​​suhde on useita linkkejä ( kuuluvalle moduuli) yhteiset kahden verkon linkkien määrä on pienempi kumppani. Tähdet osoittavat

p

-arvot yhdestä näytteen Opiskelijan

t

-testin on Ade-CRC risteys verrattuna muihin viisi risteyksiä sillä *, ** ja ***,

p

-arvo 10

-2, 10

-3, ja 10

-4, vastaavasti.

Esimerkkejä ToP Genes

ylhäältä geeni edellytettävä, että sen verkkoyhteyden ja monimutkaisuus kasvoi huomattavasti pitkin tilaan järjestyksessä. Neljä esimerkkiä sellaisista geeneistä, jotka koodaavat transkriptiotekijöiden (TF: t) olivat kolme geeniä ILF2, CDK1, ja SNRPF, kuratoiman päässä sekä Ade- ja IBD-sekvenssit, ja MCM10, yksinomaan IBD-sekvenssin (kuvio 6). Kussakin tapauksessa ennustettu geeni oli pieni asteen solmun suhteellisen pieni Nor-verkon, tuli kohtalainen napa on huomattavasti kasvanut Ade tai IBD-verkon (tai molemmat, kuten tapauksesta riippuen), ja lopuksi super-solmukohta suuria ja monimutkaisia ​​CRC verkon.

Osittainen verkot, joihin neljä toP geenit ILF2 (ylhäällä vasemmalla), CDK1 (alhaalla vasemmalla), SNRPF (ylhäällä oikealla), ja MCM10 (alhaalla oikealla) erikseen kuuluvat Nor, Ade IBD ja CRC verkoissa. Kussakin tapauksessa koko moduulin liitetty alkuun geenin kasvaa pitkin tilasekvenssin Nor-Ade-CRC tai Nor-IBD-CRC, tai molemmat. Solmukohtien trim värikoodi: yli-ilmentyminen, punainen; alle-ilme, sininen; neutraali, musta. Solmukohtien värikoodi GO toiminnot: solusyklin, vihreä; Silmukointi, violetti; DNA korjaus, ruskea; chromatin remodeling ja histonimodifikaation, keltainen.

Discovery of Cancer Genes käyttäen Top Menettelytavat

alkuun menettelyä sovellettiin Nor-Ade-CRC (tai yksinkertaisesti Ade) ja Nor -IBD-CRC (tai IBD) sekvenssit valita syöpää geenejä, mikä tuotti luettelot 389 ja 381 geenit, vastaavasti, jossa 373 geenit esiintyvät molemmissa luetteloissa (taulukko S3, kuva S5a). TPS Menettely tuotti 134 ja 74 geenit Ade ja IBD sekvenssit, vastaavasti, 67 yhteinen molemmille luetteloihin (taulukko S4, kuva S5B). Vertailun Top valita vain 7 ja 4-geenien, vastaavasti, CRC-Ade-Nor ja CRC-IBD-Nor-sekvenssit, ja TPS vähensi asetetaan nollaksi sarjaa (tuloksia ei ole esitetty), mikä vahvistaa kaksi sekvenssiä ei esiintynyt kehityssuunnan kohti sairaustilasta. Soveltaminen eBayes ja SAM kynnyksiin

p

-arvo 0,05 ja absoluuttinen kertamuutosta 1,5 tuotti DEG luettelot 2648 ja 2666 geenejä, tässä järjestyksessä. Kun taas kukin vaiheita ToP menettelyssä oli merkittävä vaikutus vähentää altaan kandidaattigeenien, alkuun geeni vaatimus oli tärkein rajoittava tekijä. Sillä Ade järjestyksessä vaatimuksen, että geenit koodaavat proteiineja listattu HPRD vähensi ehdokkaiden määrä 18267 ja 9122; että se kuului johonkin asiaan GGINs, että 3556; että se oli ToP geeni, 389; että se oli DEG SAM, jotta 134. IBD sekvenssin kaksi ensimmäistä vähennykset olivat samat, ja vastaavat kolme viimeistä numeroa ovat 3074, 381, ja 74 (kuvio S6).

Permutation Tests

p

-arvot varten permutaatio testit satunnaistamisen kaikkien valittujen geenit luettelot olivat 0,001 (kuvio 7A). Numerot (keskihajonta suluissa) sekä eBayes ja SAM DEGS 1000 tyypin 1 satunnaistamiset (katso menetelmät) oli 228,81 (13,93) ja 255,31 (25,57), vastaavasti (kuva S7A-B). Koska satunnaistamista tuhosi intensiteetti korrelaatio geenien, 1000 satunnaistamiset tuotti vain 0,42 (1,2) geenien (kuvio S7C), minkä verkon rakentamisen mahdottomaksi. Parhaalle menettely geeni-intensiteetti liittyvät sovellettiin tyypin-1 satunnaistamista ja geeni-link liittyvät, tyyppiin-2 (katso menetelmät). Vuonna 1000 satunnaistamiset numerot geenien valitsemien ToP ja TPS varten Ade sekvenssi oli 29,09 (keskihajonta 8,18) ja 8,31 (3,36), vastaavasti (kuva S8A-B); vastaava luku IBD sekvenssi oli 28,01 (8,15) ja 6,58 (2,91) (kuvio S8C-D).

Satunnaistamismenettelyt testit ovat tyypin 1 eBayes ja SAM, ja tyypin 2 huippu ja ToP + SAM (katso menetelmät). (A) määrä geenejä valittuna. (B) Prosenttia luetelluista geeneistä

CancerGenes

[40] tietokantaan joukossa valittu (A). ***,

p

-arvo 0,001 permutaatio testin satunnaistamista **,

p

-arvo 0,01; *,

p

-arvo 0,05.

Hit hinnat tunnettujen Cancer Genes

Jakelu osuma hinnat tunnettujen syöpään liittyvien geenien geenien valittu 1000 satunnaistamisen tavanomaisilla menetelmillä (eBayes ja SAM; kuva S7D-E) ja ToP perustuvat menetelmät (Ade-ToP, Ade-TPS, IBD-ToP, ja IBD-TPS, kuvio S8E-H) on kaikilla keskiarvot 19% -23 % välillä, odotettu arvo ottaen huomioon 3165 syöpään liittyvät geenit joukossa 18267 geenit HG-U133 Plus 2.0 array. Osuma hinnat todellinen tapauksista (permutaatio testi

p

-arvo satunnaistamalla suluissa) olivat 23% (0,422), 22% (0,547), 47% ( 0,001), 50% (0,008) , 51% (0,008), ja 54% ( 0,001), (kuvio 7B). Vertailun vuoksi keskimääräinen osumatarkkuus valittujen geenien kaikissa satunnaistamista testeissä oli -20% (kuvio S8). Osuma hinnat alkuun 134 geenit eBayes ja SAM olivat 27% ja 33%, vastaavasti (kuvio 8). Yhdistetty Ade ja IBD TPS lista oli 141 ennusti syöpä geenejä, joista 67 oli yksinomaan Ade, 67 olivat yhteisiä Ade ja IBD, ja 7 tuli yksinomaan IBD (taulukko S3). GO rikastamiseen analyysi osoitti, että GO termejä ydin- onteloon, solusyklin ja nukleosidi sitoutuminen olivat rikastettu, joissa 51%, 33% ja 34%, vastaavasti, geenien (taulukko 2). Kuusikymmentä-seitsemän 141 geenien tiedettiin syövän geenejä, joista 27, 39, ja 1, vastaavasti, tuli Ade vain, olivat yhteisiä Ade ja IBD, ja tuli IBD vain (taulukko S4).

Non-kasvain TF tarkoittaa ei lueteltu

CancerGenes

. (EN) geeniperimä valitaan tilastollinen raja. (B) In top 134 geeniä geenin sarjaa. Numbers annettu edellä palkit osoittavat kokonaismäärän geenejä asetettu.

CRC Syöpä Geenit ja transkriptiotekijät

Neljäkymmentä kahdeksan 141 geenien oli raportoitu olevan CRC syöpägeenit , joista 15, 32 ja 1, vastaavasti, tuli Ade vain, olivat yhteisiä Ade ja IBD, ja IBD vain (taulukko 3). Prosenttiosuus transkriptiotekijä (TF) koodittava geenien joukossa valittujen geenien vaihdella riippuen käytetystä menetelmästä (kuvio 8A). Kun kyseessä on alkuun 134 geenien määrä TF-geenien vaihteli 10-17 (kuvio 8B). Niistä 141 TPS geenit, 16 oli transkriptiotekijä (TF) koodittava (taulukko 4), joista 12 oli lueteltu

CancerGenes

[40] ja 11, mukaan lukien 3 ei ole lueteltu

CancerGenes

, oli mainittu kirjallisuudessa CRC liittyvä (taulukko 3). PML, on lueteltu

CancerGenes

ja mainittu kirjallisuudessa CRC liittyvää, oli ainoa TF joukossa 16 TF: ille, joka tuli yksinomaan IBD sekvenssi; neljä TF: ien CEBPB: lle, E2F5, MYC, ja RUVBL1 olivat yhteisiä sekä Ade ja IBD-sekvenssit; loput 11 olivat yksinomaan Ade sekvenssistä (taulukko 4).

biomarkkerit varhaiseen diagnosointiin havaitseminen CRC

Niistä 141 ennustettu TPS syöpägeenit 13 tunnistettiin merkkiaineita varhainen diagnosointi CRC; 11 havaitsemiseksi, että Ade tilassa, joista 9 oli yksinomaan Ade sekvenssin ja 2 olivat yhteisiä sekä sekvenssit, ja 2, havaitsemiseksi in IBD tilassa ja myös yhteisiä molemmat sekvenssit (taulukko 5). Kussakin tapauksessa ehdokas joko ei ollut tai esiintyi yksittäisenä-link geenin (jäljempänä) Nor (verkko), mutta kukkaan yhdeksi, jossa on viisi tai enemmän linkkejä ja voimakkaasti ilmaistiin (

p

-arvo & lt 0,0001) in Ade tai IBD, kuten tapauksesta riippuen, ja eteni tulla merkittävä solmukohta CRC.

keskustelu

Useimmat havaittavissa siitä GGINs oli, että niiden koot ja monimutkaisuutta kasvoi taudin vakavuuteen (kuva 2) nousevassa järjestyksessä: Nor, Ade, IBD, ja CRC. IBD verkosto oli hieman enemmän geenejä, mutta huomattavasti vähemmän linkkejä kuin CRC.

Vastaa