PLoS ONE: Functional liittyviä luokkia Klusterit geenejä, jotka ovat koekspressoi- poikki NCI-60 Cancer Cell Lines
tiivistelmä
Background
NCI-60 on paneelin 60 monipuolista ihmisen syövän solulinjoja käytettiin US National Cancer Institute seulomiseksi yhdisteiden syövän vastaista aktiivisuutta. Esillä olevassa tutkimuksessa, geeni-ilmentymisen tasoa viiden alustojen yhdistettiin, jolloin saatiin yksittäinen komposiitti transcriptome profiili. Kattava ja luotettava laatu, että aineisto avulla voimme tutkia geenin koekspressoimalla poikki syöpäsolulinjoja.
Menetelmät /Principal Havainnot
Hierarkkinen klusterointi paljasti lukuisia klustereita geenien, joissa geenit CO- vaihtelevat NCI-60. Sen määrittämiseksi toiminnallinen luokittelu liittyy kuhunkin klusterin, käytimme Gene ontologia (GO) konsortion tietokanta ja GoMiner työkalu. GO kartat geenejä hierarkkisesti järjestäytynyt biologinen prosessi ryhmiin. GoMiner voivat hyödyntää GO suorittaa ontologisia analyysejä geeniekspressiotutkimuksissa tuottamalla luettelon merkittävät toiminnalliset luokat.
Johtopäätökset /merkitys
GoMiner analyysi paljasti monet klustereita coregulated geenejä, jotka liittyvät toiminnallisten ryhmien of GO biologisen prosessin luokkia. Erityisesti näiden ryhmien johtuvat johdonmukaisen yhteistyön ilmaus ryhmittymien heijastavat syöpään liittyvien teemojen kuten pito, solujen vaeltamiseen, Silmukointi, immuunivastetta ja signaalitransduktion. Siten nämä klusterit osoittavat transkription yhteissääntelyssä toiminnallisesti liittyviä geenejä.
Citation: Zeeberg BR, Reinhold W, Snajder R, Thallinger GG, Weinstein JN, Kohn KW, et ai. (2012) Toiminnallinen liittyviä luokkia Klusterit geenejä, jotka ovat koekspressoi- poikki NCI-60 Cancer Cell Lines. PLoS ONE 7 (1): e30317. doi: 10,1371 /journal.pone.0030317
Editor: Ilja Ulasov, University of Chicago, Yhdysvallat
vastaanotettu: 17 kesäkuu 2011; Hyväksytty 15 joulukuuta 2011; Julkaistu: 24 tammikuu 2012
Tämä on avoin-yhteys artikkeli, vapaa kaikki tekijänoikeudet, ja saa vapaasti jäljentää, levittää, välittää, modifioitu, rakennettu, tai muuten käyttää kuka tahansa laillista tarkoitusta. Teos on saatavilla Creative Commons CC0 public domain omistautumista.
Rahoitus: Tämä tutkimus tukee Intramural tutkimusohjelma National Institutes of Health, National Cancer Institute, Center for Cancer Research, tutkimus- ja Itävallan tiede ja tutkimus, GEN-AU projekti bioinformatiikan Integration Network. Rahoittajat ollut mitään roolia tutkimuksen suunnittelu, tiedonkeruu ja analyysi, päätös julkaista tai valmistamista käsikirjoituksen.
Kilpailevat edut: Kirjoittajat ovat ilmoittaneet, etteivät ole kilpailevia intressejä ole.
Johdanto
NCI-60 on paneelin 60 ihmisen syöpäsolujen linjat, jotka on käyttänyt Developmental Therapeutics Program (DTP) US National Cancer Institute seuloa yhdisteitä plus luonnontuotteet vuodesta 1990 [1], [ ,,,0],2]. NCI-60 paneeli sisältää solulinjoja peräsuolen (CO), munuaisten (RE), munasarjojen (OV), eturauhasen (PR), keuhkoissa (LC), rinta (BR), ja keskushermoston (CNS) syöpä alkuperän sekä leukemiat (LE) ja melanoomien (ME). Me ja monet yhteistyökumppanit ympäri maailmaa ovat profiloitu NCI-60 kattavammin DNA-, RNA, proteiini, mutaatio, toimiva, ja farmakologinen tasolla kuin mikään muu soluryhmäl- olemassa [1], [2], [3] , [4], [5], [6]. NCI-60 tietoja on käytetty laajalti syöpätutkimuksessa ja bioinformatiikan, mutta useat aineistot voi olla kaikkein informatiivinen tunnustamista monimutkaisten ”biosignatures.” Tällaiset biosignatures voi puolestaan johtaa ymmärtämystä solun fenotyyppejä ja koulutusjakson suhteet solussa .
aiemmin kehittäneet GoMiner [7] ja suuren tuotantotehon GoMiner [8], sovelluksia, jotka järjestävät luettelot ”mielenkiintoinen” geenejä (esimerkiksi ali- ja yli-ilmentynyt geenien microarray kokeilu) biologisen tulkinta yhteydessä Gene ontologia [9], [10]. GoMiner ja siihen liittyvien työkalujen tyypillisesti tuottaa luettelon merkittävät toiminnalliset luokat. Lisäksi luetteloita ja taulukoita, suuren tuotantotehon GoMiner voi tarjota kahdenlaisia aihekokonaisuuksien kuvakarttoja (CIM) kuin graafista näyttöä. Integratiiviset
ryhmiin verrattuna kokeisiin
CIM kaapata suhteet luokkien välillä ja useiden kokeet; yksittäisiä
ryhmiin verrattuna geenejä
CIM kaapata suhteet luokkien välillä ja geenejä. Molemmat CIM käytetään esittää tulokset nykyisen työn.
Viime vuosikymmenen, systeemibiologian on yhä merkittävä, koska numerot analysoitavissa geenien ja biologiset parametrit ovat lisääntyneet, ja alkaa osoittaa heidän toiminnallisia suhteita. Vakiolähestymistapa opiskeluun systeemibiologian genomi data on klusterin geenejä, joiden ilmentyminen profiileja yhteistyötä vaihtelevat joko yli ajan kurssin tai useissa näytteitä. Esimerkiksi Garraway
et al.
[11] suoritetaan integroidun valvottu analyysi SNP array ja geenien ilmentyminen tietojen tunnistamiseen MITF kuin sukua selviytymisen onkogeeni monistettu pahanlaatuisen melanooman. Useita muita geenien ilmentymisen mikrosirulla osoittaa potentiaalia geenin ilmentäminen rinnakkain tutkimuksia. Esimerkiksi Prieto
et al.
[12] käytti Affymetrix HGU133A alustan tunnistamiseksi koekspressoimalla verkkojen moninaisuuden ihmisen kudosnäytteiden. Heidän verkko paljasti kartta -parin klustereiden järjestetty hyvin määritelty toiminnallinen tähtikuvioita. Kaksi suurta alueet tässä verkossa vastasi geenien ydin- ja mitokondrioiden aineenvaihduntaa. Tämä tutkimus ei ole välitöntä merkitystä syövän, kuitenkin, koska mitään syöpää kudokset olivat mukana tutkimuksessa. Choi
et al.
[13] teki tutkimuksen syöpä kudoksiin, mutta oli valitettavasti poimittu julkaissut tietoja mitä nyt katsotaan vanhentunut (Affymetrix U95A) tai epäluotettava (cDNA) alustoille. Myös saadut tiedot eri alustoilla tarpeen sovittaa yhteen, ja päivämäärä tutkimusten edelsi luotettavien resursseja, kuten AffyProbeMiner [14] ja SpliceCenter [15]. Siitä huolimatta, Choi pystyi havaitsemaan toiminnallisia eroja normaalin kasvun ja syövän kannalta geenin ilmentyminen samanaikaisesti muutoksia laajoilla alueilla fysiologian: energia-aineenvaihduntaa, solusyklin, immuunijärjestelmän aktivointi ja kollageenin tuotantoa.
Muut tutkimukset ovat keskittyneet kudosten-geenit. Cho
et al.
[16] paljasti monia polkuja, jotka liittyvät patofysiologiaan keuhkosyöpä: Cytokine Network ja TNF /stressin signalointireitin pari; trombiinin signalointi ja proteaasi-aktivoitu reseptorit koulutusjakson Cell Cycle: G1 /S Check Point ja solun proliferaation inhibitio mukaan Gleevec. Samoin tutkimukset Lai
et al.
[17] rajoittuivat eturauhassyövän ja kehittänyt tilastollinen menetelmä tunnistaa ero geeni-geeni koekspressoimalla malleja eri solussa valtioissa. Jotta geeni, muiden geenien valitsemiseksi, joilla ero geeni-geeni koekspressoimalla kuvioita tämän geenin eri solussa valtioissa. Käyttämällä tuumorisuppressorigeeneille TP53, PTEN ja RB1, kuten mielenkiinnon kohteena olevan geenin, jotka on valittu geeneistä sisältyvät hepsiinin, GSTP1 ja AMACR.
Esillä oleva tutkimus tehtiin testata hypoteesia, että geenit samankaltaisia toiminnallisia luokkia on taipumusta vertailukelpoinen kuviot ilmaisumuotoja yli solulinjojen laajasta kudoksesta peräisin spektri (
eli
, NCI-60 solulinjaa). Tämä hypoteesi syntyi aikana meidän viime tutkimus osoittaa, että ydinvoima-koodattu mitokondrion geenit coregulated keskenään ja MYC geenin poikki NCI-60 [18], [19]. Esillä analyysi suoritettiin parannetun ilmaisun tiedot CellMiner (https://discover.nci.nih.gov/cellminer) [20], [21]. Nämä tiedot ovat korkealaatuisia, koska ne on saatu kokoamalla yhteen viisi microarray alustoille (katso yksityiskohdat menetelmät -kappaleessa). Niissä käsitellään myös yleispätevyyttä yhteissääntely prosessien jälkeen NCI-60 käsittää erityisen runsaasti erilaisia näytteitä 9 kudostyypeistä korkea toistettavuus.
Tulokset ja keskustelu
Yleiskatsaus strategian ja prosessin kulkua
vuokaavio (kuva 1) on yleiskatsaus prosessin kulkua. Ensin suoritetaan hierarkkisen ryhmittely geeniekspressioprofiilien poikki NCI-60 solulinjoissa. Sitten leikataan tuloksena klusterin puu saavuttaa 4 eri leikkauksia, pyytävän (pienimmästä suurimpaan resoluutio) 20, 40, 80 tai 160 geeniklusterien (eli yhteensä 20 + 40 + 80 + 160 = 300 geeniryppäät) . Tämä järjestelmä syntyy perheitä klusterien siten, että klusterin 20-leikkaus oli vanhemman lapsen klusteri 40 leikattu, ja niin edelleen. Klusterin 20 leikattu voi olla yksi tai useampia tällaisia lapsia, mutta jokaisella lapsella on vain yksi vanhempi. Siten jokainen klusterin perhe voitaisiin yksikäsitteisesti nimeämä klusterin määrää sen 160-leikkaus. Geeni sarjaa kullekin 300 klusterien toimitettiin suuren tuotantotehon GoMiner (HTGM) määrittää merkittävät Gene ontologia Consortium (GO) luokat liittyvät kuhunkin geeniperimä. GO luokat, jotka olivat läsnä kaikissa 4 leikkaukset klusterin perheen katsottiin
vankka
luokkia, jotka liittyvät kyseiseen perheeseen. Merkitys kestävyys on, että vahva luokka on riippumaton tietyn asteista resoluutio käytetään leikkaamiseen geenin klusterin puu. Siten vankka luokat ovat kohdennetumpia ja luotettavampi kuin ei-vankka luokat, jotka ovat merkittäviä joidenkin tiettyjen leikkaus, mutta ei kaikille leikkauksia.
Gene ryhmittely perustuu koekspressoimalla
Käyttämällä tätä strategiaa ja prosessointivuon, ryhdyimme tarkastelemaan koko aineisto varten 16821 geenien CellMiner laadukkaita ilme dataa useiden mRNA ilmaisun alustojen NCI-60 solulinjoissa. Hierarkkinen klusterointi geeniekspressioprofiilien tutkittiin 4 tasoilla resoluutio pyytämällä leikkauksia sisältävän 20-, 40-, 80- tai 160-klustereiden.
GO ryhmiin liittyvät kunkin koekspressoimalla klusteri
Ajoimme suuren tuotantotehon GoMiner (HTGM) geenissä sarjaa kaikissa 300 klustereita, ja kysyi, olisiko mitään GO luokkia läsnä kaikilla 4 eri leikkauksia klusterin perhe. Tämä tulos oli parhaiten visualisoitu uudenlainen ”luokkiin
verrattuna
kokeiluja” CIM (kuviot 2A, S1A, B). Vain rivit ryhmittyivät, koska pylväät oli jo etukäteen järjestetty erityinen lajittelujärjestyksen: alkaen yksi klusterit 20 leikattu, me liittyy että klusterin klusterin (t) 40-leikkaus, joka on ”lapset” on 20-leikkaus. Tämä prosessi sovellettiin palautuvasti kaikkiin 4 leikkauksia. Helpottaakseen visualisointi leikkauksia, me käytti uutta piirre Genesis klustereiden ohjelma määrittää selvä väri asteikon kunkin palan. Me hahmoteltu saman luokkien ryhmien, jotka olivat tilastollisesti merkitseviä ja että oli keskenään liittyvä biologinen toiminnallisuus sisällä NCI-60 klusterit (valkoisen suorakaiteen kuvioissa 2A ja S1B). Klusteri perhe numerot ja toiminnallinen nimityksiä näyttävät vierekkäin ympäröivät ryhmään. Oikeaan kuvion 2A on mittakaavaosoitin esittää korkeutta käytössä 10 riviä luokkiin. Koordinaatit klustereiden kuviossa 2 on esitetty taulukossa 1, ja vankka luokat Kuviossa 2A on esitetty taulukossa S1.
(A) Kompakti malli. Täydellinen versio on saatavilla kuviot S1A, B. Vain kategoriaa FDR 0,10 vähintään yhden palan ovat edustettuina. Koordinaatit klustereiden (
esim
, R1, C1) on esitetty taulukossa 1. HTGM FDR GO luokkia varten 20-, 40-, 80- ja 160-leikkaukset on esitetty vihreällä , sininen, vaaleanpunainen, ja punainen, vastaavasti. Valoisa sävy vastaa korkea korrelaatio (eli pieni FDR), ja tummempi sävy vastaa FDR lähelle kynnys 0,10. Klusterin numerot 160-leikkaukset näkyvät oikealla kunkin ympäröivät ryhmittymän. (B) Blowup klusterin 52 perhe ryhmittymän johdettu kuvassa 2A.
Kuva 2A osoittaa selvästi hyvin määriteltyjä klusteri perheitä, jotka johtuvat lähentyminen yhtenäinen geenien ilmentyminen ja johdonmukainen biologisten prosessien kanssa ylivoimainen GO luokka. Tämä lähentyminen on erityisen selvä usean klusterin perheitä (klusterin numero 160 leikattu osa perheen suluissa): solumigraation (52), signaalitransduktion (11), lisääntymiselle (51), soluadheesiota (132) , kollageenia (72), immuunijärjestelmän (68), RNA: n käsittely (137), RNA: n silmukoinnin (69) ja DNA: n replikaation (154). Siten jokainen klusterin määriteltiin tietty geeniekspressioprofiili ja erityinen ja yhdistävä GO luokittelun.
Olimme tyytyväisiä löytää, että voisimme tunnistaa 64 vankka ryhmiin (taulukko S1), joka käsittää 15 yleistynyt GO toimintoja, kaikki joista (lukuun ottamatta silmä pigmentti) läheisesti liittyvät syöpään. Paremmin havainnollistaa määritelmän ja käsitteen kestävyyttä, olemme rakentaneet purkaus (kuvio 2B) klusterin 52 perheen ryhmittelyä hahmoteltu keltainen kuviossa 2A. Klusteri 52 perhe ryhmittely koostuu jälkeläisiä klusterin 10 20 leikattu, kuten taulukoitu paneeli ”Määritä, mitä klusterit ovat vanhempia muita klustereiden” vuokaaviossa (kuvio 1). Tämä paneeli esittää, että tie klusterin 52 160 leikattu sisältää klusterin 30 40 leikattu ja klusterin 42 80 leikattu. Kuviossa 2B, huomaa, että 4 erilaista väriasteikkoja eriyttää 4 leikkaukset (
esim.
, Vihreä, sininen, laventeli, ja punainen jäsenehdokkaat 20-, 40-, 80- ja 160-leikkaukset, vastaavasti). Esimerkiksi HTGM analyysi osoitti, että GO: 0051674_localization_of_cell olivat tilastollisesti merkitseviä klustereita 10, 30, 42, ja 52 20-, 40-, 80- ja 160-leikkaukset, vastaavasti. Siten GO: 0051674_localization_of_cell nimettiin olevan vankka luokka. Sen sijaan GO: 0048468_cell_development oli merkittävää vain klusterin 52 160-leikkaus, ja näin ollen ole nimetty vankka. Huomaa, että paneeli vuokaaviossa näkyy 7 perhe ryhmittymien johdettu klusterin 10 20 leikattu. Esillä Kuvio osoittaa, että yksikään perhe ryhmittymien muu kuin 10/30/42/52 sisältää vankka luokka, vaikka jotkut sisältävät merkittäviä luokkia (
esim
, 10/11/36/43 sisältää GO: 0051674_localization_of_cell kuin merkittävä mutta ei vankka luokka).
tukeva luokat klusterin perheen vastaa klusterin 52 160 leikattu luetellaan pohjapaneelin vuokaavion kuviossa 1. Nämä vankka luokat keskittyvät solun muuttoliike, kun taas (vankka plus ei-vankka) merkittävät luokat ovat monipuolisempia yleensä heijastaa neuroni kehitys, immuunivasteen, ja epiteelin-mesenkymaalitransitioon (EMT) lisäksi solujen vaeltamiseen (katso ”Luokat
versus
geenit ”CIM alla).
julkinen tietokanta, jonka avulla tutkia tulokset kuviossa 2A
helpottamiseksi tulevaa tutkimusta käyttämällä klusterointi ja toiminnallinen luokittelu tässä raportoidut tulokset, tarjoamme julkiseen tietokantaan. Useita ennalta rakennettu MySQL kyselyt voidaan myöntää hakea tietoa tietokantaan, joka sisältää tulokset kuviossa 2A ja sen laajennettu versio Kuva S1B. Tyypillinen kysely saattaa liittyä hakemalla luettelo geenien tietyn klusterin, joka karttaa tiettyyn GO luokka. Graafinen käyttöliittymä (GUI), joka myöntää haluttu kysely on tarjolla URL https://discover.nci.nih.gov/NCI60/menu.table.html. URL-osoite sisältää kätevä taulukko klikattava kyselyt ja esimerkkejä vastaavista panos- (kuva 3). PowerPoint opetusohjelma käyttää tietokantaa on saatavilla oheismateriaalia (Powerpoint S1).
”Luokat
verrattuna
geenit” CIM
Tämän havainnollistamiseksi yhdenlaisia biologisia tietoja, joita voidaan poimittu klusteroitumisstrategiaa että käytimme, me hahmotella suhdetta geenien ja toiminnalliset luokat klusterin 52 160-leikkaus, rakentamalla ”luokkiin
verrattuna
geenit” CIM jos merkittäviä luokkia (kuvio 4A) ja vankka ryhmiin (kuvio 4B). Lisätietoja on esitetty menetelmä.
merkittävä luokkia CIM on pääjoukko vankka luokkien CIM suhteen molemmat geenit ja luokkia. Kuten edellä mainittiin, vankka luokat keskittyvät voimakkaasti solujen vaeltamiseen, kun taas merkittävä luokat klusterin 52 160 leikattu ovat monipuolisempia yleensä heijastaa neuroni kehitys, immuunivasteen, ja EMT lisäksi solujen vaeltamiseen. Tilastossa kahden CIM on koottu vaiheessa numerot 4 ja 5 taulukossa 2.
vankka luokkien CIM (kuva 4B), joissakin tapauksissa on huomattavaa päällekkäisyyttä geenien ryhmiin, kuten esiintyy pohja 7 luokat (jäljempänä ”solujen vaeltamiseen” ryhmä) CIM. Tässä tilanteessa meidän tulkita näiden ryhmien olevan suurelta osin tarpeetonta suhteessa toisiinsa. Entistä informatiivinen tilanne tapahtuu, kun siellä ei ole täydellinen irtisanomisen, vaan kun on vain osittainen päällekkäisiä (ryhmien) luokkiin, kuten edellä mainittu solujen vaeltamiseen ryhmä, ja ylhäältä neljään ryhmään CIM. Tällainen osittainen päällekkäisyys voi paljastaa ”cross-talk” joukossa erilaisia biologisia toimintoja. Luokkaan suhteet voivat heijastaa osallistumista solumigraation komponenttien, kuten solun tukirangan ja integriinit.
merkittävä luokat (kuvio 4A), TGFB2 välittää cross-talk välillä hermosolun erilaistumista ja migraatiota luokkien ryhmien. Silmiinpistävää on erottaminen suurin osa solun maahanmuuttoon liittyvät (
eli
, TGFB1I1, MYH9, VCAM, ADAM9, DLC1, FGF2, CLIC4, NEXN, ja VCL) ja neuroni liittyvien geenien (
eli
, IL6, INHBA, KCNMA1, DBN1, FEZ2, ROBO3, ja NOG). Näin ollen suurin osa erilaista geenien korreloi näitä 2 toimintoja, ja syy niiden esiintyvät samassa ryppäässä perheen 52 160-leikkaus (nojalla korreloi geeniekspressioprofiilien) osoittaa läheinen suhde solun muuttoliike ja hermosolu kehitys, joka vaatii tulevaisuudessa tutkimus.
Johtopäätökset
kattava luonne NCI-60-geenin ilmentymisen aineisto yhdessä laajan kudoksen alkuperän edustettuina, antoi meille mahdollisuuden saada tietoa osaksi systeemibiologian syöpäsolujen tunnistamalla useita klustereita geenien yhteistyötä vaihtelevat 60 solulinjoissa.
edelleen karakterisoimiseksi geenejä kussakin klusterissa, käytimme Gene ontologia (GO) Consortium tietokanta yhdessä kanssa GoMiner työkalu määrittää toiminnallisen yhdistyksiä. GoMiner analyysi paljasti, että geenit monissa klustereissa liittyvät yhtenäisen GO biologisen prosessin luokkia, kuten solujen vaeltamiseen, signaalitransduktion, kopiointi, soluadheesiota, kollageeni, immuunijärjestelmä, RNA käsittely, Silmukointi, ja DNA: n replikaatiota.
uudet piirteet lähestymistapamme ovat (1) koekspressoimalla analyysi korkealaatuisten geeniekspressioprofiilien tarjoamia hiljattain käytettävissä komposiitti transcriptome profiili perustuu integroidun geeniekspressiotasot viidestä alustoilla, (2) käyttö GO luokittelun löytää vankka luokkia, jotka eivät riipu valittaisiin tietty resoluutiotaso leikkaamiseen klusterin dendrogrammia, ja (3) käyttäen geenejä valituissa klustereissa vastaista tutkimusta suuntiin, kuten solujen vaeltamiseen geenien klusterin 52 160-leikkaus (Kohn
et al.
, käsikirjoitus valmisteilla). Tietääksemme mitään näistä ominaisuuksista on tutkittu /toteutettu aiemmin.
Yksi tyyppi uutta tietoa on selvittää sellaisten uuden geenin yhteyksien perustuu dual kriteerit koekspressoimalla ja koordinoituja funktionaalisen luokittelun. Tämä yhteys voidaan visualisoida tutkimalla geenit näissä GO ryhmiin, joilla on osittainen päällekkäisyys käyttämällä geeniä
verrattuna
luokkiin tyyppi HTGM CIM (katso esimerkiksi TGFB2 cross-talk välillä hermosolun erilaistumista ja migraatiota luokat kuvassa 4A).
toinen tyyppi uutta tietoa on selvittää sellaisten korkeimmin yhteistyössä säännelty polkuja, jossa vahvistus liittyvä toiminnallinen luokittelua geenien kautta. Esimerkiksi monet geenien klusterin 52 160 leikattu ovat mukana erittäin koordinoitu solujen vaeltamiseen koulutusjakson (Kohn
et al.
, Käsikirjoitus valmisteilla).
Materiaalit ja menetelmät
CellMiner
NCI-60 transkriptin ilmentymistä.
Gene transkriptio ilmentyminen määritettiin käyttäen koettimia viidestä alustoilla. Näitä ovat, mistä Affymetrix (Affymetrix Inc., Sunnyvale, CA), The ~60,000 ominaisuus Human Genome U95 Set (HG-U95) [5] ~44,000 ominaisuus Human Genome U133 array (HG-U133) [5] ~47,000 on Human Genome U133 Plus 2.0 Arrays (HG-U133 Plus 2.0); ja ~5,500,000 ominaisuus GeneChip- Human eksoni 1.0 ST array (GH eksoni 1,0 ST) [19]. Mukana on myös Agilent (Agilent Technologies, Inc., Santa Clara, CA) oli ~41,000 ominaisuus Whole Human Genome Oligo Microarray [3]. Kaikki Affymetrix alustat normalisoitiin guaniini Sytosiini Tukeva Multi-array-analyysi, tai GCRMA [22]. Agilent mRNA koettimet normalisoitiin perustuen niiden havaitsemiseen vähintään 10%: n solu- linjojen avulla GeneSpring GX i) asettamalla tahansa gProcessedSignal arvo on alle 5-5, ii) muunnetaan gProcessedSignal tai gTotalGeneSignal ja Logbase 2, ja iii) normalisoi ryhmää kohti on 75
persentiilin [3]. Meidän relaatiotietokanta, CellMiner, osoitteessa http: //discover.nci.nih.gov , voidaan käyttää tietoja HG-U95, HG-U133, HG-U133 Plus 2.0 ja Agilent kaikkiaan Human Genome Oligo mikrosirut .
Probes (Agilent) tai koetin sarjat (Affymetrix) vietiin sitten läpi seuraavat laadunvalvontakriteerit ennen niiden käyttöä määritettäessä suhteellinen geeniekspressiotasot. Ensimmäinen, keskimääräinen koetin asetetaan intensiteetti vaihtelee (tarkoitus sisältää Agilent koettimia seuraavassa tekstissä) määritettiin. Probe asettaa, joiden intensiteetti vaihtelee tai yhtä suuri kuin 1,2 log
2 pudotettiin. Koetin asettaa numero geeni, joka läpäisseet kriteerit määritettiin, ja 25% että määrä lasketaan. Pearsonin korrelaatiota määritettiin kaikkia mahdollisia jäljellä koetinsarjojen (kunkin geenin). Jokaisen koetinsarjaa n keskimääräinen korrelaatio määritettiin verrattuna kaikki muut (yhden geenin). Seuraavaksi ne koetin, joissa on keskimäärin korrelaatioita on alle 0,30 poistettiin. Tämän vaiheen jälkeen koetin asettaa alin keskiarvo korrelaatiot 0,60 luovuttiin. Loput koetinsarjaa /koetinsarjaa korrelaatioita yhdistelmät sitten uudelleen. Alhaisin korrelaatio koetinsarjaa edelleen laskenut, ja keskimääräinen lasketaan uudelleen, kunnes joko kaikki keskiarvo korrelaatiot were≥to 0,60, tai kunnes saavuimme 25%: n tasolle alkuperäisen koetin erän numero (laskettu yllä).
Nämä menettelyt saatiin tarkka transkriptio intensiteetin arvot, jotka olivat hyvin toistettavissa ja johdonmukainen. Lisäksi edistetään korkealaatuisten tietojen, ajattelemme, olivat seuraavat: (1) Cell kasvu, sadonkorjuu ja laadunvalvontaa tehtiin pääasiassa yhden henkilön (W. Reinhold). (2) Laadunvalvonta Yksittäisten koetinsarjojen perustuivat vähintään intensiteetti valikoiman 1,2 log2 ja malli korrelaatio 0,60. Tämä suojaa ajoittain huono anturi asetetaan. (3) Transformation datan z tulokset [23] mukaisesti vähentämällä 60 solulinjan tarkoittaa ja jako keskihajonnat antoi suojan single-alustan poikkeavuuksia, ja annettiin vertailun kaikista koetinsarjaa tiedot. Z tulokset keskiarvot määritettiin kaikkien käytettävissä (18412) geenit kustakin solulinjasta. Tiedot z-laskenta on aikaansaatu Supplemetary Materials (Document S1). Nämä laskelmat tehtiin Java.
Jokainen vaihe talteen geenien CellMiner [21], ja valitaan ne, jotka vastaavat sekä HUGO Gene nimikkeistökomitealle symboleja (HGNC) [24] symboli sekä GO tietokannan merkintä, johtaa ”menetys” geenien. Aste menetyksen kussakin vaiheessa on koottu taulukkoon S2. Esimerkiksi 29017 ja 16821 geenejä ovat edustettuina HGNC ja viiden alustan transkriptio ilmentymisanalyysiä, vastaavasti. Alijoukko geenien edustettuina HGNC on 11767/16821 = 69,9%. Tämä luku on suurempi kuin yleinen prosenttiosuus on noin 55% kaikista ihmisen geeneistä, joita edustaa HGNC (Zeeberg
et al.
, Julkaisematon). Alijoukko HGNC geenien edustettuina biologisen prosessin ontologian GO (olosuhteissa esitetty taulukossa S2) käsittää melkoinen pettymys 7654/29017 = 26,4%. Kokonaissaanto viiden alustan geenejä, joissa on sekä HGNC ja GO biologinen prosessi merkinnät on 6477/11767 = 55,0%.
lataaminen ja pre-processing geenejä CellMiner
erityinen pyyntö tehtiin järjestelmän ylläpitäjä varten täydellinen geeniekspressioprofiilien. Tämä lataus olisi ollut liian suuri suorittamaan kautta tavallisella web-käyttöliittymän. Arvot kullekin geenille perustuivat yhteisymmärrykseen viiden microarray alustoja, ja ne ilmaistaan Z-tulokset, jotka on esitetty täydentävä Materiaalit ja kuten aiemmin on kuvattu [19].
Aineisto esikäsitellyt by esivalinnan vain ne geenit, jotka on sekä HGNC symboli ja merkitsemällä GO Biological Process ontologian. Jokainen geeni profiili vektori skaalataan nollaan keskiarvo ja yksikkö varianssi.
Gene ryhmittely perustuu koekspressoimalla
By R kieli (https://www.R-project.org) [25 ] script on kehitetty suorittamaan hierarkkinen ryhmittely geeniekspressioprofiilien poikki NCI-60. Koska geenit voivat toimia positiivisesti tai negatiivisesti verkon sisällä, halusimme geenit korreloivat voimakkaasti ja erittäin anti-korreloi osoitetaan samaan klusteriin, joten tietyn etäisyyden metrinen 1-abs (AK (t (mat))) /2. Olemme myös määritelty täydellisen sidoksen klusterointia.
Käytimme R toiminto
cutree () B leikata tuloksena hierarkkinen klusterin puu osaksi 20, 40, 80, ja 160 klustereita. Ne klusterit oli kaksi tärkeää ominaisuutta:
kokonaissarja geenien klusterin puu jaettiin (kokonaan ja ilman päällekkäisyyksiä) joukossa klustereita. Eli jokainen geeni alkuperäisten ilmestyi tasan klusterin.
klustereita 40 leikattu oli sisäkkäin klustereita 20 leikattu. Eli jokainen klusterin 40-leikkaus oli alaryhmä yhden klusterin 20 leikattu. Tämä kuvio säilyi rekursiivisesti läpi kaikilla leikkauksia.
bruttojakelumarginaaleilla geenien kaikille 300 (
eli
, 20 + 40 + 80 + 160) klustereita on esitetty taulukossa S3. Kukin klusteri myöhemmin analysoitiin GoMiner (katso seuraava kohta). Suoritimme useita leikkauksia, koska halusimme etusijalle ne GO ryhmiin, jotka olivat riippumattomia tietystä leikkausasete (katso Menetelmät kohta ”Scoring GO luokat”).
suhdetta klusterien peräkkäisinä leikkaukset (esim 20 ja 40, 40 ja 80, tai 80 ja 160) oli rajattu pöydän syntyy jono R vaatii esimerkkeinä 20 ja 40 seuraavasti: tuloksena taulukossa osoitti joka klusteri (t) 40-cut syntyi kustakin klusterin 20-leikkaus.
Cluster perheiden
voitaisiin määritellä aloittamalla yksi klustereita 20 leikattu, ja käyttäen 20- ja 40-cut taulukon määrittää kaikki 40 leikattu klustereita, jotka olivat peräisin, että 20- cut klusteri. Tämä prosessi toistettiin vuorostaan niille 40-cut klustereita käyttämällä 40- ja 80-cut pöytä, ja niin edelleen. Joukko Valitun 20 leikattu klusteri plus yksi on johdettu klusterin kustakin 40-, 80- ja 160-leikkaukset muodostavat klusterin perhe.
suuren tuotantotehon GoMiner (HTGM) B
GoMiner [7] on väline biologisen tulkintaa ”omic” tiedot mukaan lukien geenien ilmentymisen mikrosiruja ja uusinta sekvensointiteknologioihin. Se hyödyntää Gene ontologia (GO) tunnistaa ”biologisia prosesseja,” ”molekyyli toimintoja” ja ”solukomponenttien” edustaa listan geenit. High-Throughput GoMiner (HTGM) [8], jota käytettiin monien analyysien raportoitu tässä, on parantaminen GoMiner joka tehokkaasti suorittaa laskennallisesti haastava tehtävä automaattisen erän käsittelyä mielivaltaisen määrän tällaisia geenin luetteloita.
GO kategoria on
rikastettu
jos määrä muuttui geenien HTGM sille on tilastollisesti merkitsevästi suurempi kuin määrä odotettua sattumalta. Luokan pidetään
merkittäviä
jos sen Fisherin p-arvo ja sen vääriä löytö määrä (FDR) ovat molemmat alle tai yhtä suuri kuin käyttäjän valitsema kynnys (tyypillisesti 0,10; on harvinaista, p-arvo voi ylittää kynnyksen vaikka FDR on kynnyksen alapuolella, ja me yleensä halua hylätä tällaisissa tapauksissa). Katso [7], [8] yksityiskohtaisia keskusteluja GoMiner ja HTGM, mukaan lukien laskutoimitukset tilastollisen merkitsevyyden.
Ajoimme kaikki klusterit johdettu leikkaukset 20-, 40-, 80- ja 160-cut klusterit, yhteensä 300 syötetiedostoille, yhtenä HTGM aikavälillä. Käytetyt muuttujat kaikissa HTGM analyysit ovat taulukossa S4.
Keskimääräinen geenit /cluster klo 160 perus- taso oli noin 40, jota tavallisesti pitävät liian harvat geenejä toimittamaan GoMiner . Kuitenkin tässä tapauksessa, kuten alla, meillä on monia merkittäviä ja toiminnallisesti johdonmukainen GO klustereita. Siten ennen hierarkkinen klusterointi geenien perustuvan ilmaisun näyttää Esitarkennettu geenejä toiminnallisesti johdonmukaisesti siten kompensoida pieni tilastollinen teho pieni joukko.
brutto jakautuminen GO luokat, joka johtuu käynnissä GoMiner on 300 klustereihin käsittää 20-, 40-, 80- ja 160-leikkaukset on esitetty taulukossa S5. Siten samankaltaisuus geeniekspressioprofiilit joskus, mutta ei aina, merkitsee johdonmukaisuuden biologinen funktio. Osa klustereiden ainakin yksi merkittävä luokka laski hieman 0,55 (varten 20-cut) 0,41 (varten 160-leikkaus).
Sorting klustereita sisällä klusterin perheiden
Cluster perheiden määritellään menetelmät jaksossa ”Gene profiili-pohjainen hierarkkinen klusterointi.” Olemme kehittäneet algoritmin lajitteluun klusterien sisällä klusterin perheen lopulta näyttöä CIM kuvana. Algoritmi käyttää taulukot tuotetaan R-koodi (katso ”Gene profiili-pohjainen hierarkkinen klusterointi”) antamaan oikeaa tilausjärjestelmään klusterien johdettu toisistaan eri leikkauksia 20-, 40-, 80- ja 160-leikkaus klustereita. Lyhyesti, klusterin perhe koostuu tietyn 20-leikkaus, ja 40-cut (t) on johdettu, että 20-leikkaus, ja niin edelleen.
Pisteytys GO luokkia
Jokaisessa GO luokka joka oli merkittävä ainakin yksi hierarkkinen klusteri pisteytettiin mukaan läsnäoloaan klustereita kunkin 20-cut perheitä.