PLoS ONE: hihna: yhdennetty resurssi Profilointi suuren tuotantotehon Cancer Genominen Tiedot Stress kohdistuvat tutkimukset

tiivistelmä

yleistyvää ja juoksuaika DNA-siru teknologia on johtanut räjähdyksen syövän profilointi tutkimuksissa tunnistamiseen syöpä biomarkkereita, ja ennustamisessa hoitovastetta. Paljastamiseksi monimutkaisia ​​suhteita on kuitenkin edelleen haastava tehtävä, sillä se vaatii kokoamisessa ja tehokkaasti kyselyitä tietoja eri lähteistä. Tässä kuvaamme Stress Response Array Profiler (hihna), avoimen lähdekoodin, web-pohjainen resurssi varastointi, profilointi, visualisointi, ja jakaminen syövän genomista tietoa. Hihna taloa monen syövän microarray tietoja suuri painoarvo sädehoidon tutkimuksiin, ja ottaa systeemibiologian lähestymistavan integrointi, vertailu, ja ristivalidointi useiden syövän profilointi tutkimuksissa. Tietokanta on kattava alusta vertaileva analyysi geenien ilmentyminen tietoja. Tehokkaaseen käyttöön paneelit, tarjoamme käyttäjäystävällisiä ja interaktiivinen visualisointi työkaluja, jotka voivat näyttää data ja kyselyn tulokset. Hihna on web-pohjainen, alustasta riippumaton ja vapaasti käytettävissä osoitteessa https://strap.nci.nih.gov/.

Citation: Johnson S, Issac B, Zhao S, Bisht M, Celiku O, Tofilon P, et ai. (2012) hihna: yhdennetty resurssi Profilointi suuren tuotantotehon Cancer Genominen Tiedot Stress Response Studies. PLoS ONE 7 (12): e51693. doi: 10,1371 /journal.pone.0051693

Editor: Sui Huang, Järjestelmä- Biology, Yhdysvallat

vastaanotettu: 9. elokuuta, 2012 Hyväksytty: 5. marraskuuta 2012 Julkaistu: 17 joulukuu 2012

Tämä on avoin-yhteys artikkeli, vapaa kaikki tekijänoikeudet, ja saa vapaasti jäljentää, levittää, välittää, modifioitu, rakennettu, tai muuten käyttää kuka tahansa laillista tarkoitusta. Teos on saatavilla Creative Commons CC0 public domain omistautumista.

Rahoitus: Tätä työtä tukivat Intramural tutkimusohjelma National Institutes of Health, National Cancer Institute, Center for Cancer Research. Kustannukset julkaistaan ​​tämän artikkelin olivat vastattavaksi osittain maksamalla sivun maksuja. Tämä artikkeli on siis täten merkitä mainos mukaisesti 18 U.S.C. § 1734 ainoastaan ​​ilmoittavat tästä. Rahoittajat ollut mitään roolia tutkimuksen suunnittelu, tiedonkeruu ja analyysi, päätös julkaista tai valmistamista käsikirjoituksen.

Kilpailevat edut: SJ ja SZ sidoksissa SAIC, Frederick, Inc. Tekijät KC ja PT ovat PLoS One Editorial jäsentä. Ei ole olemassa patentteja, tuotteiden kehittämiseen tai kaupan tuotteiden julistaa. Tämä ei muuta tekijöiden noudattaminen kaikki PLoS ONE politiikan tietojen jakamiseen ja materiaaleja, yksityiskohtaisena online-oppaassa tekijöille.

Johdanto

DNA mikrosiruja onnistuneesti käytetään luokittelemaan kasvaimia ja tunnistaa uusia biomarkkereita, jotka liittyvät syöpään (noin viime tarkastele [1]). Geneettisiä variantteja ja erot henkilökohtaisessa genomit paitsi vaikutusta syövän profiilit mutta ovat usein vastuussa miten potilas ja syövän reagoi hoitoon. Erityisesti vastauksena solustressiä, onko aiheuttama sytotoksiset lääkkeet, hypoksia, tai ionisoiva säteily voi vaihdella suuresti, ja sen geneettinen perusta on tehty paljon kiinnostusta. Olemme erityisen kiinnostuneita selvittämiseksi geneettisen perustan sädehoidon vasteen etsimään korkeasti ennustavaa geneettinen allekirjoituksia. Sädehoito on keskeinen osa syövän hoidossa [2], mutta on ollut suhteellisen alle-tutkittu: vilaus julkisia resursseja kuten PubMed tai array tietokantoihin osoittaa, että sädehoidon tutkimukset osuus on alle 1% kokonaismäärästä kirjaa.

Tyypillisesti kukin yksittäinen tutkimus liittyy useita tilastollisia ja kvantitatiivisen analyysin vaiheet (katso [3] tiivistelmä tyypillisiä vaiheita), ja voit osoittaa geeniä ja geenin tuotteita, jotka ovat ratkaisevia sairauden ja hoitoon. Kuitenkin harva, korkea-ulotteinen luonnetta microarray tietojen tila [4], ja suuri määrä geenejä osallisena usein hienovaraista ja monimutkaisia ​​reittejä, edellyttävät meta-analyysit voidaan vertailla ja yhdistämällä tulokset eri tutkimuksista. Ristialustamiseksi voidaan saavuttaa vain kerran-alustan yhdenmukaisuuden ongelmat on käsitelty ja tällaisten tutkimusten tulosten ovat yhtä hyviä kuin geenin tunnistusmenetelmä. MAQC konsortio on yleisesti todettu, että asianmukainen näytteen valmistus riittää dramaattisesti parantaa Multilab ja monen käyttöjärjestelmän korrelaatiot [5]. Hyödyllisyys tällaisten analyysien dokumentoitiin täytäntöönpanossa CellMiner työkalun, web-pohjainen ohjelma integroimiseksi molekyyli profiloinnin dataa DNA, RNA, proteiini, ja farmakologiset tasot laajalti tutkittu NCI-60 syöpäsoluja [6]. Useat muut tutkimukset löytyi monimutkaisuuden varten meta-analyysi johtuu huomattavista monimuotoisuuden lähde, näyte, ja alustan tyypit [7] – [9]. Kaksi suurta teknologiaa mikrosirujen eroavat perusrakenne, cDNA mikrosiruja käyttämällä täyspitkää transkriptien painetaan dioja ja oligonukleotidi perustuu paneelit muodostavat lyhyemmän oligonukleotidit syntetisoitiin in situ. Tärkeä suunnittelussa kysymys on, onko mitata ekspressiotasot kustakin näytteestä on eri microarray (käyttämällä yksivärisiä, tai yhden kanavan, paneelit), tai sen sijaan verrata suhteellisia ekspressiotasoja väliin näytteiden kunkin microarray (kaksi- väri tai kaksikanavainen paneelit). On kompromisseja kahden lähestymistavan. Yksivärisiä paneelit mahdollistavat lisää joustavuutta analyysiin, kun taas kaksi väriä paneelit voi ohjata joitakin teknisiä ongelmia sallimalla suoran vertailun yhdessä hybridisaatio [10]. Tuore vertailu yksi- ja kaksivärinen menetelmistä samoja alustoja löytyy yleisesti ottaen hyvä sopimus tuottamat tiedot kahdella menetelmällä [11]. Z pisteet muunnos menettely normalisoida datan on tuttu tilastollinen menetelmä sekä neuroimaging ja psykologisia tutkimuksia ja hiljattain käytetty meta-analyysi microarray aineistoja eri alustojen [12], ja sopii erityisesti tietokannan kehittämiseen [13].

runsaasti tietoa on myös tuonut luomisesta monenlaisia ​​resursseja. Yhdellä ääripäässä, tietovarastojen kuten Gene Expression Omnibus (GEO) [14] antaa pääsyn raaka kokeellista tietoa; toisessa päässä, työkalujen, kuten ONCOMINE [15] entistä kunnianhimoisemmin, mutta yleensä kustannukset, tarjoavat tilat meta-analyysi array tietoja. Kuitenkin tietojemme mukaan yksikään nykyisistä vapaita resursseja keskittyä stressivaste tai sädehoidon tutkimukset yhdistettynä visualisoinnin lähdöt.

Kehitämme hihna, ilmainen web-saatavilla resurssi vastata tarpeeseen kysellä, verrata, profiilin , ja visualisoida tulokset eri microarray kokeiluja. Hihna isännät tiedot erilaisista syöpään tutkimuksista (nykyisin 12 eri kudoksesta tyyppejä), ja tullaan edelleen laajennetaan tulevaisuudessa. Käytimme Z pisteytys tapa standardoida tietojen koska sisäisesti normalisoidut arvot eivät muutu myöhemmin lisäämällä uusia aineistoja. Kaikki tiedot kartoitetaan Entrez Gene tunnisteiden johdonmukaisuutta verrattuna. Käyttäjäystävällinen käyttöliittymä helpottaa etsintä monenlaisissa tutkijoiden, myös ne, joilla vähän asiantuntemusta bioinformatiikan.

Jäljempänä tässä artikkelissa kuvataan lyhyesti hihna rakentamisen ja pääkohdat.

materiaalit ja menetelmät

Arkkitehtuuri

runtime arkkitehtuuri hihna on kuvattu kuvassa 1. Arkkitehtuuri on 3-porrastettu. Perusrakenne on arkkitehtuuri on lisälaite meidän aiemmin julkaistu CellMiner työkalu [6]. Pohja tier edustaa lähteet kokeellinen (mikrosirun), meta (solulinja) tiedot, ja ulkoisia työkaluja, vedotaan visualisoida tietoihin. Välitasona edustaa miten tietoja käsitellään, varastoidaan, ja annetaan käyttäjälle. Pre-processing vaiheet suoritettiin ennen käyttöönottoa. Tässä vaiheessa tietoja alemman tason oli näytetty, jalostettu (käyttäen R scripting), ja tallennetaan hihnan datataltiossa (koostuu MySQL-tietokannan ja muita tiedostoja tallennetaan palvelimeen tiedostojärjestelmän). Oikealla puolella välitasona edustaa analyysi ”palvelut”, jotka ovat saatavilla suorituksen käyttäjälle. Näitä ovat suodatusta datan (mukaan käyttäjän rakennettu kyselyt), visualisointi tuloksia, ja vaihtoehtoja ladata tietoja. Nämä palvelut ovat saatavilla web-palvelut ja isännöivät Apache palvelimelle. Huipputason edustaa käyttöliittymä (toteutettu PHP, JavaScript, AJAX, ja HTML), ja on järjestetty kolmen tärkeimmän moduulia (Genes, Solulinjat, ja Arrays).

kaavio edustaa runtime näkymä arkkitehtuuria hihna. Alemman tason edustaa lähteet kokeelliset tiedot, metatiedon ja ulkoisia työkaluja, vedotaan visualisoida tietoihin. Välitasona edustaa miten tietoja käsitellään, varastoidaan, ja annetaan käyttäjälle. Oikealla puolella välitasona edustaa analyysi ”palvelut”, jotka ovat saatavilla suorituksen käyttäjälle. Mitä korkeampi tason edustaa käyttöliittymä, ja on järjestetty kolmen tärkeimmän moduulia (Genes, Solulinjat, ja Arrays).

datataltiot

neljä pääasiallista tietovarastot asuvat backend hihnan: (1) Gene liittyvä merkintä saadut tiedot National Center for Biotechnology Information (NCBI, https://www.ncbi.nlm.nih.gov/), (2) Esikäsitelty geeniekspressiota microarray molekyyli- profiilitiedot ( lukien esilasketuiksi tilastot), (3) metadata solulinjoihin, ja (4) metadata alustalla liittyvää tietoa.

rakenteen ylläpitoon taulukoiden edistää tehokasta kyselyihin ja integrointi fenotyyppisten tietojen metadata ja molekyylitason profiili tietoja eri tutkimuksista. Tietokanta tukee useita samanaikaisia ​​kyselyn istuntoja.

arkistot tallennetaan MySQL relaatiotietokanta (https://www.mysql.com).

Data valmistelu

microarray tiedot saatiin raaka tiedostoja milloin saatavilla tai muuten kuin tekijä talletettu normalisoitu tiedostot GEO tietokannasta [14], ArrayExpress [16], tai in-house kokeita. Kaksi alustan tyyppiä käytetään pääasiassa näissä tutkimuksissa: cDNA kaksivärinen (National Cancer Institute- ROSP 8K Human Array ja Agilent koko ihmisen genomin mikrosiruja), ja yhden värin pakat (nykyisin me talon Affymetrix ja Illumina geeni siru data).

raakadataa arvioitiin laadun ja normalisoitu jonka Lowess [17], tai MAS5 [18] menetelmiä cDNA, ja Affymetrix taulukot, vastaavasti. Z-score muunnos käytettiin saamiseksi yhtenäisen asteikon eri tutkimuksia ja alustoja, mikä on tarpeen vertailla tietoja eri tutkimuksista. Esilasketuiksi tilastolliset testit suoritettiin kolme sisäkkäistä-tason monimutkaisuutta.

ylimmällä tasolla, kukin tutkimus suoritetaan ANOVA suoritettiin kaikkien valvontaa ja tapaukset, jolloin yleinen merkitys tutkimuksen suunnittelua.

kudostason ANOVA on toteutettu toisen tason vertailu kaikki säätimet ja erityistapauksia kutakin kudostyypin tutkimuksessa.

Tällä kokeen tasolla, joka solun-line /näyte, tapauskohtaisesti ohjaus vertailu tehdään t-testi analyysi.

Pre-processing ja laskenta tilastollisten testit suoritetaan R ympäristössä (https://www.r-project.org/) .

Interface

etupää käyttöliittymä on web-pohjainen sovellus toteutetaan R, PHP (https://www.php.net/) ja Python (http: //www. python.org/). Sovellus on käytössä Apache HTTP-palvelin (https://httpd.apache.org/) National Cancer Institute (NCI).

Core Ominaisuudet

Tietojen käyttö ja esitys on organisoitu noin kolme käsitteitä tai moduulit: (1) Genes, (2) Solulinjat, ja (3) Arrays. Joustava käyttäjän määrittämiä tietoja kyselyt voidaan aloittaa mistä tahansa moduuleista; tietojen visualisointia vaihtoehtoja tulokset näytetään integroituja näkemyksiä ja voi, riippuen kyselyn, liittyy cross-talk välillä moduulien. Useita linkkejä ulkoisten resurssien edistää systeemibiologian lähestymistavan. Taulukossa 1 esitetään yhteenveto ydin ominaisuuksia kunkin moduulin. Esilasketuiksi tilastot (kuvattu edellisessä jaksossa) mahdollistavat näytön tehokas ja intuitiivinen kaavioita.

Genes

geenit moduuli mahdollistaa geeni-keskeinen kyselyjä hihnan microarray tutkimuksia. Kyselyt voi perustua geeni tai proteiini tunnisteita, synonyymit, geeni kuvauksia tai kromosomi sijainti. Tulokset sisältävät liittyvät taulukot ja tutkimukset, sekä kooste geenin-merkintä tieto, spatiaalinen lokalisointi genomissa visualisoida UCSC Genome selaimen [19], ja verkko naapuruston karttoja tuotetaan proteiini-proteiini-vuorovaikutuksen verkkoja [20]. Kyselyt voidaan myös rakentaa käyttämällä geeniä luetteloita määritelty käyttäjä tai tuottaa, esimerkiksi Gene ontologia (GO) ehdot [21].

Tyypillinen geeni-keskeinen kysely (katso kuva 2 on esimerkki työnkulku) alkaa tunnistamalla tutkimuksissa profilointi geenin ilmentymistä (luettelo) kohteisiin. Ilmaisu profiilit ja niiden tilastollisen merkittävyyden sitten visualisoidaan kautta boxplots, ja barplots (näytetään tutkimuksen tason, ja kokeellinen tason tapaus-verrokki erot). Jos tulo liittyy listan geenit, interaktiivinen heatmap vaihtoehto mahdollistaa katselun ilmauksia geenien valituissa tutkimuksissa. Heatmap visualisoidaan Java Puunäkymäikkuna ohjelmaa [22].

Tyypillisesti työnkulku aloitetaan geeneistä moduuli käsittää 1) syöttämällä geeni (tai luettelon geenien), 2) näytetään ja valitsemalla asiakasesimerkkejä geeni, 3) valitsemalla visualisointi vaihtoehto, ja 4+) näyttää ja tarkastaa valitun visualisointi. Esitetyssä esimerkissä on geenin ”ABL1.”.

Kuten lisätty mukavuutta, geenit moduuli sisältää geenin tunnisteen muuntaminen apuohjelma, jota voidaan käyttää kartoittamaan yhdestä tyypistä geeni tunnisteen (esimerkiksi , Entrez geeni symboli) toiseen (esim Entrez geneid).

solulinjat

solulinjat moduuli tarjoaa metadataa saatavilla solulinjoissa ja siihen liittyvät tutkimukset. Kyselyt tässä moduulissa on räätälöity valinnan mahdollistamiseksi täydellinen tutkimusten mukaan kudos on peräisin tai yksittäisen solun linjaa. Vertailuja voidaan tehdä näytteitä tutkimusta tai eri tutkimuksissa. (Katso kuva 3 on esimerkki työnkulun.) Differentially ilmaistuna geenien tutkimuksissa edun kannalta case-control t-testiä analyysit (solulinja valinta) ja ANOVA (tutkimukset, joissa on enemmän kuin yksi ryhmä). Oletuksena suodatin on asetettu p≤0.05, mutta voidaan räätälöidä käyttäjän.

Solulinjat aloitettu työnkulun tyypillisesti alkaa 1) valinta solulinjan (tai kudokseen) kohteisiin (tässä ”LCL” ), 2) tarkastus solulinjan metatiedot, ja siihen liittyvät tutkimukset, 3) vertailu tutkimusten kiinnostava kanssa metamap osoittaa merkitys erilainen ekspressio yksittäisten geenien annetulle solulinjan, ja 4+) tarkastaa yksittäisten geenien kautta barplots ja boxplots .

Arrays

paneelit moduuli antaa yleiskuvan nykyisestä tietokannan sisällön, mukaan lukien useita tutkimuksia, tiedon alustoja, avustajat, ja saatavilla meta-tietoja. Esikäsitellyt tietoja tai alkuperäisestä lähteestä voi ladata moduulin. Integroitu kyselyt tämä moduuli mahdollistavat suorittamalla vertailun tutkimusten yhteisellä näytteitä tai liitto geenien valitun tutkimuksissa.

Esimerkki työnkulku on esitetty kuviossa 4. Arrays voidaan suodattaa select ärsyke tutkimuksessa käytetyt. Koska kiinnostus ionisoivan säteilyn vaikutuksilta, useimmat taulukot arkistossa on ”säteily”, kuten ärsyke.

Arrays työnkulku tyypillisesti alkaa 1) tarkastus saatavilla paneelit ja valinta tutkimuksen kiinnostava, 2 ) katselu koeolosuhteissa ja valinta p-arvo kynnysarvo merkitys geeniekspression erilaistumista ja 3) tutkimuksen ilmaisuja lämpökartta. Vertailu useiden paneelit voidaan käynnistää myös yhteenvetosivulta.

Differential ilmentymistä kaksikymmentäneljä geenien tunnistaa Rieger ja työtovereiden [24] olevan tärkeitä säteilyn vastausta. Vaiheessa 1 esittää monen tutkimuksen heatmap (for Studies 4, 6, ja 14). Vaiheessa 2 CDKN1A geeni profiili verrattiin tutkimuksissa (tutkimukset 2-5), ja ilman säteilyä kuin ärsyke (tutkimus 14 hypoksiavaste).

Validation

Sädehoito on keskeinen osa syövän hoidossa. Kuitenkin säteily vastaus usein vaihtelee huomattavasti eri potilailla [23]. Sen vuoksi on tärkeää tunnistaa geenien ennustavan säteilyn vasteen. Yhtä tärkeää on vahvistaa tuloksia analyysin riippumatonta tietoa samanlaisia ​​koesuunnittelun.

havainnollistamiseksi toimivuuden hihna, käytimme tutkimus Rieger ja työtovereiden [24] annetun ääreisveren lymfoblastoidisoluilla potilaista peräisin akuutti säteilyn myrkyllisyys ja kontrolliryhmän lievää myrkyllisyyttä. Käyttämällä geeniekspressioprofilointi, kirjoittajat raportoitu 24 prediktiivisille geenejä säteilyn vasteen. Olemme pyrkineet tutkimaan ilmentymistä näiden 24 geenien useissa riippumattomissa tutkimuksissa hihna tietokannasta, ja löysi 18 geenien merkittävästi muuttunut valittujen joukossa tutkimuksia. Testaamaan jos voimme toistaa kirjoittajien havaintojen ensin valittu 3 tutkimuksissa 2 tutkimukset (tutkimukset 4 ja 6), joka sisältää lymfoblastoidisoluilla käsiteltiin erilaisilla annoksilla säteilyn, ja negatiivisena kontrollina, päätimme 1 (tutkimus 14) kara soluja CNS kudoksesta hypoksia ärsyke. Usean tutkimuksen heatmap (kuvio 5, vaihe 1) geeni osajoukko osoitti selektiivinen säätelyn geenin osajoukon tutkimuksissa 4 ja 6, mutta ei tutkimuksessa 14, vahvistaa rooli näiden geenien vastauksena säteilylle. Erityisen, CDKN1A on DNA-vaurioita vastaus, solusyklin säätelevä geeni raportoitu indusoivan säteilyn [25], [26]. Olemme tutkineet vertaileva profiloinnin CDKN1A geenin lukuisissa tutkimuksissa monipuolista solulinjojen tietokannastamme jotka käsitellään (tutkimukset 2-5) tai ilman säteilyä kuin ärsyke (tutkimus 14). Vertaileva geeni profilointi useisiin tutkimuksiin (kuvio 5, vaihe 2) osoitti merkittävää induktion geenin valikoivasti säteilyn käsitelty tutkimuksissa. Lisäksi induktio on havaittu olevan mitään vaikutusta pienellä annoksella säteilyä (0,4 Gy Tutkimus 3), joka osoittaa soluvastetta säteily riippuu annoksesta käytettävä korko.

Johtopäätökset

hihna on avoin -Pääsy resurssi kehitetty ensisijaisesti tukemaan tutkimusta stressin vaikutuksia suurten painottaen ionisoivan säteilyn syövän järjestelmissä-biologian yhteydessä. Tällä hetkellä tietoja kaksikymmentäyksi tutkimukset on integroitu ja saatavilla kautta laajan kyselyn vaihtoehtoja, ja käyttäjäystävällinen web-pohjainen käyttöliittymä. Tuettava tilastotietojen ja kvantitatiivisia analyysimenetelmiä taustalla, resurssi voittaa rajoja tietokantojen omistettu raakadataa etsintä, jolloin on mahdollista päätellä nontrivial tietoa (kuten differentiaalisesti ilmentyvien geenien useita tutkimuksia).

Tällä hetkellä koska rajoittamisesta joukko tutkimuksia, se voi olla rajallinen biologista merkitystä. Kuitenkin puitteissa tietokanta on joustava ja sallisi laajennuksia tiedoilla muiden syöpien tutkimukset, jotka auttavat uusia havaintoja.

Tietokantaa päivitetään ajoittain uusilla tutkimuksia ja ominaisuuksia. Suunnittelemme esimerkiksi mahdollistaa rakentamisen vuorovaikutuksen verkkoja kirjallisuuden tekstinlouhintavälineiden, ja tietoja Ihmisen proteiini viitetietokantaan (HPRD) [27] ja geeniperimä rikastamiseen analyysien ja visualisointeja.

Vastaa