PLoS ONE: tunnistaminen Cancer alatyyppien miRNA-TF-mRNA Regulatory Networks ja Expression Data
tiivistelmä
Background
tunnistaminen syöpä alatyyppejä on tärkeä osa henkilökohtaisen lääketieteen puitteissa. Yhä useammat laskennallisia menetelmiä on kehitetty tunnistamaan syövän alatyyppejä. Kuitenkin nykyiset menetelmät harvoin käyttää tietoja geenistä säätelyverkkojen helpottamiseksi alatyypin tunnistamista. On yleisesti hyväksytty, että geeni säätelyverkkojen keskeisessä asemassa ovat ymmärtämään mekanismeja sairauksia. Eri syöpä alatyyppejä johtuvat todennäköisesti eri sääntelymekanismeja. Siksi on suuria mahdollisuuksia kehittää menetelmiä, joilla voidaan hyödyntää verkon tiedot tunnistamisessa syövän alatyyppeihin.
Tulokset
Tässä artikkelissa ehdotamme menetelmää, painotetun samankaltaisuus verkko fuusio (WSNF), jotta hyödyntämään tietoja monimutkainen miRNA-TF-mRNA sääntelyverkon tunnistamisessa syövän alatyyppejä. Olemme ensinnäkin rakentaa sääntely verkko, jossa solmut edustavat ominaisuuksia, eli MikroRNA (miRNA), transkriptiotekijöitä (TF: t) ja RNA: iden (mRNA: t) ja reunat osoittavat vuorovaikutuksesta ominaisuuksia. Vuorovaikutuksia haetaan eri atomienväliset tietokannoista. Olemme sitten käyttää verkon tiedot ja ilmaisu tiedot miRNA, TF: t ja mRNA: t voidaan laskea painon ominaisuuksia, jotka edustavat tärkeys ominaisuuksia. Ominaisuus paino sitten integroidaan verkon fuusio lähestymistapa klusterin näytettä (potilasta) ja siten tunnistamaan syövän alatyyppejä. Käytimme myös menetelmää eikä TCGA rintojen invasiivisia karsinooma (BRCA) ja glioblastoma multiforme (GBM) aineistot. Kokeelliset tulokset osoittavat, että WSNF toimii paremmin kuin muut yleisesti käytetyt laskennallisia menetelmiä, ja tiedot miRNA-TF-mRNA sääntelyverkon osallistuu suorituskyvyn parantamiseen. WSNF menetelmää menestyksellisesti tunnistettu viisi rintasyöpä alatyyppiä ja kolme GBM alatyyppiä, jotka ovat merkittävästi erilaisia selviytymisen kuvioita. Havaitsimme, että ilmentymiskuviot ominaisuuksia joissakin miRNA-TF-mRNA aliverkot vaihtelevat eri tunnistetut alatyyppejä. Lisäksi reitti rikastus analyysit osoittavat, että alkuun reitit, joissa kaikkein differentiaalisesti ilmentyvien geenien kussakin tunnistetut alatyyppejä ovat erilaisia. Tulokset antaisi arvokasta tietoa ymmärtämiseksi mekanismien luonnehtivat eri syövän alatyyppejä ja avustaa suunnittelu hoidot. Kaikki aineistot ja R skriptejä toistamaan tulokset ovat saatavilla verkossa osoitteesta: https://nugget.unisa.edu.au/Thuc/cancersubtypes/.
Citation: Xu T, Le TD, Liu L Wang R, Sun B, Li J (2016) tunnistaminen Cancer alatyyppien miRNA-TF-mRNA Regulatory Networks ja Expression Data. PLoS ONE 11 (4): e0152792. doi: 10,1371 /journal.pone.0152792
Editor: Bibekanand Mallick, National Institute of Technology, Rourkela, Intia
vastaanotettu: 13 joulukuu 2015; Hyväksytty 18 maaliskuuta 2016 Julkaistu: 01 huhtikuu 2016
Copyright: © 2016 Xu et al. Tämä on avoin pääsy artikkeli jaettu ehdoilla Creative Commons Nimeä lisenssi, joka sallii rajoittamattoman käytön, jakelun ja lisääntymiselle millä tahansa välineellä edellyttäen, että alkuperäinen kirjoittaja ja lähde hyvitetään.
Data Saatavuus: Kaikki asiaankuuluvat tiedot ovat paperi- ja sen tukeminen Information tiedostoja.
Rahoitus: Tämä työ on osittain tuettu Australian Research Council (https://www.arc.gov.au/) Discovery Project DP130104090 (JL ja LL ), ja National Natural Science Foundation of China 31371340 (BS), https://www.nsfc.gov.cn/publish/portal1/. Rahoittajat ollut mitään roolia tutkimuksen suunnittelu, tiedonkeruu ja analyysi, päätös julkaista tai valmistamista käsikirjoituksen.
Kilpailevat edut: Kirjoittajat ovat ilmoittaneet, etteivät ole kilpailevia intressejä ole.
Johdanto
Sen sijaan, että yksi sairaus, syöpä liittyy erilaisia alatyyppejä ominaista erilaista molekyylien [1, 2]. Tunnistaminen syöpä alatyyppejä on tärkeä tehtävä valitaan oikea hoito potilaille, koska eri syövän alatyyppiä voi vastata hyvin erilainen hoidot. Esimerkiksi estrogeenireseptori (ER) rintasyövän riskiä alatyypin vastaisi hormonihoito, ja ihmisen epidermaalisen kasvutekijän reseptori 2 (HER2) positiivinen alatyyppi on todennäköisesti hyötyy kemoterapiaa. Kuitenkin nykyinen käsitys sääteleviä mekanismeja jokainen syöpä alatyyppi ei ole vielä läheskään valmis.
Useita laskennallisia menetelmiä on kehitetty tunnistamaan syövän alatyyppejä. Nämä menetelmät voidaan jakaa kolmeen eri virtaukset tutkimusta. Ensimmäisessä stream, data mining tai koneoppimismalleja on rakennettu hyödyntämään geeniekspression kerättyä klusterointi näytteistä (potilasta) eri ryhmiin, joista kukin vastaa yhtä syövän alatyypin [3-7]. Kuitenkin hyödyntämällä yksi genominen tietotyyppi ei ehkä riitä yksilöimään syöpään alatyyppeihin tarkasti. Kun etukäteen sekvensointiteknologioihin, useita datatyyppejä syöpäpotilaiden kuten genomista miRNA ja siihen liittyvät kliiniset tiedot ovat saatavilla nykyään. Nämä runsaasti aineistoja johtaa toinen virta tutkimusta, jossa tutkijat analysoidaan erityyppisiä tietoja erikseen tunnistamiseksi alatyyppejä ja saadut tulokset erikseen Sitten integroidaan lopputulokseen. Keskeistä tässä lähestymistavassa ovat [1, 8-10]. Kuitenkin analysoidaan erityyppisiä tietoja erikseen voi menettää täydentäviä tietoja datan saman potilaiden, ja siellä voi olla konfliktin käyttäen saadut tulokset erityyppisiä tietoja. Viimeinen virta tutkimus keskittyy analysoimaan usean omiikka dataa samanaikaisesti ja on tunnistettu joitakin tärkeitä syövän alatyyppejä äskettäin [11-14].
Kuitenkin tiedot geenistä säätelyverkkojen käytetään harvoin nykyisissä laskennallisia menetelmiä. Gene säätelyverkkojen tärkeä rooli jokaisessa elämässä prosessissa, ja dynamiikan ymmärtämiseen näiden verkkojen avulla paljastaa mekanismeja sairauksien [15]. Vaikka merkitys verkko perustuvaa tietoa on käsitelty uudet teokset [16, 17], on edelleen puute hyödyntäviä biologisia tietoja verkostojen tunnistamiseen syöpä alatyyppejä. Lisäksi se on edelleen suuri haaste yhdistää usean omiikka datan ja verkon tietojen syöpä alatyyppejä ja tulokset erityisesti ennusteeseen. Äskettäin Liu et ai. [18] ehdotti NCIS (verkko-avusteista co-klusterointia tunnistamiseen syöpä alalajit) menetelmä hyödyntää ilmentymisen profiilit mRNA: iden ja verkon tiedot mRNA-mRNA vuorovaikutuksia bi-klusterointi tapa löytää syövän alatyyppejä. Kuitenkin geeniregulatiivista verkot ovat monimutkaisia ja niihin liittyy monenlaisia sääntelyviranomaisten lukien miRNA ja TF: iä. On kiinnostavaa hyödyntää tietoja verkoissa, joissa miRNA, TF: ien ja mRNA: t tunnistamisessa syövän alatyyppejä. Tiedot voidaan paitsi parantaa tarkkuutta laskennallisten mallien, mutta myös oivalluksia mekanismeja (sääntely verkot) säännellään kunkin syöpä alatyyppiä.
Tässä artikkelissa ehdotamme menetelmää, jota kutsutaan painotettu samankaltaisuus verkko fuusio (WSNF), tunnistaa syövän alatyyppeihin hyödyntämällä sekä ilmaisun datan ja verkon tietoja miRNA, TF: ien ja mRNA: t. Annettu aineisto, joka sisältää ilmaisun profiilit joukko miRNA, TF: ien ja mRNA: t (tunnetaan ominaisuuksia muualla paperin), WSNF ensin noutaa väliset vuorovaikutukset näitä ominaisuuksia eri atomienväliset tietokannoista rakentaa miRNA-TF-mRNA sääntelyverkon . Verkossa, ominaisuudet edustavat solmujen välinen vuorovaikutus ominaisuudet on merkitty reunat. Me sitten laskea paino (ts merkitys) on ominaisuus hyödyntämällä miRNA-TF-mRNA verkon tiedot ja ilmaisu vaihtelu ominaisuuksia. Lopuksi muuttaa samankaltaisuus verkon fuusio (SNF) lähestymistapa [11] ottaa ominaisuuden paino huomioon clustering potilaiden tunnistamiseen syöpä alatyyppejä.
Käytämme WSNF menetelmää eikä TCGA rintasyövän ja GBM aineistoja. Kokeelliset tulokset osoittavat, että meidän menetelmä on onnistuneesti tunnistettu viisi rintasyöpä alatyyppiä ja kolme GBM alatyyppiä, jotka ovat merkittävästi erilaisia selviytymisen kuvioita. Tiedot siitä miRNA-TF-mRNA sääntelyverkon parantaa verkon suorituskykyä fuusio lähestymistapaa, koska WSNF menetelmä toimii paremmin kuin molemmat SNF [11], verkko fuusio menetelmällä käyttämättä ominaisuus painoa ja NCIS [18], joka käyttää vain mRNA ekspressiotietojen ja mRNA-mRNA vuorovaikutusta. Olemme myös verrata menetelmämme kanssa konsensuksen klustereiden (CC) [7], joka on menetelmä, jota käytetään yleisesti TCGA tutkimukseen. Koetulokset osoittavat, että WSNF menetelmä on myös parempi suorituskyky sekä rintasyövän ja GBM aineistoja. Jotta rintasyöpä aineisto, analysoimme tunnistettu alatyyppejä yksityiskohtaisesti ja raportoitava tuloksista kannalta ilmentymiskuviot, erot miRNA-TF-mRNA säätelyverkkojen poikki eri alatyyppejä, ja funktionaalinen reitit liittyvät kuhunkin alatyyppiä. Tiedot voivat olla arvokkaita avustamiseen hoitoon suunnittelussa erityistä rintasyöpään alatyyppejä.
Materiaalit ja menetelmät
Menetelmä yleiskuvan
Ehdotamme käyttää miRNA-TF-mRNA sääntelyyn verkko auttaa tunnistamista syövän alatyyppejä. On olemassa kolme päävaiheet WSNF menetelmässä (kuvio 1), mukaan lukien: 1) rakennetaan miRNA-TF-mRNA sääntelyverkon, 2) lasketusta painosta kunkin ominaisuuden (miRNA, TF, mRNA), ja 3) muuttamalla ja soveltamalla samankaltaisuus verkko fuusio lähestymistapa [11] tunnistaa syöpään alatyyppeihin, ottaen ominaisuus paino huomioon. Kuvaamme kunkin vaiheen yksityiskohdat seuraavassa.
Vaiheessa 1, vuorovaikutukset miRNA, TF: t ja mRNA: t saatiin tietokannoista käytetään rakentaa miRNA-TF-mRNA sääntelyverkon. Vaiheessa 2, sijoitusta kunkin toiminnon (R) lasketaan perustuen verkon tiedot, ja geeni ja miRNA ilmaisun tietoja käytetään saamaan ominaisuuden ilmaisu vaihtelu (MAD) kaikissa näytteissä. Sitten kunkin ominaisuuden, sen sijoitusta ja ilmaisun vaihtelua yhdistetään saadaan sen paino (W). Vaiheessa 3, painotettu näyte samankaltaisuuden verkot saadaan geeneistä (mRNA: t, TF: t) ja miRNA erikseen käyttämällä painoja ja ekspressiotietojen ominaisuuksia, ja lopulta verkko fuusio ja klustereiden suoritetaan löytää potilasryhmille että merkitse syöpää alatyyppejä.
rakentamassa miRNA-TF-mRNA sääntelyverkon
tässä vaiheessa käytämme eri lähteistä rakentaa miRNA-TF-mRNA vuorovaikutuksen verkkoja. Verkko sisältää erilaisia vuorovaikutuksia, mukaan lukien välillä miRNA-mRNA, miRNA-TF, TF-miRNA, TF-mRNA, TF-TF, ja mRNA-mRNA. Kuvio 2 esittää yksityiskohtia tietolähteistä hakemiseksi eri tyyppisiä vuorovaikutuksia. Kuviossa kunkin vuorovaikutusta on edustettuna linkin jonka lähde on säädin ja nuoli pää on tavoite. Tietolähteet luetellaan vierekkäin tyyppistä vuorovaikutusta.
ensinnäkin saada luettelon TF: ien yhdistämällä TF: iä in Encyclopedia of DNA Elements (KOODAAMISEEN) chip seuraavissa data, TransmiR [19 ] ja FANTOM5 Human transkriptiotekijöitä, jotka ovat saatavilla https://fantom.gsc.riken.jp/5/sstar/Browse_Transcription_Factors_hg19. Lopulta luettelo 1679 TF: istä saadaan (katso S1-tiedosto listalle).
Kuten kuvassa 2, saadaan miRNA-mRNA ja miRNA-TF vuorovaikutuksia kokeellisesti vahvistettu tietokannoista, kuten Tarbase [20 ], mirTarbase [21], mirRecords [22], ja ennustaminen tietokanta STARBASE v2.0 [23]. Tarbase, mirTarbase ja mirRecords sisältävät kuratoi vahvisti vuorovaikutusta kirjallisuudesta. STARBASE v2.0 sisältää liitto sarjaa miRNA-mRNA vuorovaikutukset ennusti viisi miRNA tavoite ennustus ohjelmia (TargetScan, PicTar, PITA, Miranda ja RNA22). Se testaa myös kunkin miRNA-mRNA vuorovaikutus paria perustuu TCGA Pan-syöpä [24] ilme aineistoja. Peruste varmennuskokeen on anti-korrelaatio negatiivisen Pearsonin korrelaatiokerroin (
p
-arvo 0,05) välillä miRNA ja sen tavoite. Meidän verkossa käytämme miRNA-mRNA vuorovaikutus STARBASE v2.0, jotka tukevat ainakin yhden TCGA Pan-syöpä ilme aineisto. Lisäksi miRNA-mRNA vuorovaikutukset johdettu ENCODE data [25] käytetään myös työmme. Vuorovaikutuksesta ovat saatavilla osoitteessa: https://encodenets.gersteinlab.org/.
mRNA-mRNA vuorovaikutukset haetaan Reactome [26] ja STRING v10.0 [27]. Koska sisältämät Reactome ja STRING ovat proteiini-proteiini vuorovaikutus paria, käytämme
org.Hs.eg.db
R paketti [28] kartoittaa proteiini-geenin huomautusta saada vastaavan mRNA-mRNA vuorovaikutusta paria. Valitsemme pisteet cut-off kuin 0,9 STRINGssa v10.0 valitsemiseksi mRNA-mRNA paria korkea uskottavuus meidän verkkoon.
TF sääntelyä, saadaan vuorovaikutukset TF-mRNA ENCODE ChIP -seq data [29] ja transkription Regulatory Element Database (TRED) [30]. ENCODE ChIP-seuraavissa dataa UCSC Genome Browser käsitellään käyttäen laskennallisia putki tuottaa yhtenäinen huiput TF sitovia. TRED on integroitu säilytyspaikka sekä cis- ja trans-säätelyelementit. Se sisältää kuratoi transkription asetuksen tiedot, kuten transkriptiotekijän sitova motiiveja ja kokeellista näyttöä. Me hakea TF-TF vuorovaikutuksia Reactome ja STRING, jossa proteiini-geenin merkintä kartoitus kuin saada TF-TF vuorovaikutusta. Meidän verkko, TF-miRNA vuorovaikutukset saadaan kahdesta lähteestä: TransmiR [19] ja täydentävän tietoja [25], joka on myös saatavilla https://encodenets.gersteinlab.org/.
laskeminen ominaisuus painot
ehdotetun WSNF menetelmä, laskemme paino ominaisuus kahdessa vaiheessa. Ensinnäkin käytämme tietoa miRNA-TF-mRNA verkko on rakennettu edellisessä vaiheessa listalla ominaisuuksia. Sitten ilmaisua dataa käytetään löytää ilmaisun vaihtelu kunkin ominaisuuden kaikissa näytteet aineistot. Vihdoin, paino ominaisuus saadaan yhdistämällä sen sijoitusta ja ilme vaihtelu.
Vaihe 1: Computing ranking ominaisuuksia Google PageRank.
Google PageRank [31, 32] on algoritmi, joka käytettiin alun perin listalla lukuisten verkkosivujen Google Search. Se perustuu suunnattu verkko
G
(
V
,
E
) jos solmut
V
edustavat verkkosivuja ja reunat
E
osoittavat hyperlinkit välillä verkkosivut. Perusoletuksena on, että tärkeä verkkosivu on todennäköisesti enemmän ulkomailta linkkejä muilta sivuilta. Oletetaan on
N
verkkosivuja {
p
1,
p
2, …,
p
N
}. Sijoitusta verkkosivun
p
i
määritellään seuraavasti: (1), jossa
PR
(
p
i
) ja
PR
(
p
j
) ovat Sijoituksille verkkosivuja
p
i
ja
p
j
lla,
p
i
←
p
j
;
d
on vaimennuskerroin, joka on kuin click-through todennäköisyys käyttää rappeutuminen sijoitusta verkkosivuja ilman lähtevät linkit ja 0
d
1;
M
(
p
i
) on joukko verkkosivuja, jotka liittyvät
p
i
; ja
L
(
p
j
) on määrä lähtevien linkkien välillä
p
j
. Joten verkkosivu
p
i
on korkea-arvoinen jos se on sidottu monet muut korkean sijoittui verkkosivut
p
j
. Kiinnostuneille lukijoille, lähentymistä ja laskenta PageRank käyttäen edellä iteratiivista kaavan (eli Eq 1) on kuvattu [33, 34].
Meidän tapauksessamme hyödyntää miRNA-TF-mRNA sääntelyyn verkko listalla ominaisuus, molekyyli- säätelevä monet tavoitteet on tärkeää. Meidän miRNA-TF-mRNA verkko, merkitään
G
(
V
,
E
), solmut
V
ovat ominaisuuksia (miRNA , TF: t ja mRNA: t) ja reunat
E
on vuorovaikutus sääntelyviranomaisten ja tavoitteensa. Suunta reunan on peräisin säädin kohteeseensa. Tärkeä säädin on analoginen tärkeä verkkosivun PageRank, että monet muut verkkosivut linkki, paitsi että säädin on monia linkkejä menossa ulos sitä tavoitteensa. Oletetaan on
N
ominaisuudet {
f
1,
f
2, …,
f
N
}. Ranking (sääntely merkitys) on ominaisuus
f
i
voidaan määritellä seuraavasti käyttäen modifioitua PageRank algoritmia: (2) missä
R
(
f
i
) ja
R
(
f
j
) ovat rankingissa ominaisuuksia
f
i
ja
f
j
lla,
f
i
→
f
j
;
d
on vaimennuskerroin, ja 0
d
1;
T
(
f
i
) on joukko tavoitteita, jotka
f
i
säätelee ; ja
L
(
f
j
) on määrä sääntelyviranomaiset, jotka säätelevät
f
j
.
R ja Matlab-skriptit computing ominaisuuden sijoitus vuodesta miRNA-TF-mRNA sääntelyverkon annetaan S2 File.
Vaihe 2: integrointi ominaisuus ranking ja ominaisuus vaihtelu.
ilmaisu vaihtelua näytteet on tärkeä indikaattori tutkimuksen syövän genomista tietoa. Piirteet (esimerkiksi geenien) korkeamman ilme vaihteluita pidetään aina tärkeämpää biologinen markkeri syövän mekanismeja. Käytämme mediaani absoluuttinen poikkeama (MAD) edustamaan ilmaus vaihtelun ominaisuus. MAD on ominaisuus
f
i
lasketaan seuraavasti: (3), jossa
X
(
f
i
) on numeerinen vektori, joka edustaa ilmaus arvoja ominaisuus
f
i
kaikissa näytteissä (potilasta).
integroida ominaisuus vaihtelua ominaisuus sijoitusta, NCIS [18] seuraa ajatusta GeneRank [35] yksinkertaisesti korvata osa [] Googlen PageRank-algoritmin kanssa MAD saamiseksi lopulliseen painoon ominaisuus. Kuitenkin huomaamme, että lopullinen paino on saatu tällä tavoin sekä GeneRank ja NCIS korreloi voimakkaasti ominaisuus paino suoraan laskea Eq 2, eli käyttämättä MAD. Vahva korrelaatio merkitsee sitä, että lähestymistapaa kaksi tapaa integroida MAD ei ole tehokas, sillä se osoittaa vaihtelu tietoja ei heijastuu lopulliseen painoon saatu käyttämällä lähestymistapaa. Yksityiskohtaiset tulokset tähän havaintoon on esitetty S3 File.
Tämän ongelman ratkaisemiseksi, hyväksymme lineaarinen malli tehokkaasti integroida ominaisuus sijoitusta ja ominaisuus vaihtelu tässä asiakirjassa. Olemme ensinnäkin normalisoida ominaisuus ranking saatu miRNA-TF-mRNA sääntelyverkon ja ominaisuus vaihtelu ekspressiotietojen seuraavasti: (4) (5) B
Lineaarinen malli on levitetään sitten yhdistää nämä kaksi toimenpidettä päästä lopullinen paino kunkin toiminnon. (6), jossa
β
on viritys parametri tärkeyttä miRNA-TF-mRNA sääntelyyn verkkotietojen. Mitä suurempi arvo
β
on tärkeämpi rooli tiedon, että miRNA-TF-mRNA sääntelyverkon pelaa Laskettaessa lopullista painoa ominaisuuksia. Meidän kokeissa asetamme
β
0,8 keskittyä enemmän verkon tietoja syövän alatyypin löytö.
Painotettu samankaltaisuus verkko fuusio
Hyödynnämme ominaisuus painotiedot avustaa tunnistamisen syövän alatyyppejä geenistä ekspressiotietojen ja miRNA ekspressiotietojen. Tätä varten me muuttaa samankaltaisuus verkon fuusio (SNF) menetelmää [11] sisällyttämään ominaisuus paino on saatu edellisessä vaiheessa prosessiin syövän alatyypin luokitus.
SNF on monen omiikka tietojenkäsittelytapaa joka rakentaa fuusio potilaan samankaltaisuutta verkon integroimalla potilaan samankaltaisuus on saatu kunkin genomisen tietotyyppejä. SNF laskee samankaltaisuutta käyttävien potilaiden kukin yksittäinen tietotyyppi erikseen. Yhtäläisyyksiä potilaita erilaiset tiedot ovat sitten integroitu rajat verkko diffuusio prosessi rakentaa fuusio potilas samankaltaisuus matriisi. Lopuksi klusterointi menetelmää sovelletaan fuusio potilaalle samankaltaisuus matriisi klusterin potilaille eri ryhmiin, jotka edellyttävät erilaisia syövän alatyyppejä.
keskeinen vaihe SNF on määritellä samankaltaisuuden potilaille, kuten meidän ositusta samanlainen potilaille samaan ryhmään (alatyyppi). Euklidinen etäisyys käytetään SNF mittaamaan samankaltaisuuden potilasta yhden genomista datatyypin, jossa kuitenkin kaikki ominaisuudet käsitellään yhtä tärkeitä. Oletetaan, että on olemassa mentymisprofiili aineisto (
n
potilaiden ×
p
ominaisuudet), sitten Eukleideen etäisyyden potilaan
S
i
ja potilas
S
j
on: (7) missä ja ilmentävät arvoja
f
m
vuonna potilaat
S
i
ja
S
j
, vastaavasti.
muuttaa potilaan etäisyyttä kaavan seuraavasti ottaa paino kunkin toiminnon huomioon: (8) B-
käyttämällä edellä modifioitua etäisyyden kaavan ehdotettu WSNF menetelmä katsoo samankaltaisuutta kahden potilaan, joka perustuu ei ainoastaan yleistä eroa ekspressiotasoja kaikkien niiden ominaisuuksia, mutta myös, että on tärkeää (paino) kunkin ominaisuuksia. Kuten me hyödyntää miRNA-TF-mRNA verkkotiedot laskennassa ominaisuus painon ja menetelmämme kohtelee erilaisia ominaisuuksia eri tavalla, näemme, että tulokset ja keskustelu § että WSNF merkittävästi päihittää SNF ja muut yleisesti käytetyt menetelmät niiden syöpä alatyyppejä.
tulokset ja keskustelu
Tietoaineistot
tässä tutkimuksessa käytämme BRCA ja GBM aineistoja The Cancer Genome Atlas (TCGA) meidän kokeet, mukaan lukien geeni (mRNA ja TF) ekspressiotietojen miRNA ekspressiotietojen ja kliiniset tiedot (yleinen elinaika, selviämistila ja jonkin verran kliinistä kovariantteja). Taso 3 TCGA kasvain näytteet ladataan Broad GDAC Firehose (aikaleima: 04.02.2015). Saada eniten määrä Hyväksytty näytteitä molempien syöpiä, käytämme RNASeq ja miRNAHiseq tiedot BRCA ja mikrosirujen tiedot GBM.
Geenit ja miRNA hyvin alhaiset ekspressiotasot ja matala eroja: näytteitä poistetaan. Eri katkaisurajapisteet valitaan perustuvat jakamisesta ominaisuuksista BRCA ja GBM aineistot (katso S3 File). Sillä BRCA RNASeq ja miRNAHiseq aineistoja, me ensin käyttää
log
2 transformaation esikäsittelytarve niitä, joita käytetään yleisesti RNA-sekvensointi tietoja käyttöön
DESeq2
[36] R paketti . Laskemme keskimääräisen arvon kunkin ominaisuuden poikki näytteitä ja poistaa 25% geeneistä ja 60% miRNA alhainen keskimääräinen ilme. Sitten keskihajonta kunkin geenin ja miRNA lasketaan, ja geenit ja miRNA keskihajonta alle 0,5 poistetaan myös. Sillä GBM microarray tiedot, on olemassa puuttuvia havaintoja. Olemme ensinnäkin soveltaa syyksi käyttämällä
imputoidaan
R pacakage [37]. Sitten laskemme keskihajonta kunkin geenin ja miRNA. Geenit keskihajonta alle 0,6 ja miRNA keskihajonta alle 0,2 poistetaan. Yksityiskohtainen käsittely menettely aineistot kirjataan S3 File. Lopulta on 587 Hyväksytty näytettä BRCA kanssa 12233 mRNA 1338 TF: t ja 361 miRNA. Tätä ennen, GBM on 276 Hyväksytty näytteiden 10278 mRNA: t, 1083 TF: t ja 287 miRNA (katso S3 File).
Verkon rakentaminen
Kuten Materiaalit ja menetelmät jaksossa, käytämme useita julkisia tietokantoja rakentaa miRNA-TF-mRNA sääntelyverkon. Taulukossa 1 esitetään vuorovaikutusten määrä niistä tietolähteistä rakentamiseksi sääntely verkkojen BRCA aineisto. Samanlaisia tietoja GBM aineisto on S3 File.
Tunnistetut alatyyppejä ovat merkittävästi erilaiset selviytymisen kuvioita
Kun rakennetaan verkostoja ja BRCA ja GBM ilmaisun aineistoja, WSNF yksilöidään viisi rintasyöpä alatyyppejä ja kolme GBM alatyyppiä. Tunnistetut syöpä alatyyppejä ja siihen liittyvät kliiniset tiedot rintasyövän ja GBM on annettu S4 ja S5 tiedostot. Arvioida, miten hyvin meidän menetelmä on esiintynyt tunnistamaan syövän alatyyppeihin, käymme selviytyminen analyysi tunnistettu syöpää alatyyppejä. Kuviot 3 ja 4 esittävät eloonjäämiskäyrien potilaista viisi alatyyppiä, BRCA ja kolme alatyyppiä GBM, vastaavasti.
p
-arvot päässä Log-rank testit [38] ovat 0,00483 varten BRCA ja 0,00279 varten GBM. P-arvot viittaavat siihen, että tunnistetut alatyypeistä sekä aineistot ovat merkittävästi erilaiset selviytymisen malleja, mikä osoittaa eri syövän alatyyppejä vastaavasti.
j
,
n
j
,
s
i
Silhouette juoni ovat alatyyppiä etiketti, potilaiden määrä on alatyypin ja Silhouette leveys potilaan
i
, vastaavasti.
j
,
n
j
,
s
i
Silhouette juoni ovat alatyyppiä etiketti, potilaiden määrä on alatyypin ja Silhouette leveys potilaan
i
, vastaavasti.
Lisäksi käytämme Silhouette leveys [39] ja musta-valkoinen heatmap osoittamaan johdonmukaisuutta näytteistä (potilasta) kussakin alatyypin ja ero eri alatyyppejä, vastaavasti. Kuten kuvioista 3 ja 4, yleinen keskiarvo siluetti leveys arvot ovat positiivisia sekä BRCA ja GBM. Huomaa, että Silhouette leveys arvo on positiivinen, jos näytteet kussakin alatyyppi ovat johdonmukaisia, ja negatiivinen toisin. Samaan aikaan, musta-valkoinen lämpökarttoja muodostetaan matriisi näytteen samankaltaisuuden järjestämällä näytteet mukaan klusterin tarrat. Lohko rajoja kaikki alalajit ovat hyvin selkeitä. Erityisesti kolmannen alatyypin BRCA on korkea siluetti leveysarvoon ja selkeä kontrasti musta-valkoinen heatmap, mikä viittaa ainutlaatuiset ominaisuudet potilaiden tämän alatyypin.
verkkotietojärjestelmäprojekti tunnistaminen kehittyy syöpä alatyyppejä
tutkimaan, ovatko tiedot miRNA-TF-mRNA sääntelyverkon todella auttaa parantamaan tunnistamista syövän alatyyppejä, vertaamme WSNF menetelmää aiemmin ehdotettujen menetelmien kuten NCIS [18], Consensus klustereiden (CC ) [7], ja SNF [11]. NCIS käytetään geenien ilmentyminen tietoja ja tietoja mRNA-mRNA vuorovaikutusta. CC on yleisesti käytetty klusterointi menetelmää TCGA tutkimuspaperit [1, 8, 40-42], joka perustuu yhteen genomista tietotyyppi. SNF on useita genomitiedon fuusio ja klustereiden menetelmällä, mutta ei käytä tietoja geenistä säätelyverkkoja. Jotta vertailu olisi oikeudenmukainen, meidän käsitellyt aineistot (BRCA GBM) ja rakennettu miRNA-TF-mRNA säätelyverkkojen käytämme geeniekspression data ja purkaa mRNA-mRNA vuorovaikutukset kuin tulo verkkokorttia. Me liität normalisoitu geenien ilmentyminen tietoja ja normalisoitu miRNA ekspressiotietojen kullekin potilaalle lähtötiedot CC. Panokset SNF ovat geenien ilmentyminen tietojen ja miRNA ekspressiotietojen. Panokset meidän WSNF menetelmän ovat geeniekspression data miRNA ekspressiotietojen ja miRNA-TF-mRNA säätelyverkkojen. Teemme selviytymisen analysoi tunnistettujen alatyyppien kunkin menetelmiä ja vertailla
p
-arvot on Log-rank testit [38] arvioida merkityksen eri elossapysymisaikajakaumat puolilla alatyyppejä.
taulukosta 2 nähdään, että WSNF on huomattavasti alhaisempi
p
-arvot kuin muut yhteiset menetelmät sekä BRCA ja GBM aineistoja. Kun
β
on asetettu 1, painoa ominaisuudet on täysin määräytyy miRNA-TF-mRNA sääntelyverkon. Tulokset osoittavat, että WSNF menetelmä on parempi kuin muut nykyiset menetelmät, mikä viittaa siihen, että tiedot miRNA-TF-mRNA sääntelyverkon auttaa parantamaan tunnistamista alatyypeistä. Huomaamme myös, että menetelmä toimii varsin hyvin sekä aineistot kun
β
on 0,8 (joka on oletusarvo käyttää
β
).
Rintasyöpä alatyyppejä näyttää eri ekspressiokuvioiden
edellisessä osassa, olemme osoittaneet suorituskyvyn WSNF käyttäen BRCA ja GBM aineistoja. Tulokset viittaavat siihen, että WSNF on joka löytää syövän alatyyppejä erottuva selviytymisen kuvioita ja meidän menetelmä päihittää nykyisten syövän alatyypin tunnistusmenetelmiä. Me tutkimme mRNA, TF ja miRNA ekspressiokuvioiden kaikissa viidessä eri rintasyöpä alatyyppejä. Samanlainen [8], oletamme ”kairausnäytteitä”, joka tunnistetaan sen perusteella, niiden Silhouette leveys ottamalla näytteitä negatiivisin Silhouette leveysarvoja kussakin alatyyppiä. On 502 näytteitä positiivisin Silhouette leveysarvoja kaikissa viidessä alatyyppiä. Olemme myös saada 69 normaalin näytteitä TCGA vertailuun. Lämpökamerakuvissa mRNA, TF, ja miRNA ilme on esitetty kuvassa 5. Kun normaali ryhmä ohjearvon, voimme nähdä kuvassa, että ekspressioprofiileja väliset alatyyppejä ovat huomattavan erilaiset.
on tarkemmin ilmentymiskuviot geenien luonteenomaiset kunkin alatyypin, käytämme
Voom
[43] menetelmän ja
Limma
[44] R Package löytää ilmentyvät eri geenit (oikaistu
p
-arvo 0,01) jokaisen alatyypin ja normaali näytteitä. Valitsemme alkuun 1500 differentiaalisesti ilmentyvien geenien jokaisessa alatyyppi analyysiä varten. Kuvio 6 esittää päällekkäisyys erilaisesti ilmaisi geenien poikki alatyyppejä. On 473 yhteisiä ilmentyvät eri geenit kaikki alalajit. Samaan aikaan jokainen alatyypin on niiden geenit (alatyyppi 1: 271, alatyyppi 2: 82, alatyyppi 3: 393, alatyyppi 4: 291, alatyyppi 5: 157). Yhteinen geenit kaikissa viidessä alatyyppiä ja alatyyppi-geenit luetellaan S6 File. Vaikka on olemassa joitakin yhteisiä differentiaalisesti ilmentyvien geenien kaikkien alatyyppien, niiden ilmentymisen kuviot ovat varsin erilaisia, kuten on esitetty kuviossa 7. Tässä jälkimmäisessä osassa, teemme polku analyysi alatyypin-geenejä tutkia niiden funktion ominaisuudet kunkin alatyypin.
muutokset säätelyverkkojen poikki rintasyöpä alatyyppejä
pura TF geeni
BCL11A
näyttää muutokset mirna-TF-mRNA sääntelyverkon poikki tunnistettu rintasyöpä alatyyppejä.
BCL11A
on esikasvaintekijän joka on merkittävä vaikutus rintasyövän [45]. Kuten kuvassa 8,
BCL11A
ilmenee vahvasti alatyyppi 3, mutta nöyrä ilmaistuna muihin alatyyppeihin. Kartoitamme potilaista alatyyppi 3 kliinisiä tietoja ja huomaamaan, että 73,5% potilaista ovat triple-negatiivinen luokan, kuten ER, PR- ja HER2-.