PLoS ONE: Bayes Pathway Analysis of Cancer Microarray Data
tiivistelmä
High Throughput Biologiset tiedot (HTBD) edellyttää yksityiskohtaista analyysimenetelmät ja life science näkökulmasta nämä analyysitulokset järkevintä kun tulkitaan puitteissa biologisen reittejä. Bayes-verkot (BNS) kuvata sekä lineaarinen ja epälineaarinen vuorovaikutusta ja käsitellä stokastisen tapahtumien todennäköisyyksiin kehyksen osuus kohinan sen kannattavuus ehdokkaita HTBD analyysiä. Olemme äskettäin ehdottanut lähestymistapaa, jota kutsutaan Bayes Pathway Analysis (BPA), analysointiin HTBD käyttämällä BNs alueella tunnetut biologiset reitit mallinnetaan BNs ja polkuja, jotka parhaiten selittävät annettuja HTBD löytyy. BPA käyttää kertaluokkamuutos hankkiminen tulo matriisin pisteet jokaisen koulutusjakson mallinnetaan BN. Pisteytys saavutetaan käyttämällä Bayes-Dirichlet’n Vastaava menetelmä ja merkitys arvioidaan satunnaistamista kautta bootstrap sarakkeiden tulon matriisin. Tässä tutkimuksessa olemme parantaa BPA tehokkuutta optimoimalla vaiheista ”Data esikäsittely ja Diskretointi”, ”Scoring”, ”merkitys Assessment”, ja ”Ohjelmiston ja Web Application”. Testasimme parannetun järjestelmän synteettisiä aineistoja ja saavuttaa yli 98% tarkkuudella tunnistamaan aktiivisen reittejä. Yleinen lähestymistapa sovellettiin todellisiin syöpään microarray aineistoja selvittääkseen polkuja, jotka ovat yleisesti toimivat eri syöpätyyppejä. Vertasimme havainnot reaalilukulukupareihin asettaa kanssa asiaa lähestymistapa nimeltään Signaling Pathway Impact Analysis (SPIA).
Citation: Korucuoglu M, ISCI S, Ozgur A Otu HH (2014) Bayes Pathway Analysis of Cancer microarray Data. PLoS ONE 9 (7): e102803. doi: 10,1371 /journal.pone.0102803
Editor: Raya Khanin, Memorial Sloan Kettering Cancer Center, Yhdysvallat
vastaanotettu: 14 helmikuu 2014; Hyväksytty: 24 Kesäkuu 2014; Julkaistu: 18 heinäkuu 2014
Copyright: © 2014 Korucuoglu et al. Tämä on avoin pääsy artikkeli jaettu ehdoilla Creative Commons Nimeä lisenssi, joka sallii rajoittamattoman käytön, jakelun ja lisääntymiselle millä tahansa välineellä edellyttäen, että alkuperäinen kirjoittaja ja lähde hyvitetään.
Rahoitus: Tämä työ tukivat tieteellistä ja teknologista Research Council of Turkey (TUBITAK) lupanumeroon 111E042 (HHO). Rahoittajat ollut mitään roolia tutkimuksen suunnittelu, tiedonkeruu ja analyysi, päätös julkaista tai valmistamista käsikirjoituksen.
Kilpailevat edut: Kirjoittajat ovat ilmoittaneet, etteivät ole kilpailevia intressejä ole.
Johdanto
Bayes Network (BN) mallit ovat kasvattaneet suosiotaan oppimisen biologisten jaksot microarray geenien ilmentyminen tietojen [1], [2]. BNs edustavat riippuvuus rakenne joukon satunnaismuuttujia käyttäen suunnattu syklitön verkko ja on käytetty kasvava suosio matematiikan ja laskennallisen tieteen viimeisten 20 vuoden aikana. Kuitenkin nykyinen BN sovellukset rajoittuvat jäsentää oppimisen avulla Havaintojen ja siksi toimivat vain muutamia satoja muuttujia rakenteesta oppimisen algoritmeja laskennallisesti monimutkainen. Tämä puolestaan johtaa tehottomaan käyttöön HTBD, jotka sisältävät paljon suuremman määrän muuttujia.
From biotieteiden näkökulmasta, data analyysitulosten järkevintä kun tulkitaan puitteissa biologisten verkkojen ja polkuja. Aiemmin perustettu yksittäinen geeni analyysi perustuu menetelmiä on laajennettu verkko ja reitin mittakaavan enimmäkseen tapaan geeniperimä analyysi (GSA) [3], [4] tai Gene ontologia (GO) lähestymistavat [5] – [7], joka keskittyy määritetään ennalta geenin sarjaa tai luokat, jotka ovat merkittävästi säännelty. Nämä lähestymistavat pitävät tulo geenien ja kohdegeenin sarjaa ja luokat yksinkertaisesti
luetteloita
ja eivät sisällä niiden mallien topologian kautta, mitkä geenit näissä luokissa vuorovaikutuksessa toistensa kanssa. Muita suosittuja kaupallinen näkökulma, kuten Ingenuity Pathway Knowledge Base (Ingenuity Inc., Kalifornia) tai PathwayAssist (Ariadne Genomics, Kalifornia) myös tunnettujen polkuja aktiivisina perustuu HTBD yksinkertaisesti huomioon joukko geenejä yhteinen tulo luettelosta ja tavoite polku. Kaikki aferomentioned menetelmiä käyttää joitakin vaihtelua tärkein ajatus siitä, että toiminnallinen luokka on merkitystä havaitun HTBD jos luokka hallussaan tilastollisesti merkittävän määrän tulo geenin luettelosta.
Olemme äskettäin ehdottanut lähestymistapaa, jota kutsutaan Bayes Pathway Analysis (BPA), analysointiin HTBD käyttäen BNs [8]. Vuonna BPA puitteissa tunnettuja reittejä mallinnetaan BNs ja käsitelty HTBD käytetään pisteet kunkin verkon arvioida sen kunto havaitun datan; saavuttaa työnkulun, joka sisältää sen mallin topologian polkuja. On sittemmin lähestymistapoja, jotka mallintavat reitin topologiaa jossain määrin analyysi HTBD [9] – [14]. Mitä yleistettäviä ja suorassa suhteessa ulostuloon BPA, olemme käyttäneet signalointireitin Impact Analysis (SPIA) [15] meidän vertailuissa. SPIA yhdistää GSA perustuu reitin aktivointi toimenpide, jolla oli uusi polku häiriön pisteet, joka kuvastaa sitä, missä määrin vapauttamisen geenien koulutusjakson on yhdenmukaiset signalointi hierarkian.
BPA lähestymistapa, reitit ovat noudettu Kegg tietokannasta [16]. Jokainen merkintä (solmu) in koulutusjakson kartoitetaan sisäinen yksilöllinen tunnus ja muuntaminen moduuli suorittaa tarvittavat kartoitus tulo geenien ilmentymisen tunnukset ja polku solmun tunnukset. Toistuvat merkinnät koulutusjakson yhdistetään ja esittää yhtenä solmu säästäen reuna suhteita. BN teoria hyödyntää suunnattu syklitön verkko (DAG), mutta voi olla syklejä biologisessa reittejä. Tämä voitetaan käyttämällä Spirtes ”menetelmää, jossa kuvaaja esityksiä rakenteellisista mallintuu [17] muunnetaan romahtanut asykliset kaavioita niin että d-erotukset kokoontaitetussa kuvaajan liity samanlaisia riippumattomuus suhteita määrittelemän mallin. Tätä varten biologinen polku mallinnetaan BN, joka nyt voidaan testata vastaan lähtötietoja arvioida sen kunto.
BPA olettaa kahden ryhmän (esim tapaus vs. kontrolli) normalisoitu geenien ilmentyminen tietoja tulo. Havaintomatriisi viereen kunkin DAG saadaan tuottavan kertainen muutos (FC) arvot kunkin parin näytteet kahteen ryhmään. Tässä matriisissa, pylväät edustavat geenien DAG ja rivit edustavat pairwise vertailuja. Jos on
N
1
ja
N
2
näytteet kahteen ryhmään, havaintomatriisi koostuu
N
1 x N
2
riviä. Kukin pylväs edustaa FC varten vastaavan geenin kussakin
N
1 x N
2
pairwise vertailuja. Nämä jatkuva FC arvot diskretoidaan käyttäen cut-off 2. Jos FC-arvo on suurempi kuin 2 tai alle 0,5 (eli geeni on vapautettu), se muunnetaan 1, ja muuten se muunnetaan 2.
, missä määrin reittiä selittää tietyn HTBD mitataan käyttäen Bayes Dirichlet’n vastaava (BDE) pisteet vastaavia näytekoko menetelmä [18]. Tässä vaiheessa BN päivitetään havaintomatriisi aikana pisteet laskennan. Tilastollinen merkitys tämän mittauksen arvioidaan testaamalla sitä vastaan tietosarjat soveltamalla satunnaistamista kautta bootstrap jossa havaittua pisteet sijoittuu vasten tulokset saadaan satunnaistettiin aineistoja. Bootstrapping levitetään sarakkeet havainnointimatriisin tarjoaa satunnaistamisen rivit, joita käytetään pisteytys. Tulokset arvioidaan nimellisen p-arvoja ja vääriä löytö määrä (FDR) arvot korjaamalla useita hypoteeseja testaus.
Tässä artikkelissa, meillä on kaksi perustavanlaatuista tavoitetta. Ensimmäinen tavoite on parantaa BPA järjestelmään käyttämällä seuraavia strategioita. Jotta voidaan optimoida diskretoin vaiheessa yritimme Equal Leveys, Equal Frequency, K-means, sarake K-means, Kaksisuuntainen K-means, ja automaattinen Threshold Diskretointi [19], [20] lisäksi kovan leikattu off tasot tarjoamia BPA. Vuonna pisteytyksen vaiheessa, haimme Akaike Information Criterion (AIC) [21], Bayes Information Criterion (BIC) [22], ja Factorized normalisoitu suurimman todennäköisyyden (fNML) [23] ja verrattiin tuloksia BDE pisteytyksen järjestelmään. Merkityksen arviointiin käytettiin muutettiin niin, että satunnainen tietokokonaisuuksien hankittu geenin signaalitaso. Tässä lähestymistavassa, näytteet kussakin kaksi luokkaa ovat satunnaisesti permutoidaan tarjota uusia aineistoja [24]. Jokainen uusi tietojoukko (uudet luokan toimeksiantoja jokaisesta näytteestä) ajetaan läpi koko työnkulun ja pisteet lasketaan. Tällä tavoin voimme ratkaista silloin kun nykyisessä BPA lähestymistapa ei toimita satunnaistettu aineistoja. Testauksessa näitä lähestymistapoja tuottamaamme synteettinen microarray data, joka simuloi Geeniekspression
N
polkuja missä osajoukko,
N
, näistä reiteistä on aktiivinen. Suorituskriteerinä arvioidaan ennustamiseen aktiivisen ja passiivisen polkuja. Lisäksi parantaa muistin ja suorittimen käyttö algoritmin, me myös uusia organismeja, joita varten BPA järjestelmää voidaan käyttää ja tarjoamme portaalin osoitteessa https://bioinfo.unl.edu/bpa/joka isännöi stand alone versio optimoitu ohjelmiston mukana opetusohjelma ja esimerkki aineistoja.
toinen tavoite tässä tutkimuksessa on soveltaa parannettua reitin analyysiin, todellisiin syöpään aineistoja. Tätä tarkoitusta varten olemme ladattu todellinen microarray aineistoja NCBI: n GEO tietokannan osalta virtsarakon, aivojen, rinnan, paksusuolen, maksan, keuhkojen, munasarjojen ja kilpirauhassyövän. Olemme tutkineet polkuja, jotka ovat yleisesti todettu aktiivisesti näiden eri syöpää microarray aineistoja.
Methods
Class Label Permutation
Alkuperäisessä BPA järjestelmä, havaintoaineiston matriisi for BN pisteytys koostuu 2-tason diskretoidaan FC tasot geenien verkon pisteytettävien. Se, missä määrin reittiä selittää tietyn HTBD mitataan käyttäen ”Bayesian Dirichlet’n vastaava” (BDE) pisteet ja tilastollista merkitystä tämän mittauksen arvioidaan satunnaistamista kautta bootstrap jossa havaittua pisteet sijoittuu vasten tulokset saadaan satunnaistettiin aineistoja. Satunnaistettiin aineistoja saadaan muuttamalla rakennetta sarakkeet havainnointimatriisin kautta otto vaihto kunkin sarakkeen erikseen.
Taulukossa 1 osoitetaan, kaksi näytettä tapauksissa tällaisen tulon matriiseja. Tässä sarakkeet tarkoittavat geenit ja rivit tarkoittavat pareittain vertailun näytteiden kahden näytteen ryhmät (esimerkiksi syöpä vs. normaali). Aferomentioned satunnaismenetelmää (alunperin palveluksessa BPA) toimii menestyksekkäästi, kun havainto matriisi kuin taulukossa 1 (a) on tapaus, jossa tietty sarake ei koostu ainoastaan yhdenlaista havainto. Jos havaintomatriisiin osoittautuu yhtä taulukon 1 (b), jossa pylväät edustavat vain yhdenlaisia havainto, Randomizing sarakkeet havaintomatriisin ei aiheuta mitään muutosta. Näin ollen tulokset on saatu satunnaistettiin aineistoja on sama, mikä merkitys arviointi lähes mahdotonta saavuttaa. On mahdollista saada matriisit, kuten viimeksi mainitussa tapauksessa, eli matriisin, jossa tietyn sarakkeen koostuu vain samalla tasolla, kun geeni osoittaa saman verran ja suunnan muutoksen välillä kaksi luokkaa. Toisin sanoen, jos geeni tietyssä reitti on jatkuvasti 2 tai enemmän FC yläreguloituja yhden luokan verrattuna muihin, me lopulta ottaa sarakkeessa tämän geenin koostuvan ainoastaan saman diskreetillä tasolla.
jotta tämän ongelman voittamiseksi olemme soveltaneet permutaatio edellä kuvatun menetelmän sattumanvaraisesti geenien ilmentymistä aineistoja [24]. Tämä satunnaistaminen tapahtuu korvaamalla näytteitä kustakin luokan sattumanvaraisesti. Oletetaan, että meillä aineisto koostuu 10 normaalin ja 10 syöpänäytteissä. Yhdessä tapauksessa permutaatioryhmän, esimerkiksi 3
rd, 5
th, ja 6
th normaali näytteet korvataan 1
st, 7
th, ja 9
th syöpä näytteitä. Havainto matriisi muodostetaan pareittain vertaamalla signaalin arvot koko uuden järjestyksen kahteen luokkaan sen jälkeen diskretointi. Tämä menettely toistetaan
B
kertaa ja koulutusjakson tulokset lasketaan käyttämällä diskretoidaan matriiseja. Tämän seurauksena tilastollinen merkitys havaittujen pisteet voidaan arvioida tarkasti kautta ranking vastaan tulokset on saatu eri havainnon matriiseista syntyy näiden
B
satunnaistettiin aineistoja. Jos tulos tietyn reitin on Sn, sen p-arvo arvioidaan jossa
I (a) B on 1, jos
on ”tosi” ja 0 muutoin. Merkitys kunkin reitin ilmoitetaan tällä nimellisellä p-arvo ja vastaava väärä löytö määrä (FDR) laskettu käyttäen Benjamini-Hochberg menettely [25]
Diskretointi
BPA hyödynnettiin diskretoin menetelmä niin että jatkuva FC arvo on yhtä kuin 1, jos se on suurempi kuin 2 tai alle ½ (eli geeni on väärin säädellystä), ja koska 2 toisin. Toinen käyttö 2-tason diskreetti valinnut cut-off-arvoon 3, eli FC on edustettuna 1 jos sen arvo on suurempi kuin 3 tai alle 1/3 ja 2 toisin. 3-tason diskreetillä kanssa kynnysarvon 2 kertainen muutos on edustettuna 1 jos sen arvo on suurempi kuin 2, koska 2 jos alle ½, ja 3 toisin. 3-tason diskreetillä kanssa cut-off-arvoon 3, taitteen muutos on edustettuna 1 jos sen arvo on suurempi kuin 3, esimerkiksi 2 jos alle 1/3, ja 3 toisin.
tässä tutkimuksessa, ehdotamme uusia diskretisointitaso menetelmiä [19], [20] voidaan hyödyntää prosessoitaessa havaitut kertaluokkamuutos arvot käyttöön Bayes pisteytys mittareita.
N
-by-
M
matriisi
E
käytetään tarkoittamaan havaitun FC matriisi, jossa
N
on määrä pareittain vertailuissa ja
M
on joukko geenejä.
E (n, m) B merkitsee FC arvon vertailun
n
geeniä
m
.
E (n, 🙂
tarkoittaa FC tietojen vertailun
n
kaikkien geenien, ja
E (:, m) B merkitsee FC tiedot geenin
m
kaikille vertailuissa.
Equal Leveys Diskretointi (EWD).
EWD jakaa havaintomatriisiin rivi
n
osaksi
k
väliajoin yhtäläisen välinen leveys
E (n,:)
min
ja
E (n,:)
max
. Siten välein vertailun
n
on leveys
w
=
(E (n,:)
max
–
E (n,:)
min) B /
k
, jossa rajan pistettä
E (n,:)
min + w, E (n,:)
min + 2w, … , E (n,:)
min + (k – 1) w
jossa
k
on positiivinen kokonaisluku.
Equal Frequency Diskretointi (EFD).
EFD jakaa järjestetty
E (n, 🙂
osaksi
k
väliajoin siten, että kukin aikaväli sisältää saman määrän FC-arvot.
K-means Diskretointi .
K-means jakaa
E (n, 🙂
osaksi
k
välein k-means klusterointi jotta vastaavat FC arvot verrattuna
n
sijoitetaan samalla aikavälillä.
Pylväs K-tarkoittaa Diskretointi (Co-k-means).
Co-k-means jakaa
E (:, m)
tulee
k
välein k-means klusterointi jotta vastaavat FC arvot geenin
m
sijoitetaan samalla aikavälillä.
Kaksisuuntainen K-means Diskretointi (Bi -k-välineet).
bi-k-tarkoitetaan menetelmää sekä k-means ja co-k-means ovat vastaavasti toteutettu parametri
k + 1
, jolloin jokainen FC arvo kaksi diskretoidaan arvot. Jos tuote on kahdesta arvosta on suurempi tai yhtä suuri kuin
x
2
, ja vähemmän kuin
(x + 1)
2
, lopullinen diskretoidaan arvo tämän lauseke arvo on
x
, jossa
x
on positiivinen kokonaisluku
1
ja
k
.
Automaattinen Threshold Diskretointi .
on kaksi vaihtoehtoa automaattisen kynnyksen diskretointi, joka iteratiivisesti määrittää raja-arvot, minimoimalla varianssi. Koko FC data
E
on jaettu kahteen välein mukaan tietty raja-arvo globaalissa vaihtoehto. Paikallinen vaihtoehto Tämän menetelmän erot
E (:, m) B kahteen välein mukaan raja-arvot määritellään kunkin sarake (geeni) erikseen.
Pisteytys
lisäksi BDE pisteytyksen järjestelmään, ehdotamme seuraavat pisteet mittatietoja käytettävä BPA järjestelmässä.
Akaike Information Criterion (AIC).
AIC on yksi yleisimmin käytetty tietojen kriteerit , joka valitsee mallin, joka minimoi negatiivisen todennäköisyyden rangaistaan useissa parametrien [21]: missä on suurin todennäköisyys mallin
M
,
D
havaitaan dataa, ja p on muuttujien määrää mallissa.
Bayes Information Criterion (BIC).
BIC on toinen laajalti käytetty tiedon kriteerit ja toisin kuin AIC, BIC on johdonmukainen ja parantaa suorituskykyä suuret otoskoot [ ,,,0],22]. BIC on määritelty seuraavasti:
BIC eroaa AIC vain toinen termi, joka riippuu otoksen koosta
N
.
Factorized normalisoitu suurimman todennäköisyyden (fNML).
Silanderille et al. [23] kehitti fNML pisteet perustuu normalisoitu suurimman uskottavuuden (NML) jakelu [26], [27]. Koska datasarjan
D
, NML malli valintakriteerinä valitsee mallin
M
joille on suurin. jossa normalisoituminen tapahtuu kaikkien aineistoja
D ’
samankokoisia kuin
D
. Otettuaan logaritmi, pisteet on eräänlaista rangaistaan log-todennäköisyys tietyn
G
= {
G
1
, …,
G
m
} kuten vanhemman asetettu DAG (eli
G
i
on vanhempi joukko solmun
X
i
on DAG): missä normalisoi summilla kaikkien mahdollisten
D
i
sarakevektoreita. Vaikka sakkotermi on eksponentiaalinen määrä ehtoja, se voidaan arvioida tehokkaasti käyttäen lineaarista ajan algoritmi käyttöön [28]. Laskemalla sakkotermi kunkin muuttuja aineisto, NML tulee factorized.
tietojoukoiksi
tuotettu synteettinen transkription säätelyverkkojen ja tuotti simuloidun geeniekspression data melua käyttämällä SynTReN v1.12 [29]. Loimme 55 synteettinen verkot, jotka jäljittelevät biologista reitit, joiden koot vaihtelevat 7 200. Me satunnaisesti valittujen 20 ulos 55 polkuja olla aktiivinen ja SynTReN syntyy vastaava lauseke aineistot 20 testiä ja 20 kontrollinäytteistä 2249 geenejä lisäämällä 4% melusta tasolla.
testaa optimoitu ja kehitetty BPA suorituskyky todellisiin aineistoja, käytimme 1 virtsarakon, 2 aivot, 2 rinta-, 1 paksusuoli, 2 maksa, 1 keuhko-, 1 munasarja-, ja 2 kilpirauhassyöpä aineistoja . Valitessaan aineistoja, korjasimme alustan olevan Affymetrix ehkäistä bias ja käyttää aineistoja missä kasvain ja normaali näytteet ovat selkeästi määriteltyjä ja syöpä näytteet ovat mahdollisimman tasaisesti. Suurin osa sirun tietojen tuli Affymetrix HG-U133 Plus 2.0 GeneChip-, joka koostuu yli 54000 koetinsarjojen edustavat yli 47000 selostukset tarjoavat kattavan kuvan ihmisen transcriptome. Muita siru tyyppejä ovat HG-U133A ja HG-U133A_2, joka vastaa noin 22000 probesets. Ennen soveltaminen Ehdotetun lähestymistavan, raaka microarray tiedot on normalisoitu käyttämällä Affymetrix Microarray Analysis Suite (MAS) 5,0 algoritmi [30].
Kunkin datajoukko, haimme ehdotettu analyysimenetelmä 1000 muunnelmia ja arvioitava merkittävät reitit, joiden nimellisarvo p-arvo 0,05 ja FDR 0,25.
tulokset
taulukossa S1, me luettelo tarkkuus tasot (jos verkko on oikein kutsutaan aktiivinen /ei aktiivinen) ja eri diskretointi järjestelmiä 10 simuloidun aineistoja (D
1-D
10). Mukaan simulaation tulokset, paras diskreetillä menetelmä on 2-tason k-means diskreetillä sovelletaan rivit havaintomatriisin. Tämä lähestymistapa saavutetaan tarkkuus 0,962 ± 0,031. Siksi 2-tason k-means menetelmää käytetään diskretointi menetelmä kokeita määrittää paras pisteytys kriteeri.
aineistot, joita käytetään suorituskyvyn mittaamiseen diskretisointitaso menetelmiä, joita käytetään myös arviointi pisteytyksen menetelmiä. Saadut ennustaminen tarkkuudet ovat taulukossa 2. mukaan simulointituloksia, paras pisteytys menetelmä on fNML menetelmä, joka arvioi onko reitti on aktiivinen tai ei tarkkuudella 0,984 ± 0,016. Siksi 2-tason k-means diskretisointitaso ja fNML pisteytys menetelmiä käytetään todellisia microarray data-analyysi, koska tämä yhdistelmä saavuttanut korkeimman tarkkuutta.
Taulukossa 3 me luettelo 12 todellinen syöpä microarray aineistoja (GEO numerot, syöpätyyppien, ja numerot näytettä) ja lukumäärä reitit tunnistettu aktiivisena BPA ja SPIA analyysejä. Taulukoissa S2 ja S3, me luettelo täydellisen luettelon reittien katsotaan aktiiviseksi BPA ja SPIA menetelmiä kunkin todellisen syövän microarray aineisto, vastaavasti. Kaikkiaan BPA tunnistettiin 171 polkuja, jotka on löydetty merkittäviä ainakin yksi aineistoja. 15 näistä reiteistä on todettu olevan merkittäviä vähintään puolet paikkatietoaineistojen ja siten mahdollisesti edustaa mekanismeja yhteisiä eri syöpätyyppejä (katso taulukko S2).
Tutkimme myös yhteisyys merkittävien reittejä syöpätyyppejä edustaa kaksi aineistoja paitsi kilpirauhasen syöpä, joka on johtanut hyvin vähän merkittäviä reittejä. Nämä tulokset BPA analyysi on esitetty yhteenvetona kuviossa 1. Kun on kyse aivojen ja maksasyövän aineistoja, yhteinen polkuja on 52% ja 59%: n aineisto pienemmän määrän reittejä. Vuonna rintasyöpä aineistoja, näemme vähäisen sopimuksen (~31%). Nämä yhteiset ovat 60%, 41%, ja 52% aivojen, rinnan ja maksan aineistot, vastaavasti, käyttäen SPIA analyysiä. Kuitenkin SPIA käyttää osajoukko reitit tutkinut BPA järjestelmän. Kun pidämme vain pääsyväylistä SPIA tietokannasta, yhteneväisyyksien BPA analyysissä ovat 73%, 45%, ja 71% aivojen, rinnan ja maksan aineistoja, vastaavasti.
Kuvassa 2, on luettelo määrä reitit tunnistetaan kaksi analyysimenetelmiä, kun reitin tietokanta on rajoitettu käyttämä SPIA. Keskimäärin määrä polkuja todettiin olevan huomattavasti aktiivinen molempien menetelmien on noin 60% polkuja algoritmin kanssa pienempi määrä aktiivisia reittejä.
Vaikka parantunut BPA järjestelmä ylitti vanha BPA järjestelmä synteettisen datan sarjaa (tuloksia ei ole esitetty), vertasimme suorituskyky sekä menetelmiä todellinen syövän microarray tietoja. Luettelo reitit katsotaan merkittäviksi vanha BPA järjestelmä edustaa taulukossa S4. Vanha BPA analyysi paljasti 127 reittejä aktiivisia ainakin yhdessä syövän aineistoja ja 18 polkuja havaittiin olevan yhteisiä ainakin puolet aineistoja. Taulukossa S5, me luettelo numerot reittejä tunnistettu aktiivisena sekä BPA järjestelmät ja ilmaisevat määrä reitit yleisesti tunnistetaan kaksi menetelmää kussakin syövän datajoukko.
Nämä tulokset todellisiin syöpään aineistoja ( taulukot S4 ja S5) osoittavat, että vanha BPA järjestelmä ei näytteille yhdenmukaisuus joidenkin aineistot (esim 57 vs. 1 reitin tunnistetaan uusi vs. vanha PBA in ”virtsarakon” data set; 16 vs. 3 reittejä tunnistaa uuden vs. vanha PBA in ”rinta” data set; 58 vs. 0 reitin tunnistetaan uusi vs. vanha PBA että ”keuhkojen” data set, ja 10 vs. 0 reitin tunnistetaan uusi vs. vanha PBA ”kilpirauhasen ’tietokokonaisuutta). Uskomme, että tämä johtuu pääasiassa permutaatio testausmenetelmä käyttöön uusissa BPA järjestelmä, jossa vanha järjestelmä ei tuottaa satunnaistettu tietomääriä polkuja osoittaa jatkuvasti kertainen muuttaa suuntaa sen jäsenille (katso taulukko 1). Osa suorituskyvyn parantamiseen voidaan katsoa optimoitu diskretointi ja pisteytys menetelmiä sisällytetty uuteen BPA järjestelmään. Vanha ja uusi BPA sytems osoittavat keskimäärin 28% päällekkäisiä reittejä yksilöity kunkin datasarjan. Tämän tason sopimus on huomattavasti alhaisempi kuin havaittu uusi BPA ja SPIA menetelmiä, joka osoitti 60% limityksellä keskimäärin. Lisäksi olemme saaneet 25% limityksellä keskimäärin vanhojen BPA ja SPIA menetelmiä kun väyliä tunnistettava kaikkien todellinen syövän microarray data asettamat kaksi menetelmää pidettiin.
sovelsi parani BPA-menetelmää NCI-60 tasyöpäsolulinja microarray datasarjan kuvauksessa käytettävillä Gene Set Enrichment Analysis (GSEA) menetelmä [31]. Tämä tietojoukko sisältää mikrosirulla tuloksia (ajaa Affymetrix HGU95Av2 Platform) 50 NCI-60 solulinjoja (www.broadinstitute.org/gsea/datasets.jsp). Käytimme tätä datajoukon tunnistaa polkuja vapautettu sen jälkeen, kun mutaatio kasvaimen p53-geenin. Niistä 50 näytettä, 17 ovat villityypin ja 33 mutaatioita p53-geenin. Polut tunnistettu aktiivisena BPA johtuen mutaatioista p53 luetellaan taulukossa 4.
Keskustelu
synteettinen data simulaatioita tunnistettu k-means klusterointi kuin tehokkaimpiin diskretointi menetelmän . Mielestämme tämä tulos kohtuullinen k-means käyttää jakelun tiedot minimoida toimintaan keskimääräisen neliövirheen suhteessa diskretoidaan arvoja ja todellinen FC esiintymät. Perustuu myös synteettisen mittaustulokset, pisteytyksen menetelmä, joka tuotti korkeimman tarkkuuden oli factorized normalisoitu suurimman uskottavuuden (fNML) tulos [23]. Tämä tulos oli myös odotettu, sillä se on osoitettu, että BDE pisteytys järjestelmä on hyvin herkkä valinta ennen hyper-parametrit ja AIC ja BIC edellyttää joitakin manuaalista parametrointia ja eivät toimi hyvin pieniä aineistoja, joka on toisinaan kyse jossa HTBD [32]. fNML toisaalta on informaatioteoriaan perustuvat optimoitu pisteytys menetelmällä, jossa ei ole viritettävä parametrit.
Todellisessa microarray tietojen analysoinnin BPA, polku, joka tuli ulos useimmissa syöpä tietojen asetetaan niin merkittävästi aktiivisena ( 8/12) on Soluadheesiomolekyylit (CAM) kautta. CAM sijaitsevat solun pinnalla ja osallistuu toimintaan solun sitova muiden solujen kanssa. Yksi tärkeimmistä ominaisuuksista syöpäsolujen on hallitsematon kasvu, jossa solut ovat immuuneja tiheys-riippuvaisen inhibition. Syöpäsolut pitää kasvava muodostaen useita tasoja, vaikka solutiheys lisääntyy. Tämä johtuu pääasiassa toimintahäiriön vuonna CAM, jonka on osoitettu olevan tärkeä rooli syövän etenemisessä [33] ja häiritsevät tärkeä signaali-tioreittien [34]. Erityisesti, CAM on osoitettu olevan osallisena aivojen [35], virtsarakon [36], rintojen [37], maksan [38], keuhkosyöpä [39] ja kilpirauhasen [40] syöpä; syöpä aineistoja, joissa ehdotettu järjestelmä löytyy CAM-reitin merkittävästi aktivoituna.
Muita väyliä, jotka on korostettava, ovat ”sitraatti (TCA /trikarboksyylihappo) sykli”, ”täydentää ja hyytymisjärjestelmän” ja ”Adipocytokine signalointi ”polkuja, jotka on todettu olevan merkittävästi aktiivinen 7 syöpään aineistoja ulos 12. sitraatti sykli, joka tunnetaan myös trikarboksyylihapposyklin (TCA cycle) tai Krebsin sykli on osa solun hengitystä. Se on sarja kemiallisia reaktioita, joita kaikki aerobinen organismien energian. Sen keskeinen merkitys monille biokemiallisia reittejä viittaa siihen, että se oli yksi ensimmäisistä osista solun aineenvaihduntaan kehittyä [41]. Tuoreessa tutkimuksessa tunnistettu tämän syklin syöpää erityinen metaboliareitti [42]. Monenlaisia kasvainsolujen, mukaan lukien, jotka sisältyvät myös aineistoja, on havaittu, että mutaatio aiheuttaa tämän syklin ajaa taaksepäin. Täydentää ja hyytymisjärjestelmän polku voidaan selittää kahteen osaan: komplementtisysteemi on proteolyyttinen kaskadi veriplasmassa ja välittäjänä synnynnäisen immuniteetin, epäspesifisen puolustusmekanismi taudinaiheuttajia vastaan, ja veren hyytyminen on toinen sarja proentsyymin-to-seriiniproteaasi muunnoksia . Tämä polku on nimetty merkittäviksi rinta- ja maksasyövän tyypit funktionaalisella syövän kartan, joka on perustettu analysoinnin jälkeen funktionaalisen ekspression profiileja merkittävästi rikastettu Kegg reittejä eri kasvain yksiköt osoitetaan eri kasvaimen luokat [43]. Adipocytokine signalointireitin korreloi positiivisesti leptiinin tuotanto, joka on tärkeä säätelijä energian saannin ja aineenvaihduntaa. Leptiini ja adiponektiini ovat runsain adipocytokines ja parhaiten tutkittu molekyylien tässä luokassa toistaiseksi. Viimeaikaiset kasvain biologinen havainnot roolista näkyvin adipocytokines leptiini ja adiponektiini, jotka osallistuvat kasvaimen kasvuun, invaasio ja metastaasi, esittävät vaikutukset adipocytokines aivojen ja rintasyöpiä [44] mukaan syöpätyyppejä aineistojen jossa BPA järjestelmä löydetty tämän reitin kuin merkittävästi aktivoituna. On ollut muita lisätutkimuksia, jotka ovat osoittaneet suhde adipocytokine signalointireitin keuhkojen ja maksan syövät [59], [60].
synteettinen data tulokset osoittavat, että parannettu BPA järjestelmä tunnistaa toimintaa polun yli 98% tarkkuudella. Vaikka ei ole kultaa standart arvioitaessa aktiivisen reittejä koskevat todelliset microarray data tietyn fenotyypin, BPA: n toistettavuus samassa syövän tyypit on ollut yli 50% keskimäärin. Kun polku tietokanta on rajoitettu käyttämä SPIA, tämä toistettavuus on yli 70%. Lopulta kun kaikki syövän aineistoja pidetään välinen sopimus kahden menetelmän on noin 60%. Kun otetaan huomioon tekniset ja biologinen vaihtelu, niin suuri verran päällekkäisyyttä eri polku analyysi järjestelmiä on hyvin lupaava.
pyritään tunnistamaan patways ominaisia tietyille syöpätyyppejä, tutkimme polkuja, jotka ovat johdonmukaisesti todettu aktiiviseksi samoista syöpätyyppeihin (ja ei-aktiiviset muiden syöpätyyppeihin) nykyisessä BPA järjestelmässä. Aivojen syöpä ”Parkinsonin tauti koulutusjakson (hsa05012)” löytyi aktiivisia sekä aivosyövän aineistoja ja vain yksi jäljellä 10 syöpä aineistoja. Parkinsonin tauti (PD) on yksi yleisimmistä neurodegeneretive häiriöt, jotka liittyvät solun menetys substantia nigra alueen keskiaivojen [45]. Viime aikoina on tehty tutkimuksia, jotka viittaavat molekyylimekanismeihin ja geneettisen määräysten mukaisesti taudin syöpä. Mutaatiot PARK2 yksi yleisimmistä syistä varhain alkanut PD, on osoitettu olevan keskeisessä asemassa glioblastomas [46] esillä muutoksia lähes identtisiä tähteitä sekä PD ja aivosyövän näytteitä. Tunnistaminen tämän reitin aktiivisina lähes ainutlaatuisen ja johdonmukaisesti aivosyövän aineistoja merkitsee, että BPA pystyy tunnistamaan biologisesti mielekkäitä poluista, jotka perustuvat taustalla HTBD. Vuonna maksasyövän aineistoja, ”Biotiini aineenvaihdunta (hsa00641)” ja ”3-Chloroacrylic happo hajoamista (hsa00780)” väyliä havaittiin olevan aktiivisia ainoastaan kahdessa maksassa aineistoja.