PLoS ONE: rakentaminen tilastollisen mallin ennustaminen Cancer Geenit

tiivistelmä

Yli 400 syöpä geenit on tunnistettu ihmisen genomin. Lista ei ole vielä valmis. Tilastollisia malleja ennustavat syöpä geenit voivat auttaa tunnistamista uudenlaisia ​​syövän geenin ehdokkaita. Käytimme tunnettu eturauhassyöpä (PCA) geenit (tunnistettu KnowledgeNet) kuin koulutus asetettu rakentaa binary logistiikkaregressiomallin tunnistaa PCa geenejä. Sisäinen ja ulkoinen Mallin validointi suoritettiin käyttäen validointi setti (myös KnowledgeNet), muunnelmia, ja ulkoiset tiedot geeneihin, joilla on uusiutuva eturauhasen kasvain mutaatioita. Arvioimme joukko 33-geenin ominaisuudet ennustajia. Kuusitoista alkuperäisestä 33 ennustajia olivat merkittäviä mallissa. Olemme havainneet, että tyypillinen PCa geeni on eturauhasspesifinen transkriptiotekijä, kinaasi, tai fosfataasin kanssa suuria yksilöiden välisiä varianssi ilmentymistasoon vieressä normaalissa eturauhasessa kudosten ja ero ilmaisun välillä normaalissa eturauhasessa kudosten ja primaarisen kasvaimen. Eturauhassyövän geenit ovat todennäköisesti antiapoptoottista vaikutus ja rooli solujen lisääntymisen, angiogeneesin, ja soluadheesion. Heidän proteiinit ovat todennäköisesti ubikitinoitu tai sumoylated mutta ei asetyloitu. Useita uusia PCa ehdokkaat on ehdotettu. Toiminnallinen merkinnät uusien ehdokkaiden tunnistettu antiapoptosis, solujen jakautumisen positiivinen säätely kinaasiaktiivisuuden, positiivinen säätely transferaasin aktiivisuus, angiogeneesin positiivinen säätely solunjakautumisen ja soluadheesio aiheesta toimintoja. Tarjoamme listan top 200 ennustettu PCa geenejä, joita voidaan käyttää ehdolle kokeellinen validointi. Mallia voidaan muuttaa ennustaa geenien muu syöpä sivustoja.

Citation: Gorlov IP, Logothetis CJ, Fang S, Gorlova OY, Amos C (2012) rakentaminen tilastollinen malli ennustaminen Cancer Genes. PLoS ONE 7 (11): e49175. doi: 10,1371 /journal.pone.0049175

Editor: Ludmila Prokunina-Olsson, National Cancer Institute, National Institutes of Health, Yhdysvallat

vastaanotettu: 03 elokuu 2012; Hyväksytty: 09 lokakuu 2012; Julkaistu: 15 marraskuu 2012

Copyright: © 2012 Gorlov et al. Tämä on avoin pääsy artikkeli jaettu ehdoilla Creative Commons Nimeä lisenssi, joka sallii rajoittamattoman käytön, jakelun ja lisääntymiselle millä tahansa välineellä edellyttäen, että alkuperäinen kirjoittaja ja lähde hyvitetään.

Rahoitus: Tämä tutkimus tuettiin osittain David Koch Center for Applied Research of Urogenitaalinen Syövät, National Institutes of Health Eturauhasen SPORE apurahan CA140388-01, ja National Institutes of Health Cancer Centerin Support Grant 5 P30 CA016672. Rahoittajat ollut mitään roolia tutkimuksen suunnittelu, tiedonkeruu ja analyysi, päätös julkaista tai valmistamista käsikirjoituksen.

Kilpailevat edut: Kirjoittajat ovat ilmoittaneet, etteivät ole kilpailevia intressejä ole.

Johdanto

väestönlaskenta ihmisen syövän geenien suoritti Futreal

et al.

[1] ja päivittää Santarious

et al

. [2] määrittämään 400 syöpään liittyvien geenien. On selvää, että tämä luettelo syöpään liittyvien geenien ei ole valmis a PubMed haku kirjallisuudesta toteutettiin kesäkuussa 2011 käyttämällä termiä ”uusi syöpää geeni” otsikossa tunnistettu yli 100 paperit julkaistiin vuonna 2011 (tietoja ei esitetty).

kehittäminen ennustava malli syövän geenit voivat nopeuttaa niiden tunnistamisen. Tässä tutkimuksessa kehitimme tilastollisen mallin ennustamisessa eturauhassyövän (PCA) geenejä. Tutkimuksemme motivoi seuraavat: i) useat PCa liittyvien geenien voimakkaiden kokeellista näyttöä on tunnistettu, ii) monien geenien ihmisen genomin laajasti selityksin, ja iii) genominlaajuisten profilointi geenien ilmentymisen data on käytettävissä [3], [4]. Tässä tutkimuksessa tunnistimme piirteitä, jotka ovat ominaisia ​​tunnettujen PCa geenejä ja käyttää niitä ennustaa uusia PCa geenejä.

Materiaalit ja menetelmät

Tunnetut PCa Genes

Käytimme KnowledgeNet (KN, kirjallisuuden kaivos algoritmi) lähestymistapa tunnistamiseen PCa geenien [5]. KN-algoritmi etsii välisestä assosiaatiosta geenin ja sekä ensimmäisen että toisen (

ts.

Liittyvä) ehdot. Tämän seurauksena kukin geeni saa luottamusta pisteet (CS): mitä korkeampi CS, sitä voimakkaampi yhdistyksen geenin joiden määritelty fenotyyppi; meidän tapauksessamme PCA. Me tunnistaa yhteensä 707 geenien CSS vaihtelevat 2,663-0,001 (Taulukko S1) ja käytettiin alkuun 100 geenit kuin ”tunnettu PCa geenit.” Toinen 607 geenit listasta katsottiin ”otaksuttu PCa geenit.” Loput 14641 geenit jossa CS 0,001 katsottiin ”ei-PCa geenit.” Me suljettu pois 607 otaksutun PCa geenien luoda hyvin määritelty binary lopputuloksen analyysimme.

Koska alkuperäistä hakusana tunnistaa PCa geenit oli ” eturauhassyöpä, ”algoritmi etsii liittyvien geenien kaikki näkökohdat eturauhasen syövän synnyn, kuten aloittaminen, eteneminen, uusiutumisen ja eloonjäämisen. Toisin sanoen, käytimme laajaa määritelmää Eturauhassyövän geenejä. Tietenkin haun voi olla tarkempi,

esim

. ”Eturauhassyöpä toistuminen,” ja tämän odotetaan tuottaa koulutusta joukko, joka on erilainen listasta käytimme.

Malli ja muuttujat

binary logistinen regressio (BLR) mallia käytettiin erottamaan ”tunnettujen PCa” ja ”ei-PCa” geenejä. Kukin geeni on kuvattu 33 muuttujat (taulukko 1). Muuttujat valittiin todisteiden perusteella julkaisemien meille ja muille, että yksittäiset muuttujat liittyvät PCa [6] – [11]. Yksityiskohtainen kuvaus muuttujista löytyy Information S1. Me eritellään muuttujat kahteen ryhmään: eturauhasen-kudosspesifisiä ja epäspesifinen. Kudosspesifisiä olivat muun muassa geenien ilmentyminen tietojen normaalissa ja tumorous eturauhaskudoksiin. Ei-kudosspesifisiä muuttujat olivat ne, jotka voidaan käyttää minkä tahansa kudoksen,

esim,

”kasvutekijä”, ”fosforyloitu” muuttujia.

Koska meidän regressiomallin oli luonnollisesti epätasapainossa, liian monta ”ei-PCa” geenien ja liian vähän PCa geenejä, emme voineet käyttää 0,5 kynnys päättää geeni oli PCa tai ”ei-PCa” geeni. Luokittelu kynnys (0,05) valittiin sen varmistamiseksi, että ainakin 95% ei-PCa geenejä ennusti oikein, ja koska se heijastaa osuus geenien havaittiin eturauhassyöpä (707) liittyvä kokonaismäärä geenien tutkittu Harjoitusvaiheessa (14641). Tämä suhteellisen korkea oikean luokittelun ”ei-PCa” geenit valittiin vähentävän kokeellisen seurannan vääriä positiivisia, mikä voi olla kallista.

Kaikkiaan käytimme 15348 geenejä. Geenien ilmentyminen tiedot olivat rajoittava tekijä sisällyttämiseksi kunkin geenin analyysissä. Käytimme yleisesti saatavilla aineistot GSE6919 [12], [13] ja GSE21034 [13] päässä Gene Expression Omnibus (GEO) [3], [4] ja käyttää Amigo

2 [14] tunnistamaan geenejä, jotka liittyvät erityinen biologinen funktio, sijainti solussa, ja translaation jälkeisiä muutoksia. Määrä ihmisen ortologeihin raportoitu HomoloGene tietokannassa (https://www.ncbi.nlm.nih.gov/HomoloGene) käytettiin evoluution säilyttämisen indeksin [15], [16].

validointi Malli

mallin vahvistamiseksi, ensin satunnaisesti eritellään 200 geenien korkeimman CS osaksi löytö ja validointi sarjoiksi. Seuraavaksi rakensimme BLR mallia käyttämällä vain löytö asettaa ja käyttää sitä ennustaa PCa geenien validointi asetettu. Lisätietoja sisäinen validointi, rakensimme BLR mallia käyttäen top 100 geenit, lukuun oletetun PCa geenit, ja sitten sovellettu malli laskea todennäköisyys sille, että otaksuttu PCa geenejä. Odotimme, että todennäköisyys luokitellaan PCA geeni olisi korkeampi oletetun geenejä kuin se olisi ei-PCa geenejä. Lisäksi teimme permutaatio testaus satunnaisesti määrittämällä PCa geenin asema. Rakensimme BLR malli niille ”mock” Eturauhassyövän geenejä käyttäen samoja muuttujia käytimme ”todellinen” Eturauhassyövän geenit (

so

., Ne tunnistetaan KN). Suoritimme tämän menettelyn 100 kertaa ja arvioitu prosenttiosuus ennusti oikein PCa geenejä.

Ulkoiseen validointi, pyysimme, onko malli johdetut todennäköisyys geenin olemuksen PCa liittyvät oli suurempi geenien joista toistuva somaattiset mutaatiot eturauhaskasvainnäytteissä raportoidaan Luettelon somaattiset mutaatiot Cancer (COSMIC) tietokanta [17], [18]. Käytimme myös geenejä, joilla on todettu toistuva somaattiset mutaatiot Hiljattain julkaistu tutkimus tulokset koko-exome sekvensointi eturauhaskasvainnäytteissä [19]. Huomaa kuitenkin, että emme käyttäneet somaattinen mutaatio tietoja rakentaa malli.

Onko ennustaminen malli eturauhasen Erityisiä?

Voit vastata tähän kysymykseen, tunnistimme alkuun 100 rinta ja top 100 keuhkosyöpä geenejä (taulukko S2) käyttämällä samaa KN algoritmia käytimme tunnistamiseen PCA geenejä. Sitten verrataan prosenttiosuudet ennusti oikein rinta- ja keuhkosyöpä geenien prosenttiosuus ennusti oikein PCa geenejä.

rakennettu BLR mallien pohjalta vain tiettyjä ( ”erityinen malli”) ja epäspesifinen ( ”epäspesifinen malli ”) ennustavat. Sitten arvioitu prosenttiosuudet ennusti oikein kuin PCa ja PCa geenit kunkin mallin. Tilastollinen analyysi suoritettiin SPSS versio 15.0.

Tulokset

Ennustettu PCa Genes

Niistä 33 muuttujat, 22 oli merkitsevä univariable analyysissä (taulukko S3), kun taas monimuuttujasäädin vaiheittain eteenpäin (todennäköisyys suhde) BLR malli, 16 muuttujat olivat merkittäviä (taulukko 2). Malli ennusti oikein 96% ei-PCa geenejä ja 55% PCA geenien ja oli tarkempi kuin malli perustuu tietoihin, jotka sisältyvät oletetun PCa geenejä ei-PCa geenejä, joissa 96% ei-PCa geenejä ja 46% Eturauhassyövän geenien ennustettiin oikein.

Taulukko S4 valitaan parhaat 200 ennustettu PCa geenejä ja ilmoittaa, onko ne olivat tiedossa, otaksuttu, tai uusien ennustettu geenejä. Sijoitus geenit mallin mukaan johdettu todennäköisyydet muotoiltu uudelleen alkuperäiseen CS-pohjainen lista:

AR

(androgeenireseptorin) sijoittui seitsemänneksi, ei ensimmäinen, koska alkuperäisessä luettelossa, ja

KLK3

(eturauhasen antigeenin [PSA]) oli neljänneksi, vaikka se oli toinen alkuperäisessä luettelossa. Kaiken kaikkiaan korrelaatio CS ja malli johdetun todennäköisyys PCa liittyvien oli 0,32, df = 200;

p

= 2 x 10

-6. Taulukko S5 esitetään yksittäiset muuttujat vaikuttavat todennäköisyys, että geeni liittyy PCa.

Oletetut PCa Geenit on suurempi todennäköisyys tulla luokiteltu PCa Liittyvät

Oletetut PCa geenit odotetaan olevan suurempi todennäköisyys PCa liittyvien kuin ei-PCa geenit ovat. Käytimme mallia, joka perustuu tietoihin ilman oletetun geenien arvioida todennäköisyys, että oletettu geeni PCa liittyvät vertaamalla osuudet geenien ennustetun voidaan PCa liittyvän välillä tiedetään, oletetun, ja ei-PCa geenejä. Mittasuhteet geenien ennustetun voidaan PCa liittyvän olivat 0,052 ± 0,002 ja ei-PCa geenejä, 0,224 ± 0,017 ja oletetun PCa geenejä, ja 0,547 ± 0,049 tunnetuista PCa geenejä. Kuten edellä todettiin, olemme myös rakennettu malli, joka sisälsi oletetun PCa geenejä ei-PCa geenejä. Kaiken ennustearvon oli pienempi tätä mallia, jossa mittasuhteet geenien ennustetun voidaan PCa liittyvän ollessa 0,037 ± 0,002 ei-PCa geenejä, 0.217 ± 0.016 varten oletetun PCa geenit, ja 0,455 ± 0,049 tunnetuille PCa geenejä.

onko Prediction PCa erityiset?

Voit selvittää, onko meidän ennustava malli on PCa erityinen tunnistimme alkuun 100 rinta- ja keuhkosyöpä geenit käyttäen KN perustuvaa lähestymistapaa (taulukko S2 ). Kaiken osuus ennusti oikein syöpä geenit oli suurempi eturauhasen (0,55 ± 0,03) kuin rintasyövän (0,37 ± 0,02) ja keuhkosyövässä (0,31 ± 0,02). Jotta malli rakennettu perustuu epäspesifinen ennustavia vain, tarkkuus oli parempi PCA geenien (0,55 ± 0,02) kuin se oli rintojen (0,24 ± 0,02) ja keuhkosyöpää (0,21 ± 0,02) geenejä. Ja perustuvan mallin erityisiä ennustajia, ennustavien tehokkuus oli myös suurempi eturauhasen (0,30 ± 0,02) kuin se oli rintasyövän (0,08 ± 0,01) ja keuhkosyöpää (0,08 ± 0,01) geenejä.

Discovery ja Validation Sarjaa

sisäinen validointi, me satunnaistetusti top 200 PCa liittyvien geenien löytäminen ja validointi sets niin oli 100 geenejä kussakin ryhmässä. Sitten rakennettiin BLR mallin pohjalta löytö asettaa ja käyttää sitä ennustamaan PCa geenit validointi asetettu. Löytö malli ennusti oikein 95% ei-PCa geenejä ja 43 ± 5% PCA geenien; se ennustettu samanlainen mittasuhteet validointi set: 96% ei-PCa geenejä ja 38 ± 5% PCA geenejä. Suoritimme tämän menettelyn 100 kertaa.

Permutations

satunnaistettiin PCa tila 100 geenit 15348 geeneistä alkuperäisessä pöytä ja rakennettu ennustemallin niille ”mock” geenit käyttävät samaa 33 muuttujat (taulukko 1). Menettely suoritettiin 100 kertaa. Oli keskimäärin 0-2 muuttujat pilkata geenin mallin, ja ne muuttujat vaihtelivat eri mallien välillä. Keskimäärin 0,7 ± 0,2% mock PCa geenit ennustettiin oikein, mikä on merkittävästi (

p

10

-6) pienempi kuin prosenttiosuus ennusti oikein ”true” Eturauhassyövän geenejä ( 55 ± 5%).

ulkoinen Validation

ulkoiseen validointi, käytimme tulokset julkaisi äskettäin raportin toistuvia somaattisten mutaatioiden eturauhaskasvaimissa [19]. Tässä tutkimuksessa tunnistettiin 20 genes-

BDH1, DKK1, DLK2, FSIP2, GLI1, IKZF4, KDM4B, MGAT4B, NMI, NRCAM, PCDH11X, PDZRN3, PLA2G16, RAB32, SDF4, SF3A1, TBX20, TFG, TP53,

ja

ZNF473-

että on toistuvia somaattisia mutaatioita. Seitsemäntoista näistä geeneistä (kaikki paitsi

BDH1, FSIP2

, ja

PLAG16

) olivat meidän alkuperäisen luettelon 15348 geenejä. Huomasimme, että malli syntyvän todennäköisyys olla PCA geeni oli yli kymmenen kertaa suurempi geenien kanssa toistuvia somaattisten mutaatioiden kuin se oli kaikkien muiden geenien: 0,082 ± 0,041

vs.

0,007 ± 0,001; df = 15348,

t

= 5,4,

p

10

-6 (kuva 1). Toinen merkittävä ennustajia olivat transkriptiotekijöitä, CS sijoittamiseen käytettäviin PCA geenit kirjallisuudesta kaivos-, solujen lisääntymistä, fosfataasi, kasvutekijöitä, ja angiogeneesi. Saimme samanlaisia ​​tuloksia geenien kanssa raportoitu PCa somaattiset mutaatiot päässä COSMIC tietokannasta [18]. Malli-johdettu todennäköisyys olla PCA geeni oli merkittävin ennustaja geenien, joilla on uusiutuva somaattisten mutaatioiden eturauhasen kasvaimia. Muita merkittäviä ennustajia mukana CS, kinaasit, antiapoptoottisten, solujen lisääntymistä, asetyloitu, solukalvon ja angiogeneesiä.

pystyviiva edustaa kynnystä tilastollista merkittävyyttä.

Erityisiä vs. Epäspesifinen Predictors

rakennettu malli perustuu vain tiettyjä (kahdeksan muuttujaa) ja vain epäspesifinen (25 muuttujaa) ennustavat. Vuonna epäspesifinen mallissa 11 muuttujat olivat merkittäviä (alenevassa järjestyksessä tilastollista merkitystä): kinaasien, fosfataasi, ekstrasellulaaritilaan, transkriptiotekijät, antiapoptoottisten, signaalitransduktion, kasvutekijät, solujen lisääntymistä, sumoylated, soluadheesiota, ja angiogeneesi. Epäspesifinen malli ennusti oikein 95% ei-PCa ja 40% Eturauhassyövän geenien; että perustuvat erityisiin muuttujiin ennusti oikein 95,5% ei-PCa ja 30,2% Eturauhassyövän geenejä. Oli neljä merkittävää ennustajia tässä mallissa (alenevassa järjestyksessä tilastollista merkitystä): eturauhanen ilmentymistä (rikastamiseen pisteet), varianssi vieruskudos, meta-analyysi geenien ilmentymistä, ja kolmitasoinen meta-analyysi.

keskustelu

Olemme tunnistaneet yhdistelmän ominaisuuksia, jotka on ominaista PCa geenien: tyypillinen PCa geeni on eturauhasspesifinen transkriptiotekijä, kinaasi, tai fosfataasi korkea yksilöiden välisiä varianssi vierekkäisten normaalissa eturauhasessa ja ilmaistaan ​​eri tavalla (voimistunut tai vaimentua) normaalissa eturauhasessa ja primaarikasvaimen. Eturauhassyövän geenit ovat todennäköisesti antiapoptoottista vaikutus ja rooli solujen lisääntymisen, angiogeneesin, ja soluadheesion. Niiden tuotteet ovat todennäköisesti ubikitinoitu tai sumoylated mutta ei asetyloitu. Ne ovat todennäköisesti osallistuvat signaalin siirtoon ja joka komponentti solunulkoisessa tilassa. Jotkut tunnistettuja ominaisuuksia Eturauhassyövän geenien (

esim

soluproliferaatioon tai angiogeneesiin) ovat ilmeisiä, kun taas toiset (

esim

., Kudosspesifisyys suurempi varianssi geeniekspression viereiseen normaalissa eturauhasessa kudoksen tai ubikitinaa-) eivät ole niin ilmeisiä. Koska useat tekijät ovat mukana nimeämisestä geenin eturauhasen syöpään liittyvät eri geenit osoittavat vaikutuksia eri ennustajia. Ennakoivat esitetään taulukossa S5.

Mallimme mahdollistaa myös sijoitusta geenejä, jotka ovat mallin mukaisesti syntyvän todisteita PCA liittyviä ja siksi ennustavan uusien PCa geenejä. Lyhyt kuvaus kymmenen romaanin ennustettu PCa geenejä seuraavasti.

UPK3A-

uroplakin 3A; jäsen uroplakin perheen, ryhmä transmembraaniproteiineja, jotka muodostavat komplekseja apikaalisella pinnalla virtsarakon epiteelin. Mutaatiot

UPK3A

liittyy munuaisten adysplasia [20].

KITLG-

koodaa ligandia tyrosiinikinaasiaktiivisuuden reseptorin. Geeni uskotaan rooli solujen vaeltamiseen [21].

NPY-

laajasti ilmaistuna keskushermostossa ja vaikuttaa moniin fysiologisiin prosesseihin, kuten aivokuoren excitability, stressin vastaus, ruoka saanti, vuorokausirytmiä, ja sydämen toiminnan.

GHR-

jäsen tyypin I sytokiinireseptoriper- perhe.

SCGB1A-

jäsen secretoglobin perheen pieniä eritettyjen proteiinien. Koodatun proteiinin on liitetty lukuisia tehtäviä, mukaan lukien anti-tulehdus, inhibitio fosfolipaasi A2, ja varastoimalla hydrofobisten ligandien kanssa.

NR3C1-

koodaa glukokortikoidireseptorin, joka voi toimia sekä transkriptiotekijän ja säätelijänä muiden transkriptiotekijöiden.

JUP-

koodaa proteiinia, joka on rakenteellinen elementti submembranous plakkien desmosomien. Se muodostaa komplekseja kadheriineja.

NPM1-

koodaa fosfoproteiini joka liikkuu välillä tumaan ja sytoplasmaan. Geenituote ajatellaan olevan mukana useita prosesseja, kuten sääntely ARF /p53-reitin.

CD177-

NB1, glykosyylifosfatidyyli- inositoli-kytketty

N

-glycosylated solun pinnan glykoproteiini, oli ensimmäinen kuvattu kyse on vastasyntyneestä alloimmuunitrombosyto- neutropenian [22].

FAM55D-

kromosomin 11 avoin lukukehys 33. tiedetään vain vähän tätä geeniä, mutta se on vaimentua eturauhasen kasvain.

Teimme toiminnallisen merkinnästä uusia PCa geenien avulla kaikki 15348 geenejä taustana tilille mahdollinen valinta bias. Toiminnalliseen kommentointi, käytimme Tietokanta Annotation, visualisointi, ja Integrated Discovery (DAVID) [23]. Top biologinen liittyviä toimintoja romaani PCa geenit olivat antiapoptosis, solujen jakautumisen positiivinen säätely kinaasiaktiivisuuden, positiivinen säätely transferaasin aktiivisuus, angiogeneesin positiivinen säätely solunjakautumisen soluadheesiota MAPKKK cascade, luuston kehitys ja sääntely solusijaintipaikasta. (Tarkempia tietoja löytyy tietoja.) On huomattavaa päällekkäisyyttä välillä kuvauksen tunnettuja ja uusia ennustettu PCa geenien toiminnot: antiapoptosis, solujen jakautumisen positiivinen säätely kinaasiaktiivisuuden, positiivinen säätely transferaasin toimintaa, ja MAPKKK cascade ovat läsnä molemmissa luetteloissa. Ainoa ainutlaatuinen liittyvä toiminto ennustettu uusi PCa geenit oli luuston kehityksen kymmenen geeniä:

GHR, AMELX, TRAF6, FGF9, SMAD1, CTGF, IGF2, AMBN, FGF18,

ja

PTN

.

tulokset sisäinen validointi osoitti, että PCa liittyvät geenit eivät ole satunnainen kokoelma geenien vaan jakaa yhdistelmä useita ominaisuuksia. Ne osoittavat myös, että emme todennäköisesti overfit malliin. Ulkoinen validointi osoitti, että mallin luomaa todennäköisyys olla PCA geeni on merkittävin ennustaja PCA ehdokkaiden tunnistettu analysoinnin avulla toistuvien somaattisista mutaatioista. Toisaalta, läsnäolo somaattisten mutaatioiden Tuumorinäytteissä voi olla yksi niistä tekijöistä, jotka nostavat CS ja siten edistää sitä suurempi on mahdollisuus luokitellaan tunnettu PCa geeni. Todellakin, CS oli kolmanneksi merkittävin ennustaja geenien, joilla on uusiutuva somaattisista mutaatioista. Kuitenkin se oli alhaisempi kuin

t

tilastotieto mallin syntyvän todennäköisyys olla PCA geeni: 5.5

vs.

3.4. Osuus geenien kanssa COSMIC somaattisista mutaatioista oli yleisempää oletetun PCa geenit: χ

2 = 22,8, df = 1,

p

0,0001. Osuus on rajatapaus suurempi ennustettujen romaani PCa geenejä: χ

2 = 3,8, df = 1,

p

= 0,05. Olemme myös havainneet, että keskimääräinen malli johdettuja todennäköisyys julkaistun 112 geenit, joiden allekirjoitus positiivisen valinnan [24] oli korkeampi kuin keskimääräinen geenin ihmisen genomin: Opiskelijan

t

testi = 2,0, df = 30495,

p

= 0,04. Päällekkäisyys on vaatimaton, mutta merkittävää, varsinkin jos otamme huomioon, että julkaistut luettelon syövän geenien luotiin tahansa syöpätyypin, kun taas tutkimuksessamme keskityimme PCa vain.

osoittivat, että molemmat erityisiä ja epäspesifinen ennustajia ovat tärkeitä: mallit perustuvat vain tietyt vai ainoastaan ​​epäspesifinen ennustajia ovat tehottomampia kuin mallissa rakennettu yhdistelmä piirteistä. Erityinen ennustaja perustuva malli on prostataspesifisen kuin on perustuva malli epäspesifistä ennustavat.

selvää rakennetta ennustavan mallin riippuu suuresti koulutusta asetettu. Käytimme laajaa määritelmää PCa seuraavin toissijainen ehdoin: eturauhasen syöpäsoluja, eturauhassyövän riskiä, ​​Gleason, androgeeni-riippumaton, eturauhasen kasvaimet, Gleason pisteet, eturauhasen, metastaattinen eturauhassyöpä, ihmisen eturauhassyövän, eturauhasen, androgeeni-riippumaton eturauhasen, edenneen eturauhassyövän, eturauhasen-antigeeni, ensisijainen eturauhasen, hyvänlaatuinen eturauhasen, eturauhasen kasvaimia, eturauhasen-erityinen, eturauhasen syövän synnyn, ja eturauhasen hyvänlaatuinen. Vaikka nykymuodossaan malli on suunniteltu ennustamaan määritelty laajasti PCa geenejä, se voidaan säätää olla tarkempi; esimerkiksi ennustaa PCa-etenemisen geenejä. Ratkaisevaa tässä on luotettavasti määritellä opetusjoukkoa PCA liittyvien geenien syövän etenemiseen.

BLR malli on yksi monista käytettävissä luokittelu algoritmeja. Jos haluat nähdä onko muita luokittelumenetelmien voisi tuottaa samanlaisia ​​tuloksia, analysoimme myös meidän datan käyttämällä lineaarista erotteluanalyysi (LDA) ja tukivektorikoneet (SVM). Huomasimme, että LDA ja BLR on melko samanlainen luokitus efficacies: 51% ja 55% oikein luokiteltu PCa geenejä 95% ja 96%: n luokiteltu oikein ei-PCa geenejä, olennaisesti samoja merkittäviä ennustajia mallissa. Validation oli hieman parempi BLR malli, jossa on 18% oletettujen PCa geenien ennustetaan olevan PCa geenejä verrattuna 22% LDA malli. Verrattuna BLR, SVM oli tehokkaampi löytö asetettu oikein ennustavat 84% tunnetusta PCa geenejä ja 95% ei-PCa geenejä; kuitenkin, että validointi, se ennusti oikein vain 34% Eturauhassyövän geenien, kun taas BLR malli ennusti oikein 46% Eturauhassyövän geenien löytäminen ja 44% vuonna validointi asetettu. Siksi, että parempi validointi tehokkuus, keskityimme BLR malliin.

Seuraava looginen askel olisi kokeellinen validointi romaanin PCa ehdokkaat tunnistetaan mallin. Mielestämme yksi parhaista tavoista tehdä tämä olisi suurella seulontaan alustalla. Esimerkiksi yksi voi käyttää suurikapasiteettisia RNAi seulontaan PCa solulinjoissa. Sen jälkeen hiljentäminen ehdokkaan geenin RNAi, voidaan arvioida vaikutus geenin solujen lisääntymisen, migraation ja apoptoosin. Geenit, joilla on vahva vaikutus näihin syöpään liittyvän fenotyypit voidaan edelleen analysoida ihmisen kudosta vahvistamaan niiden roolia eturauhasen kasvaimien syntyyn.

Yhteenvetona olemme kehittäneet bioinformatiikan perustuva BLR mallia ennustamiseen liittyvien geenien PCA. Mallin avulla ranking ihmisen geenejä niiden todennäköisyys PCa liittyy. Olemme tunnistaneet useita uusia PCa ehdokkaita korkea todennäköisyydet tulla PCa liittyviä, ja ne ehdokkaat voivat syytä edelleen kokeellinen validointi. Lähestymistapa käytimme voidaan myös soveltaa muun tyyppisiin geenien ja muiden syöpien; Olemme parhaillaan mallia ennustamiseen keuhkosyöpää geenien.

tukeminen Information

Taulukko S1.

707 geenit CS vaihtelevat 2,663-0,001; käytimme top 100 näiden geenien kuin ”tunnettu PCa geenit.”

doi: 10,1371 /journal.pone.0049175.s001

(XLSX) B Taulukko S2.

Top 100 rintasyöpä ja 100 keuhkosyöpää geenien tunnistettu käyttämällä KnowledgeNet lähestymistapaa.

doi: 10,1371 /journal.pone.0049175.s002

(DOCX) B Taulukko S3.

Univariable analyysi tunnistaa 22 alkuperäisen 33 alkuperäisen muuttujat merkittäviä ennustajia PCa geenien.

doi: 10,1371 /journal.pone.0049175.s003

(DOCX) B Taulukko S4.

sijoitusta top 200 geenit mallilla syntyvän todennäköisyys PCa liittyviä. P, otaksuttu PCa geeni; K, tunnettu PCa geeni; NP, uusi ennustettu PCa geeni.

Doi: 10,1371 /journal.pone.0049175.s004

(DOCX) B Taulukko S5.

Yksittäiset edistää muuttujia uusia ennusti PCa geenejä. Korostettu muuttujat myötävaikuttaa korkeaan todennäköisyys geeni voidaan PCa liittyvän. Binary muuttujia, positiivinen osallistujat ovat arvon 1; jatkuvien muuttujien, ennustajia joiden arvo suurempi kuin m + σ, jossa m on keskiarvo ja σ on keskihajonta.

doi: 10,1371 /journal.pone.0049175.s005

(XLS) B Tiedot S1.

kuvaus muuttujat tarkoitus rakentaa ennustemalli. Muuttujat luetellaan siinä järjestyksessä, jossa ne esitetään taulukossa 1.

doi: 10,1371 /journal.pone.0049175.s006

(DOCX) B

Vastaa