PLoS ONE: Rekursiivinen Random Lasso (RRLasso) tunnistamiseksi Anti-Cancer Drug Targets

tiivistelmä

paljastaminen kuljettaja geenejä on ratkaisevan tärkeää ymmärtää heterogeenisyys syöpä.

L

1-tyypin laillistaminen lähestymistapoja on käytetty laajalti paljastamiseksi syövän kuljettajan geenejä perustuen genomin mittakaavassa data. Vaikka nykyiset menetelmät ovat laajalti käytössä alalla bioinformatiikan, niillä useita haittapuolia: osajoukko koko rajoituksia, virheellisiä Estimointitulokset, multikollineaarisuus, ja raskas aika kulutusta. Me tuomaan uusi tilastollinen strategia, jota kutsutaan Rekursiivinen Random Lasso (

RRLasso

), korkean kolmiulotteinen genomista tietojen analysointi ja tutkinta kuljettajan geenejä. Sillä aikaa analysoida tehokkaasti, pidämme rekursiivinen bootstrap menettelyn mukaisesti satunnainen lasso. Lisäksi esittelemme parametrinen tilastollinen testi kuljettajan geenin valinta perustuu bootstrap regressiomallinnus tuloksia. Ehdotettu

RRLasso

ei ole vain nopea, mutta se toimii hyvin korkea ulotteinen genomista tietojen analysointi. Monte Carlo simulaatiot ja analyysi ”Sanger Genomics of Drug Herkkyys Cancer aineisto päässä Cancer Genome Project” osoittaa, että ehdotetut

RRLasso

on tehokas väline moniulotteisessa genomista tietojen analysointi. Ehdotetut menetelmät tarjoavat luotettavan ja biologisesti merkityksellisiä tuloksia syövän kuljettajan geenin valinta.

Citation: Park H, Imoto S, Miyano S (2015) Rekursiivinen Random Lasso (

RRLasso

) tunnistamiseksi Anti Cancer Drug Targets. PLoS ONE 10 (11): e0141869. doi: 10,1371 /journal.pone.0141869

Editor: Xiaodong Cai, University of Miami, Yhdysvallat |

vastaanotettu: 05 toukokuu 2015; Hyväksytty: 14 lokakuu 2015; Julkaistu: 06 marraskuu 2015

Copyright: © 2015 Park et al. Tämä on avoin pääsy artikkeli jaettu ehdoilla Creative Commons Nimeä lisenssi, joka sallii rajoittamattoman käytön, jakelun ja lisääntymiselle millä tahansa välineellä edellyttäen, että alkuperäinen kirjoittaja ja lähde hyvitetään

Data Saatavuus: Sanger Genomics of Drug Herkkyys Cancer aineisto päässä Cancer Genome Project (https://www.cancerrxgene.org/).

rahoitus: kirjoittajat eivät tuki ja rahoitus raportoida.

Kilpailevat edut : kirjoittajat ovat ilmoittaneet, etteivät ole kilpailevia intressejä ole.

Johdanto

paljon tutkimus on parhaillaan käynnissä ymmärtää monimutkaisuus heterogeeninen geneettisen verkkoja taustalla syöpä. Tunnistaa heterogeeninen geneettisiä verkostoja että taustalla syöpä, erilaisia ​​laajamittaisia-omiikka projekteja (esim, The Cancer Genome Project, The Cancer Genome Atlas (TCGA), Sanger Genomics of Drug Herkkyys Cancer aineisto päässä Cancer Genome Project, ja muut) ovat aloitettu ja antaneet suuria määriä tietoja, kuten genomista ja epigenomic tietojen syöpäpotilaiden tai solulinjoja. Keskeinen kysymys syöpätutkimuksessa on tunnistaa syövän kuljettajan geenejä perustuvat erilaisiin genomista data-analyysi (esim ekspressiotasot, kopioiden määrä variaatioita, metylaatio, ja muut), koska tehokas tunnistaminen syöpälääkkeen tavoitteita helpottaa kehitystä onnistuneen syöpälääkkeiden. Vaikka eri

L

1-tyypin laillistaminen lähestymistavoista, esim suopungin [1] ja joustava verkko [2], on käytetty laajalti tunnistamaan syövän kuljettajan geenejä, niillä useita haittapuolia työkaluina kuljettajan geeni tunnistaminen [3]. Lasso ja mukautuva suopunki [4] kärsivät rajoittamisesta osajoukon koon (eli nämä menetelmät valitse ominaisuudet korkeintaan otoskoko,

n

). Elastinen verkko, joka on laajalti käytetty bioinformatiikan tutkimukseen, voi antaa virheellisiä arvion tulokset kertoimia korreloi muuttujien erisuuruiset, varsinkin ne, jotka eroavat merkki, koska se ”ryhmittely vaikutus”. Kuitenkin kertoimet korreloi muuttujien erisuuruisia havaitaan usein bioinformatiikan tutkimukseen, koska geenien yhteistä biologiset reitit ovat yleensä korreloivat, ja niiden regressiokertoimia voi olla eri itseisarvot tai eri merkkejä. Lisäksi adaptiivinen

L

1-tyypin laillistaminen menetelmät kärsivät multikollineaarisuus, koska niiden mukautuva tietojen ajaa painot perustuvat pienimmän neliösumman (OLS) estimaattorien.

Voit ratkaista nämä ongelmat, Wang et ai. [3] ehdotti satunnainen suopunki perustuu bootstrap regressiomallinnus satunnaisella metsä menetelmällä. Vaikka satunnainen lasso voitetaan haitat nykyisten

L

1-tyypin laillistaminen lähestymistapoja käyttämällä satunnaista metsästrategiaa, menetelmä on laskennallisesti intensiivinen koska se käyttää kaksivaiheinen bootstrap menettelyjä. Lisäksi Wang et al. [3] suoritettavaa lopullista ominaisuuksien hallintaan perustuva mielivaltaisesti päätetty kynnys, vaikka muuttuja valinnan tulokset ovat voimakkaasti riippuvaisia ​​kynnyksellä.

Ehdotamme uusia tilastollisen strategia tunnistaa kuljettajan geenejä syövän huumeiden herkkyys linjassa kanssa satunnainen lasso. Esittelemme rekursiivinen bootstrap lähestymistapoja samanaikaisesti mitata merkitystä kunkin geenin ja suorittaa kuljettajan geenin valinta. Ehdotamme myös uusi kynnys perustuu parametrinen tilastollinen testi tehokkaasti tunnistaa kuljettajan geenejä perustuen bootstrap regressiomallinnus. Käyttämällä rekursiivinen bootstrap menettely, teemme aika-tehokas bootstrap regressiomallinnus korkean ulotteinen genomista data-analyysi kärsimättä muototarkkuudet. Lisäksi ehdotettu ominaisuus valintatapa käytetään muuttujien tilastollinen testi voi olla hyödyllinen väline muuttujan valinta perustuu bootstrap regressiomallinnus.

Käyttämällä Monte Carlo simulaatiot eri skenaarioita, osoitamme tehokkuus ehdotetun rekursiivisen satunnainen suopunki ja joustava verkko parametrinen tilastollinen testi korkea ulotteinen regressiomallinnus. Käytämme myös ehdotettu tilastollinen strategiaa yleisesti saatavilla ”Sanger Genomics of Drug Herkkyys Cancer aineisto päässä Cancer Genome Project” (https://www.cancerrxgene.org/), ja tunnistaa mahdolliset kuljettaja geenejä syöpälääkettä herkkyys . Numeeriset analyysit osoittavat, että ehdotettu rekursiivinen satunnainen lasso ja joustava net ovat aikaa tehokkaita menettelyjä, ja päihittävät korkea ulotteinen genomista data-analyysi (ts näkymästä pisteen ominaisuuksien hallintaan ja ennakoiva tarkkuus).

2 jaksoon esittelemme nykyistä

L

1-tyypin laillistaminen lähestymistapoja, ja huomauttaa niiden haittoja. Sitten esitellä satunnainen lasso, ja ehdottaa rekursiivinen satunnainen lasso ja joustava verkko menettelyjä. 3 jaksossa, kuvaamme Monte Carlo simulaatiot ja kuljettajan geeni valinta Sangerin Genomics of Drug Herkkyys Cancer aineisto tutkia tehokkaasti ehdotetuilla tilastollisen strategioita. Esitämme päätelmät 4 jaksossa

Materiaalit ja menetelmät

Oletetaan, että meillä

n

riippumattomat havainnot {(

y

i

,

x

i

);

i

= 1, …,

n

}, jossa

y

i

ovat satunnaisia ​​vastemuuttujia ja x

i

ovat

p

ulotteinen vektorit ennustajan muuttujia. Tarkastellaan lineaarista regressiomallia, (1) missä

β

on tuntematon

p

ulotteinen vektori regressiokertoimia ja

ε

i

ovat satunnaisia ​​virheitä, jotka oletetaan olevan itsenäisesti ja samoin jakautuneita keskiarvolla 0 ja varianssi

σ

2. Oletamme, että

y

i

keskittyvät ja

x

ij

standardoidaan niiden keskiarvo ja keskihajonta: , ja, näin ollen siepata termi on jätetty regressiomallia Eq (1). Monet tutkimukset ovat parhaillaan meneillään regressiomallinnus, erityisesti korkean ulotteinen data-analyysi (esim perimän muutokset data-analyysi).

Tibshirani [1] esitettiin lasso, joka minimoi jäljellä neliösumma kohteena rajoitteena, ja sen ratkaisu saadaan (2), jossa

λ

on viritys parametri valvoa mallin monimutkaisuutta. Määräämällä sakkotermi, summa itseisarvojen regressiokertoimia, lassotyökalun voi samanaikaisesti suorittaa parametrinestimoinnin ja vaihteleva valikoima.

Kuitenkin viime työ ehdotti, että lassotyökalun voivat kärsiä seuraavista rajoituksista [ ,,,0],2]:

p

n

tapauksessa suopungin valitsee korkeintaan

n

muuttujia, koska kupera optimoinnin ongelma. Tämä tarkoittaa, että lasso ei sovellu kuljettaja geenin valintaan, koska genominen muutos data on tyypillisesti korkea mitoitustiedot.

suopunki voi selittää ryhmittelyyn vaikutuksen ennustajan muuttujia, ja siten taipumus valita vain yhden muuttujan joukosta korreloi muuttujia, vaikka kaikki liittyvät vastemuuttuja. Kuitenkin genomisen muutoksia geenien (esim ekspressiotasot, kopioiden määrä muunnelmia, metylaatio, jne.), Joilla on yhteinen biologinen reitti yleensä korreloi, ja geenit voivat liittyä monimutkaisia ​​syövän mekanismi pitää vastemuuttuja. Tämä merkitsee myös sitä, että lasso ei sovellu genomista tietojen analysointiin.

Näiden haittojen voittamiseksi eri

L

1-tyypin laillistaminen menetelmiä on ehdotettu . Elastinen netto [2] erityisesti on kiinnittänyt paljon huomiota alalla bioinformatiikan: (3) sakkotermi on joustava verkko on kupera yhdistelmä harjan [5] ja lasso seuraamuksia. Asettamalla ylimääräinen

L

2-rangaistusta lasso, elastinen verkko toimii tehokkaasti ominaisuus valinta korkea ulotteinen data-analyysi, eli ei ole mitään rajoitusta osajoukko koko. Lisäksi joustava verkko voi nauttia seuraavista ryhmittelyn vaikutus: (4) missä on näyte korrelaatio [2].

Vaikka joustava verkko toimii hyvin korkean ulotteinen data-analyysi, Wang et al. [3] osoitti, että joustava verkko on seuraavat haitat:

ominaisuus ”ryhmittely vaikutus” johtaa virheellisiin arvioihin tuloksia, kun kertoimet korreloi muuttujien erisuuruiset, etenkin eri merkkejä. Kuitenkin kertoimet korreloi muuttujien erisuuruisia havaitaan usein bioinformatiikan tutkimukseen, koska geenien yhteiseen biologiseen reittiin yleensä korreloi, ja niiden regressiokertoimia voi olla eri itseisarvot tai eri merkkiä.

mukautuva

L

1-tyypin seuraamuksia on myös ehdotettu ja käytetään laajasti eri tutkimusaloja:

mukautuva suopunki: (5) B

mukautuva joustava verkko: (6)

jossa on adaptiivinen tietojen ajaa paino

γ

0. Käyttämällä paino, voimme discriminately määrätä seuraamus kunkin ominaisuuden riippuen niiden merkitys, ja siten tehokkaasti suorittaa ominaisuuksien hallintaan. Zou ja Hastie [4] ja Zou ja Zhang [2] vahvistetaan oraakkeli omaisuutta mukautuva lasso ja mukautuva joustava verkko, vastaavasti. Kuitenkin suorituskyky adaptiivisen regularization menetelmien vahvasti riippuvainen OLS-estimaattorin, ja siten nämä menetelmät kärsivät multikollineaarisuus. Lisäksi adaptiivinen

L

1-tyypin laillistaminen menetelmät kärsivät samoista haitoista kuin yhteisiä menetelmiä, eli kun käytetään mukautuvaa lasso määrä valittujen muuttujien ei voi ylittää

n

, ja mukautuva joustava verkko voi myös tarjota virheellisiä estimointitulosten kun kertoimet korreloi muuttujien erisuuruisten ovat läsnä.

Random Lasso

Wang et al. [3] yksityiskohtainen haittoja nykyisten

L

1-tyypin lähestymistapoja, ja ehdotti satunnainen lasso perustuu bootstrap strategia, joka työllistää satunnainen metsä menetelmällä. Vuonna satunnainen lasso menettely, satunnaisesti valittu

q

muuttujia pidetään ehdokkaana muuttujia regressiomallinnus kullekin bootstrap näyte. Siten tulokset eivät kärsi korreloi muuttujien haittoja, koska kukin bootstrap näyte voi sisältää vain osajoukko korreloi muuttujia. Lisäksi satunnainen suopungin voi voittaa osajoukko kokorajoitusta, koska muuttuva valinta perustuu tuloksiin bootstrap regressiomallinnus kanssa satunnaisesti valittua

q

1 tai

q

2 muuttujat kussakin bootstrap näytteessä.

Wang et al. [3] ehdotti seuraavaa algoritmia, joka perustuu kaksivaiheiseen bootstrap menettelyn toteuttamiseksi satunnainen suopunki:

Algorithm 1

Random suopunki

Vaihe 1: tuottaa tärkeysmitat on ennustajan muuttujia.

∘ Draw

b

bootstrap näytteiden koko

n

ottamalla näyte korvaaminen alkuperäisen aineisto.

∘ varten bootstrap näyte,

b

1 ∈ {1, 2, …,

B

},

q

1 ehdokasta muuttujat valitaan satunnaisesti, ja suopungin haetaan regressiomallinnus ja saadaan estimaattorien

J

= 1, …,

p

.

∘ merkitys mitta

x

j

lasketaan.

Vaihe 2: Variable valinta

∘ Draw

B

bootstrap näytteiden koko

n

ottamalla näyte tilalleen alkuperäinen aineisto.

∘ varten bootstrap näyte,

b

2 ∈ {1, 2, …,

b

},

q

2 ehdokas muuttujat valitaan satunnaisesti valikoima todennäköisyydellä

x

j

verrannollinen

I

j

, ja adaptiivinen suopunki haetaan regressiomallinnus, ja saamme estimaattori

J

= 1, …,

p

.

∘ Laske lopullinen estimaattorin, kuten

J

= 1, …,

p

.

melun ennustaja muuttujia, kertoimet vastaavissa bootstrap näytteet arvioidaan olevan pieni tai olla erilaisia ​​merkkejä, ja näin itseisarvo keskimääräisen kertoimien (eli

I

j

) on pieniä tai lähellä nollaa . Toisaalta, kertoimet ratkaisevan ennustaja muuttujia voi olla jatkuvasti suuri eri bootstrap näytteissä, ja siten keskeinen geeni on suuri arvo

I

j

. Tämä merkitsee sitä, että valinta todennäköisyys

I

j

tarjoaa tehokkaan ominaisuuksien hallintaan. Wang et ai. [3] pidetään

q

1 ja

q

2 kuten viritysparametrejä, ja että on tärkeää toimenpide

I

j

voidaan myös käyttää painon adaptiivisen lasson.

Wang et ai. [3], todettiin vaihtelevan valinnan tulokset satunnainen lasso kohtuuttomia, koska osa lopullisesta nollasta kertoimet voivat johtua tietystä bootstrap näyte (eli satunnainen suopungin voi tuottaa vääriä positiivisia muuttuja valinta). Niinpä kynnys

t

n

= 1 /

n

lisättiin muuttujan valinta, ja ennustaja muuttujia poistettiin lopullisesta mallista.

Rekursiivinen Random Lasso tehokkaille Feature Selection

satunnainen suopunki voi voittaa haitat nykyisten

L

1-tyypin laillistamista käyttämällä satunnainen metsä menetelmällä bootstrap regressiomallinnus . Vaikka satunnainen suopunki toimii hyvin korkea ulotteinen regressiomallinnus kanssa korreloi ennustajia, menetelmä kärsii myös seuraavat haitat:

satunnainen suopunki on laskennallisesti intensiivinen, koska se perustuu kahteen bootstrap menettelystä vastaavien B Toistoja. Laskennallinen monimutkaisuus satunnainen suopunki lisääntyy merkittävästi genomisessa data-analyysi, koska aineisto on rakennettu erittäin suuri määrä ennustaja muuttujia.

Kynnys on ratkaiseva ominaisuus valinta, koska ominaisuus valinnan tulokset riippuvat suuresti kynnyksellä. Kuitenkin, Wang et ai. [3] mielivaltaisesti asettaa raja kuin 1 /

n

ilman tilastollista taustaa.

menetelmä on liikaa viritysparametrejä, eli

λ

in

L

1-tyypin seuraamuksia, ja

q

1 ja

q

2 satunnaisessa metsässä menetelmällä. Suuri määrä tuning parametrien tekee myös menetelmä aikaa vievä, koska satunnainen suopunki menettelyä toteutetaan toistuvasti valita optimaalisen parametrin yhdistelmä.

Ehdotamme tehokkaan mallinnuksen strategian mukaisesti satunnainen lasso, nimeltään rekursiivinen satunnainen suopunki (tai joustava verkko). Tehokkaaseen suorittamiseen korkea ulotteinen genomista data-analyysi, ehdotamme rekursiivinen bootstrap menettely tuottaa tärkeää mitata ja regressiomallinnus. Ehdotamme myös uusi kynnys tehokkaasti valita ennustaja muuttujia bootstrap regressiomallinnus käyttäen parametrinen tilastollinen testi. Lisäksi useat ehdokas ennustavia,

q

, on myös satunnaisesti valittu kussakin bootstrap näytteestä (ts emme pidä

q

kuin viritys parametri). Ehdotettu rekursiivinen satunnainen suopunki (joustava verkko) on toteutettu seuraavalla algoritmilla.

Algoritmi 2

Rekursiivinen satunnainen suopunki (tai joustava verkko) B

Draw

B

bootstrap näytteitä koko

n

ottamalla näyte korvaaminen alkuperäisen aineisto.

ensimmäistä bootstrap näyte (eli

b

= 1),

q

ehdokas muuttujat valitaan satunnaisesti ja suopunki (tai joustava verkko) haetaan regressiomallinnus. Sitten saadaan estimaattorien

J

= 1, …,

p

.

Jotta

b

∈ {2, …,

B

} merkitys mitta

x

j

lasketaan.

q

ehdokas muuttujat valitaan satunnaisesti valikoima todennäköisyydellä

I

j

, ja adaptiivinen suopunki (tai mukautuva joustava verkko), jossa

w

J

= 1 /

I

j

haetaan regressiomallinnus. Saadaan estimaattorien

J

= 1, …,

p

.

Final estimaattorit ovat lasketaan.

Lopuksi teemme muuttuja valinta perustuu kynnyksellä

t

* kautta parametrinen tilastollinen testi.

Parametric Statistical Test Variable valinta Bootstrap regressiomallinnus (PSTVSboot).

velvoittaa hoitamaan tehokkaasti ominaisuuksien hallintaan, ehdotamme parametrinen tilastollinen testi perustuu bootstrap regressiomallinnus tuloksia. Ensin harkita

B

×

p

binary matriisi D saatu yllä rekursiivinen bootstrap menettelyjä. Asetamme elementti binary matriisin

D

BJ

= 1 nollasta

b

th

bootstrap näyte; muuten

D

BJ

= 0. Toisin sanoen katsomme, että binary matriisi saadaan Bernoulli kokeita, ja anna

D

j

satunnaismuuttuja liittyy Bernoulli tutkimuksissa seuraavasti:

,

.

Bernoulli satunnaismuuttuja on seuraava tiheysfunktio , (7) missä todennäköisyys

π

voidaan arvioida seuraavasti, (8), joka osoittaa keskiarvon valinnan suhteen Predictor muuttujien

B

bootstrap näytteitä. Järkevään vaihteleva valikoima, me sitten harkita seuraavia tilastotieto: (9), joka osoittaa, kuinka monta nollasta in

B

Bernoulli kokeita (eli

B

bootstrap näytettä). Tilastollinen

C

j

seuraa binomijakaumasta ja sillä on seuraavat todennäköisyysmassasta toiminto: (10) Sitten laskea

p

-arvo kullekin ennustaja muuttuja seuraavasti, (11) ja lopuksi suorittaa muuttuva valinta perustuu

p

-arvo, jonka kynnys

t

* = 0,05 seuraavasti, (12) missä

I

(⋅) on indikaattori funktio. Voimme olettaa, että parametrinen tilastollinen testi voi voittaa vääriä positiivisia ominaisuuksien hallintaan tulokset bootstrap regressiomallinnus. Vaikka olemme kuvanneet ehdotettu muuttuja valikoimastrategiassa keskittyi satunnainen lasso menettelyn parametrinen tilastollinen testi on hyödyllinen väline bootstrap regressiomallinnus.

Tulokset

Monte Carlo-simulaatiot

Monte Carlo simulaatiot suoritettiin tutkimaan tehokkuutta ehdotetun mallinnus strategiaa. Me simuloitu 100 aineistoja seuraavista lineaariregressiomallin, (13) missä

ε

i

ovat

N

(0,

σ

2), ja korrelaatio

x

l

ja

x

m

on 0,5

|

l

m

|.

pidetään seuraavissa simulointi tilanteista:

Type1:

n

= 100 ja

p

= 1000 kuin

β

J

= 3 50 satunnaisesti valittua muuttujaa, toisin

β

J

= 0,

Type2:

n

= 100 ja

p

= 1000 kuin

β

J

= 3 25 satunnaisesti valittua muuttujaa,

β

J

= -3 25 satunnaisesti valittua muuttujia, toisin

β

J

= 0,

Type3:

n

= 100 ja

p

= 1000 kuin

β

J

= 3 150 satunnaisesti valittua muuttujia, toisin

β

J

= 0.

Type4:

n

= 100 ja

p

= 1000 kuin

β

J

= 3 75 satunnaisesti valittua muuttujaa,

β

J

= -3 75 satunnaisesti valittua muuttujia, toisin

β

j

= 0,

Type5:

n

= 50 ja

p

= 2000

β

J

= 3 40 satunnaisesti valittua muuttujia, toisin

β

j

= 0,

Type6:

n

= 50 ja

p

= 2000

β

J

= 3 20 satunnaisesti valittujen muuttujien

β

J

= -3 20 satunnaisesti valittua muuttujaa, toisin

β

j

= 0,

Type7:

n

= 50 ja

p

= 2000

β

J

= 3 200 satunnaisesti valitut muuttujat, toisin

β

J

= 0.

Type8:

n

= 50 ja

p

= 2000

β

J

= 3 100 satunnaisesti valittua muuttujaa,

β

J

= -3 100 satunnaisesti valitut muuttujat, toisin

β

j

= 0,

arvioitava ehdotetut rekursiivinen satunnainen lasso ja joustava verkko menettelyjä, vertasimme suorituskyky meidän menetelmiä, rekursiivinen satunnainen joustava verkko (RCS.RD.EL), rekursiivinen satunnainen suopungin (RCS.RD.LA), jossa lassotyökalun (lASSO), mukautuva suopungin (AD.LA), joustava verkko (ELA), ja nykyiset satunnainen suopunki (RD.LA). Vuonna numeerinen tutkimuksissa käytimme harjun estimaattori paino nykyisten mukautuva lasso, ja me pidetään kynnys nykyisen satunnainen suopungin olla

s Twitter /

n

, ja valittu

s

perustuu tehollisarvoinen virhettä validointi aineisto. Mietimme määrä bootstrap näytteiden

B

= 1000 ja aineisto rakennettu koulutusta, validointi, ja testi mittausmuistien näytekoko

n

, vastaavasti. Virityksen parametrit valitaan 5-kertainen cross validointi perustuu koulutukseen aineisto.

Ensin arvioitiin laskennallinen tehokkuuteen menetelmiä. Taulukossa 1 on esitetty laskennallinen tarvittava aika nykyisen satunnainen lasso ALGORITMI 1 (RD.LA) ja ehdotettu rekursiivinen satunnainen lasso ALGORITMI 2 (RCS.RD.LA). Ajoaika ilmaisee kokonaisajan arvioimiseen tarvittava regressiomalli kautta viritysparametrejä valinta ja bootstrap replikointi. Taulukko 1 osoittaa, että esitykset ehdotetun rekursiivinen satunnainen suopunki on laskennallisesti tehokas verrattuna nykyiseen satunnainen suopunki kaikissa simulointi tilanteissa.

Näyttää tehokkuuden rekursiivisen bootstrap strategiaa, vertasimme merkitystä toimenpiteet satunnainen lasso menettelyjä. Taulukossa 2 on esitetty keskiarvo tärkeysmitat

I

j

varten ennustaja muuttujia todella nollasta poikkeavien kertoimien ja aidosti nolla kertoimista rekursiivisessa satunnainen joustava verkko (RCS.RD. EL), rekursiivinen satunnainen suopungin (RCS.RD.LA) ja satunnaisia ​​suopunki (RD.LA), jossa luvut ovat suluissa keskiarvo tärkeysmitat pieniä määrä alkulatauksen näytteiden

B

= 20.

Olemassa satunnainen lasso, että on tärkeää toimenpide lasketaan itsenäisesti regressiomallinnus (eli vaiheessa 1 aLGORITMI 1). Kuitenkin meidän menetelmässä

I

j

on rekursiivisesti laskettu aikana regressiomallinnus. Lisäksi

I

j

meidän menetelmä perustuu satunnaisesti valittu joukko ehdokas ennustaja muuttujia

q

, kun taas nykyiset satunnainen lasso menetelmä,

I

j

perustuu viritysparametrejä

q

1 ja

q

2 valitaan minimoimalla ennustuksen virhe validointi aineisto. Lyhyesti sanottuna menetelmä tarjoaa ajan tehokkaita menettelyjä verrattuna nykyiseen satunnainen lasson.

Taulukosta 2 voidaan nähdä, että on tärkeää toimenpide meidän menetelmä osoittaa suurempaa erot todella nollan ja nollasta poikkeavien kertoimien kuin se tekee nykyisen satunnainen lasso, mutta ero on pieni. Lisäksi voimme nähdä, että ehdotettu rekursiivinen bootstrap menettely antaa myös suurempia eroja merkitys toimenpiteen jopa pieni määrä bootstrap näytteitä (eli

B

= 20 suluissa taulukon 2). Tämä merkitsee sitä, että ehdotettu rekursiivinen bootstrap lähestymistapoja suorittaa tehokkaasti ominaisuuksien hallintaan käyttämällä satunnainen metsä menettely, vaikka meidän menetelmä tarjoaa laskennallisesti tehokkaita mallinnuksen tulokset.

vertasi tuloksia regressiomallinnus perustuu ennustetarkkuus testissä aineisto ja muuttuja valinnan tulokset on esitetty kuvioissa 1 ja 2.

kuvio 1 esittää ennustevirheet annetaan keskiarvona tehollisarvoinen virheet rekursiivista satunnainen joustava verkko (RCS.RD.EL ), rekursiivinen satunnainen suopungin (RCS.RD.LA), random suopungin (RD.LA), joustava verkko (ELA), mukautuva suopungin (AD.LA), ja suopungin (lASSO). Se voidaan nähdä, vaikka kuvassa 1 että ehdotettu rekursiivinen satunnainen joustava verkko näyttää ylivoimainen ennustetarkkuus lähes simulointi tilanteissa. Lisäksi ehdotettu rekursiivinen satunnainen suopunki osoittaa myös paljon korkeampi ennusteen tarkkuus kuin lasso, mukautuva suopungin tai joustava verkko, ja tulokset vastaa nykyistä satunnainen lasso, vaikka rekursiivinen satunnainen suopunki tarjoaa aika-tehokkaita esityksiä verrattuna nykyiseen satunnainen suopunki kuten on esitetty taulukossa 1.

Vertasimme myös vaihteleva valinnan tulokset annetaan keskiarvona tosi positiivisia (eli keskimäärin totta nollasta poikkeavien kertoimien, väärin asetettu nollaan) ja tosi negatiivinen korko (ts keskimääräinen prosenttiosuus todellisesta nollasta kertoimia, jotka oli oikein asetettu nolla) kuvassa 2. Näemme kuitenkin kuvio 2, että ehdotettu rekursiivinen satunnainen lasso ja rekursiivinen satunnainen joustava verkko osoittavat erinomaista suorituskykyä muuttujan valinta kaikissa simulointi tilanteissa. Toisaalta käsiä, lasso ja mukautuva suopunki on huonot tulokset muuttujan valinta korkean mitoitustiedot tilanteita, koska menetelmät kärsivät rajoittamisesta osajoukon koon.

Lyhyesti, ehdotettu rekursiivinen satunnainen lasso ja joustava verkko menetelmät eivät ole ainoastaan ​​laskennallisesti tehokas, mutta tuottaa erinomaisia ​​regressiomallinnus tuloksia (eli ennustearvon ja vaihteleva valinta). Tämä Tulokset osoittavat, että meidän menetelmät voivat olla hyödyllisiä välineitä korkea ulotteinen genomista muutos tietojen analysointi.

Real World Esimerkkejä: tunnistaminen Kuljettajan geenejä syöpälääkettä Herkkyys

soveltanut ehdotettua tunnistamis- potentiaalia kuljettaja geenejä syövän huumeiden herkkyys yleisesti saatavilla ”Sanger Genomics of Drug herkkyys Cancer aineisto päässä Cancer Genome Project” (https://www.cancerrxgene.org/). Aineisto sisältää geeniekspressiotasot, kopiomäärä ja mutaatio tilan 654 solulinjojen ja puolet maksimaalisesta estävä lääkeainepitoisuudet (IC 50-arvot) 138 syöpälääkkeet indikaattorina huumeiden herkkyys. Me pidetään ekspressiotasot 13321 geenien ja IC 50-arvot syöpälääkkeet paljastaa kuljettajan geenejä, jotka ovat saatavilla resurssit: ”Cell geneettisen (mutaatio ja kopion numero) ja geenien ilmentyminen käytetyt tiedot EN analyysi” ja ” solulinja huumeiden herkkyys, mutaatiot ja kudostyypin ”, vastaavasti,” https://www.cancerrxgene.org/”. Monet IC 50-arvot puuttuvat Sanger aineisto, ja siksi katsotaan vain 99 syöpälääkkeet, joilla on ei-puuttuva havaintoja vähintään 600 syöpäsolulinjat, kuten vastemuuttujia. Ilmentymistasojen 10% geeneistä (toisin sanoen 1332-geenit), jolla on suurin varianssi kaikki näytteet pidettiin ennustaja muuttujia. Meillä työskentelee

B

= 1000 bootstrap aliotosten ja viritysparametrejä valittiin 5-kertaiseksi cross validointi.

arvioimiseksi ehdotettujen menetelmien vertasimme ennustetarkkuus rekursiivisen satunnainen lasso ja joustava net, nykyiset satunnainen suopungin, joustava verkko, mukautuva suopungin ja suopunki perustuvat 99 regressiomalleja vastaa 99 syöpälääkkeet. Taulukossa 3 esitetään keskiarvo juuren tarkoittaa neliövirheen on 99 regressiomalleja. Voimme nähdä läpi taulukossa 3, että satunnainen suopunki kaltaisista lähestymistavoista osoittavat erinomaista suorituskykyä verrattuna

L

1-tyypin laillistamisen menetelmiä. Ehdotettu rekursiivinen satunnainen lasso ja joustava verkko näyttää samanlainen suorituskyky nykyisten satunnainen lasso, vaikka menetelmämme näyttää aika-tehokas menetelmä kuin on esitetty luettelo ajoajat taulukossa 3.

Sitten tunnistettuja potentiaalisia kuljettaja geenit käyttäen ehdotettuja rekursiivinen satunnainen joustava verkko. Keskityimme viisi suosittua syöpälääkkeet: sisplatiini, Doketakseli, doksorubisiini, gemsitabiini ja vinorelbiini, jotka ovat herättäneet runsaasti syöpätutkimukseen [6, 7]. Me esittelee viisi syöpälääkkeitä.

Sisplatiini (kauppanimi: Platinol): platina-yhdiste kemoterapia lääke, joka estää syöpäsolujen kasvua. Tavoite: DNA silloitteen. Käytetään: kivesten, munasarjojen, virtsarakon, pään ja kaulan, kohdunkaulan syövän ja eturauhasen syöpiä. Sivuvaikutukset: pahoinvointi ja oksentelu, munuaistoksisuutta, alhainen valkosolujen, ja alhainen punasolujen määrä.

Doketakseli (kauppanimi: Taxoteren): kuuluu luokkaan kemoterapiaa huumeita, joka toimii estämällä jako syöpäsoluja. Tavoitteet: Mikrotubulukset. Käytetään: rinta, ei-pienisoluisen keuhkosyövän, kehittyneet vatsa, ja pään ja kaulan alueen syövät. Sivuvaikutukset: pahoinvointi, ripuli, hiustenlähtö, kynsien muutokset, alhainen valkosolujen, ja alhainen punasolujen määrä.

Doksorubisiini (kauppanimi: adriamysiinin): an syöpälääkkeiden lääke, joka on luokiteltu ”antrasykliiniantibioottilääkeaineiden”. Se hidastaa tai pysäyttää syöpäsolujen kasvua, ja se sitoutuu DNA: n interkalaatiota välillä erityisiä emäsparia, mikä estää DNA: n synteesiä [8]. Tavoite: DNA intercalation. Käytetään leukemian, virtsarakon, rinnan, mahan, keuhkojen, munasarjojen ja kilpirauhassyövän, ja pehmytkudoksen sarkooma. Sivuvaikutukset: hiustenlähtö, myelosuppressio, mukosiitin, ja ripuli.

Gemsitabiini (kauppanimi: Gemzar): an syöpälääkkeiden lääke, joka on luokiteltu antimetaboliittina. Gemsitabiini estää syöpäsolujen kasvua, mikä viime kädessä johtaa niiden tuhoamista. Se estää tymidylaattisyntetaasin, mikä johtaa DNA-synteesin esto ja solun kuolemaan [9].

Vastaa