PLoS ONE: kirjanpito Riippuvuus indusoima Painotettu KNN Imputoinnilla vuonna Pariksi Näytteet, motivoi peräsuolen syövän tutkimus

tiivistelmä

Puuttuva tieto voi syntyä bioinformatiikan sovelluksia eri syistä, ja imputointimenetelmiä usein sovelletaan kyseisiin tietoihin. Olemme motivoi peräsuolen syövän tutkimus, jossa miRNA ilmentyminen mitattiin pariksi kasvaimen normaaliin näytteitä satoja potilaita, mutta data monille normaali näytteet puuttui puutteessa kudoksen saatavuus. Vertaamme tarkkuus ja teho suorituskykyä useiden imputointimenetelmiä, ja kiinnittää huomiota tilastollinen riippuvuus aiheuttama K-lähimmän naapurin (KNN failure). Tämä yhtiöveron aiheuttama riippuvuus ei ole aikaisemmin käsitelty kirjallisuudessa. Osoitamme, kuinka tilille tämän riippuvuuden, ja näkyy läpi simuloinnin miten vapaasti sivuuttaa tai selittää tämä riippuvuus vaikuttaa sekä teho ja tyypin I virheprosentti ohjaus.

Citation: Suyundikov A, Stevens JR, Corcoran C, Herrick J, Wolff RK, Slattery ML (2015) toiminta Riippuvuus indusoima Painotettu KNN Imputoinnilla vuonna Paired Näytteet, motivoi peräsuolen syövän tutkimus. PLoS ONE 10 (4): e0119876. doi: 10,1371 /journal.pone.0119876

Academic Editor: Chuhsing Kate Hsiao, National Taiwan University, Taiwan

vastaanotettu: 19 marraskuu 2014; Hyväksytty: 03 helmikuu 2015; Julkaistu 7 huhtikuuta 2015

Copyright: © 2015 Suyundikov et al. Tämä on avoin pääsy artikkeli jaettu ehdoilla Creative Commons Nimeä lisenssi, joka sallii rajoittamattoman käytön, jakelun ja lisääntymiselle millä tahansa välineellä edellyttäen, että alkuperäinen kirjoittaja ja lähde hyvitetään

Data Saatavuus: R-koodi tuottaa simuloidun tiedot tarjotaan (in a.zip tiedosto) S1 File, Simulation Supplement.

Rahoitus: Tämä tutkimus tukivat avustusta National Institutes of Health, palkinto määrä 1R01CA163683-01A1; MLS päätutkija, jossa subaward on JRS.

Kilpailevat edut: Kirjoittajat ovat ilmoittaneet, etteivät ole kilpailevia intressejä ole.

Johdanto

MikroRNA (miRNA) ovat pieniä koodaamattomasta RNA-molekyylit, jotka säätelevät geenien ilmentymistä kohdistamalla RNA: iden. Ne löydettiin ensin 1993 aikana tutkimuksen kehitystä sukkulamato Caenorhabditis elegans (C. elegans) koskien proteiinin geeni lin-14 [1]. Lee et ai. (1993) havaitsivat, että runsaasti proteiinia lin-14 on säännelty pieni RNA koodaa lin-4-lokuksen. Tämä transkriboidaan 22-nukleotidin RNA-molekyyli, joka voi tukahduttaa ilmentyminen lin-14 lähetti-RNA (mRNA) suoraan vuorovaikutuksessa sen 3’alue (UTR).

Tiedeyhteisö on nykyisin erittäin kiinnostuneita toiminnallinen roolit miRNA. Mirna biogeneesissä joka toimii oikein johtaa tavanomainen solujen kasvun, proliferaation, erilaistumisen ja solukuoleman. Mutta vähentäminen tai poistaminen miRNA, joka on aiheuttanut vikoja missään vaiheessa miRNA biogeneesiä johtaa sopimattomaan ilmentymisen miRNA-tavoite onkoproteiineja joka aiheuttaa yhä leviämisen, invasiivisuuden tai angiogeneesi tai vähenevän apoptoosin [2, 3].

miRBase tietokanta, hakutietokanta julkaistu miRNA sekvenssit ja kommentointi, oli listattu 2588 ainutlaatuisen ihmisen kypsän miRNA heinäkuussa 2014 (alkaen https://www.mirbase.org). Koska miRNA voi säädellä enemmän kuin yksi kohde, ne voivat säädellä jopa yli 30% kaikista proteiinia koodaavan geenien ihmisen genomin (maasta https://www.mirnarx.com). Tämä tekee miRNA yksi suurimmista sääntelyviranomaisten geenien ilmentymisen.

välinen yhteys miRNA ja peräsuolen syöpä (CRC) raportoitiin ensimmäisen kerran vuonna 2003, jolloin miR-143 ja miR 145 geenit vaimentua vuonna CRC tuumorikudoksista verrattuna normaaleissa kudoksissa [4]. Sittemmin useat tutkimukset ovat osoittaneet, että miRNA ovat laajasti vapautettiin CRC [5-7].

miRNA tiedot kuin useimmat muut ilmaus tietoja voidaan pitää muodossa suurten matriisien ekspressiotasoja ominaisuuksia (rivit ) eri aineissa (sarakkeet). Aineistot voi olla joko joitakin ominaisuuksia puuttuu joitakin näytteitä, tai kaikki ominaisuudet puuttuu joitakin näytteitä. Edellisessä tapauksessa tapahtuu usein riittämättömän resoluutio, kuva korruptiosta, pölyä tai naarmuja liukukansi ja muita erilaisia ​​kokeellisia ja teknisistä syistä, kun taas jälkimmäisessä tapauksessa voi tapahtua puutteesta kerätyn kudoksen tai rajoitetusti varoja. Esimerkkinä Jälkimmäisessä tapauksessa esitämme tapaustutkimus tutkimuksesta määrittää yhdistys miRNA kanssa CRC pariksi normaali-kasvain näytteissä. Osana alustavan analyysin avulla ensimmäisen käytettävissä aiheista, halusimme verrata miRNA ekspressioprofiilit normaalien ja kasvaimen näytteet jokaisesta yli 400 potilailla, joilla on 2006 miRNA Kustakin näytteestä. Keräsimme myös paljon tietoa demografiset ja elämäntapa muuttujia näiden CRC potilaista. Ei ole monta CRC tutkimukset, jotka ovat keränneet niin laajoja tietoja sellaisista muuttujista. Kuitenkin viime kädessä se käyttää kaikkia aiheita, 10%: sta 50%: lla koehenkilöistä on puuttuu normaali näytteet puutteessa kudoksen saatavuudesta.

välittömänä tavoitteena tällä CRC tapaustutkimus on ymmärtää vaihtoehtojen laskennallisiin sekä niiden suhteellisia vahvuuksia ja heikkouksia. Erityisesti haluamme tietää tietyn imputointia menetelmä sen soveltamisen Puuttuvien miRNA tietojen joukossa normaaleja näytteitä tuottaa tarkkoja ennusteita niiden todellisen ilmaisun tasoilla, ja kuinka tällaiset ennusteet ovat edelleen vaikuttaa prosentuaalinen osuus, joiden puuttuvat arvot. Olemme edelleen haluavat ymmärtää, miten nämä tulokset vaikuttavat tilastollinen voima havaita ilmentyvät eri miRNA samalla hallita tyypin I virhe.

Kanssa leviämisen geeniekspressiotutkimuksissa viime vuosikymmenen aikana, enemmän huomiota on kiinnitetty imputointimenetelmiä varten miRNA tiedot. Perinteiset lähestymistavat usein liittyy yksinkertaisesti ilman miRNA puuttuvien arvojen tilalle puuttuvat arvot nollia, tai laskennallisten käyttämällä rivin tai sarakkeen keskiarvoja. Tällaiset vaihtoehdot sivuuttaa korrelaatio tiedon rakenteen ja on rajoitettu teho [8]. Lisäksi ne eivät hyödyntää mahdollisesti informatiivinen demografiset tai elämäntapa muuttujia. Kehittyneempiä vaihtoehtoja käyttää useita syyksi perustuu Markovin ketju Monte Carlo (MCMC) ja odotus-maksimointi (EM) algoritmeja, jotka mahdollistavat sisällyttämistä ylimääräisiä covariates [9-11]

Tässä artikkelissa esittelemme ja arvioida hyvitysjärjestelmästä menetelmä, joka selittää riippuvuutta aiheuttama painotetulla K-lähimmän naapurin (KNN) ja pitää kovariaatit, yli useiden syyksi tekniikoita käyttäen MCMC ja EM kanssa bootstrapping algoritmeja, sekä tapauksessa poisto tekniikalla käyttäen ominaisuuksia tämä suuri CRC tiedot set.

Tämä paperi on järjestetty seuraavalla tavalla: ensin, tarjoamme yleiskuvan imputointi oletuksia ja menetelmiä sekä Keskineliövirhe menetelmän suorituskyvyn arvioimiseen eri imputoinnin tekniikoita. Sitten osoittaa soveltamisesta imputoinnin tekniikoiden avulla simulointi aineistoja. Lopuksi, me lopuksi keskustelun tärkeimmistä kysymyksistä esitetty paperin, kuten suorituskyky KNN imputoinnin menetelmä ottaen huomioon esimerkiksi riippuvuus yli usean syyksi tekniikoita.

Methods

Ennen hyvitysjärjestelmästä puuttuvia tietoja on tarpeen tietää, onko puuttuva tieto esiintyy satunnaisesti, seurauksena havaitsematon tekijöitä, tai on tarkoitettu. Meidän on otettava huomioon oletuksiin: puuttuu satunnaisesti (MAR) ja puuttuu täysin sattumanvaraisesti (MCAR) [12]. Puuttuvat tiedot ovat MAR kun puuttuvat arvot eivät jakautuneet satunnaisesti kaikilla havainnot vaan ovat jakautuneet satunnaisesti yhden tai useamman osanäytteitä tietoja. Muuttuva (miRNA tai

x

) voidaan pitää MAR jos havaitsemisen todennäköisyys

x

(ehdollinen havaittuihin muuttujiin) ei riipu

x

. MCAR olettamus on erikoistapaus MAR, kun puuttuvat tiedot arvot ovat yksinkertainen satunnaisotos kaikkien data-arvot. Voidaan määritellä puuttuvien tietojen puuttuvana ei sattumanvaraisesti (MNAR) jos kumpikaan MCAR eikä MAR oletuksia pidä. Tällöin puuttuva tieto ei voida katsoa perustuvat käytettävissä oleviin tietoihin. Niinpä yhtiöveron tekniikoita voidaan soveltaa vain tietoihin, jotka täyttävät joko MAR tai MCAR oletuksiin. Ominaisuudet CRC miRNA tiedot täyttävät MAR oletukset koska todennäköisyys koehenkilöillä, joilla puuttuu normaali näytteissä ei riipu miRNA ilmaisun arvot oppiaineesta.

Pidämme seuraavista tavoista arvioida miRNA ekspressiotasot kadonneita normaali näytteitä potilaista:

Multiple syyksi

Multiple syyksi (MI) on alunperin suunniteltu käsittelemään puuttuvien in julkiseen käyttöön suuria tietomääriä [12]. Soveltaminen MI prosessi on laajennettu eri suuria tietomääriä kuten mikrosiruja [13]. Menetelmä korvaa kukin puuttuva arvo useita korvaavia arvoja, sano

m

, jotka edustavat todennäköisyysjakauman puuttuvien. Täytetty aineisto luodaan kunkin joukon kiinnittää. Joten

m

imputations jokaiselle puuttuva arvo luoda

m

täydellisiä tietoja. Niitä säilytetään avustavan matriisin kertolasku-laskennallisia tietuekokonaisuudet yhden rivin puuttuva arvo ja

m

saraketta. Ensimmäisellä rivillä tämän matriisin vastaa ensimmäiset laskennallisten arvojen puuttuvia arvoja, ja niin edelleen. Koska täydellinen-data analyysejä sovelletaan kuhunkin moninkertaisesti-laskennallinen aineisto (hoitoon laskennalliset arvot täysin havaitusta ja riippumaton),

m

erilaista parametrin arvioiden ja niiden varianssi-kovarianssi matriiseja syntyy. Yhdistämään johtopäätökset niistä, [12] ehdottaa ottamaan keskimäärin kaikki tulokset, paitsi keskivirhe (SE) aikavälillä. SE on rakennettu jonka sisällä varianssi kunkin aineisto sekä välinen varianssi laskennalliset kohteita jokaiseen aineisto. Nämä kaksi vaihtelut lasketaan yhteen ja neliöjuuren ne määrittelee SE. Laatija suosittelee käyttämään enintään 5 imputations ja joskus niin pieni määrä kuin 2 tai 3 hyötytyöntövoiman tilastollinen päättely. Käytämme

m

= 5 MI tekniikoiden analyysimme. On tärkeää huomata, että koko-data analyysit MI kohdella laskennalliseen data niin kuin ne olisivat täysin noudatettu. Tämä lähestymistapa ei ota huomioon mitään riippuvuutta laskennallisten tietojen todellinen täysin havaittu data.

MI käyttämällä Markovin ketju Monte Carlo (MCMC) B

Useita laskennallisia aineistoja voidaan tuottaa MCMC menetelmällä , joka syötetään mielivaltaiselle puuttuvat tiedot malli, joka olettaa, monimuuttuja normaalius. MCMC on käytetty tutkimaan posteriori jakaumat ilmaista tuntemattomien parametrien Bayesilaisen päätelmiä. Käyttämällä tätä menetelmää, koko yhteinen posteriorijakauma tuntemattoman määrän simuloidaan ja parametri arvioita, jotka perustuvat simulaatio muodostetaan [14].

Tämä prosessi voidaan kuvata kahdessa vaiheessa. Ensimmäinen vaihe on yhtiöveron I-vaihe, joka satunnaisesti kiinnittää arvot puuttuvat arvot oletetusta jakelun puuttuvat arvot havaitut arvot käyttämällä arvioitua keskimääräistä vektorin ja varianssi-kovarianssimatriisi eli se vetää arvot

Y

m

i

s

(

t

+

1

) myynnissä maassa

p

(

Y

mis

Vastaa