PLoS ONE: Novel Rank-Based tilastolliset menetelmät Paljasta MikroRNA kanssa Differential ilmentäminen Useita Cancer Tyypit
tiivistelmä
Background
MikroRNA (miRNA) säätelevät kohdegeenien at transkription jälkeisellä tasolla sekä merkittäviä rooleja syövän synnyssä ja kehityksessä. Vaihtelu henkilöissä on merkittävä sekoittava tekijä miRNA (tai muu) ilme tutkimuksissa. Todellisen luonteen biologisesti tai kliinisesti merkittävä ero ilmaisua voidaan peittää potilaiden välillä vaihtelevat. Tässä tutkimuksessa pyritään tunnistamaan miRNA johdonmukainen differentiaalikaavojen useita kasvaintyypeissä käyttämällä uutta tietojen analysointi lähestymistapa.
Methods
Käyttämällä mikrosiruja me profiloitu ilmentymistä yli 700 miRNA 28 vastinparitestiä kasvain /normaali näytteet 8 eri kasvaintyypit (rinta-, paksusuoli-, maksa-, keuhko-, lymfooma, munasarja-, eturauhas- ja kiveksissä). Tämä joukko on ainutlaatuinen painottaen minimointiin kudostyypin ja potilaan liittyvät vaihtelu normaaleilla ja kasvaimen näytteitä samasta potilaasta. Kehitämme tulokset verrattaessa miRNA ilmentymistä edellä sovitetun näytedatan, joka perustuu tiukkaan luonnehdinta jakelun tilauksen tilastojen yli diskreetti tila asettaa, mukaan lukien tarkat arvot. Erityisesti meidän laskea Rank Johdonmukaisuus Score (riskipääomatoimien) jokaista miRNA mitattuna tietomme. Meidän menetelmät ovat sovellettavissa erilaisissa muissa yhteyksissä. Vertaamme menetelmiä, joita sovelletaan Hyväksytty näytteitä, jotta pariksi t-testi sekä Wilcoxonin testi.
Tulokset
tunnistaa yhdenmukaisia (poikki syöpätyyppeihin mitattu) ilmentyvät eri miRNA . 41 miRNA ovat alle ilmaistu syöpä verrattuna normaaliin kello FDR (False Discovery Rate) 0,05 ja 17 ovat yli-ilmaisi samalla FDR tasolla. Ilmentyvät differentiaalisesti miRNA ovat tunnettuja oncomiRs (esim miR-96) sekä miRNA joita ei ole aikaisemmin yleisesti liittyy syövän. Erityisiä esimerkkejä ovat miR-133b ja miR-486-5p, jotka johdonmukaisesti säädeltiin ja mir-629 *, joka on johdonmukaisesti jopa säädellään syövän yhteydessä meidän kohortin. Tiedot ovat saatavilla GEO. Ohjelmisto on saatavilla osoitteessa: https://bioinfo.cs.technion.ac.il/people/zohar/RCoS/
Citation: Navon R, Wang H, Steinfeld I Tsalenko A, Ben-Dor A, Yakhini Z (2009) Novel Rank-Based tilastolliset menetelmät Paljasta MikroRNA kanssa Differential ilmentäminen Useita Cancer Tyypit. PLoS ONE 4 (11): e8003. doi: 10,1371 /journal.pone.0008003
Editor: Thomas Preiss, Victor Chang Sydän Research Institute (VCCRI), Australia
vastaanotettu: 26 heinäkuu 2009; Hyväksytty: 29 lokakuu 2009; Julkaistu 25 marraskuuta 2009
Copyright: © 2009 Navon et al. Tämä on avoin pääsy artikkeli jaettu ehdoilla Creative Commons Nimeä lisenssi, joka sallii rajoittamattoman käytön, jakelun ja lisääntymiselle millä tahansa välineellä edellyttäen, että alkuperäinen kirjoittaja ja lähde hyvitetään.
Rahoitus: RN, IS ja ZY oli osittain tuettu Euroopan unionin FP6 avustuksen puitteissa on MultiKnowledge Project. Rahoittajat ollut mitään roolia tutkimuksen suunnittelu, tiedonkeruu ja analyysi, päätös julkaista tai valmistamista käsikirjoituksen.
Kilpailevat edut: RN, HW, AT, ABD ja ZY ovat nykyisten työntekijöiden Agilent Technologies. IS työskenteli Agilent Technologies osan aikaa, jolloin tutkimus tehtiin. Kirjoittajat täysin kiinni kaikki PLoS ONE politiikan tietojen jakamista ja materiaaleja.
Johdanto
geeniekspressioprofilointi sovelletaan yleisesti tunnistaa eroja luokkien solutyyppien, kuten ilmenee differentiaalisesti ilmentyvien geenien [1] – [4]. Tyypillinen aineisto käsittää kymmeniä näytteitä, joissa ekspressiotasoja tuhansien geenien mitataan. Turvaluokitelluissa ekspressiotietojen näytesarjat jaetaan eri osa tai luokat perustuvat etukäteen tietoa, kuten normaalit näytteet vs. kasvainnäytteestä tai näytteitä eri syöpätyyppien. Samoin voidaan jakaa eri olosuhteissa eri vaiheissa tai eri hoito liittyvät luokat. Useimmat nykyiset tietojen analysointi kirjallisuudessa keskitytään harkitsee koko aineisto on kartoittaa eri tavoin ilmaistuna geenejä. Erilaisia genomista vaihtelun ovat merkittäviä ja usein huomiotta sekoittuneita tekijöitä differentiaalikaavojen tutkimuksissa. Esimerkiksi Shyamsundar et ai. [5] kirjoittajat tutkimuksen lähetti-RNA-ilmentymisen määrä vaihtelua normaaleissa ihmisen kudoksissa, joka osoittaa mahdolliset vaikuttavat sekoittavat välisten kudoksen vaihtelu.
Olisi arvokasta tunnistaa tilastollisesti merkitseviä eroja eri näytteitä, jotka voidaan luotettavasti erityisten biologisesta tilasta, kuten syöpä tai sairaus, sen sijaan, että yksittäisen biologisen muunnelmia, kuten edellä todettiin. Monissa tilanteissa, on mahdollisuus sarjanumero kudos- tai verestä potilaalta, koe-eläimen tai solulinjassa [6], [7]. Kuitenkin monet nykyiset analyysimenetelmät eivät hyödynnä ainutlaatuisia suhteita tällaisia tietoja. Muissa tapauksissa, luokan tai potilaiden välillä voi peittää differentiaalikaavojen ja on puututtava. Tässä tutkimuksessa analysoimme sovitettu näytteiden tutkimiseksi kasvainten vs. normaali differentiaalikaavojen, joka on yhdenmukainen useiden kasvaintyyppeihin, ja kuvata sopiva ja kestävä tilastollisia menetelmiä, jotka tukevat tässä tutkimuksessa.
Tällä hetkellä satoja MikroRNA (miRNA) on tunnistettu ihmisellä. Nämä ovat lyhyitä (yleensä noin 22-nt) ei-koodaavaa sääntelyn RNA-molekyylejä ja niiden sekvenssit julkaistaan Sanger miRBase [8]. miRNA ilmaisun profilointi on tunnustettu arvokasta biologista tietoa mahdollisten täydentää tai korvata mRNA profilointia [9]. miRNA säännellä kohdegeenien at transkription jälkeisellä tasolla ja tärkeä rooli kehityksessä sekä syövän [9] – [11] ja muiden ihmisen sairauksien, kuten sydänsairauksien [12] – [14], skitsofrenia [15] ja psoriasis [16]. miRNA ovat erittäin ekspressoituu differentiaalisesti eri kudostyypeissä [10]. Siksi tunnistaa miRNA differentiaalikaavojen vuoksi erityisiä ehtoja meidän täytyy minimoida häiriövaikutukset edellä kudoksen riippuvainen ero ilme.
Tavoitteemme tässä tutkimuksessa on tunnistaa miRNA jotka ovat johdonmukaisesti differentiaalisesti ilmaistu useita syöpätyypeissä . Välttämiseksi kudostyypin vaihtelevuus ja mitata syöpään liittyvää ero miRNA toimintaa kullekin erikseen; käytämme sovitetun esimerkkitietojoukon koostuu 32 microarray mittausten edustavat 28 sovitetun kasvain ja normaali näytteitä. Käytämme mikrosirut sisältää koettimia 799 miRNA profiloitua miRNA ilmentymistä näistä näytteistä.
motivaation hakemisessa miRNA johdonmukainen differentiaalikaavojen useita syöpätyyppejä johtuu nykytiedon että monet biologiset prosessit ovat yhteisiä erityyppisten syövät. Erityisesti, useita geenejä, joiden tiedetään yleisesti ilmentyvät differentiaalisesti useiden syöpätyyppien. Ilmeisin esimerkki on p53. p53 havaittiin ensimmäisen vuonna 1979 ja siitä lähtien lukuisat tutkimukset osoittivat sen osallistuminen useisiin syöpätyyppeihin. On tärkeää säännellyn toiminnan ehjien p53 estää kasvaimen muodostumisen on osoitettu läsnäolo mutaatioita p53-reitin lähes kaikista syövistä [17], [18]. Toinen esimerkki yleisen syöpään liittyvä proteiini on p16. Tämä geeni sijaitsee kromosomissa 9 ja sen havaittiin olevan mutatoitunut tai useita syöpätyyppejä [19] – [22]. Nämä ovat vain kaksi konkreettisia esimerkkejä, joukossa monenlaisia solun prosesseja, jotka ovat yleisesti liittyvät syöpään.
Aikaisemmat tutkimukset roolista miRNA syövän ovat Lu et ai. [9], joka suoritetaan kasvaimeen vs. normaali rajat kudos analyysi käyttäen helmi-pohjainen virtaussytometrialla tekniikka ei-pariksi tavalla. Tämä tutkimus osoitti, että miRNA riittävät tarkasti luokitella syöpää kudokset mukaan niiden alkion linjaa, jossa globaali ominaisuudet miRNA ilmaisun syövässä. Toinen tutkimus, jonka Volinia et al. [10], kuvataan mikrosiru mittaus 228 miRNA 540 näytettä (363 syöpä ja 177 normaali) 6 eri kudoksesta tyyppejä. Tuottamisen lisäksi miRNA allekirjoituksia, kirjoittajat raportoitu joitakin miRNA jotka ovat jatkuvasti yli tai alle ilmaista, mutta ei ollut yksityiskohtaista tilastollista benchmarking varten johdonmukaisuutta miRNA differentiaalikaavojen. Kirjoittajat toteavat, että kun klusterointi tietonsa valvomattoman tavalla näytteet klusterin perustuu kudostyypeistä riippumatta sairauden tila, mikä korkea vaihtelu miRNA verrattaessa kudosta tyyppejä. Tämä vahvistaa meidän väitteen edellä, joka viittaa miRNA väliseen kudostyypin pohjapinta vaihtelua kuin sekoittava tekijä, kun pyritään mittaamaan miRNA syöpään ero ilme. Useat muut tutkimukset keskittyvät miRNA tietyissä syöpätyypeissä. Esimerkiksi mir-15 ja mir-16 usein poistetaan ja /tai vaimentua in krooninen lymfaattinen leukemia [23], miR-143 ja miR-145 osoittavat vähentynyttä ilmentymistä peräsuolen kasvain [24], ja miR-155 on säädellään ylöspäin ihmisen B-solujen lymfoomat [25].
Tukeaksemme tutkimustavoitteensa olemme kehittäneet tilastollisia menetelmiä, jotka käsittelevät luonteenomaiset jakaumat satunnaismuuttujien jotka syntyvät vertaamalla Hyväksytty näytteistä. Meidän tapauksessamme me laskea differentiaalikaavojen jokaisessa kasvaimen tyyppi ja sitten tilastollisesti arvioida sen yleisyys meidän aineisto. Meidän menetelmät perustuvat erillisiin jotta tilastoista – k-ulotteinen vektori, joka saadaan piirtämällä k riippumattomien numeroita yhdenmukaisesti 1 … N ja sitten lajittelu tuloksena vektori. Vaikka jakelu järjestyksen tilastojen yli jatkuvassa tilat on hyvin tunnettu, tämä ei päde erillisiä näytettä tilat toistoja voidaan sitten tapahtua positiivisella todennäköisyydellä. Computing jakaumat liittyvät erillisiin jotta tilastojen käsiteltiin [26]. Tarpeisiimme määritellään satunnaismuuttujien yli diskreetti jotta tilastojen täysin luonnehtivat jakaumat ja sitten soveltaa menetelmiä biologisten tietojen arvioimiseksi tilastollista merkittävyyttä.
Yhteenvetona panos tämä paperi koostuu:
Tiukka luonnehdinta jakelun tilauksen tilastojen yli diskreetti tila asetetaan sekä niihin liittyvien satunnaismuuttujien. Tämä jakelu soveltuu erittäin analysoimaan Hyväksytty datan parametritonta setup. Olemme myös verrata meidän menetelmiä pariksi t-testi sekä Wilcoxonin testi.
aineisto Hyväksytty kasvain normaali näytteet edustavat ohjelmistoon 8 kasvaintyypeille. Tämä joukko on ainutlaatuinen painotetaan minimoimaan kudostyyppi ja potilaan liittyvien vaihtelu käyttämällä normaalia ja kasvaimen näytteitä samasta potilaasta.
Soveltamalla romaani edellä kuvatuista tilastoista meidän Hyväksytty esimerkkitietojoukon me vahvistaa tiedossa oncomiRs ja kuvata useita uusia syöpää universaali ilmentyvät eri miRNA. On huomattava, että tämä ilmoitettuun universaalisuus on vain toteen, puitteissa tämän tutkimuksen, että 8 tyyppejä täällä edustettuina.
Methods
Lähtökohta tulosten analysointiin geenin tai miRNA ilmentymisen profilointi tutkimus on
lauseke raakadataa matriisi
. Kun kuvataan menetelmiä käytämme sanaa ”geeni” vaan ”miRNA” voidaan käyttää toistensa asemesta. Tämä matriisi on tyypillisesti lähtö useita valmiiksi käsittelyvaiheiden kuten normalisoinnin ja suodatus suoritetaan raakaa mittausdataa.
Tyypillisesti data-analyysi ekspressioprofiileja alkaa tunnistamiseksi ja tilastollista arviointia geenejä, jotka ovat differentiaalisesti ilmaisi verrattaessa eri luokkien edustettuina kohortissa. Monet nykyiset geeni pisteytysmenetelmiä huomioon kaikki ilmaus arvot tietyn geenin. Nämä jaetaan kahteen tai useampaan populaatiot mukaan tutkittu luokitusta. Erot johtuvat osajoukkojen numerot arvioitiin käyttäen erilaisia tilastollisia menetelmiä. Gene pisteytysmenetelmiä jakaa kahteen pääryhmään – parametriset menetelmät, ja ei-parametrinen (jakelu ilmainen) menetelmiä. Parametriset menetelmät olettaa tietyn jakauman ilmaisun arvot jokaisen geenin kussakin tietyn luokan (esim. Syöpä tai normaali) ja sitten pisteet geenien mukaan, miten erillisen luokan erityinen jakaumat ovat. Esimerkkejä tällaisista menetelmistä ovat tavallinen
t-testi
[27] ja
Gaussin Error
maalin [28]. Distribution vapaa tulokset sen sijaan eivät perustu muuttujien oletuksiin. Näitä ovat
Kolmogorov-Smirnov
pisteet [29], ja
Wilcoxonin Rank-Sum
testi [30] sekä
Tietoja
maalin [31] ja
Threshold-Number-of-Väärinluokitusten
(
TNoM
lyhyt) [31]. Jälkimmäinen nonparametric menetelmiä sovellettiin geenien ilmentymistä ja muiden genomisten ja geneettiset tiedot useissa tutkimuksissa, kuten [2], [32] – [35].
Tämä työ koskee uusia ja mahdollisesti merkityksellisempää tietoa että voidaan päätellä, kun ekspressiotietojen on peräisin useista potilaista ja kun kaikki luokat mitattiin kullekin potilaalle. Esimerkiksi näytteitä ennen ja jälkeen hoidon samalle potilaalle. Toinen esimerkki on kasvain ja normaali näytteet samoilta kudoksesta kunkin potilaan, design hyödynnetään tässä työssä. Peli kehitämme otettava huomioon se, missä määrin geeni erottaa kaksi luokkaa suuri enemmistö potilaista. Tulkinta on, että geeni on merkitystä taustalla biologian, jos se on erittäin ilmentyy differentiaalisesti useimmille potilaille. Lisäksi pidämme merkitsevyystasolla (p-arvo) jokaiseen pisteytä tasolla. P-arvo on todennäköisyys saada tällä tasolla tai parempi, sattumanvaraisesti, kuten alla on kuvattu yksityiskohtaisemmin. Tiukka tilastollinen analyysi on väline luottavaisesti tunnistaa geenejä, jotka selvästi eri näyte luokat ja siten osoittaen lupaavia tutkimus suuntiin. Osittainen variantteja kuvattuja menetelmiä tässä asiakirjassa työskenteli [6] ja [36]. On erityisen tärkeää tehdä Hyväksytty tilastoihin analysoitaessa miRNA ekspressiotietojen, kuten perustason näiden voivat vaihdella suuresti, varsinkin selvä kudoksissa [10].
Tässä osiossa kuvataan tilastollisia menetelmiä korkea yleispätevyyttä . Erityisissä suoritusmuodoissa yhteydessä johdonmukaisesti kasvaimen ja normaalissa miRNA differentiaalikaavojen, kuvataan Tulokset jaksossa.
Rank Johdonmukaisuus Score (riskipääomatoimien) B
Rank Johdonmukaisuus Score (riskipääomatoimien) on ero lauseke pisteet 2 luokkaa, joka vie potilas matching huomioon.
Vaadimme kaksi luokkaa luokan A ja luokan B Laskemme ensin ero ilmaisun välillä kaksi luokkaa jokaiselle potilaalle (tai aihe tai osa siitä)
k = 1 … r
ja jokaisen geenin
g
. Differentiaalinen lauseke voidaan laskea eri menetelmillä ja valitusta menetelmästä riippuu tutkimuksen suunnittelu ja näytteiden lukumäärä kunkin potilaan. Differentiaalikaavojen tulokset ovat: fold muutos, Gaussin virhe pisteet,
t
-testi, TNoM ja muita menetelmiä. Usein näytteiden määrä kunkin potilaan ja luokka on 1, niin yksinkertainen kertaluokkamuutos käytetään.
Seuraavaksi listalla kaikki geenit potilasta kohden niiden ero ilmaisun välillä A- ja B Jokaista geeniä
g
laskemme sen sijoitus
k
nnen potilas:
R
k (g) B – tämä on luku välillä 1 ja
N
, jossa
N
on kokonaismäärä geenejä. Geeni
g
Top potilaan k on yksi kaikkein yliekspressoitu luokan A suhteessa B-luokkaan on ensimmäisellä sijalla, ja asetamme. Sijoitus geenin eniten alle ilmaistu luokan A suhteessa B on
N
.
Tavoitteena on löytää geenejä jatkuvasti korkea riveissä (erilaisen ilmentymisen välillä A- ja B) kaikilla potilailla. Jokaista geeniä
g
, me määrittelemme listalla johdonmukaisuus pisteet
S (g; r) B kuten normalisoitu maksimaalinen sijoitus tämän geenin kaikkien potilaiden eli
Muissa sanoen sijoitus geenin
g
kaikilla potilailla ei ole huonompi kuin
S (g; r) · N
.
enemmän joustavuutta määriteltäessä johdonmukaisuus sallimme harha ja laskea sijoitus johdonmukaisuus tulokset
S (g; m) B varten
m
ulos
r
potilaille. Tällöin jokaista geeniä tilaamme sen riveissä ja sitten pisteet
S (g; m) B vastaa normalisoitu
m
nnen pienin listalla:
Kutsumme m pois r listalla johdonmukaisuuden pisteet,
S (g; m) B,
m /r
riskipääomatoimien. Tulemme joskus viitataan
r /r
riskipääomatoimien yksinkertaisesti riskipääomatoimien. Kuvio 1 havainnollistaa määritelmän eri
m
ulos
r
listalla johdonmukaisuus tulokset. Pseudo-koodi laskemiseen m /r riskipääomatoimien on saatavilla teksti S1.
Jokaisessa 5 potilasta /ryhmiä tässä esimerkissä joukkoon geenien muuttuu 1 1000. Kukin sarake edustaa paremmuusjärjestykseen yhdelle ryhmälle. Geeni valittu esimerkiksi on pahin joukossa 5 ryhmää listalla 200. Siksi sen sijoitus johdonmukaisuus on maalintekoa 200/1000 = 0,2; sen sijoitus johdonmukaisuutta pisteet 3 out of 5 potilaalla on 95/1000 = 0,095 kuten nuolilla.
Edellä esitetty analyysi tunnistaa geenejä, jotka ovat yli-ilmentynyt luokan A verrattuna luokan B geenien löytämiseksi yli-ilmentyy B-luokan voimme tehdä saman analyysin, kääntää sijoittui listan.
arvioimiseksi tilastollista merkitystä havaittujen arvosta riskipääomatoimien arvioimme todennäköisyys saada arvo s, tai edullisempi, satunnaista tietoa piirretty mukaan nolla malli. Tämä todennäköisyys on
p-arvo
vastaa tälle tasolle
s
, vallitsevissa null mallia.
p
-arvot varten riskipääomatoimien ja sen variantit harkita tässä asiakirjassa lasketaan olettaen riippumattomuuden potilaiden ja tasaisen joukkoon geenien kullekin potilaalle. Nämä kaksi oletukset määrittävät taustalla nolla-malli.
Laske m /r riskipääomatoimien
p
-arvon at s, laskemme todennäköisyys geenin sijoitusta top s osa lista, ainakin metrin potilaille. Olkoon
V
olla
r
ulotteinen satunnaisvektorin kanssa merkinnät piirretään itsenäisesti ja yhdenmukaisesti
1, …, N
. Olemme kiinnostuneita todennäköisyys
m
nnen pienin merkintä
V
on pienempi kuin
sN
. Se annetaan:
Minimi Rank Johdonmukaisuus Score (minRCoS) B
Kun työskentelee suurempi näyte asetetaan kysymys siitä, kuinka monta harha sallia (joka m valita) syntyy. Mahdollinen periaatteellinen ratkaisu on laskea m /r riskipääomatoimien p-arvo kaikki mahdolliset arvot m ja valitse arvo m parasta p-arvo. Tämä p-arvo on tietenkin korjattava useita testejä. Tässä osiossa määritellään minimaalinen-rank-yhdenmukaisuus pisteet, ja kuinka tehokkaasti luonnehtia sen jakautuminen, joka mahdollistaa laskettaessa p-arvot (ilman muuta tarvitse useita testaus korjaus). Ensin kuvataan laskelmat ja sitten analysoida sen koko aikakompleksisuus.
Kaikkiin määrä
N
0, merkitään joukon riveissä {1, ..,
N
} mukaan [
N
]; Anna [
N
]
r edustaa joukko vektoreiden pituus
r
, jossa jokainen merkintä on peräisin [
N
]. Käytämme
V
tarkoittamaan satunnaisvektorin tasaisesti [N]
r.
Koska vektori Merkitään
m
nnen pienimmän luvun
v
by
v
m . Tuo on, . Koska indeksi ja sijoitus, me ilmi
β
(
m
,
t
) todennäköisyys, että
V
m
on sama
t
tai vähemmän. Huomaa, että
β (m, t) B on p-arvo, s =
Et /
, m-out-of-r rank johdonmukaisuus pisteet aiemmin määritelty, ja voi olla tehokkaasti lasketaan esitetty edellisessä jaksossa.
me määrittelemme
minimaalinen listalla johdonmukaisuus pisteet
vektorin
v
, merkitään
mRCoS
(
v
), jonka. Sanoin,
mRCoS
(
v
) on paras (minimaalinen) rank johdonmukaisuus p-arvo, jossa
m
vaihtelee
1
osoitteeseen
r
.
mRCoS
(
V
) on siis satunnaismuuttuja ottaen arvot [0,1]. Nyt laskea tarkka p-arvo liittyy
mRCoS
(
V
) tietyllä arvo, p:
Koska, ja indeksin, määrittää olemaan minimaalinen sijoitus
t
sellainen, että. Huomaa, että koska voimme tehokkaasti laskea
β (m, t) B kaikille, ja voimme tehokkaasti ”inverttisokeri”
β (m, t) B ja laskea
τ
m
(
p
). Ota huomioon, että . Käyttämällä edellä merkintätapa olemme:
Koska jatkuva riveissä vektori
C
, sanomme, että vektori
v
∈ [
N
]
r
on
C
–
rajoitettu
jos (kaikki
m
= 1, ..,
r
). Sanoin, kaikki lajitella merkinnät
v
ovat suurempia (tai yhtä suuri) vastaavat kohdat
C
. Esimerkiksi vektori
v
= 3,2 rajaavat, koska.
kokonaislukumäärä vektorien [
N
]
r, jotka ovat
C
-bounded merkitään
B
(
N
,
r
,
C
).
esimerkiksi,
joukko vektoreita, jota rajoittavat by on, ja siksi.
määritelmää
B
(
N
,
r
,
C
), koska
V
valitaan tasaisen satunnaisesti, saamme, jossa
τ
(
p
) tarkoittaa vektorin. Siksi olemme vähentäneet ongelman laskemalla p-arvo minimaalinen-rank-yhdenmukaisuus pisteet on kombinatorinen ongelma tehokkaasti Computing kuinka monta vektorit [
N
]
r rajaavat tietyn vector.
Computing
B
(
N
,
r
,
C
) B
Koska kaksi kokonaislukua
N
,
r
, ja vektori
C
, haluamme laskea
B
(
N
,
r
,
C
) määrä
C
-bounded vektorit [
N
]
r. Kullekin vektori
v
määritellään kaksi ominaisuutta:
t (v) B ja
k (v) B.
t (v)
on maksimaalinen tulo
v
. Tuo on, . Huomaa, että
t (v) B voidaan olettaa arvoja 1 läpi
N
.
k (v) B on merkintöjen määrän
v
jonka arvo on ehdottomasti pienempi kuin
t (v)
. Huomaa, että
k (v) B voidaan olettaa arvot 0 kautta
r
-1.
Nämä kaksi ominaisuutta voidaan osioida [
N
]
r.
Merkitään asetettu kaikkien
C
-bounded levittäjinä jotka ja. Huomaa, että nämä joukot ovat todellakin pistevieraita, ja että heidän liittonsa kattaa kaikki
C
-bounded vektoreita. Käyttämällä voidaan laskea
B
(
N
,
r
,
C
), yhteen yli kaikki mahdolliset arvot
t
ja
k
:
Koska on olemassa vain N * r näiden aineistojen tämä antaisi tehokkaan menettelyn laskea
B
(
N
,
r
,
C
). Käytämme dynaamista ohjelmointia lähestymistapaa laskea kaikki N * r arvot.
Anna
C
(1 ..
k
) on ensimmäinen
k
elementtien
C
, että on. Toteamme, että vektorissa (r-k) suurin riveissä yhtä
t
. Siksi laskea tarvitsemme vain määrittää tehtävissä
v
että
k
pienimmät arvot, ja niiden todelliset arvot, niin että ne ovat kaikki ehdottomasti pienempi kuin
t
, ja ovat C (1..k) rajoittuu:
nyt käyttää seuraavaa dynaamista ohjelmoinnin laskea määrä
C
-bounded vektorit:
Tämä mahdollistaa voimme tehokkaasti laskea minRCoS p-arvo:
on yhteensä N * r dynaamista ohjelmointia tarvittavat toimet laskemiseen B (N, r, C). Kussakin vaiheessa laskemalla B (t, k, C) vaatii yhteen yli t * k-arvot B. yhteensä monimutkaisuuden dynaamisen ohjelmoinnin laskea B (N, r, C) on siis O (N
2 * r
2). Laske meidän täytyy suorittaa enintään r * N riskipääomatoimien p-arvossa, kukin otto O (r). Siksi monimutkaisuus minRCoS p-arvon laskennan tietyn p on O (N
2 * r
2).
Näytteet, Kokeellinen Protocol ja Data Pre-Processing
tiedot kerättiin viereiseen kasvain-normaali koko RNA-näytteet hankittiin Ambion /ABI (FirstChoice® Human Tumor /normaali vieressä Tissue RNA). Sovitetun paria kasvain ja normaali RNA: t olivat peräisin 14 eri potilaista ja 8 eri syöpätyyppejä. Kudosnäytteet olivat eri alkion suvusta: Yksi pari rinta-, lymfooma, ja eturauhasen; kaksi paria maksasta, munasarja, kivekset ja keuhko; ja 3 parit paksusuolen. Tekninen rinnakkaista tehtiin munasarja ja kivekset näytteet, siis yhteensä 32 microarray tietoja käytettiin tässä tutkimuksessa.
Kunkin mikrosirun mittausta, 100 ng kokonais-RNA: t leimattiin Cy3: lla käyttäen T4-RNA-ligaasia per Agilent miRNA Micorarray Systems Protocol v1.5. Leimatut RNA-näytteet hybridisoitiin päälle Agilent miRNA microarray (Agilent Human miRNA Microarray kit V2 – G4470B) 21 tuntia 55 ° C. Taulukot sisältävät koettimia 723 ihmisen ja 76 ihmisen viruksen miRNA päässä Sanger tietokannasta v.10.1. Taulukot pestiin sitten huoneenlämpötilassa ja skannataan tuottaa hybridisaatiosignaalit (Agilent miRNA Micorarray Systems Protocol v1.5). Taulukot skannattiin laajennettu dynaaminen alue 5 ja 100% PMT käyttäen Agilent skannerin (malli G2565AA).
Agilent Feature Extraction ohjelmistoversio 9.5.3.1 tuotettiin GeneView tiedostoja [37]. Nämä tiedostot sisältävät käsitellyt signaalit kullekin 799 miRNA array. Kunkin miRNA, ilmaisu arvot (gTotalGeneSignal) alapuolella melutaso (gTotalGeneError) korvattiin arvoa vastaavan koko geenin virhe. Kaikki näytteet olivat sitten normalisoidaan sama 75
persentiilin arvo. Raaka ja normalisoitu data on talletettu NCBI: n Gene Expression Omnibus [38] ja pääsee läpi GEO Sarjan hakunumerolla GSE14985 (https://www.ncbi.nlm.nih.gov/geo/query/acc.cgi?acc= GSE14985). Kaikki tiedot on MIAME yhteensopiva. Normalisoitu tiedot löytyvät taulukosta S1.
Tulokset
sovellettu listalla johdonmukaisuus pisteytys menetelmiä kerättyjen tietojen tutkimus miRNA ekspressioprofiileja syöpään liittyvissä näytteissä. Näin kerättyyn Tutkimus koostui pariksi näytteitä kasvain ja normaali alkuperää. Kunkin parin näytteet on otettu eri osista saman kudoksen 14 eri potilaalla, ja 8 eri syöpätyyppejä: rinta-, paksusuoli-, maksa-, keuhko-, lymfooma, munasarja-, eturauhas- ja kiveksissä. Sovitetun paria näytteiden avulla voimme keskittyä muutoksiin miRNA ekspressiotasot, jotka johtuvat syöpä prosessin sekä minimoida häiriövaikutukset yksilöiden välisiä ja inter-kudoksen vaihtelu.
Tavoitteena oli selvittää tunnistaa miRNA yleisesti differentiaalisesti ilmaistut syövän käyttäen tilastollisia menetelmiä ja mittaukset edellä kuvatulla tavalla.
lasketaan kasvain vs. normaali ero jokaisen näistä miRNA datan neljällä eri tavalla: TNoM [31], ei parillista t -testi, pariksi t-testiä ja minRCoS. Kolmen ensimmäisen menetelmiä, signaalien log-muunnettiin ja tapauksissa, joissa useampi kuin yksi potilaalle on kohti syöpä tyyppi mediaani oli käytetty. TNoM ja pariton t-testi laskettiin ei-pariksi vertailun kaikista kasvainnäytteestä kaikki tavanomaiset näytteet. Sillä pariksi t-testissä syövän tyyppi sovitus käytettiin.
eri versioita riskipääomatoimien (m /r riskipääomatoimien ja minRCoS), taita muutos laskettiin jokaiselle miRNA ja potilaan jakamalla kasvain signaaliksi normaali signaali. Vuonna syöpätyyppejä, joissa useampi kuin yksi potilas olemassa (2 tai 3 potilasta) mediaani kertamuutoksia käytettiin. Tämä tehtiin säilyttämään potilaalle sovitus (saman syövän tyyppi) meidän tiedot. Kunkin syöpä kirjoita miRNA sitten luokiteltu näitä arvoja tuottaa sijoittui luetteloihin tarvitaan tulon kaikki riskipääomatoimien variantteja. Soveltaminen yleiset puitteet kuvattu Menetelmät jaksossa meidän aineisto siis johtaa seuraaviin semantiikkaa:
Luokan A ja B ovat kasvain ja normaali.
r = 8.
Jos jonkin miRNA, merkitään g, meillä on esimerkiksi 6/8 riskipääomatoimien (g) = 0.2 yli-ilmentyminen kasvaimen vs. normaali, niin tämä miRNA on sijoittunut joukossa top 20%: miRNA yli- ilmaistaan kasvaimen vs. normaali, vähintään 6 ulos 8 eri kasvaintyypeissä. On selvää, samanlainen tulkintoja päde muiden arvojen m ja s (6 ja 0,2 vastaavasti, edellä olevassa esimerkissä).
täydellinen tulosten analyysimme, mukaan lukien kaikki ero ilmaisun tulokset ja niihin liittyvät p-arvoja, on saatavissa oheismateriaalina (taulukko S2).
Jos haluat käyttää pariksi t-testi näiden tietojen taita muutos laskettiin jokaiselle miRNA ja potilaan jakamalla kasvain signaali normaalista signaali. Syövän tyypit, joissa useampi kuin yksi potilas on olemassa mediaani ilmaisun arvoja käytettiin kertamuutos laskentaan. Aineisto sitten log-transformoitiin saavuttamiseksi normaaliuden vaatimat pariksi t-testiä. Toteamme, että vaikka log-muunnos, hypoteesi normaaliuden tämän jakelun hylännyt Jarque-Bera testi [39].
Havaitut ja odotetut geenimäärien kaikille minRCoS p-arvot ja tasoille, joilla FDR (False Discovery Rate) [40] ja Bonferroni 0,05 saadaan on esitetty kuviossa 2. Huomaa erityisiä ylitarjonta ilmentyvät eri miRNA, verrattuna satunnaista tietoa odotettua numeroita.
top juoni esittää vertailun havaittujen ja odotettujen syytettä miRNA varten minRCoS p-arvot. Kunkin p-arvo (x-akselilla), odotettu määrä miRNA on tämä, tai parempi, p-arvo perustuu kokonaismäärään miRNA array, näkyy sinisenä (samanlainen kuin [54]). Punainen ja vihreä linjat symboloivat määrä havaittu miRNA meidän tietojenvaihto minRCoS p-arvot. Alapaneelissa esittää vertailun Havaitut ja odotetut laskee geenien kanssa minRCoS p-arvot 0,003 tai vähemmän (zoom-in yläpaneelissa). Line osoittaa Bonferronin kynnys 0,05, linja B osoittaa FDR [40] kynnyksen 0,05 varten yli-ilmentynyt miRNA (17 miRNA) ja C-linjan osoittaa FDR kynnys 0,05 varten alle ilmaisi miRNA (41 miRNA).
heatmap merkittävimmistä miRNA tunnistetaan minRCoS analyysi on esitetty kuviossa 3. oikeassa paneelissa sisältää alkuun 30 miRNA joiden ekspressiotasoja johdonmukaisesti lisääntyneet syöpäkudokset; vasen paneeli sisältää luettelon top 30 miRNA joiden ekspressiotasoja johdonmukaisesti laskivat syöpäkudokset. Erityiset johtopäätökset ja havainnot analyysin on kuvattu alla, mukaan lukien miRNA, joita ei aiemmin yleisesti liittyy syöpään.
sarakkeet edustavat syöpätyyppeihin ja rivit edustavat miRNA. Vihreä merkintä edustaa miRNA erittäin korkea sijoitus eli sellainen, joka on alle ilmaistu tässä nimenomaisessa kasvaimen näyte verrattuna vastaaviin normaaleihin näyte. Punainen suorakulmio osoittaa miRNA yliekspressoitu tuumorinäyte. Vasemmassa paneelissa näkyy top 30 miRNA yleisesti alle ilmaistuna kasvainten luokiteltu minRCoS analyysin ja oikea paneeli esittää top 30 miRNA yleisesti yliekspressoitu kasvaimet luokiteltu minRCoS analyysiin.
Differentially