PLoS ONE: Toistettavissa Cancer biomarkkereiden Discovery in SELDI-TOF MS käyttäminen Eri Pre-Processing Algorithms

tiivistelmä

Background

On ollut paljon kiinnostusta erottamaan sairaiden ja normaali näytteitä biomarkkereita johdettu massaspektrometria (MS) tutkimukset. Kuitenkin biomarkkereiden tunnistamiseen tiettyjen sairauksien osalta on hidastanut irreproducibility. Tarkemmin sanottuna Piikkiprofiili poimittu aineisto varten biomarkkereiden tunnistamiseen riippuu datan esikäsittelyä algoritmia. Tähän mennessä ei laajalti hyväksytty ole päästy sopimukseen.

Tulokset

Tässä artikkelissa tutkimme johdonmukaisuutta biomarkkereiden tunnistamiseen käytetään eri tavalla ilmaistuna (DE) piikkien huipusta profiileista tuottaa kolmella laajalti käytetty keskimääräinen spektri riippuvaisen esikäsittelyä algoritmit perustuvat SELDI-TOF MS-tiedot eturauhas- ja rintasyöpiä. Tuloksemme paljasti kaksi tärkeää tekijää, jotka vaikuttavat johdonmukaisuutta DE piikin tunnistamisen eri algoritmeja. Yksi tekijä on se, että jotkut DE huiput valittu yhdestä Piikkiprofiili ei havaittu piikkeinä muita profiileja, ja toinen tekijä on se, että tilastollinen voima tunnistaa DE piikkien suuri huippu profiileja monia huippuja voi olla pieni, koska suuri laajuus testit ja pieni määrä näytteitä. Lisäksi osoitimme, että DE huippuilmaisun valtaa suurissa profiileja voitaisiin parantaa kerrostunut vääriä löytö määrä (FDR) kontrolli lähestymistapaa ja toistettavuus DE huippuilmaisun voi näin ollen lisätä.

Johtopäätökset

mitataan ja arvioidaan ennalta algoritmeja suhteen toistettavuus voidaan selventää suhdetta eri algoritmeja ja myös auttaa valinnassa esikäsittelyä algoritmia. DE huiput valittu pieni huippu profiilien muutamia huippuja varten aineisto yleensä toistettavasti havaita suuri huippu profiileja, mikä viittaa siihen, että sopiva esikäsittelyä algoritmin pitäisi pystyä tuottamaan huippuja riittää tunnistamiseen hyödyllisiä ja toistettavissa biomarkkereita.

Citation: Zou J, Hong G, Guo X, Zhang L, Yao C, Wang J, et al. (2011) Toistettavissa Cancer biomarkkereiden Discovery in SELDI-TOF MS käyttäminen Eri Pre-Processing algoritmit. PLoS ONE 6 (10): e26294. doi: 10,1371 /journal.pone.0026294

Editor: William C. S. Cho, Queen Elizabeth Hospital, Hong Kong

vastaanotettu: 7. kesäkuuta, 2011; Hyväksytty: 24 syyskuu 2011; Julkaistu: 14 lokakuu 2011

Copyright: © 2011 Zou et al. Tämä on avoin pääsy artikkeli jaettu ehdoilla Creative Commons Nimeä lisenssi, joka sallii rajoittamattoman käytön, jakelun ja lisääntymiselle millä tahansa välineellä edellyttäen, että alkuperäinen kirjoittaja ja lähde hyvitetään.

Rahoitus: Tämä työ tukivat National Natural Science Foundation of China (30970668, 81071646, 91029717) (https://www.nsfc.gov.cn/Portal0/default106.htm), Erinomainen Youth Foundation Heilongjiangin maakunnassa (JC200808) (http: //jj.hljkj.cn/qn/), Natural Science Foundation of Heilongjiangin maakunnassa Kiinassa (QC2010012) (https://jj.hljkj.cn/zr/index.htm), ja tieteellinen tutkimus Fund Heilongjiangin maakunnan opetusviraston (11541156). Rahoittajat ollut mitään roolia tutkimuksen suunnittelu, tiedonkeruu ja analyysi, päätös julkaista tai valmistamista käsikirjoituksen.

Kilpailevat edut: Kirjoittajat ovat ilmoittaneet, etteivät ole kilpailevia intressejä ole.

Johdanto

proteomiikan teknologiaa, joka perustuu massaspektrometriaa (MS) [1] on tullut yhä paras menetelmä tunnistamiseksi biomarkkerit, jotka ovat hyödyllisiä erottamaan sairaiden ja normaali näytteet [2], [3], [4] . Kuitenkin samanlainen microarray tutkimuksia [5], [6], käyttämällä MS tekniikoita tautien tunnistamiseksi biomarkkerit on estänyt irreproducibility [7], [8]. Esimerkiksi biomarkkerit tunnistettu neljässä eturauhasen syöpä tutkimukset ovat hyvin erilaisia ​​[8]. Äskettäin Callesen

et al

. [7] osoitti, että vain 10 207 biomarkkereita raportoitu 15 MS-pohjainen rintasyöpätutkimuksissa havaittiin yli 2 tutkimuksia. Tämä irreproducibility herättää kysymyksiä biologista merkitystä ja kliinistä merkitystä havaitun biomarkkereita.

Monet tekijät, kuten näytteen käsittely ja toimintatavat kokeissa, voi vaikuttaa toistettavuus taudin biomarkkereita [9], [10] , [11], [12], [13], [14], [15]. Tärkeää on, että data esikäsittelyä algoritmi valitaan tuottamaan huippu profiilit saattavat vaikuttaa suuresti biomarkkereiden tunnistamiseen [16]. Joissakin tutkimuksissa on yritetty löytää optimaalinen esikäsittelyä algoritmi havaitsemiseksi huiput [17], [18], [19]. Tähän asti, ei laajalti hyväksytty sopimukseen ei ole päästy. Esimerkiksi perustuen simuloitu data ennalta tosi huippuja, Cruz-Marcelo

et al

. [17] ja Emanuele

et al

. [18] arvioinut useita algoritmeja kannalta sekä herkkyys (määritelty osuus tosi huippuja, jotka tunnistettiin oikein) ja spesifisyys (määritelty vääriä löytö määrä (FDR)). Näissä kahdessa tutkimuksessa toisenlaiset johtopäätökset, jotka koskevat kolmea algoritmeja, että ne molemmat arvioinut, jotka olivat MassSpecWavelet [20], Cromwell [21] ja kaupallisten ohjelmistojen tuottama Ciphergen Biosystems. Cruz-Marcelo

et al

. [17] kertoi, että nämä algoritmit tarjotaan suuri herkkyys on alhainen FDR, kun taas Emanuele

et al

. [18] osoitti, että heillä oli alhainen herkkyys ja alhainen FDR. Tämä ristiriita on voinut erot niiden simulointi tiedot, jotka yleensä taipumus suosia tiettyjä skenaarioita. Ratkaisu välttää bias on toteuttaa todellisia tietoja sijasta simuloidun datan. Valitettavasti oikeilla tiedoilla, herkkyys ja FDR algoritmista ei voida arvioida, koska todelliset huiput ovat tuntemattomia. Kuitenkin esikäsittelyä algoritmeja voidaan verrata kannalta huippuilmaisun toistettavuus arvioimalla kärkeen limittäisyyden. Erityisesti toistettavuus on kriittinen mitta validointi biologinen löytöjä, joka poikkeaa herkkyys ja [6], [22], [23], [24].

Tässä tutkimuksessa käytetään todellisia eturauhas- ja rintasyövän data, ensin arvioitiin toistettavuus piikin havaitsemisen yksi kolmesta yleisesti käytetty pre-algoritmeja, jotka tunnistavat huiput riippuvainen keskimääräisen spektrin kaikkien spektrien (katso

Methods

), mukaan lukien SpecAlign [25], MassSpecWavelet [ ,,,0],20] ja Cromwell [21]. Vielä tärkeämpää on, me arvioidaan edelleen toistettavuus havaitsemisen erilaisesti ilmaistuna (DE) huiput (määritellään usein biomarkkereita), joka on ollut painopiste biologisen yhteisö, mutta ei ole täysin selvitetty joko simuloitu tai todellisia tietoja. Tuloksemme osoittavat, että huippujen määrä havaitaan varten aineisto vaihtelee huomattavasti riippuen esikäsittelyä algoritmia. Tuloksemme paljasti myös kaksi tärkeää tekijää, jotka vaikuttavat johdonmukaisuutta DE piikin tunnistamisen eri esikäsittelyä algoritmeja. Ensimmäinen tekijä on se, että huippu profiilin voi puuttua DE huippuja löytyy toisen profiilin, joka voi vaikuttaa toistettavuuteen ennen valintaa DE huiput. Toinen tekijä on, että suuri Piikkiprofiili monia piikit saattavat kärsiä alhainen tilastotehoa tunnistamiseksi DE huiput koska suuri koko testin yhdessä pienen otoksen määrä [26], [27], [28], [29] . Onneksi meidän tulokset osoittavat, että valta suuri huippu profiilit voidaan korottaa kerrostunut FDR ohjaus lähestymistapa [30]. Niinpä DE piikit valitaan pieni huippu profiileista yleensä toistettavasti havaita suuri piikki profiileja. Analyysin perusteella tämän tutkimuksen, ehdotamme, että sopivan esikäsittelyä algoritmin pitäisi pystyä tuottamaan huippuja riittää tunnistamiseen hyödyllisiä ja toistettavissa biomarkkereiden.

Materiaalit ja menetelmät

Syöpä aineistot

eturauhassyöpää data, joka on ladattu https://www.evms.edu/vpc/seldi/, koostui päällekkäisiä spektrien 168 syövän ja 81 normaalia seeruminäytteet mitattiin SELDI-TOF MS (IMAC -3 siruja), jossa massa-to-maksu (

m /z

) suhde vaihtelee 0 ja 200 kDa [31]. Verinäytteistä diagnosoitu vaiheen I-IV potilaat hankittiin osastolta urologian, Eastern Virginia Medical School ja näytteet terveiden miesten saatiin vapaa seulonta klinikoiden avoinna yleisölle (katso yksityiskohdat [31]). Seeruminäytteet saatu Virginia Eturauhasen Centerin Tissue and Body Fluid Bank. Rintasyöpä data, joka on ladattu https://bioinformatics.mdanderson.org/pubdata.html, koostui päällekkäisiä spektrien 26 syövän ja 14 normaalia plasmaa näytteet mitattiin SELDI-TOF MS (IMAC-Cu chip), jossa

m /z

suhde on välillä 10-100 kDa [32]. Verinäytteitä saatu diagnosoitu vaiheen I-III rintasyöpä potilaiden ja terveiden vapaaehtoisten (katso yksityiskohdat [32]). Plasman näytteitä tehtiin Nellie B. Connally Breast Center University of Texas MD Anderson Cancer Center.

Kunkin parin päällekkäisiä spektrejä, kahden spektrin olivat esikäsitellyt erikseen ja sitten keskiarvo tuottaa konsensus profiilia. Kun otetaan huomioon mittauksen kohinan ja tunnistus rajoituksia, me vain käyttää niitä huiput

m /z

1-10 kDa rintasyövän ja 2-40 kDa eturauhassyövän meidän analyysejä kuin alkuperäisessä papereita [31 ], [32].

data pre-algoritmeja

Kuten kuviossa 1, SELDI-TOF-MS-tulokset ovat yleensä valmiiksi käsitelty useita vaiheita, mukaan lukien denoising (tasoitus), perustason vähennys-, normalisointi, huippuilmaisun, klusterointi huiput ja huippu kvantifiointiin [17]. Kolme algoritmit analysoitiin tässä tutkimuksessa havaita piikit keskiarvon mukaan spektrin kaikkien spektrien, ja pre-processing menettelyjä on kuvattu alla. Erityinen parametriasetukset käytetään kunkin algoritmin löytyy teksti S1.

(A) Raw spektri. (B) Tasoitetussa spektri. Perustaso arviointiin tasoitettu spektri on edustettuna harmaa viiva. (C) Normalized spektri. Perustason vähennetään tasoitetaan spektrin. Sitten perustason vähennetty spektri on normalisoitu. Huiput havaittu perustuu normalisoitu spektrin näkyvät piireissä.

(1). SpecAlign [25] esiprosessoi tiedot seuraavasti: a) spektrin tasoitus käyttämällä Savitzky-Golay suodatin; b) vähentämällä perustason arvioitu hillitty liukuvan keskiarvon; c) muuttaminen asteikolla intensiteetit positiivisia arvoja tekemällä minimiarvo 0; d) normalisoi intensiteetit päästämään kaikki spektrit ovat samat koko ioni nykyinen; e) tuottaa keskimäärin spektri; f) käyttäen nopean Fourier-muunnoksen (FFT) /peak matching Yhdistetyn menetelmän yhdenmukaistaa havaitut huiput yksittäisten spektrin mainittuja keskimääräisen spektrin; ja g) poiminta huiput. Oletuksena korkeuden suhde, joka toimi signaali-kohina-suhde (SNR) oli 1,5.

(2). MassSpecWavelet paketti huippuilmaisun [20] yhdistettynä prosessi paketti huippu kvantifiointiin [33] (merkitään MSW /PRO). MassSpecWavelet on raportoitu olevan suuri herkkyys on alhainen FDR piikin havaitsemisen [17]. Se ei kuitenkaan ole määrällisesti havaittu piikkejä. Siten perustuu työhön Cruz-Marcelo

et al

. [17], käytimme PROcess määrällisesti piikit havaitaan MassSpecWavelet. MassSpecWavelet havaitsee huiput käyttäen jatkuvaa aallokemuunnosprosessin keskimäärin spektrin kaikkien spektrien. Jokaista spektriä, PROcess vähentää perustason, joka on arvioitu lineaarisesti interpoloimalla, sitten normalisoi intensiteettien mediaani ala käyrien kaikkien spektrien, ja lopulta määrällisesti havaitut huiput yksittäisten spektrien paikallisten maksimi ennalta määritellyn välin . Oletuksena SNR huippuilmaisun oli 3.

(3). Cromwell [21] esiprosessoi tietoja a) laskemalla keskimääräinen spektri; b) denoising keskimääräinen spektrin mukaan undecimated diskreetti aallokemuunnos; c) korjaamiseksi intensiteetit keskimääräinen spektrin vähentämällä perustason, jota arvioidaan monotoninen vähintään käyrä; d) löytäminen piikit paikallisten maksimaalinen intensiteetti keskimääräinen spektrin; e) toistetaan b) ja c) kunkin spektrin, normalisoi intensiteettiä keskimääräinen koko Ionivirran, ja määrän huippuintensiteetit käyttäen suurinta sisällä välein määritellään piikit keskimäärin spektrin; ja f) uutetaan huiput käyttäjän määrittämän SNR. Oletuksena SNR asetettiin 5 mukaan suosituksen kehittäjille.

Tuotos esiprosessointielementin algoritmi on huippu profiilin aineisto, joka koostuu havaittujen huippujen ja niiden vastaavia intensiteetit kukin spektri. Yksinkertaisuuden vuoksi huippu profiilit tuottama SpecAlign, MSW /PRO ja Cromwell merkitään SpecAlign profiilin, MSW /PRO profiilin ja Cromwell profiilin, vastaavasti.

Kaksi huiput

m /z

suhde eroa siirtyminen alue voi vastata sama biologinen molekyyli [17], [34]. Tässä tutkimuksessa käytimme shift valikoimia ± 0,1%, ± 0,2% ja ± 0,3%, ja tulokset olivat samanlaiset. Yksinkertaisuuden vuoksi vain esitettävä tulokset perustuvat yleisesti käytetty siirtyminen on ± 0,3% [17],.

Koska optimoinnin tavoitteet huippuilmaisun ei ole määritelty todellista tietoa, oletuksena parametriasetukset pre -jalostusvakuus algoritmeja käytetään havaitsemaan piikkejä useimmissa sovelluksissa. Kuitenkin jotkut tutkimukset voivat virittää SNR löytää enemmän tai vähemmän piikkejä [17], [18], [35], [36]. Niinpä samalla viritetty SNR tutkimuksessamme vertailla esikäsittelyä algoritmeja. Lisäksi, koska alhaisempi SNR voi havaita enemmän totta ja hyödyllistä huiput, me lähinnä pidetään pienempää kahdesta SNR: ien verrattaessa yhtä algoritmia toiseen (katso yksityiskohtia

Keskustelu

).

havaitseminen DE huiput ja johdonmukaisuuden tulokset

Opiskelijan

t

-testiä käytettiin arvioimaan merkitystä erot intensiteetti tarkoittaa syövän ja normaali näytteitä. Useiden testaus korjausta, käytimme Benjamini-Hochberg menettely hallita FDR tietyllä tasolla [37].

johdonmukaisuus kahden piikin listojen mitattiin PO (prosenttiosuus päällekkäisyyksiä) maalin [38] . Olettakaamme listan 1

l

1 huiput ja lista 2

l

2 piikkiä jakaa

k

huiput, niin PO pisteet luettelosta 1 ( tai 2) luetteloon 2 (tai 1) on

PO

12 =

k Twitter /

l

1 (tai

PO

21 =

k Twitter /

l

2). Koska PO pistemäärä riippuu listan pituudet, myös laskettu normalisoitu PO pisteet (

n

PO), joka määritellään suhteessa havaitun pisteet yli mahdollisuus vastaavaan suurin mahdollinen pistemäärä jälkeen mahdollisuus [38 ] 🙁 1) (2) missä E (PO

12) (tai E (PO

21)) arvioitiin keskiarvoa PO

12 (tai PO

21) pistemäärät 1000 paria huippu luetteloita (pituudet

l

1 ja

l

2) uutetaan satunnaisesti kahdesta raaka

m /z

luetteloita. Niistä pistemäärät 1000 satunnainen paria huippu luetteloita,

p

-arvon havainnoinnin PO pisteet sattuman laskettiin suhteessa pisteiden vähintään havaitun pisteet.

PO (

n

PO) pisteet kahden luetteloa DE piikkien laskettiin samaa lähestymistapaa kuin edellä on kuvattu, paitsi että DE huippu määriteltiin jaetaan kahdella luetteloissa ainoastaan, jos se on säännelty samaan suuntaan molemmissa huippu profiileihin [38]. E (PO) arvioitiin käyttämällä DE huippu luetteloita satunnaisesti poimittu kaksi huippu profiileja. Tässä esitämme PO (

n

PO) Pisteet lyhyempi luettelosta pidempään luetteloon ja arvioi, miten pitkälle, että lyhyempi lista kuuluu pidempi lista.

Merkitään PO (

n

PO) pisteet huiput havaita algoritmilla

niitä havaitaan algoritmilla

B

kuin PO

AB (

n

PO

AB), kun taas PO

DE

AB (

n

PO

DE

AB) on DE huippuja.

Stratifioitu FDR ohjaus lähestymistapa

Suurissa testaus nykyisten moninkertainen testaaminen säätöjä, teho saattaa vähentyä, kun testien määrää kasvaa [27], [30], [39]. Lisätä tehoa, on kerrostettu FDR ohjaus lähestymistapaa on ehdotettu [24]. Osoituksena periaatteessa analysoimme onko johdonmukaisuutta DE huippuilmaisun voidaan lisätä parantamalla kykyä tunnistaa DE huiput suuri huippu profiileja kerrostunut FDR ohjaus lähestymistapa, joka perustuu oletukseen, että huiput suuret kertainen muutos ( FC) arvot voivat olla todennäköisemmin totta DE huiput [40]. Ensin levitetään k-means klusterointialgoritmi osioida kurkistaa

k

ryhmät, minimoimalla summa squared Euklidinen etäisyys FC arvon kullekin piikin ja sen lähin klusterikeskuksen [41]. Optimaalinen

k

valittiin osion tuloksena on maksimaalinen keskiarvo siluetti arvoista, joka mittaa kuinka samanlaisia ​​huippu on muita huippuja omassa ryhmässä verrattuna muihin ryhmiin [42]. Sitten, tietyllä FDR ohjaus tasolla, valitsimme DE piikit kussakin ryhmässä. Koska ei ole päällekkäisiä löytöjen eri ryhmien FDR integroidun tulosten on edelleen alle tietyn FDR taso [30].

Tulokset

toistettavuus huippuilmaisun

seuraavassa tulokset kunkin algoritmin perustuivat oletusarvona SNR ellei toisin mainita. Eturauhasen syöpä aineisto, 31 ja 53 piikit havaittiin SpecAlign ja MSW /PRO vastaavasti ja ne kaikki sisällytettiin 420 huiput havaita Cromwell. Lisäksi arvioimme toistettavuus huipun havaitsemisen käyttäen samaa huippujen määrä vähentämällä SNR toinen algoritmeja. Vaikka käytettäisiin alimman SNR: t 1 ja 0,1 sallitusta SpecAlign ja MSW /PRO vastaavasti vain 130 ja 90 piikit havaittiin. Useimmat olivat mukana huiput havaita Cromwell kanssa PO

SC (

n

PO

SC) ja PO

MC (

n

PO

MC) tulokset yhtä suuri kuin 1 (1) ja 0,93 (0,93), vastaavasti (kuvio 2A). Jotta vertailu SpecAlign ja MSW /PRO, PO

SM (

n

PO

SM) tilanne oli 0,84 (0,84). Kun SNR laskettiin 1,27, SpecAlign havaittu sama määrä piikkejä (53) kuin MSW /PRO, mutta pisteet laski 0,74 (0,73) (kuvio 2A).

(A) eturauhassyöpä ja (B) rintasyövän. Toistettavuus arvioitiin yhden algoritmin (

x

akselin label) eri SNRs ja toinen (nimi) kanssa oletus SNR. Oletuksena SNRs varten SpecAlign, MSW /PRO ja Cromwell oli 1,5, 3 ja 5, vastaavasti. Täytetyt kolmiot edustavat useita piikkejä (oikea

y

-akselin) havaitsee algoritmi, joka näkyy

x

akselilla etiketti. Kaikki PO (

n

PO) tulokset olivat huomattavasti korkeampia kuin sattumalta odotettua (

p

2.2E-11).

rintasyövän aineisto , 19 ja 47 piikit tunnistettiin SpecAlign ja MSW /PRO vastaavasti ja ne kaikki sisällytettiin 287 huiput havaita Cromwell. Lisäksi, kuten kuvassa 2B on esitetty, vaikka vähentämällä SNR alimpien arvot SpecAlign ja MSW /PRO, vain 104 ja 52 piikit, vastaavasti, havaittiin, ja ne kaikki havaittiin Cromwell. Johdonmukaisuus pisteet välillä SpecAlign ja MSW /PRO ei ollut korkea, postilokero

SM (

n

PO

SM) pisteet 0,68 (0,68). Kun SNR laskettiin 1.181, SpecAlign havaittu sama määrä piikkejä (47) kuin MSW /PRO ja PO

SM (

n

PO

SM) pisteet laski 0,55 (0,55 ) (kuvio 2B).

edellä esitetyt tulokset viittaavat siihen, että kun käytetään oletuksena SNR kunkin algoritmin näiden kahden aineistoja, SpecAlign ja MSW /PRO yleensä vähemmän herkkiä ruuhka havaitsemisen kuin Cromwell. Kaikki havaitut huiput myös yleensä havaita Cromwell. Cromwell voi silti kaapata lähes kaikki huiput havaita SpecAlign ja MSW /PRO kun SNR: t jälkimmäisen kaksi vähemmän herkkä algoritmeja alenivat.

toistettavuus DE huippuilmaisun

sitten arvioitiin toistettavuus DE piikin tunnistamisen ruuhka profiileja valmistetaan eri esikäsittelyä algoritmeja. Eturauhasen syöpä aineisto, 27 ja 24 DE piikit valitaan SpecAlign ja MSW /PRO profiilit, vastaavasti 10% FDR ohjaus. Useimmat näistä olivat myös läsnä 229 DE piikit tunnistettiin päässä Cromwell profiilin, ja PO

DE

SC (

n

PO

DE

SC) ja PO

DE

MC (

n

PO

DE

MC) tulokset olivat 0,81 (0,62) ja 0,96 (0,92), tässä järjestyksessä. Vaikka kaikki huiput SpecAlign profiilin sisällytettiin Cromwell profiili, yli 10% valitun DE piikit eivät sisälly DE huiput löytyy Cromwell profiilin. Kun SNRs oli pienentynyt SpecAlign ja MSW /PRO, johdonmukaisuus DE huiput näistä kahdesta huippu profiilit ja ne on Cromwell profiilin laski hieman (kuvio 3A ja 3B). Välistä yhdenmukaisuutta 27 ja 24 DE piikit havaitaan SpecAlign ja MSW /PRO profiilit oli suhteellisen pieni, jossa postilokero

DE

MS (

n

PO

DE

MS) pisteet 0,54 (0,31). Kuitenkin, kun SNR pienennettiin varten SpecAlign, pisteet nousi 0,79 (0,61) kuin enemmän piikkejä sisällytettiin laajentuneessa SpecAlign profiilin ja havaittiin kuten DE huippuja (kuvio 3C).

(A), ( B), (C) eturauhassyövän ja (D) rintasyövän. Toistettavuus arvioitiin yhden algoritmin (

x

akselin label) eri SNRs ja toinen (nimi) kanssa oletus SNR. Oletuksena SNRs varten SpecAlign, MSW /PRO ja Cromwell ovat 1,5, 3 ja 5, vastaavasti. DE piikit valittiin 10% FDR ohjaus. Täytetyt timantit edustavat useita DE huippujen (oikea

y

-akselin) havaittiin algoritmilla osoittama

x

akselilla etiketti. Kaikki PO

DE (

n

PO

DE) tulokset olivat huomattavasti korkeampia kuin sattumalta odotettua (

p

7.0E-3).

rintasyövän aineisto, jolla on 10%: FDR ohjaus, vain 2 DE piikit valitaan SpecAlign profiilin, ja ne sisältyivät 8 DE huiput valittu MSW /PRO profiilin postilokero

DE

SM (

n

PO

DE

SM) pisteet 1 (1). Sen jälkeen, kun SNR on pienentynyt SpecAlign, havaittiin samanlaiset tulokset (kuvio 3D). Ei kuitenkaan DE piikit valitaan Cromwell profiilin.

kaksi suurta tekijät vaikuttavat johdonmukaisuutta DE piikin tunnistamisen

analyysi paljasti kaksi suurta tekijöitä, jotka voivat vaikuttaa johdonmukaisuutta DE piikin tunnistamisen avulla eri esikäsittelyä algoritmeja. Ensimmäinen tekijä on se, että jotkut DE huiput valittu yhdestä Piikkiprofiili ei saa sisällyttää toiseen Piikkiprofiili. Esimerkiksi eturauhasen syöpä aineisto, jolla on 10%: FDR valvonta, 11 24 DE huiput tunnistaa MSW /PRO profiili ei sisälly SpecAlign profiilin. Erityisesti kun SNR SpecAlign laski 1,27, 6 näistä 11 DE huiput olivat mukana SpecAlign profiilin ja valitaan DE piikkejä, mikä lisäsi toistettavuutta (kuvio 3C). Ilmeisesti tämä tekijä vaikuttaa suuresti johdonmukaisuutta DE piikin tunnistamisen. Toinen tekijä on se, että tilastollinen voima tunnistaa DE huiput eri huippu profiileja vaihtelee. Niinpä jotkut piikit jaetaan kahden piikin profiileja voidaan havaita DE huiput yhdessä profiilissa, mutta ei toisessa. Tilastollinen teho voi vaikuttaa monet tekijät, kuten huippu kvantifiointiin, huippujen määrä testattavaksi otoskoko osuus oikeilla positiivisilla ja FDR ohjaus taso [6], [26], [27], [28 ]. Täällä me lähinnä analysoi vaikutuksia testien määrä ja otoksen koko virta.

Ensimmäinen, käytimme havainnollistetaan vaikutusta testien määrää. Vuonna rintasyöpä aineisto, 10%: n FDR ohjaus tasolla, ei DE piikkejä havaittiin koko Cromwell profiilin, joka koostui 287 huiput. Kuitenkin harkittaessa subprofile on Cromwell profiilin koostuu kaikista huiput mukana MSW /PRO profiilin, 6 DE piikit havaittiin ja ne olivat kaikki mukana 8 DE huiput tunnistettu MSW /PRO profiilia. Huomattavaa on, että

t

-testi

p

-arvo sulku julistetaan merkitys perustuu Benjamini-Hochberg FDR menettely [37] oli 0,013, mutta se laski 0,0003 koko Cromwell profiilin, mikä johti nollateholupaa löytää DE huippuja (eli ei DE piikkejä havaittiin). Vastaavasti harkittaessa subprofile on Cromwell profiilin koostuu kaikista huiput SpecAlign profiilin, 2 DE piikit havaitaan 10%: FDR ohjaus tasolla, ja ne olivat identtisiä 2 DE piikkiä tunnistettiin päässä SpecAlign profiilin.

vaikutuksen valaisemiseksi otoskoko, me satunnaisesti näytteitä subsets eri otoskoko tasoilla eturauhasen syöpä aineisto 249 näytettä. Kullakin otoskoko tasolla meidän satunnaisesti näytteitä 100 subsets kanssa mittasuhteet normaalin ja syövän näytteet kustakin seikasta järjestetään identtisiä raaka aineisto. Koska otoksen koko kasvoi, määrä DE huiput valittu 10% FDR valvonnan Piikkiprofiili tuottamat kunkin esikäsittelyä algoritmi lisääntynyt, mikä osoittaa, että voima havaita DE huiput lisääntynyt (kuva 4). Näin ollen johdonmukaisuutta DE huiput valittu käyttämällä eri esikäsittely- algoritmeja kasvanut huomattavasti.

Oletuksena SNR käytettiin kutakin esikäsittelyä algoritmia. Jokaisessa otoskoko, keskimäärin DE huippujen havaittu 10% FDR kontrolli laskettiin 100 satunnaisesti näytteitä osajoukot. Täytetyt neliöt, kolmiot ja timantteja edustavat keskimäärin DE huippujen (oikea

y

-akselin) havainnoida käyttäen SpecAlign, MSW /PRO ja Cromwell, vastaavasti.

parantaminen toistettavuudella lisäämällä tilastotehoa

Kuten edellä rintasyövän aineisto, täydellinen puuttuminen tilastollinen voima tunnistamiseksi DE huiput joissakin suuri huippu profiileja on tärkeä tekijä, joka vaikuttaa johdonmukaisuuden DE huipun havaitsemisen. Osoituksena periaate, osoitimme, että kyky löytää DE huiput Cromwell rintasyövän profiilia voitaisiin parantaa kerrostunut FDR ohjaus lähestymistapa, mikä voi lisätä johdonmukaisuus tunnistettu DE huiput ja ne on valittu SpecAlign ja MSW /PRO profiileja. Käyttämällä k-means klusterointialgoritmi kuvatun

Methods

, 287 huiput havaittiin Cromwell profiilin koottiin 2 ryhmään. Yksi ryhmä sisälsi 259 huiput alhaiset FC arvoihin, ja toinen ryhmä sisälsi 28 huiput korkea FC arvoihin. Joissa on kerrostettu FDR taso 10%, yhteensä 16 DE piikit havaittiin, johon suurin DE piikkien havaittiin SpecAlign ja MSW /PRO profiileja oletuksena SNRs kanssa postilokero

DE

SC (

n

PO

DE

MC) ja PO

DE

MC (

n

PO

DE

MC) 1 (1) ja 0,75 (0,74), tässä järjestyksessä. Alentamalla SNR: t SpecAlign ja MSW /PRO, samanlaisia ​​tuloksia saadaan yleensä (kuvio 5). Kuitenkin, kun SNR laski 1 SpecAlign, PO

DE

SC (

n

PO

DE

SC) tilanne oli vain 0,5 (0,47). Tämä tulos osoittaa, että kerrostunut FDR ohjaus lähestymistapa voi moninkertaistaa ilmaisemistehoa, mutta on vielä parantamisen varaa.

käyttäminen Cromwell klo oletuksena SNR, kerrostunut FDR ohjaus lähestymistapa havaittu 16 DE piikit 10% taso. Sillä SpecAlign ja MSW /PRO, yksinkertainen FDR ohjaus lähestymistapaa käytetään valitsemaan DE huiput. Kaikki PO

DE (

n

PO

DE) tulokset olivat huomattavasti korkeampia kuin sattumalta odotettua (

p

0,013). Yksityiskohtainen kuvaus Kuvioiden nähdä legenda kuvaan 3.

Kuitenkin Cromwell eturauhassyöpä profiilin, kerrostunut ja yksinkertainen FDR ohjaus lähestymistapoja oli sama teho (eli ne havaitaan saman DE piikit). Tämä tulos saattaa johtua siitä, että voima yksinkertaisen FDR ohjaus lähestymistapa tunnistaa DE huiput oli jo korkea.

Vertailu biomarkkereiden raportoitu alkuperäisessä rintasyövän tutkimusta

Yhteensä 5 DE huiput olivat raportoitu alkuperäisessä tutkimuksessa rintasyöpä aineisto [32]. Lyhyesti, esikäsittelyä menettelyä käytettiin alkuperäisessä paperi sisälsi Savitzky-Golay suodatin, Perustason vähentämisen, normalisointi samaan kaikkien ionien nykyiset ja uuttamalla huiput SNR peräti 3,0, ja DE piikit valitaan

t

-statistic pisteet 3.5. Me arvioitava, ovatko kyseiset 5 DE huiput voidaan toistaa käyttämällä kolmea ennalta algoritmeja niiden oletus SNRs. Kun SpecAlign algoritmia käytettiin vain 2 näistä 5 DE piikit havaittiin niin huippuja ja sitten tunnistetaan DE piikit 10% FDR ohjaus. Käyttämällä MSW /PRO algoritmi, kaikki 5 DE piikit tunnistettiin huippuja ja sitten havaitaan DE huippuja. Käyttämällä Cromwell algoritmi, kaikki 5 DE piikit havaittiin kuten piikkejä, mutta mikään valittiin DE huipussaan FDR tasolla 10% yksinkertaisella FDR ohjaus lähestymistapa. Kuitenkin kaikki 5 DE piikit olivat mukana 16 DE huiput valittu käyttämällä Cromwell algoritmi FDR tasolla 10% käytettäessä ositettua FDR ohjaus.

Keskustelu

toistettavuus on olennaisen tärkeä validointi biologisten löydöt suuren suoritustehon data. MS tutkimuksissa esikäsittely- algoritmit voivat vaikuttaa suuresti biomarkkereiden löytö. Käyttämällä biologiset tiedot syövän, tutkimuksemme osoitti, että huippujen määrä tunnistettu aineisto vaihtelee esikäsittelyä menetelmällä. Se osoitti myös, että johdonmukaisuutta DE piikin tunnistaminen vaikuttaa kaksi tärkeää tekijää, puuttuminen joidenkin DE huiput toisessa Piikkiprofiili ja alennetun tilastollisen tehon DE piikin tunnistamisen profiileja useita piikkejä mutta pieni määrä näytteitä . Tuloksemme osoittavat, että DE piikit valitaan pieni huippu profiileista yleensä toistettavasti havaittu suuria profiileja, kun riittävästi tehoa tunnistamiseksi DE piikkien suuri profiilien saavutetaan tehokas tilastollinen lähestymistapoja, kuten kerrostunut FDR ohjaus lähestymistapa. Analyysit tässä tutkimuksessa voitaisiin laajentaa muihin MS-pohjainen proteomic teknologioihin. Esimerkiksi tandem-massaspektrometriaa (MS /MS), käyttämällä erilaisia ​​esikäsittelyä algoritmeja huippuilmaisun ja eri hakukoneiden vastaavia proteiineja voitiin tuottaa monipuolista proteiiniprofiileja [43]. Täten kaksi tekijää paljasti tässä tutkimuksessa voisi myös vaikuttaa johdonmukaisuutta biomarkkereiden tunnistus MS /MS-tutkimuksilla.

Perustuu simulointi tutkimus, Cruz-Marcelo

et al

. [17] ehdotti, että yhdistelmä MassSpecWavelet ja PROcess tarjoaa suuri herkkyys on alhainen FDR piikin havaitsemisen. Kuitenkin perustuvat analyysiin toistettavuus huippu ja DE huipun havaitseminen perustuu kaksi todellista aineistot, MSW /PRO algoritmin (eli yhdistelmä MassSpecWavelet ja Process) yleensä havaita vähemmän huiput kuin Cromwell, joka osoitti, että se voi olla vähemmän herkkä huippuilmaisun ja ehkä jää näkemättä DE piikit havaittavissa käyttämällä Cromwell.

Vastaa