PLoS ONE: SPARCoC: uusi kehys Molecular Pattern Discovery and Cancer Gene Identification

tiivistelmä

On haastavaa klusterin syöpäpotilailla tietyn histopatologista samantyyppiset molekyylitason alatyyppien kliinistä merkitystä ja tunnistaa geeni allekirjoitukset suoraan asiaan alatyyppeihin. Nykyinen klustereiden lähestymistavat on luontaisia ​​rajoituksia, jotka estävät heitä mitata hienovarainen epäyhtenäisyyttä molekyyli alatyyppejä. Tässä artikkelissa esittelemme uuden kehyksen: SPARCoC (Harva-CoClust), joka perustuu romaaniin Common-tausta ja Harva-etualan hajoaminen (CSD) malli ja Maximum Block Improvement (MBI) co-klusterointi tekniikkaa. SPARCoC on selkeitä etuja verrattuna levinneitä vaihtoehtoisia lähestymistapoja: hierarkkinen klusterointi (Hclust) ja nonnegative matriisi factorization (NMF). Käytämme SPARCoC tutkimuksen keuhkojen adenokarsinooma (ADCA), erittäin heterogeeninen histologinen tyyppi, ja merkittävä haaste molekyyli alatyypitys. Testauksia ja tarkastuksia, käytämme laadukkaita geeniekspressioprofilointi tiedot keuhkojen ADCA potilaiden, ja tunnistaa ennustetekijöitä geeni allekirjoitukset, jotka voivat klusterin potilaat alaryhmiin, jotka ovat merkittävästi erilaisia ​​niiden kokonaiselinaikaa (p-arvojen 0,05). Tuloksemme perustuvat vain geenien ilmentymisen profilointi data-analyysi, ilman sisältävät jonkin muun ominaisuuden valinta tai kliinisten tietojen; pystymme toistamaan havaintomme kanssa täysin itsenäinen aineistoja. SPARCoC on laajasti sovellettavissa laajamittainen genomista tietoa valtuuttaa kuvio löytö ja syövän geeni tunnistaminen.

Citation: Ma S, Johnson D, Ashby C, Xiong D, Cramer CL, Moore JH, et al. (2015) SPARCoC: uusi kehys Molecular Pattern Discovery ja Cancer Gene Identification. PLoS ONE 10 (3): e0117135. doi: 10,1371 /journal.pone.0117135

Academic Editor: Xia Li, Harbin Medical University, Kiina

vastaanotettu: 27 elokuu 2014; Hyväksytty: 19 joulukuu 2014; Julkaistu: 13 maaliskuu 2015

Copyright: © 2015 Ma et al. Tämä on avoin pääsy artikkeli jaettu ehdoilla Creative Commons Nimeä lisenssi, joka sallii rajoittamattoman käytön, jakelun ja lisääntymiselle millä tahansa välineellä edellyttäen, että alkuperäinen kirjoittaja ja lähde hyvitetään

Data Saatavuus: Puitteet SPARCoC (Harva-CoClust Pattern Discovery and Cancer Molecular alatyypitys) on toteutettu MATLAB ja lähdekoodi on saatavilla: https://bioinformatics.astate.edu/code.

Rahoitus: SM tukee Hong Kong Research Grants neuvosto (RGC) Varhainen ura Scheme (ECS) (Project ID: CUHK 439513). S.Z. tukee NSF avustus (CMMI-1161242). J. M. tukee NIH avustuksia LM010098 ja LM009012. Tämä työ on myös osittain tukee National Institute of Health avustuksia National Center for Research Resources (P20RR016460) ja National Institute of General Medical Sciences (P20GM103429). Rahoittajat ollut mitään roolia tutkimuksen suunnittelu, tiedonkeruu ja analyysi, päätös julkaista tai valmistamista käsikirjoituksen.

Kilpailevat edut: Kirjoittajat ovat ilmoittaneet, etteivät ole kilpailevia intressejä ole.

Johdanto

on merkittävää kiinnostusta kehittää tehokkaita laskennallisia lähestymistapoja tutkia massiivinen genomista profiloinnin tiedot, kuten koko genomin geenien ilmentyminen tietojen syöpäpotilaita. Johtuen syöpäkasvain heterogeenisuus (katso [1-5]), joka on hyvin tunnettu alalla, on haasteellista analysoida genomiseen tiedot, jotta klusterin syöpäpotilailla tietyn histologista tai patologisesta syöpätyypin eri molekyyli- alaryhmiin ( alatyyppejä) geneettisen, biologisen ja kliinistä merkitystä, ja tunnistaa syöpää tai geenituotteiden kuvioita, jotka liittyvät suoraan erottaa eri alatyyppejä. Tutkimustyötä molekyyli alatyypitys ja syövän geeni allekirjoitus löytö voisi tehdä mahdolliseksi tärkeitä lääketieteellisiä sovelluksia ja kliinisiä käännökset kuten molekyyli- diagnoosi, ennuste, ja henkilökohtaista lääketiedettä.

Viime aikoina on tutkimuksissa kattavia molekyyli- luonnehdintoja eri syöpien, kuten rinta- syöpä molekyyli- tutkimus [6-9], peräsuolen syöpä (CRC) luokitus [10], keuhkosyöpä adenokarsinooma (ADCA) tai okasolusyöpä (SQ) alatyypitys [11-15]. Molekyyli- alatyypitys kunkin näistä tutkimuksista on soveltaa tietyn ryhmittämistä tai biclustering /co-klusterointi menetelmällä. Hierarkkinen klusterointi (Hclust) [16], nonnegative matriisi factorization (NMF) [17], integroiva klustereiden (iCluster) [18] ja ConcensusClusterPlus [19] ovat useita suosittuja nykyisin käytettävien molekyylien alatyypitys näistä tutkimuksista rintasyövän, peräsuolen syöpä, tai keuhkosyöpä jne [6-15].

kuitenkin nykyinen klusterointi menetelmät [esim 16-19] on rajoituksensa. Ne yleensä toimivat hyvin erottamaan eri histologista tai patologisia syöpätyyppeihin, mutta ei erottamiseksi hienoksi yksityiskohtaisia ​​molekyyli alatyyppejä histologinen heterogeeninen syöpä tyyppi. Myös johtuen laskennallisen haasteeseen analysoinnissa suurten genomista tietoa, useimmat nykyiset menetelmät päättää soveltaa likimääräinen laskennallinen malli perustana. Nykyiset lähestymistavat yleensä esikäsitellä koko genomin tiedot geeni tai ominaisuus valinta; tai ne tukeutuvat vahvasti kliinisiä tietoja, jotka ohjaavat klusterointi syöpäpotilaiden [11-15]. Kuitenkin esikäsittelyn tiedot voi menettää tietoja tärkeiden geenien tai geenin kuvioita liittyy syöpään, ja liian riippuvainen kliiniset tiedot mahdollisesti vinouttaa syövän heterogeenisen molekyyli alatyypitys. Rajoitukset nykyisten klustereiden menetelmiä käsitellään tarkemmin yksityiskohtaisesti seuraavassa Menetelmät jaksossa.

Huomattuaan yksi rajoituksensa olemassa olevien menetelmien on, että yhteisiä piirteitä taustalla suuren mittakaavan genominen dataa syövän potilaat voivat peittää havaitsemista harvinainen, mutta keskeisiä tietoja muunnelmia, eli tärkeät genomista ominaisuudet määritellään sakon yksityiskohtaisia ​​molekyyli alatyyppejä potilaista. Kuten kuvantamisen käsittelyyn, kun esitetään tuhansia valvonnan kuvia saman taustan alueella, jos voisimme poistaa häiriötekijä yhteisen taustan ja keskittyä vain harva mielenkiintoinen etualalla tietoa, voimme helposti ja selkeästi tunnistaa tärkeitä malleja. Täällä esittelemme SPARCoC (Harva-CoClust), uusi valvomatta klusterointia puitteet löytää molekyyli kuvioita ja syöpää molekyyli alatyyppejä. Kehys perustuu järjestelmää kutsutaan common tausta harva-etualan hajoaminen (CSD) ja tekniikkaa kutsutaan Maximum Block Improvement (MBI) shakkilautapiirros co-klusterointi. Tämä uusi kehys näyttää olevan merkittäviä etuja syövän molekyyli- alatyypitys ja geenin allekirjoituksen tunniste. Kuten näemme myöhemmin esimerkin (Fig. 1A) että klustereiden jonka yhtäläisyys (joka on filosofia lähes kaikkien nykyisten klustereiden menetelmät) on perustavanlaatuisia puutteita yhteydessä syövän molekyyli alatyypitys. Sen sijaan, kyky havaita poikkeavuus piilossa yhteinen tausta on keskeinen piirre uuden lähestymistavan.

(a) Keinotekoinen esimerkki: Koska tulo geeniekspression M matriisi, jossa ovat ”mielenkiintoinen geenit” piilossa? (Eli jotka ovat geenit merkittäviä erottamiseen mahdollisten eri molekyyli- alatyyppeihin?) ”Mielenkiintoinen” geenit eivät ole helposti havaita annetuista M matriisi nykyinen suosittu klusterointi menetelmien, esimerkiksi, NMF tai Hclust. Voisimme kuitenkin selvästi nähdä ”etualalla” (co-klusterin koko 5 x 5, näkyy vihreällä Y matriisi) jälkeen distractive ”tausta” X matriisi poistetaan läpi hajoamisen. ”Mielenkiintoinen” geenejä (rivit 10-14) ilmentyvät eri näytteille /sarakkeet 10-14 Y matriisin. (B) Uusi klusterointi puitteissa. Tämä uusi kehys sisältää kaksi moduulia: yhteinen-tausta ja harva-etualan hajoaminen (CSD) ja Maximum Block Improvement (MBI) co-klusterointi. Koska M matriisi, CSD moduuli hajoaa M ja tuottaa ”etualalla” Y matriisi; Sitten MBI co-klusterointia moduuli toimii Y matriisi ja tulostaa co-klustereita, jotka tarjoavat tietoa ryhmien näytteiden ja ryhmien geenejä, jotka liittyvät tiettyihin ryhmiin näytteitä.

Meidän klustereiden puitteissa tekee klustereiden by ”harva-etualalla” yhteisiä

,

vaikka monet nykyiset klusterointi menetelmien yleensä suorittaa klustereiden mukaan ”tausta” yhteisiä

.

Arvioimme tämä uusi kehys tutkimalla keuhkon adenokarsinooma (ADCA), joka on äärimmäinen heterogeeninen keuhkosyöpä histologinen tyyppi (https://www.cancer.gov/cancertopics/) ja joka on nyt paradigman molekyyli alatyypitys. Tutkimukset keuhkosyöpään Monet tutkijat ovat jo osoittaneet toteutettavuudesta syövän luokitus (luokka löytö ja luokka ennustaminen), joka perustuu geeniekspressioprofilointi syöpäpotilaita [20-24, 13, 14]. Monet tutkimukset suorittaa geenien ilmentymisen klustereiden ja etsi geeniekspression allekirjoitusta; kuitenkin julkaisi ennustetekijöiden geeni allekirjoitukset eri tutkimuksista ei ole (tai hyvin vähän) geenien yhteistä [25]. Tämä puute päällekkäisyyksiä voi osoittaa, että monet geenit ovat mukana keuhkosyöpä patologian; yhtä todennäköisesti se voi myös olla seurausta odottamattomista sudenkuoppia kanssa klusterointi perustuu muutamiin geenejä trimmauksen jälkeen ja esikäsittely.

Käytämme SPARCoC analysoida koko genomin geenien ilmentyminen profilointitiedot keuhkojen ADCA potilaista. Nämä aineistot (kollektiivisesti profiilien yli 600 keuhkojen ADCA potilaan näytettä) ovat korkealaatuisia ja kerättiin laaja kliininen tieto potilaista. SPARCoC voisi klusterin keuhko ADCA ja vaiheen I keuhkojen ADCA potilaiden perustuu niiden geeniekspressioprofiilien alaryhmiin merkittävästi erilaiset kliiniset selviytymisen tuloksiin, ja tunnistettu geeni allekirjoitukset, kun todentaa täysin riippumaton potilaan profilointi aineistoja, voi erottaa potilaat alaryhmiin henkiinjäämisen kannalta selvästikin tulosten . Erityisesti Kaplan-Meier analyysi eloonjäämisaste keuhkojen ADCA ja vaiheen I keuhkojen ADCA potilaalla on tunnistettu 128-geeni allekirjoitus osoitti, että korkean ja matalan riskin ryhmiin eroavat huomattavasti niiden yleistä eloonjäämistä (p-arvojen 0,05). Huomaa, että prosessi keuhkojen ADCA potilaiden klusterointia, geeni allekirjoituksen tunniste, selviytyminen analysointi ja rajat validointi on klassinen kenttään (Asianomaiset lukijoita, esimerkiksi [11-15]).

Uskomme uusi kehys SPARCoC, kun sitä sovelletaan genomista profilointiin syöpäpotilaita, voivat johtaa uusiin löytöihin tutkimuksessa syövän molekyyli alatyypitys ohjata lääketieteellisiä hoitoja ja uusia tunnistaminen syövän geenien tai geenin kaavoja syövän ennustetta tai lääketieteellisen tavoitteita.

Methods

SPARCoC: uusi kehys molekyyli malli löytämisen ja syövän geeni tunnistaminen

uusi klustereiden puitteissa (Fig. 1) sisältää kaksi moduulia: yhteinen-tausta ja sparse- etualalla hajoaminen (CSD) ja Maximum Block Improvement (MBI) co-klusterointi. Seuraavassa on yleiskatsaus ja joitakin lyhyitä keskusteluja kahden moduulin. Vuonna CSD moduulissa, laskennallinen malli perustuu harva optimointiin; yhteistuotantoa klusterointi moduuli, lohko optimointi mallin. Kuten käsitellään yksityiskohtaisesti seuraavassa, meidän puitteet SPARCoC on uusia ominaisuuksia, jotka tekevät siitä erittäin tehokas molekyyli kuvio löytö, ja meidän laskennallinen malli eroaa mallista vankka pääkomponenttianalyysi (RPCA) ja muiden nykyisten klustereiden ja biclustering /co -clustering menetelmiä.

esimerkki havainnollistaa ajatusta meidän klustereiden kehys, CSD hajoamisen ja MBI co-klusterointia (ks. 1) B

Tämä esimerkki sisältää kolme tiedostoa (katso S1-tiedosto yksityiskohtia esimerkiksi tiedostot): M.csv, Y.csv, ja X.csv. Taustalla X matriisin (koko: 20 x 20; merkintä arvot vaihtelevat välillä 1 ~ 100) on listalla-yksi matriisi satunnaisesti luotu MATLAB; etualalla Y matriisin (koko: 20 x 20 kanssa merkintä arvojen valmiina olevan 0, lukuun ottamatta yhteistyössä klusterin koko 5 x 5 kanssa merkintä arvojen valmiina olevan 10) lisätään taustalla X matriisi, saamme M matriisi (koko: 20 x 20), joka on nyt listalla kaksi matriisi. Kun otetaan huomioon M.csv (M matriisi), meidän CSD hajoaminen mallin palaa täsmälleen X.csv (X matriisi) ja Y.csv (Y matriisi) annettuna (Huomaa, että CSD malli käytimme on (M3) malli, joka määritellään myöhemmin, K = 1 ja melutaso δ = 0). Kun testaamme suorituskyvyn MBI on Y.csv (Y matriisi), saamme täsmälleen oikeat yhteistyössä klusterin koko: 5 x 5. Tämä keinotekoinen esimerkki osoittaa, että uusi ryhmittely kehys perustuu CSD hajoaminen ja MBI yhteistyössä klusterointia voidaan tehokkaasti erottaa ”mielenkiintoinen” etualalla tiedot (mielenkiintoisia geenejä ja mielenkiintoinen näytettä) päässä taustatiedot. Haluamme huomauttaa, että vaikka tämä yksinkertainen esimerkki, on vaikea muiden klusterointi lähestymistapoja, kuten NMF, oikein erottaa kiinnostava näytteitä muista näytteistä, kun M matriisi annetaan.

Yhteinen -Taustaa ja harva-etualan hajoaminen (CSD) moduuli

Käytimme seuraavat kaksi mallia common-tausta ja harva-etualan hajoaminen: (M1) ja (M2).

(malli 1 ) malli on kirjoittaa tietyn matriisin M summana kolmen matriisien: X, Y ja Z, siten että M = X + Y + Z, kun X on listalla, yksi matriisin muodossa X = x * ι jossa x on päätös, vektori ja ι on kaiken yhden rivin vektori, ja Z on melu matriisi. Erityisesti kyseisen mallin on (M1) B

On huomattava, että X on siten yhteinen-vektorin rakenne siinä mielessä, että kaikki kolonnin vektorit X ovat samoja.

On huomattava, että yhteinen-vektori malli on teoreettisesti eroaa RPCA ehdotetun mallin Candes et al. [26] ja Chandrasekaran et ai. [27]. Suurin ero on RPCA vaatii X olevan matalan listalla, mutta meidän malli (M1) mukaan X on erikoistittelit-yksi matriisi. L

1 normi tavoitteen (M1) luonnollisesti edistää niukkuus matriisin Y. Äskettäin samanlainen malli kuvantamisen tausta louhinta pidettiin myös itsenäisesti Li, Ng ja Yuan [28] yhteydessä kuvankäsittelyn sovelluksiin videovalvontajärjestelmät. Ratkaisemme (M1), jonka ns Vaihtovirta suunta Method of Kertoimet (ADMM), joka on ensimmäisen kertaluvun optimointi rutiini, jotta voimme ratkaista hyvin suurikokoisia malleja.

(malli 2) Tarkastellaan geeniekspressiota matriisit m

k on sama ulottuvuus m x n, ja k = 1, 2, …, K. indeksi k merkitsee tietyn ehdon. Tietyn k, matriisi M

k = (a

k

ij) m × n sisältää ekspressiotason geenin i alla ajanhetkellä j, jossa i = 1, 2, …, m ja j = 1, 2, …, n. Voimme mallintaa taustan vaihtelu ilmentymistason alhainen-sijoitus matriisi, ja loput harva matriisit sitten heijastavat etualalla joka ”näyttää” ilmaus ”mielenkiintoinen” tai ”aktiivinen” geenejä. Tätä tietoa voidaan käyttää analysoitaessa suhde tai korrelaatiota geenin ilmentymisen taso /malleihin ja /alatyyppejä. Optimointiohjelmaa kiinnostava on: (M2), jossa ǁY

0 on L

0-normin (alias kardinaliteetin) Y

i, merkitsee melutaso, ja

i 0 on jonkin verran sopivasti valittu painoparametri. Vastaava kupera rentoutuminen malli on: (M3) B

Huomaa, että (M3) tulee yhteinen vektori malli (M1), kun lisäämme ylimääräisen rajoite X = x * ι siihen.

Katso seuraavasta varten pseudo koodi common-tausta ja harva-etualan hajoaminen malli (M1).

Syöttö: tiedot matriisi

M

, ja melutaso parametri δ.

Output: yhteinen-tausta vektori

x

ja harva-etualalla matriisin

Y

.

Begin:

(Alustus ). Määrittele täydennetty Lagrangen toiminto (M1):

Huomaa, että

D

on Lagrangen kerroin, joka liittyy tasa rajoitteeksi (M1), ja

r

0 on rangaistus parametri. Aseta alkuarvot:

Y

: =

Y

0,

Z

: =

Z

0,

D

; =

D

0. Aseta parametrin arvo

r

. Aseta silmukka laskuri

k

: = 0.

(minimointi täydennetty Lagrangen funktion suhteen

x

,

Y

,

Z

vuorotellen). Ratkaise seuraavat kolme yksinkertaista optimointiongelmia peräkkäin:

(päivittäminen Lagrangen kerroin). Laske

(Pysäytys kriteeri). Jos tietyt pysäyttäminen kriteeri täyttyy, niin lopeta. Muussa tapauksessa aseta

k

: =

k

+1, ja siirry vaiheeseen 1.

(syöttöä

x

ja

Y

). Output yhteinen-tausta vektori

x

k + 1

ja harva-etualalla matriisin

Y

k + 1

.

Maximum Block Improvement (MBI) co-klusterointi moduuli

klusterointi lähestymistapa perustuu tensori ajosuunnittelija ja optimointi menetelmää kutsutaan Maximum Block Improvement (MBI) [29]. Tarkastellaan seuraavaa muotoilua co-klusterointia ongelma tietyn tensorin datajoukon M ∈ R

n1 × n2 … × nd: missä f on tietty läheisyys toimenpide. In [29], niin sanottu

Maximum Block Improvement

(MBI) ehdotetaan menetelmää ratkaista edellä malli (CC), jossa rohkaisevia numeerisia tuloksia. Kiinnostuneet lukijat viitataan edellisessä työ [29], että pseudo-koodit MBI mallin tensor yhteistyön klusterointia ja 2D matriisi co-klusterointi. Huomaa, että yllä mallia tensor co-klusterointi on

tarkka

, siinä mielessä, että jos tarkkaa yhteistyötä klustereiden olemassa, edellä mainittua mallia optimaalisella saavuttaa minimiarvon nolla.

MBI klustereiden lähestymistapaa voidaan soveltaa samanaikaisesti klusterin geeniekspression data 2D matriiseja (geenit vs. näytettä) sekä tietoja high-ulotteinen tensor muodossa. Uusi kehys on joustava, että se on helppo sisällyttää erilaisia ​​klusterointi laadun mittauksia. Alustavien kokeellinen testaus osoittaa sen tehokkuutta ja vaikuttavuutta [30, 29]. MBI, koska shakkilautapiirros co-klusterointia lähestymistapa, ilman geeni-leikkaaminen, voisi tarjota tunnistaminen syövän alatyyppejä ja myös geenit korreloivat alatyyppejä samaan aikaan, kun taas useimmat edellinen bi-klusterointia tai co-klusterointia lähestymistapojen (esim LAS [31 ], QUIBC [32], jne) ovat keskittyneet talteen yhtenäinen geeniekspressiomalleja, yleensä toimi hyvin syövän alatyypitys. Teoriassa verrattuna muihin co Ryhmittämättömät lähestymistapoja, meidän malli perustuu täsmällinen koostumus yhteistyölle klusterointi etsiessään likimääräinen ratkaisu tarkan mallin. Tätä ajatellen muita lähestymistapoja (esimerkiksi SVD alhaisen rank matriisi menetelmä [33] ja NMF menetelmä [17]) pohja pyrkimyksiä summittaisia ​​muotoilussa co-klusterointia.

Ota NMF menetelmä kuin esimerkiksi, joka on yksi tällä hetkellä laajalti käytetty lähestymistapoja syövän molekyyli alatyypitys. On olemassa kaksi luontaiset puutteet ja NMF: (1) se vaatii merkinnät tulo geeniekspression matriisi olla kaikki ei-negatiivinen arvo; (2) se jakaa tulevan matriisin sama määrä ryhmiä rivien (geenit) ja sarakkeet (näytteet). Koska numero geenien (~ 30000) on tavallisesti merkittävästi suurempi kuin määrä näytteitä (noin useita satoja), se ei voi olla kovin mielekästä jakaa geenejä (rivit) ja näytteet (sarakkeet) samaan määrä ryhmissä, joissa yleensä useita eri molekyylipainon alatyyppejä on pieni, eli välillä 2 ja 5. esimerkiksi, kun ryhmien lukumäärä k = 2, NMF-menetelmä saa 2 x 2 erottaminen lager geeniekspression matriisi (kuten 22000 riviä × 276 saraketta) otetaan 4 korttelin, jolloin saadaan hyvin karkea erottaminen matriisin. Rinnastetaan meidän MBI lähestymistapa on riittävän joustava, jotta saadaan kunnolla hienoksi yksityiskohtainen erottaminen, vaikkapa lukumäärän kanssa riviryhmien k

1 100 ja määrä pylvään ryhmiä k

2 = 2.

Haluamme huomauttaa, että lukumäärät k

1 ja k

2 ovat tärkeä ulottuvuus parametrit MBI co-klusterointi. Ei ole olemassa tehokkaita menetelmiä, jotka voisivat johtaa optimaalinen numerot k

1, k

2, mutta voisimme soveltaa paikallisen hakuprosessin [29] etsimään paikallisen optimaalisen numerot k

1, k

2.

Huomaa, että lähes kaikki ilman valvontaa klustereiden lähestymistavat eivät aina tuottaa täsmälleen samat klusterit ovat kaikki ajot eri parametriasetukset samassa aineisto. Kuten NMF lähestymistapa, uusi MBI algoritmi voi tai ei voi lähentyä samaa ratkaisua jokaisen ajon riippuen eri satunnainen alkuehdot. Käytämme myös ajatus konsensus klustereiden, ottaen huomioon tiedot joka toinen näytteiden ryhmittyneet yhteen tietty määrä MBI kulkee. Jos kaksi näytettä ovat samaa tyyppiä tai alatyyppi, voimme sitten odottaa, että näyte toimeksiannot vaihtelevat hiukan run ajaa [17].

Novel piirteitä uuden kehyksen SPARCoC

Seuraavassa tarjoaa perustavanlaatuinen yhteisen-tausta ja Harva-etualan hajoaminen (CSD) malli ja Maximum Block Improvement (MBI) co-klusterointi tekniikkaa, ja myös esitetään lyhyesti uutuuksista SPARCoC verrattuna nykyisten klustereiden menetelmillä:

Missä syöpä geenejä tärkeää määriteltäessä eri molekyyli- alatyyppejä syövän? Yksi tärkeimmistä löytöjen kautta tutkimus osoittaa, että ne edustavat ”etualalla” geenin ilmentymisen profilointi tietoja potilaista, yleensä piilossa ”tausta” valtameren meluisa geeniekspression data. Vaivaa uuden klustereiden kehyksen, joka perustuu CSD hajoaminen ja MBI co-klusterointi on määritellä erillinen molekyyli potilasalaryhmissä ja auttaa yhden pois merkittävä vaikutus-making ”etualalla” geenejä niiden meluisa tausta.

Huomaa, että lähes kaikki muut nykyiset klusterointia ja yhteistyötä klusterointi menetelmät perustuvat käsitteeseen tunnistaa yhteisiä; täten ne on loukkuun kuviot tausta

,

sijasta keskitytään tiedon-rikas ”etualalla” geenin ilmentymisen data

(kts. 1A).

CSD hajotusmoduuli helpottaa vaikutus tärkeä ”mielenkiintoinen” geenit seistä ulos ”tausta”, mikä auttaa tunnistamaan syövän geenien ja hienoksi yksityiskohtaisia ​​molekyyli alatyyppejä, joka muuten olisi mahdotonta havaita (ks 1A, taulukko 1).

MBI co-klusterointia moduuli, koska shakkilautapiirros co-klusterointia lähestymistapa, voi tuottaa sekä rivi ryhmittely ja sarake ryhmittymä samanaikaisesti, ja siten auttaa tunnistamaan syövän geenien (rivit) määrittelemällä eri molekyyliklusterit /alaryhmiä potilasta (pylväät) (ks. 2).

Meidän lähestymistapaa voidaan soveltaa suuren mittakaavan genominen profilointi aineistoja potilaista ilman geeni trimmausta tai ominaisuuksien hallintaan. Se osoittautuu erittäin tehokas ja toimii koko genomin geenin ilmentymisen aineistot sekä muut aineistot, kuten mutaatio, kopioiden määrä, miRNA, metylaatio, exome sekvensointi ja kääntää lause proteiinijärjestelmäksi jne Se pystyy tunnistamaan mahdollisia uusia molekyyli alatyyppejä ja syövän tai geenituotteiden kuvioita.

. Sillä geenien ilmentymisen aineistot tutkitaan tässä, MBI yhteistyössä klustereiden samanaikaisesti tarjota geenin (rivi) ryhmittymät ja näyte (sarake) ryhmittymiä, tunnistaa geenejä, jotka liittyvät erityyppisiin tai alatyyppejä. (A) Heat Kartta osoittaa selkeää yhteistyötä klustereiden tunnistaa MBI. Juoni perustuu todellisiin arvoihin Y matriisin geeniekspression profilointitiedot (DATA1 kanssa kolmenlaisia: Coid /20, CM /13, NL /17; katso S1 File). Kukin rivi vastaa yhtä geeniä; jokainen sarake vastaa yhtä näytettä. Tämä lämpö kartta näyttää ilmaus arvoja 100 geenien kaikissa 3 erilaista. (B) Lämpö Kartta osoittaa selkeää yhteistyötä klustereiden tunnistaa MBI. Juoni perustuu arvoihin Y matriisin Kanada stage1- aineisto (lämpö kartta Kanada stage1- aineisto kanssa 562 geenien kanssa k

1 = 100 ja k

2 = 2. Nämä kaksi ryhmää on erotettu paksu musta pystyviiva).

katso testitulosten jos täällä ja tiedot (

katso

S1 File

lisätesteistä tuloksia

), jotka osoittavat selkeitä etuja uuden klustereiden puitteissa. Meidän testaus tulokset osoittavat, että: (1) CSD lähestymistapa helpottaa tunnistamista geenimerkkejä, mikä potentiaali geenimerkkejä erottumaan ”tausta”; (2) MBI lähestymistapa toimii paremmin Y vs. M, missä M on alkuperäinen geenien ilmentymisen matriisi ja Y on harva matriisi avulla luotua CSD hajoamisen; (3) uusi klustereiden puitteissa toimii paljon paremmin verrattuna laajalti käytetty klustereiden lähestymistavat, esim Hclust ja NMF (myös ks. 3A ja 3B, kuvio. 3C ja 3D, pienempi p-arvot log rank -testi (kuvio . 3, taulukko 2) ja alempi prosenttiosuudet 3 vuoden eloonjääneiden kokonaismäärästä riskiryhmiin (

myös nähdä

S1 File

lisätesteistä tulosten

) sotkea meidän CSD + MBI malli on parempi ryhmittely malli).

(a) ja (b). Vertailu Kaplan-Meier selviytymisen tontteja perustuu ilman valvontaa klustereita Hierarkkinen klusterointi (Hclust) ja että ohjauskeinojen, kun sitä annetaan saman geenin ilmentymisen matriisin M (keuhko ADCA Kanada aineisto päässä Shedden ym. [7]. (A) Kaplan- Meier selviytymisen juoni perustuu Hclust. (b) Kaplan-Meier selviytymisen juoni perustuu MBI klustereiden (leave-one-out-ristivalidointi (LOOCV) ~ 99% tarkkuudella). MBI esittää parempi erottaminen aggressiivinen alaryhmä alkaen kaksi muuta alaryhmää verrattuna Hclust Bryant et ai. [6]. p-arvot lasketaan log-rank-testi; LOOCV tehtiin käyttäen PAM [18]. (c) ja (d). vertailu Kaplan-Meier selviytyminen tontteja perustuu ilman valvontaa kasautumiseen NMF (c) ja että ohjauskeinojen (d), kun hän on saanut saman geenin ilmentymisen matriisin M (keuhko ADCA Kanada aineisto päässä Shedden ym. [7]). kun otetaan huomioon saman geenin ilmentymisen testaus data, selviytyminen käyrät MBI klusterointia osoittaa merkittävämpi erottaminen kuin tuonti NMF klusterointia. p-arvot lasketaan log-rank-testi.

verrattuna muihin ilman valvontaa klusterointi menetelmät, uuden klustereiden puitteissa toimii voimakkaasti yleistä, ja osoittaa huomattavasti paremman ryhmittely tulosta tietyistä aineistot. Itse suorituskykyä klusterointialgoritmi voi merkittävästi vaikuttaa aineistot: jotkut aineistot kanssa eri tyyppiä kuin ”omena ja appelsiini” tyypit, kun taas jotkut muut aineistot tyyppejä, joilla on hyvin hienovarainen ero erilaisina ”omena” tyyppejä. Tavoitteena paperi on itse asiassa ehdottamaan huolellisesti suunniteltu uusi tehokas klustereiden puitteissa, jotta voidaan vastata haasteisiin syövän heterogeenisen molekyyli- alatyypitys (erottaa hienovaraisesti muuttunut ”omena” tyyppejä). Seuraavassa käytämme uusi kehys tutkia erittäin haastava, äärimmäinen heterogeeninen keuhkosyöpä adenokarsinooma (keuhko ADCA ja vaiheen I keuhkojen ADCA).

Tulokset

Tässä osiossa olemme analysoineet korkealla -laatu geeniekspressioprofilointi datan kollektiivisesti ~ 600 potilaan näytteitä, ja menetelmämme helposti tuottaa klustereita keuhkojen ADCA potilaalla on erillinen kliininen selviytymisen tuloksia ja tunnistaa geeni allekirjoitukset, jotka, kun todentaa täysin riippumaton aineistoja, pystyvät erottamaan keuhkojen ADCA potilaita osaryhmään merkittävästi erilainen kokonaiselossaoloaika (p-arvot 0,05). Voisimme jäljitellä havaintomme käyttäen täysin riippumaton aineistoja. Tilastolliset analyysit tehdään osoittaa tulosten luotettavuus.

Käytämme SPARCoC analysoida geeniekspressioprofiilien keuhkojen adenokarsinooma (ADCA) potilasta ja esitellä tuloksia molekyylien alatyypitys sekä varoituksia geeni allekirjoitus löytö. Perustuen koko genomin geeniekspressioprofilointi keuhkojen ADCA potilaita, SPARCoC klusterit potilaat erillisiksi alaryhmiin; ja potilas kokonaiselossaoloaika on merkittävästi erilainen eri alaryhmien. Se auttaa tunnistamaan syövän geeni allekirjoitukset, jotka, kun todentaa täysin itsenäinen geeniekspressioprofilointi tiedot, voisi erottaa keuhkojen ADCA ja vaiheen I keuhkojen ADCA potilaiden alaryhmiin eri kliinisen selviytymisen tuloksia.

Huomaa, että tässä esitetyt tulokset perustuvat geeniekspressioprofilointi tietojen analysointi vain ilman sisältävät jonkin muun ominaisuuden valintaa, tai kliinisten tietojen joka eroaa muista analyysin kirjallisuudessa (esim [34, 35, 15] ). Kuitenkin silti voimme nähdä, että pystymme toistamaan havaintomme kanssa täysin itsenäinen aineistot

.

testauksia ja tarkastuksia, käytämme tutkimuksessamme seuraavissa mittausmuistien geeniekspressioprofiilien on yhteensä yli 600 keuhko ADCA potilaan näytteitä; nämä suuret aineistot ovat korkealaatuisia ja kerätään laajaa kliinistä tietoa syöpäpotilaiden.

Tietoaineistot käytetään

Jacob aineisto.

442 ADCA näytteitä, joissa geenin ilmentyminen ja kliiniset tiedot National Cancer Institute (NCI) johtajan Challenge Consortium [11]. Tämä aineisto koostuu 4 eri potilasaineistoihin, kuten Toronto /Kanada (TC, n = 82, vaiheen I n = 57), Memorial Sloan-Kettering Cancer Center (MSKCC, n = 104, vaiheen I n = 62), H . Lee Moffit Cancer Center (HLM, n = 79, vaiheen I n = 41), ja University of Michigan Cancer Center (UM, n = 177, vaiheen I n = 116). Samanlaisia ​​kuten [15], aineistot TC ja MSKCC yhdistetään yhteen kutsutaan TM (n = 186), ja aineistot HLM ja UM yhdistetään kutsutaan HM (n = 256).

ACC aineisto.

117 ADCA näytteitä Aichi Cancer Center, saatu https://www.ncbi.nlm.nih.gov/geo, hakunumerolla GSE13213 [36].

GSE5843 aineisto.

46 ADCA näytteitä (vaihe IA 16 näytettä; vaiheessa IB 30 näytettä), saatu https://www.ncbi.nlm.nih.gov/geo, hakunumerolla GSE5843 [37].

tiedetään, että keuhkosyöpä on johtava syy syöpään liittyvän kuoleman maailmanlaajuisesti (https://seer.cancer.gov/statfacts/). Lähes 50% potilaista, joilla vaiheiden I ja II ei-pienisoluinen keuhkosyöpä (NSCLC) lopulta kuolee uusiutuva sairaus huolimatta kirurginen resektio. On mielekästä löytää keuhkosyöpä molekyyli alatyyppejä erottuva kliinisiä tuloksia siten, että jokainen molekyyli alatyyppi on ehdottanut hoitosuositusten jotka sisältävät erityisiä määritykset, kohdennettuja hoitoja, ja kliinisissä kokeissa. On kuitenkin vaikea tutkia hienoisia heterogeeninen erot molekyylitason alatyyppien keuhkon adenokarsinooma (ADCA) ja etenkin portaan I keuhkojen ADCA, ilman pääsyä klusterit voimakas valvomatta klustereiden lähestymistavat kuten romaanin klustereiden puitteissa SPARCoC kehittynyt täällä (katso suorituskyvyn vertailu meidän klustereiden lähestymistapaa ja NMF tai Hclust edellisessä jaksossa ja S1 File).

klusterointi keuhkoadenokarsinooma (ADCA) potilaat

Erilliset potilasalaryhmissä TM ja HM aineistot.

TM ja HM aineistoja käytettiin koulutukseen kerättyä analyysimme.

Vastaa