PLoS ONE: Tehtävä of Cancer Associated Genes Revealed Modern yhden ja usean Association Tests
tiivistelmä
Kopioi numero vaihtelu (CNV) on merkitystä patogeneesissä monien ihmisten sairauksien, erityisesti syövän. Useat koko genomin CNV yhdistys ole tehty varten tunnistaa syöpään liittyvän CNVs. Täällä sitoutui uudenlainen lähestymistapa koko genomin CNV analyysi, jonka tavoitteena on tunnistamisen yhdistysten välillä CNV erilaisten geenien (CNV-CNV) poikki 60 ihmisen syöpäsolujen linjat. Oletamme, että nämä yhdistykset osoittavat rooleja liittyy geenien syöpää, ja voivat olla indikaattorit sekä asema geenissä verkoissa syöpään ajo prosesseja. Viimeaikaiset tutkimukset osoittavat, että geeni yhdistykset ovat usein epälineaarisia ja ei-monotoninen. Jotta saataisiin kokonaiskuva kaikista CNV yhdistysten, suoritimme laadut yhden muuttujan analyysin hyödyntämällä dCov, MIC, ja HHG yhdistys testejä, jotka pystyvät havaitsemaan minkä tahansa yhdistyksen, mukaan lukien ei-monotoninen suhteita. Vertailun käytimme Spearmanin ja Pearson yhdistys testejä, jotka havaitsevat vain lineaarinen tai monotoninen suhteita. Soveltaminen dCov, MIC ja HHG testit johtivat tunnistamiseen kaksi kertaa niin paljon yhdistyksiä verrattuna saapuvat Spearman ja Pearson yksin. Mielenkiintoista on, useimmat uudet yhdistysten havaittiin, että HHG testi. Seuraavaksi käytimme dCov ja HHG kykyä suorittaa Monimuuttuja-analyysissä. Testasimme assosiaatiota välillä geenien toimintaa ei tunneta ja joka tunnetaan syöpään liittyvien reittejä. Tuloksemme osoittavat, että monimuuttuja-analyysi on paljon tehokkaampaa kuin yhden muuttujan analyysin varten asettaessa biologisia rooleja geenien toimintaa ei tunneta. Olemme päätellä, että yhdistelmä monimuuttujatestausta ja univariate laadut yhdistys testit voivat paljastaa merkittäviä tietoja geeni verkot taudin-ajo prosesseja. Näitä menetelmiä voidaan soveltaa mihin tahansa suuria geeni tai koulutusjakson aineisto, joka mahdollistaa kattavamman analyysin biologisten prosessien.
Citation: Gorfine M, Goldstein B, Fishman A, Heller R, Heller Y, Lamm AT (2015) Toiminto Syöpä Associated Genes Revealed Modern yhden ja usean Association testit. PLoS ONE 10 (5): e0126544. doi: 10,1371 /journal.pone.0126544
Academic Editor: Lin Chen, The University of Chicago, Yhdysvallat |
vastaanotettu: 27 syyskuu 2014; Hyväksytty: 03 huhtikuu 2015; Julkaistu: toukokuu 12, 2015
Copyright: © 2015 Gorfine et al. Tämä on avoin pääsy artikkeli jaettu ehdoilla Creative Commons Nimeä lisenssi, joka sallii rajoittamattoman käytön, jakelun ja lisääntymiselle millä tahansa välineellä edellyttäen, että alkuperäinen kirjoittaja ja lähde hyvitetään
Data Saatavuus: kaikki asiaankuuluvat tiedot kuuluvat paperin ja sen tukeminen Information tiedostoja.
Rahoitus: Tämä työ rahoittivat National Institutes of Health (avustus P01CA53996 MG), Israelin Centers of Research Excellence (I-CORE) ohjelma, (keskus nro . 1796/12 ATL), Israel Science Foundation (avustus nro 644/13 ATL). ATL on Taub mies – tukee Taub Foundation. Rahoittajat ollut mitään roolia tutkimuksen suunnittelu, tiedonkeruu ja analyysi, päätös julkaista tai valmistamista käsikirjoituksen.
Kilpailevat edut: Kirjoittajat ovat ilmoittaneet, etteivät ole kilpailevia intressejä ole.
Johdanto
Kopioi numero variaatioita (CNV) ovat osa normaalia ihmisen geneettinen vaihtelu. Kymmenettuhannet CNVs on raportoitu tietokannasta Genomisen vaihtoehdot (PO V), joka perustuu terveisiin näytteistä [1,2]. Kuitenkin CNVs ovat myös merkittävä osa vaihtelua sairauden riskien sekä useiden sairauksien ja häiriöiden, mukaan lukien syövän, HIV-infektio, autismi, ja psykiatriset sairaudet [3-5]. Syövän, CNV on yksi tärkeimmistä somaattisen poikkeavuuksia havaittu [6]. Nykyään CNV analyysi on tullut keskeinen osa syövän tutkimus sekä monet tutkimukset keskittyvät havaitsemisessa CNVs ihmisen perimässä normaaleissa ja sairaiden kudosten ja solujen. ([7,8], PO V (https://projects.tcag.ca/variation)). Klinikoilla kasvava määrä CNV käytetään diagnostiikassa ja yksilöllisiä hoito.
Vaikka yksittäiset CNVs voidaan havaita fluoresoiva in situ -hybridisaatio (FISH), koko genomin CNV havaitseminen vaatii microarray-pohjainen vertaileva genominen hybridisaatio (array CGH ) tai seuraavan sukupolven sekvensointi (NGS) alustat [6]. Nämä alustat tuottavat hyvin suuria määriä dataa, jolloin analyysi erittäin haastava. Yksi tärkeä tehtävä CNV data-analyysi tunnistetaan ja luonnehditaan assosiaatioita CNVs ja tauteja, jotka saattavat ohjaavat biologisesti relevantteja mekanismien [9-11].
Useat yhdistys ole tehty varten yhdistää CNVs sairauksille [7,8,12]. Esimerkiksi, Stamoulis et ai. [11] keskityttiin yksitoikkoinen suhteita CNV sisällä ja eri kromosomeissa; Bussey et ai. [12] tarkasteltiin Pearsonin korrelaatiota CNV ja geeniekspressiotasot. Vaikka useimmat tutkimukset liittyvät CNV kanssa geeniekspressioprofiili, hyvin vähän, jos lainkaan, on yritetty yhdistää välillä CNVs erilaisten geenien havaittiin sairaan kudoksen, vaikka tunnistaminen assosiaatioita geenien on äärimmäisen tärkeää ymmärtää perus biologiset prosessit ja mallintaminen geenisäätelyprote- verkoissa. Tässä työssä sitoutui tällainen lähestymistapa analysoida syöpään liittyvät CNV tiedot. Ajatuksena oli, että koska CNV muodostuminen on osa Karsinogeneesin assosiaatioita CNVs geenejä olisi osoitus roolinsa karsinogeneesissä. Lisäksi tunnistaminen yhdistykset saattavat mahdollistaa rakentaa geeni verkosto taudin ajo prosesseja.
Toistaiseksi yleisimmin käytetty yhdistyksen testit perustuvat Pearsonin tai Spearmanin korrelaatiokerrointa. Pearsonin testi on herkkä lineaarinen komponentin suhde kahden muuttujan, kun taas Spearmanin testi havaitsee monotoninen suhteita, kuten sigmoid. Siten molemmat testit eivät pysty havaitsemaan ei-monotoninen suhteet kuten U: n muotoinen, ellipsin, siniaalto, jne. Viimeaikaiset tutkimukset osoittavat, että geeni yhdistykset ovat usein epälineaarisia ja ei-monotoninen [13-15]; Siksi saadakseen täydellisen puolueeton kuvaa kaikista geenin yhdistysten täytyy soveltaa muita tilastollisia menetelmiä.
Viime aikoina useat tilastolliset testit havaitsemiseksi tahansa suhteita, myös ei-monotoninen niitä, ehdotettiin. Erityisesti, Szekely et ai. [16,17] ehdotti testi, nimeltään dCov, etäisyyden perusteella kovarianssi ja etäisyys korrelaatio; Reshef et ai. [18] esitti testi romaaniin perustuva mitta riippuvuutta maksimaalisen tiedot kerroin (MIC); ja Heller et al. [19] Ehdotetun testin, joka perustuu joukkoon etäisyyksistä, nimeltään HHG. Laajat simulointi tutkimuksissa verrattiin välillä HHG, dCov, MIC, Spearmanin ja Pearson ei ole tehty [13,19]. Niiden tärkeimmät päätelmät olivat, että HHG on tyypillisesti tehokkaampi kuin dCov ja dCov on yleensä tehokkaampi kuin MIC ei-monotoninen asetuksia.
Lisäksi niiden on yhden muuttujan analyysin työkalut kykenevät tunnistaminen laajan yhdistyksen tyyppejä , dCov ja HHG ovat sovellettavissa myös monimuuttuja-analyysissä, eli testaus riippuvuuden välillä X ja Y, kun X ja Y ovat vektoreita sijasta yhden muuttujia. Niinpä näitä testejä voidaan käyttää tunnistamiseen assosiaatioita polkuja välillä tai geenin ja polku, vaikka otoskoko on paljon pienempi kuin mitta joko X tai Y
Toinen Työn tavoitteena oli osoittaa, tehokkuus yhdistyksen testit, jotka ovat myös pystyvät havaitsemaan ei-monotoninen suhteita, kuten dCov, MIC ja HHG analysoida koko genomin yhdistys tiedot. Tätä varten käytimme näitä testejä rinnalla standardin Spearman ja Pearson testi analysoinnissa CNV saatujen tietojen 60 ihmisen syövän solulinjoissa (NCI-60) [12]. Olemme havainneet, että soveltamalla testit kykenevät havaitsemaan minkä tahansa suhteita, kuten dCov ja HHG, ja yhden muuttujan analyysin tuloksena tunnistaminen kaksi kertaa niin paljon yhdistysten verrattuna saapuvat Spearman ja Pearson yksin. Useimmat uusien yhdistysten havaittiin, että HHG testi. Lisäksi monimuuttujamenetelmin avulla dCov ja HHG pystyi yhdistämään välillä geenien toimintaa ei tunneta meidän aineisto ja perus biologisia polkuja, jotka tarjoavat vihjeen mahdollisen biologisia toimintoja näistä geeneistä.
menetelmät esitetään tässä voi olla hyödyllinen monissa muissa asetuksista, jotka edellyttävät havaitseminen yhdistysten geenien ja reitit, kuten jälleenrakentamiseen verkkojen ja reitit-tärkeänä tehtävänä on systeemibiologian [20]. Tämä tutkimus osoittaa, että käyttämällä näitä menetelmiä tutkijat voivat paljastaa enemmän yhdistysten erilaisia, ja niillä on siten laajempi kuva käytössään kun yritetään tutkia biologisten ilmiöiden.
Tulokset
tunnistaminen Yleisesti arvioidaan by-Gene Associations
jotta löydetään assosiaatioita syöpään liittyvien CNVs käytimme CNV tiedot on saatu joukko CGH 60 ihmisen syöpäsolun linjat (NCI-60; [12]). Sisällä CGH array valitsimme klooneja, jotka ovat tunnettuja geeni symboleja ja johdonmukaisuuden, ei puuttuvat arvot missään solulinjassa. Tuloksena sisälsi 99 geenit. Lisäksi perinteisen yhdistyksen testit, Spearman ja Pearson, käytimme kolme koetta, dCov, MIC ja HHG, jotka kykenevät myös havaitsemaan ei-monotoninen suhteita. Yhdistys pidettiin merkittävinä, jos FDR-oikaistu p-arvo oli alle 0,05 käyttäen Benjamini-Hochberg menettely [21]. Out of 4851 pareittain vertailuissa, Pearson tai Spearman havaittu 254 merkitseviä, dCov havaitaan 256, MIC havaittiin 157 ja HHG havaittiin 400 merkitseviä (katso kuvio 1, taulukko 1, S1 kuvassa, ja S1 Taulukko yksityiskohtaiset tulokset). Vertailu kolmen kokeen kykenee havaitsemaan tahansa suhteita, nimittäin dCov, MIC ja HHG, paljasti, että niillä 139 yhteisiä merkittäviä tuloksia. Lisäksi 44 yhdistysten havaittiin merkittävä vain dCov; 11 vain MIC ja 183 vain HHG (S1 kuvio, ylhäällä oikealla). Vertaamalla Pearson ja Spearmanin kanssa dCov ja HHG paljasti, että 29 merkitseviä löydettiin ainoastaan Pearson tai Spearman, vain 10 yksinomaan dCov taas 184 löydettiin ainoastaan HHG (kuvio 1).
MIC suljettiin pois, koska pieni määrä merkittävistä havainnoista säädetään tällä menetelmällä. Alueella Kunkin soikion edustaa useita merkittäviä testejä kunkin menetelmän, ja risteykset (korostaneet eri väriä) edustaa yhteisiä löytöjä. Ilmeisesti Pearson tai Spearman, dCov ja HHG osuus 185 löytöjä; 184 testit olivat merkittäviksi HHG mutta ei Pearson, Spearman tai dCov; 10 testit olivat merkittäviksi dCov eikä Pearson, Spearman tai HHG; 29 testeissä oli merkittävä Pearson tai Spearman mutta ei dCov tai HHG; dCov ja HHG jakaa 26 löytöjä; Pearson tai Spearman ja dCov jakaa 35 löytöjä; ja Pearson tai Spearmanin ja HHG jakaa vain 5 löytöjä.
Niistä useita merkittäviä tilastollisia yhdistysten saapuvat dCov, MIC tai HHG, mutta ei Pearson tai Spearman, numero saapuvat HHG oli poikkeuksellisen suuri. Erityisesti kun taas määrä merkitseviä yhteisiä Pearson tai Spearman ja HHG on 190, Pearsonin ja Spearmanin jäi 210 yhdistysten saapuvat HHG, kun taas HHG jäi vain 64 yhdistysten saapuvat Pearson tai Spearman. Yllä analyysin yhdistimme Pearsonin ja Spearmanin tulokset olivat oikaistu p-arvo alle 0,05 ikään kuin ne muodostaisivat yhden menetelmän, vaikka tämä antaa sitten etu verrattuna muihin menetelmiin. Koska tämä on sitäkin mielenkiintoista, että HHG löytyi 57% enemmän yhdistysten sitten Pearson ja Spearman. Yhteenvetona toteamme, että analyysi perustuu perinteiseen Pearson ja Spearman yhdistys testejä saattaa jäädä huomattavan osan kaikista mahdollisista yhdistysten välillä geenejä.
Osoittaakseen biologinen merkitys yhdistysten havaita HHG otimme tarkemmin klo havaittu liittyvän geenin paria. Yksi esimerkki yhdistyksen löytää vain HHG on assosiaatio geenien LYN ja CTSB (kuvio 2). LYN koodaa ei-reseptori tyrosiini-proteiinikinaasi, säätelijänä monien signaalitransduktioreaktioteiden, kun taas CTSB koodaa katepsiini B, tioliproteaasi osallistuvan solunsisäisen hajoamisen ja vaihtuvuus proteiineja. Ei ole suoraa biologisen vuorovaikutuksen näiden kahden proteiinin välillä ovat tunnettuja, mutta ne molemmat ovat vuorovaikutuksessa suoraan kolmasosa proteiini, sfingosiinikinaasin 1 (SPHK1). SPHK1 katalysoi fosforylaatiota sfingosiini muodostaa sfingosiini-1-fosfaatti (S1P), keskeinen sfingolipidikeramidi signalointi molekyyli osallistuu solujen kasvua, selviytymistä, erilaistumista ja liikkuvuuteen. Vuorovaikutus LYN ja SPHK1 on välttämätöntä aktivointi SPHK1 [22]. Toisaalta, vuorovaikutus Cathespin B ja SPHK1 on osoitettu alas-säädellä SPHK1 tasot
in vivo
[23] ja katkaisevan se
in vitro
[24]. Tämä kokeelliset tiedot osoittavat, että yhdistyksen välillä LYN ja CTSB tunnistaa HHG on todellakin biologisesti relevantti. Lisäksi olemassaolo yhdistyksen välillä CNV on LYN ja CTSB pistettä LYN- SPHK1 ja CTSB- SPHK1 vuorovaikutusten olevan tärkeää syövän synnyn.
Ensimmäinen rivi koostuu kolmesta havaintojen löysi vain Spearman tai Pearson; Toisessa, vain HHG; kolmas, vain dCov; ja neljäs, vain MIC. P-arvot (säätämisen jälkeen useita testaus) merkitään kussakin juoni.
Toinen esimerkki yhdistyksen löytää vain HHG on assosiaatio geenien CDKN1A ja TKT (kuvio 2). CDKN1A koodit CDK-vuorovaikutuksessa proteiini 1 (p21), joka on voimakas sykliiniriippuvainen estäjä, joka säätelee solusyklin etenemistä läpi G1 /S tarkastuspiste. TKT koodit Transketolaasi, keskeinen entsyymi pentoosifosfaattireitin. Yhdistyksen välillä CDKN1A ja TKT havaita HHG heijastaa itse asiassa suhde reittejä näiden kahden geenin kuuluvat. Seuraavat solusyklin etenemisen G1: stä kohti S-vaiheeseen, on ylös-säätely pentoosifosfaattireitin, joka vastaa tuotannosta riboosi-5-fosfaattia (R 5p), tarvitaan nukleotidien synteesissä ja nukleiinihapot [25] . Kaikki geenit edellä olevissa esimerkeissä sijaitsevat eri kromosomeissa tai kaukana toisistaan samassa kromosomissa; joten fyysinen läheisyys voi selittää CNV-pohjainen yhdistyksiä.
tunnistaminen geenien toiminnan monimuuttujamenetelmin yhdistys testejä
Detection yhdistysten parien välillä geenien yhden muuttujan analyysi on hyvä alku kohti johtuvat biologiset tiedot CNV tiedot, kuten yllä. Kuitenkin, kun kyseessä on suuri määrä geenejä, toiminta ja suhde biologista reittien monet geenit ovat usein tuntematon. Löytäminen yhdistyksille tunnettuja geenejä voidaan valaista niiden mahdollisen toiminnon, mutta monimuuttujamenetelmin voisivat tarjota lisää tärkeitä tietoja. Siksi olemme soveltaneet monimuuttujatesteillä riippuvuutta useiden geenien toimintaa ei tunneta meidän aineisto ja tunnettuja reittejä käyttäen dCov ja HHG monimuuttujatesteillä. Erityisesti on 99 geenien meidän aineisto, kaksitoista geenejä ei ole tiedossa toimintoa tai suhteessa biologiseen reittiin (kuvio 3), joka määritetään käyttämällä Kegg polku ([26,27]; https://www.genome.jp/Kegg /työkalu /map_pathway1.html). Havaita niiden yhteenliittymien kanssa tunnettujen polkuja, me ensin osoitettu muulle geenien poluista, jotka perustuvat Kegg koulutusjakson mapper (S2 taulukko), ja sitten valitaan kahdeksan kokeellisesti todistettu biologinen reittejä, jotka sisältävät vähintään viisi geeniä meidän aineisto (kuva 3). Lisäksi apoptoosireittiä, on yksi perus syöpään liittyvät mekanismit, oli mukana tutkimuksessamme vaikka vain kaksi geeniä meidän aineisto on osoitettu sille. Seuraavaksi testasimme yhdistysten keskenään geeni-polku parin joukossa kaksitoista geenejä ja yhdeksän polkuja. Käytimme dCov ja HHG jotka olivat testien käytimme yläpuolella, vain kaksi testiä, joka pystyy Monimuuttuja-analyysissä, so testaus välinen yhteys vektorien (lisätietoja ovat saatavilla Materiaalit ja menetelmät jaksossa). Kaikkiaan 108 testit suoritettiin kukin menetelmä ja testitulosta pidettiin merkittävinä, jos sen FDR-oikaistu p-arvo oli alle 0,05 käyttäen Benjamini-Hochberg menettely [21]. Niistä kaksitoista geenit, kuusi geeniä osoitti merkittävää yhdistysten väyliä (kuva 3A ja S3 taulukko).
paneelit A ja B, geenit (vasemmalla) ja väyliä (oikealla) analysoitiin yhdistyksen HHG ja dCov. Merkitseviä (säätämisen jälkeen useita testaus) yhdistävät viivat: romutti for HHG, pilkullinen varten dCov, ja kiinteät molemmille. A) Merkittävät assosiaatioita geenien kanssa tuntemattoman funktion ja syöpään liittyvät reitit. Yhdistykset saapuvat dCov ja HHG on merkitty. B) Merkittävä assosiaatioita geenien, joiden tiedetään toiminta ja syöpään liittyvät reitit. Vain yhdistysten saapuvat dCov esitetään merkittäviä yhdistyksiä löytyivät HHG.
Kaksi geeniä, LRRC32 ja SPI1-, havaittiin olevan yhteydessä useimpien polkuja, ikään kuin he saattavat olla signaalitransduktion välituotteiden säännellään loppupään tavoitteet kuuluvat näihin reittejä. Nämä havainnot ovat yhtäpitäviä tuloksia yhden muuttujan analyysin, joka merkitsevästi yhteydessä molemmat geenit kanssa seriini /treoniinikinaasi PAK1 ja SPI1- geeni myös HRAS, GTPaasina RAS perhe. Itse asiassa, mukaan Kegg polku mapper PAK1 ja HRAS kuuluvat useimmat reitit, joiden LRRC32 ja SPI1 havaittiin liittyvän. Lisäksi sekä PAK1 ja HRAS osallistuvat transduktion leviämisen signaalit ja niiden miss-asetus johtaa epänormaalin signaalitransduktion ja syöpä [28,29]. Niinpä, kun taas yhden muuttujan analyysiin, voisi löytää yhdistyksen välillä geenien toimintaa ei tunneta ja yksittäisiä geenejä, joiden tiedetään toiminto, edellä monimuuttujamenetelmin voisi huomauttaa niiden yhteenliittymien kanssa biologisia prosesseja.
Neljää jäljelle liittyvät geenit, AFF2, CLCN5, MYCN, ja TCL1A, havaittiin olevan yhteydessä kukin yksi tai kaksi erityistä väyliä viittaa siihen, ne ovat loppupään efektoreina näitä reittejä (katso esimerkkejä alla). Ei esiintynyt eroja kuuden muun geenien ja jokin polkuja.
Monimuuttuja-analyysissä sovellettu edellä geeneihin tuntemattoman funktion, dCov ja HHG löysi vastaavia useita merkittäviä monimuuttujatestausta suhteita, 15 dCov, ja 13 by HHG, kun taas 8 havaittiin molempia menetelmiä. Siksi analyysimme ei ilmennyt selvää näyttöä paremmuudesta yksi menetelmä yli muiden tämän tietyn sovelluksen.
Lisäksi monimuuttujamenetelmin soveltaa geeneihin tuntemattomien rooli syövän, poimimme kaksi geeniä päässä aineisto , PIK3CA ja MSH2, jotka ovat luoneet biologinen toiminta eivätkä kuulu mihinkään kahdeksasta polkuja mukaan Kegg, ja suoritetaan geeni-reitin monimuuttujatesteillä yhdistymis- mukaan dCov ja HHG, samanlaisia kuin suoritetaan edellä geenien toimintaa ei tunneta. Vaikka dCov löytyi 13 merkittäviä tuloksia, HHG löytäneet mitään (kuvio 3B ja S4 taulukko).
yhdistykset, havaitsee dCov, välillä MSH2 ja solusyklin, apoptoosin, fokaalisen adheesion, RAS, WNT ja aktiini reitit ovat johdonmukaisia sen toiminta DNA mismatch korjaus ja sen yhteys solunjakautumisen [31]. Samoin yhdistysten välillä PIK3CA, ja seuraavat reitit: apoptoosin, aktiini, Focal tarttuvuus, FoxO signalointi, T-solureseptorin signalointi, Axon ohjausta ja Wnt (kuvio 3B ja S4 taulukko) tukevat laaja biologinen data [32-35]. Suhde PIK3CA näihin polkuja, sekä sen keskeinen rooli ihmisen syövissä, on seurausta siitä että avainasemassa aktivointi signa- osallistuvien solujen kasvua, selviytymistä, proliferaatiota, liikkuvuuteen eikä rakenteeseen [36]. Ero nykyisen tulokset dCov ja HHG (kuvio 3B) johtuu lineaarinen luonne suhde näiden geenien ja reitit, ja se, että vahvuus HHG on löytää ei-monotoninen suhteita. Esimerkiksi dCov löydettiin merkitsevästi yhteydessä PIK3CA ja Axon ohjauksen kautta. Katse takaisin yhden muuttujan analyysi (S1 taulukko) nähdään, että PIK3CA todettiin olevan merkitsevästi yhteydessä HRAS, joka kuuluu Axon ohjausta koulutusjakson, ja tämä yhdistys havaitsivat myös Pearson tai Spearman. Nämä tulokset osoittavat vahvaa lineaarinen suhde PIK3CA ja HRAS (kuvio 4). Samoin yhdistys saapuvat dCov, mutta ei HHG, välillä MSH2 ja Ras-signalointireitin voidaan selittää merkittävä yhdistys saapuvat Pearson tai Spearman välillä MSH2 ja geenin REL, joka kuuluu tämän reitin (S1 taulukko ja kuvio 4 ). On odotettavissa, että tunnetut suhteet geenien löysi laboratoriomenetelmiä (kuten co-IP) tai bioinformatiikan analyysi suurikapasiteettisten data perustuu klassiseen lineaarinen tai monotoninen suuntautunut menetelmiä voimakkaasti painottunut lineaarinen tai monotoninen suhteita.
sirontakaavioissa of PIK3CA versus HRAS (vasen paneeli) ja MSH2 versus REL (oikea paneeli).
Yhdessä nämä tulokset tarjoavat todisteita konseptin kyky monimuuttujamenetelmin paljastaa biologisesti relevantti geeni -pathway yhdistysten.
keskustelu
tässä työssä sitoutui uudenlainen lähestymistapa koko genomin CNV analyysi, jonka tavoitteena on tunnistamisen yhdistysten välillä CNV erilaisten geenien (CNV-CNV) poikki 60 ihmisen syöpäsolulinjoja. Käytimme moderni yhdistyksen testit voivat havaita epälineaarinen ja ei-monotoninen yhdistysten ja soveltaa niitä univariate asetuksia, vuonna pyritään tunnistamaan geeni-geeni yhdistyksiä. Käytimme myös niitä monimuuttuja asetuksia yrittäessään tunnistaa yhdistyksille geenien toimintaa ei tunneta vakiintuneiden syöpään liittyvien reittejä.
Yhdessä meidän yhden muuttujan analyysi osoittaa, että yhdistysten välillä CNV geenien saapuvat HHG heijastavat todellista biologiset prosessit . Tämä viittaa siihen, että yhden muuttujan analyysin avulla tilastollisia testejä, jotka kohdistuvat vain lineaarinen tai monotoninen yhdistysten voi aiheuttaa monissa biologisesti tärkeitä tutkimustuloksia jäljellä unrevealed. Lisäksi tässä aineisto, paremmuus HHG testin yli muiden kokeiden kykenee havaitsemaan ei-monotoninen suhteet on ilmeinen.
monimuuttuja ympäristössä, erotus erittäin liittyvien geenien (LLRC32 ja SPI1-) ja muut neljä liittyy geenien on esimerkki siitä, miten monimuuttujamenetelmin voi vihjaavat asemaa geenin sisällä polku. Sovelletaan suurempaan aineisto ja yhdistettynä yhden muuttujan analyysiin, tämä analyysi mahdollistaisi vieläkin hienostunut asemointi geenin sisällä polku.
Kuusi geenit eivät yhdistää johonkin polkuja. Tämä voi johtua useista syistä; yksi niistä on rajallinen määrä biologisia reittejä, joiden geenien toimintaa ei tunneta liittyi, seurauksena rajoitettu määrä geenejä (99) täysin CNV tiedot tietokantaan, joita käytetään tässä tutkimuksessa. Toinen syy saattaa olla rajallinen biologiset tiedot raportoitu Kegg, mutta tämä tilanne arvioidaan paranevan merkittävästi lähitulevaisuudessa koska jatkuva kertyminen tietoa systeemibiologian tutkimuksista.
Jos LRRC32 ja SPI1 edellä, yksiulotteista ja monimuuttuja tulokset täydentävät toisiaan näitä geenejä havaittiin liittyvän polkuja, joita monimuuttuja-analyysissä sekä tiettyjä jäseniä näistä reiteistä, että yhden muuttujan analyysin. On kuitenkin tärkeää huomata, että tämä ei ole yleinen sääntö. Koska monimuuttujatesti itsenäisyyden tunnistaa riippuvuutta kahden vektorien, kun taas muuttujan menetelmää vain silmukoita yli paria komponentteja ja testien välinen riippuvuus kunkin parin muuttujia. Siksi on mahdollista saada ei-merkitsevä univariate testeissä mutta merkittävä monimuuttujatesti samasta aineisto. Itse asiassa on olemassa mahdollisuus ei yhdistyksen tahansa kahden yksittäisiä geenejä ja vielä on Monimuuttuja yhdessä koko polku. Tämä voi johtua yhdessä vaikutukset muuttujat monimuuttujatesti. Esimerkiksi AFF2 todettiin olevan merkittävästi liittyvän aksoniohjauksen polku (oikaistu p-arvo = 0,022) mukaan monimuuttujamenetelmin taas mitään merkittävää yhdistysten välillä AFF2 ja jokin geeneistä muodostavien aksoniohjauksen reitin havaittiin, että yhden muuttujan analyysin. Tämä saattaa olla seurausta heikosta assosiaatioita AFF2 ja polku jäseniä, tai vaihtoehtoisesti vuoksi voimakkaan yhdessä koulutusjakso jäsen, joka ei sisälly tietoihin. Joka tapauksessa löysi monimuuttujamenetelmin geeni-koulutusjakson yhdistys ei ole voinut päätellä perusteella yhden muuttujan analyysin tuloksista.
Päinvastaisessa tapauksessa kaksi geeniä, A ja B, saattaa liittyä mukaan univariate analyysi; ei yhdistyksen välillä A-geenin ja koulutusjakson geeni B kuuluu löydetään monimuuttujamenetelmin. Esimerkiksi CLCN5 havaittiin, että yhden muuttujan analyysin liittyvän MET ja BCL2, jotka molemmat kuuluvat Focal tarttumista polku, joka ei liittynyt CLCN5 mukaan monimuuttujatestaus. Monimuuttuja-analyysissä ei paljasta kuitenkaan assosiaatioita CLCN5 ja Axon ohjausta ja RAS väyliä (kuva 3). Molemmat reitit sisältävät MET, ainoa polku jäsen todettu liittyvän CLCN5 jonka yhden muuttujan analyysin. Tällaisia tuloksia odotetaan vuodesta MET on tyrosiinikinaasireseptorin, signaalien välityksestä ulkopuolelta solun, ja täten on aivan alusta monet polkuja, kun taas BCL2 on terminaali proteiini monissa polkuja. Tämä tarkoittaa sitä, että muuttujan yhteydessä niitä ei ole tarpeeksi vahva havaita polku -alueella. Vahvistus, että CLCN5 CNVs jotka liittyvät Axon ohjausta polku tulee havainto, että 65,9% keskushermoston syövät ovat menetettyään yhden tai kaksi kappaletta CLCN5 geenin (COSMOS, [30]).
Nämä esimerkit osoittavat mahdollinen etu monimuuttujatesteillä itsenäisyyden yli univariate testien tavoitteena on löytää suhde geenin ja ryhmä geenejä, kuten polku, tai löytää yhdistyksen kahden ryhmän välillä geenejä (esimerkiksi kaksi väyliä). Yleensä saamiseksi kokonaiskuva, sekä yhdistys testaa tyyppejä olisi sovellettava.
dCov ja HHG testit ovat permutaatio testejä, ja laskenta monia tällaisia testejä voidaan laskennallisesti haastavaa. Jakelu-vapaa univariate testit makua samanlainen HHG äskettäin käyttöön [37]. Nämä testit voivat olla hyödyllisiä vaihtoehtoja HHG testi kun suuri määrä univariate testejä samanaikaisesti tutkitaan.
Yhteenvetona tuloksemme osoittavat: (1) Monimuuttuja-analyysi on erittäin hyödyllinen väline asettaessa biologisia rooleja geeneihin tuntemattoman funktion; (2) Univariate laadut analyysi, eli käyttämällä testejä, jotka tunnistavat kaikenlaisia suhteita, voisi paljastaa monia uusia tärkeitä yhdistyksiä, jota ei voida havaita yhteinen lineaarinen ja monotoninen yhdistys testit; (3) HHG testi päihitti kaikki muut kokeet löytää univariate yhdistysten; Ja mikä tärkeintä, (4) Käyttämällä yhdistelmää monimuuttujatestausta ja univariate yhdistysten testit voivat paljastaa merkittäviä tietoja geeni verkkoja, ja nykytilanteessa noin syöpä-ajo prosesseja.
Materiaalit ja menetelmät
CNV tietokannat
Vertaileva genominen hybridisaatio (CGH) tiedot paneelin 60 ihmisen syöpäsolulinjoissa (NCI-60) saatiin [12,38]. CGH sisältää 349 klooneja. Kun jätetään klooneja, joista puuttuu arvojen ja klooneja tuntemattoman geenin symboleja, meidän analyysi tehtiin joukko 99 CGH klooneja, jotka edustavat 99 geenit. S5 Taulukko sisältää aCGH raakadataa NCI-60.
Univariate analyysi
Association analyysi suoritettiin 99 klooneista perustuu niiden kopiomäärä kussakin 60 solulinjoja NCI-60. Testasimme kaikki mahdolliset pareittain yhdistysten keskuudessa 99 kloonien, tuottaa 4851 paria. Käytimme seuraavat testit riippumattomuuden: (i) testi perustuu Pearsonin korrelaatiokerrointa [39] (ii) testi perustuu Spearmanin korrelaatiokertoimen [40] (iii) etäisyys kovarianssi (dCov) [16,17]; (Iv) maksimaalinen tiedot kerroin (MIC) [18]; ja (v) testi, joka perustuu joukkoon etäisyyksien (HHG) [19]. Jokaisen menetelmän sopeutimme monimuuttujille mukaan FDR on Benjamini ja Hochberg [21], ja testin tulos katsottiin merkittäväksi, jos sen oikaistun p-arvo oli pienempi tai yhtä suuri 0.05.
Seuraavassa tarjoamme yhteenveto testeistä. Oletetaan olemme
N
riippumattomat havainnot (
X
i
,
Y
i
),
i
= 1, …,
N
, liitoksesta jakelusta (
X
,
Y
),
X
Y
∈
R
ja tavoitteenamme on testata, onko suhde
X
ja
Y
.
i. Pearsonin korrelaatiokerrointa.
Näyte Pearsonin korrelaatiokerrointa, merkitään
r
p
, on givenwhere ja on määritelty samalla perustuu
Y
1, …,
Y
N
. Arvo
r
p
on välillä -1 ja 1.
r
p
on 1 tai -1 vastaa tietojen pistettä makaa täsmälleen samalla suoralla. Arvo 0 tarkoittaa, että ei ole lineaarinen korrelaatio
X
ja
Y
. Jos (
X
,
Y
) noudattaa bivariate normaalijakaumaa, alle nollahypoteesi ole lineaarista suhdetta
X
ja
Y
(ts todellinen korrelaatiokerroin on yhtä kuin 0), seuraa opiskelijan
t
jakaumasta
n
– 2 vapausastetta [39]. Tämä Opiskelijan
t
jakelu omistaa myös noin, jos jakelu (
X
,
Y
) ei ole normaalia, mutta otos on riittävän suuri. Me soveltanut tätä funktiolla cor.test parametrin menetelmällä = ’Pearson’ pakettiin
tilastot
R (https://www.r-project.org).
ii. Spearmanin korrelaatiokerroin.
Spearman korrelaatiokerroin, merkitään
r
s
, on määritelty samalla tavalla
r
p
vaan käyttää havaitut arvot riveissään käytetään [40]. Mikäli sidottu arvojen, sijoitus vastaa keskiarvoa asemiaan nousevaan järjestykseen arvot on määritetty. Arvo 1 tai -1
r
s
vastaa tapausta, jossa
X
ja
Y
ovat täydellisiä monotoninen toimintoja toisistaan. Alle nollahypoteesi mitään yksitoikkoinen suhde muuttujien ja suuri otoskoko, seuraa opiskelijan
t
jakaumasta
N
– 2 vapausastetta [40]. Me soveltanut tätä funktiolla cor.test parametrin menetelmällä = ’Spearman’ pakettiin
tilastot
R (https://www.r-project.org).
iii. DCov testi.
etäisyyden kovarianssi testi [16,17] käyttää kaikki pareittain Euklidinen etäisyydet
ij
= |
X