PLoS ONE: vertailu Pathway Analysis Lähestymisvritykset käyttäminen keuhkosyövän GWAS Data Sets
tiivistelmä
Pathway analyysi on ehdotettu täydennyksenä yhden SNP analyysit GWAS. Tutkimuksessa verrattiin polku analyysimenetelmiä käyttäen kahta keuhkosyöpä GWAS tietokokonaisuuksia perustuu neljään tutkimuksiin: yksi yhdistetty tietokokonaisuus Keski-Euroopasta ja Toronto (CETO); toinen yhdistetyn tietokokonaisuus Saksasta ja MD Anderson (GRMD). Haimme kirjallisuudessa reitin analyysimenetelmiä käytetään laajasti edustava muita menetelmiä, ja oli saatavilla ohjelmistojen suorittamiseen analyysiä. Valitsimme ohjelmia EASE, joka käyttää muutettu Fishers Exact laskutoimitusta testi koulutusjakson yhdistysten GenGen (versio Gene Set Enrichment Analysis (GSEA)), joka käyttää Kolmogorov-Smirnov-kuin juoksu summa tilastollinen kuin testin tilastollinen, ja slat, joka käyttää p-arvo yhdistelmä lähestymistapa. Olemme myös muokatun version SUMSTAT menetelmä (mSUMSTAT), joka testaa assosiointia keskiarvoistamalla χ
2 tilastoja genotyypin yhdistys testeissä. Oli lähes 18000 geenejä analysoitaviksi, seuraava kartoitus yli 300000 SNP jokaisesta datajoukko. Näitä kartoitettiin 421 GO tasolle 4-geenin sarjaa varten reitin analyysiä. Niistä menetelmät suunniteltu kestäväksi ja harhat liittyvän geenin koon ja reitin SNP korrelaatio (GenGen, mSUMSTAT ja slat), The mSUMSTAT lähestymistapa tunnistaa merkittävimmät reitit (8 CETO ja 1 GRMD). Tähän sisältyi erittäin uskottavalta yhdistys asetyylikoliinireseptoriaktiivisuutta aktiivisuutta reitin molemmissa CETO (FDR≤0.001) ja GRMD (FDR = 0,009), vaikka kaksi vahvaa yhdistys signaaleja yhden geenin klusterin (
CHRNA3-CHRNA5-CHRNB4
) ajaa tätä tulosta, mikä vaikeuttaa sen tulkintaa. Harvat muut Replikoidun yhdistysten todettiin käyttäen mitä tahansa näistä menetelmistä. Vaikeus jäljittelevän yhdistysten haitannut meidän vertailun, mutta tulokset viittaavat mSUMSTAT on etuja verrattuna muihin lähestymistapoihin, ja se voi olla hyödyllinen polku analyysin työkalu käyttää yhdessä muiden menetelmien, kuten yleisesti käytetty GSEA (GenGen) lähestymistapa.
Citation : Fehringer G, Liu G, Briollais L, Brennan P, Amos CI, Spitz MR, et al. (2012) vertailu Pathway Analysis Lähestymisvritykset käyttäminen keuhkosyövän GWAS Tietojoukot. PLoS ONE 7 (2): e31816. doi: 10,1371 /journal.pone.0031816
Editor: Zhongming Zhao, Vanderbilt University Medical Center, Yhdysvallat
vastaanotettu: 27 heinäkuu 2011; Hyväksytty: 13 tammikuu 2012; Julkaistu: 21 helmikuu 2012
Copyright: © 2012 Fehringer et al. Tämä on avoin pääsy artikkeli jaettu ehdoilla Creative Commons Nimeä lisenssi, joka sallii rajoittamattoman käytön, jakelun ja lisääntymiselle millä tahansa välineellä edellyttäen, että alkuperäinen kirjoittaja ja lähde hyvitetään.
Rahoitus: Tämä tutkimus tukee Kanadan Cancer Society (myönnä. 020214), The CCO Chair in Population Studies, CCO Chair in Experimental Therapeutics, Alan Brown Chair Molecular Genomics, ja National Institute of Health (U19 CA148127-01). Rahoittajat ollut mitään roolia tutkimuksen suunnittelu, tiedonkeruu ja analyysi, päätös julkaista tai valmistamista käsikirjoituksen.
Kilpailevat edut: Kirjoittajat ovat ilmoittaneet, etteivät ole kilpailevia intressejä ole.
Johdanto
Genome laajuinen yhdistys tutkimukset (GWAS) tutkia yhdistyksen satojatuhansia geneettisiä variantteja, joilla sairaus tai muiden fenotyyppejä. Nämä tutkimukset ovat onnistuneesti tunnistettu assosiaatiot geneettisiä variantteja ja tuloksista, kuten assosiaatioita SNP on 15q25 ja 5p alueen ja keuhkosyövän riskiä [1], [2], [3], [4], [5], [6] . GWAS keuhkosyövän ja muita sairauksia yleensä tunnistaa vain muutama SNP: itä, jotka liittyvät tautiin, ja nämä on yleensä pieni vaikutus kokoja. Esimerkiksi per alleeli riskisuhde vaihtoehdot, sotkea tiiniasetyylikoliinireseptoria geenien 15q25 keuhkosyöpä riski on noin 1,3 [1], [2], [5]. SNP kanssa heikompia vaikutuksia voidaan menettää annetaan tiukat vaatimukset tarvitaan säätö monimuuttujille.
Pathway analyysi on ehdotettu täydentävä lähestymistapa yhden SNP analyysit GWAS. Pathway analyysiryhmille geenejä, jotka liittyvät biologisesti ja testaa, onko nämä geeni ryhmät liittyvät lopputulokseen. Vaikka tulos liittyy vaihtelua monissa geenit voivat olla liian pieniä havaita GWAS käyttämällä yksittäisiä SNP-analyysi, yhdistysten voidaan havaita yhteisvaikutus monien heikompien signaalien geenejä jaettu väylä perustuu yhteisiin biologinen funktio. Muita etuja tämän lähestymistavan ovat tuntuvat useiden testaus taakkaa kun geenit on ryhmitelty väyliä yhdistyksen testaus [7] ja sisällyttäminen biologisen tiedon osaksi analyysiä, jota ei ole otettu huomioon GWAS.
määrä kehitettyjä menetelmiä polun analyysiä kasvaa edelleen. Monet on-line ohjelmat tarjoavat yksinkertaisen geeniperimä rikastamiseen lähestymistapa, joka käyttää jonkinlaista Fisherin tarkka testi määrittää yliedustettuina geenien polun. Yleisesti geeni on osoitettu P-arvo (yleensä saatu SNP voimakkaimmin liittyy lopputulokseen geenin) ja mielivaltaisen cut-off (esim P≤0.05) käytetään erillistä geenejä voimakkaasti yhteydessä lopputulos muiden geenien . Fishers Exact laskelma käytetään sitten testata sisällä reitin rikastamista geenien liittyy voimakkaasti lopputulokseen. Tämä lähestymistapa ei ota huomioon kytkentäepätasapaino- kuviot kesken SNP eri geenien kautta. Samoin se voi yliarvioida merkitys reitit suuret geenien (eli monia SNP), koska valitsemalla merkittävin SNP kun on monia SNP yhdellä geeni on todennäköisesti löytää vahvan yhteyden geeni ja toteutumaan mahdollisuus [8], [9].
suosittu GSEA lähestymistapa käyttää yleensä SNP voimakkaimmin liittyy lopputulokseen jokaisessa geeni edustaa geeniä-tuloksen yhdistyksiä. Joissakin toteutuksissa ottaa huomioon kytkentäepätasapaino- keskuudessa SNP ja geeni koko bias suorittamalla fenotyyppiä (tapaus-valvonta-asema) muunnelmia ja käyttämällä normalisointi rutiinit. Geenit ensin paremmuusjärjestykseen koosta testin tilastot yhdessä lopputulokseen. Kolmogorov-Smirnov-kuin juoksu summa tilastoa käytetään sitten testata rikastumista korkealle rankattu geenien reittejä, vertaamalla polku testin tilastollinen sen null jakeluun määritettynä fenotyyppi permutaatiot [9], [10]. Muut lähestymistavat, esimerkiksi SUMSTAT lähestymistapa, joka käyttää summa χ
2 tilastoista määritetty geenejä väylän Testimuuttuja [11], voidaan sovittaa käyttämään fenotyyppiin permutaatioiden ja normalisointi menetelmiä. Vaihtoehtoja näille geenin asettaa rikastamiseen lähestymistavat, kuten menetelmiä yhdistämällä P-arvot (samanlainen kuin meta-analyysit), on myös ehdotettu reitin analyysiä. Jotkut näistä, sisältävät menetelmiä, joiden osuus on mahdollinen harha liittyvää geeniä koon tai korrelaatio SNP [12], [13].
Me vertailla neljän koulutusjakson analyysimenetelmiä. Näitä ovat yksinkertaisen geenin rikastus lähestymistapaa EASE, joka laskee modifioitu Fishers Exact todennäköisyys [14], GSEA (käyttäen GenGen ohjelma) [9], [10], modifioitu SUMSTAT lähestymistapaa, ja slat, P-arvo yhdistelmä lähestymistapa [12]. Ensimmäinen menetelmä on tyypillinen varhainen yksinkertaisempia lähestymistapoja, jotka käyttävät Fisherin tarkka testi, kun taas toiset, kuten edellä esitettiin, ovat kehittyneempiä ja suunniteltu käsittelemään harhat liittyvän geenin koon ja kytkentäepätasapaino- keskuudessa SNP. Me vertailemaan ja analyysitulokset käyttämällä näitä menetelmiä kahdella keuhkosyöpä GWAS aineistoja.
Materiaalit ja menetelmät
Näytteitä
Data käytettiin tapaus-control GWAS of keuhkosyövän riskiä. Näihin sisältyvät keuhkosyöpää ja valvonta Keski-Euroopassa [2], Toronto [2] ja Saksa (HGF tutkimus) [15], [16] ja ei-pienisoluinen keuhkosyöpä tapausten ja kontrollien Texas (MD Anderson Cancer Center) [ ,,,0],1]. Genotyypitys suoritettiin käyttäen joko Illumina HumanHap300 tai HumanHap550 pelimerkkejä. Tiedot neljästä tutkimuksista yhdistettiin kaksi tiedostoa: 1) Keski-Euroopassa ja Toronto (CETO); ja 2) Saksa ja Texas (GRMD), jotta päästään riittävän otoskoko ja tilastollinen voima havaita yhdistyksille reitin analyysit. Valinta josta data asettaa yhdistämään todettiin pääasiassa pyritty varmistamaan samanlainen näyte koot kaksi erillistä määritystä. Taulukko 1 saa lisätietoja liittyvät näihin tutkimuksiin.
valinta koulutusjakson analyysimenetelmien
Pathway analyysimenetelmiä tunnistettiin kirjallisuuskatsaus. Menetelmät toteutetaan ohjelmissa EASE [14], GenGen (kehitetty GSEA) [9], [10], ja slat [12] valittiin, koska ne olivat laajalti käytetty ja /tai edustaja muiden koulutusjakson analyysi lähestymistapoja. Valitsimme SUMSTAT perustuva menetelmä raportti, se oli ylivoimainen voima havaita koulutusjakson yhdistyksille kuin GSEA tai Fishers Tarkat menetelmät [11]. Tämän menetelmän in-house SAS ohjelma on kehitetty. Menetelmät kuvataan tässä lyhyesti, tiedot on annetaan alkuperäisessä julkaisuissa.
kuvaus geeniperimä analyysimenetelmien
Lukuun ottamatta siivekkeen, koulutusjakson analyysi Tässä kuvatut menetelmät vaativat tehtävän testin tilastollinen (tai P-arvo) kullekin geeni edustaa sen yhdessä lopputulokseen. Käytimme yleinen käytäntö osoitetaan kunkin geenin merkittävimmät testin tilastollinen kaikkien SNP yhdistysten testit geenin [8], [9].
Input helpottamiseksi edellyttää, että geenit merkitsevästi liittyvä tulos erotetaan kaikista muita geenejä, käyttäen ennalta määrättyä cut-off (esim P≤0.05). Rikastamiseen merkittäviä geenejä kussakin reitin sitten testataan käyttämällä EASE pisteet, modifioitu Fishers Exact todennäköisyys edustaa ylärajana jackknife Fisherin tarkka todennäköisyydet. Global FDR lasketaan tilille useiden vertailujen [14].
GenGen on mukautettu Gene Set Enrichment Analysis (GSEA), käytetään alunperin mikrosiruanalyysi [17]. Geenit ryhmitellään alenevassa järjestyksessä koon mukaan alkuperäisen yhdistyksen tilastotieto. Painotettu Kolmogorov-Smirnov-kuin juoksu summa tilaston jälkeen lasketaan joka heijastaa jopa edustus arvokkaampi geenien polku geenissä luetteloon. Paino saa arvot SNP testisuureen edustaa geenejä luettelossa. Normalisoitu rikastus tilasto (NER) lasketaan Havaintojen seurasi fenotyypin permutaatioista jotka antavat permutoitua NER-arvot, luo null jakelu, josta polku yhdistys P-arvot määritetään. FDR käytetään aiheutua moninkertaisia vertailuja [9].
modifioitu SUMSTAT (mSUMSTAT) lähestymistapa, että olemme kehittäneet, on muokattu Tintle et al. [11]. Lähestymistapa on samanlainen kuin vuonna GenGen mutta koulutusjakson testin tilastollinen lasketaan keskiarvo χ
2 testisuureen kunkin reitin. Yhtälö esitetään laskemista normalisoitu keskiarvo havaittu χ
2 tilastotieto, missä S viittaa tiettyyn geeniperimä ja π tarkoittaa permutaatio. Normalisoitu vuorotella tilastoa lasketaan samalla tavalla.
p-arvo määritetään vertaamalla normalisoitu keskiarvo χ
2 tilastotieto normalisoitua permutoitua tarkoittaa χ
2 tilastoista [18] ja FDR lasketaan Wang et ai. [9]. Tämä menetelmä poikkeaa kuin Tintle et al., [11] laskennan kautta normalisoitu Testimuuttuja, ja käyttö fenotyypin permutaatioista sijaan satunnaisesti valitun geenin asettaa määrittää nolla jakeluun.
siivekkeen Ohjelma laskee P-arvot yhdistys SNP kanssa tulos määrätyn reitin (kuten tässä tutkimuksessa), geeni tai alue. P-arvot päästäisiin tietyn kynnyksen yhdistetään Testimuuttuja. Tilastollinen lasketaan havaittujen ja fenotyypin vuorotella data, jolla voidaan määrittää polun P-arvo [12]. Mikään tietty tapa säätää monimuuttujille tarjoaa kirjoittajat. (Käytimme Benjamini-Hochberg korjauksen laskemiseksi FDR tämän menetelmän).
Analyysi details
SNP jätettiin kun P-arvo HWE kontrolleissa oli ≤0.001 (yhdenmukainen aiempien polku analyysitutkimuksia [9], [11]), vähäinen alleelin frekvenssi oli 1%, ja genotyyppi puuttui 5% ihmisistä. Lisäksi SNP siitä HumanHap550 siru, joka käytettiin Saksan GWAS jätettiin jos laite ei ollut vastaavaa SNP MD Anderson (tutkimus, jolla saksalainen GWAS tiedot yhdistettiin) .Subjects sukupuolen poikkeavuudet (perustuen heterotsygotiamäärä kromosomissa X ) ja ne, joilla 10% puuttuu SNP jätettiin pois.
Ehdoton logistista regressiota käyttäen Plink 1,05 [19] syntyy alleeliset χ
2 arvot SNP kunkin datasarjan, CETO ja GRMD, käytettäväksi ohjelmiin EASE, GenGen ja mSUMSTAT. Permutoitu SNP yhdistys tulokset saatiin aikaan varten GenGen ja mSUMSTAT käyttäen 1000 logistista regressiota juoksee tapaus-verrokki asema arvotaan uudestaan kussakin ajossa. Logistinen regressio analyysit oikaistiin sukupuolen, iän ja alkuperämaa. Siivekkeen ohjelma suorittaa oman SNP yhdistys testejä sen reitin analyysi, joka ei sisällä säätö kovariaatit.
SNP: t jaettiin geenin, jos ne olivat 20 kb geenin. SNP geeni- yhdistää tiedoston ja GO taso 4 koulutusjakson tietokantatiedostoa, molemmat saatu GenGen kotisivuilta, käytettiin yhdistää SNP, geenejä ja polkuja. Vain väyliä kanssa 15-200 geenit sisällytettiin kokeiden välttämiseksi liian suuri tai pieni GO väyliä [6]. Χ
2 merkittävimpiä SNP on geeni osoitettu, että geeni. Tämä χ
2 tilastoa käytettiin määrittää raja-arvo P≤0.05 tunnistamiseksi voimakkaasti liittyvien geenien analysoitavaksi helposti. Sama χ
2 tilastoa käytettiin laskettaessa koulutusjakson testin tilastot GenGen ja mSUMSTAT. Kaikki SNP kussakin geeniä käytettiin hyväksi laskemisessa reitin P-arvot slat.
vaikutus geenin koon koulutusjakson sijoitusta neljän reitin analyysimenetelmiä tutkittiin käyttäen lineaarista regressioanalyysiä (SAS 9.2: SAS Institute Inc., Cary, North Carolina). Mediaani geeni koko (mediaani määrä SNP per geeni) laskettiin kullekin top polku ja sisällytetty, koska tulosmuuttujana malli, jossa polku analyysimenetelmä (käsitellään kategorisena muuttujana ja koodattu neljään osoitinmuuttujia) on tärkein vaikutus ja määrä geenit per polku mukana mahdollisena sekoitin.
tulokset
taulukossa 2 esitetään joukko merkittäviä väyliä tunnistetaan neljän reitin analyysimenetelmiä CETO ja GRMD käyttäen FDR on ≤0.05 kriteerinä määrittämään tilastollista merkittävyyttä. EASE tunnistettu 10 reittejä kuten liittyy keuhkosyövän riskiä kaksi tiedostoa, 7 CETO, 5 GRMD, jossa on kaksi merkittävää väyliä yhteisiä molemmille aineistoja. MSUMSTAT menetelmä tunnistettu 8 polkuja merkittäviksi, 8 CETO, 1 GRMD yksi on yhteinen molemmille aineistoja. Slat tunnistettu viisi reittejä merkittävinä, kolme GRMD ja kaksi CETO.
Koska EASE tunnistettu 10 merkittävää väyliä, enemmän kuin muut menetelmät, Taulukko 3 esittää top 10 reittejä tunnistettu CETO ja GRMD by kaikki koulutusjakson analyysimenetelmien (otettu luetteloista, joka sisältää tuloksia sekä aineistoja). FDR of ≤0.05 kummassakin aineistoja käytettiin kriteerit monistaa tuloksen. Toimittaminen hermoimpulssin ja Ras guanyyli nukleotidin vaihdon tekijöitä reittejä tunnistettiin helppous liittyy keuhkosyöpä CETO ja GRMD (taulukko 3). Asetyylikoliinireseptoriaktiivisuutta aktiivisuus reitin tunnistettiin liittyy keuhkosyöpä CETO ja GRMD mukaan mSUMSTAT. Tämä polku sisältää
CHRNA3-CHRNA5-CHRNB4
geeni klusterin 15q25, jossa GWAS ovat tunnistaneet useita SNP liittyy keuhkosyövän riskiä [1], [2], [5]. Tämä polku oli korkein sijoitus väylän CETO käyttäen GenGen menetelmää (FDR = 0,19) (taulukko 3). Vuonna GRMD, tämän reitin sijoittui 16
th joukossa kaikki keinot (ei esitetty) GenGen. FDR oli 0,43, mutta se oli mukana nimellisesti merkittävästi P-arvo (P = 0,004). Muita merkittäviä polku yhdistysten CETO oli vastaava nimellisesti merkittävästi P-arvot GRMD, erityisesti: Hemi aineenvaihduntaa, porfyriinin aineenvaihduntaa, pigmentti biosynteettisiä prosessi, ja 4 rautaa, 4 rikki klusterin sitova käyttäen mSUMSTAT; ja LDL-sitova avulla helposti. Siivekkeen tunnistettu säätely solujen maahanmuuton merkittävästi liittyy keuhkosyövän GRMD, ja vastaava nimellisesti merkittävä P-arvo CETO (taulukko 3).
Muut kuin tiiniasetyylikoliinireseptoria toimintaa koulutusjakson, joka tunnistettiin sekä mSUMSTAT ja GenGen kuin ylhäältä koulutusjakson oli muutamia alkuun reittejä tunnistaa useampi kuin yksi menetelmä. Kloridi-ioni sitova liittyi riski CETO mukaan helposti ja GenGen. Komplementtiaktivaatioon-klassisen reitin liittyi keuhkosyövän riskiä CETO mukaan GenGen, mSUMSTAT ja slat. Hemi aineenvaihduntaa todettiin liittyvän riskin CETO mukaan GenGen ja mSUMSTAT. Kromatiinin kokoonpano liittyi keuhkosyövän riskiä CETO mukaan mSUMSTAT ja slat. Interleukiini-2 biosynteettistä prosessi todettiin liittyvän riskin helposti ja GenGen in GRMD. Asetus solumigraation liittyi riski GRMD mukaan helposti ja siivekkeen (taulukko 3). Anion liikenne tunnistettiin alkuun-reitin mSUMSTAT mutta 35 102 geenien tämän reitin sisällytettiin kloridi-ionin sitovan reitin (64 geenit), tunnistettiin alkuun koulutusjakson vaivattomuus ja GenGEN (geeni numero väyliä laskettava SNP kartoitus) . Samoin 16 18 geenien interleukiini 2 polku (EASE) sisältyvät joukkoon 65 geenien sytokiini metaboliareitti (GenGen). Muut alkuun reittejä tunnistaa eri menetelmiä jaetun geenit mutta päällekkäisyys oli 12% tai vähemmän perustuu yhteisiin geenien Suurempaan väyliä (esim 20 50 positiivinen säätely fosforin reitin geenien (GenGen) sisältyvät kasvutekijän aineenvaihduntaa polku (slat), joka on 165 geenejä).
EASE valitseman väyliä enemmän geenin koko (määritetty käyttämällä mediaani määrä SNP per geeni) kuin muut menetelmät. Keskimääräinen geeni koko alkuun EASE reittejä esitetään taulukossa 3 oli 12,2 SNP per geeni, kun taas paras keskimääräinen polku geenin koko oli 8,4 for GenGen, 7.4 mSUMSTAT, ja 8.7 varten slat. Regressioanalyysi, jossa polku analyysimenetelmä oli koodattu neljään osoitinmuuttujia, tuotti tilastollisesti merkitsevä assosiaatio EASE menetelmä ja geenin koko (P = 0,02).
Koska kaksi tapaa tunnistaa tiiniasetyylikoliinireseptoria toimintaa ylhäältä polku me tarkastellut yhdistys tarkemmin. SNP lähellä
CHRNA3
–
CHRNA5
–
CHRNB4
geeni klusterin vahvassa assosiaatioita keuhkosyövän riskiä, ovat vahvoja LD, ja on päällekkäisyyttä joukossa SNP testisuureen osoitettu näiden geenien (eli testin tilastot samasta SNP nimettiin sekä
CHRNA5
ja
CHRNA3
). Näitä reitin ominaisuudet voivat bias polku yhdistyksen signaalit [20], [21] Sen arvioimiseksi, onko polku analyysi käyttää yksi ainoa liittyvä geeni tai geeni klusterin, tutkimme vaikutus poistamalla
CHRNA5
geenin (jossa otaksuttu syy variantti sijaitsee) ja koko geeni klusterin analyyseistä käyttäen mSUMSTAT ja GenGen. Poistaminen
CHRNA5
ollut vaikutusta mSUMSTAT tuloksia CETO (
CHRNA5
: P = 0,001, FDR≤0.001) mutta FDR laski selvästi alle 0,05 merkitsevyystasolla in GRMD (
CHRNA5
: P = 0.002, FDR = 0,37). Poistaminen
CHRNA5
päässä GenGen analyysi johti pienentyneeseen vahvuus yhdistys CETO (P = 0,003, FDR = 0,48), mutta käytännössä mitään muutosta GRMD (P = 0,01, FDR = 0,41). Kuitenkin poistaminen koko geenin klusterin johti vähentämiseksi merkittävästi FDR ja menetys merkitys kaksi tiedostoa sekä reitin analyysimenetelmien (mSUMSTAT ilman CHRNA3-CHRNA5-CHRNB4: CETO: P = 0,19, FDR = 0.56 GRMD: P = 0,71, FDR = 0,82; GenGen ilman CHRNA3-CHRNA5-CHRNB4 CETO: P = 0,11, FDR = 1.00 GRMD: P = 0,32, FDR = 0,76).
tutkia edelleen yhdistyksen tämän reitin kanssa riski kuvaajat kertoimet suhdeluvut ja 95% luotettavuusrajat asetyylikoliinin reseptorin reitin SNP ja geenien tuottamat ehdoton logistinen regressio analyysejä. Kuvio 1A esittää kertoimet suhteet erityisiä SNP: siirretty geenejä (eli merkittävin SNP kullekin geenille) varten CETO analyysi ja vertailun, kertoimet suhteet näiden samojen SNP: for GRMD. Lisäksi SNP
CHRNA3-CHRNA5-CHRNB4
geeni klusterin, SNP osoitteessa
CHRNA2
osoitti nimellisesti merkittävää yhteyttä riski sekä tietokokonaisuuksien (CETO: P = 0,012; GRMD: P = 0.022). Kuvio 1B esittää kertoimet suhdeluvut merkittävin SNP kullekin geeniä joko tietokokonaisuutta (ts todellinen SNP käytetään reitin analysoidaan kahdessa aineistoja). Muita nimellisesti merkitseviä löydettiin
CHRM3
(CETO: P = 0,003; GRMD: P = 0,028),
CHRNA7
(CETO: P = 0,016; GRMD: P = 0,009), ja
CHRNA4
(CETO: P = 0,012; GRMD: P = 0,038) molemmissa aineistoja. Kaikkiaan 6 8 liittyvien geenien riskin CETO liittyi riski GRMD, tuloksena odotettua suurempi sattumalta tietty määrä SNP kunkin geenin.
A) merkittävimmät SNP kunkin geenin käytetyt Keski-Euroopassa-Toronto analyysi ja kertoimet tunnusluvut samasta SNP: Saksan MD Anderson); B) merkittävimmät SNP kullekin geeniä joko tietokokonaisuutta (ts todellinen SNP käytetään reitin analysoidaan kahdessa aineistoja). Kromosomiluku (Chr) ja geenien molempien kuvaajien näkyvät vasemmalla. (Keski-Eurooppa – Toronto SNP: Tasaisesti täytetyn, Saksa MD Anderson vastaa SNP: Ei täyttöä; Saksa MD Anderson top SNP (eroaa Keski-Euroopan-Toronto): harmaa täyttö). A) Viite alleeli sama kummassakin Keski-Euroopassa-Toronto ja Saksassa-MD Anderson mutta päättänyt näyttää positiivinen yhteys Keski-Euroopan-Toronto. B) Viite alleeli valitaan aina osoittaa positiivinen yhteys.
CHRNA5
on suljettu pois SNP: t ovat identtisiä edustavien
CHRNA3
. Kertoimet tunnusluvut oikaistu iän, sukupuolen ja maan tutkimus.
Keskustelu
neljä reitin analyysimenetelmiä verrattiin käyttäen kunkin testata yhdistys GO tason 4 polkuja keuhkosyöpään riskiä kaksi keuhkosyöpä GWAS aineistoja. Menetelmät verrattuna sisältyi neljä geeniä asetettu rikastamiseen lähestymistapoja, EASE, GenGen, mSUMSTAT ja p-arvo yhdistelmä lähestymistapa, slat. Kun tulokset vakioitiin monimuuttujille käyttäen FDR on pienempi tai yhtä suuri kuin 0,05, koska kriteeri merkittävää yhteyttä, EASE ja mSUMSTAT tunnistettu enemmän reittejä liittyvän keuhkosyövän riskiä yli kaksi aineistot (10 ja 8 vastaavasti) kuin GenGen (no reittejä ), tai siivekkeen (5 reittejä). EASE ja mSUMSTAT tunnistettiin myös polkuja, jotka liittyivät merkittävästi riskiä sekä aineistoja: hermo impulssin ja Ras guanyyli nukleotidin vaihdon kerroin EASE; ja asetyylikoliinin reseptorin aktiivisuus-reitin mSUMSTAT. Oli rajoitettu yksimielisiä eri menetelmien tunnistamisessa sijoilla polkuja. Vertaamalla geenit parhaimmilla reittejä valitsema kukin menetelmä osoitti vain vaatimaton verran päällekkäisyyttä.
Verrattaessa koulutusjakson analyysimenetelmiä, tutkimme, onko määrä SNP kohden geenin väyliä vaikuttanut valintaan top polkuja. Tulokset osoittivat EASE, jonka tunnuksena top polkuja, jossa on huomattavasti suurempi mediaani määrä SNP kohti geenin kuin muut menetelmät. Tämä tulos ei ole odottamatonta. Kaikkien geeni asetetaan rikastusmenetelmiä käytimme yhteistä lähestymistapaa määrittämällä merkittävimmistä SNP edustamaan kutakin geeniä. Geenit enemmän SNP, yleensä suuria geenejä, ovat todennäköisemmin määritetty SNP on korkea yhdistyksen tilastotieto, mikä voi johtaa yli arviointiin merkitys polkuja suuret geenejä (geeni koko bias) [8], [9]. Myönnämme, että suuri geenit saattavat todennäköisemmin satamaan useita muunnoksia, jotka ovat todella liittyy tulokseen, mutta meidän kommentit keskittyy tilastollisten ominaisuuksien menetelmistä, erityisesti mahdollisuuksia vääriä positiivisia johtuvat geenistä koko bias. EASE, joka käyttää suhteellisen yksinkertainen lähestymistapa perustuu Fisherin tarkka testi, on altis tämän bias. Normalisointi rutiinit ja fenotyypin muunnelmia sisällytetään GenGen ja mSUMSTAT suojautua tätä harhaa [6], [22]. Siivekkeen on suojattu myös tätä harhaa, koska se käyttää kaikki SNP koulutusjakson analyysi ja sisältää fenotyypin laahustavat rutiini [12]. Mitä enemmän Järeä GenGen, mSUMSTAT ja slat tarjoaa lisäetuja, koska nämä menetelmät muodostavat korrelaatio SNP sisällä polkuja.
Kriittinen tekijä tässä vertailussa oli käyttöä replikaation top polkuja poikki CETO ja GRMD auttaa arvioimaan suhteellinen suorituskyky näitä menetelmiä. Kuitenkin perustuu FDR on ≤0.05, muutaman jäljitellä yhdistysten löytynyt. Puute tutkimuksen teho voidaan osittain selittää pieni määrä jäljitellä yhdistysten. Erityisesti GRMD (tapaukset = 1639, valvonta = 1618) on saattanut olla riittämätön otoskoko havaitsemaan yhdistysten löytyy CETO (tapauksissa = 2258, valvonta = 3027). Heterogeenisyys välillä tietokokonaisuudet ehkä voinut vaikuttaa pieni määrä monistaa yhdistysten, kuten Saksan näyte oli rajoitettu oppiaineluettelon ikä 50, ja MD Anderson GWAS sisältyy aina vain tupakoitsijoita. Siksi GRMD aiheita olivat nuorempia ja oli suurempi osuus koskaan tupakoitsijat verrattuna CETO aiheista.
Kolmesta menetelmillä (GenGen, mSUMSTAT ja slat), jotka ovat kestäviä vastaan geeni koko bias vain mSUMSTAT tunnistettu Replikoidun -alueella. Tämä oli asetyylikoliinireseptoriaktiivisuutta aktiivisuuden kautta. Yhdistyksen tämän reitin kanssa riski ei ole odottamatonta useita SNP tai lähellä
CHRNA3
–
CHRNA5
–
CHRNB4
geeni klusterin liittyvät sekä keuhkosyövän riskiä [ ,,,0],1], [2], [5] ja nikotiiniriippuvuuden [5], [23], [24]. On kiinnostava että GenGen menetelmä havaitsi tiiniasetyylikoliinireseptoria toimintaa kuin sijoilla väylän CETO ja yksi korkealle rankattu reittejä GRMD, vaikka tulos ei ollut merkittävää kummassakaan tietokokonaisuus korjaamisen jälkeen monimuuttujille käyttävät FDR. Toteamme, että yhdistysten löytynyt tämän reitin johtui
CHRNA3
–
CHRNA5
–
CHRNB4
geeniklusterin, mistä on osoituksena dramaattinen väheneminen vahvuus yhdistyksen ( mukaan FDR) havaittiin sekä mSUMSTAT ja GenGen menetelmiä kun tietoja analysoitiin uudelleen näiden kolmen geenin pois polku. Tämä saattaa vaikeuttaa tulkintaa havaitun yhdistyksen ihannetapauksessa, merkittävät reittejä ei pitäisi tunnistaa signaalin, joka voisi lopulta edustaa yhden geenin tai variantti [20], [21] Korostamme kuitenkin, että on olemassa kaksi itsenäistä riskejä loci tällä alueella [25], ja tällä hetkellä ei ole selvää, mitkä geenit alueella ovat kausaalisesti liittyvät sairauden riskin. On edullista, niin että reittejä, kuten nämä tunnistetaan liittyvän toteutumaan analyysimenetelmä, ja tutkija voi sitten seuranta ylimääräisiä valmistelevan analyysejä. Lisätutkimuksia tämän reitin ei viittaa siihen, että sallii samaa SNP edustamaan sekä
CHRNA5
ja
CHRNA3
analyysissä yliarvioi merkitys GRMD data asetetut mSUMSTAT ja CETO tietojen asetetut Gengen. Tulokset analyysien ulkopuolelle
CHRNA5
todennäköisesti soveltuu parhaiten tämän reitin kautta.
varten edelleen verrataan reitin yhdistysten poikki aineistoja käytimme vähemmän rajoittava kriteeri monistaa reitin yhdistys ( merkittävä FDR yhden datasarjan ja nimellisesti merkittävää yhteyttä (P = 0,05) toisessa). Tämä sallitaan ylimääräinen yhdistysten voidaan tunnistaa, vaikka vähemmän luottamusta kuin tunnistettu käyttäen alkuperäistä kriteeriä. MSUMSTAT menetelmä löydettiin neljä potentiaalista riskiä polkuja, joilla on merkittävä FDR CETO ja nimellisesti merkittävästi P-arvot GRMD: hemin aineenvaihduntaa, porfyriinin aineenvaihduntaa, pigmentti biosynteesiä ja 4 rautaa, 4 rikki klusteri sitova. Hemi aineenvaihdunnan ja porfyriinin metaboliareitteihin osoittavat suurta päällekkäisyyttä. Kaikki neljä näistä reiteistä sisältää
IREB2
joka on samalla alueella vahvojen LD, joka sisältää
CHRNA3
–
CHRNA5
–
CHRNB4
klusteri. Slat tunnistettu yhdellä reitillä, säätely solujen vaeltamiseen, käyttämällä tätä samaa kriteeriä.
Kaiken tuloksemme (yhdessä oivalluksia muiden vertailujen käsitellään jäljempänä) ehdottaa mSUMSTAT olisi otettava huomioon valittaessa menetelmä polun analyysiä. Puute vahva replikointi koulutusjakson yhdistysten vaikeuttaa arvioida GenGen ja siivekkeen toisiaan vastaan. Kuitenkin GenGen lähestymistapa näyttää olevan joitakin etuja. GenGen tuottamien tulosten jonkin verran tukea yhdistys asetyylikoliinireseptoriaktiivisuutta polkuun riski, ja kuten mSUMSTAT tämä menetelmä mahdollistaa sisällyttämisen covariates, kun taas siiveke ohjelma ei ole tätä ominaisuutta. Lopuksi GenGen on yleisesti käytetty ja on antanut muita järkeviä yhdistysten koulutusjakson analyyseja GWAS tietokokonaisuuksien [10]. Toisaalta, hyödyllisyys säleen on vaikea arvioida tietyn tuloksemme ja edelleen arviointiin tätä menetelmää tarvitaan. Loput keskustelu keskittyy mSUMSTAT ja GenGen.
mSUMSTAT menetelmä eroaa kuin Tintle et al. [11] kautta laskettaessa normalisoitu Testimuuttuja, ja käyttö fenotyypin permutaatioista sijaan satunnaisesti valitun geenin asettaa määrittämään null jakeluun. Nämä muutokset otettiin käyttöön käsitellä geenin koko harhaa ja ylläpitää korrelaatiorakenteeseen keskuudessa SNP välivaiheena.
Jotkut simuloinnin tulokset viittaavat siihen, että lähestymistavat, jotka käyttävät summa tai keskiarvo χ
2 koska polku Testimuuttuja on tehokkaampi kuin ne, jotka käyttävät painotettua Kolmogorov-Smirnov-kuin juoksu summa tilastotieto sisällytetty GenGen ja niihin liittyvien GSEA lähestymistapoja. Tintle et ai. havaittiin, että alkuperäinen SUMSTAT testin tilastollinen oli tehokkaampi kuin GSEA lähestymistapaa vertailussa, jossa satunnainen geeni sarjaa käytettiin rakentaa nolla jakelu sekä menetelmiä [11]. Efron ja Tibshirani löytyi yleensä pienempi p-arvot käyttämällä keskimääräistä testisuureen verrattuna GSEA simuloidussa geenien ilmentyminen analysoidaan [18] .Their analyysiä käytettiin t-testiä sijasta χ
2 tilastotieto, joka mahdollistaa geenin ilmentymisen vertailuja kahden ryhmiä. Permutaatio ja normalisointi lähestymistavat olivat samoja, joita käytettiin tässä, paitsi normalisointi GSEA sisällytetty myös keskiarvot ja keskihajonnat lasketaan permutaatiot satunnaisella geenin sarjaa.