PLoS ONE: Käyttämällä etukäteistietoja Medical Kirjallisuus GWAS of Oral Cancer Tunnistaa Novel Alttius Variant kromosomissa 4 – ADAPT Method
tiivistelmä
Background
Genome-laajuinen yhdistys tutkimukset (GWAS) vaativat suuria otoskokoja saada riittävä tilastollinen voima, mutta se voi olla mahdollista lisätä tehoa sisällyttämällä täydentäviä tietoja. Tässä tutkimuksessa selvitettiin, onko mahdollista automaattisesti tietojen noutaminen lääketieteellistä kirjallisuutta ja hyödyntämällä tätä tietoa GWAS.
Methods
Olemme kehittäneet menetelmän, joka etsii läpi PubMed tiivistelmiä ennalta määritetty avainsanoja ja keskeiset käsitteet, ja käyttää tätä tietoa määrittää etukäteen todennäköisyyksiä yhdistyksen kunkin yhden emäksen monimuotoisuus (SNP) ja mielenkiinnon kohteena olevan fenotyypin – säätö- Association Priors kanssa teksti (sopeutua) menetelmällä. Association seurausta GWAS voidaan myöhemmin sijoittunut näissä yhteyksissä prioritodennäköisyydet käyttämällä Bayes False Discovery todennäköisyys (BFDP) puitteissa. Alussa testattiin sopeutua vertaamalla rankingissa tunnettuja alttiusalleelien aiemmassa keuhkosyöpää GWAS, ja sittemmin soveltanut sitä kaksivaiheisessa GWAS suusyövän.
Tulokset
Tunnettuja keuhkosyöpä alttius SNP olivat johdonmukaisesti paremmuusjärjestykseen korkeampi sopeutua BFDPs kuin p-arvot. Vuonna suusyövän GWAS, pyrimme jäljitellä viisi SNP kuten paremmuusjärjestykseen sopeutua BFDPs, joista rs991316, joka sijaitsee
ADH
geenin alueella 4q23, näytetään tilastollisesti merkittävää yhteyttä suusyövän riskiä replikointi vaihe (
per-harvinainen-alleelin log lisäaine p-arvo [p
trendi]
= 2,5 × 10
-3). Yhdistetty OR ottaa yksi ylimääräinen harvinainen alleeli oli 0,83 (95% CI: 0,76-+0,90), ja tämä yhteys oli riippumaton aikaisemmin tunnistettu herkkyyden SNP, jotka liittyvät yleiseen UADT syövän tämän geenin alueella. Tutkimme myös, jos rs991316 liittyi muita syöpiä ylemmän aerodigestive suolikanavan (UADT), mutta mitään ylimääräistä yhdistävä signaali löytyi.
Johtopäätös
Tämä tutkimus tuo esiin hyödyllisyys järjestelmällisesti sisällyttää etukäteen tietämys lääketieteen kirjallisuudessa genominlaajuisten analyysien avulla sopeutua menetelmiä. Sopeutua on saatavilla verkossa (url: https://services.gate.ac.uk/lld/gwas/service/config).
Citation: Johansson M, Roberts A, Chen D, Li Y, Delahaye- Sourdeix M, Aswani N, et al. (2012) Käyttäen etukäteistietoja Medical Kirjallisuus GWAS of Oral Cancer Tunnistaa Novel Alttius Variant kromosomissa 4 – ADAPT Method. PLoS ONE 7 (5): e36888. doi: 10,1371 /journal.pone.0036888
Editor: Olga Y. Gorlova, The University of Texas M. D. Anderson Cancer Center, Yhdysvallat
vastaanotettu: 20 joulukuu 2011; Hyväksytty: 09 huhtikuu 2012; Julkaistu: May 25, 2012
Copyright: © 2012 Johansson et al. Tämä on avoin pääsy artikkeli jaettu ehdoilla Creative Commons Nimeä lisenssi, joka sallii rajoittamattoman käytön, jakelun ja lisääntymiselle millä tahansa välineellä edellyttäen, että alkuperäinen kirjoittaja ja lähde hyvitetään.
Rahoitus: Tämä tutkimus on tuettu EU-FP7 avustusta [LarKC, url: https://www.larkc.eu] [FP7-215535]. Rahoitusta tutkimuksen koordinointia, genotyypitys replikointi tutkimuksia ja tilastollinen analyysi saatiin Yhdysvaltain National Cancer Institute (R01 CA092039 05) ja National Institute of Dental ja kallon ja kasvojen tutkimus (1R03DE020116). Tuki Keski-Euroopassa ja ARCAGE genominlaajuisten tutkimuksissa saatiin Inca (Institut National du Cancer, Ranska. Rahoittajat ei ollut roolia tutkimuksen suunnittelu, tiedonkeruu ja analyysi, päätös julkaista tai valmistamista käsikirjoituksen.
kilpailevat edut: kirjoittajat ovat ilmoittaneet, etteivät ole kilpailevia intressejä ole.
Johdanto
riski vaikutuksia yhteisten alttius varianttien monimutkaisten sairauksien – kuten useimmat syövät – ovat yleensä pieniä (eli OR 1.5) [1] ja genomin laajuinen yhdistys tutkimukset (GWAS) vaativat tiukkaa merkitys kynnyksen (esim p-arvo 10
-7) johtuvan raskaan useiden testaus. Siten GWAS syövän riski vaativat suuria otoskokoja jotta on riittävästi tilastollista voimaa. on siis ongelmallista tehdä GWA tutkimuksia harvinaisempia syöpien osalta rekrytoida riittävä määrä tapauksia on vaikeaa. ei voi olla hyötyä sisällyttämällä lisänäyttöä kerätty täydentäviä kokeita tai muita tietolähteitä. Tällaisia tietoja voidaan sisällyttää GWAS tuloksia käyttämällä yksinkertaisia Bayesin menetelmiä [2] esimerkiksi kehittämällä menetelmällä Wakefield [3]. Tämä käyttää likimäärin Bayes tekijä (ABF), arvioitiin käyttäen beeta arvioita ja keskivirheet geenivariantin taudeille järjestöjen kanssa ennen kertoimet nollahypoteesin tuottaa Bayes False Discovery todennäköisyys (BFDP). Näin ollen BFDP antaa arvion todennäköisyys, että havaittu tulos edustaa väärän positiivisen yhdistys, ja voidaan käyttää paikka p-arvojen sijoituksen tai muuten arvioinnissa assosiaatiotulosten. Suurin vaikeus toteuttamisessa tällaista lähestymistapaa GWAS on osoitetaan asiaankuuluvat ja realistiset ennen todennäköisyydet yhdessä sairauden kunkin tutkimuksen yhden emäksen monimuotoisuus (SNP).
Mahdolliset ennakkotietoja geenien-tauti suhteita voidaan noutaa eri lähteistä, esimerkiksi ilmaisu polygeeninen ominaisuus (eQTL) kokeissa koulutusjakson ontologian tietokannat, ja kirjallisuus skannaa [2]. Tunnustaa, että suuri joukko alttius variantteja tunnistettu GWAS asua lähellä uskottavalta kandidaattigeenit [4], me arveltu, että on mahdollista poimia aiempaa tietoa siitä tekstiin perustuvaa lääketieteellistä kirjallisuutta lisäämiseksi tilastollista havaita alttius SNP varten joka tällaisia tietoja on saatavilla.
jotta voitaisiin arvioida toteutettavuus ja mahdollinen hyöty tällaisen tutkimuksen suunnittelu, kehitimme menetelmää, joka automaattisesti hakee oleelliset tiedot PubMed tiivistelmiä, jotta saadaan aikaan ennen todennäköisyyksiä genomin laajuinen tutki variantit olla mukana tietyn sairauden, ja sen jälkeen sisällytetty näitä tietoja yhdistyksen tuloksia GWAS käyttäen BFDP puitteet [5] säätäminen Association Priors kanssa teksti (sopeutua) menetelmällä. Mukauttamaan myöhemmin sovelletaan GWAS suusyövän (OC) [6] – [10].
Tulokset
Virta laskelmia BFDP ja p-arvot
Kuten by Wakefield [3], [11] BFDP arvio voidaan käyttää keinona arviointiin ja raportointiin huomionarvoista yhdistysten omana. Olemme kuitenkin harkita laajempaa käyttöönottoa hybridi, kaksivaiheisen tutkimuksen suunnittelu, jossa SNP, joita pidetään riittävän ”huomionarvoista” mukaan heidän BFDP arvioiden valitaan uusittavissa riippumattoman tutkimuksen väestö ja arvioitiin käyttäen replikointi p-arvot. Esimerkiksi hyväksymisestä BFDP cut-off 0,8 valittaessa SNP replikointiin merkitsee sitä, että väärä ei-löytö on neljä kertaa niin kalliita kuin väärä löytö, tai että odotamme keskimäärin yksi viidestä SNP valittiin replikointi liittyvän sairauden kanssa. False kuin löytö sisältää mitään ”true” herkkyys SNP läsnä aineisto, joka ei saavuttaa BFPD alle 0,8. Täällä pidämme todellisen herkkyyden SNP olla mukana fenotyyppi kiinnostusta tilastollisesti vankan ja toistettavissa tavalla, vaikka eivät merkitse toiminnallinen syy. Jotta voitaisiin arvioida tilastollista voimaa valitsemalla herkkyyden SNP suusyövän käyttämällä tapaus-verrokki-sarjan 791 tapausta ja 7012 tarkastuksia, arvioimme tilastollinen voima mukaan (yhtälön [ekv.] 9, katso Statistical analyysit). Nämä teho laskelmat perustuivat 300000 SNP on arvioitu GWAS, että 100 todellinen alttius SNP suusyövän sisällytettiin datajoukon ja jaettu tasaisesti ennen luokat (eli
N * = 100, N
1 * = N
2 * = N
3 * = 33,3)
. Mietimme kolme ennen luokkiin (
J = 3
) ja yleinen SNP GWAS jaetaan kuten
C
1 = 0,875, C
2 = 0,10, ja C
3 = 0,025
. Voimme laskea etukäteen kertoimella nollahypoteesin kolmen ennalta ryhmiin näiden olettamusten mukaan (ekv. 7), joka antaa
PO
1 = 7874, PO
2 = 899, ja PO
3 = 224
. Tilastollinen teho saavuttamiseksi BFDP 0,8 varten SNP kanssa OR 1,25 kussakin kolmessa ennen luokat on esitetty kuviossa 1. Vertailun vuoksi me myös voiman käytöstä BFDP olettaen samalla
N *
mutta kaikki SNP määritetty sama ennen. Näillä oletuksilla valta havaita liittyvien SNP
C
3
tai
C
2
on lisääntynyt, kun taas uhraa jonkin verran valtaa niille
C
3
. Tämä osoittaa mahdollisia etuja käyttöön tällaisen Bayes kehystä GWAS, jos luokat ja niiden prioritodennäköisyydet asianmukaisesti valittu.
Nämä teho laskelmissa oletetaan arvioinnin 300000 SNP joista 100 ovat todella liittyy tulokseen ja jaetaan tasaisesti kolmeen ennen luokkia, vastaavasti. Yleinen jakautuminen SNP kaikilla kolmella ennalta luokkien oletetaan olevan [87,5%; 10%; 2,5%]. Flat PO olettaa yhden ennen ryhmään.
myös täydentäviä Tehonlaskennassa kuvassa S1 vaihtelemalla oletettu määrä todellisen herkkyyden SNP.
validointi sopeutua menetelmien
jotta suorittaa ensimmäistä
proof-of-periaate
arviointi Adapt-BFDP menetelmää, haimme sen tietoja meidän aiemmin raportoitu keuhkosyövän GWAS [12]. Ensinnäkin, käytimme sopeutua verkkopalvelun tuottaa ennen todennäköisyydet SNP perustuu lääketieteellisessä kirjallisuudessa (katso Materiaalit ja menetelmät). Avainsanat ryhmiteltiin prioriteetti, ensimmäinen ryhmä myös yleisenä sanoja, jotka ovat ominaisia keuhkosyöpä, esim. ”Keuhkosyöpää” ja ”keuhkosyöpä”, toinen ryhmä sisältyy yleisempään sanoja erityistä merkitystä keuhkosyöpä, esim. ”Kielletty”, ”nikotiini”, ”ei-pienisoluinen karsinooma”, ja kolmas ryhmä mer yleisiä sanoja, jotka eivät ole yksinomaan tärkeitä keuhkosyöpää, mutta syövän yleensä, esim. ”Karsinogeeni”, ”DNA-vaurioita”, ”neoplastisia”, ”apoptoosin”. Me etsi myöhemmin kaikkien PubMed tiivistelmiä kunkin geenin ja annetaan ennen kertoimet mukaan (ekv. 7). Olemme vain ohjeista julkaistu ennen ensimmäistä keuhkosyövän GWAS [12] välttämiseksi bias.
Toiseksi lopettivat alkuperäistä keuhkosyöpä GWAS sarjaksi pienempiä osajoukkoja simuloida GWAS pienemmillä tilastollinen teho. Tämä suoritettiin satunnaisesti valitsemalla (yhtäläiset jakaumat tapausten ja kontrollien) 50% ja 75% koko datasarjan 100 kertaa. GWAS analyysi kaikille alasarjan Sitten suoritettiin ja tulokset paremmuusjärjestykseen p-arvon ja BFDP käyttämällä prioritodennäköisyydet arvioitiin käyttäen sopeutua verkkopalvelun. Vertasimme sijoitusta BFDPs ja p-arvot kussakin Osasarjassa (50%, 75% tai 100%) viiden herkkyys variantit tunnistetaan keuhkosyöpä GWAS, jotka on itsenäisesti toistettu useita tutkimuksia (taulukko 1) [12] – [14 ]. Näistä viidestä SNP, neljä jaettiin koholla prioritodennäköisyydet jotka johtivat parantuneet selvästi sijoitusta käytettäessä BFDP arvioita verrattuna p-arvot. Esimerkiksi kun näytteenotto 75% täydelliset tiedot asettaa rs401681 SNP on 5p15.33 sijoittui at 2709 p-arvon ja 664 mukaan BFDP.
Novel genomin laajuinen yhdistys analyysit
jälkeen suorittaneet GWAS suusyövän. Tämä tarkistus seuraa kaksivaiheinen muotoilu, jossa yhdistys tulokset genominlaajuisten tietojenkeruuvaiheessa paremmuusjärjestykseen sopeutumaan-BFDPs.
Discovery vaihe.
tietojenkeruuvaiheessa jälkeen laadunvalvonta, genomin laajuinen analyysi suoritettiin 791 tapauksissa ja 7012 tarkastuksia. Q-Q käyräanalyysillä eivät osoittaneet mitään merkittäviä inflaation yleinen (λ
inflaatio = 1,04), mikä viittaa siihen, että piilopopulaatioksi alarakenteisiin oli vähän tai ei lainkaan vaikutusta tuloksiin genominlaajuisten analyysi (kuva S2). Sopeutua työskenteli perustuu PubMed tiivistelmiä käyttäen avainsanoja merkitystä suusyövän (taulukko S1) tavalla verrattavissa keuhkosyöpä koe edellä kuvatulla tavalla. Out of 293211 arvioitiin SNP, 149998 ryhmiteltiin
C
1
, 137576 ryhmiteltiin
C
2
, ja 6637 ryhmiteltiin
C
3
. Olemme arvioineet yksittäisten SNP BFDP arvioiden käyttäen perustiedot herkkyysanalyysin lähestymistavan kolme erillistä joukko oletuksia määrän todellisen herkkyyden SNP eli
N * = 50, N * = 100, ja N * = 500
. Me soveltanut BFDP kynnys 0,80 valitsemiseksi SNP replikointiin, ja kuusi SNP sai kriteereillä kaikkiin
N *
(taulukko 2). Koska olimme jo arvioitu ja vahvisti 6
th sijoittunut SNP (rs1789924,
AHD1C
) aikaisemmassa tutkimuksessa yleisen UADT syöpä (taulukko 2) [11], viisi SNP valittiin lisääntymään. Nämä SNP mukana rs1888732 päälle 1p22.3 (log lisäaine riskisuhde [OR
trendi] = 0,70, 95% luottamusväli [95% CI]: 0,61-0,81,
BFDP
100
= 0,06 ), rs3130559 on 6p21.33 (OR
trendi = 0,76, 95% CI: 0,65-,88,
BFDP
100
= 0,57), rs10801805 on 1p22.2 (OR
trendi = 1,30, 95% CI: 1,16-1,46,
BFDP
100
= 0,58), rs991316 on 4q23 (OR
trendi = 0,81, 95% CI: 0,72-0,91,
BFDP
100
= 0,62), ja rs10008621 on 4q35.2 (OR
trendi = 0,72, 95% CI: 0,60-0,86,
BFDP
100
= 0,66).
replikointi analyysi.
Kun laadunvalvonta ja tilastollinen analyysi sisällä replikointi sarja, vain rs991316 näytetään tilastollisesti merkittävää yhteyttä suusyövän riski (
per-harvinainen-alleeli log lisäaine p-arvo [p
trendi]
= 2,5 × 10
-3, taulukko 2). Kuvaaja -log
10 p-arvot ja pareittain r
2 arviot SNP sisältyvät GWAS vaiheessa
ADH
geenialueen on annettu kuviossa 2. OR verrattuna suuret homotsygootit yhdistetyn aineisto (GWAS + replikointi data) oli 0,88 (95% CI: 0,78-1,01) varten heterotsygootteja, ja 0,67 (95% CI: 0,57-0,79) varten pieniä homotsygootit. OR liittyvät ottaa yksi ylimääräinen harvinainen alleelin (log-lisäaine malli) oli 0,83 (95% CI: 0,76-0,90), ja tämä yhdistys itsenäisesti monistaa (
p
trendi
0,05) kaksi suurinta replikointi tutkimuksessa (Latinalaisen Amerikan ja ORC tutkimuksia, taulukko S1,
p
heterogeenisyys
= 0,67). Rs991316 SNP sijaitsee alueella 4q23 joka sisältää useita geenejä, jotka koodaavat eri
alkoholidehydrogenaasi
(
ADH
) alayksikkögeenit eli
ADH6
,
ADH1A
,
ADH1B
,
ADH1C
, ja
ADH7
geenejä. Vuonna sopeutua kirjallisuudesta, kaksi geeniä jaettiin mahdollisesti merkityksellisiä rs991316 SNP,
ADH1C
ja
ADH7
, joka sijaitsee noin 49 kb sentromeerisen ja 11 kb telomeerisesti of rs991316, vastaavasti. SNP tällä alueella (ts rs1229984 [
ADH1B
], rs1789924 [
ADH1C
] ja rs971074 [
ADH7
]) on aiemmin liittynyt yleistä UADT syöpä. Kuitenkin rs991316 oli huonosti korreloi rs1229984, rs1789924 ja rs971074 (r
2 0,05), ja ilmastointi riskianalyysin seuraavilla SNP ei vaikuttanut OR of rs991316 (OR
oikaistu 0,84). Lisäksi tutkimme jos rs991316 liittyi myös muita UADT Alisivustoja lisäksi suusyöpä, mutta ositettu analyysi paljasti, että riski vaikutus rs991316 rajoitettaisiin suusyövän (suuontelon ja nielu), mutta ei syöpien hypopharynx, kurkunpään tai ruokatorven (
p
heterogeenisyys
= 0,03, kuva 3). Yhdessä nämä tulokset viittaavat siihen, että rs991316 SNP on liitetty juuri suusyövän, mutta ei muiden UADT syövät sisällä tässä potilasryhmässä, ja että yhdistys on riippumaton aikaisemmin havaituista herkkyyden SNP UADT syövän tällä alueella. Lisäksi tämä heterogeenisyys riskin vaikutuksia välillä suun ja muiden UADT syöpiä voidaan myös selittää, miksi tämä muunnos ei havaittu alkuperäistä GWAS yleistä UADT syöpä.
P-arvot osoittavat vahvuutta yhdistyksen kunkin SNP vuonna GWAS kanssa suusyöpä näkyvät -log10 mittakaavassa (vasen Y-akseli), vastaan kantansa kromosomissa 4 (Build 36,3). Väri jokaisen pisteen ja SNP edustavat aste kytkentäepätasapainossa (r
2) rs991316 mukaan HapMap vaiheen CEU tiedot. Korostettu kuviossa ovat rs1229984, rs1789924 ja rs971074, jotka on raportoitu liittyvän UADT syövät aiemmin, sekä rs991316 SNP, joka havaittiin liittyvän erityisesti suun kautta syövän olevassa tutkimuksessa. rs1229984 ei genotyyppi, eikä merkitty asiamies muunnelma HumanHap300 BeadChip mutta genotyypitettiin Taqman määritys samoissa näytteissä Keski-Euroopasta ja ARCAGE tutkimukset sisältyvät tietojenkeruuvaiheessa nykyisten GWAS, ja r
2 välillä rs1229984 ja rs991316 arvioitiin vuonna 3513 tarkastuksia Keski- Euroopan ja ARCAGE tutkimuksia. Rekombinaatio hinnat koko alueella ovat osoittama vaaleansininen viiva piirrettiin oikeaa y-akselilla. Geenit alueella ovat edustettuina nuoli päät osoittavat transkription suunnan.
a) Lukuun ottamatta OR CT heterotsygooteilla ja TT homotsygootteja, joiden arvioitiin suhteellisen suuret CC homotsygootit, kaikki OR ja 95 % CI arvioitiin käyttäen log-lisäaine malli, säätää iän, sukupuolen ja keskus. Kaikki koehenkilöt päässä genominlaajuisia ja replikointi vaiheiden kanssa saatavilla yhteistyössä sen vaihtelun otettiin mukaan tähän analyysiin (ei yleinen valvonta). Yleisenä OR syöpien suuontelon ja nielu on esitetty katko- pystyviiva. b) P epäyhtenäisyys osoittaa eroja OR välillä kerrostumista ja johdetusta Cochranin Q testiä. c) Älä juovat olivat aiheita, jotka joko ilmoitettua 0 g alkoholin nauttiminen päivässä, tai kertoi olevansa koskaan juomari, kevyt juovat kulutetaan 0 ja 6,06 g alc./day, väli- juovat kulutetaan 6,06 ja 46,3 g alc ./day, ja raskas juovat kulutetaan 46,3 g alc./day. d) hypopharynx, kurkunpään ja ruokatorven tapausta eivät sisälly analyyseissä edellä.
Stratifioitu analysoi
Olemme suorittaneet edelleen ositettu riskianalyysejä rs991316 (kuva 3), mutta lukuun ottamatta heterogeeninen riski vaikutus suusyöpä yleistä, verrattuna muihin UADT syöpiä (
p
heterogeenisyys
= 0,03), ei ole selvää vaikutusta muutoksia havaittiin (
p
heterogeenisyys
0,10). Jotkut viittaavia todisteita vaikutus muuttamista sukupuolen havaittiin (
p
heterogeenisyys
= 0,11), assosiaatio riski on voimakkaampi miehillä. Joitakin viitteitä tupakoinnin ja alkoholin nauttiminen myös muutetaan yhdessä riski havaittiin myös, riskien voimistuvan korkeasti tupakointi ja juominen, mutta muodollinen testit eivät tue vuorovaikutusta (
p
vuorovaikutusta
= 0,15 ja 0,10 tupakoinnin ja alkoholin nauttiminen, vastaavasti). Edelleen säätämällä tärkein rs991316 riskianalyysi juomiseen ja tupakointi eivät ole muuttaneet tai arvioita (tuloksia ei ole esitetty).
Keskustelu
Raportoimme menetelmä tietojen hakemiseksi tekstiin perustuvaa lääketieteellistä kirjallisuutta ja arvioimalla etukäteen todennäköisyydet yhdistyksen kaikkien SNP tutkittu GWAS, säätö- Association Priors kanssa teksti (sopeutua) menetelmällä. Prioritodennäköisyydet voidaan myöhemmin yhdistää assosiaatiotulosten osaksi Bayesian mitta noteworthiness yhdistymisvapaus kunkin SNP taudin -alueella.
Yksi tärkeimmistä argumentteja johtamiseksi GWAS on, että lähestymistapa on agnostikko, mikä tarjoaa mahdollisuuden havaitsemaan uusia alttiuslokukset ilman päätellä ennalta uskomuksia siitä, miten tärkeää spesifisten geenien (esim verrata kandidaattigeeni lähestymistapa). Kuitenkin monet geneettinen alttius variantit havaittu GWAS sijaita lähellä uskottavalta kandidaattigeenit ja ADAPT-BFDP menetelmä antaa mahdollisuuden hyödyntää tietoja automaattisella tavalla. Mukautua automaattisesti etsii läpi PubMed tiivistelmiä asiaa aikaisemmin todettu osallistumisesta kyseisen taudin. Yhdessä BFDP tilastopuitteet mukauttaa sisältää ennakkotietoja yhdistyksen tulokset GWAS, mikä antaa SNP lähellä geenejä aiemmin sekaantunut tauti kiinnostava korkeamman sijoituksen.
Alussa validoitu sopeutumaan-BFDP perustuvat GWAS tiedot keuhkosyöpää ja totesi, että validoitu alttius SNP: tä jatkuvasti sijoittunut korkeammalle sopeutumaan-BFDP arvioita kuin p-arvot (taulukko 1). Menetelmää sitten sovellettiin vaatimattomasti kokoinen GWAS suusyövän (noin 800 tapausta), joilla on heikko tilastollinen voima havaita välissä riskin vaikutuksia havaitaan tyypillisesti GWAS (≤40% tilastollista valinnasta SNP replikaatiolle p 10
-5 olettaen OR = 1,25). Ranking yhdistys tulosten mukaan sopeutumaan-BFDPs ja jäljittelemällä viisi SNP, me tunnistaneet uuden alttius varianttia tunnetun suun ja UADT syöpäalttiutta alueella
ADH
geeni klusteri 4q23. Tutkimme jos yhdistys rs991316 voi selittyä kytkentäepätasapaino- aikaisemmin tunnistettu riski variantteja yleinen UADT syövän tässä lokuksessa [8], [15], mukaan lukien rs1229984, rs1789924 ja rs971074, mutta niiden pareittaiset korrelaatiot olivat alhaisia ja ilmastointijärjestelmät riskianalyysin seuraavilla SNP ei vaikuttanut OR arvio rs991316. Lisäksi haplotyyppianalyysissä osoitti selvästi, että variantti alleelit näistä SNP sijaitsivat eri haplotyyppien (tuloksia ei ole esitetty), mikä vahvistaa edelleen itsenäisyyttä päättely näiden herkkyyden SNP. Tärkeää on, että rs991316 SNP ei liittynyt muita UADT syöpiä (kuva 3), siten tukee käsitystä romaanin yhdistyksen, todisteena yhdessä muiden UADT syöpä sivustoja on havaittu aiemmin löydettyjen alttius SNP.
Myönnämme, että mikä tahansa menetelmä, joka vie kuin kuraattorina ennakkotietoja huomioon assosiaatiotutkimuksiin on epätäydellinen ja altis erilaisille harhat [2], ja Adapt-BFDP menetelmällä on useita rajoituksia. Kuten sopeutua etsii PubMed tiivistelmiä läsnäolo ennalta osoittanut avainsanoja ja semanttisesti liittyviä käsitteitä, lopputulos (ranking BFDPs sijasta p-arvot) tulee etuoikeus SNP läheisyyteen geenejä, joita on tutkittu suhteessa päätepisteen kiinnostavaan . Kuten kuviossa 1, on menetys tilastollista voimaa SNP jonka osalta asianomaista etukäteistietoa on saatavilla. Tämä langetetun uusia geenejä ja geenien aavikot näyttäisi ristiriidassa agnostikko luonteeltaan GWAS, vaikka vahva yhdistys signaalit pysyvät erittäin paremmuusjärjestykseen käyttäen joko menetelmää.
Menetelmä on myös herkkä oletettu määrä todella liittyvien SNP (
N *
). Lisääntyvä tämä määrä antaa enemmän SNP siirtää BFDP kynnys, mutta se ei muuta niiden sijoitusta. Kaksifaasijärjestelmässä muotoilu, jossa määrä SNP säilytettävä toista vaihetta määräytyy toisen vaiheen teho [16], ainoastaan suhteellinen sijoitus ensimmäinen vaihe on relevantti ja valinta
N *
on merkityksetöntä. Sitä vastoin osuus todella liittyvien SNP kussakin ennen luokan vaikuttaa sijoitusta muuttamalla etukäteen todennäköisyys yhdistyksen kullekin vaihtoehdolle.
Lisäksi, nykyinen toteutus sopeutua käyttää suhteellisen yksinkertaista tekstinlouhintaa algoritmi ja, kuten sinänsä edelleen suhteellisen raakaa. Esimerkiksi, se ei vie taajuuden avain-sana vastaa huomioon määrittämällä prioritodennäköisyydet, eikä siinä myöskään oteta huomioon, jos yksittäisissä tutkimuksissa raportoi positiivisia tai negatiivisia tutkimustulokset. Tällaiset strategiat arvioidaan tulevaisuudessa toteutuksissa sopeutua, sekä menetelmiä, joilla pyritään laajentamaan avainsanoja semanttisesti liittyviä käsitteitä. Lisäksi sopeutua tällä hetkellä määrittää yksittäisten SNP geeneihin yksinkertaisesti perustuu niiden sijainti, esim. jos ne ovat 50 kb tietystä geenistä. Tässä tapauksessa olisi hyödyllistä myös kytkentäepätasapaino- huomioon, kuten on toteutettu Gene Ihmissuhteet Across sekaantunut Loci (Grail) metodologia [17]. Samoin sopeutua, GRAIL käyttää tekstiä louhintaa PubMed tiivistelmiä priorisoida SNP GWAS, mutta ei niin tunnistamalla geenejä, jotka liittyvät funktionaalisesti useita muita geenejä vielä enemmän kuin mitä olisi odotettavissa sattumalta. Vaikka GRAIL menetelmän etuna on olla vaatimatta fenotyyppi kiinnostava tutkittava suhteessa tietyn geenin ennen, eikä se hyödyttää kun tällaista tietoa on saatavilla. Siten näyttää siltä, sekä sopeuttaa ja GRAIL menetelmiä voi osoittautua hyödylliseksi yhdessä, tai omasta, priorisointiin SNP alkuperäisestä GWA etsii seurantatesteissä.
Mikä tärkeintä, me aikovat käyttää Adapt-BFDP menetelmä täydentävänä välineenä – pikemminkin kuin korvaavan – perinteisempiin GWAS lähestymistapaa (eli p-arvo ranking), esim aluksi käyttäen p-arvo, joka perustuu ranking havaita geenipaikkojen agnostisessa tavalla, ja myöhemmin, ADAPT-BFDP menetelmää edelleen hyödyntää tietoja mahdollisen havaitsemaan variantteja, jotka eivät jää huomaamatta. Vaikka ei yleensä suositella tehdä alimitoitettu tutkimuksia, ADAPT-BFDP menetelmä voi myös auttaa havaitsemista alttiuslokukset kun tilastollinen voima on huono, esimerkiksi ositettu genominlaajuisia analyysi kuten on alimitoitettu suusyövän GWAS. Itse rs991316 SNP sijoittui 76
th p-arvoja, ja tämä alttius SNP ei olisi sisällytetty replikointi vaiheessa oli hyväksyimme toistamaan vain hyvin alkuun paremmuusjärjestykseen variantteja p-arvot. Lisäksi jos määrä SNP valittu replikointi oli riittävän syvä sisällyttää rs991316, tilastollista näyttöä replikaatiota (
P
trendi
= 2,5 × 10
-3) ei ole katsottu huomionarvoista säätämisen jälkeen useita testaukseen replikointi vaiheessa (eli Bonferroni säädetty merkitys kynnyksen p = 0,0007). Siten näyttää siltä, että Adapt-BFDP strategia avustamana havaitsemista ja validointi rs991316 variantti. ADAPT prosessi voidaan helposti mukauttaa antaa ennakkotietoja yleistä geeneistä kuin yksittäisiä SNP, ja sellaisena se voi myös olla käyttökelpoinen genomista sovelluksissa, kuten exome tai genomin perustuva sekvensointi tutkimuksiin. Lisäksi useat tietolähteitä voitaisiin mahdollisesti sisällyttää Bayesian puitteissa, esimerkiksi reitin ontologiaa tietokantoja, muun tekstin menetelmiä kuten GRAIL, tai täydentäviä kokeita kuten genominlaajuisia eQTL analyysi [18].
Johtopäätökset
Tämä tutkimus vahvistaa, että se on mahdollista sisällyttää kattavia ennakkotietoja automatisoidusti tavalla avustamaan priorisoida SNP GWAS edelleen seurantaan, tässä tapauksessa tekstiin perustuvaa lääketieteellistä kirjallisuutta käyttäen Adapt-BFDP metodologia . Tämän tueksi raportoimme uusi alttius SNP suusyövän
ADH
geenin alueella 4q23, joka liittyi riski riippumatta aikaisemmin tunnistetun riskin SNP yleistä UADT syövän tällä alueella. Olemme tehneet sopeutua menetelmät käytettävissä tiedeyhteisölle kautta verkkopalvelun (url: https://services.gate.ac.uk/lld/gwas/service/config).
Materiaalit ja menetelmät
Ethics selvitys
Kaikki osallistujat antoivat kirjallisen tietoon perustuvan suostumuksen osallistua tutkimukseen ja IARC eettisen komitean (IEC) hyväksyi tämän tutkimuksen.
tietojen noutaminen lääketieteen kirjallisuudessa sopeutua
jotta poimia tärkeät tiedot lääketieteellistä kirjallisuutta kattavasti ja puolueeton muoti kehitimme säätäminen Association Priors kanssa teksti (sopeutua) menetelmällä. Sopeutua tunnistaa asiaan PubMed tiivistelmiä kunkin RefSeq geenin kautta Entrez geeni tietokannasta (url: https://www.ncbi.nlm.nih.gov/gene), jossa kaikki tutkimukset, jotka ovat tutkineet tietyn geenin ovat rajat viitataan kanssa PubMed. Tässä tutkimuksessa, mikä tahansa geeni, 50 000 emäsparia SNP kartoitettiin yhdessä tiivistelmät liittyvät tämän geenin. On myös mahdollista käyttää GeneRif tekstit, jotka ovat lyhyitä ja käsin selityksin tiivistelmät kunkin tutkimus paperi, sijasta PubMed tiivistelmiä. Nämä GeneRif tekstit ovat suoraan annetaan Entrez geenin tietokantaan. Kaikki asiaankuuluvat tiivistelmät myöhemmin louhitaan avainsanoja ja keskeisiä liittyvät käsitteet tärkeitä ominaisuuksia sairauden tai ilmiasun kiinnostusta myös etiological ja mekanistinen tekijöistä. Tämä kaivos suoritetaan käyttäen GATE (url: https://gate.ac.uk) [19], joka jakaa tiivistelmiä osaksi lauseita, tokenizes lauseet yksittäisiksi ehdot, etsii osa puheen merkkejä, ja taukoja kukin merkki tulee sen tärkein komponentti (morfologisia root). Tiivistelmiä myös kartoitettu UMLS valmistuksessa käytetään MetaMap [20], [21]. Tokens ja käsitteitä säilytettiin GATEsta Mimir indeksi helpottaa noutaa nopeasti ja tallentamaan kartoitus yksittäisten SNP ja asiaankuuluvat tiivistelmät [22]. Avainsanat kaivos- myös käsitelty portti antaa morfologiset juurien ja läsnäoloa näiden sittemmin tarkistettu indeksiin kunkin SNP.
osoitetaan avainsanat johonkin kolmeen ryhmään, G1, G2 ja G3, ryhmä G1 sisältäviä sanoja erittäin tärkeänä, että fenotyyppi, ja ryhmä G3 sisältää merkityksellistä, mutta subjektiivisesti vähemmän tärkeitä sanoja. Perustuu läsnäolo olennaisia avainsanoja, kunkin geenin ja proksimaalinen SNP voidaan loogisesti sijoittaa johonkin 8 mahdollinen binary yhdistelmiä G1, G2 ja G3. Meidän tarkoituksiin määrittelimme kolmeen luokkaan (
C
i, i = 1,2,3
):
C
1
= {Ei
G
1
, ei
G
2
, ei
G
3
}
C
2
= {vähintään yksi
G
1, G
2, G
3
mutta eivät kaikki}
C
3
= {
G
1, G
2, G
3
}.
Olemme kehittäneet verkkopalvelu, jonka avulla käyttäjä voi harjoittaa avainsana kyselyjä mielivaltainen joukko SNP ajoissa, esimerkiksi luettelon SNP mukana tiettyyn genominlaajuisten BeadChip (url: https://services.gate.ac.uk/lld/gwas/service/config). Tämä palauttaa luokituksesta kaikki 8 mahdollista luokkiin, jotta jatkettaisiin romahtaa käyttäjä. Tarjoamme myös R-skripti, joka arvioi etukäteen todennäköisyydet kullekin SNP ja uudelleen riveissä GWAS tulosten mukaan BFDP arvioihin. Näin tutkijat vapaasti soveltaa sopeutua menetelmää siirtämättä niiden assosiaatiotulosten verkossa (url: https://services.gate.ac.uk/lld/gwas/service/rscript).