PLoS ONE: Mallivalikoima Approach ehdottaa syy-yhteydestä 25-hydroksi-D ja peräsuolen syövän

tiivistelmä

Johdanto

D-vitamiinin puutos on liitetty suurentunut riski paksusuolen syövän (CRC), mutta syy-yhteyttä ei ole vielä vahvistettu. Tutkimme suuntaan syy D-vitamiinin ja CRC laajentamalla tavanomaiset lähestymistavat sallimaan pleiotrooppista suhteita ja mallinnetaan selkeästi mittaamattoman sekoittavien tekijöiden.

Methods

Plasma 25-hydroksi-D (25-OHD) , geneettisiä variantteja liittyy 25-OHD ja CRC, sekä muut asiaan liittyvät tiedot oli saatavilla 2645 yksilöiden (1057 CRC tapauksissa ja 1588 tarkastukset) ja sisällytetään malliin. Me tutkimme, onko 25-OHD todennäköisesti syy-yhteydessä CRC, tai päinvastoin, valitsemalla paras mallinnuksen hypoteesin mukaan Bayes ennustavan tulokset. Tarkastelemme yhdenmukaisuutta erilaisia ​​ennakkokäsityksiä.

Tulokset

Mallien vertailu osoitti parempana syy-yhteydestä matalan 25-OHD ja CRC yli päinvastainen syy hypoteesi. Tämä vahvistettiin taka keskiarvo deviances saatu molemmissa malleissa (11,5 luonnollinen log-yksikköä hyväksi syy malli), ja myös poikkeavuudeksi tietoja kriteerit (DIC) lasketaan joukolle ennalta jakaumat. Kaiken mallit välittämättä piilossa sekoittavia tai pleiotropia oli merkittävästi huonompi DIC tulokset.

Johtopäätös

Tulokset viittaavat siihen, syy-yhteydestä 25-OHD ja peräsuolen syövän, ja tukea tarvitaan satunnaistettuja kliinisiä kokeita edelleen vahvistukset .

Citation: Zgaga L, Agakov F, Theodoratou E, Farrington SM, Tenesa A, Dunlop MG, et al. (2013) Mallivalikoima Approach ehdottaa syy-yhteydestä 25-hydroksi-D ja peräsuolen syövän. PLoS ONE 8 (5): e63475. doi: 10,1371 /journal.pone.0063475

Editor: Paolo Peterlongo, IFOM, Fondazione Istituto FIRC di Oncologia Molecolare, Italia

vastaanotettu: 23 tammikuu 2013; Hyväksytty: 03 huhtikuu 2013; Julkaistu: 24. toukokuuta 2013

Copyright: © 2013 Zgaga et al. Tämä on avoin pääsy artikkeli jaettu ehdoilla Creative Commons Nimeä lisenssi, joka sallii rajoittamattoman käytön, jakelun ja lisääntymiselle millä tahansa välineellä edellyttäen, että alkuperäinen kirjoittaja ja lähde hyvitetään.

Rahoitus: Tämä työ tukivat ohjelmasta rahoitetaan Cancer Research UK (C348 /A12076) ja Skotlannin hallitus johtava tutkija Office (CŽH /4/529). ET rahoittaa Cancer Research UK Fellowship (C31250 /A10107). Rahoittajat ollut mitään roolia tutkimuksen suunnittelu, tiedonkeruu ja analyysi, päätös julkaista tai valmistamista käsikirjoituksen.

Kilpailevat edut: Dr. Felix Agakov työskentelee ja toimitusjohtaja Pharmatics Limited – kaupallinen yhtiö joka on erikoistunut kehittämään ohjelmistoja tuotteita ja palveluja, jotka perustuvat todennäköisyyksiin koneoppimisen ja korkea-ulotteinen tilastoja. Ei ole olemassa patentteja, tuotteiden kehittämiseen tai kaupan tuotteiden julistaa. Tämä ei muuta tekijöiden noudattaminen kaikki PLoS ONE politiikan tietojen jakamista ja materiaaleja.

Johdanto

Vuonna 1980 se oli ensimmäinen oletettu, että D-vitamiini on suojaava tekijä vastaan ​​peräsuolen syöpä (CRC) [1]. Se on sittemmin osoittanut, että suurempi D-vitamiinin saanti [2], korkeampi seerumin 25-OH-D (25-OHD) [3] ja oleskelua alueilla, joilla on vahva UVB [4] liittyvät kaikki alemman CRC riskiä ja syöpä kuolema [ ,,,0],5]. Suurin osa saatavilla oleva näyttö tulee ecologic korrelaatioista tai havainnointitutkimukset. Puolueettomat yritetty tutkia syy näissä tutkimuksissa ovat epäluotettavia, koska tutkimuksen suunnittelu ei voi täysin selittää vaikutuksen mahdollisten sekoittavien tekijöiden kuten lihavuuden tai liikuntaa [6], [7]. Kuitenkin, kokeelliset tutkimukset [8], [9], satunnaistetuissa kontrolloiduissa kokeissa [2], [10] ja soveltaminen Hillin kriteerit syy [11], [12] tukevat mahdollinen yhteys D-vitamiinin puutos peräsuolen syöpä. Volyymi observational ja

in vitro

todisteet ja mahdolliset suuret kansanterveyden kannalta olisi yhdistysten osoittautuu syy, vaativat lisätutkimuksia.

Odottaessaan tuloksia satunnaistetussa kliinisessä tutkimuksessa, tilastollisia ja koneoppimisen menetelmät mahdollistavat tutkimuksen kausaalisuuden havainnointitutkimukset. Yksi tällainen menetelmä on Mendelin satunnaistaminen (MR). MR on sovellus instrumenttimuuttujamenetelmää (IV) analyysi, joka käyttää geneettisten polymorfismien välineinä [13], [14], [15]. Se on tullut yhä suositumpia, koska genomin laajuinen yhdistys tutkimukset (GWAS) tunnistettu lukuisia geneettisiä variantteja, jotka voidaan käyttää ”välineitä” [16].

Perinteiset MR lähestymistapoja olettaa, että: (i) genotyypit satunnaistetaan ; (Ii) geneettisiä variantteja pidetään välineitä vaikuttaa lopputulokseen

vain

muuttamalla biomarkkereiden eli ei ole dalmatialaistäpläisiä Näiden varianttien tuloksista; (Iii) erot todellisen ja havaitut biomarkkerit ovat merkityksettömiä (no havainto melu) [17], [18], [19], [20]. Jos nämä oletukset pitää, päättely syy tarkkailututkimuksista data on teoreettisesti voimassa, vaikka johtopäätökset ovat herkkiä valitun välineitä [21], ja ne voivat olla voimassa, kun vaikutukset instrumentteihin biomarkkerit ovat heikkoja. Huolimatta suosio, on väitetty, että MR menetelmiä push ongelmaa syy päättelyn toiseen ulottuvuuteen, koska niiden oletukset ovat yleensä todennettavissa [22]. Esimerkiksi on harvoin mahdollista jättää pleiotropia tai arvio Tällaisen poissulkemista tuloksena arvioon, erityisesti useiden välineiden [23], [24]. Myös klassinen MR on vaikea arvioida, miten syy arvioiden vaikuttavat eri oletuksia jakaumia piilevä sekoittavien tekijöiden.

Toinen tärkeä rajoitus MR on, että se puuttuu muodollinen malli vertailun kehys päätteleminen

suuntaa

kausaalisuus kun pleiotropia ja häiritsevien ei voida sulkea pois mahdollisimman selityksiä. Klassinen lähestymistapa arvioi koko syy vaikutus [25], mutta ei arvioi suhteellinen arvo syy

vs.

Kääntää syy selityksiä. Tämä saattaa ole väliä pitkäaikainen kohorttitutkimuksen jossa ajallinen sekvenssi biomarkkereiden ja lopputulos on selvä, mutta se rajoittaa kykyä päätellä syy peräisin poikkileikkaus tai tapaus-verrokki data. Huomaa myös, että pleiotrooppista malleissa syy ja käänteinen malleja ei sisäkkäin, ja klassisen testit sisäkkäisiä ei voida helposti käyttää. Yleisempi lähestymistapa oppimiseen suuntaan syy on todennäköisyys perustuva Causality Mallivalikoima (LCMS) menetelmä ehdottanut [26], joka ehdottaa valikoima parhaita mallinnuksen hypoteesin vertaamalla todennäköisyys-pohjainen pisteet suoraa syy, käänteinen, ja pleiotrooppista malleja. Vaikka tämä lähestymistapa rentouttaa oletus ei pleiotropia klassisen MR menetelmä, se ei mahdollista piilevä sekoittavien tekijöiden tai mittauksen melua. Lisäksi, koska niiden menetelmä ei ole Bayes, sitä ei voida helposti skaalata suuriin ongelmiin, joissa korkea-ulotteinen genotyypit ja /tai fenotyypit käytetään välineitä.

Olemme aiemmin suorittanut MR analyysin tutkimaan mahdollisia syy-yhteys plasman 25-OHD on peräsuolen syövän riskiä [27]. Tuloksemme olivat vakuuttavia ja kausaalista suhdetta matalan 25-OHD ja CRC ei ollut selvästi osoitettu eikä sulkea pois.

Tässä tutkimuksessa, ryhdyimme selvittämään syy vaikutuksen 25-OHD on peräsuolen syövän riskiä. Osoitamme tavanomaiset lähestymistavat (MR ja LCMS) mukaan: (i) mahdollistaa pleiotrooppinen yhteyksiä välineiden ja sairauden, (ii) osuus melun mittauksessa ja (iii) mallintaminen ”piilotettu sekoittavat” eli mittaamattomien tekijöitä, jotka voivat vaikuttaa biomarkkereiden ja sairaus. Etenemme valitsemalla paras mallinnuksen hypoteesin mukaan Bayes ennakoivaa tulokset, ja tutkia sen johdonmukaisuutta laajan ennakkokäsityksiä. Lähestymistapamme perustuu vahvuuksia MR ja LCMS mutta rentouttaa rajoittavia olettamuksia, mikä johtaa malleja, jotka paremmin sopivat tietojen mukaan pidetään kriteerit.

Methods

Tutkimme osajoukko yksilöitä alkaen SOCCS Study (1999-2006) [27], [28]. Kaikkiaan 2645 yksilöiden kaikki tarvittavat mittaukset käytettävissä oli mukana tässä tutkimuksessa (1057 tapausta ja 1588 tarkastukset). Eettinen hyväksyntä SOCCS tutkimuksessa saatiin monikeskustutkimus Research eettinen komitea Skotlanti (viitenumero 01/0/05) sekä tutkimuksen ja kehittämisen toimisto NHS Lothian (viitenumero 2003 /W /GEN /05). Kaikki osallistujat antoivat tietoisen kirjallisen suostumuksen. Koehenkilöt täytti kyselylomakkeen tiedustelin elämäntapa. Kysely kerätyt tiedot yleisistä lääketieteellinen historia, fyysinen aktiivisuus (h pyöräilyä ja muiden urheilutoimintaa, 4 ryhmää), sosioekonomisen aseman (Carstairs Deprivaatio Index), tupakointi, säännöllinen saanti aspiriinia ja tulehduskipulääkkeiden, pituus, paino, ja muut. Osallistujat myös valmistunut puolikvantitatiivinen ruoka taajuus (https://www.foodfrequency.org) ja ravintolisiä kyselylomakkeita, joita käytettiin laskettaessa D-vitamiinin saanti (katso [27], [29]).

Yhteensä plasma 25-OHD (25-OHD

2 ja 25-OHD

3), Päävaraston muoto D-vitamiinin, mitattiin nestekromatografia-tandem-massaspektrometrialla (LC-MS /MS) -menetelmää [30 ]. 25-OHD pitoisuus oli standardoitu poistamaan merkittävä vaikutus kausi, kun verta otettiin, ja May-oikaistu mittausta käytettiin analyyseissä (kuten on kuvattu [29]).

Tässä tutkimuksessa käytimme 16 SNP liittyy CRC GWAS: rs6691170, rs6687758, rs10936599, rs16892766, rs7014346, rs10795668, rs3802842, rs7136702, rs11169552, rs4444235, rs4779584, rs9929218, rs4939827, rs10411210, rs961253, rs4925386 [31], [32], [33] , [34], [35], [36] ja neljä SNP liittyy 25-OHD: rs2282679, rs12785878, rs10741657, rs6013897 [37]. Olemme vähentäneet dimensionality geneettisten tekijöiden 6 pääkomponenttien.

Probabilistic Graphical Modelling

väliset suhteet biomarkkereita ja tuloksia voidaan kuvata ”Bayes-verkot” edustaa suunnattu syklitön verkko, jossa solmut vastaavat satunnaismuuttujia, reunat kuvaavat ehdollinen riippumattomuus rakenteita, ja joka toinen solmut ovat ehdollisesti riippumattomia toisistaan ​​tietyn vanhempiensa. Tällaisia ​​malleja on laajalti tutkittu tilastollisten ja koneoppimisen kirjallisuus; niiden keskeinen etu on, että ne voidaan joskus käyttää erottamaan syy pelkästä tilastollinen yhdistysten [38], [39], [40].

Koska väitti esim MacKay (35,3, [41]), Bayes lähestymistapa syy päättely voi perustua

mallin valinta

, joissa mallit kuvaavat eri syy hypoteeseja pidetään ja verrataan. Esimerkiksi kun ennakkoarvoja sekoittavia ja dalmatialaistäpläisiä on määritelty, todistusnäytön suosimalla syy malli yli vaihtoehtoisia yksi voidaan arvioida, vaikka klassista kriteerit tunnistamiseksi syy vaikutusten graafinen mallit [42], [43] eivät ole täyttyvät. Se, että sama malli on valittu laaja verkkotunnuskohtaista prioritodennäköisyydet voi osoittaa suunnan syy (mikä ehkä vielä validoitu hallinnassa kokeet). Tämä lähestymistapa on houkutteleva, koska se on sovellettavissa todellisissa tilanteissa, joissa sekä sekoittavia ja pleiotropia saattaa olla läsnä.

graafinen rakenne yleistä mallia pidetään tässä asiakirjassa on esitetty kuvassa 1. Tämä pidentää aiemmin käyttöön menetelmä [44] sallimalla dalmatialaistäpläisiä genotyyppien biomarkkereihin ja tuloksiin. Pidämme useita muunnelmia perusmalli, esim. vaihtamalla suuntaa välisen yhteyden D-vitamiinin ja peräsuolen syövän tai poistamalla se kokonaan. Kaikkien tällaisia ​​malleja, laskemme todennäköisyyden perustuvia tulokset, jotka osoittavat, kuinka hyvin malli sopii tietojen mukaisesti äskettäin lähestymistapa [45], [46], [47].

Link

u

edustaa vaikutusta ennustaja muuttujia 25-OHD,

w

on vaikutusta 25-OHD on CRC,

WG

on vaikutusta ennustaja muuttujia CRC,

v

on vaikutusta mittaamatta sekoittavien tekijöiden on 25-OHD ja

wZ

on vaikutusta mittaamatta sekoittavien tekijöiden on peräsuolen syövän.

tulos, biomarkkereiden ja Predictor muuttujia.

tarkastella niiden suhdetta peräsuolen syöpä (tulos,

y

) ja May-standardoitu plasma 25-OHD (biologisten merkkiaineiden, jossa todellinen havaitsematon pitoisuus merkitään

x

ja vastaava meluisa mittaus merkitään

xt

) kuten esitetään kuviossa 1. Huomaa, että

xt

mahtuu mittausvirhe ja biologisia värähtelyjä. Me osuus

tunnetaan

sekoittavia sisällyttämällä vektori ennustaja muuttujia

g,

joka sisältää tiedot yleisistä ja ympäristötekijät (ikä, sukupuoli, painoindeksi, fyysinen aktiivisuus, suvussa CRC, tulehduskipulääkkeiden saanti, sosioekonominen asema, yhteensä kalorien saanti, alkoholin käyttö, tupakointi, kulutus punaista lihaa ja ravinnon D-vitamiinin saanti) ja geneettiset tekijät. Ennen analyysia kaikki ennustaja muuttujia skaalata olla: keskiarvo = 0 ja SD = 1.

Mittaamaton (tai piilotettu) sekoittavien tekijöiden.

Oletetaan, että yhteinen vaikutukset mittaamatta sekoittavat tekijät on biomarkkereiden ja lopputulos on noin lisäaine ja ne voidaan tiivistää kätkössä (latentti) muuttuja

z

(kuvio 1), jossa

z

noudattaa Gaussin jakaumaa, jonka odotusarvo = 0 ja SD = 1. Gaussianity piilevien tekijöiden on standardi oletus sekalaisen lineaarisia malleja [48] ja se voidaan perustella keskeinen raja-arvolause (joka oletetaan, että summa on suuri määrä riippumattomia vaikutuksia on suunnilleen normaalisti jakautunut tietyin edellytyksin). Rajoite on varianssi sekoitin on tarpeen sen varmistamiseksi tunnistettavuutta sen vaikutus biomarkkereita ja tuloksista me valitsemme niin, että sekoitin

z

sijaitsee samassa mittakaavassa kuin skaalattuna ennustaja muuttujia. Aikana päättely sekoitin on syrjään pois laskemalla keskiarvoja sen todennäköisyysjakauma, joka on standardi tapa osuus piilomuuttujina todennäköisyyslaskenta [41].

Model parametroinnin.

Agakov et al . esitteli Harva instrumenttimuuttujamenetelmää menetelmä (huijari) [46]. He olettavat, että kaikki ehdollinen jakaumat mallissa esitetty kuvassa 1 on lineaarinen Gaussin käyriin, jossa käänteinen gamma ennakkoarvoja varianssit kohinatermit, ja niukkuus aiheuttavia Laplace ennakkoarvoja kertoimet lineaarikuvausten [46]. Ne pitävät

mahdollisimman jälkikäteen

lähentäminen päättelyyn; määrittävät odotusarvon maksimoinnin (EM) algoritmia varustaakseen malli tietoihin ja käyttää ristivalidointi edelleen virittää hyperparameters. Olemme suurelta osin noudata tätä rakentaminen, mutta oletetaan binäärinen tulosmuuttujana

y

(tapaus /kontrolli) ja harva logistinen regressiomallin todennäköisyys CRC annetaan genotyypit, biomarkkereiden, ja piilotettu sekoittavat tekijät. Myös toisin kuin [46], sen sijaan että käytettäisiin pisteen arvioita parametrien, pidämme yleisempää koko Bayes hoitoa lähestytään Markovin ketju Monte Carlo (MCMC).

Priors /parametrit.

Samoin [49] tarkastelimme nollakeskiarvoista Laplace prioritodennäköisyydet lineaarisen kertoimet pitoisuus hyperparameter

gam1

. Mallit, joissa on suurempia

gam1

ovat todennäköisemmin niiden yhteyksiä karsittiin taka-tilassa (katso kuva S1) Meillä tutkia suhdetta CRC ja 25-OHD joukolle priorijakaumia (olettaen

gam1

on 0,025 ellei toisin mainita). Keskittymä nollan koodaa Uskomme, että suuret genotyyppistä ja fenotyyppivaikutukset ovat epätodennäköisiä, kun taas rasva hännät Laplace komponentin mahdollistavat mahdollisimman harvinaisia ​​isoa yhdistystä.

merkitään tarkkuudet (käänteinen varianssit) lineaarisia ennustavat kuin

precx

,

precxt

,

Precy

ja

precz

tosi 25-OHD, mittaus 25-OHD, vaikutukset taudin tilasta, ja mittaamatta sekoittavat tekijät vastaavasti. Näistä olemme käyttäneet niin kiinteitä arvoja varmistaa tunnistettavuuden osalta sattumanvaraiset vaikutukset ja osoittaa meidän uskomuksia suuruus havainnon melua, ja konjugaatin Gamma prioritodennäköisyydet. Pienemmät arvot täsmennyksiä vastaavat laajempaan luottamusvälit liittyy jokaisen mittauksen.

todennäköisyyspohjainen päättely ja mallin valinta.

Useat todennäköisyys perustuva tulokset voidaan periaatteessa pitää [50], [51] . Täällä valita paras malli käyttämällä poikkeavuuden tiedot kriteeri (DIC) helposti laskettavissa alkaen MCMC näytteistä [51]. DIC tasapainottaa sopivuuden laadun ja monimutkaisuuden mallin, joka auttaa välttämään overfitting. Suositut mallinnus hypoteeseja on ominaista alempi dics, joka tarjoaa parhaan yhdistelmän laatua ja yksinkertaisuus.

Mallit vertaillaan tarkastelemalla niiden DIC pisteet

eroja

. Karkeasti, absoluuttinen erot yli 10 yksikköä ehdottomasti sulkea pois malli korkeamman DIC, ja erot 5 ja 10 ovat merkittäviä [51], [52]. Tutkimme johdonmukaisuus paras malli eri oletuksia prioritodennäköisyydet kiinteän vaikutuksista kovariaattien, satunnainen vaikutusten sekoittavat tekijät, ja mittaus melua. Parhaan tällaisia ​​asetuksia, voimme myös verrata posterior tarkoittaa mallien ”deviances.

Kokeet

Kaikissa kokeissa käytimme koko joukko genotyyppisen tulokset ja ympäristötekijät, jotka liittyvät joko CRC tai 25-OHD. Tavoitteena kokeen 1 oli määrittää, kuinka tärkeää on mittaamatta sekoittavien tekijöiden ja niiden vaikutusta sen päättely syy. Vertasimme 3 mallia: täysi syy mallin sekoittavien tekijöiden (M1), syy-malli

ilman

sekoittavien tekijöiden (M2), sekä käänteinen malli

ilman

sekoittavien tekijöiden (M3) (kuvio 2A). Me sallitaan mahdollisuus pleiotrooppinen riippuvuuksia, joissa sekä biomarkkereiden ja lopputulos vaikutti ennustajan muuttujat (genotyypit ja ympäristötekijät). Mallit verrattiin sitten joukolle ennalta jakaumat ja oletuksia havainto melusta, ja paras mallinnuksen hypoteesin valittiin perustuen DIC pisteet.

. Experiment 1. M1 – täysi syy malli sekoittavat tekijät, M2 – syy-malli ilman sekoittavat tekijät, ja M3 – käänteinen malli ilman sekoittavien tekijöiden. B. Koe 2. Vertaamme tavanomainen syy (M4) ja tavanomaisen käänteisen syy (M5) mallit (molemmat (i) oletetaan puuttuminen dalmatialaistäpläisiä välineiden biomarkkereihin ja tuloksia, (ii) nimenomaisesti suljeta mittaamatta sekoittavat mallintamisesta ja (iii) huomioon melun mittauksessa) mallin, jossa assosiaatiota biomarkkereiden ja lopputulos on mallinnettu

täysin

mukaan mittaamatta sekoittavien tekijöiden (M6). C. Koe 3. Vertaamme täysi syy (M7) ja koko reverse syy malli (M8), mikä mahdollistaa pleiotrooppista suhteita ja osuus piilossa, mittaamatta sekoittavat tekijät.

Kokeessa 2, me pidetään meluisa laajennukset tavanomaisen syy (M4) ja reverse (M5) malleja LCMS lähestymistavan [26], [53], jossa on malli, jossa assosiaatiota biomarkkereiden ja lopputulos selitettiin kokonaan jota mittaamattoman sekoitin (M6), kuten on esitetty Kuvio 2B. Tämän kokeen tarkoitus oli kaksijakoinen: (i) osoittaa rajoittavuuden n oletus ei piilevän sekoittavat in LCMS, ja (ii) osoittaakseen, että Bayes hoito klassinen instrumenttimuuttujamenetelmää menetelmä [44] eivät pysty tunnistaa syy suosimalla ei-kausaalinen yli syy selitys. Kuten kokeessa 1, valitsimme paras malli erilaisia ​​ennalta parametriasetuksia.

tarkoituksena kokeessa 3 oli verrata koko syy ja kääntää malleja, joissa sekoittavien tekijöiden mallinnettiin eksplisiittisesti (kuvio 2C). Huomaa, että molemmat mallit ovat todennäköisyyttä yhtä; esim. Kunkin parametrien asetusta yksi olemassa parametrien asetusta muiden joka johtaa samanlaiseen todennäköisyyttä. Lähestymistapa pidetään tässä käsiteltävä kuten symmetria valitsemalla Laplace priorijakauma suuruuksista lineaarisen vaikutuksia, joita koodattu etukäteistä uskoa siihen, että hyvin suuri genotyyppistä ja fenotyyppivaikutukset ovat harvinaisia ​​(katso liite S1).

valmistelevassa vaiheen kokeilu 3, me katsoa riippumattomaksi prioritodennäköisyydet suoran assosiaatioita biomarkkereiden ja tuloksen (

gam1, w

linkki) ja vaikuttavat sekoittavat (

gam2

,

v

ja

wz

linkit), jotka tehtiin eri jotta edelleen joustavuuden lisäämiseksi menetelmän. Satunnaisotannalla 500 tapausta ja 500 valvontaa käytettiin tekemään tutkiminen eri ennakkokäsityksiä tehokkaampaa. Suoritimme useita ajojen Markovin ketjujen satunnaisesta alustukset tilille mahdollisesti vaihtelut poikkeavuuden tulokset (katso Menetelmät S1 lisätietoja) ja laajan priorijakaumia.

viimeisessä vaiheessa kokeilu 3, käyttäen täydellinen aineisto vertasimme täysi syy (M7) ja reverse (M8) mallit jossa sekoittavien tekijöiden mallinnettiin eksplisiittisesti. Suoritimme useita toistoja pitää niukkuus parametri

gam1

kiinnitetty paras arvo aiemmasta matalan ulotteinen vaiheessa, mutta vaihteli tarkkuudet tarkistaa johdonmukaisuuden tuloksista.

Tulokset

Tutkimusaineisto on kuvattu taulukossa 1. sekä raakaöljyn ja May-standardoitu 25-OHD tasot olivat yhteydessä CRC yksiulotteista mallissa (p = 1.2E-10 ja 6.9E-9, tässä järjestyksessä), malli ikä- ja sukupuoli (p = 3.5E-10 ja 2.9E-8, vastaavasti) ja täysin mukautettu malli (p = 5.5E-10 ja 2.0E-8, vastaavasti). Lisäksi ennustettu D-vitamiinin taso (käyttäen kaikkia covariates) liittyi myös CRC (p = 0,048), mikä viittaa siihen, että valittu covariates ovat ennustavia D-vitamiinin ja voidaan todellakin pitää pätevänä ehdokkaana välineitä. Tulokset olivat yhteneväiset kun tietoja jaettiin koulutusta ja testaus aineistoja (tuloksia ei ole esitetty).

Koe 1. merkitys sekoittavat varten päättely Causality

Ensimmäistä asetusta Experiment 1, DIC pistemäärät syy ja kääntää syy mallit ilman sekoittavien tekijöiden oli DIC

M2 = 42132 ja DIC

M3 = 41911, vastaavasti. Merkittävästi pienempi DIC sijoituksen reverse syy mallin (DIC ero = 221 yksikköä) ilmoitetaan sen paremmuus yli syy mallia. Kuitenkin DIC pisteet koko syy mallin sekoittavien tekijöiden (M1) oli merkitsevästi pienempi (DIC

M1 = -3797), jolloin saadaan erittäin suuri DIC ero 45929 ja 45708 yksikköä tueksi M1 verrattuna M2 ja M3 vastaavasti. Tulokset olivat yhdenmukaiset kaikissa testattu asetukset (taulukko 2). Tämä viittaa siihen, että malli osuus mittaamatta sekoittavien tekijöiden

ylivoimaisesti

päihittää mallit ilman sekoittavien tekijöiden.

Koe 2. Vertailua LCMS mallit

DIC pistemäärät tavanomaisen syy ja kääntää syy mallit pitävät LCMS [26], [53] oli DIC

M4 = 43347 ja DIC

M5 = 41915, vastaavasti ensimmäistä asetusta kokeessa 2. DIC pisteet ero 1,432 hyväksi M5 ehdottaa, että käänteisen syy-suhde 25-OHD ja CRC on todennäköisempää. Kuitenkin malli, joka olettaa

vain

epäsuora yhdistyksen välillä 25-OHD ja CRC kautta mittaamatta sekoittavien tekijöiden (M6), sopii tietojen huomattavasti parempi kuin kumpikaan aikaisempia malleja (M4 ja M5), kuten on ehdottanut DIC pisteet erot 43266 ja 41834 yksikköä, tässä järjestyksessä. Tulokset olivat yhdenmukaiset kaikissa testattu asetukset (taulukko 3).

Koe 3. päättely Causality välillä Plasma 25-OHD ja CRC

valmistelevassa vaiheessa kokeilu 3, suoritimme 30 vertailuja vaihteleva

gam1

ja

gam2

. Ei ole yllättävää, sillä harvemmassa mallit (suuremmat arvot

gam1

) ero tulokset täysi syy ja kääntää malleja tulee vähemmän merkittävää. Tämä on intuitiivinen, koska suurempien

gam1 of the mallit ovat noin irrotettu tuotannosta, ja mitään eroa johtuu pitkälti näytteenotto melu (kuva S1). Keskiarvo DIC laskettiin kullekin

gam1

ympäristössä, ja se vahvisti, että tiheä mallit sopivat tiedot parempi (-2801,12, -1816,54, -1598,58, -1571,33 ja -1557,48, vastaavasti).

Kun keskitytään tiheämpi malleissa (

gam1

≤0.25), in 15/18 toistojen oli ylivoimainen (DIC eroja välillä 10,6 3919) ja 2 huomattavia (DIC eroja 9.7 ja 5.2) todisteet hyväksi koko syy mallia, ja yhdessä iteraatio ei ollut mahdollista erottaa edullinen malli varmuudella, vaikka syy-malli oli suosinut (DIC ero = 3,2 yksikköä) (kuva 3). Tulokset vertailut on esitetty taulukossa 4 ja tarkemmin taulukossa S1.

DIC pisteet johtuvat erot vertailun täysi syy ja kääntää syy malleja, joukolle parametrin asetukset näkyvät. Positiiviset arvot ilmaisevat parempana syy mallia. Mean DIC (musta viiva) vastaa keskimääräistä DIC kaikkien syy ja kääntää syy mallien käyttöiälle (alempi keskimääräinen DIC tulokset viittaavat parempia malleja), minkä tahansa ympäristössä niukkuus

gam1

parametri (korkeampi

gam1

suosii harvemmassa mallit – välisten yhteyksien solmut ovat yhä todennäköisemmin karsittiin). Pidämme riippumaton gamma prioritodennäköisyydet annetun yhdistysten koskevat vaikuttavat sekoittavat (

gam2

), jotta vaimentamiseksi voimakas vaikutus sekoitin ja parantaa keinotekoisesti tärkeyttä välisen yhteyden 25-OHD ja peräsuolen syöpä. Kaiken optimaalinen malleja ovat tiheämpiä niitä (ominaista pienemmät arvot

gam1

parametri, useimmat linkit pysyvät mallissa), ja suuri positiivinen DIC eroja tarjota ylivoimainen näyttöä syy-yhteys, matalan 25-OHD ja peräsuolen syövän.

Lopuksi käytimme kaikkia saatavilla olevia tietoja verrata koko syy ja täysin kääntynyt syy malleja. Olemme johdonmukaisesti havaittu näyttöä tukeakseen syy-yhteys, matalan 25-OHD ja CRC. Kaikissa meluparametri asetukset selvitimme,

koko syy mallia parempaa selitystä tietoja kuin koko käänteisen syy-malli

: DIC erot olivat 580 ja 10715 yksikköä hyväksi koko syy mallin (kuvio 4 ja taulukossa 5, sillä DIC komponenttien taulukko S2).

DIC pisteet mallien erot näkyvät; positiiviset arvot osoittavat, että syy-yhteys on todennäköisempää. Mean DIC (punainen viiva) lasketaan keskiarvo DIC kaikkien syy ja kääntää syy malleja harkitaan tahansa parametrointia (pienemmät arvot osoittavat parempia malleja). Suuri positiivinen DIC erot tarjoavat ylivoimainen näyttöä syy-yhteys, matalan 25-OHD ja peräsuolen syöpä. * Asetukset: S1: precx = 1000, precxt = 1000, Precy = 0,1; S2: precx = 100, precxt = 100, Precy = 100; S3: precx = 1000, precxt = 1000, Precy = 10; S4: precx = 100, precxt = 100, Precy = 200; S5: precx = 20, precxt = 20, Precy = 200.

DIC pisteet lasketaan tässä [51] yleistää AIC tulokset käytetään päättelemällä suunnan kausaalisuuden LCMS [26], [ ,,,0],53]. On kuitenkin väitetty, että ne voivat underpenalize mallin monimutkaisuus [50]. Olettamalla täydellinen käänteinen malli on suunnilleen sama monimutkaisuus kuin täysi syy mallia, me lisäksi verrattuna parhaan syy ja käänteinen malleja niiden keskimääräinen posterior deviances (dBar). (Huomaa, että -1/2 dBar voidaan tarkastella myös nimellä ”jäähdytys raja” Termodynaamisen integraatio käytetään lähentämisnäkymistä marginaalinen todennäköisyydet mallien [54]). Jälleen löysimme todisteita 11,5 luonnon log-yksikköä hyväksi syy mallin.

Huomaa, että tämä on vastakkainen osumaa nimenomaisesti pois läsnäolo piilotettu sekoittavia (kokeet 1 ja 2); olemme kuitenkin osoittaneet, että mukaan DIC tulokset, mallit mahdollistavat piilotettu sekoittavat tekijät johtivat parempaan selityksiä tietoja kuin malleja, jotka eivät salli sekoittavien tekijöiden. Olemme myös johdonmukaisesti havaittu, että alhaisempi 25-OHD liittyvät CRC tapauksen tila. Yhdessä nämä tulokset viittaavat siihen, että plasmaproteiineihin 25-OHD tasot voivat olla syy liittyy CRC riski.

Keskustelu

Tässä artikkelissa osoitamme tukevien todisteiden välisen syy-yhteyden plasmaproteiineihin 25 -OHD ja peräsuolen syövän riskiä. Tutkimus suoritettiin toteuttamalla uusia menetelmiä, joka ulottuu tavanomaisen instrumenttimuuttujamenetelmää lähestymistapaa ja uudempi, todennäköisyys perustuva syy malli valintatapa [26], jonka osuus sekä sekoittavien tuntemattomien tekijöiden ja mahdollistaa pleiotrooppista suhteita.

huijari ja parantaminen on Methodology

Perinteiset lähestymistavat ongelman syy päättely perustuu vahvoihin ja usein epärealistinen oletukset tietoja. Käytännössä tällaisia ​​oletuksia voidaan rikottu, mikä voi johtaa huonoon malleja ja puolueellinen syy arvioiden [22], [55]. Jos yksi huolellisesti valitsee välineistä tai alaotoksia data noin tyydyttää rajoittavien oletusten päättely MR ja LCMS on matemaattisesti ääni, mutta tulokset ovat yleensä herkkiä valintoja ja voivat johtaa vaihtelevassa päätelmät [21], [46], [56]. Tässä tutkimuksessa sovelletaan erilaista, malli valinta perustuu strategia nimeltään huijari, jossa käsitellä yhdessä genotyypin tekijöitä ennustavan joko biomarkkereiden tai tuloksia turvautumatta voimakkaisiin oletuksiin klassisen menetelmiä. Se seikka, että sama ”täysi syy” malli selittää data parempi vaihtoehto mallinnus hypoteeseja esitetty monenlaisia ​​domain-tuettu ennen jakaumia indikoi mahdollista syy-yhteyttä ja perustelee edelleen ohjata kokeiluja.

Mallin valinta strategiapeli taustalla huijari kannattivat joitakin merkittävimpiä koneoppimisen tutkijat [41], soveltavat Schadt et al. osajoukon mallit [26], jota on kehitetty edelleen Agakov et al. [46], ja äskettäin teoriassa tutkittiin Winn [57]. Se tarjoaa merkittäviä laajennuksia yhteisiä menetelmiä ja voidaan käyttää myös tilanteissa, joissa suhteet ovat pleiotrooppisia tai sekoitti tuntematon /mittaamattoman tekijät (katso taulukko 6 ja Liite S1 tarkemmin). Lähestymistapamme mahtuu malleja taustalla perinteiset menetelmät rajoittavana erityistapauksissa.

Olemme aiemmin kuvattu käänteisen sekä plasman 25-OHD keskittyminen ja CRC tässä tutkimuksessa väestön. Kuitenkin tulokset Mendelin satunnaistamisesta tutkimuksen teimme eivät johtaneet tuloksiin [27].

Tässä tutkimuksessa soveltamalla huijari me johdonmukaisesti havaittu näyttöä tukeakseen syy-yhteys, matalan 25-OHD ja lisääntynyt riski CRC kun pleiotrooppisia ja vaikuttavat sekoittavat mallinnettiin eksplisiittisesti, joka on yhtä mieltä aikaisemmista töistä [58], [59]. Tällainen päättely oli mahdollista lieventämällä vahva oletuksia yhteisten lähestymistapojen ja hyödyntämällä Bayes valinta.

Vastaa