PLoS ONE: Bayesian Networks for Clinical Decision Support in Lung Cancer Care
tiivistelmä
Survival ennustaminen ja hoidon valinta keuhkosyövän hoitoon on tunnusomaista korkea epävarmuuden. Bayes-verkot (BNS), mikä luonnollisesti järkeä epävarma tietotaitoa voidaan soveltaa tukiin keuhkosyöpä asiantuntijoiden tarjoamalla yksilöllisiä eloonjäämisennusteet ja hoidon valinta suosituksia. Perustuu Englanti Keuhkosyöpä Database (LUCADA), me arvioimaan mahdollisuuksia BNs näiden kahden tehtäviä, kun taas verrataan esityksiä eri syy löytö lähestymistapoja paljastaa parhaiten toteutettavissa verkon rakennetta asiantuntemusta ja tietoa. Osoitamme ensin, että BN rakenne luotaessa kliinikot saavuttaa pettymys ala ROC-käyrän 0,75 (± 0,03), kun taas rakenne opittu CAMML hybridi syy löytö algoritmi, joka kiinnittyy ajallisen rajoituksia, saavuttaa 0,81 (± 0,03) . Toiseksi, meidän syy interventio tulokset paljastavat, että BN hoitosuosituksia, jotka perustuvat määrättäessä hoitosuunnitelma, joka maksimoi selviytymisen, voi vain ennustaa tallennettu hoitosuunnitelma 29% ajasta. Tämä osuus nousee 76%, kun osittaiset osumat ovat mukana.
Citation: Sesen MB, Nicholson AE, Banares-Alcantara R, Kadir T, Brady M (2013) Bayesian Networks for Clinical Decision Support in Lung Cancer Care. PLoS ONE 8 (12): e82349. doi: 10,1371 /journal.pone.0082349
Editor: Raffaele Calogero, University of Torino, Italia
vastaanotettu: 29., 2013 Hyväksytty: 30 lokakuu 2013; Julkaistu: 06 joulukuu 2013
Copyright: © 2013 Sesen et al. Tämä on avoin pääsy artikkeli jaettu ehdoilla Creative Commons Nimeä lisenssi, joka sallii rajoittamattoman käytön, jakelun ja lisääntymiselle millä tahansa välineellä edellyttäen, että alkuperäinen kirjoittaja ja lähde hyvitetään.
Rahoitus: Tämä tutkimus on rahoittanut Clarendonin ja New College Graduate Apurahat läpi CDT Terveydenhuollon innovaatio-ohjelman Biomedical Engineering Institute of Oxfordin yliopiston. MB myöntää tukea theCancer Research Iso-Britannia /Engineering ja fysikaalisten tieteiden tutkimusneuvosto Oxford Cancer Imaging Centre. Myöntää EAKR: varoista ja Espanjan hallituksen (Ministerio de Ciencia e Innovación) kautta hanke TIN2010-20900-C04-03. Rahoittajat ollut mitään roolia tutkimuksen suunnittelu, tiedonkeruu ja analyysi, päätös julkaista tai valmistamista käsikirjoituksen.
Kilpailevat edut: Tekijät haluavat julistaa, että yksi kirjoittajista, TK, työskentelee kaupallinen yritys: Mirada Medical. Tämä ei aiheuta mitään eturistiriitoja, jotka liittyvät työhön esitetty. Lisäksi kirjoittajat haluaa korostaa, että tämä ei muuta niiden noudattamista kaikki PLoS ONE politiikan tietojen jakamista ja materiaaleja.
Johdanto
kiihtyvä suuntaus henkilökohtaisen lääketieteen, rinnakkain nopean kehityksen eri koneoppimisen (ML) työkalut, on synnyttänyt hyödyntämistä lääketieteellisen aineistoja ehdottaa ja ennustavia vaihtoehtoja, siihen pisteeseen jopa suositella yksilöllisiä hoitosuunnitelmia [1,2]. Yhteydessä kliinisen päätöksenteon tuki (CDS), ML työkaluja käytetään auttamaan kliinikot saapuu enemmän tietoon hoitopäätöksiä perustuu aikaisempiin potilastietoja. Tällaiset järjestelmät toimivat yleensä sovittamalla potilastietueen tietojen ”oppinut” aiemmista potilastietoja, jolle määrättyä hoito suunnitelmia ja hoitotuloksia tunnetaan.
Medical aineistot ovat yleensä ominaista niiden epätäydellisyys ja meluisuus, jotka aiheuttavat merkittävä epävarmuus käsiteltäessä niitä [2]. Kaiken kaikkiaan epävarmuus leimaa syy lääketieteessä, vaikka sitä ei aina selvästi. Esimerkiksi on aineisto, joka sisältää ”Age” ja ”Survival”, syy-yhteyttä näiden kahden välillä on ilmeinen, vaikka se ei ehkä ole helppo paikantaa jonka kautta muuttujat voidaan todeta. Vielä tärkeämpää on, epävarmuus syntyy myös luonnostaan potilaiden hoitoprosessien että tietojen taustalla, eikä vähiten kysymyksiä: ”Mikä on todennäköisyys selviytymisen tässä potilasryhmässä?” Ja ”Miten erilainen kohtelu päätökset vaikuttavat tämä todennäköisyys?”
Hyvä esimerkki hoitopaikassa, jossa epävarmuus on kaikkialla, on hoito valinta syövän hoitoon, missä monimuotoisuus potilaan ja taudin ominaisuudet ja nopeasti laajeneva hoitovaihtoehtoja usein läsnä ongelmia koskien optimaalista hoitopäätökset [ ,,,0],3]. Seurauksena monimutkainen ja monialaisuudesta ja päätöksenteossa, hoito suunnitelmia syöpäpotilaiden hoidetaan moniammatillisessa työryhmässä (MDT) kokoukset että liikkeelle yhteinen asiantuntemusta lääkärit eri erikoisaloja.
Henkilökohtaisia selviytymisen ennustaminen ja hoidon valinta on tärkeä merkitys MDT ympäristössä. Hoitojen vastaus ensimmäiseen edellä olevista kysymyksistä koskee ennustetekijöitä perustelut [4]. Tarkan ennusteen säilyminen voidaan osittaa syöpäpotilaille eri riskiryhmiin ja mahdollisesti tukea suunnitteluun yksilöllisten suunnitelmien [5,6]. Lisäksi ennustettu selviytyminen tieto voi myös olla ratkaiseva hallinnassa potilaan ja omaisten odotukset hoitotuloksia [7]. Probabilistisena ilme, tämä prognostisia kysymys voidaan merkitä ”P (Survival = Alive | Evidence) =?”. Käyttämällä BN, tähän kysymykseen voidaan vastata kautta havainnoiva päättelyyn, jossa painopiste on löytää posteriorijakauma kyselyn muuttuja: Survival, ehdollinen havaitun Todisteet muihin solmuihin.
Sitä vastoin toinen kysymys, joka kyselee hoidon vaikutuksia valinnat ennustetekijöiden tulokseen, käsitellään käytännöllinen tavoite parantava cancer hoito. Luonnollisesti, jos ennuste potilas on huono, lopullinen päämäärä saattaa olla lievitykseen ja oireiden hoitoon, pikemminkin kuin lisätä todennäköisyyttä selviytymisen. Mitä todennäköisyysteoriaa, tämä kysely merkitään ”P (Survival = Alive | Todisteet, T) =?”, Jossa T edustaa hoitosuunnitelman muuttuja. Verrattuna edelliseen, tämä kysely pyrkii löytämään posteriorijakauma Survival ehdolla T, joka on – toisin kuin Evidence jätetyn aikaan kysyvät. Toisin sanoen kysymys on hypoteettinen ja ei voi vastata yksinkertaisesti todetut arvot tähän pisteeseen. Jotta ennustaa mitä eloonjäämistä tulee olemaan, antaa erilaisia hoitovaihtoehtoja, meidän täytyy tehdä syy interventio, jonka avulla voimme kysyä ”Mitä jos?” Kysymyksiä. Tämäntyyppinen syy päättely on erittäin tärkeää CDS sovellusten ja ei ole yhteensopiva erottelevia ML menetelmiä kuten regressiomalleja [8,9].
Bayes-verkot
BNs mahdollistavat syy perustelut toimialueen käsitteiden visuaalisesti houkutteleva ja intuitiivinen tavalla verrattuna moniin muihin ML tekniikoilla [9], ja niitä voidaan käyttää edellä mainittuihin kliinisiin kysymyksiin. Ne koodaavat epävarma tietotaitoa luonnollisella tavalla. BN koostuu suunnattu syklitön verkko (DAG), ja taustalla yhteinen todennäköisyysjakauma, jotka yhdessä tarjoavat matemaattisesti ääni ja kompakti tapa koodata epävarmuus tietyllä alalla. Alusta alkaen, lääketieteen tietotekniikka on tärkein kehittämisen BNs [10,11]. Tämä johtuu osittain niiden kyvystä intuitiivisesti kapseloida välisiä syy-yhteyksiä diagnostinen tai ennustavia tekijöitä, jotka on tallennettu lääketieteen aineistot [4,12,13].
BNs ovat sopivia työkaluja todennäköisyyksiin päättelyyn, jotka voivat tukea kliinistä päätöksentekoa, koska 1) niiden graafisen luonne mahdollistaa niiden sisältämät tiedot on helppo ymmärtää kliinikon [14]; 2) ne voivat muodollisesti sisällyttää aiempaa tietoa ja oppia rakenne ja parametrit verkon [15]; 3) ne helpottavat parametrinestimoinnin johtuu niiden kompakti edustus yhteisten todennäköisyysavaruuden; 4) ne eivät vain salli havaintoihin päättelyyn vaan myös syy toimenpiteitä [9]; 5) niitä voidaan käyttää kyselyn tahansa verkon solmu, ja näin ollen huomattavasti monipuolisempi kuin luokittelijoiden rakennettu perustuu erityisiin tulosmuuttujien; ja 6) ne toimivat hyvin tekemään ennusteiden puutteellisia tietoja, koska ennustaja muuttujia käytetään arvioida paitsi hakumuuttuja vaan myös keskenään [16] [5,17]. Yksityiskohtainen kattavuus BNs lukija viitataan [9,13].
Ensisijainen motivaatio Tämän työn on tutkia mahdollisuuksia kehittää BNs tarjota päätöksenteon tueksi selviytymisen ennustamiseen ja hoidon valinta keuhkoissa cancer hoito. Keuhkosyöpä on johtava syy syöpään liittyvän kuolleisuuden kaikkialla maailmassa [18] [6]. Analyysien perustuvat anonyymin osajoukko Englanti Lung Cancer tietokanta (LUCADA), joka sisältää yli 126.000 potilasta, joilla oli diagnosoitu vuosien 2006 ja 2010. Hyödynnämme tätä suurta ja ainutlaatuista aineisto kehittämään ja arvioimaan useita BNs joiden rakenteet ovat oppinut puolestaan käsin, automaattisten ja hybridi lähestymistapoja. Rakenne oppiminen BNs edelleen jotain kikkailua joten toissijainen tavoite on paperin sopivuuden arvioimiseksi eri menetelmiä paljastaa syy rakenne verkkotunnus käyttäen tosielämän lääketieteellinen aineisto koosta ja monimutkaisuudesta LUCADA.
Literature Review
Cruz ja Wishart [19] raportin mukaan uuden ML tekniikoita ennusteen ennustuksen ja hoito valinta on varsin tuore. Olemassa kirjallisuutta BNs ja syöpää koskee pääasiassa sovelluksia avuksi diagnoosin, riskien arviointi ja selviytymistä ennustaminen. Lisäksi eri syövän verkkotunnuksia, on ollut keskittyminen sovelluksiin rintasyövän [20-24] verrattuna BN sovelluksia muiden syöpien [5,7,25-28].
Mitä asiaa BN sovellusten eloonjäämiseen ennustus, julkaistu tutkimus vuonna 2011, jonka tarkoituksena on ennustaa 1 vuoden elinikä 189 potilailla, joilla on luuston etäpesäkkeitä, Forsberg et al. saavutettu hyviä ennustavaa suorituskykyä ala ROC-käyrän alla (AUC) 0,83 [7]. Uudemmassa tutkimuksessa perustuu huomattavasti suurempaa aineisto, joka sisältää 146248 potilastietoja, Stojadinovic et al. rakensi BN suorittamaan yksilöllisiä selviytymisen ennuste paksusuolensyöpä, raportointi AUC-arvo on 0,85 [16]. Kumpikaan näistä tutkimuksista verrattiin soveltuvuutta eri lähestymistapoja syy löytö domeenirakenne. Lisäksi sekä syy interventioita ja toteutettavuuden hoitosuosituksia mukaan BNS olivat poissa soveltamisala kummassakin tutkimuksessa.
keskittyminen keuhkosyöpä tiettyjä sovelluksia BNs, vuonna 2010 Jayasurya et al. suunnitteli BN voidakseen ennustaa selviytymisen ei-pienisoluinen keuhkosyöpä (NSCLC) saaneilla potilailla sädehoitoa. He päättelivät, että BN malleja saavuttaa korkeampi ennakoivan suorituskyvyn puuttuvia tietoja verrataan tukivektorikoneet ja ovat siten sopivia lääketieteellisten verkkotunnuksen [5]. Eräässä teknisesti suuntautuneita julkaisu, Oh et al. ehdotti BN rakenne oppimisen algoritmi, joka yhdistetään sekä fysikaaliset ja biologiset tekijät ennustavat paikalliset epäonnistumista keuhkosyövän [27]. Kuitenkin molemmat tutkimukset perustuivat aineistoja, jotka sisälsivät rajoitettu määrä potilastietojen -For Yhdessä tutkimuksessa [27] vain 18 patients- edellyttävät lisääntymään suurempiin aineistoihin.
Yhteenvetona lukuisia tutkimuksia raportoinnin soveltamisen BNs syöpään on rajoitettu. Lisäksi lukuun ottamatta kourallinen poikkeuksia, useimmat julkaistut tulokset ovat alustavia tutkimuksia perustuu rajallisiin potilastiedot. Tietääksemme ei ole aiempaa työtä, jossa otetaan huomioon histologisia, kliiniset ja demografiset tiedot perustuvat kansalliseen aineisto koon LUCADA, olemassa selviytyminen ennustaminen tai hoitosuosituksen keuhkosyövässä.
Materiaalit ja menetelmät
The National Lung Cancer Audit (NLCA) on kerännyt sähköisiä potilastietoja voitaisiin Englanti Keuhkosyöpä Database (LUCADA) vuodesta 2004. kautta tietojen jakamisen välisen NLCA ja Oxfordin yliopisto, meillä on ollut pääsy ilman nimiä osajoukko LUCADA aineisto voidakseen tehdä tutkimusta biolääketieteen tekniikan aloilla kliinisen päätöksenteon tueksi ja koneoppimisen. Tämä aineisto sisältää 126986 Englanti potilastietoja syöttänyt järjestelmään alusta 2006 loppuun 2010. Kaikki mahdollisesti potilaan tunnistetietoja, poistettiin NLCA ennen päätöksentekoa saatavilla olevat tiedot.
Koska LUCADA kerätään pääasiassa tarkastuksia varten, se sisältää monia hallinnollisia muuttujista, jotka tangentiaalisen kiinnostavia tässä tutkimuksessa. Tulon perusteella meidän kliinisen yhteistyökumppaneita ja kirjallisuuskatsauksen, fokusoimme analyysejä 13 useimmin LUCADA muuttujia suurten kansallisten ja kansainvälisten keuhkosyövän hoitoon ohjeaineistojen [6,29-31]. Lisäksi niiden kliinistä merkitystä, nämä valittiin sen perusteella, että tuolloin käytettävissä uusi potilas esitetty hoito päätöksen MDT. Nämä muuttujat on lueteltu taulukossa 1.
koodi
Nimi
arvot
ajallinen Taso
1Age 50; 50-60; 60-70; 70-80; 80Pre-treatment2Staging Identifier6; 7Pre-treatment3FEV1 Absolute Määrä 1,0; 1-1,5; 1,5-2,0; 2.0Pre-treatment4FEV1 Prosentti 30; 30-40; 40-80; 80Pre-treatment5Performance Status0; 1; 2; 3; 4Pre-treatment6Number of Comorbidities0; 1; 2; 3; 4; 5Pre-treatment7Primary DiagnosisC33; C34; C34.0; C34.1; C34.2; C34.3; C34.8; C34.9; C38.4; C38.3; C38.8Pre-treatment8Tumour LateralityLeft; Oikea; keskiviivan; kahdenväliset; Ei ApplicablePre-treatment9TNM CategoryIA; IB; IIA; IIB; IIIA; IIIB; IV; UncertainPre-treatment10HistologyM8010 /2; M8041 /3; M8046 /3; M8070 /3; M8140 /3; M8250 /3; M8012 /3; M8020 /3; M8013 /3; M8240; M8980 /3; M8940 /3; M9999 /9Pre-treatment11Site-spesifinen Staging ClassificationLimited; laaja; UnknownPre-treatment12Suggested syövän hoidossa planListed taulukossa 2Treatment131-v SurvivalAlive; DeadPost-treatmentTable 1. 13 potilasta ja tautikohtaisten muuttujat LUCADA, yhdessä arvojen he voivat ottaa ja niiden ajallinen tilauksia.
CSV Lataa CSV
Taulukossa 1 ensimmäinen 11 muuttujat ovat luokiteltu ”pre- hoito muuttujat ”. Ne sisältävät tietoa potilaan tai sairauden erityisiä näkökohtia potilastietueen, joita tarvitaan ennen hoidon päätös tehdään. Niistä potilas liittyvä yksityiskohtia listattu: ”Performance Status” tarkoittaa yleistä fyysistä hyvinvointia, kun taas ”FEV1 absoluuttinen määrä” ja ”FEV1 Prosentti” säilytä keuhkojen kapasiteetti (tarkemmin, uloshengityksen 1 sekunti) potilaan. Lisäksi ”lukumäärä komorbiditeettien” antaa tietoa useita merkittäviä samanaikaisia sairauksia, kuten sydän- ja verisuonitauteja ja munuaisten vajaatoimintaa, että potilas on aikaan diagnoosin.
Yksi tauti muuttujia , ”Primary Diagnosis” tunnistaa ICD-10 koodi [32], joka kuvaa parhaiten sijainti ja yleinen sairauden tyypin. ”Histologia ’osoittaa SNOMED koodi [33] on histo-patologinen tyyppi primaarikasvaimen, ja amerikkalaisen sekakomitean Cancer (AJCC) määritelty” TNM luokkaan ”yhteenveto yleinen sairauden vakavuudesta suhteen kasvaimen koon ja leviäminen syöpäsoluja. Samoin ”Site-specific Staging luokittelu varastoihin, onko tauti on rajoitettu tai laaja pienisoluinen keuhkosyöpä potilaita.
”Suositeltu syövän hoitosuunnitelma” muuttuja tallentaa hoitoa annetaan potilaalle. Lopulliset hoito ei-metastasoituneen keuhkosyöpä on kirurginen resektio. Koska useimmat potilaat ovat vasta diagnosoitu, kun tauti on edennyt pitkälle, vain 10-15% potilaista voidaan hoitaa leikkaus [34,35]. Taulukossa 2 luetellaan kaikki käytettävissä hoitosuunnitelma tyyppejä sisällä LUCADA sekä niiden taajuudet. Tässä taulukossa kaikista hoitoon tyypit, lukuun ottamatta lievittävä hoito (5) ja Aktiivikaiutin (6), luokitellaan parantavia hoitoja. Hoitoja koodattu 1, 9, 10 ja 11 ovat ne, jotka sisältävät kirurgisen resektion. Loput hoidot, koodattu 2, 3, 7 ja 8, käsittää yksittäiset kemoterapiaa ja sädehoitoa tai näiden kahden yhdistelmä.
Koodi
nimi
prosenttiosuus (%) B-1Surgery102Radiotherapy14.793Chemotherapy195Palliative care236Active Monitoring97Sequential kemoterapiaa ja radiotherapy78Concurrent kemoterapiaa ja radiotherapy19Induction kemoterapiaa downstage ennen surgery0.0810Neo-adjuvanttihoitoa ja surgery0.1311Surgery seurasi adjuvantti chemotherapy2-Null14Table 2. käytettävissä hoitosuunnitelma vaihtoehtoja LUCADA ja niiden taajuudet.
CSV Lataa CSV
Lopuksi taulukossa 1 ”1 vuoden eloonjääminen” muuttuja sisältää selviytymisen tulos tiedot kaikista potilastietoja. Syövän hoito, 5 vuoden pysyvyys on yleisimmin käytetty rajakohta mitata tautivapaan elinajan. Koska LUCADA ei vielä sisällä paljon potilaan tiedot 5 vuoden pysyvyys, käytämme 1 vuoden eloonjääminen korvikkeena tulosmittari. Tämä valinta on tuettava sekä kliinisen yhteistyökumppaneiden ja kirjallisuudessa, joka raportoi lähes kaikki parannusta keuhkosyöpää selviytymisen että ne voidaan kohdistaa kasvuun 1-vuoden eloonjäämisen [36,37]. Yleinen ”1 vuoden eloonjääminen” korko sisällä LUCADA on 33%.
Pre-käsittelystä LUCADA aineisto
Ennen suunnittelemalla joukon domain-specific BNs, ensin analysoidaan ja esikäsitellyt LUCADA aineisto. Tietojen esikäsittely- on ratkaiseva askel tahansa koneoppimisen liikunta, koska luotettavuutta ennustava malli riippuu ratkaisevasti tietojen laatua käytettyjen [38]. Tätä varten suoritimme seuraavat esikäsittelyä vaiheita.
Ensin manuaalisesti poistaa nämä tiedot, joissa potilas oli diagnosoitu mesoteliooma, koska meidän painopiste oli NSCLC ja pienisoluinen keuhkosyöpä (SCLC) potilaat . Lisäksi poistimme ne potilastietoja, jolle tallennetun hoitosuunnitelma oli Brakyhoito (alle 100 potilasta, joten on epätodennäköistä) tai ei ollut 1-vuoden pysyvyys tietoa. Nämä poistot vähensi havaintoja saatavilla aineisto välillä 126987 ja 117426.
Toiseksi meidän diskretisoidaan ”
Age
”, ”FEV1 Prosentti” ja ”FEV1 Absolute määrä” tietokenttiä, jotka ovat ainoat ei-kategorinen kenttiä LUCADA aineisto. Vaikka on mahdollista rakentaa BNs kanssa jatkuvia muuttujia, suurin osa kliinisiä sovelluksia tähän mennessä käyttää kategorisen muuttujat [4]. Nämä kolme muuttujaa olivat diskretoidaan perustuvat kliinikon lausuntoihin ja katkaista arvoja ohjenuorana sääntöjä. Vaikka on olemassa erilaisia tekniikoita automaattisen discretisation jatkuvan muuttujien [39-41], saatavuus raja-arvojen sisällä ohjeaineistojen ja kliininen työtoveri neuvoja meille mahdollisuuden manuaalista discretisation perustuu kliinisesti merkittäviä välein. Nämä asiantuntija esiin väliajoin ovat taulukossa 1.
Kolmanneksi, kehitimme strategian käsitellä puuttuvat tiedot, joka sisältää 32% of LUCADA. Data keskeneräisyys on tosiasia kliinisten aineistoja [5,42] ja sen mukaan, miten epätäydellisyydestä minkään muuttujan liittyy muihin muuttujiin, puuttuvat tiedot yleisesti mallinnetaan perustuu yhteen kolmesta eri oletusten: 1) puuttuva täysin sattumanvaraisesti (MCAR); 2) puuttuva sattumanvaraisesti (MAR); tai 3) ei puuttuu sattumanvaraisesti (NMAR), jossa jälkimmäinen sisältää kaikki ne tapaukset, jotka eivät kuulu 1 tai 2, ja sellaisena mainittu edellyttää mallinnuksen puuttuvat tiedot yksiselitteisesti.
Kaksi yleisintä menetelmistä käsitellä MAR tietoa Odotus maksimaatiotesti (EM) ja Multiple Imputoinnilla (MI) [43]. Kuitenkin on muistettava, että sekä EM MI ovat laskennallisesti monimutkaisia algoritmeja, jotka eivät välttämättä ole soveltuvia suurten aineistojen ja korkeaa keskeneräisyyden. Vielä tärkeämpää on, niiden käyttö riippuu olennaisesti pätevyyteen MAR oletukseen, jota ilman ne johtavat puolueellisia arvioiden [44]. Graham neuvoo, että ”paras tapa ajatella kaikki puuttuvat tiedot on jatkumona välillä MAR ja MNAR” ja yksi on päätettävä, onko MAR rikkoo tietyn tietojoukon on tarpeeksi suuri tehdä arvioiden MI ja EM pätemätön [45 ].
Ilmoitti meidän vuorovaikutus NLCA henkilökunta, päättelimme, että NMAR puuttuvien oli näkyvästi LUCADA ja hyväksymiseen EM tai MI saattaa olla kielteisiä vaikutuksia. Tämän seurauksena olemme päättäneet mallintaa ”puuttuvien” nimenomaisesti antanut yhteydessä. Itse asiassa, puuttuvat tiedot malleja kliinisissä aineistot ovat usein korreloi kliinistä merkitystä puuttuvia arvoja tietylle potilaalle ja voi usein ilmentävät tietoja [42,46]. Sen arvioimiseksi, onko puuttuminen tietojen LUCADA data voisi olla hyödyllistä tietoa rakennuksen ennustemallit, meillä oli joukko kokeita valituilla 13-muuttujan osajoukko kanssa 117426 potilastietoja.
Tämän vuoksi päätimme 1 vuoden eloonjääminen meidän binary tulosmuuttujana ja erotettu muusta aineisto kuin meidän ennustematriisin. Tämän jälkeen olemme valmiita binary indikaattori matriisi ”, jonka tekijät ovat nolla tai yksi riippuen siitä, onko vastaavien elementtien ennusteen matriisin havaittiin tai puuttuvat. Me tulo tuloksena ilmaisin matriisi osaksi Naiivi Bayes [47] ja Logistinen regressio [47] algoritmeja ja kussakin tapauksessa ennustettu 1-vuoden pysyvyys. AUC-arvot ja ennakoivan tarkkuus prosenttiosuudet saavutetaan liitettävä tiedot epätäydellisyys yksin annetaan taulukossa 3. Ilmoitetut arvot taulukossa ovat keskiarvoja ja keskihajonnat 10-kertainen ositettu ristivalidointi tuloksia.
Keskimääräiset AUC
Std. Dev. AUC
keskiarvo Tarkkuus
Std. Dev. Tarkkuus
Logistic Regression0.720.024720.37Naive Bayes0.690.021710.36Table 3. ala käyrän alla (AUC) ja ennakoivan tarkkuus suorituskyvyn tulokset puuttuvat tiedot indikaattorin matriisi ennustettaessa 1 vuoden eloonjäämisen tuloksen.
CSV Lataa CSV
Nämä tulokset osoittavat selvästi, että puuttuvat tiedot kuvio on todella erittäin informatiivinen ennustettaessa 1 vuoden selviytymistä LUCADA aineisto. Tästä syystä päätimme mallintaa puuttuvat tiedot yksiselitteisesti meidän analyyseissä. Näin käytimme PostgreSQL [48] kyselyitä korvata null havaintoja tietokantaan, jossa on selkeä ”Tuntematon /Puuttuva” tilaan.
kokeelliset menetelmät
soveltuvuus BNs ja ennustavat 1 vuotisen selviytyminen LUCADA aineisto oli motivoitunut edellä. Rakenne oppiminen liittyvän DAG voidaan suorittaa käsin tai, kun läsnä on kattava tietojoukko, automaattisten syy löytö algoritmeja. Meidän kokeissa vertasimme uskottavuuden DAG rakenteita, jotka olivat 1) luotaessa kliinikot käsitystä verkkotunnuksen; 2) oppinut tiukasti datasta; ja 3) oppinut kautta hybridi lähestymistapa, johon sisältyy asiantuntijan tietämyksen automaattiseen rakenteeseen oppimiseen.
Expert herättänyt rakenteet ovat hyvin yleisiä kliinisissä sovelluksissa, koska syy-suhteet eri muuttujien ymmärretään hyvin lääkärit. Lucas et ai. raportissa, että monet BNs [28,49-55] kehitetty tosielämän sovelluksia biolääketieteen ja terveydenhuollon on rakennettu käsin [4]. Kuitenkin, kuten BNs ovat alttiita subjektiivisiin harhat ja ei ehkä pysty täysin kaapata tilastollinen allekirjoitukset (esimerkiksi riippumattomuuksille), jotka ovat epäsuorasti tietoja. Nämä voivat johtaa heikompaan malleissa, erityisesti silloin, kun lopullinen päämäärä on taka parametrinestimoinnin tai luokittelua, sen sijaan että nimenomaisen syy suhteita ymmärtää paremmin ongelman verkkotunnuksen.
Sitä vastoin automaattinen oppiminen syy rakennetta BN datasta on aktiivinen haaste harjoitettu ML, erityisesti koska ei ole ainutlaatuinen BN, joka edustaa yhteisen todennäköisyysjakauman antama data [9]. Yleisesti, automaattinen rakenne oppimista algoritmeja voidaan luokitella: 1) Constraint-pohjainen algoritmeja, jotka käyttävät ehdollisen riippumattomuuksille; ja 2) Pisteet-pohjainen haku algoritmeja, jotka etsiä DAG malli, joka maksimoi metrinen pisteet syy mallissa tilaa [13]. Rajoite perustuvat menetelmät keskittyvät toipumassa syy rakenne perustuu ehdolliseen riippumattomuuksille tiedoissa. Meidän kokeissa olemme käyttäneet parannettu versio päätellä Syy (IC) algoritmi kuvatulla [56] ja toteuttaa Bouckaert vuonna WEKA 3 [57].
pisteet-pohjainen haku algoritmeja hyödyntää decomposable tulokset, jotka mahdollistavat kokonaispistemäärä varten DAG lasketaan summana (tai tuote) ja yksittäinen solmu tulokset verkossa. Meidän kokeissa olemme käyttäneet K2 pisteet [58], joka on eräänlainen Bayes pisteet [58-60], jotta voidaan laskea yhteistä todennäköisyys kuvaaja (G) ja aineisto (D) [58] . Yleinen yhtälö Bayes pisteet annetaan yhtälössä 1.
(1)
automaattiset oppiminen algoritmit esitetään tässä paperissa toteutettiin joko Matlab BNT Toolbox [61] tai WEKA 3 [57] koneoppimisen ohjelmisto. Erityisesti meidän kokeita käytimme seuraavat pisteet-pohjainen haku algoritmit: 1) Tree Augmented Naiivi Bayes (TAN), joka otettiin käyttöön Friedman ja Geiger kuin lieventämistä voimakas itsenäisyyden oletus välillä ennustaja muuttujia Naiivi Bayes luokitin [ ,,,0],62]. Versio TAN käytimme toteutettiin WEKA 3; 2) K2, joka ehdotti [58] ja toteutettu BNT välineistä; 3) Markovin ketju Monte Carlo malli Hajoaminen MC
3, ehdotti ensimmäisenä Madigan ja Yorkissa [63] ja toteutettu BNT välineistä; ja lopuksi 4) simuloitu jäähdytys etsimiseksi tilaa kaiken todennäköisyyden malleja, kuten toteuttaa Bouckaert vuonna WEKA 3 [57].
Näiden lisäksi täysin automatisoitu algoritmeja, myös tutkittu käyttämällä hybridi rakenne oppiminen algoritmi, nimeltään Syy Minimi Message Length (CaMML) [64], joka mahdollistaa erityyppisten asiantuntijatiedon, kuten ajallisten tasojen (A tapahtuu ennen B, merkitään A ≺ B), suora suhteet (A ja B liittyvät, merkitään A – B) ja suora syy-yhteyksiä (A vaikuttaa suoraan B, merkitään A → B), olisi otettava osaksi automatisoitu oppimisprosessia. Sillä rakenne oppiminen, käytimme Java täytäntöönpanoa CaMML, kehitetty Monash University. Aikaisemmin on käyttää Flores et ai. [15] ja Twardy et ai. [65] oppia kliininen syy rakenteiden toimialueen sydän. Kaiken kaikkiaan yhteinen ominaisuus kaikille rakenteesta oppimisen algoritmeja käytettiin että ne oletetaan kaikki muuttujat on diskreetti ja aineisto noudatettava täysimääräisesti.
Kokeellinen asetukset
Kaikissa BN kokeita, me edustaa yhteistä jakaumat käyttäen ehdollinen todennäköisyys taulukoita (värikuvaputkia), joka opittiin kautta suurimman uskottavuuden arvioita olettamalla yhtenäinen Dirichlet priorijakaumia kaikkien erillisen muuttujan. Tämä ”tasaantui pelikenttä” kannalta parametrointi. Olemme keskittäneet toimemme vertaamalla vaihtelu rakenteen oppimisen algoritmeja.
suorittaa kaikki kokeet jakamalla valitun 117426-potilas-vahva osajoukko LUCADA osaksi 10 yhtä suureen osaan suunnilleen yhtä suuri ennen lopputuloksen todennäköisyydet, jossa todennäköisyys 1 vuoden eloonjääminen oli 0,33. Kutakin BN koetta, rakenne ja parametrien oppimiseen suoritettiin 9 osiot ja testattu jäljellä yksi. Iteroimalla Tämän prosessin aikana kaikki kymmenen osiot, varmistimme sisällyttämistä kaikkien potilastietojen kokeissa. Esitykset Kaikkien syy BNs ja muut ennustavia malleja arvioitiin AUC-arvot ja ennakoivan tarkkuus prosenttiosuudet näiden ositettu kymmenkertaisia rajat vahvistukset.
koejärjestelyistä jonka olemme oppineet rakenteen ja parametrien ja raportoida ennakoivan suorituskyvyn mittaamisen keskenään algoritmi on esitetty yhteenvetona kuviossa 1. Kunkin taitteen ristivalidointi, me erotti aineisto D (xv) osaksi koulutus ja testi sarjaa. Käytimme koulutusta asetettu oppia DAG ja parametrit BN, ja sitten testissä arvioida ennustavan suorituskykyä oppinut rakenteen. Tämän olemme edusti DAG (xv) kunkin taitoksen muodossa, loogista vierusmatriisi. Lopussa ristin validointi, me syöttää DAG array, joka koostui kaikkien rakenteiden opittu 10-kertaiseksi cross validointi, osaksi suunnattu enintään virittävän puun (MWST) algoritmi hankkiakseen tuloksena DAG
lopullinen. Sitten hyödyntäneet Bayes tulosmetriikkana, määritelty kaavassa 1, jotta voidaan laskea P (D, DAG
lopullinen).
pseudo-koodi koejärjestely oppimiseen ja arviointiin DAG kautta erilaisia algoritmeja.
Vaikka meidän pääpaino on BNs, jotta lähtötason viite vertailukohtia, myös raportoida luokittelu esityksiä saatu laajalti käytetty Naiivi Bayes (NB), Logistic Regression, ja C4 0,5 päätöspuuta algoritmi. Meidän kokeissa olemme hyödyntäneet NB algoritmin Matlab R2011a. Sillä Logistinen regressio ja C4.5 Päätöksentekokaaviota algoritmeja käytimme WEKA 3 [66]. NB on hyväksytty, koska perussuorituskykyä metristä monissa ML tutkimuksissa. Huolimatta sen yksinkertaisuus, se on raportoitu, jolloin saatiin vertailukelpoisia tuloksia kehittyneempiä ML tekniikoita, erityisesti kun läsnä on suuria tietojoukkoja [67,68]. Logistinen regressio on yleisesti käytetty kliinisissä kohorttitutkimuksessa ja kokeet [69]. Erityinen täytäntöönpano Logistinen regressio vuonna WEKA 3 perustuu käyttämällä ”harjun estimaattorien” parantamiseksi kerroin arvioiden [70]. C4.5 on yleisesti käytetty algoritmi rakentamiseen päätös puita, joiden katsotaan olevan erityisen sopiva verkkotunnuksia erillisen muuttujan kuten meidän [71,72]. Erityinen toteuttaminen C4.5 algoritmi käytimme WEKA 3 on nimeltään ”J48”.
päättely
Kuten jo aikaisemmin, yksi syy edustavat domain kuin BN on monipuolisuutta todennäköisyyksiin päättelyn toimittamien BNs, jolloin syöttämällä todisteita tahansa muuttuja verkon tuloksia päivittää takaosan jakaumia loput muuttujat. Nämä todennäköisyys päivitykset, eli uskomus päivityksiä, voidaan visualisoida päälle kuvaajan rakenteita, joka tarjoaa avoimuutta aikana päättely. Tämä erottaa BN päätellen ”musta laatikko” ML prosesseja [9].
Kaikessa kokeellisia tuloksia, olemme hyödyntäneet Junction Tree algoritmilla [73] kuin erikseen toteuttaa Murphy [61] in Matlab BNT välineistö ja Bouckaert [57] WEKA 3. Tämä algoritmi koostuu