PLoS ONE: Eturauhassyöpätutkimuksessa Malli rakentaa jonka Novel SVM-ID3 Hybrid Feature valintatapa käyttäminen Sekä genotyypin ja fenotyypin Tiedot dbGaP

tiivistelmä

kautta Genome Wide Association Studies (GWAS) monet yhden emäksen monimuotoisuus (SNP) sin, tauti suhteita voidaan tutkia. Tuotos GWAS voi olla suuri määrä ja korkea ulotteinen, myös suhteita SNP, fenotyypit ja sairaudet ovat todennäköisimmin epälineaarinen. Jotta käsitellä suuren määrän korkea ulotteinen tietoja ja löytää epälineaarinen suhteet olemme käytetty data mining lähestymistapoja ja hybridi-ominaisuuksien hallintaan malli tukivektorikone ja päätös puu on suunniteltu. Suunniteltu malli testataan eturauhassyövän tietojen ja ensimmäistä kertaa yhdistetyn genotyypin ja fenotyypin tietoja käytetään lisäämään diagnostinen suorituskykyä. Pystyimme valita fenotyypin ominaisuuksia, kuten etnisyys ja painoindeksi, ja SNP: ne karttaa geenit kuten

CRR9

,

TERT

. Suorituskyky tulokset Ehdotetun hybridimalli, eturauhassyöpään aineisto, jossa 90,92% herkkyys ja 0,91 ja ala ROC-käyrän, mikä osoittaa, että lähestymistavan ennustamista ja varhainen havaitseminen eturauhassyövän.

Citation : Yücebaş SC, Aydın Son Y (2014) Eturauhassyöpätutkimuksessa Malli rakentaa jonka Novel SVM-ID3 Hybrid Feature valintatapa käyttäminen sekä genotyypin ja fenotyypin tiedot dbGaP. PLoS ONE 9 (3): e91404. doi: 10,1371 /journal.pone.0091404

Editor: Georgios Gakis, Eberhard-Karls University, Saksa

vastaanotettu: 16 heinäkuu 2013; Hyväksytty: 12 helmikuu 2014; Julkaistu: 20 maaliskuu 2014

Copyright: © 2014 Yücebaş, Aydın Son. Tämä on avoin pääsy artikkeli jaettu ehdoilla Creative Commons Nimeä lisenssi, joka sallii rajoittamattoman käytön, jakelun ja lisääntymiselle millä tahansa välineellä edellyttäen, että alkuperäinen kirjoittaja ja lähde hyvitetään.

Rahoitus: Nämä kirjoittajat ei ole tukea tai rahoitusta raportoida.

kilpailevat edut: kirjoittajat ovat ilmoittaneet, etteivät ole kilpailevia intressejä ole.

Johdanto

Genome Wide Association Studies (GWAS) Yhden nukleotidin polymorfismit (SNP) sin, sairauden yhdistysten etsitään kuten silmänpohjan ikärappeuma [1], sydänsairaudet [2], diabetes [3], nivelreuma [4], Crohnin tauti [5], Hypertension [6], Multiple -tauti [7] ja syöpätyyppeihin [8] – [9] – [10] hermostoa rappeuttavien sairauksien [11] ja psykiatristen sairauksien, kuten kaksisuuntainen mielialahäiriö [12]. Nykyinen GWAS SNP profiileja tällaisia ​​kroonisten ja monimutkaisia ​​sairaudet johtavat löytö eri geneettisten lokusten ja yksittäisten SNP liittyvät ehdot, mutta yhdistys vain SNP genotyyppitestien profiilit eivät ole riittävän vahvoja ennustamiseksi sairaustilan. Joten, tämä tutkimus on suunniteltu testaamaan hypoteesia, jos ja missä määrin integroida genotyyppi profiilit ja fenotyyppiset ominaisuudet; lukien demografiset tiedot, ympäristötekijät, elämäntapa tottumukset ohella kliinisiin löydöksiin potilaan vahvistaa predicative suorituskyky taudin malleja. Toistaiseksi ei ole mitään julkaisu, joka yhdistää useita genotyyppistä ja useita fenotyypin ominaisuuksia, mikä edellyttäisi uusien data mining menetelmiä, jotka auttavat käsittelemään dataa tällaisia ​​erilaisia ​​ominaisuuksia ja jopa korkeampi dimensionality.

käytettävät menetelmät GWAS voi ryhmitellään kahteen pääluokkaan, jotka ovat parametrinen ja ei-parametrinen [13]. Ei-parametriset menetelmät eivät vaadi geneettistä mallin etukäteen; vaan ne rakentaa omaa malleja, jotka perustuvat tietyn datan käyttämällä data mining ja kone oppiminen [13]. Ei-parametriset menetelmät ovat edullisia johtuen korkeasta dimensionaalisuus geneettiset tiedot, joilla perinteiset tilastolliset menetelmät eivät ole riittäviä analyysiin [14]. Lähes kaikki tunnetut koneoppimisen algoritmeja on käytetty GWAS, jotkut etummaista menetelmät ovat päätöksen Trees [15] – [16], Artificial Neural Networks [16], Bayes Belief Networks [17], Tukivektorikoneet [18] – [ ,,,0],19] – [20] ja Geneettiset algoritmit [21]. Analysointiin Genotyyppaustulokset, kuten havaitaan eri sovelluksia data mining, ei ole selkeää näyttöä siitä, että menetelmistä toimii paremmin kuin toiset [13]. Kaikki menetelmät on omat etunsa ja haittansa, ja valinta sopivan menetelmän on pääosin perustuu tietyn ongelman, tietotyyppi, tutkimuksen suunnittelu ja työn tavoitteista. On myös muutamia esimerkkejä soveltaa erilaisia ​​hybridi data mining lähestymistavat GWAS tietojen lisäämiseksi predicative suorituskykyä, jossa yksi tärkeimmistä menetelmä valitaan ja geneettiset perustuvat algoritmit, käytetään toisen vaiheen optimoimiseksi tärkein tapa [22 ].

Täällä ensimmäistä kertaa esittelemme hybridi ominaisuuksien hallintaan malli yhdistämällä kaksi ei-parametriset data mining menetelmiä, SVM ja ID3, määrittämiseksi kaikkein ennakoivaa fenotyyppisten ja genotyypin ominaisuudet liittyvät monimutkainen sairaus. Erotukseksi monta teosta kirjallisuudesta, tässä tutkimuksessa olemme käyttäneet molempia menetelmiä yksittäin eikä vain optimoimalla pääasiallinen menetelmä. Eturauhasen syöpä dataa käytetään tapaustutkimuksena ja olemme osoittaneet, että yhdistämällä genotyyppi tietoja fenotyypit on paremmat ennustava suorituskyky kuin käyttämällä vain genotyypit tai vain fenotyyppien sairauden diagnoosin, kun taas suurempi suorituskyky prostataspesifisen antigeenin (PSA) Seulontatesti [23 ].

Materiaalit ja menetelmät

Eturauhassyöpä Data Set

aineisto, ”Multi Etniset Genome Wide Scan Eturauhassyöpä”, käytetään tässä työssä on ladattavissa NCBI: n dbGaP tietokanta ja sille annetaan viitenumero phs000306 versio 2. Tämä aineisto koostuu 4650 tapauksissa ja 4795 tarkastukset kolmen eri etnisten ryhmien, Afrikkalainen amerikkalaiset, latinot ja japani. Jokainen yksittäinen tutkimuksessa on 600000 SNP ja 20 fenotyyppien ja useita aiheita, joka sisältää sekä fenotyyppisiä ja genotyyppisten attribuutteja on 9130.

Data Esikäsittely

Data esikäsittely koostui kolmesta vaiheesta. Ensimmäisessä vaiheessa Plink analyysi on suoritettu, jotta löydettäisiin tilastollinen voima suhteiden genotyypin ja tiettyyn sairauteen. Kynnys yhdistys SNP eturauhassyövän määritettiin p 0,005 jälkeen GWAS ja 22848 SNP täyttävät tämän ehdon muodostivat ensimmäisen edustavaa otosta. Toisessa vaiheessa METU-SNP: n AHP (Analytical hierarkkinen prosessi) ominaisuutta käytetään priorisoimaan SNP perustuu biologisiin ja tilastollisen merkittävyyden, joka suodatetaan siihen liittyvät SNP alas 2710 SNP.

Data matching, siivous ja muutos oli tehdään viimeisessä vaiheessa tietojen esikäsittely. Genotyyppitietojen ja fenotyyppinen ominaisuudet aiheista yhdistetään tietoihin sovitusaskel perustuu aiheesta ID: n ja kohde ID muunnokset annettu ilmeisen data. Vuonna puhdistus vaihe puuttuu arvojen aiheuttamat fenotyyppiset ominaisuudet korvattiin luokan keskiarvon laskenta ja määrite poistettiin jossa luokan keskiarvo ei voida laskea. Datan muunnosyksikkö tarvitaan koodaamaan alleelien koska SVMs käyttää numeerisia arvoja sijaan kategorisen niistä. Kirjallisuudessa alleelin yhdistelmiä koodataan kolmella numeeriset arvot perustuvat heterotsygoottinen ja homotsygoottinen suuret alleelit [18]. Haitta näistä järjestelmistä ovat, että ”

alleelien ei käsitellä symmetrisesti

[

18

]”. Koska vanhempi alkuperän ei ilmennyt meidän tietojen käytimme vaihtoehtoista koodausmenetelmän, jossa symmetrinen alleelit kohdellaan samalla tavalla. Tämä koodaus järjestelmä on esitetty taulukossa 1.

Analysis

Kirjallisuuden mukaan yleisimmin käytetty algoritmeja havaitsemiseksi suhteiden genotyypin tieto ja taudin ANN, SVM ja päätös Puut. On myös esimerkkejä sovelluksiin eri data mining lähestymistapoja hybridityylisesti lisätä predicative suorituskykyä, jossa yksi tärkeimmistä menetelmä valitaan ja geneettiset perustuvat algoritmeja käytetään toisen vaiheen optimoimiseksi tärkein tapa [15] – [22].

meidän mallissa olemme yhdistäneet kahdella eri menetelmällä, SVM ja ID3, ja jokaisesta näistä menetelmistä sopivan optimoinnin levitettiin sijaan yhdistämällä tärkein menetelmä kehittynyt optimoinnin kuten edellä todettiin. Tällä tavoin sen sijaan hyötyy yksi vahva menetelmää, olemme yhdistäneet vahvuuksia eri menetelmiä; ID3: n herkkä melulle ja harha [24] sekä sen teho käsitellä epälineaarisia ongelmia ja SVM ennuste suorituskykyä epälineaarinen kaksijakoinen luokittelu ongelmia. Myös molemmat menetelmät ovat tulkittavissa verrattuna muihin menetelmiin.

SVM-ID3 Hybrid malli rakennettiin RapidMiner 5.0, joka on ilmainen avoimen lähdekoodin työkalu tiedonlouhinnassa ja edullisia erilaisissa sovelluksissa kirjallisuudessa tällaisia kuten [25]. Sillä SVM vaihetta RBF ydin on valittu. Tämä ydin on laajalti käytetty GWAS [19] ja edullinen tutkimuksessamme sen nopeammin oppimisen nopeus ja sen etuna voidaan käyttää sekä lineaarisia ydin ja sigmoid ydin joitakin erityisiä ehtoja [26]. Lisäksi ytimen toiminto SVM on kaksi tärkeää parametrejä (C, γ) jos ei sopeutunut, voi aiheuttaa overfitting tai underfitting kunnossa.

C

vakio käytetään säätämään marginaali hypertason joka erottaa luokat ja gamma parametri antaa muodon päätökseen rajan. Optimointi nämä parametrit on raportoitu aiemmin [27], ja olemme valinneet soveltaa verkkoon haun lähestymistapa optimointi, joka on kuvattu aiemmin [28]. Arvon vaihteluväli C ja gamma, käytetty aikana ruudukkohaulla päätetään perustuu kirjallisuudessa [27] yhdessä oman kokemuksemme tietojen kanssa. Gamma arvoalue valitaan välissä [0,0001, 100], joilla on valtuudet kymmenen ja arvo alue C on valittu välillä [0-10] viisi lineaarinen vaiheet. Hila etsiä SVM optimointi on kestänyt noin kymmenen tuntia loppuun järjestelmässä, jossa on 16 Gt muistia ja 3,4 GHz: n Intel Core i7-prosessorin, paljastaen 42 yhdistelmiä.

Kirjallisuudessa on useita tutkimuksia, jotka yhdistävät SVMs ja päätös puita. Vaikka aiemmin julkaistu hybridi malleja SVM ja päätöksen puita (SVM-DT) käytetään yleensä usean luokittelun ja multi-klusterointia ongelmia, on olemassa myös esimerkkejä SVM-DT yhdistelmiä käytetään kaksijakoinen luokittelu ongelmia [29]. Kaikissa tapauksissa SVM-DT malleja, SVM sovelletaan ensin optimoimiseksi parametrit ja aineistoja voidaan käyttää ensi päätöksessä puu. Tutkimuksessamme olemme myös soveltaa SVM ensimmäisessä vaiheessa, mutta sen sijaan ranking ominaisuudet ja valitsemalla alkuun lueteltu ne mukaan SVM painoja, jotka aiheuttavat riskin tietojen häviämisen, olemme käyttäneet koko SVM painot paino ominaisuus ID3. Nämä painot ID3 määritteet lasketaan seuraavan kaavan mukaisesti annettuja below.The ID3 Tree on toteutettu RapidMiner painotus strategiaa edellä selitettiin. Toinen ruudukkohaulla ajettiin jotta löydettäisiin optimaalinen arvo painotettua tietojen vahvistuksen suhteen. Valikoima Tämän arvon asetettiin välillä [10

-3, 10] ja hakea 50 logaritminen vaiheita, jotka johtivat 51 yhdistelmä ja valmistui 11 tuntia.

Yleinen työnkulku tietojen pre -jalostusvakuus, joka sisältää myös GWAS ja integrointi fenotyypin ja genotyypin tietoja, ja Hybrid SVM-Tree tässä kuvatussa mallissa on esitetty yhteenvetona kuviossa 1.

Kaiken työnkulun alkaa tietojen esikäsittelyyn, jossa tyypillinen SNP osajoukko on muodostettu Plink ja METU-SNP-analyysi, fenotyyppi ja Genotyyppaustulokset integroituja ja puuttuvat arvot joko poistetaan tai manuaalisesti täyttää luokan tarkoittaa laskenta. Kun tiedot esikäsittely, integroitu aineisto syötetään hybridimalli jossa SVM malli antaa määrite painot, joita käytetään ID3.

Tulokset

Ensimmäisessä vaiheessa ainoa SVM mallia ajettiin esittää luokituksen suorituskykyä stand-alone menetelmä kolmella eri tietoaineistoja. Ensimmäinen ja toinen setti oli joko vain genotyypityksen tai ilmiasun dataa ja kolmas aineisto sisälsi sekä genotyypityksen ja fenotyypin tiedot. Tulokset itsenäisen SVM malli on esitetty taulukossa 2.

Nämä tulokset taulukossa 2 osoittaa selvästi, että yhdistäminen fenotyyppisen tietoja genotyyppitietoja hieman lisääntynyt päätöksen suorituskykyä kaikilla tarkkuus, täsmällisyys, muistaa ja AUC. Hybridi SVM-ID3 mallia levitetään sitten samoina aineistot ja suorituskyvyn vertailu on esitetty taulukossa 3.

Mukaan SVM ID3 hybridimalli rakenne, annetaan Tree S1, tärkeimmät määrite on etnisyys. Mallimme tehtiin tiukka erottelu etnisyys määrite, joka johtaa toisenlaisen päätöksen polkuja Afrikkalainen amerikkalainen, latino ja Japani aiheita. Kaikkien etnisten ryhmien painoindeksi (BMI) määrite on toinen kuvaava piirre päätöksen tiellä. Afrikkalainen Amerikan väestöstä kuvaileva fenotyypit eri tasoilla puu ovat syyt, jotka osoittavat tupakointi ja alkoholin kulutustottumuksia. Yllättäen vain fenotyyppinen määrite löytynyt Japani väestö on BMI. Attribuutteja osoittavat suvussa, liikunnan, lykopeeni saanti ja nikotiiniriippuvuus noudatetaan Latinalaisen väestölle. Yleinen puurakenne hybridimalli on esitetty kuvassa 2.

Suurin puu annetaan Tree S1 materiaalia, koska rakenne on liian suuri. Tämä luku on pieni edustus tärkein puu. Päätös alkaa etnisyys ja Afrikkalainen amerikkalaiset edustavat AA, Japani mukaan JAP ja Latinot mukaan LAT. Kaikkien etnisten ryhmien kaikkein kuvaileva fenotyyppinen ominaisuus on painoindeksi (BMI). Muut fenotyyppiset ominaisuudet, jotka ovat ylemmillä tasoilla puu ovat nikotiiniriippuvuus, suvussa, lykopeeni saannin ja liikunnan. Määrä SNP solmujen ilmoittaa kokonaismäärän SNP löytyy eri tasoilla, että erityisesti polku puun.

Jotkin näkyvästi päätöksen polut uutetaan puusta perustuvat pääosin etnisyys. Esimerkiksi jos kohde on etnisyys on Afrikkalainen Amerikan ja sen BMI on ensimmäiseen ryhmään, joka on BMI 22,5, katsomalla rsid 11729739 meidän hybridi järjestelmä voi päättää, onko kohde on tapaus tai valvontaa. Jos alleelinen profiilin tämä SNP on TT sitten kohde kutsutaan tapaus, mutta jos kohde on heterotsygoottinen kirjanpitoarvoa CT, kuin kohde kutsutaan kontrollina. Kun tulokset hybridi järjestelmä Japani väestön tutkitaan, BMI oli myös ensimmäisen tason päätöksen tiellä. Jos aiheet ovat neljäs haara BMI, joka on = 30, niin nämä aiheet on suoraan luokiteltu tapaus. Jos aiheet ovat ensimmäinen osa BMI sitten tehdään päätös perustuu SNP rs2442602; aiheista homotsygoottisia pääalleelille (AA genotyyppi) ovat kutsutaan tapauksia, mutta päätökset aiheita kuljettaa muita alleeleja vaativat tutkinnan ylimääräisiä SNP.

puurakenteen osoittaa, että päätös polun Latin väestö on monimutkaisempi kuin japani tai Afrikkalainen Amerikan populaatioiden. Jos aiheet ovat ensimmäiseen ryhmään BMI sitten aiheista heterotsygoottinen SNP rs17799219 kantaen AG, kutsutaan terveitä. Jos aiheet ovat kolmanteen ryhmään BMI, joka on 29,9, sitten toinen fenotyyppisten määrite, suvussa on tutkittava. Jos näistä aiheista on ensimmäisen asteen sukulaisia, joilla on eturauhassyöpä, niin SNP rs6475584 tutkitaan, soittaa, jos kohde on tapaus vai ei. Monet säännöt, kuten edellä on esitetty, voidaan uuttaa puurakenteesta annettu Tree S1.

Kaiken meidän hybridimalli tunnistettu 28 SNP Afrikkalainen Amerikan, 22 SNP varten Japani ja 65 SNP: Latino populaatiot. Olemme tutkineet SNP kartoitus geeneihin sisällä SNPNexus tietokannassa [30] ja koodaamattomat SNP kautta RegulomeDB [31], jotta voidaan nähdä, jos ne on yhdistetty eturauhasen syöpä tai muu sairaus ennen.

kun SNP saapuvat sekajärjestelmä etsitään kautta SNPnexus, 107 ainutlaatuinen rsIDs sovitettu 62 ainutlaatuinen Entrez GeneID ja 42 heistä on aiemmin saatu liittyä ehto lueteltu Genetic Association of Complex Diseases ja häiriöt (GAD) tietokantaan. Edustava joukko genes- fenotyyppien ja tautien luokat on esitetty taulukossa 4 ja koko luettelo löytyy taulukosta S1 materiaalia.

koodaamattomalla SNP meidän lopullinen taudin malliin tutkitaan kautta RegulomeDB, joka osoitti, että SNP saapuvat meidän sekajärjestelmä on sääntelyä vaikutuksia. Taulukossa 5 esitetään SNP kanssa pisteet vähintään 4 päässä RegulomeDB. Koko luettelo on taulukossa S2 materiaali.

Keskustelu

Täällä olemme esittäneet diagnostic tauti malli hyödyntämällä data mining menetelmiä, jotka perustuvat fenotyyppiin ja Genotyyppaustulokset eturauhasen syöpä. Kaiken kaikkiaan tuloksemme osoittivat, että hybridimalli kehitetään integroimalla SVM ja ID3 menetelmiä pystyy käyttämään sekä genotyypin ja fenotyypin tietoja syötteenä, ja on paras suorituskyky ennustamiseksi tapauksessa kontrolleja.

SVM on valittu ensimmäinen askel yhdistelmämallia koska se on tunnettu korkean suorituskyvyn GWAS [26], ja kyky luokitella erottamatonta ongelmia. Päätös logiikkaa Anns, jota voidaan myös käyttää GWAS, ei ole kovin selvä, koska sen mustan laatikon rakennetta. Myös Anns on monia parametreja säätää kuten kerrosten lukumäärä, solmujen lukumäärästä kerroksia, määrä aikakausien ja oppimisen nopeus, ja mikä tärkeintä Anns haittapuolena on juutu paikallisella minimit. Toisaalta SVMs on selkeä päättelylogiikalla [20], on pienempi määrä muuttujia ja johtuu toisen asteen ongelma rakennetta se tarjoaa vain yksi ratkaisu, joka on läsnä globaali minimit. Seuraavassa vaiheessa meidän hybridimalli, ID3 päätös puu on valittu vahvana luokitteluun diskreetti arvo aineistot kuten GWAS. ID3 on helppo rakentaa ja toimii hyvää suorituskykyä meluisa tietoja puuttuvat arvot, ja helppo tulkita sen visuaalisia ominaisuuksia [24]. ID3 on myös edullinen verrattuna C4.5 ja CART puita, koska nämä menetelmät rakentaa puita karsimisesta mikä piilottaa päätös polkuja taudin, ja ID3 on myös sopivampi kategorisen datan.

parhaan tietomme , ei ole samanlainen hybridi tai stand-alone data mining menetelmä perustettu kultakantaan varhaisen diagnoosin eturauhassyövän. Joten, suorituskyky tulokset hybridimalli jouduttiin verrattuna stand-alone SVM ja ID3 malleja. Ehdotettu Hybrid malli oli parempi luokitus valta stand-alone SVM ja ID3 malli kaikkien kolmen aineistoja, joissa joko vain genotyypityksen tai ilmiasun tietoja käytetään ja integroidussa genotyyppi-fenotyyppi aineisto. Vuonna integroitu genotyypityksen-fenotyyppi aineisto hybridi SVM-ID3 malli 90,92% herkkyys ja 0,910 AUC päihitti stand-alone SVM, ja stand-alone päätös puu, joka on 71.34% herkkyys ja 0,829 AUC ja 81.33% herkkyys ja 0,732 AUC vastaavasti. Lisäksi kolmikerroksinen rehu eteenpäin takaisin eteneminen ANN rakenne rakennettiin Rapid Miner ja sai pitkän yhteenlaskettuina samaa genotyyppi-fenotyyppi aineisto vertailun esityksiä. Toteuttaminen run 3 päivää, ja sen suorituskyvyn tuloksia eli tarkkuus, täsmällisyys, ja muistaa kaikki oli alle 55%. Suorituskyky ANN voitaisiin lisätä optimoimalla parametrit, mutta tämä aiheuttaisi suoritusaika kasvaa jopa korkeampi. Vaikka ANN voisi saavuttaa sama suorituskyky kuin hybridimalli, pitkä suoritusaika seisoisi kuin toinen suuri haitta lisäksi se on musta laatikko algoritmia.

Kaiken meidän hybridimalli kykeni tehokkaasti käyttäen korkean -VOLUME, korkea-ulotteinen integroitu genotyypityksen ja fenotyypin tietojen syötteenä. Tällä hetkellä on olemassa monia julkaistuja tutkimuksia keskittyneet analyysiin Genotyyppaustulokset, mutta ei esimerkiksi yhdistämällä ilmiasuun genotyypityksen profiili on esitetty vielä. Maantäyttöhankkeesta tämän aukon, ensimmäistä kertaa genotyypityksen ja fenotyypin data integroidaan yhdessä rakentaa diagnostinen tautimallina eturauhassyöpää. Kuten olemme esitetty taulukossa 3, integroimalla fenotyyppi ja genotyyppi data lisäsi päätös suorituskykyä kannalta herkkyyttä ja AUC. Herkkyys Ehdotetun hybridimalli on aineisto, jossa on vain genotyypit on 68.69%, vain fenotyypit on 83,78%, jossa herkkyys nousee 90,92%, kun genotyypityksen on integroitu fenotyypin tietoja. Samanaikaisesti herkkyyden AUC-arvo kasvaa myös; AUC vain Genotyyppaustulokset ja vain fenotyypin tiedot ovat 0,674 ja 0,857, vastaavasti, mutta kun molemmat tietoja käytetään AUC nousee 0,910.

Sen lisäksi parempaa luokittelua suorituskyky, tuloksemme osoittivat, että ehdotettu SVM – ID3 hybridimalli pystyi myös tunnistamaan toiminnallisia ja sääntelyä SNP liittyvät eturauhasen syöpään. Valitut SNP ja niiden geeni-tauti suhteet tarkastaa käyttämällä tietokantoja kuten SNPnexus ja RegulomeDB, joka yhdistää kolmannen osapuolen tietoa eri tietokannoista ja tutkimukset SNP-keskeinen muoto. Tämä tarkoittaa sitä, että SNP: t on valittu rakentaa diagnostic tauti malli ehdotettu hybridi-menetelmä ovat myös ehdokkaita edelleen biologisen tutkimuksen molekyyli etiologia eturauhassyövän.

Ehdotettu hybridi menetelmä on tunnistettu 107 ainutlaatuista SNP: diagnostisen malli ulos 2710 erittäin liittyvien SNP valittu jälkeen GWAS. Kun nämä 107 SNP etsitään SNPnexus ja RegulomeDB jotkut niistä on todettu liittyvän erityisiä geenejä ja muut vaikuttavat sääntely ja sitovat. Esimerkiksi rs2853668 tiedetään liittyvän

CRR9, TERT

jolla on tärkeä rooli sääntelyn telomeraasiaktiivisuuden. Rs11790106 vaikuttaa sääntelyn

ATP2B2

geeni, joka on tärkeä energian tuotantoon ja kalsiumin kuljetusta soluihin. rs12644498 vaikuttaa sääntely

ARL9

geeni ja rs6887293 vaikuttaa sääntelyn

AGBL4

jotka ovat tärkeitä myös ATP /GTP sykli soluissa. Nämä geenit liittyvät läheisesti

IGF1

geeni, joka on tärkeä rooli insuliinin aineenvaihduntaan. Monet geenien 107 SNP taudin mallissa karttaa, liittyy kasvun ja energian prosesseja. Nämä molekyylien toiminnot tosiasiassa liittyvät BMI, joista tärkein fenotyyppinen määrite kaikille etniseltä saapuvat meidän sekajärjestelmä.

Tuloksena ominaisuuksia meidän hybridimalli tutkittiin ja fenotyyppinen määrite etnisyyden todettiin olevan useimmat liittyvät määrite kanssa eturauhasen syöpä. Tämä tulos ei ollut yllättävää, sillä useita teoksia kirjallisuudessa jo osoitti, että on olemassa suhde etninen ominaisuudet ja eturauhasen syöpä sairaus. Kleinmann työ osoittaa, että etninen tausta potilaista on tärkeä rooli eturauhassyövän liittyvää elämänlaatua [32]. Hoffmanin mukaan etiologia eturauhasen syöpä on erittäin riippuvainen alkuperään ja Afrikkalainen amerikkalaisten on suurin riski siitä eturauhassyövän [33]. Tukevana vuoksi meidän hybridimalli tiukasti jakaa eturauhasen aineisto mukaan etnisyyteen ja jokaisen etnisen eri polkuja havaittiin.

Vaikka päätös reittejä etnisten ryhmien ovat kaikki erilaisia, toisella tasolla kaikki päätöksen polut osoittavat BMI määrite. BMI on jo tunnettu suhteet eri syöpien, kuten rintasyövän [34] ja ruokatorven [35], ja on myös vahva fenotyyppinen määrite eturauhassyövän [36]. Kirjallisuudessa yhdessä BMI, ikä ja suvussa, jotka ovat myös valittujen joukossa määritteet meidän sekajärjestelmä, on osoitti olevan yhtä tärkeitä ominaisuuksia diagnosoimiseksi eturauhassyövän [36]. Ennaltaehkäisevän vaikutuksen korkea painoindeksi arvojen yli 30 kg /m

2 edellä esitettiin [36], ja mielenkiintoisesti sillä Japani väestön olemme myös huomannut saman ennaltaehkäisevän vaikutuksen BMI sairaalloisen lihavia tapauksissa alemmilla tasoilla päätöksen polun . Lisäksi muut yleisimmät fenotyyppiset ominaisuudet päätöksessä polkuja kuten suvussa, Tupakointi, liikunnan ja lykopeenia saanti myös eturauhassyöpään liittyvän aiemmin [37]. Kaiken kaikkiaan tuloksemme osoittavat, että ehdotettu hybridimalli sisältyvät aiemmin perustetut fenotyyppinen attribuutteja eturauhassyöpään.

Tällä hetkellä veren prostataspesifisen antigeenin (PSA) tasot on kultakantaan varhaisia ​​eturauhassyövän kunnossa ennen koepala, suurimmalla herkkyys raportoidaan 86% ja spesifisyys 33% AUC 0,67 [23] – [42]. PSA-pitoisuudet alle 4 ng /ml pidetään normaalina, tasojen 4 ng /ml-10 ng /ml kutsutaan epäilyttäviä ja jotka ovat suurempia kuin 10 ng /ml tiedetään liittyvän suuren riskin [38]. Ongelma PSA-testi on määrittäminen kynnyksiä. Välinen alue 4 ng /ml-10 ng /ml on harmaa alue päätettäväksi ja taas jotkut aiheet alle 4 ng /ml voi olla eturauhassyöpä, mutta jotkut yli 10 ng /ml voi silti olla terve [39]. Lisäksi katkaista arvot myös muuttuneet verrattuna kohteen ikä [40]. Tämä tuo vakava ongelma ja koska eri kirjallisuudessa valtion PSA ei tulisi käyttää varhainen diagnoosi väline eturauhassyövän [41] kunnes sen suorituskyky on kasvanut suhteen herkkyys ja [42]. Kun diagnostinen tuloksia ehdotetun hybridimalli kanssa 90,92% herkkyys ja 0,91 AUC pidetään, se esittää potentiaalisesti hyvä työkalu varhaiseen toteamiseen eturauhasen syöpä. Vahvistamisen jälkeen kanssa Pilottitutkimusten ehdotettu malli, joka vaatii vain poskeen swap seisoisi hyvänä vaihtoehtona veren PSA-testi.

Täällä ensimmäistä kertaa olemme ehdottaneet predicative tauti malli integrointi genotyypityksen ja fenotyypin dataa hybridi ominaisuuksien hallintaan, joka yhdistää kaksi ei-parametriset data mining menetelmiä, SVM ja ID3. Erotukseksi monta teosta kirjallisuudesta, tässä tutkimuksessa olemme käyttäneet molempia menetelmiä yksittäin eikä vain optimoimalla pääasiallinen menetelmä. Eturauhasen syöpä dataa käytetään tapaustutkimuksena ja olemme osoittaneet, että mallin yhdistäminen genotyypin tietoja fenotyyppejä tuottaa paremman suorituskyvyn kuin käyttämällä vain perimän tai ilmiasun tietoja taudin diagnosointiin samalla ylittää suorituskykyä prostataspesifisen antigeenin (PSA) seulontatesti [23].

Johtopäätökset

tässä tutkimuksessa ensimmäistä kertaa genotyypityksen ja fenotyypin data integroidaan ja hybridimalli SVM-ID3 eturauhassyövän on rakentaa. Tärkeä osuus tässä työssä oli integrointi genotyypityksen kanssa fenotyypin tietoja. Vaikutus tämän integraation testataan sekä yksittäisiä SVM ja SVM-ID3 hybridimalli. Suorituskykyä koskevien toimenpiteiden, kuten herkkyys ja AUC integroidun datajoukon päihitti aineistoja vain genotyypin ja vain fenotyyppi molemmissa malleissa. Herkkyys ja AUC integroitujen aineisto Erillisten SVM oli 71,34% ja 0,829 vastaavasti. Kun samaan integroituun aineisto käytetään hybridimalli herkkyyttä nousi 90,92% ja AUC nousi 0,91, myös ylittäen veren PSA-testi. Malli pystyi tunnistamaan eturauhassyöpää liittyvä SNP että joko karttaa syövän geenit kuten

CRR9, TERT

,

ATP2B2

,

ARL9, ja AGBL4

ja /tai sääntelyn vaikutuksia. Kokeellinen ja kliininen validointi kuvattu yhdistysten eturauhassyövän voivat johtaa meidät paremmin ymmärtämään sairauden etenemistä molekyylitasolla. Lisäksi kuvaileva fenotyypit valitsema sekajärjestelmä myös aiemmin havaittuja ominaisuuksia suhteissaan eturauhassyöpä aiemmissa tutkimuksissa. Etninen havaittiin olevan syynä päätöksen puurakenteen, kun taas BMI, suvussa ja tupakointi olivat muut fenotyypit, jotka ovat yläreunassa tasoilla päätöksen malli. Kaiken Tutkimuksemme osoitti, että ennustava tautia malli rakentaa kanssa hybridi SVM-ID3 lähestymistapaa, joka perustuu genotyypityksen ja fenotyyppiin data tarjoaa lupaava väline varhaisia ​​eturauhasen syöpä. Vahvistettuaan ehdotetun mallin Pilottitutkimusten se voidaan toteuttaa kliinisen päätöksenteon tueksi moduuli arvioimaan potilaiden riski kehittää eturauhasen syöpä, ja fenotyypit liittyviä elämäntapa (BMI, liikunta, tupakointi, jne ..), joilla on suuri vaikutus potilaiden riski voidaan tunnistaa kunkin yksittäisen valvottavan tulevassa käyntejä.

Lisätutkimukset ehdotettu hybridi SVM-ID3 menetelmä ja muut data mining lähestymistapoja integroiva analyysi GWAS tulosten ja fenotyyppiset tiedot auttaisi kehittämisessä muut menestyneet tautimallien, joka excel kääntämisestä muunnos-tauti yhdistyksen Tulosten perusteella hoitopaikassa varten uusien päätöksenteon tukivälineitä ja henkilökohtaisen lääketieteen lähestymistapoja.

tukeminen Information

Table S1.

Koko lista SNPnexus tuloksia.

doi: 10,1371 /journal.pone.0091404.s001

(DOCX) B Taulukko S2.

Koko lista RegulomeDB tuloksia.

doi: 10,1371 /journal.pone.0091404.s002

(DOCX)

Tree S1.

teksti esitys puurakenteen. Puurakenne SVM-ID3 hybridimalli.

Doi: 10,1371 /journal.pone.0091404.s003

(DOCX) B

Kiitokset

ilmaista vilpittömät kiitokseni Prof . tohtori Nazife Baykal, professori Hayri Sever, Assoc. Dr. Hasan Oğul, Assist. Dr. Aybar C. Acar niiden ohjausta ja näkemystä koko tutkimuksen ajan. Arvokas panos Remzi Çelebi kiittävät.

Vastaa