PLoS ONE: Parempi luokittelu keuhkosyöpään käyttäminen Radial Basis Function Neural Network kanssa Affine muunnokset Voss edustuston
tiivistelmä
Keuhkosyöpä on yksi taudeista vastuussa useita syöpään liittyvän kuoleman tapauksissa maailmanlaajuisesti. Suositeltu standardi seulontaan ja varhaiseen havaitsemiseen keuhkosyöpään on pienen annoksen tietokonetomografia. Kuitenkin monet potilaat diagnosoidaan kuolee vuoden kuluessa, mikä tekee siitä välttämätöntä löytää vaihtoehtoisia lähestymistapoja seulontaan ja varhaiseen havaitsemiseen keuhkosyöpään. Esitämme laskennallisia menetelmiä, joita voidaan toteuttaa toimiva usean genomista Luokitusjärjestelmässä, seulontaan ja varhaiseen havaitsemiseen keuhkosyöpään uhreja. Näytteitä kymmenen biomarkkereiden geenejä aiemmin raportoitu olevan korkeimman taajuuden keuhkosyövän mutaatioiden ja sekvenssit normaalin biomarkkereiden geenien vastaavasti kerättiin COSMIC ja NCBI tietokantoja validoida laskennallisia menetelmiä. Kokeet suoritettiin perustuu yhdistelmiä Z-käyrän ja tetraedri affiinisia muunnoksia, Histogrammi Oriented Gradient (HOG), Multilayer Perceptron ja Gaussin Radial Basis Function (RBF) neuroverkkojen saada sopivaa yhdistelmää laskennallisia menetelmiä saavuttaa parempi luokittelu keuhkojen syöpä biomarkkereiden geenejä. Tulokset osoittavat, että yhdistelmä affine muunnokset Voss edustus, HOG genomista ominaisuuksia ja Gaussin RBF neuroverkko havaittavasti parantaa luokittelun tarkkuutta, spesifisyys ja herkkyys keuhkosyöpään biomarkkereiden geenejä sekä alhaisten keskineliövirhe.
Citation: Adetiba E, Olugbara OO (2015) Parannettu luokittelu keuhkosyöpään käyttäminen Radial Basis Function Neural Network kanssa Affine muunnokset Voss edustuston. PLoS ONE 10 (12): e0143542. doi: 10,1371 /journal.pone.0143542
Editor: Xia Li, Harbin Medical University, Kiina
vastaanotettu: 17 elokuu 2015; Hyväksytty: 5. marraskuuta 2015 Julkaistu: 01 joulukuu 2015
Copyright: © 2015 Adetiba, Olugbara. Tämä on avoin pääsy artikkeli jaettu ehdoilla Creative Commons Nimeä lisenssi, joka sallii rajoittamattoman käytön, jakelun ja lisääntymiselle millä tahansa välineellä edellyttäen, että alkuperäinen kirjoittaja ja lähde hyvitetään
Data Saatavuus: Tätä tutkimusta varten , katalogi somaattisista mutaatioista in Cancer (COSMIC) on tietokanta somaattisten mutaatioiden ihmisen syövässä, että kirjoittajat käytetty. Kymmenen geenien kanssa korkein taajuus mutaatioiden keuhkoissa ovat seuraavat symbolit: TP53, EGFR, KRAS, KMT2C, CDKN2A, NF1, STK11, KMT2D, ZNF521 ja SMARCA4. Nämä symbolit saatiin HUGO Gene nimikkeistön komitea (HGNC) tietokantaan.
Rahoitus: Rahoittajat Durbanin teknillinen yliopisto Tutkimus ja jatko tuki linja.
Kilpailevat edut: Kirjoittajat ovat ilmoittaneet, että ole kilpailevia intressejä ole.
Johdanto
Keuhkosyöpä on pahanlaatuinen kasvain kudoksen ihmisen keuhkot, joka on edelleen yksi johtavista syövän syiden liittyvän kuoleman tapauksissa maailmanlaajuisesti [1]. Matala annos Tietokonetomografia (CT) on suositeltu standardi seulontaan ja varhaiseen havaitsemiseen keuhkosyöpään [2]. Kuitenkin eloonjäämisaste keuhkosyöpä on hyvin alhainen, ja yli puolet potilaista on diagnosoitu sairaus kuolee yhden vuoden kuluessa [3]. Keuhkosyöpä kehittyy takia jatkuva geneettisen vaurion normaalille keuhkojen soluihin karsinogeenien tupakansavusta ja muista lähteistä. Yli 50 takautuva tutkimuksia tupakoinnin ja keuhkosyövän ilmoitettiin osoittaa silmiinpistävää etenemisen riskit keuhkosyövän tupakoitsijoita tai passiivisia tupakoitsijoita verrattuna tupakoimattomiin [4]. Itse asiassa viimeaikaiset tutkimukset [5,6] ovat todisteena tupakointia kiistatta yksi tärkeimmistä syistä keuhkosyöpää, vaikka noin 10% keuhkosyöpä tapauksista johtuu syöpää aiheuttavia vaikutuksia radonia, arseeni, nikkeli, asbesti, kromi ja geneettinen alttius. Polttaminen tupakan savuke tuloksia kemiallisissa prosesseissa, kuten pyrolyysiä, hapetus, hydraus, dekarboksyloimalla ja nestehukka aineosalla. Näin ollen yli 3000 kemikaaleja tuotetaan joista karsinogeeneja vastaavan syöpien tuodaan asteittain hiukkas- ja höyryfaasien. Syöpää vuonna hiukkasfaasissa sisältävät bentso (a) pyreeniä, dibentso (a) antraseeni, 5-methylchrysene, benzofluoranthenes, nikotiini, N-nitrosonornicotene, katekoli, nikkeli, kadmium ja polonium. Vastaavasti, syöpää höyryfaasissa ovat hydratsiini, vinyylikloridi, uretaani, formaldehydi, typen oksideja ja nitrosodiethylamme. Nämä asteikkoihin sopivat kemikaalit ovat joko syöpä initiaattorit, täydellinen syöpää kasvain promoottorit tai co-karsinogeenejä. Näin ollen ne kemiallisesti aktivoivat onkogeenien ja poistaa tuumorisuppressorigeeneille normaalin keuhkojen solu tuottaa mutaatioita, jotka johtavat kasvaimet [7,8].
saatavuus valtavia määriä keuhkosyövän mutaatio data on tehnyt taudin hoitoon nopeasti ylittämästä perinteiset lähestymistavat, kuten leikkauksen, sädehoidon ja kemoterapian. Nykyaikaisen taudin hoitoon, lajikkeiden huumeita edistämiseksi ”henkilökohtaisen lääketieteen” on kehitetty kohdistaa eri geneettisten mutaatioiden kohti pysähtyen syövän kasvua ennen kuin siitä tulee kehittyneen ja metastaattinen. Nämä lääkkeet ovat osoittautuneet erittäin tehokkaiksi, joilla on vähemmän sivuvaikutuksia verrattuna perinteiseen chemotherapies. Esimerkkejä kohdennettuja hoitomuotojen hyväksytty keuhkosyövän hoitoon kuuluvat gefitinibi, erlotinibi, bevasitsumabi, sorafenibi ja 28-aminohapon peptidi (P28). Näiden hoitojen kohdistaa mutaatioita EGFR ja TP53 [9-11]. Kuitenkin tarve kehittää genomista perustuvia laskennallisia menetelmiä luokitusta, seulontaan ja varhaiseen havaitsemiseen keuhkosyöpä on erittäin ratkaiseva. Tämä johtuu siitä, että suositeltu pieni annos TT on kuvantamisen pohjainen tekniikka, jota ei voida käyttää mutaation havaitsemiseen [2,4,7,11]. Automaattinen genomista luokituksessa, seulonta ja varhainen havaitseminen keuhkosyövän menee pitkin tapa auttaa suosittelemalla uhrien tunnettujen geneettisten mutaatioiden keuhkojen hyödyntää kohdennettua hoitomuotojen tai osallistua kliinisissä tutkimuksissa uusia lääkkeitä.
In [12], DNA: n metylaation markkereita ja neuroverkot ilmoitettiin mahdollisesti elinkelpoisten välineitä voidaan automaattisesti keuhkosyöpään osaksi pienisoluinen keuhkosyöpä (SCLC) ja ei-pienisoluinen keuhkosyöpä (NSCLC). Markey et ai. [13] kehitti Luokittelu ja regressio puu (CART) koulutettu 26 ominaisuuksia luokitella 41 kliinisissä näytteissä kuin sairauden tai ei-tauti. Ominaisuuksia ovat laskettuja massaspektroskopia veren seeruminäytteistä keuhkosyövän ja ei-syöpä koehenkilöillä massa-ja varauksen suhde ja piikkien korkeudet proteiineja. Ramani ja Jacob [14] suunniteltu laskennallinen menetelmä, jossa käytetään rakenne- ja fysikaalis-kemiallisten ominaisuuksien proteiinisekvenssien. He käyttivät Bayes-verkko niiden tapa luokitella keuhkosyöpä kasvaimia osaksi SCLC, NSCLC ja COMMON luokissa. Guan et ai. [15] käytetään Support Vector Machine (SVM), ennen biologista tietämystä ja Prediction Analyysi Microarray (PAM) luokitella adenokarsinooma keuhkosyöpään. Edellä mainitut tutkimukset ovat tarpeen askelia oikeaan suuntaan, mutta purkautuu mutaatiostatuksesta sisältö keuhkotuumoreiden ei ole täysin käsitelty kirjallisuudessa. Tämä merkitsee sitä, että lupaukset kohdennettuja hoitomuotojen viipymättä pidättämään mutaatioita keuhkoissa saattaa olla vaikeasti puuttuessa soveltuvia menetelmiä seulontaan ja varhaiseen havaitsemiseen keuhkosyöpään mutaatioita. Tutkijat ovat ehdottaneet, että usein mutatoitunut biomarkkereiden geenejä voidaan hyödyntää suunnittelemalla sarjoja seulontaan ja varhaiseen havaitsemiseen keuhkosyöpään [16]. Tämän mukaisesti ehdotuksen, joka on keuhkosyöpä ennusteen menetelmä kehitettiin [17]. Menetelmä validoitiin tietoja sarjaa EGFR, KRAS ja TP53, jotka ovat kolme usein muuntunut biomarkkereiden geenit ennustaa mutaatioiden keuhkosyövän [16]. Ensemble ja ei-kokonaisuus variantteja Monikerroksinen Perceptron (MLP), verkon ja SVM verrattiin ennustaa kuusi luokkaa biomarkkerina geenien ja parhaan ennusteen tarkkuus 95,90%, saatiin käyttäen MLP-neuroverkko ensemble [17].
ensimmäinen yleisenä tavoitteena tutkimuksen tarkoituksena on laajentaa genomisen kattavuutta menetelmän raportoitu [17] neljätoista luokat kymmenen usein mutatoitunut keuhkosyöpää biomarkkereiden geenejä. Korostettiin kirjallisuudessa että suorituskyky luokittelu algoritmeja voidaan vaikuttaa suuri määrä luokkia [18]. Tästä seuraa, että toinen Tämän tutkimuksen tavoitteena on löytää joukko affine invariant genomista ominaisuuksia parantaa luokittelua keuhkosyöpää biomarkkereiden geenien huolimatta suurempi määrä luokkia. Tämä erityisesti tavoite saavutettiin tutkimalla Z-käyrä ja tetrahedron Affiininen muunnokset Voss edustus sekä histogrammi Oriented Gradient (HOG). Z-käyrä ja tetraedri Affiininen muunnoksia käytetään nukleotidien muunnos menetelmiä, koska ne luonnostaan tuottaa mitoiltaan vähensi edustus Voss transformaatio vähemmän laskennallisen kustannukset [19,20]. Lisäksi affiiniset muuttaneet nukleotidit ovat analogisia värikuvan signaaleja, joka on helppo käyttää HOG menetelmää kuvankäsittelyn domain poimia joukon genomisen ominaisuuksia parantaa luokittelua keuhkosyöpää biomarkkereiden geenejä. Kolmas tavoite Tämän tutkimuksen tarkoituksena on saada sopiva yhdistelmä laskennallisia menetelmiä parantaa luokittelua keuhkosyöpää biomarkkereiden geenejä. Yhdistelmät affine muunnokset Voss edustus, HOG menetelmä, MLP neuroverkko ja Gaussin Radial Basis Function (RBF) neuroverkon me kokeellisesti tutkittu tämän tavoitteen saavuttamiseksi.
Materiaalit ja menetelmät
Data Set
Normal (ei-mutatoidun) nukleotidisekvenssejä kymmenen eri biomarkkereiden geenit saatiin National Center for Biotekniset Information (NCBI) tietokantaan. Syynä valitaan NCBI on, että se on yksi yleisimmin käytetty tietokantojen Collaborative konsensuksen koodaavan sekvenssin (CCD:) konsortio. Toinen CCD tietokannat ovat Ensembl Genome Browser, Kalifornian yliopisto, Santa Cruz Genome selain ja Sanger-instituutti (WTSI) Genome Selain. CCD tietokannat tarjoavat helpon pääsyn samaan viite DNA-sekvenssi mistään biomarker geeni, riippumatta eroista tiedot ja menetelmät hyödynnetään sekvensointia. CCD konsortion seuraa laadukasta identtinen proteiinia -merkinnät viitteen hiiren ja ihmisen genomeja vakaan tunnusnumero nimeltään CCD tunnus. Vakaus CCDs ID johtuu konsortio tekee jatkuvasti pyrkimyksiä varmistaa, että olemassa olevat CCD johdonmukaisesti päivitetään mitään yhteistyötä jäsen [21]. Symboli, kuvaus, CCDs tunnus ja nukleotidien lukumäärä kymmenen keuhkosyöpä biomarkkereiden geenejä käytetään tässä tutkimuksessa esitetään taulukossa 1.
Mutaatio Tutkimusaineisto hankittiin Luettelon somaattinen mutaatiot Cancer (COSMIC) tietokantaan ja ne käsittävät kymmenen biomarkkereiden geenien keuhkosyöpä. Kosminen tietokanta kehittämä ja isännöi WTSI sisältää tapaukset kuratoituja ja arkistoidut somaattisten mutaatioiden avain syövän biomarkkereiden geenien monilla syöpänäytteissä [22]. Kymmenen biomarkkereiden geenien COSMIC tietokantaan korkein taajuus mutaatioiden keuhkoissa kuin tuolloin tämä tutkimus toteutettiin olla symboleita TP53, EGFR, KRAS, KMT2C, CDKN2A, NF1, STK11, KMT2D, ZNF521 ja SMARCA4 [23 ]. Symbolit saatiin HUGO Gene nimikkeistön komitea (HGNC) tietokanta ja useimmat näistä biomarkkereiden geenit nimenomaan ilmoitettiin usein mutatoitunut biomarkkerina geenien keuhkosyövän [24-29]. Kaikkiaan poimimamme näytteet 10784 keuhkosyöpään mutaatioiden ja Tietueen hyödyntää meidän kokeiluihin sisältää neljätoista eri luokkiin, jotka ovat
Normaali
,
EGFR Poisto
,
EGFR korvaaminen
,
KRAS korvaaminen
,
TP53 poisto
,
TP53 korvaaminen
,
NF1 korvaaminen
,
KMT2C korvaaminen
,
CDKN2A korvaaminen
,
STK11 poisto
,
STK11 korvaaminen
,
KMT2D korvaaminen
,
ZNF521 korvaaminen
ja
SMARCA4 korvaaminen
.
yleinen tilastot kuratoi ja ainutlaatuinen näytteitä normaalista ja mutaatioiden tiedot on esitetty taulukossa 2. deleetiomutaatio tietoja biomarker geenien kuten KRAS, NF1, KMT2C, CDKN2A, KMT2D, ZNF521 ja SMARCA vuonna COSMIC tietokanta ovat joko olemattomia tai erittäin harvat, joka ilmoitti päätimme jättää ne tietojemme näytteistä.
Transforming Perimän nukleotidit osaksi värikuvat
geenin perusyksikkönä perimän koostuu erityisen sekvenssin deoksiribonukleiinihappo (DNA) tai ribonukleiinihappo (RNA). DNA on polymeeri, joka koostuu pienistä molekyyleistä, joita kutsutaan nukleotideiksi, jotka voidaan erottaa neljä emästä. Nämä emäkset ovat adeniini (A) = C
5 H
5 N
5, sytosiini (C) = C
4H
5 N
3O, guaniini (G) = C
5H
5 N
5O ja Tymiiniä (T) = C
5 H
6 N
2O
2. Näin ollen, DNA voi olla täysin määritelty sekvenssi, joka koostuu neljästä aakkoset {A, C, G, T}. Ensimmäinen olennainen askel käsittelyssä DNA-sekvenssin vaatii muuntaminen merkkijono aakkosten osaksi numeerinen vastine [30-32]. Numeerinen karakterisointi DNA-sekvenssit voivat auttaa contriving asianmukaisia genomista ominaisuuksia, jotka aistii emäskoostumuksesta ja jakelu määrällinen tavalla. Tämä voisi auttaa DNA-sekvenssin tunnistaminen ja vertailu havaitsemaan laajuus geneettinen samankaltaisuus tai erilaisuus. Emäskoostumuksesta tarjoaa kokonaispitoisuus kunkin emäksen DNA-sekvenssi, ja se on helposti määritettävissä. Kuitenkin pohja jakelu, joka on vaikea määritellä on enemmän informatiivinen ja se antaa paremman syrjitä eri geenien vaikka emäskoostumuksesta numerot ovat samat [31]. Näin ollen sekä emäskoostumus ja jakelu DNA-sekvenssi voidaan tutkia numeerisesti luonnehtia genomiset sekvenssit.
erityisesti numeerinen koodaus menetelmä, määrittää, kuinka hyvin emäskoostumus ja jakelu DNA-sekvenssin on kiinni. Monet numeeriset koodaus menetelmiä on raportoitu kirjallisuudessa kanssa, joilla kullakin omat vahvuutensa ja heikkoutensa. [33] Voss muutos on yksi yleisimmin käytetty menetelmiä numeerinen koodaus nukleotidien [34,35]. Se on tehokas spektrin ilmaisin pohjan jakelun ja jaksotus ominaisuuksia [33] ja se edustaa DNA-sekvenssejä on neljä binary indikaattori sekvenssit kuten: (1), jossa 1 tarkoittaa emäksen läsnä ollessa b, paikassa n, 0 merkitsee sen poissaolo että sijainti ja N on pituus DNA-sekvenssin on koodattu. Kuitenkin Voss esitys on paljon päällekkäisyyttä [33]. Joitakin muita olemassa olevia menetelmiä, kuten Z-käyrä ja tetraedri affiinimuunnokset voidaan käsitellä redundanssia Voss esitys [36]. Z-käyrä ja tetraedri esityksiä vähentää laskennallisen kustannuksia myöhemmissä käsittelyvaiheissa DNA-sekvenssit.
Z-käyrä muunnos kehitettiin koodata DNA-sekvenssit, joissa on enemmän biologisia semantiikka [37]. Se käyttää sopivaa geometrinen edustus vähentää Voss esityksiä neljästä kolmeen kompaktissa tavalla, joka on symmetrinen kaikissa neljässä emäkset. Z-käyrä sisältää kaikki tiedot kuljetetaan vastaavat DNA-sekvenssit, ja näin ollen analyysi DNA-sekvenssi voidaan suorittaa tutkimalla vastaava Z-käyrää [20]. 3-ulotteinen Z-käyrä vektorit ilmaistaan [20,36] 🙁 2) B
tetraedri muutos on samanlainen kuin Z-käyrän muutos, jossa neljä nukleotidiemästä muunnetaan 3-ulotteinen vektoreita Siinä vaiheessa keskustasta tetrahedron sen kärkipisteet. Nämä 3-ulotteinen vektoreita määritellään [36-37] 🙁 3), jossa
r
,
g
ja
b
että alaindeksi vektoreiden ovat punaisia, vihreä ja sininen merkkivalo. Itse asiassa, tetraedri muutos on viitattu kirjallisuudessa nimellä ”rgb” muutosta DNA-sekvenssin [33].
Jotta tehokkaasti käsitellä rgb vektorit (yhtälöt 2 ja 3), jolloin saadaan vastaava rgb kuvia, asianmukainen määrä ikkunoita, joka vastaa kuvan korkeutta (H), sopivan ikkunan kokoa, joka vastaa kuvan leveys (W) ja päällekkäisyys valitaan määrittämään kolme KxL kolmiulotteinen matriiseja. Tässä tutkimuksessa, ikkunoiden määrä määritettiin perustuen DNA-sekvenssin pituus (N) biomarkkerin geenin. Ikkunan koko 200 ja limityksellä 50 nukleotidin käytettiin [38,39]. Matriisit normalisoitiin alueella 0-255 kuvaamaan jokainen niistä harmaasävykuva. Nämä kolme harmaasävykuvat annetaan värinä kuvan RGB.
Pattern Classification ja Feature Extraction
tehtävänä kuvio luokittelu voidaan suorittaa kuvion luokittelija käsittää olennaisesti luettelointia raakadataa haluttuun luokkiin perustuu luontainen kuvioita data. Automaattinen kuvio luokitus on tarkasti toteuttaa eri sovellusalueilla koneiden [40]. Monimutkaisuus malli luokittelija vahvasti riippuvainen ulottuvuutta piirrevektorin ja numero harjoitustietosivut näytteitä. Kompakti tai alhainen ulotteinen ominaisuus esitys, joka säilyttää kuvaava sisällön alkuperäisen datajoukon on erittäin toivottavaa tehokas muistin tarve, nopeuttaa käsittelyaikaa ja minimoida laskennallinen monimutkaisuus kuvio luokittelija. Osa nykyisten piirreirrotuksen ja dimensionality vähentämismenetelmien tilastot ovat Factor Analysis (FA), Independent Component Analysis (ICA) ja Principal Component Analysis (PCA).
signaalin ja kuvankäsittely domain, useita muita menetelmiä ovat kehitetty poimia edustavaa piirrettä alkuperäisen datajoukon, jotka johtavat ulottuvuus vähentämiseen. Näitä menetelmiä ovat Vector kvantisointi (VQ), Scale muuttumattomia Feature-muunnoksen (SIFT), nopeutui Tukeva ominaisuudet (SURF), Principal Component Analysis SEULOA (PCA-SEULOA), Local Binary Patterns (LBP) ja histogrammi Oriented Gradient (HOG) [ ,,,0],41-44]. Sika on erityisen kuvattu kirjallisuudessa vahva muoto, ulkonäkö ja rakenne uuttamismenettelyssä [43-45]. Olemme valinneet HOG Menetelmä käytettäväksi tässä tutkimuksessa, koska sen houkutteleva ominaisuudet, kuten parempi invarianssia valaisemista. Lisäksi aikaisempi tutkimus on osoittanut, että HOG menetelmä päihitti LBP menetelmä uuttamalla kompakti genomisen ominaisuuksia [17]. Alkuperäisessä täytäntöönpanossa HOG menetelmän, 3×3 soluryhmän ja 9 laatikot käytettiin tuottamaan piirrevektorin 81 alkiot harmaasävykuvaa ja testattu ihanteellinen jalankulkijan havaitsemiseen [44]. Kuitenkin, koska alhainen mitat noin genomisen kuvia, käytimme mitat ovat vähintään 2×2 soluryhmän ja 9 astiat tuottaa kompakti HOG genomisen piirrevektorin 36 elementtejä harmaasävykuva. Harmaasävykuvaan Kuva on otettu värikuva DNA-sekvenssin avulla MATLAB. Uutettu HOG genomiset ominaisuuksia myöhemmin syötettiin kuvion luokittelija luokitella keuhkosyöpään biomarkkereiden geenejä.
Tässä tutkimuksessa kaksi kilpailevaa state-of-the-art kuvio luokittelijoiden tutkittu luokitteluasteikot keuhkosyövän biomarkkereiden geenit Monikerroksisen Perceptron (MLP) neuroverkko ja Radial Basis Function (RBF) neuroverkon. Ne ovat laajasti käytetty ongelmien ratkaisemiseksi kuvio luokitus ja toiminto lähentäminen [46-58]. Tässä mallissa on kuitenkin luokittelijoiden on luontainen vahvuuksia ja heikkouksia, koska niiden erottavien ominaisuuksien. MLP neuroverkot on kyky epäsuorasti havaita monimutkaiset epälineaarinen assosiaatiot riippumattomien ja riippuvien muuttujien. Ne kuitenkin vaativat suurempaa laskentaresursseja ja ovat alttiita ongelma overfitting. Toisaalta, RBF neuroverkot on vahva etu, että yksinkertainen suunnitella, heillä on hyvä yleistys kyky, he suorittavat vahvasti ja sietävät ottokohinataso [59]. Siitä huolimatta ne eivät saa paremmin kuin MLP neuroverkot kaikissa olosuhteissa. Miten kukin malli luokittelijan tietenkin riippuu ongelman luonteesta harkitaan. MLP neuroverkot voivat tuottaa enemmän asennettu teho ylittää datajoukolla kuin RBF neuroverkot, mutta RBF neuroverkot vaativat vähemmän kokeita ja virhe kuin MLP neuroverkot. Lisäksi jokainen kuvio luokittelija voi toimia eri tavalla erilaisiin lähentämisestä toimintoja. Koska taustalla toiminto, joka on lähellä meidän kokeellista tietoa oli tuntematon etukäteen, löysimme se järkevää kokeilla kahta mallia luokittelijoiden löytää yksi, joka toimii hyvin luokittelua tehtävänne tässä tutkimuksessa.
kokeellisissa malleissa ja Performance Evaluation
neljä koemalleissa pidettiin tässä tutkimuksessa löytää joukko affine muuttumattoman genomista ominaisuuksia ja määrittää sopivan yhdistelmän laskennallisia menetelmiä parantaa luokittelua keuhkosyöpää biomarkkereiden geenejä. Kuvio 1 esittää suunnittelu geneerisen arkkitehtuurin neljän kokeellisissa malleissa. Kokeelliset mallit toteutettiin käyttäen MATLAB R2012a ohjelmointiympäristö. Perustuu kokeellisiin malleihin, kokeet suoritettiin tietokoneessa, joka sisältää Intel Core i5-3210M CPU, joka toimii 2.50GHz nopeudella, 6.00GB RAM, 500 GB kiintolevy ja kulkee 64-bittinen Windows 8-käyttöjärjestelmän. Kaikissa neljässä kokeellisissa malleissa, Tietueen jaettiin 70% koulutukseen, 15% testaus- ja 15% validointi. Ensimmäisessä kokeellisessa mallissa, Z-käyrän esitys saamiseksi käytettiin väri kuvan Voss esitys, HOG menetelmää käytettiin genomisen piirrevektorin 36 elementtejä värikuvan ja MLP neuroverkko käytettiin luokitella ominaisuuden vektori. Toisessa kokeellisessa mallissa, tetraedrin esitys sijasta käytettiin Z-käyrän esitys käytetty kokeellinen malli. Näin ollen muuttamalla koodaus- menetelmän Z-käyrä tetraedri eroa ensimmäisen ja toisen kokeellisissa malleissa. Kolmannen kokeellinen malli, Z-käyrän esitys saamiseksi käytettiin väri kuvan Voss esitys, HOG menetelmää käytettiin genomisen piirrevektorin 36 elementtejä värikuvan ja Gaussin RBF neuroverkko käytettiin luokitella piirrevektoria. Neljäs kokeellinen malli on suunniteltu käyttämään tetrahedron edustus sijaan Z-käyrän esitys, joka on ainoa ero tämän neljännen kokeellinen malli ja kolmas kokeellinen malli.
konfiguraatiot MLP hermo verkot ensimmäisen ja toisen kokeellisissa malleissa ovat samat. On 36 hermosolujen syöttökerrosta koska HOG genomista piirrevektorin on 36 elementtejä. Tuotos kerros MLP neuroverkko sisältää 14 neuronit, koska on olemassa 14 luokkia genomisessa keräämiseen. On ehdotettu, että piileviä tasoja suuren määrän neuronien yleensä johtaa vähemmän paikallisia minimit [60]. Siten kaksi piilotasojen tutkittiin ja neuroverkko testattiin 100, 200, 300, 400 ja 500 neuronien kokeellisesti määrittää sopivan määrän neuronien kunkin piilotettu kerroksia. MLP neuroverkko käyttää lineaarista aktivointi toiminto tulokerroksen lähettää tarkka ominaisuuksia ilman mitään muunnosta. Hyperbolinen tangentti funktio käytettiin neuronien piilotettu ja lähtö kerroksia täysin hyödyntää niiden epälineaarisuus ja differentiability ominaisuuksia. Nämä ominaisuudet ovat välttämättömiä ominaisuuksia optimaalisen suorituskyvyn MLP neuroverkkojen [60]. Lisäksi MLP neuroverkko oli määritetty 500 koulutus aikakausien, oppiminen nopeudella 0,1, maksimi harjoitusaika on 120sec, vähimmäissuorituskykyä kaltevuus 1e-6, oikeellisuustarkistuksista 500 ja suorituskykyä tavoitteena 0.
kokoonpanot Gaussin RBF neuroverkkojen kolmannen ja neljännen kokeellisissa malleissa ovat samat. Gaussin RBF neuroverkkojen oli konfiguroitu olla MSE tavoite 0, levitä 0,1, 36 neuronien tulo kerroksen 14 neuronien lähtö kerrokseen. Nämä kokoonpanot perustuvat elementtien määrä kussakin piirrevektorin ja määrä biomarkkereiden geenin luokkia tietojen käyttöä. Kuitenkin Gaussin RBF neuroverkko sisältää yleensä yhden piilotetun kerroksen ja lisää automaattisesti neuronien piilokerrokselle kunnes se täyttää määritellyt keskimääräisen neliövirheen tavoite. Koulutus Gaussin RBF neuroverkkojen lopetettiin, kun useita piilotettuja kerroksen neuronien saavuttanut suurimman oletusarvo 534, joka on useita tapauksia koulutukseen keräämiseen.
neljä eri suorituskyvyn mittaamisen käytetään yleisesti kirjallisuudessa suorituskyvyn arvioimiseen kuvio luokittelija käytettiin kvantitatiivisesti arvioida esityksiä MLP ja Gaussin RBF neuroverkko kuvio luokittelijoiden. Nämä suorituskyvyn mittarit ovat tarkkuus, Mean Square Error (MSE), spesifisyys ja herkkyys. Tarkkuus kuvio luokittelija voidaan laskea sekaannusta matriisi prosenttiosuutena luokitellut oikein yhteisöistä. Tämä vastaa summa diagonaalialkiot sekaannus matriisin jaettuna kokonaismäärä elementtien luokissa. MSE on keskiarvo neliön eroa odotetun lähdön ja todellista tuotantoa kuvio luokittelija. Todennäköisyys, että kuvio luokittelija oikein luokittelee ei-positiivinen Esimerkiksi negatiivisiksi kutsutaan spesifisyyttä tai True Negatiiviset Rate (TNR). Todennäköisyys, että kuvio luokittelija etiketit tapauksissa kohde luokan oikein kutsutaan herkkyys tai todellinen positiivinen maksu (TPR). Vastaanottimen käyttöominaisuudet (ROC) on juoni herkkyys vastaan 1-spesifisyys graafisesti havainnollistaa suhdetta herkkyys ja spesifisyys kuvio luokittelija [60-62].
Koetulokset
vertaileva tulokset Z-käyrä ja mahdollisimman pientä muunnosta esitetään ensin varmistaa, onko ominaisuus asetetaan saatiin suhteessa kahteen affiini muunnokset ovat muuttumattomia. Kuviot 2 ja 3 esittävät vastaavasti tehospektri tontit Z-käyrä ja tetrahedron esityksiä DNA-sekvenssit biomarkkereiden geenien taulukossa 1. Kukin vastaava spektrin muodon saatu käyttäen Z-käyrän esitys (kuva 2) voidaan nähdä olevan erittäin samankaltaisia joka saatiin käyttämällä tetraedri esitys (kuva 3). Tämä tulos antaa osoituksen vahva samankaltaisuus Z-käyrä ja tetraedri esityksiä. Z-käyrä spektrin muodot biomarkkereiden geenit ovat yksilöllisesti poikkeavat toisistaan (kuvio 2), ja sama suuntaus havaitaan yli muodot biomarkkereiden geenien saadaan käyttämällä tetraedri esitys (kuva 3). Se voidaan havaita kaksi lukua, että spektrin muodot TP53 biomarkkereiden geeni on tiheä spektrin yksityiskohdat spektrin kirjekuoret korkean amplitudit. Sitä vastoin spektrin muodot EGFR biomarkkereiden geenin kaksi lukua sisältävät tiheä spektrin yksityiskohdat alhainen amplitudit kaksi piikkiä korkean amplitudit K = 1200 ja K = 2400. spektraalinen muodot KRAS biomarkkereiden geenin molemmat luvut ovat ohuet spektrin yksityiskohdat, jotka päättyvät ennen K = 600 osoittamatta mitään silmiinpistävää piikki. Spektrin muodot KMT2C biomarkkereiden geeni on tasainen spektrin yksityiskohdat suuri amplitudi piikkejä K = 5000 ja K = 10000 molemmissa kuvioissa. Samanlainen spektrin muodot KRAS biomarkkereiden geeni, spektrin muodot CDKN2A biomarkkereiden geenin molemmat luvut ovat ohuita spektrin yksityiskohdat, jotka päättyvät ennen K = 500 toisin spektrin muodot KRAS biomarkkereiden geeni, joka lopettaa jälkeen K = 500. spektrin muodot NF1, STK11, KMT2D, ZNF621 ja SMARCA4 biologisten merkkiaineiden geenit kaikilla on kaksi piikkiä eri amplitudit eri arvot K, joka on osoitus ainutlaatuisuuden näiden biomarkkereiden geeneistä.
lisäksi, värikuvien saatu käyttäen Z-käyrä ja tetraedrin esityksiä kaikista biomarkkereiden geenit taulukossa 1 on vastaavasti esitetty kuvioissa 4 ja 5. on selvästi havaittavissa läpi subjektiivisen silmämääräinen tarkastus, että kuvioita vastaavien kuvien biomarkkerina geenit on saatu käyttämällä kahta affine muunnokset ovat samanlaisia. Lisäksi voidaan nähdä, että kuvien TP53, KRAS, CDKN2A ja STK11 biologisten merkkiaineiden geeneillä on raskas kuvioita ja sisältävät näkyvään musta tai vihreä laastaria klo oikeassa alakulmassa kuvista. Tekstuurit kuvien EGFR, ZNF521 ja SMARCA4 molemmissa luvut ovat karkeita vain kuvan SMARCA4 ottaa hyvin pieni musta tai vihreä laastari oikeassa alakulmassa. Kuitenkin kuvien KMT2C, NF1 ja KMT2D biologisten merkkiaineiden geenit on pehmeä kuvioita. Vaikka kuvioita vastaavien kuvien ovat samanlaisia jokaisen eri biologisten merkkiaineiden geeniä, niiden värit ovat erilaiset.
objektiiviseen arviointiin kvantitatiivisesti analysoimalla kuvan tekstuurit suoritettiin täydentämään tulokset subjektiivisen arvioinnin kuva tekstuurit biomerkkiaineiden geenien (kuviot 4 ja 5). Näin tehdessämme me laskenut Haralick toisen kertaluokan tilastolliset arvot kontrastia ja tasalaatuisuuden [63]. Hyvä kontrasti arvot ovat yleensä odotetaan raskaiden kuvioita ja matalia arvoja pehmeä kuvioita. Homogeenisuus arvot ovat käänteistä kontrastiarvot ja suurempi kontrasti, sitä alhaisempi tasalaatuisuus ja vice versal. Haralick saadut arvot kullekin värikuvien kymmenen biomarkkereiden geenit on saatu käyttäen Z-käyrä ja tetraedri esityksiä on esitetty taulukossa 3. Taulukosta ilmenee, että kontrasti arvot Z-käyrän muuttaneet värikuvia listalla samalla tavalla kuin tetrahedron transformoitujen värikuvia (arvo kiinnike tarkoittaa sijoitus biomarkkereiden geenin). Sillä Z-käyrän muuttaneet värikuvia, KRAS biomarkkereiden geeni ykkösenä suurimmalla kontrastilla arvon 13099, kun taas KMT2D biomarkkereiden geeni riveissä viime joiden kontrastin arvoon 6358. Tätä ennen, tetraedri muuttaneet väriä kuvilta, CDKN2A biomarkkereiden geeni ykkösenä suurimmalla kontrastilla arvon 13495, kun taas KMT2D biomarkkereiden geeni riveissä viime joiden kontrastin arvoon 6392.
homogeenisyys arvot Z-käyrän muuttaneet värikuvia myös listalla samalla tavalla kuin itse tetraedri muuttaneet värikuvia. Sillä Z-käyrän muuttaneet värikuvia, KRAS biomarkkereiden geeni ykkösenä joiden homogeenisuuden arvoa 0,0342 samalla KMT2D biomarkkereiden geeni riveissä viime joiden tasalaatuisuus arvoon 0,0445. Kuitenkin tetraedri muuttaneet väriä kuvilta, TP53 biomarkkereiden geeni ykkösenä joiden tasalaatuisuus arvoon 0,0339, kun KMT2D biomarkkereiden geeni riveissä viime joiden tasalaatuisuus arvoon 0,0448. [36].