PLoS ONE: Identification of Logic väliset suhteet Geenit ja alatyypeistä ei-pienisoluinen keuhkosyöpä

tiivistelmä

Ei-pienisoluinen keuhkosyöpä (NSCLC) on kaksi suurta alatyyppiä: adenokarsinooma (AC) ja okasolusyöpä (SCC). Diagnoosi ja hoito NSCLC haittasivat rajoitetun tietoa patogeneesimekanismeja alatyyppejä NSCLC. On tarpeen tutkia molekyylitason mekanismeja liittyy AC ja SCC. Tässä työssä olemme parantaneet logiikkaa analyysin algoritmi louhia riittävät ja tarvittavat esiintymisen valtioiden (läsnäolo tai puuttuminen) fenotyyppien. Käytimme menetelmämme AC ja SCC näytteet, ja tunnistaa alempia ja ylempiä logiikka suhteita geenien ja kaksi alatyyppiä NSCLC. Löydetyn suhteet olivat riippumattomia yksilöitä valittu, ja niiden merkitys on validoitu tilastollinen testi. Verrattuna kahteen aikaisempaan menetelmistä (ei-negatiivinen matriisi factorization menetelmä ja merkityksellisyyttä analyysimenetelmä), nykyinen menetelmä päihitti näitä menetelmiä muistaa korko ja luokittelun tarkkuus NSCLC ja normaali yksilöitä. Saimme biomarkkerit. Joukossa biomarkkerit, geenejä on käytetty erottamaan AC SCC käytännössä ja muut kuusi geeniä oli hiljattain löydetty biomarkkereita erottamiseksi alatyyppejä. Lisäksi

NKX2-1

on pidetty molekyylikohteessa kohdennettuun hoitoon AC, ja muut geenit voivat olla uusia molekyyli tavoitteita. Gene ontologia analyysi, huomasimme, että kaksi biologisia prosesseja ( ”orvaskeden kehittämistä” ja ”soluadheesiota ’) on tiiviisti sidoksissa tumorigeneesin alatyyppejä NSCLC. Yleisemmin nykyistä menetelmää voitaisiin laajentaa muihin monimutkaisia ​​sairauksia erottamiseksi alatyyppejä ja havaitsemalla molekyylitason tavoitteet täsmähoitoihin.

Citation: Su Y, Pan L (2014) tunnistaminen Logic väliset suhteet Geenit ja alatyypit Ei-pienisoluinen keuhkosyöpä. PLoS ONE 9 (4): e94644. doi: 10,1371 /journal.pone.0094644

Editor: Yan Zhang, Harbin Medical University, Kiina

vastaanotettu: 20 marraskuu 2013; Hyväksytty 18 maaliskuuta 2014; Julkaistu: 17 huhtikuu 2014

Copyright: © 2014 Su, Pan. Tämä on avoin pääsy artikkeli jaettu ehdoilla Creative Commons Nimeä lisenssi, joka sallii rajoittamattoman käytön, jakelun ja lisääntymiselle millä tahansa välineellä edellyttäen, että alkuperäinen kirjoittaja ja lähde hyvitetään.

Rahoitus: Kirjoittajat ”työ tukee National Natural Science Foundation of China (Grant nro. 61100145, 61033003 ja 91130034). Rahoittajat ollut mitään roolia tutkimuksen suunnittelu, tiedonkeruu ja analyysi, päätös julkaista tai valmistamista käsikirjoituksen.

Kilpailevat edut: Kirjoittajat ovat ilmoittaneet, etteivät ole kilpailevia intressejä ole.

Johdanto

Keuhkosyöpä on johtava syy syöpään liittyvistä kuolemantapauksista maailmassa [1]. Se on jaettu kahteen luokkaan Maailman terveysjärjestön (WHO): ei-pienisoluinen keuhkosyöpä (NSCLC) ja pienisoluinen keuhkosyöpä (SCLC) [2]. NSCLC, jossa on kaksi suurta alatyyppiä: adenokarsinooma (AC) ja okasolusyöpä (SCC), osuus on yli puolet kaikista keuhkosyöpää [2]. Kuitenkin alle NSCLC potilaiden hengissä yli viiden vuoden [3]. Rajallinen tehokkuus diagnosointiin ja hoitoon NSCLC johtuu pääasiassa vaikeudesta erottaa alatyyppeihin ja riittävästi tietoa patogeneesimekanismeja alatyyppejä NSCLC.

NSCLC on sairaus, ja ero AC ja SCC voidaan heijastuu solu- ja molekyylitason. Perinteiset menetelmät luottaa visuaalisia solumorfologiaan (esim. Koko kasvain ja histologiset piirteet) erottamaan alatyyppeihin, jotka perustuvat solutasolla [4] – [6]. On ehdotettu, että perinteiset voisi tehokkaasti erottaa SCLC peräisin NSCLC vuoksi selvä ero morfologian SCLC-solujen ja että NSCLC-solujen [7]. Kuitenkin morfologinen ero joukossa alatyyppejä NSCLC jää epäselväksi [8]. Useita molekyylitasolla data (mRNA, microRNA ja metylaation data) välillä NSCLC ja normaali on käytetty analysointiin toimintahäiriöiden NSCLC [9]. Ehdotettiin, että erotteleva kyky geenien saatu mRNA-tulokset olivat merkittävästi suurempia kuin ne, joita microRNA ja metylaation tietoja. Siksi on järkevää hakea arvokkaita geenejä ja biologisista prosesseista, jotka ovat suuria erotteleva kyky välillä AC ja SCC mRNA- tasolla.

Kohdennettu terapeuttinen aine on tarkoitettu häiritsemään tietyn molekyylikohteena joka on keskeinen rooli kasvaimen kasvua ja etenemistä [10]. Esimerkiksi, joka on suunnattu terapeuttisen aineen kohdennettuun hoitoon NSCLC, on monoklonaalinen vasta-aine on

VEGF

. Geeni

VEGF

on tärkeää, koska se on korkeampi ilmaistu keuhkosyöpään kuin normaalissa keuhkojen [11]. Näin ollen molekyylit, jotka pelata erillistä roolia syövän ja normaalin voivat olla tärkeitä valittaessa terapeuttisia aineita. Vaikka täsmähoitoihin osoittavat kliinistä hyötyä kohdennettuja agentit eivät ole käytössä kohdistettu hoitomuotojen muuttaa kliinisten tulosten dramaattisesti. Lisäksi olemassa kohdennettua terapeuttista aikataulut voivat olla sopivia ennustetekijöiden erityisen alatyypin NSCLC. Esimerkiksi vain potilaille, joilla on ei-SCC on parempi käyttää [12]. Siksi on tarpeen tutkia molekyylitason mekanismeja, jotka liittyvät kanssa alatyyppejä NSCLC, kehittää tehokkaita menetelmiä erottaa AC SCC ja uusia terapeuttisia aineita erikoista alatyyppejä NSCLC.

Ilmaisu kuvioita Useiden geenit on todettu erikoista alatyyppien sairauksia. Esimerkiksi

NKX2-1

geeni ilmentyy keuhkojen AC [13]. Knockdovvn

NKX2-1

tulokset kasvun estäminen keuhkojen AC solussa. Näin ollen, kun läsnä on keuhkojen AC riippuu ekspressioon

NKX2-1

[14]. Toinen esimerkki on mukana tutkimuksessa ruokatorven syöpään, yhdistelmä geenien

GATA6

ja

SPRR3

voi syrjiä normaaliepiteelissä, Barrettin dysplasia ja Barrettin ruokatorvi liittyy AC [15]. Joitakin erityisiä suhteita välillä geenin parin (

GATA6

ja

SPRR3

) ja fenotyypit ruokatorven syöpään. Tällaiset esimerkit osoittavat, että on olemassa suhteet geenien ja alatyyppien sairauksia.

menetelmiä, jotka epäsuorasti tunnistaa geeni-fenotyypin suhteita voidaan karkeasti jakaa kolmeen yhteiseen vaiheet: geenin rakentamiseksi-geenin (tai proteiini-proteiini) verkko ja fenotyyppiä-fenotyyppi verkon kokoamalla vuorovaikutus tietoja useista tietokannoista; Liitä geeni-geeni (tai proteiini-proteiini) verkon fenotyyppi-fenotyyppi verkkoon; käyttää algoritmia (esim random walk kanssa uudelleenkäynnistys moniverkkoympäristössä algoritmi) päätellä pairwise geeni-fenotyyppi suhteet [16], [17]. Kuitenkin melu integrointi tietojen rajoittaa tehokkuutta havaitsemista geenin-fenotyypin suhteita.

Monia menetelmiä on kehitetty suoraan liittää yhteen molekyylien fenotyypit. Epänegatiiviset matriisi factorization (NMF) menetelmä on dimensionality vähentävää algoritmi saada joukko metagenes ja niihin liittyvien kertoimien [18]. Jokainen fenotyyppi vastaa metageeni. Kerroin on geenin metageeni edustaa läheisyys suhde geenin ja fenotyyppi, joka vastaa metageeni. Tämä menetelmä vaatii suodattaa useita tietojen varmistamiseksi nonnegative ehto, joka voi tappio joitakin hyödyllisiä tietoja. Lineaarinen korrelaatio kertoimet käytettiin mittaamaan genotyyppi-fenotyyppi assosiaatioita yhden proteiineja mikrobin ja mikrobi n fenotyypit [19]. Slonim et ai. käytetyt merkityksellisyyden analyysimenetelmä (RA) päätellä geenien fenotyyppi suhteita arvioimalla keskinäistä tietoa [20]. Kuitenkin fenotyypin piirteet vaikuttavat usein ole yhden geenin, mutta geenien yhdistelmiä. Association sääntö kaivos (ARM) on data mining tekniikka poimia kausaliteettisääntöjä joiden yleinen muoto [21]. Bowers et ai. suunnitellut logiikan analyysi tapa hankkia kausaliteettisääntöjä peräisin kohteen tai kohteiden yhdistelmää toiseen. Aiemmat tutkimukset on tehty päätellä logiikka geenien välisten suhteiden tai proteiinien avulla pareittain ja kolmikon logiikan analyysi ekspressiotietojen tai phylogenetic profiilit [22]. Kuitenkin, jos-niin säännöt eivät saa olla monia biologisia tapauksissa ellei päinvastainen suhde pätee sekä [23].

Tässä artikkelissa, me parantaa logiikan analyysimenetelmä louhia tarpeelliset ja riittävät edellytykset esiintymisen valtioiden (läsnäolo tai puuttuminen) fenotyyppejä [22]. Nykyinen menetelmä otetaan huomioon sekä yhteen geeniin ja geenin pari, jotka voivat vaikuttaa fenotyyppejä. Käytämme menetelmää päätellä geeni-alatyypin suhteet perustuvat AC ja SCC yksilöitä. On ehdotettu, että ilmaisu kuvioita (lauseke tai ei-lauseke) tunnistettujen geenien ovat välttämättömiä ja riittäviä edellytyksiä läsnäolon valtioiden AC tai SCC. Tehokkuus nykyisen menetelmän demonstroidaan NSCLC ja normaali yksilöitä. Tuloksemme osoittavat, että nykyinen menetelmä päihittää kaksi nykyisten menetelmien (NMF menetelmä ja RA menetelmä) in muistaa korko ja luokittelun tarkkuus. Tämä työ voisi auttaa löytämään biomarkkereiden erottaa alatyyppejä sairauksien ja suunnitella uusia kohdennettuja terapeuttisia aineita sairauksiin, sekä paljastaa biologisia prosesseja, jotka liittyvät läheisesti sairauksiin.

Tulokset

Käytimme myös menetelmää tunnistaa suhteita geenien ja kaksi suurta alatyyppiä NSCLC (AC ja SCC). Lisäksi suorituskyvyn vertailu meidän menetelmän kanssa kahden aiemman menetelmistä (NMF menetelmä ja RA menetelmä) tehtiin vertaamalla kahta toimenpidettä (muistaa korko ja luokittelun tarkkuus) on tietojen GSE18842 joka sisältää yhtä paljon NSCLC ja normaali yksilöitä. Biomarkkerit sekä biologiset prosessit, jotka liittyvät läheisesti alatyyppejä NSCLC voitaisiin saada useita mielenkiintoisia suhteita geenien ja alatyyppejä NSCLC.

tunnistaminen geenin-alatyypin alempia ja ylempiä logiikka suhteita

Koska määrä AC näytteitä () oli huomattavasti suurempi kuin SCC yksilöt () (taulukko 1), me satunnaisesti valittu kiinteän numeron (ts) AC yksilöitä, joilla varmistetaan samanlainen määrä näytteitä eri fenotyyppejä. Me exacted sarakkeet binary koetin tietojen samoin kuin fenotyypin profiilin datan, jotka vastaavat valittua AC yksilöitä ja kaikki SCC yksilöitä. Uusi binary koetin tietojen ja fenotyypin profiilitiedot muodostettiin mukaan, jota vaaditaan sarakkeet binary koetin tietojen ja fenotyypin profiilitiedot, säilyttäen suhteelliset asemat sarakkeita. Uusi binary koetin tiedot oli koko, jossa ensimmäinen sarakkeet vastasi AC yksilöitä, ja viimeinen sarakkeet viitattu SCC yksilöitä. Uusi fenotyyppi profiilin tiedot oli koko, jossa ensimmäinen rivi edustaa AC ja toinen edustaa SCC. Yksinkertaisuuden, määrittelimme ensimmäisen ja toisen rivin uuden fenotyypin profiilitiedot kuten AC profiilitietojen ja SCC profiilitiedot, vastaavasti. Alalajit NSCLC aineiston muodosti uuden binary koetin tiedot ja uuden fenotyypin profiilitiedot. Käytimme myös menetelmää alatyypeistä NSCLC tietojen miinojen geeni-alatyypin logiikka suhteita.

tunnistaminen koetin-alatyypin alempaan ja ylempään logiikka suhteita.

Perustuu alatyyppejä NSCLC data, laskimme epävarmuus kerroin alatyypin NSCLC ennustaa koettimen (tai koetin pari), sekä epävarmuus kerroin koettimen (tai koetin pari) ennusti alatyypin vastakkaiseen suuntaan. Samaa menetelmää sovellettiin satunnainen binary koetin tiedot ja fenotyypin profiilin dataa. Suurin satunnainen epävarmuus kertoimet logiikan pareittain ja kolmikon yhdistelmiä käytettiin kynnysarvoja alempaan ja ylempään logiikka suhteita, vastaavasti. Eli yhdistys koetin tai koetin paria alatyyppi pidettiin merkittävinä, jos ja vain jos sen epävarmuus kertoimia molempiin suuntiin todettiin olevan suurempi kuin maksimiarvo saatu satunnaista tietoa. Antaa ja on kynnyksiä alemman ja ylemmän logiikka suhteita, vastaavasti. Saimme logiikka pareittain yhdistelmiä ja logiikka kolmikon yhdistelmä, jossa epävarmuus kertoimet korkeampi ja vastaavasti.

Koska merkitys löysi logiikan pareittain ja kolmikon yhdistelmiä ei voida tarkalleen tarkastanut vähän tietoa geenien-alatyypin vuorovaikutteisuuden tilastollinen analyysi on ansaittu arvioitava [24]. Oletetaan merkitsevyystasolla oli. P-arvot olivat nollia löysi logiikan pareittain ja kolmikon yhdistelmiä, jotka olivat pienempiä kuin merkitsevyystaso. Tulokset tilastollinen analyysi osoitti, että löydetty logiikka pareittain ja kolmikon yhdistelmät eivät vaikuttaneet satunnaisesti.

Seuraavaksi arvioimme vääriä löytö määrä (FDR) valvoa maailmanlaajuista merkitystä löysi logiikan pareittain ja kolmikon yhdistelmät . Molemmat FDR arvot löydettiin pareittain ja kolmikon yhdistelmät olivat nolla, siis kaikki löysi logiikan pareittain ja kolmikon yhdistelmät ei muodostunut sattumalta ja ne kaikki voisi edustaa todellista yhdistykset.

Lisäksi laskimme toistumisen määrä löydettyjen logiikka pairwise ja kolmikon yhdistelmät kaikkien satunnainen tutkimuksissa. Logiikka suhteet toistumisen määrä suurempi kuin katsottiin suhteet, jotka olivat riippumattomia yksilöitä valittu. Lopuksi johdettu koetin-AC alempi logiikka suhteita ja koetin-AC korkeampi logiikka suhteita (taulukko A ja B taulukossa S1).

Huomaa, että AC profiilitiedot ja SCC profiilitiedot olivat binary täydentäviä vektoreita. Jos anturi (tai koetin pari) on yhteydessä AC jonka nnen tyypin alhaisempi (korkeampi) logiikka suhteita, niin koetin (koetin pari) on yhteydessä SCC jonka nnen tyypin alhaisempi (korkeampi) logiikka suhteita, missä epävarmuus kerroin koetin-SCC alempi (korkeampi) logiikka suhde on sama kuin anturin-AC alempi (korkeampi) logiikkaa suhde, mutta. Siksi koetin, joka on läheinen suhde AC liittyy myös läheisesti kanssa SCC. Lopuksi saimme koetin-AC /SCC alempi logiikka suhteita ja koetin-AC /SCC suurempi logiikka suhteita.

tunnistaminen geenin-alatyypin alempaan ja ylempään logiikka suhteita.

Jokainen koetin, joka keskittyy tässä asiakirjassa, on kartoitettu yhden geenin. Toisaalta, geeni voidaan havaita useamman kuin yhden koettimen. Esimerkiksi

CLCA2

geeni havaittiin neljässä eri koettimia:

206164_at

,

206165_s_at

,

206166_s_at

ja

217528_at

. Kaikki edellä mainitut neljä koettimet liittyvät AC toisen tyypin alempi logiikka suhteita. Lisäksi, ja oli keskimääräinen epävarmuus kertoimet kutakin neljää koettimien liittyy AC molempiin suuntiin, tässä järjestyksessä. Koetin-AC logiikan suhteen joukko muodostui useista koetin-AC logiikka suhteita, jossa koettimet liittyvät samaa geeniä. Vuonna koetin-AC logiikkaa suhde asettaa, koetin-AC /SCC logiikka suhteet suurin keskimääräinen epävarmuus kertoimia molempiin suuntiin käytettiin tuottamaan geeni-AC /SCC logiikan suhteen kuten jaksossa Materiaalit ja menetelmät. Siten

CLCA2

liittyi AC toisen tyypin alempi logiikka suhteita ja kerroin

CLCA2

-AC /SCC suhde oli.

Edellä menetelmä, geeni-AC /SCC alempi logiikka suhteita kertyi koetin-AC /SCC alempi logiikka suhteita (taulukko A taulukossa S2). Kukin loput koetin-AC /SCC alempi logiikka suhteita syntyy geeni-AC /SCC alempi logiikka suhdetta. Lopuksi saatu geeni-AC /SCC alempi logiikka suhteita (taulukko A Taulukko S3).

havaittu, että jos geeni havaittiin useampi kuin yksi koetin, ja koettimet liittyvät alatyyppejä alemmalla logiikka suhteita, niin tyyppisiä koetin-AC /SCC alempi logiikka suhteet olivat samat. On ehdotettu, että koettimet, jotka liittyvät samaan geeni voidaan liittyvät alatyyppejä samalla tavalla.

saatu kuuden geenin-AC /SCC suurempi logiikka suhteita koettimella-AC /SCC suurempi logiikka suhteita ( Taulukko B taulukossa S2). Kukin loput koetin-AC /SCC suurempi logiikka suhteita syntyy geeni-AC /SCC korkeampi logiikan suhteen. Lopuksi saatu geeni-AC /SCC suurempi logiikka suhteita (taulukko B taulukossa S3).

Jäljempänä keskustelimme esimerkkejä logiikka suhteita, jotka voidaan johtaa ilmiöitä aikaisemmin kuvattu kirjallisuudessa.

Esimerkkejä geenin-alatyypin alempi logiikka suhteita.

Jos jokainen geeneistä

DSG3

,

CLCA2

,

DSC3

ja

PKP1

ilmaistiin sitten SCC oli läsnä, kun AC oli poissa. Lisäksi, jos kukin edellä geenien ei ollut esitetty, niin SCC oli poissa ja AC oli läsnä. Toisin sanoen ilmentymisen kunkin edellä geenien oli riittävä ja välttämätön edellytys läsnä SCC sekä ilman AC. Tuloksemme ehdotti, että geenit (

DSG3

,

CLCA2

,

DSC3

ja

PKP1

) voi erottaa alatyypin AC SCC. Koska solunsisäinen sillat ovat yksi ominaisuus SCC mutta ei AC, proteiinien mukana näissä silloissa voi olla säädellään ylöspäin SCC vain, kuten Desmosomi proteiinien ja solujen välinen junktionaalinen proteiinit [25].

desmogleiini 3

on koodaama proteiini

DSG3

. Tämä proteiini on kalsiumia sitova läpäisevä glykoproteiini komponentin Desmosomi selkärankaisten epiteelisolujen. Koodaama proteiini

DSC3

on kalsium-riippuvainen glykoproteiini (

Desmocollin 3

), joka tarvitaan soluadheesion ja Desmosomi muodostumista. Koodaama proteiini

PKP1

voivat olla mukana molekyyli- rekrytointiin ja vakauttamisen aikana Desmosomi muodostumista. Koodaama proteiini

CLCA2

kuuluu kalsiumille herkkää kloridin johtokyky proteiinin perheen. Se voi olla adheesiomolekyyli keuhkosyövän metastaattisen syöpäsoluja. Edellä neljästä geenistä (

DSC3

,

DSG3

,

PKP1

ja

CLCA2

), jotka liittyvät desmosomeja todettiin säädellään ylöspäin SCC verrattuna AC alatyypin [26]. Konkreettisesti,

DSG3

osoitti voimakasta ilmentymistä SCC, kun taas heikkoa ilmentymistä AC [26].

DSC3

myös yläreguloituja SCC yksinomaan [27], [28]. Vuonna ensisijainen keuhkokasvaimia,

DSC3

oli mahdollinen diagnostinen markkeri keuhkojen okasolusyöpä [29].

PKP1

osoitti kertaa suurempi ekspressiotaso in SCC kuin ACS ja normaali keuhkojen ja siten voivat olla käyttökelpoisia histopatologinen diagnoosi [28].

CLCA2

on päätellä olevan nimenomaan yliekspressoituvan SCC [30].

Huomasimme, että alatyyppi AC (SCC) oli läsnä (poissa) jos ja vain jos

NKX2-1

ilmaistiin. On pääteltävä, että ilmaus

NKX2-1

näytteessä AC on paljon suurempi kuin SCC.

NKX2-1

joka tunnetaan kilpirauhasen transkriptiotekijä 1 (

TITF-1

) on homeodomain sisältävä transakti- tekijä, ja se ilmaistaan ​​päätelaitteelle keuhkojen keuhkoputkia ja keuhkojen kehän pääasiassa [31 ]. Läsnäolo

NKX2-1

proteiini oli vallalla AC, kun taas SCC

NKX2-1

puuttui [13]. Se on sopusoinnussa tuloksemme.

Esimerkkejä geenistä-alatyypin korkeampi logiikka suhteita.

Mitä korkeampi logiikka suhteita geeniä paria ja SCC valittiin lisäanalyysiä. Gene parit (

GPX2

,

ITGB8

) ja (

GPX2

,

SLC2A12

) liittyi SCC, kautta ”ja” looginen suhde ( suurempi looginen suhde tyyppi). Se osoittaa, että

GPX2

,

ITGB8

ja

SLC2A12

olivat ilmaisseet, jos yksilö oli SCC. Lisäksi kaikki geenit

GPX2

,

ITGB8

ja

SLC2A12

olisi esitetty, jos yksilö on AC.

GPX2

havaittiin olevan suurempi ilmaisun SCC verrattuna AC ja normaali [32], [33]. Olimme tietämättömiä todisteita kirjallisuudessa välisten suhteiden

ITGB8

,

SLC2A12

ja alatyyppejä NSCLC. Analyysimme syntyy useita uusia suhteita.

Ei ole tarpeeksi todisteita korkeamman logiikan suhteet erottaa alatyyppejä NSCLC. Niinpä suurin osa suhteita geeni parien ja alatyyppejä NSCLC ei ole vahvistettu. Koska tiedon puute asetuksen väliset suhteet geenien ja alatyyppejä, tarkka suhteet yhteinen geeni pareja ja alatyyppejä ovat ansainneet tarkistettava.

Suorituskyky vertailu

jota vaaditaan sarakkeita binary koetin tiedot samoin kuin fenotyypin profiilin datan, jotka vastaavat NSCLC yksilöitä ja normaali yksilöitä GSE18842. Uusi binary koetin tietojen ja fenotyypin profiilitiedot muodostettiin mukaan, jota vaaditaan sarakkeet binary koetin tietojen ja fenotyypin profiilitiedot, säilyttäen suhteelliset asemat sarakkeita. NSCLC ja normaali data käsitti uuden binary koetin tietojen ja fenotyypin profiilitiedot.

Sovelluksen kolmesta menetelmästä.

Ensinnäkin soveltaa nykyisen menetelmän NSCLC ja normaalin datan. Asetamme, ja saadut koetin-fenotyyppi alempi logiikka suhteita. Merkitys ja maailmanlaajuinen merkitys löysi suhteita varmistettiin tilastollinen testi.

Seuraavaksi sovelletaan NMF menetelmää NSCLC ja normaalin datan. Krs: n ”suodatettiin pois binary koetin tiedot, jotta toteutettavuus NMF menetelmän. Loput binary koetin sisältyvien tietojen rivejä ja sarakkeita. Koska kaksi klustereita yksilöitä (AC ja SCC) sisällytettiin binary koetin data, päätimme sillä dimensionality vähennys parametri NMF menetelmällä. Niistä saadut kaksi metagenes, toinen metageeni oli korkeampi ilmentyminen lähes kaikilla (ts) on NSCLC yksilöitä, kun taas alempi ilmentymistaso lähes kaikissa (ts) normaalin yksilöitä. Koettimet sisällä toinen metageeni lajiteltiin niiden aktivointitasoa (taulukko S4). Ensimmäinen koetin edusti läheisintä sukua mittapää NSCLC fenotyypin, kun taas viimeinen koetin edustaa vähiten läheistä sukua anturi.

Lopuksi sovelsi RA menetelmää NSCLC ja normaalin datan. Me lajiteltu anturit keskinäisen välistä tietojen koetin profiilien ja NSCLC profiileja.

Huomaa, että korrelaatioita geenin parien ja fenotyyppien voitiin mitata nykyisellä menetelmällä, mutta niitä ei voitu mitata NMF ja RA menetelmiä. Siten tästä näkökulmasta, nykyinen tapa on parempi kuin kaksi aiempaa menetelmistä. Kaikki kolme menetelmää voisi löytää yksittäisten geenien liittyy läheisesti fenotyyppejä. Siksi me vain tunnistettu geeni-fenotyyppi alempi logiikka suhteita nykyisen menetelmällä ja verrattiin tuloksia, jotka on saatu kahden aikaisemman menetelmistä.

Suorituskyky vertailu kolmen menetelmiä.

Valitsimme kaksi aineistot mukana geenejä, jotka liittyvät NSCLC. Yksi aineisto sisältää suuren taajuuden geenien mRNA-tasolla havaitaan Huang et al. (Taulukko S5) [9]. Se osoitti, että nämä geenit kuuluivat alkuun huonosti geeni, joissa on hyvä erotteleva kyky. Valitsimme aineisto koska se kerättiin GEO hakunumerolla GSE18842, joka oli myös lähde NSCLC ja normaalin datan tässä työssä. Toinen aineisto sisältää ylä- /alas geenien saapuvat Urgard et al., Jossa geenejä alassäädetty ja geenit ovat säädellään ylöspäin NSCLC verrattuna normaaliin kudokseen (taulukko S5) [34]. Kaikkiaan geenit jaetaan kahden edellä mainitun aineistot. Koska se on vaikea vahvistaa geenien Jokaisessa aineisto, on järkevää käsitellä näitä geenejä, sillä totuus tiedot arvioida suorituskykyä eri menetelmiä tässä työssä.

Jotta suorituskyvyn arvioimiseksi nykyisen menetelmä ja vertaa sen suorituskyky kahden vuonna menetelmistä (NMF menetelmä ja RA menetelmä), laskimme toimenpide: muistaa korko, joka oli suhde havaittujen geenien totuus datan kokonaismäärä geenien totuus tiedot. Huomaa, että recall määrää voidaan vääristyneinä epätäydellisyys totuuden tietoja. Lisäksi arvioimme luokitustarkkuudesta jossa arvioitiin erotteleva kyky johti antureista.

Kaikista geenit havaita koettimia saadaan nykyisellä menetelmällä, geenit olivat totuus data. Siten muistaa nopeus nykyisen menetelmän oli. Verrata muistaa nopeus nykyisen menetelmän kanssa kahden aiemman menetelmistä, valitsimme alkuun antureista saatu NMF menetelmällä ja RA menetelmällä, vastaavasti. Löysimme ja nolla geenien totuus tiedot ovat havainneet NMF menetelmällä ja RA menetelmällä, vastaavasti. Siten muistaa määrä NMF ja RA olivat ja vastaavasti. Nykyinen menetelmä oli korkeampi muistaa korko kuin NMF ja RA.

Kuva. 1, huomasimme, että nykyinen menetelmä saavuttaa korkeampi luokitustarkkuudesta kuin NMF menetelmä ja RA menetelmällä. Lisäksi keskimääräinen luokittelun tarkkuus meidän menetelmän lähestyi (ts), joka tarkoittaa sitä, että koettimet on saatu meidän menetelmällä on suuri luokitus kyky. Kuviossa kukin käyrä oli tasainen vain vähän vaihtelua. Se tarkoittaa, että luokittelu tarkkuus oli vähän herkkä määrän koettimia.

mukaan jokaisen menetelmän, me listalla geenit alenevassa järjestyksessä kertoimia liittyvien geenien kanssa fenotyyppejä. Me valittuihin alkuun geenejä, jossa. Luokittelu tarkkuus lasketaan alkuun geenejä. ”RA”, ”NMF” ja ”U ’edustavat merkitystä analyysimenetelmä, ei-negatiivinen matriisi factorization menetelmä ja nykyisellä menetelmällä, vastaavasti.

Biomarkers ja avain geeni paria

biomarkkerit päätellä geenitekniikan alatyypin alempi logiikka suhteita.

aiempaan tutkimukseen, yhteensä määrä geenejä on raportoitu voidaan erottaa AC ja SCC, ja nämä geenit ovat

DSG3

[26],

CLCA2

[30],

DSC3

[27],

PKP1

[28],

NKX2-1

[35], GJB5 [26], KRT6B [36], SERPINB13 [36], TP63 [37], TRIM29 [38],

KRT5

[28],

NTRK2

[28] ja

DST

[39]. Me lajitella geenejä, jotka osallistuvat geeni-AC /SCC alempi logiikka suhteita alenevassa järjestyksessä niiden kertoimia. Mielenkiintoista on, että kaikki edellä geenit sisällytettiin alkuun geenejä. On ehdotettu, että geeni, joka on suuri epävarmuus kerroin voi selvästi erottaa AC SCC.

Jotta saataisiin joukko biomarkkerit, me ensin valitaan ykköseksi sijoitettu geenit (Fig. 2). Koska kohdemolekyylit kohdennettuja terapeuttisten aineiden pelata ratkaiseva rooleja Kasvaimen biomarkkereita täsmähoitoihin pitäisi olla selvä biologisten toimintojen välillä NSCLC ja normaali. Seuraavaksi risteys sarja syntyi ylä- geenien ja geenien geenien-NSCLC alempi logiikka suhteita (geenit on saatu momentissa ”Performance vertailu”). Lopuksi, leikkaavat geenejä pidetään biomarkkereita erottaa AC SCC, sekä uusia kohdemolekyylit kohdennettuja terapeuttisia aineita. Toisin sanoen joukko biomarkkerit käsitti

DST

,

CLCA2

,

KRT5

,

DSG3

,

GJB5

,

SERPINB13

,

BNC1

,

TRIM29

,

LOC642587

,

PKP1

,

KRT6B

,

FAT2

,

GOLT1A

,

DSC3

,

NKX2-1

,

TP63

,

LASS3

,

PVRL1

ja

NTRK2

.

on geenit liittyvät alatyyppejä NSCLC alemmat logiikka suhteita, ja jokainen geeni kiinnittyy kertoimella. Geenit on luokiteltu kertoimia laskevassa järjestyksessä. Top geenit valitaan tunnistamaan biomarkkereita. Sininen solmut edustavat biomarkkereita tunnistettu tässä työssä. Keltainen solmut edustavat kuusi geeniä, jotka eivät liity NSCLC on NSCLC ja normaali yksilöitä. Punainen solmut edustavat alatyyppiä eli AC ja SCC.

Key geeni paria johtaa geenitekniikan alatyypin korkeampi logiikka suhteita.

ryhmitelty geeni-alatyypin suurempi logiikka suhteita sama logiikka toiminto. Koska kaksi logiikkatoiminnot JA (tyyppi 1) ja XOR (tyyppi 8) on enemmän intuitiivinen biologinen tulkintoja kuin muut logiikan, me rajoitettu analyysimme näiden kahden logiikan. Avain geeni paria määriteltiin geeni parit osallistuvat geeni-alatyypin suurempi logiikka suhteita logiikka- AND tai XOR. Saimme avain geeni paria yhteensä, missä ja geeni paria liittyivät AC /SCC kautta logiikkatoiminnot AND ja XOR, vastaavasti (taulukko S6). Tämä tulos voidaan selittää tiukka parametrit valitsimme.

Gene ontologia analyysi

Gene ontologia (GO) on jäsennelty ja ohjattu sanastot ja luokitukset noin merkinnät geenien, geenituotteiden ja sekvenssit [40]. GO sisältää kolme luokkaa termejä: biologisia prosesseja, molekyyli- toimintojen ja solun komponentteja. Olimme keskittyneet biologisia prosesseja rikastuttaa osallistuvia geenejä alempi logiikka suhteita. Joten, missä seuraa, kun sanomme GO termejä, se tarkoittaa GO termit ”biologinen prosessi” luokkaan.

mukaan koetin-AC /SCC pareittain järjestöjen ja niiden epävarmuus kertoimet, saimme geeniperimä sisältäviä geenejä ilman päällekkäisyyksiä ja jokainen geeni liitetty kerroin. Kaikkiaan geenien rankattiin alenevassa järjestyksessä kertoimia ja annetaan tulona Gorilla. Gorilla antoi merkittävän GO termejä, kuten ”kudoksen kehittäminen” (GO: 0009888), ”orvaskesi kehitys” (GO: 0008544), ja ”epiteelisolujen erilaistumisen” (GO: 0030855) (osa A lisäyksen S1). Koska merkittäviä GO termejä haettiin perustuu alatyyppejä NSCLC tietoja, ne on tarkistettava, onko merkittävä GO ehdot ovat myös merkitsevä NSCLC ja normaali yksilöitä. Samaa menettelyä sovellettiin paremmuusjärjestykseen geenien perusteella NSCLC ja normaalin datan. Testi paljasti merkittävän GO kannalta merkittäviä arvon (osa B lisäyksessä S1). Kaikkiaan seitsemän GO ehdot alatyypeistä NSCLC tiedot olivat myös merkitsevä NSCLC ja normaali yksilöt (taulukko 2). Se osoittaa, että seuraavat seitsemän biologiset prosessit ovat tärkeitä kasvaimien synnyn NSCLC: kudoksen kehittäminen, orvaskeden kehitys, epiteelisoluerilaistumiselle, anatominen rakenne kehitys, kehitysprosessiin, soluadheesiota ja biologisen tarttuvuuden.

Edelleen, me ryhmitelty geenit liittyy läheisesti alatyyppejä NSCLC kahteen ryhmään tyyppisiä geenin-SCC alempi logiikka suhteita. Kartoitimme geenit, jotka liittyvät SCC (AC) tyypin () alempi logiikka suhteita GO termejä. Gene ontologia analyysi paljasti GO väleissä p-arvo tulokset pienempi ja rikastamista tulokset suurempi.

Vastaa