PLoS ONE: ProKinO: ontologian for Integrative Analysis of proteiinikinaasien Cancer

tiivistelmä

Background

Proteiinikinaasit ovat laaja ja monipuolinen perhe entsyymejä, joita genomisesti muuttunut monissa ihmisen syövissä. Kohdennettu syövän Genomikartoituksen ponnistelut ovat paljastettiin Mutaatioiden proteiinikinaasi geenien monista eri syöpätyyppejä. Vaikka mutaatiotutkimukset tiedot proteiinikinaaseiksi parhaillaan luetteloitu eri tietokannoista, integrointi mutaation tietoja muiden tietojen proteiinikinaasien kuten sekvenssi, rakenne, toiminta ja polku on tarpeen tunnistaa ja kuvata keskeiset syöpää aiheuttavia mutaatioita. Integroiva analyysi proteiinikinaasin tietoja, mutta on haaste, koska erilaisia ​​luonteeltaan proteiinikinaasi tietolähteiden ja tiedostomuotoja.

Tulokset

Tässä kuvaamme ProKinO, proteiinikinaasi-spesifinen ontologian, joka tarjoaa sanaston termejä, niiden hierarkia, ja suhteet yhdistävä järjestyksessä, rakenne, toiminta, mutaatio ja polku tietoa proteiinikinaasien. Käsitteellinen edustus Tällaisten erilaisten muotojen tiedot yhteen paikkaan ei ainoastaan ​​mahdollistaa nopean löytö merkittävää tietoa, joka liittyy tiettyyn proteiinikinaasi, mutta myös mahdollistaa laajamittaisen integroiva analyysi proteiinikinaasi tietoja tavalla ei ole mahdollista muilla kinaasi-erityisiä resursseja. Olemme suorittaneet useita integroiva analyysit ProKinO tietojen ja esimerkkinä, todettiin, että suuri määrä somaattisten mutaatioiden (~288 erillisiä mutaatioita), jotka liittyvät

verta muodostavan kasvain

syöpätyypin karttaa vain 8 kinaasien ihmisen kinome. Tämä on päinvastoin kuin

gliooma

, jossa mutaatiot ovat jakautuneet 82 erillisiä kinaaseja. Tarjoamme myös esimerkkejä siitä, miten ontologian perustuvien tietojen analysointi voidaan käyttää tuottamaan kokeellisia hypoteeseja koskien syövän mutaatioita.

Johtopäätös

Esitämme yhtenäisen mallin laajamittainen integroiva analyysi proteiinikinaasi tietojen . Navigointi ja analysointi ontologian data voidaan suorittaa käyttämällä ontologian selaimella osoitteessa: https://vulcan.cs.uga.edu/prokino.

Citation: Gosal G, Kochut KJ, Kannan N (2011) ProKinO : ontologian for Integrative Analysis proteiinikinaasien Ravussa. PLoS ONE 6 (12): e28782. doi: 10,1371 /journal.pone.0028782

Editor: Fazlul H. Sarkar, Wayne State University School of Medicine, Yhdysvallat

vastaanotettu: 27 heinäkuu 2011; Hyväksytty: 15 marraskuu 2011; Julkaistu: 14 joulukuu 2011

Copyright: © 2011 Gosal et al. Tämä on avoin pääsy artikkeli jaettu ehdoilla Creative Commons Nimeä lisenssi, joka sallii rajoittamattoman käytön, jakelun ja lisääntymiselle millä tahansa välineellä edellyttäen, että alkuperäinen kirjoittaja ja lähde hyvitetään.

Rahoitus: Rahoitusta tämä työ saatiin American Cancer Society (RSG-10-188-01-TBE) ja Georgia Cancer Coalition (GCC). Rahoittajat ollut mitään roolia tutkimuksen suunnittelu, tiedonkeruu ja analyysi, päätös julkaista tai valmistamista käsikirjoituksen.

Kilpailevat edut: Kirjoittajat ovat ilmoittaneet, etteivät ole kilpailevia intressejä ole.

Johdanto

Syöpä johtuu mutaatioiden kasautumisesta, usein osajoukko geenit, jotka antavat selviytymisen ja kasvun etu. Proteiinikinaasi geeniperheen, joka ohjaa avain signalointireittejä liittyy solujen kasvua ja selviytymistä, on yksi yliedustettuna perheille onkogeenien [1]. Kohdennettu sekvensointi 518 proteiinikinaasin eksonit koodattu ihmisen genomin (jota kutsutaan kinome) on paljastanut satoja mutaatioita proteiinikinaasidomeenin [2]. Vaikka nämä mutaatiot ovat tällä hetkellä luetteloitu eri tietokannoista [3], [4], [5], tunnistamiseen ja kokeellinen luonnehdinta keskeisten syöpää aiheuttavia mutaatioita on välttämätöntä kehittää uusia hoitomuotoja syöpään.

Experimental luonnehdinta syöpä mutaatioita kuitenkin edellyttää, että ensin muotoilla oikean hypoteesien perustuu analyysiin olemassa olevia tietoja. Erityisesti analyysi mutaation tietojen valossa muiden saatavilla tietoa proteiinikinaasien kuten sekvenssi, rakenne, toiminta ja polku on tarpeen kehittää ja testata uusia hypoteeseja koskien toiminnallista vaikutusta syövän mutaatioita [6], [7], [8], [9]. Integrative analysointi proteiinikinaasi tietojen on kuitenkin haaste, koska on luonteeltaan epäyhtenäistä proteiinikinaasi tietolähteiden ja formaatteja. Esimerkiksi tutkija kiinnostunut rakenteellinen sijainti syöpä mutaatio tai jakelua kinaasin mutaatioiden eri syöpätyyppejä, on käydä läpi aikaa vievää ja virhealtista koottava ja jäsennykseen tietoja erillisistä lähteistä, usein eri data muodoissa. Vaikka useat kinaasi-erityisiä resursseja, kuten KinBase [10], KING [11], PKR [12] ja KinMutBase [4] on kehitetty, nämä resurssit pitkälti keskittyä yhteen tai muutamia eri, proteiinikinaasi tietojen (esim sekvenssi , rakenne, tai mutaatio), jätetään haaste tietojen integroinnin.

ontologiat [13] ovat nousseet tehokas työkalu integroiva ja määrällisen analyysin biologista tietoa [14], [15], [16] , [17]. Syömällä tietotaitoa muodossa käsitteitä (luokat) ja suhteita, ontologiat tarjota käsitteellinen esitys datan siten, että tietokoneet voivat lukea ja ihmiset voivat ymmärtää. Esimerkiksi automaattisen ja ilmoitti vastauksena kyselyyn ”kinaasi liittyviä mutaatioita syöpätyyppejä”, tietokone on ymmärrettävä käsitteet ”kinaasi mutaatiot” ja ”syöpä tyypit”, ja niiden väliset suhteet käsitteiden, eli ”

liittyy ”

. Juuri tämä käsitteellinen esitys tiedon, joka erottaa ontologioista peräisin relaatiotietokantojen, ja mahdollistaa tehokkaan integroinnin ja louhintaa erilaisia ​​aineistoja [18]. Itse asiassa monet ontologioita on kehitetty kaapata ja louhia runsaasti tietoa geeneistä (GO) [19], sekvenssi [20], väyliä (https://rgd.mcw.edu/tools/ontology/ont_search.cgi

) B, proteiini muutos [21] ja muut [20], [22]. Kohdennettu ontologiat valikoituihin proteiinia perheiden kuten Proteiinifosfataasiin perheen ja kuljettaja perhe on kehitetty [23]. Kuitenkin tähän asti keskittynyt ontologian syömällä koskevan tiedon proteiinikinaasi perhe ei ole raportoitu.

Täällä raportoimme proteiinikinaasi ontologia (ProKinO). ProKinO tarjoaa sanaston termejä ja suhteet yhdistävät järjestyksessä, rakenne, toiminta, polku, ja mutaatio tiedot proteiinikinaasien. ProKinO koodataan käyttäen Owl (OWL) (https://www.w3.org/TR/owl-ref/), ontologian kirjoittamisen kieli suosittelema World Wide Web Consortium (http: //www.w3. org /). Integrointi erilaisia ​​aineistoja koneellisesti luettavaan muotoon ei ainoastaan ​​avulla navigointi eri muotojen proteiinikinaasin tiedot yhteen paikkaan, mutta myös mahdollistaa aggregaatin kyselyitä nykyisten tietojen tavoin ole mahdollista olemassa olevien kinaasi-erityisiä resursseja. Esimerkiksi yhteenlaskettu kyselyitä kuten ”laskee kinaasien syöpään liittyvän tyypin” tai ”laskee syövän mutaatioita, jotka sijaitsevat eri kinaasi aliverkkotunnuksista” voidaan helposti suorittaa käyttämällä ProKinO ja ontologian kyselyn kieli SPARQL (http: //www.w3 .org /TR /rDF-SPARQL-kysely /). Kuvaamme näiden merkittävyyden kyselyitä liittyvää tiedonhankintaa ja hypoteesi sukupolvi. Aggregaatti kysely ”laskee kinaasi mutaatioiden eri syöpätyyppejä”, esimerkiksi osoitti, että mutaatiot liittyvät

hematopoeettisia kasvain

(288 erillistä mutaatiota) kohdistettava ensisijaisesti vain 8 kinaasien ihmisen kinome verrattuna

gliooma

, jossa mutaatiot jakautuvat 82 erillistä kinaasien. Samoin kyselyt kuten ”mutaatioita kohdistaminen kinaasi toiminnalliset ominaisuudet” voidaan käyttää tuottamaan uusia hypoteeseja, jotka koskevat rakenteellisia ja toiminnallisia vaikutuksia syövän mutaatioita. Kuvaamme myös selaimen, joka mahdollistaa nopean navigoinnin ja tutkiminen ProKinO tietoja saatavilla osoitteessa: https://vulcan.cs.uga.edu/prokino.

Methods

ProKinO Knowledge Organization

käsitteellistää runsaasti tietoa koskien proteiinikinaasi järjestyksessä, rakenne, toiminta, polkuja ja sairaudet, olemme ottaneet käyttöön useita keskeisiä käsitteitä (luokat) ja suhteita (kohteen ominaisuuksia) in ProKinO. Nämä luokat, järjestäytynyt hierarkkisesti, ja suhteet näiden joukossa luokkiin, esittää ja kuvata proteiinikinaasi tietoa analogisella tavalla verkkotunnuksen asiantuntija.

Esimerkiksi kinaasi asiantuntija kuvaavat tietyn mutaation kuvaisi mutaation yhteydessä geenin, jossa mutaatio löytyy, kinaasi geenin koodaama, ryhmän tai perheen kinaasin kuuluu, kinaasi osa-alueen mutaatio sijaitsee, ja reittejä, joissa mutatoitu geeni osallistuu . ProKinO skeema on suunniteltu mittaamaan ja integroida proteiinikinaasi tietoa käyttäen termejä ja suhteet kaltaiset tyypillisesti käyttämän asiantuntijan (kuvio 1). Esimerkiksi suhde ”Gene” ja ”mutaatio” luokissa kuvataan ”

hasMutation”

ominaisuus (kuvio 1), kun taas ”

locatedin”

ominaisuus kaappaa suhdetta ”mutaatio” ja ”subdomain” luokissa. Samoin sekvenssi kinaasin kuuluu edustaa ”

hasSequence”

omaisuus välillä ”Gene” ja ”Sequence” luokkia, ja aliverkkotunnuksista liittyy tiettyyn sekvenssin käsitteellistää että ”

hasSubDomain ”

suhdetta (kuvio 1). Reitti ja reaktio liittyvää tietoa kinaasien käsitteellistetään mennessä ”

participatesIn”

suhdetta ”Gene” ja ”Pathway”, ja ”

hasReaction”

välillä ”Pathway” ja ”Reaction”. Ylittämään viittaus ProKinO dataa ulkoisiin tietokantoihin ja lähteiden ”DbXref” class ja ”

hasDbXref”

suhde on otettu käyttöön (katso kuva 1).

Kuva osoittaa käsitteet (luokat) järjesti luokkaansa alaluokkaan hierarkia (esitetty ovaaleina). Suhteet (objekti ominaisuudet) luokkien välillä on esitetty punaisia ​​viivoja. The sisäinen erityispiirteitä (data ominaisuudet) luokkia näkyvät ruskean viivaa. Esiintymät luokat näkyvät suorakulmioita. Täydellinen ontologian skeema pääsee pois ProKinO kotisivuilta, ja myös palvelee Kuva S1.

Perusteluksi edustavat proteiinikinaasi tietoja edellä kuvatulla tavalla, että se tarjoaa kontekstin tulkinnassa mutaation tietojen . Tätä voidaan havainnollistaa käyttämällä missensemutaatio

p.L858M

in

EGFR

(kuvio 1).

p.L858M

on mutaatio

EGFR

kinaasi, jolla on tyyppi ”Missense”. Mutaatio on sekaantunut syövän

syöpä

ja sijaitsee sub domain VII, joka vastaa N-päähän Activation segmentin (merkitään

aktivointi-segmentti-NT

kuvassa 1) . Koodaama proteiini

EGFR

geeni osallistuu väylä

Signalointi EGFR

, joka sisältää

EGFR dimerointi

yhtenä reaktioita. Muut luokat ja alaluokat on samoin liitetty mutaatio

p.L858M

kautta suhteita on kuvattu kuviossa 1, joka tarjoaa integroidun Kaiken tiedot, jotka vaadittaisiin antamaan rakenteellisia ja toiminnallisia konteksti

p. L858M

mutaatio.

Lisäksi pääluokkaa ja objektin yllä kuvatut ominaisuudet, useita muita alaluokkia ja objektin ominaisuudet on määritelty ProKinO täysin kaapata ja edustaa saatavilla tietoa proteiinikinaasi järjestyksessä, rakenne, toiminta ja sairaus. Esimerkiksi alaluokkia että ”mutaatio” class – ”ComplexMutation”, ”DeletionMutation”, ”InsertionMutation”, ”SubstitutionMutation” ja ”OtherMutation” – tallentaa tietoa siitä, minkä tyyppisiä mutaatioita tunnistettiin kinaasien. Samoin kolmen alaluokkia alla ”FunctionalFeature” class – ”ModifiedResidue”, ”TopologicalDomain”, ”signaalipeptidi” – kaapata tietoja aineenvaihduntaan toiminnalliset ominaisuudet. Tämä hierarkkinen organisaatio luokkia ProKinO on esitetty kuvassa 1.

Lisäksi kohteen ominaisuuksien, keskeiset tiedot ominaisuudet on otettu käyttöön kuvaamaan sisäisen organisaation käsitteiden ja helpottaa data mining ja louhinta. Esimerkiksi data omaisuus, ”

hasOtherName”

, tallentaa muut nimet, joilla geeni voidaan tunnettuja kirjallisuudessa (synonyymit). Esimerkiksi

EGFR

kutsutaan myös nimellä

EGFRvIII

,

erbb1

,

erbB

tai

Mena

kirjallisuudessa. Sisällyttämällä ”

hasOtherName”

data ominaisuus, kaikki olennaiset tiedot

EGFR

voidaan saada riippumatta siitä, mikä geeni nimeä käytetään kyselyn.

Kun suuri joukko luokkien ja liittyvät ominaisuudet kinaasien suunniteltu skeema (katso kuva S1 koko skeema), ProKinO edustaa nimenomainen hahmottaminen ja organisaatio tietoa ihmisen proteiinikinaasien. ProKinO sisältää tällä hetkellä 351 luokkia, 25 objektin ominaisuuksia ja 27 data ominaisuudet (taulukot S1, S2 ja S3 täydellinen luettelo) syömällä tietoja proteiinikinaasi järjestyksessä, rakenne, toiminta, polku ja sairaus.

ProKinO Väestö

ProKinO on asuttuja tietoja tietolähteistä, jotka ovat hyvin kuratoinut ja ylläpidetään. Hankittu data on tallennettu tapauksissa skeemassa kuvatulla tavalla (kuva 1).

Tietojen hankinta ja varastointi

Sequence.

Data koskevat proteiinikinaasi järjestyksessä ja luokittelu on saatu KinBase [10], loppusijoituslaitoksen kinaasien järjestyksessä ja luokittelu. 538 kinaasi geenit nykyisin tunnistettu ihmisen genomin on luokiteltu pääryhmään ja perheet perustuvat sekvenssin samankaltaisuuden puitteissa Kinaasidomeenia. Koska KinBase luokitus on hyväksytty laajalti kinaasin yhteisö, olemme ottaneet saman luokituksen järjestelmän ProKinO. Automaattinen prosessi tiedonkeruu- ja väestön KinBase sisältää louhinta, integrointi ja väestö tietoja 538 ihmisen proteiinikinaasien ja niiden luokittelu eri ryhmiin, perheille ja subfamilies. Tiedot geeni synonyymeissä ja kromosomiasemassa saadaan myös KinBase. Hankittu tieto populoidaan esiintymät ”ProteinKinaseDomain” luokka, joka on edelleen luokiteltu ryhmiin, perheisiin ja alaryhmien kuin alaluokkaan. Lisäksi sekvenssi data proteiinikinaasi geenien FASTA-formaatti on uutettu ja asutuilla kuin esiintymät ”Sequence” luokka.

Function.

Tiedot toimintakykyyn ja toiminnalliset ominaisuudet liittyvät kinaasin verkkotunnuksia on saatu UniProt [24], valikoidun voimavara proteiinin toiminnallisia tietoja. Tiedot säätelydomeenit liittyy kinaasin verkkotunnuksia, kiderakenteet ratkaistaan ​​kunkin kinaasia, isoformia tunnistettu kinaasien, muutettu jäännös, signaalipeptidi, topologinen domain, sijainti solussa ja kudosspesifisyyttä saadaan myös UniProt. Toimintakykyyn liittyvät proteiinikinaasit asutuilla kuin esiintymät ”FunctionalDomain” luokka, ja rajat viitataan Pfam [25], proteiini perhe tietokannan kautta ”DBxRef” luokassa. Samoin tietoja kiderakenteet populoidaan esiintymät ”Rakenne” class ristiinviittauksina Protein Data Bank (PDB) [26]. Toiminnallinen ominaisuus tiedot on tallennettu tapauksissa on ”FunctionalFeature” luokka, jossa alaluokkien perustuu tyypin ominaisuus kuten ”ModifiedResidue”, ”TopologicalDomain” ja ”signaalipeptidi”.

Disease.

Vaikka proteiini-kinaasien on liitetty useisiin ihmisten sairauksia, nykyinen versio ProKinO keskittyy ensisijaisesti syöpä. Tiedot syöpä mutaatiot saadaan KOSMINEN [3], joka on yksi vanhimmista ja kuratoiman resursseja tiedon tallentamiseksi somaattisten hankittu mutaatioita, joihin liittyy ihmisen syövissä. Lisäksi mutaatiot, muita tietoja, kuten ensisijainen sivustoja, ensisijainen histologia, näytteitä, kuvaus ja muut asiaankuuluvat ominaisuudet on myös saatu ja tallennettu ilmentymiä ”mutaatio” luokassa. ”Mutaatio” class on erikoistunut syvemmälle alaluokkiin tyypin perusteella mutaatio, eli monimutkainen, deleetio, insertio, korvaaminen ja muut. Viittaukset PubMed, MEDLINE ja COSMIC tietokannat annetaan ”DbXref” luokka.

Pathway.

Pathway tiedot saadaan Reactome, manuaalisesti kuratoinut ja vertaisarviointiin polku resurssi [27] . Väylät ja reaktio tallennetaan ilmentymiä ”BiochemicalEvent” luokassa. Jotta selvyyden vuoksi olemme ottaneet samat ehdot /käytetyt käsitteet Reactome edustamaan reitin tietoja. ”BiochemicalEvent” on käsite käyttää sekä Reactome ja ProKinO edustamaan biologisista prosesseista, jotka muuntavat panos yksiköiden tuotos yhteisöjä. ”Pathway” ja ”Reaction” ovat alaluokkia alla ”BiochemicalEvent” (kuva 1). Esimerkiksi

Signalointi EGFR

on instanssi, että ”Pathway” luokka, joka liittyy ”Reaction” class jonka ”

hasReaction”

ominaisuus (kuvio 1). ”Reaction” class on useita reaktioita tietyn reitin.

EGFR dimeroituminen

on yksi reaktioista

Signalointi EGFR

polku (kuva 1). Tämä reaktio ”

kuluttaa”

monimutkainen nimeltä

EGR: EGFR [solukalvon]

, ja ”

tuottaa”

monimutkainen,

EGR: EGFR dimeeriä [plasma kalvo]

. Molemmat komplekseja tallennetaan jäseniksi ”Complex” luokka.

Kinase Sub-verkkotunnusten.

rakenteellista yhteydessä syövän mutaatioita, olemme sisällyttäneet sub-domain tiedon ProKinO. Sub-verkkotunnukset vastaavat ydin konservoituneet motiivit /rakenteellisia elementtejä, jotka määrittelevät kinaasin katalyyttinen domeeni [28]. Aliverkkotunnus merkintätapaa käytetään laajalti kuvaamaan organisaatiorakenne motiivien ja säätelysegmentit jotka muodostavat katalyyttisen domeenin. Tällä hetkellä aliverkkotunnus tietoja ihmisten kinaasien ei ole saatavilla julkista resurssi. Proteiinikinaasi resurssi (PKR) tarjoaa sub-domain tietoa joistakin (18 kinaasien), mutta ei kaikissa kinaasien. Kaapata aliverkkotunnus tietoa ProKinO, olemme käyttäneet motiivi malli, joka kaappaa avain motiiveja vastaa kutakin XII aliverkkotunnuksesta kinaasidomeenissa [6], [29]. Motiivi malli ajettiin kaikkia UniProt ja COSMIC sekvenssit tunnistaa alkuun ja loppuun sijainti aliverkkotunnuksesta sekvenssit. Alku ja loppu sijainnit aliverkkotunnuksista on tallennettu ProKinO kuin tapauksissa, että ”Subdomain” luokassa. Koska sub-domain rajat on vaikea rajata toisistaan ​​poikkeavien proteiinikinaasien, kuten epätyypillinen kinaasien, sub-domain luokka ei asuttu kaikille proteiinikinaasien.

automatisointi tiedonkeruu- ja päivitykset

Olemme luoneet erikoistunut ohjelmisto automaattisesti kansoittavat ProKinO edellä kuvatusta lähteistä. Ohjelmisto on kirjoitettu Java-ohjelmointikielellä. Ohjelmisto tekee kaikki tarvittavat toiminnot ontologiaa luomisen ja automaattisen väestö, mukaan lukien tiedonkeruu, jäsennys ja käsittely sekä luominen tapauksissa ja yhteyksien joukossa käyttäen suhteet määritellään ProKinO kaava. Asutuilla ontologian koodataan ja tuotannon OWL, ontologian kirjoittamisen ja jakaminen kieli suosittelemia World Wide Web Consortium. Ohjelmistomme käyttää myös Jena, laajalti käytetty Java-pohjainen Application Programming Interface (API) (https://jena.sourceforge.net/) jäsentämiseen, luoda ja kyselyitä RDF (RDF) (http: //www.w3 .org /RDF /

) B ja OWL ontologioita.

ontologioita, ja siten mahdolliset sovellukset ja resurssit niitä hyödyntävien, on pakko kehittyä ajan. ProKinO integroi tietoa erillisistä lähteistä muuttamatta mitään alkuperäisen datan. Siksi kaikki muutokset tietolähteet ProKinO luomisessa edellyttävät vastaavia muutoksia ontologian vakuuttaa, että se on ajan tasalla ja johdonmukainen. Tiedon lähteillä käytettävät ProKinO sovelletaan usein muutoksia ja päivitetään säännöllisesti. Esimerkiksi UniProt päivitetään kolmen viikon välein ja COSMIC noin kahden kuukauden välein. Jotta tieto integroidaan ontologian olla nykyisten ja yhdenmukainen saatavissa oleviin tietoihin emo lähteistä ProKinO päivitetään meidän automaattisella väestö prosessi säännöllisesti, samoin. Version tietoa kaikista käytetyt tietolähteet asuttamaan ProKinO sisällytetään samoin. Sen varmistamiseksi, että tarpeet käyttäjäyhteisön täyttyvät, kaikki tarvittavat skeema muutokset ja laajennukset otetaan käyttöön uudet ProKinO versioissa sopivina ajankohtina. Kaikki versiot ProKinO arkistoidaan ohella tietoja eroista versioissa. Ontologia elinkaari jäljitetään jonka versiointi järjestelmä [30], ja kaikki aiemmat ProKinO tiedot ovat helposti saatavissa.

Tulokset ja keskustelu

ProKinO Arviointi

Koska ontologia kehitysprosessi on kallista ja aikaa vievää, huolellisen arvioinnin ontologian sisältöä on tarpeen määrittää sen soveltuvuutta palvella käyttötarkoituksen sen kehitystä. ProKinO on arvioitu sen tarkkuudesta ja hyödyllisyyttä. Olemme käyttäneet kahta lähestymistapaa arvioida tarkkuutta ProKinO sisältö: (i) käsikirja lähestymistapaa, jossa joukko tapauksia ja suhteiden joukossa valitaan satunnaisesti ja ristiintarkastettu sisältöä alkuperäislähteistä ja (ii) kyselyn perustuva lähestymistapaa, jossa ontologian tietoja kysellään tietoja, jotka voidaan helposti ristiin validoitu tiedoilla alkuperäislähteistä.

Manual Approach.

manuaalisen lähestymistavan testi sarjaa valittiin arvioimaan laajasti kattavuus ontologian sisältöä. Tarkkuus tietojen tarkistettiin risti validointi alkuperäiseen tietolähteiden. Integrointi tietojen ProKinO varmennettiin myös arvioimalla käyttöön objekti ja tietojen ominaisuudet tarkkuutta. Esimerkiksi

EGFR

kinaasi suhde polkuja edustettuina kohde ”

partcipatesIn”

varmistettiin tarkkuutta risteyttämällä validointi sisältöä ProKinO alkuperäiset tiedot saatavilla Reactome. Meidän todentaminen ei ole havainnut virheitä ProKinO. Yksityiskohdat Arvioinnin on esitetty taulukossa S4.

Kyselyn perustuva lähestymistapa.

Lisäksi manuaalisen lähestymistavan kysely perustuvaa lähestymistapaa käytettiin tarkistaa sisällön ontologian. SPARQL kyselyn kieltä käytetään suorittamaan kyselyitä. Esimerkiksi haku ”lasken kiderakenteet kaikille proteiinikinaasien” antoi 200 osumia

Cdk2-

(kuva 2). Tämä tulos rajat validoitu tarkistamalla

Cdk2-

”ATE” merkintä UniProt. Samoin kysely ”lasken isomuotojen kaikille proteiinikinaasien” antoi 20 osumia

FGFR2

ja 19

FGFR1

(kuva 3). Tämä oli rajat validoitu tarkistamalla

FGFR1

ja

FGFR2

isoformi merkinnät UniProt. Samoin ”laskee kinaasien liittyy väyliä” aiheutti 11 väyliä

SRC

, ja 10

PKACA

(

PRKACA

in Reactome). Tämä tulos oli myös rajat validoitu alkuperäisen lähteen eli Reactome (kuva 4). Samalla tavoin ”laskee kinaasien sekaantunut eri syöpätyyppejä” johti suurin määrä osumia

BRAF

(30 syöpätyyppeihin) (kuva 5), ​​joka oli rajat validoitu päässä COSMIC tietokannasta.

kymmenen kinaasien alenevassa järjestyksessä laskee näytetään. Y-akselilla näkyy rakenteiden määrä ratkaista kunkin kymmenen yliedustettuna kinaasien. Rakenteet ratkaistiin estäjien sisällytettiin koko määrä. X-akseli kuvaa kinaasin nimet. Aurorakinaasi on merkitty AURA. SPARQL kysely käytetään tuottamaan tätä lukua voidaan tarkastella ja excuted päässä ProKinO selaimen valitsemalla ”Kysely 1” alla ”Esimerkki kyselyt” välilehteä pääsivulla.

Top 10 kinaasien näytetään alenevassa järjestyksessä niiden arvoja. Y-akseli esittää useita validoitu isoformien kunkin kinass. SPARQL kysely käytetään tuottamaan tätä lukua voidaan tarkastella ja excuted päässä ProKinO selaimen valitsemalla ”Kysely 2” alla ”Esimerkki kyselyt” välilehteä pääsivulla.

Top 10 kinaasien kanssa eniten useita reittejä näkyvät laskevassa järjestyksessä. SPARQL kysely tuottaa tätä lukua voidaan suoraan tarkastella ja excuted päässä ProKinO selaimen valitsemalla ”Kysely 3” alla ”Esimerkki kyselyt” välilehteä pääsivulla.

Kymmenen kinaasit ovat alenevassa jotta niiden arvoja. SPARQL kysely tuottaa tätä lukua voidaan suoraan tarkastella ja excuted päässä ProKinO selaimen valitsemalla ”Kysely 4” alla ”Esimerkki kyselyt” välilehteä pääsivulla.

ProKinO Application

kokoelman tiedon edustettuna ProKinO voidaan käyttää erilaisissa sovelluksissa, kuten data mining, tekstinlouhintaan ja genomin huomautusta. Erityisesti esitys erilaisten proteiinikinaasin dataa koneellisesti luettavassa muodossa mahdollistaa monimutkaisten yhteenlaskettu kyselyjä ontologian tietojen tavalla ei ole mahdollista nykyisillä kinaasi-erityisiä resursseja. Alla kuvaamme joitakin näistä kyselyt osoittavat, miten ProKinO tietoja voidaan käyttää liittyvää tiedonhankintaa ja hypoteesi sukupolvi. Kyselyjä, jotka on muotoiltu SPARQL, myös ensimmäinen arvio ProKinO hyödyllisyydestä.

Kyselyn 1.

SPARQL kyselyt ”laskee korvaavien missensemutaatioita syövän tyyppejä”, ja ” laskee proteiinikinaasien ottaa missensemutaatioita ”suoritettiin ProKinO analysoimaan jakelua kinaasin mutaatioiden eri syöpätyyppeihin. Tulosten analysointi syntyy tämän kyselyn paljasti, että jakelu kinaasi mutaatioiden on silmiinpistävän erilainen eri syöpätyyppejä (kuva 6). Erityisesti

karsinooma

(1168 mutaatiot),

gliooman

(180),

melanooma

(201),

hematopoeettisia kasvain

(288), ja

lymfoidineoplasman

(164) ovat erittäin yliedustettuina kinaasi mutaatioita verrattuna muihin syöpätyyppeihin (kuva 6). Lisäksi 288 ja 164 liittyviä mutaatioita

verta muodostavan kasvain

ja

lymfoidineoplasman

karttaa vain 8 ja 12 kinaasien, vastaavasti. Tämä on päinvastoin kuin

gliooma

, jossa mutaatiot ovat jakautuneet 82 erillisiä kinaaseja. Vaikka tämä havainto saattaa johtua puolueellisuudesta sekvensointi syövän kinomes valikoiduista syövän tyyppejä, on myös mahdollista, että vain harvat signalointireitteihin (liittyy 8 kinaasien) on muutettu

hematopoeettiset kasvain

verrattuna

gliooma

. Tällaiset havainnot vaikuttavat kohdentamisessa mutatoitunut kinome hoitomuotoja ja tuottaa uusia hypoteeseja kokeellisiin tutkimuksiin.

Kuten tekstissä,

haematopoietic_neoplasm

on 288 mutaatioita 8 kinaasien, kun taas

gliooma

on 180 mutaatioita levinnyt yli 82 kinaasien. SPARQL kysely tuottaa tätä lukua voidaan suoraan tarkastella ja excuted päässä ProKinO selaimen valitsemalla ”Kysely 5a” ja ”Query 5b” alla ”Esimerkki kyselyt” välilehteä pääsivulla.

Kyselyn 2.

Perustuu havainto Kysely 1, ylimääräinen SPARQL kyselyt voidaan suorittaa saadakseen lisätietoja 8 kinaasien liittyy

verta muodostavan kasvain

. Esimerkiksi kysely pyytäen ”laskee proteiinikinaasien ottaa missensemutaatioita in

verta muodostavan kasvain

” ilmaisee, että

ABL1

,

KIT

,

FLT3

ja

JAK2

ovat useammin mutatoitu verrattuna muihin kinaasien (kuvio 7). Tämä havainto on sopusoinnussa havaintojen raportoitu kirjallisuudessa [31], [32], lisäksi rajat validointi sisältö ontologian.

Top 10 osumaa alenevassa järjestyksessä laskee näytetään. SPARQL kysely tuottaa tätä lukua voidaan tarkastella ja excuted päässä ProKinO selaimen valitsemalla ”Kysely 6” alla ”Esimerkki kyselyt” välilehteä pääsivulla.

Kyselyn 3.

Kyselyn 2 (yllä) voidaan jalostetaan edelleen saada kokeellisia hypoteeseja koskien syövän mutaatioita. Esimerkiksi kyselyt pyytävän toiminnalliset ominaisuudet ja aliverkkotunnustasolta varten

ABL1

liittyviä mutaatioita

verta muodostavan kasvain

paljasti, että

Y253F

sijaitsee toiminnallisesti tärkeä

Glysiini rikas silmukka

(Sub-domain minä, taulukko S5), ja on muutettu jäämien omaisuus ”

Fosfotyrosiini

”. Tämän tiedon voi muotoilla testattavissa hypoteesi, että ”

Y253F

mutaatio myötävaikuttaa poikkeava

ABL1

toimintoja muuttamalla fosforylaation tilan glysiinirikas silmukka”.

lisäksi kyselyt edellä kuvattujen olemme muotoilleet useita muita kyselyjä ProKinO. Saadut tulokset nämä kyselyt tarjotaan täydentäviä lukuja (katso kuviot S2, S3, S4, S5, S6, S7, S8, S9). SPARQL kyselyt itse on esitetty kuviossa S10.

Future Directions

ProKinO on ontologian termien ja suhteita syömällä koskevan tiedon proteiinikinaasi perhe. Edustus proteiinikinaasi tiedon muodossa ontologian mahdollistaa tehokkaan kaivos- ja järjestelmätason analyysin proteiinikinaasin tietojen kuten osoitetaan muutamilla SPARQL kyselyitä. Jotta navigointi ja integroiva analyysi ontologian tietojen ontologian selain on kehitetty. Selain voi käyttää https://vulcan.cs.uga.edu/prokino.

Vaikka nykyinen versio ProKinO pitkälti keskittyy ihmisen proteiinikinaasi geenejä, tiedot muista malliorganismien voidaan sisällyttää ProKinO lisäämällä uusia luokkia ja tietojen ominaisuudet ontologian kaava. Samoin runsaasti tietoa generated proteiinikinaasi alustoille kautta suurikapasiteettisten fosfo-proteomic data voidaan sisällyttää integroida syöpään tietoja proteomiikka tiedot. Lisäksi ennakoimme ProKinO olla hyödyllistä tietoa merkintöjen yhteneväisyys mutaatioiden havaittu syövän Genomikartoituksen tutkimuksia.

Käyttämällä erityisiä kyselyjä olemme osoittaneet kuinka tietoja ontologian voidaan käyttää tuottamaan uusia hypoteeseja koskevat rakenteelliset ja toiminnalliset vaikutus mutaatioita. Erityisesti se havainto, että lähes 288 mutaatiot karttaa vain kahdeksan kinaasien

verta muodostavan kasvain

on uusi ja tarjoaa uusia hypoteeseja seurantatutkimuksia. Samoin ennustaa, että

Y253F

mutaatio muuttaa fosforylaatiota tilan glysiinirikas silmukka ABL-tyrosiinikinaasi voidaan testata kokeellisesti.

Vastaa