PLoS ONE: Exome Sequencing paljastaa Comprehensive Perimän muutostyöt poikki Kahdeksan Cancer Cell Lines

tiivistelmä

On hyvin tunnettua, että genomista muutokset on keskeinen rooli syövän synnyssä, taudin etenemistä, ja vasteen kasvaimia hoitointerventio. Ennakot seuraavan sukupolven sekvensointiteknologioihin (NGS) tarjoavat ennennäkemättömän valmiudet skannaa genomien muutoksia kuten mutaatioita, deleetioita ja korjauksilla kromosomaalisen kopion numeron. Kuitenkin kustannukset täyden Genomikartoituksen vielä estää rutiininomaista NGS monilla aloilla. Syömällä ja sekvensoimalla koodaus eksonit geenien (jäljempänä ”exome”) voi olla kustannustehokas lähestymistapa tunnistaa muutokset, jotka johtavat muuttaminen proteiinisekvenssien. Olemme soveltaneet exome-sekvensointi tekniikka (Roche Nimblegen talteenotto pariksi 454 sekvensointi) tunnistaa sekvenssin vaihtelua ja mutaatiot kahdeksassa käytetään yleisesti syöpäsolulinjoissa useista kudoksista peräisin (A2780, A549, Colo205, GTL16, NCI-H661, MDA- MB468, PC3, ja RD). Osoitimme, että tämä tekniikka voi täsmällisesti sekvenssivariaatiolle, joka tarjoaa ~95% yhteensopivuutta Affymetrix SNP Array 6.0 suoritettiin samalla solulinjoissa. Lisäksi havaitsimme 19 21 mutaatioiden raportoitu Sanger COSMIC tietokantaan näistä solulinjoista. Havaitsimme keskimäärin 2779 mahdollisia uusia sekvenssivariaatioita /mutaatiot kohti solulinjan, joista 1904 oli ei-synonyymejä. Monet ei-synonyymi muutoksia todettiin kinaasien ja tunnettujen syöpään liittyvien geenien. Lisäksi olemme vahvistaneet, että luku-syvyys exome sekvenssin tietoja voidaan käyttää arvioimaan korkean tason geeni monistukset ja tunnistaa homologiset poistot. Yhteenvetona, me osoitamme, että exome sekvensointi voi olla luotettava ja kustannustehokas tapa tunnistaa muutoksia syöpää genomeja, ja olemme tuottaneet kattava luettelo genomisen muutoksia koodaavilla alueilla kahdeksan syöpäsolulinjoja. Nämä havainnot voivat tarjota tärkeitä oivalluksia syövän reittejä ja resistenssimekanismeihin syöpälääkkeiden.

Citation: Chang H, Jackson PO, Kayne PS, Ross-Macdonald PB, Ryseck RP, Siemers NO (2011) Exome sekvensointi paljastaa Kattava Perimän muutostyöt poikki Kahdeksan Cancer Cell Lines. PLoS ONE 6 (6): e21097. doi: 10,1371 /journal.pone.0021097

Editor: Christian Schönbach, Kyushu Institute of Technology, Japani

vastaanotettu: 27 huhtikuu 2011; Hyväksytty: 19. toukokuuta 2011; Julkaistu: 20 kesäkuu 2011

Copyright: © 2011 Chang et al. Tämä on avoin pääsy artikkeli jaettu ehdoilla Creative Commons Nimeä lisenssi, joka sallii rajoittamattoman käytön, jakelun ja lisääntymiselle millä tahansa välineellä edellyttäen, että alkuperäinen kirjoittaja ja lähde hyvitetään.

Rahoitus: Tämä työ tukivat Bristol-Myers Squibb Co. rahoittajat ei ollut roolia tutkimuksen suunnittelu, tiedonkeruu ja analyysi, päätös julkaista tai valmistamista käsikirjoituksen.

Kilpailevat edut: kirjoittajat ovat nykyisen työntekijän of Bristol Myers Squibb Co. Tämä tutkimus ei liity tuotteisiin kehitteillä BMS tai kaupan tuotteita BMS. Tämä ei muuta tekijöiden noudattaminen kaikki PLoS ONE politiikan tietojen jakamista ja materiaaleja.

Johdanto

Kaikki syöpäsolut ovat somaattiset mutaatiot niiden genomeja, kuten yhden nukleotidin mutaatiot, insertiot , poistot ja kopioluvun voittoa tai tappiota. Genominen vaurioista syöpäsoluja häiritsevät normaaliin toimintaan ja reittejä kuten lisääntymistä ja apoptoosia, ja ovat välttämättömiä kasvaimen synty, kasvu ja etäpesäke. Lisäksi jokainen kasvaimen kantaa ainutlaatuinen yhdistelmä mutaatioiden sen genomiin, mikä heterogeenisuus syövän ennustetta ja vastauksia terapeuttisen intervention. Meidän rajoitettu ymmärrys yleisempää mutaatiot on jo vaikuttanut lääkehoidossa. Esimerkiksi käsittelemällä pienmolekyylisalpaajilla epidermaalisen kasvutekijän reseptori (EGFR) on osoitettu ensisijaisesti hyötyä keuhkosyöpäpotilaita, jotka suorittavat tiettyjä somaattiset mutaatiot niiden EGFR-geenin [1], [2]. Samoin tiettyjen vasta-hoitoja suunnattu EGFR vain näyttää tehoa osajoukko paksusuolen syövän potilaille, joilla on villin tyypin KRAS-geeniä [3], [4]. Syvä järjestelmällinen luonnehdinta somaattisten mutaatioiden syövän genomien lupaa olla tehokas työkalu sekä ymmärrystä syövän reittejä ja kehittämällä kohdennettuja terapeuttisia.

Viimeisten kahden vuosikymmenen aikana keskittyneet tutkimukset kandidaattigeenit ovat johtaneet mutaatioiden tunnistaminen esiintyvien korkean taajuuden ratkaiseva syöpää reitin geenejä, TP53, KRAS, ja PTEN [5]. Viime vuosina koodausalueissa rinta-, keuhko-, paksusuoli-, ja aivokasvaimen genomeja on analysoitu käyttäen kapillaari-pohjainen sekvensointiteknologioihin. Nämä pyrkimykset ovat johtaneet tunnistamiseen taudinaiheuttajamutaatioita vuonna odottamattomat geenejä, kuten IDH1 korostaen voima ja merkitys puolueeton genomin mittakaavan mutaatio löytö [6], [7], [8]. Kuitenkin laajamittainen kapillaari-pohjainen sekvensointiteknologioihin ovat aikaa vieviä ja kalliita, ja näin ollen ei ole mahdollista laajempaan käyttöön.

Seuraavan sukupolven sekvensointi (NGS) teknologiat ovat lisänneet läpäisyä ja laski kustannukset DNA sekvensointi moninkertaisesti. Useat tutkimukset ovat hakeneet NGS teknologioita sekvensoida syövän genomeja, joiden yhteenveto viime arviot [9], [10]. Kuitenkin sekvensoimalla koko genomi on edelleen liian kalliita moniin potentiaalisesti arvokkaita sovelluksia.

Yksi vaihtoehto koko genomin menetelmiä on exome sekvensointi, joka kaappaa ja sekvenssit vain koodaavat eksonit genomissa. Exome sekvensointi menetelmiä voidaan toimittaa tietoa yhdistelmistä suuren osan toiminnallisesti asiaan genomin lisääntynyt kattavuutta ja alennetaan kustannuksia. Viimeaikaiset tutkimukset ovat menestyksekkäästi sovellettu exome sekvensointi tunnistaa syy-mutaatiot Mendelin sairauksien [11], [12]. Suuri syövän genomin aloitteita, kuten Cancer Genome Atlas hanke myös exome sekvensointi osana strategiaa luonnehtia syövän genomien [13].

Proteiinikinaasit ovat läsnä perheen signalointimolekyylien ihmisen soluissa ja on olennaiset roolit säätelyssä useimmissa solutoiminnoille [14]. Koska proteiinikinaasi perhe on yksi useimmin mutatoitunut geeni perheiden syövissä [5], on tehty useita kohdennettua genomista sekvensointia tutkimuksissa. Bardelli et ai. suoritetaan ensimmäinen systemaattinen näytön mutaatioita reseptorityrosiinikinaasia alaryhmä proteiinikinaasien, peräsuolen syövän näytteissä [15]. Sittemmin tutkimukset ensisijainen kudoksissa ja solulinjoissa on tunnistettu monia mutaatioita proteiinikinaaseiksi useiden kasvaintyypeille [16], [17], [18]. Kiinnostus mutaatioita kinaasien on jatkunut viime genominlaajuisten mutaatio löytö tutkimuksissa [13], [19], [20].

Solun linja malleja ihmisen syövän ovat olleet ratkaisevassa asemassa ymmärrystämme syöpä tauti polkuja, tunnistaminen ja validointi syövän kohdegeenien, ja kykymme seuloa mahdollisten syöpälääkkeiden. Nämä solulinjat kuljettaa genomi-mutaatiot periytyvät niiden lähteestä kasvainsoluja, mutta ylimääräisiä mutaatioita voidaan hankkia aikana solulinjan kehitys ja passage. Yleensä vertailuja solulinjojen paljastuu huomattavia heterogeenisuus geenimutaatioiden ja heijastavat syöpä väyliä kaltaisia ​​löytyy primaarikasvaimia. Esimerkiksi vertailu paneelin rintasyövän solulinjoissa kokoelma ensisijainen rintojen näytteet osoittivat, että geenin ilmentyminen ja kopioluvun profiileja solulinjoissa heijastavat ne löytyvät primäärikasvaimissa [21]. Samoin geenimutaatioiden raportoitu COSMIC tietokantaan solulinjoilla on samanlainen spektri kuin vuonna primaarikasvainten [22]. Ylimääräisenä laajamittainen kasvain Genomikartoituksen tulokset saadaan, on kasvava tarve vastaavaan solun malleja määrittää, miten uusi variantit vaikuttavat proteiinin toimintaan. Kattava luonnehdinta genomista muutoksia syöpäsolulinjoissa lisää tietämystä syövän biologian, ja se voisi myös tarjota perustan valinnassa asiaa solulinjan malleja tutkia erityisesti osa syöpäsairauden biologian, tai seuloa antagonistien tiettyjen syövän reittejä.

arvioidaan NGS teknologioita ja luonnehtia geenimutaatioiden syöpäsolulinjoissa, olemme analysoineet dataa Roche Nimblegen exome syömällä array ja Roche 454 NGS teknologioita, sovelletaan kahdeksan yleisesti käytettyjen solulinjojen edustavat useita suuria syöpä tyyppejä. Osoitamme, että exome sekvensointi voi olla luotettava ja kustannustehokas tapa tunnistaa genomista muutoksia syövän genomin, ja syntyy kattava luettelo genomista muutoksia koodaavilla alueilla kahdeksan syöpäsolun linjat.

Tulokset

Exome talteenotto ja sekvensoinnin tulokset

Exome talteenotto- ja 454 sekvensointiteknologioihin levitettiin DNA-näytteitä kahdeksalta syöpäsolulinjasta (A2780, A549, Colo205, GTL16, NCI-H661, MDA-MB468, PC3, ja RD, menetelmät kuvatulla tavalla. tulokset lähtötiedot käsittelyä esitetään yhteenvetona taulukossa 1. kunkin solulinjan, noin 1,9 miljoonaa sekvensointi lukee (688 miljoonaa emäkset; 98,5% kaikista sekvensointi lukee) voitaisiin onnistuneesti kartoitettu ihmisen perimän NCBI36 /hg18 viite kokoonpano (https://www.ncbi.nlm.nih.gov). keskimääräinen luku- pituus kaikissa solulinjoissa on 364 emästä, sopusoinnussa pitkän luku- pituus raportoitu 454 sekvensointitekniikan. keskimäärin 89,5%: n noin 180000 eksonit on Nimblegen 2,1 M ihmisen exome array (kohdealueilla) peitettiin vähintään yhden sekvensointi lukea, ja keskimääräinen sekvensointi lukea syvyys kaikille solulinjoissa on 7,3 kohdealueilla. Exome talteenotto ja sekvensointi tulokset ovat normaalin rajoissa suorituskykyä valmistajan määrittelemä ja ovat verrattavissa julkaistut tulokset käyttäen samaa tekniikkaa [23].

Olemme havainneet keskimäärin 14340 sekvenssivariantit (erot ihmisen viite genomi) kohti solulinjaa. Suurin osa näistä eroista tunnetaan polymorfismit normaaleissa ihmisen väestöstä (eli tallennetaan NCBI dbSNP tietokantaan, rakentaa 130). Keskimäärin 2779 yhdistelmälle solulinja ei löydy dbSNP tietokantaan, ja näin ollen edustaa uusia sekvenssin muunnelmia ja /tai somaattisten mutaatioiden. Keskimäärin 1904 ja 2779 uudet variantit eivät ole synonyymejä, eli ne eivät muuta kodonin spesifisyys. Nämä vaihtoehdot ovat todennäköisesti muuttaa proteiinin toimintoja ja vaikuttaa solujen fenotyyppien.

Concordance kanssa -genotyypitystulosten

Toisena keinoja arvioida tarkkuutta exome sekvensointi, vertasimme tietoja -genotyypitystulosten poikki kahdeksan solulinjoja (taulukko 2). Affymetrix genominlaajuisten Human SNP Array 6.0 on suunniteltu havaitsemaan genotyypin tietoa noin miljoona tiedossa SNP kantoja. Se voi siis tarjota riippumatonta tarkastusta vaihtelut havaittiin exome järjestyksessä tiedot. Kutakin solulinjaa tunnistimme SNP Array 6.0 tehtävissä onnistunut genotyypin puhelut, koski myös ainakin kaksi ainutlaatuista exome sekvensointi lukee. Päällekkäisyys tuotti välillä 26407 ja 29650 SNP kannat (riippuen solulinjasta) lisäanalyysiä. Kaiken kaikkiaan oli keskimäärin 91% välistä yhdenmukaisuutta genotyypin puheluita SNP array 6,0 /Linnunsiemenet ja ne määritettiin exome sekvensoinnilla. Vuonna RD solulinjassa, esimerkiksi 26154 (91,5%) ulos 28594 SNP kantoja on sama genotyyppi puhelu (eli AA, AB, tai BB) SNP array 6,0 ja exome sekvensoinnilla (taulukko 2).

on odotettavissa, että tarkkuus genotyypin havaitsemisen sekvensoimalla siihen vaikuttavat sekä sekvensoimalla lukea syvyyttä ja heterotsygoottisuutta tietyssä genomista sijainti. Laskimme yksimielisiksi genotyypin puheluita ero sekvensointi luku- syvyyttä, ja erikseen homotsygoottinen tai heterotsygoottinen SNP. Kuten on esitetty kuviossa 1, viskositeettiluku on korkea homotsygoottinen SNP: (keskiarvo 97%) riippumatta sekvensointi lukea syvyys. Concordance heterotsygoottisten alleelien on pienempi, mutta lisääntyy järjestyksessä lukea syvyys, aloittaen 31% konkordanssin at lukea syvyydessä 3 ja päästä 90%, kun luku syvyys 10 tai korkeampi. Teoriassa sekvensoimalla DNA-fragmentteja alueelta, joka sisältää heterotsygoottinen SNP on prosessi satunnaisotannalla. Alemmilla sekvensointi syvyys, on suurempi mahdollisuus puuttuu yksi kahdesta alleelista. Laskimme teoreettinen nopeus havaita molempien alleelien sekvensoimalla eri luku- syvyyksissä, olettaen, ettei virhettä sekvensointi (kuva 1, katkoviiva). Pienillä lukea syvyyksissä, meidän koehavainnot ovat lähellä teoreettisen nopeuden, mikä osoittaa, että alhainen konkordanssia pienillä luku- syvyyksissä johtuu todennäköisesti satunnaisotannalla prosessi eikä huono laatu sekvenssidatamäärät.

Käyrä näyttää juoni keskimääräisen yksimielisiksi genotyypin puheluita saatu Affymetrix SNP Array 6,0 ja exome sekvensointi, funktiona sekvensoinnin lukea syvyyksiin. Neliömerkit osoittavat vastaavuutta at homotsygoottista kantoja, timantti markkereita osoittamaan vastaavuutta klo heterotsygoottinen kantoja. Katkoviiva osoittaa teoreettinen nopeus havaita heterotsygoottista kantojen sekvensointi (Menetelmät kuvatulla tavalla). Triangle markkereita näyttää keskimäärin heterotsygoottinen SNP paikoista solua kohti line funktiona sekvensointi lukea syvyyksistä (Y-akseli oikealla).

vertailu exome sekvensoinnin COSMIC tietokantaan syövän mutaatioita

proteiinia koodaavan eksonit ja välitön reunustava intronisekvenssit 61 yleisin syöpä geenit ovat aiemmin systemaattisesti määritelty noin 800 solulinjoissa mukaan Welcome Trust Sanger-instituutti, käyttäen kapillaari-pohjainen sekvensointi [22]. Kahdeksasta solulinjat tässä tutkimuksessa, kaikki paitsi yksi (GTL16) on seulottu tässä projektissa. Vertasimme somaattinen mutaatio tiedot Sanger COSMIC-tietokannan kanssa exome sekvensoinnin tulokset seitsemän solulinjat. Kuten on esitetty taulukossa 3, exome sekvensointi löydettiin uudelleen useimmat 21 mutaatioiden raportoitu COSMIC tietokannassa, mukaan lukien pistemutaatiot ja pieni lisäys /deleetioita. Kaksi puuttuvaa tapauksista johtuu puutteesta järjestyksessä kattavuus locus kiinnostava: dokumentoidun STK11 mutaatio A549 ei ole mitattavissa puutteen vuoksi STK11 geenin kattavuus Nimblegen 2.1 M ihmisen exome paneelit, ja TP53-geeni kuuluu Nimblegen array mutta siitä puuttuu riittävä lukee PC3 rivi tarkistaa tässä tutkimuksessa (on riittävästi lukee varten TP53-geenin muilla radoilla, kuten taulukko 3).

Suuri homotsygoottisia deleetioita, kuten tunnettu deleetioita CDKN2A geenin A549 ja Smad4 in Colo205 soluissa, ei voi suoraan havaita exome sekvensointi. Mutta poisto geenialueisiin voidaan päätellä, että luettu syvyys on nolla useina peräkkäisinä eksonit (katso seuraava kohta yksityiskohtainen keskustelu). Kaikki viisi genomista poistot raportoitu COSMIC tietokannassa ovat erotettavissa exome sekvensoinnin tuloksista (taulukko 3). Esimerkiksi A549-solulinja havaitsimme 14 peräkkäisenä alueilla ympäri CDKN2A geeni lukea syvyys nolla. Vuonna Colo205 solulinjassa, dokumentoitu 904-base häviämä Smad4 geeni ilmentyy 4 peräkkäistä kohdealueiden kanssa luku- syvyys nolla.

havaitseminen geenin monistuminen ja poisto

poistot tai amplifikaatioita kromosomisegmentit ovat yleisiä muutoksia syöpä genomeja. Periaatteessa sekvensointi lukea syvyys alueella on oltava oikeassa suhteessa sen kopiomäärä. Kuitenkin suhteellisen vaatimaton lukea syvyys nykyisen tutkimuksen voisi aiheettomasti painoarvoa satunnaisvaihtelusta lukea perusteellisesti. Vaihtelevuus lukea perusteellisesti voisi syntyä myös teknisistä seikoista exome sekvensointi prosessi. Esimerkiksi exome syömällä array voi vaihdella tehokkuusetuja eri eksonissa alueilla johtuen erilaisia ​​järjestyksessä koostumukseen. Arvioimaan mahdollisuutta arvioida kopioluvun tietoja meidän exome sekvenointitulosten vertasimme keskimääräinen sekvenssi luetaan syvyyksiin kopioluvun data arvioitiin SNP6 alustalla. Kuten näyttää kuviossa 2, on olemassa positiivinen korrelaatio järjestyksessä lukea syvyyden ja copy-numero, Pearson korrelaatiokerroin 0,41. Vaihtelu lukea perusteellisesti asettaa haasteita tarkasti havaita matalan tason kopioluvun muutoksia. Toisaalta, huomaamme, että tarkka havaitseminen korkean tason geeni monistukset ja homotsygoottisia deleetioita on mahdollista.

Keskimäärin sekvensointi lukea syvyyksissä kaapata alueilla piirrettiin kopiomäärä tietojen arviointiin Affymetrix SNP 6,0 kuten on kuvattu menetelmiä osiossa. Sininen viiva osoittaa lineaarisen regressiosuoran. Pearsonin korrelaatio coefficiency (r = 0,41) ja sekvensoinnin lukea syvyyttä ja kopioi numero data on painettu kuva.

Homotsygoottinen deleetio Smad4 geenialueen on raportoitu MDA-MB468 solulinja ( Sanger COSMIC tietokanta) ja on siten havainnollistava vertailla poisto analyysimenetelmiä. Sekvensointi lukea syvyydet eksonin alueiden Smad4-geeni ja ympäröivä alue määritettiin MDA-MB468 ja piirretään niiden kromosomaaliseen sijaintiin (kuvio 3A). Kuusitoista peräkkäistä eksonia alueiden kromosomissa 18 on lukea syvyys nolla tietoja MDA-MB468. Genominen sijainnit 16 eksonin alueet ovat 46.75 Mt 46,86 Mt, joka kattaa Smad4 geeni. Vertailun vuoksi teimme kopioluvun analyysi Affymetrix SNP array 6,0 kuten on kuvattu menetelmät jaksossa. MDA-MB468, tämä analyysi osoitti homotsygoottinen deleetio genomin alueella 46,76-46,86 Mb kromosomissa 18 (kuvio 3B), joka vastasi hyvin tulosten luku- perusteellinen analyysi.

. Tontit luettua syvyyttä tietojen peräkkäisenä eksonit ympäri Smad4 geenialueen kromosomisesta 18. Sininen viiva osoittaa sekvensointi lukea syvyystietoja MDA-MB468, ja vaaleanpunainen viiva osoittaa mediaani sekvensointi lukea syvyys kaikkien kahdeksan solulinjoissa. B. Copy-numeron tietoja Affymetrix SNP6 sirun tietojen ympäri Smad4 geenialueen kromosomisesta 18. Musta viiva osoittaa segmentoitua kopioluvun data (log2 suhde normaaliin näytettä) tuottama aroma.affymetrx paketin R kuvatulla tavalla menetelmät jaksossa.

luku- syvyys nolla voi aiheutua teknisistä kysymyksistä, kuten koetin muotoilun Nimblegen 2.1 M array. Itse asiassa, tunnistimme 2513 eksonin alueille, joilla on lukea syvyys nolla kaikille 8 solulinjoja (taulukko S1). Kuitenkin, koska mediaani lukea syvyys kaikissa 8 solulinjoissa on suurempi kuin nolla kaikille 16 eksonin alueet (kuvio 3A), on epätodennäköistä, että havaittu syvyys nolla MDA-MB468-solulinjasta on määrä systemaattinen vika of exome kaapata. Satunnainen vaihtelu read syvyys on toinen syy puute sekvensointia kattavuus. Vuonna MDA-MB468 solulinja on 17161 eksonin alueisiin, joiden luku- syvyys nolla (194706 yhteensä alueilla, lukuun ottamatta 2513 mainituille alueille). On erittäin epätodennäköistä, että 16 peräkkäistä eksoni alueilla ympäri Smad4 geeni olisi lukea syvyys nolla johtuu satunnaisvaihtelun (p = 1.3e-17 laskettuna binomijakauman).

Olimme myös pystyä uudelleen Kartoitetaan aiemmin dokumentoitu geenimonistus tapahtumien avulla luetun syvyys data. Esimerkiksi monistaminen EGFR1 että MDA-MB468 solulinja on dokumentoitu fluoresenssilla in situ ja kvantitatiivisella PCR [24]. Havaitsimme, että 53 eksoni alueilla ympäri EGFR kromosomissa 7 on erittäin korkea luku syvyyksiin MDA-MB468 data (kuva 4A, eksonien välillä 55,58-55,73 Mb keskimääräinen luku syvyys 107). Meidän kopioluku analyysi Affymetrix SNP array 6,0 data osoitti myös, että EGFR geenialueen on erittäin monistettiin MDA-MB468 linjan (kuva 4B, genomin alueella 55,48-55,81 Mb).

. Tontit luettua syvyyttä tietojen peräkkäisenä eksonit ympäri EGFR geenialueen kromosomisesta 7. Sininen viiva osoittaa sekvensointi lukea syvyystietoja MDA-MB468, ja vaaleanpunainen viiva osoittaa mediaani sekvensointi lukea syvyys kaikkien kahdeksan solulinjoissa. B. Copy-numeron tietoja Affymetrix SNP6 sirun tietojen ympäri EGFR geenialueen kromosomisesta 7. Musta viiva osoittaa segmentoitua kopioluvun data (log2 suhde normaaliin näytettä) tuottama aroma.affymetrx paketin R kuvatulla tavalla menetelmät jaksossa.

Novel kuin synonyymi variantit proteiinikinaaseiksi

Koska mutaatiot proteiinikinaasien on tärkeä rooli syövän biologian, päätimme tutkia sekvenssin tiedot proteiinikinaasien ja tarkennus ei-synonyymi muunnelmia, jotka tuottavat aminohapposubstituutioita, jotka voivat olla funktionaalisia seurauksia. Kuten edellä on todettu, exome sekvensointi paljasti noin 2000 novel non-synonyymejä variantteja kunkin kahdeksan solulinjoissa. Sovellettuaan tiukkaa suodatin (Menetelmät kuvatulla tavalla), välillä 199-479 geeneillä on uusi ei-synonyymi variantteja, riippuen solujen-linjan (taulukko S2). Nimblegen 2.1 M talteenotto array käytetään tässä tutkimuksessa olivat eksonit 440 518 proteiinikinaasien ihmisen genomin (taulukko S3) [25]. Kussakin solulinjassa, keskimäärin 122 ei-synonyymi vaihtelut havaittiin kinaasin geenejä. Poistamisen jälkeen todennäköisesti ituradan variantteja (löytyy dbSNP) ja käyttämällä tiukkoja yllä kuvatun suodattimen, kustakin solulinjasta on keskimäärin kahdeksan kinaasien ei-synonyymi muunnelmia (taulukko 4). Nämä sekvenssin vaihtelut proteiinikinaasien on lueteltu taulukossa 5. Useimmat näistä sekvenssin vaihtelut eivät raportoidaan COSMIC tietokantaan tai raportoitu kirjallisuudessa, mutta useat ovat riippumatonta vahvistusta. Esimerkiksi tunnistimme EGFR muunnos A1048V että GTL16 mahalaukun solulinjassa. Sama muunnos EGFR on raportoitu MKN45 mahalaukun solulinjassa [26], joka on emo-solulinja GTL16 [27]. Toinen esimerkki on R796S variantti insuliinin reseptorin geeni (INSR) RD-solulinjassa (taulukko 5). Olimme aiemmin tunnistettu tämä muunnos RD solulinjassa käyttäen kapillaari sekvensointitekniikan (tuloksia ei ole esitetty).

Keskustelu

analyysi tietojen kahdeksasta monipuolinen syöpäsolulinjasta esityksiä että Roche Nimblegen ja 454 exome sekvensointiteknologioihin voidaan onnistuneesti soveltaa tunnistaa vaihtelut geenien koodaavat alueet. Vuodesta sekvensointi tietoja keskimäärin 7,3-kertainen kattavuus, variantit päässä NCBI36 viittaus genomin havaittiin noin 8% (14340 alueet) kaikkien kohdealueiden annetun exome kaapata array. Vaikka suurin osa näistä variantteja voitaisiin vahvistetaan dbSNP tietokantaan, keskimäärin 0,16% (2779) koko kohdealueen kuljettaa uusi variantti.

vertailu SNP-genotyypin puheluita exome sekvensointi tietoja aiheutettuja Affymetrix genominlaajuisten Human SNP Array 6.0 osoitti, että korkea vastaavuutta kahden teknologiayhteisöt. Konkordanssi on 97% ja homotsygoottinen sivustoja, ja vaihtelee 30%: sta 90% heterotsygoottinen kannoissa ja tarkkuus riippuu sekvensointi lukea syvyyttä. Analyysimme suhdetta luku- syvyyttä ja voimaa havaitsemisen ehdotti, että vähintään kymmenkertaisesti lukea syvyys tarvitaan luotettavasti havaita molemmissa alleeleissa heterotsygoottinen sivustoja. Nämä tulokset antavat opastusta suunniteltaessa tulevia Genomikartoituksen projekteja.

Seitsemälle tutki solulinjoja, jotka ovat myös läsnä COSMIC tietokantaan, osoitamme, että 19 21 tunnettuja mutaatioita voidaan uudelleen löysi exome sekvensoinnilla. Kaksi aikaisemmin kuvatuista mutaatioista puuttui puutteessa järjestyksessä kattavuus. Yhdessä tapauksessa tämä johtui epätäydellinen kattavuus ihmisen exome että Nimblegen 2.1 M kaapata array, mikä osoittaa tarvetta parantaa array suunnittelussa.

onnistunut uudelleen tunnistaminen EGFR vahvistus ja Smad4 homotsygoottinen poisto että MDA-MB468 solulinja, osoitamme, että kopiomäärä muutokset voidaan päätellä sekvensointi lukea syvyys data. Koska stokastisen luonteen sekvensointi luku- syvyyttä ja todennäköisesti epätasaisuutta exome syömällä prosessi, yleensä ei ole mahdollista arvioida luotettavasti kopioluvun tietoja tietomme. Teknologian soveltaminen enemmän näytteitä auttaisi parantamaan kykyämme arvioida ja korjata systemaattista harhat alustan ja lisäämällä syvyys sekvensointi lukee vähentäisi varianssi johtuu satunnainen vaihtelu lukea numeron.

tuoda yhteydessä genomiseen vaihtelun tunnistettu tässä tutkimuksessa, päätimme keskittyä proteiinikinaaseja kuin havainnollinen luokka. Tässä työssä me tunnistetaan suuri luottamus vähintään neljä uusi variantti proteiinikinaasien kussakin solulinjassa. Useimmat uusi sekvenssi vaihtelut proteiinikinaasien tunnistettu tässä tutkimuksessa ei ole aiemmin raportoitu, ja luultavasti heijastaa suuri moninaisuus genomisen muutoksen syöpä. Tuloksemme laajentaa tuntemusta sekvenssin vaihtelut proteiinikinaasien ja muiden mahdollisten syöpään liittyvien geenien. Nämä uudet variantit voivat olla joko ituradan SNP ei vielä julkaistu dbSNP tietokannassa tai somaattiset mutaatiot näissä syöpäsoluissa. Useita laajoja Ihmisen Genomikartoituksen projekteja käynnissä laajenee tunnistaminen ituradan SNP ja auttavat luokittelemaan luonteen uusien varianttien löydetty kasvaimia.

Yhteenvetona osoitimme että exome sekvensointi voi olla luotettava ja kustannustehokas -effective lähestymistapa tunnistaa genomista muutoksia syöpäsolulinjoissa, ja ehdottaa tapoja parantaa edelleen exome-sekvensointiteknologioihin sovelluksiin syövän genomiikan. Kattava luettelo genomista muutoksia koodausalueissa kahdeksan syöpäsolulinjoja syntyi, minkä pitäisi edistää paitsi tietämystä näiden mallien erityisesti, mutta myös ymmärrystämme syövän genomiikka ja syöpäbiologian yleensä.

Materiaalit ja menetelmät

DNA: n valmistus

A2780, A549, Colo205, GTL16, NCI-H661, MDA-MB468, PC3, ja RD solulinjat alun perin saatu ATCC. Solulinjoja kasvatettiin RPMI 1640 (Gibco), 10% lämpöinaktivoitua naudan sikiön seerumia (FBS; Cellgro), lukuun ottamatta RD (lisäksi 25 mM HEPES) ja A549 (Hamin F12 (Gibco), 10% FBS). Genominen DNA (10 ug) valmistettiin QIAamp DNA Mini Kit (Qiagen) käyttäen valmistajan protokollia, ja toimitettiin Rochen 454 Sequencing Centerin.

Exome Capture ja Next-Generation Sequencing

Exome talteenotto ja seuraavan sukupolven sekvensointi suoritettiin Roche NimbleGen ja Roche 454 Life Science mukaan valmistajan protokollia. Genominen DNA kaapattu Nimblegen Sequence Capture Human Exome 2,1 M Array, joka on 197218 yhteensä alueilla (capture alueet), joka kattaa noin 175278 eksonit ja miRNA alueet (kohdealueita, iso kohdealueelle voi koostua useista kaapata alueita). Kutakin solulinjaa, jää DNA sekvensoitiin kahdella ajojen 454 GS FLX Titanium sekvensointi teknologia.

Array-pohjainen genotyypin ja Copy-numeron analyysi

Kaksi erää 250 ng genomista DNA: ta kohden näyte pilkottiin restriktioentsyymeillä NspI- ja StyI, vastaavasti. Saatu tuotteet ligoitiin vastaaviin adapterit ja PCR-amplifioitiin. Leimatut PCR-tuotteet hybridisoitui Affymetrix genominlaajuisia Human SNP Array 6.0 mukaisesti valmistajan suositusten. Linnunsiemenet algoritmi [28] toteutetaan Affymetrix Power Tools (APT) ohjelmistopaketti (versio 1.10.0) käytettiin genotyypin määritys. Kopio-numeron analyysin Cel tiedostot käsiteltiin käyttäen aroma.affymetrix paketti [29] R-projekti. Segmentointi normalisoitu raaka kopioluvun data suoritettiin CBS algoritmilla [30] toteutetaan aroma.affymetrix pakkauksessa.

bioinformatiikan analyysi

Ihmisen genomin NCBI36 /hg18 viittaus kokoonpano (http: //www.ncbi.nlm.nih.gov/genome/guide/human/release_notes.html#b36) käytettiin kehyksen kaikissa analyyseissä. Sequence tietojenkäsittely, kartoitus ihmisen perimän, ja alustava puhelut vaihtelu referenssijakson tehtiin Roche 454 Life Science käyttäen GS Reference Mapper ohjelmisto (Roche Inc.). Täyttääkseen muunnelma vertailuolosuhteista genomin, on oltava vähintään kaksi riippumatonta lukee että 1) osoittavat erotus, 2) on vähintään 5 emästä molemmin puolin ero, ja 3) on vähän muita yksittäisiä järjestyksessä eroja luettu. Vaihtoehdot todettu ”suuri luottamus” sovellettiin tiukempia suodattimen, johon vaaditaan vähintään kolme itsenäistä lukee kanssa variantti, joka käsittää vähintään 40% kaikista riippumattomien lukee kattavat alleelin perimän aseman. Tunnistaa kuin synonyymi variantteja, vaikutus kunkin vaihtoehtoa käännetty proteiinisekvenssi arvioitiin kartoittamalla sen genomista koordinaatit takaisin geenien RefSeq keräys [31] vapauttaa 37, ja tunnistaa muutokset kodonissa spesifisyyden.

Laskimme teoreettinen nopeus havaitseminen on heterotsygoottinen asemissa funktiona eri read syvyys seuraavasti: N sekvensointi lukee kattaa heterotsygoottinen asema voidaan pitää satunnaisotannalla kahden alleelin toistetaan N kertaa, mikä olisi noudatettava binomijakauman. Olettaen, että alleeli A raportoitu ihmisen viittaus genomin ja alleeli B on variantti alleeli, tarvitsemme vähintään kaksi sekvensointi lukee kanssa B alleeli toteamista havaitsemiseksi alleelin B. paljastumisen todennäköisyys sekä A että B alleeleissa heterotsygoottiseen sijainti voidaan laskea: PAB = 1-P1-P2. P1 on todennäköisyys löytää 0 tai 1 luku kanssa alleelin N sekvensointi lukee mukaan binomijakauman, mikä johtaisi genotyypin puhelun AA. P2 on todennäköisyys löytää N lukee kanssa B alleeli N sekvensointi lukee mukaan binomijakauman, mikä johtaa genotyypin puhelun BB.

tukeminen Information

Taulukko S1.

Catpure alueille, joilla on nolla lukea syvyys kaikki 8 solulinjoissa.

doi: 10,1371 /journal.pone.0021097.s001

(XLS) B Taulukko S2.

Kaikki novel non-synonyymejä variantit kahdeksassa solulinjoja.

doi: 10,1371 /journal.pone.0021097.s002

(XLS) B Taulukko S3.

440 proteiinikinaasi geenien kuulu Nimblegen 2,1 M kaapata array.

doi: 10,1371 /journal.pone.0021097.s003

(XLS) B

Kiitokset

kiitos Charles Tilford ja Jansen Lim heidän apua tarjoamalla genomista koordinaatit geenien ihmisen genomin. Kiitämme myös Roche NimbleGen ja Roche 454 Life Science suorittamiseksi exome kaapata, 454 GS FLX Titanium Sequencing kulkee, ja alustava tietojenkäsittely.

Vastaa