PLoS ONE: Vertailu yksi molekyyli ja monistaminen Based sekvensointi Cancer Transcriptomes

tiivistelmä

toinen aalto seuraavan sukupolven sekvensointiteknologioihin, kutsutaan yhden molekyylin sekvensointi (SMS), tarjoaa mahdollisesti profilointi näytteiden suoraan käyttämättä polymeraasiketjureaktio vaiheet käytössä monistamalla perustuva sekvensointi (AS) menetelmät. Tutkia, onko molempien tekniikoiden, tutkimme mRNA sekvensoinnin tulokset yhden molekyylin ja vahvistusta perustuva sekvensointi useista eri ihmisen syövän solulinjoista ja kudoksista. Huomaamme ominaisuus kattavuus painottumista runsaasti esiintyvät transkriptien monistamiseen perustuva sekvensointi. Suurempi osa AS lukee kattaa erittäin ilmaisi geenejä, kuten ne, jotka liittyvät translaatiotapahtumien ja siivous geenejä, jolloin suhteellisesti pienempi kattavuus geenien alhaisilla ja keskitason runsautta. Sen sijaan kattavuus runsaasti esiintyvät selostukset tasoittuu SMS. Tämän vuoksi SMS pystyy sekvensoida alemman runsautta selostukset perusteellisemmin, joista osa on huomaamattomana AS menetelmillä; kuitenkin, nämä sisältävät paljon enemmän kartoitus esineitä. Parempi käsitys teknisen ja analyyttinen tekijöiden käyttöön alustan erityisiä harhat suurikapasiteettisten transcriptome sekvensointi hakemukset kriittinen cross platform meta-analyyttinen tutkimukset.

Citation: Sam LT, Lipson D, Raz T, Cao X, Thompson J, Milos PM, et al. (2011) Vertailu yksi molekyyli ja monistaminen Based sekvensointi Cancer Transcriptomes. PLoS ONE 6 (3): e17305. doi: 10,1371 /journal.pone.0017305

Editor: Thomas Preiss, Victor Chang Sydän Research Institute (VCCRI), Australia

vastaanotettu: 18 lokakuu 2010; Hyväksytty: 28 tammikuu 2011; Julkaistu: 01 maaliskuu 2011

Copyright: © 2011 Sam et al. Tämä on avoin pääsy artikkeli jaettu ehdoilla Creative Commons Nimeä lisenssi, joka sallii rajoittamattoman käytön, jakelun ja lisääntymiselle millä tahansa välineellä edellyttäen, että alkuperäinen kirjoittaja ja lähde hyvitetään.

Rahoitus: AMC on tukee Doris Duke hyväntekeväisyysyhdistykseksi Clinical tutkijan palkinto, joka on Burroughs Tervetuloa Foundation-palkinto Clinical translaatiotutkimuksen, ja Eturauhassyöpä Foundation. AMC on American Cancer Society tutkimusprofessori. CAM nykyään johtuu tukea American Association of Cancer Research Amgen Fellowship in Clinical /translaatiotutkimuksen, Kanarian Foundation ja American Cancer Society Early Detection Postdoctoral Fellowship, ja Eturauhassyöpä Foundation Young Investigator Award. LTS tukee Michiganin yliopiston bioinformatiikan koulutusohjelma. DL, TR, JT, ja PMM ovat työntekijöitä Helicos Biosciences Corporation. Rahoittajat ollut mitään roolia tutkimuksen suunnittelu, tiedonkeruu ja analyysi, päätös julkaista tai valmistamista käsikirjoituksen.

Kilpailevat edut: DL, TR, JT, ja PMM ovat työntekijöitä Helicos Biosciences Corporation. Tämä ei muuta tekijöiden sitoutumista kaikkiin PLoS ONE politiikkaa jakaa tietoja ja materiaaleja.

Johdanto

Yhdistelmät näytteitä yhden molekyylin resoluutio nähdään seuraava askel kehityksessä Seuraava Generation Sequencing (NGS). Nämä tekniikat ovat jo tuottaneet ennennäkemättömän datamääriä nukleotidin-tason resoluutio, ja muuttavat meidän kyky havainnoida biologisten järjestelmien. NGS tekniikka on ollut erityinen vaikutus tutkimuksessa transcriptomes kautta mRNA sekvensointi, tai RNA-sekvenssi. Tarjoaa laaja dynaaminen alue ja aidosti globaali mielestä tämä NGS sovellus on nopeasti syrjäyttämään nykyisiä lähestymistapoja seurantaan monimutkaisten transcriptomes jossa sekä transkriptio pituudet ja pitoisuudet ovat hyvin heterogeenisiä. Monitahoinen luonne RNA-Seq on käytössä perusteellinen analyysi transkriptio runsaus [1], [2], [3], vaihtoehtoisen silmukoinnin [4], [5], [6], [7], uusi transkriptio havaitseminen [8], biomarkkereiden löytö [9], [10], [11], taudinaiheuttajien tunnistamista ja kuvaamista [12], [13], [14], ja geeni fuusio löytö [15], [16], [17] .

ensimmäinen aalto ”seuraavan sukupolven” sekvensointi alustoilla kuten Applied Biosystems, Illumina, Ion Torrent, ja Roche /454, käyttää PCR monistaminen vaiheet näytteen valmistus ja sekvensointi ja ovat siten luokiteltu vahvistus pohjainen sekvensointi (AS) menetelmät. Toinen sarja alustoja, kuvattu ”yksi molekyyli sekvensointi” (SMS) [18] mukaan Helicos ja Tyynenmeren Biosciences, poistaa monistusvaiheiden mukana näytteen valmistus ja sekvensointi prosessi ja siten tunnustavat saadaan tarkempi näkymä transcriptome.

AS tekniikoista liittyy yleensä kaksi monistusvaiheiden; ensimmäinen vahvistus tapahtuu luomisen kaksijuosteisen cDNA-kirjasto sirpaloituneesta mRNA. CDNA: t ligoidaan pari sovittimen molekyylejä, ja PCR-amplifioitiin. Toinen monistusvaiheena suoritetaan sovitinpaikkojen liitettiin yhteen cDNA säikeet hybridisoidaan alukkeiden sidottu lasi tai piisubstraatin tuottaa paikallisia klustereita identtisten molekyylien avulla isoterminen monistaminen tai emulsio PCR. Yhdessä nämä kaksi vaihetta on mahdollista valikoivasti käyttöön yliedustettuina segmenttien ja geenien datana. On havaittu, että tämä harha on olemassa [19], [20], [21], [22], mutta sen vaikutus transkriptio kattavuutta ja kvantifiointiin ole perusteellisesti tutkittu monimutkaisissa näytteissä, joissa selostukset muuttuviin pitoisuus. Helicos SMS-protokolla sisältää luominen yksijuosteista cDNA malleja suoraan mRNA ja hybridisaatio näistä poly-adenyloidut malleja täydentävät oligomeerien sidottu lasilevyllä sekvensointiin (kuva S1).

Tulokset

arviointi SMS RNA-Seq kautta transkriptin profilointi

järjestelmällisesti arvioida eroja kahden sekvensointiteknologioihin, analysoimme RNA-Seq tulokset vahvistusta perustuva sekvensointi (AS) ja yhden molekyylin sekvensointi (SMS) poikki joukko kaksitoista syöpäsolulinjoista ja kudosnäytteitä. Erityisesti lähestymistapamme yrittänyt löytää toistuvia vinoutumia, jotka saattavat jonka monistusvaiheiden implisiittisesti AS. Meidän alkuperäinen aineisto käytetty arvioitaessa kvantifiointiin suorituskyky koostuu näytteitä eturauhassyövän solulinjoissa DU145, RWPE, Vcap, ja LNCaP, ja yksi eturauhassyövän tuumorikudosta, vastaavaan viereiseen normaalissa näytteessä. Pois meidän asettaa kolme näytettä kustakin VCAP ja LNCaP olivat rakenteeltaan aika kurssin tutkimuksessa 0 t, 24 t, ja 48 tunnin ajankohtina.

analyysimme kaksi teknologiaa, päätimme käyttää haluttu tasaus työkalu jokaiselle teknologian ”paras vs. paras” lähestymistapaa. AS lukee olivat linjassa Bowtie aligner [23], kun SMS lukee olivat linjassa IndexDP [24] (kuva S2). Lukee kohdistamalla tunnettuihin biologisiin epäpuhtauksia kuten mitokondriaalisen DNA, ribosomi-RNA, ja teknologia-tiettyjen epäpuhtauksien, kuten adapteri sekvenssit ja pitkä oligomeerit, erotettiin suodattamalla datan asetettu ennen analyysiä.

arvioimiseksi vaihtelu SMS ja AS teknologiat, hyväksyimme yksinkertainen luku- laskenta menettely samankaltainen kuin muut RNA-Seq kvantifiointiin menetelmien [1], [2]. Lukee yhden kaistat AS ja SMS teknologiaa rinnakkain, linjattu 56722 University of California Santa Cruz (UCSC) selostukset (versio hg18). Sitten lueteltu lukee per-transkripti ja normalisoitu lukumäärän perusteella korkealaatuisia, ei-epäpuhtauksien lukee näytettä kohti saada arvoja lukee miljoonasosina (RPM). Jotta vältettäisiin epävarmuus liittyy monen kuvaukset geenien isoformeja, vain yhden parhaiten kartoitusta menetelmiä käytettiin määrittämään geenien vertailuun. Yhden paras kuvaukset on saatu AS lukee asettamalla Bowtie raportoida vain yhden korkealaatuista kohdistus kohti lukea. Yhden paras rinnastukset olivat peräisin SMS lukee hyväksymällä rinnastuksia laadukkain tulokset. Arvot kaikista Geenitranskriptikuvion isomuodot määrittelemän UCSC, laskettiin yhteen, jolloin saatiin arvoja mitattuna linjaukset miljoonasosaa lukee kutakin 29416 geenejä. Kattavuus arvot lukee per kilo- miljoonaa kohti (RPKM) laskettiin yhteen RPKM arvot isoformien kunkin geenin. Kautta Head to Head vertailu AS ja tekstiviestien lukee samanlaisten näytteiden rinnakkain kahteen alustoilla, havaitsimme systemaattinen yliedustettuina voimakkaasti ilmentävien transkriptien AS verrattuna SMS. Tämä bias johti alentuneeseen kattavuuden keski- ja alemman tason ilmentymistä geenien johtaa alhaisemmat transkriptin havaitseminen herkkyys AS. Uudelleenkäsittelyn osajoukko AS näytteitä IndexDP ja toistamalla analyysi sulkea pois tekniset erot lukea tehtävän syynä edustus puolueellisuudesta. Koska sekvensointiteknologioihin ja kemiat jatkaa etukäteen, odotamme AS alustat voittaa rajoittamisesta alhaisen ilmaisi transkriptin havaitsemista parannettu suoritusteho.

Global ominaisuuksia AS ja SMS tuloksia

transcriptome sekvensointi toteutettiin rinnakkaismäärityksen AS ja SMS alustat 12 näytettä, joista 10 eturauhassyöpäsolulinjoissa ja 2 eturauhassyöpäkudoksille. Kaiken kaikkiaan syntyy +2,8-+19.700.000 raaka AS ja SMS lukee kussakin 12 näytettä. Noin 30-60% näistä lukee kulunut alkuperäisen suodatuksen vaiheet ja linjassa meidän transcriptome viite. SMS lukee tuotettiin kahdessa erillisessä kone toimii taas AS lukee tuotettiin yli 6 riippumaton kone kulkee. Tämä menettely johti +2,1-15000000 ja 2,8-8 miljoonaa lukee teksti- ja AS, vastaavasti, mikä linjassa meidän transcriptome viite. 10 ulos 12 näytettä käytetään arvioinnissa, SMS tuottanut enemmän saatettavissa kohdakkain lukee absoluuttisesti mediaani on 1.39x kaikissa 12 näytettä. SMS tulokset sisälsivät enemmän lukee kohdistamalla tunnettuihin epäpuhtauksia, jotka vaihtelevat 12%: sta 51% kaikista lukee, mediaani 22%. Osa lukee yhdenmukaistaa oleville epäpuhtauksille AS vaihteli 2,6%: sta 14% mediaani 4,2%. SMS lukea pituus oli vaihteleva ja suodatus askel rajoitettu käyttökelpoinen lukee pituuden välillä 24 bp ja 57 bp ensimmäisessä ajossa, ja 25 bp ja 64 bp meidän toisen ajon, jolloin saadaan luku laskea painotettu keskipituus on noin 33 emäsparin kussakin kaksitoista näytettä (taulukko S1). Mediaani 97% kaikista SMS lukee oli pituudet 25 bp ja 47 bp kaikissa 12 näytettä (kuva S3). AS lukee syntyi vähintään pituus 36 emäsparin kunkin näytteen, vaikka ensimmäinen ja viimeinen usean emäksen jätettiin huomiotta tuottaa laadukkaita lukee vähintään 34 bp pitkä. Kaikki AS lukee katsottiin olevan enintään 36 emäsparin pituus. Toistettavuus toisistaan ​​teknisen kopiot DU145 solulinjan oli korkea sekä AS ja SMS menetelmiä, joiden Pearsonin korrelaatio

r

= 0,98 sekä teknologioita (kuva S4). Lukee sekä ja SMS myös linjassa mahdollistaa 25 mahdollisimman kuvaukset arvioimaan jakautumisesta uniquely- ja kertomalla kartoitettu lukee geeni- tasolla, vaikka vain yhden parhaiten kuvaukset käytettiin kvantifiointiin ja vertailua varten. Molemmat tekniikat aikaan hyvin samanlaisia ​​ainutlaatuisia kartoitus hinnat 72% ja 75% AS ja SMS, vastaavasti. Tästä raaka linjassa tiedot, tutkimme suhteellista jakautumista lukee yli geenien havaittiin meidän näytteitä vertaamalla niiden normalisoitu lukea laskee. Kuten odotettua, havaitsimme laaja yksimielisyys kannalta geeniekspression arvojen teknologioiden (kuva S5). Kuitenkin havaitsimme toistuvaa yliedustus korkean runsauden transkriptien AS menetelmää verrattuna SMS.

Kattavuus harha vahvistus-sekvensointi

Comparison of transcriptome lukee saman näytteet määrällisesti rinnakkain AS ja SMS alustat paljastaa selvä harhaa AS tuloksia kohti hieman yliedustettuina hyvin ilmenevien geenien verrattuna SMS, kuten kuvassa 1A. Tämä ero oli laadullisesti arvioitiin jakamalla geenejä kvartiileihin yhtä monta, tilaama havaittujen arvojen AS, ensimmäisen neljännekseen edustaa korkeinta ilmentävät geenejä, toinen neljännekseen edustava keskitason ilmentymistä geenejä, ja kolmas ja neljäs kvartiili määritellään geenejä, joilla on vähiten transkriptien (kuvio 1 B). Erittäin ilmaisi selostukset yleensä on enemmän lukea kattavuus AS, kun taas SMS yleensä kattaa alemman ilmaisi selostukset tehokkaammin (taulukko S3). Tämä ylimääräinen kattavuus korkean pitoisuuden selostukset johdonmukaisesti näytti olevan kustannuksella alemman ilmaisi selostukset, jotka näyttivät olevan perusteellisemmin sekvensoitiin käyttämällä SMS (taulukko S4).

(A) Yhden paras kartoitus method- pohjainen quantile-kvantiili juoni havaitaan merkkejä yliedustus voimakkaasti ilmaistu transkriptien monistamiseen perustuva sekvensointi verrattuna yhden molekyylin menetelmillä. (B) jakauma lukee poikki geenien transkriptio pitoisuus osoittaa vähentynyt SMS kattavuuden pisimmälle ilmaisi geenien kanssa lukee menee puoliväliin ja matalan tason ilmentävissä. (C) Erot jakeluun lukee johtavat lisääntyneeseen herkkyyteen matalan ilmentävien selostukset. (D) Yhdeksän ehdokkaan geenien nähnyt yli 0,3 RPKM melutaso osoittaneet mitään vahvistusta RT-PCR, vaikka vain

HIST1H4C

osoitti korkea runsautta.

Sen varmistamiseksi, että nämä harhat eivät olleet seurausta käyttäen eri aligner kullekin tekniikka, AS lukee oli linjata uudelleen käyttäen IndexDP aligner käytetään tekstiviestien lukee varten osajoukon näytteistä, koostuu VCAP-24 h, VCAP-48 h, LNCaP -24 h, LNCaP-48 h, ja DU145_1 näytteet (kuvio S6). Erittäin suuri korrelaatio geenien tason vertailu- Bowtie ja IndexDP linjauksia varten joukko AS lukee sulkea pois eroja kohdistustyökalut lähteenä havaitun harhat. Esimerkiksi korrelaatio geenien tason arvot LNCaP-24 h näyte oli korkea välillä linjaus menetelmiä

r

= 0,97. Samoin suuri korrelaatio tason yläpuolella

r

= 0.95 havaittiin jäljellä näytteissä. Samanlaiset korkean ekspressöija yliedustettuina AS havaittiin käyttäen IndexDP rinnastuksia AS lukee sijasta standardin rinnastuksia käytetään Bowtie kuvan S7. Menetelmiin erot olennaisesti poissuljettu, yritimme tarkkailla vaikutuksia tämän korkean pitoisuuden kattavuus bias tutkimalla havaitseminen selostukset alhaisella tasolla.

Lisääntynyt SMS herkkyys johtuu korkea kattavuus matalan runsaus transkriptien

vaikutusten arvioimiseksi kattavuuden lisäämiseen puolivälissä laitteista matalissa tasolle transkriptien SMS, laskimme määrä geenejä havaittu yläpuolella melua kynnyksen vain toinen kahdesta teknologiaa. Käyttäen 0,3 RPKM melutaso sulku perustuu Ramskold, et al. [25], määrä geenejä havaittiin vain yksi teknologia vaihtelivat korkeimmillaan 4851 ja alimmillaan 2048 ja ylimmillään 1,276 ja alimmillaan 145 SMS ja AS (kuvio 1 C), vastaavasti, poikki sarja näytteet. Log-kertainen ero määrän geenien havaittiin vain yksi SMS vs. AS tekniikan havaittiin meidän vaihteli kynnysarvon välillä 0,1 RPKM ja 3,0 RPKM (kuvio S8) 0,1 RPKM välein. Nämä rajat valittiin tutkia herkkyyden kahden menetelmän monilla arvoista lähtien lähellä nollaa melutason kertaluokkaa suurempia kuin aiemmin raportoitu. Kerrostuminen geenien havaittiin yhdellä teknologia pituus luokkiin 0-300 bp, 300-3000 bp, ja 3000 + ep osoittaneet, että tämä ei johtunut eroista teknologiaan näytteen valmistusmenetelmiä, kuten AS-protokolla määrittelee -300 ep koon valinta askel, että SMS-menettelyssä ei vaadita. Tämä luokka näyttää suhteellisen alhainen edustus poikki kohinan kynnysarvot sekä AS ja SMS. Otimme tämän arvioinnin askeleen eteenpäin ja tutki tulokset sekä SMS ja tekniikoita yrittää löytää geenejä havaittavissa vain yhteen teknologiaan.

Ainutlaatuisen havaittu geenien SMS

Tukeakseen mahdollisten edustus harhat näiden alustojen suositelluista ylimääräisiä herkkyys SMS, me seuraavaksi kyseenalaistanut geenien havaittiin yläpuolella melua kynnyksen tekstiviestillä, mutta olivat alle tämän rajan AS. Päätimme analysoida DU145 näytteessä se oli kaikkein perusteellisesti sekvensoitiin näyte kaksi rinnakkaista ajaa käyttämällä kutakin tekniikkaa. Käyttäen 0,3 RPKM kynnys, päätimme testata ilmentymistä 23 geenien meidän DU145 näytteitä RT-PCR, joista kymmenen osoitti havaittavissa vahvistusta. Lisäksi olemme sekvenoinut DU145 solulinjan paljon perusteellisemmin, jotta voidaan varmistaa, että havainnot eivät johtuneet teknisistä tekijöistä yhdessä koneen käydä. Kuten kuviossa S9, tämä joukko geenejä oli järkevöittämiseksi kattavuus SMS verrattuna AS poikki koko 94427789 lukee syntyy meidän toinen joukko kulkee. Tämä luettelo on luotu tutkimalla jakelu lukee ja peittoaluekartat top 50 geenejä, joiden RPKM kattavuus oli suurinta eroa AS ja SMS tekniikoita ja oli virallisten Hugo nimet [26]. Ehdokkaita valittiin läsnäolon pitkä ( 36 bp) kartoitus lukee ja hyvin jakautunut lukea rinnastukset koko pituudelta transkriptien. Niistä validoitu geenien havaittiin ainoastaan ​​tekstiviestillä, vain

HISTH1H4C

havaittiin olevan läsnä DU145 näytteessä suuri luottamus, kuten kuvassa 1D. Yhdeksän muuta kandidaattigeenit

AK5

,

ACVRL1

,

AMHR2

,

CERKL

,

MAFA

,

MAGI2

,

PIP5K1B

,

FAM49A

, ja

TPRXL

osoitti heikkoa vahvistusta. Tässä joukko geenejä, monistus vain nähdä pidemmälle sykli 30 vaikeuttaa vahvistamaan läsnäoloa. Meidän vieressä pyrittiin tutkimaan yliedustettuna geenejä, jotka voivat osaltaan vähentää herkkyyden käyttämällä vahvistusta perustuvaa sekvensointitekniikoilla.

Yhdenmukainen yliedustus korkean ilmentymisen geenien monistaminen perustuva sekvensointi

Kaiken 393 geenejä havaittiin olevan johdonmukaisesti asetetun alkuun 500 yliedustettuna geenien mukaan normalisoitu luetun kartoitus määrä vähintään 40% meidän näytteistä (Taulukko S2). Näistä 393 geenit, kymmenen geenejä havaittiin yliedustettuna by normalisoitu luku- kartoitus count kaikissa 12 näytteiden tutkimuksessa mukana. Kattavuus kartat

RPLP0

ja

RPL31

, yliedustettuina kaikissa 12 näytettä, ja

SPINT2

, yliedustettuina 11 näytettä, osoittaa tämä kattavuus bias näissä kolme erittäin vahvasti ilmentävä transkriptit (kuvio 2A, B, C). Sitten tutkittiin kokoonpanon ja jakelun lukee joissakin näistä erittäin yliedustettuna dokumenttinsa.

kattavuus karttoja vahvistusta-pohjainen ja yksi molekyyli sekvensointi osoittaa huomattavasti enemmän kattavuus (A)

RPLP0

, (B)

RPL31

, ja (C)

SPINT2

. Poistaminen lukee samalla alku kantoja, tiukasti tukahduttaa vahvistus spesifisten mRNA-fragmenttien, vähentää huomattavasti ”spikiness” nähnyt näissä tapauksissa. (D) Monista kuuluu, määritellään lukee yli yksi per alku lokuksen ja lukea pituus, ovat suhteellisen tasaisesti jakautuneet pituudelle kaikki havaitut selostukset kaikissa näytteissä meidän arvioinnissa joukko.

vaikutus monistaa lukee vahvistusta perustuva sekvensointi

geeni

RPLP0

oli paljon suurempi koko kartoitus kattavuus AS kaikissa kaksitoista näytettä (kuva S10). Aggressiivisesti lieventää vahvistus peittoalueella tämän geenin, kahtena lukee poistettiin (jolloin vain 1 luku per ainutlaatuinen alku sijainti) sekä teknologiaa kuin aikaisemmissa tutkimuksissa [21], [22]. Tämä johti tukahduttaminen monien havaittu huiput AS. Sen sijaan, SMS kattavuus geenin näytti olevan suhteellisen yhdenmukainen pituus

RPLP0

transkriptio ennen ja jälkeen tämän menettelyn. Tämä merkittävä ero toiminnallisuudessa pre-ja post päällekkäisiä lukea poistaminen AS verrattuna SMS viittaa siihen, että vahvistus on merkittävä osatekijä siinä havaitut harhaa. Samanlaisia ​​käyttäytyminen havaitaan

RPL31

ja

SPINT2

geenejä samoin.

pidetään sekä linjaus lokuksen ja lue pituus meidän määritelmään luetaan päällekkäisyyksiä, jolloin yksi lukuhetkestä kunkin lokuksen ainutlaatuisen lukea pituus. Etsivät koko transcriptome käyttämällä tätä määritelmää lukea päällekkäisyyksiä, havaitsimme suunnilleen normaalijakaumaa pituudella kaikkien transkriptien kiinni. 3-kertainen ero mediaani määrä kahtena lukee välillä AS ja SMS kaikissa selostukset havaittiin kaikissa näytteissä säilytettiin poikki valtaosa transkriptio pituus (kuvio 2D). Tämä malli lukea päällekkäisyyksiä on samanlainen kuin kirjallisuudessa vakio- vahvistusta riippuvia ja vahvistus vapaa sekvensointi menetelmiä [27]. Poistaminen kahtena lukee, jolloin vain yksi luku per lokuksen, tuotti epäjohdonmukaisesti otantajoukon (kuva S11). Joissakin tapauksissa menettely vähensi yli-edustus korkein ilmentävät geenejä, mutta bias ilmestyi jäädä muiden näytteiden kanssa. Menettely myös merkittävästi vähentänyt käytettävissä lukee mediaani oli 47% koko 12 näytteen sarja (kuva S12). Vaikka tämä naiivi metodologiaa kahtena luetun poisto oli hieman positiivinen vaikutus vähentää eroavaisuuksia AS ja tekstiviestien suhteen transkriptio kvantifiointiin, rajuja vaikutuksia sillä on määrä käyttökelpoista lukee AS ehdottaa erilaista lähestymistapaa voi olla toivottavaa. Tällä ymmärryksellä vaikutusten kahdennettu lukee, olemme analysoineet joukko toistuvasti yliedustettuna geenien nähdä, jos ne sekvensoitiin biologisesti mielenkiintoinen luokkaa geenejä.

Gene ontologia analyysi joukko 393 toistuvasti yli-ilmentynyt geenien

Across näytteet, liittyvien geenien solun replikatiiviset koneet käsitti suurimman osan yliedustettuna transkriptien yhteensä normalisoitu määrä kartoituksen lukee useimmissa näytteissä. Gene ontologia analyysi joukko 393 johdonmukaisesti yliedustettuna geenejä, osoittaa niiden osat solun translaatiokoneistolla (kuva 3), luokka yleensä esiintyy suurina määrinä kaikissa kahdessatoista näytteissä käytettiin tässä arvioinnissa. Tämä taas viittaa siihen, että vahvistus menettely implisiittisesti AS kirjaston valmisteluun liioittelee tietyn painottumista nämä jo runsas selostukset. Kokonaismäärä lukee joutumasta Jokaisessa luokassa havaittiin olevan yliedustettuina AS oli keskimäärin 2.23x korkeampi verrattuna SMS, vaikka geenit päällekkäisiä luokkien välillä. Jossa vähemmän keskittyä korkean pitoisuuden translaatiokoneistolla ja siivous geenit, me sitten yrittänyt soveltaa SMS löytää geenifuusioissa että transcriptome.

GO analyysi 393 eniten yliedustettuna geenit löytyi käyttämällä toistumisen analyysiä in Molecular Function (MF) ja biologinen prosessi (BP) alipuut osoittaa, että translaatiotapahtumien ja komponentit ribosomin ovat yliedustettuina poikki näytteiden vahvistusta perustuva sekvensointi.

Re-löytö tunnettujen geenin fuusioita käyttäen yhden molekyylin sekvensoinnilla

arvioitiin sovellettavuutta yhden Lue viestit geeni- fuusio löytö yrittämällä uudelleen löytää tunnetun geenin fuusioiden Vcap solulinjassa, joka tunnetaan satamaan

TMPRSS2-ERG

, joka

de novo

prosessi. Kuten kuviossa S13, ensin linjassa kaikki mahdolliset lukee vastaan ​​transcriptome ja genomin käyttäen IndexDP. Ei-kartoitus lukee, mikä satama kimeerojen myöhemmin kohdistettu vasten transcriptome palauttamalla ne lukee, että oli osittainen yhdenmukaistaminen vähintään 18 nukleotidia. Se osa luetun joka ei kohdista määritellään ylitys. Kaikki lukee, joilla on sama osittainen linjaukset, mikä viittaa yhteiseen murtuessa, kerättiin ryhmäksi. Kaikki klusterit verrattiin sitten onko ylitys yhdestä katkeamispistealueella oli samankaltaisuutta ylitys riippumattoman breakpoint siten saneeraamiseksi Fuusioliitoksen. Lopuksi kaikki jäljellä olevat ei-kartoitus lukee rinnastettiin vastaan ​​romaanin fuusioyhtymäkohdat.

Tätä varten näyte VCAP solulinjan sekvensoitiin laajemmin 2 kanavaa, tuottaa 31198128 lukee kohdistettu transcriptome tai genomin . Vcap näyte valmistettiin yhden kanavan jokaisen kanssa ja ilman pirstoutumista. Vertailuarvo fuusio välillä prostataspesifisen geeni

TMPRSS2

ja ETS onkogeeniset perheenjäsen,

ERG

[28], todettiin katetaan 53 lukee tuottaa 65 miljoonaa lukee VCAP solulinjassa (kuva 4).

Kaavio sisäisen kromosomaalinen uudelleenjärjestely kromosomissa 21 kiinnityslämpötilassa

TMPRSS2

(keltainen)

ERG

(violetti).

keskustelu

Tämä on ensimmäinen tutkimus, jossa arvioidaan suorituskykyä RNA-Seq käyttäen yhden molekyylin sekvensoinnilla verrattuna olemassa oleviin vahvistusta perustuvia tekniikoita. Vaikka ominaisuudet SMS lukee vaihtelee alustalla, odotamme, että jakelu lukee poikki vaihtelevia transkriptio pitoisuuksia pysyvän suhteellisen yhdenmukaisia. SMS tekniikka pystyi tuottamaan enemmän käyttökelpoista lukee kymmenessä kahdestatoista näytteiden harkita RNA-Seq kvantifiointi ja kattavuuden arviointi, jotka tuottavat keskimäärin 78% enemmän lukee näissä 10 näytettä. Vielä tärkeämpää on, nämä lukee näyttivät olevan vähemmän keskittynyt korkeimmalla runsaus selostukset kuten kuviossa 1B, jossa osa koko lukee kartoituksen korkeimmalle runsautta transkriptien SMS ovat 4% alhaisempi kuin AS. Koska AS tekniikka amasses suuri osa lukee sekvensointi korkean runsaasti transkriptien havaitseminen alemman runsaasti geenien vähenevät. Suuret erot korkeimman ja toiseksi korkein neljännekseen ilmaisi selostukset viittaa siihen, että tämä vaikutus on epälineaarinen, koska transkriptio runsaus kasvaa näytteessä. Laaja transkriptin ilmentymistä biologisten näytteiden tekee vinossa lukea jakelun kattavuus tärkeä tekijä profilointi mRNA: t nukleotiditasolla poiketen malleja, jotka voivat olettaa lineaarinen korrelaatio transkriptio runsauden ja sekvensointi kattavuutta.

toistojen määrää lukee havaittu näytteissä kaikilla selostukset ollut, ei ole yllättävää, 3-kertainen verrattuna SMS. Poistaminen kahtena lukee on hyvin määritelty menettely kokeista, joissa DNA: n sekvensointi, mutta ei ole yhtä selvä, kun sekvensoimalla transcriptome jossa vaihtelevia transkriptio pitoisuuksia luonnollisesti johtaa lukee samanlaisia ​​mRNA segmentteihin. Tämä varoitus johtuu erittäin ilmaisi selostukset edistää vääriä positiivisia kahtena lukee Satunnaisotantaan luku- aloittaa paikkoja pitkin transkriptio. Kuitenkin hyvin ilmaistuna transkriptien SMS todennäköisesti tuottaa suuri määrä näitä vääriä positiivisia samoin. Tämän seurauksena tämä lähde vääriä positiivisia monistaa lukee tuskin olla merkittävä taustatekijä suuria havaittu eroja määrän kaksoiskappaleita AS ja SMS. Poistaminen päällekkäistä lukee suodattamalla pois kaikki lukee yli yhden lukea yhden lokuksen näyttäisi olevan epätäydellinen ratkaisu, joka sisältää useita sekoittavia tekijöitä, kun käytetään yksinkertaista lukee. Ensinnäkin, prosessi poistaa kaksoiskappaleet on epäjohdonmukainen, vaikuttaa puolueellinen edustus lukee vain osa tapauksista vietämme. Toiseksi kahtena poistoprosessi vähensi myös käyttökelpoinen sekvenssi tuotto kustakin koeajoa lähes puoleen, vaikka tämä on yliarvioitu johtuen naiivi luonne menetelmän. Lopuksi, nämä kahtena poistomenetelmiä asettaa huippu kattavuus raja jokaiselle transkriptin, joka vastaa luku- pituuteen. Naiivi prosessi haimme poistaminen kaksoiskappaleet on varmasti yli-aggressiivinen ja tätä asiaa voidaan osittain lievittää käyttämällä kehittyneempiä bioinformatiikka ja tilastollisia menetelmiä. Kuitenkin nämä prosessit asettaa lisävaatimuksia sekoittavat tekijät dataan että SMS vältetään kokonaan johtuen suoraan luonteesta sekvensointi menetelmiä. Vaihtoehtoisesti käyttö pariksi-end lukee tuottaa myös lisäkartoitusta ja sekvenssi-informaation, joka parantaa prosessin kahtena tunnistamisen ja poistamisen. Erot, jotka johtuvat ominaisuudet näiden kahden menetelmiä voi johtaa eroihin kattavuuden geenien pitkin spektriä ilmaisun.

Pieniä eroja jakautuminen lukee korkeimmalla neljännekseen ilmentyvien geenien on suuri vaikutus kattavuudesta jäljellä ilmaisi geenejä. Esimerkiksi alin neljännekseen kuuluva geenien nähdä molemmat teknologiat VCAP-24 h näyte säveltää 0,4% summa normalisoidaan lukee nähty korkeimman ilmaisi neljännekseen AS. 1% vähennys määrä lukee käytetään sekvensoida korkein ilmentävien geenien edelleen neljänneksessä voidaan kolminkertaistaa kattavuuden alimman ilmentävien geenien kun lukee sovelletaan määräaikaan. Tulos siirtää luetun jakelu alentaa ilmentävien geenien nähdään väliin VCAP-0 h ja VCAP näytteinä. Molemmat näytteet tuottivat suhteellisen samanlainen määrä lukee, jossa 3.636.454 ja 3.352.960 lukee VCAP-0 h ja VCAP, vastaavasti. Kuitenkin VCAP-0 h näytteessä on enemmän kuin kaksi kertaa murto-osa kokonaismäärästä lukee joutumasta alin 2 kvartiilit 2,2% ja 0,9%, vastaavassa VCAP-0 h ja VCAP näytteitä. Se ei ole mikään yllätys, että VCAP-0 h näyte, pystymme tarkkailemaan 16813 geenejä yli 0,3 RPKM melu kynnys taas VCAP, me vain tarkkailla 13866 geenejä ylittää tämän rajan. Samoin alennettu korkean runsaasti kattavuus bias poikki eri pitoisuuksina mahdollistaa SMS lähestymistapa 2- 6-kertaisesti enemmän kattavuus alemmassa puolet ilmaisivat geenejä. Muuttuvan lukea pituus SMS lukee, myötävaikuttaa kvantifiointiin melua verrattuna AS, koska useita lyhyitä lukee mitä karttaa epäselvästi. Nämä mis-kuvaukset voivat edistää suuremman määrän geenien havaittiin hyvin pienin ekspressiotasot. Tutkiminen lukee kartoituksen geeneihin vain löytyy SMS osoittaa, että läsnä yli 30% pitkistä SMS lukee ( 36 emäsparin pituinen) in mediaani 17% geeneistä (lähentää luku- pituus jakelun kaikissa näytteissä) jättäen 1,7-kertaisen etu hyväksi SMS herkkyyttä jos geenien havaittiin vain lyhyt 24- 35-mer lukee kaikkia pidetään löydöistä melun. Vaikka merkittävä osa tätä melua voidaan suoraan kohdistaa epäselvyydet tarkasti kartoitus lyhyt lukee, läsnäolo pitkä ( 36 kp) tasattiin lukee ei ole tae transkriptin läsnäolon. Vuonna suuri joukko tapauksia, joissa havaitut geenit ovat pitkään lukee linjassa heille vääriä positiivisia johtuivat näiden pitkien lukee kartoitus toistuvia elementtejä tai alhainen monimutkaisuus sisällä alueiden selostukset.

PCR validointi tulokset viittaavat siihen, että käyttämällä

Vastaa