PLoS ONE: RNA-Seq paljastaa silmukointiyksikkövälitteiseen ja Proteasome Geenit kuten parhaiten yhteen Transkriptejä Human Cancer Cells

tiivistelmä

tarkka kvantifiointiin geenin ilmentymisen qRT-PCR perustuu normalisointia vastaan ​​toistuvasti ilmaissut ohjaus geenistä. Kuitenkin valvonta geenien yhteiskäytössä usein vaihtelevat suuresti näytteiden välillä, erityisesti syöpään. Kynnyksellä Next Generation Sequencing teknologia tarjoaa mahdollisuuden parempaan valitse ohjaus geenien kanssa vähiten solusta soluun vaihtelua vakaassa tilassa transkriptipitoisuuksissa. Tässä analysoimme transcriptomes 55 leukemian näytteiden tunnistaa parhaiten yhteen geenit. Tämä luettelo on rikastettu komponenttien proteasomin (esim.

PSMA1

) ja silmukointiyksikkövälitteiseen (esim.

SF3B2

), ja se sisältää myös käännöksen aloittamista kerroin

EIF4H

, ja monet heterogeeninen ydinaseiden ribonukleoproteiini- geenejä (esim.

HNRNPL

). Olemme validoitu johdonmukaisuus uuden valvonnan geenit vuonna 1933 syöpään ja normaaleissa kudoksissa käyttäen julkisesti saatavilla RNA-seq tiedot, ja niiden käyttökelpoisuus qRT-PCR-analyysi osoitti selvästi.

Citation: MacRae T, Sargeant T, Lemieux S, Hébert J, Deneault É, Sauvageau G (2013) RNA-Seq paljastaa silmukointiyksikkövälitteiseen ja Proteasome Geenit kuten parhaiten yhteen transkriptien ihmisen syöpäsoluja. PLoS ONE 8 (9): e72884. doi: 10,1371 /journal.pone.0072884

Editor: Robert W. Sobol, University of Pittsburgh, Yhdysvallat

vastaanotettu: 03 huhtikuu 2013; Hyväksytty: 22 heinäkuu 2013; Julkaistu: 17 syyskuu 2013

Copyright: © 2013 MacRae et al. Tämä on avoin pääsy artikkeli jaettu ehdoilla Creative Commons Nimeä lisenssi, joka sallii rajoittamattoman käytön, jakelun ja lisääntymiselle millä tahansa välineellä edellyttäen, että alkuperäinen kirjoittaja ja lähde hyvitetään.

Rahoitus: Tämä työ tukivat avustuksia Genome Québec (https://www.genomequebec.com/en) ja Genome Canada (https://www.genomecanada.ca) GS, JH, SL ja Brian Wilhelm. TS: n työ oli mahdollista Victorian valtion hallituksen Operatiivinen Infrastruktuuri Tuki ja Australian hallitus NHMRC IRIISS. TS: n tutkimus tuetaan NHMRC Program Grant (1016647). Rahoittajat ollut mitään roolia tutkimuksen suunnittelu, tiedonkeruu ja analyysi, päätös julkaista tai valmistamista käsikirjoituksen.

Kilpailevat edut: Tätä työtä tukivat Genome Québec ja Genome Canada. Rahoittajat ei ole taloudellisia kiinnostusta tähän tutkimukseen. Ei ole niin kehitteillä tai kaupan tuotteiden julistaa. Kirjoittajat ovat äskettäin esittäneet väliaikaisen patenttihakemuksen otsikolla ”Methods and geenit normalisointia geeniekspression” (US Serial no .: 61/774271; arkistointia mennessä 07 maaliskuu 2013). Tämä ei muuta tekijöiden noudattaminen kaikki PLoS ONE politiikan tietojen jakamiseen ja materiaaleja, yksityiskohtaisena online-oppaassa tekijöille.

Johdanto

normalisointi mitatut olevan geenin etuun johdonmukaisesti ilmaissut ohjaus geeni on tärkein toiminta johtaa tarkkuuden kvantitatiivinen käänteistranskriptaasipolymeraasiketjureaktioanalyysillä PCR (qRT-PCR) kokeissa. Vaikka valvonta geeni taso voi vaihdella suuresti riippuen näytteitä käytetään, ne ovat yleensä valitaan perustuvat yksinomaan sopimus [1] – [6]. Kynnyksellä RNA-sekvensoinnin (RNA-seq) by Next Generation Sequencing (NGS) tuhansia transcriptomes ihmisen näytteitä tarjoaa uusia mahdollisuuksia tunnistaa ja valita valvontaa geenejä, jotka osoittavat alhaisimman vaihtelua otantajoukon laskemiseksi suhteellisen geeniekspression avulla ddCt menetelmä.

Leukemia ja muut syöpä näytteet ovat alttiita enemmän vaihtelua geeniekspression verrattuna normaaleissa kudoksissa johtuen kloonijalostus ja geneettinen epävakaus. Koska lisääntynyt kiinnostus ilmentymisen profilointiin ja tunnistamiseen markkerimuotoja syövän varten henkilökohtainen lääketiede, on olemassa selkeä tarve optimaalisen normalisointia geenien ilmentyminen tietojen tunnistamalla ohjaus geenien kanssa mahdollisimman vaihtelu.

Aikaisemmat tutkimukset ovat olleet tehdään sen määrittämiseksi paremmin endogeenisen kontrolligeenin perustuvat julkisesti saatavilla microarray data [7], [8]. Tällaisissa tutkimuksissa microarray tietoja useista kudoksista ja olosuhteita analysoitiin määrittämiseksi geenejä, joiden ilmentyminen vaihteli vähiten, paljastaen lähinnä ribosomaalisen proteiinin koodaavan geenejä. Next Generation Sequencing (NGS) tekniikka on nyt korvattu mikrosiruja kuten kultakantaan globaalissa geeniekspressioanalyysissä. Analyysi geenin ilmentymisen NGS on monia etuja mikrosiruja, mukaan lukien korkeampi dynaaminen alue ja vähemmän alttius teknisen vaihtelu [9] – [13]. Expression arvoja käytetään tyypillisesti RNA-seq normalisoidaan geenien pituus ja kokonaismäärä lukee kullekin näytteelle (Lukee Per kiloemästä transkriptilaji miljoonassa kartoitettu lukee: RPKM) [9], joka mahdollistaa helpon vertailun aineistoja. RNA-seq data mining tarjoaa siksi ihanteellinen tapa tunnistaa parhaiten yhteen geenejä käytettäväksi endogeenisen valvontaa.

Täällä hyödyntää RNA-seq tietoja paneelin 55 Leukemia potilaiden näytteistä sekä 8 julkisesti saatavilla RNA -seq aineistoja The Cancer Genome Atlas (TCGA), (https://cancergenome.nih.gov/) tunnistaa paremmin endogeenisen kontrolligeenin. Ensin osoittaa vaihtelun standardin ohjaus geenien sekä ehdokkaiden ehdottanut microarray data-analyysi. Tunnistamme uudet ohjaus geenejä, joilla on alhaisempi vaihtelu useiden syövän ja normaalin kudoksen tyypit, paljastaen pääasiassa liittyvät geenit Silmukointi ja proteiinien hajoamista prosesseja. Sitten tehokkuuden osoittamiseksi valikoima näiden geenien qRT-PCR. Tämä uusi paneeli erittäin tasainen ohjaus geenit olla suurta hyötyä tulevissa syöpätutkimuksessa ja tautien seurantaan.

Materiaalit ja menetelmät

Potilasnäytteet

Leukemia näytteitä käytetään Leucégène tietokokonaisuus keräsivät Québec Leukemia Cell Bank tietoisen kirjallisen suostumuksen ja hyväksyminen hankkeen tutkimuseettiseltä on Maisonneuve-Rosemont Hospital ja Université de Montréal kuvatulla [14]. Ihmisen napanuoran verinäytteet kerättiin terveiltä vapaaehtoisilta HEMA-Québec kanssa tietoisen kirjallisen suostumuksen ja hyväksyminen hankkeen tutkimuseettiseltä Ste. Justine Hospital ja Université de Montréal.

RNA-seq

RNA-seq tehtiin kuten [14]. Tiedot käsitellään tässä julkaisun on talletettu NCBI: n Gene Expression Omnibus [15] ja pääsee läpi GEO Sarjan hakunumerolla GSE48173 (https://www.ncbi.nlm.nih.gov/geo/query/acc.cgi?acc = GSE48173).

qRT-PCR

Kokonais-RNA eristettiin leukeemiset ja CD34 + napanuoraverestä soluihin käyttäen Trizol mukaisen ratkaisun valmistajan protokollan (Invitrogen /Life Technologies, Burlington, oN, Kanada ). Ihmisen CD34 + napanuoraverestä soluja eristettiin yhteensä napanuoraverestä käyttäen RosetteSep napanuoraverestä CD34 esirikastusta kit, jonka jälkeen EasySep ihmisen napanuoraverestä CD34 + Valinta kit, mukaan valmistajan ohjeita (StemCell Technologies, Vancouver, BC, Kanada), jolloin saatiin 70 -86% CD34 +. CD34 + johto verinäytteet viidestä eri yksilöt otettiin heti käytettiin käänteistranskriptioon. Lisäksi CD34 + johto verinäytettä kaksitoista ylimääräisiä henkilöitä lajiteltiin käyttämällä FACS Aria solulajittelijaa (Becton-Dickinson, San Jose, CA, USA) pitää vain CD34_APC + /CD45RA_PE- soluja (Antibodies: Becton-Dickinson, San Jose, CA, USA ) ennen kuin jatkat käänteinen transkriptio. Käänteistranskriptio kokonais-RNA suoritettiin käyttäen MMLV-käänteistranskriptaasia ja sattumanvaraisia ​​heksameerejä mukaisesti valmistajan ohjeita (Invitrogen /Life Technologies, Burlington, ON, Kanada). Expression analyysit suoritettiin mittaamiseksi geeniekspressiotasot käyttäen 2 × Fast Master Mix (Applied Biosystems /Life Technologies, Burlington, ON, Kanada), vakio alukkeita (Invitrogen /Life Technologies, Burlington, ON, Kanada) ja erityinen koetin päässä Universal Probe Kirjasto (Roche Diagnostics, Laval, QC, Kanada). qRT-PCR-reaktiot tehtiin ABI 7900HT Fast Real-Time PCR System (Applied Biosystems /Life Technologies, Burlington, ON, Kanada). RQ (suhteellinen määrällinen) laskelmat, tietystä Näyte, Ct (kynnyssykli) arvot kunkin geenin normalisoitiin kontrolliin geeni (DCT = Ct Target – Ct Control) ja keskimääräiseen verrattuna DCT päässä CD34 + napanuoraverestä näyte (kalibraattori) käyttäen ddCt menetelmää (ddCT = DCT Sample – DCT kalibraattori; RQ = 2∧-ddCt). qRT-PCR-syklien olosuhteet olivat seuraavat: 2 minuuttia 50 ° C: ssa ja 10 minuuttia 95 ° C: ssa, mitä seurasi 40 sykliä 15 sekuntia 95 ° C: ssa ja 1 minuutti 59 ° C: ssa.

Tulokset

vaihtelevuus yleisesti käytetty valvonta geenien RNA-seq data

näitä tutkimuksia varten olemme käyttäneet RNA-seq saadut meidän Leucégène hanke, joka hankittiin paneelia 55 Leukemia potilaiden näytteet (43 AML, 12 ALL) Quebecin Leukemia Cell Bank (BCLQ). Olemme edelleen analysoitiin RNA-seq tietoja eri syöpien ja niihin liittyvien normaaleissa kudoksissa, kuten AML, rinta-, keuhko-, paksusuoli- ja munuaisten, kaikki julkisesti saatavilla The Cancer Genome Atlas (TCGA). Yhdistetty TCGA data asettaa edustaa dataa kaikkiaan 1933 potilasta (207 normaalia kudosta ja 1726 syöpä kudosnäytteistä) (taulukko S1).

arvioimiseksi geeniekspression johdonmukaisuutta, tutkimme vaihtelevuutta RPKM arvojen välillä potilaan näytteet poikki tietyn RNA-seq tietokokonaisuutta. Tämä saavutettiin laskemalla variaatiokerroin (CV) ja enintään kertaluokkamuutos (MFC) kunkin geenin useiden näytteiden kunkin datajoukon; jossa CV edustaa keskihajonta jaettuna keskiarvo RPKM, ja MFC edustaa suurinta RPKM jaettuna vähintään RPKM arvo.

Ensin analysoidaan ilmaisun johdonmukaisuutta 19 yleisesti käytetty valvonta geenien Leucégène ja yhdistetty TCGA aineistoja. Standard ohjaus geenit rankattiin pienimmästä suurimpaan CV (taulukko 1). Tätä lähestymistapaa käyttäen, huomasimme, että parhaiten yhteen yleisesti käytetty valvonta geeni, molemmissa tietokokonaisuuksia, oli TATA sitova proteiini (

TBP

), jolloin saadaan CV sama 22,8 tai 44,9% ja MFC on 2,5 tai 12.2, vuonna Leucégène tai yhdistetyn TCGA aineistoja, vastaavasti. Ableson (

ABL1

), ohjaus- geeniä käytetään yleisesti leukemian näytteitä, tuotti hieman pienempi CV yhdistettyyn TCGA datajoukon (39,8%), mutta oli korkea MFC (26,9). Suurin osa yleisesti käytetty valvontaa geenejä näytteillä vaihtelun, jossa CV-arvot vaihtelevat 27,2-69,1% vuonna Leucégène (mediaani CV = 42,6%), ja 47,0-116,2% yhdistetyssä TCGA data (mediaani CV = 61,4%). Odotetusti totesimme, että vaihtelevuutta geenien oli suurempi yhdistetyssä TCGA data, joka edustaa monipuolisempi näytteitä viidestä eri syöpätyyppien ja kolme erilaista normaalia kudosta tyyppejä. Suurta vaihtelua yhdistetyn TCGA data oli selvempi MFC arvot, jotka ovat enemmän vaikuttaa suuresti äärimmäiset erot ilmaisun yksittäisissä näytteissä. MFC-arvot vaihtelivat 2,5-31,7 kertaiseksi Leucégène (mediaani = 8,3), ja 12,2-639,5 kertaiseksi yhdistetyn TCGA data (mediaani = 84,0).

tutki vielä ilmaisun johdonmukaisuutta 12 ehdokasta ohjaus geenit tunnistaa de Jonge

et al.

[7] on kaikkein toistuvasti ilmaissut geenien kokoelma microarray kokeiluja. Tämä geeni lista koostuu 10 ribosomaalisen proteiinin koodaavan geenien sekä

SRP14

ja

OAZ1

(taulukko 2). Käyttämällä edellä lähestymistapa, huomasimme, että ehdokkaat tunnistaa microarray tiedot osoittivat vaihtelua samanlaisia ​​kuin standardin taloudenhoito geenit, joiden mediaani CV sama 48,5 tai 51,6% ja mediaani MFC eli 8,3 tai 44,5, vuonna Leucégène tai yhdistettynä TCGA data asetetaan, vastaavasti. Parhaiten yhteen geeni listalta oli Signal Recognition Particle 14 kDa (

SRP14

). Huomattavaa on, että vaikka nämä geenit esitetään samanlainen vaihtelu Leucégène datajoukon verrattuna yleisesti käytetty ohjaus geenejä, he osoittautuvat hieman vähemmän muuttuja yhdistettyyn TCGA keräämiseen. Oli kuitenkin vielä huomattavia vaihtelevuutta sisällä TCGA data, joka osoitti% CV-arvot jopa 82,0 varten

RPS16

, ja MFC-arvot jopa 1208,3 varten

RPL9

.

valinta paremman valvonnan geenien Leucégène RNA-seq data

jotta voitaisiin tunnistaa valvonta paranee geenien kanssa parhaiten yhteen ilmaisun, loimme cut-off for% CV ja MFC, jotka olivat alhaisemmat kuin saadut arvot suurin osa käytetään yleisesti ohjaus geenejä. Sisällä Leucégène tietokokonaisuus, analysoimme koko transcriptome on 21892 geenien ja valitaan ne, jotka oli% CV on alle 25 ja MFC alle 5, kahden eri valikoimia ilmaisun: tarkoittaa RPKM suurempi tai pienempi kuin 100 (mutta suurempi kuin 25). Nämä geenit sitten paremmuusjärjestykseen pienimmästä suurimpaan% CV (taulukko 3). Käyttämällä näitä kriteerejä, tunnistimme 20 ehdokasta ohjaus geenien keskiarvolla RPKM pitoisuudeltaan yli 100, ja 99 ehdokasta ohjaus geenien keskiarvolla RPKM tasoilla alle 100 (taulukko 3 sisältää 20 parasta geenit; täydellinen luettelo on saatavilla taulukossa S2). Täydellinen luettelo 119 geenien kuvauksineen on saatavilla taulukossa S4. Näistä valitsimme 15 geenit validointi perustuu niiden korkea sijoitusta Leucégène tiedot, sekä ottaa suhteellisen vakaa ilmentyminen eri TCGA aineistoja (taulukko S3). Hiljattain tunnistettu ehdokas ohjaus geenit ovat:

HNRNPK, PCBP2, SLC25A3, GNB1, HNRNPL, SRP14

(RPKM 100); ja

PSMD6, PSMA1, PSMF1, VPS4A, SF3B2, EIF4H, ZNF207, UBE2I

(RPKM 100). EIF4H oli hieman korkeampi ilmentyminen eri TCGA aineistoja, ja sisältyy näin ollen paneelin geenien korkeamman ilme myöhempää analyysejä.

toiminnallinen ryhmittely ehdokas ohjaus geenien

arvioitiin toiminnallinen luokitus meidän koko lista 119 geenien tunnistettu päässä Leucégène tietojoukko käyttäen DAVID algoritmia [16], [17] (taulukko S5). Mielenkiintoista, merkittävä osa näistä erittäin tasainen geenien tuli kaksi keskeiset toiminnalliset luokat: Silmukointi /käsittely, jonka rikastusaste pisteet 5,92 (ex.

SF3B2

); ja proteasomin /ubikitiinipromoottori ligaasiaktiivisuus, jonka rikastusaste pisteet 5,76 (ex.

PSMA1

).

Validation valvonnan uusien geenien muilla RNA-seq syöpä aineistoja

ilmaisu johdonmukaisuus 15 ehdokkaan ohjaus geenejä tutkittiin edelleen 8 eri tietojen keräämisessä TCGA, jotka edustavat 6 eri syöpätyyppejä ja normaali kudosnäytteet, sekä normaaleissa napanuoraverestä saatuja tietoja Leucégène (taulukko S1). 15 ehdokas ohjaus geenien osoittautunut hyvin johdonmukaisesti ilmentyy kaikissa 4 aineistoja normaaleissa kudoksissa, joista kukin jolloin saatiin CV pienempi kuin tai yhtä suuri kuin 25%, ja MFC vähemmän kuin tai yhtä suuri kuin 10 (taulukko S3). Huomattavaa on, että ehdokas geenit osoittivat eniten yhdenmukaisuus 17 CD34 + johto verinäytteitä (rikastunut normaali kanta- ja progenitorisolujen), jossa jokainen tuotti CV: pienempi tai yhtä suuri kuin 15%, ja MFC alle 2. Sisällä kasvain aineistoja, me havaittu enemmän vaihtelua, ja korkeimmat CV oli 42%

SLC25A3

munuais- syöpä, ja ylin MFC ollessa 24

SF3B2

rintasyövässä. Kuitenkin suurin osa kandidaattigeeneihin näytteillä pienempi vaihtelu kaikki tietokokonaisuuksien verrattuna standardin taloudenhoito geenejä. Määritimme pisteet kullekin kandidaattigeenifragmenttikloonien lukumäärän perusteella tietokokonaisuuksien analysoitu (10 yhteensä), jossa CV ja MFC-arvoja noudatetaan alkuperäistä valintaperusteet (CV 25%, MFC 5). Geenit sitten luokiteltu tähän pisteytysjärjestelmä. Olemme myös laskea ilmaisua vaihtelevuutta ehdokas valvonnan geenit käyttäen yhdistettyä TCGA datajoukon (kuvio 1 ja taulukko 4). Kuten standardin ohjaus geenit, emme tarkkailla enemmän vaihtelua verrattiin yksittäisiin aineistoja, monimuotoisuutta ilmentävää kudoksen nimikkeet. Kuitenkin kaikki 15 kandidaattigeenien näytetään yhdenmukaisuus, joka oli suurempi kuin suurin osa käytetään yleisesti ohjaus geenejä. CV-arvot olivat kaikki pienempi kuin

TBP

kuitenkin

UBE2I

ja

SF3B2

tuotti CV-arvot hieman suurempi kuin

ABL1

. Vain

SF3B2

antoi MFC suurempi kuin

ABL1

(taulukko 4). Suurin osa kandidaattigeeneihin oli CV arvot alin 5

th quantile ja loput alitti 25

th quantile, toisin kuin standardi valvontaa geenejä, joista HPRT1 ja GAPDH olivat itse asiassa vaihtelevampi kuin puolet geenit läsnä samanlainen ekspressiotasot (kuva 1).

Mean ilmaisu edustaa keskimääräistä kaikkien RPKM arvot tietylle geeni poikki yhdistetyn TCGA datajoukon (1933 näytettä). Variaatiokerroin yhtä suuri keskihajonta jaettuna keskimääräisellä RPKM. Jokainen piste edustaa yhtä geeniä: pieni harmaa pisteitä on koko transcriptome; tumman ja vaalean vihreä laatikot edustavat uusia ohjaus geenien ilmentymistä suurempi tai pienempi kuin 100 RPKM, vastaavasti; punainen laatikot ovat merkitty standardin ohjaus geenejä. Kaareva siniset viivat edustavat 5

th, 25

th, 50

th ja 75

th quantiles of variaatiokertoimen tietyn ekspressiotason (mistä tummin ja vaalein) laskemalla Windows 2000 sijoittui geenit keskitetty tietyn keskiarvon RPKM arvo.

Kaiken kaikkiaan 15 vastikään valitun ohjaus geenit näyttää suuremman yhdenmukaisuuden geenien ilmentyminen verrattuna yleisesti käytetty valvontaa geenejä, määritettynä RNA -seq. Korkeimmat geenejä, määritettynä joilla on alhainen variaatiokerroin (CV) ja enintään kertaluokkamuutos (MFC) arvot kaikkein aineistoja analysoidaan ovat: HNRNPL ja ZNF207, korkea ja keskisuurten ilme vaihtelee, tässä järjestyksessä.

QPCR validointi valvonnan uusien geenien

jotta voidaan arvioida tehokkuutta vasta havaituille ohjaus geenit kvantitatiivista RT-PCR (qRT-PCR) analyysi kehitimme määrityksiä varten ehdokkaita käyttämällä Universal Probe Library (Roche ) (Taulukko S6). Uusia määritykset suunniteltiin span intronirajoista, ja testattu optimaalisen tehokkuuden standardikäyrän analyysi.

SRP14

suljettiin pois koska ne eivät pysty suunnitella intronin ulottuu määritystä. qRT-PCR suoritettiin kullekin 14 uusien geenien, sekä 5-standardin ohjaus geenien (

GAPDH, ACTB, TBP, HPRT1, ABL1

), on cDNA paneelin 14 leukemia näytteiden (10 AML, 4 ALL) plus yksi CD34 + johto verinäyte (käyttäen yhtä suuria määriä RNA). Keskimääräinen ilmentyminen johdonmukaisuutta (M) kunkin geenin laskettiin käyttämällä GeNorm algoritmia [18] (kuvio 2). By qRT-PCR, kaikki 14 äskettäin tunnistettu ohjaus geenit oli pienempi M arvoja kuin standardin ohjaus geenejä, jossa vahvistetaan, että he olivat enemmän johdonmukaisesti ilmaistu leukemia näytteiden kanssa RNA-seq data, jossa

EIF4H

ja

PSMA1

on kaikkein johdonmukainen tässä kokeellisessa kunnossa.

Average ilmaisu johdonmukaisuus (M) laskettiin kanssa GeNorm algoritmilla [18], joka perustuu qRT-PCR osoitettuun ohjaus geeni paneelissa 14 leukemia näytteitä ja yksi johto verinäyte. Alempi M arvot liittyvät geenit jolla on osoitettu olevan johdonmukaisempia ekspressiotasot poikki käytettyjen näytteiden.

Vaikka on laajalti olettaa, että RNA-seq data korreloi hyvin qRT-PCR data, ei ole juurikaan näyttöä käytettävissä käsittelemään tätä aihetta. Siksi arvioitiin ilmaus

CD33

ja

FLT3

(tuloksia ei ole esitetty) samalla 15 leukemia ja johto verinäytteet, jotta voidaan osoittaa korrelaatio RPKM ja delta Ct (DCT) arvot tämän geenin. Nämä kaksi geeniä valittiin johtuen niiden tunnetun vaihtelevuuden ilmaisun leukemia. Delta Ct-arvot jokaiselle näytteelle laskettiin käyttäen joko standardia ohjaus geenin (

GAPDH

), tai vasta tunnistettu ohjaus geenin (

HNRNPL, EIF4H, PSMA1 tai SF3B2

). Spearmanin korrelaatio analyysi

CD33

ekspressiotietojen osoitti korkean korrelaation RPKM ja DCT (ρ = -0,9714–0,9893 varten

EIF4H

), paitsi silloin, kun

GAPDH

käytettiin ohjaus geeni (ρ = -0,775) (kuvio 3). Analyysi

FLT3

osoitti samanlaista korrelaatiota. Alempi korrelaatioastetta RPKM ja DCT käytettäessä

GAPDH

verrokkina geeni osoittaa, miten tärkeää asianmukaista valvontaa geenin valinta qRT-PCR kokeita.

DCT edustaa ero Ct-arvo ja

CD33

ja että osoitetun ohjaus geenin tietyn leukemiasolujen näytteestä mitattuna qRT-PCR: llä. RPKM on piirretty log-2 laajuuden ja edustaa Lukee Per kiloemästä kopiokokoluokan miljoonassa kartoitettu lukee saadaan jokaista leukemiasolujen näytteen RNA-seq. ρ edustaa Spearmanin korrelaatiokertoimen välillä RPKM ja DCT saatu osoitettua ohjaus geeni.

lähemmin käsitellä merkityksen asianmukaista valvontaa geenin valinta qRT-PCR-analyysi, laskimme suhteellisen kvantifioinnin ( RQ) arvoja jatkuvasti ilmaissut geeni (

EIF4H

), käyttäen joko

GAPDH

tai

HNRNPL

normalisoinnin (kuva 4). Kuten odotettua, RQ on

EIF4H

vaihtelivat hyvin vähän välillä leukemia näytteitä

HNRNPL

käytettiin kontrolli-geenin (CV = 14%, MFC = 1,6). Kuitenkin RQ-arvot samoista näytteistä lasketaan käyttämällä

GAPDH

vaihteli niin paljon kuin 10,7-kertaiseksi, ja RQ-arvot vaihtelevat 0,22-2,29 (CV = 88%). Normalisoinnin

GAPDH

johti jopa 5,3 kertainen ero

EIF4H

ilmaisu yksittäisissä näytteissä, verrattuna

HNRNPL

normalisointi. Nämä havainnot korostavat tärkeää käyttää johdonmukaista valvontaa geenejä tunnistettu tässä tutkimuksessa qRT-PCR-analyysi, ja edelleen vahvistaa vastikään tunnistettu valvontaa geenejä.

RQ edustaa suhteellista kvantifiointia

EIF4H

määritetty by qRT-PCR laskettuna ddCt menetelmää joko

GAPDH

tai

HNRNPL

kontrollina geenin suhteen CD34 + napanuoraverestä (CB) näyte. X-akseli osoittaa leukeemisten näytteen tunnus. CV (ilmaistuna prosentteina) osoittaa variaatiokerroin ja yhtä suuri keskihajonta jaettuna keskimääräisellä RQ CD33 lasketaan osoitetun valvonta-geenin. MFC (keskimääräinen kertainen muutos) edustaa suurinta jaettuna pienin RQ-arvo.

Keskustelu

Evaluation of geenin ilmentymisen kvantitatiivinen RT-PCR (qRT-PCR) perustuu normalisoinnin kanssa endogeeninen kontrolli-geenin, mikä johtaa suhteellisen kvantifioinnin kiinnostuksen kohteena olevan geenin. Useimmat tutkijat käyttävät vain yksi valvontakeskus geeni, joiden valinta perustuu usein pelkästään yleissopimuksesta [3], [6]. Ohjaus geenit yleisimmin käytetty alun perin valittu niiden suuren ekspressiotasot kaikissa kudoksissa eikä niiden alhainen vaihtelu eri kudoksissa [6]. Kuitenkin lukuisat tutkimukset ovat osoittaneet, että nämä geenit voivat vaihdella huomattavasti [1] – [5], mikä herättää epäilyjä tarkkuuteen suhteellisen kvantifioinnin arvoista.

Vaikka monet tutkimukset ovat tehty yritetty määrittää parempia menetelmiä normalisoituminen geenien ilmentyminen [6], [18] – [20], useimmat tutkijat silti valita käyttää ddCt menetelmää yhdellä tai kahdella ohjaus geenejä, ilman asianmukaista validointi näiden tarkastusten. On ollut suhteellisen vähän tutkimuksia, jotka pyrittiin tunnistamaan uusia valvontaa geenejä, joiden ilmentyminen tasot ovat johdonmukaisempia kuin yleisessä käytössä, kuten on esitetty tässä. Pari tutkimuksia, jotka on tehty tämän yhteisen tavoitteen vedonnut microarray data meta-analyysi [7], [8], kun taas tutkimuksessamme käytetään seuraavan sukupolven sekvensointi tietoja. Molemmat tutkimukset tunnistettu pääasiassa ribosomaalinen proteiini (

HE

) koodaus geenit, kun taas meidän analyysi ei paljastanut mitään geenejä tämän perheen. Itse asiassa osoitamme tässä, että erityinen RP geenit kaavailema de Jonge

et al.

[7] ovat samanlaisia ​​kuin standardin ohjaus geenien suhteen niiden vaihtelevuus geenien ilmentymisessä, määritettynä RNA- seq.

HE

geenit edustavat pisimmälle ilmaistuna ryhmä geenejä (noin 50% top 100 eniten ilmaistuna geenejä RNA-seq data analysoidaan, tuloksia ei ole esitetty). Siksi yksi mahdollinen selitys välistä ristiriitaa analyysien microarray vs. RNA-seq data voisi olla, että kyllästymistä fluoresenssin signaalin mikrosiruissa on johtanut väärän vaikutelman johdonmukaisuutta. Vaikka RPKM laskemista lyhyt geenien (esimerkiksi

HE

geenit), saattavat olla alttiimpia korkeampia teknisiä vaihtelua kuin pitkä geenejä, korkeilla ekspressiotasot tämä vaikutus on pieni, ja CV hallitsee biologinen vaihtelu. Itse asiassa, CV-arvot

RP

geenien yhdistettyyn TCGA aineisto osoitti oikeudenmukaisen leviämisen kaikilla ekspressiotasoja (tuloksia ei ole esitetty), mikä tarkoittaa, että ei ole olemassa bias RP geenien RNA-seq tietoja.

RNA-seq analyysi on monia etuja verrattuna mikrosiruja analysointiin maailmanlaajuisen geenin ilmentymisen. Selkeimmin koska RNA-seq lukee ovat digitaalisia pikemminkin kuin analoginen, on hyvin alhainen tausta signaali, ja käytännössä ole ylärajaa havaitsemiseen, tuloksena on paljon suurempi dynaaminen alue [9] – [13], [21]. Tutkimukset ovat paljastaneet suurempi tekninen toistettavuus RNA-seq yli mikrosirut [9], [10], ja että RNA-seq ekspressiotasot vastaavat paremmin qRT-PCR tiedot, riippumatta sekvensointialustamme käytetty [21]. Microarray data on altis virheille johtuvat hybridisaatio esineitä, kylläisyyttä fluoresoivan signaalin, ja vaatii monimutkaisia ​​normalisointi [10] – [12]. RNA-seq kiertää näitä kysymyksiä; kuitenkin muita mahdollisia virheitä esiintyy, kuten geeni pituus bias, harha sekvensointi GC rikkailla alueilla, teknisten kysymysten kirjastossa valmisteluun tai virheitä read kartoitus [10], [12]. RNA-seq ei myöskään rajoitu etukäteen tietoa transcriptome tutkitaan, tunnistamisen mahdollistavat uusien selostukset ja SNP.

Tässä tunnistamme yhteensä 119 geenejä, joiden ilmentyminen on yhtenäisempi kuin yleisesti käytetty valvonta geenien poikki paneeli 55 leukemian näytteitä, määritettynä RNA-seq. Toiminnallinen ryhmään nämä DAVID paljasti kaksi pääasiallista rikastamiseen klusterit: liittyvien geenien proteasomista /ubikitiinipromoottori hajoamisreitit (esim.

PSMA1, PSMF1, UBE2I

), ja geenit osallistuvat Silmukointi ja käsittely (esim.

SF3B2

,

SRSF9

). Sen lisäksi, että nämä funktionaaliset klustereita, löydettiin 12 osallistuvien geenien transkription ja 7 mukana translation (esim.

EIF4H

). Merkittävä ryhmä geenejä tunnistaa (n = 8) ovat heterogeeninen ydin- ribonukleoproteiineja (esim.

HNRNPL, HNRNPK

), joista osa on myös mukana edellä soluprosesseihin. On huomioitava, että tutkimus Popovici

et al.

[8] myös yksilöidään kaksi

hnRNP

geenit, yksi proteasomin alayksikkögeeni,

Ubiquitin B

ja

C

ja

EIF4H

olevan erittäin tasainen ilmaisua kymmenessä rintasyöpä microarray aineistoja. Yhdenmukaiset kanssa tutkimukset de Jonge ja Popovici, myös tunnistettu

SRP14

hyvänä ohjaus geeni. Vaikka

SRP14

oli vahva ehdokas, emme voineet suunnitella intronipohjaista kattavat qRT-PCR-määritys sille, ja sen vuoksi ei sisälly meidän validointi kokeita.

Niistä 119 geenit valitaan leukemiasta RNA-seq data, 14 valittiin perustuu niiden pysyvyyteen muilla RNA-seq aineistoja (TCGA) tehtävän hyväksynnän qRT-PCR. Tämä oli välttämätöntä selittää mahdollisille harhat luontaista RNA-seq menettely, kuten valinta poly-A + RNA, cDNA pirstoutuminen ja kirjasto valmistelu sekä mahdollisten puolueellisista bioinformatically [12]. Olemme kuitenkin vahvistanut, että kaikki 14 geenit testattu osoittautunut johdonmukaisesti by qRT-PCR valikoima 14 leukemia näytteistä kuin tavallinen kontrolli geenejä. Lisäksi olemme osoittaneet, että RPKM saadut arvot RNA-seq korreloivat hyvin DCT saadut arvot qRT-PCR: llä, ja että tämä korrelaatio riippuu ohjaus-geeni, jota käytetään DCT laskennassa. Olemme myös osoittavat selvästi vaikutusta asianmukaista valvontaa geenin valinta qRT-PCR kokeissa koska laskeminen suhteellisen kvantifioinnin arvot (RQ) on

EIF4H

(erittäin tasainen geenin RNA-kohdat) vaihteli merkittävästi, kun

GAPDH

käytettiin toisin kuin uusi ohjaus,

HNRNPL

.

kvantitatiivinen RT-PCR käytetään yhä enemmän diagnostiikkaan ja sairauksien seurantaa varten, kuten arviointi minimaalinen jäljellä tauti (MRD) leukemia. Ottaen huomioon erittäin herkkä luonne määrityksissä, se on äärimmäisen tärkeää käyttää mahdollisimman ohjaus geenistä normalisointia. Ableson (

ABL1

) on aiemmin osoitettu olevan parhaiten yhteen ohjaus geenin testattiin MRD havaitsemiseksi [22]. Kuitenkin ohjaus geenit tunnistettu täällä koko osoittautui yhtenäisempi kuin

ABL1

sekä RNA-seq ja qRT-PCR leukemian näytteitä, mikä tekee niistä ihanteellisia ehdokkaita käytettäväksi MRD.

Vaikka ohjaus geenit esitetään tässä alun perin valittu johtuen niiden johdonmukaisuutta leukemia näytteitä, olemme valinneet ne, jotka olivat myös suhteellisen yhdenmukaisia ​​muiden syövän tyyppejä sekä niihin liittyviä normaaleja näytteitä, mikä saattaa laajentaa niiden käyttökelpoisuus yleisen ohjaus geenien useimpien ihmisen kudoksissa. Perustuu validointitutkimukset, odotamme, että uusi valvonta outperform standardin ohjaus geenien monenlaisia ​​näytteille. Kuitenkin muiden syöpätyyppien, parempi ohjaus geenit voivat olla olemassa, jotka voidaan määrittää käyttäen samaa lähestymistapaa käytetään tässä. On tärkeää, että tutkijat vahvistaa nämä uudet tarkastukset ennen niiden käyttöä monipuolisempaa kudosten tyyppejä.

Olisi mielenkiintoista edelleen arvioimiseksi, vastaavatko uuden valvonnan geenejä hiiren tai muun malliorganismeja. Tähän mennessä on vähemmän julkisesti saatavilla RNA-seq tietoja ei-ihmisen solutyypeistä. Vaikka ryhmät kuten The Encyclopedia of DNA Elements (KOODAAMISEEN) konsortion tarjoavat helpon pääsyn runsaasti NGS tietojen monien hiiren solutyyppejä edustettuina [23], useimmat RNA-seq kokeissa on vain 2-3 rinnakkaisten toisin kuin suuri määrä ihmisen käytettyjen näytteiden Cancer Genome Atlas (TCGA) aineistoja. Kuten NGS tekniikka tulee laajemmin saataville, se voi pian olla mahdollista arvioida yhdenmukaisuuden näiden valvonnan geenien muista organismeista.

Yhteenvetona olemme käyttäneet RNA-seq tietojen tunnistamiseksi 14 uutta ohjaus geenien johdonmukainen ilmaisun eri syöpätyyppeihin. Nämä geenit, mukaan lukien

HNRNPL

,

EIF4H

ja

PSMA1

, todensi qRT-PCR käytettäväksi valvontaa geenejä leukemia.

tukeminen Information

Taulukko S1.

RNA-seq aineistoja analysoitiin tässä tutkimuksessa. Leucégène, RNA-seq tuotetut tiedot yhteistyönä Leukemia Cell Bank of Quebec ja genomisen Core Facility Institute for Research in Immunology and Cancer (IRIC); TCGA, The Cancer Genome Atlas Data Portal (https://cancergenome.nih.gov/).

Doi: 10,1371 /journal.pone.0072884.s001

(XLSX) B Taulukko S2.

Vastaa