PLoS ONE: Yhdistetty Kohdennettu DNA Sequencing in ei-pienisoluinen keuhkosyöpä (NSCLC) käyttäminen UNCseq ja NGScopy, ja RNA Sequencing käyttäminen UNCqeR havaitsemiseksi Genetic Aberrations vuonna NSCLC

tiivistelmä

Viime FDA hyväksyntä MiSeqDx alusta tarjoaa ainutlaatuisen mahdollisuuden kehittää kohdennettuja seuraavan sukupolven sekvensointi (NGS) paneelit ihmisen sairauksia, kuten syöpää. Olemme kehittäneet skaalautuva, kohdennettu paneeli perustuvaa määritystä kutsutaan UNCseq, johon liittyy NGS paneeli yli 200 syöpään liittyvien geenien ja standardoituun alavirran bioinformatiikan putki havaitsemiseksi yhden nukleotidin vaihtelut (SNV) sekä pieniä lisäyksiä ja poistoja (Indel ). Lisäksi olemme kehittäneet uuden algoritmin,

NGScopy

suunniteltu näytteiden harvaa sekvensointi kattavuus havaita suuren mittakaavan kopioluvun vaihtelut (CNV), samankaltainen kuin ihmisen SNP Array 6.0 sekä pienimuotoista geeninsisäiset CNV . Kaiken kaikkiaan olemme sovellettu tässä määrityksessä 100 snap-jäädytetty keuhkosyöpä yksilöiden puuttuu saman potilaan ituradan DNA (07-0120 kudos kohortti) ja validoitu tuloksemme vastaan ​​Sangerin sekvensoinnilla, SNP Array, ja meidän äskettäin julkaissut integroidun DNA-kohdat /RNA-seq määritys, UNCqeR, jossa RNA-seq samaa potilaan kasvain näytteet vahvistanut SNV havaita DNA-kohdat, jos RNA-seq kattavuus syvyys oli riittävä. Lisäksi olemme soveltaneet UNCseq määritys riippumattoman keuhkosyöpään kasvainkudoksen kokoelman käytettävissä saman potilaan ituradan DNA (11-1115 kudos kohortti) ja vahvisti mutaatioita käyttäen kokeita suoritettiin CLIA-sertifioitu laboratorio. Olemme päätellä, että UNCseq voi tunnistaa SNV, Indel, ja CNV kasvaimen yksilöiden puuttuu ituradan DNA kustannustehokkaalla tavalla.

Citation: Zhao X, Wang A Walter V Patel NM, Eberhard DA, Hayward MC , et ai. (2015) Yhdistetty Kohdennetut DNA Sequencing in ei-pienisoluinen keuhkosyöpä (NSCLC) käyttäminen UNCseq ja NGScopy, ja RNA Sequencing käyttäminen UNCqeR havaitsemiseksi Genetic Aberrations NSCLC. PLoS ONE 10 (6): e0129280. doi: 10,1371 /journal.pone.0129280

Academic Editor: Raffaele A. Calogero, University of Torino, Italia

vastaanotettu: 13 tammikuu 2015; Hyväksytty: 06 toukokuu 2015; Julkaistu: 15 kesäkuu 2015

Copyright: © 2015 Zhao et al. Tämä on avoin pääsy artikkeli jaettu ehdoilla Creative Commons Nimeä lisenssi, joka sallii rajoittamattoman käytön, jakelun ja lisääntymiselle millä tahansa välineellä edellyttäen, että alkuperäinen kirjoittaja ja lähde hyvitetään

Data Saatavuus: kaikki asiaankuuluvat tiedot kuuluvat paperin ja sen tukeminen Information tiedostoja.

Rahoitus: tukemana NCI Syöpä Clinical tutkija Team Leadership Award (SJM) ja University Cancer Research Fund.

Kilpailevat edut: Margaret L. katujen on neuvonantajana Illumina, Inc. Tämä ei muuta tekijöiden noudattaminen PLoS One politiikkaa jakaa tietoja ja materiaaleja.

Johdanto

käyttö seuraavan sukupolven sekvensointi (NGS) suurten mittakaavaisia ​​analyysi DNA-sekvenssin muutoksia ihmisen kudoksiin, mikä voi johtua etiopatologioissa taudin, on paitsi hyödyllinen perus- tieteentutkimusta, mutta on nyt vakiintunut laboratoriossa käytetty tekniikka kliinisessä lääketieteessä, erityisesti hoidosta, potilaiden kanssa etäinen metastaattinen (tarkistetaan [1]). Toteutus NGS vakiona laboratorio-arvo on seuraava looginen askel seuraavat FDA useiden ensimmäisen sukupolven sekvensointi-pohjainen kumppani diagnostisia testejä viime vuosikymmenen aikana, että tarkentaa käyttö kohdegeenin varianttien hallintaan erillisiä syöpään alatyyppejä. Mukaisesti FDA on MiSeqDx alustan marraskuussa 2013 kohdennettu paneeli sekvensointi (TPS) on seuraava askel kohti toteuttamiseksi edullinen, pienimuotoinen, NGS-pohjainen laboratoriodiagnostiikkaan [2].

FDA on geneerinen alusta NGS on kannustanut yksittäisille laboratorioille käsitellä luonnostaan ​​liittyviä haasteita tällaisten testien kehittämiseksi. Nämä haasteet liittyy veroasioita, kysymyksiä metodologian ja optimaalisen bioinformatiikan putkistoja, jotka tarjoavat järkevän kompromissin teknisyyden ja aikaa tehokkuutta. Koska eri laboratorioissa tällaisissa asioissa eri tavalla, levittäminen tietoa menetelmistä ja suoritusarvot tietyn NGS perustuva laboratorio määritys on keskustelun pohjana ja arvioinnin vahvuuksien ja heikkouksien tiedeyhteisö.

Tämän mukaisesti , yhä useammat raportit NGS-pohjainen laboratoriomenetelmiä analysoida kliininen kasvain näytteet eri laboratorioissa kliinisen päätöksenteon äskettäin julkaistu [1, 3-8]. At University of North Carolina at Chapel Hill (UNC-CH), kehitimme skaalautuva NGS määritys (UNCseq), johon TPS DNA saatu kasvain ja sovitettu ei-pahanlaatuisia yksilöitä varten geenin paneeli (ClinSeq) yli 200 syöpää siihen liittyvät geenit, jotka valittiin ja päivitetty neljännesvuosittain UNC komitea tiedonannon Genetic Research Results (CCGR). Lisäksi UNCseq kehittänyt standardoidun alavirran bioinformatiikan putki, joka on tällä hetkellä käytössä tilata uudistettuun testit raportointia kliinisesti ”käytännöllisiä” geneettisiä tapahtumia hoitavalle lääkärille alle Institutional Review Board (IRB) -hyväksytyt tutkimuksessa (kuvio 1). Tässä raportissa, testaamme kykymme menestyksekkäästi suorittaa Illumina HiSeq 2000 sekvensointi kun DNA: ta kasvain potilas jolta näyte keuhkosyöpää, erityisesti ei-pienisoluinen keuhkosyöpä (NSCLC) alatyyppi. Lisäksi kiteytämme kokemuksemme näytteen ottamisen, patologi-seulottu kasvain diagnoosin, DNA: n eristämiseksi, NGS, ja analyyttinen validointi perimäluokitukset. Lopuksi tarjoamme kokemuksemme soveltaa tätä NGS perustuva määritys raportoinnissa somaattisia mutaatioita osoitteesta ”reaalimaailman” näytteitä-molemmat snap-jäätynyt (SF) ja formaliinilla kiinnitetyt ja parafinoidut (FFPE) -For diagnostisiin tarkoituksiin validointi johtaa CLIA-sertifioitu laboratorio. Olemme vahvistaneet, että TPS: ssa hyvin selityksin keuhkosyöpä kohortti ei ole vain herkempi menetelmä kuin Sangerin sekvensoinnilla vuonna SNV havaitsemiseen, mutta myös tarkempia tunnistamaan geneettisen poikkeavuuksien tunnetuissa syöpään liittyvien geenien tärkeitä prognostisia ja hoidon vaikutuksia. Suorittamalla syvä sekvensoimalla cDNA valmistettiin RNA (RNA-seq) alaryhmässä näistä näytteistä myös vahvistaneet useat SNV havaita sekvensoimalla DNA (DNA-kohdat), riippuen kattavuus syvyys RNA-seq ja mutantti alleelin taajuus (MMM) DNA-kohdat. Koska vastaaviin normaaleihin DNA välttämättä ole aina käytettävissä, tarjoamme järjestelmällinen vertailu SNV kutsuvan algoritmien täsmäsi ituradan versus yhdistettiin normaali DNA, ja versus pelkkä kasvaimen genotyypitykseen osajoukko yksilöitä. Lopuksi esittelemme uuden algoritmin,

NGScopy

(https://www.bioconductor.org/packages/release/bioc/html/NGScopy.html), havaitsemiseksi genominlaajuisten CNV käyttäen TPS tiedot. Olemme päätellä, että NGS perustuva laboratorio määritys on herkkä, mutta yksityiskohtainen, kustannustehokas, vankka, ja standardoitu, ja helpottaa loppupään bioinformatiikan analysoitaviksi SNV, Indel ja CNV on aikaa tehokas ja kliinisesti impactful tavalla.

(EN) UNCseq hanke on aloite, johon lääkärit ja potilaat kiinnostuneita osallistumaan ei-terapeuttinen kliinisessä tutkimuksessa kautta toteutettiin Lineberger Kattava Cancer Center (IRB-hyväksytty protokolla 11-1115), sekä monitieteellinen joka liittyy kliininen ja tutkimuslaitoksella (onkologian, patologia, bioinformaatikkojen, ja molekyylibiologeja), jotka tuottavat, arvioida kriittisesti, ja keskustella NGS tietoa suhteessa potilaan kliinisestä historiasta ja katsaus aiemmin tunnistettu geneettisiä poikkeamia, mitkä ovat mahdollisesti kliinisesti käytännöllisiä ja kohdennettuja loppupään validointi käyttämällä validoituja menetelmiä on CLIA-sertifioitu laboratorio. (B) Kun suostumus 11-1115, kasvaimen kudokset ja ääreisverenkierron kerätään syöpäpotilailla. Hematoksyliinillä ja eosiinilla (H n = 100). Erillinen Potilaskohortti keuhkosyöpä, joka oli tullut tulenkestävä standardin systeemistä hoitoihin oli suostunut alle IRB ja Office of Human Ethics, UNC-CH hyväksytty protokolla 11-1115 (11-1115 kasvainkudoksen kohortti, n = 24). Kirjallinen suostumus aihe potilaista saatiin käyttöön näiden näytteiden tutkimukseen. 11-1115 protokolla mahdollistaa TPS SF tai arkistoituja FFPE kasvain kudosten ja samaa potilas ituradan DNA tunnistaa geneettinen aberraatioita prognoosi- tai terapeuttista merkitystä käyttäen UNCseq määritystä. Geneettiset poikkeamia, jotka tunnistetaan alle UNCseq määrityksen ja on potentiaalia kliinistä merkitystä saatetaan sitten validointi on CLIA-sertifioitu laboratorio ainoastaan ​​11-1115 kasvainkudoksen kohortti (kuvio 1). Lisäksi kasvaimen määrittämiseksi kunkin näytteen kummankin kohortteja arvioitiin perustuen rutiininomaisesti mikroskooppinen analyysi edustavia hematoksyliinillä ja eosiinilla (H S1 Taulukko]. Joukko genomin alueella tavoitteita, jotka kattavat kaikki eksonit kullekin geeni kehitetty perustuu Kalifornian yliopistossa Santa Cruz (UCSC) Tunnetut Gene tietokanta [10, 11]. Alueet kohdennetun eksonit kaapata kuuluisivat 250 emäsparia (bp) vierussekvenssejä vuonna introni alueilla kattavasti kohdennettuja geenejä. Nämä genomiset paikat luotiin perusta suunnittelussa 120 nukleotidin (nt) biotinyloitu talteenotto oligoja Agilent SureSelect kaapata käyttäen Agilent eArray portaalin (https://earray.chem.agilent.com/suredesign/). Kukin sarja kohdistettuja 3379 (ClinSeq v4), 3323 (ClinSeq v5), tai 5997 (ClinSeq V7) alueet kattavat 2231841 bp yhteensä 228 geenien (ClinSeq v4), 3451622-bp yhteensä 184 geenien (ClinSeq v5) ja 2820216-bp yhteensä 248 geenien (ClinSeq v7) (S1 taulukko). Capture viivakoodiasiakirjojen-ja-yhdistettiin tai unpooled kirjastojen käsittelemiä Agilent SureSelect pöytäkirjan.

ennen niiden toimittamista varten NGS, DNA kirjastot tehtiin kolmivaiheinen laadunvalvonta protokollaa. DNA: n konsentraatio mitattiin käyttäen Qubit 2,0 fluorometriä (Life Technologies, Grand Island, NY), DNA laatu arvioitiin käyttämällä Agilent 2100 Bioanalyzer korkea herkkyys DNA-kokeessa, ja DNA: n koko määritettiin Experion automatisoitu elektroforeesijärjestelmään (BioRad, Hercules, CA) . Normalisoitu molaarisuus kunkin kirjaston laskettiin sitten perustuen DNA ja keskittyminen. Kirjastot yhdistettiin sisällyttää 2-8 näytettä sekvensointi kaistaa. Jokainen allas laimennettiin 17:05, kuten per Illumina CBOT Cluster Generation askel. Klustereita synnytettiin sitten käyttämällä TruSeq SR Cluster Kit v.2 ja ladattiin HiSeq 2000 sekvensseri (Illumina Inc., San Diego, CA). Sekvensointi synteettisesti [12] tehtiin käyttämällä standardi single-indeksoitu kirjastoja joko yhden lukea (07-0120) tai pariksi lopussa (11-1115) virtauksen solujen 100 sykliä (ClinSeq 1 x 100-bp tai 2 x 100- ep, vastaavasti) ja indeksi luku (viivakoodi), joka koostuu 7 sykliä sekvensointi käyttäen Illumina TruSeq SBS v.3 kemiaa. S2 Taulukossa on yhteenveto keskeinen eroja näytteen käsittely ja sekvensointi välillä 07-0120 ja 11-1115 kasvainkudoksen ikäryhmät.

DNA NGS Data Analysis Pipeline

esikäsittely, Pre-suodatus, Tasaus, ja suodatus .

tietojen analysointi putki on esitetty kuviossa 1. Ei säie-bias pidettiin missään esikäsittelyä vaiheita. Raaka-sekvenssi lukee analysoitiin käyttämällä CASAVA v.1.8 paketti (Illumina) tuottaa viivakoodilla lukee ja ne ilmoitettiin FASTQ tiedostoja [13]. Tarvittaessa lukee alistettiin sitten laatu-suodatus ja adapteri-strippaus käyttämällä FASTX-Toolkit (https://hannonlab.cshl.edu/fastx_toolkit/index.html). Phred laatupisteet emästä soittamalla (CallQ) kunkin nukleotidin read oli sitten tutkittava, trimmata luettu päissä kun joukko jatkuvia nukleotideja keskimäärin-base CallQ ≤ 20 tai ≤ 99% tarkkuudella. Raaka sekvenssi lukee FASTQ tiedostot sitten tasataan Genome Reference Consortium ihmisen genomia, rakentaa 37 (GRCh37; https://www.ncbi.nlm.nih.gov/assembly/GCF_000001405.13/), käyttäen joko Burrows- Wheeler Aligner [14] (BWA 0.6.2) varten 07-0120 kohortin tai BWA-MEM (versio 0.7.4) ja 11-1115 kohortin. Lukee sitten lajitellaan ja indeksoidaan SAMtools (0.1.19-44428cd) [15]. Paikalliset Säätö ja pohjan laatu pisteet uudelleenkalibrointi suoritettiin käyttäen joko Genome Analysis Toolkit (GATK 2,6) ja GATK resurssien nippu (2,5) [16] 07-0120 kohortin tai RONK (0,46) [17] 11-1115 kohortissa. Oletusparametriasetuksilla käytettiin työkaluja edellä. Kartoitettu lukee olivat edelleen suodattaa kartoittamalla laatu ennen loppupään analyysiä. Suodatus suoritettiin asettamalla vähintään Phred laatupisteet luku- kartoitus (MapQ). Lukee alhainen kartoitus laatu (MapQ 5, eli 70% tarkkuudella) poistettiin. Mediaani ja arvioitu 95%: n luottamusväli (n. 95%: n luottamusväli) laskettiin on-kohde lukee kunkin kasvaimen kohortin ja kunkin ClinSeq kuvatekstin versio. Mediaani per-näyte mediaani RPKM (lukee alueittain kiloemästä kohden miljoonaa kohdistettuja lukee kartoitettiin) [18] käytettiin kuvaamaan keskimääräisen lukee alueittain.

Laadunvalvonta.

Syvyys, laajuus kattavuus, ja on-tavoitetasoa laskettiin määritelmien mukaan esitettyjen S1 teksti.

Variant Calling.

Koska takautuva näytteen keräämistä 07-0120 kasvainkudoksen kohortissa, DNA samasta potilaan normaalien kudosten (esim ääreisveren) ei ollut käytettävissä poimia ituradan DNA. Varten kontrolli-DNA, olemme sen sijaan sekvensoitiin ja yhdistetään DNA, joka uutettiin 8 normaalista kudoksesta (6 maksassa ja 2 kohdusta yhteensä 4 potilasta) samanlaisissa olosuhteissa ja hoitomenetelmiä soveltaa niihin DNA-kohdat tuumorin näytteitä. Geneettisiä variantteja kutsuttiin mukaan deepSNV [19]. SNV puhelut meidän määritys hiottiin edelleen käyttämällä etukäteen tietoa siitä erittäin kuratoitu luettelo 41 geenien kanssa 279 SNV ja 91 Indel kantoja, joita on käytetty, joita OncoMap järjestelmän (versio 4; asiantuntijan kuraattori lähde, jota me kutsumme ”konservatiivinen” lista ) [20] ja COSMIC-tietokannan (versio 66), jossa merkintä keuhkosyövässä vain. Me kutsumme COSMIC listan ”vähemmän konservatiivinen”, koska se koostuu 18722 geenien kanssa 250741 SNV ja 4949 Indel tehtävissä; 265 Näistä 18722 geeneistä, joissa ei ole genomista koordinaattitiedot varianttien jätettiin [9]. Huomattavaa on, että kaikki geenit ja SNV /Indel asennot OncoMap järjestelmän kaikki selityksin on ”vähemmän konservatiivinen” lista, ja siksi jälkimmäinen on myös nimitystä OncoMap plus COSMIC järjestelmä.

variantti kutsuvan on 07-0120 kasvain kohortin määrittelimme merkittäviä SNV suodattamalla kunkin mutaation puheluja käyttäen ”deepSNV” paketti Bonferronin jaksottaa

p

-arvo ≤ 0,001, MMM ≥ 0,005, mutantti alleeli lukea count ( MAC) kasvaimen ≥ 5, ja transformoidaan logaritmisesti (log

2) kerroinsuhde (OR) [21] MAC kunkin yksittäisen kasvaimen näytteen vastaan ​​altaan normaalin näytteen ≥ 4. Toisin sanoen kertoimet kutsuvan SNV kussakin yksittäisessä kasvaimen näytteen olivat ≥ 16 (eli 2

4) kertaa suurempi verrattuna yhdistettyä normaalia. Valitsimme tämän MAF kynnyksen, koska se oli ainakin kaksi kertaa suurempi kuin aiemmin raportoitu sekvensointi virhe on noin +0,001-+0,002 [22]. Mitä MAC kynnys, me mielivaltaisesti asettaa sen 5, joka on ankarampi kuin MAC 2, joka on aikaisemmin raportoitu [23]. Suodatettu SNVs olivat selityksin mukaan ANOVAR (14.7.2014). Parantaa luottamusta kutsuvan verraton kasvaimia, SNV hiottiin edelleen käyttäen ”konservatiivinen” lista [24] sekä ”vähemmän konservatiivinen” lista.

Perustuu geeni-viisasta aggregaatiota merkittävistä SNV tunnistettu edellä jokainen yksittäinen geeni sitten testattiin hypoteesia, että mutaatio nopeasti käyttöön kaikkialla geeni on sopusoinnussa taustalla mutaationopeus, jotta saadaan

p

-arvo käyttämällä tavanomaista binomitodennäköisyyden malli [25] säätämään mutaatio hinnat geenin pituus. Lopuksi SMG raportoitu käyttäen huomattavaa mutatoitujen geenien kaikkien testattujen geenien vääriä löytö määrä (FDR) ≤ 0,05. Indel kutsuttiin mukaan VarScan (2.3.6) kanssa oletusarvo.

Variant kutsuminen 11-1115 kasvain kudosnäytteiden suoritettiin päivitetyn version UNCseq putkilinjan (elokuu 2014). Tarkemmin sanottuna käytimme Strelka somaattisen variantti soittaja (2013) oletusasetuksilla [26] havaitsemiseksi sekä SNV ja Indel kanssa laatupisteet vähintään 30 molemmille, ANOVAR (versio 14.7.2014) käsinkirjoittaa havaittiin muunnelmia, ja SAMtools /BCFtools (versio 0.1.19-44428cd) normaaleille vapaa variantti puhelut. Perustaa ”nykyaikainen yhdistetyssä” normaali DNA tähän kasvainkudoksen kohortissa, ensin tuotti ”jätä-yksi-out” yhdistetty DNA koostuu kaikista sekvensoitiin lukee käytettävissä ituradan DNA 11-1115 kohortin ilman Hyväksytty ituradan DNA tietylle näytteen. Toisin sanoen, tietyn i: nnen kasvaimen näyte, yhdistetyt normaali koostui 23 normaalin näytteitä potilaista 1, 2, …, i-1, i + 1, …, n (n = 24). Toisessa vaiheessa, me alinäytteenotetaan koko lukee yhdistettiin normaali DNA vähentää laskennallisen ajan, ja tuotti vertailukelpoisia nykyajan kirjaston optimaalisen tilastollista analyysiä. S2 Taulukossa yhteenveto keskeiset erot bioinformatiikan analyysi välillä 07-0120 ja 11-1115 kasvainkudoksen ikäryhmät.

Detection of Kopioi numero Variations.

Laskimme kromosomi-tason kopioluvun vaihtelut (CNV ) on 07-0120 kasvainkudoksen kohortin käyttäen lukea syvyyttä. Koska luonnostaan ​​heterogeeninen, keskeytyy kattavuus genomiin TPS, käytimme ”rajoitus-käyttöön,” joustava ikkunointi algoritmia tasapuolisesti useita lukee kohti ikkunan koko genomin R /Bioconductor paketti

NGScopy

(1.0.0). Jotta havaitsemisen kopioluvun sekä kohdennettuja ja off-kohdealueilla genomin, joka on yleensä korkea ja matala kattavuus syvyys, vastaavasti, off-tavoite lukee ( ”tausta lukee ’) käytettiin lisäksi on-kohde. Kaksi määritellyt kriteerit niin joustava ikkuna. Ensinnäkin halutaan varmistaa edes varianssi sekä riittävä määrä lukee aukkoa kohden, luetun syvyys per ikkuna yhdistetyssä normaalissa kontrollinäytteen peräti 20x näytettä kohti. Toiseksi, sen minimaalinen ikkunan kokoa pidettiin alueella määräytyy kattavuuden ominaisuuksia, kuten genomialuetta korkean lukea tiheys, käyttö pienen ikkunan kokoa johtaa ”saha,” undersmoothened signaali. Tätä tutkimusta varten vähintään ikkunan kokoa käytettiin 20 kbp. Kirjasto koko normalisoitu lukee aukkoa kohden sekä yhdistettiin tavanomaista valvontaa ja kunkin kasvaimen näyte laskettiin laskea kasvain /normaali log

2 kopioiden suhteellinen määrä (CNR), kun suhteellinen kopioluku. Selittämään kopiomäärä neutraalisuuden me normalisoitui tietomme per kasvain näytteen keskitys mediaani suhteellisen kopiomääränä nollaan koko genomin. Suora visualisointi käytettiin arvioitaessa rakenteellisia vaihteluja genomin. Lopuksi, segmentointi suoritettiin heterogeeninen piilotettu Markovin malli, kutsutaan BioHMM [27], joka oli sovitettu NGS datan.

laskemiseksi geeni-tason CNV on 07-0120 kasvainkudoksessa kohortin käytimme syvyys geenin eksoni-erityisiä jaksotelluille lukee 1-emäsparin resoluutio. Arvioimme suhteellinen kopiomäärä, samoin kuin edellä, laskemalla log

2 suhde per-base lukea syvyys kasvain verrattuna yhdistettiin normaaliin säätelyyn.

Validation DNA NGS Data RNA-Sequencing .

Agilent strand-RNA kanssa talteenotto suoritettiin valmistelua. RNA-sekvensoinnilla (RNA-kohdat) koko-transcriptome analyysi osajoukko kasvaimen näytteitä 07-0120 kasvainkudoksessa kohortti suoritettiin Illumina GAII kuten aikaisemmin on kuvattu [28, 29]. Täydellinen 76-emäsparin, single-end lukee ensin kohdistettu ihmisen viite genomin (hg19) by MapSplice [30]. SNV kutsutaan DNA-seuraavissa sittemmin validoitu analyysi RNA-seq data käyttämällä kahta riippumatonta mutaatiota soittamalla algoritmit: Tällä SAMtools (mpileup komento) /BCFtools [15] ja meidän äskettäin julkaissut RNAseq-erityinen mutaatio soittamalla menetelmä, UNCeqR [31].

DNA Non-NGS määritykset.

07-0120 kasvainkudoksen kohortissa, olemme aikaisemmin suoritettu Sangerin sekvensoinnilla käyttäen DNA-analysaattori (ABI 3730xl, Applied Biosystems, Foster City, CA) mutaation havaitseminen valittujen eksonin

KRAS

geeni sekä valikoidut eksonit geenien

BRAF

,

CDKN2A

,

EGFR

,

STK11

, ja

TP53

. Lisäksi, näytteet 07-0120 kohortin tehtiin analyysi käyttäen Genome-Wide Human SNP Array 6,0 microarray (Affymetrix, Santa Clara, CA), joka ilmaisee CNV alaryhmässä meidän keuhkosyövän näytteitä [32]. SNP array analyysi CNV suoritettiin käyttäen avoimen lähdekoodin R paketti aroma.affymetrix versio 2.5.0 (https://cran.r-project.org/web/packages/aroma.affymetrix) ja DNACopy versio 1.30.0 (http: //www.bioconductor.org/packages/release/bioc/html/DNAcopy.html) tietojenkäsittely- ja CNV analyysiin, vastaavasti.

luottamusväli mediaani.

luottamusväli ( CI) mediaani laskettiin kuten aiemmin on kuvattu [33].

tulokset

ennusteeseen viittaavia ominaisuudet 07-0120 ja 11-1115 Potilasnäytteet

kasvain kudosten 100 ja 24 primaarisessa keuhkosyöpä sisällytettiin analyysi 07-0120 ja 11-1115 kasvainkudoksen ikäluokat, vastaavasti. Ennusteeseen viittaavia ominaisuuksia kunkin kohortin on esitetty taulukossa 1. Kohdennetut paneeli talteenoton avulla ClinSeq versiot 4 ja 5 tehtiin 64 ja 36 07-0120 SF näytteet, vastaavasti, ja ClinSeq versio 7 sovellettiin kaikkiin 24 kasvain näytteitä 11 -1115 kasvainkudoksessa kohortissa. Yhdistettiin normaali DNA oli käytettävissä analyysia 07-0120 kasvain kohortin taas Hyväksytty ituradan DNA käytettävissä 11-1115 kasvain kohortissa. S1 Taulukossa esitetään luettelo geenejä, joiden eksonien sekvensoitiin osana ClinSeq versioiden 4, 5, ja 7.

bioinformatiikan analyysi 07-0120 Potilasnäytteet

Saimme yhteensä 2100991292 lukee kaikki 64 näytettä, jotka sekvensoitiin käyttämällä ClinSeq version 4, ja 591549582 lukee kaikki 36 näytettä, jotka sekvensoitiin käyttämällä ClinSeq versiota 5. kaikki näytteet ovat läpäisseet laadunvalvonnan käyttäen FASTX-Toolkit. 93,96 ± 0,85%: lla näistä lukee oli yksiselitteisesti kuvata viitaten genomin MapQ ≥ 5, ts 1985916272 (94,5%) ja 551493714 (93,2%) ja ClinSeq 4 ja 5, vastaavasti. Mediaani määrä ainutlaatuisesti kartoitettu (mapQ ≥ 5) lukee näytettä kohden oli 18171425 (n. 95CI 16,442,697-27,015,601) ja 14350546 (n. 95CI, 13,786,985-15,363,758) näytteiden sekvensoitiin ClinSeq versiot 4 ja 5, vastaavasti. Pystyimme noutaa 71,6% (mediaani; n. 95CI, 70,9% -72,5%) ja 30,6% (mediaani; n. 95CI, 29,9-31,4%) on kohde-emäkset tavoitetasomme paneeli talteenotto strategia ClinSeq versio 4 ja 5, vastaavasti. Siirtyminen ClinSeq versiosta 4-5 liittyi useita muutoksia, joista ad hoc alukkeiden, jotka tutkijat, toisin kuin myyjä (Agilent), sekä uudet genomialuetta kohteisiin, joiden pyydystäminen tehokkuutta ja kykyä helposti järjestyksessä olivat kyseenalainen. Mediaani per näytteen mediaani RPKM oli 452 (n. 95CI, 448-458) ja 446 (n. 95CI, 440-454) näytteiden sekvensoitiin käyttämällä ClinSeq versiota 4 ja 5, vastaavasti. SNV /Indel analyysi rajoitettiin jaettua DNA-alueet ClinSeq versiot 4 ja 5, 1190667 emästä näytettä kohti, tai 168-geenit, vertailun joukossa näytteitä. Kopio numero analyysi, koko genomin katsottiin joko kohde-tai ei.

Yhteinen strategia voittaa luontaisen korkea virhemarginaali NGS välineitä ja varmistaa riittävä kattavuus molempien alleelien kunkin variantin site tai olemassaolo useiden kloonien on ihanteellisesti järjestyksessä yksittäisten genomien 20-30x kattavuuden syvyys [34]. Tällainen kattavuus syvyys riittää normaali kudos, geneettisesti homogeeninen syöpäkudoksessa, kuten syöpäsolun linjat, tai kasvain kudoksen minimaalisella strooman ”saastuminen,” mutta ei tuumorikudoksia kanssa eriasteisia solu- ja /tai molekyylien heterogeenisyys (ts alaklooneja vaihtelevia genotyyppi) (kuvio 1). Tuore tutkimus osoitti, että 30-kertainen kattavuus syvyys oli riittävä noin 90% herkkyys soittaa mutaatiot alleelin jakeet ≥ 0,2 [35]. Jälkimmäisessä tapauksessa vähintään 50x kattavuuden syvyys on yleisesti tapana kutsua yhden nukleotidin tai muita geneettisiä variantteja.

välisen optimaalisen tasapainon kustannusten ja kattavuuden syvyys meidän TPS strategian sekvensoimme 2 (n = 24 näytettä), 4 (n = 4), tai 8 näytettä (n = 72) kohden virtauskennoversiolle kaistaa. Kuten kuvassa 2, tavoite kokonaiskattavuus syvyys 50x saavutettiin, kun jopa 8 näytettä kaistaa kohti ladattiin. Keskimääräinen prosenttiosuudet on-kohde emäkset, joilla on vähintään 50-kertainen kattavuus syvyys 2, 4 ja 8 näytettä kaistaa kohti ovat 98%, 95%, 93%, tässä järjestyksessä; ja 97%, 92%, 86%: lla, peräti 100x syvyys. Olemme päätellä, että 8 näytettä kaistaa kohti riittävästi kustannus- ja aika-tehokas kattavuus (50x) alle meidän TPS strategiaan.

Näkyy kussakin tuumorinäytesylinterin on prosenttiosuus kohdennettujen kätkeä annettuina kattavuus syvyys (1x, 20x , 50x, 100x) ja sekvensoitiin eri kaista asetuksia HiSeq 2000 väline (2, 4 ja 8 DNA-kirjastojen kaistaa kohti, Lib /Ln).

vertailu SNV Calling Between NGS ja Sanger sekvensointi että 07-0120 Potilasnäytteet

Sen arvioimiseksi, onko NGS on vähintään yhtä herkkä kuin Sangerin sekvensoinnilla vuonna SNV vaativat tunnettujen mutaation kuormittajat, vertasimme tuloksia havaitsemiseksi

KRAS

hot-spot SNV kahden sekvensointi alustoilla. Valitsimme

KRAS

tässä tutkimuksessa, koska se kantaa kiistaton hotspot somaattisten SNV keuhkosyövän kodoneissa 12 ja 13, jotka on aiemmin määriteltyjen [36, 37]. Kuten kuvassa 3, paneelit A ja B, käyttämällä NGS putki, havaitsimme kaikki 8 hotspot SNV tunnistaa Sangerin sekvensoinnilla. Lisäksi 8 ylimääräisiä hotspot SNV ole tunnistettu Sangerin sekvensoinnin kutsuttiin myös meidän NGS putki. Kuten kuvassa 3, paneeli C, ei alhainen NGS kattavuus eikä pieni kasvain puhtaus oli erilainen välillä 8 sovitun ja 8 discrepant tapauksissa NGS ja Sangerin sekvensointia (

p

-arvo 0,1, kaksipuolinen Wilcoxonin testi). Verrattuna Sanger sekvensointia, NGS pystyi havaitsemaan

KRAS

Mutanttialleelit on huomattavasti alhaisemmat MAF (

p

-arvo = 0,0006, kaksipuolinen Wilcoxonin testi, kuvio 3, paneeli C). Mielenkiintoista, MMM 4 discrepant tapauksista (ID: 30, 65, 72, 60) ovat hieman alle 0,20, mikä tarkoittaa, että Sander sekvensointi on vähemmän herkkä havaitsemaan SNV kanssa MAF ≤ 0,20, mukaisesti aikaisempien raporttien [38]. MAF Muiden 4 discrepant tapauksissa (ID: 97,56,38,70) ovat lähellä 0,05 tai alle, mikä osoittaa NGS pystyi hyödyntämään SNV hyvin alhainen MAF.

(A) Sequencing kromatogrammit ( Finch TV jälki katsoja v1.4.0) saadut kaksi kasvainkudoksen esimerkkejä siitä konkordanssin (näyte 24) tai discordance (näyte 38) in

KRAS

SNV calling. (B) SNV käyvät hot-spot lokuksen

KRAS

kodonissa 12 ja 13 kaikille 16 kasvainten jommallakummalla kahdesta sekvensointi strategioita. Puhelut Sanger ja NGS ovat värillisiä oranssi ja sininen, vastaavasti. Puheluja molemmilla alustoilla väritetään kahtia oranssi ja puoli sininen. NGS kattavuus syvyys, puhtaus, ja MMM on myös esitetty. (C) Boxplots of MAF, kasvain puhtaus ja kattavuus syvyys välillä ristiriitainen ja yhdenmukaisten SNV puhelut näkyvät (

p

-arvo = 0,0006, kaksipuolinen Wilcoxonin testi).

arvioida herkkyys meidän NGS SNV kutsuvan algoritmi, keskityimme ensimmäisenä koodaus eksonia

KRAS (RefGene ID

:

NM_033360)

. Tämä 111 emäsparin DNA-alue (

CHR 12

:

25

,

398

,

208-25

,

398

,

318

) sisältää 6 emäsparin, jotka vastaavat näitä hotspot sivustoja kodoneissa 12 ja 13 (

CHR 12

:

25

,

398

,

280-25

,

398

,

285

). Lopuista 105 emäsparin, meillä on 52 ep tehtävissä variantteja selityksin by OncoMap plus COSMIC järjestelmää tai dbSNP, ja 53 emäsparin tehtävissä ilman variantteja selityksin joko OncoMap plus COSMIC järjestelmää tai dbSNP [39]. PCR, polymeraasiketjureaktio;

Vastaa