高通量测序(NGS)数据分析中的质控.pdf

上传人:tbuqq 文档编号:5158346 上传时间:2020-02-09 格式:PDF 页数:16 大小:4.90MB
返回 下载 相关 举报
高通量测序(NGS)数据分析中的质控.pdf_第1页
第1页 / 共16页
高通量测序(NGS)数据分析中的质控.pdf_第2页
第2页 / 共16页
高通量测序(NGS)数据分析中的质控.pdf_第3页
第3页 / 共16页
高通量测序(NGS)数据分析中的质控.pdf_第4页
第4页 / 共16页
高通量测序(NGS)数据分析中的质控.pdf_第5页
第5页 / 共16页
点击查看更多>>
资源描述

《高通量测序(NGS)数据分析中的质控.pdf》由会员分享,可在线阅读,更多相关《高通量测序(NGS)数据分析中的质控.pdf(16页珍藏版)》请在三一文库上搜索。

1、高通量测序错误总结 一、生信分析部分 1) Q20/Q30 碱基质量分数与错误率是衡量测序质量的重要指标,质量值越高代表碱基被测错的 概率越小。Q30 代表碱基的正确判别率是99.9% ,错误率为0.1% 。同时我们也可以 理解为1000 个碱基里有1 个碱基是错误的。Q20 代表该位点碱基的正确判别率是99% , 错误率为1% 。对于整个数据来说,我们可以认为100 个碱基里可能有一个是错误的, 在碱基质量模块报告的坐标图中,背景颜色沿y- 轴将坐标图分为3 个区:最上面的绿 色是碱基质量很好的区,Q 值在 30 以上。中间的橘色是碱基质量在一些分析中可以接 受的区, Q 值在20-30 之

2、间。最下面红色的是碱基质量很差的区。在一些生信分析中, 比如以检查差异表达为目的的RNA-seq 分析,一般要求碱基质量在Q 在 Q20 以上就 可以了。但以检查变异为目的的数据分析中,一般要求碱基质量要在Q30 以上。 一般来说,测序质量分数的分布有两个特点: 1.测序质量分数会随着测序循环的进行而降低。 2.有时每条序列前几个碱基的位置测序错误率较高,质量值相对较低。 在图中这个例子里,左边的数据碱基质量很好,而右边的数据碱基质量就比较差,需要 做剪切(trimming) ,根据生信分析的目的不同,要将质量低于Q20或者低于Q30 的碱基剪切掉。 2)序列的平均质量 这个是碱基序列平均质量

3、报告图。横坐标为序列平均碱基质量值,纵坐标代表序列 数量。 通过序列的平均质量报告,我们可以查看是否存在整条序列所有的碱基质量都普 遍过低的情况。一般来说,当绝大部分碱基序列的平均质量值的峰值大于30 ,可以判 断序列质量较好。如这里左边的图,我们可以判断样品里没有显著数量的低质量序列。 但如果曲线如右边的图所示,在质量较低的坐标位置出现另外一个或者多个峰,说明测 序数据中有一部分序列质量较差,需要过滤掉。 3) GC 含量分布 这个是GC 含量分布报告图。GC 含量分布检查是检测每一条序列的GC 含量。将 样品序列的GC 含量和理论的GC 含量分布图进行比较,用来检测样品数据是否有污染 等问

4、题。理论上,GC 含量大致是正态分布,正态分布曲线的峰值对应基因组的GC 含 量。 如果样品的GC 含量分布图不是正态分布,如右图出现两个或者多个峰值,表明测 序数据里可能有其他来源的DNA序列污染,或者有接头序列的二聚体污染。这种情况 下,需要进一步确认这些污染序列的来源,然后将污染清除。 4)序列碱基含量 碱基含量模块是统计在序列中的每一个位置,四种不同碱基占总碱基数的比例。它 的目的是检测有无AT、GC 分离的现象,而这种现象可能是测序或建库的系统误差所带 来的,并且会影响后续的生信分析。理论上,在随机的DNA 文库中,G 和 C 含量以及 A 和 T 含量在每个测序循环上应分别相等,而

5、且整个测序过程稳定不变。所以碱基含量 的四条线应该是基本平行的水平线(图A)。而现实中,由于建库PCR 扩增时PCR 引 物的最初几个碱基不能很好地和模板DNA 结合,常常会导致测序结果序列开始的大约 前 10 个碱基位置,碱基含量有较大的波动。这种波动存属于技术误差(图B)。如果在 整个测序过程中,四条碱基含量线都出现波动,可能是样品库里有过多的接头序列的二 聚体(图C,D )。在建库过程中,如果加入的接头序列过量,两个接头序列可能会连在 一起,中间没有要测序的插入序列,形成接头序列二聚体。这些二聚体可以利用adapter trimmer 软件去除。 5)过量出现的序列 过量序列模块是查看数

6、据是否有污染的另一种方法。如果某个序列的数量占全部序列的 3.% 以上, FASTQC 就定义该序列为over-represented 。这些over-represented 序 列通常 标示着污染序列的存在。这种污染如果是建库测序中的接头序列,fastqc 可以检 测并标示出可能的来源(possible source )。但如果污染是由于其他来源的DNA ,比 如其他生物的DNA , FASTQC 就没法判断污染序列的来源。这就需要生信分析人员利 用其他方法找出污染源。比如将大量出现的序列和NCBI 的 DNA 数据库进行blast ,看 看污染序列是否来自其他物种。 6)过量出现的Kmer

7、 检查是否有接头序列,还可以查看k-mer 含量。如果有些k-mer 过量出现,很有可能 有序列污染。过量出现的k-mer 可能会有三种情况:序列端,序列中间,或者序 列 端。 端过量出现的k-mer 是建库PCR 扩增时PCR 引物无法和DNA 模板 很好地结合导致的,是技术误差。出现在中间的k-mer 比较少见,可能是接头序列拼 接到测序序列中间导致的。3- 端出现过量k-mer 往往标示着接头序列的污染。 7)接头序列含量 对接头序列污染的查看还有一个更直观的模块,就是接头序列含量。这里的两个例子中, 左图没有显著的接头序列污染,右图的接头序列污染就比较显著。 8)去除duplicati

8、on序列 重复序列是怎么来的呢?在全基因组或全外显子组测序的建库过程中,需要进行多轮 的 PCR 扩增。由于扩增引物和不同模板结合力的差异,有些地方的序列扩增产物大于1 。 这些重复序列的存在会造成等位基因频率的定义以及基因型识别不准确。去除重复序列 的原理是将所有比对到完全相同位置的序列对减少至一对。一般用picardtools软件里 的 Markduplcate功能去除重复序列。 9)碱基质量分数重新校正 对原始比对结果的另一个质量控制是对碱基的质量分数进行校正。为什么要对碱基质量 进行校正呢?这是因为由于各种系统误差,测序仪报告的碱基质量不精确,比实际质量 分数偏高或者偏低。系统误差和随

9、机误差不同,不像随机误差,它其实是一种error 。 这可能来自于测序反应中的物理化学原因,也可能是测序仪本身存在的缺陷造成。碱基 质量分数校正的原理是:利用机器学习的方法建立误差模型,根据建立的模型对碱基分 数进行调整。调整后更精确的碱基质量分数能够提高后续变异识别的准确率,减少假阳 性和假阴性的变异识别。碱基质量的校正一般使用GATK的 recalibration功能。需要 说明的一点是:碱基质量分数校正不能纠正碱基。也就是说,我们无法通过这个方法确 定一个低质量的A 是否应该为T。但可以告诉变异识别软件,它可以在多大程度上信任 这个碱基A 是正确的。 二、实验分析部分 测序错误主要有三大

10、类,分别来自样品制备、文库制备,以及测序和成像。参考文献:The role of replicates for error mitigation in next-generationsequencing 1)来源于样品制备的测序错误 4.用户错误;例如, 贴错标签。虽然这是个低级错误,但肯定不会没犯过。在芯片分析中, 贴错标签和样品搞混可都是真事,有文献可查。 5.DNA 或 RNA 的降解;例如,组织自溶,福尔马林固定石蜡包埋(FFPE )组织制备过程中 的核酸降解和交联(甲醛固定样品会随机产生C-T 转化,导致肺癌T790M 假阳性增多) 。 6.异源序列的污染;例如,那些支原体和异种移植

11、的宿主。 7.DNA 起始量低。早在2005 年人们就发现,在PCR 过程中,DNA 起始量低的模板会以序 列依赖的方式产生虚假的突变,主要是从G 转变为A。 2)来源于文库制备的测序错误 1. 用户错误;例如,一个样品的DNA 残留到下一个,之前反应的污染。 2. PCR 扩增错误。这个同上面第4 点。 3. 引物偏向;例如,结合偏向,甲基化偏向,错配导致的偏向,非特异性结合和引物二聚 体的形成,发夹结构和干扰环,熔解温度太高或太低引入的偏向。 4. 短捕获偏向,在高通量RNA 测序的poly(A) 富集过程中引入。 5. 独家突变;例如,那些由重复区域或独家变异的错配而引入的突变。 6.

12、机器故障;例如,PCR 循环温度不正确。 7. 嵌合读取。 8. 条形码和/或接头错误;例如,接头污染,缺乏条形码多样性和不兼容的条形码。 3)来源于测序和成像的测序错误 1. 用户错误;例如,流动槽过载引起的簇crosstalk 。 2. 移相;例如,不完整的延伸以及多个核苷酸而不是单个核苷酸的添加。 3. “ Dead 荧”光基团,受损的核苷酸以及重叠信号。 4. 序列背景;例如,富含GC,同源和低复杂度的区域,及均聚物。 5. 机器故障;例如,激光器、硬盘、软件和流体系统出故障。 6. 链的偏向。 三、小知识 8. 为什么碱基质量在序列的5 -端要差一些? 答:这是由NGS 的测序特点造

13、成的。NGS 使用的是pyrosequencing (sequencing by synthesis) 的方法。在这个方法里,用来合成的4 个碱基的混合物里A ,C, T ,G 四个 碱基分别带有绿色,蓝色,红色和黑色的荧光标记。而且每个碱基上面都有一个blocker cap,使得每轮反应只能有一个碱基被加入到每个分子中。然后把没有加入分子的游离 碱基全部洗去后,对每个分子进行荧光检测来确定新加入的碱基是什么。在下一轮开始 之前,这个blocker cap 要去被掉才可以加入下一个碱基。如果某个序列的blocker cap 没有能有效地去除,在下一个反应中就没有新的碱基加入,那这个序列的荧光和

14、其他的 序列是不一样的,这样总体的荧光强度就被消弱,碱基识别的可信度就被降低。这种错 误发生的概率很低,但随着测序长度的增加,这种错误的总数就越来越多,对荧光的影 响就越来越大,测序的错误率就越来越大。 9. 什么是接头序列?为什么会有接头序列污染?为什么要清除接头序列? 答:在构建高通量测序的DNA 文库时,需要在待测的DNA 片段两头分别连一段人工 合成的DNA 序列。这两段人工合成的序列被称为接头序列。接头序列里一般包含三个 重要组成部分:区分样品的barcode 序列, PCR primer 序列和测序引物结合的序列。在 一般情况下,待测的插入序列在5 -接头序列下游,5 -段的接头序

15、列不会出现在测序结 果序列里。 但当插入测序列过短时,测序反应会超过待测序列而测到3 -端的接头序列, 从而造成接头序列的污染。当 reads 中有接头序列,会导致比对错误和非比对的序列书 面增加。所以要清楚接头序列。 10. 测序深度不均一性是测序建库技术操作的问题,还是每个人的个体化差异导致不均一 的现象? 答:不均一的原因个体DNA 和测序应该都有,看不同的情况。比如我们曾经分析过一 个 WES, 在一个本应该检测到变异的基因,我们无论如何检测不到。可视化发现该区域 内没有reads 。而查看这段基因序列,发现是100% 的 G。而对测序仪来说,如果G 含 量超过80% ,就很难成功测序

16、。而如果个体某段DNA 含有比较多的SNP ,捕获探针就 无法很好和DNA 杂交,而不能有效的捕获。 11.测序是否越深越好? NGS 属于“深度测序 ” ,可以 1 次并行对几十万甚至上百万条DNA 分子进行序列 测定,从而实现每个位点被覆盖几十次甚至上百次。通过计算测序得到的碱基总量与测 序区域大小的比值,可以获得测序的平均深度,是评价测序质量的重要指标之一。测序 深度的增加使得目标区域覆盖的读长增多,获得区域的序列信息更为精确。然而,测序 深度的增加意味着测序成本的提高。因此,在测序之前需对数据精确度和成本进行综合 考虑,根据临床应用需求选择合理的测序深度。测序深度的选择主要基于以下4

17、个方面 的考虑: 首先,常规的测序项目采用普遍被接受或推荐的测序深度。正常组织全基因组测序 建议的测序深度为10X 30X 。有研究表明,30X 的测序深度可以覆盖80% 的全基因 组信息,基本满足常规的全基因组测序需求。正常组织全外显子测序的测序深度为 100X 200X 。转录组测序虽不以深度来衡量,但对测序读长数有明确的要求,一般为 百万数量级。常规的染色质免疫共沉淀测序则需要100X 左右。这些测序深度都经过多 方验证,基本能满足不同测序目的的数据需求。 其次,特殊目的的测序项目可通过检索文献数据库,选择与相关研究类似的测序深 度,如在开展循环肿瘤DNA ( circulating t

18、umor DNA , ctDNA )检测时,可参考 CAPP-Seq 方法中的测序深度(10 000X 以上),以保证可以覆盖低频率的ctDNA 突 变信息。开展高深度的肿瘤基因组测序,可选择60X 100X 的测序深度。 再次,根据已有的测序项目进行深度优化,如根据已知现有Panel 检测项目靶向区 域各碱基的深度分布情况,90% 以上的碱基覆盖深度0.2 (均值归一化结果),要实 现平均测序深度在10X 以上的深度测序,其实际测序深度则要达到50X ( 10/0.2=50 ) , 类似的策略可参阅illumina 技术手册(?) 。这种优化策略对于新检测项目的研发有重 要的帮助。 最后,根

19、据测序目的选择测序深度。例如我们开展的遗传乳腺癌高危人群筛查项目, 采用靶向捕获测序检测血液样本中的胚系突变,由于胚系突变频率理论值为0% 、50% 和 100% ,此时采取较低的深度(200X )就可获得该突变信息。但在肿瘤体细胞的突 变检测中,由于肿瘤组织样本中肿瘤细胞的异质性和样本纯度等原因,可能存在低频率 的体细胞突变(5%、 1% ,甚至更低),为了获得这些突变信息,我们在肿瘤用药指导 检测项目中采取深度测序,保证1 000X 以上的测序数据。 值得强调的是,测序深度的增加往往意味着建库阶段PCR 扩增次数的增加,会导 致重复读长的增多,这些冗余数据不仅增加了数据处理的计算量,同时会

20、对变异检测产 生干扰。总之,测序深度不是随意指定的,在检测项目的建立过程中,必须根据项目需 求选取合适的测序深度。同时,在开展的检测项目中,必须对测序数据进行质量评估, 判断其是否达到预期的测序深度,深度不够则必须补测,若差异太大,则必须重新测序。 12.靶向测序是否真的完全覆盖靶向区域? 靶向测序是通过捕获或扩增的手段抓取基因组特定区域的片段进行NGS ,这个特 定区域既可以是单个或多个基因,也可以是全外显子组甚至全基因组。必须注意的是, 由于现有的测序技术很难捕获高GC 区域、短重复片段等基因组区域,全外显子组测序 和全基因组测序并不能完全覆盖全外显子组或全基因组区域,最好的全基因组测序覆

21、盖 度可达97% 。 Illumina 公司的外显子组捕获技术(TruSeq Exome )可实现99.45% 的 RefSeq 、98.83% 的一致性编码序列(consensus coding sequence ,CCDS )、99.68% 的 Ensembl 、99.68% 的 GENCODE v19 的覆盖度。此外,不同的全基因组或外显子组 捕获体系,如NimbleGen 、Agilent 、Illumina TruSeq 和 Illumina Nextera 的捕获效 率/ 覆盖度也存在差异。 在测序过程中,由于试剂差异、人员操作、仪器维护等因素,实际的捕获效率和覆 盖度也会与期望值

22、存在偏差,可能会捕获到非目标区域序列,也可能漏捕目标区域序列。 非目标区域序列对于靶向测序没有意义,而脱靶序列会导致测序信息缺失。因此,对于 任何检测项目,每一次测序必须给出靶向区域的覆盖度统计,这是衡量测序质量的重要 指标之一。当覆盖度过低时,则需补测数据或对样本重测。 值得强调的是,靶向区域内碱基覆盖深度的分布并不是均匀的,在靶向区域的5 端和 3 端,其测序深度较低,甚至只有1 个或几个读长覆盖,这种低深度的序列信息 不能提供可靠的信息用于后续分析。因此,在实际操作中,评估测序的覆盖度往往结合 测序深度,如靶向区域内10X 以上的覆盖率。 13.不要忽视重复读长带来的数据损失 测序深度和

23、覆盖度是大家比较关注和容易接受的质控指标,但测序数据中的重复率 (即重复读长在所有读长中的比例)常被忽视。重复读长出现的类型有2 种: 1 种是文 库构建前PCR 扩增的原因导致的完全一样的读长;另1 种是比对到参考基因组上同一 位置不同的读长,该现象可能是由测序错误、比对错误、等位基因等原因导致的,即使 读长序列不一致,但也被认为是重复读长。第1 种重复读长去除比较简单,可以根据序 列是否一致来判断。常用的数据质控软件FastQC 就是根据该原理来估计数据中的重复 率。第2 种重复读长来源复杂,是否去除难以判断,如同一基因不同拷贝的片段,其中 1 个拷贝发生突变,其他拷贝无突变,此时去掉重复

24、读长则会丢掉该变异信息。目前, 在 broad 研究所推荐的流程(GATK Best Practice )中,建议去除重复读长,否则获 得的突变频率可能会存在偏移,见下图。非真实的突变频率会对肿瘤异质性、克隆演化 等研究数据产生重要影响。 去除重复读长导致的突变频率偏倚 在实际数据分析中,Samtools、 PICARD等软件常用来统计数据的重复率和去除 重复读长。一般情况下,靶向捕获测序的重复率在20% 以下,如果低于10% ,说明数 据质量较好;若重复率过高(达40% 或 60% ),去除重复读长后位点的实际测序深度 会大大减少,过低的测序深度难以保证突变位点的准确信息。在我们的测序实践中

25、,扩 增子测序的平均重复率要高于捕获测序的重复率:扩增子测序的重复率通常为20% 50% ,而捕获测序的平均重复率为10% 20% 。因此,不仅要关注有效数据的测序深 度,还需关注数据中的重复读长比例,以真实地评估样本中的靶向区域是否被有效覆盖。 14.测序数据质量和数量并重 在测序过程中,测序仪会给每个碱基赋予1 个质量值,代表这个碱基测序的准确性。 若碱基质量值为20 ,则表明该碱基有1% 的可能性是错误的;若碱基质量值为30 ,则 表明碱基有0.1% 的可能性是错误的。碱基质量值与错误率的关系如下。 碱基质量值与错误率的关系 注: Q=-log10P ; Q 为碱基质量值;P 为错误率;

26、1-P 为准确度 如果碱基质量值较低,对应碱基测错的概率会很高,此时若该位点 发 生 了突变,则 难以判断该突变是真实发生的,还是测序错误。因此,统计数据中高质量碱基的比例是 衡量测序数据质量的又一个重要指 标。Ion Proton 测序仪要求的下机数据中,碱基质 量值在20 以上的碱基比例为80% ; Illumina HiSeq 系列测序仪的标准是碱基质量值在 30 以上的比例要达到75% 。 另外,一些未测出的碱基以N 表示。若读长中未知碱基太多,则读长包含的有效 信息减少。在数据分析前,该读长必须去掉,否则会对后续分析造成影响。同时,文库 构建时添加的接头序列也会出现在测序的原始数据中

27、。这些接头序列不是目标区域和样 本的真实序列,也必须去除掉,否则会对真实的数据造成干扰,影响后续的分析结果。 15. raw cluster 密度 正常 raw cluster 密度: 2030 万 /GA tile ;200-350 万 /Hiseq tile ; cluster 制备时,控制文库浓度,达到适当的raw cluster :密度过低-产量低;密 度过高 -质量差 样品差异:200bp 小片段能够容忍的密度较高,800bp 片段以及RNA 样品、 特殊 样品,应适当减低密度 通过默认质量筛选标准比率( PF) 用 read1 前 25cycle 的信噪比进行筛选;正常PF 比例: DNA 80% , RNA 大于 等于 70% ; raw cluster 密度越高,PF 比例越低;当raw cluster 密度超高时,图像分 析识别出的raw cluster 数量小于真实值,此时PF 比例会低于正常;

展开阅读全文
相关资源
猜你喜欢
相关搜索

当前位置:首页 > 其他


经营许可证编号:宁ICP备18001539号-1