转录组测序结题报告.pdf

上传人:苏美尔 文档编号:9055787 上传时间:2021-01-31 格式:PDF 页数:11 大小:1.06MB
返回 下载 相关 举报
转录组测序结题报告.pdf_第1页
第1页 / 共11页
转录组测序结题报告.pdf_第2页
第2页 / 共11页
转录组测序结题报告.pdf_第3页
第3页 / 共11页
转录组测序结题报告.pdf_第4页
第4页 / 共11页
转录组测序结题报告.pdf_第5页
第5页 / 共11页
点击查看更多>>
资源描述

《转录组测序结题报告.pdf》由会员分享,可在线阅读,更多相关《转录组测序结题报告.pdf(11页珍藏版)》请在三一文库上搜索。

1、 转录组测序结题报告转录组测序结题报告 1mRNA 纯化:纯化: 抽提得到的总 RNA 首先利用 10U 的 DNaseI(Ambion,美国)在 37消 化 1 小时;然后利用 Micropoly(A)PuristTM mRNA purification kit(Ambion,美 国) , 进行 mRNA 纯化: 把 RNA 稀释到 250l 的体积, 按照 Kit 的操作步骤 (Cat.No: 1919) 进行; 最后得到的 mRNA 用 100l 预热的 THE 缓冲液洗脱, 利用 NanoDrop 进行定量。 2cDNA 合成:合成: cDNA 合成是在 Ng 等 2005 年发表的方

2、法基础上改进而成 (文献 1, 图 1) 。 第一链 cDNA 合成利用 GsuI-oligo dT作为反转录引物,10g 的 mRNA 作为模板, 用1000 单位的Superscript II reverse transcriptase (Invitrogen, 美国)在 42作用 1 小时 完成;随后利用NaIO4(Sigma,美国)氧化mRNA的 5帽子结构,并连接生物素;通 过Dynal M280磁珠(Invitrogen,美国)筛选连接了生物素的mRNA/cDNA,并通过碱 裂解释放第一链cDNA;然后通过DNA ligase(TaKaRa,日本)在第一链cDNA的 5 末端加上接

3、头,然后通过Ex Taq polymerase (TaKaRa,日本)合成第二链cDNA。最后通 过GsuI酶切去除polyA和 5端接头。 图 1. 全长 cDNA 合成示意图 3cDNA 测序:测序: 合成的 cDNA 利用超声仪 (Fisher) 打断到 300-500bp 的范围, 利用 Ampure beads (Agencourt, 美国) 进行纯化。 随后纯化的cDNA利用TruSeqTM DNA XXmple Prep Kit Set A (illumina, 美国)制备文库, 并利用 TruSeq PE Cluster Kit (illumina, 美国)进行扩增。最后在 i

4、llumina 机器上进行测序反应。 测序得到的数据统计见表 1. 表 1. Solexa 测序统计 样品 对照 1 2 Reads 数目(对) 5,500,000 10,254,848 11,160,428 Clean data 5,442,815 (98.96%) 10,160,130 (99.08%) 10,998,951 (98.55%) 平均长度 100 100 100 5EST 拼装:拼装: 利用 trinity 进行拼装。共得到 45,308 个 EST cluster(contigs)。具体拼装结果 见表 2 和图 2。 表 2. 拼装统计 样品 XX Contig 数目 45

5、,308 Contig 平均长度 698 Contig 长度范围 201-16,169 图 2. Contigs 长度分布(横坐标为基因长度分布,纵坐标为基因数量分布) 6数据分析:数据分析: 6.1 基因预测:基因预测:采用 EMBOSS 工具包(参考文献 2)中的GetORF对拼装得到的 contigs 进行基因预测,从不同 contigs 中找到蛋白编码序列。 6.2 基因注释:基因注释:将预测得到的蛋白编码序列与 GenBank 的 NR、GO、KEGG、 KOG 等数据库利用 blastp 进行比对,条件为 E value3000 contig length 6.3 GO 分析:分析

6、: GO 分析利用 GoPipe (参考文献 3) 进行, 预测蛋白首先与 Swiss-Prot 和 TrEMBL 数据库进行比对,条件为 blastp,E value1e-5,然后比对结果利用 GoPipe 程序, 根据 gene2go, 得到预测蛋白的 GO 信息。 共有 4,823 个预测蛋白, 匹配 28,168 项 GO terms,如图 3 所示。 详细结果见 annotation.xls 中“GO” sheet 栏。 4042 3801 3049 1148 1020 9272 51 1272 0 500 1000 1500 2000 2500 3000 3500 4000 450

7、0 cellular_component 3659 3044 12521177 939 738 578 454 296 270 259189 174 164 162132 108 85 755246 27171021 0 500 1000 1500 2000 2500 3000 3500 4000 molecular_function 图 3. GO 分布 6.4 代谢通路构建:代谢通路构建:利用 KEGG 数据库(参考文献 3) ,将预测蛋白与 KEGG 数 据库进行比对,条件为双向 blast,E value 1e-3;得到预测蛋白的 KO number, 再根据 KO number,获得

8、预测蛋白参与的代谢通路信息。结果共有 2,706 个蛋白 获得了 KO number,它们参与的代谢通路如如图 4 所示。 详细结果见 annotation.xls 中“KEGG pathway ”sheet 栏。 3715 3487 2009 1606 995 815780 637 517477 426 370 11484 766443 299543 0 500 1000 1500 2000 2500 3000 3500 4000 biological_process 图 4. 编码蛋白所参与的代谢通路类别 6.5 表达丰度分析:表达丰度分析:首先去除低值序列得到 clean reads(图

9、 5),然后 mapping 到拼接的 contig 上(图 6,图 7 显示 mapping 的结果),统计每个 conig 中分别 来自 2 个样品的 reads 数目, 接着转换成 RPKM (参考文献 4) , 最后利用 DEGseq 程序包中的 MARS (MA-plot-based method with Random XXmpling model)模型 (参考文献 5) , 计算每个 contig 代表的基因在 2 个样品中的表达丰度差异, FDR 值小于 0.001 的即被认定为具有显著性差异。 详细结果见 annotation.xls 中“DGE”sheet 栏或”expre

10、ss.xlsx”。 0100 200 300 400 Carbohydrate Metabolism Lipid Metabolism Amino Acid Metabolism Glycan Biosynthesis and Metabolism Metabolism of Terpenoids and Polyketides Xenobiotics Biodegradation and Metabolism Transcription Folding, Sorting and Degradation RNA family Signal Transduction Transport and

11、Catabolism Cell Growth and Death Immune System Circulatory System Excretory System Sensory System Environmental Adaptation Immune Diseases Cardiovascular Diseases Infectious Diseases Metabolism Genetic Information Processing Environ mental Informa tion Processi ng Cellular ProcessesOrganismal System

12、sHuman Diseases 图 5. 序列质量分析(clean reads 为不含 N 且质量大于 5 的碱基数至少占全长的一半) 95.26% 4.74% 1 clean reads other reads 94.69% 5.31% 2 clean reads other reads 0 5000 10000 15000 20000 25000 05000000100000001500000020000000 1 图 6. 测序饱和度分析(横坐标为 reads number,纵坐标为 gene number) 0 5000 10000 15000 20000 25000 05000000

13、1000000015000000 2 0.10% 0.79% 3.96% 10.82% 14.62% 10.55% 10.64% 11.84% 13.29% 23.38% 1 0-10%(122) 10%-20%(938) 20%-30%(4676) 30%-40%(12765) 40%-50%(17255) 50%-60%(12451) 60%-70%(12559) 70%-80%(13972) 80%-90%(15679) 90%-100%(27585) 图 7.基因覆盖率统计 样本间差异统计详见 annotation.xls 中“DGE”sheet 栏:由左至右分别是基因 名称、基因长度

14、、样品 A 统计 reads 数、样品 A RPKM 值、样品 B 统计 reads 数、 样品 B RPKM 值、 样品 A 相对样品 B 表达差异倍数 (取 Log 值) 、 q-value、 显著性判断。 表 3. 样品间显著性差差异基因统计 样品 上调基因数(p0.001) 下调基因数(p0.001) 1/对照 2,961 1,005 2/对照 2,257 36 2/1 3,352 2,541 图 8.上下调基因变化(横坐标为 gene,纵坐标为统计值) 6.6 富集分析:富集分析:对于每一个代谢通路和 GO 类别,我们利用超几何分布统计,计 0.07% 1.30% 5.51% 13.

15、25% 15.95% 10.55% 10.28% 10.94% 12.36% 19.78% 2 0-10%(86) 10%-20%(1530) 20%-30%(6474) 30%-40%(15571) 40%-50%(18736) 50%-60%(12398) 60%-70%(12078) 70%-80%(12847) 80%-90%(14517) 90%-100%(23241) 算具有显著性表达差异的基因相对全部基因的显著富集情况。 结果在 2 个代谢通 路和 7 个 GO terms 中差异基因具有明显的富集(FDR0.01) 详细结果见 chayi-GO.xlsx 或者 chayi-KE

16、GG.xlsx 表 4. GO term 富集分析结果 代谢通路 P value 1/对照 Carbohydrate Metabolism 0.003961 2/对照 Translation 1.02E-10 Cell Communication 9.12E-06 Signaling Molecules and Interaction 0.002699 Cardiovascular Diseases 0.002838 Immune System 0.002838 2/1 Translation 0.000185 Energy Metabolism 0.000377 表 5.代谢通路富集分析结果

17、 GO Term P value 1/对照 cell 0.028283 metabolism 0.028283 2/对照 structural molecule activity 2.88E-34 biosynthesis 2.66E-11 cell 0.000863 motor activity 0.031182 2/1 structural molecule activity 1.87E-33 biosynthesis 1.30E-28 cell 0.000868 electron transport 0.01974 metabolism 0.031333 6.7 客户定制分析:客户定制分

18、析: 6.7.1 调控途径构建于分析调控途径构建于分析 Carotenoid biosynthesis 代谢途径相关基因的富集整理。 表 6 Carotenoid biosynthesis 代谢途径整理 6.7.2 SSR 分子标记筛选分子标记筛选 详细结果见详细结果见 SSR.xlsx 6.7.3 SNP 鉴定与筛选鉴定与筛选 详细结果见详细结果见 SNP.xlsx 7. FTP 文件说明文件说明 所有分析结果都在 FTP 的对应文件夹中, 具体的解释详见“RNA-Seq 相关说 明”。 8参考文献:参考文献: 1. Rice, P., I. Longden, and A. Bleasby,

19、 EMBOSS: the European Molecular Biology Open Software Suite. Trends Genet, 2000. 16(6): p. 276-7. 2. Chen, Z.-Z.X., C.-H. Zhu, S., GoPipe: streamlined gene ontology annotation for batch anonymous sequences with statistics. PROGRESS IN BIOCHEMISTRY AND BIOPHYSICS, 2005. 32(2): p. 187-190. 3. KanehiXX

20、, M., et al., KEGG for representation and analysis of molecular networks involving diseases and drugs. Nucleic Acids Res. 38(Database issue): p. D355-60. 4. Mortazavi, A., et al., Mapping and quantifying mammalian transcriptomes by RNA-Seq. Nat Methods, 2008. 5(7): p. 621-8. 5. Wang, L., et al., DEGseq: an R package for identifying differentially expressed genes from RNA-seq data. Bioinformatics. 26(1): p. 136-8.

展开阅读全文
相关资源
猜你喜欢
相关搜索

当前位置:首页 > 科普知识


经营许可证编号:宁ICP备18001539号-1