iTRAQ定量蛋白质组学结题报告1.pdf

上传人:yyf 文档编号:5033691 上传时间:2020-01-29 格式:PDF 页数:31 大小:2.43MB
返回 下载 相关 举报
iTRAQ定量蛋白质组学结题报告1.pdf_第1页
第1页 / 共31页
iTRAQ定量蛋白质组学结题报告1.pdf_第2页
第2页 / 共31页
iTRAQ定量蛋白质组学结题报告1.pdf_第3页
第3页 / 共31页
iTRAQ定量蛋白质组学结题报告1.pdf_第4页
第4页 / 共31页
iTRAQ定量蛋白质组学结题报告1.pdf_第5页
第5页 / 共31页
点击查看更多>>
资源描述

《iTRAQ定量蛋白质组学结题报告1.pdf》由会员分享,可在线阅读,更多相关《iTRAQ定量蛋白质组学结题报告1.pdf(31页珍藏版)》请在三一文库上搜索。

1、 蛋白蛋白 iTRAQ 定量分析定量分析 年月日年月日 目录目录 1 排版约定排版约定 1 2 iTRAQ 定量蛋白质工作流程定量蛋白质工作流程 . 2 2.1 实验流程 . 3 2.2 信息分析流程 . 4 2.3 iTRAQ 定量原理 5 3 标准生物信息分析标准生物信息分析 7 3.1 原始质谱数据 . 7 3.2 数据库的选择 . 7 3.3 Mascot 搜索 8 3.4 鉴定质量评估 . 8 3.5 重复性分析 . 10 3.6 蛋白质鉴定 . 11 3.7 蛋白质定量 . 15 3.8 GO 分析 17 3.9 COG 注释 . 19 3.10 Pathway 代谢通路注释 19

2、 3.11 差异蛋白的 GO 富集分析 . 20 3.12 差异蛋白的 Pathway 富集分析 . 20 4 高级信息分析高级信息分析 21 4.1 多样品间表达模式聚类 . 21 4.2 蛋白组与转录组关联分析 . 22 4.3 蛋白相互作用网络分析 . 24 5 文件下载文件下载 24 6 文件格式说明文件格式说明 25 6.1 蛋白鉴定及定量 . 25 6.2 GO 功能注释 26 6.3 COG 功能注释 . 26 6.4 Pathway 功能注释 27 6.5 差异蛋白的 GO 富集分析 . 27 6.6 Pathway 富集分析 28 7 联系我们联系我们 29 8 参考文献参考

3、文献 29 1 1 排版约定排版约定 本文档使用以下排版约定如表 1.1: 表表 1.1 排版符号约定排版符号约定 符号名称符号名称 符号说明符号说明 三号黑体字 一级标题 小三黑体字 二级标题 小四字体 三级标题 五号字体 正文 小五字体 图表注释 2 2 iTRAQ 定量蛋白质工作流程定量蛋白质工作流程 同重同位素相对与绝对定量(Isobaric tags for relative and absolute quantitation,iTRAQ) 技术是可以在一次实验中进行多达八个样品的蛋白质组定量技术, 该定量方法几乎可以对任 何蛋白样品进行定量分析, 具有高定量精度的特点, 目前已经越

4、来越广泛的应用于定量蛋白 质组学领域。 3 2.1 实验流程实验流程 图图 2.1 实验流程实验流程 该图显示iTRAQ定量蛋白质组学实验的基本流程。第一步,从样品中提取蛋白。第二步,对提取后的 蛋白样品进行还原烷基化处理,打开二硫键以便后续充分酶解蛋白。第三步,用GE公司的2D quant kit法 进行蛋白质的浓度测定。第四步,等体积进行SDS(十二烷基磺酸钠)电泳。第五步,酶解蛋白。第六步, 用iTRAQ试剂标记肽段。第七步,将标记后的肽段进行等量混合。第八步,对混合后的肽段使用强阳离子 4 交换色谱(Strong Cation Exchange Choematography,SCX)进

5、行预分离。第九步,进行液相串联质谱 (li quid chromatography coupled with tandem mass spectrometry,LCMS/MS)分析。 2.2 信息分析流程信息分析流程 图图 2.2 信息分析流程信息分析流程 该图显示 iTRAQ 定量蛋白质组学的基本信息分析流程。首先对于质谱下机的原始文件,进行峰识别, 得到峰列表。其次建立参考数据库,进行肽段及蛋白质的鉴定。最后比较各蛋白在各样品之间的相对含量 5 的关系,从而获得一些感兴趣的重要蛋白。也可以将转录组数据和蛋白组数据结合起来,进行蛋白组与转 录组的关联分析。 2.3 iTRAQ 定量原理定量原

6、理 iTRAQ定量蛋白质组技术自2004年在美国质谱年会第一次被提出以来, 已经成为一种越 来越广泛应用的定量蛋白质组技术。在2009年,有超过150篇的研究文章采用该技术,而且逐 年增加。 图图 2.3 iTRAQ 试剂结构试剂结构 iTRAQ 试剂由报告离子 (Report Group) , 平衡基团 (Balance Group) , 反应基团 (Peptide Reactive Group) 三部分构成,反应基团可以与肽段 N-端或赖氨酸侧链发生反应,从而可以标记任何肽段。 6 图图 2.4 iTRAQ 定量蛋白质组学原理定量蛋白质组学原理 该图显示了iTRAQ定量技术的基本原理及主要

7、步骤,iTRAQ定量方法可以在一次串联质谱实验中同时 比较8个样品中的蛋白的相对含量,主要步骤如图中所示,分别为蛋白提取、酶解、标记、混合、SCX预分 离、液相串联质谱分析。在一级质谱时,平衡基团可以确保无论用哪种报告离子标记肽段,都显示为相同 的质荷比值。在二级质谱时,平衡基团发生中性丢失,而报告离子的强度则可以反映肽段的相对丰度值。 图中最下方为一张MS/MS谱图,横坐标为子离子质荷比值,纵坐标为离子强度。8个彩色峰表示iTRAQ试 剂的8种报告离子,其高度分别代表了肽段的相对含量,用于后续定量。其余黑色峰为肽段碎裂后的子离子 峰,用于后续鉴定。 利用iTRAQ技术进行蛋白质组定量的优势主

8、要体现在:(1)由于试剂可以标记任何肽段, 包括翻译后修饰肽段,因此可以极大的提高蛋白鉴定的可信度和覆盖度。(2)由于可以对一 个蛋白的多个肽段进行定量,因此可以提高定量的可信度。(3)对于发现生物标记物,是一 种高通量的研究方法。(4)定量精度较高。(5)可以在一次实验中,进行多达8个样品的比较。 7 利用基于同一个参考样品的办法,可以进行多于8个样品的定量比较。 3 标准生物信息分析标准生物信息分析 3.1 原始质谱数据原始质谱数据 质谱文件需要转换成 mgf 格式后才能被使用,因此以 mgf 作为初始文件,mgf 主要包 含了二级质谱(MS/MS)谱图的信息,其基本格式如下: BEGIN

9、 IONS TITLE=Spectrum1 scans: 2, PEPMASS=588.84003 11629.05371 CHARGE=2+ RTINSECONDS=0 SCANS=2 115.55481 258.814 116.11040 496.234 136.94980 420.235 173.90498 377.256 180.86188 368.726 190.94720 352.431 END IONS 其中“BEGIN IONS”和“END IONS”是每一张谱的开始和结束位置。“TITLE”为该谱图的 编号信息。“PEPMASS”为母离子质荷比和强度值。“CHARGE”为母离

10、子所带电荷数。 “RTINSECONDS”为保留时间。“SCANS”为扫描编号。其余各行为肽段经碎裂后的子离子的 质荷比值和强度信息。 表表 3.1 谱图文件信息谱图文件信息 谱图文件大小谱图文件大小 谱图张数谱图张数 150M 68992 3.2 数据库的选择数据库的选择 数据库的选择是基于质谱数据的蛋白质鉴定策略中的重要一步, 最终鉴定到的蛋白质序 列都来源于被选择的数据库中。 目前使用到的数据库主要可以分为两类, 一类是NCBI来维护的, 另外一类是由EBI负责 维护。数据库建立的方法主要有以下几种: 8 1.NCBInr全库; 2.NCBInr分类库,包括动物全库、植物全库、微生物全库

11、、细菌全库等; 3.SwissProt/UniProt分类库,包括动物全库、植物全库、微生物全库、细菌库等; 4.NCBInr对应物种库,包括人、玉米、对虾、大肠杆菌等; 5.其他物种库,如柑橘克里曼丁蛋白库。 在选择数据库时,遵循如下原则,若为已经测序生物,直接选用该物种数据库,若为非 测序生物,则选择与被测样品最为相关的大类蛋白质组数据库。 本次使用数据库XXXX。 3.3 Mascot 搜索搜索 Mascot 是一个蛋白质鉴定软件, 曾被 Frost&Sullivan 研究机构评为生物质谱软件的黄金 标准。我们使用的软件版本为 Mascot 2.3.02。操作时需要将 mgf 文件提交至

12、 Mascot,选择 已经建立好的数据库,然后进行数据库搜索。 表表 3.2Mascot 搜索参数搜索参数 Item Value Type of search MS/MS Ion search Enzyme Trypsin Fragment Mass Tolerance 0.05 Da Mass Values Monoisotopic Variable modifications Gln-pyro-Glu (N-term Q),Oxidation (M), iTRAQ8plex (Y) Peptide Mass Tolerance 10 ppm Instrument type Default

13、Max Missed Cleavages 1 Fixed modifications Carbamidomethyl (C), iTRAQ8plex (N-term),iTRAQ8plex (K) Protein Mass Unrestricted Database IPI_human v3.76 (89378 sequences) 3.4 鉴定质量评估鉴定质量评估 肽段匹配误差肽段匹配误差 质谱仪器采用LTQ-Orbitrap-Velos,该仪器的优势在于具有很高的分辨能力和很高的质 量精确度。 可以广泛适用于小分子和大分子的分析。 尤其适合样品高度复杂的蛋白质组学研 究领域。 目前公认认为

14、,肽段母离子质量的精确测定可以显著减小假阳性鉴定结果的出现概率。 LTQ Orbitrap Velos质谱仪的一级质谱和二级质谱质量精确度都小于3ppm。但为了防止遗漏 9 鉴定结果, 因此基于数据库搜索策略的肽段匹配误差控制在10ppm以下。 图3.1显示了所有匹 配到的肽段的相对分子量的真实值与理论值之间的误差分布。 图图 3.1 谱图匹配质量误差分布谱图匹配质量误差分布 肽段可信度控制肽段可信度控制 对于搜索结果中的匹配到的肽段, 经过滤后让每个肽段的匹配得分大于其得分阈值, 以 此控制得到高可信度肽段。 图图 3.2 肽段得分分布图肽段得分分布图 该图显示肽段的得分分布情况。横坐标为肽

15、段的得分分布,纵坐标为匹配到的肽段数量。绿色斜线区 域中的为得分较低的不可信肽段。 10 3.5 重复性分析重复性分析 重复性分析仅针对有做重复的实验数据。 只有稳定的质谱实验过程才能得到稳定的结果, 因此对于有重复的质谱实验, 首先需要 对其进行重复性分析。 对于单次实验间的重复,采用Pearson相关系数来衡量其差异程度,Pearson相关系数越 接近于1表示重复性越好。 图图3.3 重复性分析重复性分析 图为单次实验间的重复性分析,图中的每个点代表一个肽段,横纵坐标分别为标记该肽段的两种报告 离子的强度。重复性越好,图中的点越靠近直线。 11 图图3.4 定量定量CV值分布值分布 对于两

16、次实验重复,我们用变异系数(Coefficient of Variation,CV)来衡量其重复性,当越小的CV 覆盖到越多的定量蛋白时,认为其重复性越好。本图横坐标为CV值,纵坐标为小于CV值的蛋白数量占整 个定量蛋白数量的百分比。如图所示,当CV小于0.2时,即可覆盖到90%的定量蛋白。 表表3.3 重复性分析数据重复性分析数据 蛋白定量值偏差 0.05 0.10 0.15 0.20 0.25 0.30 0.35 0.40 all 百分比(R2/R1) 0.51 0.75 0.87 0.93 0.95 0.97 0.98 0.98 1.00 蛋白定量值偏差 0.05 0.1 0.15 0.

17、2 0.25 0.3 0.35 0.4 all 蛋白数量(R2/R1) 338 493 572 612 630 639 645 648 660 3.6 蛋白质鉴定蛋白质鉴定 基本鉴定信息基本鉴定信息 图图3.5 鉴定基本信息统计鉴定基本信息统计 12 图为鉴定基本信息统计图。横坐标为鉴定类别,纵坐标为数量。Total Spectra为二级谱图总数。Match ed Spectra为经质量控制后的谱图数量。Unique Spectra为匹配到特有肽段的谱图数量。Share Spectra为匹 配到的共享肽段的谱图数量。Matched Peptide为匹配到的肽段序列的数量。Matched Pro

18、tein为鉴定到的蛋 白质数量。 表表3.4 鉴定基本信息鉴定基本信息 Total Spectra 68992 Matched Spectra 31000 Unique Specra 16000 Shared Spectra 15000 Matched Peptide 5092 Matched Protein 1587 蛋白质相对分子质量分布蛋白质相对分子质量分布 鉴定到的所有蛋白依据其相对分子质量所作的统计如图3.6。 图图 3.6 蛋白质的质量分布图蛋白质的质量分布图 横坐标为鉴定到的蛋白分子质量(单位:千道尔顿,kDa),纵坐标为鉴定到的蛋白数量。 表表 3.5 蛋白质质量分布表蛋白质质

19、量分布表 MW(in kDa) Number of proteins in class 0-10 27 10-20 272 20-30 490 30-40 459 40-50 384 50-60 314 60-70 225 13 70-80 148 80-90 46 90-100 36 100 67 肽段序列长度分布肽段序列长度分布 图图 3.7 肽段长度分布肽段长度分布 该图表示不同长度肽段占所有肽段的百分比。横坐标为肽段氨基酸残基数,纵坐标为肽段的百分比。 肽段序列覆盖度肽段序列覆盖度 图图 3.8 肽段序列覆盖度分布肽段序列覆盖度分布 该图显示不同覆盖度的蛋白比例,不同颜色代表不同的序列

20、覆盖度范围,饼状图百分比显示了处于不 同覆盖度范围的蛋白数量占总蛋白数量的比例。 表表 3.6 肽段序列覆盖度分布肽段序列覆盖度分布 0% 2% 3% 7% 7% 11% 24% 45% 70%-100%(0) 60%-70%(0) 50%-60%(2) 40%-50%(9) 30%-40%(19) 20%-30%(41) 15%-20%(39) 10%-15%(63) 5%-10%(134) 0%-5%(252) 14 Sequence Coverage(%) Number of proteins in class 0-5 252 5-10 134 10-15 63 15-20 39 20-

21、30 41 30-40 19 40-50 9 50-60 2 60-70 0 70-100 0 Total 1050 鉴定肽段数量分布鉴定肽段数量分布 图图 3.9 肽段数量分布肽段数量分布 该图显示鉴定到的蛋白所含肽段的数量分布情况,横坐标为覆盖蛋白的肽段数量范围,纵坐标为蛋白 数量。图中显示的趋势表明,大部分覆盖到蛋白的肽段数量在 35 个以内,且蛋白数量随着匹配肽段数量的 增加而减少。 鉴定结果见sample_detail.xlsx与sample_overall.xlxs文件。其中detail表中列举了肽段和蛋 白的信息,overall表中列举了蛋白的信息。 输出文件: 599 195

22、102 50 28 14 8 7 4 4 9 0 100 200 300 400 500 600 1-5 5-10 10-15 15-20 20-25 25-30 30-35 35-40 40-45 45-50 50 Number of proteins in class Peptide number 15 Report/sample_detail.xlsx Report/sample_overall.xlxs 3.7 蛋白质定量蛋白质定量 实验标记信息实验标记信息 表表 3.7 实验标记信息实验标记信息 编号编号 样品编号样品编号 标记号码标记号码 1 sampleA 117 2 sampl

23、eB 118 3 sampleC 119 4 sampleD 121 定量信息统计定量信息统计 当差异倍数达到1.5倍以上,且经统计检验其p-value值小于0.05时,视为差异蛋白。 表表3.8鉴定到的蛋白统计鉴定到的蛋白统计 类型类型 117/118 117/119 117/121 总定量蛋白数 508 508 515 上调蛋白数量 53 47 21 下调蛋白数量 18 59 68 总差异数量 71 106 89 差异蛋白统计差异蛋白统计 样品间两两比较,统计得到差异蛋白数量如图3.10: 16 图图3.10 差异蛋白数量统计差异蛋白数量统计 图横坐标为比较组名称,纵坐标为差异蛋白数量。红

24、色柱表示上调的蛋白数量,绿色柱表示下调的蛋 白数量。 蛋白质丰度比分布蛋白质丰度比分布 在相对定量时, 如果同一个蛋白质的量在两个样品间没有显著的变化, 那么其蛋白质丰 度比接近于1。 当蛋白的丰度比即差异倍数达到1.5倍以上, 且经统计检验其p-value值小于0.05 时,视该蛋白为不同样品间的差异蛋白。对每个蛋白质差异倍数以2为底取对数后作出分布 如图3.11。表达量上调的蛋白居于横坐标0位置的右侧,表达量下调的蛋白居于横坐标0位置 的左侧。 图图3.11 蛋白质丰度分布蛋白质丰度分布 该图显示可定量的所有蛋白质的差异倍数的分布情况,其中横坐标表示差异倍数经过以 2 为底数的对 数转化后

25、的值。 大于 0 的为表达量上调, 小于 0 的为表达量下调。其中差异倍数大于 1.5 的点用红色标出, 小于 2/3 的点用绿色标出。这些红色和绿色的点可能是潜在的差异蛋白。是否是最终被筛选的差异蛋白, 还需要进行统计学的验证。 输出文件: 17 Report/significant 肽段丰度比分布肽段丰度比分布 图图 3.12 肽段丰度比分布肽段丰度比分布 该图显示定量到的所有肽段的丰度比分布情况。 横坐标为差异倍数经过以 2 为底数的对数转化后的值, 纵坐标为肽段数量。横坐标大于 0 的为肽段数量上调,小于 0 的为肽段数量下调。 输出文件: Report/sample_detail.x

26、lsx Report/sample_overall.xlxs 3.8 GO 分析分析 Gene Ontology(简称 GO)是一个国际标准化的基因功能分类体系,提供了一套动态更 新的标准词汇表(Controlled Vocabulary)来全面描述生物体中基因和基因产物的属性。GO 总共有三个本体(Ontology),分别描述基因的分子功能(Molecular Function)、所处的细 胞位置(Cellular Component)、参与的生物过程(Biological Process)。 详细信息见网站:http:/www.geneontology.org。 我们针对鉴定出的所有蛋白进

27、行 GO 功能注释分析, 给出的结果包括两部分: protein2go 18 和 go2protein。 protein2go:针对每个蛋白,给出所有相应的 GO 功能的 ID 列表 go2protein: 针对三个ontology (cellular component, biological process, molecular function) 中所涉及的 GO 条目,列出所有相应的蛋白的 ID 及蛋白个数,同时作出统计图,略去没有 相应蛋白的 GO 条目。 图图 3.13 GO 分类分类 GO 分类图显示了三个本体中所涉及到各条目的分布情况,不同颜色标记为三个本体中涉及到的各个 条目

28、。饼状图代表条目数量占总蛋白数量的百分比。 输出文件: Report/sample_GO/sample.fa.protein2GO.xlsx Report/sample_GO/sample.fa. GO2protein.xlsx 19 3.9 COG 注释注释 COG(Cluster of Orthologous Groups of proteins 蛋白相邻类的聚簇)是对蛋白质进行直 系同源分类的数据库。构成每个 COG 的蛋白都是被假定为来自于一个祖先蛋白,并且因此 或者是 orthologs 或者是 paralogs。 Orthologs 是指来自于不同物种的由垂直家系 (物种形成) 进

29、化而来的蛋白,并且典型的保留与原始蛋白有相同的功能。Paralogs 是那些在一定物种中 的来源于基因复制的蛋白,可能会进化出新的与原来有关的功能。我们将鉴定到的和 COG 数据库进行比对,预测这些蛋白可能的功能并对其做功能分类统计。 图图 3.14 COG 分类分类 图横坐标为 COG 条目,纵坐标为蛋白数量。该图表示样品中不同功能的蛋白质的统计数量。 输出文件: Report/ sample_COG/sepsis.cog2protein.xls 3.10 Pathway 代谢通路注释代谢通路注释 在生物体内, 不同蛋白相互协调行使其生物学行为,基于 Pathway 的分析有助于更进一 步了

30、解其生物学功能。KEGG 是有关 Pathway 的主要公共数据库(Kanehisa,2008) ,通过 Pathway 分析能确定蛋白质参与的最主要生化代谢途径和信号转导途径。 输出文件: Report/ sample_Pathway 20 3.11 差异蛋白的差异蛋白的 GO 富集分析富集分析 GO 功能显著性富集分析给出与所有鉴定到的蛋白质背景相比,差异蛋白质中显著富集 的 GO 功能条目,从而给出差异蛋白质与哪些生物学功能显著相关。如上 3.7 所述,当蛋白 的丰度比即差异倍数达到 1.5 倍以上,且经统计检验其 p-value 值小于 0.05 时,视该蛋白为 不同样品间的差异蛋白。

31、该分析首先把所有差异蛋白质向 Gene Ontology 数据库 (http:/www.geneontology.org/)的各个 term 映射,计算每个 term 的蛋白质数目,然后应用 超几何检验,找出与所有蛋白质背景相比,在差异蛋白质中显著富集的 GO 条目。其计算公 式为: 其中 N 为所有蛋白中具有 GO 注释信息的蛋白数目,n 为 N 中差异蛋白的数目,M 为 所有蛋白中注释到某个 GO 条目的蛋白数目,m 为注释到某个 GO 条目的差异蛋白数目。 计算得到 P-value 值,以 P-value0.05 为阈值,满足此条件的 GO term 定义为在差异蛋白质 中显著富集的 G

32、O term。通过 GO 显著性分析能确定差异蛋白性行使的主要生物学功能。 图图 3.15 差异蛋白的差异蛋白的 GO 富集分析举例富集分析举例 上图为 GO 富集分析结果的截图。Gene Onltolgy term 为 GO 条目。Cluster frequency 为注释到该条目的 差异蛋白与注释到所有 GO 条目的差异蛋白的数量和比值。Protein frequency of use 为注释到该条目的所有 蛋白与注释到所有 GO 条目的所有蛋白的数量和比值。P-value 为通过超几何检验计算得到 P-value 值。 输出文件: Report/ enrichment /_GO_enri

33、chment 3.12 差异蛋白的差异蛋白的 Pathway 富集分析富集分析 Pathway 显著性富集分析方法同 GO 功能富集分析,是以 KEGG Pathway 为单位,应用 21 超几何检验,找出与所有鉴定到蛋白背景相比,在差异蛋白中显著性富集的 Pathway。通过 Pathway 显著性富集能确定差异蛋白参与的最主要生化代谢途径和信号转导途径。 图图 3.16 差异蛋白的差异蛋白的 Pathway 富集分析富集分析 图为截取的一个通路富集图,红色表示表达量上调的蛋白,绿色表示表达量下调的蛋白。 输出文件: Report/ enrichment/sample _Pathway_en

34、richment 4 高级信息分析高级信息分析 4.1 多样品间表达模式聚类多样品间表达模式聚类 聚类分析是模式识别和数据挖掘中普遍使用的一种方法,是基于数据的知识发现的有 效方法。聚类分析不需要任何先验领域知识,它根据数学特征提取分类标准,对数据进行 分类,发现对象之间的相似度。我们利用多样品间表达模式聚类分析观察不同蛋白在不同 样品间比较时的上调、下调情况。使用最短的枝干将数据进行连接,欧氏距离较近说明两 组数据性质较近,距离较远说明为关联较远。所以我们进行聚类作图从而观察数据相近程 度。 22 图图 4.1 多样品间表达模式聚类分析多样品间表达模式聚类分析 表达模式相似的蛋白通常具有相似

35、的功能,利用 cluster 3.0 软件。把数据值做标准化改变,计算数据 之间的欧氏距离, 对定量到的蛋白和实验条件同时进行等级聚类分析, 聚类分析结果用 javaTreeview 显示。 图中的每一行代表一个蛋白,每一列为一个比较组,不同颜色表示不同的差异倍数。红色表示上调,绿色 表示下调。 输出文件: Report/cluster/index.html 4.2 蛋白组与转录组关联分析蛋白组与转录组关联分析 蛋白组转录组关联分析联合转录组流程分析结果和蛋白质 iTRAQ 定量分析结果,旨在 挖掘物种基因层面表达量信息与蛋白层面定量信息的潜在关联性, 以求发现生物学过程中基 因-蛋白质相互调

36、控表达的定量关系,寻找验证某些生物学意义。 蛋白组与转录组组装结果关联蛋白组与转录组组装结果关联 首先利用转录组数据来建立蛋白搜索数据库, 这将大大提升肽段及蛋白的鉴定数量。 实 验表明,基于转录组数据建立蛋白搜索数据库,平均可以增加蛋白鉴定数量 20%-50%。对 于一些目前仅发现少许蛋白序列的物种,采用转录组数据建库,可以比采用 NCBInr 全库得 到的鉴定数据多 100%以上。其次将两者定量信息进行直接的关联。图 4.2 为利用转录组数 据建库和不利用转录组数据建库对比情况。从图中可看出,利用转录组数据,可大幅度提高 肽段及蛋白鉴定数量。 23 图图 4.2 利用用转录组数据建立的数据

37、库和仅利用蛋白数据库进行蛋白质鉴定的比较利用用转录组数据建立的数据库和仅利用蛋白数据库进行蛋白质鉴定的比较 图为利用转录组数据建库和不利用转录组数据建库对比图。其横坐标分别为匹配到的谱图、肽段和蛋 白,纵坐标为数量。从图中可看出,利用转录组数据,可大幅度提高肽段及蛋白鉴定数量。 差异蛋白质与差异基因关联性分析差异蛋白质与差异基因关联性分析 差异蛋白质与差异基因关联性分析是指对于差异蛋白和差异基因,通过比较其相关性, 来寻找其是否有潜在的关联性。 图图 4.3 差异蛋白与差异基因关联性差异蛋白与差异基因关联性 图为两个样品差异蛋白和差异基因的关联分析图,横坐标为差异蛋白的表达量,纵坐标为差异基因

38、的 表达量。 蛋白组与转录组表达模式聚类分析蛋白组与转录组表达模式聚类分析 5488 2226 1005 1565 701 493 0 1000 2000 3000 4000 5000 6000 Matched Spectra Matched Peptide Matched Protein Numbers Transcriptome NCBInr_insects 24 蛋白组与转录组表达模式聚类分析对所有可定量蛋白质及其关联转录本作表达量关联 聚类分析。 输出文件: Report/correlation 4.3 蛋白相互作用网络分析蛋白相互作用网络分析 图图 4.4 蛋白相互作用网络分析蛋白相

39、互作用网络分析 图为截取的一组蛋白相互作用图,其中红色表示该表达量上调的蛋白,绿色表示表达量下调的蛋白。 目前可以对以下物种进行蛋白质相互作用网络分析,分别为:人类,小鼠,褐鼠,黑腹 果蝇,秀丽隐杆线虫,拟南芥,酿酒酵母,大肠埃希菌,裂殖酵母。 5 文件下载文件下载 下载地址下载地址 Host: http:/ ID: XXX 文件解压文件解压 所有文件被压缩成*.tar.gz 格式,可以采取如下解压方式: Unix/Linux 用户: tar zxvf *.tar.gz or gzip d *.gz。 Windows 用户:推荐使用 winRAR 进行。 Mac 用户: shell: tar

40、zxvf *.tar.gz。 FTP 目录结构目录结构: 25 6 文件格式说明文件格式说明 6.1 蛋白鉴定及定量蛋白鉴定及定量 下图为 iTRAQ 定量分析报告中的*_detail.xlsx 中表格信息,每列的说明信息如下表: 列名列名 含义含义 GroupId 蛋白质分组号,分组号相同的蛋白共享肽段及定量信息 Hit_number Mascot 搜索结果中的分组号,为不连续编号 Accession 蛋白质 accession number Description 蛋白质描述信息 Score 蛋白质的鉴定得分 Mass 蛋白质质量 Cov 蛋白的序列覆盖度情况 Seq 蛋白序列 SameS

41、ets 与该蛋白鉴定到完全相同肽段的蛋白的数量 Sepectra number 匹配到该蛋白的谱的数量 26 Unique peptide number 匹配到该蛋白的 unique 肽段数量 Peptide 匹配到该蛋白的肽段序列数量 Unique Peptide 匹配到该蛋白的 unique 肽段序列数量 118/114 该蛋白在两个样品间表达量的比值,即差异倍数 Quant Number 用于该蛋白定量的肽段数量 Sig 统计检验其表达量与 1 是否有统计学差异,1 表示有统计学差异 Query 蛋白的肽段谱图编号 Isunique 表示该谱图是否是 unique 肽段,1 为 uniq

42、ue,0 为非 unique Exp_mz 实验测得的肽段的质荷比值 Exp_mr 实验测得的肽段的分子量 Exp_z 肽段的电荷量 Calc_mr 理论计算得到的肽段分子量 Delta 肽段的实验分子量与理论分子量的差值 Start 该谱匹配到的肽段在蛋白序列中的起始位置 End 该谱匹配到的肽段在蛋白序列中的结束位置 Miss 肽段酶切时的漏切个数 Score 肽段得分 Ident 肽段的鉴定得分阈值 Before 位于肽段之前的第一个氨基酸 Pep_seq 肽段序列 After 位于肽段之后的第一个氨基酸 Pep_var_mod 肽段的修饰方式 6.2 GO 功能注释功能注释 *.fa.

43、GO.png 为 GO 分类图(标量图)文件,*.fa.GO.svg 为 GO 分类图(矢量图)文件, *.fa.GO2protein.xls 为 GO 分类文件(GO 条目与蛋白质的对应关系) ,说明信息如下: 表头表头 含义含义 Ontology GO 本体的类别 (biological_process 或 cellular_component 或 molecular_function) Class GO 条目 number_of_* 注释到各 GO 条目中的蛋白质数量 Proteins_of_* 注释到各 GO 条目蛋白质 ID *.fa.protein2GO.xls 中为 GO 注释(

44、蛋白质与 GO 条目的对应关系)文件,说明信息如 下: 第一列 蛋白质 ID 第二列 GO ID 6.3 COG 功能注释功能注释 文件 Sample1.fa.cog2protein.xls 为 COG 分类文件(COG 类与蛋白质的对应关系) 。 表头表头 含义含义 27 Code COG 功能代号 Functional-Categories COG 功能分类 Protein-Number 蛋白质 在各 COG 功能分类的数量 Proteins 蛋白质 在各 COG 功能分类的序列 ID 文件 Sample1.fa.protein2cog.xls 为 COG 注释(蛋白质 与 COG 类的对

45、应关系) 。 表头表头 含义含义 Protein 蛋白质 序列的名称 Protein-or-Domain 比对上的蛋白或结构域 Score blast 比对的得分 E-Value blast 比对的 Evalue COG-ID COG 的 ID Function-Description 功能描述 Code COG 功能代号 Functional-Categories COG 功能分类 6.4 Pathway 功能注释功能注释 *.ko 为蛋白 ID 及对应 KO 号列表文件,说明信息如下表: 第一列 蛋白 第二列 KEGG Orthology *.path 为蛋白的 Pathway 列表文件,

46、说明信息如下: 表头表头 含义含义 Pathway 通路名 Count 注释到该通路的蛋白质的数目 Pathway ID KEGG 数据库中的 Pathway ID Proteins 注释到该 Pathway 的蛋白 KOs 属于该 Pathway 的 KEGG Orthology *_map 文件夹中包含蛋白的 Pathway 图文件。 *.htm 为蛋白的 Pathway 分析结果文件,说明信息如下: 表头表头 含义含义 Pathway 通路名,点击可看到注释到该通路的各蛋白质情况及 Pathway 图 Proteins with pathway annotation 鉴定的蛋白质注释到该

47、通路的数目及比例 Pathway ID KEGG 数据库中的 Pathway ID 6.5 差异蛋白的差异蛋白的 GO 富集分析富集分析 GOView.html 为差异蛋白质 GO 功能富集分析结果报告, 左侧导航页面分别描述了如下 信息: *_diff_C 其中差异蛋白质的 Go-CellularComponent 分析结果 28 *_diff_F 其中差异蛋白质的 Go- MolecularFunction 分析结果 *_diff_P 其中差异蛋白质的 Go- BiologicalProcess 分析结果 其余文件信息如下: *_C.png Go-CellularComponent 图(标

48、量图) *_C.txt Go-CellularComponent 分类结果 *_C.html Go-CellularComponent 分析结果 *_F.png Go-MolecularFunction 图(标量图) *_F.txt Go-MolecularFunction 分类结果 *_F.html Go-MolecularFunction 分析结果 *_P.png Go-BiologicalProcess 图(标量图) *_P.txt Go-BiologicalProcess 分类结果 *_P.html Go-BiologicalProcess 分析结果 网页内右侧框架内表格说明信息如下:

49、 表头表头 含义含义 Gene Ontology term GO term 名 Cluster frequency 注释该GO term的差异蛋白质与注释到所有GO term的差异蛋白质比 值 Protein frequency of use 注释该 GO term 的所有蛋白质与注释到所有 GO term 的所有蛋白质 的比值 Corrected P-value 通过超几何检验计算得到 P-value 值,当该值0.05 时,定义为在差 异蛋白质中显著富集的 GO term 6.6 Pathway 富集分析富集分析 *.ko 为蛋白 ID 及对应 KO 号列表文件,说明信息如下表: 第一列 蛋白 第二列 KEGG Orthology *.path 为 Pathway 列表文件,说明信息如下: 表头表头 含义含义 Pathway 通路名 Count 注释到该通路的蛋白质的数目 Pathway ID KEGG 数据库中的 Pathway ID Proteins 注释到该 Pathway 的蛋白 KOs 属于该 Pathway 的 KEGG Orthology *_map 文件夹中包含蛋白的 Pathway 图文件。 *.htm 为蛋白的 Pathway 分析结果文件,说明信息如

展开阅读全文
相关资源
猜你喜欢
相关搜索

当前位置:首页 > 其他


经营许可证编号:宁ICP备18001539号-1