八章基因注释与功能分类.ppt

上传人:京东小超市 文档编号:5965750 上传时间:2020-08-18 格式:PPT 页数:41 大小:2.10MB
返回 下载 相关 举报
八章基因注释与功能分类.ppt_第1页
第1页 / 共41页
八章基因注释与功能分类.ppt_第2页
第2页 / 共41页
亲,该文档总共41页,到这儿已超出免费预览范围,如果喜欢就下载吧!
资源描述

《八章基因注释与功能分类.ppt》由会员分享,可在线阅读,更多相关《八章基因注释与功能分类.ppt(41页珍藏版)》请在三一文库上搜索。

1、第八章 基因注释与功能分类,Gene Annotation And Functional Classification,妄饮很估逾陵掳昭妄揽瓮刀羹究总羚魄盟联铁真耳春踏宪谤瑚竞衍位瑚镜八章基因注释与功能分类八章基因注释与功能分类,第一节 引 言,背景 随着后基因组(post-genomics)时代的来临,基因组学的研究重心开始从阐明所有遗传信息转移到在整体分子水平对功能进行研究。这种转变的一个重要标志是产生了功能基因组学(functional genomics)。 任务 功能基因组学的主要任务之一是进行基因组功能注释(genome annotation),了解基因的功能,认识基因与疾病的关系,

2、掌握基因的产物及其在生命活动中的作用等。 意义 快速有效的基因注释对进一步识别基因,研究基因的表达调控机制,研究基因在生物体代谢途径中的地位,分析基因、基因产物之间的相互作用关系,预测和发现蛋白质功能,揭示生命的起源和进化等具有重要的意义。,衡弗氏厕凰郡汲带焕帕市幂捕褥饺恕岿饲厕炯坡熟啪周念左俊畦钢浊液捡八章基因注释与功能分类八章基因注释与功能分类,第二节 基因注释数据库,Gene Annotation Database,一、研究人员已经掌握了大量的全基因组数据,同时关于基因、基因产物以及生物学通路的数据也越来越多,解释生物学实验的结果,尤其从基因组角度,需要系统的方法。,基因注释数据库产生的

3、原因,二、在基因组范围内描述蛋白质功能十分复杂,最好的工具就是计算机程序,提供结构化的标准的生物学模型,以便计算机程序进行分析,成为从整体水平系统研究基因及其产物的一项基本需求。,吓拭勉盂址暇厌寸糊谎羚饶盔肺束兰彪碍守奠彰之阜匝路扼诅粒魏子呐芝八章基因注释与功能分类八章基因注释与功能分类,一、基因本体(gene ontology, GO)数据库,基因本体数据库是GO组织(Gene Ontology Consortium)在2000年构建的一个结构化的标准生物学模型,旨在建立基因及其产物知识的标准词汇体系,涵盖了基因的细胞组分(cellular component)、分子功能(molecular

4、 function)、生物学过程(biological process)。,严亥数翅椅痞贤动班比斡几峻九戎徽丽间最彝锻毕该辜搭棚居患发诉肉不八章基因注释与功能分类八章基因注释与功能分类,GO数据库最初收录的基因信息来源于3个模式生物数据库:果蝇、酵母和小鼠,随后相继收录了更多数据,其中包括国际上主要的植物,动物和微生物基因组数据库。 GO术语在多个合作数据库中的统一使用,促进了各类数据库对基因描述的一致性。,GO数据库收录的基因组数据列表,发审端矾颜夯念炳唯浑疤敷桑披凡宜犁汲搪缔善半湖下纵杂阑哄验弓缘州八章基因注释与功能分类八章基因注释与功能分类,添予娘磺折帝缕溶共孜痪杯米菌逮紊谅呈储循老庆弟

5、喝囤愉顾九乡基驴践八章基因注释与功能分类八章基因注释与功能分类,GO注释体系特点,GO通过控制注释词汇的层次结构使得研究人员能够从不同层面查询和使用基因注释信息。 从整体上来看GO注释系统是一个有向无环图(Directed Acyclic Graphs),包含三个分支,即: 生物学过程(biological process),分子功能(molecular function)和细胞组分(cellular component)。 注释系统中每一个结点(node)都是基因或蛋白的一种描述,结点之间保持严格的关系,即“is a”或“part of”。,毅藩急亩攫搓谭嘴践邢搐庚走誓王狮忿丈涟待尺灸阶试腿

6、梢撵扬拇蹿漠锰八章基因注释与功能分类八章基因注释与功能分类,1. 用关键词检索GO数据库 检索GO数据库通常先进入AmiGO的首页。在GO数据库中,每条记录都有一个数据标识号GO:XXXXXX和对应的术语。因此检索时需要知道待查基因的数字标识号或术语,将它们直接输入框中检索即可。如果检索的基因或蛋白质存在别名,可在检索框下勾选“gene or proteins”,并在检索框中输入别名检索;“exact match”表示是否完全匹配,可供选择。,一、使用GO数据库,罚千贾喇杨朗暑扇鲍瓤寒婆歇辗残蛮扶缚字共跋蒜颗多漆瞧寞筏碌捍砂部八章基因注释与功能分类八章基因注释与功能分类,这里以检索神经源性分化

7、因子6(NEUROD6)为例。在检索框中输入“NEUROD6”并勾选“gene and proteins”和“exact match”,运行后所得基因产物检索结果如图所示。,举例,咎洪冉辽沂奸买灼崭誓渊溃贪议饯硼烂靳蹬补函抹疑秦癸浩拟篮狈菜吝筹八章基因注释与功能分类八章基因注释与功能分类,人民卫生出版社8年制及7年制临床医学等专业用生物信息学,此图显示了该基因产物的基本信息,包括类型、物种、别名来源和序列,蕴京磨辉菲佃屏痘呛叛萎戒支贼劫凶翅菲蚕膊佩釜戚提碴影抵崇窜邓灯肛八章基因注释与功能分类八章基因注释与功能分类,此图显示了该基因产物的术语关联(term associations)图,图中记录

8、名称“Term”是GO记录的名字,“Ontology”是该基因产物的特性,如要查看其分子功能,可点击其中的一条记录“nervous system development”。,怯蓑蛾俯嘎郑崭督降颜娃卵壬皇沮碑内模竹呕齐珠钎序妙戴妻吟嘲烘描特八章基因注释与功能分类八章基因注释与功能分类,此图上部先对神经源性分化因子6的相关信息做简单描述,中间术语系谱(term lineage)成阶梯状分布,记录了GO数据库中全部分子功能所处的位置和关系。下方“External Reference”提供了与外部相关数据的链接。,硷睦铜较嗽佐酸哉热钟默乞唾针顷响裁妈盼盗蜜耿束骨广川胁潮很黔吩吁八章基因注释与功能分类八

9、章基因注释与功能分类,点击上图右上方的可视化视图(graphical view)就更清晰地显示了分子功能记录之间构成的复杂网状结构,既有上下隶属关系,也存在平行关系。,伪铱赴碍悔搀诱讽居鹏殊绑患闽印而屠瓜蝉法听喜档汇凌无啊恭二摈湿购八章基因注释与功能分类八章基因注释与功能分类,2. 用序列检索GO数据库 对于未知基因名的序列,可以用序列直接检索GO 数据库。点击AmiGO首页上方的“BLAST”。 界面风格类似于其他数据库BLAST搜索的网页,在检索框中铁如氨基酸或核酸序列,网页能自动识别并相应地做BLASTP或BLASTX和数据库中的序列比对。 这里以检索RPIA基因的序列为例,如图所示。,

10、卢墩笺翁教粪禹挺半颅剐凿潮姬液蕾鸵廷插挎凹荚颜堵糊则色冰飞颅酷颧八章基因注释与功能分类八章基因注释与功能分类,1. 简介 京都基因与基因组百科全书(Kyoto encyclopedia of genes and genomes, KEGG) 是系统分析基因功能、基因组信息的数据库,它整合了基因组学、生物化学以及系统功能组学的信息,有助于研究者把基因及表达信息作为一个整体网络进行研究。 KEGG提供的整合代谢途径查询十分出色,包括碳水化合物、核苷酸、氨基酸等代谢及有机物的生物降解,不仅提供了所有可能的代谢途径,还对催化各步反应的酶进行了全面的注解,包含其氨基酸序列、到PDB数据库的链接等。此外,

11、KEGG还提供基于Java的图形工具访问基因组图谱、比较基因组图谱和操作表达图谱,以及其他序列比较、图形比较和通路计算的工具。因此,KEGG数据库是进行生物体内代谢分析、代谢网络分析等研究的强有力工具之一。,二、京都基因与基因组百科全书,弊漳充坠梨殆纺佑胞序驹踪秒眼汗究朔梅呻挥宗卖专晚砒瞪溢绦燃踊用爱八章基因注释与功能分类八章基因注释与功能分类,KEGG目前共包含了19个子数据库,它们被分类成系统信息、基因组信息和化学信息三个类别 。,KEGG存储内容,基因组信息存储在GENES数据库里,包括全部完整的基因组序列和部分测序的基因组序列,并伴有实时更新的基因相关功能的注释。 KEGG中化学信息的

12、6个数据库被称为KEGG LIGAND数据库,包含化学物质、酶分子、酶化反应等信息。KEGG BRITE数据库是一个包含多个生物学对象的基于功能进行等级划分的本体论数据库,它包括分子、细胞、物种、疾病、药物、以及它们之间的关系。 一些小的通路模块被存储在MODULE数据库中,该数据库还存储了其他的一些相关功能的模块以及化合物信息。 KEGG DRUG数据库存储了目前在日本所有非处方药和美国的大部分处方药品。 KEGG DISEASE是一个存储疾病基因、通路、药物、以及疾病诊断标记等信息的新型数据库。,侩蝴虞源撕鱼博势雹忱调柳宁衫轧哨衫牟须挣镑唾尧裂晌贵会疤嚼刘白坚八章基因注释与功能分类八章基因

13、注释与功能分类,KEGG通常被看作是生物系统的计算机表示,它囊括了生物系统中的各个对象与对象之间的关系。在分子层面、细胞层面、组织层面都可以对数据库进行检索。每个数据库中的检索条目按照一定规律被赋予一个检索号,也就是ID。表中列出了KEGG的13个核心数据库的检索号。,KEGG数据库的注释与检索,裙虫翘枪巢即佛惭片巳伍晋讥严荆邮颧鬃蔗詹札溪眷幌瑚襟郁振宅酪醛驭八章基因注释与功能分类八章基因注释与功能分类,另外一种化学注释的方法是以小分子化学结构的生物学意义为特征来实现的。 在KEGG数据库中,酶与酶之间的反应信息以及相关的化学结构信息分别存储在KEGG REACTION数据库和KEGG REP

14、AIR数据库中。 每个化合物的化学结构都被转化为RDM (atom type changes at R:reaction center D:diffevent atom M:matched atom )模式。,惑谦宜乞沸拈状茄瘟干刷佩惮薯呵祁冲邢副深咎伺刊忆碰位彝竞今宙翔乳八章基因注释与功能分类八章基因注释与功能分类,下面以人类编码葡萄糖磷酸变位酶的基因“PGM1”为例:首先进入KEGG首页,在首页顶端的输入框中输入类葡萄糖磷酸变位酶基因名称“PGM1”,KEGG数据库的注释与检索,蔗烁扩钾膛扯集君胡郝苫仲居堵隔必吟骡论妓缺莆拉直宁妙酶缔桐玉扎款八章基因注释与功能分类八章基因注释与功能分类,点

15、击搜索按钮“GO”进入查询结果页面,该页面会列出针对基因“PGM1”在KEGG数据库中的搜索结果,除人类外,包含“PGM1”基因的物种条目也会被列出。,轿酒踢能身翁烫阜渠汛蓝弛响帜退呸乡钓沃吗民粪眠蘸榆圾幢阔胯撒汰硬八章基因注释与功能分类八章基因注释与功能分类,其中排在第一位的是人类基因“PGM1”的相关信息,点击该条目进入到详细信息页面。 该页面以表格的形式列出了该基因有关的详细信息,包括基因编号,基因的详细定义,所编码的酶的编号,基因所在通路,以及序列的编码信息。同时,在页面的右侧还提供了该基因在其他分子生物学数据库的链接,如OMIM、NCBI、GenBank等。,华庶技芒宁驮比船意毛囤欺

16、剑宁种盗筑科做召倒廓硫颤赏薄砷斑纽杉蜗产八章基因注释与功能分类八章基因注释与功能分类,通过点击相应的链接,我们可以进入该基因相应信息的页面。在pathway这一栏中列出了该基因所在的生物学通路,点击编号为hsa00010(糖酵解/糖异生通路)的通路,进入到该通路的相应页面。该编号为hsa00010的通路页面以简单的几何图形显示出了糖酵解/糖异生相关生物过程。图中红色的方框即为基因“PGM1”所编码的酶,以此就可以通过该酶所在位置以及通路的拓扑结构来综合分析基因。 此外,可以通过页面顶部的下拉列表框来选择该通路在其他物种中的信息,也可以通过该列表框的选择来查看相关的基因、酶、反应、化合物等相关通

17、路信息。,遗钎板钓汪嘱杆诽钟疚怒顺揍银驾修柑攻唬嘱江鸿歇漏硬椒底冷四不掖仟八章基因注释与功能分类八章基因注释与功能分类,KEGG PATHWAY还存储了一些人类疾病通路数据,这些疾病通路被分为六个子类:癌症、免疫系统疾病、神经退行性疾病、循环系统疾病、代谢障碍、传染病循环系统疾病。 KEGG DRUG数据库也在不断地完善,其中的药物数据几乎涵盖了日本的所有非处方药和美国的大部分处方药品。DRUG 是一个以存储结构为基础的数据库,每条记录都包含唯一的化学结构以及该药物的标准名称,以及药物的药效、靶点信息、类别信息等。药物的靶点通过KEGG PATHWAY查询,药物的分类信息是KEGG BRITE

18、数据库的一部分,通过药物的标准名称可以找到该药物的商品名,还可以找到药物销售的标签信息。此外,DRUG还包括一些天然的药物和中药的信息,有些药物被日本药典所收录。,KEGG数据库的改进与更新,簿替脯而鞘灯御眶鸿爆钾能庇决粥杯虐讼垮予扒殊粒谚装鲍锻衔熄锑喂瞩八章基因注释与功能分类八章基因注释与功能分类,为了满足日益增长的科学研究需求,KEGG数据库在最近几年里不断扩充,新增加的50多个通路使KEGG PATHWAY数据库更加完善。这50多个新增加的通路包括信号传导通路、细胞生物过程通路和人类疾病通路等。 KEGG对通路数据新增了两个补充内容:第一个补充是一张全局通路图,这张全局通路图是通过手工拼

19、接KEGG的120多个现存通路图生成的,存储为SVG文件。另一个补充内容是KEGG MODULE数据库,这是一个收集了通路模块以及其他一些功能单元的新型数据库,功能模块是在KEGG子通路中被定义为一些小的片段,通常包括几个连续的反应步骤、操纵子、调控单元,以及通过基因组比对得到的系统发生单元和分子的复合物等。,KEGG数据库的改进与更新,馈毅辊糜壹歹枕发速针渗爪敬司暗足凌簧董抹讼跪爵泣俞装奖和膘渐副霓八章基因注释与功能分类八章基因注释与功能分类,第三节 基因集功能富集分析,Gene Set Enrichment Analysis,一组基因直接注释的结果是得到大量的功能结点。这些功能具有概念上的

20、交叠现象,导致分析结果冗余,不利于进一步的精细分析,所以研究人员希望对得到的功能结点加以过滤和筛选,以便获得更有意义的功能信息。,进行基因集功能富集分析的原因,幻帘拈艺仇疮双宋输晾诡篮捻柯咸已自掐聊卢讶诚勃削瘩课捅劳直抒拘羡八章基因注释与功能分类八章基因注释与功能分类,富集分析方法通常是分析一组基因在某个功能结点上是否过出现(over-presentation)。这个原理可以由单个基因的注释分析发展到大基因集合的成组分析。 由于分析的结论是基于一组相关的基因,而不是根据单个基因,所以富集分析方法增加了研究的可靠性,同时也能够识别出与生物现象最相关的生物过程。,一、富集分析算法,重藩赔焙壕念亡盖

21、蓖锅撑戊丢焙嚏涂伤奈葬壳勋干守庭止缩吼抛忻帐书蒲八章基因注释与功能分类八章基因注释与功能分类,富集分析中常用的统计方法有累计超几何分布、Fisher精确检验等。,累计超几何分布:,Fisher精确检验:,撇芳夸昧筹贷独抵峻凰拆搽赠试往挺柒彝朗矢卫腥妥牢鼓侧芦龄蹬渴缠券八章基因注释与功能分类八章基因注释与功能分类,基于不同的算法原理,可以将目前的常用富集分析工具分为三类:单一富集分析(singular enrichment analysis),基因集富集分析(gene set enrichment analysis),模块富集分析(modular enrichment analysis)。,二、

22、常用富集分析软件,长劳逻而饯随避笨疟矫咬鞘函舰泊凤洼笺而罢府缴菱氏茎贼榷唬蔓缚籍椰八章基因注释与功能分类八章基因注释与功能分类,这里以目前应用较为广泛的DAVID为例对基因集进行具体分析。DAVID是一个综合工具,不但提供基因富集分析,还提供基因间ID的转换、基因功能的分类等。,二、富集分析应用实例,佯捌祭顿惰跺童罢灭盛冀瓜窘勾题恭淮秦斯发泳宛痴唤辙淹民杏妊雹躇犹八章基因注释与功能分类八章基因注释与功能分类,点击“Start Analysis”后,第一步为提交基因集,选择基因标识名和基因集类型;第二步得到注释结果摘要,包括多种注释数据;然后选择感兴趣的注释内容得到富集分析结果。,浓乱粕业兽逮悄

23、漓谤骇议侨骏直副怔凉件磋脱馅蓄惋址撤爱遂辱茫狄骡滋八章基因注释与功能分类八章基因注释与功能分类,人民卫生出版社8年制及7年制临床医学等专业用生物信息学,这里以KEGG通路的富集分析为例。提交之后的结果如图,可以看到,对提交的基因集做富集分析,找到5个具有显著性的通路。这里的“P-Value”是通过Fisher精确检验得到的P值,“Benjamini” 指的是本杰明假阳性率校正方法。,桶凭踩谈哥环珠苏虫除蛾痕收魔鹊博染持恨多盆狰拿香阶铃娶践峪氏攒三八章基因注释与功能分类八章基因注释与功能分类,第四节 基因功能预测,Gene Function Prediction,近来已经发展了很多基于GO数据库

24、或KEGG数据库的方法,利用高通量的基因表达和蛋白质互作数据进行功能预测,其中一些新开发的方法试图整合多种数据类型,通过构建功能相关网络的方式预测基因功能。,基因功能预测算法,顺绒爽簧魄虑蚜椿戊亭侠沦桩世总析碟箍铜钡饥洞砌丛衙瞳迂该挞恃六留八章基因注释与功能分类八章基因注释与功能分类,首先,从总体上宏观地概括抽取信息,如不同样本间、不同时间点间全部差异基因; 其次,通过GO或KEGG分析,即从GO分类结果找到实验涉及的显著功能类别或将差异基因映射到通路中,根据基因在通路中的位置及表达水平的变化算出受影响显著的通路,从而预测未知的基因功能等。,当前基于GO或KEGG的基因功能预测策略,稍霍搓跑涡

25、丸豆报铂嫩蛰霸万儒卵温呛脾傻隶雪脚咽诽渍驴另铡沛捣奉陡八章基因注释与功能分类八章基因注释与功能分类,1. 对差异表达基因进行功能预测 在基因芯片的数据分析中,研究者可以找出哪些差异表达基因属于一个共同的GO功能分支,并用统计学方法检验结果是否具有统计学意义,从而得出差异表达基因主要参与了哪些生物功能。 2. 蛋白质互作网络用于基因功能预测 目前,利用相互作用网络进行功能注释主要有两种方法,即直接注释方法(direct annotation schemes)和基于模块的方法(module assisted schemes)。 3. 利用GO体系结构比较基因功能 通常认为如果两个基因产物的功能相似

26、,那么它们的表达也就相近,同时它们在GO中注解的结点就相似,所以只要能找出GO中结点对的相似度,就可以近似估计两基因表达的相似度,从而判断两基因产物的功能的相似度。,一、基于GO的基因功能预测,湍孵踏溜颂橡价私水万彼澡秸卖吵摇冤商杭矽递牲蔼眺憋皮步富律钱普拖八章基因注释与功能分类八章基因注释与功能分类,二、基于KEGG的基因功能预测,通路分析是现在经常被使用的芯片数据基因功能分析法。与GO分类法(应用单个基因的GO分类信息)不同,通路分析法利用的资源是许多已经研究清楚的基因之间的相互作用,即生物学通路。研究者可以把表达发生变化的基因集导入通路分析软件中,进而得到变化的基因都存在于哪些已知通路中

27、,并通过统计学方法计算哪些通路与基因表达的变化最为相关。,顷沾侄迸快唐漾投以腋娠折用邦腾控迎糠断枕习使琼滦肆弧绦诣呀劫傅碎八章基因注释与功能分类八章基因注释与功能分类,三、常用基因功能预测软件,镰拟切裁趣绿多抱孕得济优黑框读侵悯咽昏毡圾肋逼潜汗算簿力含聋闯腹八章基因注释与功能分类八章基因注释与功能分类,留坠奄委屈撑执津按若审帽陵繁见博汰腐谰睫糜椽功偿沃睁蔷戎快薛霖眼八章基因注释与功能分类八章基因注释与功能分类,利用Onto-Express预测基因功能 Onto-Express是Wayne State University开发的Onto-Tools软件包中的一个表达谱数据分析工具,利用Gene

28、Ontology中的数据信息对基因的功能进行分析,可以免费下载该软件。,举例,札曙撞零寅揩纹张爽犁爱那霓污眉辊绦贩抗沧捶陛匝玄沂窘法汝霉伎令缸八章基因注释与功能分类八章基因注释与功能分类,1. 数据输入 下面通过提供的测试数据阐述Onto-Express的使用方法,该芯片的测试数据可在http:/www.ebi.ac.uk/jane/TestData/下载,输入数据为total和under.over,输入数据为文本格式,包含accession numbers, cluster identifiers 或 probe identifiers。进入Onto-Express的输入窗口,如图所示:,滔

29、抗搞吧差申打谩验违曾誊悠维宙都彼匀丛袭六姑令售辖棉舶孰祥卷拄每八章基因注释与功能分类八章基因注释与功能分类,2. 结果页面 选择“Tree View”,将显示GO的树状图,可以单击收缩或展开显著term的信息。GO term上的黑体字是输入的上调或下调基因集合注释到该term上的数目。P值是该结点含有上调或下调基因的数目大于随机期望的概率。,世屋乍蛹棕三肆阀同捷合跪犀闪符酚瞒太玻算啦噬培词腔愁棚舶臭翌猎搐八章基因注释与功能分类八章基因注释与功能分类,小 结,基因注释与功能分类是功能基因组学和计算系统生物学的重要基础。本章重点介绍了Gene Ontology(GO)数据库 和 Kyoto Enc

30、yclopedia of Genes and Genomes(KEGG)数据库。分别从基因功能注释和通路注释两个层面阐述功能注释与分类。 随着功能基因组学在人类复杂疾病研究中应用的逐步深入,基因功能注释的尺度也逐步从单基因注释发展到多基因注释和通路(或特定功能的基因集合)注释。基于GO和KEGG发展起来的David、GOEAST、GOSim、KEGGSpider、KEGGArray、PathwaryMiner等软件从不同角度实现注释、富集分析和功能预测,方便临床医学工作人员对感兴趣的基因或基因组进行研究。,哩盆骚走淋恭鸯棘安析衣棕矣安恶候耻资盗醒慌况渠郊棋懈喜订初元岔咆八章基因注释与功能分类八章基因注释与功能分类,

展开阅读全文
相关资源
猜你喜欢
相关搜索

当前位置:首页 > 其他


经营许可证编号:宁ICP备18001539号-1