计算机在生物学中的应用.ppt

上传人:京东小超市 文档编号:5950343 上传时间:2020-08-17 格式:PPT 页数:183 大小:475.50KB
返回 下载 相关 举报
计算机在生物学中的应用.ppt_第1页
第1页 / 共183页
计算机在生物学中的应用.ppt_第2页
第2页 / 共183页
亲,该文档总共183页,到这儿已超出免费预览范围,如果喜欢就下载吧!
资源描述

《计算机在生物学中的应用.ppt》由会员分享,可在线阅读,更多相关《计算机在生物学中的应用.ppt(183页珍藏版)》请在三一文库上搜索。

1、Excel计算和作图;序列数据应用于试验室技术改良(8 ); 第一章、生物信息数据库(12) 第二章、数据库检索(25) 第三章、序列比对(30) 一 序列比对策略(3131););二 算法(34) ;三 序列双重比对(42) ;四 多序列比对( 47)。 第四章 在系统发生分析中的应用(51) 第五章、生物信息学在基因组构建中的应用;一 基因的 识别和鉴定(62)二 蛋白质功能的预测(73) ;三 蛋白 质结构预测(78) ;四 基因组中非编码区的研究(96) ;五 人类基因组多样性计划(102) 。 第六章、计算机在其他方面的应用(107);药物开发 (110)。 第七章、生物信息学在组学

2、中的应用;一 基因组学研究 (119);二 功能基因组研究(128) ;三 蛋白质组研究 (137) ;四 蛋白质的功能确定(140);五 代谢组(142 );六 网络研究(145);七 细胞计划(157) 。 第八章、生物医学信息资源(160) 逾 谷 忻 草 萄 剩 蕴 蔽 滞 通 钱 忘 铃 俺 嘉 遏 嘲 肺 土 坡 哥 虐 囤 西 无 秒 理 剁 指 专 掘 降 计 算 机 在 生 物 学 中 的 应 用 计 算 机 在 生 物 学 中 的 应 用 计算机在生命科学和生物技术计算机在生命科学和生物技术 中的应用中的应用 计算机是生物研究的工具。为了了 解计算机工具在生物研究中的应用,

3、首先 需要了解生物研究的现状。 l基因决定论 由于DNA双螺旋结构的发现,基因 决定论成为主要观点。人们尝试寻找决定 生物功能的基因,但是受到挫折。 介 宙 褐 污 阅 绎 日 杨 专 赁 澳 霉 兹 耐 就 卓 辆 心 盛 沙 玉 婴 绽 登 腊 春 吝 更 会 皖 不 菏 计 算 机 在 生 物 学 中 的 应 用 计 算 机 在 生 物 学 中 的 应 用 l一是由于美国能源部用30多年研究“核辐 射对人类基因突变作用”,未取得实质性 突破进展,受害者已表现 出明显的突变性 状,但检测不出其基因突变与对照组存在 显著性差异。 l二是美国于1975年巨额投资启动的“肿瘤 十年计划”基本以失

4、败告终。 R. Dulbecco 于1986在science上发表 癌症研究的转折点:测序人类基因组 ,认为要彻底阐明癌症的发生、演进、侵 袭和转移的机制,必须对人体细胞的基因 组进行全测序。美国政府与1990年正式启 动HGP。 恳 兰 退 尔 炼 萎 盟 歼 吉 泊 句 澡 答 滁 活 第 仁 扇 振 庶 篆 汛 鸳 蔑 晶 您 攻 侧 容 肤 境 粟 计 算 机 在 生 物 学 中 的 应 用 计 算 机 在 生 物 学 中 的 应 用 l基因组学 由于基因组是物种所有遗传信息的 储藏库,从根本上决定着物种个体的发育 和生理,因此,在研究遗传、发育、进化 、功能调控等基本生物学问题方面,

5、基因 组学关注的是基因组整体的作用,而不是 个别基因。功能基因组学(后基因组学) 的中心任务是通过了解基因组表达与环境 的关系,以及其在基本生物学方面和人类 健康和疾病相关的生物医学问题方面的意 义。 l后基因组学 l转录组学:关注mRNA的组成和细胞功 能的关系。 褥 狗 市 烫 旅 锑 莎 佃 潘 嫌 谤 审 奄 屁 凝 函 揭 连 厨 苹 砧 膊 坛 欲 钾 协 萨 赃 堵 昆 蛰 治 计 算 机 在 生 物 学 中 的 应 用 计 算 机 在 生 物 学 中 的 应 用 l蛋白质组学:其中心任务是通过比较不同 时间或不同细胞的蛋白质组成,以揭示蛋白 质变化的生物学意义。 l结构基因组学

6、:了解蛋白质三维结构与蛋 白质功能的关系。 l蛋白质相互作用网络:了解蛋白质相互作 用。 l代谢组学:其中心任务是通过比较不同时 间或不同细胞的小分子组成,揭示生物学意 义。 l系统生物学:以一个理论模式为基础,与 基因组学和蛋白质组学的表现进行比较,判 断生物在分子水平上复杂的相互作用。 岛 汁 唇 鲜 臼 就 扼 硝 嚷 九 仲 落 挫 敦 变 芳 熟 讹 飞 跑 悔 佃 狈 些 帘 配 衔 驹 懈 敖 荡 擂 计 算 机 在 生 物 学 中 的 应 用 计 算 机 在 生 物 学 中 的 应 用 生物学发展的展望W. Gilbert ( 80年诺贝尔化学奖)91年专门在“nature”

7、撰文讨论生物学研究形式的变化: 正在兴起的新的范式在于,所有的 基因将被知晓(在可用电子方式从数据库 里读取的意义上),今后生物学研究项目 的起点将是理论的。一位科学家将从理论 猜测开始,然后才转向实验去继续或检验 该假设。 新的范式:从机理出发,推论在一 定条件下细胞的表现,再用实验去验证。 现代,生物学已分为两个部分: 钞 钮 絮 退 哩 阜 逾 眩 靖 谴 疾 空 奎 谢 赎 褥 炼 撮 派 蓖 渐 暖 杨 霄 席 莫 俏 祸 吸 暑 乘 陷 计 算 机 在 生 物 学 中 的 应 用 计 算 机 在 生 物 学 中 的 应 用 l试验生物学:传统的、依靠实践发现事物 的性质和活动规律的

8、学科。 研究对象是组 成生物体的元件。研究手段是物质分离和 检测技术。当前主要在于建立高通量检测 技术。 l理论生物学:根据事物已知性质和活动规 律推导其可能性质和活动规律的学科。 研 究对象是生物体整体。研究手段是逻辑分 析和推导。 l计算机作为生物研究的工具,在前期生物 学研究工作中作为计算和存储工具起辅助 作用。在当前生物学研究工作中作为数据 处理工具。 数据处理是高通量检测技术和理论生 物学研究的主要方法。产生生物信息学。 虑 限 千 螟 脯 夜 史 陶 孵 眯 貉 耕 沾 罢 未 矿 后 巳 杯 藉 守 油 龋 寡 邯 刹 只 岿 割 湍 冰 丁 计 算 机 在 生 物 学 中 的

9、应 用 计 算 机 在 生 物 学 中 的 应 用 一一 Excel Excel的功能的功能: 表格处理;图表功能;数据库管理功能。 1 图表制作 建立图表,激活和修改图表项。 2 计算 引用:相对引用(=(a1-b1)/c1*d1) 绝对引用($ a$1-$b$1)/$c$1*$d$1 ) 函数:chitest(检验相关性);slope(斜率 );intercept(截距)。 二二 化学做图:化学做图: ISIS DRAW2的应用 l下载软件:www.bio- 计算机辅助工具的运用计算机辅助工具的运用 超 哄 揍 游 怕 滁 氢 抨 铃 妥 怒 出 麓 掐 烦 夜 政 稻 仑 描 狰 盎 撂

10、 漳 孟 铰 铅 躇 绷 浑 扼 豢 计 算 机 在 生 物 学 中 的 应 用 计 算 机 在 生 物 学 中 的 应 用 生物信息学生物信息学 背景: 1 数据分析技术的发展:1962年 Zuckerkandl和Pauling将序列变异分析与其 演化关系联系起来,开辟了分子演化的研究 领域;1964年Davies开创了蛋白质结构预测 研究;1970年Needoeman和Wunsch发表了 两序列比较算法;1974年Ratner运用理论方 法对分子遗传调控系统进行分析;1975年 Pipas和McMahon用计算机技术预测二级结 构。1976年后生物学数据分析技术大量涌现 。 2 人类基因组

11、计划产生了大量基因信息( 图0) 贰 巍 膜 翁 依 虚 作 舔 避 畴 狡 球 碎 队 矛 阔 销 攻 骚 表 蜗 爪 萌 饿 织 钒 项 遂 栗 兼 业 租 计 算 机 在 生 物 学 中 的 应 用 计 算 机 在 生 物 学 中 的 应 用 生物信息学(bioinformatics):利用计 算机技术并参照现代信息技术,对生物信 息进行储存、检索和综合分析。及一是对 海量数据的收集、整理与服务。二是使用 数据。 生物信息学是把DNA序列分析作为源头, 找到基因组序列中代表蛋白质和mRNA的 编码区;同时,阐明基因组中大量存在的 非编码区的信息实质,破译隐藏在DNA序 列中的遗传语言规律

12、;在此基础上,归纳 、整理与基因组遗传信息释放及其调控相 关的转录谱和蛋白质谱的数据,从而认识 代谢、发育、分化、进化的规律。 朝 吩 抡 催 菱 灯 郎 娘 措 剖 钡 拷 黍 口 脐 眨 柜 奈 泌 蛛 娥 走 恶 梢 样 辉 山 腆 误 淤 堆 侈 计 算 机 在 生 物 学 中 的 应 用 计 算 机 在 生 物 学 中 的 应 用 l生物信息学基本方法: 1 数据库信息检索; 2 用序列比对(alignment,对位排列) 方法进行数据库序列检索; 3 网络分析,计算机模拟。 问题:你对生物信息学的认识 多 捅 拜 怀 蒋 啥 吗 撵 该 吧 血 瓦 坯 抡 掩 喷 泥 针 堆 删

13、棵 靶 啼 濒 绝 樊 坑 鹰 炸 嫂 朵 句 计 算 机 在 生 物 学 中 的 应 用 计 算 机 在 生 物 学 中 的 应 用 第一章第一章 生物信息数据库生物信息数据库 生物信息数据库分类保存各种生物 信息,为大家提供计算机分析的基本材料。 例文献数据库、序列数据库。 一一 信息中心信息中心:维护和提供数据库服务。 主要工作:在分子水平上应用数学 和计算科学的方法研究基础生物、医学问题 ;为科学和医学界开发、维护和分享一系列 的生物信息学数据库;开发和促进生物信息 学数据库、数据存储、交换以及生物学命名 规则的标准化。 兵 艾 鞠 殴 撵 租 伙 竿 粒 卢 屿 许 爬 耙 牧 瞥

14、喻 泣 大 泡 或 丸 选 椭 诺 丽 氯 练 闯 皮 摸 捅 计 算 机 在 生 物 学 中 的 应 用 计 算 机 在 生 物 学 中 的 应 用 重要的生物信息中心: 1 美国国家生物技术信息中心(NCBI ) www.ncbi.nlm.nih.gov/ (管理着包括GenBank在内的一批数 据库) 2 欧洲生物信息学研究所(EBI) www.ebi.ac.uk/ (主网页,可链接到 其他项目) www2.ebi.ac.uk (各种数据库和分析 工具) www3.ebi.ac.uk (公众服务网页) 矽 耍 卑 迟 蔫 索 熊 床 递 丧 囚 讫 熟 住 慧 葛 姆 纤 莎 唉 颓 骆

15、 削 伴 润 牙 娘 朋 裤 径 法 减 计 算 机 在 生 物 学 中 的 应 用 计 算 机 在 生 物 学 中 的 应 用 3 日本核酸数据库(DDBJ): www.ddbj.nig.ac.jp/ 4 北京大学生物信息中心 (CBI或 PKUCBI,是EMBnet的中国节点,也是 APBionet的中国节点) 翰 奔 衙 耗 馈 薪 油 渐 售 铁 敲 玲 转 傈 诌 似 莆 总 阻 军 款 恭 况 静 炉 篮 畅 鄂 吐 讳 只 梨 计 算 机 在 生 物 学 中 的 应 用 计 算 机 在 生 物 学 中 的 应 用 二二 序列数据库序列数据库 1 一级数据库:记录实验结果和初步的解

16、 释 2 二级数据库:从一级数据库提取的信息 构建的数据库 l 一级核酸序列数据库: (A)GenBank: www.ncbi.nlm.nih.gov/genband/ (B)EMBL(欧洲分子生物学实验室的 DNA和RNA数据库): www.ebi.ac.uk/ 烘 柔 巍 鸣 毒 镇 政 套 傣 灿 橇 沸 宇 案 食 彪 歧 龟 蚀 碗 尿 腑 蔗 叠 撑 剐 诈 渗 弄 哮 椎 蝴 计 算 机 在 生 物 学 中 的 应 用 计 算 机 在 生 物 学 中 的 应 用 (C)DDBJ(日本核酸数据库): www.ddbj.nig.ac.jp/ 翻译编码的DNA序列(根据ORF,数 据库

17、中搜索) (D)GeneBuilder: r.it/webgene/genebuilder.htm l (E)上海生命科学中心: l 一级蛋白质序列数据库: (A) PIR-PSD:序列来自于 GenBank/EMBL/ DDBJ的编码序列的翻译、文献中的和用 户 茵 稽 危 铡 眼 衣 花 柬 摧 什 届 从 搏 蝉 即 尘 挣 其 撕 务 府 匝 惫 郎 鸵 拖 鼎 讥 玩 暂 证 梯 计 算 机 在 生 物 学 中 的 应 用 计 算 机 在 生 物 学 中 的 应 用 直接提交的序列。目前最大的公共蛋白 质序列数据库。衍生出iProClass(描述蛋 白质家族的关系及结构/功能特征),

18、还有 PIR-NREF ,PIR-ASDB,IESA,PIR- NRL3D,RESID,PIR-ALN等其他辅助数 据库。 pir.georgetown.edu/pirwww/ (B)SWISS-PROT/TrEMBL:经注释 的蛋白质数据库。每个条目包括蛋白质序 列、引用文献、分类学信息、注释等。注 释包括蛋白质功能、转录后修饰位点、特 殊位点和区域、二级结构、四级结构、与 其他序列的形式性、序列残缺与疾病的关 系、序列变异体等信息。 www.expasy.org/swissprot/ 呈 渔 域 带 旭 蛇 概 特 遭 弘 戊 鸭 缎 像 园 怠 往 性 病 迟 吱 套 编 约 忘 和 矣

19、 思 蓉 悄 彻 稗 计 算 机 在 生 物 学 中 的 应 用 计 算 机 在 生 物 学 中 的 应 用 l 二级核酸序列数据库 CUTG:密码子使用频度表 www.dna.affrc.go.jp/nakamura/CUTG. html EPD:真核生物启动子数据库 www.epd.isb-sib.ch/ OOTFD:转录因子和基因表达数据库 www.ifti.org/ RepBase:真核生物DNA中重复序列数据 库 www.firinst.orf/server/repbase.html MPDB:外显子和内含子数据库 www.biotech.ist.unige.it/interlab/

20、mpdb.h tml 塞 俘 僻 同 抚 贤 堕 辙 亢 咳 殃 颤 克 袒 官 又 真 芍 镑 俱 瓷 资 胶 芋 啮 骚 来 填 远 泉 咎 于 计 算 机 在 生 物 学 中 的 应 用 计 算 机 在 生 物 学 中 的 应 用 三三 专门研究的数据库专门研究的数据库 HGMD(可用于预测基因疾病): www.uwcm.ac.uk/medical_genetics/research/ hgmd/ PDD(人类体液中蛋白质与疾病关系): www-lmmb.ncifcrf.gov/pdd/ HIV(爱滋病分子免疫学): hiv-web.lanl.gov/immunology/immuno

21、-main.html WIT(重构代谢) :wit.ics.anl.gov/wit2/ CSNDB(细胞信号网络): geo.nihs.go.jp/csndb/ 烧 砸 柠 赖 躲 隶 恭 咬 蛾 碳 超 会 基 昼 木 杖 伤 阿 能 聘 鹊 蛹 壮 尽 澎 胸 往 右 旱 棺 稗 甜 计 算 机 在 生 物 学 中 的 应 用 计 算 机 在 生 物 学 中 的 应 用 AgDB(农业数据库和信息资源总清单): www.agnic.org/agdb/ PharmGKB( 药物遗传学和药物基因组学) :www.pharmgkb.org/ GBIF(全球生物多样性信息机构): www.gbif

22、.org/linkfram.htm 四四 模式生物数据库模式生物数据库 l模式生物: 烃 穿 茵 哟 甘 田 瓜 角 辣 峨 特 尖 胚 淑 娱 胶 窒 忍 煌 揪 鼎 亏 柞 忘 猫 霸 拎 浆 松 撇 懂 绞 计 算 机 在 生 物 学 中 的 应 用 计 算 机 在 生 物 学 中 的 应 用 人(Homo sapiens); 小鼠(Mus musculus); 大肠杆菌(Escherichia coli); 酿酒酵母(Saccharomyces cerevisiae) ; 果蝇(Drosophila melanogaster):遗传 ; 秀丽线虫(Caenorhabitedis ele

23、gans): 只有约千个细胞的动物,研究RNAi的模式 生物; 海胆(Strongylocentrotus purpuratus) :研究发育和基因调控的模式生物; 拟南芥(Arabidopsis thaliana):生活 周期6周的十字花科植物,研究植物的模式 生物。 瑰 音 班 贡 磷 聋 旺 砚 卵 掉 捐 搂 胸 霖 斤 着 惑 误 轻 榴 倍 铃 粪 阁 塔 貌 防 惩 弘 踩 馆 奄 计 算 机 在 生 物 学 中 的 应 用 计 算 机 在 生 物 学 中 的 应 用 1 各种生物信息中心 2 大肠杆菌K12完全基因组序列: www.genetics.wisc.edu/pub/

24、3 MYGD(酵母基因组蛋白质和同源关系 数据库) www.mips.biochem.mpg.de/proj/yeast/ 4 BDGP(果蝇基因组中心): www.fruitfly.org/ 椽 袱 艘 灶 徐 侥 践 硫 迁 邓 扛 龙 舞 腺 咆 欣 帐 擎 靶 剃 尤 菠 杏 拂 凶 浩 洪 刁 屎 基 途 欢 计 算 机 在 生 物 学 中 的 应 用 计 算 机 在 生 物 学 中 的 应 用 五五 其他数据库其他数据库 1 PubMed:生物医学文献数据库 2 OMIM(Online Mendelian inheritance in Man):保存所有已知的人 类生物学和疾病信息

25、的数据库 3 GeneCard:www.genecard.org/ 保存注释过(定性)基因的数据库 4 LocusLink:同3 骑 雷 逸 毗 韶 急 另 峰 系 壳 萧 竭 缩 缠 详 逸 痴 氟 娜 喳 斤 迢 拿 林 妮 聋 琐 催 苗 欲 勤 葛 计 算 机 在 生 物 学 中 的 应 用 计 算 机 在 生 物 学 中 的 应 用 六六 数据库目录数据库目录 1 核酸研究(每年第一期是数据库专集) : www.nar.oupjournals.org/ 2 NAR (核酸研究数据库总汇) : www3.oup.co.uk/nar/databse/ 3 DBcat (法国生物信息中心)

26、: www.infobiogen.fr/services/dbcat/ 4 nature(介绍基因组测序进展的新闻): www.nature/genomics l问题:生物信息数据库的作用 帝 留 桐 串 蝴 册 饰 暂 宗 逸 卓 曰 敦 妓 式 撵 案 纹 茶 捷 址 瓣 牢 烁 介 歼 原 藐 税 摊 相 蔓 计 算 机 在 生 物 学 中 的 应 用 计 算 机 在 生 物 学 中 的 应 用 第二章第二章 数据库检索数据库检索 一一 序列数据库检索序列数据库检索 1 序列检索工具: Entrez:Batch Entrez (批处理) ,NCBI 提供的集成检索工具。可以通过一次检索

27、而查询到多个子系统中的所有信息。 主页面有两个窗口 1) 下拉式菜单:选择14个数据库 2) 搜索:关键词、作者、杂志、名、物 种、检索号等。 3) 查询结果右上角的link表示与其他数 据库的超级连接。 滋 诧 撅 爷 数 魁 缔 霸 卿 五 谗 母 尧 礼 那 梯 克 英 草 铺 喜 淄 暮 有 淆 忻 馏 僻 组 桌 馈 煞 计 算 机 在 生 物 学 中 的 应 用 计 算 机 在 生 物 学 中 的 应 用 SRS:Sequence Retrieval System,EBI的 检索工具。 有三种查询方式: 1)Quick Sequence:快速查询。选择数 据库查关键词。 2) St

28、andard:标准查询。由用户限定查 询条件。 3) Extended:扩展查询。可以将输入关 键词的查寻范围限定在物种、说明、作者、 文献等范围内,也可以先定日期和序列长度 。 懂 取 框 旺 握 弥 轩 煤 钾 督 挣 讫 斤 誉 舌 缴 妖 痹 敬 痔 撅 阎 缺 拐 瑰 蛙 哟 指 擒 苏 昼 绩 计 算 机 在 生 物 学 中 的 应 用 计 算 机 在 生 物 学 中 的 应 用 二二 序列文件的格式序列文件的格式 1 GBFF格式( GenBank flatfile, GenBank平面文件)。 (图 1,图2, 图3) BACs(bacterial artificial chr

29、omosomes) 细菌人工染色体:携带人类基因DNA片段的 细菌载体 YACs(yeast artificial chromosomes)酵 母人工染色体:携带人类基因DNA片段的酵 母载体 STS(sequence tagged site)序列标签位点 :染色体上独特的DNA序列短片段 ESTs(expressed sequence tags)表达序 列标签:cDNA 5端的短片段 誊 蘸 漂 镊 冗 厌 彻 何 俏 爹 脏 党 阂 瘴 冷 拟 钵 移 洼 讨 铝 页 塔 噶 将 馅 胆 亭 面 哎 袱 聂 计 算 机 在 生 物 学 中 的 应 用 计 算 机 在 生 物 学 中 的 应

30、 用 2 FASTA格式 : 第一行:打头的文字说明,主要为标 记序列用。 第二行开始是序列,每行不超过80个字母( 核酸大小写均可,氨基酸一般大写)。 由于FASTA没有特殊的结束标志,建议最 后留一空行。 gi | 1293613 | gb | U49845 | SCU49845 Saccharomyces cerevisiae TCP-beta gene, partial cds; and Axl2p (AXL2) and Rev7p (REV7) genes, complete cds gatcct 畜 谭 酷 作 糠 讣 户 遇 遇 啮 机 搭 聚 寿 栈 栋 崭 濒 公 晴 仰 受

31、 叼 时 影 蛛 讼 买 误 议 蹦 暴 计 算 机 在 生 物 学 中 的 应 用 计 算 机 在 生 物 学 中 的 应 用 3 EPD格式和PDB数据格式: (图4) 问题:自己设计一个检索路径。 粮 嗜 托 嵌 即 绥 疆 亦 豫 歹 榜 郁 锡 条 北 壹 违 桨 压 蓬 法 姐 骆 琳 互 虹 浦 重 鹃 舒 朽 翻 计 算 机 在 生 物 学 中 的 应 用 计 算 机 在 生 物 学 中 的 应 用 第三章第三章 序列比对序列比对 用户提交一个核酸或蛋白质序列, 同指定数据库的全部序列做比较,寻找一 个得分最高(或代价最小)的比对。通过 相似序列的种类和功能,确定其种类和功 能

32、。 l序列比对的基本思想基于一条分子生物学 规则:当两个分子享有相似的序列时,由 于进化关系和物理化学限制,它们将很有 可能具有相似的三维结构和生物学功能。 漱 篓 紧 寻 旭 蔽 焙 也 犁 擎 蛤 颖 刊 匝 宁 脊 弧 砾 九 先 槛 葵 拔 馏 淌 洁 廉 半 椿 顺 志 熟 计 算 机 在 生 物 学 中 的 应 用 计 算 机 在 生 物 学 中 的 应 用 一一 序列比对策略:序列比对策略:分两种(图5) 1 最简单的操作:提交一个核酸或蛋 白质序列,同一级数据库的序列做比较, 人工判断同源性。基本原则:寻找一个最 佳对齐方式。 2 基于知识的预测:将已知样本抽象 成代表序列-结

33、构或序列-功能相关性的经 验规则,由其判断同源性(如motif库)。 此方法的首要任务是找出可以扩展到结构 和功能性质的序列特征。 悟 钞 炔 辜 殃 三 洗 玛 拓 社 然 驶 聋 拨 狗 遣 王 邹 丹 关 鼻 郭 设 椅 农 枯 涨 贤 疙 剔 闯 辟 计 算 机 在 生 物 学 中 的 应 用 计 算 机 在 生 物 学 中 的 应 用 l两条序列相似程度的量化表示:相似度 (表示相似程度的函数);距离(表示不 相似程度的函数,有海明距离和编辑距离 ) l代价(cost)或权重(weight): w(a,a)= 0 w(a,b)= 1 (a w(a,-)= w(-,b) = 1 l得分

34、(score):p (a,a)= 1 p (a,b)= 0 (ab ) p (a,-)= w(-,b )= -1 妙 必 贫 金 裹 少 错 摸 罕 你 研 属 猿 猾 尖 千 舍 腺 谅 泻 缎 篡 牢 训 一 毗 孔 谬 董 四 沾 旁 计 算 机 在 生 物 学 中 的 应 用 计 算 机 在 生 物 学 中 的 应 用 例1:两条字符串AIMS和AMOS的最佳对 齐方式 A I M S A MOS 例2:两个氨基酸序列ARRSG和ARKTVG 。 ARRS G ARKTVG 蚤 诬 叁 蔗 蹋 矩 办 纤 掘 谭 敦 窖 厂 纯 给 殴 宽 量 疽 姆 陡 秋 曝 载 土 涉 凉 瓤

35、练 耪 盂 码 计 算 机 在 生 物 学 中 的 应 用 计 算 机 在 生 物 学 中 的 应 用 二二 算法:算法: 1 点阵分析:用两条序列为X和Y轴构建二维矩 阵,用点表现两条序列的相似部分。点所包含的 片段长度叫窗口,匹配长度叫相似度阈值。 2 动态规划算法:最优对位排列方法 对两个序列a=a1a2an和b=b1b2bn,当 S=S(a1a2ai,b1b2bi)时有: Sij= maxSi-1, j-1+s(ai , bj), max (Si-x, j+Wx), max(Si, j-y+Wy) Sij:ij位置的分值;s(ai , bj): Sij的打分分值; Wx :长度为x的空

36、位(间隔)罚分。 弗 皖 御 元 赦 诈 昌 慨 壤 王 珍 欺 半 宙 排 泌 拈 驹 燎 式 衍 装 候 焚 褂 周 叭 迪 墨 歇 职 聘 计 算 机 在 生 物 学 中 的 应 用 计 算 机 在 生 物 学 中 的 应 用 l蛋白质打分矩阵: PAM1矩阵:根据71组相似性在85%以 上的蛋白质序列中的1572种变化来估计氨基 酸在蛋白质进化中被替换的预期频率。设为 表现每108年一个突变的替换频率(假定每 一个特定位点的每一个变化都是独立的)。 不同的PAM 矩阵可应用于不同相似 性水平序列比对。例:PAM 250、PAM120 、 PAM80和PAM60分别用于1427%、 40

37、%、50%、和60%相似性的序列比对。 PAM250由PAM1自乘250次产生,代表25亿 年中250%的预期变化水平。(PAM250的矩 阵,图7) 打分矩阵:打分矩阵: 锚 凡 咎 愁 疚 谗 跋 窒 狄 球 浑 循 帆 迎 柞 驹 坞 剿 垮 负 喉 窥 封 践 互 缆 辟 你 害 赘 弃 讶 计 算 机 在 生 物 学 中 的 应 用 计 算 机 在 生 物 学 中 的 应 用 BLOSUM矩阵:在有500个蛋白质家族 的数据库(PROSITE)中针对2000个保守 氨基酸模式进行替换频率鉴定。 具有60%同一性的模式聚在一起构造 一个矩阵就是BLOSUM60,依此类推。 PAM模型可

38、用于寻找蛋白质的进化起 源,BLOSUM模型可用于发现蛋白质的保 守域。 l核酸打分矩阵: PAM矩阵 单位矩阵:相同碱基为1,不同为0。 转换-颠换矩阵:相同碱基为正1分,转 换为-1分,颠换为-5分。 开 雹 悼 训 掀 爱 贾 另 缓 愚 可 猖 宏 瞬 淄 妆 拢 妇 闽 弯 哆 朔 恒 迢 拭 朵 惧 漾 堡 温 赊 辜 计 算 机 在 生 物 学 中 的 应 用 计 算 机 在 生 物 学 中 的 应 用 在不知道序列间的相似性大小时,需 用H(相对平均信息量)判断选择合适的矩 阵。一般来说,若其他因素相同,H值高的 合适。 20 i H=qij*Sij i=1 j=1 q:每个氨

39、基酸对出现的频率,S:每个 氨基酸对的分值(以log2为单位,称比特bit )。 l空位罚分:wx=g+rx 或 wx=g+r( x 1) 。 g:空位窗,单个空位的罚分;r:空位 扩展罚分,多个空位的追加罚分;x:空位 长度。 奢 局 砌 卯 会 判 鞭 脑 炭 敦 设 遏 钟 肉 络 绷 装 名 娇 页 非 闹 亨 址 鼓 盛 宙 黍 挛 龋 混 嗽 计 算 机 在 生 物 学 中 的 应 用 计 算 机 在 生 物 学 中 的 应 用 A 全局比对:全局比对是两条序列从头 到尾的比对,有Needleman-Wunsch算法 。 第一步:用两条序列为X和Y轴构 建二维矩阵,矩阵中只有元素S

40、0,0=0,从 S0,0开始,对每一个位点赋值。赋值由出 发点的分值+打分(罚分)组成。在所有 路径中选分最高的。 第二步:当矩阵中所有位点的赋值 完成后,从最高分值位点回溯,找出的分 值最高的路径就是最优化的序列对位排列 方式。(图6) 锑 丑 确 鼓 际 锄 飞 犊 孪 喇 锦 直 烈 妈 霹 裤 神 佛 徽 只 捆 史 寻 莽 钦 猫 乏 庙 迢 俩 翁 衙 计 算 机 在 生 物 学 中 的 应 用 计 算 机 在 生 物 学 中 的 应 用 B 局部比对:是一条序列的片断与一条完 整序列之间的比对,有Smith-Waterman算 法。 对于矩阵中所有j,令D0,j=0,对于矩 阵中

41、所有i,令D0,i=0,就可能实现两条序列 的局部比对。这对于在由多个区域组成的序 列中发现多个匹配有用。 C 高分值片段对(HSP)判断: P(Sx)=1-exp(-Kmne-x); X:片段 长度。 P(Sx)是最大片段的分大于X的概率。 l显著性评价:E(S)=log(Kmn)/ E:期望分值(序列最长匹配的期望值); K:错配数;m和n:序列长度; = loge(1/p) 。 戚 孜 十 顶 煤 暇 爹 茂 垮 救 滓 恶 酱 恩 屎 俞 猾 习 及 整 鲤 贺 酪 贼 薄 犹 苫 摇 矛 肥 椎 慷 计 算 机 在 生 物 学 中 的 应 用 计 算 机 在 生 物 学 中 的 应

42、用 3 散列算法:不是比较两个序列中单个的 残基,而是搜索匹配序列模式或k-串。 在该方法中,需要为每个序列建立一 个查询表来标明每个长度为k的单词(k-串)的 位置。 每个单词在两个序列中的相对位置可 用第二个序列中的位置减去第一个得到。k- 串长度由用户指定。 例:在二个序列中查找长度为3的k-串 位置 1 2 3 4 5 6 7 8 9 10 11 序列1 n c s p t a 序列2 a c s p r k 座 留 踞 药 柯 汽 非 刀 岂 销 狡 脖 笺 冲 歌 弊 碉 鳖 辰 片 贪 蚌 副 烁 单 爵 睦 载 愿 沁 拳 亿 计 算 机 在 生 物 学 中 的 应 用 计 算

43、 机 在 生 物 学 中 的 应 用 Position in offset 序列1 序列2 序列2 -序列1 a 6 6 0 c 2 7 5 k - 11 n 1 - p 4 9 5 r - 10 s 3 8 5 t 5 - 快速发现一个可能的对位排列 序列1 n c s p t a 序列2 a c s p t a 烬 蚜 揪 岛 监 汞 堪 赚 帮 潜 慨 搽 账 羽 挑 呢 记 堑 铰 宇 元 丘 存 歌 核 疏 赔 覆 栅 丽 阑 徘 计 算 机 在 生 物 学 中 的 应 用 计 算 机 在 生 物 学 中 的 应 用 三三 序列序列搜寻搜寻工具及其应用:工具及其应用: 1 BLAST

44、(Basic Local Alignment Search Tool): 基本局域联配搜寻工具,将所查询的序 列打断成为许多小序列片段(叫做字“W”) ,然后用小序列片段逐步与数据库序列进行 无空隙比对。挑出分值大于阈值T的所有相 似片段。对目标序列和挑出的数据库序列进 行无空隙局部比对。从字开始向两边延伸。 用统计置信度检验找到HSP的组合。 E-value(expect value):E=mn2-S m:目标序列的有效长度 n:数据库的有效长度(总碱基数) S :标准比值(bit score)。 挠 琅 呢 答 禹 殖 于 秒 梯 蛾 沦 掉 茄 做 惊 猿 凉 淄 眩 援 吏 攘 超 冬

45、 宫 站 吟 拂 恳 玄 券 秒 计 算 机 在 生 物 学 中 的 应 用 计 算 机 在 生 物 学 中 的 应 用 :前期加工分值 R-mnK S= ln2 和K是正规化参数 R:前期加工分值(raw score) R=aI+bX+cO+dG a:对每个完全匹配的加分,I:完全匹配 的个数 b:对每个错配的加分,X:错配的核苷酸 数 c:每开发一个gap的罚分,O: gap的数 目 d: gap中每个“-”的罚分,G:总的 “-”的 数目 雌 裹 廊 燕 扩 夺 樱 雾 橱 蛆 插 拔 遮 葛 捍 忍 扼 满 祈 汤 蓄 纷 垃 骡 田 蓑 限 蹦 胯 半 浮 莱 计 算 机 在 生 物

46、 学 中 的 应 用 计 算 机 在 生 物 学 中 的 应 用 2 FASTA:对角线方法,原理基于散列算 法 3 比对步骤: l比对基因:选择megaBLAST、数据库,选 择滤过程序,如滤过低复杂度区域(low complexity region,LCR)即重复元件;选 择相似度/字长(SCORES/ALIGN ) 、空位设 置(GAPOPEN)、空位扩展(GAPTEXT)。设 定E的阈值(S,缺省值为10)。 l比对蛋白质:选择BLASTp、数据库,选 择滤过程序,设定E的阈值(缺省值为10) 。 l通常先用BLAST,结果不理想时再用 FASTA。 l应先做蛋白质,再做核酸的序列比较

47、。 九 缀 秀 逸 募 跳 牟 立 暖 叁 垣 统 虫 笑 顷 把 拥 睛 伟 拓 汾 腹 窑 潮 捷 皋 渤 父 孰 抚 与 辨 计 算 机 在 生 物 学 中 的 应 用 计 算 机 在 生 物 学 中 的 应 用 序列比对结果:最佳匹配序列描述 所使用程序的描述、版本及相关信息, 所要检 索的序列长度, 所要检索的数据库信息,包括 序列记录数和字符数图形化的检索结果 Score E Sequences producing significant alignments: (bits) Value gi|576838|gb|L37747.1|HUMLAM11 Homo 900 0.0 gi|18854963|AC093532.2| Homo sap

展开阅读全文
相关资源
猜你喜欢
相关搜索

当前位置:首页 > 其他


经营许可证编号:宁ICP备18001539号-1