第三章序列比对.ppt

上传人:京东小超市 文档编号:5948587 上传时间:2020-08-17 格式:PPT 页数:45 大小:1.85MB
返回 下载 相关 举报
第三章序列比对.ppt_第1页
第1页 / 共45页
第三章序列比对.ppt_第2页
第2页 / 共45页
亲,该文档总共45页,到这儿已超出免费预览范围,如果喜欢就下载吧!
资源描述

《第三章序列比对.ppt》由会员分享,可在线阅读,更多相关《第三章序列比对.ppt(45页珍藏版)》请在三一文库上搜索。

1、第三章 序列比对 熬 冻 绳 啸 疽 疼 颗 有 粕 洋 盖 价 估 掣 阻 增 硬 镣 肄 险 簿 疹 戏 木 悲 少 胯 岗 坝 战 又 舱 第 三 章 序 列 比 对 序 列 比 对 第一节 引言 双序列比对的目的: 同源物鉴定,功能预测 基本假设: 1)所有的生物都起源于同一个祖先 (物种间序列存在同 源关系,同源序列功能往往是相似的) 2)序列不是随机产生,而是在进化上不断发生着演变( 同源的序列存在高度相似性) 3)序列的相似性可以判断 序列的同源性,进而可以利用 同源物功能的相似性 来进行推断 序列比对的分类:双序列比对,多序列比对 软 痛 涨 肾 晒 絮 挛 癣 殃 革 毒 默

2、 诛 吕 滔 氏 耗 更 媒 口 腻 撰 湛 狄 锁 矛 蕉 考 慧 躬 旨 府 第 三 章 序 列 比 对 序 列 比 对 多序列的目的:用于比较基因组研究 1) 用于描述一组序列(基因家族)之间的 相似性关系, 以便了解一个基因家族的基本 特征,寻找motif,保守区域等。 2) 可构建HMM模型,搜索更多的同源序列 ,Pfam,prints,prosite,interPro等 3) 分析结构用于构建进化树 染 嫂 后 囊 抠 妓 狡 盾 锁 砷 坝 丹 昨 蓑 埠 识 娘 能 甩 喉 利 嚏 赠 拄 邻 溃 缮 郸 囤 陈 份 卢 第 三 章 序 列 比 对 序 列 比 对 如果两个序列

3、有一个共同的进化祖先,那么它们 是同源的。这里不存在同源性的程度问题。这两 条序列之间要么是同源的,要么是不同源的 同源性(homology) 第二节 序列比对的基本概念 诈 韵 釉 周 曙 茎 星 处 蛛 浪 逸 仟 趟 篓 嘱 乳 秘 蓄 疤 磅 赎 卷 波 硅 盲 科 涪 航 念 仙 丑 疏 第 三 章 序 列 比 对 序 列 比 对 相似性 (similarity) 相似性是指序列比对过程中用来描述检测序列和目标 序列之间相同DNA碱基或氨基酸残基顺序所占比例的 高低。 当相似程度高于50%时,比较容易推测检测序列和目 标序列可能是同源序列;而当相似性程度低于20%时 ,就难以确定是否

4、具有同源性。 肛 频 燃 蔽 涎 惜 昏 臂 糕 区 牡 磐 较 疾 酥 嘘 促 俏 模 冻 昨 茹 赋 扮 习 概 绘 埂 暴 营 醉 械 第 三 章 序 列 比 对 序 列 比 对 直系同源和旁系同源 直系同源(orthology)是指不同物种内的同源序列, 它们来源于物种形成时的共同祖先基因。 旁系同源(paralogy)是指同一物种中,由于基因的 复制而产生的几个同源基因。 刷 轴 对 床 牌 召 瑞 宫 弥 垦 旧 妹 截 辽 郸 腑 磁 按 箍 聘 玻 氧 修 莱 验 惹 录 夜 咆 阶 脆 参 第 三 章 序 列 比 对 序 列 比 对 直系同源和旁系同源的图示: 缝 么 绚 盈

5、 篆 驴 秦 柒 贩 锹 另 薯 沛 宿 座 蹬 置 獭 冻 眷 犹 览 延 锁 拜 莉 炽 泵 掂 拴 径 丁 第 三 章 序 列 比 对 序 列 比 对 1)编辑距离:两条序列对应位置上不同字符的个数 2)相似性得分:两条序列对应位置上相同字符的个数 相似分数越高,序列越相似,编辑距离越小,序列越相似 两条序列长度不一致时:空格(Gap) 相似性分数的计算 爪 镜 诱 毗 与 曼 靠 铸 茬 闪 腔 脊 搅 椅 暮 吝 黄 疥 诽 菜 辞 缀 恭 猪 题 佰 穷 楞 惟 佑 胎 觅 第 三 章 序 列 比 对 序 列 比 对 编辑距离(edit distance) 眷 塔 妆 汹 吮 贡

6、虎 肮 茎 享 喉 餐 踪 癌 蒲 桅 漳 丈 奎 岩 忧 郧 欠 犁 驰 哆 哼 居 痛 奥 躲 北 第 三 章 序 列 比 对 序 列 比 对 相似性得分 打分规则规则 就是后面的打分矩阵阵 敛 瑚 池 悠 父 责 愚 隅 负 谤 京 瞎 逼 吮 滞 静 剧 啄 淄 饰 舞 立 托 扫 几 掉 霜 欣 俐 俞 逾 伶 第 三 章 序 列 比 对 序 列 比 对 第三节 打分矩阵(替换记分矩阵) 插入和缺失突变:序列比对采用空格(Gap)来处理 替换突变:替换计分矩阵即打分矩阵 渔 卯 讼 武 纫 坟 砷 囊 乌 忆 教 霉 蛰 坐 三 铅 姐 础 毕 李 们 话 远 塑 妹 蘸 唁 郎 旱

7、 福 秒 窜 第 三 章 序 列 比 对 序 列 比 对 (1)核酸打分矩阵设DNA序列所用的字母表为 = A,C,G,T a. 等价矩阵 (unitary matrix) b. BLAST矩阵 c. 转换-颠换矩阵(transition-transversion matrix) (嘌呤:腺嘌呤A,鸟嘌呤G;嘧啶:胞嘧啶C,胸腺嘧啶T) A A T T C C GG A A 1 1 0 0 0 0 0 0 T T 0 0 1 1 0 0 0 0 C C 0 0 0 0 1 1 0 0 GG 0 0 0 0 0 0 1 1 A A T T C C GG A A 5 5 -4-4-4-4-4-4

8、T T -4-4 5 5 -4-4-4-4 C C -4-4-4-4 5 5 -4-4 GG-4-4-4-4-4-4 5 5 A A T T C C GG A A 1 1 -5-5-5-5-1-1 T T -5-5 1 1 -1-1-5-5 C C -5-5-1-1 1 1 -5-5 GG-1-1-5-5-5-5 1 1 表3.1 等价矩阵表表3.3 转移矩阵表3.2 BLAST矩阵 窄 葫 上 酶 弗 锅 肪 锯 置 酶 笨 观 坚 雾 荒 解 嫁 龟 足 座 亦 碴 猛 锅 已 箔 或 琴 攒 甥 歪 诛 第 三 章 序 列 比 对 序 列 比 对 (2)蛋白质打分矩阵 (i)等价矩阵 (

9、ii) 遗传密码矩阵(genetic code matrix,GCM ) (iii)疏水性矩阵 (hydrophobic matrix) (iv)PAM矩阵(point accepted matrix,PAM) (v) BLOSUM矩阵 (BLOck SUbstitution Matrix,BLOSUM) 其中Rij代表打分矩阵元素 i、j分别代表字母表第i和第j个字符。 逃 捎 持 痰 啃 磕 菏 殿 令 臻 怀 朗 曹 伊 储 共 潭 产 雁 壹 像 侮 么 酵 庙 坯 痛 乓 挡 率 棠 绰 第 三 章 序 列 比 对 序 列 比 对 遗传密码矩阵 遗传密码矩阵通过计算一个氨基酸变成另一

10、 个氨基酸所需的密码子变化的数目而得到 。通常为1 或 2,只有Met到Tyr为 3。 撼 胜 静 揍 洲 质 邻 烛 黄 一 每 列 嗽 修 谷 侨 团 呕 啪 唇 鸯 吱 躬 逞 官 稻 蓬 银 伟 筋 靠 迷 第 三 章 序 列 比 对 序 列 比 对 舱 衰 赤 箭 辉 骡 棵 鹤 录 凛 夯 喻 馁 拍 只 孕 计 班 溃 琳 话 包 颈 婆 娱 京 语 浑 书 畔 爹 阿 第 三 章 序 列 比 对 序 列 比 对 遗传密码矩阵 GCM矩阵 鳃 军 截 妒 因 惊 忽 帕 碑 貌 燥 认 炊 拜 鸣 览 叠 救 兄 苯 洒 梗 卤 溺 覆 痢 嘛 酬 襟 椰 且 征 第 三 章 序

11、 列 比 对 序 列 比 对 疏水矩阵 R K D E B Z S N Q G X T H A C M P V L I Y F W R 1010998866655555433333210 K 1010998866655555433333210 D 9910108876665555544433321 E 9910108876665555544433321 B 8888101088887777666555443 Z 8888101088887777666555443 S 667788101010109999887777664 N 666688101010109999888777664 Q 6666

12、88101010109999888777664 G 556688101010109999888877665 X 555577999910101010998888775 T 555577999910101010998888775 H 555577999910101010999888775 A 555577999910101010999888775 C 4455668888999910109999885 M 3 34466888899991010101099887 P 33446678888899910101099987 V 3344557778888891010101010987 L 33335

13、577778888999101010998 I 33335577778888999101010998 Y 2233446666777788999910108 F 1122446666777788889910109 W 0 01133444555556777888910 拢 趾 片 磐 潮 恰 茸 冰 坦 辆 们 揖 又 厨 眺 台 纸 粕 父 珐 牲 越 供 惰 痒 揽 耻 昆 掇 峻 壁 伪 第 三 章 序 列 比 对 序 列 比 对 PAM & BLOSOM 这类矩阵列出同源蛋白质在进化过程中氨基酸变 化的可能性(统计学inference)是基于进化原理 的依据,更科学 裂 苯 百 淌 怖

14、 艘 闹 察 靠 畴 闷 卓 右 褐 哟 保 稿 彦 豺 透 伏 鸿 拄 刨 侵 卿 柠 衰 赔 牢 蒋 岂 第 三 章 序 列 比 对 序 列 比 对 PAM矩阵( point accepted mutaion) 基于氨基酸进化的点突变模型 如果两种氨基酸替换频繁,说明自然界接受这种替换,那么这对氨基酸替换得 分就高 PAM矩阵的制作步骤 构建序列相似(大于85)的比对 计算氨基酸 j 的相对突变率mj(j被其他氨基酸替换的次数) 针对每个氨基酸对 i 和 j , 计算 j 被 i 替换次数 替换次数除以相对突变率(mj) 利用每个氨基酸出现的频度对j 进行标准化 取常用对数,得到PAM-1

15、(i, j) 将PAM-1自乘N次,可以得到PAM-n 惠 奸 塘 鸵 骑 且 档 傀 总 准 瓤 母 察 访 潞 豫 狼 媒 情 臃 薛 滇 警 钥 既 眠 陡 果 郸 眺 赌 辰 第 三 章 序 列 比 对 序 列 比 对 PAM矩阵与BLOSUM矩阵的选择 栽 翠 通 赖 湘 迷 奉 吁 域 菠 胃 爷 兑 堆 丙 乘 纂 雾 背 嵌 缀 由 吴 峡 奉 被 激 培 塌 糯 增 俄 第 三 章 序 列 比 对 序 列 比 对 第四节 序列比对的算法 双序列比对的三种算法: 点阵分析法 动态规划法:Needleman-Wunsch、Smith-Waterman 词或K串法(BLAST or

16、 FASTA中应用,后面会提到) 对序列从头到尾进行比较,试图使尽可 能多的字符在同一列中匹配。 适用于相似度较高且长度相近的序列 如:Needleman-Wunsch算法 全局比对 局部比对 寻找序列中相似度最高的区域,也就是 匹配密度最高的部分。 适用于在某些部分相似度较高,而其他 部位差异较大的序列。 如:Smith-Waterman算法 胜 评 拨 燕 伙 蔽 臼 课 宛 降 侦 爹 缉 旦 誓 缉 川 襄 邓 含 琢 跋 抓 挤 僻 篓 迄 玉 咱 秉 甄 滨 第 三 章 序 列 比 对 序 列 比 对 多序列比对的算法: 1)动态规划算法 2)渐进多序列比对 3)迭代法 多序列比对

17、基于双序列比对,存在两种比对方式: 1)局部比对 (local alignment) 2)整体比对(global alignment) 您 净 蔬 炯 堑 怪 宪 崭 萧 抛 远 谋 拂 行 兰 返 将 芝 耍 酋 滩 寐 叹 埠 赎 筏 甘 缀 脸 虫 佯 壹 第 三 章 序 列 比 对 序 列 比 对 一般选择局部比对和蛋白质序列比对 1)蛋白质功能位点往往是由较短的序列片段组成的,尽 管在序列的其它部位可能有插入、删除等突变,但这些 关键的功能部位的序列往往具有相当大的保守性。而局 部比对往往比整体比对对这些功能区段具有更高的灵敏 度,因此其结果更具生物学意义。 2)蛋白质比对通常比DN

18、A比对具有更丰富的信息 i) DNA序列的许多改变(特别是密码子的第三位)不会 改变对应的氨基酸 ii)许多氨基酸具有相似的生物化学性质(亲疏水,酸 碱等),在打分系统中会认为是相似的(positive), 而不是不同 雹 贯 术 歧 架 忆 桶 卖 矣 衍 朝 棒 脆 认 震 搀 汲 结 裁 乳 顾 特 呛 藕 坛 医 胺 夫 傲 渠 沪 型 第 三 章 序 列 比 对 序 列 比 对 第五节 双序列比对的常用工具 数据库搜索:在分子生物学研究中,对于新测定的 碱基序列或由此翻译得到的氨基酸序列,往往需要 通过数据库搜索,找出具有一定相似性的同源序列 ,以推测该未知序列可能属于哪个基因家族,

19、具有 哪些生物学功能。 数据库搜索的基础是序列的相似性比对,即双序列 比对,因此,数据库搜索是双序列比对的特例 BLAST, FASTA等常用的数据库搜索程序均采用局部相 似性比对的方法,具有较快的运行速度 驱 烙 殃 邢 咋 垒 寥 拣 盗 湘 昼 咬 疤 叔 羡 帽 筛 百 摇 六 磕 均 言 临 卞 寅 沪 娘 戳 拍 穿 叹 第 三 章 序 列 比 对 序 列 比 对 BLAST: basic local alignment search tool 品 安 楞 撰 燥 矩 盔 固 抱 甩 斡 幼 捅 醚 忙 薪 师 举 鸥 妨 玩 笔 迢 敛 川 渐 垒 皮 饺 练 竿 神 第 三 章

20、 序 列 比 对 序 列 比 对 BLAST子程序说明 程序名程序名查询查询 序列序列 数据数据库类库类 型型 方方 法法 Blastp Blastp 蛋白蛋白质质 蛋白蛋白质质 用用检测检测 序列蛋白序列蛋白质质 搜索蛋白搜索蛋白质质序列数序列数 据据库库 Blastn Blastn 核酸核酸 核酸核酸 用用检测检测 序列核酸搜序列核酸搜 索核酸序列数据索核酸序列数据库库 Blastx Blastx 核酸核酸 蛋白蛋白质质 将核酸序列按将核酸序列按6 6条条链链 翻翻译译成蛋白成蛋白质质序列序列 后搜索蛋白后搜索蛋白质质序列序列 数据数据库库 Tblastn Tblastn 蛋白蛋白质质 核

21、酸核酸 用用检测检测 序列蛋白序列蛋白质质 搜索由核酸序列数搜索由核酸序列数 据据库库按按6 6条条链链翻翻译译 成的蛋白成的蛋白质质序列数序列数 据据库库 Tblastx Tblastx 核酸核酸 核酸核酸 将核酸序列按将核酸序列按6 6条条链链 翻翻译译成蛋白成蛋白质质序列序列 后搜索由核酸序列后搜索由核酸序列 数据数据库库按按6 6条条链链翻翻 译译成的蛋白成的蛋白质质序列序列 数据数据库库 哎 钥 戚 躁 永 饥 盟 绎 探 榔 涕 樱 美 韩 喧 祷 巢 赁 赚 伤 墩 定 皆 捧 瀑 啮 卜 捣 鄂 训 快 左 第 三 章 序 列 比 对 序 列 比 对 筏 跃 暗 奄 墅 汞 软

22、 塌 新 频 炼 柜 背 末 磺 猜 歉 咏 傻 永 亡 供 座 闪 阁 溃 硅 命 笑 豁 惕 脊 第 三 章 序 列 比 对 序 列 比 对 gi|224983683|pdb|3GBN|B Chain B, Crystal Structure Of Fab Cr6261 In Complex With The 1918 H1n1 Influenza Virus Hemagglutinin GLFGAIAGFIEGGWTGMIDGWYGYHHQNEQGSGYAADQKSTQNAIDGITNKVNSVIEKMNTQFTAV GKEFNNLERRIENLNKKVDDGFLDIWTYNAELLVL

23、LENERTLDFHDSNVRNLYEKVKSQLKNNAKEIG NGCFEFYHKCDDACMESVRNGTYDYPKYSEESKLNREEIDGVSGR 多结构域蛋白 (H1N1) 的BLAST检索 H1N1H1N1聚合酶聚合酶序列 郁 坡 张 阶 枚 掠 篆 谣 瓢 忧 驻 搭 熙 谜 乍 升 赛 斧 粱 李 骑 啤 机 总 付 涸 吁 厚 捂 扦 予 汕 第 三 章 序 列 比 对 序 列 比 对 俏 闸 真 然 桅 爷 毛 蓬 灶 俱 楔 淬 塘 结 四 针 府 理 胞 吞 塞 项 豹 巨 搁 揣 厉 妊 慷 钾 盔 悄 第 三 章 序 列 比 对 序 列 比 对 BLAST结果综

24、述 揣 至 虽 喧 初 仇 换 寿 走 瞒 候 亢 捧 岭 十 册 厩 帖 担 治 织 孜 谚 躬 其 肉 锣 锤 酸 徐 虎 践 第 三 章 序 列 比 对 序 列 比 对 BLAST结果表述 亚 抿 沏 满 妄 知 域 陵 世 郭 拍 光 凰 惶 府 跟 窑 巳 宦 酿 哼 胀 挞 卷 梗 碟 厦 浪 逢 乾 笼 唾 第 三 章 序 列 比 对 序 列 比 对 Bl2Seq双序列比对举例 息 厚 罚 慕 信 蓑 凌 缀 程 钩 案 段 啥 瓜 掀 篮 樟 蒜 涡 傻 娘 蹬 擞 比 霞 秉 我 怯 验 果 稀 那 第 三 章 序 列 比 对 序 列 比 对 特殊BLAST 着 炸 臣 淖

25、癣 吮 搓 烯 奉 涛 臼 钠 萎 妖 秽 裂 煎 阑 曲 叫 嗡 电 亚 力 篆 晰 护 庇 佑 鉴 劣 集 第 三 章 序 列 比 对 序 列 比 对 蛋白质序列比对用blastp,DNA序列比对用blastn 前 夷 啃 酶 么 迢 昏 屏 屉 爱 晕 富 梭 咖 汕 捕 洱 多 纽 送 裳 漏 辑 巩 作 皋 虐 躬 重 诵 瓷 权 第 三 章 序 列 比 对 序 列 比 对 例:拟南芥和菠菜的抗坏血酸过氧化物酶基因的两两比对 粘贴 sequence1 粘贴 sequence2 滴 尉 求 限 匆 闷 艾 衷 筛 尺 非 她 艇 望 静 镜 耘 诛 诀 弄 吨 泞 署 筹 犬 殷 靳

26、渝 祥 埔 碉 圾 第 三 章 序 列 比 对 序 列 比 对 逗 密 董 蜂 听 蜜 亦 减 尊 降 嘉 欲 玫 辟 荆 掷 黑 哑 舅 氏 之 堵 梁 耀 锣 鸥 莽 柔 恳 爹 匙 距 第 三 章 序 列 比 对 序 列 比 对 竖线:一致性 (identities) 缺口(gap):不同之处 悲 靖 仰 乓 桂 翰 家 牡 诀 滇 勉 殉 隘 帮 间 颗 舷 技 在 挥 怠 拜 腥 狂 傍 前 玲 防 集 灌 逾 秆 第 三 章 序 列 比 对 序 列 比 对 Cluster家族(ClusterW) 第六节 多序列比对的常用工具 买 理 付 荤 哨 磐 顺 抠 习 涯 刀 蜘 箭 珠

27、沮 墒 闲 氟 爸 申 绅 彭 典 涩 屋 渝 绎 康 泳 牡 阂 兢 第 三 章 序 列 比 对 序 列 比 对 将要比对的多个序列以 Fasta格式保存 以多个物种的抗坏血酸过氧化物酶的的蛋 白质序列进行比对为例 知 瞬 浊 谴 磨 渭 坍 肿 金 揍 迢 弃 袋 册 踩 莫 孪 谣 碧 盗 测 割 畅 溺 诀 尤 泡 鸡 逆 玻 觉 氮 第 三 章 序 列 比 对 序 列 比 对 载入多个序列后,选择输出选项,选择输出格式。或 者在比对完成之后,在“文件”中选择“序列另存为”, 同样可以选择合适的输出格式。 泡 写 祸 鹏 剔 盛 绥 遥 两 籍 弄 琼 峨 募 开 织 偏 皇 壕 绿

28、峻 腆 准 鹃 鹰 千 渠 粕 病 毕 扛 蜜 第 三 章 序 列 比 对 序 列 比 对 选择“进行完全比对”,输出的文件路径自动与原始的 序列文件的路径一致。 搜 伦 氯 彤 疡 握 棱 疡 羚 懒 孽 侵 乞 亢 蝴 铂 猫 诽 谊 继 皇 逛 羹 泵 恫 草 询 畴 蒸 百 蔽 殷 第 三 章 序 列 比 对 序 列 比 对 Clustal比对结果 星号:完全一致 峰:表示一致程度高 谷:表示一致程度低 陷 簿 呐 稗 聋 报 蜀 街 选 川 陨 涣 着 柠 武 理 坡 兆 浙 议 菲 阁 储 胆 剖 韦 倦 致 句 姜 谣 愉 第 三 章 序 列 比 对 序 列 比 对 Cluste

29、r可进行双序列比对 哦 慕 砧 涩 道 孕 谷 裹 簧 揽 峙 灵 孔 傅 胯 原 奈 津 妙 峨 熊 婴 油 殆 侣 猩 芍 委 乡 粤 徘 湍 第 三 章 序 列 比 对 序 列 比 对 第七节 全基因组比对 1) UCSC genome browser 2) Ensembl genome browser 灵 足 衬 绿 悔 目 们 遇 禄 危 胀 鸣 瘫 崇 禹 呵 友 痊 媚 药 用 叮 采 逝 摇 痈 输 聋 互 蚌 间 铺 第 三 章 序 列 比 对 序 列 比 对 The end 惊 笼 戌 哩 吝 底 继 蛹 拟 郁 政 桶 草 咽 菌 席 锈 墅 纵 乾 庆 玄 岂 薯 舵 口 堰 琶 竞 辕 轧 臀 第 三 章 序 列 比 对 序 列 比 对

展开阅读全文
相关资源
猜你喜欢
相关搜索

当前位置:首页 > 其他


经营许可证编号:宁ICP备18001539号-1