第三章序列两两比对.ppt

上传人:京东小超市 文档编号:5912449 上传时间:2020-08-15 格式:PPT 页数:51 大小:475.50KB
返回 下载 相关 举报
第三章序列两两比对.ppt_第1页
第1页 / 共51页
第三章序列两两比对.ppt_第2页
第2页 / 共51页
亲,该文档总共51页,到这儿已超出免费预览范围,如果喜欢就下载吧!
资源描述

《第三章序列两两比对.ppt》由会员分享,可在线阅读,更多相关《第三章序列两两比对.ppt(51页珍藏版)》请在三一文库上搜索。

1、郎 昭 款 比 英 睛 堆 拈 享 搭 愤 嫁 蛤 痪 娇 物 禹 惕 芯 襄 碱 矫 驭 痘 高 塑 骏 扮 醇 夹 配 持 第 三 章 序 列 两 两 比 对 第 三 章 序 列 两 两 比 对 第三章第三章 序列两两比对序列两两比对 王红岩王红岩 粳 孪 茵 软 肇 由 脆 蘑 砒 槐 绊 刨 如 灵 榔 让 潭 抖 磋 疵 卤 瓤 驱 虱 胜 否 轻 耪 锐 营 匡 酪 第 三 章 序 列 两 两 比 对 第 三 章 序 列 两 两 比 对 1 1 主要内容 序言 序列比对的方法 比对用到的得分矩阵 序列比对的统计学显著性 总结 紫 条 募 蚤 痒 宛 赋 臂 辰 疵 哥 息 藤 筛

2、隐 众 围 渐 鸿 嚷 登 班 粥 酒 鸦 癌 胎 挤 豌 扶 蔬 燥 第 三 章 序 列 两 两 比 对 第 三 章 序 列 两 两 比 对 2 2 序 言 序列比较是生物信息分析的基础。它是分析新测定序列结构与功 能的第一阶段。随着生物序列以指数级速度被测定出来,通过对新测 定序列与数据库中已有的序列进行比较来推断新序列功能和进化关系 变的方法变得越来越重要,这种比较最基本的方法是序列比对,也就 是比较序列来找出一种共同的字符模式以建立相关序列的残基残基 之间的一致性。序列两两比对就是对两条序列的比对,它是数据库相 似性搜索的基础。 宅 抄 尹 纠 碎 轨 酮 玻 苟 雷 最 愉 为 颊

3、沏 颂 贸 田 堑 篷 赃 历 醒 妮 杀 适 估 穴 改 胯 熟 吸 第 三 章 序 列 两 两 比 对 第 三 章 序 列 两 两 比 对 3 3 序 言 进化基础 DNA和蛋白质是进化的产物。它们可以被认为是编码数百万年 进化史的分子化石。在进化史上,这些分子经历了随机变化过程,期 中一些被进化所选择而保留了下来。这些被选择的序列逐渐积累突变 和交叉,进化的痕迹在序列的某些部分被保留下来从而可以识别它们 共同的祖先。进化痕迹的存在是由于一些对序列结构和功能起关键作 用的残基倾向于被自然选择所保留;而另一些不起关键作用的残基倾 向于频繁的改变。例如,一个酵母家族的活性位点残基倾向于被保存

4、下来是由于它们对催化功能起作用。所以,通过序列比对,保守的和 改变了的序列模式就能被识别出来。在比对中序列的保守度体现了不 同序列之间的进化关系。反之,序列之间的差别反映了在进化的过程 中序列以替换、插入和删除残基的形式发生了变化。 抽 加 慷 沥 酥 士 蛮 苑 寝 耘 备 拱 据 鹊 殃 番 由 遥 更 喝 蛙 瓦 搜 然 颅 盯 幽 疹 女 峰 鹊 扶 第 三 章 序 列 两 两 比 对 第 三 章 序 列 两 两 比 对 4 4 序 言 识别序列的进化关系能帮助我们描绘未知序列的功能。当一组序列 的比对显示出了显著的相似性,我们就认为它们属于同一个家族。如果 这个家族中一个成员的结构或

5、功能已知,那么它的这些信息就可以推广 到家族中其它没有通过实验验证的序列。所以序列比对可以用于预测未 知结构和功能的序列的结构和功能。 序列比对可以用来推断两条序列是否是相关的。如果两条序列显著 相似,那么这种相似性是随机产生的可能性非常小,也就是说这两条序 列有共同的进化起源。当一个序列比对被正确的做出来,它就反应了两 条序列的进化关系:相同位置出现不同残基的区域代表残基替换;一条 序列的残基对应另一条序列的空位的区域代表在进化的过程中一条序列 出现过残基插入或删除。有一种情况也是可能的,那就是来源于同一祖 先的两条序列在某种程度上分离以至于它们有共同祖先的关系已经不能 从序列的水平上识别了

6、。如果那样的话,它们的进化距离就必须通过其 它的方法识别了。 恳 沥 掺 臂 肯 是 闹 蔑 崩 吴 缺 寡 氓 忙 嫌 幸 溜 函 持 钢 秤 扰 脱 箭 柿 嘶 孪 坏 祸 牛 例 疡 第 三 章 序 列 两 两 比 对 第 三 章 序 列 两 两 比 对 5 5 序 言 序列同源(homology)与序列相似(similarity) 序列同源是序列分析的一个重要概念。当两条序列来源于共同的进 化祖先我们就说它们是同源关系。一个相关但不同的术语是序列相似, 它是指比对的残基在理化性质,如大小,带电,疏水性等方面相似的程 度。 序列同源是根据序列比对时两条序列相似性高到一定程度推导出来 的两

7、条序列具有共同祖先的一种关系。而序列相似通过观察序列比对结 果直接得出的一种结论。序列相似可以用百分比来量化,而序列同源只 能取“是“或“不是“。 大体说来,如果两条序列的相似性足够高,我们就可以认为它们是 同源的。但是在实际问题中,到底多高的相似性才能认为是同源的是不 清除的。答案依赖于被处理的序列类型和序列的长度。 谁 纵 豢 屯 挡 醛 起 宵 拖 渴 岩 缠 纽 冶 氨 东 髓 速 泡 死 却 岛 哟 适 抵 祸 瞧 氨 播 捣 轮 满 第 三 章 序 列 两 两 比 对 第 三 章 序 列 两 两 比 对 6 6 序 言 序列同源(homology)与序列相似(similarity)

8、 对于DNA序列,由于只存在四种碱基,两条不相关的序列同一位置 至少有25%的机会相同,而对于蛋白质序列,一共有20中氨基酸,所以 不相关的序列中出现同一氨基酸的概率为5%。序列长度也是一个关键因 素。序列越短随机出现相同的残基的概率就高,序列越长随机相同的概 率就越小。 这就要求对短的序列给予高的阈值来判断它们同源。例如,对于有 100个氨基酸的蛋白质序列,如果全局比对有30%或更高的残基相同,就 认为它们很有可能同源,这个范围被称为“安全范围”;如果有20%30% 的氨基酸相同,它们的同源关系就不那么肯定了,这个范围被称为“模糊 范围”;如果有低于20%的氨基酸相同,那么就很难认为它们具有

9、同源关 系,这个范围被称为“黑暗范围”(P33图3.1)。这是一种不精确的方法, 尤其是对模糊范围很难判定是否同源,后面介绍的序列比对的统计学上 的显著性将会给出精确的方法判断序列是否同源。 毕 筷 侗 俩 笑 演 快 崩 咳 彩 痈 慕 我 畔 乃 婴 筒 蛊 畜 机 荡 从 泼 瞎 阻 窑 蘑 搽 吱 避 声 敲 第 三 章 序 列 两 两 比 对 第 三 章 序 列 两 两 比 对 7 7 序 言 序列相似(similarity)与序列一致(identity) 序列比对中用到的另一对相关术语是序列相似与序列一致。这两个 概念对于核苷酸序列是同义的。而对于蛋白质序列,这两个概念是非常 不同

10、的。在蛋白质序列比对中,序列一致是指待比对的两条序列中相同 残基匹配的比例;序列相似是指待比对的两条序列中很容易彼此替换具 有相似理化性质残基匹配的比例。有两种方法计算序列相似/一致度。 一种方法是用两条序列的全部长度,而另一种是利用较短的序列进 行标准化。第一种方法用如下公式计算序列相似度: S=(Ls*2)/(La+Lb)*100 其中S是序列相似的百分比,Ls是相似的残基数目,La和Lb分别是两条 序列的长度。 鹅 映 妻 男 氮 监 谍 团 秃 免 丘 逆 词 梨 肄 疾 孺 捐 觅 塘 涣 郧 膛 升 杰 用 卖 卫 化 超 归 赏 第 三 章 序 列 两 两 比 对 第 三 章 序

11、 列 两 两 比 对 8 8 序 言 序列相似(similarity)与序列一致(identity) 第一种方法用如下公式计算序列一致度: I=(Li*2)/(La+Lb)*100 其中I是序列一致的百分比,Li是一致的残基数目,La和Lb分别是两条序 列的长度。 第二种方法利用如下公式计算序列的一致/相似度: I(S)%=Li(S)/La% 其中La是较短序列的长度。 斌 菩 盟 恐 拨 摸 渡 固 删 钒 嚎 豆 涕 服 虚 循 惦 毁 煮 诉 昼 途 珍 塌 滁 殖 克 豌 图 箱 浩 渭 第 三 章 序 列 两 两 比 对 第 三 章 序 列 两 两 比 对 9 9 序列比对的方法 序

12、列两两比对的最终目的是找到两条序列的最佳匹配,也就是找到 残基之间的最大相似。为了达到这个目标,一条序列需要相对于另一条 序列移动以找到具有最大相似程度的位置。有两种经常用到的不同的比 对策略:全局比对和局部比对。 全局比对和局部比对全局比对和局部比对 在全局比对中,我们假定两条序列在整个长度上是相似的。全局比 对时我们从头到尾的比较两条序列以找到最佳匹配。这种方法很适用于 比对两条大体上长度相同且极度相似的序列。对于发散的不同长度的序 列,这种方法不能产生最理想的结果因为它不能识别出两条序列中高度 相似的局部序列。 在局部比对中,我们不假设两条序列全局相似,只是找两条序列中 高度相似的局部区

13、域而不考虑其它区域。这种方法能比对比较分散的序 列来找出DNA或蛋白质序列中的保守模式。被比对的两条序列可以不等 长。 这种方法很适合于比对包含相似模块的分散的生物序列, 以找出 domain或motif。 犀 睬 叁 原 飘 栏 斋 变 猩 赖 矽 湾 郑 每 淖 匆 松 茸 椒 玖 惕 辖 眯 堪 绰 检 旧 甜 坷 霖 呢 叁 第 三 章 序 列 两 两 比 对 第 三 章 序 列 两 两 比 对 1010 序列比对的方法 比对算法 比对算法,不管是全局比对还是局部比对,基本上是相似的,只是 比对相似残基时最优化策略不同。所有比对算法都是基于以下三种方法 的:点阵方法,动态规划方法和基于

14、单词的方法。点阵法和动态规划算 法在这章讲,而基于单词的方法将在下一章讲。 该 崖 遁 蔫 梢 感 秋 浸 撤 燥 休 外 仓 肄 雏 勒 兹 持 依 鲜 鲁 乞 憾 呆 蛛 散 螟 伦 莎 蛔 像 枢 第 三 章 序 列 两 两 比 对 第 三 章 序 列 两 两 比 对 1111 序列比对的方法 点阵方法 最基本的序列比对方法是点阵法,也叫点平面图法。这是一种在二 维矩阵中比较两条序列的直观方法。待比较的两条序列被放在矩阵的横 轴和纵轴上。我们通过扫描一条序列上的每一个残基与另一条序列的所 有残基的相似性来比较两条序列。如果发现了一个残基匹配就在相应位 置画一个点。而矩阵的其它位置保持空白

15、。如果两条序列有大量的相似 区域,就用直线沿着对角线将连续的点连接起来。如果对角线的中间出 现断点,就表明有残基的插入和删除。矩阵中平行的对角线代表序列中 的重复区域。 窜 漠 顽 电 镣 寇 瞅 溜 慢 思 寂 拨 盅 珍 钡 寿 聂 挖 厅 档 属 牵 骑 拈 烫 惦 赌 炬 扑 抖 星 痰 第 三 章 序 列 两 两 比 对 第 三 章 序 列 两 两 比 对 1212 序列比对的方法 蛛 膨 秦 航 肋 趟 魄 刨 搜 嚣 诡 懊 骄 翁 倍 襟 却 倡 滋 续 苯 猎 扫 步 冯 赦 符 慨 媳 幕 秧 翰 第 三 章 序 列 两 两 比 对 第 三 章 序 列 两 两 比 对 13

16、13 序列比对的方法 榆 烛 桶 显 玉 摸 砚 倍 彭 俊 佬 斑 池 菱 度 复 钉 戳 庐 餐 垒 涸 便 饭 迅 敌 壤 屡 冉 席 泰 克 第 三 章 序 列 两 两 比 对 第 三 章 序 列 两 两 比 对 1414 序列比对的方法 点阵方法 用点阵法比较大序列时存在一个问题,那就是高噪音水平。在大多 数点平面上,点被画的到处都是,使真正的比对难以被识别。对于DNA 序列,问题尤其严重,因为DNA序列中只有四种字符,所以每一个碱基 都有1/4的机会与另一条序列的碱基匹配。为了降低噪音,我们不再直接 扫描单个碱基的匹配,而是引进过滤技术。用一个适当长度的“窗口”来 覆盖一段连续的残

17、基。当使用过滤器时,窗口沿着两条序列滑动来比较 所有可能的连续残基。只有当等于窗口长度的一段连续残基和另一条序 列相同长度的残基匹配时才在矩阵中相应位置画点。这种方法在降低噪 音水平上是有效的。窗口也被称作“tuple”,其大小是可以被操纵的以使 它能识别特定模式的序列。然而,如果窗口被选的很长,比对的敏感性 就降低了。 虚 闯 达 滴 淹 壬 啸 沫 氨 爸 瞅 廉 拧 备 婿 拦 仿 戈 徒 黍 捷 轴 硒 找 栅 篙 慨 爹 禁 诗 象 锁 第 三 章 序 列 两 两 比 对 第 三 章 序 列 两 两 比 对 1515 序列比对的方法 拣 蚜 忌 瘸 甜 峪 克 毯 核 环 禽 溯 轩

18、 碱 盅 炊 备 闺 逛 足 飞 卓 蔡 卫 赂 蹦 牛 青 洞 拍 搓 共 第 三 章 序 列 两 两 比 对 第 三 章 序 列 两 两 比 对 1616 序列比对的方法 瓦 迎 郭 币 乱 悲 柿 屏 俘 俱 缅 挞 试 桑 汾 汕 冯 乔 栖 囱 赶 浴 浊 绊 刹 翻 烙 恕 煮 箩 肌 津 第 三 章 序 列 两 两 比 对 第 三 章 序 列 两 两 比 对 1717 序列比对的方法 点阵方法 点阵法有许多变形。例如,一条序列可以和它自身比对以识别内部 重复元素。在自比对当中会存在一条主对角线以表示其完美匹配。如果 内部重复元素存在,会观察到在主对角线的上方或下方有短的对角线。

19、DNA序列的自补(也叫反向重复),例如那些存在发夹结构的家族,也 能用点距阵法识别。在这种情况下,一条DNA序列与它的反向补序列进 行比较。平行的对角线代表反向重复。为了比较蛋白质序列,必须使用 一个权重系统来描述氨基酸残基的相似度。 猜 顾 彦 楞 寞 顾 澡 抠 惭 艰 髓 窑 购 麻 捎 菜 郑 绕 宋 说 裳 捶 余 敝 千 焙 器 咕 么 冈 很 昌 第 三 章 序 列 两 两 比 对 第 三 章 序 列 两 两 比 对 1818 序列比对的方法 自我比较 屎 央 氢 纹 枉 辱 固 扰 啦 姻 汇 穷 清 贪 决 尉 轨 娱 遗 水 面 吾 歪 弹 伺 鸵 瓜 耳 刷 格 渍 憋

20、第 三 章 序 列 两 两 比 对 第 三 章 序 列 两 两 比 对 1919 序列比对的方法 点阵方法 点阵法给出了两条序列关系的一种直观描述,它很容易识别出序 列中高度相似的区域。这种方法的一个显著的优点是可以基于矩阵中 存在的水平方向上或垂直方向上长度相同的对角线来识别序列中的重 复区域。因此这种方法在基因组学中有一定应用。它在识别染色体重 复和比较两个高度相关的基因组中基因顺序的保守性非常有用。它在 通过检测序列的自补性来识别核苷酸序列的二级结构也非常有用。 点阵法能显示所有可能的序列匹配。然而,它要求用户将邻近的 对角线连接起来来构造带有残基插入和删除的全序列比对。这种方法 的另一

21、个缺点是它缺少评价比对质量的统计上的精确性。这种方法在 两两比对中也存在局限性。它很难构造多序列比对。下面是几个利用 点阵法设计的序列两两比对的工具。 Dotmatcher(bioweb.pasteur.fr/seqanal/interfaces/dotmatcher.html) Dottup(bioweb.pasteur.fr/seqanal/interfaces/dottup.html) Dothelix(www.genebee.msu.su/services/dhm/advanced.html) MatrixPlot(www.cbs.dtu.dk/service/MatrixPlot/

22、) 畴 敏 迭 载 些 幢 绍 翟 刽 分 撵 鹰 辖 酝 寒 帧 庐 东 樊 蕾 邓 镣 惜 蜀 策 寄 廖 煤 允 瘩 彩 洁 第 三 章 序 列 两 两 比 对 第 三 章 序 列 两 两 比 对 2020 序列比对的方法 动态规划方法 动态规划是一种通过匹配两条序列中所有可能的字符对来确定最 优比对的方法。它和点阵法基本相似,就是也需要构造一个二维的矩 阵。而它确是通过将点阵转换为记录序列间匹配和失配的得分矩阵来 找最优比对的定量的方法。通过寻找矩阵中的最高分数集合来精确的 找到最佳联配 惮 滔 陇 惊 米 昆 厩 逛 丧 镭 炎 汽 属 哥 敝 陪 撮 洁 颈 浚 即 域 采 韵 放

23、 耿 辨 言 歧 沿 掩 馋 第 三 章 序 列 两 两 比 对 第 三 章 序 列 两 两 比 对 2121 序列比对的方法 动态规划方法 动态规划的第一步是构造两个轴分别是两条待比对的序列的二维 矩阵。残基的匹配是根据一个特殊的得分矩阵。每次计算一行分数。 这个过程开始于一条序列的第一行,用这行扫描另一条序列的全部残 基,紧接着处理第二行。这样匹配分数就被计算出来了。在扫描第二 行的时候计算分数依赖于第一轮计算出来的分数。最优分数被放在矩 阵的右下角。叠代这一过程直到矩阵的所有元素都被填上。因此,分 数是沿着从左上角到右下角的对角线累加的。一但矩阵中的所有分数 都被计算出来,下一步就是寻找

24、代表最佳比对的路径。这一过程是沿 着矩阵的右下角到左上角的相反的顺序来回溯完成的。最优匹配路径 就是总分最高的路径。如果两条或更多的路径得到最高分,就任选一 条代表最佳比对。路径也可以在某一点水平或垂直移动,它代表引入 空位,也就是在其中一条序列中有残基的插入或删除。 变 兆 仓 舅 逝 慧 蒜 远 咒 妻 窖 逝 针 促 届 封 洱 辛 美 累 伴 据 碌 荫 屹 全 财 埔 痹 屎 妈 瘩 第 三 章 序 列 两 两 比 对 第 三 章 序 列 两 两 比 对 2222 序列比对的方法 ACTGCCT A T G C T 1 1 00000 0 0 0 22223 123333 02234

25、55 0233456 最佳比对是:A C T G C C T A - T G - C T 俺 队 将 罕 幂 肮 鸵 彩 铁 刚 制 檬 丹 越 吼 蚀 腕 瘴 度 旁 蜒 学 杂 狡 木 瑞 该 炮 啼 烤 耕 暂 第 三 章 序 列 两 两 比 对 第 三 章 序 列 两 两 比 对 2323 序列比对的方法 空位罚分 在寻找最优比对时要用到代表插入和删除的空位。因为在自然进化 过程中插入和删除发生的频率要比替换相对少,所以引进空位在计算上 应该是比较谨慎的以反映在进化中插入和删除发生的少。然而实际中分 配罚分值是比较任意的,因为没有革命性的理论来确定引进插入和删除 所付出的精确的代价。如

26、果罚分值设置的过低,空位就会过多以至于无 关序列也会得到很高的相似性得分;如果罚分值设置的过高,空位就很 难被引进以至于很难找到合理的比对,这也是不切实际的。通过对球状 蛋白的经验学习,我们已经得到了一组适合于大部分比对的罚分值。在 大多数比对程序中它们可以被用作默认的罚分值。 坟 骡 诱 哇 圾 芍 叮 浙 怨 湾 法 设 澜 贱 睡 豆 氏 埋 伪 谆 隐 协 巍 劲 鳃 静 芭 双 帚 鹤 宏 债 第 三 章 序 列 两 两 比 对 第 三 章 序 列 两 两 比 对 2424 序列比对的方法 空位罚分 另一个要考虑的因素是新开始一个空位和扩展一个已经存在的空位 所付出的代价是不同的。众

27、所周知,扩展一个已经开始的空位是相对容 易的。因此新开一个空位要比扩展一个空位设置更高的罚分值。这是根 据这样一个基本原理,那就是一但插入和删除发生,那么一些临近的残 基很可能一起被插入和删除。这种不同的罚分策略已经在纺射型空位罚 分中被提到。基本的策略就是根据预先调整好的空位罚分值来引进或扩 展空位。例如,可以用-12/-1方案来进行空位罚分,也就是新开一个空 位罚12分,扩展一个空位罚1分。总得罚分(W)用下面的公式计算: W=+*(k-1)+*(k-1) 其中其中代表开始一个空位的代表开始一个空位的罚罚分分值值, 代表代表扩扩展一个空位的展一个空位的罚罚分分值值,k k 代表空位的代表空

28、位的长长度。除了度。除了纺纺射型空位射型空位罚罚分,固定分,固定值值空位空位罚罚分有分有时时也是很也是很 有用的,有用的,这这种种罚罚分模型分模型为为每一个空位分配相同的每一个空位分配相同的罚罚分而不管它是新开空分而不管它是新开空 位位还还是是扩扩展空位。然而,展空位。然而,这这种种罚罚分模型比分模型比纺纺射型射型罚罚分模型不符合分模型不符合实际实际 。 文 赃 僻 真 凰 也 合 灼 栈 藉 淆 购 辛 鹰 郧 报 编 颗 翅 劣 摆 哉 南 淹 恬 甥 碌 鹃 弟 叶 孵 羊 第 三 章 序 列 两 两 比 对 第 三 章 序 列 两 两 比 对 2525 序列比对的方法 空位罚分 在序列

29、末尾的空位我们经常不进行罚分,因为在实际中很多同源的 序列是不等长的。因此末端的空位是允许自由出现的以避免得到不切实 际的比对结果。 狸 地 蹿 礁 央 滩 册 慰 娜 渐 唯 深 假 核 训 惊 悉 舵 竟 京 拍 崔 冒 淌 右 惕 齐 晨 到 貉 倔 累 第 三 章 序 列 两 两 比 对 第 三 章 序 列 两 两 比 对 2626 t t s s A A C C A A C C A A C C T T A A A A GG C C A A C C A A C C A A 例: s = AGCACACA t = ACACACTA 得分矩阵D (99) p (a, a) = 1p (a,

30、 a) = 1 p (a, b) = 0 a p (a, b) = 0 a b b p (a, -) = p ( -, b) = -1p (a, -) = p ( -, b) = -1 痘 氖 丘 膜 你 烙 睁 初 钦 命 抖 崇 渗 绸 讽 饿 眺 潘 夺 骑 毅 耙 耻 伴 跃 喝 处 束 歌 修 无 裔 第 三 章 序 列 两 两 比 对 第 三 章 序 列 两 两 比 对 2727 t s ACACACTA 0-1-2-3-4-5-6-7-8 A-1 G-2 C-3 A-4 C-5 A-6 C-7 A-8 初始化 葡 绚 枯 王 宗 刺 刚 省 钥 镇 奇 修 官 骨 喻 车 芽 重

31、 悬 炕 敲 撂 执 梯 稠 蜕 烃 淀 吮 详 烤 唉 第 三 章 序 列 两 两 比 对 第 三 章 序 列 两 两 比 对 2828 计算d(2,2) t t s s A A C C A A C C A A C C T T A A 0-1-2-3-4-5-6-7-8 A A -110-1-2-3-4-5-6 GG-20 1 1 C C -3 A A -4 C C -5 A A -6 C C -7 A A -8 启 若 签 氟 辙 徊 剂 摔 淤 姬 份 民 矾 榆 焚 雍 侥 缨 穷 病 乳 莽 铁 牧 苗 与 苞 吟 胯 耸 分 卫 第 三 章 序 列 两 两 比 对 第 三 章 序

32、列 两 两 比 对 2929 计算d(2,2) t s ACACACTA 0-1-2-3-4-5-6-7-8 A-110-1-2-3-4-5-6 G-20 1 0-1-2-3-4-5 C-3-11110-1-2-3 A-4-2021210-1 C-5-3-1132321 A-6-4-2024333 C-7-5-3-113543 A-8-6-4-202455 巍 养 淋 力 啪 氯 瞪 捣 稍 妒 泰 号 凝 孙 第 啸 鞍 间 簇 责 拣 衡 檬 晰 人 休 揽 舌 退 捞 仲 狰 第 三 章 序 列 两 两 比 对 第 三 章 序 列 两 两 比 对 3030 最终的得分矩阵 及最佳序列比对

33、 t t s s A A C C A A C C A A C C T T A A 0-1-2-3-4-5-6-7-8 A A -110-1-2-3-4-5-6 GG-2010-1-2-3-4-5 C C -3-11110-1-2-3 A A -4-2021210-1 C C -5-3-1132321 A A -6-4-2024333 C C -7-5-3-113543 A A -8-6-4-202455 AGCACACA | | | ACACACTA 们 例 等 单 山 凋 炎 鸳 镐 膏 邪 赦 跑 综 妒 鱼 钥 法 彪 汛 艰 矮 疯 寻 帕 苟 抗 纯 箱 料 廖 页 第 三 章 序

34、列 两 两 比 对 第 三 章 序 列 两 两 比 对 3131 序列比对的方法 全局比对的动态规划算法 经典的运用动态规划进行全局两两比对的算法是Needleman-Wunsch 算法。在这个算法中,我们会得到一个基于两条序列全长的最佳的比对结 果。它必须对序列从头到尾的进行计算以得到最高比对得分。换句话说, 比对路径必须是从矩阵的最右下角一直到最左上角的原点。关注序列全长 的最大比对得分的缺点是找不到局部的序列相似。这种策略适合于比对高 度相关的等长序列。对于发散的序列或具有不同域结构的序列,用这种方 法不能得到最理想的比对。一个用于全局两两比对的web程序是GAP。 GAP(http:/

35、bioinformatics.iastate.edu/aat/align/align.html)是一个基于 web的序列两两全局比对程序。它比对序列时不进行末尾罚分,所以不同 长度的相似序列可以被比对。为了能在比对中引入长的空位,这个程序运 用固定罚分模型。这个程序适用于比对包含相同基因的染色体杂交品种中 的cDNA。 鸟 了 退 康 遭 微 愿 潭 律 臭 复 抉 科 辛 浅 螺 顾 先 击 姥 唐 融 惊 皂 恬 糊 崖 奔 淖 擦 丧 摄 第 三 章 序 列 两 两 比 对 第 三 章 序 列 两 两 比 对 3232 序列比对的方法 局部比对的动态规划算法 在正常的序列比对中,两条被比

36、对序列的分离水平是不容易知道的。两 条序列的长度可能也不相同。在这种情况下,识别序列的局部相似性比比对 包含所有残基的整个序列更有意义。第一个运用动态规划进行局部序列比对 的算法是Smith-Waterman算法。在这个算法中匹配的残基被赋予正的分数 而失配的残基被赋予零分,不用负分。在这个算法中也用回溯的方法,然而 ,比对路径可能开始和结束于沿对角线的矩阵内部。它开始于矩阵中的最高 分处向左上角回溯一直到第一个为零的位置结束。如果必要的话可以引入空 位。如果有空位经常使用纺射型空位罚分。偶尔会找到几个具有最高得分的 局部区域。在全局比对中,最终结果受到使用的得分矩阵的影响。而局部比 对的目标

37、是找到局部最高分,在扩展最高分的时候可能扩展到全序列。这种 方法适用于比对分散的序列和具有多个来自于不同源的区域的序列。大多数 两两比对程序都用局部比对策略,它们包括SIM,SSEARCH和LALIGN。 公 贤 录 忠 罢 鹅 擎 幕 摸 慑 胀 序 老 糟 咬 亦 西 痉 际 厩 藻 坠 范 惕 碴 肄 丽 伍 槛 丙 扛 戍 第 三 章 序 列 两 两 比 对 第 三 章 序 列 两 两 比 对 3333 序列比对的方法 局部比对的动态规划算法 SIM(http:/bioinformatics.iastate.edu/aat/align/align.html)是一个基于 web的运用Sm

38、ith-Waterman算法寻找两条序列间无重叠的最佳局部比对的 程序。它可以处理几十kbp的基因组序列。用户可以设置使用的得分矩阵和 罚分模型。用它已经得到了很多高得分的比对。 SSEARCH(http:/pir.georgetown.edu/pirwww/search/pairwise.html)是 一个简单的基于web的运用Smith-Waterman算法进行序列两两比对的程序 。它只能得到一个最佳比对得分。用户不能设定使用的得分矩阵和罚分模型 。 LALIGN(www.ch.embnet.org/software/LALIGN_form.html)是一个基于 web的运用改进的Smit

39、h-Waterman算法进行序列比对的算法。不像 SSEARCH只得到一个最佳比对得分,LALIGN给出一系列最佳比对得分。 用户可以设置使用的得分矩阵和罚分模型。这个网页也给出了一个进行全局 比对的程序ALIGN。 讼 编 竟 枝 啥 训 靡 顺 席 扫 复 厚 囤 掌 科 陛 菠 氢 筏 宽 徐 北 吃 宏 柜 返 茸 涛 覆 蔫 甲 识 第 三 章 序 列 两 两 比 对 第 三 章 序 列 两 两 比 对 3434 比对用到的得分矩阵 在目前的动态规划算法中,比对程序必须使用打分系统,也就是用 来量化一个残基被另一个残基替换的可能性的一组数值。打分系统也叫 替换矩阵,他是通过统计分析对

40、高度相似的序列进行可靠比对得到的残 基替换数据集得到的。 核苷酸序列的得分矩阵是相对简单的。对匹配的位置赋予一个正值 或高分,对失配的位置赋予一个负值或低分。这种负值方法是基于所有 碱基的变化频率相同的假设。然而,这种方法是不符合实际的;观察显 示转换(transition)(嘌呤与嘌呤之间的或嘧啶与嘧啶之间的替换)发 生的频率比颠换(transversion)(嘌呤与嘧啶之间的替换)发生的频率 高。因此,需要一个反应不同的残基替换其发生的频率不同的更加复杂 的统计模型。 氨基酸序列的得分矩阵比较复杂,因为分数必须反应氨基酸残基的 理化性质和某种氨基酸被同源序列的残基替换的可能性。某一种氨基酸

41、 可以很容易的被具有相似理化性质的其它氨基酸替换而很难被具有不同 理化性质的氨基酸替换。相似残基之间的替换很容易保存结构和功能特 鳞 溃 泞 址 哺 呐 贮 蒋 禹 凭 觅 讫 疹 钎 纂 娃 中 贵 梧 泽 莆 私 恒 景 肢 扔 极 搭 踩 炽 厉 狗 第 三 章 序 列 两 两 比 对 第 三 章 序 列 两 两 比 对 3535 比对用到的得分矩阵 征。而不同理化性质的残基之间的替换很可能导致结构和功能分离。这种 会产生分裂的替换是很少有可能被进化所选择的,因为这会导致蛋白质失 去功能。 例如,苯丙氨酸,酪氨酸和色氨酸都具有芳香环结构。由于它们化学 性质相似,所以很容易彼此替换而不会破

42、坏蛋白质的正常结构和功能。类 似的,精氨酸,赖氨酸和组氨酸都是大的碱性残基,所以它们很容易彼此 替换。天冬氨酸和谷氨酸属于酸和酸的氨基化合物,因此可以以相对高的 替换频率被联合在一起。疏水残基组包括甲硫氨酸,异亮氨酸,亮氨酸和 缬氨酸。小的极性残基包括丝氨酸,苏氨酸和半胱氨酸。这些组内的残基 有很高的可能性彼此替换。而半胱氨酸包含一个硫基,所以它在金属的结 合,活性位点以及二硫化物结合等方面扮演重要角色。因此别的氨基酸替 换了半胱氨酸经常会彻底破坏酶的活性以及使蛋白质的结构不稳定。它是 一个很少被替换的残基。小的非极性的残基像甘氨酸和脯氨酸也是独一无 二的,它们的存在经常会破坏蛋白质正常的二级

43、结构。因此和它们的替换 也是很少发生的。有关氨基酸群组的理化性质的更多信息请看表12.1。 繁 邓 拯 扮 雾 蝗 藩 钨 蒋 队 疙 拔 吉 谩 能 枚 惦 遵 李 压 焉 马 冀 棘 厉 涟 镰 澳 哆 碉 摸 弓 第 三 章 序 列 两 两 比 对 第 三 章 序 列 两 两 比 对 3636 比对用到的得分矩阵 氨基酸得分矩阵 氨基酸替换矩阵是一个20*20的矩阵,它用来反映氨基酸残基替换 的可能性。存在两种类型的氨基酸替换矩阵。一种是基于基因编码或氨 基酸性质的可交换性;另一种是通过对氨基酸替换的经验学习得到的。 尽管两种不同的方法都符合一定的范围,而第一种,也就是基于基因编 码或氨

44、基酸的理化性质的方法没有第二种方法,也就是基于对实际相关 的蛋白质中氨基酸的替换的考察的方法准确。因此,经验上的方法在实 际序列比对程序中得到普及,它也是我们下面将要讨论的。 经验上的矩阵,包括PAM矩阵和BLOSUM矩阵,是通过对高度相似 序列的实际比对得到的。通过分析在这些比对中氨基酸替换的可能性, 我们就能得到一个得分系统,这个系统对很可能发生的替换打高分,对 很少发生的替换打低分。 鸡 慌 打 感 剪 岁 敬 发 忻 秦 缚 稀 腺 玩 恕 勿 房 酶 镑 霸 眺 矣 炼 苞 毛 杯 儡 轧 汉 妊 刺 芯 第 三 章 序 列 两 两 比 对 第 三 章 序 列 两 两 比 对 373

45、7 比对用到的得分矩阵 氨基酸得分矩阵 对于一个给定的矩阵,一个正的分数说明在一个同源序列的数据集 中观察到的氨基酸替换频率比随机替换频率高。它们代表非常相似的或 是同源的氨基酸之间的替换。零分说明在一个同源序列的数据集中观察 到的氨基酸替换频率和随机替换频率相同。这种情况表明氨基酸至多在 理化性质方面是弱相似。一个负的分数说明在一个同源序列的数据集中 观察到的氨基酸替换频率比随机替换频率低。这通常发生在不相似的残 基之间。 达 牵 贴 棒 茎 蛹 霉 圃 庆 贺 州 琳 佬 足 枷 粮 从 磊 绳 乖 串 温 诬 宁 苔 站 付 酵 浚 鹊 展 乞 第 三 章 序 列 两 两 比 对 第 三

46、 章 序 列 两 两 比 对 3838 比对用到的得分矩阵 氨基酸得分矩阵 替换矩阵通过实施对数转换来描述氨基酸之间替换的可能性。转换 值被称为所谓的对数几率分数,这个分数是观察到的突变频率比上随机 替换频率的对数。这种转换的底数可以是10也可以是2。例如,在一个 包括十条序列的比对中,每条序列只比对一个位点,其中九条序列都是 F剩下的一条是I。那么观察到的I被F替换的频率就是0.1,而I被F随机替 换的可能性是0.05,因此两种可能性的比就是2(0.1/0.05)。然后把这 个值转化成以2为底的对数,对数几率就是1。这个值就可以用来解释两 种残基的替换可能性是21,即替换的可能性是随机替换的

47、两倍。 熔 辐 漾 载 沏 妙 药 祥 座 惫 片 斌 根 岗 竣 丘 酋 铜 磷 佃 盗 托 涡 冉 桂 跟 咕 枷 蔷 亡 图 刚 第 三 章 序 列 两 两 比 对 第 三 章 序 列 两 两 比 对 3939 比对用到的得分矩阵 PAM 矩阵 PAM矩阵(也叫Dayhoff PAM矩阵)是由Margaret Dayhoff首先构 建的,她通过对21组非常接近的相关蛋白质序列进行比对构造出了PAM 矩阵。PAM的意思是“点接受突变”(尽管“可接受的点突变”或者APM更 加合适,但是PAM好发音)。因为使用的是非常接近的同源序列,观察 到的突变不会显著的改变蛋白质的一般功能。因此,观察到的

48、氨基酸突 变被认为是被自然选择接受了的。 这些蛋白质序列被基于用最大简约法构建的系统发育谱聚类。然后 我们就可以得到基于同一类中序列的进化距离的PAM矩阵。一个PAM单 位被定义为有1的氨基酸位点发生了变化。我们选择一组突变频率符 合一个PAM单位的非常相关的序列来构建一个PAM1替换表。在收集这 组序列的突变数据的基础上,我们就能得到一个突变矩阵。 篡 裹 竭 角 夜 吹 坑 碘 谨 恳 限 群 歉 骗 逊 瘪 挡 楷 很 种 捻 雏 珐 触 罚 祈 葬 嗡 包 开 闯 期 第 三 章 序 列 两 两 比 对 第 三 章 序 列 两 两 比 对 4040 比对用到的得分矩阵 PAM 矩阵 构建一个PAM1矩阵包括对一组序列进行全局比对和随后的运用简 约原则构建系统发育树。这个过程需要计算每一个发育树内部节点的祖 先序列。祖先序列信息用来计算沿每一个分支的替换数目。一个特定的 残基对的PAM分数是通过一个多阶段过程得到的,这个过程包括:计算 相对突变率(一个特定氨基酸

展开阅读全文
相关资源
猜你喜欢
相关搜索

当前位置:首页 > 其他


经营许可证编号:宁ICP备18001539号-1