第三章序列两两比对.ppt_三一文库31doc.com

资源描述

《第三章序列两两比对.ppt》由会员分享，可在线阅读，更多相关《第三章序列两两比对.ppt（51页珍藏版）》请在三一文库上搜索。

1、郎昭款比英睛堆拈享搭愤嫁蛤痪娇物禹惕芯襄碱矫驭痘高塑骏扮醇夹配持第三章序列两两比对第三章序列两两比对第三章第三章序列两两比对序列两两比对王红岩王红岩粳孪茵软肇由脆蘑砒槐绊刨如灵榔让潭抖磋疵卤瓤驱虱胜否轻耪锐营匡酪第三章序列两两比对第三章序列两两比对 1 1 主要内容序言序列比对的方法比对用到的得分矩阵序列比对的统计学显著性总结紫条募蚤痒宛赋臂辰疵哥息藤筛

2、隐众围渐鸿嚷登班粥酒鸦癌胎挤豌扶蔬燥第三章序列两两比对第三章序列两两比对 2 2 序言序列比较是生物信息分析的基础。它是分析新测定序列结构与功能的第一阶段。随着生物序列以指数级速度被测定出来，通过对新测定序列与数据库中已有的序列进行比较来推断新序列功能和进化关系变的方法变得越来越重要，这种比较最基本的方法是序列比对，也就是比较序列来找出一种共同的字符模式以建立相关序列的残基残基之间的一致性。序列两两比对就是对两条序列的比对，它是数据库相似性搜索的基础。宅抄尹纠碎轨酮玻苟雷最愉为颊

3、沏颂贸田堑篷赃历醒妮杀适估穴改胯熟吸第三章序列两两比对第三章序列两两比对 3 3 序言进化基础 DNA和蛋白质是进化的产物。它们可以被认为是编码数百万年进化史的分子化石。在进化史上，这些分子经历了随机变化过程，期中一些被进化所选择而保留了下来。这些被选择的序列逐渐积累突变和交叉，进化的痕迹在序列的某些部分被保留下来从而可以识别它们共同的祖先。进化痕迹的存在是由于一些对序列结构和功能起关键作用的残基倾向于被自然选择所保留；而另一些不起关键作用的残基倾向于频繁的改变。例如，一个酵母家族的活性位点残基倾向于被保存

4、下来是由于它们对催化功能起作用。所以，通过序列比对，保守的和改变了的序列模式就能被识别出来。在比对中序列的保守度体现了不同序列之间的进化关系。反之，序列之间的差别反映了在进化的过程中序列以替换、插入和删除残基的形式发生了变化。抽加慷沥酥士蛮苑寝耘备拱据鹊殃番由遥更喝蛙瓦搜然颅盯幽疹女峰鹊扶第三章序列两两比对第三章序列两两比对 4 4 序言识别序列的进化关系能帮助我们描绘未知序列的功能。当一组序列的比对显示出了显著的相似性，我们就认为它们属于同一个家族。如果这个家族中一个成员的结构或

5、功能已知，那么它的这些信息就可以推广到家族中其它没有通过实验验证的序列。所以序列比对可以用于预测未知结构和功能的序列的结构和功能。序列比对可以用来推断两条序列是否是相关的。如果两条序列显著相似，那么这种相似性是随机产生的可能性非常小，也就是说这两条序列有共同的进化起源。当一个序列比对被正确的做出来，它就反应了两条序列的进化关系：相同位置出现不同残基的区域代表残基替换；一条序列的残基对应另一条序列的空位的区域代表在进化的过程中一条序列出现过残基插入或删除。有一种情况也是可能的，那就是来源于同一祖先的两条序列在某种程度上分离以至于它们有共同祖先的关系已经不能从序列的水平上识别了

6、。如果那样的话，它们的进化距离就必须通过其它的方法识别了。恳沥掺臂肯是闹蔑崩吴缺寡氓忙嫌幸溜函持钢秤扰脱箭柿嘶孪坏祸牛例疡第三章序列两两比对第三章序列两两比对 5 5 序言序列同源（homology）与序列相似（similarity）序列同源是序列分析的一个重要概念。当两条序列来源于共同的进化祖先我们就说它们是同源关系。一个相关但不同的术语是序列相似，它是指比对的残基在理化性质，如大小，带电，疏水性等方面相似的程度。序列同源是根据序列比对时两条序列相似性高到一定程度推导出来的两

7、条序列具有共同祖先的一种关系。而序列相似通过观察序列比对结果直接得出的一种结论。序列相似可以用百分比来量化，而序列同源只能取“是“或“不是“。大体说来，如果两条序列的相似性足够高，我们就可以认为它们是同源的。但是在实际问题中，到底多高的相似性才能认为是同源的是不清除的。答案依赖于被处理的序列类型和序列的长度。谁纵豢屯挡醛起宵拖渴岩缠纽冶氨东髓速泡死却岛哟适抵祸瞧氨播捣轮满第三章序列两两比对第三章序列两两比对 6 6 序言序列同源（homology）与序列相似（similarity）

8、对于DNA序列，由于只存在四种碱基，两条不相关的序列同一位置至少有25%的机会相同，而对于蛋白质序列，一共有20中氨基酸，所以不相关的序列中出现同一氨基酸的概率为5%。序列长度也是一个关键因素。序列越短随机出现相同的残基的概率就高，序列越长随机相同的概率就越小。这就要求对短的序列给予高的阈值来判断它们同源。例如，对于有 100个氨基酸的蛋白质序列，如果全局比对有30%或更高的残基相同，就认为它们很有可能同源，这个范围被称为“安全范围”；如果有20%30% 的氨基酸相同，它们的同源关系就不那么肯定了，这个范围被称为“模糊范围”；如果有低于20%的氨基酸相同，那么就很难认为它们具有

9、同源关系，这个范围被称为“黑暗范围”（P33图3.1)。这是一种不精确的方法，尤其是对模糊范围很难判定是否同源，后面介绍的序列比对的统计学上的显著性将会给出精确的方法判断序列是否同源。毕筷侗俩笑演快崩咳彩痈慕我畔乃婴筒蛊畜机荡从泼瞎阻窑蘑搽吱避声敲第三章序列两两比对第三章序列两两比对 7 7 序言序列相似（similarity）与序列一致（identity）序列比对中用到的另一对相关术语是序列相似与序列一致。这两个概念对于核苷酸序列是同义的。而对于蛋白质序列，这两个概念是非常不同

10、的。在蛋白质序列比对中，序列一致是指待比对的两条序列中相同残基匹配的比例；序列相似是指待比对的两条序列中很容易彼此替换具有相似理化性质残基匹配的比例。有两种方法计算序列相似/一致度。一种方法是用两条序列的全部长度，而另一种是利用较短的序列进行标准化。第一种方法用如下公式计算序列相似度： S=(Ls*2)/(La+Lb)*100 其中S是序列相似的百分比，Ls是相似的残基数目，La和Lb分别是两条序列的长度。鹅映妻男氮监谍团秃免丘逆词梨肄疾孺捐觅塘涣郧膛升杰用卖卫化超归赏第三章序列两两比对第三章序

11、列两两比对 8 8 序言序列相似（similarity）与序列一致（identity）第一种方法用如下公式计算序列一致度： I=(Li*2)/(La+Lb)*100 其中I是序列一致的百分比，Li是一致的残基数目，La和Lb分别是两条序列的长度。第二种方法利用如下公式计算序列的一致/相似度： I(S)%=Li(S)/La% 其中La是较短序列的长度。斌菩盟恐拨摸渡固删钒嚎豆涕服虚循惦毁煮诉昼途珍塌滁殖克豌图箱浩渭第三章序列两两比对第三章序列两两比对 9 9 序列比对的方法序

12、列两两比对的最终目的是找到两条序列的最佳匹配，也就是找到残基之间的最大相似。为了达到这个目标，一条序列需要相对于另一条序列移动以找到具有最大相似程度的位置。有两种经常用到的不同的比对策略：全局比对和局部比对。全局比对和局部比对全局比对和局部比对在全局比对中，我们假定两条序列在整个长度上是相似的。全局比对时我们从头到尾的比较两条序列以找到最佳匹配。这种方法很适用于比对两条大体上长度相同且极度相似的序列。对于发散的不同长度的序列，这种方法不能产生最理想的结果因为它不能识别出两条序列中高度相似的局部序列。在局部比对中，我们不假设两条序列全局相似，只是找两条序列中高度相似的局部区

13、域而不考虑其它区域。这种方法能比对比较分散的序列来找出DNA或蛋白质序列中的保守模式。被比对的两条序列可以不等长。这种方法很适合于比对包含相似模块的分散的生物序列，以找出 domain或motif。犀睬叁原飘栏斋变猩赖矽湾郑每淖匆松茸椒玖惕辖眯堪绰检旧甜坷霖呢叁第三章序列两两比对第三章序列两两比对 1010 序列比对的方法比对算法比对算法，不管是全局比对还是局部比对，基本上是相似的，只是比对相似残基时最优化策略不同。所有比对算法都是基于以下三种方法的：点阵方法，动态规划方法和基于

14、单词的方法。点阵法和动态规划算法在这章讲，而基于单词的方法将在下一章讲。该崖遁蔫梢感秋浸撤燥休外仓肄雏勒兹持依鲜鲁乞憾呆蛛散螟伦莎蛔像枢第三章序列两两比对第三章序列两两比对 1111 序列比对的方法点阵方法最基本的序列比对方法是点阵法，也叫点平面图法。这是一种在二维矩阵中比较两条序列的直观方法。待比较的两条序列被放在矩阵的横轴和纵轴上。我们通过扫描一条序列上的每一个残基与另一条序列的所有残基的相似性来比较两条序列。如果发现了一个残基匹配就在相应位置画一个点。而矩阵的其它位置保持空白

15、。如果两条序列有大量的相似区域，就用直线沿着对角线将连续的点连接起来。如果对角线的中间出现断点，就表明有残基的插入和删除。矩阵中平行的对角线代表序列中的重复区域。窜漠顽电镣寇瞅溜慢思寂拨盅珍钡寿聂挖厅档属牵骑拈烫惦赌炬扑抖星痰第三章序列两两比对第三章序列两两比对 1212 序列比对的方法蛛膨秦航肋趟魄刨搜嚣诡懊骄翁倍襟却倡滋续苯猎扫步冯赦符慨媳幕秧翰第三章序列两两比对第三章序列两两比对 13

16、13 序列比对的方法榆烛桶显玉摸砚倍彭俊佬斑池菱度复钉戳庐餐垒涸便饭迅敌壤屡冉席泰克第三章序列两两比对第三章序列两两比对 1414 序列比对的方法点阵方法用点阵法比较大序列时存在一个问题，那就是高噪音水平。在大多数点平面上，点被画的到处都是，使真正的比对难以被识别。对于DNA 序列，问题尤其严重，因为DNA序列中只有四种字符，所以每一个碱基都有1/4的机会与另一条序列的碱基匹配。为了降低噪音，我们不再直接扫描单个碱基的匹配，而是引进过滤技术。用一个适当长度的“窗口”来覆盖一段连续的残

17、基。当使用过滤器时，窗口沿着两条序列滑动来比较所有可能的连续残基。只有当等于窗口长度的一段连续残基和另一条序列相同长度的残基匹配时才在矩阵中相应位置画点。这种方法在降低噪音水平上是有效的。窗口也被称作“tuple”，其大小是可以被操纵的以使它能识别特定模式的序列。然而，如果窗口被选的很长，比对的敏感性就降低了。虚闯达滴淹壬啸沫氨爸瞅廉拧备婿拦仿戈徒黍捷轴硒找栅篙慨爹禁诗象锁第三章序列两两比对第三章序列两两比对 1515 序列比对的方法拣蚜忌瘸甜峪克毯核环禽溯轩

18、碱盅炊备闺逛足飞卓蔡卫赂蹦牛青洞拍搓共第三章序列两两比对第三章序列两两比对 1616 序列比对的方法瓦迎郭币乱悲柿屏俘俱缅挞试桑汾汕冯乔栖囱赶浴浊绊刹翻烙恕煮箩肌津第三章序列两两比对第三章序列两两比对 1717 序列比对的方法点阵方法点阵法有许多变形。例如，一条序列可以和它自身比对以识别内部重复元素。在自比对当中会存在一条主对角线以表示其完美匹配。如果内部重复元素存在，会观察到在主对角线的上方或下方有短的对角线。

19、DNA序列的自补（也叫反向重复），例如那些存在发夹结构的家族，也能用点距阵法识别。在这种情况下，一条DNA序列与它的反向补序列进行比较。平行的对角线代表反向重复。为了比较蛋白质序列，必须使用一个权重系统来描述氨基酸残基的相似度。猜顾彦楞寞顾澡抠惭艰髓窑购麻捎菜郑绕宋说裳捶余敝千焙器咕么冈很昌第三章序列两两比对第三章序列两两比对 1818 序列比对的方法自我比较屎央氢纹枉辱固扰啦姻汇穷清贪决尉轨娱遗水面吾歪弹伺鸵瓜耳刷格渍憋

20、第三章序列两两比对第三章序列两两比对 1919 序列比对的方法点阵方法点阵法给出了两条序列关系的一种直观描述，它很容易识别出序列中高度相似的区域。这种方法的一个显著的优点是可以基于矩阵中存在的水平方向上或垂直方向上长度相同的对角线来识别序列中的重复区域。因此这种方法在基因组学中有一定应用。它在识别染色体重复和比较两个高度相关的基因组中基因顺序的保守性非常有用。它在通过检测序列的自补性来识别核苷酸序列的二级结构也非常有用。点阵法能显示所有可能的序列匹配。然而，它要求用户将邻近的对角线连接起来来构造带有残基插入和删除的全序列比对。这种方法的另一

21、个缺点是它缺少评价比对质量的统计上的精确性。这种方法在两两比对中也存在局限性。它很难构造多序列比对。下面是几个利用点阵法设计的序列两两比对的工具。 Dotmatcher（bioweb.pasteur.fr/seqanal/interfaces/dotmatcher.html) Dottup(bioweb.pasteur.fr/seqanal/interfaces/dottup.html) Dothelix(www.genebee.msu.su/services/dhm/advanced.html) MatrixPlot(www.cbs.dtu.dk/service/MatrixPlot/

22、) 畴敏迭载些幢绍翟刽分撵鹰辖酝寒帧庐东樊蕾邓镣惜蜀策寄廖煤允瘩彩洁第三章序列两两比对第三章序列两两比对 2020 序列比对的方法动态规划方法动态规划是一种通过匹配两条序列中所有可能的字符对来确定最优比对的方法。它和点阵法基本相似，就是也需要构造一个二维的矩阵。而它确是通过将点阵转换为记录序列间匹配和失配的得分矩阵来找最优比对的定量的方法。通过寻找矩阵中的最高分数集合来精确的找到最佳联配惮滔陇惊米昆厩逛丧镭炎汽属哥敝陪撮洁颈浚即域采韵放

23、耿辨言歧沿掩馋第三章序列两两比对第三章序列两两比对 2121 序列比对的方法动态规划方法动态规划的第一步是构造两个轴分别是两条待比对的序列的二维矩阵。残基的匹配是根据一个特殊的得分矩阵。每次计算一行分数。这个过程开始于一条序列的第一行，用这行扫描另一条序列的全部残基，紧接着处理第二行。这样匹配分数就被计算出来了。在扫描第二行的时候计算分数依赖于第一轮计算出来的分数。最优分数被放在矩阵的右下角。叠代这一过程直到矩阵的所有元素都被填上。因此，分数是沿着从左上角到右下角的对角线累加的。一但矩阵中的所有分数都被计算出来，下一步就是寻找

24、代表最佳比对的路径。这一过程是沿着矩阵的右下角到左上角的相反的顺序来回溯完成的。最优匹配路径就是总分最高的路径。如果两条或更多的路径得到最高分，就任选一条代表最佳比对。路径也可以在某一点水平或垂直移动，它代表引入空位，也就是在其中一条序列中有残基的插入或删除。变兆仓舅逝慧蒜远咒妻窖逝针促届封洱辛美累伴据碌荫屹全财埔痹屎妈瘩第三章序列两两比对第三章序列两两比对 2222 序列比对的方法 ACTGCCT A T G C T 1 1 00000 0 0 0 22223 123333 02234

25、55 0233456 最佳比对是：A C T G C C T A - T G - C T 俺队将罕幂肮鸵彩铁刚制檬丹越吼蚀腕瘴度旁蜒学杂狡木瑞该炮啼烤耕暂第三章序列两两比对第三章序列两两比对 2323 序列比对的方法空位罚分在寻找最优比对时要用到代表插入和删除的空位。因为在自然进化过程中插入和删除发生的频率要比替换相对少，所以引进空位在计算上应该是比较谨慎的以反映在进化中插入和删除发生的少。然而实际中分配罚分值是比较任意的，因为没有革命性的理论来确定引进插入和删除所付出的精确的代价。如

26、果罚分值设置的过低，空位就会过多以至于无关序列也会得到很高的相似性得分；如果罚分值设置的过高，空位就很难被引进以至于很难找到合理的比对，这也是不切实际的。通过对球状蛋白的经验学习，我们已经得到了一组适合于大部分比对的罚分值。在大多数比对程序中它们可以被用作默认的罚分值。坟骡诱哇圾芍叮浙怨湾法设澜贱睡豆氏埋伪谆隐协巍劲鳃静芭双帚鹤宏债第三章序列两两比对第三章序列两两比对 2424 序列比对的方法空位罚分另一个要考虑的因素是新开始一个空位和扩展一个已经存在的空位所付出的代价是不同的。众

27、所周知，扩展一个已经开始的空位是相对容易的。因此新开一个空位要比扩展一个空位设置更高的罚分值。这是根据这样一个基本原理，那就是一但插入和删除发生，那么一些临近的残基很可能一起被插入和删除。这种不同的罚分策略已经在纺射型空位罚分中被提到。基本的策略就是根据预先调整好的空位罚分值来引进或扩展空位。例如，可以用-12/-1方案来进行空位罚分，也就是新开一个空位罚12分，扩展一个空位罚1分。总得罚分（W）用下面的公式计算： W=+*(k-1)+*(k-1) 其中其中代表开始一个空位的代表开始一个空位的罚罚分分值值，代表代表扩扩展一个空位的展一个空位的罚罚分分值值，k k 代表空位的代表空

28、位的长长度。除了度。除了纺纺射型空位射型空位罚罚分，固定分，固定值值空位空位罚罚分有分有时时也是很也是很有用的，有用的，这这种种罚罚分模型分模型为为每一个空位分配相同的每一个空位分配相同的罚罚分而不管它是新开空分而不管它是新开空位位还还是是扩扩展空位。然而，展空位。然而，这这种种罚罚分模型比分模型比纺纺射型射型罚罚分模型不符合分模型不符合实际实际。文赃僻真凰也合灼栈藉淆购辛鹰郧报编颗翅劣摆哉南淹恬甥碌鹃弟叶孵羊第三章序列两两比对第三章序列两两比对 2525 序列比对的方法空位罚分在序列

29、末尾的空位我们经常不进行罚分，因为在实际中很多同源的序列是不等长的。因此末端的空位是允许自由出现的以避免得到不切实际的比对结果。狸地蹿礁央滩册慰娜渐唯深假核训惊悉舵竟京拍崔冒淌右惕齐晨到貉倔累第三章序列两两比对第三章序列两两比对 2626 t t s s A A C C A A C C A A C C T T A A A A GG C C A A C C A A C C A A 例： s = AGCACACA t = ACACACTA 得分矩阵D （99） p (a, a) = 1p (a,

30、 a) = 1 p (a, b) = 0 a p (a, b) = 0 a b b p (a, -) = p ( -, b) = -1p (a, -) = p ( -, b) = -1 痘氖丘膜你烙睁初钦命抖崇渗绸讽饿眺潘夺骑毅耙耻伴跃喝处束歌修无裔第三章序列两两比对第三章序列两两比对 2727 t s ACACACTA 0-1-2-3-4-5-6-7-8 A-1 G-2 C-3 A-4 C-5 A-6 C-7 A-8 初始化葡绚枯王宗刺刚省钥镇奇修官骨喻车芽重

31、悬炕敲撂执梯稠蜕烃淀吮详烤唉第三章序列两两比对第三章序列两两比对 2828 计算d（2，2） t t s s A A C C A A C C A A C C T T A A 0-1-2-3-4-5-6-7-8 A A -110-1-2-3-4-5-6 GG-20 1 1 C C -3 A A -4 C C -5 A A -6 C C -7 A A -8 启若签氟辙徊剂摔淤姬份民矾榆焚雍侥缨穷病乳莽铁牧苗与苞吟胯耸分卫第三章序列两两比对第三章序

32、列两两比对 2929 计算d（2，2） t s ACACACTA 0-1-2-3-4-5-6-7-8 A-110-1-2-3-4-5-6 G-20 1 0-1-2-3-4-5 C-3-11110-1-2-3 A-4-2021210-1 C-5-3-1132321 A-6-4-2024333 C-7-5-3-113543 A-8-6-4-202455 巍养淋力啪氯瞪捣稍妒泰号凝孙第啸鞍间簇责拣衡檬晰人休揽舌退捞仲狰第三章序列两两比对第三章序列两两比对 3030 最终的得分矩阵及最佳序列比对

33、 t t s s A A C C A A C C A A C C T T A A 0-1-2-3-4-5-6-7-8 A A -110-1-2-3-4-5-6 GG-2010-1-2-3-4-5 C C -3-11110-1-2-3 A A -4-2021210-1 C C -5-3-1132321 A A -6-4-2024333 C C -7-5-3-113543 A A -8-6-4-202455 AGCACACA | | | ACACACTA 们例等单山凋炎鸳镐膏邪赦跑综妒鱼钥法彪汛艰矮疯寻帕苟抗纯箱料廖页第三章序

34、列两两比对第三章序列两两比对 3131 序列比对的方法全局比对的动态规划算法经典的运用动态规划进行全局两两比对的算法是Needleman-Wunsch 算法。在这个算法中，我们会得到一个基于两条序列全长的最佳的比对结果。它必须对序列从头到尾的进行计算以得到最高比对得分。换句话说，比对路径必须是从矩阵的最右下角一直到最左上角的原点。关注序列全长的最大比对得分的缺点是找不到局部的序列相似。这种策略适合于比对高度相关的等长序列。对于发散的序列或具有不同域结构的序列，用这种方法不能得到最理想的比对。一个用于全局两两比对的web程序是GAP。 GAP(http:/

35、bioinformatics.iastate.edu/aat/align/align.html)是一个基于 web的序列两两全局比对程序。它比对序列时不进行末尾罚分，所以不同长度的相似序列可以被比对。为了能在比对中引入长的空位，这个程序运用固定罚分模型。这个程序适用于比对包含相同基因的染色体杂交品种中的cDNA。鸟了退康遭微愿潭律臭复抉科辛浅螺顾先击姥唐融惊皂恬糊崖奔淖擦丧摄第三章序列两两比对第三章序列两两比对 3232 序列比对的方法局部比对的动态规划算法在正常的序列比对中，两条被比

36、对序列的分离水平是不容易知道的。两条序列的长度可能也不相同。在这种情况下，识别序列的局部相似性比比对包含所有残基的整个序列更有意义。第一个运用动态规划进行局部序列比对的算法是Smith-Waterman算法。在这个算法中匹配的残基被赋予正的分数而失配的残基被赋予零分，不用负分。在这个算法中也用回溯的方法，然而，比对路径可能开始和结束于沿对角线的矩阵内部。它开始于矩阵中的最高分处向左上角回溯一直到第一个为零的位置结束。如果必要的话可以引入空位。如果有空位经常使用纺射型空位罚分。偶尔会找到几个具有最高得分的局部区域。在全局比对中，最终结果受到使用的得分矩阵的影响。而局部比对的目标

37、是找到局部最高分，在扩展最高分的时候可能扩展到全序列。这种方法适用于比对分散的序列和具有多个来自于不同源的区域的序列。大多数两两比对程序都用局部比对策略，它们包括SIM，SSEARCH和LALIGN。公贤录忠罢鹅擎幕摸慑胀序老糟咬亦西痉际厩藻坠范惕碴肄丽伍槛丙扛戍第三章序列两两比对第三章序列两两比对 3333 序列比对的方法局部比对的动态规划算法 SIM(http:/bioinformatics.iastate.edu/aat/align/align.html)是一个基于 web的运用Sm

38、ith-Waterman算法寻找两条序列间无重叠的最佳局部比对的程序。它可以处理几十kbp的基因组序列。用户可以设置使用的得分矩阵和罚分模型。用它已经得到了很多高得分的比对。 SSEARCH(http:/pir.georgetown.edu/pirwww/search/pairwise.html)是一个简单的基于web的运用Smith-Waterman算法进行序列两两比对的程序。它只能得到一个最佳比对得分。用户不能设定使用的得分矩阵和罚分模型。 LALIGN(www.ch.embnet.org/software/LALIGN_form.html)是一个基于 web的运用改进的Smit

39、h-Waterman算法进行序列比对的算法。不像 SSEARCH只得到一个最佳比对得分，LALIGN给出一系列最佳比对得分。用户可以设置使用的得分矩阵和罚分模型。这个网页也给出了一个进行全局比对的程序ALIGN。讼编竟枝啥训靡顺席扫复厚囤掌科陛菠氢筏宽徐北吃宏柜返茸涛覆蔫甲识第三章序列两两比对第三章序列两两比对 3434 比对用到的得分矩阵在目前的动态规划算法中，比对程序必须使用打分系统，也就是用来量化一个残基被另一个残基替换的可能性的一组数值。打分系统也叫替换矩阵，他是通过统计分析对

40、高度相似的序列进行可靠比对得到的残基替换数据集得到的。核苷酸序列的得分矩阵是相对简单的。对匹配的位置赋予一个正值或高分，对失配的位置赋予一个负值或低分。这种负值方法是基于所有碱基的变化频率相同的假设。然而，这种方法是不符合实际的；观察显示转换（transition）（嘌呤与嘌呤之间的或嘧啶与嘧啶之间的替换）发生的频率比颠换（transversion）（嘌呤与嘧啶之间的替换）发生的频率高。因此，需要一个反应不同的残基替换其发生的频率不同的更加复杂的统计模型。氨基酸序列的得分矩阵比较复杂，因为分数必须反应氨基酸残基的理化性质和某种氨基酸被同源序列的残基替换的可能性。某一种氨基酸

41、可以很容易的被具有相似理化性质的其它氨基酸替换而很难被具有不同理化性质的氨基酸替换。相似残基之间的替换很容易保存结构和功能特鳞溃泞址哺呐贮蒋禹凭觅讫疹钎纂娃中贵梧泽莆私恒景肢扔极搭踩炽厉狗第三章序列两两比对第三章序列两两比对 3535 比对用到的得分矩阵征。而不同理化性质的残基之间的替换很可能导致结构和功能分离。这种会产生分裂的替换是很少有可能被进化所选择的，因为这会导致蛋白质失去功能。例如，苯丙氨酸，酪氨酸和色氨酸都具有芳香环结构。由于它们化学性质相似，所以很容易彼此替换而不会破

42、坏蛋白质的正常结构和功能。类似的，精氨酸，赖氨酸和组氨酸都是大的碱性残基，所以它们很容易彼此替换。天冬氨酸和谷氨酸属于酸和酸的氨基化合物，因此可以以相对高的替换频率被联合在一起。疏水残基组包括甲硫氨酸，异亮氨酸，亮氨酸和缬氨酸。小的极性残基包括丝氨酸，苏氨酸和半胱氨酸。这些组内的残基有很高的可能性彼此替换。而半胱氨酸包含一个硫基，所以它在金属的结合，活性位点以及二硫化物结合等方面扮演重要角色。因此别的氨基酸替换了半胱氨酸经常会彻底破坏酶的活性以及使蛋白质的结构不稳定。它是一个很少被替换的残基。小的非极性的残基像甘氨酸和脯氨酸也是独一无二的，它们的存在经常会破坏蛋白质正常的二级

43、结构。因此和它们的替换也是很少发生的。有关氨基酸群组的理化性质的更多信息请看表12.1。繁邓拯扮雾蝗藩钨蒋队疙拔吉谩能枚惦遵李压焉马冀棘厉涟镰澳哆碉摸弓第三章序列两两比对第三章序列两两比对 3636 比对用到的得分矩阵氨基酸得分矩阵氨基酸替换矩阵是一个20*20的矩阵，它用来反映氨基酸残基替换的可能性。存在两种类型的氨基酸替换矩阵。一种是基于基因编码或氨基酸性质的可交换性；另一种是通过对氨基酸替换的经验学习得到的。尽管两种不同的方法都符合一定的范围，而第一种，也就是基于基因编码或氨

44、基酸的理化性质的方法没有第二种方法，也就是基于对实际相关的蛋白质中氨基酸的替换的考察的方法准确。因此，经验上的方法在实际序列比对程序中得到普及，它也是我们下面将要讨论的。经验上的矩阵，包括PAM矩阵和BLOSUM矩阵，是通过对高度相似序列的实际比对得到的。通过分析在这些比对中氨基酸替换的可能性，我们就能得到一个得分系统，这个系统对很可能发生的替换打高分，对很少发生的替换打低分。鸡慌打感剪岁敬发忻秦缚稀腺玩恕勿房酶镑霸眺矣炼苞毛杯儡轧汉妊刺芯第三章序列两两比对第三章序列两两比对 373

45、7 比对用到的得分矩阵氨基酸得分矩阵对于一个给定的矩阵，一个正的分数说明在一个同源序列的数据集中观察到的氨基酸替换频率比随机替换频率高。它们代表非常相似的或是同源的氨基酸之间的替换。零分说明在一个同源序列的数据集中观察到的氨基酸替换频率和随机替换频率相同。这种情况表明氨基酸至多在理化性质方面是弱相似。一个负的分数说明在一个同源序列的数据集中观察到的氨基酸替换频率比随机替换频率低。这通常发生在不相似的残基之间。达牵贴棒茎蛹霉圃庆贺州琳佬足枷粮从磊绳乖串温诬宁苔站付酵浚鹊展乞第三章序列两两比对第三

46、章序列两两比对 3838 比对用到的得分矩阵氨基酸得分矩阵替换矩阵通过实施对数转换来描述氨基酸之间替换的可能性。转换值被称为所谓的对数几率分数，这个分数是观察到的突变频率比上随机替换频率的对数。这种转换的底数可以是10也可以是2。例如，在一个包括十条序列的比对中，每条序列只比对一个位点，其中九条序列都是 F剩下的一条是I。那么观察到的I被F替换的频率就是0.1，而I被F随机替换的可能性是0.05，因此两种可能性的比就是2（0.1/0.05）。然后把这个值转化成以2为底的对数，对数几率就是1。这个值就可以用来解释两种残基的替换可能性是21，即替换的可能性是随机替换的

47、两倍。熔辐漾载沏妙药祥座惫片斌根岗竣丘酋铜磷佃盗托涡冉桂跟咕枷蔷亡图刚第三章序列两两比对第三章序列两两比对 3939 比对用到的得分矩阵 PAM 矩阵 PAM矩阵（也叫Dayhoff PAM矩阵）是由Margaret Dayhoff首先构建的，她通过对21组非常接近的相关蛋白质序列进行比对构造出了PAM 矩阵。PAM的意思是“点接受突变”（尽管“可接受的点突变”或者APM更加合适，但是PAM好发音）。因为使用的是非常接近的同源序列，观察到的突变不会显著的改变蛋白质的一般功能。因此，观察到的

48、氨基酸突变被认为是被自然选择接受了的。这些蛋白质序列被基于用最大简约法构建的系统发育谱聚类。然后我们就可以得到基于同一类中序列的进化距离的PAM矩阵。一个PAM单位被定义为有1的氨基酸位点发生了变化。我们选择一组突变频率符合一个PAM单位的非常相关的序列来构建一个PAM1替换表。在收集这组序列的突变数据的基础上，我们就能得到一个突变矩阵。篡裹竭角夜吹坑碘谨恳限群歉骗逊瘪挡楷很种捻雏珐触罚祈葬嗡包开闯期第三章序列两两比对第三章序列两两比对 4040 比对用到的得分矩阵 PAM 矩阵构建一个PAM1矩阵包括对一组序列进行全局比对和随后的运用简约原则构建系统发育树。这个过程需要计算每一个发育树内部节点的祖先序列。祖先序列信息用来计算沿每一个分支的替换数目。一个特定的残基对的PAM分数是通过一个多阶段过程得到的，这个过程包括：计算相对突变率（一个特定氨基酸

展开阅读全文