第四章DNA序列分析.docx

上传人:rrsccc 文档编号:8877529 上传时间:2021-01-22 格式:DOCX 页数:30 大小:31.54KB
返回 下载 相关 举报
第四章DNA序列分析.docx_第1页
第1页 / 共30页
第四章DNA序列分析.docx_第2页
第2页 / 共30页
第四章DNA序列分析.docx_第3页
第3页 / 共30页
第四章DNA序列分析.docx_第4页
第4页 / 共30页
第四章DNA序列分析.docx_第5页
第5页 / 共30页
点击查看更多>>
资源描述

《第四章DNA序列分析.docx》由会员分享,可在线阅读,更多相关《第四章DNA序列分析.docx(30页珍藏版)》请在三一文库上搜索。

1、第四章 DNA 序列分析4-1 序列比较的生物学基础构成生命的基本单位是蛋白质。蛋白质由20种氨基酸组成的多肽折叠而成。分子生物学的中心法则DNA由4种脱氧核苷酸组成:ATGCDNA和RNA的重要特征:互相配对遗传密码三联子, 4种核苷酸组成64个三联密码子。4-1序列比较的生物学基础形成6个开放读码框 由于氨基酸是由三联密码子编码的,因此DNA序列就包含三个不同的开放读码框,取决于从第一、第二或第三位核苷酸开始(第四位和第一位同框)。而双链DNA的两条链都可以转录RNA,后者翻译蛋白质。因此,一个DNA序列及其互补链可以有6个不同的读码框(reading frames)。4-1序列比较的生物

2、学基础序列测定 可以用化学方法测定蛋白质的氨基酸序列以及DNA和RNA的核苷酸序列。可是,就目前来说,测定DNA的核苷酸序列比测定RNA序列和蛋白质序列容易的多。由于蛋白质序列可以由编码它的DNA序列推导出来,许多已知的蛋白质序列其实就是从DNA序列推导出来的。将mRNA转为DNA(cDNA)是一个简单的实验技术,因此RNA分子的序列通常是以cDNA序列测定的。 序列分析其实就是从已知蛋白质、RNA、DNA序列作出生物学推论的过程。4-2 序列分析面临的问题技术欠缺DNA非编码区比编码区多编码区不连续:内含子、外显子mRNA非编码区、tRNA、SnRNA从DNA序列推导蛋白质序列从蛋白质序列推

3、导结构和功能二级结构:alpha helix、beta sheet超级二级结构、三级结构、四级结构为什么结构命名如此复杂?结构决定功能、实验方法欠缺蛋白质三级结构推导的基础目前不能从结构推导功能4-2 序列分析面临的问题技术欠缺。 尽管从理论上来说,知道一个蛋白质的序列后,完全可以推导出它的特性,可是目前的生物学技术还远远不能做到这一点。当前的序列分析手段实际能做的与希望做到的还相去甚远。下面就谈谈序列分析困难在哪里。 由于蛋白质序列测定的困难,目前大多数的蛋白质序列其实都是由编码它的DNA推导出来的。遗憾的是,从DNA转录RNA再翻译蛋白质的细胞学途径所具有的特点使这种推导难度大增。4-2

4、序列分析面临的问题DNA非编码区比编码区多。 许多蛋白质是由一个片段的DNA编码的,所以当分析DNA序列时,生物学家只需要知道蛋白质编码区从哪里开始,到哪里结束。然而在人类基因组中情况就不是那么简单了,因为人类基因组中包含着远远多于编码区的非编码区序列,随机获取的一个片段很可能并不编码任何蛋白质。4-2 序列分析面临的问题编码区不连续:内含子、外显子。 编码蛋白质的DNA并不是连续的,而是在其中分布有许多叫做“内含子”的分隔区。大多数情况下,这个问题可以通过测定RNA(cDNA) 的序列来解决,因为cDNA中所含的非编码的额外部分很少,而原来被分隔开的外显子(exons)在mRNA(cDNA)

5、 中已经被连接成为一个连续的片段。当然,在某些特殊情况下,难以分析RNA而只能分析DNA本身。4-2 序列分析面临的问题4-2 序列分析面临的问题mRNA非编码区、tRNA、SnRNA。 虽然RNA分子中编码蛋白质的区域相对非编码区的比例远大于DNA分子,然而RNA分子中也还存在非编码区,如编码区的上游和下游,有时甚至比编码区还大。许多RNA分子并不编码任何蛋白质。例如,核糖体RNA(Ribosomal RNA, rRNA),转移RNA(transfer RNA, tRNA)以及一些核仁小分子RNA(small nuclear ribonucleoproteins, SnRNA)等就属于非编码

6、的RNA。4-2 序列分析面临的问题从DNA序列推导蛋白质序列。 就目前来说,从DNA序列推导编码的蛋白质序列还没有一个总体的、通用的、完全的解决办法。不过,通过各种计算方法以及一些实验生物学,人们已经比较成功的做到这一点。目前,这个问题仍然是计算生物学最重要的问题之一。4-2 序列分析面临的问题从蛋白质序列推导结构和功能。 当我们得到一个蛋白质序列之后,从序列推导它的结构和功能遇到的困难更大。上面提过,蛋白质的结构是通过多肽链本身的折叠,有时还有多个多肽链的组合。这种折叠通过组成肽链的氨基酸内部的化学键的转动和氨基酸之间肽键的转动而达成。遗憾的是,折叠的可能方式实际上是无限多的。为了帮助解决

7、这一棘手问题,生物学家们将蛋白质的结构特征分成了等级。一级结构指的是蛋白质中氨基酸的序列(primary structure),这是我们已经知道的。4-2 序列分析面临的问题二级结构:alpha helix、beta sheet。 几十年前,人们发现多肽链可以形成有规则的结构,也就是在不同的多肽中都会形成一些相同形状的结构。其中之一是螺旋,被称为a-螺旋(alpha helix);另一种形状是多肽链来回折叠所产生的片状面,这个结构被称为b-折叠(beta sheet)。它们形成蛋白质的二级结构。也有一些多肽根本不形成这种规则结构,事实上,大多数较长的多肽链在不同区域折叠成不同的二级结构。4-2

8、 序列分析面临的问题超级二级结构、三级结构、四级结构 上面描述的肽链环绕形成a-螺旋和前后折叠形成b-片层都属于简单和规则的结构,还有一些比较复杂的结构,其中之一的是在许多转录因子中发现的螺悬-环-螺旋模体(helix-loop-helix motif)。这些被称为超二级结构。当我们看一个真实的多肽链时,其最终的形状是由二级结构的特征、也许有超二级结构的特征、加上一些随机的形态构造所一起形成的,这一整体结构被称为三级结构。最后,许多生物蛋白质由多个多肽链构成的,多条多肽链组合的方式被称为蛋白质的四级结构。4-2 序列分析面临的问题为什么结构命名如此复杂? 为什么要对蛋白质的结构作如此复杂的命名

9、呢?因为对蛋白质结构的理解实在是太重要又太困难了。其重要性体现在以下两点: 1. 结构决定功能 2. 实验方法欠缺4-2 序列分析面临的问题结构决定功能、实验方法欠缺 首先,蛋白质的功能绝对取决于它的结构。其实,让蛋白质失活的常规方法之一就是破坏它的结构,如通过加热或机械力(如抽打鸡蛋白)。只有完全正确折叠的蛋白质才有活性; 其次,通过实验的方法测定蛋白质的结构极端困难。至今,已测定序列的蛋白质有约30000,而已知三级结构的蛋白只有约500个。显然,如果能够从一级结构推导出三级结构,甚至功能,将引起医学、药理学、化学以及生态学的伟大变革。序列分析的困难蛋白质三级结构推导的基础 目前对蛋白质三

10、级结构进行推导的研究主要基于以下两点:同源性和最小自由能。前者通过与相关已知结构的蛋白质序列作比较来预测其三级结构。这种方式工作量大但却很成功。不过前提是必须有相似的已知结构蛋白质,很多情况下根本不可能找到。后者尝试测定最小自由能的结构,这是通过Monte-Carlo方法或Neural Net软件来实现。4-2 序列分析面临的问题目前不能从结构推导功能 最后,即使已经测定了蛋白质的三级结构,目前还没有任何技术可以从它们的结构推导出其功能特性。4-3 序列分析的内容从DNA序列推导蛋白质一级序列从数据库中查找相似序列序列排比,推导进化树、结构、功能从哪里可找到序列分析软件?4-3 序列分析的内容

11、按照上面所说,既然序列分析那么不另人乐观,为何还要花大力气去研究呢?首先,企图寻找成功的序列分析方法本身是研究的目的之一,因为其研究成果的潜在回报可能是巨大的;其次,尽管目前很多问题还不能通过序列分析来解决,但仍然可以通过序列分析获得一些有意义的结果。4-3 序列分析的内容从DNA序列推导蛋白质一级序列 计算机程序在用于从DNA序列推导出蛋白质序列时,可以提供一些很有帮助的信息。例如,要找出DNA序列中那些是蛋白质编码区,如果能预先知道可能编码的是什么蛋白质,对找出编码区就很有帮助,因为所有6个读码框都有可能编码蛋白质。当然,计算机程序不可能绝对肯定的指出蛋白序列从哪里开始到哪里结束,至少能帮

12、助我们推测蛋白编码区可能在哪里。其实,有许多因素可以用来帮助推导DNA序列中的蛋白编码区,如偏好密码子、代表DNA中调控信号的特征序列等等。一系列的计算机程序整合了这些有关特征,通过一些算法等对蛋白编码区作出预测。4-3 序列分析的内容从数据库中查找相似序列 在我们刚刚测定了一个感兴趣的DNA序列后,提出的第一个问题很可能就是“是否有人见过与此相似的序列?”。今天的国际互联网上已经有人很成功的将所有已经测定的序列收集起来供人查找。在DNA序列的收集方面主要靠三个小组的通力合作,他们一个在日本,一个在欧洲,还有一个在美国,形成三个大的数据库,分别是DDBJ、EMBL和GeneBank。这些数据库

13、不断的相互交流数据,使各数据库的数据保持一致。因此查找任何其中一个,就等于查找所有三个。4-3 序列分析的内容从数据库中查找相似序列问题是这些数据库都非常庞大,也就是说必须将新获得的基因序列与数据库中大量的序列作有效的比较。为了能快速的完成这一工作,人们已经编出了许多计算机程序,:BLAST和FASTA。为使查找或比较能快速进行,这些计算机程序所用的技术往往使序列比较中的精确度有所下降。很可能一些相似度不太高但相关的序列会被忽略掉。而另一方面,这些序列经常会把一些相似度不显著的序列判断为相似的序列。因此,我们只能把它们用于从数据库中找出一小批序列,作为进一步分析之用,而不是作为最终的结果。蛋白

14、质序列的数据库,包括SwissProt和PIR,也可以用于查找和序列比较。4-3 序列分析的内容序列比对,推导进化树、结构、功能尽管不可能完全从蛋白质序列本身推测其功能或结构,但在一定程度上还是可以做到的,尤其当未知结构与功能的蛋白质能与已知结构功能的蛋白质序列做比较时,更是如此;其次,目前的分析就算不能得出蛋白质结构与功能的最终结果,也可以为将来的进一步分析提供参考;第三,通过比较不同种生物等位蛋白的序列(这些等位蛋白被称为“同源的”),可以勾画出这些物种的进化树。4-3 序列分析的内容序列比对,推导进化树、结构、功能当我们拿到一个新的序列之后首先要做的事情之一是将它与其它序列作比较。可是,

15、序列比较并不象想的那么容易。因为往往不是比较它们之间是否相同,而是比较看它们是否相似。另外,比较时除了有一些替代(如G被A替代),还有插入和缺失的出现。而且,根据所比较的序列不同,比较的目的不同,比较的方法也会不同。所以,现在有很多不同的计算机程序用于序列比较。4-3 序列分析的内容从哪里可找到序列分析软件?在哪里可以找到这些程序呢?我们又需要具备什么条件和如何做才能运行它们呢?其实,并不存在一个提供所有序列分析软件的地方,也不存在一个运行这些软件的单一方法。商业的序列分析软件包,例如DNA*或MacVector,个人电脑(PC)或Mcintosh上运行。或者你的研究所的计算机中心已经将各种商

16、业和免费软件安装好了。你甚至可以根据杂志上发表的算法(algorithm)或你自己发明的算法编写你的程序(当然这比较少,如果你是搞生物学而非计算生物学的,我们也不建议你这样做),或者干脆,现在网络上有许多地方提供软件运行,你只需连上去运行即可。后一种方法使用方便。4-4 序列比对1.序列比对意义为了识别一个新测定的序列和一个已知基因家族之间的进化关系,确定它们是否具有同源性,通常需要通过序列比对,找出它们之间核苷酸碱基或氨基残基的最大匹配,从而定量给出其相似性程度。如果两者的相似性程度很低,则很难确定它们是否具有同源性,除非使用亲源性分析(Phylogeny Analysis)等其它分析方法,

17、或有实验结果加以证实。通过对基因或蛋白质之间家族关系的分析,可以从浩繁的基因组信息中找出一些线索,从而对该基因或蛋白质家族的完整性(completeness)进行预测。4-4 序列比对例如,假定某个基因家族的10 个成员在鼠中已知,而在人中只找到7 个,那么很有可能还有3 个成员在人的基因组中有待发现。这些分析结果还可用于药理学和分子生物学研究,用来解释某些受体对某种药物的特殊反应,尽管这些受体的序列在人基因组中还没有测得。它可以为分子生物学家以鼠的序列数据为模板克隆人的该基因的受体提供可能性。为了能够更有效地分析数据库搜索结果,有必要对序列比对的基本原理和数据库搜索的常用算法和有一个比较详细

18、的介绍。4-4 序列比对算法和程序在开始介绍序列比对的基本原理前,有必要分清算法和程序之间的区别。所谓算法,是指按照一定的方式描述计算过程或处理某个问题的一系列步骤,而程序则是算法的具体实现,也就是用某种计算机语言编写的实现某个算法的一在组指令集合。一个算法可能会有多种实现的方法。如果算法的描述或定义明确,那么这些不同的实现方法,即不同的程序应给出同样的结果。然而,对某个算法可能有不同的理解,在具体实现时,可能会有一定的区别。4-4 序列比对序列比对(aligment)是序列分析的基础,其他一切都建立在序列比对的基础上。ACGCTAGCGCTAGCTGCTAGCTAG ACGCTAGCGCTA

19、GCTGCTAGCTAG ACGCTAGCGCAAGCTGCTAGCTAG _ _4-4 序列比对序列比对的目的:序列比对是推导蛋白质二级结构的基础是初步蛋白质功能推断的基础可用于蛋白质三级结构的推导可用于推导进化树和解释种间亲缘关系用于分析分子水平的选择压力(selective pressure)探测序列之间的相互作用探测启动子单元4-4 序列比对2 序列相似性的概念 序列比对具有上述强大功能的原因是,人们发现,假如两个生物大分子的序列足够相似,几乎毫无疑问(当然不是绝对)它们具有相似的生物学功能,并且可能是同源的。4-4 序列比对2 序列相似性的概念 在序列中编码功能的句法和语义学中具有两

20、个重要的特征:功能被编码于序列之中,即序列提供了句法。编码具有一定的丰余度(redundancy),即序列中一些位点的改变可以保持功能不变,这就使编码具有强劲的语义学。4-4 序列比对2 序列相似性的概念 在对一个新测定的DNA序列进行分析时,比如分析的结果是:这个序列与某种细菌的ATPase相似。这是否意味着这个未知序列就是一个ATPase?答案是不能确定的。所以就必须完全理解在序列水平上“相似性”或“同源性”是如何定义的。2 序列相似性的概念匹配率(identity): 两个蛋白质有一定数量的氨基酸在比对的位点上是相同的,即如果38个氨基酸的蛋白质中15个位点相同,我们说它们39.4%相同

21、(39.4%)MSDTPSTGFSIIHPTSSEGQVPPPRHLSLTHPVVAKRISFYKSG-PRNGTIKIYENPARTFTRPYSAKNITIYKEND2 序列相似性的概念相似性(similarity): 通常在某些位点上有一些氨基酸被另外一些化学物理特性相近的氨基酸所代替,这种突变可称为保守突变。将保守突变的因素考虑在内,就可以定义各种打分方案(scoring schemes)对两序列的相似程度打分,所得分值即代表其相似的程度。2 序列相似性的概念同源性(homology): 只有当两个蛋白质在进化关系上具有共同的祖先时,才可称它们为同源的。2 序列相似性的概念要分析两个序列

22、是否相似,必须首先作比对分析(alignment)。如何作比对分析?最基本的条件是对序列的相似性做定量分析,然后将序列进行比对,在比对中要用到gaps,insertions,substitutions。对gaps和insertions打分可用较简单的扣分方案,而substitutions的打分则比较复杂,必须先构建出一个计算机的算法矩阵(Matrix),再根据此方案对序列中氨基酸残基之间的差异或相似进行打分。4-4 序列比对3.双序列比对首先,我们用一个简单的例子说明序列比对的基本原理。下图所示是对两个蛋白质序列片段进行比对的一般方法,基本思想是将两个序列上下排列,若上下对应的残基相同,则用竖

23、线表示。可以通过插入空位(gap)使上下两个序列具有最好的匹配,即两个序列之间对用所对应的相同残基最多。4-4 序列比对3.双序列比对利用插入空位的方法获得最佳序列匹配插入空位前序列1 (代查序列) AGGVL I IQVE | | | | | |6序列2 (目标序列) AGGVL I QVG插入空位后序列1 (代查序列) AGGVLI I QVE | | | | | | | | |9序列2 (目标序列) AGGVLI QVG由上图可以计算相同残基个数,并用分数给出定量指标。图 中未经比对以前的得分为6,而比对后的得分为9。4-4 序列比对 3.双序列比对显然,从这个例子中可以看出,匹配对准的

24、相同残基数越多,两个序列之间相似性比对的得分就越高。当然,这只是一个用来说明比对原理的简单例子,序列很短,只有10 来个残基,而大多数蛋白质序列的长度为200 到500 个残基,甚至更长。其次,这两个序列的长度几乎相等,而在实际情况下代查序列和目标序列的长度往往差别很大。此外,这两个序列的大部分残基相同,没有其它可选择的匹配方式。另一方面,序列比对结果也可以根据引入空位的数目和非匹配残基的数目来度量。由此而引出距离矩阵的概念,即可以用距离矩阵的方式表示两个序列之间的相似性距离。序列比对所用的距离矩阵可能不止一个,同一算法的不同实现所用的距离矩阵可能会有所不同。4-5.打分矩阵 序列比较是如何进

25、行的? 要对两个序列进行比对,必须首先打出其相似性的定量分值,于是需要一个打分矩阵。打分矩阵(Scoring Matrices): 给不同的氨基酸配对定义的一系列相似性分值。而一个突变打分方案(mutation data matrix)则是根据比对时序列中点突变的情况设计出的打分方案。对氨基酸配对相似性的尺度衡量,例如苯丙氨酸和异亮氨酸相似性的定量标准,可以以多种方式来定义。4-5.打分矩阵 序列比较是如何进行的?打分矩阵(Scoring Matrices) 对氨基酸配对相似性的尺度衡量,例如苯丙氨酸和异亮氨酸相似性的定量标准,可以以多种方式来定义。因此,设计一个打分矩阵,首先必须确定用什么算

26、法模型。在序列比对分析中,打分矩阵只是某个算法模型的量化表现,比对的结果只在该算法模型所划定的范围内有意义。4-5.打分矩阵 序列比较是如何进行的? (Scoring Matrices) 简单打分矩阵:单一打分矩阵和遗传密码打分矩阵。目前使用最简单的打分矩阵就是匹配打分矩阵(identity metric)。如果两个氨基酸相同,就打一个分值,不同就打另一个分值,不管替换的情况。例如,相同就打一分,不同就打0分,这就是最简单常用的单一打分矩阵。当然,也可以相同打+6分,不同打-1分。DNA打分矩阵及其对比对结果的影响例如:若得分大于罚分,则可得到长的,有较多插入删除的结果;反之,则得到短的,局部

27、的比对结果。4-5.打分矩阵 -打分矩阵(Scoring Matrices)因为所有的点突变都产生于核苷酸的变化,因此比对中氨基酸对的相关性是随机的还是遗传的,应取决于由一个密码子转变为另一密码子所必需的点突变的数量。由这一模型而产生的打分矩阵将根据导致密码子改变所需改变核苷酸的数量来定义两个氨基酸之间的距离,此为遗传密码子打分矩阵(genetic code matrix)。与匹配打分模型相比,它改进了比对中的灵敏度和专一性。5、打分矩阵(Weight Matrices)(1)核酸打分矩阵设DNA序列所用的字母表为 A = A,C,G,T a. 等价矩阵 b. BLAST矩阵 c. 转移矩阵(

28、transition,transversion) (嘌呤:腺嘌呤A,鸟嘌呤G;嘧啶:胞嘧啶C,胸腺嘧啶T) 表3.1 等价矩阵表表3.3 转移矩阵表3.2 BLAST矩阵(2)蛋白质打分矩阵(i)等价矩阵(ii) 氨基酸突变代价矩阵GCM (iii)疏水矩阵 (iv)PAM矩阵(Point Accepted Mutation)(v) BLOSUM矩阵 (Blocks Amino Acid Substitution Matrices)其中Rij代表打分矩阵元素i、j分别代表字母表第i和第j个字符。PAM矩阵(Point Accepted Mutation) 基于进化的点突变模型 一个PAM就是一

29、个进化的变异单位, 即1%的氨基酸改变 这类矩阵里列出同源蛋白质在进化过程中氨基酸变化的可能性。 这类矩阵式基于进化原理的 证据: 编码相同蛋白质的基因随着进化发生分歧,相似度降低。 科学 用得多 遗传密码子打分矩阵(A genetic code matrix) A B C D E F G H I K L M N P Q R S T V W Y Z . 3.0 2.0 1.0 2.0 2.0 1.0 2.0 1.0 1.0 1.0 1.0 1.0 1.0 2.0 1.0 1.0 2.0 2.0 2.0 1.0 1.0 2.0 A 3.0 1.0 3.0 2.0 1.0 2.0 2.0 2.0

30、2.0 1.0 1.0 3.0 1.0 2.0 1.0 2.0 2.0 2.0 0.0 2.0 2.0 B 3.0 1.0 0.0 2.0 2.0 1.0 1.0 0.0 1.0 0.0 1.0 1.0 0.0 2.0 2.0 1.0 1.0 2.0 2.0 0.0 C 3.0 2.0 1.0 2.0 2.0 1.0 1.0 1.0 0.0 2.0 1.0 1.0 1.0 1.0 1.0 2.0 0.0 2.0 2.0 D 3.0 0.0 2.0 1.0 1.0 2.0 1.0 1.0 1.0 1.0 2.0 1.0 1.0 1.0 2.0 1.0 1.0 3.0 E 3.0 1.0 1.0

31、2.0 0.0 2.0 1.0 1.0 1.0 0.0 1.0 2.0 1.0 2.0 1.0 2.0 0.0 F 3.0 1.0 1.0 1.0 1.0 1.0 1.0 1.0 1.0 2.0 2.0 1.0 2.0 2.0 1.0 2.0 G 3.0 1.0 1.0 2.0 0.0 2.0 2.0 2.0 2.0 1.0 1.0 1.0 0.0 2.0 2.0 H 3.0 2.0 2.0 2.0 2.0 1.0 1.0 2.0 2.0 2.0 2.0 0.0 1.0 1.0 I 3.0 1.0 2.0 2.0 1.0 2.0 2.0 1.0 2.0 1.0 1.0 1.0 2.0 K 3.

32、0 2.0 1.0 2.0 2.0 2.0 2.0 1.0 2.0 2.0 1.0 2.0 L 3.0 1.0 1.0 1.0 2.0 1.0 2.0 2.0 1.0 0.0 1.0 M 3.0 1.0 1.0 1.0 2.0 2.0 1.0 0.0 2.0 2.0 N 3.0 2.0 2.0 2.0 2.0 1.0 1.0 1.0 2.0 P 3.0 2.0 1.0 1.0 1.0 1.0 1.0 3.0 Q 3.0 2.0 2.0 1.0 2.0 1.0 2.0 R 3.0 2.0 1.0 2.0 2.0 1.0 S 3.0 1.0 1.0 1.0 1.0 T 3.0 1.0 1.0 2.

33、0 V 3.0 1.0 1.0 W 3.0 1.0 Y 3.0 Z What is the cost of matching a G with a L ? What does this score represent?4-5-1 PAM(Dayhoff突变数据打分矩阵) ( Persent Accepted Mutation) 因为我们要做的是能分辨出显著进化关系的打分矩阵,因此,第一步必须是定义一个进化模型:蛋白质通过一系列独立的点突变而进化,这些突变被种群接受,并可见于后代的基因组中。 PAM矩阵:基于进化模型的打分矩阵当进化过程中一条序列1%的氨基酸发生了突变,定义该序列在进化的历史上走

34、过了1个PAM单位。此时定义的转移矩阵称为1-PAM的突变矩阵。Dayhoff 等(1978) 从 71个蛋白家族中的1300条近相关(closely related)序列出发(其中任何两对序列之间氨基酸残基差异不大于15%),通过构造进化树对序列进行联配,得到氨基酸对之间的联合概率分布。在此基础上得到了1-PAM的突变矩阵 。4-5-1 PAM(Dayhoff突变数据打分矩阵) ( Persent Accepted Mutation) A R N D C Q E G H I L K M F P S T W Y V A 9890 5 5 6 12 9 11 12 5 2 5 6 9 2 10

35、29 14 1 2 17 R 4 9907 5 2 2 16 4 3 8 1 2 30 2 0 3 5 5 4 3 2 N 3 4 9888 18 2 8 5 6 13 1 1 10 1 1 2 13 8 1 3 1 D 4 2 21 9905 0 7 28 5 6 0 0 5 0 0 3 7 5 0 1 0 C 3 1 1 0 9946 0 0 1 1 1 1 0 1 1 0 3 1 1 1 2 Q 4 11 7 5 1 9856 18 2 14 1 3 14 6 1 4 5 5 1 1 2 E 8 5 6 30 0 28 9890 2 7 1 1 15 3 0 4 7 5 1 1 3 G 11 4 9 7 2 4 3 9952 3 0 1 3 1 0 2 10 2 2 1 1 H 1 4 7 3 1 9 3 1 9895 1 1 3 2 2 1 2 2 1 9 1 I 2 1 2 0 2 2 1 0 2 9878 22 2 26 7 1 1 5 2 2 42 L 5 4 2 0 3 8 2 1 3 35 9919 3 48 22 4 3 4 5 5 19 K 5 33 13 5 0 22 15 2

展开阅读全文
相关资源
猜你喜欢
相关搜索

当前位置:首页 > 社会民生


经营许可证编号:宁ICP备18001539号-1