序列分析四一一分子进化系统发生分析.ppt

上传人:本田雅阁 文档编号:2852294 上传时间:2019-05-28 格式:PPT 页数:61 大小:1.42MB
返回 下载 相关 举报
序列分析四一一分子进化系统发生分析.ppt_第1页
第1页 / 共61页
序列分析四一一分子进化系统发生分析.ppt_第2页
第2页 / 共61页
序列分析四一一分子进化系统发生分析.ppt_第3页
第3页 / 共61页
序列分析四一一分子进化系统发生分析.ppt_第4页
第4页 / 共61页
序列分析四一一分子进化系统发生分析.ppt_第5页
第5页 / 共61页
点击查看更多>>
资源描述

《序列分析四一一分子进化系统发生分析.ppt》由会员分享,可在线阅读,更多相关《序列分析四一一分子进化系统发生分析.ppt(61页珍藏版)》请在三一文库上搜索。

1、序列分析(四) 一一分子进化 (系统发生分析2),最大简约法(maximum parsimony,MP)最早源于形态性状研究,现在已经推广到分子序列的进化分析中。最大简约法的理论基础是奥卡姆(Ockham)哲学原则,这个原则认为:解释一个过程的最好理论是所需假设数目最少的那一个。,3.2 最大简约法(MP),最大简约法利用的是信息位点,所谓信息位点就是指能由位点产生的突变数目把一棵树与其它树区分开来的位点。 信息位点必须是至少存在2种不同碱基且每种碱基至少出现两次的位点。 根据信息位点可构建不同的拓扑进化树,对所有可能的拓扑结构进行最小核苷酸替换数总和的计算,算出所需替代数最小的那个拓扑结构,

2、作为最优树。,单一位点:位点上只有一个分类群具有一种不同的核苷酸或氨基酸。 对所有的拓扑结构都只能用相同的替代数目表示。 单一位点也不提供任何MP信息。,1,2,3,4,5,6,A,A,T,C,G,A,A,A,A,A,1,2,3,5,4,6,A,A,G,C,T,A,A,A,A,A,1,2,6,3,4,5,A,A,C,A,T,G,A,A,A,A,1,2,3,6,4,5,A,A,A,C,T,G,A,A,A,A,1,2,3,6,4,5,A,A,A,C,T,G,A,A,A,T,1,2,3,6,4,5,A,A,A,C,T,G,A,A,A,G,Position 5, 7, 9为信息位点; 2. 基于pos

3、ition 5的三个MP树: Tree 1长度是1,Tree 2和Tree 3的长度是2; 3. Tree 1更为简约:总长:4; Tree 2长5;Tree 3长6; 4. 计算结果:MP tree的最优结果为Tree 1.,MP法适用的问题 (1)位点不存在回复突变、平行突变; (2)被分析的序列较长,核苷酸或氨基酸数目很大; (3)序列的相似度较高; (4)核苷酸或氨基酸替代速率较稳定。,优点: 不需要在处理核苷酸或者氨基酸替代的时候引入假设(替代模型)。 此外,最大简约法对于分析某些特殊的分子数据如插入、缺失等序列有用。 缺点: 在分析序列上存在较多的回复突变或平行突变,而被检验的序列

4、位点数又比较少的时候,最大简约法可能会给出一个不合理的甚至错误的进化树推导结果。,3.3 最大似然法(ML),利用ML构建进化树的步骤: 选取一个特定的替代模型来分析给定的一组序列数据; 使得获得的每一个拓扑结构的似然率都为最大值; 然后再挑出其中似然率最大的拓扑结构作为最优树。 缺点:巨大的计算量 优点:具有很好的统计学理论基础,在当样本量很大的时候,似然法可以获得参数统计的最小方差。只要使用了一个合理的、正确的替代模型,最大似然法可以推导出一个很好的进化树结果。,最大似然法(ML)的创始人 杨子恒 2006年英国皇家科学院,大陆旅英学者中获此殊荣的第一人,现为伦敦大学学院统计遗传学教授。出

5、生在甘肃定西地区的通渭县,1980年他考进甘肃农业大学,学的是畜牧专业,“误入”生物领域。后来在北京农业大学读研究生时,选择了与数学关系密切的统计遗传学。,一般采用两种以上方法构建进化树,无显著区别可接受。,3.4 构建进化树的一般原则,选择外群(Outgroup),1. 选择一个或多个已知与分析序列关系较远的序列作为外群; 2.外群可以辅助定位树根; 3.外群序列必须与剩余序列关系较近,但外群序列与其他序列间的差异必须比其他序列之间的差异更显著。,进化树的可靠性分析: 自展法(Bootstrap Method),1. 从排列的多序列中随机有放回的抽取某一序列,构成新的排列序列; 2. 重复上

6、面的过程,得到多组新的序列; 3. 对这些新的序列进行建树,再观察这些树与原始树是否有差异,以此评价建树的可靠性。,4. 氨基酸与DNA的进化距离,1. 分子进化的分析:基于氨基酸序列的分析早于DNA序列。 2. 优势:氨基酸序列更为保守,对年代跨度大的进化分析有帮助;数学模型较DNA更为简单; 3. p距离:p-distance; 4. 泊松校正,d距离; 5. 距离;,4.1 氨基酸的演化距离,P-distance,令两条蛋白质序列之间的氨基酸差异数为nd,所有序列的氨基酸数目相同为n,则,P距离,不同物种的血红蛋白链中不同氨基酸的数目及比例。长度:140aa,所有的插入/缺失都要删除!,

7、泊松校正,1. 序列差异的百分比( p )与分歧时间 t 的关系:t 较短的时候,回复突变较少,两者大致成线性关系;当 t 较大时,回复突变增多,二者成非线性关系; 2. 令 r 为某一位点每年的氨基酸替代率,并假设所有位点的 r 都相同:基本假设; 3. 在时间 t 年之后,每个位点替代的平均数为:rt;给定一个位点,氨基酸替代数 k (k=0,1,2,3,)的可能性遵循泊松分布,即 4. 因此,某一位点氨基酸不变的概率为,1. 祖先序列未知:不知道当前的序列从何演化而来。 2. 解决方案:对两条已经有 t 年分化的序列,一条序列无替代的概率为: ,两条序列则为: 3. 则发生突变的概率为p

8、=1-q; 4. 泊松校正距离d=2rt 5. 因此, d=-ln(1-p),即泊松距离。,P-距离 vs. 泊松距离,距离,1. p-距离和泊松距离:氨基酸替代率在所有位点是相同的; 2. 实际情况:功能次要的位点比功能重要的位点替代率更高; 3.氨基酸替代率的实际观测与分布近似符合。,距离是:,a需要估算,一般在0.2-3.5之间。一般来说,p0.2并且a0.65的时候,用分布能够得到较好的结果,1. 基因组上存在着多种多样的DNA区域,例如蛋白质编码区,非编码区,内含子,侧翼区,重复片断以及插入序列等; 2. 考虑编码区的DNA序列的进化演变模型; 3. Jukes-Cantor法与Ki

9、mura两参数法,4.2 DNA的演化距离,1. 对于两条长度为n的DNA序列,不同的碱基对为nd; 2. 核苷酸的改变p:转换P、颠换Q,则:p=P+Q 3. 当p较小时,如果核苷酸替代是随机发生的,通常转换比颠换出现频率高;,Jukes-Cantor法得到的两条DNA序列的距离:,Kimura法得到的两条DNA序列的距离:,4.3 同义与非同义替代,同义替代:编码区的DNA序列,核苷酸的改变不改变编码的氨基酸的内容; 非同义替代:核苷酸改变,从而改变编码氨基酸的内容。 Ka:非同义替代; Ks:同义替代; 序列上所有可能的同义位点(S)和非同义位点(N),通过双序列比对发现存在突变的同义位

10、点(Sd)和非同义位点(Nd),定义:,Ka/Ks含义,1. Ka/Ks 1: 中性进化; 2. Ka/Ks 1: 阳性选择,适应性进化。 4. 多数基因为中性进化,约1%的基因受到阳性选择。 5. PAML, MEGA等工具:计算Ka/Ks及统计显著性,进化通径法:Nei-Gojobori,1. 首先需要考虑:潜在的同义(S)和非同义位点数(N)。 2. 基本假设:所有核苷酸的替代率相等; 3. 用 fi 表示某一个密码子第i位的核苷酸上发生同义替代的比例;(i=1,2,3); 4. 所有密码子潜在的同义和非同义替代的位点数定义如下: ,N=3-S;,潜在的同义和非同义位点数的估计,1. 例

11、如,对于Phe, 密码子TTT, 第三位T变成C时为同义替代,变成A/G为非同义替代。因此: S=0+0+1/3 N=3-1/3=8/3 2. 终止密码子忽略不计。如Cys的TGT, S=0.5,Sd与Nd的计算,1. 当一对密码子仅存在一个差异时,可以立即判断是同义还是非同义,进化通径只有一种可能;例如对于GTT (Val)和GTA (Val), sd=1, nd=0;而对于ATT(I)和ATG(M),sd=0, nd=1; 2. 一对密码子存在两个差异时,有两种进化通径,选取最少需要的通径。例如:比较TTT (Phe)和GTA (Val): (1) TTT (Phe)GTT (Val)GT

12、A (Val) (2) TTT (Phe)TTA (Leu)GTA (Val) sd=1/2=0.5, nd=3/2=1.5 同样,终止密码子不予考虑,3. 一对密码子存在三个差异时:六种进化通径。例如:比较TTG(Leu)和AGA(Arg): (1) TTG(Leu)ATG(Met)AGG(Arg)AGA(Arg) (2) TTG(Leu)ATG(Met)ATA(Ile)AGA(Arg) (3) TTG(Leu)TGG(Trp)AGG(Arg)AGA(Arg) (4) TTG(Leu)TGG(Trp)TGA(Ter)AGA(Arg) (5) TTG(Leu)TTA(Leu)ATA(Ile)T

13、TA(Leu)TGA(Ter)AGA(Arg) 通径4,6忽略。通径(1),(2),(3),(5)同义替代数目1,0,1,1;非同义替代2,3,2,2,因此sd=3/4, nd=9/4.,1. 编码区:DNA上编码功能性的基因的部分; 2. 非编码区:或称基因组序列,绝大部分无功能; 3. 选择压力: A. 编码区:阳性选择 1%;中性进化:80%;阴性进化:19%; B. 非编码区:100%的中性进化;,4.4 密码子偏好,编码区:密码子,1. 对于同义的密码子,第一位少部分可以允许不同,例如,编码丝氨酸Ser的六个密码子:TCT, TCC, TCA, TCG, AGT, AGC; 2. 第

14、一位固定后,第二位必须相同; 3. 第三位绝大多数可以不同 近似随机; 4. 因此: A. 第一位:阴性进化占大部分,中性进化占小部分; B. 第二位:阴性进化; C. 第三位:阴性进化占小部分,中性进化占大部分;,编码区 & 密码子: 推论,1. 密码子第三位的碱基出现概率接近基因组序列的碱基频率; 2. 第二位的碱基出现频率与基因组序列的碱基频率相差最大。,11个细菌基因组与密码子三个位置上的GC含量的关系,细菌基因组的GC含量:25%75%,密码子使用频率(codon usage),密码子使用频率的偏倚性: 编码同一个氨基酸的多个同义密码子具有不同的使用频率,例:E. coli的RNA聚

15、合酶 缬氨酸Val GTT GTC GTA GTG 55 21 34 34 精氨酸Arg CGU CGC CGA CGG 89 46 1 0,为什么会出现密码子使用频率的偏倚性? 与同功能tRNA的丰度有关? 突变压力与净化选择双重控制?,密码子偏好的应用及计算,1. 基本假设:在高表达的基因中,密码子的选择,更倾向于使用“优化”的同义密码子; 2. 推论1:给定一个物种的一些高表达的基因,我们可以估算优化的同义密码子的分布; 3. 推论2:接着,我们可以对给定的一个未知基因的序列进行密码子分布的分析,预测该基因的表达量, 4. 推论3:对于一个表达量很低的基因,我们是否能够通过将少量的密码子

16、改变成优化密码子,从而显著提高基因的表达量?,RSCU,1. 相对同义密码子使用频率(relative synonymous codon usage, RSCU); 2. 定义:观测到的某一密码子的使用次数,除以“期望”的该密码子出现次数。,编码第i个氨基酸的第j个密码子的观测值,编码第i氨基酸的同义密码子的数目,编码第i个氨基酸的第j个密码子的RSCU值,密码子:the relative adaptation,编码第i个氨基酸的第j个同义密码子的“相对适应性”: 即,该同义密码子的观察值,除以编码该氨基酸的同义密码子的最大值。,大肠杆菌 & 酵母,CAI: Codon Adaptation

17、Index,CAI是比较公认的用来衡量表达水平的简单参数。,L为序列的长度,5. 生物进化理论 与分子进化,5.1 进化理论概述,“一个半世纪以前,Charles Darwin可能没有意识到他所给予科学的是一件从未有过的强大武器,即他的进化理论。科学家用这把坚利之剑斩断了无知、迷信和傲慢,这些束缚人类对亿万年来的生命的了解的镣铐。” 美国自然博物馆成立125周年纪念专刊前言,Charles Darwin (1809-1882),Darwinian进化理论告诉了什么? 1、遗传和变异 一切生物都能发生变异,至少有一部分变异能够遗传给后代 2、自然选择 繁殖过剩:任何生物产生的生殖细胞或后代数目要

18、远远多于可能存活的个体数目;而在所产生的后代中,那些最具有适应环境条件的有利变异的个体有较大的生存机会,并繁殖后代,从而使有利变异可以世代积累,不利变异被淘汰。 “选择”不是超自然的上帝的作用。 3、性状分歧;种的形成、绝灭;系统树 性状分歧原理在同一个种内,个体之间在结构、习性上越是歧异,则在适应不同环境方面愈是有利,因而将会繁育更多的个体,分布到更广的范围。由此一个种会逐渐演变为若干变种、亚种乃至新种。 新种的形成、种间的竞争、种的绝灭、外界环境的作用 系统树由于性状分歧和中间类型的绝灭,新种不断产生、旧种不断绝灭,种间差异不断扩大,形成时间、空间上的物种系统树。,Darwinian进化理

19、论的三次修正 第一次:“新Darwinian主义” 1900s,Weismann等,消除Lamarck的“获得性遗传”学说、Buffon的“环境直接作用”学说,强调“自然选择”为进化的主要因素; 第二次:“现代综合论(Modern synthesis)” 1930-40s,遗传学、生物系统学、古生物学的重大贡献:对“自然选择”、“物种变异”等概念的新认识。 适应:繁殖的相对优势 适应度:个体或基因型对后代或后代基因库的相对贡献 适应和选择:繁殖或基因传递的相对差异 ,第三次:NOW 原因:现代分子生物学、古生物学的发展。 宏观(对生物进化实际过程的了解):古生物学揭示生命进化的规律、进化速度、

20、进化趋势、物种的形成和绝灭 微观:现代分子生物学揭示生物大分子的进化规律和携带遗传信息的物质基础及其复杂结构 新的认识: 1、生物进化过程并非“匀速”、“渐变”的,而是“快速进化”与“进化停滞”相间; 2、生物进化与分子进化都显示出相当大的随机性,自然选择并非总是进化的主要因素; 3、遗传系统本身具有某种进化功能,进化过程中可能存在内因的“驱动”和“导向”。 Continuing,进化理论围绕的三个主题 1、进化的动力是什么? 2、进化是否有一定的方向? 3、进化的速度是否恒定?是渐近的还是跳跃的? 分子进化理论同样必须回答上述三个问题。,5.2 分子进化的两个特点,生物大分子进化速率的相对恒

21、定 分子进化速率 生物大分子随时间的改变主要表现为核苷酸、蛋白质的一级结构的改变,即分子序列中核苷酸、氨基酸的替换, 不同物种同源大分子的分子进化速率大体相同, 分子进化速率远远比表型进化速率稳定, 原因?序列的核苷酸或氨基酸替换是否随机过程?,生物大分子进化的保守性 保守性 功能上重要的大分子或大分子的局部在进化速率上明显低于那些在功能上不重要的大分子或者大分子局部。 (引起表型发生显著改变的突变发生的频率要低于无明显表型发生显著改变得突变发生的频率。) 氨基酸 例:血红蛋白分子的外区的功能要次于内区的功能,外区的进化速率是内区进化速率的10倍。 核苷酸 例:DNA密码子的同义替代频率高于非

22、同义替代频率;内含子上的核苷酸随机替代频率较高。 生物大分子进化并非完全随机,存在某种制约因素或机制?,5.3 分子进化中性论,Neutral theory of molecular evolution (Kimura & Ohta, 1968, 1971) (King & Jukes, 1969) 提出分子层次上的“non-Darwinian evolution” “在生物分子层次上的进化改变不是由自然选择作用于有利突变而引起的,而是在连续的突变压之下由选择中性或非常接近中性的突变的随机固定造成的。中性突变是指对当前适应度无影响的突变。” 否认自然选择在分子进化中的作用,认为生物大分子的进化

23、主要因素是机会和突变压力。,分子进化中性论的若干依据 1. 分子层次上的大多数变异是选择中性的 2. 蛋白质和核苷酸分子的进化速率高且相对恒定 3. 突变压在分子进化中的作用得到研究证实 4. 按照群体遗传学的数学模型,自然选择的代价太高,分子进化中性论的讨论 1、中性论是解释分子层次的进化现象 自然选择只作用于表型,并不直接作用于分子。 衡量尺度的区别:分子的显著性改变并不意味着表型的显著性改变。 中性论只涉及生物大分子一级结构单元的替换,并不包含和解释分子层次的全部改变(如蛋白质三级结构、功能的改变) 2、分子进化的保守性表明选择仍然起作用 可能之一负选择的存在:任何发生在重要功能的大分子

24、或大分子保守区的突变,由于造成适应度的下降而被选择淘汰。(随机作用) 可能之二存在某种机制阻止功能重要的大分子或大分子保守区的突变产生。(非随机作用),3、选择中性突变的复杂调控系统 中性突变的可能原因:复杂的调控机制。基因表达受到内外因素的制约。 决定中性突变的调控系统受到自然选择的影响。 调控网络的容错能力。 4、选择在分子的适应进化中起作用 在分子层次上可能存在两种进化形式: 中性进化(导致分子多样性) 适应进化(通过选择实现,导致分子适应),Ortholog (直系同源物):两个基因通过物种形成的事件而产生,或,源于不同物种的最近的共同祖先的两个基因,或者两个物种中的同一基因,一般具有

25、相同的功能。 Paralog (旁系同源物):两个基因在同一物种中,通过至少一次基因复制的事件而产生。 Xenolog (异同源物):由某一个水平基因转移事件而得到的同源序列。 Convergent evolution: 通过不同的进化途径获得相似的功能,或者,功能替代物。,5.4 分子亲缘关系,paralogs,orthologs,paralogs,orthologs,Sonnhammer EL, Koonin EV Orthology,paralogy and proposed classification for paralog subtypes TRENDS Genetics 18(1

26、2) 2002,5.5 分子钟(Molecular Clock),分子钟 根据分子系统学研究与古生物学资料相结合,建立生物进化事件发生的时间表。,假定分子进化速率r恒定,则分子进化改变量(替代数目或替代率)与进化时间成正比。以两条序列为例: d = 2 r t 其中,t是进化时间,d是这两条序列每个位点的替代数目。,分子钟成立的先决条件:分子进化速率恒定。,分子钟成立的证据: 1、至少某些生物大分子(如珠蛋白)的进化速率在相当长的地质时间内的相对稳定、均匀; 2、许多不同物种的多种同源大分子在相当长时间内的平均进化速率近似恒定。,建立分子钟的大致步骤 1、选择所要比较的生物大分子种类 根据研究

27、目标和已掌握的资料,选择进化速率相对恒定、速率大小合适、分布范围能涵盖各待比较物种的生物大分子。 2、选择所要比较的物种,确定各比较组合及其所代表的进化事件 3、获得生物大分子一级结构的资料 4、获得有关的代表性进化事件发生的地质时间数据 5、通过比较大分子一级结构,选择合适的数学模型,计算得到进化产生的分子差异d,通过回归分析等统计方法得到大分子的进化速率r(t) 6、由此可以推断未知进化事件的发生时间,Bacterium 1,Bacterium 3,Bacterium 2,Eukaryote 1,Eukaryote 4,Eukaryote 3,Eukaryote 2,Bacterium 1

28、,Bacterium 3,Bacterium 2,Eukaryote 1,Eukaryote 4,Eukaryote 3,Eukaryote 2,Phylograms show branch order and branch lengths 进化树,有分支和支长信息,进化分支图,进化树,Cladograms show branching order - branch lengths are meaningless 进化分支图,只用分支信息,无支长信息。,对进化时间的估计,1. 遗传距离d的计算: A. 氨基酸序列:p-距离,d-距离,-距离; B. DNA序列: Jukes-Cantor距离,Kimura距离; 2. 物种分歧点:使用考古数据确定共有祖先;确定分化时间T; 3. 计算分子的分化/进化的速率:r=d/2T; 4. 对新的序列,计算分化时间: Tnew=dnew/2r,关于分子钟的讨论和争议 1、对长期进化而言,不存在以恒定速率替换的生物大分子一级结构;(基因功能的改变、基因数目的增加) 2、不存在通用的分子钟; 3、争议: 分子钟的准确性 中性理论(分子钟成立的基础),虽然很多时候仍然存在争议,但是分子进化确实能阐述一些生物系统发生的内在规律。 争议例子:分子序列证据与化石证据在人类起源时间上的差异。,

展开阅读全文
相关资源
猜你喜欢
相关搜索

当前位置:首页 > 其他


经营许可证编号:宁ICP备18001539号-1