分子进化与系统发育学ppt幻灯片1.ppt

上传人:夺命阿水 文档编号:59370 上传时间:2025-07-09 格式:PPT 页数:90 大小:2.76MB
下载 相关 举报
分子进化与系统发育学ppt幻灯片1.ppt_第1页
第1页 / 共90页
分子进化与系统发育学ppt幻灯片1.ppt_第2页
第2页 / 共90页
分子进化与系统发育学ppt幻灯片1.ppt_第3页
第3页 / 共90页
分子进化与系统发育学ppt幻灯片1.ppt_第4页
第4页 / 共90页
分子进化与系统发育学ppt幻灯片1.ppt_第5页
第5页 / 共90页
点击查看更多>>
资源描述

1、第五讲第五讲分子进化与系统发育学分子进化与系统发育学分子进化与系统发育学分子进化与系统发育学MolecularevolutionandMolecularevolutionandphylogeneticsphylogenetics老山发现大型西汉王陵墓老山发现大型西汉王陵墓北京晚报北京晚报2000年年03月月18日日老山汉墓考古发掘进入核心部分老山汉墓考古发掘进入核心部分人民日报人民日报(2000年年08月月20日日BeginwithastorySTORY1:墓主(西汉诸侯王后)尸骨,鉴定为女性,年龄约墓主(西汉诸侯王后)尸骨,鉴定为女性,年龄约30岁,身高约岁,身高约1.60米米老山汉墓走出西

2、域美女老山汉墓走出西域美女汉墓女主人头像复原记汉墓女主人头像复原记(北京青年报,北京青年报,2001年年4月月20日日)?此次头像复原品的作者纪元此次头像复原品的作者纪元“在我国单个人体在我国单个人体复原领域中是首屈一指的专家。他所在的单位复原领域中是首屈一指的专家。他所在的单位公安部物证鉴定中心也是目前我国人体复原最具公安部物证鉴定中心也是目前我国人体复原最具权威的机构。权威的机构。”纪元介绍说:此次所采用的是纪元介绍说:此次所采用的是颅骨面貌复颅骨面貌复颅骨面貌复颅骨面貌复原技术原技术原技术原技术。这项技术已经有。这项技术已经有100多年的历史,其科学多年的历史,其科学依据是人体头面部的解

3、剖学规律,且在单体复原方依据是人体头面部的解剖学规律,且在单体复原方面具有较高的精确度。世界上第一次运用它是为著面具有较高的精确度。世界上第一次运用它是为著名艺术家巴赫进行头像复原并取得了成功。目前在名艺术家巴赫进行头像复原并取得了成功。目前在我国这项技术主要运用于破案之中。我国这项技术主要运用于破案之中。2002年年10月,吉林大学文学院考古系边疆考古研究中心与北月,吉林大学文学院考古系边疆考古研究中心与北京市文物研究所合作,对该尸骨进行京市文物研究所合作,对该尸骨进行体质人类学体质人类学体质人类学体质人类学、古代古代古代古代DNADNA和和颅颅颅颅像复原像复原像复原像复原三个方面的研究,其

4、中三个方面的研究,其中DNA研究工作是由吉大生命科学学研究工作是由吉大生命科学学院副院长、边疆考古研究中心考古院副院长、边疆考古研究中心考古DNA实验室主任周慧教授负责实验室主任周慧教授负责完成。完成。DNA证实老山汉墓女主人是中原人证实老山汉墓女主人是中原人2003-05-15新华网新华网吉林大学边疆考吉林大学边疆考古研究中心今天正式古研究中心今天正式宣布:他们完成的一宣布:他们完成的一项研究结果表明,北项研究结果表明,北京老山汉墓女主人的京老山汉墓女主人的DNA序列属于亚洲序列属于亚洲M谱系,代表了东亚地谱系,代表了东亚地区现代人群的某种祖区现代人群的某种祖先类型的遗传学性状。先类型的遗传

5、学性状。据周慧教授介绍,由于老山汉墓女主人的骨骼保存状况欠佳,据周慧教授介绍,由于老山汉墓女主人的骨骼保存状况欠佳,因此运用分子生物学的方法对其线粒体进行提取、扩增、测序和因此运用分子生物学的方法对其线粒体进行提取、扩增、测序和分析是这项综合性研究计划中的一个重点和难点课题。其人骨样分析是这项综合性研究计划中的一个重点和难点课题。其人骨样本中本中DNA降解严重、含量很少,提取工作很不顺利。为此研究人降解严重、含量很少,提取工作很不顺利。为此研究人员考虑了三套方案,即分别从其肢骨、牙齿和颅腔中偶然保存下员考虑了三套方案,即分别从其肢骨、牙齿和颅腔中偶然保存下来的一块干燥脑组织中提取来的一块干燥脑

6、组织中提取DNA。由于样本的肢骨、牙齿的保存情况由于样本的肢骨、牙齿的保存情况欠佳,未能提取出欠佳,未能提取出DNA。最后经过最后经过课题组成员坚韧不拔的努力和反复课题组成员坚韧不拔的努力和反复实验,终于分别从干燥脑组织的三实验,终于分别从干燥脑组织的三个不同部位成功得到了古个不同部位成功得到了古DNA模板,模板,并扩增测序。实验结果表明,三个并扩增测序。实验结果表明,三个不同部位所得序列一致,同一抽提不同部位所得序列一致,同一抽提产物的平等测序结果相同,该序列产物的平等测序结果相同,该序列真实地反映了老山汉墓女墓主的遗真实地反映了老山汉墓女墓主的遗传信息。传信息。古代古代古代古代DNADNA

7、是指从田野考古发掘中出土的古代人是指从田野考古发掘中出土的古代人类和动物遗骸以及古生物化石中提取的古代生物分类和动物遗骸以及古生物化石中提取的古代生物分子。随着现代生物技术、有机地球化学理论和实验子。随着现代生物技术、有机地球化学理论和实验技术的不断发展,人们对古代技术的不断发展,人们对古代DNA的研究也不断深的研究也不断深入。入。把古代把古代DNA数据与现代基因库中的数据资料相数据与现代基因库中的数据资料相结合,便可以构建出某一生物门类的系统发育树,结合,便可以构建出某一生物门类的系统发育树,从而进一步探讨人类的演化与迁移等重大问题。从而进一步探讨人类的演化与迁移等重大问题。古分子系统学、分

8、子系统学古分子系统学、分子系统学古分子系统学、分子系统学古分子系统学、分子系统学古生物遗体、化石保存的三种信息:古生物遗体、化石保存的三种信息:1、形态学信息、形态学信息2、化学信息、化学信息(生物的代谢产物和一般的生物化学分子)(生物的代谢产物和一般的生物化学分子)3、遗传信息、遗传信息(保存的一级结构生物大分子保存的一级结构生物大分子,即基因产物和基因片段即基因产物和基因片段)分子系统学分子系统学分子系统学分子系统学(MolecularSystematics):):从生物大分子(氨从生物大分子(氨基酸、核苷酸)的遗传信息推断生物进化的历史,并以系统基酸、核苷酸)的遗传信息推断生物进化的历史

9、并以系统树(谱系)的形式表达出来。树(谱系)的形式表达出来。古分子系统学古分子系统学古分子系统学古分子系统学:利用古代:利用古代DNA保留的遗传信息进行分子系统保留的遗传信息进行分子系统学研究学研究5.1生物进化的分子基础生物进化的分子基础Darwin,CharlesDarwin,Charles(1809-1882)(1809-1882)The Origin of SpeciesThe Origin of Species(18591859)化石证据化石证据化石证据化石证据(Fossil)比较形态学证据比较形态学证据比较形态学证据比较形态学证据(Comparativemorphology)比较

10、生理学证据比较生理学证据比较生理学证据比较生理学证据(Comparativephysiology)系统学系统学系统学系统学(SystematicsSystematics)分类学分类学分类学分类学(Taxonomy)(Taxonomy)经典的进化研究方法经典的进化研究方法比较形态学证据比较形态学证据比较形态学证据比较形态学证据(Comparativemorphology)普适性普适性普适性普适性由由4种种核酸组成核酸组成分子水平的进化表现为:分子水平的进化表现为:DNA序列的演序列的演化、氨基酸序列演化、蛋白质结构的演化化、氨基酸序列演化、蛋白质结构的演化可比较性可比较性可比较性可比较性比较不同

11、物种的有关比较不同物种的有关DNA序列序列建立建立DNA序列的演化模型、序列的演化模型、氨基酸序列的演化模型(数学模型)氨基酸序列的演化模型(数学模型)蛋白质结构的演化模型蛋白质结构的演化模型(形态、性状的演化模型?)(形态、性状的演化模型?)基因组编码信息的丰富基因组编码信息的丰富基因组编码信息的丰富基因组编码信息的丰富与形态、性状包含的信息相比,基因组序列包含更多、更与形态、性状包含的信息相比,基因组序列包含更多、更复杂的信息结构复杂的信息结构进化学的分子途径进化学的分子途径分子系统发育学分子系统发育学分子系统发育学分子系统发育学MolecularMolecularPhylogenetic

12、sPhylogenetics分子系统学分子系统学分子系统学分子系统学MolecularMolecularSystematicsSystematicsWhatcanwedoformolecularevolution?Whatcanwedoformolecularevolution?序列比较序列比较序列比较序列比较:源于同一祖先源于同一祖先DNA/氨基酸序列的两条氨基酸序列的两条DNA/氨基酸氨基酸序列,考察二者的差异。序列,考察二者的差异。序列差异序列差异序列差异序列差异:进化过程中分子突变的痕迹进化过程中分子突变的痕迹分子进化分子进化分子进化分子进化:以累计在:以累计在DNA/氨基酸分子上的历

13、史信息为基础,氨基酸分子上的历史信息为基础,研究分子水平的生物进化过程和机制。研究分子水平的生物进化过程和机制。分子系统学为生物分类问题提供了许多崭新的见解。分子系统学为生物分类问题提供了许多崭新的见解。基因突变基因突变1、核苷酸替代、插入/缺失、重组2、基因转换固定在生物个体固定在生物个体以及物种内以及物种内遗传漂变遗传漂变自然选择自然选择传递给后代传递给后代产生新的形态、性状产生新的形态、性状分子系统学是研究进化机制的一个重要工具。分子系统学是研究进化机制的一个重要工具。生物进化的分子机制生物进化的分子机制性状改变性状改变DNA分子的改变分子的改变核苷酸替代substitution核苷酸缺

14、失deletion核苷酸插入insertion核苷酸倒位invertionDNADNA序列的突变序列的突变序列的突变序列的突变ThrTyrLeuLeuACCTATTTGCTGACCTCTTTGCTGThrSerLeuLeu替代替代ThrTyrLeuLeuACCTATTTGCTGACCTACTTTGCTGThrTyrPheAla插入插入ThrTyrLeuLeuACCTATTTGCTGACCTATTGCTG-ThrTyrCys-缺失缺失ThrTyrLeuLeuACCTATTTGCTGACCTTTATGCTGThrPheMetLeu倒位倒位核苷酸替代的几种分类核苷酸替代的几种分类核苷酸替代的几种分类

15、核苷酸替代的几种分类转换转换转换转换 (transition)嘌呤嘌呤嘌呤嘌呤嘧啶嘧啶嘧啶嘧啶颠换颠换颠换颠换 (transvertion)嘌呤嘌呤嘧啶嘧啶嘧啶嘧啶嘌呤嘌呤A AT TC CGG胞嘧啶胞嘧啶腺腺嘌呤嘌呤胸腺胸腺嘧啶嘧啶鸟鸟嘌呤嘌呤 在在大多数大多数DNA片段中,转换出现的概率高于颠换出现的概率。片段中,转换出现的概率高于颠换出现的概率。DNADNA序列突变对氨基酸序列的影响序列突变对氨基酸序列的影响序列突变对氨基酸序列的影响序列突变对氨基酸序列的影响 同义(沉默)替代同义(沉默)替代同义(沉默)替代同义(沉默)替代(synonymous/silentsubstitutionsy

16、nonymous/silentsubstitution)仍然为同义密码子的核苷酸替代仍然为同义密码子的核苷酸替代如:如:TATTACTyrTyr 非同义替代非同义替代非同义替代非同义替代(nonsynonymousnonsynonymoussubstitutionsubstitution)导致产生非同义密码子的核苷酸替代导致产生非同义密码子的核苷酸替代如:如:TATAATTyrAsn 无义突变无义突变无义突变无义突变(nonsensemutationnonsensemutation)导致产生终止密码子的核苷酸突变导致产生终止密码子的核苷酸突变如:如:TATTAATyrSTP问题:假设所有密码子

17、以同一概率出现,上述三种突变的比例问题:假设所有密码子以同一概率出现,上述三种突变的比例25%,71%,4%密码子使用频率密码子使用频率密码子使用频率密码子使用频率(codonusage)(codonusage)密码子使用频率的偏倚性密码子使用频率的偏倚性密码子使用频率的偏倚性密码子使用频率的偏倚性:编码同一个氨基酸的多个同义密码子具有不同的使用频率编码同一个氨基酸的多个同义密码子具有不同的使用频率例例例例:E.coli的的RNA聚合酶聚合酶 缬氨酸缬氨酸ValGTTGTCGTAGTG55213434精氨酸精氨酸ArgCGUCGCCGACGG894610为什么会出现密码子使用频率的偏倚性?为什

18、么会出现密码子使用频率的偏倚性?与同功能与同功能tRNA的丰度有关?的丰度有关?突变压力与净化选择双重控制?突变压力与净化选择双重控制?Openproblem5.2系统发育树系统发育树(Phylogenetictree)TsarNicholasIIEstablishingtheidentityofAnnaAndersonManahanAnnaAndersonAnastasia?真假公主真假公主1917年俄国末代王朝被推翻,贵族与侍卫年俄国末代王朝被推翻,贵族与侍卫全部逃走,而沙皇可怜的儿子老少一个都没走脱,并于全部逃走,而沙皇可怜的儿子老少一个都没走脱,并于1918年被全部处决。但民间却流传着

19、沙皇的小女儿死里逃生,远年被全部处决。但民间却流传着沙皇的小女儿死里逃生,远走他乡的故事。为了得到俄国沙皇的一千万遗产,许多人绞走他乡的故事。为了得到俄国沙皇的一千万遗产,许多人绞尽脑汁寻找安娜公主,终无所获。俄国贵族后裔布丁将军终尽脑汁寻找安娜公主,终无所获。俄国贵族后裔布丁将军终于找到一位外貌气质酷似安娜公主的女子,于是训练她皇室于找到一位外貌气质酷似安娜公主的女子,于是训练她皇室的各种礼仪及相关的人和事,安娜公主过关斩将。顺利和皇的各种礼仪及相关的人和事,安娜公主过关斩将。顺利和皇太后相认,就在太后要宣布安娜公主为遗产继承人并与保罗太后相认,就在太后要宣布安娜公主为遗产继承人并与保罗定婚

20、时,安娜公主与布丁悄然消失,结局出人意料定婚时,安娜公主与布丁悄然消失,结局出人意料STORY2:STORY3:极端厌氧的产甲烷菌极端厌氧的产甲烷菌 高温下生活的嗜热菌高温下生活的嗜热菌 美国黄石公园内有美国黄石公园内有许多温泉,水温从许多温泉,水温从20到到100,其,其中生活着一些喜欢中生活着一些喜欢热的微生物,用显热的微生物,用显微镜观察,这些微微镜观察,这些微生物呈杆状。生物呈杆状。1964年生物学家托马斯年生物学家托马斯布罗克在黄布罗克在黄石公园的温泉源头发现了微生物,第石公园的温泉源头发现了微生物,第二年夏天又发现了在二年夏天又发现了在60摄氏度的水中摄氏度的水中生活的水藻,还有在

21、生活的水藻,还有在82摄氏度的水温摄氏度的水温下生存的微生物。下生存的微生物。基于基于16S/18S核糖体核糖体RNA序列比对得到的古细菌系统发育树序列比对得到的古细菌系统发育树(Ettema等,等,2005)生命三界:生命三界:细菌(细菌(Eubacteria)古细菌古细菌(Archaebacteria)真核(真核(Eukaryotes)(WoeseandFox,1977)http:/www.sciencexpress.org/1May2003/Page7/10.1126/science.1085952STORY4:电子显微镜下的电子显微镜下的SARS冠状病毒冠状病毒100nmabcdabc

22、d拓扑结构:拓扑结构:有根树:有根树:反映时间顺序反映时间顺序无根树:无根树:反映距离反映距离理论上,一个理论上,一个DNA序列在物种形成或基因复制时,分裂序列在物种形成或基因复制时,分裂成两个子序列,因此系统发育树一般是二歧的。成两个子序列,因此系统发育树一般是二歧的。一般考虑二歧的树结构:二歧树一般考虑二歧的树结构:二歧树分支:分支:内部分支内部分支外部分支外部分支节点:节点:内部节点内部节点外部节点外部节点系统发育树的种类系统发育树的种类系统发育树的种类系统发育树的种类有根树、无根树有根树、无根树有根树、无根树有根树、无根树abcdabcdabcd adbcbacdcabddabcacb

23、dbcadcbaddbacadbcbaaccdabdcab考虑考虑4个分类群时,共有个分类群时,共有15种可能的有根树种可能的有根树abcdacbdadbc考虑考虑4个分类群时,共有个分类群时,共有3种可能的无根树种可能的无根树考察类群数为考察类群数为m(m 3)的系统树,其可能的拓扑结构数目的系统树,其可能的拓扑结构数目为:为:有根树有根树无根树无根树m=10:34,459,425种种m=10:2,027,025种种当当m较大时,选出真实树的拓扑结构十分困难。较大时,选出真实树的拓扑结构十分困难。分支数目:分支数目:有根树有根树无根树无根树内部分支数目:内部分支数目:有根树有根树无根树无根树

24、内部节点数目:内部节点数目:有根树有根树无根树无根树物种树物种树物种树物种树:代表一个物种或群体代表一个物种或群体进化历史的系统发育树进化历史的系统发育树两个物种分歧的时间:两个物种分歧的时间:两个物种发生生殖隔离的两个物种发生生殖隔离的时间时间基因树基因树基因树基因树:由来自各个物种的一由来自各个物种的一个基因构建的系统发育树个基因构建的系统发育树(不完全等同于物种树),(不完全等同于物种树),表示基因分离的时间。表示基因分离的时间。abcdef基因分裂基因分裂基因分裂基因分裂基因分裂基因分裂物种分裂物种分裂系统发育树的种类系统发育树的种类系统发育树的种类系统发育树的种类基因树、物种树基因树

25、物种树基因树、物种树基因树、物种树期望树期望树期望树期望树:一个用无限长的序列或每一一个用无限长的序列或每一分支的期望替代数构建的树分支的期望替代数构建的树理论上:理论上:理论上:理论上:假设所研究的序列无限假设所研究的序列无限长,从中随机抽样进行长,从中随机抽样进行统计分析。统计分析。实际情况:实际情况:实际情况:实际情况:所所研究的序列是短序列,研究的序列是短序列,统计得到的替代数目存统计得到的替代数目存在大量随机误差。在大量随机误差。现实树现实树现实树现实树:建立在实际替代数基础上建立在实际替代数基础上的树的树重建树重建树重建树重建树构树构树方法方法系统发育树的种类系统发育树的种类系统

26、发育树的种类系统发育树的种类期望树、现实树和重建树期望树、现实树和重建树期望树、现实树和重建树期望树、现实树和重建树构建系统发育树的数据构建系统发育树的数据构建系统发育树的数据构建系统发育树的数据1、特征数据特征数据(characterdata):提供了基因、个体、群体或物种的信息提供了基因、个体、群体或物种的信息2、距离数据距离数据(distancedata)或或相似性数据相似性数据(similaritydata):涉及的则是成对基因、个体、群体或物种的信息。涉及的则是成对基因、个体、群体或物种的信息。距离矩阵距离矩阵距离数据可以由特征数据计算得到。距离数据可以由特征数据计算得到。反之反之?

27、系统发育树的构建系统发育树的构建系统发育树的构建系统发育树的构建构造系统发育树的主要方法构造系统发育树的主要方法构造系统发育树的主要方法构造系统发育树的主要方法 距离法距离法距离法距离法根据每对物种之间的距离直接计算得到。所生成根据每对物种之间的距离直接计算得到。所生成的树的质量取决于距离尺度的质量的树的质量取决于距离尺度的质量 简约法简约法简约法简约法通过寻求物种间最小的变更数来完成的通过寻求物种间最小的变更数来完成的 似然法似然法似然法似然法通过标准的统计推断建立系统发育的概率模型通过标准的统计推断建立系统发育的概率模型 其它方法其它方法其它方法其它方法:神经网络方法、神经网络方法、Had

28、amard结合法结合法构建系统发育树的主要过程构建系统发育树的主要过程构建系统发育树的主要过程构建系统发育树的主要过程1、拓扑结构的判别、拓扑结构的判别(从大量的拓扑结构中搜寻、判别)(从大量的拓扑结构中搜寻、判别)2、一个既定拓扑结构的分支长度的估计、一个既定拓扑结构的分支长度的估计最优原则最优原则5.3系统发育树的构建方法之一系统发育树的构建方法之一距离法距离法1、首先要获得所有分类群之间的进化距离。、首先要获得所有分类群之间的进化距离。2、系统发育树的构建是基于进化距离之间的关系。、系统发育树的构建是基于进化距离之间的关系。如何获得所有分类群之间的进化距离如何获得所有分类群之间的进化距离

29、如何获得所有分类群之间的进化距离如何获得所有分类群之间的进化距离1、选定分类群共同的特征序列、选定分类群共同的特征序列氨基酸序列、核苷酸序列氨基酸序列、核苷酸序列例:人、马、牛、袋鼠、蝾螈、鲤鱼的血红蛋白例:人、马、牛、袋鼠、蝾螈、鲤鱼的血红蛋白 链的氨基酸序链的氨基酸序列列(140aa););人、猕猴、黑猩猩的线粒体人、猕猴、黑猩猩的线粒体DNA中细胞色素中细胞色素b基因的核苷酸序列基因的核苷酸序列(1,125bp););2、比较两两序列之间的差异比较两两序列之间的差异p (序列比对算法)(序列比对算法)3、根据不同的概率统计模型,由两条序列的差异根据不同的概率统计模型,由两条序列的差异p值

30、构建它值构建它们的进化距离们的进化距离氨基酸序列:氨基酸序列:PC(Poisson校正)距离、校正)距离、距离距离核苷酸序列:核苷酸序列:Jukes-Cantor模型、模型、Kimura模型、模型、HKY模型等模型等PC距离距离p距离距离时间时间单位:千万年单位:千万年如何建立分类群之间的进化距离的数学模型如何建立分类群之间的进化距离的数学模型如何建立分类群之间的进化距离的数学模型如何建立分类群之间的进化距离的数学模型如何根据不同的概率统计模型,由两条序列的差异如何根据不同的概率统计模型,由两条序列的差异p值构建它值构建它们的进化距离?们的进化距离?进一步阅读:进一步阅读:分子进化与系统发育分

31、子进化与系统发育(MolecularEvolutionandPhylogentics)MasatoshiNei&SudhirKumar,OxfordUniversityPress,Inc.2000中文译本:吕宝忠、钟扬、高莉萍等译,中文译本:吕宝忠、钟扬、高莉萍等译,高等教育出版社,高等教育出版社,2002第二四章(第二四章(pp15-63)氨基酸序列的进化演变氨基酸序列的进化演变DNA序列的进化演变序列的进化演变同义与非同义的核苷酸替代同义与非同义的核苷酸替代1、UPGMA法法UPGMA:(UnweightedPair-GroupMethodusinganarithmeticAverage,

32、使用算术平均的非加权成组配对方法)使用算术平均的非加权成组配对方法)Sokal&Michener(1958)Sneath&Sokal(1973)方法原理:谱系聚类方法原理:谱系聚类谱系聚类法的基本步骤谱系聚类法的基本步骤谱系聚类法的基本步骤谱系聚类法的基本步骤首先将首先将t个样本各自视为一类:得到初始的分类个样本各自视为一类:得到初始的分类G(1)(含有含有t类),计算类),计算t个样本两两之间的距离,它们等价于初始的类间个样本两两之间的距离,它们等价于初始的类间距离,得到初始的距离矩阵距离,得到初始的距离矩阵D(1);将距离最近的两类合并为一新类,得到新的分类将距离最近的两类合并为一新类,得

33、到新的分类G(2)(含含有有t-1类),并计算新类与其它类的类间距离,得到新的类间距类),并计算新类与其它类的类间距离,得到新的类间距离矩阵离矩阵D(2),再按照最小距离准则并类,得到再按照最小距离准则并类,得到G(3)(含有含有t-2类)类)、D(3),。直到所有样本都并成一类直到所有样本都并成一类;画出谱系聚类图,决定分类的个数及各类的成员。画出谱系聚类图,决定分类的个数及各类的成员。谱系聚类结果示意图:谱系聚类结果示意图:X(1)X(2)X(3)X(4)X(5)1230GibbonSymphalangusHumanGorillaChimpanzee讨论讨论讨论讨论1、在基因替代速率恒定假

34、设成立时,、在基因替代速率恒定假设成立时,UPGMA方法比较适用;方法比较适用;2、UPGMA方法适用于具有较小变异系数的距离测度;方法适用于具有较小变异系数的距离测度;3、UPGMA是一种既构建拓扑结构又计算分支长度的方法;是一种既构建拓扑结构又计算分支长度的方法;4、UPGMA方法既可以得到有根树,也可以得到无根树。方法既可以得到有根树,也可以得到无根树。2、邻接法(、邻接法(NeighborJoiningMethod)最小进化(最小进化(ME)思想:在所有可能的拓扑结构中,选择思想:在所有可能的拓扑结构中,选择分支分支长度和长度和S最小作为最优树。(全局优化思想)最小作为最优树。(全局优

35、化思想)(Edwards&Cavalli-Sforza,1963)Saitou&Nei(1987):在每一阶段应用最小进化原理,是在每一阶段应用最小进化原理,是ME方法的简化。方法的简化。A AC CD DB B1 12 23 34 45 56 6(1)(1)(2)(2)(3)(3)(4)(4)(1)(1)(2)(2)(2)(2)(6)(6)(7)(7)S:所有分支长度总和所有分支长度总和其中其中X为连接类群为连接类群i,j的节点,的节点,LiX为类群为类群i到到X的分支长度。的分支长度。定义定义定义定义:邻居(邻居(neighbors)无根树中,一个节点所连接的两个分类群互为邻居无根树中,一

36、个节点所连接的两个分类群互为邻居(1,2);(5,6);(1-2,3);(1-2-3,4)其中其中X为连接互为邻居的类群为连接互为邻居的类群i,j的内部节点,的内部节点,LiX为类群为类群i到到X的分支长度。的分支长度。A AC CD DB B1 12 23 34 45 56 6(1)(1)(2)(2)(3)(3)(4)(4)(1)(1)(2)(2)(2)(2)(6)(6)(7)(7)S:所有分支长度总和所有分支长度总和例子例子例子例子已知距离矩阵已知距离矩阵已知距离矩阵已知距离矩阵:6个分类群的距离矩阵个分类群的距离矩阵dijd dij ij1 12 23 34 45 56 61 10 09

37、 912121515202016162 20 07 71010151511113 30 05 510106 64 40 011117 75 50 08 86 60 03 3X X1 12 26 64 45 5S0=32.41 12 23 36 64 45 5XYS1=29.51 12 23 36 64 45 5YA AX(2)(2)(7)(7)S2=28.31 12 23 36 64 45 5YA AXB B(2)(2)(7)(7)(2)(2)(6)(6)S3=28.01 12 23 36 64 45 5A AB B(2)(2)(7)(7)(2)(2)(6)(6)C C(4)(4)(1)(1)

38、S4=28.01 12 23 36 64 45 5A AB B(2)(2)(7)(7)(2)(2)(6)(6)C C(4)(4)(1)(1)D D(1)(1)(2)(2)(3)(3)S5=28.0ENDEND初始系统树的拓扑结构为星状树,其分支长度总和为:初始系统树的拓扑结构为星状树,其分支长度总和为:X X1 12 23 36 64 45 5S0=32.4已知已知m个分类群,以及它们的距离矩阵个分类群,以及它们的距离矩阵dij(m m)1 12 23 36 64 45 5XY定义定义定义定义:Sij表示类群表示类群i和和j为邻居时的分支长度总和。如为邻居时的分支长度总和。如其中:其中:S12

39、29.5Sij的计算公式:的计算公式:其中:其中:分支长度的计算公式:分支长度的计算公式:确定一个内部节点确定一个内部节点A(连接邻居连接邻居i,j)后,计算后,计算A与其它分类与其它分类群群k距离:距离:得到新的距离矩阵(维数减得到新的距离矩阵(维数减1)CommentsCommentsNJ法本质上是一种寻找最优拓扑结构的谱系聚类算法。同时法本质上是一种寻找最优拓扑结构的谱系聚类算法。同时给出系统发育树的拓扑结构以及分支的长度。给出系统发育树的拓扑结构以及分支的长度。优点:优点:1、可以较快地构建系统树;、可以较快地构建系统树;2、适用于分析较大的数据集;、适用于分析较大的数据集;3、能够

40、较方便地进行自展(、能够较方便地进行自展(Bootstrap)检验。检验。5.4系统发育树的构建方法之二系统发育树的构建方法之二最大简约法最大简约法(MaximumParsimonyMethod)MPMP算法基本思想算法基本思想算法基本思想算法基本思想(Fitch,1971;Hartigan,1973)考虑考虑m个核苷酸(或氨基酸)序列(个核苷酸(或氨基酸)序列(m 4),),假定假定4种核苷种核苷酸(或酸(或20种氨基酸)可突变为与自身不同的任何一种。种氨基酸)可突变为与自身不同的任何一种。1)对于任一给定的拓扑结构,可以推断每个位点的祖先状对于任一给定的拓扑结构,可以推断每个位点的祖先状态

41、态;2)对于该拓扑结构,可以计算出用来解释整个进化过程所)对于该拓扑结构,可以计算出用来解释整个进化过程所需的核苷酸(或氨基酸)的最小替代数目;需的核苷酸(或氨基酸)的最小替代数目;3)对所有可能正确的拓扑结构计算它们的最小替代数目,)对所有可能正确的拓扑结构计算它们的最小替代数目,选择其中最小的作为最优拓扑结构。选择其中最小的作为最优拓扑结构。OkkhamsOkkhamsRazor/Razor/AccamsAccamsRazorRazorEntitiesshouldnotbemultipliedunnecessarily如无必要,勿增实体!如无必要,勿增实体!Pluralitas non

42、est ponenda sine necessitate.Frustra fit per plura quod potest fieri per pauciora.Entia non sunt multiplicanda praeter necessitatem万事万物应该尽量简单,而不是更简单。万事万物应该尽量简单,而不是更简单。爱因斯坦爱因斯坦哲学家、圣方济各会修士哲学家、圣方济各会修士奥卡姆的威廉奥卡姆的威廉(1284-1347)MPMP法决定系统树的拓扑结构法决定系统树的拓扑结构法决定系统树的拓扑结构法决定系统树的拓扑结构1 12 23 34 45 56 6AAAGGTAGGG1 12

43、 23 34 45 56 6AAAGGTAAAT祖先节点的核苷酸不能完全唯一确定。祖先节点的核苷酸不能完全唯一确定。特定结构树的最小替代数目估计特定结构树的最小替代数目估计1)对于任一给定的拓扑结构,计算它的树长(即所有位对于任一给定的拓扑结构,计算它的树长(即所有位点的最小替代数目之和)点的最小替代数目之和)L;2)选取具有最短树长的拓扑结构为最大简约树。选取具有最短树长的拓扑结构为最大简约树。不变位点:不变位点:不变位点:不变位点:在所有分类群中相同核苷酸或氨基酸的位点。在所有分类群中相同核苷酸或氨基酸的位点。不变位点不提供任何信息。不变位点不提供任何信息。计算所有结构树并选取最短树长计算

44、所有结构树并选取最短树长信息位点、趋同进化信息位点、趋同进化单一位点单一位点单一位点单一位点:位点上只有一个分类群具有一种不同的核苷酸或:位点上只有一个分类群具有一种不同的核苷酸或氨基酸。氨基酸。对所有的拓扑结构都只能用相同的替代数目表示。对所有的拓扑结构都只能用相同的替代数目表示。单一位点也不提供任何单一位点也不提供任何MP信息。信息。1 12 23 34 45 56 6AATCGAAAAA1 12 23 35 54 46 6AAGCTAAAAA1 12 26 63 34 45 5AACATGAAAA1 12 23 36 64 45 5AAACTGAAAA1 12 23 36 64 45 5

45、AAACTGAAAT1 12 23 36 64 45 5AAACTGAAAG简约信息位点简约信息位点简约信息位点简约信息位点:位点上至少有两种不同的核苷酸或氨基酸,位点上至少有两种不同的核苷酸或氨基酸,且每种至少出现两次。且每种至少出现两次。MP法构建系统树的位点:法构建系统树的位点:(1)只利用简约信息位点;)只利用简约信息位点;(2)既利用简约信息位点,也利用单一位点。)既利用简约信息位点,也利用单一位点。MPMP法决定系统树的分支长度法决定系统树的分支长度法决定系统树的分支长度法决定系统树的分支长度进化通径进化通径进化通径进化通径:考虑任意两个密码子之间变换的可能路径考虑任意两个密码子之

46、间变换的可能路径分支长度估计分支长度估计通过考虑每个非不变位点的所有进化通径,并计算每个内部通过考虑每个非不变位点的所有进化通径,并计算每个内部分支或外部分支的平均替代数来估计分支或外部分支的平均替代数来估计MPMP树的分支长度。树的分支长度。(具体算法略)(具体算法略)MPMP法评述法评述法评述法评述MP法适用的问题法适用的问题(1)位点不存在回复突变、平行突变;)位点不存在回复突变、平行突变;(2)被分析的序列较长,核苷酸或氨基酸数目很大;)被分析的序列较长,核苷酸或氨基酸数目很大;(3)序列的相似度较高;)序列的相似度较高;(4)核苷酸或氨基酸替代速率较稳定。)核苷酸或氨基酸替代速率较稳

47、定。详细内容请参考详细内容请参考分子进化与系统发育分子进化与系统发育(高等教育出版社)(高等教育出版社)5.5系统发育树的构建方法之三系统发育树的构建方法之三最大似然法最大似然法(MaximumLikelihoodMethod)MLML算法基本思想算法基本思想算法基本思想算法基本思想(Felsenstein,1981;Kishino,1990)以一个特定的替代模型分析一组给定的核苷酸(或氨基酸)序以一个特定的替代模型分析一组给定的核苷酸(或氨基酸)序列数据,使获得的每一个拓扑结构的似然率均为最大,挑选其列数据,使获得的每一个拓扑结构的似然率均为最大,挑选其中最大似然率最大的拓扑结构,选为最终系

48、统树。中最大似然率最大的拓扑结构,选为最终系统树。ML法考察的既可以是拓扑结构,也可以是既定拓扑结构的分法考察的既可以是拓扑结构,也可以是既定拓扑结构的分支长度。支长度。ML法采用了标准的统计方法,以建立进化的概率模型。法采用了标准的统计方法,以建立进化的概率模型。计算量非常大。计算量非常大。详细内容请参考详细内容请参考分子进化与系统发育分子进化与系统发育(高等教育出版社)(高等教育出版社)5.6系统发育树的构建方法的讨论系统发育树的构建方法的讨论(略)(略)(略)(略)5.7常用分子进化与常用分子进化与系统发育分析的软件系统发育分析的软件软件名称软件名称软件名称软件名称网址网址网址网址说明说

49、明说明说明PHYLIPPHYLIPhttp:/http:/evolution.gs.washinevolution.gs.washington.edu/phylip.htmlgton.edu/phylip.htmlItincludesprogramstocarryoutItincludesprogramstocarryoutparsimony,distancematrixmethods,parsimony,distancematrixmethods,maximumlikelihood,andothermethodsmaximumlikelihood,andothermethodsonavari

50、etyoftypesofdata,includingonavarietyoftypesofdata,includingDNAandRNAsequences,proteinDNAandRNAsequences,proteinsequences,restrictionsites,0/1discretesequences,restrictionsites,0/1discretecharactersdata,genefrequencies,charactersdata,genefrequencies,continuouscharactersanddistancecontinuouscharacters

展开阅读全文
相关资源
猜你喜欢
相关搜索

当前位置:首页 > 高等教育 > 大学课件

宁ICP备18001539号-1