第五章系统发生分析.ppt

上传人:本田雅阁 文档编号:2096910 上传时间:2019-02-13 格式:PPT 页数:65 大小:1.02MB
返回 下载 相关 举报
第五章系统发生分析.ppt_第1页
第1页 / 共65页
第五章系统发生分析.ppt_第2页
第2页 / 共65页
第五章系统发生分析.ppt_第3页
第3页 / 共65页
亲,该文档总共65页,到这儿已超出免费预览范围,如果喜欢就下载吧!
资源描述

《第五章系统发生分析.ppt》由会员分享,可在线阅读,更多相关《第五章系统发生分析.ppt(65页珍藏版)》请在三一文库上搜索。

1、,第五章 系统发育分析,古代DNA是指从田野考古发掘中出土的古代人类和动物遗骸以及古生物化石中提取的古代生物分子。随着现代生物技术、有机地球化学理论和实验技术的不断发展,人们对古代DNA的研究也不断深入。 把古代DNA数据与现代基因库中的数据资料相结合,便可以构建出某一生物门类的系统发育树,从而进一步探讨人类的演化与迁移等重大问题。,古分子系统学、分子系统学 古生物遗体、化石保存的三种信息: 1、形态学信息 2、化学信息(生物的代谢产物和一般的生物化学分子) 3、遗传信息(保存的一级结构生物大分子,即基因产物和基因片段) 分子系统学(Molecular Systematics):从生物大分子(

2、氨基酸、核苷酸)的遗传信息推断生物进化的历史,并以系统树(谱系)的形式表达出来。 古分子系统学:利用古代DNA保留的遗传信息进行分子系统学研究,Darwin, Charles (1809-1882),The Origin of Species (1859),化石证据 (Fossil) 比较形态学证据 (Comparative morphology) 比较生理学证据 (Comparative physiology),经典的进化研究方法,比较形态学证据 (Comparative morphology),普适性 由4种核酸组成 分子水平的进化表现为:DNA序列的演化、氨基酸序列演化、蛋白质结构的演化

3、 可比较性 比较不同物种的有关DNA序列 建立DNA序列的演化模型、氨基酸序列的演化模型(数学模型) 蛋白质结构的演化模型 (形态、性状的演化模型?) 基因组编码信息的丰富 与形态、性状包含的信息相比,基因组序列包含更多、更复杂的信息结构,进化学的分子途径,分子系统发育学 Molecular Phylogenetics 分子系统学 Molecular Systematics,What can we do for molecular evolution? 序列比较:源于同一祖先DNA/氨基酸序列的两条DNA/氨基酸序列,考察二者的差异。 序列差异:进化过程中分子突变的痕迹 分子进化:以累计在DN

4、A/氨基酸分子上的历史信息为基础,研究分子水平的生物进化过程和机制。,分子系统学为生物分类问题提供了许多崭新的见解。,基因突变,1、核苷酸替代、插入/缺失、重组 2、基因转换,固定在生物个体 以及物种内,遗传漂变,自然选择,传递给后代,产生新的形态、性状,分子系统学是研究进化机制的一个重要工具。,生物进化的分子机制,性状改变,DNA分子的改变,核苷酸替代substitution,核苷酸缺失 deletion,核苷酸插入 insertion,核苷酸倒位 invertion,DNA序列的突变,Thr Tyr Leu Leu ACC TAT TTG CTG,ACC TCT TTG CTG Thr S

5、er Leu Leu,替代,Thr Tyr Leu Leu ACC TAT TTG CTG,ACC TAC TTT GCT G Thr Tyr Phe Ala,插入,Thr Tyr Leu Leu ACC TAT TTG CTG,ACC TAT TGC TG- Thr Tyr Cys -,缺失,Thr Tyr Leu Leu ACC TAT TTG CTG,ACC TTT ATG CTG Thr Phe Met Leu,倒位,核苷酸替代的几种分类,转换 (transition) 嘌呤 嘌呤 嘧啶 嘧啶,颠换 (transvertion) 嘌呤 嘧啶 嘧啶 嘌呤,在大多数DNA片段中,转换出现的

6、概率高于颠换出现的概率。,DNA序列突变对氨基酸序列的影响,同义(沉默)替代(synonymous / silent substitution) 仍然为同义密码子的核苷酸替代 如: TAT TAC Tyr Tyr,非同义替代(nonsynonymous substitution) 导致产生非同义密码子的核苷酸替代 如: TAT AAT Tyr Asn,无义突变(nonsense mutation) 导致产生终止密码子的核苷酸突变 如: TAT TAA Tyr STP,问题:假设所有密码子以同一概率出现,上述三种突变的比例 25%,71%,4%,密码子使用频率(codon usage),密码子使

7、用频率的偏倚性: 编码同一个氨基酸的多个同义密码子具有不同的使用频率。或者某一物种或某一基因通常倾向于使用一种或几种特定的同义密码子,这些密码子被称为最优密码子(Optimal Codon),此现象被称为密码子偏好性(Codon Usage bias)。,例:E. coli的RNA聚合酶 缬氨酸Val GTT GTC GTA GTG 55 21 34 34 精氨酸Arg CGU CGC CGA CGG 89 46 1 0,为什么会出现密码子使用频率的偏倚性? 与同功能tRNA的丰度有关? 突变压力与净化选择双重控制?,Open problem,第一节 基本概念,基本概念: 系统发生(phylo

8、geny)是指生物形成或进化的历史; 系统发生学(phylogenetics)研究物种(遗传学特征)之间的进化关系,认为特征相似的物种在遗传学上接近.系统发生的结果常以系统发生树表示; 系统发生树(phylogenetic tree)表示形式,描述物种(遗传学特征: 形态, 基因序列, 蛋白质序列等等) 之间进化关系 的树,又叫系统发育树、系统演化树、系统进化树、种系发生树、演化树、进化树、系统树 。,系统发生树: 物种(遗传特征)之间的关系; 进化树: 从低等到高等, 有始有终,经典系统发生学 主要是物理或表型特征 如生物体的大小、颜色、触角个数 即通过表型比较来推断生物体的基因型(geno

9、type),研究物种之间的进化关系. 有时候亲缘关系远的物种也能进化出相似的表型,所谓的趋同进化(convergent evolution)。所以表型为依据的进化分析有时候并不正确。 如是否有眼睛?,现代系统发生学 利用从遗传物质中提取的信息作为物种特征 具体地说就是核酸序列或蛋白质分子,根据现有生物基因或物种多样性重建生物的进化史是一个非常重要的问题。根据核酸和蛋白质的序列信息,可以推断物种之间的系统发生关系。 基本原理: 从一条序列变为另一条序列所需要的变换越多,两条序列的相关性就越小,从共同祖先分歧的时间越早,进化距离越大;反之,两个序列越相似,它们之间的进化距离可能越小。,所有的生物都

10、可以追溯到共同的祖先,生物的产生和分化就象数一样地生长,分叉, 以树的形式来表示生物之间的进化关系是非常自然的事。,系统发生树是一种二叉树(每个节点最多有两个子节点),由一系列的节点(nodes)和分支(branches)组成,每个节点代表一个分类单元(物种或序列), 节点之间的连线表示物种之间的进化关系。 枝长branch length 通常代表在该分枝中曾发生过的变化数。,系统树可以是有根的rooted 也可以是无根的(unrooted). 在有根树中存在一个被称为根特殊节点由此导向任何别的节点都只有唯一图。 每一途径中的方向与进化时间和变异频率相对应。而根则是所有正被研究的的共同祖先。无

11、根树是一种只将各间的关系具体化而未定义进化途径的树图。,系统发生树性质: (1)如果是一棵有根树,则树根代表在进化历史上是最早的、并且与其它所有分类单元都有联系的分类单元; (2)如果找不到可以作为树根的单元,则系统发生树是无根树; (3)从根节点出发到任何一个节点的路径指明进化时间或者进化距离。,直系同源(orthologs): 同源的基因是由于共同的祖先基因进化而产生的. 旁系同源(paralogs): 同源的基因是由于基因复制产生的.,直系同源与旁系同源,Paralogs(旁系),Orthologs(直系),Paralogs旁系,Orthologs直系,Bacterium 1,Bacte

12、rium 3,Bacterium 2,Eukaryote 1,Eukaryote 4,Eukaryote 3,Eukaryote 2,Bacterium 1,Bacterium 3,Bacterium 2,Eukaryote 1,Eukaryote 4,Eukaryote 3,Eukaryote 2,Phylograms show branch order and branch lengths 进化树,有分支和支长信息,进化分支图,进化树,Cladograms show branching order - branch lengths are meaningless 进化分支图,只用分支信息,

13、无支长信息。,Rooted by outgroup,archaea,archaea,archaea,bacteria outgroup,root,eukaryote,eukaryote,eukaryote,eukaryote,无根树,archaea,archaea,archaea,有根树,无根树,外围群,有根树,外围群,物种树: 代表一个物种或群体进化历史的系统发育树 两个物种分歧的时间:两个物种发生生殖隔离的时间 基因树: 由来自各个物种的一个基因构建的系统发育树(不完全等同于物种树),表示基因分离的时间。,系统发育树的种类 基因树、物种树,期望树: 一个用无限长的序列或每一分支的期望替代数

14、构建的树,理论上: 假设所研究的序列无限 长,从中随机抽样进行 统计分析。,实际情况: 所研究的序列是短序列, 统计得到的替代数目存 在大量随机误差。,现实树: 建立在实际替代数基础上的树,重建树,构树方法,系统发育树的种类 期望树、现实树和重建树,第二节 系统发生分析步骤,(1)序列比对 (2)确定替换模型 (3)构建系统发生树 (4)评价所建立的树,两类数据: 距离: 离散特征 离散特征数据可分为 二态特征例如:DNA序列上的某个位置如果是剪切位点 多态特征例如:某一位置可能的碱基有、或,系统发生树的构建方法分为两大类: 基于距离的构建方法 非加权组平均法 邻近归并法 Fitch-Marg

15、oliash法 最小进化方法 基于离散特征的构建方法 最大简约法 最大似然法 进化简约法 相容性方法,基于离散特征的构建方法 -最大简约法(MP),最大简约法(maximum parsimony,MP)最早源于形态性状研究,现在已经推广到分子序列的进化分析中。最大简约法的理论基础是奥卡姆(Ockham)哲学原则,这个原则认为:解释一个过程的最好理论是所需假设数目最少的那一个。对所有可能的拓扑结构进行计算,并计算出所需替代数最小的那个拓扑结构,作为最优树。,最大简约法利用存在序列之间的差异的位点,即信息位点:由位点产生的突变数目把一棵树与另一棵树区分开来的位点。对于一个信息位点要求至少有两种不同

16、的序列,而且每个序列至少出现2次。,最大简约法就是寻找长度最小,代价最小(替换的次数最少)的树。 我们只考虑信息位点。(以5为例) try,基于距离的构建方法,距离法又称距离矩阵法,首先通过各个物种之间的比较,根据一定的假设(进化距离模型)推导得出分类群之间的进化距离,构建一个进化距离矩阵。进化树的构建则是基于这个矩阵中的进化距离关系 。,10条核酸序列的距离矩阵,例,如果有三个物种,其两两距离如下: dab = 0.5 dac = 0.9 dbc = 0.9,通过求解方程,得到 如图所示的一棵树。,u,v,a,b,c,0.2,0.25,0.25,0.45,一种简单的距离矩阵,由进化距离构建进

17、化树的方法有很多,常见有: 1.Fitch-Margoliash Method(FM法) 2. Neighbor-Joining Method (NJ法/邻接法) 3. Neighbors Relaton Method(邻居关系法) 4.Unweighted Pair Group Method (UPGMA法),通过矩阵建树的方法,距离法之非加权分组平均法 (Unweighted Pair Group Method with Arithmetic mean, UPGMA),在非加权分组平均法中,在计算新分类到其它分类之间的平均距离时按照各分类中分类单元的数目进行加权处理。,UPGMA法,d=e

18、=10/2=5,c=19/2=9.5 g=c-d=9.5-5=4.5,d(DE)A=(AE+AD)/2=(41+39)/2=40,a=b=22/2=11,d(CDE)A=(AE+AD+AC)/3=(41+39+39)/3=39.5,f1+a=f2+c=40.5/2=20.25 f1=9.25 , f2=11.75,选择外类群 (Outgroup),选择一个或多个已知与分析序列关系较远的序列作为外类群 外类群可以辅助定位树根 外类群序列必须与剩余序列关系较近,但外类群序列与其他序列间的差异必须比其他序列之间的差异更显著。,bacteria outgroup,eukaryote,eukaryote

19、,eukaryote,eukaryote,archaea,archaea,archaea,外围群,可靠性分析,自展法,通过系统发生分析推断出来的树的不同部分可能有不同的置信度, 造成统计误差的一个原因是数据采样误差。因此对分析的对象多次采样,比较不同样本得到的估计值。具体做法:从原始数据中采集部分数据组新的数据集, 构建系统发生树,重复该过程,产生千百的重采样数据集,并同时生成对应的自展树, 检验自展树对最终系统发生树各分支的支持率。最后计算出来的数值为自展值(Bootstrap value)。,进化树的可靠性分析,自展法(Bootstrap Method),将最终系统树与各个自展树进行比较,

20、其中在各个自展树中都出现或大量出现的那些部分将具有高的置信度. 比较耗时。,课堂练习: 下列哪些位点是信息位点? 位点1 2 3 4 5 6 序列1 C A G G T A 序列2 C A G A C A 序列3 C G G C T A 序列4 T G G T C G,课堂练习: 2) 下列系统发生树建立的方法中,基于序列特征分析的是? 基于距离的是? A. neighbor-joining method B. UPGMA C.Maximum parismony D.Maximum likelihood,课堂练习: 3)给定一个距离距阵, 请用UPGMA法构建系统发生树.,A B C D E,

21、A - 8 4 6 8 B - - 8 8 4 C - - - 6 8 D - - - - 8,假设序列A-E如下: A: aagcttactgaatgggc B: aagcatactgaatcggc C: aatcatactgaatgccg D: aatcatactgtttgccg E: tttcatagtcaatgcca 假设序列之间的距离为序列转换需要的碱基替换次数。试用UPGMA法绘制树。,常用系统发生树软件: ClustalW/X, Philip , MEGA , DNAstar 查看软件: Treeview, MEGA,专业软件,系统树构建流程,选择一组相关序列,对序列进行多重比对

22、,相似性是否高?,最多简约法,是,否,是否有清晰可辨别的相似性,是,距离法,否,最大似然法,分析数据对预测支持程度,1) 流程: 1)ClustalX多序列比较; 2)用ClustalX程序直接绘制NJ树; 3)用Treeview程序打开.,2) 流程:1)ClustalX多序列比较; 2)用MEGA程序转换格式; 3)选择构建方法; 4)MEGA查看.,For sequences: OsSRZ1 MNRKPGDWDCRACQHLNFSRRDLCQRCGGPRGAADRGSGGGGDYANFGGRGGSSFGGGFGTGSDVRPGDWYCNCGAHNFASRSSCFKCAAFKDDAAVNS

23、GGAGAFDGGDMSRSRGYGFGSGAVRASRPGWKSGDWICTRSGCNEHNFASRMECFRCNAPRDSGTEV OsSRZ2 MNIQRKPGDWNCKSCQHLNFSRRDYCQRCHTPRQDLPLGDGYVPGGVLSSLDIRPGDWYCNCGYHNFASRASCFKCGAIVKDLPAGQGGGVANGDFARALDSSAVRAGWKAGDWICTRPGCNVHNFASRIECYRCNAPREAGNVK OsSRZ3 METKAAAMAMRKPGDWSCRSCQYVNFCKREACQRCGEAKLGVERTDYAAMGGGWEVKPGDWCCRCCAVNNYA

24、SRGSCFKCGAAKNDSAAAVAQGWGFSVASQAGWKNGDWICPRMECNVQNYANRTECFRCNFPRYYVD AtSRZ1 MSRPGDWNCRSCSHLNFQRRDSCQRCGDSRSGPGGVGGLDFGNFGGRAMSVFGFTTGSDVRPGDWYCTVGNCGTHNFASRSTCFKCGTFKDETGAGGGGGGIGGPAMFDADIMRSRVPGNGGRSSWKSGDWICTRIGCNEHNFASRMECFRCNAPRDFSNRTSF AtSRZ2 MNRPGDWNCRLCSHLNFQRRDSCQRCREPRPGGISTDLLSGFGGRPVSSSFGF

25、NTGPDVRPGDWYCNLGDCGTHNFANRSSCFKCGAAKDEFSCSSAAATTGFMDMNVGPRRGLFGFGGSSSGGGGTGRSPWKSGDWICPRSGCNEHNFASRSECFRCNAPKELATEPPY AtSRZ3 MSWTGGDWLCGACQHANFKKRESCQKCGYPKFGGVDVSTYLYNRTEVMAGDWYCGALNCGSHNYASRTSCYRCGMIKVEYTEQYYGAQMVAYGNDGAACPPGWKTGDWVCPRVGCGVHNYASRAECFKCKTTRDYGGV,Step OK?,小考,一、名词解释:生物信息学、FASTA序列格式 、BLAST、多序列比对 、系统发育树 二、问答题 BLAST套件的blastn、blastp、blastx、tblastn和tblastx子工具的用途是什么?,作业,论述生物信息学的发展历史和趋势。,

展开阅读全文
相关资源
猜你喜欢
相关搜索

当前位置:首页 > 其他


经营许可证编号:宁ICP备18001539号-1