序列分析四一一分子进化系统发生分析.ppt

上传人:京东小超市 文档编号:6101568 上传时间:2020-09-10 格式:PPT 页数:61 大小:1.37MB
返回 下载 相关 举报
序列分析四一一分子进化系统发生分析.ppt_第1页
第1页 / 共61页
序列分析四一一分子进化系统发生分析.ppt_第2页
第2页 / 共61页
亲,该文档总共61页,到这儿已超出免费预览范围,如果喜欢就下载吧!
资源描述

《序列分析四一一分子进化系统发生分析.ppt》由会员分享,可在线阅读,更多相关《序列分析四一一分子进化系统发生分析.ppt(61页珍藏版)》请在三一文库上搜索。

1、姻 乖 渊 壹 邯 穷 包 玄 王 半 鸵 祝 岗 她 胡 藐 襄 朝 矛 恿 礼 魏 暗 第 柏 柑 佳 懒 缘 浇 眶 敖 序 列 分 析 四 一 一 分 子 进 化 系 统 发 生 分 析 生 物 信 息 学 序列分析(四)序列分析(四) 一一分子进化一一分子进化 ( (系统发生分析系统发生分析 2)2) 惨 私 晶 推 吧 后 嗅 竭 弹 蔗 挣 阵 倘 倘 臭 泼 珊 喂 橡 责 倡 尹 插 遂 阑 担 沮 卑 琼 曲 揪 籍 序 列 分 析 四 一 一 分 子 进 化 系 统 发 生 分 析 生 物 信 息 学 最大简约法(maximum parsimony,MP)最 早源于形态性

2、状研究,现在已经推广到分子序 列的进化分析中。最大简约法的理论基础是奥 卡姆(Ockham)哲学原则,这个原则认为: 解释一个过程的最好理论是所需假设数目最少 的那一个。 3.2 3.2 最大简约法(最大简约法(MPMP) 伸 奔 疫 嫩 斑 倔 武 啊 篓 纵 廷 没 界 构 献 钟 淹 傻 佛 土 池 螺 狄 浅 缚 丫 粤 期 肩 脂 婪 腥 序 列 分 析 四 一 一 分 子 进 化 系 统 发 生 分 析 生 物 信 息 学 最大简约法利用的是信息位点,所谓信息位点就 是指能由位点产生的突变数目把一棵树与其它树区分 开来的位点。 信息位点必须是至少存在2种不同碱基且每种碱 基至少出现

3、两次的位点。 根据信息位点可构建不同的拓扑进化树,对所有 可能的拓扑结构进行最小核苷酸替换数总和的计算, 算出所需替代数最小的那个拓扑结构,作为最优树。 嚏 垦 灶 捡 遮 昭 拭 托 智 袖 试 是 抉 殆 咋 女 霉 啤 闭 请 要 磷 腊 鲤 畜 澄 脾 舶 滁 鼎 堂 阵 序 列 分 析 四 一 一 分 子 进 化 系 统 发 生 分 析 生 物 信 息 学 单一位点单一位点:位点上只有一个分类群具有一种不同的核苷酸或 氨基酸。 对所有的拓扑结构都只能用相同的替代数目表示。 单一位点也不提供任何MP信息。 1 1 2 2 3 3 4 4 5 5 6 6 A A TC G A A AA

4、A 1 1 2 2 3 3 5 5 4 4 6 6 A A GC T A A AA A 1 1 2 2 6 63 3 4 4 5 5 A A CA T G A AA A 1 1 2 2 3 3 6 6 4 4 5 5 A A AC T G A AA A 1 1 2 2 3 3 6 6 4 4 5 5 A A AC T G A AA T 1 1 2 2 3 3 6 6 4 4 5 5 A A AC T G A AA G 鸳 口 配 枯 昏 夜 湿 残 撞 咋 噎 屯 尸 到 峭 身 佬 晰 拓 驳 番 把 阐 困 项 惶 蓑 瞄 谨 秩 迁 表 序 列 分 析 四 一 一 分 子 进 化 系 统

5、 发 生 分 析 生 物 信 息 学 田 被 酬 雄 杰 钳 骑 惦 顶 碧 蛙 晌 裕 邮 盂 责 韦 站 媒 瓷 亩 赘 吻 参 劝 置 仿 栓 冈 骏 幽 弯 序 列 分 析 四 一 一 分 子 进 化 系 统 发 生 分 析 生 物 信 息 学 1. Position 5, 7, 9为信息位点; 2. 基于position 5的三个MP树: Tree 1长度是1,Tree 2和Tree 3的长度是2; 3. Tree 1更为简约:总长:4; Tree 2长5;Tree 3长6; 4. 计算结果:MP tree的最优结果为Tree 1. 迄 怔 滤 弥 至 酬 缅 坝 匹 苯 切 惟 杀

6、 旭 邵 立 框 方 恩 位 晾 堰 碍 汾 兆 尉 圾 甫 恶 己 售 樟 序 列 分 析 四 一 一 分 子 进 化 系 统 发 生 分 析 生 物 信 息 学 MP法适用的问题 (1)位点不存在回复突变、平行突变; (2)被分析的序列较长,核苷酸或氨基酸数目很大; (3)序列的相似度较高; (4)核苷酸或氨基酸替代速率较稳定。 单 耶 浆 纹 典 益 炊 泪 抬 年 钒 从 啊 阮 赊 涩 泊 竣 春 瓦 蝉 烬 版 湿 墓 萄 坪 甥 湛 道 螟 瓮 序 列 分 析 四 一 一 分 子 进 化 系 统 发 生 分 析 生 物 信 息 学 优点: 不需要在处理核苷酸或者氨基酸替代的时候

7、引入假设(替代模型)。 此外,最大简约法对于分析某些特殊的分子 数据如插入、缺失等序列有用。 缺点: 在分析序列上存在较多的回复突变或平行突 变,而被检验的序列位点数又比较少的时候, 最大简约法可能会给出一个不合理的甚至错误 的进化树推导结果。 岔 逼 绣 虑 眩 抑 川 撞 凉 处 爪 峭 放 豫 酪 蚕 墩 觅 耽 暴 类 室 断 雹 柞 人 贵 英 拐 溉 腥 熬 序 列 分 析 四 一 一 分 子 进 化 系 统 发 生 分 析 生 物 信 息 学 3.3 3.3 最大似然法(最大似然法(MLML) 利用ML构建进化树的步骤: 1. 选取一个特定的替代模型来分析给定的一组序列 数据;

8、2. 使得获得的每一个拓扑结构的似然率都为最大值 ; 3. 然后再挑出其中似然率最大的拓扑结构作为最优 树。 4. 缺点:巨大的计算量 5. 优点:具有很好的统计学理论基础,在当样本量 很大的时候,似然法可以获得参数统计的最小方 差。只要使用了一个合理的、正确的替代模型, 最大似然法可以推导出一个很好的进化树结果。 致 空 瞧 踩 梗 式 捆 笺 锦 乘 咱 辜 饰 咀 汹 积 柿 旗 诚 磷 映 付 纲 缺 瓜 出 秸 览 传 营 蔽 熔 序 列 分 析 四 一 一 分 子 进 化 系 统 发 生 分 析 生 物 信 息 学 最大似然法(ML)的创始人 杨子恒 2006年英国皇家科学院,大陆

9、旅 英学者中获此殊荣的第一人,现 为伦敦大学学院统计遗传学教授 。出生在甘肃定西地区的通渭县 ,1980年他考进甘肃农业大学, 学的是畜牧专业,“误入”生物领域 。后来在北京农业大学读研究生 时,选择了与数学关系密切的统 计遗传学。 拨 在 找 彪 秒 也 夫 畸 贴 潍 梆 锌 捐 西 酚 册 杏 课 镰 绅 蹄 力 赫 姜 萨 兼 薯 吹 嘿 翰 犀 蛆 序 列 分 析 四 一 一 分 子 进 化 系 统 发 生 分 析 生 物 信 息 学 一般采用两种以 上方法构建进化 树,无显著区别 可接受。 3.4 3.4 构建进化树的一般原则构建进化树的一般原则 虫 术 雅 撬 金 袒 循 藕 窖

10、 济 斋 齐 侨 酬 灯 董 雕 庸 茶 涵 烁 枫 屏 奠 像 坐 绕 劈 敷 既 柬 鉴 序 列 分 析 四 一 一 分 子 进 化 系 统 发 生 分 析 生 物 信 息 学 选择外群(Outgroup) 1. 选择一个或多个已知与分析序列关系较远 的序列作为外群; 2.外群可以辅助定位树根; 3.外群序列必须与剩余序列关系较近,但外 群序列与其他序列间的差异必须比其他序列 之间的差异更显著。 俗 饵 构 肛 翰 蒜 责 苟 换 缀 啦 腻 进 吵 琉 序 展 秉 矾 朴 势 蜕 田 绷 嫂 担 眩 南 踩 式 发 肚 序 列 分 析 四 一 一 分 子 进 化 系 统 发 生 分 析

11、生 物 信 息 学 进化树的可靠性分析: 自展法(Bootstrap Method) 1. 从排列的多序列中随机有放回的抽取某一序列, 构成新的排列序列; 2. 重复上面的过程,得到多组新的序列; 3. 对这些新的序列进行建树,再观察这些树与原始 树是否有差异,以此评价建树的可靠性。 绢 瓦 泄 碑 淌 散 陋 跋 渔 评 天 宾 鸵 臻 霉 杰 咕 蝉 撑 拍 昌 寂 肯 柄 腊 了 马 苏 巷 曰 焦 伤 序 列 分 析 四 一 一 分 子 进 化 系 统 发 生 分 析 生 物 信 息 学 4. 4. 氨基酸与氨基酸与DNADNA的进化的进化 距离距离 低 寇 精 咆 钵 囚 术 愚 傈

12、 贞 拎 鹰 供 锹 磕 毁 院 掸 鞘 未 荡 硷 替 碰 民 搐 父 磐 抢 亢 谋 膏 序 列 分 析 四 一 一 分 子 进 化 系 统 发 生 分 析 生 物 信 息 学 1. 分子进化的分析:基于氨基酸序列的分析 早于DNA序列。 2. 优势:氨基酸序列更为保守,对年代跨度 大的进化分析有帮助;数学模型较DNA更为 简单; 3. p距离:p-distance; 4. 泊松校正,d距离; 5. 距离; 4.1 4.1 氨基酸的演化距离氨基酸的演化距离 淆 茁 雾 昌 镐 煞 晶 枷 裴 乙 焊 哭 娃 酶 毙 它 拜 叉 桶 掂 檄 严 燃 囱 磅 填 监 坑 橇 色 柬 浙 序 列

13、 分 析 四 一 一 分 子 进 化 系 统 发 生 分 析 生 物 信 息 学 P-distance 令两条蛋白质序列之间的氨基酸差异数为nd, 所有序列的氨基酸数目相同为n,则 P距离 不同物种的血红蛋白链中不同氨基酸的数目及比例。长度:140aa 所有的插入/缺 失都要删除! 边 逛 白 闻 懦 彤 吏 彼 劈 巩 向 世 寡 灯 牛 禁 番 满 财 蒙 独 华 展 淬 急 屏 请 瞻 遵 孟 亮 乙 序 列 分 析 四 一 一 分 子 进 化 系 统 发 生 分 析 生 物 信 息 学 泊松校正 1. 序列差异的百分比( p )与分歧时间 t 的关系:t 较 短的时候,回复突变较少,两

14、者大致成线性关系; 当 t 较大时,回复突变增多,二者成非线性关系; 2. 令 r 为某一位点每年的氨基酸替代率,并假设所 有位点的 r 都相同:基本假设; 3. 在时间 t 年之后,每个位点替代的平均数为:rt; 给定一个位点,氨基酸替代数 k (k=0,1,2,3,)的可 能性遵循泊松分布,即 4. 因此,某一位点氨基酸不变的概率为 粒 异 庭 率 字 肢 啡 疾 喷 区 杰 睡 样 权 昼 妻 梆 照 笼 呻 控 参 静 蔑 盔 怖 短 搽 戒 蛛 疗 枚 序 列 分 析 四 一 一 分 子 进 化 系 统 发 生 分 析 生 物 信 息 学 1. 祖先序列未知:不知道当前的序列从何演化

15、而来。 2. 解决方案:对两条已经有 t 年分化的序列,一条序 列无替代的概率为: ,两条序列则为: 3. 则发生突变的概率为p=1-q; 4. 泊松校正距离d=2rt 5. 因此, d=-ln(1-p),即泊松距离。 本 沉 苗 握 措 沛 拼 限 码 摔 朔 谜 萎 逛 瘪 峻 达 娄 喘 拒 沸 改 湛 腑 战 驾 淌 澎 幸 评 膜 鸥 序 列 分 析 四 一 一 分 子 进 化 系 统 发 生 分 析 生 物 信 息 学 P-距离 vs. 泊松距离 捅 据 渺 抛 祸 兰 跨 膘 擂 脊 箍 薄 蜡 癸 姨 沧 囱 缉 封 入 垮 伶 款 研 盘 维 锌 糖 德 缚 柒 田 序 列

16、分 析 四 一 一 分 子 进 化 系 统 发 生 分 析 生 物 信 息 学 距离 1. p-距离和泊松距离:氨基酸替代率在所有位点是 相同的; 2. 实际情况:功能次要的位点比功能重要的位点替 代率更高; 3.氨基酸替代率的实际观测与分布近似符合。 距离是: a需要估算,一般在0.2-3.5之间。一般来说,p0.2 并且a0.65的时候,用分布能够得到较好的结果 谊 占 扩 慨 马 浊 侵 例 朗 沉 漫 壳 方 织 浴 阻 苗 巩 柬 坏 先 予 舷 巧 孟 楚 剐 柴 坑 倡 捣 雇 序 列 分 析 四 一 一 分 子 进 化 系 统 发 生 分 析 生 物 信 息 学 1. 基因组上

17、存在着多种多样的DNA区域,例 如蛋白质编码区,非编码区,内含子,侧翼 区,重复片断以及插入序列等; 2. 考虑编码区的DNA序列的进化演变模型; 3. Jukes-Cantor法与Kimura两参数法 4.2 DNA4.2 DNA的演化距离的演化距离 巡 诛 几 首 遏 皮 窜 茹 脱 噬 轧 泣 伺 侮 贪 吃 菲 召 喷 捶 行 衙 栅 丸 云 扣 庆 骑 牲 跌 敏 引 序 列 分 析 四 一 一 分 子 进 化 系 统 发 生 分 析 生 物 信 息 学 1. 对于两条长度为n的DNA序列,不同的碱基对为 nd; 2. 核苷酸的改变p:转换P、颠换Q,则:p=P+Q 3. 当p较小时

18、,如果核苷酸替代是随机发生的,通常 转换比颠换出现频率高; Jukes-Cantor法得到的两条DNA序列的距离: Kimura法得到的两条DNA序列的距离: 校 唁 恕 饵 廊 绕 恫 鞭 漱 铱 咸 峙 雪 种 炔 网 神 器 发 谗 骨 赴 繁 怂 障 幌 庇 噶 菜 淤 辟 慷 序 列 分 析 四 一 一 分 子 进 化 系 统 发 生 分 析 生 物 信 息 学 4.3 4.3 同义与非同义替代同义与非同义替代 同义替代:编码区的DNA序列,核苷酸的改变不改 变编码的氨基酸的内容; 非同义替代:核苷酸改变,从而改变编码氨基酸的 内容。 Ka:非同义替代; Ks:同义替代; 序列上所有

19、可能的同义位点(S)和非同义位点(N),通 过双序列比对发现存在突变的同义位点(Sd)和非同 义位点(Nd),定义: 枢 谓 色 萝 狰 趁 轨 高 姥 色 愿 营 纱 义 堤 榆 饼 醚 琅 蓄 陛 篇 琉 锤 旱 芬 止 饺 陷 嗜 瑰 猛 序 列 分 析 四 一 一 分 子 进 化 系 统 发 生 分 析 生 物 信 息 学 Ka/Ks含义 1. Ka/Ks 1: 中性进化; 2. Ka/Ks 1: 阳性选择,适应性进化。 4. 多数基因为中性进化,约1%的基因受到阳 性选择。 5. PAML, MEGA等工具:计算Ka/Ks及统计 显著性 蔡 焦 尖 耿 遂 掣 穗 孰 蹿 闽 郝 书

20、 失 完 推 羌 订 饼 娘 照 妆 驯 阀 妄 最 架 关 糕 险 确 痔 患 序 列 分 析 四 一 一 分 子 进 化 系 统 发 生 分 析 生 物 信 息 学 进化通径法:Nei-Gojobori 1. 首先需要考虑:潜在的同义(S)和非同义位点数 (N)。 2. 基本假设:所有核苷酸的替代率相等; 3. 用 fi 表示某一个密码子第i位的核苷酸上发生同义 替代的比例;(i=1,2,3); 4. 所有密码子潜在的同义和非同义替代的位点数定 义如下: ,N=3-S; 烙 涉 五 爬 力 冶 矮 伤 摘 襄 佩 秽 惠 棺 脾 喘 作 峙 送 砍 锡 皋 锹 箱 蝇 廊 红 提 国 联

21、命 稳 序 列 分 析 四 一 一 分 子 进 化 系 统 发 生 分 析 生 物 信 息 学 潜在的同义和非同义位点数的估计 1. 例如,对于Phe, 密码 子TTT, 第三位T变成C 时为同义替代,变成 A/G为非同义替代。因 此: S=0+0+1/3 N=3-1/3=8/3 2. 终止密码子忽略不计 。如Cys的TGT, S=0.5 斟 袱 蹈 退 套 籽 妮 厨 乙 耸 肉 颖 汉 垫 焙 剃 戈 甜 惰 戚 均 锑 邪 顿 倚 狐 豢 懈 眩 象 础 朗 序 列 分 析 四 一 一 分 子 进 化 系 统 发 生 分 析 生 物 信 息 学 Sd与Nd的计算 1. 当一对密码子仅存在

22、一个差异时,可以立即判断是同义还是 非同义,进化通径只有一种可能;例如对于GTT (Val)和GTA (Val), sd=1, nd=0;而对于ATT(I)和ATG(M),sd=0, nd=1; 2. 一对密码子存在两个差异时,有两种进化通径,选取最少需 要的通径。例如:比较TTT (Phe)和GTA (Val): (1) TTT (Phe)GTT (Val)GTA (Val) (2) TTT (Phe)TTA (Leu)GTA (Val) sd=1/2=0.5, nd=3/2=1.5 同样,终止密码子不予考虑 映 芥 崭 烯 芝 侧 壮 京 从 佑 版 聂 资 碍 邹 琶 鸥 羡 焉 授 童

23、 岸 涵 狠 梳 沃 呆 喇 耸 瓮 馆 春 序 列 分 析 四 一 一 分 子 进 化 系 统 发 生 分 析 生 物 信 息 学 3. 一对密码子存在三个差异时:六种进化通径。例如 :比较TTG(Leu)和AGA(Arg): (1) TTG(Leu)ATG(Met)AGG(Arg)AGA(Arg) (2) TTG(Leu)ATG(Met)ATA(Ile)AGA(Arg) (3) TTG(Leu)TGG(Trp)AGG(Arg)AGA(Arg) (4) TTG(Leu)TGG(Trp)TGA(Ter)AGA(Arg) (5) TTG(Leu)TTA(Leu)ATA(Ile)-AGA(Arg)

24、 (6) TTG(Leu)TTA(Leu)TGA(Ter)AGA(Arg) 通径4,6忽略。通径(1),(2),(3),(5)同义替代数目1,0,1,1;非 同义替代2,3,2,2,因此sd=3/4, nd=9/4. 你 垫 厘 亨 一 序 毯 绅 嘎 录 喳 馆 艳 掌 食 鲸 辨 陶 孜 郭 联 甜 痴 廊 婿 呼 奉 驹 滦 澡 像 斑 序 列 分 析 四 一 一 分 子 进 化 系 统 发 生 分 析 生 物 信 息 学 1. 编码区:DNA上编码功能性的基因的部分 ; 2. 非编码区:或称基因组序列,绝大部分无 功能; 3. 选择压力: A. 编码区:阳性选择 1%;中性进化:80%

25、;阴 性进化:19%; B. 非编码区:100%的中性进化; 4.4 4.4 密码子偏好密码子偏好 鸽 簇 袜 还 索 炸 畔 秦 芥 向 铲 敝 勇 符 广 茄 佑 张 之 菇 铅 挚 虱 督 症 拥 噬 富 陀 膛 镁 秉 序 列 分 析 四 一 一 分 子 进 化 系 统 发 生 分 析 生 物 信 息 学 编码区:密码子 1. 对于同义的密码子,第一位少部分可以允许不同, 例如,编码丝氨酸Ser的六个密码子:TCT, TCC, TCA, TCG, AGT, AGC; 2. 第一位固定后,第二位必须相同; 3. 第三位绝大多数可以不同 近似随机; 4. 因此: A. 第一位:阴性进化占大

26、部分,中性进化占小部 分; B. 第二位:阴性进化; C. 第三位:阴性进化占小部分,中性进化占大部 分; 角 服 糯 瘸 奈 孩 揍 早 肤 壮 忻 姨 歼 缮 鲤 泻 饼 追 瞻 舞 库 瘫 洞 唬 牲 纲 柬 尔 棋 梭 瞥 限 序 列 分 析 四 一 一 分 子 进 化 系 统 发 生 分 析 生 物 信 息 学 编码区 2. 定义:观测到的某一密码子的使用次数,除以“ 期望”的该密码子出现次数。 编码第i个氨基酸 的第j个密码子的 观测值 编码第i氨基酸的同义 密码子的数目 编码第i个氨基酸 的第j个密码子的 RSCU值 荐 伶 粮 谢 瓢 崔 邢 乔 饵 淮 矮 隙 蓄 觉 震 芒

27、 粉 盅 门 惰 访 屏 瞪 邓 戈 竞 贺 脸 荡 遮 喻 戒 序 列 分 析 四 一 一 分 子 进 化 系 统 发 生 分 析 生 物 信 息 学 密码子:the relative adaptation 编码第i个氨基酸的第j个同义密码子的“相对 适应性”: 即,该同义密码子的观察值,除以编码该氨 基酸的同义密码子的最大值。 双 卤 浓 蚤 杏 败 剖 撑 琐 睡 玫 钨 烽 炕 掠 雍 憋 剩 贮 援 屹 铃 旗 赦 从 整 钩 顾 掘 卒 僳 蓟 序 列 分 析 四 一 一 分 子 进 化 系 统 发 生 分 析 生 物 信 息 学 大肠杆菌 3. 计算分子的分化/进化的速率:r=d

28、/2T; 4. 对新的序列,计算分化时间: Tnew=dnew/2r 楚 袭 爆 老 覆 诲 棉 母 命 纠 氧 啡 尚 锤 路 膘 今 磺 条 约 硒 购 披 抄 监 厦 越 沙 新 挠 隘 秉 序 列 分 析 四 一 一 分 子 进 化 系 统 发 生 分 析 生 物 信 息 学 关于分子钟的讨论和争议关于分子钟的讨论和争议 1、对长期进化而言,不存在以恒定速率替换的 生物大分子一级结构;(基因功能的改变、基 因数目的增加) 2、不存在通用的分子钟; 3、争议: 分子钟的准确性 中性理论(分子钟成立的基础) 贤 孕 彩 团 邀 智 邵 镜 浴 肘 移 肿 伙 酥 已 淡 隔 宴 此 台 咒 余 座 溺 朗 滁 甥 古 睦 傅 伪 爬 序 列 分 析 四 一 一 分 子 进 化 系 统 发 生 分 析 生 物 信 息 学 虽然很多时候仍然存在争议,但是 分子进化确实能阐述一些生物系统 发生的内在规律。 争议例子:分子序列证据与化石证 据在人类起源时间上的差异。 扬 疯 腺 刺 霍 彤 募 燃 鉴 度 蜡 酶 伤 龟 刮 茧 吩 旬 戌 朱 杰 绥 躬 哟 网 宇 蔼 脏 靳 蠢 究 鬼 序 列 分 析 四 一 一 分 子 进 化 系 统 发 生 分 析 生 物 信 息 学

展开阅读全文
相关资源
猜你喜欢
相关搜索

当前位置:首页 > 其他


经营许可证编号:宁ICP备18001539号-1