蛋白质预测.ppt_三一文库31doc.com

资源描述

《蛋白质预测.ppt》由会员分享，可在线阅读，更多相关《蛋白质预测.ppt（81页珍藏版）》请在三一文库上搜索。

1、蛋白质预测,序列-结构-功能,Protein structure prediction: The holy grail of bioinformatics,一、蛋白质结构,氨基酸蛋白质一级序列：氨基酸按照一定顺序进行排列（一般含有 300500AA，最大：巨肌蛋白，有2700AA；最小：甜味二肽，有2 AA）二级结构：肽链中局部肽段的构象超二级结构：两个或几个二级结构被多肽连接起来，进一步合成有特殊几何排列的局部空间结构结构域/三级结构：蛋白质的空间结构四级结构：特定三级结构的肽链通过非共价键而形成的大分子体系,氨基酸的分类： 1. 体积； 2. 亲疏水性 3. 极性；4. 正

2、负电荷 5. 酸碱性；6. 脂肪族/芳香族三个比较特殊的氨基酸：脯氨酸(P，Pro)：是环状的亚氨基酸，易形成顺式肽链；甘氨酸(G，Gly)：碳原子上有两个氢，没有侧链，不和其它残基互作，没有位阻；半胱氨酸(C，Cys)：高度化学反应活性，易形成二硫键。,1. 氨基酸,维持和稳定蛋白质高级结构的因素： 1. 静电作用：严格服从库仑定律 2. 氢键：在二级结构形成中，十分重要 3. 范德华力：蛋白质分子巨大，此力不可忽视 4. 亲疏水性：三级结构中，至关重要 5. 配位键：例如金属蛋白 6. 二硫键：蛋白质的稳定十分有用 7. 其它因素：翻译后修饰,Primary structure =

3、 the linear amino acid sequence,Secondary structure = spatial arrangement of amino-acid residues that are adjacent in the primary structure,2. 二级结构,规则的二级结构： 1) 螺旋：最常见每圈螺旋含有3.6AA，平均11AA 其它一些螺旋：310螺旋，螺旋,2) 折叠: 平均6.5AA，可看成被拉伸的螺旋；单股折叠不稳定，会形成片层；,An antiparallel sheet. Adjacent strands run in opposit

4、e directions. Hydrogen bonds between NH and CO groups connect each amino acid to a single amino acid on an adjacent strand, stabilizing the structure.,A parallel sheet. Adjacent strands run in the same direction. Hydrogen bonds connect each amino acid on one strand with two different amino acids on

5、the adjacent strand.,部分规则二级结构： 1）转角：、转角转角对蛋白质的功能和进化有重要意义。 2）环 3）无规卷曲许多特殊的生物学功能都发生在无规卷曲或其他非规则的结构中。,3. 二级结构预测,蛋白质序列：二级结构：,二级结构预测,蛋白质序列：二级结构：,Q L M G E R I R A R R K K L K E E E E E C C C H H H H H H H,E 代表折叠 C 代表无归卷曲 H 代表螺旋,1）二级结构预测概述蛋白质的二级结构预测的基本依据是：每一段相邻的氨基酸残基具有形成一定二级结构的倾向。二级结构预测问题是模式分类问题

6、二级结构预测的目标：判断每一段中心的残基是否处于螺旋、折叠、无归卷曲（或其它状态）之一的二级结构态，即三态。,基本策略（1）相似序列相似结构,QLMGERIRARRKKLK,QLMG ERIRARRKKLK,结构？,A,基本策略（2）分类分析,螺旋,提取样本,参数提取,学习分类规则,预测.-Gly-Ala-Glu-Phe-.,2）二级结构预测的参数大体分为三代：第一代是基于单个氨基酸残基统计分析从有限的数据集中提取各种残基形成特定二级结构的倾向，以此作为二级结构预测的依据。第二代预测方法是基于氨基酸片段的统计分析统计的对象是氨基酸片段片段体现了中心残基所处的环境在预测中心残基

7、的二级结构时，以残基在特定环境形成特定二级结构的倾向作为预测依据,第一代和第二代参数预测方法对三态预测的准确率一般都小于70% 第三代方法（考虑多条序列，综合算法）运用长程信息和蛋白质序列的进化信息准确度有了比较大的提高，一般能上70%。,（1）经验参数法由Chou 和Fasman在70年代提出来是一种基于单个氨基酸残基统计的经验预测方法。通过统计分析，获得的每个残基出现于特定二级结构构象的倾向性因子，进而利用这些倾向性因子预测蛋白质的二级结构。例如：谷氨酸(Glu)主要出现在螺旋中天冬氨酸(Asp)和甘氨酸(Gly)主要分布在转角中脯氨酸(Pro)也常出现在转角中，但是基本不会

8、出现在螺旋中,一个氨基酸残基的构象倾向性因子定义为 Pi = Ai / Ti (i= , t) 式中下标 i 表示构象态如螺旋、折叠、转角等； Ti 是所有被统计残基处于构象态 i 的比例； Ai 是第A种残基处于构象态 i 的比例； Pi 大于1表示该残基倾向于形成二级结构构象i， Pi小于1则表示倾向于形成其它构象。,%,%,%,发现关于二级结构的经验规则基本思想是在序列中寻找规则二级结构的成核位点和终止位点。扫描输入的氨基酸序列，利用一组规则发现可能成为特定二级结构成核区域的短序列，然后对于成核区域进行扩展，不断扩大成核区域，直到倾向性因子小于1.0为止。规则：（i）螺旋规则

9、（ii）折叠规则（iii）转角规则 (iv) 重叠规则,延伸成核区延伸,（i）螺旋规则沿蛋白质序列寻找螺旋核相邻的6个残基中如果有至少4个残基倾向于形成螺旋，则认为是螺旋核。从螺旋核向两端延伸直至四肽片段的螺旋倾向性因子的平均值P1.03，则预测为螺旋。,延伸螺旋核延伸,（ii）折叠规则相邻6个残基中若有4个倾向于形成折叠，则认为是折叠核。折叠核向两端延伸直至4个残基的平均折叠倾向性因子P1.05，则预测为折叠。,（iii）转角规则转角的模型为四肽四肽片段 Pt 的平均值大于1.0，并且 Pt 的均值同时大于 P 的均值以及 P 的均值。则可以预测这样连续的4个氨

10、基酸形成转角。,(iv) 重叠规则对于螺旋和折叠的重叠区域，按Pa和P的相对大小进行预测若Pa大于P，则预测为螺旋；反之，预测为折叠。,(2) GOR方法一种基于信息论和贝叶斯统计学的方法 GOR将蛋白质序列当作一连串的信息值来处理 GOR方法不仅考虑被预测位置本身氨基酸残基种类的影响，而且考虑相邻残基种类对该位置构象的影响。,两个事件S和R的条件概率P(S|R) 即在R发生的条件下，S发生的概率定义信息为：若S和R无关，则 I(S; R)=0 若R的发生有利于S的发生，则I(S; R)0 若R的发生不利于S的发生，则I(S; R)0,I(S; R)在二级结构预测中的含义 R代表中

11、心氨基酸及其所处环境 S代表二级结构类型 I(S; R)代表中心氨基酸处于 S 的信息值,(3) Lim方法立体化学方法氨基酸的理化性质对二级结构影响较大在进行结构预测时考虑氨基酸残基的物理化学性质如疏水性、极性、侧链基团的大小等，根据残基各方面的性质及残基之间的组合预测可能形成的二级结构。 “疏水性”是氨基酸的一种重要性质，疏水性的氨基酸倾向于远离周围水分子，将自己包埋进蛋白质的内部。,(4) 同源分析法将待预测的片段与数据库中已知二级结构的片段进行相似性比较，利用打分矩阵计算出相似性得分，根据相似性得分以及数据库中的构象态，预测出待预测片段的二级结构。该方法对数据库中同源序列的存

12、在非常敏感，若数据库中有相似性大于30%的序列，则预测准确率可大大上升。,假设已知二级结构的氨基酸片段 T=STNGIYW T的二级结构为 CHHHHHT H代表螺旋， T代表转角， C代表无规卷曲,待预测二级结构的氨基酸片段 U=ATSGVFL,序列比对： T = S T N G I Y W U = A T S G V F L 直接将T的构象态赋予U,更为合理的方法：是将待预测二级结构的蛋白质U与多个同源序列进行多重比对，对于U的每个残基位置，其构象态由多个同源序列对应位置的构象态决定，或取出现次数最多的构象态，或对各种可能的构象态给出得分值。,(5) 模式识别的方法（机器学习）,常见判别

13、模型,支持向量机神经网络距离系数（马氏距离） K近邻算法马尔科夫模型 Fisher判别决策树,(6) 综合方法综合方法不仅包括各种预测方法的综合，而且也包括结构实验结果、序列对比结果、蛋白质结构分类预测结果等信息的综合。多个程序同时预测，综合评判一致结果序列比对与二级结构预测双重预测首先预测蛋白质的结构类型然后再预测二级结构,参考文献： Proteins，2006，64：575-586. Journal of Protein Chemistry, 1999, 18:473-480. Amino Acids, 2008, 35:607-614. Biochemical and

14、 Biophysical Research Communications, 2002, 294: 621-625. Journal of Computational Biology, 2006, 13: 1489-1502. Protein Engineering, 1999,12:1041-1050. Talanta, 2007, 71:2069-2073. Bioinformatics, 2006, 22:1809-1814. BMC Bioinformatics, 2006, 7: 301. Proteins, 2006, 65: 453-462. Journal of Theoreti

15、cal Biology, 2007, 248: 354-366. Polymer, 2005, 46: 4314-4321. Journal of Computational Biology, 2008, 15: 65-79. BMC Bioinformatics, 2007, 8: 357. Artificial Intelligence in Medicine, 2004, 31: 117-136. Proteins, 2007, 66: 838-845. Neurocomputing, 2008, 72: 262-268. BMC Bioinformatics, 2008, 9:49.,

16、A surprising result!,Chameleon sequences,The “Chameleon” sequence,TEAVDAATAEKVFKQYANDNGVDGEWTYDDATKTFTVTEK,TEAVDAWTVEKAFKTFANDNGVDGAWTVEKAFKTFTVTEK,sequence 1 sequence 2,Replace both sequences with an engineered peptide (“chameleon”),Source: Minor and Kim. 1996. Nature 380:730-734,a -helix b-strand,

17、3. 超二级结构,概念：两个或几个二级结构单元被连接多肽连接起来，进一步组合成特殊的几何排列的局域空间结构。（supersecondary structure，或简称motif）分类: 简单超二级结构：-loop-、-loop-、 -loop-、-loop- 复杂超二级结构：简单超二级结构的组合,4. 结构类型,折叠子概念：反映了一个蛋白质核心结构的拓扑结构模式。我国王志新院士估计自然界共存在约650个折叠模式，约1150个蛋白质超家族。不同的折叠子属于不同的结构类型。结构类型分类： 1）全类蛋白：=40%，=40%，=15%,60% 反平行 4）/类蛋白： =15%,60% 平行,请

18、看演示,SCOP库分类,5. 三级结构/结构域,1）三级结构定义：蛋白质的肽链中所有肽键和残基间的相对位置。稳定蛋白质三级结构主要依靠非共价键和疏水作用。二硫键对蛋白质的稳定和三级结构的形成起相当重要的作用，曾统计一个蛋白质平均含有三对二硫键；最多为17对，7对以上已很少；不含二硫键的也有一定数量。,大多数蛋白质都是球状蛋白，亲水的残基在表面，疏水残基在内部。纤维状蛋白结构简单，整条肽链几乎是单一的二级结构。,2）结构域定义：蛋白质中构象单元组成的一些实体，具备一定的三级结构，有特定的，但不完全的生物活性。有研究表明，蛋白质中不同的肽段是由不同的外显子所编码。一般认为分子量大于2kD

19、的易形成两个或两个以上的结构域。,3）结构类型的预测：分类：全型，全型，+型（分离型），/型（相间型），无规卷曲型，其他类型在较复杂的蛋白质中，结构域基本可归结为：含有序列类似的结构域；含有两种不同的结构域；多结构域。,一些蛋白质中不同结构域的结构特征,6. 四级结构,定义：特定三级结构的肽链通过非共价键而形成的大分子体系时的组合方式。分类标准： 1）按亚基的种类：即一个四级结构的蛋白包含几种亚基。 2）按亚基的数目分类 3）按装配过程：随机装配或成核装配 4）与化学反应相关,蛋白质结构预测主要有两大类方法：（1）理论分析方法通过理论计算（如分子力学、分子动力学计算）进行结

20、构预测。（2）统计的方法对已知结构的蛋白质进行统计分析，建立序列到结构的映射模型，进而对未知结构的蛋白质根据映射模型直接从氨基酸序列预测结构。,7. 蛋白质空间结构预测,统计方法可分为三类: 1)比较建模法(comparative modeling method) 2)反向折叠法(inverse folding or threading) 3)从头预测法(ab initio prediction method) 这些方法都是建立在氨基酸的一级结构决定高级结构的理论基础之上。,1)比较建模法：又称为同源建模。目前最成熟的预测方法，Swissprot等使用的modeller等软件； 2)反向折

21、叠法：一种较新的方法，跳过二级结构预测，直接预测三级结构。具体过程是根据已知蛋白质结构的模式作为模板，寻找最匹配模板，再根据平均势函数进行判断。假设是蛋白质折叠类型有限。 3)从头预测法：序列-二级结构-超二级结构-结构类型-三级结构,基于蛋白质一级序列信息，利用生物信息学手段预测蛋白质的二级结构、超二级结构、结构类，三个必要条件： A）数据集：具有统计性、无冗余、一般要求相似性较低； B）参数：类别之间要有差异，能够代表各自的类别；最常用的参数是氨基酸的含量，最近Chou构建的伪氨基酸组分能够很好的应用到分类中； C）判别模型：不同的模型适合不同的分类问题。,Second structur

22、e prediction,以文章-turn types prediction in proteins using the support vector machine. Journal of Theoretical Biology. 数据库：490 non-homologous proteins (25%) contained 1281 -turn which include 1182 inverse -turn and 99 classic -turn. 每个turn只含有三个氨基酸。参数：20种氨基酸写成A=10。0，一个1，19个0，这样三肽就是一个60维的向量。算法：支持向量机结

23、果：Sn=67.20，Sp=35.80，Ac=93.40.,问题：正负数据集差异太大预测敏感性和特异性不高可能的改善办法：参数重新选择改善算法,超二级结构参考文献： Proteins, 2006, 65: 49-54. Advances in Engineering Software, 1999, 30: 347-352. Proteins, 2006, 65: 922-929. Journal of Computational Biology, 2002, 9: 261-276. Genome Information, 2003, 14:196-205. J. Peptide Re

24、s. 2003, 61: 159-162. Peptides, 2003, 24: 665-669. Journal of Protein Chemistry, 1998, 17: 363-376. J. Peptide Res. 2003, 61: 243-251. Analytical Biochemistry, 2000, 286: 1-16. Protein Journal, 2008, 27: 115-122. Peptides, 2003, 24: 629-630. Journal of Peptide Science, 2002, 8: 297-301. Nucleic Acid

25、s Research, 2006, 34: 2085-2097.,Protein structural class prediction,以文章 Using pseudo-amino acid composition and support vector machine to predict protein structural class. Journal of Theoretical Biology. 2006, 243: 444-448.为例数据库：52 all-，61 all-，45/,46 +(Identity30%)。参数：PseAAC，包含了氨基酸的亲疏水性质和关联性质，以

26、及氨基酸的频率算法：支持向量机结果：Sn（1，2，3，4）=0.885，0.967，0.778，0.739 Sp（1，2，3，4）=0.958，0.922，0.686，0.872,参考文献：非常多. Amino Acids, 2007, 33: 623-629. Physica A, 2007, 386: 581-589. Journal of Theoretical Biology, 2008, 250: 186-193. Amino Acids, 2008, 35: 581-590. Journal of Theoretical Biology, 2008, 253: 388-392.

27、 Computational Biology and Chemistry, 2003, 27: 373-380. Biochimie, 2000, 82: 783-785. Journal of Protein Chemistry, 1998, 17: 209-217. Biochimica et Biophysica Acta, 2000, 1476: 1-2.,Protein quaternary structure prediction,参考文献： Amino Acids， 2008，Nov 27. Xiao X, Lin WZ. BMC Bioinformatics, 2006，4:1

28、87 Bioinformatics, 2003, 19: 2390-2396. Proteins, 2003, 53: 282-289. Amino Acids, 2006, 30: 461-468. Bioinformatics, 2001, 17: 551-556. Amino Acids, 2008, 35: 591-598. Journal Proteome Research, 2009, Feb. 18. Shen HB, Chou KC.,亚细胞是指细胞的亚结构，是把细胞进一步分成一些分隔空间。真核生物与原核生物的亚细胞结构不同。,二、蛋白质亚细胞定位,1、真核生物亚细胞结构真

29、核生物亚细胞结构复杂，亚细胞位置有十几种，大体上分为：质膜、细胞质、细胞核、细胞骨架、内质网、高尔基体、溶酶体、过氧化物酶体、线粒体、叶绿体、液泡。其中，内质网、高尔基体、溶酶体、过氧化物酶体、线粒体、细胞核、叶绿体、液泡等有界膜的细胞器称为细胞内膜，质膜和细胞内膜统称为生物膜。 2、原核生物亚细胞结构原核生物的亚细胞结构简单，原核生物的亚细胞位置少，大体分为：细胞质、细胞壁、内膜、周质膜、外膜、细胞外。,蛋白质在核糖体上合成后，如果氨基酸序列中有分选信号，由信号肽指导到胞液外相应亚细胞位置，如果没有信号肽指导则留在胞液中。不同的亚细胞位置具有不同的功能，蛋白质处于哪个位置就行使哪个

30、位置的功能。这样，我们通过预测未知功能蛋白的亚细胞位置就可以知道该蛋白的功能。,按照物种：原核生物革兰氏阳性菌革兰氏阴性菌分支杆菌真核生物人类鼠植物按照功能：凋亡蛋白亚细胞定位按重要位置：线粒体蛋白预测分泌蛋白预测细分细胞位置：亚细胞核定位亚线粒体定位,3. 蛋白质亚细胞定位预测的方法,1）所考虑的信息参数分可以分成以下四种：（1）基于信号肽的方法来预测蛋白质亚细胞定位（2）基于氨基酸组份或氨基酸物理化学性质的方法来预测蛋白质亚细胞定位（3）基于蛋白质功能注解的方法来预测蛋白质亚细胞定位（4）基于系统发生的分布图、结构域投影或结合进化和结构信息的方法来预测蛋白质

31、亚细胞定位,2）数学方法有：（1）支持向量机方法（2）距离判别方法（3）神经网络方法（4） K近邻方法（5）隐马尔可夫模型,4、常用的软件,PSORT http: /www.psort.nibb.ac.jp/ TargetP http:/www.cbs.dtu.dk/services/TargetP/ MitoProt http:/bioinformer.ebi.ac.uk/newsletter/ archives/2/mitoprotii.html Predotar http:/www.inra.fr/Internet/Produits/Predotar NNPSL htt

32、p:/predict.sanger.ac.uk/nnpsl SubLoc http:/ http:/www.rostlab.org/services/loctarget/ Target http:/bioinformatics.albanyedu/ptarget Pslpred http:/www.imtech.res.in/raghava/pslpred/ Eslpred: http:/www.imtech.res.in/raghava/eslpred/ http:/ 12类真核生物亚细胞数据库(7559)2003年方法：SVMs方法参数：氨基酸组份结果：57.9 % 人类12类亚细胞

33、数据库（2041） 2006年方法：KNN 参数：Go+PseAA 结果: 745/919=81.1% 954/1122=85.0%,数据库二 Gram-negative bacteria(5类) 1.0 共1441个蛋白(单定位 1302个),2003年：PSORT-B（1.0） Total=74.8% 方法: Bayesian Network 参数：六种分析模式 2005年： PSORTb(2.0) Total=82.6% 2005年：PSLpred Total=91.2% 方法：SVM 参数：氨基酸组份、物理化学性质、PSI_BLAST 2006年：GNBSL Total=93.4%

34、方法：SVM 参数：六种模式相结合,数据库三 5个物种数据库（2004年） (animal，plant，fungi，GN，GP),预测步骤 1、BLAST比对。 2、从Swissprot中提取同类Text以获取潜在特征。 3、利用概率预测结果：,数据库四 Humandb (2233) Yeastdb(1889) Mousedb(2416),方法：PSLT (Bayesin network) （2004年）参数：Interpro motif 、 signal peptides 、 transmembrane domain 结果：,数据库五真核(4类) 、原核(3类)数据库,1999年Yu

35、an Markov方法原核：89.4% 真核：73.0% 2001年Hua SVM方法原核：91.4% 真核：79.4% 2001年Feng ZP曲线方法原核：90.4% 2003年Chou 利用gene ontology 、functional domain 、seudo-amino acid组合方法原核：94.7% 真核：92.9% 2004年Manoj(india) SVM 方法(20+400+33+5=458个参数) 真核：88.0% 2005年Gao Qing Bin 最近邻居方法原核：92.5% 真核：86.3% 2006年 Guo Jian PNN(概率神经网络)+SV

36、M方法真核：93.0%,数据库六 sub-nuclear 数据库,六类共504个蛋白 2005年Lei等方法： SVM 参数：氨基酸组份 Total=51.4% 2006年Lei等方法： Go+最近邻居法 Total=65.2% 九类共370个蛋白 2005年Chou等方法：KNN 参数：伪氨基酸组份 Total=64.32%,文献资料：很多在NCBI的Pubmed输入“subcellular location prediction”即可检索到115篇文章。,膜蛋白的种类：5类,三、膜蛋白的分类预测,1. Type I transmembranetype, 2. II transmembrane, 3. Multipass Transmembrane, 4. lipid chain-anchored membrane, 5. GPI-anchored membrane.,众多的生物过程和药物靶位点都是在膜上进行。,更具体的研究,预测外膜蛋白（outer membrane protein）预测膜蛋白的跨膜区域预测多跨膜蛋白质（、）,酶的分类蛋白质翻译后修饰位点预测信号肽/剪切位点预测二硫键预测 DNA结合蛋白识别离子通道预测抗菌肽/致病蛋白预测 G蛋白偶联受体分类,四、其他研究较多的预测问题,

展开阅读全文