【氨基酸组分】米糠油氨基酸组分.docx

上传人:yyf 文档编号:7202609 上传时间:2020-11-05 格式:DOCX 页数:22 大小:26.13KB
返回 下载 相关 举报
【氨基酸组分】米糠油氨基酸组分.docx_第1页
第1页 / 共22页
【氨基酸组分】米糠油氨基酸组分.docx_第2页
第2页 / 共22页
【氨基酸组分】米糠油氨基酸组分.docx_第3页
第3页 / 共22页
【氨基酸组分】米糠油氨基酸组分.docx_第4页
第4页 / 共22页
【氨基酸组分】米糠油氨基酸组分.docx_第5页
第5页 / 共22页
点击查看更多>>
资源描述

《【氨基酸组分】米糠油氨基酸组分.docx》由会员分享,可在线阅读,更多相关《【氨基酸组分】米糠油氨基酸组分.docx(22页珍藏版)》请在三一文库上搜索。

1、【氨基酸组分】米糠油氨基酸组分V o l . 25N o. 1第25卷第1期天津师范大学学报(自然科学版)x年3月Journal of T ianjin N o r m al U niversity (N atural Science Editi on ) M ar . x文章编号:167121114(x) 0120001205氨基酸主成分分析法及在蛋白质结构预测中的应用谢军民, 杜奇石, 王树青, 李大鹏, 孙浩(天津师范大学生物信息与药物开发研究所, 天津300074)摘要:用化学计量学的主成分分析(PCA ) 法计算和分析了4种类型(型、 +型) 型、型和204个蛋白质的20种氨基酸在主

2、成分中的贡献. 研究发现, 20种氨基酸在4种类型蛋白质的主成分中的贡献有明显的不同. 氨基酸在主成分中的贡献体现了4, 有深刻的物理和化学的内在原因. , 对4种类型的蛋白质都取得了满意的结果. 使用LOO (4率分别为:76. 9%(型) 、96. (82. , 204个蛋白质的整体) 正确率为84. , . 关键词:; (PCA ) ; 生物信息学中图分类号:71; 517文献标识码:AAm i no Ac id Pr i nc ipa l Com ponen t Ana lysis for Prote i n Structura l Study and Its Appl ica tio

3、n i n Structure Pred ictionX IE J un 2m in , DU Q i 2sh i , W A N G S hu 2qing , L I D a 2p eng , SUN H ao(Institute of B i o info r m atics and D rug D iscovery , T ianjin N o r m al U niversity , T ianjin 300074, Ch ina )Abstract :In th is research w e in troduce the am ino acid PCA (p rinci pal c

4、om ponen t analysis ) m ethod in p ro 2tein structu re study . P ro tein structu ral classes are fuzzy sets and the data of am ino acid sequences m ay con 2tain uncertain facto rs and erro rs from experi m en ts . Am ino acid PCA m ethod ab stracts p rinci pal facto rs from data base and m in i m iz

5、es the erro rs in PDB sequence data . Am ino acid PCA m ethod gives better struc 2tu re p redicti on resu lts than the m ethods based on am ino acid com po siti on s . T h is m ethod is app lied in the, , +) . T he p redicti on accu racy are study of 204p ro tein s in 4classes of p ro tein structu r

6、es (and 76. 9%fo r 2 +2p ro tein , 96. 7%fo r 2p ro tein , 82. 2%fo r 2p ro tein and 78. 3%fo r p ro tein , and the overall p redicti on accu racy fo r 204p ro tein s is 84. 3%, h igher than the resu lts of si m p le distance m ethod and Euclidean distance m ethod .Key words :am ino acids ; p ro tei

7、n structu re ; p rinci pal com ponen t analysis (PCA ) ; b i o info r m atics蛋白质的生物功能是由其特定的结构决定的, 在后基因组研究中, 蛋白质结构的实验测定和理论预测是两个重点课题. 30年前, C . G . A nfin sen 1提出的蛋白质的三维结构是由氨基酸序列决定的论断已被普遍接受, 为蛋白质的结构预测奠定了理论基础. 由于蛋白质一级结构(氨基酸序列) 的实验测定和通过DNA 密码的理论预测的数量与日俱增, 蛋白质数据库中的数据量急剧膨胀2. 另一方面, 蛋白质三维结构的试验测定的速度慢、花费大, 目前

8、蛋白质的立体结构的理论预测的准确率很低, 这些均收稿日期:2003209205基金项目:国家自然科学基金资助项目(20373048) ; 天津市科委基础科学面上资助项目(023618211) 第一作者:谢军民(1974-) , 男, 河南省南阳人, 硕士研究生, 主要从事计算化学方面的研究. 通讯作者:杜奇石(1945-) , 男, 陕西省西安人, 教授, 博士.2天津师范大学学报(自然科学版) x年3月3成为生物信息学研究的“瓶颈”. 因此提高从氨基酸序列预测蛋白质的空间结构的准确率是蛋白质结构研究的关键步骤4.当前蛋白质结构的理论预测方法分为两大类. 一类是根据经验势能参数的自由能最小化方

9、法510, 该方法假定蛋白质的立体结构主要是由邻近的氨基酸残基的相互作用决定的, 通过分子动力学或其他方法的计算, 找出自由能最低的构型. 由于多肽链可能采取的构象数目十分巨大, 以原子为单位, 通过构型优化计算的预测方法遇到了很大困难3. 另一类理论判断方法从结构已知的蛋白质分子的氨基酸组成出发, 进行统计数学的分析和归纳, 制定出一套规则, 结构1116. 20, 大量参数, , 使得其应用范围受到限制.2Chou 和Fas m an 创立的以氨基酸的百分组成为基础的同模预测方法, 以概念清晰、方法简单、结果惟一的优点在蛋白质结构预测中占主导地位. Chou 2Fas m an 方法首先计

10、算训练集的蛋白质的平均氨基酸的百分组成(标准蛋白质) , 进而构造各种统计分析量, 如简单距离、欧几里德距离、先进的几何距离和协方差区分量等, 再把未知蛋白质的氨基酸百分组成代入统计分析量, 计算未知蛋白质与标准蛋白质的“距离”, 判断未知蛋白质所属的类型.本文提出的氨基酸主成分分析法属于Chou 2Fas m an 方法的一个分支, 它以20种氨基酸在蛋白质中的百分组成为基础, 应用化学计量学(chem o 2m etrics ) 的主成分分析法(PCA , p rinci p al com po 2nen t analysis ) 计算20种氨基酸在主成分里的贡献, 进而预测未知蛋白质的结

11、构类型. 氨基酸主成分分析法突破了以往统计方法中使用的在20维氨基酸空间中的“距离”的概念, 是统计分析法的一个发展. 氨基酸主成分分析法体现了在一种类型的蛋白质中氨基酸间的相互制约关系, 有利于寻找其物理和化学的内在因素.x , k , 1x , k , 式(2) 中x , k , i 是子集S 的第k 个蛋白质的第i 个氨基酸出现的百分数频率, 遵守下面的归一化条件,20x , k , i =1i =1X , k =x , k , 2, k =1, 2, , n ; =1, 2, , m (2)(3), 20x, i S 中所有蛋白质的相应氨基酸它的分量x 组成的平均值, i =xn k

12、=1xn 子集S 的蛋白质的百分组成构成矩阵X n 20, n 是子集中蛋白质的个数. 每个子集S 有一个标准向 , S 的量X “标准蛋白, , 2x (4) X =, k , i, i =1, 2, , 20(5)我们按以下3种方式构造子集S 的协方差矩阵C 和数量矩阵D 1和D 2, i x , k , j -x , j ,c , i , j =x , k , i -x n -1k =1(6) i , j =1, 2, , 20式(6) 给出的是经过中心化处理的协方差矩阵, C 是一个2020的方阵, 表达了子集内蛋白质的氨基酸组成对平均值的离散程度. 我们还可以构造以下2种非中心化的数

13、量矩阵D 1.n d , i , j =(1)xk =1n , k , i x , k , j , i , j =1, 2, , 20(7)和D 2,20d(2), i , j=xk =1, i , k x , j , k , i , j =1, 2, , n (8)1氨基酸主成分分析法设N 个已知蛋白质组成集合S , 它是由m 个子集S 构成的并集,(1) S =S 1S 2S 3S m每个子集S 对应于一个蛋白质类, 含n 个蛋白质,(1)数量矩阵D 是以氨基酸为变量的2020的对称方阵, 矩阵D 2是以蛋白质样品为变量的n n 的 对称方阵. D 1和D 2的差别仅在矩阵乘法的顺序.主成

14、分分析法的下一步是解协方差矩阵和数量矩阵的本征方程. 我们可以得到3个本征方程, 它们的解有不同的含义. 协方差矩阵C 的本征方程为(9) C U =U有N =n .每个蛋白质是20维氨基酸空间的一个向量X , k , 或一个点,数量矩阵D 1的本征方程为(1)(10) D V =V数量矩阵D 2的本征方程为(11) D 2W =W式(9) , (10) 和(11) 中的U , V , W 是对应矩阵的本征第25卷第1期谢军民, 等:氨基酸主成分分析法及在蛋白质结构预测中的应用3向量u i , , , 是对角矩i , w i 构成的矩阵, 本征值阵, 它们的对角元i , i , i 是对应于本

15、征向量u i , i , w i 的本征值. 在主成分分析方法里, 有较大本征值的本征向量称为主成分. 第i 个氨基酸在主成分中的贡献可以用下式计算f, i=uk =1p k =1p i , ku i , k k , i =1, 2, , 20i =1, 2, , 20(12) (13)g , i =,i , k i , kk式中p 是主成分的个数, f , i 是氨基酸i 围绕标准蛋的离散度的度量, g , i 是氨基酸i 在数量矩阵白质X (1) D 中的贡献. 第i 个蛋白质X , i 对数量矩阵D 2的贡献由下式计算:h , i =p 量矩阵D 1, D 2的20个最大本征值. 由于归

16、一化条件式(5) 的限制, 20个氨基酸组成间有一个约束(1)条件, 20维的矩阵C 和D 的本征方程有19个正本征值和一个零本征值. 矩阵D 2的维数n =52, 但也有19个正本征值, 因为矩阵D 2和D 1的秩 是相同的. 在表2中发现, 矩阵D 2与D 1的本征(2) (1)值完全相同, 这是因为D 和D 是由同一组数据得来的. C 的本征值由大到小依次降低, 相差幅度 不大, 说明有多个主成分, 但D 1和D 2的最大本, 说明有一个很大的主成分.(1)2, 数量矩阵D (2)#i , kC wk =1(1)D (1) i , k i =.2计算结果和分析为了便于对比, 我们采用文献

17、2的蛋白质训练集, 从蛋白质数据库(PDB B ank ) 中选取了4种类型共204个蛋白质(型52个, 型61个, 型45个, +型46个) , 蛋白质的代码参见文献2. 根据式(4) 和式(5) 计算各子集的标准蛋白质的氨基酸组成, 结果列于表1. 表1显示型和型的标准蛋白质的氨基酸组成有较大差异, 但 型和+型的组成十分相似. 说明, 仅仅依靠氨基酸的组成区分 型和+型蛋白质有较大的难度.表1型, 型, 型和+型蛋白质的20种氨基酸的平均百分组成氨基酸A C D E F G H I K L M N P Q R S T V W 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0

18、. 0. 0. 0. 0. 0. 0. 0. 0. *1*0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. *502023. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. *232233. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. *23223型*285910. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 型*40407 型0. 0. 0.

19、0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. *00311+型0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. *07242按式(12) 和式(13) 计算, 图1给出了型蛋白质的20种氨基酸对主成分的贡献. 为便于对比, 图1同时给出了型蛋白质的20种氨基酸的平均组成. 在图1(b ) 的计算中我们使用了协方差矩阵C 的全部19个主成分, 在图1(c ) 的计算中仅使用(1)了数量矩阵D 的最大主成分. 对比图1(a ) 和图1(b ) 发现, 有较大组分的氨基酸一般有较大的离散

20、度, 如氨基酸A 和L , 但有一些氨基酸的离散度明显偏低, 如图1(a ) 的氨基酸D , G 和S 的组分都不算低, 但在图1(b ) 中的离散度却很小, 说明在型蛋白质中它们的组分变化较小. 从氨基酸贡献的大小顺序上讲, 图1(c ) 与图1(a ) 完全一致, 但相对幅度有较大差异. 蛋白质的分类是模糊集, 在测定氨基酸序列时含有误差. 图1(a ) 的数据含有上述不确定因素带来的误差, 在图1(c ) 的计算中因仅取了最大的一个或几个主成分, 避免了不确定因素带来的干扰.表2为52个型蛋白质的协方差矩阵C 和数4天津师范大学学报(自然科学版)p x年3月h , x =wk =1x ,

21、 kwx , k=1, 2, , m k , (15)式中的w x , k 是解包括未知蛋白质x 在内的n +1阶数量矩阵D 2的本征方程(11) 得到的本征向量w k 中的未知蛋白质x 的组分, k 是本征值. 预测规则由判断函数式(16) 给出,(16) x =m ax h 1, x , h 2, x , , h m , x 即未知蛋白质x 属于做出了最大贡献的子集S . 式(15) 中的p 是主成分的个数, 选择过多的主成分可能会带入干扰误差, 太少的主成分可能会丢失有用信息. , 取3. 1bcfA 1cnt 11gdy _1h lb _1ilk _1m az _1m ls _1rhg

22、A 1spgB 1sra _1vls _2fal _2h _3sdhA 1all A 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. *94492466(a ) 型蛋白质中20种氨基酸的平均组成; (b ) 20种氨基酸对于平均组成的离散分布;(1) (c ) 20种氨基酸在数量矩阵D 的最大主成分中的贡献.图1型蛋白质的20种氨基酸对主成分的贡献矩阵D 1是以氨基酸为变量的数量矩阵. 矩阵(2)D 是以蛋白质样品为变量的数量矩阵, 它的主成分代表的是各蛋白质样品对数量矩阵的贡献. 与数(1) (2)量矩阵D 一样, D 有一个很大的主成分, 5

23、2个型蛋白质在最大主成分里的贡献列于表3. 将表3中的数据经归一化处理, 每个蛋白质的平均贡献是1 52=0. 01923. 子集S 的52个蛋白质的贡献分布在0. 014710. 02289之间. 蛋白质样品对主成分的贡献可以看作是它作为子集成员的“资格证”, 如果把一个未知类型的蛋白质加入子集S 并计算它在主成分中的贡献, 我们可以根据它的贡献的大小判断未知蛋白质是否属于该类型. 为此我们构造判断未知蛋白质x 的判断量式(15) :ibeA 1ithA 2gdm _2lhb _1hds B 1m yt _1o sa _1sctA 1spgA 1fsl A 1h l m _1lh t _1o

24、utA 1outB 1pbxA 1pbxB 1sctB 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. *1*962asr _1babA 1c _1eA 1em y _1hdaB 1hds A 1ibeB 1m bs _2mm 1_2pghA 2pghB 1hdaA 1h r m _1m ygA 1vlk _0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. *1*5*1*595把主成分分析法用于4种类型的204个蛋白质, 应用“留一个检测法”(LOO :leave one ou t ) 检验预测

25、效果, 并与以氨基酸组成为基础的简单距离法和欧几里德距离法2比较, 结果见表4. 由表4可知, 主成分分析法对4种类型的蛋白质的预测都取得了满意的结果, 正确率分别为76. 9%(型) , 96. 7%(型) , 82. 2%( 型) 和78. 3%(+型) , 204个蛋白质的整体正确率为84. 3%, 高于以氨基酸组成为基础的简单距离法(72%) 和欧几里德距离法(71%) .表4氨基酸主成分分析法预测效果与简单距离法和欧几里德距离法的对比3M ethods Si m p le D istance Euclidean D istance PCA A ccuracy E rro r%A cc

26、uracy E rro r %A ccuracy E rro r 2p ro teins (52) 14731375122p ro teins(61) 7889852 2p ro teins(45) 205620568+2p ro teins (46) 1665176310To tal (204) 57725971323使用“留一个”检测法(LOO :leave one out ) .第25卷第1期谢军民, 等:氨基酸主成分分析法及在蛋白质结构预测中的应用54结论蛋白质的4种结构分类是按照二级结构单元(螺旋和带等) 的数量划分的, 如型蛋白质的组成为15%和10%.这种结构分类法在数学上属于模

27、糊集. 在蛋白质的氨基酸序列的实验测定中, 由于头、尾部分的氨基酸难于确定, 原始数据不可避免地含有误差. 主成分分析法(PCA ) 是化学计量学的重要方法, 该方法的特点是把原变量(氨基酸或蛋白质样品) 组合成相互正交的线性独立的向量, 按特征值的大小确定主成分. 把主成分分析法用于蛋白质, , 类型中, 20, 氨基酸围绕平均组成的离散程度也不同. 氨基酸在主成分里的这些不同贡献反映了特定蛋白质类型的结构特征. 把氨基酸主成分分析法应用于蛋白质结构类型的预测, 在选用的型、 +型型、型和的204个蛋白质中都取得了明显好于简单距离法和欧几里德距离法的结果, 整体准确率达到了84. 3%.在这

28、项研究里, 我们仅把主成分分析预测法用于以蛋白质样品为变量的数量矩阵D 2, 该方法同(1)样可用于以氨基酸为变量的数量矩阵D 和协方差矩阵C . 后者将在以后的研究中报道. 参考文献:1A nfinsen C G . P rinci p les that govern fo lding chains J . Sci 2ence , 1973, 181:223.2Bairoch A , A pw eiler R . T he S W ISS 2PRO T p ro tein sequencedata bank and its supp lem ent T rE M BL J . N uclei

29、c A cids R e 2search , 1997, 25:31-36.3Chou K C . P redicti on of p ro tein structural class and subcellu 2lar locati ons J . Current P ro tein and Pep tide Science , 2000, 1:171-208.4Sondek J , Sho rtle D . A ccomodati on of single am ino acid inser 2ti ons by the native state of staphylococcal nuc

30、lease J . P ro 2teins :Structure , Functi on and Genetics , 1990, 7:299-305. 5Seheraga H A . Confo r m ati onal analysis of po lypep tides andp ro teins fo r the study of p ro tein fo lding , mo lecular recogni 2ti on , and mo lecular design J . J P ro t Chem , 1987, 6:61-80.6W einer P K , Ko ll m a

31、n P A . A ssisted model building w ith en 2ergy refinem ent :A general p rogram fo r modeling mo lecules and their interacti onsJ. J Comp Chem , 1981, 2:287-303. 7Gilson M K , Honig B . Energetics of charge 2charge interac 2ti ons in p ro teins J . P ro teins Struct Funct and Genet , 1988:3:32-52.8M

32、 cCammon J A . , W ong C F , L ypand T P . P ro tein stabilityand functi onA. Fas m an G D. P redicti on of p ro tein structure and the p rinci p les of p ro tein confo r m ati on C . N ew Yo rk :P lenum P ress , 1989. 149-159.9M ackay D H J , C ro ss A J , A T . T he ro le of energym ini m on in of

33、 bi omo lecular system s an G . of ro tein structure and the r m ati on C . N ew Yo rk :P lenum P , 1989. 317-358.10Karp lus M , Shakhnovich E . T heo retical studies of ther mo 2dynam ics and dynam ics A . C reigh ton T E . P ro tein Fo lding C . N ew Yo rk :F reem an , 1992. 127-195.11Chou P Y , F

34、as m an G D . P redicti on of p ro tein confo r m ati onJ . B i ochem istry , 1974, 13:222-245.12Chou P Y , Fas m an G D . P redicti on of secondary structure ofp ro teins from am ino acid sequence J . A dv Enrymo l R elat Subj B i ochem , 1978, 47:45-148.13L i m V I . Structural p rinci p les of gl

35、obular p ro tein secondarystructure J . J M o l B i o l , 1974, 88:857-872.14Gam ier J , O sgutho rpe D J , Robson B . A nalysis of the accu 2racy and i m p li 2cati ons of si m p le m ethods fo r p redicting the secondary structure of globular p ro teins J . J M o l B i o l , 1978, 120:97-120.15O r

36、engo C A , Jones D T , T ho rnton J M . P ro tein superfam i 2lies and dom ain superfo lds J . N ature , 1994, 372:631-634.16Jones D T , T aylo rW R , T ho rnton J M . A model recogniti onapp roach to the p redicti on of all 2helical m em pane p ro tein structure and topo logy J . B i ochem istry ,

37、1994, 33:3038-3049.17邱建丁, 梁汝萍, 邹小勇, 等. 应用连续小波变换预测蛋白质的二级结构J . 化学学报, 2003, 61(5) :748.18季清洲, 曾卫华, 陈巧林, 等. 金属硫蛋白家族内的结构域拼接J . 化学学报, 2001, 59(10) :1769.19何毓蕃, 汪尔康. 现场扫描隧道显微镜研究有机相中的蛋白质结构J. 化学学报, 1997, 55(8) :801-805.20M uskal S M , K i m S H . P redicting p ro tein secondary struc 2ture content :A tandem neural netwo rk app roach J . J M o l B i o l , 1992, 225:713-727.

展开阅读全文
相关资源
猜你喜欢
相关搜索

当前位置:首页 > 科普知识


经营许可证编号:宁ICP备18001539号-1