生物信息学实验指导2014-2015-1解增言.doc

上传人:本田雅阁 文档编号:2744990 上传时间:2019-05-10 格式:DOC 页数:26 大小:1.36MB
返回 下载 相关 举报
生物信息学实验指导2014-2015-1解增言.doc_第1页
第1页 / 共26页
生物信息学实验指导2014-2015-1解增言.doc_第2页
第2页 / 共26页
生物信息学实验指导2014-2015-1解增言.doc_第3页
第3页 / 共26页
生物信息学实验指导2014-2015-1解增言.doc_第4页
第4页 / 共26页
生物信息学实验指导2014-2015-1解增言.doc_第5页
第5页 / 共26页
点击查看更多>>
资源描述

《生物信息学实验指导2014-2015-1解增言.doc》由会员分享,可在线阅读,更多相关《生物信息学实验指导2014-2015-1解增言.doc(26页珍藏版)》请在三一文库上搜索。

1、生物信息学实验生物信息学实验指导适用专业:生物技术与制药大类生物技术编写:解增言生物信息学院2014年9月目录实验1 在线BLAST同源序列查询3实验2 本地BLAST同源序列查询8实验3 利用ClustalX与MEGA进行多序列比对与分子系统发生树构建10实验4 利用RNAfold预测RNA二级结构14实验5 Pfam蛋白质结构域分析17实验6 利用PSSpred预测蛋白质二级结构19实验7 利用Cn3D和RasMol分析蛋白质三级结构21实验8 利用GO及EST数据分析基因功能24实验1 在线BLAST同源序列查询一、实验目的1 了解同源序列查询的原理和用途;2 掌握利用NCBI在线BLA

2、ST工具查找同源序列的方法。二、实验原理在生物学种系发生理论中,若两个或多个结构具有相同的祖先,则称它们同源(homologous)。分子生物学中的同源指两条序列来自于一条共同的祖先序列。一般来说,相似超过一定程度的序列具有同源性。在生物信息学研究中,常用序列比对(alignment)来研究序列的同源性以及推测物种之间的关系。最常见的比对是蛋白质序列之间或核酸序列之间的两两比对,通过比较两个序列之间的相似区域和保守性位点,寻找二者可能的分子进化关系。进一步的比对是将多个蛋白质或核酸同时进行比较,寻找这些有进化关系的序列之间共同的保守区域或位点,从而探索导致它们产生共同功能的序列模式。此外,还可

3、以把蛋白质序列与核酸序列相比来探索核酸序列可能的表达框架;把蛋白质序列与具有三维结构信息的蛋白质相比,从而获得蛋白质折叠类型的信息。比对还是数据库搜索算法的基础,将查询序列与整个数据库的所有序列进行比对,从数据库中获得与其最相似序列的已有的数据,能最快速的获得有关查询序列的大量有价值的参考信息,对于进一步分析其结构和功能都会有很大的帮助。近年来随着生物信息学数据大量积累和生物学知识的整理,通过比对方法可以有效地分析和预测一些新发现基因的功能。序列两两比对序列比对的理论基础是进化学说,如果两个序列之间具有足够的相似性,就推测二者可能有共同的进化祖先,经过序列内残基的替换、残基或序列片段的缺失、以

4、及序 列重组等遗传变异过程分别演化而来。序列相似和序列同源是不同的概念,序列之间的相似程度是可以量化的参数,而序列是否同源需要有进化事实的验证。在残基残基比对中,可以明显看到序列中某些氨基酸残基比其它位置上的残基更保守,这些信息揭示了这些保守位点上的残基对蛋白质的结构和功能是至关重要的,例如 它们可能是酶的活性位点残基,形成二硫键的半胱氨酸残基,与配体结合部位的残基,与金属离子结合的残基,形成特定结构motif的残基等等。但并不是所有保守的残基都一定是结构功能重要的,可能它们只是由于历史的原因被保留下来,而不是由于进化压力而保留下来。因此,如果两个序列有显著的保守性,要确定二者具有共同的进化历

5、史,进而认为二者有近似的结构和功能还需要更多实验和信息的支持。通过大量实验和序列比对的分析,一般认为蛋白质的结构和功能比序列具有更大的保守性,因此粗略的说,如果序列之间的相似性超过30%,它们就很可能是同源的。早期的序列比对是全局的序列比较,但由于蛋白质具有的模块性质,可能由于外显子的交换而产生新蛋白质,因此局部比对会更加合理。通常用打分矩阵描述序列两两比对,两条序列分别作为矩阵的两维,矩阵点是两维上对应两个残基的相似性分数,分数越高则说明两个残基越相似。因此,序列比对问题变成在矩阵里寻找最佳比对路径,目前最有效的方法是Needleman-Wunsch动态规划算法,在此基础上又改良产生了Smi

6、th-Waterman算法和SIM算法。在 FASTA程序包中可以找到用动态规划算法进行序列比对的工具LALIGN,它能给出多个不相互交叉的最佳比对结果。在进行序列两两比对时,有两方面问题直接影响相似性分值:取代矩阵和空位罚分。粗糙的比对方法仅仅用相同/不同来描述两个残基的关系,显然这种方法无法描述 残基取代对结构和功能的不同影响效果,缬氨酸对异亮氨酸的取代与谷氨酸对异亮氨酸的取代应该给予不同的打分。因此如果用一个取代矩阵来描述氨基酸残基两两取代的分值会大大提高比对的敏感性和生物学意义。虽然针对不同的研究目标和对象应该构建适宜的取代矩阵,但国际上常用的取代矩阵有PAM和 BLOSUM等,它们来

7、源于不同的构建方法和不同的参数选择,包括PAM250、BLOSUM62、BLOSUM90、BLOSUM30等。对于不同的对 象可以采用不同的取代矩阵以获得更多信息,例如对同源性较高的序列可以采用BLOSUM90矩阵,而对同源性较低的序列可采用BLOSUM30矩阵。空位罚分是为了补偿插入和缺失对序列相似性的影响,由于没有什么合适的理论模型能很好地描述空位问题,因此空位罚分缺乏理论依据而更多的带有主观特色。一般 的处理方法是用两个罚分值,一个对插入的第一个空位罚分,如1015;另一个对空位的延伸罚分,如12。对于具体的比对问题,采用不同的罚分方法会取 得不同的效果。对于比对计算产生的分值,到底多大

8、才能说明两个序列是同源的,对此有统计学方法加以说明,主要的思想是把具有相同长度的随机序列进行比对,把分值与最初的比对分值相比,看看比对结果是否具有显著性。相关的参数E代表随 机比对分值不低于实际比对分值的概率。对于严格的比对,必须E值低于一定阈值才能说明比对的结果具有足够的统计学显著性,这样就排除了由于偶然的因素产生 高比对得分的可能。Genbank、SWISS-PROT等序列数据库提供的序 列搜索服务都是以序列两两比对为基础的。不同之处在于为了提高搜索的速度和效率,通常的序列搜索算法都进行了一定程度的优化,如最常见的FASTA工具和 BLAST工具。FASTA是第一个被广泛应用的序列比对和搜

9、索工具包,包含若干个独立的程序。FASTA为了提供序列搜索的速度,会先建立序列片段的 “字典”,查询序列先会在字典里搜索可能的匹配序列,字典中的序列长度由ktup参数控制,缺省的ktup=2。FASTA的结果报告中会给出每个搜索到 的序列与查询序列的最佳比对结果,以及这个比对的统计学显著性评估E值。FASTA工具包可以在大多提供下载服务的生物信息学站点上找到。BLAST是现在应用最广泛的序列相似性搜索工具,相比FASTA有更多改进,速度更快,并建立在严格的统计学基础之上。NCBI提供了基于Web 的BLAST服务,用户可以把序列填入网页上的表单里,选择相应的参数后提交到数据服务器上进行搜索,从

10、电子邮件中获得序列搜索的结果。BLAST包含五 个程序和若干个相应的数据库,分别针对不同的查询序列和要搜索的数据库类型。其中翻译的核酸库指搜索比对时会把核酸数据按密码子按所有可能的阅读框架转换成蛋白质序列。BLAST对序列格式的要求是常见的FASTA格式。FASTA 格式第一行是描述行,第一个字符必须是“”字符;随后的行是序列本身,一般每行序列不要超过80个字符,回车符不会影响程序对序列连续性的看法。 序列由标准的IUB/IUPAC氨基酸和核酸代码代表;小写字符会全部转换成大写;单个“-”号代表不明长度的空位;在氨基酸序列里允许出现“U”和 “*”号;任何数字都应该被去掉或换成字母(如,不明核

11、酸用“N”,不明氨基酸用 “X”)。此外,对于核酸序列,除了A、C、G、T、U分别代表各种核酸之外,R代表G或A(嘌呤);Y代表T或C(嘧啶);K代表G或T(带酮基);M 代表A或C(带氨基);S代表G或C(强);W代表A或T(弱);B代表G、T或C;D代表G、A或T;H代表A、C或T;V代表G、C或A;N代表A、 G、C、T中任意一种。对于氨基酸序列,除了20种常见氨基酸的标准单字符标识之外,B代表Asp或Asn;U代表硒代半胱氨酸;Z代表Glu或Gln; X代表任意氨基酸;“*”代表翻译结束标志。NCBI提供的在线BLAST工具,包括:BLASTP:用蛋白质序列搜索蛋白质序列库BLASTN

12、:用核酸序列搜索核酸库BLASTX:核酸序列对蛋白质库的比对,核酸序列在比对之前自动按照六个读码框翻译成蛋白质序列TBLASTN:蛋白质序列对核酸库的比对,核酸库中的序列按照六个读码框翻译后与蛋白质序列进行比对搜索TBLASTX:核酸序列对核酸库在蛋白质质级别的比对,两者都在搜索之前翻译成为蛋白质质进行比对图1-1 NCBI首页图1-2 NCBI在线BLAST页面三、实验内容(步骤)本实验在NCBI核算和蛋白质库中查找拟南芥(Arabidopsis thaliana)LEC1(Leafy Cotyledon1)基因的同源基因,LEC1基因属于HAP3基因家族。步骤包括:1. 查找拟南芥LEC基

13、因的核酸和蛋白质序列。图1-2 在NCBI核算库中查找序列2. BLASTN图1-3 利用BLASTN查找同源基因3. BLASTP图1-4 利用BLASTP查找同源蛋白四、实验报告1使用的软件/工具,实验步骤,结果文件记录/截图;2实验中遇到的问题,如何解决的。五、参考文献Altschul SF, Madden TL, Schffer AA, Zhang J, Zhang Z, Miller W, Lipman DJ. 1997. Gapped BLAST and PSI-BLAST: a new generation of protein database search programs.

14、 Nucleic Acids Res. 25(17):3389-402.实验2 本地BLAST同源序列查询一、实验目的1 掌握本地版BLAST软件的使用方法。二、实验原理NCBI提供了在线的BLAST服务,但有时需要对某个基因组做BLAST,这就需要在本地建自己的BLAST库,并在本地做BLAST。NCBI提供BLAST的本地版,当前最新版本是2.2.28+, 包括源代码和多个平台的编译好的软件包,可以在ftp:/ftp.ncbi.nlm.nih.gov/blast/executables/blast+/LATEST/下载。Windows下可下载win32版本,安装完后,打开“开始”“运行”,

15、输入“cmd”,点“确定”(图2-1)。图2-1 运行命令行窗口这时,便可以输入DOS命令图2-2 DOS界面常用DOS命令有:cd(改变当前目录)、mkdir(新建目录)、dir(列出当前目录内容)等、del(删除文件)、copy(复制文件)、ren(更改文件名)等。在做本地BLAST前需要先构建本地BLAST库: makeblastdb -in schpomb.pep.fa -dbtype prot -out schpomb其中,-in是指定用来建库的文件,-dbtype指定库的类型(prot是蛋白质、nucl是核酸),-out指定建好的库的名字。更多的选项可以用makeblastdb -

16、h查看。使用以下命令可以在建好的库中查找一个蛋白的同源蛋白: blastp -query yeast_cytochromeC.fa -db schpomb -out out.txt其中,-query指定包含用来查找的序列的文件,-db指定在哪个库里查找,-out指定结果输出到哪个文件。更多的选项可以用blastp -h查看。运行完后,生成一个名为out.txt的输出文件,即为BLAST结果。除了blastp外,还有blastn、blastx、tblastn、tblastx等。三、实验内容(步骤)1. 从NCBI下载本地版BLAST,并安装;2. 在D盘新建目录blast,从TAIR(The A

17、rabidopsis Information Resource)网站上下载拟南芥基因组(全基因组CDS和蛋白质)数据到该目录;3. 构建本地BLAST库(CDS和蛋白质两种库);4. 从NCBI下载拟南芥LEC1基因的CDS和蛋白质序列,分别做BLASTP、BLASTN、BLASTX、TBLASTN和TBLASTX。四、实验报告1使用的软件/工具,实验步骤,结果文件记录/截图;2实验中遇到的问题,如何解决的。五、参考文献实验3 利用ClustalX和MEGA软件进行多序列比对与分子系统发生树构建一、实验目的1 了解多序列比对的原理和用途;了解系统发育分析、分子进化分析的原理和方法;2 掌握Cl

18、ustalX和MEGA软件的使用方法。二、实验原理1. 多序列比对与Clustal多序列比对(Multiple Sequence Alignment,MSA)就是把两条以上可能有系统进化关系的序列进行比对的方法,它能识别具有功能、结构重要性的局部保守区,同时还可以辅助检查一个序列家族中的全局相似性和进化亲缘关系。因此多序列比对是对遗传和进化研究具有重要意义的生物信息学序列分析方法。多序列比对的应用:用于描述一组序列之间的相似性关系,以便了解一个基因家族的基本特征,寻找序列模式(motif),保守区域等;用于描述同源基因之间的亲缘关系的远近,应用到分子进化分析中;其他应用,如构建profile,

19、打分矩阵等。根据比对原理,多序列比对分全局比对和局部比对两种。全局比对常用的工具有Clustal系列软件等,局部比对常用工具如T-coffee等。Clustal是一个单机版的基于渐进比对的多序列比对工具,由Higgins D.G. 等开发。有应用于多种操作系统平台的版本,包括linux和DOS版的clustlw,Windows版的clustalx等,当前的最新版本是ClustalW(X)2。图5-1 ClustalX的界面Clustal是一种渐进的比对方法,先将多个序列两两比对构建距离矩阵,反应序列之间两两关系;然后根据距离矩阵计算产生系统进化指导树,对关系密切的 序列进行加权;然后从最紧密的

20、两条序列开始,逐步引入临近的序列并不断重新构建比对,直到所有序列都被加入为止。Clustal的工作原理是:输入多个序列,首先进行快速的序列两两比对,计算序列间的距离,获得一个距离矩阵;然后用邻接法(Neighbor Joining,NJ) 构建一个引导树;最后根据引导树,渐进比对多个序列。Clustal的输入输出格式:输入序列的格式比较灵活,可以是前面介绍过的FASTA格式,还可以是PIR、SWISS-PROT、GDE、Clustal、GCG/MSF、RSF等格式。输出格式也可以选择,有ALN、GCG、PHYLIP和NEXUS等,用户可以根据自己的需要选择合适的输出格式。2.分子进化分析与ME

21、GA软件生物进化分析是生物信息学的一个重要分支。它通过对生物序列的研究推测基因或物种的进化历史。主要方法包括通过DNA序列,蛋白质序列,蛋白质结构等来构建分子进化树或者种系发生树, 或者通过蛋白质结构比较包括刚体结构叠合和多结构特征比较等方法建立结构进化树。分子进化分析的主要内容有:1)直系/旁系同源基因的判定;2)估计分歧时间;3)重建祖先序列/性状;4)发现生物序列上自然选择影响较大的重要位点;5)确定基因重组的发生位点;6)识别和疾病关联的突变;7)确定病原体的分类;8)基因的演化历史分子进化分析的第一步是多序列比对。然后再用距离法、最大似然法、最大简约法或贝叶斯方法等建立序列之间的关系

22、(基因树),了解基因的起源或演化历史,或根据基因树推测物种树(系统发育分析)。目前有系统发育分析软件有很多,比较有名的有PAUP、PHYLIP、MEGA、PAML、MrBayes等。本实验学习使用MEGA进行HAP3基因家族的分子进化分析。随着不同物种基因组测序的快速发展,产生了大量的DNA 序列信息,这时就需要一种简便而快速的统计分析工具来对这些数据进行有效的分析,以提取其中包含的大量信息。MEGA 就是基于这种需求开发的。MEGA 软件的目的就是提供一个以进化的角度从DNA 和蛋白序列中提取有用的信息的工具,并且,此软件可以免费下载使用。MEGA因为界面简单易用,近年使用的人越来越多。ME

23、GA的最新版本是MEGA4。它主要集中于进化分析获得的综合的序列信息。使用它我们可以编辑序列数据、序列比对、构建系统发育树、推测物种间的进化距离等。此软件的输出结果资源管理器允许用户浏览、编辑、打印输入所得到的结果而且所得到的结果具有不同形式的可视化效果。此外,该软件还能够得出不同序列间的距离矩阵,这是他不同与其他分析软件的地方。在计算矩阵方面有一些自己的特点:推测序列或者物种间的进化距离根据MCL(Maximum Composite Likeliood method)的方法构建系统发育树考虑到了不同碱基替换的不同的比率,考虑到了碱基转换和颠换的差别。随时可以使用标注:所以的结果输入都可以使用

24、标注,而且标注的内容可以被保存,复制。图6-1 MEGA界面三、实验内容(步骤)1 ClustalX(1)运行ClustalX;(2)Ctrl+O打开包含fasta格式的序列文件at_hap3_cds.fa;(3)在菜单中选取Alignment Output Format Options设置输出文件格式;(4)在菜单中选取Alignment Alignment Parameters Multiple Alignment Parameters设置序列比对参数;(5)在菜单中选取Alignment Do complete alignment,弹出对话框中设定好输出文件名后,点击OK按钮开始多序列比

25、对。2 MEGA(1)运行MEGA;(2)将.aln文件转换成.meg文件:file - Convert to MEGA Format,对话框中打开clustal比对好的序列,转换完成后,保存退出;(3)打开.meg文件:File - Open Data,找到刚才保存的.meg文件,选择是核酸序列还是蛋白序列;(4)构建系统发生树:菜单Phylogeny - Construct Phylogeny,然后可以选邻接法(NJ)、最小进化法(ME)、最大简约法(MP)或UPGMA法,在对话框中可以选择不同的模型,构建系统发生树。(5)构建带检验值的系统发生树:Phylogeny - Bootstra

26、p Test of Phylogeny,再选上面四种方法。四、实验报告1使用的软件/工具,实验步骤,结果文件记录/截图;2实验中遇到的问题,如何解决的。五、参考文献Larkin M.A., Blackshields G., Brown N.P., Chenna R., McGettigan P.A., McWilliam H., Valentin F., Wallace I.M., Wilm A., Lopez R., Thompson J.D., Gibson T.J. and Higgins D.G. (2007) ClustalW and ClustalX version 2. Bioi

27、nformatics 23(21): 2947-2948.Kumar S, Dudley J, Nei M & Tamura K (2008) MEGA: A biologist-centric software for evolutionary analysis of DNA and protein sequences. Briefings in Bioinformatics 9: 299-306.实验4 利用RNAfold预测RNA二级结构一、实验目的1 了解RNA二级结构的概念;2 掌握用RNAfold预测RNA二级结构的方法。二、实验原理就核酸分子结构而言,DNA具有双螺旋结构,而RN

28、A是单链结构。单链RNA的三维结构是由它的核苷酸序列决定的,这与蛋白质的结构由蛋白质的序列决定相类似。但是,RNA的结构并没有蛋白质的结构那么复杂。RNA的结构可以分为三个层次,即一级结构、二级结构和空间结构。一级结构就是RNA的序列。二级结构是通过碱基互补配对而形成的,碱基对之间的氢键以及它们形成的螺旋堆积力起着稳定结构的作用,降低自由能。RNA的二级结构单元与蛋白质的二级结构单元很不一样。但在单链RNA中,由于配对的碱基出现在单个RNA分子中,因此就会形成碱基配对的茎区(stem region)。在RNA链中,为了形成这种碱基配对,需要反转链的方向,于是在反转处就会形成一个发夹环。如果RN

29、A链上有很少的碱基没有相对应的互补碱基,那么就会形成一个小的突出部分或者形成一个较大的环状区(loop),即内环或者膨胀环。发夹环一般位于茎的末端,而内环或膨胀环使茎中断。图7.6是一个RNA的二级结构示意图,其中包括茎、发夹环、内环、膨胀环连续碱基配对等。当RNA分子折叠时,有些碱基相互配对,形成螺旋区域或茎,这部分碱基具有负的自由能;而其它非互补的碱基处于自由态,形成单链或环,这部分碱基的自由能为正值。环区的存在使RNA分子的自由能升高,结构的稳定性减弱。因此,预测RNA二级结构的一种直接的方法是寻找最大数目的碱基配对。通过确定常见RNA二级结构单元的位置,我们能够比较好地预测出RNA的结

30、构。但是,伪结(pseudo knot)是RNA二级结构预测中最难预测的一种二级结构。在形成伪结的地方,环状区域内的碱基与环状区域外的碱基相互配对。由于伪结的预测比较困难,因此,许多早期的二级结构预测算法完全不考虑伪结,这些算法是在忽略伪结区域存在的前提下预测其它二级结构单元的。可以用点矩阵作图的方法来寻找最大配对。将RNA的碱基序列顺序地排布在X轴上,对于配对的碱基在Y轴相同的位置打上点标记。设RNA序列的长度为n,根据序列建立一个的矩阵R,如果第个碱基与第个碱基配对(如AU、GC),则 Ri,j=1,否则为0。根据所得到的点矩阵图,可以找出最大配对。当然,这是一种非常简单粗糙的方法。目前R

31、NA二级结构预测有两种主要的方法,一是基于序列比较的方法,另一种方法是能量最小化方法。基于序列比较的方法主要是通过多重序列比对,根据相似序列具有相似结构的原理进行二级结构预测。能量最小化方法在预测RNA分子二级结构时,试图对RNA折叠的自由能进行最小化,进而搜索最稳定的结构。该方法通过各种能量优化方法或者分子动力学计算评价所有可能配对的能量,进而发现具有最小能量的结构。Zuker的Mfold程序是使用较多的程序包之一,它就是通过一系列的最近邻能量规则(nearest neighbor energy rules)来计算一个结构的能量。由于在这种方法中RNA结构被分成了许多相互作用的区域来进行评估

32、, 而能量计算时仅仅计算那些被认为有可能产生相互作用的“邻居”碱基对之间的能量,因此这些规则被称为“最近邻”规则。最近邻能量规则认为:在标为环区的区 域内的所有碱基都有相互作用的可能,因此在计算这个结构的能量时就必须考虑这一环区内的所有的碱基对的能量。但在不考虑会出现伪结时,由于环区外的碱基与 环区内的任一碱基都不会构成碱基对,因此在最近邻规则下就不考虑外区内的碱基和环区内的碱基之间的碱基对作用。由于不需要考虑位于不同区的碱基间的相互作 用,计算的速度就得到了比较大的提高。由于不考虑伪结,可以假设RNA二级结构总的自由能是所有结构元素(配对碱基、环)的自由能的总和,并且各个结构元素的自由能相互

33、独立。这意味着在计算RNA二级结构自由能的时候,只要分别计算各个结构元素的自由能,然后加和,形成总的自由能。通过实验可以确定各结构元素的自由能函数。典型的自由能函数包括两个连续碱基对si与sj、si+1与sj-1所形成的自由能,由碱基si和sj界定的发夹环的自由能,由两对碱基si与sj、si与sj所界定内环的自由能。基于自由能的二级结构预测的目标就是搜索一个合适的构象,使得在这种构象下总的自由能最小。这是一个优化问题,对于这个问题可用动态规划技术解决。 RNA是一种重要的生物大分子。RNA是DNA和蛋白质之间的一个中间语言,因此RNA二级结构的准确预测对于了解基因调控和蛋白质产物的表达具有重要

34、的作用。另外,已经发现许多RNA本身具有酶的催化特性。现在,这些具有酶的催化特性的RNA被称为核酶(ribozyme),它们在tRNA分子的剪接、核糖体的活性以及真核生物hnRNA的处理中具有一定的作用。同时,它们还具有其它一些功能。总而言之,认识RNA的结构对于了解RNA的功能及其作用机制是非常重要的。图4-1 RNA二级结构示意图RNAfold是基于最小自由能的RNA二级结构在线预测工具。其地址为:http:/rna.tbi.univie.ac.at/cgi-bin/RNAfold.cgi .三、实验内容1. 从NCBI上下载拟南芥LEC1基因的mRNA序列,与RNAfold预测其二级结构

35、;2. 用RNAfold预测大肠杆菌Met-tRNA的二级结构。四、实验报告1使用的软件/工具,实验步骤,结果文件记录/截图;2实验中遇到的问题,如何解决的。五、参考文献Zuker M, Stiegler P. 1981. Optimal computer folding of large RNA sequences using thermodynamics and auxiliary information. Nucleic Acid Res. 9(1):133-148.实验5 Pfam蛋白质结构域分析一、实验目的1 了解多序列比对的原理和用途;2 掌握ClustalX和ClustalW软件

36、的使用。二、实验原理结构域是蛋白质中的一类结构单元,是构成蛋白质三级结构的基本单元。有些球形蛋白的一条肽链,或以共价键相连的两条或多条肽链在空间结构上可以区分为若干个球状的子结构,其中的每一个球状子结构就被称为一个结构域。同一个蛋白的各个结构域之间是以肽链相互链接的,而链接两个结构域的绝大多数都是单股肽链,只有在极个别的情况下会有少数的双股肽链联系不同的结构域。在X-射线衍射实验绘制的电子密度图中,可以清楚地看到有些球状蛋白地的部存在一些裂隙,这些裂隙就是各个结构域之间的链接部分,结构域之间的链接虽然是松散的,但他们仍然属于同一条肽链,靠肽链链接这一点和蛋白质的各个亚基之间依靠非键相互作用维系

37、结构有着本质的区别。结构域在空间上具有临近相关性即在一级结构上相互临近的氨基酸残基,在结构域的三维空间结构上也相互临近,在一级结构上相互远离的氨基酸残基,在结构域的空间结构上也相互远离,甚至分别属于不同的结构域。结构域与蛋白质完成生理功能有着密切的关系,有时几个结构域共同完成一项生理功能,有时一个结构域就可以独立完成一项生理功能,但是一个结构不完整 的结构域是不可能产生生理功能的。因此结构域是蛋白质生理功能的结构基础,但必须指出的是,虽然结构域与蛋白质的功能关系密切,但是结构域和功能域的概念并不相同。Pfam是最权威的蛋白质结构域数据库,最新版本是27.0,包括14831个PfamA结构域(经

38、过人工注释,质量较高)及超过20000个PfamB结构域(计算机自动注释)。Pfam提供在线的蛋白质结构域搜索,其网址为:http:/pfam.janelia.org/ 。图5-1 Pfam蛋白质结构域分析结果三、实验内容(步骤) 利用Pfam分析拟南芥LEC1蛋白质的结构域信息。四、实验报告1使用的软件/工具,实验步骤,结果文件记录/截图;2实验中遇到的问题,如何解决的。五、参考文献Punta M, Coggill PC, Eberhardt RY, Mistry J, Tate J, Boursnell C, Pang N, Forslund K, Ceric G, Clements J,

39、 Heger A, Holm L, Sonnhammer EL, Eddy SR, Bateman A, Finn RD. 2012. The Pfam protein families database. Nucleic Acids Res. 40(Database issue):D290-301. 实验6 利用PSSpred预测蛋白质二级结构一、实验目的1 了解蛋白质二级结构的概念和不要类型;2 掌握PSSpred在线蛋白质二级结构预测工具的使用。二、实验原理蛋白质结构按照不同的组织层次可分为一级结构、二级结构、三级结构和四级结构。一级结构指蛋白质序列;蛋白质二级结构(secondary

40、structure of protein)指蛋白质多肽链本身的折叠和盘绕的方式。二级结构主要有-螺旋、-折叠、-转角和无规卷曲。常见的二级结构有-螺旋和-折叠。二级结构是通过骨架上的羰基和酰胺基团之间形成的氢键维持的,氢键是稳定二级结构的主要作用力;三级结构及空间结构;有多条肽链的蛋白质还有四级结构。蛋白质的二级结构预测的基本依据是:每一段相邻的氨基酸残基具有形成一定二级结构的倾向。因此,进行二级结构预测需要通过统计和分析发现这些倾向或者规律,二级结构预测问题自然就成为模式分类和识别问题。蛋白质二级结构的组成规律性比较强,所有蛋白质中约85%的氨基酸残基处于三种基本二级结构状态(a螺旋、b折叠

41、和转角),并且各种二级结构非均匀地分布在蛋白质中。有些蛋白质中含有大量的a螺旋,如血红蛋白和肌红蛋白;而另外一些蛋白质中则不含或者仅含很少的a螺旋,如铁氧蛋白;有些蛋白质的二级结构以b折叠为主,如免疫球蛋白。二级结构预测的目标是判断每一个氨基酸残基是否处于a螺旋、b折叠、转角(或其它状态)之一的二级结构态,即三态。至今人们已经发展了几十种预测方法。蛋白质二级结构的预测开始于20世纪60年 代中期。二级结构预测的方法大体分为三代,第一代是基于单个氨基酸残基统计分析,从有限的数据集中提取各种残基形成特定二级结构的倾向,以此作为二级结构 预测的依据。第二代预测方法是基于氨基酸片段的统计分析,使用大量

42、的数据作为统计基础,统计的对象不再是单个氨基酸残基,而是氨基酸片段,片段的长度通常 为11-21。片段体现了中心残基所处的环境。在预测中心残基的二级结构时,以残基在特定环境中形成特定二级结构的倾向作为预测依据。这些算法可以归为几类:(1)基于统计信息;(2)基于物理化学性质;(3)基于序列模式;(4)基于多层神经网络;(5)基于图论;(5)基于多元统计;(6)基于机器学习的专家规则;(7)最邻近算法。第一代和第二代预测方法有共同的缺陷,它们对三态预测的准确率都低于70%,而对b折叠预测的准确率仅为2848%,其主要原因是这些方法在进行二级结构预测时只利用局部信息,最多只用局部的20个残基的信息

43、进行预测。二级结构预测的实验结果和晶体结构统计分析都表明,二级结构的形成并非完全由局域的序列片段决定,长程相互作用不容忽视。蛋白质的二级结构在一定程度上受远程残基的影响,尤其是b折叠。从理论上来说,局部信息仅包含二级结构信息的65%左右,因此,可以想象,只用局部信息的二级结构预测方法,其准确率不会有太大的提高。二级结构预测的第三代方法运用蛋白质序列的长程信息和蛋白质序列的进化信息,使二级结构预测的准确程度有了比较大的提高,特别是对b折叠的预测准确率有较大的提高,预测结果与实验观察趋于一致。一般75%的 氨基酸残基可以被置换而不改变蛋白质的结构,然而,有时改变几个关键的残基则可能导致破坏蛋白质的

44、结构。这好像是两个矛盾的结论,但解释又非常简单。一个蛋白质在其进化过程中探查了每个位置上氨基酸可能的与不可能的变化,不可能变化的部分是进化保守区域。可变部分的变化不改变结构,而不可变部分的变化则改 变蛋白质的结构,由此失去蛋白质原有的功能,因而也就难以延续下去。这些不可变部分体现了蛋白质功能对结构的特定要求。这样,从一个蛋白质家族中提取的残 基替换模式高度反映了该家族特异的结构。通过序列的比对可以得到蛋白质序列的进化信息,得到蛋白质家族中的特定残基替换模式,此外,通过序列的比对也可以 得到长程信息。目前,许多二级结构预测的算法是基于序列比对的,通过序列比对可以计算出目标序列(待预测其二级结构的

45、序列)中每个氨基酸的保守程度。对于二级结构三态(a,b,none)预测准确率首先达到70%的方法是基于统计的神经网络方法PHDsec。PHDsec利用通过多重序列比对得到的进化信息作为神经网络的输入,另外采用了一个全局的描述子,即所有氨基酸组成(20种氨基酸中每个所占的比例)作为蛋白质序列的全局信息。这类算法预测的准确率能达到70至75。各种方法预测的准确率随蛋白质类型的不同而变化。例如,一种预测方法在某些情况下预测的准确率能够达到90%,而在最差的情况下仅达到50%,甚至更低。在实际应用中究竟使用哪一种方法,还需根据具体的情况。虽然二级结构预测的准确性有待提高,其预测结果仍然能提供许多结构信

46、息,尤其是当一个蛋白质的真实结构尚未解出时更是如此。通过对多种方法预测结果的综合分析,再结合实验数据,往往可以提高预测的准确度。二级结构预测通常作为蛋白质空间结构预测的第一步。例如,二级结构预测是内部折叠、内部残基距离预测的基础。更进一步,二级结构预测可以作为其它工作的基础。例如,用于推测蛋白质的功能,预测蛋白质的结合位点等。三、实验内容(步骤)利用蛋白质在线二级结构预测工具PSSpred预测拟南芥LEC1基因蛋白质的二级结构。四、实验报告1使用的软件/工具,实验步骤,结果文件记录/截图;2实验中遇到的问题,如何解决的。五、参考文献孙啸. 2005. 生物信息学基础. 清华大学出版社.PSSp

47、red. http:/zhanglab.ccmb.med.umich.edu/PSSpred/实验7 利用Cn3D和RasMol分析蛋白质三级结构一、实验目的1. 了解常用蛋白质三维结构表示方法;2. 掌握软件Cn3D和RasMol的使用方法。二、实验原理组成自然界中各类生命的最重要的物质是蛋白质,了解蛋白质的三维结构,对于了解其功能是非常重要的。RasMol是一款免费开源软件,可以打开pdb格式的文件,并用不同的模型显示三维分子结构。其作者是Glaxo&Wellcome公司(世界第一大制药公司)研发中心的科学家Roger Sayle。它有适用于不同机器、不同操作系统的各种版本。从PC机到Ma

48、cintosh(苹果)机,从DOS到WINDOWS到UNIX系统,均有不同的版本可以运行。RasMol最大的特点是界面简单,基本操作简单,运行非常迅速,对机器的要求较低,对小的有机分子与大分子,如蛋白质、DNA或RNA, 均能适用,且显示模式非常丰富。以前同类的分子图形软件,对计算机硬件的要求非常高,常常要求的硬件环境为图形工作站,虽然功能较多,但作为商业软件,自身价格极为昂贵,所以,只能为少数拥有大量科研经费的科研单位的科研人员所用。RasMol则克服了这些缺点,使任何一个人,应用普通廉价的计算机,为了科研、出版甚至仅仅为了教育的目的,就可以方便地显示一个分子的微观三维立体结构(图7-1)。图7-1 RasM

展开阅读全文
相关资源
猜你喜欢
相关搜索

当前位置:首页 > 其他


经营许可证编号:宁ICP备18001539号-1