生物信息学在分子诊断中的应用.ppt

上传人:本田雅阁 文档编号:3066858 上传时间:2019-07-02 格式:PPT 页数:74 大小:5.58MB
返回 下载 相关 举报
生物信息学在分子诊断中的应用.ppt_第1页
第1页 / 共74页
生物信息学在分子诊断中的应用.ppt_第2页
第2页 / 共74页
生物信息学在分子诊断中的应用.ppt_第3页
第3页 / 共74页
生物信息学在分子诊断中的应用.ppt_第4页
第4页 / 共74页
生物信息学在分子诊断中的应用.ppt_第5页
第5页 / 共74页
点击查看更多>>
资源描述

《生物信息学在分子诊断中的应用.ppt》由会员分享,可在线阅读,更多相关《生物信息学在分子诊断中的应用.ppt(74页珍藏版)》请在三一文库上搜索。

1、生物信息学在分子诊断中的应用,第一节 生物信息学概论,生物信息学的定义 生物信息学研究的范畴,第一节 生物信息学概论 一、生物信息学的定义,生物信息学是结合了生物学和信息技术,利用 计算机和互联网技术,分析海量的并且还在快 速积累的生物数据,从中获取生物科学新知识 的一门新的交叉科学。,人类基因组计划的意义,人类基因研究的意义在于它可以支持和推动生命科学中 一系列重要的基础性研究。如基因组遗传语言的破译, 基因的结构与功能关系,生命的起源和进化,细胞发育、 生产、分化的分子机理,疾病发生的机理等。 为推动医学长足进步带来前所未有的机遇,基因诊断、 基因疗法和基因药物的开发,有可能成为未来医学发

2、展 的重要分支。 人类基因组计划的进一步成功将促进生命科学与信息科学 、材料科学的融合,从而带动一批高技术产业的发展,第一节 生物信息学概论,第一节 生物信息学概论 二、生物信息学研究的范畴,第一、各种生物数据库的建立和管理; 第二、研究高效率的统计工具,分析算法, 发展方便、快捷的分析程序; 第三、从海量的原始生物数据中发掘新知识。,第二节 计算机和互联网,计算机常识和互联网 常用搜索引擎 文件的压缩和解压 文件和数据的传送 编程和语言,第二节 计算机和互联网 一、计算机常识:硬件和软件,计算机的主要硬件由中央处理器(CPU)、 存储器、输入设备和输出设备组成。 常用的操作系统:window

3、s 、UNIX 、Linux,第二节 计算机和互联网 二、互联网和常用搜索引擎,WWW是World Wide Web的缩写,即通常 我们所说的国际互联网,它的每个节点在 逻辑上都与任何其他节点保持联系,可以 相互交换信息。,第二节 计算机和互联网 二、互联网和常用搜索引擎,第二节 计算机和互联网 三、文件的压缩和解压,传输或保存较大的数据时,常对文件进行压缩,以减少 数据量。特别是对于图形文件,压缩尤其重要。在UNIX 或Linux系统中,压缩命令是compress myfile,压缩后的文件 自动加上后缀.Z。解压缩命令是uncompress myfile.Z。 PC机上的Windows操作

4、系统没有标准的压缩和解压软件, 但网上有许多针对Windows的免费或代免费试用期的压缩 软件,如FreeZip、WinZip等,第二节 计算机和互联网 四、文件和数据的传送,用户需要递交一条或多条核酸或蛋白质序列去做数据库查询或比对。 这时常用的方法有: 使用视窗系统的剪切、复制和粘贴的功能.对于不太长的序列,这 种方法比较方便; 网页的输入窗口旁常有一个“浏览目录”按钮,点击该按钮,会弹 出一个对话框,找到需要上传的序列文件,再按“提交”钮完成递 交。用这种方法可以一次递交较长的序列; 有些大型信息中心和研究单位还有远程文件传送服务,即遵从文件 传输协议 (file transfer pr

5、otocol,ftp)的服务器地址,用户可以无记 名的方式访问公用的目录,读取文件,下载软件或数据。,第二节 计算机和互联网 五、编程和语言,在众多的计算机语言中,C语言无疑是最常用的,它具有 代码精炼,执行效率高的特点,网上还有大量的现成模块 供免费使用。 对于非计算机专业人员,还可以选择Visual BASIC(VB) 语言。VB语言具备了高级语言的特点,语句结构类似自然 语言,对于生物背景的专业人员可能较容易掌握。 如果在研究中大量使用网络资源,则需要掌握一定的网络 编程语言,例如:Perl语言、PHP语言和JAVA语言等,第三节 数据的获得,DNA、RNA、蛋白质的测序 蛋白质结构的分

6、析 基因和蛋白质的表达数据 蛋白质相互作用,第三节 数据的获得 一、DNA、RNA和蛋白质的测序,基因组DNA直接来源于细胞核基因组,它的组成包括 基因和基因间区域,基因序列中还包括内含子和外显子。 cDNA是由mRNA逆转录而来,全长cDNA应该包括5端 非编码区,3 端的多聚腺苷酸序列和编码序列。 重组DNA序列是基因重组到质粒、病毒和cosmid等载体 后经测序得到的DNA序列。,2009-4-28,2009-4-28,第三节 数据的获得 一、DNA、RNA和蛋白质的测序,2009-4-28,第三节 数据的获得 一、DNA、RNA和蛋白质的测序,2009-4-28,第三节 数据的获得 一

7、、DNA、RNA和蛋白质的测序,RNA的序列可以从基因组序列或cDNA序列推导出来;直接 的RNA测序涉及修饰核苷酸的识别,可通过质谱分析获得。 蛋白质的序列可以通过DNA序列推导而来,但从DNA序列 推导的蛋白质序列不能反应真实的蛋白质序列情况,蛋白质 测序主要依靠质谱分析(mass spectrometry, MS)技术,基本原 理是通过准确测定真空中的离子质量或电荷量来测算出分 子组成。,2009-4-28,第三节 数据的获得 二、蛋白结构的分析,X射线晶体学技术:通过研究X射线对蛋白质晶体的扫描后 产生的衍射模式来测定蛋白质的结构; 核磁共振谱法(NMR) spectroscopy):

8、该方法常用于较小 (25kDa)的,可溶性蛋白质结构的测定; 有些蛋白质很难结晶,不能用X射线晶体学技术测定,又太 大而不能用核磁共振谱技术测定,其它技术方法: X射线纤维衍射技术;电子显微镜(electron microscopy); 环形双色色谱技术(circular dichroism (CD) spectroscopy),2009-4-28,第三节 数据的获得 三、基因和蛋白质表达数据,表达文库的测序 基因表达连续分析技术 (serial analysis of gene expression, SAGE) DNA芯片 双向电泳分析技术(2D gel electrophoresis),

9、2009-4-28,基因表达连续分析技术原理,第三节 数据的获得 三、基因和蛋白质表达数据,双向电泳分析技术原理: 1个方向是SDS-聚丙烯酰胺凝胶 主要是把蛋白质按照 分子量分开 ; 1个方向是等点聚焦 把蛋白质按照等电点的不同分开 ,这样就可以把不同的蛋白质尽可能的分开 。,2009-4-28,第三节 数据的获得 四、蛋白质相互作用,1、遗传学方法: 2、亲和性方法: 亲和色谱法(Affinity chromatography) 免疫共沉淀法(coimmunoprecipitation) 免疫共沉淀基本原理: 细胞裂解液中加入抗体,与抗原形成特异免疫复合物, 经过洗脱,收集免疫复合物,然后

10、进行SDS-PAGE及 Western blotting分析。,2009-4-28,3、分子和原子法:X射线晶体法和核磁共振法 4、基于文库法: 酵母双杂交系统(yeast two-hybrid (Y2H)system),第三节 数据的获得 四、蛋白质相互作用,酵母双杂交系统的建立得力于对真核细胞调控转录起始过程的认识。 研究发现,许多真核生物的转录激活因子都是由两个可以分开的、功 能上相互独立的结构域(domain)组成的。例如,酵母的转录激活因子 GAL4,在N端有一个由147个氨基酸组成的DNA结合域(DNA binding domain,BD),C端有一个由113个氨基酸组成的转录激活

11、域(transcription activation domain,AD)。当GAL4分子的DNA结合域和上游激活序列 (upstream activating sequence,UAS)结合,转录激活域则能激活UAS 下游的基因进行转录。但是,单独的DNA结合域不能激活基因转录, 单独的转录激活域也不能激活UAS的下游基因,它们之间只有通过某 种方式结合在一起才具有完整的转录激活因子的功能。,2009-4-28,转化到,文库中,重要生物信息中心 数据库检索工具,第四节 生物信息数据库,2009-4-28,第四节 生物信息数据库 一、重要生物信息中心,美国国家信息中心 (National Ce

12、nter of Biotechnology Information, NCBI)的GenBank (http:/ / www.nchi.nlm.nih.gov/web/GenBank/index.html); 欧洲分子生物学室验室(European Molecular Biology Laboratory-European Bioinformatics Institute, EMBL-EBI) 的EMBL (http:/ www.ebi.ac.uk/databases/index.html); 日本 DNA数据库 (DNA Data Bank of Japan, DDBJ) (http:/ /

13、 www.ddbj.nig.ac.jp/ ),2009-4-28,第四节 生物信息数据库 一、重要生物信息中心,最重要的蛋白质氨基酸序列数据库是瑞士的SWISS- PROT (http:/au.expasy.org/sprot/); 蛋白质数据库PIR(Protein Information Resource),包含 所有序列已知的自然界中野生型蛋 白质的信息 (http:/pir.georgetown.edu); PDB蛋白质结构数据库:收集由X射线衍射和核磁共振 技术测定的蛋白质大分子三维结构(http:/www.rcsb.org/pdb)。,第四节 生物信息数据库 二、数据库检索工具,E

14、ntrez检索工具:Entrez是美国国家生物技术信息中心 (NCBI)提供的集成检索工具 http:/www.ncbi.nlm.nih.gov/Entrez/ SRS(Sequence Retrieval System)检索工具:是欧洲 分子生物学网EMBnet的主要数据库检索工具,可以从 EMBnet的主页进入。 DBGET/LinkDB检索工具:是日本京都工具大学建立的 GenomeNet数据库,该数据库主要针对代谢途径。 http:/www.genome.ad.jp/dbget/dbget_manual.html。,第四节 生物信息数据库 二、数据库检索工具,图16-1: NCBI网页

15、的Entrez界面,第五节 核酸序列分析,核酸序列的基本分析 核酸序列的比对分析和功能预测 开放阅读框的分析 引物设计 向数据库提交序列,第五节 核酸序列分析 一、核酸序列的基本分析,核酸序列的分子量、碱基组成、碱基分布等基本分析: BioEdit (http:/www.mbio.ncsu.edu/BioEdit/bioedit.html) DNAMAN (http:/ 限制性酶切分析 :限制性酶数据库(Restriction Enzyme DataBase,REBASE) (http:/ ; http:/ 测序峰图的查看、核实与修改 :Chromas,BioEdit,DNAMAN 测序结果需

16、要识别与去除测序时使用的载体序列 : VecScreen ( http:/www.ncbi.nlm.nih.gov/VecScreen.html),第五节 核酸序列分析 一、核酸序列的基本分析,EST序列进行电子延伸 : 将待分析的核酸序列(称为种子序列)采用Blast软件 搜索GenBank的EST数据库,获得与种子序列有较高 同源性的EST序列,一般要求在重叠40个碱基范围内 有95以上的同源性,称匹配序列; 将匹配序列与种子序列装配成新序列,即片段重叠 群分析(contig analysis); 再以新产生的序列为种子序列,重复上述过程,直 至没有新的匹配序列为止。,EST序列进行电子延

17、伸,种子序列,第五节 核酸序列分析 一、核酸序列的基本分析,对核酸序列进行电子基因定位 : 利用序列标签位点(Sequence Tagged Site, STS); 利用UniGene数据库进行基因电子定位; 直接利用基因组序列进行基因电子定位。, NCBI网页的Map Viewer界面,第五节 核酸序列分析 二、核酸序列的比对分析和功能预测,BLAST (Basic Local Alignment Search Tool)是 基本局域联配搜索工具;Blast 功能有:,NCBI网页的BLAST界面,NCBI网页的BLAST2 SEQUENCES界面,第五节 核酸序列分析 二、核酸序列的比对分

18、析和功能预测,FASTA:根据用户提交的单个序列进行 数据库搜索比对的程序。 网上服务器和电子邮件服务: http:/www.ebi.ac.uk/ mailto: fastaebi.ac.uk http:/www.fasta.genome.ad.jp mailto: fastanig.ac.jp,第五节 核酸序列分析 二、核酸序列的比对分析和功能预测,进行多序列联配 : ClustalW: http:/www.ebi.ac.uk/clustalw/index.html, http:/iubio.bio.indiana.edu/soft/molbio/align/clustal/, ftp:/f

19、tp.ebi.ac.uk/pub/software/dos/clustalw。 ClustalX: CluastalW程序的UNIX版本,它使用X窗口图形界面, ftp:/ftp.ebi.ac.uk/pub/software ftp:/ftp-igbmc.u-strassbg.fr/pub/clustalX。 对联配结果进一步编辑,形成适于发表的形式,可用的软件有: SeaView: ftp:/biom3.univ-lyon1.fr BOXSHADE: http:/www.ch.embnet.org/software/box_form.html) CINEMA: http:/www.bioin

20、f.man.ac.uk/dbbrowser/cinema2.1/cinema2hdr.html,第五节 核酸序列分析 三、开读框的分析,GT-AG法则:外显子与内含子之间的连接区序列高度保守, 如大部分内含子5端起始的两个碱基是GT,3端最后两个 碱基是AG。 基因识别软件,常用的有: ORF Finder (http:/ncbi.nlm.nih.gov/gorf/gorf.html ) GRAIL (http:/avalon.epm.ornl.gov/grainbin/ ) GeneFinder (http:/genomic.sanger.ac.uk ) Glimmer (http:/www

21、.cs.jhu.edu/labs/compbio/glimmer.html/ ) GenScan (http:/genes.mit.edu/genscan.html ) GeneLang (http:/www.cbil.upenn.edu/genlang/),用GeneFinde进行开放阅读框分析,用GeneFinde进行开放阅读框分析,第五节 核酸序列分析 四、引物设计,Primer Premier软件: http:/ Primer3软件: http:/www.genome.wi.mit.edu/cgi-bin/primer/primer3 Oligo、Vector NT、Omiga等,第五

22、节 核酸序列分析 五、向数据库提交核酸序列,向EMBL提交数据的网络表格可参见: http:/www.ebi.ac.uk/subs/emblsubs.tml 向GenBank数据库提交核酸序列可联网进行 http:/www.ncbi.nlm.nih.gov/GenBank/index.html 也可用Sequin软件制作好序列提交文件,向NCBI 发送E-mail(gb-subncbi.nlm.nih.gov)提交,第六节 蛋白质序列分析,蛋白质基本性质分析 蛋白质功能预测 蛋白质结构预测 蛋白质分子进化分析,第六节 蛋白质序列分析 一、蛋白质基本性质分析,蛋白质的氨基酸组成、分子量、等电点等

23、方面的分析 : OMIGA、DNAMAN、BioEdit、MacVector等 蛋白质疏水性分析 :ProtScale, http:/www.expasy.org/cgi-bin/protscale.pl 预测跨膜区 : http:/genome.cbs.dtu.dk/services/TMHMM-2.0/ http:/www.ch.embnet.org/software/TMPRED_form.html http:/www.emblheidelberg.de/services/sander/predictprotein ftp:/ftp.biochem.ucl.ac.uk。,用TMHMM 软

24、件预测的SARS-CoV 的E蛋白的跨膜区,第六节 蛋白质序列分析 一、蛋白质基本性质分析,预测信号肽: http:/genome.cbs.dtu.dk/services/SignalP/ 蛋白质亚细胞定位 : http:/predict.sanger.ac.uk/nnpsl/,预测信号肽,预测信号肽,蛋白质亚细胞定位,蛋白质亚细胞定位,第六节 蛋白质序列分析 二、蛋白质功能预测,蛋白质序列分析和功能预测的一般流程,第六节 蛋白质序列分析 二、蛋白质功能预测,磷酸化位点、糖基化位点,特殊的结构区(motif)的分析: PROSITE: http:/www.expasy.org/prosite/

25、 BLOCKS: http:/www.blocks.fhcrc.org/blocks/ PFAM: http:/www.sanger.ac.uk/software/pfam/ PESCAN: http:/www.isrec.isb-sib.ch/software/pfscan InterProScan: http:/www.ebi.ac.uk/interpro/scan.html SMART: http:/smart.embl-heidberg.de/,第六节 蛋白质序列分析 三、蛋白质结构预测,蛋白质的立体结构数据库PDB(Protein Data Bank): (http:/www.uma

26、ss.edu/microbio/rasmol) PDBFinder (http:/www.sander.embl-heideberg.de/pdbfinder) 蛋白质分子模型数据库(Molecular Modeling Database); 三维结构显示程序Cn3D (http:/www.ncbi.nlm.nih.gov/structure),同源建模(Homology modeling)分析服务 (http:/www.expasy.ch/swissmod/sm_toppage.html) 常用的有以下几个工具: TOPITS: http:/www.embl-heidelberg.de/pr

27、edictprotein frsvr: http:/www.mbi.ucla.edu/people/frsvr/frsvr.html THREADER: http:/globin.warwick.ac.uk/jones/,第六节 蛋白质序列分析 三、蛋白质结构预测,第六节 蛋白质序列分析 四、蛋白质分子进化分析,DNAMAN ClustalW PHYLIP(http:/evolution.genetics.washington.edu/) PAUP MrBayes(http:/morphbank.ebc.uu.se/mrbayes/ ) 亲缘树显示程序: TreeView (http:/taxonomy.zoology.gla.ac.uk/rod/treeview) Phylodraw(http:/iubio.bio.indiana.edu/treeapp/),第六节 蛋白质序列分析 四、蛋白质分子进化分析,SARS病毒M蛋白与冠状病毒M蛋白的进化分析. A: 采用ClustalW软件 分析, 用Treeview软件输出;B: 采用ClustalW软件分析,用Phylodraw软件输出,

展开阅读全文
相关资源
猜你喜欢
相关搜索

当前位置:首页 > 其他


经营许可证编号:宁ICP备18001539号-1