生物信息数据库1117【骄阳书苑】.ppt

上传人:rrsccc 文档编号:9990378 上传时间:2021-04-09 格式:PPT 页数:78 大小:3.29MB
返回 下载 相关 举报
生物信息数据库1117【骄阳书苑】.ppt_第1页
第1页 / 共78页
生物信息数据库1117【骄阳书苑】.ppt_第2页
第2页 / 共78页
生物信息数据库1117【骄阳书苑】.ppt_第3页
第3页 / 共78页
生物信息数据库1117【骄阳书苑】.ppt_第4页
第4页 / 共78页
生物信息数据库1117【骄阳书苑】.ppt_第5页
第5页 / 共78页
点击查看更多>>
资源描述

《生物信息数据库1117【骄阳书苑】.ppt》由会员分享,可在线阅读,更多相关《生物信息数据库1117【骄阳书苑】.ppt(78页珍藏版)》请在三一文库上搜索。

1、分子生物信息数据库简介,1,专业课堂,一级数据库 直接来源于实验获得的原始数据,只经过简单的归类、整理和注释。 一级核酸数据库:GenBank数据库、EMBL数据库、DDBJ数据库 一级蛋白质序列数据库:SWISS-PROT库、PIR库 一级蛋白质结构数据库:PDB数据库,二级数据库 在一级数据库、实验数据和理论分析的基础上,针对不同的研究内容和需要,对生物学知识和信息的进一步整理得到的数据库。 人类基因组图谱库GDB、转录因子和结合位点库TRANSFAC、蛋白质序列功能位点数据库Prosite等。,2,专业课堂,生物分子数据库几个明显的特征:,(1)数据库的更新速度不断加快 数据量呈指数增长

2、趋势 (2)数据库使用频率增长更快 (3)数据库的复杂程度不断增加 (4)数据库网络化 (5)面向应用 (6)先进的软硬件配置,3,专业课堂,建立分子生物信息数据库的流程图,4,专业课堂,一. 核酸序列数据库,5,专业课堂,三大核酸序列数据库,GenBank http:/www.ncbi.nlm.nih.gov/Genbank/index.html EMBL(European Melecular Biology Laboratory) http:/www.ebi.ac.uk/embl/ DDBJ(DNA Data Bank of Japan) http:/www.ddbj.nig.ac.jp/

3、index-e.html,6,专业课堂,GenBank,1982.4 由Los Alamos National Lab创建 NCBI (National Center for Biotechnology Information) NIH (National Institute of Health) 数据库查询工具:Entrez 数据提交工具: Sequin Nucleic Acids Research, 2008 Jan;36(Database issue):D25-30,7,专业课堂,8,专业课堂,GenBank中测序最多的20个物种,v173.0,2009.09,9,专业课堂,10,专业课

4、堂,Refseq,1. 提供高质量的,无冗余的,完整的序列信息; 2. 包括基因组的DNA,转录成的RNA以及蛋白质序列信息。 3. 序列文件的标识符: mRNA序列:NM_001158 非编码RNA:NR_002769 蛋白质序列: NP_001159 http:/www.ncbi.nlm.nih.gov/RefSeq/,11,专业课堂,GenBank VS. RefSeq,12,专业课堂,13,专业课堂,EMBL,1982.3 由德国科隆大学收集整理 EBI(European Bioinformatics Institute) 数据库查询工具:SAS (开源) 数据提交工具:WebIn,

5、Sequin http:/www.ebi.ac.uk/embl/,14,专业课堂,15,专业课堂,DDBJ,创建于1986年 NIG(National Institute of Genetics) 数据库查询工具:SAS 数据提交工具: Sequin http:/www.ddbj.nig.ac.jp/index-e.html,16,专业课堂,17,专业课堂,INSDC,1998年,GenBank、EMBL和DDBJ共同成立了国际核酸序列数据库协会(International Nucleotide Sequence Database Collaboration,INSDC) 三大核酸数据库之间每

6、天将新测定或更新的数据进行交换共享,保证数据信息的完整与同步,每两个月更新一次版本。 http:/www.insdc.org/,18,专业课堂,19,专业课堂,三大核酸数据库之间的联系,20,专业课堂,二. 蛋白质序列数据库,21,专业课堂,蛋白质序列数据库,PIR http:/pir.georgetown.edu/ SwissProt http:/www.expasy.ch/sprot/ TrEMBL http:/www.expasy.ch/sprot/,22,专业课堂,PIR,1984年,蛋白质信息资源(Protein Information Resource,PIR)计划由美国国家医学研

7、究基金会(NREF)正式启动 1988年,日本的国际蛋白质信息数据库(JIPID)和德国慕尼黑蛋白质序列信息中心(MIPS)加入PIR 非冗余、高质量注释、全面分类,23,专业课堂,Swiss-Prot,1986年,由瑞士日内瓦大学创建。 SIB(Swiss Institute of Bioinformatics) ExPASy(Expert Protein Analysis System) 所有序列条目均经过有经验的分子生物学家和蛋白质化学家审核,因此又称为蛋白质专家库,24,专业课堂,TrEMBL,1996年创建,意为“Translation of EMBL” 从EMBL的cDNA序列翻译

8、而来,包含EMBL数据库中所有核酸编码序列信息,25,专业课堂,ExPASy,http:/www.expasy.org/,26,专业课堂,ExPASy Proteomics Tools,http:/www.expasy.org/tools/,27,专业课堂,28,专业课堂,UniProt,2002年在NIH资助下将PIR、Swiss-Prot和TrEMBL合并为UniProt(Universal Protein Resource) 具有全世界最全面的蛋白质分类信息 包含三个子库 UniProtKB(UniProt Knowledgebase) UniRef(UniProt Reference

9、Clusters) UniParc(Uniprot Archive) http:/www.uniprot.org,29,专业课堂,30,专业课堂,UniProtKB,UniProt Knowledgebase(UniProtKB): Release 15.4 , 16-Jun-2009 ,包括: Swiss-Prot Release 57.4 : 497293 entries TrEMBL Release 40.4 : 9145906 entries 包含蛋白质序列全面的信息,提供准确、丰富的序列与功能注释。 记录以6位字母和数字组成,例:Q5K8D3,31,专业课堂,32,专业课堂,Swis

10、s-Prot Release 57.4,33,专业课堂,34,专业课堂,TrEMBL Release 40.4,35,专业课堂,UniRef,UniProt Refefence Clusters (UniRef) 通过CD-HIT算法把非常相似的序列聚类 根据序列Identity=100%,Identity90%, Identity50%进行聚类合并,形成UniRef100、UniRef90和UniRef50三个子库,加速同源搜索。 记录以UniRefXX开头加UniProtKB的Accession表示,例:UniRef90_O70405,36,专业课堂,UniParc,UniProt Arc

11、hive (UniParc) 存储所有公共数据库中有效的蛋白质序列数据,包括序列的来源及来源数据库的链接。 记录所有蛋白质的当前状态和历史信息 记录以UPI开头,例:UPI000005E9D0,37,专业课堂,三. 蛋白质结构数据库,38,专业课堂,PDB网址:http:/www.rcsb.org/pdb(美国),(1)PDB (Protein Data Bank) http:/www.rcsb.org,由 Brookhaven National Laboratories 创办,蛋白质 核酸 其它,57,706 个结构图(2009.5.20),39,专业课堂,40,专业课堂,41,专业课堂,4

12、2,专业课堂,wwPDB,2003年,PDB(RCSB),MSD-EBI(EBI),PDBj(Japan)组建了全球范围的PDB库(worldwide PDB,wwPDB) 数据共享,统一数据格式 数据集中存储,尚未提供数据检索服务 http:/www.wwpdb.org/,43,专业课堂,44,专业课堂,显示分子结构(RasMol , ChemView ),45,专业课堂,四. 基因组数据库,46,专业课堂,基因组数据库,收集某些生物整个基因组序列的数据库 基因组计划 Human Genome Project http:/www.sanger.ac.uk/HGP/ C. elegans Pr

13、oject http:/www.sanger.ac.uk/Projects/C_elegans/ 从GenBank中选择同一物种的核酸信息组成的二级库,47,专业课堂,部分生物基因组计划网址 老鼠(Mouse) http:/www.informatics.jax.org/mgd.html 小鼠(Rat) http:/ratmap.gen.gu.se 狗(Dog) http:/mendel.berkeley.edu/dog.html 牛(Cow) http:/locus.jouy.inra.fr/cgi-bin/bovmap/intro2.pl 猪(Pig) http:/www.ri.bbsrc

14、.ac.uk/pigmap/pigbase/pigbase.html 羊(Sheep) http:/dirk.invermay.cri.nz 鸡(Chicken) http:/www.ri.bbsrc.ac.uk/chickmap/chickbase/manager.html 斑马鱼(Zebra fish) http:/zfish.uoregon.edu 线虫(C. elegans) http:/www.ddbj.nig.ac.jp/htmls/celegans/html/CE_INDEX.html 果蝇(Drosophila) http:/morgan.harvard.edu 蚊子(Mosq

15、uito) http:/klab.agsci.colostate.edu 拟南芥(Arabidopsis) http:/genome-www.stanford.edu/Arabidopsis 棉花(Cotton) http:/algodon.tamu.edu 玉米(Maize) http:/www.agron.missouri.edu 水稻(Rice) http:/www.staff.or.jp 大豆(Soya) http:/mendel.agron.iastate.edu:8000/main.html 树(Trees) http:/s27w007.pswfs.gov,48,专业课堂,二级数据

16、库简介,二级数据库的形式:大多以web界面为基础,具有文字信息、表格、图形、图表等方式显示数据库内容; 一级数据库与二级数据库之间并无明确的界限。 (例如:GDB、AceDB、SCOP、CATH等都已经具有二级数据库的特色),49,专业课堂,E. coli基因组数据库Colibri 德国Pastear研究所建立。 除具有浏览、检索、搜寻功能外,还对环状基因组实现可视化。 网址: TransFac (真核生物基因转录调控因子数据库) 德国生物工程研究所开发维护,始建于1988年。 包括顺式调控位点、基因、转录因子、细胞来源、分类和调控位点核苷酸分布6个子库。 TransFac的网址:,A) 基因

17、组信息二级数据库,50,专业课堂,ColiBri网址:,51,专业课堂,TransFac网址:,52,专业课堂,Prosite (蛋白质序列功能位点数据库) 始建于1990年代初,由瑞典生物信息学研究所SIB负责维护。 基于对蛋白质家族中同源序列多重序列比对得到的保守区域,这些区域通常与生物学功能相关。 数据库包括两个数据库文件:数据文件Prosite;说明文件PrositeDoc。,B) 蛋白质序列二级数据库,Prosite网址:http:/cn.expasy.org/prosite,53,专业课堂,54,专业课堂,DSSP (Definition of Secondary Structur

18、e of Proteins) 蛋白质二级结构构象参数数据库 DSSP的网址:http:/www.cmbi.kun.nl/gv/dssp/ FSSP (Families of Structural Similar Proteins) 蛋白质家族数据库 FSSP的网址:http:/www2.embl-ebi.ac.uk/dall/fssp/ HSSP(Homology Derived Secondary Structure of Proteins) 同源蛋白质数据库 HSSP的网址: http:/www.cmbi.kun.nl/gv/hssp/,C) 蛋白质结构二级数据库,55,专业课堂,其他数据

19、库,56,专业课堂,酶和代谢数据库,(1)KEGG (Kyoto Encyclopedia of Genes and Genomes),各种代谢、遗传等路径图 可检索参于各种路径的基因,KEGG主页http:/www.genome.ad.jp/kegg/点击“KEGG PATHWAY”,“PATHWAY”网页点击任何代谢路径(Metabolism),如糖酵解/糖原异生途径(Glycolysis/Gluconeogenesis),检索Metabolism(1),57,专业课堂,检索Genetic Information Processing(2),KEGG主页点击“KEGG PATHWAY”,“

20、PATHWAY”网页点击任何遗传信息(Genetic Information Processing)路径,如 Protein export 路径,可以查看参加这一路径蛋白质的信息,58,专业课堂,检索Environmental Information Processing(3),KEGG主页点击“KEGG PATHWAY”,“PATHWAY”网页点击任何Environmental Information Processing 路径,如 MAPK signaling pathway 路径,可以查看与这一路径相连的其它信号路径或参加这一路径的蛋白质信息,59,专业课堂,检索Celluar Proc

21、esses(4),KEGG主页点击“KEGG PATHWAY”,“PATHWAY”网页点击任何Cellular Processes 路径,如 Cell cycle 路径,可以查看与这一路径相连的其它信号路径或参加这一路径的蛋白质信息,60,专业课堂,数据库格式简介,历史原因:没有完全统一的数据库格式; 了解所用数据库格式的重要性 一般由两部分组成: 文字注释 内容(序列,),61,专业课堂,一个数据库记录(entry)一般由两部分组成: 1. 原始序列数据(sequence data) 2. 描述这些数据生物学信息的注释(annotation) 注释中包含的信息与相应的序列数据同样重要和有应用

22、价值,数据的完整性和注释工作量: 1. 序列数据广,序列注释不够完整 2. 库数据面窄,序列注释全面,数据库的动态更新: 1. 不断增加 2. 不断修正,62,专业课堂,序列数据的文件格式,1. DNA/RNA/氨基酸代码的标识 2. GenBank数据格式 3. UniProt 4. FASTA,63,专业课堂,DNA代码,64,专业课堂,氨基酸代码,65,专业课堂,GenBank数据格式 (1),子库类型,GenInfo Identifier,66,专业课堂,GenBank数据格式 (2),67,专业课堂,GenBank数据格式 (3),68,专业课堂,GenBank子库类型,69,专业课

23、堂,EMBL和GenBank数据库的行识别标志比较,70,专业课堂,FASTA格式,71,专业课堂,关键词,检索体系,如何获得序列数据,72,专业课堂,在线获取序列( entrez),Entrez是基于Web界面的综合生物信息数据库检索系统。 http:/www.ncbi.nlm.nih.gov/entrez 利用Entrez系统,用户不仅可以方便地检索Genbank的核酸数据,还可以检索来自Genbank和其它数据库的蛋白质序列数据、基因组图谱数据、来自分子模型数据库(MMDB)的蛋白质三维结构数据、种群序列数据集、以及由PubMed获得Medline的文献数据。,73,专业课堂,8大类44

24、个与 Entreze 体系相连的数据库,“Nucleotide Sequences” databases (15) “Protein Sequences” databses (4) “Structures” databases (5) “Genes” databases (4) “Gene Expression” databases (4) “Taxonomy” databases (2) “Genomes” databases (6) “Literature” databases (4),74,专业课堂,Entrez的特点,Entrez是面向生物学家的数据库查询系统,其特点之一是使用十分方便

25、。它把序列、结构、文献、基因组、系统分类等不同类型的数据库有机的结合在一起,通过超文本链接,用户可以从一个数据库直接转入另外一个数据库 Entrez的另一个特点是把数据库和应用程序结合在一起。例如,通过“Related sequence”工具,可以直接找到与查询所得蛋白质序列同源的其它蛋白质。查询得到的蛋白质三维结构,可以通过在用户计算机上安装的Cn3D软件直接显示分子图形。 Entrez系统的开发基于特殊的数据模型NCBI ANS.1 (Abstract Syntax Notation),在对于文献摘要中的关键字查询时,不仅考虑了查询对象和数据库中单词的实际匹配,而且考虑了意义相近的匹配。在

26、查询文献数据库摘要得到结果后,可以通过点击“Related Articles”继续查找相关文献。,75,专业课堂,向数据库提交和修改核苷酸和蛋白质序列,提交:Submission 修改:Update,数据库中的数据由大家无偿提供,共同享用,76,专业课堂,http:/www.ncbi.nlm.nih.gov/Genbank/index.html,Authors,Sequin,BankIt,Sequence data,GenBank,Accession number,2 days,Draft record,序列提交,77,专业课堂,序列提交工具(sequin),大量的序列提交可以由Sequin程序完成。Sequin程序能方便的编辑和处理复杂注释,并包含一系列内建的检查函数来提高序列的质量保证。它还被设计用于提交来自系统进化、种群和突变研究的序列,可以加入比对的数据。Sequin除了用于编辑和修改序列数据记录,还可以用于序列的分析,任何以FASTA或ASN.1格式序列为输入数据的序列分析程序都可以整合到Sequin程序下。 在不同操作系统下运行的Sequin程序都可以在ftp:/ncbi.nlm.nih.gov/sequin/下找到, Sequin的使用说明可详见其网页。 http:/www.ncbi.nih.gov/Sequin/index.html,78,专业课堂,

展开阅读全文
相关资源
猜你喜欢
相关搜索

当前位置:首页 > 社会民生


经营许可证编号:宁ICP备18001539号-1