数据搜索时有用的生物大分子数据库.doc

上传人:本田雅阁 文档编号:2741815 上传时间:2019-05-10 格式:DOC 页数:52 大小:3.32MB
返回 下载 相关 举报
数据搜索时有用的生物大分子数据库.doc_第1页
第1页 / 共52页
数据搜索时有用的生物大分子数据库.doc_第2页
第2页 / 共52页
数据搜索时有用的生物大分子数据库.doc_第3页
第3页 / 共52页
数据搜索时有用的生物大分子数据库.doc_第4页
第4页 / 共52页
数据搜索时有用的生物大分子数据库.doc_第5页
第5页 / 共52页
点击查看更多>>
资源描述

《数据搜索时有用的生物大分子数据库.doc》由会员分享,可在线阅读,更多相关《数据搜索时有用的生物大分子数据库.doc(52页珍藏版)》请在三一文库上搜索。

1、生物大分子数据库扫描根据“Nucleic Acids Research”最新(指2007年)公布的数据,目前已有968个有关生物大分子数据库(参见文献 Galperin M Y, The Molecular Biology Database Collection, 2007, 35: D3)。有兴趣的读者可以参阅网站“http:/www.oxfordjournals.org/nar/database/a”。我们这里将主要类型的数据库列于表4-2。数据库类别代表数据库名及应用核苷酸序列数据库国际苷酸序列数据库集DDBJ:所有已知的核苷酸序列与蛋白质序列EMBL:所有已知的核苷酸序列与蛋白质序列G

2、enBank:所有已知的核苷酸序列与蛋白质序列DNA序列:基因,保守序列模式及调控位点有关代码DNA序列ACLAME:基因移动因子分类数据库CUTG:Genbank数据库中的代码应用分类数据库HERVd:人类内源性逆转录病毒数据库NPRD:核小体定位区间数据库TIGR Gene Indices:基因序列与组织专一化数据库VectorDB:核酸向特征及分类数据库基因结构,内含子,外显子ASD:选择性剪切数据库EASED:扩展选择性剪切EST数据库HS3D:现代人剪切位点数据库Splice DB:典型与非典型的哺乳动物剪切位点数据库转录调节位点与转录因子ACTIVITY:功能DNA/RNA位点数据

3、库DBTBS:枯草杆菌起动与转录因子数据库EPD:真核起动子数据库JASPAR:转录因子DNA结合位点位置专一化得分矩阵TESS:转录子搜索系统TRED:转录调控元素数据库TRANSFAC:转录因子和连接位点数据库RNA序列数据库16S与23S rRNA Mutation Database:16S与23S核糖体RNA突变数据库ARED:mRNA中AU丰富数据库NCIR:RNA结构中非典型相互作用数据库tmRDB:tmRNA数据库Rfam:非代码RNA家族数据库蛋白质序列数据库综合数据库EXProt:被实验证实功能的蛋白质序列数据库PA-GOSUB:根据模型器官,GO数据库确认及亚细胞定位的蛋白

4、质序列数据库Swiss-Prot:蛋白质序列数据库TrEMBL:应用计算机注释与翻译EMBL数据库UniProt:所有蛋白质序列累积数据库蛋白质性质数据库AAindex:氨基酸理化性质数据库ProNIT:蛋白质与核酸相互作用热动力学数据库ProTherm:天然型与突变型蛋白质热动力学数据库TECRdb:酶催化反应热动力学数据库蛋白质定位与靶向数据库(Protein localization and targeting)DDSubLoc:蛋白质在亚细胞单元定位数据库NESbase:核输出信号数据库NLSdb:核定位信号数据库NMPdb:核基质联合蛋白质数据库NOPdb:核仁蛋白质组数据库PSOR

5、Tdb:细菌中蛋白质在亚细胞单元中定位数据库SPD:分泌蛋白质数据库THGS:基因组序列中跨膜螺旋蛋白质数据库TMPDB:由实验确定的跨膜蛋白拓扑数据库蛋白质保守序列模式及活性位点数据库ASC:活性序列集合:生物活性肽数据库BLOCKS:蛋白质家族中保守区间比对数据库CSA:催化位点图谱,已知三维结构的酶的活性位点及催化位点数据库COMe:生物有机蛋白分类数据库CopS:综合肽信号数据库eBLOCKS:高度保守蛋白质序列块eMOTIF:蛋白质保守序列模式的确定与搜索Metalloprotein Site Database:金属蛋白中金属连接位点数据库O-GlyBase:蛋白质中用O和C连接的糖

6、基化位点数据库PDBsite:蛋白质三维结构功能位点数据库PROSITE:生物学显著的蛋白质模式与突变谱数据库蛋白质功能区域;蛋白质分类数据库ADDA:蛋白质功能区域分类数据库CDD:保守功能区域数据库:主要来自于Pfam,SMART,COG和KOG数据库CluSTr:Swiss-Prot+TrEMBL蛋白聚类数据库FunShift:在同一个蛋白质功能的家族的子家族之间功能异化数据库PRINTS:启发式基因家族指纹谱数据库Pfam:蛋白质家族数据库:根据多重序列比对和突变谱HMM构建ProtoMap:将Swiss-Prot依不同层次分类的数据库S4:SCOP超级家族中基于结构的序列比对数据库单

7、个蛋白质家族数据库AARSDB:酰氨转移-tRNA合成酶数据库ASPD:人工选择的蛋白质/肽数据库Bac Tregulators:AraC和TetR家族转录调节子数据库CSDBase:冷休克蛋白功能区阈数据库GPCRDB:G蛋白偶联受体数据库Histone Database:组蛋白折叠序列与结构数据库ProLysED:细菌蛋白酶数据库TrSDB:转录因子数据库结构数据库小分子数据库ChEBI:对生物有反应的化学条目AANT:氨基酸与核苷相互作用数据库碳水化合物数据库CCSD:复合碳水化合物结构数据库GlycoSuiteDB:N-和O-多糖结构与生物资源数据库核酸结构数据库NDB:核酸包含结构数

8、据库NTDB:核酸热动力学数据库RNABase:由PDB和NDB中包括RNA的结构数据库SCOR:RNA结构分类数据库,有关RNA结构,保守序列模式,功能及三级结构相互作用有关蛋白质结构方面的数据库ArchDB:蛋白质环结构自动分类数据库ASTRAL:已知结构的功能区,被选出的子集和序列结构相关的序列数据库BAliBASE:多重序列比对比较的数据库BioMagReBank:蛋白质与核酸的NMR光谱数据库CADB:蛋白质数据库的构象角数据库CATH:蛋白质功能区域自动分类数据库CE:蛋白质三级结构比对数据库CKAAPsDB:序列不相似但结构相似的蛋白质数据库Dali:应用Dali搜索引擎得到的蛋

9、白质折叠分类数据库Decoys R Us:由计算机产生构象的数据库DsiProt:蛋白质无序结构数据库DomIns:已知蛋白质结构功能区阈插入数据库eF-site:功能位点静电表面数据库:蛋白质活性位点的静电势与疏水性GenDis:蛋白质结构超级家族基因组分布数据库GTOP:根据基因组序列预测蛋白质折叠数据库HOMSTRAD:同源结构比对数据库MolMovDB:生物大分子运动数据库,主要描述蛋白质及生物大分子运动LPFC:蛋白质核结构家族库PDB:蛋白质结构数据库,搜集了所有蛋白质及核酸结构的数据库PDBsum:对PDB结构总结分析数据库PDB_TM:已知三级结构的跨膜蛋白数据库Protein

10、Folding Database:蛋白质折叠实验数据库SCOP:由专家参预的蛋白质结构分类数据库Sloop:蛋白质环分类数据库Structure Superposition Database:TIM桶状结构的配对叠合数据库基因组数据库基因注释项,规范描述及相关术语有关常用命名方面的数据库Genew:人类基因命名GO:基因功能的规范描术数据库GOA:有关EBI的基因功能的规范描述数据库IUBMB Nomenclature数据库:有关酶,跨膜转移,电子转移蛋白及其它蛋白命名。IUPAC Nomenclature数据库:由IUBMB与IUPAC联合委员会通过的生化与有机小分子的命名IUPHAR-RD

11、:国际药学联合会推荐的有关受体命名和药物分类数据库分类与鉴定数据库细菌鉴定与分类的gyrB数据库综合基因数据库COG:蛋白质直系同源组聚类数据库COGENT:完全基因组跟踪数据库,根据完全基因序列预测肽DEG:细菌与酵母必须基因数据库FusionDB:细菌与古菌基因剪切(融合)事件数据库Genome Atlas:序列基因组的DNA结构性质数据库GOLD:基因组在线数据库Integr8:全基因组蛋白质功能分类数据库KEGG:基因与基因组京都百科全书,有关基因,蛋白质及代谢路径整合组数据库TransportDB:根据TC分类系统预测全基因组中的跨膜转运数据库WIT3:有关微生物全序列基因组代谢重建

12、数据库生物种类专一化数据库细菌类HCVDB:肝炎C型病毒数据库HIV Drug Resistance数据库:具有抗药性能的HIV突变数据库HIV Molecular Immunology数据库:HIV抗原决定基数据库HIV RT and Protease Sequence数据库:HIV逆转录酶及蛋白质酶序列数据库VIDA:同源病毒蛋白家族数据库VirOligo:有关PCR及其杂化的病毒专一化寡聚核苷酸数据库原核生物类总述BacMap:注释细菌基因组图谱数据库MetaGrowh:细菌病原体生长要求数据库PGTdb:原核生物生长温度数据库大肠杆菌类(Escherichia coli)ASAP:对大

13、肠杆菌及其相关基因组系统注释包裹CyberCell数据库:有关E.coli K12的应用数学模型模拟的数据库集合coliBase:有大肠杆菌,沙门氏菌属及志贺氏杆菌的数据库PEC:有关大肠杆菌染色体图谱RegulonDB:大肠杆菌中转录调节及操纵组织数据库枯草杆菌类BSORF:京都大学枯草杆菌基因组数据库NUSub:里昂大学非冗枯草杆菌数据库SubtiList:巴斯德研究院枯草杆菌基因组数据库其它细菌类BioCyc:多种细菌路径及基因组数据库CampyDB:弯曲杆菌属基因组分析数据库ClostriDB:梭菌属完成的与未完成的基因组数据库Virulence Factors:有关微生物毒性因子数据

14、库单细胞真核生物ApiEST-DB:从各种各样Apicomplexan寄生虫获得的EST序列CryptoDB:有关Cryptosporidium parvum基因组数据库ToxoDB:鼠弓形体基因组数据库真菌类酵母菌类AGD:Ashbya棉花基因组数据库CandidaDB:加拿乳头状体基因组数据库CYGD:MIPS综合酵母基因组数据库SCPD:酿酒酵母起动子数据库其它真菌类CADRE:中心化曲霉菌数据集MNCDB:MIPS粗糙链孢霉数据库无脊椎动物克氏病Intronerator:C.elegans和C. briggsae内含子和剪切数据库RNAiDB:克氏病基因表型的RNAi表型分析WILMA

15、:克氏病注释数据库WorfDB:克氏病ORF组数据库黄猩猩果蝇(Drosophila melanogaster)FlyBase:果蝇序列与基因组信息FlyBrain:果蝇神经系统数据库DPDB:果蝇多聚态数据库其它无脊椎动物AppaDB:线虫Pristionchus pacificus数据库BeetleBase:甲虫Tribolium castaneum基因组数据库CnidBase:刺胞动物进化和基因表达数据库PPNEMA:植物寄生线虫rRNA数据库代谢酶和路径;信号路径数据库酶与酶命名数据库BRENDA:酶名称与生物化学性质数据库ENZYME:酶命名与性质数据库Enzyme Nomencla

16、ture:IUBMB命名委员会推荐数据库IntEnz:整合酶数据库与酶命名PDBrtf:PDB中酶的目标家族代表数据库SCOPEC:功能区阈催化功能图谱数据库代谢路径数据库BioSilico:各类代谢数据库整合KEGG 路径:全基因组代谢与调节路径数据库MetaCyc:各种生物体代谢路径与酶数据库分子间相互作用和信号路径数据库3DID:已知三维结构的蛋白质功能区阈与功能区阈相互作用蛋白质aMAZE:生物化学与信号路径网络的注释,管理与分析系统BIND:生物分子相互作用网络数据库BioCarta:代谢与信号路径在线图DIP:蛋白质相互作用数据库DRC:核糖体交互链接数据库POINT:人类蛋白质蛋

17、白质相互作用组数据库STCDB:信号转导分类数据库人类与其它脊椎动物基因组模型生物与比较基因组数据库AllGene:人类和小鼠基因,转录及蛋白质注释数据库DED:进化距离数据库FANTOM:小鼠全长cDNA克隆功能注释数据库GALA:基因组比对,注释与实验结果数据库IPI:人类,大鼠,小鼠蛋白的非冗余集国际蛋白索引数据库Polymorphix:序列多聚表型数据库Rat Genome数据库:大鼠遗传与基因组数据库TAED:自适应进化数据库VEGA:脊椎动物基因组数据人类基因组数据库,图谱及阅读器AluGene:人类基因组完全运算图GroW 21:人类21号染色体数据库GDB:人类基因与基因组图数

18、据库GeneLoc:基因定位数据库HOWDY:人类组织全基因组数据库IXDB:人类X染色体物理图Map Viewer:应用染色体位置基因组信息展示图TRBase:人类基因组串联重复数据库人类蛋白H-InvDB:全长人类cDNA克隆数据库HPMR:人类血浆膜受体数据库,包括序列,文献及表达数据库HPRD:人类蛋白参考标准数据库,包括功能区域构建,翻译后修饰及其相关疾病LIFEdb:人类蛋白质的定位,相互作用和功能数据库人类基因与疾病数据库综合数据库DG-CST:疾病基因保守序列标签数据库PMD:蛋白质突变编译数据库SOURCE:人类,小鼠与大鼠的功能基因组资源数据库ORFDB:由Invitrog

19、en销售的ORF人类突变数据库综合多形态数据库ALFRED:等位基因频率与DNA多型态数据库BayGenomics:与冠心病和肺部相关基因数据库Cypriot national mutation database:塞浦路斯人群疾病突变数据库dbQSNP:SNP等位基因频率定量数据库FESD:功能性SNP数据库,包括在人类基因的起动子,UTRs上的SNPHGVS数据库:人类突变编辑数据库IPD:免疫多聚形态数据库JSNP:日本SNP数据库rSNPs Guide:调节基因区间SNPTopoSNP:非同义SNPs的拓朴数据库癌症Atlas of Genetics and Cytogenetic in

20、 Oncology and Haematology:在肿瘤,血液及有癌症倾向疾病的癌症相关基因,染色体异常的数据库CGED:癌症基因表达数据库Germline p53 mutations:在人类肿瘤和细胞线p53基因的突变数据库MTB:小鼠肿瘤生物学数据库:包括肿瘤类型,基因,分类,发生率及病理学有关基因,系统或疾病专一性数据库ALPSbase:自体免疫淋巴组织增生综合症数据库BTKbase:X-链接血中丙球蛋白贫乏突变记录数据库CASRDB:钙敏感受体数据库ERGDB:雌激素响应基因数据库PGDB:前列腺及前列腺疾病基因数据库SCAdb:脊髓与小脑共济失调数据库微阵列数据与其它基因表达数据库

21、5SAGE:5末端基因表达系列分析数据库ArrayExpress:公共搜集微阵列基因表达数据库BGED:脑基因表达数据库GEO:基因表达公共站数据库,主要是搜集基因表达谱方面的数据GermOnline:有丝分裂与减数分裂细胞周期中基因表达数据库GXD:小鼠基因表达数据库MethDB:DNA甲基化数据,模式及图谱数据库蛋白质组资源数据库2D-PAGE:微生物研究中蛋白组数据库系统DynaProt 2D:Lactococcus lactis 蛋白质组数据库Open Proteomics Database:人类,酵母,大肠杆菌和分枝杆菌基于质谱的蛋白质组数据库PEP:全蛋白质预测数据库,蛋白质序列在

22、翻译前,翻译中及翻译后蛋白质修饰数据库RESID: 翻译前,翻译中及翻译后蛋白质修饰数据库其它分子生物学数据库药物与药物设计数据库ANTIMIC:自然抗微生物药物肽数据库AOBase:反义寡聚核苷酸选择与设计APD:抗微生物肽数据库DART:药物不良反应靶点数据库TTD:治疗靶点数据库有关探针方面的数据库IMGT/PRIMER-DB:免疫遗传寡聚核苷酸引物数据库PrimerPCR:真核与原核基因的PCR引物数据库QPPD:人与小鼠定量PCR引物数据库RTPrimerDB:实时PCR引物和探针序列数据库未分类数据库BioImage:多维生物图像数据库细胞器数据库综合数据库OGRe:细胞器基因组修

23、复系统Organelle DB:细胞器蛋白与亚细胞结构数据库线粒体基因与蛋白方面的数据库AMPDB:阿布属线粒体蛋白的数据库HMPD:人类线粒体蛋白数据库Mitochondrome:多细胞动物线粒体基因数据库MitoDrome:果蝇核解码线粒体数据库MITOP2:线粒体蛋白,基因,疾病数据库MPLMP:植物线粒体蛋白输入机器数据库PLMtRNA:植物线粒体tRNA数据库植物数据库植物综合数据库BarleyBase:植物基因组表达图谱数据库CR-EST:大麦,豌豆,小麦及土豆数据库CroNet:农作物基因组图谱数据库FLAGdb+:有关植物基因组综合数据库Mendel:已注释的植物ESTs和ST

24、Ss数据库拟南芥AGNS:拟南芥基因网增补数据库,包括基因表达,转基因与突变形态AGRIS:阿布属基因调节信息服务器:包括起动子,转录因子及其目标基因方面的数据库CATMA:完全阿布属转录组微阵列数据库MAtDB:MIPS拟芥南数据库TAIR:阿布属信息资源数据库水稻BGI-RISe:北京基因组研究院水稻信息系统INE:整合水稻基因组浏览器IRIS:国际水稻信息系统RAD:水稻注释数据库RiceGAAS:水稻基因组自动注释系统Rice proteome database:水稻蛋白质组数据库其它植物MaizeGDB:玉米遗传与基因组数据库SGMD:大豆基因组与微阵列数据库免疫学数据库BCIpep

25、:B-细胞抗原决定基数据库dbMHC:人类MHC遗传与临床数据库FIMM:功能分子免疫学数据库IMGT:国际免疫学信息系统,包括免疫球蛋白,T细胞受体,MHC和RPIIMGT/Gene-DB:脊椎动物免疫球蛋白与T细胞受体数据库MHCBN:MHC连接与非连接肽数据库MHCPEP:MHC连接肽数据库MPID:MHC肽相互作用数据库VBASE2:人与小鼠Ig定位可变基因数据库那么SwissProt数据库主要内容及格式是什么呢?我们这里作一个比较详细的介绍。下面这段是一个完整的SwissProt条目,现解释如下:ID 104K_THEPA STANDARD; PRT; 924 AA.AC P1571

26、1;DT 01-APR-1990 (Rel. 14, Created)DT 01-APR-1990 (Rel. 14, Last sequence update)DT 01-AUG-1992 (Rel. 23, Last annotation update)DE 104 kDa microneme-rhoptry antigen.OS Theileria parva.OC Eukaryota; Alveolata; Apicomplexa; Piroplasmida; Theileriidae;OC Theileria.OX NCBI_TaxID=5875;RN 1RP NUCLEOTIDE

27、SEQUENCE.RC STRAIN=Muguga;RX MEDLINE=90158697; PubMed=1689460; DOI=10.1016/0166-6851(90)90007-9;RA Iams K.P., Young J.R., Nene V., Desai J., Webster P., Ole-Moiyoi O.K.,RA Musoke A.J.;RT Characterisation of the gene encoding a 104-kilodalton microneme-RT rhoptry protein of Theileria parva.;RL Mol. B

28、iochem. Parasitol. 39:47-60(1990).CC -!- SUBCELLULAR LOCATION: In microneme/rhoptry complexes.CC -!- DEVELOPMENTAL STAGE: Sporozoite antigen.CC -CC This Swiss-Prot entry is copyright. It is produced through a collaborationuniprot_sprot.datCC the European Bioinformatics Institute. There are no restri

29、ctions on itsCC use as long as its content is in no way modified and this statement is notCC removed.CC -DR EMBL; M29954; AAA18217.1; -.DR PIR; A44945; A44945.KW Antigen; Repeat; Sporozoite.FT DOMAIN 1 19 Hydrophobic.FT DOMAIN 905 924 Hydrophobic.SQ SEQUENCE 924 AA; 103626 MW; 289B4B554A61870E CRC64

30、; MKFLILLFNI LCLFPVLAAD NHGVGPQGAS GVDPITFDIN SNQTGPAFLT AVEMAGVKYL QVQHGSNVNI HRLVEGNVVI WENASTPLYT GAIVTNNDGP YMAYVEVLGD PNLQFFIKSG DAWVTLSEHE YLAKLQEIRQ AVHIESVFSL NMAFQLENNK YEVETHAKNG ANMVTFIPRN GHICKMVYHK NVRIYKATGN DTVTSVVGFF RGLRLLLINV FSIDDNGMMS NRYFQHVDDK YVPISQKNYE TGIVKLKDYK HAYHPVDLDI K

31、DIDYTMFHL ADATYHEPCF KIIPNTGFCI TKLFDGDQVL YESFNPLIHC INEVHIYDRN NGSIICLHLN YSPPSYKAYL VLKDTGWEAT THPLLEEKIE ELQDQRACEL DVNFISDKDL YVAALTNADL NYTMVTPRPH RDVIRVSDGS EVLWYYEGLD NFLVCAWIYV SDGVASLVHL RIKDRIPANN DIYVLKGDLY WTRITKIQFT QEIKRLVKKS KKKLAPITEE DSDKHDEPPE GPGASGLPPK APGDKEGSEG HKGPSKGSDS SKEG

32、KKPGSG KKPGPAREHK PSKIPTLSKK PSGPKDPKHP RDPKEPRKSK SPRTASPTRR PSPKLPQLSK LPKSTSPRSP PPPTRPSSPE RPEGTKIIKT SKPPSPKPPF DPSFKEKFYD DYSKAASRSK ETKTTVVLDE SFESILKETL PETPGTPFTT PRPVPPKRPR TPESPFEPPK DPDSPSTSPS EFFTPPESKR TRFHETPADT PLPDVTAELF KEPDVTAETK SPDEAMKRPR SPSEYEDTSP GDYPSLPMKR HRLERLRLTT TEMETDP

33、GRM AKDASGKPVK LKRSKSFDDL TTVELAPEPK ASRIVVDDEG TEADDEETHP PEERQKTEVR RRRPPKKPSK SPRPSKPKKP KKPDSAYIPS ILAILVVSLI VGIL/ID 是指其身份号,924 AA是指有该序列有924个氨基酸残基AC 获取号;DT 序列测得的时间DE 对该序列必要的信息的说明,如该分子的分子量为104 kDa .OS 来源 OX NCBI分类身份号RN 1RP NUCLEOTIDE SEQUENCE.RC STRAIN=Muguga;RX 有关Medline的出版号RA 作者RT 引用文献题目RL 杂志名

34、称,出版日期,卷期页CC 有关它的功能描述及其它相关信息方面的描述DR EMBL数据库中的获取号DR PIR数据库中的获取号KW 关键词FT 功能区的描述SQ 有关序列方面的信息,这部分是最主要的,因为该蛋白质的序列就列在下面。/ 表明这个条目结束。通过对上面这段的分析,读者可以知道Swiss-Prot数据库基本框架及所蕴含的生物信息学内容。同时,人们也可在需要Swiss-Proto数据库时根据其格式编制出相应的计算机程序。这一点其实对生物信息学工作者非常重要,因为一个生物信息学分析方法首先要得到正确的数据,而正确的数据则必须以相应数据库格式为基准。有关该数据库用户可在“http:/www.e

35、xpasy.org/”上获取。二、PDB数据库的基本格式我们在前面曾经说过,当一个数据库的格式与内容都知道了后,说明对这个数据库的知识已有初步的掌握。同前面一样,我们现在详细介绍PDB数据库的格式。由于蛋白质结构涉及到蛋白质中每个原子的坐标,二级结构,一个蛋白质结构所占的容量是比较大的,因此它不可能象Swiss-Prot数据库那样将所有蛋白质序列放在一个文件中,而是一个蛋白质一个文件。因此,到目前为止,PDB数据库应有41952个文件,这样就涉及到其文件名的问题,PDB数据库的文件如图4-10所示:图4-10 PDB数据库中的文件名格式下面是一个典型的PDB数据库格式的描述:PDB中所的分子空

36、间结构信息文件的格式基本上都是一样的。文件由若干记录组成,每一记录有80个字符(包括空格)。开头的6个字符标明该记录的名称,现将各记录的意义分别叙述如下:HEADER-该记录列出分子所属功能类,正式收入PDB日期以及该分子的判别码OBSLTE-该记录列出已被新分子文件取代的一些旧的分子的有关信息。COMPND-该记录出分子名SOURCE-该记录说明分子来源AUTHOR-该记录列出提供座标者的姓名REVDAT-该记录列出文件历次修改的日期等有关信息SPRSDE-该记录列说明此文件取代旧文件的有关信息JRNL-该记录引用与确定该分子空间结构有关的主要文献REMARK-该记录为关于该分子文件的其它信

37、息。其中:REMARK1专用于列出与该结构有关的其它文献,REMARK2和REMARK3分别是关于晶体结构的分辨率及精华的信息SEQRES-列出蛋白质一级结构HET-列出非标准基团或残基的信息(主要是指除标准20个氨基酸残基以外的基团信息。具体格式如下:1-3列是“HET”;8-10列是非标准基团表示符;13列是链表示符号;14-17顺序号;18列是插入码;21-25列是非标准基团中的原子数目;31-70为注释HELIX-列出分子中有关螺旋的信息。1-6列是“HELIX”; 8-10列是顺序号; 12-14螺旋表示符;16-18 残基名;20链表示符;22-25残基序号;26 插入码;28-3

38、0残基名;32链表示符;34-37残基序号;38插入码;39-40螺旋类别;41-70注释。 SHEET-列出分子中有关折叠的信息,其格式如下:1-5列为SHEET;8-10股号;12-14折叠表示符;15-16股数;18-20残基名;22链表示符;23-26残基序列号;27插入码;29-31 残基名;33 链表示符;34-37残基序号;38 插入码;39-40类型判别码;42-45 原子名;46-48 残基名;50链表示符;51-54 残基序号;55插入码;57-60 原子名;61-63 残基名;65 链表示符;66-69残基序号;70插入码。TURN-列出分子中有转角(发夹结构)的信息;S

39、SBOND-残出分子中有关二硫键的信息;SITE-列出重要功能部位 1-4 SITE;8-10序号;12-14功能部位表示符;16-17组成功能部位的残基数;19-61 组成功能部位的四个残基的位置信息。当然如果某功能部位由四个以上残基组成,则可以增加SITE记录以包含全部残基的位置信息,但增加的记录其功能部位表示符(12-14列)就与原来记录一致。CRYST-该记录列出关于晶体结构的单晶胞参数及空间群标识;ORIGX-该记录列出将下交坐变换为用户送交坐标的参数;SCALE-由正交坐标变换为分数坐标的参数;MATRIX-列出代表非晶体学对称性的变化参数;TVECT-列出无限共价连接结构的变换向

40、量;ATOM-列出标准基团的各原子的坐标。这是PDB的核心。 其格式如下:1-4 ATOM;7-11 原子序列号; 13-16原子名; 18-20 残基名; 22 链表示符;23-26残基序列号;31-38 原子X座标; 39-46 原子的Y座标; 47-54 原子Z坐标;55-60占有率;61-66 温度因子。 SIGATM-列出原子参数的标准差; ANISOU-列出各向异性温度因子;SIGUIJ-列出各向异性温度因子的标准差; TER-列出链的末端残基。有时某个蛋白质结构因为某些原因会插入一些不是该蛋白质结构的氨基酸残基,其对应的原子就不是“ATOM”,而是“HETATM”,表明这些原子是

41、外来原子,不是蛋白质本身的。三 PDB数据库中有关蛋白质结构的获取我们前面说过,PDB网站为“www.rcsb.org”,那么如何通过这个网站获取你所要的蛋白质结构数据呢?有下列几条途径。第一种描述如下:1. 打开“www.rcsb.org”网站,可得如图4-11的界面,输入所需要的蛋白质代码如“1g0v”,然后点击“Site Search”按钮,得到如图4-12所示的界面;2. 点击图4-12左上面的“Download Files”,得到的界面的部分如图4-13所示。3. 点击图4-13中的“PDB File”就可以得到你所需要的PDB结构。这里在图4-13的右边有相应的蛋白质结构图。 第二

42、种主要是在Linux操作系统中可以比较方便的使用,具体命如下:$ wget q ftp:/ftp.rcsb.org/pub/pdb/data/structures/all/pdb/pdb1g0v.ent.Z通过这个命令可以到得蛋白质文件:pdb1g0v.ent.Z,然后解压缩即:$ gunzip pdb1g0v.ent.Z就可以得到文本文件的蛋白质结构文件。 第三种则是通过匿名用户登录“www.rcsb.org”网页,然后应用“get”命令下载你所要的文件。 通过上述方式,我们可以得到所需要的蛋白质结构。一 SCOP数据库的分类基本原则及其格式SCOP是由剑桥大学于1995年构建。其宗旨是将现

43、有的已知结构的蛋白质的功能区域按类,折叠方式,超级家族,家族进行逐层次地人工分类。具体如下:(1)家族( family): A. 所有蛋白质的相等残基数大于等于%30 B 低于%30但功能与结构非常相似(2)超级家族(superfamily): 源于一个共同的祖先(3)共同折叠方式(common fold): 相同的主要二级结构有相同的排列和连结方式(4)类: 同一类折叠方式构成一类SCOP数据库将现有的蛋白质分成11类,如表4-3所示:表4-3 SCOP数据库中蛋白质结构的分类符号意义符号意义a全螺旋g小蛋白类b全片断h无规卷曲类c/i低分辩蛋白类d+j肽类e多功能区域蛋白类k设计蛋白类f膜

44、蛋白类及细胞表面肽类SCOP数据库与PDB数据库的文件格式完全一致,如果有不同,那就是它将PDB数据库中一个蛋白质结构的文件根据其功能区域分别放在不同文件中存放。相应的文件名也与PDB数据库的文件名密切相关,下图以一个实际的例子来说明其意义:图4-14 SCOP文件名解析这里有一点必须说明,当蛋白质只有一条链(或链没有命名)时,则链名称以下划“_”来表示,如蛋白质“d1eut_1.b.1.18.2.pdb”。同样的,如果该链只有一个功能区域时,则对应的位置同样用下划线“_”来表示,如蛋白质“d1hhib_.b.1.1.2.pdb”。为使读者对上述各类别有一个感性的认识,我们这里举出6个蛋白质分别代表a,b

展开阅读全文
相关资源
猜你喜欢
相关搜索

当前位置:首页 > 其他


经营许可证编号:宁ICP备18001539号-1