利用生物信息学方法对基质细胞衍生因子(SDF)进行基因序列和蛋白质序列分析毕业.doc

上传人:本田雅阁 文档编号:2180954 上传时间:2019-02-26 格式:DOC 页数:45 大小:1.12MB
返回 下载 相关 举报
利用生物信息学方法对基质细胞衍生因子(SDF)进行基因序列和蛋白质序列分析毕业.doc_第1页
第1页 / 共45页
利用生物信息学方法对基质细胞衍生因子(SDF)进行基因序列和蛋白质序列分析毕业.doc_第2页
第2页 / 共45页
利用生物信息学方法对基质细胞衍生因子(SDF)进行基因序列和蛋白质序列分析毕业.doc_第3页
第3页 / 共45页
亲,该文档总共45页,到这儿已超出免费预览范围,如果喜欢就下载吧!
资源描述

《利用生物信息学方法对基质细胞衍生因子(SDF)进行基因序列和蛋白质序列分析毕业.doc》由会员分享,可在线阅读,更多相关《利用生物信息学方法对基质细胞衍生因子(SDF)进行基因序列和蛋白质序列分析毕业.doc(45页珍藏版)》请在三一文库上搜索。

1、南华大学生命科学与技术学院毕业论文前 言动 动脉粥样硬化(Atherosclerosis,As)是由多因素所致的血管炎症性疾病,其病变特点之一是动脉粥样硬化斑块部位有炎症细胞的浸润,巨噬细胞源性泡沫细胞是动脉粥样硬化早期的重要事件。实验报道,动脉粥样硬化病变部位的趋化因子较正常高。 趋化因子是由不同类型的细胞分泌的低分子量(8-10KD) 的与白细胞趋化和激活有关的蛋白质。到目前为止已发现50多种,按照NH2-半胱氨酸基序的不同,可将趋化因子分为4个亚家族,即C、CC、CXC和CX3C。趋化因子受体是GPCR(G-protein-coupled receptors)超家族成员,是一族与G蛋白偶

2、联的、具有7个疏水的跨膜结构的受体。它广泛表达于各类淋巴细胞、内皮细胞、神经元等。趋化因子在动脉粥样硬化发生中起着主导作用,针对趋化因子及其受体的干预药物,应用于动脉粥样硬化的治疗将有着诱人的前景。基质细胞衍生因子-1(stromal cell-derived factor-1 alpha, SDF-1)及其特异受体CXCR4在胚胎发育、肿瘤细胞迁移及介导免疫缺陷病毒(HIV) 感染中发挥重要作用,最近又在动脉粥样硬化斑块中发现SDF-1高表达,SDF-1/CXCR4与动脉粥样硬化的关系已经引起重视,从生物信息学角度对其进行分析有重要的意义。生物信息学主要是利用生物学数据库,运用计算机、网络及

3、生物学软件,对海量生物原始数据进行基因组序列注释,以作为科研的实验依据。从生物信息学研究的角度出发主要有三大类方法可用于大通量的基因组功能注释工作: 用最大相似的同源基因的功能注释咨询序列; 用模体(MOTIF) 搜索,因为模体往往是功能相关的保守序列; 直系同源簇方法 (cluster of orthologous group, COG),即用不同种族的基因成对相似聚类法把它们划分成各种直系同源簇,从而可以用同一簇中的已知基因注释未知基因。同时结构基因组的研究使得三维结构模建和结构类的识别成为基因组功能注释的一个重要方面13。 我们选择该序列进行研究。从核酸和蛋白质两个方面对SDF-1进行详

4、尽的生物信息学分析。核酸分析方面主要分析其核酸序列的基本性质,如限制性酶切位点,基因组在染色体上的定位。蛋白质分析方面,首先分析SDF-1序列的基本性质,包括氨基酸组成、分子量、等电点、亲疏水性、蛋白酶切位点、信号肽,分析其二级结构和三级结构,重点分析其保守结构、模体(motif),分子立体结构的裂口和穴,A、B链间的相互作用,配基,多重序列比对,进化分析等。 研究目的:通过以上过程,搜寻并整理网上储存的SDF-1信息,进一步熟练巩固生物信息学课程的理论与实践知识,熟练操作Bioedit、DNAMAN等生物信息学分析软件,为生物信息学课程建设提供和补充新的血液,并以SDF-1为入口,学习与研究

5、生物信息学方面的前沿知识和更新后的软件操作,得到SDF-1基因和蛋白方面的资料,配合正在开展的对SDF-1 基因的研究,分别从氨基酸序列和空间构象入手搜寻SDF-1的相似分子,为进一步研究该基因的调控及以此为靶点的药物筛选收集信息,并从分子水平分析SDF-1分子结构与功能的关系,重点研究其趋化功能相应的分子结构。一、 生物信息学分析(一)工具与方法采用Bioedit7.0和DNAMAN3.0分析软件工具和在线有关蛋白质和核酸方面的分析软件,分别进行核酸和蛋白质两个方面的分析。核酸分析首先从pubmed核酸数据库中搜索到人的SDF-1A链核酸序列,分别进行序列的基本性质分析,限制性酶谱分析及其基

6、因在染色体上的定位分析。具体操作方法将根据上述各个软件上“Help”文件进行,基因在染色体上的定位分析根据网页上的操作说明进行。从pubmed蛋白质数据库中搜索到人的SDF-1A链、B链和整个前体SDF-1蛋白质序列,分别进行蛋白序列的基本性质分析(氨基酸组成、分子量、等电点),亲疏水性分析,蛋白酶切位点分析,信号肽序列分析,二级结构和三维结构分析,同源序列和进化分析。二级结构分析包括结构功能域、Motif、保守位点、AB链间的相互作用及离子配基等,具体操作方法将根据上述各个软件上“Help”文件和网页上的操作说明进行。(二)结果 PDB入口从下表可见,人的SDF-1有“a”、“b”两条链,其

7、可形成2具体,但它的活性形式为单链,通常讲的SDF-1就是指其“a”链。另外表中还有PDBid(1a15)及系统入口编号(P48061)。PDB Id:1a15Name:ChemokineTitle:Sdf-1alpha Structure:Stromal derived factor-1alpha. Chain: a, b. Synonym: sdf-1. Engineered: yes. Mutation: n33aSource: Synthetic: yes. Homo sapiens. Human. Other_details: chemically synthesizedUniPro

8、t: Chains A, B: P48061 (SDF1_HUMAN) Pfam表1.SDF-1蛋白数据库入口1核酸序列分析 SDF-1的核酸序列的基本性质分析:分析结果显示:我们获得SDF-1cDNA序列长度为279bp,其分子量为:ssDNA:84.55KDa,dsDNA:169.70KDa.四碱基的含量分别为:A: 26.16%,C: 21.86%,G: 29.39%,T: 22.58%.ORIGIN 1 ccatggacgc caaggtcgtc gctgtgctgg ccctggtgct ggccgcgctc tgcatcagtg 61 acggtaagcc agtcagcctg a

9、gctacagat gcccctgccg attctttgag agccatgtcg 121 ccagagccaa cgtcaaacat ctgaaaatcc tcaacactcc aaactgtgcc cttcagattg 181 ttgcaaggct gaaaagcaac aacagacaag tgtgcattga cccgaaatta aagtggatcc 241 aagagtacct ggacaaagcc ttaaacaagt aagcacaaca gcccaaagga cttDNA molecule: Length = 279 base pairsMolecular Weight =

10、 84555.00 Daltons, single strandedMolecular Weight = 169700.00 Daltons, double strandedG+C content = 51.25%A+T content = 48.75%Nucleotide Number Mol% A 73 26.16 C 61 21.86 G 82 29.39 T 63 22.58图2-1 SDF-1cDNA的碱基组成 限制性酶切分析 限制性酶切分析是分子生物学实验中的日常工作之一。 利用DNAMAN软件分析该基因cDNA序列的限制性内切酶的酶切位点,分析结果如下:该基因序列含有24种限制性

11、内切酶的酶切位点(这24种限制性内切酶为TspDTI、MwoI、Bpu10I、AgeI、HpyF10VI、BseMII、BspCNI、BsaWI、BsrFI、BceAI、Cac8I、ApoI、BbvI、HphI、BssHII、HgaI、AlwI、PstI、SfcI、Hpy188III、HaeII、AclI、AfeI、DraI)。同时,从图(2.2)中我们获得了这些内切酶在SDF-1基因上的具体酶切位点。Restriction Enzyme Map:1 ATGAACGCGAAAGTGGTGGTGGTGCTGGTGCTGGTGCTGACCGCGCTGTGCCTGAGCGATGGCAAACCGGTG

12、AGCCTGAG 801 TACTTGCGCTTTCACCACCACCACGACCACGACCACGACTGGCGCGACACGGACTCGCTACCGTTTGGCCACTCGGACTC 80 TspDTI MwoI Bpu10I AgeI Bpu10I HpyF10VI BsaWI BseMII BsrFI BspCNI BseMII BspCNI 81 CTATCGTTGCCCGTGCCGTTTTTTTGAAAGCCATGTGGCGCGTGCGAACGTGAAACATCTGAAAATTCTGAACACCCCGA 16081 GATAGCAACGGGCACGGCAAAAAAACTTTCGGT

13、ACACCGCGCACGCTTGCACTTTGTAGACTTTTAAGACTTGTGGGGCT 160 BceAI HpyF10VI Cac8I ApoI BbvI HphI MwoI 161 ACTGCGCGCTGCAGATTGTGGCGCGTCTGAAAAACAACAACCGTCAGGTGTGCATTGATCCGAAACTGAAATGGATTCAG 240161 TGACGCGCGACGTCTAACACCGCGCAGACTTTTTGTTGTTGGCAGTCCACACGTAACTAGGCTTTGACTTTACCTAAGTC 240 BssHII HgaI AlwI Hpy188III Cac

14、8I PstI SfcI 241 GAATATCTGGAAAAAGCGCTGAACAAACGTTTTAAAATG 279241 CTTATAGACCTTTTTCGCGACTTGTTTGCAAAATTTTAC 279 Hpy188III HaeII AclI AfeI DraI 图2.2 SDF-1的cDNA限制性酶谱分析(http:/www.ncbi.nlm.nih.gov/mapview/map_search.cgi?taxid=9606&query=) 从NCBI查询SDF-1基因在人类基因组中的定位基因组的定位分析显示,该基因定位在第10号染色体长臂的第一区第一亚区,第2小区内。红色部分

15、CXCL12指示SDF-1基因的具体位置。 图2-3:SDF-1基因定位:红色部分CXCL12指SDF-1 sdf基因表达调控(http:/www.gene- ) 2蛋白质序列分析 利用ExPASy软件包对该基因进行氨基酸组成统计、分子量、等电点等分析(http:/www.expasy.ch/tools/)Compute pI/MW:是ExPASy工具包中的程序,计算SDF-1蛋白质的氨基酸组成统计、等电点和分子量。分析结果显示该蛋白为分子量10665.85Da,pI为9.92,为一碱性蛋白质。SDF-1的A链分子量7835.26Da,pI为10.33(见图3-1,示其等电点和理论分子量,从图

16、中可以清楚地看出不同pH值条件下其所带电荷,pH为10时,其还带正电荷,pH值为10.50时其已经带上了负电荷,故计算得其理论等电点为10.33),为一碱性蛋白质,B链分子量6718.98 Da,pI为9.76,为一碱性蛋白质。SDF1_HUMAN (P48061)DE Stromal cell-derived factor 1 precursor (SDF-1) (CXCL12) (Pre-B cellDE growth stimulating factor) (PBSF) (hIRH) Contains: SDF-1-beta(3-72);DE SDF-1-alpha(3-67).OS H

17、omo sapiens (Human).The computation has been carried out on the complete sequence. Molecular weight: 10665.85 Theoretical pI: 9.92 IEP of FastaSequence from 1 to 67 Isoelectric Point = 10.3329 pH Bound Charge pH Bound Charge 1.00 25.99 14.99 8.00 17.87 6.87 1.50 25.98 14.98 8.50 16.49 5.49 2.00 25.9

18、4 14.94 9.00 14.99 3.99 2.50 25.81 14.81 9.50 13.74 2.74 3.00 25.47 14.47 10.00 12.30 1.30 3.50 24.67 13.67 10.50 10.24 -0.76 4.00 23.39 12.39 11.00 7.80 -3.20 4.50 22.15 11.15 11.50 5.79 -5.21 5.00 21.38 10.38 12.00 4.24 -6.76 5.50 20.97 9.97 12.50 2.65 -8.35 6.00 20.55 9.55 13.00 1.25 -9.75 6.50 1

19、9.97 8.97 14.00 0.16 -10.84 7.00 19.34 8.34 7.50 18.74 7.74 图3-1 SDF-1的等电点分析利用BioEdit软件进行其详细的理化参数分析:从表2和图3-2氨基酸组成来看,该蛋白序列含有较多的碱性氨酸,特别是赖氨酸(Lys,占10.45)和精氨酸(Arg,占7.46),其所含酸性氨基酸较少,如天冬氨酸(Asp,占1.49)、谷氨酸(Glu,占4.48),另外,其序列中含的非极性氨基酸最多的是亮氨酸(Lue,占11.94),其次是异亮氨酸(Ile,占5.97)为其二级结构的螺旋和折叠片的形成打下基础。序列中含有一定数量的带羟基的氨基酸,

20、如丝氨酸(Ser,占4.48),苏氨酸(Thr,占1.49)和酪氨酸(Tyr,占2.99),这为该蛋白的磷酸化修饰打下了基础。 Amino Acid Number Mol%Met M 0 0.00 Asn N 7 10.45 Pro P 4 5.97 Gln Q 3 4.48 Arg R 5 7.46 Ser S 3 4.48 Thr T 1 1.49 Val V 5 7.46 Ala A 5 7.46 Cys C 4 5.97 Asp D 1 1.49 Glu E 3 4.48 Phe F 2 2.99 Gly G 0 0.00 His H 2 2.99 Ile I 4 5.97 Lys K

21、 7 10.45 Leu L 8 11.94 Trp W 1 1.49 Tyr Y 2 2.99表2:SDF-1蛋白的氨基酸组成protein:Length = 67 amino acidsMolecular Weight = 7834.88 Daltons图3-2 SDF-1A链氨基酸组成分析图 利用BioEdit对蛋白进行亲疏水性分析基于BioEdit软件的亲疏水性分析的计算方式,基线上方+1.5以上代表亲水性,基线下方-1.5以下代表疏水性。由此我们可从图3-3分析图中得知SDF-1的A链蛋白没有明显的亲疏水性区域。图3-3 SDF-1A链亲疏水分析图表3为SDF-1A链酶切位点分析图,

22、可见该蛋白包含大部分蛋白酶的裂解位点,其中以蛋白酶K的裂解位点最多(Proteinase K,43个),其次是嗜热菌蛋白酶(Thermolysin,39个)、胃蛋白酶(Pepsin,28个),其次有2个溴化氰的裂解位点。 蛋白酶切位点分析Name of enzymeNo. of cleavagesPositions of cleavage sitesArg-C proteinase629 33 41 62 68 90Asp-N endopeptidase219 72BNPS_Skatole178CNBr21 93Chymotrypsin-high specificity (C-term to

23、FYW, not before P)628 34 35 78 82 91Chymotrypsin-low specificity (C-term to FYWML, not before P)231 9 11 13 16 18 26 28 34 35 38 46 47 50 57 63 76 78 82 83 87 91 93Clostripain629 33 41 62 68 90Formic acid173Glutamyl endopeptidase336 81 84Iodosobenzoic acid178LysC104 22 45 48 64 75 77 85 89 92NTCB (2

24、-nitro-5-thiocyanobenzoic acid)516 29 31 54 70Pepsin (pH1.3)288 9 10 11 12 13 15 16 17 18 25 26 27 28 34 34 46 49 56 57 63 76 78 81 82 82 83 86Pepsin (pH2)238 9 10 11 12 13 15 16 17 18 25 26 34 34 46 49 56 57 63 76 82 83 86Proline-endopeptidase123Proteinase K433 5 6 7 8 9 10 11 12 13 14 15 16 18 24

25、26 28 34 35 39 40 42 44 47 49 50 52 56 57 59 60 61 63 70 72 76 78 79 82 83 86 87 91Staphylococcal peptidase I336 81 84Thermolysin392 4 5 6 7 8 9 10 11 12 14 15 17 23 25 33 34 38 39 41 43 46 48 49 55 56 58 59 60 62 69 71 75 78 82 85 86 90 92Trypsin154 29 33 41 45 48 62 64 68 75 77 85 89 90 92表3:酶切位点(

26、These enzymes cleave the sequence)利用SignalP软件对该蛋白序列进行信号肽分析 (http:/www.cbs.dtu.dk/services/SignalP-2.0/)分析结果显示:由于SDF-1是成熟的分泌蛋白,单独的SDF-1其A链和B链都没有信号序列,只是在SDF-1全序列(93个氨基酸残基)在第20个氨基酸残基左右发现一个较强的信号肽信号(见图3-4),N端(第3第18位氨基酸之间)发现有一个信号(signal)序列(见图3-5),其存在的几率为1,且在第21位和第22位氨基酸之间有一个信号肽酶的水解位点,且较容易发生裂解(裂解几率为0.768)。

27、SignalP-NN result:图3-4信号序列-NN分析图Sequence length = 93# Measure Position Value Cutoff signal peptide? max. C 22 0.643 0.32 YES max. Y 22 0.709 0.33 YES max. S 13 0.989 0.87 YES mean S 1-21 0.937 0.48 YES D 1-21 0.823 0.43 YES# Most likely cleavage site between pos. 21 and 22: SDG-KP图3-5信号序列-HMM分析图Sequ

28、encePrediction: Signal peptideSignal peptide probability: 1.000Signal anchor probability: 0.000Max cleavage site probability: 0.768 between pos. 21 and 22图3.4 SDF-1蛋白的信号肽分析结果(4-2)SDF-1基因的电子表达谱(e-Northern)分析http:/t1dbase.org/page/TissueHome在此网站中进行的e-Northern的结果,(图7)此基因在大部分组织器官都有表达,在淋巴网状内皮细胞中有大量表达,而在心

29、脏、肺、肌肉等少数组织器官中有较多表达。在胚胎、胃肠道、肝、眼睛少数组织器官中一定量表达,只有在脑、胰腺、胎盘等少数几个器官中少量表达。图7 SDF-1基因的电子表达谱2.3.3亚细胞定位用pEGFP-C1-SDF-1(ORF)质粒DNA用脂质体法转染人脐静脉内皮细胞株ECV-304细胞。48h后,经过DAPI染色细胞核, 在荧光显微镜下观察并拍照。EGFP蛋白被激发出绿色荧光。结果显示 EGFP-hole融合蛋白主要在细胞质和细胞膜上表达(图13)。A B C 图13 SDF-1蛋白在细胞中的定位情况。 (A) 表示EGFP- SDF-1融合蛋白在ECV-304的表达;(B)表示的是DAP1

30、染细胞核;(C)表示的是A和B重叠图。根据计算机软件对SDF-1蛋白的亚细胞定位的分析(图2-14)以及实验结果(图2-13), SDF-1蛋白可能定位在细胞质,又有一个信号肽,因此SDF-1蛋白可能是一个分泌蛋白。 Results of the k-NN Predictionhttp:/psort.nibb.ac.jp/k = 9/23 55.6 %: extracellular, including cell wall 11.1 %: vacuolar 11.1 %: nuclear 11.1 %: mitochondrial 11.1 %: endoplasmic reticulum p

31、rediction for QUERY is exc (k=9)图14 利用在线工具psortII分析SDF-1蛋白的亚细胞定位 该蛋白序列的二级结构进行分析 利用nnPredict软件进行蛋白序列的二级结构分析(http:/us.expasy.org/tools/)从图3-6可见,螺旋共有2个区域,其中一个为3型,另一个为“H”型,8个转角,3条反平行A型片层,2个发夹结构(桥),分别在934、1150两个位点形成2对二硫键。完整的SDF-1有信号序列,SDF-1A链无信号序列。1 KPVSLSYRCP CRFFESHVAR ANVKHLKILN TPNCALQIVA RLKNNNRQVC

32、S SS B G GGBSEEEEEE ETTTEEEEEE EETTT EEE 51 IDPKLKWIQE YLEKALN E TT HHHHH HHHHH S:strand;B:B-truns;G:hairpins;E:sheet;T:turn;H:helices.Chain (67 residues) UniProt code: P48061 (SDF1 alpha_HUMAN) Pfam structural classification (1domain) : Domain Links CATH no. Class Architecture 1 2.40.50.40 = Mainly

33、 Beta Barrel 图3-6:SDF-1A链二级结构示意图ProMotf: 1sheet,3strands, 2 helices, 8 beta turns,2 beta bulges,2 disulphide bridge.附:具体各项参数Sheet No.Strands Type Barrel Topology- A 6 Antiparallel No -1 -1 3 1 1Strand No. Start End Sheet No.residues Edge Sequence- 1 23 31 A 9 No VKHLKILNT 2 35 42 A 8 No ALQIVARL 3 4

34、8 51 A 4 Yes QVCI Helix Number of Unit ResiduesNumber Start End Type residues Length Rise per turn Pitch Deviation Sequence-1 20 22 G 3 - - - - - RAN 2 56 64 H 9 14.97 1.63 3.55 5.79 9.9 KWIQEYLEK i+1 i+2 - -Start End Sequence TurnType Phi Psi Chi1 Phi Psi Chi1 Cadist Hbond-3 - 6 VSLS IV -83.2 148.2

35、 -178.2 49.3 38.8 -82.2 6.5 NO 4 - 7 SLSY IV 49.3 38.8 -82.2 -140.2 -25.5 56.6 6.7 NO 9 - 12 CPCR VIII -52.1 -36.6 -31.4 -125.5 136.2 -57.7 6.8 NO 31 - 34 TPAC I -54.8 -47.6 -34.2 -72.7 -27.1 - 5.4 NO 32 - 35 PACA I -72.7 -27.1 - -112.3 -9.8 -46.5 5.6 NO 42 - 45 LKNN I -79.8 -35.8 177.7 -71.1 -32.7 78.3 5.9 NO 43 - 46 KNNN IV -71.1 -32.7 78.3 -131.5 3.0 54.6 5.3 NO 52 - 55 DPKL I -66.2 -28.3 -26.7 -69.3 4.0 -25.5 5.9 YES Bulge type Residue X Residue 1 Residue 2 Residue 3 Residue 4-

展开阅读全文
相关资源
猜你喜欢
相关搜索

当前位置:首页 > 其他


经营许可证编号:宁ICP备18001539号-1