数据挖掘方法用于参与代谢的小分子生物学功能预测研究博士毕业论文.docx

资源描述

《数据挖掘方法用于参与代谢的小分子生物学功能预测研究博士毕业论文.docx》由会员分享，可在线阅读，更多相关《数据挖掘方法用于参与代谢的小分子生物学功能预测研究博士毕业论文.docx（145页珍藏版）》请在三一文库上搜索。

1、上海大学博士学位论文 2012年5月中图分类号：Q-31 单位代号：10280密级：公开学号：09820004 博士学位论文SHANGHAI UNIVERSITYDOCTORAL DISSERTATION题目数据挖掘方法用于参与代谢的小分子生物学功能预测研究作者彭淳容学科专业材料学导师陆文聪教授完成日期二零一二年五月2上海大学博士学位论文 2012年5月上海大学本论文经答辩委员会全体委员审查，确认符合上海大学博士学位论文质量要求。答辩委员会主任：姓名：单位：职称：委员：姓名：单位：职称：姓名：单位：职称：姓名：单位：职称：姓名：单位：职称：导

2、师：姓名：单位：职称：答辩日期：年月日原创性声明本人声明：所呈交的论文是本人在导师指导下进行的研究工作。除了文中特别加以标注和致谢的地方外，论文中不包含其他人已发表或撰写过的研究成果。参与同一工作的其他同志对本研究所做的任何贡献均已在论文中作了明确的说明并表示了谢意。签名：日期：本论文使用授权说明本人完全了解上海大学有关保留、使用学位论文的规定，即：学校有权保留论文及送交论文复印件，允许论文被查阅和借阅；学校可以公布论文的全部或部分内容。（保密的论文在解密后应遵守此规定）签名：导师签名：日期：上海大学工学博士学位论文数据挖掘方法用于参与代谢的小分子生物学

3、功能预测研究姓名：彭淳容导师：陆文聪教授学科专业：材料学上海大学材料科学与工程学院二零一二年五月A Dissertation Submitted to Shanghai University for the Doctors Degree in EngineeringResearch on Prediction of Biological Function of Small Molecules in Metabolic Pathway Using Data MiningPh. D. Candidate：Peng ChunrongSupervisor：Prof. Lu WencongMajo

4、r：Material ScienceSchool of Material Science and EngineeringShanghai UniversityMay, 2012XII摘要小分子是分子量比较小的化合物，可以参与包括代谢反应在内的很多生物过程，据估计，与生物过程有联系的小分子的种类数目至少有10万多个，而迄今为止已搞清楚其生物学功能的尚不足其中的1%。因此，进行小分子的生物学功能识别和预测研究，有助于理解生命过程中一些问题的生物学和化学本质。通过搜集整理小分子生物学功能研究的实验成果，利用数据挖掘方法总结已知数据中隐含的规律，可以预测未知小分子的生物学功能。使用数据挖掘方法进行小分

5、子的生物学功能识别和预测研究，首先要解决的问题就是如何对小分子进行参数表征，这对于数学模型的建立起到至关重要的作用。经过比较现有的商业和开源的分子描述符计算程序，选用了ChemAxon公司的Calculator Plugins等程序，使用Java语言对其进行了二次开发，开发了一个方便易用且可自行定制的批量计算小分子的分子描述符的计算程序。程序极大地提高了小分子的分子描述符计算的便捷性和计算效率，为小分子的生物学功能识别和预测研究提供了高效的工具。正确有效地把具有重要生物学意义的小分子映射到其相对应的代谢途径，将有助于人们更加深入地进行代谢分析，更为深刻地理解小分子的代谢机理。使用ChemAxo

6、n公司的JChem for Excel软件批量计算小分子的分子描述符，基于mRMR算法（minimum Redundancy Maximum Relevance）和FFS算法（Feature Forward Search）进行特征选择，采用以C4.5决策树算法为基本分类器的Adaboost算法预测了小分子可能参与的代谢途径的类型。由此所建立模型的10折交叉验证测试和独立测试集测试的预测正确率分别为83.88%和85.23%，与使用官能团组成表征小分子的方法相比，预测结果有了显著的提高。还使用HyperChem软件计算小分子的分子描述符，基于CFS（Correlation-based Featu

7、re Subset）算法进行特征选择，采用以最近邻算法为基本分类器的Bagging算法预测了小分子可能参与的脂类代谢的子代谢途径，所建模型对Jackknife交叉验证和独立测试集的预测正确率分别是89.85%和91.46%。在代谢途径中，小分子通过与酶的相互作用，参与了整个代谢过程。研究小分子与酶的相互作用，可以根据已知的“小分子-酶作用对”预测未知的小分子和酶能否相互作用，进而为探索各种代谢或催化机理提供新的研究思路。使用所开发的计算程序的计算结果表征小分子，使用改进的拟氨基酸组成表征酶，对代谢途径中小分子和酶的相互作用进行研究。结合使用mRMR算法、IFS（Incremental Feat

8、ure Selection）算法和FFS算法进行特征选择，采用最近邻算法进行建模，其10折交叉验证测试和独立测试集测试的预测正确率分别为85.19%和85.32%，其中正样本的预测正确率分别为86.02%和86.74%，与前人的研究工作相比，正样本的预测正确率有较大的提高。使用投票法对蛋白质与RNA的相互作用进行了研究，有关研究结果有助于理解蛋白质如何控制基因表达。从Weka软件中选取了34种分类算法，建立了四种投票系统。结果表明，投票法的预测结果优于单一分类算法的预测结果，并且使用算法选择和对算法进行加权可以优化预测结果。使用含算法选择的加权多数投票系统取得了最佳的预测结果，独立测试集测试的

9、平均ACC（overall prediction accuracy）值和平均MCC（Matthews Correlation Coefficient）值分别达到82.04%和64.70%。关键词：数据挖掘，小分子，分子描述符，代谢途径，ChemAxon，投票法AbstractSmall molecules are compounds with relatively small molecular weight. More than one hundred thousand small molecules can participate in many biological process in

10、cluding metabolic reactions, but the number with known biological function is less than 1% so far. Therefore, its conducive to understand the biological and chemical nature of some questions in the process of life, through the research in recognition and prediction of biological functions of small m

11、olecules. The biological function of unknown small molecules can be predicted via collecting the results of experiments and summarizing the implied regularities in known data by using data mining.In order to recognize and predict the biological functions of small molecules by using data mining, the

12、first problem is how to coding small molecules, which plays a crucial role for mathematical modeling. By comparing the existing commercial and open source programs for the computation of molecular descriptors, Calculator Plugins of ChemAxon was selected, and a program for the calculation of molecula

13、r descriptors was developed. This program is the secondary development based on Calculator Plugins by using Java language, which is easy to use and can be customized to the batch calculation. This program has greatly improved the convenience and efficiency of calculation, which provide the high-effi

14、ciency tool for the above research.Mapping small molecules to corresponding metabolic pathways correctly and efficiently will contribute to the analysis of metabolic pathway and understand of metabolic mechanism in depth. JChem for Excel of ChemAxon was chosen for batch computing descriptors of smal

15、l molecules, mRMR (minimum Redundancy Maximum Relevance) and FFS (Feature Forward Search) algorithms were selected for feature selection, and Adaboost algorithm based on C4.5 decision tree algorithm was used for predicting the possible metabolic pathway which small molecules involved in. Thus the pr

16、edicted accuracies of 10-folds cross-validation test and independent set test for the metabolic pathway are 83.88% and 85.23%, respectively. The results have improved significantly compared to the predicted results encoded by functional group composition. The possible subpath way in metabolic pathwa

17、y of lipid which small molecules involved in was predicted also. HyperChem was chosen for computing descriptors of small molecules, CFS (Correlation-based Feature Subset) algorithm was selected for feature selection, and Bagging algorithm based on nearest neighbor algorithm was used for modeling. Th

18、e predicted accuracies of Jackknife cross-validation and independent set are 89.85% and 91.46%, respectively.Small molecules participate in the whole metabolic process in metabolic pathway via the interaction with enzyme. Predicting unknown molecule-enzyme interaction according to known molecule-enz

19、yme interaction can provide new idea for exploring various metabolic or catalytic mechanisms by the research on molecule-enzyme interaction. The result of developed program ahead was used for coding small molecules, improved pseudo amino acid composition was used for coding enzymes, and three algori

20、thms were chosen for feature selection, including mRMR, IFS (Incremental Feature Selection) and FFS. The prediction model was built for the molecule-enzyme interaction in metabolic pathway by using nearest neighbor algorithm. The predicted accuracies of 10-folds cross-validation test and independent

21、 set test for the molecule-enzyme interaction are 85.19% and 85.32% respectively, and the predicted accuracies of positive samples in 10-folds cross-validation test and independent set test are 86.02% and 86.74% respectively. The predicted accuracies of positive samples increased greatly compared wi

22、th previous work.The interaction of protein-RNA was studied by voting algorithm, which is conducive to understand the gene expression of protein. 34 classifiers were chosen from Weka, and four voting systems were built. As a result, the voting system performs better than any single classifiers, and

23、algorithm selection and weighted system can optimize the predicted accuracies. Weighted voting system with algorithm selection achieved the best prediction results, and the average ACC (overall prediction accuracy) value and average MCC (Matthew s Correlation Coefficient) value reached 82.04% and 64

24、.70% respectively on the independent dataset.Keywords: data mining, small molecules, molecular descripter, metabolic pathway, ChemAxon, voting algorithm目录摘要VAbstractVII目录X第一章绪论11.1 生物信息学简介11.1.1 生物信息学的含义11.1.2 生物信息学的研究意义11.1.3 生物信息学的研究内容21.1.4 常用生物信息学数据库31.2 数据挖掘简介41.2.1 数据挖掘的含义41.2.2 数据挖掘系统的组成51

25、.2.3 数据挖掘与数学模型的关系51.2.4 数据挖掘与经典统计分析的关系61.2.5 数据挖掘的流程61.3 涉及的计算机常识71.3.1 Java语言71.3.2 Swing技术81.3.3 XML81.4 本文的主要内容9第二章常用数据挖掘算法102.1 基本算法102.1.1 最近邻算法102.1.2 人工神经网络算法102.1.3 支持向量机算法122.1.3.1 统计学习理论122.1.3.2 支持向量分类算法142.1.3.3 常用核函数182.1.4 决策树算法182.1.4.1 C4.5算法202.1.4.2 随机森林算法202.1.5 贝叶斯网络算法202.2 集成学习

26、算法212.2.1 Boosting和AdaBoost算法222.2.2 Bagging算法232.3 特征选择算法232.3.1 mRMR算法242.3.2 IFS算法252.3.3 CFS算法252.3.4 FFS算法262.4 本章小结27第三章小分子的参数表征研究283.1 引言283.2 商业软件283.2.1 HyperChem283.2.2 ChemOffice303.3 开源软件313.3.1 小分子官能团组成313.3.2 CDK323.4 ChemAxon343.4.1 ChemAxon及其产品简介343.4.1.1 ChemAxon简介343.4.1.2 Marvin简

27、介353.4.1.3 JChem简介363.4.2 JChem for Excel的简介373.4.3 Calculator Plugins的简介383.4.4国内外使用ChemAxon的概况413.4.4.1 国内使用情况413.4.4.2 国外使用情况423.4.5 基于Calculator Plugins的二次开发443.4.5.1 程序的简介443.4.5.2 对计算分子的预处理453.4.5.3 程序的实现原理463.4.5.4 程序的使用方法473.5 本章小结48第四章小分子参与代谢途径类型研究494.1 引言494.2小分子参与脂类代谢途径的子类型预测514.2.1 研究背景

28、514.2.2 数据准备524.2.3 结果与讨论554.2.3.1 特征选择554.2.3.2 模型的建立与评估554.2.3.3 特征分析584.3 小分子参与单途径代谢的类型预测594.3.1 研究背景594.3.2 数据准备604.3.3 结果与讨论634.3.3.1 特征选择634.3.3.2 模型的建立与评估664.3.3.3 投票法模型分析684.3.3.4 特征分析704.3.3.5 与使用官能团组成结果的比较744.3.4 在线预测服务754.3.4.1 实现在线预测服务的意义754.3.4.2 在线预测服务的实现原理764.3.4.3 在线预测服务的内容774.4 本章小结

29、78第五章小分子与酶的相互作用研究805.1 引言805.2 蛋白质的表征方法815.2.1 氨基酸组成825.2.2 拟氨基酸组成835.2.3 氨基酸的组成和分布845.3 数据准备855.3.1 数据的获取855.3.2 参数表征865.4 结果与讨论875.4.1 特征选择885.4.2 模型的建立和评估895.4.3 特征分析905.5 本章小结92第六章投票法预测蛋白质与RNA的相互作用936.1 引言936.2 数据准备956.3 投票算法976.4 结果与讨论986.4.1 投票使用的分类器986.4.2 单一分类器的预测结果996.4.3 投票算法的预测结果1046.4.

30、4 算法选择分析1066.5 本章小结107第七章总结与展望1097.1 全文总结1097.2 工作展望110参考文献112攻读博士学位期间发表的论文130攻读博士学位期间参与的项目131致谢132第一章绪论1.1 生物信息学简介1.1.1 生物信息学的含义生物信息学这个名称最早出现于上世纪70年代末1，随着人类基因组计划和高通量测序技术的发展而得到了广泛的发展和应用。生物信息学（Bioinformatics）是以计算机为工具对生物信息进行储存、检索和分析的科学，是当今生命科学和自然科学的重大前沿领域之一，同时也将是21世纪自然科学的核心领域之一。其研究重点主要体现在基因组学（Genomi

31、cs）和蛋白质组学（Proteomics）两方面，具体的说就是从核酸和蛋白质序列出发，分析序列中表达的结构功能的生物信息。诺贝尔奖获得者W. Gilbert在1991年曾经指出：“传统生物学解决问题的方式是实验的。现在，基于全部基因都将知晓，并以电子可操作的方式驻留在数据库中，新的生物学研究模式的出发点应是理论的。一个科学家将从理论推测出发，然后再回到实验中去，追踪或验证这些理论假设”。生物信息学把对基因组DNA序列信息的分析作为源头，在获得蛋白质编码区的信息后进行蛋白质空间结构模拟和预测，然后依据特定蛋白质的功能进行必要的药物设计。基因组信息学、蛋白质空间结构模拟以及药物设计构成了生物信息学

32、的三个重要组成部分。生物信息学研究的具体内容包括三个主要部分：新算法和统计学方法的研究、各类数据的分析和解释、研制有效利用和管理数据的新工具。1.1.2 生物信息学的研究意义自从上世纪九十年代美国启动人类基因组计划（Human Genome Project，HGP）以来，人与模式生物基因组的测序工作进展极为迅速。截止到2005年，被誉为生命的“阿波罗计划”的人类基因组计划，经过多国科学家的艰苦努力，已经基本完成了测序工作。这是人类科学史上又一个里程碑式的事件。在人类基因组计划进行过程中所积累起来的技术和经验，使得其它生物基因组的测序工作可以完成得更为迅速。可以预计，今后DNA序列数据的增长将非

33、常惊人。生物学数据的积累不仅仅表现在DNA序列方面，与此同时还有蛋白质的一级结构（即氨基酸序列）的增长等等。这一切构成了一个生物学数据的海洋。与正在以指数方式增长的生物学数据相比，人类相关知识的增长（粗略地用每年发表的生物、医学论文数来代表）却十分缓慢。一方面是海量的数据，另一方面是对新知识的渴求，这些新知识将帮助人们改善生存环境和提高生活质量，这就构成了一个极大的矛盾。于是在这种情况下，生物信息学应运而生。生物信息学不仅具有重大的科学意义，而且具有巨大的经济效益2。它既属于基础研究，以探索生物学自然规律为己任；又属于应用研究，许多研究成果可以较快或立即产业化，成为价值很高的产品。据报导，只有

34、50名员工的德国Lion生物信息学公司，通过扫描公共数据库中的序列发现了500个可能的药物作用靶点，并将其以一亿美元的价格预售给德国Bayer公司。据世界著名咨询公司FrostSullivan报道，欧洲生物信息学市场将从2004年的3.1亿美元增长到2011年的7.2亿美元，其中蛋白质组学的增长速度最快。国际上的一些发达国家对此情况非常重视，纷纷成立了相应的研究机构。如美国的国家生物信息中心(National Center for Biotechnology Information, NCBI)，日本的国家遗传学研究所，英国的欧洲生物信息研究所等。同时由于电子信息技术的发展，如信息高速公路、国

35、际互联网的发展，美国、日本及欧洲各国相继在Internet上建立了众多的生物信息学网络节点，提供大型数据库服务，如日本的京都基因和基因组百科全书（Kyoto encyclopedia of genes and genomes, KEGG)。与此同时，国际生物信息学产业和市场逐步形成。各种专业研究机构和私有公司如雨后春笋般地涌现出来，各大生物技术公司和制药企业正在基因工程药物、生物芯片、代谢工程等领域创造着巨大的财富。近几年，一些国际上规模比较大的IT企业也进入生物信息学领域，展开了激烈的竞争，如IBM、Motorola、HP、SGI等3。1.1.3 生物信息学的研究内容生物信息学的研究内容十分

36、广泛，主要包括以下方面4：1) 生物信息的收集、存储、管理与服务，包括建立国际基本生物信息库和生物信息传输的国际互联网系统；建立生物信息数据质量的评估与检测系统；生物信息的在线服务；生物信息可视化和专家系统等。2) 数据库搜索及序列比较，包括对已有序列比对算法的改进和新算法的研发等。3) 基因组序列分析，包括基因的发现与鉴定，非编码区信息结构的分析。4) 蛋白质结构与功能的预测，包括蛋白质二级结构和三级结构的预测；蛋白质折叠识别与结构类别的预测；蛋白质空间结构的比较；蛋白质亚细胞定位的预测；膜蛋白类型的预测等。5) 基因表达数据的分析与处理，包括基因表达差异的显著性分析；基因表达图谱数据的聚类

37、分析（Cluster Analysis）与分类分析（Classify Analysis）；基于基因表达谱的基因调控网络构建等。6) 生物大分子的结构模拟与药物设计，包括蛋白质空间结构模拟和分子设计；具有不同功能域的复合蛋白质以及连接肽的设计；生物活性分子的电子结构计算和设计；纳米生物材料的结构模拟与设计；基于酶和功能蛋白质的结构、细胞表面受体结构的药物设计；基于DNA空间结构的药物设计等。7) 遗传密码起源和生物进化的研究，包括模式生物完整基因组的比较研究；系统发生树的构建；遗传密码起源与基因组结构的演化；基因组信息与生物进化的关系等。8) 应用与发展研究，包括汇集与疾病相关的人类基因信息，发

38、展患者样品序列信息检测技术和基于序列信息选择表达载体、引物的技术，建立与动植物良种繁育相关的数据库以及与大分子设计和药物设计相关的数据库。1.1.4 常用生物信息学数据库1) 核酸序列数据库：世界上所有已公布的核酸序列及其翻译产物的序列报告和相关注释。包括美国国立卫生研究院下属国立生物技术信息中心的基因序列数据库（GenBank）、欧洲生物信息研究所的欧洲分子生物学实验室核苷酸数据库（The European Molecular Biology Laboratory, EMBL）、日本核酸数据库（DNA Data Bank of Japan, DDBJ）以及整合平台Entrez 综合数据库等。

39、2) 蛋白质序列数据库：包括欧洲生物信息学研究所（European Bioinformatics Institute, EBI）维护的经过注释的蛋白质序列数据库SWISS-PROT、美国国家生物技术信息中心蛋白质数据库（National Center for Biotechnology Information, NCBI）、蛋白序列数据库（Protein Information Resource, PIR）等。3) 蛋白质结构数据库：包括结构生物信息学研究联合实验室（Research Collaboratory for Structure Bioinformatics, RCSB）负责维护的生

40、物大分子结构蛋白质数据仓库（Protein Data Bank, PDB）、生物高聚物结构分子模型数据库（Molecular Modelling DataBase, MMDB）、英国医学研究会（Medical Research Council, MRC）剑桥分子生物学实验室开发的蛋白质结构分类数据库（Structural Classification of Proteins, SCOP）等。4) 基因组数据库：主要内容有基因组结构、基因单位、基因组图谱等，由各国基因组研究中心组建，分布在世界各地的信息中心、研究机构。代表性的包括美国人类基因组数据库GDB、美国NCBI基因组数据库Genome

41、、英国人类基因图谱数据库GenomeWeb等。1.2 数据挖掘简介1.2.1 数据挖掘的含义“数据挖掘”中的“挖掘”一词最早出现于统计学中。简单地说，数据挖掘（Data Mining, DM）是从数据中“挖掘”知识。数据挖掘是当今信息科学的一个热点，其涵义是综合运用多种算法，对来自多种渠道的大量数据进行计算机处理，通过去粗取精、去伪存真、由此及彼、由表及里的信息加工，抽提有用信息，从而发现自然规律5。目前，数据挖掘可以从统计学、数据库（Database, DB）和机器学习（Machine Learning）等三个角度进行定义。从统计学的角度出发，数据挖掘是指分析所观察的数据集以发现可信的数据间

42、的未知关系并提供给数据拥有者可理解的、新颖的和有用的统计规律6。从数据库的角度出发，数据挖掘是指从存储在数据库、数据仓库（Data Warehouse, DW）或其它信息仓库中的大量数据中发现有用知识的过程7。从机器学习的角度出发，数据挖掘是指从数据中抽取隐含的、明显未知的和潜在有用信息8。总之，数据挖掘是利用计算机、现代统计科学和机器学习理论对复杂数据进行整理、分析、建模等研究，达到总结数据中的规律，用以预报未知的目的。1.2.2 数据挖掘系统的组成典型的数据挖掘系统具有如下组成：91) 数据库、数据仓库或其他信息库：可以在此数据集上进行数据清理和集成。2) 数据库或数据仓库服务器：根据用户

43、的数据挖掘请求，负责提取相关数据。3) 知识库：存放领域知识，用于指导搜索或评估结果模式的兴趣度，可能包括概念分层及用户确信度方面的知识。4) 数据挖掘引擎：由一组功能模块组成，是数据挖掘的基本组成部分，用于特征化、关联、分类、聚类分析以及演变或偏差分析。5) 图形用户界面（Graphical User Interface, GUI）：允许用户与系统进行交互，指定数据挖掘任务，提供信息，帮助搜索，根据数据挖掘的中间结果进行探索式数据挖掘，以便在用户和数据挖掘系统之间通信。此外还容许用户浏览数据库和数据仓库模式或数据结构，评估挖掘的模式，以不同的形式对挖掘的模式进行可视化。1.2.3 数据挖掘与

44、数学模型的关系数学模型（Mathematical Model）是根据对研究对象所观察到的现象及实践经验，归结成的一套反映其内部因素数量关系的数学公式、逻辑准则和具体算法，用以描述和研究客观现象的运动规律。数学模型是数学理论与实际问题相结合的一门科学。它将现实问题归结为相应的数学问题，并在此基础上利用数学的概念、方法和理论进行深入的分析和研究，从而从定性或定量的角度来刻画实际问题，并为解决现实问题提供精确的数据或可靠的指导。建立数学模型的方法分为两类：机理分析方法与统计分析方法。机理分析方法是根据对现实对象特性的认识，分析其关系，找出能够反映内部机理规律的变量结构，所建立的模型常有明确的物理或现

45、实意义。数学上的建模通常使用的大多是机理分析方法。统计分析方法是从研究对象的观察数据（或实验数据）切入，通过数据变化的特点，建立反映数据关系的拟合模型或构造逼近实际数据关系的模型，在模型检验可行的条件下，通过模型结果研究对象的变化机理。显然数据挖掘中的建模方法属于统计分析方法。从某种程度上说，数学挖掘的本质就是数学建模，其含义与统计分析建模方法一致，因此数据挖掘也称为“现代统计”10。1.2.4 数据挖掘与经典统计分析的关系传统的统计分析建模方法的基础是经典数理统计方法，已有结论大多基于“大样本、少变量”的条件（如著名的大数定律），对当前各个应用领域中出现的“大样本、多变量”或“小样本、多变量”等情况仍具有局限性。这些问题直接应用经典统计分析方法求解，可能出现较大的差异。但应用基于数据挖掘的现代统计分析方法，在一定条件下能很好地解决这一问题。如SVM方法特别适合于处理小样本问题。因此，数据挖掘是经典统计分析的延伸和拓宽。1.2.5 数据挖掘的流程数据挖掘的流程主要包括以下各个步骤5：1) 数据文件评估和初步分析：对数据文件是否有足够的信息量作初步考查，以决定数据挖掘的可行性，并对数据结构作大致考查。2) 相关分析：用原始变量为坐标做投影图，考

展开阅读全文