生物信息学中的学习问题.pdf

上传人:韩长文 文档编号:5187877 上传时间:2020-02-16 格式:PDF 页数:6 大小:298.22KB
返回 下载 相关 举报
生物信息学中的学习问题.pdf_第1页
第1页 / 共6页
生物信息学中的学习问题.pdf_第2页
第2页 / 共6页
生物信息学中的学习问题.pdf_第3页
第3页 / 共6页
生物信息学中的学习问题.pdf_第4页
第4页 / 共6页
生物信息学中的学习问题.pdf_第5页
第5页 / 共6页
亲,该文档总共6页,到这儿已超出免费预览范围,如果喜欢就下载吧!
资源描述

《生物信息学中的学习问题.pdf》由会员分享,可在线阅读,更多相关《生物信息学中的学习问题.pdf(6页珍藏版)》请在三一文库上搜索。

1、收稿日期:2009205215 基金项目:国家自然科学基金项目(60671011 ,60741001 ,60871092) ;黑龙江省杰出青年科学基金项目(JC200611) ;黑龙江省自然科学重点基金项 目(Z JG0705) 作者简介:郭茂祖(19662 ) , 男,山东夏津人,教授、 博导,博士后,主要从事机器学习、 生物信息学研究. E2mail :maozuguo 3 通讯作者:邹权(19822 ) , 男,黑龙江佳木斯人,博士研究生,主要从事生物信息学研究. E2mail : guoer713108 文章编号:167223961(2009)0320001206 生物信息学中的学

2、习问题 郭茂祖 1 ,邹权 13 ,李文滨 2 ,韩英鹏 2 (1. 哈尔滨工业大学计算机科学与技术学院,黑龙江 哈尔滨150001; 2.东北农业大学大豆研究所(教育部大豆生物学重点实验室 ) , 黑龙江 哈尔滨150030) 摘要:生物信息学是结合了信息科学和生命科学的一门交叉学科,兴起于人类基因组计划.随着人类基因组计划 的完成与深入,生物信息的研究工作由原来的计算生物学时代进入后基因组时代,后基因组时代中一个最重要的 分支就是系统生物学.本文从信息科学的视角出发,详细论述了机器学习方法在计算生物学和系统生物学中的若 干应用. 关键词:机器学习;生物信息学;计算生物学;系统生物学 中图分

3、类号:TP18 文献标志码:A Learning in bioinformatics G UO Mao2zu 1 , ZOU Quan 13 , LI Wen2bin 2 , HAN Y ing2peng 2 (1. Department of Computer Science and Technology , Harbin Insititute of Technology , Harbin 150001 , China; 2. Soybean Research Institute (Key Laboratory of Soybean Biology of Chinese Education

4、Ministry) , Northeast Agricultural University , Harbin 150030 , China) Abstract: Bioinformatics is a cross2disciplinary field that involves various fields of information science and biological science , which emerges from the human genome project. With the development of human genome project , we en

5、ter into the post2genome era from the computational biology era. Systems biology isone of the most important fields in the post2genome era. This paper re2 views the application of machine learning in computational biology and systems biology. Most important , it comes from an infor2 mation researche

6、rs view. Key words: machine learning; bioinformatics; computational biology; systems biology 0 引言 人类对生命科学的研究逐渐走向微观化,从个 体到细胞,再从细胞到分子,在分子层面人们发现了 很多与遗传有关的机制.随着分子遗传学研究的逐 渐深入,生物学家需要处理越来越多的计算问题,因 此产生了一门交叉学科 生物信息学.为了辅助 遗传学的研究,生物信息研究者在基因组测序、 基因 寻找和功能标注等方面做了大量的工作,包括建立 模型、 设计算法、 解决问题等.这其中有很多地方应 用了机器学习方法,本文将对机

7、器学习方法在生物 信息学中的应用加以综述. 在测序为主的研究阶段,生物信息学偏重于研 究字符串序列,主要是处理大规模数据、 建模、 设计 启发式算法解决模型中的NP问题.这一阶段也通 常把生物信息学称为计算生物学.主要研究的问题 包括:多序列比对、 片断组装、 物理作图、 构建进化 树、 预测大分子结构、 寻找编码基因及功能元件等. 本文第2部分介绍了机器学习方法在几个主要计算 生物学问题上的典型应用. 随着人类基因组测序工作的完成,生物信息学 第39卷 第3期 Vol.39 No.3 山 东 大 学 学 报 (工 学 版) JOURNAL OF SHANDONGUNIVERSITY (ENG

8、INEERINGSCIENCE) 2009 年6月 Jun. 2009 的研究重点由对基因组的测序转向了对基因组的标 注.这时通常把生物大分子的一级序列、 分子结构和 功能统一起来当作一个系统来研究,这种思路也被 称为系统生物学.系统生物学研究中与信息科学相 关的问题主要有:建立基因调控网络、 处理微阵列数 据、 分子相互作用预测、 非编码RNA基因的识别、 DNA与组蛋白甲基化的预测、SNP(single nucleotide polymorphism)位点的寻找和与疾病的关联性分析 等.本文第3部分将着重介绍机器学习方法在几个 系统生物学问题上的应用. 1 计算生物学中的机器学习问题 计算

9、生物学主要是围绕着测序这一问题展开 的.对于多次测序得到的DNA片段 (EST 序列)需要 进行聚类、 拼接;当拼接出基因序列甚至基因组序列 后,需要分析不同基因之间、 不同物种之间的进化关 系;得到同一簇基因后,人们往往关心其共有的特 征,如上游的调控元件,典型的就是转录因子结合位 点;当DNA转录成RNA ,进而翻译成蛋白后,不同的 生物分子会形成各异的空间结构,进而行使不同的 功能,因此预测其二级结构也是分析大分子功能的 一个重要环节.下面依次介绍这些问题中会用到的 机器学习方法. 1. 1 EST序列聚类 表达序列标签(expressed sequence tags , ESTs)是

10、对一个cDNA克隆测序获得的部分片段,长度一般 为300500 bp. EST序列对于基因发现、 遗传作图、 基因组注释、SNP位点发现、 可变剪切位点的探测都 有重要意义. EST序列数据增长迅速,虽然每条EST序列不 长,但数量巨大.生物信息研究者需要对大规模的 EST序列进行处理,包括去噪、 聚类和拼接.去噪是 指去除EST序列中的污染序列.由于在测序时,EST 序列中通常会混入核糖体序列、 细菌基因组序列和 载体序列等.这些序列可以通过和已知的数据库中 的序列进行对比来筛除.与去噪相似,拼接主要用的 也是序列比对方法. 聚类的目的是将具有一定重叠区域的序列整合 至同一簇中.由于染色体中

11、的DNA序列中只有部分 基因片段被转录,EST序列不可能覆盖整个基因组, 所以要把同一基因组对应的EST序列聚类到同一 簇中. 聚类是机器学习中的经典问题之一.已有大量 的机器学习方法在聚类上有成功的应用. EST序列 的聚类和普通的聚类问题略有不同,普通聚类问题 的元素是高维空间中的向量,而EST序列聚类的元素 是核苷酸序列.虽然元素不同,但两者都能较容易得 构建出个元素间的两两距离矩阵.根据各元素间的距 离进行聚类,则又回到了机器学习中的聚类问题. 1. 2 构建进化树 构建进化树与EST序列聚类类似,也是处理若 干条序列的距离关系,与机器学习中的聚类问题相 似.与EST序列聚类问题不同,

12、构建进化树通常处 理的是若干条比对好的序列,这些序列一般是从同 一条祖先序列进化而来.进化树不但要重现进化的 过程,而且还要标明相邻的两个结点之间的进化距 离.因此可以认为构建进化树要解决两个关键问题, 一个是确定树的拓扑结构,另一个是确定树中每一 条边的长度. 构建进化树的数学模型有很多,目前被认为效 果最好的是最大似然模型.最大似然法是一种建立 在进化模型基础上的统计方法,具有一致性、 健壮 性,能够在一个统计框架内比较不同的树以及能够 充分利用原始数据等优点.最大似然法的第一步是 对每一种可能的拓扑结构找出一组枝长,使在该组 枝长下,该树的似然值最大.这是一个多元优化问 题,由于时间开销

13、大,通常使用期望最大化(expecta2 tion maximum , EM)方法来解决. EM方法是一种经典 的学习方法,其虽然有可能陷入局部最优,但它时间 复杂性低、 效果好,因此被用来处理构建进化树这种 运算量大的问题 1 . 还有一种构建进化树的模型被称为距离模型. 由于距离模型出现得早、 原理简单,目前还被许多生 物信息研究者使用.该方法可以处理没有比对过的 序列,因此通常在研究不同物种的基因组时使用该 模型.这时长的基因组序列转化为两两距离,根据距 离矩阵构建进化树,这又与多维空间的聚类问题类 似.一种典型的解决方法就是处理聚类问题的span2 ning2tree方法. 1. 3

14、识别转录因子结合位点 转录因子结合位点(transcription factor binding sites ,TFBS)是编码基因的重要功能元件,是基因发 现中的重要问题之一.转录因子结合位点的分析主 要包括3类问题 : (1) 在给定的基因组序列中寻找 给定的结合位点 ; (2) 在一系列共表达或共调控的 基因上游非编码区域内发现未知的结合位点 ; (3) 寻找由一个已知转录因子调控的未知基因.目前研 究的热点和难点主要是第2类问题 2 .该问题可以 形象地描述为:在若干个输入的DNA序列中找出共 2 山 东 大 学 学 报 (工 学 版)第39卷 有的子模式,通常这种模式被称为motif

15、.为了简单 化,通常研究者把motif视为一段子序列. 识别TFBS的方法可以分为两类:基于字串的 方法和基于概率模型的方法.由于基于字串的方法 运算量大,不易处理真实数据,因此概率模型是目前 识别TFBS的主要方法.基于概率序列模型的方法 主要有EM方法和吉布斯采样( G ibbs sampling)方 法.虽然每种概率序列模型都有不同之处,但它们预 测结合位点的最根本的思路是相同的,即先对motif 的信息进行某种近似的描述(基于位置权重矩阵或 保守序列建立序列motif模型 ) , 通过背景模型和mo2 tif模型构成整体的调控区域模型,然后通过似然最 大化或贝叶斯推断等方法进行参数估计

16、,对motif信 息进行调整优化,根据获得的参数找出motif中共有 的规律. 与似然法构建进化树类似,在处理motif寻优的 过程中,需要使用EM等学习方法.另外当混入噪声 数据时,还要对motif进行分类.这些都需要把恰当 的机器学习方法应用到特定的环境中. 1. 4 RNA二级结构预测 RNA二级结构预测是一个经典的计算生物学 问题.传统的预测方法是把其视为自由能最小的优 化问题.然而研究表明:有些RNA分子的真实二级 结构同具有最小自由能的二级结构不一致,而且迄 今为止尚没有精确的自由能计算方法 3 . 在研究RNA二级结构的过程中,人们发现:功 能同源的RNA分子具有结构同源性,例如

17、,tRNA分 子二级结构大都呈三叶草形状,动物microRNA和 siRNA的前体的二级结构都呈发夹形状.因此,在预 测RNA的二级结构时,可以同时研究多个该RNA 的同源分子,这些同源分子尽管在序列层次上存在 差异,但在二级结构上还具有高度的保守性.这种思 路被称为 “比较序列分析法”. 在比较序列分析法中,需要针对多个不同的序 列,根据RNA的配对规则 (A U ,GC ,GU发生配 对)找出一个最合理的一致结构.在相关的算法中效 果较好的是基于随机上下文无关文法(stochastic content free grammar , SCFG) 4 . SCFG与隐马尔可夫 模型(hidde

18、n Markov model , HMM)相似,是常用于自 然语言处理领域中的学习方法之一. 在该方法中,RNA的配对规则被写成SCFG的 语法规则,序列的每一种合理的二级结构都被视为 一颗合理的语法树.通过对已知二级结构的RNA分 子进行训练,得出每条规则发生的概率,然后根据这 个概率计算每一棵语法树发生的概率,进而通过动 态规划算法找出概率最大的那颗语法树,将其视为 预测结果. 同其它的机器学习分类方法一样,SCFG也要对 已知二级结构进行训练.不同的是经典的机器学习 方法在训练之后,是对新来的数据进行分类,而 SCFG是对新来的数据寻优.但无论是分类还是寻 优,都是建立在良好的训练过程的

19、基础上,训练过程 才是该方法的关键.因此从这个角度上说,SCFG也 可以视为一种基于概率模型的机器学习方法.基于 该方法预测同源RNA分子二级结构的服务器Pfo2 ld 5已被生物信息研究者广泛使用. 1. 5 蛋白质二级结构预测 同样是生物大分子的二级结构预测,蛋白质和 RNA是两个截然不同的计算问题.在最小自由能模 型下,RNA二级结构预测可以视为一个优化问题, 而蛋白质二级结构预测则是一个典型的分类问题. 蛋白质的二级结构在空间上有三种表象: 螺 旋、 片层和转曲.蛋白质二级结构预测问题就是输 入一个氨基酸序列,输出的是该序列上每一个字母 对应得是哪一种表象.实际上相当于对每一个字母 进

20、行分类,这里的分类还要考虑到相邻氨基的相互 影响. 通过对已知二级结构的氨基酸序列进行学习, 发现了一些规律,比如:螺旋一般含10个左右的 残基,古氨酸、 甲硫氨酸、 亮氨酸易出现在螺旋 中,片层一般含有5到10个残基,缬氨酸、 异亮氨 酸、 苯丙氨酸易出现在片层中,连接螺旋和 片层的部分是转曲等.利用这些学习到的规律和一 些功能相近、 结构已知的蛋白质分子进行训练,可以 设计出效果较好的分类器,这种预测方法的准确率 达到76 %以上.目前已有多种分类器以及集成的多 种分类器应用于预测蛋白质的二级结构 6 . 2 系统生物学中的机器学习问题 系统生物学中的重要问题就是从基因组的层面 上分析微观

21、世界的调节机制,其中最主要的两个问 题就是预测蛋白间的相互作用和预测基因调控网 络.随着microRNA研究的深入,人们发现microRNA 在基因调控方面起着至关重要的作用,因此挖掘 microRNA以及其他非编码RNA也成为了系统生物 学中的热点问题.另外,实验和统计表明,SNP位点 和某些疾病及表型存在着极为密切的联系,这对于 遗传研究、 法医鉴定和个性化医疗都有着极为重要 的作用.本节分别介绍这几个研究方向中的机器学 第3期郭茂祖,等:生物信息学中的学习问题3 习问题. 2. 1 蛋白质相互作用预测 蛋白质相互作用预测问题是指给定两个氨基酸 序列,判断其对应的蛋白质序列是否存在相互作用

22、, 进而对蛋白质组构建相互作用网络 7 .蛋白质相互 作用网络是系统生物学中最基本的问题之一. 蛋白质相互作用预测问题可以看成是一个典型 的分类问题.通过对已知存在相互作用的蛋白质分 子进行学习、 寻找规律,然后对待预测的一对蛋白质 进行分类,判别其是否存在相互作用.很明显,这是 一个二类分类问题,目前已有很多机器学习中的分 类方法被应用到该问题中,包括支持向量机等. 除了在分类器中用到了机器学习方法,蛋白质 相互作用的特征提取也是很重要的一部分.以往提 取的特征包括亲水性、 范德华力等.目前的研究又包 括域、motif、 二级结构等.只有用恰当的特征加上恰 当的分类器才能得到好的结果 8 .

23、 另外,在蛋白质相互作用预测过程中,从目前已 有的生物数据库中只能找到正例集(即存在相互作 用的蛋白质 ) , 反例集一般是人工或自动生成.因此 反例集会远大于来自实验验证的正例集.这种现象在 挖掘非编码RNA 9 、 分析基因表达数据 10 、 预测DNA 甲基化 11等多个生物信息学问题中都出现 ,值得深 入地研究适合处理这类不平衡数据的分类方法. 当预测到存在相互作用的蛋白之后,还要进一 步预测这两个蛋白在作用时的接触面,即蛋白质相 互作用位点的预测,以及进一步构建相互作用网络 都需要用到机器学习方法.当预测相互作用位点时, 需要在已知的相互作用位点中学习规律,然后对待 预测的蛋白质序列

24、中的每一个位点进行分类.目前 已有研究将条件随机域 12 、 支持向量机 13 等方法应 用于该问题,但效果还有待于进一步提高. 2. 2 基因调控网络的建立 随着DNA微阵列技术的发展,目前已经可以在 不同表达水平的条件下同时测量几千个基因的表达 水平.因此刺激了生物信息研究者去研究不同基因 之间的调控关系,从而建立基因调控网络. 可以这样理解构建基因调控网络的问题:它的 输入是一个二维的布尔矩阵,表示的是不同的基因 在不同的时间序列上的表达情况;输出则是该矩阵 中出现的基因之间的调控关系.从二维布尔矩阵到 最终调控网络的建立的过程,被称为 “推演” 过程.有 许多机器学习算法应用到了推演过

25、程中,比如:模拟 退火、 神经网络、 遗传算法等. Reinitz和Sharp 14利用 加权矩阵模型构造了果蝇基因调控网络,得到了很 好的效果. 最近,贝叶斯网络也被应用到基因调控网络的 构建中来.在静态贝叶斯模型中,基因调控被表示为 一个有向无环图.顶点可以表示基因、mRNA浓度、 蛋白质浓度、 蛋白质修饰或联合体、 代谢物或其它小 的分子、 试验条件、 基因信息或结论例如诊断结果或 其他的预测结果等等.每一个随机变量都有一个基 于其所有父节点的条件概率,有向无环图和这些条 件概率共同定义一个静态贝叶斯网络,并且唯一指 定了一个联合概率分布.贝叶斯网络也是一种典型 的分类方法,通过贝叶斯网

26、络计算最终的概率值,从 而最终对两个基因之间是否存在调控关系进行分 类.这种基于概率的贝叶斯分类器在蛋白质相互作 用预测中也经常被使用. 2. 3 非编码RNA基因的识别 随着对中心法则研究的不断深入,人们发现 RNA有更多的功能与作用.在熟知的mRNA、tRNA 和rRNA之外,还存在着多种非编码RNA ,如microR2 NA、siRNA、snoRNA等.这些非编码RNA在基因的表 达和调控上起着十分重要的作用. 基因组标注的工作中有一项十分重要的任务就 是在基因组中找出这些非编码RNA.由于编码基因 的特点较明显,可以通过启动子、 转录因子结合位 点、 开始密码子、 结束密码子等功能元件

27、来辨别,因 此对发掘编码基因研究得较为成熟.而非编码基因 在基因组中一般不具有类似的功能元件,识别时要 根据具体的类别学习其前体及成熟体的特点,进而 从基因组中筛选出候选的区域,然后再通过RT2 PCR、Northern Blot等生物学手段验证. 比如人们发现microRNA的前体具有发夹形式 的二级结构,并且其核苷酸分布(如GC含量等)具 有一定规律,通过对已知的microRNA基因及其前体 进行学习,得到这些规律,而后使用支持向量 机 15216 、 随机森林 17 、 贝叶斯网络 18 等分类器对未 知的DNA序列进行分类,判断其是否是microRNA 基因.还有研究者发现tRNA大都

28、按照一定规则折 叠成三叶草形状,因而使用随机上下文无关文法对 已知的tRNA序列进行学习,得到文法的生成概率 后,再到基因组中去搜索,找出那些可以以高概率生 成的片段,从而在基因组中挖掘出更多的tRNA 19 . 由此可见,机器学习方法在非编码RNA的挖掘与辨 别中起了关键的作用. 2. 4 SNP位点的寻找 长期的科学研究表明:不同人种、 不同人群和不 同个体间表现特征差异;各种疾病,尤其是遗传性疾 4 山 东 大 学 学 报 (工 学 版)第39卷 病和特殊疾病的产生,其主要原因是在各种复杂的 环境因素影响下,遗传过程中发生的多基因重组以 及变异现象造成的各基因组序列间差异,也就是基 因组

29、的多态性.由于在已有研究中发现不同人类个 体基因组序列中约90 %的序列片段是相同的,影响 个体表现特征和与疾病相关的存在差异的片断仅出 现在较小的序列范围内;而基因组序列中发生变异 的片断通常与其祖先以及其相近人群发生相似变异 的片断相关联.因此,可以通过对基因组多态性的研 究,发现各类疾病产生的原因,促进常见复杂疾病的 治疗;也可以对不同人群进行分类,研究其相关遗传 信息,辅助构建个人的基因组序列信息.为了能够进 一步的研究基因组多态性与个体差异及各种疾病之 间的联系,研究者需要获取更全面更具体的人群基 因组多态性细节,为此美国、 中国、 英国等多个国家 联合启动了国际单体型计划(The

30、International Hap2 map Project) . 任意两个不同人类基因组序列中,平均每1 000 个碱基中会存在一个有差异的核苷酸位点.这些差 异位点包含的遗传信息影响了每个人类个体的身体 性状、 罹患疾病的可能性以及身体对外界环境物质 的反应等.在基因组序列中出现概率高于1 %的差 异均称为多态现象(polymorphism) ,这一现象通常发 生在染色体包含的DNA序列中一个核苷位置上,也 称为单核苷酸多态性SNP.已有的研究估计全人类 基因组中大约有10 000 000个常见SNP位点,这些 位点构成了人类基因组中90 %的差异变化类型.通 过研究这些SNP位点有利于个

31、性化医疗甚至进行 疾病预测. 另外,最新的研究发现,利用已知的SNP位点 可以大幅度地对基因组序列进行压缩. Christley的 研究 20表明 :目前每个人的基因组都可以被压缩到 几兆,甚至用电子邮件发送即可.这项研究表明,在 以后的基因预测或个性化医疗中,患者不必把刻有 自己基因组序列的光盘送到医院或研究中心,等待 人工处理,只需要在网上提交压缩后的基因组文件 即可,服务器即可为患者进行预测并以邮件或网页 的形式返回结果.这个过程避免了从前的人工操作, 不但节省了医疗资源,而且为患者节省了时间.因 此,研究和挖掘SNP位点的意义十分重大. 目前SNP位点大部分来自于测序的数据,根据 观测

32、到的颜色信号的峰值判断某一位是否是SNP 位点.这种方法的开销较大,且不容易找到地域间或 人种间的SNP位点.因此研究者试图通过比对来自 不同地域人种的EST以及基因组序列来发现SNP 位点.这时如何区分真实的SNP与比对错误、 测序 错误所引入的噪声则是一个典型的机器学习分类问 题.该问题目前尚没有较好的分类方法. 3 总结 无论是计算生物学还是系统生物学的研究,都 大量地使用着机器学习方法.生物信息学的研究一 直是一个建立模型、 解决问题、 细化模型、 再解决问 题这样的循环过程.一旦模型中涉及到分类、 聚类或 回归的问题,就会使用机器学习方法来处理.几乎机 器学习中的每一种方法都被应用到

33、了生物信息学 中,包括神经网络、 支持向量机、 遗传算法、 贝叶斯网 络、 隐马尔可夫模型、EM算法、 随机森林等.随着半 监督学习在机器学习理论中的兴起,目前已经有研 究者开始用共学习的方法处理生物信息问题,并取 得了较好的效果 21 . 信息科学和生命科学是21世纪科学技术发展 的两大前沿学科.作为这两大学科的交叉学科,生物 信息学已成为学术界瞩目的焦点领域,它需要研究 者熟练地掌握信息科学中的方法和透彻地理解生命 科学中的问题.机器学习方法是解决生物信息问题 的重要手段之一,研究者不但需要深入地理解每一 种方法的原理,还需要结合具体生物学问题,有效地 融合入领域知识,选取恰当的特征,使用

34、适当的模 型,才能得到好的结果. 参考文献: 1李建伏,郭茂祖.系统发生树构建技术综述J .电子学 报, 2006 ,34(11) :204722052. LIJianfu , G UO Maozu. A review of phylogenetic tree recon2 struction technologyJ . Acta Electronica Sinica , 2006 , 34 (11) :204722052. 2王峻,郭茂祖.转录因子结合位点识别算法的研究J . 电子学报,2007 ,35(12A) :83289. WANGJun , Guo Maozu. Studyon tr

35、anscriptionfactor bingding sites discovery algorimsJ . Acta Electronica Sinica , 2007 , 35 (12A) :83289. 3邹权,郭茂祖,张涛涛. RNA二级结构预测方法综述J . 电子学报,2008 ,36(2) :3312337. ZOU Quan , G UO Maozu , ZHANG Taotao. A review of RNA secondary structure prediction algorithmsJ . Acta Electronica Sinica , 2008 , 36(2)

36、:3312337. 4 K NUDSEN B , HEINJ. Using stochastic context free grammars and molecular evolution to predict RNA secondary structure J . Bioinformatics , 1999 , 15(6) :4462454. 5 K NUDSEN B , HEIN J. Pfold: RNA secondary structure pre2 第3期郭茂祖,等:生物信息学中的学习问题5 diction using stochastic context2free grammar

37、sJ . Nucleic Ac2 ids Research , 2003 , 31(13) :342323428. 6 SHEN Hongbin , CHOU Kuochen. Ensemble classifier for pro2 tein fold pattern recognition J . Bioinformatics , 2006 , 22 (14) :171721722. 7于建涛,郭茂祖,蔡禄.蛋白质相互作用及其网络预测 方法研究进展J .电子学报,2007 , 35(12A) :127. Y UJiantao , G UO Maozu , CAI Lu. Progress

38、in approaches to predicting protein2protein interaction and its networkJ . Acta Electronica Sinica , 2007 , 35(12A) :127. 8 LI Minghui , WANGXiaolong , LINLei , et al. Effect of exam2 ple weights on prediction of protein2protein interactions J . Computational Biology and Chemistry , 2006 , 30:386239

39、2. 9 MALIK Y OUSEF, SEG UN JUNG, LOUISE C SHOWE, et al. Learningfrom positive examples when the negative class is un2 determined microRNA gene identificationJ . Algorithms For Molecular Biology , 2008 , 3(1) :2. 10李建中,杨昆,高宏,等.考虑样本不平衡的模型无关 的基因选择方法J .软件学报,2006 ,17(7) :148521493. LI Jianzhong , Y ANG K

40、un , G AO Hong , et al. Model2free gene selection method by considering unbalanced samples J . Journal of Software , 2006 , 17(7) :148521493. 11 DING ZJ , FENG Y, ZHENG Y G. Granular decision fusion systems for effective protein methylation predictionC 2008 IEEE Symposiumon Computational Intelligenc

41、e in Bioinforma2 tics and Computational Biology (CIBCB 2008) . Sun Valley , Idaho :s. n. , 2008. 12 LI M H, LIN L , WANG XL. Protein2protein interaction site prediction based on conditional randomfieldsJ . Bioinforma2 tics , 2007 , 23(5) :5972604. 13 BRADFORD J R , WESTHEAD D R. Improved prediction

42、of protein2protein binding sites using a support vector machines approachJ . Bioinformatics , 2005 , 21(8) :148721494. 14 REINITZJ , SHARP D H. Mechanism of eve stripe formation J . Mechanisms of Development , 1995 , 49(122) :1332158. 15 XUE Chenghai , LI Fei , HE Tao , et al. Classification of real

43、 and pseudo microRNA precursors using local structure2se2 quence features and support vector machineJ . BMC Bioin2 formatics , 2005 , 69(1) :310. 16 KWANGLOONGSTANLEYN G, SANTOSH KMISHRA. De novo SVM classification of precursor microRNAsfrom genomic pseudo hairpins using global and intrinsic folding

44、 measures J . Bioinformatics , 2007 , 23(11) :132121330. 17 JIANG Peng , WU Haonan , WANG Wenkai , et al. MiPred: classification of real and pseudo microRNA precursors using random forest prediction model with combined featuresJ . Nucleic Acids Research , 2007 , 35:W3392W344. 18 Y OUSEF M, NEBOZHY N

45、 M, SHATK AY H, et al. Combin2 ing multi2species genomic data for microRNA identification us2 ing a naive bayes classifier J . Bioinformatics , 2006 , 22 (11) :132521334. 19 LOWE T M, EDDY S R. tRNAscan2SE: a program for im2 proved detection of transfer RNA genes in genomic sequence J . Nucleic Acid

46、s Research , 1997 , 25(5) :9552964. 20 SCOTT CHRIST LEY, YIMINGL U , CHEN L I, et al. Hu2 man genomes as email attachmentsJ . Bioinformatics , 2009 , 25(2) :2742275. 21 NAM J W, SHIN K R , HAN J , et al. Human microRNA prediction through a probabilistic co2learning model of se2 quence and structureJ . Nucleic Acids Research , 2005 , 33 (11) :357023581. (编辑:许力琴) 6 山 东 大 学 学 报 (工 学 版)第39卷

展开阅读全文
相关资源
猜你喜欢
相关搜索

当前位置:首页 > 项目管理


经营许可证编号:宁ICP备18001539号-1