数据挖掘翻译.doc

上传人:本田雅阁 文档编号:2741813 上传时间:2019-05-10 格式:DOC 页数:10 大小:1.38MB
返回 下载 相关 举报
数据挖掘翻译.doc_第1页
第1页 / 共10页
数据挖掘翻译.doc_第2页
第2页 / 共10页
数据挖掘翻译.doc_第3页
第3页 / 共10页
数据挖掘翻译.doc_第4页
第4页 / 共10页
数据挖掘翻译.doc_第5页
第5页 / 共10页
点击查看更多>>
资源描述

《数据挖掘翻译.doc》由会员分享,可在线阅读,更多相关《数据挖掘翻译.doc(10页珍藏版)》请在三一文库上搜索。

1、15.1综述基因和蛋白质不是独立的存在于细胞中这一事实已经越来越被人接受。在细胞中,基因和蛋白质是细胞通路和生化反应与加工过程的一部分,并且他们的功能建立在除了个人属性外的细胞环境中。相对地,在生物信息学中,注释的焦点已经从分配功能转移到与功能有关的独立蛋白质的功能中。(定义:两个功能相关的蛋白质是指这两个蛋白质共同参加细胞的合成过程。功能联系:存在于很多的细胞活动中,是指在信号转导通路中两个蛋白质的相互作用,比如说蛋白质作为酶参与相同的代谢途径,作为被调节的蛋白质或者调节另外蛋白质的蛋白质) 从理论角度的观点看,本章涉及一些基本的与数据学习方法有关的问题,这些方法主要是统计学方法和机器处理数

2、据的方法,运用统计学和机器处理数据的方法具有高效,强表达力和说服力的作用,通过对这些数据的分析,将具有特殊生物学功能的区域进行合并。在机器学习方法中,有一个固有张力:即在PPI(蛋白质和蛋白质间的相互作用)的上下文预测中,很多敏感的预测需要越多的信息,比如说系统发生的信息等;更多有特殊功能蛋白质的预测需要更多的细节信息,比如结构信息等。因此提取隐藏在数据中的信息并且将不同来源地和不同水平的数据在保持灵敏性和特异性平衡的条件下转化为生物学知识是很重要的。这也就表明这一章的主要内容是:在主要部分以外的内容中获取更多的信息,然后返回来建立一个方法,这个方法仅仅需要主要序列的信息来做预测。为了这个目的

3、,现有的学习模式已经不能满足,新的技术和模型被开发出来,比如说应用转化式学习最小二乘法支持向量方式的学习,在充分统计学的ipHMMs中制定一个新的费舍尔得分来促进特征选择。 特别的,我们着重从以下三个方面来推断和预测蛋白质的功能关系。1.进化的观点:提取和整合进化方面的方法和模型,如距离矩阵和系统发育谱。信息量和系统发育树的拓扑结构之间的关系被用来学习和利用以供数据规则化的使用。作用机制被设计用来发现不标准的进化事件,比如说基因水平转移,并且它的含义对PFL(蛋白质功能联系)的预测做出了合理的解释。2.结构的观点:结构方面的信息,比如说邦定残留被纳入模型,这样可以用于PFL的预测,尤其是PPI

4、,对那些没有结构信息的蛋白质。特征选择被开发和利用在识别结构和功能特征以及提出有效的淘汰基因突变建议。3.网络的观点:预测细胞间相互作用的方法和模型涉及多种蛋白质,并且需要结合网络环境的图论的方法。在生物信息学和计算生物学中,最新的计算方法主要是一下两种类型中的一个。1.ab initio:即运用分子动力学的第一原则来解释和预测生物分子过程。一个典型的例子就是ab initio方法在蛋白质折叠问题上的发展。2.表观现象:通过与功能相关的结构域检测表型的特征,并且建立模型来从没有功能联系的结构域中将它们区分出来。尽管PFL的理念问题最终应该用ab initio的方法解决,但是总是缺少充分的信息来

5、将这些问题与分子动力学的解决方案联系在一起,或者即使这些信息是可供使用的,计算机也超过了他的最大内存容量。总的来说,像其他许多生物信息学的方法一样,为PFL开发的方法也属于表观现象的这一种类。从某种意义上来说,在将两个分子结合在一起的静电位的计算上,我们没有下去一个水平,相反的,我们仍然保持在一个相对较高的并且有象征意义的水平上,在提取蛋白质作为一个序列中,用20个字母表示20种氨基酸,试着从不同的来源的蛋白质中提取可利用的信息,这些信息可以用于基因组测试,也用于在蛋白质的X射线晶体结构中残留位置的确定。比如说:如果知道这一组蛋白质有相同的功能,我们可已将他们的主要序列对齐,来观察他们相同的特

6、征。由于生物的进化,比如说在进化过程中这些蛋白质中的一些发生了突变,而且这些突变一直保持着,那么这个序列就不是完全相同的。另一方面,这些结构和功能的区域相对来说是稳定的,并且在序列比对中这些序列也会表现出高度的相似性。在已知功能的区域,可以在这些蛋白质区域构建概率模型,然后用不知道功能的蛋白质来识别这些区域。这样简化了的方法表明了一种典型的逻辑上很本质的被许多生物信息学分享的方法,在基因组和蛋白质组学中,这种方法在缺乏各种高通量计术产生巨大数据量的情况下,提取数据是非常的有用和高效。15.2 生物背景和动机高通量技术的新发展,使得我们可以在大量的细胞和在生物反应的环境下研究分子实体成为可能。比

7、如说:基因芯片技术可以同时的测试成千上万的基因的表达水平。在不同的条件下和不同的时间点下检测基因的表达可以对分子机制基本的过程有深刻的理解,比如说基因调节。结合二维凝胶和质谱仪的方法,在直接测量蛋白质的表达水平中是一个很先进的方法。然而,没有有效的高通量技术方法对直接的观测PFL有效,比如说,两个蛋白质相互作用的方法,如Y2B系统(当前分类中的一种方法),就有很多的错误。由于这些困难和由实验方法造成的高成本,使得开发一个高效的计算方法来从成千上万的数据中推断它们的功能联系越来越紧迫。这些数据要么来直接源于高通量技术产生的实验中,要么来源于包括DNA和蛋白质的数据库(SwissProt和Genb

8、ank),功能数据库(PDB,SCOP和CATH),进化研究(系统发育谱),表达谱,KEGG,和一些文献中。预测PFL是一个高度困难的任务,因为它要考虑到很多方面的因素。为了提高问题的复杂性,我们将PPI作为一个例子。即使两个蛋白质可以在物理方面相互作用,但是实际上他们是否有相互作用取决于这两个蛋白质在同一时间是否处于细胞中的同一位置。两个蛋白质是否相互作用的核心问题最终基本上是被生物物理学和生物化学的研究决定的:即是否将这两个蛋白质绑定在一起有互补的有利作用。当两个蛋白质相互作用时,参与相互作用的残余物(一般在分子的表面)形成了一个域。如图15.1所示,该图表示两个相互作用的蛋白质间的结构相

9、容性,其中黑色突出的区域表示相互作用的表面,边界层的区域是很突出的。这样的区域作为结构和功能的单位出现在所有具有相同结构或功能的蛋白质中,控制着独特的性状。换句话说,这些区域是这些功能或结构的决定性区域,因此用术语“结构域”来表示他们之间的关联。在研究蛋白质的相互作用中,有两个主要的任务:其中一个是识别残余物或者涉及交互的其他结构域。另一个问题是预测相互作用的其他蛋白质。在这里,我们用物理间相互作用的两个蛋白质作为一个例子,结构域的概念适用于具有特定功能的蛋白质中,同时也适用于功能间的联系。也就是说,功能相关的蛋白质很可能通过与他们相关的结构域识别,尽管他们之间很少有直接的关系,或者它们之间的

10、关系很微妙。图15.1蛋白质与其所行使的功能之间一个微妙的联系是通过所谓的系统发育谱来研究的。有很所问题,比如说为什么蛋白质的功能和结构区域需要保持它们的序列组成,同时与功能相关的蛋白质在进化过程中也会发生变化,结果就是与该功能相关的其他蛋白质也会发生变化,最终达到了共同进化的作用,因为一个蛋白质不可能在没有其他蛋白质相互作用的条件下独自正确的发生作用。图15.2表明了一个蛋白质变化导致其他蛋白质的变化,最终达到共同进化。在较高的层次,蛋白质的进化史是作为一个系统发育图谱表示出来的,在这系统发育图谱中,每一个成分都符合一个特定的基因组,并且或给它取值为0或1.其中1表示在该基因中存在同源基因,

11、0表示不存在同源基因。如果两个蛋白质共同进化,他们的系统发育图谱将会通过相似甚至于完全相同的方式反映这个事实,如图15.3。为了解决共同进化问题产生的分歧,已经开发了很多的方法。比如说:拥有完全相同的系统发育图谱是很需要的,因为蛋白质在基因中的存在或者不存在不总是100%可靠的,因为判断蛋白质在基因中是否存在是建立在通过对蛋白质序列和基因序列做blast的基础上。因此基于这样严格标准的方法很可能会将两个相互作用的蛋白质预测为没有相互作用的蛋白质,导致一个错误的结果(FN)。即使用不同的方法,多结构域的蛋白质,在声明他们的蛋白质存在与否方面也会增加这个任务的难度。图15.2图15.2解释:蛋白质

12、相互作用中的共同进化,相互作用涉及到在缬氨酸和丙氨酸之间形成氢键。在其中一个蛋白质中,缬氨酸中一个基因发生突变,导致缬氨酸形成异亮氨酸并且使缬氨酸和丙氨酸之间的氢键破坏。同时这个突变也使与缬氨酸相连的丙氨酸形成亮氨酸,因为亮氨酸和异亮氨酸也可以形成这种反应所需要的氢键。并且这种突变在以后的进化中一直保持了下去。图15.315.3计算方法推断PFL,预测PPI已经变成逆向工程生物网络的主要任务,并且在毒品的设计和交易中有很实际的应用。像DNA芯片和Y2B这样的高通量实验方法仍然是非常昂贵的,并且会间接的产生一些不可靠的数据,因此需要一些计算的方法来补充它。在现在的这种环境下,大力发展一个能够高精

13、度的预测PPI并且推断PFL的方法是有很多有利条件的。15.3.1 在进化的信息中预测蛋白质与蛋白质之间的功能(PFL)自从在20世界90年代后期第一次提出功能注释的概念后,为了实现利用共同进化的信息来找到与它们功能相关的蛋白质这一想法,科学家们已经付出了很多的努力。其中一个方向是,提取出有代表性的共同进化的信息,另外一个方向就是开发一个更强大的计算工具来分析这些数据。最初的系统发育谱是二进制的值,用1和0来代表参照基因中同源蛋白质的有无(其中1代表有同源蛋白质,0代表没有同源蛋白质)。然后用实际的值来判断他们同源的概率特性同时也避免了信息的损失。为了更好的解决多区域蛋白的问题,开发了一个用结

14、构域或者残余量的信息做序列比对,然后构建系统发育图谱的方法。为了更精确的捕获PFL的原因,系统发育图谱进一步的推到包括直系同源蛋白质和以及这些参照基因的系统发育系统。这些关于蛋白质共同进化的丰富的信息需要更复杂的方法来挖掘他们的关系并且做出正确的预测。在这一方面研究的努力主要集中在测量他们的“相似性”。最初,尝试使用汉明距离来测量两个二进制文件之间的相似性,并且该方法在检测一些PFL中取得成功。然而,汉明距离的缺点是很明显的。因为这个方法不能测量出细微的差异,因此就不能有效的解决实际的问题。交互信息可以测量两个蛋白质之间的协同依赖性,如果它们的系统发育谱被看做是蛋白质在参照基因中分配的可能性。

15、概率分布的计算为了配置文件的组件,往往需要分级的值,在种方法在大量的参照基因组不充足的情况下是有问题的。相关系数被证明是可供选择的,尽管它缺少概率性的解释。为了增强配置文件与系统发育树的信息,一种更先进的方法被开发出来,这种方法包括tree kernel,mirror tree,TreeSec,最小平方SVM等等。15.3.2 多种多样的系统发育谱 最初的系统发育图谱,如表15.3,可以利用序列比对工具人如blast,在参照基因序列中搜索与其同源的蛋白质序列来构建。如果通过blast比对得到的序列比对的E-value值大于预先设定的临界值,那么就可以认为该序列是存在的,参照基因组的E-valu

16、e值是1。0的值被分配给其他的值。然而,在最初的时候它是成功的, 快速并且方便的补救方法是运用E-value值或者它们中的一些变化而不是只研究0点或者1点。E-value值的一个例子是1/ log(E),就像下面的方程式15.1所写的一样。大多数的蛋白质功能是通过结构域表示出来的,一些蛋白质很可能会包含在不同的结构域中从而发挥不同的功能。多区域蛋白存在造成了很大的困难在早期的系统发育图谱中,因为蛋白质的存在与否建立在对整个蛋白质序列比对的基础上;因此多区域功能蛋白的图谱可能会有很多,不仅如此,一个蛋白质很可能存在于多个结构域中。多区域蛋白和单区域蛋白的系统发育图谱之间明显的不同可以挑战人们开发

17、一个算法来探测他们之间真正的关系。在蛋白质结构域水平甚至于在残留量水平,在构建系统发育图谱中这种提示性方法的发展中,将这两种方法结合起来可以减少频繁发生的错误,主要是因为在检测蛋白质结构域时运用了滑动窗口。残留量水平的共同进化信息主要是通过与参照基因做blast收集起来的。特别的,给定一个蛋白质Pi,将其与参照基因组Ga做blast并且让A(Pi,Ga)成为局部序列比对的blast搜索的返回值,其中返回值的E-value值小于或等于0.5。蛋白质中的任何残渣将会出现在A(Pi,Ga)中不止一个序列中。当属于这种情况的时候,最好的E-value值E(A)将会代表这种残留物在参照序列中的局部保守性

18、。当残留物在任何序列中都不出现时,用默认的缺省值1.0来代替。然后,对每个氨基酸残基r在蛋白质Pi中,系统发育谱被定义用如下的方式:系统发育图谱r(a)和s(a)之间的相似性可以被交互信息I(r, r)测量,其中交互信息I(r, r)的计算方法为:其中这就是信息熵。其中f是频率,取值范围在1到m之间,r(a)在bin中有评估,r(a)被分为两个子届,并且每一个届都有一个bin值。相关熵H(r, r)也被同样的定义。当交互信息被广泛的用在测量两个分派的相似性时,它的实现需要将实际值和离散值结合,这就需要引入一个附加参数,即bin的个数放入到这个方法中,并且最优化这个参数。如果可能的话,会消耗时间

19、并且数据就有依赖性。作为一种选择,皮尔森相关系数可以代替两个系统发育谱r(a)和s(a)之间相似性的测量。 (15.4) 其中,r = (1/m)a=1 to mr(a)是系统发育谱r的均值,s = (1/m)a=1 to ms(a)是系统发育图谱s的均值。有人指出不需要bin两个系统发育谱中所有的数值都是有效的。Kim在2006年和Craig在2008年的文章均报告了相似性测量可以提高系统发育图谱的精确度。 最近,开发出了一些新的方法可以获得额外的信息,其中这些信息包括相关的突变和关于系统发育树的信息。两个系统发育树在功能相关蛋白方面的相似性第一次被定性的发现是在独立的情况在在PPI的背景下

20、,然后在大量相互作用的蛋白质的条件下被统计。假设是与与功能相关的蛋白质将会从属于共同进化的过程,并且翻译形成的蛋白质比系统发育树预测的更相似。如图15.4,两个蛋白质R和S,它们的系统发育树可以被构建通过参照基因组中的同源蛋白质进行多序列比对得到。如果两个蛋白质有关联,他们的系统发育树将会是彼此相似的,即一棵树好像在镜子里看到另外一棵树一样。这个镜像树的方法远远超过系统发育图谱的方法:分支的长度和树的结构是被考虑的,然而在系统发育图谱方法中,仅仅只有蛋白质的是否存在(树的叶子)被考虑。由于涉及直接的规定和计算树的相似性的复杂性,这种方法实际上通过间接的方法评估树的相似性,即按两个距离矩阵之间元

21、素的相似性评估,其中每个矩阵存储着同源蛋白质和与它对应的蛋白质之间成对的距离。高的相关系数表示有高的相似性,即两个蛋白质有很大的可能性相关。图15.4 然而这样是讲的通的,即通过合并更多的信息来提高PFL预测的精确度,比如说系统发育树,有人可能会问为什么提高预测的精确度是必须的,因为PFL有很广泛的关系。这个争论实际上触及到了机器学习的一个最基础的方面,这个方法是以现象学本质为基础的。当然,将更多的属性特征作为输入在实体方面有很大的不同,比如2-D凝胶电泳可以将分子和其他物质分开而1-D电泳却不能。然而,简单的加一些信息是没有帮助的,并且很可能会使这个学习方法复杂化。 的确,尽管提高了性能,通

22、过镜像树方法预测仍然存在很多的问题。主要的原因是额外的信息是没有区分的;如图15.4建立的系统发育树,由于潜在物种树的相似性,不管两个蛋白质之间是否有联系,这个树都有很大的相似性。为了提高PFL预测的准确性,需要开发一个明智的选择系统发育信息的技术,同时,应该阐明在进化过程中,PFL和其他事件,比如说横向基因转移是怎样缠绕在一起的。 为了给蛋白质分类,系统发育树被编码并且被串连在系统发育图谱中。合并系统发育树的关键点是实现在系统发育图谱中不是所有的部件都是同样重要的,与生物题密切相关的部件很可能与生物体比较远的部件的贡献不同,在决定蛋白质的PFL中。因此,系统发育树可以注入一些与系统发育图谱不

23、同的一些部件。如图15.5所示,系统发育图谱注入了一些额外的部件代表了一些树的内接点的一些得分。这些得分是通过原始的系统发育图谱从树的叶子到根的过滤得到的。图15.5当S(k)是他孩子节点的算术平均数时,C代表了关于k的一套子节点,|C|代表这一套子节点的大小。原始系统发育图谱的部件在某种程度上贡献于额外的部分,而这一部分建立在树的叶子上的相对位置。原始的部件可以通过质量明确的区分出他们的不同,在个质量表示这个蛋白质在特定的基因中存在或者不存在的频率。得分S(k)被定义为其中内节点上的加权值W被定义为1,意味着没有加权。叶子i处的加权值WS(i)(i)代表在训练数据中,在基因i中蛋白质的存在与

24、否,其中不存在蛋白质时(S(i) = 1),存在蛋白质时(S(i) = 1)。叶子处的权重可以被看做是基因中蛋白质存在区域的可能性,从计数频率给出概率分布的最大似然估计。因为在系统发育树中,权重因子W反映了在叶子位置蛋白质存在的可能性。并且这一集体的关于蛋白质组的从训练数据中抽取的信息可以帮助我们区分与功能相关的蛋白质和与功能无关的蛋白质。因此,用直觉的感觉来收集权重因子可以区分相关的蛋白质和不相关的蛋白质。通过权重来分开与功能相关蛋白质和不相关蛋白质的方法是非常有效的,但是他不能直接的应用于检测例子,因为我们不知道它们到底是相关的还是不相关的,我们不能收集单独的权重。为了克服这个问题,Cra

25、ig 和 Liao来发了直推学习方法和期望值最大化算法来利用影藏的信息,公式15.6作为编码系统发育树的拓扑结构是必须的,他作为树的延生部分。为了减少高频率错误信息对镜像树方法的影响,一个新的被叫做TreeSec的方法被开发出来,用来解释存在于镜像树方法中的距离矩阵的相关系数。对角阵元素中的系数可以反映他们相对位置的价值,在参照序列中被赋予进化关系。换句话说,依据它们在矩阵中的位置,它们可能带有不同的权重,这个权重可以告诉我们这两个蛋白质之间共同进化的关系。然而,这样的相关系数不适应与镜像树的线性相关系数,因为在镜像树中,所有的系数都是同样重要的。如图15.6所示。这种情况被另外一种新的方法补救。特别的,如图15.6所示,参照基因的物种数被用为直系同源蛋白质的层次聚类的向导。这些集群之间的距离运用邻接法建立的原始的成对的距离矩阵,这个距离形成了一个起媒介作用的距离矩阵,这个矩阵最后转化形成super-phylogenetic向量。一个支持向量机在成对的蛋白质中被训练和测试,并且最后形成super-phylogenetic向量,这个super-phylogenetic向量中蛋白质的相互关系是已知的。在交叉验证的实验中,测量受试者工作特征的性能表明该方法比镜像树方法有显著的改进。图15.6

展开阅读全文
相关资源
猜你喜欢
相关搜索

当前位置:首页 > 其他


经营许可证编号:宁ICP备18001539号-1