【大学课件】机器学习研究进展.ppt

资源描述

《【大学课件】机器学习研究进展.ppt》由会员分享，可在线阅读，更多相关《【大学课件】机器学习研究进展.ppt（45页珍藏版）》请在三一文库上搜索。

1、1,机器学习研究进展,http:/ 符号机器学习遗传机器学习分析机器学习,机器学习研究的变迁,Carbonell(1989)展望,Dietterich(1997)展望,？,统计机器学习集成机器学习符号机器学习增强机器学习,流形机器学习半监督机器学习多实例机器学习 Ranking机器学习数据流机器学习,应用驱动的机器学习研究,目前，以“主义”争霸的时代已经过去，不同方法解决不同问题。,http:/ 强调：表示：非线性问题的线性表示泛化：以泛化能力为基础的算法设计,http:/ 1975年，Holland首先将这个概念引入计算机科学。1990年左右，MIT的Sutton等青年计

2、算机科学家，结合动态规划等问题，统称其为增强机器学习这样，遗传学习成为实现增强机器学习的一种方法,http:/ 改变泛化目标为符号描述(数据挖掘)。这意味着，符号机器学习已不是与统计机器学习竞争的研究，而是一个研究目标与其不同的研究范式,http:/ 在算法设计理论上，基础代替随意的算法设计，具体地说，更为强调机器学习的数学基础应用驱动代替理论驱动(认知科学与算法的Open问题)。具体地说，从AI中以“学习”机制驱动(智能)”的研究方式，改变为根据面临的实际问题发展新的理论与方法,http:/ 在线形空间的表示,对给定样本集合，通过算法建立模型，对问题世界为真的程度,http:/ 认识

3、世界：只有在某个空间中可以描述为线性的世界，人们才说，这个世界已被认识(将问题变换为另一个问题) 数学方法：寻找一个映射，将非线性问题映射到线性空间，以便其可以线性表述,http:/ 0 0 0 1,例子：XOR问题：,映射： (x,y)(x,xy,y),线形表示：,http:/ 目前，机器学习主要采用两种方法：整体线性，Hilbert空间(核映射) 类似分段线性，Madaline或弱分类方法,http:/ Neumman为量子力学数学基础提出的一类具有一般意义的线性内积空间在机器学习中借助Hilbert空间构成特征空间,http:/ 这样，我们只需以感知机为基础，研究统计机器学习问题。,

4、http:/ 特征空间的基可以采用多项式基或三角函数基寻找一般的方法描述特征空间存在根本性困难(维数灾) 与神经网络相比，核函数的选择可以借助领域知识，这是一个优点,http:/ 如果不考虑维数问题，在泛函分析理论上，这是可行的这就是核函数方法,http:/ VC维界(Blumer1989) 最大边缘(Shawe-Taylor1998),http:/ 边缘最大，误差界最小，泛化能力最强。泛化能力可以使用样本集合的边缘刻画。,这个不等式依赖于边缘M。贡献：给出了有几何直观的界描述，从而为算法设计奠定基础。,http:/ 目前主要集中在下述两个问题上：泛化不等式需要样本集满足独立同分布，这

5、个条件太严厉，可以放宽这个条件？如何根据领域需求选择核函数，有基本原则吗？,http:/ 数学方法：非线性问题的分段化(类似) 计算技术：Widrow的Madaline模型统计理论：PAC的弱可学习理论,http:/ 假设信息加工是由神经集合体来完成,http:/ 在数学上，其本质是放弃感知机对样本空间划分的超平面需要满足连续且光滑的条件，代之分段的超平面,http:/ 多个弱分类器可以集成为一个强分类器,1990年，Schapire证明了一个关键定理，由此，奠定了集成机器学习的理论基础,http:/ 目前，这类机器学习的理论研究主要是观察与积累，大量的现象还不能解释,http:/ Sol

6、omonoff的文法归纳方法(1959),符号机器学习的主流： Samuel限制机器学习在结构化符号数据集合上(1967)，约简算法。,Gold证明，这是不可能的实现的(1967)。,值得注意的动向：文法归纳方法引起人们的重视。,Hebb路线：每个规则可以理解为一个弱分类器。,http:/ 等价关系为： (x, y) : a(x)=a(y), x, yU,http:/ 两个因素影响这个目标：其一，从实域到符号域的映射，其二，在符号域上的约简。对“最小”两者都是NP完全的。因此，近似算法是必然的但是，只有在符号域上的约简是符号机器学习特有，因此，其泛化能力受到限制不必与统计机器学习竞争，设

7、立新目标,http:/ 传统机器学习是“黑箱”，模型无须可解释，但是，数据分析必须考虑对用户的可读性传统机器学习将“例外”考虑为噪音，而数据分析则认为“例外”可能是更有意义的知识,http:/ 这个目标与泛化能力无关，计算结果只是给定数据集合根据特定需求的一个可以被人阅读的缩影这与传统数据分析的目标一致,http:/ 符号数据分析，尽管统计工具是必要的，但是，主要是通过将符号数据集合约简为简洁形式,http:/ sets中的reduct理论是近几年符号机器学习最重要的研究结果之一这个理论理论可以作为符号机器学习的数学基础这个理论可以作为符号数据分析的基础(数据挖掘),http:/ ru

8、les派生于统计相关分析，其方法可以使用reduct理论来刻画 Reduct具有很多重要的数学性质，可以保证根据不同需求识别不同的例外我们建议，将符号数据分析建立在reduct理论之上,http:/ exception 注释：在统计学中，这类观察称为outlier，在认知科学中，有意义的outlier称为exception,http:/ 只要删除一个核属性，必然产生例外，同时缩短规则集,http:/ 例外是比可以覆盖大多数样本的规则更为有趣的知识对专家，规则是“老生常谈”，而例外则是应该引起注意的事件或知识例外是新研究与发现的开始,http:/ 开始的动机主要是为了解决机器人规划、避障

9、与在环境中适应的学习问题目前，由于网络用户是更为复杂的环境，例如，如何使搜索引擎适应用户的需求，成为更为重要的应用领域,http:/ 流形学习是解决上述问题的非线性方法由于流形的本质是分段线性化，因此，流形学习需要解决计算开集、设计同胚映射等问题,http:/ 这类问题直接来自于实际应用：例如，大量医学影像，医生把每张片子上的每个病灶都标出来再进行学习，是不可能的，能否只标一部分，并且还能利用未标的部分？,http:/ for ranking 问题主要来自信息检索，假设用户的需求不能简单地表示为“喜欢”或“不喜欢”，而需要将“喜欢”表示为一个顺序，问题是如何通过学习，获得关于这个“喜欢”顺序的模型。,http:/ 如何学习一个模型可以完成这个任务，同时可以增量学习，以保证可以从数据流中不断改善(或适应)用户需求的模型,http:/ 这些范式主要以任务为驱动力，大多数采用的方法是传统机器学习的方法应用效果还不十分明显,http:/ 需要考虑科学原理解决表示问题，特别需要借用近代数学的研究结果，“拍脑袋式”研究的时代可能已经过去一种范式独步天下的时代已经过去，进入“多极世界” 时代应用驱动成为必然，这意味着，任何方法需要在应用中检验,http:/ 谢!,http:/

展开阅读全文