三分钟解读机器学习及其算法汇总.doc

资源描述

《三分钟解读机器学习及其算法汇总.doc》由会员分享，可在线阅读，更多相关《三分钟解读机器学习及其算法汇总.doc（7页珍藏版）》请在三一文库上搜索。

1、三分钟解读机器学习及其算法汇总一、机器学习的发展背景：人工智能人工智能（ArTIficial Intelligence，缩写为AI）是对人的意识、思维过程进行模拟的一门新学科。如今，人工智能从虚无缥缈的科学幻想变成了现实。计算机科学家们在人工智能的技术核心机器学习（Machine Learning）和深度学习（Deep Learning）领域上已经取得重大的突破，机器被赋予强大的认知和预测能力。回顾历史，在1997年，IBM深蓝战胜国际象棋冠军卡斯帕罗夫；在2011年，具备机器学习能力的IBM Waston参加综艺节目赢得100万美金；在2016年，利用深度学习训练的Aplphago成功击败人

2、类世界冠军。种种事件表明机器也可以像人类一样思考，甚至比人类做得更好。目前，人工智能在金融、医疗、制造等行业得到了广泛应用，全球投资从2012年的589亿美元猛增至2016年50多亿美元。麦肯锡预计，到2025年人工智能应用市场的总值将达到1270亿美元。与此同时，麦肯锡通过对2016年人工智能市场的投资进行深入分析，发现有将近60的资金并购围绕机器学习来布局。其中，基于软件的机器学习初创公司比基于机器的机器人公司更受投资欢迎。从2013 年到2016 年，这一领域的投资复合年均增长率达到约80。由此可见，机器学习已经成为目前人工智能技术发展的主要方向。二、机器学习与人工智能、深度学习的关系在

3、介绍机器学习之前，先需要对人工智能、机器学习和深度学习三者之间的关系进行梳理。目前业界最常见的划分是：人工智能是使用与传统计算机系统完全不同的工作模式，它可以依据通用的学习策略，读取海量的大数据，并从中发现规律、联系和洞见，因此人工智能能够根据新数据自动调整，而无需重设程序。机器学习是人工智能研究的核心技术，在大数据的支撑下，通过各种算法让机器对数据进行深层次的统计分析以进行自学；利用机器学习，人工智能系统获得了归纳推理和决策能力；而深度学习更将这一能力推向了更高的层次。深度学习则是机器学习算法的一种，隶属于人工神经网络体系，现在很多应用领域中性能最佳的机器学习都是基于模仿人类大脑结构的神经网

4、络设计而来的，这些计算机系统能够完全自主地学习、发现并应用规则。相比较其他方法，在解决更复杂的问题上表现更优异，深度学习是可以帮助机器实现独立思考的一种方式。总而言之，人工智能是社会发展的重要推动力，而机器学习，尤其是深度学习技术就是人工智能发展的核心，它们三者之间是包含与被包含的关系。如图1所示。图1 人工智能、机器学习、深度学习之间的关系三、机器学习：实现人工智能的高效方法从广义上来说，机器学习是一种能够赋予机器学习的能力以此让它完成直接编程无法完成的功能的方法。但从实践的意义上来说，机器学习是一种通过利用数据，训练出模型，然后使用模型预测的一种方法。国外有些学者对机器学习进行了定义大同小

5、异，有学者认为，机器学习是对能通过经验自动改进的计算机算法的研究；也有学者认为，机器学习是指利用数据或以往的经验，以此优化计算机程序的性能标准。由此可知，机器学习是通过经验或数据来改进算法的研究，通过算法让机器从大量历史数据中学习规律，得到某种模式并利用此模型预测未来，机器在学习的过程中，处理的数据越多，预测结果就越精准。机器学习在人工智能的研究中具有十分重要的地位。它是人工智能的核心，是使计算机具有智能的根本途径，其应用遍及人工智能的各个领域。从20世纪50年代人们就开始了对机器学习的研究，从最初的基于神经元模型以及函数逼近论的方法研究，到以符号演算为基础的规则学习和决策树学习的产生，以及之

6、后的认知心理学中归纳、解释、类比等概念的引入，至最新的计算学习理论和统计学习的兴起，机器学习一直都在相关学科的实践应用中起着主导作用。现在已取得了不少成就，并分化出许多研究方向，主要有符号学习、连接学习和统计学习等。（一）机器学习的发展历程机器学习发展过程大体可分为以下四个阶段：150年代中叶到60年代中叶在这个时期，所研究的是没有知识的学习，即无知学习；其研究目标是各类自组织系统和自适应系统；其主要研究方法是不断修改系统的控制参数以改进系统的执行能力，不涉及与具体任务有关的知识。指导本阶段研究的理论基础是早在40年代就开始研究的神经网络模型。随着电子计算机的产生和发展，机器学习的实现才成为可

7、能。这个阶段的研究导致了模式识别这门新科学的诞生，同时形成了机器学习的二种重要方法，即判别函数法和进化学习。塞缪尔的下棋程序就是使用判别函数法的典型例子。不过，这种脱离知识的感知型学习系统具有很大的局限性。无论是神经模型、进化学习或是判别函数法，所取得的学习结果都很有限，远不能满足人们对机器学习系统的期望。在这个时期，我国研制了数字识别学习机。260年代中叶至70年代中叶本阶段的研究目标是模拟人类的概念学习过程，并采用逻辑结构或图结构作为机器内部描述。机器能够采用符号来描述概念（符号概念获取），并提出关于学习概念的各种假设。本阶段的代表性工作有温斯顿（Winston）的结构学习系统和海斯罗思（

8、Hayes Roth）等的基于逻辑的归纳学习系统。虽然这类学习系统取得较大的成功，但只能学习单一概念，而且未能投入实际应用。此外，神经网络学习机因理论缺陷未能达到预期效果而转入低潮。因此，使那些对机器学习的进展抱过大希望的人们感到失望。他们称这个时期为黑暗时期。370年代中叶至80年代中叶在这个时期，人们从学习单个概念扩展到学习多个概念，探索不同的学习策略和各种学习方法。机器的学习过程一般都建立在大规模的知识库上，实现知识强化学习。尤其令人鼓舞的是，本阶段已开始把学习系统与各种应用结合起来，并取得很大的成功，促进机器学习的发展。在出现第一个专家学习系统之后，示例归约学习系统成为研究主流，自动知

9、识获取成为机器学习的应用研究目标。1980年，在美国的卡内基梅隆大学（CMU）召开了第一届机器学习国际研讨会，标志着机器学习研究已在全世界兴起。此后，机器归纳学习进入应用。1986年，国际杂志机器学习（Machine Learning）创刊，迎来了机器学习蓬勃发展的新时期。70年代末，中国科学院自动化研究所进行质谱分析和模式文法推断研究，表明我国的机器学习研究得到恢复。1980年西蒙来华传播机器学习的火种后，我国的机器学习研究出现了新局面。4机器学习最新阶段始于1986年一方面，由于神经网络研究的重新兴起，对连接机制学习方法的研究方兴未艾，机器学习的研究已经在全世界范围内出现新的高潮，机器学习

10、的基本理论和综合系统的研究得到加强和发展。另一方面，对实验研究和应用研究得到前所未有的重视，机器学习有了更强的研究手段和环境。从而出现了符号学习、神经网络学习、进化学习和基于行为主义（acTIonism）的强化学习等百家争鸣的局面。图2 机器学习的发展历程（二）机器学习的结构模型机器学习的本质就是算法。算法是用于解决问题的一系列指令。程序员开发的用于指导计算机进行新任务的算法是我们今天看到的先进数字世界的基础。计算机算法根据某些指令和规则，将大量数据组织到信息和服务中。机器学习向计算机发出指令，允许计算机从数据中学习，而不需要程序员做出新的分步指令。机器学习的基本过程是给学习算法提供训练数据。

11、然后，学习算法基于数据的推论生成一组新的规则。这本质上就是生成一种新的算法，称之为机器学习模型。通过使用不同的训练数据，相同的学习算法可以生成不同的模型。从数据中推理出新的指令是机器学习的核心优势。它还突出了数据的关键作用：用于训练算法的可用数据越多，算法学习到的就越多。事实上，AI 的许多最新进展并不是由于学习算法的激进创新，而是现在积累了大量的可用数据。图3 机器学习的结构模型（三）机器学习的工作方式1选择数据：首先将原始数据分成三组：训练数据、验证数据和测试数据；2数据建模：再使用训练数据来构建使用相关特征的模型；3验证模型：使用验证数据输入到已经构建的数据模型中；4测试模型：使用测试数

12、据检查被验证的模型的性能表现；5使用模型：使用完全训练好的模型在新数据上做预测；6调优模型：使用更多数据、不同的特征或调整过的参数来提升算法的性能表现。图4 机器学习的工作方式（四）机器学习发展的关键基石：（1）海量数据：人工智能的能量来源是稳定的数据流。机器学习可以通过海量数据来训练自己，才能开发新规则来完成日益复杂的任务。目前全球有超过30亿人在线，约170 亿个连接的设备或传感器，产生了大量数据，而数据存储成本的降低，使得这些数据易于被使用。（2）超强计算：强大的计算机和通过互联网连接远程处理能力使可以处理海量数据的机器学习技术成为可能，具某媒体称，ALPHGO之所以能在与对李世石的对

13、决中取得历史性的胜利，这与它硬件配置的1920个CPU和280个GPU超强运算系统密不可分，可见计算能力对于机器学习是至关重要的。（3）优秀算法：在机器学习中，学习算法（learning algorithms）创建了规则，允许计算机从数据中学习，从而推论出新的指令（算法模型），这也是机器学习的核心优势。新的机器学习技术，特别是分层神经网络，也被称为深度学习，启发了新的服务，刺激了对人工智能这一领域其他方面的投资和研究。图5 机器学习的关键基石（五）机器学习的算法分类机器学习基于学习形式的不同通常可分为三类：1监督学习（Supervised Learning）给学习算法提供标记的数据和所需的输

14、出，对于每一个输入，学习者都被提供了一个回应的目标。监督学习主要被应用于快速高效地教熟AI现有的知识，被用于解决分类和回归的问题。常见的算法有：（1）决策树（Decision Trees）：决策树可看作一个树状预测模型，它通过把实例从根节点排列到某个叶子节点来分类实例，叶子节点即为实例所属的分类。决策树的核心问题是选择分裂属性和决策树的剪枝。决策树是一个决策支持工具，它用树形的图或者模型表示决策及其可能的后果，包括随机事件的影响、资源消耗、以及用途。用于分析判断有无贷款意向的决策树示如图所示，从商业角度看，常用于基于规则的信用评估、赛马结果预测等。图6 决策树（2）Adaboost算法：这是

15、一种迭代算法，其核心思想是针对同一个训练集训练不同的分类器（弱分类器），然后把这些弱分类器集合起来，构成一个更强的最终分类器（强分类器）。算法本身是改变数据分布实现的，它根据每次训练集之中的每个样本的分类是否正确，以及上次的总体分类的准确率，来确定每个样本的权值。将修改权值的新数据送给下层分类器进行训练，然后将每次训练得到的分类器融合起来，作为最后的决策分类器。AdaBoost算法主要解决了：两类问题、多类单标签问题、多类多标签问题、大类单标签问题和回归问题；优点：学习精度明显增加，并且不会出现过拟合问题，AdaBoost算法技术常用于人脸识别和目标跟踪领域。图7 Adaboost（3）人工

16、神经网络（ArTIficial Neural Network ANN）算法：人工神经网络是由大量处理单元互联组成的非线性、自适应信息处理系统。它是在现代神经科学研究成果的基础上提出的，试图通过模拟大脑神经网络处理、记忆信息的方式进行信息处理。人工神经网络是并行分布式系统，采用了与传统人工智能和信息处理技术完全不同的机理，克服了传统的基于逻辑符号的人工智能在处理直觉、非结构化信息方面的缺陷，具有自适应、自组织和实时学习的特点。图8 人工神经网络（4）SVM（Support Vector Machine）：SVM 法即支持向量机算法，由Vapnik等人于1995年提出，具有相对优良的性能指标。该方法是建立在统计学习理论基础上的机器学习方法。SVM是一种二分算法。假设在N维空间，有一组点，包含两种类型，SVM生成a（N1）维的超平面，把这些点分成两组。比如你有一些点在纸上面，这些点是线性分离的。SVM会找到一个直线，把这些点分成两类，并且会尽可能远离这些点。从规模看来，SVM（包括适当调整过的）解决的一些特大的问题有：

展开阅读全文