第5章数据挖掘.ppt_三一文库31doc.com

资源描述

《第5章数据挖掘.ppt》由会员分享，可在线阅读，更多相关《第5章数据挖掘.ppt（33页珍藏版）》请在三一文库上搜索。

1、第5章数据挖掘,本章内容,5.1 大数据挖掘概念 5.2 大数据挖掘概念 5.3 数据挖掘流程数据挖掘的常用方法实验5 数据挖掘,5.1.1 数据挖掘的起源,从我们的观点来看，大部分数据挖掘问题和相应的解决方法都起源于传统的数据分析。数据挖掘起源于多种学科，其中最重要的两门是统计学和机器学习，统计学起源于数学，因此，它强调数学上的精确。在实践测试之前，在理论基础上建立一些东西的要求是明智的，相比之下，机器学习更多地起源于计算机实践。这就导致了实践的倾向，自觉地对一些东西进行检验来查看它表现的好坏，而不是去等待有效性的正式证据。,5.1 大数据挖掘概念,5.1.2 数据挖掘的定义,数据挖掘

2、（Data mining），又译为资料探勘、数据采矿。它是数据库知识发现（Knowledge-Discovery in Databases，简称：KDD)中的一个步骤。数据挖掘一般是指从大量的数据中通过算法搜索隐藏于其中信息的过程。数据挖掘通常与计算机科学有关，并通过统计、在线分析处理、情报检索、机器学习、专家系统（依靠过去的经验法则）和模式识别等诸多方法来实现上述目标。,5.2.1 数据总结,数据总结目的是对数据进行浓缩，给出它的总体综合描述。通过对数据的总结，数据挖掘能够将数据库中的有关数据从较低的个体层次抽象总结到较高的总体层次上，从而实现对原始基本数据的总体把握。最简单的数据总结方法

3、是利用统计学中的传统方法，计算出数据库中各个数据项的总和、平均、方差、最大值、最小值等基本描述统计量。或者通过利用统计图形工具，对数据制作直方图、饼状图等。利用OLAP(On Line Processing)技术（即联机分析处理技术）实现数据的多维查询也是一种广泛使用的数据总结的方法。,5.2 数据挖掘任务,5.2.2 分类,分类的主要功能是使用一个分类函数或分类模型（也常常称作分类器），该模型能够根据数据的属性将数据分派到不同的组中。即：分析数据的各种属性，并找出数据的属性模型，确定哪些数据属于哪些组。这样我们就可以利用该模型来分析已有数据，并预测新数据将属于哪一个组。分类应用的实例很多

4、。例如，我们可以将银行网点分为好、一般和较差三种类型，并依此分析这三种类型银行网点的各种属性，特别是位置、盈利情况等属性，并决定它们分类的关键属性及相互间关系。此后就可以根据这些关键属性对每一个预期的银行网点进行分析，以便决定预期银行网点属于哪一种类型。,5.2.3 关系分析,关联分析的目的是找出数据库中隐藏的关联网，描述一组数据项目的密切度或关系。有时并不知道数据库中数据的关联是否存在精确的关联函数，即便知道也是不确定的，因此关联分析生成的规则带有置信度，置信度级别度量了关联规则的强度。,5.2.4 聚类,当要分析的数据缺乏描述信息，或者是无法组织成任何分类模式时，可以采用聚类分析。聚类分析

5、是按照某种相近程度度量方法，将用户数据分成一系列有意义的子集合。每一个集合中的数据性质相近，不同集合之间的数据性质相差较大。统计方法中的聚类分析是实现聚类的一种手段，它主要研究基于几何距离的聚类。人工智能中的聚类是基于概念描述的。概念描述就是对某类对象的内涵进行描述，并概括这类对象的有关特征。概念描述分为特征性描述和区别性描述，前者描述某类对象的共同特征，后者描述不同类对象之间的区别。,5.3.1 业务理解,（1）确定业务目标（2）形式评估（3）确定数据挖掘目标（4）制订项目实施计划,5.3 数据挖掘流程,5.3.2 数据理解,（1）数据的初步收集（2）数据描述（3）数据的探索性分

6、析（4）数据质量检验,5.3.3 数据准备,（1）选择数据（2）数据清洗（3）数据构建（4）数据融合（5）数据格式化,5.3.4 建立模型,（1）选择建模技术（2）生成模型（3）建立模型（4）评估模型,5.3.5 结果评价,在大多数情况下，数据挖掘模型应该有助于决策。因此，要对这种模型进行说明以使模型有用，因为人们不会在复杂的“黑箱模型”的基础上作决策。注意，模型准确性的目标和模型说明的准确性的目标有点互相矛盾。一般来说，简单的模型容易说明，但是其准确性就差一些。,5.4 数据挖掘的常用方法,数据挖掘方法是由人工智能、机器学习的方法发展而来，结合传统的统计分析方法、模糊数学以及

7、科学计算可视化技术，以数据库为研究对象，形成的数据挖掘的方法和技术。数据挖掘常用的技术可以分为六大类：归纳学习方法、仿生物技术、公式发现、统计分析方法、模糊数学方法、可视化技术。,5.4.1 决策树,决策树起源于概念学习系统CLS (Concept Learning System)。决策树方法就是利用信息论的原理建立决策树。该类方法的实用效果好,影响较大。决策树可高度自动化地建立起易于为用户所理解的模型,而且,系统具有较好地处理缺省数据及带有噪声数据等能力。,1、决策树表示法,决策树是一树状结构,它从根节点开始,对数据样本(由实例集组成,实例有若干属性)进行测试,根据不同的结果将数据样本划分

8、成不同的数据样本子集,每个数据样本子集构成一子节点。生成的决策树每个叶节点对应一个分类。构造决策树的目的是找出属性和类别间的关系,用它来预测将来未知类别的记录的类别。这种具有预测功能的系统叫决策树分类器。,2、决策树构造思想,构造一个决策树分类器通常分为两步：树的生成和剪枝。决策树的生成是一个从上至下，“分而治之”(Divide-And-Conquer)的过程，是一个递归的过程。设数据样本集为S，算法框架如下： (1)如果数据样本集S中所有样本都属于同一类或者满足其它终止准则，则S不再划分，形成叶节点。 (2)否则，根据某种策略选择一个属性，按照属性的各个取值，对S进行划分，得到n个子样本集，

9、记为。再对每个迭代执行步骤1经过n次递归，最后生成决策树。从根到叶结点的一条路径就对应着一条规则，整棵决策树就对应着一组析取表达式规则。树构成步骤中，主要就是找出节点的属性和如何对属性值进行划分。,3、决策树方法特点,决策树是一种常用于预测模型的算法，它通过将大量数据有目的分类，从中找到一些有价值的，潜在的信息。它的主要优点是描述简单，分类速度快，特别适合大规模的数据处理。,5.4.2 遗传算法,遗传算法是由美国Michigan大学的Holland教授于1969年提出,后经DeJong、Goldberg等人归纳总结所形成的一类模拟进化算法。它来源于达尔文的进化论、魏茨曼的物种选择学说和孟德

10、尔的群体遗传学说。它适合于无表达或有表达的任何类函数，具有可实现的并行计算行为；它能解决任何种类实际问题，具有广泛的应用价值。,1、遗传算法特点,(1)遗传算法从问题解的中集开始嫂索，而不是从单个解开始。 (2)遗传算法求解时使用特定问题的信息极少，容易形成通用算法程序。 (3)遗传算法有极强的容错能力 (4)遗传算法中的选择、交叉和变异都是这说明遗传算法是采用随机方法进行最优解搜索，选择体现了向最优解迫近，交叉体现了最优解的产生，变异体现了全局最优解的覆盖。 (5)遗传算法具有隐含的并行性。,2、遗传算法流程,（1）选择一个初始的人口（2）确定每个个体的适应度（3）执行选择（4）重复

11、（5）执行交叉（6）执行突变（7）确定每个个体的适应度（8）执行选择直到停止准则应用,遗传算法处理流程,3、遗传算法优缺点,遗传是一种基于生物自然选择与遗传机理的随机搜索算法，是一种仿生全局优化方法。遗传算法具有的隐含并行性、易于和其他模型结合等性质使得它在数据挖掘中被加以应用。遗传算法的应用还体现在与神经网络、粗集等技术的结合上。如利用遗传算法优化神经网络结构，在不增加错误率的前提下，删除多余的连接和隐层单元；用遗传算法和BP算法结合训练神经网络，然后从网络提取规则等。但遗传算法的算法比较复杂，收敛于局部极小的较早收敛问题尚未解决。,5.4.3 神经网络,神经网络是以重复学习的方法，

12、将一串例子交与学习，使其归纳出足以区分的样式。如果面对新的例证，神经网络即可根据其过去学习的成果归纳后，推导出新的结果，这属于机器学习的一种。数据挖掘的相关问题也可采类神经学习的方式，其学习效果十分正确并可做预测功能。,1、神经网路概述,在许多数据挖掘和决策支持应用中，由于有公认的轨迹记录，人工神经网络已经成为一种普遍采用的方法。神经网络是一种可以容易的应用于预测、分类和聚类的强有力工具。最有力的神经网络是生物所具有的神经网络，与此相对应的是，计算机通常善于反复的执行明确的指令。通过在计算机上模拟人脑的神经联系，桥接计算机与人脑的隔阂，是人工神经网络的关键。神经网络从数据中概括和学习的能力，是

13、模仿我们从经验中学习的能力，这种能力对数据挖掘是有用的。,2、神经网络方法的特点,神经网络具有良好的鲁棒性、自组织自适应性、并行处理、分布存储和高度容错等特性，非常适合解决数据挖掘的问题，用于分类、预测和模式识别的前馈式神经网络模型；以Hopfield的离散模型和连续模型为代表的，分别用于联想记忆和优化计算的反馈式神经网络模型；以Art模型、Koholon模型为代表的，用于聚类的自组织映射方法。神经网络的缺点是“黑箱性”人们难以理解网络的学习和决策过程。,5.4.4 关联规则,关联规则是数据挖掘领域中的一个非常重要的研究课题，广泛应用于各个领域，既可以检验行业内长期形成的知识模式，也能够发现

14、隐藏的新规律。有效地发现、理解、运用关联规则是完成数据挖掘任务的重要手段，因此对关联规则的研究具有重要的理论价值和现实意义。,5.4.5 粗糙集,粗糙集是数据挖掘的方法之一，它是处理模糊和不确定知识的一种数学工具.粗糙集处理的对象是类似二维关系表的信息表，目前成熟的关系数据库管理系统和数据仓库管理系统，为基于粗糙集的数据挖掘奠定了坚实的基础.由于粗糙集的优点及其客观性，现在粗糙集己被国内外的研究者所重视，并广泛应用于数据挖掘、模式识别等领域.,1、粗糙集理论,粗糙集合和普通集合的概念有本质的区别，粗糙集中的成员关系、集合的等价关系都与集合的不可区分关系表达的论域知识有关，一个元素是否属于一个集

15、合不时有其客观性决定的，而是取决于人们的知识。所以粗糙集的特性都不是绝对的，与我们对事物的了解程度有关。从某种意义上来讲，粗糙集方法可以被看作对经典集合理论的拓展。,2、粗糙集方法特点,粗糙集方法有几个优点：不需要给出额外信息；简化输入信息的表达空间；算法简单，易于操作。粗糙集处理的对象是类似二维关系表的信息表。但粗糙集的数学基础是集合论，难以直接处理连续的属性。而现实信息表中连续属性是普遍存在的。因此连续属性的离散化是制约粗糙集理论实用化的难点。,5.4.6 判别分析,当所遭遇问题它的因变量为定性，而自变量（预测变量）为定量时，判别分析为一非常适当的技术，通常应用在解决分类的问题上面。若因

16、变量由两个群体所构成，称之为双群体判别分析；若由多个群体构成，则称之为多元判别分析。,1、判别分析的基本思想,有时我们会遇到包含属性被解释变量和几个度量解释变量的问题，这时需选择合适的分析方法。而当被解释变量是属性变量而解释变量是度量变量时，判别分析是合适的统计分析方法。判别分析是多元统计分析中用于判别样本所属类型的一种统计分析方法。在现实世界中，经常会遇到需要判别的问题。,2、判别分析的分类,判别分析按判别的组数来分，有两组判别分析和多组判别分析；按区分不同总体所用的数学模型来分，有线性判别和非线性判别；按判别对所处理的变量方法不同，有逐步判别、序贯判别等；按判别准则不同，有距离判别、贝叶斯判别（Bayes）、费歇（Fisher）判别等。,谢谢！,

展开阅读全文