数据挖掘-分类.ppt

上传人:苏美尔 文档编号:7198267 上传时间:2020-11-05 格式:PPT 页数:53 大小:634.51KB
返回 下载 相关 举报
数据挖掘-分类.ppt_第1页
第1页 / 共53页
数据挖掘-分类.ppt_第2页
第2页 / 共53页
数据挖掘-分类.ppt_第3页
第3页 / 共53页
数据挖掘-分类.ppt_第4页
第4页 / 共53页
数据挖掘-分类.ppt_第5页
第5页 / 共53页
点击查看更多>>
资源描述

《数据挖掘-分类.ppt》由会员分享,可在线阅读,更多相关《数据挖掘-分类.ppt(53页珍藏版)》请在三一文库上搜索。

1、1,数据挖掘-主要内容,分类和预测 贝叶斯分类、神经网络分类 预测,2,Classification 主要用于对离散的数据进行预测 分为两步: 根据训练集,构造分类模型(训练集中每个元组的分类标号事先已经知道) 估计分类模型的准确性,如果其准确性可以接受的话,则利用它来对未来数据进行分类 Prediction: 构造、使用模型来对某个样本的值进行估计,例如预测某个不知道的值或者缺失值 主要用于对连续或有序的数据进行预测 Typical applications 信誉评估 医学诊断 性能预测,Classification vs. Prediction,3,ClassificationA Two-

2、Step Process,模型构造阶段: describing a set of predetermined classes 假定每个元组/样本都属于某个预定义的类,这些类由分类标号属性所定义 用来构造模型的元组/样本集被称为训练集(training set) 模型一般表示为:分类规则, 决策树或者数学公式 模型使用阶段: for classifying future or unknown objects 估计模型的准确性 用一些已知分类标号的测试集和由模型进行分类的结果进行比较 两个结果相同所占的比率称为准确率 测试集和训练集必须不相关 如果准确性可以接受的话, 使用模型来对那些不知道分类标

3、号的数据进行分类。,4,Classification Process (1): Model Construction,Training Data,Classification Algorithms,IF rank = professor OR years 6 THEN tenured = yes,Classifier (Model),5,Classification Process (2): Use the Model in Prediction,Classifier,Testing Data,Unseen Data,(Jeff, Professor, 4),Tenured?,6,分类和预测相

4、关问题 (1): 数据预处理,数据清洗 对数据进行预处理,去掉噪声,对缺失数据进行处理(用某个最常用的值代替或者根据统计用某个最可能的值代替) 相关分析 (特征选择) 去掉某些不相关的或者冗余的属性 数据转换 对数据进行概括(如将连续的值离散成若干个区域,将街道等上升到城市) 对数据进行规范化,将某个属性的值缩小到某个指定的范围之内,7,分类和预测相关问题 (2): 对分类方法进行评价,准确性: 分类准确性和预测准确性 速度和可伸缩性 构造模型的时间 (训练时间) 使用模型的时间 (分类/预测时间) 鲁棒性 能够处理噪声和缺失数据 可伸缩性 对磁盘级的数据库有效 易交互性 模型容易理解,具有较

5、好的洞察力,2020年11月5日星期四,8,Visualization of a Decision Tree in SGI/MineSet 3.0,9,Supervised vs. Unsupervised Learning,Supervised learning (classification) Supervision: The training data (observations, measurements, etc.) are accompanied by labels indicating the class of the observations New data is class

6、ified based on the training set Unsupervised learning (clustering) The class labels of training data is unknown Given a set of measurements, observations, etc. with the aim of establishing the existence of classes or clusters in the data,10,简单例子,分类 两岁宝宝,给他看几个水果,并告诉他:红的圆的是苹果,橘黄的圆的是橘子 (建模型) 拿一个水果问宝宝:这

7、个水果,红的圆的,是什么?(用模型) 聚类 两岁宝宝,给他一堆水果,告诉他:根据颜色分成两堆。宝宝会将苹果分成一堆,橘子分成一堆。假如告诉他:根据大小分成3堆,则宝宝会根据大小分成3堆,苹果和橘子可能会放在一起。,11,主要内容,分类和预测 贝叶斯分类、神经网络分类 预测,12,Bayesian Classification,是一种基于统计的分类方法,用来预测诸如某个样本属于某个分类的概率有多大 基于Bayes理论 研究发现, Nave Bayes Classifier在性能上和Decision Tree、Neural Network classifiers 相当。在应用于大数据集时,具有较高

8、的准确率和速度 Nave Bayes Classifier假设属性值之间是独立的,因此可以简化很多计算,故称之为Nave 。当属性值之间有依赖关系时,采用Bayesian Belief Networks进行分类。,13,Bayesian Theorem: Basics,假设X是未知分类标号的样本数据 H代表某种假设,例如X属于分类C P(H|X): 给定样本数据X,假设 H成立的概率 例如,假设样本数据由各种水果组成,每种水果都可以用形状和颜色来描述。如果用X代表红色并且是圆的,H代表X属于苹果这个假设,则P(H|X)表示,已知X是红色并且是圆的,则X是苹果的概率。,14,Bayesian T

9、heorem: Basics,P(H): 拿出任一个水果,不管它什么颜色,也不管它什么形状,它属于苹果的概率 P(X):拿出任一个水果,不管它是什么水果,它是红色并且是圆的概率 P(X|H) : 一个水果,已知它是一个苹果,则它是红色并且是圆的概率。,15,Bayesian Theorem: Basics,现在的问题是,知道数据集里每个水果的颜色和形状,看它属于什么水果,求出属于每种水果的概率,选其中概率最大的。也就是要算: P(H|X) 但事实上,其他三个概率, P(H)、 P(X)、 P(X|H) 都可以由已知数据得出,而P(H|X)无法从已知数据得出 Bayes理论可以帮助我们:,16,

10、Nave Bayes Classifier,每个数据样本用一个n维特征向量表示,描述由属性对样本的n个度量。 假定有m个类。给定一个未知的数据样本X(即,没有类标号),分类法将预测X属于具有最高后验概率(条件X下)的类。即,朴素贝叶斯分类将未知的样本分配给类Ci ,当且仅当: 这样,我们最大化 。其最大的类Ci称为最大后验假定。根据贝叶斯定理:,17,Nave Bayes Classifier,由于P(X) 对于所有类为常数,只需要 最大即可。如果类的先验概率未知,则通常假定这些类是等概率的;即, 。并据此只对 最大化。否则,我们最大化 。类的先验概率可以用 计算;其中,si是类C中的训练样本

11、数,而s是训练样本总数。,18,Nave Bayes Classifier,给定具有许多属性的数据集,计算 的开销可能非常大。为降低计算的开销,可以朴素地假设属性间不存在依赖关系。这样, 概率 , , 可以由训练样本估计,其中, (a)如果Ak是分类属性,则 ;其中sik 是在属性Ak 上具有值xk 的类Ci 的训练样本数,而si 是Ci中的训练样本数 (b)如果是连续值属性,则通常假定该属性服从高斯分布。因而, 其中,给定类Ci的训练样本属性Ak的值, 是属性Ak的高斯密度函数,而 分别为平均值和标准差。,19,Nave Bayes Classifier,为对未知样本X分类,对每个类Ci,计

12、算 。样本X被指派到类Ci,当且仅当: 换言之,X被指派到其 最大的类Ci。,20,Training dataset,Class: C1:buys_computer= yes C2:buys_computer= no Data sample X =(age=30, Income=medium, Student=yes Credit_rating= Fair),21,Nave Bayesian Classifier: An Example,Compute P(X|Ci) for each class P(buys_computer=“yes”) = 9/14=0.643 P(buys_compu

13、ter=“no”) = 5/14=0.357 P(age=“30” | buys_computer=“yes”) = 2/9=0.222 P(age=“30” | buys_computer=“no”) = 3/5 =0.6 P(income=“medium” | buys_computer=“yes”)= 4/9 =0.444 P(income=“medium” | buys_computer=“no”) = 2/5 = 0.4 P(student=“yes” | buys_computer=“yes)= 6/9 =0.667 P(student=“yes” | buys_computer=

14、“no”)= 1/5=0.2 P(credit_rating=“fair” | buys_computer=“yes”)=6/9=0.667 P(credit_rating=“fair” | buys_computer=“no”)=2/5=0.4 X=(age=30 , income =medium, student=yes, credit_rating=fair) P(X|Ci) : P(X|buys_computer=“yes”)= 0.222 x 0.444 x 0.667 x 0.667 =0.044 P(X|buys_computer=“no”)= 0.6 x 0.4 x 0.2 x

15、 0.4 =0.019 P(X|Ci)*P(Ci ) : P(X|buys_computer=“yes”) * P(buys_computer=“yes”)=0.044 x 0.643=0.028 P(X|buys_computer=“no”) * P(buys_computer=“no”)= 0.019 x 0.357=0.007 Therefore, X belongs to class “buys_computer=yes”,22,Nave Bayesian Classifier: Comments,优点 易于实现 多数情况下结果较满意 缺点 假设: 属性间独立, 丢失准确性 实际上,

16、属性间存在依赖 处理依赖 Bayesian Belief Networks,23,主要内容,分类和预测 贝叶斯分类、神经网络分类 预测,24,神经网络,神经网络是以模拟人脑神经元的数学模型为基础而建立的,它由一系列神经元组成,单元之间彼此连接。,25,神经网络,神经网络有三个要素:拓扑结构、连接方式、学习规则 可以从这三方面对神经网络进行分类,26,神经网络的拓扑,神经网络的拓扑结构:神经网络的单元通常按照层次排列,根据网络的层次数,可以将神经网络分为单层神经网络、两层神经网络、三层神经网络等 结构简单的神经网络,在学习时收敛的速度快,但准确度低。 神经网络的层数和每层的单元数由问题的复杂程度

17、而定。问题越复杂,神经网络的层数就越多。 例如,两层神经网络常用来解决线性问题,而多层网络就可以解决多元非线性问题,27,神经网络的连接,神经网络的连接:包括层次之间的连接和每一层内部的连接,连接的强度用权来表示。 根据层次之间的连接方式,分为: 前馈式网络:连接是单向的,上层单元的输出是下层单元的输入,如反向传播网络 反馈式网络:除了单项的连接外,还把最后一层单元的输出作为第一层单元的输入,如Hopfield网络 根据连接的范围,分为: 全连接神经网络:每个单元和相邻层上的所有单元相连 局部连接网络:每个单元只和相邻层上的部分单元相连,28,神经网络的学习,神经网络的学习 根据学习方法分:

18、感知器:有监督的学习方法,训练样本的类别是已知的,并在学习的过程中指导模型的训练 认知器:无监督的学习方法,训练样本类别未知,各单元通过竞争学习。 根据学习时间分: 离线网络:学习过程和使用过程是独立的 在线网络:学习过程和使用过程是同时进行的 根据学习规则分: 相关学习网络:根据连接间的激活水平改变权系数 纠错学习网络:根据输出单元的外部反馈改变权系数 自组织学习网络:对输入进行自适应地学习,29,基于神经网络的分类方法,神经网络经常用于分类 神经网络的分类知识体现在网络连接上,被隐式地存储在连接的权值中。 神经网络的学习就是通过迭代算法,对权值逐步修改的优化过程,学习的目标就是通过改变权值

19、使训练集的样本都能被正确分类。,30,基于神经网络的分类方法,神经网络特别适用于下列情况的分类问题: 数据量比较小,缺少足够的样本建立模型 数据的结构难以用传统的统计方法来描述 分类模型难以表示为传统的统计模型,31,基于神经网络的分类方法,缺点: 需要很长的训练时间,因而对于有足够长训练时间的应用更合适。 需要大量的参数,这些通常主要靠经验确定,如网络拓扑。 可解释性差。该特点使得神经网络在数据挖掘的初期并不看好。,32,基于神经网络的分类方法,优点: 分类的准确度高 并行分布处理能力强 分布存储及学习能力高 对噪音数据有很强的鲁棒性和容错能力 最流行的基于神经网络的分类算法是80年代提出的

20、后向传播算法。,33,后向传播算法,后向传播算法在多路前馈神经网络上学习。,34,定义网络拓扑,在开始训练之前,用户必须说明输入层的单元数、隐藏层数(如果多于一层)、每一隐藏层的单元数和输出层的单元数,以确定网络拓扑。,35,定义网络拓扑,对训练样本中每个属性的值进行规格化将有助于加快学习过程。通常,对输入值规格化,使得它们落入0.0和1.0之间。 离散值属性可以重新编码,使得每个域值一个输入单元。例如,如果属性A的定义域为(a0 ,a1 ,a2),则可以分配三个输入单元表示A。即,我们可以用I0 ,I1 ,I2作为输入单元。每个单元初始化为0。如果A = a0,则I0置为1;如果A = a1

21、,I1置1;如此下去。 一个输出单元可以用来表示两个类(值1代表一个类,而值0代表另一个)。如果多于两个类,则每个类使用一个输出单元。,36,定义网络拓扑,隐藏层单元数设多少个“最好” ,没有明确的规则。 网络设计是一个实验过程,并可能影响准确性。权的初值也可能影响准确性。如果某个经过训练的网络的准确率太低,则通常需要采用不同的网络拓扑或使用不同的初始权值,重复进行训练。,37,后向传播算法,后向传播算法学习过程: 迭代地处理一组训练样本,将每个样本的网络预测与实际的类标号比较。 每次迭代后,修改权值,使得网络预测和实际类之间的均方差最小。 这种修改“后向”进行。即,由输出层,经由每个隐藏层,

22、到第一个隐藏层(因此称作后向传播)。尽管不能保证,一般地,权将最终收敛,学习过程停止。 算法终止条件:训练集中被正确分类的样本达到一定的比例,或者权系数趋近稳定。,38,后向传播算法,后向传播算法分为如下几步: 初始化权 向前传播输入 向后传播误差,39,后向传播算法,初始化权 网络的权通常被初始化为很小的随机数(例如,范围从-1.0到1.0,或从-0.5到0.5)。 每个单元都设有一个偏置(bias),偏置也被初始化为小随机数。 对于每一个样本X,重复下面两步: 向前传播输入 向后传播误差,40,向前传播输入,计算各层每个单元的输入和输出。 输入层: 输出=输入=样本X的属性; 即,对于单元

23、j,Oj = Ij = Xj 隐藏层和输出层: 输入=前一层的输出的线性组合, 即,对于单元j, Ij =wij Oi + j i 输出=,41,向后传播误差,计算各层每个单元的误差。向后传播误差,并更新权和偏置 计算各层每个单元的误差。 输出层单元j,误差 Oj是单元j的实际输出,而Tj是j的真正输出。 隐藏层单元j,误差 wjk是由j到下一层中单元k的连接的权 Errk是单元k的误差,42,向后传播误差,更新权和偏差,以反映传播的误差。 权由下式更新: 其中,wij是权wij的改变。l是学习率,通常取0和1之间的值。 偏置由下式更新: 其中,j是偏置j的改变。,后向传播算法,Output

24、nodes,Input nodes,Hidden nodes,Output vector,Input vector: xi,wij,2020年11月5日星期四,44,Example,设学习率为0.9。训练样本X = 1,0,1 类标号为1,45,主要内容,分类和预测 贝叶斯分类、神经网络分类 预测,46,What Is Prediction?,Prediction is similar to classification First, construct a model Second, use model to predict unknown value Major method for pr

25、ediction: regression Linear and multiple regression Non-linear regression Prediction is different from classification Classification refers to predict categorical class label Prediction models continuous-valued functions,47,有一些软件包解决回归问题。例如: SAS() SPSS() S-Plus()。,48,Linear regression,在线性回归中,数据用直线建模。

26、是最简单的回归形式。 双变量回归将一个随机变量Y(称作响应变量)视为另一个随机变量X(称为预测变量)的线性函数。即: Y = + X 其中,和是回归系数 建模的过程主要是求回归系数,常用的方法: 最小二乘法,49,用最小二乘法求回归系数,给定s个样本或形如(x1,y1), (x2,y2), (xs,ys)的数据点,回归系数和可以用下式计算: 其中,是x1, x2 ,., xs的平均值,而 是y1, y2 ,., ys的平均值。 与其它复杂的回归方法相比,线性回归常常给出很好的近似。,50,用最小二乘法求回归系数:例子,51,用方程Y = + X表示年薪和工作年数之间的关系。 给定左图数据,计算

27、出 = 9.1, = 55.4。,用最小二乘法求回归系数:例子,52,multiple regression,多元回归是线性回归的扩展,涉及多个预测变量。 响应变量Y可以是一个多维特征向量的线性函数。 基于两个预测属性或变量X1和X2的多元回归模型的例子是 最小二乘法同样可以用在这里求解,1和2,53,Non-linear regression,通过在基本线性模型上添加多项式项,多项式回归可以用于建模。 通过对变量进行变换,可以将非线性模型转换成线性的,然后用最小二乘法求解。 例 下面的三次多项式 通过定义如下新变量: X1 = X X 2 = X 2 X 3 =X 3 可以转换成线性形式,结果为:,

展开阅读全文
相关资源
猜你喜欢
相关搜索

当前位置:首页 > 科普知识


经营许可证编号:宁ICP备18001539号-1