机器学习ch02模型评估与选择.ppt

资源描述

《机器学习ch02模型评估与选择.ppt》由会员分享，可在线阅读，更多相关《机器学习ch02模型评估与选择.ppt（44页珍藏版）》请在三一文库上搜索。

1、胡鹏第二章：模型评估与选择大纲 p 经验误差与过拟合 p评估方法 p性能度量 p比较检验 p偏差与方差 p阅读材料经验误差与过拟合 p 错误率当前若为假正例，则对应标记点的坐标为 ,然后用线段连接相邻点. 性能度量若某个学习器的ROC曲线被另一个学习器的曲线“包住” ，则后者性能优于前者；否则如果曲线交叉，可以根据 ROC曲线下面积大小进行比较，也即AUC值. 假设ROC曲线由的点按序连接而形成，则： AUC可估算为： AUC衡量了样本预测的排序质量。代价敏感错误率现实任务中不同类型的错误所造成的后果很可能不同，为了权衡不同类型错误所造成的不同损失，可为错误赋予“非均

2、等代价”。以二分类为例，可根据领域知识设定“代价矩阵”，如下表所示，其中表示将第i类样本预测为第j类样本的代价。损失程度越大，与值的差别越大。在非均等代价下，不再最小化错误次数，而是最小化“总体代价”，则“代价敏感”错误率相应的为：代价曲线在非均等代价下，ROC曲线不能直接反映出学习器的期望总体代价，而“代价曲线”可以。代价曲线的横轴是取值为0,1的正例概率代价纵轴是取值为0,1的归一化代价代价曲线代价曲线图的绘制：ROC曲线上每个点对应了代价曲线上的一条线段，设ROC曲线上点的坐标为(TPR,FPR),则可相应计算出FNR,然后在代价平面上绘制一条从(0,

3、FPR)到 (1,FNR)的线段，线段下的面积即表示了该条件下的期望总体代价；如此将ROC曲线上的每个点转化为代价平面上的一条线段，然后取所有线段的下界，围成的面积即为所有条件下学习器的期望总体代价。大纲 p经验误差与过拟合 p评估方法 p性能度量 p 比较检验 p偏差与方差 p阅读材料性能评估 p 关于性能比较： l 测试性能并不等于泛化性能 l 测试性能随着测试集的变化而变化 l 很多机器学习算法本身有一定的随机性直接选取相应评估方法在相应度量下比大小的方法不可取！假设检验为学习器性能比较提供了重要依据，基于其结果我们可以推断出若在测试集上观察到学习器A比B好，则A的泛化

4、性能是否在统计意义上优于B，以及这个结论的把握有多大。二项检验假设 ,若测试错误率小于则在的显著度下，假设不能被拒绝, 也即能以的置信度认为，模型的泛化错误率不大于 . 记泛化错误率为，测试错误率为 ,假定测试样本从样本总体分布中独立采样而来，我们可以使用“二项检验”对进行假设检验。 t检验对应的，面对多次重复留出法或者交叉验证法进行多次训练/测试时可使用“t检验”。假定得到了k个测试错误率， ,假设，对于显著度 ,若位于临界范围内,则假设不能被拒绝，即可认为泛化错误率 , 其置信度为 . 交叉验证t检验现实任务中，更多时候需要对不同学习器的性能进行比较对两

5、个学习器A和B,若k折交叉验证得到的测试错误率分别为和，可用k折交叉验证“成对t 检验”进行比较检验。若两个学习器的性能相同，则他们使用相同的训练/测试集得到的测试错误率应相同，即 . 交叉验证t检验先对每对结果求差， ,若两个学习器性能相同，则差值应该为0，继而用来对“学习器A与B性能相同”这个假设做t检验。假设检验的前提是测试错误率为泛化错误率的独立采样，然而由于样本有限，使用交叉验证导致训练集重叠，测试错误率并不独立，从而过高估计假设成立的概率，为缓解这一问题，可采用“5*2交叉验证”法. 5*2交叉验证法所谓5*2折交叉验证就是做5次二折交叉验证，每次二折交叉

6、验证之前将数据打乱，使得5次交叉验证中的数据划分不重复。为缓解测试数据错误率的非独立性，仅计算第一次2折交叉验证结果的平均值和每次二折实验计算得到的方差 ,则变量服从自由度为5的t分布。 McNemar检验对于二分类问题，留出法不仅可以估计出学习器A和B的测试错误率，还能获得两学习器分类结果的差别，如下表所示假设两学习器性能相同则应服从正态分布，且均值为1，方差为，则服从自由度为1的分布。 Friedman检验交叉验证t检验和McNemar检验都是在一个数据集上比较两个算法的性能，可以用Friedman检验在一组数据集上对多个算法进行比较。假定用四个数据

7、集对算法进行比较。先使用留出法或者交叉验证法得到每个算法在每个数据集上的测试结果，然后在每个数据集上根据性能好坏排序，并赋序值1,2,;若算法性能相同则平分序值,继而得到每个算法的平均序值 . Friedman检验得到表格如下所示，由平均序值进行Friedman检验来判断这些算法是否性能都相同。则变量：服从自由度为k-1的分布其中N，k表示数据集和算法数目 Nemenyi后续检验若“所有算法的性能相同”这个假设被拒绝，说明算法的性能显著不同，此时可用Nemenyi后续检验进一步区分算法。 Nemenyi检验计算平均序值差别的临界阈值如果两个算法的平均序值之差超出了临

8、界阈值CD，则以相应的置信度拒绝“两个算法性能相同”这一假设。 Friedman检验图根据上例的序值结果可绘制如下Friedman检验图，横轴为平均序值，每个算法圆点为其平均序值，线段为临界阈值的大小。若两个算法有交叠(A和B)，则说明没有显著差别; 否则有显著差别(A和C),算法A明显优于算法C. 大纲 p经验误差与过拟合 p评估方法 p性能度量 p比较检验 p 偏差与方差 p阅读材料偏差与方差通过实验可以估计学习算法的泛化性能，而“偏差-方差分解”可以用来帮助解释泛化性能。偏差-方差分解试图对学习算法期望的泛华错误率进行拆解。对测试样本 ,令为在数据集中的标记，为

9、的真实标记，为训练集上学得模型在上的预测输出。以回归任务为例：学习算法的期望预期为：使用样本数目相同的不同训练集产生的方差为噪声为偏差与方差期望输出与真实标记的差别称为偏差，即为便与讨论，假定噪声期望为0，也即 , 对泛化误差分解偏差与方差又由假设中噪声期望为0，可得于是：也即泛化误差可分解为偏差、方差与噪声之和。偏差与方差 l 偏差度量了学习算法期望预测与真实结果的偏离程度；即刻画了学习算法本身的拟合能力； l 方差度量了同样大小训练集的变动所导致的学习性能的变化；即刻画了数据扰动所造成的影响； l 噪声表达了在当前任务上任何学习算法所能达到的期望泛化误差的

10、下界；即刻画了学习问题本身的难度。泛化性能是由学习算法的能力、数据的充分性以及学习任务本身的难度所共同决定的。给定学习任务为了取得好的泛化性能，需要使偏差小( 充分拟合数据)而且方差较小(减少数据扰动产生的影响)。偏差与方差一般来说，偏差与方差是有冲突的，称为偏差-方差窘境。如右图所示，假如我们能控制算法的训练程度： l 在训练不足时，学习器拟合能力不强，训练数据的扰动不足以使学习器的拟合能力产生显著变化，此时偏差主导泛化错误率； l 随着训练程度加深，学习器拟合能力逐渐增强，方差逐渐主导泛化错误率； l 训练充足后，学习器的拟合能力非常强，训练数据的轻微扰动都会导致

11、学习器的显著变化，若训练数据自身非全局特性被学到则会发生过拟合。大纲 p经验误差与过拟合 p评估方法 p性能度量 p比较检验 p偏差与方差 p 阅读材料阅读材料 p 自助采样法在机器学习中有重要用途,Efron and Tibshirani, 1993对此有详细讨论。 p ROC曲线在二十世纪八十年代后期被引入机器学习Spackman, 1989,AUC则是从九十年代中期起在机器学习领域广为使用 Bradley,1997.Hand and Till,2001将ROC曲线从二分类任务推广到多分类任务.Fawcett,2006综述了ROC曲线的用途. p Drummond and Hol

12、te,2006发明了代价曲线.代价敏感学习 Elkan,2001;Zhou and Liu,2006专门研究非均等代价下的学习。阅读材料 p Dietterich,1998指出了常规k折交叉验证法存在的风险,并提出了5*2折交叉验证法.Demsar, 2006讨论了对多个算法进行比较检验的方法. p Geman et al.,1992针对回归任务给出了偏差-方差-协方差分解，后来被简称为偏差-方差分解。但仅基于均方误差的回归任务中推导，对分类任务，由于0/1损失函数的跳变性,理论上推导出偏差 -方差分解很困难。已有多种方法可通过试验队偏差和方差进行估计Kong and Dietterich,1995;Kohavi and Wolpert, 1996; Breiman,1996;Friedman,1997;Domingos,2000.

展开阅读全文