机器学习ch02模型评估与选择.ppt

上传人:rrsccc 文档编号:9540910 上传时间:2021-03-04 格式:PPT 页数:44 大小:2.08MB
返回 下载 相关 举报
机器学习ch02模型评估与选择.ppt_第1页
第1页 / 共44页
机器学习ch02模型评估与选择.ppt_第2页
第2页 / 共44页
机器学习ch02模型评估与选择.ppt_第3页
第3页 / 共44页
机器学习ch02模型评估与选择.ppt_第4页
第4页 / 共44页
机器学习ch02模型评估与选择.ppt_第5页
第5页 / 共44页
点击查看更多>>
资源描述

《机器学习ch02模型评估与选择.ppt》由会员分享,可在线阅读,更多相关《机器学习ch02模型评估与选择.ppt(44页珍藏版)》请在三一文库上搜索。

1、胡 鹏 第二章:模型评估 与选择 大纲 p 经验误差与过拟合 p评估方法 p性能度量 p比较检验 p偏差与方差 p阅读材料 经验误差与过拟合 p 错误率当前若为假正例,则对应 标记点的坐标为 ,然后用线段连接相邻点. 性能度量 若某个学习器的ROC曲线被另一个学习器的曲线“包住” ,则后者性能优于前者;否则如果曲线交叉,可以根据 ROC曲线下面积大小进行比较,也即AUC值. 假设ROC曲线由 的点按序连接而形成 ,则: AUC可估算为: AUC衡量了样本预测的排序质量。 代价敏感错误率 现实任务中不同类型的错误所造成的后果很可能不同, 为了权衡不同类型错误所造成的不同损失,可为错误赋 予“非均

2、等代价”。 以二分类为例,可根据领域知识设定“代价矩阵”,如 下表所示,其中 表示将第i类样本预测为第j类样 本的代价。损失程度越大, 与 值的差别越 大。 在非均等代价下,不再最小化错误次数,而是最小化“总 体代价”,则“代价敏感”错误率相应的为: 代价曲线 在非均等代价下,ROC曲线不能直接反映出学习器的期望 总体代价,而“代价曲线”可以。 代价曲线的横轴是取值为0,1的正例概率代价 纵轴是取值为0,1的归一化代价 代价曲线 代价曲线图的绘制:ROC曲线上每个点对应了代价曲线上 的一条线段,设ROC曲线上点的坐标为(TPR,FPR),则可相 应计算出FNR,然后在代价平面上绘制一条从(0,

3、FPR)到 (1,FNR)的线段,线段下的面积即表示了该条件下的期望 总体代价;如此将ROC曲线上的每个点转化为代价平面上 的一条线段,然后取所有线段的下界,围成的面积即为 所有条件下学习器的期望总体代价。 大纲 p经验误差与过拟合 p评估方法 p性能度量 p 比较检验 p偏差与方差 p阅读材料 性能评估 p 关于性能比较: l 测试性能并不等于泛化性能 l 测试性能随着测试集的变化而变化 l 很多机器学习算法本身有一定的随机性 直接选取相应评估方法在相应度量下比大小的方法不可取! 假设检验为学习器性能比较提供了重要依据,基于其结 果我们可以推断出若在测试集上观察到学习器A比B好, 则A的泛化

4、性能是否在统计意义上优于B,以及这个结论 的把握有多大。 二项检验 假设 ,若测试错误率小于 则在 的显著度下,假设不能被拒绝, 也即能以 的置信度认为,模型的泛化错误率不大于 . 记泛化错误率为 ,测试错误率为 ,假定测试样本从 样本总体分布中独立采样而来,我们可以使用“二项检 验”对 进行假设检验。 t检验 对应的,面对多次重复留出法或者交叉验证法进行多次 训练/测试时可使用“t检验”。 假定得到了k个测试错误率, ,假设, 对于显著度 ,若 位于临界范围 内,则假设不能被拒绝,即可认为泛化错误率 , 其置信度为 . 交叉验证t检验 现实任务中,更多时候需要对不同学习器的性能进行比较 对两

5、个学习器A和B,若k折交叉验证得到的测试错误率分 别为和 ,可用k折交叉验证“成对t 检验”进行比较检验。若两个学习器的性能相同,则他 们使用相同的训练/测试集得到的测试错误率应相同, 即 . 交叉验证t检验 先对每对结果求差, ,若两个学习器性能相同, 则差值应该为0,继而用 来对“学习器A与B性能相 同”这个假设做t检验。 假设检验的前提是测试错误率为泛化错误率的独立采样,然 而由于样本有限,使用交叉验证导致训练集重叠,测试错误 率并不独立,从而过高估计假设成立的概率,为缓解这一问 题,可采用“5*2交叉验证”法. 5*2交叉验证法 所谓5*2折交叉验证就是做5次二折交叉验证,每次二折交叉

6、 验证之前将数据打乱,使得5次交叉验证中的数据划分不重 复。为缓解测试数据错误率的非独立性,仅计算第一次2折 交叉验证结果的平均值 和每次二折实验计 算得到的方差 ,则变量 服从自由度为5的t分布。 McNemar检验 对于二分类问题,留出法不仅可以估计出学习器A和B的测试 错误率,还能获得两学习器分类结果的差别,如下表所示 假设两学习器性能相同 则 应服从正态分布, 且均值为1,方差为 ,则 服从自由度为1的 分布。 Friedman检验 交叉验证t检验和McNemar检验都是在一个数据集上比较两个 算法的性能,可以用Friedman检验在一组数据集上对多个算 法进行比较。 假定用 四个数据

7、集对算法 进行比较。 先使用留出法或者交叉验证法得到每个算法在每个数据集上 的测试结果,然后在每个数据集上根据性能好坏排序,并赋 序值1,2,;若算法性能相同则平分序值,继而得到每个算法 的平均序值 . Friedman检验 得到表格如下所示,由平均序值进行Friedman检验来判断这 些算法是否性能都相同。 则变量: 服从自由度为k-1的 分布 其中N,k表示数据集和算法数目 Nemenyi后续检验 若“所有算法的性能相同”这个假设被拒绝,说明算法的性能 显著不同,此时可用Nemenyi后续检验进一步区分算法。 Nemenyi检验计算平均序值差别的临界阈值 如果两个算法的平均序值之差超出了临

8、界阈值CD,则以相 应的置信度拒绝“两个算法性能相同”这一假设。 Friedman检验图 根据上例的序值结果可绘制如下Friedman检验图,横轴为平均序值 ,每个算法圆点为其平均序值,线段为临界阈值的大小。 若两个算法有交叠(A和B),则说明没有显著差别; 否则有显著差别(A和C),算法A明显优于算法C. 大纲 p经验误差与过拟合 p评估方法 p性能度量 p比较检验 p 偏差与方差 p阅读材料 偏差与方差 通过实验可以估计学习算法的泛化性能,而“偏差-方差分解”可以用来帮助 解释泛化性能。偏差-方差分解试图对学习算法期望的泛华错误率进行拆 解。 对测试样本 ,令 为 在数据集中的标记, 为

9、的真实标记, 为训练集 上学得模型 在 上的预测输出。以回归任务为例:学习 算法的期望预期为: 使用样本数目相同的不同训练集产生的方差为 噪声为 偏差与方差 期望输出与真实标记的差别称为偏差,即 为便与讨论,假定噪声期望为0,也即 , 对泛化误差分解 偏差与方差 又由假设中噪声期望为0,可得 于是: 也即泛化误差可分解为偏差、方差与噪声之和。 偏差与方差 l 偏差度量了学习算法期望预测与真实结果的偏离程度;即刻画了学 习算法本身的拟合能力; l 方差度量了同样大小训练集的变动所导致的学习性能的变化;即刻 画了数据扰动所造成的影响; l 噪声表达了在当前任务上任何学习算法所能达到的期望泛化误差的

10、 下界;即刻画了学习问题本身的难度。 泛化性能是由学习算法的能力、数据的充分性以及学习任务本身的难度 所共同决定的。给定学习任务为了取得好的泛化性能,需要使偏差小( 充分拟合数据)而且方差较小(减少数据扰动产生的影响)。 偏差与方差 一般来说,偏差与方差是有冲突的,称为偏差-方差窘境。 如右图所示,假如我们能控制算法的训练程度: l 在训练不足时,学习器拟合能力不 强,训练数据的扰动不足以使学习 器的拟合能力产生显著变化,此时 偏差主导泛化错误率; l 随着训练程度加深,学习器拟合能 力逐渐增强,方差逐渐主导泛化错 误率; l 训练充足后,学习器的拟合能力非 常强,训练数据的轻微扰动都会导 致

11、学习器的显著变化,若训练数据 自身非全局特性被学到则会发生过 拟合。 大纲 p经验误差与过拟合 p评估方法 p性能度量 p比较检验 p偏差与方差 p 阅读材料 阅读材料 p 自助采样法在机器学习中有重要用途,Efron and Tibshirani, 1993对此有详细讨论。 p ROC曲线在二十世纪八十年代后期被引入机器学习Spackman, 1989,AUC则是从九十年代中期起在机器学习领域广为使用 Bradley,1997.Hand and Till,2001将ROC曲线从二分类任务推 广到多分类任务.Fawcett,2006综述了ROC曲线的用途. p Drummond and Hol

12、te,2006发明了代价曲线.代价敏感学习 Elkan,2001;Zhou and Liu,2006专门研究非均等代价下的学习。 阅读材料 p Dietterich,1998指出了常规k折交叉验证法存在的风险,并提出 了5*2折交叉验证法.Demsar, 2006讨论了对多个算法进行比较检 验的方法. p Geman et al.,1992针对回归任务给出了偏差-方差-协方差分解 ,后来被简称为偏差-方差分解。但仅基于均方误差的回归任务中 推导,对分类任务,由于0/1损失函数的跳变性,理论上推导出偏差 -方差分解很困难。已有多种方法可通过试验队偏差和方差进行估 计Kong and Dietterich,1995;Kohavi and Wolpert, 1996; Breiman,1996;Friedman,1997;Domingos,2000.

展开阅读全文
相关资源
猜你喜欢
相关搜索

当前位置:首页 > 社会民生


经营许可证编号:宁ICP备18001539号-1