数据挖掘3章节数据预处理.ppt

上传人:本田雅阁 文档编号:3185300 上传时间:2019-07-22 格式:PPT 页数:16 大小:176.01KB
返回 下载 相关 举报
数据挖掘3章节数据预处理.ppt_第1页
第1页 / 共16页
数据挖掘3章节数据预处理.ppt_第2页
第2页 / 共16页
数据挖掘3章节数据预处理.ppt_第3页
第3页 / 共16页
数据挖掘3章节数据预处理.ppt_第4页
第4页 / 共16页
数据挖掘3章节数据预处理.ppt_第5页
第5页 / 共16页
点击查看更多>>
资源描述

《数据挖掘3章节数据预处理.ppt》由会员分享,可在线阅读,更多相关《数据挖掘3章节数据预处理.ppt(16页珍藏版)》请在三一文库上搜索。

1、2019/7/22,1,数据预处理,2009年4月27日,2019/7/22,2,2.1 数据预处理的原因,正确性(Correctness) 一致性(Consistency) 完整性(Completeness) 可靠性(Reliability),数据质量的含义,2019/7/22,3,数据错误的不可避免性,数据输入和获得过程数据错误 数据集成所表现出来的错误 数据传输过程所引入的错误 据统计有错误的数据占总数据的5%左右Redmen,Orr98,数据错误的危害性,高昂的操作费用 糟糕的决策制定 组织的不信任 分散管理的注意力,2019/7/22,4,数据预处理的形式,数据清理 数据集成 数据变

2、换 数据归约,2019/7/22,5,2.2描述性数据汇总,均值 分布式度量 sum() count() min() max() 代数度量 average() mean() 加权平均 截断平均 减小极端值的影响 整体度量 中位数 众数 中列数 (max+min)/2,2.2.1 度量数据的中心趋势,2019/7/22,6,2.2描述性数据汇总,极差、四分位数、离群点和箱形图 方差 标准差,2.2.2 度量数据的离散趋势,2019/7/22,7,2.2描述性数据汇总,直方图、分位数图、分位数-分位数图 散点图、散点图阵、 Loess曲线,2.2.3 基本描述数据汇总的图形显示,2019/7/22

3、,8,2.3 数据清理,忽略元组 人工填写空缺值 使用一个全局常量填充空缺值 使用属性的平均值填充空缺值 使用与给定元组属同一类的所有样本的平均值 使用最可能的值填充空缺值,2.3.1 缺失值,2019/7/22,9,分箱:按箱平均值、按箱中值、按箱边界 聚类 计算机和人工检查结合 回归,2.3.2 躁声数据,2.3.3 数据清理作为一个过程,2019/7/22,10,实体识别:元数据可帮助避免错误 属性冗余:相关分析 数据重复 数据值冲突的检测与处理:,2.4 数据集成和变换,2.4.1 数据集成,2019/7/22,11,平滑 聚集 数据概化 规范化:最小-最大、Z-Score、按小数定标

4、 属性构造,2.4.2 数据变换,2019/7/22,12,2.5 数据归约 归约数据集小、近似保持原数据的完整性,2.5.1 数据立方体聚集:聚集数据立方体 使用与给定任务相关的最小方体 2.5.2 属性子集选择 检测、删除不相关 弱相关 冗于的属性和维 方法:逐步向前、逐步向后、向前向后结合 决策树归纳:信息增益法,2019/7/22,13,2.5 数据归约 归约数据集小、近似保持原数据的完整性,2.5.3 数据压缩:编码机制压缩数据 方法:小波变换、主成分分析(PCA) 数值压缩:用替代的、较小的数据表示数据 方法:有参方法 回归和对数线性模型 无参方法 直方图 聚类 抽样,2019/7

5、/22,14,2.6 离散化和概念分层 原始值用区间值或较高 层的概念替换 离散化:原始值划分为有限个区间,减少了连续属性值的个数 概念分层:原始值用较高层的概念替换,2019/7/22,15,2.6 离散化和概念分层: 2.6.1 对数值数据:分箱 直方图分析 聚类分析 基于熵的离散化(entropy) 通过信息增益方法确定区间边界 使用类信息,更可能将区间边界定义准确 基于卡方分析的区间合并 通过自然划分分段 3-4-5规则(P58):将数值数据划分成相对一致的区间,2019/7/22,16,2.6.2 对分类数据:,分类数据是离散数据。一个分类属性可能有有限个不同的值。 方法 由用户和专家在模式级显式的说明属性的部分序 通过显式的数据分组说明分层结构的一部分 说明属性集,但不说明他们的偏序 只说明部分的属性集,

展开阅读全文
相关资源
猜你喜欢
相关搜索

当前位置:首页 > 其他


经营许可证编号:宁ICP备18001539号-1