数据挖掘5概念描述特征化与比较.ppt

资源描述

《数据挖掘5概念描述特征化与比较.ppt》由会员分享，可在线阅读，更多相关《数据挖掘5概念描述特征化与比较.ppt（55页珍藏版）》请在三一文库上搜索。

1、2019/7/22,1,概念描述,2019/7/22,2,特征化和比较,什么是概念描述? 数据概化和基于汇总的特征化解析特征化: 分析属性之间的关联性挖掘类比较:获取不同类之间的不同处在大型数据库中挖掘描述统计度量讨论总结,2019/7/22,3,什么是概念描述?,描述性 vs. 预测性数据挖掘描述性数据挖掘: 预测性数据挖掘: 概念描述: 特征化:对所选择的数据集给出一个简单明了的描述，汇总比较:提供对于两个或多个数据集进行比较的描述,2019/7/22,4,概念描述和OLAP区别,概念描述: 能够处理复杂的数据类型和各种汇总方法更加自动化 OLAP: 只能限制于少量的维度

2、和数据类型用户控制的流程,2019/7/22,5,特征化和比较,什么是概念描述? 数据概化和基于汇总的特征化分析特征化: 分析属性之间的关联性挖掘类比较:获取不同类之间的不同处在大型数据库中挖掘描述统计度量讨论总结,2019/7/22,6,数据概化和基于汇总的特征化,数据概化将大量的相关数据从一个较低的概念层次抽象、转化到一个比较高的层次方法: OLAP方法：面向属性的归纳,2019/7/22,7,OLAP方法,在数据立方体上进行计算和存储结果优点效率高能够计算多种汇总如：count,average,sum,min,max 还可以使用roll-down和roll-up

3、操作限制只能处理非数值化数据和数值数据的简单汇总。只能分析，不能自动的选择哪些字段和相应的概念层次,2019/7/22,8,面向属性的归纳,KDD Workshop(89)中提出不限制于种类字段和特定的汇总方法方法介绍：使用SQL等收集相关数据通过数据属性值删除和属性值概化来实现概化聚集通过合并相等的广义元组，并累计他们对应的计数值进行和使用者之间交互式的呈现方式.,2019/7/22,9,基本方法,数据聚焦:选择和当前分析相关的数据，包括维。属性删除: 如果某个属性包含大量不同值，但是 1)在该属性上没有概化操作，或者2）它的较高层概念用其它属性表示。属性概化:如果某

4、个属性包含大量不同值，同时在该属性上有概化操作符，则运用该操作符进行概化。属性阈值控制: typical 2-8, specified/default. 概化关系阈值控制: 控制最终关系的大小,2019/7/22,10,基本算法,InitialRel: 得到相关数据，形成初始关系表 PreGen: 通过统计不同属性的含有的不同值的个数决定是丢弃该属性还是对其进行汇总。 PrimeGen:根据上一步的计算结果，对属性概化到相应的层次，计算汇总值，得到主概化关系。结果的表示:概化关系、交叉表、3D立方体,2019/7/22,11,示例,DMQL: use Big_University_DB m

5、ine characteristics as “Science_Students” in relevance to name, gender, major, birth_place, birth_date, residence, phone#, gpa from student where status in “graduate” 相应的SQL: Select name, gender, major, birth_place, birth_date, residence, phone#, gpa from student where status in “Msc”, “MBA”, “PhD”

6、,2019/7/22,12,类特征化：示例,Prime Generalized Relation,Initial Relation,2019/7/22,13,概化结果的表示,概化关系: 一个表格，其中有属性字段，后附汇总方法。交叉表: 二维交叉表可视化方法: Pie charts, bar charts, curves, cubes, and other visual forms. 量化特征规则: (上表与136页例4.26),2019/7/22,14,表达方式-概化关系(133页例4.22),2019/7/22,15,表达方式交叉表(133页例4.23),2019/7/22,16,使用C

7、ube技术进行实现,对给定的数据动态创建数据立方体：便于有效的下钻操作可能增加响应时间解决方法：实现存储一些较高层次的统计信息。使用预定义的数据立方体：预先构建数据立方体 Cube计算的花费和额外的存储空间,2019/7/22,17,特征化和比较,什么是概念描述? 数据概化和基于汇总的特征化分析特征化: 分析属性之间的关联性挖掘类比较:获取不同类之间的不同处在大型数据库中挖掘描述统计度量讨论总结,2019/7/22,18,属性相关性分析,why? 哪些维需要包括? 需要概化到什么层次? 减少属性；从而容易理解模型结果 What? 使用统计的方法进行数据预处理过滤掉一些不相

8、关或者相关性比较弱的字段保留并对相关属性进行排序相关性和维度、层次有关分析特征化，分析比较,2019/7/22,19,属性相关性分析,步骤：数据收集使用保守的AOI进行预相关分析相关性分析，删除不相关和弱相关属性使用AOI产生概念描述,2019/7/22,20,相关性度量标准,相关性度量标准决定了如何对属性进行判断的标准方法信息增益information gain (ID3) 增益比gain ratio (C4.5) Gini索引gini index 不确定性相关系数,2019/7/22,21,Entropy 和 Information Gain,集合S中类别Ci的记录个数

9、是si 个 i = 1, , m 期望信息属性A的熵是信息增益,2019/7/22,22,一个例子(131页例5.9),任务使用分析特征化来了解研究生的一般特征属性名称 gender, major, birth_place, birth_date, phone#, and gpa Gen(ai) = concept hierarchies on ai Ui = attribute analytical thresholds for ai Ti = attribute generalization thresholds for ai R = attribute relevance thr

10、eshold,2019/7/22,23,例子：分析特征化（续）,1. 数据收集 target class: graduate student contrasting class: undergraduate student 2.使用 Ui分析概化属性删除 remove name and phone# 属性概化 generalize major, birth_place, birth_date and gpa accumulate counts 候选关系: gender, major, birth_country, age_range and gpa,2019/7/22,24,例子：分析特征化

11、 (2),Candidate relation for Target class: Graduate students (=120),Candidate relation for Contrasting class: Undergraduate students (=130),2019/7/22,25,例子：分析特征化 (3),3. 相关性分析计算期望信息计算每个属性的熵,2019/7/22,26,例子：分析特征化 (4),得出每个属性的熵计算每个属性的Information Gain Information gain for all attributes,2019/7/22,27,例子

12、：分析特征化 (5),4. Initial working relation (W0) derivation R = 0.1 删除不相关或者弱相关的属性 = drop gender, birth_country 删除比较类的关系 5. 在W0进行AOI分析,Initial target class working relation W0: Graduate students,2019/7/22,28,特征化和比较,什么是概念描述? 数据概化和基于汇总的特征化分析特征化: 分析属性之间的关联性挖掘类比较:获取不同类之间的不同处在大型数据库中挖掘描述统计度量讨论总结,2019/7/22,

13、29,挖掘类比较,比较:比较两个或者更多类. 方法: 将相关的数据分成目标类和比较类。将两个类别的数据概化到相同的层次。用相同层次的描述对元组进行比较。对于每个元组展现其描述和两个衡量标准: support - distribution within single class comparison - distribution between classes 将差异很大的元组特别显示出来相关性分析: 发现最能体现类别之间差异的属性.,2019/7/22,30,例子：分析性比较(133页例5.10),Task 使用区别规则来分析本科生和研究生 DMQL query,use Big_Uni

14、versity_DB mine comparison as “grad_vs_undergrad_students” in relevance to name, gender, major, birth_place, birth_date, residence, phone#, gpa for “graduate_students” where status in “graduate” versus “undergraduate_students” where status in “undergraduate” analyze count% from student,2019/7/22,31,

15、例子：分析性比较 (2),条件： attributes name, gender, major, birth_place, birth_date, residence, phone# and gpa Gen(ai) = concept hierarchies on attributes ai Ui = attribute analytical thresholds for attributes ai Ti = attribute generalization thresholds for attributes ai R = attribute relevance threshold,2019/

16、7/22,32,例子：分析性比较(3),1. 数据收集目标类和比较类 2. 属性相关性分析 remove attributes name, gender, major, phone# 3. 同步概化 controlled by user-specified dimension thresholds prime target and contrasting class(es) relations/cuboids,2019/7/22,33,例子：分析性比较 (4),Prime generalized relation for the target class: Graduate students

17、,Prime generalized relation for the contrasting class: Undergraduate students,2019/7/22,34,例子：分析性比较 (5),4. 在目标和比较类别上， Drill down, roll up and other OLAP operations，确定概化层次. 5. 展现方式 generalized relations, crosstabs, bar charts, pie charts, or rules 比较性的度量，以体现目标类和比较类之间的差别 e.g. count%,2019/7/22,35,量化区分规

18、则,Cj = 目标类 qa = 概化元组也覆盖比较类别的元组 d-weight 范围: 0, 1 量化区别规则,2019/7/22,36,例子: 量化区别规则,量化区别规则(135页例5.11) where 90/(90+120) = 30%,Count distribution between graduate and undergraduate students for a generalized tuple,2019/7/22,37,类别描述,量化特征规则必要量化区别规则充分量化描述规则必要和充分,2019/7/22,38,例子: 量化描述规则(136页例5.13),对于目标

19、类Europe的量化描述规则(137页例5.14),Crosstab showing associated t-weight, d-weight values and total number (in thousands) of TVs and computers sold at AllElectronics in 1998,2019/7/22,39,特征化和比较,什么是概念描述? 数据概化和基于汇总的特征化分析特征化: 分析属性之间的关联性挖掘类比较:获取不同类之间的不同处在大型数据库中挖掘描述统计度量讨论总结,2019/7/22,40,挖掘数据散布特征,动机更好的了解数据: 集

20、中趋势, 差别和分布数据散布特征 median, max, min, quantiles, outliers, variance, 等.,2019/7/22,41,衡量中心趋势,平均值带权平均中位数: 一个整体度量如果是奇数，则为中间数，偶数则为中间两数的平均用插值的方法进行估计模出现次数最多的值 Unimodal, bimodal, trimodal Empirical formula:,2019/7/22,42,衡量离散趋势,四分位数, 异常和盒图四分位数: Q1 (25th percentile), Q3 (75th percentile) 中间四分位区间: IQ

21、R = Q3 Q1 五数概括: min, Q1, M, Q3, max 盒图: ends of the box are the quartiles, median is marked, whiskers, and plot outlier individually 异常: usually, a value higher/lower than 1.5 x IQR 方差和标准差 Variance s2: (algebraic, scalable computation) Standard deviation s is the square root of variance s2,2019/7/22

22、,43,盒图分析,五数概括: Minimum, Q1, M, Q3, Maximum 盒图数据用盒子的形式表现盒子的两端分别是两个分位数， i.e., the height of the box is IRQ 中位数用一条线来表示。延长线: 从盒子延长到最大和最小值,2019/7/22,44,A Boxplot,A boxplot,2019/7/22,45,数据分布的可视化：盒图分析,2019/7/22,46,在大型数据库中挖掘统计信息,方差标准差: 方差的平方根衡量分散程度当且仅当所有值一样的时候为0。方差和标准差都是代数的,2019/7/22,47,直方图（频率直方图）,图形

23、化表示类描述的基本统计信息频率直方图,2019/7/22,48,分位数图,2019/7/22,49,分位数-分位数 (Q-Q) 图,2019/7/22,50,散布图,2019/7/22,51,Loess 曲线,2019/7/22,52,图形化的表示基本统计描述,直方图: 盒图: 分位数图: each value xi is paired with fi indicating that approximately 100 fi % of data are xi 分位数-分位数图 (q-q) : graphs the quantiles of one univariant distributio

24、n against the corresponding quantiles of another 散布图: each pair of values is a pair of coordinates and plotted as points in the plane Loess (local regression) 曲线: add a smooth curve to a scatter plot to provide better perception of the pattern of dependence,2019/7/22,53,特征化和比较,什么是概念描述? 数据概化和基于汇总的特征化分析特征化: 分析属性之间的关联性挖掘类比较:获取不同类之间的不同处在大型数据库中挖掘描述统计度量讨论总结,2019/7/22,54,面向属性的归纳 vs. 示例学习方法,原理和基本假设的不同机器学习：正负样本。概念描述：只有正样本。训练样本集的大小机器学习：训练样本集小概念描述：训练样本集大。概化方法的不同机器学习：按照元组概化概念描述：按照属性概化,2019/7/22,55,特征化和比较,什么是概念描述? 数据概化和基于汇总的特征化分析特征化: 分析属性之间的关联性挖掘类比较:获取不同类之间的不同处在大型数据库中挖掘描述统计度量讨论总结,

展开阅读全文