关联规则分析及应用ppt课件.ppt

资源描述

《关联规则分析及应用ppt课件.ppt》由会员分享，可在线阅读，更多相关《关联规则分析及应用ppt课件.ppt（24页珍藏版）》请在三一文库上搜索。

1、Data Mining 关联规则分析及应用,2012-10-12,1,目录,基本概念,关联规则挖掘过程,分类,关联规则的价值衡量,4,1,2,3,挖掘算法,关联规则的应用,5,6,2012-10-12,2,绪论,在购买铁锤的顾客当中，有70的人同时购买了铁钉。年龄在40 岁以上，工作在A区的投保人当中，有45的人曾经向保险公司索赔过。在超市购买面包的人有70%会购买牛奶,2012-10-12,3,绪论,2012-10-12,4,一、基本概念,设 I=I1,I2,In 是项的集合。任务相关数据D：是事务（或元组）的集合。事务T：是项的集合，且每个事务具有事务标识符TID。项集A：是T

2、的一个子集，加上TID 即事务。项集(Items)：项的集合，包含k个项的项集称为k-项集，如二项集I1,I2。支持度计数(Support count)：一个项集的出现次数就是整个数据集中包含该项集的事务数。,2012-10-12,5,一、基本概念,D,T,A,B,In（n=1,2,）指具体项目，如购物篮分析中： I1=苹果 I2=面包 I3=牛奶 I4=尿布 I5=啤酒 Support-count(I1)=6,2012-10-12,6,一、基本概念,关联规则:形如 A = B 的蕴涵式，其中A I , BI,并且 AB =。支持度:关联规则在D中的支持度(support)是D中事务同时

3、包含A、B的百分比，即概率。规则代表性、重要性衡量 Support(A B)=P ( A B ) = support _ count(AB) count (T) 频繁项集：若一个项集的支持度大于等于某个阈值。,2012-10-12,7,一、基本概念,置信度c:是包含A的事务中同时又包含B的百分比，即条件概率。规则准确性衡量 confidence ( A B ) = P ( B | A) 强关联规则：同时满足用户定义的最小支持度阈值（min_sup）和最小置信度阈值(min_conf)的规则称为强规则。,2012-10-12,8,=,9,二、关联规则挖掘过程,两个步骤：找出所有频繁项集。由频

4、繁项集生成满足最小信任度阈值的规则。挖掘模式：,2012-10-12,9,min_sup,min_conf,二、关联规则挖掘过程,关联规则挖掘举例：假定数据包含频繁项集 M=I1，I2，I5。可以由M 产生哪些关联规则？,2012-10-12,10,二、关联规则挖掘过程,M 的非空真子集有I1，I2、I1，I5、I2，I5、I1、I2和I5。则结果关联规则如下，每个都列出置信度。,2012-10-12,11,6 7 6 2 2,I1 I2 I3 I4 I5,二、关联规则挖掘过程,I1 I2 I5, I1 I5 I2, I2 I5 I1, I1 I2 I5, I2 I1 I5, I5 I1

5、I2,2012-10-12,12,confidence = 2/4 = 50 % confidence = 2/2 = 100 % confidence = 2/2 = 100 % confidence = 2/6 = 33% confidence = 2/7 = 29% confidence = 2/2 = 100 %,二、关联规则挖掘过程,如果最小置信度阈值为70%，那么只有第2、3、6个规则可以作为最终的结果输出，因为只有这些是产生的强关联规则。,2012-10-12,13,I1 I5 I2, I2 I5 I1, I5 I1 I2,confidence = 2/2 = 100 % con

6、fidence = 2/2 = 100% confidence = 2/2 = 100%,二、关联规则挖掘过程,对强关联规则的批评： eg:,2012-10-12,14,在5000个学生中，3000个打篮球，3750个喝麦片粥，2000个学生既打篮球又喝麦片粥。打篮球 = 喝麦片粥 40%, 66.7%是错误的，因为全部学生中喝麦片粥的比率是75%，比打篮球学生的66.7%要高。打篮球 = 不喝麦片粥 20%, 33.3%这个规则远比上面那个要精确，尽管支持度和置信度都要低的多。,二、关联规则挖掘过程,兴趣度（作用度）：描述了项集A对项集B的影响力的大小，即A与B的相关程度。 P(AB)

7、P(A)P(B) 若I(A B)=1,即P(A)P(B)=P(AB)，A与B相互独立；若I(A B)1,表示A出现和B出现是正相关的。意味着A的出现蕴含B的出现。小结：只有兴趣度大于1，该规则才具有实际价值。,2012-10-12,15,I(A B)=,三、关联规则的分类,基于规则中处理的变量的类别布尔型：布尔型关联规则处理的值都是离散的、种类化的，它显示了这些变量之间的关系； B. 数值型：数值型关联规则可以和多维关联或多层关联规则结合起来，对数值型字段进行处理。 eg：性别=“女”=职业=“秘书” 性别=“女”=avg（收入）=2300,2012-10-12,16,三、关联规则

8、的分类,基于规则中处理的变量的类别布尔型:布尔型关联规则处理的值都是离散的、种类化的，它显示了这些变量之间的关系； B. 数值型 :数值型关联规则可以和多维关联或多层关联规则结合起来，对数值型字段进行处理。 eg：性别=“女”=职业=“秘书” 性别=“女”=avg（收入）=2300,2012-10-12,17,三、关联规则的分类,基于规则中数据的抽象层次：单层关联规则:所有的变量都没有考虑到现实的数据是具有多个不同的层次的；多层关联规则:对数据的多层性已经进行了充分的考虑。层：大类是否细分的问题，如上衣可以细分为衬衣、夹克、风衣等。 eg: IBM台式机=Sony打印机台式机=

9、Sony打印机,2012-10-12,18,三、关联规则的分类,2012-10-12,19,分层示例：,三、关联规则的分类,2012-10-12,20,基于规则中数据的维数：单维关联规则:只涉及到数据的一个维，如用户购买的物品；多维关联规则:要处理的数据将会涉及多个维。 eg: 啤酒=尿布性别=“女”=职业=“秘书”,四、关联规则的价值衡量,对关联规则的评价与价值衡量涉及两个层面： A.系统客观的层面使用“支持度和信任度”框架可能会产生一些不正确的规则。 B.用户主观的层面只有用户才能决定规则的有效性、可行性。如果把某些约束条件与算法紧密结合，既能提高数据挖掘效率，又能明确数据挖掘的目标。,2012-10-12,21,五、关联规则的挖掘算法,2012-10-12,22,Apriori算法挖掘或识别出所有频繁项集是该算法的核心，占整个计算量的大部分。不足：产生大量候选频繁集、多次扫描数据库 FP-Tree算法优点:不产生候选频繁集、只两次扫描数据库其他算法,六、关联规则的应用,气象预测,医疗诊断,购物分析,2012-10-12,23,Thank You!,2012-10-12,24,

展开阅读全文