关联规则挖掘课件.ppt_三一文库31doc.com

资源描述

《关联规则挖掘课件.ppt》由会员分享，可在线阅读，更多相关《关联规则挖掘课件.ppt（19页珍藏版）》请在三一文库上搜索。

1、关联规则挖掘,1,第八章关联规则的挖掘,一、关联规则挖掘的含义关联规则用于表示OLTP数据库中诸多属性（项集）之间的关联程度。关联规则挖掘（ Association Rules Mining）则是利用数据库中的大量数据通过关联算法寻找属性间的相关性。例：(超级市场)在购买商品A的客户中有90%的人会同时购买商品B，则可用关联规则表示为：,关联规则挖掘,2,关联规则,支持度(Support)：同时购买A和B的客户人数占总客户数的百分比称为规则的支持度。置信度(Confidence)：同时购买A和B的客户人数占购买A的客户人数的百分比称为规则的置信度。由于在实际应用中，概率P一般是无法

2、事先给出的，所以常以频度代替,关联规则挖掘,3,购买A的顾客,购买B的顾客,同时购买A和B的顾客（AB）,关联规则（图示）,关联规则挖掘,4,有意义的关联规则,为了发现出有意义的关联规则，需要给定两个阈值：最小支持度和最小置信度。关联规则挖掘的实质是在数据集合中寻找满足用户给定的最小支持度和最小置信度的规则。例：交易情况如下表，要求最小支持度为50%, 最小可信度为 50%, 则可得到：,A C (50%, 66.6%) C A (50%, 100%),关联规则挖掘,5,二、关联规则挖掘算法Apriori,1、术语项集：在数据库中出现的属性值的集合。 K_项集：包含K个项的项集。频繁项集

3、：满足最小支持度要求的项集。关联规则一定是在满足用户的最小支持度要求的频繁项集中产生的，因此，关联规则挖掘也就是在数据库中寻找频繁项集的过程。,关联规则挖掘,6,示例,项集：A，B，C，D，E，F，.,1_项集：A，B，C，.，F,2_项集：A，B，A，C.,频繁项集的任何子集也一定是频繁的！,关联规则挖掘,7,2、关联规则分类,1）根据规则中所处理的值类型布尔关联规则：规则考虑的关联项是否存在量化关联规则：规则描述的是量化的项或属性间的规则,关联规则挖掘,8,2、关联规则分类,2）根据规则中所涉及的数据维是单维的，涉及buys; 多维，涉及年龄、收入和buys 3）根据规则中所涉及的

4、抽象层商品位于不同层，计算机的抽象层高，称为多层关联规则,关联规则挖掘,9,3、 Apriori算法,符号定义： Lk:k项频繁集的集合； Ck：k项集的候补集合,步骤：连接: 用 Lk-1自连接得到Ck，（k2) 设l1,l2是有两个有k-1个有序项的项集，lji代表k-1个项的第i项(j=1,2; i=1,2,k-1)。l1和l2是可连接的l1Xl2，需满足： l11=l21 ,l12=l22，.，l1k-2=l2k-2， l1k-1 l2k-1，产生的项是： l11l12.l1k-2l1k-1l2k-1(lji是有序的）,*注：C2= 由1_项集两两组合生成，共C2m(m为1_项集合

5、的项数）,修剪: 一个k-项集，如果它的一个k-1项子集不是频繁的，那它本身也不可能是频繁的。,例：l1=A,B,C ， l2=A,B,D，l3=A,C,F 则：l1 X l2=A,B,C,D l1 X l3，l2 X l3均为空,为什么l1 X l3不生成A,B,C,F?,A，B，C ，A，B，F,关联规则挖掘,10,4、算法伪代码,L1= 找频繁1_项集； for (k = 2; Lk !=; k+) Ck= 由 Lk-1生成候补集合； for each t Ck 计算t在数据集合中出现的次数； / min_support为最小支持度 if (出现计数小于min_support) 从Ck中

6、剔除； Lk = Ck； return k Lk;,关联规则挖掘,11,5、关联规则挖掘示例（最小支持数2）,数据库 D,C1,C2,C3,L3,关联规则挖掘,12,6、产生的关联规则,前面的例子中，得到一个频繁集 2，3，5，非空真子集有2，3，5，2，3，2，5，3，5,规则： 2 35 3 25 5 23 23 5 25 3 35 2,置信度： 2/3=66%（2，3，5频度/2频度） 2/3=66%（2，3，5频度/3频度） 2/3=66%（2，3，5频度/5频度） 2/2=100%（2，3，5频度/2，3频度） 2/3=66%（2，3，5频度/2，5频度） 2/2=100% （2，3

7、，5频度/3，5频度）,支持度：2/4=50%,关联规则挖掘,13,7、Apriori 的性能瓶颈,Apriori算法的核心: 用频繁的(k-1)_项集生成候选的频繁 k_项集用数据库扫描和模式匹配计算候选集的支持度 Apriori 的瓶颈: 候选集生成巨大的候选集: 104 个频繁1_项集要生成 107 个候选 2_项集要找尺寸为100的频繁模式，如 a1, a2, , a100, 你必须先产生2100 1030 个候选集（1_项集）多次扫描数据库：如果最长的模式是n的话，则需要n次数据库扫描为提高Apriori算法的性能，有许多改进的算法。,关联规则挖掘,14,8、如何在概念

8、分层挖掘多层关联规则,一般采用自顶向下策略，由概念的顶层开始向下，到较低的更特定的概念层，对每个概念层的频繁集累加计数，直到不能再找到频繁项集。对于所有层使用一致的最小支持度,非频繁,关联规则挖掘,15,8、如何在概念分层挖掘多层关联规则,一般采用自顶向下策略，由概念层1开始向下，到较低的更特定的概念层，对每个概念层的频繁集累加计数，直到不能再找到频繁项集。对于所有层使用一致的最小支持度在较低层使用递减的最小支持度,关联规则挖掘,16,9、冗余的多层关联规则处理,买笔记本买打印机支持度=8%,置信度=70% (1) 买IBM笔记本买打印机支持度=2%,置信度=72% (2) 规则2有

9、用吗？它提供了新颖的信息吗？从（1）的置信度=70%推断：买笔记本同时买打印机的交易数/买笔记本交易数=70%。IBM笔记本属于笔记本，因此置信度也应该在70%左右。由（2)实际为72%，基本无差异。如果后一个具有较小一般性的规则，它不提供新的信息，应当删除它！,关联规则挖掘,17,9、冗余的多层关联规则处理,从（1）的支持度=8%推断：买笔记本同时买打印机的交易数/总交易数=8%，假定从数据集中还发现，IBM笔记本在占整个笔记本销量的25%。则：买IBM笔记本的支持度应该为8%*25%=2%，由（2)实际为2%，两者相同。如果一个规则的祖先，它的支持度和置信度都接近于该规则的“期望”

10、值，这个规则是冗余的。结论：规则（2）不是有趣的，因为它不提供有趣的信息,关联规则挖掘,18,10、关联规则的相关分析,强关联规则不一定有趣例：在10000个交易中，6000个顾客交易包含计算机游戏，7500个顾客交易包含影碟机，4000个交易包含计算机游戏和影碟机。规则其实是误导，因为购买影碟机的可能性是75%，比66%还大。事实是：计算机游戏和影碟机是负相关的。,关联规则挖掘,19,10、关联规则的相关分析,A和B的相关性：,corrAB: 1，正相关，每一个出现蕴涵另一个出现,p(游戏)=0.6 ，p(影碟机)=0.75，p(游戏,影碟机)=0.4,corrAB=0.4/0.6*0.75=0.891 负相关，规则无意义！,

展开阅读全文