关联规则数据挖掘.docx_三一文库31doc.com

资源描述

《关联规则数据挖掘.docx》由会员分享，可在线阅读，更多相关《关联规则数据挖掘.docx（50页珍藏版）》请在三一文库上搜索。

1、关联规则数据挖掘学习报告精品资料精品资料目录引言2案例2关联规则3（一）关联规则定义（二）相关概念（三）关联规则分类数据6（一）小型数据（二）大型数据应用软件7（一）WEKA（二）IBM SPSS Modeler数据挖掘12总结27精品资料一、引言数据库与互联网技术在日益发展壮大，人们每天可以获得的信息量呈指数级增长。如何从这浩如瀚海的数据中找出我们需要的数据显得尤为重要。数据挖掘又为资料探勘、数据采矿。它是数据库知识发现中的一个步骤。数据挖掘一般是指从大量的数据中通过算法搜索隐藏于其中信息的过程。数据挖掘通常与计算机科学有关，并通过统计、在线分析处理、情报检索、机器学习、专家系统(依靠过

2、去的经验法则)和模式识别等诸多方法来实现上述目标。数据挖掘大致分为以下几类：分类 (Classfication )、估计(Estimation)、预测(Prediction )、相关性分组或关联规则(Affinity grouping or association rules)、聚类(Clustering ) 复杂数据类型挖掘(Text, Web ,图形图像，视频，首频等)。二、案例尿布与啤酒的故事。在一家超市里，有一个有趣的现象：尿布和啤酒赫然摆在一起出售。但是这个奇怪的举措却使尿布和啤酒的销量双双增加了。这不是一个笑话，而是发生在美国沃尔玛连锁店超市的真实案例,并一直为商家所津津乐道。

3、沃尔玛拥有世界上最大的数据仓库系统，为了能够准确了解顾客在其门店的购买习惯，沃尔玛对其顾客的购物行为进行购物篮分析，想知道顾客经常一起购买的商品有哪些。沃尔玛数据仓库里集中了其各门店的详细原始交易数据。在这些原始交易数据的基础上，沃尔玛利用数据挖掘方法对这些数据进行分析和挖掘。一个意外的发现是：”跟尿布一起购买最多的商品竟是啤酒！经过大量实际调查和分析，揭示了一个隐藏在“尿布与啤酒”背后的美国人的一种行为模式：在美国，一些年轻的父亲下班后经常要到超市去买婴儿尿布，而他们中有 30%40%的人同时也为自己买一些啤酒。产生这一现象的原因是：美国的太太们常叮嘱她们的丈夫下班后为小孩

4、买尿布，而丈夫们在买尿布后又随手带回了他们喜欢的啤酒。按常规思维，尿布与啤酒风马牛不相及，若不是借助数据挖掘技术对大量交易数据进行挖掘分析，沃尔玛是不可能发现数据内在这一有价值的规律的。在这个案例中使用了数据挖掘中的关联规则分析。关联分析是发现交易数据库中不同项之间的联系。毫无疑问，关联分析中发现的规则为超市带来了更多的收益。如果我们能在生活中对关联分析进行应用，一定可以解决更多的问题。数据关联是数据库中存在的一类重要的可被发现的知识。若两个或多个变量的取值之间存在某种规律性，就称为关联。关联可分为简单关联、时序关联、因果关联。关联分析的目的是找出数据库中隐藏的关联网。有时并不知

5、道数据库中数据的关联函数，即使知道也是不确定的，因此关联分析生成的规则带有可信度。关联规则挖掘发现大量数据中项集之间有趣的关联或相关联系。Agrawal等于1993年首先提出了挖掘顾客交易数据库中项集间的关联规则问题，以后诸多的研究人员对关联规则的挖掘问题进行了大量的研究。他们的工作包括对原有的算法进行优化，如引入随机采样、并行的思想等，以提高算法挖掘规则的效率；对关联规则的应用进行推广。关联规则挖掘在数据挖掘中是一个重要的课题，最近几年已被业界所广泛研究。三、关联规则（一）关联规则定义关联分析是一种简单、实用的分析技术，就是发现存在于大量数据集中的关联性或相关性，从而描述了一

6、个事物中某些属性同时出现的规律和模式。关联分析是从大量数据中发现项集之间有趣的关联和相关联系。关联分析的一个典型例子是购物篮分析。该过程通过发现顾客放人其购物篮中的不同商品之间的联系，分析顾客的购买习惯。通过了解哪些商品频繁地被顾客同时购买，这种关联的发现可以帮助零售商制定营销策略。其他的应用还包括价目表设计、商品促销、商品的排放和基于购买模式的顾客划分。（二）相关概念1 .关联规则关联规则是指数据之间的简单的使用规则，是指数据之间的相互依赖关系。关联规则形如：XY;其中XI, YI,并且XCY=。X为先决条件，Y为结果；关联规则反映了项目集X出现的同时项目集Y也会跟着出现。2 .支持

7、度（Support）设X属于数据项目集，为事务数据库中包含 X的记录条数，为事务数据库中记录的总个数，那么项目集X的支持度二/支持度表示项目集在事物集中出现的频率的是多少。3 .置信度(Confidence )有关联规则XY ,其中XI, YI,并且XfY=,那么XY的置信度为：Conf (XY) =*100%=P (Y|X)。置信度是反映在事物X中出现事物Y的条件概率。4 .强关联规则如果某条规则同时满足最小支持度和最小置信度则称为强关联规则。5 .最小支持度、大项集和最小置信度方关联规则的定义可以看任意两个数据项集都存在关联规贝厂只是其支持度和置信度不同而即S戈出有意义的规则就需要现

8、足最小支持度和最小置信度前者描述了关联规则中数据项集的最低重要程度，记为minsup 后者规定了关联规则必须满足的最低可靠性记为】minconf。支持度大于最小支持度的数据项集称作大项集(Large Itemset)反之则称为弱项集(Small Iterns)。同时满足最小支持度、最小置信度的关联规则称为强关联规则。(三)关联规则分类1 .基于规则中处理的变量的类别，关联规则可以分为布尔型和数值型。布尔型关联规则处理的值都是离散的、种类化的，它显示了这些变量之间的关系；而数值型关联规则可以和多维关联或多层关联规则结合起来，对数值型字段进行处理，将其进行动态的分割，或者直接对原始的

9、数据进行处理，当然数值型关联规则中也可以包含种类变量。2 .基于规则中数据的抽象层次，可以分为单层关联规则和多层关联规则。在单层的关联规则中，所有的变量都没有考虑到现实的数据是具有多个不同的层次的；而在多层的关联规则中，对数据的多层性已经进行了充分的考虑。3 .基于规则中涉及到的数据的维数，关联规则可以分为单维的和多维的。单维关联规则是处理单个属性中的一些关系；多维关联规则是处理各个属性之间的某些关系。(四)算法I.Apriori 算法1)Apriori算法是一种使用频繁项集的先验知识从而生成关联规则的一种算法也是最有影响的关联规则挖掘算法。2)定义：设C (k)表示候选k-项集L

10、(k)表示C (k)中出现频率大于或等于最小支持度阈值与事务总数的乘积的 k-项集，即k-频繁项集或者是k-大项集。3) Apriori算法具有以下性质：任何非频繁的(k-1)-项集都不可能是频繁k- 项集的子集。这是因为如果含有(k-1)-项集的事务占事务总数的百分比不大于最小支持度阈值。那么含有该(k-1)-项集与另外一项构成的k项集的事务占事务总数的百分比就更不可能大于或等于最小支持度阈俏了。如果用概念来解释的话，含有k-项集的事务构成的概念的内涵比含有(k-1)-项集事务所构成的概念的内陷增加了那么它的A延必然会臧小所包含的事务数也必苑减小。因此，根据这个性质可以在生成k

11、-项集之前先将(k-1)-项集中的非频繁项集删除通过删除候 (k-1)-项集中的非频繁项集得到(k-1)-频繁项集。4) Apriori算法的步骤步骤如下设定最小支持度s和最小置信度c。Apriori算法使用候选项集。首先产生出候选的项的集合，即候选项集若候选项集的支持度大于或等于最小支持度则该候选项集为频繁项集。在Apriori算法的过程中，首先从数据库读入所有的事务，每个项都被看作候选1-项集得出各项的支持度再使用频繁1-项集集合来产生候选2-项集集合。因为先验原理保证所有非频繁的1-项集的超集都是非频繁的。再扫描数据库。得出候选2-项集集合。再找出频繁2-项集。并利用这些频繁

12、2-项集集合来产生候选3-项集。重复扫描数据库，与最小支持度比较；产生更高层次的频繁项集再从该集合里产生下一级候选项集直到不再产生新的候选项集为止。2.FP-树频集算法1）定义：针对Apriori算法的固有缺陷，J. Han等提出了不产生候选挖掘频繁项集的方法：FP-树频集算法。采用分而治之的策略，在经过第一遍扫描之后，把数据库中的频集压缩进一棵频繁模式树（FP-tree）,同时依然保留其中的关联信息，随后再将FP-tree分化成一些条件库，每个库和一个长度为1的频集相关，然后再对这些条件库分别进行挖掘。当原始数据量很大的时候，也可以结合划分的方法，使得一个FP-tree可以放入主

13、存中。实验表明，FP-growth对不同长度的规则都有很好的适应性，同时在效率上较之Apriori算法有巨大的提高。2） FP-树频集算法的步骤步骤如下遍历一次数据库，到处频繁项集（1项集）的集合和支持度计数（频率），并且以降序排序，结果集或表记为 L。构造FP-tree。根据第二步得到的FP-tree ,为1项频繁项集中的每一项构造条件 FP-tree 。得到频繁模式（频繁项集）四、数据（一）小型数据Titi.Fi格式）堂看力 W（H）freshmeatdairy confectioneryfreshneatconfectionerycannedviegfrozerunealbeer

14、dairy wine freshmeatmne fishfruitvegsoftdrinkbeer fruitvegfrozenmealfruitvegfishfruitvegfreshmeatdairyfruitvegfishdairy cannednieatfroseninealsoftdrinkfishfruit vegdairysoft dririkfrozenmealbeersoftdrinkfruitvegcannedvegfishfi sh beerfishfruitvegcannedvegwinefrozemnealfi shwineconfectioneryfish frui

15、 tvegfre shine atdai ryfi shcannedvegwri nefi shfi shfi shfish confectionerycannedvegcannedmeatfrozerune albeerbasket.txt -记事本.beer confectioneryfruitvegdai ryfrozenmealbeerfreshmeatwineconfectioneryfre shine at cannedme atwinefishconfectioneryfrozenmeal frozenmealbeer winewinefishcannedveg fruitveg

16、 rcannedmeatbeerwine这是我们得到的最原始的数据，是国外某超市的购物篮数据，共有约一千条文件格式为txt格式，每一行代表一个顾客购物篮中的商品1198554454974S53516229n077 4 ,134 ,18369t14 Qu 5 39 o 1 2i 2 2 2.b OQ 7 49392071066 512-1*,18 2 6318 9 0 1 2119- W 240的,17 15 2 os 9 o I 21 12 2 24 0 4 3*u 1 11X 1 1* 1*394 95 E1X_5 9 46 B 7 811140 0 4 194- 9 0 111 1 2 g

17、 2393 68238 OOI2 3 3555 1A 1- 11 1- 1* 11 1* 11 1*4-8 6 930 86 6lrL!Yi.!l:!QU u I114 4 14 1 2 2 22 21571 7 3 5 6237 1-494699011233565868198180917 7 3 CO 8OG3 1 4 1 I 1 1 1 5 I 4 1 g q * 1 4 L 2 1 21 4 7 9 9 1 9 4 9 n 3 8 ? 5?:- 3 19 12 3 8 5 9 5 1 8998888051 13 333343 6 773884 3 43111413 14133 3 134

18、* 2 629 1 9 o 3 6 8 8 9 3 2 8 9 6 9 1 9 6 9 8 9 1 8 9 9 8 8 9 6 8 2 2 96 9 9 9 7 o 3 3 3 3 3 3 3 6 3 4 3 3 8 4 Qu 3 O J 3 rt o 1 4 3 3 3 d 3 1 3 3 3 3 3 3 3 3 1第二个大型数据也是国外某公司的超市购物篮数据，共有88162条数据数据为txt格式。第一行是对每列数据的一个编号，从第二列开始是每个顾客超市购物篮中的东西。每个数字代表一个商品。因为数据过大，所以整个数据是数据集的形式。五.应用软件（一）WEKA1 . WEKA简介WEKA的全名

19、是怀卡托智能分析环境( Waikato Environment for KnowledgeAnalysis),是一款免费的，非商业化的，基于 JAVA环境下开源的机器学习以及数据挖掘软件。它和它的源代码可在其官方网站下载。WEKA作为一个公开的数据挖掘工作平台，集合了大量能承担数据挖掘任务的机器学习算法，包括对数据进行预处理，分类，回归、聚类、关联规则以及在新的交互式界面上的可视化。2 .WEKA 存储数据的格式是 ARFF (Attribute-Relation File Format )文件，这是一种ASCII文本文件。二维表格存储在如下的 ARFF文件中。识别ARFF文件的重要依据

20、是分行，因此不能在这种文件里随意的断行。空行(或全是空格的行)将被忽略。WEKA的关联规则分析功能仅能用来作示范，不适合用来挖掘大型数据集。3 .数据处理由于我们的源数据为TXT格式，无法应用于 WEKA软件，所以我们需要将它转换为ARFF格式。我们查阅有关资料以及有关网站，找到了一个用 Python 转换格式的方法。TXT转为ARFF格式def txt2arff(filename, value):with open(./generatedarff.arff, w) as fp:fp.write(relation ExceptionRelationattribute ID stringatt

21、ribute Thrown numericattribute SetLogicFlag numericattribute Return numericattribute LOC numericattribute NumMethod numericattribute EmptyBlock numericattribute RecoverFlag numericattribute OtherOperation numericattribute class-att True,Falsedata)with open(filename) as f:contents = f.readlines()for

22、content in contents:lines = content.split(t)lines = line.strip() for line in linesif lines9 = 1:lines9 = Truelines.append( + str(value) + )else:lines9 = Falselines.append(1)array = ,.join(lines)fp.write(%sn % array)处理结果：小型数据ViewerReiaLi 白血： ba &ketfrui tvfligfr eshmatdairyHninalyM-inalc ajme dm e at

23、fr9zeivnealbeerwizxecsinalsaf tdriixkNwns 7irEi.Ehconec1),越表明A和B存在于一个购物篮中不是偶然现象，有较强的关联度.b) Leverage :P(A,B)-P(A)P(B)Leverage=0时A和B独立，Leverage越大A和B的关系越密切c) Conviction:P(A)P(!B)/P(A,!B) (旧表示 B 没有发生) Conviction 也是用来衡量A和B的独立性。从它和lift的关系(对B取反，代入Lift公式后求倒数)可以看出，这个值越大，A、B越关联。minMtric度量的最小值0.9。numRules要发现的规

24、则数为10。outputItemSets如果设置为真，会在结果中输出项集。removeAllMissingCols移除全部为缺省值的列。significanceLevel重要程度-0.1。重要性测试(仅用于置信度)。upperBoundMinSupport 最小支持度上界。从1.0开始迭代减小最小支持度。verbose如果设置为真，则算法会以冗余模式运行。2）结果解释scheme -所选的关联规则挖掘方案：Apriori算法算法的参数设置:-I -N 10 -T 0 -C 0.9 -D 0.05 -U 1.0 -M 0.5 -S -1.0 -c -1 ;各参数依次表示：I -输出项集，若设为f

25、alse则该值缺省；N 10 -规则数为10;T 0 -度量单位选为置信度，（T1-提升度，T2杠杆率，T3确信度）；C 0.9 -度量的最小值为0.9;D 0.05 -递减迭代值为0.05;U 1.0 -最小支持度上界为1.0;M 0.5 -最小支持度下届设为0.5;S -1.0 -重要程度为-1.0；c -1 -类索引为-1输出项集设为真(由于car, removeAllMissingCols, verbose都保持为默认值False ,因此在结果的参数设置为缺省，若设为True,则会在结果的参数设置信息中分别表示为A,R,V)Minimum support: 0.5 (470 insta

26、nces)/最小支持度 0.5,即最少需要 470 个实例Minimum metric : 0.9/最小度量 :0.9Number of cycles performed: 10/进行了 10 轮搜索Generated sets of large itemsets:/生成的频繁项集Size of set of large itemsets L(1): 11 频繁 1 项集：11 个A”ocia.tr outputLarge Iremjers Ll): fruitveg=F 641 fre3hiteai:=F 757 dairy=F 763 cannedvg=F 537 can.nedEiat=

27、F 73 frDzenr*aL=F 3? beer=F 647 wine-F 53 saftdrlnlc=F 756 fiJh-F 648 confectionery=F 664dairyF frG-zerjreal=F 512dairy-F beerF 515dairy=F wine=F 522dairy=F scfcdrink=F 614dairy=E fisW S27dairy=F confectlonery-F 543 cannedveg=F cannedneat=F 50 cannedveg=F rDzenneal=F 503 cannedveg=F beer=f 511 cann=

28、dveg=F 3oftdrin)L=F S16 canneneat=F frczenreal=F 509 cann=irieat=F b&er=F 503Size cf set af Large itemseta L(2); 39canneneat=F wine=F 503cannedzieat=? scftdrink-F 594Large Iteiraers L2 : fruitvegF fi3hE!eat:=F 517 fruitvej=F dairy=F S26 fruitvegF cann&tieau=F 4式 fruitveg=F softcErink-F S13 fruitveg=

29、F fish=F 494 fre3hjneat=F dairy=F fl3 frE3hiriat=F canedveg=F 50? freslursat=F oanneneat=F 594 fre3hir=3t=F frczemrieal=F 5C7 freshireatsF bee mF 511 freshireat=F wint-F 819 freshiteaL=F 30fcdrink=F 615 fra皿d t=F fish=F S13 freshmat=F CDnfectloLEry=F 535 dairy=F cannedvei=F 504 dairy=F canLEneat=F 5

30、90cannedrieac=F fi3h=F 507carme dJueat=F confecticneTy=F 514frczetnneal=F beer=F 515frDzenjneal=F scftdrink=F 508beer=F 3DftdrirLk=F 503wine=F 30ftdrinJc=r 529wine=F ccnfecticnery=F 521softdrink=F fi5h=F 5163cftdrink=F ucilEe二七:Lt?nwz?=F 532Size of set of large itemsets L(3): 4Large ttensets L：fresh

31、tneaL=F dairyF cannetac=F 474fre3irmeat=F dairy=F softdrinZ=F 499fre9hmeat=F cannedmeat=F 3Dftdrink=F 421dairy=F cannert-at=F softdrink=F 44剩余结果3）修改数值delta以0.1为迭代递减单位。不断减小支持度直至达到最小支持度或产生了满足数量要求的规则结果如下：精品资料Prtfr4ctsiEyClui UrAssoci atQ Weka ExplorerAseoclririi 7 10 -T ：L -C 1. I -Bl fl. j -IT 0.8 -fl

32、l 0. 25 -S T JD r -I| hc4s HgflEult list (righ-J7 ：01：M - jlpri ari I，后:斯 - Aprian IT ：D7 3 一 ifriari IT：D7 56 一 iipriariAeSOCI H.t !?r crulputAuriDii17.PS 53 - Apri口!riSttinsOK4）结果解释ElDlrj supporr.s D. 5 (47a inaranceslHlDlmiL E&aTzrle1. Lof cycles 的广工白EeT: 3GiBerated 3匕匕9Size of of口arg? itemaets

33、L 111Size o-f act of largeSize ef sen Df largeitems lets L 2: 39jxw皿sew 1 -3: 4Bear rules fouxiljL 亡3HtiEdvfrg=E 637 = frczenxfial=F 12. fro2enEie-al=F 63 E = tafiDed=F 3 g r$3：enm-&l=F E?= be*r=F 515 4. be=F 547 = 10工UsUne叁H=F 乳5 5. mnnodvcg=F 637 = bwF Sil6. bcer-F 547 -* cnnnechTg-F $117. wine-F 653 - confeCTiooeryF8. canfectiDnezy-r 664 - wijie-FSl fraitvBig-r 41 - fish-F 4gg10. fi与MW IrulLvea*F 4945-DSC0Dft(Ofca)levHO-OS) 75 CCDVL lb57)5DSconft(Qfcg) isv-(d-oa)

展开阅读全文