数据挖掘试验报告.docx_三一文库31doc.com

资源描述

《数据挖掘试验报告.docx》由会员分享，可在线阅读，更多相关《数据挖掘试验报告.docx（20页珍藏版）》请在三一文库上搜索。

1、学生学号0120810680330实验课成绩武汉理工大学实验课程名称开课学院指导老师姓名学生姓名学生专业班级学生实验报告书数据挖掘计算机科学与技术学院徐宁赵倩软件0803班2010 2011学年第学期实验课程名称：数据挖掘实验项目名称数据仓库的设计、实现及多维分析实验成绩实验者赵倩专业班级软件0803班组别同组者实验日期2011年5月19日第一部分：实验分析与设计一、实验内容描述SQL Server Analysis问题描述：此实验为设计型实验，选择一种数据仓库管理系统，如 Manager进行数据仓库的设计、实现，并进行多维数据分析。二、实验基本原理与设计三、主要仪器设备及软件环境Wi

2、ndows xpSQL Server 2000第二部分：实验调试与结果分析一、调试过程（包括调试方法描述、实验数据记录，实验现象记录，实验过程发现的问题等）如何向多维数据集添加度量值：度量值是要进行分析的数据库中的量化值。常用的度量值为销售、成本和预算数据。度量值根据多维数据集不同的维度类别进行分析。1. 在多维数据集向导的“欢迎”步骤，单击“下一步”按钮。2. 在“从数据源中选择事实数据表”步骤，展开“教程”数据源，然后单击"sales_fact_1998 "。3. 单击“浏览数据”按钮可以查看“ sales_fact_1998 ”表中的数据。数据浏览完毕后，关闭“浏

3、览数据”窗口，然后单击“下一步”按钮。4. 若要定义多维数据集的度量值，在"事实数据表数据列”下，双击" store_sales ”。对"store_cost ”和"unit_sales "列重复此步骤，然后单击"下一步"按钮。二、实验结果及分析（包括结果描述、实验现象分析、影响因素讨论、综合分析和结论等）运行结果为：第一步，建立系统数据源连接第二步, 启动 Analysis Manager第三步，建立数据库和数据源第四步建立多维数据集 1、如何建立时间维度2、如何建立产品维度计萱事实数至表的行数可能要花费1段时间才能完成.

5、若萼制际无效的联祷，谙右神单击谣麻接，然后单击“册1除、IJ Sales-推度* 心 TimeFF Product亩出 Custwieri E Stars 日由度量值V Store 5es #f¥ Store Cost中 Unft Sales _J i+宜成员计宜单元 n操作 _j命名集创建祀教说麻接下一步（叩Abmsjd - the_date 出e_d取 themonth the_year day.of.nffir#) v*eek_of_yeiar month 项earquarter取消 I 咐product ,xl®sjd. prciduKt_subcatec pro

6、duct jcategory produetjdepartmi prfldiKtJamllycustomerjdaccouht_nuniIndmefnamerniaddgsladdressaddress3addressc*yL卜 n 卜q rwriuiii-irastore jd store.type regionjd store_name stDre_number 5tDre_5tree_addr,i 5tore_clty stciire_stats stDr&_pDstaljcdclle 5tore_coijntry |$Me_Fad:_l 豹 8produdtjd timejd

7、customef jidl promationjd store Jd store.saJes store.QGst unitjsalesproducl:_cla55_ld productjd brnd_name product namfr 5W SRP gros5_weight net.weighfr re£ydaUe_packa_J睡度向导productproduct class多鸵割话秉编辑器ttw by dwirodudproduct_class|JsMmerstore6、设计存储和处理多维数据集7、浏览多维数据集数据(1)使用多维数据集浏览器查看多维数据集数据双击某一成员可浅

8、化或神化。客幡数制集浏鼐探-Sales超| 蒂助 n M III Ki III H H III U III H III HCBI(2)替换网格中的维度(3)按时间筛选数据(4)深化+ Country-Product Category+ Product Subcategory-所有 Customer+ Canada一所有 Product所有Product合计290,873.1823.8S1.13-Baking GoodsBaking Goods 合计8,103.52708.65+ Cooking Oil3,344.79306.67 I+ Sauces710.3563.03+ Spices2,4

9、62.64215.34+ Sugar1,585.74123,61+ Bathroom ProductsBathroom Products 合F6,805.34609.34+ Beer and WineBeer and Wine 合计7,614.09781.04+ BreadBread合计8,340.3268 巳 55+ Breakfast FoodsBreakfast Foods 合计B.452.72652.49+ CandesCandles 合计792.5391.02+ CandyCandy合计7,615.1251S.07jr|HJjT双击某一成员可浅化或深化，关闭 |帮助Qj)三、实验小结

10、、建议及体会基于“学生成绩分析”主题数据仓库多维模型的建立，能很好地满足高校老师和学生对学生成绩信息进行快速查询以及分析的需要，为更多其他主题数据仓库的建立奠定了基础。然而各主题数据仓库的建立，只是一个开始，我们下一步工作将是在建立好的数据仓库基础上进行数据挖掘，进一步去发现隐藏在这些学生成绩信息数据中更加有用的知识、规律和模式,使之为学校学生成绩分析工作服务。将数据仓库技术应用到学生信息管理中，使我了解了数据仓库的应用以及如何创建数据仓库。实验课程名称：数据挖掘实验项目名称Apriori 算法实验成绩实验者赵倩专业班级软件0803班组别同组者实验日期2011年5月26日第一部分：实验分析

11、与设计一、实验内容描述(问题域描述)此实验为综合型实验，要求学生综合利用先修课程高级程序设计语言、数据库、算法设计与分析，与本门数据挖掘课程的知识，选择一种编程工具，如 Visual C+ ,实现经典挖掘算法 Apriori 或算法 k-Means。二、实验基本原理与设计(包括实验方案设计，实验手段的确定，试验步骤等，用硬件逻辑或者算法描述)Apriori算法是一种最有影响的挖掘布尔关联规则频繁项集的算法。算法基于这样的事实：算法使用频繁项集性质的先验知识。Apriori使用一种称作逐层搜索的迭代方法，k-项集用于探索(k+1)-项集。首先，找出频繁 1-项集的集合。该集合记作L1。L1用

12、于找频繁2-项集的集合L2,而L2用于找L3,如此下去，直到不能找到频繁k-项集。找每个Lk需要一次数据库扫描。为了提高频繁项目集逐层产生的效率，Apriori算法利用了两个重要的性质用于压缩搜索空间：(l )若X是频繁项集，则x的所有子集都是频繁项集。(2)若x是非频繁项集，则 X的所有超集都是非频繁项集。2.2算法描述：算法：Apriori 算法，使用逐层迭代找出频繁项集。输入：事务数据库 D;最小支持度阈值 min_sup。输出：D中的频繁项集L。1 ) L1 = find_frequent_1_itemsets (DD ;2 ) for (k = 2 ; Lk-1 乒；k+) 3

13、) Ck = aproiri_gen (Lk-1 , min_sup);4 )for each transaction tD /scan D for count5 )Ct = subset (Ck,t);/get subsetsof t that are candidates6 )for each candidate c Ct7 )c.count+ ;8 )9 )Lk=c Ck|c.count> min_sup10 )11 )returnL=U kLk;从事务数据库D中挖掘出所有频繁项集。支持度大于最小支持度min_sup的项集Itemset称为频集Frequent Itemset。首先

14、需要挖掘出频繁1-项集；然后，继续采用递推的方式来挖掘频繁k-项集(k>1),具体做法是：在挖掘出候选频繁 k-项集(Ck)之后，根据最小置信度 minSup来筛选，得到频繁k-项集。最后合并全部的频繁k-项集(k>0 )。挖掘频繁项集的算法描述如下：(1) L1 = find_frequent_1-itemsets(D); /挖掘频繁 1-项集，比较容易(2) for (k=2;Lk-1 乒;k+) (3)(4)(5)(6)(7)(8 )(9 )项集(10)(11)Ck = apriori_gen(Lk-1 ,min_sup); / for each transaction t

15、Ct = subset(Ck,t);for each candidate cc.count+; /Lk =c return L=调用apriori_gen方法生成候选频繁k-项集CD /扫描事务数据库D Ct统计候选频繁k-项集的计数£ Ck|c.count > min_sup /满足最小支持度的k-项集即为频繁 k-U k Lk; / 合并频繁k-项集(k>0 )基于第1步挖掘到的频繁项集，继续挖掘出全部的频繁关联规则。置信度大于给定最小置信度minConf的关联规则称为频繁关联规则Frequent Association Rule 。在这一步，首先需要从频繁项集入手，

16、首先挖掘出全部的关联规则(或者称候选关联规则)，然后根据 minConf来得到频繁关联规则。挖掘频繁关联规则的算法描述如下：(1)初始状态：L = U k Lk; AR =;/ L 是频繁项集集合，AR是频繁关联规则集合(2) for all入k (入k是L的元素，是一个(3) for alla k (a k是入k的非空真子集)(4) if( a k r 3 m 的置信度 >=minConf) / 关联规则(5) AR = ARU(6) (7) (8) (9) return AR;k-频繁项集，大小为n) 这里，m + k = n ，其中a kr 3 m是一个(a k r 3 m);三、

17、主要仪器设备及软件环境Windows xpC+ 6.0第二部分：实验调试与结果分析、调试过程（包括调试方法描述、实验数据记录，实验现象记录，实验过程发现的问题等）TIDItemsT1I1,I3,I4T2I2,I3,I5T3I1,I2,I3,I5T4I2,I5首先统计出一维项目集，即:C1.这里预定义最小支持度 minsupport=2,侯选项目集中满足最小支持度要求的项目集组合成最大的1-itemsets.为生成最大的2-itemsets,使用了 sc_candidate 函数中 join 步，即：L1joinL1, 并通过 prune 步删除那些C2的那些子集不在L1中的项目集.生成了侯

18、选项目集C2.搜索D中4个事务，统计C2中每个侯选项目集的支持度.然后和最小支持度比较，生成L2.侯选项目集C3是由L2生成.要求自连接的两个最大2-itemsets中，第一个项目相同，在 L2中满足该条件的有I2,I3,I2,I5.这两个集合经过join步后，产生集合I2 ,I3 , I5.在 prune 步中，测试I2 , I3 , I5的子集I3 , I5,I2 , I3,I2 , I5是否在L2中，由L2可以知道I3,I5,I2,I3,I2,I5本身就是最大2-itemsets.即I2,I3,I5 的子集都是最大项目集.那么I2,I3,I5 为侯选3-itemset.然后搜索数

19、据库中所有事务记录，生成最大的3-tiemsets L3.此时，从L3中不能再生成侯选 4-itemset .Apriori 算法结束.二、实验结果及分析（包括结果描述、实验现象分析、影响因素讨论、综合分析和结论等）先输入数据集的各项数据，运行结果为：入最4输入阿拉伯数字记录项输入阿拉伯数字输入阿拉伯数字记录项请输入第口个薮据集的记录项H:，数据拦形iDebugH. exe输入的数据集如下:13 4 2 3 5 12 3 5 2 5:数据集的一维候选子集.til.item： 1X2 . item：C3Kitem：L5.item«3425口下；231:3:3Cl J C2 4.it

20、em-.item；.item- item：T Z 3 3 3 鳖度度度支支支支一 13 2 5支支支支支支IM体数据如下:唐2廛：1Bs 1慝：2廛：2度：3数据集的2维候选子集的长度为Cn<2> C2U.iten= 1 3Cn<2> CC22.iten= 1 2Cn<2> C23.iten= 1 5Cn<2> C24J.iten= 3 2Cn<2> CC2M5J.iten= 3 5Cn<2> C2r6.iten= 2 5数据集的2维频繁子集的长度为 ininm inFn<2>Fn<2>Fn&l

21、t;2>Fn<2>FC21.iten= 1F22.iten= 3FC23.iten= 3FC24eiten= 2体度度度度支支支支，具体数据如下:支持度：2本数据集的3维候选子集的长度为1 具体数据如下: in Cn<3> CL3 1 . iten= 3 2 5 支持度：2数据集的3维频繁子集的长度为 in Fn<3> FC31.iten= 3 2元数据集无4维及以上维候选子集。数据集无4维及以上维频繁子集.piri.itEm=Flinai.iten-FIin4J.item=1325妻支:2 3 3 3B»»_!*度度度度具体敖据如

22、下:具体数据如下二磨2 度次度数据集的2维频警子集长度为2lil-iten=135I2Jl2J.iten=32213J.item-353?I2H43-item-2&M:数据集的3维频繁子集长度为i ,具体数据如下=3 2 5支持度=2:数据集的4维及其以上维的频萼子集为空.ress anu kcv to continue三、实验小结、建议及体会通过实验，我了解了 Apriori算法的基本思想和编程方法，但是在编写的过程中发现了问题，就是Apriori算法效率不是很高，在每一步产生侯选项目集时循环产生的组合过多，没有排除不应该参与组合的元素；每次计算项集的支持度时，都对数据库D中的全部记录进行了一遍扫描比较，如果是一个大型的数据库的话，这种扫描比较会大大增加计算机系统的I/O开销。而这种代价是随着数据库的记录的增加呈现出几何级数的增加。

展开阅读全文