数据挖掘实训weka试验报告.docx

上传人:scccc 文档编号:12980092 上传时间:2021-12-09 格式:DOCX 页数:13 大小:228.48KB
返回 下载 相关 举报
数据挖掘实训weka试验报告.docx_第1页
第1页 / 共13页
数据挖掘实训weka试验报告.docx_第2页
第2页 / 共13页
数据挖掘实训weka试验报告.docx_第3页
第3页 / 共13页
数据挖掘实训weka试验报告.docx_第4页
第4页 / 共13页
数据挖掘实训weka试验报告.docx_第5页
第5页 / 共13页
点击查看更多>>
资源描述

《数据挖掘实训weka试验报告.docx》由会员分享,可在线阅读,更多相关《数据挖掘实训weka试验报告.docx(13页珍藏版)》请在三一文库上搜索。

1、数据挖掘实训课程论文(报告、案例分析)院 系专业班级10级统计3班学生姓名 李健学号2010210453任课教师 刘 洪 伟2013年01月17日课程论文评分表各项满分评分标准学生得分评分标准一10有明确的研究背景和意义评分标准二30数据准确、有时效性,必须是最新的数据评分标准三40方法得当,有实证分析评分标准四10条理性和逻辑性强,内容阐述清晰、结论明确评分标准五10论文按规定的格式撰写,文章中引用的内容需用脚注注明来源评分标准六特别提醒文章出现大段抄袭或者两人之间内容雷问达到80姆上,均不能及格。论文按规定的时间上交,每推退一天,扣减2分总分评阅人签字数据挖掘实训课程论文选题要求:根据公开

2、发表统计数据,请结合 数据挖掘 理论与方法, 撰写一篇与数据挖掘领域相关的论文。写作要求:(1) 数据准确、有时效性,必须是最新的数据。(2) 文章必须有相应的统计方法,这些统计方法包括以 前专业课中学到的任何统计方法,如参数估计、假设检验、 相关与回归、多元统计等等。(3) 论文的内容必须是原创,有可靠的分析依据和明确 的结论。(4) 论文按照规定的格式化撰写;(5) 字数不少于 2000字。数据挖掘(WEKA软件)实验报告统计学 专业 学生 李健 学号 2010210453关键词:数据挖掘;游玩;因素; WEKA本次实验指在熟练的运用软件weka进行数据处理,其中包括数据准备,关联规则等同

3、时了解weka的基本用法。一、软件介绍1简介数据挖掘、机器学习这些字眼,在一些人看来,是门槛很高的东西。诚然,如果做算法实现甚至算法优化, 确实需要很多背景知识。但事实是,绝大多数数据挖掘工程师,不需要去做算法层面的东西。他们的精力,集中在特征提取,算法选择和参数调优上。那么,一个可以方便地提供这些功能的工具,便是十分必要的了。而weka,便是数据挖掘工具中的佼佼者。WEKA的全名是怀卡托智能分析环境 (Waikato Environment forKnowledge Analysis),是由新西兰怀卡托(Waikato)大学开发的机器学习软件,纯 Java技 术实现的开源软件,遵循于 GNU

4、 General Public License ,跨平台运行,集合 了大量能承担数据挖掘任务的机器学习算法,分类器实现了常用ZeroR算法、Id3算法、J4. 8算法等40多个算法,聚类器实现了 EM算法、SimpleKMeans算法和 Cobweb法3种算法,能对数据进行预处理、分类、回归、聚类、关联规则以 及在新的交互式界面上的可视化。2oo5年8月,在第11届ACM SIGKD国际会 议上,怀卡托大学的 WEKAI、组荣获了数据挖掘和知识探索领域的最高服务奖, WEKAI统得到了广泛的认可,被誉为数据挖掘和机器学习历史上的里程碑,是 现今最完备的数据挖掘工具之一。WEK瘢用的是一种叫做a

5、rff(Attribute 一 Relation File Format)的数据文件结构。这种arff文件是普通的ASCII文本文 件,内部结构很简单,主要是测试算法使用的轻量级的数据文件结构。arff文件可以自己建立,也可通过JDBC从Oracle和Mysql等流行数据库中获得。整个 arf文件可以分为两个部分。第一部分给出了头信息(Head information),包括关系声明(Relation Declaration)和届性声明(AttributeDeclarations) 。第二部分给出了数据信息(Datainformation),即数据集中给出的数据。关系声明的 定义格式为:rel

6、ation<relation name>届性声明的定义格式为:attribute<attribute name><datatype>;数据信息的定义格式为独占一行的 data,后面跟着的就是数据信息。2.安装Weka勺官方地址是 http:/www.cs.waikato.ac.nz/ml/weka/ 。点开左侧 download栏,可以进入下载页面,里面有 windows, mac os, linux 等平台下的 版本,我们以windows系统作为示例。目前稳定的版本是3.6。如果本机没有安装java,可以选择带有jre的版本。下载后是一个exe的可执 行文

7、件,双击进行安装即可。安装完毕,打开启动weka的快捷方式,如果可以看到下面的界面,那么恭喜, 安装成功了。共有4个应用,分别是1) Explorer用来进行数据实验、挖掘的环境,它提供了分类,聚类,关联规则,特征选择, 数据可视化的功能。(An environment for exploring data with WEKA )2) Experimentor用来进行实验,对不同学习方案进行数据测试的环境。(An environment for performing experiments and conducting statistical tests between learning sc

8、hemes.)3) KnowledgeFlow功能和Explorer差不多,不过提供的接口不同,用户可以使用拖拽的方式去建立实验方案。另夕卜,它支持增量学习。 (This environment supports essentially the same functions as the Explorer but with a drag-and-drop interface.One advantage is that it supports incremental learning.)4) SimpleCLI简单的命令行界面。 (Provides a simple command-line i

9、nterface that allows direct execution of WEKA commands for operating systems that do not provide their own command line interface. )、实验内容1.选用数据文件为:small_dataset 中的weather.arff 数据文件2.在 WEK冲点击 explorer 打开文件 weather.arff3.对数据整理分析»>.i.1 veka. gux. GenericOb jectEditorweka. f:iIters. uriEupeirTi

10、sed. attribute. DiscretiisAboutAn instance filter that discretizes a range of numericMoreattributes in the dataset into nominal attributes.-Capibili ti«sattr ibutelndi ces 1,2, 34,54.将数据分类:单机classify在 test options 中 选择第一项( Use training set)占八、bins 2如 mi mdNei ghtO flnw t ancsPerlnt erval'No

11、nbT o£ binsfiikdlTmuiiBirLEFalseVi 明orwCly mFelmVinvertSelectionFalseVm MkwE i ikaryFU眼Vus E qnalF r quencyFalseVOpen. . .Save.OKC<nc«l击classifier下面的choose按钮 选择trees中的J48ITI画氐Lj 三g1*«133ukLdJREQLMTr«*UUTVBTf SLmdcAr at i-i tUFTf*S i ulqGw 4p'Beka Evplorez(3亟i|CliitiifT j d

12、uriLir白况."* Sil*et Ulrihwt” | ¥i miliQftFsifi«r& 皿 | J 招-C Di E5 -H ETtst apti «ns® Uit truiiAJic i«L,S-np-jl i ad, IkkI: i«'LO Crwila 输 i g O Pw«p-1*s* irl i tpl,j?CIuxl fl«ir oatpat uunrei oe lciive-j ISize E che cttee :1Tike rnkeKi ro tui Id Da

13、del.: D ibcandjlixl (r i.chtdlidk fflr15 *5 2ft - irtw J4H EvtlUJtUon TdnMq 费.匚-?UU4TV -CacKteely Classified. I昭口me酩964.2657皿whcgJly ClAsslEled Ihsc-snees535.7H3*日衅g0Bean 归出WtiilU就 tti'tn.0.4592Raot ueaii squiaied 6tx.Q£Q.4792Rel4ti.w ahsalut: eczqj:96.9011 %Pact i Elatie ff-qmred ceeoc泡.93

14、W *Total i.abei: of IststanjCEJ14Dehtailed IrcruEac; By Class *«TF- Rate TP Hdtefieclslooi RecallF-BH5JUICROC虹坎Clasj1 1CL 64310.TB3D.5g|QDD0DD.f31Qaeigtirtd JLvg.CL643D.413C.G43D-S03D.f Cooctfiulan. libutix S U C Cl«S41Clld «l9 Uf 1 « - ES。1 b 眼SUiuiOX由上图可知该树有5个叶子是否出去游玩由天气晴朗(sunn

15、y)、天气预报(overcast )以及阴雨天(rainy )因素决定5.关联规则我们打算对前 面的“bank-data”数据作关联规则的分析。用“ Explorer " 打开 "bank-data- final.arff " 后,切 换至U “ Associate "选项卡。默认关联规则分析是用 Apriori算法,我们就用这个算法,但是 点“Choose右边的文本框修改默认的参数,弹 出的窗口中点“More”可 以看到各参数的说明。7.切换到"Associate ”选项卡。默认关联规则分析是用Apriori算法,我们就用这个算法1) , 将

16、经过离散化的数据存入 subset example1.arff2) ,点击“Choose'旁边的文本框会弹出新窗口以修改离散化的参数。3) ,现在我们计划挖掘出支持度在 10雍U 100咆问,并且lift 值超过1.5且 lift 值排在前100位的那些关联规则。numRule:设为100, metrictype 由 confidence改为lift 。其他选项保持默认即可。OXI项I °点击start 输出100个数据Best rules found:1. humidity=80.5_max 7 => play=no 4 conf:(0.57) < lift:(

17、1.6)> lev:(0.11) 1 conv:(1.13)2. play=no 5 => humidity=80.5_max 4 conf:(0.8) < lift:(1.6)> lev:(0.11) 1 conv:(1.25)3. outlook=overcast 4 => play=yes 4 conf:(1) < lift:(1.56)> lev:(0.1) 1 conv:(1.43)4. play=yes 9 => outlook=overcast 4 conf:(0.44) < lift:(1.56)> lev:(0.1)

18、 1 conv:(1.07)5. humidity=0_80.5 windy=FALSE 4 => play=yes 4 conf: < lift:(1.56)> lev:(0.1)1 conv:(1.43)6. play=yes 9 => humidity=0_80.5 windy=FALSE 4 conf:(0.44)< lift:(1.56)>lev:(0.1)1 conv:(1.07)7. outlook=rainy 5 =>temperature=0_74.54conf:(0.8)< lift:(1.4)>lev:(0.08)1c

19、onv:(1.07)8. temperature=0_74.58 => outlook=rainy4conf:(0.5)< lift:(1.4)>lev:(0.08)1conv:(1.03)9. humidity=0_80.5 7 => play=yes 6 conf:(0.86) < lift:(1.33)> lev:(0.11) 1 conv:(1.25)10. play=yes 9 => humidity=0_80.5 6 conf:(0.67) < lift:(1.33)> lev:(0.11) 1 conv:(1.13)三、总结:

20、通过实践周的学习,我们不仅继续学习了R还学习了 Weka软件的应用。使我重新学习了一下数据挖掘的相关概念、知识和软件的应用,理解了数据挖掘的用途和使用步骤。在此过程中学会了运用各个模块的分析方法。通过本次实训操作,也认识到了数据挖掘对大量的数据进行探索后,能揭示出其中隐藏着的规律性内容,并且由此进一步形成模型化的分析方法。可以建立整体或某个业务过程局部的不同类型的模型,可以描述发展的现状和规律性,而且可以用来预测当条 件变化后可能发生的状况。经过这一系列的系统学习,我们不仅能研究有关花种 问题,同时更能处理好其他相关类问题的研究。参考文献1 数据挖掘教程2 韩家炜.数据挖掘概念与技术:机械工业出版社,2012

展开阅读全文
相关资源
猜你喜欢
相关搜索

当前位置:首页 > 社会民生


经营许可证编号:宁ICP备18001539号-1