数据挖掘工具软件介绍weka.ppt

资源描述

《数据挖掘工具软件介绍weka.ppt》由会员分享，可在线阅读，更多相关《数据挖掘工具软件介绍weka.ppt（24页珍藏版）》请在三一文库上搜索。

1、数据挖掘软件介绍,目前较为著名的数据挖掘软件,传统的数据挖掘套件(Classic suites)： SAS Enterprise Miner 5.3 SPSS Clementine 12 开源数据挖掘软件(Open Source)： RapidMiner 4.2 http:/ KNIME 2.0 http:/www.knime.org/ Weka 3.6 专门化的数据挖掘软件(Specialized)： Viscovery SOMiner 5.0 prudsys Discovery 5.5 / Basket Analyzer 5.2 Bissantz Delta Master 5.3.6,2,

2、目前较为著名的数据挖掘软件,自动化数据挖掘软件(Self-Acting)： KXEN Analytic Framework 4.04 BI产品内置的数据挖掘软件(BI Vendors)： SAP NetWear 7.0 Data Mining Workbench Oracle 11g Data Mining Microsoft SQL Server 2005 Analysis Services 其他优秀的软件 Teradata Warehouse Miner IBM的DB2 Intelligence Miner Angoss的KnowledgeSTUDIO Unica,3,WEKA,简介 ht

3、tp:/www.cs.waikato.ac.nz/ml/weka 中文论坛http:/bbs2.wekacn.org/ 功能 Program LogWindow MemeryUsage Exit Visualization,4,WEKA,PLOT ROC TreeVisualizer GraphVisualizer BoundaryVisualizer Tools ArffViewer SqlViewer BayesNetEditer,5,WEKA,Applications Explorer Experimenter KnowledgeFlow SimpleCLI Help Weka home

4、page HOWTOs, code snippets, etc. Weka on Sourceforge SystemInfo,6,WEKA,WEKA Explorer 1. Preprocess. 选择和修改要处理的数据。 2. Classify. 训练和测试关于分类或回归的学习方案。 3. Cluster. 从数据中学习聚类。 4. Associate. 从数据中学习关联规则。 5. Select attributes. 选择数据中最相关的属性。 6. Visualize. 查看数据的交互式二维图像。 7. Memory Information. 在 log 栏中显示 WEKA 可用的内存

5、量。 8. Run garbage collector. 强制运行 Java 垃圾回收器，搜索不再需要的内存空间,7,WEKA EXPLORER,载入数据 1. Open file 打开一个对话框，允许你浏览本地文件系统上的数据文件。 2. Open URL 请求一个存有数据的 URL 地址。 3. Open DB 从数据库中读取数据 (注意，要使之可用，可能需要编辑 weka/experiment/ DatabaseUtils.props 中的文件) 4. Generate 从一些数据生成器（DataGenerators）中生成人造数据。,8,WEKA EXPLORER,处理属性 1.

6、No 一个数字，用来标识数据文件中指定的各属性的顺序。 2. 选择框. 允许勾选关系中呈现的各属性。 3. Name. 数据文件中声明的各属性的名称。当点击属性列表中的不同行时，右边Selected attribute 一栏的内容随之改变。这一栏给出了列表中当前高亮显示的属性的一些描述： 1. Name. 属性的名称，和属性列表中给出的相同。 2. Type. 属性的类型，最常见的是分类型（Nominal）和数值型（Numeric）。 3. Missing. 数据中该属性缺失(或者未指定)的实例的数量(及百分比)。 4. Distinct. 数据中该属性包含的不同值的数目。 5. Uniqu

7、e. 唯一地拥有某值的实例的数目（及百分比），这些实例每个的取值都和别的不一样。,9,WEKA EXPLORER ATTRIBUTES,Pattern. 让用户基于 Perl 5 正则表达式来选择属性。例如所有以M开头的属性。筛选器filter GenericObjectEditor 对话框应用筛选器注意：一些筛选器会依据是否设置了 class 属性来做出不同的动作。（点击直方图上方那一栏时，会出现一个可供选择的下拉列表。）特别的，“supervised filters”（监督式筛选器）需要设置一个 class 属性，而某些“unsupervised attribute filters

8、”（非监督式属性筛选器）将忽略 class 属性。注意也可以将 Class 设成 None，这时没有设置 class属性。,10,WEKA EXPLORER CLASSIFY,分类器选择分类器测试选项 1. Using training set. 根据分类器在用来训练的实例上的预测效果来评价它。 2. Supplied test set. 从文件载入的一组实例，根据分类器在这组实例上的预测效果来评价它。点击 Set 按钮将打开一个对话框来选择用来测试的文件。 3. Cross-validation. 使用交叉验证来评价分类器，所用的折数填在Folds 文本框中。 4.Percentage

9、split. 从数据集中按一定百分比取出部分数据放在一边作测试用，根据分类器这些实例上预测效果来评价它。取出的数据量由% 一栏中的值决定。,11,WEKA EXPLORER CLASSIFY,分类器输出文本 Classifier output 区域的文本有一个滚动条以便浏览结果。按住 Alt 和 Shift 键，在这个区域点击鼠标左键，会出现一个对话框，让你用各种格式（目前可用 JPEG 和 EPS）保存输出的结果。输出结果 1. Run information. 给出了学习算法各选项的一个列表。包括了学习过程中涉及到的关系名称，属性，实例和测试模式。 2. Classifier model

10、 (full training set). 用文本表示的基于整个训练集的分类模型。所选测试模式的结果可以分解为以下几个部分： 3. Summary. 一列统计量，描述了在指定测试模式下，分类器预测 class 属性的准确程度。 4. Detailed Accuracy By Class. 更详细地给出了关于每一类的预测准确度的描述。 5. Confusion Matrix. 给出了预测结果中每个类的实例数。其中矩阵的行是实际的类，矩阵的列是预测得到的类，矩阵元素就是相应测试样本的个数。,12,WEKA EXPLORER CLUSTER,聚类聚类模式 Use training set Sup

11、plied test set Percentage split 前三个和分类的一样 Classes to clusters evaluation是要比较所得到的聚类与在数据中预先给出的类别吻合得怎样。,13,WEKA EXPLORER ASSOCIATE,关联规则关联规则的学习器也可以跟其它面板的聚类器，筛选器和分类器一样选择和配置。,14,Attribute Selection,属性选择属性选择是说搜索数据集中全部属性的所有可能组合，找出预测效果最好的那一组属性。为实现这一目标，必须设定两个东西：属性评估器（evaluator）和搜索策略。评估器决定了怎样给一组属性安排一个表示它们好坏的

12、值。搜索策略决定了要怎样进行搜索。 Attribute Selection Mode 一栏有两个选项。 1. Use full training set. 使用训练数据的全体好决定一组属性的好坏。 2. Cross-validation. 一组属性的好坏通过一个交叉验证过程来决定。Fold 和 Seed 分别给出了交叉验证的折数和打乱数据时的随机种子。,15,WEKA EXPLORER Visualize,散点图矩阵选择了 Visualize 面板后，会为所有的属性给出一个散点图矩阵，它们会根据所选的class 属性来着色。在这里可以改变每个二维散点图的大小，改变各点的大小，以及随机地抖动（

13、jitter）数据（使得被隐藏的点显示出来）。也可以改变用来着色的属性，可以只选择一组属性的子集放在散点图矩阵中，还可以取出数据的一个子样本。注意这些改变只有在点击了Update 了按钮之后才会生效。选择实例 1. Select Instance. 点击各数据点会打开一个窗口列出它的属性值，如果点击处的点超过一个，则更多组的属性值也会列出来。 2. Rectangle. 通过拖动创建一个矩形，选取其中的点。,16,WEKA EXPLORER Visualize,3. Polygon. 创建一个形式自由的多边形并选取其中的点。左键点击添加多边形的顶点，右键点击完成顶点设置。起始点和最终点会自

14、动连接起来因此多边形总是闭合的。 4. Polyline. 可以创建一条折线把它两边的点区分开。左键添加折线顶点，右键结束设置。折线总是打开的（与闭合的多边形相反）。使用 Rectangle，Polygon 或 Polyline 选取了散点图的一个区域后，该区域会变成灰色。这时点击Submit 按钮会移除落在灰色区域之外的所有实例。点击Clear 按钮会清除所选区域而不对图形产生任何影响。,17,Weka 试验（Experiment）,Experimenter 有两种模式：一种具有较简单的界面，并提供了试验所需要的大部分功能，另一种则提供了一个可以使用 Experimenter 所有功

15、能的界面。你可使用 Experiment Configuration Mode 单选按钮在这两者间进行选择。 Simple Advanced,18,Weka 试验（Experiment）,Simple（简单）模式 1.新试验 2. Result Destination （结果的目的文件）如果文件名为空，将在系统的 TEMP 目录下创建一个临时文件。连接数据库：这个时候还没有测试数据库连接；启动试验时才会进行连接测试。 JDBC 数据库的优点是可以继续运行那些被中止的或扩展了的试验。它不用重新运行那些已试验过的算法/数据集组合，而仅计算还没有被试验的那些。,19,3. Experiment

16、 type（试验类型） Cross-validation （交叉验证） (默认) 根据给定的折数执行分层交叉验证 Train/Test Percentage Split (data randomized) （按比例分割训练/测试集，随机挑选数据）把数据打乱顺序并确定层次后，根据给定的百分比把这个数据集分割成一个训练文件和一个测试文件 Train/Test Percentage Split (order preserved) （按比例分割训练/测试集，按顺序挑选数据）,20,Weka 试验（Experiment）,4. Datasets （数据集）可以通过绝对路径或相对路径添加数据集文件。后

17、者使得在不同的机器上运行试验更加方便，因此你在点击 Add new之前，应该勾选 Use relative paths （使用相对路径）。 5. Iteration control （迭代控制） Number of repetitions （重复次数） Data sets first/Algorithms first （数据集优先/算法优先）当存在多个数据集和算法的时候，切换成优先迭代数据集的模式可能会有用。举个例子，会有人把结果存储在数据库中，并且想尽早完成某个算法在所有数据集上的结果。,21,Weka 试验（Experiment）,6. Algorithms （算法）使用 Load o

18、ptions. 和 Save options. 按钮，你可从 XML 加载或保存选中分类器的设置。这对配置相当复杂的分类器(如 nested meta-分类器)尤其有用，因为手动设置它们需要一些时间，却又经常要用到。 7.保存设置试验文件默认的的格式是 Java 序列化提供的二进制文件。这个格式的缺点是不同版本的 Weka 间可能存在格式的不兼容性。还有一种更加健壮的XML格式可供选择。可通过 Open. 按钮重新装载之前保存的 experiments。,22,Weka 试验（Experiment）,8.运行试验当前试验将使用 ZeroR 和 J48 算法在Iris 数据集上执行十次10折的分层交叉验证。如果试验定义正确，在 Log 面板上将显示如上 3 条信息。试验结果保存在ExpResult.arff数据集里。,23,谢谢,

展开阅读全文