【大学】数据挖掘软件与工具.ppt

资源描述

《【大学】数据挖掘软件与工具.ppt》由会员分享，可在线阅读，更多相关《【大学】数据挖掘软件与工具.ppt（28页珍藏版）》请在三一文库上搜索。

1、数据挖掘软件与工具,2019/6/28,http:/ 数据挖掘的重要作用已为人们了解，为了实现有效的数据挖掘，绝大多数用户必须借助于合适的数据挖掘软件，所以，数据挖掘软件的研究是数据挖掘的一个重要研究方向。,2019/6/28,http:/ Rules,描述与可视化Description and Visualization,聚类Cluster,4,数据挖掘模型的分类,数据描述和汇总(Data description and summarization) 细分(Segmentation) 概念描述(Concept descriptions) 分类(Classification) 预测(Predi

2、ction) 相关分析(Dependency analysis),http:/ 结果描述:(决策树）,http:/ 结果描述:(神经网络）,http:/ 入,流失概率（0.87),输出,男,29,3000元/月,套餐A,130元/月,2019/6/28,数据挖掘的典型结果零售,问题描述：如何决定超市中商品的摆放来增加销售额结果描述:(Web图）,http:/ 结果描述:(Koholen聚类）,http:/ 结果描述:(回归、神经网络）,http:/ Understanding,商业理解过程理解商业目标熟悉业务流程统一业务术语成本/收益分析当前系统评估主要用户使用者结果的输出

3、形式挖掘任务的结果和现有系统的集成任务分解挖掘目标分解为子任务将商业目标转化为数据挖掘任务约束条件确认资源数据保护制度等制定项目计划,2019/6/28,http:/ Understanding,数据理解过程数据源情况数据处理范围数据源访问情况数据描述数据质量描述基本统计值/汇总值数据探索数据分布相关性分析缺失值处理空值处理奇异值处理,2019/6/28,http:/ Preparation,数据准备过程数据整合多个数据表的数据联合数据的汇总和聚合数据选择记录的选择和排除数据集合构成：测试集，检验集数据转换函数转换标准化处理离散化处理

4、数据清洗数据缺失值处理数据派生新变量的生成,2019/6/28,http:/ 选择合适的建模技术数据预处理的情况依赖于数据挖掘问题类型和输出形式构建模型训练环境训练样本的构建模型建立选择初始化参数设置模型估计考虑过训练的情况误差分布的调查模型参数修正及其原因,2019/6/28,http:/ 模型评估根据专家的知识和经验进行人工评估从商业角度来评价结果的有效性定义参照对象计算升益曲线（Lift Curve）期望的投资回报率（ROI）对整个数据挖掘过程进行回顾决定下一步骤模型发布的时机发布框架结构进一步改进模型,2019/6/28,http:/ 数

5、据挖掘结果的发布方式模型的结果输出到数据库形成简单的报表结果转化为可解释的业务规则在线实时地模型评分过程数据的输入输出与原有业务系统的集成实时数据的来源和结果反馈模型运用的模式实时处理批处理自动化问题（周期）,2019/6/28,http:/ Client; Clementine Server; Clementine Batch; SPSS Data Access Pack; Clementine Solution Publisher (Optional)。,http:/ 以下情况必须使用单机版运行：数据存储在本机，且不能在网络上共享；机器不联网；无Clementi

6、ne Server可供使用。以下情况可以使用单机版运行：要处理的数据量很小（比如：小于2M）并且数据存储在单机或可到达局域网处；单机内存、硬盘相对要处理的数据量来说足够大，并且速度也满足要求。,http:/ 以下情况必须使用C/S结构运行：单机内存或者硬盘不够大，难以运行大量数据；单机上没有或者无法配置数据连结，无法从数据库中获取数据；组织规则不允许下载大量数据到单机。以下情况可以使用C/S结构运行：要处理的数据量很大，并且存储在可以通过SPSS Data Access技术可到达的数据库处；单机速度慢，Clementine Server运行的机器配置高。,2019/6/28,

7、Clementine的系统结构,http:/ 1、数据库层；通过Clementine Server进行调度，把那些可以通过SQL语句执行的数据操作过程以SQL语句的形式导入数据库并在其中进行； 2、服务器端；进行调度，不能在数据库层面进行的操作在服务器端进行（比如数据挖掘模型计算过程） 3、客户端。在三层结构下通过Clementine Server进行调度，由客户端向服务器端发送数据挖掘指令，并接受和展示数据挖掘结果。,Clementine Client和Clementine Server通过SDL（Stream Description Language ）之间进行信息交换，Clemen

8、tine Server和Database通过SQL语句进行信息交换。,2019/6/28,Clementine运行的两种方式,图形界面方式适用操作系统 Windows系列特点：图形化界面与客户直接交互适合交互式分析过程,http:/ 使用操作系统 Windows系列 Unix系列特点：命令行操作不能生成图形，所有结果保存在文件里或者数据库中适合于以下情况使用：运行耗时较长的建模过程希望在后台运行一些耗时较长的数据准备过程希望按照一定的时间定期运行（比如每周、每月等）希望把Clementine（数据挖掘过程）运行过程嵌入应用系统中,2019/6/28,Clementin

9、e的界面和设计思路,可视化界面四个区域分别是建模区、结点区、模型描述区、项目管理区通过连接结点构成数据流建立模型 Clementine通过7类结点的连接完成数据挖掘工作，它们是： Source(源结点):Database、Var. Files等 Record Ops (记录处理结点):Select、Sample等 Field Ops(字段处理结点):Type、Filter等 Graphs(图形结点):Plot、Distribute等 Modeling(模型结点):Neural Net、C5.0等 Output(输出结点):Table、Matrix等,http:/ 数据源节点记录处理节点变量处理节点图形节点模型节点输出节点导出节点,2019/6/28,http:/ 对于变量的处理 DEMO 数据探索数据清洗,2019/6/28,http:/ You!,

展开阅读全文