【大学】数据挖掘软件与工具.ppt

上传人:本田雅阁 文档编号:3032887 上传时间:2019-06-28 格式:PPT 页数:28 大小:2.53MB
返回 下载 相关 举报
【大学】数据挖掘软件与工具.ppt_第1页
第1页 / 共28页
【大学】数据挖掘软件与工具.ppt_第2页
第2页 / 共28页
【大学】数据挖掘软件与工具.ppt_第3页
第3页 / 共28页
【大学】数据挖掘软件与工具.ppt_第4页
第4页 / 共28页
【大学】数据挖掘软件与工具.ppt_第5页
第5页 / 共28页
点击查看更多>>
资源描述

《【大学】数据挖掘软件与工具.ppt》由会员分享,可在线阅读,更多相关《【大学】数据挖掘软件与工具.ppt(28页珍藏版)》请在三一文库上搜索。

1、数据挖掘软件与工具,2019/6/28,http:/ 数据挖掘的重要作用已为人们了解,为了实现有效的数据挖掘,绝大多数用户必须借助于合适的数据挖掘软件,所以,数据挖掘软件的研究是数据挖掘的一个重要研究方向。,2019/6/28,http:/ Rules,描述与可视化Description and Visualization,聚类Cluster,4,数据挖掘模型的分类,数据描述和汇总(Data description and summarization) 细分(Segmentation) 概念描述(Concept descriptions) 分类(Classification) 预测(Predi

2、ction) 相关分析(Dependency analysis),http:/ 结果描述:(决策树),http:/ 结果描述:(神经网络),http:/ 入,流失概率 (0.87),输 出,男,29,3000元/月,套餐A,130元/月,2019/6/28,数据挖掘的典型结果零售,问题描述:如何决定超市中商品的摆放来增加销售额 结果描述:(Web图),http:/ 结果描述:(Koholen聚类),http:/ 结果描述:(回归、神经网络),http:/ Understanding,商业理解过程 理解商业目标 熟悉业务流程 统一业务术语 成本/收益分析 当前系统评估 主要用户使用者 结果的输出

3、形式 挖掘任务的结果和现有系统的集成 任务分解 挖掘目标分解为子任务 将商业目标转化为数据挖掘任务 约束条件确认 资源 数据保护制度等 制定项目计划,2019/6/28,http:/ Understanding,数据理解过程 数据源情况 数据处理范围 数据源访问情况 数据描述 数据质量描述 基本统计值/汇总值 数据探索 数据分布 相关性分析 缺失值处理 空值处理 奇异值处理,2019/6/28,http:/ Preparation,数据准备过程 数据整合 多个数据表的数据联合 数据的汇总和聚合 数据选择 记录的选择和排除 数据集合构成:测试集,检验集 数据转换 函数转换 标准化处理 离散化处理

4、 数据清洗 数据缺失值处理 数据派生 新变量的生成,2019/6/28,http:/ 选择合适的建模技术 数据预处理的情况 依赖于数据挖掘问题类型和输出形式 构建模型训练环境 训练样本的构建 模型建立 选择初始化参数设置 模型估计 考虑过训练的情况 误差分布的调查 模型参数修正及其原因,2019/6/28,http:/ 模型评估 根据专家的知识和经验进行人工评估 从商业角度来评价结果的有效性 定义参照对象 计算升益曲线(Lift Curve) 期望的投资回报率(ROI) 对整个数据挖掘过程进行回顾 决定下一步骤 模型发布的时机 发布框架结构 进一步改进模型,2019/6/28,http:/ 数

5、据挖掘结果的发布方式 模型的结果输出到数据库 形成简单的报表 结果转化为可解释的业务规则 在线实时地模型评分过程 数据的输入输出 与原有业务系统的集成 实时数据的来源和结果反馈 模型运用的模式 实时处理 批处理 自动化问题(周期),2019/6/28,http:/ Client; Clementine Server; Clementine Batch; SPSS Data Access Pack; Clementine Solution Publisher (Optional)。,http:/ 以下情况必须使用单机版运行: 数据存储在本机,且不能在网络上共享; 机器不联网; 无Clementi

6、ne Server可供使用。 以下情况可以使用单机版运行: 要处理的数据量很小(比如:小于2M)并且数据存储在单机或可到达局域网处; 单机内存、硬盘相对要处理的数据量来说足够大,并且速度也满足要求。,http:/ 以下情况必须使用C/S结构运行: 单机内存或者硬盘不够大,难以运行大量数据; 单机上没有或者无法配置数据连结,无法从数据库中获取数据; 组织规则不允许下载大量数据到单机。 以下情况可以使用C/S结构运行: 要处理的数据量很大,并且存储在可以通过SPSS Data Access技术可到达的数据库处; 单机速度慢,Clementine Server运行的机器配置高。,2019/6/28,

7、Clementine的系统结构,http:/ 1、数据库层; 通过Clementine Server进行调度,把那些可以通过SQL语句执行的数据操作过程以SQL语句的形式导入数据库并在其中进行; 2、服务器端; 进行调度,不能在数据库层面进行的操作在服务器端进行(比如数据挖掘模型计算过程) 3、客户端。 在三层结构下通过Clementine Server进行调度,由客户端向服务器端发送数据挖掘指令,并接受和展示数据挖掘结果。,Clementine Client和Clementine Server通过SDL(Stream Description Language )之间进行信息交换,Clemen

8、tine Server和Database通过SQL语句进行信息交换。,2019/6/28,Clementine运行的两种方式,图形界面方式 适用操作系统 Windows系列 特点: 图形化界面 与客户直接交互 适合交互式分析过程,http:/ 使用操作系统 Windows系列 Unix系列 特点: 命令行操作 不能生成图形,所有结果保存在文件里或者数据库中 适合于以下情况使用: 运行耗时较长的建模过程 希望在后台运行一些耗时较长的数据准备 过程希望按照一定的时间定期运行(比如每周、每月等) 希望把Clementine(数据挖掘过程)运行过程嵌入应用系统中,2019/6/28,Clementin

9、e的界面和设计思路,可视化界面 四个区域分别是建模区、结点区、模型描述区、项目管理区 通过连接结点构成数据流建立模型 Clementine通过7类结点的连接完成数据挖掘工作,它们是: Source(源结点):Database、Var. Files等 Record Ops (记录处理结点):Select、Sample等 Field Ops(字段处理结点):Type、Filter等 Graphs(图形结点):Plot、Distribute等 Modeling(模型结点):Neural Net、C5.0等 Output(输出结点):Table、Matrix等,http:/ 数据源节点 记录处理节点 变量处理节点 图形节点 模型节点 输出节点 导出节点,2019/6/28,http:/ 对于变量的处理 DEMO 数据探索 数据清洗,2019/6/28,http:/ You!,

展开阅读全文
相关资源
猜你喜欢
相关搜索

当前位置:首页 > 其他


经营许可证编号:宁ICP备18001539号-1