数据挖掘软件与工具.ppt

上传人:本田雅阁 文档编号:3185364 上传时间:2019-07-22 格式:PPT 页数:28 大小:2.49MB
返回 下载 相关 举报
数据挖掘软件与工具.ppt_第1页
第1页 / 共28页
数据挖掘软件与工具.ppt_第2页
第2页 / 共28页
数据挖掘软件与工具.ppt_第3页
第3页 / 共28页
数据挖掘软件与工具.ppt_第4页
第4页 / 共28页
数据挖掘软件与工具.ppt_第5页
第5页 / 共28页
点击查看更多>>
资源描述

《数据挖掘软件与工具.ppt》由会员分享,可在线阅读,更多相关《数据挖掘软件与工具.ppt(28页珍藏版)》请在三一文库上搜索。

1、数据挖掘软件与工具,2019/7/22,知识管理与数据分析实验室,1,数据挖掘是多学科知识的综合,涵盖了数据库技术、统计学、可视化技术、信息科学、机器学习等多方面知识。 数据挖掘的重要作用已为人们了解,为了实现有效的数据挖掘,绝大多数用户必须借助于合适的数据挖掘软件,所以,数据挖掘软件的研究是数据挖掘的一个重要研究方向。,2019/7/22,知识管理与数据分析实验室,2,一、数据挖掘软件重要研究方向,3,二、数据挖掘软件的发展,数据挖掘功能,数据挖掘,估计Estimation,分类Classification,预测Prediction,关联规则Association Rules,描述与可视化D

2、escription and Visualization,聚类Cluster,数据挖掘模型的分类,数据描述和汇总(Data description and summarization) 细分(Segmentation) 概念描述(Concept descriptions) 分类(Classification) 预测(Prediction) 相关分析(Dependency analysis),,5,数据挖掘技术的分类,,6,数据挖掘,描述,预测,统计回归,关联规则,决策树,可视化,聚类,顺序关联,汇总,神经网络,分类,时间序列预测,数据挖掘的典型结果金融,问题描述:预测信用水平是好还是差,银行据

3、此决定是否向客户发放贷款,发放多少 结果描述:(决策树),,7,收入大于5万元/年,是,否,有无储蓄帐户,是否房主,否,是,是,否,批准,不批准,批准,数据挖掘的典型结果电信,问题描述:根据客户信息,预测客户流失可能性 结果描述:(神经网络),,8,输 入,流失概率 (0.87),输 出,男,29,3000元/月,套餐A,130元/月,数据挖掘的典型结果零售,问题描述:如何决定超市中商品的摆放来增加销售额 结果描述:(Web图),,9,数据挖掘的典型结果制造业,问题描述:如何对市场进行细分,使产品满足最有价值客户 结果描述:(Koholen聚类),,10,数据挖掘的典型结果政府,问题描述:如何

4、从众多申请经费或者纳税中发现欺诈 结果描述:(回归、神经网络),,11,Business Understanding,商业理解过程 理解商业目标 熟悉业务流程 统一业务术语 成本/收益分析 当前系统评估 主要用户使用者 结果的输出形式 挖掘任务的结果和现有系统的集成 任务分解 挖掘目标分解为子任务 将商业目标转化为数据挖掘任务 约束条件确认 资源 数据保护制度等 制定项目计划,Data Understanding,数据理解过程 数据源情况 数据处理范围 数据源访问情况 数据描述 数据质量描述 基本统计值/汇总值 数据探索 数据分布 相关性分析 缺失值处理 空值处理 奇异值处理,Data Pre

5、paration,数据准备过程 数据整合 多个数据表的数据联合 数据的汇总和聚合 数据选择 记录的选择和排除 数据集合构成:测试集,检验集 数据转换 函数转换 标准化处理 离散化处理 数据清洗 数据缺失值处理 数据派生 新变量的生成,Modeling,数据建模过程 选择合适的建模技术 数据预处理的情况 依赖于数据挖掘问题类型和输出形式 构建模型训练环境 训练样本的构建 模型建立 选择初始化参数设置 模型估计 考虑过训练的情况 误差分布的调查 模型参数修正及其原因,Evaluation,模型评估过程 模型评估 根据专家的知识和经验进行人工评估 从商业角度来评价结果的有效性 定义参照对象 计算升益

6、曲线(Lift Curve) 期望的投资回报率(ROI) 对整个数据挖掘过程进行回顾 决定下一步骤 模型发布的时机 发布框架结构 进一步改进模型,Deployment,模型发布过程 数据挖掘结果的发布方式 模型的结果输出到数据库 形成简单的报表 结果转化为可解释的业务规则 在线实时地模型评分过程 数据的输入输出 与原有业务系统的集成 实时数据的来源和结果反馈 模型运用的模式 实时处理 批处理 自动化问题(周期),Clementine的软件构成,Clementine Client; Clementine Server; Clementine Batch; SPSS Data Access Pac

7、k; Clementine Solution Publisher (Optional)。,,18,Clementine的两种运行方式,单机版运行 以下情况必须使用单机版运行: 数据存储在本机,且不能在网络上共享; 机器不联网; 无Clementine Server可供使用。 以下情况可以使用单机版运行: 要处理的数据量很小(比如:小于2M)并且数据存储在单机或可到达局域网处; 单机内存、硬盘相对要处理的数据量来说足够大,并且速度也满足要求。,,19,C/S结构运行 以下情况必须使用C/S结构运行: 单机内存或者硬盘不够大,难以运行大量数据; 单机上没有或者无法配置数据连结,无法从数据库中获取数

8、据; 组织规则不允许下载大量数据到单机。 以下情况可以使用C/S结构运行: 要处理的数据量很大,并且存储在可以通过SPSS Data Access技术可到达的数据库处; 单机速度慢,Clementine Server运行的机器配置高。,Clementine的系统结构,,20,Clementine的三层结构: 1、数据库层; 通过Clementine Server进行调度,把那些可以通过SQL语句执行的数据操作过程以SQL语句的形式导入数据库并在其中进行; 2、服务器端; 进行调度,不能在数据库层面进行的操作在服务器端进行(比如数据挖掘模型计算过程) 3、客户端。 在三层结构下通过Clement

9、ine Server进行调度,由客户端向服务器端发送数据挖掘指令,并接受和展示数据挖掘结果。,Clementine Client和Clementine Server通过SDL(Stream Description Language )之间进行信息交换,Clementine Server和Database通过SQL语句进行信息交换。,Clementine运行的两种方式,图形界面方式 适用操作系统 Windows系列 特点: 图形化界面 与客户直接交互 适合交互式分析过程,,21,命令行方式 使用操作系统 Windows系列 Unix系列 特点: 命令行操作 不能生成图形,所有结果保存在文件里或者

10、数据库中 适合于以下情况使用: 运行耗时较长的建模过程 希望在后台运行一些耗时较长的数据准备 过程希望按照一定的时间定期运行(比如每周、每月等) 希望把Clementine(数据挖掘过程)运行过程嵌入应用系统中,Clementine的界面和设计思路,可视化界面 四个区域分别是建模区、结点区、模型描述区、项目管理区 通过连接结点构成数据流建立模型 Clementine通过7类结点的连接完成数据挖掘工作,它们是: Source(源结点):Database、Var. Files等 Record Ops (记录处理结点):Select、Sample等 Field Ops(字段处理结点):Type、Filter等 Graphs(图形结点):Plot、Distribute等 Modeling(模型结点):Neural Net、C5.0等 Output(输出结点):Table、Matrix等,,22,七大类节点,按功能分为七大类节点 数据源节点 记录处理节点 变量处理节点 图形节点 模型节点 输出节点 导出节点,图形,基本版产生图形种类,记录和变量的处理,对于记录的处理 对于变量的处理 DEMO 数据探索 数据清洗,丰富的数据挖掘模型,聚类算法模型,关联分析模型,使用演示,2019/7/22,知识管理与数据分析实验室,28,Thank You!,

展开阅读全文
相关资源
猜你喜欢
相关搜索

当前位置:首页 > 其他


经营许可证编号:宁ICP备18001539号-1