数据挖掘与Clementine使用培训电信.ppt

上传人:本田雅阁 文档编号:3185305 上传时间:2019-07-22 格式:PPT 页数:306 大小:5.65MB
返回 下载 相关 举报
数据挖掘与Clementine使用培训电信.ppt_第1页
第1页 / 共306页
数据挖掘与Clementine使用培训电信.ppt_第2页
第2页 / 共306页
数据挖掘与Clementine使用培训电信.ppt_第3页
第3页 / 共306页
数据挖掘与Clementine使用培训电信.ppt_第4页
第4页 / 共306页
数据挖掘与Clementine使用培训电信.ppt_第5页
第5页 / 共306页
点击查看更多>>
资源描述

《数据挖掘与Clementine使用培训电信.ppt》由会员分享,可在线阅读,更多相关《数据挖掘与Clementine使用培训电信.ppt(306页珍藏版)》请在三一文库上搜索。

1、数据挖掘与Clementine使用培训,北京瑞斯泰得数据技术开发有限公司 2019/7/22,,1,一、数据挖掘概述,什么是数据挖掘 数据挖掘的实现路线和流程 数据挖掘方法论CRISP-DM,,2,为什么进行数据挖掘? 商业观点,业务中产生了大量的数据,这些数据存储在业务系统中却不能创造价值 客户信息数据 客户交易行为数据 客户反馈数据 网络数据 计算机变得越来越便宜、功能却越来越强大 商业竞争越来越激烈,对客户了解越多就意味着机会越大,,3,为什么进行数据挖掘? 技术观点,业务中的数据量呈现指数增长(GB/小时) 传统技术难以从这些大量数据中发现有价值的规律 数据挖掘可以帮助我们从大量数据中

2、发现有价值的规律,,4,一个市场营销的例子,在数据中发现有价值的规则或者模式,女性对市场活动做出回应,男性对市场活动不做出回应,和年龄无关,,5,一个市场营销的例子,数据变的复杂会如何?,女性对市场活动做出回应,老年男性也可能对市场活动做出回应,,6,一个市场营销的例子,数据挖掘可以从异常复杂的数据中发现规律,通过数据挖掘发现回应的5条规则: 1、如果收入大于29622,有孩子,并且孩子的数量小于等于2,那么对市场活动会回应 ,通过数据挖掘发现不回应的5条规则: 1、如果收入小于12640.3,并且有一个孩子,那么对市场活动不会回应 ,,7,数据挖掘收益分析,,8,利润分析图,,9,数据挖掘效

3、果模拟分析,目的:发现新客户(使响应率从1%提高到1.2%),,10,什么是数据挖掘?,不同的定义 从大量数据中发现非平凡的、先前不知道的、有价值的规律的过程 从大量数据中自动化(或者半自动化)的发现有价值规律的过程 数据挖掘的其他名称 数据库内知识发现(KDD- Knowledge discovery in databases ) 数据/模式分析 商业智能 人工智能 ,,11,数据挖掘的起源,来源于机器学习/人工智能、模式识别、统计学和数据库 传统技术的局限性 巨量的数据 高维数据 数据分布不理想,,12,数据挖掘面临的挑战,海量数据 高维数据 数据复杂性 数据质量问题 数据所有权和分布 隐

4、私问题,,13,数据挖掘方法论项目顺利实施的保证,商业理解 数据理解 数据准备 建立模型 模型评估 模型发布,,14,商业理解,商业 理解,数据 理解,数据 准备,建立 模型,模型 评估,结果 发布,确定商业 目标,形势评估,确定数据 挖掘目标,制定项目 计划,背景,商业目标,成功标准,拥有资源,需求、假定 和限制,风险和 偶然性,专业 术语,成本和 收益,数据挖掘 目标,数据挖掘 成功标准,项目计划,工具和方法 评估,,15,数据理解,商业 理解,数据 理解,数据 准备,建立 模型,模型 评估,结果 发布,收集原始 数据,数据描述,数据探索 性分析,数据质量 描述,数据收集 报告,数据描述

5、报告,探索性数据 分析报告,数据质量 报告,,16,数据准备,商业 理解,数据 理解,数据 准备,建立 模型,模型 评估,结果 发布,选择数据,确定分析包含/剔除数据,数据集,数据集 描述,数据清理,数据清理报告,数据重构,生成新的变量(字段),生成新的记录,整合数据,合并相关数据,格式化数据,改变数据格式,适应分析,,17,建立模型,商业 理解,数据 理解,数据 准备,建立 模型,模型 评估,结果 发布,选择建模 技术,产生检验 设计,建立模型,评价模型,模型 技术,模型假设,检验设计,参数设定,建模,模型评价,参数设定 的修订,模型描述,,18,模型评估,商业 理解,数据 理解,数据 准备

6、,建立 模型,模型 评估,结果 发布,结果评估,数据挖掘 过程回顾,确定下一 步的工作,评估数据 挖掘结果,被认可的模型,数据挖掘过程 的回顾,列出可能 的行动,决策,,19,结果发布,商业 理解,数据 理解,数据 准备,建立 模型,模型 评估,结果 发布,发布结果 计划,监测和维护 模型计划,生成最终数据 挖掘报告,项目回顾,结果发布计划,监测和维护 模型计划,最终数据 挖掘报告,数据挖掘 报告展现,项目检验 总结,,20,商业理解是数据挖掘的起点,解决方案,商业需要,,21,商业理解的内容,数据挖掘能解决什么样的商业问题? 数据挖掘得到的结果,是否可以采取相应的行动以提高利润或降低成本?

7、我们期望模型能够给我们怎样的精确率? 有那些前提假定?,,22,约束分析,时间约束分析 资源约束分析 人力资源 数据资源 软件资源 硬件资源,,23,制定特定的数据挖掘目标,制定的数据挖掘目标应具有: 可评估性(assessable) 可实现性(attainable),,24,如何给定一个数据挖掘问题,是检验性数据挖掘还是探索性数据挖掘? 确定哪些是可以实现的数据挖掘问题 结果可测度性 信息(数据)的可获得性 评估和控制其他相关因素的影响,,25,数据来源与数据之间的关系,,26,使数据适合数据挖掘,对数据进行适当的合并和汇总 一般数据挖掘分析都要一个行列(记录变量)的二维表,必须把从不同数据

8、源得到的不同格式的数据整合成这样一张表,要求: 所有的记录含有排列顺序一致的变量 所有记录的变量信息是完整的(理想化状态,在现实中很难达到),,27,检查数据质量,影响数据质量的几个主要问题 缺失值 不合理值 不同数据源的不一致 异常值,,28,对数据进行适当的变换,数据的标准化变换 生成新的变量 数据的重新编码 数据降维,从变量角度或者从记录角度,,29,数据挖掘模型的分类,数据描述和汇总(Data description and summarization) 细分(Segmentation) 概念描述(Concept descriptions) 分类(Classification) 预测(

9、Prediction) 相关分析(Dependency analysis),,30,数据挖掘技术的分类,数据挖掘,描述,预测,统计回归,关联规则,决策树,可视化,聚类,顺序关联,汇总,神经网络,分类,时间序列预测,,31,数据挖掘的典型结果金融,问题描述:预测信用水平是好还是差,银行据此决定是否向客户发放贷款,发放多少 结果描述:(决策树),收入大于5万元/年,是,否,有无储蓄帐户,是否房主,否,是,是,否,批准,不批准,批准,,32,数据挖掘的典型结果电信,问题描述:根据客户信息,预测客户流失可能性 结果描述:(神经网络),输 入,流失概率 (0.87),输 出,男,29,3000元/月,套

10、餐A,130元/月,,33,数据挖掘的典型结果零售,问题描述:如何决定超市中商品的摆放来增加销售额 结果描述:(Web图),,34,数据挖掘的典型结果制造业,问题描述:如何对市场进行细分,使产品满足最有价值客户 结果描述:(Koholen聚类),,35,数据挖掘的典型结果政府,问题描述:如何从众多申请经费或者纳税中发现欺诈 结果描述:(回归、神经网络),,36,检验的形式,方法层面的检验 训练集和检验集 不同方法的互相印证和比较 模型准确性的检验: 商业层面上的检验 利润率的检验 模型结果可操作性的检验 其他检验,,37,关注那些错误的预测,,38,数据挖掘不成功的几种可能性,糟糕的数据 组织

11、抵制 结果没有被有效的发布 得到了无用的结果,,39,模型发布的形式,书面报告 数据库更新 针对特定主题的应用系统,,40,数据挖掘的体系结构,,41,问题&讨论,,42,二、Clementine概述,Clementine在数据挖掘中的地位 Clementine发展历史 Clementine的配置 Clementine操作基础,,43,数据挖掘的一般流程及数据挖掘软件在数据挖掘过程中的地位,,44,数据挖掘方法论项目顺利实施的保证,商业理解 数据理解 数据准备 建立模型 模型评估 模型发布,,45,Clementine发展历程,Clementine是ISL (Integral Solution

12、s Limited)公司开发的数据挖掘工具平台 1998年SPSS公司收购了ISL公司,对Clementine产品进行重新整合和开发,现在Clementine已经成为SPSS公司的又一亮点,,46,Clementine的软件构成,Clementine Client; Clementine Server; Clementine Batch; SPSS Data Access Pack; Clementine Solution Publisher (Optional)。,,47,Clementine的两种运行方式,单机版运行 以下情况必须使用单机版运行: 数据存储在本机,且不能在网络上共享; 机器

13、不联网; 无Clementine Server可供使用。 以下情况可以使用单机版运行: 要处理的数据量很小(比如:小于2M)并且数据存储在单机或可到达局域网处; 单机内存、硬盘相对要处理的数据量来说足够大,并且速度也满足要求。,C/S结构运行 以下情况必须使用C/S结构运行: 单机内存或者硬盘不够大,难以运行大量数据; 单机上没有或者无法配置数据连结,无法从数据库中获取数据; 组织规则不允许下载大量数据到单机。 以下情况可以使用C/S结构运行: 要处理的数据量很大,并且存储在可以通过SPSS Data Access技术可到达的数据库处; 单机速度慢,Clementine Server运行的机器

14、配置高。,,48,Clementine的系统结构,Clementine的三层结构: 1、数据库层; 通过Clementine Server进行调度,把那些可以通过SQL语句执行的数据操作过程以SQL语句的形式导入数据库并在其中进行; 2、服务器端; 进行调度,不能在数据库层面进行的操作在服务器端进行(比如数据挖掘模型计算过程) 3、客户端。 在三层结构下通过Clementine Server进行调度,由客户端向服务器端发送数据挖掘指令,并接受和展示数据挖掘结果。,Clementine Client和Clementine Server通过SDL(Stream Description Langua

15、ge )之间进行信息交换,Clementine Server和Database通过SQL语句进行信息交换。,,49,Clementine运行的两种方式,图形界面方式 适用操作系统 Windows系列 特点: 图形化界面 与客户直接交互 适合交互式分析过程,命令行方式 使用操作系统 Windows系列 Unix系列 特点: 命令行操作 不能生成图形,所有结果保存在文件里或者数据库中 适合于以下情况使用: 运行耗时较长的建模过程 希望在后台运行一些耗时较长的数据准备 过程希望按照一定的时间定期运行(比如每周、每月等) 希望把Clementine(数据挖掘过程)运行过程嵌入应用系统中,,50,Cle

16、mentine的界面和设计思路,可视化界面 四个区域分别是建模区、结点区、模型描述区、项目管理区 通过连接结点构成数据流建立模型 Clementine通过6类结点的连接完成数据挖掘工作,它们是: Source(源结点):Database、Var. Files等 Record Ops (记录处理结点):Select、Sample等 Field Ops(字段处理结点):Type、Filter等 Graphs(图形结点):Plot、Distribute等 Modeling(模型结点):Neural Net、C5.0等 Output(输出结点):Table、Matrix等,,51,Clementine

17、操作基本知识,鼠标应用 三键与双键鼠标 左键 选择节点或图标置于建模区 右键 激活浮动菜单 中键 连接或断开两个节点 帮助,,52,Clementine操作基本知识,节点的增加,以 为例 Click “Sources”,Click ,Click “流区域” Click “Sources”,Double Click Click “Sources”,Drag to “流区域” 节点的删除 Click , Delete Right Click ,Click “Delete” 节点的移动:Drag,,53,Clementine操作基本知识,节点的编辑 Double Click Right Click

18、,Click “Edit” 节点的重命名和解释 Right Click ,Click “Edit”,Click “Annotations” Double Click ,Click “Annotations” Right Click ,Click “Rename and Annotations” 拷贝、粘贴,,54,Clementine操作基本知识,构建流时节点的连接 Highlight ,Add to the Canvas Right Click ,Click “Connect”,Click Drag the middle mutton from to 构建流时节点连接的删除 Right Cl

19、ick or , Click “Disconnect” Right Click “Connection”,Click “Delete Connection” Double Click or,,55,Clementine操作基本知识,流的执行 Highlight “Stream”,Click Right Click ,Click “Execute” In the Edit Window of the , Click “Execute” 流的保存 帮助 Help Menu Dialogue Window,,56,一个例子罗斯文商贸公司,商业问题: 微软公司提供的案例数据库罗斯文商贸公司,如何对客户

20、价值进行评估 背景介绍: 1.罗斯文商贸公司是Microsoft数据库产品(Access, SQL Server等)中的一个示例数据库; 2.它虚拟了一家经销日用品的商贸公司的情况; 3.目前该公司保存的历史数据资料,见下页; 4.我们需要对客户的价值进行评估,以便采取有效的市场销售策略。,,57,罗斯林商贸公司数据,,58,罗斯文商贸公司统计问题,数据挖掘问题: (1)如何描述客户价值?购买总金额?购买频次?平均每次购买金额?最近购买金额?它们的线性组合?使用最简单的购买总金额 (2)需要什么样的数据挖掘方法?描述汇总?分类?预测?概念描述?细分?相关分析?使用最简单的描述汇总 (3)需要的

21、数据从哪里来?从以下几个来源: 客户 订单 订单明细,,59,罗斯文商贸公司商业问题解决方案,商业问题解决方案 从所有客户中找出最有价值的10个客户,将名单发给市场部门,让其对这些客户进行更多的关注,,60,Clementine的优化,包括两个方面的优化 结构优化 用户优化,,61,结构优化,把中间结果存储在Server上(尽量使用server版处理) 从数据流上整理考虑的执行数据流(能一步完成的处理尽量不要分解到多个执行) 减少数据的迁移(数据提前进行规划),,62,用户优化,自动优化数据流:当使用这一选项时,Clementine将重写数据流以使效率最高(可以通过Clementine Ser

22、ver中的sql_rewriting_enabled来调整是否可以使用) 优化的SQL生成。使尽可能的操作在数据库内进行。 优化Clementine执行。调整数据降维的操作尽可能接近数据源完成。 手动优化数据流 操作顺序:有些操作可以在SQL中完成,有些操作不能在SQL中完成,尽可能把能够在SQL中完成的一起排在前面 数据类型:尽可能在源节点处由用户自定义数据类型,而不是Clementine自动读取。,,63,一个数据挖掘的实例 客户信用级别判断系统,,64,问题的提出,如何通过数据挖掘实现小灵通信用级别的判断系统 某电信公司按照某种标准将小灵通客户信用等级分为5类,分别是gradeA、gra

23、deB 、gradeC、gradeX、gradeY。现在希望建立一套系统,能够使得市场部人员根据用户的几项关键的个人基本信息判断该客户的信用级别,从而有针对性地对其采用不同的市场营销策略。,,65,数据描述,,66,遵循CRISP-DM的数据挖掘过程,,67,在进行数据挖掘过程中应该注意的几个问题,商业经验的作用 数据的拆分训练集与检验集 不同模型的印证与比较,,68,结果发布,信用级别静态列表 信用级别写回数据库 实时判断信用级别的分析应用,,69,问题&讨论,,70,三、数据理解:数据的可视化和报告,数据组织形式 数据图形展现 数据表格展现,,71,数据挖掘要求的数据格式,变量 记录(行代

24、表记录,列代表变量),,72,数据尺度,根据数据的不同,可以把变量分为以下一些类型 定类变量 例如:客户编号、性别、邮编等 不能比较大小 定序变量 产品等级、信用级别、客户收入水平分类等 可以比较大小、不能进行加减运算 定距变量 出生日期、温度等 可以进行加减运算、不能进行乘除运算 定比变量 收入、长度等 可以进行乘除运算,,73,各类变量尺度比较,,74,描述性统计量,描述统计量(summary statistic),也称汇总统计量或概括统计量 用少量数字概括大量数据的技术,,75,离散变量的描述性统计,频数 累计频数 频率 累计频率(累计必须是定序变量),,76,连续变量的描述指标,反映数

25、据平均趋势和位置的指标 反映数据离散趋势的指标 反映数据分布状况的指标,,77,反映连续数据平均趋势的指标,平均数 算术平均数 几何平均数 截尾算术平均数:比较稳健有效地描述平均值 中位数:(代表群体基本的趋势,集中的趋势) 众数(多用于离散变量) 四分位数(25%,50%,75%) 百分位数,,78,平均数与中位数的结合使用,对5个数值表示的内容说法有些不同,含义与左图不同,含义与左图不同,,79,反映连续数据离散趋势的指标,极差(全距)range =max-min 内距 50%的差距 方差 :更适合离散趋势的描述(趋势放大) 标准差 变异系数:标准差/均值,值越大,则离散程度越大。,,80

26、,平均数与标准差的应用,切比雪夫定理 在任何一个数据集中,至少有(1-1/z2 )的数据项与平均数的距离在z个标准差之内,其中z是任意大于1的值。 切比雪夫定理含义 1.至少75%的数据项与平均数的距离在2个标准差之内; 2.至少89%的数据项与平均数的距离在3个标准差之内;(6西格玛质量管理应用) 3.至少94%的数据项与平均数的距离在4个标准差之内。,,81,连续变量的经验法则,正态分布是一种最常用的连续型分布 关于正态分布的经验法则 1.约68%的数据项与平均数的距离在1个标准差之内; 2.约95%的数据项与平均数的距离在2个标准差之内; 3.几乎全部数据项(99.97%)与平均数的距离

27、在3个标准差之内。,,82,切比雪夫和经验法则的应用,问题 某单位有100个人,他们的平均身高是170cm,标准差为5cm,那么有多少人的身高是落在160cm-180cm这个区间里的呢? 经验法则的应用 根据切比雪夫定理,该单位至少有75%的人身高在160cm180cm这个区间里 根据正态分布经验法则,该单位大约有95%的人身高在160cm180cm这个区间里,,83,反映连续数据分布状况的指标,偏度 峰度,,84,图形展现数据,,85,图形技术的应用,图形可以用来直观的展示数据的分布特征和取值情况 常见的描述离散变量的图形有 条形图 饼形图 常见的描述连续变量的图形有 直方图 常见的描述两个

28、离散变量之间关系的图形有 Web图 条形图 常见的描述两个连续变量之间关系的图形有 散点图 常见的描述一个离散变量和一个连续变量之间关系的图形是 条形图,,86,通过图形可以表现多个变量之间的关系,,87,Chapter 2,Clementine 简介,,88,Chapter 2 Clementine 简介,目的: 初步了解Clementine软件 内容: 2.1 SPSS Clementine C/S 2.2 SPSS Clementine 面板 2.3 SPSS Clementine 可视化程序使用基础 节点 SPSS file 节点 Table 节点,,89,2.1 Clementine

29、 C/S,启动: StartProgramsClementine 8.1 Clementine and Clementine Server ToolsServer Login,,90,Clementine的结构示意图,,91,2.2 Clementine 面板,,92,第二讲:数据简单准备与理解,数据准备之读入数据 数据理解之数据质量 数据理解之数据分布,,93,Chapter 3,读取数据文件,,94,Chapter 3 读取数据文件,目的 掌握Clementine如何读取文本格式数据 了解Clementine可以读取的数据格式 掌握Clementine中的字段类型和方向 数据 S,,95,

30、Chapter 3 读取数据文件,内容及节点: 3.1 Clementine可以读取的数据格式 3.2 读取文本数据与查看数据 3.3 读取SPSS数据 3.4 读取数据库数据(专用spss配置的链接) 3.5 Clementine中的字段类型 3.6 Clementine中的字段方向 3.7 保存Clementine流,,96,3.1 Clementine可以读取的数据格式,文本格式数据 SPSS/SAS数据 Excel,Access,dBase,Foxpro,Oracle,SQL Server,DB2等数据库(每次只能读一个表) 用户输入数据,,97,3.2 读取文本数据与查看数据,,98

31、,3.2 读取文本数据与查看数据,,99,3.2 读取文本数据与查看数据,,100,3.2 读取文本数据与查看数据,,101,3.2 读取文本数据与查看数据,,102,3.3 读取SPSS数据,变量标签 值标签,,103,3.4 读取数据库数据,ODBC设置,数据库-表,,104,3.5 Clementine中的字段类型,离散型 二分 eg:sex:m/f 多分 eg:等级:好/中/差 离散 eg: 连续型 整数 实数 日期、时间 其它,,105,3.6 Clementine中的字段方向,,106,3.7 读取其它格式的数据,Sas Fixed text file:同一字段在各行的同一列,,1

32、07,Chapter 4,数据理解之数据质量,,108,Chapter 4 数据理解之数据质量,目的: 掌握如何应用Clementine发现数据的准确性、完整性 熟悉用于数据质量分析的几个节点 内容: 4.1 数据理解 4.2 缺失值定义 4.3 Quality节点介绍 4.4 Distribution节点-初步理解字符型字段的分布 4.5 Histogram/Statistics节点-初步理解数值型字段的分布 数据: Smallsamplemissing.txt Risk.txt,,109,数据理解的内容,对数据质量进行评价 对数据进行初步的描述 对数据之间的关系进行探索性分析,,110,4

33、.1 数据理解,在数据挖掘之前,理解数据的取值范围及数值分布是非常重要的 Histogram/Statistics Distribution 数据质量越高,挖掘结果准确性越高 Quality,,111,4.2 缺失值定义,Missing values are values in the data set that are unknown, uncollected, or incorrectly entered. They are invalid for their fields. 缺失值的定义:type节点 系统默认缺失值-on Null-数值型字段-空值-“”-“$Null” Empty S

34、tring -字符型字段-空值-“” White Space -字符型字段-空值以及空格值-“”或“ ”-包括Empty String 指定缺失值-Blank Value 系统默认缺失值 指定特殊缺失值-“99” 缺失值的检查:quality节点,,112,4.2 缺失值定义,,113,4.2 缺失值定义,数据缺失情况 数据量的大小 包含缺失值的字段的数量 缺失值的数量 缺失值的处理方法 忽略含缺失值的字段 忽略含缺失值的记录 默认值代替缺失值 根据一定规则填充缺失值,,114,4.3 Quality节点介绍,查看缺失值情况 查看各类型缺失值的分布情况 Blank Value的指定,,115,

35、4.3 Quality节点介绍,Quality结果,,116,4.4 Distribution节点-初步理解字符型字段的分布,单个字段的值分布 例:人群中各种风险等级人数及百分比 与其它分类字段合并 例:分性别显示各种风险等级人数及百分比 例:各种风险等级中男性女性各占比例,,117,4.5 Histogram/Statistics节点-初步理解数值型字段的分布,单个字段的值分布 例:人群收入水平 与其它分类字段合并 例:显示各种风险等级的收入水平 例:显示各收入水平的各风险等级比例,,118,Chapter 5,简单数据整理,,119,Chapter 5 简单数据整理,目的: 掌握Cleme

36、ntine中的数据整理技术 熟悉用于数据整理的几个节点 内容 5.1 Clem语言简介 5.2 Select节点介绍 5.3 Filter节点介绍 5.4 Derive节点介绍 5.5 自动生成操作节点 数据 Risk.txt SmallSampleMissing.txt,,120,5.1 Clem语言简介,Clementine Language of Expression Manipulation 应用节点:Derive导出, Select选择, Filter过滤 构建材料:函数、符号、数字、字段 记录敏感:对每条记录返回值(整数、实数、布尔值、字符值、日期、时间)或评估是否满足条件 两种表

37、达式:条件表达式与计算表达式,,121,5.2 Select节点介绍,用于根据一定条件选择或丢弃某些记录 CLEM构建,,122,5.3 Filter节点介绍,对某些字段进行重命名或丢弃某些无意义的字段 无意义字段 缺失值占大比例 所有记录有相同值 中间过程生成的中间变量,,123,5.4 Derive节点介绍,根据原有字段值生成新字段值 按公式生成字段 生成二分型字段 生成多分型字段 对所有记录按同样标准生成新字段 对不同记录按不同标准生成新字段 对多个字段进行同一转换,,124,5.4 Derive节点介绍,可以利用导出把连续数据离散化(导出为标志及集合),以进一步分析,,125,5.5

38、自动生成操作节点,自动生成“Select” 自动生成“Filter”,,126,第三讲主要内容,数据理解之数据关系探测 基本建模方法简要介绍,,127,Chapter 6,数据理解之 数据间简单关系,,128,Chapter 6 数据理解之数据间简单关系,目的: 掌握如何理解字段间关系 熟悉用于字段关系理解的几个节点 内容 6.1 Matrix节点-研究字符型字段间关系 6.2 Web节点-研究字符型字段间关系 6.3 Statistics节点-研究连续型字段间线性相关关系 6.4 Plot节点-研究连续型字段间关系 6.5 Histogram节点-研究连续型字段与字符型字段的关系 数据 Ri

39、sk.txt,,129,Chapter 6 数据理解之数据间简单关系,解决问题 风险等级是否与收入有关 风险等级是否与性别有关 如果一个人的信用卡数量较多,是否意味着它欺诈的可能性也大,,130,6.1 Matrix节点-研究字符型字段间关系,解决问题 月付款的人是否比周付款的人风险程度更高 男性是否比女性风险程序更高 Matrix节点: 交叉表(列联表)来显示字符型数据间关系 行字段与列字段的选择 显示百分比,,131,6.1 Matrix节点-研究字符型字段间关系,,132,6.2 Web节点-研究字符型字段间关系,例:婚姻状态、抵押贷款等是否与风险等级有关 几个小概念: 人数 总数百分比

40、 大类百分比 小类百分比 强、中、弱相关关系 结果解读,,133,6.2 Web节点-研究字符型字段间关系,,134,6.3 Statistics节点-研究连续型字段间线性相关关系,例:收入是否随年龄呈线性增长 Statistics节点设置 结果解读 注意: 线性相关关系而非相关关系(线形相关是相关关系的一种,其他相关关系最终需要转化为线形相关来研究),,135,6.3 Statistics节点-研究连续型字段间线性相关关系,,136,6.4 Plot节点-研究连续型字段间关系,例:显示孩子数目与贷款数目的关系 用点的大小来反映其代表记录的多少 用点的密度来反映其代表记录的多少 用不同颜色的点来反映不同类别的记录,,137,6.4 Plot节点-研究连

展开阅读全文
相关资源
猜你喜欢
相关搜索

当前位置:首页 > 其他


经营许可证编号:宁ICP备18001539号-1