数据挖掘与系统平台使用原理培训教材.ppt

上传人:土8路 文档编号:11792003 上传时间:2021-09-12 格式:PPT 页数:306 大小:5.65MB
返回 下载 相关 举报
数据挖掘与系统平台使用原理培训教材.ppt_第1页
第1页 / 共306页
数据挖掘与系统平台使用原理培训教材.ppt_第2页
第2页 / 共306页
数据挖掘与系统平台使用原理培训教材.ppt_第3页
第3页 / 共306页
数据挖掘与系统平台使用原理培训教材.ppt_第4页
第4页 / 共306页
数据挖掘与系统平台使用原理培训教材.ppt_第5页
第5页 / 共306页
点击查看更多>>
资源描述

《数据挖掘与系统平台使用原理培训教材.ppt》由会员分享,可在线阅读,更多相关《数据挖掘与系统平台使用原理培训教材.ppt(306页珍藏版)》请在三一文库上搜索。

1、数据挖掘与Clementine使用培训,北京瑞斯泰得数据技术开发有限公司 2021/9/12,1,一、数据挖掘概述,什么是数据挖掘 数据挖掘的实现路线和流程 数据挖掘方法论CRISP-DM,2,为什么进行数据挖掘? 商业观点,业务中产生了大量的数据,这些数据存储在业务系统中却不能创造价值 客户信息数据 客户交易行为数据 客户反馈数据 网络数据 计算机变得越来越便宜、功能却越来越强大 商业竞争越来越激烈,对客户了解越多就意味着机会越大,3,为什么进行数据挖掘? 技术观点,业务中的数据量呈现指数增长(GB/小时) 传统技术难以从这些大量数据中发现有价值的规律 数据挖掘可以帮助我们从大量数据中发现有

2、价值的规律,4,一个市场营销的例子,在数据中发现有价值的规则或者模式,女性对市场活动做出回应,男性对市场活动不做出回应,和年龄无关,5,一个市场营销的例子,数据变的复杂会如何?,女性对市场活动做出回应,老年男性也可能对市场活动做出回应,6,一个市场营销的例子,数据挖掘可以从异常复杂的数据中发现规律,通过数据挖掘发现回应的5条规则: 1、如果收入大于29622,有孩子,并且孩子的数量小于等于2,那么对市场活动会回应 ,通过数据挖掘发现不回应的5条规则: 1、如果收入小于12640.3,并且有一个孩子,那么对市场活动不会回应 ,7,数据挖掘收益分析,8,利润分析图,9,数据挖掘效果模拟分析,目的:

3、发现新客户(使响应率从1%提高到1.2%),10,什么是数据挖掘?,不同的定义 从大量数据中发现非平凡的、先前不知道的、有价值的规律的过程 从大量数据中自动化(或者半自动化)的发现有价值规律的过程 数据挖掘的其他名称 数据库内知识发现(KDD- Knowledge discovery in databases ) 数据/模式分析 商业智能 人工智能 ,11,数据挖掘的起源,来源于机器学习/人工智能、模式识别、统计学和数据库 传统技术的局限性 巨量的数据 高维数据 数据分布不理想,12,数据挖掘面临的挑战,海量数据 高维数据 数据复杂性 数据质量问题 数据所有权和分布 隐私问题,13,数据挖掘方

4、法论项目顺利实施的保证,商业理解 数据理解 数据准备 建立模型 模型评估 模型发布,14,商业理解,商业 理解,数据 理解,数据 准备,建立 模型,模型 评估,结果 发布,确定商业 目标,形势评估,确定数据 挖掘目标,制定项目 计划,背景,商业目标,成功标准,拥有资源,需求、假定 和限制,风险和 偶然性,专业 术语,成本和 收益,数据挖掘 目标,数据挖掘 成功标准,项目计划,工具和方法 评估,15,数据理解,商业 理解,数据 理解,数据 准备,建立 模型,模型 评估,结果 发布,收集原始 数据,数据描述,数据探索 性分析,数据质量 描述,数据收集 报告,数据描述 报告,探索性数据 分析报告,数

5、据质量 报告,16,数据准备,商业 理解,数据 理解,数据 准备,建立 模型,模型 评估,结果 发布,选择数据,确定分析包含/剔除数据,数据集,数据集 描述,数据清理,数据清理报告,数据重构,生成新的变量(字段),生成新的记录,整合数据,合并相关数据,格式化数据,改变数据格式,适应分析,17,建立模型,商业 理解,数据 理解,数据 准备,建立 模型,模型 评估,结果 发布,选择建模 技术,产生检验 设计,建立模型,评价模型,模型 技术,模型假设,检验设计,参数设定,建模,模型评价,参数设定 的修订,模型描述,18,模型评估,商业 理解,数据 理解,数据 准备,建立 模型,模型 评估,结果 发布

6、,结果评估,数据挖掘 过程回顾,确定下一 步的工作,评估数据 挖掘结果,被认可的模型,数据挖掘过程 的回顾,列出可能 的行动,决策,19,结果发布,商业 理解,数据 理解,数据 准备,建立 模型,模型 评估,结果 发布,发布结果 计划,监测和维护 模型计划,生成最终数据 挖掘报告,项目回顾,结果发布计划,监测和维护 模型计划,最终数据 挖掘报告,数据挖掘 报告展现,项目检验 总结,20,商业理解是数据挖掘的起点,解决方案,商业需要,21,商业理解的内容,数据挖掘能解决什么样的商业问题? 数据挖掘得到的结果,是否可以采取相应的行动以提高利润或降低成本? 我们期望模型能够给我们怎样的精确率? 有那

7、些前提假定?,22,约束分析,时间约束分析 资源约束分析 人力资源 数据资源 软件资源 硬件资源,23,制定特定的数据挖掘目标,制定的数据挖掘目标应具有: 可评估性(assessable) 可实现性(attainable),24,如何给定一个数据挖掘问题,是检验性数据挖掘还是探索性数据挖掘? 确定哪些是可以实现的数据挖掘问题 结果可测度性 信息(数据)的可获得性 评估和控制其他相关因素的影响,25,数据来源与数据之间的关系,26,使数据适合数据挖掘,对数据进行适当的合并和汇总 一般数据挖掘分析都要一个行列(记录变量)的二维表,必须把从不同数据源得到的不同格式的数据整合成这样一张表,要求: 所有

8、的记录含有排列顺序一致的变量 所有记录的变量信息是完整的(理想化状态,在现实中很难达到),27,检查数据质量,影响数据质量的几个主要问题 缺失值 不合理值 不同数据源的不一致 异常值,28,对数据进行适当的变换,数据的标准化变换 生成新的变量 数据的重新编码 数据降维,从变量角度或者从记录角度,29,数据挖掘模型的分类,数据描述和汇总(Data description and summarization) 细分(Segmentation) 概念描述(Concept descriptions) 分类(Classification) 预测(Prediction) 相关分析(Dependency a

9、nalysis),30,数据挖掘技术的分类,数据挖掘,描述,预测,统计回归,关联规则,决策树,可视化,聚类,顺序关联,汇总,神经网络,分类,时间序列预测,31,数据挖掘的典型结果金融,问题描述:预测信用水平是好还是差,银行据此决定是否向客户发放贷款,发放多少 结果描述:(决策树),收入大于5万元/年,是,否,有无储蓄帐户,是否房主,否,是,是,否,批准,不批准,批准,32,数据挖掘的典型结果电信,问题描述:根据客户信息,预测客户流失可能性 结果描述:(神经网络),输 入,流失概率 (0.87),输 出,男,29,3000元/月,套餐A,130元/月,33,数据挖掘的典型结果零售,问题描述:如何

10、决定超市中商品的摆放来增加销售额 结果描述:(Web图),34,数据挖掘的典型结果制造业,问题描述:如何对市场进行细分,使产品满足最有价值客户 结果描述:(Koholen聚类),35,数据挖掘的典型结果政府,问题描述:如何从众多申请经费或者纳税中发现欺诈 结果描述:(回归、神经网络),36,检验的形式,方法层面的检验 训练集和检验集 不同方法的互相印证和比较 模型准确性的检验: 商业层面上的检验 利润率的检验 模型结果可操作性的检验 其他检验,37,关注那些错误的预测,38,数据挖掘不成功的几种可能性,糟糕的数据 组织抵制 结果没有被有效的发布 得到了无用的结果,39,模型发布的形式,书面报告

11、 数据库更新 针对特定主题的应用系统,40,数据挖掘的体系结构,41,问题 Clementine Server; Clementine Batch; SPSS Data Access Pack; Clementine Solution Publisher (Optional)。,47,Clementine的两种运行方式,单机版运行 以下情况必须使用单机版运行: 数据存储在本机,且不能在网络上共享; 机器不联网; 无Clementine Server可供使用。 以下情况可以使用单机版运行: 要处理的数据量很小(比如:小于2M)并且数据存储在单机或可到达局域网处; 单机内存、硬盘相对要处理的数据量

12、来说足够大,并且速度也满足要求。,C/S结构运行 以下情况必须使用C/S结构运行: 单机内存或者硬盘不够大,难以运行大量数据; 单机上没有或者无法配置数据连结,无法从数据库中获取数据; 组织规则不允许下载大量数据到单机。 以下情况可以使用C/S结构运行: 要处理的数据量很大,并且存储在可以通过SPSS Data Access技术可到达的数据库处; 单机速度慢,Clementine Server运行的机器配置高。,48,Clementine的系统结构,Clementine的三层结构: 1、数据库层; 通过Clementine Server进行调度,把那些可以通过SQL语句执行的数据操作过程以SQ

13、L语句的形式导入数据库并在其中进行; 2、服务器端; 进行调度,不能在数据库层面进行的操作在服务器端进行(比如数据挖掘模型计算过程) 3、客户端。 在三层结构下通过Clementine Server进行调度,由客户端向服务器端发送数据挖掘指令,并接受和展示数据挖掘结果。,Clementine Client和Clementine Server通过SDL(Stream Description Language )之间进行信息交换,Clementine Server和Database通过SQL语句进行信息交换。,49,Clementine运行的两种方式,图形界面方式 适用操作系统 Windows系列

14、 特点: 图形化界面 与客户直接交互 适合交互式分析过程,命令行方式 使用操作系统 Windows系列 Unix系列 特点: 命令行操作 不能生成图形,所有结果保存在文件里或者数据库中 适合于以下情况使用: 运行耗时较长的建模过程 希望在后台运行一些耗时较长的数据准备 过程希望按照一定的时间定期运行(比如每周、每月等) 希望把Clementine(数据挖掘过程)运行过程嵌入应用系统中,50,Clementine的界面和设计思路,可视化界面 四个区域分别是建模区、结点区、模型描述区、项目管理区 通过连接结点构成数据流建立模型 Clementine通过6类结点的连接完成数据挖掘工作,它们是: So

15、urce(源结点):Database、Var. Files等 Record Ops (记录处理结点):Select、Sample等 Field Ops(字段处理结点):Type、Filter等 Graphs(图形结点):Plot、Distribute等 Modeling(模型结点):Neural Net、C5.0等 Output(输出结点):Table、Matrix等,51,Clementine操作基本知识,鼠标应用 三键与双键鼠标 左键选择节点或图标置于建模区 右键激活浮动菜单 中键连接或断开两个节点 帮助,52,Clementine操作基本知识,节点的增加,以 为例 Click “Sour

16、ces”,Click ,Click “流区域” Click “Sources”,Double Click Click “Sources”,Drag to “流区域” 节点的删除 Click , Delete Right Click ,Click “Delete” 节点的移动:Drag,53,Clementine操作基本知识,节点的编辑 Double Click Right Click ,Click “Edit” 节点的重命名和解释 Right Click ,Click “Edit”,Click “Annotations” Double Click ,Click “Annotations” Ri

17、ght Click ,Click “Rename and Annotations” 拷贝、粘贴,54,Clementine操作基本知识,构建流时节点的连接 Highlight ,Add to the Canvas Right Click ,Click “Connect”,Click Drag the middle mutton from to 构建流时节点连接的删除 Right Click or , Click “Disconnect” Right Click “Connection”,Click “Delete Connection” Double Click or,55,Clementin

18、e操作基本知识,流的执行 Highlight “Stream”,Click Right Click ,Click “Execute” In the Edit Window of the , Click “Execute” 流的保存 帮助 Help Menu Dialogue Window,56,一个例子罗斯文商贸公司,商业问题: 微软公司提供的案例数据库罗斯文商贸公司,如何对客户价值进行评估 背景介绍: 1.罗斯文商贸公司是Microsoft数据库产品(Access, SQL Server等)中的一个示例数据库; 2.它虚拟了一家经销日用品的商贸公司的情况; 3.目前该公司保存的历史数据资料,

19、见下页; 4.我们需要对客户的价值进行评估,以便采取有效的市场销售策略。,57,罗斯林商贸公司数据,58,罗斯文商贸公司统计问题,数据挖掘问题: (1)如何描述客户价值?购买总金额?购买频次?平均每次购买金额?最近购买金额?它们的线性组合?使用最简单的购买总金额 (2)需要什么样的数据挖掘方法?描述汇总?分类?预测?概念描述?细分?相关分析?使用最简单的描述汇总 (3)需要的数据从哪里来?从以下几个来源: 客户 订单 订单明细,59,罗斯文商贸公司商业问题解决方案,商业问题解决方案 从所有客户中找出最有价值的10个客户,将名单发给市场部门,让其对这些客户进行更多的关注,60,Clementin

20、e的优化,包括两个方面的优化 结构优化 用户优化,61,结构优化,把中间结果存储在Server上(尽量使用server版处理) 从数据流上整理考虑的执行数据流(能一步完成的处理尽量不要分解到多个执行) 减少数据的迁移(数据提前进行规划),62,用户优化,自动优化数据流:当使用这一选项时,Clementine将重写数据流以使效率最高(可以通过Clementine Server中的sql_rewriting_enabled来调整是否可以使用) 优化的SQL生成。使尽可能的操作在数据库内进行。 优化Clementine执行。调整数据降维的操作尽可能接近数据源完成。 手动优化数据流 操作顺序:有些操作

21、可以在SQL中完成,有些操作不能在SQL中完成,尽可能把能够在SQL中完成的一起排在前面 数据类型:尽可能在源节点处由用户自定义数据类型,而不是Clementine自动读取。,63,一个数据挖掘的实例客户信用级别判断系统,64,问题的提出,如何通过数据挖掘实现小灵通信用级别的判断系统 某电信公司按照某种标准将小灵通客户信用等级分为5类,分别是gradeA、gradeB 、gradeC、gradeX、gradeY。现在希望建立一套系统,能够使得市场部人员根据用户的几项关键的个人基本信息判断该客户的信用级别,从而有针对性地对其采用不同的市场营销策略。,65,数据描述,66,遵循CRISP-DM的数

22、据挖掘过程,67,在进行数据挖掘过程中应该注意的几个问题,商业经验的作用 数据的拆分训练集与检验集 不同模型的印证与比较,68,结果发布,信用级别静态列表 信用级别写回数据库 实时判断信用级别的分析应用,69,问题 被用来进行预测的数据常常是不稳定、不确定和不完全的,由其来源和收集的方式所决定; 不同的时间区域常常需要不同的预测方法,形式上难以统一; 因为不同的预测方法在复杂性、数据要求以及准确程度上均不同,因此选择一个合适的预测方法是很困难的。,169,Chapter 8,Neural Networks,170,Chpater 8 Neural Networks,目的: 掌握如何在Cleme

23、ntine中进行Neural Network 模型的构建和解读 掌握Neural Network节点 数据:Risktrain.txt,171,Chpater 8 Neural Networks,内容 8.1 Neural Net节点介绍 8.2 构建Neural Network 8.3 模型管理区介绍 8.4 结果查看和结果解释 8.5 模型预测值生成 8.6 模型评价 8.7 理解预测原因 8.8 模型总结,172,神经网络模型预测技术,基本概念: 神经元 三层结构,173,8.1 Neural Net节点介绍,字段方向-Type节点或表 In-X字段-自变量字段 Out-Y字段-结果字段

24、-聚类、主成分分析除外 Both-自变量和结果字段-关联规则或顺序算法 None-不用字段 ID-typeless-None 五种Neural Net方法,默认Quick 过度训练(长时间接触同一个数据源,并用同样特征去描述其他数据集,结果往往错误) 停止规则(避免过度训练) 字段的相对重要性分析,174,避免过度训练问题选择测试集错误较低,或者两集错误交叉点,175,8.2 构建Neural Network,例:用age、sex、income等来预测客户的风险等级,176,8.3 模型管理区介绍,浏览模型结果 导出模型代码 将模型载入数据流 将模型导入项目管理区 保存、清除、装载模型管理区,

25、177,8.4 结果查看和结果解释,结果的浏览:Right click generated “model” 模型准确性 输入字段或层 输出字段或层 各输入字段的相对重要性,178,8.5 模型预测值生成,将模型装入数据流 $N-Risk是Neural Net对该记录风险等级 的预测值 $NC-Risk是$N-Risk的置信度(confidence),179,8.6 模型评价-预测值与实际值的比较,利用Matrix比较,通常关注的不是整体,例如欠费用户群而不是整个用户群。,180,8.6 模型评价,Evaluation Node-评估比较模型,以选择最优模型 Evaluation 的原理:将数据

26、按预测值和置信度从高到低排序,将数据拆分为多个集合,每集合包含相同的记录数,然后作图。 关注值:flag变量的真值,set变量的第一个值 五种图形:收益图、功效图、响应图、投资回报图、利润图,181,8.6 模型评价,收益图,功效图,182,8.7 理解预测原因,Web节点-Symbolic Input 2.离散变量模型的检验; 3.组合模型概述; 4.二值预测问题的组合模型。,234,Clementine中提供的模型概述,Data Mining Model,Supervised Model (Predictive Model),Unsupervised Model,Data Reductio

27、n,Neural Networks,C5.0,C&RT(CART),Regression,Logistic regression,Kohonen,K-means,Two-Step,PCA(Principal Component Analysis),Factor,Clustering,APRIORI,GRI,Sequence,Associations,235,离散变量预测问题是最重要的一类问题,离散变量预测问题也就是分类问题 在Clementine(8.1)中有很多模型可以做分类问题 Neural Net C5.0 C&RT Logistic 连续变量预测问题可以通过某种形式转化为离散变量预测问

28、题 多值变量问题可以转化为两值预测问题,236,离散值预测模型的几个重要检验指标,1.准确率 2.命中率 3.覆盖率,237,离散值预测模型的几个重要检验图形,1.收益图(Gains) 2.响应图(Response) 3.功效图(Lift) 4.利润图(Profit) 5.投资回报图(ROI),238,离散值预测模型的几个重要检验图形,239,什么是组合模型,在数据挖掘模型中,每种模型都有各自的优点和缺陷,为了更好的利用模型的优点,在Clementine中可以把不同模型通过一定的方式组合在一起以解决特定的问题 为了提高模型的精确度,我们可以把多个模型通过某种方式组合在一起,240,组合模型类型

29、,为了提高模型的可解释性,可以应用C5.0对预测或者聚类结果进行解释 为了得到各指标对模型影响的重要程度,可以应用神经网络对指标重要性进行分析 可以通过模型的特定组合提高模型的准确性下面以数据挖掘模型中最常用的二值预测来说明组合模型如何能够提供模型的准确性,241,二值预测是数据挖掘中重要问题,二值预测问题是个非常常见的数据挖掘问题 流失、客户获得、欠费、欺诈 多值预测可以转化为二值预测问题 连续预测问题可以转化为多值预测问题,242,二值预测结果的可能表达方式,T or F,我们称为预测值; 预测值为T,预测准确率为P;或者预测值为F,预测准确率为P; T的概率为p,称为预测评分(scori

30、ng)。 和置信度区分 例:以预测流失为例 预测客户A流失; 预测客户B不流失,把握程度为0.8; 预测客户C的流失概率为0.792。,243,多值(set)问题向二值问题的转化(flag),多值集合变量向几个二值变量的转化(设为标志),由Clementine中神经网络算法想起的 1、多个输出变量; 2、如果把二值变量问题再转化成多值变量问题。,244,连续预测问题向多值预测问题的转化,从C&RT算法想到的用分级节点,把连续预测问题转化为多值预测问题,245,二值预测的结果表述,T or F 评分(scoring) T1.0 F0.0 二值预测结果的评价 (1)总体准确率 (2)命中率 (3)

31、覆盖率,246,Clementine中预测二值问题,Neural Net($N-outcome ,$NC-outcome) C5.0($C-outcome,$CC-outcome) C&RT($R-outcome ,$RC-outcome)得到这 Logistic($L-outcome ,$LP-outcome) 得到概率 $N-outcome,$C-outcome,$R-outcome,$L-outcome为预测T或F,得到置信度;$NC-outcome,$CC-outcome,$RC-outcome,$LP为前者预测的把握程度。,247,由预测值和预测把握程度向预测评分的转化,由Cleme

32、ntine中神经网络算法说起 |0.5 Raw Output |* 2 例如,神经网络的raw output取置信度,概率为预测为真的概率,置信度为无论预测真假的可信程度。 在Clementine中生成的预测模型(神经网络、决策树或Logistic回归)后接一个Derive节点,生成新字段预测评分: Type :Conditional If$N-Outcome Then0.5 + ($NC-Outcome / 2.0) Else0.5 - ($NC-Outcome / 2.0),248,练习1,对数据集data1.csv建立二值预测模型,实现以下目标深圳电信/组合模型) 应用C5.0模型得出预

33、测模型,对模型的准确率(总体准确率、命中率、覆盖率)作出描述; 应用神经网络模型建立预测模型,练习把离散问题连续化的方法;(提示:flag-range,T-1.0) 应用C5.0模型建立scoring型的预测模型( 提示:$C,$CC的组合),249,组合模型解决二值预测的几种思路,投票法(Voting)少数服从多数,小概率服从大概率原则,主要目的在于提高命中率 修正法根据预测结果与实际结果比较调整预测(多个训练集,一个检验集),250,投票法之一多个模型一致,对于同一问题建立不同模型,会得出不同的结果,多个模型同时预测同一结果时,往往这个结果更加可信 方法的优点和缺点: 优点:提高模型预测精

34、度 缺点:会有一些记录没有预测结果,251,投票法之二建立奇数个模型,建立奇数个预测模型 遵循少数服从多数原则 Derive node (type: Conditional) If $N-Outcome = $C-Outcome or $N-Outcome = $R-Outcomethen $N-Outcomeelse $C-Outcome 带$的变量需要加引号,252,投票法之三更高把握程度原则,应用那些具有更多把握程度的模型进行预测 If $CC-Outcome $NC-Outcome Then $C-Outcome Else $N-Outcome,253,投票法之四根据把握程度汇总进行投

35、票,建立不同模型的评分(scoring)模型 对不同模型得到评分(score)进行平均 转化为二值预测问题 Converting : If all_score0.5 then T else F Converting the confidence back Ifall_score 0.5 Then(all_score 0.5) * 2 Else(0.5 - all_score) * 2,254,练习2,应用data2分别应用神经网络模型、C5.0模型和C&RT模型建立二值预测模型,再按照以上4中思路建立预测模型。对于test数据完成下表:,255,修正法之一模型堆叠(stacking),把模型的

36、预测输出作为另外模型的输入,256,修正法之二找出错误预测的规律(error modelling),对于一个预测模型,我们能够发现错误预测的规律吗? 挑出那些错误的,建立模型(常常需要平衡数据) 缺点:有些记录会没有预测,257,修正法之三多个模型一致(agreement modelling)处理投票法一中的不确定值,多个模型预测一致的作为预测 对那些不一致的重新建立模型进行预测 Select node $N-Outcome /= $C-Outcome Derive node (type: conditional) If $N-Outcome = $C-Outcome Then $N-Outc

37、ome Else $N1-Outcome,258,修正法之四对模型建模(speciallist modelling),建立关于何时规则模型或神经网络模型预测准确的模型,得出模型的适用条件(数据情况) 根据数据情况选择使用不同的模型,259,练习3,对于数据集data1 to data5按照修正法思路1思路4建立模型,对于数据集test完成下表:,260,总结提高二值预测效果的几种思路,离散问题向打分(scoring)问题的转化 投票法之一多个模型一致 投票法之二建立奇数个模型 投票法之三更高把握程度原则 投票法之四根据把握程度汇总进行投票 修正法之一模型堆叠(stacking) 修正法之二找出

38、错误预测的规律 修正法之三多个模型一致 修正法之四对模型建模,261,多寻思!,262,六、数据挖掘技术在电信行业中的应用,数据挖掘技术在电信行业中的应用 案例1:流失分析 案例2:流失症状与营销预演 案例3:交叉销售(套餐分析),263,客户生命周期理论客户分析的基础,时间,利润,案例一,电信行业的流失分析,265,电信行业流失分析的数据挖掘模型,266,客户流失分析之商业理解,移动通信业是一个竞争异常激烈的行业,对于移动通信运营商来说,如何对其客户进行有效的管理,尽可能的减少客户的流失和跳网是一个紧迫的问题。在这里我们将介绍数据挖掘在移动通信业关于客户流失研究中的应用。 数据挖掘技术将提供

39、功能强大的模型,可以回答“哪些客户最可能流失?”和“为什么这些客户会流失?”等问题。,267,客户流失分析之商业理解,什么是流失,流失如何定义 连续欠费不交?号码长期不用?二分标记变量? 流失和哪些因素相关 顾客年龄?性别?收入?行业?话费水平?话务质量? 确定数据挖掘目标 (1)对客户进行聚类分析,寻找那些流失量比较大的客户群 (2)建立规则,描述那些易于流失的客户群的特征 (3)建立打分模型,对客户流失可能性(概率)进行评价,268,客户流失分析之数据理解,顾客信息资料 (共31769条记录,10个变量),269,客户流失分析之数据理解,CDR数据资料 (190,614条记录,10个变量)

40、,270,客户流失分析之数据理解,资费数据资料 (共5条记录,9个变量),271,客户流失分析之数据准备,把CDR月度数据汇总成6个月的总体数据 根据CDR数据生成各种不同的平均数据和组合 数据 归并客户信息数据、CDR数据与话费数据 对客户现在付费类型的合理性进行简单分析,272,客户流失分析之建立模型和模型评估,对客户进行聚类分析,并比较不同客户群流失可能性,建立规则,描述那些易于流失的客户群的特征 建立打分模型,对客户流失可能性(概率)进行评价,273,客户流失分析之模型发布,对每个特定客户的流失可能性进行打分评估 写回数据库,274,客户流失分析之建模图,图例:,数据,数据流,案例二,

41、流失症状与营销预演,276,说明,本案例意在说明如何应用Clementine实现规则导出和营销预演 本案例是一个简化了的电信流失问题,我们不追求变量选择的完整性 本案例目的是说明过程,不追求模型的准确性,对模型不进行任何调整,277,流失分析使用变量,目标变量:二分变量(是否流失) 输入变量: 长途时长 国际时长 本地时长 通话时长合计 投诉次数 支付方式 本地话费支付方式 长途话费支付方式 年龄 性别 收入估计 婚姻状态 孩子数量 是否有汽车,278,流失分析模型,在流失分析规则导出中我们应用C5.0模型建立模型 在流失分析营销预演中我们应用神经网络建立模型,流失分析规则导出,280,数据流

42、总体,281,超级节点1规则总结,282,超级节点2规则对应(Clementine自动生成),283,超级节点3指定客户,可以在该节点中根据需要指定对哪些客户是否流失进行分析,284,主要结果1,生成了预测客户是否流失的决策树图如下(片断):,285,主要结果2,生成了客户流失和不流失的若干规则如下:,286,主要结果3针对指定客户的流失规则(1),例如针对年龄小于30岁的客户我们可以得到如下流失情况和对应流失规则:,287,主要结果4针对指定客户的流失规则(2),我们也可以针对某一个客户给出详细的预测(其中客户编号由使用者指定):,流失分析营销预演,289,数据流总体,290,超级节点营销预

43、演,291,主要结果1:计算成本收益情况,根据用户指定的每个客户的平均成本、营销活动折扣率和市场活动预测回应率自动得出营销活动的预计净收益和市场活动的最优覆盖面及最优流失评分临界值。,292,主要结果2:营销活动成本收益图(1),293,主要结果2:营销活动成本收益图(2),案例三,电信行业的交叉销售分析(套餐分析),295,客户交叉销售模型,目的 发现客户选择数据业务的关联性 根据客户已经选择数据业务,向客户进行交叉销售 研究客户价值(或客户分群)与产品组合之间的关系,296,分析各个产品之间的关联性进行交叉销售,提高阈值,结论: 产品112根据客户购买使用情况可以分成4个组合,每个组合易于

44、被客户同时采用; 4个组合分别是: 组合1:product01,product02,product03,product04 组合2:product05,product06,product07 组合3:product08,product09,product10 组合4:product11,product12 其中组合4易被用户选择。,297,关联规则结果,298,关联规则结果应用(1),当业务人员输入了某几项业务后,可以列出哪些客户选择了这些业务,并提出应该向这些客户推荐哪些业务,把握程度如何?,注:当工作人员输入某特定业务(这里是梦网生活笑话和梦网图片)后,可以向工作人员提示哪些用户选择了这些

45、业务,并提出应该向这些客户推荐哪些业务及把握程度,299,关联规则结果应用(2),业务人员输入某一项业务后,可以列出应该向哪些客户推荐这项业务,这些客户目前选择了哪些业务,向他们推荐这些业务的把握程度如何。,注:当工作人员输入某一特定业务(这里是USSD图片)后,可以向工作人员提示应该向哪些客户推荐这些业务,这些客户目前选择了什么业务,以及这种推荐的把握程度,300,关联规则结果应用(3),业务人员按照某种规则选出一部分客户后,可以列出这些客户选择了何种业务,并提出应该向这些客户推荐哪些数据业务以及这种推荐的把握程度。,注:当工作人员输入某一特定查询条件时(这里查询条件是号段为13800000

46、00113800000005的客户)后,可以向工作人员提示这些用户目前选择了哪些这些业务,并提出应该向这些客户推荐什么业务及把握程度,301,电信交叉效果实际应用效果,302,客户价值与交叉销售关系,特高价值客户 选择组合1,3人数多,组合2容易被中等 价值客户选择,组合4容易被较低 价值客户选择,303,电信行业的交叉销售数据挖掘分析,数据流1数据准备 (P4_basket) 数据变换,变换为市场篮数据 数据流2数据准备(P5_custbasket)计算客户价值 数据流3探索选择套餐之间的关系,确定套餐组合(E3_products) 数据流4向用户推荐套餐(D2_recommend) 数据流5细分客户群,并分析各个细分群体选择套餐的倾向性(M3_prodassoc) 数据流6不同价值客户群体选择套餐情况的探索性分析(E4_prodvalue) 数据流7研究不同价值群体的选择套餐组合的情况并预测(M4_prodprofile),304,电信行业交叉销售建模图,305,问题&讨论,

展开阅读全文
相关资源
猜你喜欢
相关搜索

当前位置:首页 > 社会民生


经营许可证编号:宁ICP备18001539号-1