数据挖掘实验报告-对电信客户的分析.docx

资源描述

《数据挖掘实验报告-对电信客户的分析.docx》由会员分享，可在线阅读，更多相关《数据挖掘实验报告-对电信客户的分析.docx（12页珍藏版）》请在三一文库上搜索。

1、数据挖掘实验报告姓名：段雯娟学号：1106122310专业：会计学一、实验目的1、学习和了解数据挖掘的基础知识，学会使用SPSS Clementine11.1 软件进行数据挖掘分析。2、使用软件利用多项Logistic回归对电信业客户数据进行分析，找出电信服务使用模式和客户个人特征之间的关系，为单个预期客户定制服务使用模式。3、掌握数据挖掘过程的一般流程。二、实验环境系统环境：Windows 7软件环境：SPSS Clementine11.1软件简介：作为一个数据挖掘平台， Clementine结合商业技术可以快速建立预测性模型，进而应用到商业活动中，帮助人们改进决策过程。强大的数据挖掘功

2、能和显著的投资回报率使得Clementine在业界久负盛誉。同那些仅仅着重于模型的外在表现而忽略了数据挖掘在整个业务流程中的应用价值的其它数据挖掘工具相比， Clementine其功能强大的数据挖掘算法，使数据挖掘贯穿业务流程的始终，在缩短投资回报周期的同时极大提高了投资回报率。三、实验数据本实验所采用的数据是电信客户资料记录，名为telco.sav的数据。该数据包含11个字段，1000条记录。这些字段是：region（地区）、age（年龄）、marital（婚姻状况）、address（地址）、income（收入）、ed（教育程度）、employ（行业）、retire（退休）、gender（性

3、别）、reside（居住地）和custcat（客户类别），其中客户类别中1代表基本服务，2代表电子服务，3代表附加服务，4代表全套服务。四、实验步骤与分析过程1、从数据源中选择“SPSS文件”拖入工作框，如图1，然后编辑附加数据。如图2。图1图22、添加“类型”节点（如图3），并对节点进行编辑，如图4，将值为0和1的变量设为标志字段，但是性别设为集合字段，将客户类别字段的方向设置为输出，其他字段的方向都设为输入。图3图43、添加过滤节点（如图5），并对其进行编辑，选取所需要的字段：region、age、marital、address、income、ed、employ、retire、gender

4、、reside、custcat，将其他字段过滤掉（如图6）。图5图64、添加Logistic 节点进行建模（如图7），并对节点进行编辑，如图8、9、10，图7图8图9图105、执行当前流（如图11），该模型custcat就会添加到右边的模型选项板中（如图12）。图11图126、浏览生成的模型，结果如图13、14、15、16、17、18所示。图13说明1基本服务为参照类，结果包括3个回归方程：logP2P1=-0.04901+0.1477reside+0.02635employ-0.6764ed=4-0.9709ed=3-1.508ed=2-2.17ed=1+0.03685address （1）

5、logP3P1=-1.551+0.08447reside+0.05133employ+0.4647ed=4+0.6729ed=3+0.7185ed=2+0.5556ed=1+0.02157address （2）logP4P1=0.1806+0.2576reside+0.0424employ-0.5843ed=4-1.453ed=3-1.959ed=2-3.762ed=1+0.02184address （3）其中P1、P2、P3、P4分别表示选择基本服务、电子服务、附加服务、全套服务的概率，logP2P1表示选择电子服务概率与选择基本服务概率之比的自然对数。从方程中可以看出，选择电子服务概率与选

6、择基本服务概率之比的自然对数、选择附加服务概率与选择基本服务概率之比的自然对数、选择全套服务概率与选择基本服务概率之比的自然对数都与address（地址）、employ（行业）、reside（居住地）成正比，选择电子服务概率与选择基本服务概率之比的自然对数、选择全套服务概率与选择基本服务概率之比的自然对数与教育各个等级都成反向关系，且教育水平越高，对它们的影响越小，选择附加服务概率与选择基本服务概率之比的自然对数则与教育各个等级成正向关系。图13图14图15图14和15是各个字段的统计变量，总共有1000组数据。图16 图16中的显著水平都小于0.05，说明四个变量与因变量的线性关系是显著的，

7、因此模型可用。图17图17中似然比检验的显著水平小于0.05，说明模型的拟合优度较好。图18 图18是模型的错判矩阵，说明对实际使用基本服务的客户的预测的正确率是45.9%，对实际使用电子服务的客户的预测的正确率是4.6%，对实际使用附加服务的客户的预测的正确率是47.3%，对实际使用全套服务的客户的预测的正确率是56.8%，模型总的预测正确率为39.9%。说明模型在识别全套服务客户时表现优异，而在识别电子服务客户时表现很差。如果想提高预测电子服务中客户的准确性，可能需要再找到一个预测变量来识别此类客户。如果电信对识别电子服务中的客户并不关心，那么该模型的准确性足以满足需求。这种情况可能是，电子服务仅是一种为吸引顾客而出售且获利微薄的产品。如果投资的最高回报来自于落在附加服务或全套服务中的客户，则该模型能够提供所需的信息。12 / 12文档可自由编辑打印

展开阅读全文