电信帐单数据挖掘.docx

上传人:scccc 文档编号:13871094 上传时间:2022-01-25 格式:DOCX 页数:9 大小:18.67KB
返回 下载 相关 举报
电信帐单数据挖掘.docx_第1页
第1页 / 共9页
电信帐单数据挖掘.docx_第2页
第2页 / 共9页
电信帐单数据挖掘.docx_第3页
第3页 / 共9页
电信帐单数据挖掘.docx_第4页
第4页 / 共9页
电信帐单数据挖掘.docx_第5页
第5页 / 共9页
点击查看更多>>
资源描述

《电信帐单数据挖掘.docx》由会员分享,可在线阅读,更多相关《电信帐单数据挖掘.docx(9页珍藏版)》请在三一文库上搜索。

1、错误 ! 未定义书签。错误! 未定义书签。错误! 未定义书签。错误! 未定义书签。错误! 未定义书签。错误 ! 未定义书签。错误 ! 未定义书签。电信帐单数据挖掘一概述 项目背景数据挖掘和相关概念数据挖掘的概念和过程数据挖掘在电信管理中的应用 项目计划 项目目标 时间安排错误 ! 未定义书签。人员组织 错误! 未定义书签。二项目实施 错误 ! 未定义书签。选择数据挖掘工具 错误!未定义书签。建立数据库表建立和数据清理 错误!未定义书签。建立数据多维存储 错误!未定义书签。维度创建 错误!未定义书签。存储创建 错误!未定义书签。数据分析 错误!未定义书签。数据挖掘 错误 ! 未定义书签。决策树计

2、算(月用户数量分析)错误 ! 未定义书签。用户分类(聚类分析)错误 ! 未定义书签。未定义书签。 ! 错误.总结二概述项目背景随着国内电信市场竞争的日趋激烈,电信运营商的经营模式逐渐从“技术驱动”向“市场驱动” 、“客户驱动” 转化。 这就要求运营商要采取以客户为中心的策略,根据客户的实际需求提供多样化、层次化、个性化的服务解决方案。因此,客户关系管理(CRM成了电信运营商增加收入和利润,提高客户满意度、忠诚度的有效工具。在客户关系管理的流程中,为了准确、及时地进行经营决策,必须充分获取并利用相关的数据信息对决策过程进行辅助支持。 近几年迅速发展起来的数据挖掘技术就是实现这一目标的重要手段。.

3、数据挖掘和相关概念1.2.1 数据挖掘的概念和过程1数据挖掘的概念数据挖掘是根据企业的既定业务目标和存在的问题, 对大量的业务数据进行探索,揭示其中隐藏的规律,并将其模型化,指导并应用于企业的实际经营。数据挖掘是建立在数据仓库基础上的高层应用, 但数据挖掘跟数据仓库的其它一些应用如OLA吩析、预定义报表和即席查询等有很大的区别。后三者通常是用户根据已知的情况对所关心的业务指标进行分析; 而前者则是在业务问题和目标明确但考察的问题不清楚时, 对数据进行探索, 揭示隐藏其中的规律性, 进而将其模型化。2数据挖掘过程数据挖掘是一个循环往复的过程, 通常涉及数据准备、 建立模型、 评估和解释模型、运用

4、和巩固模型等步骤。( 1)数据准备:数据准备工作包括数据的选择(选择相关和合适的数据) 、 、修正(包括缺失数据的插值等)和变探索(了解数据分布情况和异常数据等) 换(离散值数据与连续值数据的相互转换, 数据的分组分类, 数据项的计算组合等) 。( 2)建立模型:选取数据挖掘工具提供的算法并应用于准备好的数据,选取相应参数,生成模型。( 3)评估和解释模型:对模型进行比较和评估,生成一个相对最优模型,并对此模型用业务语言加以解释。( 4)运用和巩固模型:对模型在实际应用中的表现进行监控,如果模型表现不好,则对模型作进一步的考察和修正,以反映业务运作规律的变化。1.2.2 数据挖掘在电信管理中的

5、应用电信运营商拥有许多熟的数据库应用系统, 如网管系统、 财务系统、 计费账务系统、 112 障碍管理系统、缴费销账系统等,并产生了大量的业务处理数据。如果针对客户关系管理相关决策分析的需求, 对这些数据进行重组整合, 就能充分利用这些宝贵的数据,体现信息的真正价值。数据挖掘技术在电信行业主要应用领域如下:( 1)客户消费模式分析客户消费模式分析(如固话话费行为分析)是对客户历年来长话、市话、信息台的大量详单、 数据以及客户档案资料等相关数据进行关联分析, 结合客户的分类,可以从消费能力、 消费习惯、 消费周期等诸方面对客户的话费行为进行分析和预测,从而为固话运营商的相关经营决策提供依据。(

6、2)客户市场推广分析客户市场推广分析 (如优惠策略预测仿真) 是利用数据挖掘技术实现优惠策略的仿真, 根据数据挖掘模型进行模拟计费和模拟出账, 其仿真结果可以揭示优惠策略中存在的问题,并进行相应的调整优化,以达到优惠促销活动的收益最大化。( 3)客户欠费分析和动态防欺诈通过数据挖掘, 总结各种骗费、 欠费行为的内在规律, 并建立一套欺诈和欠系统可以提示运营商当客户的话费行为与该库中规则吻合时,费行为的规则库。 相关部门采取措施,从而降低运营商的损失风险。( 4)客户流失分析根据已有的客户流失数据,建立客户属性、服务属性、客户消费情况等数据与客 户流失概率相关联的数学模型,找出这些数据之间的关系

7、,并给出明确的数学公 式。然后根据此模型来监控客户流失的可能性, 如果客户流失的可能性过高,则 通过促销等手段来提高客户忠诚度,防止客户流失的发生。这就彻底改变了以往 电信运营商在成功获得客户以后无法监控客户流失、无法有效实现客户关怀的状 况。.项目计划1.3.1 .项目目标电信公司每个月的帐单有数百万条, 牵涉到千家万户,这些数据中有很多宝贵的 东西,可以从这些资料中获得宝贵的资料。 电信的产品非常多,主要有以下一些 种类:普通电话(市内电话)、长途电话、小灵通和宽带业务,这些业务是电信 业务的主体;电信公司的帐单目前按自然月开帐, 每个月给用户邮寄帐单;电信 公司具有划分为多个区域包括(区

8、局、分局)。项目的目标之一就是对这些数据 进行分类统计,按照产品/时间/区域等对数据进行分类统计(建立三个维度), 如本地、长途、宽带、小灵通用户数;本地(长途和小灵通)通话次数和平均时 长,语音ARP平均用户收入)值,宽带ARPfi,小灵通ARPfi等。决策树分析, 统计月收入的变化情况,对用户进行聚类分析,将用户分为不同的等级。项目目标之二是进一步加深对数据挖掘的认识,通过上课,我们已经初步了 解了数据挖掘的基本原理和基本算法, 通过电信数据挖掘这个实践,可初步掌握 数据挖掘的一般过程和工具,对数据挖掘有更深刻的认识,这对今后的工作是有 非常大的好处的。通过项目也可以促进项目组人员之间的了

9、解, 取长补短,共同 提高技能。1.3.2 .时间安排初步时间安排为三周时间.时安备.第一项目需系统分人员分选择数据挖掘工 建立数据库表结建立挖掘模型.数据清理,转换成数据库表第二周数据存储模型建立多维度OLAPOLA嗷据分析数据挖掘第三周知识发现编写课题报告和演示报告,演示成果1.3.3 .人员组织二.项目实施.选择数据挖掘工具目前市场上的数据挖掘工具比较多,一般而言,目前市场上这些数据挖掘工具又可分成两类一一企业型工具以及小型工具。企业型数据挖掘工具:应用在 需要高处理能力、高网络容量和大数据量服务器结构。它的场合下。这些工具通常支持多种平台,并基于客户机/并能),通常可以直接连接一些复杂

10、的数据管理系统(不像普通文本文件处理大量的数 据。这类数据挖掘工具的另一个特点是它通常提供了多种题。企业数据挖掘工具的实例 数据挖掘算法,并有能力解决多种应用问ClementineSPSS SASEnterprise Miner,的有IBMIntelligent Miner和等。小型数据挖掘工具:它 与企业型的工具着眼点不同。小型数据挖掘工具或者是针对低端、低消费的用户,或者是为解决特定的应用问题提供特司的, DarwinInsightful公定的解决方案。比如 Oracle 公司的 Insightful Miner ,等等。 本次项目选择的工具为 Microsoft Analysis Ser

11、vice优点-掌握快,易上手,适合初学者和本次项目ODB骏口-支持多种数据库,支持 包自带的Service PackSQL Server2000 - 成本低, 缺点-只能做很简单的挖掘工作,过于傻瓜-只支持基于维度的数据挖掘 只支持决策树和聚类分析-.,建立数据库表建立和数据清理数据库存储数根据电信帐单数据挖掘项目的要求,选择比较简单的 ACCESS的操作比较简单,由于数据库的通用性,今后也可以扩展到大型数据,ACCESSSYBASEDB2等,建立如下的表结才如下:据库,如 ORACLE 1 .电信帐单事 实表该表记录了电信的帐单 2.产品表.区域表34时间表由于电信帐务数据库非常复杂,结构繁

12、多,不利于数据挖掘,因此必须首先利于挖掘的数据库应该是星型或雪花形的数据结构, 进行数据清理, 规范化数据。我们的数据库表的关联关系如图所示:数据清理后得到以下的数据: 总共建立计费数据事实表,数据总量为 132762条;2003-2004 年的时间表; 建立从 180 个区局和个分局; 13- 建立区局分局的对应关系表,总共建立产品表(普通电话,长途电话,小灵通和宽带) 。建立数据多维存储2.3.1 维度创建数据多维存储是OLAP在线事物处理)的存储形式,不同于数据库的关系结构, 采用了立方体的存储结构,更利于数据的快速汇总和查找。立方体的结构以数据维度为基础,为此我们建立了三个维度,时间、

13、区域和产品,有些维度分等级,如时间和区域就分两级维度,因为时间可以分到年/ 月,区域这里分为区局和分局两级。如图所示区域维的结构:同样可创建其它维度, Analysis Service 可根据多种表结构创建数据维度,如同一张表内创建,表内的自关联创建,父子表的创建等。2.3.2 . OLA昭储创建根据 Analysis Service 的向导可以创建数据的多维存储,生成较容易分析的多维存储结构, 在本例中, 帐单事实表的大小约为30MB, 经过 Analysis Service的处理生成OLAP?储后数据可以大大压缩,并以文件形式保存,减少了分析的时间,特别适合统计工作。2.3.3 . OLA

14、啖据分析利用OLA吩析工具和生成的OLAP?储文件,可以对数据进行初步的分析工 作,如图所示:由上图可见各年度,各区局,各种相关产品的统计情况,可进行上钻和下钻的操作,如先看每年的情况,下钻后可以看到每月的情况,粒度更细微,为分析提供的数据更详细, 同理也可只看某一区局的数据, 通过下钻可以看到更细的分局的数据。 还可以通过不同维度的排列组合, 获得所需要分析的数据, 满足不同用户对数据分析的需求。此外还可以提供钻取功能,直接看到数据库的原始记录, 更方便分析。如图钻取数据库的原始数据:数据挖掘基于OLAP但是OLA也是数据挖掘的基础,而本身并不是数据挖掘。数据挖掘有一些方法:如关联分析、分类

15、和预测、聚类分析等,每一种类方法又有许多不同的算法:如分类预测就包括判定树、贝叶斯分类、后向传播分类、 回归算法等。目前Microsoft Analysis Service仅支持聚类分析和决策树算法,决策数算法 可以根据以下例子说明:市场部想分析当前销售事务并找出客户统计信息 (性别、婚姻状况、年收入等等) 和所申请会员卡(金卡/银卡/普通卡)之间的模式。然后根据这些信息和申请会 员卡的客户的特征重新定义会员卡。可能得到如下的决策树:120-3 岁男性万5-10银卡 30-40岁50金卡万12万4-12银卡岁2040岁年收入大于30-40根据以上决策树,我们可以判断客户选卡的模式,男性10万的

16、比较偏好选择金卡。根据决策树所构造的结果是实现我们并不知道的一 往往用户会同时就象关联分析中我们并不知道尿布和啤酒是关联商品,个结果, 购买一样,决策树的分枝是有数据和决策树算法决定的,如果使用现成工具进行 决策树的挖掘,我们无法预料能产生什么样的决策结果。2.4.1 .决策树计算(月用户数量分析)根据以上算法计算一个决策树,判断各月的收入情况,可以得到以下的分析结果:可以看到某些月份用户数量比较多,而有些月份用户数量比较少。这样市场 部就可以根据用户数量在淡季进行有针对性的促销活动。.2.4.2 .用户分类(聚类分析)我们要求对用户进行分类,但我们并不知道要怎么样分类,我们将数据交 Anay

17、lise Service 处理,Anaylise Service为我们得到一个分类,可以作为用户分类的依据。分类结果如下表所表示:月话费 用户数 百分比 73%97000100% 全部 132762可见用户大多数还是以低端用户为主(数据经过处理) ,高端用户也有% ,主要是企业用户。三总结通过对该项目的初步挖掘,产生了一些挖掘结果,但由于考虑到电信安全性,因此数据经过了一些处理, 可能与实际情况并不十分符合。 而且由于工具的缺乏,也可能导致挖掘结果的不够完善。真正的电信数据挖掘也还存在以下一些问题:( 1) 数据质量和完备性:电信公司不象移动公司,用户和手机是绑定的,有比较完善原始数据, 电信

18、公司的一个电话是好多人同时使用的, 因此无法对用户的通信行为模式进行详细的分析。 目前很多分析只是数据报表, 还没有上升到数据挖掘的高度,不能从大量数据中得到真正的金子。( 2) 国内电信运营商现有的、 面向事务的数据在质量、 完整性和一致性上存在许多问题,必须投入大量的精力去进行数据的抽取、净化和处理。此外,业务问题的相关数据有时难以全面收集。例如客户信用是客户价值评估中的关键因素,但由于国内未建立完善的信用体系, 无法根据现有客户数据建立优质的信用评价模型,从而导致客户价值模型有效性的降低。( 3) 相应的人员素质: 在数据挖掘应用过程的多个环节中, 人的主观辨识和控制是应用成败的关键,

19、这就对系统使用人员提出了很高的要求。 如果没有具备相应素质的使用和维护人员,必将导致分析系统与现实脱钩,无法达到预期效果。( 4) 应用周期: 数据挖掘存在一个较长的应用周期。 技术本身不能给使用者解决任何问题, 只能从数据中把一些潜在的情况呈现到使用者面前, 由使用者采取相应措施。数据挖掘应用的有效方法是:从一个较小的。通过挖掘过程, 可学到不少有用的知识, 特别是对一些软件方向的同学, 这些知识对今后的工作是很有帮助的,也是最宝贵的经验,项目进行过程中项目组的成员团结协作,共同为一个目标而努力,形成了良好的团队精神。 同时也希望国内的数据挖掘能真正开展起来, 不仅仅停留在简单的数据分析阶段,而应该更深入的真正挖掘一些有用的知识,这才是宝贵的财富。2005/05

展开阅读全文
相关资源
猜你喜欢
相关搜索

当前位置:首页 > 社会民生


经营许可证编号:宁ICP备18001539号-1