[文学]周志明论文最终版1.doc

资源描述

《[文学]周志明论文最终版1.doc》由会员分享，可在线阅读，更多相关《[文学]周志明论文最终版1.doc（31页珍藏版）》请在三一文库上搜索。

1、毕业设计（论文）题目决策树模型在客户分类中的应用系（院）经济与管理系专业信息管理与信息系统班级2008级1班学生姓名周志明学号2008060142指导教师王连英职称讲师二一三年六月、独创声明本人郑重声明：所呈交的毕业设计(论文)，是本人在指导老师的指导下，独立进行研究工作所取得的成果，成果不存在知识产权争议。尽我所知，除文中已经注明引用的内容外，本设计（论文）不含任何其他个人或集体已经发表或撰写过的作品成果。对本文的研究做出重要贡献的个人和集体均已在文中以明确方式标明。本声明的法律后果由本人承担。作者签名: 年月日毕业设计（论文）使用授权声明本人完全了解滨州学院关于收

2、集、保存、使用毕业设计（论文）的规定。本人愿意按照学校要求提交学位论文的印刷本和电子版，同意学校保存学位论文的印刷本和电子版，或采用影印、数字化或其它复制手段保存设计（论文）；同意学校在不以营利为目的的前提下，建立目录检索与阅览服务系统，公布设计（论文）的部分或全部内容，允许他人依法合理使用。（保密论文在解密后遵守此规定）作者签名: 年月日滨州学院本科毕业设计（论文）决策树模型在客户分类中的应用摘要数据挖掘技术，尤其是决策树模型分类方法，在对企业客户资源进行客户分类时具有重要作用和意义。本文介绍了数据挖掘及决策树的具体表述定义，详细阐述了决策树的核心算法ID3算法，同时对于ID3算法在实

3、际应用中所带来的误差和取值偏向问题进行了优化，并提出了优化算法。该算法在选取分支属性时，选取了信息增益度最大的属性，取代了ID3算法所依据的信息增益的标准。另外，在对数值连续型的数据进行离散化时，本文用分类准确率代替了原来的信息增益，简化了计算过程。并且利用ID3算法及改进的算法应用到山东领先生物工程公司的客户资源，建立了决策树分类模型，对客户进行了分类。为该领域的数据挖掘提供了合理的挖掘模式，并得出有效的分析结论。关键词：数据挖掘；决策树；客户分类；信息增益度25The Application of the Decision Tree Model in Customer Classifica

4、tionAbstractThe data mining technology, especially the classification method of decision tree model, plays an important and significant role in customer classification of enterprises customer resources. This paper introduces the data mining and decision trees specific definition of expression and ex

5、pounds the decision tree algorithm of the ID3 algorithm. This paper also puts forward the optimization algorithm for the problem of the value approach of ID3 algorithm and the errors caused by ID3 algorithm in the actual application to improve ID3 algorithm. The optimization algorithm is proposed to

6、 select the information gains biggest attribute as a branch of attribute to replace the ID3 algorithm of the information gain standards. In addition, this article replaces the original information gain with the classification accuracy when splitting the binary data making the calculation greatly sim

7、plified. And we apply ID3 algorithm and optimization algorithm to a customer resources management of Ling Xian Biotechnology Company in Shan Dong province which is based on decision tree classification model and provide the reasonable mining mode and the effective analysis conclusion in the field of

8、 data mining.Key words: Data Mining; Decision Tree; Customer Classification; Information Gain Degree目录引言1第一章数据挖掘及决策树方法21.1数据挖掘介绍21.2 决策树方法介绍（特点）2第二章 ID3核心算法42.1 ID3核心算法介绍42.2 ID3核心算法基本思想4第三章客户分类问题分析63.1系统需求分析63.2 客户分类问题定义63.3 客户分类过程整体框架73.4 数据处理8第四章决策树模型的建立114.1 算法流程114.2 构建决策树124.2.1 决策树生成124.2

9、.2 结果分析194.3.1构建改进决策树过程204.3.2 改进后结果分析23总结24参考文献25谢辞26滨州学院本科毕业设计（论文）引言随着各种现代化技术、手段、管理方式的推进和发展，中国的经济形态由稀缺性经济逐渐过渡到过剩型经济，这种过剩主要表现在两个方面：一方面，各公司、企业生产的产品之间的差异越来越小、越来越难以区分；另一方面，从卖方市场向买方市场的转变导致客户的消费所期望得到的期望值也越来越高。所以，企业想通过产品差异来细分市场从而提高企业的竞争优势的方式变得越来越困难。而且因为客户与企业之间的沟通的方式发生的变化，我们不能保证现在自己的客户将来依旧是自己的客户，故通过维持所有客

10、户的忠诚度也变得不太现实。如何在海量的客户中分出关键客户、普通客户、垃圾客户并发现那些忠诚度可能发生的客户变得异常重要。因此，研究客户的所需所求和并对客户进行分类。数据挖掘技术，特别是决策树模型分类方法，对客户的分类具有重要作用和意义。生物技术及医药行业的迅速发展，国内外经营环境的复杂多变，使得这一行业带来的用户增多。随之而来是客户数据的迅猛增长，如何从如此众多的数据中挖掘出极具价值潜在的、重要的信息，如何提高信息的高效利用率成为企业亟待解决的问题。在生物技术及医药行业，客户流失一直在影响着业绩，通过与客户建立长久稳固的关系，最大限度的降低客户流失率，从而为企业获得最多的利润。要达到这一目的，

11、就必须对客户在与企业交互的过程中的各种客户数据进行收集、分析、分类，挖掘出隐含在数据里的有用信息，从而提高效益。文中研究并实现ID3算法，通过对生物技术及医药行业的客户数据进行收集、分析，利用决策树ID3算法构造决策树客户分类模型，为该领域的数据挖掘提供了合理的挖掘模式，并得出有效的分析结论，为保留和巩固企业的客户资源起到重要作用。第一章数据挖掘及决策树方法1.1数据挖掘介绍从20世纪90年代以来，随着网络信息技术和数据存储技术的迅速发展，出现了一种全新的技术，数据挖掘。数据挖掘，是指从大量的、不完全的、有噪声的、模糊的、随机的数据中，提取非平凡的、隐含的、未知的以及具有潜在价值的信息和知识

12、的过程。它是一种数据分析的方法，它对给定的数据样本集进行分析，提取当前数据集中的规则或特征知识以得到预测性的信息。它是从数据中发现隐含着的有用的信息或者是知识的技术，它是随着社会的信息化的推进，发展和提高信息的潜在价值的认识而存在，是为满足和解决当前的“数据繁多、信息不足”等问题的技术。该技术已经广泛的应用于营销、通信、医务以及保险等许多领域，在分析客户行为以及决策支持系统等方面取得很大的成就。随着客户关系理论迅速发展和广泛应用，数据挖掘技术所带来的经济效益以及广阔的应用前景受到企业的越来越多的关注。人工智能中含有许多进行数据挖掘的算法，因此人工智能是数据挖掘技术进行数据挖掘的技术基础，在一定

13、意义上，数据挖掘是人工智能的某一分支的具体应用，是决策树模型、神经网络等技术在某一领域中具体的应用，其优点是将问题的难度和规模最大限度的降低。其主要用途有：数据总结、概念描述、分类、聚类、相关性分析、偏差分析、预测。而分类是数据挖掘中应用最广泛的用途之一，因此研究分类方法成为现在研究的重点，决策树分类因为其诸多的优点，成为了研究分类问题的重要途径和方式。1.2决策树方法介绍（特点）分类作为数据挖掘中一项应用最广泛的应用，其目的是提出一个分类模型，该分类模型能把数据库中数据项映射到给定类别中的某一个。通过该模型，能够对给定的数据进行分类，从而提取重要数据，能够为各个行业的发展带来很大的帮助。现今

14、已有的分类技术很多，有决策树法、贝叶斯法、神经网络方法、遗传算法。分类和回归最基本应用是预测。预测的目的是从历史的数据记录中推导推广的数据，从而进行对未来的预测。分类和回归方法最大的不同是：回归输出的数据是连续的，而分类输出的数据是离散的。分类技术作为数据挖掘中一个十分重要的课题，因此得到非常的重视。通过文章对各种分类方法比较、分析，决策树模型分类方法显示与以上三种算法诸多优点如下：第一，决策树法有非常高的准确率。第二，大量的训练集通过决策树显示的效率高，而神经网络方法模型的建立花费需要大量的时间，需进行非常多的重复操作；第三，决策树法生成算法不需要训练附加该领域知识的分布情况，只需要训练集中

15、包含的信息；第四，与贝叶斯法和神经网络方法对比而言，决策树法表现为比较直观的一语转化为数据库查询的描述。决策树技术以简便受到企业欢迎，其分类算法中决策树的核心算法ID3算法，通过该算法建立决策树模型。作为一种分类技术，决策树的构建过程以及利用树进行分类，都非常简单、易于解释，因此广受企业的欢迎和重视，但其主要缺点是稳定性不足。第二章 ID3核心算法2.1ID3核心算法介绍决策树ID3算法因为其基础理论明晰，算法简单，能解决大规模的学习问题并且学习能力较强，是一个具有实际价值的算法，它也是数据挖掘领域中的一个很好的范例，因此值得我们学习。然而它也有其不足之处，其中主要表现为以下四个方面：第一，I

16、D3算法倾向于选择取值多的属性，但是取值较多的属性并不代表最重要的属性，而在很多情况下这一条件成立。例如：在银行客户分析中，姓名属性取值多，却不能从中得到任何信息；第二，ID3算法不能处理两种属性类型的数据，一是具有缺失数据的，二是具有连续值的；第三，在建造决策树过程中，由于每个结点有且仅有一个属性，其弊端是：生成的决策树结点间的相关性弱；第四，ID3算法计算过程比较复杂，在解决问题过程中机器内存占用率大，耗费资源多。本课题一方面，针对ID3算法所存在易倾向选择属性多的不足，提出了一种新的优化算法，并且还引入属性个数N作为取值数，在某种程度上克服了这一缺陷，得到了较为理想的决策树。另一方面，在

17、对数值连续型数据进行离散化进程中，用分类准确率法替代了原来的信息增益，大大简化了计算。此模型在解决企业中客户分类具有有效作用，为该领域的数据挖掘提供了合理的挖掘模式，并得出有效的分析结论，为保留和巩固企业的客户资源起到重要作用。2.2ID3核心算法基本思想ID3算法是由R.Quinlan于1986年提出的，它是以信息熵的决策树算法作为基本依据，基于属性的取值范围来进行所选实例的类别判断。其基本原理是：设H=FFF是n维有穷向量空间，其中F是有穷离散符号集，H中的元素e=叫做例子，其中vF，j=1,2，n；设PE和NE是E的两个例子集，分别叫做正例集和反例集。若设向量空间H中的正例集P和反例集N

18、的大小分别为p和n，ID3算法成立必须满足下列两个假设：一方面，满足向量空间H中正反例的概率与H上的一棵正确决策树对任意例子的分类概率相等；另一方面，一棵决策树对某一个例子作出正确类别的判断所需的信息量为：I(p，n)= -log-log如果定义属性A为决策树的根，A具有m个值m，m，m，它将H分为m个子集H，H，H)，假设H中含有n个反例和p个正例，子集H的信息熵为I(p，n)。以A属性为根分类后得出的信息熵为H(A)=I(p，n)。所以，可以得出，基于A为根的信息增益是gain（A）=I（p，n）-H（A）。ID3选择使gain(A)最大的属性A作为根结点，以A的不同取值对应的H的m个子集

19、H递归上述过程，生成A的子结点B，B，B。ID3算法方法是通过全面检验所含有的特征，选择决策树的结点依据是：选择互信息最大的特征A得到决策树结点，由于这样得到的决策树结点少，并且在识别某一例子的过程中准确率高，然后根据该特征的不同的值设立分枝，然后对各分枝的实例子集重复递归该方法建立决策树的剩余的结点和分枝，最终将某一子集中的例子全部归为同一类。第三章客户分类问题分析3.1系统需求分析山东领先生物工程公司是以从事生物技术的开发和应用为主，成立比较早的一家企业。公司目前的主要产品是一种对提高免疫力、延缓衰老有显著功效的口服类产品，并且它是属于现有保健品市场上的高档产品，因此产品定价相对较高，每

20、天服用每月约需600元。在企业创始阶段，资金相对薄弱，公司的决策者对现有的保健品市场进行研究，决定采取直销的营销的模式。该模式主要是通过业务人员对潜在客户的提供个性化服务，将此产品直接销售给客户。在这种营销模式下，业务人员为了提高销售业绩，唯一的办法就是快速、有效地寻找到理想客户，这也成为本文研究工作的依据点。在2004年年底，该公司已经有70万元的销售，但也出现了销售成本偏高的问题，如会务、宣传费用等固定费用相对提高，员工工资费用偏高等。导致销售成本占销售额的55左右，公司的利润为15左右，远远低于业内平均利润。综合考虑，公司处于亏损状态。作者通过与业务人员进行沟通并且进行大量的调研后发现，

21、业务人员的业务方向和公司的客户资源使用不合理。业务人员通过宣传、举办活动等方式收集客户资源，然后将客户名单录入公司客户资源管理系统。然后对潜在客户进行家访，开展促销并提供咨询和个性化的服务，最后将客户购买的信息以及购买后业务人员跟踪的信息输入到系统中。进行家访时，由于业务人员的流动性以及客户家访的重复性，客户资源管理系统中必然存在着大量的非理想潜在客户，如果业务人员对这些资源进行家访和促销的话，毫无疑问会造成销售成本的提高。随着系统中的客户资源信息增多，如何对客户资源进行快速有效的分类，区别出理想客户和非理想客户，成为客户资源管理以及增加公司业绩的核心内容。3.2客户分类问题定义客户分类是指根

22、据目标要求将一个庞大消费群体划分成一个个消费者群的动作类似的群体的过程。客户分类需要在特定的目标的指导下进行，故又被称为在监督之下的客户分类。通过对客户进行分类，企业决策人员可以从概括的层次上来了解数据库中的所有数据，从而对不同细分群中的客户采取不同的策略进行处理。本文是对山东领先生物工程公司的客户资源进行分类的一种具体的客户分类，按照是否购买并使用其产品将客户分为两类：非理想客户和理想客户。对于企业来说，理想客户才是我们关心并且愿意为之服务的对象。能够从大量的客户资源中成功迅速地预测出潜在的购买产品的理想客户，是一个企业成功的标志的，因为能够熟悉自己的潜在客户，有针对的性的采取措施，并把这些

23、潜在客户转变为真实的理想客户，这也为企业省掉大量的时间和费用，为企业获得更多的利润。本课题的主要任务是依据搜集的样本数据库，其中包括所有客户信息的数据，通过对客户的性别、家庭月收入年龄等因素的进行分析，从而构建客户分类模型，得出公司中需要的理想客户的特征。然后利用这个模型对业务人员收集而来的客户数据进行类比推出分析，挖掘出潜在的理想客户。3.3客户分类过程整体框架构建的客户分类模型，体现了理想客户的特征。从而进行类比推出分析，挖掘出潜在的理想客户。然后对这些潜在的理想客户有针对采取措施，从而降低成本，为企业带来更多的利润，这是企业进行客户分类的最终目的，具体过程参见图3.1。图3.1 客户分

24、类过程的总体结构3.4数据处理本文的数据含有该公司的客户基本信息数据、客户购买信息数据以及服务情况数据。所收集的数据在一定程度上含有噪声数据和不相符的数据，这些数据的会降低数据挖掘的结果精确度，故进行数据预处理是非常重要的，也是进行数据挖掘的个必不可少的步骤，数据处理主要包括抽取数据、清理数据、归纳数据、数据转换等方式。抽取数据是指从大量的繁杂的数据中依据分析的数据的不同特征进行有目的的选择、归类。清理数据是指对记录中可能出现的空字段的值进行处理。归纳数据，本文中是指根据不同属性之间的相关性、重要程度进行属性的泛化处理。转换数据是指将数据化为相同的格式，以方便操作。事实显示，若数据处理准备的工

25、作做的非常到位，则模型的建立会节省大量的时间和花费。本文所研究的该公司的客户资源信息库及客户关系数据库的结构图如下图所示。其中的客户资源信息库含有的属性如下：客户基本信息属性：编号、购买者姓名、购买者年龄、购买者家庭的每月收入、购买者性别、购买者家庭所在地等；客户购买信息属性：购买数量、购买者姓名等；服务情况信息属性：跟踪服务的员工姓名、被回访人姓名、服用后效果等。客户购买信息客户基本信息客户资源数据库服务情况信息图3.2 客户资源关系结构图构表3.1 相关数据表本文通过数据库查询语句（SQL 2005）对本公司客户资源数据库进行查询、删除等操作，得到如表3.1所示的数据项。编号姓名年龄健

26、康状况家庭月收入性别1杨设56健康1601男2唐小芬70高、糖、冠1401女3 刘义56健康1701男4邢丰 61高、胃2801男5胡中翎64糖、冠、风1501女6赵民 49高1601女7王海 67冠、风2701男8张志梦56胃病1401男9李中响58高、冠1561女10王道凯63糖、风1801女11范进波71健康1481男12贺娟53高1601女13何玉78冠、通、胃1901女14唐先于 66健康1721男15王英 59冠3001女对表3.1中数据属性归类操作，健康状况字段记录的是客户所患疾病情况，如表中所示的患冠心病、胃病等信息。这里我们将其归成统一属性，分别为00：健康；01：患一种疾

27、病；02：患两种疾病；03：患三种疾病。因为ID3算法不能处理连续型属性数值的弊端，所以必须对数据进行离散化操作，下面对表3.1中数据进行转换，本文采用二元分裂法进行数据的转换，具体做法如下： 1.定义Max和Min变量，并将需要进行离散化处理的连续型属性的最小值赋值给Min，将该连续型属性的最大值赋值给Max； 2.在区间Min，Max的N个等分断点A，它们分别是：A=Min+ ，其中i=1，2，N； 3.分别计算把Min，A和A，Max，(i=l，2，N)作为区间值时，分类正确率=*100%，并进行相互比较操作； 4.设立连续性属性的断点，依据是选取分类正确率最大值A，并把属性值设置两个区

28、间值，分别为Min，A和A，Max。本文采用了分类正确率方式与信息增益比最大方法进行数据分裂点操作时相比，前者计算显得更加简便。依据上述方法，计算得到家庭每月收入的最好的数据分裂点为2001。最终得到如表3.2所示的训练样本集。姓名健康状况家庭月收入性别杨设健康1601男唐小芬高、糖、冠1401女刘义健康1701男邢丰高、胃2801男胡中翎糖、冠、风1501女赵民高1601女王海冠、风2701男张志梦胃病1401男李中响高、冠1561女王道凯糖、风1801女范进波健康1481男贺娟高1601女何玉胃、冠、通1901女唐先于健康1721男王英冠3001女表3.2 训练样本模型第四章

29、决策树模型的建立4.1算法流程算法描述如下：由离散值属性表示训练样本samples，a-list表示候选属性的集合进行输入：最终得到一棵决策树的输出。算法：(1)创建结点M；(2)if samples都在同一个类B then；(3)则返回M作为叶结点，以类B标记；(4)if a-list为空 then(5)返回M作为叶结点，标记为samples中最普遍的类；(6)从a-list中选择最大的信息增益的属性branch_att；(7)标记结点M为branch_att；(8)for each branch_att中的已知值a；(9)由结点M长出一个条件为branch_att= a的分枝；(10)设

30、s是samples中branch_att= a的样本的集合；(11)if s为空then；(12)加上一个树叶，标记为samples中最普遍的类；(13)else加上一个由Generate_decision(s，a-list，branch_att)返回的结点。根据算法流程的表述，我们可以做如下说明：(1)树的构建是以单个结点开始，而这些结点代表训练样本(步骤1)；(2)把样本属于同一个类的，用上面的该结点标记为树叶，并且用该类标记(步骤2和3)；(3)在ID3算法中，必须进行的操作时对连续值的属性进行离散化处理；(4)通过给出的分枝属性已知的值，创建分枝，要求是：一个值对应一个分支，并根据本步

31、进行样本划分 (步骤8-10)；(5)算法根据同样的过程，形成在每个划分上的样本判定树。当某一个属性已经出现在一个结点上这一情况出现时，不再考虑该属性 (步骤13)；(6)当满足下列条件之一，划分的递归马上停止：给定的结点的所有样本都属于同一类(步骤2和3)；无剩余属性可以进一步划分样本(步骤4)。在这种情况下，使用多数表决(步骤5)；做法是：将给定的结点转变为树叶，并用例子中的多数所在的类标记它；分枝test_att=a没有样本(步骤1)。在这种情况下，以例子中的多数类创建一个树叶(步骤12)。4.2构建决策树4.2.1 决策树生成考虑到篇幅和时间限制，本文只选取15个数据作为输入训练集，而

32、这些数据都具有代表性的。表4.1是含有描述客户的健康状况、家庭月收入以及性别三个属性的数据。样本中，客户被定义为正、反例两种类型即P和N，其中P代表理想客户、N代表非理想客户，下面用运用ID3算法，进行决策树的建立。表4.1 训练样本属性健康状况家庭月收入性别类别1健康1601男N2高、糖、冠1401女P3健康1701男N4高、胃2801男P5糖、冠、风1501女P6高1601女N7冠、风2701男P8胃病1401男N9高、冠1561女N10糖、风1801女P11健康1481男P12高1601女P13冠、通、胃1901女P14健康1721男N15冠3001女P (1)计算上述样本的信息熵：开

33、始时属于理想客户的实例个数为9个、属于非理想客户的实例个数为6个，P(u)=，P(u)=所以上述样本的信息熵为I(9，6)=-log-log =0.970954 (2)计算不同属性类别的熵值：对于家庭月收入“2000”，正例个数为6，反例个数为6I(6，6)=-log-log=1对于家庭月收入=“2000”，正例个数为3，反例个数为0，所以对应的信息熵为：I(3，0)=-log-0=0若将分类属性选取为家庭月收入，则其条件熵为：E(家庭月收入)=I（6,6）+I（3,0）=0.8对于健康状况中=“健康”，正例的个数为1，反例的个数为3，所以对应的信息熵为：I(1，3)=log-log=0.81

34、12对于健康状况=“患一种疾病”，正例的个数为2，反例的个数为2，所以对应的信息熵为：I(2，2)=log-log=1对于健康状况=“患两种疾病”，正例的个数为4，反例的个数为1，所以对应的信息熵为：I(4，1)=log-log=0.7219对于健泰状况=“患三种以上疾病”，正例为2，反例为0，所以对应的信息熵为：I(2，0)=log-0=0若分类属性选取为健康状况，则其条件熵为：E(健康状况)=I（1,3）+ I（2,2）+I(4,1)+ I(2,0)=0.72365对于性别=“男”，正例的个数为3，反例的个数为4，所以对应的信息熵为：I(3，4)=log-log=0.985224对于性别=

35、“女”，正例的个数为6，反例的个数为2，所以对应的信息熵为：I(6，2)=log-log=0.81128若分类属性选取为性别，则其条件熵为：E(性别)=I（3,4）+ I（6,2）=0.89245 (3)计算信息增益Gain(家庭月收入)=I(9，6)-E(家庭月收入)=0.17Gain(健康状况)=I(9，6)-E(健康状况)=0.25Gain(性别)=I(9，6)-E(性别)=0.078有计算可以得到，能提供最大的信息量是信息增益最大的属性即健康状况，因此选择的分枝属性是健康状况。 (4)找寻决策树的分枝由计算得出，将健康状况设为根结点，并由根结点生成的决策树含有四个叶结点，如图4.1所示

36、：根结点健康状况结点2结点3结点1正例健康患一种病患两种病患三种病图4.1 根结点分类的树表4.2 叶结点1包含数据属性家庭月收入（）健康状况性别类别1No健康男N3No健康男N11No健康男P14No健康男N 由表4.2知，初始状态理想客户类别的个数为1，非理想客户类别的个数为为3，计算初始时的熵值为：I(1，3)=log-log=0.8112若把分类属性选取为家庭月收入，则其条件熵为：E(家庭月收入)=0+I（1,3）=0.8112如果把分类属性选取为性别，则其条件熵为：E(性别)=0+I（1,3）=0.8112通过计算可以得出，I(1,3)-E(性别)=Gain(家庭月收入)=Gain(

37、性别)=0.8112-0.8112=0，这表明家庭月收入属性和性别属性不能在进行任何分类。因此，结点1设为叶结点，因为其包含3个N， 1个P，所以标记为反例。下面对图4.1中的叶结点2进行分类。表4.3 叶结点2包含数据属性家庭月收入（2000）健康状况性别类别6No患一种疾病女N8No患一种疾病男N12No患一种疾病女P15Yes患一种疾病女P由表4.3知，理想客户类别的个数为2，非理想客户类别的个数为为2，所以初始时熵值为：I(2，2)=log-log=1如果把分类属性选取为家庭月收入，则其条件熵为：E(家庭月收入)=I（1,0）+I(1,2) =0.6887如果把分类属性选取为性别，则

38、其条件熵为：E(性别)=I(0,1)+ I(2,1)=0.6887由计算可得，I(2,2)-E(性别)=Gain(家庭月收入)=Gain(性别)=1-0.6887=0.31130，因此可选择家庭月收入或者性别作为分支属性。本文将分支属性选择为家庭月收入属性。将结点2分成两个分支。扩展后的决策树图4.2。根接点健康状况家庭月收入结点3反例正例健康患一种病患两种病患三种病结点4正例20002000图4.2 结点2扩展的决策树下面图4.2中的叶结点3进行分类。表4.4 叶结点3包含的数据属性家庭月收入（）健康状况性别类别2No患两种疾病女P4Yes患两种疾病男P7Yes患两种疾病男P9No患两种疾病

39、女N10No患两种疾病女P由表4.4知，理想客户类别的个数为4，非理想客户类别的个数为1，所以初始时熵值为：I(4，1)=log-log=0.72192若将分类属性选取为家庭月收入，则其条件熵为：E(家庭月收入)= I(2,0)+ I(1,2)=0.550978如果将分类属性选取为性别，则条件熵为：E(性别)= I(2,0)+ I(2,1)=0.550978计算可得，I（4,1）-E（性别）=Gain（家庭月收入）=Gain（性别）=0.72192-0.550978=0.170942，由于Gain（家庭月收入）=Gain（性别）不为零。即选择家庭月收入属性或者属性性别作为分支属性。本文选择家庭

40、月收入属性作为分支属性。将结点3分为两个不同的分支。扩展后的决策树见图4.3。根接点健康状况家庭月收入家庭月收入反例正例健康患一种病患两种病患三种病结点4正例正例结点520002000图4.3 结点3扩展后的决策树按照上述方法进行延伸，得到结点4和5的分类，最终的决策树如图4.4所示。图4.4 ID3算法生成的最终的决策树根接点健康状况家庭月收入家庭月收入反例正例健康患一种病患两种病患三种病性别正例正例正例2000class YRule 2：health=1&income=1-class YRule 3：health=1&income=0&sex=1-class N实验数据共有2010个，训练

41、数据有1510个，本文测试数据有510个，分类正确率为80。对于分类Y，分类正确率为89；对于分类N，分类正确率为67。ID3算法倾向于选择取值较多的属性，由于健康状况含有四个属性值，而家庭月收入含有两个属性值，因此结果里首先是对健康状况进行分类，然后才对家庭月收入进行分类。因为噪音数据以及这也是ID3算法易偏向于取值较多的属性的缺陷所致，本文中依靠ID3算法生成的决策树中把最重要的属性为健康状况，这与专家地得出的结论不一样。针对这状况，本文改进了ID3算法，选取的分支属性是信息增益度最大的属性，本文称这种方法为改进信息增益度最大法。4.3.1 构建改进决策树过程信息增益度Gain（A）=，N

42、为属性A的取值含有的个数，因此，选择信息增益度最大的属性作为分支属性，取代了原来信息增益。由于引入了分支数N，理论上讲，信息增益度法对ID3算法的取值偏向缺陷有所改进。下面用改进的方法重新对数据进行处理，建立决策树。在ID3算法中：Gain(家庭月收入)=I(9，6)-E(家庭月收入)=0.170954Gain(健康状况)=I(9，6)-E(健康状况)=0.2472991Gain(性别)=I(9，6)-E(性别)=0.0784997在信息增益度最大法中：Gain(家庭月收入)=0.085477Gain(健康状况)=0.0618248Gain(性别)=0.0392498由计算可得，家庭月收入属性的信息增益度最大。因此，选择分支属性为家庭月收入，将训练实例集分为两个分支，生成的决策树，如图4.520002000）性别类别1健康No男N2患三种疾病No女P3健康No男N 5患三种疾病No女P6患一种疾病No女N 8患一种疾病No男N9患两种疾病No女N10患两种疾病

展开阅读全文