一种新的基于连续属性离散化的属性约简方法.doc

资源描述

《一种新的基于连续属性离散化的属性约简方法.doc》由会员分享，可在线阅读，更多相关《一种新的基于连续属性离散化的属性约简方法.doc（6页珍藏版）》请在三一文库上搜索。

1、一种新的基于连续属性离散化的属性约简方法?丶?词：连续属性；离散化；属性约简；分辨矩阵 One method of new attribute reduction based on discretization of continuous attributes HU Demin, FENG Kefeng (College of Computer & Electric, University of Shanghai for Science & Technology, Shanghai 200093, China) Abstract:Through combining the discret

2、ization algorithm of continuous attributes with attribute reduction algorithm, this paper firstly did a discretization on continuous attributes columns, and got a new decisionmaking table. Then did attribute reduction on it, dealt with the problem of getting inaccurate reduction attributes on accoun

3、t of thinking about notcontinuous attributes during the process of attribute reduction. Finally an illustrated example shows that the way has preferable practicality and availability，can commendably apply to data mining project which contains plentiful continuous attributes. Key words：continuous att

4、ribute; discretization; attribute reduction; differentiation matrix ? 粗集理论1是由波兰华沙理工大学Z.Pawlak教授等人在1982年提出的，它主要研究不完整数据、不精确知识的表达、学习、归纳等方法。这一理论从新的视角出发对知识进行了定义，它把知识看做是关于论域的划分，并引入代数学中的等价关系来讨论知识。它为智能信息处理提供了有效的处理技术，目前已经在数据挖掘、机器学习、专家系统、故障诊断、系统控制等领域发挥出越来越重要的作用。决策系统属性约简是粗糙集理论最重要的应用。本文介绍了一种基于连续属性离散化的属性约简方法，首先根

5、据信息熵1，2和相对信息熵3的定义求出每个连续属性的重要性；然后按属性重要性由小到大的顺序进行离散化，找出所有连续属性的断点集，生成新的决策表；最后在新的决策表上使用基于分辨矩阵4，5和属性重要性的方法进行属性约简。 1 概念描述设决策表T=(U,A,V, f)。其中：U表示对象的非空有限集合,称为域;A=CD,CD=,C称为条件属性，D称为决策属性集; aA，V=Va, Va是属性值域。其分辨矩阵是一个对称的UU矩阵,矩阵的每一项cij定义为：如果 xi(d)xj(d), cij=aAxi(a)xj(a)；否则cij=?肌?K1=(U,P)和K2=(U,Q)是关于U的两个知识库,U/ IN

6、D(P)=X1,X2,Xn,U/ IND(Q)=Y1,Y2,Ym,知识(属性集合) Q 相对于知识(属性集合)P的相对熵E(QP)3定义为 E(QP)=ni=1mj=1(XiYj/ U） (Ycj-Xci/U）= ni=1mj=1(XiYj/U) (Xi-XiYj)/U 若BC ,则对任意属性aC-B的相对于决策属性D的重要性SGF(a,B,D)定义为:SGF(a,B,D)=E(DB)-E(DBa)。当B=?潦?,简记为SGF(a,D)=E(D)-E(Da)=E(D;a),即为a与D的互信息。 2 属性约简方法 2.1 连续属性离散化下面结合表1所示的原始决策表数据介绍连续属性离散化处理方法

7、。其中：a、b、c、d、e、f、g为条件属性且为连续属性；D为决策属性。 a）求属性集的等价关系,如U/D=1,3,5,7 ,2,4,6,8,9,10,U/a=1,3,6,10,7,8,9,2,4,5 ,U/b=1,3,5,9,6,7,10,2,4,8。类似可求出其他属性列的等价关系。 b)根据定义求出决策属性信息熵和条件属性相对信息熵，即E(D)=90/100，E(D/a)=16/100。同理可求得E(D/b),E(D/c),E(D/d),E(D/e),E(D/f),E(D/g)。 c)根据定义求条件属性的重要性，即可求出SGF(a,D)=74/100。同理可求SGF(b,D)、SGF(c,

8、D)、SGF(d,D)、SGF(e,D)、SGF(f,D)、SGF(g,D)。 d)根据c)求出的属性重要性，按顺序对属性离散化。由c）计算结果可知先对g列离散化，方法如下：先将g列由小到大排列即0.40.71，求出中位值，组成断点集0.55,0.85。优化断点集：先看0.55，0.55在0.4和0.7之间，则将小的数变成大的数，即将原列中的0.4变成0.7，然后判断是否冲突。若D列值也相同则说明不冲突，把0.4改成0.7，将0.55从优化断点集中排出；若D不同，则说明冲突，0.4不能改成0.7，将 0.55加入到优化断点集中。最后求出g断点集为0.55。同理可求出其他列的断点集，即求得d列断

9、点集0.7,a列断点集0.2，c列断点集0.5,e列断点集0.6,b列断点集0.65,f列断点集0.8。 2.2 最小属性约简经离散化后的决策表如表2所示。 a)初始化分辨矩阵及最小约简属性集,令M()=?迹?core()=?迹?生成一个UU的空属性集矩阵，U为决策表中案例的个数。这里U=10。 b)生成分辨矩阵 private object constructDifferMatrix(object decisionTable); 根据分辨矩阵的定义生成mij,mij为分辨矩阵的元素。 c)求核 /* 求约简属性 */ private map findReductionAttributes(

10、object decisionTable,String Matrix); 若mij=1将mij加入core(),其中mij为分辨矩阵的元素(i,j=1,10)。 d)将含有core()中元素的矩阵元素置空。 /* 使矩阵中含有指定约简属性的元素置为空*/ private string clearElementsFromDifferMatrix(string matrix,string reductionAttribute); e)求得矩阵中出现频率最高的属性q,并将含q的矩阵元素置空。 /* 计算属性出现频率 */ private map calFrequencyOfAttribute(object decisionTable,string Matrix); f)若M()?荚蜃?到e);否则结束。最后求出的最小约简属性集为a, b, c, g，再结合新的决策表可以得出所有的决策规则。 3 结束语属性约简可以在保证决策系统决策能力不变的条件下，删除不相关或冗余的属性。但基于经典粗糙集理论的属性约简却不能直接应用于大部分实际系统。因为经典的粗糙集理论的不可分关系是等价关系，只适用于属性值域为离散值的情况，而实际决策系统属性的值域往往既有离散的也有连续的。本文介绍的属性约简方法具有很好的通用性，并且可以挖掘出较准确、可靠的决策规则。

展开阅读全文