08数据挖掘的应用决策树神经网络Autosaved-文档资料.pptx

资源描述

《08数据挖掘的应用决策树神经网络Autosaved-文档资料.pptx》由会员分享，可在线阅读，更多相关《08数据挖掘的应用决策树神经网络Autosaved-文档资料.pptx（30页珍藏版）》请在三一文库上搜索。

1、/,数据挖掘解释,数据挖掘，又称为数据库中知识发现（Knowledge discovery from database，简称KDD），它是一个从大量数据中抽取挖掘出未知的、有价值的模式或规律等知识的复杂过程。数据挖掘的全过程定义描述如下:,/,常用模型决策树：该模型常常可以用来检验、预测离散型的数据。如客户的信用等级，贷款的优良与否等等。人工神经网络：这是对人体大脑的模拟. 该方法利用隐藏的一到两层，对数据进行分类或预测。但是速度比较慢。多元回归：主要用于处理连续型的自变量和应变量，并可用于预测和其他分析。 Logistic 回归：与线性回归类似，但处理离散型的应变量比较合适 K-mea

2、ns和聚类分析：主要用于分类 Kohonen self-organizing maps:是一种类似神经网络，但主要用于聚类的分析工具。关联准则：主要用于寻找在数据中频繁发生的记录间的关系，并可用于预测。,分类(classification)；估计(estimation)；预测(prediction)；关联分组(affinity grouping)；聚类(clustering)。,数据挖掘的功能,数据挖掘功能与模型,/,决策树的应用Link Adaption优化神经网络的应用TDMR的定位,数据挖掘的应用,/,决策树的概念,所谓决策树就是一个类似流程图的树型结构，其中树的每个内部结点

3、代表对一个属性（取值）的测试，其分支就代表测试的每个结果；而树的每个叶结点就代表一个类别。树的最高层结点就是根结点.,/,类别型,/,数值型,/,应用场景,两者关系很难通过其它函数关系不明确,难以建立映射.,一条直线或者简单的曲线很难将内容分割,/,决策树生成方法,找出起始的分隔 : 用来评估一个分隔数的衡量标准是分散度（diversity）。分散度指标（index of diversity）很高，表示这个组合中包含平均分配到多個類別，而分散度指标很低则表示一个单一类別的成员居优势。最好的分隔变数是能夠降低一个組的分散度，而且降得最多。即下面式子最大化：分散度（分隔前）分散度（分隔后左边子

4、集合）分散度（分隔后右边子集合）,/,数据业务对语音的影响,数据对业务信道的挤占,造成语音半速率比例增加, MOS值的下降,影响用户的感受; 数据对业务信道挤占的同时,与语音共享频率资源,对语音质量的影响; 数据对公共信道的挤占,造成寻呼的负荷增加,影响语音业务的被叫;,如何改善?,提高单时隙的传输数据效率,减小数据占用信道的时间,改善对语音的影响!,如何改善?,减少数据对公共信道资源的挤占，增加公共信道资源的容量!,合理分配数据和语音对频率资源的占用,让语音占用更好的频率资源!,/,如何提高单时隙的传输数据效率,信道分配和释放机制的优化: 信道分配: 优先保证语音信道的分配; 合理压缩数据

5、信道的资源,提升数据信道效率,减少语音半速率的触发; 信道释放: 加快数据下行信道的释放,提升信道效率; 增加EDGE资源的投入, 使更多的用户使用EDGE, 提高整体的单时隙的吞吐率; 自适应链路的优化研究分析高编码比例和重传率对单时隙吞吐率的影响; 研究在不同无线环境下, 编码方式的调度修正值对高编码比例和重传率的影响; 建立在不同无线环境下,自适应链路的参数与单时隙吞吐率的模型关系; 找到最匹配的参数设置,来提高单时隙的传输效率;,/,链路自适应工作机制1/2,数据传输刚启动所应用的编码方式，是通过参数预先设定的。以下是诺基亚系统内的相应参数，为BTS级参数： InitMCSAckMo

6、de 1至9 (默认值为9 = MCS9) InitMCSUnackMode 1至9 (默认值为6 = MCS6),由于MCS14为GMSK调制方式，而MCS59为8PSK调制。所以，应对无线环境的变化，首先要确定采用哪种调制方式。诺基亚系统在进行上述判断时，首先根据以下两个测量值： 8PSK MEAN_BEP 8PSK CV_BEP 来对照下表，获取BEP查表值：,然后，把这个BEP查表值与GMSK MEAN_BEP测量值比较，如果： BEP查表值 GMSK MEAN_BEP测量值，则采用8PSK调制方式,启动信道编码的设置,调制方式的动态选择,/,链路自适应工作机制2/2,在ACK 模式

7、的MCS编码选择方式,重传的MCS编码选择方式,针对每个RLC数据块，PCU都能拿到测量报告，上行链路系统测量、下行链路手机上报，这样，PCU通过查找内置表格，如下图所示，来确定下一个RLC传送的编码。,在EGPRS系统，重传数据的编码方式是可以改变，这与GPRS技术有所不同。系统通过降低编码速率，提高数据的强壮性，来对抗恶化的无线环境，最终达到提高成功率的目的。而编码方式的改变，将涉及到数据块的重新组装，只有属于相同Coding Family的编码方式才可以达到这种兼容性。在EGPRS系统中，9种编码分别属于三个FAMILY，如下图所示：,/,优化思路,通过LA提高数据传送效率，一方面可以减

8、少数据业务PDCH的资源占用，另一方面占用时间减少后，能够降低对语音业务的干扰。优化目标的选择：(主要优化参数MBP),每时隙吞吐率 =总流量/平均占用PDCH数该指标受平均占用PDCH数影响很大，如果小区的CDED配置较小，那么每时隙吞吐率必定会较大，无法反映传送效率。,数据业务等效话务量 =传送的总块数/每时隙每小时能够传送的块数该指标只能反映数据业务的流量大小。,每块传送字节数 =总字节/总块数（包括重传的块数）该指标的分子部分隐含意义是是否高编码占比高，分母部分将重传率也纳入考虑，该指标最能体现数据传送效率。,/,相关性分析 -寻找影响每块传送效率的主要因素,每块传送效率和重传

9、率以及高编码占比，而重传率和高编码占比需要LA和IR参数优化来解决,通过相关性分析降纬每块重传效率和下行平均质量相关度最大，其次是下行1-5级质量占比，下行Path loss和下行接收电平相关性很小。下行平均质量和1-5级质量占比自相关度比较大，因此将下行平均质量作为决策树的因子。,/,决策树寻找最优MBP,当平均接收接收质量小于0.19时（也就是无线质量非常良好时，MBP取6能够得到最大的块传送效率0.12kyte/block. (960bit每块）,当平均接收接收质量大于0.19且小于0.55时，MBP取5能够得到最大的块传送效率0.11kyte/block. (880bit每块）,M

10、BP是离散的, Quality是连续的,其它的函数较难映射,/,决策树结果理解,将选择质量较差至少9个小区，分别设置-6,-5,-4,-3,-2,-1,0,1,2来观察每块传送效率，,/,LA参数调整后效果评估,参考寻优结果后,调整MBP设置后, 每块传送字节数从112字节上升到118字节.,/,数据挖掘的应用,决策树的应用Link Adaption优化神经网络的应用TDMR的定位,/,生物神经元,人工神经网络的研究出发点是以生物神经元学说为基础的,/,神经网络处理信息的特点,在微观内部结构上模仿人脑的神经,并行分布系统处理的工作模式: 实际上大脑中单个神经元的信息处理速度是很慢的，每次约1

11、毫秒(ms)，比通常的电子门电路要慢几个数量级。每个神经元的处理功能也很有限，估计不会比计算机的一条指令更复杂。但是人脑对某一复杂过程的处理和反应却很快，一般只需几百毫秒。例如要判定人眼看到的两个图形是否一样，实际上约需400 ms，而在这个处理过程中，与脑神经系统的一些主要功能，如视觉、记亿、推理等有关。按照上述神经元的处理速度，如果采用串行工作模式，就必须在几百个串行步内完成，这实际上是不可能办到的。因此只能把它看成是一个由众多神经元所组成的超高密度的并行处理系统。例如在一张照片寻找一个熟人的面孔，对人脑而言，几秒钟便可完成，但如用计算机来处理，以现有的技术，是不可能在短时间内完成的。由

12、此可见，大脑信息处理的并行速度已达到了极高的程度。,/,神经网络模型,x2 w2,xn wn,x1 w1,F,y,/,F特性函数,非线性,阶跃,/,人工神经网络的自我学习(训练),这种学习归结为神经元连接权的变化。调整Wij的原则为：若第i和第j个神经元同时处于兴奋状态，则它们之间的连接应当加强，这一规则与“条件反射”学说一致，并已得到神经细胞学说的证实。,/,TDMR的定位应用,TDMR的定位数据: MR数据(OSS): 频点扰码电平网络基础数据小区信息经/纬度小区方向频率扰码天线参数,包括主服务小区和相邻小区的,训练样本数据(DT): 频点扰码电平样本经纬度,原理

13、利用训练样本数据,结合网络基础数据,训练模型将MR数据代入, 得到待定位MR数据的经纬度.,/,MR数据(OSS):即，实际测量中待定位样本测得的临近小区的场强分贝数，其中每行表示一个样本，前14列表示每个样本测得的临近7个小区的小区号和相应场强值。,训练样本数据(DT): 用于提供训练样本，构建训练样本库，训练模型。其中每行表示一个样本，前14列表示每个样本测得的临近7个小区的小区号和相应场强值；第15-16列为该样本的经度和纬度。,/,小区信息: 提供所有小区的信息，其中每行提供一个小区的信息，第1列为小区号，第2-3列为小区的经纬度、第4列为该小区的方向角（单位：度），第5列为该小区的

14、类型（1表示室外小区，0表示室内或全向的小区）,天线参数:每个方向角的增益变化，用于对传播模型进行修正。行号为角度（单位：度）偏移量，每行的数字表示该角度偏移量的增益变化。,/,TDMR定位模型的训练,MS到各BS距离的相对关系可以通过MS所测到的各BS的信号强度的相对关系来表征.,传统方法: 根据训练样本数据, 构建MS到BS的传播模型,得到距离与电平的映射关系. 缺点, 传播模型受限地理环境, 失真较大神经网络: 根据训练样本数据,构建MS所测电平相对关系与位置相对关系的整体映射. 特点, 脱离传播模型,不受限地理环境,根据相对电平关系的总体映射,依据概率模糊识别MS的位置区域.,/,TDMR的算法实现,传统方法+神经网络依据样本数据,对每个小区的传播模型进行修正如果不匹配神经网络,则根据修正后的传播模型,进行定位. 根据待定位数据的特点匹配结果,如果适合神经网络定位,则按照神经网络方法定位,拟合度,/,TDMR定位误差分析,神经网络定位误差: 50m; 传统定位误差: 200m,受限网格内测试点的分布,/,The End,

展开阅读全文