一种处理缺失数据的回归模型.docx

上传人:大张伟 文档编号:8845966 上传时间:2021-01-19 格式:DOCX 页数:6 大小:998.24KB
返回 下载 相关 举报
一种处理缺失数据的回归模型.docx_第1页
第1页 / 共6页
一种处理缺失数据的回归模型.docx_第2页
第2页 / 共6页
一种处理缺失数据的回归模型.docx_第3页
第3页 / 共6页
一种处理缺失数据的回归模型.docx_第4页
第4页 / 共6页
一种处理缺失数据的回归模型.docx_第5页
第5页 / 共6页
点击查看更多>>
资源描述

《一种处理缺失数据的回归模型.docx》由会员分享,可在线阅读,更多相关《一种处理缺失数据的回归模型.docx(6页珍藏版)》请在三一文库上搜索。

1、计算机科学增刊一种处理缺失数据的回归模型雌昨 ,侧】俪峪管河山 姜青山“ 谭 忠厦门大学数学科学学院 厦门大学软件学院, 厦门加。知短诫,亡即眼,勺明陇,份山前言,。近年来 数据挖掘技术 已 经得到广泛的应用数据挖掘过程的大部分时间都放在 了数据准备阶,段 特别是现实世界的数据中存在严重的质量问题、,数据不完整 数据冗余 数据不一致和噪音数据等,而数据不完整给数据的分析带来很大困难 缺失数。据的处理也成为数据挖掘中重要的一步 产生缺失数据原因对选用什么样的模型 估算缺失值至关重,。要 许多分析都是假定数据是随机缺失的处理,缺失数据的方法有很多种且各有其优点 最简单的,方法就是删除含缺失值的记录

2、 如列举删除和配对,和删除目前在许多的统计软件包 如,。等 其分析过程都是 采取直接删除缺失值的记 录另外就是替缺失值确定一个合理的估计值替代到缺,。失部分 我们可 以称之为插补方法常见的插补、模型如随机抽取替代模型 均值替代模型 最近临域、算法 的替代模型和替代模型 多重插补 基于。回归模型等,本文主要是利用统计的方法来处理缺失数据都是针对随机缺失的情况 非随机缺失的情况可能,导致一些检验统计量是有偏的 且大都是针对数据,集中变量成一定相关性的缺失数据处理展开 探讨,了回归分析在处理缺失数据方面的应用 并针对传, 、统 回归模型 如一步 回归模型 基于均值的 回归模、,型 迭代回归模型闭 等

3、展开分析 并提出了基于聚类,的回归模型 借助了均值插补 并对新模型 的应用。展开了实例探讨回归模型实际工作中有时很难判断和检测缺失数据产生。的机制与方式 从缺失机制与方式上可将其分为随机缺失 、 完全随机缺失与不可忽略的缺失, 各种情讯 ,花,吧,诚,形如下,将数据集 中不含缺失值的变量称为完全变量这部分变量用 山 表示 数据集中含有缺失值的变,。量称为不完全变量 这部分变量用 汕 表示 用向量,作为响应指示变量 , 当 。,簇成 时 表示变量镇镇 被观察到 当 一,成镇,簇镇 时 表示变量为缺失值 则当满足,丽平咖。其中 平 是与数据集中任何变量都无关的参数 这种数据缺失机制被称为完全随机缺

4、失, 。当满足如 , 汕山 , 伞,即数据的缺失仅仅依赖完全变量 这种数据缺失机,。制被称为随机缺失在,情况下 不完全变量 的缺失值有可 能系统性。地大于或小于观察到的值如果不完全变量中数据的缺失依赖完全变量和不完全 变量本身 , 这种缺失被称为不可 忽略的。缺失替缺失数据插补一个合理的替代值是常用的方。,法 插补的效率如何 取决于替补值与缺失值的近,似程度 这就是要提高预测的准确度 本文都是对完整的数据产生随机缺失数然后进行预测并判定预测。的精确度本文就是针对回归模型展开探讨的多元回归模型年,研究了多元 回归模型在处 理,缺失数据中的应用对变量明显的相关的数据集,处理时 其效果通 常比其他的

5、统计方法更好 更直接。它通过回归分析构建因变量与 自变量之间的回,。归模型 给出合理的回归方程 进而估算缺失数据假设数据集中的第 个样本中第 个元素是缺失数叹 1994-2010 China Academic Journal Electronic Publishing House. All rights reserved.http:/据 , 即难判定那些是奇异点 , 此时一步回归预测和迭代回, 。 , , 札一 , , 札 , , 瑞归预测精确度不一定都能满足要求 , 此时可 以考虑如 能够求得不完全变量 同其他变量的回归 对数据聚类 , 然后再进行回归预测 。方程式一,裳。, 。了铸。就很容

6、易预测出缺失数据的取值 回归模型预测缺,失数据 必须建立一个合理的回归方程式 或者是建立一个变量变换后的回归方程式 将非线性模型转。化成线性模型处理迭代回归模型, 图 二维线性回归模型图回归模型通常是只需建立一次回归方程式 但, ,是 为了得到缺失 数据更精确 的估计值 年基 于聚类的回归模型。提出用迭代 回归模型来处理缺失数据闭。迭代回归模型的主要思想就是基于均值替代模型的聚类可以将具有相似特征的样本归为同一类,聚类的方法 有多种 其 中本文 采用的是 基于 卜结果建立回归模型来估算缺失值 反复迭代并估算算法的快速聚类, , 。,出缺失值 直到前后两次的估计值改变量小于事先基于欧氏距离的样本

7、聚类对缺失数。据处理而言 根据样本间的欧氏距离进行聚类 样本给定的闭值为止 通常迭代回归估算缺失值比一步,。回归估算缺失值更准确 但其算法 比一步 回归估算分层再进行回归预测 的效果通常不好原因可 以复杂 , 其思路可 以归纳如表 。 但是过多地迭代会从二维 的 回归模型 分析 可 推广到多维空 间 的分导致大 的误差 , 而 且 计算效率降低川 。年 ,析 。图 是对一个二维的数据集进行 回归预测的。结果 图 是基于欧氏距离的样本聚类 分成 类针对迭代次数过多的问题提出了相应 的解。决措施 然而对于某些指标取值较为分散的数据集,中的缺失数据预测 迭代回归方法 的效果不一定 比一步回归好 ,

8、见本文中的实例分析 社会经济指标。,分县 数据对传统的回归模型改进 既保留传统,。,后 再分别进行回归预测的结果 从图 看 分类前,后的直线的斜率并没有大的改变 此时基于欧氏距,离的回归模型不能很好地修正 回归残差 有时候反,而会增大残差值 应该采取别的距离函数 本文采取。回归模型 的优点 , 又 能尽量避免各种 回归模型 的不的是基于空间向量距离函数进行聚类的,。足 这就是本文提出的基于聚类的回归模型表迭代回 归给定数据集中的缺失值 札 , 基于均值替代生成完整的,集 即为,拘风其中 风 燕 , 这里 为完整样本个数 ,生成完整的数据集 建立合理的回归模型并进行缺失的数据估图基于欧氏距离的样

9、本分类根据回生成的数据集和回归式子反复进行替,直到前 后两次 回 归估 算值 相差 小 于某个 值 时 即, 一占, 占给,回。心减为事先定的闷归结束值基于空 间向量距 离函 数的聚类 回归基于聚类的回归模型回归模型预测缺失值,回归模型用来估算缺失数据 通常根据最小二,乘法进行建模 为此预测值和真实值之间都有个预,。侧误差 回归模型越合理预测误差越小 二维的 回。归模型预测如图,从图 可 以看到 恰好位于直线上的点 其预测,值是很准确的 而位 于直线上面部分和下面部分的点 , 特别是有些趋向于奇异分布的样本点 , 其预测的。,效果不好对含有缺失值的数据集而言 通 常是很模型 的拟合残差表现在位

10、于直线上下的点偏离回归直线的程度 , 要降低拟合的残差 , 可以采取多条直线共同拟合 ,例如采取 条直线拟合 , 如图 。从图,看 原来用一条直线拟合的模型变成了、,条直线 上 中 下 拟合的新模型 这样原来偏离直线明显的样本点被划归新模型中上下两条直线拟,合 而原来偏离直线不明显的点由新模型 中间的直,。线拟合 从而达到修正拟合残差的效果 多条直线共同拟合模型首先要求将样本进行聚类 , 本文采用,将样本转化成空间向量 根据向量的方向 然后进行 1994-2010 China Academic Journal Electronic Publishing House. All rights re

11、served.http:/聚类。在计算空 间向量时 , 可 以假定一个空间坐标构,足,。数据集,即、 一巴 一原点 每个样本到该点的方向向量当作所求的向量其中一认这里 “ 为缺失值为完整 本个数,将上一步得到的完整数据进行 回归拟合 得到一步回归拟合的结果先 缺失量小的根据上一步的回归分析 找出与不司月。、量集合出现在回 方程式中的变刁很呻二,沐汪第织。提取中相应的变量构成新的数据集 并转化成空 间拼户向量数据集,为的子集这里对, 进行一次回归进行聚类 根据聚类的结果 对 合,这一步的显著性水平 。 可取较大的值 如或。,型她并 缺失值进行相应的回归替代 最 得到原始二数据中缺失数据的预测替代

12、 。尸才产艺一型丝叭回刊月 归,类侈之本文为了确保聚类结果的准确性 在第三步与,第四步之间特别采用了判别分析 采取的方法是基于马氏距离 的一般判别法 。 下 面就实例展 开。探图多直线拟合基于聚类 的 回 归模型 本文提出的回归模型正是上述的基于空间向量距离函数进行聚类, 。的 回归模型 其具体的算法如下 基于聚类的回归模型 , 通常只需在聚类后再进行一次回归即可 。 第,三步数据的转化中 首先必须考虑到选取与不完全变量相关的变量集合并构造 出一个新的子数据,集 这样不仅可以提高预测的精确度 而且可 以简化。 ,运 算 进一步 将这个新 的子数据集转化成空 间的。向量 转化过程如下 假设第二步

13、得到的 回归模型如下一一,一伪伪、十乌 为 禹蝙实例分析,本文列举的数据集中变量都成一定的相关性具体过程如下 首先对完整的数据集随机地生成一些随机缺失值 , 然后用均值替补、 一步回归替补、 迭代回归替补、 基于聚类的回归替补等方法处理 , 结果。用评分函数 的分布或 的大小来衡量圣剑为二 显叠纂皇珍亏名山祠、其中 札 表示真实值 ,表示运用插补生成的替代值,。为所有缺失值构成的集合累年各月平均地面温度 分 台站】年年气温数据集共有,。个样本个变量 数据的变量相关程度大 , 所 以预测的整体效果偏好。 计,算所有缺失值的 值的分布 如表 可见迭代回归绝对误差率小的样本个数比均值替补和一步回归替

14、,补多 这说明该方法的效果 比较优越 这跟。年 的结果是一致的 而基于聚类的回归预,测中绝对误差率小的样本个数比其他方法都多 这。就说基于聚类的回归预测效果是最佳的 进一步用来衡量 比值越小则方法越优越 , 结果如表 。这进一步说基于聚类的回归模型更合理表值分布 单位 个令一护 , 得坐标原点 勒, 汤, , ,分别计算每个样本 为 到坐标原点的空 间向量方向日,公 式 为 日,氏 其 中二,。,为第, 分量 。库专 一算法 基于聚类的回归模型算法,给定的含缺失值的数据集基于均值替代生成完整 的插补模型一国均 替补一步回归迭代回归二步基于聚类的回归一一一一 1994-2010 China Ac

15、ademic Journal Electronic Publishing House. All rights reserved.http:/表值插补模型 均值替补 一步回归 迭代回归 基于聚类的回归表值分位个布 单插补模型一刃一一国一均值替补一步回归迭代回归基于聚类的回归表值插补模型 均值替补 一步回归 迭代回归 基于聚类的回归社会经济指标 分县 数据,。经济指标数据集共有个样本个变量,该数据的各个指标的取值分散 变量的相关程度偏低 , 所以整体的预测效果偏差 。 计算出如表 , 可,见如果迭代回归的迭代次数不能很好地控制 其结果可能很差 , 而基于 聚类的回归预测可 以有效地避。,免迭代回归

16、的这一不足之处 也可 以用 来衡量,结果如表 这进一步显示出基于聚类的回归插补。法的优越性结论 对变量成一定相关性的数据集中的缺失,。数据处理 回归模型不失是一个理想的模型 特别,。在经济预测中 回归模型得到了广泛的应用 事实表明 , 在这些类型的数据处理中, 回归模型 的准确性, 。比其他模型高 而且直观 经典的回归模型 一步回、归 迭代回归 在处理缺失数据时存在准确性不够高。,或迭代过度等问题 在某些统计实践中 也经常考虑到分层思想处理缺失值 。 本文 中提出的基 于聚类的回归模型 , 可以提高替代值的准确性 , 而且可,以避免迭代回归中过度迭代的问题 特别在二维缺。失值替补中的效果更好

17、基于聚类的回归模型中生成向量数据的方法在处理二维的情况中效果非常,好 在处理多维数据时还有待改进 这将是未来研究。的重心所在参 考 文 献,艳吃俪飞,汀匆金勇进 缺失数据的擂补调整 数理统计与管理 ,。武建虎, 贺佳 , 贺宪民 , 程红岩 多变量缺失数据的不同处理方法,及分析结果比较 第二军医大学学报吃且。 对 ,石俪吧,衍卯即,呀压吃电代伽阮,扭凡仪以比 ,且卜汉祀 ,一岳朝龙 , 黄永兴 , 严忠系统与经济统计分析 中国科技大学出版杜 ,阮桂海统计分析使用大全 清华大学出版社 ,俞纯权 规模 以 下 工业 抽样 调查 缺失数据的影 响及 处 理, 1994-2010 China Academic Journal Electronic Publishing House. All rights reserved.http:/

展开阅读全文
相关资源
猜你喜欢
相关搜索

当前位置:首页 > 科普知识


经营许可证编号:宁ICP备18001539号-1