spss多元线性回归实例要点.pdf

上传人:tbuqq 文档编号:5198185 上传时间:2020-02-19 格式:PDF 页数:16 大小:3.91MB
返回 下载 相关 举报
spss多元线性回归实例要点.pdf_第1页
第1页 / 共16页
spss多元线性回归实例要点.pdf_第2页
第2页 / 共16页
spss多元线性回归实例要点.pdf_第3页
第3页 / 共16页
spss多元线性回归实例要点.pdf_第4页
第4页 / 共16页
spss多元线性回归实例要点.pdf_第5页
第5页 / 共16页
点击查看更多>>
资源描述

《spss多元线性回归实例要点.pdf》由会员分享,可在线阅读,更多相关《spss多元线性回归实例要点.pdf(16页珍藏版)》请在三一文库上搜索。

1、SPSS19.0 实战之多元线性回归分析 (2011-12-09 12:19:11) 转 载 标签: 文化 分类:软件介绍 线性回归数据( 全国各地区能源消耗量与产量)来源,可点击协会博客数据挖 掘栏:国泰安数据服务中心的经济研究数据库。 1.1 数据预处理 数据预处理包括的内容非常广泛,包括数据清理和描述性数据汇总,数据集成和 变换,数据归约, 数据离散化等。 本次实习主要涉及的数据预处理只包括数据清 理和描述性数据汇总。 一般意义的数据预处理包括缺失值填写和噪声数据的处 理。于此我们只对数据做缺失值填充,但是依然将其统称数据清理。 1.1.1数据导入与定义 单击“ 打开数据文档” ,将 x

2、ls 格式的全国各地区能源消耗量与产量的数据导入 SPSS中,如图 1-1 所示。 图 1-1 导入数据 导入过程中, 各个字段的值都被转化为字符串型(String),我们需要手动将相 应的字段转回数值型 。 单击菜单栏的 “ ”“ ”将所选的变量改为数值型。 如图 1-2 所示: 图 1-2 定义变量数据类型 1.1.2数据清理 数据清理包括缺失值的填写和还需要使用SPSS分析工具来检查各个变量的数据 完整性。单击 “ ”“ ”,将检查所输入的数据的缺失值个数以及百分比等。如图 1-3 所示: 图 1-3 缺失值分析 能源数据缺失值分析结果如表1-1 所示: 单变量统计 N 均值标准差 缺失

3、极值数目 a 计数百分比 低高 能源消 费总量 30 9638.50 6175.924 0 .0 0 1 煤炭消 费量 30 9728.99 7472.259 0 .0 0 2 焦炭消 费量 30 874.61 1053.008 0 .0 0 2 原油消 费量 28 1177.51 1282.744 2 6.7 0 1 汽油消 费量 30 230.05 170.270 0 .0 0 1 煤油消 费量 28 45.40 66.189 2 6.7 0 4 柴油消 费量 30 392.34 300.979 0 .0 0 2 燃料油 消费量 30 141.00 313.467 0 .0 0 3 天然气

4、 消费量 30 19.56 22.044 0 .0 0 2 电力消 费量 30 949.64 711.664 0 .0 0 3 原煤产 量 26 9125.97 12180.689 4 13.3 0 2 焦炭产 量 29 1026.49 1727.735 1 3.3 0 2 原油产 量 18 1026.48 1231.724 12 40.0 0 0 燃料油 产量 25 90.72 134.150 5 16.7 0 3 汽油产 量 26 215.18 210.090 4 13.3 0 2 煤油产 量 20 48.44 62.130 10 33.3 0 0 柴油产 量 26 448.29 420.

5、675 4 13.3 0 1 天然气 产量 20 29.28 49.391 10 33.3 0 3 电力产 量 30 954.74 675.230 0 .0 0 0 表 2-1 能源消耗量与产量数据缺失值分析 表 1-1 能源消耗量与产量数据缺失值分析 SPSS提供了填充缺失值的工具, 点击菜单栏 “ ”“ ”,即可以使用软件提供的几 种填充缺失值工具,包括序列均值,临近点中值,临近点中位数等。结合本次实 习数据的具体情况,我们不使用SPSS软件提供的替换缺失值工具,主要是手动 将缺失值用零值来代替。 1.1.3描述性数据汇总 描述性数据汇总技术用来获得数据的典型性质,我们关心数据的中心趋势和

6、离中 趋势,根据这些统计值, 可以初步得到数据的噪声和离群点。中心趋势的量度值 包括: 均值( mean ),中位数( median),众数( mode)等。离中趋势量度包 括四分位数( quartiles),方差( variance)等。 SPSS提供了详尽的数据描述工具, 单击菜单栏的 “ ”“ ”“ ”,将弹出如图 2-4 所示的对话框, 我们将所有变量都选取到, 然后在选项中勾选上所希望描述的数 据特征,包括均值,标准差,方差,最大最小值等。由于本次数据的单位不尽相 同,我们需要将数据标准化,同时勾选上“ 将标准化得分另存为变量” 。 图 1-4 描述性数据汇总 得到如表 1-2 所示

7、的描述性数据汇总。 N 极小 值极大值 均值标准差方差 能源消 费总量 30 911 26164 9638.50 6175.924 38142034.412 煤炭消 费量 30 332 29001 9728.99 7472.259 55834651.378 焦炭消 费量 30 19 5461 874.61 1053.008 1108824.853 原油消 费量 30 0 5555 1099.01 1273.265 1621202.562 汽油消 费量 30 18 771 230.05 170.270 28991.746 煤油消 费量 30 0 262 42.37 64.896 4211.520

8、 柴油消 费量 30 27 1368 392.34 300.979 90588.441 燃料油 消费量 30 0 1574 141.00 313.467 98261.261 天然气 消费量 30 1 106 19.56 22.044 485.947 电力消 费量 30 98 3004 949.64 711.664 506464.953 原煤产 量 30 0 58142 7909.17 11741.388 1.379E8 焦炭产 量 30 0 9202 992.28 1707.998 2917256.193 原油产 量 29 0 4341 637.12 1085.379 1178048.432

9、燃料油 产量 30 0 497 75.60 126.791 16075.971 汽油产 量 30 0 1032 186.49 208.771 43585.122 煤油产 量 30 0 219 32.30 55.394 3068.535 柴油产 量 30 0 1911 388.52 420.216 176581.285 天然气 产量 30 0 164 19.52 42.371 1795.341 电力产 量 30 97 2536 954.74 675.230 455935.003 有效的 N (列表 状态) 29 表 1-2 描述性数据汇总 标准化后得到的数据值, 以下的回归分析将使用标准化数据。

10、如图 1-5 所示: 图 1-5 数据标准化 我们还可以通过 描述性分析中的 “ ”来得到各个变量的众数,均值等,还可以根 据这些量绘制直方图。我们选取个别变量(能源消费总量)的直方图,可以看到 我们因变量基本符合正态分布。如图1-6 所示: 图 1-6 能源消费总量 1.2 回归分析 我们本次实验主要考察地区能源消费总额(因变量)与煤炭消费量、焦炭消费 量、原油消费量、原煤产量、焦炭产量、原油产量之间的关系。以下的回归分析 所涉及只包括以上几个变量,并使用标准化之后的数据。 1.2.1参数设置 1. 单击菜单栏 “ ”“ ”“ ”,将弹出如图 1-7 所示的对话框,将通过选择因变 量和自变量

11、来构建线性回归模型。因变量:标准化能源消费总额;自变量:标准 化煤炭消费量、标准化焦炭消费量、标准化原油消费量、标准化原煤产量、标准 化焦炭产量、标准化原油产量。自变量方法选择 :进入,个案标签使用地名, 不 使用权重最小二乘法回归分析即 WLS 权重为空 。 图 1-7 选择线性回归变量还需要设置统计量的参数,我们选择回归系数中的 “ ” 和其他项中的 “ ”。选中估计可输出回归系数B 及其标准误, t 值和 p 值,还有标 准化的回归系数 beta。选中模型 拟合度 复选框:模型拟合过程中进入 、退出的变 量的列表,以及一些有关 拟合优度的检验 :R,R 2 和调整的 R 2, 标准误及方

12、差分 析表。如图 1-8 所示: 图 1-8 设置回归分析统计量 3.在设置 绘制选项的时候 ,我们 选择绘制标准化残差图 ,其中的正态概率图是 rankit 图。同时还需要画出残差图,Y 轴选择: ZRESID,X 轴选择 : ZPRED。如 图 1-9 所示: 图 1-9 设置绘制 左上框中各项的意义分别为: “DEPENDNT”因变量 “ZPRED ” 标准化预测值 “ZRESID ” 标准化残差 “DRESID ” 删除残差 “ADJPRED ” 调节预测值 “SRESID ”学生化残差 “SDRESID ” 学生化删除残差 4. 许多时候我们需要将回归分析的结果存储起来,然后用得到的

13、残差、预测值 等做进一步的分析, “ 保存” 按钮就是用来存储中间结果的。可以存储的有:预测 值系列、残差系列、距离( Distances )系列、预测值可信区间系列、波动统计量 系列。本次实验暂时不保存任何项。 5. 设置回归分析的一些选项,有:步进方法标准单选钮组:设置纳入和排除标 准,可按 P 值或 F 值来设置。在等式中包含常量复选框:用于决定是否在模型 中包括常数项,默认选中。如图1-10 所示: 图 1-10 设置选项 1.2.2结果输出与分析 在以上选项设置完毕之后点击确定,SPSS将输出一系列的回归分析结果。我们 来逐一贴出和分析, 并根据它得到最后的回归方程以及验证回归模型。

14、 1. 表 1-3 所示,是回归分析过程中输入、移去模型记录。具体方法为:enter (进入) 输入移去的变量 模型输入的变量 移去 的变 量方法 1 Zscore( 原油产 量), Zscore(原煤 产量), Zscore(焦 炭消费量 ), Zscore( 原油消费 量), Zscore(煤炭 消费量 ), Zscore( 焦炭产量 ) . 输入 表 1-3 输入的变量 2. 表 1-4 所示是 模型汇总, R 称为多元相关系数 ,R 方(R 2)代表着模型的拟 合度。 2. 我们可以看到该模型是拟合优度良好。 模型汇总 模型汇总 模型 R R 方 调整 R 方 标准 估计 的误差Sig

15、. 1 .962 .925 .905 .30692707 .000 表 1-4 模型汇总 3.表 1-5 所示是 离散分析 。 ,F 的值较大 ,代表着该回归模型是显著 。也称为失 拟性检验。 模型平方和df 均方F 1 回归 25.660 6 4.277 45.397 残差 2.072 22 .094 总计 27.732 28 表 1-5 离散分析 4.表 1-6 所示的是 回归方程的系数 ,根据这些系数我们能够得到完整的多元回归 方程。观测以下的回归值,都是具有统计学意义的。因而,得到的多元线性回归 方程: Y=0.008+1.061x1+0.087 x2+0.157 x3-0.365 x

16、4-0.105 x5-0.017x6 (x1为煤炭消费量, x2为焦炭消费量, x3为原油消费量, x4为原煤产量, x5为原 炭产量, x6为原油产量, Y 是能源消费总量) 结论:能量消费总量由主要与煤炭消费总量所影响,成正相关; 与原煤产量成一 定的反比 。 系数 模型 非标准化系数 标准系 数 t Sig. B 标准 误差beta 1 (常量) .008 .057 .149 .883 Zscore( 煤炭 消费量 ) 1.061 .126 1.071 8.432 .000 Zscore( 焦炭 消费量 ) .087 .101 .088 .856 .401 Zscore( 原油 消费量

17、) .157 .085 .159 1.848 .078 Zscore( 原煤 产量) -.365 .155 -.372 -2.360 .028 Zscore( 焦炭 产量) -.105 .150 -.107 -.697 .493 Zscore( 原油 产量) -.017 .070 -.017 -.247 .807 表 1-6 回归方程系数 5.模型的适合性检验 ,主要是 残差分析 。残差图是散点图 ,如图 1-11 所示: 图 1-11 残差图 可以看出各散点随机分布在e=0 为中心的横带中, 证明了该模型是适合的。 同时 我们也发现了两个异常点,就是广东省和四川省, 这种离群点是值得进一步研究 的。 还有一种 残差正态概率图( rankit 图)可以直观地判断残差是否符合正态分布。 如图 1-12 所示: 图 1-12 rankit(P-P)图 它的直方图如图 1-13 所示: 图 1-13 rankit(直方)图

展开阅读全文
相关资源
猜你喜欢
相关搜索

当前位置:首页 > 其他


经营许可证编号:宁ICP备18001539号-1