SPSS案例分析.docx_三一文库31doc.com

资源描述

《SPSS案例分析.docx》由会员分享，可在线阅读，更多相关《SPSS案例分析.docx（25页珍藏版）》请在三一文库上搜索。

1、是否服从正态分布。某道路弯道处53 车辆减速前观测到的车辆运行速度，试检验车辆运行速度这道题目的解答可以先通过绘制样本数据的直方图、P-P 图和 Q-Q 图坐车粗略判断，然后利用非参数检验的方法中的单样本K-S 检验精确实现。1.1 绘制直方图1）操作步骤在 SPSS软件中的操作步骤如图所示。2）输出结果通过观察速度的直方图及其与正态曲线的对比，直观上可以看到速度的直方图与正太去线除了最大值外，整体趋势与正态曲线较吻合，说明弯道处车辆减速前的运行速度有可能符合正态分布。1.2 绘制 P-P 图（ 1）操作步骤在 SPSS软件中的操作步骤如图所示。2）结果输出根据输出的速度的正态P-P 图，发

2、现速度均匀分布在正态直线的附近，较多部分与正态直线重合，与直方图的结果一致，说明弯道处车辆减速前的运行速度可能服从正态分布。二、单样本K-S 检验2.1 单样本 K-S 检验的基本思想K-S 检验能够利用样本数据推断样本来自的总体是否服从某一理论分布，是一种拟合优的检验方法，适用于探索连续型随机变量的分布。单样本 K-S 检验的原假设是：样本来自的总体与指定的理论分布无显著差异，即样本来自的总体服从指定的理论分布。SPSS的理论分布主要包括正态分布、均匀分布、指数分布和泊松分布等。单样本 K-S 检验的基本思路是：首先，在原假设成立的前提下，计算各样本观测值在理论分布中出现的累计概率值F(x)

3、，；其次，计算各样本观测值的实际累计概率值S(x)；再次，计算实际累计概率值与理论累计概率值的差D(x) ；最后，计算差值序列中的最大绝对值差值，即DmaxS( xi)F( xi)通常，由于实际累计概率为离散值，因此D 修正为：DmaxS( xi 1)F( xi)D 统计量也称为K-S 统计量。在小样本下，原假设成立时，D 统计量服从Kolmogorov 分布。在大样本下，原假设成立时，nD 近似服从K(x) 分布：当D 小于 0 时， K(x) 为 0；当 D 大于 0 时，K( x)( - 1) exp( - 2j 2x 2)容易理解，如果样本总体的分布与理论分粗的差异不明显，那么D 不

4、应较大。如果D统计量的概率P 值小于显著性水平，则应拒绝原假设，认为样本来自的总体与指定的分布有显著差异如果D 统计量的P 值大于显著性水平，则不能拒绝原假设，认为，样本来自的总体与指定的分布无显著差异。在SPSS中，无论是大样本还是小样本，仅给出大样本下的和nD 对应的概率P 值。2.2 软件操作步骤2.3 输出结果并分析单样本 K-S 检验的操作步骤如图所示SPSS的输出结果如表所示单样本 Kolmogorov-Smirnov 检验速度N98均值47.988正态参数a,b标准差11.6310绝对值.090最极端差别正.050负-.090Kolmogorov-Smirnov Z.888渐近显

5、著性（双侧）.409a. 检验分布为正态分布。b. 根据数据计算得到。该表表明，速度的均值为47.988，标准差为11.6310。最大绝对差值为0.090，最大正差值为0.050，最大负差值为-0.090。本例应采用大样本下D统计量的精确概率值，输出了根号nD值 0.888和概率P值 0.409，如果显著性水平为0.05，由于概率P值大于显著性水平，因此不能拒绝原假设，可以认为弯道处车辆减速前的运行速度服从正态分布第 13题表中数据为某条公路上观测到的交通流速度与密度数据，试用一元线性回归模型分析两者的101 关系。一、一元线性回归的基本原理1.1 一元线性回归模型：Y 01 N(0, 2)上

6、述模型可分为两部分：( 1)01 是非随机部分；( 2)是随机部分。0和1为回归常熟和回归系数该式被称为估计的一元线性回归方程。1.2 模型参数估计用最小二乘法估计参数，是在关于随机误差的正态性、无偏性、同方差性、独立性这四个假设的基础上进行的。2f xiyi yiyi b0 b1ximin为了求回归系数，0 ，1 ，令一阶导数为0 ，得：nb0 b1xiyib0xi b1xi2xi yi从中解出：(xi x)2b1 x(xi x)(yi y)b1b0 y_n22y)2(yi y)2 SSR SSE二、一元线性回归分析的假设检验：n_n2 SST (yi y)2 (yi i1i1i1其中：S

7、ST称为总体离差平方和，代表原始数据所反映的总偏差的大小。SSR 称为回归离差平方和，它是由变量x引起的偏差，反应x的重要程度SSE 称为剩余离差平方和，它是由实验误差以及其它未加控制因素引起的偏差，反映了试验误差及其它随机因素对试验结果的影响。2.1 回归方程优度检验的2 SSRSSESSTSST相关系数反映了由于使用Y与 X之间的线性回归模型来估计y的均值，而导致总离差平方和减少的程度。它与SSR成正比，R2 的取值在0-1 之间，其值越接近1 ，说明方程对样本数据点的拟合度越高；反之，其越接近0说明，明模型的拟合度越低。2.2 回归方程的显著性检验假设 H0: 10, H1 : 10。

8、在 H0 成立的条件下，有：SSR/ n1(n1 n2 n 1)SSE/ n2上式中，n1 =1 ， n2=n-2， F服从自由度为(1， n-2 )的 F分布。给定显著水平，若F F (n1 , n2) , 拒绝原假设，表明回归效果显著。2.3 回归系数的显著性检验在 H 0 成立的条件下，有：Lxx : t(n 2)t t (n 2) 时，拒绝原假设，回归显著。注意：注意回归方程的显著性检验与回归系数的显著性检验的的区别：回归系数的显著性检验是用于检验回归方程各个参数是否显著为0的单一检验，回归方程的显著性检验是检验所有解释变量的系数是否同时为0的联合检验，分别为t 检验FF检验。对于一元

9、线性回归模型，F检验与t 检验是等价的, 而对于二元以上的多元回归模型，解释变量的整体对被解释变量的影响是显著的，并不表明每一个解释变量对它的影响都显著, 因此在做完F检验后还须进行t 检验。2.4 残差均值为零的正态性分析，进行一元线性回归建模的前提是残差 N( 0， 2) 。而结实变量x 去某个特定的值是，对应的残差必然有证有负，但总体上应服从已领为君值得正态分布。可以通过绘制残插图对该问题进行分析。残插图是一种散点图，途中横坐标是结实变量，纵坐标为残差。如果残差的均值为零，则残插图中的点应在纵坐标为零的横线上、下随机散落。三、软件操作一元线性回归的软件操作步骤如图所示。SPSS的输出结果

10、如表所示。模型汇总模型RR 方调整R 方标准估计的误差1.972 a.944.94110.0432a. 预测变量: （常量）, 密度。b. 因变量 : 速度该表中格列数据的含义（从第二列开始）依次是：被解释变量和解释变量的负相关系数、判定系数R2 、调整的系数R2 、回归方程的估计标准误差。依据该表可以进行拟合优度检验。由于判定系数R2 较接近 1，因此认为拟合优度较高，被解释变量可以被模型解释的部分较多，不能被模型解释的部分较少。Anovab模型平方和df均方FSig.1回归37276.268137276.268369.566.000 a残差2219.03122100.865总计394

11、95.29823a. 预测变量: （常量）, 密度。b. 因变量 : 速度该表各项数据的含义（从第一列开始）依次为：被解释变量的表差来源，离差平方和。自由度、方程、回归方程显著性检验中F 检验统计量的观测值和概率P 值。由表可知，F检验统计量的观测值为，369.56，对应的概率P值为 0.000。如果显著性水平取0.05，由于概率 P 值小于显著性水平，所以应该拒绝原假设，认为，被解释变量与及时变量的线形关系是显著的，可以建立线性模型。系数模型非标准化系数标准系数tSig.B标准误差试用版1（常量）153.3443.98738.462.000密度-3.893.202-.972-19.22

12、4.000a. 因变量 : 速度该表中各列数据的含义（第二列开始）依次为：偏回归系数，偏回归系数的标准误差，标准化偏回归系数、回归系数显著性检验中t检验统计量的观测值、对应的概率P值。从表中可以看出，产量和密度对应的概率P值均为0.000。若取显著性水平为0.05，则应拒绝原假设，认为密度与速度的线性关系显著。残差统计量极小值极大值均值标准偏差N预测值2.312123.37187.60840.258024残差-11.862221.2178.00009.822424标准预测值-2.119.888.0001.00024标准残差-1.1812.113.000.97824a. 因变量 : 速度该表

13、中可以看出，残差和标准残差的均值均为0，符合残差均值为零的正态性分析。综上，该公路上速度与密度的一元线性回归模型为：V8. 393K153. 344，其中，V 表示速度，K 表示密度。第 17题为了分析双车道公路上驾驶人超车行为及其影响因素，应用超车试验研究了超车过程中同向的车流间隙对驾驶人换车道的影响。此次试验共采集到有效样本数据 342 条，表中给出了部分试验数据整理结果。请用logistic 回归模型标定出换道行为模型。本题可采用二元logistic回归分析对换道行为进行标定。一、二元Logistic 回归基本原理当被解释变量为0/1 二分类变量时，虽然无法直接采用一般线性回归模型建模

14、，但可充分借鉴其理论模型和分析思路。利用一般线性回归模型对被解释变量取值为1 的概率进行建模，此时回归方程被解释变量的实际取值范围在01 之间。回归方程的一般形式为：Py 101x现将 P 转换为p1p对对两边取对数，并建立被解释变量与解释变量之间的多元分析模型，即ln （ p ）1pk0i xii11k1 exp（ -（0i xi ）i1该式即被解释变量预测为1 类的模型。二、软件操作二元 logistic 回归模型的SPSS操作如图所示。操作中，对换道行为进行了分类设置：超车成功=1，超车失败=2。分类表已观测已预测超车百分比校正失败成功步骤0 超车失败04.0成功100.0总计百分比66

15、.7a. 模型中包括常量。b. 切割值为.5该表显示了logistic 分析初级阶段（第0 步，方程中只有常数项，其他回归系数约束为0），的混淆矩阵。可以看待，有4 人超车失败但模型预测错误，正确率为0%，有 8人超车成功模型预测正确，正确率为100%。模型总的预测正确率为66.7%。方程中的变量BS.E,WalsdfSig.Exp (B)步骤0 常量.693.6121.2811.2582.000该表为方层中只有常数项时回归系数方面的指标，由于此时模型中未包含任何解释变量，该表并没有实际意义。不在方程中的变量得分dfSig.步骤0 变量速度10.1701.001车头间距.5681.451车

16、头时距3.2101.073总统计量10.8023.013该表显示了待进入方程的各解释变量的情况。可以看到，下一波速度。车头间距和车头时距进入方程，则Score 检验统计量的鬼厕纸和概率P值分别依次是10.170、 0.001， 0.568、0.451,3.210,0.073。如果显著性水平为0.05，则由于车头间距和车头时距的概率P 值大于显著性水平，所以不能进入方程。100%。从而车辆环分类表 a已观测已预测超车百分比校正失败成功失败超车步骤1成功总计百分比4008100.0100.0100.0a. 切割值为.500岛行为模型的标定仅与行车速度有关。方程中的变量BS.E,WalsdfSig.Exp (B)EXP(B) 的 95% C.I.下限上限速度步骤1 a常量4.729-145.0711693.79453532.647.000.00011.998.998113.156.000.000.a. 在步骤 1 中输入的变量: 速度 .从而得到换到行为的logistic 回归模型标定结果ln （ p ）4. 729 - 145. 071V （ 1）1p2）11exp（ -（ 4. 729 145. 071V）则式（ 2）为超车成功的标定模型，其中，V 为行车速度。

展开阅读全文