第八章回归分析.ppt

上传人:本田雅阁 文档编号:2981114 上传时间:2019-06-17 格式:PPT 页数:51 大小:1.50MB
返回 下载 相关 举报
第八章回归分析.ppt_第1页
第1页 / 共51页
第八章回归分析.ppt_第2页
第2页 / 共51页
第八章回归分析.ppt_第3页
第3页 / 共51页
第八章回归分析.ppt_第4页
第4页 / 共51页
第八章回归分析.ppt_第5页
第5页 / 共51页
点击查看更多>>
资源描述

《第八章回归分析.ppt》由会员分享,可在线阅读,更多相关《第八章回归分析.ppt(51页珍藏版)》请在三一文库上搜索。

1、2019/6/17,第八章 回归分析,2019/6/17,操作界面:,应用:在两个或多个相关变量之间,有时需要用一个变量或多个变量估计另一个变量,可进行回归分析。,自变量(x):表示原因的变量 依变量(y):表示结果的变量,2019/6/17,线性回归 Linear 曲线回归 Curve Estimation 二元logistic回归 Binary Logistic 多元logistic回归 Multinomial Logistic 概率单位回归 Probit 非线性回归 Nonlinear 加权回归 Weight Estimation 二阶段最小二乘法 2-stage least Squar

2、es,2019/6/17,1. 一元线性回归分析,计算公式:,线性回归方程可记为:,2019/6/17,例1 在四川白鹅的生产性能研究中,得到如下一组关于雏鹅重(g)与70日龄重(g)的数据,试建立70日龄重(y)与雏鹅重(x)的直线回归方程。,对于线性回归分析,要先做散点图考察数据是否满足线性趋势,有线性趋势再做线性回归分析。,2019/6/17,四川白鹅重与70日龄重测定结果,1.数据输入 以x、y分别代表雏鹅重、70日龄重。 定义两个变量“x”、“y”,小数位(Decimals)依题意都定义为0。 输入数据,2019/6/17,2019/6/17,2.回归分析步骤: AnalyzeReg

3、ressionLinear Dependent框:y 依变量为70日龄重y Independents框:x 自变量为雏鹅重x Statistics: 要求输出变量的基本统计量 Descriptives;Estimates;Model fit Continue OK,系统默认,2019/6/17,分析过程说明 单击Analyze(分析)Regression(回归)Linear(线性)弹出线性回归分析对话框,将“y”置入 Dependent框(依变量),变量x置入Independents框(自变量)。 单击Statistics按钮,选中Descriptives,要求输出两变量的基本统计量(有效例数

4、、平均数、标准差及变量间的相关矩阵), Continue返回,OK,则输出,2019/6/17,Estimates: 可输出回归系数b及其标准差、t值和p值、标准化回归系数; Model fit: 模型拟合过程中进入、推出的变量列表及有关拟合优度的检验; Covariance Matrix 输出各个自变量的相关矩阵和方差、协方差矩阵 Descriptives:提供一些变量描述,如有效例数、均数标准差等同时还给出一个自变量间的相关矩阵。 R squared change:显示模型拟合过程中R2、F值和P值的改变情况。,2019/6/17,3.结果分析 两变量基本统计指标 70日龄重平均数x=27

5、20.83,标准差SD=274.937 雏鹅重平均数x=98.5,标准差SD=12.377,2019/6/17,从表中可以看出: R相当于两个变量的相关系数r,r0.977;R square即R的平方值,为决定系数,r20.955; 校正的决定系数r20.951,表示依变量70日龄重的变异中有95.5%是由自变量雏鹅重的不同造成的;,2019/6/17,估计值的标准误差记为:,Syx的大小表示了回归直线与实测点偏差的程度:Syx大,表示回归方程偏离度大;Syx小,表示回归方程偏离度小,2019/6/17,F=213.808,P=0.0000.01,表明四川白鹅70日龄重与雏鹅重间存在极显著的线

6、性回归关系。,2019/6/17,回归系数b=21.712;截距(常数)a=582.185,可建立回归方程:,2019/6/17,截距的标准误差为147.315,回归系数b的标准误差Sb,为1.485,公式为:,2019/6/17,相关系数为0.977。T值为14.622,P=0.0000.01,即线性回归系数为21.712,是极显著的,表明70日龄重与雏鹅重间存在极显著的线性关系,可用所建立的回归方程来进行预测和控制。,由上两表可以看出:方差分析结果与t检验的结果一致,因而在线性回归分析中,这两种检验方法是等价的。,2019/6/17,2. 多元线性回归分析,多元线性回归用于研究一个依变量与

7、多个自变量间的线性依存关系。,例2 根据下述某猪场25头育肥猪4个胴体性状的数据资料,试进行瘦肉量y对眼肌面积(x1)、腿肉量(x2)、腰肉量(x3)的多元线性回归分析。,为常数项;,为偏回归系数。,一般式为:,2019/6/17,2019/6/17,1.数据输入 定义变量“y”、“x1”、“x2”、“x3”。小数位(Decimals)依题意均为2。在相应的Label(标记)单元格内对各自所代表的内容分别进行标记。输入数据。,2.简明分析步骤: AnalyzeRegressionLinear Dependent框:y 依变量为y Independents框:x1、x2、x3 自变量为x1、x2

8、、x3 Method列表框:Enter 该组变量进入方式为Enter OK,2019/6/17,2019/6/17,2.统计分析 简明分析步骤: AnalyzeRegressionLinear Dependent框:y 依变量为y Independents框:x1,x2,x3 自变量为x1,x2,x3 Method列表框:enter 该组变量进入方式为enter OK,2019/6/17,Enter法:把所有自变量(x1、x2、x3)同时都纳入回归方程,“线性回归分析”主对话框:,2019/6/17,分析过程说明 单击Analyze(分析)Regression(回归)Linear(线性)弹出线

9、性回归分析对话框,将“y”置入 Dependent框(依变量),将自变量x1,x2,x3置入Independents框内,同时使Method(方法)下拉式选择框处于Enter位(通常为SPSS默认方式)。即把所有自变量同时都纳入回归方程。单击OK,则输出下表:,2019/6/17,多元回归方程有很多模型,SPSS会给予指出;本例用了Enter模型,即把所有自变量(x1、x2、x3)同时都纳入回归方程,3.结果说明,引入多元回归方程变量的方式,2019/6/17,此表是复相关系数(R)的有关指标,表示自变量与依变量关系的密切程度以及抽样误差。,瘦肉量与有关变量的复相关关系,2019/6/17,此

10、表说明偏回归系数的抽样误差大小,即检测其是否具有统计学意义。F=37.154,P0.0000.01,表明猪瘦肉量y与眼肌面积x1、腿肉量x2、腰肉量x3的综合线性影响是极显著的。,偏回归系数的方差分析(F检验),2019/6/17,各变量偏回归系数及其检验,上表表示多元回归方程的常数项、各自变量的偏回归系数及它们抽样误差的大小,并对各自的抽样误差作假设检验(t检验)。 因此可建立多元回归方程:,2019/6/17,y=0.857+0.019x1+2.073x2+1.938x3 但从表中看,偏回归系数b1 (眼肌面积)、b2 (腿肉量)、b3 (腰肉量)相应的t值和显著性概率分别为: tb10.

11、632,Pb10.5340.05; tb2=7.673, Pb2=0.0000.01; tb3=3.775, Pb3=0.0010.01。 所以偏回归系数b1不显著,而偏回归系数b2、b3极显著,说明眼肌面积对瘦肉量的影响不显著,因而该回归方程不是最优方程。 关于此问题下面讨论。,2019/6/17,3. 逐步回归分析,在多元线性回归方程中,若有一个或几个偏回归系数不显著时,说明其对应的自变量对依变量的作用不显著,或说其在回归方程中不重要,此时应从回归方程中剔除一个不显著的偏回归系数对应的自变量,重新建立多元线性回归方程,再对新方程作新的显著性检验,直至多元线性回归方程显著,且各个偏回归系数都

12、显著为止。此时的多元线性回归方程即为最优多元线性回归方程。,建立最有回归方程的方法很多,常用的是逐步回归法(Stepwise) 该方法是按一定的步骤依次将自变量代人回归方程进行检验,最后选出对依变量影响最大的自变量建立回归方程。,2019/6/17,例3:依例2的数据为例分析,简明分析步骤: AnalyzeRegressionLinear Dependent框:y 依变量为y Independents框:x1、x2、x3 自变量为x1、x2、x3 Method列表框:Stepwise 该组变量进入方式为逐步法 OK,2019/6/17,逐步回归法分析上组数据:,2019/6/17,Eenter

13、(强行进入法):把自变量全部放入回归方程中,不管变量在模型中的作用。当对反映研究对象特征的变量认识比较全面时可以选择此法,一般为系统默认选项。 Stepwise(逐步回归法):先将作用最显著的变量引进模型,在此基础上引进对模型作用最显著的第二个变量,且对原变量做检验,及时剔除不显著的变量然后再考虑引进新变量。依次类推。直至既不能再引入新变量又不能从模型中剔除变量为止。常用! Remove(消去法):建立回归方程时,根据设定的条件剔除部分自变量。,方法:,2019/6/17,Forward(向前引进变量法):根据一定的判据,先引进作用最显著的一个变量,然后依次引入作用最显著的变量,直到没有显著变

14、量引进为止,即变量只进不出。 Backward(向后剔除变量法):此法与向前引进变量法完全相反。它是把所有的用户指定的m个变量建立一个全模型,然后根据各变量的显著性,将最不显著的变量剔除模型,建立依变量y与剩下的m-1个变量的回归方程,依次重复下去,直到所有变量作用都显著。即变量只出不进。,2019/6/17,上述几种方法的差异: 强行进入法虽然简单,但看不出变量之间的内在关系,不利于进一步研究和探讨。 消去法的设定条件带有一定的主观性。 向前引进变量法计算量少,但由于变量之间可能有相关关系,计算初期引入的变量当时是显著的,但随着其他变量的引入,就有可能使初期引入的变量由显著变为不显著; 向后

15、剔除变量法也可能由于变量之间的相关关系,当被剔除的变量较多时,可能使本来显著的变量也被剔除掉。 逐步法是向前引进变量法和向后剔除变量法的综合运用,既吸收了这两种方法的优点,又克服了它们的不足。较为常用。,2019/6/17,第一列表示过程的次序; 第二列表示引进的变量 第三列表示剔除的变量; 第四列表示引进或剔除变量的标准 表中显示第一次引进的变量是腿肉量(模型1)、第二次引进的变量是腰肉量(模型2),且引进的变量没有被剔除。,逐步回归结果,向回归方程中引进自变量的步骤,2019/6/17,对回归方程影响最大的自变量被依次引入回归方程后,其复相关系数R(表示自变量与依变量的密切程度)逐渐变大,

16、估计标准误差(示自变量的影响因素被扣除后,依变量本身的变异)逐渐变小。如腿肉量被引入回归方程时,其复相关系数R为0.851,估计标准误差为0.582,当腰肉量被引进回归方程时,其R=0.916,标准误差为0.456.说明复相关系数逐渐变大,估计标准误差逐渐变小。,自变量被引入回归回归方程后复相关系数的变化。,2019/6/17,方差分析表,2019/6/17,上表是各部引入影响最大的变量后对其各自的偏回归系数的方差分析。 在Model 1,变量“腿肉量x2”引入回归方程后,其偏回归系数的F=60.624,P(sig.)0,P0.01;在Model 2,变量“腿肉量x2”和“腰肉量x3”引入回归

17、方程后,其偏回归系数的F=57.089, P(sig.)00.01,可见变量“腿肉量x2” 、“腰肉量x3”依次被引入回归方程时对回归方程的影响均极显著; 而眼肌面积x1的偏回归系数b1无统计学意义,即对回归方程的影响不大,故未被引入回归方程。,2019/6/17,各步引入对回归方程影响最大的变量的时有关的偏回归系数及t检验。 第一次引入腿肉量时所得方程:y=2.595+2.453x2; 第二次引入变量腰肉量所得方程:y=1.128+2.102x2+1.976x3 自变量x2、x3所对应的P值分别为0.000、0.001,均小于0.01.说明回归检验均有非常高的显著性。,偏回归系数及其t检验,

18、2019/6/17,剔除变量情况,2019/6/17,上表表示各变量未引入回归方程时偏回归系数的变化及假设检验,以及偏相关(Partial Correlation)系数的变化情况。 由表知,在模型1中腰肉量x3的t=3.931,P=0.0010.01,故“腰肉量”被引入方程; 没有引入方程的变量“眼肌面积”在模型1和2中其P值均大于0.05,无显著统计学意义,故为不重要变量。 综上所述,可认为逐步回归方程 y=1.128+2.102x2+1.976x3 是最优回归模型。,2019/6/17,4. 曲线回归分析,在实际生产中,变量间的相关关系并非一定是线性关系,更多的是各种各样的曲线关系。例如细

19、菌的繁殖速率与温度的关系,禽畜在生长发育过程中各种生理指标与年龄的关系,鱼的体长与体重的关系,药物的致死浓度与致死率的关系,作物的施肥量和产量的关系,光照强度和光合作用效率的关系等等。在许多情况下,曲线回归可以通过变量转换成线性形式来解决。 SPSS中对两个变量的回归分析提供了Curve Estimation过程。拟合许多常用曲线,选出最佳模型。一般有11种模型可供拟合:,2019/6/17,1 线性方程(Linear) y=b0+b1x 2 对数曲线方程(Logarithmic) y=b0+b1(lnx) 3 反函数曲线方程(Inverse) y=b0+b1/x 4 二次曲线方程(Quadr

20、atic) y=b0+b1x+b2x2 5 三次曲线方程(Cubic) y=b0+b1x+b2x2+b3x3 6 符合曲线方程(Compound) y=b0(b1)x 7 幂函数曲线方程(Power) y=b0xb1 8 S形曲线方程(S) y=e(b0+b1)/x 9 生长曲线方程 (Growth) y=e(b0+b1)x 10 指数曲线方程(Exponential) y=b0eb1x 11 Logistic曲线方程(Logistic) y=1/(1/u+b0(b1)x),2019/6/17,例4 测定了8尾雌性鲟鱼的体长(cm)和体重(kg),结果如下表。试对鲟鱼的体重与体长进行回归分析。

21、,鲟鱼体长与体重数据表,1.数据输入 定义变量“体长x”、“体重y”,小数位(Decimals)都定义为2;输入数据。,2019/6/17,2.简明分析步骤 AnalyzeRegressionCurve Estimation Dependent框:体重y 依变量为体重y Independent框:体长x 自变量为体长x Models 选择所需的曲线方程 OK,2019/6/17,在Model框中选择所需曲线方程(本例因没有把握确定体重与体长的曲线拟合适用哪一种曲线方程,故选中了十种曲线方程),2019/6/17,3.结果显示,上表列出了所选择的10种曲线方程的回归系数b0(常数项)、b1、b2

22、、b3,拟合度(即相关系数)R2、自由度df,回归方程显著性检验的F值,显著性概率(sig.),拟合曲线的参数,2019/6/17,由上表可见,本例所有的曲线模型均达到极显著水准P0.01,这可能与样本含量太少有关。 相关指数R2的大小表示了回归曲线方程估测的可靠程度的高低; 本例相关指数最大的是幂函数曲线方程(Power) R2 =0.984,故幂函数曲线方程为描述体重与体长关系的最优方程。,2019/6/17,所选择的10中回归方程的曲线图,2019/6/17,1 线性方程(Linear) y=-18.221+0.237x 2 对数曲线方程(Logarithmic) y=-110.782+

23、25.481(lnx) 3 反函数曲线方程(Inverse) y=33.0626-2523.610/x 4 二次曲线方程(Quadratic) y=9.4158-0.2658x+0.002x2 5 三次曲线方程(Cubic) y=0.2157+0.00x-0.0003x2+7.08*10-6x3 6 符合曲线方程(Compound) y=0.1491(1.0327)x 7 幂函数曲线方程(Power) y=2.07*107x3.6492 8 S形曲线方程(S) y=e(5.392-382.771)/x 9 生长曲线方程 (Growth) y=e(-1.9034+0.0322)x 10 指数曲线方程(Exponential) y=0.149e0.0322x 本例所有曲线模型均达到极显著水平P0.01,这可能与样本含量太少有关。,

展开阅读全文
相关资源
猜你喜欢
相关搜索

当前位置:首页 > 其他


经营许可证编号:宁ICP备18001539号-1