7第八章相关分析和回归分析.ppt

上传人:韩长文 文档编号:7226667 上传时间:2020-11-07 格式:PPT 页数:90 大小:809.51KB
返回 下载 相关 举报
7第八章相关分析和回归分析.ppt_第1页
第1页 / 共90页
7第八章相关分析和回归分析.ppt_第2页
第2页 / 共90页
7第八章相关分析和回归分析.ppt_第3页
第3页 / 共90页
7第八章相关分析和回归分析.ppt_第4页
第4页 / 共90页
7第八章相关分析和回归分析.ppt_第5页
第5页 / 共90页
点击查看更多>>
资源描述

《7第八章相关分析和回归分析.ppt》由会员分享,可在线阅读,更多相关《7第八章相关分析和回归分析.ppt(90页珍藏版)》请在三一文库上搜索。

1、第八章 相关分析和回归分析,8.1 相关分析和回归分析概述 8.2 相关分析 8.3 直线回归 8.4 多元线性回归 8.5 逐步回归 8.6 非线性回归,8.1 相关、回归分析概述,相关分析计算反映各变量之间相关密切程度和性质的统计数。,8.1.1 相关分析概述,简单相关:研究两变量直线相关的密切程度和性质,也称直线相关。 偏相关:排除其余的影响因子,求出x 与y的纯相关,这种相关称偏相关。 复相关:研究一个变量与一组变量之间的相关性关系。 典型相关:研究两组变量的相关性。,8.1.2 回归分析概述,由自变数预测因变数的问题都叫回归分析。,相关分析反映各变量间相关密切程度,回归分析反映因变量

2、(Y)和自变量(X)之间的数量关系,用回归方程表示。回归模型不一定是因果关系,自变量可多于一个。,回归分析依自变量个数的多少分为:一元回归和多元回归 因变量和自变量间关系的性质分:线性回归和非线性回归,回归分析的SAS过程:主要有REG(回归分析) GLM (广义线性模型),如由温度表水银柱高度(X)来估计温度(Y )时,自变量实际上是依赖于因变量。,1 简单相关 2 偏相关 3 复相关,8.2 相关分析,(Analysis of Correlation),补:秩相关,1 简单相关,简单相关: 是对有联系的两类事物(x与y)表面关系密切程度的衡量。,(Simple Correlation),一

3、、简单相关系数,二、简单相关系数r的显著性测验,由d.f=n-2查出相关系数的临界值r0.05 、r0.01(degree of freedom),SAS直接输出prob|r|概率值,记为a.,统计假设H0:总体相关系数=0,若a 0.05,接受H0,相关不显著,即总体x与y间不存在相关关系。 若0.01a 0.05,拒绝H0,相关显著,即总体x与y间存在相关关系。 若a 0.01,接受H0,相关极显著,即总体x与y间存在相关关系。,P175,data s; input x y; cards; 77 8.8 64 7.9 73 3.5 ;,例8.3 橡胶树幼苗期刺检干胶产量(x,毫克)与正式割

4、胶量(y,克)如下表,试求x与y的相关系数并画出y关于x的散点图。,三、简单相关实例,proc corr; var x y; /*求r*/ Proc chart; plot y*x; /*散点图*/ run;,Correlation Analysis 2 VAR Variables: X Y Simple Statistics Variable N Mean Std Dev Sum X 26 92.0385 30.4427 2393.0000 Y 26 9.1115 3.3269 236.9000 Variable Minimum Maximum X 61.0000 188.0000 y 3.

5、5000 17.7000,SAS输出结果:,Pearson Correlation Coefficients / Prob |R| under Ho: Rho=0 / N = 26 X Y X 1.00000 0.71019 0.0 0.0001 Y 0.71019 1.00000 0.0001 0.0,结论:因r=0.71019,其出现的概率=0.00010.01,极显著,表示刺检干胶量与正式割胶量存在极显著的简单相关关系。,2 偏相关(Partial Correlation),1.一级偏相关系数,简单相关是数字间的表面联系,如需了解x与y的本质联系,必须排除其余的影响因子,以得出x 与y的

6、纯相关,这种相关称偏相关。,如果考查xi 、xj 、xk三个变数,则固定xk后,xi与xj之间的相关称为一级偏相关。,如果有xi ,xj ,xk, xl四个变数,则用统计方法固定xk, xl后,xi与xj之间的相关称为二级偏相关。,通式:,其显著性由df=n-4查r0.05及r0.01确定。,2.二级偏相关系数,(Multiple correlation),3 复相关(或多重相关),研究一个变量与一组变量之间的相关关系,即多元相关或复相关分析。,意义:复相关是因变数关于若干个自变数间关系密切程度的衡量。并以决定系数R2为衡量的标准。,一般,y关于x1,x2,xk的复相关系数:,数值范围:,(2

7、).R的显著性测验,Df1=p df2=n-p-1,复相关系数及显著性测验将在多元线性回归方程的SAS程序中输出。,P167例8.1 橡胶树白粉病最终病情指数(x1)与最冷月的平均温度(x2)及一月份平均温度(x3)十三年记录资料如表5.2,试求简单相关系数、偏相关系数r12.3及r13.2。,表8.2 橡胶树病情指数与温度表,proc gplot; plot x1*x2; proc gplot; plot x1*x3; proc corr; /* 简单相关 */ proc corr; var x1 x2; partial x3; /* r12.3 */ proc corr; var x1 x

8、3; partial x2; /* r13.2 */ run;,data temp; input x1 x2 x3; cards; 0.4 15.3 15.3 52.3 15.8 16.4 11.8 15.2 15.2 51.6 17.6 17.9 42.7 16.3 16.3 41.5 15.5 15.5 33.7 15.8 15.8 12.5 15.0 15.0 36.6 15.8 15.8 50.7 16.0 16.0 2.5 13.7 13.7 35.2 16.2 16.6 0.4 13.1 15.1 ;,主要的输出结果如下:,统计结论: r12=0.79949 p=0.0010.05

9、 相关不显著 r13.2=0.27108 p=0.271080.05 相关不显著,实例:p170,例8.2 腰果分期播种试验,采用10天播种一次,每次 播种10粒。1986年4月至1987年3月,共进行33次分期 播种。表11是腰果种子发芽“普遍期”天数、平均气 温、平均最低气温、及平均最高气温的观察资料。试 求简单相关系数及二级偏相关系数。,表8.3 腰果种子“普遍期”天数与气温表,data cashew; input x1 x2 x3 x4 ; cards; 12 29.0 24.2 34.6 . 42 19.2 14.9 25.2 ; proc corr; var x1 x2 x3 x4

10、; proc corr; var x3 x4; partial x2; proc corr; var x1 x4; partial x2 x3; run;,Correlation Analysis 2 PARTIAL Variables: X2 X3 2 VAR Variables: X1 X4 Pearson Partial Correlation Coefficients / Prob |R| under Ho: Partial Rho=0 / N = 33 X1 X4 X1 1.00000 0.07517 0.0 0.6878 X4 0.07517 1.00000 0.6878 0.0,

11、统计结论: r34.2=-0.8031 p=0.00010.05 相关不显著,部分输出结果:,组合代号 X1 X2 X3 Y 1 10.37 29.56 33.31 10.520 2 10.47 34.25 29.05 10.070 3 9.67 35.25 37.65 12.790 4 9.87 29.25 31.52 9.230 5 8.20 37.85 33.62 10.360 6 8.67 37.78 38.09 12.570 7 10.03 40.97 30.42 12.560 8 9.00 46.00 29.10 11.388 9 10.07 39.73 32.06 12.830,

12、实习四,实 习,作业:21个小麦双列杂交组合F1的单株产量y(克),每株穗数x1,每穗的粒数x2,千粒重x3(克)数据如下:,组合代号 X1 X2 X3 Y 10 10.57 36.30 30.59 11.800 11 8.73 37.10 27.17 8.730 12 10.20 35.67 32.21 11.790 13 8.93 35.44 33.22 10.420 14 9.83 34.28 28.40 9.830 15 8.60 33.31 35.49 10.920 16 8.83 35.10 27.54 8.440 17 8.80 34.45 34.20 10.500 18 8.8

13、0 30.65 29.47 7.940 19 9.40 31.20 30.75 8.830 20 10.03 39.27 29.21 11.330,试求ry1、ry3、ry1.2、 ry1.23 , 并确定其显著性。, input x y ; cards; 77 8.8 64 7.9 73 3.5 ; proc reg corr; model y=x/ cli clm; /*CLI输出Y值的95%预测区间*/ Plot y*x/conf95; run;,其SAS程序:,四、直线回归实例,SAS输出结果:,说明:proc reg corr; 选项corr输出变量间的简单相关系数,决定系数,修正决

14、定系数,截距,截距a=2.00746,其标准误为1.53037。 回归系数b=0.07709,其标准误为0.01580,t=4.88,p0.0001,可认为总体回归系数不为零。建立刺检干胶量(x)与正式割胶产量(y)的回归方程为:,在图的上方列出了回归方程,右方还给出了观测个数、R2、修正的R2、剩余标准差。,例2(作业) 一些夏季害虫盛发期的早迟和春季温度高低有关。江苏武进连续9年测定3月下旬至4月中旬的平均积温(x,旬.度)和水稻一代三化螟盛发期(y,以5月10日为0)的关系,得结果于表:,1. 试计算其直线回归方程。t160,累积温和一代三化螟盛发期的关系,2. 当3月下旬至4月中旬的积

15、温40旬.度时, (1)历年的一代三化螟平均盛发期在何时(取95可靠度)。 (2)估计该年的一代三化螟盛发期在何时(取95可靠度)。,data latex; input x y ; cards; 35.5 12 34.1 16 31.7 9 40.3 2 36.8 7 40.2 3 31.7 13 39.2 9 44.2 -1 40 . ;,proc reg corr; model y=x/ cli clm; /*CLI输出Y值的95%预测区间*/ Plot y*x/conf95; run;,结果解释:,回归方程为:,方程中b=1.1的意义:当3月下旬至4月中旬的平均积温(x)每提高1旬.度时

16、,一代三化螟胜发期平均将提早1.1天。,a=48.5的意义:若x=0,则一代三化螟胜发期将在6月27-28日(因y以5月10日为0)。,当x=40,即3月下旬至4月中旬的积温40旬.度的年份,其一代三化螟胜发期的95置信区间为1.4,7.7,即5月12-18日。,即某年3月下旬至4月中旬的积温40旬.度时,该年一代三化螟胜发期的95置信区间为-3.8,12.9,即5月6-23日。,8.4 多元线性回归,多元线性回归分析是研究一因变量与多个自变量间关系的统计方法。,一、多元线性回归的实际意义,多元回归分析主要解决: 1)各个自变数对因变数的各自效应,即偏回归系数。 2)建立由自变数描述和预测因变

17、数的多元回归方程,计算标准误。 3)对自变数进行选择,建立最优回归方程。 4)评定各个自变数对因变数的相对重要性。,二、多元线性回归方程(K变元),式中:b0为常数,当x1-xk均为0时y的点估计值; b1,b2,bk为偏回归系数,它表示当其它自变数都固定时,某一自变数每变化一个单位而使因变量平均改变的数值,绝对值愈大,该因素就愈重要(但受单位影响),这些b均由正规方程组(略)求出。,三、回归方程的显著性测验,五. 多元回归分析的SAS书写格式: proc reg; model 因变量串=自变量串/ 选项串;,四、多元线性回归实例,1. 二元线性回归,例 为研究橡胶树白粉病的流行规律,以越冬期

18、最冷 月平均温度(摄氏,x1)和越冬总发病率(x2)预测最 终病情指数(y),10年结果如下:,求二元回归方程,并预测1977年最终病情指数值。,data dise; input year x1 x2 y ; cards; 1965 15.2 1.4 11.8 1966 17.6 10.0 51.6 1967 16.3 9.3 42.7 1968 15.5 1.6 41.5 1971 15.0 5.0 12.5 1972 15.8 5.0 36.6 1973 16.0 10.7 50.7 1974 13.7 0 2.5 1975 16.2 5.6 35.2 1976 13.1 0 0.5 19

19、77 16.2 0.8 . ; proc reg; model y=x1 x2/cli; run;,求二元回归方程,预测出1977年最终病情指数值 95%的预测区间为-0.0675,62.2621,2:三元线性回归,P180例8.4 甘蔗糖分与气象资料如表8.5。试求y关于x1, x2,x3的线性回归方程,并对方程作显著性测验。当 方程达显著时,再对1984年糖分作预测。,data sgca; input y x1-x3; cards; 13.93 408.6 834.3 13.85 460.9 833.0 . 11.59 480.4 831.5 . 390.0 804.6 ; proc re

20、g; model y=x1-x3/stb cli; run;,SAS结果及解释P147,SAS主要输出,8.5 逐步回归,一、最优回归方程的选择方法,PROC REG; MODEL 因变数=自变数/选项;,选项SELECTION=模型选择方法,包括NONE(或默认,全模型),STEPWISE(逐步回归),FORWARD(逐个选入),BACKWARD(逐个剔除),MAXR(最大R2增量法)等;设定概率水平,SLSTYR(简记SLS)=剔除时概率水平,SLENTRY(简记SLE)=选入时概率水平,缺省时为0.15。,最优回归方程的定义:一个方程,仅包含对y显著的所有自变数,而不含对y不显著的自变数

21、,称此方程为最优方程。,The Stepwise Regression,二、逐步回归法,按自变数对y作用的程度,从大到小依次逐个引入方程,当先引入的变数由于在后面引进的变数而变得都不显著时,随时将它们从回归剔除,直到在回归的变数都不能被剔除,而又没有新的变数可引入时,逐步回归过程即告结束,最后为最优方程或称最优回归方程。,三、实例,P184例8.5 甘蔗糖分与气象资料如表8.5。试求y关于x1, x2,x3的逐步回归方程。并用该方程对1984年糖分作预测。,data sgca; input y x1-x3; cards; 13.93 408.6 83 4.3 . . . . . . 11.59

22、 480.4 83 1.5 . 390.0 80 4.6 ; proc reg; model y=x1-x3/Selection=stepwise sle=0.10 sls=0.10; run; 或proc stepwise; model y=x1-x3; run;,引入水平,提除水平,输出结果看书P150-152,SAS输出与说明,最优回归方程为:,data sgca; input y x1-x3; cards; 13.93 408.6 83 4.3 . . . . . . 11.59 480.4 83 1.5 . 390.0 80 4.6 ; proc reg; model y=x1 x3

23、/cli; run;,1984年预测值13.9409 95%预测值区间 12.7193,15.1626,用逐步回归方程预测84年糖分及95%估计区间,8.6 非线性回归,8.6.1 曲线直线化 8.6.2 非线性回归的NILIN过程(自学) 8.6.3 多项式回归分析,当对x与y的联系一无所知时,可先作试探性的点式图或散点图,主要有以下几种代换:,哪种代换的点式图更趋于直线,便选该代换作拟合的直线回归方程(实际x与y是曲线回归)。,8.6.1 曲线直线化,P187例8.6 以下是水渠流速(y)与水深(x)的10对观察值,试求y关于x的回归关系。,Y: 0.636 0.319 0.734 1.3

24、27 0.487 0.924 7.350 X: 0.34 0.29 0.28 0.42 0.29 0.40 0.76 Y: 5.890 1.979 1.124 X: 0.73 0.46 0.40,先作y与x间6种代换的模型散点图及回归线,然后比较各个F值选取F值最大者即为最佳模型,最后确定Y与x的回归方程。,data canal; input y x ; d=sqrt(x); e=sqrt(y); f=log10(y); g=log10(x); w=1/y; t=1/x; cards; 0.636 0.34 0.319 0.29 1.124 0.40 ;,其SAS程序,proc plot; p

25、lot y*x=*; proc reg; model y=x; proc plot; plot y*d=*; proc reg; model y=d; proc plot; plot e*x=*; proc reg; model e=x;,proc plot; plot f*g=*; proc reg; model f=g; proc plot; plot f*x=*; proc reg; model f=x; proc plot; plot w*t=*; proc reg; model w=t; run;,SAS输出结果小结:,模型 F值 显著性 方程 152.814 * y=-3.97+1

26、3.84x 90.618 * y=-10.41+19.19 321.863 * =-0.55+4.16x 129.343 * lgy=1.16+2.77x 115.429 * logy=-0.98+2.47x 21.176 * 1/y=0.132-0.97(1/x),8.6.3 多项式回归分析,若常用的转换仍无法找出显著的直线化方程,可考虑采用多项式逼近。,多项式回归方程通常只能用于描述试验范围内Y依X的变化关系,外推一般不可靠。 多项式回归不属于线性回归,但是一般情况下可通过转换,转化为线性。 例:令x2=x*x ,x3=x*x*x,那么变量Y与x,x2,x3的回归分析类似于线性回归。,多项

27、式方程的一般形式:,多项式回归分析实例,P194例8.8 取某水稻土(PH=5.5),加入Hcl或Na2CO3改变PH值(x),在30下放置28天,然后中和之,测定每100g烘干土中NH+4-N的豪克数(y),得结果于程序数据行,试确定变量y依x的多项式回归方程。,/*数据来源农业试验统计P478*/ DATA NEW; INPUT X Y; X2=X*X; X3=X*X*X; CARDS; 2 13.0 3 9.2 . 9 20.0 ;,PROC REG; MODEL Y=X; MODEL Y=X X2; MODEL Y=X X2 X3; RUN;,主要输出结果: Model: MODEL1

28、 Dependent Variable: Y Analysis of Variance Sum of Mean Source DF Squares Square F Value ProbF Model 1 29.00024 29.00024 0.998 0.3563 Error 6 174.33476 29.05579 C Total 7 203.33500 Root MSE 5.39034 R-square 0.1426 Dep Mean 9.72500 Adj R-sq -0.0003 C.V. 55.42769 Parameter Estimates Parameter Standard

29、 T for H0: Variable DF Estimate Error Parameter=0 Prob |T| INTERCEP 1 5.154762 4.95571021 1.040 0.3384 X 1 0.830952 0.83174792 0.999 0.3563,回归方程为:,data new; input x y; cards; 2 13.0 3 9.2 4 6.6 5 4.7 6 4.0 7 7.1 8 13.2 9 20.0 ; Proc GLM; MODEL Y=X X*X; RUN;,其SAS主要输出:,经管专业作业:现有一组经济增长率与债券价格的数据,希望找出二者之

30、间的关系。要求先进行二次项回归,再考虑一般线性回归。,data aa; input rate price; cards; 0.01127.6 0.48124 0.71110.8 0.95103.9 1.91101.5 0.01130.1 0.48122 1.4492.3 0.71113.1 1.9683.7 0.01128 1.4491.4 1.9686.2 ;,proc glm; model price=rate rate*rate; run;,Standard Parameter Estimate Error t Value Pr |t| Intercept 130.6235863 3.1

31、4436916 41.54 .0001 rate -29.4392583 8.07990085 -3.64 0.0045 rate*rate 4.0237545 3.91194387 1.03 0.3279,可见经济增长率的平方项不具有解释能力,为了更好的回归模型我们删除这项,即,proc glm; model price=rate; run;,Standard Parameter Estimate Error t Value Pr |t| Intercept 128.7147914 2.54503370 50.57 .0001 rate -21.4326668 2.17191314 -9.8

32、7 .0001,SAS输出主要结果:,补: 秩相关分析,简单相关系数要求对变量的测量水平应当至少为间隔量表,有时我们只能测得顺序量表,这时应当用秩相关系数反映变量间的相关关系。,主要:Spearman秩相关系数 和Kendall秩相关系数,定义式略,看统计原理相关知识。,Spearman秩相关系数:,Di=xi-yi,Kendall秩相关系数,按x的排序为自然顺序,计算y的实际评分S。对的记1,错计-1。 将2顺序评分=1+1+(-1)=1, 含4顺序评分=-1-1=-2, 含3顺序评分=-1。则y的实际评分: S=1-2-1=-2,秩相关分析SAS程序,对10种品牌的受欢迎度和知名度进行排序

33、,排序结果如下表。,data aa; input x1 x2; cards; 98 42 35 76 1010 23 ; proc corr spearman kendall; run;,Spearman 相关系数, N = 10 当 H0: Rho=0 时,Prob |r| x1 x2 x1 1.00000 0.87879 0.0008 x2 0.87879 1.00000 0.0008 Kendall Tau b 相关系数, N = 10 当 H0: Rho=0 时,Prob |r| x1 x2 x1 1.00000 0.73333 0.0032 x2 0.73333 1.00000 0.0032,

展开阅读全文
相关资源
猜你喜欢
相关搜索

当前位置:首页 > 科普知识


经营许可证编号:宁ICP备18001539号-1