第四相关与回归Chapter4RegressionandCorrelation.ppt

上传人:本田雅阁 文档编号:2585383 上传时间:2019-04-12 格式:PPT 页数:41 大小:312.51KB
返回 下载 相关 举报
第四相关与回归Chapter4RegressionandCorrelation.ppt_第1页
第1页 / 共41页
第四相关与回归Chapter4RegressionandCorrelation.ppt_第2页
第2页 / 共41页
第四相关与回归Chapter4RegressionandCorrelation.ppt_第3页
第3页 / 共41页
亲,该文档总共41页,到这儿已超出免费预览范围,如果喜欢就下载吧!
资源描述

《第四相关与回归Chapter4RegressionandCorrelation.ppt》由会员分享,可在线阅读,更多相关《第四相关与回归Chapter4RegressionandCorrelation.ppt(41页珍藏版)》请在三一文库上搜索。

1、第四章 相关与回归 Chapter 4: Regression and Correlation,在回归模型中,X是试验时预先确定的,没有误差或误差很小,而Y不仅随着X的变化而变化,并且有随机误差,X称为自变量,Y称为依变量。在回归模型中除有自变量和依变量的區别外,尚有预测的特征。回归模型资料的统计方法叫回归分析,确定由X来预测或控制Y的回归方程,并确定当给X某一个值时Y将会在什么范围内变化。,从统计学上讲,X和Y变数的关系有两种理论模型:第一种叫回归模型;第二种叫相关模型。,在相关模型中,X和Y变数是平行变化关系,均具有随机误差,所表示的只是两个变数的偕同变异,没有自变数和依变数之分,也不具有

2、预测的性质。相关模型资料的统计方法叫相关分析,其目的是要测定两个变数在数量关系上的密切程度和性质。,4.1 直线回归方程,回归系数,回归截距,确定直线回归方程的方法有最小二乘法、高斯牛顿法、麦夸特法、牛顿法、梯度法、正割法等等。这里重点给大家介绍最小二乘法。,分别对上式的a和b求偏导:,解方程组得:,a称为截距;b成为斜率;Q称为离回归平方和或称为剩余平方和;U称为回归平方和;Sy/x称为回归估计标准误。,因方程使用了a,b两个统计数,故自由度为n2。,例 测定水稻播种至齐穗的天数和播种至齐穗的总积温的数据如下。请确定X与Y的变化关系。 表 播种至齐穗的天数X和播种至齐穗的总积温Y的关系,解:

3、以X为横坐标,Y为纵坐标绘制散点图。从散点图可以看出Y与X有回归关系,Y随着X变大而上升,可以选用一元线性回归方程拟合Y与X的回归关系。,因此,该例数据的回归直线方程为:,Old Y Fitted Y Residuals STD Residuals 1421.80 1429.89 -8.09 -0.28 1423.30 1429.89 -6.59 -0.34 1440.70 1439.97 0.73 0.03 1471.30 1439.97 31.33 1.33 1440.00 1470.23 -30.23 -1.28 1547.10 1520.66 26.44 1.11 1533.00 15

4、61.01 -28.01 -1.19 1610.90 1591.26 19.64 0.83 1616.30 1621.52 -5.22 -0.22,表 残差值,残差的方差及标准差为:,用Se对残差进行标准,得到标准化残差,结果见上表。 计算Y总体平均数的95%置信区间,计算公式如下所示,其结果包括总体平均数在内。,UCL: upper confidence limit LCL: lower confidence limit,计算y值的95%置信区间的计算公式:,X Y LCL95 UCL95 51.00 1421.80 1408.84 1450.93 51.00 1423.30 1408.84

5、 1450.93 52.00 1440.70 1420.37 1459.58 52.00 1471.30 1420.37 1459.58 55.00 1440.00 1454.02 1486.44 60.00 1547.10 1505.16 1536.16 64.00 1533.00 1541.40 1580.61 67.00 1610.90 1567.03 1615.49 70.00 1616.30 1592.01 1651.03,表 95%置信区间,图 Y的95%置信区间,包括总体平均数在内 95%可靠度的置信区间,一般来讲,y关于x的回归方程y=f(x)是未知的,由样本来拟合是一种探索的

6、过程,或者说是一个选择合适的函数逼近的过程。,直线回归的显著测验:,b的显著性测验:,b的(1-)*100%的置信区间为:,a的显著性测验:,a的(1-)*100%的置信区间为:,回归关系的作用:,1、预测 在x=x0处,用y=a+bx进行预测。预测包括平均值的预测和个别值的预测。,平均值预测,个别值预测,2、控制 控制问题是预测的反问题。若要求y的个别值在y1,y2内的可靠性为(1-)100%时,应该把x值控制在什末范围内?,非线性模型参数的计算及其检验:,在生物学研究领域中,许多变量间的关系呈非线性关系(curvilinear relations)。非线性模型的形式是多种多样的,这里只讨论

7、在农学和生物学研究中常遇到的非线性模型。 如:昆虫种群的增长过程,病害的发展过程等等。,对这类模型参数据的求解有两种方法:一是将非线性模型线性化,然后按直线模型参数的求解过程确定其参数,并进行检验;二是采用Gauss-Newton法、Marquart法、Newton法、Gradient法、DUD法等进行参数的求解。下面以实例详细说明计算过程。,4.2 非线性回归方程,请参见课本第170页。,非线性回归方程参数的求解过程:,(1)整理数据 (2)画散点图 (3)选方程 (4)线性化 (5)求解参数 (6)参数带回原方程,例1 美国纽约1980年观察到马铃薯晚疫病(Phytophthora inf

8、estans)在四个马铃薯品种(Katahdin, Kennebec, Monona, Sebago)上的严重度,结果见下表,请用 Gompertz, Monomolecular和Logistic模型拟合数据。,接种天数 重复 严重度 Katahdin Kennebec Monona Sebago 11 1 0.0 0.0 0.0 0.0 2 0.0 0.0 0.0 0.0 3 0.0 0.0 0.0 0.0 4 0.0 0.0 0.0 0.0 14 1 2.5 0.9 11.8 0.7 2 11.8 0.8 7.8 1.7 3 2.3 1.7 2.8 1.0 4 3.9 1.0 8.0 1.

9、4 。 37 1 98.3 92.5 100.0 75.5 2 98.3 89.3 100.0 79.5 3 98.0 87.5 100.0 83.0 4 98.3 88.8 100.0 78.0,表 四个马铃薯品种上晚疫病发生程度数据,马铃薯上晚疫病发生过程的三点图,天,病害严重度,根据散点图趋势,选择较适合的曲线模型:,单分子模型:,Gompertz模型:,Logistic模型:,单分子模型:ln 1 / (1-y) = - lnA + Bt,Gompertz模型:ln 1 / ln ( 1/y ) = - lnA + Bt,Logistic模型:ln y / (1-y) = A + Bt

10、,非线性模型的线性化形式:,参数 参数估计 T 概率值 INTERCEPT -6.7654 -24.36 0.0001 DAY 0.2879 27.07 0.0001,Logistic线性模型的参数估计:,参数 参数估计 T 概率值 INTERCEPT -4.3666 -20.40 0.0001 Day 0.2139 26.10 0.0001,Gompertz线性模型的参数估计:,参数 参数估计 T 概率值 INTERCEPT -2.1898 -8.64 0.0001 DAY 0.1458 14.23 0.0001,Monomolecular线性模型的参数估计:,Monomolecular:

11、M = - 2.1898 + 0.1458 DAY Gompertz: G = - 4.3667 + 0.2140 DAY Logistic: L = - 6.7655 + 0.2880 DAY,三个模型的线性化形式:,三模型的非线性化形式:,Monomolecular:,Gompertz:,Logistic:,例2 酵母种群的增长资料如下表,试拟合生长模型。,表 酵母种群增长资料,时刻X 酵母数Y 时刻X 酵母数Y 0 9.6 10 513.3 1 18.3 11 559.7 2 29.0 12 594.8 3 47.2 13 629.4 4 71.1 14 640.8 5 119.1 15

12、 651.1 6 174.6 16 655.9 7 257.3 17 659.6 8 350.7 18 661.8 9 441.0,制作散点图,选择适合的曲线方程, 这里以Logistic方程为例,说明非线性方程参数的求解过程。,Dmlog;clear;output;clear; Options font=sasfont 8; DATA NEW; INPUT x y; Cards; 0 9.6 1 18.3 。 PROC NLIN METHOD=DUD BEST=2; PARMS K=661 TO 665 BY 2 A=3 TO 5 B=-0.6 TO -0.4 BY 0.1; MODEL y

13、=K/(1+EXP(A+B*x); RUN;,采用DUD法求解Logistic方程的参数:,表 Logistic参数估计表,参数 参数估计 标准误 95%下限 95%上限 K 663.0 1.7027 659.4 666.6 A 4.2708 0 .0409 4.1841 4.3575 B -0.5470 0.00558 -0.5588 -0.5352,Logistic方程为:,4.3 相关分析,相关系数:用r来表示,其取值范围为1到1,表示两个变数间相关的密切程度和性质。r的绝对值愈大表示两个变数愈密切;当r取负值时表示两个变量间呈负相关;当r取正值时表示两个变量间呈正相关。,决定系数:是由

14、x不同而引起的y变数平方和U占y变数总平方和SSy的比率,即决定系数是相关系数的平方值。,决定系数和相关系数的区别主要有:,1、除掉|r|=1 和|r|=0两种情况外,决定系数总小于相关系数;,2、r的取值范围为1到1,而决定系数的取值范围为0到1;,3、r可以用来表示相关的程度和性质,而决定系数只用来表示相关的程度,不表示相关的性质。,直线相关系数的假设测验: H0:0;HA: 0。其中, 样本是从总体0中抽样得到。 直线相关系数的标准误为:,例 测定水稻播种至齐穗的天数和播种至齐穗积温的数据如下表。请确定X与Y的变化关系。 表 播种至齐穗的天数X和播种至齐穗的总积温Y的关系,Data ne

15、w; Input x y; Cards; 70 1616.3 67 1610.9 55 1440.0 52 1440.7 51 1423.3 52 1471.3 51 1421.8 61 1547.1 64 1533.0 ; Proc corr;/用于计算相关系数的过程 Var x y; Run;,解:计算相关系数的SAS程序为:,例 一些害虫盛发期的迟早和春季温度高低有关。测定某地19561964年间3月下旬至4月中旬旬平均气温累积值和一代三化螟蛾盛发期得关系见下表,请计算相关系数。 表 积温和一代三化螟蛾盛发期的关系,Data new; Input x y; Cards; 70 1616.3 67 1610.9 55 1440.0 52 1440.7 51 1423.3 52 1471.3 51 1421.8 61 1547.1 64 1533.0 ; Proc corr; Var x y; Run;,解:计算相关系数得SAS程序为:,说明3月下旬至4月中旬积温和一代三化螟蛾盛发期间存在 真实的直线相关关系。,直线相关系数的t检验:,查r表,当自由度为7时,显著水平分别为0.05和0.01时,对应的r值分别为0.666和0.798。 |r|=0.83710.798 因此,两个变量在0.01 水平上显著,即认为两个变量之间存在显著的直线相关关系。,直线相关系数的直接检验:,

展开阅读全文
相关资源
猜你喜欢
相关搜索

当前位置:首页 > 其他


经营许可证编号:宁ICP备18001539号-1