一元回归及简单相关分析.ppt

上传人:本田雅阁 文档编号:2773373 上传时间:2019-05-13 格式:PPT 页数:72 大小:9.04MB
返回 下载 相关 举报
一元回归及简单相关分析.ppt_第1页
第1页 / 共72页
一元回归及简单相关分析.ppt_第2页
第2页 / 共72页
一元回归及简单相关分析.ppt_第3页
第3页 / 共72页
一元回归及简单相关分析.ppt_第4页
第4页 / 共72页
一元回归及简单相关分析.ppt_第5页
第5页 / 共72页
点击查看更多>>
资源描述

《一元回归及简单相关分析.ppt》由会员分享,可在线阅读,更多相关《一元回归及简单相关分析.ppt(72页珍藏版)》请在三一文库上搜索。

1、一元回归及 简单相关分析,Simple Regression and Correlation Analysis,第8章第一节,变量之间的关系:,函数关系(确定性关系),变量之间依公式的关系而存在。,相关关系,一种变量受另一种变量的影响,两者之间既有关系,但又不存在完全确定的函数关系。,内 容概要,第一节 回归与相关的基本概念,第二节 一元线性回归方程,第四节 一元非线性回归,第三节 一元线性回归的检验,第五节 相关,第一节 回归与相关的基本概念,1、 回归的概念,回归(regression):设有两个随机变量X和Y,如果对于变量X的每一个可能的值xi,另一个随机变量Y都有一个确定的分布与之相对

2、应,则称随机变量Y对变量X存在着回归。,一、 回归,自变量(independent variable):在具有回归关系的变量中,自身发生变化从而引起其他变量随之发生变化的变量,称为自变量,也称解释变量。随机变量X为自变量。,因变量(dependent variable):依据自变量的变化而发生变化的随机变量称为因变量,也称为反应变量。随机变量Y 为因变量。,一元回归:只有一个自变量的回归,称为一元回归,也称为简单回归。,2、自变量与因变量,3、一元回归与多元回归,多元回归:有多个自变量的回归,称为多元回归。,4、 条件平均数 (conditional mean),条件平均数:在具有回归关系的两

3、变量之间,对于自变量X的任一可能的值xi,因变量Y与之对应的分布的平均数YX=xi,称为自变量X=xi时因变量Y的条件平均数。,相关:设有两个随机变量X和Y,对于任一随机变量的每一个可能的值,另一个随机变量都有一个确定的分布与之相对应,即在Y对X存在回归关系的同时,X对Y也存在回归关系,则称这两个随机变量间存在相关关系。,二、 相关 (correlation),回归变量间的依存关系,相关变量间的互依关系,“回归”名称的由来,英国统计学家FGalton(18221911 年)和他的学生、现代统计学的奠基者之一KPearson(18561936 年)在研究父母身高与其子女身高的遗传问题时,观察了1

4、078 对夫妇,以每对夫妇中父亲的身高作为解释变量X,而取他们的一个成年儿子的身高作为被解释变量Y(应变量),将结果在平面直角坐标系上绘成散点图,发现趋势近乎一条直线。计算出的回归直线方程为 :,50.2,50.7,样本条件 平均数,第二节 一元线性回归方程,用自变量X为横轴,因变量Y为纵轴,在XY平面内标出(x1, y1),(x2, y2),(xn, yn) 这些点,就构成一幅散点图。,1、概念,2、常见类型的散点图, 两变量之间的关系是否密切,能否由 X来估计Y;,3、根据散点图考虑以下问题:, 两变量之间的关系是呈一条直线(即 线性的),还是呈某种曲线;, 是否存在某个点偏离过大;, 是

5、否存在其他规律。,4、实例,【例】土壤内NaCI含量对植物的生长有很大的影响,NaCI含量过高,将增加组织内无机盐的累积,抑制植物的生长。下表中的数据,是每1000g土壤中所含NaCI的不同克数(X),对植物单位叶面积干物重(Y)的影响,作出7对数据的散点图。,以每1000g土壤中NaCI含量为横轴,以单位叶面积干物重为纵轴,建立坐标系,依据所给数据作出散点图。,解:,不同NaCI含量对单位叶面积干物重影响的散点图,增加每一NaCI含量下观测次数(10次重复观测值及平均值如下),每个NaCI含量下10次重复的散点图 “”表示在各xi处y的平均值;“+”是第一次观测的数据,二、 一元正态线性回归

6、模型,若X是可控制的变量,在实验无限重复之后,则可以得到在各xi上的Y的条件平均数YX ,这些平均数构成一条直线。,Y =+X,Y :NID(+X, 2), :NID(0, 2),Y =+X+,Simple Linear Regression Model,Intercept总体截距,Slope总体斜率,标准差相等 EQUAL STANDARD DEVIATION 对于任何X值,随机变量Y的标准差 Y|X相等,独立 INDEPENDENCE 每一观察值之间彼此独立,y|X = + x,线性 LINEARITY 反应变量均数 与X间呈直线关系 Y|X= + X,直线回归模型的四个假定,正态 NOR

7、MALITY 对于任何给定的 X, Y 服从正态分布,均数为 Y|X,标准差为 Y|X,1、估计直线的一般表达式:,a:截距(intercept),直线与Y轴交点的纵坐标, 表示X0时Y的平均值。,b:斜率(slope),回归系数(regression coefficient)。 意义:X每改变一个单位,Y平均改变b个单位。 b0,Y随X的增大而增大(减少而减少) 斜上; b0,Y随X的增大而减小(减少而增加) 斜下; b=0,Y与X无直线关系 水平。 b越大,表示Y随X变化越快,直线越陡峭。,三、参数和的估计,回归系数:一元线性回归线的斜率称为回归系数,表示自变量每改变一个单位,因变量平均改

8、变的单位数。,回归线:根据回归方程所画出的直线称为回归线。,2、基本概念,回归方程: 称为Y对X的回归方程。,3、最优回归线的估计原理,最小二乘法(method of least square)原理:,在各种离差平方和中,以距平均数的离差平方和最小。,在回归问题中,则在xi处Y的实际观测值yi对条件平均数Yxi离差平方和最小,也就是使各散点到直线的纵向距离的平方和最小。,即观测值与回归估计值之间的离差平方和 达到最小时的回归线作为最好的回归线。,最小二乘 (Least squares)法图解,寻找使S(残差i)2 最小的直线,3,3,Least Squares Method The “best

9、” line is the one that minimizes the sum of squared vertical differences between the points and the line.,w,w,w,w,4,4,(1,2),2,2,(2,4),(3,1.5),Sum of squared differences =,(2 - 1)2 +,(4 - 2)2 +,(1.5 - 3)2 +,(4,3.2),(3.2 - 4)2 = 6.89,2.5,Let us compare two lines,The second line is horizontal,The small

10、er the sum of squared differences the better the fit of the line to the data.,4、和的最小二乘估计, 的最小二乘估计:, 的最小二乘估计:,X和Y的校正交叉乘积和,用SXY表示。,X的校正平方和,用SXX表示。,Y的总校正平方和,用SYY表示。,四、回归方程的计算实例,【例10.1】根据下表中的数据,计算干物重在NaCI含量上的回归方程。,解:, 列出回归方程计算表:,(编码法), 利用公式计算SXY ,SXX ,SYY :, 计算b和a:, 得到回归方程,作出回归线:,第三节 一元线性回归的检验,一、b、a和e的数

11、学期望值与方差,二、b和a的显著性检验t检验,1、b的显著性检验,检验统计量为:,| t |tn-2,/2时,拒绝H0,接受HA,说明两变量间存在显著的线性关系,回归显著;,| t |tn-2,/2时,接受H0,说明两变量间不存在显著的线性关系,回归不显著。,df=n-2,【例10.2】以例10.1中的数据为例,进行回归系数 b的显著性检验。,t5,0.01/2=4.032, t t5,0.01/2,拒绝H0,即拒绝 = 0,说明两变量间存在极显著的线性关系,回归极显著。,结论:干物重在NaCI含量上的回归极显著。,解:,2、a的显著性检验,检验统计量为:,| t |tn-2,/2时,拒绝H0

12、,接受HA;,| t |tn-2,/2时,接受H0。,df=n-2,【例10.5】以例10.1中的数据为例,检验a是 否抽自 = 100的总体 。,t5,0.05/2=2.571,|t| t5,0.05/2,拒绝H0,即拒绝 = 100。,结论: a不是抽自 = 100的总体 。,解:,三、两个回归方程的比较,对两个回归方程的b和a的差异显著性检验之后,就能判断它们是否来自同一总体。若来自同一总体,则可以将它们合并为一个回归方程。, 检验MSe1和MSe2有无显著差异:,F F/2时,拒绝H0,说明两回归线的总体方差不一致,差异显著;,FF/2时,接受H0,说明两回归线有一共同的总体方差,估计

13、值为:,|t|t/2时,说明两回归线的回归系数差异显著;,|t|t/2时,说明两回归线有一共同的总体回归系数,估计值为:, 检验b1和b2有无显著差异:,|t|t/2时,说明两回归线的a差异显著;,|t|t/2时,说明两回归线的a有一共同的总体,合并值为:, 检验a1和a2有无显著差异:,以上的检验,都是后者在前者差异不显著的基础上进行的,若前者差异显著,后面的检验则可终止;若三者的检验,差异均不显著,则两回归方程可合并为一个回归方程。,【例10.6】在优质育种工作中,为了快速筛选优良原始材料,采用染料结合(DBC)法测定种子中的碱性氨基酸含量。实验测定了大麦和黑麦每试样的染料结合力(DBC)

14、与碱性氨基酸含量,结果如下,试检验两回归线有无显著差异。,列出计算表:,解:, 检验MSe1和MSe2有无显著差异:,FF/2,接受H0,两回归线有一共同的总体方差,估计值为:,检验统计量为:,|t|t/2,两回归线有一共同的总体回归系数,估计值为:, 检验b1和b2有无显著差异:,检验统计量为:,|t|t/2,两回归线的a差异显著。,检验统计量为:, 检验a1和a2有无显著差异:,|t|t/2,两回归线的a差异显著。,若检验a1和a2无显著差异,估计值:,X,四、一元回归的方差分析,1、无重复时的情况,Y的离均差平方和的分解,几个平方和的意义,剩余(残差)标准差 SY|X,度量了实际散点远离

15、回归直线的离散程度,反映了模型的可靠性。越小模型越好。 tb检验,区间的计算均需要使用这一值。,检验统计量为:,F F1,n-2,时,拒绝H0:0,说明两变量的回归关系显著;,FF1,n-2,时,接受H0,说明两者的回归关系不显著。,两种检验是等价的。,实例,以例10.1中的数据为例,做回归显著性的方差分析。,将以上结果列成方差分析表,结论是回归极显著。,2、有重复时的情况,总校正平方和做如下分解:,SSpe为纯实验误差平方和(pure experimental error sum of squares),是完全由实验误差引起的。,SSLOF为失拟平方和(lack of fit sum of

16、squares),是模型选择不当,非线性因素等原因造成的。,设实验共收集i=1,2, ,n对数据,在每一xi下做了j=1,2, ,m次重复。,df=mn-1,df=1,df=n-2,df=mn-n,首先用纯误差均方对 失拟均方做检验:,若F检验结果是显著的,可能原因:除X外还有 其他影响Y的因素;模型选择不当;X和Y 无关。没有必要检验下去,应找出造成SSLOF过 大的原因,做进一步的分析。,若F检验结果不显著,说明失拟平方和基本上是 由试验误差造成的,这时将失拟平方和与纯误 差平方和合并,用合并后的平方和对回归平方 和做检验。,然后用合并后的均方对 回归均方做检验:,若第二次F检验结果是显著

17、的,表明两变量之间存在显著的回归关系。,若第二次F检验结果是不显著的,表明两变量之间的回归关系不显著,可能原因:X 与Y不存在线性关系;试验误差过大。,【例10.7】以表10-2中的前两次重复数据为例,用方差分析的方法检验回归的显著性。,列出方差分析表 :,解:,第一步用MSpe对MSLOP 做检验:,差异不显著。,第二步将MSpe和MSLOP 合并,用合并后的均方对回归均方做检验:,F1,12,0.01=9.33,F F1,12,0.01。,结论是两变量之间存在极显著的回归关系。,五、点估计与区间估计,1、对和的估计,的1-置信区间为:,的1-置信区间为:,区间估计与显著性检验的结果是一致的

18、。,和的点估计分别是a和b,2、对回归线Y.X的估计,当X为某一指定值x0时,通过回归方程计算所得到的回归值 是Y.X=x0的点估计值。,在X=x0时,总体回归线Y.X=x0的1-置信区间为:,Y.X=x0的1-置信区间与x0有关,是两条对称的弧线,x0不同,置信区间不同;当 时,区间长度最小。,3、对y0的估计,在X=x0时, y0的1-置信区间为:,y0的1-置信区间也与x0有关,也是两条对称的弧线,x0不同,置信区间不同;当 时,区间长度最小。,当X为某一指定值x0时,通过回归方程计算所得到的回归值 是y0的点估计值。,六、一元回归分析的意义,1、预报 (forecast),预报就是估计

19、,由一个变量去估计另一个变量,点预报就是点估计,区间预报就是区间估计。预报通常是指区间预报。,在做预报时应注意,不能随意超出计算回归方程时所研究的范围,建立的回归方程仅适用于特定范围,不得随意外推或任意“外延”;建立的回归方程要有实际意义。,2、减少实验误差,由于引进了回归,从总平方和中除去由于回归引起的平方和以后,就大大降低了误差平方和。,在引进自变量以后所得到的实验误差,才是更真实的实验误差。,一、 相关系数,相关系数(correlation coefficient),是指由于回归因素所引起的变差与总变差之比的平方根。说明两变量相关的密切程度和方向。,第五节 相 关 (correlatio

20、n),样本相关系数:,总体相关系数:,r无单位,-1 r 1。,二、相关系数的性质,样本相关系数平方为:,r 0 - 正相关(positive correlation) r 0 - 负相关 (negative correlation) (与回归系数b的符号相同),r=0 - 不相关(零相关), |r|=1 - 完全相关。,散点呈椭圆形分布,从无规则地分散逐渐聚拢到一条直线上,X、Y 同时增减-正相关;X、Y 此增彼减-负相关。,散点在一条直线上, X、Y线性相关,X、Y 变化趋势相同-完全正相关;反向变化完全负相关。,点子无规则地分布,说明X、Y变化互不影响,两者不相关。,r0,不同r值的散点

21、图,三、 相关系数的计算,【例10.14】在研究水稻籽粒蛋白质含量时,采用两种不同的测定方法,一种是凯氏定氮法(KP法),另一种是染料结合法(DBC法)。用这两种方法测得的结果如下表,计算两者的相关系数。,列出计算表:,解:,结论:两种方法所测得的蛋白质含量之间存在正相关。,|t|t/2时,两变量相关显著;,|t|t/2时,两变量相关不显著。,四、相关系数检验,1、相关系数显著性的 t 检验,对于同一资料,tbtr,检验完全等价,【例10.15】检验例10.14中相关系数的显著性。,检验统计量为:,t8,0.01/2=3.355,t t8,0.01/2,拒绝H0,结论:两者相关极显著。,解:,2、相关系数检验表,附表12,k=独立自变量个数 df=n-2,r r,两变量间相关显著。,2、相关系数检验表,附表12,3、z变换,r r,两变量间相关显著。,五、相关系数与回归系数的关系,以X为自变量,Y为因变量,以Y 为自变量, X为因变量,X、Y 相关,X、Y 相关系数是两回归系数的几何平均数。,

展开阅读全文
相关资源
猜你喜欢
相关搜索

当前位置:首页 > 其他


经营许可证编号:宁ICP备18001539号-1