第11讲简单线性回归.ppt

上传人:本田雅阁 文档编号:2986075 上传时间:2019-06-20 格式:PPT 页数:52 大小:547.02KB
返回 下载 相关 举报
第11讲简单线性回归.ppt_第1页
第1页 / 共52页
第11讲简单线性回归.ppt_第2页
第2页 / 共52页
第11讲简单线性回归.ppt_第3页
第3页 / 共52页
第11讲简单线性回归.ppt_第4页
第4页 / 共52页
第11讲简单线性回归.ppt_第5页
第5页 / 共52页
点击查看更多>>
资源描述

《第11讲简单线性回归.ppt》由会员分享,可在线阅读,更多相关《第11讲简单线性回归.ppt(52页珍藏版)》请在三一文库上搜索。

1、简单线性回归,Linear regression,回归是设法找出变量间在数量上的依存变化关系, 用函数表达式表达出来,这个表达式称之为回归方程。,两变量间的关系,确定性关系:两变量间的函数关系 圆的周长与半径的关系: C2R 速度、时间与路程的关系:LST X与Y的函数关系: Ya+bX 非确定性关系:两变量在宏观上存在关系,但并未精确到可以用函数关系来表达。 青少年身高与年龄的关系; 身高与体重的关系:标准体重(kg)=身高(cm)-105 药物浓度与反应率的关系;,一、线性回归的概念,当两个变量存在准确、严格的直线关系时,可以用Y=a+bX,表示两者的函数关系。 其中X 为自变量(inde

2、pendent variable);Y是因变量( dependent variable )。 但在实际生活当中,由于其它因素的干扰,许多双变量之间的关系并不是严格的函数关系,不能用函数方程来准确反映,为了区别于两变量间的函数方程,我们称这种关系为回归关系,用直线方程来表示这种关系称为回归直线或线性回归。,小插曲:为什么叫”回归“?,F. Galton K.Pearson,二、回归参数的估计,式中的 是由自变量X推算应变量Y的估计值,a是回归直线在Y 轴上的截距;b为样本的回归系数,即回归直线的斜率,表示当X变动一个单位时,Y平均变动b个单位。 计算原理:最小二乘法,即保证各实测点到回归直线的纵

3、向距离的平方和最小,并使计算出的回归方程最能代表实测数据所反映出的直线趋势。,例12-1 某医师为了研究正常成年男性的运动后最大心率与年龄的关系,测得20名正常成年男性的有关数据,散点图如下。,年龄与运动后最大心率的回归方程,回归系数和回归方程的意义及性质,b 的意义 a 的意义 的意义 的意义 的意义,b 的意义,斜率(slope) 301.3124 -3.218 X 年龄每增加 1 岁,其运动后最大心率平均减少 3.218(次/分钟) b 的单位为 (Y的单位/X的单位),b0,y increase with the increase of X b0,y decrease with the

4、 increase of X b=0,no linear correlation between two variables.,X,Y,b is the regression coefficient and the slope of the line 。,statistical significance of b :when X changed a unit , the Y changed b units on average.,b0,b0,b=0,a 的意义,a 截距(intercept, constant) X=0 时,Y的估计值 a的单位与Y值相同 当X可能取0时,a才有实际意义。,估计

5、值 的意义,X=46时, =153.2844, 即年龄为 46岁 的正常成年男性, 其平均运动后最大心率估计值为 153.2844 (次/分钟); 给定X时,Y的估计值。 当 时,,的意义,为残差:实测点到回归直线的纵向距离。,残差平方和 (residual sum of squares). 综合表示点距直线的纵向距离。 在所有的直线中,回归直线的残差平方和是最小的。(最小二乘),的意义,三、总体回归系数的假设检验,与直线相关一样,直线回归方程也是从样本资料计算而得的,同样也存在着抽样误差问题。所以,需要对样本的回归系数b进行假设检验,以判断b是否从回归系数为零的总体中抽得。总体的回归系数用表

6、示。,一般步骤,H0:=0 回归方程无意义 H1:0 回归方程有意义 =0.05 选择合适的假设检验方法(方差分析或t检验),计算统计量 计算概率值P 做出推论:统计学结论和专业结论,方差分析法,因变量总变异的分解,X,P (X,Y),Y,Y的总变异分解,未引进回归时的总变异: (sum of squares about the mean of Y) 引进回归以后的变异(剩余): (sum of squares about regression) 回归的贡献,回归平方和: (sum of squares due to regression),Y的总变异分解,剩余标准差,(1) 扣除了X的影响后

7、Y方面的变异; (2) 引进 回归方程后, Y方面的变异。,回归系数检验的基本思想,如果X与Y无线性回归关系,在SS回归和SS剩余都是其他随机因素对Y的影响,由此,MS回归MS剩余,总体回归系数=0,反之, 0。所以用F检验对X与Y之间有无回归关系进行检验。,公式,查F界值表,F0.05(1,18)=4.41,F F0.05(1,18) ,P0.05,拒绝H0,H0:=0 H1:0 =0.05,t检验法,Sb是样本回归系数的标准误,H 0: 0, H 1: 0, =0.05。,年龄与运动后最大心率间存在回归关系。,决定系数 (coefficient of determination),取值在0

8、到1之间,反映了回归贡献的相对程度。 决定系数除了作为回归拟合效果的概括统计量,还可利用它对回归方程做假设检验。,四、回归问题的区间估计,回归系数的可信区间估计 估计值 的可信区间估计 个体Y值的容许区间估计,总体回归系数 的可信区间估计,根据 t 分布原理估计: -3.2182.1010.2777-3.8014-2.6346,的可信区间估计 总体回归线的95%置信带,样本 总体 Y的总平均 给定X时Y的平均 (Y的条件均数),根据 t 分布原理:,的容许区间估计 个体Y值的容许区间,给定 X 时 Y 的估计值是 Y 的均数 的一个估计。 给定X 时 Y 值的容许区间是 Y 值的可能范围。 的

9、100(1- )%容许限:,的可信区间与Y的容许区间,可信区间是针对条件均数的,而容许区间是针对Y的取值范围的。 X=46时, 的可信区间为:149.7501156.8187(次/分), 表示:年龄为46岁的男子,估计其运动后最大心率为153.2844,95可信区间为(149.7501,156.8187 )(次/分), X=46时,Y的容许区间为:141.7543164.8145 (次/分), 表示:年龄为46岁的男子, 估计有95的人其运动后最大心率在141.7543164.8145 (次/分)之间。,可信区间与容许区间示意 (confidence band & tolerance band

10、),五、残差分析,线性回归的应用条件(LINE):,(1)线性(linear) (2)独立(independent) (3)给定X时,Y正态分布(normal) (4)等方差(equal variance) 可通过散点图、残差图等方法来判断数据是否满足这些条件。,给定X时,Y是正态分布、等方差示意图,给定X时,Y是正态分布、不等方差示意图,残差及残差分析,残差是指观察值Yi与预测值 之间的差值,其表达式为: 它反映了方程拟合数据优劣的信息。 残差分析(residual analysis)旨在通过残差深入了解数据与方程之间的关系,评价实际资料是否符合回归方程的假设,识别离群值等。,残差图,标准残

11、差:(残差均值)/标准差 以自变量(或因变量)为横坐标,标准残差为纵坐标,构成的散点图称之为残差图。 运动后最大心率Y和回归残差图,残差图示意图,残差图示意图含义,以上给出几种以自变量取值为横坐标、以标准化残差为纵坐标的残差图的常见类型。 在此残差图中: 情况(a)、情况(b)和情况(f)表示残差不满足等方差的条件; 情况(c)显示存在非线性关系; 情况(d)显示有点处于2倍标准差以外,可能是离群值; 只有情况(e)显示残差呈随机分布,满足回归条件。,六、线性回归分析的注意事项,1.进行相回归分析要有实际意义。 2.充分利用散点图。 3.在回归分析中要求因变量Y是随机变量,服从正态分布,自变量

12、X可以是随机变量也可以是给定的变量。 4.自变量的选择: 因果中的因、容易测量的、变异小的。,4.注意线性回归模型的应用条件:LINE 5.建立回归方程后,须对回归系数进行假设检验。 6.使用回归方程估计时,在建立方程时的自变量的取值范围内。,七、 线性相关和回归的 区别和联系,联系: 1.b和r符号一致 2.b和r的检验是等价的 3.用回归解释相关,区别,1.资料要求不同:回归要求y服从正态分布,x是可以精确测量和严格控制的变量,一般称为型回归;相关要求两个变量服从双变量正态分布。这种资料若进行回归分析称为回归,可计算两个方程。 I型回归:X是精确控制的; II型回归:X是随机的。 由X推算

13、Y: 由Y推算X: 2.研究目的不同:回归用来说明两变量数量上的依存变化关系,相关说明变量间的相关关系。,小结,简单线性回归是研究两个变量间线性关系的数量表达式。根据最小二乘法原则,计算回归方程。 进行简单线性回归分析需要满足线性、独立 、正态 与等方差4个条件。 在简单线性回归分析中,对回归方程的检验等价于对回归系数的假设检验,可通过方差分析或t检验完成。,案例,原文题目高效毛细管电泳法测定血浆中布比卡因的浓度,采用毛细管电泳法,于0.5ml空白血浆中分别加入0.05,0.1,0.2,0.3,0.4,0.5g的布比卡因进行测定,原作者以样品峰的峰面积与内标峰的峰面积之比(Y)对样品量(X)进

14、行相关分析,线性关系良好( r0.99),习题,1.在简单线性回归分析中,得到回归系数为-0.30,经检验有统计学意义,说明( ) A.Y增加一个单位,X平均减少30% B. X增加一个单位,Y平均减少30% C. X增加一个单位,Y平均减少0.30个单位 D. Y增加一个单位,X平均减少0.30个单位 E.X对Y的影响在变异的30%,2.对两个定量变量同时进行了线性相关和线性回归分析,r有统计学意义,则( ) A.b无统计学意义 B. b有高度统计学意义 C.b有统计学意义 D. 不能肯定b有无统计学意义 E.a有统计学意义 3.最小二乘估计方法的本质要求是( ) A.各点到直线的垂直距离的和最小 B.各点到x轴的纵向距离的平方和最小 C.各点到直线的垂直距离的平方和最小 D.各点到直线的纵向距离的平方和最小 E.各点到直线的纵向距离的平方和最大,

展开阅读全文
相关资源
猜你喜欢
相关搜索

当前位置:首页 > 其他


经营许可证编号:宁ICP备18001539号-1