第8章相关与回归分析统计学第三版贾俊平.ppt

资源描述

《第8章相关与回归分析统计学第三版贾俊平.ppt》由会员分享，可在线阅读，更多相关《第8章相关与回归分析统计学第三版贾俊平.ppt（83页珍藏版）》请在三一文库上搜索。

1、第8章相关与回归分析,8.1 相关与回归的基本概念 8.2 简单线性相关与回归分析,据世界卫生组织统计，全球肥胖症患者达3亿人，其中儿童占2200万人，11亿人体重过重。肥胖症和体重超常早已不是发达国家的“专利”，已遍及五大洲。目前，全球因”吃”致病乃至死亡的人数已高于因饥饿死亡的人数。 (引自光明日报刘军/文）问题: 肥胖症和体重超常与死亡人数真有显著的数量关系吗? 这些类型的问题可以运用相关分析与回归分析的方法去解决。,实例: 全球吃死的人比饿死的人多?,8.1 相关与回归的基本概念,一、变量间的相互关系二、相关关系的类型三、相关分析与回归分析,一、变量间的相互关系,确定性的函数

2、关系 Y=f (X) 相关关系不确定性的统计关系 Y= f（X）+ (为随机变量) 没有关系变量间关系的图形描述：坐标图(散点图),相关关系的类型, 从涉及的变量数量看简单相关多重相关（复相关）从变量相关关系的表现形式看线性相关散布图接近一条直线(左图) 非线性相关散布图接近一条曲线(右图), 从变量相关关系变化的方向看正相关变量同方向变化 A 同增同减 (A) 负相关变量反方向变化一增一减 (B) B 从变量相关的程度看完全相关 (B) 不完全相关 (A) C 不相关 (C),相关关系的类型,相关分析与回归分析,回归的古典意义：高尔顿遗传学的回归概念父母身高与子女身高的

3、关系: 无论高个子或低个子的子女都有向人的平均身高回归的趋势,回归的现代意义,一个因变量对若干解释变量依存关系的研究回归的目的（实质）：由固定的自变量去估计因变量的平均值,相关分析与回归分析的联系,共同的研究对象：都是对变量间相关关系的分析只有当变量间存在相关关系时，用回归分析去寻求相关的具体数学形式才有实际意义相关分析只表明变量间相关关系的性质和程度，要确定变量间相关的具体数学形式依赖于回归分析相关分析中相关系数的确定建立在回归分析的基础上,82 简单线性相关与回归分析,一、简单线性相关系数二、总体回归函数与样本回归函数三、回归系数的估计,一、简单线性相关系数,总体相关系数

4、对于所研究的总体，表示两个相互联系变量相关程度的总体相关系数为：总体相关系数反映总体两个变量X和Y的线性相关程度。特点：对于特定的总体来说，X和Y的数值是既定的总体相关系数是客观存在的特定数值。, 样本相关系数,通过X和Y 的样本观测值去估计样本相关系数变量 X和Y的样本相关系数通常用表示特点：样本相关系数是根据从总体中抽取的随机样本的观测值计算出来的，是对总体相关系数的估计，它是个随机变量。,相关系数的计算公式,或化简为,相关系数的特点：,相关系数的取值在-1与1之间。当r=0时，表明X与Y没有线性相关关系。当时，表明X与Y存在一定的线性相关关系: 若表明X与Y 为

5、正相关; 若表明X与Y 为负相关。当时，表明X与Y完全线性相关: 若r=1，称X与Y完全正相关；若r=-1，称X与Y完全负相关。,使用相关系数的注意事项：,X和Y 都是相互对称的随机变量，所以相关系数只反映变量间的线性相关程度，不能说明非线性相关关系。相关系数不能确定变量的因果关系，也不能说明相关关系具体接近于哪条直线。,二、总体回归函数与样本回归函数,若干基本概念 Y的条件分布: Y在X取某固定值条件下的分布。对于X的每一个取值，都有Y的条件期望与之对应，在坐标图上 Y的条件期望的点随X而变化的轨迹所形成的直线或曲线，称为回归线。如果把Y的条件期望表示为X的某种函数：

6、, 这个函数称为回归函数。如果其函数形式是只有一个自变量的线性函数,如 , 称为简单线性回归函数。,总体回归函数（PRF）,概念：将总体因变量Y的条件均值表现为自变量X的某种函数，这个函数称为总体回归函数（简记为PRF）。表现形式：（1）条件均值表现形式（2）个别值表现形式（随机设定形式）,（总体）回归方程,描述 y 的平均值或期望值如何依赖于 x 的方程称为(总体的）回归方程；一元线性（总体）回归方程的形式如下： E( y ) = + x,方程的图示是一条直线，因此也称为直线回归方程是回归直线在 y 轴上的截距，是当 x=0 时 y 的期望值，是回归直线的起始值；是直线的斜率，

7、表示当 x 每变动一个单位时，y 的平均变动值。,样本回归函数（SRF）,概念： Y的样本观测值的条件均值随自变量X而变动的轨迹，称为样本回归线。如果把因变量Y的样本条件均值表示为自变量X的某种函数，这个函数称为样本回归函数（简记为SRF）。表现形式：线性样本回归函数可表示为或者,样本（估计的、经验的)回归方程,总体回归参数和是未知的，我们必须利用样本数据去估计它们；用样本统计量 a、b代替回归方程中的未知参数和，就得到了样本回归方程（估计的回归方程）：,拟合估计方程，就是要估计方程的参数a、b,样本回归函数与总体回归函数的关系相互联系, 样本回归函数的函数形式应与设定的总体回归

8、函数的函数形式一致。和是对总体回归函数参数的估计。是对总体条件期望的估计残差 e在概念上类似总体回归函数中的随机误差u。回归分析的目的：用样本回归函数去估计总体回归函数。,样本回归函数与总体回归函数的关系相互区别,总体回归函数虽然未知，但它是确定的；样本回归线随抽样波动而变化，可以有许多条。样本回归线还不是总体回归线，至多只是未知总体回归线的近似表现。总体回归函数的参数虽未知，但是确定的常数；样本回归函数的参数可估计，但是随抽样而变化的随机变量。总体回归函数中的是不可直接观测的；而样本回归函数中的是只要估计出样本回归的参数就可以计算的数值。,一元线性回归方

9、程的确定,具有线性相关关系的两个变量的关系可表示为： y = + b x + e 线性部分反映了由于 x 的变化而引起的 y 的变化. 误差项 e 是随机变量；反映了除 x 和 y 之间的线性关系之外的随机因素对y 的影响是不能由 x 和 y 之间的线性关系所解释的变异性和称为模型的两个待定参数。,a 和 b 的计算公式,根据最小平方法的原则，利用微分求解极值（最优值）的原理，可得求解 a 和 b 的标准方程组如下：,说明：,2. 回归系数与相关系数同号（从二者的计算公式可推导它们之间的关系）：,1. 样本回归直线必定经过各散点的中心；,例：,某地区调查统计资料得到：每户平均收入为

10、元，方差为元，每户平均年消费支出元，标准差为元，支出对收入的回归系数为，求：计算收入与支出的相关系数拟合支出对收入的回归方程收入每增加一元，支出平均增加多少元？,Wr1584维4df尔嘎,三、回归系数的估计,回归系数估计的思想：为什么只能对未知参数作估计? 参数是未知的、不可直接观测的、不能精确计算的能够得到的只是变量的样本观测值结论:只能通过变量样本观测值选择适当方法去近似地估计回归系数。前提: u是随机变量其分布性质不确定，必须作某些假定，其估计才有良好性质，其检验才可进行。原则: 使参数估计值“尽可能地接近”总体参数真实值,一元线性回归模型的基本假定,E(e)=

11、0，即误差项是一个期望值为0的随机变量。从平均意义上，总体线性回归方程 E ( y ) = + x e的方差2 相同（对于所有的 x 值）；误差项e是一个服从正态分布的随机变量，且相互独立，即eN(0,2)。,简单线性回归的基本假定,假定1：零均值假定。假定2：同方差假定。假定3：无自相关假定。假定4：随机扰动与自变量不相关。假定5：正态性假定,回归系数的最小二乘估计,基本思想：希望所估计的偏离实际观测值的残差越小越好。可以取残差平方和作为衡量与偏离程度的标准最小二乘准则估计式：,估计参数的最小二乘法最小平方法（L S ）,用最小平方法拟合的直线来代表x与y之

12、间的关系，所产生的估计值与实际值的误差要比其他任何直线的误差都小。可用于直线回归，也可用于曲线回归。,1. 最小平方法使因变量的观察值与估计值之间的离差平方和达到最小来求得 a和b的方法，即：,最小二乘估计的性质高斯马尔可夫定理,前提：在基本假定满足时最小二乘估计是因变量的线性函数最小二乘估计是无偏估计，即在所有的线性无偏估计中，回归系数的最小二乘估计的方差最小。结论：回归系数的最小二乘估计是最佳线性无偏估计,最小二乘估计的概率分布性质,和都是服从正态分布的随机变量，其期望为方差和标准误差为结论：,三、回归估计标准误差 Se,（一）回归估计标准误差的概念实际观察值与回归

13、估计值离差平方的均方根；计算公式为（6.5）和（6.6）：,分母之所以是（ n-2），而不是 n，是因为根据样本资料用最小平方法求参数和时，受两个标准方程的约束，失去了两个自由度。,回归估计标准差的作用,回归估计标准差反映的是因变量各实际值与其回归估计值之间的平均差异程度；表明其估计值对各实际值的代表性的强弱，其值越小，估计值（或回归方程）的代表性越强，用回归方程估计或预测的结果越准确。,反映实际观察值在回归直线周围的分散状况；说明了回归直线的拟合程度（衡量回归方程的代表性，测定回归估计的精度）；,（二）离差平方和的分解,因变量 y 的取值是不同的，y 取值的这种波动称为变差或离差。对一

14、个具体的观测值来说，变差的大小可以通过该实际观测值与其均值之差来表示。变差来源于两个方面：由于自变量 x 的取值不用造成的；除 x 以外的其他因素(包括 x 对 y 的非线性影响、测量误差等)的影响。,离差的分解（图示）,a + b x,离差平方和的分解,2. 两端平方后求和有：,从图上看有：总变差=回归变差+剩余变差,记为： SST = SSR + SSE 或 Lyy =U+Q,三个离差平方和的意义,总（离差）平方和（SST、Lyy）反映因变量的 n 个观察值与其均值的总离差回归平方和（SSR、U）反映自变量 x 的变化对因变量 y 取值变化的影响，或者说，是由于x与y之间的线

15、性关系引起的y的取值变化。残差平方和（SSE、Q）反映除 x 以外的其他因素对 y 取值的影响。,样本判定系数（决定系数r 2 ）,判定系数=回归平方和占总离差平方和的比例,判定系数=相关系数的平方，即r2(r)2 反映回归直线的拟合程度，衡量变量之间的相关程度。取值范围在 0 , 1 之间。 r2 1，说明回归方程拟合效果越好； r20，说明回归方程拟合得越差。,回归估计标准差与相关系数的关系,大样本条件下，近似地：或：,的无偏估计,为什么要估计？确定所估计参数的方差需要由于不能直接观测，也是未知的对的数值只能通过样本信息去估计。怎样估计？可以证明的无偏估计为：

16、,拟合优度的度量,基本思想：样本回归直线是对样本数据的一种拟合，不同估计方法可拟合出不同的回归线。样本回归拟合优度的度量建立在对因变量总离差平方和分解的基础上总离差平方和回归平方和残差平方和可决系数定义：,对可决系数的理解,可决系数的特点,可决系数是非负的统计量；可决系数取值范围：；可决系数是样本观测值的函数，可决系数是随抽样而变动的随机变量；在一元线性回归中，可决系数在数值上是简单线性相关系数的平方：，,回归系数显著性的 t 检验,目的：根据样本回归估计的结果对总体回归函数回归系数的有关假设进行检验，以检验总体回归系数是否等于某个特定的数值。思想：是未知的，而且不

17、一定能获得大样本，这时可用的无偏估计代替去估计参数的标准误差：,回归系数显著性的 t 检验(续),用估计的参数标准误差对估计的参数作标准化变换，所得的 t 统计量将不再服从正态分布，而是服从 t 分布：可利用 t 分布作有关的假设检验。,回归系数显著性 t 检验的方法,(1) 提出假设一般假设: 常用假设: (2) 计算统计量 (3)给定显著性水平，确定临界值 (4) 检验结果判断若则拒绝原假设，而接受备择假设若则接受原假设 , 拒绝备择假设,回归系数显著性的P值检验 P值的意义,P值的意义: 在既定原假设下计算回归系数的t统计量，可求得统计量大于的概率：这里的

18、是 t 统计量大于值的概率，是尚不能拒绝原假设的最大显著水平，称为所估计的回归系数的P值。,回归系数显著性的P值检验检验方法,回归系数显著性的P值检验方法: 将所取显著性水平与P值对比所取的显著性水平（例如取0.05）若比P 值更大，就可在显著性水平下拒绝所取的若小于P值，就应在显著性水平下接受,五、简单线性回归模型预测,对平均值的点预测值： Y的个别值置信度为1的预测区间：,因变量的区间预测的特点,（1）个别值的预测区间大于平均值的预测区间: Y平均值的预测值与真实平均值有误差，主要是受抽样波动影响; Y个别值的预测值与真实个别值的差异不仅受抽样波动影响，而且还受随

19、机扰动项的影响（2）对预测区间随变化而变化: 时， =0，此时预测区间最窄，越是远离，越大，预测区间越宽。,因变量的区间预测的特点(续),（3）预测区间与样本容量有关：样本容量n越大，越大，预测误差的方差越小，预测区间也越窄。（4）当样本容量趋于无穷大（即n）时, 不存在抽样误差，平均值预测误差趋于0，此时个别值的预测误差只决定于随机扰动的方差。,8.3 多元线性相关与回归分析,一、多元线性回归模型及假定二、多元线性回归模型的估计三、多元线性回归模型的检验四、多元线性回归模型的预测五、复相关系数和偏相关系数,一、多元线性回归模型及假定,多元总体线性回归函数一般形式

20、条件均值形式,多元线性样本回归函数：一般形式条件均值形式,多元线性回归模型的矩阵表示,多元总体线性回归模型的矩阵表示 Y=X+U 多元线性样本回归函数的矩阵表示,Y=X,+ e,偏回归系数：多元线性回归模型中，回归系数表示当控制其它自变量不变的条件下，第j个自变量的单位变动对因变量均值的影响，这样的回归系数称为偏回归系数。,二、多元线性回归模型的估计,多元回归模型的假定,相同的假定: 零均值、同方差、无自相关、随机扰动项与自变量不相关、U正态性增加的假定：各自变量之间不存在线性关系。在此条件下，自变量观测值矩阵X列满秩,Rank( X ) = k,方阵,满秩,Rank(,)=

21、k,意义：可逆，,存在,多元回归参数的最小二乘估计,使残差平方和达到最小，其充分必要条件,正规方程组,-,多元线性回归的最小二乘估计式,正规方程组可简记为矩阵形式,存在,参数向量的最小二乘估计为,参数最小二乘估计的性质,可以证明：多元线性回归的最小二乘估计也是最佳线性无偏估计。,随机误差项方差的估计,方差未知，需要利用样本回归的残差平方和去估计。,可以证明，,是随机扰动项方差,的无偏估计,三、多元线性回归模型的检验,拟合优度检验多元线性回归离差平方和的分解式,变差,TSS = RSS + ESS (总离差平方和) (残差平方和) (回归平方和) 自由度 n-1 = n-k + k-1

22、,多重可决系数：,修正的可决系数,为什么要修正？可决系数是自变量个数的不减函数，比较因变量相同而自变量个数不同的两个模型的拟合程度时，不能简单地对比多重可决系数。需要用自由度去修正多重可决系数中的残差平方和与回归平方和,相互关系：,回归参数的显著性检验 t 检验,在多元回归中可以证明,其中：,是矩阵,第 j 行第 j 列的元素。,因为,未知，故,也未知。现用,代替对原假设分别作 t 检验,，可构造统计量,：,回归方程的显著性检验 F 检验,目的: 检验多个变量联合对因变量是否有显著影响方法: 在方差分析的基础上利用F检验进行假定:,不全为零,方差分析表,F检验的方法,给定显著

23、性水平，在F分布表中查出自由度为k-1和n-k 的临界值,F服从自由度为 k-1 和 n-k 的 F 分布。,F检验：在,成立的条件下，统计量,:,若，则拒绝，说明回归方程中所有自变量联合起来对因变量有显著影响,若，则接受，说明回归方程中所有自变量联合起来对因变量影响不显著,四、多元线性回归模型的预测,点预测值预测的残差可证明用代替则构造 t 统计量给定显著性水平 ,可得临界值置信度为的预测区间为,-,五、复相关系数和偏相关系数,复相关系数：度量一个变量与其他若干个变量联合线性联系程度在数值上: 多重可决系数的平方根等于复相关系数偏相关系数: 对于相互联系的

24、多个变量，当控制其他变量保持不变的条件下，度量其中两个变量之间线性相关程度的指标称为偏相关系数。,偏相关系数与简单相关系数的内在联系,可以证明：（以三个变量为例）,8.4 非线性相关与回归分析,一、非线性回归的函数形式与估计方法,二、非线性相关指数,一、非线性回归的函数形式与估计方法,常用的可以转换为线性的非线性函数形式幂函数参数度量了变量Y对变量X的弹性，即X的单位百分比变动引起Y变动的百分比对数函数参数说明当变量X每变动一个百分点，引起因变量Y 绝对量的变动量,非线性回归的函数形式（续）,指数函数如可转换为线性函数双曲函数多项式函数注意：各种函数参数的经济意义不同共

25、同特点: 虽然对于变量而言都是非线性的，但对于参数而言却是线性的可以转换为线性回归去估计其参数。,二、非线性相关指数,非线性相关指数: 度量非线性相关程度非线性相关指数就是非线性回归的可决系数，或者用非线性可决系数的平方根表示：,非线性相关指数的性质,或R的值越接近于1，表明变量间的非线性相关程度越高；反之，或R的值越接近于0，表明变量间的非线性相关程度越弱。,本章小结,1. 各种变量相互之间的依存关系：确定性的函数关系、不确定性的相关关系 2. 变量间的相关关系的程度用相关系数去度量 3. 现代意义的回归是关于一个变量对另一个或另外多个变量依存关系的研究。回归分析的目

26、的是要用样本回归函数去估计总体回归函数。 4. 线性回归的各项基本假定 5. 简单线性回归和多元线性回归的最小二乘估计 6. 可决系数或修正的可决系数去度量回归的拟合优度,本章小结（续）,7. 各个回归系数显著性的t检验或P值检验 8. 回归方程的显著性检验：在方差分析基础上的F检验 9. 利用估计的线性回归模型对因变量作点预测和区间预测 10. 度量多个变量相关关系的复相关系数和偏相关系数 11. 常用的可以转换为线性回归的非线性函数：幂函数、对数函数、指数函数、双曲函数、多项式函数等 12. 非线性相关指数就是非线性回归的可决系数，或者用非线性可决系数的平方根表示。 13. 应用Excel

27、去实现相关分析和回归分析的实际计算和图形描绘,第八章重要公式,1. 总体相关系数 2. 样本相关系数 3. 总体回归函数（PRF） 4. 样本回归函数（SRF）,第8章结束了!,THANKS,学习目标,1. 变量间的相关关系与相关系数的计算 2. 总体回归函数与样本回归函数 3. 线性回归的基本假定 4. 简单线性回归参数的估计与检验,相关系数的检验,为什么要检验？样本相关系数是随抽样而变动的随机变量,相关系数的统计显著性还有待检验。检验的依据：如果X和Y都服从正态分布，在总体相关系数的假设下，与样本相关系数 r 有关的 t 统计量服从自由度为n-2的 t 分布：,相关系数的检验方

28、法,给定显著性水平，查自由度为 n-2 的临界值若，表明相关系数 r 在统计上是显著的，应否定而接受的假设；反之，若，应接受的假设。,实例1: 中国妇女生育水平的决定因素是什么?,妇女生育水平除了受计划生育政策影响以外，还可能与社会、经济、文化等多种因素有关。 1. 影响中国妇女生育率变动的因素有哪些？ 2. 各种因素对生育率的作用方向和作用程度如何？ 3. 哪些因素是影响妇女生育率主要的决定性因素？ 4. 如何评价计划生育政策在生育水平变动中的作用？ 5. 计划生育政策与经济因素比较,什么是影响生育率的决定因素？ 6. 如果某些地区的计划生育政策及社会、经济、文化等因素发生重大变化，预期对这些地区的妇女生育水平会产生怎样的影响？,82 简单线性相关与回归分析,一、简单线性相关系数二、总体回归函数与样本回归函数三、回归系数的估计四、简单线性回归模型的检验五、简单线性回归模型预测,

展开阅读全文