十二章相关与回归分析.ppt

上传人:本田雅阁 文档编号:2638336 上传时间:2019-04-26 格式:PPT 页数:92 大小:1.54MB
返回 下载 相关 举报
十二章相关与回归分析.ppt_第1页
第1页 / 共92页
十二章相关与回归分析.ppt_第2页
第2页 / 共92页
十二章相关与回归分析.ppt_第3页
第3页 / 共92页
十二章相关与回归分析.ppt_第4页
第4页 / 共92页
十二章相关与回归分析.ppt_第5页
第5页 / 共92页
点击查看更多>>
资源描述

《十二章相关与回归分析.ppt》由会员分享,可在线阅读,更多相关《十二章相关与回归分析.ppt(92页珍藏版)》请在三一文库上搜索。

1、2019/4/26,1,第十二章 相关与回归分析,第一节 相关关系及种类 第二节 定类变量的相关分析 第三节 定序变量的相关分析 第四节 定距变量的相关分析 第五节 回归分析,2019/4/26,2,社会上,许多现象之间也都有相互联系,例如:身高与体重、教育程度和收入、学业成就和家庭环境、智商与父母智力等。在这些有关系的现象中,它们之间联系的程度和性质也各不相同。 本书第十章提出了两总体的检验及估计的问题,这意味着我们开始与双变量统计方法打交道了。双变量统计与单变量统计最大的不同之处是,客观事物间的关联性开始披露出来。这一章我们将把相关关系的讨论深入下去,不仅要对相关关系的存在给出判断,更要对

2、相关关系的强度给出测量,同时要披露两变量间的因果联系,其内容分为相关分析和回归分析这两个大的方面。,2019/4/26,3,第一节 变量之间的相互关系,1. 相关程度 完全相关,指变量之间为函数关系;完全不相关指变 量之间不存在任何依存关系,彼此独立。不完全相关介于 两者之间。不完全相关是本章讨论的重点。 由于数学手段上的局限性,统计学探讨的最多的是定 距定距变量间能近似地表现为一条直线的线性相关。在 统计中,对于线性相关,采用相关系数(记作r)这一指标 来量度相关关系程度或强度。就线性相关来说,当r l 时,表示为完全相关;当r =0时,表现为无相关或零相 关;当0 r 1时,表现为不完全相

3、关。,2019/4/26,4,2. 相关方向:正相关和负相关 所谓正相关关系是指一个变量的值增加时,另一变 量的值也增加。例如,受教育水平越高找到高薪水工作的 机会也越大。而负相关关系是指一个变量的值增加时,另 一变量的值却减少。例如,受教育水平越高,理想子女数 目越少。要强调的是,只有定序以上测量层次的变量才分 析相关方向,因为只有这些变量的值有高低或多少之分。 至于定类变量,由于变量的值并无大小、高低之分,故定 类变量与其他变量相关时就没有正负方向了。,2019/4/26,5,3. 因果关系与对称关系 因果关系中两个变量有自变量(independent Variable)和因变量(depe

4、ndent Variable)之分: (1)两个变量有共变关系; (2)因变量的变化是由自变量的变化引起的; (3)两个变量的产生和变化有明确的时间顺序,前者 称为自变量,后者称为因变量。 表现为对称关系的相关关系,互为根据,不能区分自 变量和因变量,或者说自变量和因变量可以根据研究目的 任意选定,例如身高和体重之间的关系。,2019/4/26,6,4. 单相关和复相关 从变量的多少上看,单相关只涉及两个变量,亦称二元 相关;三个或三个以上变量之间的关系称为复相关,亦称多 元相关。 五、直线相关和曲线相关 从变量变化的形式上看,如果关系近似地表现为一条直 线,称为直线相关或线性相关;如果关系近

5、似地表现为一条 曲线,则称为曲线相关或称为非线性相关。 由于数学手段的局限性,我们以学习线性相关为主。在 统计学中,通过分段处理线性相关也可以用于处理曲线相 关。,2019/4/26,7,第二节 定类变量的相关分析,本节内容: 1、列联表 2、削减误差比例 3、系数 4、系数,2019/4/26,8,1. 列联表 列联表,是按品质标志把两个变量的频数分布进 行交互分类,由于表内的每一个频数都需同时满足两个 变量的要求,所以列联表又称条件频数表。 例如,某区调查了357名选民,考察受教育程度与投 票行为之间的关系,将所得资料作成下表,便是一种关 于频数的列联表。,2019/4/26,9,22频数

6、分布列联表的一般形式,习惯上把因变量Y放在表侧,把自变量X放在表头。 22列联表是最简单的交互分类表。 rc列联表 r(row)、c(column),2019/4/26,10,rc频数分布列联表的一般形式,2019/4/26,11,2019/4/26,12,两个边际分布:,2019/4/26,13,条件频数表中各频数因基数不同不便作直接比较,因此有必要将频数化成相对频数,使基数标准化。这样,我们就从频数分布的列联表得到了相对频数分布的列联表(或称频率分布的列联表)。下表是rc相对频数分布列联表的一般形式。,2019/4/26,14,rc相对频数分布列联表的一般形式,2019/4/26,15,在

7、相对频数分布列联表中,各数据为各分类 出现的相对频数(或者频率)。将频数 化成相对 频数 有两种做法: 相对频数联合分布 两个边际分布 或 相对频数条件分布 或,2019/4/26,16,rc相对频数联合分布列联表,2019/4/26,17,控制X,Y相对频数条件分布列联表,2019/4/26,18,控制Y,X相对频数条件分布列联表,2019/4/26,19,例A1试把下表所示的频数分布列联表,转 化为自变量受到控制的相对频数条件分布列联 表,并加以相关分析。,2019/4/26,20,从上表可知,受过大学以上教育的被调查者绝大多 数(占95.8%)是投票的,受教育程度在大学以下的被调 查者虽

8、多数也参与投票(占67.9%),但后者参与投票的百 分比远小于前者;前者只有4.2%弃权,而后者则有32.1% 弃权。两相比较可知,受教育程度不同,参与投票的行 为不同,因此两个变量是相关的。,2019/4/26,21,例A2试把下表所示的频数分布列联表,转 化为相对频数条件分布列联表和自变量受到控制 的相对频数条件分布列联表,并加以相关分析。,2019/4/26,22,上表显示,大学以上文化程度和大学以下文化程度同样 各有60%的人参与投票,40%的人弃权,并没有因为受教育 程度不同,而使参与投票的行为有所不同。因此,此时的两 个变量是不相关的,或者说是独立的。我们不难发现,此时 反映全体投

9、票情况的相对频数的边际分布( )也各有60% 的人参与投票,40%的人弃权。,2019/4/26,23,上表显示,当两个变量不相关时有 。 如0.532 0.40=0.213。,2019/4/26,24,例B某社区调查了120名市民,考察性别与 对吸烟态度之间的关系,试将所得资料作成相对 频数的联合分布、边际分布和条件分布列联表, 并进行相关分析。 性别与对吸烟的态度,2019/4/26,25,相对频数联合分布列联表,2019/4/26,26,相对频数条件分布列联表,2019/4/26,27,2675名双亲和他们10071个子女 的智力的关系(%)(相对频数条件分布列联表),2019/4/26

10、,28,通过列联表研究定类变量之间的关联性,这 实际上是通过相对频数条件分布的比较进行的。 如果对不同的X,Y的相对频数条件分布不同,且 和Y的相对频数边际分布不同,则两变量之间是 相关的。而如果变量间是相互独立的话,必然存 在着Y的相对频数条件分布相同,且和它的相对 频数边际分布相同。后者用数学式表示就是 或者,2019/4/26,29,2. 削减误差比例 PRE (Proportionate Reduction in Error) 通过相对频数条件分布列联表的讨论,可以就自变量 X和因变量Y的关联性给出一个初步的判断。但是对关联 性给出判断,肯定没有用量化指标表达来得好。所以,下 面我们将

11、关注于如何用统计方法,使相关关系的强弱可以 通过某些简单的系数明确地表达出来。 在社会统计中,表达相关关系的强弱,削减误差比 例的概念是非常有价值的。削减误差比例的原理是,如果 两变量间存在着一定的关联性,那么知道这种关联性,必 然有助于我们通过一个变量去预测另一变量。其中关系密 切者,在由一变量预测另一变量时,盲目性必然较关系不 密切者为小。,2019/4/26,30,PRE:用不知道Y与X有关系时预测Y的全部误差E1,减去知道Y与X有关系时预测Y的联系误差E2,再将其化为比例来度量 PRE的取值范围是 0PREl 削减误差比例PRE适用于各测量层次的变量,系数和系数便是在定类测量的层次上以

12、削减误差比例PRE为基础所设计的两种相关系数。,2019/4/26,31,PRE=(56-28)/56=0.5,2019/4/26,32,3.系数 在定类尺度上测量集中趋势只能用众数。 系数就是利用此性质来构造相关系数的。 (1)不对称的系数,2019/4/26,33,例 对下表所示资料,用系数反映性别与收 入高低的相关关系。,2019/4/26,34,2019/4/26,35,(2)对称的系数,2019/4/26,36,例 研究工作类别与工作价值的关系,工 作类别可分为三类:工人、技术人员、管理/行 政人员;工作价值也可分为三类:以收入/福利 为最重要的职业选择标准的称为经济取向型,以 工作

13、的创造性、挑战性为最重要的职业选择标准 的称为成就取向型,以工作中的人际关系为最重 要的职业选择标准的称为人际关系取向型。对下 表所示资料,用系数反映工作类别与工作价值 的相关关系 。,2019/4/26,37,职工的工作种类与工作价值,2019/4/26,38,2019/4/26,39,性质: (1)01 (2)具有PRE意义。 (3)对称与不对称情况下,有不同的公式。 (4)以众数作为预测的准则,对条件频数分 布列联表中众数频数以外的条件频数不予理会。 (5)如果众数频数集中在条件频数分布列联 表的同一行时,=0,从而无法显示两变量之间 的相关性。,2019/4/26,40,4.系数 系数

14、的统计值域是0,1,其特点是在计 算时考虑所有的边际频数和条件频数 。 注意:当众数很突出且众数分布不在同一行,同一 列时,用系数较好;但当众数不突出时,用系数更 好;若众数集中在某一行或某一列,一定用系数。,2019/4/26,41,例 对下表所示资料,用系数反映性别与 收入高低的相关关系,并对系数的PRE意义加以 解释。,2019/4/26,42,2019/4/26,43,练习: 调查100名青年人与其知心朋友的志愿,条 件次数分布如下:计算知心朋友的志愿与自己志 愿之间的相关关系,并提出研究结论。,2019/4/26,44,第三节 定序变量的相关分析,定序变量只能排列高低次序,因而在分析

15、时只能考虑 两变量变化的顺序是否一致及其等级之间的差距。以此来 计算两变量的相关系数。 1、同序对、异序对和同分对 2、Gamma等级相关系数 3、肯德尔等级相关系数 4、萨默斯系数(d系数) 5、 Spearman等级相关系数 6、肯德尔和谐系数,2019/4/26,45,1. 同序对、异序对、同分对 社会学研究常用的两定序变量的相关测量 法,有一类是以同序对、异序对、同分对的概念 为基础的,如Gamma系数、肯德尔系数、d系数 等。所以我们在讨论这几种相关系数之前,先来 了解这三个概念。,2019/4/26,46,在定序相关测量中,首先要搞清楚“次序对(pair)”的概念。例如, 假设研究

16、员工的工作满足感与归属感的关系,将工作满足感从低到高,分为 低(1)、中(2)和高(3)三个级别,归属感也从低到高分为低(1)、中 (2)和高(3)三个级别。下表列示的是5名被访者A、B、C、D、E的情况。,2019/4/26,47,同序对 参见上表(注意,为了容易识别各种次序对,该表已先将被 访者按定序变量X由低到高作了排列),在观察X序列时如果我 们看到Xi Xj ,在Y序列中看到的是Yi Yj,则称这一配对是同 序对。同序对只要求X变化方向和Y变化方向相同,并不要求X变 化大小和Y变化大小相等。同序对的总数用符号ns表示。 异序对 见上表,在观察X序列时如果我们看到Xi Xj ,在Y序列

17、中看 到的是Yi Yj,则称这一配对是异序对。同样,异序对只要求X 变化方向和Y变化方向相同,并不要求X变化大小和Y变化大小相 等。同序对的总数用符号nd表示。,2019/4/26,48,同分对 如果在X序列中,我们观察到Xi Xj (此时在Y序列中无Yi Yj),则这个配对仅是X方向上而非Y 方向上的同分对;X 的这种同 分对用符号nx表示。如果在Y 序列中,我们观察到Yi Yj(此时在X 序列中无Xi Xj ),则这个配对仅是Y 方向上而非X方向上的同分 对;Y 的这种同分对用符号ny表示。如果我们观察到 Xi Xj时,也 观察到Yi Yj ,则称这两个配对为X与Y 同分对,以符号nxy表

18、示。 X 同分对的总数用符号Tx表示, Tx nx + nxy ;Y 同分对的总数用 符号Ty表示, Ty ny + nxy 。 n个单位两两配对,总对数 ns + nd + nx + ny + nxy,2019/4/26,49,计算Gamma系数,肯得尔系数、 d 系 数等,我们面对的经常是两定序变量已形 成列联表的资料,所以对我们来说很重要 的是要学会定序变量列联表中这五种“次序 对”的计算和识别。 同序对:“右下余子式”法 异序对:“左下余子式”法,2019/4/26,50,工作满足感与归属感,2019/4/26,51,2. Gamma系数 性质: (1)取值范围-1,1 (2)具有PR

19、E意义 (3)属对称相关测量。 (4)不考虑同分对。,2019/4/26,52,例:在某市200户中调查,看住户人口密 度与婆媳冲突是否有关,交互分类后分布如 下,计算G相关系数并提出研究结论。,2019/4/26,53,3. 肯德尔等级相关系数 (1)Tau-a 系数 适用于不存在任何同分对的情况。,2019/4/26,54,某市有12 所大专院校,现组织一个评审委员 会对各院校校园环境及学生体质进行评价,评价 结果如表(表中已先将学校按X作了次序排列) 所示,试计算校园环境和学生体质关系的肯德尔 相关系数。,2019/4/26,55,(2)Tau-b系数 当出现同分对时,对分母进行修正。与

20、G系 数一样, Tau-b系数也具有消减误差比例的意 义。 Tau-b系数的特殊性在于,只有在列联表的 行数与列数相同(r=c)的情况下,其系数值才 可能是-1或+1,否则便不确定。,2019/4/26,56,(3)Tau-c系数 当同分对很多时,且rc ,可以用 Tau-c系数来测量。 m取rc列联表 中r和 c值较小者。 Tau-c系数没有消减误差比例的意义。,2019/4/26,57,4. 萨默斯 (d系数) 萨默尔斯提出的,对G系数进行修正。 d系数具有PRE意义,取值-1,1,为不对称测量。,2019/4/26,58,5. Spearman等级相关系数 运用上式计算等级相关系数很简便

21、:首先将定序变 量X和Y的数值形成对应的两个序数数列(其中先将X由小 到大排)。如遇有相等的数值时,则应将原有的等级求其 平均数,让它们以这平均等级并列。然后求出等级差, 经平方后求和,运用上式即可求得斯皮尔曼等级相关系 数。 例:为了解活动能力与智商是否有关,作了10名 同学的抽样调查,资料如表,问这10名同学的智商与活 动能力是否有关。,2019/4/26,59,2019/4/26,60,6. 肯德尔和谐系数 前面我们谈的都是对双变量求等级相关系 数。对于多变量求等级相关系数,如多个专家 对同一事物评价的一致性或相关程度的衡量, 肯德尔运用数理分析方法,提出了一个计算公 式,2019/4/

22、26,61,假设四位专家对10所大专院校环境质量进行排序,有 关评价结果列于下表中,试通过计算肯德尔和谐系数, 检验专家意见的一致性和相关程度。,2019/4/26,62,例:通过对1500多名青年作社会调查, 探讨当代青年择业倾向与对社会经济生活 的基本态度,得资料如表,求等级相关系 数(当代青年择业倾向与他们对职业社会 地位的等级认定的关系;择业倾向与他们 对职业的富裕程度认定的关系)。,2019/4/26,63,2019/4/26,64,试就以下单元数据,列举其中的同序 对、异序对、同分对。,2019/4/26,65,根据交互分类表计算:ns、nd、 nx 、 ny 、 nxy 、 Tx

23、 、 Ty 、 T(总对数),2019/4/26,66,练习:1.在某地抽选469名已婚男人,研究他们对父 亲的感情是否会影响他们对婚姻的适应。试计算G系数并 提出研究结论。 丈夫与父亲的感情对其婚姻适度之影响,2019/4/26,67,2. 以下是两位评判员对10名参赛人员的打分 排序:试用一系数描述两评判员打分相近程度。,2019/4/26,68,第四节 定距变量的相关分析,前两节,主要借助于列联表,我们解决了一 些定类、定序测量层次的相关测量问题。对于定 距变量,根据其变量值的数学特征,我们自然可 以引进更为精确的量化指标来反映它们之间的相 关程度。两个定距变量之间的相关测量,最常用 的

24、就是所谓积差系数它是由英国统计学家皮尔 逊(Pearson)用积差方法推导出来,所以也称皮尔 逊相关系数,用符号r表示。,2019/4/26,69,1. 相关表和散点图 相关表:经整理后反映两变量之间对应关系的数据表。 散点图:将相关表中各个有对应关系的数据在直角坐标 系上标出来,就得到散点图。散点图可以直观地观察两变 量之间对应关系。,2019/4/26,70,散点图表示的相关的类型,正相关 负相关 完全正相关 完全负相关 称零相关,2019/4/26,71,2积差系数的导出和计算,2019/4/26,72,r 是协方差与X和Y的标准差的乘积之比,2019/4/26,73,试就下表所示资料,

25、计算关于员工的工龄 和技术考核分的皮尔逊相关系数。,2019/4/26,74,2019/4/26,75,解:计算过程见上表 r=,2019/4/26,76,3 积差系数的性质 (1) r 是线性相关系数。 (2)适用于定距/定比变量。 (3)取值-1,1,绝对值越大,相关程度越高。r 的 绝对值在0.3以下表示不相关;0.30.5表示低度相关; 0.50.8表示中等相关;0.8以上表示高度相关。 (4)X与Y是对称关系。 (5)相关系数的数值不受坐标点变化的影响。 (6)r2具有PRE意义。 (7)r 公式中的两个变量都是随机的,因而改变两者的位置并不影响r的数值。,2019/4/26,77,

26、注意事项: (1)注意实际意义 进行相关回归分析要有实际意义,不可把毫无关系 的两个事物或现象用来作相关回归分析。例如,有人 说,孩子长,公园里的小树也在长。求孩子和小树之间 的相关关系就毫无意义,用孩子的身高推测小树的高度 则更加荒谬。 (2)注意虚假相关 两个事物间能计算出相关系数,并不一定能证明事 物间有内在联系。例如,有人发现,对于在校儿童,鞋 的大小与阅读技能有很强的相关关系。然而,学会新词 并不能使脚变大,而是涉及到第三个因素 年龄。当儿 童长大一些,他们的阅读能力会提高而且由于长大也穿 不下原来的鞋。,2019/4/26,78,(3)利用散点图 对于性质不明确的两组数据,可先做散

27、点图,在图 上看它们有无关系、关系的密切程度、是正相关还是负 相关,是直线相关还是曲线相关,然后再进行相关分 析。 (4)注意变量范围 相关分析和回归方程仅适用于产生样本的原始数据 范围之内,出了这个范围,两变量的相关关系和回归关 系不能就此得到说明。,2019/4/26,79,第五节 回归分析,在分析定距变量间的关联性时,最初关注的仅仅是变量相关的强度和方向,即进行积差相关分析。然而积差系数并不能表明X和Y之间的因果关系,要明确一个变量的变化能否由另一个变量的变化来解释,或要通过已知变量很好地预测未知变量,就要进行回归分析。 在回归分析中,如果自变量只有一个,则称为一元回归;如果自变量有两个

28、或两个以上则称为多元回归。而根据回归方程式的特征,又可以分为线性回归和非线性回归。一元线性回归分析是所有回归分析的基础, 另外,回归分析与相关分析具有密切的联系。一般说来,只有当两个变量之间存在着较高程度的相关关系时,回归分析才变得有意义和有价值。因此,往往先进行相关分析,然后才选用有明显相关关系的变量作回归分析。,2019/4/26,80,1. 线性回归 线性回归分析,一般是先依据相关表做出 散点图,直观地估计X和Y关联性。如果两变量 的确呈现出一定的线性相关趋势,便可以设所 要求的回归直线方程为 是因变量Y的预测值或称估计值。 回归方程的建立: 先做散点图;利 用最小二乘法。,2019/4

29、/26,81,运用最小平方法可以在所有可能的直线中找到使 Q达到最小的回归直线。 分别对a、b求偏导并令其为零,求得两个标准方程:,解联立方程,得到 a 和 b 的计算公式:,X,Y,2019/4/26,82,在回归方程中,b有十分重要的意 义,被称为回归系数。b值的大小, 反映了X对Y有多大的影响,即b值就 是当X增加一个单位时Y值的增量。,2019/4/26,83,例:为了研究受教育年限和职业声望之间的关系,设 以下是8名社会成员抽样调查的结果,求直线回归方程。 解:,直线回归方程是,2019/4/26,84,2019/4/26,85,X,Y,总变差 = 回归变差 + 剩余变差,2. 决定

30、系数(r2),三种变差平方和,总变差 SST,回归变差 SSB,剩余变差 SSW,2019/4/26,86,是r2而非r 具有PRE意义,决定系数也可以表达为回归变差在总变差中所占比例,2019/4/26,87,相关指数R,对于直线相关来说,等同于r, 即Rr。但对于非线性相关来说,就只能用相关 指数R来加以测量了。,3.相关指数R,2019/4/26,88,总变差:不知回归方程时, 剩余变差:Y值对于回归直线的偏差,。 回归变差:回归已知时误差减少的量。 总变差 = 剩余变差 + 回归变差 总平方和 = 未解释的平方和 + 已解释的平方和 SST = SSe + SSA r 2=(总变差 -

31、 剩余变差)/总变差 =回归变差/总变差 是r2而非r 具有PRE意义,所以r0.3时判定无相关。,4.积差系数的PRE意义,2019/4/26,89,第六节 曲线相关与回归,非线性相关和回归的一般课题太复杂,无法在 本书中充分地展开。幸运的是,一些非线性关系, 有可能通过适当的变量变换,将非线性函数转化为 线性函数,从而把非线性相关和回归问题转化为线 性相关和回归问题来处理。而且,这些比较简单的 非线性方程对于社会研究中产生的许多非线性关系 来说,通常还是足以胜任的。 1. 可线性化的非线性函数 2. 二次曲线 3. 指数曲线,2019/4/26,90,估计标准误差 为了测定回归线的代表性,引入 用来反 映围绕回归线的Y值分布的离散程度。又称回归 标准差。,2019/4/26,91,估计标准误差的解释 (1)Y的实际观测值在对应的每个估计值YP 周围呈正态分布,越靠近YP的地方Y值出现的机 会越多。 (2)所有的正态分布都具有相同的标准差: 同方差性。据此,可以对Y进行估计和推断。,2019/4/26,92,练习:以下是生活期望值与个人成就 的抽样调查。 求:相关系数和回归直线。,

展开阅读全文
相关资源
猜你喜欢
相关搜索

当前位置:首页 > 其他


经营许可证编号:宁ICP备18001539号-1