第9章spss的相关分析和线性回归分析.ppt

上传人:本田雅阁 文档编号:2968015 上传时间:2019-06-15 格式:PPT 页数:52 大小:363.54KB
返回 下载 相关 举报
第9章spss的相关分析和线性回归分析.ppt_第1页
第1页 / 共52页
第9章spss的相关分析和线性回归分析.ppt_第2页
第2页 / 共52页
第9章spss的相关分析和线性回归分析.ppt_第3页
第3页 / 共52页
第9章spss的相关分析和线性回归分析.ppt_第4页
第4页 / 共52页
第9章spss的相关分析和线性回归分析.ppt_第5页
第5页 / 共52页
点击查看更多>>
资源描述

《第9章spss的相关分析和线性回归分析.ppt》由会员分享,可在线阅读,更多相关《第9章spss的相关分析和线性回归分析.ppt(52页珍藏版)》请在三一文库上搜索。

1、第9章 spss的相关分析和线 性回归分析 n相关分析和回归分析是统计分析方法中最重要内 容之一,是多元统计分析方法的基础。相关分析 和回归分析主要用于研究和分析变量之间的相关 关系,在变量之间寻求合适的函数关系式,特别 是线性表达式。 n本章主要内容: n对变量之间的相关关系进行分析(Correlate)。 其中包括简单相关分析(Bivariate)和偏相关分 析(Partial)。 n建立因变量和自变量之间回归模型(Regression ),其中包括线性回归分析(Linear)和曲线估 计(Curve Estimation)。 n数据条件:参与分析的变量数据是数值型变 量或有序变量。 本章

2、内容 9.1 相关分析 9.2 偏相关分析 9.3 线性回归分析 9.4 曲线估计 9.5 二项Logistic回归 n相关分析用于测量了解变量之间的密切程度。如:教 育事业的发展与科学技术的发展存在着一定的关系, 学生的数学成绩与物理成绩存在着一定的关系,相关 分析就是要分析这种密切程度。 n相关类型: 1、直线相关:两变量呈线性共同增大,或一增一减。 2、曲线相关:两变量存在相关趋势,但非线性。此时 若进行直线相关,有可能出现无相关性的结论,曲线 相关分析是一般都先将变量进行变量变换,以将趋势 变换为直线分析,或者采用曲线回归方法来分析。 n相关的方向 依照两种变量变动的方向分,有正相关、

3、负相关 和无相关(零相关)。 相关分析基本步骤: n1.绘制散点图 n2.计算相关系数 n3.进行相关系数检验 n如果两个定量变量没有关系,就 谈不上建立模型或进行回归。但 怎样才能发现两个变量有没有关 系呢? n最简单的直观办法就是画出它们 的散点图。下面是四组数据的散 点图;每一组数据表示了两个变 量x和y的样本。 第1点 不相关 正线性相关 负线性相关 相关但非线性相关 n但如何在数量上描述相关呢?下面 引进几种对相关程度的度量。 nPearson相关系数 nSpearman 秩相关系数 nKendall t 相关系数 nPearson相关系数(Pearsons correlation

4、coefficient)又叫相 关系数或线性相关系数。它一般用 字母r表示。 它是由两个变量的样本取值得到,这是一个 描述线性相关强度的量,取值于-1和1之间。当 两个变量有很强的线性相关时,相关系数接近 于1(正相关)或-1(负相关),而当两个变量 不那么线性相关时,相关系数就接近0。 Pearson相关系数的局限性 : 要求变量服从正态分布 只能度量线性相关性,对于曲线相关等更为复杂的 情形,该相关系数的大小并不能代表相关性的强弱。 如果Pearson系数很低,只能说明两变量之间没有线 性关系,并不能说明两者之间没有相关关系。也就是 说,该指标只能度量线性相关性,而不是相关性。( 线性相关

5、性隐含着相关性,而相关性并不隐含着线性 相关性) 另外:样本中存在的极端值对Pearson相关系数的影 响极大,因此要慎重考虑和处理,必要时可以对其进 行剔出,或者加以变量变换,以避免因为一两个数值 导致出现错误的结论。 Spearman 秩相关系数 它和Pearson相关系数定义有些类似, 只不过在定义中把点的坐标换成各自样本 的秩(即样本点大小的“座次”)。 , 为两变量各自对应的秩, 为对应的秩之差。 Spearman相关系数也是取值在-1和1之 间,也有类似的解释。 Spearman 秩相关系数适用范围: Spearman相关系数更多用于测量两个有序 分类变量之间的相关程度。对于适合

6、Pearson相关系数的数据亦可计算Spearman 相关系数,但统计效能要低一些。通过它 也可以进行不依赖于总体分布的非参数检 验。 n侧重于两个分类变量均为有序分类的情况。这 里的度量原理是把所有的样本点配对(如果每 一个点由x和y的秩组成的坐标(x,y)代表,一对 点就是诸如(x1,y1)和(x2,y2)的点对),然后看 每一对中的x和y的的秩的观测值是否同时增加 (或减少)。比如由点对(x1,y1)和(x2,y2),可 以算出乘积(x2-x1)(y2-y1)是否大于0;如果大 于0,则说明x和y同时增长或同时下降,称这两 点协同(concordant);否则就是不协同。如 果样本中协同

7、的点数目多,两个变量就更加正 相关一些否则就更负相关些;如果样本中不协 同(discordant)与协同的点数差不过一样多 ,两个变量相关性就弱。 Kendall 相关系数(Kendalls ) Kendalls 统计量的数学定义为: Kendall 相关系数(Kendalls ) U、V分别为协同和不 协同的数目 大样本下采用的检验统计量为: Z统计量近似服从标准正态分布 n人们可能会问,上面的三种对相关 的度量都是在其值接近1或-1时相关 ,而接近于0时不相关。到底如何才 能够称为“接近”呢? n这很难一概而论。但在计算机输出 中都有和这些相关度量相应的检验 和p-值;因此可以根据这些结果

8、来 判断是否相关 n画散点图 nGraphsScatter n选择散点图的类型 n根据所选择的散点图类型,单击Define对散点图作具体定 义。 n计算相关系数 nAnalyzeCorrelateBivariate n选择参加计算的变量到Variable中 n在Correlation Coefficents框中选择计算哪种相关系数 n在Test of Significance框中选择输出单尾还是双尾p值 n选择Flag significance correlations输出星号标记 n在Options中选择其他描述统计量 简单相关分析菜单 简单相关分析 n实例:有50个从初中升到高中的学生。

9、有他们在初三和高一的各科平均成绩(数 据在highschool.sav)。要求比较初三的 成绩是否和高中的成绩相关。 n练习:利用数据SY-8.sav,对城镇居民 消费额与人均国内生产总值两变量进行 相关分析。 分析结果 n从运行结果看,城镇居民消费额与人均 国内生产总值有很强的线形相关关系. 本章内容 9.1 相关分析 9.2 偏相关分析 9.3 线性回归分析 9.4 曲线估计 9.5 二项Logistic回归 偏相关分析 简单相关分析计算两个变量间的相关系数,分析两 个变量间线性关系的程度。往往因为第三个变量的作 用,使相关系数不能真正反应两个变量间的线性程度 。例如用简单相关系数检验,可

10、以得到肺活量与身高 、体重均存在较强的线性关系,如果对体重相同的人 ,分析身高和肺活量,是否身高越高肺活量越大呢? 因为身高与体重有线性关系,体重又与肺活量存在线 性关系,因此,很容易得出身高与肺活量存在较强线 性关系的错误结论。 偏相关分析的任务就是在研究两个变量之间的线性 相关关系时控制可能对其产生影响的变量。分析身高 与肺活量之间的相关性,就要控制体重在相关分析中 的影响。正确运用偏相关分析,可以解释变量间的真 实关系,识别干扰变量并寻找隐含的相关性。 偏相关系数的计算 控制了变量z,变量x、y之间的偏相关系数 和控制了两个变量 ,变量x、y之间的偏 相关系数分别为 是控制了z的条件下,

11、x、y之间的偏相关 系数。 是变量x、y间的简单相关系数。 偏相关系数的检验 检验的零假设:两个变量间的偏相关系数为0 。使用t检验,公式如下: r是相应的偏相关系数。n是观测个数,k是 控制变量的数目,n-k-2是自由度。 在SPSS的偏相关分析过程的输出中只给出偏 相关系数和假设成立的概率p值。 偏相关分析的操作 与简单相关分析操作类似,只不过菜单为 AnalyzeCorrelatePartial n实例:利用数据相关回归分析(高校科研研究 ).sav,分析发表立项课题数与论文数之间的 偏相关关系,其中投入高级职称的人数为控制 变量。 n练习:利用数据data10-03.sav,分析中山柏

12、 月生长量与4个气候因素哪个因素有关。 本章内容 9.1 相关分析 9.2 偏相关分析 9.3 线性回归分析 9.4 曲线估计 9.5 二项Logistic回归 线性回归分析 线性回归是统计分析方法中最常用的方法之 一。如果所研究的现象有若干个影响因素,且这 些因素对现象的综合影响是线性的,则可以使用 线性回归的方法建立现象 (因变量)与影响因 素(自变量)之间的线性函数关系式。由于多元 线性回归的计算量比较大,所以有必要应用统计 分析软件实现。这一节将专门介绍SPSS软件的线 性回归分析的操作方法,包括求回归系数,给出 回归模型的各项检验统计量值及相应的概率,对 输出结果的分析等相关内容。

13、线性回归模型假设条件与模型的各种检验 1、线性回归的假设理论 (1)正态性假设:即所研究的变量均服从正态分布; (2)等方差假设:即各变量总体的方差是相等的; (3)独立性假设, 即各变量之间是相互独立的; (4)残差项无自相关性,即误差项之间互不相关, Cov(i,j)= 0 2、线性回归模型的检验项目 (1)回归系数的检验(t检验)。 (2)回归方程的检验(F检验)。 (3)拟合程度判定(可决系数R2 )。 (4)D.W检验(残差项是否自相关)。 (5)共线性检验(多元线性回归)。 (6)残差图示分析(判断异方差性和残差序列自相关)。 对初三和高一的各科平均成绩这两个变量的数 据进行线性回

14、归,就是要找到一条直线来适当地 代表图中的那些点的趋势。 n首先需要确定选择这条直线的标准。这里介 绍最小二乘回归(least squares regression)。古汉语“二乘”是平方的意 思。 n这就是寻找一条直线,使得所有点到该直线 的竖直距离的平方和最小。用数据寻找一条 直线的过程也叫做拟合(fit)一条直线。 n根据计算,找到初三成绩和高一成绩的回归 直线。计算机输出给出来截距(Constant) 26.444和斜率(变量j3的系数) 0.651。 截距=26.444; 斜率=0.651 n这个直线实际上是对所假设的下面线 性回归模型的估计(这里的 是随机 误差): 我们得到的截距

15、和斜率(26.444和 0.651)是对b0和b1的估计。 n由于不同的样本产生不同的估计,所以估 计量是个随机变量,它们也有分布,也可 以用由他们构造检验统计量来检验b0和b1 是不是显著。拿回归主要关心的来说,假 设检验问题是 n计算机输出也给出了这个检验:t检验统 计量为9.089,而p-值为0.000。 n除了对b1的检验之外,还有一个说明自变 量解释因变量变化百分比的度量,叫做决 定系数(coefficient of determination,也 叫测定系数或可决系数),用R2表示。 nR2 =0.632;这说明这里的自变量可以大约 解释63的因变量的变化。R2越接近1, 回归就越

16、成功。由于R2有当变量数目增加 而增大的缺点,人们对其进行修改;有一 修正的R2(adjusted R square)。 n此外,计算机还计算了一个在零假设下有F 分布的检验统计量,它是用来检验回归拟 合好坏的(零假设是因变量和自变量没有 关系)。 n和刚才简单的回归模型类似,一般的有k个 (定量)自变量x1, x2, xk的对因变量y的 线性回归模型为(称为多元回归) n这里b0, b1, bk称为回归系数。对计算机 来说,计算多个自变量的回归和计算一个 自变量的情况类似,计算机也会自动输出 相应的检验结果。 用数据来拟合所选的一个模型时, 并不一定所有的变量都显著(并不一定所 有的系数都有

17、意义)。 在多元回归分析中,自变量的筛选 一般有三种的策略和方法: 1.向前筛选法(Forward)。 2.向后筛选法(Backward)。 3.逐步回归法(Stepwise)。 各种方法的思路见课本P203。 多元回归中变量筛选问题 n画散点图先做数据散点图,观测因变量与自变量 之间关系是否有线性特点 n若散点图的趋势大概呈线性关系,可以建立线 性回归模型 nAnalyzeRegressionLinear n选择因变量变量到Dependent中,因变量选入 Independent. n在Method框中选择回归分析自变量筛选策略。 n选择一个变量作为条件变量放到Selection Varia

18、ble中 ,并单击Rule给定一个判断条件,只有变量值满足给定 条件才参与回归分析。 n在Case Lables框中指定哪个变量作为样本数据点的标 志变量,该变量的值将标在回归分析的输出图形中。 回归分析基本操作 线性回归分析 n实例:利用数据相关回归分析(高校科研研究).sav ,分析发表立项课题数受那些因素的影响。 n练习: n利用美国收入消费数据.sav,建立用消费来预 测收入的回归方程。 n利用数据A商品需求多元回归.sav 建立一个以 居民人均收入、A商品单价为自变量,销售量 为因变量的回归模型。 A商品需求多元回归 n要注意的值有3个: adjusted R square ,F,t

19、 n由此得,回归方程为 nY=4.588+1.868X1-1.8X2 t值 (1.82) (6.93) (-2.455) 本章内容 9.1 相关分析 9.2 偏相关分析 9.3 线性回归分析 9.4 曲线估计 9.5 二项Logistic回归 n对于一元回归,若散点图的趋势不呈线性分布,可 以利用曲线估计方便地进行线性拟合(liner)、二次 拟合(Quadratic)、三次拟合(Cubic)等。 不同模型的表示 模型名称回归归方程相应应的线线性回归归方程 Linear(一元线线性)Y=b0+b1t Quadratic(二次曲线线)Y=b0+b1t+b2t2 Compound(复合曲线线)Y=

20、b0(b1t)Ln(Y)=ln(b0)+ln(b1)t Growth(增长长曲线线) Y=eb0+b1t Ln(Y)=b0+b1t Logarithmic(对对数曲线线)Y=b0+b1ln(t) Cubic(三次曲线线)Y=b0+b1t+b2t2+b3t3 S曲线线 Y=eb0+b1/t Ln(Y)=b0+b1 / t Exponential(指数曲线线) Y=b0 * eb1*t Ln(Y)=ln(b0)+b1t Inverse(逆函数)Y=b0+b1/t Power(幂幂函数) Y=b0(tb1 ) Ln(Y)=ln(b0)+b1ln(t) Logistic(逻辑逻辑 函数)Y=1/(1/

21、u+b0b1t)Ln(1/Y-1/u)=ln(b0+ln(b1)t) n采用哪种拟合方式,可以画散点图判 断,但更主要的是取决于各种拟合模 型对数据的充分描述(看修正Adjusted R2) 曲线估计的基本操作 nAnalyzeRegressionCurve Estimation n选择因变量变量到Dependent中。 n曲线估计的自变量可以是相关因素变量也可以是时间变 量。如果自变量是相关因素变量,则选择Variable选项 ,并把一个自变量指定到Independt里,如果是时间变 量则选择Time选项。 n在Models中选择模型。 n选择Plot Models选项绘制回归线;选择Dis

22、play ANOVA table输出各个模型的方差分析表和各回归系数显著性 检验结果。 n在Save中选择要保存的数据。 n实例:数据相关回归分析(年人均消费支出和教育 ).sav n1.利用19902002年的数据,以年人均消费性支出为 自变量,教育支出为因变量拟合回归模型。 n2.利用19812002年居民在外就餐消费的数据,对居 民未来在外就餐的趋势进行分析和预测。 n练习:利用数据居民收入支出情况 ,以人均 生活费收入为自变量,人均生活费支出为因变 量拟合回归模型。 曲线估计 本章内容 9.1 相关分析 9.2 偏相关分析 9.3 线性回归分析 9.4 曲线估计 9.5 二项Logis

23、tic回归 n在现实中,经常需要判断一些事情是否将要发生,候选 人是否会当选?为什么一些人易患冠心病?为什么一些 人的生意会获得成功?此问题的特点是因变量只有两个 值,不发生(0)和发生(1)。这时,就无法直接采用一般 线性回归模型来分析了。 nLogistic(逻辑)回归模型 设某一事件发生的概率为p(则不发生的概率为1- p ),Logistic回归模型的形式如下: n对此,人们通常会考虑下面的模型(称为 logistic回归模型) n为了循序渐近,先拟合没有性别作为自变量 (只有年龄x)的模型 n我们通过例子来介绍Logistic回归 数据logi.sav中,观点为二值型的因变量,受 年

24、龄(定距变量)和性别(定类变量)的影响。 n很容易得到b0和b1的估计分别为2.381和- 0.069。拟合的模型为 n下面再加上性别变量进行拟合,得到对b0,b1和0,1的 估计分别为1.722, -0.072, 1.778, 0。对于女性和男 性,该拟合模型分别可以表示为 Logistic回归的操作 n自变量为定量变量时:利用SPSS选项:Analize RegressionBinary Logistic, n再把因变量(opinion)选入Dependent Variable ,把自变量(age)选入Covariates,OK即可得 到结果。 n自变量为定类变量及定性变量时:利用SPSS选 项:AnalizeRegressionBinary Logistic , n再把因变量(opinion)选入Dependent Variable ,把自变量(age和sex)选入Covariates,然 后点Categorical,再把定性变量sex选入 Categorical Covariate,回到主对话框,点击 OK即可得到结果。 n实例:数据LOGI.sav,以年龄、性别为 自变量,观点为因变量拟合逻辑回归模 型。 n练习:利用住房收入情况数据 ,以收入 为自变量,是否拥有住房为因变量拟合 逻辑回归模型。 Logistic回归

展开阅读全文
相关资源
猜你喜欢
相关搜索

当前位置:首页 > 其他


经营许可证编号:宁ICP备18001539号-1