第9章spss的相关分析和线性回归分析.ppt

资源描述

《第9章spss的相关分析和线性回归分析.ppt》由会员分享，可在线阅读，更多相关《第9章spss的相关分析和线性回归分析.ppt（52页珍藏版）》请在三一文库上搜索。

1、第9章 spss的相关分析和线性回归分析 n相关分析和回归分析是统计分析方法中最重要内容之一，是多元统计分析方法的基础。相关分析和回归分析主要用于研究和分析变量之间的相关关系，在变量之间寻求合适的函数关系式，特别是线性表达式。 n本章主要内容： n对变量之间的相关关系进行分析（Correlate）。其中包括简单相关分析（Bivariate）和偏相关分析（Partial）。 n建立因变量和自变量之间回归模型（Regression ），其中包括线性回归分析（Linear）和曲线估计（Curve Estimation）。 n数据条件：参与分析的变量数据是数值型变量或有序变量。本章

2、内容 9.1 相关分析 9.2 偏相关分析 9.3 线性回归分析 9.4 曲线估计 9.5 二项Logistic回归 n相关分析用于测量了解变量之间的密切程度。如：教育事业的发展与科学技术的发展存在着一定的关系，学生的数学成绩与物理成绩存在着一定的关系，相关分析就是要分析这种密切程度。 n相关类型： 1、直线相关：两变量呈线性共同增大，或一增一减。 2、曲线相关：两变量存在相关趋势，但非线性。此时若进行直线相关，有可能出现无相关性的结论，曲线相关分析是一般都先将变量进行变量变换，以将趋势变换为直线分析，或者采用曲线回归方法来分析。 n相关的方向依照两种变量变动的方向分，有正相关、

3、负相关和无相关（零相关）。相关分析基本步骤： n1.绘制散点图 n2.计算相关系数 n3.进行相关系数检验 n如果两个定量变量没有关系，就谈不上建立模型或进行回归。但怎样才能发现两个变量有没有关系呢？ n最简单的直观办法就是画出它们的散点图。下面是四组数据的散点图；每一组数据表示了两个变量x和y的样本。第1点不相关正线性相关负线性相关相关但非线性相关 n但如何在数量上描述相关呢？下面引进几种对相关程度的度量。 nPearson相关系数 nSpearman 秩相关系数 nKendall t 相关系数 nPearson相关系数（Pearsons correlation

4、coefficient）又叫相关系数或线性相关系数。它一般用字母r表示。它是由两个变量的样本取值得到，这是一个描述线性相关强度的量，取值于-1和1之间。当两个变量有很强的线性相关时，相关系数接近于1（正相关）或-1（负相关），而当两个变量不那么线性相关时，相关系数就接近0。 Pearson相关系数的局限性：要求变量服从正态分布只能度量线性相关性，对于曲线相关等更为复杂的情形，该相关系数的大小并不能代表相关性的强弱。如果Pearson系数很低，只能说明两变量之间没有线性关系，并不能说明两者之间没有相关关系。也就是说，该指标只能度量线性相关性，而不是相关性。（线性相关

5、性隐含着相关性，而相关性并不隐含着线性相关性）另外：样本中存在的极端值对Pearson相关系数的影响极大，因此要慎重考虑和处理，必要时可以对其进行剔出，或者加以变量变换，以避免因为一两个数值导致出现错误的结论。 Spearman 秩相关系数它和Pearson相关系数定义有些类似，只不过在定义中把点的坐标换成各自样本的秩（即样本点大小的“座次”）。 , 为两变量各自对应的秩，为对应的秩之差。 Spearman相关系数也是取值在-1和1之间，也有类似的解释。 Spearman 秩相关系数适用范围： Spearman相关系数更多用于测量两个有序分类变量之间的相关程度。对于适合

6、Pearson相关系数的数据亦可计算Spearman 相关系数，但统计效能要低一些。通过它也可以进行不依赖于总体分布的非参数检验。 n侧重于两个分类变量均为有序分类的情况。这里的度量原理是把所有的样本点配对（如果每一个点由x和y的秩组成的坐标(x,y)代表，一对点就是诸如(x1,y1)和(x2,y2)的点对），然后看每一对中的x和y的的秩的观测值是否同时增加（或减少）。比如由点对(x1,y1)和(x2,y2)，可以算出乘积(x2-x1)(y2-y1)是否大于0；如果大于0，则说明x和y同时增长或同时下降，称这两点协同（concordant）；否则就是不协同。如果样本中协同

7、的点数目多，两个变量就更加正相关一些否则就更负相关些；如果样本中不协同（discordant）与协同的点数差不过一样多，两个变量相关性就弱。 Kendall 相关系数（Kendalls ） Kendalls 统计量的数学定义为： Kendall 相关系数（Kendalls ） U、V分别为协同和不协同的数目大样本下采用的检验统计量为： Z统计量近似服从标准正态分布 n人们可能会问，上面的三种对相关的度量都是在其值接近1或-1时相关，而接近于0时不相关。到底如何才能够称为“接近”呢？ n这很难一概而论。但在计算机输出中都有和这些相关度量相应的检验和p-值；因此可以根据这些结果

8、来判断是否相关 n画散点图 nGraphsScatter n选择散点图的类型 n根据所选择的散点图类型，单击Define对散点图作具体定义。 n计算相关系数 nAnalyzeCorrelateBivariate n选择参加计算的变量到Variable中 n在Correlation Coefficents框中选择计算哪种相关系数 n在Test of Significance框中选择输出单尾还是双尾p值 n选择Flag significance correlations输出星号标记 n在Options中选择其他描述统计量简单相关分析菜单简单相关分析 n实例：有50个从初中升到高中的学生。

9、有他们在初三和高一的各科平均成绩(数据在highschool.sav)。要求比较初三的成绩是否和高中的成绩相关。 n练习：利用数据SY-8.sav，对城镇居民消费额与人均国内生产总值两变量进行相关分析。分析结果 n从运行结果看,城镇居民消费额与人均国内生产总值有很强的线形相关关系. 本章内容 9.1 相关分析 9.2 偏相关分析 9.3 线性回归分析 9.4 曲线估计 9.5 二项Logistic回归偏相关分析简单相关分析计算两个变量间的相关系数，分析两个变量间线性关系的程度。往往因为第三个变量的作用，使相关系数不能真正反应两个变量间的线性程度。例如用简单相关系数检验，可

10、以得到肺活量与身高、体重均存在较强的线性关系，如果对体重相同的人，分析身高和肺活量，是否身高越高肺活量越大呢？因为身高与体重有线性关系，体重又与肺活量存在线性关系，因此，很容易得出身高与肺活量存在较强线性关系的错误结论。偏相关分析的任务就是在研究两个变量之间的线性相关关系时控制可能对其产生影响的变量。分析身高与肺活量之间的相关性，就要控制体重在相关分析中的影响。正确运用偏相关分析，可以解释变量间的真实关系，识别干扰变量并寻找隐含的相关性。偏相关系数的计算控制了变量z，变量x、y之间的偏相关系数和控制了两个变量，变量x、y之间的偏相关系数分别为是控制了z的条件下，

11、x、y之间的偏相关系数。是变量x、y间的简单相关系数。偏相关系数的检验检验的零假设：两个变量间的偏相关系数为0 。使用t检验，公式如下： r是相应的偏相关系数。n是观测个数，k是控制变量的数目，n-k-2是自由度。在SPSS的偏相关分析过程的输出中只给出偏相关系数和假设成立的概率p值。偏相关分析的操作与简单相关分析操作类似，只不过菜单为 AnalyzeCorrelatePartial n实例：利用数据相关回归分析（高校科研研究）.sav，分析发表立项课题数与论文数之间的偏相关关系，其中投入高级职称的人数为控制变量。 n练习：利用数据data10-03.sav，分析中山柏

12、月生长量与4个气候因素哪个因素有关。本章内容 9.1 相关分析 9.2 偏相关分析 9.3 线性回归分析 9.4 曲线估计 9.5 二项Logistic回归线性回归分析线性回归是统计分析方法中最常用的方法之一。如果所研究的现象有若干个影响因素，且这些因素对现象的综合影响是线性的，则可以使用线性回归的方法建立现象（因变量）与影响因素（自变量）之间的线性函数关系式。由于多元线性回归的计算量比较大，所以有必要应用统计分析软件实现。这一节将专门介绍SPSS软件的线性回归分析的操作方法，包括求回归系数，给出回归模型的各项检验统计量值及相应的概率，对输出结果的分析等相关内容。

13、线性回归模型假设条件与模型的各种检验 1、线性回归的假设理论（1）正态性假设：即所研究的变量均服从正态分布；（2）等方差假设：即各变量总体的方差是相等的；（3）独立性假设, 即各变量之间是相互独立的；（4）残差项无自相关性，即误差项之间互不相关， Cov(i，j）= 0 2、线性回归模型的检验项目（1）回归系数的检验（t检验）。（2）回归方程的检验（F检验）。（3）拟合程度判定（可决系数R2 ）。（4）D.W检验（残差项是否自相关）。（5）共线性检验（多元线性回归）。（6）残差图示分析（判断异方差性和残差序列自相关）。对初三和高一的各科平均成绩这两个变量的数据进行线性回

14、归，就是要找到一条直线来适当地代表图中的那些点的趋势。 n首先需要确定选择这条直线的标准。这里介绍最小二乘回归（least squares regression）。古汉语“二乘”是平方的意思。 n这就是寻找一条直线，使得所有点到该直线的竖直距离的平方和最小。用数据寻找一条直线的过程也叫做拟合（fit）一条直线。 n根据计算，找到初三成绩和高一成绩的回归直线。计算机输出给出来截距（Constant） 26.444和斜率(变量j3的系数) 0.651。截距=26.444; 斜率=0.651 n这个直线实际上是对所假设的下面线性回归模型的估计（这里的是随机误差）：我们得到的截距

15、和斜率（26.444和 0.651）是对b0和b1的估计。 n由于不同的样本产生不同的估计，所以估计量是个随机变量，它们也有分布，也可以用由他们构造检验统计量来检验b0和b1 是不是显著。拿回归主要关心的来说，假设检验问题是 n计算机输出也给出了这个检验：t检验统计量为9.089，而p-值为0.000。 n除了对b1的检验之外，还有一个说明自变量解释因变量变化百分比的度量，叫做决定系数（coefficient of determination，也叫测定系数或可决系数），用R2表示。 nR2 =0.632；这说明这里的自变量可以大约解释63的因变量的变化。R2越接近1，回归就越

16、成功。由于R2有当变量数目增加而增大的缺点，人们对其进行修改；有一修正的R2（adjusted R square）。 n此外，计算机还计算了一个在零假设下有F 分布的检验统计量，它是用来检验回归拟合好坏的（零假设是因变量和自变量没有关系）。 n和刚才简单的回归模型类似，一般的有k个（定量）自变量x1, x2, xk的对因变量y的线性回归模型为（称为多元回归） n这里b0, b1, bk称为回归系数。对计算机来说，计算多个自变量的回归和计算一个自变量的情况类似，计算机也会自动输出相应的检验结果。用数据来拟合所选的一个模型时，并不一定所有的变量都显著(并不一定所有的系数都有

17、意义)。在多元回归分析中，自变量的筛选一般有三种的策略和方法： 1.向前筛选法（Forward）。 2.向后筛选法（Backward）。 3.逐步回归法（Stepwise）。各种方法的思路见课本P203。多元回归中变量筛选问题 n画散点图先做数据散点图,观测因变量与自变量之间关系是否有线性特点 n若散点图的趋势大概呈线性关系，可以建立线性回归模型 nAnalyzeRegressionLinear n选择因变量变量到Dependent中,因变量选入 Independent. n在Method框中选择回归分析自变量筛选策略。 n选择一个变量作为条件变量放到Selection Varia

18、ble中，并单击Rule给定一个判断条件，只有变量值满足给定条件才参与回归分析。 n在Case Lables框中指定哪个变量作为样本数据点的标志变量，该变量的值将标在回归分析的输出图形中。回归分析基本操作线性回归分析 n实例：利用数据相关回归分析（高校科研研究）.sav ，分析发表立项课题数受那些因素的影响。 n练习： n利用美国收入消费数据.sav，建立用消费来预测收入的回归方程。 n利用数据A商品需求多元回归.sav 建立一个以居民人均收入、A商品单价为自变量，销售量为因变量的回归模型。 A商品需求多元回归 n要注意的值有3个: adjusted R square ,F,t

19、 n由此得,回归方程为 nY=4.588+1.868X1-1.8X2 t值 (1.82) (6.93) (-2.455) 本章内容 9.1 相关分析 9.2 偏相关分析 9.3 线性回归分析 9.4 曲线估计 9.5 二项Logistic回归 n对于一元回归，若散点图的趋势不呈线性分布，可以利用曲线估计方便地进行线性拟合(liner)、二次拟合(Quadratic)、三次拟合(Cubic)等。不同模型的表示模型名称回归归方程相应应的线线性回归归方程 Linear(一元线线性)Y=b0+b1t Quadratic(二次曲线线)Y=b0+b1t+b2t2 Compound(复合曲线线)Y=

20、b0(b1t)Ln(Y)=ln(b0)+ln(b1)t Growth(增长长曲线线) Y=eb0+b1t Ln(Y)=b0+b1t Logarithmic(对对数曲线线)Y=b0+b1ln(t) Cubic(三次曲线线)Y=b0+b1t+b2t2+b3t3 S曲线线 Y=eb0+b1/t Ln(Y)=b0+b1 / t Exponential(指数曲线线) Y=b0 * eb1*t Ln(Y)=ln(b0)+b1t Inverse(逆函数)Y=b0+b1/t Power(幂幂函数) Y=b0(tb1 ) Ln(Y)=ln(b0)+b1ln(t) Logistic(逻辑逻辑函数)Y=1/(1/

21、u+b0b1t)Ln(1/Y-1/u)=ln(b0+ln(b1)t) n采用哪种拟合方式，可以画散点图判断，但更主要的是取决于各种拟合模型对数据的充分描述(看修正Adjusted R2) 曲线估计的基本操作 nAnalyzeRegressionCurve Estimation n选择因变量变量到Dependent中。 n曲线估计的自变量可以是相关因素变量也可以是时间变量。如果自变量是相关因素变量，则选择Variable选项，并把一个自变量指定到Independt里，如果是时间变量则选择Time选项。 n在Models中选择模型。 n选择Plot Models选项绘制回归线；选择Dis

22、play ANOVA table输出各个模型的方差分析表和各回归系数显著性检验结果。 n在Save中选择要保存的数据。 n实例：数据相关回归分析（年人均消费支出和教育）.sav n1.利用19902002年的数据，以年人均消费性支出为自变量，教育支出为因变量拟合回归模型。 n2.利用19812002年居民在外就餐消费的数据，对居民未来在外就餐的趋势进行分析和预测。 n练习：利用数据居民收入支出情况，以人均生活费收入为自变量，人均生活费支出为因变量拟合回归模型。曲线估计本章内容 9.1 相关分析 9.2 偏相关分析 9.3 线性回归分析 9.4 曲线估计 9.5 二项Logis

23、tic回归 n在现实中，经常需要判断一些事情是否将要发生，候选人是否会当选？为什么一些人易患冠心病？为什么一些人的生意会获得成功？此问题的特点是因变量只有两个值，不发生(0)和发生(1)。这时，就无法直接采用一般线性回归模型来分析了。 nLogistic（逻辑）回归模型设某一事件发生的概率为p（则不发生的概率为1- p ），Logistic回归模型的形式如下： n对此，人们通常会考虑下面的模型（称为 logistic回归模型） n为了循序渐近，先拟合没有性别作为自变量（只有年龄x）的模型 n我们通过例子来介绍Logistic回归数据logi.sav中，观点为二值型的因变量，受年

24、龄（定距变量）和性别（定类变量）的影响。 n很容易得到b0和b1的估计分别为2.381和- 0.069。拟合的模型为 n下面再加上性别变量进行拟合，得到对b0，b1和0,1的估计分别为1.722, -0.072, 1.778, 0。对于女性和男性，该拟合模型分别可以表示为 Logistic回归的操作 n自变量为定量变量时：利用SPSS选项：Analize RegressionBinary Logistic， n再把因变量(opinion)选入Dependent Variable ，把自变量（age）选入Covariates，OK即可得到结果。 n自变量为定类变量及定性变量时：利用SPSS选项：AnalizeRegressionBinary Logistic ， n再把因变量(opinion)选入Dependent Variable ，把自变量（age和sex）选入Covariates，然后点Categorical，再把定性变量sex选入 Categorical Covariate，回到主对话框，点击 OK即可得到结果。 n实例：数据LOGI.sav,以年龄、性别为自变量，观点为因变量拟合逻辑回归模型。 n练习：利用住房收入情况数据，以收入为自变量，是否拥有住房为因变量拟合逻辑回归模型。 Logistic回归

展开阅读全文