第6章回归分析.doc_三一文库31doc.com

资源描述

《第6章回归分析.doc》由会员分享，可在线阅读，更多相关《第6章回归分析.doc（10页珍藏版）》请在三一文库上搜索。

1、第6章回归分析变量之间的联系可以分为两类，一类是确定性的，另一类是非确定性的。确定型的关系是指某一个或某几个现象的变动必然会引起另一个现象确定的变动，他们之间的关系可以使用数学函数式确切地表达出来，即y=f(x)。当知道x的数值时，就可以计算出确切的y值来。如圆的周长与半径的关系：周长=2r。非确定关系则不然，例如，在发育阶段，随年龄的增长，人的身高会增加。但不能根据年龄找到确定的身高，即不能得出11岁儿童身高一定就是1米40公分。年龄与身高的关系不能用一般的函数关系来表达。研究变量之间既存在又不确定的相互关系及其密切程度的分析称为相关分析。如果把其中的一些因素作为自变量，而另一些随自变量的

2、变化而变化的变量作为因变量，研究他们之间的非确定因果关系，这种分析就称为回归分析。在本章，我们将讲解回归分析有关的内容，而在下一章，我们将讲解相关分析的具体操作方法。在SppS 10.0 For windows中回归分析分为以下几种：（主要讲前三种） Linear：线性回归分析（data09-03） Curve Estimation：曲线回归分析（data13-01） Binary Logistic：二维 Logistic回归分析（data13-02） Multinomial Logistic：多维Logistic回归分析 Ordinal：Ordinal回归分析 Proibit：概率单位回

3、归分析 Nonlinear：非线性回归分析 Weight Estimation: 加权估测分析 2-Stage Least Squares: 两阶最小二乘分析 8.1线性回归（data09-03）一元线性回归方程（卫生统计114121页）直线回归分析的任务就是根据若干个观测（Xi，yi）i=1n找出描述两个变量X、y之间关系的直线回归方程y=a+bx。y是变量y的估计值。求直线回归方程y=a+bx,实际上是用回归直线拟合散点图中的各观测点。常用的方法是最小二乘法。也就是使该直线与各点的纵向垂直距离最小。即使实测值y与回归直线y之差的平方和(y-y)2达到最小。(y-y)2也称为剩余（残差）平

4、方和。因此求回归方程y=a+bx的问题，归根到底就是求(y-y)2取得最小值时a和b的问题。a称为截距，b为回归直线的斜率，也称回归系数。一元线性回归方程的适用条件（l）线形趋势：自变量与因变量的关系是线形的，如果不是，则不能采用线性回归来分析。（2）独立性：可表述为因变量y的取值相互独立，它们之间没有联系。反映到模型中，实际上就是要求残差间相互独立，不存在自相关。（3）正态性：自变量的任何一个线形组合，因变量y均服从正态分布，反映到模型中，实际上就是要求随机误差项i服从正态分布。 (4) 方差齐性：自变量的任何一个线形组合，因变量y的方差均齐性，实质就是要求残差的方差齐。概括起来，“独立

5、”、“线性”、“正态”、“等方差”是线性回归的四个条件。一元线性回归方程的检验根据原始数据，求出回归方程后就需要对回归方程进行检验。检验的假设是总体回归系数为0。另外要检验回归方程对因变量的预测效果如何。（1）回归系数的显著性检验对斜率的检验，假设是：总体回归系数为0。检验该假设的t值计算公式是；t=b/SEb,其中SEb是回归系数的标准误。对截距的检验，假设是：总体回归方程截距a=0。检验该假设的t值计算公式是： t=a/SEa,其中SEa是截距的标准误。（2）R2判定系数在判定一个线性回归直线的拟合优度的好坏时，R2系数是一个重要的判定指标。R2判定系数等于回归平方和在总平方和

6、中所占的比率，即R2体现了回归模型所能解释的因变量变异性的百分比。如果R2=0.775，则说明变量y的变异中有77.5是由变量X引起的。当R21时，表示所有的观测点全部落在回归直线上。当R2=0时，表示自变量与因变量无线性关系。为了尽可能准确的反应模型的拟合度，SPSS输出中的Adjusted R Square是消除了自变量个数影响的R2的修正值。（3）方差分析体现因变量观测值与均值之间的差异的偏差平方和SSt是由两个部分组成的，即回归平方和SSr，反应了自变量X的重要程度；残差平方和SSe，它反应了实验误差以及其他意外因素对实验结果的影响。表示为SSt=SSrSSe。这两部分除以各自的

7、自由度，得到它们的均方。统计量F=回归均方残差均方。当 F值很大时，拒绝接受b=0的假设。（4）DurbinWatson检验在对回归模型的诊断中，有一个非常重要的回归模型假设需要诊断，那就是回归模型中的误差项的独立性。如果误差项不独立，那么对回归模型的任何估计与假设所作出的结论都是不可靠的。其参数称为DW或D。D的取值范围是0D4，统计学意义如下：当残差与自变量互为独立时D2。当相邻两点的残差为正相关时，D2。（5）残差图示法；在直角坐标系中，以预测值y为横轴，以y与y之间的误差et为纵轴(或学生化残差与拟和值或一个自变量），绘制残差的散点图。如果散点呈现出明显的规律性则,认为存在自

8、相关性或者非线性或者非常数方差的问题。多元线性回归 1.多元线性回归的概念（卫生统计132页）根据多个自变量的最优组合建立回归方程来预测因变量的回归分析称为多元回归分析。多元回归分析的模型为：y=b0+b1x1+b2x2+ +bnxn 其中y为根据所有自变量X计算出的估计值, b0为常数项, b1、b2 bn称为y对应于x1、x2 xn的偏回归系数。偏回归系数表示假设在其他所有自变量不变的情况下，某一个自变量变化引起因变量变化的比率。多元线性回归模型也必须满足一元线性回归方程中所述的假设理论。 2.多元线性回归分析中的参数（l）复相关系数 R。复相关系数表示因变量 y与其他的自变量xi之

9、间线性相关密切程度的指标，复相关系数使用字母R表示。复相关系数的取值范围在01之间。其值越接近1表示其线性关系越强，越接近0表示线性关系越差。（2）R2判定系数与经调整的判定系数与一元回归方程相同，在多元回归中也使用判定系数R2来解释回归模型中自变量的变异在因变量变异中所占比率。但是，判定系数的值随着进入回归方程的自变量的个数（或样本容量的大小n）的增加而增大。因此，为了消除自变量的个数以及样本量的大小对判定系数的影响，引进了经调整的判定系数（Adjusted R Square）。（3）零阶相关系数、部分相关与偏相关系数在这里零阶相关系数（ZeroOrder）计算所有自变量与因变量

10、之间的简单相关系数。部分相关（Part Correlation）表示：在排除了其他自变量对 xi的影响后，当一个自变量进入回归方程模型后，复相关系数的平均增加量。偏相关系数（Partial Correlation ）表示：在排除了其他变量的影响后；自变量 Xi与因变量y之间的相关程度。部分相关系数小于偏相关系数。偏相关系数也可以用来作为筛选自变量的指标，即通过比较偏相关系数的大小判别哪些变量对因变量具有较大的影响力。 3多元线性回归分析的检验建立了多元回归方程后，需要进行显著性检验，以确认建立的数学模型是否很好的拟和了原始数据，即该回归方程是否有效。利用残差分析，确定回归方程是否违反了假

11、设理论。对各自变量进行检验。其假设是总体的回归方程自变量系数或常数项为O。以便在回归方程中保留对因变量y值预测更有效的自变量。以便确定数学模型是否有效。（l）方差分析与一元回归方程的检验相同，多元回归方程也采用方差分析方法对回归方程进行检验，检验的假设是总体的回归系数均为0（无效假设）或不全为0（备选假设）（卫生统计四版135页）。它是对整个回归方程的显著性检验。使用统计量F进行检验。原理与一元回归的方程分析原理相同。F=回归均方/残差均方（2）偏回归系数与常数项的检验检验的假设是：各自变量回归系数为0，常数项为零。它使用的统计量是t（卫生统计四版136页）。t=偏回归系数/偏回归系数的标

12、准误（3）方差齐性检验方差齐性是指残差的分布是常数，与预测变量或因变量无关。即残差应随机的分布在一条穿过0点的水平直线的两侧。在实际应用中，一般是绘制因变量预测值与学生残差的散点图。在线性回归Plots对话框中的源变量表中,选择SRESID（学生氏残差）做Y轴；选择ZPRED（标准化预测值）做X轴就可以在执行后的输出信息中显示检验方差齐性的散点图。（4）回归模型残差的正态性检验（略）检验的方法多种多样，其中最直观、最简单的方法是残差的直方图和累积概率图。需要指出的是，希望残差完全服从于正态分布也是不现实的，即使存在很理想的总体数据，其样本的残差的分布也只能是近似于正态分布。残差的直方

13、图。在Plots子对话框中，选择histogram选择项就可以得到残差的直方图。残差的累积概率图（PP图）。PP图是一种概率分布图，它是用来判断一个变量的分布是否符合一个特定的“检测分布”。这个检测分布包括；Beta分布，Chi-square分布，Exponential分布，Gamma分布，Half-normal，Laplace分布，Logistic分布，Lognormal分布，Normal分布，Pareto分布，Studentt分布Weibull分布，Uniform分布。如果两种分布基本相同，那么在P-P图中点应该围绕在一条斜线的周围，如果两种分布完全相同，那么在PP图中点应该只有一条斜

14、线。通过观察比较观测数据的残差（曲线）在假设直线（正态分布）周围的分布可以对两种分布进行比较。（5）残差图示法利用残差图可以判断模型拟和效果。在残差图中如果各点呈随机状，并绝大部分落在2范围（68的点落在之中,96的点落在2之中）内，说明模型对于数据的拟和效果较好。如果大部分点落在2范围之外，说明模型对于数据的拟和效果不好。线性回归方程的建立 l变量间线性关系的初步探索在获得数据后，应将所得到的数据绘图，探索因变量随自变量变化的趋势。以便确定数据是否适合线性模型。如果数据之间大致呈线性关系，可以建立线性回归方程。如果图中数据不呈线性分布，那么还可以根据其他回归方程模型的观测量分布图形特点

15、以及建立各方程后所得的判定系数R2进行比较后确定一种最佳模型。见曲线拟合及非线性回归。通过散点图还可以发现奇异值，如图中画圈的观测值要认真检查数据的合理性。 2建立线性模型的操作步骤（1）analyze-regression-linear （2）选择一个因变量进入dependent,选择一个或多个自变量进入independent。（3）在Method 框中选择一种回归分析方法 Enter选项，强行进入法，即所选择的自变量全部进人回归模型，该选项是默认方式。 Remove选项，消去法，建立的回归方程时，根据设定的条件剔除部分自变量。 Forward选项，向前选择法，根据在option对话框

16、中所设定的判据，从无自变量开始。在拟合过程中，对被选择的自变量进行方差分析，每次加入一个F值最大的变量，直至所有符合判据的变量都进入模型为止。第一个引入归模型的变量应该与因变量间相关系数绝对值最大。 Backward选项，向后剔除法，根据在option对话框中所设定的判据，先建立全模型，然后根据设置的判据，每次剔除一个使方差分析中的F值最小的自变量，直到回归方程中不再含有不符合判据的自变量为止。 Stepwise选项，逐步进入法，它是向前选择变量法与向后剔除变量方法的结合。根据在 option对话框中所设定的判据，首先根据方差分析结果选择符合判据的自变量且对因变量贡献最大的进入回归方程。根据向

17、前选择变量法则选入变量。然后根据向后剔除法，将模型中F值最小的且符合剔除判据的变量剔除出模型，重复进行直到回归方程中的自变量均符合进入模型的判据，模型外的自变量都不符合进入模型的判据为止。（4）根据变量值选择参与回归分析的观测量，将作为参照的变量进入 Selection Variable框中，单击 Rule按钮。打开 Set Rule对话框。共线性问题（略）在回归方程中，虽然各自变量对因变量都是有意义的，但某些自变量彼此相关，即存在共线性的问题。给评价自变量的贡献率带来困难。因此，需要对回归方程中的变量进行共线性诊断；并且确定它们对参数估计的影响。进行共线性论断常用的参数有：条件参数、容

18、许度、方差膨胀因子（VIF）等。当一组自变量精确共线性时，必须删除引起共线性的一个和多个自变量，否则不存在系数唯一的最小二乘估计。因为删除的自变量并不包含任何多余的信息，所以得出的回归方程并没有失去什么。当共线性为近似时，一般是将引起共线性的自变量删除，但需要掌握的原则是：务必使丢失的信息最少。（l）容许度（Tolerance）在只有两个自变量的情况下，自变量X1与X2之间共线性体现在两变量间相关系数r12上。精确共线性时对应r1221，当它们之间不存在共线性时r1220。r122越接近于1，共线性越强。多于两个自变量的情况， Xi与其他自变量互之间的复相关系数的平方体现其共线性。称它

19、为R2i。它的值越接近1，说明自变量之间的共线性程度越大。容许度定义为Tolil一R2i 当容许度的值较小时，自变量Xi 与其他自变量X之间存在共线性。使用容许度作为共线性量度指标的条件是，观测量应大致近似于正态分布，但在大多数情况下观测量的正态分布的假设是不被接受的。而且，由于容许度中相关系数对极端值极为敏感, 所以用它来作为共线性的量度指标是不适合的。（2）方差膨胀因子（VIF）方差膨胀因于（VIF）定义为 VIF1/(l一R2i )，即它是容许度的倒数。它的值越大，自变量之间存在共线性的可能性越大。（3）条件参数（Condition Index）条件参数是在计算特征值时产生的

20、一个统计量，其具体含义尚不大清楚，但己经提出一些原则：其数值越大，说明自变量之间的共线性的可能性越大；有些学者提议，条件参数30时认为有共线性存在的可能性，但理论上并没有得到证明。特征值（Eigenvalue）如果很小，就应该怀疑共线性的存在。（4）共线性问题的解决方法共线性问题是建立回归模型过程中比较常见而又较难克服的问题。由于篇幅限制，本文仅给出一些常用方法原则。剔除不重要的有共线性问题的自变量。注意这里强调的是去除不重要的自变量，否则有可能导致“解释错误”。增加样本量。增大样本量可以减少回归模型中参数估计的残差。重新抽取样本数据。不向样本的观测量的共线性是不一致的，所以重新抽取样

21、本数据有可能减少共线性问题的严重程度。变非线性关系为线性关系（略）有时因变量与自变量的关系不是线性关系，而利用其他的方法也未能很好地拟和数据时，就需要进行数据的非线性到线性关系的转换。如果因变量或残差不符合假设条件时也需要进行转换，可以参考有关书籍。线性回归分析实例（data09-03）操作步骤：（1）GraphsSactterSimple将Salbegin、salary选入Y轴、X轴（2）analyze-regression-linear选择一个因变量salary进入dependent,选择Salbegin、prevexp、jobtime、jobcat、educ自变量进入independe

22、nt；Statistics-Residuals-Casewise diagnostics3;CollinearitydiagnosticsPlotsZPRED、ZRESID选入Y轴、X轴结果分析：（1）被引入与被剔除的变量，见表1。第一列： Model为回归方程模型编号。第二列： Variables Entered为引入回归方程的自变量名称。第三列： Variables Removed为从回归方程中被剔除的自变量名称。第四列： Method为自变量进入与被剔除回归方程的判据。从表1可以看出，5个被选择的自变量经过逐步回归过程都进入了回归方程，没有被剔除的变量。第一步回归方程中包含常数项

23、（Constant）和自变量 Beginning Salary（标签）。第二步完成时，回归方程中包含常数项（Constant）和自变量Beginning Salary, Employment Category；以后各步回归方程中包含的常数项（Constant）和自变量可以依次类推。因变量（Dependent Variable）为Current Salary。（2）回归方程常用统计量，见表2。第一列：Modl为回归方程模型编号。第二列：R为回归方程的复相关系数。第三列：R Square即R2系数，随着自变量个数的增加，R2系数的值也在不断增加，这是所有线性回归方程的共同规律，但是这并不意味着

24、变量越多，模型的拟和度越佳。第四列：Adjusted R Square即修正R2，为了尽可能的确切的反映模型的拟和度，该参数试图修正R2系数的偏差，它未必随着变量的个数的增加而增加。第五列：Std. Error of the Estimate为估计的标准误，增加自变量的个数将增大R2系数，但未必会减少估计的标准误。除非需要，自变量数量不应太多，因为多余的自变量会给解释回归方程造成困难。一个包含多余自变量的模型不但不会改善预测值，反而有可能增加标准误差。由表2的R2以及修正的R2值得出建立的回归方程的线性关系比较满意。（3）方差分析，见表3。表3为回归拟合过程中每一步的方差分析结果。Sum

25、 of Square为回归平方和（Regrssion）、残差平方和（Residual）、总平方和（Total），df为自由度， Sig.为大于F值的概率。方差分析结果表明，当回归方程包含不同的自变量时，其显著性概率值均为0.000。拒绝回归系数均为0的原假设。（4）回归系数分析，见表4。 Model为回归方程模型编号， Unstandardized Coefficients为非标准化系数， Standardized Coefficients为标准化系数，t检验为偏回归系数为O（和常数项为0）的假设检验的t值，Sig.为偏回归系数为O（和常数项为0）的假设检验的显著性水平值， Collinea

26、rity Statistics为共线性统计量。 B偏回归系数：它是在控制了其他变量之后得到的。它的不足之处在于，当自变量的单位不一致时，比较它的大小变得毫无意义。也就是说只有当所有的自变量单位统一时，它们的大小才有可比性。比较偏回归系数时还应注意，在多元回归分析中，方差分析是对整个回归方程的显著性检验，它与单独的进行每一个偏回归系数的显著性检验不一定等效，就是说，由方差分析得出回归方程有统计意义，而回归方程这的每一个偏回归系数不一定都有显著性，但至少有一个是显著的。 Beta系数：它是对B偏回归系数B的改进：当所有的变量使用标准化（Z分数）形式表示时，它具有可比性。但是从绝对意义上讲。使用Be

27、ta系数也不能比较出哪一个自变量更为重要。由表3回归方程编号得出的逐步回归过程的每一步的结果。模型1：Current salary=1928.206十1.909*Beginning salary。其常数项的显著水平值为O.031，自变量Beginning salary 的显著水平值为O.000。模型 2：Current salary=1036.931十1.469*Beginning salary十5947.000Employment category。其常数项的显著水平值0.213，自变量Beginning salary 的显著水平值为O.000，自变量Employment cate

28、gory的显著水平值为 O.000。它们的共线性诊断的指标容忍度（To1erance）分别为（常数项除外）0.430、O.430，0.996,大小适中，不是很小。膨胀方差因子（VIF）分别为（常数项除外）2.323、2.323，数值不大，从而可以拒绝它们之间的共线性假设。模型 3：Current salary=3039.205十1.467*Beginning salary十6160.294Employment category一23.749*Previous Experience。常数项、自变量Beginning salary 、Employment category、Previous

29、Experience 的显著水平值均为0.000。这里要特别注意的是，在分析回归方程中的自变量时，原来工作经历（Previous Experience ）时需要特别小心，因为它给出的信息是原来的工作经验越长，当前的工资水平却越少，至于产生这样原因还要从数据的来源中分析。它们的共线性诊断的指标容忍度（To1erance）分别为（常数项除外）0.430、O.430，0.996,大小适中，不是很小。膨胀方差因子（VIF）分别为（常数项除外）2.323、2.323、1.004，数值不大，从而可以拒绝它们之间的共线性假设。模型4和5的分析同上。（5）共线性诊断，见表5。（略） Model为回归方程模

30、型编号， Dimension为维数， Eigenvalue为特征值， Condition Index为条件参数，Variance Proportions方差比例。从表5特征值一栏看到，回归方程模型编号为4、5的模型中，其特征值很低，分别为7.385E-03、6.824E-03；其条件指标较高，分别为24.026、27.634；从方差比例一栏中观察常数项（Constant）与自变量（Months since hire）所占的比例分别为 0.98、 0.97与 0.97、0.79，方差比例都很大，因此有理由怀疑常数项与自变量Months since hire之间存在较强的共线性，还需要进一步的进

31、行判别。（6）奇异值（指有很大标准化残差的观测值）诊断，见表6。（略） Case Number为奇异值观测量编号， Std. Residual为标准化残差， Current Salary为当前值，Predicted Value为预测值，Residual残差。由表6得到的奇异值列表，给出了被怀疑为奇异值的观测量的编号，这些观测量之所以被怀疑为奇异值是因为它们的标准化残差值都大于3（奇异值是指有很大标准化残差的观测量，系统默认标准是标准化残差的绝对值大于3），当然这个标准是可以改变的。（7）残差统计分析，见表7。（略）由表7着重注意观察Mahal.Distance、Cooks Distanc

32、e、Centered Leverage Value的最大值与最小值，它可以发现观测量数据中是否有影响点。Cooks Distance：一个被认为是影响点的观测量被删除后，其他所有观测量的变化；此值越大，表示这个被认为是影响点的观测量的影响力越大。Mahal.Distance：观测量与自变量平均值之间的距离（适用于回归方程中只有一个自变量的情况，本例不适合）。Centered Leverage Value：中心点杠杆值，杠杆值变动范围为0到(N-1)/N，杠杆值为0时，说明此观测量对回归方程没有影响，杠杆值为(N-1)/N，说明此观测量对回归方程的贡献较大。本例Cooks Distance与 C

33、entered Leverage Value均较小，亦影响力较小。（8）散点图分析，见图8。从图8的当前工资的预测值与其标准化残差散点图中可以看到绝大部分观测量随机地落在围绕垂直的士2的范围内，预测值与标准化残差值之间没有明显的关系，所以回归方程应该满足线性与方差齐性的假设。 8.2曲线回归分析（data13-01）曲线估计线性回归可以满足许多数据分析，然而线性回归不会对所有的问题都适用，有时因变量与自变量是通过一个已知或未知的非线性函数关系相联系。尽管有可能通过一些函数的转换方法，在一定范围内将它们转变为线性关系，但这种转换有可能导致更为复杂的计算或数据失真。在很多情况下有两个相关的

34、变量，用户希望利用其中的一个变量对另一个变量进行预测，此时可采用的方法也很多；从简单的直线模型到复杂的时间序列模型。如果不能马上根据观测量数据确定一种最佳模型，可以利用曲线估计在众多的回归模型中来建立一个简单而又比较适合的模型。举例（data13-01）操作步骤：（1）GraphsSactterSimple将MPG、Vehicle Weight选入X轴、Y轴（2）analyze-regressionCurve Estimation选择一个因变量MPG进入dependent,选择Vehicle Weight自变量进入independent；(3) 选择Quadratic、Cubic与 Compo

35、und模型。链接：线形回归方程Y=b0+b1X二次回归方程Y=b0+b1X+b2X2复合曲线回归方程Y=b0(b1X)等比级数曲线回归方程对数回归方程三次回归方程Y=b0+b1X+b2X2+b3X3（4）选择Display ANOVA table (5) 选择Plot model(6) 选择Save中保持变量栏。COMPOUND分析结果：标示出回归方程的因变量是MPG,采用的模型是COMPOUND。列出了常用的统计量依次为复相关系数、判定系数R2、R2的修正值、标准误。给出了方差分析的结果：其F值为957.93612，F值的显著水平值为.0000，所以自变量与因变量呈现显著的相关意义。

36、显示出在回归方程的各种统计量的数值，由此得出最后的回归方程。 MPG=60.15*(1.00WEIGHT) 图形比较分析由三种模型CUBIC、QUADRATIC、COMPOUND获得的图形，可以看出由COMPOUND模型所获得的曲线对观测量的拟和程度稍好一些。在许多时候图形的判断作用往往被夸大，这会带来严重的后果，图形的判断只是对判定模型的取舍起到一定的指导作用，而最终的模型判定还是要通过对统计量的分析与研究。最终结果分析首先，判读三种模型的方差分析结果，如果模型没有统计意义，那么即使它有最好的R2值，与其他呈显著意义的模型进行比较是没有意义的。由于方差分析结果表明三种模型都有统计意义

37、，接下来对比三种模型（QUADRATIC、CUBIC、COMPOUND）判定系数R2的大小，从而来判定种最佳的模型，它们分别依次为0.66020、O.68933、0.71064，这样就不难判定三种模型中拟和优度依次为COMPOUND、CUBIC、QUADRATIC。 8.3维 Logistic回归分析（一般了解）二维Logistic回归多元线性回归要求Y是呈正态分布的连续型随机变量。难以处理因变量为二值变量的情况。在医学中，存在很多二值化的状态，比如生存与死亡、感染与不感染、有效与无效、患病与不患病等等。这时，我们往往要分析生存与死亡或感染与不感染与哪些因素有关。而这些因素（自变量）可能是二

38、值数据或等级分组资料或是计量资料，此时，可以使用logistic回归来分析因变量（二值变量）与自变量的关系。下面我们介绍logistic回归的基本概念：设P表示某事件发生的概率，取值范围为01，1P是该事件不发生的概率，将比值 P/（1P）取自然对数得ln(P/1P)，即对P作logit转换，记为logitP，则logitP的取值范围在-，+之间。以logitP为因变量，建立线形回归方程： logitP =b0+bixip=exp（b0+bixi）/1+ exp ( b0+bixi) OR=e =exp （卫生统计139页）可见：b0表示一个不接触危险因素（自变量取值全为0时）的个体发病（死亡

39、或感染）的比值的对数。b0是常数。 bi 表示危险因素改变一个单位时，比值的对数的改变量。在实际比较xi对比值的对数影响时，应使用标准化的系数，以克服自变量不同量纲的影响。bi称为logistic回归系数。数据背景（data13-02）北京医科大学附属人民医院内分泌科卢纹凯教授课题。颈总动脉中层厚度imt0.8mm或有斑块定义为动脉硬化，因变量type值为1；非硬化imt0.8mm且无斑块，因变量type值为0。糖尿病患者123例数据。研究哪些指标可以判断糖尿病患者是否动脉硬化。自变量AGE年龄、ALB尿白蛋白、BMI体重指数、ISI胰岛素敏感指数、SBP收缩压、TG甘油三脂、CHO胆固醇、

40、DURA糖尿病程。其中尿白蛋白、甘油三脂、胆固醇三项生化指标在回归估计过程中均使用他们的对数变量：ALBLN、TGLN、CHOLN。操作步骤：(1）analyze-regressionLogistic(2)选择type作为因变量进入dependent,选择AGE、ALBLN、TGLN、CHOLN、BMI、SBP、ISI、DURA作为协变量进入Covariates；(3)在Method 选择Forward Wald逐步选择变量进入回归方程。（4）在Save中，选择Probabilities和Group membership。结果分析：（l）表1观测量信息：选择了123个未加权的观测量进行分析，缺

41、失值数为0。（2）表2因变量编码：因变量是二分变量，编码与原始值一致。（3）表3初始信息无参考价值，只说明原始分类的频数分布，颈总动脉中层厚度imtO.8，且无斑块者33人，imt0.8或有斑块者90人。初始回归方程中无自变量。定义的第一块，分析方法为 WOLD向前逐步选择。列出了选定的自变量中没有在模型中的变量名。初始时都没有在模型中。（4）表4回归估计的第一步结果第一步进入模型的自变量是Age年龄。在第四步迭代时估计过程结束，因为对数似然值的变化量（减少）小于O.01。第一步：将原始观测量数据代人回归方程中得到的预测分类结果与原始分类的频数分布表。总正确率为85.4。有

42、动脉硬化的被错判的百分比较低，正确率为93.3。未硬化的正确率较低。只有63.6。第一步迭代结束后的回归方程是： Logit(p）=-7.56470.1580*age 即 P=exp（-7.56470.1580*age）/1+exp（-7.56470.1580*age）未选入回归方程的变量表及其有关的统计量。从显著性概率来看，下一个进入模型的应该是ALBLN。（5）表5回归估计的第4步第四步，自变量DURA糖尿病程进入回归方程。估计在第六次迭代时结束。因为对数似然值在两次选代直接减少值小于0.01。从两个R2值随着进入变量的增加而增加，说明拟合的效果是随着进入变量的增加趋势是好的。对

43、Type进行分类的概率界值取0.5，回代结果总正确率达87.8。原为颈总功脉硬化的预测正确的概率93.3大于非硬化预测正确的概率72.7。根据回归方程中的变量表及统计量得出: 最后的回归方程为判断颈总动脉是否硬化的概率值p表达为: P=exp（-15.24900.1570*age+1.0703*ALBLN+0.0361*SBP-0.1305*DURA）/1+exp（-15.24900.1570*age+1.0703*ALBLN+0.0361*SBP-0.1305*DURA）不在回归方程中的自变量显著性概率均大于0.05，因此再没有变量进入或剔除出回归方程了。 (6)表6新变量命名表。在数据窗内生成的新变量：预测概率变量PRE-1，其值为一个供判断观测量所属类别的概率，其值大于0.5被认为有动脉硬化，否则判断为无动脉硬化。预测分组变量 PGR-1。根据PRE-1是否大于O.5判断观测量属于那一类的结果。根据回归方程最后结果可以认为为避免糖尿病患者发生动脉硬化，可以从控制血压、降低尿白蛋白指标方面进行治疗，对年龄大的和病程长的患者尤其要注意。注意：表中卡方检验可考虑为新增变量统计量和整个模型统计量可在options菜单中选择95%CI复习题：正确建立适合线性回归分析、曲线回归分析、Logistic回归分析的数据库，并进行统计分析。

展开阅读全文