第八章回归分析.doc

上传人:本田雅阁 文档编号:2718172 上传时间:2019-05-08 格式:DOC 页数:21 大小:150.04KB
返回 下载 相关 举报
第八章回归分析.doc_第1页
第1页 / 共21页
第八章回归分析.doc_第2页
第2页 / 共21页
第八章回归分析.doc_第3页
第3页 / 共21页
第八章回归分析.doc_第4页
第4页 / 共21页
第八章回归分析.doc_第5页
第5页 / 共21页
点击查看更多>>
资源描述

《第八章回归分析.doc》由会员分享,可在线阅读,更多相关《第八章回归分析.doc(21页珍藏版)》请在三一文库上搜索。

1、第八章 回归分析第一节 Linear过程8.1.1 主要功能8.1.2 实例操作第二节 Curve Estimation过程8.2.1 主要功能8.2.2 实例操作第三节 Logistic过程8.3.1 主要功能8.3.2 实例操作第四节 Probit过程8.4.1 主要功能8.4.2 实例操作第五节 Nonlinear过程8.5.1 主要功能8.5.2 实例操作回归分析是处理两个及两个以上变量间线性依存关系的统计方法。在医学领域中,此类问题很普遍,如人头发中某种金属元素的含量与血液中该元素的含量有关系,人的体表面积与身高、体重有关系;等等。回归分析就是用于说明这种依存变化的数学关系。第一节

2、Linear过程8.1.1 主要功能调用此过程可完成二元或多元的线性回归分析。在厄尔多元线性回归分析中,用户还可根据需要,选用不同筛选自变量的方法(如:逐步法、向前法、向后法,等)。返回目录 返回全书目录8.1.2 实例操作例8.1某医师测得10名3岁儿童的身高(cm)、体重(kg)和体表面积(cm2)资料如下。试用多元回归方法确定以身高、体重为自变量,体表面积为应变量的回归方程。儿童编号体表面积(Y)身高(X1)体重(X2)123456789105.3825.2995.3585.2925.6026.0145.8306.1026.0756.41188.087.688.589.087.789.5

3、88.890.490.691.211.011.812.012.313.113.714.414.915.216.08.1.2.1 数据准备激活数据管理窗口,定义变量名:体表面积为Y,保留3位小数;身高、体重分别为X1、X2,1位小数。输入原始数据,结果如图8.1所示。图8.1 原始数据的输入8.1.2.2 统计分析激活Statistics菜单选Regression中的Linear.项,弹出Linear Regression对话框(如图8.2示)。从对话框左侧的变量列表中选y,点击钮使之进入Dependent框,选x1、x2,点击钮使之进入Indepentdent(s)框;在Method处下拉菜单

4、,共有5个选项:Enter(全部入选法)、Stepwise(逐步法)、Remove(强制剔除法)、Backward(向后法)、Forward(向前法)。本例选用Enter法。点击OK钮即完成分析。图8.2 线性回归分析对话框用户还可点击Statistics.钮选择是否作变量的描述性统计、回归方程应变量的可信区间估计等分析;点击Plots.钮选择是否作变量分布图(本例要求对标准化Y预测值作变量分布图);点击Save.钮选择对回归分析的有关结果是否作保存(本例要求对根据所确定的回归方程求得的未校正Y预测值和标准化Y预测值作保存);点击Options.钮选择变量入选与剔除的、值和缺失值的处理方法。8

5、.1.2.3 结果解释在结果输出窗口中将看到如下统计数据:* * * * M U L T I P L E R E G R E S S I O N * * * *Listwise Deletion of Missing DataEquation Number 1 Dependent Variable. YBlock Number 1. Method: Enter X1 X2Variable(s) Entered on Step Number 1. X2 2. X1Multiple R .94964R Square .90181Adjusted R Square .87376Standard Er

6、ror .14335Analysis of Variance DF Sum of Squares Mean SquareRegression 2 1.32104 .66052Residual 7 .14384 .02055F = 32.14499 Signif F = .0003- Variables in the Equation -Variable B SE B Beta T Sig TX1 .068701 .074768 .215256 .919 .3887X2 .183756 .056816 .757660 3.234 .0144(Constant) -2.856476 6.01777

7、6 -.475 .6495End Block Number 1 All requested variables entered.结果显示,本例以X1、X2为自变量,Y为应变量,采用全部入选法建立回归方程。回归方程的复相关系数为0.94964,决定系数(即r2)为0.90181,经方差分析,F=34.14499,P=0.0003,回归方程有效。回归方程为Y=0.0687101X1+0.183756X2-2.856476。本例要求按所建立的回归方程计算Y预测值和标准化Y预测值(所谓标准化Y预测值是指将根据回归方程求得的Y预测值转化成按均数为0、标准差为1的标准正态分布的Y值)并将计算结果保存入原数

8、据库。系统将原始的X1、X2值代入方程求Y值预测值(即库中pre_1栏)和标准化Y预测值(即库中zpr_1栏),详见图8.3。图8.3 计算结果的保存本例还要求对标准化Y预测值作变量分布图,系统将绘制的统计图送向Chart Carousel窗口,双击该窗口可见下图显示结果。图8.4 对标准化Y预测值所作的正态分布图返回目录 返回全书目录第二节 Curve Estimation过程8.2.1 主要功能调用此过程可完成下列有关曲线拟合的功能:1、Linear:拟合直线方程(实际上与Linear过程的二元直线回归相同,即Y = b0+ b1X);2、Quadratic:拟合二次方程(Y = b0+

9、b1X+b2X2);3、Compound:拟合复合曲线模型(Y = b0b1X);4、Growth:拟合等比级数曲线模型(Y = e(b0+b1X));5、Logarithmic:拟合对数方程(Y = b0+b1lnX)6、Cubic:拟合三次方程(Y = b0+ b1X+b2X2+b3X3);7、S:拟合S形曲线(Y = e(b0+b1/X));8、Exponential:拟合指数方程(Y = b0 eb1X); 9、Inverse:数据按Y = b0+b1/X进行变换;10、Power:拟合乘幂曲线模型(Y = b0X b1);11、Logistic:拟合Logistic曲线模型(Y =

10、1/(1/u + b0b1X)。返回目录 返回全书目录8.2.2 实例操作例8.2某地1963年调查得儿童年龄(岁)X与锡克试验阴性率(%)Y的资料如下,试拟合对数曲线。年龄(岁)X锡克试验阴性率(%)Y123456757.176.090.993.096.795.696.28.2.2.1 数据准备激活数据管理窗口,定义变量名:锡克试验阴性率为Y,年龄为X,输入原始数据。8.2.2.2 统计分析激活Statistics菜单选Regression中的Curve Estimation.项,弹出Curve Estimation对话框(如图8.5示)。从对话框左侧的变量列表中选y,点击钮使之进入Depe

11、ndent框,选x,点击钮使之进入Indepentdent(s)框;在Model框内选择所需的曲线模型,本例选择Logarithmic模型(即对数曲线);选Plot models项要求绘制曲线拟合图;点击Save.钮,弹出Curve Estimation:Save对话框,选择Predicted value项,要求在原始数据库中保存根据对数方程求出的Y预测值,点击Continue钮返回Curve Estimation对话框,再点击OK钮即可。图8.5 曲线拟合对话框8.2.2.3 结果解释在结果输出窗口中将看到如下统计数据:ndependent: X Dependent Mth Rsq d.f.

12、 F Sigf b0 b1 Y LOG .913 5 52.32 .001 61.3259 20.6704在以X为自变量、Y为应变量,采用对数曲线拟合方法建立的方程,决定系数R2=0.913(接近于1),作拟合优度检验,方差分析表明:F=52.32,P=0.001,拟合度很好,对数方程为:Y=61.3259+20.6704lnX。本例要求绘制曲线拟合图,结果如图8.6所示。图8.6 对数曲线拟合情形根据方程Y=61.3259+20.6704lnX,将原始数据X值代入,求得Y预测值(变量名为fit_1)存入数据库中,参见图8.7。图8.7 计算结果的保存返回目录 返回全书目录第三节 Logist

13、ic过程8.3.1 主要功能调用此过程可完成Logistic回归的运算。所谓Logistic回归,是指应变量为二级计分或二类评定的回归分析,这在医学研究中经常遇到,如:死亡与否(即生、死二类评定)的概率跟病人自身生理状况和所患疾病的严重程度有关;对某种疾病的易感性的概率(患病、不患病二类评定)与个体性别、年龄、免疫水平等有关。此类问题的解决均可借助逻辑回归来完成。特别指出,本节介绍的Logistic过程,应与日常所说的Logistic曲线模型(即S或倒S形曲线)相区别。用户如果要拟合Logistic曲线模型,可调用本章第二节Curve Estimation过程,系统提供11种曲线模型,其中含有

14、Logistic曲线模型(参见上节)。在一般的多元回归中,若以P(概率)为应变量,则方程为P=b0+b1X1+b2X2+bkXk,但用该方程计算时,常会出现P1或P0的不合理情形。为此,对P作对数单位转换,即logitP=ln(P/1-P),于是,可得到Logistic回归方程为: eb0+b1X1+b2X2+bkXkP = 1+ eb0+b1X1+b2X2+bkXk返回目录 返回全书目录8.3.2 实例操作例8.3某医师研究男性胃癌患者发生术后院内感染的影响因素,资料如下表,请通过Logistic回归统计方法对主要影响因素进行分析。术后感染(有无)Y年龄(岁)X1手术创伤程度(5等级)X2营

15、养状态(3等级)X3术前预防性抗菌(有无)X4白细胞数(109/L)X5癌肿病理分度(TNM得分总和)X6有有无无无有无有有无无无无无无697257413265585455596436424850453113342121341232113222121122无无无有有有有无有有无有有有有5.64.49.711.210.47.03.16.67.96.09.18.45.34.612.89645556674686548.3.2.1 数据准备激活数据管理窗口,定义变量名:术后感染为Y(字符变量,有输入Y、无输入N),年龄为X1,手术创伤程度为X2,营养状态为X3,术前预防性抗菌为X4(字符变量,有输入Y

16、、无输入N),白细胞数为X5,癌肿病理分度为X6。按要求输入原始数据。8.3.2.2 统计分析激活Statistics菜单选Regression中的Logistic.项,弹出Logistic Regression对话框(如图8.8示)。从对话框左侧的变量列表中选y,点击钮使之进入Dependent框,选x1、x2、x3、x4、x5和x6,点击钮使之进入Covariates框;点击Method处的下拉按钮,系统提供7种方法:图8.8 逻辑回归对话框1、Enter:所有自变量强制进入回归方程;2、Forward: Conditional:以假定参数为基础作似然比概率检验,向前逐步选择自变量;3、F

17、orward: LR:以最大局部似然为基础作似然比概率检验,向前逐步选择自变量;4、Forward: Wald:作Wald概率统计法,向前逐步选择自变量;5、Backward: Conditional:以假定参数为基础作似然比概率检验,向后逐步选择自变量;6、Backward: LR:以最大局部似然为基础作似然比概率检验,向后逐步选择自变量;7、Backward: Wald:作Wald概率统计法,向后逐步选择自变量。本例选用Forward: Conditional法,以便选择有主要作用的影响因素;点击Options.钮,弹出Logistic Regression:Options对话框,在Dis

18、play框中选取At last step项,要求只显示最终计算结果,点击Continue钮返回Logistic Regression对话框,再点击OK钮即可。8.3.2.3 结果解释在结果输出窗口中将看到如下统计数据:Dependent Variable Encoding:Original InternalValue Valuey 0n 1 Parameter Value Freq Coding (1)X4 n 5 1.000 y 10 -1.000系统先对字符变量进行重新赋值,对于应变量Y,回答是(Y)的赋值为0,回答否(X)的赋值为1;对于应变量X4,回答是(Y)的赋值为-1,回答否(X)

19、的赋值为1。Dependent Variable. YBeginning Block Number 0. Initial Log Likelihood Function-2 Log Likelihood 19.095425* Constant is included in the model.Beginning Block Number 1. Method: Forward Stepwise (COND) Improv. Model CorrectStep Chi-Sq. df sig Chi-Sq. df sig Class % Variable 1 8.510 1 .004 8.510 1

20、 .004 80.00 IN: X3 2 6.766 1 .009 15.276 2 .000 93.33 IN: X6No more variables can be deleted or added.End Block Number 1 PIN = .0500 Limits reached.Final Equation for Block 1Estimation terminated at iteration number 12 becauseLog Likelihood decreased by less than .01 percent.-2 Log Likelihood 3.819G

21、oodness of Fit 3.000 Chi-Square df Significance Model Chi-Square 15.276 2 .0005 Improvement 6.766 1 .0093Classification Table for Y Predicted y n Percent Correct y | nObserved + y y | 4 | 1 | 80.00% + n n | 0 | 10 | 100.00% + Overall 93.33%- Variables in the Equation -Variable B S.E. Wald df Sig R E

22、xp(B)X3 -30.5171 298.0526 .0105 1 .9184 .0000 .0000X6 -10.2797 107.9559 .0091 1 .9241 .0000 .0000Constant 123.4053 1155.1065 .0114 1 .9149结果表明,第一步自变量X3入选,方程分类能力达80.00%;第二步自变量X6入选,方程分类能力达93.33%(参见结果中的分类分析表);方程有效性经2检验,2=15.276,P=0.0005。Logistic回归的分类概率方程为: e123.4053-30.5171X3-10.2797X6P = 1+ e123.4053-

23、30.5171X3-10.2797X6根据该方程,若一胃癌患者营养状态评分(X3)为3,癌肿病理分度(X6)为9,则其P=4.510-270,这意味着术后将发生院内感染;另一胃癌患者营养状态评分(X3)为1,癌肿病理分度(X6)为4,则其P=0.981051,这意味着术后将不会发生院内感染。返回目录 返回全书目录第四节 Probit过程8.4.1 主要功能调用此过程可完成剂量-效应关系的分析。通过概率单位使剂量-效应的S型曲线关系转化成直线,从而利用回归方程推算各效应水平的相应剂量值。返回目录 返回全书目录8.4.2 实例操作例8.4研究抗疟药环氯胍对小白鼠的毒性,试验结果如下表所示。试计算环

24、氯胍的半数致死剂量。剂量(mg/kg)动物数死亡数12976543571934381255611171220 8.4.2.1 数据准备激活数据管理窗口,定义变量名:剂量为DOSE、试验动物数为OBSERVE、死亡动物数为DEATH。然后输入原始数据。8.4.2.2 统计分析激活Statistics菜单选Regression中的Probit.项,弹出Probit Analysis对话框(如图8.9示)。从对话框左侧的变量列表中选death,点击钮使之进入Response Frequency框;选observe,点击钮使之进入Total Observed框;选dose,点击钮使之进入Covaria

25、te(s)框,并下拉Transform菜单,选Log base 10项(即要求对剂量进行以10为底的对数转换)。图8.9 剂量-效应关系分析对话框系统在Model栏中提供两种模型,一是概率单位模型(Probit),另一是比数比自然对数模型(Logit)。本例选用概率单位模型。点击Options.钮,弹出Probit Analysis:Options对话框,在Natural Response Rate栏选Calculate from data项,要求计算各剂量组的实际反应率。之后点击Continue钮返回Probit Analysis对话框,再点击OK钮即可。8.4.2.3 结果解释在结果输出窗

26、口中将看到如下统计数据:系统首先显示,共有7组原始数据采概率单位模型进行分析。回归方程的各参数在经过14次叠代运算后确定,即PROBIT = 5.95215 - 4.66313X 。该方程拟合优度2检验结果,2 = 0.833,P=0.934,拟合良好。DATA Information 7 unweighted cases accepted. 0 cases rejected because of missing data. 0 cases are in the control group. 0 cases rejected because LOG-transform cant be done

27、.MODEL Information ONLY Normal Sigmoid is requested.Natural Response rate to be estimated CONTROL group is not provided. Parameter estimates converged after 14 iterations. Optimal solution found. Parameter Estimates (PROBIT model: (PROBIT(p) = Intercept + BX): Regression Coeff. Standard Error Coeff.

28、/S.E. DOSE 5.95215 2.39832 2.48180 Intercept Standard Error Intercept/S.E. -4.66313 2.19942 -2.12017 Estimate of Natural Response Rate = .000000 with S.E. = .26448 Pearson Goodness-of-Fit Chi Square = .833 DF = 4 P = .934 Since Goodness-of-Fit Chi square is NOT significant, no heterogeneity factor i

29、s used in the calculation of confidence limits. Covariance(below) and Correlation(above) Matrices of Parameter Estimates DOSE NAT RESP DOSE 5.75192 .82927 NAT RESP .52601 .06995接着,系统显示剂量对数值(DOSE)、实际观察例数(Number of Subjects)、试验动物反应数(Observed Responses)、预期反应数(Expected Responses)、残差( Residual)和效应的概率(Pro

30、b)。之后,显示各效应概率水平的剂量值及其95%可信区间值,按本例要求,环氯胍的半数致死剂量(即Prob = 0.50时)为6.07347,其95%可信区间为1.863057.54282。Observed and Expected Frequencies Number of Observed Expected DOSE Subjects Responses Responses Residual Prob 1.08 5.0 5.0 4.804 .196 .96082 .95 7.0 6.0 5.917 .083 .84534 .85 19.0 11.0 12.221 -1.221 .64320

31、.78 34.0 17.0 16.573 .427 .48745 .70 38.0 12.0 11.688 .312 .30757 .60 12.0 2.0 1.682 .318 .14016 .48 5.0 .0 .171 -.171 .03413 Confidence Limits for Effective DOSE 95% Confidence Limits Prob DOSE Lower Upper .01 2.46942 .02752 4.27407 .02 2.74406 .04534 4.54351 .03 2.93394 .06223 4.72430 .04 3.08539

32、.07895 4.86574 .05 3.21433 .09580 4.98445 .06 3.32832 .11294 5.08821 .07 3.43158 .13047 5.18134 .08 3.52676 .14845 5.26651 .09 3.61561 .16694 5.34550 .10 3.69937 .18597 5.41954 .15 4.06733 .29060 5.74092 .20 4.38570 .41395 6.01572 .25 4.67862 .56021 6.26792 .30 4.95831 .73436 6.51010 .35 5.23239 .94

33、261 6.75084 .40 5.50646 1.19286 6.99754 .45 5.78528 1.49529 7.25814 .50 6.07347 1.86305 7.54282 .55 6.37600 2.31299 7.86673 .60 6.69886 2.86587 8.25522 .65 7.04974 3.54438 8.75565 .70 7.43943 4.36394 9.46545 .75 7.88416 5.30688 10.59748 .80 8.41075 6.29069 12.60617 .85 9.06910 7.21514 16.40564 .90 9

34、.97116 8.09412 24.20725 .91 10.20216 8.27760 26.73478 .92 10.45919 8.46892 29.82525 .93 10.74928 8.67177 33.68627 .94 11.08278 8.89128 38.64769 .95 11.47580 9.13511 45.27000 .96 11.95538 9.41572 54.59759 .97 12.57252 9.75590 68.85554 .98 13.44250 10.20577 93.92908 .99 14.93751 10.92195 153.73112最后,系

35、统输出以剂量对数值为自变量X、以概率单位为应变量Y的回归直线散点图,从图中各点的分布状态亦可看出,回归直线的拟合程度是很好的。图8.10 剂量-效应关系回归直线散点图返回目录 返回全书目录第五节 Nonlinear过程8.5.1 主要功能调用此过程可完成非线性回归的运算。所谓非线性回归,即为曲线型的回归分析,一些曲线模型我们已在本章第二节中述及。但在医学研究中经,还经常会遇到除本章第二节中述及的曲线模型,对此,SPSS提供Nonlinear过程让用户根据实际需要,建立各种曲线模型以用于研究变量间的相互关系。在医学中,如细菌繁殖与培养时间关系的研究即可借助Nonlinear过程完成。下面一些曲线

36、模型是在论文中较常见的,提供给用户应用时作参考:模型名称 模型表达式Asympt. Regression1 Y = b1 + b2exp( b3 X )Asympt. Regression2 Y = b1 -( b2 ( b3 X )Density Y = ( b1 + b2 X ) (-1/ b3 )Gauss Y = b1 (1- b3exp( -b2 X 2)Gompertz Y = b1exp( -b2 exp( -b3 X )Johnson-Schumacher Y = b1exp( -b2 / ( X + b3)Log Modified Y = ( b1 + b3X )b2Log-Logistic Y = b1 -ln(1+ b2 exp( -b3X )Metcherlich Law of Dim. Ret. Y = b1 + b2exp( -b3X )Michaelis Menten Y = b1X /( X + b2 )Morgan-Mercer-Florin Y = ( b1b2 + b3X b4 )/( b

展开阅读全文
相关资源
猜你喜欢
相关搜索

当前位置:首页 > 其他


经营许可证编号:宁ICP备18001539号-1