怎样使用MINTAB进行回归分析.doc

上传人:scccc 文档编号:13414860 上传时间:2021-12-25 格式:DOC 页数:16 大小:187.50KB
返回 下载 相关 举报
怎样使用MINTAB进行回归分析.doc_第1页
第1页 / 共16页
怎样使用MINTAB进行回归分析.doc_第2页
第2页 / 共16页
怎样使用MINTAB进行回归分析.doc_第3页
第3页 / 共16页
亲,该文档总共16页,到这儿已超出免费预览范围,如果喜欢就下载吧!
资源描述

《怎样使用MINTAB进行回归分析.doc》由会员分享,可在线阅读,更多相关《怎样使用MINTAB进行回归分析.doc(16页珍藏版)》请在三一文库上搜索。

1、如何使用MINTAB进行回归分析回归分析用来检验并建立一个响应变量与多个预测变量之间的关系模形。minitab提供了多种最小二乘法和推理回归程序。当响应变量为连续的量值时使用最小二乘法当响应变量为分类值时使用推理回归。最小二乘法和推理回归方法都是评估关系模型中的参数并使模型的按按拟合值达到最优化。最小二乘法是使误差平方和以获得参数估计值。但是MINITAB 的推理回归命令是获得参数最大概率估计。参考2-29页推理回归概要以获得更多关天推理回归分析信息。使用下表来帮助选择适当的程序选择的程序适合的条件响应类型评估方法回归执行简单或多元回归分析:选择合适 的关系模型、存贮回归统计量、检验 残差分析

2、、产生点估计、产生预测和 置信区间以及进行 LACK-FIT检验。连续型最小一乘法逐步回归分析为了识别预测因素中有用的子集,执 行逐步、进一步选择以及后退消除等 方法从关系模型中增加或消除变量。连续型最小一乘法最佳子集识别以R2为基础的预测因子最佳子 集。连续型最小一乘法拟合线性图使用单个预测因子执行线性和多项回 归,并且用数据绘制回归线。以实际 和log10为基础。连续型最小一乘法残差图产生一组残差图用来进行残差分析。正常score图,单值残差图,残差柱状 图以及残差和拟合图。连续型最小一乘法二元推理分析进行响应可能只有两个值的回归分 析,例如:存在或不存在。分类最大概率顺序推理对响应可能有

3、三个或更多的值的响应 进行回归分析,该响应值有自然的顺 序,例如:无影响、中等影响、严重 影响。分类最大概率名义推理对响应可有三个或更多的值的响应进 行回归分析,该响应值没自然的顺序, 例如:甜、咸、酸分类最大概率回归您可以使用回归方法来进行用最小二乘法为基础的一元和多元回归分析。使用本程序您可以产生最小二乘法关系模型,贮存回归统计量,检验残差,产生点估计、进行预测以及置信区间,并且可以进行lack-of-fit检验。同时您也可以使用该命令产生多元回归关系模型。然而,如果您要使用一个预测因子来获得一个多元回归关系模型,您将会发现使用拟合线性图更好。数据在数字型列中输入相等长度的响应和预测因子变

4、量,这样您的工作表中每行的数据包含着对应观察值的测量结果。在回归方程计算和方差分析表中,M INITAB忽略了响应或预测因子中所有包含丢失值的观测值列。线性回归分析1.选择统计 > 回归 > 回归2. 在“响应”栏中,输入包含响应变量 (Y)的列。3. 在“预测因子”栏中输入包含预测因子(X)变量的列。4. 如果需要的话,可以使用下面显示的选项,然后单击“确立”选项图形子对话框为正常、标准、已删除残差图画5个不同的残差图。参考-2-5页选择残差图类型。有效的残差图包括:柱状图正态概率图残差图及拟合值残差图及数据顺序。每个数据点的行号都显示在图中X轴上。(例如:1 2 3 4 5n)

5、独立的残差图及每个选定列。参考2-6页的残差图。结果子对话框在对话窗口中显示下列内容:不输出估计的回归关系方程,系数表、S, R2,以及方差分析表。默认的输岀设置,包括上面的输岀方式加上连续平方和fits and residuals of un usual observati ons选项子对话框exclude the in tercept term from the regressi on by un check ingFit Intercept seeRegressi on through the origi n on page 2-7显示varianee inflation因子(VIF-共

6、线性影响度量值 )与每个预测因子相关 参考2-7页Varia nee in flation factor显示杜宾-瓦特森统计,它是用来检测残差的自相关一参考2-7页检测残差的自相关显示PRESS统计以及校正的R2。当预测因子重复时,用纯误差lack-of-fit来检验关系模型的适合性,-参考2-8页检验lack-of-fit用数据子子集lack-of-fit测试来检验关系模型的适合性-参考2-8页检验lack-of-fit预测响应结果、置信区间以及新观测值的区间-参考2-9页新的观测值的预测。存储子对话框存储系数、拟合值、以及正常、标准、已删除残差图参考2-5页选择残差类型。store the

7、 leverages, Cook' s distances, and DFITS, for identifying ousees-Identifying outliers on page 2-9.存储store the mean square error, the (X X)-1 matrix, and the R matrix of the QR orCholesky decompositi on. (The varia nce-covaria nee matrix of the coefficie nts isMSE*( XX )-1.) See Help for in forma

8、tion on these matrices.残差分析及回归推断当建立了回归关系模,回归分析通常没有完成。您同样也可以检验残差图和其它回归推理来评定残差图是否是随机和正态分布。M|N|TAB通过图形子对话图提供许多残差图,做为选择,关系模型及残差被存储以后,您可以使用统计 回归 残差图命令可以在同一图形窗口获得四个残差图。MINITAB也可以用回归推理来识别不正常的观测值,这些观测值可能对回归结果产生很显著的影响,参考2-9页识别OUTLIERS,您可检验一下这些异常数据看它们是否正确。假如这样的话,您可以确定它们为什么产生异常以及它们对回归关系方程有什么影响。您也可以验证当存在OUTLIER

9、S时,回归结果的敏感程度。Outliers可以暗示关系模型不充分或者需要另外的信息。选择残差类型您可以计算三各残差类型,使用下表可以帮助您选择哪种图形。残差类型选择您需要列计算方法常规examine residuals in the original scale of the dataresponse fit标准使用rule of thumb来识别与关系模型关 联关系不十分密切的观测值。一个标准 的残差绝对值大于2, MINITAB将这些观测值显示在异常观测值表中,并有R表示。(残差)/(残差的标准差)Studentized识别与关系模型关联关系不十分密切 的观测值,删除影响变量估计及参数估

10、计的观测值。较大的 Studentized残差绝 对值表明关系模型中包含该观测值将 会增大误差变化或者它对参数的估计 有很大的影响,或者对二者都有影响。(残差)/(残差的标准差)第I个studentized残差值是用第1个被删除的观测值计算岀 来的。残差图MINITAB可以产生残差图这样您就可以验证您建立的关系模型的拟合度,您可以选择以下残差 图:残差正态分布图:如果残差服从正态分布,图中的点将基本形成一条直线。如果图中的点背离了该直线,残差服从正态布的假设就会不成立,检验数据是否服从正态分布,可以使用统计 基本统计 正态检验(1-43)。残差柱状图:该图必须类似正态分布图并且其平均值为0(钟

11、形),许多点串远离零点,关系模型之外的因子可能影响了您的结果。残差及拟合度:本图应该显示的是残差应是随机的分布在0周围。在残差图内应该没有任何recognizable patterns,以下的几点可以说明残差图是非随机的:-几点连续上升或下降 -绝大部分的点是正残差,或绝大部的点是负残差。-patter ns such as in creas ing residuals with in creas ing fits残差与顺序图:本图所有残差都是按照数据搜集顺序排列的,它可以用来发现非随机错误,特别是与时间相关的影响。残差图与其变量图:这是个残差与其它变量图。一般地,你可以使用关系模型中预测因子

12、或变 量来检查一下您的是否有您想要图形。如果某些残差值被考虑,您可以用刷子工具来标识这些值,您可以参考MINITAB 使用者指南中 Brushing Graphs的章节。加权回归分析加权最小二乘法回归分析用来分析观测值中包含有非常量变量的一种方法。如果变量不是常量变量那么:1)带有大变量的观测值应相应地加上较小的权重。2)带有小变量的观测值应相应地加上较大的权重。一般情况的权重是响应中纯误差变量相反值。The usual choice of weights is the in verse of pure error varia nce in the resp onse.加权回归分析1. 选择统

13、计 >回归 > 回归选项2. 在“权重”栏中,输入包含权重的列,权重必须大于或等于0,在每个对话框中单击“确定”3. 在数据组中有n个观测值,MiniTAB产生了 n n的矩阵 W,权重列作为矩阵的对角和零点。M INITAB使用(X WX) -1 (X WY )来计回归系数,这样就等于将加权平方和误差最小化。,式中Wi为权重。通过原点的回归一般的情况下,y截矩(也叫常数项)被包含在等式,因此mini tab选用下面关系模型:然而,如果在x=0时,响应值也自然为0时,可以选用一个没有截矩的关系模型。如果是这样,在选项子对话框中,不选截矩项,并且!::'0项就会被忽略, mi

14、nitab选用下面的关系模型:因为当没有常数项解释 R2是非常困难的,所以 R2没有显示岀来。如果您想比较带有截矩项与不 带有截矩项关系模型的拟合度,可以进行平均值平方误差及验证残差图。变量 inflation factorThe varia nee in flation factor (VIF)用来检测一个预测因子和剩下的预测因子是否有很强的线性关系(预测因子中存在多重共线性)。如果您的预测因子是相关的(或多重线性相关)时,VIF测量的是估计的回归因子增加程序。VIF=1时表明因子之间不相关,所有预测因子中最大的VIF通常是用来作为多重共线性的指示。Montgomery and Peck 2

15、1建议当VIF大于5-10时,回归系数估计得毫无结果。你应该考虑使用选项中的方法来分散预测因子间的多重共线性:重新搜集数据,删除预测因子,使用不同的预测因子或最小二乘法回归分析的替代,获得附 加的信息请参考3, 21.。检验残差的自相关在线性回归分析中,我们总是假设残差都是彼此相互独立的(即它们之间不存大自相关)。如果相互独立的假设被破坏,一些关系模型的拟合结果就会被怀疑。例如:误差的正相关可以放在系数的t值。选定一个模型后检验关系模型的假设是回归分析的一个很重要的部分。Minitab提供了两种方法也检验这个假设:1. 残差与数据顺序(1 2 3 4图可以提供很直观的方法来检验残差的自关性。2

16、. 杜宾-瓦特森统计测试回归残差是否存在自相关是通过两个相邻误差项的相关系数是否为0来决定的。该测试是以误差由第一顺序自回归过程的假设为基础的。如果列中有丢失的观测值,同样在计算时这些数据就会忽略了,仅仅使用没有丢失的数据。为了从检验中得岀结论,您需要用表中的上下限比较显示的统计量,如果D上限,没有相关;如果D下限,表示存在正相关;如果 D在上下限之间,不能确定其相关性。如果想得到其它信 息,请参考4, 22.检验 lack-of-fitMINITAB提供了两种lack-of-fit检验,这样您可确定建立的回归模型是否能够完全适合您的数据。纯误差 lack-of-fit 检验需要畐V本 (re

17、plicates); the data subsetting lack-of-fit test does not require replicates.纯误差lack-of-fit检验-如果您的预测因子中包含重复的数据(一个因子几个同样的X值或多预测因子中有几个同样的 X值组合),MINITAB 可以为lack-of-fit计算一个纯误差检验。误差项将 被分成纯误差(error within replicates)和lack-of-fit误差。F检验可以检验您是否选择了适合的回归 关系方程。如果需要其它信息,请参考9, 22, 29.数据子集lack-of-fit检验-MINITAB同样也可以

18、进 行lack-of-fit检验数据,其数据不需要副本但是要包含数据子集。该检验是非标准化的,但是它可提供关于每个变量的lack-of-fit的信息。参考 和“帮助”得到更多的信息。MINITAB 可进行2K+1的假设检验,其中K是预测因子数量,然后使用 Bonferroni不等式组合它们以得到一个0.1的全面显著性水平。然后显示岀每次检验的 lack-of-fit. 证据。 For each predictor, a curvature test and an interaction test are performed bycompari ng the fit above and belo

19、w the predictor mean using in dicator variables(对于每个预测因子,可以用曲率检验和交互检验检验通过使用指示变量业比较拟合度是高于并低于预测因子平均值)也可以用另一个试验通过将关系模与数据“中心”部分拟合,然后比较中心数据误差平方和所有数据误差平方和。新观测值的预测如果您知道新预测因子值(X),并且您想知道通过使用回归方程计算岀的响应值,那么您可以选项子对话框中新观测值的预测区间。输入常数或包含新 X值的列,每个预测因子数据应是一列(one for each predictor)。每列的长度必须是相等。如果输入了常数和一列,minitab会认为您想

20、要得到常数和每列数据组合的所有预测值。您可以将默认的置信水平95%改成其它值,您也可以储存显示的值:拟合度、拟合度标准误差、置信界限及预测界限。如果您使用带权重的预测, 可以参考帮助中的获得正确的结果。识另廿outliers除了图形之外,为识别outliers或对回归有显著影响的异常观测值,您可以储存三种另外的方法。这三种方法是:Leverages、Cook' s distanee及 DFITSLeverages是“ hat”矩阵的对角,H = X (X X)-1 X :其中X是设计矩阵,其中hi仅与预测因子有关,它与响应 丫有关。许多人都认为hi值应足够的大,最好是大于2p/n或3p

21、/n,这中P值是预测因子数(包括一个常数)。MINITAB 将这些值在高leverage异常观测值表中显示。这些影响超 过3p/n或0.99的值,无论哪一个是最小的都标上X, leverage大于5p/n都标上XX。Cook' s distanceomb ines leverages and Stude ntized residuals into oneoverall measure of how un usual the predictor values and resp onse are foreach observati on. Large values sig nify un

22、usual observati ons. Geometrically,Cook' s distanee is a measure of the distanee between coeffidents calculated with and without the i th observation. Cook 7 and Weisberg 29 suggestchecking observations with Cook' s distanee > F (p50 ,where F is avalue from an F-distributi on.DFITS , like

23、 Cook ' s distanee, combines the leveragetaedStudentizedresidual into one overall measure of how un usual an observati on is. DFITS(also called DFFITS) is the differe nee betwee n the fitted values calculatedwith and without the i th observation, and scaled by stdev ( i). Belseley, Kuh,and Welsc

24、h 3 suggest that observatio ns with DFITS > 2 should becon sidered as un usual. See Help for more details on these measures.Example of performing a simple linear regression简单线性回归实例您是一个制造者并想要容易地获得一个产品的质量标准,但是该程序十分昂贵。但是这儿有一个能完成同样工作一般方法,该方法不太昂贵并且但并较准确。您可以检验两组数据之间的关系看看是否可由容易获得数据来预测想要的数据。您也可以利用观测值SCOR

25、E1获得8.2的预测区间。1. 打开工作表EXH_REGR.MTW2. 选择统计 >回归 > 回归3. 在响应栏中,输入 Score2,在预测因子 栏中,输入Scorel.4. 单击“选项”按钮。5. 在新观测值预测区间栏中,键入8.2,然后单击每个对话框的“确定”按钮。The regression equation isScore2 = 1.12 + 0.218 ScorelPredictorCoefSE CoefTPConstant1.11770.109310.230.000Score10.217670.0174012.510.000S = 0.1274R-Sq = 95.7%

26、R-Sq(adj) = 95.1%Analysis of VarianceSourceDFSSMSFPRegression12.54192.5419156.560.000Residual Error70.11360.0162Total82.6556Unusual ObservationsObs Scorel Score2 Fit SE Fit Residual St Resid97.502.50002.75020.0519-0.2502-2.15RR denotes an observation with a large standardized residualPredicted Value

27、s for New ObservationsNew Obs Fit SE Fit 95.0% CI95.0% PI12.90260.0597 ( 2.7614, 3.0439) ( 2.5697, 3.2356)Values of Predictors for New ObservationsNew Obs Score11 8.20结果说明回归程序选择模型是Y =廿其中丫是响应,X是预测因子,1;-°和M是回归系数,:是误差项,它是服从平均为零,标准偏为二正态分布,MINITAB通过b0估计b1估计T S估计二。选择的方程拟合方程即为:¥ 加fX其中叫做被预测或被拟合值。本

28、例中b0是1.12 b1是0.218。系数表:在输出窗口中第一个表给出的是估计的系数,I和二,以及它们的标准误差。另外.一值可以检验系数的零假设是否等于零,相应的p值也被给岀。本例中,p值用来检验常数和斜率是否等于零,它显示为0.000,因为MINITAB将这些值圆整至小数点后三位数,该值实际上小于0.0005,该值表明有足够的证据说明在第一类错误概率(Revels)水平下,系数不等于零,S = 0.1274,这是匚的估计值,回归线标准偏差的估计值。注意:s" M S ErrorR-Sq = 95.7%.这就是R2,也叫做决定系数,注意R2 =Correlation (Y,)2R2

29、= (SS Regression),/ (SS Total)R2值是是由预测因子(本例中Score1)而导致Y变量(本例中Score2)的可变比例。The R2 value is the proportio n of variability in the Y variable (in this example, Score2)accou nted for by the predictors (in this example, Scorel).R-Sq(adj) = 95.1%,这是根据自由度而调整的 R2,如果一个变量被增加到一个关系方程,R2将要变大尽管被增加变量很可能不是实数。为了弥补这个

30、缺陷,MINITAB同样也显示岀了 R-Sq (adj),该值是总体 R2的无偏估计,它是根据以下公式计算岀来的:応抽)I心Ew/5 p)SS Totul < ii - I i将其转换为百分比,其中P是回归方程中的系数数量(本例,P=2),在相同的符号,通常R2为:. SS ErrorR' SS Total方差分析:本表包含着平方和(缩写为SS), SS回归有时也写作 SS(回归I b0)以及被叫做SS模型。 误差平方各有时也被写作SS残差,SSE或RSSo误差均方和被写作 MSE。总平方和(SS Total)是平均值的修正平方和,使用方差分析来评定总拟合值,F检验是对零假设 H

31、0:所有回归系数(除:0)=0进行检验。异常观测值:如果预测因子异常,用 X来标识该异常观测值;如果响应值异常,那么用 R标识。 (大标准化残差),参考2-5页选择残差类型以及2-9页识别outliers .系统默认只显示异常值。 您可 以选择结果子对话框中的选项来显示拟合值的总表。拟合或被拟合值有时又叫做被预测丫值或SE Fit是拟合值的标准误差(估计的)o St Resid是标准化残差被预测值 :显示区间是根据给定的预测因子值所获得总体平均值在置信区间为 95% 的情况下计 算出来的 (Score1 = 8.2) 。在预测区间为 95% 情况下的显示区间是单个观测值Score1 = 8.2

32、 时的预测区间。置信区间适用于回归中使用的数据。如果您有想知道新观测值,使用预测区间,参考 2-9 新 观测值的预测。如果没验证残差图, 那么回归分析还没有结果。 下面的多元回归例子以及残差图程序提供了其它 关系回归分析的信息。多元回归分析实例:作为太阳能的测试一部分,您测量房间中总的热量。您想检验总热量是否可以通过绝热体、东、 南、北各方向焦点的位置来预测。数据是从 21 ,486页中摘取,您可以发现,使用 2-23 页的最 佳子集回归, 最佳两预测因子模型包括变量北和南, 最佳三因子可在最佳两预测因子基础增加变 量东方。您可以用多元回归分析法来建立三预测因子关系模型。1.打开工作表 EXH

33、_REGR.MTW2. 选择统计 回归 回归3.在“响应” 栏中,输入 Heatflux .4. 在预测因子 栏中,输入 North South East ,然后单击 OK 按钮。4 In Predictors , enter North South East . Click OK.回归分析 : HeatFlux VS East, South, North回归方程:HeatFlux = 389 + 2.12 East + 5.32 South - 24.1 North预测因子CoefSE CoefTPConstant389.1766.095.890.000East2.1251.2141.750

34、.092South5.31850.96295.520.000North-24.1321.869-12.920.000S = 8.598 R-Sq = 87.4% R-Sq(adj) = 85.9%方差分析Source DF SS MS F PRegressionResidual ErrorTotal 283 12833.925 1848.114681.94278.0 57.87 0.00073.9SourceDFSeq SSEast1153.8South1349.5North112330.6异常观测值ObsEastHeatFluxFitSE FitResidualSt Resid433.123

35、0.70210.205.0320.502.94R2237.8254.50237.164.2417.342.32RR denotes an observation with a large standardized residualDurbin-Watson statistic = 1.48解释结果MINITAB 选择了以下回归模型:v = PoPiX1 + l2X2 钟弄3其中丫为响应,X1, X2,和X3为预测因子, H, X, 2 and ':3是回归系数,是服从均值为零标准差为为二正态分布的误差项。多元回归输出项与一元回归输出相似,但是它也包括连续平方和。连续平方和与t-检验不一

36、样。T检验方法检验的是原假设中每个系数都为零,得到模型中所有其它变量的平方和。连续平方和只是现有变量平方和,假定所有输入的变量都存在。例如:在方差分析表中连续平方和列,关于NORTH(10578.7)是NORTH的平方和。South的值(2028.9)是South惟一的平方和假设 North平方和存在以及 East的值(2028.9)是East惟一的平方 和假设North及South平方和存在假设您已得到了 b0,连续平方和表中第一行给岀了SS(b1 | b0),,或者由于拟合b1项而导致误差SS减小(与使用X1作为预测因子相同)。假设您已得到了b0、b1,下一行给岀了 SS(b2 | b0,

37、 b1),或者由于拟合b2项而导致误差 SS减小。下一行即为SS (b3 | b0, b1, b2),等。如果您想用不同的顺序,比方说SS (b2 | b0, b3),那么重复回归程序并用首先输入X3,然后X2。MINITAB 不显示连续平方和的P值,除了最后连续平方和,mean square error不能用来检验这些项目的显著性。在本列中,t检验的P值小于0.0005表明存在足够的证据说明变量North和South系数不为零。变量 East 的系数的 P 值为 0.092。The coefficientof the variable East, however, has an t-test

38、 p-value of 0.092. If the evidenee for thecoefficient not being zero appears insuffieient and if it adds little to the predietion, youmay choose the more parsi moni ous model with predictors North and South.Make thisdecision only after examining the residuals. In the residual plots example on page 2-28,you examine the residuals from the model with predictors North and South.(Alter natively, you could have used the graphs available in the Graphs subdialog box.)

展开阅读全文
相关资源
猜你喜欢
相关搜索

当前位置:首页 > 社会民生


经营许可证编号:宁ICP备18001539号-1