[解决方案]方差分析.doc

上传人:音乐台 文档编号:1990450 上传时间:2019-01-28 格式:DOC 页数:44 大小:1.54MB
返回 下载 相关 举报
[解决方案]方差分析.doc_第1页
第1页 / 共44页
[解决方案]方差分析.doc_第2页
第2页 / 共44页
[解决方案]方差分析.doc_第3页
第3页 / 共44页
亲,该文档总共44页,到这儿已超出免费预览范围,如果喜欢就下载吧!
资源描述

《[解决方案]方差分析.doc》由会员分享,可在线阅读,更多相关《[解决方案]方差分析.doc(44页珍藏版)》请在三一文库上搜索。

1、 第九章 方差分析第一节 方差分析的一般问题 一、方差分析的意义在工农业生产和科学研究中,经常要搞一些试验活动。比如,为了解某个新品种的种植效果,需要在土壤条件、温度、湿度、施肥、灌溉等因素相同的情况下,将新品种与其他同类品种的种植结果作比较。商品的包装方式和在商场里的摆放位置,对吸引顾客是有帮助的,那么为确定某商品合适的包装和销售位置,也可以进行观察试验。在化工生产中,原料的成分、反应温度、压力、时间、催化剂、设备水平、操作规程等,对产品的得率和质量有很大的影响,通过实验研究,可以帮助我们找到一个最优的生产方案。在试验基础上取得的数据,称为试验数据。方差分析技术是对试验数据进行分析的一种比较

2、有效的统计方法。方差分析是费暄在马铃薯种植试验中首先提出来的,当初他采用的处理方法是,把观察数据看作是马铃薯品种与试验误差共同影响的总和,然后把条件(马铃薯品种)变异和随机试验误差进行比较,以此分析马铃薯品种之间是否存在显著的差异。后来费暄给出的总结性意见是,方差分析是在若干个能够互相比较的资料组中,把产生变异的原因(主要是条件因素和随机因素)加以明确区分的方法和技术。二十世纪二十年代,费暄又对方差分析作了系统的研究,并把他的研究成果写在供研究人员用统计方法等著作中。关于单个总体均值和两总体均值差的检验内容,我们在前面已作了比较系统的介绍。从形式上看,方差分析把这一类检验问题向前拓展了一步,它

3、能够同时对若干个总体均值是否相等的假设进行检验,从而大大提高了统计分析的效率。另外,方差分析对样本的大小没有更多的限制。无论是大样本还是小样本,均可以使用方差分析方法。方差分析方法的最大好处在于,在资料分析过程中所带来的种种便利性,其一,它能够使资料的层次结构清晰有序,其二,它能把一切需要进行的假设检验归结成一种共同格式。有鉴于此,方差分析的思想逐渐渗透到统计学的许多方法之中。比如,我们在相关与回归分析一章中所述的总离差平方和的分解,实际上就是方差分析思想的应用。方差分析现在在许多学科领域都有重要的应用,其中比较典型的有:农业试验、工业生产、气象预报、医学、生物学、管理科学、教育学等。方差分析

4、是统计分析的基本工具之一,学习方差分析,重在领会它的统计思想和掌握其处理问题的基本手段。 二、有关术语及假定条件为使问题的表述更加方便,一般地我们把在不同条件下所作的试验的结果,称为试验指标,用Xij、Xijk来表示。影响试验结果的各种变化条件,称为试验因素,用A、B、C等表示。影响试验结果的条件往往有许多种类,但在一次试验中不可能都将它们考虑进来,总是根据人们关心的侧重点不同而有所选择,按选择的方式,有人为确定试验条件和随机确定试验条件之分。前一情况下的试验称为固定条件下的试验,对此采用的方差分析为固定效应模型,后一情况下的试验为随机条件下的试验,相应的是方差分析的随机效应模型。在这里,我们

5、主要讨论固定条件下方差分析的固定效应模型。每一试验条件在试验中所处的状态,称为试验水平,用A1,A2,Ar和B1,B2,Bs表示。在一次试验中,如果仅考虑一个试验条件而将其他因素相对固定的试验,称为单因素试验,对应单因素试验的方差分析,称之为单因素方差分析,依此类推,有两因素方差分析和多因素方差分析。例1.1 在电解铜工艺中,电流强度、电解液配方和浓度、设备水平等,对电解铜的纯度有很大影响。为考虑电流强度的作用效果,将其他因素固定起来,分别在五种电流强度下各作5次试验,观察一小时内得到的电解铜的杂质率数据为:表1.1 电解铜杂质率电流杂质率样品A1A2A3A4A5101520253011.72

6、.11.51.91.822.12.21.31.91.932.22.01.82.22.142.12.21.42.31.751.92.11.72.01.2本例中,杂质率为试验指标,试验条件为电流,分五种水平各作5次试验。所以,这是一个单因素五水平的固定效应方差分析问题。例1.2 一企业为推销某种产品在五个地区建立了销售点,统计的四个时期的销售量资料如表1.2所示:表1.2 销售量资料地点销售量时期B1B2B3B4B5A162448A210711912A3139787A421223试问该产品在不同地区和不同时期的销售情况是否存在显著的差异。在这个例子中,地区和时期可看作是试验的因素,地区取了5个水平

7、,时期取了4个水平,因此,这是一个两因素45水平的方差分析问题。方差分析的实质是变异分析,进行方差分析时,要注意考虑以下几个假定条件: 1、各因素水平下的观察值Xij或Xijk是随机变量,它能够分解成两个部分,一是个因素水平下的期望E(Xij)=j或E(Xijk)=ij,另一是随机误差项ij或ijk。因此有:Xij=j+ij,i=1,2,n,j=1,2,r (1.1)其中n为试验次数,r为因素水平数。Xijk=ij+ijk,i=1,2,r,j=1,2,s,k=1,2,l (1.2)其中r、s为因素水平数,l为试验次数。2、ij或ijk服从正态分布,且相互独立。理论上讲,随机误差对试验结果的效应

8、比试验条件效应要小,并且相互之间没有太大的差别,因此,假定试验误差服从正态分布是有一定道理可言的。3、假定E(ij)= 0、E(ijk)=0。这一假定容易得到满足,一旦它们不成立,只要把它们期望之中非零部分纳入j、ij中即可。在这一条件下应有E(Xij)=j或E(Xijk)=ij。4、假定Var(ij)=2,Var(ijk)=2。这一假定叫做方差齐一性假定,它是方差分析的重要前提。方差的齐一性假定往往不易得到满足,出现这样的情况时,要注意对试验的安排,以尽量减小对分析结论的干扰。在上述假定条件下,方差分析的数据结构模型可表述成:Xij N(j,2), i=1,2,n,j=1,2,r (1.3)

9、Xijk N(ij,2),i=1,2,n,j=1,2,rk=1,2,l (1.4) 三、方差分析的基本思想从表1.1中可以看出,通过试验获得的数据参差不齐,不仅在不同的电流强度下的数据是这样,就是在同一电流强度之下也是如此。做试验的目的,主要是为了观察研究试验因素对试验指标是否有显著的影响。如果试验因素对试验结果有显著性影响,那么就要考虑选择什么样的因素及其水平才比较合适,若是影响不显著,则从经济效益的角度,应该考虑低成本的生产方案。怎样才能知道试验因素对试验指标有没有影响呢?为此,我们可以进行这样的设想,在某一因素水平下的试验数据,由于试验条件基本相同,因而数据间的差异可看成是随机性误差引起

10、的,不同因素水平下的试验数据,由于试验条件的改变,它们的差异可看成主要是因试验条件而导致的。随机误差往往服从正态分布,因此,每一因素水平下的试验数据又可当作是来自于这一因素水平的总体的一个样本,理论上它们应该有一个均值j(j=1,2,r)。这样一来,因素影响是否显著就转化为,检验1,2,r是否相等的问题。随机误差用各因素水平下的数据变异指标方差来衡量,称之为组内方差,记作2w,条件影响的变异称为组间方差,记作2B,它们的样本估计量分别为S 2w和S2B。容易理解,如果试验因素水平的变化对试验指标的影响不大,则S2B与S2w应比较接近,它们的比值将趋向1,反之S 2B明显会比S 2w大,即有1。

11、据此,可用作为检验统计量。事实上,方差分析就是在前面的假定条件下,对假设H0:1=2=r,运用统计量进行检验的,并根据检验的结果,做出相应的判断结论。 四、方差分析的一般步骤进行方差分析一般要经过以下几个步骤:第一步,根据试验资料,检查方差分析的假定条件是否能够成立。第二步,建立方差分析的数据结构模型。第三步,提出检验假设。第四步,构造检验统计量。第五步,由试验资料计算检验统计量的值。第六步,在给定的显著性水平下,查出临界值,作出比较判断。第二节 单因素方差分析 一、单因素等重复方差分析假定试验中只考虑一个因素A,共作了A1,A2,Ar这r个水平的观察,每个水平Aj为正态总体N(j,2),j=

12、1,2,r,其中j,2均未知。为检验1,2,r是否相等,对每个水平皆作n次试验(等重复的含义),且保证它们相互独立,共计得到n r个数据。数据编排如下:表2.1 单因素等重复试验数据表因素指标样品因素水平合计均值A1A2Ar1X11X12X1r2X21X22X2rnXn1Xn2Xnr合计均值在假定条件下,单因素等重复试验的数据结构模型可表示成:XIJ = j+ij, i=1,2,nij N(0,2),j=1,2,r (2.1)其中,ij相互独立,j、2为各总体Aj的未知参数,仍然用样本均值去估计j,同样可以证明是j的最好估计。为便于问题的讨论,我们引进因素水平Aj的效应的概念。令 (2.2)为

13、各总体Aj均值的平均数。令 , j=1,2,r (2.3)称为Aj的影响效应。若1,2,r之间没有显著性差别,则1,2,r与也不会有显著性差别,如果1,2,r之间有差别,则1,2,r与也会不同,即不会总存在j=0(j=1,2,r)的现象。j表明j使总均数改变了多少,它可能取正值,也可能取负值,或者是等于0。由式(2.3)得:=0所以,j之间的关系为: 1+2+r=0 (2.4)在上面讨论的基础上,模型(见式(12.2.1.1)又可直接改写成:Xij= j+j+ij, i=1,2,nij N(0, 2), j=1,2,r (2.5)其中,、j和2为参数,用去估计,用-去估计j。对假设:H0 :

14、H1 : 不完全相等 (2.6)的检验,同样可转化检验:H0 : H1 : 不全为0 (2.7)总离差平方和的分解。用和-分别替代后,根据式(2.5)中的第一式得:xij=移项并求平方和:=+=+=+=n+其中,交叉乘积项=0,由表2.1和算术平均数的性质就可知道。令:ST2= (2.8)SB2=n (2.9)Sw2= (2.10)SB2为组间离差平方和,它反映了各组平均数与总平均数的差异情况,Sw2为组内离差平方和,它表示各组观察值Xij与该组平均数的变异程度。SB2和 Sw2是不是说明了因素水平和实验误差的影响,为清晰起见,下面做进一步的论证和解释。 令: , j=1,2,r (2.11)

15、 (2.12)再由式(2.1)的第一式得: (2.13)联系到式(2.4)又有: (2.14)把式(2.13)、式(2.14)代入式(2.9)得:SB2=n(.j-.)2= n(+.j+.j-.)2= n(j+.j-.)2 (2.15)由此可以看出,SB2与因素水平效应j有关,也与有关,所以SB2可以用来反映Aj变化的影响.把式(2.1)的第一式与式(2.13)代入式(2.10)得:Sw2= (xij-.j)2= (j+ij-)2= ()2 (2.16)显然Sw2与有关,完全能反映误差的影响.在方差分析中,通常用.j 估计,用估计,那么用什么去估计呢?我们来看下面的讨论。根据方差分析的假定:,

16、所以有:N(0,) (2.17)与N(0,) (2.18)对式(2.16)求数学期望:E(Sw2)=E()2=E()=E(-n)=E()-nE()=var()+E()2-nvar()+E()2=var()-nvar()= =r(n-1)令=,则是的无偏估计,而r(n-1)正好是Sw2的自由度。对式(2.9)求数学期望:E(SB2)=En()2=n( E(2)=nE()-rE() (2.19)由于xijN(,), 所以有: N(,) (2.20)与(,) (2.21)进而可得:E()=Var()+(E()2=+ (2.22)E()=Var()+(E()2=+ (2.23)将式(2.22)、式(2

17、.23)代入式(2.19):E(SB2)=n(E()-rE()=nE()-nrE()=n(+)-nr(+)=r+ n-nr=(r-1) +n(-)=(r-1) + n (2.24)式中,令。由此可以看出,在假设或成立时,才是的无偏估计,否则。运用作为 检验统计量,必须要知道它的精确分布。ST2是全部观察值xij共个与总平均数的离差平方和,其中的基本约束条件有一个,即 ()=0,所以,ST2的自由度为nr-1。而SB2与 Sw2的自由度分别是r-1和r(n-1)。显然,有nr-1=(r-1)+r(n-1)。当假设或成立时,xij(),因此有(nr-1),又因有=+,那么由分布的性质得:(r-1)

18、 (2.25)(r(n-1) (2.26)且与相互独立。根据F分布的定义:F(r-1,r(n-1) (2.27)于是,对于给定的显著性水平,查出临界值F1-(r-1,r(n-1)。当F1- (r-1,r(n-1)时,拒绝原假设H0,反之则接受H0。在具体计算过程中,ST2、SB2、Sw2可采用简捷一点的计算公式:ST2= (xij-)2=xij2-( xij)2 (2.28)SB2=n()2 =()2-( xij)2 (2.29)Sw2=(xij-)2=xij2-(xij)2 (2.30)并且可以在表上直接完成。因素A指标样品因素水平合计A1A2Ar1x11x12x1r2x21x22x2rnX

19、n1Xn2Xnr为清晰起见,在计算出ST2、SB2、Sw2后,通常将方差分析需要的主要指标列在一张表上:表2.3 方差分析表方差来源平方和自由度均方(平方和/自由度)统计量显著性因素影响SB2r-1 误差影响Sw2r(n-1)总离差ST2nr-1例2.1根据例1.1所给定的资料,检验电流强度对电解铜的纯度是否有显著性影响(=0.05)。解: 提出假设:H 0 H1 不完全相等根据给定的实验数据,编制计算表:表2.4 方差分析数据计算表A1A2A3A4A5合计101520253011.72.11.51.91.822.12.21.31.91.932.22.01.82.22.142.12.21.42

20、.31.751.92.11.72.01.21010.67.710.38.747.3()2100112.3659.29106.0975.69453.4320.1622.512.0321.3515.5991.63ST2=-()2=91.63-47.32 =2.1384SB2= ()2-()2 =453.43-47.32 =1.1944Sw2=- ()2 =91.63-453.43=0.944建立检验统计量。在方差分析假定条件和原假设H0成立时有:F(4,20)列出方差分析表:表2.5 方差分析表方差来源平方和自由度均方显著性电流强度1.194440.29866.3263试验误差0.944200.0

21、472总离差2.138424根据给定的显著性水平=0.25,查F分布表得F(4,20)=5.08。由于5.08,则拒绝假设H0A,即认为因素A对试验结果有显著影响,若 ,拒绝假设H0B,可认为因素B对试验结果有显著性影响。表3.3 无重复双因素方差分析表方差来源平方和自由度均方均方比显著性因素A影响SA2r-1因素B影响SB2s-1误差影响SE2(r-1)(s-1)总离差ST2rs-1例3.1某型号火箭采用了四种燃料、三种推进器作射程试验,每种燃料的每种推进器的组合作一次试验,获得的试验数据如下表所示,试在显著性水平=0.1的要求下,检验燃料的推进器对火箭射程有无明显的影响。表3.4 火箭射程

22、数据(单位:海里) 推进器射程燃料B1B2B3A158.256.265.3A279.154.151.6A360.170.939.2A475.858.248.7解:这是无重复的双因素试验。设方差分析的模型为:xij= , i=1,2,rN(0,) , j=1,2,s检验假设:H0A: 1=2=3=4=0H1A: 1、2、3、4不全为0H0B: 1=2=3=0H1B: 1、2、3不全为0计算表:表3.4数据计算表B1B2B3A158.256.265.3179.732292.0910809.77A249.154.151.6154.823962.048000.18A360.170.939.2170.2

23、28968.0410175.46A475.858.248.7182.733379.2911504.57243.2239.4204.8687.459146.2457312.3641943.0415155.714499.310834.98由表3.4中的资料,计算:ST2=- = =1113.42SA2=- = =157.59 SB2=- = =223.85SE2= ST2-SA2-SB2 =1113042-157.59-223.85 =731.98表3.5 方差分析表方差来源平方和自由度均方均方比因素A影响157.59352.530.4306因素B影响223.852111.930.9175试验误差731.986122.0总离差1113.4211=0.1,查F

展开阅读全文
相关资源
猜你喜欢
相关搜索

当前位置:首页 > 其他


经营许可证编号:宁ICP备18001539号-1