正交试验设计.doc

上传人:yyf 文档编号:3625162 上传时间:2019-09-18 格式:DOC 页数:54 大小:2MB
返回 下载 相关 举报
正交试验设计.doc_第1页
第1页 / 共54页
正交试验设计.doc_第2页
第2页 / 共54页
正交试验设计.doc_第3页
第3页 / 共54页
正交试验设计.doc_第4页
第4页 / 共54页
正交试验设计.doc_第5页
第5页 / 共54页
亲,该文档总共54页,到这儿已超出免费预览范围,如果喜欢就下载吧!
资源描述

《正交试验设计.doc》由会员分享,可在线阅读,更多相关《正交试验设计.doc(54页珍藏版)》请在三一文库上搜索。

1、第一章 试验设计和均匀设计11 试验设计在工农业生产和科学研究中,经常需要做试验,以求达到预期的目的。例如在工农业生产中希望通过试验达到高质、优产、低消耗,特别是新产品试验,未知的东西很多,要通过试验来摸索工艺条件或配方。如何做试验,其中大有学问。试验设计得好,会事半功倍,反之会事倍功半,甚至劳而无功。本世纪30年代,由于农业试验的需要,费歇(R.A.Fisher)在试验设计和统计分析方面做出了一系列先驱工作,从此试验设计成为统计科学的一个分支。随后,F.Yates,R.C.Bose,O.Kempthome,W.G.Cochran,D.R.Cox和G.E.P.Box对试验设计都作出了杰出的贡献

2、,使该分支在理论上日趋完善,在应用上日趋广泛。60年代,日本统计学家田口玄一将试验设计中应用最广的正交设计表格化,在方法解说方面深入浅出为试验设计的更广泛使用作出了众所周知的贡献。田口玄一的方法对我国试验设计的普及和广泛应用有巨大的影响,70年代我国许多统计学家深入工厂、科研单位,用通俗的方法介绍正交试验设计,帮助工程技术人员进行试验的安排和数据分析,获得了一大批优秀成果,出版了许多成果汇编,举办了不少成果展览会。在广泛使用试验设计方法的洪流中,必然会出现一些新的问题,这些总是用原有的各种试验设计方法不能圆满地解决,特别是当试验的范围较大,试验因素需要考察较多等级(在试验设计中这些等级称之为水

3、平)时,用正交试验及其它流行的试验方法要求做较多的试验,常使得试验者望而生畏。许多实际问题要求一种新的试验方法,它能有效地处理多水平的试验,于是王元和方开泰于1978年提出了均匀设计(见文献13),该设计考虑如何将设计点均匀地散布在试验范围内,使得能用较少的试验点获得最多的信息。10多年来,均匀设计在国内得到了广泛应用,并获得不少好的成果。试验设计在工业生产和工程设计中能发挥重要的作用,例如:1) 提高产量;2) 减少质量的波动,提高产品质量水准;3) 大大缩短新产品试验周期;4) 降低成本;5) 延长产品寿命。在自然科学中,有些规律开始尚未由人们所认识,通过试验设计可以获得其统计规律,在此基

4、础上提出科学猜想,这些猜想促进了学科的发展,例如遗传学的许多发现都藉助于上述过程。材料工业是工业中的栋梁,汽车拖拉机的制造离不开各种合金钢,钛合金的发明和发现使飞机制造工业产生飞跃。超导的研究和超导材料的配方息息相关。配方试验又称混料试验(Experiments with Mixtures),不仅出现于材料工业,而且在人们生活和其它工业中处处可见,例如在中药、饮料、混凝土的配方中。由于在配方中各种材料的总和必须为100,其试验设计必须考虑到这个约束条件,由于这个原因正交试验设计等方法不能直接用于配方设计。针对配方设计的要求,Scheff于1958年提出了单纯形格子点设计,随后于1963年他又提

5、出了单纯形重心设计。Cornell27对配方试验设计的各种方法作了详尽的介绍和讨论。显然,均匀设计的思想也能用于配方试验,王元和方开泰9给出了配方均匀设计的设计方法和有关的讨论。本书第五章将系统介绍配方试验设计和配方均匀设计。不论是均匀设计或配方均匀设计,其数据分析都要藉助于回归分析,要用到线性回归模型、二次回归模型、非线性模型,以及各种选择回归变量的方法(如前进法、后退法、逐步回归、最优回归子集等)。有关回归分析的书籍成百上千,本书仅作梗概介绍。读者很容易找到各种参考书籍获得更详细的介绍。试验设计的方法很多,本书重点介绍均匀设计,这并不意味其它方法不重要,每种方法都有其优点,也有其局限性,根

6、据实际情况选取合适的方法是应用统计的重要内容。12 试验的因素和水平 在工业、农业、科学研究和军事科学的研究中,经常需要作各种试验,以研究各种因素之间的关系,找到最优的工艺条件或最好的配方。让我们先看一个例子:例1 在一个化工生产过程中,考虑影响得率(产量)的三个因素:温度(A),时间(B)和加碱量(C)。为了便于试验的安排,每个因素要根据以往的经验来选择一个试验范围,然后在试验范围内挑出几个有代表性的值来进行试验,这些值称做该因素的水平。在该例中,我们选择的试验范围如下: 温度: 77.592.5 时间: 75分165分 加碱量: 4.5%7.5%然后在上述范围内,每个因素各选三个水平,组成

7、如下的因素水平表:表1 因素水平表因素123温度()808590时间(分)90120150加碱量()567选择因素和水平关系到一个试验能否成功的关键,下列的注意事项和建议对使用试验设计的人员可能是有益的。1在一个生产过程中,有关的因素通常是很多的,例如在例1的化工生产工艺中,有催化剂的品种,催化剂用量,加碱时的速度,容器中的压力等。但根据这次试验目的,除了温度(A),时间(B),和加碱量(C)各取三个水平外,其余因素是固定的,或者讲,他们只取一个水平。为了方便,通常这些固定的因素在试验方案中并不称为因素,只有变化的因素才称为因素。2在一项试验中,如何从众多的有关因子中挑选出试验方案中的因素?我

8、们建议课题的领导者应当要请有经验的工程师、技术员、工人共同讨论决定。在一次试验中,因素不宜选得太多(如超过10个),那样可能会造成主次不分,丢了西瓜,拣了芝麻。相反地,因素也不宜选得太少,(如只选定一、二个因素),这样可能会遗漏重要的因素,或遗漏因素间的交互作用,使试验的结果达不到预期的目的。例如,有这样的故事,原计划试验方案中只有三个因素,而利用试验设计的方法,可以在不增加试验数目的前提下,再增加一个因素,既然不费事何乐而不为呢?试验的结果发现,最后添加的这个因素是最重要的,从而发现了历史上最好的工艺条件,正是“有心栽花花不成,无意插柳柳成荫。”3试验的范围应当尽可能大一点。如果试验在试验室

9、进行,试验范围大比较容易实现;如果试验直接在生产中进行,则试验范围不宜太大,以防产生过多次品,或产生危险。试验范围太小的缺点是不易获得比已有条件有显著改善的结果。历史上有些重大的发明和发现,是由于“事故”而获得的,也就是说试验的范围大大不同于有经验的范围。4若试验范围允许大一些,则每一因素的水平个数最好适当多一些。5水平的间隔大小和生产控制精度是密切相关的。若在例1中温度的控制只能作到3,且我们设定控制在85,于是在生产过程中温度将会在853,即8288波动。不难看到,这时设定的三个水平80,85,90之间是太近了,应当加大,例如80,90,100。如果温度控制的精度可达1,则例1如设定的三个

10、水平是合理的。6因素和水平的含意可以是广义的。例如五种棉花用于织同一种布,要比较不同棉花影响布的质量的效应,这时“棉花品种”可设定为一个因素,五种棉花就是该因素下的五个水平 。 13 因素的主效应和因素间的交互效应根据试验的目的,要预先确定一项或多项试验指标,为简单计,本书仅讨论只有一项试验指标(记作Y)的情形。如例如1的试验Y是得率。在数理统计中,称试验指标为响应(response)为通俗起见,本书中就叫试验指标。考察一个因素对试验指标的影响是试验的目的之一。若在一项试验中,考察温度和得率Y之间的关系,并取温度五个水平,其相应Y值如下:温度5060708090Y30%35%40%45%50%

11、我们看到,温度每增加10得率增加5%这5%就是温度的效应。上述试验可以表成一个线性数学模型 (1.1)其中为第次试验结果,为温度从50到90范围内Y的平均值。通常可以用五次试验的平均值来估计,记作,即 表示温度取第个水平时的值与之差。不难发现,它们的估计值为 这里称为温度在五个水平下的主效应,为它们的估计值。由于试验中总存在一些偶然因素的干扰,如室温的变化,电压的波动,材料的不均匀性,这些偶然因素总称为随机误差。由于试验误差的存在,不可能产生上例那么理想的情况。其实际数据可能为温度5060708090Y32%34%39%46%49%这时数学模型为 (1.2)这里为第次试验的试验误差。这时试验必

12、须有重复才能估计出和.实际上,当试验的水平和相应的Y为连续变量时,其数学模型也可以用回归方程来表达,例如,用线性回归方程 (1.3) 其中X表示温度,和是回归系数,为随机误差。在第二章将介绍,和可以用最小二乘法由试验数据估出,由上述温度和得率的数据可得回归方程 (1.4)这里为试验结果Y的估计值。利用方程(1.4)可以估出五次试验的结果如下:30.835.440.044.649.21.2-1.4-1.01.4-0.2其中称为残差,它的大小反映了回归方程(1.4)的精确程度,并可用它作回归诊断,更详细讨论请看第二章。方程(1.4)中,X的回归系数0.46有明确的实际含意,它表示温度每增加一度,其

13、得率Y平均增加0.46%,于是0.46反映了X对Y的效应,这里可以称为线性回归效应。有一点是必须注意的,无论是模型(1.2)中的主效应,还是模型(1.3)中的线性回归效应,都强烈地依赖于试验条件,尤其是X的试验范围,也就是说,这两个模型只适用于X的试验范围内。否则,当X为210时,的估值为104.4%,这是不可能的,因为得率总是小于100%的。显然,模型(1.2)和(1.3)是最简单的情形,实际情况是多种多样的,例如X和Y之间可能有非线性回归关系,或其它相关关系。这些将在以后讨论。现在我们来介绍因素间交互作用的概念。首先,设有两个因素A和B它们各取两个水平和。这时共有四种不同的水平组合,其试验

14、结果列于图1。当时,变到使Y增加30-10=20;类似地,当时,变到使Y也增加40-20=20。这就是说A对Y的影响与B取什么水平无关。类似地,当B从变到时,Y增加20-10(或40-30=10),与A取的水平无关。这时,我们称A和B之间没有交互作用。判断和之间有没有交互作用,选用图2的作图方法更为直观。当图中的两条线平行时(或接近平行时),判断A和B之间没有交互作用.图3和图4给出了一个有交互作用的例子,它们的含意和作图方法与图1和图2是一样的。交互作用在实际中是大量存在的,例如化学反应中催化剂的多少与其它成分的投入量通常是有交互作用的。水中各种金属含量太多,对人体健康会造成危害,金属之间对

15、人体的危害也存在交互作用(参见例5)。当因素A,B 及其它们的试验指标Y都为连续变量时,可以建立Y和A;B之间的回归方程。若回归方程为 (1.5)时,A对Y的影响由回归系数完全决定,不受B取哪个水平的影响;类似地,B对Y的影响由回归系数完全决定,不受A取哪个水平的影响;类似地,对的影响由回归系数 完全 决定,不受取哪个水平的影响。这时A和B没有交互作用。当A和B之间有交互作用时,回归模型不可能为线性的,其中一定有非线性的。最常见的模型之一为 (1.6)其中为回归系数,为随机误差。这时若0,称A和B之间有正交互作用;若0,称A和B之间有负交互作用.请看如下两个例子 当A=3.5,B=4.10时,

16、相应两个回归方程的试验指标列于图5和图6。我们看到两种情形均有交互作用,且一个为正交互作用,另一个为负交互作用。 两个因素之间有交互作用时,其回归模型不一定呈(1.6)形式,更详细讨论可参见第二章第三节。多个因素之间(超过二个因素)也可能有交互作用,该问题也将在第二章讨论。1.4 全面试验和多次单因素试验在一项试验中,当因素和水平确定后,如何设计该项试验呢?下面两种方法是最容易想到的:1、全面试验该方法将每一个因素的不同水平组合做同样数目的试验,例如将每个因素的不同水平组合均作一次试验。在一项试验中若有m个因素, 它们各有个水平, 则全面试验至少需做次试验。例如,在例1中,则全面试验至少做次试

17、验。当因素的个数不多,每个因数的水平数也不多时,人们常用全面试验的方法,并且通过数据分析可以获得较为丰富的结果,结论也比较精确。当因数较多,水平数较大时,全面试验要求较多的试验。例如,有六个因素,每个因素都是五水平,则至少需次试验,这个数目太大了,对绝大多数场合,做这么多次试验是不可能的。因此,我们需要一种试验次数较少,效果又与全面试验相近的试验设计方法。2、多次单因素试验这个方法在工程和科学试验中常被人们所采用,现以例1来说明这个方法。例1试验的目的是要寻找好的工艺使得化学反应后的得率最高。为介绍简单计,设试验误差较小,故不作重复试验(即在同一试验条件下将试验重复多次)。设先将时间和加碱量固

18、定,变化温度,试验结果如下: B90分 80 85 90 C5% 33% 70% 64% 其中33%,70%和 64%为得率,三次试验中,以70%为最高,故温度85为最佳。第二步固定温度和加碱量,变化时间,其试验结果如下: A=85 90分 120分 150分 C=5% 70% 73% 59%以反应时间为120分最佳。下一步是固定时间和温度,变化加碱量,获得如下结果: A85 5% 6% 7% B120分 73% 75% 68%以加碱量 75%为最佳,于是有人就得出结论:最佳工艺为A80,B120分,C6%。当因素之间没交互作用时,这个结论是正确的;当因素之间有交互作用时,该结论一般不真,今设

19、例 1的因素间有交互作用,在上述试验的基础上,若我们固定B120分,C6%,变化因素 A并获得如下结果:B120分 80 85 90 C6% 46% 75% 78%发现有更好的工艺条件。这时我们发现温度的效应是依赖于因素B和C的,当B90分,C5%时,温度以85为佳,而当B120分,C6%时,温度以90为佳,这种现象表明温度和其他两因素间有交互作用。当因素间有交互作用时,用上述方法不一定能选到最好的工艺条件。例如,例1的试验应当继续按原来的方法做下去:A90 90分 120分 150分C6% 73% 78% 84%发现工艺条件A90, B120分,C6%为最优工艺条件且似乎已不能改进。如果我们

20、将27个工艺组合进行全面试验,发现当工艺条件为A90,B150分,C7%时得率可达82%,而这个工艺条件没有为上面的试验方法所发现。因此,多次单因素试验法有局限性。特别是,当因素的数目和水平数更多时,常常会得到错误的结论,不能达到预期的目的。1.5 正交试验法(正交设计)这是目前最流行,效果相当好的方法。统计学家将正交设计通过一系列表格来实现,这些表叫做正交表。例如表2就是一个正交表,并记为,这里“L”表示正交表“9”表示总共要作9次试验,“3”表示每个因素都有3个水平,“4”表示这个表有4列,最多可以安排4个因素。常用的二水平表有三水平表有四水平表有;五水平表有等。还有一批混合水平的表在实际

21、中也十分有用,如 等。例如表示要求做16次试验,允许最多安排三个“4”水平因素,六个“2”水平因素。 表2正交表 L9 (34 )No.1234111112122231333421235223162312731228321393321若用正交表来安排例1的试验,其步骤十分简单,具体如下: (1)选择合适的正交表。适合于该项试验的正交表有等,我们取,因为所需试验数较少。 (2)将A,B,C三个因素放到的任意三列的表头上,例如放在前三列。 (3)将A,B,C三例的“1”,“2”,“3”变为相应因素的三个水平。 (4)9 次试验方案为:第一号试验的工艺条件为A1 (80),B1 (90分),C1 (

22、5%);第二号试验的工艺条件为A1 (80),B2 (120分),C2 (6%)。这样试验方案就排好了。该例的进一步讨论请参考文献25。 表 3正交试验方案No.ABC18090分5%280120分6%380150分7%48590分6%585120分7%685150分5%79090分7%890120分5%990150分6%在表3的正交试验设计中,可以看到有如下的特点: 1)每个因素的水平都重复了3次试验;2)每两个因素的水平组成一个全面试验方案。这两个特点使试验点在试验范围内排列规律整齐,有人称为“整齐可比”。另一方面,如果将正交设计的9个试验点点成图(图7),我们发现9个试验点在试验范围内散

23、布均匀,这个特点被称为“均匀分散”。正交设计的优点本质上来自“均匀分散,整齐可比”这两个特点。有关正交设计的详细讨论可参看文献2426,30。1.6 均匀设计每一个方法都有其局限性,正交试验也不例外,它只宜于用于水平数不多的试验中。若在一项试验中有s 个因素,每个因素各有q 水平,用正交试验安排试验,则至少要作个试验,当q 较大时,将更大,使实验工作者望而生畏。例如,当 q=12 时,=144,对大多数实际问题,要求做144 次试验是太多了!对这一类试验,均匀设计是非常有用的。所有的试验设计方法本质上就是在试验的范围内给出挑选代表点的方法。正交设计是根据正交性准则来挑选代表点,使得这些点能反映

24、试验范围内各因素和试验指标的关系。上节我们提及正交设计在挑选代表点时有两个特点:均匀分散,整齐可比。“均匀分散”使试验点有代表性;“整齐可比”便于试验数据的分析。为了保证“整齐可比”的特点,正交设计必须至少要求做q2次试验。若要减少试验的数目,只有去掉整齐可比的要求。均匀设计就是只考虑试验点在试验范围内均匀散布的一种试验设计方法,其原理将在第三章给出。 均匀设计和正交设计相似 ,也是通过一套精心设计的表来进行试验设计的。附录给出了41个均匀设计表和相应的使用表。表4、表5和表6就是其中的三个。每一个均匀设计表有一个代号或,其中“U”表示均匀设计,“n” 表示要做n 次试验,“q”表示每个因素有

25、q个水平,“s”表示该表有s列。的右上角加“*”和不加“*”代表两种不同类型的均匀设计表。通常加“*”的均匀设计表有更好的均匀性,应优先选用。例如表示要做次6试验,每个因素有6个水平,该表有4列。每个均匀设计表都附有一个使用表,它指示我们如何从设计表中选用适当的列,以及由这些列所组成的试验方案的均匀度。表7是的使用表。它告诉我们,若有两个因素,应选用1,3两列来安排试验;若有三个因素,应选用1,2,3三列,最后1列D表示刻划均匀度的偏差(discrepancy),偏差值越小,表示均匀度越好。例如由附录A1.3和A1.4的两个均匀设计表和及它们的使用表来安排试验,今有两个因素,若选用的1,3列,

26、其偏差D=0.2398,选用的1,3列,相应偏差D=0.1582,后者较小,应优先择用。有关D的定义和计算将在第三章介绍。当试验数n给定时,通常表比表能安排更多的因素。故当因素s较大,且超过的使用范围时可使用表。表4 1234112362246533624441535531266541表5 123411236224653362444153553126654177777如上所述,表最多可以安排四个因素的试验。若用正交表安排三个6水平因素,至少要采用,该表最多能安排三个因素,可要做36次试验,而两个表的偏差一个为0.1875,另一个为0.1597(参见表23),相差并不十分大。由此例可见均匀设计的

27、优点。表6 123411357226263317544444557136626277531表7 的使用表S列号D2130.187531230.2656412340.2990 均匀设计有其独特的布(试验)点方式,其特点表现在:1)每个因素的每个水平做一次且仅做一次试验。2)任两个因素的试验点点在平面的格子点上,每行每列有且仅有一个试验点。如表的第一列和第三列点成图8(a). 性质1)和2)反映了试验安排的“均衡性”,即对各因素,每个因素的每个水平一视同仁。 3)均匀设计表任两列组成的试验方案一般并不等价。例如用的1,3 和1,4列分别画图,得图8(a)和图8(b)。我们看到,(a)的点散布比较均

28、匀,而(b)的点散布并不均匀。均匀设计表的这一性质和正交表有很大的不同,因此,每个均匀设计表必须有一个附加的使用表。4)当因素的水平数增加时,试验数按水平数的增加量在增加。如当水平数从9水平增加到10水平时,试验数n 也从9增加到10。而正交设计当水平增加时,试验数按水平数的平方的比例在增加。当水平数从9到10时,试验数将从81增加到100。由于这个特点,使均匀设计更便于使用。均匀设计表还有一些其它的特点,在第三章将进一步介绍。1.7均匀设计表的使用本节介绍如何利用均匀设计表来安排试验。其步骤和正交设计很相似,但也有一些不同之处。通常有如下步骤:1)根据试验的目的,选择合适的因素和相应的水平。

29、2)选择适合该试验的均匀设计表,然后根据该表的使用表从中选出列号,将因素分别安排到这些列号上,并将这些因素的水平按所在列的指示分别对号,则试验就安排好了。例2 (本例来自文献1)在阿魏酸的合成工艺考察中,为了提高产量,选取了原料配比(A)、吡啶量(B)和反应时间(C)三个因素,它们各取了7个水平如下:原料配比(A):1.0,1.4,1.8,2.2,2.6,3.0,3.4吡啶量(B)(ml):10,13,16,19,22,25,28反应时间(C)(h):0.5,1.0,1.5,2.0,2.5,3.0,3.5根据因素和水平,我们选取均匀设计表或。由它们的使用表中可以查到,当s=3时,两个表的偏差分

30、别为0.2132和0.3721,故应当选用来安排该试验,其试验方案列于表8。该方案是将A,B,C分别放在表的后3列而获得的。表8 制备阿魏酸的试验方案和结果No.配比(A)吡啶量(B)反应时间(C)收率(Y)11.0(1)13(2)1.5(3)0.33021.4(2)19(4)3.0(6)0.33631.8(6)25(6)1.0(2)0.29442.2(1)10(1)2.5(5)0.47652.6(5)16(3)0.5(1)0.20963.0(6)22(5)2.0(4)0.45173.4(7)28(7)3.5(7)0.482表9 制备阿魏酸的试验方案和结果No.配比(A)吡啶量(B)反应时间(

31、C)收率(Y)11.0(1)13(2)1.5(3)0.33021.4(2)19(4)3.0(6)0.33631.8(3)25(6)1.0(2)0.29442.2(4)10(1)2.5(5)0.47652.6(5)16(3)0.5(1)0.20963.0(6)22(5)2.0(4)0.45173.4(7)28(7)3.5(7)0.482由于表是最近由方开泰和李久坤14获得的,故文献1使用的是均匀设计表,他们的试验方案列于表9。根据试验方案进行试验,其收率(Y)列于表9的最后一列,其中以第7号试验为最好,其工艺条件为配比3.4,吡啶量28ml,反应时间3.5h。下章将通过统计分析(其中最主要是回归

32、分析),可以发现更好的工艺条件。第二章 回归分析简介及其在均匀设计中的应用 回归分析是数据分析的有力工具,它能揭示变量之间的相互关系,因此在均匀设计的数据分析中成为主要的手段,回归分析方法和理论十分丰富,有关书籍数以百计,这里仅作一梗概介绍,细节可以参看有关书籍,如26,29,30数据处理可使用统计软件包SAS,SPSS,MINITAB,BMDP,S等,国内许多部门如中国均匀设计学会为均匀设计及其数据分析制作了专用统计软件包,使用更为方便。 2.1 一元线性回归模型 由于均匀设计的数据分析要利用回归分析,因此需要对回归分析作一扼要介绍。一元线性回归是处理两个变量之间关系的最简单的模型。本章将详

33、细讨论这个模型。一元线性回归虽简单,但从中可以了解回归分析方法的基本思想/方法和应用。 我们首先通过一个例子说明如何建立一元线性回归方程。 例3 为了估计山上积雪融化后对下游灌溉的影响,在山上建立了一个观测站,测量了最大积雪深度(X)与当年灌溉面积(Y),得到连续10年的数据于下页表中。 为了研究这些数据中所蕴含的规律性,我们把各年最大积雪深度作横坐标,相应的灌溉面积作纵坐标,将这些数据点标在平面直角坐标图上,如图9,这个图称为散点图。 从图9看到,数据点大致落在一条直线附近,这告诉我们变量X与Y之间的关系大致可看作是线性关系,从图9还看到,这些点又不都在一条直线上,这表明X与Y的关系并没有确

34、切到给定X就可以唯一地确定Y的程度。事实上,还有许多其他因素对Y产生影响,如当年的平均气温,当年的降雨量等等,这些都是影响Y取什么值的随机因素。如果我们只研究X与Y的关系,可以假定 年序最大积雪深度X(尺)灌溉面积Y(千亩)115.228.6210.419.3321.240.5418.635.6526.448.9623.445.0713.529.2816.734.1924.046.71019.137.4 有如下结构式: Y=+X+ (2.1)式中, 称为回归系数,X为自变量,Y为因变量,表示随机误差,常常假定遵从正态分布N(0,2),这表示误差为正和负的机会一样多,2 表示误差的大小。式中,2

35、 通常是未知的,它们要通过数据的信息来估计。 设(),i=1,n为一组数据,若用回归方程(2.1)来拟合,则当X=时的估计值为 (2.2) 自然,我们希望求和使与很接近.也就是说,我们要决定一条直线,使其与所有的点都比较接近,最流行求, 估计值的办法是用最小二乘法,令 (2.3)最小二乘法是求和使Q达极小,使Q达极小的和值记为a和b.利用微积分中求极值的办法求得 (2.4)式中 (2.5) 利用这些公式到例3,得 于是 b=415.606/230.656=1.802 a=36.53-1.80218.88=2.511从而回归方程为 读者试将该直线画在图9上,可以看到拟合的效果是不错的,衡量拟合效

36、果的好坏,如下的方法是十分有用的。 (a) 相关系数 相关系数 用于描叙变量X和Y的线性相关的程度,并常用r来表示,r的值介于-1,1之间,它的意义由图10可以知道。r的绝对值越接近于1表示X和Y之间的线性关系越密切;r0,两者呈正比关系,叫正相关;r 0两者呈负相关。r的值接近于0,两者没有线性相关关系。图10中(c)表示X和Y没有任何关系,(d)表示X和Y有非线性相关关系,r的计算公式为 (2.6)式中 (2.7)对例3 =764.861 r=415.605/ =0.9894 后者很接近于1,故最大积雪深度与灌溉面积有很密切的线性相关关系,且是正相关.但是,相关系数有一个缺点,就是它接近1

37、的程度与样本的组数n是有关的,当n较小时,相关系数的绝对值容易接近于1,当n较大时,相关系数的绝对值容易偏小。特别当n=2时,因为两点决定一条直线,所以相关系数的绝对值总为1,在许多统计书中29给出相关系数的起码值,当相关系数的绝对值大于表中之值时才可以认为X和Y有线性关系。此例当显著性水平=1%时,表中的起码值为0.765,今计算r=0.9894 0.765,故最大积雪深度与灌溉面积有高度的线性关系。在有些统计软件中,常给出,这时便于区别记为。 (b)方差分析和F检验 因变量的波动可用来表达,这个波动是由两个因素造成的;一个是X的变化引起Y相应的变化,另一个是随机误差。前者造成Y的波动可用回

38、归平方和来表达,后者用残差平方和来度量。它们分别用 和来表示,从数学上可以导出 - (2.8)当X和Y为线性回归模型(2.1)时,它们有如下更方便的计算公式 - (2.9) 利用统计量 F (2.10)可以来检验回归方程(2.1)是否可信.当方程可信时F ,这里为F表中的临界值,1和n-2为自由度,为显著水平.对例3可以算得 =1.802415.606=748.922 =764.961-748.922=16.039 F=8748.922/16.039=373.55当=1%时。用F值和F表上的临界值相比,若F ,表明Y的变化主要是由X的变化造成的,回归方程(2.1)可信;若F值小于,回归方程不可

39、信。可信的程度也可分成不同等级,在本书中,=5%时可信用“*” 表示,=1%时可信用“*” 表示。上述计算结果常列成方差分析表,如表10所示。表10 方差分析表 方差来源平方和自由度均方F显著性回归748.9221748.922373.550*误差16.03982.005总和764.9619 (c) 残差分析称为残差,它能提供许多有用的信息,表11给出了例3的10个残差,利用残差可以提供如下信息: 表11 预报和残差表 No.No.129.90-1.30645.21-0.21221.00-1.70726.812.39340.71-0.21832.601.50435.99-0.39945.760.94550.08-1.181036.920.48 (i)之估计 (2.11)给出了回归方程的精度,它称为残差标准差,若随机误差遵从正态分布N(0,),则Y的预报落在之内的概率大约为95%,对例3可以算得=1.416,且10个均落于21.416之内。 (ii)数据和模型之诊断 由残差之大小,可以发现异常(或叫离群)数据,可以发现模型(2.1)是否合适,是否要用非线性回归模型等,这些已形成一整套理论,称为回归诊断,有兴趣的读者可参见文献31。2.2多元线性回归模型 当影

展开阅读全文
相关资源
猜你喜欢
相关搜索

当前位置:首页 > 其他


经营许可证编号:宁ICP备18001539号-1