物理,化学经济学实验课件3-3-11有限测定数据的统计处理.ppt

资源描述

《物理,化学经济学实验课件3-3-11有限测定数据的统计处理.ppt》由会员分享，可在线阅读，更多相关《物理,化学经济学实验课件3-3-11有限测定数据的统计处理.ppt（23页珍藏版）》请在三一文库上搜索。

1、,第十一讲第三章误差和分析数据和得理 11-1,3-4 有限测定数据的统计处理一、置信度与的置信区间日常分析中测定次数是很有限的，总体平均值自然不为人所知。但是随机误差的分布规律表明，测定值总是在以为中心的一定范围内波动，并有着向集中的趋势。因此，如何根据有限的测定结果来估计可能存在的范围（称之为置信区间）是有实际意义的。该范围愈小，说明测定值与愈接近，即测定的准确度愈高。但由于测定次数毕竟较少，由此计算出的置信区间也不可能以百分之百的把握将包含在内，只能以一定的概率进行判断。,第十一讲第三章误差和分析数据和得理 11-2,（一）已知总体标准偏差时对于经常进行测定的某种试样，由

2、于已经积累了大量的测定数据，可以认为是已知的。根据（3-14）式并考虑u的符号可得：（3-14a）由随机误差的区间概率可知，测定值出现的概率由u决定。例如，当u=1.96时。x在-1.96至+1.96区间出现的概率为0.95。如果希望用单次测定值x来估计可能存在的范围，则可以认为区间x1.96能以0.95的概率将真值包含在内。即有（3-14b）,第十一讲第三章误差和分析数据和得理 11-3,由于平均值较单次测定值的精密度更高，因此常用样本平均值来估计真值所在的范围。此时有,式（3-14b）和式（3-17）分别表示在一定的置信度时，以单次测定值x或以平均值为中心的包含真值的取值范围，即

3、的置信区间。在置信区间内包含的概率称为置信度，它表明了人们对所作的判断有把握的程度，用P表示。u值可由表3-1中查到，它与一定的置信度相对应。,(3-17),第十一讲第三章误差和分析数据和得理 11-4,在对真值进行区间估计时，置信度的高低要定得恰当。一般以95%或90%的把握即可。式（3-14b）和式（3-17）还可以看出置信区间的大小取决于测定的精密度和对置信度的选择，对于平均值来说还与测定的次数有关。当一定时，置信度定得愈大，u值愈大，过大的置信区间将使其失去实用意义。若将置信度固定，当测定的精密度越高和测定次数越多时，置信区间越小，表明x或越接近真值，即测定的准确度越高。例题

4、1：,第十一讲第三章误差和分析数据和得理 11-5,注意：是确定且客观存在的，它没有随机性。而区间xu或是具有随机性的，即它们均与一定的置信度相联系。因此我们只能说置信区间包含真值的概率是0.95，而不能认为真值落在上述区间的概率是0.95。（二）已知样本标准偏差S时在实际工作中，通过有限次的测定是无法得知和的，只能求出和S。而且当测定次数较少时，测定值或随机误差也不呈正态分布，这就给少量测定数据的统计处理带来了困难。此时若用S代替从而对作出估计必然会引起偏离，而且测定次数越少，偏离就越大。如果采用另一新统计量tP,f取代u(仅与P有关)，上述偏离即可得到修正。,第十一讲第三章

5、误差和分析数据和得理 11-5,t分布法：t值的定义： (3-18) t分布是有限测定数据及其随机误差的分布规律。t分布曲线见图3-6，其中纵坐标仍然表示概率密度值，横坐标则用统计量t值来表示。显然，在置信度相同时，t分布曲线的形状随f（f=n-1）而变化，反映了t分布与测定次数有关有实质。由图3-6可知，随着测定次数增多，t分布曲线愈来愈陡峭，测定值的集中趋势亦更加明显。当f时，t分布曲线就与正态分布曲线合为一体，因此可以认为正态分布就是t的极限。,第十一讲第三章误差和分析数据和得理 11-7,图3-6 t分布曲线,第十一讲第三章误差和分析数据和得理 11-8,与正态分布曲线一样，t

6、分布曲线下面某区间的面积也表示随机误差在此区间的概率。但t值与标准正态分布中的u值不同，它不仅与概率还与测定次数有关。不同置信度和自由度所对应的t值见表3-2中。,第十一讲第三章误差和分析数据和得理 11-9,表3-2 tP，f值表（双边） t 值 P 90% 95% 99% 99.5% f(n-1) 1 6.31 12.71 63.66 127.32 2 2.92 4.30 9.92 14.98 3 2.35 3.18 5.84 7.45 4 2.13 2.78 4.60 5.60 5 2.02 2.57 4.03 4.77 6 1.94 2.45 3.71 4.32 7 1.90 2.

7、36 3.50 4.03 8 1.86 2.31 3.35 3.83 9 1.83 2.26 3.25 3.69 10 1.81 2.23 3.17 3.58 20 1.72 2.09 2.84 3.15 30 1.70 2.04 2.75 (3.01) 60 1.67 2.00 2.66 (2.87) 120 1.66 1.98 2.62 2.81 1.64 1.96 2.58 2.81,第十一讲第三章误差和分析数据和得理 11-10,由表3-2中的数据可知，随着自由度的增加，t值逐渐减小并与u值接近。当f=20时，t与u已经比较接近。当f时，tu，S。在引用t值时，一般取0.95置信度

8、。根据样本的单次测定值x或平均值分别表示的置信区间时，根据t分布则可以得出以下的关系：（3-18a）或（3-19）,第十一讲第三章误差和分析数据和得理 11-11,式（3-18a）和式（3-19）的意义在于，真值虽然不为所知（也未知），但可以期望由有限的测定值计算出一个范围，它将以一定的置信度将真值包含在内。该范围越小，测定的准确度越高。例题2：式（3-19）是计算置信区间通常使用的关系式。由该式可知，当P一定时，置信区间的大小与tP,f、S、n均有关，而且tP,f与S实际也都受n的影响，即n值越大，置信区间越小。例3：二、可疑测定值的取舍平行测定的数据中，有时会出现一二个与其

9、结果相关较大的测定值，称为可疑值或异常值。对于为数不多的测定数据，可疑值的取舍往往对平均值和精密度造成相当显著的影响。,第十一讲第三章误差和分析数据和得理 11-12,对可疑值的取舍实质是区分可疑值与其它测定值之间的差异到底是由过失、还是随机误差引起的。如果已经确证测定中发生过失，则无论此数据是否异常，一概都应舍去；而在原因不明的情况下，就必须按照一定的统计方法进行检验，然后再作出判断。根据随机误差分布规律，在为数不多的测定值中，出现大偏差的概率是极小的，因此通常就认为这样的可疑值是由过失所引起的，而应将其舍去，否则就予以保留。（一）Q检验法将测定值由小至大按顺序排列，其中可疑值为x1

10、或xn。,第十一讲第三章误差和分析数据和得理 11-13,求出可疑值与其最邻近值之差xn-xn-1或x2-x1，然后用它除以极差xn-x1，计算出统计量Q：或（3-20） Q值越大，说明离群越远，远至一定程度时则应将其舍去。故Q称为舍弃商。根据测定次数n和所要求的置信度P查QP,n值表3-3。若QQP,n，则以一定的置信度弃去可疑值，反之则保留，分析化学中通常取0.90的置信度。,第十一讲第三章误差和分析数据和得理 11-14,表3-3 QP,n值表 n P 3 4 5 6 7 8 9 10 Q0.9 0.94 0.76 0.64 0.56 0.51 0.47 0.44 0.41

11、 Q0.95 0.97 0.84 0.73 0.64 0.59 0.54 0.51 0.49 如果测定数据较少，测定的精密度也不高，因Q与QP,n值接近而对可疑值的取舍难以判断时，最好补测1-2次再进行检验就更有把握。如果没有条件再做测定，则宜用中位数代替平均值报告结果。因是否取舍可疑值对平均值的影响较大，对中位值的影响较小。,第十一讲第三章误差和分析数据和得理 11-14,（二）格鲁布斯法将测定值由小至大按顺序排列，其中可疑值为x1或xn。先计算该组数据的平均值和标准偏差，再计算统计量G。若x1可疑，（3-21）若xn可疑，（3-21a）,第十一讲第三章误差和分析数据和得

12、理 11-16,根据事先确定的置信度和测定次数查表3-4。若GGP,n，说明可疑值对相对平均值的偏离较大，则以一定的置信度弃去可疑值，反之则保留。在运用格鲁布斯法判断可疑值的取舍时，由于引入了t分布中最基本的两个参数己和s，故该方法的准确度较Q法高，因此得到普遍采用。,第十一讲第三章误差和分析数据和得理 11-17,表3-4 GP,n值表测定次数置信度（P）测定次数置信度（P） n 95 99 n 95 99 3 1.15 1.15 12 2.29 2.55 4 1.46 1.49 13 2.33 2.61 5 1.67 1.75 14 2.37 2.66 6 1.82 1.9

13、4 15 2.41 2.71 7 1.94 2.10 16 2.44 2.75 8 2.03 2.22 17 2.47 2.79 9 2.11 2.32 18 2.50 2.82 10 2.18 2.41 19 2.53 2.85 11 2.23 2.48 20 2.56 2.88,第十一讲第三章误差和分析数据和得理 11-18,三、显著性检验用统计的方法检验测定值之间是否存在显著性差异，以此推断它们之间是否存在系统误差，从而判断测定结果或分析方法的可靠性，这一过程称为显著性检验。定量分析中常用的有t检验法和F检验法。（一）样本平均值与真值的比较（t检验法） t检验法用来检验样本平均值

14、或两组数据的平均值之间是否存在显著性差异，从而对分析方法的准确度作出评价。,第十一讲第三章误差和分析数据和得理 11-19,当检验一种分析方法的准确度时，采用该方法对某标准试样进行数次测定，再将样本平均值与标准值T进行比较。则置信区间的定义可知，经过n次测定后，如果以平均值为中心的某区间已经按指定的置信度将真值T包含在内，那么它们之间就不存在显著性差异，根据t分布，这种差异是仅由随机误差引起的。t可由下式计算： (3-22a) 若ttP,f，说明与T之差已超出随机误差的界限，就可以按照相应的置信度判断它们之间存在显著性差异。,第十一讲第三章误差和分析数据和得理 11-20,进行显著性检

15、验时，如置信度定得过低，则容易将随机误差引起的差异判断为显著性差异，如置信度定得过高，又可能将系统误差引起的不一致认同为正常差异，从而得出不合理的结论。在定量分析中，常采用0.95或0.90的置信度。 (二) 两组数据平均值之间的比较（F检验法和t检验法）（自学）在显著性检验中，将具有显著性差异的测定值在随机误差分布中出现的概率称为显著性水平，用表示，即这些测定值位于一定置信度所对应的随机误差界限之外。如置信度P=0.95，则显著水平=0.05，即=1-P。,第十一讲第三章误差和分析数据和得理 11-21,例1、用标准方法平行测定钢样中磷的质量分数4次，其平均值为0.087%。设系统误差

16、已经消除，且 =0.002%。（1）计算平均值的标准偏差；（2）求该钢样中磷含量的置信区间。置信度为P=0.95。解：（1）（2）已知P=0.95时，u=1.96。根据,第十一讲第三章误差和分析数据和得理 11-22,例2、标定HCl溶液的浓度时，先标定3次，结果为0.2001mol/L、0.2005mol/L和0.2009mol/L；后来又标定2次，数据为0.2004mol/L和0.2006mol/L。试分别计算3次和5次标定结果计算总体平均值的置信区间，P=0.95。解：标定3次时，标定5次时，,第十一讲第三章误差和分析数据和得理 11-23,例3、测定某试样中SiO2质量分数得s=0.05%。若测定的精密度保持不变，当P=0.95时，欲使置信区间的置信限，问至少应对试样平行测定多少次？解：根据式（3-19）和题设得：已知s=0.05%,故：查表3-2得知，当f=n-1=5时，t0.95,5=2.57，此时。即至少应平行测定6次，才能满足题中的要求。,

展开阅读全文