(抽样检验)样本均数的抽样误差与置信区间.docx

资源描述

《(抽样检验)样本均数的抽样误差与置信区间.docx》由会员分享，可在线阅读，更多相关《(抽样检验)样本均数的抽样误差与置信区间.docx（9页珍藏版）》请在三一文库上搜索。

1、第三章样本均数的抽样误差与置信区间联系：数据/变量在离散点或区间上分布分布特征数应用样本数据x频数分布表频数分布图描述指标(x , sx)参考值范围x 1.96Sx随机变量XX,误差x概率分布表概率分布图总体参数(,x) (,x)置信区间x 1.96Sx3.1样本均数的分布从同一总体中独立抽取多份样本，他们的均数常大小不一，这说明样本均数存在变异。通过电脑实验来认识样本均数的变异规律一、正态总体样本均数的分布实验3.1从正态分布总体抽样的实验假定正常男子的红血球计数服从正态分布N(4.6602, 0.57462),随机抽取1000份样本，每份含n=5个个体。样本均数依然是一个随机变量，且(1

2、)各样本均数未必等于总体均数(x ，误差？)；(2)样本均数之间存在差异(xa xb，变异)；(3)样本均数的分布很有规律，围绕着总体均数，中间多、两边少，左右基本对称(对称、正态？)(a)(b)(c)图3.1从正态分布总体抽样的实验结果原正态总体N(4.6602, 0.57462)；直方图是样本均数的分布:这里横坐标Xx改4(x) 1便是误差分布的形状不变)实3 1a表3.1从N(4.6602, 0.5746 2)中随机抽样，样本量为5, 100份独立样本的均数、标准差和总体均数的95%置信区间(单位：1012 /L)样本号均数标准差95%置信区间样本号均数标准差95%置信区间15.0

3、0.56884.2939, 5.7062514.48.40063.9827, 4.977324.72.34704.2891,5.1509524.32.54873.6388, 5.001234.24.57633.5246, 4.9554534.88.37324.4167, 5.343444.64.59493.9014, 5.3786544.68.35244.2425, 5.117554.60.40054.1028, 5.0972554.80.58664.0717, 5.528364.80.81863.7837, 5.8163564.52.35044.0850, 4.955074.68.45024

4、.1211,5.2389574.88.68694.0272, 5.732884.32.82253.2989, 5.3411584.80.52324.1505, 5.449594.72.59643.9796, 5.4604594.80.27944.4531,5.1469104.40.44963.8418, 4.9582604.76.58234.0371,5.4830114.60.56833.8944, 5.3056614.76.70833.8807, 5.6394124.60.34014.1778, 5.0222624.12.57933.4008, 4.8392134.60.66483.7746

5、, 5.4254634.72.44194.1714, 5.2686144.76.62743.9811,5.5389644.44.28184.0902, 4.7898154.20.68863.3451,5.0549654.921.02673.6454,6.1947164.64.30914.2562,5.0238664.80.71913.9073,5.6927174.96.42234.4357,5.4843674.72.43614.1786,5.2614184.96.40834.4532,5.4669684.84.58734.1109,5.5691194.68.58753.9506,5.40946

6、94.36.48923.7527,4.9673204.84.53404.1771,5.5030704.76.33534.3437,5.1763214.92.28524.5659,5.2741714.40.43093.8650,4.9350224.60.45174.0392,5.1608724.68.68803.8259,5.5341234.44.43333.9021,4.9779734.60.43014.0661,5.1339244.96.37114.4993,5.4207744.48.64113.6841,5.2759254.64.47424.0513,5.228775*4.16.39273

7、.6724,4.6476264.96.53494.2959,5.6241764.52.54873.8388,5.2012274.48.47783.8868,5.0732774.36.39303.8721,4.8479284.68.38184.2061,5.153978*5.04.20524.7853,5.2947294.68.62893.8992,5.4608794.56.99633.3231,5.7969305.28.64674.4771,6.0829804.80.62434.0249,5.5751314.84.67244.0053,5.674781*4.00.20903.7405,4.25

8、95324.52.32034.1224,4.9176824.64.34144.2162,5.0638334.76.58414.0348,5.4852835.04.40504.5372,5.5428344.48.20844.2213,4.7388844.52.53533.8555,5.1845355.04.66464.2149,5.8651854.44.32764.0333,4.8467364.56.39124.0743,5.0457864.60.37974.1287,5.0713374.68.51834.0366,5.3234874.48.28014.1322,4.8278384.80.744

9、53.8758,5.7242884.64.24734.3330,4.9471394.72.72603.8187,5.621389*5.32.39824.8256,5.8144404.68.85673.6165,5.7435904.92.34734.4888,5.3512414.561.02413.2887,5.8313914.72.29414.3548,5.0852424.76.67863.9175,5.6025924.44.42733.9096,4.9704435.04.51764.3974,5.6826934.48.35944.0338,4.9262444.52.36584.0659,4.

10、9741944.92.44564.3668,5.4732454.52.59443.7821,5.2580954.64.47584.0494,5.2306464.72.50244.0963,5.3437964.76.85163.7027,5.8173475.12.63544.3312,5.9088974.64.45604.0739,5.2061484.76.58374.0354,5.4846984.36.33683.9419,4.778149*4.04.35953.5937,4.4863994.56.61973.7907,5.3293504.52.60943.7634,5.27661004.60

11、.45664.0331,5.1669*由这份样本估计的 95%置信区间实际上并未复盖总体均数三表3.2 从N(4.6602, 0.5746 2)中随机抽取1000份独立样本，其均数的频数分布组段下限(1012 /L)频数频率(%)累积频率()3.60-10.10.13.80-50.50.64.00-323.23.84.20-11711.715.54.40-22922.938.44.60-30430.468.84.80-21821.890.65.00-767.698.25.20-151.599.75.40-30.3100.0合计1000100.0 理论上可以证明，从正态分布 N( , 2)的总体

12、中随机抽取含量为n的样本，其样本均数XN( , 2 /n)。样本均数的标准差习惯上又称为样本均数的标准误(standarderror),简称标准误。值得注意的是如下的普遍规律：或 x /un(3.1) 实际应用中往往总体标准差未知，人们只能用样本标准差S代替，从而获得x的估计值Sx ,则有Sx S/ 而(3.2) 为方便计，可称x为理论标准误，Sx为样本标准误。二、非正态总体样本均数的分布实验3.2从正偏峰的分布总体抽样的实验(1)随着样本量的增大，样本均数分布的对称性逐渐改善，样本量为30时，样本均数的分布接近正态分布；(2)随着样本量的增大，样本均数的变异范围逐渐变窄。(a)(c)123

13、456789(d)n=30rk(a)n=20(c)n=30L123456789(d)123456789(e)123456789 (e)图3.2从正偏峰的分布总体分布抽样实验的结果(a)是原分布，正偏峰；其它为不同样本含量时样本均数的直方图实验3.3从不对称钩形分布的总体抽样的实验图3.3(a):(1)样本均数分布再不象个钩子，样本量很小时就象正态分布了；(2)随着样本量的增大，样本均数的变异范围也逐渐变窄。以上两项实验的结果具有普遍性。理论上可以证明，非正态总体样本均数的分布并不是正态分布；但当样本量较大时(例如,n30),样本均数的分布接近正态分布。山图3.3从不对称钩形分布总体抽样实验的

14、结果(a)是原分布，呈钩形；其它为不同样本含量时样本均数的直方图3.2 t分布、标准正态离差和标准t离差标准正态离差便服从标准正态分布，记为X(3.3)XN(0,1)若未知，用样本标准差S代替，Sx以代替 x它们不尽相同,即Sx有变异，因而(X)/Sx比(X )/ x多了一种与自由度有关的变异。W.S.Gosett于1908年用笔名Student研究了它的分布规律，称之t分布，记为X，八七 t分布, v=n-1(3.4)Sx (X)/sx不妨称为标准 t离差(standard t deviate)。 (读作nunju:)是t分布的自由度，不同的自由度对应于不同的t分布曲线。二、t分布的图形

15、与t分布表实验3.1(续)标准正态离差和标准t离差对前述实验3.1所得1000份随机样本分别计算标准正态离差和标准t离差，并绘制相应的直方图，如图3.4(a)和(b)所示。本书附表5给出了 t分布的双侧尾部面积和对应的t界值。对应于同样大小的尾部面积，t界值比正态分布界值要大。图3.4从N(4.6602,0.57462)中随机抽取1QQQ份独立本本，n=5(a)样本均数的标准正态离差的直方图；(b)样本均数的标准t离差的直方图0.40.30.20.10.0-5-4-3-2-1012345图3.5 标准正态分布和t分布的图形V =8时的t分布即标准正态分布3.3正态分布总体均数的置信区间95%

16、置信区间：设N( , 2 ),和未知，由t分布面积规律可知：-t0.05 -t0.05(3.3)Sx 经移项化简，可改写为Xt0.05Sx V w Xt。.05sx(3.4)置信程度为95%;换言之，这样估计100次，约有95次正确。应用公式为(xt0.05Sx , xt0.05Sx ),或 xt0.05Sx(3.5) (1-)置信区间:(3.6)(X t Sx, x t Sx) t sx可称为置信区间的精度，它等于置信区间宽度的一半，意指置信区间的两端点离样本均数x有多远。表3_1实验3.1（续）置信区间与置信水平对于前述从正态总体随机抽取的每一份样本均可按（3.5）式各计算总体均数

17、科的一个95%置信区间。表3.1的第4列给出了由前100份样本作出的科的95%置信区间。不难发现，多数区间（95个）覆盖了总体均数4.6602,但第49, 75, 78, 81和89号这5个样本算出的区间却“扑空” 了，即这样的区间估计95%正确，5%错误。换言之，当我们依据一个样本均数，对总体均数只作一次区间估计时，其置信度为95%。例3.1 从某类患者中随机抽取20例，其血沉（mm/h）的均数为9.15,标准差为2.13。假定该类患者的血沉彳1服从正态分布，试估计总体均数的 95%置信区间和99%置信区间。解 x =9.15, s=2.13, n=20,x t0.05s/n 9.15 2

18、.093（2.13）/J20 =10.15 和 8.15x t0.01s/4n 9.15 2.861（2.13）/J20 =10.51 和 7.78置信水平由95%提高到99%,置信区间便由窄变宽，估计的精度下降。若既要提高置信水平，又要估计的精度好，就必须缩小s或加大no s反映客观存在白个体差异，通常无法缩小，但加大样本量是行之有效的办法。3.4两正态总体均数之差的置信区间设有标准差相等而均数不等的两个正态总体N( 1, 2)和N( 2, 2),(T均未知。X XiN( 1, 2/n1), X2-N( 2,2/n2), X1 X2仍服从正态分布(X1 Xz)-N( 1- 2, 2(

19、1/n1 +1/n2 )(3.7)(X1 X2)N( 1- 2,x1x2)(3.7) X1 X 2的标准正态离差服从标准正态分布，即(X1 X2) ( 12)(X1X2)( 12)N(0, 1)(3.8)x1 x2(3.8)-/3 N(0, 1)(1/n1 1/n2)(X 1 X 2) x1 x2现2未知，服从t分布。即X1 X2的标准t离差(X1 X2) ( 12)，尢,2L t 分布，v=n 1+n 29)，Sc2(1/n11/e(X1 X2)( 12)乙t 分布，v=n1+n2(3.9)Sx1 x2其中，Sc2称为两样本的合并方差:_ 2_ 2(3.10)Sc2 =(n1-1)S1(n2

20、-1)S2n1 n2- 2Sc2的自由度为Si2和S22的自由度之和,(ni -i)+(n 2 -1)= n i+n2-2, 因而，t分布的自由度也是ni + n2 2。以下公式不讲解了：t0.05 & (X1 X2)( 12)W too5(3.11)2,Sc (1/n1 1/n2)(X1 X2) MSc2(1/n1 1包产 1 2 (% X2) 35e2(1/5 1/%)(3/2)(X1 -2X)-t0.05 ;sc2(1/n1 1/n2), ( X1-2x)+t 0.05,sc2(1/n1 1/n2)(3.13)、2 _(X1 x2 )- t Sc (1/n11/n2)，2(X1 X2 )

21、+t Sc (1/r)1 1/%)(3.14)例3.2 某地随机抽取40岁正常男子 20名和40岁正常女子15名，测定红细胞计数，男女样本均数和样本标准差分别为x1=4.66, S1 =0.47和X2=4.18, S2 =0.45,试计算40岁正常男女红细胞计数总体均数之差的95%置信区间。(单位：1012 /L)例3.3假定某地健康成年男女的红细胞计数(1012 /L)分别服从均数不等、标准差相等的二个正态分布。现有男女各一份随机样本，样本量n1=300, n2=250,均数和标准差分别为x1 =4.66, S1=0.47和女2 =4.18, S2 =0.39。试估计男女红细胞计数的总体均

22、数之差的95%置信区间。3.5二项分布总体概率以及概率之差的置信区间1 .二项分布总体概率的置信区间大样本时，利用P近似地服从正态分布的性质进行估计。PN(p,p(1 p)/n)(3.15)其中，p为样本频率。利用(3.6)式，我们有总体概率的(1-)置信区间为(p z Jp(1 p)/n, p z p(1 p)/n)(3.16)2 .二项分布总体概率之差的置信区间 P1 P2也近似地服从正态分布，即P1 P2N( 12,r(1 R)/n1 p2(1 p2)/n2)(3.17)其中p1和p2为样本频率的观察值。据此，总体概率之差1- 2的(1- )置信区间为(pp?) zR(1 p1)/r1

23、1 p2(1 pz)/国，(p p2) Z .R(1 )/%p2(1 pa)/%)(3.18)例3.4 某医院将病情类似的病人随机分成两组。第一组48人，用A药治疗，30人痊愈；第二组 45人，用B药治疗，20人痊愈。试分别计算+种药总体治愈概率的95%置信区间以及两种药总体治愈概卜之差的 95%置信区间。3.6估计置信区间所需的样本量一、正态总体均数置信区间的样本量 (3.6)式可见(X t Sx, x t Sx)给定置信水平(1-卜置信区间的精度(记为8 ,念delta)和样本标准差的粗略估计值(仍记为s),便可估算所需的样本量。由解出n,并以标准正态分布的 z作为t的近似值，便有n (

24、z s/ )2例3.5 由预调查得知正常人群中某生化指标的标准差约为10个单位，欲使总体均数的95%置信区间宽度之一半为2.5个单位,约需多大样本量？解 s=10, =2.5, z 0.05= 2, n=(2 便/2.5) 2 =64,所需样本量约 64二、二项分布总体概率置信区间的样本量z . p(1 p)/n解出n,，、2，、n (z / ) p(1 p)(3.20)例3.6由预调查得知某病在一年内复发的概率约为10%,欲通过调查进一步估计一年内复发概率的95%置信区间，要求区间宽度之一半为3%,约需多大样本量？解 p=10%, z 0.05=2, n=(2/0.03) 2 (0.1) (1-0.1) = 400, 约需调查400名病人。

展开阅读全文