样本均数的抽样误差与置信区间.doc

上传人:啊飒飒 文档编号:11466664 上传时间:2021-08-06 格式:DOC 页数:7 大小:481.50KB
返回 下载 相关 举报
样本均数的抽样误差与置信区间.doc_第1页
第1页 / 共7页
样本均数的抽样误差与置信区间.doc_第2页
第2页 / 共7页
样本均数的抽样误差与置信区间.doc_第3页
第3页 / 共7页
样本均数的抽样误差与置信区间.doc_第4页
第4页 / 共7页
样本均数的抽样误差与置信区间.doc_第5页
第5页 / 共7页
点击查看更多>>
资源描述

《样本均数的抽样误差与置信区间.doc》由会员分享,可在线阅读,更多相关《样本均数的抽样误差与置信区间.doc(7页珍藏版)》请在三一文库上搜索。

1、第三章 样本均数的抽样误差与置信区间 联系:数据/变量在离散点或区间上分布分布特征数应用样本数据x 频数分布表频数分布图描述指标()参考值范围随机变量X ,误差概率分布表概率分布图总体参数() ()置信区间3.1 样本均数的分布从同一总体中独立抽取多份样本, 他们的均数常大小不一, 这说明样本均数存在变异。通过电脑实验来认识样本均数的变异规律一、正态总体样本均数的分布实验3.1 从正态分布总体抽样的实验 假定正常男子的红血球计数服从正态分布N(4.6602, 0.57462),随机抽取1000份样本, 每份含n5个个体。样本均数依然是一个随机变量, 且 (1) 各样本均数未必等于总体均数(,误

2、差?); (2) 样本均数之间存在差异(,变异); (3) 样本均数的分布很有规律,围绕着总体均数,中间多、两边少, 左右基本对称(对称、正态?); (4) 样本均数的变异范围较原变量变异范围大大缩小(); (5) 随着样本量的增大, 样本均数变异范围逐渐缩小()。图3.1 从正态分布总体抽样的实验结果原正态总体N(4.6602, 0.57462);直方图是样本均数的分布(Luo: 这里横坐标为,若改为便是误差分布图的形状不变)3.74.14.54.95.35.73.74.14.54.95.35.73.74.14.54.95.35.7n=5 n=10 n=30(a) (b) (c)表3_2实3

3、_1a 表3.1 从N(4.6602, 0.57462)中随机抽样, 样本量为5, 100份独立样本的均数、标准差和总体均数的95%置信区间(单位:1012 /L)样本号均数标准差95%置信区间样本号均数标准差95%置信区间15.00.56884.2939, 5.7062514.48.40063.9827, 4.977324.72.34704.2891, 5.1509524.32.54873.6388, 5.001234.24.57633.5246, 4.9554534.88.37324.4167, 5.343444.64.59493.9014, 5.3786544.68.35244.2425

4、, 5.117554.60.40054.1028, 5.0972554.80.58664.0717, 5.528364.80.81863.7837, 5.8163564.52.35044.0850, 4.955074.68.45024.1211, 5.2389574.88.68694.0272, 5.732884.32.82253.2989, 5.3411584.80.52324.1505, 5.449594.72.59643.9796, 5.4604594.80.27944.4531, 5.1469104.40.44963.8418, 4.9582604.76.58234.0371, 5.4

5、830114.60.56833.8944, 5.3056614.76.70833.8807, 5.6394124.60.34014.1778, 5.0222624.12.57933.4008, 4.8392134.60.66483.7746, 5.4254634.72.44194.1714, 5.2686144.76.62743.9811, 5.5389644.44.28184.0902, 4.7898154.20.68863.3451, 5.0549654.921.02673.6454, 6.1947164.64.30914.2562, 5.0238664.80.71913.9073, 5.

6、6927174.96.42234.4357, 5.4843674.72.43614.1786, 5.2614184.96.40834.4532, 5.4669684.84.58734.1109, 5.5691194.68.58753.9506, 5.4094694.36.48923.7527, 4.9673204.84.53404.1771, 5.5030704.76.33534.3437, 5.1763214.92.28524.5659, 5.2741714.40.43093.8650, 4.9350224.60.45174.0392, 5.1608724.68.68803.8259, 5.

7、5341234.44.43333.9021, 4.9779734.60.43014.0661, 5.1339244.96.37114.4993, 5.4207744.48.64113.6841, 5.2759254.64.47424.0513, 5.228775*4.16.39273.6724, 4.6476264.96.53494.2959, 5.6241764.52.54873.8388, 5.2012274.48.47783.8868, 5.0732774.36.39303.8721, 4.8479284.68.38184.2061, 5.153978*5.04.20524.7853,

8、5.2947294.68.62893.8992, 5.4608794.56.99633.3231, 5.7969305.28.64674.4771, 6.0829804.80.62434.0249, 5.5751314.84.67244.0053, 5.674781*4.00.20903.7405, 4.2595324.52.32034.1224, 4.9176824.64.34144.2162, 5.0638334.76.58414.0348, 5.4852835.04.40504.5372, 5.5428344.48.20844.2213, 4.7388844.52.53533.8555,

9、 5.1845355.04.66464.2149, 5.8651854.44.32764.0333, 4.8467364.56.39124.0743, 5.0457864.60.37974.1287, 5.0713374.68.51834.0366, 5.3234874.48.28014.1322, 4.8278384.80.74453.8758, 5.7242884.64.24734.3330, 4.9471394.72.72603.8187, 5.621389*5.32.39824.8256, 5.8144404.68.85673.6165, 5.7435904.92.34734.4888

10、, 5.3512414.561.02413.2887, 5.8313914.72.29414.3548, 5.0852424.76.67863.9175, 5.6025924.44.42733.9096, 4.9704435.04.51764.3974, 5.6826934.48.35944.0338, 4.9262444.52.36584.0659, 4.9741944.92.44564.3668, 5.4732454.52.59443.7821, 5.2580954.64.47584.0494, 5.2306464.72.50244.0963, 5.3437964.76.85163.702

11、7, 5.8173475.12.63544.3312, 5.9088974.64.45604.0739, 5.2061484.76.58374.0354, 5.4846984.36.33683.9419, 4.778149*4.04.35953.5937, 4.4863994.56.61973.7907, 5.3293504.52.60943.7634, 5.27661004.60.45664.0331, 5.1669* 由这份样本估计的95%置信区间实际上并未复盖总体均数图3_1 表3.2 从N(4.6602, 0.57462)中随机抽取1000份独立样本, 其均数的频数分布组段下限(101

12、2 /L)频数频率(%)累积频率(%)3.60- 1 0.1 0.13.80- 5 0.5 0.64.00- 32 3.2 3.84.20-11711.715.54.40-22922.938.44.60-30430.468.84.80-21821.890.65.00- 76 7.698.25.20- 15 1.599.75.40- 3 0.3 100.0合计1000100.0理论上可以证明, 从正态分布N(m, s2)的总体中随机抽取含量为n的样本,其样本均数N(m, s2 /n)。样本均数的标准差习惯上又称为样本均数的标准误(standard error),简称标准误。值得注意的是如下的普遍

13、规律:或 (3.1) 实际应用中往往总体标准差s未知, 人们只能用样本标准差S代替s,从而获得的估计值,则有 (3.2) 为方便计,可称为理论标准误,为样本标准误。二、非正态总体样本均数的分布实验3.2 从正偏峰的分布总体抽样的实验(1) 随着样本量的增大, 样本均数分布的对称性逐渐改善, 样本量为30时, 样本均数的分布接近正态分布; (2) 随着样本量的增大, 样本均数的变异范围逐渐变窄。1234578n=5(b)123456789n=10(c)123456789n=20(d)123456789n=30(e)图3.2 从正偏峰的分布总体分布抽样实验的结果(a)是原分布,正偏峰;其它为不同样

14、本含量时样本均数的直方图123456789(a)实验3.3 从不对称钩形分布的总体抽样的实验 图3.3(a): (1) 样本均数分布再不象个钩子, 样本量很小时就象正态分布了; (2) 随着样本量的增大, 样本均数的变异范围也逐渐变窄。以上两项实验的结果具有普遍性。理论上可以证明, 非正态总体样本均数的分布并不是正态分布;但当样本量较大时(例如,n30), 样本均数的分布接近正态分布。图3_1123456789n=5(b)123456789n=10(c)123456789n=20(d)123456789n=30(e)图3.3 从不对称钩形分布总体抽样实验的结果(a)是原分布,呈钩形;其它为不同

15、样本含量时样本均数的直方图123456789(a)3.2 t分布一、标准正态离差和标准t离差 标准正态离差便服从标准正态分布, 记为(3.3) 若s未知,用样本标准差S代替s,以代替它们不尽相同,即有变异,因而比多了一种与自由度有关的变异。W.S.Gosett于1908年用笔名Student研究了它的分布规律, 称之t分布, 记为, v=n-1(3.4) 不妨称为标准t离差(standard t deviate)。n(读作nunju:)是t分布的自由度,不同的自由度对应于不同的t分布曲线。二、t分布的图形与t分布表实验3.1(续) 标准正态离差和标准t离差 对前述实验3.1所得1000份随机样

16、本分别计算标准正态离差和标准t离差, 并绘制相应的直方图, 如图3.4(a)和(b)所示。本书附表5给出了t分布的双侧尾部面积和对应的t界值。对应于同样大小的尾部面积a,t界值比正态分布界值要大。-5-3-10135(a)-5-3-10135(b)图3.4 从N(4.6602,0.57462)中随机抽取1000份独立样本,n=5(a)样本均数的标准正态离差的直方图;(b)样本均数的标准t离差的直方图图3.5 标准正态分布和t分布的图形=时的t分布即标准正态分布012345-1-2-3-4-50.00.10.20.30.4n=3n=1n= (标准正态分布)3.3 正态分布总体均数的置信区间95%

17、置信区间:设N(m, s2 ), m和s未知,由t分布面积规律可知:-t0.05t0.05(3.3) 经移项化简,可改写为(3.4) 置信程度为95%;换言之,这样估计100次,约有95次正确。应用公式为(, ),或(3.5) (1-a)置信区间:(, )(3.6) 可称为置信区间的精度,它等于置信区间宽度的一半,意指置信区间的两端点离样本均数有多远。表3_1 实验3.1(续) 置信区间与置信水平 对于前述从正态总体随机抽取的每一份样本均可按(3.5)式各计算总体均数的一个95%置信区间。表3.1的第4列给出了由前100份样本作出的的95%置信区间。不难发现, 多数区间(95个)覆盖了总体均数

18、4.6602, 但第49, 75, 78, 81和89号这5个样本算出的区间却“扑空”了,即这样的区间估计95%正确,5%错误。换言之,当我们依据一个样本均数,对总体均数只作一次区间估计时,其置信度为95%。例3.1 从某类患者中随机抽取20例, 其血沉(mm/h)的均数为9.15, 标准差为2.13。假定该类患者的血沉值服从正态分布, 试估计总体均数的95%置信区间和99%置信区间。解 =9.15, s=2.13, n=20, =10.15和8.15 =10.51和7.78置信水平由95%提高到99%, 置信区间便由窄变宽, 估计的精度下降。若既要提高置信水平, 又要估计的精度好, 就必须缩

19、小s或加大n。s反映客观存在的个体差异, 通常无法缩小, 但加大样本量是行之有效的办法。3.4 两正态总体均数之差的置信区间设有标准差相等而均数不等的两个正态总体N(m1, s2)和N(m2, s2),均未知。N(m1,s2/n1), N(m2, s2/n2),仍服从正态分布()N(m1-m2, s2(1/n1 +1/n2 )(3.7)()N(m1-m2, )(3.7) 的标准正态离差服从标准正态分布, 即 N(0, 1)(3.8) N(0, 1)(3.8) Luo: 如果m1=m2,N(0, 1)(假设检验)现s2未知,服从t分布。即的标准t离差 t分布,v=n1+n2(3.9) t分布,v

20、=n1+n2(3.9) 其中, Sc2称为两样本的合并方差:Sc2 =(3.10) Sc2的自由度为S12和S22的自由度之和, (n1 -1)+(n2 -1)= n1+n2-2, 因而, t分布的自由度也是n1n22。以下公式不讲解了:t0.05 t0.05(3.11)(3.12)(-)-t0.05,(-)+t0.05)(3.13)( ),( )+)(3.14)例3.2 某地随机抽取40岁正常男子20名和40岁正常女子15名, 测定红细胞计数, 男女样本均数和样本标准差分别为 =4.66, s1 =0.47和=4.18, s2 =0.45, 试计算40岁正常男女红细胞计数总体均数之差的95%

21、置信区间。(单位: 1012 /L)解 例3.3 假定某地健康成年男女的红细胞计数(1012 /L)分别服从均数不等、标准差相等的二个正态分布。现有男女各一份随机样本, 样本量n1=300, n2=250, 均数和标准差分别为 =4.66, s1 =0.47和 =4.18, s2 =0.39。试估计男女红细胞计数的总体均数之差的95%置信区间。解 3.5 二项分布总体概率以及概率之差的置信区间1. 二项分布总体概率的置信区间 大样本时,利用P近似地服从正态分布的性质进行估计。(3.15) 其中,为样本频率。 利用(3.6)式, 我们有总体概率p的(1-a)置信区间为(,)(3.16) 2. 二

22、项分布总体概率之差的置信区间 也近似地服从正态分布, 即(3.17)其中p1和p2为样本频率的观察值。据此, 总体概率之差p1-p2的(1-a)置信区间为,(3.18)例3.4 某医院将病情类似的病人随机分成两组。第一组48人, 用A药治疗, 30人痊愈;第二组45人, 用B药治疗, 20人痊愈。试分别计算两种药总体治愈概率的95%置信区间以及两种药总体治愈概率之差的95%置信区间。解 3.6 估计置信区间所需的样本量一、正态总体均数置信区间的样本量 (3.6)式可见 (, ) 给定置信水平(1-a)、置信区间的精度(记为, 念delta)和样本标准差的粗略估计值(仍记为s), 便可估算所需的

23、样本量。由解出n, 并以标准正态分布的za作为ta的近似值, 便有(3.19) 例3.5 由预调查得知正常人群中某生化指标的标准差约为10个单位, 欲使总体均数的95%置信区间宽度之一半为2.5个单位, 约需多大样本量?解 s=10,d=2.5, z0.052, n=(2102.5) 2 =64,所需样本量约64二、二项分布总体概率置信区间的样本量 解出n, (3.20) 例3.6 由预调查得知某病在一年内复发的概率约为10%, 欲通过调查进一步估计一年内复发概率的95%置信区间, 要求区间宽度之一半为3%, 约需多大样本量?解 p=10%, z0.052, n=(2/0.03) 2 (0.1) (1-0.1) = 400, 约需调查400名病人。

展开阅读全文
相关资源
猜你喜欢
相关搜索

当前位置:首页 > 科普知识


经营许可证编号:宁ICP备18001539号-1