第四总体均数与总体率的估计研.ppt

上传人:本田雅阁 文档编号:2630535 上传时间:2019-04-24 格式:PPT 页数:87 大小:2.94MB
返回 下载 相关 举报
第四总体均数与总体率的估计研.ppt_第1页
第1页 / 共87页
第四总体均数与总体率的估计研.ppt_第2页
第2页 / 共87页
第四总体均数与总体率的估计研.ppt_第3页
第3页 / 共87页
亲,该文档总共87页,到这儿已超出免费预览范围,如果喜欢就下载吧!
资源描述

《第四总体均数与总体率的估计研.ppt》由会员分享,可在线阅读,更多相关《第四总体均数与总体率的估计研.ppt(87页珍藏版)》请在三一文库上搜索。

1、Chapter 6,总体均数与总体率的估计,随机抽样,总体,样本,统计推断,【例6-1】欲了解某地正常成年男性血清胆固醇的平均水平,某研究者在该地随机抽取正常成年男性120名,得其血清胆固醇的均数为3.86mmol/L,标准差为1.73 mmol/L,据此认为该地正常成年男性血清胆固醇的平均水平为3.86 mmol/L。以样本均数3.86mmol/L来代表该地区正常成年男性血清胆固醇的平均水平是否合适,为什么?,第一节 抽样误差与标准误,【例6-2】假设已知某地正常成年男性红细胞数的均值为5.001012/L,标准差为0.431012/L。现从该总体中进行随机抽样,每次抽取10名正常成年男子,

2、并测得他们的红细胞数,抽取100份样本,计算出每份样本的均数。每个样本均数是否都恰好等于总体均数,各样本均数是否相等?,均数的抽样误差(sampling error),抽样误差:由于个体变异的存在,在抽样研究中产生的样本统计量和总体参数之间的差异 各种参数都有抽样误差,这里我们以均数为研究对象,原因:个体变异抽样 表现:样本均数和总体均数间的差别、样本均数和样本均数间的差别 抽样误差是不可避免的,但抽样误差有自己的规律,样本均数的分布和标准误,当固定样本含量n从同一总体中随机抽取多个样本时,样本均数间存在差异,那么这些样本均数的分布是怎样的呢? 能否用某个指标来描述它们之间的变异?,图6-1

3、100个样本均数的频数分布图,样本统计量的标准差称为标准误(standard error) 样本均数的标准差称为均数的标准误(SEM),用 表示 说明样本均数围绕总体均数的离散程度,可用来反映样本均数的抽样误差大小,中心极限定理,从正态总体 N (, 2) 中,随机抽取例数为 n 的样本,样本均数也服从正态分布;即使从偏态总体随机抽样,当 n 足够大时(n 50),样本均数近似正态分布,从均数为,标准差为 的正态或偏态总体中,抽取例数为 n 的样本,样本均数的总体均数也为 ,标准差与原标准差成正比,与样本例数的平方根成反比, 常未知,用 s 估计,因此均数标准误的估计值为 实际应用中,若标准差

4、固定不变,可通过增加样本含量n来减少抽样误差,4.标准误的计算,【例】随机抽取某市200名7岁男童的身高均数为124.0cm,标准差为4.6cm,估计抽样误差的大小, 意义不同: 标准差:表示观测值的变异程度 标准误:反映抽样误差的大小 用途不同: 标准差:确定医学参考值范围 标准误:用于统计推断(参数估计、假设检验) 公式不同:,标准差与标准误的区别,第二节 t 分布,t 分布的演化,常未知,若用 ,这时对样本均数进行的不是 z 变换而是 t 变换,统计量 t 不再服从N(0,1)标准正态分布,英国统计学家 William Sealey Gosset 于1908年以 “Student” 笔名

5、发表论文,证明统计量 t 服从v = n-1的t分布,又称为Student t分布 (Students t-distribution),t 分布的图形及特征,t 分布的特征为: 以0为中心,左右对称的单峰分布 越小,t值越分散,峰越矮,尾越高 增大,t分布逐渐逼近z分布, 时,t分布即为z分布,t 界值表,横标目:自由度 纵标目:概率 P (曲线下面积) 表中数字:自由度为 ,概率P 为时,所对应的 t 界值,记为t,单侧: 或 双侧: 即,在相同自由度时,t 的绝对值越大,P 越小 在相同 P 值时,自由度越大所对应的 t 界值越小 在相同 t 值时,双侧概率 P 为单侧概率 P 的两倍 时

6、,t界值即为z界值,第三节 总体均数的估计,统计推断(statistical inference),统计推断是指如何抽样,以及如何用样本性质推断总体特征 参数估计(parameter estimation) 假设检验(hypothesis testing),参数估计,点估计(Point Estimation) To use a number to estimate the parameter. 区间估计(Interval Estimation) To obtain a range so as to include the parameter.,点估计的缺陷,区间估计的实质 假设某个总体的均数为

7、,需要找到两个量A和B,使得在一个比较高的可信度下 (如95%),区间(A,B)能包含 。即 P(A B)=0.95,可信区间的定义 按一定的概率或可信度(1-)估计包含未知总体参数的可能范围,该范围通常称为参数的可信区间或者置信区间(confidence interval,CI),预先给定的概率(1-)称为可信度或者置信度 (confidence level),常取95%或99% 可信区间(CL, CU )为开区间,CL、CU 称可信限,总体均数可信区间的计算,当已知,2.5%,2.5%,95%,未知但n足够大(n50),例6-3中,因n=120 , , ,试求该地正常成年男性 血清胆固醇平

8、均水平的95可信区间。,即(3.55,4.17)mmol/L,当未知n 较小,单侧可信区间和双侧可信区间,单侧可信区间的计算,例 随机抽取罐装牛肉10听,亚硝酸盐含量均数为17.6mg/kg,标准差1.64mg/kg,估计这批罐头的平均亚硝酸盐含量 单侧可信区间!(仅有上限有意义,不高于某一个数值) 上限为 故95%CI为低于18.55mg/kg,可信区间的涵义,从总体中作随机抽样,每个样本可以算得一个可信区间。如95%可信区间意味着做100次抽样,算得100个可信区间,平均有95个估计正确。在实际研究中,一般只进行一次抽样,算得一个可信区间,对于这个可信区间来说,我们有95%把握认为其包括了

9、总体均数,图6-5 从N(0, 1)中随机抽样算得的100个95可信区间(n=10),下列说法正确吗?,算得某95%的可信区间,则: 总体参数有95%的可能落在该区间 有95%的总体参数在该区间内 该区间包含95%的总体参数 该区间有95%的可能包含总体参数 该区间包含总体参数,可信度为95%, , ,可信区间的两个要素,可信度(Confidence):可靠性,即1-。一般取90%,95,可人为控制 精确性(Precision):区间的大小(区间的长度),越小越好 必须二者兼顾,均数的可信区间与参考值范围的区别,第四节 二项分布与Poisson分布,一、二项分布,对于n次独立的试验 ,如果每次

10、试验结果出现且只出现对立事件A与 之一,在每次试验中出现A的概率是常数(0 1) ,因而出现对立事件 的概率是1- ,则称这一串重复的独立试验为n重贝努利试验,简称贝努利试验(Bernoulli trial),【问题6-4】假设服用某药物后有10%的人出现过敏反应。若3人服药,出现0、1、2或3个人过敏的概率分别是多少?,组合(Combination):从n个元素中抽取x个元素组成一组(不考虑其顺序)的组合方式个数记为,牛顿二项展开式:,1.二项分布的概率函数,一般地,在一个n重贝努利试验中,令X表示事件A发生的次数,则随机变量X所有可能的取值为0, 1, 2, , n,且其概率函数为: 贝努

11、利试验序列中某一结果A出现次数的概率分布称二项分布(binomial distribution), 记为:,2.二项分布的图形,当=0.5时,分布对称;当 0.5,分布呈偏态;当0.5时分布呈负偏态;特别是当n值不是很大时,偏离0.5愈远,分布愈偏,随着n的增大,二项分布逐渐逼近正态分布。如 =0.30,n=5和n=10时,图形呈偏态,当n=30时,图形已接近正态分布。一般地说,如果n或n(1-)大于5时,常可用正态近似原理处理二项分布问题,3.1 二项分布的性质 :累积概率,(1)二项分布的概率之和等于1,(2)单侧累积概率,至多有m例阳性的概率(下侧累积概率),至少有m例阳性的概率(上侧累

12、积概率),3.2 二项分布的性质 :均数和方差,阳性结果发生数X的总体均数 总体方差 总体标准差,4. 二项分布的抽样分布及其性质,二项分布的随机抽样性质仍然被中心极限定理所反映 在n足够大时,样本率近似服从正态分布 样本率p的均数等于 样本率p的标准差(率的标准误),5. 二项分布的应用:区间估计,查表法,适用于n50时; 正态近似法,适用于n较大,p和1-p均不太小,如np和n(1-p)均大于5时。 此时总体率的1-可信区间如下,【例6-7】某医院应用氨苄青霉素治疗呼吸道感染,45例患者中有2例发生过敏反应。试估计过敏反应发生率的95%可信区间,查附表5(百分率的可信区间表),n=45的行

13、与X=2的列交叉处的数值为115, 即氨苄青霉素过敏反应发生率的95%可信区间为(1%,15%),【例6-6】某市疾控中心对该市郊区200名小学生进行贫血的检测,结果发现有80名小学生贫血,检出率为40.0%。试估计该区贫血发生率的95%可信区间,【例6-5】已知某地新生儿先天性心脏病的发病率为9,试计算该地100名新生儿中有3人患先天性心脏病概率。能否用前述二项分布进行计算?是否有更为简便的计算方法?,【例6-5】若用二项分布:,二、Poisson (泊松)分布,当二项分布中n很大,p很小时,二项分布就变为Poisson分布,Poisson分布实际上是二项分布的极限分布 法国数学家Simeo

14、n Denis Poisson (1781-1840) 1837年在关于判断的概率之研究一文中提出的描述随机现象的一种常用分布,Poisson分布也是一种重要的离散型概率分布,用于研究单位时间、单位人群、单位空间内,某稀有事件发生次数的分布 单位体积水中细菌数 单位体积空气中粉尘数 单位时间内放射性物质放射出的质点数 单位空间中某些昆虫数 一定人群中恶性肿瘤或罕见非传染性疾病患病数或死亡数,可以认为满足以下三个条件的随机变量服从Poisson分布: 平稳性:X的取值与观察单位的位置无关,只与观察单位的大小有关 独立性:在某个观察单位上X的取值与前面各观察单位上X的取值独立(无关) 普通性:在充

15、分小的观察单位上X的取值最多为1,1. Poisson分布的概率函数,若随机变量的概率函数为:,则称此变量服从Poisson分布,记为,【例6-5】中:,2. Poisson分布的累计概率,3. Poisson分布的图形,4.1 Poisson分布的性质 均数和方差,Poisson分布的均数和方差相等,均为 ;即,Poisson分布例,为监测饮用水的污染情况, 现检验某社区每毫升饮用水中细菌数 , 共得400份记录如下: 试分析饮用水中细菌数的分布是否服从Poisson分布。若服从,按Poisson分布计算每毫升水中细菌数的概率及理论频数,经计算得每毫升水中平均细菌数 ,方差 。两者很接近,

16、故可认为每毫升水中细菌数服从Poisson分布。以0.500代替,得 (k=0,1,2),1ml水中细菌数的分布,2002年韩日世界杯64场比赛中,各队进球数有多有少。大部分是0,1,2个进球,个别队是5个以上进球,最多的是8个进球,平均是1.2578个/场/队。虽然强队大都能进球、赢球(如巴西队),弱队大都不能进球(如中国队)。但宏观上来说,各队进球数服从Poisson分布!,平均计数为1.2578的Poisson分布,每场各队进球数 场次 理论数 0 37 36.39 1 47 45.77 2 27 28.78 3 13 12.07 4 2 3.79 5 1 0.95 6 1 0.25 1

17、28 128.00,4.2 Poisson分布中均数的抽样分布及其性质,在足够大时,Poisson分布的平均计数近似正态分布 平均计数的标准误 n=1时(1个单位),,4.3 Poisson分布的可加性,若X1服从Poisson(1), X2服从Poisson(2),X1+X2服从Poisson(1+ 2)。即Poisson分布具有可加性 注意: X1X2服从Poisson(1 2),5.1 平均计数的可信区间估计,总计数X较大时, 可用正态近似法: n个单位的总计数 X 50时 平均计数的 95%CI: n=1时:,例 n=一个单位时间(30分钟),X=360。 则30分钟该放射物质的平均脉

18、冲数的95%CI:,例 n=3个单位时间(一个单位时间10分钟),X=360。则10分钟该放射物质的平均脉冲数的95%CI:,总计数X较小时, 查表法(根据分布直接计算) n个单位的总计数 X 50时: n=1(一个标准单位) :X=8,(3.4, 15.8) n=3 (3个标准单位): X1=8, X2=10, X3=6, X=24。 先查X=24,得95%CI: (15.4,35.6),再除以3, 得: (5.13, 11.87),Poisson的平均计数的可信区间,95% 99% X2 0.2 7.2 0.19.3 X4 1.010.2 0.612.6 X6 2.213.1 1.515.6 X8 3.415.8 2.518.5 X10 4.718.4 3.721.3 X20 12.230.8 10.334.6 X30 20.242.8 17.747.2,THE END,

展开阅读全文
相关资源
猜你喜欢
相关搜索

当前位置:首页 > 其他


经营许可证编号:宁ICP备18001539号-1