正态分布参考值抽样误差.PPT.ppt

资源描述

《正态分布参考值抽样误差.PPT.ppt》由会员分享，可在线阅读，更多相关《正态分布参考值抽样误差.PPT.ppt（61页珍藏版）》请在三一文库上搜索。

1、正态分布 Normal distribution,例某地用随机抽样方法检查了140名成年男子的红细胞数，检测结果如表21,正态分布和医学参考值范围,某地140名正常男子红细胞数频数表,直方图,f(x)=(fi/n),以频率为纵坐标,随着组段不断分细和观察人数的增多，直条顶端将逐渐接近于一条光滑的曲线，如下图。这条曲线称为频率密度曲线，呈中间高、两边低、左右对称，形状似座钟。类似于数学上的正态分布曲线。因为频率的总和等于1，故横轴上曲线下的面积等于1。,频率密度 f(x)=(fi/n)/i,（i0.1）,这条所描述的分布，便近似于我们通常所说的正态概率分布，简称正态分布。,正态分布是自然界最

2、常见的一种分布，例如，测量的误差、人体的身高、体重、许多生化指标的值（例如血压、血红蛋白含量、红细胞数等等）等都属于正态分布或近似正态分布。还有些偏态资料可经数据转换成正态或近似正态分布，例如抗体滴度、血铅值等。,一、正态分布的密度函数,式中为总体均数，为总体标准差，为圆周率，e为自然对数的底，x为变量，当、已知，以x为横轴，f(x)为纵轴，即可给出正态分布曲线的图形。,二、正态分布的特征 1.正态分布在横轴上方，均数处最高，以均数为中心，左右对称。 2.正态分布的X取值范围理论上没有边界，X离越远，f(X)值越接近0，但不会等于0。 3.正态分布曲线下的面积分布有一定的规律。,所有的正态分

3、布曲线，在左右任意个标准差范围内面积相同。,4.正态分布完全由两个参数即均数与标准差决定，其中是位置参数，是变异参数。常用N(,2 )来表示。,0、1的标准正态分布,标准正态分布曲线及其面积分布,三、正态分布的应用不少医学现象服从正态分布或近似正态分布确定医学参考值范围质量控制图正态分布是很多统计方法的理论基础,医学参考值范围的估计,1. 医学参考值范围的概念指特定的“正常”人群的解剖、生理、生化指标及组织代谢产物含量等数据中大多数个体的取值所在的范围。 2. 医学参考值范围的确定要求确定研究总体，例如 “正常人”。选择足够数量的观察对象。统一测定方法，控制实验误差，保证数据的

4、可靠性。决定取单侧范围还是双侧范围值选择恰当的百分范围,医学参考值范围的估计,3. 医学参考值范围的计算方法,正态分布法百分位数法,正态分布法适用于正态或近似分布资料,式中为均数，s为标准差，u值可根据要求查表。,公式为：,常用的u界值,例,某地调查正常成年男子144人的红细胞数近似正态分布，得均数为5.38（1012/L）,标准差为0.44（1012/L），试估计该地成年男子红细胞数的95%参考值范围。,百分位数法: 适用于偏态分布资料,例如白细胞数的95参考值范围:因为白细胞数无论过高或过低均属异常，则分别计算P2.5和P97.5，这是双侧95参考值范围。,例某年某市调查了20

5、0例正常成人血铅含量（g/100g）如下，试估计该市成人血铅含量95医学参考值范围（用百分位数法计算）。,练习1：调查某地120名健康女性血红蛋白，直方图显示，其分布近似于正态分布，其血红蛋白平均值为117.4（g/L），标准差为10.2 （g/L），试估计该地健康女性血红蛋白的95医学参考值范围。,血红蛋白过高、过低均为异常，应按双侧计算：,一、均数的抽样分布与抽样误差,抽样研究的目的就是要用样本信息来推断总体特征。由于存在个体变异，样本均数（X）往往不等于总体均数（），因此抽样后各个样本均数也往往不等于总体均数，且各个样本均数间也不一定都相等。这种由抽样造成的样本均数与总体均数的差异或各

6、样本均数之间的差异称为抽样误差，抽样误差是不可避免的。,数值变量的参数估计,110名20岁健康男大学生的身高均数为172.73cm。,已知f110，fX19000，需要在该表中增加fx2栏，由第(3)、(4)栏相乘，再将该栏数据相加，将fX23283646代入公式,110名20岁男大学生的平均身高X172.73cm，标准差s4.09cm。,假设该110个身高数值作为假设的有限总体，即： 172.73cm， 4.09cm,现在从该总体中随机抽10个学生身高为1号样本。,计算得： X1=173.22cm s1=4.05cm,重复100次刚才的抽样，得到100个样本（每个样本含量均为10个），可算得

7、100个样本均数X。,各样本均数的均数X172.66 cm,172.73cm,样本均数的抽样分布具有以下特点：各样本均数未必等于总体均数；样本均数之间存在差异；样本均数的分布很有规律，围绕着总体均数，中间多、两边少，左右基本对称，也服从正态分布；样本均数的变异较之原变量的变异大大缩小。,总体均数为，标准差,样本1( ,s),样本2( ,s),样本3( ,s),样本m( ,s),抽样，样本量为n,根据正态分布原理，若随机变量X服从正态分布，则样本均数X也服从正态分布。,随机变量 X：N(, 2) 样本均数：N(, ),均数的标准误及计算反映均数抽样误差大小的指标是样本均数 X 的标准

8、差简称标准误（理论值），用表示，或SE、SEM。由于在实际抽样研究中往往未知，通常用某一样本标准差s来替代，得标准误的估计值 (通常也简称为标准误)，其计算公式为：,以1号样本 =173.22cm，s1=4.05cm为例：,均数的标准误及计算,一般情况下未知，常用估计抽样误差的大小,也即的估计值。,例 2000年某研究者随机调查某地健康成年男子27人，得到血红蛋白量的均数为125g/L，标准差为15g/L。试估计该样本均数的抽样误差。,将X=125g/L,s= 15g/L，n=27代入,例：已知 s6.85， n100 则样本均数的抽样误差为多少？,标准误的应用 1.反映样本均数的可

9、靠性；标准误反映抽样误差的大小。标准误大，表示抽样误差大，则样本均数估计总体均数的可靠性差。反之，标准误小，抽样误差小，样本均数估计总体均数的可靠性好。 2.估计总体均数的可信区间； 3.用于均数的假设检验。,二、总体均数的可信区间估计,即用样本指标（统计量）估计总体指标（参数）有两种常用方法：点估计和区间估计（一）点估计：样本均数（）就是总体均数的点估计值（）该法简单，但未考虑抽样误差，而抽样误差在抽样研究中是不可忽视的。,（二）区间估计：结合样本统计量和标准误可以确定一个具有一定可信度的包含总体参数的区间，该区间称为总体参数的1可信区间（confidence interval

10、,CI）,即按一定的概率估计未知总体均数的所在范围。习惯上用总体均数的95%(或99%)可信区间，表示该区间包含总体均数的概率为95%(或99%)，用此范围估计总体平均数，表示100次抽样中，有 95(99)次包含总体均数。,例如：总体均数的可信区间,（1）未知，但样本例数n足够大（如n 50），总体均数的1双侧可信区间为,总体均数95%的双侧可信区间为：,总体均数可信区间的计算,总体均数99%的双侧可信区间为：,例某市2000年随机测量了90名19岁健康男大学生的身高，其均数为172.2cm，标准差为4.5cm，试估计该市2000年19岁健康男大学生平均身高的95可信区间。,本例n90，

11、可按正态分布近似法计算,故该市2000年19岁健康男大学生平均身高的95可信区间为（171.3，173.1）cm。,t 分布,前面讲过，通过u变换，可将正态分布N(, 2)转换成标准正态分布N(0，1)。同样，若从正态分布N(, 2)总体中随机抽样并算得多个样本均数 ,它们仍服从总体均数为，总体标准差为的正态分布 N(, )，则服从,标准正态分布N(0，1)。在实际工作中，往往是未知，常用替代，即,这时，对正态变量X采取的不是u变换而是t变换了，t值的分布称为t分布。,1.单峰分布，以0为中心，左右对称； 2.t分布是一簇曲线，其形态变化与自由度的大小有关 n-1。越小，与的差别

12、越大，t值越分散，曲线的峰部越矮，尾部越粗。越大，t分布越接近于标准正态分布。,t分布的特征：,自由度分别为1、5、的t分布,由于t分布不是一条曲线，而是一簇曲线。因此，t分布曲线下面积的95%或99%界值不是一个常量，而是随着自由度大小而变化的。为便于使用，可根据t界值表查找。,（2）未知，且n较小时，,总体均数可信区间的计算,或简写为：,df5时，,若“砍去”t分布双侧尾部面积0.055，则有95的t值满足：,例已知某地27名健康成年男子的血红蛋白量的均数为125g/L，标准差为15g/L。试问该地健康成年男子的血红蛋白平均含量的95可信区间和99可信区间各是多少？,将X=125g/L,

13、s=15g/L，n=27代入同时查t界值表：t0.05/2,26=2.056, t0.01/2,26=2.779,练习1 要减小抽样误差，最切实可行的方法是。（1）增加样本例数（2）控制个体变异（3）遵循随机化原则（4）严格挑选观察对象,练习2 某地调查正常成年男子144人的红细胞数近似正态分布，得均数为5.381012/L,标准差为0.441012/L，试估计该该样本均数的抽样误差。,将s= 0.441012 ，n=144代入,练习3 某地抽得正常成人200名，测得其血清胆固醇的均数为3.64mmol/L，标准差为1.20mmol/L，试估计该地正常成人血清胆固醇均数的95CI。,本例虽未知，但n较大,该地正常成人血清胆固醇均数的95CI为3.473.81mmol/L。,

展开阅读全文