第二讲 卫生统计学 定量资料的统计描述【详版课资】.ppt

上传人:rrsccc 文档编号:10284429 上传时间:2021-05-05 格式:PPT 页数:58 大小:1.63MB
返回 下载 相关 举报
第二讲 卫生统计学 定量资料的统计描述【详版课资】.ppt_第1页
第1页 / 共58页
第二讲 卫生统计学 定量资料的统计描述【详版课资】.ppt_第2页
第2页 / 共58页
第二讲 卫生统计学 定量资料的统计描述【详版课资】.ppt_第3页
第3页 / 共58页
第二讲 卫生统计学 定量资料的统计描述【详版课资】.ppt_第4页
第4页 / 共58页
第二讲 卫生统计学 定量资料的统计描述【详版课资】.ppt_第5页
第5页 / 共58页
点击查看更多>>
资源描述

《第二讲 卫生统计学 定量资料的统计描述【详版课资】.ppt》由会员分享,可在线阅读,更多相关《第二讲 卫生统计学 定量资料的统计描述【详版课资】.ppt(58页珍藏版)》请在三一文库上搜索。

1、第二讲 定量资料的统计描述,主要内容,频数与频数分布 定量变量的特征数 常用统计图表,1,课堂优质,一、离散型定量变量的频数分布,二、连续型定量变量的频数分布,第一节 频数与频数分布,2,课堂优质,一、频数与频数分布,频数:对一个随机事件进行重复观察,其中某变量值出现的次数被称作频数(frequency)某个测量值的个(例)数。 (当汇总大量的原始数据时,把数据按类型分组,其中每个组的数据个数,称为该组的频数。) 频数表(频数分布):是用于反映各变量值及其相应频数之间的关系。(表示各组及它们对应的组频数的表格称为频数表或频数分布。),3,课堂优质,(一)离散型定量变量的频数分布,例2-1 19

2、98年某山区96名孕妇产前检查次数资料如下:0,3,2,0,1,5,6,3,2,4,1,0,6,5,1,3,3,4,7等共96个数值。,4,课堂优质,离散型定量变量的频数分布表,表2-1:96名妇女产前检查次数分布的频数分布表,5,课堂优质,离散型定量变量的频数分布图,6,课堂优质,(二)连续型定量变量的频数分布,例2-2 抽样调查某地120名18岁35岁健康男性居民血清铁含量(mol/L)。 将数据适当分组,计数每组的频数,根据这些数据编制成的频数分布表(表2-2)则能显示出这组数据分布的特点。,7,课堂优质,连续型定量变量的频数分布,原始数据,8,课堂优质,1、频数表的编制,(1)求全距

3、(R) : R = 最大值 最小值= 29.64-7.42=22.22(mol/L) (2)确定组数、组距:通常815组 计算组距(i) i=R/组数 相邻两组段下限值之差称组距。一般都用等距,且用全距的十分之一进行估计。 本例:22.2210=2.222,取整为2,该样本可分为12组。,9,课堂优质,频数表的编制,(3)确定组段:第一组段包括最小值,如本例为6.00;最后组段包括最大值,如本例28.0030.00(要求第一个组段的下限应略小于最小值,最后通一组要同时写出上下限。);尽量取较整齐的数值作为组段的端点;一般都用等距。 (4)列表划记:做出如表2-2的表格,将选好的组段顺序地列在

4、(1)列。将原始数据按照“下限x上限” 的原则确定每一例数据x应归属的组段。依次完成(2)(5)列的清点频数、计算频率、累计频数与累计频率等步骤,得如表2-1的频数表。,10,课堂优质,表2-2 120名18岁35岁健康男性居民血清铁含量(mol/L)。,11,课堂优质,2、频数分布图,在表2-2的基础上,可以绘制出图2-2,称为直方图(频率直方图)。 横轴:血清铁含量 纵轴:频率密度,即频率/组距(直条面积等于相应组段的频率)。 在组距相等时,直方图中矩形直条的高度与相应组段的频率成正比。,12,课堂优质,频数分布图,13,课堂优质,1、正态分布:图形高峰在中央,两边对称(或基本对称)地逐渐

5、减少,统计学上称之为正态分布或近似正态分布。 2、正偏态分布:高峰位于左侧,右侧的组段数多于左侧,如图2-3。 3、负偏态分布:高峰位于右侧,左侧的组段数多于右侧,如图2-1。 进行描述性统计时,需要根据数值的分布形态选择统计指标和相应的计算公式。,3、频数分布的类型,14,课堂优质,频数分布具有两个特征: 集中趋势(central tendency):变量值集中位置。如120名正常男子血清铁含量虽然高低不等,但向中间集中(18),中等的人数最多。 平均水平指标 离散趋势(tendency of dispersion):变量值围绕集中位置的分布情况。本例1424,共有89人,占74.2;离“中

6、心”位置越远,频数越小;且围绕“中心”左右对称。 变异水平指标,4、频数分布的特征,15,课堂优质,5、频数表的主要用途,(1)揭示分布类型; (2)便于发现特大值和特小值; (3)计算集中趋势指标与离散趋势指标; (4)作为陈述资料的形式,可以代替繁复的原始资料,便于进一步分析; (5)当样本含量比较大时,可用各组段的频率作为概率的估计值。如上述频数表 (2)栏的频数除以总例数即为第(3)栏的频率,由此可推测正常男子的血清铁含量出现在各组段的概率分别为0.0083、0.025、0.050、0.0083。,16,课堂优质,一、算术平均数,二、几何均数,三、中位数与百分位数,四、众数,五、调合均

7、数,第二节 集中趋势指标,17,课堂优质,集中趋势指标,平均指标又称平均数(average),是一类用于描述数值变量资料平均水平(或集中趋势)的指标。统计上的平均数一般包括5种,即算术平均数、几何平均数、中位数、众数以及调和均数。在医学研究上对于连续型定量变量,较常用的为算术平均数、几何平均数和中位数3种。,18,课堂优质,一、算术均数(均数),意义:一组性质相同的观察值在数量上的平均水平。(它是一组已知性质相同的数值之和除以数值个数所得的商。) 表示: (总体)、 (样本) 计算:直接法、间接法、计算机 特征: 估计误差之和为0。 应用:正态分布或近似正态分布 注意:合理分组,才能求均数,否

8、则没有意义。,19,课堂优质,(1)直接法:当观察例数不多(如样本含量n小于30)时,宜选择直接法。公式为:,例题:有5个自然数分别为1,2,3,4,5,求算术均数。 将5个自然数代入公式,得:,计算:,20,课堂优质,例2-3 测得8只正常大鼠血清总酸性磷酸酶(TACP)含量(U/L)为4.20,6.43,2.08,3.45,2.26,4.04,5.42,3.38。试求其算术均数。 算术均数=(4.20+6.43+2.08+3.45+2.26+4.04+5.42+3.38)/8=3.9075 (U/L),21,课堂优质,(2)加权法(weighted method):当观察例数很多可以用加权

9、法计算。,例题:利用下表的资料,用加权法计算120名成年18岁35岁健康男性居民血清铁含量(mol/L)算术均数,计算表如下:,首先将数据编制成频数表,得出每组的频数,求出组中值,代入下列公式,得到均数。,22,课堂优质,直接法均数=18.61(mol/L),23,课堂优质,二、几何均数(geometric mean,G),意义:N个数值的乘积开N次方即为这N 个数的几何均数。 表示:G 计算:,应用: 当一组观察值不呈正态分布、且其差距较大时,用均数表示其平均水平会受少数特大或特小值影响; 数值按大小顺序排列后,各观察值呈倍数关系或近似倍数关系。如抗体的平均滴度、药物的平均效价等。(适用于观

10、察值变化范围跨越多个数量级的资料,其频数图一般呈正偏态分布。) 计算几何均数的观察值不能小于或等于0,因为无法求对数。同一组数据的几何均数小于算术均数。,24,课堂优质,(1)直接法 当观察例数不多(如样本含量n小于30)时采用直接法计算:,例题:有5份血清的抗体滴度分别为1:10,1:100,1:1000,1:10000,1:100000,求平均抗体滴度。,将各抗体滴度的倒数代入公式,得:,血清的抗体平均效价为1:1000。,计算:,25,课堂优质,例2-5 7名慢性迁延性肝炎患者的HBsAg滴度资料为1:16,1:32,1:32,1:64, 1:64,1:128,1:512。试计算其几何均

11、数。,26,课堂优质,(2)加权法,例2-6 52例慢性肝炎患者的HBsAg滴度数据如表2-4。试计算滴度的几何均数。,计算公式为:,27,课堂优质,28,课堂优质,三、中位数、百分位数,意义: 中位数:将一组观察值从小到大排序后,居于中间位置的那个值或两个中间值的平均值。 百分位:把一组数据从小到大排列,分成100等份,各等份含1的观察值,分割界限上的值就是百分位数。 中位数是百分位的特殊形式。同样的例子还有四分位数、十分位数等。 表示:M 、 Px,29,课堂优质,计算:,应用: 任何分布的资料都可以用中位数反映平均水平; 资料一端或两端无确定数值; 对于资料的分布情况不清楚时。,30,课

12、堂优质,计算: (1)中位数的直接计算法 : 样本含量不大时使用。将观察值按大小顺序排列,当样本含量n为奇数时,位置居中的那个数值就是M;当n为偶数时,位置居中的两个数值的平均数就是M。,特点:仅仅利用了中间的12个数据,31,课堂优质,(2)中位数和百分位数的频数表计算法 当观察例数较多时采用。先将观察值编制成频数表,按所分组段由小到大计算累计频数和累计频率,找出中位数或百分位数所在的组,将该组段的下限(L)、组距(i)、频数(fx)和小于L的各组段累计频数(fL)代入下列公式即可求出中位数M和百分位数Px。,32,课堂优质,例2-8 试利用表2-2的频数表求例2-2中血清铁含量的中位数。

13、从表2-2可判断出位于“18-”这个组段。将相应数据代入式(2-8)该组血清铁资料的中位数为18.74(mol/L) 如果按(2-7)式计算,结果为18.99(mol/L)。,33,课堂优质,表2-2 120名18岁35岁健康男性居民血清铁含量(mol/L)。,34,课堂优质,四、众数,众数(mode):原指总体中出现机会最高的数值。样本众数则是在样本中出现次数最多的数值。,产前检查次数的众数为4次。,35,课堂优质,五、调合均数,调和均数(harmonic mean, H): 先求原始数据倒数的算术均数。该算术均数的倒数便称为原数据的调和均数。 计算公式:,例2-10 接受某种处理的5只小鼠

14、生存时间(分钟)分别为49.1、60.8、63.3、 63.6和63.6,试计算其调和均数。,36,课堂优质,一、全距,二、四分位数间距,五、方差和标准差,六、变异系数,三、离均差总和,四、离均差平方和,第三节 离散趋势特征数,37,课堂优质,平均水平指标仅描述了一组数据的集中趋势,可以作为总体的一个代表值。由于变异的客观存在,需要一类指标描述资料的离散程度。 观察两组数据: 甲组:4,5,6,7,8。n5; 6 乙组:2,5,6,7,10。n5; 6 两组资料的倒数和均数都相同,但它们的分布情况是不一样的,因此要全面描述这两组资料的特征,还需要有能表示其离散程度的指标。,38,课堂优质,例2

15、-11 试观察三组数据的离散状况。 A组:26,28,30,32,34; B组:24,27,30,33,36; C组:26,29,30,31,34。 三组数据个数都为5,均数都为30。 将三组数据分别点在直线上,如下图所示。,39,课堂优质,一、全距(range),1概念 全距用R表示,是一组资料最大值与最小值之差。 例2-11中三组数据的极差 A组 R=34-26=8 B组 R=36-24=12 C组 R=34-26=8 2含义 全距越大,离散程度越大;反之,全距越小,离散程度越小。,40,课堂优质,3、优缺点 优点:简单明了,容易理解,使用方便。 缺点: (1)仅考虑两端数据的差异,未考虑

16、其他数据的变异情况; (2)变量值个数不同时无意义(n大,R也会大); (3)不稳定,易受极端值的影响(抽样误差大)。,41,课堂优质,1概念 四分位数间距用Q表示,是上四分位数QU(P75)和下四分位数Q L(P25)之差。 如例:表22资料: QQU Q LP75 P2521.44 16.005.44(mol/L) 2含义 其值越大,说明变异程度越大;反之,值越小,离散程度越小。常常和中位数一起描述偏态分布资料的的分布特征。3优缺点:该指标比全距稍稳定,但仍未考虑每个观察值。,二、四分位数间距(quartile range),42,课堂优质,三、离均差总和,考虑到了每一个变量值的影响,但对

17、称分布的资料,由于正负相消,故离均差总和等于0。 如上例:三组数据的离均差总和均等于0。,43,课堂优质,四、离均差平方和 (sum of squares),如上例: A组=(26-30)2+(28-30)2+(30-30)2+(32-30)2+(34-30)2=40 B组=(24-30)2+(27-30)2+(30-30)2+(33-30)2+(36-30)2=90 C组=(26-30)2+(29-30)2+(30-30)2+(31-30)2+(34-30)2=34 和离均差总和一样,考虑到了每一个变量值的影响,而且克服了正负相消的缺点,但变量值个数不同时无意义。,44,课堂优质,为了能反映

18、每个观察值之间的离散情况,同时又能考虑到观察单位数多少的影响,可取离均差平方和的均数,简称方差(variance)。总体方差用2表示,样本方差用S2表示,公式分别为:,五、方差(variance),45,课堂优质,六、标准差(standard deviation),由于每一离均差都经过平方,使原来观察值的度量单位也都变为平方单位了。为了还原成为原来的度量单位,所以又将方差开平方,这就是标准差。,46,课堂优质,(1)小样本资料:,例题:有数据1,2,3,4,5,求其标准差。,标准差计算,47,课堂优质,例2-14 分别计算例2-11中三组数据的标准差。 A组: B组: C组: C组的标准差最小

19、,B组的最大。意味着C组数据的离散趋势最小,B组的最大,48,课堂优质,(2)大样本资料:对于大样本资料,可用频数表进行计算,公式为:,例题:根据下列频数表资料,计算140名成年男子红细胞数的标准差。计算表如下:,49,课堂优质,表2-2 120名18岁35岁健康男性居民血清铁含量(mol/L)。,50,课堂优质,方差和标准差的意义都是说明资料的变异程度,算出的值越大,说明变异程度越大。标准差愈小,说明观察值的离散程度愈小,从而也反映了用平均数反映平均水平,其代表性愈好。反之,平均数的代表性愈差。 (越大说明围绕均数越离散,反之说明较集中在均数周围,均数代表性越好),方差和标准差的含义:,51

20、,课堂优质,反映一组观察值的离散程度,标准差小,离散程度小,均数的代表性好; 用于计算变异系数; 计算标准误; 结合均值与正态分布的规律估计参考值的范围。,标准差用途:,52,课堂优质,六、变异系数,无单位(量纲) 应用:单位不同的多组数据比较 均数相差悬殊的多组资料,意义:标准差与均数之比用百分数表示。 符号: CV 计算:,53,课堂优质,1、比较均数悬殊的资料变异程度,例题:某地7岁男孩身高均数为121.16cm,标准差为4.31cm;胸围均数为57.71cm,标准差为2.82cm,比较身高和胸围的变异程度。,身高:,胸围:,说明胸围的变异程度大于身高。,54,课堂优质,2、比较度量衡单

21、位不同的资料变异程度,例题:通过十省调查得知,农村刚满周岁的女童体重均数为8.42kg,标准差为0.98kg;身高均数为72.4cm,标准差为3.0cm。试计算周岁女童身高与体重的变异系数。,体重:,身高:,说明体重的变异程度大于身高。,55,课堂优质,第四节 分布形态特征数,描述分布形态的统计量:偏度系数与峰度系数。 偏度系数 (coefficient of skewness,SKEW) :理论上总体偏度系数为0时,分布是对称的;取正值时,分布为负偏峰(态);取负值时分布为正偏峰(态)。 样本偏度系数计算公式:,56,课堂优质,峰度系数(coefficient of kurtosis,KUR

22、T),理论上,正态分布的总体峰度系数为0;取负值时,其分布较正态分布的峰平阔;取正值时,其分布较正态分布的峰尖峭。 样本峰度系数,57,课堂优质,小 结,1. 为了解定量变量的分布规律,可编制频数表并绘制频数分布(或频率分布)图,用于描述资料的分布特征(集中趋势与离散趋势),以及分布类型(对称或偏峰) 2. 描述性统计量可以用来定量地刻画统计分布的特征。常用的描述性统计量有三类:描述集中趋势的算术均数、几何均数、中位数;描述离散趋势的极差、四分位数间距、方差、标准差和变异系数;描述分布类型的偏度系数与峰度系数。 3. 百分位数是一种位置参数,既可用来描述集中趋势(P50),又可用来描述离散趋势(P75-P25)。可用于各种连续型分布。,58,课堂优质,

展开阅读全文
相关资源
猜你喜欢
相关搜索

当前位置:首页 > 社会民生


经营许可证编号:宁ICP备18001539号-1