计量资料统计(1)描述[骄阳书苑].ppt

上传人:rrsccc 文档编号:10060202 上传时间:2021-04-15 格式:PPT 页数:34 大小:836KB
返回 下载 相关 举报
计量资料统计(1)描述[骄阳书苑].ppt_第1页
第1页 / 共34页
计量资料统计(1)描述[骄阳书苑].ppt_第2页
第2页 / 共34页
计量资料统计(1)描述[骄阳书苑].ppt_第3页
第3页 / 共34页
计量资料统计(1)描述[骄阳书苑].ppt_第4页
第4页 / 共34页
计量资料统计(1)描述[骄阳书苑].ppt_第5页
第5页 / 共34页
点击查看更多>>
资源描述

《计量资料统计(1)描述[骄阳书苑].ppt》由会员分享,可在线阅读,更多相关《计量资料统计(1)描述[骄阳书苑].ppt(34页珍藏版)》请在三一文库上搜索。

1、第三章 数值变量资料的 统计描述,1,培训类别,第一节 数值变量资料的频数表,频数就是观察值的个数。频数分布就是观察值在其取值范围内分布的情况。要了解数值变量资料的分布规律,当观察单位较多时,可编制频数分布表(简称频数表)和绘制直方图。,2,培训类别,一、频数表(frequency table)的编制,1、找出观察值中的最大值(Max)、最小值(Min)和极差(R) R=MaxMin 2、确定组段数(即组数)、组距: 频数表一般设 8 15个组段。 组距(class interval) = R / 组段数。往往取近似值。 3、确定组段,列表划记: 每个组段的起点称下限,终点称上限。 第一组段要

2、包括最小值,最后一个组段要包括最大值。 各组段从本组段的“下限”开始,不包括本组段的“上限”,最末一组段应同时写出其上下限。,3,培训类别,例 2.1 某市1982年110名7岁男童的身高(cm)资料,112.4 117.2 122.7 123.0 113.0 108.2 118.2 108.2 118.9 118.1 123.5 118.3 120.3 116.2 114.7 119.7 114.8 119.6 113.2 120.0 119.7 116.8 119.8 122.5 119.7 120.7 114.3 122.0 117.0 122.5 119.8 122.9 128.0 1

3、21.5 126.1 117.7 124.1 129.3 121.8 112.7 120.2 120.8 126.6 120.0 130.5 120.0 121.5 114.3 124.1 117.2 124.4 116.4 119.0 117.1 114.9 129.1 118.4 113.2 116.0 120.4 112.3 114.9 124.4 112.2 125.2 116.3 125.8 121.0 115.4 121.2 117.9 120.1 118.4 122.8 120.1 112.4 118.5 113.0 120.8 114.8 123.8 119.1 122.8 1

4、20.7 117.4 126.2 122.1 125.2 118.0 120.7 116.3 125.1 120.5 114.3 123.1 122.4 110.3 119.3 125.0 111.5 116.8 125.6 123.2 119.5 120.5 127.1 120.6 132.5 116.3 130.8,4,培训类别,2.1 110名7岁男童身高(cm)频数表,5,培训类别,二、频数分布的两个特征,从频数表可以看出频数分布的两个重要特征: 集中趋势(central tendency):身高向中央部分集中,以中等身高者居多,是为集中趋势。 离散趋势(tendency of dis

5、persion):从中央部分到两侧频数分布逐渐减少,是为离散趋势。 集中和离散趋势是频数分布的两个重要侧面,其可较全面地分析所研究的事物。,6,培训类别,三、频数分布的类型:,对称分布:集中位置在正中左右两侧频数分布大体对称,如正态分布。 偏态分布:集中位置偏向一侧,频数分布不对称。 正偏态分布 负偏态分布 不同类型的分布,应采用相应的统计分析方法。,7,培训类别,四、频数表的用途:,1、揭示资料的分布特征和分布类型。 2、便于进一步计算指标和统计分析处理。 3、便于发现某些错误。,8,培训类别,第二节 集中趋势的描述,平均数(average)是用于描述一组同质的定量变量值集中趋势的一系列指标

6、,它反映一组变量值的平均水平。医学研究中常用的平均数有算术均数、几何均数、中位数。,9,培训类别,一、算术均数(简称均数mean),总体均数记作 ,样本均数记作 。 该指标适用于对称分布,尤其是正态或近似正态分布的资料。,10,培训类别,计算方法:,l 直接法:当观察单位的个数不多时可直接计算。公式为: l 加权法:当资料中相同观察值的个数较多时,可将相同观察值的个数,即频数f,乘以该观察值X,以代替相同观察值逐个相加。 加权法用于频数表资料时,式中,f为组段频数,x为组中值,组中值 = 。,11,培训类别,例 2.2 对表2.1资料用加权法求平均身高,计算方法如下: 表 2.2 110名7岁

7、男童身高均数的计算(加权法),12,培训类别,二、几何均数(geometric mean),记作G。 该指标适用于: 变量值呈等比级数关系的资料,如血清抗体滴度的资料; 对数正态分布的资料,即某些偏态分布的资料,当将变量值取对数后又呈现正态分布的资料。,13,培训类别,计算方法,l 直接法:当观察单位的个数不多时可直接计算。公式为: l 加权法:当资料中相同观察值的个数较多时,如频数表资料,可用下式计算:,14,培训类别,例2.4 40名麻疹易感儿接种麻疹疫苗后一个月,血凝抑制抗体滴度见表2.3 第(1)、(2)栏,求平均滴度。,表2.3 平均滴度的计算 lgG = 72.2471 /40 =

8、1.8064 G = lg-1 1.8064 = 64 即平均抗体滴度为1:64,抗体滴度,(,1,),人数,,f,(,2,),滴度倒数,,X,(,3,),lg,X,(,4,),flgX,(,5,),=,(,2,)(,4,),1,:,4,1,4,0.6021,0.6021,1,:,8,5,8,0.9031,4.5155,1,:,16,6,16,1.2041,7.2246,1,:,32,2,32,1.5051,3.0102,1,:,64,7,64,1.8062,12.6434,1,:,128,10,128,2.1072,21.0720,1,:,256,4,256,2.4082,9.6328,1,

9、:,512,5,512,2.7093,13.5465,合,计,40,72.2471,15,培训类别,计算几何均数应注意的问题,数据中不能有零; 数据中不能同时有正值和负值;但若均为负值时,可先去掉负号进行计算,再在计算结果上加上负号。,16,培训类别,三、中位数(median)和百分位数(percentile),中位数(median):将一组观察值由小到大顺序排列,位次居中的变量值即为中位数。记作M。 中位数适用于: 明显偏态分布; 总体分布型不明的资料; 开放型数据。,17,培训类别,中位数的计算方法,l直接法 :先将观察值按大小顺序排列,再按下式计算: n为奇数时 n为偶数时 l频数表法:

10、当观察值的个数较多时,可先将资料整理为频数表,再按下式计算: 式中,L 为中位数所在组段的下限; i为频数表中的组距; f 为中位数所在组段的频数; 为中位数所在组段以前的累积频数。,18,培训类别,例2.5 151例慢性胃炎患者住院时间如表2.4,求其平均住院天数。,表2.4 151例慢性胃炎患者住院时间的频数分布 平均住院天数为16.53天。,住院天数,0,15,30,45,60,75,90,105115,频,数,70,54,16,5,4,1,0,1,19,培训类别,百分位数(percentile):以Px表示 一个百分位数Px将总体或样本的全部观察值分成两部分,理论上有x%的观察值比它小

11、,有(100-x)%的观察值比它大,故百分位数是一个界值,也是分布数列的百等份分割值,P50分位数也就是中位数,因此,中位数是一个特定的百分位数。,20,培训类别,百分位数计算方法,计算公式: Px = L + i/fx ( nx% - fL ) 式中,L为Px所在组段的下限; i为频数表中的组距; fx为Px所在组段的频数; fL为Px所在组段以前的累积频数。,21,培训类别,例2.6 某市大气中SO2的日平均浓度(g/m3)见表2.5第(1)、(2)栏,分别求第25、75、95百分位数和中位数。,表2.5 某市大气中SO2日平均浓度的百分位数和中位数计算,22,培训类别,计算累计频数及累计

12、频率,见第(3)、(4)栏; P25 = 50 + 25/67(361 25% - 39) = 69.12 P75 = 125 + 25/45(361 75% - 233) = 145.97 P95 = 250 + 25/6(361 95% - 341) = 258.12 P50=M = 100 + 25/63(361/2 170) = 104.17,23,培训类别,四、平均数指标的正确应用,上述各平均数指标,均有其相应的适用条件,应依据资料分布类型和数据情况正确选用。一般情况下可通过对同一资料中几个指标间的关系,粗略判断资料的分布类型: 对称分布,尤其是正态分布资料中,均数与中位数相接近(即

13、 )。 偏态分布时,均数与中位数相差较大。对某一偏态分布资料,若其中位数与几何均数接近(即 ),则说明此资料为对数正态分布资料。 总之,对称分布(尤其正态或近似正态分)资料应首选均数;对数正态分布资料应首选几何均数;其它分布情况则使用中位数。,24,培训类别,第三节 离散程度的描述,集中趋势和离散趋势是频数分布的两个重要特征,要把两者结合起来才能全面地认识事物。,25,培训类别,离散趋势分析实例,例2.7 三组同性别、同年龄儿童的体重(Kg)如下,分析其集中趋势与离散趋势。 甲组 26 28 30 32 34 甲= 30 Kg 乙组 24 27 30 33 36 乙= 30 Kg 丙组 26

14、29 30 31 34 丙= 30 Kg 三组数据的集中位置都是30 Kg 。但三组数据的离散程度不同,这在分析资料时不能不加以考虑。说明离散程度的指标有极差、四分位数间距、方差、标准差、变异系数等,其中方差、标准差最为常用。,26,培训类别,一、极差(亦称全距range),它反映一组观察值的波动范围,记作R 。 该指标适用于任何分布类型的资料。但因其只受两侧极端值的影响,故反映一组观察值的变异程度时较粗糙。,27,培训类别,二、四分位数间距(quartile),四分位数间距(quartile)记作Q 。 公式表达为: Q = QU - QL 式中,QU为上四分位数,即P75; QL为下四分位

15、数,即P25。 四分位数间距可看成中间一半观察值的极差。它和极差类似,数值越大说明变异度越大。 如例2.6中,P25 = 69.12(g/m3),P75 = 145.97(g/m3),故其四分位间距为 Q = QU - QL = 145.97 69.12 = 76.85(g/m3) 该指标的适用条件同中位数,而且通常与中位数(亦称第50百分位数)结合,全面描述偏态及不明分布资料的特征。应用时需注意:当样本含量不够大时,该指标不够稳定,故不宜选用。,28,培训类别,三、方差(variance),总体方差记作2,样本方差记作S2。计算公式为: 该指标常在方差分析中应用。,29,培训类别,四、标准差

16、(standard deviation),将方差开平方即为标准差,总体标准差记作 ,样本标准差记作S。标准差的适用条件与均数相同,而且通常与均数结合全面描述正态或近似正态分布资料的特征。 标准差越大,说明变量值越分散,即变异度越大;反之,则说明变量值越集中,即变异度越小,此时样本均数对该组变量值的代表性就越好。,30,培训类别,样本标准差的计算,直接法: 求例2.7中甲、丙两组数据的标准差: 甲组 n = 5, X =26+28+30+32+34 = 150 X2 = 262+282+302+322+342 =4540 S = 3.16 丙组 n = 5 , X = 150 , X2 = 45

17、34 , S = 2.92(kg) 甲组体重的标准差 3.16 kg,大于丙组的 2.92 kg,可见甲组的变异度大于丙组,也就是甲组均数的代表性比丙组均数的代表性差。,31,培训类别,加权法: 例2.8 求表2.2中110名7岁男童身高的标准差。由表2.2,已知f = 110,fx = 13194,再由(3)、(4)栏相乘后求和,得fx2 =1584990 ,代入公式得 =4.72(cm),32,培训类别,五、变异系数(coefficient of variation),变异系数记作CV。 适用条件: 两观察指标单位不同。 单位相同但均数相差较大。 变异系数是相对数,没有单位。,33,培训类别,计算方法,例2.10 某地20岁男子100名,其身高均数为166.06 (cm),标准差为4.95 (cm);体重均数为53.72(kg),标准差为4.96(kg)。欲比较身高与体重的变异度何者为大,由于度量单位不同,不能直接比较标准差而应比较其变异系数。 依据公式计算如下: 身高 CV = 4.95 / 166.06 100 % =2.98 % 体重 CV = 4.96 / 53.72 100 % = 9.23 % 由此可见,该地20岁男子体重的变异度大于身高的变异度。,34,培训类别,

展开阅读全文
相关资源
猜你喜欢
相关搜索

当前位置:首页 > 社会民生


经营许可证编号:宁ICP备18001539号-1