[临床医学]第二章 计量资料的统计描述.ppt

上传人:音乐台 文档编号:1997841 上传时间:2019-01-29 格式:PPT 页数:115 大小:944.50KB
返回 下载 相关 举报
[临床医学]第二章 计量资料的统计描述.ppt_第1页
第1页 / 共115页
[临床医学]第二章 计量资料的统计描述.ppt_第2页
第2页 / 共115页
[临床医学]第二章 计量资料的统计描述.ppt_第3页
第3页 / 共115页
亲,该文档总共115页,到这儿已超出免费预览范围,如果喜欢就下载吧!
资源描述

《[临床医学]第二章 计量资料的统计描述.ppt》由会员分享,可在线阅读,更多相关《[临床医学]第二章 计量资料的统计描述.ppt(115页珍藏版)》请在三一文库上搜索。

1、第二章,计量资料的统计描述,第一节 频数分布,频数: 对一个随机事件做重复观察, 其中某变量出现的次数, 称频数. 频数表: 将各变量及其相应的频数列表.,例2.1 某地用随机抽样方法检查了140名成年男子的红细胞数,检测结果如表所示:,某地140名正常成年男性红细胞数(1012 /L)资料,一、频数表的编制 1、确定组数k :通常选择8 15之间。若资料在100例以上,一般取10组左右; 若例数较少, 组数相应减少。以能显示数据的分布规律为宜。 2、计算极差(全距),确定组距 i :,3.确定组限: 应符合专业习惯。 下限(L):组段的起点,第一组下限 资料中的最小值 上限(U):组段的终点

2、, 最后一组上限 资料中的最大值。 变量值X的归组统一定为:LXU 4. 分组划记统计频数:由手工或软件完成 5. 计算频率与累计频率,频率: 描述了各组段频数在全部观察单 位中所占的比重, 各组的频率之和 为100%。 累计频数: 即在某个指定值以下变量的 频数。 累计频率: 等于累计频数/总频数。,表2-2 某地140名正常男子红细胞数的频数表,表2-3 某地140名正常男子红细胞数的频数表,二、频数分布图-直方图 直方图(histogram):用矩形面积表 示连续型变量的频数(频率)分布。可 直观、形象地表示频数分布的形态 和特征。,图2-1 140名正常男子红细胞计数的直方图,1、横轴

3、: 组段; 纵轴:频数; 2、各矩形之间无空隙 3、矩形的高度为频数 矩形的宽度为组距 4、作用与频数表相同,三、频数分布的两个重要特征: 1.集中趋势(central tendency): 指变量值的集中位置所在。 2. 离散趋势(tendency of dispersion): 指变量值围绕集中位置的分布情况。,四、频数分布的类型:,1. 对称分布: 各组段的频数以频数最多组 段为中心(集中位置在中间), 左右两侧大体对称。 2. 偏态分布: 集中位置偏向一侧, 左右两 侧频数分布不对称。 正偏态分布 负偏态分布,中间高、两边低、左右近似对称,对称分布 (正态分布),集中位置偏向 变量大的

4、一侧,负偏态分布,正偏态分布,集中位置偏向 变量小的一侧,五、频数表的用途: 1、代替繁杂的原始资料,便于进一步计算 统计指标和作统计处理。 2、揭示资料的分布类型和分布特征, 比较 直观。 3、便于发现资料中某些特大或特小的可疑 值, 必要时经检验后舍弃。,4、当样本含量较大时,可用各组段的频率 作为概率的估计值。 5、作为陈述资料的形式, 附在文章中, 简单 明了。,集中趋势的统计描述,第二节,平均数(average):是分析计量资料的基本统计指标,用于描述一组性质相同的变量值的集中位置或平均水平。,一、算术均数 (arithmetic mean),均数:可用于说明一组呈对称分布的变量值,

5、 在数量上的平均水平或集中趋势, 是描述计量资料的常用的指标。,总体均数用 表示,,样本均数用 表示。,(一)算术均数的计算 1、直接法:,为求和符号, 读作sigma .,某地140名正常成年男性红细胞数(1012 /L)资料,2、加权法:,组中值=(本组下限+下组下限)/2,为 组的频数。,某地140名正常男子红细胞数的频数表,加权法的涵义:各个不同的变量值在计算均数时,由于频数不同,所起的作用也不同;频数多,权数大,作用也大,频数少,权数小,作用也小。 对于频数表资料,即某个组段频数多,权数就大,其组中值对均数的影响也大, 反之影响则小。,(二)算术均数的两个重要特征:,1. 各观察值与

6、均数之差(离均差)的和等于0,2. 离均差平方和小于各观察值与其它任何 数之差的平方和 。,(三)算术均数的应用:,1、只有在合理分组的基础上, 对同质事物 求均数才有意义;,2、说明一组变量值在数量上的平均水平;,3、均数适用于呈对称分布的资料, 特别是 呈正态或近似正态分布的资料。,二、几何均数 G geometric mean,(一)几何均数(G)的计算 1、直接法: 例数较小,小于30例,涵义: n个变量值的乘积开n次方。,例: 测得10个人血清某项免疫学指标的滴度倒数分别为2,2,4,4,8,8,8,8,32,32,求其平均滴度。 直接法:,例: 有5个监测结果, 分别为1:10,

7、1:100, 1:1000, 1:10000, 1:100000, 求平均数。 直接法:,该资料的平均水平为: 1:1000。,2、加权法:当样本含量较大时,可将资料 整理成频数表,用下式计算:,其中:x 为各组段的效价或滴度的倒数 或各组段的组中值; f 为各组段所对应的频数。,胎盘浸液钩端螺旋体菌苗接种两月血清IgG抗体滴度,原始数据形式: 1:20,1:40 1:1280,胎盘浸液钩端螺旋体菌苗接种2个月后血清IgG抗体滴度为1:139。,(三)几何均数的应用:,1、几何均数常用于呈对数正态分布的资料, 或等比资料;,2、计算几何均数时, 观察值不能小于或 等于零;,3、观察值不能同时有

8、正值和负值;,4、同一组资料求得的几何均数小于均数.,三、中位数和百分位数 M (median),(一)中位数 M(median) 概念:将一组观察值从小到大按顺序排列,位次居中的观察值即中位数。 (全部观察值中,大于和小于中位数的观察值的个数相等),(一)中位数的计算方法: 1、直接法:样本含量较小时,可根据下 式计算。 n为奇数时: n为偶数时: 上式中n为一组观察值的总例数, 、 及 均为下标, 表示有序数列中观察值的位次。,例: 7名病人患某病的潜伏期分别为2,3,4,5,6,9,16天, 计算平均潜伏期。 n为奇数:,有8名某病患者的潜伏期分别为1,2,2,3,5,8,15,24小时

9、,计算平均潜伏期。 n为偶数:,2、频数表法,分别为为中位数所在组段的下限、组距、频数;,计算步骤:在资料编制频数表的基础上 .按所分组段,由小到大计算累计频数与累计频率; .确定中位数所在组段:当某一组的累计频数首先超过n/2时或累计频率首先超过50%时,即定为中位数所在组段; .计算中位数。,例: 对某地630名50岁60岁的正常 女性检查了血清甘油三酯含量(mmol/L), 资料见表, 试计算其平均数。,表2-4 某地630名正常女性血清甘油三脂含量(mg/dl),L、iM、fM分别为M所在组段的下限、组距和频数, fL为M所在组段之前各组段的累计频数。,(二)中位数的应用 1. 中位数

10、适用于任何分布类型的资料, 用 于描述资料的集中位置, 反映位次居中的 观察值的水平, 适用范围广泛; 2. 中位数不是由全部观察值综合计算出 来的,只受位次居中的观察值波动的影响, 较为稳定;,3. 下列情况下,使用中位数作为反映集中 趋势位置或平均水平的指标较为合理: . 频数的分布呈明显的偏态; .两端无确定数值的开口资料; .分布类型不明的资料; .有异常值的资料。,4. 均数、中位数两者的关系: 对称分布时: 均数与中位数理论上相等 正偏态分布时:均数中位数 负偏态分布时:均数中位数 5. 缺点: 进一步统计处理的方法较少,应用受 到限制。,四、三种平均数的特点,1. 均数是根据全部

11、观察值综合计算的, 计 算方法较为简单, 但资料中若含有少数极端 值或资料呈偏态分布时, 则均数不稳定, 缺乏 代表性。 2. 中位数是将全部观察值按由小到大的顺 序排列,即位次居中的观察值,只受位次居中 的观察值的影响, 不受极端值的影响, 较为稳 定,仅考虑位次居中的观察值, 结果较粗略。,3. 几何均数是根据全部观察值计算的, 但较 适应于等级资料,五、百分位数 Px(percentile ),(一 )概念: 将一组观察值从小到大按顺序排列,对应于第x%位次的数值即为第x百分位数。,百分位数是一种位置指标,用PX表示。 一个百分位数将全部变量值分为两部分, 在不包括PX 的全部变量值中,

12、 有X %的变量值比它小, 有(1- X %)变量值比它大。,(二)计算方法: n个原始数据从小到大排列 1. 直接法:,例:对某医院细菌性痢疾治愈者的住院 天数进行统计,120名患者的住院天数从小 到大的排列如下,试求第5百分位数和第99 百分位数。 患 者:1 2 3 4 5 6 7 8 9 117 118 119 120 住院天数:1 2 2 2 3 3 4 4 5 40 40 42 45,n =120,1205%=6,为整数,用公式(1)计算:,12099%=118.8,带有小数,用公式(2)计算:,2. 频数表法:,对计算公式的理解,下限Lx,nx%,累计频数 fL,上限,最小,最大

13、,表2-4 某地630名正常女性血清甘油三脂含量(mg/dl),表2-4 某地630名正常女性血清甘油三脂含量(mg/dl),表2-4 某地630名正常女性血清甘油三脂含量(mg/dl),表2-4 某地630名正常女性血清甘油三脂含量(mg/dl),百分位数的应用 1. 其特点是不易受两端异常值的影响, 适用于描述: 偏态分布的资料; 两端无确定数值的开口资料; 分布类型不明的资料; 有异常值的资料。 2. 中位数是百分位数的特例。,3. 描述一组数据在某百分位置上的水平和分布特征。多个百分位数结合使用, 可更全面地描述资料的分布特征。(P25和P75可以描述数据的分散程度) 4. 常用于确定

14、医学参考值范围以及身体发育水平的界限。(如用P2.5和P97.5计算医学95%的参考值范围等) 5. 靠近两端的百分位数只有在样本例数较大(100)时才比较稳定。,小 结,1. 运用频数表、直方图和统计指标这些技巧能够有效地组织、整理和表达计量资料的信息。,2.平均数是描述一组观察值集中位置或平均水平的统计指标,常用的有算术均数、几何均数和中位数。其中均数的应用最为广泛, 几何均数则多用于血清学和微生物学 中, 中位数主要用于偏度较大的数据分布 资料。,3.百分位数可用来描述资料的观察值序列在某百分位置的水平,中位数是其中的一个特例。,第三节,变异程度的统计描述,衡量变异程度的指标,变异是生物

15、医学数据最显著的特征, 反映 平均水平的统计指标与反映变异程度的指标 结合起来, 才能充分说明一组变量值的数量 特征。 常用的指标:极差、四分位间距、方差、 标准差和变异系数。,例3.1 对甲乙两名高血压患者连续观察5天,测得的收缩压(mmHg)结果如下:,例2.1 某地用随机抽样方法检查了140名成年男子的红细胞数,检测结果如表所示:,某地140名正常成年男性红细胞数(1012 /L)资料,反映离散趋势的指标有两类: 1. 按间距计算: 极差、四分位数间距 2. 按平均差距计算: 平均偏差、离均差平方和、 方差、标准差、变异系数。,一、极差和四分位数间距,(一)极差(Range): 即全距

16、观察值中最大值与最小值之差。 计算公式: 意义:反映一组个体值变化的范围, 极差大说明数据的变异程度大, 反之说明数据的变异程度小。 (如用于说明传染病、食物中毒的最长、最短潜伏期),优点: 计算简单, 概念清晰, 易于理解,便于使用. 缺点: 只利用最大与最小的两个极端值,结果粗略; 与样本含量的大小有关,样本含量越大,极 差可能越大; n不变时,每次抽样得到的极差也相差较大, 稳定性较差。,如前例甲乙两患者收缩压的极差分别为,(二)、四分位数间距 Q (inter-quartile range),将全部变量值分为四个部分的分位数,即P25、P50、P75三个分位数, 四分位数间距 Q =

17、P75 - P25 P25: 下四分位数QU P75: 上四分位数QL,最小值 P25 P50 P75 最大值,Q,某地630名正常女性血清甘油三脂含量(mg/dl),某地630名正常女性血清甘油三脂含量(mg/dl),某地630名正常女性血清甘油三脂含量(mg/dl),张家口市2005年110名7岁男童身高的频数表,张家口市2005年110名7岁男童身高的频数表,四分位数间距的意义: 四分位数间距越大,说明数据的变异程度 越大; 反之,说明数据的变异越小. 与中位数一起描述偏态分布资料的分布 特征。 特点:较全距稳定, 但仍然未考虑到每个 观察值的变异情况。,二、平均差距指标,(一)平均偏差

18、(Mean Difference) 计算公式:,特点:直观、易于理解;但由于用了绝对值,不便于数学处理,实际中很少使用。,(二)离均差平方和(Sum of Square, SS ) 计算公式: SS 通常作为一个中间统计量使用。,(三)方差 (均方 Variance) 离均差平方和消除了正、负值的影响, 但 的大小除了与资料变异程度 的大小有关外,还受变量值个数N的影响; 为消除这一影响,将离均差平方和再取平 均, 即得到方差。,总体方差:,样本方差:,方差的意义: 方差越大,说明观察值的变异程度越大, 均数的代表性较差; 方差越小, 说明观察值 的变异程度越小, 观察值围绕均数的分布越 集中

19、,均数的代表性越好。 方差的特点:便于数学上的处理,但由于 有平方,度量衡发生变化,不便于实际应用.,= n-1,即自由度(degree of reedom,df ) 自由度的概念: 随机变量能够自由取值的 个数; 它描述了当均数选定后, n个观察值 中能自由变动的观察值的个数。 任何统计量的自由度= n-限制条件的个数,(四)标准差 (standard deviation) 方差的单位是原度量单位的平方,将 总体方差开平方,即得到总体标准差,度 量单位与原始观察值一致,公式:,总体标准差:,样本标准差:,1. 计算: 直接法:,加权法:,直接法:,甲患者:,乙患者:,加权法:,140名成年男

20、子红细胞数的标准差:,2. 标准差的特点,是根据全部观察值综合计算出来的, 以离均差平方和最小的理论为依据; 受抽样变动的影响较其它变异指标小, 具有较为广泛的理论与实际用途。,3. 标准差的应用,. 表示观察值的变异程度 在两组(或几组)资料均数相近、度量衡 单位相同的条件下,标准差越大,表示变量 值的变异度越大,观察值围绕均数的分布较 分散,均数的代表性较差;反之,标准差小, 表示变量值变异度小,观察值围绕均数的分 布较集中,均数的代表性较好。,. 若比较度量衡单位不同或均数相差悬 殊的两组或几组资料的变异程度, 需结合均 数计算变异系数。 . 结合均数描述正态分布资料的分布特 征和估计医

21、学参考值范围。 . 结合样本含量n, 计算反映抽样误差大 小的指标, 即标准误。,(五)变异系数 (Coefficient of Variation ) 用途:主要用于进行均数相差较大或 度量衡单位不同的两组或几组观察值 变异程度的比较。,计算公式:,特点:变异系数是相对比,没有单位。 既可以消除原资料平均水平不同的影响, 也可以消除度量衡单位不同的影响, 来 反映观察值变异程度的大小, 便于资料 间的分析比较。,例3.3 测得某地成年人舒张压均数为 77.5mmHg, 标准差为10.7mmHg; 收缩压均 数为122.9mmHg, 标准差为17.1mmHg。试 比较舒张压和收缩压的变异程度。

22、,例3.3 测得某地某地7岁男孩身高的均 数为123.10cm, 标准差为4.71cm; 体重均数 为22.29kg, 标准差为2.26kg, 比较两者的变 异程度。,1,2,3,4,5 均数 = 3 标准差 =1.58 CV1 = 0.5267 81,82,83,84,85 均数 = 83 标准差 =1.58 CV2 = 0.0190 1001,1002,1003,1004,1005 均数 = 1003 标准差 =1.58 CV3 = 0.0016,变异指标小结,1、极差较粗糙,适合于任何分布类型的资料; 2、标准差与均数的单位相同,最常用, 适用于正态分布和近似正态分布的资料; 3、变异系数主要用于单位不同或均数相差悬 殊的资料。,4、平均指标和变异指标分别反映资料的不同 特征,选择适当的指标对资料进行描述 正态分布:均数、标准差; 偏态分布:中位数、四分位数间距 对数正态分布:几何均数、几何标准差,

展开阅读全文
相关资源
猜你喜欢
相关搜索

当前位置:首页 > 其他


经营许可证编号:宁ICP备18001539号-1