数值变量资料的统计描述.ppt

上传人:本田雅阁 文档编号:3182373 上传时间:2019-07-22 格式:PPT 页数:112 大小:1.15MB
返回 下载 相关 举报
数值变量资料的统计描述.ppt_第1页
第1页 / 共112页
数值变量资料的统计描述.ppt_第2页
第2页 / 共112页
数值变量资料的统计描述.ppt_第3页
第3页 / 共112页
数值变量资料的统计描述.ppt_第4页
第4页 / 共112页
数值变量资料的统计描述.ppt_第5页
第5页 / 共112页
点击查看更多>>
资源描述

《数值变量资料的统计描述.ppt》由会员分享,可在线阅读,更多相关《数值变量资料的统计描述.ppt(112页珍藏版)》请在三一文库上搜索。

1、2019/7/22,1,第八章 数值变量资料的统计描述,2019/7/22,2,回顾:,根据是否定量划分,资料被分作不同的类型: 数值资料(measurement data): 用定量的方法对观察单位进行测量得到的资料,亦称作计量资料。 分类变量资料(enumeration data): 用定性的方法得到的资料,亦称计数资料。 等级资料(ranked data): 不能精确测量,仅能根据相对大小分为几个等级。,2019/7/22,3,第一节 数值变量资料频数分布,数值变量资料进行统计描述需要根据资料的分布类型选择合适的统计指标,因此首先要通过频数分布表或分布图了解资料的分布特征。 一、频数分布

2、表及其制作,2019/7/22,4,例8.1 某地区2002年5558岁健康成人的空腹血糖(mmol/L)测定值如下,试编制频数表和观察频数分布情况。,2019/7/22,5,编制频数分布表的步骤,编制频数分布表的步骤,确定组数组距,2019/7/22,6,频数表的编制步骤:,(1)求极差(range):即最大值与最小值之差,又称为全距。 R5.593.60 =1.99(mol/L),(2) 决定组数、组段和组距:根据研究目的和样本含量n确定分组组数。相邻两组段下限值之差称组距,组距=极差/组数,为方便计,组距为极差的十分之一, 再略加调整。 1.99 / 10 = 0.199 0.2 (mo

3、l/L),(3) 列出组段:第一组段的下限必须包含最小值,最后一个组段上限必须大于或等于最大值。 3.6 3.8 5.2 5.4 5.6,(4) 划记计数:用划记法将所有数据归纳到各组段,得到各组段的频数。,2019/7/22,7,2019/7/22,8,表8-1 某地区2002年5558岁健康成人的空腹血糖(mmol/L)测定值的频数分布表,2019/7/22,9,血糖(mol/L),人数,图8-1某地区2002年5558岁健康成人的空腹血糖(mmol/L) 测定值的频数分布图,二、频数分布图,2019/7/22,10,同一组资料,不同的人编制的频数表,结果不尽相同,允许几个合理的结果并存。

4、,2019/7/22,11,三、频数表和频数分布图用途,1描述频数分布的类型(对称分布、偏态分布) 2描述频数分布的特征(集中趋势 离散趋势) 3便于发现一些特大或特小的可疑值 4便于进一步做统计分析和处理(加权),2019/7/22,12,(1)对称分布 : 若各组段的频数以中心位置左右两侧大体对称,就认为该资料是对称分布,1描述频数分布的类型(对称分布、偏态分布),2019/7/22,13,(2)偏态分布 :,1)右偏态分布(正偏态分布):右侧的组段数多于左侧的组段数,频数向右侧拖尾。 2)左偏态分布(负偏态分布):左侧的组段数多于右侧的组段数,频数向左侧拖尾。,2019/7/22,14,

5、正偏态(右偏态) 负偏态(左偏态),返回,2019/7/22,15,频数分布的类型,2019/7/22,16,2描述频数分布的特征,图8-1(P154)数据的频数分布特征: 数据变异(离散)的范围在3.605.60(mol/L ) 数据集中(平均)的组段在4.205.00(mol/L )之间,尤以组段的人数4.604.80 (mol/L )最多。且上下组段的频数分布基本对称。,返回,2019/7/22,17,3便于发现一些特大或特小的可疑值,返回,2019/7/22,18,第二节 集中趋势指标,统计上使用平均数(average)这一指标体系来描述一组变量值的集中趋势或平均水平。 常用的平均数有

6、: 算术均数(均数)(mean) 几何均数(geometric mean) 中位数 (median) 百分位数(percentile),2019/7/22,19,一、算术均数,算术均数:简称均数(mean) 定义:是一组变量值之和除以变量值个数所得的商。均数适用于资料呈正态分布(或近似正态或对称分布)资料。 总体均数: 样本均数: x,2019/7/22,20,1、计算方法,(1)直接计算法,公式 :,例8.2有9名健康成人的空腹胆固醇测定值(mol/L)为:5.61,3.96,3.67,4.99,4.24,5.06,5.20,4.79,5.93求算术平均数。,x=(5.61+3.96+3.6

7、7+4.99+4.24+5.06+5.20+4.79)/9 =4.83(mol/L),2019/7/22,21,例8.1 某地区2002年5558岁健康成人的空腹血糖(mmol/L)测定值如下,试编制频数表和观察频数分布情况。,x=(5.17+5.56+5.15+5.16)/132=4.648(mol/L),2019/7/22,22,(2)加权法(利用频数表),公式 :,k:频数表的组段数 f :频数 :组中值,其中i=1,2,k。,2019/7/22,23,表8-1 某地区2002年5558岁健康成人的空腹血糖(mmol/L)测定值的频数分布表,x=614.2/132=4.653(mol/L

8、),2019/7/22,24,二、 几何均数(geometric mean),定义:用G表示,是将n个观察值x的乘积再开n次方的方根(或各观察值x对数值均值的反对数)。 其适用条件是: 当一组观察值为非对称分布且其差距较大时,用 均数表示其平均水平会受少数特大或特小值影响; 数值按大小顺序排列后,各观察值呈倍数关系或近 似倍数关系。,2019/7/22,25,几何均数计算公式:,几何均数: 变量对数值的算术均数的反对数。,计算几何均数的观察值应大于零,2019/7/22,26,例8.3 有7份血清的抗体效价分别为1:2, 1:4, 1:8, 1:16, 1:32, 1:64,1:128,求平均

9、抗体效价。,2019/7/22,27,(2)加权法(当观察例数多时采用),公式:,2019/7/22,28,例8.4 有60人的血清抗体效价,分别为:7人1:5,11人1:10,22人1:20,12人1:40,8人1:80,求平均抗体效价。,50人的血清平均抗体效价为1:20.705。,2019/7/22,29,例8.4 有60人的血清抗体效价,求其平均抗体效价,2019/7/22,30,计算几何均数应该注意的事项 变量值中不能有0或负数,因为0和负数不能取对数。 不能同时有正有负。若全部是负值,计算时可先把负号去掉,得出结果后,再加上负号。,2019/7/22,31,三、 中位数与百分位数,

10、(一)中位数(median) 定义:用符号M表示,中位数是把一组观察值,按大小顺序排列,位置居中的数值(n为奇数)或位置居中的两个数值的均值(n为偶数)。 其适用情况有: 当资料呈明显的偏态分布; 资料一端或两端无确定数值(如大于或小于某数值); 资料的分布情况不清楚。,2019/7/22,32,计算公式:,n为奇数时,n为偶数时,2019/7/22,33,例8.5 7名正常人的血压(舒张压) 测定值(mmHg)为:72,75,76,77,81,82 ,86,求中位数。,从小到大排列: 72,75,76,77,81,82 ,86 若又观察了一个人的血压,为87(mmHg) ,此时(77+81)

11、/2=79(mmHg),2019/7/22,34,例: 1,3,7,5,100 中位数为多少?,2019/7/22,35,频数表资料的中位数(P157公式8.5),下限值L,上限值U,i; fm,中位数M,2019/7/22,36,例8.1频数表中位数的计算,4.60+(0.20/25 ) *132/2-61=4.64,2019/7/22,37,(二)百分位数(percentile),把一组数据从小到大排列,分成100等份,各等份含1%的观察值,分割界限上的数值就是百分位数。,中位数是第50百分位数,用P50表示。,2019/7/22,38,2019/7/22,39,Trunc()取整函数,设

12、有X个原始数据从小到大排列,第X 百分位数的计算公式为:,1直接计算法,当 为带有小数位时:,当 为 整数时:,2019/7/22,40,例 对某医院细菌性痢疾治愈者的住院天数统计,120名患者的住院天数从小到大排列如下,试求第5百分位数和第99百分位数。,,为整数:,患者编号:,住院天数:,(1)n=120,,2019/7/22,41,带有小数,(2),故取整 trunc(118.8)= 118,2019/7/22,42,2频数表法,公式:,2019/7/22,43,当 时,公式(8.5)即为中位数的计算公式:,2019/7/22,44,例8.1 试分别求例8.1频数表的第25、第75百分位

13、数。,P254.20+0.20(13225%14)/234.365 P754.80+0.20(13275%86)/204.930,2019/7/22,45,三种平均数的特点,算术均数:通常被认为是最佳集中趋势的度量值。如果资料观察值含有少数极端数值(相对的说特大或特小值)或资料呈偏态分布,算术均数就变得不稳定而失去代表性。正态分布 几何均数一般只适宜于等比级数资料。对于这类资料,用几何均数反映集中趋势比算术均数或中位数更合适。 中位数不受其前后其他数值(特别是极端值)的影响。但如果数据呈明显不同且差异很大,这时中位数可能不适宜作为集中趋势的度量值了。偏态分布,2019/7/22,46,反映集中

14、趋势的指标(平均数),表示一组观察值的平均水及集中特性,并可作为总体的一个代表值加以应用。但是它没有表达其所代表的总体中各个个体之间的差异。 统计学中把个体间的差异称为变异性(variation)。所谓变异性是指在同质条件下的观察单位,其同一标志的数据间的差异性。用以描述一组数值变量资料观察值之间参差不齐的程度,即离散程度或变异度的指标,称为离散指标或变异指标。,第三节 离散趋势的描述,2019/7/22,47,例:设甲、乙、丙三人,采每人的耳垂血,然后作红细胞计数,每人数5个计数盘,得结果如下(万/mm3),甲,乙,丙,2019/7/22,48,2019/7/22,49,常用统计指标:,全距

15、(range) 四分位数间距(quartile interval) 方差和标准差(variance&standard deviation) 变异系数(CV coefficient of variation),2019/7/22,50,全距,用R表示:即一组变量值最大值与最小值之差,亦称极差。对于书中例8.1数据,有,简单,但仅利用了两端点值,稳定性差。,一、全距(Range),R5.593.60 =1.99(mol/L),R越大,变异度越大;R越小,变异度越小。,2019/7/22,51,二、四分位数间距(quartile range),四分位数间距,用Q表示,若将一组资料分为四等份,上四分位

16、数和下四分位数之差就是: Q= 下四分位数: 上四分位数:,比全距稳定;可用于一端或两端无确切数值的偏态资料。 未考虑每一个观察值。,2019/7/22,52,全距和四分位数间距都未全面考虑观察值的变异情况,为了克服该缺点,需计算总体中每个观察值x与总体均数的差值(x-),称为离均差。 由于(x-)=0,不能反映变异的大小,而用离均差平方和 (x-)2(sum of deviation from mean)反映。同时还要考虑到观察值个数N的影响,用其均数,即得到总体的方差,用2表示。 公式为:,三、方差与标准差,2019/7/22,53,1. 方差(variance)是离均差平方和的均数,反映

17、一组数据的平均离散水平。 由于在实际工作中,往往得到的样本资料,总体均数是未知的,所以只能用样本均数 作为的估计值,即用 代替 ,用样本例数n代替N。但按公式计算的结果 通常比实际的 低。所以用n来代替n进行校正。得到样本方差,离均差平方和SS,总体方差,样本方差,自由度,2019/7/22,54,样本方差 自由度(degree of freedom),一组数据中可以自由取值的数据的个数 当样本数据的个数为 n 时,若样本均值x 确定后,只有n-1个数据可以自由取值,其中必有一个数据则不能自由取值 例如,样本有3个数值,即x1=2,x2=4,x3=9,则 x = 5。当 x = 5 确定后,x

18、1,x2和x3有两个数据可以自由取值,另一个则不能自由取值,比如x1=6,x2=7,那么x3则必然取2,而不能取其他值 样本方差用自由度去除,其原因可从多方面来解释,从实际应用角度看,在抽样估计中,当用样本方差去估计总体方差2时,它是2的无偏估计量,2019/7/22,55,标准差(standard deviation),方差可以比较全面地反映变量值的变异情况,但其方差的单位是原单位的平方,故引入标准差的概念。 标准差:将方差开平方,恢复成原度量单位,得到总体的标准差和样本标准差S。,2019/7/22,56,样本标准差用 表示 ,其度量单位与均数一致,所以最常用。,离均差平方和SS,3. 总

19、体标准差 用表示,公 式:,公 式:,2019/7/22,57,标准差的公式还可以写成 :,利用频数表计算标准差的公式为:,2019/7/22,58,例 对以下数据: 75, 76, 72, 69, 66, 72, 57, 68, 71, 72, 用直接法计算标准差。,2019/7/22,59,例8- 利用表8-2中的数据和频数表法计算标准差。,2019/7/22,60,标准差的基本内容是 “离均差”,它显示一组变量值与其均数的间距,故标准差直接地、总结地、平均地描述了变量值的离散程度。,2019/7/22,61,标准差应用,1. 反映一组资料的离散程度 2. 计算变异系数 3. 计算标准误

20、4. 结合均数与正态分布规律估计正常值范围,2019/7/22,62,四、变异系数,变异系数(coefficient of variation,CV) 常 用于比较度量单位不同或均数相差悬殊的两组(或多组)资料的变异程度。,2019/7/22,63,例:某地7岁男孩身高的均数为123.10 cm,标准差为4.71cm;体重均数为22.29kg,标准差为2.26kg, 比较其变异度?,(观察指标单位不同),2019/7/22,64,均数相差较大时:,2019/7/22,65,平均数与变异度的关系,平均数表示的集中性与变异度表示的离散性,是从两个不同的角度阐明计量资料的特征 变异度越小,平均数对各

21、变量值的代表性越好 变异度越大,平均数对各变量值的代表性越差,2019/7/22,66,平均数与变异度的关系,通常,平均数与变异指标一起描述资料的分布特征。 用均数和标准差描述正态分布资料的特征; 用中位数和四分位数间距描述偏态分布资料的特征。,2019/7/22,67,资料的指标描述,是统计描述的一个重要的组成部分 定量资料的统计指标 平均水平指标:算术均数、几何均数、中位数 等。 离散程度指标:全距、四分位数间距、方差、标准差、变异系数。,2019/7/22,68,2019/7/22,69,小结:,2019/7/22,70,第四节 正态分布,2019/7/22,71,正态分布的重要性,医学

22、研究中的许多正常人生理、生化指标服从或近似服从正态分布; 很多统计方法是建立在正态分布的基础之上的; 很多非正态分布的资料转化为正态分布。因此,正态分布是统计分析方法的重要基础。,2019/7/22,72,正态分布:又称为Gauss分布(Gaussian distribution)。,设想当原始数据的频数分布图的观察人数逐渐增加且组段不断分细时,图2-4中的直条就不断变窄,其顶端则逐渐接近于一条光滑的曲线。这条曲线形态呈钟形,两头低、中间高,左右对称,近似于数学上的正态分布。在处理资料时,我们就把它看成是正态分布。,2019/7/22,73,一、正态分布的概念和特征,当X服从正态分布 记作XN

23、(,2) 其中为总体均数,2为总体方差,2019/7/22,74,1正态分布曲线的数学函数表达式 如果随机变量 的分布服从概率密度函数,2019/7/22,75,2正态分布的特征,(,3,)正态分布有两个参数,即位置参数,m,和形态参数,s,。若固,定,s,,改变,m,值,曲线沿着,X,轴平行移动,其,形状不变,若固定,m,,,s,越小,曲线越陡峭;反之,,s,越大,曲线越平坦,正态曲线在1,标准正态分布在1处各有一个拐点;,2019/7/22,76, 和 对正态曲线的影响,2019/7/22,77,2019/7/22,78,2019/7/22,79,(4)正态曲线下的面积分布有一定的规律。,

24、累积面积可通过对概率密度函数f(X)积分求得,2019/7/22,80,2019/7/22,81,图2-7 正态曲线面积分布示意图,2019/7/22,82,正态分布是一个分布族,对应于不同的参数,m,和,s,会产生不同位置、,不同形状的正态分布。,2019/7/22,83,用N(0,1)表示,即u值的均数为0,标准差为1。,标准正态变换,2019/7/22,84,2019/7/22,85,正态分布,标准正态分布,2019/7/22,86,正态曲线下的面积特点,横轴上曲线下的面积为1; 正态曲线和标准正态曲线下,横轴上分别对称于或0的面积相等; 常用的分布点有: 正态分布 标准正态分布 面积

25、1 +1 1 + 1 68.27% 1.96 +1.96 1.96 +1.96 95.00% 2.58 +2.58 2.58 +2.58 99.00%,2019/7/22,87,2019/7/22,88,正态分布除了可估计频数分布外,还是许多统计方法的基础,并可应用于质量控制及制定医学参考值范围。,2019/7/22,89,参考值范围(reference ranges) 医学参考值是指正常人的各种生理、生化数据,组织或排泄物中各种成分的含量。 由于存在个体差异,生物医学数据并非常数而是在一定范围内波动,故采用医学参考值范围(medical reference range)作为判定正常和异常的参

26、考标准。,第五节 医学参考值范围,2019/7/22,90,医学参考值(reference value)是指正常人的各种生理、生化数据,组织或排泄物中各种成分的含量。 医学参考值范围是指正常人指标测定值的波动范围,参考值范围在诊断方面可用于划分正常或异常。,一、意义,正常人排除了影响被研究指标的疾病或因素的人。,2019/7/22,91,医学参考值范围(reference ranges),为什么波动? “个体变异” 同一指标的数据因人而异 同一个体的数据随环境、时间等改变而变,2019/7/22,92,为什么要确定一个范围? 既然同属正常人,就不能以甲的数据为标准,认为乙异常,亦不能以甲此时的

27、数据为标准,认为彼时的异常。所以必须确定一个波动范围。如WBC:400010000个/mm3 “正常”是一个相对的概念 “正常人”是指排除了影响所研究指标的疾病和有关因素的人。,2019/7/22,93,意义,横向分析 划界、分类临床医生判断正常与异常的参考依据 动态分析 如某个地区不同时期发汞的正常值可反映环境污染 的动态变化或环保效果,2019/7/22,94,二、制定参考值的基本步骤,1、从正常人总体中抽样; 2控制测量误差 ; 3判定是否需要分组确定参考值范围 ; 4. 决定取单侧还是双侧; 5. 选定合适的百分界限 ; 6对资料的分布进行正态性检验 ; 7根据资料的分布类型选定适当的

28、方法进行参考值范围的估计。,2019/7/22,95,选定同质的正常人作为研究对象,同质 正常 “足够数量” 例数过少,代表性差;例数过多增加成本,且易导致正常标准把握不严,影响数据的可靠性。 一般认为每组100例以上 ;有人认为确定临床生化指标的正常值应取300500例。,2019/7/22,96,控制检测误差,通过人员培训、控制检测条件、重复测定等措施,严格控制检测误差。,2019/7/22,97,判断是否分组,组间差别是否有统计学意义并有临床意义? 例:红细胞、白细胞 各组的分布范围、高峰位置等是否基本一致?,2019/7/22,98,医学参考值范围涉及到采用单侧界值还是双侧界值的问题,

29、这通常依据医学专业知识而定。,双侧 : 血清总胆固醇无论过低或过高均属异常 白细胞数无论过低或过高均属异常 单侧 : 1、血清转氨酶仅过高异常 上限 2、肺活量仅过低异常 下限,单、双侧问题,2019/7/22,99,选择百分界值,参考值范围的涵义:绝大多数的正常人在该范围内 医学参考值范围有 、 、 等, 最常用的为 。 应根据研究目的、研究指标的性质、数据分布特征等情况综合考虑百分界值的选择。,2019/7/22,100,2019/7/22,101,二、参考值范围的估计方法,正态分布法 百分位数法 对数正态分布法,2019/7/22,102,1、正态分布法: 许多生物医学数据服从或近似服从

30、正态分布,如同年龄同性别儿童的身高值、体重值,同性别健康成人的红细胞数等; 有些医学资料虽然呈偏态分布,但若能通过适当的变量变换转换为正态分布,也可采用正态分布法制定参考值范围。,2019/7/22,103,适用:正态分布资料,2019/7/22,104,正态分布法: 应用条件:正态分布或近似正态分布资料 计算 (双侧)95% 医学参考值范围公式:,单侧上界,单侧下界,2019/7/22,105,2019/7/22,106,例8.10 利用例1某地5558岁健康成人的血糖值,求95%的参考值范围。,正态分布法 x=4.653 ,S=0.401 双侧95%的参考值范围: x1.96S=4.653

31、1.96*0.401=(3.875.44) 某地5558岁健康成人的血糖值95%的参考值范围为3.875.44(mol/L),2019/7/22,107,2、百分位数法,适用:各种分布资料特别是偏态分布资料,2019/7/22,108,应用条件: 偏态分布资料 计算公式: 95% 医学参考值范围公式: 双侧界值: P2.5P97.5 单侧 上界: P95 单侧 下界: P5,百分位数法,2019/7/22,109,例 测得某年某地名正常人的尿汞值如下表,试制定正常人尿汞值的参考值范围。,2019/7/22,110,正常人的尿汞值为偏态分布,且过高为异常,应计算第95百分位数,2019/7/22,111,小结 数值变量资料统计描述,集中趋势指标 算术均数、几何均数、中位数(百分位数) 离散趋势指标 极差、四分位数间距 方差、标准差、 变异系数 各类指标的含义、计算方法、应用条件。,正态分布 正态曲线下面积分布规律 医学参考值范围估计,2019/7/22,112,作业:,课本: P510P511 T(一)1(1)、(2)、(3) 2(1),

展开阅读全文
相关资源
猜你喜欢
相关搜索

当前位置:首页 > 其他


经营许可证编号:宁ICP备18001539号-1