第四部分数据特征与统计描述.ppt

上传人:本田雅阁 文档编号:3136099 上传时间:2019-07-15 格式:PPT 页数:105 大小:1.08MB
返回 下载 相关 举报
第四部分数据特征与统计描述.ppt_第1页
第1页 / 共105页
第四部分数据特征与统计描述.ppt_第2页
第2页 / 共105页
第四部分数据特征与统计描述.ppt_第3页
第3页 / 共105页
第四部分数据特征与统计描述.ppt_第4页
第4页 / 共105页
第四部分数据特征与统计描述.ppt_第5页
第5页 / 共105页
点击查看更多>>
资源描述

《第四部分数据特征与统计描述.ppt》由会员分享,可在线阅读,更多相关《第四部分数据特征与统计描述.ppt(105页珍藏版)》请在三一文库上搜索。

1、,第四章 数据特征与 统计描述,第一节 频数分布表与频数分布图 第二节 计量资料的常用统计指标 第三节 计数资料的常用统计指标 第四节 统计图表,本章结构,第一节 频数分布表与频数分布图,一、频数分布表 (frequency table) 用途:用于描述资料的分布特征 频数:在一批样本中,相同情形出现的次数称为该情形的频数。,P44 表4-1,4-2,4-3,表4-3 某地150名正常成年男子红细胞数(1012/L),1. 频数表的编制步骤,(1)求极差(range):即最大值与最小值之差,又称为全距。 本例极差: R=5.883.79=2.09 (1012/L) (2) 决定组数、组段和组距

2、:根据研究目的和样本含量n确定。组距=极差/组数,通常分10-15个组,为方便计,组距参考极差的十分之一, 再略加调整。 本例i= R /10=2.09/10=0.2090.2。,(3) 列出组段:第一组段的下限略小于最小值,最后一个组段上限必须包含最大值,其它组段上限值忽略。 (4) 划记计数:用划记法将所有数据归纳到各组段,得到各组段的频数。,三、频数分布图 P47,二、频数表和频数分布图用途,1描述频数分布的类型* (1)对称分布 :若各组段频数的分布以频数最多的组段为中心左右两侧大体对称(总体则完全对称),就认为该资料是对称分布 (图4-2) (2)偏态分布 :,右偏态分布(正偏态分布

3、):频数最多组段右侧的组段数多于左侧的组段数,高峰向左偏移,频数向右侧拖尾。,表4- 115名正常成年女子血清转氨酶(mmol/L)含量分布,左偏态分布(负偏态分布):,左侧的组段数多于右侧的组段数,频数向左侧拖尾。,表4- 101名正常人的血清肌红蛋白( )含量分布,2. 描述计量资料分布的 集中趋势和离散趋势,集中趋势(central tendency):变量值集中位置。本例在组段“4.7”。 平均水平指标 离散趋势(tendency of dispersion):变量值围绕集中位置的分布情况。离“中心”位置越远,频数越小;且围绕“中心”左右对称。 变异水平指标,3便于发现一些特大或特小的

4、可疑值*,4便于进一步做统计分析和处理,第二节 计量资料的常用统计指标,描述集中趋势的特征数 描述离散趋势的特征数,计量资料(定量资料、数值变量资料) 总体:有限或无限个(定量)变量值 样本:从总体随机抽取的n个变量值: X1,X2,X3,Xn n为样本例数(样本大小、样本含量),一、描述集中趋势的特征数(平均指标),总称为平均数(average)反映了资料的集中趋势( central tendency )。常用的有: 1. 算术均数(arithmetic mean),简称均数 (mean) 2. 几何均数(geometric mean) 3. 中位数 (median),均数(mean),为求

5、和符号,读成sigma,k, X , f 意义,例4-2,“权数” 例4-3,符号:总体 样本 适用条件:资料呈对称分布,尤其是正态或近似正态。 计算: (1)直接法 (2)频数表法,p49,例4-3:均数719.8/1504.8,2. 几何均数(geometric mean),几何均数:变量对数值的算术均数的反对数。,几何均数的适用条件与实例,适用条件:呈倍数关系的等比资料或对数正态分布(正偏态)资料;如抗体滴度资料,例 血清的抗体效价滴度的倒数分别为:10、100、1000、10000、100000,求几何均数。,此例的算术均数为22222,显然不能代表滴度的平均水平。同一资料,几何均数均

6、数,频数表资料的几何均数,p51,例4-5:几何均数反对数(72.2471/40)64.00,3. 中位数(median),意义:中位数是将一批数据从小至大排列后位次居中的数据值,反映一批观察值在位次上的平均水平。 符号:Md 适用条件:适合各种类型的资料。尤其适合于大样本偏态分布的资料; 资料有不确定数值;资料分布不明等。,中位数计算公式与实例,先将观察值按从小到大顺序排列,再按以下公式计算:,特点:仅仅利用了中间的12个数据,p51,例4-6:5人潜伏期: 2,3,5,8,20,频数表资料的中位数,下限值L,上限值U,i; fm,中位数Md,例4-8 中位数12+6x(145x50%63)

7、/38 13.5(h),均数、中位数二者关系,正态分布时: 均数中位数 正偏态分布时:均数中位数 负偏态分布时:均数中位数,小结: 集中趋势的描述平均数,平均数:描述一组变量值的集中位置或平均水平的指标体系。 不同的分布使用不同的指标 (算术)均数:正态或近似正态或观察值相差不大的小样本资料 几何均数:对数正态分布或等比级数资料 中位数 :一般偏态分布(传染病发病的潜伏期),二、 描述离散趋势的特征数 (变异(variation)指标),反映数据的离散度( Dispersion )。即个体观察值的变异程度。常用的指标有: 1. 极差(Range) (全距) 2. 百分位数与四分位数间距 Per

8、centile and Quartile range 3. 方差 Variance 4. 标准差Standard Deviation 5. 变异系数 Coefficient of Variation,例:设甲、乙、丙三人,采每人的耳垂血,然后红细胞计数,每人数5个计数盘,得结果如下(万/mm3),甲,乙,丙,1.极差(Range) (全距),120,40,20,符号:R 意义:反映全部变量值的变动范围。 优点:简便,如说明传染病、食物中毒的最长、最短潜伏期等。 缺点:1. 只利用了两个 极端值 2.n大,R也会大 3.不稳定 适用范围:任何计量资料;是参考变异指标,2.百分位数与四分位数间距

9、Percentile and quartile range,百分位数 :数据从小到大 排列;在百分尺度下,所占百分比对应的值。记为Px。 四分位间距: (定义:P53) QP75 P25 四分位半间距quartile deviation:QDQR/2,P100(max) P75 P50(中位数) P25 P0(min),Px,频数表资料的百分位数,下限值L,上限值U,i; fm,百分位数Px,P256+6x(145x25%17)/468.51(h) P7518+6x(145x75%101)/3219.45(h) Q19.45-8.5110.94(h),百分位数的应用,确定医学参考值范围 (re

10、ference range): 如95参考值范围P97.5P2.5; 表示有95正常个体的测量值在此范围。 中位数Md与四分位半间距QD一起使用,描述偏态分布资料的特征,3.方差,方差 (variance)也称均方差(mean square deviation),样本观察值的离均差平方和的均值。表示一组数据的平均离散情况。,样本方差为什么要除以(n1),数理统计证明,n代替N后,计算出的样本方差对总体方差的估计偏小。对于样本资料,对离均差平方和取平均时分母用n-1代替n。 分母为n-1,称为自由度(能自由取值的变量的个数)。,4.标准差,标准差 (standard deviation)即方差的

11、正平方根;其单位与原变量X的单位相同。(p54),标准差的计算,方差(3476.48719.82/150)/(150-1) 0.1503 标准差0.39(1012/L)(例4-12),5.变异系数(coefficient of variation),符号:CV,适用条件:观察指标单位不同,如身高、体重 同单位资料,但均数相差悬殊,意义:挑选指标时变异系数越小,指标越好。,P56 例4-13,变异指标小结,1极差较粗,适合于任何分布 2标准差与均数的单位相同,最常用,适合于近似正态分布 3变异系数主要用于单位不同或均数相差悬殊资料 4平均指标和变异指标分别反映资料的不同特征, 常配套使用 如 正

12、态分布:均数、标准差; 偏态分布:中位数、四分位半间距,练习题,p67第1题。 p68第3题。,第三节 计数资料的常用统计指标,一、计数资料的数据整理 二、常用相对数指标 三、应用注意事项,计数资料(分类资料): 总体:有限或无限个定性(分类)变量值 样本:从总体中抽取的n个定性(分类)变量值 整理为:分类个体数,即:计数资料频数表 绝对数,一、计数资料的数据整理,计数资料:按某种属性分类,然后清点每类的数据(以下是:孕妇分娩资料),按年龄(2岁一组)与职业整理,二、常用相对数,绝对数:通过调查或实验得到的原始数据。如某病的出院人数、治愈人数、死亡人数等。 但绝对数通常不具有可比性: 1. 如

13、甲、乙两个医院某病出院人数不同时,比较两医院该病的死亡人数没有意义 2. 如2002级附二院五年制一、二大班学生人数不同时,比较两班医学统计学的及格人数没有意义,因此需要在绝对数的基础上计算相对数。 相对数:两个有联系的指标之比,常用的相对数有: 一、比 二、比率 三、速率,相对比简称比,是两个有关指标之比,说明两指标间的比例关系。 计算公式为 式中两指标可以是绝对数、相对数或平均数。,(一)比(ratio),(一)两个绝对数之比: 如某年某医院出生婴儿中,男性婴儿为370人,女性婴儿为358人,则出生婴儿性别比例为370/358100 = 103,说明该医院该年每出生100名女婴儿,就有10

14、3名男性婴儿出生,它反映了男性婴儿与女性婴儿出生的对比水平。,(二)两个率之比:如相对危险度(RR)。 例 如某地某年龄组男性吸烟和非吸烟的冠心病 死亡资料如表7-2,试分析其相对危害度。,说明男性吸烟组的冠心病死亡率是非吸烟组的2.139倍。,表7-2 某地某年龄组男性吸烟和非吸烟的冠心病死亡资料,(三)两个相对比之比:如流行病学常用的比数比(OR)。 例 服用反应停与肢体缺陷关系病例对照研究资料如表所示:,比率(P57): 分子分母都是绝对数,且分子必须是分母的一部分。无量纲,0,1 。 1.率(rate)(强度相对数) 说明某现象或某事物发生的频率或强度。 率=(实际发生数/可能发生总数

15、)比例基数 如:治愈率、病死率、阳性率、人群患病率等 比例基数:100%、1000、10000/万、100000(1/10万)等 (按习惯,使结果保留1-2位小数) 例如:患病率通常用百分率、婴儿死亡率用千分率、肿瘤死亡率以十万分率表示。,(二)比率(proportion),2.构成比(结构相对数)(proportion): 表示事物内部某一部分的个体数与该事物各部分个体数的总和之比,用来说明各构成部分在总体中所占的比重或分布。 通常以100%为比例基数。其计算公式为 如:教研室16人高级职称有4人,占25;中级职称有8人,占50;初级职称有4人,占25。,(三)速率(rate): 分母中含有

16、时间量纲。,P58 例4-14,是反映单位时间内某事件出现的可能性大小,多用于面向人群的出生、死亡和发病资料的统计. 人口出生率=(某年中活产总数/该 年平均人口数) 100%,三、应用注意事项,1、不能以构成比代替率。,率与构成比容易误用,2、计算相对数的分母不宜过小。小则直接叙述。 3、进行率的对比分析时,应注意资料可比性。如 比较疗效时,比较组间应病情轻重相同,性别影响,应按性别分组后再作比较。,(1)观察对象是否同质,研究方法是否相同,观察时间是否相等,以及地区、周围环境、风俗习惯和经济条件是否一致或相近等。 (2)观察对象内部结构是否相同,若两组资料的年龄、性别等构成不同,可以分别进

17、行同年龄别、同性别的小组率比较或对总率(合计率)进行标准化后再作比较。,4、正确求平均率。 例: 若P1=x1/n1 ,P2=x2/n2 P3=x3/n3 P(x1+ x2+ x3)/ n1+ n2+ n3) (正确) P(P1+ P2+ P3)/3 (错误),5. 样本率(或构成比)同样存在抽样误差,故应进行样本率(或构成比)差别的假设检验。,第四节 统计图表,统计表(statistical table)数据代替文字描述,便于统计结果的精确、简洁的表达和对比分析 统计图(statistical chart)用图形代替数据,获得直观、形象的效果,一、 统计表,1. 统计表的结构 2. 统计表的

18、种类,标题: 标目: 线条: 数字:无数字用“”表示,缺失数字用“”表示,数值为0者记为“0”,不要留空项。 备注:,1、统计表的基本结构,表4-8 某省某工厂 1994、1998年四项检测指标异常检出率,:TTT(麝香草酚浊度试验), :GPT(谷丙转氨酶)。,2. 统计表的种类,根据分组标目的复杂程度,统计表可大致分为简单表和复合表。 简单表(simple table):只按一个特征或标志分组。如表4-1 。 组合表(combinative table) :按两个或两个以上特征或标志结合起来分组。如表4-8。,简单表示例,分组标志为矫治方法,表4-8 某省某工厂 1994、1998年四项检

19、测指标异常检出率,:TTT(麝香草酚浊度试验), :GPT(谷丙转氨酶)。 (丁建生等. 中国卫生统计 1999; 16(3):166 ),复合表示例,分组标志:不同年份 不同检测指标,例 下表是复方猪胆胶囊治疗两型老年性慢性支气管炎的疗效比较,请对该表的绘制进行评价,并指出所存在的问题。,表 复方猪胆胶囊治疗两型老年慢性支气管炎患者的疗效比较,一、 统计图,统计图(statistical chart 或statistical graph)是用点、线、面等几何图形,直观形象地表达、描述数据或结果。 1. 统计图的结构 2. 统计图的种类与绘制注意事项,1、统计图的结构,标题:用于简明扼要地说明

20、资料的内容,一般位于图的下方中央位置。 图域:即制图空间,是整个统计图的视觉中心。除圆图外,一般都是存在于特定的坐标体系下。 标目:分为纵标目和横标目,表示坐标系下纵轴与横轴的含义。 图例:用于识别比较的统计图中各种图形所代表的含义。 刻度:即纵轴和横轴上的坐标。刻度数值按从小到大的顺序,纵轴由下向上,横轴由左向右排列。,2. 统计图的种类与绘制注意事项,直条图 百分条图 圆图 线图与半对数线图 直方图 箱图 散点图 统计地图,(1)条图(bar graph) 1. 概念 条图用等宽长条的高度表示按性质分类资料各类别的数值大小,用于表示他们之间的对比关系。 2. 适用资料:相互独立的资料(资料

21、有明确分 组,不连续)。 3. 分类 (1)单式条图 具有一个统计指标,一个分组因素。 (2)复式条图 具有一个统计指标,两个分组因素。,条 图,表4-8 某省某工厂 1994、1998年四项检测指标异常检出率,:TTT(麝香草酚浊度试验), :GPT(谷丙转氨酶)。 (丁建生等. 中国卫生统计 1999; 16(3):166 ),条 图,条 图,绘制条图注意事项, 纵轴的刻度必须从“0”开始,否则会改变各对比组间的比例关系。 (2)横轴各直条一般按统计指标由大到小排列,也可按事物本身的自然顺序排列。 (3)各直条的宽度要一致,各直条应有相等的间隔,其宽度一般与直条的宽度相等或为直条宽度的一半

22、。,(2)圆图(pie graph),1.概念 以圆形的总面积代表100%,把面积按比例分成若干部分,以角度大小来表示各部分所占的比重。 2.适用资料:构成比资料,2002年某医院1402例孕妇分娩结果,(3)百分条图(percentage chart),百分条图的作用与圆图相同。但更适用于多组百分比的比较。,不同性别某癌三种类型的构成,(4)线 图,一、普通线图(线图),1.概念 线图(line graph)是用线段的升降来表示 统计指标的变化趋势。如某事物随时间的 发展变化,或某现象随另一现象变迁的情况。 2.适用资料 适用于随时间变化的连续性资料。,.分析目的: 用线段的升降表示某事物在

23、时间上的发展 变化趋势。,二、半对数线图,1. 概念 是一种特殊的线图,其坐标纵轴是对数尺 度,特别适宜作不同指标变化速度的比较。 2.适用资料 适用于随时间变化的连续性资料,尤其比 较数值相差悬殊的多组资料时采用。,.分析目的: 半对数线图中线段的升降是用来表示某事物 发展速度(或者说是相对比)。,普通线图(线图):纵横轴均为算术尺度, 半对数图:纵轴为对数尺度,横轴为算术 尺度。,注意:在普通线图中,结核病死亡率线条的坡度比白 喉死亡率线条下降的陡峭,只能说明两种疾病的死亡 率逐年变化幅度不同,不能错认为结核病死亡率的下 降速度比白喉死亡率的下降速度快。在半对数线图中 就不会出现这种错觉。

24、在比较事物间的变化速度时, 应选择半对数线图。,(5)直 方 图,1.概念 是以直方面积描述各组频数的多少,面积的总和相当于各组频数之和。 2.适用资料: 直方图用于表达连续性资料的频数分布。,3.制图要求: (1)一般纵轴表示被观察现象的频数(或频 率),横轴表示连续变量,以各矩形(宽 为组距)的面积表示各组段频数。 (2)直方图的各直条间不留空隙;各直条间 可用直线分隔,但也可不用直线分隔。 (3)组距不等时,横轴仍表示连续变量,但 纵轴是每个横轴单位的频数。,(6)箱 式 图,箱式图:使用5个统计量反映原始数据的 分布特征,即数据分布中心位置、分布、 偏度、变异范围和异常值。,箱式图的箱

25、子两端分别是上四分位数(P75)和下四分位数(P25) ,中间横线是中位数(P50)两端连线分别是除异常值外的最小值和最大值。另外标记可能的异常值。显然箱子越长,数据变异程度越大。中间横线在箱子中点表明分布对称,否则不对称。,例 某地调查不同类型化妆品厂车间内粉尘数,结果 绘制成图2-20。图中显示粉尘数的分布呈偏态分布, 净化厂粉尘数较少,非净化厂粉尘数较多。,(7)散 点 图,1.概念 散点图以直角坐标系中各点的密集程度和趋势来表示两现象间的关系。常在对资料进行相关分析之前使用。 2.适用资料:双变量资料。,12名女大学生身高与体重散点图,(8)统计地图,统计地图(statistical map):是用不同 的颜色和花纹表示统计量的值在地理分布 上的变化,适宜描述研究指标的地理分布。,例 调查广东省四会市鼻咽癌高发区1990-1999年 十年间鼻咽癌的发病数,按镇区计算标化发病比 (SMR),标志在四会市行政地图上。,图 1990-1999年某市鼻咽癌标化发病比的地区分布,The end,

展开阅读全文
相关资源
猜你喜欢
相关搜索

当前位置:首页 > 其他


经营许可证编号:宁ICP备18001539号-1