浙大统计——描述统计.doc

资源描述

《浙大统计——描述统计.doc》由会员分享，可在线阅读，更多相关《浙大统计——描述统计.doc（12页珍藏版）》请在三一文库上搜索。

1、医学统计学与电脑实验ab0a9bfa980d8669ab7ca9b24818ebbb.pdf 12 / 8第一章描述性统计中山大学公共卫生学院医学统计学与流行病学系骆福添重点12公式1-1 1-3 1-5 1-71-2 1-4 1-6 1-8变量与数据频数表与直方图样本平均水平的度量样本变异的度量相对数与率的标准化医学研究可搜集到一批原始数据，如某地120名正常成年男子RBC数如下表。面对这大小不一的120个数据，无论多认真审视也说不清这些RBC数的情况怎样、特征如何。如果算得平均数为4.71(1012/L)，即知：尽管这120个数据大小不等，但集中在4.71左右。这就是统计描述，

2、平均数4.71便是此样本数据的一个特征数。统计描述就是描述样本数据的特征。用表、图和指标来描述样本数据的特征。例1.4 某地120名正常成年男子红细胞数(1012/L)t165.125.134.584.314.094.414.334.584.245.454.324.844.915.145.254.894.794.905.094.645.145.464.664.204.213.735.175.795.464.494.855.284.784.324.945.214.685.094.684.915.135.263.844.174.563.526.004.054.924.874.284.465.03

3、5.695.254.565.534.584.864.974.704.284.375.334.784.755.395.274.896.184.135.224.444.134.434.025.865.125.363.864.685.485.314.534.834.113.294.184.134.063.424.684.525.193.705.514.644.924.934.903.925.044.704.543.954.404.313.774.164.585.353.715.274.525.214.374.804.753.865.69第一节变量与数据一、变量的类型1）连续型变量与计量资料：测量结

4、果的记录(Y)2）离散型变量与计数资料：清点数目的记录(X)3）有序变量与等级资料：半定量测量的结果(Z) 与变量有关的概念：* 变异：许多医学现象的表现因人而异，称为变异。* 变量：表示个体某种变异特征的量称为变量。* 变量值：是指个体某种变量的观察值。二、数据的结构与特点1）基本观察单位：又称为个体，上述例01中每个病人为一个观察单位（眼、家庭、班级）。2）记录项目：表1.1 100名高血压患者治疗后的临床记录患者编号年龄(岁)性别治疗分组收缩压(kPa)舒张压(kPa)心电图疗效评定变量（名）137男A药18.6711.47正常显效245女对照20.0012.53正常有效变量值343男

5、B药17.3310.93正常有效（观察值）459女对照22.6714.67异常无效10054女B药16.8011.73正常有效连续离散离散连续连续离散有序变量类别第二节频数表与直方图一、频数表1）分类频数表：表1.32）半定量频数表：表1.53）计量频数表：表1.6t16(变量类别有序)表1.3 108名病人中职业频数表表1.5 某药物疗效频数表类别频数频率(%)累积频数累积频率(%)类别频数频率(%)累积频数累积频率(%)工28 25.9 28 25.9治愈65 43.3 65 43.3农23 21.3 51 47.2有效45 30.0110 73.3兵24 22.2 75 69.4无效2

6、5 16.7135 90.0学18 16.7 93 86.1恶化15 10.0150100.0商15 13.9108100.0合计150100.0合计108100.0 欲了解上述某地120名正常成年男子RBC数的情况，不妨先将数据分组整理，而后分析其特征。计量频数表编制步骤：找出最大最小值，求出全距：R=最大值最小值确定组距：i=R/10=(6.18-3.29)/10=0.2890.30分组段，用唱票划记法统计各组段的频数由组段和频数两栏组成的整理表称为频数分布表，简称频数表。从表1.6的第1，3栏可见：120名正常成年男子RBC数在4.85(4.70组的中点)上下；变异度(离散趋势)不

7、大，即频数的变化较平稳；对称性较好。频数表适用于大样本，一般分10组左右，组段下限及间隔取方便数，第一组段包含最小值，最后组段右端封口。二、频数图和直方图1）频数图：将频数表数据在直角坐标系上绘制成图便称为频数分布图，简称频数图，其意义同频数表，但较直观。2）直方图：计量频数表作图时，以方块的面积(不是高度)表示频数的多少，称为直方图（图1.3）。3）频数表与频数图的意义较具体地、直观地描述一组数据的分布特征；便于发现可疑的异常值；有助于正确选用统计指标和便于计算。t16_表1.6 120名正常成年男子红细胞计数的频数表t14f13组段划记频数频率(%)累积频数累积频率(%)(1)(2)(3

8、)(4)(5)3.20一 2 1.7 2 1.73.50正 5 4.2 7 5.93.80正正10 8.31714.24.10正正正正1915.83630.04.40正正正正2218.35848.24.70正正正正正2420.08268.35.00正正正正2117.510385.85.30正正11 9.211495.35.60正 4 3.311898.05.906.20一 2 1.7120100.0合计120100.0t16图1.3(a) 120名男子红细胞计数频数分布图第三节样本平均水平的度量常用平均水平指标，即平均数的种类：算术均数、几何均数、中位数（众数、调和均数）一、算术均数()

9、将例1.4的120个数据加起来再除以120得4.71(1012/L)便是习惯上说的平均数。统计学上称之为算术平均数，简称均数。1.直接法：(1.1)式中n为例数，是求和符号(大写希腊字母，念sigma)。均数的适用条件：数据呈对称分布，尤其是正态分布(后述) 均数的意义：均数位于分布的中心位置，反映全部观察值的平均水平，又称集中趋势。2.加权法：表1.7 120名正常成年男子红细胞计数加权平均演算表组段组中值(x)=权重频数(f)频率(f/n)权重系数组中值频率i(1)(2)(3)(4)=(3)/120(5)=(2)(4)= (2) (3)/120=xi*fi/n3.203.35=(3.20

10、+3.50)/220.0170.05583.503.6550.0420.15213.803.95100.0830.32924.104.25190.1580.67294.404.55230.1920.87214.704.85240.2000.97005.005.15210.1750.90135.305.45110.0920.49965.605.7540.0330.19175.906.206.0510.0080.0504合计1201.0004.6950权w2=0.3权w1=0.1155重x1=15重x2=5权重=权重(w1x1=w2x2) 权重系数重=(f/n)x(1.2)本教材公式其他教材公式t

11、004二、几何均数有些医学资料如抗体滴度，呈倍数关系，算术均数不能反映其平均水平。例如，抗体滴度：4, 8, 16, 16, 64, 128算术均数=39.3，代表性很差。几何均数：(1.3)(1.4)式(1.2)与(1.3)是等价的，式(1.3)更易体现“几何”的含义。三、中位数（Md）：median 有些医学资料如发汞、潜伏期、住院天数等，分布是偏态的（图1.4），算术均数或几何均数都不能反映其平均水平。数据从小到大顺序排队后，位于正中间的数值称为中位数。1）直接法：n为奇数：n为偶数：2）频数表法：近似法(线性插值法或等份插值法)表1.8 某地居民发汞(mol/kg)频数表组段频数

12、累积频数组中值(1)(2)(3)(4)120202366 86 (fa)4(a)5(b)60 146 (fb)67 4819489182121011162281213623414151235161712361819323920合计239(1.5)Md所在组段下限值组距平分为fm等份Md需补加的份额数1计算中位数所对应得名次N/2（239/2=119.5） 2从累计频数中找到改名次所对应的组段记为AB，该组段两端点所对应得累积频数记为fafb 3根据公式可估计N/2名次所对应得数值即中位数你说的是对的，而且中位数所对应的名次可以不是整数第四节样本变异的度量前述平均数是样本数据的特征值(代表

13、值)，如均数4.71代表例1.4的120个数据。ex-01 有两组男子身高如下，其均数相等，问两组身高(特征)是否一样？甲组：170, 175, 180, 185, 190均数=180 (cm)乙组：160, 170, 180, 190, 200均数=180 (cm)解：不完全一样，因其变异程度不同 (图001)。可见，平均数只反映了数据分布(中心)位置方面的特征(平均水平)；数据分布的形状特征(变异度)应该有另一指标来表示。常用的变异度指标有如下4种：一、极差或全距(R)R=最大值最小值。其效果“极差”，因最大与最小值稳健性最差，即：若反复抽样，所得的R值差别很大(如潜伏期)。极差(R

14、)的适用情况：一般用于小样本非正态资料变异度的描述。如急性食物中毒的潜伏期、考古学观察值等。二、四分位数间距(Q) 百分位数(Xp)解释：设有50个数据，从小到大排队，数据在队列中的顺序位置用百分数p表示，如队列中第五个数据的位置为10%，第六个数据的位置为12%，第五十个数据位置为100%，则称第五个数据的值为10百分位数，第六个数据的值为12百分位数，。百分位数是一种位置指标（其它参考书记为Px, percentile）。ex-02 设有100个观察值如表002，表002 发汞100个数据从小到达排队及其百分位数序号观察值百分位数符号序号观察值百分位数符号11.101百分位数X121.1

15、22百分位数X2757.33上四分位数X752.51.132.5百分位数X2.531.143百分位数X39517.5595百分位数X9541.304百分位数X49617.9596百分位数X9651.815百分位数X59718.0097百分位数X9797.518.297.5百分位数X97254.22下四分位数X259818.4098百分位数X989919.2099百分位数X99506.12中位数md10019.50 重要的几个百分位数：1）中位数：即50百分位数，指md的数据占50%2）下四分位数：即25百分位数，指X25的数据占25%3）上四分位数：即75百分位数，指X75的数据占75%4）其

16、它：5百分位数、95百分位数，2.5百分位数、97.5百分位数(估计参考值范围)。百分位数计算公式：由于n一般不会恰好等于100，因此，不论直接法或频数表法，常用线性插值法计算，其公式为(1.6)前述中位数的计算公式(1.5)实际是式(1.6)的一个特例，即当p=50时，式(1.5)与式(1.6)等价(全等)。百分位数计算步骤：ex-03 计算例1.5(表1.7)的下、上四分位数。解：即计算X25与X751）找到p百分位数对应的名次，np%，本例23925%=59.7523975%=179.25（保留小数位）2）找到该名次所在组段(位置)，记为ab，本例X25在组段“3”，a=3，b=5X

17、75在组段“7”，a=7，b=93）找到a和b对应的累计频数，记为fa，fb，本例X25的fa=20，fb=86X75的fa=146，fb=1944）代如式(1.5)计算：下、上四分位数为四分位数间距(Q)定义与计算公式：Q=X75X25本例：Q=8.39-4.20=4.19 (m mol/kg) 四分位数间距(Q)的意义：表示分布于中间的一半数据的变异范围。其稳健性比前述的极差R好很多，因中间半数数据的稳健性较好。四分位数间距(Q)的适用情况：多用于大样本非正态资料变异度的描述。如住院天数、慢性病潜伏期等。三、方差与标准差前述的极差R与四分位数间距Q都是依据2个数值计算，只利用了样本的

18、小部分信息，稳健性总是不理想的。理想的变异度指标应能利用样本中每一个数据的信息，方差与标准差符合此要求。1）样本方差(S2)：整个样本的变异由每一个个体提供的，个体的变异可由离均差的平方来表示，即定义：整个样本的平均变异度便称为方差(S2)，即总体方差：(1.7)分母“n1”称为自由度，数理统计学家认为，若为小样本，以n来求均值，估计的方差偏大，故用n-1作分母(无偏估计)。应用公式：(1.8)式(1.8)是由式(1.7)推导出来的，两者完全等价，但式(1.8)在计算上比式(1.7)方便得多。2）标准差(S)：方差的平方根称为标准差。即对例1.4求得：S2=0.32；S=0.57(1

19、012/L) 方差是平方值，不便与均数联合应用；而标准差便可直接与均数联合应用。标准差的适用条件：正态分布资料(后述)。标准差的应用：（标准差表示平均差别大小）常与均数联合在一起，用于描述一组数据的变异程度，表达格式为。例1.4均数与标准差分别为4.71和0.57，可表达为4.710.57四、变异系数(CV)ex-03 测得正常青年男子身高为1706(cm)，体重为607(kg)，其身高与体重何者变异度大？解：两者标准差单位不同、均数差别很大，不可比。变异系数公式：(1.9) 变异系数意义：消除标准差的量纲(单位)及均数的影响，使之具有广泛的可比性。计量资料统计描述指标的选用（一般原

20、则）：（1）均数与标准差：描述一般的生理指标数据；（2）几何均数(不计算变异度指标)：主要用于抗体滴度的描述；（3）中位数与四分位数间距：主要用于描述潜伏期、住院时间、微量元素含量。第五节相对数与率的标准化一、比、比率和速率：1）比(ratio)：又称相对比，即两个指标之比，如男女性别比。2）比率(proportion)：一般指构成比，用于表示某部分在全体中所占的比重。如肿瘤死亡占全部死亡的百分比为3）速率(rate)：又称频率指标，简称为率，表示事件发生的强度或严重程度，如发病率、患病率、死亡率，等。率在应用中常出现定义不严谨问题，但须知率的可比性是第一位的，尤其卫生管理部门要求的指标，

21、千万不可自作主张修改计算公式。二、粗死亡率不可比较：是指粗死亡率受影响的因素多，如性别和年龄构成，等。见下表表1 两个地区的年龄别死亡率资料年龄组(岁)A 地区B 地区年中人口数(千人)死亡数(千人)死亡率()年中人口数(千人)死亡数(千人)死亡率()(1)(2)(3)(4)(5)(6) (7) 0 400 2 5.0 288 1 3.515200010 5.0 238 1 4.230200015 7.5 794 5 6.345 800 8 10.02000 18 9.060 40016 40.02000 70 35.075 8012150.0 300 36120.0合计568063 1

22、1.15618131 23.3*直接比较粗死亡率是不行的。*分别在各年龄组中比较死亡率最合理。三、标准化方法：1、表1.9分析：粗看：合计死亡率A地区低于B地区细看：各年龄别死亡率A地区高于B地区原因：年龄因素干扰表1.9 两个地区的年龄别死亡率资料 t110 t19a年龄组(岁)A 地区B 地区年中人口数(千人)死亡数(千人)死亡率()年中人口数(千人)死亡数(千人)死亡率()(1)(2)(3)(4)（3）/（2）(5)(6) (7) 0 400 2 5.0 288 1 3.515200010 5.0 238 1 4.230200015 7.5 794 5 6.345 800 8 10.

23、02000 18 9.060 40016 40.02000 70 35.075 8012150.0 300 36120.0合计56806311.1粗死亡率不可比较5618131 23.31）直接法：假如样本的年龄别死亡率发生在某个标准人口的话，（以标准人口为权重系数）推算的、期望的、理论上的合计死亡率称为直接法标准化率。标准化方法旨在产生一个可比的综合指标 “ 标准人口”: 全国或全省或两地之和 “ 标准人口”的期望死亡人数及其合计值直接法标准化死亡率 = “ 标准人口”的期望粗死亡率例：用两地人口之和为标准人口，对表1的资料按直接法标准化后考察两地的死亡威胁何者为大。表1.10 两

24、个地区的直接法标准化死亡率t19 t19a年龄组(岁)标准人口数(千人)=表1.9中(2)+(5)A 地区B地区死亡率()表1.9中（3）/（2）期望死亡人数(千人)死亡率()期望死亡人数(千人)(1)(2)(3)(4)=(2)(3)(5)(6)=(2)(5)0688=400+2885.03.433.52.401522385.011.194.29.403027947.520.966.317.60452800010.028.009.025.206024004096.0035.084.0075380150.057.00120.045.60合计1129819.2=216.58/11298100021

25、6.5816.3=184.20/112981000 184.202）间接法：假如样本的死亡数按某个标准的年龄别死亡率分配到各个年组的话，推算的、期望的、理论上的合计死亡率称为间接法标准化率。“ 标准年龄别死亡率” : 全国或全省或两地联合估计实际人口的期望死亡人数及其合计值标准死亡比(standard mortality ratio) SMR= 实际死亡人数期望死亡人数间接法标准化死亡率 = SMR ( 标准粗死亡率 )表1.11 两个地区的间接法标准化死亡率年龄组(岁)标准死亡率()A地区B地区年中人口数(千人)期望死亡数(千人)年中人口数(千人)期望死亡数(千人)(1)(2)

26、(3)(4)=(2)(3)(5)(6)=(2)(5)0 4.3 400 1.72 286 1.2315 4.62000 9.20 238 1.0930 6.9200013.80 794 5.4845 9.5 800 7.602000 19.0060 37.5 40015.002000 75.0075135.0 8010.80 300 40.50合计 17.258.12142.30A地：SMR6358.121.084 (标化死亡比)间接法标准化死亡率17.21.08418.64()B地：SMR131142.300.921；间接法标准化死亡率17.20.92115.84()比较两地的SMR或比较两

27、地的间接法标准化死亡率，可以认为A地的死亡威胁甚于B地。2 粗死亡率与标准化死亡率的实质粗死亡率：是年龄别死亡率(x)的加权平均，权重是本地各年龄组人口数(构成比 wa) 权重为人口构成直接法标化率：也是年龄别死亡率(x)的加权平均，权重是标准人群各年龄组人口数(构成比 wd) 权重为标准人口的构成间接法标化率：标准组年龄别死亡率(x)的加权平均，权重是当地各年龄组人口数(构成比 w)，标准粗死亡率的修正，修正系数为SMR*宜选取多种“ 标准人口”和“ 标准年龄别死亡率”。结果具一致性时方可下结论。权w2=0.3权w1=0.1155重x1=15重x2=5权重=权重(w1x1=w2x2)

28、权重系数重=(f/n)x直接法标准化死亡率期望死亡人数【=年龄别死亡率 (年龄别死亡人数 / 年龄别年中人口数)年龄别标准人口数】/ 标准人口数总(=A组+B组) (/)总/总直接法依据年龄别死亡率，参照标准人口构成，推算合计率年龄别年中人口数年龄别死亡人数年龄别标准人口数年龄别死亡率/年龄别期望死亡人数期望总死亡数/标准总人口总/总=【标准人口构成比（/总）年龄别死亡率】直接法标准化死亡率 = “ 标准人口”的期望粗死亡率间接法标准化死亡率合计标准死亡率标化死亡比【死亡总数 /期望死亡总数 (年龄别年中人口数年龄别标准死亡率)】间接法依据死亡总数与人口构成，参照标准死亡率，推算合计

29、率年龄别年中人口数人口构成死亡总人数年龄别标准死亡率合计标准死亡率年龄别期望死亡人数标化死亡比= /总合计标准死亡率标化死亡比/（）表1.9(a) 两个 A地区的年龄别死亡率资料 t19 t110年中人口数(千人)A地区人口构成死亡数(千人)死亡率()死亡率加权标准地区人口构成期望死亡率加权(1)(2)wa=(2)/5680(3)(4)wa (4)wd=d2/11298wd (4) 0 4000.0704 2 5.00.35210.06070.30361520000.352110 5.01.76060.19810.99043020000.352115 7.52.64080.24731.854845 8000.1408 8 10.01.40850.24782.478360 4000.070416 40.02.81690.21248.497175 800.014112150.02.11270.03365.0451合计56801.000063 11.111.1粗死亡率1.000019.2直接标化【标准人口构成比）年龄别死亡率】表004 医学统计学成绩的加权平均fwx考查类别权重系数w（%）分数x 权数 wx笔试 60.065 39.0电脑 20.090 18.0练习 20.090 18.0合计100.0 75.0（加权均数）

展开阅读全文