2018年流行病学数据分析处理方法-文档资料.ppt

上传人:吴起龙 文档编号:1903984 上传时间:2019-01-20 格式:PPT 页数:34 大小:333.50KB
返回 下载 相关 举报
2018年流行病学数据分析处理方法-文档资料.ppt_第1页
第1页 / 共34页
2018年流行病学数据分析处理方法-文档资料.ppt_第2页
第2页 / 共34页
2018年流行病学数据分析处理方法-文档资料.ppt_第3页
第3页 / 共34页
2018年流行病学数据分析处理方法-文档资料.ppt_第4页
第4页 / 共34页
2018年流行病学数据分析处理方法-文档资料.ppt_第5页
第5页 / 共34页
点击查看更多>>
资源描述

《2018年流行病学数据分析处理方法-文档资料.ppt》由会员分享,可在线阅读,更多相关《2018年流行病学数据分析处理方法-文档资料.ppt(34页珍藏版)》请在三一文库上搜索。

1、山东大学公共卫生学院 流行病学数据分析前的准备工作流行病学数据分析前的准备工作 一、原始数据的检查 在数据分析前需要对原始的流行病学调查研究数据进行一 次审查,发现可能存在的错误、遗漏的研究变量取值和其他问 题,并采取相应的措施进行处理。 u若在调查表中发现有缺失的数据,可以通过电话再次询问 研究对象、查阅有关的记录、应用储存的血液标本重新检 测或再次取样等措施进行补充。 u若发现逻辑错误,也要及时改正。需要对调查问卷进行编 码或者对已编码的问卷进行核查,避免重复和遗漏。 1 山东大学公共卫生学院 二、选择合适的数据管理和数据分析软件 u常用的数据管理软件 Microsoft FoxPro、M

2、icrosoft Access、 Microsoft Excel 这些数据管理软件也具有简单 的数据分析功能,Excel的数据分析功能更强,不 仅可实现描述性统计,还可以做t检验、方差分析 、相关回归分析等 u常用的数据分析软件 SAS(Statistical Analysis System)和SPSS (Statistical Package for Social Science), 它们均具有很强的数据分析和数据管理的功能 2 山东大学公共卫生学院 三、数据的计算机录入 (编号、定义变量名、变量数量化) u编号:给每一个调查表或调查对象一个编号 以识别录入的数据与调查表或调查对象的对应 关

3、系(唯一性) p使用阿拉伯数字1、2、3等给每份调查表按照顺 序编号,这样有利于以后对输入的数据进行检查、 核对与修改错误。 p可以给编号以时间、地区、单位、调查对象编号等 ,如:200501(济南)02(历下)0001(调查对 象) 3 山东大学公共卫生学院 u定义变量名称: 命名:可以应用中文、拼音、也可以应用英文,但以 使用拼音或英文为好,这样可以方便输入。 注意: p 变量名应简短、易懂易记:如对性别、年龄、身高、体重可 以使用gender, age, height 和weight进行命名。对名称较 长的变量,可以使用简写,如wt表示weight、ht表示height 。 p 标记或说

4、明:有些数据管理和分析软件可变量进行标记或说 明,避免时间长久了而忘记数据库中的变量名字,如对上述 Wt可标记为“weight”。 4 山东大学公共卫生学院 u变量数量化 如果调查表的设计是编码式的,则此步骤可省略 ,直接将变量取值编码的结果输入计算机。 若不是编码式的调查结果,则需要对变量的取值 结果进行编码(数量化)。 5 山东大学公共卫生学院 l 常见变量的类型 1、字符型(character type): 输入字符如中文或英文 2、数值型(numerical type): 以数值的形式输入 3、日期型(data type): 按照规定的格式输入日期数值 4、逻辑性(logical ty

5、pe): 6 山东大学公共卫生学院 l变量数量化时应注意: (1)除日期型变量外尽量使用数值型变量 (2)某些数值变量(numerical variable)可 直接输入变量的取值,如研究对象的身高、体 重、血压水平等。 (3)分类变量(categorical variable)及有 序变量(ordinal variable)则可将其取值进行 量化,然后再输入计算机 7 山东大学公共卫生学院 如:分类变量如:分类变量种族种族 白人1 黑人2 西班牙裔人3 亚太裔4 其它种族5 注意: 分类变量在进行多因素分析时,必须转换成哑变量( dummy variable),不能直接将前述的取值1、2、3

6、、 4、5放入方程中进行分析。 8 山东大学公共卫生学院 l 有序变量的数量化顺序合理,则可以直接进行分析 如:教育程度 文盲:0 小学:1 中学:2 高中及中专:3 大学:4 硕士及以上:5 9 山东大学公共卫生学院 四、数据的检查与核对四、数据的检查与核对 (一)检查数据库结构(一)检查数据库结构 数据库样本数(观测数)、变量数、变量名称及定义数据库样本数(观测数)、变量数、变量名称及定义 等。等。 (二)检查各变量的取值情况(二)检查各变量的取值情况 查看变量取值范围,有无逻辑错误:查看变量取值范围,有无逻辑错误:如性别如性别应有两个应有两个 取值,若有取值,若有2 2个以上的取值,说明

7、存在错误个以上的取值,说明存在错误 。 对数据变量要检查其最小值对数据变量要检查其最小值(minimum)(minimum)、最大值、最大值 (maximum)(maximum)、均数、均数(mean)(mean)、中位数、中位数(median)(median),并查,并查 看是否有异常取值看是否有异常取值(outlier)(outlier),如极小值及极大值。,如极小值及极大值。 异常值若影响显著时应删除异常值若影响显著时应删除 10 山东大学公共卫生学院 五、数据的整理 (一)数据分组 l分类变量: 按其原有的分类进行分组,若有必要,可将性质 相近或差别不大的类别进行合并。如教育程度。 l

8、数值变量: 按照实际的生理、病理或临床意义分组,如体重 指数:低体重、正常体重、超重和肥胖 11 山东大学公共卫生学院 按使用的方便程度和专业上惯用的方法分 组,如年龄在某一个合适的范围内每5岁或10岁 分成一组。 按分位数分组,即首先找出四分位数( quartile)或五分位数(quintile)的界值,然后 应用这些界值将研究对象平均分成4组(每组 25%的研究对象)或5组(每组20%的研究对象 )。 12 山东大学公共卫生学院 (二)数据的转换 1、非正态数据的变量转换 原理: 正态分布 参数检验(parametric test) 非正态数据非参数检验(non-parametric te

9、st) (不是对原始数据检验)如:秩和检验 (是对 原始数据的秩次检验) 检验:正态性检验、方差齐性检验 方法:对数变换;平方根变换;倒数变换 13 山东大学公共卫生学院 2、分类变量转换成哑变量 u原理: 分类变量是二分类尺度及顺序尺度,则可 直接应用其原有的数量化数值。 名义尺度因为各类别间没有顺序关系,在 进行不同分析(包括多元分析、logistic回归 、Cox回归等)时,不能使用原始的计算机录 入数值,必经进行变量转换。即将该变量转 换成(水平数-1)个哑变量,再将这些新转换 的变量放入多因素模型中。 14 山东大学公共卫生学院 u方法: 例如:将种族原始取值转换成哑变量(新变量)

10、表1. 分类变量转换成哑变量的方法 新变变量 . 种族 原始取值值(x1) x1-1 x1-2 x1-3 x1-4 白人 1 0 0 0 0 黑人 2 1 0 0 0 亚亚太裔 3 0 1 0 0 西班牙裔人 4 0 0 1 0 其它种族 5 0 0 0 1 新变量以白人为参照,X11表示黑人与白人比较,依此类推 15 山东大学公共卫生学院 六、确定拟分析的因变量和应变量 l因(自)变量(independent variable):是指 影响疾病的发生或健康状况的分布的变量,是 原因变量 、已知变量、x变量。 l应变量(dependent variable):是指随因变量 的变化而发生变化的变

11、量,是结果变量、预测 变量、y变量。 应变量是在自变量作用下产生反应的变量 16 山东大学公共卫生学院 意义 l有助于选择拟研究的变量:对调查表的设计具有指导 作用 l可以指导数据分析方法的选择: 因变量是分类变量:采用 2检验,logistic回归 分析等。 因变量是数值变量:采用t检验、方差分析,协 方差分析、多元回归等 。 l有助于模型的建立 :应变量( y )放在模型的左侧 ,因变量(x )放在模型的右侧。 17 山东大学公共卫生学院 l例1. 欲评价不同治疗方法(口服药物、注射胰岛素及 膳食控制)对糖尿病人的治疗效果(血糖水平),分 析时要求调整病人的性别、年龄和病程的影响。 血糖水

12、平(应变量y)=治疗方法(因变量x)+其它协变量 (covariate,性别、年龄和病程) l例2. 欲分析脂蛋白(a)与冠心病发生的关系。 冠心病(应变量y)=脂蛋白(a)(因变量x) 18 山东大学公共卫生学院 七、缺失数据(missing data)的处理 l 缺失数据:是指其测量结果缺失。 产生的原因: p 问卷调查:遗漏出生日期和年龄,调查结束后又无法补救 p 实验室检测:血脂或血糖因为血清量不足或研究对象拒绝采血 而致 p 过去处理:仅用无缺失的数据进行分析损失样本量 缺失数据“合理”赋值人为赋值不一定合 理 19 山东大学公共卫生学院 u现在处理 数据分析处理件软处理 :SAS自

13、动分析处理 如一个数据库中有性别和年龄等变量,性别有10个缺 失数据,年龄有3个缺失数据: 分析性别时不包括性别缺失的10个个体 分析年龄时不包括缺失年龄的3个个体 当分析中(如多因素分析)共同使用了性别和年龄时,分析 的实际样本数量是性别和年龄这两个变量均不含缺失数据的 样本 20 山东大学公共卫生学院 流行病学数据分析方法的选择 一、流行病学数据的分析程序 数值变量 正态性检验 正态 数据转换 非正态 参数检验 非参数检验 图1. 数值变量的分析程序 21 山东大学公共卫生学院 单因素分析 2检验 分类变量 分层分析 多因素分析 logistic回归分析 Cox回归分析 其它分析方法 图2

14、. 分类变量的分析程序 22 山东大学公共卫生学院 二、根据研究设计类型选择 (一)成组比较的设计 两组比较:t检验或2检验 多组比较:方差分析、行列表2检验 病例对照研究:按其分析方法分析 分级的病列对照研究:按其分析方法分析 (二)配对(自身实验前后)设计 配比的t检验、2检验 配对的病例对照研究方法进行数据 23 山东大学公共卫生学院 (三)重复测量的设计 在给定一个处理因素后在不同的时间重复测量某 一效应变量的改变情况。如欲评价生物制品接种后的 免疫学效果,在接种后的2周、4周、6周和8周测定抗 体滴度:重复测量的方差分析方法 (四)多因素设计 自变量是数值变量:多元回归分析方法、协方

15、差分 析方法 自变量分类变量:logistic回归分析方法、判别分 析方法、聚类分析方法 24 山东大学公共卫生学院 三、根据变量的类型选择 因变量 应变量(y) (x) 数值变量 分类变量有序变量 数值变 量 相关分析,多元回 归分析 t检验,方差分析, 协方差分析,多元 回归分析 相关分析,多元 回归分析 分类变 量 t检验,方差分析, logistic回归分析,判 别分析,聚类分析 2检验,logistic回 归分析 2检验 有序变 量 方差分析,logistic 回归分析,判别分析 ,聚类分析 2检验,logistic回 归分析 相关分析, 2检 验 生存时 间 生存分析 表表2. 2

16、. 不同变量类型的数据分析方法选择不同变量类型的数据分析方法选择 25 山东大学公共卫生学院 表3. 不同研究设计和数据类型的数据分析方法选择 研究设计类 型 变量 类型 两组比 较 两组以上比 较 实验前后比较重复测量两变量间 的联系 数值 变量 t检验方差分析配对t检验重复测量 的方差分 析 线性回归 Pearson相 关系数 分类 变量 2检验2检验配对2检验列联表相 关系数 有序 变量 Mann- Whitney 秩和检 验 Kruskal- Wallis分析 (成组设计 多 个样本比较的 秩和检验 ) Wilcoxon符号秩 和检验 (配对 设计差值的符 号检验) Spearman

17、相关系数 生存 时间 生存分 析 26 山东大学公共卫生学院 不同流行病学研究类型的数据分析方法 一、描述性研究 (一)现况研究 分布描述:患病率、危险因素流行率、数值变量分布 探讨因素:相关回归分析、2检验、t检验、方差分析、多因 素分析、人群归因危险度 (二)生态学研究 同现况研究 (三)筛检 筛检试验的真实性和可靠性 人群中疾病、健康状况、危险因素筛选结果分析方法:同现 况研究 27 山东大学公共卫生学院 (一)病例对照研究 病例对照研究数据 成组设计 配比设计 粗OR分级OR剂量反应 分层OR 分级OR剂量反应 (趋势2检验) (趋势2检验 ) 分层OR 混杂与效应修饰分析 混杂与效应

18、修饰分析 图3. 病例对照研究数据的分析程序 二、分析性研究的数据分析方法二、分析性研究的数据分析方法 28 山东大学公共卫生学院 (二)队列研究 队列研究数据 人时、发病密度/累积发病率 粗RR、AR、AR%、PAR及PAR% 分层RR、AR、AR%、PAR、PAR% 分级RR、AR、AR%、PAR、PAR 图图4. 4. 队列研究数据的分析程序队列研究数据的分析程序 29 山东大学公共卫生学院 三、实验研究的数据分析方法三、实验研究的数据分析方法 干预组与对照组某疾病发病率、危险因素的干预组与对照组某疾病发病率、危险因素的 暴露率及数值变量均值水平的差异,检验方暴露率及数值变量均值水平的差

19、异,检验方 法同前述法同前述 效果指数、保护率效果指数、保护率 30 山东大学公共卫生学院 流行病学数据的表达与报告流行病学数据的表达与报告 一、数据的报告顺序 1、按分析顺序 描述性结果:如人口学数据(性别、年龄、职业、文化程度 ,居住地)、某病发病率/患病率、危险因素流行率、数值 变量的集中趋势及变异情况 单因素分析结果 多因素的分析结果 2、按变量的特点及逻辑顺序 按某疾病的人群、地区及时间的分布特征 按个人生活方式因素、家族遗传因素、社会心理因素、实验 室及体格检查结果等顺序 31 山东大学公共卫生学院 二、非正态数据的表达与报告 1、未进行变量转换: 报告中位数、最小值及最大值 报告

20、中位数、25%分位数、75%分位数、最小值 及最大值 报告均值、中位数再配合以上的变异指标 2、进行变量转换数据 报告原始值 报告其转换值 32 山东大学公共卫生学院 三、数据表达与报告中图、表及文字的使用 u合理 u生动活泼、简洁明了 u协调好三者关系 如用盒状图(均值、25%分位数、75%分位数、最小值及 最大值)表达数据的集中趋势及变异情况 以表格的形式报告OR值或RR值 以条图的形式报告OR或RR的点估计值、95%或99%可信 区间 33 山东大学公共卫生学院 流行病学数据分析中存在的问题流行病学数据分析中存在的问题 一、不重视人口学数据及描述性统计量分析一、不重视人口学数据及描述性统计量分析 二、忽视分析方法的应用条件二、忽视分析方法的应用条件 三、数据的分组方法不合理三、数据的分组方法不合理 四、多因素分析中分类变量未转换为哑变量四、多因素分析中分类变量未转换为哑变量 五、多因素分析中未进行模型拟合度的检验五、多因素分析中未进行模型拟合度的检验 六、需要分析的数据未进行统计学分析六、需要分析的数据未进行统计学分析 七、缺失数据的处理七、缺失数据的处理 八、相对数的误用八、相对数的误用 九、忽视对协变量效应的控制九、忽视对协变量效应的控制 34

展开阅读全文
相关资源
猜你喜欢
相关搜索

当前位置:首页 > 其他


经营许可证编号:宁ICP备18001539号-1