《卫生统计学》研究设计概论.ppt

资源描述

《《卫生统计学》研究设计概论.ppt》由会员分享，可在线阅读，更多相关《《卫生统计学》研究设计概论.ppt（46页珍藏版）》请在三一文库上搜索。

1、第十三章医学研究的统计学设计,郭艳中山大学公共卫生学院E-mail:,医学研究,干预性研究 (Interventional study) 实验研究 (Experiment) 临床试验 (Clinical trial) 观察性研究 (Observational study),2,医学研究的设计,专业设计：从专业角度考虑选题、研究对象和技术方法统计学设计：对象、因素、指标、研究类型、统计方法、样本量估算 ,3,第一节研究设计的基本要素,研究概况研究对象研究因素结局指标调查表,5,一、研究假说,科学研究的假说：根据已有知识作出假定性的说明和推断，有待研究予以验证。例如，关于初次分

2、娩的主动管理政策的假说： (1) 可减少剖腹产的比例； (2) 可减少延长分娩时间的比例； (3) 并不影响产妇对分娩过程的满意度。,5,二、研究对象,“Eligibility criteria”：年龄、性别、临床诊断、病情 “Exclusion criteria”：常为保障病人安全。例如，一项有关HIV感染的临床治疗研究。纳入标准：符合HIV治疗指导原则; 年满18岁的成年人; 开始治疗时。排除标准：怀孕期和哺乳期的妇女。,6,三、研究因素,影响结局的内外因素研究因素：实验性研究，施加于研究对象的外界干预，也称为处理 (treatment)因素；观察性研究，因素是自然存在的，如暴

3、露 (exposure) 因素、危险 (risk) 因素。非研究因素：混杂因素或协变量，应予控制。动物实验：窝别、年龄、体重、营养等；临床疗效研究：疾病分期、病理类型等。,7,四、结局指标,结局指标 (outcome, end point)度量研究因素产生的：效应 (effect) 或反应 (response)主要指标 (primary outcome)和次要指标 (secondary outcome)客观指标和主观指标准确度 (accuracy) 、精密度 (precision)灵敏度 (sensitivity)、特异度 (specificity),8,五、调查表,调查表(form) 问

4、卷 (questionnaire) 量表(scale) 病例报告表(case report form，CRF) 生存质量(quality of life，QOL) 测定量表一份量表含若干领域(domain) 一个领域含若干方面(facet) 一个方面含若干条目(item),9,量表的考评,效度(validity) 有效性和正确性量表确实测定了所要测定的特征？客观真实性的程度？信度(reliability) 可靠性稳定性一致性可接受性(acceptability) 被测定者对量表的接受程度,10,第二节统计设计的基本原则,对照（Control）随机（Randomization）重复

5、(Repeat) 样本含量的估算,12,一、对照(Control),医学研究多数是通过比较产生结论，对照是比较的基础 1消除非研究因素的混杂 2鉴别研究因素的效应和自然发展结果,12,实验的三要素,(1) 受试对象纳入标准和排除标准 (2) 实验因素 (干预因素) 控制重要的非实验因素 (其他） (3) 实验效应但测得的是实验效应与其他效应之和,13,例：相互对照,为比较A与B：,14,二、随机 (Randomization),降低系统误差的影响，贯穿于设计和实施全过程：1.样本代表性总体中任何一个个体都有同等的机会进入样本；2.组间可比性样本中任何一个个体都有同等机会被分配到任何一个

6、组；3.排除实验顺序影响样本中的任何一个个体先后接受处理的机会相同。随机化分组：使实验组与对照组在非实验因素的分布方面尽量保持均衡一致。,15,随机化方法,随机数字表(random number)计算机伪随机数(pseudo random number)发生器可重复为保证实验的可靠性和可重复性，在实验设计中所用的随机化方法、随机数及产生随机数的程序、种子数等均应有记录(备查),16,常用随机抽样方法（概率抽样）,简单随机抽样系统抽样整群抽样分层抽样,1. 单纯随机抽样（simple random sampling),优点：均数、率及其标准误计算简便。简便易行，适用小样本。缺点：当总

7、体中例数多时，对观察单位进行编号不易操作，在实际工作中有时难以实现。方法：抽签，用随机数字表和随机排列表，用计算机。例14-5 抽样参加夏令营活动，某班有学生100人，若抽取为10人参加夏令营，试作单纯随机抽样设计。,2.系统抽样（systematic sampling),例14.6 欲调查某社区贫血患病情况,该社区有居民1000人,试按系统抽样方法,抽取例数为100的样本. 先将1000名居民按某一特征的顺序编号,N为1000, n=100, 抽样间隔1000/100=10, 在110之间随机确定一个数字, 譬如7, 每间隔10个观察单位抽取一个, 即7、17、27、、997组成样本。,

8、系统抽样,优点1）易于理解，简便易行； 2）容易得到一个按比例分配的样本； 3）样本观察单位在总体中分布均匀，其抽样误差一般小于单纯随机抽机抽样。缺点1）当总体的观察单位按顺序有周期趋势或单调增（减）趋势时，容易产生明显的系统误差（偏倚）；2）在实际工作中，一般按单纯随机抽样方法估计其抽样误差，但系统抽样抽取各个观察单位并不是彼此独立的，因此抽样误差的估计只是近似的。,3.整群抽样（cluster sampling),先将总体按照某种与研究无关的特征划分为K个“群”组，每个群组包括若干观察单位，然后抽取k个“群”，抽取的各个群的全部观察单位组成样本。优点：便于组织、节省经费，容易控制调查质量

9、。缺点：当样本含量一定时，其抽样误差一般大于单纯随机抽样，这是因为样本观察单位不是均匀散布在总体中。为降低抽样误差，可采用增加抽取的“群”数，减少“群”内观察单位数的方法进行抽样，即重新划分“群”，使每个“群”更小。,4.分层抽样（stratified sampling),先按对观察指标影响较大的某种特征，将总体分为若干类别，再从每一层内随机抽取一定数量的观察单位，合起来组成样本。优点A：抽样误差小于前三种，样本的代表性好B：便于对不同层采用不同的抽样方法C：便于对各层独立进行分析,在实际调查研究中常常将两种或几种抽样方法结合起来使用。各抽样方法的抽样误差一般是：整群抽样简单随机抽样系统抽

10、样分层抽样（增加学分）样本含量的估计的目的是在保证一定精度和检验效能的前提下，确定最少的观察单位数。,从抽取样本的方式分,概率抽样(单纯随机抽样、系统抽样、分层抽样、整群抽样)非概率抽样(偶遇抽样、判断抽样、定额抽样、雪球抽样),三、重复 (Repeat),重复实验、重复取样、重复测量在大量重复实验的条件下，该处理的真实效应才会比较真实地显露出来实验组和对照组的实验单位应具有一定的数量样本含量与重复实验相比，重复取样和重复测量属于第二位,25,四、样本含量的估算,比较两组测定值的均数比较两组发生某结局的百分比,比较两组测定值的均数(1)预计欲比较的两总体参数的差值 (2)预计总体标准差

11、(3)允许出现假阳性结果的机会 (4)允许出现假阴性结果的机会单组比较：两组比较：,27,例：格列美脲、格列苯脲对比研究(HbA1c)(1)欲检出HbA1c临床差异0.65%(2)假定标准差为1.3%(3)双侧检验水平(4)功效80% 退出率20%（文中：152例）,28,比较两组发生某结局的百分比(1) 预计一个组发生某结局的百分比约为1(2) 预计另一组发生某结局的百分比约为2(3) 允许犯假阳性错误的机会(4) 允许犯假阴性错误的机会,29,例：格列美脲、格列苯脲对比研究（HbA1c 达标)(1) 预计一个组发生某结局的百分比约为45%(2) 预计另一组发生某结局的百分比约为25

12、%(3) 允许犯假阳性错误的机会 =5%(4) 允许犯假阴性错误的机会 =20%,30,第三节误差控制,误差来源偏倚的控制,32,一、误差来源,抽样误差不可避免，但有一定规律，利用统计学技术，不仅可以控制，还可估计其大小。非抽样误差 1. 过失误差 2. 系统误差又称偏倚(bias) (1) 选择偏倚(selection bias) (2) 测量偏倚(measurement bias) (3) 混杂偏倚(confounding bias),32,混杂因素(confounder),混杂因素：若某非研究因素，既与研究因素有关，又与效应有联系；研究因素与效应之间的联系可能被掩盖或歪曲, 造成混

13、杂偏倚。非研究因素研究因素效应设计：收集混杂变量的数据分析：采取分层分析和多元分析的技术,33,二、偏倚的控制,设计阶段质量控制 1. 围绕研究目的，严密设计总体方案 2. 明确定义研究对象，正确划分观察范围 3. 正确选择观察指标和欲调查问题 4. 选择恰当的观察方式，保证数据质量 5. 预研究，试点，评估方案的可行性，及时修改研究计划 6. 规定一整套标准操作方法 (standard operation procedure, SOP),34,二、偏倚的控制,资料收集阶段质量控制 1. 研究人员的选择与培训 2. 盲法 (1) 单盲 (2) 双盲评估盲法的实施 3. 定期检查研究记录

14、 4. 检查研究对象的依从性,35,二、偏倚的控制,资料整理与分析阶段质量控制 1. 问卷等测量报告的核对 2. 数据录入质量控制 3. 基线分析与校正 4. 分层分析、多因素分析,36,第四节资料统计分析,数据录入与数据库的建立数据核查与离群数据处理统计分析方法的选择与前提,统计分析计划,研究设计、资料搜集与整理分析是科学研究的三个紧密联系的阶段。在研究设计时要同时制订详尽的统计分析计划, 以规范数据的管理和统计分析方法，使之与设计相匹配。事先无计划，或疏虞计划，在获取研究数据以后，多方计算，以求得研究者期待的结论，这样的事后分析(post hoc analysis)往往导致虚假结果。,3

15、8,一、数据录入与数据库的建立,二维结构数据库每一行：一个观察单位(observational unit, case) 的记录(record) 每一列：一个变量(variable)，调查的项目或观察指标数据库: 全是数字，没有文字,39,二、数据核查与离群数据处理,1.数据核查人工检查和计算机检查 2.离群数据(outlier) 处理 3.缺失值(missing value) 处理缺失值的比例不能太大完全随机缺失(missing completely at random, MCAR) 可以仅对完整资料的对象分析(complete subject analysis)；否则，需利用

16、适宜统计方法“填充”,40,三、统计分析方法的选择与前提,选择统计分析方法需考虑以下要素：研究目的设计类型变量类型和数目数据分布特征样本量不同设计类型需采用不同的统计分析方法,41,思考：采用什麽统计方法？,(1) 比较平均效应、两独立小样本、单个定量变量、正态分布 t 检验(2) 比较平均效应、配对样本、单个定量变量、分布特征不详符号秩检验(3) 比较平均效应、两独立大样本、单个分类变量、二项分布 (4) 比较平均效应、两独立小样本、单个分类变量、二项分布 Fisher 精确检验,42,案例讨论,案例13-4 某医师观察某新药治疗急性支气管炎的疗效，用氨苄青霉素作为对照。按照患者

17、入院时的体温进行分组，即体温39以下者分入实验组，体温39及以上者分入对照组，结论是新药疗效优于氨苄青霉素。1.此结论是否正确？2.研究设计存在什么问题？3.应该如何设计？,43,小结,医学科学研究分为干预性研究和观察性研究两大类；医学研究设计包括专业设计和统计学设计两个部分。统计学设计是运用统计学原理和技术，对研究资料的收集、整理和分析进行科学设计；统计学设计的基本要素：建立假说、确定研究对象、确定研究因素、明确结局指标和设计用于调查的量表等。,44,小结,实验研究由处理因素、实验单位和实验效应三个要素组成；应该遵守对照、随机化和重复的基本原则；研究对象接受不同处理由随机分配决定；观察性研究只能对已存在的状况和有关因素进行观察或调查，不能用随机化分组来平衡混杂因素的影响；适宜的统计学设计和分析对于观察性研究而言，尤其重要。,45,小结,误差来源包括非抽样误差和抽样误差；非抽样误差包括过失误差和系统误差(bias) 。常见偏倚包括：选择偏倚、测量偏倚和混杂偏倚。应当在设计阶段、资料收集阶段和资料整理与分析阶段对偏倚进行控制，观察性研究尤其如此。必须在制订研究计划的同时制订详尽的统计分析计划书(statistical analysis plan, SAP)，包括原始数据的录入与数据库的建立、数据清理与核查、统计描述和统计推断的方法。,46,

展开阅读全文