656流行病学研究中的混杂效应控制.ppt

资源描述

《656流行病学研究中的混杂效应控制.ppt》由会员分享，可在线阅读，更多相关《656流行病学研究中的混杂效应控制.ppt（51页珍藏版）》请在三一文库上搜索。

1、2012-5-12,临床流行病学讲座,流行病学研究中的混杂效应控制,北京协和医学院流行病学教研室廖苏苏,混杂效应控制,1、设计阶段控制混杂的策略概述：限制、随机分配、匹配匹配的概念在队列研究和病例对照研究中使用匹配的实例过度匹配 2、分析阶段控制混杂的技术：分层分析、标化、多因素分析,1. 限制（Restriction）： “简化”研究对象某些可能起到“混杂”作用的特征，或者说，让潜在的混杂变量变为（近似的）“常量” 例如，年龄 2. 随机分配（Randomized allocation）：用随机分组方法使可能的混杂变量分布在比较组间平衡；只能用于实验研究设计。,(一) 设计

2、阶段控制混杂效应的策略,3. 匹配（matching）：常在病例对照或队列研究中使用；在实验研究中按照混杂因素分层后再进行随机分组（分层随机）也是一种“频数匹配”。,(一) 设计阶段控制混杂效应的策略（续）,什么是匹配（Matching）？,匹配是一种抽样设计指从研究对象总体中，以指示系列或指示组（index series/group）某些可能的混杂因素分布为“模板”，选择与之比较的研究对象（比较组或比较系列，comparison series/group），使两组对象在这些混杂因素上相同或近似。在队列研究中就是按暴露组研究对象某些特征选择非暴露组研究对象；在病例对照研究中就是按照病

3、例组某些特征选择对照组；,匹配方法（1）个体匹配（Individual matching）,把指示组中的一个研究对象（病例或暴露者）与比较组中的一个/几个研究对象（非病例或非暴露者）进行匹配；分为： 1：1配对（1:1matching; paired matching）； 1：n匹配（1:n matching)；即：给每个病例（/暴露者）选择在一个或多个混杂因素上与之相配的一个或更多个对照（/非暴露者）。这是分层的特例，即每层只有一个病例（/暴露者）和与之匹配的一个或n个对照（/非暴露者）。,匹配方法（2）频数匹配（Category / frequency/ stratified ma

4、tching）,在不同研究组（如：病例组和对照组；或暴露组和非暴露组）之间进行匹配；在一个或多个混杂因素的不同水平上，使比较组（即非暴露组或对照组）的混杂因素分布频数与指示组（即暴露组或病例组）相同。,匹配方法（续）,匹配实际需要对“指示组”和“比较组”分别“抽样”：个体匹配：选择一个或几个指示组对象后就给他们匹配比较组成组匹配：需要在“指示组”收集完成后，再依据频数分别抽取“比较组” 两种匹配设计的一般原则（通过人为的“选择”使比较组间在混杂因素构成分布上相似）是一样的，但是两种匹配设计的分析方法不同。匹配后，研究样本获得的结果与研究总体的真实情况（即：总体中暴露和结局的关系）一致吗

5、？（真的能去除混杂效应的影响吗？）,匹配实例：下表是在一个200万人口的研究对象总体中，不同性别人口的暴露和结局分布情况：,在这个研究对象总体中：暴露与疾病结局是否关联？,计算粗总相对危险度（暴露组比非暴露组）计算男性组相对危险度（暴露组比非暴露组）计算女性组相对危险度（暴露组比非暴露组）计算结果说明什么？,假如从这个研究总体中抽样，用队列研究方法探讨暴露和疾病的关联（1）,建立队列的方法（一）假定根据样本量估算，我们需要从总体中抽取10%的人做样本如果采用随机抽样的方法从这个总体中抽样，抽到的队列研究样本性别、暴露变量的构成如何？如果随访一年，暴露和疾病的关联测量结果是什

6、么？,粗（总）相对危险度：（460/10万）/（14/10万）=460/14=32.86 男性组相对危险度：0.0050/0.0005=10 女性组相对危险度：0.0010/0.0001=10,假如从这个研究总体中抽样，用队列研究方法探讨暴露和疾病的关联（2）,建立队列的方法（二）：假如抽样前可以获得总体人群的“暴露”和“非暴露”信息暴露队列：从暴露人口中抽取10%做样本非暴露队列：从非暴露人口中抽取10%；而且让非暴露队列在性别特征上与暴露队列相匹配。这是匹配的队列抽样设计，匹配的目的是？结果如何？,匹配抽样设计的队列研究结果：,暴露队列中：男女比例为9：1 非暴露队列

7、中：男女比例为9：1,匹配的后果,在队列研究实例中匹配抽样对关联测量的影响：,在研究总体中，性别是暴露和疾病关联中的混杂因素（在无病人群中ORef不等于1；非暴露人群中，ORfd不等于1。）随机从总体中抽取研究对象再分成暴露和非暴露队列样本，估算的粗的RR值仍旧带有性别的混杂效应；但是，按照性别进行分层分析后，可以去除性别对暴露和结局关联的混杂效应；分别抽取暴露和非暴露组，并对性别匹配后，性别的混杂作用得以消除（粗RR=按照性别分层后的RR）；所以在队列抽样中，对混杂因素进行匹配设计后，不用分层分析即可以去除混杂因素造成的偏性,假如从这个研究总体中抽样，用病例对照方法探讨暴露和疾病的

8、关联,病例组：200万人总体中得到的全部4740位病人；对照组：按照与病例组的性别分布频数匹配后，从总体中没有病的研究对象中抽取4740位对照。,频数匹配抽样设计的病例对照研究结果：,在病例对照研究实例中匹配抽样对关联测量的影响：,在总体中，性别对暴露因素与疾病的关联有混杂效应，因此，暴露效应的粗RR（32.9）分层RR（10.00）；提示研究总体中性别对暴露和疾病的关联有混杂作用，而且是“正混杂”。在上述病例对照研究样本中，按照性别分层的两个RR相等，等于总体中的分层RR。然而，样本的粗RR（5.00）样本分层RR（10.00）,在病例对照研究实例中匹配抽样对关联测量的影响（续）,提

9、示研究样本中性别对暴露和疾病的关联有混杂效应，但是“负混杂”！换言之，样本中观察到的混杂并非是原来总体中的性别混杂效应的反映，而是在匹配过程引入的混杂。 Take-home message （记住）！在病例对照研究抽样中，如果使用了匹配设计，在分析资料时，必须按照匹配因素进行相应的配对、分层加权或者条件Logistic回归等分析方法才能最终得到真实的暴露效应估计值（OR）,匹配设计在混杂效应控制中的作用：总结,匹配抽样设计本身是否能减少或避免混杂因素对暴露与结局变量关联测量上的混杂效应，增加关联测量的真实性（validity）？无论是否进行匹配设计，都可能通过恰当的分析方法，得到关联测量

10、的“真实可靠的”结果，只要：研究测量了所有可能需要考虑的潜在混杂变量；并且分析中使用恰当的分析技术（例如分层等）控制这些潜在混杂变量的影响。,匹配设计在混杂效应控制中的作用：总结（续）,仅仅有匹配设计并不都能直接增加研究结果的真实性，甚至在病例对照研究设计中还可能引入混杂；所以，是否需要匹配，常常考虑的是匹配是否可以改善研究效率（efficiency），使数据分析可以有效地使用分层等技术来控制混杂，从而提高研究的真实性（validity）。最终是否进行匹配抽样还要从研究实际的考虑出发的,什么时候需要考虑匹配：,如果匹配变量与结局变量有很强的相关而且它是简单的变量，特别是研究对象数量很少

11、时，匹配可能取得很好的效率收益。如果匹配变量是混杂变量而且是多组别的测量值（例如，多个等位基因位点；兄弟姐妹关系；职业等），匹配设计对提高研究效率是非常关键的。,匹配可能带来的问题:,经过匹配的变量，在研究中无法再研究；匹配变量过多，会使得部分病例找不到对照，致使可用样本数量减少，使研究的效率反而降低。如果匹配变量不是混杂因素但是与暴露无关联，匹配毫无必要但也不会导致偏性。在病例对照调查中匹配不当，会引起过度匹配（overmatching）的问题，掩盖暴露的真实作用（产生负混杂偏性）。,过度匹配（Overmatching）,指对某个与暴露因素关联、但不是（独立的）结局变量危险因素的变量

12、（理论上，该因素不是一个混杂变量）进行匹配。过度匹配的后果是什么？举例：,20万总体人群的情况：性别不是暴露和疾病关系中的混杂因素,因为：男性总体中：暴露率为90%；女性总体中：暴露率10% OREF/非病人= OREF/病人=81（性别与暴露因素关联）但： ORDF/非暴露 =ORDF/暴露 =1（性别不是疾病危险因素）,抽取这个总体中全部1310位病人为病例组再抽取性别上与病人匹配的1310位非病人为对照进行病例对照研究：,过度匹配（续）,病例对照研究中过度匹配后，如果分析时不进行分层或者配对分析，暴露-结局关联测量值将产生趋向无效假设的偏性（引入总体中不存在的混杂效应）。,过度匹配

13、（续）,因为过度匹配使病例和对照在暴露史方面趋向一致。即便在分析时进行分层或者配对分析，由于过度匹配使病例和对照有更多的对子在暴露史上趋向“一致”。这些“暴露史一致”的“对子”在分析中不能使用，因此可以分析的对子数减少，所以过度匹配会降低对关联测量值估计的精度或效率。是否匹配要仔细权衡,（二）分析中控制混杂的技术,（1）个体配对病例对照设计的分析（2）频数匹配的分层分析和关联测量指标的Mantel-Haenszel加权调整（3）多因素分析模型控制混杂,个体匹配病例对照研究中配对资料的数据表：,（每个格子表示研究对象的“对子数”） OR=B/C,未匹配/频数匹配病例对照研究数据表不分

14、层的粗OR值：,OR=（ad）/（bc）,分层分析（Stratified analysis）分层分析需按混杂因素（F）分层后，分别估计暴露与疾病结局的关联（分层的OR或RR值）；使用分层分析法，可以比较分层OR或RR值与不分层的粗关联测量，以评价F的混杂效应以及效应修正作用；,未匹配/频数匹配病例对照研究数据的分析（续）,分层分析（续）如果分层后，各个分层的OR或RR值大致相等，但不等于未分层的OR或RR值（提示分层因素有混杂效应），可以用Mantel-Haenszel方法计算调整的总的暴露-结局关联值（调整OR或调整RR值）。,未匹配/频数匹配病例对照研究数据的分析（续）,未匹配/

15、频数匹配病例对照研究数据的分层分析数据表,在F=0层（样本量N0）,OR0 = （a0 d0）/（ b0 c0）,在F=1层（样本量N1）,OR1 = （a1 d1）/（ b1 c1）,计算调整OR值（ORM-H）的公式： (ai di / Ni) ORM-H = - (bi ci / Ni) 式中：ai，bi，ci，di为每一层中四格表中的四个数； Ni为每层观察总人数；i为层数（i = 1 , 2 n )。,未匹配/频数匹配病例对照研究数据的分层分析（续）利用Mantel-Haenszel方法计算调整OR值:,(1)ORM-H= cOR：F不是混杂因子，cOR不存在混杂偏倚； RRM

16、-H = cRR：F不是混杂因子，cRR不存在混杂偏倚。 (2)ORM-H cOR：F是混杂因子，cOR存在混杂偏倚； RRM-H cRR：F是混杂因子，cRR存在混杂偏倚。,分层分析的基本步骤： 1) 初步审阅资料； 2) 计算粗的比值比或相对危险度(cOR 或 cRR)； 3) 分层：按怀疑的混杂因子分层，并计算每一层的比值比或相对危险度(aOR 或 aRR)； 4) 比较 cOR 和 aOR （或 cRR 和 aRR）； 5) （如果各个层的aOR相等但不等于cOR ）用Mantel-Haenszel法计算调整混杂因子影响后总的ORmh 或 RRmh； 6) 进行 X2mh 检验，计算

17、ORmh 或 RRmh 95%可信区间。,多因素分析模型控制混杂效应,当用分层的方法同时控制多个混杂因子的混杂效应时，会出现分层过多的现象，以至难于实现对混杂的有效调整，此时便需应用多因素分析的方法来控制混杂因子的影响。多因素模型的选择与研究设计和结局变量性质和结局指标选择有关,多元Logistic回归分析控制混杂例1. 定群研究资料分析弗明汉心血管疾病研究 742名居住在弗明汉年龄为40-49岁的男性，在各自暴露不同水平的影响因素(详见下表中的7种因素)，经12年追踪观察冠心病（CHD）发病情况。根据此742名受试者每人暴露各项因素的水平和CHD发病与否的资料，采用多因素LOGISTI

18、C回归模型进行分析，结果见表1。,表1. CHD危险因素定群研究(12年追踪观察结果),根据表1结果，可建立的CHD影响因素的Logistic回归模型，公式如下: p=1/1+exp-(-13.2573 + 0.1216x1 + 0.0070x2 + + 0.7206 x7) (1) 计算描述因素与疾病间联系强度指标OR值的大小: 例如：胆固醇的值为0.0070，根据估计OR值的公式计算CHD与胆固醇的联系强度为： OR = e3 e0.0070 = 1.007 表明扣除模型中包含的其它因素的影响以后，胆固醇每上升1mg/dl，CHD累积发病危险上升1.007倍。例如：当ECG的值为0.7

19、206时，根据估计OR值的公式计算CHD与ECG异常的联系强度为： OR = e7 = e7 X1 / e7 X 0 = e7 X (1-0) = e0.7206 = 2.056 表明扣除模型中包含的其它因素的影响以后，ECG异常者（=1）CHD发病是正常者（=0）的2.056倍。,(2) 预测发病风险: 例1: 一个原来不吸烟且胆固醇为230 mg/dl的人，如果后来每天改为吸烟1包(x6=2)，胆固醇上升到330 mg/dl的话，即使其他因素的暴露不发生任何不利的改变，其发生冠心病的风险在12年间也将会增加4.879倍，即： OR = e3 3306 2 / e3 2306 0 =

20、 e0.0070 (330-230) 0.4223 2 4.879,例2. 病例对照研究实例一项有关口服避孕(OC)药与心肌梗塞(MI)关系的病例对照研究中，MI病例组234人，对照组1742人。研究因素为口服避孕药，混杂因素为年龄和吸烟。多因素Logistic回归分析结果见表2。,表2. 口服OC与MI关系的病例对照研究(成组病例对照设计),病例对照研究多因素Logistic回归分析结果的解释和利用: (1) 确定每一因素与疾病发生的联系强度: 根据表2中给出的OR值，可认为OC、年龄和吸烟均是MI的危险因素。 (2) 估计每一因素与疾病发生联系强度的95可信限区间：表2中给出的各OR值的

21、95C.I.的计算可利用协方差矩阵的数据来进行计算。表3对角线给出了该研究各变量的方差值。,表3. 口服OC与MI关系的病例对照研究中值的协方差矩阵,95%C.I. 计算公式: EXP 1.96 (V1/2) V：协方差矩阵中对应回归系数的方差（和协方差）如OC与MI的OR=3.29, 其95%C.I.的值可用上述公式进行计算: 95%C.I. = EXP1 1.96 (V1/2) = EXP1.19 1.96(0.068) 1/2) = 1.97 - 5.48,(3) 估计两因素的联合效应: 如同时口服OC并吸烟者(每天 25支)与不口服OC也不吸烟者比较时，其OR = EXP(1+4 ) = e (1.19 + 2.14) = 27.9 95%C.I.的估计应可用协方差矩阵数据，根据下述公式计算1和4联合的V值: V = 0.0681 + 0.0436 + 2(-0.0004) = 0.1109 再带入下述公式计算可信限区间: 95%C.I. = EXP1+4 1.96 (V1/2) = EXP1.19 + 2.14 1.96(0.1109) 1/2) 该两因素联合效应的95%CI ：14.54 - 53.68,总结：控制混杂效应的不同策略比较,

展开阅读全文