评估中介作用时的混杂性.doc

资源描述

《评估中介作用时的混杂性.doc》由会员分享，可在线阅读，更多相关《评估中介作用时的混杂性.doc（16页珍藏版）》请在三一文库上搜索。

1、摘要中介作用通过一个中介变量解释风险因素和产出之间的关系，这是它的步骤中其中的一步。在没有因果循环关系的假设下，我们认为在各种变量中第四个变量可能会成为评估中介作用时的一个混杂因素。由蒙特卡罗研究支持的渐进效果表明在一定条件下，调整混杂因素可能会导致有偏见的估计。一般的原则是为在估计中介作用时适当的调节混杂因素的作用服务的。我们应用指南的中介效应的估计在125年去世的宗教团体研究参与者的阿尔茨海默病病理4载脂蛋白E等位基因之间的关系和认知功能，纵向,衰老和阿尔茨海默病的临床病理研究。1. 介绍调解模型描述了第三个变量（M）是如何干预的自变量（X）和一个因变量（Y）之间的因果关系的。更具体的说

2、，中介模型假设了自变量（X）影响中介变量（M），从而进一步影响因变量（Y）。我们用这个XMY的示意图来代表影响途径。我们的研究点在中介效果：通过中介变量M后X对Y的作用。一般情况下是基于路径模型中每一条相关联路径的系数的乘积来评估中介作用的（奥威和豪瑟，1975;男爵和肯尼，1986;博伦，1987;福克斯，1980;索贝尔，1982）。模型如下：M = cM + X + M, (1)Y = cY + M + X + Y，（2）其中M是一个独立于X和Y的零均值的随机变量，Y是一个独立于X和M的零均值的随机变量，CM与CY代表不变的截距。这里是路径XM的关联系数，是在控制X变量后路径MY的关联

3、系数。根据系数乘积的方法，通过中介变量M后X对Y的影响被定义为。剩下的X和Y之间的联系,用,被称为“直接影响”,其中可能包括通过一些未知的途径的不明的间接影响和X与Y之间可能存在的之间影响。直接效应和间接效应的总和即，被称为X对Y的累积效应。估计中介效应,通常基于回归方程式（1）和（2）由普通最小二乘估计(OLS)和。当这两个方程式之间存在真实的因果关系时，最小二乘法对和（，）。其结果是，是中介作用（，）的估计。上述结论关键取决于在假设中，没有其他的干扰变量作为自变量、调节变量和因变量。如果有一个变量Z干扰其中的一个变量或者所有的三个变量，那么简单的估算将和上述不再一致。例如,假设ZM并且M

4、X,那么M组件之一是Z。因此，X和 M 相关，并且最小二乘法对的估计是有偏见的，即使是在一个大样本下。在最近的一篇文章中， Herting (2002) 认为，没有纳入一个混杂因素，去拒接中介效用存在的正确的形式是太过于简单了。在本文中，我们认为第四个变量Z可以在路径XM以任何可能的方式作为混杂因素。我们调查的调解作用在所有我们考虑的方案中各种估计的属性。提供了不同估计的渐进偏见。一些模拟实验来评估的有限样本渐近结果的准确性。基于渐近结果和数值的证据，我们就如何在经验应用中选择估计变量给了一些指引。我们的方法被应用到临床诊断阿尔茨海默氏病（AD）时估计中介效应的风险因素中，其中年龄是一个可能的

5、混杂因子。AD是一种渐进性脑疾病，逐渐破坏一个人的记忆和学习新的信息的能力，即沟通和进行正常的日常生活的能力，随着年龄的增加患AD的风险也会随之增加。仅仅在美国就有500万人患有AD，而这个数字在未来的几十年里将会随着人口老龄化而在全球范围内逐渐增长。最近证据表明AD的临床表现是多种遗传和环境因素与大脑中的病理和生化改变相互作用的复杂结果。例如，尽管AD的病理标志是神经炎斑和神经原纤维缠结，这些病变可能会增加大脑的其他疾病，如脑梗甚至引起认知障碍（彼得罗维奇等人，2005）。与此相反，环境风险因素可以修改AD病理学的认知关系。一个载脂蛋白E4等位基因的存在（APOE4，该基因编码载脂蛋白E的共

6、同的多态性）是用于所述疾病的主要遗传风险因素（Tang等人，1998）。通过该4等位基因与临床诊断的AD的风险升高相关联的神经生物学机制还不是很清楚。先前的组织病理学研究（例如，Bennett等，2003）表明，4等位基因对认知功能障碍的效果可通过增加在该AD病理学累积速率来介导的。由于AD病理学可能会增加，或与其他因子相互作用以引起认知功能障碍，各种备选的机制也可以解释之间的关联。因为认知作用，AD病理学和许多AD的风险因素均与年龄相关，要能够调整为年龄在老年人的常见的慢性疾病中介分析的潜在混杂影响是重要的。我们应用不同的策略来评价混杂因子，死亡年龄，广告病理学Apoe4等位基因的存在之间的

7、关系和认知功能水平之前死亡125例在宗教团体的研究中,纵向,衰老的临床病理研究和广告中中介作用的评估。本文其他部分的研究如下，第二章介绍了Z作为一个混杂因子影响路径XMy的所有可能方式。在我们的研究中，Z，X，M和Y分别对应于死亡年龄，APOE4，AD病理学和认知功能。第三节考察不同的估计方法中中介作用的渐进性质。第四节介绍仿真结果。第五节讲应用程序。第六部分是结论，并给出了选择估计量的一些建议。2. 路径模式我们首先假定一个通路模式XM。我们进一步假定X，M，和Y是以线性方式相互关联，如图所示，例如在方程（1）和（2）中当结果是0的时候一个完整的中介就出现了，这样X和Y之间就完全被M中介，X

8、对Y 没有直接的影响。事实上，一个完整的中介是不可能的，并且一个长远的影响通常保持在一个中介模型中，即使它在统计学上是不显著的。假定在路径中没有循环，那么一个周期以为着变量可能通过路径中的其他变量影响其本身。表1通过四分之一的混杂因子Z和X，M和Y提供了所有可能的通路路径组合。该路径模式分为四种不同的类别。第一种类别，表示为基准的情况下，由表壳0.0，其中Z与X，M和Y不相关。第二类包含七个形式（例1.1-1.7）第四个变量Z在在路径X,M和/或Z的开始。第三类由七个形式组成（例2.1-2.7），其中X，M和/或Y在到Z的路径的最前端。最后一类是由剩余的五个形式组成（例3.1-3.5），涉及Z

9、和X，M和Y更复杂的路径的关系。每个通路可以由路图来表示。例如，基准案例0.0，可以简单地表示为XMY并且相应的模型在方程（1）和（2）中给出。作为第二个例子，图1为例3和例4提供了路径示意图，其中自变量X通过中介变量M对因变量Y有间接的影响，通过第4个变量Z对Y有间接影响，对Y 有直接的影响。另外，上述第四个变量Z对中介变量M有着直接的影响。例3和例4的正确模型可以写为：表1Z和XM因果途径的关系图一因果模式的路径图例3.4X, Z, M, Y 是均值为0，方差为的随机变量。在上面的模型中我们对使用了一个下角标ZM来表示Z对M的影响。其他的也具有类似的含义，在应用中，X是以 ApoE

10、4存在的，Y是认知功能水平，M是AD病理学的水平，Z是死亡年龄。在方程（3） - （6）中，每个是独立于相应的方程的右边的变量。这种独立性对单项因果关系有着独立的影响，如果没有这种假设，一般取决于方程右边的变量。单向因果关系的假设是我们的中介框架的基石，适用于所有型号的调解。我们在整篇文章中都运用这个假设。对大多数路径来说，中介效果通过M后是，有少数例外（例3.13.4），通过M出现了X对Y影响的两条路径，例如，在例子3和4中，这两个路径是 X M Y 和X Z M Y。在第一条路径中，X对M有着直接的影响。在第二条路径中，Z在X和M间是一个中介变量。X对M的总效应是间接效应和直接效应。X

11、对M的总影响乘以，即M对Y的直接影响，提供了通过M后X对Y的中介作用，定义为：对于其余情况的中介作用列于表2的第二列中。3. 中介作用的估计第二节列举了20因果模式，其中四分之一混杂变量可能通过因果途径XM进行干预。 3.1 四种不同的估算策略第一估计策略，称为策略A，它忽略了混杂因素并且在没有变量Z的情况下适合回归方程，回归方程如下式：其中带帽子的参数表示用最小二乘法进行的估计，和是通过最小二乘法回归后M和Y的预测值。表2 通过中介变量M后的间接影响符号中的几个字是有顺序的，的下标意味着M对X的回归中是M的系数。在本文中我们对其他的符号定义类似的规定。其中回顾7是一级回归，回归8是二级

12、回归。和进行最小二乘估计，估计的中介效果是第二个估计策略，被称为战略B，是忽略了XM因果通路的混杂变量，回归方程通过测量B给出：中介作用的估计效果是：第三估算策略，叫做策略C，由下式给出忽略在MY因果路径的混杂变量。中介作用所产生的估计是最后，第四估计策略，称为策略D，两个回归方程中都包括混杂变量Z，从而导致中介作用的估计效果是在应用中,通常的四种评估策略之一应用在没有知识关系的混杂因子Z和X MY因果路径之间。在接下来的小节中，在接下来的小节中，我们提出了概率极限代表表1给出的所有可能的因果模式。3.2 渐进偏见对于每一个因果模式，我们得出每个估计的概率极限。这个限制和真实的中

13、介作用之间的差被定义为渐近偏差。根据此定义，当渐近偏差为零，则估计和表2的第二列中给出的正确的中介的作用相一致。我们首先使用案例3.4演示渐近偏差的推导。用公式（3） - （4），我们可以推断出，其中X和复合误差项ZMZ+M的相独立。因为OLS估计和底层模型参数一致，通过一个常数和X回归M得到的最小二乘估计的概率极限是：上述限制适用于方案A和B，既无视Z在他们的第一阶段回归。像方案C和D，当Z在第一阶段回归，用公式（5），我们可以推断出：我们现在转向第二阶段的回归。战略B和D结合Z进入回归。在这种情况下，OLS估计的概率限值：对于策略A和C，协变量Z从回归省略。 OLS估计量的概率极限是：

14、它遵循公式（3）到（6）将上述表达式插入(12)的收益率组合（9），（10），（11）与（14）中，我们得到每个估计量的概率极限：当是真正的中介作用时，那么每个估计的渐近偏差由下式给出：根据底层模型参数，当是渐进偏见时，是渐进无偏。了解不同估计的偏置特性，请注意，在的结构中，Z被正确地包括在第二阶段回归中。由于Z被省略，由第二阶段OLS回归估计的M对Y的影响会不一致。这是在不一致的情况下对的估计。另一方面，Z不包含在策略B的第一阶段回归中。根据Z导致M，X导致Z，第一阶段对的最小二乘估计，似乎忽略了Z遭受遗漏变量偏差的影响。然而，我们的目标是估计X对M的总影响。当省略了Z，第一步对的最小二

15、乘估计不仅得到了X对M的直接效应，还有通过中间变量Z的间接影响。因此刚好提供了我们想要的。与此相反，通过在第一阶段包括Z的估计，第一步对的最小二乘估计只得到了X对M的直接影响。因此，根据对的估计与真正的中介作用是不一致的。接下来，我们考虑一般的情况。估计量下对于不同的因果型态的四个估计策略的概率范围概括在最后四列表2。由于大部分的概率范围具有复杂的形式，表2中只给出了几个例子。这些概率限值等于第一级OLS估计乘以所述第二阶段OLS估计的极限。如果两个估计是不一致的，由此产生的估计为中介效果也是不一致的。导致的两个估计的不一致的原因可以描述如下。首先，在第一阶段只有当因果图包含以下情况时估计是不

16、一致的，即协变量Z对M的影响，并且与第一阶段X的回归相关联，省略Z导致众所周知的省略可变偏差。第二，第一阶段只有当因果图中包含的下述之一时对的估计是不一致的。或者第一种情况很容易理解。，X对M的总影响由于X对M的直接影响和收敛于0，与和是不一致的。另见案例3.4的讨论。对于后两种情况下，Z是在因果链XM的后端。包括中的Z第一阶段回归颠倒X和M之间的因果关系。由于M会影响Z，因此M与Z是相关的。M对Z的回归控制了Z的影响，给出我们X和M的统计关联，没有给出X和M之间的因果关系。因此，根据第一阶段回归系数的因果解释，把Z视为无效回归。因此，不提供X对M的因果关系的无偏估计。第三，只有当一下情

17、况的因果图出现时，省略了可变偏压的存在的估计是不一致的。最后，只有当因果图包含下列之一时，的估计是不一致的。或者在第一种情况下，的最小二乘估计只能解释M对Y的直接影响，忽略了通过Z的间接效应。第二种情况下，Z在因果链 M Y Z的末端，由于同样的原因，渐进偏差适用于。在渐进偏差的基础上，20个因果图案可分为7类，在表3中的第二列中列出的更多细节见第4.2节。4. 模拟我们使用SAS？（9.1版）的所有统计模拟和分析。从正态分布使用SAS RANNOR功能与种子=1,000,000.我们考虑100，200，500和1000为样本大小。为简单起见，我们假定Z和X，M和Y之间的所有路径系数是相

18、同的并且相等。表3在现实中，这个假设肯定不成立。采纳麦金农等人的程序(2002），参数值被选择以对应于实现小样本（因变量局部方差为2），中样本（在从属变量局部方差的13），和大样本（从属变量的局部方差的26）。这些参数是0.14，0.39，和0.59，对应于0.14，0.36，和0.51，分别偏相关。直接影响被选作0（完全中介）和0.2（偏中介）。变量M，Y和Z的模拟如下正态分布的连续变量。独立变量X被假定为以成功概率0.3遵循正态分布和贝努利分布。在应用中，具有至少一种ApoE4等位基因的概率为0.29。因为截距并不影响的调停作用的推定，不失一般性，我们设置所有的截距在数据生成的模拟中为0

19、，但它们包括在模型拟合。所有的随机噪声项被假定为独立的，相同的并且正态分布均值为0，方差1。总之，模拟使用了33322420阶乘设计。我们改变了影响路径大小的因素（0.14为小样本，0.39为中样本，0.59为大样本），（0.14为小样本，0.39为中样本，并且0.59为大样本），（0.14为小样本，0.39中样本，和0.59的大样本），直接影响（0和0.2），分布的X（标准正常和伯努利概率0.3），样本大小（100，200，500，和1000），和表1中的20因果图案，共计8640不同的数据生成过程（DGP）。对于每个DGP，要重复进行500次实验。比较不同层次的中介效应偏差，我们计算经验相

20、对偏差，用在第三节中在真正的间接效应上。相对偏差在500个重复的试验上，评估每个因果模式下四个估计的实证表现，在4.2节中总结。 4.1 例子我们用图1中的例子3.4来说明数据是如何形成的。=0.2并且X遵循标准正态分布，样本遵循，以产生一个二进制变量X，X的分布，在方程（15），被替换为X伯努利（0.3）。 4.2 结论不同效应大小的模拟结果和这20个因果模拟相类似，不管影响大小的幅度，或独立变量的分布，或直接作用（0或0.2）的大小，相对偏压表明每个散图案类似的模式，其结果是，即使样本容量为100也是相对稳定的。图。2，我们绘制渐近相对偏差和经验相对偏差（500个样本），并且X遵循正态分布

21、。唯一渐进无偏的是策略B。对于所有的估算策略，经验相对偏差是非常接近的渐近相对偏差。策略A高估了MY的因果关系因此高估了中介作用。策略C低估了XM的因果关系，高估了MY的因果关系，他们相结合低估了中介作用。策略D低估了XM的因果关系，因此低估了中介作用。表3列出了对于所有的20个因果图案时的相对方差，X遵循标准正态分布。类似渐近相对偏差的结果，我们可以在我们的这20因果模式的模拟结果分为七个不同的群体，在表3的第二列列出。表A包含6个因果模式（2.3，2.4，2.5，2.7，3.1和3.2），只有的估计是一致的。AB组包含3个因果模式（2.2，2.6和3.3），都是一致的。ABCD组包含7个

22、因果模式 ( 0.0, 1.1, 1.2, 1.3, 1.5, 2.1, 和3.5)，其中4个估计都是一致的。B组包含一个因果模式（3.4），只有提供了中介作用一致的估计。BD组给提供了一个因果模式（1.4），其中提供了一个一致的估计。请注意，在例3.3和3.4中，混杂因素有助于总调解效果的因果途径的一部分。当研究者感兴趣估计部分调解效果不经过混杂因素，策略D提供渐近无偏估计。5. 应用在第4节中我们可以看出，当估计中介效应时，没有黄金标准战略可用于正确的估计潜在混杂因素的调整。因此，策略的选择依赖于多种因素。在本节中，我们提出了一个应用说明一个可能的方法，用于选择适当的估计策略。 AD的临

23、床表现是引起病理或其他大脑中的病理学或其他化学改变交互多遗传和环境因素的复杂函数。Bennett等（2003年），用于参与宗教订单从125死者的数据研究，老化和AD的纵向，临床病理研究，以测试APOE4等位基因，为临床AD的一个已知危险因素，与认知水平相关联的假说功能通过与AD病理，而不是其他脑部病变措施的关联。在他们的分析中，独立变量是一个或两个APOE4等位基因的存在，其定义为神经炎斑和神经原纤维缠结标准化并组合成全局病理学得分的复合量度介wasAD病理学和因变量是认知功能的水平临终前定义为规范化，组合成认知的复合全球措施19认知功能测试。总之，虚拟因果路径是APOE4AD病理学认知功能。

24、而年轻的人可能会患有AD，疾病通常在65岁开始并且风险随着年龄的增加而增大。65-74之间患有AD的人少于5%，将近一半的人年龄85岁以上可能有疾病。值得注意的是，然而，AD是不正常老化的一部分。在APOE4AD病理认知功能相关，年龄是密切相关的，这两个AD病理学和认知功能，并构成了重大的混杂因素。在本节中，我们提供了APOE4通过AD病理调解效果估计使用四个评估策略，我们用这个例子来说明的方法来选择合适的评估策略调整对于年龄的调解效果估计在潜在的混杂效应常见的慢性的研究年龄相关的条件的方法。一般的方法是归纳为三个步骤。在第一步骤中，人们需要确定混杂因素年龄和APOE4，病理学，和认知功能概念

25、性地之间的所有可能的因果图案。一个人出生时或没有APOE4，因此因果关系（Z）APOE4（X）不成立，并在参照表1，案件1.1，1.5，1.6，和1.7可以排除。与此相反，因为有证据表明，APOE4与死亡率是有关的（海登等人，2005），我们不能完全排除APOE4的可能性年龄（例2.1，2.5-2.7，在表13.2-3.5）。与此同时，随着年龄的增加是与AD病理学（M）和认知功能（Y）的损失的同时积累相关联。例1.4和3.4（表1）用两种可能的图案表示。在第二步骤中，需要确定适当的估计策略所识别的因果图案。根据表3，对于案例1.4，两者都是无偏估计。对于案例3.4，估计B提供了一个公正的结果，

26、但估计D有一个渐进的偏，这个渐近偏压由通过因果路径XZMY，这是不适当的第一估计阶段调整为中介效应产生。在第三步骤中，我们得到的四个估计，然后对它们进行比较，看看估计B和D是否彼此接近，并且从估计甲明显不同和C查找从估计B和D，并从不同的结果类似的结果估计A和C将提供有力的证据支持在第一步中确定的概念因果模式1.4。在我们的应用程序，估计B（-0.387，95CI（-0.611，-0.182）和D（-0.378，95CI（-0.606，-0.177）相当接近，而从估值非常不同（-0.445，95CI（-0.707，-0.221）和C（-0.435，95CI（-0.699，-0.209）。置信区

27、间使用的引导方法获得。结果似乎证实了年龄和APOE4，AD病理学和认知功能之间的关系，我们的概念的理解。调解效果的适当点估计是-0.387（估计B）。估计D和B（0.009）之间的差异将是一个经验估计，由于战略D过度调整的案例3.4混杂因素的影响，人们应该选择策略B估算调解效果（-0.387）。 6. 讨论就像在我们文章中呈现的，没有一个单一的策略适合所有20因果模式。为了缓解的间接影响的战略选择和估计，我们提供在各种因果模式的一般准则。当估算的间接影响，需要首先考虑的第四个变量Z可能的因果路径XMy为混杂因素干扰所有可能的方式。根据是否有来自X一个或两个途径为M，然后到Y，我们提出了以下原则

28、：考虑其中有两种途径的情况下。当XZM，但应当被使用。在这种情况下，也可以使用，但是会产生不必要的成本，当XZM和ZY时，应当被使用。当MZY时，应当被使用。考虑只有一种路径的情况下，如果ZM并且ZY，但是，和都可以被使用。如果ZM和ZY和ZX，应当被使用。综上所述，研究人员需要知道的，先验的，该模型是还是有一个好主意如何限制的选择之前因果模型可以合理应用是什么。在许多情况下，这样的先验知识是不可用。从初步研究使用的数据，例如，对于每一个潜在的混杂因素，人们可以推测可能的因果图案，使用所有四个策略进行分析，然后检查在表3中列出的20因果图案看到实际结果是否与概念因果路径一致。在实际应用中，研究

29、者通常采用两种策略，完全忽略了可能的混杂因素，或战略D，在回归的每个阶段调整的可能混杂因素。常见的误解策略D的选择基本是一个无偏估计只有调整在所有回归的潜在混杂因素后得到。然而，人们应该牢记策略A在案件1.4，1.6，1.7失败时，和3.4，其中的因果路径M存在和Z的至少另一个因果路X或Z存在，并在案件战略D失败2.2-3.4其中Z是从X，M和/或Y.因此因果路径的末端，通过估计策略A或D无需进一步考虑可能的因果图案可导致偏差。在中介分析，调查应尽量收集可能直接影响既介和因变量（例1.4和1.7），或两者的独立变量和中介（例1.6和1.7）中的所有可能的混杂因素，并调整为它们在分析中。当一个混

30、杂因素是独立变量和介体之间的一个中间变量，它也影响因变量（案例3.4），此信息，混杂因素应收集在第二阶段回归调整。对于所有其他情况，对混杂因素的数据收集是不必要的。本文依赖于几个关键假设：（1）在因果途径没有循环;（2）单因素混杂因素，协变量和中介; （3）线性变量之间的关系。我们可以通过允许多个混杂因子和协放松的第二个假设。放松第三个假设，我们可以在公式中指定相应的链接功能。（1） - （2），改变四个估计策略相应。进一步的研究是必要的，研究的四个估计的作用。我们使用偏压模式表2，以帮助推断和确认底层因果通路。在该情况下，两个或更多候选通路具有相同的偏置图案或四个估计不鲜明，研究者应当诉诸

31、科学文献澄清这样歧义。请注意，不正确的占Z的效果，不仅偏置的调解作用的点估计，也影响了标准的错误。图2，正和最大的估计最小的估计D.需要进一步研究的标准误差，研究从四个不同的估算策略取样获得的中介作用的分布。这将是极大的兴趣，通过比较四种不同的估计，以调查是否可以排除某些途径或牵制的正确途径。在实践中，该条款中介，混杂因素，混杂都在概念上不同层面（男爵和肯尼，1986;格陵兰和摩根斯坦，2001;麦金农等，2000）。在这篇文章中，我们只考虑这种情况，即第四个变量作为中介的效果估计的混杂因素。这些20种不同的因果模式似乎是面面俱到。然而，在应用中，真正的底层因果模式可能更复杂：无循环的假设可能不成立，上述第4个变量可能作为一个作用改性剂（慢化剂），或两者作为效果改性剂（慢化剂）和混杂因素。

展开阅读全文