方差分析与协方差分析.ppt

资源描述

《方差分析与协方差分析.ppt》由会员分享，可在线阅读，更多相关《方差分析与协方差分析.ppt（56页珍藏版）》请在三一文库上搜索。

1、方差分析和协方差分析,第5组,在针对连续变量的统计推断方法中，最常用的有t 检验和方差分析两种四种不同的颜色包装对饮料销售量的影响（四个水平，分类变量）两两t 检验？,不能做t 检验,如果有K(K3)个平均数，若用两两比较的方法来检验，则需作K(K-1)/2次检验，不但程序繁琐，而且相当于从t 分布中随机抽取多个t 值，其落在大于临界值的范围内的概率大大增加，犯类错误的概率大大增加：如6次检验H0的概率是0.95时的误差为：1-0.956 =0.265。,方差分析概念,第一类因素：可以控制的控制因素第二类因素：不能控制的随机因素受前两类因素影响的事物为观察变量方差分析目的：分析控制变

2、量的不同水平是否对观察变量产生了显著影响，检验各个水平下观察变量的均值是否相等,方差分析分类之一,单变量方差分析：一个观察变量单因方差分析中的控制变量只有一个多因素方差分析中的控制变量有多个多变量方差分析：多个观察变量,方差分析分类之二,一般方差分析：因变量是定量变量，自变量是定类数据协方差分析：将很难控制的因素作为协变量，在排除协变量影响的条件下，分析控制变量对观察变量的影响，从而更加准确地对控制变量进行评价。协变量一定要是连续数值型。非定量方差分析：因变量为定序变量,统计技术分类图,方差分析原理,目的：通过方差的比较来检验各个水平下的观察值的均值是否相等观察值差异：观察值存在差

3、异，差异的产生来自两个方面。系统性差异：由控制变量的不同水平造成的，例如饮料的不同颜色带来不同的销售量随机性差异：由于抽选样本的随机性而产生的差异，例如，相同颜色的饮料在不同的商场销售量也不相同。,9,方差分析的基本思想(单因素),组间变异,总变异,组内变异,组内只包含随机误差组间既包括随机误差，也包括系统误差, , , , , ,组间变异组内变异,A,B, ,组间变异组内变异, , , , ,A,B,单因素方差分析逻辑与步骤(One-Way ANOVA),前提假设模型与假设平方和的分解与F 检验多重比较(事后检验) 关联强度与效应值,方差分析的前提条件,(1)每个水平下的因变量应

4、当服从正态分布。方差分析对分布假设有稳健性(robust)，即正态性不满足时，统计结果变化不大，因此一般并不要求检验总体的正态性。 (2)变异可加性。各因素对离差平方和的影响可以分割成几个可以加在一起的部分。（多因素） (3)独立性。观察对象是来自所研究因素的各个水平之下的独立随机抽样,(4)方差齐性(homogeneity of variance)，也称变异的同质性，各个水平下的总体具有相同的方差。这是方差分析一个很重要的前提，因此在进行方差分析之前，应当进行方差齐性检验。 Bartlett检验法 Levene F 检验最大方差与最小方差之比3，初步认为方差齐同。,方差不齐,若方差齐性的假

5、定不满足，可考虑如下策略： a.检查某些表现“特殊”的观测值，看能否将其剔除，用剩下的数据进行方差分析。 b.使用无方差齐性假设的多重比较方法。 c.数据变换，用变换(平方根变换、对数变换等)后的数据进行方差分析。正态性转换。 d. 非参数检验,模型与假设,模型表达式（单因素） Y=+a+e 建立假设，确定检验水准,k组总体均数不全相等。,方差分析表组间变异体现了因素A的效应，组内变异则被视作误差。,确定P 值，做出统计推断,如果均值相等，F=MSA/MSE1,事后比较(posteriori/post hoc comparison),F 检验显著说明各组均值并不相同(至少两组不同)，但不能回

6、答到底哪几组不同。通过对各组均值之间的配对比较来进一步检验到底哪些均值之间存在差异。方法众多，不下20种。,LSD法：最灵敏，会犯假阳性错误； Sidak法：比LSD法保守； Bonferroni法：比Sidak法更为保守一些；常用 Scheffe法：多用于进行比较的两组间样本含量不等时； Dunnet法：常用于多个试验组与一个对照组的比较； S-N-K法：寻找同质亚组的方法； Turkey法：最迟钝，要求各组样本含量相同； Duncan法：与Sidak法类似。,均数两两比较方法,关联强度 (strength of association)与效应值 (effect size)的度量,实验处

7、理引致的效应的大小或者数据的变异有多少部分是由实验处理造成的。 Eta平方净(偏)Eta平方 Omega平方 Cohens f （具体内容见附录）,双因素（无交互作用）试验的方差分析表,注意,各因素离差平方和的自由度为水平数减一，总平方和的自由度为试验总次数减一。,双因素（有重复）试验方差分析表,这里,方差分析的应用范围：,（一）单因素多个样本均数的比较: 1. 完全随机设计：只安排一种处理因素，不安排任何配伍因素。 2. 随机化区组设计：只安排一种处理因素，安排一种配伍因素。 3. 拉丁方设计：只安排一种处理因素，安排两种配伍因素。,（二）多因素样本均数间的比较： 1.析因设计：安排两种或

8、两种以上处理因素，分析处理因素间的交互作用 2.裂区设计：安排两种或两种以上处理因素，分析处理因素间的交互作用 3.交叉设计：安排两种或两种以上处理因素，分析处理因素间的交互作用（三）多个样本均数向量间的比较多元方差分析：结果变量有两个以上，需要综合评价。（四）回归方程的假设检验,协方差分析,27,概念：将方差分析和回归分析结合起来的一种统计分析方法,当试验指标（Y）的变异既受一个或几个分类变量，也受一个或几个连续变量的影响，可采用协方差分析,方差分析：一个或几个因子（分类变量）对变量Y（连续变量）的影响回归分析：一个或几个变量（连续变量）对变量Y （连续变量）的影响,28,目的

9、消除连续变量对Y的影响，使方差分析的检验功效更高，结果更可靠连续变量可能会增大 Y 的组间差异，导致错误结论连续变量可能会增大 Y 的组内变异，降低检验功效消除分类变量的影响，使回归分析的结果更可靠,20名男性篮球运动员和20名大学生的肺活量（cm3）比较,协方差分析基本思想,协方差分析基本思想,20名男性篮球运动员和20名大学生的肺活量（cm3）比较,协变量,协方差分析基本思想,比较肺活量时，要消除身高的影响。方法1：抽样时，选身高相近的。方法2：从统计分析技巧上平衡数据。校正了身高的影响后（回归分析），再比较两组肺活量的均数有无差异（方差分析）。,协方差分析基本思想,在方

10、差分析中，用来校正因变量的数值型变量称为协变量（covariable）。含有协变量的方差分析称为协方差分析。协方差分析可提高方差分析的准确度。观察指标（Y）的总变异： SS总SS协变量SS处理SS误差,33,协方差分析的基本思想,其实质就是从Y的总离均差平方和中扣除协变量X对Y的回归平方和，对剩余（残差）平方和作进一步分解后再进行方差分析，以更好的评价处理的效应。,SS总SS回 SS残,SS总SS协变量SS处理SS误差,SS修正SS组内残差,大学生篮球运动员,图1 协方差分析示意图,调整均数,协方差分析步骤,完全随机设计的协方差分析应用条件检验回归分析求调整均数对调整均数

11、作方差分析,协方差分析的假设,协方差分析的基本假设与方差分析相同，包括变量的正态性、观测值独立、方差齐性等，此外还有三个重要的假设：因变量与协方差之间线性关系；所测量的协变量不应有误差，如果选用的是多项的量表，应有高的内部一致性信度或重测信度，系数最好大于0.80。这一假设若被违反会造成犯一类错误的概率上升，降低统计检验力。 “组内回归系数同质性”（homogeneity of with in rgression），各实验处理组中一举协变量（X）预测因变量（Y）的回归线的回归系数要相等，即斜率相等，各条回归线平行。如果斜率不等则不宜直接进行协方差分析。,37,协方差分析的模型和假定,回归分

12、析：,协方差分析：,模型,方差分析：,Thanks!,问题：为什么一个比较均数差异的方法竟称为方差分析？,这种命名是因为在检验均数间差异是否具有统计学意义的过程中，我们实际上是通过比较方差而得到的。与t 检验直接比较两组的平均数的做法不同，方差分析把“平均数之间差异是否显著”的问题转化为“平均数组间变异是否显著”的问题，通过“组间变异”与“组内变异”的对比，进行F 检验，从整体上同时比较多组的平均数之间是否存在显著差异。,LSD (费舍最小显著差异法, Fishers least significant difference) 该方法是对检验两总体均值是否相等的t检验方法的总体方差估计加以修

13、正(用MSE代替)而得到的。,特点检验敏感性高，即水平间的均值只要存在一定程度的微小差异就可能被检验出来。但该方法没有控制范第一类错误的概率。,S-N-K(Student-Newman-Keuls, q检验) 首先把各组均值排序，用每一比较的两个均值在排序序列种相差的等级数来确定不同的q 临界值。,两均值的rank之差,是一种有效划分相似性子集的方法，该方法适用于各水平下观测值个数相等的情况。,Tukey法(honesty significant different, HSD) 与SNK法类似，不同之处在于不论各组均值的大小次序，均使用同一临界值。,组数,它采用q统计量，适用于各水平下观

14、测值个数相等的情况。与LSD方法比较，较好的控制了范第一类错误的概率。,Bonferroni校正(以t 分布作为检验分布,对检验水准进行调整) 与LSD方法基本相同。不同的是它控制了范第一类错误的概率。在每次两两组的检验中，它将显著水平除以两两检验的总次数。在比较的次数较多时，该方法就不太适合。,Dunnett方法,是一种唯一用于多个处理组和一个对照组比较的方法。,SPSS提供的常用多重比较检验方法,1、Tambanes T2: 基于t检验的保守的多重比较方法。,不满足方差齐性多重检验方法,2、Dunnetts T3: 基于学生化极大模的多重比较方法。,3、Games-Howell: 非参

15、数多重比较方法。,4、 Dunnetts C:基于学生化极差的多重比较方法，是一种可信区间的方法。,Eta平方(Eta-Squared,2)，又称关联强度(correlation ratio)，因变量的变异被自变量解释的百分比。净Eta平方(partial Eta-Squared,p2)，多因素ANOVA中，扣除了其他自变量后某自变量的效应。判断标准：0.01，小；0.06，中；0.14，大,Omega平方(Omega squared,2) 当F显著时，2将会是正值，若为负，则要解释为0。当样本很大而使MSw变得很小，F很容易达到显著，此时若2很小，即使在统计上有意义，实际应用上仍然没意

16、义。判断标准：0.01，小；0.06，中；0.14，大,Cohens f f f 0.25，中；f 0.40，高,修正均数的计算：,修正均数间的多重比较：,S2y.x为组内剩余方差,52,SS总 SS回 SS总残,常用试验设计,1.完全随机设计(Completely random design) 单因素设计. 优点:简单易行,缺点:只能分析一个因素 2.配伍设计(Randomized block design) 随机区组或双因素无重复试验设计. 交互作用和方差齐性无法考察 (1) 同一受试对象在同一处理不同水平间的比较复 (2) 将几个受试对象按一定条件划分成配伍组,再将每一配伍组的各受试

17、者随机分配到各处理组中,每个配伍组的例数等于处理组个数.,3.交叉设计(Cross-over design) 一种特殊的自身对照设计. 克服了试验前后自身对照由于观察期间各种非试验因素对试验结果的影响造成的偏移. 优点:节约样本含量,能控制时间因素及个体差异对处理方式的影响,均等考虑受试者利益缺点:不允许缺失数据,不适用于短程效果对比 4.析因设计(Factorial design) 当一种因素的质和量改变时另一种现象的质和量也随之而改变,几个因素间存在交互作用时使用. 优点:节约样本含量,5.拉丁方设计(Latin square design) 各因素间无交互作用且水平数相等,三个

18、因素按水平数r排列成一个r*r 随机方阵.纵横两向结尾皆为配伍组,可用较少的重复次数,获得较多的信息 6.正交设计(Orthogonal design) 三个及以上因素,存在交互作用.用正交表将各试验因素,各水平之间的组合进行均匀搭配,从而可以用较少的,有代表性的处理组合,提供充分有用的信息. 优点:高效,快速缺点:基于线性模型的设计,7.星点设计(Central composite design) 在正交或析因设计的基础上将自变量与因变量的关系扩大到曲面效应面的设计,如二水平析因设计加上极值点和中心点构成,采用二次以上多元非线性拟合. 8.嵌套设计（Nested design）各个试验因素的影响有主次之分,次要因素的各水平是嵌套在主要因素水平之下的,不能交互. 9.裂区设计（Split-plot design）试验因素并非一次安排,而分二次甚至多次安排.先安排影响最重要的,而后再加入影响较小,或精确度要求高的次要因素到主要因素的不同水平中.,

展开阅读全文