假设的检定两个变量的相关.ppt

资源描述

《假设的检定两个变量的相关.ppt》由会员分享，可在线阅读，更多相关《假设的检定两个变量的相关.ppt（76页珍藏版）》请在三一文库上搜索。

1、第十章,假设的检定两个变量的相关,第一节,两个定类变项,定类或定序ppt上考至少考一个例题定距,倘若要研究X与Y这两个变项是否相关，则在抽取了一个随机样本以后便首先运用前面所介绍的方法，简化样本中的资料，从而计算X与Y的相关程度和方向。但是，即使在样本中X与Y是相关的，却可能是由抽样误差所引起，不一定是在总体中也相关。由于我们所关心的是总体的情况不是样本的情况，因此，需要作统计推论，本章的目的是介绍怎样运用样本的资料来检定假设，在总体中X与Y是相关的。在介绍计算相关系数时，我们强调要特别注意变项的测量层次，同样，在选用相关的检定法时，也要特别注意该检定法所要求的测量层次。,一、交互分类表

2、中变量的相互独立性研究定类变量之间的关系，实际上就是通过条件分布的比较进行的，下面我们首先通过条件分布表来看一看两变项的相互独立性。,问题是，如何进行比较呢？,根据上表中的每一行，可以比较三代人的喜爱是否有所不同，首先对戏曲来说，三代人的百分比分别是：0.740.250.04；歌舞为：0.180.500.61；球赛为：0.080.250.35。可见，随着代际的年轻化，对戏曲喜爱逐渐下降，而歌舞和球赛越来越受到欢迎，从而得出节目的喜爱与代际相关的结论，也就是变量Y(节目的喜爱)与变量X(代际)是有关的。相关系数计算结果是否如此？,现在设想，如果统计的结果显示，三代人的百分比是不变的，即：

3、戏曲：0.74、0.74、0.74 歌舞：0.18、0.18、0.18 球赛：0.08、0.08、0.08 那么，又该作出什么结论呢？,显然，如果选择“喜爱节目”的比例对于三代人都是一样的话，那就表示变量“节目”与变量“代际”之间没有关系的，这种情况称变量之间是相互独立的。如果变量间是相互独立的话，通过上例可以看出，必须存在变量的条件分布和它的边缘分布相同。,即：,用一个通式来表示，即：,(i=1,2 r，j=1,2 c),上式分子分母均乘以N：,可见，如果交互类表中的变量是相互独立的，边缘分布和条件分布存在以下关系。,二、交互分类表的原假设,交互分类表检验是将总体中变量间无关系，或相互独

4、立作为检验的原假设。即： H0：变量x与变量y无关（总体） H1：变量x与变量y有关（总体） H0：pij =pi*.p*j （i=1,2c；j=1,2r）由于pi和pj是总体的边缘分布，一般都是未知的，因此，可以用样本中的边缘频率分布作为它的点估计值：列边缘： i=1,2c 行边缘： j=1,2c 这里小写字母ni，nj，n表示样本频次。,三、交互分类表检验的统计量X2,运用统计量2来进行检验。2检验要求：1）样本是用随机方法抽取的；2）两个变量都是有定类的性质。交互分类检验的程序和单变量检验是相同的：确定原假设；选择适当的统计量，定出显著性水平后根据样本值进行判断。交互分类表统计量

5、的确定是通过在原假设成立的条件下，用总体和样本一系列值的比较来进行的，具体步骤是：,求出列联表中各格的期望频次,1）原假设：H0：pij=pi*.p*j 用样本的边缘和求出pi*和p*j,（式中的第二个符号是根据原假设H0得来的。第三个近似是根据边缘频率分布的点估计值得来的。）,Eij=npij=np*i.p*j,于是，在原假设H0成立条件下的期望频次交互分类表有下表1：,不仿设想，在H0成立的条件下，作无数次抽样，每次抽样可得到一个实例的频次交互分类表，如下表2：,比较表1和表2，可以想象如果总体中H0为真的话，那么实例频次列联表的格值和期望频次列联表中的格值相差不多的可能性较大。反之，如

6、果两表的格值差距很大。上述的讨论可用以下的统计量来表示：,分子取平方是为了取其绝对差值，而分母Eij是为了平衡Eij数值本身的大小，否则，如果Eij本身数值很小的话，则即使(nij-Eij)2与Eij 相比已经很大，但在总平方和中仍然是微不足道。,上述统计量，经过数学计算可知，当n很大，每格Eij都不太小，服从自由度K=(r-1)(c-1)的2分布。注意，下面就交互分类表的统计量进行讨论： 1.对于22表，由于格数过少，为减少偏差，要作连续性修正，尤其在有某一个或多个格的预期次数等于或小于5时必须修正：,2.以上2检验的讨论，也适用于单变量二项总体或多项总体的假设检验。,（1）二项总体。

7、在单总体假设检验中，曾谈到对于大样本总体成数的假设检验，可用： Z= 作为总体成数的原假设 H0：P=P0的统计量。,但是通过列联表的讨论，可引出另一件与2等价的检验方式：改H0：P=P0(P0为总体成数)。于是对于样本容量为n的抽样，其理论上期望频次为：E1=np0 而理论上非期望出现的频次为：E2=n(1-p0)。与此同时，相对应的实际观测值为n1和n2(n1+n2=n)。引用2检验有：可以证明，当n较大时，2分布近似地为自由度K=1的2分布，根据连续修正，上述2为：,（2）多项总体,多项分布是单项二项分布的自然扩展，如果变量A共有R类：A1、A2、Ar。设总体种各类的概率为：P

8、1、P2、Pr。于是总体的原假设H0为：H0:Pi=Pi0 （i=1,2r）对于样本容量为n的抽样，其理论是期望频次分布为：Ei=npi0。与此同时，相对应的各类实际观测值为：n1、n2nr。则2值为：可以证明， 2近似地满足自由度K=r-1的2分布。,3. 使用统计量2对RC表进行检验，每一格值的Eij要保持在一定数目上。,如果其中有的格值Eij过小，在计算值时，2值的波动就会过大。 Eij应该取多大，根据要求的精确程度不同，不同研究者给出的限制不同。对于二项总体，要求np5，n(1-p)5。也就是如果只有两个格值的话，必须要求所有Eij5。有的研究者认为Eij5的要求适合所有

9、rc的交互分类表。但也有人认为对于rc 交互分类表，Eij3就可以了。另外，还有人指出Eij小于5的格数不应超过总格数20%，当小于5的格值过多会引起判断的失误。,举例：设实例值和期望值共有7个格值。,从直现来判断，实例值和期望值相差不大，可以接受原有假设。但如何用2值进行显著性检验呢？（=0.05）。,检验表明：有显著性差异。,为什么会出现感觉和X2检验不符的情况呢？主要因为在7个格值中就有3个期望值小于5，占总数的43%。因此2计算值偏大当出现上述情况时，可将期望值偏小的格值合并。,2 =,临界值：,接受H0，作出直观感觉和2检验相符的结论。,例：某镇研究职业代际流动，调查了共140人，

10、其结果如下：,解：H0：子辈职业与父辈职业无关 H1：子辈职业与父辈职业有关,得期望频次表,4.2检验就其检验的内容来看是双边检验，就检验的形式来看，又象右边检验。,从上面所举例中的H0和H1就可以看出，它所判断的内容仅是变量间是否存在关系。至于关系的方向，由于列联表属定类变量，因此是不存在的。但从列联表2的统计量的公式来看，只有期望频次和实测频次的绝对值愈大，才能否定变量间关系的原假设即：22。因此，列联表检验从形式来看，却又很像右侧单边检验：,X2(r-l)(c-1) ,5. 交互分类的检验是通过频次而不是通过相对频次的比较进行的。,表1的2值：表2的2值表3的2值,如果选择a=0.

11、05，查表得： X20.05(1)=3.841=3.84 则表1判断为无显著性差异，表2和表3则判断为有显著性差异，可见，相对频次相同的交互分类表，在统计检验中，其显著性并不相同，特别是当总体中两变量相关并不很大时，如果样本容量较小，很可能呈现无显著性差异，但当样本容量增大时，2将增大，这时虽然列联表的相对频次没有改变，但很可能呈现有显著性差异，这时因为2的临界值并不变化。,通过上面的例子，可以看出，当样本容量增加K倍时，由此可见如果相对频次不变，当样本容量增加K倍时， 2值将增加K倍。,实际上，这也是容易理解的，因为当样本容量增加之后，如果仍然保持原有的比例的关系，则说明它出于随机误差的可

12、能性减少，也就是确认其比例关系的把握增大。这也是为什么相对频次的统计表必须注明调查总数的缘故。,例：某工厂为了解职工对厂内福利是否满意，作如下抽样调查：,依H0及样本边缘次数分布，计算期望频数,临界值：由于a=0.05 ,k=(2-1)(2-1)=1,X20.05(1)=3.84 X2=9.27X20.05(1)=3.84 拒绝H0，接受H1，即男女职工对厂内福利的满意与否是有显著差异的，显著性水平达到0.05。,作业：,1根据某摊贩的上报，每天平均营业额为55元。经过6天的抽查，其营业额为（设营业额满足正态分布）： 59.2，68.3，57.8，36.5，63.7，57.3 单位为元问

13、：原摊贩上报的数字是否可信显著性水平为0.05？,作业,2某学校对新生数学成绩进行摸底检查，自100名经济专业的学生中抽出12份考卷，得平均分数为70分，标准差3分；自50名管理专业的学生中抽取10份考卷，得平均分数为60分，标准差4分，若已知总体服从正态分布且方差相等，问两专业学生之数学成绩是否有显著差别显著性水平为0.01。,3、为研究两种教学方法的效果，选择了6对智商、年龄、阅读能力、家庭条件都相同的儿童进行了实验，结果如下表。问：能否认为新教学法优于原教学法（显著度水平=0.05）,作业,4、为了研究饮食习惯与地区之关系。作了共100人的随机抽样调查资料如下表，问饮食习惯是否与地区有关

14、(=0.05)？关系程度如何？,第二节,等级相关两个定序变量,一、rs的统计检验,斯皮尔曼等级相关系数: 其中，di2=(xi-yi)2 当rs是根据抽样数据计算得来时，必须进行假设检验，以确定总体中也存在等级相关。,rs的统计检验步骤,Ho：总体中变量x与变量y等级无关，Ps=0 H1：总体中变量x与变量y相关，Ps0 根据Ho变量的条件下，不妨设想从总体中抽取无数个样本容量为n的样本。根据每一个样本，都可以计算出一个样本的等级相关系数rs。由于抽样误差的存在，各次样本的rs是不等的，rs是随机变量。可以证明：当n10时，统计量：自由度kf=n-2,正如一般t分布所具有的性质，n30，rs

15、也可使用统计量Z进行检验，在要求不十分严格的情况下，n10亦可使用Z值。,说明：,等级相关适用于定序变量，研究的是变量间的等级是否存在相互关系。但对于定距变量，在计算相关系数时，如果某些基本条件不能满足（如要求变量分布满足正态分布），这时可以降低变量层次，作为定序变量处理，因为等级相关系数对总体变量分布不作要求的。斯皮尔曼等级相关是以变量没有相同等级为前提的，但如果相同等级不太多，可采用平均等级的方法计算斯皮尔曼等级相关。,例：为了研究生育率与平均受教育程度之间的关系，设随机抽查了10个县，以下是按等级设计的结果，问生育率与受教育程度之间是否相关？（=0.05）,解：di2=60。rs不具有

16、PRE性质，属对称测量。,H0：Ps=0 (总体中生育率与平均受教育无关) H1：Ps0,临界值t0.05/2(10-2)=2.306 因为 t=2.334t0.05/2=2.306 因此，拒绝H0，接受H1，即可认为生育率与平均受教育是有关的，相关系数为0.636。,二、Gamma系数的检验,H0：总体中G=0 H1：总体中G0（或G0或G0）检验条件：两个变量都是定序变量；随机抽样；大样本(通常是n100)。,G值标准化的公式如下：其中G是随机样本的G系数值，Ns是同序对数，Nd是异序对数，N是样本的大小。如研究假设(H1)总体中G0或G0可用一端检验，如是G0，则需用二端检验。

17、,根据统计学家推算，依据H0(即假定G=0)的G值的抽样分布近似正态分布，故用Z检定法来检定H0的正误，把G值标准化的公式如下：,例：以下是500名文化程度代际流动的抽样调查。试求G值(a=0.05)或求文化程度与代际流动的关系。,解：,Ns=118(130+32+43+98)+37(32+98) +18(43+98)+13098=55842,Nd=15(18+130+9+43)+37(18+9)+ 32(9+43)+1309=6833,即文化程度与代际流动是相关的，用文化程度估计代际流动可消减78%的误差。为了确认G值是否具有推论价值，进行统计检验。,H0：G=0 H1：G0,因为Z=14.

18、05Z0.05/2=1.96。所以拒绝H0，接受H1，即文化程度与代际流动相关，用文化程度解释代际流动可消减78%的误差，a=0.05。,注意：,G的Z检定公式较为保守，通常略为低估了检定值(Z)。当所算得的检定值非常接近所要求的否定域数值，就要用较为精确的S因子检验公式。较为精确的做法是不用理会G值，而直接检定（Ns-Nd）这个称为S因子的数值。因为G分数的公式是以S=Ns-Nd作为分子，因此S=0，即G=0。研究假设H1为S0(或S0或S0),原假设H0变为S=0，通过检定S来间接检定G。,检定S的步骤,首先，为使S的抽样分布近似正态分布，要把S的数值修正为S。其中N是样本大小，r与

19、c分别是表的行数与列数。,最后，计算检定值：,例：x、y为两个定序变项，抽样调查获得以下数据，求x与y是否相关。(=0.001),解： Ns=8(4+12+8)+10(12+8)+08=392 Nd=2(12+4+0)+0(4+0)+100=32 S=Ns-Nd=360,设H0：S=0 H1：S0 由于n=44，r=2，c=4，则,Z0.001/2=3.09，Z=4.31Z0.001/2=3.09 所以拒绝H0，接受H1。,又因为： A2=814+812+810+1412+1410+1210=716 B2=2024=480 A3=81412+81410+81210+141210=5104 B3

20、=0 ？,因这只有两个边缘次数。,同上题，如果用Z检验：,注意,许多定序相关测量法如dy系数和肯德尔的tau系数，其公式都是以“S=Ns-Nd”作为分子的，因此它们都可以通过S的检定来推论总体的情况。由于都是以S作分子，故此在总体中如果S=0，则G=dy=tau=0，可见这三种相关系数的检定是有共同性的。,第三节,两个定距变量的检验,不考,一、回归方程的检验,用最小二乘法求直线回归的方法，是基于线性回归模型的基本假定进行的。因此在配置回归直线之前，必须对总体变量间是否存在线性相关关系进行检验。对于不存在线性关系的总体，配置回归直线是毫无意义的。,1、检验的原假设,总体变量x和总体变量y存在线

21、性关系，即存在关系式：E(yi)=+xi 因此，总体的线性回归指的是当x=xi时，y的均值E(yi)是线性函数：E(yi)= +xi,关于 X与Y关系式的基本假定：,自变量x可以是随机变量，也可是非随机变量。x值的测量可以认为是没有误差的，或者说误差是可以忽略不计的。由于x和y之间存在的是非确定性的相关关系。因此，对于x的每一个值xi，yi是随机变量，或称作是y的子总体。要求y的所有子总体y1、y2yiyn，其方差都相等。 D(y1)=D(y2)=D(yn),如果y的所有子总体，其均值E(y1)；E(y2)E(yn)都在一条直线上，则称作线性假定，其数学表达式为：E(yi)=+xi。由于、对

22、所有总体都一样，所以和是总体参数。要求随机变量 yi是统计独立的，即y1的数值不影响y2的数值，各y值之间都没有关系。出于检验的需要，除了上述假定或要求外，还要求y值的每一个子总体都满足正态分布。,上述总体假定的数据结构为,（1）随机变量yi是统计独立的，具有：均值E(yi)=+xi；方差D(yi)=2；（2）yi与xi有如下关系式：y1=+x1+e1；y2=+x2+e2；yn=+xn+en。其中e1、e2en是随机变量，它们相互独立，具有：E(ei)=0，D(ei)=2。,根据前面的基本假设，对于总体线性检验的假设可写成如下形式：,当总体具有上述假定时，即根据样本运用最小二乘法所求解的

23、方程：g=a+bx将是总体线性回归方程：E(y)= +x的最佳线性无偏估计方程，a和b是和的最佳无偏估计量。另外，e1、e2en是随机变量，它们相互独立，具都服从相同的正态分布N(0，2) 2未知。,H0: =0 H1：0 依据假设，可以根据平方和分解求出检验的统计量。,2、线性回归的平方和分解, 总偏差平方和TSS TSS反映了观测值yi围绕均值 TSS同时还是PRE中的E1，当不知y和x及关系时，对y的最佳估计只能是y，而每一个真实的yi值和估计值y之差，就构成首次估计的误差。, 剩余平方和RSS,其中i由回归直线，=a+bx所确定 RSS反映了yi偏离回归直线i的程度,也就是PRE定义

24、中的E2。RSS反映了知道y与x有关系后，估计y值时所产生的总误差，即通过回归直线进行估计之后，仍然未能消除或未被解释的误差，又称残差平方和。它的存在，说明了除X对y的线性影响外，还有其它未被考虑的因素，这些因素往往是十分复杂的。, 回归平方和RSSR,RSSR=TSS-RSS TSS=RSS+RSSR,3、统计量,设总体满足原假设：H0 ： =0，即分别从=0的总体中，如果无数次进行样本容量为n的抽样，可以证明：统计量：统计量：统计量：,对统计量,当样本几个观察点(xi、yi)确定后，TSS则为定值。因此若剩余平方和RSS大，则回归平方和RSSR必小。反之，若剩余平方和RSS小，则回归

25、平方和RSSR必大。而RSSR大，则说明引入回归直线后，所能解释掉的误差大。,例：为了研究受教育年限和职业声望之间的关系，设以下是8名抽样的结果，进行回归直线的检验(=0.05) ：,解：,因为F=57.8F0.05=5.99 所以拒绝H0，接受H1，即可认为配置回归直线是有意义的。,二、相关系数检验,H0：总体相关系数r=0 H1：总体相关系数r0 如果从满足H0的总体中，作无数次容量为n的抽样，并计算出样本的相关系数r。可以证明：,例：受教育年限与职业声望：r=0.95，N=8。,解：H0：总体中r=0 H1：总体中r0,三、相关系数r的检验与回归系数的检验关系,确认总体线性相关的存在，

26、也就是确认配置线性回归方程是有意义的。因此假设H0：r=0和假设H0：=0是等价的，r通过检验，必然导致(F检验)通过检验。F公式和r公式是对应关系：,第四节综合,相关测量法目的是要理解两个变项有“样本”（随机与非随机样本均可）中的相关“强弱”程度。本章所介绍的检定假设的方法，则是根据“随机样本”的资料来推论两个变项在“总体”中“是否”相关。,总结,(1) 要求随机抽样，不能用于分析非随机样本 (2) 所关心的是总体的情况，不是样本的情况 (3) 所要知道的是在总体中相关还是不相关，不是相关的强弱程度 (4)任何的假设检定法，都是样本愈大时愈容易否定原假设Ho,归纳,定类-定类定类-定序定序-定序Z、T检定定类-定距定序-定距 F检定定距-定距,2检定,在研究报告中，一般不用写出条件次数表，但最好写出条件百分表。最好是在条件百分表内写出相关系数，再加上检定值及其显著度。,说明：,表1：住户人口密度与婆媳冲突关系 (N=200),

展开阅读全文