社会统计学(卢淑华),第十章列联表.ppt

上传人:罗晋 文档编号:8879806 上传时间:2021-01-23 格式:PPT 页数:35 大小:3.35MB
返回 下载 相关 举报
社会统计学(卢淑华),第十章列联表.ppt_第1页
第1页 / 共35页
社会统计学(卢淑华),第十章列联表.ppt_第2页
第2页 / 共35页
社会统计学(卢淑华),第十章列联表.ppt_第3页
第3页 / 共35页
社会统计学(卢淑华),第十章列联表.ppt_第4页
第4页 / 共35页
社会统计学(卢淑华),第十章列联表.ppt_第5页
第5页 / 共35页
点击查看更多>>
资源描述

《社会统计学(卢淑华),第十章列联表.ppt》由会员分享,可在线阅读,更多相关《社会统计学(卢淑华),第十章列联表.ppt(35页珍藏版)》请在三一文库上搜索。

1、第十讲,列联表,第一节 概念, ,1、研究内容 1)研究两定类变量的关系 2)为研究y的分类是否与x之分类有关,将 数据先按x分类,再分别统计x分类情况下y 的分类。 3)按两个定类变量进行交叉分类的频次分 配表,即二维列联表。,4、列联表的一般形式,Nij:x=xi y=yj时所具有的频次,y,x,y1 y2,x1 N11 N12,x2 N21 N22,. . .,. . .,. . .,xc Nc1 Nc2,. . .,. . .,. . .,. . .,yr,N1r,N2r,.,.,.,Ncr,学生上网调查 (统计各项比例,能发现什么问题?),男生,女生,聊天 玩游戏 网恋 学习,20

2、50 15 15,20 50 15 15,Nij,后者可以通过前者求出 p N ,N, p 1,i 1 j 1,2、列联表中变量的分布, ,1)联合分布 对于二变量来说,为了知道分布,集合中的变量值,必须同时具有x和y 两个变量的取值。 ( x1 y1 N11) ( x2 y2 N12),( x1 yr,N1r),此称联合分布, ,( xi yj Nij) ( xc yr Ncr),Nij,表示频次时,联合频次分布表,Pij 表示概率时 联合概率分布表, ,ij,Nij,c r i 1 j 1,c r,ij, ,2)边缘分布: 对联合分布进行简比,只研究其中某一 变量的分布,而不管另一变量的取

3、值, 这样就得到边缘分布。 按行加总y的边缘分布: P y yr P1r P2 r Pcr Pr 按列加总x的边缘分布: Px xc Pc1 P2c Pcr Pc, ,3)条件分布: 将其中一个变量控制起来取固定值,再看另 一变量的分布,即条件分布。 控制x时,条件分布中的每一项都以边缘分布 的 N1* N 2* N c* 为分母 控制y时,条件分布中的每一项都以边缘分布 的 N *1 N *2 N *r 为分母,3、列联表中的相互独立性:, ,1)列联表研究定类变量之间的关系,实际上 是通过条件分布的比较进行的。 如果两个变量之间没有关系,则称变量之间 是相互独立的。 2)如果两个变量之间是

4、相互独立的,则必然 存在变量的条件分布与其边缘分布相同 。,条件分布=边缘分布是列联表检验的基础:,(控制x时),N* j N,N N i*,Nij N,N* j N,Nij Ni*,N*1 N,N 21 N 2*,N11 N1*,Pij Pi*P* j, ,ni,n j,Pi ,第二节 列联表的检验, ,一、原假设: 将总体中变量间无关系或相互独立作为检验,的原假设。 H 0 : pij,pi* p* j,总体 pi* 和 p* j 未知时,用样本 p i 和 P j 代 替。 P j n n,2 2 c r 2 2 ij,E,ij,ni* n* j n,E np,* j ij,统计量的讨论

5、,1、对于22列联表,由于格数过少,为,减少作为离散观测值与作为连续型变量x 值之间的偏差,可作连续性修正: 2 2 2 2 Eij 2、二项总体 2 2 2 E1 E2 p0 为总体成数 1 2,男女休闲爱好, ,x,ni Ei ,x r 1,4、使用统计量 x 对列联表迚行检验,每一格值的 E,值时 nij Eij 值的波劢就会较大。,2,那么在计算,3、对多项总体:, ,Ei,2,统计量: r 2 i 1,2,p,E,i,i 0, n,ij,2 要保持在一定数目乊上。如果有的格值 Eij 过小, 2 x Eij,每格要求:,处理方法:将期望值偏小的格值合并。 右例,做检验。,Eij,20

6、 30 3 1,nij,18,29,4,2,E ij 5,注意: 列联表就其检验内容来看是双边检验,但从 形式上看,却又很像单边检验。其判断的内 容仅是变量间是否存在关系。至于方向,由 于列联表属定类变量,因此是不存在的。,ni Ei , ,x,E,i 1,x r 1,列联表检验步骤, ,1、 H,0,H,1,i,2,2,2、统计量: r 2 3、 4、比较,例:以下是老、中、青三代对某影片的抽 样,能否认为三代人对该影片评价有显 著差异,老,中,青,很高 一般,45 47,39 26,21 22,第三节 列联强度, ,一、变量间的相关 1、列联表中的频次分布情况,不仅是检验是否存 在关系的依

7、据,同时也是度量变量间关系强弱的依 据。相关性程度越高,说明社会现象与社会现象间 的关系愈密切。 2、列联表中变量间的关系的强度分析,可以将频 次转化为条件分布,然后比较自变量取不同值时, 因变量条件分布的不同。,例,右表中,男生上网玩游,生;,想一想,当x取值大于2,时,怎样比较?,戏的比例高于女生;而 上网聊天的比例低于女 y x,男生,女生,聊天,玩游戏 40 67% 10 25%,30 33% 30 75%,即:ad bc, ,二、 2 2表 系数和系数,列联表中两个变量都只有二种取值时,就是 22表 y,x,a c,b d,x1,x,2,y1 y2 ,当变量间无关系时(独立) a b

8、 a c b d 对于22表,无论 系数或系数,都以差值 ad bc 为基础进行的讨论,同时,也把关系强度的取值范围定义 在1,1之间。, ,1、 系数,ad bc a bc d a cb d , , 0 当两变量相互独立 1 b、c为零, 值最大1 a、d为零, 值最小-1 1 一般情况 前例中计算,Q , ,2、系数 ad - bc ad bc 当a、b、c、d中有一个是零时,则 Q 1 对应的实际情况是配对样本研究 3、 、Q 系数的选择 当自变量的不同取值都会影响因变量 时,用 系数。当存在控制组时,用 系数,x,x 值构成 系数, ,4、r c 列联表 2 2 2 Eij 期望频次

9、Eij 是基于无相关前提下计量出来的,,2 因 愈大,表示变量间距离无相关性愈远。 2 x2 n 其与22表中 系数是一致,22表中是 r c 表中 系数的特例。,x, n,c值在0,1但永远小于1,又出现了v系,数:,由于r c 表的数增多后, 值增加,没 有上限,无法比较,因此以c系数修正。,x,c ,2,2,2 minr 1, c 1,V , 1,V 的取值:o V,表示所减少的相对误差,越大表示y与x关,2)以减少误差比例为基础的相关性测量, ,PRE不受变量层次的限制,通过现象之间的关 系研究,从一个现象预测另一个现象。 PRE E1 E 2 E1 E1 :不知y与x有关系时,预测y

10、的全部误差, E 2 :知道y与x有关系后,用x去预测y的全部误 差,E1 E2 E1 系越密切。,误差为: jnn max,为 nn max, ,E,PRE的取值范围: PRE=0:两变量是无相关(知道x与否无 助于y的预测,1 E 2 误差不变) PRE=1:两变量是完全相关的(知道x与y 有关系后,可以消除预测的全部误差) 0 PRE 1:其他 E1 :不知y与x 有关,用y的边缘和 n的最 大值去猜y值,猜中的频次会更多。全部 E 2 :知道有关后,先看它属于x的哪一 类,然后用这一类的众值去猜y值,误差 c ij i 1, j, max n max n,n max n ,两种系数:,

11、 , ,* j,ij * j,c i 1,1) 系数 E1 E2 E1 即:,每列最高频次之和 y边缘和中最高频次,观察总数 y边缘和中最高频次 的取值范围: x与y无相关: 0 ;x与y全相关: 1,PRE,所得 值称作 y ,,N,D,PRE,所得 值称作 x,, N,D,Dy Dx , D D y D D x, , 值的非对称性:,1)以x为自变量,用对y的预测来定义 y y y 2)以y为自变量,用对x的预测来定义 x x x 3)如果x和y孰因孰果不明显的情况,这 时可同时计算 y 和 x ,并取其平均 值,作为x和y间的相关程度。,x x,N y N Dy D, y x y x ,

12、 ,边缘分布所提供的信息。c r,n 1, n, E,n,n, E,i 1 j 1 j 1,1,n n,E,n,系数又有修正:, , 系数: 对 E1 和 E 2 的定义比,当不知道x与y有关系预测y时,充分考虑到y值 2 r ij 2 * j 1 2 i* r 2 1 * j j 1 的取值范围: x与y无相关: 0(边缘分布与条件分布相同) x与y全相关: 1(各行、各列均只有一个不为 0的频次),以前例为参照的推导:,1、不知x与y有关:,猜游戏与聊天:用边缘分布:40%,60%,随机指派40人,猜对游戏的人数4040/100=16 猜错的人数40-4040/100=40(1-40/10

13、0)=24,同理:,随机指派60人,猜对聊天的人数6060/100=36 猜错的人数60-6060/100=60(1-60/100)=24,j1 n * j, ,E1即为猜错人数之和。 推广:,1 r 2 n, n ,n*2 n,) n*2 (1 ,n*1 n,E1 n*1 (1 ,) n*r (,知道x与y有关后:用y的条件分布来猜y值,当x=男生时 随机10人,猜对聊天的人数:1010/50 猜错的人数:10-1010/50 随机40人,猜对游戏的人数:4040/50 猜错的人数:40-4040/50 猜错二者相加:=(10-1010/50)+(40-4040/50) =50-1/50 (102 +402 ) 同理:当x=女生时?,j1,E2即为全部误差之和。,推广:,1 r n1* n 2 ij n i*,E 2 (n1* n ,n 21j ) (n 2* ) c,值称 y,以x为自变量,用对y的预测来定义PRE, 所得, 值的非对称性:, 以y为自变量,用对x的预测来定义PRE, 所得 y 与 x 是不对称的,因此 是非对称 的。,例:,值, 已知列联表,求,y,x,30,120,150,30 60,20 140,50 200,x1,x,2,y1,2,y ,a 0.025,

展开阅读全文
相关资源
猜你喜欢
相关搜索

当前位置:首页 > 科普知识


经营许可证编号:宁ICP备18001539号-1