非参数统计.ppt_三一文库31doc.com

资源描述

《非参数统计.ppt》由会员分享，可在线阅读，更多相关《非参数统计.ppt（43页珍藏版）》请在三一文库上搜索。

1、目录,符号检验,我们知道表示数据的中心位置（或平均大小）的方法有平均数（包括切尾平均数）、中位数和众数。在参数数据分析方法中，总体的中心位置常用总数的均值表示，所以关于中心位置的检验问题就是关于均值的检验问题。例如，在总体分布服从正态分布时，使用t检验方法检验均值。而在非参数数据分析方法中，总体的中心位置常用中位数表示，所以关于中心位置的检验问题就是关于中位数的检验问题。现在由我们第二组的成员（喻江红、张茜、年先美、刘亚飞）和大家一起来讨论中位数检验问题的符号检验问题。,下面请大家看到P28 例3.1 用我们之前学过的中位数的一般计算方法，得出这50名高级技师年收入的中位数为23276，超

2、过了全市高级技师年收入的中位数21700.那么总体中该行业高级技师年收入的中位数23276是否比全市高级技师年收入的中位数21700高？,原假设H0：me=21700 备择假设H1：me21700 前面中位数的计算太过于复杂，而符号检验的计算很简单，只需将每一个样本数据与21700比较，然后计算一下，有多少个样本数据大于21700.本例中由32个样本数据大于221700.不妨假设P(Xme)=1/2，其中X为该行业高级技师的年收入。于是若me21700，则P(X21700)P(Xme)=1/2.所以一般来说，观察到的大于21700的样本数据的个数比较多，而小于21700的样本数据的个数比较少

3、，即S+比较大。因而我们拒绝原假设H0：me=21700，从而认为总体中该行业高级技师的年收入的中位数me21700.,中位数的符号检验问题的一般提法如下. 样本x1,x2,xn独立同分布，总体为X.符号检验对于总体X的分布不妨作假设：P(Xme)=1/2.由此可见P(X=me)=0 符号检验问题的原假设和备择假设有三种情景：原假设H0 me=me0 备择假设H1 meme0 由于P(X=me）=0，所以不妨假设样本单元x1,x2,.xn都不等于me0。符号检验的检验统计量为（3.1）记号“#”表示计数 S+也可以等价的表示为,（3.2）,若meme0，则P(Xme)P(Xme0)=1/

4、2，即S+比较大，此时拒绝原假设H0：me=me0，而认为meme0. 由于在me=me0时，S+b（n，1/2），所以检测的水平为的拒绝域为S+=c，其中c满足条件： (3.3) 也可以通过p值来完成检验 P值等于二项分布b（n，1/2）的随机变量大于等于S+的概率：P（b（n，1/2）=S+）。P值越小，表示S+越大。若p值，则拒绝原假设H0；若p值，则接受原假设H0.,由Excel可以算得p值。如果在excel中输入“=binomdist（k，n，p，1）”，就可以求得累计概率P(b（n，p）k)的值；如果在excel中输入“=binomdist（k，n，p，0）”，则求得概率P(b

5、（n，p）=k)的值。所以在excel中输入“=binomdist（S+ 1，n，0.5，1）”就可以得到符号检验的p值，即P(b（n,1/2）S+)的值。前面第二章我们已经用到了excel，大家可以回去操作一下，计算一下例3.1，可以算得p值为P(b（50，1/2）32)=0.03245.由于p值较小，我们可以拒绝原假设，级认为在总体中该行业高级技师年收入的中位数me比全市高级技师年收入的中位数21700高。若根据观察值所得的S+拒绝原假设，那么p值也可以用来度量犯第一类错误的概率。,如果meme0 P(Xme0)P（Xme）=1/2 P(Xme0)P（Xme）=1/2 一般来说，这时观

6、察到的大于me0的样本数据的个数比较少，小于me0的样本数据的个数比较多，及S+比较小我们在S+比较小的时候拒绝原假设H0：me=me0，而认为meme0.,由于在me=me0时，S+b(n,1/2), 检验的水平位的拒绝域为S+d，期中d满足条件：,（3.4）,因为在p=1/2时二项分布b(n,p)是对称分布，所以（3.3）式的c和（3.4）的d有这样的关系：,d=n-c,也可以通过p值完成检验的程序：由于在S+比较小的时候拒绝原假设 p值等于二项分布b(n,1/2)的随机变量小于等于S+的概率：P（b(n,1/2)S+）. 如果p值，则在水平下拒绝原假设，认为meme0；如果p值，则在

7、水平下不拒绝原假设.,如果me=me0，则P（Xme0）=P(Xme0)=1/2 一般来说，这时观察到的大于me0的样本数据的个数与小于me0的样本数据个数没有太大的差别，即S+不是很大，也不是很小，所以我们在S+比较大或者比较小的时候拒绝原假设H0：me=me0，而认meme0.,由于在me=me0时，S+b(n,1/2)，所以在水平下，当S+c,或S+d时，我们拒绝原假设，期中c和d满足条件：,也可以通过计算p值完成检验的程序: 我们是在S+比较大或比较小的时候拒绝原假设，所以p值等于两端的概率. 在p=1/2时二项分布b(n,p)是对称分布，在S+n/2时，即S+平均水平之上时，p值等

8、于 2P（b(n,1/2)S+）在S+n/2时，即S+在水平之下时， p值等于 2P（b(n,1/2)S+）. 如果p值，则在水平下拒绝原假设，认为 meme0；如果p值，则在水平下不拒绝原假设.,符号检验问题的解,在实际问题中有可能有某一些观测值xi正好等于me0这时有以下两种处理方法：将这些正好等于me0的观察值舍去，并相应地减少样本容量n的值（Minitab中的符号检验法采用此法）；为什么这些观察值正好等于me0，这很可能与我们使用的计量单位有关.如果使用更小的计量单位，这些观察值就有可能不会正好等于me0了，可能比me0大，也有可能比me0小，第2种处理方法就是将符号检验统计量

9、S+修正为,符号检验在定性数据分析中的应用,有时候，我们得到的观察值是一些定性数据。如果定性数据取两个值，就可以用符号检验进行统计分析。定性数据的概念：统计学上的定性数据包括分类数据和顺序数据，是一组表示事物性质、规定事物类别的文字表述型数据，不能将其量化，只能将其定性。例3.2某项调查询问了2000名青年人，问题是：“你认为我们的生活环境是比过去更好、更差，还是没有变化。”,调查结果如下：,根据调查结果，你是否相信，在总体中，认为“我们的生活环境比过去更好”的人比认为“我们的生活环境比过去更差”的人多呢？带着这个问题，我们用符号检验来进行分析。前面提到，本节是对仅取两个值得定性数据进行

10、的统计分析，所以我们将回答“没有变化，一直如此”和说“不知道”的人舍去，只需要回答“越来越好”和“一天不如一天”的人。该项调查中回答“越来越好”和“一天不如一天”的人数共有800+720=1520人，我们认为该项研究所用的样本容量n=1520.,为了方便起见，我们常用数据1和0，或+1和-1，或符号“+”和“-”分别表示“越来越好”和“一天不如一天”，于是问题就成了仅取两个值的定性数据的分析，结合上节所学的内容，我们可以用符号检验来作出统计分析。实际上这个问题是二项分布的p是否等于的假设检验问题。我们令p表示认为“生活环境越来越好”和“一天不如一天”的青年人中认为“生活环境越来越好”

11、的人所占的比例。,则该假设检验问题的原假设和备择假设分别为：,例3.2检验问题的检验统计量为1520个人中认为“生活环境更好”的人数，根据上节符号检验的知识，在比较大的时候拒绝原假设，认为也即越大，我们越是相信：认为“生活环境更好”的人比认为“生活环境更差”的人多。由调查得 =800.,因为原假设成立时，故检验的p值等于,本例中样本容量n=1520很大，不能用Excel计算p值，故使用二项分布的正态近似。 n较大时,若，则的渐近分布为标准正态分布即近似服从正态分布，记为,回到例中，，所以故p值等于,另外由于二项分布为离散型分布，所以故p值也等于,这两个p值互不相

12、等，是因为二项分布是离散型分布，而正态分布是连续型分布。在离散型分布用连续型分布近似时，要作连续性修正。（见课本）按照英国统计学家F.Yates(1934)提出的，在二项分布用正态分布近似时的连续性修正方法，符号检验的p值近似地取为,由于p值很小，我们相信：认为“生活环境比过去更好”的人比认为“生活环境更差”的人多。本例中假设检验问题，检验的假设是：认为“我们的生活环境比过去更好”的人是否比认为“我们的生活环境比过去更差”的人多，所以将回答“没有变化，一直如此”和“不知道”的人舍去，只需回答“越来越好”和“一天不如一天”的样本。,如果要估计青年人中认为“生活环境越来越好”的人所占的比例

13、和认为“一天不如一天”的人所占的比例的差就不能将回答“没有变化，一直如此”和“不知道”的人舍去，而将估计为显然的估计为,成对数据的比较问题,比较成对数据是测验某品种农作物(或某品种饲料,某种生产方式等)的一个有效方法. 符号检验可用于成对数据检验的问题如:农作物的产量与它的生长环境密切相关,所以比较两个不同品种农作物产量有没有差异,必须为它们选择相同的生长环境,通常采用的方法如下: 挑选n块田，同一块田上作物生长环境相同，不同块田上作物生长环境可以互不相同每一块田一分为二，分别同时种上这两个品种的作物,假设它们的产量分别如下表所示：其中Xji是第i块上品种j作物的产量，j=1,

14、2 i=1,2，n 假设所有的观察值都相互独立由于这n块田的作物生长环境并不完全相同，所以我们可以假设x11, x12.x1n.相互独立，但不能假设它们同分布，关于 x21, x22 ,.x2n 我们同样也只能假设它们相互独立，但不能假设它们同分布。所以两样本的统计比较的方法如t检验方法等都不能用于这类型的数据,同一块田的作物生长环境相同，不同块田的作物生长环境不一定相同，所以这批数据写成成对数据的形式: ,同一对里的两个数和的差异除了与随机误差有关之外，还可能与品种1和2的差异有关。不同对里的两个数和的差异不仅与随机误差和品种有关，还与作物生长环境有关,分析成对数据的关键即作同一

15、对里的两个数和的差值: 关于不仅假设相互独立，还假设同分布基于差值的中位数的符号检验，将说明这两个不同品种的农作物的产量有没有显著地差异,用可加模型解释成对数据，假设第i块田上品种j作物的产量：其中表示品种j的效应，或者将理解为品种j作物的平均产量（j=1,2）表示第i块田的作物生长环境的效应，或者理解为第i块田生长的作物的平均产量（i=1,2,n）,一般来说误差分布为对称分布利用非参数型数据分析方法，假设相互独立，， . ，同关于原点0对称的连续型分布，，，. 同关于原点0对称的连续型分布,由可加模型的假设其中表示品种1和2的效应的差所以这两个不同品种的农作物有没有显著性差异的检验问题，就等价于是否等于0的检验问题,相互独立，，，. 同关于原点0对称的连续型分布 , ,., 同关于原点0对称的连续型分布独立同分布,下面证明也是服从关于原点对称的分布，即它满足条件：由于和都服从关于原点0对称的分布即两边随机变量同分布,由此可知，独立同分布，同为关于对称的分布这两个不同品种的农作物有没有差异的检验问题，等价于对称中心是否关于0的检验问题显然对称分布的均值和中位数相同，都等于对称中心由此可见，中位数检验问题的符号检验可用于关于对称中心的检验问题。符号秩和检验也可用于关于对称中心的检验问题,谢谢！,

展开阅读全文