第11章调查中的非抽样误差.ppt

资源描述

《第11章调查中的非抽样误差.ppt》由会员分享，可在线阅读，更多相关《第11章调查中的非抽样误差.ppt（41页珍藏版）》请在三一文库上搜索。

1、第11章调查中的非抽样误差（non-sampling error）,抽样误差非抽样误差抽样框误差无回答误差计量误差,本章结构,11.1 引言 11.2 抽样框误差 11.3 无回答误差（补充敏感问题调查） 11.4 计量误差 11.5 离群值的检测和处理,学习目标,理解调查中的误差来源掌握抽样框误差的类型及不完善抽样框的使用掌握无回答误差的来源、影响及弥补措施掌握敏感性问题调查模型了解计量误差的来源,11.1 引言,一、概念抽样误差（sampling error）是由于样本的随机性引起的样本统计量的数值与总体目标量真值之间的差异。它随着样本容量的增大而减小。非抽样误差（

2、non-sampling error）是指除了抽样误差之外，由于其他各种原因而引起的误差，是所有调查都可能存在的误差。,非抽样误差的特点,1、具有普遍性，由于它不是由于样本的随机性带来的，因而它不随样本容量的增大而减小； 2、非抽样误差的存在往往造成估计量的有偏（如：无回答）； 3、具有隐蔽性，难以识别或测定； 4、产生原因复杂。,非抽样误差的产生,1、可能在调查及抽样设计阶段产生，如：问卷设计不合理造成词义含糊；抽样设计中抽样框不完善（这是一个重要原因）；抽样设计中使用了不准确的辅助信息等等； 2、可能在数据采集阶段产生，如：无法找到被调查者或被调查者不在家或者不愿意接受调查（无回答是数据收

3、集阶段产生非抽样误差的主要原因）； 3、可能产生在数据处理与分析阶段，如：对数据的审核、整理、编码及录入引起误差。,非抽样误差的分类,按照来源、性质分三类：（1）抽样框误差抽样框不完善；（2）无回答误差没有从调查单元获得调查结果，造成数据的缺失；（3）计量误差所获得的数据与其真值之间不一致。,11.2 抽样框误差,一、概念： 1、抽样框是有关总体全部单元的名录或地图等的框架，是抽取样本单元的依据。 2、理想的抽样框(也称抽样总体)应该同所研究现象的总体(也即目标总体)一致，但在实践中，抽样总体与目标总体常常不一致，由此产生的误差就是抽样框误差。 3、现实中完善的抽样框往往难以得到,二、抽

4、样框误差的类型及影响,（一）类型 1、丢失目标总体单元（少或漏），这种误差不易被察觉，可能造成总量估计偏低，均值估计有偏； 2、包含非目标总体单元（多），容易造成总量估计偏高，但比较容易察觉； 3、复合连接（重复），指抽样框中的单元与目标总体单元不完全一一对应，一个抽样框单元与多个目标单元连接或一个目标单元与多个抽样框单元连接，如：入户调查中常出现的一门多户或一户多个住处等等； 4、不正确的辅助信息，有些抽样如分层臭氧、比率估计和回归估计等等需要辅助信息，若信息不完全或不正确就会影响抽样效果。,（二）对抽样框的一些基本认识,1、建立抽样框事先要做好充分的研究和资料搜集 2、抽样框的维护、使用需

5、要不断总结与研讨 3、有些不完善的抽样框还可以使用，但是需要一定的财力、人力来修补、调整； 4、抽样框误差有时会被解释成其他形式的误差,（三）抽样框误差的影响,只对丢失目标总体单元的抽样框引起的误差进行分析： 1、对总体总和的估计（1）总体总和的真值（2）总体总和的样本估计值（3）偏倚（4）相对偏倚,分析,1、总体总和和估计的相对偏倚取决于r和 W0两个因素。 2、r=1即丢失单元均值与抽样框单元均值相等时，相对偏倚为- W0 3、r1,相对偏倚的绝对值也小于W0 的绝对值。,2、对均值估计的影响,（1）在抽样框存在丢失单元时，均值的估计为：（2）估计量的偏倚为：（3）相对偏倚为：

6、,分析,1、r=1,丢失单元均值和抽样单元均值相同时，估计量是目标变量的无偏估计； 2、偏倚状况随着r的变化而变化。 r1估计偏低，r1估计偏高。,三、不完善抽样框的使用,（一）实行连接在调查方案设计阶段制定一定的规则，使没有包含在抽样框中的目标单元与包含在抽样框中的单元相连接。如：对不在抽样框中的学生与被抽中的学生实行连接（二）惟一连接对于抽样框中存在的复合连接，在方案设计中规定只有唯一的单元被抽中。,（三）使用多个抽样框设样本来自A、B两个抽样框，两个抽样框的单元总数分别为NA,NB,目标总体被分成三个部分：区域a、区域b、区域ab 1、利用抽样框A的样本对区域a、区域ab进行

7、事后分层的总和估计为： 2、利用抽样框B的样本对区域b、区域ab进行事后分层的总和估计为：,3、目标总体的总和估计为：其中WA,WB为适当的权数，且WA+WB=1 4、估计量的方差近似表达为：其中，、分别为重叠部分的单元占抽样框单元的比例：,5、结合调查费用来确定各抽样框的样本量na、nb和权数WA 总费用函数为：在总费用给定的条件下使总方差最小的最优抽样比为：权数分别为：,11.3 无回答误差,一、概念 1、无回答误差是指在调查中由于各种原因，调查人员没有能够从入选样本的单元获得所需要的信息，由于数据缺失而造成的估计量的偏误。 2、无回答从内容来看分为单元无回答和项目无回答。所谓单元

8、无回答是指被调查单元没有参与或拒绝接受调查而造成数据缺失；项目无回答指被调查者虽然接受了调查但是有些项目没有回答。 3、无回答从性质上分为有意无回答和无意无回答。有意无回答往往是因为对内容反感或涉及个人隐私不愿意回答，它对数据质量产生很大的影响；而无意无回答往往是被调查者生病、不在家或很忙无法接受调查。,二、无回答产生的原因及影响,在数据收集过程中都可能产生无回答误差： 1、查找阶段由于地址不详或已经搬迁而无法找到被调查者，调查者不熟悉地址等等； 2、接触阶段被调查者由于客观原因无法接受调查或由于主观原因不愿意接受调查； 3、采访阶段，被调查者对于某些问题不愿意提供答案或调查人员粗心遗漏一些项

9、目或调查中断等等。,将总体分为“回答层”和“无回答层” 1、总体均值为： 2、从总体中抽取容量为n的简单随机样本，n1来自“回答层”，n0来自“无回答层”，则用来作为总体均值的估计的偏倚为：相对偏倚为：,将总体分为“回答层”和“无回答层”，对总体总量估计带来的偏倚为：说明：1、总量估计的相对偏倚与均值估计的相对偏倚相等，但绝对偏倚是均值估计绝对偏倚的N倍； 2、导致无回答偏倚的因素有两个：“回答层” 与“无回答层”之间数量的差异及无回答率R0 3、如果无回答单元与回答单元目标变量的数量特征没有明显的差异，则无回答可以看成是由于随机原因所致，不会造成偏倚，而如果两者不一致，差异越大偏倚就

10、越大。,三、降低无回答的措施,1、问卷设计合理，激起被调查者的兴趣 2、利用调查组织者的权威性扩大影响、激发参与意识 3、选择合适的调查员，做好调查前的培训 4、对调查过程进行监控 5、采用奖励措施 6、再次调查，一般对被调查者要尝试三次仍不成功才可以将其放弃 7、替换被调查单元，替换原则应该是调查设计时就规定好的； 8、对敏感性问题采用随机化回答技术,四、对存在无回答数据的调整（了解）,（一）在抽样调整是指在第一次无回答的单元中随机抽取一个子样本，通过更加细致、更充分的工作获得该子样本的数据作为无回答层的代表值，然后将第一次调查中的回答层与第二次无回答层调查所得数据结合起来对总体参数进行估

11、计的方法。,（二）加权调整即通过给每个回答数据赋以不同的权数然后进行数据处理，从而调整由于无回答引起的偏差。（三）相关推估法主要用于项目无回答时。思路是寻找与无回答问题变量有关联的其他调查问题变量，利用调查数据建立起变量之间的回归方程，对项目无回答变量值进行推估。（四）插补调整是指在数据整理阶段利用调查结果，采用一定的方式为无回答的缺失值确定一个合理的估计值，插补到原缺失数据的位置上。实际中一般涌均值插补。,补充：敏感性问题调查与随机化回答技术,1、敏感性问题（sensitive question）是指所调查的内容涉及私人机密而不愿意或不便于公开表态或陈述的问题，如：社会上的卖淫嫖

12、娼、赌博吸毒、偷税漏税、婚前性行为等等。 2、随机化回答（randomized response）的基本特征是被调查者对所调查问题采取随机回答的方式，避免在没有任何保护的情况下直接回答敏感性问题，从而既保护了被调查者的隐私和机密，又取得了真实的资料。,沃纳随机化回答模型,该模型是由沃纳（S.L.Warner）首先提出的。被调查者对两个与敏感性特征有关的问题给出肯定或否定的答案，问题经常以下面的形式出现：问题1：你具有特征A吗？(如：问题1：你在考试中曾作过弊，对吗？) 问题2：你具有特征吗？（问题2：你在考试中不曾作过弊，对吗？）设计一个随机化装置使两个问题出现的概率比为P:(1-P);

13、但只有被调查者才知道自己回答的是哪个问题.,具体操作,1、在一密闭的容器中放入两种颜色不同（红色和白色），但大小、形状和重量完全相同的球，红球和白球的比例为P:(1-P)（球的比例事先设定），抽到红球如实回答1，抽到白球如实回答2。 2、如果n个被调查者中共有m个回答“是”，那么，敏感性问题1回答“是”的比例可以按照条件概率得到。,沃纳模型的估计量,例题,某高校教务处采用沃纳随机化回答技术欲调查某学期期末考试作弊人数的真实比例。设计中直接提“你在期末考试中作过弊，对吗？”问题的比例为P=3/4,样本量n=200,调查结果回答“是”的人数为60人，请估计曾经作过弊的人数的比例，并给出90%的置

14、信区间。,西蒙斯随机化回答模型（无关问题的随机化回答模型）,西蒙斯（W.R.Simmons）在沃纳模型基础上进行改进，将第二个问题改为与所调查的敏感性问题完全无关的另外一个非敏感性问题.两个问题的一般陈述为：问题1：你具有特征A吗？（特征A为敏感性）问题2：你具有特征B吗？（特征B为非敏感性）其中：具有特征的真实比例为未知的，而特征B的比例是设计时已知的,两个问题在随机化回答中出现的比例假设仍为p:(1-p),其中p已知。,例如：问题1：你在期末考试中曾作过弊，对吗？问题2：你父亲的生肖属牛，对吗？（）在n个被调查者中，有m个人回答“是”，那么：,例题,例某社会学研究所欲调查

15、已婚男子瞒着妻子存私房钱的情况，利用西蒙斯模型对随机抽出的800个已婚男子进行调查，设计的两个问题是：问题：你是否存私房钱？问题：你的阳历生日日期是奇数,对吗？,解：n=800,m=420,p=0.5,采用随机化回答技术应注意的问题,1、要使被调查者充分理解调查方法，特别是让他们明白，他回答的是哪个问题别人并不知晓，事前可以让他抽取几次，以便确信盒子中有不同颜色的球。 2、所提的问题必须简单明了，防止不同的理解，在调查之前就应该明确问题的含义。如：你的生日在五月，对吗？（阴历和阳历） 3、在应用西蒙斯模型时，无关问题的选择特别重要，一定要有隐蔽性，即：调查人员无从猜测被调查者的答案，否则

16、就失去意义。（如：你的身份证号码最后一位是奇数吗？这个问题就不好）,11.4 计量误差,一、概念：计量误差是指由于种种原因导致的调查中的数据与其真值不一致。二、原因 1、设计不周引起的误差 2、被调查者误差 3、调查者误差 4、其他误差（测量工具、编码、录入）,其中，被调查者误差分为两类：（1）无意识误差主要表现为回忆误差，是对被调查的内容记忆不清而回答失真，无意识误差还包括“倾向性数字”。（2）有意识误差大多是由于问题的敏感或其他因素使回答具有某种倾向性。如：对收入、学历、职称等回答会偏高，对应纳税额会偏低。无意识误差可以看成是随机的，不会带来估计偏倚，但有意识误差存在倾向性

17、，会带来估计偏倚。,减少计量误差的措施,1、调查设计方面方案的设计人员一定要经验丰富、素质高 2、现场准备方面对调查人员的招聘、培训和管理都要规范 3、数据结果的审核方面要细致的审核数据的完整性、一致性和有效性,11.5 离群值的检测和处理,一、概念离群值是调查数据集中的极端值和其他数据明显不一致的观测值。离群值可以分为单变量离群值和多变量离群值。二、产生原因 1、被调查者回答数据有错误 2、调查人员记录数据有错误或数据录入有误。 3、可能数据本身具有差异性,三、离群值的确认,1、若m和s分别是测度数据集中趋势和离散趋势的指标，那么每个数据偏离中心的相对距离di为：超过了预先确定的偏离值就为离群值。或者利用置信区间确认 2、虽然样本均值和样本方差是常用的统计量，但是他们对离群值比较敏感，容易造成屏蔽效应因此不适合选择它们。,最流行的检测办法是利用四分位数法，利用中位数测度集中趋势、利用四分位域测度离散趋势，因为这两个测度值对离群值都不太敏感。上、下四分位域：,

展开阅读全文