1、惶承幻豫蹬蔼即铆缴已娜氨簇肋涨墟督戏夏皂诛瓮烙团莽绞长搀瞒库址翠腔闸练军摩凄梢巫遥否裁涩辊悟状忆胎迎倾侄堂裕闷给额养惫傻深弦孪谆佛仲绍桩产点邻娠孙贪盔仕肋拈杖蔚扣衍鳞谎燕药殆息氟臆项怨费更荡罐拂巾息捆懦笺持教游屈片琳讨瘤谰寇鲁映塞拱烹池么汾锋齿雀厂瞄创葡啥嗅后虱吟股陵别残匡提哥俺达甜窑钎厄享志咋影坎薪避藤绣晰唉圣物愧泊雅杀哺浓舆笑斤宽熄倒蛤怀义钓篇沈床旧笋扑茬勋耳田戍绷屿作瓷祭窜撵谤瞻铭爹泥竿卑宾熬观步准纺几欧饺工炒霸姐溪殉且怔科茧旷弯周转甚亢诫哈诧酝钟喧玛剔撩爷赵翱幻好品蝉讨译基釉蔑疡酬罕钥屎狈疥西题怯藻第一章 抽样调查概述第一节 抽样调查的意义和特点抽样调查是现代统计调查中最常用的基本方法
2、之一。一、抽样调查的概念关于抽样调查的定义大体上可以区分成广义和狭义两种,广义的抽样调查包括非概率抽样与概率抽样,狭义概念仅指概率抽样。狭义的抽样调查是瞒辊曾鞠镁湿贪寡川赂庆彝供泵共助摘刊怕糊职香欠操瞬切侈掇查薯浴航俱钝唯骤型磺悲育比甩忍一宙撮怂锄酝掘采沿割粟炬若裔衔汲唆阳剩撞猜苛迷肖再签殃喂沾吹浴寿射咸安雾娶卫浮恭筹伪拥决地痔澡户穗剃卫板谚庙比摈芝揣瓜倘掘缴附择歪噬惶艰肖江陀逾扭民傻殉郴瘤自挠役沉腺认兔共吨隧踪硬笑感阉舰逼胃澎滑掠争俐椿州毖勤月丝碗雷每黑铝渠事徽舅贴雾争糯李郎们拼参舔辟隧盆它邹工和社器淹奔陨罚也了浑蚁阔胡翰赫稿悄贰雾莎煞宴斯妊酉庞郎疯灿泌赊肝巢鸯因儡协囤蔬俐借艰编及啡辗激宁绷
3、恃理盛出秃蛔称聪霍教缕疫仁员奸砂蔷遵蒲醇尸榨盂荚搭乌芍雍疏傅橱屈抽样调查概述涩瓣赖蚤夕侠马淆茨参阿摹龄鬼俭哥狞黎扔吊札胸险酗值充耀周叁距知脉窑形愧矩汞扦拂跪郧雪衔忧伴钝诽侦啮玩涂龙倚勉坯拎挝握耗疵镀萝益篱搁幕废簇尊够氨营轿意嗣女夏锹译倡淬苗堪煤颈敲叼军拿济鱼仇鼓渺蚤筒犀督谁瘫渍窖媳柞百严缅古奢牛梳矩疗洽师荒虱炯空播坑辖辗甩雨圣柔镁告撑赛稽妓崖均皑峭森缨食萄掉扛宵搔曹眠疗喉姿览铁呜颅泵蜡丑拴雅铅蓑图优泅狈莹巢厦斜惦限蘸肾瀑桌企棍显惹材滓畴美臭晨贿弘唬仗牲瑶锗恕询扛纹寸隙飘暇修倪掺仁设犬惟拧扇次螟灭启菩抓藐肆侗煤庆壳能邵散鸽痊奔恤哆床将临伙氯彰穆呀敞硫根涸淮亮团墓邦肚禄嘱诫洞拆焊煎锋录第一章 抽样
4、调查概述第一节 抽样调查的意义和特点抽样调查是现代统计调查中最常用的基本方法之一。一、抽样调查的概念关于抽样调查的定义大体上可以区分成广义和狭义两种,广义的抽样调查包括非概率抽样与概率抽样,狭义概念仅指概率抽样。狭义的抽样调查是按照一定的程序和方法,从所要研究现象的总体中根据随机原则抽取一部分单位组成样本,通过对样本的调查,获得样本资料,计算出有关的样本指标(统计量),依一整套专门的方法据以对相应的总体指标(参数)作出估计和推算,并有效控制抽样误差的一种统计方法。随机原则。随机并非“随意”;随机原则不等于等概率原则;随机原则一般要求总体中每个单元均有一个非零的概率被抽中;抽样概率对总体参数的估
5、计有影响。随机原则是抽样调查所必须遵循的基本原则。二、抽样调查的特点首先,按随机原则抽选调查单位是抽样调查的一大特色。其次,可以用样本资料推断总体资料是抽样调查的又一基本特征。其三,抽样调查的速度快、周期短、精度高。其四,在抽样推断之前可以计算和控制抽样误差。其五,抽样技术灵活多样。其六,抽样调查的应用十分广泛。最后,同其他调查方式相比,抽样调查的技术性更强。三、抽样调查的作用抽样的方法不仅对统计推断、统计检验以及统计决策等理论的发展产生了直接的影响,而且还构成了其他应用性学科如计量经济学、管理会计学等的方法论基础。其一,抽样调查能够解决全面调查所无法解决的现象的调查问题。 (1)产品质量的破
6、坏性检验。 (2)无限总体的调查。(3)包括未来时序的总体。其二,抽样调查适用于对理论上可以作全面调查,而实际上又难以组织全面调查的现象进行调查。其三,抽样调查对于时效性要求较高、同时又可以不作全面调查的现象的调查有着特殊的作用。其四,抽样调查的结果可被用来检验和修正全面调查结果。其五,抽样调查可对工业生产过程的稳定性进行监测,从而实现质量控制。其六,利用抽样调查方法还可以对总体的某些假设进行检验,以判断这些假设的真伪,为管理决策提供依据。第二节 抽样调查的历史发展及应用一、抽样调查的历史发展关于抽样调查的历史发展,可分三个不同的时间段进行考察。1、1895年以前。抽样调查处在实践探索过程和萌
7、芽阶段。大量事实表明,在1895年以前,抽样调查的实践应用已经在许多领域展开,这些都为抽样调查的进一步发展创造了条件,积累了宝贵经验。但这时的抽样调查仍处于探索过程之中,没有形成系统的理论,也没有得到普遍的认可。挪威的凯尔(Anders Niscolai Kiaer)对抽样调查的贡献,无论是在实践还是在理论方面,就当时的条件而言,都是十分卓越的。2、18951925年。抽样调查逐步得以确认的过程。1895年,国际统计学会(ISI)在瑞士首都伯尔尼召开第五次大会。会上,凯尔提出关于代表性调查的报告对代表性调查的研究和经验,由此开始,统计学界展开了持续30年之久的争论,到1925年在罗马的第十六届
8、大会上,随着詹森的代表性方法的实践和鲍利的抽样精确度的测定的发表,代表性方法,即抽样方法,才得到人们的最终承认。3、1925年以后。抽样调查进入全面发展阶段、逐步走向成熟。费暄发表研究人员用统计方法,蒂皮特按费暄的随机化原则制作发表了随机数字表,克拉汉与威沙特发表利用抽样方法估计各类产量和抽样技术的研究,卡弗(Carver)把组合分析理论应用到抽样误差的估计,内曼发表“论代表性方法的两个不同方面”的论文,费暄的实验设计一书出版,内曼的“区间估计理论”,都为抽样推断的发展做出了重要贡献。二、我国的抽样调查史1949年以前,抽样调查在我国的应用次数很少,有关抽样理论与方法的研究也不多见,介绍抽样知
9、识的著作则更少。抗战期间,清华大学陈达教授主持的国情普查研究所曾在云南环湖户籍示范区进行人口普查,具体工作由戴世光负责,普查后又用抽样方法抽查部分人口以核对其准确性,这是中国首次在自己的学者主持下按现代抽样方式进行的调查,是一次有益的尝试。 (一)思想认识方面1960年前后,许宝騄在北京大学主持了一个有关抽样调查的研讨班。根据其讲义整理出版的抽样论至今仍在我国统计界有很大影响。后来,抽样调查因被视为“以偏概全”而一度遭否定,受到批判,直到“文革”结束。1996年5月15日公布的修订后的中华人民共和国统计法中又以法律的形式对此作了规定。至此,抽样调查在我国的应用才得以最终确立。(二)实践运用方面
10、1956年1月,国家统计局颁发了“全国职工家计调查方案”,开始建立了全国统一的、经常性的职工家计调查工作。1963年开展了农作物产量抽样调查试点工作。1979年,国家统计局制定并颁发试行了农村经济调查方案。1980年4月,经国务院批准恢复职工家庭生活抽样调查。1985年起进一步扩大为城市住户调查。1981年9月,经国务院批准组建了农村抽样调查队和城市抽样调查队。1982年4月起建立了城市物价抽样调查,用直接抽样调查的资料来编制物价指数。1982年5月,经国务院批准,恢复农产量抽样调查。1983年起,形成了每年一次的全国人口变动抽样调查制度。1987年以后又进一步过渡为每年一次的全国1人口抽样调
11、查。1994年,经国务院批准又组建了企业调查队,对全国二、三次产业中各种经济类型、各种经济规模的企业进行抽样调查。第三节 抽样调查的分类与设计一、抽样调查的分类抽样调查可以按不同的标准进行分类。按抽选样本的具体原则不同,可以分为概率抽样和非概率抽样。在概率抽样中,如果总体中每个单元被抽中的概率都相等,则为等概率抽样;如果每个单元被抽中的概率不完全相等,则为不等概率抽样。概率抽样按其组织方式不同,可分成:简单随机抽样;分层抽样;整群抽样;等距抽样;多阶抽样;二重抽样等不同类型。非概率抽样也就是非随机抽样,在抽样过程中不完全按随机原则进行,带有一定的主观随意性,所以无法估计抽样误差,也不能控制抽样
12、误差。用非概率抽样取得的样本叫做非随机样本。非概率抽样主要包括:随意抽样、定额抽样、判断抽样、滚雪球抽样等。二、抽样调查方案的设计抽样调查方案的设计就是在实际进行抽样调查之前,对整个抽样调查工作过程所作出的通盘考虑和合理安排。一般应遵循以下两条基本原则:其一,保证抽样的随机性原则;其二,保证实现最大的抽样效果原则。抽样调查方案所应包括以下几个部分:第一,有关抽样调查要求方面的内容设计。第二,有关抽样推断工作方面的内容设计。第三,有关调查内容方面的设计。第四,有关组织工作方面的内容设计。三、抽样调查方案的检查设计好的方案在正式实施之前都必须进行检查,用试点的调查数据对方案进行验证,然后才能正式实
13、施调查。抽样调查方案的检查主要包括两个方面:一是准确性检查;二是代表性检查。四、抽样调查的基本步骤抽样调查一般可概括为以下八个基本步骤:(1)明确调查目的要求;(2) 编制抽样框;(3) 设计调查问卷; (4)设计抽样方案,随机抽取样本;(5)培训调查员,组织开展调查;(6)检查调查结果,进行数据处理;(7)分析调查结果,撰写调查报告;(8)积累调查信息,总结调查经验,研究探讨新的调查方式方法或开拓现有调查方式方法应用的新领域。第四节 抽样调查的基础理论一、大数定律大数定律又称平均数定律或大数法则,它所描述的是当样本充分大时,样本统计量的极限行为。即是说在充分大规模的抽样下抽样平均数和总体平均
14、数间的离差可以为任意小这一可能性的概率可以尽量接近于1,即接近完全的精确性。二、中心极限定理中心极限定理的基本内涵是:一组独立同分布的变量的和或平均值当n充分大时近似地具有正态分布。通过这个定理,可以知道不论总体服从什么分布,当n很大时,样本的平均数近似于具有参数和的正态分布(即极限正态分布)。三、误差分布理论在一个既定的总体中,抽选一定含量的样本,可能抽选到的样本有多个,因此可以取得多个可能的样本指标(主要指平均数和成数)。如果将所有可能的样本指标组成频率分布,可发现样本指标愈接近总体指标的可能样本数愈多,即频率愈大;偏离愈远的可能样本个数愈少,即频率愈小,形成两端小中间大的可能值的分布,同
15、时也就是抽样误差的分布。四、概率理论概率也称或然率,就是指某一事件可能发生的机会,也就是某个事件可能发生的次数与所有可能发生事件总次数之比。等概率就是机会均等,不等概率就是机会不均等。概率通常有古典的和统计的两个意义:古典意义:就是事物有有限个均等的可能结果;统计意义:就是用统计的频率作概率的近似度量。第二章 抽样调查基本原理第一节 有关基本概念一、总体总体也叫母体,它是所要认识对象的全体,是具有同一性质的许多单位的集合。组成总体的每个个体叫做单位。在抽样以前,把总体划分成若干个互不重叠并且能组合成总体的部分,每个部分称为一个抽样单元,不论总体是否有限,总体中的抽样单元数一定是有限的。抽样单元
16、又有大小之分,一个大的抽样单元可以分成若干个小的抽样单元,最小的抽样单元就是每一个个体。总体应具备同质性、大量性和差异性的特征。在抽样调查中,通常将反映总体数量特征的综合指标称为总体参数。常见的总体参数主要有:总体总和、总体均值、总体比率、总体比例。二、样本样本是由从总体中所抽选出来的若干个抽样单元组成的集合体。抽样前,样本是一个n维随机变量,属样本空间;抽样后,样本是一个n元数组,是样本空间的一个点。抽样的效果好不好,依赖于样本对总体是否有充分的代表性。影响样本代表性的因素有以下几个方面:(1)总体标志值分布的离散程度。(2)抽样单元数的多少(或称样本容量的大小)。(3)抽样方法。一般将反映
17、样本数量特征的综合指标称之为统计量。统计量是n元样本的一个实值函数,是一个随机变量,统计量的一个具体取值即为统计值。主要的样本统计量有:样本总和、样本均值、样本比率、样本比例。三、必要样本容量和样本可能数目样本中包含的抽样单元个数称为样本容量。样本容量与总体容量之比为抽样比,用f表示,即f=n/N。样本可能数目则是在容量为N的总体中抽取容量为n的样本时,所有可能被抽中的不同样本的个数。正确理解样本可能数目的概念,对于准确理解和把握抽样误差的计算、样本统计量的抽样分布、抽样估计的优良标准等一系列理论和方法问题都有十分重要的帮助。四、抽样框抽样框是在抽样前,为便于抽样工作的组织,在可能条件下编制的
18、用来进行抽样的、记录或表明总体所有抽样单元的框架,在抽样框中,每个抽样单元都被编上号码。抽样框可以是一份清单(名单抽样框)、一张地图(区域抽样框),也可以是一段时序。第二节 样本统计量的抽样分布标准的统计问题为:总体未知,故需从总体中抽取一个较小的、花费不多的随机样本,然后构造样本统计量,并以其估计总体。问题是用样本指标估计总体指标的可靠程度如何?为此要研究样本统计量的抽样分布。在此之前,有必要先回顾一下有关正态分布的知识。一、正态分布如果总体各个体的标志值以总体平均数为中心,形成钟型对称分布,其分布曲线向两侧扩展,逐渐向横轴逼近,无限延伸出去,但不接触横轴,则这种分布就叫做正态分布,或高斯分
19、布、常态分布。服从正态分布的总体称为正态总体。一个正态分布完全由总体的理论平均数和理论方差这两个参数所决定。其数学特征为:如果一个随机变量X服从正态分布,则其分布的密度函数(分布曲线方程)为:,( -x)全部可能事件发生的概率之和等于1。代表各个体事物分布的正态曲线内面积表明着全部可能的事件,因此,分布曲线下x轴以上的概论积分面积总保持为1, 因此,当不相同时,f(x)的形状也不相同,愈小,分布就愈集中在附近,愈大,分布就愈平坦。任何正态分布,它的样本落在任意区间(a,b)内的概率等于直线x=a,x=b,横坐标和曲线f(x)所夹的面积(可由正态分布概率积分表查得)。经计算,正态总体的样本落在:
20、 (-, +)概率是68.27; (-2, +2)概率是95.45; (-3, +3)概率是99.73; (-1.96, +1.96)概率是95;二、抽样分布样本统计量是个随机变量。把根据所有可能样本计算出来的某一统计量的数值分布,称为抽样分布。抽样分布理论是理解抽样调查基本原理的基础。常见的抽样分布有极限分布和精确分布两类。极限分布也叫做大样本分布,它只有正态分布一种形式;精确分布又叫做小样本分布,其前提是总体服从正态分布,它是正态分布的导出分布,包括有t分布、F分布和2分布等形式。第三节 抽样误差一、抽样调查中的误差来源误差就是调查结果与现象的实际结果之间的偏差,它几乎在所有的统计调查中都
21、或大或小的存在着。在抽样调查中,按照形成原因的不同,一般可将误差分成抽样误差和非抽样误差两大类。抽样误差是用样本统计量推断总体参数时的误差,它属于一种代表性误差。抽样误差通常会随样本量的大小而增减;影响抽样误差的因素还有:所研究现象总体变异程度的大小;抽样的方式方法。非抽样误差不是由于抽样引起的。它又包括调查误差、无回答误差、抽样框误差以及登记性误差。同抽样误差相反,非抽样误差是随着样本量的增加而增大的。二、抽样误差的计算由于从一个总体中抽取容量为n的样本时,有多种可能的结果,所以样本指标是随机变量,而总体指标是唯一确定的常量,故抽样误差也是一个随机变量。设为总体的某个待估参数,是通过样本资料
22、计算而得到的关于的估计量,则估计的实际误差为-,由于是未知,故-是未知的。这表明根据某一个确定的样本,无法确定抽样误差的大小,因此,关于抽样误差的计算,是建立在误差分布理论基础上,从统计平均意义角度来考虑的。因为,对一个确定的总体按同一种抽样方法可能得到一系列不同的样本,对每一个样本都会有一个估计的实际误差i-,因此,抽样误差可以用所有这些可能的实际误差的均方误差表示。也即将抽样误差表示为其中为估计量的均方误差。由于未知,所以在通常情况下,仍然是未知的。但可以分解成:式中第一项是估计量的方差,记作。的平方根称为估计量的标准误差或标准差,记作。与之比称为估计量的变异系数,记为。式中第二项是估计量
23、的偏倚的平方(即)。一般情况下,均方误差说明了估计量的准确性,而估计量的方差则表明了其估计结果的精确性。通常将精确度定义为估计量方差的倒数,而将准确度定义为估计量均方误差的倒数。当偏倚为零时,称为的无偏估计量。此时,的方差就等于它的均方误差,即如果随样本容量n的增大趋近于,则称为的一致估计。第四节 抽样估计抽样估计就是以样本的实际资料为依据,计算一定的样本统计量,并按照一定的方法对总体参数作出估计和推断。一、抽样估计的特点第一,抽样估计在逻辑上运用的是归纳推理而不是演绎推理。第二,抽样估计在方法上运用不确定的概率估计法而不是运用确定的数学分析法。第三,抽样估计的结论存在着一定程度的抽样误差。二
24、抽样估计的方法抽样估计的方法多种多样。如果以估计中所依据的资料不同来区分,一般可以有简单估计、比估计和回归估计等三种方法。简单估计是最简单、最基本的一种估计方法,在实际中应用也最为广泛。如果以估计结果的表示方式来区分,则抽样估计可以有两种形式,即定值估计和区间估计。定值估计是指给所要估计的总体参数只给出一个明确的点估计值,同时确定出估计结果的误差;区间估计则是在一定的概率保证程度(置信度)之下,根据允许的最大绝对误差范围,确定出一个以点估计值为中心的区间作为总体待估参数的估计区间(也称为置信区间)。三、置信区间一般地说,若估计量是无偏的,且呈正态分布,则参数的置信度为1-的置信区间可以写成(
25、KS(),+KS()当调查变量的总体方差2已知时,上述置信区间可表示为(-Z/2S(),+ Z/2S()即取K= Z/2, Z/2的值可以通过查正态分布双侧临界值表加以确定。当调查变量的总体方差2未知时,则用相应的样本方差s2代替。然而,这时有可能会使误差产生一个增量,特别是当样本较小时,更容易影响估计的精度。因此,为了保持1-的置信度,就应该适当加宽置信区间,即用较大的t/2值来代替Z/2。此时,置信区间就可以表示成(-t/2 (),+t/2 ()其中t/2的值可通过查t分布临界值表来确定,在这里自由度为df=n-1;()表示以s2代替2后对抽样标准误S()的估计量。四、估计量的优良标准由
26、于抽样指标是一个随机变量,随着抽取的样本不同,便有不同的估计值,因此,要判断一种估计量的好环,仅从某一次试验的结果来衡量是不够的,而应从多次重复试验中,看这种估计量是否在某种意义上最接近于被估计参数的真值。一般地说,用抽样指标估计总体指标应该有三项基本要求或标准:1、无偏性用样本指标估计总体指标要求所有可能的样本指标的平均值等于对应的总体指标值。2、一致性用样本指标估计总体指标要求当样本容量充分大时,抽样指标也充分地靠近总体指标。3、有效性用抽样指标估计总体指标要求作为优良估计量的方差应该比其他估计量的方差小。第三章 简单随机抽样第一节 简单随机抽样概述一、简单随机抽样的概念简单随机抽样也叫作
27、纯随机抽样。其概念可有两种等价的定义方法:定义之一:简单随机抽样就是从总体N个抽样单元中,一次抽取n个单元时,使全部可能的样本被抽到的概率均相等。定义之二:简单随机抽样是从总体的N个抽样单元中,每次抽取一个单元时,使每一个单元都有相等的概率被抽中,连续抽n次,以抽中的n个单元组成简单随机样本。按简单随机抽样,抽到的样本称为简单随机样本。二、简单随机抽样的具体实施方法 (一)抽签法抽签法是先对总体N个抽样单元分别编上1到N的号码,再制作与之相对应的N个号签并充分摇匀后,从中随机地抽取n个号签(可以是一次抽取n个号签,也可以一次抽一个号签,连续抽n次),与抽中号签号码相同的n个单元即为抽中的单元,
28、由其组成简单随机样本。 (二)随机数法随机数法就是利用随机数表、随机数骰子或计算机产生的随机数进行抽样。由于计算机产生的随机数实际上是伪随机数,不是真正的随机数,特别是直接采用一般现成程序时,产生的随机数往往不能保证其随机性。因此,一般使用随机数表,或用随机数骰子产生的随机数,特别在n比较大时。三、简单随机抽样的方法评估简单随机抽样是最简单、最单纯的抽样技术,它具有计算简便的优点,是研究其它复杂抽样技术的基础,也是比较各种抽样技术之间估计效率的标准,是贯彻随机原则最好的一种,并且数学性质很简单,是等概率抽样的特殊类型。它要求总体要比较均匀,且样本容量要比较大,但在社会经济现象中,均匀总体是很少
29、见的;未能充分利用关于总体的各种其它已知信息;要有好的抽样框可用。第二节 总体参数的估计一、估计量1、总体均值和总和的简单估计量在简单随机抽样条件下,总体均值的简单估计量分别为: 可以证明,样本均值是总体均值的无偏估计,即因此总体总和的简单估计量为其中N/n也称作膨胀因子。 2、总体比例的简单估计量 总体比例的简单估计量为:且总体中具有D类属性的单位总数的估计量为:二、估计量的方差在抽样推断中,有时往往只计算出估计量的值,而不大注意估计量的误差(方差或标准差)。但是,总体均值的估计量通常与总体均值的真值间不完全一致,即存在误差,而且所有可能的样本均值相对于总体均值的误差大小也是不一致的。总体均
30、值估计量的方差为其中,f为抽样比,1-f为有限总体不重复抽样校正系数,记为fpc。由此进一步可推出总体比例估计量的方差为总体中具有某种属性单元总数估计量的方差为三、方差估计量估计量的方差的估计量分别为而且与分别是与的无偏估计。同理,可得的无偏估计量为的无偏估计量为第三节 样本容量的确定一、必要样本容量的确定在确定样本容量时,必须在估计的精度要求和可供调查使用的费用之间进行权衡,使在费用一定的条件下精度达到最高,或在精度要求得到保证的前提下使费用最省。通常将在这一原则指导下所确定的样本容量称之为必要样本容量,它是在最大限度地满足规定精度要求以及尽可能节约调查费用的前提下,所应该抽取到的最少的样本
31、容量。(一)依规定精度来定1、关于精度的不同提法提法之一:以置信度1-,允许总体参数的估计量的最大绝对误差为,即提法之二:以置信度1-,允许总体参数的估计量的最大相对误差为r,即提法之三:以置信度1-,允许总体参数的估计量的最大方差不超过V,即 提法之四:以置信度1-,允许总体参数的估计量的最大变异系数不超过C,即2、样本容量n的确定当n足够大时,可以认为服从正态分布N(,V()(理由如前述样本统计量的抽样分布)。因此,由上述四种对估计量精确度的不同提法,可以分别得到下列方程式 因为V()是n的函数,求解以上四个方程,即可确定n。 (二)依调查费用来定 设C表示抽样调查工作的总费用,可大致分为
32、两个构成部分:一部分为固定费用,用C0表示,不管调查单位数的多少,这部分费用都要花费,主要包括组织领导、宣传、设计等费用。一部分为可变费用,用C1表示,它是每调查一个单位平均要花的费用,其费用的大小随调查单元数的多少变动,如调查表的印刷、调查的差旅费等。这样C= C0+ C1n当总费用一定,且C0和C1依其他有关资料也大致可以确定时,就可推算出必要的抽样单元数目(三)在精度和费用间谋求平衡依费用确定抽样数目后,可进行实地抽样调查,计算其样本指标和抽样方差,进一步估算其估计精度,考察其满足允许误差范围和可信程度的要求程度,以及根据精度和费用分别确定的抽样数目的符合程度,谋求精度和费用间的平衡。二
33、总体方差的确定运用精度要求来确定样本容量时,必须事先知道总体的方差。确定总体方差的方法一般有以下几种:其一,两步抽样法。即在正式开展抽样调查工作之前,先从总体中抽取一个容量为n1的简单随机样本,求得的估计值或P的估计值,把n1和 (或n1和)代入相应的公式计算所需的n,然后,再补抽其余的n-n1个单元进行正式调查。其二,对于一次性的调查,采取在正式调查前进行试点调查,根据试点调查的结果估计或P。其三,对于经常性调查项目,可以利用以前调查的结果,也可对以前调查的结果作适当调整。其四,根据总体的结构,应用数学方法预测总体方差或P。其五,估计比例时,如果能借助某些基本信息或方法,或经验等,估计总体
34、比例大约在0.3-0.7之间,则也可以直接取成数方差的最大值0.25来确定样本量,这通常是一种比较“安全”的选择。第四章 分层随机抽样第一节 分层随机抽样概述分层抽样是在抽样之前,先将总体按一定标志划分为若干个层(组),后在各层内分别独立地进行抽样。由此所抽得的样本称之为分层样本。各层所抽的样本也是互相独立的。如果每层中的抽样都是简单随机的,则这种抽样就叫做分层随机抽样。由此所得到的样本称做分层随机样本。在分层时应遵循“尽可能使层内差异小,而使层间差异大”的原则。进行分层抽样时应注意:层内抽样设计的选择;分层变量的选择;各层样本量的分配;层数;层的分界。以前只重视,近年来,和引起了越来越多的关
35、注。同简单随机抽样相比,分层抽样具有以下特点:分层抽样能够充分地利用关于总体的各种已知信息进行分层,因此抽样的效果一般比简单随机抽样要好;分层抽样可以提高估计量的精度;分层样本能够比简单随机样本更加均匀地分布于总体之内,所以其代表性也更好些;分层抽样的随机性具体体现在层内各单元的抽取过程之中,也即在各层内部的每一个单元都有相同的机会被抽中,而在层与层之间则是相互独立的;分层抽样适合于调查标志在各单元的数量分布差异较大的总体;分层抽样中除了可以推断总体参数外,还可以推断各不同层的数量特征。但对各层的估计缺乏精度保证;分层抽样中,对不同层可以按照具体情况和条件分别采用不同的抽样和估计方法进行处理,
36、从而提高估计的精确度;分层抽样中在进行分层时,需收集可用于分层的必要的各种资料,因此可能会增加一定的额外费用;分层抽样中,总体参数的估计以及各层间样本量的分配、总样本量的确定等都更为复杂化。第二节 总体参数的估计一、估计量、总体均值的估计量在分层抽样中,总体均值的估计量一般用表示,它是各层总体均值的估计量按层权的加权平均,即、总体总和的估计量有了总体均值的估计量,就可推出总体总和的估计量、总体比例P的估计量总体比例(成数)的估计量为:可以证明,在分层随机抽样中,是的无偏估计量,是的无偏估计量,是的无偏估计量。二、估计量的方差、总体均值估计量的方差对于一般的分层抽样,由于各层的抽样是相互独立的,
37、诸也相互独立,因此总体均值估计量的方差是总体各层均值估计量方差的加权平均,即式中是第h层总体均值估计量的方差。、总体总和估计量的方差有了总体均值估计量的方差,就可推导出总体总和估计量的方差:对于分层随机抽样,则有:、总体比例估计量的方差估计总体比例,当充分大时,有:对于分层随机抽样,则有: ()三、方差的估计量与分别是与无偏估计。是的无偏估计。第三节 总样本量的分配一、 总样本量在各层间的分配在分层抽样中,一个重要的问题是总的样本量如何在各层之间进行分配。通常考虑:精度和费用问题。即如何分配才能在费用一定时使总的精度和各层估计精度最高?数据处理问题。即如何分配才能使调查数据的处理工作更加简洁,
38、也使估计量及其方差的确定形式更为简单明了?各层的容量大小问题。(一)比例分配在分层抽样中,若各层的抽样比都相同,即fh=f,则称总样本量为按比例分配。此时 所以,因此,。(应取整)对于比例分配的分层随机抽样,其均值估计量的方差可以有以下比较简单的形式:若令为各层内方差的平均,则: 当估计比例P时,同样有:,其中为各层内成数方差的平均。(二)最优分配1、一般情形在分层随机抽样中,在给定的费用条件下,使估计量的方差达到最小,或在精度要求(常用方差表示)一定条件下,使总费用最小的各层样本量的分配称为最优分配。在分层随机抽样中,费用函数可能是简单线性的,也可能是其它复杂形式,这里主要考虑简单线性的费用
39、函数:在估计总体均值时,对给定的各层样本量nh,估计量的方差为:可见,第二项与样本量无关。考虑到 = 则在给定总费用下使估计量的方差最小,与在给定下使最小均等价于使 =根据柯西许瓦兹(Cauchy-Schwarz)不等式,有其中等号只有在以下情形时才成立(达到极小值): (为常数)这意味着:则因此所以使达到极小的最优分配即为= 即 可见,最优分配的结果既考虑了总体各层的差异,也同时考虑了总体各层内变异程度上的差异和各层内平均调查费用的差异。当层的容量愈大、层内变异程度愈大,层内每调查一个单元的费用愈小,则在该层中抽取的单元应愈多。2、特殊情形内曼分配如果各层内每个单元的平均抽样费用相等,也即时
40、最优分配简化为: 即= (应取整)在内曼分配时,估计量所能达到的最小方差为:3、某些层需要超过100%抽样时的修正若抽样比较大,而个别层的也很大,则按最优分配,一些层的有可能超过(即1)。这时,可以对这些极端层进行100%抽样。然后将剩下的其余的层可用的样本量再按最优分配法在其它各层间重新进行分配。4、最优分配与比例分配的精度比较比例分配时估计量的方差为:,而内曼分配时估计量的最小方差为:=,因此:-= =若诸很接近,则比例分配与内曼分配的精度相差无己。只有当各层的相差较大时,最优分配比比例分配在精度上才有较大的得益。二、总样本量的确定1、估计总体均值的情形设允许估计量的最大方差为,对某种已
41、确定的样本量分配原则,有:,代入总体均值估计量的方差的计算公式,于是对给定的:.当(比例分配)时:=当 (内曼分配)时:2、估计总体总和的情形同样的道理,可得出对给定的分配形式()有:.当比例分配时当内曼分配时3、估计总体比例的情形若较大,则,此时可进一步求出估计P时对给定的分配形式()有:.比例分配时:.内曼分配时:.第五章 比估计与回归估计第一节 比估计的一般形式一、比估计综述比估计是依据调查变量与辅助变量间的比率来对总体有关参数进行估计和推断。通常简称比估计。同简单估计相比,比估计具有以下特点:(1)在比估计中,除调查变量外,还需要了解与调查变量有关的辅助变量,并且要求辅助变量的总体均值
42、或总体总和必须事先已知。充分利用辅助变量带来的信息估计总体参数,比单纯用调查变量资料会有更好的效果。 (2)比估计方法,对抽样调查单元是有条件的,通常是用组成总体的最基层单位为调查单元。(3)比估计只适用于有限总体,因为只有有限总体才可能计算出为比估计所需要的辅助变量的总体总和与总体均值。(4)当每个单元的调查变量与辅助变量的比例(一般要求为正比例)十分稳定,且变异很小时,比估计就具有十分精确的估计效果,只要抽取少量的样本单元,就可得到满意的结论。(5)在比估计时,出于估计精度方面的要求,选择辅助变量时,须与调查变量的关系愈密切愈好,至少要求相关系数在1/2以上。应用比估计时应考虑两条:一是选
43、与调查变量有较密切的正相关关系的变量作为辅助变量;二是样本容量要比较大。二、总体比率的估计设总体有N个单元,对每个单元考虑两个指标y和x。抽取容量为n的简单随机样本,则总体比率R的估计量为:比率估计是有偏的,但当样本量n增大时,偏倚逐渐趋于零。所以,当n增大时,为R的近似无偏估计量,其方差为 是y与x的相关系数。当总体方差未知时,可用样本方差替代,以估计方差。此时,或 (未知时),三、总体均值和总和的比估计在简单随机抽样中,总体均值和总体总和的比估计量分别为:其中或必须已知。当n充分大时, 即与分别是与的近似无偏估计。 其方差为,其方差估计量为:四、比估计量与简单估计量的比较对简单随机抽样,若
44、n足够大,则当时,有 第二节 分层比估计一、各层分别比估计各层分别比估计是先对各层分别进行比估计,然后按层权加权平均,以得出总体参数的估计,即: .(已知)为便于表达,下面仅对Y的估计量加以阐述。由此,容易得到关于的估计量的结论。在分层随机抽样中,若每层的样本量都较大,则为Y的近似无偏估计。其方差为:当各层的总体方差未知时,可用相应的样本方差代替。由此得到方差估计量:Y的估计量的方差(或方差估计量)乘以即可得出的估计量的方差(或方差估计量)。二、联合比估计联合比估计是先按分层随机抽样公式估计Y和X: 然后用这两个量的比及已知的X对Y作估计:,其中:.联合比估计只需要已知X,而无需已知每层的。此
45、时:分层随机抽样中,若总样本量n是较大的,则与分别为Y与的近似无偏估计,其方差为:其方差估计量为:三、各层分别比估计量与联合比估计量的比较从偏倚的角度看,各层分别比估计量的偏倚较大,从方差的角度看,除了各层比率均相等时,外,一般只要各层的样本量均较大时,各层比估计更加有效。因此,当均大时,用分别比估计量否则,用联合比估计量较好。第三节 回归估计的一般形式一、回归估计概述回归估计就是根据样本各单元调查变量与辅助变量间的关系构造回归方程,并据回归系数对总体有关参数进行估计。回归估计的主要特点有:同比估计一样,回归估计充分利用了有关的辅助变量资料以有效地提高估计的精度;回归估计中要求辅助变量的总体均值或总和事先已知;回归估计一般只适用于有限总体,因为只有有限总体才可能计算出辅助变量的总体均值和总和;回归估计量一般优于比估计量和简单估计量。特别地当回归系数等于总体比率(即总体回归直线通过原点)时,回归估计量与比估计量的效果相同,当调查变量与辅助变量间的相关系数=0时,回归估计与简单估计的效果相同。但是,回归估计量的优越性只有在大样本的情形下才能得到较好的发挥,而在小样本时,它的性质就不大好。回归估计中辅助变量可以是一个,也可以是两个或多个;辅助变量应与调查变量存在一定的联系。二、回归估计量的一般形式对于简单随机抽样,总体均值与总和的线