第7章抽样推断.ppt

上传人:本田雅阁 文档编号:3131729 上传时间:2019-07-14 格式:PPT 页数:76 大小:463.53KB
返回 下载 相关 举报
第7章抽样推断.ppt_第1页
第1页 / 共76页
第7章抽样推断.ppt_第2页
第2页 / 共76页
第7章抽样推断.ppt_第3页
第3页 / 共76页
第7章抽样推断.ppt_第4页
第4页 / 共76页
第7章抽样推断.ppt_第5页
第5页 / 共76页
点击查看更多>>
资源描述

《第7章抽样推断.ppt》由会员分享,可在线阅读,更多相关《第7章抽样推断.ppt(76页珍藏版)》请在三一文库上搜索。

1、1,第 章 抽样推断,7,2,学习目的与要求:,抽样推断是统计研究中的一种重要分析方法。学习本章要求掌握能利用统计资料来推断总体数量特征的原理及方法,其具体要求: 理解抽样推断的概念及特点 深刻理解抽样误差产生的原因 对抽样误差、抽样平均误差、抽样极限误差加以区别 重点掌握简单随机抽样组织形式的区间估计方法 掌握必要样本单位数的确定方法,3,第七章 抽样推断,第一节 抽样推断的一般问题 第二节 抽样误差 第三节 抽样估计的方法 第四节 抽样的组织方式 第五节 必要抽样单位数的确定,4,第一节 抽样推断的一般问题,一、抽样推断的意义 抽样推断是按照随机原则,从全部研究总体中抽取一部分单位进行调查

2、,并依据所获得的数据对总体的某一数量特征做出具有一定可靠程度的估计与推断的一种统计方法。抽样推断的全过程,就是抽样调查。,5,6,二、抽样调查的作用 (一)应用抽样法可对某些不可能或不容易进行全面调查而又要了解其全面情况的社会经济现象进行数量方面的统计分析。 对无限总体不可能进行全面调查。 有些现象总体范围过大,单位分布又过于分散,很难或不必要进行全面调查。 对于产品或商品具有破坏性的质量检验也不能进行全面调查。 对那些资料要求紧迫,需以较短时间,迅速了解总体全面情况时,也可用抽样法。,7,(二)应用抽样法可对全面调查的结果加以补充或订正 许多社会经济现象虽然可以全面调查,但同时开展抽样调查,

3、把两者结合起来应用也具有重要的意义。 全面调查不论是一次性普查,还是经常性统计报表制度,由于范围广、工作量大,参加人员多,就较多地存在发生登记性和计算性误差的可能。在全面调查后,随即抽取一部分单位重新再调查一次,将这些单位两次调查的资料进行对照、比较,计算其差错比率,并以此为依据对全面调查的资料加以修正,这样就可以进一步提高全面调查资料的准确性。 另外,由于抽样调查范围小,可以根据需要增加一些调查项目,以便进行某项更深入的研究,以补充全面调查的不足。,8,(三)应用抽样法可对生产过程中产品质量进行检查和控制 抽样调查不但广泛用于生产结果的核算和估计,而且也有效地应用于对成批或大量连续生产的工业

4、产品在生产过程中进行质量控制,观察生产工艺过程是否正常,是否存在某些系统性的偏误,及时提供有关信息,分析可能的原因,便于采取措施,防止损失。 (四)应用抽样法可对总体的某种假设进行检验,来判断这种假设的真伪,决定行动的取舍,9,抽样推断的几个基本概念,全及总体和样本总体 全及总体:抽样调查所要认识对象的全体,也叫母体,简称总体,它是具有某种共同性质或特征的许多单位的集合体。全及总体的单位数通常用N来表示,N总是很大的数。 样本总体:又叫子样或抽样总体,简称样本。它是从全及总体中随机抽取出来,代表全及总体的那部分单位的集合体。样本总体的单位数称为样本容量,通常用n表示,相对N来说,n是很小的数,

5、它可以是N的几十分之一、几百分之一、几千分之一、几万分之一。(一般来说,样本单位数达到或超过30个称为大样本,而在30个以下称为小样本。社会经济现象的抽样调查多取大样本 ),10,全及指标和抽样指标 全及指标:根据全及总体各个单位的标志值或标志特征计算的,反映总体某种数量特征的综合指标称为全及指标。也叫总体指标或母体参数。由于全及总体是唯一确定的,所以根据全及总体计算的全及指标也是唯一确定的。 抽样指标:由样本总体各单位标志值或标志特征计算的,反映样本数量特征的综合指标,它是用来估计全及指标的。,11,全及指标和样本指标的相关公式,变量总体,总体平均数,总体标准差,总体方差,全及指标,样本指标

6、,12,全及指标和样本指标的相关公式,13,四、抽样方法 重复抽样 也称重置抽样、回置抽样。它是指从总体N个单位中随机抽取容量为n的样本时,每次从总体中抽取一个单位,把结果登记下来后,重新返回,再从全及总体中抽取下一个样本单位。在这种抽样方式中,同一单位可能有多次被重复抽取的机会。例如 不重复抽样 也称不重置抽样、不回置抽样。它是指从总体N个单位中随机抽取容量为n的样本时,每次从总体中抽取一个单位,不再放回去,下一次则从剩下的总体单位中继续进行抽取,如此反复构成一个样本,就是说,每个总体单位只能被抽取一次,所以从总体中每抽取一次,总体就少一个单位,因此,先后抽出来的各个单位被抽中机会是不相等的

7、。例如,14,重复抽样 总体有A、B、C、D四个单位,要从中随机抽取两个单位构成样本。可先从4个单位中取一个,结果登记后放回,然后再从相同的4个中取一个,就构成一个样本。全部可能抽取的样本数目为44=16个。它们是: AA,AB,AC,AD,BA,BB,BC,BD,CA,CB,CC,CD,DA,DB,DC,DD。 一般地说,从总体N个单位中,随机抽取n个单位构成样本,则样本可能数目为 个。,15,不重复抽样 前例中,用不重复抽样的方法从中抽两个单位构成样本,则全部可能抽取得样本共有43=12个,它们是: AB,AC,AD,BA,BC,BD,CA,CB,CD,DA,DB,DC。 一般地讲,从总体

8、N个单位中,随机不重复抽取n个单位构成一样本,则样本可能数目为N(N1)(N2)(Nn+1) 个。 由上可知,在相同的样本容量的要求下,不重复抽样的样本可能数目比重复抽样为少。在实际工作中,一般多采用不重复抽样,但有些调查如公交车辆乘客情况的调查,商场顾客流量情况的调查只宜用重复抽样。,16,第二节 抽样误差,一、抽样误差的概念和影响抽样误差的主要因素 (一)抽样误差的概念 抽样误差是指样本指标与总体指标之间的离差。具体地讲,就是样本平均数与总体平均数的离差(即 ),或样本成数与总体成数的离差(即 ),17,在抽样中误差的来源有许多方面。 其中一类是登记性误差,即在调查过程中由于观察、测量、登

9、记、计算上的差错所引起的误差,这类误差是所有统计调查都可能发生的。 另一类是代表性误差,即样本各单位的结构不足以代表总体而引起的误差。,18,代表性误差的发生有以下两种情况: 一种是由于违反抽样调查的随机原则,如有意地多选较好的单位或较坏的单位进行调查。这样做,所据以计算的抽样指标必然出现偏高或偏低现象,造成系统性的误差。系统性误差和登记性误差都是不应当发生的,是可以也应该采取措施避免发生或将其减小到最小限度。 另一种情况是,即使遵守随机原则,由于被抽选的样本有各种各样,只要被抽中的样本其内部各单位被研究标志的构成比例和总体有所出入,就会出现或大或小的偶然性代表性误差。,19,我们所讲的抽样误

10、差就是指这种偶然性代表性误差。即按随机原则抽样时,在没有登记性误差和系统性误差的条件下单纯由于不同的随机样本得出不同估计量而产生的误差。抽样误差是抽样调查所固有的,是无法避免与消除的,但可以运用数学方法计算其数量界限,并通过抽样设计程序控制其范围,所以这种抽样误差也称为可控制误差。 需要指出,抽样误差不是固定不变的数,它的数值是随样本不同而变化的,所以它也是随机变量。,20,(二)影响抽样误差大小的因素 1、样本单位数的多少 2、总体被研究标志的变异程度 3、抽样方法 4、抽样调查的组织形式,21,二、抽样平均误差 (一)抽样平均数的抽样平均误差 计算平均数的抽样平均误差的理论公式为: 表示抽

11、样平均误差 该公式表明了抽样平均误差的意义。但是当总体单位数较大,而抽取的样本单位数也较大时,样本可能数目就非常大。即使求出样本可能数目,上述公式仍然不适用,这是因为,在该公式中出现了总体平均数。这也正是抽样调查所要推算出的数值,实践中是不知道的。,22,抽样调查实践中用来计算抽样平均误差的基本公式是根据定义公式推导出来的。数理统计证明,在重复抽样条件下,抽样平均误差与总体标准差成正比,与样本单位数的算术平方根成反比。即:,23,现以4个工人的日产量为例来验证两个公式的计算结果是相同的。 例1 设4个工人的日产量分别为40、42、46、48件。则平均日产量与平均日产量的标准差如表1,则:,24

12、,25,如果从总体中随机抽出2个单位进行调查,则抽样平均误差: 抽样平均误差:,26,不重复抽样条件下计算公式为: 通过比较不重复抽样条件下和重复抽样条件下的公式可以看出,根号下相差 我们把这个式子叫做修正因子。不难看出当N较大时, 与 的计算结果是十分接近。因此,当N较大时在不重复抽样条件计算抽样平均误差的公式可采用时,27,例2 从某厂生产的10000只日光灯管中随机抽取100只进行检查,假如该产品平均使用寿命的标准差为100小时,试计算该厂日光灯管平均使用寿命的平均误差。 解:在重复抽样条件下 在不重复抽样条件下,28,抽样成数的抽样平均误差 如用 表示抽样成数的抽样平均误差,其公式为:

13、 在重复抽样条件下 在不重复抽样条件下 以上所有的公式中,不论是抽样平均数的抽样平均误差,还是抽样成数的抽样平均误差,所用的标准差都是全及总体的标准差。但实际上,无论是在抽样之前,还是在抽样之后,全及总体的标准差都是未知的。所以,一般都用样本总体的相应指标来代替。,29,例3 从某厂生产的10000件产品中,随机抽取1000件进行调查,测得有85件为不合格。试求产品合格率的抽样平均误差。 解:根据条件可知,合格率P=91.5% 1.在重复抽样条件下 = = 0.88% 2. 在不重复抽样条件下 =,30,31,三、抽样极限误差 (一)抽样极限误差的概念 抽样极限误差是指样本指标和总体指标之间抽

14、样误差的可能范围。由于总体指标是一个确定的数,而样本指标则是围绕着总体指标左右变动的量,它与总体指标可能产生正离差,也可能产生负离差,样本指标变动的上限或下限与总体指标之差的绝对值就可以表示抽样误差的可能范围,我们将这种以绝对值形式表示的抽样误差可能范围称为抽样极限误差。,32,抽样极限误差的计算公式 基于概率估计的要求,抽样极限误差通常需要以抽样平均误差或为标准单位来衡量。把极限误差或分别除以或,得相对数t,它表示误差范围为抽样平均误差的若干倍,t是测量估计可靠程度的一个参数,称为抽样平均误差的概率度。,33,抽样估计的概率度是表明抽样指标和总体指标的误差不超过一定范围的概率保证程度。由于抽

15、样指标值随着样本的变动而变动,它本身是一个随机变量,因而抽样指标和总体指标的误差仍然是一个随机变量,并不能保证误差不超过一定范围这个事件是必然事件,而只能给以一定程度的概率保证。因此,就有必要来计算抽样指标和总体指标的误差不超过一定范围的概率大小,即计算抽样指标落在一定区间范围内的概率,这种概率称之为抽样估计的概率度。,34,根据计算极限误差的基本公式 概率度t的大小根据对推断结果要求的把握程度来确定,即根据概率保证程度的大小来确定。 概率论和数理统计证明,概率度t与概率保证程度F(t)之间存在着一定的函数关系,给定不同的t值,就可以计算出F(t)来,相反,给出一定的概率保证程度F(t),则可

16、以根据总体的分布,获得对应的t值。 在实际应用中,因为我们所研究的总体大部分为正态总体,对于正态总体而言,为了应用的方便编有“正态分布概率表”供使用时查值。根据“正态分布概率表”,已知概率度t可查得相应的概率保证程度F(t);相反,已知概率保证程度F(t)也可查得相应的概率度t。现将几个常用的对应数值列于下表。,35,常用概率度与概率保证度表,36,从抽样极限误差的计算公式看,极限误差 与概率度t和抽样平均误差 三者之间存在如下关系: 1、在 保持不变的情况下,增大t值,把握程度相应增加,误差范围 也随之扩大,这时估计的精确度将降低;反之,要提高估计的精确度,就得缩小t值,此时把握程度也会相应

17、降低。 2、在t保持不变的情况下,抽样平均误差 小,则误差范围 就小,估计的精确度就高;反之,抽样平均误差 大,误差范围 就大,估计的精确度就低。,37,第三节 抽样估计的方法,抽样估计是用抽样资料来估计相应的全及总体指标的数值,而全及指标是表明总体数量特征的参数,所以这种估计也可以称为参数估计。总体参数的估计有点估计和区间估计两种方法。 点估计和区间估计 点估计是以抽样指标数值直接作为总体指标估计值的一种估计方法 。点估计的方法优点是简便易行,原理直观,常为实际工作采用。但不足之处是没有表明抽样估计的误差,更没有表明误差在一定范围内的概率保证程度有多大。要了解这个问题,就必须采用区间估计方法

18、。,38,区间估计 区间估计的概念 区间估计区别于点估计有三点: 区间估计不像点估计那样用一个数值对总体指标进行估计,而是用一个范围对总体指标进行估计; 点估计是一个确切的估计值,而区间估计的是区间,根据概率度的要求可宽可窄; 点估计无法回答估计值的把握程度,而区间估计可以回答估计区间的把握程度。,39,区间估计的模式 1、根据已给定的抽样误差范围,求概率保证程度。具体步骤是: 第一步,抽取样本,计算抽样指标,即计算样本平均数和抽样成数p,作为总体指标的估计值,并计算样本标准差s以推算抽样年均差。 第二步,根据给定的抽样极限误差范围,估计总体指标的上限和下限。 第三步,将抽样极限误差除以抽样平

19、均误差,求出概率度t,再根据t值查正态分布概率表求出相应的概率保证程度。,40,例4 对一批某型号的电子元件进行耐用性能检查,按重复随机抽样的资料分组列表如下,要求估计耐用时数的允许误差范围=10.5小时,试估计该批电子元件的平均耐用时数(见表3)。,41,表3,42,第一步,计算, s, : 第二步,根据给定的 =10.5小时,计算总体平均数的上下限: 下限= =1055.510.5=1045(小时) 上限= =1055.5+10.5=1066(小时),43,第三步,根据 ,查正态分布概率表得概率F(t)=95.66%。 推断的结论是:以95.66%的概率保证程度,估计该批电子元件的耐用时数

20、在10451066小时之间。,44,例5 仍用上例资料,设该厂的产品质量检验标准规定,元件耐用时数达1000小时以上为合格品,要求合格率估计的误差范围不超过4%,试估计该批电子元件的合格率。 第一步,计算p, , :,45,第二步,根据该给定的 =4%,求总体合格率的上下限: 下限 = = 91%4% = 87% 上限 = = 91% + 4% = 95% 第三步,根据 , 查正态分布概率表得概率F(t)= 83.85%。 通过计算得出如下估计:即可以83.85%的概率保证程度,估计该批电子元件的合格率在87%95%之间。,46,2、根据已给定的置信度,求抽样极限误差。具体步骤是: 第一步,抽

21、取样本,计算抽样指标 ,即计算样本平均数和抽样成数p,作为总体指标的估计值,并计算样本标准差s以推算抽样平均误差。 第二步,根据给定的置信度F(t)的要求,查正态分布概率表求得概率度t值。 第三步,根据概率度t和抽样平均误差 推算抽样极限误差 ,并根据抽样极限误差求出被估计总体指标的上下限。,47,例6 对我国某城市进行居民家庭人均旅游消费支出调查,随机抽取400户居民家庭,调查得知居民家庭人均年旅游消费支出为350元,标准差为100元,要求以95%的概率保证程度,估计该市人均年旅游消费支出额。 第一步,根据抽样资料已算得: 样本每户年人均消费支出 =350(元) 样本标准差 = 100(元)

22、 (元),48,第二步,根据给定的概率保证程度F(t)=95%,查得正态分布概率表得t = 1.96。 第三步,计算 (元)则该市居民家庭年人均旅游消费支出额: 下限 = = 3509.80 = 340.20(元) 上限= = 350+9.80 = 359.80(元) 结论:我们可以95%得概率保证程度,估计该市居民家庭年人均旅游消费支出额在340.20元359.80元之间。,49,例7 某市电视台为了解观众对某电视栏目的喜爱程度,在该市随机对900名居民进行调查,结果有540名喜欢该电视栏目,要求以90%的概率保证程度,估计该市居民喜欢该电视栏目的比率。 第一步,根据抽样资料计算: 样本喜欢

23、程度比率,50,第二步,根据给定的置信度F(t)= 90% ,查正态分布概率表得概率度t = 1.64。 第三步,计算 ,则总体比率的上下限为: 下限 = = 60% 2.67% = 57.33% 上限 = = 60% + 2.67% = 62.67% 结论:我们可以概率90%的保证程度,估计该市居民对此电视栏目喜爱的比率在57.33%62.67%之间。,51,第四节 抽样的组织方式,抽样调查有四种基本的组织方式,即简单随机抽样、等距抽样、分类抽样、整群抽样。在具体的抽样调查中,可根据调查对象的特点,单独使用其中一种方式,也可以多种方式结合使用。 一、简单随机抽样 简单随机抽样也叫纯随机抽样。

24、它是指在进行抽样时,对全及总体不经过任何形式的整理和加工,完全凭借偶然的机会从总体中抽取样本单位的抽样方式。,52,直接抽选法是指直接从调查对象中随机抽选。例如,从仓库中存放的所有同类产品中随机指定若干件产品进行质量检验;从粮食仓库中不同的地点取出若干粮食样本进行含杂量、含水量的检验等。 抽签法即先将全及总体各个单位按照某种自然的顺序编上号,并做成号签,再把号签掺合起来,任意抽取所需单位数,然后按照抽中的号码取得对应的调查单位加以登记调查。,53,随机数表是指含有一系列组别的随机数字的表格。这种表格的编制,即可以借助电子计算机产生,也可以采用数码机产生或自己编制。表中数字的出现及其排列是随机形

25、成的。 利用随机数表进行抽样的具体步骤是: 先取得一份调查总体所有元素的名单(即抽样框); 将总体中所有元素一一按顺序编号; 根据总体规模是几位数来确定从随机数表中选几位数码; 以总体的规模为标准,对随机数表中的数码逐一进行衡量并决定取舍; 根据样本规模的要求选择出足够的数码个数; 依据从随机数表中选出的数码,到抽样框中去找出它所对应的元素。,54,下表就是对3000人的总体进行抽样时,我们采用后四位数码进行取舍的例子,见表84:,55,二、类型抽样 类型抽样也叫分类抽样。它是运用统计分组法,把全及总体按主要标志划分为几个类型组,然后在各组中再按随机原则抽取样本单位的组织形式。 类型抽样有以下

26、两个好处: 第一,可以提高样本的代表性。 第二,可降低影响抽样平均误差的方差。,56,经过划类分组后,确定各类型组抽样单位数一般有两种方法: 1、不等比例抽样。即各类型组所抽选的单位数,按各类型组标志值的变动程度来确定,变动程度大的多抽一些单位,变动程度小的少抽一些单位,没有统一的比例关系。 2、等比例抽样。即按照样本单位数在各类之间分配的比重与总体在各类之间分配相同的比重进行抽样。,57,58,59,60,61,三、等距抽样 等距抽样又称机械抽样。它是先将总体单位按一定标志排列起来,而后按固定顺序和一定距离来抽取样本单位的抽样方式。 采用机械抽样对总体单位进行排队,必须选择一定的标志。这种标

27、志的选择有两种情况:一是按无关标志;二是按有关标志。无关标志就是和研究现象毫无关系的一个标志。有关标志就是和被研究现象有关系的标志。,62,四、整群抽样 整群抽样与前几种抽样的最大区别在于,它的抽样单位不是单个的个体,而是成群的个体。它是将总体各单位划分成若干群。然后以群为单位,从中随机抽取一些群,对中选群的所有单位进行全面调查的抽样方式。整群抽样与类型抽样对比,虽然两者都是将总体划分许多组,但划分组的作用却不同。类型抽样划分的组称为“类”,它的作用是缩小总体,使总体的差异减少。而抽取的样本仍是总体单位;整群抽样划分的组是“群”,它的作用却是扩大单位。 整群抽样的优点,是组织工作比较方便,但是

28、抽样误差较大,代表性较低。,63,64,第五节 必要抽样单位数的确定,确定必要抽样数目的意义 必要抽样数目是指为了完成抽样调查任务,满足抽样调查的各项要求而科学计算的需要抽取的样本单位数。即样本单位数“n”的具体数值,也叫样本容量。,65,影响必要抽样数目的因素 总体各单位间的标志变异程度 极限抽样误差的大小 调查结果的概率保证程度 抽取样本单位的方法,66,必要抽样数目的计算公式 简单随机抽样方式的必要抽样数目的公式,67,例9 对某油田的2000口油井的年产油量进行抽样调查。根据历史资料可知,油井年产油量的标准差为200吨,若要求抽样误差不超过15吨,概率保证程度为95.45%,试求需要调

29、查多少口油井 解:F(t)= 95.45% t = 2,68,69,例10 对某工厂的一批机械零件的合格率进行抽样调查,根据过去的资料,合格率曾有过99%、97%和94%三种情况,现要求允许误差不超过1%,要求推断的把握程度为95.45%,问需要抽取多少个零件。 解: (件) p(1-p) 取最大值,即需抽取2256件产品才能满足要求。,70,(二)类型抽样方式必要抽样数目的计算公式 类型抽样方式也有等比例抽样和不等比例抽样两种方式。,71,(三)等距抽样方式必要抽样数目的计算公式 等距抽样一般都采用不重复抽样的方式,按无关标志排队的抽样,用简单随机不重复抽样公式确定样本容量;按有关标志排序的

30、抽样,用类型不重复抽样公式确定样本容量(公式从略)。 (四)整群抽样方式必要抽样数目的计算公式 整群抽样一般采用不重复抽样,它的必要抽样数目的计算公式和简单随机抽样的计算公式从结构上讲基本上是一致的。其不同之处有两个方面:一是标志变异指标不同。简单随机条件下必要抽样数目计算公式中的标志变异指标是总体方差。而整群抽样条件下的计算公式是群间方差,72,二是采用的单位数目不同。简单随机抽样公式中总体单位数和样本单位数分别用N、n表示。而整群抽样公式中总体群数和抽样群数分别用R、r表示。其计算公式为:,73,确定必要抽样数目应该注意的问题 必要抽样数目应大于30。 实际调查时可对计算的必要抽样数目进行

31、调整。 当总体单位数不大时,如果采用不重复抽样的方法抽取样本,必须应用不重复抽样的计算公式计算必要抽样数目;当总体单位数很大时,虽然采用不重复抽样方法,亦可采用重复抽样的计算公式计算必要抽样数目。 当抽样调查是为了检验全面统计数字的质量时,全及总体的标志变异指标 或p(1p)是有实际资料的,可以直接代入公式计算必要抽样数目。,74,如有几个方差可以选用时,宜选择最大数值。 一个总体往往同时计算抽样平均数和抽样成数。由于它们的方差和允许误差范围不同,因此,需要的必要抽样数目也不相同。为了防止由于样本单位数不足而扩大抽样误差,在实际工作中往往根据比较大的必要抽样数目进行抽样,以满足共同的需要。,75,例11 对生产大型号的电池进行抽样调查,据以往资料知道,电流强度的标准差为0.4安培,合格品率为95。现用重复抽样方式并以95.45的概率保证程度做保证,抽样平均电流强度的极限误差不超过0.08安培,抽样合格率的极限误差不超过5,试求必要抽样数目。,76,下一章,

展开阅读全文
相关资源
猜你喜欢
相关搜索

当前位置:首页 > 其他


经营许可证编号:宁ICP备18001539号-1