统计学抽样分布与抽样方法.PPT.ppt

上传人:rrsccc 文档编号:9796714 上传时间:2021-03-26 格式:PPT 页数:70 大小:824KB
返回 下载 相关 举报
统计学抽样分布与抽样方法.PPT.ppt_第1页
第1页 / 共70页
统计学抽样分布与抽样方法.PPT.ppt_第2页
第2页 / 共70页
统计学抽样分布与抽样方法.PPT.ppt_第3页
第3页 / 共70页
统计学抽样分布与抽样方法.PPT.ppt_第4页
第4页 / 共70页
统计学抽样分布与抽样方法.PPT.ppt_第5页
第5页 / 共70页
点击查看更多>>
资源描述

《统计学抽样分布与抽样方法.PPT.ppt》由会员分享,可在线阅读,更多相关《统计学抽样分布与抽样方法.PPT.ppt(70页珍藏版)》请在三一文库上搜索。

1、.,推断统计学,统计推断的过程,抽样分布,第五章抽样分布与抽样方法,.,主要内容,第一节 随机抽样与统计推断 第二节 抽样分布 第三节 抽样设计方法 调整: 1. 抽样调查(概念、特点、作用) 2.抽样调查的方法 3.抽样分布 与中心极限定理 4.抽样误差,.,学习目标,了解各种抽样设计方法 了解常用的统计分布; 掌握常用的统计量及其分布;,.,5.1 抽样调查的概念、特点和作用,统计学的目的是揭示总体数量分布的规律性,通常可以采用两种方法:全面调查和非全面调查(抽样调查)。 全面调查在应用时有很大的局限性: (1) 许多问题无法采用全面调查的方法,如产品的寿命、导弹的命中精度和杀伤力等。 (

2、2) 需要花费大量的人力、时间和费用,不仅经济上不可行,而且无法及时获得所需信息。例如,对原材料、零部件的质量检验,对顾客满意度的调查,对居民家庭收入与支出的调查等。 (3) 由于调查人员的专业素质等原因,全面调查有时会产生较大的误差。,.,5.1 抽样调查的概念、特点和作用,一、抽样调查的概念 广义:凡是抽取一部分单位进行观察,并根据观察结果来推断全体的都是抽样调查。 可分为非随机抽样和随机抽样两种。 狭义:随机抽样。按照随机原则从总体中抽取一部分单位进行观察,并运用数理统计的原理,以被抽取的那部分单位的数量特征为代表,对总体作出数量上的推断分析。,.,二、抽样调查的特点 (一)按照随机原则

3、抽取总体中的一部分单位进行调查: 随机原则是指在抽取样本单位时完全排除调查者的主观判断,使各总体单位都有同等的被抽中的机会。只有严格遵循随机原则,才能使样本的内部结构类似于总体的结构分布特征,对总体具有充分的代表性。 (二)用一部分单位的指标数值去推断总体的指标数值 抽样调查的目的是根据所得到的样本数据推断被调查现象总体的特征。如总体指标、总体的概率分布等,这是其他非全面调查方法都无法做到的。,5.1 抽样调查的概念、特点和作用,.,二、抽样调查的特点(续) (三)抽样调查会产生抽样误差,抽样误差可以计算,并且可以加以控制。 任何调查方法都会产生误差,抽样调查以概率论为其理论依据,根据数理统计

4、所提供的抽样误差的理论和方法,可以把推断的误差控制在一定的精确度内,以满足实际工作的需要。而其他调查方法都无法计算和控制误差。,5.1 抽样调查的概念、特点和作用,.,三、抽样调查的作用 抽样调查能够解决全面调查无法或难以解决的问题。 抽样调查可以补充和订正全面调查的结果。 抽样调查方法可以用于生产过程中产品质量的检查和控制。 抽样调查方法可以用于对总体的某种假设进行检验,以判断这种假设的真伪,决定行动的取舍。,5.1 抽样调查的概念、特点和作用,.,四、抽样调查的优点: 抽样调查和全面调查相比,有以下有显著优点: (1)费用低 与进行全面调查相比,抽样调查可以节省大量的人力、物力、财力,获得

5、得事半功倍的效果。 (2)速度快 调查和综合样本资料要比收集和综合全面调查的资料更快。当有些资料具有很强的时效性时,全面调查只能获取陈旧的信息,而抽样调查可以获得及时的信息。,5.1 抽样调查的概念、特点和作用,.,四、抽样调查的优点(续): (3)适用面广 许多社会经济现象不可能采用全面调查方法,如破坏性的产品检验,矿藏资源的调查等等,只能用抽样调查。有些调查则需要受过专业训练的人员或专用设备来获得有关数据,也只能用抽样调查方法。此外当要调查的是无限总体时,就更不可能进行全面调查。 (4)准确度高 由于抽样调查的工作较全面调查大大减少,调查人员可以经过专门训练,因此可能取得更准确的结果。例如

6、对人口普查、统计报表制度等获得的全面调查结果,通常需要采用抽样调查进行验证或修正。,5.1 抽样调查的概念、特点和作用,.,5.1 抽样调查的概念、特点和作用,五、全及总体和抽样总体 全及总体,简称总体,是指所要认识对象的全体,是许多同质性单位的集合。通常用大写字母N来表示(容量)。 抽样总体,简称样本,是从全及总体中随机抽取出来,代表全及总体部分单位的集合。通常用小写字母n来表示(容量) 。 样本容量(Sample size):样本中所含个体的数量。分为大样本(30)、小样本(30)。 样本个数:又称为样本可能数目。是指从一个总体中可以抽取的样本个数。,.,一、两种抽样方式: 抽样方式可分为

7、重复抽样和不重复抽样两种。 重复抽样 又称放回抽样,指每次从总体中随机抽取一个样本单位,观察登记其标志值后再放回总体中,如此进行 n 次的抽样方法。 重复抽样的特点: 在重复抽样的过程中,被抽取的总体单位总数始终保持不变,每一次抽样中各总体单位被抽到的机会都相同,每次抽样结果相互独立。 每一总体单位都有被重复抽取的可能。,5.2 抽样调查的方法,.,一、两种抽样方式(续): (2)不重复抽样 也称不放回抽样,指被抽到的单位不再放回总体,每次仅在余下的总体单位中抽取下一个样本的抽样方法。 特点: 任一总体单位都不会被重复抽到; 每次抽样结果都受到以前各次抽取结果的影响,因此各次抽取结果是不独立的

8、; 可以一次抽取所需要的样本单位数。 在实际应用中通常采用的都是不重复抽样方法。,5.2 抽样调查的方法,.,二、抽样方法: 抽样方法关系到抽样调查的成本费用和抽样误差的大小,应根据调查的目的、和调查对象的特点采取不同的抽样方法。,5.2 抽样调查的方法,.,(只介绍)概率抽样 (probability sampling) 根据一个已知的概率来抽取样本单位,也称随机抽样。 特点: 按一定的概率以随机原则抽取样本 抽取样本时使每个单位都有一定的机会被抽中 每个单位被抽中的概率是已知的,或是可以计算出来的 当用样本对总体目标量进行估计时,要考虑到每个样本单位被抽中的概率,5.2 抽样调查的方法,.

9、,概率抽样 : 1.简单随机抽样 也称纯随机抽样,指不对总体作任何处理,直接按随机原则抽取调查单位的抽样方式。 特点: 简单、直观,在抽样框完整时,可直接从中抽取样本 用样本统计量对目标量进行估计比较方便 局限性: 当N很大时,不易构造抽样框 抽样框又称“抽样框架”、“抽样结构”,是指对可以选择作为样本的总体单位列出名册或排序编号,以确定总体的抽样范围和结构。 抽出的单位很分散,给实施调查增加了困难 没有利用其他辅助信息以提高估计的效率,5.2 抽样调查的方法,.,2.分层随机抽样也称类型抽样,是将总体按某一主要标志进行分类(分组),分别从各类型组中随机抽取一部分调查单位共同组成样本。,5.2

10、 抽样调查的方法,.,2.分层抽样 例如,对企业进行调查时将企业划分为特大型企业、大型企业、中型企业和小型企业四个类型组。 对家庭收入进行调查时将居民家庭分为高收入、中等收入、低收入三个类型组等。 优点: 保证样本的结构与总体的结构比较相近,从而提高估计的精度 组织实施调查方便 既可以对总体参数进行估计,也可以对各层的目标量进行估计,5.2 抽样调查的方法,.,2.分层抽样一般采用等比分配法:子样本容量与子总体容量之比等于样本容量与总体容量之比。 例:某大学商学院想对今年的毕业生进行一次调查,以便了解他们开始工作时的年薪。计划选取180人的一个样本。,5.2 抽样调查的方法,.,3.整群抽样

11、将总体中若干个单位合并为组(群),抽样时直接抽取群,然后对中选群中的所有单位全部实施调查,5.2 抽样调查的方法,.,3.整群抽样 特点: 抽样时只需群的抽样框,可简化工作量 调查的地点相对集中,节省调查费用,方便调查的实施 当群中的元素差异性大时,整群抽样得到的结果比较好。在理想状态下,每一群是整个总体小范围内的代表。如对人口普查资料进行复查,就采用整群抽样的方式。 缺点是估计的精度较差,5.2 抽样调查的方法,.,3.整群抽样,5.2 抽样调查的方法,.,4.机械抽样 也称等距抽样和系统抽样,其步骤如下: (1)按某一标志值的大小将总体单位进行排队并顺序编号; (2)根据确定的抽样比例确定

12、抽样间距; (3)随机确定第一个样本单位; (4)按顺序从总体中等间距地抽取其余样本单位。 系统抽样的随机性主要体现在第一个样本单位的抽取上,因此一定要保证抽取第一个样本单位的随机性。,5.2 抽样调查的方法,.,4.机械抽样 例如,需要从容量为5000的总体中抽取一个容量为50的样本,我们可以从总体中随机选择一个,然后在其后面的单位中,每隔100个个体选择一个,可得到样本中其余的个体。 因为第一个个体的选择是随机的,因此系统样本常常假定具有简单随机样本的性质。 优点:操作简便,可提高估计的精度 缺点:对估计量方差的估计比较困难,5.2 抽样调查的方法,.,5.多级抽样 多阶段抽样(概率比例抽

13、样法):在整群抽样中,当子群数或子群内部个体数目较多,彼此间的差异不太大时,常采用更经济方法,即不将样本子群的所有个体作为样本,而是再从中用前述各种随机抽样的方法抽取样本,因而最终样本的获得经过两次抽样,我们称其为二阶段整群抽样,同样可做三阶段、四阶段即多阶段整群抽样。 对于群体规模不等的多阶段整群抽样,通常使用概率比例抽样法:是根据每一群的规模分配样本容量。在将总体划分成子群时,每个子群中个体的含量常常不同,在这种情况下,二阶段抽样由于第一次抽取子群大小不同,只有在第二阶段抽样时采取措施,才能使总体中每个分子具有同等进入样本的概率。,5.2 抽样调查的方法,.,6.多种抽样方法的综合使用 例

14、:2003年中国统计年鉴四、人口 简要说明 2002年人口变动情况抽样调查是以全国为总体,各省自治区直辖市为次总体,采用分层、等距、整群概率比例抽样方法,在全国31 个省自治区直辖市抽取了981个县(市区)、3600个乡(镇街道)、6064个调查小区的126万人,经加权后汇总。2002年全国人口出生率为12.86、死亡率为6.41、自然增长率为6.45 。按此推算2002年末全国总人口为28453万人、出生人口为1647万人、死亡人口为821 万人、净增人口为826万人。,5.2 抽样调查的方法,5.3 抽样分布与中心极限定理,一、抽样分布的概念 二、样本均值抽样分布 三、样本比率的抽样分布,

15、抽样分布的概念,.,概念回顾:总体指标和抽样指标,(一)总体指标 根据全及总体各个单位的标志值或标志特征计算的、反映总体某种属性的综合指标。 在抽样调查中,总体指标都是未知的常数,需要使用样本指标进行推断估计。故称为待估的参数。 变量总体:总体平均数、标准差和方差2 属性总体:总体成数具有某一特征的个体的成数,.,概念回顾:总体指标和抽样指标,(二)抽样指标(即统计量) 由抽样总体各个标志值或标志特征计算的综合指标。 抽样平均数 样本标准差 样本方差 抽样成数 统计量不能包含总体的未知参数!,.,概念回顾,总体指标与抽样指标(样本统计量) 注意样本统计量由样本各个标志值计算的综合指标,不包含任

16、何(未知的)参数总体指标。,.,什么是样本统计量的抽样分布?,在抽样中,由于样本是随机抽取的,对每一个特定样本,统计量都有一个相应数值,所以统计量是一个随机变量,其取值随样本不同而不同。 样本统计量:是由样本n个观察值计算的统计量的概率分布。 样本统计量的抽样分布:从一个总体中随机抽出容量相同的各种样本,从这些样本计算出的某统计量所有可能值的概率分布,称为这个统计量的抽样分布。,.,抽样分布的形成过程 (sampling distribution),.,样本统计量的概率分布,是一种理论分布。 在重复选取容量为n的样本时,由该统计量的所有可能取值形成的频数分布。 随机变量:样本统计量 样本均值、

17、样本比例、样本方差等 抽样分布结果来自容量相同的所有可能样本。 根据统计量的抽样分布,我们可以对总体的参数进行统计推断。 5、抽样分布是样本统计量的分布而不是总体或样本的分布。,抽样分布 (sampling distribution),抽样分布的构造例,.,样本均值的抽样分布 (例题分析),【例】设一个总体含有4 个个体,分别为X1=1、X2=2、X3=3 、X4=4 。总体的均值、方差及分布如下。,均值和方差,.,样本均值的抽样分布, 现从总体中抽取n2的简单随机样本,在重复抽样条件下,共有42=16个样本。所有样本的结果如下表.,.,样本均值的抽样分布, 各样本的均值如下表,并给出样本均值

18、的抽样分布,.,所有样本均值的均值和方差,1. 样本均值的均值(数学期望)等于总体均值 2. 样本均值的方差等于总体方差的1/n,M为样本数目,.,样本均值的抽样分布与总体分布的比较,.,样本均值的抽样分布:不重复抽样, 从总体中抽取n2的简单随机样本,在不重复抽样条件下,共有12个样本。所有样本的结果如下表,.,样本均值的抽样分布:不重复抽样, 各样本的均值以及样本均值的抽样分布如下。,样本均值的抽样分布,.,所有样本均值的均值和方差,N=4为总体容量,n=2为样本容量, M=12为样本数目,.,有限总体校正系数Finite Population Correction Factor,注意:不

19、重复抽样时样本均值的方差等于重复抽样时的方差乘以有限总体校正系数: 当n/N0.05时可以忽略有限总体校正系数。,.,构造样本统计量抽样分布的步骤:,1、从容量为N的有限总体中随机选取容量为n的所有可能样本; 2、计算出每个样本的统计量值; 3、将来自不同样本的不同统计量值分组排列,把对应于每个数值的相对出现频数排成另一列,由此,全部可能的样本统计量值形成了一个概率分布,这个分布就是我们想要得到的抽样分布。,构造样本统计量抽样分布的步骤:,正态总体抽样分布定理P141:定理5.2,.,正态总体抽样分布定理,如果总体XN(,2),X1, X2, , Xn 是来 自X的简单随即样本, , : (P

20、132, 卡方分布) (P132, t分布),非正态总体的抽样分布,大样本非正态总体样本均值的抽样分布,.,样本均值的抽样分布与中心极限定理,一般的,当总体服从 N(,2 )时,来自该总体的容量为n的样本的均值X也服从正态分布,X 的期望为,方差为2/n。即XN(,2/n)。【中心极限定理】,.,中心极限定理与样本均值的抽样分布,中心极限定理:设从均值为,方差为 2的一个任意总体中抽取容量为n的样本,当n充分大时,样本均值的抽样分布近似服从均值为、方差为2/n的正态分布。,.,中心极限定理 (central limit theorem),x 的分布趋于正态分布的过程,.,样本均值的抽样分布,总

21、体分布,正态分布,非正态分布,大样本,正态分布,正态分布,样本均值抽样分布,.,样本均值抽样分布与抽样方式的关系,重复抽样: 不重复抽样:,样本比率(成数)抽样分布,.,样本比例的抽样分布:重复抽样P142,设总体比例等于P=N1/N; 重复抽样时样本比例p=k/n服从二项分布,均值为nP/n=P,方差为nP(1-P)/n2= P(1-P)/n 中心极限定理:n很大时二项分布趋向于正态分布。 一般认为np5、n(1-p)5时,可以用正态分布来进行近似计算:,.,样本比例的抽样分布,不重复抽样,不重复抽样时p的理论分布为超几何分布。 当N很大时超几何分布二项分布。 中心极限定理:n很大时二项分布

22、趋向于正态分布。 当np5、n(1-p)5时,可以用正态分布来进行近似计算: 当n/N0.05时可以忽略有限总体校正系数,.,样本比率的抽样分布,比率:总体(样本)中具有某种属性的单位与全部单位总数之比。 容量足够大 np5; n(1-p)5,5.4 抽样误差P146,抽样优良性的一个准则,.,1.统计误差和抽样误差,1.统计误差和抽样误差 统计结果与现象实际之间存在的差异统称为统计误差。统计误差可以分为以下两类: (1)登记性误差 指由于调查工作中的差错或弄虚作假等原因而引起的误差。 无论是全面调查还是非全面调查,都可能存在登记性误差。登记性误差从理论上应是可以避免的,但实际中却难以完全避免

23、,在误差理论中不考虑这类误差。,.,(2)代表性误差,指由于随机样本内部结构与总体结构之间存在差异而引起的样本指标与总体指标之间的差异。代表性误差又可分为两类: 系统性误差 指由于违反抽样的随机原则而产生的误差。 随机误差 也称抽样误差,指由于随机抽样本身导致的现样本内部结构与总体结构不一致而产生的误差。 在抽样调查中随机误差是不可避免的。如全部产品中有2%的次品,随机抽取100件,其中恰好有2件次品的可能性是很少的。,.,2.标准误差(抽样平均误差),标准误差的概念 在一次抽样中,均值和成数这两个指标的抽样误差可以分别表示为,但由于样本指标是随机变量,根据不同的样本计算的样本指标都不会相同,

24、因而不同样本的抽样误差也就各不相同,因此需要引进标准误差的概念。 标准误差 是指所有可能样本的样本指标与总体指标间的标准差,反映抽样误差的平均水平。就是样本统计量抽样分布的标准差。,.,简单随机抽样的标准误差,1).均值的标准误差,不重复抽样,N 总体单位总数;,当抽样比 n/N 5%,或总体单位数未知时,或无限总体时,可按重复抽样公式计算抽样平均误差。,重复抽样,.,2).比例的标准误差,重复抽样,P 总体比例 p 样本比例 不重复抽样,.,3.影响抽样误差的主要因素,(1)总体标准差: 总体标准差越大,样本结构就越难以接近总体结构,抽样误差也就越大。 (2)样本容量 : 样本容量越大,样本

25、结构就越接近总体结构,样本对总体的代表性就越高,抽样误差就越小 (3)抽样方式:不重复抽样可以使样本内部结构更接近总体结构。因此不重复抽样的抽样误差小于重复抽样。 (4)抽样方法:不同抽样的方法,将直接影响样本内部结构与总体结构之间的差异。如类型(分层)抽样就可以使样本结构更接近于总体结构,其抽样误差在所有抽样方法中最小。【p147-156】,.,本章知识点,抽样调查的方法 什么是抽样分布 不同于总体和样本的标志值分布。 样本均值、成数的抽样分布特征: 样本均值:正态总体、非正态总体大样本 正态分布 成数: 二项分布;大样本 正态分布 方差: 正态总体 卡方分布 抽样标准误差:抽样分布的标准差

26、,.,例 :某地在2800农户中随机抽取5%进行平均收入调查,调查结果:户均年收入为5965元,样本标准差为827元,分别求重复抽样和不重复抽样的标准误差。 解:n =28005% =140,S =827(元) 重复抽样:,不重复抽样:,.,课堂练习,抽样调查的主要目的是 ( )。A用样本统计量来推断总体参数 B对调查单位作深入研究 C计算和控制抽样误差 D广泛运用数学方法 事先确定总体范围,并对总体的每个单位都编号,然后根据随机数码表或抽签的方式来抽取样本的抽样组织形式,被称为( )。A简单随机抽样 B系统抽样 C分层抽样 D整群抽样 先将总体各单位按主要标志分组,再从各组中随机抽取一定单位组成样本,这种抽样形式被称为( )。A简单随机抽样 B系统抽样 C分层抽样 D整群抽样 4抽样分布是指( )。 A一个样本各观测值的分布 B总体中各观测值的分布 C样本统计量的分布 D样本数量的分布,A,C,A,C,.,5从服从正态分布的无限总体中分别抽取容量为4,16,36的样本,当样本容量增大时,样本均值的标准差( )。 A保持不变 B增加 C减小 D无法确定 6从均值为200,标准差为50的总体中抽取容量为100的简单随机样本,样本均值的数学期望与标准差分别为( )。 A100,50 B200,5 C100,5 D200,15,C,B,

展开阅读全文
相关资源
猜你喜欢
相关搜索

当前位置:首页 > 社会民生


经营许可证编号:宁ICP备18001539号-1