现代社会调查方法之抽样.ppt

上传人:田海滨 文档编号:166359 上传时间:2025-07-12 格式:PPT 页数:87 大小:3.63MB
下载 相关 举报
现代社会调查方法之抽样.ppt_第1页
第1页 / 共87页
现代社会调查方法之抽样.ppt_第2页
第2页 / 共87页
现代社会调查方法之抽样.ppt_第3页
第3页 / 共87页
现代社会调查方法之抽样.ppt_第4页
第4页 / 共87页
现代社会调查方法之抽样.ppt_第5页
第5页 / 共87页
点击查看更多>>
资源描述

1、章 第四章 抽样 抽样 目的要求目的要求掌握掌握概率抽样的原理、程序与方法概率抽样的原理、程序与方法;掌握掌握抽样误差的概念与测量方法抽样误差的概念与测量方法;熟悉熟悉非概率抽样方法与样本规模非概率抽样方法与样本规模;了解了解抽样的意义抽样的意义;目录目录抽样的意义与作用抽样的意义与作用1概率抽样的原理与程序概率抽样的原理与程序2概率抽样方法概率抽样方法3非概率抽样方法非概率抽样方法4样本规模与抽样误差样本规模与抽样误差5以上现象是否说明了这以上现象是否说明了这样一个道理:样一个道理:我们可以通过对部分的我们可以通过对部分的观察来推论总体的情况。观察来推论总体的情况。“管中窥豹,可见一斑管中窥

2、豹,可见一斑”“一叶知秋一叶知秋”在日常生活当中所熟在日常生活当中所熟知的抽样有哪些?知的抽样有哪些?一、抽样的意义与作用(一一)抽样的意义抽样的意义 人们在研究某个自然现象或社会现象时,往往会遇到人们在研究某个自然现象或社会现象时,往往会遇到不方便、不可能或不必要对所有的对象作调查的情况,不方便、不可能或不必要对所有的对象作调查的情况,于是从中抽取一部分对象作调查,这就是于是从中抽取一部分对象作调查,这就是抽样抽样.复杂的社会现象复杂的社会现象 有限的研究资源有限的研究资源 抽样主要涉及和处理有关抽样主要涉及和处理有关总体与部分之间的关系总体与部分之间的关系问题。问题。抽样作为人们从部分认识

3、整体这一过程的关键环节,其抽样作为人们从部分认识整体这一过程的关键环节,其基本作用是向人们提供一种实现基本作用是向人们提供一种实现“由部分认识总体由部分认识总体”这这一目标的一目标的途径和手段途径和手段。抽样抽样(二)抽样的作用(二)抽样的作用 抽样是社会研究的主要内容之一,也是社会调查抽样是社会研究的主要内容之一,也是社会调查的一个重要步骤。的一个重要步骤。它与研究目的及研究内容紧密相关。它与研究目的及研究内容紧密相关。它直接关系到资料的收集、整理与分析。它直接关系到资料的收集、整理与分析。它还涉及到整个研究的费用以及应用的范围。它还涉及到整个研究的费用以及应用的范围。抽样是否科学,直接关系

4、到研究的成败抽样是否科学,直接关系到研究的成败一、抽样的意义与作用一、抽样的意义与作用(三)抽样的相关概念(三)抽样的相关概念抽样(抽样(samplingsampling):从组成某个总体的所有元素的集合中,从组成某个总体的所有元素的集合中,按一定的方式选择或抽取一部分元素的过程。按一定的方式选择或抽取一部分元素的过程。总体(总体(populationpopulation):构成它的所有元素的集合构成它的所有元素的集合例:四川省应届毕业生择业倾向调查。通常用例:四川省应届毕业生择业倾向调查。通常用N N表示表示样本(样本(samplesample)从总体中按一定方式抽取出的一部分元从总体中按一

5、定方式抽取出的一部分元素的集合。素的集合。例:例:12.812.8万名应届毕业生中抽取万名应届毕业生中抽取10001000名大学生。通常用名大学生。通常用n n表表示示一、抽样的意义与作用一、抽样的意义与作用抽样单位(抽样单位(sampling unitsampling unit)一次直接的抽样所使用的基本单一次直接的抽样所使用的基本单位。位。抽样单位与构成总体的元素有时是相同有时又不同。抽样单位与构成总体的元素有时是相同有时又不同。如如12.812.8万大学生,当以万大学生,当以10001000名大学生作为样本时?当以名大学生作为样本时?当以4040个班个班级作为样本时?级作为样本时?抽样框

6、抽样框(sampling framesampling frame)抽样范围,指一次直接抽样时总抽样范围,指一次直接抽样时总体中所有抽样单位的名单体中所有抽样单位的名单 。例:从一所中学的全体学生中抽取例:从一所中学的全体学生中抽取200200名学生作为调查样本。名学生作为调查样本。从一所中学的所有班级中抽取从一所中学的所有班级中抽取2020个班级作为调查样本。个班级作为调查样本。参数值(参数值(parameterparameter)是对总体中某一变量的综合描述,或总是对总体中某一变量的综合描述,或总体中所有元素某些特征的综合数量表现。最常见的参数值是总体中所有元素某些特征的综合数量表现。最常

7、见的参数值是总体某一变量的平均值。体某一变量的平均值。参数值只有对总体中的每一个元素进行参数值只有对总体中的每一个元素进行调查或测量才能得到。调查或测量才能得到。例:某市待业青年平均年龄,某工厂工人的平均收入。例:某市待业青年平均年龄,某工厂工人的平均收入。一、抽样的意义与作用一、抽样的意义与作用统计值(统计值(statisticstatistic)是对样本中某一变量的综合描述,或是对样本中某一变量的综合描述,或样本中所有元素某些特征的综合数量表现。根据样本计算出样本中所有元素某些特征的综合数量表现。根据样本计算出来的关于样本变量的数量表现来的关于样本变量的数量表现 。统计值是从样本中计算出来

8、的,它是相应的参数值的估计值。统计值是从样本中计算出来的,它是相应的参数值的估计值。参数值:确定的、唯一的、未知的。参数值:确定的、唯一的、未知的。统计值:变化的。统计值:变化的。置信度(置信度(confidence levelconfidence level)总体参数值落在样本统计值总体参数值落在样本统计值某一区间内的概率,或者说,是总体参数值落在样本统计值某一区间内的概率,或者说,是总体参数值落在样本统计值某一区间内的把握性程度。某一区间内的把握性程度。反映的是样本的可靠性程度。如置信水平为反映的是样本的可靠性程度。如置信水平为95%95%,则表示总,则表示总体参数值落在样本统计值某一区间

9、的概率为体参数值落在样本统计值某一区间的概率为95%95%。置信区间(置信区间(confidence intevalueconfidence intevalue)上述上述“某一区间某一区间”,就是置信区间。指在一定置信水平下,样本统计值与总体,就是置信区间。指在一定置信水平下,样本统计值与总体参数值之间的误差范围。与误差范围成正比。参数值之间的误差范围。与误差范围成正比。一、抽样的意义与作用一、抽样的意义与作用依据概率论的基本原依据概率论的基本原理,按照理,按照等概率原则等概率原则进行的抽样,能够进行的抽样,能够避避免免抽样过程中的抽样过程中的人为人为误差误差,保证样本的代,保证样本的代表性表

10、性依据研究者的依据研究者的主观意主观意愿、判断或是否方便愿、判断或是否方便等因素来抽取对象,等因素来抽取对象,往往产生较大误差,往往产生较大误差,难以保证样本的代表难以保证样本的代表性。性。(四)抽样的类型(四)抽样的类型根据抽取对象的具体方式分类:根据抽取对象的具体方式分类:概率概率抽样抽样非概非概率抽样率抽样一、抽样的意义与作用一、抽样的意义与作用抽样方法抽样方法概率抽样非概率抽样简单随机抽样系统抽样分层抽样整群抽样多段抽样偶遇抽样判断抽样定额抽样雪球抽样(一)概率抽样的基本原理(一)概率抽样的基本原理1.1.无意识抽样导致的偏差无意识抽样导致的偏差方便获取的样本:易得,但缺乏代表性方便获

11、取的样本:易得,但缺乏代表性;例如:如何获取由例如:如何获取由100100个学生构成的样本个学生构成的样本访问者的偏好影响样本的代表性访问者的偏好影响样本的代表性;例如:有意回避具有某些特例如:有意回避具有某些特(“酷酷”、“冷冷”)的受访者的受访者抽样的地点影响样本的代表性抽样的地点影响样本的代表性 例如:图书馆门口访问例如:图书馆门口访问二、概率抽样的原理与程序二、概率抽样的原理与程序(一)概率抽样的基本原理(一)概率抽样的基本原理2.2.同质性和异质性同质性和异质性 买买100100支单价为支单价为1 1元的铅笔,在结账的时候是用乘元的铅笔,在结账的时候是用乘法还是加法?法还是加法?买买

12、1010支单价为支单价为1 1元的铅笔、元的铅笔、2020支单价为支单价为2 2元的签字元的签字笔和笔和3030支单价为支单价为5 5元的钢笔,结账时该如何计算?元的钢笔,结账时该如何计算?10*1+20+2+30*510*1+20+2+30*5100100铅笔具有同质性,铅笔具有同质性,6060支笔具有异质性(价格不支笔具有异质性(价格不同)同)二、概率抽样的原理与程序二、概率抽样的原理与程序是否可以这样认为是否可以这样认为是否可以这样认为是否可以这样认为?对于具有同质性的总体,我们只需要了解其中一个成员,就对于具有同质性的总体,我们只需要了解其中一个成员,就能知道整个群体的情况;对于具有异

13、质性总体,我们往往需能知道整个群体的情况;对于具有异质性总体,我们往往需要根据总体内部的不同特征选取一定数量具有代表性的样本要根据总体内部的不同特征选取一定数量具有代表性的样本来推论总体的情况。来推论总体的情况。例:西南医科大学在校生网购情况分析例:西南医科大学在校生网购情况分析研究总体:研究总体:西南医科大学在校大一、大二、大三学生西南医科大学在校大一、大二、大三学生是否具有同质性?是否具有同质性?否,不同经济状况、消费观念会导致不同的网购行为否,不同经济状况、消费观念会导致不同的网购行为采用抽样调查:选取采用抽样调查:选取100100个具有代表性的样本来推论西南个具有代表性的样本来推论西南

14、医科大学在校生的网购情况。医科大学在校生的网购情况。什么样的样本才能代表总体的情况?什么样的样本才能代表总体的情况?什么样的样本才能代表总体的情况?什么样的样本才能代表总体的情况?从年级分类:大一、大二、大三从年级分类:大一、大二、大三从年级分类:大一、大二、大三从年级分类:大一、大二、大三从学院分类:药学院、法学院、公共卫生学院。从学院分类:药学院、法学院、公共卫生学院。从学院分类:药学院、法学院、公共卫生学院。从学院分类:药学院、法学院、公共卫生学院。从性别分类:男、女从性别分类:男、女从性别分类:男、女从性别分类:男、女采用概率抽样抽取的样本为什么能代表总体的情采用概率抽样抽取的样本为什

15、么能代表总体的情采用概率抽样抽取的样本为什么能代表总体的情采用概率抽样抽取的样本为什么能代表总体的情况?况?况?况?(二)抽样分布(二)抽样分布 抽样分布是根据概率的原则而成立的理论分布,它显示出:从一个总体中不断抽取样本时,各种可能出现的样本统计值的分布情况。二、概率抽样的原理与程序二、概率抽样的原理与程序当样本容量为当样本容量为2 2个时,根据组合公式计算总共可以抽取个时,根据组合公式计算总共可以抽取4545个不同的样个不同的样本,这些样本的平均数范围从本,这些样本的平均数范围从6.56.5年(当)到年(当)到14.514.5年,其中会产生一年,其中会产生一些相同的平均数,比如些相同的平均

16、数,比如6-146-14,7-137-13,8-128-12,9-119-11这四个样本的平均数这四个样本的平均数都是都是1010年。年。当样本容量为当样本容量为3 3个时,可以抽取个时,可以抽取120120个样本,这些样本的平个样本,这些样本的平均数范围从均数范围从7 7年到年到1414年,其中相同的平均数更多。年,其中相同的平均数更多。当样本容量继续增大时(越来越接近总体的当样本容量继续增大时(越来越接近总体的1/21/2时),样本平均数的分布会进一步发生变时),样本平均数的分布会进一步发生变化。化。趋势是:平均数的范围将逐步缩小(即分布图趋势是:平均数的范围将逐步缩小(即分布图的底部越来

17、越窄);的底部越来越窄);相同的平均数相同的平均数会相应会相应增多增多;全部平均数的分布全部平均数的分布向总体平均数集中向总体平均数集中的趋势也的趋势也会越来越会越来越明显明显。根据根据“中心极限定理中心极限定理”,当,当n n(抽取的样本量)足够大(抽取的样本量)足够大时(通常假定大于时(通常假定大于3030),无论总体的分布如何,其样本),无论总体的分布如何,其样本平均数所构成的分布都平均数所构成的分布都趋于正态分布趋于正态分布。根据概论统计理论,正态根部曲线下的任何部分的面积根据概论统计理论,正态根部曲线下的任何部分的面积都可以用数学方法推算。这意味着,都可以用数学方法推算。这意味着,任

18、何两个数值之间任何两个数值之间的样本平均数次数所占的比例都是可以求得的。的样本平均数次数所占的比例都是可以求得的。约有约有68%的样本平均数在的样本平均数在“”这两个数值的范围内这两个数值的范围内约有约有95.46%的样本统计值落在总体参数值正负两个标准差范围内。的样本统计值落在总体参数值正负两个标准差范围内。在实际应用中,人们更多的是采用以下几个数字:在实际应用中,人们更多的是采用以下几个数字:有有90%90%落在落在 之间;之间;有有95%95%落在落在 之间;之间;如果从反面来考虑这一结论,可以得出以下推论:对于任如果从反面来考虑这一结论,可以得出以下推论:对于任何一次随机抽样来说,其样

19、本的统计值落在总体参数值正何一次随机抽样来说,其样本的统计值落在总体参数值正负负1.651.65个标准差之间的概率是个标准差之间的概率是90%90%。只要我们采用的是随机抽样的方法,就可以根据抽样分布,只要我们采用的是随机抽样的方法,就可以根据抽样分布,用样本的数值来推论总体的情况。用样本的数值来推论总体的情况。界界定定总总体体:对对从从中中抽抽取取样样本本的的总总体体范范围围与与界界限限作作明明确确的的界定界定 制制定定抽抽样样框框:依依据据已已经经明明确确界界定定的的总总体体范范围围,收收集集总总体体中中全全部部抽抽样样单单位位的的名名单单,并并通通过过对对名名单单进进行行统统一一编编号号

20、来来建立起供抽样使用的抽样框建立起供抽样使用的抽样框 决定抽样方案决定抽样方案:选择抽样方法,确定样本规模选择抽样方法,确定样本规模 实实际际抽抽取取样样本本:1.1.1.1.先先先先抽抽抽抽好好好好样样样样本本本本,再再再再调调调调查查查查 2.2.2.2.一一一一边边边边抽抽抽抽样样样样一边调查(样本规模较大时)一边调查(样本规模较大时)一边调查(样本规模较大时)一边调查(样本规模较大时)评评估估样样本本质质量量:对对对对样样样样本本本本的的的的质质质质量量量量、代代代代表表表表性性性性、偏偏偏偏差差差差等等等等进进进进行行行行初初初初步的检验和衡量步的检验和衡量步的检验和衡量步的检验和衡

21、量二、概率抽样的原理与程序二、概率抽样的原理与程序(三)抽样的一般程序(三)抽样的一般程序例:西南医科大学在校生学习倦怠的原因及影响因素的调查例:西南医科大学在校生学习倦怠的原因及影响因素的调查界定总体界定总体:所有西南医科大学在校学生所有西南医科大学在校学生制定抽样框制定抽样框:假定有假定有3 3万名在校生,则需要搜集所有万名在校生,则需要搜集所有3 3万名学万名学生名单,进行统一编号来建立起供抽样使用的抽样框。生名单,进行统一编号来建立起供抽样使用的抽样框。决定抽样方案决定抽样方案:根据实际的情况,选择合适的抽样方法,并根据实际的情况,选择合适的抽样方法,并确定样本规模。如选择简单随机抽样

22、样本规模为确定样本规模。如选择简单随机抽样,样本规模为200200人。人。抽取样本抽取样本:评估样本质量评估样本质量:对样本的代表性、偏差等进行检验对样本的代表性、偏差等进行检验在实践上可行在实践上可行可可行行性性目目的的性性最有利于研究资料最有利于研究资料的获取和最符合研的获取和最符合研究的目的究的目的与研究的可得资与研究的可得资源相适应源相适应能能够够从从样样本本自自身身计计算算出出有有效效的的估估计计值值或或抽抽样样变变动动的近似值的近似值(四)抽样设计的原则(四)抽样设计的原则美国抽样专家科什(美国抽样专家科什(kishkish)教授提出一个优秀的抽样设计应该满足)教授提出一个优秀的

23、抽样设计应该满足的四条标准:的四条标准:经济性经济性可测性可测性目的性目的性可行性可行性四条标准之间存在着一定的制约关系,甚至相互冲突。四条标准之间存在着一定的制约关系,甚至相互冲突。增加可测性增加可测性加大样本容量加大样本容量增加资源增加资源经济性减弱经济性减弱实际的抽样设计就是研究者在这四条标准中进行实际的抽样设计就是研究者在这四条标准中进行取舍和保持平衡取舍和保持平衡的过程的过程三、概率抽样的方法偶遇抽样偶遇抽样判断抽样判断抽样定额抽样定额抽样雪球抽样雪球抽样简单随机抽简单随机抽系统多层抽样系统多层抽样分层抽样分层抽样整群抽样整群抽样多段抽样多段抽样概率抽样概率抽样非概率抽样非概率抽样抽

24、样类型抽样类型概率抽样是按照概率原理进行的,它要求样本具有随机性,概率抽样是按照概率原理进行的,它要求样本具有随机性,即总体中每一个成员都有被抽中的可能性。即总体中每一个成员都有被抽中的可能性。不同形式的概率抽样对选择涉及调查研究问题的性质、良不同形式的概率抽样对选择涉及调查研究问题的性质、良好的抽样框的获得、调查研究经费的多少、资料收集方法好的抽样框的获得、调查研究经费的多少、资料收集方法等因素有不同的要求。等因素有不同的要求。三、概率抽样的方法三、概率抽样的方法(一)简单随机抽样:(一)简单随机抽样:(一)简单随机抽样:(一)简单随机抽样:又称纯随机抽样,是按照等概率原则直接从含有又称纯随

25、机抽样,是按照等概率原则直接从含有N N个元素的总个元素的总体中抽取体中抽取n n个元素组成样本(个元素组成样本(NnNn),常用的办法是抽签。概率抽),常用的办法是抽签。概率抽样的最基本形式样的最基本形式 。要点:要点:它要求被抽取样本的总体的个体数有限它要求被抽取样本的总体的个体数有限它是从总体中逐个进行抽取它是从总体中逐个进行抽取它是一种不放回抽样它是一种不放回抽样它是一种等概率抽样它是一种等概率抽样用从个体数为用从个体数为N N的总体中抽取一个容量为的总体中抽取一个容量为n n的的样本,那么每个个体被抽取的概率等样本,那么每个个体被抽取的概率等于于 方法:方法:1.1.总体较少:搅拌抽

26、签;总体较少:搅拌抽签;2.2.总体较多:用随机数表总体较多:用随机数表 抽签法抽签法(抓阄法抓阄法)将总体中的所有个体(共将总体中的所有个体(共N N个)编号个)编号(号码可以从(号码可以从1 1到到N N),并把号码写在形),并把号码写在形状、大小相同的号签上(状、大小相同的号签上(号签可以用号签可以用小球、卡片、纸条等制作),然后将这小球、卡片、纸条等制作),然后将这些号签放在同一个箱子里,进行均匀搅些号签放在同一个箱子里,进行均匀搅拌。抽签时,每次从中抽出拌。抽签时,每次从中抽出1 1 个号签,个号签,连续抽取连续抽取n n次,就得到一个容量为次,就得到一个容量为n n的样的样本。对个

27、体编号时,也可以利用已有的本。对个体编号时,也可以利用已有的编号。例如学生的学号,座位号等。编号。例如学生的学号,座位号等。三、概率抽样的方法随机数表法随机数表法随机数表是统计工作者用计算机生成的随机数,保证表随机数表是统计工作者用计算机生成的随机数,保证表中的每个位置上的数字是等可能出现的中的每个位置上的数字是等可能出现的用随机数表进行抽样的步骤:将总体中个体编号;选定用随机数表进行抽样的步骤:将总体中个体编号;选定开始的数字;获取样本号码开始的数字;获取样本号码用随机数表抽取样本,可以任选一个数作为开始,读数用随机数表抽取样本,可以任选一个数作为开始,读数的方向可以向左,也可以向右、向上、

28、向下等等。因此的方向可以向左,也可以向右、向上、向下等等。因此并不是唯一的并不是唯一的由于随机数表是等概率的,因此利用随机数表抽取样本由于随机数表是等概率的,因此利用随机数表抽取样本保证了被抽取个体的概率是相等的保证了被抽取个体的概率是相等的三、概率抽样的方法三、概率抽样的方法简单随机抽样方法的优缺点简单随机抽样方法的优缺点优点优点:可能产生代表性样本可能产生代表性样本缺点缺点:不容易做不容易做抽样元素多,编号难抽样元素多,编号难必须能够接触到被选中的个体必须能够接触到被选中的个体搅拌均匀不易搅拌均匀不易三、概率抽样的方法(二)系统抽样(二)系统抽样(二)系统抽样(二)系统抽样 定义:定义:等

29、距抽样或机械抽样,将总体的元素编号等距抽样或机械抽样,将总体的元素编号排序后,按照固定的间隔抽取个体组成样本的方排序后,按照固定的间隔抽取个体组成样本的方法。法。系统抽样的具体步骤系统抽样的具体步骤1 1、给总体中的每一个元素按顺序编上号码,制定出抽、给总体中的每一个元素按顺序编上号码,制定出抽样框。样框。2 2、计算出抽样时间距,方法是用总体的规模除以样本、计算出抽样时间距,方法是用总体的规模除以样本的规模。的规模。K K(抽样间隔)(抽样间隔)=N=N(总体规模)(总体规模)/n/n(样本规模)(样本规模)3 3、在最前面的、在最前面的K K个元素中,采用简单随机抽样的方法抽个元素中,采用

30、简单随机抽样的方法抽取一个元素,记下这个元素的编号(假设为取一个元素,记下这个元素的编号(假设为A A),),A A称为称为随机起点。随机起点。4 4、在抽样框中,自、在抽样框中,自A A开始,每隔开始,每隔K K个元素抽取一个元素,个元素抽取一个元素,即所抽元素编号为即所抽元素编号为A A,A+KA+K,A+2KA+2K,A+A+(n-1n-1)K K。5 5、将这、将这n n个元素合起来,就构成了该总体的一个样本。个元素合起来,就构成了该总体的一个样本。三、概率抽样的方法 系统抽样例子:某校3000名新生中抽取100名样本。3000/100=30每隔30人取1名。起始值是2号,下一个就是3

31、2号。依次类推。注意注意1 1:系统抽样的一个十分重要的前提条件,是总体:系统抽样的一个十分重要的前提条件,是总体中个体的排列,相对于研究的变量来说是随机的,即不中个体的排列,相对于研究的变量来说是随机的,即不存在某种与研究变量相关的规则分布。否则,系统抽样存在某种与研究变量相关的规则分布。否则,系统抽样的结果将会产生极大的偏差。的结果将会产生极大的偏差。例如:从总体例如:从总体20002000户家庭的社区中,抽取一个户家庭的社区中,抽取一个5050户家庭的样本进户家庭的样本进行调查消费状况的调查,而这行调查消费状况的调查,而这20002000户家庭的名单是按每个家庭总收户家庭的名单是按每个家

32、庭总收入的多少,由高到低的顺序排列的。初始号码为入的多少,由高到低的顺序排列的。初始号码为3 3和和3838,所抽样本,所抽样本家庭平均收入有很大区别,消费状况也有很大区别。家庭平均收入有很大区别,消费状况也有很大区别。注意注意2 2:元素排列的周期性可能导致抽样的重大偏差!元素排列的周期性可能导致抽样的重大偏差!例如:每个班级内的例如:每个班级内的5050名学生按照学生成绩的高低来名学生按照学生成绩的高低来排序,抽样间距为排序,抽样间距为5050,每个班抽取一名学生组成样本,每个班抽取一名学生组成样本,初始号码为初始号码为2 2或或4848号,所抽样本的平均成绩差别很大号,所抽样本的平均成绩

33、差别很大系统抽样的优缺点优点优点:(1 1)简单易操作)简单易操作(2 2)当对总体结构有一定了解时,充分利用已有的信息对总体中的个)当对总体结构有一定了解时,充分利用已有的信息对总体中的个体进行排队后再抽样,可提高抽样效率体进行排队后再抽样,可提高抽样效率(3 3)当总体中的个体存在一种自然编号时,采用系统抽样比较方便)当总体中的个体存在一种自然编号时,采用系统抽样比较方便缺点:缺点:(4 4)当在不了解样本总体的情况下(如性别差异,经济基础,个人喜)当在不了解样本总体的情况下(如性别差异,经济基础,个人喜好,天气因素等等),所抽出的样本可能会有一定的偏差。好,天气因素等等),所抽出的样本可

34、能会有一定的偏差。三、概率抽样的方法(三)分层抽样(三)分层抽样(stratified samplingstratified sampling)又又称称类类型型抽抽样样,它它是是先先将将总总体体中中的的所所有有元元素素按按某某种种特特征征或或标标志志(如如性性别别、年年龄龄、地地域域等等)划划分分成成若若干干类类型型或或层层次次,然然后后再再在在各各个个类类型型或或层层次次中中采采用用简简单单随随机机抽抽样样或或系系统统抽抽样样的的办办法法抽抽取取一一个个子子样样本,最后将子样本合起来构成样本。本,最后将子样本合起来构成样本。三、概率抽样的方法 分层抽样的步骤1.总体与样本容量确定抽取的比例。

35、总体与样本容量确定抽取的比例。2.由分层情况,确定各层抽取的样本数。由分层情况,确定各层抽取的样本数。3.各层的抽取数之和应等于样本容量。各层的抽取数之和应等于样本容量。4.对于不能取整的数,求其近似值。对于不能取整的数,求其近似值。三、概率抽样的方法分层抽样举例分层抽样举例 一个单位的职工有一个单位的职工有500500人,其中不到人,其中不到3535岁的有岁的有125125人,人,35354949岁的有岁的有280280人,人,5050岁以上的有岁以上的有9595人。为了了解该单位职工年人。为了了解该单位职工年龄与身体状况的有关指标,从中抽取龄与身体状况的有关指标,从中抽取100100名职工

36、作为样本,应名职工作为样本,应该怎样抽取?该怎样抽取?解:抽取人数与职工总数的比是解:抽取人数与职工总数的比是100100:5005001 1:5 5,则各年龄段(层)的职工人数依次是则各年龄段(层)的职工人数依次是125125:280280:95952525:5656:1919,然后分别在各年龄段(层)运用简单随机抽,然后分别在各年龄段(层)运用简单随机抽样方法抽取。样方法抽取。答:在分层抽样时,不到答:在分层抽样时,不到3535岁、岁、35354949岁、岁、5050岁以上的三个岁以上的三个年龄段分别抽取年龄段分别抽取2525人、人、5656人和人和1919人。人。三、概率抽样的方法 优点

37、优点:优点:优点:在不增加样本规模的前提下降低抽样误差,提高抽样精度,增大代在不增加样本规模的前提下降低抽样误差,提高抽样精度,增大代表性。表性。便于了解总体内不同层次的情况,以及对总体中的不同层次进行单便于了解总体内不同层次的情况,以及对总体中的不同层次进行单独研究或者进行比较。独研究或者进行比较。缺点:缺点:缺点:缺点:对抽样框的要求比较高,必须有分层的辅助信息;对抽样框的要求比较高,必须有分层的辅助信息;收集或编制抽样框的费用比较高;收集或编制抽样框的费用比较高;若调查变量与分层的变量不相关,效率可能降低;若调查变量与分层的变量不相关,效率可能降低;三、概率抽样的方法 分层的标准问题分

38、层的标准问题以分析的主要变量或相关变量作为分层的标准以分析的主要变量或相关变量作为分层的标准以分析的主要变量或相关变量作为分层的标准以分析的主要变量或相关变量作为分层的标准保证各层内部同质性强,各层之间异质性强保证各层内部同质性强,各层之间异质性强保证各层内部同质性强,各层之间异质性强保证各层内部同质性强,各层之间异质性强以已有明显层次区分的变量作为分层变量以已有明显层次区分的变量作为分层变量以已有明显层次区分的变量作为分层变量以已有明显层次区分的变量作为分层变量 三种抽样方法的比较类别类别各自特点各自特点相互联系相互联系适用范围适用范围共同点共同点简单随机抽样简单随机抽样从总体中从总体中逐个

39、抽取逐个抽取总体中的个总体中的个体数较少体数较少抽样过程抽样过程中每个个中每个个体被抽取体被抽取的概率相的概率相等等系统抽样系统抽样将总体均分成几部将总体均分成几部分,按事先确定的分,按事先确定的规则在各部分抽取规则在各部分抽取在起始部分抽样在起始部分抽样时采用简单随机时采用简单随机抽样抽样总体中的个总体中的个体数较多体数较多分层抽样分层抽样将总体分成几层,将总体分成几层,分层进行抽取分层进行抽取各层抽样时采用各层抽样时采用简单随机抽样或简单随机抽样或系统抽样系统抽样总体由差异总体由差异明显的几部明显的几部分组成分组成简单随机抽样最简单,但是也是相对复杂的。系统抽样操作简单,简单随机抽样最简单

40、但是也是相对复杂的。系统抽样操作简单,在有充分的总体信息的前提下,估计精度比随机抽样高,且操作在有充分的总体信息的前提下,估计精度比随机抽样高,且操作、简单。分层抽样由于已经利用了总体信息,因此估计精度也比、简单。分层抽样由于已经利用了总体信息,因此估计精度也比随机简单抽样要高。随机简单抽样要高。三、概率抽样的方法(四)整群抽样(四)整群抽样(四)整群抽样(四)整群抽样(cluster samplingcluster sampling)将总体按某种标准划分为一些将总体按某种标准划分为一些子群体子群体,每个子群为一个抽样单位,每个子群为一个抽样单位,用随机方法从中抽若干子群,将抽出的子群中的所

41、有个体结合起来用随机方法从中抽若干子群,将抽出的子群中的所有个体结合起来构成样本。构成样本。整群抽样例子:整群抽样例子:大学有大学有100100个班,每班个班,每班3030人,现在抽人,现在抽300300人,怎么抽样?人,怎么抽样?抽抽1010个班。个班。某城市某城市1010万户,要抽取万户,要抽取10001000户,怎么办?户,怎么办?社区社区200200个,社区户数个,社区户数500500。选。选2 2个社区。个社区。三、概率抽样的方法 整群抽样特点:整群抽样特点:抽样单位不是单个的个体,而是成群的个体抽样单位不是单个的个体,而是成群的个体 优缺点:优缺点:优点:不需要详细的所有元素的名单

42、简单,费用低优点:不需要详细的所有元素的名单,简单,费用低 缺点:样本的分布面不广,代表性相对较差缺点:样本的分布面不广,代表性相对较差 整群抽样和分层抽样的比较:整群抽样和分层抽样的比较:子群间异质性强,群内同质性强子群间异质性强,群内同质性强分层抽样分层抽样 子群间同质性强,群内异质性强子群间同质性强,群内异质性强整群抽样整群抽样 三、概率抽样的方法(五)多阶段抽样(五)多阶段抽样(multidstage sampling)按抽样元素的隶属关系或层次关系,把抽样分为几个阶段进行。在按抽样元素的隶属关系或层次关系,把抽样分为几个阶段进行。在社会调查中,当总体的规模特别大,或者总体分布的范围

43、特别广时,社会调查中,当总体的规模特别大,或者总体分布的范围特别广时,研究者一般采取多段抽样的方法来抽取样本。研究者一般采取多段抽样的方法来抽取样本。例例1 1:大学:大学院系院系班级班级学生学生 例例2 2:城市:城市区区街道街道居委会居委会 家庭家庭个人个人 如调查如调查“泸州市青年工人收入状况泸州市青年工人收入状况”,首先以企业为单位抽样,即以全市的企业为抽样框,从首先以企业为单位抽样,即以全市的企业为抽样框,从中随机抽取一部分企业(中随机抽取一部分企业(5 5););然后在抽中的企业中以车间为抽样单位抽样,即从全部然后在抽中的企业中以车间为抽样单位抽样,即从全部车间中抽取若干个车间(车

44、间中抽取若干个车间(2020):):最后,在抽中的车间内抽取青年工人(最后,在抽中的车间内抽取青年工人(10001000人)人)五种概率抽样方法比较五种概率抽样方法比较“四川医科大学在校学生食堂满意度调查四川医科大学在校学生食堂满意度调查”,总共有学,总共有学生生1000010000人,其中男生人,其中男生60006000人,女生人,女生40004000人;学院人;学院2 22 2个,个,大一大一20002000人,大二人,大二30003000人,大三人,大三30003000人,大四人,大四20002000人。抽人。抽取取10001000个样本。个样本。简单随机抽样方法:简单随机抽样方法:先根

45、据先根据1000010000个学生的名单制作抽样框,然后根据随机数个学生的名单制作抽样框,然后根据随机数表或抓阄方式抽取表或抓阄方式抽取10001000名学生。名学生。系统抽样:系统抽样:先根据先根据1000010000个学生的名单制作抽样框个学生的名单制作抽样框计算抽样间距:计算抽样间距:10000/1000=1010000/1000=10在在1000010000个学生中随机抽取一个学生:例如个学生中随机抽取一个学生:例如3333号号在抽样框中从在抽样框中从3333号开始每隔号开始每隔1010个学生抽取一个样本:个学生抽取一个样本:4343、5353、6363、73.73.分层抽样分层抽样首

46、先把首先把1000010000名学生分为男生、女生两个部分名学生分为男生、女生两个部分,男生男生60006000人、女生人、女生40004000人,比例为人,比例为3:23:2采用随机抽样或系统抽样方法,按照采用随机抽样或系统抽样方法,按照每部分抽取个体数:每部分抽取个体数:该部分的个体总数该部分的个体总数=样本容量:总体中的个体数原则,样本容量:总体中的个体数原则,从从女生中抽取女生中抽取400400人,男生中抽取人,男生中抽取600600人,组成样本。人,组成样本。或或将将1000010000名学生分为大一、大二、大三、大四四个部分,名学生分为大一、大二、大三、大四四个部分,大一大一200

47、02000人,大二人,大二30003000人,大三人,大三30003000人,大四人,大四20002000人人采用随机抽样或系统抽样方法,按照采用随机抽样或系统抽样方法,按照每部分抽取个体数:每部分抽取个体数:该部分的个体总数该部分的个体总数=样本容量:总体中的个体数原则,样本容量:总体中的个体数原则,大大一中抽取一中抽取200200人,大二中抽取人,大二中抽取300300人,大三抽取人,大三抽取300300人,大人,大四中抽取四中抽取200200人,组成样本。人,组成样本。整群抽样整群抽样把把全全校校2222个个学学院院作作为为抽抽样样框框,从从2222个个学学院院中中采采用用简简单单随随机

48、机抽抽样样、分分层层抽抽样样或或系系统统抽抽样样的的方方法法抽抽取取3 3个个学学院院,将将3 3个个学学院中所有的学生所有调查样本。院中所有的学生所有调查样本。多阶段抽样多阶段抽样把把全全校校2 2个个各各学学院院作作为为抽抽样样框框,从从2222个个学学院院中中采采用用简简单单随随机抽样、分层抽样或系统抽样的方法抽取机抽样、分层抽样或系统抽样的方法抽取5 5个学院;个学院;从从5 5个个学学院院的的所所有有班班级级作作为为抽抽样样框框(如如8080个个班班级级),从从8 80 0个个班班级级中中采采用用简简单单随随机机抽抽样样、分分层层抽抽样样或或系系统统抽抽样样的的方方法法抽取个抽取个4

49、040班级;班级;以以4040个个班班级级中中的的所所有有学学生生作作为为抽抽样样框框,采采用用简简单单随随机机抽抽样样、分层抽样或系统抽样的方法抽取分层抽样或系统抽样的方法抽取10001000名学生作为调查样本名学生作为调查样本;三、概率抽样的方法(六)(六)PPSPPS抽样抽样是是一一种种常常用用的的不不等等概概率率抽抽样样方方法法,叫叫做做“概概率率与与元素的规模大小成比例的抽样元素的规模大小成比例的抽样”。多段抽样中,其实暗含了一个多段抽样中,其实暗含了一个假定假定:即每一个阶段抽样时,其元素的即每一个阶段抽样时,其元素的规模是相同的。规模是相同的。比如第一阶段抽取学校时,暗含了每个学

50、校的规模相同。比如第一阶段抽取学校时,暗含了每个学校的规模相同。在这样的假定下,采取上述几种随机抽样的方法,在这样的假定下,采取上述几种随机抽样的方法,最终每名学生被抽最终每名学生被抽中的概率相等。中的概率相等。但但现实生活现实生活中,每一个学校包含的学生人数不同,因中,每一个学校包含的学生人数不同,因而按照上述多段抽样的方法来抽取样本时,最终而按照上述多段抽样的方法来抽取样本时,最终每名学生每名学生被抽中的概率实际上是不同的被抽中的概率实际上是不同的。从从100100所学校中抽取所学校中抽取1010所学校(规模所学校(规模不一样大不一样大)假设甲学)假设甲学校比较大,有校比较大,有2 2万名

展开阅读全文
相关资源
猜你喜欢
相关搜索

当前位置:首页 > 高等教育 > 大学课件

宁ICP备18001539号-1