统计学 第2章__统计数据的收集.ppt

上传人:少林足球 文档编号:4223139 上传时间:2019-10-28 格式:PPT 页数:91 大小:2.31MB
返回 下载 相关 举报
统计学 第2章__统计数据的收集.ppt_第1页
第1页 / 共91页
统计学 第2章__统计数据的收集.ppt_第2页
第2页 / 共91页
统计学 第2章__统计数据的收集.ppt_第3页
第3页 / 共91页
统计学 第2章__统计数据的收集.ppt_第4页
第4页 / 共91页
统计学 第2章__统计数据的收集.ppt_第5页
第5页 / 共91页
点击查看更多>>
资源描述

《统计学 第2章__统计数据的收集.ppt》由会员分享,可在线阅读,更多相关《统计学 第2章__统计数据的收集.ppt(91页珍藏版)》请在三一文库上搜索。

1、第 2 章 统计数据的收集,第 2 章 统计数据的收集,2.1 统计数据的来源 2.2 调查方案设计 2.3 调查问卷设计 2.4 调查数据的审核与插补,学习目标,了解数据来源的方式 掌握数据的调查方法 掌握调查方案的结构和设计 掌握调查问卷设计 了解数据的审核与插补,2.1 统计数据的来源,统计数据的间接来源 统计数据的直接来源 统计调查的组织方式 数据搜集方法,数据的间接来源,二手数据的来源,统计部门和政府部门公布的有关资料,如各类统计年鉴 各类经济信息中心、信息咨询机构、专业调查机构等提供的数据 各类专业期刊、报纸、书籍所提供的资料 各种会议,如博览会、展销会、交易会及专业性、学术性研讨

2、会上交流的有关资料 从互联网或图书馆查阅到的相关资料,二手数据的特点,收集容易,采集成本低 作用广泛 分析所要研究的问题 提供研究问题的背景 帮助研究者更好地定义问题 检验和回答某些疑问和假设 寻找研究问题的思路和途径 收集二手资料在研究中应优先考虑,二手数据的评估,数据是谁收集的? 可信度评估 为什么目的而收集的? 数据是怎样收集的? 什么时候收集的?,数据的直接来源,数据的直接来源 (原始数据),调查数据 通过调查方法获得的数据 通常是对社会现象而言 通常取自有限总体 实验数据 通过实验方法得到的数据 通常是对自然现象而言 也被广泛运用到社会科学中 如心理学、教育学、社会学、经济学、管理学

3、等,统计调查的组织方式,统计调查方式,统计调查方式,普查 (census),为特定目的专门组织的非经常性全面调查 2. 通常是一次性或周期性的 3. 一般需要规定统一的标准调查时间 4. 数据的规范化程度较高 5. 应用范围比较狭窄,抽样调查 (sampling survey),1. 从总体中随机抽取一部分单位作为样本进行调查,并根据样本调查结果来推断总体特征的数据收集方法,2. 具有经济性、时 效性强、适应面广、准确性高等特点,统计报表 (statistical report forms),1. 统计调查方式之一 2. 过去曾经是我国主要的数据收集方式 3. 按照国家有关法规的规定、自上而下

4、地统一布置、自下而上地逐级提供基本统计数据 4. 有各种各样的类型,重点调查 (key-point investigation),1. 从全部总体中选择少数重点单位进行调查 2. 这些重点单位尽管在全部总体单位中出现的频数极少,但其某一数量标志却在所要研究的数量标志值总量中占有很大的比重 3. 如鞍钢、宝钢、首钢等进行调查,就可对全国的钢铁生产总量有个大致的认识,典型调查 (model survey),从全部总体单位中选择一个或几个有代表性的单位进行深入细致的调查 所选择的典型单位应能反映所研究问题的本质属性或特征 3. 典型调查主要用于定性研究,调查结果一般不能推断总体,数据的收集方法,数据

5、的收集方法,数据的收集方法,访问调查 (personal interview),1. 调查者与被调查者通过面对面地交谈而获得资料 2. 有标准式访问和非标准式访问 标准式访问通常按事先设计好的问卷进行 非标准式访问事先一般不制作问卷,对不起,打扰了!,邮寄调查 (mail survey),也称邮寄问卷调查 是一种标准化调查 调查者与被调查者没有直接的语言交流,信息的传递依赖于问卷 通过某种方式将调查表或问卷送至某调查者手中,由被调查者填写,然后将问卷寄回指定收集点 问卷或表格的发放方式有邮寄、宣传媒介传送、专门场所分发三种,电话调查 (telephone survey),调查者利用电话与被调查

6、者进行语言交流以获得信息 时效快、成本低 问题的数量不宜过多,您好! 我是调查公司的调查员,电脑辅助调查 (computerassisted telephone interviewing),又称电脑辅助电话调查 电脑与电话相结合完成调查的全过程 一般需借助专门的软件进行 硬件设备要求较高,问卷,座谈会 (colloquia),1. 也称集体访谈 2. 将一组被调查者集中在调查现场,让他们对调查的主题发表意见以获得资料 3. 参加座谈会的人数不宜过多,一般为610人 4. 侧重于定性研究,个别深度访问 (personal Interviewing),一次只有一名受访者参加、针对特殊问题的调查 适

7、合于较隐秘的问题,如个人隐私问题;或较敏感的问题,如政治方面的问题 侧重于定性研究,观察法 (observational method),1. 就调查对象的行动和意识,调查人员边观察边记录以收集所需信息 2. 调查人员不是强行介入 3. 能够在被调查者不察觉的情况下获得资料,实验法 (experimental method),1. 在设定的特殊实验场所、特殊状态下,对调查对象进行实验以获得所需资料 2. 有室内实验法和市场实验法,2.2 调查方案设计,调查目的是什么 向谁调查 调查什么 什么时间调查 调查的组织实施办法,调查方案的结构 (survey plan),调查方案的内容,调查目的 (o

8、bjective of survey),1. 调查要达到的具体目标 回答“为什么调查?” 调查之前必须明确,调查对象和调查单位 (Respondent and Survey unit),调查对象:调查研究的总体或调查范围 调查单位:需要对之进行调查的单位。可以是调查对象的全部单位(全面调查),也可以是调查对象中的一部分单位(非全面调查) 回答“向谁调查?”,调查项目 (Survey items),调查的具体内容 通常表现为表格或问卷 回答“调查什么?”,确定调查项目的一般原则,(1)兼顾需要与可能 (2)统一性 (3)调查项目之间要保持衔接 (4)发展和稳定相结合,调查时间,调查资料所属时间。

9、如果所调查的是时期现象,就要明确规定调查资料起止时间;如果是时点现象,就要明确调查资料的标准时点 调查资料的登记时间。登记时间是指对调查单位进行调查并取得调查资料时间 调查工作期限,调查的组织实施计划,为了保证整个统计调查工作顺利进行,在调查方案中还应该有一个周密的组织实施方案。主要内容包括调查机构成立、调查人员配备和培训、调查资料报送办法、调查前的宣传发动、调查文件的准备、调查经费预算安排以及试点工作等,2.3 调查问卷设计,问卷及问卷设计标准 问卷的开发程序 问题措辞应注意的问题 回答项目的设计 问卷格式,问卷及问卷设计标准,什么是问卷? (questionnaires),用来搜集调查数据

10、的一种工具 问卷(或调查表、统计表)是专门为从被调查者那里获得有关某个主题的信息而设计的一组或一系列问题 一份优良的问卷应是: 能有效地用来收集数据,尽可能减少误差和矛盾 对被调查者有友好的界面 应尽量减少由无回答所引起的追踪回访的数量,且便于数据编码和录入,问卷的开发程序,问卷的开发程序,向数据用户和对象进行咨询 参考以前相同主题的问卷 起草问题 对问卷进行审议与修改 对问卷进行测试与修改 定稿,问卷测试的方法,认知法 焦点座谈 非正式测试 向访员了解情况 分裂样本测试 试点调查,问题措辞应注意的问题,措词的一般原则,措辞要简单 定义缩略图或专业术语 确保问题使用 措辞要具体 避免意义双关的

11、问题 避免诱导性问题 避免使用双重否定 减少敏感问题或因私问题的影响 确保问题读来顺口,措词要简单,与被调查者清楚地进行沟通的最佳途径是使用简单的日常用词,要确保所使用的术语适合于被调查的总体 在设计问题时要始终考虑被调查者的语言能力 调查者应该昼量避免使用回答调查问题的人所不熟悉的技术性很强的专业术语或仅在本专业内使用的“行话”。如果需要使用这样的术语,应该向被调查者澄清或解释这些术语的定义。必须对新的或复杂的概念进行定义,措辞要具体,您的收入是多少?,去年,在交税和各种扣除之前,您全家各种来源的总收入是多少 ?,去年,在各种扣除之前,您全家总收入是多少?包括来自工资、薪金和所有其他来源的收

12、入。,用词要确切、通俗,请问您使用什么牌子的洗发水?,请问您最近三个月使用什么牌子的洗发水?,您最近一段时间使用什么品牌的化妆品?,您最近一个月使用什么品牌的化妆品?,您觉得这种电视机的画面质量怎么样?,您认为这种电视机的画面是否清晰?,避免诱导性提问,人们认为长虹牌彩电质量不错,你觉得怎么样?,您觉得长虹牌彩电的质量怎么样?,避免否定形式的提问,您觉得这种产品的新包装不美观吗?,您觉得这种产品的新包装美观吗?,你赞不赞成政府不允许便利店出售酒的规定吗?,你赞成政府不允许便利店出售酒的规定吗?,减少敏感问题或因私问题的影响,您们公司今年的讨税金总额为多少?,其他公司今年的讨税情况如何?,提问敏

13、感问题的技巧: “每个人”法 为回答辩护技巧 “即使一次”技术 系列问题或热身法 设立档次,一项提问只包含一项内容,您觉得这种新款轿车的加速性能和制动性能怎么样?,您觉得这种新款轿车的加速性能怎么样? 您觉得这种新款轿车的制动性能怎么样?,回答项目(答案)的设计,回答的类型与方法,回 答 的 类 型 与 方 法,开放性问题 (自由回答型),封闭性问题 (选择回答型),两项选择法,多项选择法,顺序选择法,等级评定法,双向列联法,限制选择型,多项选择型,单项选择型,开放性问题,对问题的回答未提供任何具体的答案,由被调查者根据自己的想法自由作出回答 属于自由回答型 优点:比较灵活,适合于搜集更深层次

14、的信息,特别适合于那些尚未弄清各种可能答案或潜在答案类型较多的问题。而且可以使被调查者充分表达自己的意见和想法,有利于被调查者发挥自己的创造 缺点:由于会出现各种各样的答案,给调查后的资料整理带来一定困难,开放性问题,您认为我国目前的广告宣传中,存在的 主要问题是什么? 您对这种捷达新款车有何更具体的看法?,封闭性问题,对问题事先设计出了各种可能的答案,由被调查者从中选择 问题的答案是标准化的,有利于被调查者对问题的理解和回答,也有利于调查后的资料整理 对答案的要求较高,对一些比较复杂的问题,有时很难把答案设计周全 问题的答案是选择回答型,所以设计出的答案一定要穷尽和互斥 回答方法有:两项选择

15、法、多项选择法、顺序选择法、等级评定法、双向列联法五种,封闭性问题 (两项选择法),答案只有两项,要求被调查者选择其中之一来回答 优点:被调查者只需在二者之中选择一项,回答比较容易;调查后的数据处理也很方便 缺点:得到的信息量较少;当被调查者对两项答案均不满意时,很难作出回答,您有手机吗? 1. 有 2没有,封闭性问题 (多项选择法),在设计问卷时,对一个问题给出三个或三个以上的答案,让被调查者从中选择进行回答 根据要求选择的答案多少不同,有以下类型 单项选择型:要求被调查者对所给出的问题答案选择其中的一项 多项选择型:要求被调查者对所给出的问题答案中,选出自己认为合适的答案,数量不受限制 限

16、制选择型:要求被调查者在所给出的问题答案中,选出自己认为合适的答案,但数量要受一定限制,封闭性问题 (单项选择法实例),单项选择型,您觉得哪种类型的广告宣传效果最好? (选一项) 1电视广告 2广播广告 3杂志广告 4报纸广告 5路牌广告,封闭性问题 (多项选择法实例),多项选择型,请问您在购买小轿车时,主要考虑哪些因素? (选出您认为合适的答案) 1价格 6维修费用 2款式 7乘坐舒适 3品牌 8行使平稳 4耗油量 9加速性能 5售后服务 10制动性能,封闭性问题 (顺序选择法),问题答案有多个,要求被调查者在回答时,对所选的答案按要求的顺序或重要程度加以排列。其中,对所选的的答案数量可以进

17、行一定的限制,也可以不进行限制 问题答案不仅可以反映所要调查的内容,而且可以反映出被调查者对问题的看法,从而增加了信息量,封闭性问题 (等级评定法),问题答案,由表示不同等级的形容词组成, 并按照一定的程度排序,由被调查者依次 选择,您对这种新款轿车是否感到满意? 1非常满意;2比较满意;3一般 4不太满意;5不满意。,封闭性问题 (双向列联法),将两类不同问题综合到一起,通常用表格来表现 表的横向是一类问题,纵向是另一类问题 这种问题结构可以反映两方面因素的综合作用,提供单一类型问题无法提供的信息 可以节省问卷的篇幅,封闭性问题 (双向列联法实例),请在您赞同项目的空格内划“”,问卷格式,问

18、卷的基本结构,问卷的基本结构,开头 部分,甄别 部分,主体 部分,背景 部分,问候语,填写说明,问卷编号,开头部分 (问候语),女士/小姐/先生 您好!我是市场调查公司访问员,我们正在进行一项有关公众医疗保险意识方面的调查,目的是想了解人们对医疗保险的看法和意见,以便更好地促进医疗保险事业的发展。您的回答无所谓对错,只要真实地反映了您的情况和看法,就达到了这次调查的目的。希望您能积极参与,我们对您的回答完全是保密的。调查要耽搁您一些时间,请您谅解。谢谢您的支持与合作!,开头部分 (填写说明),填写要求: 请您在所选择答案的题号上画圈 对只许选择一个答案的问题只能画一个圈;对可选多个答案的问题,

19、请在你认为合适的答案上画圈 需填写数字的题目在留出的横线上填写 对于表格中选择答案的题目,在所选的栏目内画勾 对注明要求您自己填写的内容,请在规定的地方填上您的意见,开头部分 (问卷的编号),用于识别问卷、调查者、被调查者姓名和地址等 便于校对检查、更正错误,问卷编号 001,甄别部分,甄别也称为过滤,它是先对被调查者进行过滤,筛选掉不需要的部分,然后针对特定的被调查者进行调查 通过甄别,可以筛选掉与调查事项有直接关系的人,以达到避嫌的目的 可以确定哪些人是合格的被调查者,哪些人不是 甄别的目的是确保被调查者合格,能够作为该市场调查项目的代表,从而符合调查研究的需要,甄别部分,S1请问您或您的

20、家庭有没有在下列行业工作的呢? 1广告、公关机构 2市场研究、咨询、调查机构 3电视,广播,报纸等媒介机构 终止访问 4轿车制造 5轿车批发、零售 6以上皆无继续访问 S2请问您的年龄是: 120岁以下终止访问 220岁30岁 330岁40岁 440岁50岁 550岁以上终止访问,主体部分,是调查问卷的核心内容 包括所要调查的全部问题,主要由问题和答案所组成,Q1.您在购买汽 车时主要考虑 哪些因素? Q2.您认为这款 汽车的加速性 能怎么样?,背景部分,通常放在问卷的最后,主要是有关被调查者的一些背景资料 该部分所包含的各项问题,可使研究者根据背景资料对被调查者进行分类比较分析,1.您具体做

21、 什么工作? 2.您的受教 育程度?,背景部分,A出 示 卡 片请 问 您 的 教 育 程 度? (901) 没 受 过 正 式 教 育 1 小 学, 初 中 2 高 中, 职 高, 中 专, 技 校 3 大 专, 大 学 或 以 上 4 B出 示 卡 片请 问 您 的 职 业 和 职 位 是 什 么?(902) 普 通 职 员, 工 人1 部 门 经 理 负 责 人/ 高 级 管 理 人 员 2 公 司 老 板, 厂 长,总 经 理 3 专 业 人 员 4 个 体 户,自 营 职 业 5 失 业, 待 业 6 学 生7 离 退 休 人 员 8 其 他(请注明) 9,2.4 调查数据的审核与插

22、补,调查数据的审核 调查数据的插补 离群值的检测 离群值的处理,调查数据的审核,审核是应用各种检查规则来辨别缺失、无效或不一致的录入 审核的目的是更好地了解调查的过程及调查数据,以确保调查数据的完整、准确与一致 审核工作贯穿于整个调查过程,从访员在调查现场的简单初步的检查到数据处理阶段数据录入之后由计算机程序进行的复杂校验,审核分类,有效性审核主要是检查被调查者回答语句的语法是否正确,检查包括是否在规定填数字的地方填上了非数字的字符以及问卷中的回答是否有缺失等各种错误 一致性审核主要是检查不同问题之间的关系是否正确。一致性审核可以基于不同问题或同一问题的不同部分之间的结构关系、逻辑性和合法性来

23、进行 分布审核主要是试图通过数据的分布,来辨识记录是否远远脱离分布的正常范围。又称为离群值的检测,调查数据的插补,插补就是解决在审核过程中辨别出来的数据缺失、无效与不一致等问题的过程 插补方法分为两类即随机插补和确定性插补 确定性插补对于特定的被调查者的数据,可能插补值只有一个 随机插补含有随机因素,插补的类型与方法,插 补 的 类 型 与 方 法,随机性插补,确定性插补,推理插补,均值插补,比率或回归插补,热平台插补,冷平台插补,最近邻插补,确定性插补法残差,确定性插补法,推理插补将缺失或不一致的数据通过推断来确定。如,三项之和为100,空着一项 均值插补用插补类的均值代替缺失或不一致的值。

24、如,假定在一份住房调查的问卷中,公寓月租金的值缺失,则利用同插补类中正确填报租金的问卷计算其平均值 比率或回归插补是使用辅助信息及其它记录中的有效回答建立一个比率或回归模型,确定性插补法 (热平台插补),热平台插补是使用同一插补类中的供者记录的信息来代替一个相似的受者记录中缺失的或不一致数据的插补方法,热平台插补分为序贯热平台插补和随机热平台插补。 序贯热平台插补就是用这个序列需要插补数据前面某一个有效的回答单元的数据来代替缺失的数值,如果每次都使用相同的排序及选取方法,就是确定性的序贯热平台法;而随机热平台插补,供者是在插补类中随机选出的 优点:因为供者与受者具有相似的特征,因此插补出的数值

25、应相当准确 缺点:序贯热平台插补经常导致同一个供者的多次使用,从而降低抽样误差;有时很难找到一个合适的供者,热平台插补 (例子),我们希望插补被调查者的吸烟状况。有三种可能的回答:吸烟、不吸烟及以前吸过但现在已戒烟。要找到一个相似的供者记录,我们基于年龄段和性别产生插补类(因为我们认为吸烟状况和一个人的年龄和性别有关)。假设要作插补处理的记录是女性,在1524这个年龄组中。要找到一组供者,我们看所有在同一年龄组的女性被调查者(她们回答了各自的吸烟状况)。要从这一组中选择一供者,可以随机地选择一个(随机热平台法)或者按某种顺序的供者清单,从中选一个(序贯热平台法),确定性插补法,冷平台插补与热平

26、台插补不同之处在于热平台插补使用当前调查的供者,而冷平台插补则使用前期的或普查中的供者资料。 最近邻插补象热平台插补一样,也是基于匹配变量选择一个供者记录。但是,用这种方法,目的不是非要找出一个和受者记录在匹配变量上完全相同的供者记录,而是插补类中按匹配变量找到和受者记录最接近的供者记录即找到距离最近的值,插补中的技术问题,确定哪些值需要插补:我们并不主张对所有审核失效的数据都进行插补,应该通过变更尽可能少的数据项,以使每条记录都满足审核规则的要求。 例如,假设某份问卷中关于一位被调查者的背景资料是:受教育程度(大学),婚姻状况(已婚),性别(女),年龄10岁。显然这条记录中,年龄与婚姻状况、

27、年龄与受教育程度是不符合审核规则的。为了纠正审核失效,可以同时调整婚姻状况和受教育程度,也可以只对年龄作调整。我们倾向后者,插补中的技术问题,怎样为受者找到供者记录: 选择匹配变量时必须注意要使匹配变量与插补类中需要插补的变量密切相关。然后再用这些匹配变量去查找供者记录 一个供者记录能用来插补一个以上的受者记录吗? 如果几个受者记录都由同一个供者记录来插补,对最终调查估计产生较大的偏倚,插补中的技术问题,某个受者记录中的所有字段都应该用一个供者来插补? 如果用同一个记录中的所有字段进行插补能保持变量的联合分布,则用同一个供者来插补某个受者记录中的所有字段。例如,在一项劳动力调查中,如果职业和个

28、人收入都需要进行插补,那么根据相同的供者记录来插补受者记录中的这两个缺失或无效数据就具有明显的优点,因为这两个变量之间存在相互关系 如果有很多变量需要插补,对插补一个字段合适的匹配变量,对另一个字段可能不合适,特别是当与需要插补的变量无关的时候。考虑一项多目的的健康调查,在这项调查中,被调查者的身高和每天的吸烟量是需要插补的两个变量。在这种情况下,每个需要插补的变量用一组不同的匹配变量就比较合适,离群值的检测,看起来与数据集中的其它观测值不一致的观测值 离群值的检测方法,离群值的检测,离群值的检测方法,如果数据成群偏在一边,样本均值就会偏向离群值,样本方差也会 由于离群值而显著增长,此时可用四

29、分位数法。用中位数度量数据 的集中趋势、四分位数间距度量数据的离散程度,离群值的处理,在手工审核系统中,对离群值进行检查,如果确认是错误,就要回访并校正 在自动审核系统中,离群值经常要进行插补处理 在审核时没有进行处理的离群值可以在估计的时候处理 简单地忽略未经处理的离群值会影响估计的效果,并导致估计量的方差增大;给离群值赋予1或0的权数估计结果发生偏倚,离群值处理的方法,改变数值 处理极值的一种方法是缩尾化 2. 调整权数 降低离群值的权数使它们的影响变小 3. 使用稳建估计量 经典的估计理论中,假定估计量服从正态分布,样本均值和方差估计量在正态性假定下最优。但是,这些估计量对离群值非常敏感。稳健估计量则能克服这种局限性,因为它对分布的假定不太敏感。,本章小结,数据来源 调查设计 数据审核与插补,结 束,THANKS,第二章 统计数据的搜集,

展开阅读全文
相关资源
猜你喜欢
相关搜索

当前位置:首页 > 其他


经营许可证编号:宁ICP备18001539号-1