数据的收集整理与显示.ppt

上传人:本田雅阁 文档编号:3185432 上传时间:2019-07-22 格式:PPT 页数:63 大小:863.51KB
返回 下载 相关 举报
数据的收集整理与显示.ppt_第1页
第1页 / 共63页
数据的收集整理与显示.ppt_第2页
第2页 / 共63页
数据的收集整理与显示.ppt_第3页
第3页 / 共63页
数据的收集整理与显示.ppt_第4页
第4页 / 共63页
数据的收集整理与显示.ppt_第5页
第5页 / 共63页
点击查看更多>>
资源描述

《数据的收集整理与显示.ppt》由会员分享,可在线阅读,更多相关《数据的收集整理与显示.ppt(63页珍藏版)》请在三一文库上搜索。

1、,2.1 数据的收集 2.2 数据的整理 2.3 数据的显示,主要内容,目录,第2章 数据收集、整理和显示,数据的概念,生活中数据例子 数据定义 人们对现象进行调查研究所收集、整理、分析和解释的事实和数字,是对客观现象进行计量的结果 数据对社会生活的重要性,数据的计量尺度,(一)定类尺度(Nominal scale) 定类尺度也称列名尺度,它是最粗略、计量层次最低的计量尺度,它上按照事物的某种属性对其进行平行的分类或分组。 (二)定序尺度(Ordinal scale) 定序尺度也称顺序尺度,它是事物之间等级差或顺序差别的一种测度。 与定类尺度相比较,定序尺度能够比较这些类别的优劣。,(三)定距

2、尺度 (Interval scale) 定距尺度也称间隔尺度,它不仅能将事物分为不同类型并进行排序,而且可以准确地指出类别之间的差距是多少。 与定序尺度相比较,定距尺度可以准确的指出类别间的差距使多少。 (四)定比尺度(Ratio scale) 定比尺度也称比率尺度,它与定距尺度属于同一层次,其计量的结果也表示为数值。 与定距尺度相比较,定比尺度有绝对固定的零点。,下列计量属于哪类?,民族 长度 考试成绩 政治观点 重量 月工资 种子等级 湿度,数据的类型1,(一)品质数据(Qualitative data) 它是说明事物的品质特征,是不能用数值表示的,其结果通常为类别,这类数据是由定类尺度和

3、定序尺度计量形成的。 (二)数量数据(Quantitative data ) 它说明的是现象的数量特征,是能够用数值来表现的,这类数据是由定距尺度和定比尺度计量形成的。,数据类型2,横截面数据和时间序列数据 观察数据和实验数据 直接数据和间接数据,统计调查的意义和组织形式,一、调查组织方式,统计调查,二、调查方案设计,报表制度,普 查,重点调查,典型调查,抽样调查,方案内容,调查表、问卷设计,制度化的 经常性调查,专门组织 调查,全面调查,非全面调查,普 查,特点:,工作量大,时间性强,需要大量人力和财力。,任务:,搜集重要的国情国力和资源状况的全面资料,为政府制定规划、方针政策提供依据。,方

4、式:,建立专门机构,配备专门人员调查。,利用基层单位原始记录和核算资料发表调查。,原则:,规定统一的标准时点。,规定统一的普查期限。,规定调查的项目和指标。,统计报表制度,由政府部门组织,采用统一的表格,自上而下布置,自下而上报告。,任务:,搜集国民经济和社会发展基本情况的资料,为制订国民经济和社会发展计划和检查计划执行情况服务。,优点:,1. 精心周密设计、高度统一、规范。 2. 回收率高,内容相对稳定,便于资料积累、对比。 3. 层层上报、逐级汇总,可以满足各部门需要。,特点:,抽样调查,特点:,1. 按随机原则从总体中抽取样本;,2. 以样本指标(统计量)为依据推断总体参数 或检验总体的

5、某种假设;,3. 抽样误差可以事先计算并加以控制。,调查误差,登记性误差,代表性误差,编 差,随机误差,抽样平均误差,实际误差,统计推断中的抽样误差就是抽样平均误差。它是统计调查所固有的,是对抽样推断精确度的量度。,重点调查,特点:,在总体中选择个别或部分重点单位进行调查。,任务:,及时了解总体基本情况,为主管部门指导工作服务。,方式:,一次性调查:专门设计和配备人员现场调查。,重点单位指在总体中有举足轻重地位的单位,其标志值在总体标志总量中占有绝大比重。,经常性调查:同报表制度结合,用统计报表调查。,典型调查,特点:,在全面分析的基础上,有意识地选择代表性的典型单位进行现场调查。,任务:,为

6、研究某种特殊的社会经济问题,搜集详细的第一手资料,借以认识事物的本质特征、因果关系、变化趋势。为理论和政策性问题研究提供依据。,作用:,适宜于研究处于萌芽状态事物和倾向性问题;,适宜于分析事物的类型,它们之间的差别和关系。,方法:,解剖麻雀;划类选典;抓两头。,统计调查方案,调查方案的主要内容,1. 确定调查目的,2. 确定调查对象和调查单位,3. 拟订调查提纲,4. 确定调查时间,5. 编制调查的组织计划,调查目的是调查所要达到的具体目标,它回答的是:为什么调查?要解决什么样的问题? 调查具有什么样的社会经济意义?,调查目的的写作应简明扼要。,例如:我国人口普查的目的是“为准确地查清我国在

7、人口数量、地区分布、构成和素质方面的变化,为 科学地制定国民经济和社会发展战略与规划,统一 安排人民的物质和文化生活,检查人口政策执行情 况,提供可靠的资料”。,调查目的,调查对象是根据调查目的 确定的调查研究的总体或 调查范围。,调查单位是构成调查对象的 每一个单位,是搜集数据资 料的基本单位。,调查对象和调查单位所解决的问题是:,向谁调查?,由谁来提供所需资料?,例如:人口普查的调查对象是具有中华人民共和国国籍并 在中华人民共和国境内常住的人。 人口普查的调查单位是每一个人。,注意:调查单位与填报单位的区别。,调查对象和调查单位,它可以是调查单位的数量特征, 如一个人的年龄、收入,一个 企

8、业的职工人数、产值;,调查表是用于登记调查数据的一种表格,一般由 表头、表体和表外附加三部分组成。,调查项目是调查的具体内容,也可以是调查单位的某种属 性特征,如一个人的性别、 职业,一个企业的经济类型等。,调查项目和调查表,为确保调查资料的准确性,统计调查必须规定这两种时间,是调查资料所属的时间。 即规定所调查的是哪个 时期或时点的资料。,是进行调查工作的期限。 即从调查工作开始到结 束的时间长度。,例如:第四次人口普查规定的标准时间是“1990年 7月1日0时”,并要求在“1990年7月1日至10日 完成普查的登记工作”。,1990年7月1日0时就是调查时间, 1990年7月1日至10日就

9、是调查期限。,调查时间:,调查期限:,调查时间和期限,调查的组织 工 作,这项内容包括的比较多,如调查机构的确定, 调查人员的选择、培训,调查经费的来源和支 出预算,以及其它一些调查工作的准备等。,调查问卷设计,调查表,单一表,一览表,例:工业企业统计报表,问卷结构:说明词 + 主题词句 + 作业记录,例:人口普查登记表,问卷 设计,基本要求:,主题明确,形式简明, 文字通俗,容易理解, 便于回答。词句编排, 层次分明,先易后难。,问卷形式:,自由回答式词句 两项选择式词句 多项选择式词句 赋值评价式词句,尊敬的先生、女士: 我们是上海学院的学生。为了积极参与贯彻国家关于扩大内需推动经济增长的

10、方针和理论与实践相结合的教育原则,在老师指导下我们组织了这次千户居民的社会调查。请您给予支持。调查不记名,全部资料用计算机处理,绝对保密和安全,您只需在符合您的情况的答案上打个勾,化费几分钟时间。谢谢!,返回,下页,上海市城市居民消费与投资倾向调查问卷,(1)您家是否已经拥有下列耐用家电设备: 1. 彩电 2. 组合音箱 3. VCD(DVD) 4. 冰箱 5. 空调 6. 电脑 (2)您家的住房是: 1. 租赁公房 2. 有产权公房 3. 新商品房 4. 其他(请注明) (3)您家今明两年是否准备以下项目支出: 1. 购买家电设备 2. 购买成套家具 3. 购买汽车 4. 购买(或置换)房屋

11、 5. 现有住房装修 6. 支付子女教育费 7. 国内或国际旅游,返回,下页,上页,(4)您今明两年不准备上列大项目支出的主要 原因是:(选填3项) 1. 没有必要 2. 经济不宽裕 3. 品牌不中意 4. 质量信不过 5. 售后服务差 6. 价格不合理 7. 其他(请注明) (5)您购买商品考虑的主要因素是: 1. 实用价值 2. 商品质量 3. 价格 4. 品牌 5. 售后服务 (请按您认为的重要性在中写上位序),返回,下页,上页,(6)您家平均每月总收入是: 1. 500元以下 2. 5001000元 3. 10001500元 4. 15002000元 5. 20003000元 6. 3

12、0005000元 7. 50008000元 8. 8000元以上 (7)您家平均每月日常生活费开支是 元, 其中用于吃(食品)支出大约是 元。 (8)您认为您家近几年生活水平是: 1. 提高很多 2. 略有提高 3. 没有变化 4. 略有下降 5. 下降很多,返回,下页,上页,(9)您收入节余用于以下哪些项目?各项约占多大比重? 1. 银行储蓄 ( )% 3. 国债(国库卷) ( )% 3. 基金 ( )% 4. 其他债券 ( )% 5. 股票 ( )% 6. 保险 ( )% 7. 其他 ( )% (10)您存钱的主要目的是: 1. 购买设备 2. 购买住房 3. 结婚 4. 子女教育 5.

13、养老防病 6. 旅游 (请按你认为的重要性在中写位序),返回,下页,上页,(11)您是否了解现在推行的信贷消费 1. 不了解 2. 了解一点 3. 了解 4. 很了解 (12)您是否打算参加信贷消费: 1. 是 2. 不 (跳过第13题) (13)您信贷消费的项目是( ) 1. 购买家电设备 2. 购买成套家具 3. 购买汽车 4. 购买(或置换)房屋 5. 现有住房装修 6. 支付子女教育费 7. 国内或国际旅游,返回,下页,上页,(14)您是否同意下列看法: 很同无不很 同意所同不 意 谓意同 意 1. 信贷消费不合中国国情 2. 信贷消费是资本主义国家的做法 3. 信贷消费是先甜后苦 4

14、. 借债享受有风险 5. 借债消费不光彩 6. 信贷消费是现代通行的做法 7. 只要量力借贷,有利无害 8. 发展信贷消费能促进经济增长,返回,下页,上页,(15)最后,了解一下您的基本情况: A. 您的性别: 1. 男 2. 女 B. 您的年龄: 周岁 C. 您的文化程度: 1. 不识字或识字不多 2. 小学 3. 初中 4. 高中或中专 5. 大专或大学以上 D. 您家庭人口数 人 其中:1. 在业 人; 2. 离退休 人; 3. 失业、下岗 人 4.在校学生 人。 E. 您的职业 (见卡片) F. 职务,返回,上页,统计调查设计(课后任务),调查主题:学校周边地区大家比较熟悉的某种产品或

15、服务:服饰店、网吧、书店 每组人数3-5人 设计方案、设计问卷、组织调查、结果分析 调查期限即日起至10月31号前 提交纸质版(A4打印),3.1 统计整理的意义和方法 3.2 统计分组 3.3 分布数列 3.4 统计表 3.5 统计图,主要内容,目录,统计整理,主要任务,资料审核、分组、汇总、制表、制图等。,分组,频数分布,统计表,统计图,统计整理的意义和方法,统计调查搜集上来的资料,不论是哪一种类型的资料都必须经过整理才能进一步进行分析。资料的类型不同,研究的目的不同,资料整理的方法也不同。 统计整理是根据统计研究任务的要求,对调查所搜集到的原始资料进行分组、汇总,使其条理化、系统化的工作

16、过程。,统计整理的意义和方法,根据某班40名学生统计学考试成绩分析该班学生考试情况。 57 89 49 84 86 87 75 73 72 68 75 82 97 81 67 81 54 79 87 95 76 71 60 90 65 76 72 70 86 85 89 89 64 57 83 81 78 87 72 61,按成绩等级分组 人数(人) 各组人数占 总人数比重(%) 不及格 4 10.0 及 格 6 15.0 中 12 30.0 良 15 37.5 优 3 7.5 合 计 40 100.0,再如:通过调查取得100个商业企业某月销售额资料:(单位:万元) 20,60,45,90,

17、105,56,250,89,130,30,98,300。 将这些数据资料按“销售额”的多少进行整理,得到下列整理结果:,统计整理的方法:分组、汇总、编表,统计分组,分组前,分组后,25,33,42,1. 划分现象类型,作用:,例: 按所有制性质划分,我国现有8种经济类型: 国有经济;集体经济;私营经济;个体经济;联营经济;股份制经济;外商投资经济;港澳台投资经济,2. 研究总体结构,例:上海市按GDP计算的三次产业结构(%) 1980年 1990年 1996年 1997年 GDP 100 100 100 100 第一产业 3.2 4.3 2.5 2.3 第二产业 75.7 63.8 54.5

18、52.2 第三产业 21.1 31.9 43.0 45.5,3. 研究现象之间的依存关系,例:中国农民家庭按收入分组的恩格尔系数(1984年),按收入分组(元) 200 300 400 500 600 800 1000 恩格尔系数(%) 64.9 60.2 56.7 54.4 50.5 49.9 43.6,统计分组的含义和种类,统计分组:,根据研究任务的要求和现象总体的内在特点, 把统计总体按照某一标志划分为若干性质不 同又有联系的几个部分。,统计分组应 达到的要求,同一组内的单位性质相同,不 同组所包括的单位性质相异。,例如:,工业企业按经济类型分组,可分为以下几组: 经济类型 企业数(个)

19、 国有企业 1000 合资企业 200 合作经营企业 300 股份制企业 500,工业企业按职工人数分组,可分为以下几组: 职工人数 企业数(个) 500人以下 50 5001000 200 10001500 100,工业企业按地区分组,可分为以下几组: 地区 企业数(个) 北京市 10000 天津市 8000 上海市 11000,分组标志的选择,选择什么样的分组标志,就会形成什么样的分组结果, 因此,分组标志的选择是统计分组的关键。,选择分组标志的一般原则,必须根据统计研究的目的,在对现象进行分析的基础上 ,抓住具有本质性的区别及反映现象内在联系的标志来 作为分组标志。,统 计 分 组 的

20、种 类,按研究任务和作用不同,按分组标志的多少不同,按分组标志的性质不同,类型分组 结构分组 分析分组,简单分组 复合分组,品质分组 变量分组,品质 分组 方法,变量 分组 方法,以一个变量值代表一组。如:人口按年龄分 组1岁一组,学生按报考科目分组等。这种 分组适用于离散性变量,且变量值的个数较 少的情况。,以变量值变动的一个区间作为一组,区间的 距离称为组距。适用于连续型变量和离散型 变量的变量值较多的情况。,按品质标志对资料进行分组。这种分组有些比较简单, 有些非常复杂,复杂的品质分组称为分类。如:人口 按性别分组、按职业分组、企业按经济类型分组、等。,单项式 分 组,组距式 分 组,三

21、、统计分组方法,等距分组:,各组组距均相等。如: 1020 2030 3040 以上各组组距均为10。 这种分组适用于均匀分布的总体。,不等距 分 组,各组组距不一定相等。如: 1020 2050 5060 6070 以上分组中,其中第二组与其它各组的组距不同。这种分组适用于资料分布离差较大或者是为了满足特殊的研究目的的需要。,在进行组距分组时,会涉及到一些 问题,包括:等距分组和不等距分 组、组限、组中值。,组限,组限就是每一组两端的数值。 10 20 20 30 30 40,下限,上限,确定组限的方法有两种:间断式确定组限和重叠式确定组限。,职工人数(人) 99以下 100199 2002

22、99 300399,固定资产额(万元) 5060 6070 7080 8090,间断式确定组限 适用于离散变量,重叠式确定组限 适用于连续变量,第三章 统计整理,组中值,每组上限与下限之间的中点数值,是各组的假定平均数。,组中值 = (上限值+下限值)2,开口组组中值的计算: 缺下限:组中值=本组上限 (相邻组组距/2) 缺上限:组中值=本组下限+ (相邻组组距/2),例如:,产值(万元),50以下 50 60 60 70 70以上,第一组组中值:,50(102)= 45,最后一组组中值:,70+(102)= 75,频数分布(分布数列),分布数列是一种重要的分组资料,反映总体单位在各组的分布状

23、态。,分组,单位数,频率,合计,100,频数分布,频率分布,频率:各组的频率大于0,各组的频率总和等于1或100%。,(二)分配数列的种类,分配数列是在分组的基础上形成的,根据分组时采用的分 组标志不同,分配数列可分为:,品质分配数列,变量分配数列,单项式分配数列,组距分配数列,等距数列,不等距数列,分配数列,(这种数列一般比较稳定,只要分组 标准定的比较恰当,通常能准确地反 映总体的分布特征。),(三)分 配 数 列 的 编 制,1、品质分配数列的编制:,只需将品质标志的表现一一排列出来,然后汇总 出每一种标志表现出现的次数即可。如下例:,100,250,合 计,40 32 20 8,100

24、 80 50 20,国有企业 股份制企业 合资企业 独资企业,比重(%),企 业 数,经济类型,2、变量分配数列的编制:,其基本步骤为: 第一步:将原始资料按数值大小依次排列。 第二步:确定变量的类型和分组方法(单 项式分组或组距分组)。 第三步:确定组数和组距。当组数确定后, 组距可计算得到: 组距 = 全距组数 全距 = 最大变量值最小变量值,第四步:确定组限。 注意:第一组的下限要小于或等于最小变量值,最后一组的上限要大于最大变量值。) 第五步:汇总出各组的单位数,计算频率,并编制统计表。,间断式确定组限:汇总各组单位数时,按照“上下限均 包括在本组内”的原则汇总。,职工人数(人) 49

25、9以下 500 599 600 699 700 799,重叠式确定组限:汇总各组单位数时,按照“上组限不在 内”的原则汇总。,产值(万元) 50 60 60 70 70 80 80 90,单位数(个),单位数(个),因为有了“上组限不在内”的原则,实际工作中,对 于离散型变量也经常采用重叠式确定组限的方法。,3、累计频数或频率分配数列的编制方法,通过累计频数分配数列可以反映累计到某一组出现的总次 数或总频率。想一想:第四组的累计结果说明什么问题?,2,7,21,52,117,169,192,200,1.0,3.5,10.5,26.0,58.5,84.5,96.0,100,8,31,83,148

26、,179,193,198,200,4.0,15.5,41.5,74.0,89.5,96.5,99.0,100,统计表,构成,总 表 题,横行标题:统计研究的对象,也称主词。,纵栏标题:说明主词的指标名称,也称宾词。,数字资料,分类,主词,简单表,分组表,复合表,宾词,平行形式,交叉形式,某厂职工人数统计表,按性别分组,男 职 工,女 职 工,合 计,人数(人),(频数),比率(),(频率),253,115,368,68.75,31.25,100.00,返回,某厂职工家庭人口分组统计,按家庭人口分组,1,合 计,职工户数,(频数),比率(),(频率),7,返回,2,3,4,5,6,38,105,

27、54,31,20,2.9,15.2,41.3,20.5,12.1,8.0,255,100,某厂职工人数统计表,按人数分组,510,1116,合 计,人数(人),(频数),比率(),(频率),5,12,3,25.0,51.0,4.0,返回,1722,20,100,上海市总人口数(19801991),年 份,1980,年末总人口,1146.52,返回,年 份,年末总人口,1981,1982,1983,1984,1985,1986,1987,1988,1989,1991,1990,1162.84,1180.51,1194.01,1204.78,1216.69,1232.33,1249.51,1262

28、.42,1276.45,1283.35,1287.20,统计图,直方图,等距数列:(变量,频数),异距数列:(变量,频数密度),折线图,曲线图,等距数列:(组中值,频数),异距数列:(组中值,频数密度),单项数列:(变量,频数),向上累计分布:(变量上限,累计频数),向下累计分布:(变量下限,累计频数),变量的组数无限增多时,折线便趋于一条光滑的曲线。,图形,返回,一、判 断 对 错,1、对统计资料进行分组的目的就是为了区分各组单位之间质 的不同。( ),2、组中值是根据各组上限和下限计算的平均值,所以它代表 了各组的平均分配次数。( ),3、分配数列的实质是把总体单位总量按照总体所分的组进行

29、 分配。( ),4、某企业职工按文化程度分组形成的分配数列是一个单项式 分配数列。( ),5、对资料进行组距式分组,是假定变量值在各组内部的分布 是均匀的,所以这种分组会使资料的真实性受到损害。( ),6、任何一个分布都必须满足:各组的频率大于0,各组的频数 总和等于1或100%( ),7、统计分组后掩盖了各组内部各单位的差异,而突出了各组 之间单位的差异。( ),二、单 项 选 择 题,1、统计整理的关键是( ) A、对调查资料进行审核 B、对调查资料进行统计分组 C、对调查资料进行汇总 D、编制统计表,2、下列分组中属于按品质标志分组的是( ) A、学生按考试分数分组 B、产品按品种分组

30、C、企业按计划完成程度分组 D、家庭按年收入分组,3、有一个学生考试成绩为80分,在统计分组中,这个变量值 应归到( )组。 A、6070分 B、7080分 C、8090分 D、90100分,C,4、某主管局将下属企业先按轻、重工业分组,再按规模分组, 这种分组属于( )分组。 A、简单分组 B、复合分组 C、分析分组 D、结构分组,三、多项选择题部分,2、在次数分配数列中( ) A、总次数一定,频数和频率成反比 B、各组的频数之和等于100 C、各组频率大于零,频率之和等于1 D、频率越小,则组的标志值所起的作用越小 E、频率表明各组标志值对总体的相对作用程度,、品质分配数列 、变量分配数列 、组距式变量分配数列 、等距变量分配数列 、次数分配数列,

展开阅读全文
相关资源
猜你喜欢
相关搜索

当前位置:首页 > 其他


经营许可证编号:宁ICP备18001539号-1