统计数据整理.ppt

上传人:rrsccc 文档编号:8850131 上传时间:2021-01-19 格式:PPT 页数:66 大小:308KB
返回 下载 相关 举报
统计数据整理.ppt_第1页
第1页 / 共66页
统计数据整理.ppt_第2页
第2页 / 共66页
统计数据整理.ppt_第3页
第3页 / 共66页
统计数据整理.ppt_第4页
第4页 / 共66页
统计数据整理.ppt_第5页
第5页 / 共66页
点击查看更多>>
资源描述

《统计数据整理.ppt》由会员分享,可在线阅读,更多相关《统计数据整理.ppt(66页珍藏版)》请在三一文库上搜索。

1、第四章 统计数据的整理,第一节 统计整理概述 一、统计整理概念 统计数据的整理(summarizing data)是指对所搜集的数据进行加工整理、使之系统化、条理化,以符合分析的需要。 包括对原始资料的整理和次级资料的整理 统计资料的整理是实现从个体单位标志值过渡到总体数量特征值的必经阶段,是统计分析的前提。,二、统计整理的程序,(一)设计统计整理方案 (二)对统计资料进行审核 (三)统计资料的分组与汇总 (四)编制统计图表 (五)统计资料的积累和保管,统计资料具体整理过程,统计数据的具体整理过程主要包括包 括数据的预处理、分类或分组、汇总等几 个方面。 一、数据的预处理 主要包括:数据的审核

2、、筛选、排队 (一)、数据的审核与筛选,(一)、数据的审核与筛选,审核: 对第一手资料(直接调查或试验取得):审核其完整性与准确性 完整性审核:应调查的单位或个体是否有遗漏;所调查的项目是否填齐全。 准确性审核:内容是否符合实际;计算是否正确。,对第二手资料(获取他人的资料):审核其完整性、准确性、适用性、时效性 筛选: 调查结束后,当对数据中发现的错误不能予以纠正,或者有些数据不符合调查的要求而又无法弥补时,就需要对数据进行筛选。 筛选包括:剔除不符合要求的数据或有明显错误的数据;将符合特定条件的数据筛选出来。,(二)数据的排序,数据排序是按一定顺序将数据排列。 排序目的:通过浏览数据发现一

3、些明显的特征趋势或解决问题的线索;有助于数据的检查纠错。 排序方式:数字型数据/字母型数据 :升序或降序; 汉字型数据:多种顺序 , 比如:拼音字母顺序或笔划顺序 。,第二节 统计分组,一统计分组的概念与种类 1、统计分组的概念 统计分组是将预处理过的数据按照某 种标志(特征或标准)分成不同性质的组。 统计分组标志:分组时所依据的特征 或标准,有品质标志和数量标志。,统计分组对总体而言是分,对于单位而言是合。由此可见,选择一种分组方法,突出一种差异,显示了一种矛盾,同时必然掩盖了其他差异。不同的分组方法,可能得出不同的结论。,、统计分组的原则 穷尽性原则 互斥性原则,、统计分组的种类,(1)按

4、分组标志的多少,分为简单分组和复合分组。 (2)按分组标志的性质不同,分为品质标志分组(或称属性分组)和数量标志分组(或称变量分组) (3)按分组的作用和任务的不同,分为类型分组、结构分组和分析分组。,二统计分组的方法,1、品质标志的分组方法 关键是确定分组标志。一般比较简单,主要采用统一的分类标准。品质标志划分各组界限一般取决于统计分析对各组粗细的要求。但也要注意变异间的过度形态,是组限不易划分。例城乡划分。 2、数量标志的分组方法 关键是确定分组标志和确定分组界限。,分组数列的种类:,分组数列,离散型,连续型,单项式,组距式,等距数列,异距数列,等距数列,异距数列,2、数量标志的分组方法,

5、(1)单项式分组与组距式分组 单项式分组适用于离散型变量且变量变动范围不大的场合。比如育龄妇女按其生育子女存活数分组。 组距式分组适合于连续型变量或者变动范围较大的离散型变量。,(2)间断组距式分组和连续组距式分组,如果变量值只是在整数间变动,可采用间断组距式分组,也可采用连续组距式分组。比如企业数、职工人数等。 如果变量值在一定范围内的表现既可以是整数,也可以是小数,只能采用连续组距式分组。比如产值、身高、体重。 注意:“上限不在内”原则的应用。,(3)等距分组与异距分组,等距分组适用: 标志值变动比较均匀的情况。 异距分组适用: 标志值分布很不均匀的场合; 标志值相等的量具有不同意义的场合

6、; 标志值按一定的比例发展变化的场合。,(4)组距、组数、组限与组中值的计算,组距=上限-下限= 本组上限-前组上限 =本组下限-前组下限 组数的确定: 经验上以520之间为好,尤其注意不要确定太多的组数,使得每组包含的数据太少。,组数的确定:,实际分组时常按斯特格斯(Sturges) 提出的经验公式来确定组数K: 组中值计算: 组中值=(上限+下限)/2,一、频数分布的基本概念 (一)频数:对分组后的数据,计算各组中数据出现的次数叫频数。 (二)分布数列的两个要素 一个是总体按某种标志所分的组,另一个是各组对应所出现的次数。,预处理数据,分组,计算频数,描述统计,第三节 频数分布, 频数分布

7、或次数分布(Frequency distribution):全部数据按其分组标志在各组内的分布状况。 分布在各组内的数据个数称为频数或次数。 A frequency distribution is a tabular summary of a set of data showing the frequency (or number) of items in each of several nonoverlapping classes.,相对频数(Relative frequency)/频率/比重,:各组频数与全部频数之和的比值。 The relative frequency of a clas

8、s is the proportion of the total number of data items belonging to the class.(=Frequency of the class/n) 百分数频数(Percentage frequency):is the relative frequency multiplied by 100.,二、 分配数列的编制 (一)、品质数据的分组与频数分布 例1:50个计算机购买者所购买的不同品牌的机型数据,分组与求频数 : Table, Frequency Distribution/Relative and Percentage Frequ

9、ency of Computer Purchases Company Frequency Relative Percentage Frequency Frequency Apple 13 0.26 26 Compaq 12 0.24 24 Gatewy2000 5 0.10 10 IBM 9 0.18 18 Packard Bell 11 0.22 22 Total 50 1.00 100 The objective in developing a frequency distribution is to provide insights about the data that cannot

10、be quickly obtained by looking only at the original data.,(二)、数值数据的分组与频数分布 对数值数据(或按数值标志)分组时,可先将数据进行排序,然后根据需要分组;对较少的数据也可不排序直接根据需要分组。 分组计频基本步骤: 确定组数 确定组距 (按组)整理成分布频数表,例2:一会计事务所对其20家客户(clients)年底帐目辑核(audits)时间(天)统计如下表: Table Year-End Audit Times(in days) 12 14 19 18 15 15 18 17 20 27 22 23 22 21 33 28

11、14 18 16 13,第一步,确定组数(Number of classes)。组数的确定一般视数据本身的特点及数据的多少而定。 按照前面所提,可采用斯特格斯(Sturges)提出的经验公式来确定组数K: 其中N为数据的个数(总体单位数或样本数),一般对结果取整数。例2中K=5。,第二步,确定组距(Width of classes):组距是一个组的上限与下限之差,可根据全部数据的最大值和最小值及所分的组数来确定: 组距=(最大值 - 最小值)/组数 例2中,组距=(33-12)/5=4.2,可取整数5为最后选定的组距。 第三步,确定各组组限(Class limits)并据此整理频数分布表。,注

12、意: 1、分组所遵循的主要原则是“不重不漏”(each data value belongs to one class and only one class)。因此, 首先,最低组限(The lower class limit)应等于或小于数据的最小值,最大组限(The upper class limit)应等于或大于数据的最大值; 其次,对数据在每组中的归属习惯上采用“上组限不在内”。,注意:,最后,确定组限应遵循的原则: 一是各组组限应将总体中事物质的差异区分开来。 二是按所确定的组限编制的变量数列应能真实地反映总体内部分布的特征。,注意:,3、对离散型数据,可采用相邻两组组限间断的办法解

13、决“不重”的问题(如610,1115,1620等); 对连续型数据,往往采用相邻两组组限重叠,根据“上限不在内原则”解决“不重”问题(如510,1015,1520等)。,例2是离散型数据(天),采用组限间断方法,因此可得频数分布表如下: Table, Frequency distribution, relative frequency and percent frequency distribution for the audit-time data Audit Frequency Relative Percent Time(days) Frequency Frequency 1014 4 0

14、.20 20 1519 8 0.40 40 2024 5 0.25 25 2529 2 0.10 10 3034 1 0.05 5 Total 20 1.00 100,注意: 1、在最大值与最小值与其他数据相差悬殊时,为避免空白组出现,第一组和最后一组可采用“XX以下”及“XX以上”这样的开口组; 2、在组距分组时,如果各组组距相等则称为等距分组,否则为不等距分组。 不等距分组各组的频数受组距大小不同的影响,因此需要计算频数密度(=频数/组距),才能准确反映频数分布的实际; 3、有时为了统计需要,需进一步计算累积频数(某数值以上或以下的频之数和)。,三、累计频数和累计频率,累计频数(频率)有向

15、上累计和向下累计。 例3 某班学生统计学考试成绩 考分 频数 频率 向上累计 向下累计 频数 频率% 频数 频率 % 5060 2 5.0 2 5.0 40 100.0 6070 7 17.5 9 22.5 38 95.0 7080 11 27.5 20 50.0 31 77.5 8090 12 30.0 32 80.0 20 50.0 90100 8 20.0 40 100.0 8 20.0,四、次数分布的图示 品质数据往往使用条形图(Bar graphs)和饼状图(Pie Charts); 数值数据往往使用直方图(Histograms)、折线图(Polygon)、茎叶图(Stem-and-

16、leaf display) 。 Fig1, Bar Graph of Computer Purchases,(一)、直方图和折线图 1、直方图是用距形的宽度和高度来表示频数分布的图形(以横轴表示数据分组,纵轴表示频数或频率)。 注意: 1)、对于等距分组的数据,可用距形的高度直接表示频数的分布;对于不等距分组的数据,用距形的面积(而不是高度)表示各组的频数分布。,2)、从本质上说,直方图应用频数密度来绘制,这样可使直方图总面积为1。Fig 2, Histogram for the Audit-Time Data,10 8 6 4 2 10 15 20 25 30 35,2、折线图:也称频数多边

17、形图(polygon),它是将直方图顶部的中点(即组中值)用直线连接起来而成的图形。 Fig 3, Frequency Polygon for the Audit-Time Data,10 8 6 4 2 10 15 20 25 30 35,注意: 1)、折线图的两个终点要与横轴相交(将第一个矩形顶部中点通过左竖边中点连接到横轴;将最后一个矩形顶部中点与其右竖边中点连接到横轴)。 2)、折线图下所围成的面积与直方图面积相等(为1),从而使二者表示的频率分布是一致的。,折线图也可用于表示累计频数分布,称为累计频数分布折线图。它是根据累计频数绘制而成的,有向上累计和向下累计两种图形。,100100

18、,(二 )茎叶图 茎叶图是一种既给出数据的分布状况,又能显示每一个原始数值的图形。 A stem-and-leaf display can be used to rank order data and provide an idea of the shape of the distribution of a set of quantitative data.,茎叶图由两部分组成: 茎(stem)与叶(leaf),茎:通常由每组数的高位数值(leading digits)形成,按组竖立在左边; 叶:通常由每组数的低位数值(last digits)形成,按组横排在“茎”的右边。,Fig4是上述例中

19、会计公司对其20个客户年终财务审计所用时间的茎叶图,可知其对大多数客户的审计时间在1020天之间。,Fig 4, Stem-and-leaf display for the Audit-Time Data 1 2 3 4 4 5 5 6 7 8 8 8 9 2 0 1 2 2 3 7 8 3 3,上面茎叶显得过于拥挤,尤其是第一行有太多数,可将期扩展为Fig5的形式。 Fig 5, Stem-and-leaf display for the Audit-Time Data 1 2 3 4 4 1 5 5 6 7 8 8 8 9 2 0 1 2 2 3 2 7 8 3 3,可以看出,Fig5所表

20、现的数据分布特征与Fig3的直方图十分相似。但茎叶图有明显优势: 1. The stem-and-leaf display is easier to construct; 2. The stem-and-leaf display provides more information because it shows the actual data values.,五、频数分布的类型 日常经济生活中,常见的频数分布曲线主要有正态分布、偏态分布、J型分布、U型分布等几种类型(见下图)。其次还有双峰型、孤岛型及锯齿型等其他类型。,()正态分布,()偏态分布,正偏(右偏),负偏(左偏),正J型分布,反J

21、型分布,()U型分布,() J型分布,(e)孤岛型,(f)双峰型,(g)锯齿型,练习题:,40个学生的高等数学测验成绩如下(单位:分) 42 54 58 65 68 78 63 84 75 91 72 45 73 81 84 64 78 69 70 88 56 73 80 83 85 82 87 73 80 87 95 89 82 75 89 95 82 90 87 74 要求:1、对资料进行分组 2、描绘次数分布直方图折线图 3、描绘向上累计频率分布曲线图 4、用累计频率曲线求出超过学生人数25%的成绩区间,频数分布的应用: 例4:80年代初,我国工业企业推行全面质量管理,某床单厂厂长曾对其

22、生产的某种规格的床单进行抽检,并做了直方图。 按长度质量标准,合格的床单长度为215cm,容许误差为3cm。对所抽取的100条床单进行统计,发现最长的达265cm,最短的为214cm,分组后的频数分布表及直方图如下:,频数分布表 床单长度分组(cm) 床单数(条) 213218 5 218223 8 223228 16 228233 32 233238 17 238243 12 243248 5 248253 0 253258 1 258263 3 263258 1 Total 100,我一眼就看出来了,直方图,32 212 218 16 17 12 8 5 5 3 1 1 213 218 2

23、23 228 233 238 243 248 253 258 263 268,直方图呈孤岛型,说明: 1、本质上反映了两个总体,该两总体都遵从正态分布;其中95%的单位属一总体,5%的单位属另一总体。 2、根据长度质量标准,只有5%的床单在正常范围(在212218cm之间),而95%的床单均大于218cm,显然存在着对床单的长度“宁长毋短”的思想,因此造成浪费(上述100条床单总长度达233m,如果按照215cm的标准长度,可裁成108床,若按212cm长度可裁成110床)。,原因检查:,为了提高生产水平,增加经济效益,厂长深入到裁剪长度工序了解情况,发现: 床单的生产工序是在一大联匹布上,印

24、上印花,由一位老女工手工量测并用剪刀裁剪。 基本的做法是:双手拉着床单量两下,然后下剪。在裁剪工序还有两位女工,目测检查所裁床单是否有残次花色及其他疵点。,工作时,总以为手扯的长度可能会短,于是再目测一下,加一点长度再下剪;有时还会有一位检查残次的女工帮助裁剪,其误差更大,这就是“孤岛”产生的原因。 解决问题: 在没有使用机器裁剪的情况下,厂长会同车间管理者一道要求裁剪时按下述做法进行: 在保持用手扯两次,将要下剪时,将原来习惯上要下剪处用左手握拳,少裁一拳。 一拳大约有15cm,这样,原来下100条的床单料,此时几乎可多裁出8床床单。既提高了床单合格率,又提高了经济效益。,第四节 绝对数指标

25、,概念,总量指标是反映社会经济现象总规模、总水平的 总和指标。,作用,(1)反映国情、国力和企事业单位人、财、物 的状况;,(2)是国民经济宏观管理和企业经济核算的基础性指标,是实行目标管理的工具;,分类,按反映总体的内容分,按反映的时间状态分,(1)社会总产品, (2)增加值, (3)国内生产总值(GDP),按计量单位分,国民经济统计中几个重要的生产总量指标,标志总量 总体单位总数,时期总量 时点总量,实物量 劳动量 价值量,第五节 相对指标(相对数),概念 相对指标是两个有联系的指标对比的比值,反映事物的数量特征和数量关系。,作用 (1)反映总体内在的结构特征 (2)用于不同对象的比较评价

26、 (3)反映事物发展变化的过程和趋势,种类,计划完成相对数,结构相对数,比例相对数,比较相对数,强度相对数,动态相对数,六种相对数指标的比较,不同时期 比 较,动 态 相对数,强 度 相对数,不同现象 比较,不同总体 比较,比 较 相对数,同一总体中,部分与部分 比 较,部分与总体 比 较,实际与计划 比 较,比 例 相对数,结 构 相对数,计划完成 相对数,同一时期比较,同类现象比较,第六节 统计表和统计图,一、统计表的概念 将一系列说明总体特征的统计资料,按一定的次序和格式列在一份表上就是统计表 二、统计表的结构与种类 (一)统计表结构 从表的形式上看,由总标题、横行标题、纵栏标题和数字资

27、料构成。,总标题:是统计表的名称,它扼要地说明该表的基本内容,并指明时间和范围。放在表的上方。,横行标题:是横行的名称,主要是所研究问题的类别名称,一般放在表格的左方。 纵栏标题:是纵栏的名称,主要是所研究问题的指标名称,一般放在表格的上方。 指标数值:说明总体特征的各项指标值,它是统计表的核心内容。,从内容上看,统计表由主词栏和宾词栏两个部分组成。,主词:是指被研究的总体及其分组。 结合表的形式,也就是说主词实际就是横 行标题。 宾词:是说明总体特征的统计指标, 既包括统计指标的名称,也包括统计指标 的数值。 结合表的形式,宾词包括纵栏标题和 数字资料。,某市2001、2002年国内生产总值

28、,指标 单位 2001年 2002年 2002年比 2001年增长% GDP 万元 622051 505774 18.7 第一产业 万元 64385 60782 6.9 第二产业 万元 334301 258651 23.7 第三产业 万元 223365 186331 15.3 人均GDP 元 5411 4426 16.8,总标题,主词栏,宾词栏,纵栏标题,横行标题,以下表为例:,一、统计表的结构,行标题,表头,列标题,数字资料,附加,(二)统计表的分类,调查表 整理表 分析表 简单表 分组表 复合分组表,1、按用途分类分为,2、按主词的是否分组和分组的程度分为,(三)统计表的设计,统计表的设计

29、要求:简练、明确、实用、美观,便以比较。 1、标题的设计 统计表的总标题、横行标题、纵栏标题应简明扼要,以简练而有准确的文字表述统计资料的内容、资料所属的时间和空间范围。 2、统计表的形状的设计。 统计表应设计成纵横交叉线条组成的长方形表格长宽保持适当的比例表的左右两端不分口。,3、线条的绘制 表的上下两端应以粗线绘制,表内纵横线以细线绘制。表的左右两端一般不划线,采用“开口式”。,4、合计栏的设计 各纵列合计时,一般应将合计列放在最后 一行,各横行须要合计时,可将合计列放 在最前一栏或最后一栏。,5、表内数值的填写。 数字应该填写整齐,对准位数,不能空缺。数字小,可填写“0”;数字暂缺,可填写“”;不应有数字时用符号“”,不能出现“同上”、“同下”、“同左”、“同右的字眼,6、计量单位的设置。 只有一个计量单位时可放在表的右上 方计量单位不同可在横行标题后面列一单 位栏 7、注解和资料来源。,二、统计图,如果说统计表能够集中有序地表现统计资料,统计图则能够将统计资料展示的更为生动具体。便于人们直观地认识事物的特征。随着计算机技术不断发展,电脑制图功能日益强大,使得统计图的制作更加方便和精确。,思考题:,一、等距分组和异距分组各自的适用场合。 二、说明组限、组距、组数和组中值的含义。 三、P50:2.14,

展开阅读全文
相关资源
猜你喜欢
相关搜索

当前位置:首页 > 社会民生


经营许可证编号:宁ICP备18001539号-1