第3章数据的描述.ppt

上传人:本田雅阁 文档编号:2093890 上传时间:2019-02-13 格式:PPT 页数:91 大小:1.24MB
返回 下载 相关 举报
第3章数据的描述.ppt_第1页
第1页 / 共91页
第3章数据的描述.ppt_第2页
第2页 / 共91页
第3章数据的描述.ppt_第3页
第3页 / 共91页
亲,该文档总共91页,到这儿已超出免费预览范围,如果喜欢就下载吧!
资源描述

《第3章数据的描述.ppt》由会员分享,可在线阅读,更多相关《第3章数据的描述.ppt(91页珍藏版)》请在三一文库上搜索。

1、中央财经大学统计学院,第3章 数据的描述,统计图与统计表 数据集中趋势的数值描述 数据离散程度的数值描述 数据分布的形态,中央财经大学统计学院2010 2,本章要回答的问题,常用的统计图表有哪些?如何绘制和解释其含义? 通常使用哪些数值指标描述数据的特征?如何计算?,中央财经大学统计学院2010 3, 3.1 统计图与统计表,绘制统计图一般都需要先对数据进行统计分组,在得到的频数分布表的基础上制图。,中央财经大学统计学院2010 4, 3.1.1 统计分组与频数分布,统计分组:就是按照研究目的将数据分成若干组的统计方法。 关键:选择分组变量和划分各组界限 例如按照考试成绩把学生分为优、良、中、

2、及格、不及格。 统计分组的结果是形成频数分布(分布数列,Frequency Distribution)。,频数分布举例,两个构成要素: 各组的分组界限 每组中的次数或频率 通过频数分布表可以发 现数据分布的特征。 频数(frequency) :每个组中的数据个数,也称次数。 频率(relative frequency) :频数/总数据个数。,中央财经大学统计学院2010 6,分组方法,中央财经大学统计学院2010 7,单变量值分组,将一个变量值作为一组,适合于离散变量,适合于变量值较少的情况。 例如某学院2008年毕业研究生毕业时发表论文篇数的频数分布表(右表)。,中央财经大学统计学院2010

3、 8,组距分组,将变量值的一个区间作为一组,适合于连续变量,适合于变量值较多的情况。 分组必须遵循“不重不漏”的原则。 分为等距与不等距分组。 各组组距都相等时为等距分组。 为了避免有些组中的频数很少甚至是空白的情况,有时也可以采用不等距(异距)分组。 应用中可能需要把第一组和/或最后一组设为开口组。,中央财经大学统计学院2010 9,组距分组的步骤,1、确定组数:通常为5到15 (20)组。 Sturges 提出的经验公式:分组组数K应满足,2、确定组距和各组界限,建议为5,10的倍数。 组距( 最大值 - 最小值) 组数,3、根据分组整理成频数分布表,中央财经大学统计学院2010 10,组

4、距分组中的基本概念,1、 下 限:一个组的最小可能值 2、 上 限:一个组的最大可能值 3、 组 距:上限与下限之差 4、 组中值:下限与上限之间的中点值,(下限+上限)/2。,开口组的组中值可以按以下方法计算: 缺下限:上限-邻组组距/2 缺上限:下限+邻组组距/2,但许多作者认为无法计算开口组的上限或下限。,中央财经大学统计学院2010 11,等距分组表:上下组限间断,等距分组表(上下组限重叠,上组限不在内),中央财经大学统计学院2010 13,等距分组表:(使用开口组),中央财经大学统计学院2010 14,3.1.2 列联表(Contingency table ),如果对数据同时根据两个

5、变量分组,汇总得到的结果称为列联表。列联表反映的是两个变量的联合分布,可以用来分析两关变量之间的关系。也称为交叉分组表(Cross tabulation)。 列联表一般根据两个定性变量进行编制,如果是定量变量则需要先对单个变量进行分组。 列联表中的数字为交叉单元格中的频数或频率。 以列联表为基础可以对两个变量之间的关系进行多种统计检验。,中央财经大学统计学院2010 15,列联表举例,市场营销专业的男生有10人。,中央财经大学统计学院2010 16,3.1.3 常用统计图,中央财经大学统计学院2010 17,条形图(Bar Chart),用宽度相同的条形高度或长短来表示数据 变动的图形,条形的

6、排列可以横排,也可 以纵排。条形图有单式、复式等形式。,2003年我国就业人员情况(万人),中央财经大学统计学院2010 18,圆形图 (Pie Chart),也叫饼图,它是用圆形及圆内扇形的面积 来表示数值大小的图形。主要用于总体内 部的结构,各组成部分所占比例等。,2003年我国国内生产总值中各产业比重,中央财经大学统计学院2010 19,直方图(Histogram),用来反映数量变量的分布状况。在统计分组的基础上,用横轴表示数据分组,纵轴表示频数或频率,各组与相应的频数就形成了一个矩形,即直方图。 注意对不等距分组:纵轴必须表示为频数密度 频数密度=频数/组距 (面积之和=总频数) 手工

7、绘制直方图时需要先对数据进行分组;用统计软件作直方图时统计软件可以自动进行分组。,中央财经大学统计学院2010 20,直方图(等距分组),某会计师事务所对20家公司进行年终审计所需时间(天)的频数分布表,中央财经大学统计学院2010 21,直方图(不等距分组),某会计师事务所对20家公司进行年终审计所需时间(天)的频数分布表,中央财经大学统计学院2010 22,直方图与条形图的异同,都是用来反映数据的分布状况,适用于不同类型的数据。 条形图是用条形的高度表示各类别频数的多少,其宽度(表示类别)则是固定的。 直方图是用面积表示各组频数的多少,矩形的高度表示每一组的频数或百分比,宽度则表示各组的组

8、距,其高度与宽度均有意义。 直方图的各矩形通常是连续排列,条形图则是分开排列。,中央财经大学统计学院2010 23,折线图 (Frequency polygon),折线图也称频数多边形图是在直方图的基 础上,把直方图顶部的中点(组中值)用直线 连接起来,再把原来的直方图抹掉。 折线图的两个终点要与横轴相交,具体的做法是第一个矩形的顶部中点通过竖边中点(即该组频数一半的位置)连接到横轴,最后一个矩形顶部中点与其竖边中点连接到横轴。 组数越多,组据就越小,折线图就越光滑,逐渐形成一条平滑的曲线,这就是频数分布曲线。,中央财经大学统计学院2010 24,审计时间的折线图,主要用于显示未分组的原始数据

9、的分布。由“茎” 和“叶”两部分构成,其图形是由数字组成的。 通常以数据的高位数值作树茎,低位数字作树叶,树叶上只保留一位数字。 树叶的竖列要对齐,以计算各组的次数。 原始数据: 24, 26, 24, 21, 27, 27, 30, 41, 32, 38 从小到大排序后的数据: 21, 24, 24, 26, 27, 27, 30, 32, 38, 41 茎叶图:,3 0 2 8,4 1,2 1 4 4 6 7 7,茎叶图 (Stem-and-Leaf Display),30,中央财经大学统计学院2010 26,40名教师的年龄的数据:40,41,48,51,37,35,36,50,33,4

10、2,28,33,36,29,28,29,34,35,27,36,28,29,34,26,35,40,27,43,45,39,42,41,48,55,43,42,42,51,52,64,SPSS Statistics生成的一个茎叶图,中央财经大学统计学院2010 27,线图(Line Chart),利用线形的升降起伏来表现描述的变量在一段时期内的变动情况,主要用于显示时间数列的数据。,1996年-2003年城乡居民人民币储蓄存款年底余额,中央财经大学统计学院2010 28,3.1.4 绘制统计图时的注意事项,1、通过选择恰当的图形类型、刻度、长宽比例等,使图形能够准确反映数据中包含的信息。 时间

11、一般绘在横轴,指标数据绘在纵轴。 长宽比例要适当 ,其长宽比例大致为10:7。 一般情况下,纵轴数据下端应从“0”开始。数据与“0”之间的间距过大时,可以采取折断的符号将纵轴折断。,中央财经大学统计学院2010 29,绘制统计图时的注意事项,2、图形要尽量简明。图形应该突出所要传达的信息,不必要的标签、背景、网格线、等会分散读者的注意力。 3、图形应该有清楚的标题和必要的说明,明确图形的含义、计量单位、坐标轴代表的变量、资料来源等等。 4、反复加工和修改是获得优秀统计图形的重要步骤。统计软件给出的统计图形没有多少可以不加修改而直接应用。,中央财经大学统计学院2010 30,下图增长速度惊人。,

12、上图增长速度缓慢。,不恰当的统计图形举例:纵横比例,中央财经大学统计学院2010 31,不必要的三维效果:三维图形可能比二维图形更能吸引读者的注意,但只能用来反映变化的趋势,不能用来进行精确的比较。,不恰当的统计图形举例:三维效果,中央财经大学统计学院2010 32,不恰当的统计图形举例:图形类型,1960: $1.00,1970: $1.60,1980: $3.10,1990: $3.80,Minimum Wage,不好的图形,中央财经大学统计学院2010 33,不恰当的统计图形举例:压缩纵轴,Quarterly Sales,不好的图形,0,100,200,Q1,Q2,Q3,Q4,$,中央财

13、经大学统计学院2010 34,不恰当的统计图形举例:纵轴无零点,好的图形,Monthly Sales,不好的图形,36,39,42,45,J,F,M,A,M,J,$,中央财经大学统计学院2010 35,3.1.5 统计表,统计表是统计资料的最基本表现形式,使数据资料表述的更加紧凑、简明,条理清晰、通俗易懂,便于数据的比较。 一个完整的统计表从结构上看一般包括:表头、行标题、列标题、数据资料。 对表中指标或数据的补充说明一般作为附加部分放在统计表的下方。,中央财经大学统计学院2010 36,统计表的构成,行标题,表头,列标题,数字资料,附加,中央财经大学统计学院2010 37,统计表的制作要求,

14、原则:科学、实用、美观、简练。 标题简明扼要,满足3W要求(When, Where, What)。 结构合理,长宽比例要适当。 统计表为“开口式”; 表的上下两条横线一般用粗线,其他线用细线,线条要少。 数据计量单位相同时,可放在表的右上角标明,不同时应放在每个指标后或单列出一列标明。 表中的数据一般是右对齐,有小数点时应以小数点对齐,而且小数点的位数应统一。 对于没有数字、缺某项或免填的表格单元,应使用特定符号标出。 必要时可在表的下方加上注释。,中央财经大学统计学院2010 38,3.2 数据描述的数值方法,数据描述的数值方法,分布的形状,集中趋势,离散程度,众 数,中位数,均 值,离散系

15、数,方差和标准差,峰 度,四分位距,极差,偏 态,3.2.1,3.2.2,3.2.3,中央财经大学统计学院2010 39,3.2.1 集中趋势,常用的集中趋势的测度指标: 算术平均数 中位数 众数,集中趋势:一组数据向其中心值靠拢的倾向和程度。 集中趋势测度:寻找数据水平的代表值或中心值。,1 算术平均数(均值,Arithmetic Mean),总体均值常用 表示。样本均值常用 表示。样本均值的计算公式: 简单平均数: 加权平均数(分组数据) :,中央财经大学统计学院2010 41,算术平均数(例子),某企业的工会随机调查了20名工人2005 年6月加班的小时数,结果如下: 该组数据算术平均数

16、等于 (13+18+ +12)/20=11.6(小时)。,中央财经大学统计学院2010 42,加权算术平均数(例子),在前面的例子中,假设我们只得到了分组后的资料: 该组数据算术平均数等于 245/20=12.25(小时)。,中央财经大学统计学院2010 43,关于计算结果的说明,根据原始数据和分组资料计算的结果一般不会完全相等,根据分组数据只能得到近似结果。 只有各组数据在组内呈对称或均匀分布时,根据分组资料的计算结果才会与原始数据的计算结果一致。,中央财经大学统计学院2010 44,算术平均数的性质,1、 所有的定量数据都有算术平均数。 2、计算算术平均数时使用了所有数据。 3、一组数只有

17、一个均值。 4、各变量值与均值的离差之和等于零。,张村有个张千万, 九个邻居穷光蛋; 统计平均算资产, 个个都是张百万。,缺点: 易受极端值的影响。 严格来说无法根据有开口组 的分组数据计算算术平均数。,中央财经大学统计学院2010 45,2 中位数(Median),一组数据按大小顺序排列后,处在数列中点位置的数值。 特点: 对一组数据是唯一的。 不受极端值的影响。 主要用于顺序数据,也可用数值型数据,但不能用于分类数据。,中央财经大学统计学院2010 46,根据原始数据计算中位数,n为奇数时等于第(n+1)/2个数。 n为偶数时等于第n/2和n/2+1个数的平均值,1,2 ,5,9 ,11,

18、中位数=5,1,2 ,5 , 9,11,18,中位数=(5+9)/2=7,中央财经大学统计学院2010 47,3 众数(Mode),一组数据中出现次数最多的变量值。 主要特点: 不受极端值的影响。 有的数据无众数或有多个众数。 对未分组定量资料很少使用。,中央财经大学统计学院2010 48,众数的不惟一性,众数、中位数和算术平均数的关系,分配为钟形、轻微不对称的经验公式:,中央财经大学统计学院2010 50,小结:平均数、中位数、众数的特点,算术平均数 : 易受极端值影响(使用了全部数据) 数学性质优良,主要用于数值型数据 数据对称分布或接近对称分布时应用 中位数: 不受极端值影响 数据分布偏

19、斜程度较大时应用;主要用于顺序数据 众数: 不受极端值影响 不具有惟一性 数据分布偏斜程度较大时应用;主要用于分类数据,中央财经大学统计学院2010 51,4 分位数(Quantile),把顺序排列的一组数据分割为若干相等部分的分割点的数值 。 分位数可以反映数据分布的相对位置(而不单单是中心位置)。 常用的有四分位数、十分位数、百分位数。 四分位数(Quartile):Q1 Q2 Q3 十分位数(Decile): D1 D2 D9 百分位数(percentile): P1 P2 P99,中央财经大学统计学院2010 52,四分位数(Quartile),数据按大小顺序排序后把分割成四等分的三个

20、分割点上的数值 。 在实际应用中四分位数的计算方法并不统一(数据量大时这些方法差别不大)。对原始数据: SPSS中四分位数的位置为(n+1)/4, 2(n+1)/4, 3 (n+1)/4。 Excel中四分位数的位置分别为(n+3)/4, 2(n+1)/4,(3 n+1)/4。 如果四分位数的位置不是整数,则四分位数等于前后两个数的加权平均。,四分位数计算(例子),排序后的数据: 2,5,6,7,8,9, 10,12,15,16,不能整除时需加权平均:,中央财经大学统计学院2010 54,对时间序列计算平均数有一些特殊问题需要注意。 平均发展水平的计算 平均发展速度、平均增长速度的计算,5、平

21、均发展水平和平均发展速度,中央财经大学统计学院2010 55,时间序列中每一个观测值称为发展水平。 要研究的那个时间的发展水平称为报告期水平,作为比较基础的时间的发展水平称为基期水平。 根据观测值表现形式的不同可以分为绝对数、相对数或平均数时间序列。 绝对数时间序列又可分为时期序列和时点序列。 时期序列:不同时期的观测值可以相加,相加结果表明现象在更长一段时间内的活动总量。 时点序列:不同时点的观测值相加没有实际意义。,相关基本概念,中央财经大学统计学院2010 56,时间序列举例,资料来源:中国统计年鉴2002,中央财经大学统计学院2010 57,平均发展水平(1),将不同时期的发展水平加以

22、平均得到的平均数称为平均发展水平。 对于时期序列、时点序列和相对数序列、平均数序列,平均发展水平的计算方法有所不同。,中央财经大学统计学院2010 58,平均发展水平(2),(1)时期序列:,按时期序列的公式计算。,(2)“连续”时点序列:,中央财经大学统计学院2010 59,先计算出两个点之间的平均数,再用相隔的时期长度 加权计算总的平均数。,如果各时点之间的间隔相等,公式可简化为,(3)不连续的时点序列:,平均发展水平(3),中央财经大学统计学院2010 60,(4)根据相对数和平均数时间 序列计算序时平均数:,平均发展水平(4),中央财经大学统计学院2010 61,举例,1、如何计算19

23、91年-2000年我国的年平均GDP? 2、如何计算1991年-2000年我国的年均人口数?已知1990年年末的人口数为114333万人。 3、计算19912000年我国的人均年GDP。,中央财经大学统计学院2010 62,Answer,1、 2、 3、,中央财经大学统计学院2010 63,发展速度是是序列中两个发展水平相比的结果。可以分为环比发展速度和定基发展速度。,定基发展速度等于相应各环比发展速度的连乘积; 环比发展速度等于相邻两个定基发展速度之商。 发展速度-100%等于增长速度。,发展速度和增长速度,中央财经大学统计学院2010 64,用几何平均法计算平均发展速度,几何平均数等于n

24、个变量值乘积的 n 次方根,常用于计算平均的比率、增长率等。,简单几何平均数,可看作是均值的一种变形,中央财经大学统计学院2010 65,从最初水平a0出发,每期按平均发展速度发展,经过n期后将达到最末期水平an 只与序列的最初观察值a0和最末观察值an有关。,几何平均法的含义,中央财经大学统计学院2010 66,Example,1、计算1992年-2000年我国GDP的年增长率和年平均增长率。 2、计算1992年-2000年我国年末人口的年增长率和年平均增长率。,中央财经大学统计学院2010 67,Answer,中央财经大学统计学院2010 68,3.2 数据描述的数值方法,数据描述的数值方

25、法,分布的形状,集中趋势,离散程度,众 数,中位数,均 值,离散系数,方差和标准差,峰 度,四分位距,极差,偏 态,3.2.1,3.2.2,3.2.3,中央财经大学统计学院2010 69,3.2.2 离散程度,反映各变量值远离其中心值的程度(离散 程度),从另一个侧面说明了集中趋势测 度值的代表程度。 不同类型的数据有不同的 离散程度测度指标。,常用指标: 全距(极差) 四分位距 方差和标准差 离散系数,中央财经大学统计学院2010 70,1 全距(Range),全距也称极差,是一组数据的最大值与最 小值之差。 R=最大值-最小值 组距分组数据可根据最高组上限 -最低组下限计算。 受极端值的影

26、响。 全距=?,2,5,6,7,8,9,10,12,15,16,20,中央财经大学统计学院2010 71,等于上四分位数与下四分位数之差 反映了中间50%数据的离散程度,数值越小说明中间的数据越集中。 不受极端值的影响。 可以用于衡量中位数的代表性。,2 四分位距(Inter-Quartile Range, IQR),2,5,6,7,8,9,10,12,15,16,20,Q1=6, Q2=9, Q3=15,中央财经大学统计学院2010 72,方差是一组数据中各数值与其算术平均数离差平方的平均数,标准差是方差正的平方根。 总体方差和样本方差的符号不同,计算公式也不一样。 是反映定量数据离散程度的

27、最常用的指标。,3 方差和标准差,中央财经大学统计学院2010 73,方差的计算公式,样本方差用(n-1)去除,从数学角度看是因为它是总体方差2的无偏估计量。,中央财经大学统计学院2010 74,标准差(例子),某工会随机调查了5名工人上月的加班时间如下表,平均加班时间为13小时。计算数据的标准差。,中央财经大学统计学院2010 75,4 离散系数(Coefficient of Variation),标准差与其相应的均值之比,表示为百分数。 特点: 反映了相对于均值的相对离散程度; 可用于比较计量单位不同的数据的离散程度; 计量单位相同时,如果两组数据的均值相差悬殊,离散系数可能比标准差等绝对

28、指标更有意义。,中央财经大学统计学院2010 76,离散系数:例子,对30名经理人员的调查表明年平均收入=$500,000,标准差 = $50,000。 对30名工人的调查表明平均收入= $32,000,标准差 = $5,000。 离散系数: 经理人员: 工人: 虽然经理人员收入的绝对离散程度远远大于工人,但经理人员收入的相对离散程度小于工人。,中央财经大学统计学院2010 77,3.2.3 数据分布形状的描述,数据描述的数值方法,分布的形状,集中趋势,离散程度,众 数,中位数,均 值,离散系数,方差和标准差,峰 度,四分位距,极差,偏 态,3.2.1,3.2.2,3.2.3,中央财经大学统计

29、学院2010 78,偏态和峰度的类型,偏态,中央财经大学统计学院2010 79,1 偏态及其测定(Skewness),数据分布的不对称性称作偏态。 偏态系数就是对数据分布的不对称性(即偏斜程度)的测度。 偏态系数有多种计算方法,在统计软件中(如Excel等)通常采用以下公式:,中央财经大学统计学院2010 80,偏态系数的含义,中央财经大学统计学院2010 81,2 峰度及峰度系数(Kurtosis),峰度:数据分布的扁平或尖峰程度。 峰度系数:数据分布峰度的度量值,对数据分布尖峰或扁平程度的测度,一般用K表示。 统计软件(如Excel等)中常用以下公式计算:,中央财经大学统计学院2010 8

30、2,峰度系数的含义,峰度系数K0,与正态分布相比该分布一般为扁平、瘦尾,肩部较胖。,峰度系数K0,与正态分布相比该分布一般为尖峰、肥尾,肩部较瘦。,中央财经大学统计学院2010 83,3、箱线图(Box Plot),用于描述数据分布特征的一种图形。 最简单的箱线图可以根据数据的最大值、最小值和三个四分位数绘制的:先根据三个四分位数Q1、Q2、Q3画出中间的盒子,然后由盒子两端分别向最大、最小值连线。 在SPSS中标准的箱线图一般是这样绘制的: 先根据三个四分位数Q1、Q2、Q3画出中间的盒子; 由Q3至Q3+1.5*IQR区间内的最大值向盒子的顶端连线,由Q1至Q1-1.5*IQR区间内的最小

31、值向盒子的底部连线; 处于Q3+1.5*IQR至Q3+3*IQR或者 Q1-1.5*IQR至Q1-3*IQR范围内的数据用圆圈标出; 大于Q3+3*IQR或者小于Q1-3*IQR的用星号标出。,中央财经大学统计学院2010 84,数据:2,5,6,7,8,9,10,12,15,20,35,箱线图,Q1,Q2,Q3,IQR=9,1.5*IQR=13.5,1.5*IQR=13.5,离群点,中央财经大学统计学院2010 85,分布的形状与箱线图,中央财经大学统计学院2010 86,4 数据的 Z值,也称标准化值,等于变量值与其平均数的离差除以标准差,用Z表示。 Z值的均值等于0,标准差等于1。 是对

32、某一个值在一组数据中相对位置的度量。例如, z0说明观测值大于均值。 z0说明观测值小于均值。 z=1.2说明观测值比均值大1.2倍的标准差。,中央财经大学统计学院2010 87,工人加班时间的数据, 均值等于13,s=4.06。,工人加班时间的标准化值,中央财经大学统计学院2010 88,统计软件的描述统计结果:Excel(教师年龄),中央财经大学统计学院2010 89,统计软件的描述统计结果SPSS (教师年龄),中央财经大学统计学院2010 90,小结:本章要点(1),统计数据的分组和频数分布;列联表 条形图、圆形图、直方图、线图,茎叶图的绘制和应用 统计表的构成一般要由表头、行标题、列标题、数据资料组成 绘制统计图表的注意事项 集中趋势是一组数据向其中心值靠拢的倾向和程度。常用测度指标有:算术平均数、众数、中位数、分位数等。 平均发展水平和平均发展速度的计算,中央财经大学统计学院2010 91,小结:本章要点(2),离中趋势反映的是一组数据中各观测值之间的差异或离散程度。常用测度指标包括极差,四分位距,方差和标准差,离散系数等 数据分布的偏态与峰度的含义 箱线图的绘制和含义 .Z分数的计算和含义,

展开阅读全文
相关资源
猜你喜欢
相关搜索

当前位置:首页 > 其他


经营许可证编号:宁ICP备18001539号-1