统计数据的描述PPT课件.ppt

资源描述

《统计数据的描述PPT课件.ppt》由会员分享，可在线阅读，更多相关《统计数据的描述PPT课件.ppt（94页珍藏版）》请在三一文库上搜索。

1、第四章统计数据的描述,统计数据的描述有三个方面：集中趋势、离散程度、分布形态,第四章统计数据的描述,第一节集中趋势的测度第二节离散程度的测度第三节偏态与峰度的测度,学习目标,1.集中趋势各测度值的计算方法 2.集中趋势不同测度值的特点和应用场合 3.离散程度各测度值的计算方法 4.离散程度不同测度值的特点和应用场合 5.偏态与峰度测度方法 6.用Excel、SPSS描述统计量并进行分析,数据分布的特征,集中趋势 (位置),离中趋势 (分散程度),数据分布的特征和测度,方差,集中趋势(Central tendency),一组数据向其中心值靠拢的倾向和程度测度集中趋势就是寻找数据一

2、般水平的代表值或中心值不同类型的数据用不同的集中趋势测度值低层次数据的集中趋势测度值适用于高层次的测量数据，反过来，高层次数据的集中趋势测度值并不适用于低层次的测量数据选用哪一个测度值来反映数据的集中趋势，要根据所掌握的数据的类型来确定,均值,1.集中趋势的测度值之一 2.最常用的测度值 3.一组数据的均衡点所在 4.易受极端值的影响 5. 用于数值型数据，不能用于分类数据和顺序数据,一、算术平均数,计算公式：变量值之和/变量值个数计算方法简单算术平均数：加权算术平均数： (请计算P63表4-1到4-8) 如果fi 都相等，那么加权平均和简单平均相同,例题：,加权算术平均数公式转化

3、：先计算权重计算P65表3与表4,算术平均数的几何性质,如果，那么如果，那么,交替标志平均数,1表示具有某种属性的单位标志值 0表示不具有某种属性的单位标志值有某种属性的单位数所占比重P=N1/N 不具有某种属性的单位数所占比重P=N2/N 计算公式：计算表5，P67,几何平均数,1. 集中趋势的测度值之一 2. N 个变量值乘积的 N 次方根 3. 适用于特殊的数据:变量值本身是比率的形式,且比率的连乘积等于末期除以基期 4. 主要用于计算平均发展速度,几何平均数,简单几何平均数：加权几何平均数：两边取对数：请计算P68，表6,二、分类数据：众数,众数(概念要点),1.

4、集中趋势的测度值之一 2. 出现次数最多的变量值 3. 不受极端值的影响 4. 可能没有众数或有几个众数 5. 主要用于分类数据，也可用于顺序数据和数值型数据,众数(众数的不唯一性),无众数原始数据: 10 5 9 12 6 8,一个众数原始数据: 6 5 9 8 5 5,多于一个众数原始数据: 25 28 28 36 42 42,（一）分类数据的众数(算例),【例】根据下表数据，计算众数,解：这里的变量为“广告类型”，这是个分类变量，不同类型的广告就是变量值。我们看到，在所调查的200人当中，关注商品广告的人数最多，为112人，占总被调查人数的56%，因此众数为“商品广告”这一类别，即 Mo

5、商品广告,（二）顺序数据的众数 (算例),【例】根据下表的数据，计算众数,解：这里的数据为定序数据。变量为“回答类别”。甲城市中对住房表示不满意的户数最多，为108户，因此众数为“不满意”这一类别，即 Mo不满意,（三）数值型分组数据的众数(要点及计算公式),1. 众数的值与相邻两组频数的分布有关,4. 该公式假定众数组的频数在众数组内均匀分布,2. 相邻两组的频数相等时，众数组的组中值即为众数,3. 相邻两组的频数不相等时，众数采用下列近似公式计算,数值型分组数据的众数(算例),【例4.1】根据下表数据，计算50名工人日加工零件数的众数,8,14,-,三、顺序数据：中位数和分位数,（一）中位

6、数(概念要点),1.集中趋势的测度值之一 2.排序后处于中间位置上的值,不受极端值的影响主要用于顺序数据，也可用数值型数据，但不能用于分类数据,中位数(位置的确定),未分组数据：,组距分组数据：,1.未分组数据的中位数(计算公式),2.顺序数据的中位数(算例),【例4.2】根据下表中的数据，计算甲城市家庭对住房满意状况评价的中位数,解：中位数的位置为： (300+1)/2150.5 从累计频数看，中位数的在“一般”这一组别中。因此 Me一般,3.数值型未分组数据的中位数 (5个数据的算例),原始数据: 24 22 21 26 20 排序: 20 21 22 24 26 位置: 1 2 3

7、 4 5,中位数 22,a数值型未分组数据的中位数 (6个数据的算例),原始数据: 10 5 9 12 6 8 排序: 5 6 8 9 10 12 位置: 1 2 3 4 5 6,1.根据位置公式确定中位数所在的组 2.采用下列近似公式计算：,3.该公式假定中位数组的频数在该组内均匀分布,b数值型分组数据的中位数(要点及计算公式),N,数值型分组数据的中位数(算例),【例4.3】根据第三章表3-5中的数据，计算50 名工人日加工零件数的中位数,14,50,（二）四分位数(概念要点),1.集中趋势的测度值之一 2.排序后处于25%和75%位置上的值,3. 不受极端值的影响 4. 主要用于顺序

8、数据，也可用于数值型数据，但不能用于分类数据,四分位数(位置的确定),未分组数据：,组距分组数据：,1.顺序数据的四分位数(算例),【例4.4】根据下表数据，计算甲城市家庭对住房满意状况评价的四分位数,解：下四分位数(QL)的位置为： QL位置(300+1)/475.25 上四分位数(QL)的位置为： QU位置(3（300+1）)/4225.75 从累计频数看， QL在“不满意”这一组别中； QU在“一般”这一组别中。因此 QL 不满意 QU 满意,2.数值型未分组数据的四分位数 (7个数据的算例),原始数据: 23 21 30 32 28 25 26 排序: 21 23 25 26 28

9、30 32 位置: 1 2 3 4 5 6 7,N+1,QL= 23,QU = 30,数值型未分组数据的四分位数 (6个数据的算例),原始数据: 23 21 30 28 25 26 排序: 21 23 25 26 28 30 位置: 1 2 34 5 6,QL= 21+0.75(23-21) = 22. 5,QU = 28+0.25(30-28) = 28.5,3.数值型分组数据的四分位数(计算公式),数值型分组数据的四分位数(计算示例),QL位置50/412.5,【例4.6】根据第三章表3-5中的数据，计算50 名工人日加工零件数的四分位数,四、众数、中位数和均值的比较,众数、中位数和

10、均值的关系,数据类型与集中趋势测度值,例题：,某百货公司6月份各天的销售数据如下（单位：万元） 257 276 297 252 238 310 240 236 265 278 271 292 261 281 301 274 267 280 291 258 272 284 268 303 273 263 322 249 269 295 （1）计算该百货公司销售额的均值、中位数和四分位数；（2）计算日销售额的标准差。,例：甲、乙两个企业生产三种产品的单位和总成本资料如下：,产品名称单位成本总成本（元）甲企业乙企业 A 15 2100 3255 B 20 3000 1500 C 30 1

11、500 1500 比较哪个企业的总平均成本高并分析其原因。,第二节离散程度的测度,一. 分类数据：异众比率二. 顺序数据：四分位差三. 数值型数据：方差及标准差四. 相对离散程度：离散系数,离中趋势,数据分布的另一个重要特征离中趋势的各测度值是对数据离散程度所作的描述反映各变量值远离其中心值的程度，因此也称为离中趋势从另一个侧面说明了集中趋势测度值的代表程度不同类型的数据有不同的离散程度测度值,数据的特征和测度（本节位置）,二、顺序数据：四分位差,四分位差(概念要点),1.离散程度的测度值之一 2.也称为内距或四分间距 3.上四分位数与下四分位数之差 QD = QU - QL

12、4.反映了中间50%数据的离散程度 5. 不受极端值的影响 6. 用于衡量中位数的代表性,四分位差(定序数据的算例),【例】根据下表数据，计算甲城市家庭对住房满意状况评价的四分位差,解：设非常不满意为1,不满意为2, 一般为3, 满意为 4, 非常满意为5 已知 QL = 不满意 = 2， QU = 满意 = 4 四分位差： QD = QU = QL = 4 2 = 2,三、数值型数据：方差和标准差,（一）极差(概念要点及计算公式),1. 一组数据的最大值与最小值之差 2. 离散程度的最简单测度值 3. 易受极端值影响 4. 未考虑数据的分布,未分组数据 R = max(Xi) - min(X

13、i),5. 计算公式为,（二）平均差(概念要点及计算公式),1. 离散程度的测度值之一 2. 各变量值与其均值离差绝对值的平均数 3. 能全面反映一组数据的离散程度 4. 数学性质较差，实际中应用较少,5. 计算公式为,未分组数据,组距分组数据,平均差（计算过程及结果）,【例】根据下表数据，计算工人日加工零件数的平均差,（三）方差和标准差(概念要点),1. 离散程度的测度值之一 2. 最常用的测度值 3. 反映了各变量值与均值的平均差异 4. 根据总体数据计算的，称为总体方差或标准差；根据样本数据计算的，称为样本方差或标准差,1.总体方差和标准差(计算公式),未分组数据：,组距分组数据：,未分

14、组数据：,组距分组数据：,方差的计算公式,标准差的计算公式,总体标准差（计算过程及结果）,【例4.14】根据下表数据，计算工人日加工零件数的标准差,2.样本方差和标准差(计算公式),未分组数据：,组距分组数据：,未分组数据：,组距分组数据：,方差的计算公式,标准差的计算公式,样本方差3.自由度(degree of freedom),1. 一组数据中可以自由取值的数据的个数 2. 当样本数据的个数为 n 时，若样本均值x 确定后，只有n-1个数据可以自由取值，其中必有一个数据则不能自由取值 3. 例如，样本有3个数值，即x1=2，x2=4，x3=9，则 x = 5。当 x = 5 确定后，x1，

15、x2和x3有两个数据可以自由取值，另一个则不能自由取值，比如x1=6，x2=7，那么x3则必然取2，而不能取其他值 4. 样本方差用自由度去除，其原因可从多方面来解释，从实际应用角度看，在抽样估计中，当用样本方差去估计总体方差2时，它是2的无偏估计量,样本方差(算例),原始数据: 10 5 9 13 6 8,样本标准差(算例),样本标准差,原始数据: 10 5 9 13 6 8,方差(简化计算公式),样本方差,总体方差,4.方差的数学性质,各变量值对均值的方差小于对任意值的方差设X0为不等于X 的任意数，D2为对X0的方差，则,5.标准化值(standard score),1. 也称标准分数

16、，通常用于对变量的标准化处理 2. 给出某一个值在一组数据中的相对位置 3. 可用于判断一组数据是否有离群点:四分位差1.5倍的为离群点，3倍为极端值 4. 计算公式为：,练习：,一家公司在招收职员时，首先通过两项能力测试。在A项测试中，其平均分数是100分，标准差是15分；在B项测试中，其平均分数是400分，标准差是50分。一位应试者在A项测试中得了115分，在B项测试中得了425分。与平均分数相比，该应试者哪一项测试更为理想。,习题：,现场收集数据（不是网络，而是现场），要求如下： 1.收集分类数据，计算异众比率 2.收集顺序数据，计算异众比率和四分位差 3.收集数值型数据，计算极差、平均

17、差、标准差、标准化值 4.指标计算结果不是目的，要好好体会一下指标所代表的含义，如果，代表性不好，你有没有什么更好的建议？ 5.计算离散指标的同时，衡量一下相对应的集中趋势指标的代表性？ 6.计算完离散指标，与同桌的离散指标比较一下，看谁的离散程度大？前提，要保证你们的离散指标是可比较的！,四、相对离散程度：离散系数,离散系数(coefficient of variation),1. 标准差与其相应的均值之比 2. 消除了数据水平高低和计量单位的影响 3. 测度了数据的相对离散程度 4. 用于对不同组别数据离散程度的比较 5. 计算公式为：,离散系数（实例和计算过程）,【例4.16】某管理局

18、抽查了所属的8家企业，其产品销售数据如表4.7。试比较产品销售额与销售利润的离散程度,结论：计算结果表明，V1V2，说明产品销售额的离散程度小于销售利润的离散程度,练习：,如果投资项目A的预期回报率为7%，标准差为5%;而投资项目B的预期回报率为12%，标准差为7%，哪个投资项目风险大？,交替指标的标准差,数据类型与离散程度测度值,第三节偏态与峰度的测度,一. 偏态及其测度二. 峰度及其测度,数据的特征和测度（本节位置）,一、偏态,偏态与峰度分布的形状,偏态,峰度,左偏分布,偏态(概念要点),1. 数据分布的不对称性 2. 偏态系数=0为对称分布 3. 偏态系数 0为右偏分布 4. 偏

19、态系数 0为左偏分布 5. 计算公式为,偏态(实例),【例4.17】已知1997年我国农村居民家庭按纯收入分组的有关数据如表4.9。试计算偏态系数,2.28 12.45 20.35 19.52 14.93 10.35 6.56 4.13 2.68 1.81 4.94,500以下 5001000 10001500 15002000 20002500 25003000 30003500 35004000 40004500 45005000 5000以上,户数比重（%）,按纯收入分组（元）,表4-10 1997年农村居民家庭纯收入数据,农村居民家庭村收入数据的直方图,偏态与峰度(从直方图上观察),按

20、纯收入分组(元),结论：1. 为右偏分布 2. 峰度适中,偏态系数（计算过程）,偏态系数(计算结果),根据上表数据计算得,将计算结果代入公式得,结论：偏态系数为正值，而且数值较大，说明农村居民家庭纯收入的分布为右偏分布，即收入较少的家庭占据多数，而收入较高的家庭则占少数，而且偏斜的程度较大,二、峰度,峰度(kurtosis),1.数据分布扁平程度的测度 2.峰度系数=3为扁平程度适中 3.峰度系数3为尖峰分布 5. 计算公式为,峰度系数系数(实例计算结果),代入公式得,【例4.18】根据表4-10中的计算结果，计算农村居民家庭纯收入分布的峰度系数,结论：由于=3.43，说明我国农村居民家庭纯

21、收入的分布为尖峰分布，说明低收入家庭占有较大的比重,由Excel输出的描述统计量,本章小节,1.集中趋势各测度值的含义、计算方法、特点和应用场合 2.离散程度各测度值的含义、计算方法、特点和应用场合 3.偏态及峰度的测度方法 4.用Excel计算描述统计量,1.因某种原因,银行为吸收存款而提高利息率,五年的年利率分别为9%、10%、12%、14%、20%。试计算五年的平均年利率。若存入2000元，第五年末实际存款额是多少？ 2.某车间生产三批产品的废品率分别为1%、2%、1.5%，三批产量占全部产量的比重分别为25%、35%、40%，计算该车间三批产品的平均废品率,第一题答案,(1+9%)*(1+10%)*(1+12%)*(1+14%)*(1+20%)=(1+X)5 ; X=12.9339% 第一年：20000.09+2000=2180 第二年：21800.1+2180=2398 第三年：23980.12+2398=2685.76 第四年：2685.760.14+2685.76=3061.7664 第五年：3061.76640.2+3061.7664=3674.11968,第二题答案,(1%*25%+2%*35%+1.5%*40%)/(25%+35%+40%)=1.55%,作业：,第四章习题,

展开阅读全文