第3章数据分布特征的描述.ppt

资源描述

《第3章数据分布特征的描述.ppt》由会员分享，可在线阅读，更多相关《第3章数据分布特征的描述.ppt（63页珍藏版）》请在三一文库上搜索。

1、统计学,毛春元主讲,3-2,第三章数据分布特征的描述,第一节统计变量集中趋势的测定第二节统计变量离散程度的测定第三节变量分布的偏度与峰度,3-3,第一节统计变量集中趋势的测定,一、测定集中趋势的指标及其作用二、数值平均数三、众数与中位数,3-4,一、测定集中趋势的指标及其作用,集中趋势(Central tendency) 较大和较小的观测值出现的频率比较低，大多数观测值密集分布在中心附近，使得全部数据呈现出向中心聚集或靠拢的态势。,测度集中趋势的指标有两大类：数值平均数是根据全部数据计算得到的代表值，主要有算术平均数、调和平均数及几何平均数；位置代表值根据数据所处位置直

2、接观察来确定的代表值，主要有众数和中位数。,3-5,测定集中趋势指标的作用,1反映变量分布的集中趋势和一般水平。如用平均工资了解职工工资分布的中心，反映职工工资的一般水平。 2可用来比较同一现象在不同空间或不同阶段的发展水平。不受总体规模大小的影响，在一定程度上使偶然因素的影响相互抵消。 3可用来分析现象之间的依存关系。如研究劳动者的文化程度与收入的关系 4平均指标也是统计推断中的一个重要统计量，是进行统计推断的基础。,3-6,二、数值平均数,（一）算术平均数（均值）一组数据的总和除以这组数据的项数所得的结果; 最常用的数值平均数。 1简单算术平均数把每项数据直接加总后除以它们的项

3、数。通常用于对未分组的数据计算算术平均数。计算公式：,3-7,例 3-1,解：采用简单算术平均法计算，即全体队员的平均年龄为（单位：周岁）：,若采用简单平均：,分组数据不能简单平均！因为各组变量值的次数不等！,3-8,2加权算术平均数,加权算术平均数的计算公式：,正确的计算是：,加权为了体现各变量值轻重不同的影响作用，对各个变量值赋予不尽相同的权数（fi ）.,3-9,权数（fi ，也称权重）,权数指在计算总体平均数或综合水平的过程中对各个数据起着权衡轻重作用的变量。可以是绝对数形式，也可以是比重形式（如频率）来表示。事实上比重权数更能够直接表明权数的权衡轻重作用的实质。当权数完全

4、相等（f1 =f2 = fn）时，加权算术平均数就成了简单算术平均数。,3-10,3由组距数列计算算术平均数,要点：各组变量值用组中值来代表。假定条件是各组内数据呈均匀分布或对称分布。计算结果是近似值 .,解：平均使用寿命为：,3-11,4对相对数求算术平均数,由于各个相对数的对比基础不同，采用简单算术平均通常不合理，需要加权。,权数的选择必须符合该相对数本身的计算公式。权数通常为该相对数的分母指标。,3-12,5算术平均数的主要数学性质,（1）算术平均数与变量值个数的乘积等于各个变量值的总和。,（2）各变量值与算术平均数的离差之总和等于零。,（3）各变量值与算术平均数的离差平方之总和

5、为最小。,3-13,（二）调和平均数（Harmonic mean）,调和平均数也称为倒数平均数。各变量值的倒数（1/xi）的算术平均数的倒数. 其计算公式为：,3-14,（续）,社会经济统计中所应用的调和平均数通常是加权算术平均数的变形，已知各组变量值 xi 和（xi fi）而缺乏 fi 时，加权算术平均数通常可变形为调和平均数形式来计算。【例3-4】解：,3-15,（三）几何平均数（Geometric mean）,几何平均数 n个变量值连乘积的n次方根。简单几何平均数,加权几何平均数,适用于各个变量值之间存在连乘积关系的场合。主要用于计算现象的平均发展速度，也适用于对某些具有环比

6、性质的比率求平均.,3-16,【例3-5】,某企业产品的加工要顺次经过前后衔接的五道工序。本月该企业各加工工序的合格率分别为88、85、90、92、96，试求这五道工序的平均合格率。解：本例中各工序的合格率具有环比的性质，企业产品的总合格率等于各工序合格率之连乘积。所以，所求的平均合格率应为：,例：某笔投资的年利率是按复利计算的。25年的年利率分配是：1年为3%，4年为4%，8年为8%，10年为10%，2年为15%。求平均年利率？解：问：如果是按单利计算呢？,3-18,三、众数与中位数,（一）众数（Mode）众数是一组数据中出现频数最多、频率最高的变量值，常用 M0 表示。如表3-2

7、中年龄的众数值MO25。众数代表的是最常见、最普遍的状况，是对现象集中趋势的度量。可用来测度定性变量的集中趋势；销售量最大的产品颜色是“白色”，则有M0“白色” 可以度量定量变量的集中趋势。从分布曲线的角度看，众数就是变量分布曲线的最高峰所对应的变量值。,3-19,组距数列中众数的确定,先找到众数组。在等距数列中，众数组就是次数最多的组；在异距数列中，众数组应是频数密度最大的组。根据众数组与其相邻两组的次数差来推算。其近似公式为：,下限公式：,上限公式：,3-21,（二）中位数（Median）,中位数是将数据由小到大排列后位置居中的数值。,由未分组数据计算中位数若数据项数是奇

8、数，则正好位于中间的数值就是中位数；如5人收入为: 1200,1450,1500,1600,2000元，则收入的中位数 Me =1500。若数据项数是偶数，则取居中两个数值的平均数为中位数. 如6人收入为: 1200,1450,1500,1600, 1800,2000元，则收入的中位数 Me =1550。,3-22,由组距数据计算中位数,先确定中位数组，即中间位置（用f/2来计算）所在的组。假定中位数组内次数均匀分布（次数与变量值的区间大小成比例），近似推算中位数的值。计算公式为：,下限公式：,上限公式：,例：某地区某年农民年收入的分布数列：,解：众数所在组是700800，代入公式：

9、讨论：1）众数组的次数与相邻组的次数相等，则Mo=？ 2）众数组下限前一组次数小于上限，则Mo偏向上限还是下限？相反又如何？,2）中位数的位置为3000/2=1500，240+480+1050正好大于1500，中位数所在组是第三组,3-26,四分位数、十分位数和百分位数,四分位数是将数据由小到大排序后，位于全部数据1/4位置上的数值。十分位数是将数据由小到大排序后，位于全部数据1/10位置上的数值。百分位数是将数据由小到大排序后，位于全部数据1/100位置上的数值。中位数也就是第二个四分位数、第五个十分位数、第五十个百分位数。分位数与其它指标结合，可以更详细地反映数据的分布特征。,3-

10、27,箱线图（boxplot）,箱线图由一组数据的最小值（xmin）、第一四分位数(Q1)、中位数(Me)、第三四分位数(Q3)、最大值（xmax）等五个数值来绘成。利用箱线图可以观察数据分布的范围、中心位置和对称性等特征，还可以进行多组数据分布的比较。,3-28,（三）众数、中位数和算术平均数的比较,1.算术平均数综合反映了全部数据的信息，众数和中位数由数据分布的特定位置所确定。 2.算术平均数和中位数在任何一组数据中都存在而且具有惟一性，但计算和应用众数有两个前提条件：（1）数据项数众多；（2）数据具有明显的集中趋势。 3.算术平均数只能用于定量（数值型）数据，中位数适用于定序数据和

11、定量数据，众数适用于所有形式（类型、计量层次）的数据,3-29,（续）,4.算术平均数要受数据中极端值的影响。而众数和中位数都不受极端值的影响。为了排除极端值的干扰，可计算切尾均值，即去掉数据中最大和最小的若干项数值后计算的均值. 切尾均值是将均值与中位数取长补短的结果。 5. 算术平均数可以推算总体的有关总量指标，而中位数和众数则不宜用作此类推算。,3-30,算术平均数和众数、中位数的数量关系,在对称分布中，三者相等.即：均值 = Me =Mo；,在左偏分布中，一般有：均值MeMo,在右偏分布中，一般有：Mo Me 均值。,皮尔生经验公式：在轻微偏态时，三者的近似关系：,3-31,第二

12、节统计变量离散程度的测定,一、测定离散程度的指标及其作用二、极差、四分位差和平均差三、方差和标准差四、离散系数五、异众比率,3-32,一则笑话,如果你一只脚放在摄氏 1 度的水里，另一只脚放在摄氏 79 度的水里，平均水温 40 度，你一定感觉很舒服？显然，只了解变量的集中趋势是不够的！,3-33,一、测定离散程度的指标及其作用,1.说明数据的分散程度，反映变量的稳定性、均衡性。数据之间差异越大，变量的稳定性或均衡性越差。 2.衡量平均数的代表性。离散程度越大，平均数的代表性就越小。 3. 统计推断的重要依据判别统计推断前提条件是否成立，衡量推断效果好坏的重要尺度。,3-

13、34,二、极差、四分位差和平均差,（一）极差（Range）极差是一组数据的最大值（xmax）与最小值（xmin）之差，通常用 R 表示。对于总体数据而言，极差也就是变量变化的范围或幅度大小，故也称为全距。组距数列中，极差最高组的上限-最低组的下限。优缺点：计算简便、含义直观、容易理解。它未考虑数据的中间分布情况，不能充分说明全部数据的差异程度。,3-35,（二）四分位差,第3四分位数（Q3）与第1四分位数（Q1）之差，常用Qd表示。计算公式为：实质上是两端各去掉四分之一的数据以后的极差，表示占全部数据一半的中间数据的离散程度。四分位差越大，表示数据离散程度越大。是在一定程度上对极

14、差的一种改进，避免了极端值的干扰。但它对数据差异的反映仍然是不充分的。四分位差是一种顺序统计量，适用于定序数据和定量数据。尤其是当用中位数来测度数据集中趋势时.,3-36,（三）平均差（Average Deviation）,平均差各个数据与其均值的离差绝对值的算术平均数，反映各个数据与其均值的平均差距，通常以A.D表示。计算公式为：未分组数据：,平均差含义清晰，能全面地反映数据的离散程度。但取离差绝对值进行平均，数学处理上不够方便，在数学性质上也不是最优的。,已分组数据：,3-37,三、方差和标准差,1. 方差（Variance）的概念和计算方差是各个数据与其均值的离差平方的算术平均数.

15、总体方差（2）的计算公式为：未分组数据：,分组数据：,样本方差（通常用 S2 表示）分母应为（n -1）。,3-38,标准差（standard Deviation）,标准差方差的算术平方根。总体标准差一般用表示。其计算公式为：未分组数据：,分组数据：,标准差比方差更容易理解。在社会经济现象的统计分析中，标准差比方差的应用更为普遍，经常被用作测度数据与均值差距的标准尺度。,样本标准差（S）分母应为（n-1）。,3-39,【例3-9】计算平均差和方差、标准差,3-40,2.方差的主要数学性质,(3)分组条件下，总体的方差等于组间方差与各组方差平均数之和。,(1)常数的方差等于零。a为常数,

16、则 (2)变量的线性函数的方差等于变量系数的平方乘以变量的方差。设a,b为常数，y=a+bx，则有：,组间方差,各组方差平均数,如何来理解呢？以例说明。某局有7个企业其某月的产值为： 88，90，96，98，110，140，200 1、不分组,分组后：第一组：88，90，96，98 第二组：110，140，200,平均组内方差,组间方差,结论：1405.38=609.71+795.67,(4)方差的简化计算:,例：若有某车间的甲、乙二个班组，均为5个人，生产同一种产品，每人每日的产量为：甲 73，74，75，76，77 乙 50，65，70，90，100 计算其标准差并比较。解：两者平

17、均值均为75件。,计算：方法一：甲组乙组,方法二：,结果表明：由于乙组的标准差较大，其平均数的代表性较低；甲组的标准差较小，其平均数的代表性较高。问题：得出上述结果的前提是什么？,3-46,四、离散系数,前面的各变异指标都是有计量单位的，它们的数值大小不仅取决于数据的离散程度，还要受数据本身水平高低和计量单位的影响。对不同变量（或不同数据组）的离散程度进行比较时，只有当它们的平均水平和计量单位都相同时，才能利用上述变异指标来分析；否则，须利用离散系数来比较它们的离散程度。例如，哪个变量的差异较大：体重，还是身高？例如，体重的差异哪个较大：父亲，还是婴儿？父亲：平均体重=70 kg

18、，标准差=5 kg 婴儿： 5 kg， 1 kg,3-47,四、离散系数,离散系数是极差、四分位差、平均差或标准差等变异指标与算术平均数的比率，以相对数的形式表示变异程度。将极差与算术平均数对比得到极差系数，将平均差与算术平均数对比得到平均差系数。最常用的离散系数是就标准差来计算的，称之为标准差系数：离散系数大，说明数据的离散程度大，其平均数的代表性就差；反之亦然.,例：甲农场小麦平均亩产量为500斤，标准差为50斤；乙农场小麦平均亩产量为100斤，标准差为50斤。哪个农场平均亩产量代表性高？,解：,例：已知标志平均值为12，各标志值平方的平均数为169，试问标准差系数为多少？,五、是

19、否标志的标准差,1、是否标志是指用“是、否”或“有、无”将总体单位分为二部分的标志。 2、实质是将品质标志进行量化处理。如：合格品男全体出勤全部产品不合格品人口女职工缺勤（3）量化结果：用“1”表示具有某一标志，其单位数为n1；用“0”表示不具有此标志，其单位数为n0。全部单位数n= n1+ n0 。,4、成数：设p为具有某一标志的单位数占总体单位数的比重（或成数） p= n1 /n q为不具有某一标志的单位数占总体单位数的比重（或成数） q= n0 /n 显然，p+q=1 5、是否标志的平均数和标准差,计算列表如下：,例：某机械厂铸造车间生产6000吨铸件，合

20、格品为5400吨。试计算其平均合格品率和标准差。解：可以直接应用公式计算。,3-54,第三节变量分布的偏度与峰度,一、矩（动差）二、偏度（Skewness）三、峰度（Kurtosis）,3-55,一、矩（动差）,矩（动差）一系列刻画数据分布特征的指标的统称。变量值与数值 a 之离差的 K 次方的平均数称为变量 x 关于 a 的K 阶矩，即：,K 阶原点矩（当a = 0 时）是数据的K次方的平均数. 一阶原点矩即算术平均数；二阶原点矩即平方平均数。,K 阶中心矩（当a =均值时）是以均值为中心计算的离差 K 次方的平均数 k=1时，称为一阶中心矩，它恒等于0，即 m1=0；

21、 k=2时，称为二阶中心矩，也就是方差，即m2=2。,3-56,二、偏度（Skewness）,偏度指数据分布的不对称程度或偏斜程度。以对称分布为标准来区分偏态分布又分左偏（负偏）和右偏（正偏）.,3-57,偏态的测度方法,一般有：,（一）由均值与众数（中位数）之间的关系求偏态系数：,3-58,（二）由三个四分位数之间的关系求偏态系数,值域：-1 Sk 1,3-59,偏度系数,（三）利用 3 阶中心矩来计算偏度系数。测定偏度最常用的方法原理：若分布不对称，则 3 阶中心矩不为0。不对此程度愈严重， 3 阶中心矩的绝对值愈大。为消除量纲的影响，可除以3。,3-60,三、峰度（Kurto

22、sis）,峰度是指变量的集中程度和分布曲线的陡峭（或平坦）的程度。对峰度的度量通常以正态分布曲线为比较标准，分为正态峰度、尖顶峰度和平顶峰度.,尖顶峰度的分布曲线比正态分布曲线更加尖峭、更高更窄；平顶峰度的分布曲线比正态分配曲线更为平缓、更低更扁平。,3-61,峰度系数,原理：分布曲线的尖峭程度与偶数阶中心矩的数值大小有直接关系。以四阶中心矩m4为基础，为了消除量纲的影响，再除以标准差的四次方4所得到的相对数即可衡量峰度。,当K=0时，分布曲线为正态曲线；当K0时，为尖顶曲线，表示数据比正态分布更集中在均值附近；K的数值越大，则变量分布曲线之顶端越尖峭；当K0时，为平顶曲线，表示数据比正态分布更分散；K的数值越小，则变量分布曲线之顶端越平坦。,对于正态分布曲线有： m4 /4=3，故峰度系数为：,3-62,【例3-13】,根据表3-3的数据，计算使用寿命分布的偏度系数和峰度系数。解：,计算结果表明，偏度系数几乎为0，峰度系数略小于0，说明该产品使用寿命的分布十分接近对称分布，分布曲线顶峰略比正态分布平坦一些。总的说来，该产品的使用寿命的分布非常接近正态分布。,3-63,本章小结,测度集中趋势的各指标的含义、计算方法、特点和应用场合测度离散程度的各指标的含义、计算方法、特点和应用场合偏度与峰度的含义和测度方法利用 Excel 计算描述统计量,

展开阅读全文