十章单变量的描述统计.ppt

上传人:本田雅阁 文档编号:2641125 上传时间:2019-04-28 格式:PPT 页数:26 大小:177.51KB
返回 下载 相关 举报
十章单变量的描述统计.ppt_第1页
第1页 / 共26页
十章单变量的描述统计.ppt_第2页
第2页 / 共26页
十章单变量的描述统计.ppt_第3页
第3页 / 共26页
十章单变量的描述统计.ppt_第4页
第4页 / 共26页
十章单变量的描述统计.ppt_第5页
第5页 / 共26页
点击查看更多>>
资源描述

《十章单变量的描述统计.ppt》由会员分享,可在线阅读,更多相关《十章单变量的描述统计.ppt(26页珍藏版)》请在三一文库上搜索。

1、第十章 单变量的描述统计,本章主要内容:描述统计的基本方法、集中趋势与离散趋势分析。,第一节 描述统计的基本技术,描述性分析是对已经初步整理的数据资料进行分析,并用统计量对这些资料进行描述的一种方法; 描述统计只是描述样本属性或变量关系,是对样本观察的结果。 一、频数与频数分布 二、统计表 三、统计图,一、频数与频数分布,统计学中的分布:是指一个变量的各个取值出现的次数或频率。 频数分布(Frequency distribution):就是指一组数据中取不同值的个案的次数分布情况,它一般以频数分布表的形式表达。 频率分布(percentages distribution)是一组数据中不同取值的

2、频数相对于总数的比率分布情况. 常以百分比的形式来表达.,X年统计学历分布,分布表的作用:一是简化资料;二是描述;三是为深入分析有关现象打下基础.,二、统计表(Statistical tables),统计表 是用表格形式表示变量的分布。 统计表结构 统计表类型,统计表格(结构),从外表形式上看,统计表由序号、总标题(表的名称)、标目(横行标题、纵栏标题)、表身(指标数值)、表注四部分组成。 表注。写于表的下面。对标题补充说明;或说明数据来源、附记等内容。,资料来源: 中国统计年鉴(2002) ,五年财政收支情况,2.简单分组表(总体仅按一个标志进行分组),某村各户年人均收入统计表,1.简单表(

3、总体未做任何分组) 某村历年人均收入,统计表格(类型),3.复合分组表,是总体按两个以上标志进行层叠分组的统计表,它又称为交互分类表,它能表现两个分组标志之间的关系。 某村家庭规模和经济情况统计表,三、统计图(Statistical graphs),即用图形的形式来表示变量的分布。 1.圆瓣图(pie graphs) 2.条形图(Bar graphs) 3.直方图(Histograms) 4.折线图 (Polygon),圆 瓣 图(pie graphs),圆瓣图是用一个圆代表现象总体,每一瓣代表现象中的一类,其大小代表它在总体中所占的百分比频率。 圆瓣图多用于描述定类变量的分布。,条形图(Ba

4、r graphs),用于描述定类与定序变量的分布,它是以长条的高度表示变量不同取值的频率(次)分布的,其中长条的宽度没有意义,一般均画成等宽长条。长条的排列可以是离散的,也可以是紧挨着的。,直方图(Histograms),直方图也是由紧挨着的长条构成的,但与条形图不同的是,它的条形的宽度是有意义的,表示组距。 它是用长条的面积表示频率(次)的大小。 长条的纵轴高度表示频率(次)密度: 频率(次)密度=频率(次)/组距 直方图仅适用与定距变量。,折线图(Polygon),折线图是用直线连接直方图中条形顶端的中点而成的。 显然,当组距逐渐减少时,折线的形状也将逐渐变为平滑,其趋势是一条连续的曲线。

5、,第二节 集中趋势测量,集中趋势是指反映变量分布的特征值。该特征值又称作集中量数 它是代表一组数据典型水平或集中趋势的量,反映频数分布中大量数据向某一点集中的情况。 一、定类变量:众数 二、定序变量:中位数 三、定距变量:平均值 四、众数、中位数、平均数的比较,一、定类变量:众数,众数(简写Mo)是一组数据中出现次数最多(即频数最高)的那个数值 众数与平均数一样也可用来概括反映总体的一般水平或典型情况. 其计算方法分两类: (1)单值分组资料(观察法) 最大的频数对应的标志值=众数 (2)组距分组资料 (组中值法) 最大的频数对应的组组中值=众数.,众数示例,最大频数组为19岁组 众数值为19

6、.5 因为这是年龄组。,二、定序变量:中位数,中位数(Md)把一组数据按值的大小顺序排列起来,处于中央位置的那个数值就叫中位数. 计算中位数有下面两种情况: (1)用原始资料,当样本为偶数时,以中间两个数值的平均数作为中位数.,(2)用分组资料,L=中位数之真实下限 f =各组之次数 i =中位数之组距 Cf =下限之累加次数 f m=中位数所在组次数,三、定距变量:平均值,平均数 是总体各单位数值之和除以总体单位数之商。 应用于定距、定比变量 计算公式:,(单值未分组资料 ),注:若为组距分组资料 ,则先计算出各组的组中值。,(单值分组资料 ),组距分组资料计算平均数示例,=,四、众数、中位

7、数、平均数的比较,三者都反映了变量的集中趋势,但各自适用对象稍有不同: 众值:适用于定类、定序、定距变量; 中位值:适用于定序、定距变量; 均值:适用于定距变量。 一般说来均值利用了更多的信息,更全面和准确.其稳定性要好。 两种不适用均值的情况: 当资料是有开口组的定距测量时,只能用中位数. 平均数容易受到极端值的影响,中位数则不会受到这种影响.当存在很大极值时,宜用中位数 .,第三节 离散趋势测量,它是利用离散量数 测量离散或离中程度 离散量数 是用反映一组数据相互之间的离散程度的数值.它是变量分布的特征值。 一、定类变量:异众比率 二、定序变量:四分位差 三、定距变量:标准差与方差 四、相

8、对离散程度:离散系数,一、定类变量:异众比率,异众比率 是指非众数的次数与总体内全部总体单位的比率。 众数与异众比率配合使用。异众比率越小,众数的代表性越大。 计算公式: V= 其中n 是全部观察总数, 是众数出现的频数,二者之差就是非众数的频数. 不属于众数的个案所占的比率愈大,就表示众数的代表性愈小,以之作估计或预测时所犯的错误也就愈大。 一种可能的情况是:两两比较,众数相同,而异众比率不同。,二、定序变量:四分位差,把一组数据按大小排列成序列,然后分成四个数据数目相等的段落,各段落分界点上的数,叫四分位数。(即每组占25) 舍去资料中数值最高的25和最低的25,仅就中间50数据求其量数作

9、为离中量数,即四分位差。 计算公式: - 图中表示原始数据四个等分。Q2就是中位数,两边各有50%的个案。 计算四分位差时,先要求出Q1的位置和Q3的位置. 实际资料,分为原始资料与分组资料两种情况。,三、定距变量:标准差与方差,方差(Variance):是将观察值与其均值之差的平方和,除以全部观察总数。 标准差(Standand Deviation) :一组数据对其平均数的偏差平方的算术平均数的平方根。用S(或 )来表示 它是用得最多、也是最重要的离散量数统计量。 方差: 标准差:,四、相对离散程度:离散系数,离散系数是一种相对的离散量数统计量,它使我们能够对同一总体中的两种不同的离散量数统计量进行比较,或者对两个不同总体中的同一离散量数统计量进行比较。 离散系数 指标准差与平均数的比值,用百分比表示。 其计算公式为:,本讲结束 谢谢,

展开阅读全文
相关资源
猜你喜欢
相关搜索

当前位置:首页 > 其他


经营许可证编号:宁ICP备18001539号-1