第四讲数据的描述性分析.ppt

上传人:本田雅阁 文档编号:2566400 上传时间:2019-04-09 格式:PPT 页数:51 大小:655.51KB
返回 下载 相关 举报
第四讲数据的描述性分析.ppt_第1页
第1页 / 共51页
第四讲数据的描述性分析.ppt_第2页
第2页 / 共51页
第四讲数据的描述性分析.ppt_第3页
第3页 / 共51页
亲,该文档总共51页,到这儿已超出免费预览范围,如果喜欢就下载吧!
资源描述

《第四讲数据的描述性分析.ppt》由会员分享,可在线阅读,更多相关《第四讲数据的描述性分析.ppt(51页珍藏版)》请在三一文库上搜索。

1、1,第四讲 数据的描述性分析,2,教学目的和要求,通过本讲的学习,学生应该熟练掌握描述数据特征,即数据的集中趋势、离散趋势的分析方法,要求学生掌握各种测度指标的含义和计算方法,并且能够运用这些指标来研究事物或现象的总体特征和变化规律。,3,本讲内容,描述数据特征的意义 集中趋势测度指标 种类 计算 适用情况 离散趋势测度指标 种类 计算 适用情况,位置测度指标 种类 计算 适用情况 箱索图 绘制方法 作用,4,描述数据特征的意义,5,集中趋势测度指标(平均数、中位数、众数),掌握计算方法 掌握每种指标的适用情况,6,集中趋势指标1-平均数,衡量变量分布中心的指标 最常用的 集中趋势指标 容易受

2、极端值的影响 极端值:远离分布中心的数值,7,平均数的种类,简单算术平均数 加权算术平均数 几何平均数,8,简单算术平均数,公式: 适用情况 资料未分组 每一个变量值的作用相同 影响平均数大小的因素只有变量值,9,加权算术平均数,定义:将各变量值分别乘以代表该变量值重要程度的权数,然后用此乘积之和除以权数之和,所得的商为加权算术平均数。 公式:,10,加权算术平均数,适用情况 资料已分组 每一个变量值的作用不同 权数的确定方法 主观确定法(专家确定) 客观存在(频数分布表中的相对频数) 影响平均数大小的因素有 变量值的大小 权数的大小,11,根据频数分布表求平均数,62人皮尔逊智商分数平均数计

3、算表,12,13,几何平均数,公式:,几何平均数适用于比例和速度等 相对数的平均计算,14,几何平均数的应用1,15,1995-2005年中国国内生产总值环比指数为,求1995-2005平均发展速度,几何平均数的应用2,16,平均发展速度,发展速度,17,集中趋势指标2-中位数(Median),18,中位数计算方法,对于未分组数据 排序 确定Md=,19,中位数计算举例(N=6),原始资料: 10.3 4.9 8.9 11.7 6.3 7.7 按顺序排列: 4.9 6.3 7.7 8.9 10.3 11.7 位置: 1 2 3 4 5 6 中位数所在的位置为: 中位数=(7.7+8.9)/2=

4、8.3,20,中位数计算举例2 (5个数据的算例),原始数据: 24 22 21 26 20 排 序: 20 21 22 24 26 位 置: 1 2 3 4 5,中位数 = 22,21,集中趋势指标3-众数(Mode),出现次数最多的那个变量值 是一个常用的集中趋势指标 它不受极端值的影响 并非所有的数列都存在众数,22,(众数的不唯一性),无众数 原始数据: 10 5 9 12 6 8 一个众数 原始数据: 6 5 9 8 5 5 多于一个众数 原始数据: 25 28 28 36 42 42,23,众数、中位数和均值的关系,正态分布时,偏态分布时,24,离散趋势测度指标,全距 方差 标准差

5、 变异系数,反映数据 分散程度 的指标,25,离散程度指标,掌握这些指标的作用 掌握计算它们的方法 掌握每种指标的适用情况 掌握这些指标的优缺点,26,全距(Range),全距=最大值-最小值 原始资料:17 16 21 18 13 16 12 11 顺序排列:11 12 13 16 16 17 18 21 全距=21-11=10 优缺点,27,方 差,28,样本方差计算1(未分组),原始数据: 17 16 21 18 13 16 12 11,29,样本方差计算2(已分组),30,样本方差计算2续(已分组),问题:220.11说明什么 优缺点:,31,标准差(方差的平方根), 计算公式 展示的

6、信息 优缺点,32,标准差的应用,标准差度量投资风险 标准差度量产品质量的稳定性 标准差度量企业的生产及服务的质量标准,33,变异系数(标准离差率),用标准差比较两个总体分散程度时必须 具备以下条件 单位相同 数据总体水平相同 否则必须用变异系数,34,变异系数应用举例,35,集中趋势指标与离散程度指标的关系,离散程度指标大,说明总体分散或者说总体中各标志值离集中趋势指标远,那么集中趋势指标代表性就小。 离散程度指标小,说明总体集中或者说 总体中各标志值离集中趋势指标近,那么 集中趋势指标代表性就大。,36,位置测度指标,位次指标: 根据观察值在变量数列中的位置而确定的指标 常用的位置测度指标

7、有: 四分位次指标 十分位次指标 百分位次指标 四分位距,37,五大位次指标 (三个四分位次指标加上最大值及最小值),五大位次具体指: 最小值 第一四分位数 第二四分位数(中位数) 第三四分位数 最大值,38,五大位次指标位置的图示,25%,25%,25%,25%,Q1,Q3,最小值,最大值,中位数,把变量数列(从小到大排列)分成四等份,39,四分位数的确定1,原始数据: 10.3 4.9 8.9 11.7 6.3 7.7 按顺序排列: 4.9 6.3 7.7 8.9 10.3 11.7 位置: 1 2 3 4 5 6 第1四分位数的位置公式为: Q1位置= 1(n+1)/4,40,Q1 位置

8、 =1(n+1)/4=1(6+1)/4=1.75 Q1=6.3 Q2位置=2(n+1)/4=2(6+1)/4=3.5 Q2=(7.7+8.9)/2=8.3 Q3位置=3(n+1)/4=3(6+1)/4=5.25 Q3=10.3 四分位距 Qr= Q3-Q1 用于说明中间50%数据的离散程度,四分位数的确定2,41,问题: 通过分析数据的五大位次指标,能挖掘出怎样的信息?,42,62人智商分数描述性指标EXCEL输出结果:,43,44,五大位次指标的图示:箱索图,箱索图是一种将五个位次指标显示在一条横轴上,以刻划变量数列集中、离散和偏斜态势的统计图 主要作用: 用于对两个或两个以上数列的集中、离

9、散和偏斜态势作迅速而直观的对比。 识别数据中是否存在异常值,45,箱索图的画法,首先确定 第一四分位数、 第二四分位数(中位数) 第三四分位数 计算1.5倍的四分位距,46,62人智商分数的箱索图,第一四分位数 95.75 第二四分位数(中位数)107 第三四分位数117.25 四分位距21.5 Q3 +1.5*21.5=107.25+32.25=139.5 最小值=78 最大值=135 Q1 -1.5*21.5=95.75-32.25=63.25,47,箱索图 -探索数据分布规律的常用图形,最大值,最小值,中位数,Q1,Q3,48,49,探索、描述、分析单变量截面数据的基本统计方法,50,本讲要点回顾,熟练掌握描述数据分布中心的指标 平均数、中位数、众数 熟练掌握描述数据分散程度的指标 全距、方差、标准差、变异系数 熟练掌握描述 数据分布的位次指标 熟练掌握探索数据分布规律的常用图形,51,要求:利用课外时间复习概率及概率分布的知识,(一)概率、随机变量、概率分布、期望值和方差的基本概念 (二)几个典型概率分布 二项分布 正态分布 (三)t分布、F分布,

展开阅读全文
相关资源
猜你喜欢
相关搜索

当前位置:首页 > 其他


经营许可证编号:宁ICP备18001539号-1