第3章数据的整理与图表展示.ppt

上传人:本田雅阁 文档编号:2602919 上传时间:2019-04-16 格式:PPT 页数:77 大小:16.83MB
返回 下载 相关 举报
第3章数据的整理与图表展示.ppt_第1页
第1页 / 共77页
第3章数据的整理与图表展示.ppt_第2页
第2页 / 共77页
第3章数据的整理与图表展示.ppt_第3页
第3页 / 共77页
亲,该文档总共77页,到这儿已超出免费预览范围,如果喜欢就下载吧!
资源描述

《第3章数据的整理与图表展示.ppt》由会员分享,可在线阅读,更多相关《第3章数据的整理与图表展示.ppt(77页珍藏版)》请在三一文库上搜索。

1、第 3 章 数据的整理与图表展示,第 3 章 数据的整理与图表展示,3.1 数据的预处理 3.2 品质型数据的整理与显示 3.3 数值型数据的整理与显示 3.4 合理使用图表,学习目标,了解数据预处理的内容和目的 掌握品质型数据的整理与显示方法 掌握数值型数据的整理与显示方法 用Excel作频数分布表和图形 合理使用图表,3.1 数据的预处理,3.1.1 数据审核 3.1.2 数据筛选 3.1.3 数据排序 3.1.4 数据透视表,数据的预处理,数据审核 检查数据中的错误 数据筛选 找出符合条件的数据 数据排序 升序和降序 寻找数据的基本特征 数据透视 按需要汇总,数据审核,数据审核原始数据

2、(raw data),完整性审核 应调查的单位或个体是否有遗漏 所有的调查项目或变量是否填写齐全 准确性审核 数据是否真实反映实际情况,内容是否符合实际 数据是否有错误,计算是否正确等,数据审核二手数据 (second hand data),适用性审核 弄清楚数据的来源、数据的口径以及有关的背景材料 确定数据是否符合自己分析研究的需要 时效性审核 尽可能使用最新的数据 确认是否有必要做进一步的加工整理,数据筛选与排序,数据筛选 (data filter),剔除不符合要求或有明显错误的数据 筛选出符合特定条件的数据,用Excel进行数据筛选,8名学生的考试成绩数据,数据筛选 (data filt

3、er),要求:筛选出各科成绩都高于70分的名单。,:自动筛选、高级筛选,数据排序 (data rank),作用 以发现一些明显的特征或趋势,找到解决问题的线索 有助于对数据进行检查纠错 为重新归类或分组等提供依据 在某些场合,排序本身就是分析的目的之一 可借助于计算机完成,数据排序 (方法),分类数据的排序 字母型数据 有升序降序之分,但习惯上用升序 汉字型数据 可按汉字的首位拼音字母排序 也可按笔画排序,其中也有笔画多少的升序降序之分 数值型数据的排序 递增排序:由小到大 递减排序:由大到小,数据透视表,数据透视表 (pivot table ),可以从复杂的数据中提取有用的信息 可以对数据表

4、的重要信息按使用者的习惯或分析要求进行汇总 形成一个符合需要的交叉表(列联表) 在利用数据透视表时,数据源表中的首行必须有列标题,数据透视表 (用Excel创建数据透视表),第1步:在Excel工作表中建立数据清单 第2步:选中数据清单中的任意单元格,并选择【数据】菜单 中的【数据透视表和数据透视图】 第3步:确定数据源区域 第4步:在【向导3步骤之3】中选择数据透视表的输出位置 。然后选择【布局】 第5步:在【向导布局】对话框中,依次将”分类变量“拖 至左边的“行”区域,上边的“列”区域,将需要汇 总的“变量” 拖至“数据区域” 第6步:然后单击【确定】,自动返回【向导3步骤之3】对 话框。

5、然后单击【完成】,即可输出数据透视表,注:2007版本 : 【插入】【数据透视表和数据透视图】,3.2 品质型数据的整理与展示,3.2.1 分类数据的整理与图示 3.2.2 顺序数据的整理与图示,3.2.1 品质型数据的分类与分布表 3.2.2 品质型数据的图示,数据的整理与展示 (基本问题),对品质型数据主要是 作分类整理 把整理的结果制成分布表 根据分布表绘制所需图形 对数值型数据主要是 作分组整理 把整理的结果制成分布表 根据分组数据和未分组数据绘制所需图形 适合于低层次数据的方法也适合于高层次的数据;但适合于高层次数据的方法并不适合于低层次的数据,品质型数据的分类与分布表,品质数据的分

6、类与分布表 (基本过程),列出各类别 制作频数分布表、累积频数分布表,频数(累积频数)分布(表),品质数据的分类与分布表 (例题分析),【例】一家市场调查公司为研究不同品牌饮料的市场占有率,对随机抽取的一家超市进行了调查。调查员在某天对50名顾客购买饮料的品牌进行了记录,如果一个顾客购买某一品牌的饮料,就将这一饮料的品牌名字记录一次 。右边就是记录的原始数据,用Excel制作频数分布表,品质数据的分类与分布表 (例题分析),方法一:直方图法 制作数据文件 两列:品牌名称与代码 设置接收区域 列出与接收区域代码对应的类别 工具(数据)数据分析直方图 修改分布表,方法二:数据透视法 制作数据文件

7、一列:品牌名称 数据分析(插入)数据透视表,用Excel制作频数分布表的2种方法,50名顾客购买饮料品牌的频数分布,品质数据的图示柱型图 (bar Chart),用宽度相同的条形的高度或长短来表示各类别数据的图形 有单式条形图、复式条形图等形式 绘制时,各类别可以放在纵轴,称为条形图,也可以放在横轴,称为柱形图(column chart),品质数据的图示柱型图 (例题分析),品质数据的图示帕累托图(pareto chart),按各类别数据出现的频数多少排序 绘制柱形图,用Excel制作帕累托图:“直方图”、“频数分布表”,品质数据的图示饼图 (pie Chart),主要用于表示样本或总体中各组

8、成部分所占的比例 用于研究结构性问题,品质数据的图示环形图 (doughnut chart),与饼图类似,但又有区别 饼图只能显示一个样本或总体各部分所占的比例 环形图则可以同时绘制多个样本或总体的数据系列,每一个样本或总体的数据系列为一个环 用于结构比较研究,品质数据的图示环形图 (例题分析),【例】在一项城市住房问题的研究中,研究人员在甲乙两个城市各抽样调查300户,其中的一个问题是:“您对您家庭目前的住房状况是否满意?” 1非常不满意;2不满意;3一般;4满意;5非常满意。,品质数据的图示环形图 (doughnut chart) (例题分析),3.3 数值型数据的整理与展示,3.3.1

9、数值型数据的分组与分布表 3.3.2 数值型数据的图示,数值型数据的分组与分布表,分组与分布表 (分组),分组方法,分组与分布表 (单变量值分组),1.将一个变量值作为一组 2.适合于离散变量且变量值较少的情况,家庭户数按人口分布情况,分组与分布表 (组距分组:要点),将变量值的一个区间作为一组 适合于连续变量和变量值较多的离散变量 需要遵循“不重不漏”的原则 可采用等距分组,也可采用不等距分组,分组与分布表 (组距分组:步骤),确定组数:应以能够显示数据的分布特征和规律为目的 组数一般为5K 15 可以通过数据排序观察应分组数 当数据很多且基本呈单峰对称分布时,可以按美国统计学家斯特吉斯(

10、Sturges) 提出的经验公式确定组数K 确定组距:组距(class width)是一个组的上限与下限之差 组距( 最大值 - 最小值) 组数 3. 确定组限:上限与下限,分组与分布表 (组距分组:几个概念),1. 下限(low limit) :一个组的最小值 2. 上限(upper limit) :一个组的最大值 组距(class width) :上限与下限之差 开口组:缺少一个组限的组 组中值(class midpoint) :下限与上限之间的中点值,分组与分布 表 (组距分组:例题分析),【例】某电脑公司2002年前四个月各天的销售量数据(单位:台)。试对数据进行分组,分组与分布表 (

11、组距分组:例题分析),确定组数 数据排序观察 根据斯特吉斯提出的经验公式得组数K为 确定组距 组距(最大值 - 最小值)组数 =(237 - 141) 10 = 9.6 10 确定组限,注:组距一般取5或10的倍数,分组与分布表 (分布:例题分析),方法一:直方图法 制作数据文件 一列 设置接收区域 列出与接收区域对应的组别 工具(数据)数据分析直方图 修改分布表,方法二:函数FREQUENCY法 制作数据文件 一列 设置接收区域 列出与接收区域对应的组别 选择输出区域 插入函数统计函数 FREQUENCY 先按F2,再按住Ctrl+按住Shift+按一下Enter,用Excel制作频数分布表

12、,分组与分布表 (分布:例题分析),组限重叠,上限不在内,电脑编制上限在内,分组与分布表 (分布:例题分析),组限间断,连续变量不能间断,分组与分布表 (分布:例题分析),开口组,数值型数据的图示,分组数据直方图和折线图,分组数据直方图 (histogram),用于展示分组数据分布的一种图形 用矩形的宽度和高度来表示频数分布 本质上是用矩形的面积来表示频数分布 在直角坐标中,用横轴表示数据分组,纵轴表示频数或频率,各组与相应的频数就形成了一个矩形,即直方图 直方图下的总面积等于1,用Excel制作频数分布直方图(柱形图直方图),分组数据的图示 (直方图的绘制),某电脑公司销售量分布的直方图,我

13、一眼就看出来了,销售量在170180之间的天数最多!,分组数据直方图 (直方图与柱形图的区别),柱形图是用柱型的长度表示各类别频数的多少,其宽度(表示类别)则是固定的 直方图是用面积表示各组频数的多少,矩形的高度表示每一组的频数或百分比,宽度则表示各组的组距,其高度与宽度均有意义 直方图的各矩形通常是连续排列,柱形图则是分开排列 柱形图主要用于展示分类数据,直方图则主要用于展示数值型数据,分组数据折线图 (frequency polygon),折线图也称频数多边形图 是在直方图的基础上,把直方图顶部的中点(组中值)用直线连接起来,再把原来的直方图抹掉 折线图的两个终点要与横轴相交,具体的做法是

14、 第一个矩形的顶部中点通过竖边中点(即该组频数一半的位置)连接到横轴,最后一个矩形顶部中点与其竖边中点连接到横轴 折线图下所围成的面积与直方图的面积相等,二者所表示的频数分布一致,用Excel制作频数分布折线图(分布表折线图),分组数据折线图 (frequency polygon),折线图与直方图 下的面积相等!,140,150,210,某电脑公司销售量分布的折线图,190,200,180,160,170,220,230,240,销售量(台),数值型数据的图示,STATISTICA,未分组数据茎叶图和箱线图,未分组数据茎叶图 (stem-and-leaf display),用于显示未分组的原始

15、数据的分布 由“茎”和“叶”两部分构成,其图形是由数字组成的 以该组数据的高位数值作树茎,低位数字作树叶 树叶上只保留最后一位数字 对于n(20 n 300)个数据,茎叶图最大行数不超过 L = 10 lg n 6. 茎叶图类似于横置的直方图,但又有区别 直方图可观察一组数据的分布状况,但没有给出具体的数值 茎叶图既能给出数据的分布状况,又能给出每一个原始数值,保留了原始数据的信息 直方图适用于大批量数据,茎叶图适用于小批量数据,取整,未分组数据茎叶图 (例题分析),某电脑公司销售量分布的茎叶图,未分组数据茎叶图 扩展的茎叶图(例题分析),未分组数据箱线图 (box plot),用于显示未分组

16、的原始数据的分布 由一组数据的5个特征值绘制而成,它由一个箱子和两条线段组成 绘制方法 首先找出一组数据的5个特征值:最大值、最小值、中位数Me和两个四分位数(下四分位数QL和上四分位数QU) 连接两个四分位数画出箱子,再将两个极值点与箱子相连接 该箱线图也称为Median/Quart./Range箱线图,未分组数据单批数据箱线图 (箱线图的构成),中位数,4,6,8,10,12,Median/Quart./Range箱线图,未分组数据单批数据箱线图 (例题分析),分布的形状与箱线图,不同分布的箱线图,未分组数据多批数据箱线图 (例题分析),【例】 从某大学经济管理专业二年级学生中随机抽取11

17、人,对8门主要课程的考试成绩进行调查,所得结果如表。试绘制各科考试成绩的批比较箱线图,并分析各科考试成绩的分布特征,用Excel制作箱线图(股价图箱线图),未分组数据多批数据箱线图 (例题分析Median/Quart./Range),8门课程考试成绩的Median/Quart./Range箱线图,是否存在极端值 离散程度 水平高低 分布是否对称,11名学生8门课程考试成绩的Median/Quart./Range箱线图,未分组数据多批数据箱线图 (例题分析Median/Quart./Range),是否存在极端值 离散程度 水平高低 分布是否对称,数值型数据的图示,时间序列数据线图,时间序列数据线

18、图 (line plot),表示时间序列数据趋势的图形 时间一般绘在横轴,数据绘在纵轴 图形的长宽比例大致为10 : 7 一般情况下,纵轴数据下端应从“0”开始,以便于比较。数据与“0”之间的间距过大时,可以采取折断的符号将纵轴折断,时间序列数据线图 (例题分析),【例】我国19912003年城乡居民家庭的人均收入数据如表。试绘制线图,用Excel制作时间序列线图(散点图),时间序列数据线图 (例题分析),散点图,数值型数据的图示,多变量数据的图示,两个变量间的关系二维散点图 (2D Scatterplots),展示两个变量之间的关系 用横轴代表变量x,纵轴代表变量y,每组数据(xi,yi)在

19、坐标系中用一个点表示,n组数据在坐标系中形成的n个点称为散点,由坐标及其散点形成的二维数据图,两个变量间的关系二维散点图 (2D Scatterplots),三个变量间的关系气泡图 (bubble chart),显示三个变量之间的关系 图中气泡数据点的大小依赖于第三个变量,也称为蜘蛛图(spider chart) 显示多个变量的图示方法 在显示或对比各变量的数值总和时十分有用 假定各变量的取值具有相同的正负号,总的绝对值与图形所围成的区域成正比 可用于研究多个样本之间的相似程度,多变量数据雷达图 (radar chart),多变量数据雷达图 (例题分析),【例】2003年我国城乡居民家庭平均每

20、人各项生活消费支出构成数据如表。试绘制雷达图,今天的主食是面包,多变量数据雷达图 (例题分析),数据类型及图示 (小结),3.4 合理使用图表,3.4.1 鉴别图形优劣的准则 3.4.2 统计表的设计,一张好的图表应包括以下基本特征 显示数据 让读者把注意力集中在图表的内容上,而不是制作图表的程序上 避免歪曲 强调数据之间的比较 服务于一个明确的目的 有对图表的统计描述和文字说明 5种鉴别图表优劣的准则:一张好的图表应当 精心设计、有助于洞察问题的实质 使复杂的观点得到简明、确切、高效的阐述 能在最短的时间内以最少的笔墨给读者提供最大量的信息 是多维的 表述数据的真实情况,鉴别图表优劣的准则,

21、统计表的结构,行标题,列标题,数字资料,表头,附加,合理安排统计表的结构 总标题内容应满足3W(When,Where,What)要求 数据计量单位相同时,可放在表的右上角标明,不同时应放在每个变量后或单列出一列标明 表中的上下两条横线一般用粗线,其他线用细线 通常情况下,统计表的左右两边不封口 表中的数据一般是右对齐,有小数点时应以小数点对齐,而且小数点的位数应统一 对于没有数字的表格单元,一般用“”表示 必要时可在表的下方加上注释,统计表的设计,本章小结,数据预处理的内容和目的 品质型数据的整理与显示方法 数值型数据的整理与显示方法 合理使用图表 用Excel作频数分布表和图形,结 束,THANKS,

展开阅读全文
相关资源
猜你喜欢
相关搜索

当前位置:首页 > 其他


经营许可证编号:宁ICP备18001539号-1