第二章数据集的描述方法.ppt

上传人:本田雅阁 文档编号:2614264 上传时间:2019-04-19 格式:PPT 页数:107 大小:2.01MB
返回 下载 相关 举报
第二章数据集的描述方法.ppt_第1页
第1页 / 共107页
第二章数据集的描述方法.ppt_第2页
第2页 / 共107页
第二章数据集的描述方法.ppt_第3页
第3页 / 共107页
亲,该文档总共107页,到这儿已超出免费预览范围,如果喜欢就下载吧!
资源描述

《第二章数据集的描述方法.ppt》由会员分享,可在线阅读,更多相关《第二章数据集的描述方法.ppt(107页珍藏版)》请在三一文库上搜索。

1、第二章 数据集的描述方法,学习目标,用于描述品质标志的图形 用于描述数量标志的图形 解释数值数据的属性 描述综合测量 适用综合测量分析数值数据,思 考,Us的市场份额时候远超过其他所有的竞争对手?,30%,32%,34%,36%,Us,Y,X,数据显示,定性数据的表示,数据显示,汇总表,列出各个分类及各类相关元素的数据 获得各类相应计数 可以显示为频数(计数)或者频率(),也可是两者,Row Is Category,Tally: | | | |,数据显示,条形图,Vertical Bars for Qualitative Variables,Bar Height Shows Frequency

2、 or %,Zero Point,Percent Used Also,Equal Bar Widths,Frequency,数据显示,Econ.,10%,Mgmt.,25%,Acct.,65%,饼图,显示了将重量分解成各个类别 对显示相对差异比较有用 每一类百分比等于该类角度数与360的百分比(percent),Majors,(360) (10%) = 36,36,数据显示,柏拉图,类似与条形图,只是柏拉图是按从左到右根据条形图的高度按照递减的方式重新排序各分类,Vertical Bars for Qualitative Variables,Bar Height Shows Frequency

3、 or %,Zero Point,Percent Used Also,Equal Bar Widths,Frequency,思 考,如果你是某研究所的分析师,你想显示2006年各网络游览器所占份额,试着用条形图、饼图和柏拉图描述以下数据,条形图解决方案*,Market Share (%),Browser,饼图的解决方案*,Market Share,柏拉图解决方案*,Market Share (%),Browser,定量数据表示方法,数据显示,茎叶图,1. 将每个观察数据都划分成茎值和叶值 茎值定义了类别 叶值定义了每一类的频数(计数),2. Data: 21, 24, 24, 26, 27,

4、27, 30, 32, 38, 41,26,2,144677,3,028,4,1,数据显示,制作频数分布表的步骤,定义范围 选择组数 通畅在5-15组之间 组距计算 (宽度) 定义组界(限制) 计算组中值 计算分配到各类的观测值计数,例:频数分布表,原始数据: 24, 26, 24, 21, 27 27 30, 41, 32, 38,组距,(下限 + 上限) / 2,组距,类别,组中值,频率,15.5 25.5,20.5,3,25.5 35.5,30.5,5,35.5 45.5,40.5,2,相对频率( %)分布表,百分比分布,相对频率分布,Class,Prop.,15.5 25.5,.3,2

5、5.5 35.5,.5,35.5 45.5,.2,Class,%,15.5 25.5,30.0,25.5 35.5,50.0,35.5 45.5,20.0,数据显示,0,1,2,3,4,5,直方图,Frequency Relative Frequency Percent,0 15.5 25.5 35.5 45.5 55.5,Lower Boundary,Bars Touch,Class,Freq.,15.5 25.5,3,25.5 35.5,5,35.5 45.5,2,Count,数字资料的特性,思 考,. 引证雇员低工资一例 - 大多数的雇员收入仅为$20,000. . 董事长声称平均收入是

6、 $70,000!,$400,000,$70,000,$50,000,$30,000,$20,000,标准符号表示,测量,样本,总体,均值,标准差,S,方差,数目,n,N,数据的数字属性,中心趋势(位置),方差 (离差),形状,数字数据的属性和测量,数值数据属性,均值,中位数,众数,中心趋势,全距,方差,标准差,方差,百分位,相对位置,四分位差,Zscores,中心趋势,数字数据的属性和测量,数值数据属性,均值,中位数,众数,中心趋势,全距,方差,标准差,方差,百分位,相对位置,四分位差,Zscores,均值,测量中心趋势 最常用的衡量标准 充当平衡点 容易受到极端值的影响(异常值) 公式 (

7、样本均值),求均值,原始数据: 10.3 4.9 8.9 11.7 6.3 7.7,X,X,n,X,X,X,X,X,X,i,i,n,1,1,2,3,4,5,6,6,10,3,4,9,8,9,11,7,6,3,7,7,6,8,30,.,.,.,.,.,.,.,数字数据的属性和测量,数值数据属性,均值,中位数,众数,中心趋势,全距,方差,标准差,方差,百分位,相对位置,四分位差,Zscores,中位数,测量中心趋势 将变量排序后处于中间位置的变量值 如果n为奇数,则为排序序列位于中间的变量值 If 如果n为偶数,则为中间位置两个变量值的平均 变量序列中间位置 不受极端值的影响,中位数案例 n为奇数

8、的例子,Raw Data: 24.1 22.6 21.5 23.7 22.6 Ordered: 21.5 22.6 22.6 23.7 24.1 Position: 1 2 3 4 5,Positioning,Point,Median,n,1,2,5,1,2,3,0,22,6,.,.,中位数案例 n为偶数的例子,Raw Data: 10.3 4.9 8.9 11.7 6.3 7.7 Ordered: 4.9 6.3 7.7 8.9 10.3 11.7 Position: 1 2 3 4 5 6,Positioning,Point,Median,n,1,2,6,1,2,3,5,7,7,8,9,2

9、,8,30,.,.,.,.,数字数据的属性和测量,数值数据属性,均值,中位数,众数,中心趋势,全距,方差,标准差,方差,百分位,相对位置,四分位差,Zscores,众数,测量集中趋势 出现最多的值 不受极端值影响 可以没有众数或有几个众数 可以用于定量数据也可用于定性数据,众数的例子,没有众数 Raw Data: 10.3 4.9 8.9 11.7 6.3 7.7 一个众数 Raw Data: 6.3 4.9 8.9 6.3 4.9 4.9 多于一个的众数 Raw Data: 21 28 28 41 43 43,思 考,假设你是银河证券公司是金融分析师,你收集了某新发行股票的收盘价如下: 17

10、, 16, 21, 18, 13, 16, 12, 11. 描述这只新股价格的中心趋势,中心趋势的解决方案*,均值,X,X,n,X,X,X,i,i,n,1,1,2,8,8,17,16,21,18,13,16,12,11,8,15,5,.,中心趋势的解决方案*,中位数 Raw Data: 17 16 21 18 13 16 12 11 Ordered: 11 12 13 16 16 17 18 21 Position: 1 2 3 4 5 6 7 8,Positioning Point,Median,n,1,2,8,1,2,4,5,16,16,2,16,.,中心趋势的解决方案*,众数 Raw D

11、ata: 17 16 21 18 13 16 12 11 Mode = 16,中心趋势测量总结,Measure,Formula,Description,均值,X,i,/,n,均衡点,中位数,(,n,+1),位置,2,排序后中间位置,的变量值,众数,无,出现频率最高的值,形 状,形状,描述数据如何分布 形状的测量 偏度 = 对称,右偏,左偏,对称,Mean,=,Median,Mean,Median,Median,Mean,方 差,数字数据的属性和测量,数值数据属性,均值,中位数,众数,中心趋势,全距,方差,标准差,方差,百分位,相对位置,四分位差,Zscores,全距,测量离差 等于变量的最大值

12、与最小值之差 Range = Xlargest Xsmallest 忽略了数据的分布,7,8,9,10,7,8,9,10,Range = 10 7 = 3,Range = 10 7 = 3,数字数据的属性和测量,数值数据属性,均值,中位数,众数,中心趋势,全距,方差,标准差,方差,百分位,相对位置,四分位差,Zscores,方差和标准差,测量离差 最常用的测量方面 考虑了数据的分布,4,6,10,12,X,= 8.3,8,样本方差的公式,n - 1 作为分母! (如果是总体方差则使用N),=,样本标准差的公式,S,S,X,X,n,X,X,X,X,X,X,n,i,i,n,n,2,2,1,1,2,

13、2,2,2,1,1,(,),(,),(,),(,),方差的例子,Raw Data: 10.3 4.9 8.9 11.7 6.3 7.7,S,X,X,n,X,X,n,S,i,i,n,i,i,n,2,2,1,1,2,2,2,2,1,8,3,10,3,8,3,4,9,8,3,7,7,8,3,6,1,6,368,(,),(,),(,),(,),where,.,.,.,.,.,.,.,.,思考,假设你是银河证券公司是金融分析师,你收集了某新发行股票的收盘价如下: 17, 16, 21, 18, 13, 16, 12, 11. 这只股票价格的方差和标准查是多少?,方差的解决方案*,Sample Varia

14、nce Raw Data: 17 16 21 18 13 16 12 11,S,X,X,n,X,X,n,S,i,i,n,i,i,n,2,2,1,1,2,2,2,2,1,15,5,17,15,5,16,15,5,11,15,5,8,1,11,14,(,),(,),(,),(,),where,.,.,.,.,.,标准差的解决方案*,样本标准差,S,S,X,X,n,i,i,n,2,2,1,1,11,14,3,34,(,),.,.,方差测量的总结,Measure,Formula,Description,Range全距,X,largest,X,smallest,总体延伸,样本标准差,关于样本均值的离差,

15、总体标准差,关于总体均值的离差,样本方差,(,X,i,X,),2,n, 1,关于样本均值的离差平方,标准差的理解,标准差的理解: Chebyshevs Theorem(,可应用于任何形状的数据集,标准差的理解: Chebyshevs Theorem,Chebyshevs Theorem 例子,之前我们发现新发行股票的收盘价格均值是15.5标准差为3.34. 用这些信息,建立一个至少包含了新发行股票的75%d的收盘价格.,Chebyshevs Theorem 例子,至少75%的新发行股票的收盘价将位于距离均值的2倍标准差的期间内 x = 15.5 s = 3.34,(x 2s, x + 2s)

16、= (15.5 23.34, 15.5 + 23.34) = (8.82, 22.18),标准差的理解: 经验法则,如果应用于分布对称的丘型曲线的数据集 大约 68%的数据位于 , + 期间 大约 95%的数据位于 2 , + 2期间 大约 99.7% 的数据位于 3 , +3 期间,标准差的理解: 经验法则, 3 2 + +2 + 3,经验法则例子,之前我们发现新发行股票的收盘价格均值是15.5标准差为3.34. 如果我们假设数据的分布是对称的丘型的,请计算x + s, x + 2s, x + 3s期间的百分比。.,经验法则例子,相对位置的数字测量,数字数据的属性和测量,数值数据属性,均值,

17、中位数,众数,中心趋势,全距,方差,标准差,方差,百分位,相对位置,四分位差,Zscores,相对位置的数字测量: 百分位,描述了某个测量值(数据)对照其他测量值(数据)的相对位置 第P个百分位表示有p% 数据落于这一点的下方,而(100 p)% 的数据落于该点的上方。The 中位数 =第50个百分位( 50th percentile),百分位的例子,你在四级英语考试中得分 560 。这个分数,使你处于第58的百分位上. 有多少百分比的参考试比你的分数低? 有多少百分比的参考试比你的分数高?,百分位,有多少百分比的参考试比你的分数低 58% 的参考者分数低于 560. 有多少百分比的参考试比你

18、的分数高? (100 58)% = 42%的参考者分数高于 560.,数字数据的属性和测量,数值数据属性,均值,中位数,众数,中心趋势,全距,方差,标准差,方差,百分位,相对位置,四分位差,Zscores,相对位置的数值测量: ZScores,描述了某个测量值(数据)对照其他测量值(数据)的相对位置,测量了一个数据与均值的距离相对于标准差的个数(倍数)Measures the number of standard deviations away from the mean a data value is located,ZScore 例子,装配一个产品的时间均值是22.5分钟,标准差是2.5

19、分钟. 计算花20分钟装配一个产品的zscore. 计算花27.5分钟装配一个产品的zscore.,ZScore 案例,四分位& 盒形图,四分位,无中心趋势的测量,2. 把排序数据分成4等分,四分位 (Q1) 例子,Raw Data: 10.3 4.9 8.9 11.7 6.3 7.7 Ordered: 4.9 6.3 7.7 8.9 10.3 11.7 Position: 1 2 3 4 5 6,Q,Position,Q,1,1,1,4,1,6,1,4,1,75,2,6,3,1,n,(,),(,),.,.,四分位 (Q2) 例子,Raw Data: 10.3 4.9 8.9 11.7 6.3

20、 7.7 Ordered: 4.9 6.3 7.7 8.9 10.3 11.7 Position: 1 2 3 4 5 6,Q,Position,Q,2,2,1,4,2,6,1,4,3,5,7,7,8,9,2,8,3,2,n,(,),(,),.,.,.,.,四分位 (Q3) 例子,Raw Data: 10.3 4.9 8.9 11.7 6.3 7.7 Ordered: 4.9 6.3 7.7 8.9 10.3 11.7 Position: 1 2 3 4 5 6,Q,Position,Q,3,3,1,4,3,6,1,4,5,25,5,10,3,3,n,(,),(,),.,.,数字数据的属性和测

21、量,数值数据属性,均值,中位数,众数,中心趋势,全距,方差,标准差,方差,百分位,相对位置,四分位差,Zscores,四分位差,离散度的测量 也叫做中心伸展(midspread) 四分位差等于第3个分位点与第1个分位点的差 Interquartile Range = Q3 Q1 4. 是处于中间50%的数据延展 5. 不受极端值的影响,思考,假设你是银河证券公司是金融分析师,你收集了某新发行股票的收盘价如下: 17, 16, 21, 18, 13, 16, 12, 11. 请计算四分位值Q1 和 Q3,以及四分位差,Q1 Raw Data: 17 16 21 18 13 16 12 11 Or

22、dered: 11 12 13 16 16 17 18 21 Position: 1 2 3 4 5 6 7 8,四分位的解决方案*,Q,Position,Q,1,1,1,4,1,8,1,4,2,5,12,5,1,n,(,),(,),.,.,四分位的解决方案*,Q3 Raw Data: 17 16 21 18 13 16 12 11 Ordered: 11 12 13 16 16 17 18 21 Position: 1 2 3 4 5 6 7 8,Q,Position,Q,3,3,1,4,3,8,1,4,6,75,7,18,3,n,(,),(,),.,四分位差的解决方案*,Interquar

23、tile Range Raw Data: 17 16 21 18 13 16 12 11 Ordered: 11 12 13 16 16 17 18 21 Position: 1 2 3 4 5 6 7 8,Interquartile Range,Q,Q,3,1,18,0,12,5,5,5,.,.,.,盒形图,1. 下面概要使用5个数字作为图形中的数据显示,Median,4,6,8,10,12,Q,3,Q,1,X,largest,X,smallest,形状 & 盒形图,右偏,左偏,对称,Q,1,Median,Q,3,Q,1,Median,Q,3,Q,1,Median,Q,3,绘制二变量关系的图

24、形,绘制二变量关系的图形,描述两个数量变量的关系variables 用散点图绘制,例子:散点图,你是孩之宝玩具公司的市场分析员,你收集到以下数据: Ad $ (x) Sales (Units) (y) 1 1 2 1 3 2 4 2 5 4 画出数据的散点图,例子:散点图,0,1,2,3,4,0,1,2,3,4,5,Sales,Advertising,时间序列图,时间序列图,用于绘制随着时间产生的数据 显示数据在时间上的趋势和变化 横轴记录了时间 纵轴记录了测量值 用直线将测量值的点连接起来,例:时间序列图,表中的数据显示了2006年纽约市普通汽油8个星期的平均零售价格。 画出这一数据的时间序

25、列图.,时间序列图,Date,Price,Distorting the Truth with Descriptive Techniques,展现数据的一些错误,使用“图表垃圾” 进行数据批量比较是没有相对基础 压缩纵轴 纵轴没有0点,图形垃圾,坏的表述,好的表示,1960: $1.00,1970: $1.60,1980: $3.10,1990: $3.80,Minimum Wage,Minimum Wage,0,2,4,1960,1970,1980,1990,$,没有相对基础,好的表述,As by Class,As by Class,坏的表述,0,100,200,300,FR,SO,JR,SR

26、,Freq.,0%,10%,20%,30%,FR,SO,JR,SR,%,Compressing Vertical Axis,Good Presentation,Quarterly Sales,Quarterly Sales,Bad Presentation,0,25,50,Q1,Q2,Q3,Q4,$,0,100,200,Q1,Q2,Q3,Q4,$,No Zero Point on Vertical Axis,Good Presentation,Monthly Sales,Monthly Sales,Bad Presentation,0,20,40,60,J,M,M,J,S,N,$,36,39,42,45,J,M,M,J,S,N,$,结论,用途描述定性数据 用途描述定量数据 解释定量数据的属性 描述数据的概扩测量 使用概扩测量分析数字数据,

展开阅读全文
相关资源
猜你喜欢
相关搜索

当前位置:首页 > 其他


经营许可证编号:宁ICP备18001539号-1