第7章_统计描述.ppt

上传人:椰子壳 文档编号:3673469 上传时间:2019-09-20 格式:PPT 页数:70 大小:1.48MB
返回 下载 相关 举报
第7章_统计描述.ppt_第1页
第1页 / 共70页
第7章_统计描述.ppt_第2页
第2页 / 共70页
第7章_统计描述.ppt_第3页
第3页 / 共70页
第7章_统计描述.ppt_第4页
第4页 / 共70页
第7章_统计描述.ppt_第5页
第5页 / 共70页
点击查看更多>>
资源描述

《第7章_统计描述.ppt》由会员分享,可在线阅读,更多相关《第7章_统计描述.ppt(70页珍藏版)》请在三一文库上搜索。

1、第7章 统计描述,蔡德利 黑龙江八一农垦大学植物科技学院 TsaiD 2004.10.20,几个统计描述过程 Means过程 Summary过程 Univariate过程 Tabulate过程 Gchart过程 Gplot过程 计数资料的统计描述,主要内容,计量资料的描述,计量资料的统计描述,平均指标 的计算; 变异指标的计算; 资料分布形态(或特征)的图形表现。,几个统计描述过程,四个不同的过程: means过程 summary过程 univariate过程 tabulate过程 它们在功能范围和具体的操作方法上存在一定的差别,下面我们大概了解一下它们的异同点。,几个统计描述过程,相同点:

2、均可计算出均数、标准差、方差、标准误、总和、加权值的总和、最大值、最小值、全距、校正的和未校正的离差平方和、变异系数、样本分布位置的t检验统计量、遗漏数据和有效数据个数等, 均可应用by语句将样本分割为若干个更小的样本,以便分别进行分析。,几个统计描述过程,不同点: means过程、summary过程、univariate过程可以计算样本的偏度(skewness)和峰度(kurtosis),而tabulate过程不计算这些统计量; univariate过程可以计算出样本的众数(mode),其它三个过程不计算众数; summary过程执行后不会自动给出分析的结果,须引用output语句和prin

3、t过程来显示分析结果,而其它三个过程则会自动显示分析的结果; univariate过程具有统计制图的功能,其它三个过程则没有; tabulate过程不产生输出资料文件(存储各种输出数据的文件),其它三个均产生输出资料文件。,几个统计描述过程,统计制图的过程均可以实现对样本分布特征的图形表示,一般情况下可以使用的有: chart过程 plot过程 gchart过程 gplot过程 它们只差一个字母g(代表graph),统计描述功能是相同的,区别仅在于绘制出的图形的复杂和美观程度。,几个统计描述过程,chart过程和plot过程绘制的图形类似于我们用文本字符堆积起来的图形,只能概括地反映出资料分布

4、的大体形状。 实际上这两个过程绘制的图形并不能称之为图形,因为他根本就没有涉及一般意义上图形的任何一种元素(如颜色、分辨率等)。 而gchart过程和gplot过程给出的是真正意义上的图形,可以用很多的语句和选项来控制图形的各方面的性质和特征。,几个统计描述过程,chart和gchart 可以绘制出的图形主要有条形图(包括横条和竖条)、圆图、环形图和星形图等; plot和gplot 通常用一个记录中的两个变量值表示点的坐标来绘制图形,如散点图和线图等。,Means过程,一般格式 proc means ; by var-1var-n; class variables; (分组变量) freq v

5、ariable; (数值变量,表示相应记录出现的频数) id variables; output ; types requests; weight variable; (数值变量,表示相应记录的权重系数) ways list; var variables; run;,Means过程,主要功能: Means过程主要执行数据汇总的功能; 可对全部观测或在指定的分组内对指定(或默认)的变量计算各种指定(或默认)的统计量; 还可对样本的分布位置(对应于均数为0的无效假设)执行t检验过程。,Means过程,仅有Proc means为必需,其余语句均为可选项。 Proc means 语句后可以使用选项(o

6、ptions)和所要计算的统计量(statistic-keywords)。 默认情况下,Means过程会给出5个常用统计量:观测频数、均数、标准差、最大值和最小值,其余统计量的计算均需要在选项中指定。,Means过程,means 语句中的选项(options),Means过程,Means过程,Means过程,Means过程,Means过程,Means过程,means 语句中的描述统计量(statistic-keywords),下表绝大部分可用。,Means过程,Means过程,Means过程,Means过程,OUTPUT 语句 格式: Output 作用:将分析所得的各类统计量输出到指定名称的

7、SAS 数据集。 OUT= 指定SAS数据集名称 Output-statistic-specifications 指定要包含在输出数据集中的描述统计量。,Means过程,在Output语句中,对输出数据集中要包含的统计量的定义有三方面的内容: 要包含的统计量 要为哪些变量计算这些统计量 各统计量在输出数据集中的变量名称 例如: output mean( a b c)=ma mb mc; 对于输入数据集中的变量a、b、c分别计算均数,将三个变量的均数分别命名为ma、mb、mc存储到输出数据集中。,Means过程,class语句所指定的分组变量用来进行分组 by语句所指定的分组变量是用来将数据分为

8、若干个更小的样本,以便SAS分别在各小样本内进行各自独立的处理。 freq语句和weight语句分别引导代表记录出现频数和权重系数的数值变量。 var语句引导所要进行分析的所有变量的列表,SAS将对var语句所引导的所有变量分别进行描述性统计分析。,Means过程,例07001: 长沙市某大学160名正常成年女子1999年体检资料中的血清甘油三酯的测量结果(mmol/L),请对其进行统计描述。 数据文件SasData07001.TXT 程序文件SasProg07001.SAS,Means过程,例07002: Child.SAS建立数据集。 以下程序进行分析: /* SasProg07002.S

9、AS */ data a; set mylib.child; proc means maxdec=2; var x2-x6; run;,MaxDec=2指定输出结果中的最大小数位数为2。 可设置为0-8。,Means过程,例07003: 上例数据集,用以下程序进行分析: /* SasProg07003.SAS */ proc means data=a maxdec=2; class x1; var x2-x6; run;,加入Class语句,指定x1为分组变量。,Means过程,例07004:,/* SasProg07004.SAS */ data a; input group x y z;

10、cards; 1 545 40 50 1 490 46 39 1 515 45 44 1 505 45 47 1 492 46 32 2 485 45 25 2 499 49 17 2 480 45 20 2 566 49 36 2 539 49 27 ;,proc means maxdec=2 noprint; var x ; class group; output out=b n=n mean=mean sum=sum std=std lclm=lclm uclm=uclm; run; proc print; run;,Summary过程,一般格式 proc summary ; by va

11、r-1var-n; class variables; freq variable; id variables; output ; types requests; weight variable; ways list; var variables; run;,Summary过程,Summary过程的语句格式(包括语句中的项目和选项等)与means过程的完全相同,所执行的功能和具体的用法也是基本相同的。 以下仅介绍差异。,Summary过程,“print”和“noprint”,用来控制程序运行结果在结果窗口中的显示状态。默认情况下,summary过程不显示分析结果,即设置了“noprint”。而m

12、eans默认设置为“print”。 在默认不使用var语句指定分析变量时,summary过程仅对观测进行计数工作,其他各统计量的计算都将被忽略。而means过程对全部数据值变量进行用户指定或系统默认的分析工作。,Univariate过程,一般格式 proc summary ; by var-1var-n; class variables; freq variable; histogram ; id variables; output ; inset ; probplot ; QQplot ; var variables; weight ; run;,Univariate过程,Univariat

13、e过程的主要功能是进行数据汇总和数值型变量的分布情况的描述; 可绘制高分辨率的、描述变量分布情况的统计图形; 可对样本的分布位置(对应于均数为任意指定数值的无效假设执行t检验过程。,Univariate过程,功能归纳: 计算以矩为基础的描述统计量; 计算中位数、众数、全距以及各种分位数; 对位置参数(location)和尺度参数(scale)进行稳健估计; 计算置信区间; 给出极端值及其对应观测的列表; 创建有关数据和频数表; 绘制有关数据分布情况的统计图形; 执行有关分布位置和正态性的检验; 对有关参数和非参数分布执行拟合优度检验;,Univariate过程,功能归纳: 绘制直方图,还可为拟

14、合的连续性分布选择添加分布密度曲线; 针对多种理论分布绘制Q-Q图及概率图,并可添加与位置参数和尺度参数对应的参考线。 绘制单因素或两因素的对比直方图、对比Q-Q图或对比概率图; 为绘制的统计图添加包含有关统计量的插页列表框; 创建包含指定统计量或有关拟合分布参数估计值的输出数据集。,Univariate过程,例07005: 对前例用Univariate分析 /* SasProg07005.SAS */ proc univariate data=a; var x ; run;,Univariate过程,正态性检验 正态分布指的是总体的一种理论分布。对于给定的样本,为判断其是否来自具有正态分布的

15、总体,要进行假设检验,然后根据检验的结果判断能否拒绝正态性假设。 在PROC UNIVARIATE语句中加上NORMAL 选项可以进行正态性检验。,Univariate过程,/* SASProg07006.SAS */ data varc; input v1-v7 v; label v1=脑血管病 v2=心血管病 v3=癌症 v4=呼吸系统病 v5=动脉硬化心脏病 v6=伤亡事故 v7=传染病 v=省名; cards; 136.97 109.48 76.32 74.52 55.23 46.47 24.65 1 128.80 95.29 79.42 69.20 52.18 28.31 26.91

16、 2 104.03 74.30 140.66 71.76 22.50 48.16 11.90 3 101.41 126.42 98.13 89.51 55.48 40.38 50.51 4 58.76 61.74 91.09 81.58 21.08 61.92 38.04 5 70.49 109.64 72.47 81.09 20.90 40.11 26.97 6 55.93 148.51 56.25 153.94 . 101.24 81.65 7 73.86 99.84 63.09 153.38 . 54.23 93.06 8 ; proc format; value vf 1=北京 2=天

17、津 3=上海 4=河北 5=福建 6=辽宁 7=四川 8=西藏 title 1973-1975年我国部分省市男性死因分析; proc univariate data=varc normal; var v1; run;,1973-1975年我国部分省市男性死因数据,试做正态性检验。 H0:脑血管病样本数据服从正态分布。,Univariate过程,N2000 时,正态性检验用Shapiro-Wilk W统计量; N2000 时,用Kolmogorov-Smirnow D统计量。 本例W=0.908475太小,以至于不可以拒绝正态分布的假设。,Univariate过程,PrW:为检验的显著性概率值(

18、p值)。 此值在0-1之间,表示对于正态性的可拒绝程度。 当此值小于给定的 =0.05时,说明数据不是来自于正态分布的总体。 本例的概率值为0.3434,所以没有理由拒绝H0,说明脑血管病样本服从正态分布。,Univariate过程,例07007: 对前例用图形方法(Univariate过程)分析 /* SasProg07007.SAS */ proc univariate data=varc plots; var v1; run;,Plots选项要求绘制茎叶图(或水平条图)、箱式图和正态分布的概率图。,Univariate过程,检验正态分布的统计量除了上述的PrW后面的概率值以外,还有以下几

19、种附加的方法和统计量。 条形图:应该呈现呈现正规的“钟形”分布。 描述统计量中的偏度(Skewness)和峰度(Kurtosis)应该很接近于0。 正态概率图:图形的散点应该呈现一条直线。,Univariate过程,本例: 由于只有8个观测值,因此很难断定茎叶图是否呈现“钟形”的正态分布; 从箱式图看,中位线段不在框体中间,而偏向框体底部,可以断定数据不是均匀分布的; 观察正态概率图,“+”号组成一条理论上的正态直线,“*”号为样本分布的图点。如果样本是来自正态分布的总体,“*”号则组成一条直线,从而覆盖全部的“+”号。图形中“+”号越多,表明数据偏离正态分布的程度越大。本例样本量太少,无法断

20、定数据的正态性。 偏度接近于0,数据分布基本上无偏,或者说数据趋于正态分布;峰度为-1.5116407,数据稍微趋于“轻尾”的正态分布。,Tabulate过程,Tabulate过程的目的是制作各式的统计表格(而非统计的图形)。 可控制表格的排列方式,即表格的行(Column) 、列(Row) 与页(Page),通常用三个文字(或数值) 变量来定义。 Tabulate 过程的核心指令是Table 语句。,Gchart过程,Gchart过程可以绘制六种类型的统计图形,其中条形图(bar chart)还可因排列方向和外观的不同分为4种类型。 格式: Proc gchart output-catalo

21、g; Block chart-variables; Hbar | Hbar3d | Vbar | Vbar3d chart-variables; Pie | Pie3d | Donut chart-variables; Star chart-variables; run;,Gchart过程,Gchart可以使用的图形关键字和所绘制的图形类型:,Gchart过程,图形关键字后的变量名用以指定进行图形描述时的分组变量,可以是数值型的(此时以各组的组中值为分组的标志),也可以是字符型的。 其后的选项比较重要的有: type=,表示对变量(sumvar所指定的变量)的哪一种统计量进行描述,比如频数(f

22、req)、均数(mean)、总计(sum)、频数百分比(pctn)等; subgroup=变量名(分组变量),指定要进行分组(各组段内再分组)的变量; Levels=,分组的数目,如果变量为字符型则该选项无效; Inside=,将相应的统计量显示在竖条的内部,可显示频数、百分比、均数、合计等; Space=,指定竖条之间的距离,以字符宽度为单位(做直方图可设为零); Width=,指定竖条的宽度,以字符宽度为单位。,Gchart过程,绘制直方图 绘制直方图可用Chart或Gchart过程来完成。 直方图的绘制需要先编制频数表,也就是先要将各观测值按照其大小归入相应的组中。 完成这一部分的工作我

23、们需要用到SAS程序的条件语句和赋值语句。 在这里我们要建立一个新变量y,以表示不同的组,它的值就等于相应组的组中值。 所有160个观测值中,最大的为1.77,最小的为0.51,我们以0.1为组距,将所有观测值归入13个组。 以下是以直方图描述该资料分布的SAS程序。,Gchart过程,/* SasProg07008.SAS */ data D07008; infile E:SAS统计分析SASDataSASData07001.txt; input x; if x=0.6 and x=0.7 and x=0.8 and x=0.9 and x=1.0 and x=1.1 and x=1.2 a

24、nd x=1.3 and x=1.4 and x=1.5 and x=1.6 and x=1.7 then Y=1.75; proc gchart; vbar y/type=freq levels=13 inside=freq space=0 width=6; run;,Gchart过程,Gchart过程,小样本资料的统计描述 小样本资料的处理和大样本资料的处理是大同小异,主要的区别在于小样本资料无需进行频数表的编制。 其实对于SAS来说,无论大样本还是小样本,SAS均是同等看待,同等处理,也就是说无论什么方法均可应用于大样本或小样本。,Gchart过程,例07009 1999年长沙市某大学1

25、00名正常女子总胆固醇(mmol/L)测定结果SasData07002.txt。 绘制直方图:最小值为2.5,最大值为5.71,我们取组距为0.3,共分为11组。,Gchart过程,/* SasProg07009.SAS */ data D07009; infile E:SAS统计分析SASDataSASData07002.txt; input x; proc gchart; vbar x/type=freq space=0 width=6 midpoints=2.65 to 5.65 by 0.3; run;,这里的midpoints选项用来指定直方图中各组的组中值,可以是一系列数值的列表,

26、各数值之间以空格分开,也可以是起始值和中止值加间隔数(本例即为此种形式),格式为“ to by ”,还可以是两者相结合的形式。 需要说明的是,levels选项在以midpoints选项指定了组中值的情况下是无效的,因为midpoints选项中已经包含了分组数目的信息。,Gchart过程,Gchart过程,计数资料的统计描述 计数资料的描述性统计量,最为主要的是相对数,即率、构成比、相对比等。 统计图形表述方式有饼图、百分条图等。 下面我们将例07001的数据转换为计数资料的形式,用以展示计数资料统计描述的SAS编程实现方法。,Gchart过程,我们假设甘油三酯水平高于1.5者为异常,将160名

27、女子划分为正常和异常两组。 分别计算正常组和异常组占总人数的构成比,并用饼图和百分条图展示构成情况。 引入一个变量g,用以表示样本的分组情况,正常组取值为0,异常组取值为1。 对于计数资料各组构成比或率等统计量的计算,经验上用Tabulate过程比较方便。,Gchart过程,/* SaSProg07010.SAS */ data temp; set d07001; i=1; if x1.5 then g=1; proc tabulate; class g; table g*(n pctn); run; proc gchart; pie g/type=freq discrete slice=ar

28、row value=inside; hbar i/type=freq discrete subgroup=g width=8; run; run;,Pctn 频数百分比,饼图选项: arrow 标注在外部,以箭头连接 inside 标注在内部 none 不标注 outside 标注在外部,Gchart过程,Gchart过程,Gchart过程,例070011,Gchart过程,/* SasProg07011.SAS */ Data sales; Input ry $ fwcs hjcs xssl; Cards; A 3 12 28000 B 6 14 33000 C 2 6 8000 A 0 2

29、2 0 A 2 19 12000 C 4 8 13000 C 8 7 27000 B 3 16 80000 B 2 14 2000 ;,proc print data=work.sales; title 销售数据; run; proc sort data=work.sales; by ry; run; proc means data=work.sales; var xssl; title 销售人员的平均销售数量; run; proc gchart data=work.sales; vbar xssl/group=ry; title 销售人员的销售数量; run;,Gplot过程,Gplot过程

30、用于绘制泡状、点状散点图。 Proc Gplot语句和一条bubble语句或plot语句是必需的,bubble2语句和plot2语句可以和相应的bubble语句或plot语句结合使用。 格式: Proc gplot output-catalog; Bubble plot-requests; Bubble2 plot-requests; Plot plot-requests; Plot2 plot-requests; run;,Gplot过程,Plot语句图形指令表达式(plot-requests)的一般形式为: (1) Y 轴之变量名* X 轴之变量名 如PLOT GRADE*IQ; 此格式,

31、图形上的点以英文大写字母表示,A代表1点,B代表2点Z代表26点或26个以上的点。 (2) Y 轴之变量名* X 轴之变量名=符号 如PLOT Y*X=+; 此格式,图形上所有的点都经用户指定的符号表示。 (3) Y 轴之变量名* X 轴之变量名=含符号之变量名称 如PLOT HEIGHT*WEIGHT=SEX; 此格式,图形上的点以含符号的变量值表示。,Gplot过程,Plot语句的选项(options): VAXIS=纵轴的单位 此选项界定纵轴的单位坐标,如 PROC PLOT; PLOT Y*X / VAXIS=10 TO 100 BY 5; 根据这个写法,Y 轴上的坐标单位会是10,1

32、5,20 . 100 等。 坐标单位的值不一定要以等值累加,如 VAXIS=10 100 1000 10000; 根据这样的界定,会得到一个以10为底的对数函数图。 HAXIS=横轴的单位 此选项界定横轴的单位坐标。,Gplot过程,Plot语句的选项(options): VZERO 要求纵轴的坐标以0开始。若读者已经用选项VAXIS= 界定横轴的坐标单位或数据中含负的纵轴坐标,则VZERO 选项会被忽略。 HZERO 要求横轴的坐标以0开始。 VREVERSE 将纵轴的坐标单位颠倒过来,亦即将最小的值印在纵轴的最顶点,最大的值印在原点的位置。,Gplot过程,Plot语句的选项(option

33、s): VPOS=图形的宽度,以正整数表示 这个选项的最大值必须比报表实际的宽度少八行 HPOS=图形的长度,以正整数表示 必须预留最顶端的三行当作图形的标题 VSPACE=正整数 界定纵轴上坐标单位间的列数(Print Lines),如5,表示五列 HSPACE=正整数 界定横轴上坐标单位间的行数(Print Positions),Gplot过程,GPlot语句示例,/* SasProg07012.Sas */ DATA plota; INPUT X Y Z A B; CARDS; 0.0 -2.00 1 0.0 -2.00 0.5 -2.25 2 0.5 -1.25 1.0 -2.00 3

34、 1.0 0.00 1.5 -1.25 4 1.5 1.75 2.0 0.00 5 2.0 4.00 2.5 1.75 1 2.5 6.75 3.0 4.00 2 3.0 10.00 3.5 6.75 3 3.5 13.75 4.0 10.00 4 4.0 18.00 4.5 13.75 5 4.5 22.75 ;,PROC gPLOT; PLOT Y*X; PLOT Y*X / HAXIS=0 TO 12 BY 2; PLOT Y*X=+ / HAXIS=0 TO 12 BY 2; PLOT Y*X=Z / HAXIS=0 TO 12 HREF=4 8; bubble Y*X=z; run;,Gplot过程,chart过程和plot过程的一般格式及各选项使用方法分别与gchart过程和gplot过程是基本相同的。 不同之处仅在于后两者中涉及到有关三维和图形元素(颜色等)的语句和选项在前两者中是无效的。 例如vbar3d语句在chart过程中无效,bubble语句在plot过程中无效。 其余的语句和选项使用方法完全相同,所以在掌握了gchart过程和gplot过程后,chart过程和plot过程你会不学自通。,

展开阅读全文
相关资源
猜你喜欢
相关搜索

当前位置:首页 > 建筑/环境 > 装饰装潢


经营许可证编号:宁ICP备18001539号-1