浙江大学概率论与数理统计盛骤第四版数理统计部分2.ppt

上传人:本田雅阁 文档编号:2703883 上传时间:2019-05-06 格式:PPT 页数:157 大小:4.71MB
返回 下载 相关 举报
浙江大学概率论与数理统计盛骤第四版数理统计部分2.ppt_第1页
第1页 / 共157页
浙江大学概率论与数理统计盛骤第四版数理统计部分2.ppt_第2页
第2页 / 共157页
浙江大学概率论与数理统计盛骤第四版数理统计部分2.ppt_第3页
第3页 / 共157页
浙江大学概率论与数理统计盛骤第四版数理统计部分2.ppt_第4页
第4页 / 共157页
浙江大学概率论与数理统计盛骤第四版数理统计部分2.ppt_第5页
第5页 / 共157页
点击查看更多>>
资源描述

《浙江大学概率论与数理统计盛骤第四版数理统计部分2.ppt》由会员分享,可在线阅读,更多相关《浙江大学概率论与数理统计盛骤第四版数理统计部分2.ppt(157页珍藏版)》请在三一文库上搜索。

1、1,数 理 统 计,2,第八章 假设检验,关键词: 假设检验 正态总体参数的假设检验 分布拟合检验 秩和检验,3,1 假设检验,统计推断的另一类重要问题是假设检验问题。它包括 (1)已知总体分布的形式,但不知其参数的情况,提出参数的假设,并根据样本进行检验. (2)在总体的分布函数完全未知的情况下,提出总体服从某个已知分布的假设,并根据样本进行检验.,4,例1 设某种清漆的9个样品,其干燥时间(以小时计)分别 为: 6.0 5.7 5.5 6.5 7.0 5.8 5.2 6.1 5.0 根据以往经验,干燥时间的总体服从正态分布N(6.0, 0.36),现根据样本检验均值是否与以往有显著差异?,

2、例2 一种摄影药品被其制造商声称其贮藏寿命是均值180天、标准差不多于10天的正态分布。某位使用者担心标准差可能超过10天。他随机选取12个样品并测试,得到样本标准差为14天。根据样本有充分证据证明标准差大于10天吗?,例3 孟德尔遗传理论断言,当两个品种的豆杂交时,圆的 和黄的、起皱的和黄的、圆的和绿的、起皱的和绿的豆的频数将以比例9:3:3:1发生。在检验这个理论时,孟德尔分别得到频数315、101、108、32、这些数据提供充分证据拒绝该理论吗?,5,参数的假设检验问题处理步骤,1. 根据实际问题的要求,提出原假设 和备择假设 ; 2. 根据样本X_i,确定检验统计量T(X_i)以及拒绝

3、域(拒 绝原假设的区域)的形式; 3. 给定显著性水平,按照“在原假设H0成立时,拒绝原假 设的概率不大于显著性水平 ”这一原则,确定拒绝 域; 4根据样本观测值作出决策,接受原假设还是拒绝原假 设。,6,例1 设某种清漆的9个样品,其干燥时间(以小时计)分别为: 6.0 5.7 5.5 6.5 7.0 5.8 5.2 6.1 5.0 根据以往经验,干燥时间的总体服从正态分布N(6.0, 0.36),现根据样本检验均值是否与以往有显著差异?,由于作出决策的依据是一个样本,因此,可能出现“实际上原假设成立,但根据样本作出拒绝原假设”的决策。这种错误称为“第一类错误”,实际中常常将犯第一类错误的概

4、率控制在一定限度内,即事先给定较小的数 (01)(称为显著性水平),使得,7,上述检验法则符合实际推断原理。,8,注释1:假设检验中的4种可能结果,通常,犯第一类错误的概率、犯第二类错误的概率、样本容量可以看作为“三方拔河”。,第一类错误:原假设H0成立时,作出拒绝原假设的决策; 第二类错误:备择假设H1成立时,作出接受原假设的决策。,9,这是一对矛盾,要同时减少犯第一、第二类错误,只有增大样本容量。,10,注释2:假设检验与区间估计的比较。,即拒绝域可以这样得到:将置信区间不等号反向,将原假设 成立时的值代入到参数中即可。,11,2 正态总体均值方差的假设检验,12,13,14,15,例2

5、某种元件的寿命X(以小时记)服从正态分布 均未知。现测得16只元件的寿命如下: 280 101 212 224 379 179 264 222 362 168 250 149 260 485 170 问是否有理由认为元件的平均寿命大于225(小时)?(取显著性水平为0.05),t没有落在拒绝域内,故接受原假设, 认为元件的平均寿命不大于225小时。,16,例3 要求某种元件的平均使用寿命不得低于1000小时,生产者从一批这种元件中随机抽取25件,测得其平均寿命为950小时,标准差为100小时。已知这批元件的寿命服从正态分布。试在显著性水平0.05下确定这批元件是否合格?,t落在拒绝域内,故拒绝

6、原假设, 认为这批元件的平均寿命小于1000小时,不合格。,17,18,19,20,例4:某厂使用两种不同的原料A,B生产同一类型产品。各在一周的产品中取样分析。取用原料A生产的样品220件,测得平均重量为2.46(公斤),样本标准差s=0.57(公斤)。取用原料B生产的样品205件,测得平均重量为2.55(公斤),样本标准差为0.48(公斤)。设两样本独立,来自两个方差相同的独立正态总体。问在水平0.05下能否认为用原料B的产品平均重量较用原料A的为大。,21,基于成对数据的检验 例5:为了试验两种不同谷物种子的优劣,选取了十块土质不同的土地,并将每块土地分为面积相同的两部分,分别种植这两种

7、种子。设在每块土地的两部分人工管理等条件完全一样。下面给出各块土地上的产量。 土地 1 2 3 4 5 6 7 8 9 10 种子A(xi) 23 35 29 42 39 29 37 34 35 28 种子B(yi) 26 39 35 40 38 24 36 27 41 27 di=xi-yi -3 -4 -6 2 1 5 1 7 -6 1 问:以这两种种子种植的谷物产量是否有显著的差异(取显著性水平为0.05)?,22,23,24,25,(四)两个正态总体方差的检验,26,例7:两台机床生产同一个型号的滚珠,从甲机床生产的滚珠中 抽取8个,从乙机床生产的滚珠中抽取9个,测得这些滚珠 的直径(

8、毫米)如下: 甲机床 15.0 14.8 15.2 15.4 14.9 15.1 15.2 14.8 乙机床 15.2 15.0 14.8 15.1 14.6 14.8 15.1 14.5 15.0,27,28,正态总体均值、方差的置信区间与假设检验,30,定义 若C是参数的某检验问题的一个检验法, 称为检验法C的施行特征函数或OC函数,其图形称为OC曲线。,3 样本容量的选取,31,1。Z检验法的OC函数,32,33,34,例8(工业产品质量抽验方案)设有一大批产品,产品质量指标X服从 。以小者为佳,厂方要求所确定的验收方案对高质量的产品 能以高概率1为买方所接受。买方则要求低质产品 能以高

9、概率1被拒绝。,有厂方与买方协商给出。并采取一次抽样以确定该批产品是否为买方所接受。问应怎样安排抽样方案。已知 且由工厂长期经验知 。经商定=0.05。,35,2。t检验法的OC函数,36,37,38,4.分布拟合检验,前面介绍的各种检验法都是在总体服从正态分布前提下,对参数进行假设检验的。实际中可能遇到这样的情形,总体服从何种理论分布并不知道,要求我们直接对总体分布提出一个假设 。,例如,要检验在计算机上产生随机数的一个程序。指令该程序产生0到9之间的100个单个数字。观察整数的频数如下表。那么以0.05的显著性水平,有充分的理由相信该批整数不是均匀产生的吗?,39,例如,从1500到193

10、1年的432年间,每年爆发战争的次数可以看作一个随机变量,据统计,这432年间共爆发了299次战争,具体数据如下:,通常假设每年爆发战争的次数服从泊松分布。那么上面的数据是否有充分的理由推翻每年爆发战争的次数服从泊松分布假设?,40,它是在总体X 的分布未知时,根据来自总体的样本,检验关于总体分布的假设的一种检验方法。,(一) 拟合检验法,41,42,43,44,例1,从1500到1931年的432年间,每年爆发战争的次数可以看作一个随机变量,据统计,这432年间共爆发了299次战争,具体数据如下:,通常假设每年爆发战争的次数服从泊松分布。那么上面的数据是否有充分的理由推翻每年爆发战争的次数服

11、从泊松分布假设?,45,46,例2 孟德尔遗传理论断言,当两个品种的豆杂交时,圆的和黄的、起皱的和黄的、圆的和绿的、起皱的和绿的豆的频数将以比例9:3:3:1发生。在检验这个理论时,孟德尔分别得到频数315、101、108、32、这些数据提供充分证据拒绝该理论吗?,47,例3 下面列出了84个伊特拉斯坎(Etruscan)人男子 的头颅的最大宽度(mm),试检验这些数据是否来 自正态总体(取=0.1),48,解 为粗略了解数据的分布情况,先画出直方图。,步骤如下: 1.找出数据的最小值、最大值为126、158,取区间124.5, 159.5,它能覆盖126, 158;,2.将区间124.5,

12、159.5等分为7个小区间,小区间的长度=(159.5-124.5)/7=5, 称为组距,小区间的端点称为组限,建立下表:,49,3.自左向右在各小区间上作以fi /n为高的小矩形 如下图,即为直方图。,注:直方图的小区间可以不等长,但小区间的长度不能太大,否则平均化作用突出,淹没了密度的细节部分;也不能太小,否则受随机化影响太大,产生极不规则的形状。,50,从本例的直方图看,有一个峰,中间高,两头低,较对称,样本象来自正态总体。于是检验,51,故在水平0.1下接受H0,认为数据来自正态总体。,52,(二)偏度、峰度检验,偏度、峰度检验法是用于检验正态总体的一种方法。,53,54,55,例4

13、试用偏度、峰度检验法检验例3中的数据是否来自正态总体(取=0.1),56,5 秩和检验,秩和检验是替换两个独立总体均值差的t检验的一种非参数方法。,两个独立总体均值差的t检验是基于两个总体都服从正态分布,且方差未知但相等的情形。,而实际情况中,往往两个独立总体的分布是未知的,但属于同一类,例如都是连续型总体,密度函数只差一个平移。即,57,例如一 通常认为男女的脉搏率是没有显著差异的。现在随机地抽取16位男子和13位女子,测得他们的脉搏率如下表。这些数据能否检验假设:男女的脉搏率分布是不同的?,例如二 在一项探讨“艺术风格和图画数量对一年级儿童的数学理解力的影响”的研究中,分析认为,那些一开始

14、就看了图画序列的学生比只看单个图画的学生有显著高的故事性相应得分。考察下列两组数据,组1是看了图画序列的组,组2只看了单个图画的组。检验是否组1的分数显著高于组2的分数。,58,定义1 将一总体的容量为n的样本观测值按自小到大的次序编号排列成,威尔柯克斯秩和检验可以检验上述假设。,59,60,61,62,解: 设第1,2总体分别为新旧方法的排名(秩),63,64,例2 某商店为了确定向公司A或公司B购买某种商品,将A,B公司以往各次进货的次品率进行比较,数据如下,设两样本独立。问两公司的商品的质量有无显著差异。设两公司的商品的次品率的密度至多只差一个平移。(取=0.05),65,66,67,6

15、8,69,复习思考题 8,1.假设检验的基本思想是什么?其中使用了一条什么原理? 2.检验的显著性水平的意义是什么? 3.比较双边、左边和右边检验的拒绝域。 4.使用U检验法可以进行哪些假设检验? 5.使用t检验法可以进行哪些假设检验? 6.使用2检验法可以进行哪些假设检验? 7.使用F检验法可以进行哪些假设检验? 8.正态总体期望与方差的区间估计和假设检验两者之间有什么 相似之处? 9.成对数据差的t检验适用于哪些特殊场合? 10.分布拟合的2检验的基本步骤是什么?,70,第九章 方差分析及回归分析,关键词: 单因素试验 双因素试验 交互作用 一元线性回归 多元线性回归,71,1单因素试验的

16、方差分析,例 假设某药物研究者为检验a,b两种化学物质的抗癌效果,要做动物试验。通常的作法如下所述:他将一些患有某种癌的白鼠随机地分成三组。其中两组分别注射a,b两种化学物质,而第三组则不作处理,作为对照。记第一组:注射a物质,第二组:注射b物质,第三组:不做处理。经过一段时间观察后,他得到寿命数据,(一)单因素试验,72,设第j组有 只老鼠寿命分别为,这是一个典型的最简单分组试验方案。 分组的依据为药物:a,b,无。,通常,分组的依据称为“因素”,因素的不同状态称为因素的“水平”。此例因素(药物)有三个水平:a,b,无。,只有一个因子,按因子的不同水平来分组的试验称为“单因素试验”。在试验中

17、,对试验对象所观测记录的变量称为“响应变量”(例中的寿命),73,一般地,对一个单因素试验,假设因素有s(s2)个水平,n个对象参与了试验。假定对应于因素第j个水平的组中有 个试验对象,响应变量数据为,通常假定,74,检验假设,假设等价于,75,(二)平方和分解,76,证明:,77,78,79,单因素试验方差分析表,80,81,例1 设有5种治疗荨麻疹的药,要比较它们的疗效。假设将30个病人分成5组,每组6人,令同组病人使用一种药,并记录病人从使用药物开始到痊愈所需时间,得到下面的记录:(=0.05),82,这里药物是因子,共有5个水平,这是一个单因素方差分析问题,要检验的假设是“所有药物的效

18、果都没有差别”。,83,未知参数的估计,84,85,2 双因素试验的方差分析,例 假设某药物研究者为检验a,b两种化学物质的抗癌效果,要做动物试验。通常的作法是:将一些患有某种癌的白鼠随机地分成三组。其中两组分别注射a,b两种化学物质,而第三组不作处理,作为对照。记第一组:注射a物质,第二组:注射b物质,第三组:不做处理。经过一段时间观察后,得到寿命数据。在这个药物试验中,如果白鼠的性别有可能对其寿命有显著的影响。这时应该考虑将“性别”作为一个因素 “双因素试验”。 因素A:药物,三个水平;因素B:性别,二个水平; 两个因素共有236种组合。,86,(一) 双因素等重复试验的方差分析,87,8

19、8,分别检验假设,89,90,91,92,93,双因素试验的方差分析表,94,例3 为了比较3种松树在4个不同的地区的生长情况有无差别,在每个地区对每种松树随机地选取5株,测量它们的胸径,得到的数据列表如下。,松树数据表,95,这是一批等重复的两种方式分组数据,记树种因素为A,地区因素为B,则A因素有3个水平,B因素有4个水平,总共有12个水平组合,每个组合(单元)有5个重复观测。,将树的胸径作为度量树的生长情况是否良好的数值指标,我们的目标是:由以上数据来判断不同树种及不同地区对松树的生长情况是否有影响(好或坏)?,这里要考虑的影响有三种:树种的单独影响(A因素主效应),地区的单独影响(B因

20、素主效应),以及不同树种和不同地区的结合所产生的交互影响(AB因素的交互效应)。这是一个典型的等重复双因素方差分析模型。,96,输出各单元总和及因素水平总和:,松树数据的总和表,97,双因素方差分析表,98,进一步考查A因素不同水平的均值。注意到A因素的第二水平为最大:23.55,而第三水平的均值为最小:17.65,可以认为树种2的生长情况优于树种3。能够得出这个结论,得益于观测的等重复性。,然后再来看B因素的主效应,即在扣除松树种类的效应后,不同地区对树的胸径的影响。由方差分析表知, B因素的主效应不显著,即不同的地区对树的胸径没有显著影响。,最后来看AB因素的交互效应,即在扣除两种效应后,

21、由不同树种和不同地区的结合而产生的对树的胸径的影响,这种影响可以解释为某些地区特别适合(或特别不适合)某个树种的生长。结果也不显著。,首先来看A因素主效应,即在扣除地区效应后, 松树的不同种类对树的胸径的影响。由方差分析表可以看出,A因素主效应是显著的,即松树的不同种类对树的胸径有显著影响。,99,(二) 双因素无重复试验的方差分析,100,101,分别检验假设,102,103,104,105,双因素无重复试验的方差分析表,106,例4 假定对3个小麦品种和3块试验地块进行区组设计试验,得到如下的数据:,表 小麦品种区组试验数据,107,在这个问题中我们关心的是小麦的不同品种之间在产量上的差异

22、。由于地块不同对小麦的产量也会有 影响,因此在比较试验结果时,要扣除地块的影响之后再来比较品种的差异。假定品种与地块之间无交互效应,则可对上述数据进行双因素可加效应模型的方差分析。,108,双因素无重复试验的方差分析表,109,在这个问题中我们所关心的是因素A的效应,由方差分析表知,原假设不成立,即认为小麦品种的产量之间有显著差异。,在这里,品种3的单产最高,而品种1的产量最低,因此可以断定品种3明显地优于品种1。,110,3 一元线性回归分析,一、确定性关系: 当自变量给定一个值时,就确定应变量的值与之对应。 如:在自由落体中,物体下落的高度h与下落时间t之间有函数关系:,变量与变量之间的关

23、系,111,二、相关性关系: 变量之间的关系并不确定,而是表现为具有随机性的一种“趋势”。即对自变量x的同一值,在不同的观测中,因变量Y可以取不同的值,而且取值是随机的,但对应x在一定范围的不同值,对Y进行观测时,可以观察到Y随x的变化而呈现有一定趋势的变化。,如:身高与体重,不存在这样的函数可以由身高计算出体重,但从统计意义上来说,身高者,体也重。 再如:父亲的身高与儿子的身高之间也有一定联系,通常父亲高,儿子也高。,回归分析研究相关性关系的最基本,应用最广泛的方法。,112,(一)一元线性回归,113,在实际问题中,回归函数(x)一般是未知的, 需要根据试验数据去估计。,114,115,一

24、元线性回归要解决的问题:,116,(二)a,b的估计最小二乘估计,117,正规方程系数行列式,118,在误差为正态分布假定下,最小二乘估计等价于极大似然估计。,事实上,似然函数,119,120,121,例1 K.Pearson收集了大量父亲身高与儿子 身高的资料。其中十对如下:,求Y关于x的线性回归方程。,122,123,(三)误差方差的估计,124,125,例2 求例1中误差方差的无偏估计。,126,(1)影响Y取值的,除了x,还有其他不可忽略的因素; (2)E(Y)与x的关系不是线性关系,而是其他关系; (3)Y与x不存在关系。,(四)线性假设的显著性检验,采用最小二乘法估计参数,采用最小

25、二乘法估计参数a和b,并不需要事先知道Y与x之间 一定具有相关关系,即使是平面图上一堆完全杂乱无章的散 点,也可以用公式求出回归方程。因此(x)是否为x的线性函 数,一要根据专业知识和实践来判断,二要根据实际观察得 到的数据用假设检验方法来判断。,若原假设被拒绝,说明回归效果是显著的,否则,若接受原假设,说明Y与x不是线性关系,回归方程无意义。回归效果不显著的原因可能有以下几种:,127,128,例3 检验例1中回归效果是否显著,取=0.05。,129,(五)回归系数b的置信区间,当回归效果显著时,常需要对回归系数b作区间估计。,130,(六)回归函数 函数值的点估计和置信区间,131,132

26、,(七)Y的观察值的点预测和预测区间,133,134,135,注:在预测时, 一定要落在已有的 的数据范围内部,否则预测常常没有意义。,136,例4,在例1中F.Galton曾断言“儿子身高会受到父亲身高的影响,但身高偏离父代平均水平的父亲,其儿子身高的影响有回归到子代平均水平的趋势。”试问例1这组数据能证实这一论断吗(=0.05)?并给出x=69吋时,y的预测区间。,(1)回归到平均水平的趋势,即检验,137,138,例5 合金钢的强度y与钢材中碳的含量x有密切关系。为了冶炼出符合要求强度的钢常常通过控制钢水中的碳含量来达到目的,为此需要了解y与x之间的关系。其中x:碳含量() y:钢的强度

27、(kg/mm2)数据见下:,(1)画出散点图;(2)设(x)=a+bx,求a,b的估计;(3)求误差方差的估计,画出残差图;(4)检验回归系数b是否为零(取=0.05);(5)求回归系数b的95置信区间;(6)求在x=0.06点,回归函数的点估计和95置信区间;(7)求在x=0.06点,Y的点预测和95区间预测。,139,0.03 0.05 0.07 0.09 0.11 0.13 0.15 0.17 0.19,56 54 52 50 48 46 44 42 40 38,(1)合金钢的强度y与钢材中碳的含量x的散点图,140,141,0.03 0.05 0.07 0.09 0.11 0.13 0

28、.15 0.17 0.19 x,0,e,142,0.03 0.05 0.07 0.09 0.11 0.13 0.15 0.17 0.19,56 54 52 50 48 46 44 42 40 38,合金钢的强度y与钢材中碳的含量x的回归直线图,143,144,145,(八)可化为一元线性回归的例子,实际中常会遇到很复杂的回归问题,但在某些情况下,通过适当的变量变换,可将其化为一元线性回归来处理。下面是三种常见的可转化为一元线性回归的模型。,146,147,4 多元线性回归,在实际问题中,影响Y(因变量)的因素(自变量)往往不止一个,设有,148,149,150,151,152,153,例6 某

29、公司在各地区销售一种特殊化妆品。该公司观测了15 个城市在某月内对该化妆品的销售量Y及各地区适合使用该化妆品的人数X1和人均收入X2,得到数据如下:,表1.1.2 化妆品销售的调查数据,154,化妆品销售的调查数据(续),155,156,由回归方程可知,若固定人均收入不变,则人数每增加1千人,销售量增加0.496箱;若固定人数不变,收入每增加1元,销售量增加0.0092箱。,多元线性回归也可以像一元线性回归一样,检验模型的回归效果是否显著。所不同的是,在模型的回归效果显著的情况下,还要检验每个自变量对因变量的效应是否显著,不显著就要剔除,通常用逐步回归法可以使回归方程变得简洁、明确、显著。在此基础上可以对给定点处对应的Y进行点预测和区间预测。所有这些都可以通过SAS软件实现。,2019/5/6,课件结束!,

展开阅读全文
相关资源
猜你喜欢
相关搜索

当前位置:首页 > 其他


经营许可证编号:宁ICP备18001539号-1