数理统计与随机过程ch6.ppt

上传人:本田雅阁 文档编号:3186824 上传时间:2019-07-23 格式:PPT 页数:55 大小:984.51KB
返回 下载 相关 举报
数理统计与随机过程ch6.ppt_第1页
第1页 / 共55页
数理统计与随机过程ch6.ppt_第2页
第2页 / 共55页
数理统计与随机过程ch6.ppt_第3页
第3页 / 共55页
数理统计与随机过程ch6.ppt_第4页
第4页 / 共55页
数理统计与随机过程ch6.ppt_第5页
第5页 / 共55页
点击查看更多>>
资源描述

《数理统计与随机过程ch6.ppt》由会员分享,可在线阅读,更多相关《数理统计与随机过程ch6.ppt(55页珍藏版)》请在三一文库上搜索。

1、,数理统计与随机过程 第六章,主讲教师:李学京,北京工业大学应用数理学院,数理统计学是一门应用性很强的学科。它研究如何以有效的方式收集、整理和分析带有随机性的数据,以便对所考察的问题作出正确的推断和预测,为采取正确的决策和行动提供依据和建议。,数理统计不同于一般的资料统计,它更侧重于应用随机现象本身的规律性进行资料的收集、整理和分析。,第六章 样本及抽样分布,6.1 引言,由于大量随机现象必然呈现出其规律性,因而从理论上讲,只要对随机现象进行足够多次的观察,随机现象的规律性就一定能够清楚地呈现出来。,但是,客观上只允许我们对随机现象进行次数不多的观察或试验,也就是说:我们获得的只能是局部的或有

2、限的观察资料。,数理统计的任务就是研究 “如何有效地收集、整理和分析所获得的有限资料,并对所研究的问题尽可能地给出精确而可靠的推断”。,现实世界中存在着形形色色的数据,分析这些数据需要多种多样的方法。,因此,数理统计中的方法和支持这些方法的相应理论是相当丰富的。概括起来可以归纳成两大类。 参数估计: 根据数据,对分布中的未知参数 进行估计; 假设检验: 根据数据,对分布的未知参数的 某种假设进行检验。 参数估计与假设检验构成了统计推断的两种基本形式,这两种推断渗透到了数理统计的每个分支。,6.2 总体与样本,在数理统计中,称研究问题所涉及对象的全体为总体,总体中的每个成员为个体。 例如: 研究

3、某工厂生产的某种产品的废品率,则这种产品的全体就是总体,而每件产品都是一个个体。,6.2.1 总体、个体与样本,实际上,我们真正关心的并不一定是总体或个体本身,而真正关心的是总体或个体的某项数量指标。 如:某电子产品的使用寿命,某天的最高气温,加工出来的某零件的长度等数量指标。因此,有时也将总体理解为那些研究对象的某项数量指标的全体。,为评价某种产品质量的好坏,通常的做法是:从全部产品中随机(任意)地抽取一些样品进行观测(检测),统计学上称这些样品为一个样本。 同样,我们也将样本的数量指标称为样本。因此,今后当我们说到总体及样本时,既指研究对象又指它们的某项数量指标。,例1:研究某地区 N 个

4、农户的年收人。 在这里,总体既指这 N 个农户,又指我们所关心的 N个农户的数量指标他们的年收入( N 个数字)。 如果从这 N 个农户中随机地抽出 n 个农户作为调查对象,那么,这 n 个农户以及他们的数量指标年收入( n个数字)就是样本。,注意:上例中的总体是直观的,看得见、摸得着的。但是,客观情况并非总是这样。,例2:用一把尺子测量一件物体的长度。 假定 n 次测量值分别为X1,X2 ,Xn。显然,在该问题中,我们把测量值X1,X2 ,Xn看成样本。但总体是什么呢?,事实上,这里没有一个现实存在的个体的集合可以作为上述问题的总体。可是,我们可以这样考虑,既然 n 个测量值 X1,X2,X

5、n 是样本,那么,总体就应该理解为一切所有可能的测量值的全体。,又如:为研究某种安眠药的药效,让 n 个病人同时服用这种药,记录服药者各自服药后的睡眠时间比未服药时增加睡眠的小时数 X1,X2,Xn, 则这些数字就是样本。 那么,什么是总体呢? 设想让某个地区(或某国家,甚至全世界)所有患失眠症的病人都服用此药,则他们所增加睡眠的小时数之全体就是研究问题的总体。,对一个总体,如果用X表示其数量指标,那么,X的值对不同的个体就取不同的值。因此,如果我们随机地抽取个体,则X的值也就随着抽取个体的不同而不同。 所以,X是一个随机变量! 既然总体是随机变量X,自然就有其概率分布。我们把X的分布称为总体

6、分布。 总体的特性是由总体分布来刻画的。因此,常把总体和总体分布视为同义语。.,6.2.2 总体分布,例 3 (例 l 续):在例 l中,若农户年收入以万元计,假定 N户的收入X只取以下各值: 0.5, 0.8, l.0, 1.2和1.5。取上述值的户数分别n1, n2, n3, n4和n5 (n1+n2+n3+n4+n5=N)。则X为离散型分布,分布律为:,例4 ( 例2续 ):在例2中,假定物体真实长度为(未知)。一般说来,测量值X就是总体,取 附近值的概率要大一些,而离 越远的值被取到的概率就越小。 如果测量过程没有系统性误差,则X取大于 和小于 的概率也会相等。 在这种情况下,人们往往

7、认为X 服从均值为,方差为2 的正态分布。2反映了测量的精度。于是,总体X的分布为 N(,2)。,说明:这里有一个问题,即物体长度的测量值总是在其真值 的附近,它不可能取负值。 而正态分布取值在(-,)上。那么,怎么可以认为测量值X服从正态分布呢? 回答这个问题,有如下两方面的理由。,(1).在前面讲过,对于XN(,2), P-3X+3=0.9974. 即 X 落在区间(-3,+3)之外的概率不超过 0.003, 这个概率非常小。X 落在(-4,+4)之外的概率就更小了。,例如:假定物体长度 =10厘米,测量误差为0.01厘米,则2=0.012。 这时,(-3,+3)=(9.97,10.03)

8、。于是,测量值落在这个区间之外的概率最多只有0.003,可忽略不计。 可见,用正态分布 N(10,0.012)去描述测量值X是适当的。完全可认为:X 根本就不可能取到负值;,如若不然, 就需要用一个定义在有限区间(a,b)取值的随机变量来描述测量值X。那么, a和b到底取什么值呢?测量者事先很难确定。 再退一步,即使能够确定出a和b,却仍很难找出一个定义在 (a,b) 上的非均匀分布用来恰当地描述测量值。与其这样,还不如干脆就把取值区间放大到(-,),并用正态分布来描述测量值。这样,既简化了问题,又不致引起较大的误差。,(2).另外,正态分布取值范围是(-,),这样还可以解决规定测量值取值范围

9、上的困难。, 如果总体所包含的个体数量是有限的, 则 称该总体为有限总体。有限总体的分布显 然是离散型的,如例3。 如果总体所包含的个体数量是无限的,则 称该总体为无限总体。限总体的分布可以 是连续型的,如例4;也可是离散型的。,说明:在数理统计中,研究有限总体比较困难。因为其分布是离散型的,且分布律与总体中所含个体数量有关系。,通常在总体所含个体数量比较大时,将其近似地视为无限总体,并用连续型分布逼近总体的分布,这样便于进一步地做统计分析。,例5:研究某大城市年龄在1岁到10岁之间儿童的身高。 显然,不管城市规模多大,这个年龄段的儿童数量总是有限的。因此,该总体X只能是有限总体。总体分布只能

10、是离散型分布。,然而,为便于处理问题,我们将有限总体近似地看成一个无限总体,并用正态分布来逼近这个总体的分布。 当城市比较大,儿童数量比较多时,这种逼近所带来的误差,从应用观点来看,可以忽略不计。,样本的二重性, 假设 X1, X2, , Xn 是总体X中的样本,在一 次具体的观测或试验中,它们是一批测量值, 是已经取到的一组数。这就是说,样本具有 数的属性。, 由于在具体试验或观测中,受各种随机因素 的影响,在不同试验或观测中,样本取值可 能不同。因此,当脱离特定的具体试验或观 测时,我们并不知道样本 X1,X2,Xn 的具 体取值到底是多少。因此,可将样本看成随 机变量。故,样本又具有随机

11、变量的属性。,样本X1,X2,Xn既被看成数值,又被看成随机变量,这就是所谓的样本的二重性。,例 6 (例2续):在前面测量物体长度的例子中,如果我们在完全相同的条件下,独立地测量了n 次,把这 n 次测量结果,即样本记为 X1,X2,Xn .,随机样本,那么,我们就认为:这些样本相互独立,且有相同的分布;其分布与总体分布 N(, 2)相同。,将上述结论推广到一般的分布:如果在相同条件下对总体 X 进行 n 次重复、独立观测,就可以认为所获得的样本 X1,X2,Xn是 n 个独立且与总体 X 有同样分布的随机变量。,在统计文献中,通常称相互独立且有相同分布的样本为随机样本或简单样本, n 为样

12、本大小或样本容量。,既然样本 X1,X2,Xn 被看作随机向量,自然需要研究其联合分布。,6.2.3 样本分布,假设总体 X 具有概率密度函数 f (x),因样本X1,X2,Xn独立同分布于 X,于是,样本的联合概率密度函数为,例7:假设某大城市居民的收入 X 服从正态分布N(,2), 概率密度为,现从总体 X 中随机抽取样本 X1,Xn ,因其独立同分布于总体 X,即: Xi N(,2), i1,2,n. 于是,样本X1,X2,Xn 的联合概率密度为,由样本推断总体的某些情况时,需要对样本进行“加工”,构造出若干个样本的已知 (确定)的函数,其作用是把样本中所含的某一方面的信息集中起来。,6

13、.3.1 统计量,这种不含任何未知参数的样本的函数称为统计量。它是完全由样本所决定的量。,6.3 统计量,几个常见统计量,样本均值,样本方差,反映总体 均值的信息,反映总体 方差的信息,样本标准差,样本 k 阶原点矩,样本 k 阶中心矩,k=1,2, ,反映总体 k 阶矩的信息,反映总体k 阶 中心矩的信息,6.3.2 抽样分布,统计量既然依赖于样本,而后者又是随机变量,故统计量也是随机变量,有一定的分布,这个分布称为统计量的抽样分布。,定理1:设 X1,X2,Xn是来自均值为 ,方差为 2 的总体的样本,则当 n 充分大时, 近似地有,抽样分布定理,证明:因X1,X2,Xn是来自均值为 ,方

14、差为2 的总体的样本。故 X1,X2,Xn 独立同分布, 且 E(X)=,Var(X)=2, i=1,2,n。 据中心极限定理,有,对充分大的 n,近似地有, 样本均值分布函数的近似计算,定理应用,总有, 样本均值与 的偏差在一定范围内的概率的 近似计算,从上式可以看出:对给定的2和给定的 c0, 当样本大小 n 增大时,上面的概率也随之增大;n 趋于无穷时,上式趋近于 1。,任给c 0,总有,例1:用机器向瓶子里灌装液体洗涤剂,规定每瓶装 毫升。但实际灌装量总有一定波动。假定灌装量的方差 2=1,如果每箱装这样的洗涤剂 25 瓶。求这 25 瓶洗净剂的平均灌装量与标定值 相差不超过0.3毫升

15、的概率;又如果每箱装50瓶时呢?,解:记一箱中 25 瓶洗净剂灌装量为 X1,X2, X25 是来自均值为 , 方差为1的总体的随机样本。根据抽样分布定理1,近似地有,当 n=50时,同样可算出:,6.4 正态总体,6.4.1 2 分布,它是由正态分布派生出来的一种分布。,定义1: 设 X1, X2, , Xn 相互独立,且均服从正态分布 N(0, 1), 则称随机变量,服从自由度为 n 的卡方分布,记成 。,分布的密度函数为,由 分布的定义,不难得到其如下性质:,进一步,由中心极限定理可以推出, n 充 分大时,近似于标准正态分布 N(0,1)。,分布密度函数图形,n2 分布上 分位点有表可

16、查,见附表4。,对于给定的 (0,1), 称满足条件,的点 n2()为 n2分布的上(右) 分位点。,分布分位点,t 分布的概率密度为,为服从自由度 n 的 t 分布,记为 T tn。,6.4.2 t 分布,定义2: 设 X N(0, 1) , Y n2 , 且 X与Y 相互独立,则称随机变量,t 分布的概率密度图形,当 n 充分大时,f (x; n) 趋近于标准正态分布的概率密度。,数学期望与方差,若 T tn , 对给定的 (0,1),称满足条件,t 分布的分位点,的点 tn()为 tn 分布上 分位点。,t 分布的上 分位点有表可查,见附表3。,tn 分布上 分位点示意图,6.4.3 F

17、 分布,则称 F =(X/m)/(Y/n)服从第一自由度为m,第二自由度为n 的 F 分布。记成 F Fm ,n 。,定义3:,F 分布的概率密度为,若 FFm, n,对给定的 (0,1), 称满足条件,F 分布的分位点,的点 Fm,n()为F分布的上 分位点。.,F 分布上 分位点有表可查,见附表5。,F 分布上 分位点示意图, 一个需要注意的问题:,这个关系式的证明如下:,证明:若 X Fm,n,则 Y = X -1 Fn,m。 依分位点定义,,上式等价于,再根据 Y ( Fn,m ) 的上 分位点定义,有,这就证明了(1)式。,在通常 F 分布表中,只对 比较小的值,如 = 0.01,

18、0.05, 0.025及0.1等列出了分位点。但有时我们也需要知道 比较大的分位点,,它们在 F 分布表中查不到。这时我们就可利用分位点的关系式(1)把它们计算出来。,例如:对m=12, n=9, =0.95, 我们在 F 分布表中查不到 F12,9(0.95),但由(1)式,知,可从F 分布 表中查到, 还有一个重要结果: 若X tn , 则X2 F1,n。 请同学们自己证明。,定理 1:,6.4.4 正态总体样本均值与样本方差的分布,定理的证明超出了教学范围,在此,我们不作证明。,定理的内容在后面几章的讨论中将多次用到,希望大家牢记。,例1:设某物体的实际重量为(未知),现在用一台天平称量

19、它,共称 n 次,得到X1,X2,Xn。 假设每次称量过程彼此独立,且无系统误差, 则可认为这些测量值独立同分布, 均服从正态分布N(,2),方差2反映了天平及测量过程的总精度。我们通常用样本均值,根据定理1(基本定理),有,再根据正态分布的性质(见p110,例4.2.6),知,例如:当 = 0.1 时,,也就是说:我们的估计值 与真值 的偏差不超过 的概率约为 99.74%, 并且随称量次数 n 的增加,偏差界限 将越来越小。,若取 n=10,则,若取 n=100,则,例2:在设计导弹发射装置时,重要内容之一是研究弹着点偏离目标中心的距离的方差。 对于某类导弹发射装置,弹着点偏离目标中心的距离服从 N(,2),这里 2 = 100米2。 现在进行了25次发射试验,用 S2 记这25次试验中弹着点偏离目标中心的距离的样本方差。求: S 2 超过50米2的概率。,解: 根据基本定理,知,查附表4,得到:,所以,,

展开阅读全文
相关资源
猜你喜欢
相关搜索

当前位置:首页 > 其他


经营许可证编号:宁ICP备18001539号-1