数理统计-.ppt

上传人:本田雅阁 文档编号:3186689 上传时间:2019-07-22 格式:PPT 页数:108 大小:2.43MB
返回 下载 相关 举报
数理统计-.ppt_第1页
第1页 / 共108页
数理统计-.ppt_第2页
第2页 / 共108页
数理统计-.ppt_第3页
第3页 / 共108页
数理统计-.ppt_第4页
第4页 / 共108页
数理统计-.ppt_第5页
第5页 / 共108页
点击查看更多>>
资源描述

《数理统计-.ppt》由会员分享,可在线阅读,更多相关《数理统计-.ppt(108页珍藏版)》请在三一文库上搜索。

1、例如,我们对某产品进行了一些工艺改造,,或研制了新产品,,要比较原产品和新产品在某一项,指标上的差异,这样我们面临选择是否接受假设,我们必须作一些试验,也就是抽样。,根据得到的样本观察值,来作出决定。,假设检验问题就是根据样本的信息,检验,关于总体的某个假设是否正确。,“新产品的某一项指标优于老产品”。,第一节 基本思想,基本思想,通过大量实践,,人们对小概率事件(即一次试验中,发生的概率很小的事情)总结出一条原理:,并称此为实际推断原理,,其为判断假设的根据。,在假设检验时,,若一次试验中小概率事件发生了,就认为是不合理的。,小概率事件在一次试验中发,生的概率记为,一般取,在假设检验中,称为

2、显著水平、检验水平。,小概率事件在一次试验中几乎不会发生。,基本思想,可能犯的错误有两类:,-第一类错误,(弃真),-第二类错误,(取伪),样本容量固定时,由于人们作出判断的依据是一个样本,,由部分来,推断整体。,所以假设检验不可能绝对准确。,概率增大。,减少犯一类错误,,则另一类错误,为真时拒绝,不真时接受,两个假设,假设检验的两类错误,P拒绝H0|H0为真= ,P接受H0|H0不真= .,犯两类错误的概率:,显著性水平 为犯第一类错误的概率.,P第一类错误=,P第二类错误=,显著性检验:,只对犯第一类错误的概率加以控制,,而不考虑犯第二类错误的概率。,单个正态总体均值与方差的假设检验,设总

3、体,称 为显著性水平。,为X的样本,P拒绝 | 为真,第一节 单个正态总体参数的假设检验,在实际工作中,往往把不轻易否定的命题作为原假设.,-原假设(零假设),-备选假设(对立假设),一、总体均值 的假设检验,其中 是已知常数,已知时,,的检验,例1 某车间生产铜丝,,X的大小。,铜丝的主要质量指标是折断力,由资料可认为,今换了一批,原料,从性能上看,,估计折断力的方差不会有变化,,但不知折断力的大小有无差别。,解 此问题就是已知方差,检验假设,抽出10个样品进行检验,测得其折断力(斤)为,(=0.05),看在H0条件下会不会产生不合理的现象,,能较好反映 的大小.,当 为真时,,差异不能过大

4、。,有较大偏差,较小,若差异较大,即小概率事件发生,,则拒绝假设,当 为真时,,衡量 的大小,设一临界值 k0,若,就认为有较大偏差;,则认为 不真,拒绝,则接受,若,显著性检验:,P拒绝 | 为真,拒绝域,由样本值求出,这说明小概率事件竟在一次试验中发生了,,故拒绝H0,,可以接受H1。,即认为折断力大小有差别,已知,已知,,第二步:,选取统计量,检验假设,的过程分为五个步骤:,第三步:,拒绝域为,第四步:,查表确定临界值,第六步:判断,则否定H0,接受H1,则H0相容,接受H0,第五步:计算,某车间用一台包装机包装葡萄糖.包得的袋装糖,当机器正常时,某日开工后为检验包装机是否正常,包装的糖

5、9袋,称得净重为(公斤):,0.497 0.506 0.518 0.524 0.498,0.511 0.520 0.515 0.512,问机器是否正常?,例2,重是一个随机变量X,且,其均值为=0.5公斤,标准差=0.015公斤.,随机地抽取它所,解:先提出假设,(=0.05),选取统计量:,拒绝域:,计算得,于是拒绝 ,,认为包装机工作不正常。,选择假设H1表示Z可能大于0,也可能小于0,这称为双边假设检验。,单边检验,右边检验,左边检验,右边检验,(2)选取统计量:,(3)拒绝域为,(5)计算,则拒绝 ,接受,反之,接受,左边检验,(2)选取统计量:,(3)拒绝域为,(5)计算,则拒绝 ,

6、接受,反之,接受,例3,(2)选取统计量:,某大学男生身高,今测得9名男生身高,平均为,问是否可以认为该校男生平均身高,超过170cm呢?,(3)拒绝域为,解,查表确定临界值,(4)取,(5)计算,可以认为该校男生平均身高超过170cm.,则拒绝 ,,重点保护 ,拒绝它有足够理由,不拒绝它而,接受它的理由就不充分。,例如 “ 这个城市小偷很少 ”,如题目问:是否有明显提高,是否有明显下降,(2)选取统计量:,(3)拒绝域为,例4 设某厂灯泡平均寿命为2000小时,标准差为250小时,从技术改造后的灯泡中随机抽取 n=25只,测得平均,寿命为2250小时,问此产品寿命是否较前有显著提高.,查表确

7、定临界值,(4)取,(5)计算,则拒绝 ,,即认为这些产品较以往有显著提高.,提出原假设和备择假设,第一步:,第二步:,选取统计量,第四步:,查表确定临界值,第三步:,拒绝域为,未知时,,的检验,未知 ,可用样本方差,代替,选择假设H1表示Z可能大于0,也可能小于0,这称为双边假设检验。,第六步:判断,则否定H0,接受H1,则H0相容,接受H0,第五步:计算,显著差别?爆破压力X服从正态分布 =0.05,解: 提出假设 H0:=549; H1:549,对一批新的某种液体存储罐进行耐裂试验,重复测量5次,测得爆破压力数据为(单位斤/寸2):,545 545 530 550 545,过去该种液体存

8、储罐的平均爆破压力为549斤寸(可,看作真值),因为未知方差2,故采用t检验法。,取统计量,例5,试问这批新罐的平均爆破压力与过去有无,由样本算得,这里,接受H0。即这批新罐的平均爆破压力与过去无显著差别。,拒绝域,查表,32.56, 29.66, 31.64, 30.00, 31.87, 31.03,例6,解(1),(2),(3)拒绝域,取统计量,某工厂生产一种螺钉,标准要求是长度是32.5毫米,实际生产的产品其长度X服从正态分布,未知,现从该厂生产的一批产品中抽取6件,得,尺寸数据如下:,问这批产品是否合格?,(5),将样本值代入算出统计量 T0的实测值,没有落入 拒绝域,故接受 为真,即

9、可认为产品是合格的。,(4),查表,右边检验,查表确定临界值,(4)取,(2)选取统计量:,(3)拒绝域为,(5)计算,则拒绝 ,接受,反之,接受,左边检验,查表确定临界值,(4)取,(2)选取统计量:,(3)拒绝域为,(5)计算,则拒绝 ,接受,反之,接受,4.28;4.40;4.42;4.35;4.37.如果标准差不变,解:,拒绝H0,例1,某日测得5炉铁水含碳量如下:,该日铁水的平均含碳量是否显著偏低? =0.05,已知某炼铁厂的铁水含碳量 在正常情况下,(2)取统计量,某次考试的考生成绩,从中随机地抽取36位考生的成绩,平均成绩为63.5分,,未知,,例2,标准差 s =15分,问在显

10、著水平0.05下是否可以认为,全体考生的平均成绩为70分?求的置信水平为,0.95的置信区间。,拒绝域为,解 先提出假设,计算,故落在拒绝域之内,拒绝H0 ,接受H1,即不能认为全体考生的平均成绩为70分。, 的置信水平为0.95的置信区间为,设总体,为X 的,样本。对2 作显著性检验(,,其中,检验),引例 已知某种延期药静止燃烧时间,今从一批延期药中任取10副测得静止燃烧时间(单位,秒)数据为,问:是否可信这批延期药的静止燃烧时间T的方差为,未知时,,的检验,解 提出假设,取统计量,为 的无偏估计,,不应过大也不应过小,说明,和,在H0成立的条件下都是,小概率事件。,因此,,在样本值,下计

11、算,若,或,则拒绝H0。,若,则接受H0。,本题,根据样本值算得,双边假设检验,的拒绝域为,或,则接受H0 。,即可信延期药的静止燃烧时间T的方差为,显然,由上例可得,第二步:,取统计量,的过程分为五个步骤:,第三步:,拒绝域为,第六步:判断,若,则拒绝H0,接受H1,第五步:计算,反之则接受H0。,第四步:,查表确定临界值,(=0.05),某次统考后随机抽查26份试卷,测得平均成绩,成绩标准差是否为,已知该次考试成绩,例2,(2)选取统计量,(3)拒绝域为,解(1) 假设,分,样本方差,试分析该次考试,分左右。,(4)查表确定临界值,(5)计算,故接受H0。,即可认为该次考试成绩标准差为,分

12、左右。,四 两个正态总体参数的假设检验,分别是这两个样本的均值,且 X 与 Y 独立,X1 , X2 , ,是取自X 的样本,Y 的样本,分别是这两个样本的样本方差,则有,Y1,Y2,是取自,和,且X与Y独立,四. 检验两正态总体均值相等,1.,提出假设,H0: 1=2 ;H1: 12,取统计量,拒绝域的形式,对给定,查表确定,则否定H0,接受H1,则接受H0,即认为两个正态母体均值无显著差异,即认为两个正态母体均值有显著差异,显著性水平为,由样本值 代入算出统计量,H0: 1=2 ;H1: 12,取统计量,提出假设,拒绝域的形式,给定显著性水平,且X与Y独立,1.,提出假设,检验两正态总体均

13、值之差,取统计量,拒绝域的形式,给定,算出统计量,则否定H0,接受H1,则接受H0,注意 在关于,的假设检验中, 通常遇到的情况是,,即检验,与,是否相等.,例3 某苗圃用两种育苗方案对杨树进行育苗试验, 已知在两组育苗试验中苗高的标准差分别为,cm,cm.,cm,设杨树苗高服从正态分布, 试在显著性水平,下, 判断两种试验方案对平均苗高有无显著影响?,现各抽取80株树苗作为样本, 算得苗高的样本均值分别为,cm.,解 设第一种方案的苗高为,第二种方案的苗高为,则,检验假设,选取检验统计量,该拒绝域为,现在, 统计量,的值,因为,所以拒绝原假设,即这两种试验方案对苗高有显著影响.,拒绝域,拒绝

14、域,未知,,的单边检验,五、 检验两正态总体方差相等 F检验,取统计量,分别是样本方差,(4),查表,则否定H0,接受H1,(2)选取统计量,(3)拒绝域,(5)计算,拒绝域,拒绝域,例1 两家银行分别对21个储户和16个储户的年存款余额进行抽样调查,测得其平均年存款余额分别为,元和,元.样本标准差相应为,元和,试比较两家银行的储户的平均年存款余额有无显著 差异。(取显著性水平,),元。假设年存款余额服从正态分布,,解 设两家银行的储户的平均年存款余额分别为,X,Y,则,是否相等。,拒绝域,这里查表,选取统计量,(1)检验假设,F的值为,因为,所以接受,选取统计量,(2)检验假设,(3)拒绝域

15、,(4),查表,因为,,所以拒绝,这说明两家银行的储户的平均年存款余额有显著差异,六、 大子样检验总体均值的假设检验,的假设检验是总体,的前提下提出的。,当总体X不服从正态分布时,,只要n较大,,对 假设检验均可选取Z统计量。,大子样的两总体均值相等的 假设检验 U检验,分别是这两个样本的,且X与Y独立,分别是这两个样本的样本方差,均值,大样本,由中心极限定理,,未知,用样本标准差S近似代替.,H0: 1=2 ;H1: 12,取统计量,提出假设,拒绝域的形式,给定显著性水平,五.总结:参数假设检验的一般步骤,本讲内容作简单小结.,在大样本的条件下,若能求得检验统计量的 极限分布,依据它去决定临

16、界值C.,F 检验 用 F分布,一般说来,按照检验所用的统计量的分布, 分为,U 检验 用正态分布,t 检验 用 t 分布,按照对立假设的提法,分为,单侧检验,它的拒绝域取在左侧或右侧 .,双侧检验,它的拒绝域取在两侧;,例4 为比较两台自动机床的精度,分别取容量为10和8的两个样本,测量某个指标的尺寸(假定服从正态分布),得到下列结果:,在 =0.1时, 问这两台机床是否有同样的精度?,车床甲:1.08, 1.10, 1.12, 1.14, 1.15, 1.25, 1.36, 1.38,1.40,1.42,车床乙:1.11, 1.12, 1.18, 1.22, 1.33, 1.35, 1.3

17、6, 1.38,解:设两台自动机床的方差分别为 在 =0.1下检验假设:,取统计量,分别是的样本方差,拒绝域为,或,由样本值可计算得F的实测值为:,F=1.51,查表得,由于 0.3041.513.68, 故接受H0 .,假设检验会不会犯错误呢?,由于作出结论的依据是下述,小概率原理,小概率事件在一次试验中基本上不会发生 .,如果H0成立,但统计量的实测值落入否定域,从而作出否定H0的结论,那就犯了“以真为假”的错误 .,如果H0不成立,但统计量的实测值未落入否定域,从而没有作出否定H0的结论,即接受了错误的H0,那就犯了“以假为真”的错误 .,假设检验的两类错误,P拒绝H0|H0为真= ,P

18、接受H0|H0不真= .,犯两类错误的概率:,显著性水平 为犯第一类错误的概率.,P第一类错误=,P第二类错误=,对给定的显著性水平,H0关于 的接受域:,H0关于 的拒绝域:,把本来正确的东西给丢弃了这就范了“弃真”的错误,,其概率是,P拒绝H0| 真=,而结论是:若 落在H0的接受域内,就接受H0,,但结论是:若 落在H0的拒绝域内,就拒绝H0,,(1)在H0正确的情况下, 落在R上的每一点都是可能的,范了“取伪”的错误,,注意:积分区间长度不变:,但积分区间的中心,(2)要同时降低两类错误的概率 ,或者要在 不变的条件下降低 ,需要增加样本容量.,(1)当样本容量固定时,一类错误概率的减

19、少导致 另一类错误概率的增加.,因减少,积分区间长度:,6. 非参数假设检验,一个总体的检验 分布的卡方拟合检验/柯尔莫哥洛夫拟合检验,二个总体相等的检验 柯尔莫哥洛夫-斯米尔诺夫/符号检验法/ 秩和检验法/游程检验法,分布拟合优度检验,概率图纸法,2-拟合优度检验,柯尔莫洛夫-斯米尔诺夫检验,6.1 概率图纸法,1.正态概率图纸的构造原理,设总体X有分布函数 F ( x ) ,N( ,2) 表示正态分布族,需要检验假设,在原假设 H0 为真时,通过中心化变换,即,而函数 u( x ) 是 x 的线性函数,,在 ( x , u ( x ) ) 直角坐标平面上是一条直线,这条直线过点 (, 0

20、),且斜率为 1/,图 6-1,2. 检验步骤,由格里汶科定理知道子样的经验分布函数Fn(x) 依概率收敛于总体分布函数 F(x) 。因此若,为真,则点 ( xi , Fn(xi), i=1, 2, , n 在正态概率图纸上也应该近似地在一条直线附近。根据上述想法,用正态概率图纸检验假设 H0的具体步骤如下:,1)整理数据:把样本观察值按大小排列。假如 n 次观察值中有 m 个不同的值,则按大小次序列入下表。,由于 ( x(m) , 1 ) 在正态概率图纸上无法标出,不少统计学家建议对 Fn 的值作如下两种修正:,这种修正对小样本是必要的;,2)描点:把点 ( x(k) , Fn(x(k) 描

21、在正态概率图纸上;,3)目测这些点的位置,若这一列点大概在一条直线附近,我们就可以接受原假设,否则就拒绝原假设。,若通过概率图纸检验已经知道总体服从正态分布,我们就凭目测在概率图纸上画出最靠近各点 ( x(i) , Fn(x(i) , i=1, , n 的一条直线 l。在概率图纸上画一条 F=0.5 的水平直线,这条直线与直线 l 的交点的横坐标 x 0.5 就可作为参数的估计。,其次,我们还可用 x 0.8413 x 0.5 来估计,3. 未知参数与2的估计,6. 2 2 拟合检验法,设总体X的分布函数为具有明确表达式的 F(x) ,我们把随机变量X的值域 R 分成 k 个互不相容的区间 A

22、1=a0, a1), A2=a1 , a2), , Ak=a k-1, ak , 这些区间不一定有相同的长度,设 是容量为 n 的样本观测值,ni 为样本观测值 中落入 Ai 的频数。则在 n 次试验中事件 Ai 出现的频率为,我们现在检验原假设 H0: F(x)=F0(x).,设在原假设 H0 成立下,总体X落入 Ai 的概率为 pi ,即,由大数定律,在 H0 为真时,频率 ni/n 与概率 pi 的差异不应太大。根据这个思想,Person 构造了一个统计量,定理 6.1:当 H0 为真时,即,为总体的真实概率时,,如果原假设 H0 只确定总体分布的类型,而分布中还含有未知参数, , m

23、, 则下面的 Fisher 定理解决了含未知参数情形的分布检验问题。,则有下面的统计量,Person 2拟合优度检验的步骤:,1)把总体X的值域划分为 k 个互不相交的区间 ai , a i+1 ) , i=1, , k , 其中 a1, ak+1 可以分别取 -, +; (每个划分的区间必须包含不少于5个个体,若个体数少于5个时,则可指导这种区间并入其相邻的区间,或者把几个频数都小于5,但不一定相邻的区间并成一个区间)。,2)在H0成立下,用极大似然估计法估计分布所含的未知参数;,3)在H0成立下,计算理论概率,并且算出理论频数 npi ;,4)按照样本观察值 落在区间 ai, ai+1 )

24、中的个数,即实际频数 ni , i=1, , k,计算,5)按照所给出的显著性水平,查自由度为k-m-1 的2-分布表得,6)若 ,则拒绝原假设H0,否则认为原假设成立。,这里 m 是未知参数的个数;,【例6.1】某研究人员在某地随机抽查了150户3口之家,结果全家无某疾病有112户,家庭中1人患病的有20户,2人患病的有11户,3人全患病有7户,问该病在该地是否有家族聚集性。,解:如果家庭成员之间的发病与否(X)互不影响,则X符合二项分布(两种互斥结果、试验条件不变、各次试验独立)。也就表明疾病不具有家族聚集性。,H0:该病分布服从二项分布,H1:不服从二项分布,=0.05, 理论家庭数=1

25、50*理论概率,理论概率,n =3-1-1=1, 20.05 (1)=3.84,具有家庭聚集性,拟合优度卡方检验的问题,分组不同,拟合的结果可能不同。 需要有足够的样本含量。,对于连续型变量的优度拟合,卡方检验并不是理想的方法。,统计学家推荐的拟合检验方法是: Kolmogorov-Smirnov检验,柯尔莫洛夫-斯米尔诺夫检验,采用Kolmogorov-Smirnov法进行正态性检验,由Kolmogorov与Smirnov提出。 原理:寻找最大距离(Distance), 所以常简称为D法。 适用于大样本。,具体做法: 比较实际频数与理论频数的累积概率间的差距,找出最大距离D,根据D值来判断实

26、际频数分布是否服从理论频数分布。,统计量:,H0: F(x)=F0(x).,D 拟合优度检验的步骤:,1),将n个子样值,按从小到大排列,,把相同的数合并,并指出其频数,2)算出经验分布函数,3)计算D的值,即,4)若 ,则拒绝原假设H0,否则认为原假设成立。,Kolmogorov-Smirnov拟合优度检验 图示,1.柯尔莫哥洛夫-斯米尔诺夫,H0: F1(x)=F2(x).,二个总体相等的检验,2.符号检验法,3.秩和检验法,4.游程检验法,H0: F1(x)=F2(x).,二个总体相等的检验,子样的经验分布函数F1m(x) , F2n(x),是来自两个独立总体的样本,1. 柯尔莫哥洛夫-

27、斯米尔诺夫,原假设H0成立的条件下,不应该太大下,H0: F1(x)=F2(x).,2.符号检验法,是来自两个独立总体的样本,(容量相等),H0为真时,H0: F1(x)=F2(x).,H0为真时,H0为真时,符号检验法,缺点要求数据配对,没有充分利用样本所提供的信息,优点是简单,直观,不要求被检验量所服从的分布,3.秩和检验法,定义:,按从小到大排列,,3.秩和检验法,H0: F1(x)=F2(x).,两个 样本大秩和检验法大步骤和思想如下:,以此得到的秩代替原来的样本,于是得到两个样本为,混合后,再按由小到大排序,便可得到m+n个秩,比较两个样本容量的大小,选出较小的,如果m=n,就任选一

28、个.假设mn.取容量为m的样本,把样本的,秩加起来得秩和,3.秩和检验法,H0: F1(x)=F2(x).,秩和统计量,H0为真时,第一个样本的秩一定均匀的分布在,这m+n个自然数中,而不会过度集中在较小或较大的数中,从而,不会太靠近取值范围,两端度值,否则就认为出现了小概率事件.,4.游程检验法,H0: F1(x)=F2(x).,把合样本按从小到大的顺序排列,得到合样本的顺序 统计量:,凡来自总体X的均记为0,来自总体Y的均记为1,于是合样本的顺序统计量就成为仅由0和1两个元素组成的序列.把每一个连续出现的0(或1)的一组数称为一个游程,每个游程所含元素的个数称为游程的长度.,R表示序列游程

29、总数,L表示序列的最大游程长度.,4.游程检验法,H0: F1(x)=F2(x).,H0为真时, 即X与Y有相同的分布,此时,可以看成从同一个总体中抽取的样本,他们能均匀的混合,因此序列的游程总数R将比较大,而序列的最大游程长度L将比较小.,因此,游程总个数R比较小或最大游程长度L比较大,都应该 拒绝,H 0,基于游程总个数R的检验法 基于最大游程长度L的检验法,H0: F1(x)=F2(x).,关于二个总体相等的非参数检验介绍了四种方法,同一个问题如果用上述四种方法检验,得出不同结论,则其中只要有一个检验结果是拒绝,则应该拒绝,H 0,H 0,其中,,S =0.98434532;,D=max(,不拒绝Ho。,查附表8,如果,则拒绝Ho,Kolmogorov-Smirnov拟合优度检验 图示,P-P图,表7-8的第4列,表7-8的第5列,提出 假设,根据统计调查的目的, 提出 原假设H0 和备选假设H1,作出 决策,抽取 样本,检验 假设,对差异进行定量的分析, 确定其性质(是随机误差 还是系统误差. 为给出两 者界限,找一检验统计量T, 在H0成立下其分布已知.),拒绝还是不能 拒绝H0,显著性 水平,P(T W)= -犯第一 类错误的概率, W为拒绝域,总 结,

展开阅读全文
相关资源
猜你喜欢
相关搜索

当前位置:首页 > 其他


经营许可证编号:宁ICP备18001539号-1