第3章概率概率分布与抽样分布.ppt

上传人:本田雅阁 文档编号:2603085 上传时间:2019-04-16 格式:PPT 页数:172 大小:5.37MB
返回 下载 相关 举报
第3章概率概率分布与抽样分布.ppt_第1页
第1页 / 共172页
第3章概率概率分布与抽样分布.ppt_第2页
第2页 / 共172页
第3章概率概率分布与抽样分布.ppt_第3页
第3页 / 共172页
亲,该文档总共172页,到这儿已超出免费预览范围,如果喜欢就下载吧!
资源描述

《第3章概率概率分布与抽样分布.ppt》由会员分享,可在线阅读,更多相关《第3章概率概率分布与抽样分布.ppt(172页珍藏版)》请在三一文库上搜索。

1、1,第 3 章 概率、概率分布与抽样分布,2,第 3 章 概率、概率分布与抽样分布,3.1 事件及其概率 3.2 随机变量及其概率分布 3.3 常用的抽样方法 3.4 抽样分布 3.5 中心极限定理的应用,3,3.1 事件及其概率,3.1.1 试验、事件和样本空间 3.1.2 事件的概率 3.1.3 概率的性质和运算法则 3.1.4 条件概率与事件的独立性 3.1.5 全概公式与逆概公式,4,试验、事件和样本空间,5,试 验 (experiment),对试验对象进行一次观察或测量的过程 掷一颗骰子,观察其出现的点数 从一副52张扑克牌中抽取一张,并观察其结果(纸牌的数字或花色) 试验的特点 可

2、以在相同的条件下重复进行 每次试验的可能结果可能不止一个,但试验的所有可能结果在试验之前是确切知道的 在试验结束之前,不能确定该次试验的确切结果,具有这3个特点的试验称为随机试验,6,必然现象与随机现象,必然现象(确定性现象) 变化结果是事先可以确定的,一定的条件必然导致某一结果 这种关系通常可以用公式或定律来表示 随机现象(偶然现象、不确定现象) 在一定条件下可能发生也可能不发生的现象 个别观察的结果完全是偶然的、随机会而定 大量观察的结果会呈现出某种规律性 (随机性中寓含着规律性) 统计规律性,十五的夜晚能看见月亮?,十五的月亮比初十圆!,7,事件 (event),事件:试验的每一个可能结

3、果(任何样本点集合) 如:掷一颗骰子出现的点数为3 通常用大写字母A,B,C,表示 随机事件(random event):每次试验可能出现也可能不出现的事件 掷一颗骰子可能出现的点数,随机试验的结果称为事件,随机变量,8,事件 (event),简单事件(simple event) :不能被分解成其他事件组合的基本事件 掷一颗骰子出现点数3(小于3) 必然事件(certain event):每次试验一定出现的事件,用表示 掷一颗骰子出现的点数小于7 不可能事件(impossible event):每次试验一定不出现的事件,用表示 掷一颗骰子出现的点数大于6,9,样本空间与样本点,样本空间(sam

4、ple Space) 一个试验中所有可能结果的集合,用表示 例如:在掷一颗骰子的试验中,样本空间表示为:1,2,3,4,5,6 在投掷硬币的试验中,正面,反面 样本点( sample point) 样本空间中每一个特定的试验结果 用符号表示,10,事件的概率,11,概率 用来度量随机事件发生的可能性大小的数值 必然事件的概率为1,表示为P ( )=1 不可能事件发生的可能性是零,P( )=0 随机事件A的概率介于0和1之间0P(A)1,用以度量试验完成时事件A发生的可能性大小, 记为P(A) 概率的三种定义,给出了确定随机事件概率的三条途经。,随机事件发生的可能性大小的度量称为概率,事件的概率

5、 (probability),12,概率的古典定义(古典概率),古典概型(等可能概型) 具有以下两特点 每次试验的可能结果有限(即样本空间中基本事件总数有限) 每个试验结果出现的可能性相同 它是概率论的发展过程中人们最早研究的对象,13,概率的古典定义,概率的古典定义 前提:古典概型 当试验的次数很多时,概率P(A)可以由所观察到的事件A发生次数(频数)的比例来逼近 在相同条件下,重复进行n次试验,事件A发生了m次,则事件A发生的概率可以写为,计算古典概率常用到排列组合知识,导致古典概率应用的局限性,14,概率的古典定义 (资料),根据古典概率定义可算出,抛一枚质地均匀的硬币,出现正面与出现反

6、面的概率都是0.5。历史上有很多人都曾经做过抛硬币试验。,15,概率的古典定义 (例题分析),设有50件产品,其中有5件次品,现从这50件中任取2件,求抽到的两件产品均为合格品的概率是多少?抽到的两件产品均为次品的概率又是多少? 解:任一件被抽到的机会均等,而且从50件产品中抽出2件相当于从50个元素中取2个进行组合,共有C502种可能,所以这是一个古典概型。,16,概率的统计定义(统计概率),当试验次数 n 很大时,事件A发生频率m/n 稳定地在某一常数 p 上下波动,而且这种波动的幅度一般会随着试验次数增加而缩小,则定义 p 为事件A发生的概率,当n相当大时,可用事件发生的频率m/n作为其

7、概率的一个近似值计算概率的统计方法(频率方法),统计概率通常是计算大量重复试验中该事件出现次数的比率,但有些试验是不能重复的,17,概率的统计定义 (例题分析),某地区几年来新生儿性别的统计资料如下表所示,由此可判断该地区新生儿为男婴的概率是,统计概率通常是利用历史的稳定数据或频率作为该事物发生概率的判断。,18,主观概率,有些随机事件发生的可能性,既不能通过等可能事件个数来计算,也不能根据大量重复试验的频率来近似 主观概率依据人们的主观判断而估计的随机事件发生的可能性大小 例如某经理认为新产品畅销的可能性是80 人们的经验、专业知识、对事件发生的众多条件或影响因素的分析等等,都是确定主观概率

8、的依据,19,概率的性质和运算法则,20,互斥事件及其概率 (mutually exclusive events), 在试验中,两个事件有一个发生时,另一个就不能发生,则称事件A与事件B是互斥事件,(没有公共样本点),互斥事件的文氏图(Venn diagram),可推广到多个事件互斥,John Venn是19世纪英国的哲学家和数学家,他在1881年发明了文氏图,21,互斥事件及其概率 (例题分析),【例】在一所城市中随机抽取600个家庭,用以确定拥有个人电脑的家庭所占的比例。定义如下事件: A:600个家庭中恰好有265个家庭拥有电脑 B:恰好有100个家庭拥有电脑 C:特定户张三家拥有电脑

9、说明下列各对事件是否为互斥事件,并说明你的理由 (1) A与B (2) A与C (3) B与 C,22,互斥事件及其概率 (例题分析),解:(1) 事件A与B是互斥事件。因为你观察到恰好有265个家庭拥有电脑,就 不可能恰好有100个家庭拥有电脑 (2) 事件A与C不是互斥事件。因为张三也许正是这265个家庭之一,因而事件与有可能同时发生 (3) 事件B与C不是互斥事件。理由同(2),23,互斥事件的加法规则 (addition law), 互斥事件的加法规则 若两个事件A与B互斥,则事件A发生或事件B发生的概率等于这两个事件各自的概率之和,即 P(AB) =P(A)+P(B) 事件A1,A2

10、,An两两互斥,则有 P(A1A2 An) =P(A1)+P(A2) +P(An),离散随机变量,24,互斥事件的加法规则 (例题分析),解:掷一颗骰子出现的点数(1,2,3,4,5,6)共有6个互斥事件,而且每个事件出现的概率都为1/6,根据互斥事件的加法规则,得,抛掷一颗骰子,并考察其结果。求出其点数为1点或2点或3点或4点或5点或6点的概率,25,概率的性质 (小结),非负性 对任意事件A,有 P(A) 0 规范性 一个事件的概率是一个介于0与1之间的值,即对于任意事件 A,有0 P (A) 1 必然事件的概率为1;不可能事件的概率为0。即P ( )=1; P( )=0 可加性 若A与B

11、互斥,则P(AB) =P(A)+P(B) 推广到多个两两互斥事件A1,A2,An,有 P( A1A2 An) = P(A1)+P(A2)+P(An),26,事件的补及其概率, 事件的补(complement) 事件A不发生的事件,称为A的补事件(或称逆事件),记为A 。它是样本空间中所有不属于事件A的样本点的集合,A,样本空间, A,P(A)=1- P(A),不可能同时发生而又必然有一个会发生的两个事件,例如:掷一个骰子,“出现2点”的概率是1/6,则“不出现2点”的概率就是5/6 。,27,广义加法公式 (事件的并或和), 事件A或事件B发生的事件,称为事件A与事件B的并。它是由属于事件A或

12、事件B的所有样本点的集合,记为AB或A+B,28,广义加法公式 (事件的交或积), 事件A与事件B同时发生的事件,称为事件A与事件B的交,它是由属于事件A也属于事件B的所有公共样本点所组成的集合,记为BA 或AB,29,广义加法公式, 广义加法公式 对任意两个随机事件A和B,它们和的概率为两个事件分别概率的和减去两个事件交的概率,即 P(AB) = P(A) + P(B) - P(AB),两个事件的并,两个事件的交,30,广义加法公式 (例题分析),解:设A =员工离职是因为对工资不满意 B =员工离职是因为对工作不满意 依题意有:P(A)=0.40;P(B)=0.30;P(AB)=0.15

13、P(AB)=P(A)+ P(B)- P(AB)=0.40+0.30-0.15=0.55,一家计算机软件开发公司的人事部门最近做了一项调查,发现在最近两年内离职的公司员工中有40%是因为对工资不满意,有30%是因为对工作不满意,有15%是因为他们对工资和工作都不满意。求两年内离职的员工中,离职原因是因为对工资不满意或对工作不满意或二者皆有的概率。,31,某技术小组有12人,他们的性别和职称如下,现要产生一名幸运者。试求这位幸运者分别是以下几种可能的概率:(1)女性;(2)工程师;(3)女工程师,(4)女性或工程师。并说明几个计算结果之间有何关系?,广义加法公式 (练习),32,设A女性,B工程师

14、,AB女工程师,A+B女性或工程师 (1)P(A)4/121/3 (2)P(B)4/121/3 (3)P(AB)2/121/6 (4)P(A+B)P(A)P(B)P(AB) 1/31/31/61/2,广义加法公式 (练习),33,条件概率与事件的独立性,34,条件概率 (conditional probability), 在事件B已经发生的条件下事件A发生的概率,称为已知B时A的条件概率,或称为给定B下A的概率,记为P(A|B),条件概率是结合某一事件发生的信息来修正相关事件发生的概率,35,条件概率 (例题分析),解:设 A =顾客购买食品, B =顾客购买其他商品 依题意有:P(A)=0.

15、80;P(B)=0.60;P(AB)=0.35,一家超市所作的一项调查表明,有80%的顾客到超市是来购买食品,60%的人是来购买其他商品,35%的人既购买食品也购买其他商品。求: (1)已知某顾客购买食品的条件下,也购买其他商品的概率 (2)已知某顾客购买其他的条件下,也购买食品的概率,36,条件概率 (练习),一家电脑公司从两个供应商处购买了同一种计算机配件,质量状况如下表所示 从这200个配件中任取一个进行检查,求 (1) 取出的一个为正品的概率 (2) 取出的一个为供应商甲的配件的概率 (3) 取出一个为供应商甲的正品的概率 (4) 已知取出一个为供应商甲的配件,它是正品的概率,37,条

16、件概率 (练习),解:设 A = 取出的一个为正品 B = 取出的一个为供应商甲供应的配件 (1) (2) (3) (4),38,乘法公式 (multiplicative law),用来计算两事件交的概率 以条件概率的定义为基础 设A,B为两个事件,若P(B)0,则 P(AB)=P(B)P(A|B) 或 P(AB)=P(A)P(B|A),39,乘法公式 (例题分析),【例】一家报纸的发行部已知在某社区有75%的住户订阅了该报纸的日报,而且还知道某个订阅日报的住户订阅其晚报的概率为50%。求某住户既订阅日报又订阅晚报的概率,解:设 A = 某住户订阅了日报 B = 某个订阅了日报的住户订阅了晚报

17、 依题意有:P(A)=0.75;P(B|A)=0.50 P(AB)=P(A) P(B|A)=0.750.5=0.375,40,乘法公式 (练习),从一个装有3个红球2个白球的盒子里摸球 (摸出后球不放回),求连续两次摸中红球的概率,解:设 A = 第2次摸到红球 B = 第1次摸到红球 依题意有: P(B)=3/5;P(A|B)=2/4 P(AB)=P(A) P(B|A)=3/52/4=0.3,41,独立事件与乘法公式 (independent events),若P(A|B)=P(A)或P(B|A)=P(B) ,则称事件A与B事件独立,或称独立事件 若两个事件相互独立,则这两个事件同时发生的概

18、率等于它们各自发生的概率之积,即 P(AB)= P(A) P(B) 若事件A1,A2,An相互独立,则 P(A1, A2, , An)= P(A1) P(A2) P(An),互斥事件是有相关性的:如果A事件发生,则B事件必然不会发生 独立事件是没有相关性的:A事件发生的概率不会因为B事件的发生而受到影响,42,独立事件与乘法公式 (例题分析),一个旅游经景点的管理员根据以往的经验得知,有80%的游客在古建筑前照相留念。求接下来的两个游客都照相留念的概率,解:设 A = 第一个游客照相留念 B = 第二个游客照相留念 两个游客都照相留念是两个事件的交。在没有其他信息的情况下,我们可以假定事件A和

19、事件B是相互独立的,所以有 P(AB)=P(A) P(B)=0.800.80=0.64,43,独立事件与乘法公式 (例题分析),假定我们是从两个同样装有3个红球2个白球的盒子摸球,每个盒子里摸1个。 求连续两次摸中红球的概率,解:设 A = 从第一个盒子里摸到红球 B = 从第二个盒子里摸到红球 依题意有:P(A)=3/5;P(B)=3/5 P(AB)=P(A) P(B)=3/53/5=0.36,44,全概公式与逆概公式,45,全概公式, 全概公式,完备事件组,全概公式体现了条件概率和乘法公式的意义:将一个相对复杂的事件分解成便于计算概率的简单事件。,B1,B2Bn是互不相容事件且 B1B2B

20、n=,46,全概公式 (例题分析),假设在n张彩票中只有一张中奖奖券,那么第二个人摸到奖券的概率是多少?,解:设 A = 第二个人摸到奖券,B = 第一个人摸到奖券 依题意有:P(B)=1/n;P(B)=(n-1)/n P(A|B)=0 P(A|B)=1/n-1,经典的“摸彩不论先后,中奖机会均等,在很多场合,选择事件与事件的补作为完备事件组常常是一个简便而有效的途径,47,全概公式 (练习),某项飞碟射击比赛规定一个碟靶有两次命中机会(即允许在第一次脱靶后进行第二次射击)。某射击选手第一发命中的可能性是80,第二发命中的可能性为50。求该选手两发都脱靶的概率。 解:设A第1发命中。B命中碟靶

21、。P(A)=0.8,求命中概率是一个全概率的计算问题,再利用对立事件的概率即可求得脱靶的概率。 0.810.20.50.9 脱靶的概率10.90.1,48,逆概公式, 逆概公式(贝叶斯公式 ),B1,B2,Bn是完备事件组 P(Bi)被称为事件Bi的先验概率(prior probability) P(A|Bi)被称为样本信息,是事件Bi发生的条件下事件A发生的概率 P(Bi|A)被称为事件Bi的后验概率(posterior probability),条件概率,在事件A已经发生的条件下来重新“修正”完备事件组B1,B2,Bn中每个事件的发生概率,初始的,没有其它信息的概率,已知事件A发生的信息后

22、修正的概率,乘法公式P(AB),全概公式P(A),49,逆概公式 (例题分析),某考生回答一道四选一的考题,假设他知道正确答案的概率为1/2,而他不知道正确答案时猜对的概率应该为1/4,那么他答对题的概率是多大?,解:设 A = 该考生答对了 ,B = 该考生知道正确答案 依题意有:P(B)=1/2; P(B)=1-1/2 = 1/2 P(A|B)=1/4 P(A|B)=1,50,逆概公式 (例题),用某种方法普查肝癌,设: A= 用此方法判断被检查者患有肝癌 , D= 被检查者确实患有肝癌 , 已知,现有一人用此法检验患有肝癌,求此人真正患有肝癌的概率,51,解: 由已知,得,所以,由Bay

23、es公式,得,逆概公式 (例题),52,资料,贝叶斯公式最早发表于1763年,当时贝叶斯已经去世,其结果没有受到应有的重视,后来,人们才逐渐认识到了这个著名概率公式的重要性。现在,贝叶斯公式以及根据它发展起来的贝叶斯统计已成为机器学习、人工智能、知识发现等领域的重要工具。 贝叶斯公式给出了结果事件B已发生的条件下,原因事件的条件概率。贝叶斯公式用于求原因概率;全概率公式用于求结果概率,53,练习,P117,8、9、10,54,3.2 随机变量及其概率分布,3.2.1 随机变量 3.2.2 离散型随机变量的概率分布 3.2.3 离散型随机变量的数学期望和方差 3.2.4 几种常用的离散型概率分布

24、 3.2.5 概率密度函数与连续型随机变量 3.2.6 常见的连续型概率分布,55,随机变量,56,随机变量 (random variables),对随机事件的数值性描述 -例如:抛硬币的结果,正面定义为1,反面定义为0 一般用 X,Y,Z 来表示 根据取值情况的不同分为 离散型随机变量:数轴上可列个孤立的点 连续型随机变量:数轴上一个或多个区间,57,离散型随机变量,随机变量 X 取有限个值或所有取值都可以逐个列举出来 x1 , x2, 以确定的概率取这些不同的值 离散型随机变量的一些例子,58,连续型随机变量,可以取一个或多个区间中任何值 所有可能取值不可以逐个列举出来,而是取数轴上某一区

25、间内的任意点 连续型随机变量的一些例子,59,离散型随机变量的概率分布,60,离散型随机变量的概率分布,列出离散型随机变量X的所有可能取值 列出随机变量取这些值的概率 通常用下面的表格来表示,P(X =xi)=pi称为离散型随机变量的概率函数 pi0 ;,61,离散型随机变量的概率分布 (例题分析),一部电梯在一周内发生故障的次数X及相应的概率如下表,一部电梯一周发生故障的次数及概率分布,(1) 确定的值 (2) 求正好发生两次故障的概率 (3) 求最多发生两次故障的概率 (4) 求故障次数多于一次的概率,62,离散型随机变量的概率分布 (例题分析),解:(1) 由于0.10+0.25+0.3

26、5+ =1 所以, =0.30 (2) P(X=2)=0.35 (3) P(X 2)=0.10+0.25+0.35=0.70 (4) P(X1)=0.35+0.30=0.65,为什么是概率相加?,63,离散型随机变量的数学期望和方差,64,离散型随机变量的数学期望 (expected value),离散型随机变量X的所有可能取值xi与其取相对应的概率pi乘积之和 描述离散型随机变量取值的集中程度 记为 或E(X) 计算公式为,数学期望又称均值,它实质上是随机变量所有可能取值的一个加权平均,其权数是取值的概率,65,离散型随机变量的方差 (variance),随机变量X的每一个取值与期望值的离差

27、平方和的数学期望,记为 2 或D(X) 描述离散型随机变量取值的分散程度 计算公式为 方差的平方根称为标准差,记为 或D(X),66,离散型数学期望和方差 (例题分析),一家电脑配件供应商声称,他所提供的配件100个中拥有次品的个数及概率如下表,每100个配件中的次品数及概率分布,求该供应商次品数的数学期望和标准差,67,几种常用的离散型概率分布,68,常用离散型概率分布,69,两点分布,设随机变量 X 只可能取a与b两个值 , 它的概率分布为,则称 X 服从 两点分布,(其中 0p1),两点分布,70,当a=0,b=1时两点分布称为 (01) 分布,即: 设随机变量 X 只可能取0与1两个值

28、 , 它的概率分布为,则称 X 服从 (01) 分布或伯努利分布。,(其中 0p1),两点分布,71,实例1 “抛硬币”试验,观察正、反两面情况,随机变量 X 服从 (01) 分布,两点分布 (实例分析),72,实例2 200件产品中,有190件合格品,10件不合格品,现从中随机抽取一件,若规定,则随机变量 X 服从(0 1)分布.,两点分布 (实例分析),73,两点分布是最简单的一种分布,任何一个只有两种可能结果的随机现象,比如新生婴儿是男还是女、明天是否下雨、种籽是否发芽等, 都属于两点分布。,说明,两点分布,74,1) 重复独立试验,将试验 E 重复进行 n 次,若各次试验的结果互不影响

29、,即每次试验结果出现的概率都不依赖于其它各次试验的结果, 则称这 n 次试验是相互独立的,或称为 n 次重复独立试验。,二项试验 (伯努利试验),75,2) n 重伯努利试验,伯努利资料,二项试验 (伯努利试验),76,实例1 抛一枚硬币观察得到正面或反面, 若将硬币抛 n 次,就是n重伯努利试验。,实例2 抛一颗骰子n次,观察是否 “出现 1 点”,就是 n重伯努利试验。,3) 二项概率公式,二项试验 (伯努利试验),77,且两两互不相容.,二项试验 (伯努利试验),78,称这样的分布为二项分布。记为,二项分布 (Binomial distribution),79,二项分布与伯努利试验有关

30、贝努里试验满足下列条件 一次试验只有两个可能结果,即“成功”和“失败” “成功”往往是指我们感兴趣的某种特征 一次试验“成功”的概率为p ,失败的概率为q =1- p,且概率p对每次试验都是相同的 试验是相互独立的,并可以重复进行n次 在n次试验中,“成功”的次数对应一个离散型随机变量X,二项分布 (小结),80,二项分布 (小结),重复进行 n 次试验,出现“成功”的次数的概率分布称为二项分布,记为XB(n,p) 设X为 n 次重复试验中出现成功的次数,X 取 x 的概率为,81,注意: 贝努里概型对试验结果没有等可能的要求,但有下述要求:,(1)每次试验条件相同;,二项分布描述的是n重贝努

31、里试验中出现 “成功”次数X的概率分布.,(2)每次试验只考虑两个互逆结果A或 ,,且P(A)=p , ;,(3)各次试验相互独立.,82,二项分布 (例题分析),【例】已知一批产品的次品率为4%,从中任意有放回地抽 取5个。求5个产品中: (1) 没有次品的概率是多少? (2) 恰好有1个次品的概率是多少? (3) 有3个以下次品的概率是多少?,83,在相同条件下相互独立地进行 5 次射击,每次射击时击中目标的概率为 0.6 ,则击中目标的次数 X 服从 B (5,0.6) 的二项分布。,二项分布 (例题分析),84,解,因此,二项分布 (练习),85,泊松分布 (Poisson distr

32、ibution),1837年法国数学家泊松(D.Poisson,17811840)首次提出 用于描述在一指定时间范围内或在一定的长度、面积、体积之内每一事件出现次数的分布, 给定的时间间隔、长度、面积、体积内“成功”的平均数(E(X)或) e = 2.71828 x 给定的时间间隔、长度、面积、体积内“成功”的次数,86,泊松分布 (例题分析),【例】假定某航空公司预订票处平均每小时接到42次订票电话,那么10分钟内恰好接到6次电话的概率是多少?,解:设X=10分钟内航空公司预订票处接到的电话次数,泊松资料,87,泊松分布 (作为二项分布的近似),当试验的次数 n 很大,成功的概率 p 很小时

33、,可用泊松分布来近似地计算二项分布的概率,即,实际应用中,当 P0.05,n20,np5时,近似效果良好,88,可见,当n充分大,p又很小时,可用泊松分布来近似二项分布!,89,泊松分布的背景及应用,二十世纪初卢瑟福和盖克两位科学家在观察与分析放射性物质放出的 粒子个数的情况时,他们做了2608次观察(每次时间为7.5秒)发现放射性物质在规定的一段时间内, 其放射的粒子数X服从泊松分布.,90,电话呼唤次数,交通事故次数,商场接待的顾客数,地震,火山爆发,特大洪水,在生物学、医学、工业统计、保险科学及 公用事业的排队等问题中 , 泊松分布是常见的. 例如地震、火山爆发、特大洪水、交换台的电 话

34、呼唤次数等, 都服从泊松分布.,91,由泊松定理,n重贝努里试验中稀有事件出现的次数近似地服从泊松分布。,我们把在每次试验中出现概率很小的事件称作稀有事件。如地震、火山爆发、特大洪水、意外事故等等,92,某一地区,一个人患某种疾病的概率为0.01,设各人患病与否相互独立.现随机抽取200人,求其中至少4人患这种病的概率.,解 以X记200人中患此病的人数,,所求概率为,可查泊松分布表,则XB(200,0.01).,利用泊松定理,,93,超几何分布,采用不重复抽样,各次试验并不独立,成功的概率也互不相等 总体元素的数目N很小,或样本量n相对于N来说较大时,样本中“成功”的次数则服从超几何概率分布

35、 概率分布函数为,其中,n表示试验次数;N表示总体中元素个数;M表示总体中代表成功的元素的个数 ;l=min(M,n),94,超几何分布 (例题分析),【例】假定有10支股票,其中有3支购买后可以获利,另外7支购买后将会亏损。如果你打算从10支股票中选择4支购买,但你并不知道哪3支是获利的,哪7支是亏损的。求: (1)有3支能获利的股票都被你选中的概率有多大? (2)3支可获利的股票中有2支被你选中的概率有多大?,解:设N=10,M=3,n=4,95,Jacob Bernoulli,Born: 27 Dec 1654 in Basel, Switzerland Died: 16 Aug 170

36、5 in Basel, Switzerland,伯努利资料,伯努利试验,96,泊松资料,Born: 21 June 1781 in Pithiviers, France Died: 25 April 1840 in Sceaux (near Paris), France,Simon Poisson,泊松分布,97,概率密度函数与连续随机变量,98,连续型随机变量,连续型随机变量可以取某一区间或整个实数轴上的任意一个值 它取任何一个特定的值的概率都等于0 不能列出每一个值及其相应的概率 通常研究它取某一区间值的概率 用概率密度函数的形式和分布函数的形式来描述,99,连续型随机变量与概率密度,则称

37、X是连续型随机变量,f(X)称为X的概率密度函数,简称概率密度。,注意f(x)不是概率,设X是随机变量,如果存在定义在整个实数轴上的函数f(x),满足条件,100,概率密度函数的性质,1),2),这两条性质是判定一 个函数 f(x)是否为某 个随机变量X的概率 密度函数的充要条件,3) X落入区间a,b内的概率,101,连续型随机变量的期望和方差,连续型随机变量的数学期望 方差,102,正态分布,103,正态分布 (normal distribution),由C.F.高斯(Carl Friedrich Gauss,17771855)作为描述误差相对频数分布的模型而提出 描述连续型随机变量的最重

38、要的分布 许多现象都可以由正态分布来描述 可用于近似离散型随机变量的分布 例如: 二项分布当n越来越大,越近似服从正态分布 经典统计推断的基础,104, = 正态随机变量X的均值 = 正态随机变量X的方差 = 3.1415926; e = 2.71828 x = 随机变量的取值 (- x ) 则称X服从参数为 、 的正态分布,记作XN( , ),正态分布,105,正态分布函数的性质,图形是关于x=对称钟形曲线,且峰值在x= 处 均值和标准差一旦确定,分布的具体形式也惟一确定,不同参数正态分布构成一个完整的“正态分布族” 均值可取实数轴上的任意数值,决定正态曲线的具体位置;标准差决定曲线的“陡峭

39、”或“扁平”程度。越大,正态曲线扁平;越小,正态曲线越高陡峭 当X的取值向横轴左右两个方向无限延伸时,曲线的两个尾端也无限渐近横轴,理论上永远不会与之相交 正态随机变量在特定区间上的取值概率由正态曲线下的面积给出,而且其曲线下的总面积等于1,106,正态概率密度函数的几何特征,107,正态概率密度函数的几何特征,108,标准正态分布 (standardize the normal distribution),标准正态分布的概率密度函数,随机变量具有均值为0,标准差为1的正态分布 任何一个一般的正态分布,可通过下面的线性变换转化为标准正态分布,标准正态分布的分布函数,109,正态分布 (例题分析

40、),【例】定某公司职员每周的加班津贴服从均值为50元、标准差为10元的正态分布,那么全公司中有多少比例的职员每周的加班津贴会超过70元,又有多少比例的职员每周的加班津贴在40元到60元之间呢?,解:设=50, =10,XN(50,102),110,数据正态性的评估方法,推断统计中用样本信息对总体进行推断,多数情况下都是以总体近似服从正态分布这一假定为前提。 检验数据是否服从正态分布的描述性方法主要有: 画出数据的直方图或茎叶图,对比正态分布的图形 求出样本数据的四分位差Qd和s,若数据近似服从正态分布,则Qd/s1.3。 对数据作正态概率图。若数据近似服从正态分布,则数据点将落在近似一条直线上

41、。,111,均匀分布,112,均匀分布 (uniform distribution),若随机变量X的概率密度函数为 称X在 a ,b上服从均匀分布,记为XUa,b 数学期望和方差,对于随机变量只在区间a,b内取值,其概率分布常用均匀分布来描述,113,均匀分布 (概率计算),随机变量X在某取值范围a ,b的任一子区间c ,d上取值的概率为 同样有:,随机变量变量X在任何小区间上取值的概率大小与该小区间的长度成正比,而与该小区间的具体位置无关,114,均匀分布 (例题分析),【例】某公共汽车站从早上6时起每隔15分钟开出一趟班车,假定某乘客在6点以后到达车站的时刻是随机的,所以有理由认为他等候乘

42、车的时间长度X服从参数为a=0,b=15的均匀分布。试求该乘客等候乘车的时间长度少于5分钟的概率,解:概率密度函数为 落入区间0,15的任一子区间0,d的概率是 等候乘车的时间长度少于5分钟即有d =5,因此该事件发生的概率等于5/15=1/3,115,指数分布,116,指数分布 (exponential distribution),若随机变量X的概率密度函数为 称X服从参数为的指数分布,记为XE() 数学期望和方差,指数分布用于描述等待某一特定事件发生所需时间的一种连续型概率分布。 如果某一事件在特定时间间隔内发生的次数服从泊松分布,则该事件先后两次发生之间的时间间隔服从指数分布。,117,

43、指数分布 (概率计算),随机变量X取小于或等于某一特定值x的概率为 随机变量X落入任一区间(a,b)的概率为,118,指数分布 (例题分析),【例】假定某加油站在一辆汽车到达之后等待下一辆汽车到达所需要的时间(单位:分钟)服从参数为1/5的指数分布,如果现在正好有一辆汽车刚刚到站加油,试分别求以下几个事件发生的概率: (1)一辆汽车到站前需要等待5分钟以上 (2)一辆汽车到站前需要等待510分钟,解:,119,3.3 常用的抽样方法,3.3.1 简单随机抽样 3.3.2 分层抽样 3.3.3 系统抽样 3.3.4 整群抽样,120,简单随机抽样 (simple random sampling)

44、,从总体N个单位中随机地抽取n个单位作为样本,使得每一个总体单位都有相同的机会(概率)被抽中 抽取元素的具体方法有重复抽样和不重复抽样 特点 简单、直观,在抽样框完整时,可直接从中抽取样本 用样本统计量对目标量进行估计比较方便 但是当N很大时,不易构造抽样框 抽出的单位很分散,给实施调查增加了困难 没有利用其他辅助信息以提高估计的效率,也称纯随机抽样,是应用最多、最基本的抽样方法之一,121,简单随机抽样的优缺点,优点:简单随机抽样是最符合随机原则的抽样方法,能保证总体的每个成员具有已知的且同等的被选为样本单位的机会,因此,产生的样本,不论其多大都是总体的一个有效代表。 缺点:不论使用哪种抽样

45、方法,都需要预先设定每个总体成员,要为每个总体成员提供一个标志值,而且要有一个完整的总体情况表,这往往是难以获得的。,122,分层抽样 (stratified sampling),将总体单位按某种特征或某种规则划分为不同的层,然后从不同的层中独立、随机地抽取样本 优点 保证样本的结构与总体的结构比较相近,从而提高估计的精度 组织实施调查更方便 既可以对总体参数进行估计,也可以对各层的目标量进行估计,分层或分类时,应使层内各单位的差异尽可能小,而使各层之间的差异尽可能大。,123,系统抽样 (systematic sampling),将总体中的所有单位(抽样单位)按一定顺序排列,在规定的范围内随

46、机地抽取一个单位作为初始单位,然后按事先规定好的规则确定其他样本单位 先从数字1到k之间随机抽取一个数字r作为初始单位,以后依次取r+k,r+2k等单位 优点:操作简便,可提高估计的精度 缺点:对估计量方差的估计比较困难,也称等距抽样或机械抽样,124,例3-1:从10000户中抽取200户进行抽样调查。 把10000户按一定标志(如家庭人口、收入水平、地址等)排列编号110000号; 求出抽样间隔kN/n10000/20050 在第一个间隔1-50号内任意选取一个单位作为抽样起点,如38号; 从38号开始,每隔50户抽取一户 38、88、138、1889988,共200户。,系统抽样 (例题

47、),125,整群抽样 (cluster sampling),将总体中若干个单位合并为组(群),抽样时直接抽取群,然后对中选群中的所有单位全部实施调查 特点 抽样时只需群的抽样框,可简化工作量 调查的地点相对集中,节省调查费用,方便调查的实施 缺点是估计的精度较差,126,整群随机抽样与类型随机抽样的区别,整群随机抽样 将总体中被抽取的群的全部单位作为样本单位进行调查; 抽样原则要求被划分的各群之间尽可能无差异,而群内部各单位允许存在明显差异。,类型随机抽样 在划分的每一部分中,按照其比例抽取一定数量的样本单位数; 要求被划分的各部分之间具有明显差异,而各部分内部间的差异要尽可能小。,127,整

48、群随机抽样与类型随机抽样的区别,如在拥有几十万户的城市中以户为单位进行调查,若运用整群随机抽样,以城市中的居委会为群,抽取若干居委会为样本,对作为样本的居委会所管辖的居民户全部进行调查。 由于各居委会所管辖的居民一般并无本质差异,而一个居委会内部的居民户在各方面会有明显差异,所以采用整群随机抽样方法抽取的样本对总体的代表性不会降低。,128,3.4 抽样分布,3.4.1 抽样分布的概念 3.4.2 样本均值抽样分布的形式 3.4.3 样本均值抽样分布的特征 3.4.4 样本比率的抽样分布 3.4.5 样本方差的抽样分布,129,抽样分布的概念,130,抽样分布 (sampling distribution),从一个给定的总体中抽取(不论是否有放回)容量(或大小)为n的所有可能的样本 对于每一个样本,计算出某个统计量(如样本均值或标准差)的值 不同的样本得到的该统计量的值是不一样的由此得到这个统计量的分布,称之为抽样分布。,131,样本统计量的概率分布,是一种理论分布 在重复选取容量为n的样本时,由该统计量的所有可能取值形成的相对频数分布 随机变量是 样本统计量 样本均值, 样本比例,样本方差等 结果来自容量相同的所有可能样本 提供了样本统计量长远而稳定的信息,是进行推断的理论基础,也是抽样推断科学性的重要依据,抽样分布 (sampling distribution)

展开阅读全文
相关资源
猜你喜欢
相关搜索

当前位置:首页 > 其他


经营许可证编号:宁ICP备18001539号-1