3常用概率分布.ppt

上传人:本田雅阁 文档编号:3015111 上传时间:2019-06-24 格式:PPT 页数:89 大小:6.12MB
返回 下载 相关 举报
3常用概率分布.ppt_第1页
第1页 / 共89页
3常用概率分布.ppt_第2页
第2页 / 共89页
3常用概率分布.ppt_第3页
第3页 / 共89页
3常用概率分布.ppt_第4页
第4页 / 共89页
3常用概率分布.ppt_第5页
第5页 / 共89页
点击查看更多>>
资源描述

《3常用概率分布.ppt》由会员分享,可在线阅读,更多相关《3常用概率分布.ppt(89页珍藏版)》请在三一文库上搜索。

1、常用概率分布,掌握:三个常用概率分布的概念;二项分布及Poisson分布的概率函数与累计概率、正态分布的分布函数的计算方法;医学参考值的计算 熟悉:三个常用概率分布的特征 了解:质量控制的意义、原理及方法,教学要求,一、二项分布 二、Poisson分布 三、正态分布,常见随机变量的分布:,连续型变量,离散型变量,1.1 二项分布的概念和函数 1.2 二项分布的特征 1.3 二项分布的应用,一、二项分布的概念 和概率函数,摸球模型,一个袋子里有5个乒乓球,其中2个黄球、3个白球,我们进行摸球游戏,每次摸1球,放回后再摸。先后摸100次,请问: 摸到0次黄球的概率是多大?,解:, 每次摸到白球的概

2、率 =0.6, 第1次摸到白球的概率=0.6,第2次摸到白球的概率=0.6,第100次摸到白球的概率=0.6, 100次摸到0次黄球的概率=0.60.60.6=0.6100,先后摸100次,摸到3次黄球的概率是多大?,解:,每次摸到黄球的概率 =0.4,黄白黄白黄白白白,概率=(0.4)3(0.6)97, 100次摸到3次黄球的概率 = (0.4)3(0.6)97+ (0.4)3(0.6)97+ (0.4)3(0.6)97+ = C1003 (0.4)3(0.6)97,每次摸到白球的概率 =0.6,黄黄黄白白白白白,黄白黄黄白白白白,概率=(0.4)3(0.6)97,概率=(0.4)3(0.6

3、)97, 先后摸100次,摸到x次黄球的概率是多大?,解:,100次摸到x次黄球的概率=C100x (0.4)x(0.6)100-x,100次摸到3次黄球的概率=C1003 (0.4)3(0.6)97, 先后摸n次,摸到x次黄球的概率是多大?,n次摸到x次黄球的概率=Cnx (0.4)x(0.6)n-x,解:, 如果摸到黄球的概率不是0.4,而是,先后摸n次,摸到x次黄球的概率是多大?,n次摸到x次黄球的概率=Cnx ()x(1- )n-x,解:,小结:摸球模型,二分类:每次摸球都有两种可能的结果(黄球或白球) 独立:每次摸球都是彼此独立的 重复:每次摸到黄球的概率都是、 摸到白球的概率都是1

4、- ,所以,先后摸n次,摸到x次黄球的概率为:,n次摸到x次黄球的概率=Cnx ()x(1- )n-x,在医学研究中,许多观察或试验的可能结果可以归结为二个相互排斥的结果。如检查的结果为“阳性”或”阴性”,治疗结果可分为“有效”或 “无效”,也可为 “生存”或“死亡”等。,二项分布的概念:,如果每个观察对象阳性结果的发生概率均为,阴性结果的发生概率均为(1- );而且每个观察对象的结果是相互独立的,那么,重复观察n个人,发生阳性结果的人数X的概率分布为二项分布,记作:B(n,) 。,P(x)=Cnx ()x(1- )n-x,其中:,一般地,若随机变量取值x的概率为:,(x 取值0、1、2、n)

5、,二项分布的密度函数:,举 例:,临床上用针炙治疗某型头痛,有效的概率为60%;现以该法治疗患者3例,其中0例、1例、2例、3例有效的概率各是多大?,解:,P(x)=Cnx ()x(1- )n-x,二、二项分布的特征,P(x)=Cnx ()x(1- )n-x,1. 二项分布的图形特征:, 和n 是二项分布的两个参数,n决定x的取值范围,n 和 决定了x的概率分布。,=0.5时,不同n值对应的二项分布,n=30,=0.3,n=20,=0.5,n=10,=0.3,n=5,=0.3,=0.3时,不同n值对应的二项分布,二项分布图的形态取决于和n,高峰在= n处,当=0.5,图形是对称的; 当0.5,

6、图形不对称;离0.5愈远,对称性愈差,但随着n的增大,分布趋向于对称。 当n时,只要不太靠近0或1(特别是 n 和 n(1-) 都大于5时),二项分布接近于正态分布。,对于二分类情况,进行n次试验,每次试验出现阳性结果的概率均为,出现阳性结果的次数为x,则X的总体均数 、方差2及标准差分别为:,总体方差: 2= n (1- ),2.二项分布的均数和标准差:,总体均数: =n,对于二分类情况,进行n次随机试验,每次试验出现阳性结果的概率为,则出现阳性结果x的概率P 、概率P的均数P,概率P的方差P2及概率P的标准差P为:,三、二项分布的应用,二项分布的应用:, 概率估计:,举例:如果某地钩虫感染

7、率是13%,随机观察当地150人,其中10人感染钩虫的概率有多大?,解析:,二分类(感染、不感染) 独立(假定互不影响) 重复(n=150),每人感染钩虫机率均为=0.13 故:感染钩虫的人数x符合二项分布B(150,0.13) 所以: P(x=10)=C15010 0.13100.87140=0.0055,单侧累积概率的计算:,单纯计算二项分布x恰好取某值的概率没有太大意义,经常需要计算的是二项分布的累积概率,(1)出现阳性次数至多为k次的概率为:,(2)出现阳性次数至少为k次的概率为:,举例:某地钩虫感染率是13%,随机观察当地150人。(1)其中最多有2人感染的概率有多大?,(2)其中最

8、少有2人感染的概率有多大?,(3)其中最少有20人感染的概率有多大?,解:,第二节 Poission分布及其应用,1.1 Poission 分布的概念和函数 1.2 Poission 分布的特征 1.3 Poission 分布的应用,一、Poission分布的概念 和概率函数,Poission分布的概念:,Poisson分布是描述罕见事件发生次数的概率分布。,如:出生缺陷、多胞胎、染色体异常、细菌在单位面积的分布等。,Poisson分布可看作是二项分布的特例:,独立重复的次数很大很大 每次出现某事件的概率,或未出现某事件的概率1- 很小很小,接近于0或1(如0.001或0.999)。,举例:1

9、毫升水样品中大肠杆菌数目X的分布:,将1毫升水等分为n个微小体积,这里n很大很大; 每1个微小体积中大肠杆菌是否出现,相互独立; 第1个微小体积中大肠杆菌出现的概率都是,且很小很小,想象:,例:放射性物质一定时间内放射出质点数的分布,时间 “n 很大、独立、概率都是 且很小”的二项分布 -Poisson分布,注意:,举若n次观察互不独立,或发生的概率不等,则不能看作是Poission分布。,举例:,传染性疾病的流行模型:首例病例出现后,便成为传染原,可增加后继病例出现的概率。 污染牛奶细胞的播布:成集落存在及繁殖。 钉螺在繁殖期一窝一窝的散布,这些现象均不能用Poission分布这个理论模型处

10、理,Poission分布的概念:,对二项分布,当n,n 时,可以证明:,P(x)=Cnx ()x(1- )n-x,所以,若随机变量X的概率函数为:,若则称此变量服从Poission分布,记作P () 。,举例:某地20年间共出生肢短畸形儿10名,平均每年0.5名,估计该地每年出生此类畸形人数为0、1、2的概率P(x )。,解析:,e=2.71828, =0.5,所以不同x取值时,概率值如下表示:,三、Possion分布的图形特征,Poission分布的概率函数:,是Poisson分布的总体参数,也是唯一的参数,Poission的概率分布示意图:,Poission分布图形的特征:,poissio

11、n分布图的形态取决于 5时为偏峰, 愈小分布愈偏; 随着的增大,分布趋向于对称。,总体均数=总体方差= ; 观察结果具有可加性,即:,Poission分布的两个重要特征:,若X1服从总体均数为1的Poission分布, X2服从总体均数为2的Poission分布, 则T= X1+ X2服从总体均数为1+2的Poission分布。,举例:从同一水源独立取水样5次,进行细胞培养,把5份水样混合,则合计菌落数也符合Poission分布, 则:,X1+X2 +X3 +X4+ X5 (1+ 2 +3+ 4+ 5),医学研究中常利用其可加性,将小的观察单位合并,来增大发生次数X,以便用后面讲到的正态近似法

12、作出统计推断。,三、Possion分布的应用, 概率估计:,举例1:若某地新生儿先天性心脏病的发病概率是8 ,那么该地120名新生儿中有4人患先天性心脏病的概率是多少?,解析:,发病、不发病,发病概率8,概率很小,n=120,相对较大,0, =n=120 8=0.96,故:,单侧累积概率的计算:,(1)稀有事件发生次数至多为k次的概率为:,(2)稀有事件发生次数至少为k次的概率为:,举例1:若某地新生儿先天性心脏病的发病概率是8 , 那么该地120名新生儿中: (1)至多有4人患先天性心脏病的概率是多少? (2)至少有5人患先天性心脏病的概率是多少?,举例2:实验室显示某100cm2的培养皿中

13、平均菌落数为6个,试估计(1)该培养皿中菌落数小于3的概率, (2)大于1个的概率。,解析:,菌落长、不长,长概率很小, n很大, =n=6,故:,二项分布,Poission分布,练习:如生三胞胎的概率为104,求105次分娩中,有0,1,2次生三胞胎的概率。,解:,一、正态分布的概念,一、正态分布的概念 正态分布是自然界最常见的一种分布 测量的误差、人体的尺寸、许多生化指标 等等都近似服从正态分布。 许多其它分布可用正态分布近似,正态分布(normal distribution)的概念,正态分布,德莫佛最早发现了二项概率的一个近似公式,这一公式被认为是正态分布的首次露面。,正态分布在十九世纪

14、前叶由高斯加以推广,所以通常称为高斯分布(Gauss distribution)。,德莫佛,高 斯,10马克的钱币,【典型案例分析】,举例: 随机调查某医院1402例待分娩孕妇,测得她们的体重,试述其体重频数分布的特征。,表5-1 某医院1402例分娩孕妇体重频数分布, ,作图:以体重测量值为横轴,以频率与组距的比值为纵轴作出直方图。,1. 由于该直方图的纵轴表示在每个组段内单位长度所占有的频率,相当于频率密度,因此将此图称为频率密度图。,图5-1 体重频率密度图,2. 由于频率的总和为100%或1,所以该曲线下横轴面积为100%或1 。 .,。,正态曲线:高峰位于中间,两侧逐渐下降并完全对称

15、,曲线两端永远不与横轴相交的“钟型”曲线。,正态分布的密度函数f(x) ,即正态曲线的函数表达式:,(一)正态分布的两个参数:,和 是正态分布的两个参数, 和决定了x的概率分布;习惯上用 N (, 2)表示均数为 ,标准差为的正态分布。,(二)正态分布图形的特征:,1. 关于x=对称,2. 正态曲线在横轴上方, 当x=时, f (x)取最大值,即均数位于曲线的最高处,在 x =处有拐点,3. 曲线下的面积为1。,4. 是正态曲线的位置参数,决定曲线在横轴上的位置; 增大曲线沿横轴向右移, 减小曲线沿横轴向左移。,5.是正态曲线的形状参数,越大数据越分散,曲线越“矮胖”,越小数据越集中,曲线越“

16、瘦高” 。,当固定不变时,越大,曲线沿横轴 越向右移动;反之, 越小,则曲线沿横轴越向左移动,所以叫正态曲线N(, 2)的位置参数, 。,1. 位置参数: ,图5-4 正态分布位置随参数变换示意图,2. 形状参数:,当固定不变时,越大,曲线越平阔; 越小,曲线越尖峭, 叫正态曲线N(, 2)的形状参数。,医学研究中许多正常人的生理,生化指标等多呈正态分布或近似正态分布。 一般来说,若影响某一数量指标的随机因素很多,而每个因素所起的作用均不太大,那么这个指标服从正态分布,如实验中的随机误差,通常表现为正态分布。,二、正态曲线下的面积,1. 一个共同的规律,正态分布性质决定的,2. Z变换与标准正

17、态分布 对于任何一个服从正态分布的随机变量,可作如下标准化变换,也称Z变换, 把z代入概率密度函数 ,得标准正态分布的概率密度函数:,变换后的Z值仍然服从正态分布,称为为标准正态分布 N(0,1)。,统计学家编制了标准曲线下面积分布表,因为两边对称,只给出Z取负值的情况。 (Z)称为标准正态分布的分布函数。,任意正态分布曲线 XN(,2),标准正态分布曲线 XN(0,1),可见,任一正态分布曲线下的面积分布规律可通过Z变换后,与标准正态分布曲线下面积对应,1. 左半侧Z值对应面积的查法:,正态曲线下面积对称,则区间(1.96,)的面积也是0.025。Z取值于(-1.96,1.96)的概率为1-

18、20.025=0.95,即X取值在区间 上的概率为95%。 同理,X取值在区间 的概率为99%。,例 4-10 X服从均数为 ,标准差为 的正态分布,试估计(1)X取值在区间 上的概率;(2)X取值在区间 上的概率;,先做标准化变化:,例 4-11 已知某地1986年120名8岁男童身高均数 ,S=4.79 cm ,估计(1)该地8岁男孩身高在130 cm以上者占该地8岁男孩总数的百分比;(2)身高界于120cm128cm者占该地8岁男孩总数的比例;(3)该地80%男孩身高集中在哪个范围? 先做标准化变化:,理论上该地8岁男孩身高在130 cm以上者占该地8岁男孩 总数的7.21%。,(2)计

19、算身高在120-128cm者占该地8岁男孩总数的百分比:,(3)欲求该地80%的8岁男孩身高集中 在哪个范围:,查附表1,标准正态分布曲线下左侧面积为0.10所对应的Z值为-1.28,所以80%的8岁男孩身高值集中在 区间内,即116.9cm129.2cm,(1)曲线下横轴上的总面积为100% (2)表中曲线下面积为(-,0) (3)标准正态曲线下的面积以0为对称,即,如区间(-,-1.96)与区间(1.96,+) 的面积相等。,小结:,F(u)=1-F(-u),对标准正态分布曲线,三、正态分布在医学中的应用,(一)制定医学参考值范围 参考值范围:指特定的“正常”人群的解剖、生理、生化指标及组

20、织代谢产物含量等数据大多数个体的取值所在的范围。 制定参考值范围的步骤: 1. 选择足够数量的正常人作为调查对象。 2. 样本含量足够大。 3. 确定取单侧还是取双侧正常值范围。 4. 选择适当的百分界限。 5. 选择适当的方法。,(1)百分位法:特别适用于偏态分布资料以及资料 中一端或两端无确切数值的资料。,如95%参考值范围:,计算公式:,以不同的方法计算参考值范围:,(2)正态分布法:适用于正态或近似正态分布资料,表 常用参考值范围的制定,举例1:某地调查120名健康女性血红蛋白,直方图显示,其分布近似于正态分布,得均数为117.4g/L,标准差为10.2g/L ,试估计该地正常女性血红

21、蛋白的95%医学参考值范围。,解析:,1. 分布近似正态,2. 过高过低均为异常,3. 求上、下界值,上界:,下界:,所以,该地健康女性血红蛋白的95%参考值范围是(97.41,137.39)g/l。,举例2: 某地调查120名健康成年男性的第一秒肺通气量得均数 X =4.2(L), 标准差S =0.7(L),试据此估计其第一秒肺通气量的95%参考值范围。,解析:,1. 分布近似正态,2. 仅过低为异常,3. 求下界值,下界:,所以,该地健康成年男子第一秒肺通气量的95%参考值范围为不低于3.05(L)。,注意:,1、95%医学参考值范围仅仅告诉我们某特定人群中,95%的个体指标测定值在此范围

22、内,并不能说明凡在此范围内都“正常”。在临床上只能作为参考。 2、确定参考值范围必须有足够的样本,并判定是否分层确定参考值。,(二)进行质量控制,基本原理:许多临床检验指标,当影响某一指标的随机因素很多,而每个因素所起的作用均不太大时,这个指标的随机波动属于随机误差,则往往服从正态分布。若存在系统性误差,这是指标波动就不再服从正态分布。,(三)进行质量控制,控制图:如果某一波动由个体差异或随机测量误差所致,则观察结果服从正态分布。 控制方法:控制图共有7条水平线,中心线均数处,常以 X 2s 作为上下警戒值,以 X 3s作为上下控制值。此外还有2条位于X s 处。,判断异常的8种情况是: 有一

23、个点距中心线的距离超过3个标准差(控制限以外) 在中心线的一侧连续有9个点 连续6个点稳定地增加或减少 连续14个点交替上下 连续3个点中有两个点距中心线距离超过2个标准差(警戒限以外),连续5个点中有4个点距中心线距离超过1个标准差 中心线一侧或两侧连续15个点距中心线距离都超出1个标准差以内 中心线一侧或两侧连续8个点距中心线距离都超出1个标准差范围。,三、二项分布、Poisson分布的的正态近似 1.二项分布的正态近似 二项分布的形状取决于n,,当=0.5时分布对称,当0.5时,分布呈偏态,特别是n较小时, 偏离0.5越远,分布的对称性越差,随着n的增大,分布逐渐趋向于对称。理论上可以证

24、明,不管如何,当n相当大时,只要不接近1和0时,特别是当n或n(1- )都大于5时,二项分布B(X;n,)近似正态分布N(n,n(1-)。,二项分布累积概率的正态近似公式为:,例4-14 如果某地钩虫感染率为13%,随机观察当地150人, 其中至少有20人感染钩虫的概率有多大?,2. Poisson分布的正态近似 Poisson分布,当总体均数 小于5时, 越小,分布越呈偏态,随着 的增大,分布逐渐趋向于对称。理论上可以证明,随着 Poisson分布也渐近为正态分布。当 时,Poisson分布资料可按正态分布处理。,Poisson分布累积概率的正态近似公式为:,例4-15 实验显示某放射性物质

25、半小时内发出的脉冲数服从Poisson分布,平均为360个,试估计该放射性物质半小时内发出的脉冲数大于400个的概率。,试估计该放射性物质半小时内发出的脉冲数大于 400个的概率为1.66%。,1. 满足( )时,二项分布B(n ,)近似正态分布。 A n 和n(1-) 均大于等于5 B n 或n(1-) 均大于等于5 C n50 D n足够大 2.满足( )时,Poisson分布P()近似正态分布。 A 无限大 B 20 C =1 D =0.5 3.满足( )时,二项分布B(n ,)近似Poisson分布。 A n 和n(1-) 均大于等于5 B n C n很大且接近0.5 D n很大且接近0,THANK YOU!,

展开阅读全文
相关资源
猜你喜欢
相关搜索

当前位置:首页 > 其他


经营许可证编号:宁ICP备18001539号-1