概率论及数理统计概率分布.ppt

上传人:本田雅阁 文档编号:2491014 上传时间:2019-04-03 格式:PPT 页数:71 大小:1MB
返回 下载 相关 举报
概率论及数理统计概率分布.ppt_第1页
第1页 / 共71页
概率论及数理统计概率分布.ppt_第2页
第2页 / 共71页
概率论及数理统计概率分布.ppt_第3页
第3页 / 共71页
亲,该文档总共71页,到这儿已超出免费预览范围,如果喜欢就下载吧!
资源描述

《概率论及数理统计概率分布.ppt》由会员分享,可在线阅读,更多相关《概率论及数理统计概率分布.ppt(71页珍藏版)》请在三一文库上搜索。

1、2019/4/3,1,第二章 概率分布,2019/4/3,2,引 言,由于存在个体差异,即使从同一总体中抽取的两份样本之间也会有所不同,因此需要对总体特征做出描述。 随机变量的分布常见的有三种类型:,正态分布(normal distribution) 二项分布(binominal distribution) Poisson 分布( Poisson distribution),离散型变量,连续型变量,2019/4/3,3,了解 正态分布的密度函数 二项分布的应用 Poisson分布的应用,掌握 正态分布曲线的特征及应用 二项分布的概念与特征 Poisson分布的概念与特征,【教学目的】,2019

2、/4/3,4,概念 频率密度图的绘制 例:随机调查某医院1402例待分娩孕妇,测得她们的体重。体重在各组段的频数分布见表1第2列,并求得体重落在各组段的频率(表1的第3列)。现以体重测量值为横轴,以频率与组距的比值为纵轴作出直方图。由于该直方图的纵轴表示在每个组段内单位长所占有的频率,相当于频率密度,因此我们将此图称为频率密度图(见图1)。,一、正态分布,2019/4/3,5,表1 某医院1402例分娩孕妇体重频数分布,图1 体重频率密度图,2019/4/3,7,若将各直条顶端的中点顺次连接起来,得到一条折线。当样本量n越来越大时,组段越分越细,此时直方渐进直条,这条折线就越来越接近于一条光滑

3、的曲线(见图1、2),我们把这条呈中间高,两边低,左右基本对称的“钟型”曲线称为正态分布曲线,近似于数学上的正态分布(高斯分布; Gauss)。,2019/4/3,8,图1 体重频率密度图,图2 概率密度曲线示意图,2019/4/3,9,正态分布的密度函数,式中,m为总体均数,s为总体标准差,p为圆周率,e为自然对数的底,仅x为变量。 当x确定后, f(x)为X相应的纵坐标高度,则X服从参数为和2的正态分布(normal distribution),记作XN( m, s2)。,2019/4/3,10,一般地,若连续型随机变量,设其概率密度函数为 ,则X取值落在区间 内的累积概率为概率密度曲线下

4、位于 的图形面积,等于其概率密度函数 在 到x上的积分,记作 。,称 为正态分布 的概率密度函数。其值表示变量落在区间 的概率,对应于从-到x概率密度曲线下的阴影的面积(常称为左侧尾部面积),见图3。,2019/4/3,12,图3 正态分布的概率密度函数,2019/4/3,13,于是,利用概率密度函数 可以计算正态分布变量取值在任意区间(a,b)的概率为,P(aXb)=,2019/4/3,14,2019/4/3,15,2.正态分布的特征,对称性:正态分布为单峰、对称分布,以均数为中心,左右对称。 正态分布的图形由均数和标准差两个参数决定。 位置参数m,即集中趋势的位置;变异度参数s,表示正态变

5、量取值的离中程度。 概率密度函数f(x)在x取均值时达到最大,峰值为 随机变量X的取值从-到+,相应的概率密度函数对应的曲线位于x轴上方,并与X轴永不相交;,2019/4/3,16,图4 正态分布位置变换示意图,2019/4/3,17,图5 正态分布形态变换示意图,2019/4/3,18,正态分布曲线下的面积分布有一定规律:正态曲线与横轴所夹的面积为1。 位于 内的面积为0.90; 位于 内的面积为0.95; 位于 内的面积为0.99。,2019/4/3,19,图6 正态分布曲线下面积分布规律示意图,2019/4/3,20,3. 标准正态分布,为了实际应用的方便,设U=(x-m)/s或Z=(x

6、-m)/s,即将原点移到m的位置,横轴尺度以s为单位,使m=0,s=1,则将原正态分布变换为标准正态分布N(0,1)。U为标准正态变量或标准正态离差。,2019/4/3,21,正态分布,标准正态分布,2019/4/3,22,统计学家对不同的U值编制了标准正态分布曲线下面积表(见附表),这样一般正态分布N(m, s2)的概率计算问题借助于标准化变换,并通过查附表就完全解决了。,2019/4/3,23,标准正态分布的概率密度曲线与分布函数示意图,2019/4/3,24,标准正态分布曲线下面积规律,1. 标准正态分布区间(-1,1)的面积占总面积的68.26% 。 2. 标准正态分布区间(-1.96

7、,1.96)的面积占总面积的95% 。 3. 标准正态分布区间(-2.58,2.58)的面积占总面积的99% 。,2019/4/3,25,例:已知某地正常成年女子的血清总蛋白数服从正态分布,调查了该地110名正常成年女子,得样本血清总蛋白均数为72.8(g/L),标准差为3.8(g/L),试估计该地正常成年女子血清总蛋白介于66.075.0(g/L)之间的比例,以及110名正常成年女子中血清总蛋白介于66.075.0(g/L)之间的人数。,2019/4/3,26,解:本例由于是大样本,可用样本均数和样本标准差作为总体m、s的估计值,即将该地正常成年女子的血清总蛋白数近似看作服从N(72.8,3

8、.82)的正态分布。作如下标准化变换:,2019/4/3,27,查标准正态分布表得:,于是,2019/4/3,28,故估计该地区正常成年女子血清总蛋白介于66.075.0 (g/L)之间的比例为68.23%。估计110名正常成年女子中血清总蛋白介于66.075.0 (g/L)之间的人数约为 人。,2019/4/3,29,4.1 制定医学参考值范围 参考值范围(reference range)是指所谓“正常人”的解剖、生理、生化等指标的波动范围。制定参考值范围时,首先要确定一批样本含量足够大的“正常人”。所谓“正常人”不是指“健康人”,而是指排除了影响所研究指标的疾病和有关因素的同质人群。其次需

9、根据指标的实际用途确定单侧或双侧界值,根据研究目的和使用要求选定适当的百分界值,常用95%。,4.正态分布的应用,2019/4/3,30,制定观察指标参考值范围的一般步骤:,依据观察指标的特点、背景和已知的影响因素,确定抽样的入选标准和排除标准; 根据指标特点决定单侧或双侧; 确定范围:一般为95%; 按资料特点选取不同方法计算正常值范围的上下限。,2019/4/3,31,双侧临界值:标准正态分布双侧尾部面积之和等于时所对应的正侧变量值称为双侧临界值,记作Za/2或 Ua/2。,单侧临界值:标准正态分布单侧尾部面积等于时所对应的正侧变量值称为单侧临界值,记作Za或Ua。,2019/4/3,32

10、,参考值范围的制定方法:,(1)正态分布法 适用于正态或近似正态分布资料; 双侧界值 单侧上界 单侧下界,2019/4/3,33,参考值范围的制定方法:,(2)百分位数法:特别适用于偏态分布资料以及资料中一端或两端无确切数值的资料。如95%参考值范围: 双侧界值:P2.5和P97.5 单侧上界:P95 单侧下界:P5,2019/4/3,34,例:调查某地120名健康女性血红蛋白,直方图显示其分布近似正态分布, 试估计该地健康女性血红蛋白的95%参考值范围。,2019/4/3,35,因血红蛋白过高、过低均为异常,所以按双侧估计95%医学参考值范围: 上限为: 下限为:,2019/4/3,36,注

11、意:95%医学参考值范围仅告诉我们某特定人群中,95%的个体该指标测定值在此范围内,并不能说明在此范围内都“正常”;也不能说明凡不在此范围内都 “不正常”,因此医学参考值范围在临床上只能作为参考。,2019/4/3,37,表2 常用参考值范围的制定,2019/4/3,38,计算某地正常女子血清总蛋白的95%参考值范围。 由于该地正常成年女子血清总蛋白近似服从正态分布,可用正态分步法计算,因血清总蛋白过多过少均属异常,故计算95%参考值范围的上下限为:,2019/4/3,39,例:某地调查120名健康成年男性的第一秒肺通气量得均数 =4.2(L), 标准差S =0.7(L),试据此估计该地健康成

12、年男子第一秒肺通气量的95%参考值范围。,2019/4/3,40,解:由于该地健康成年男子第一秒肺通气量近似服从正态分布,可用正态分布法计算。因第一秒肺通气量仅过低属异常,故只需求出下限。 即该地健康成年男子第一秒肺通气量的95%参考值范围为不低于3.05(L)。,2019/4/3,41,4.2 估计频数分布,2019/4/3,42,为了控制实验中的检测误差,常以 作为上下警戒值,以 作为上下控制值。这里的2s和3s可视为1.96s和2.58s的约数。,4.3 进行质量控制,2019/4/3,43,2019/4/3,44,(1) t分布、F分布、 分布都是在正态分布的基础上推导出来的,u检验也

13、是以正态分布为基础的。 (2) t分布、二项分布、Poisson分布的极限为正态分布,在一定条件下,可以按正态分布原理来处理。,4.4 正态分布是许多统计方法的理论基础:,2019/4/3,45,二、二项分布,1. 二项分布的含义 在医学研究中,许多观察或试验的可能结果可以归结为二个相互排斥的结果。如检查的结果为阳性或阴性,治疗的结果可以为有效或无效,也可以为治愈或未治愈等。,一个袋子里有5个乒乓球,其中2个为黄色,3 个为白色。每次摸1个球,然后放回再摸。先后摸100次,摸到黄球的次数X=0,1,2,3,的概率有多大?,P (x=0)= ? P (x=1)= ? P (x=2)= ? P (

14、x=100)= ?,2019/4/3,47,该实验有三个特点:,各次摸球彼此独立; 每次摸球只有两种可能的结果(黄球或白球) 每次摸到黄球的概率(0.4)是固定的。,2019/4/3,48,若变量X在n此独立实验中,具有: 各观察单位只能具有相互对立的两种结果之一。 已知发生某一结果(阳性)的概率为,其对立结果的概率为1-。 n次试验在相同条件下进行,且各个观察单位的观察结果相互独立。 则称变量X服从二项分布,记作:B(X;n,),2019/4/3,49,例:假设注射某种免疫疫苗会有10%的人出现不适反应。问3人接种后各种可能后果的概率是多少? 假定这3人接种后出现不适反映的可能性相同,则概率

15、均为10%,用X表示发生不适反应的次数,则X的取值为0,1,2和3,求随机变量各个可能的取值所对应的概率。,2019/4/3,50,2. 二项分布的概率函数和概率分布,n和是二项分布的两个参数,n决定了X的取值范围,n和决定了X的概率分布。,2019/4/3,51,3. 二项分布的性质与特征,形态取决于和n:当接近0.5时,分布对称,离0.5越远,分布对称性越差;但当n增大时, 分布趋于对称。 高峰在 n处。 二项分布的总体均数n,方差为 。 当n5,且n(1-)5时,二项分布趋于正态分布。,图7 二项分布的概率分布示意图,2019/4/3,53,4. 二项分布的应用,4.1 应用条件 各观察

16、单位只具有相互对立的两种结果; 已知发生某一结果的概率为p,其对立结果的概率则为1-p; n个观察单位的观察结果相互独立。 4.2 应用 概率计算;,2019/4/3,54,例:据报道,有10%的人对某药有肠道反应。为考察此药的质量,现随机选5人服用此药,试求: (1)其中k个人(k=0,1,2,3,4,5)有反应的概率;(2)不多于2人有反应的概率;(3)有人有反应的概率。,例:设在人群中感染某种疾病的概率为20%,现有两种疫苗,用疫苗A注射了15人后无一感染,用疫苗B注射15人后有1人感染,设人群没有相互传染疾病的可能,问:应该如何评价这两种疫苗? 解:假设疫苗A、B完全无效,那么注射后感

17、染的概率仍为20%,则15人中染病人数XB(15,0.20)。X=0的概率为,X1的概率为,2019/4/3,56,Poisson分布是一个重要的离散型概率分布。一般地,Poisson分布应用于观察例数n很大、而p发生的概率很小的情况。如,交通事故发生数,某些罕见疾病发生数,单位容积中的细菌计数、细胞计数,放射性物质在单位时间内放射的粒子数,单位空间的粉尘个数等等。此时,随机变量X(发生数等)所有可能的取值以及相应的概率分布即为Poisson分布。,三、Poisson分布,历史上, Poisson分布是作为二项分布的近似,于1837年由法国数学家Poisson引入 。,近年来, Poisson

18、分布日益显示其重要性,成为概率论中最重要的几个分布之一。,在实际生活中,许多随机现象服从或近似服从泊松分布。,在生物学、医学、工业统计、保险科学等问题中 , 泊松分布是常见的。如地震、火山爆发、特大洪水、交通事故次数等, 都服从泊松分布。,泊松分布的图形,图8 Poisson分布的示意图,2019/4/3,60,1. Poisson分布的概率函数:,此处m0,是某一常数,e是自然对数的底数,称X服从参数为m的Poisson分布,记为XP(m),可见,Poisson分布可作为二项分布的极限而得到。换言之,如果XB(n,p),当p很小,而n很大时,可以认为X近似服从m=np的Poisson分布P(

19、m)。,2019/4/3,61,Poisson分布属于离散型分布,是Poisson分布的总体参数,也是唯一的参数。 方差s2与均数相等,即m=s2。这是Poisson分布的一个非常重要而且非常独特的性质,经常用于判断某随机事件是否服从Poisson分布。 设 且 ,并且X1与X2相互独立,则 服从总体均数为 的Poisson分布。 当20时,poisson分布近似正态分布,2. Poisson分布的特性,2019/4/3,62,3. 应用,应用条件: 由于Poisson分布可以看作二项分布的极限分布,二项分布的应用条件也是Poisson分布的应用条件。此外,Poisson分布还要求试验次数n很

20、大,而所关心的事件发生的概率p很小。,2019/4/3,63,概率计算,例: 为监测饮用水的污染情况,现检验某社区每毫升饮用水中细菌数,共得400个,记录如下表:,表5 某社区每毫升饮用水中细菌数,试分析饮用水中细菌数的分布是否服从Poisson分布。若服从,计算每毫升水中细菌数的概率及理论次数,并将次数分布与Poisson分布做直观比较,2019/4/3,64,得:经计算得每毫升水中平均细菌数 =0.5,方差S2=0.496。两者接近,近似服从Poisson分布。,2019/4/3,65,例如某均匀的溶液中,每ml含有3个细菌,即XP(3)。现考虑5ml溶液中的细菌的分布情况。由于X iP(

21、3) i=1,2,3,4,5。据Poisson分布的可加性可得: X1 X2 X3 X4 X5 P(15) 即5ml溶液中的细菌数仍然服从Poisson分布,均数为15。,2019/4/3,66,选择题,1. 理论上,二项分布是一种 A 连续性分布 B 离散分布 C 均匀分布 D 标准正态分布 2. 在样本例数不变的情况下,下列何种情况时,二项分布越接近对称分布。 A 总体比例越大 B 样本比例P越大 C 总体比例越接近0.5 D 总体比例越小,2019/4/3,67,3.某种人群(如成年男子)的某个生理指标(如收缩压)或生化指标(如血糖水平)的正常值范围一般 A.该指标在所有人中的波动范围

22、B.该指标在所有正常人中的波动范围 C.该指标在绝大部分正常人中的波动范围 D.该指标在少部分正常人中的波动范围 E.该指标在一个人不同时间的波动范围,2019/4/3,68,4. 正态分布的特点有 A.算术均数=几何均数 B.算术均数=中位数 C.几何均数=中位数 D.算术均数=几何均数=中位数 E.以上都没有,2019/4/3,69,5. 正态分布曲线下右侧5对应的分位点为 A.+1.96 B.-1.96 C.+2.58 D.+1.64 E.-2.58,2019/4/3,70,计算题 某地1998年抽样调查了100名18岁男大学生身高,其均数=172.70cm,标准差=4.01 cm。 (1)估计该地18岁男大学生身高在168 cm以下者占该地18岁男大学生总数的百分数; (2)估计该地18岁男大学生身高在177 cm以下者占该地18岁男大学生总数的百分数。,2019/4/3,71,THANK YOU!,

展开阅读全文
相关资源
猜你喜欢
相关搜索

当前位置:首页 > 其他


经营许可证编号:宁ICP备18001539号-1