第2讲概率论复习及R相关应用.ppt

上传人:本田雅阁 文档编号:2093805 上传时间:2019-02-13 格式:PPT 页数:105 大小:1.12MB
返回 下载 相关 举报
第2讲概率论复习及R相关应用.ppt_第1页
第1页 / 共105页
第2讲概率论复习及R相关应用.ppt_第2页
第2页 / 共105页
第2讲概率论复习及R相关应用.ppt_第3页
第3页 / 共105页
亲,该文档总共105页,到这儿已超出免费预览范围,如果喜欢就下载吧!
资源描述

《第2讲概率论复习及R相关应用.ppt》由会员分享,可在线阅读,更多相关《第2讲概率论复习及R相关应用.ppt(105页珍藏版)》请在三一文库上搜索。

1、概率论复习及R相关,引言,在我们所生活的世界上, 充满了不确定性,扔硬币、掷骰子和玩扑克等简单游戏,将不确定性数量化,20世纪初叶才开始的.,世间万物的繁衍生息;大自然的千变万化, 面临着不确定性和随机性.,已经给人类活动的一切领域带来了一场革命.,随机现象是不是没有规律可言?,多次重复抛一枚硬币,正面朝上的次数大致一半;,测量一物体的长度,由于仪器及观察受到的环境的影响,每次测量的结果可能是有差异的. 但多次测量结果的平均值随着测量次数的增加逐渐稳定于一常数.,在一定条件下对随机现象进行大量观测会发现某种规律性.,数理统计 研究怎样有效地收集、整理和分析带有随机性质的数据,以对所观测的问题作

2、出推断和预测,概率论 研究随机现象的统计规律性 概率论的起源 赌博 概率论的发展 测度,概率论与数理统计的应用和渗透,本学科的应用,几乎遍及所有科学技术领域、 工农业生产和国民经济的各个部门中.,1. 气象、水文、地震预报、人口控制及预测,产品的抽样验收,新研制的药品能否应用,3. 寻求最佳生产方案,购物排队、红绿灯转换等,都可用一类概率,模型来描述,其涉及到 的知识就是 排队论.,目前,概率统计理论 进入其他自然科学领,域的趋势还在不断发展. 在社会科学领域 ,特,别是经济学中研究最优决策和经济的稳定增长,等问题,都大量采用 概率统计方法. 正如法国,数学家 拉普拉斯所说 : “ 生活中最重

3、要的问题,,其中绝大多数在实质上只是概率的问题.”,机器维修、病人候诊、存货控制、水库调度、,第一章 随机事件与概率,1.1 样本空间与随机事件,一 .随机试验: 对随机现象进行一次观察和实验,统称为随机试验。 随机实验简称为实验,用E表示,实验E的所有可能结果构成的集合,称为E的样本空间,用S表示,定义,满足某些条件的可能结果所组成的集合,称为随机事件。随机事件用大写字母A,B,C表示.,在一次试验中,事件A发生的含义是,当且仅当A中一个样本点(或基本事件)发生(或出现)。事件A发生也称为事件A出现,事件的发生,2. 随机事件,其中T1,T2分别是该地区的最低与最高温度,观察某地区每天的最高

4、温度与最低温度,观察总机每天9:0010:00接到的电话次数,投一枚硬币3次,观察正面出现的次数,例 给出一组随机试验及相应的样本空间,一. 古典概率,1-2 事件的概率(Probability),1古典概型,定义1 若随机试验满足下述两个条件: (1) 它的样本空间只有有限多个样本点; (2) 每个样本点出现的可能性相同.,称这种试验为有穷等可能随机试验 或古典概型.,这样就把求概率问题转化为计数问题 .,定义2 设试验E是古典概型, 其样本空间S由n个样本点组成 , 事件A由k个样本点组成 . 则定义事件A的概率为:,称此概率为古典概率. 这种确定概率的方法 称为古典方法 .,排列组合是计

5、算古典概率的重要工具 .,二. 几何概率,1.定义,向任一可度量区域G内投一点,如果所投的点落在G中任意可度量区域g内的可能性与g的度量成正比,而与g的位置和形状无关,则称这个随机试验为几何型随机试验。或简称为几何概型。,2. 概率计算,1. P(A)=A的度量/S的度量,两人约定于12点到1点到某地会面,先到者等20分钟后离去,试求两人能会面的概率?,例1:,解:设x,y分别为甲、乙到达时刻(分钟),令A=两人能会面=(x,y)|x-y|20,x60,y60,P(A)=A的面积/S的面积=(602-402)/602=5/9,三.概率的频率定义,例2:从同一型号同一批次的反坦克弹中任抽一发反坦

6、克弹射击目标,观测命中情况。设A代表“命中”这一事件,求P(A)?,1 事件的频率 在一组不变的条件下,重复作n次试验,记m是n次试验中事件A发生的次数。 频率 f=m/n,2.频率的稳定性,掷一枚均匀硬币,记录前400次掷硬币试验中频率P*的波动情况。 (正面出现频率的趋势,横轴为对数尺度),3概率的频率定义,在一组不变的条件下,重复作n次试验,记m是n次试验中事件A发生的次数。当试验次数n很大时,如果频率m/n稳定地在某数值p附近摆动,而且一般地说,随着试验次数的增加,这种摆动的幅度越来越小,称数值p为事件A在这一组不变的条件下发生的概率,记作P(A)=p.,意义:,(1) 提供了估计概率

7、的方法; (2)提供了一种检验理论正确与否的准则.,设试验的基本事件总数为n,事件A所包含的基本事件总数为m,事件AB所包含的基本事件总数为k。,1.3 条件概率,利用条件概率求积事件的概率即乘法公式,推广,乘法公式,某厂生产的灯泡能用1000小时的概率 为0.8, 能用1500小时的概率为0.4 , 求已用 1000小时的灯泡能用到1500小时的概率,解 令 A 灯泡能用到1000小时 B 灯泡能用到1500小时,所求概率为,三全概率公式,定义,若事件组B1,Bn,满足:,(1),B1,Bn互不相容且P(Bi)0,i=1,n,(2),事件B1,Bn,为样本空间的一个划分 则对任何事件A,均有

8、,上式称为全概率公式,则称事件B1,Bn,为样本空间的一个划分,定理,Bayes公式,全概率公式,1.4 事件的独立性,例 已知袋中有5只红球, 3只白球.从袋中 有放回地取球两次,,设第 i 次取得白球为,求,事件 Ai ( i =1, 2 ) .,解,一事件的独立性,事件 A1 发生与否对 A2 发生的概率没有影响,定义,设 A , B 为两事件,若,则称事件 A 与事件 B 相互独立,可视为事件A1与A2相互独立,四对事件,任何一对相互独立,则其它三对也相互独立,试证其一,事实上,第一章复习要点,随机试验 样本空间 随机事件 基本事件 频率 概率 古典概型 A的对立事件及其概率 互不相容

9、事件的和事件的概率 加法公式 条件概率 概率的乘法公式 全概率公式 贝叶斯公式 事件的独立性 n重贝努利试验,随机变量,第二章 复习提纲,第二章 随机变量及其分布,为了更好的揭示随机现象的规律性并利用 数学工具描述其规律,引入随机变量来描述随 机试验的不同结果,例 电话总机某段时间内接到的电话次数,可用 一个变量 X 来描述,例 抛掷一枚硬币可能出现的两个结果,也可以 用一个变量来描述,有了随机变量,随机试验中的各种事件,就可以通过随机变量的关系式表达出来.,二、引入随机变量的意义,如:单位时间内某电话交换台收到的呼叫次数用X表示,它是一个随机变量.,事件收到不少于1次呼叫 X 1,没有收到呼

10、叫 X= 0,2.1 随机变量的概念,定义 设E是一随机试验,S 是它的样本空间,,则称 S 上的单值实值函数 X ( )为随机变量,随机变量一般用 X, Y , Z ,或小写希腊字母 , , 表示,若,如,若用X 表示电话总机在9:0010:00接到 的电话次数,,或, 表示“某天9:00 10:00 接到的电话 次数超过100次”这一事件,则,例如,要研究某地区儿童的发育情况,往往 需要多个指标,例如,身高、体重、头围等,S = 儿童的发育情况 ,X ( ) 身高,Y ( ) 体重,Z ( ) 头围,各随机变量之间可能有一定的关系,也可能 没有关系 即 相互独立,随机变量的分类,离散型随机

11、变量,非离散型随机变量, 其中一种重要的类型为 连续性随机变量,定义了一个 x 的实值函数,称为随机变量 X 的分布函数,记为F ( x ) ,即,2.2 离散型随机变量及其概率分布,定义 若随机变量 X 的可能取值是有限多个或 无穷可列多个,则称 X 为离散型随机变量,描述离散型随机变量的概率特性常用它的概率 分布或分布律,即,概率分布的性质,F( x) 是分段阶梯函数,在 X 的可能取值 xk 处发生间断,间断点为第一类跳跃间断点, 在间断点处有跃度 pk,(1) 0 1 分布,注 其分布律可写成,常用0 1分布描述,如产品是否格、人口性别统,计、系统是否正常、电力消耗是否超负荷等等.,(

12、2) 二项分布,背景:n 重Bernoulli 试验中,每次试验感兴趣 的事件A 在 n 次试验中发生的次数 X 是 一离散型随机变量,若P ( A ) = p , 则,称 X 服从参数为n, p 的二项分布,记作,0 1 分布是 n = 1 的二项分布,二项分布的取值情况,设,由图表可见 , 当 时,,分布取得最大值,此时的 称为最可能成功次数,R软件中的统计计算 一、统计分布,每一种分布有四个函数: ddensity(密度函数),p分布函数, q分位数函数,r随机数函数。 比如,正态分布dnorm,pnorm,qnorm,rnorm,下列各分布前面加前缀d、p、q或r就构成函数名: nor

13、m:正态, t:t分布, f:F分布,chisq:卡方(包括非中心) unif:均匀, binom:二项分布,,统计计算 一、统计分布,下列各分布前面加前缀d、p、q或r就构成函数名: exp:指数, weibull:威布尔, gamma:伽玛, beta:贝塔 lnorm:对数正态, logis:逻辑分布, cauchy:柯西, binom:二项分布, geom:几何分布, hyper:超几何, nbinom:负二项, pois:泊松 signrank:符号秩, wilcox:秩和, tukey:学生化极差,Binomial package:stats R Documentation The

14、 Binomial Distribution Description: Density, distribution function, quantile function and random generation for the binomial distribution with parameters size and prob.,查询的函数dbinom、 pbinom、 qbinom、 rbinom帮助信息,并用帮助文件中的案例进一步学习.,Usage: dbinom(x, size, prob, log = FALSE) pbinom(q, size, prob, lower.tail

15、 = TRUE, log.p = FALSE) qbinom(p, size, prob, lower.tail = TRUE, log.p = FALSE) rbinom(n, size, prob) Arguments: x, q: vector of quantiles. p: vector of probabilities. n: number of observations. If length(n) 1, the length is taken to be the number required. size: number of trials. prob: probability

16、of success on each trial. log, log.p: logical; if TRUE, probabilities p are given as log(p). lower.tail: logical; if TRUE (default), probabilities are PX x.,Details: The binomial distribution with size = n and prob = p has density p(x) = choose(n,x) px (1-p)(n-x) for x = 0, ., n. If an element of x

17、is not integer, the result of dbinom is zero, with a warning. p(x) is computed using Loaders algorithm, see the reference below. The quantile is defined as the smallest value x such that F(x) =p, where F is the distribution function. Value: dbinom gives the density, pbinom gives the distribution fun

18、ction, qbinom gives the quantile function and rbinom generates random deviates. If size is not an integer, NaN is returned.,结果: ans = 0.0020 y =0.0115 0.0576 0.1369 0.2054 0.2182 0.1746 0.1091 0.0545 0.0222 0.0074 0.0020 0.0005 0.0001 0.0000 0.0000 0.0000 0.0000 0.0000 0.0000 0.0000 0.0000,输入以下命令: d

19、binom(k,n,p),例4: 求服从二项分布的随机变量Y分布率的值,输入以下命令: dbinom(10,20,0.2) x=0:20; y=dbinom(x,20,0.2) y,设,由图表可见 , 当 时,,分布取得最大值,输入以下命令: dbinom(0,8,1/3) dbinom(1,8,1/3) x=0:8; y=dbinom(x,8,1/3) y,例5: 求服从二项分布的随机变量X分布率的值,结果: ans = 0.0390 ans = 0.1561 y = 0.0390 0.1561 0.2731 0.2731 0.1707 0.0683 0.0171 0.0024 0.0002

20、,设,命令:p=dbinom(x,n,p),解 (1) 设 需要配备 N 个维修工人,设 X 为90 台,设备中发生故障的台数,则 X B( 90, 0.01),令,则,查附表2得 N = 4,dbinom(0,90,0.01) = 0.4047 dbinom(1,90,0.01) = 0.3679 dbinom(2,90,0.01) = 0.1654 dbinom(3,90,0.01) = 0.0490 dbinom(4,90,0.01) = 0.0108,三个人共同负责90台设备发生故障不能 及时维修的概率为,设每个人独立负责30台设备,第 i 个人负责的 30台设备发生故障不能及时维修为

21、事件 Ai,则,三个人各独立负责30台设备发生故障不能及时 维修为事件,故 三个人共同负责90 台设备比各自负责好!,在一定时间间隔内:,一匹布上的疵点个数;,大卖场的顾客数;,应用场合,电话总机接到的电话次数;,一个容器中的细菌数;,放射性物质发出的粒子数;,一本书中每页印刷错误的个数;,某一地区发生的交通事故的次数,都可以看作是源源不断出现的随机质点流, 若它们满足一定的条件,则称为Poisson流, 在 长为 t 的时间内出现的质点数 Xt P ( t ),市级医院急诊病人数;,等等,命令:p=dpois(k, ),Usage: dpois(x, lambda, log = FALSE)

22、 ppois(q, lambda, lower.tail = TRUE, log.p = FALSE) qpois(p, lambda, lower.tail = TRUE, log.p = FALSE) rpois(n, lambda) Arguments: x: vector of (non-negative integer) quantiles. q: vector of quantiles. p: vector of probabilities. n: number of random values to return. lambda: vector of positive means

23、. log, log.p: logical; if TRUE, probabilities p are given as log(p). lower.tail: logical; if TRUE (default), probabilities are PX x.,例7三个人共同负责90台设备发生故障不能及时 维修的概率为,dpois(0,0.9)+dpois(1,0.9)+dpois(2,0.9)+ dpois(3,0.9) = 0.9865,F( x) 是分段阶梯函数,在 X 的可能取值 xk 处发生间断,间断点为第一类跳跃间断点, 在间断点处有跃度 pk,输入以下命令: pbinom(1

24、0,20,0.2) x=0:20; y=pbinom(x,20,0.2) y z=qbinom(y,20,0.2) z,结果: ans = 0.9994 y = 0.0115 0.0692 0.2061 0.4114 0.6296 0.8042 0.9133 0.9679 0.9900 0.9974 0.9994 0.9999 1.0000 1.0000 1.0000 1.0000 1.0000 1.0000 1.0000 1.0000 1.0000,例8 : 求服从二项分布的随机变量X分布函数的值,例9 离散均匀分布的分布函数和累积函数的值,x=1:10; y=1/10 y,结果:y = 0

25、.1000 0.1000 0.1000 0.1000 0.1000 0.1000 0.1000 0.1000 0.1000 0.1000,x=0:10 y=x/10 y,结果:y = 0 0.1000 0.2000 0.3000 0.4000 0.5000 0.6000 0.7000 0.8000 0.9000 1.0000,对于离散型随机变量,如果知道了它的概率函数,也就知道了该随机变量取值的概率规律. 在这个意义上,我们说,我们介绍了离散型随机变量及其概率分布.,离散型随机变量由它的概率函数唯一确定.,2.3 连续型随机变量,定义 设 X 是一随机变量,若存在一个非负 可积函数 f ( x

26、 ), 使得,其中F ( x )是它的分布函数,则称 X 是连续型随机变量,f ( x )是它的 概率密度函数( p.d.f. ),简称为密度函数 或概率密度,分布函数F ( x )与密度函数 f ( x )的几何意义,p.d.f. f ( x )的性质,常利用这两个性质检验一个函数能否作为连续性随机变量的密度函数,或求其 中的未知参数,在 f ( x ) 的连续点处,,f ( x ) 描述了X 在 x 附近单位长度的区间内 取值的概率,注意: 对于连续型随机变量X , P ( X = a) = 0,这里 a 可以是随机变量 X 的一个可能的 取值,命题 连续型随机变量取任一常数的概率为零,对

27、于连续型随机变量X,(1) 均匀分布,( a , b)上的均匀分布,记作,若 X 的密度函数为 ,则称 X 服从区间,其中,X 的分布函数为,即 X 的取值在(a,b)内任何长为 d c 的小区间 的概率与小区间的位置无关, 只与其长度成正 比. 这正是几何概型的情形.,在进行大量数值计算时,如果在小数点后第 k 位进行四舍五入,则产生的误差可以看作 服从,应用场合,Uniform statsR DocumentationThe Uniform Distribution Description These functions provide information about the unif

28、orm distribution on the interval from min to max. dunif gives the density, punif gives the distribution function qunif gives the quantile function and runif generates random deviates. Usage dunif(x, min=0, max=1, log = FALSE) punif(q, min=0, max=1, lower.tail = TRUE, log.p = FALSE) qunif(p, min=0, m

29、ax=1, lower.tail = TRUE, log.p = FALSE) runif(n, min=0, max=1) Arguments x,qvector of quantiles.pvector of probabilities.nnumber of observations. If length(n) 1, the length is taken to be the number required.min,maxlower and upper limits of the distribution.log, log.plogical; if TRUE, probabilities

30、p are given as log(p).lower.taillogical; if TRUE (default), probabilities are PX x.,输入以下命令: colors() x=seq(0,7,0.01) y=dunif(x,2,5) z=punif(x,2,5) plot(x,z,type=l,col=Blue) lines(x,y,type=l,col=Red),密度函数:f=dunif(x,a,b),分布函数:F=punif(x,a,b),(2) 指数分布,若 X 的密度函数为,则称 X 服从 参数为的指数分布,记作,X 的分布函数为, 0 为常数,对于任意的

31、 0 a b,应用场合,用指数分布描述的实例有:,随机服务系统中的服务时间,电话问题中的通话时间,无线电元件的寿命,动物的寿命,指数分布常作为各种 “寿命”分布的近似,输入以下命令: x=seq(0,5,0.5); y=dexp (x,2); z=pexp(x,2); plot(x,z,type=l,col=Blue); lines(x,y,type=l,col=Red); result=pexp(6,2)-pexp(1,2),密度函数:f=dexp (x,),分布函数:F=pexp (x, ),The Exponential Distribution Description: Density

32、, distribution function, quantile function and random generation for the exponential distribution with rate rate (i.e., mean 1/rate). Usage: dexp(x, rate = 1, log = FALSE) pexp(q, rate = 1, lower.tail = TRUE, log.p = FALSE) qexp(p, rate = 1, lower.tail = TRUE, log.p = FALSE) rexp(n, rate = 1) Argume

33、nts: x, q: vector of quantiles. p: vector of probabilities. n: number of observations. If length(n) 1, the length is taken to be the number required. rate: vector of rates. log, log.p: logical; if TRUE, probabilities p are given as log(p). lower.tail: logical; if TRUE (default), probabilities are PX

34、 x.,结果:Result = 0.1353291,输入以下命令: x=seq(0,5,0.1); y=dexp (x,2); z=pexp(x,2); plot(x,z,type=l,col=Blue); lines(x,y,type=l,col=Red); result1=pexp(5,1)-pexp(0,1); result2=pexp(20,1)-pexp(0,1);,结果:result1 = 0.993262 result2 = 1.0000,(3) 正态分布,若X 的密度函数为,则称 X 服从参数为 , 2 的正态分布,记作 X N ( , 2 ),为常数,,N (-3 , 1.2

35、 ),f (x) 的性质:,图形关于直线 x = 对称: f ( + x) = f ( - x),在 x = 时, f (x) 取得最大值,在 x = 时, 曲线 y = f (x) 在对应的点处有 拐点,曲线 y = f (x) 以x轴为渐近线,曲线 y = f (x) 的图形呈单峰状,f (x) 的两个参数:, 位置参数,即固定 , 对于不同的 , 对应的 f (x) 的形状不变化,只是位置不同, 形状参数,固定 ,对于不同的 ,f ( x) 的形状不同.,若 1 2 则,比x = 2 所对应的拐点更靠近直线 x = ,附近值的概率更大. x = 1 所对应的拐点,前者取 ,应用场合,若随

36、机变量 X 受到众多相互独立的随机因 素的影响,而每一个别因素的影响都是微小的, 且这些影响可以叠加, 则 X 服从正态分布.,可用正态变量描述的实例非常之多:,各种测量的误差; 人的生理特征;,工厂产品的尺寸; 农作物的收获量;,海洋波浪的高度; 金属线的抗拉强度;,热噪声电流强度; 学生们的考试成绩;,一种重要的正态分布:N (0,1) 标准正态分布,它的分布函数记为 (x),其值有专门的表可查, (x) 是偶函数,其图形关于纵轴对称,-x,x,对一般的正态分布 :X N ( , 2),其分布函数,作变量代换,例13 设 X N(1,4) , 求 P (0 X 1.6),解,Usage d

37、norm(x, mean=0, sd=1, log = FALSE) pnorm(q, mean=0, sd=1, lower.tail = TRUE, log.p = FALSE) qnorm(p, mean=0, sd=1, lower.tail = TRUE, log.p = FALSE) rnorm(n, mean=0, sd=1) Arguments x,q: vector of quantiles. p: vector of probabilities. n: number of observations. If length(n) 1, the length is taken t

38、o be the number required. mean: vector of means. sd: vector of standard deviations. log, log.p: logical; if TRUE, probabilities p are given as log(p). lower.tail: logical; if TRUE (default), probabilities are PX x.,输入以下命令: x=seq(-10,10,0.1); y=dnorm (x,1,2); z=pnorm(x,1,2); plot(x,z,type=l,col=Blue)

39、; lines(x,y,type=l,col=Red); result=pnorm(6,1,2)-pnorm(1,1,2),结果:Result = 0.4937903,在R中输入以下命令: x=seq(-5,5,0.1); y=dnorm (x,-1,1); z=pnorm(x,-1,1); plot(x,z,type=l,col=Blue); lines(x,y,type=l,col=Red); result=pnorm(3,-1,1)-pnorm(-2,-1,1),结果:Result = 0.841313,2.4 随机变量函数的分布,问题:已知随机变量 X 的概率特性 分布 函数 或密度函

40、数(分布律),Y = g ( X ),求 随机因变量Y 的概率特性,方法:将与 Y 有关的事件转化成 X 的事件,2.4,设随机变量 X 的分布律为,由已知函数 g ( x) 可求出随机变量 Y 的所有 可能取值,则 Y 的概率分布为,已知随机变量 X 的密度函数 f (x) (或分布函数) 求 Y = g( X ) 的密度函数或分布函数,方法:,(1) 从分布函数出发 (2)从密度函数出发,例 已知随机变量X的分布函数F(x)是严格单调的连续函数, 证明Y=F(X)服从0,1上的均匀分布.,又由于X的分布函数F是严格递增的连续函数, 其反函数 F-1 存在且严格递增.,证明: 设Y的分布函数

41、是G(y),于是,对y1, G(y)=1;,对y0 , G(y)=0;,由于,对0y1,G(y)=P(Y y),=P(F(X) y),=P(X (y),=F( (y)= y,即Y的分布函数是,求导得Y的密度函数,可见, Y 服从0,1上的均匀分布.,本例的结论在计算机模拟中有重要的应用.,注意:连续型随机变量的函数的分布函数 不一定是连续函数,例如:X U (0,2),令 Y = g ( X ),FY (y)不是连续函数,对于连续型随机变量,在求Y=g(X) 的分布时,关键的一步是把事件 g(X) y 转化为X在一定范围内取值的形式,从而可以利用 X 的分布来求 P g(X) y .,这一讲我们介绍了随机变量函数的分布.,我们将介绍几个常见的分布.,作业:,要求:需给出程序、结果,存成word文档 星期日前发送到 ftp:/10.1.70.33 用户名:ryy 密码: ryy,

展开阅读全文
相关资源
猜你喜欢
相关搜索

当前位置:首页 > 其他


经营许可证编号:宁ICP备18001539号-1