经济管都理数学第5章 概率统计及其应用.ppt

上传人:本田雅阁 文档编号:2880108 上传时间:2019-06-01 格式:PPT 页数:79 大小:3.45MB
返回 下载 相关 举报
经济管都理数学第5章 概率统计及其应用.ppt_第1页
第1页 / 共79页
经济管都理数学第5章 概率统计及其应用.ppt_第2页
第2页 / 共79页
经济管都理数学第5章 概率统计及其应用.ppt_第3页
第3页 / 共79页
经济管都理数学第5章 概率统计及其应用.ppt_第4页
第4页 / 共79页
经济管都理数学第5章 概率统计及其应用.ppt_第5页
第5页 / 共79页
点击查看更多>>
资源描述

《经济管都理数学第5章 概率统计及其应用.ppt》由会员分享,可在线阅读,更多相关《经济管都理数学第5章 概率统计及其应用.ppt(79页珍藏版)》请在三一文库上搜索。

1、第5章 概率统计及其应用 5.1 随机事件与概率 5.1.1 随机事件 定义5.1 样本空间的子集,称为该随机试验的一个随机事件,简称事件,常用大写字母A,B,C,表示,记为A ,B ,C,. 5.1.2 事件的概率 (1)统计概率 定义5.2 (概率的统计定义) 如果在n次重复试验中,当n充分大时,事件A在这n次试验中出现的频率稳定在某个固定常数p附近,则称此常数p为事件A出现的统计概率,简称概率,记为,(2) 古典概率 定义5.3 (概率的古典定义) 在古典概型中,如果基本事件的总数为n,而事件A又由其中mA个基本事件组成,则定义事件A的概率为 这叫概率的古典定义,由它所定义的概率,称为古

2、典概率.可见,对古典概型的问题,只要求出基本事件总数n和事件A所包含的基本事件数mA,由公式(5.)就可直接计算事件A的概率了.,(3)事件的关系和运算 1)包含 如果事件A发生,必然导致事件B发生,则称事件B包含事件A(或称A是B的子事件),记为 A B. 2)相等 如果A B,且B A,则称事件A与事件B相等或等价,记为A=B. 3)并 两事件A与B中至少有一个发生所构成的事件称为A与B的并(或和),记为AB. 4)交 两事件A与B同时发生所构成的事件,称为A与B的交(或积),记为AB或AB.例如,A2A3=A1 5)互斥 事件A与事件B不能同时发生,即AB= ,则称事件A与B互斥.如产品

3、合格A1与产品不合格 为互斥事件.,)互逆 如两事件A与B不同时发生,但又必须有一个发生,即AB= ,且AB=,则称事件A与B互逆(或对立)或称B是 (或A是 )的对立事件,记为B=A(或A=B). 7)差事件A发生,但事件B不发生所构成的事件称为事件A与B的差,记为A-B,显然,图5.1,(4)概率的性质 性质1(非负性) 对任何事件A,均有 性质2(规范性) 必然事件的概率为1,即 性质3(互斥可加性) 若事件A,B互斥,即AB= ,则,推论1 若A1,A2,An两两互斥,即 推论2 对立事件概率之和为1,即 性质 P( )=. 即不可能事件的概率为零. 性质5 若A B,则,性质6 (广

4、义加法定理) 若A,B为任何二事件,则有 5.1.3 条件概率及其应用 在实际问题中,不仅要考虑事件A的概率P(A),有时还需要研究在“事件B已发生”的条件下,事件A发生的条件概率.记为P(A|B). (1)条件概率 定义5.4 在事件B发生的条件下,事件A发生的概率叫做事件A在事件B发生的前提下的条件概率,记作,若A,B为两任意事件,且P(B),则 (2)乘法定理 设P(B),则 或设P(A),则 类似地,例9 设在96件产品中有3件次品,今无放回地依次抽取两件,问两件都是合格品的概率是多少? 解 设Ai表示“第i次取得合格品”,则两件都是合格品就是A1,A2同时发生,要求的是P(A1 A2

5、),由乘法公式 (3)事件的独立性 定义5.5 若事件A与B满足条件:,则称事件A,B,C相互独立. 定理5.1 若事件A,B相互独立,则 这三对事件都相互独立. *(4)全概率公式与贝叶斯公式 1) 全概率公式 设事件A1,A2,An满足: 则对任何事件B有,2) 贝叶斯(Bayes)公式 设n个事件A1,A2,An满足: 则对任一概率不为零的事件B有: 5.1.4 二项概率公式 (1)贝努里(Bernouli)概型,在相同的条件下,将同一试验重复做n次,如果每次试验的结果都与其他各次试验的结果无关,则称这种试验为重复独立试验.又如果每次试验只有两种可能结果A与 ,且事件A发生的概率P(A)

6、在每次试验中保持不变,这种n次重复独立试验的随机现象称为n重贝努里概型.这是一种非常重要而又常见的概型,它有广泛的应用,许多实际问题都可归纳为这种概型.一个有放回的抽样模型,就是一个标准的贝努里概型. (2)二项概率公式 若一次试验中事件A发生的概率为p,则在n重贝努里试验中,事件A恰好发生k次的概率为,其中q=-p. 5.2 随机变量及其分布 5.2.1 随机变量及其分布函数 (1)随机变量 定义5.6 对于随机试验的每个可能结果,都有唯一的一个实数值X()与它对应,则称X()为一个随机变量,简记为X. (2)随机变量的分布函数 定义5.7 设X是一个随机变量,x是任意一实数,令 则称函数F

7、(x)为随机变量X的分布函数.,(3)分布函数的性质 性质1(有界性)F(x)1. 性质2(单调不减性) 若x1x2,则F(x1)F(x2). 性质3(左连续性) F(x-0)=F(x). 5.2.2 离散型随机变量及其分布 (1)概率函数和分布函数 定义5.8 设随机变量X的可取值为:x1,x2,xi,其相应的概率分别为p1,p2,pi,则等式,称为随机变量X的概率函数,表格 称为X的概率函数或分布列,并称X为离散型随机变量. 离散型随机变量的概率函数具有以下两个基本性质:,(2)常用的典型分布 1)两点(0-1)分布 若随机变量X只能取0和1两个值,它们的概率分布是PX=1p,PX=0q(

8、pq=1),则称X服从两点(0-1)分布,或称X具有0-1分布. 只要事件总数只有两个基本事件的,都能用两点分布来描述它.两点分布的分布列为 分布函数为,2)二项分布 若随机变量X的概率函数为 且1p1,1-p=q,则称X服从以n,p为参数的二项分布,记为XB(n,p). 3)泊松(Poisson)分布 若随机变量X可取一切非负整数,且概率函数为,则称X服从参数为的泊松分布,记作XP() 5.2.3 连续型随机变量及其分布 (1)密度函数和分布函数 1)定义5.9 如果存在非负函数f(x),使对任意实数x,随机变量X的分布函数 则称X为连续型随机变量,f(x)为X的概率密度函数,简称概率函数或

9、密度函数,常称为密度函数.yf(x)的几何图形称为X的分布曲线. 2)密度函数的性质 由定义可知,密度函数f(x)具有如下性质: 性质 f(x).,即X的分布曲线在Ox轴上方. 性质2 即介于分布曲线与Ox轴之间面积总和为. 事实上, 性质3,即X落在区间a,b)内的概率等于随机变量X的密度函数f(x)在区间a,b)上的定积分值,或等于区间a,b)上分布曲线下的曲边梯形的面积. 事实上, 性质4 在f(x)的连续点处,有,这里分析一下f(x)的意义: (2)常用的典型分布 1)均匀分布 若随机变量X的密度函数为,则称X在a, b上服从参数为a,b的均匀分布,记为XUa, b.均匀分布的分布函数

10、为 均匀分布的密度函数与分布函数的图形如图5.6所示.,图5.6,2)指数分布 若随机变量X的密度函数为 其中k0,则称X服从参数为k的指数分布,它的分布函数为 指数分布的实际背景是各种消耗性产品的“寿命”.正因如此,指数分布常用来描述各种“寿命问题”. 3)正态分布 若随机变量X的密度函数为,其中a,为常数,且,则称X服从参数为a,2的正态分布,记作XN(a,2).它的分布函数为 y=f(x)的图形如图5.7所示.由微积分学知道: x=a时,f(x)达到最大 分布曲线y=f(x)对称于直线x=a; 分布曲线y=f(x)两个拐点的横坐标为x=a;,分布曲线yf(x)以x轴为水平渐近线; 若固定

11、,改变a之值,则分布曲线yf(x)沿x轴平行移动,曲线的几何形状不改变;若固定a,而改变之值,由f(x)的最大值可知,当越大,yf(x)的图形越平坦,当越小,yf(x)的图形越陡峭,如图5.8所示.,图5.7,图5.8,特别地,若XN(a,2),当a=,=时,称X服从标准正态分布,记作XN(,).标准正态分布的密度函数和分布函数分别用 (x)和(x)来表示,即 标准正态变量X的密度函数 (x)和分布函数(x)的图形如图5.(a),(b)所示. 正态分布具有以下性质: 性质1 若XN(,),则(见图5.9(a),性质2 若XN(a,2),YN(,),且其分布函数分别为F(x)和(x),则,图5.

12、9,*性质 若XN(a,2),则 5.3 随机变量的数字特征 5.3.1 数学期望 (1)离散型随机变量的数学期望 定义5.10 设离散型随机变量X的概率函数为,则称和式 为随机变量X的数学期望(或均值),记作EX,即 当X可取无穷多个值时,若级数 绝对收敛,则EX存在,且EX= . 如Yg(X)是随机变量X的函数,则Y的数学期望记为,其中pi为X的概率函数. 例27 设X的分布列为 求EX,EX2,E(X2-).,这里指出,随机变量X的数学期望EX可为一切实数,且它表达了X取值的“集中趋势”. (3)数学期望的性质 设a,b,c为常数,X,Y为随机变量,且EX,EY均存在,则数学期望具有以下

13、性质: 性质 Ec=c,即常数的数学期望就是它本身. 性质 EcX=cEX. 性质 E(XY)EXEY.,推论 E(X1+X2+Xn)=EX1+EX2+EXn. 性质 E(aX+b)=aEX+b. 性质 设X,Y独立,则E(XY)=EXEY. 推论 设X1,X2,,Xn相互独立,则 5.3.2 方差 (1)方差概念 定义5.12 设随机变量X的数学期望为EX,如果 存在,则称E(X-EX)2为随机变量X的方差,记为DX,即,又称 为X的标准差或均方差,记为(X). (2)方差的性质 设a,b,c为常数,且DX,DY存在,方差具有以下性质: 性质 Dc=.即常数的方差为零. 性质 DcX=c2D

14、X.,性质 若X,Y相互独立,则D(XY)=DX+DY *5.3.3 统计中常用的矩 (1)原点矩 定义5.13 设X是随机变量,若对于正整数k,|X | k的数学期望E|X|k+(k=,),则称EXk 为X的k阶原点矩,记为vk,即 显然,数学期望就是一阶原点矩,即EX=v1. (2)中心矩,定义5.14 设X是随机变量,若对于X的离差的正整数k次幂|X-EX | k的数学期望E | X-EX | k+ (k=1,2,),则称E(XEX)k为X的k阶中心矩.记为 显然,方差就是二阶中心矩,即DX= 且一阶中心矩恒为零,即E(X-EX)=. (3)相关矩(或协方差) 由于随机变量X与Y各自的期

15、望与方差仅仅反映它们作为一维随机变量自身的特征.对于二维随机变量(X,Y),自然希望定义出能够反映各分量X与Y之间的联系的某种数字特征,这就引出了相关矩的概念.,定义5.15 设X、Y为定义在同一样本空间上的两个随机变量,对二维随机向量(X,Y),若E(X-EX)(Y-EY)存在,则称它为随机变量X与Y的相关矩(或协方差),记为Cov(X,Y),即 相关矩是二维随机变量的一个重要数字特征,它刻画了X与Y的取值之间的相互联系,用来描述随机变量之间的相关性.顺便指出:若X与Y相互独立,则Cov(X,Y)=.反之,不成立.又若X、Y为随机变量,则,(4)相关系数 定义5.16 设随机变量X与Y的相关

16、矩Cov(X,Y)和各自的方差均存在,且DX,DY,则称 为X与Y的相关系数,记为(X,Y),即 (5)切比谢夫不等式 设随机变量X有数学期望EX和方差DX,则对任意的,有,5.4 统计分析中的样本分布 5.4.1 几个基本概念 (1)总体与个体 在数理统计中,把研究对象的全体所构成的集合称为总体,把构成总体的每个单元称为个体(或样品). (2)样本与容量 定义5.17 若按一定规则,从总体X中,随机抽取n个个体X1,X2,Xn,这n个个体X1,X2,Xn 就称为总体X的一个容量为n的样本,简称样本.,定义5.18 在数理统计中,把满足相互独立且与总体X同分布的样本X1,X2,Xn,称为简单随

17、机样本. (3)统计量 定义5.19 设X1,X2, Xn是总体的样本,则样本的函数 称为统计量. 5.4.2 样本的数字特征 定义5.20 设X1 , X2 , Xn是总体X的样本,称统计量 为样本均值,记为,称统计量 为样本方差,记为 并称 为样本标准差.,在实际应用中,用得最多的还是一阶样本原点矩和二阶样本中心矩,亦即样本均值 和样本方差S2.显然,5.4.3 抽样分布 (1)u-分布 定理5.2 (样本均值的分布) 设样本X1, X2, Xn来自正态总体XN(a,2),则统计量 推论 若XN(a,2),X1,X2,Xn为总体X的样本,且 为其样本均值.则统计量 服从标准正态分布,即,通

18、常称它为U统计量, ,后面将用U统计量对总体进行推断.U统计量的分布称为u-分布.,(2) -分布 定义5.21 设样本X1,X2 ,Xn来自标准正态总体XN(0,1),则统计量,称为自由度为n的 变量,其分布称自由度为n的 -分布,记为 (n). 变量的分布曲线与n有关,如图5.10所示,当n越大时,它就越接近正态分布,当n30时, -分布就可用正态分布去近似. -统计量有以下性质: 设X1,X2, ,Xn为来自正态总体XN(a, )的样本,则,(3)t-分布 定义5.22 设样本X1,X2,Xn来自正态总体XN(a,2), ,S2分别为该样本的均值与方差,则统计量 称为自由度为(n-)的T

19、变量,其分布称为自由度为(n -)的t-分布,记为Tt(n-). 5.5 参数估计与实例 5.5.1 点估计,定义5.23 设 为未知参数的估计量,若 则称 为的无偏估计量. 5.5.2 区间估计 (1)区间估计的意义 定义5.24 设总体X的分布中含有未知参数,由X的样本X1,X2,Xn所确定的两个统计量T1和T2,如果对于给定的正数( )有,则称区间(T1, T2)是的对应于置信概率为1- 的置信区间, T1和T2分别叫做置信区间的置信下限和置信上限,100(1- )%称为置信度(或信度,或置信概率). (2) EX的区间估计 1)已知DX,求EX的置信区间,设总体XN(a,2),其中2已

20、知,X1,X2, Xn为来自总体X的样本,则统计量 ,由正态分布表(附录表),对给定的 ,存在一个值(临界值) ,使,这就是说,EX落在区间 内 的概率为- ,区间,称为EX的置信区间, 称为估计不准概率,- 称为置信概率, 称为在 条件下的临界值. 2) 未知DX,求EX的置信区间 实际应用中,经常遇到的是方差未知的情况,这时自然想到用S2来代替未知方差DX,设X1,X2,Xn为来自正态总体的样本,则统计量 对给定的 ,查t-分布表(附录表)得临界值 ,使,于是得EX的置信区间为 (3)方差DX的区间估计 1)未知期望EX,求DX的置信区间 设X1,X2,Xn为来自总体XN(a, 2)的样本

21、,a,2均未知,为了确定方差2的置信区间,可用样本方差S 2去作总体方差2的估计,采用统计量 .,对给定的 ,查 -分布表(附录表4)得临界值 ,使得,于是,得方差DX=2的置信区间为,或,2) 已知期望EX=a,求DX的置信区间 此时DX=2的(- )的置信区间为 *5.6 假设检验与实例 5.6.1 假设检验的基本思想方法 假设检验的基本思想是根据“小概率原理”而采用某种带有概率性质的反证法. 5.6.2 正态总体均值a的假设检验 (1)已知方差 ,检验假设H0 :aa0,设X1,X2,Xn为来自正态总体XN(a, )的样本,若H0:a=a0 (H0表示假设符号,a0是已知常数)为真,则样

22、本均值 于是统计量 对于给定的显著性水平,由附录表可得临界值 ,并使得,显然 是一小概率事件. 当样本X1,X2,Xn取观测值x1,x2,xn时,统计量U的值为U0,且: 若 时,这说明小概率事件在一次具体试验中出现了,因此应该拒绝假设H0:a=a0; 若 时,则应该接受假设H0:a=a0. 上述检验法称为u检验法. 当拒绝假设H0时,常称总体期望a与a0有显著差异;而接受假设H0时,常称总体期望a与a0无显著差异.现将u检验法步骤归结如下:,1) 提出检验假设H0:a=a0 ; 2) 选取统计量 3) 给定显著水平 ,由 确定临界值 ; 4) 计算统计量U的实现值U0; 5) 做出判断,当

23、时,则拒绝假设H0 ;当 时,则接受假设H0.,(2)未知方差2时,检验假设H0: a=a0 设样本X1 , X2 , Xn来自正态总体X N(a ,2),要检验假设H0: a=a0(其中a,2均为未知参数). 这里由于方差2未知,上面u检验法不能适用,为了得到一个不含未知参数2的统计量,自然想到用方差的无偏估计量S2来代替2 ,于是选统计量 若H0: a=a0为真时,,当给定,由附录表,可得临界值 ,并使 计算T的实现值为T0, 若 ,就拒绝H0 ; 若 ,就接受H0. 这种检验叫t检验法.,5.6.3 正态总体方差2的假设检验 设样本X1, X2,Xn来自正态总体XN(a, 2),这里2为

24、未知参数,现在要检验假设 (1)已知期望a时,检验假设 当H0为真时,统计量 若给定显著性水平 ,则可由附录表4,查得临界值 与 使得,这种检验方法叫2检验法. (2)未知期望a时,检验假设 当H0为真时,统计量,若给定显著性水平 ,则可由附录表,查得临界值 使得 如图5.15所示. 当由样本算得统计量2的值 , 若 ,则拒绝H0; 若 ,则接受H0.,5.7 线性回归与实例 5.7.1 回归分析的意义 (1)两种不同类型的变量关系,图5.15,类型:确定关系 这类关系的特点是:对给定的变量x,另一变量y有确定的对应值.如平面区域圆的面积:S(圆面积)=r2(半径),电学中的欧姆定律:U(电压

25、)=I(电流强度)R(电阻)等,这些都是我们所熟知的函数关系. 类型:相关关系 这类关系的特点是:变量具有某种不确定性的关系.如人的身高与体重的关系,一般来说,人高一些,体重大一些,但同样高度的人,体重往往不尽相同.即不能由“身高”去确定“体重”.又如,农作物的收获量与气候、降雨、肥量等因素有关,但是同样的气候、雨量、肥量条件,其收获量未必完全相同.又再如,某商品的需求量与价格有关,一般而言,价高需求量小,价低需求量大,但同一价格的商品,需求量往往也有所不同.这些变量之间的关系无法用一个确切的数学表达式把它们表示出来,但确实它们之间又存在着密切关系.这种变量关系从本质上来说,是随机变量之间的关

26、系,在统计分析中,把它们称为相关关系或统计关系.,(2)回归分析的主要任务 回归分析的任务就是根据变量x与y的样本点(xi,yi),寻求并检验变量之间相关关系的回归函数,从而运用这个函数(经验公式)达到预测或控制的目的. 5.7.2 一元线性回归方程的建立 (1)一元回归直线 若已知变量x与y之间存在某种相关关系,为了研究它们的具体关系,其中最简单的方法是通过样本观测值(xi,yi)(i=,n)做出散点图,看散点图中的散点是否大致分布在一条直线上,如散点几乎分布在一条直线上,就用一直线方程y=a+bx来近似地描述变量y与x的相关关系,这就是线性回归直线.,(2)回归直线方程的建立 设x与y是两

27、个具有相关关系的变量,采用独立试验的方法,对一个容量为n的样本观测值:(x1,y1),(x2,y2),(xn,yn),如何求出其回归直线方程,即如何确定 =a+bx中的a与b? 所求的回归直线方程,自然希望它尽可能地靠近每一个样本点(xi,yi),显然这样的直线有一个显著的特点:“对于所有xi,观测值yi与回归值 的偏离达到最小.”,当x=xi时,y的观测值为yi,而其回归值为 =a+ bxi,所以在xi处观测值yi与回归值 的离差为 如图5.19所示. 为避免其离差的相互抵消,采用离差平方和 来刻画(xi,yi)与直线y=a+bx的偏离程度,一般所说的回归直线就是使Q为最小的直线.使Q(a,

28、b)达到最小值的a与b的估计值 与 ,就是所需要的回归直线的截距与斜率,因此,求回归直线问题便转化为求Q取最小值的a与b的问题.,根据微积分学求极值的原理,当Q(a,b)可微时,有 这是关于a,b的二元线性方程组,解之得,显然,(5.51)式中的( , )就是使Q(a,b)达到最小值的(a,b)值,于是所求的线性回归方程就是 为便于记忆求回归系数 的公式,引入以下记号,此时 5.7.3 相关程度的检验 (1)相关系数 定义5.25 称统计量,为样本相关系数. (2)相关系数的显著性检验 人们根据统计量r的概率性质,编制出了r的临界值表,即附录表6,表中的数据就刻画了|r|与的接近程度,具体检验

29、步骤如下: 1)提出假设H0:b=0.,2)给出显著性水平 ,查自由度为(n-)的相关系数表(即附录表6)得临界值r(n-2). 3) 计算相关系数r的实现值r0. 4) 比较 的大小, 若 则x与y线性相关显著,即 有意义;若 则x与y线性相关不显著,或x与y不存在线性关系,即 无意义.其直观意义,见图5.20.,5.7.4 线性回归分析的应用 (1)回归预测,图5.20,如果回归直线配制较好,就可以用它来作变量的预测,对任一给定的x0相应的y0一般是以回归直线上的对应值 为中心的服从正态分布的随机变量.设这个随机变量y的方差为2,则 此式表明,当x=x0时,对应的y值以0.95的概率落入区

30、间 这个区间称为y的0.95预测区间, 称为y的点预测值.,y的方差往往是未知的,但可以证明,它的方差近似为 其中 用Sy代替,则对给定的x0,概率为0.95的y0的预测区间为 一般为方便起见,近似地取1.96为2,则上述区间近似为,由于x取值是变的,因此y的预测区间上、下限是平行于回归直线的两条直线: 如图5.21所示 (2)回归控制 如果希望y落在区间(y1, y2)内,则x取值区间可由图5.21中直线L1L2对应的关系所确定,设,解出x1,x2,则 当 时,控制区间为(x1, x2); 当 时,控制区间为(x2, x1). 但必须注意:只有当(y2-y1)4Sy时,所求控制区间才有意义.

31、,图5.21,5.7.5 线性回归直线的简便求法 (1)平均值法 用平均值法来求线性回归直线方程 =a+bx中的系数a和b.其具体做法是: 第一步,将n组数据(xi,yi)分别代入回归方程 = a+bx ; 第二步,把这n个方程均分为两组(分的组数等于欲求未知数的个数); 第三步,把每组内的方程分别相加,得到一个二元一次联立方程组; 第四步,解以上二元一次联立方程组,得系数a和b,即得所求线性回归直线方程 =a+bx.,(2)紧绳法 这种方法是将组数据所成的散点描在坐标纸上.如若画出的点群(即散点图)形成一直线形带,就在这点群中间画一条直线,使得该直线两边的点子差不多相等并尽可能靠拢.这条直线可以被近似地当作回归直线.利用它在坐标纸上就可直接进行预报.,

展开阅读全文
相关资源
猜你喜欢
相关搜索

当前位置:首页 > 其他


经营许可证编号:宁ICP备18001539号-1