课件第三部分多元正态分布.ppt

上传人:本田雅阁 文档编号:2611252 上传时间:2019-04-17 格式:PPT 页数:52 大小:817.11KB
返回 下载 相关 举报
课件第三部分多元正态分布.ppt_第1页
第1页 / 共52页
课件第三部分多元正态分布.ppt_第2页
第2页 / 共52页
课件第三部分多元正态分布.ppt_第3页
第3页 / 共52页
课件第三部分多元正态分布.ppt_第4页
第4页 / 共52页
课件第三部分多元正态分布.ppt_第5页
第5页 / 共52页
点击查看更多>>
资源描述

《课件第三部分多元正态分布.ppt》由会员分享,可在线阅读,更多相关《课件第三部分多元正态分布.ppt(52页珍藏版)》请在三一文库上搜索。

1、第三章 多元正态分布 v3.1 多元正态分布的定义 v3.2 多元正态分布的性质 v3.3 极大似然估计及估计量的性质 v3.4 复相关系数和偏相关系数 v3.5 和(n 1) S的抽样分布 v*3.6 二次型分布 1 3.1 多元正态分布的定义 v一元正态分布N(,2)的概率密度函数为 v若随机向量 的概率密度函数为 则称x服从p元正态分布,记作xNp(, ),其中,参数和 分别为x的均值和协差阵。 2 例3.1.1(二元正态分布 ) v设xN2(, ),这里 易见,是x1和 x2的相关系数。当|0)作如下的剖分: 12 则子向量x1和x2相互独立,当且仅当12=0。 可作一般化推广,并对于

2、多元正态变量而言,其子 向量之间互不相关和相互独立是等价的。 v例3.2.5 设xN3(,),其中 则x2和x3不独立,x1和(x2,x3)独立。 v(7)设xNp(, ), 0,则 v*(8)略 13 v*(9)略 v*(10)略 v(11)设xNp(, ), 0,作如下剖分 则给定x2时x1的条件分布为 ,其中 12和112分别是条件数学期望和条件协方差矩阵, 112通常称为偏协方差矩阵。 14 这一性质可作一般化推广,并对于多元正态变量, 其子向量的条件分布仍是(多元)正态的。 v例3.2.7 设xN3(, ),其中 试求给定x1+2x3时 的条件分布。 15 v解 令 ,于是 16 v

3、给定y2时y1的条件均值和条件协差阵分别为 所以 17 3.3 极大似然估计及估计量的性质 v简单随机样本(简称样本): 满足:x1,x2,xn独立,且与总体分布相同。 v设xNp(, ) , 0,x1,x2,xn是从中抽取的一个样本。 v数据矩阵或观测值矩阵: v一、极大似然估计 v二、估计量的性质 18 一、极大似然估计 v1. 和的极大似然估计 v2.相关系数的极大似然估计 19 1.和的极大似然估计 v似然函数:是样本联合概率密度 f (x1,x2,xn)的任意 正常数倍,记为L(, )。不妨取 20 极大似然估计 v一元正态情形: v多元正态情形: 其中 称为样本均值向量(简称为样本

4、均值), 称为样本离差矩阵, 称为 样本协方差矩阵。 21 2.相关系数的极大似然估计 v相关系数ij的极大似然估计为 其中 。称rij为样 本相关系数、 为样本相关矩阵。 22 二、估计量的性质 v1.无偏性 v2.有效性 v3.一致性 v4.充分性 23 1.无偏性 v如果 ,则称估计量 是被估参数的一个无 偏估计,否则就称为有偏的。 v 。 v , 是的有偏估计。 vE(S)=。 24 v证明 25 2.有效性 v设 是的一个无偏估计,若对的任一无偏估计 有 即 为非负定矩阵,则称 为的一致最优 无偏估计。 v可以证明,对于多元正态总体, 和S分别是和的 一致最优无偏估计。 26 3.一

5、致性 v如果未知参数(可以是一个向量或矩阵)的估计量 随着样本容量n的不断增大,而无限地逼近于真 值,则称 为的一致估计,或称相合估计。 v估计量的一致性是在大样本情形下提出的一种要求 ,而对于小样本,它不能作为评价估计量好坏的准 则。 v可以证明, 和 (或S)分别是和的一致估计 (无需总体正态性的假定)。 27 4.充分性 v如果一个统计量能把含在样本中的有关总体(或有关未知参 数)的信息一点都不损失地充分提取出来,则这种统计量就 称为充分统计量。 v可以证明,对于总体Np(,),当已知时, 是的充分统计 量;当已知时, 是的充分统计量; 当和均未知时,( ,A)是(,)的充分统计量。 v

6、用来作为估计量的充分统计量称为充分估计量。A, ,S这三 者之间只相差一个常数倍,所含的信息完全相同,故当和 均未知时, 也都是(, )的充分统计量。 v若按无偏性的准则,则可采用( ,S)作为未知参数(,)的充 分估计量。 28 3.4 复相关系数和偏相关系数 v一、复相关系数 v*二、最优线性预测 v三、偏相关系数 29 一、复相关系数 v(简单)相关系数度量了一个随机变量x与另一个随 机变量y之间线性关系的强弱。 v复相关系数度量了一个随机变量y与一组随机变量 x1,x2,xp之间线性关系的强弱。 v设 30 v则y和x的线性函数lx(l 0)间的最大相关系数称 为y和x间的复(或多重)

7、相关系数(multiple correlation coefficient),记作yx或y1,2,p,它度量 了一个变量y和一组变量x1,x2,xp间的相关程度。 v若x1,x2,xp互不相关,则有 31 v例3.4.1 试证随机变量x1, x2, , xp的任一线性函数 F=a1x1+a2x2+apxp与x1, x2, , xp的复相关系数为1。 证明 32 yx的极大似然估计 v设 这里np,则在多元正态的假定下,复相关系数yx的极大似 然估计为 称为样本复相关系数。 33 v例3.4.2 今对31个人进行人体测试,考察或测试的 七个指标是: 年龄(x1)、体重(x2)、肺活量(x3)、1

8、.5 英里跑的时间(x4)、休息时的脉搏(x5)、跑步时的脉 搏(x6)和跑步时记录的最大脉搏(x7)。数据列于表 3.4.1。 可算得x3与x1,x2,x4,x5,x6,x7的样本复相关系数 34 编号x1x2x3x4x5x6x7 14489.4744.60911.3762178182 24075.0745.31310.0762185185 34485.8454.2978.6545156168 44268.1559.5718.1740166172 53889.0249.8749.2255178180 64777.4544.81111.6358176176 74075.9845.68111.9

9、570176180 84381.1949.09110.8564162170 94481.4239.44213.0863174176 103881.8760.0558.6348170186 114473.0350.54110.1345168168 124587.6637.38814.0356186192 134566.4544.75411.1251176176 144779.1547.27310.647162164 155483.1251.85510.3350166170 164981.4249.1568.9544180185 175169.6340.83610.9557168172 18517

10、7.9146.6721048162168 194891.6346.77410.2548162164 204973.3750.38810.0876168168 215773.3739.40712.6358174176 225479.3846.0811.1762156165 235276.3245.4419.6348164166 245070.8754.6258.9248146155 255167.2545.11811.0848172172 265491.6339.20312.8844168172 275173.7145.7910.4759186188 285759.0850.5459.93491

11、48155 294976.3248.6739.456186188 304861.2447.9211.552170176 315282.7847.46710.553170172 35 表3.4.1 人体的测试数据 *二、最优线性预测 v当我们用x的函数g(x)来预测y时,可用均方误差Ey g(x)2作 为预测精度的度量。如果限制g(x)为线性函数,则使 Ey g(x)2达到最小的线性预测函数是 即有 v称 为用x对y的最优线性预测。 36 v最优线性预测 的均方误差 v 的精度与yy和yx有关。 v被预测变量y可作如下分解: =最优线性预测+预测误差 37 (受x线性影响部分) (不受x线性影响

12、部分) v预测误差部分可看作是从y中扣除x的线性影响后剩余的部分 ,它不受x的线性影响,因为 称之为总体复判定系数,它表示y的方差可由x1,x2,xp联合解 释的比例,该值越大,表明预测效果越好。 38 v在y对x1,x2,xp的多元线性回归模型中,可以证明: v(1)y与预测值 的样本相关系数等于y与x1,x2,xp的样本复相 关系数,即 v(2)(样本)复判定系数为 v例3.4.3 在例3.4.2中,建立x3对x1,x2,x4,x5,x6,x7的六元线性回 归模型,拟合函数为 可用来对x3进行预测,复判定系数R2=0.8480,(样本)复相关 系数 , 也是x3与预测值 的样本 相关系数。

13、 39 三、偏相关系数 v两个变量之间的相关性,除了受这两个变量彼此间 的影响外,常常还受其他一系列变量的影响。由于 这个原因,相关系数有时也称为总(或毛,gross) 相关系数,其意思是包含了由一切影响带来的相关 性。 v顺便指出,相关系数有时亦称为简单相关系数或皮 尔逊(Pearson)相关系数或零阶偏相关系数。 40 v例3.4.4 x1家庭的饮食支出 x2家庭的衣着支出 x3家庭的收入 x1和x2之间存在着较强的正相关性。 x3分别与x1和x2的强正相关性导致了x1和x2的较强正 相关性。 如果我们能用某种方式把x3的影响消除掉,或者说 控制了x3(即x3保持不变),则x1和x2之间(

14、反映净 关系)的相关性可能就很不一样了,很有可能会显 示负相关性。 41 v将x, (0),S剖分如下: 称 为给定x2时x1的偏协方差矩 阵。记 ,称 为偏协方差, 它是剔除了 的(线性)影响之后, xi和xj之间的协方差。 42 v给定x2时xi 和xj的偏相关系数(partial correlation coefficient)定义为 其中 。 vijk+1,p度量了剔除xk+1, ,xp的(线性)影响之后,xi 和xj间相关关系的强弱。 v对于多元正态变量x,由于112也是条件协方差矩阵 ,故此时偏相关系数与条件相关系数是同一个值, 从而ijk+1,p同时也度量了在xk+1, ,xp值

15、给定的条件下 xi和xj间相关关系的强弱。 43 v一阶偏相关系数可直接由相关系数算得。设x1,x2,x3是三个随 机变量,则有 v(1)12=0并不意味着123=0,反之亦然。 v(2) 12与123未必同号。 v此外,12与123之间孰大孰小也没有必然的结论。 44 v偏相关系数的一般递推公式: v在多元正态性的假定下,ijk+1,p的极大似然估计为 其中 。称rijk+1,p为样 本偏相关系数。 45 v例3.4.5 假设对16个婴儿测量了出生体重(盎司)、出生天 数(日)及舒张压(mmHg),数据见表3.4.2。 46 表3.4.2 16个婴儿的出生体重、年龄及血压的数据 编号出生体重

16、(x1)出生天数(x2)舒张压(x3) 1135389 2120490 3100383 4105277 5130492 6125598 7125282 8105385 9120596 1090495 11120280 1295379 13120386 14150497 15160392 16125388 在控制出生天数后,舒张压与出生体重的样本偏相关系数为 在控制出生体重后,舒张压与出生天数的样本偏相关系数为 47 3.5 和(n 1)S的抽样分布 v一、 的抽样分布 v*二、(n 1)S的抽样分布 48 一、 的抽样分布 v1.正态总体 设xNp(, ), 0 ,x1,x2, ,xn是从总体

17、x中抽取的一 个样本,则 v2.非正态总体(多元中心极限定理) 设x1,x2, ,xn是来自总体x的一个样本,和存在,则 当n很大且n相对于p也很大时, 49 *二、(n1)S的抽样分布 v设随机矩阵X=(x1,x2,xq)=(xij):pq, 称“vec”为拉直运算。当X=X时,因xij=xji,故只需取其下三角 部分组成一个缩减了的长向量,记作vech(X),即 vech(X)= (x11,xp1,x22,xp2, xp1,p1,xp,p1,xpp) vX的分布是指vec(X)或(当X=X时)vech(X)的分布。 v拉直运算将矩阵分布问题转化为了向量分布的问题。 50 v设随机向量x1,

18、x2,xn独立同分布于Np(0, ),0,np,则p 阶矩阵 的分布称为自由度为n的(p阶)威沙特( Wishart)分布,记作Wp(n, )。当p=1,=2=1时,显然有 ,即有 W1(n,1)=2(n) 因此,威沙特分布是卡方分布在多元场合下的一种推广。 51 威沙特分布的性质 v(1)设WiWp(ni, ),i=1,2, ,k,且相互独立,则 W1+W2+WkWp(n1+n2+nk, ) v(2)设WWp(n, ),C为qp常数矩阵,则 CWCWq(n, CC) v设x1,x2, ,xn是取自Np(, ),0的一个样本,np ,则可以证明, 和S相互独立,且有 (n1)SWp(n1, ) 52

展开阅读全文
相关资源
猜你喜欢
相关搜索

当前位置:首页 > 其他


经营许可证编号:宁ICP备18001539号-1