多元正态分布(新).ppt_三一文库31doc.com

资源描述

《多元正态分布(新).ppt》由会员分享，可在线阅读，更多相关《多元正态分布(新).ppt（82页珍藏版）》请在三一文库上搜索。

1、第一章多元正态分布及其参数估计,多元正态分布的重要性：（1）多元统计分析中很多重要的理论和方法都是直接或间接地建立在正态分布基础上的，许多统计量的极限分布往往和正态分布有关。（2）许多实际问题涉及的随机向量服从多元正态分布或近似服从正态分布。因此多元正态分布是多元统计分析的基础。,一、多元正态分布的定义定义1：若p维随机向量的密度函数为：其中，是p维向量是p阶正定矩阵，则称X服从p维正态分布，记为,1多元正态分布的定义及其性质,定义2：独立标准正态变量的有限线性组合,称为p维正态随机变量，记为其中但是的分解一般不是唯一的。,定义3：若随机向量X的特征函数为：其

2、中t为实向量，则称X服从p元正态分布。特征函数定义的优点在于可以包含的情况。,特别地，二元正态分布：,二元正态分布曲面( ),二元正态分布曲面( ),即，两个随机变量独立,而可以求得的边缘密度函数为：,当时X1与X2不相关，对于正态分布来说不相关和独立等价。因为此时：,为X1和X2的相关系数。,二、多元正态分布的性质性质1：若，是对角矩阵，则相互独立。性质2：若则,性质3：若，将作剖分：则,性质4：p 元正态分布的条件分布仍服从正态分布。即在某些变量取固定值时，另外一些变量的分布仍然服从多元正态分布。,三、正态分布数据的变换,若一批多元数据不满足正态分布时，可以对

3、数据进行正态变换。一般来说常采用幂变换，如果想使值变小可以采用变换：,如果想使值变大，则采用变换：,不管使用哪种幂变换，还应该对变换后的数据的正态性做检验.,2多元正态分布的参数估计一、多元样本及其样本数字特征多元样本阵记,2、多元样本的数字特征样本均值：,样本均值向量可以用样本矩阵表示出来，即,因为：,样本离差阵,样本协方差矩阵或,样本离差阵用样本资料阵表示为：,因为,二、多元正态总体的最大似然估计及其性质利用最大似然法求出和的最大似然估计为：,求解过程似然函数为：,对数似然函数为：,（引理：设A为p阶正定矩阵，则当A=I 等号成立。,最大似然估计的性质，即是的无

4、偏估计。，即不是的无偏估计。，即是无偏估计。分别是的最小方差无偏估量。 3. 分别是的一致估计。,三、维斯特（Wishart）分布-一元分布的推广,定义：设个随机向量独立同分布于，则随机矩阵服从自由度为n的非中心维斯特分布，记为,随机矩阵的分布：,将该矩阵的列向量（或行向量）连接起来组成的长向量称为拉直向量，拉直向量的分布定义为该矩阵的分布，如果是对称矩阵则只取其下三角的部分拉直即可。,性质：,（1）若W1和W2独立，其分布分别为和，则分布为，即维斯特(Wishart)分布有可加性。,（2），C为mp阶的矩阵，则的分布为,定理：设分别是来自

5、正态总体的样本均值和离差阵，则 (1) (2) 相互独立。 S为正定矩阵的充分必要条件是 np 。,11,一元正态总体：,为来自一元正态总体的一组样本,定理：,证明：构造正交矩阵,做变换,第三章多元正态总体参数的假设检验,一、HotellingT2分布一元t分布的推广,定义设，且X与S相互独立，，则称统计量的分布为非中心的Hotelling T 分布，记为，当时称为中心的HotellingT2分布。记为,一元t分布：,设总体是一组样本 ,则统计量,其中,与类似,并且,定理：设且X与S相互独立，令,基本性质:,则,二、多元正态总体均值向量的假设检验,1.单个正态总

6、体,(1) 协方差矩阵已知时均值向量的检验,检验统计量,设水平为，查表确定，使得,（当H0成立时）,拒绝域为：,当原假设成立时,(2) 协方差矩阵未知时均值向量的检验,检验统计量,拒绝域为：,例：人的出汗多少于人体内钾和钠的含量有一定的关系。测得20名健康成年女性的出汗多少（X1）、钠的含量(X2)和钾的含量（X3）的数据，做如下的假设检验：,例：在企业市场结构研究中，起关键作用的指标有市场份额X1，企业规模（资产净值总额的对数）X2，资本收益率X3,总收益增长率X4.为了研究市场结构的变动Shepherd（1972）抽取了美国231个大型企业，调查了这些企业1960-1969年的资料

7、。假设以前企业市场结构指标的均值向量为：而该次调查得到的企业市场结构指标的均值向量和协方差矩阵为：,试问市场结构是否发生了变化？,带入到T2统计量中得到,临界值,因此拒绝原假设，认为市场结构已经发生了显著的变化。,2.协方差阵相等时，两个正态总体均值向量的检验,设且两组样本相互独立。（1 ）有共同已知的协方差矩阵,检验统计量为：,拒绝域为：,（2）有共同的未知协方差矩阵,检验统计量为：,用代替即可得到上述统计量。,例：为了研究日美企业在华投资企业对中国经营环境的评价是否存在差异，现从两国在华投资企业中各抽出10家，让其对如下指标进行打分。假设两组来自正态总体，有共同的未知协方差矩阵，

8、且两组样本相互独立。,经计算,代入统计量中得：查F分布表得：显然有：故拒绝原假设，认为日、美两国在华投资企业对中国经营环境的评价存在差别。,3.协方差阵不相等时，两个正态总体均值向量的检验略,一元方差分析,一、方差分析的概念及有关术语方差分析是根据实验数据来推断一个或多个因素在其状态变化时是否会对实验指标产生显著影响的一种数理统计方法。方差分析可以用来研究分类型自变量(名义测度）对数值型因变量的影响。包括它们之间有没有关系、关系的强度如何等，也就是研究一个或多个因素变化时不同总体的某个指标是否有显著差异，所采用的方法就是检验各个总体的均值是否相等。方差分析是用于评价实验的最重要的分

9、析方法。,4.多个正态总体均值向量的检验（多元方差分析）,例子：为了对几个行业的服务质量进行评价，消费者协会在零售业、旅游业、航空公司、家电制造业分别抽取了不同的企业作为样本。每个行业中所抽取的样本在服务对象、服务内容、企业规模等基本上是相同的，统计出消费者对23家企业的投诉次数，现判断几个行业的服务质量是否有差别。投诉次数如下表：,返回,假定各个行业在服务对象、服务内容、企业规模等基本相同的前提下，要分析4个行业的服务质量是否有显著差，实际上就是判断“行业”对投诉次数是否有显著影响，即“行业”为自变量，投诉次数为因变量。做出这种判断最终归结为检验4个行业被投诉次数的均值是否相等。如果相等则认

10、为行业因素对投诉次数是没有影响的，如果均值不全相等，则意味着行业因素对服务质量有影响。在做假设检验时每个行业看作是一个总体，因此我们可以简单概括为：方差分析主要用来对多个总体均值是否相等作出假设检验。,典型的应用实例：不同影院节目宣传方式（如海报和报纸广告）对票房有何影响？影院老板为了知道答案，每次仅用一种方式宣传一段时期，就可以获得样本数据进行方差分析。两种营销手段单独作用或共同作用分别对目标变量有何影响？例如，一位果酱生产商认为，商标名称和销售途径有重要影响，于是他对三个不同的商标名称在两种不同销售途径下进行测试。对同一个年级的几个班级用不同的教学方法，调查教学效果。,相关术语,因

11、素（因子）：在方差分析中，所要检验的对象称为因素或因子。例子中的“行业” 水平：因素中的不同表现称为水平。例子中的零售业、旅游业、航空公司、家电制造业是“行业”因素的具体表现，即水平。,单因素方差分析：只针对一个因素进行分析；多因素方差分析：同时针对多个因素进行分析。,（1）每个总体（因素的各个水平）的相应变量服从正态分布。也就是说，对于因素的每个水平，其观测值是来自正态总体的简单随机样本,上例中每个行业的投诉次数应服从正态分布。（2）所有总体的方差相等2。也就是说，各组观测数据来自相同方差的正态总体。上例中4个行业被投诉次数的方差相同。（3）不同观察值相互独立。（每个样本点的取值不影响

12、其他样本点的取值）上例中，每个企业被投诉的次数与其他企业被投诉的次数是相互独立的。,方差分析的三个基本假定,问题的一般提法,设因素有r个水平，每个水平的均值分别为，要检验r个水平（即为r个总体）的均值是否相等，提出如下假设：与原来两两总体的假设检验方法相比，方差分析不仅可以提高检验的效率，同时由于它是将所有的样本信息结合在一起，因此增加了分析的可靠性。，上例中如果用一般的假设检验方法，需要两两组合作6次检验。,图中的折线是由投诉次数的均值连接而成的。从图中可以看出不同行业投诉次数是有显著差异的，而且即使在同一个行业，不同企业的投诉次数也明显不同这表明行业与被投诉次数有关系，因为如果行业

13、与被投诉次数之间如果没有关系，不同行业被投诉次数的均值应该差不多相同。但是，仅仅从散点图上还不能提供充分的证据证明不同行业被投诉次数之间有显著差异，因为也许这种差异是由于抽样的随机性所造成的。因此需要通过对数据误差来源进行分析来判断不同总体的均值是否相等，进而分析某一个因素对实验结果是否有影响。因此进行方差分析时，需要考察数据误差的来源。,首先，我们注意到同一行业（同一总体）下，样本的观测值是不同的。因为企业是随机抽取的，因此他们之间的差异可以看成是由随机因素的影响造成的，或者说是由抽样的随机性造成的，我们称之为随机误差。其次，在不同的行业（不同的总体）下，各个观测值也是不同的。这种差异除

14、了抽样的随机性造成的，也可能是由于行业因素本身造成的，由不同行业所形成的误差称之为系统误差。数据的误差用平方和表示。衡量因素的同一水平下（同一总体）下样本数据的误差，称为是组内误差。例如，零售业所抽取的7家企业被投诉次数之间的误差。衡量因素的不同水平（不同总体）下样本之间的误差，称为组间误差。例如，零售业、旅游业、航空业、家电制造业之间被投诉次数之间的误差。,显然，组内误差只包含随机误差，组间误差既包含随机误差也包含系统误差。假如不同行业对投诉次数没有影响，那么在组间误差中只包含随机误差，而没有系统误差。这时，组内误差和组间误差经过平均后的数值就应该很接近，它们的比值就接近于1.反之，如果不

15、同行业对投诉次数有影响，在组间误差中除了包含随机误差外还包含系统性误差，这时组间误差平均后的值就会大于组内误差平均后的值，它们的比值就会大于1，当这个比值大于某个临界值时，我们就可以说因素的不同水平之间存在显著差异。因此判断行业对投诉次数是否有显著影响这一问题，实际上就是检验投诉次数的差异主要是由什么原因引起的。如果这种差异主要是系统误差，我们就说不同行业对投诉次数有显著影响。,如果原假设成立：说明某因素不同水平的影响不显著（无系统性影响），只剩下随机性影响，因此组间误差与组内误差差别不大，它们的比接近于1。如果原假设不成立：说明某因素不同水平的影响显著（存在系统性影响），组间误差与组内误差

16、差别较大，它们的比远超出1 构造统计量：,为全体样本合并的大样本的样本均值,为第 j个总体的样本均值,xij=第j 个子样本中第 i 个观测值； nj=第 j个子样本的样本容量,其中，n=n1+n2+nr r为总体的个数,于是，大样本的总误差平方和(Sum of Squares for Total，SST)为：,设,39,误差平方和的计算,可以证明：,第一项是各子样本均值与合并的大样本的公共均值的离差平方和，它反映了因素不同水平对总离差平方和的影响（系统性影响），称为组间误差平方和(因素效应误差平方和）（Sum of Squares for Factor A, SSA)；第二项是各子样本内部

17、离差平方和之和，反映了随机性因素的影响(误差性影响），称为组内误差平方和(Sum of Squares for Error，SSE）。,各误差平方和的大小与观测值的多少有关，为了消除观测值多少对误差平方和大小的影响，用各个平方和除以自由度即得到平均平方误差，简称均方误差：,即 SST=SSA+SSE 总误差平方和=组间误差平方和+组内误差平方和,构造F统计量：,当原假设成立时,根据给定的显著性水平，查表得到拒绝域：,上例中，经计算,说明不同行业被投诉次数的均值有显著差异，这意味着行业（自变量）与投诉次数（因变量）之间的关系是显著的。,关系强度的测量,上述F统计量只能表明自变量和因变量之间

18、是否有关系，不能表明关系的强弱，为了度量相关强度定义判定系数：,R2越大说明关系越强，越小关系越弱。类似于相关系数。,上例中， R2=0.349759。这表明行业对投诉次数的影响效应占总效应的34.9759%，而残差效应则占65.0241%。,方差分析中的多重比较,上面的分析得出的结论是不同行业被投诉次数的均值是不全相同的，但是究竟哪些均值不相等呢，也就是这种差异究竟出现在哪些行业之间呢？则需要对总体均值进行两两比较。多重比较的方法有很多，我们简单介绍一下由Fisher提出的最小显著差异方法（LSD方法）。检验步骤为：,第一步：提出原假设：,第二步：计算检验统计量：,第三步：计算

19、LSD，公式为：,第四步：根据显著性水平做出决策：如果则拒绝原假设，否则接受原假设。,例：对4个行业的均值作多重比较,第一步：提出假设,第二步：计算检验统计量,第三步：计算LSD,第四步：做出决策,不能拒绝原假设，说明零售业和旅游业之间的投诉次数没有显著差异。,.,双因素方差分析,单因素方差分析只是考虑一个分类型自变量对数值型因变量的影响。如果同时需考虑两个因素A与B对实验结果的影响，则可进行双因素方差分析。例：分析影响彩电销售量的因素，需要考察品牌、销售地区等因素的影响。现有4种品牌的彩电在5个地区进行销售，为分析彩电的“品牌”因素和“地区”因素对销售量是否有影响，调查数据如下：,双因

20、素方差分析的数据结构,在双因素方差分析中因为有两个因素，例如“品牌”和“销售地区”两个因素，如果两个因素对销售量的影响是相互独立，我们分别判断两个因素对销售量的影响，称为无交互作用的双因素方差分析。如果除了两个因素的单独影响外，两个因素的搭配还会对销售量产生新的影响效应，例如，某个地区对某个品牌的彩电有特殊偏好，这就是两个因素结合后产生的新效应，此时的双因素方差分析称为有交互作用的双因素方差分析。,无交互作用的双因素方差分析,为了检验两个因素的影响，需要分别对两个因素提出假设。,对行因素提出的假设为：,对列因素提出的假设为：,地区对销售量没有显著影响,品牌对销售量没有显著影响,误差平方和的分解

21、,其中:,可以证明:,分别构造统计量,关系强度的测量,反应了这两个因素联合起来与因变量之间的相关程度。,有交互作用的方差分析,例：分别在两个路段和高峰期及非高峰期进行驾车实验，得到 20个驾车时间的数据：,假设行变量有k个水平，列变量有r个水平，行变量每个水平的行数为m,构造统计量：,Wilks分布,在一元统计中，方差是刻画随机变量分散程度的一个重要特征，而在多元情况下方差变为协防差矩阵。如何用一个数量指标来反映协方差矩阵所体现的分散程度呢？有的用行列式，有的用迹，目前使用较多的是行列式。,定义1：若,定义2：若,的分布为Wilks分布，,记为，其中为自由度。,在实际应用中把统计量

22、转化为 T2统计量，进而转化为F统计量。,多元方差分析（多个正态总体均值向量的检验）,设有k个p元正态总体,从每个总体抽取独立样本个数为,数据结构为：,全部样本的均值向量,各总体的均值向量：,与一元方差分析的思想类似，离差平方和变成了离差阵：,提出假设：,用似然比原则构造的检验统计量为：,给定检验的显著性水平，查Wilks分布表，确定临界值，拒绝域为：,如果没有Wilks分布表可以用分布和F分布来近似。,例：1999年国家财政部、国家经贸委、人事部和国家计委联合发布了国有资本金绩效评价规则。其中竞争性工商企业的评价指标体系见表。我们借助这一指标体系对我国上市公司的运营情况进行分析，利用该数据进行方差分析。经过正态性检验我们认为由净资产收益率、总资产报酬率、资产负债率及销售增长率这四个指标组成的向量服从正态分布。这四个指标涉及了公司的获利能力、资本结构及成长能力，我们认为这四个指标可以对公司的运营能力作出近似的度量。,

展开阅读全文