多元统计分析课件西安交通大学严明义.ppt

上传人:本田雅阁 文档编号:2985023 上传时间:2019-06-19 格式:PPT 页数:700 大小:7.97MB
返回 下载 相关 举报
多元统计分析课件西安交通大学严明义.ppt_第1页
第1页 / 共700页
多元统计分析课件西安交通大学严明义.ppt_第2页
第2页 / 共700页
多元统计分析课件西安交通大学严明义.ppt_第3页
第3页 / 共700页
多元统计分析课件西安交通大学严明义.ppt_第4页
第4页 / 共700页
多元统计分析课件西安交通大学严明义.ppt_第5页
第5页 / 共700页
点击查看更多>>
资源描述

《多元统计分析课件西安交通大学严明义.ppt》由会员分享,可在线阅读,更多相关《多元统计分析课件西安交通大学严明义.ppt(700页珍藏版)》请在三一文库上搜索。

1、轮廓图,轮廓图2例题,轮廓图3,雷达图1,雷达图2,雷达图3,调和曲线图1,调和曲线图2,调和曲线图3,调和曲线图4,星座图,星座图2,星座图3,星座图4,星座图5,星座图6,星座图7,星座图8,第三章 随机向量 Random Vector,1 一元分布,一、 一元随机变量与概率分布函数 二、概率分布函数的类型 三、随机变量的数字特征 四、一些重要的一元分布,2 多元分布,一、多元概率分布,1、多元概率分布函数,随机向量 的概率分布函数定义为,2、分布函数的性质, 非 降的右连续函数;, 分布函数的取值范围为0,1,即, 分布函数当变量取值为无穷大时,函数值收敛到1,即,二、两个常用的离散多元

2、分布,1、多项分布,则称 服从多项分布。,2、多元超几何分布,则 服从多元超几何。,三、多元概率密度,1、定义,随机向量 的分布函数可以表示为,则称 为连续型随机向量。称 为的多元概率密度函数。,若 在点 连续,则,四、边际分布,设有连续随机向量,不妨设 是 的q个分 量组成。则 的分布为,所以 的边际密度为,例 有概率密度函数,试分别求 的边际密度。,五、条件分布,1、问题的引入,若A和B是任意两个事件,且 ,则称 为在B事件发生的条件下,事件A发生的条件概率。,考虑随机向量 ,其中 表示人的身高(单 位:米), 表示人的体重(单位:公斤),在 身高为1.9米的人群中,体重 的分布就再也不是

3、 原来的分布了。而是在 的条件分布。,2、条件分布 连续随机向量,不妨设 是 的q个分量组成。 是余下的p-q个分量组成。,是 条件下, 的分 条件密度函数。,例 设X=(x1,x2)有概率密度函数,试求条件密度函数f(x1/x2)和f(x2/x1)。,所以先求,六、 独立性,1、定义 设 和 是两个随机向量,若 对一切 、成立,则称 和 相互独立。,2、设 和 是两个连续随机向量, 和 相互 独立,当且仅当 或 对一切 、 成立。,3、设 是 个随机向量,若 对一切 成立,则 相互独立。,例 设X=(x1,x2,x3)有概率密度函数,试证 x1,x2,x3相互独立。,3 矩,一、数学期望,1

4、、定义,是有随机变量构成的随机矩阵,定义X的数学期望为,特别当时 ,便可得到随机向量 的数学期望为,2、性质,1) 设为常数,则 ;,2)设 分别为常数矩阵,则,3)设 为 个同阶矩阵,则,二、协方差矩阵,1、定义:设 和 分别为 维和 维随机向量,则其协方差矩阵为,2、性质,1)若(x1,x2,,xp) 和(y1,y2,,yp)相互独 立。则,若(x1,x2,,xp)的分量相互独立, 则协方差 矩阵, 除主对角线上的元素外均为零,即,2)随机向量X的协方差矩阵是非负定矩阵。 证:设a为任意与X有相同维数的常数向量,则,3)设A是常数矩阵,b为常数向量,则V(AX+b)=AV(X)A ;,4、

5、若(x1,x2,,xp) 和(y1,y2,,yp)分别是p和q维随机向量,A和B为常数矩阵,则,5、若(k1,k2,,kp)是n个不全为零的常数, (x1,x2,,xp) 是相互独立的p维随机向量,则,三、相关系数矩阵 若(x1,x2,,xp) 和(y1,y2,,yp)分别是p和q维随机向量,则其相关系数矩阵为,4 随机向量的变换,一、一元随机变量的变换,设x具有概率密度函数fx(x),函数y=(x)严格单调,其反函数x=(x)有连续导数,则y的概率密度函数为,其中y的取值范围与x的取值范围相对应。,例 设随机变量x服从均匀分布U(0,1),即密度函数,y的取值范围为(0,),则,二、多元随机

6、向量的变换,若(x1,x2,xp) 有密度函数f (x1,x2,xp),有函数组,其逆变换存在,则 的概率密度函数为,特别:若 ,其中 为 阶可逆常数矩阵, 为 维常数向量,则,第五章 抽样分布 Sampling Distributions,1 样本的联合概率密度函数,则总体的密度函数为,X1,X2,Xn是从总体中抽取的一个简单随机样本,满足X1,X2,Xn相互独立,且同正态分布,称为样本数据矩阵。,为样本联合密度函数。,2 样本分布,一、维希特(Wishart),1、定义随机矩阵的分布,矩阵中的每一个元素均为随机变量,则矩阵X的分布是其列 向量拉长,组成一个长向量,定义 维希特(Wishar

7、t)分布的统计量,设 个随机向量,独立同分布于 ,则随机矩阵,服从自由度为 的非中心维斯特分布,记为 。,特别当 是 阶对称阵,则 的分布为的下三角部分组成的长向量,在一元正态随机变量中,我们曾经讨论了 分布,在多元 正态随机变量也有类似的样本分布。维希特分布(Wishart)相当 于一元统计中的 分布。,定理1:若 ,且 , ,则 的分布密度为 特别,当 和 时, 服从 分布。,维希特( Wishart)分布的密度函数,二、维斯特(Wishart)分布有如下的性质:,(1)若A1和A2独立,其分布分别 和 ,则 的分布为 ,即维斯特(Wishart)分布有可加性。,(2) ,C为mp阶的矩阵

8、,则 的分布为 分布。,三、 抽样分布,定理1:设X1,X2,Xn是来自多元正态总体Np(,)的简单随机样本,有,则有,证明:,当 , 时,由卡方分布的定义可知,可见维希特分布是由卡方分布在多元下的推广。,服从自由度为 的卡方分布。,定理2 设 独立同正态分布,则统计量,证:,由于样本均值,相互独立的标准正态分布的平方和为自由度为 的卡方分布。,在一元正态的情形下,我们有样本的统计量 当总体的方差未知时,我们必须用样本的方差 来代替总体的方差,则 那么在多元正态的情形下,是否有相同的问题呢?回答时肯定的。,定义:,称T2服从参数为P和n的非中心霍特林(Hotelling)分布,当。,定理:,当

9、 时, 服从自由度为n的中心霍特林分布,记为 。,定理:设 是来自多元正态总体 的简单随机样本,有,定理:设 是来自多元正态总体 的简单随机样本,,设 是来自多元正态总体 的简单随机样本,,(1)Wilks分布,定义:设 和 ,且 相互独立, 和 , ,则称 服从Wilks分布,记 。 可以证明,当 和 时,Wilks分布可以用 分布近似。,四、基于维斯特(Wishart)分布的统计量,在一元方差分析中,常常遇到基于独立的 分布随机变量比值的 统计量。在多元统计分析中,起到相同作用的是统计量 和 分布。,2、统计量和分布,设k个总体 ,它们服从 。分别抽出如下的样本:,W=E+B,当K个总体的

10、均值相等时 ,服从Wilks 分布。,第六章 多元正态分布 的统计推断,2 单个总体均值向量的推断,设 是取自多元正态总体的一个样本,这里,现欲检验,3 单个总体均值分量间结构关系的检验,是取自该总体的样本。检验:,一、问题引入,例 设,与上面的假设等价的是,寻找常数矩阵,注:矩阵C不是唯一的,,在例4.2.1中,假定人类的体形有这样一个一般规律的身高、胸围和上臂围平均尺寸比例为6:4:1。检验比例是否符合这一规律。检验:,则上面的假设可以表达为,二、统计量及方法,其中C为一已知的kp阶矩阵,kp,rank(C)=K,为已知的K维向量。根据多元正态分布的性质可知,检验:,当 为真时,,故可以将

11、霍特林分布的统计量换算成F统计量。,对给定的显著性水平,检验的规则,某地区农村男婴的体格测量数据如下,检验三个指标的均值是否有关系,proc iml; s= 31.600 8.040 0.500, 8.040 3.172 1.310, 0.500 1.310 1.900; mu=82.00 60.20 14.50; c=2 -3 0, 1 0 -6; a=c*t(mu); d=c*S*t(c); g=inv(d); T=6#(t(a)*g*a); print;,T47.143,4 两个总体均值的检验,一、两个独立样本的情形,与一元随机变量的情形相同,常常我们需要检验两个总体的均值是否相等。,设

12、从总体 ,中各自独立地抽取样本 和 , 。,考虑假设,根据两个样本可得1和2的无偏估计量为,其中,当原假设为真的条件下,,检验的规则为:,例:中小企业的破产模型,为了研究中小企业的破产模型,首先选定了X1总负债率(现金收益/总负债),X2收益性指标(纯收入/总财产),X3短期支付能力(流动资产/流动负债)和X4生产效率性指标(流动资产/纯销售额)4个经济指标,对17个破产企业为(1)和21正常运行企业(2)进行了调查,得资料,检验所选择的指标在不同类型企业之间是否有显著的差异。,多元假设检验 Statistic Value F Value Num DF Den DF Pr F Wilks La

13、mbda 0.54561620 6.87 4 33 0.0004 Pillais Trace 0.45438380 6.87 4 33 0.0004 Hotelling-Lawley Trace 0.83279015 6.87 4 33 0.0004 Roys Greatest Root 0.83279015 6.87 4 33 0.0004,思考:拒绝原假设是否说明两个总体的所有的变量之间 都是不相等的,Dependent Variable: x1 Sum of Source DF Squares Mean Square F Value Pr F Model 1 0.87466791 0.8

14、7466791 16.90 0.0002 Error 36 1.86300840 0.05175023 Corrected Total 37 2.73767632 两类企业间有显著性差异。,Dependent Variable: x2 Sum of Source DF Squares Mean Square F Value Pr F Model 1 0.08312077 0.08312077 1.95 0.1710 Error 36 1.53370028 0.04260279 Corrected Total 37 1.61682105 两类企业间有无显著性差异。,Dependent Varia

15、ble: x3 Sum of Source DF Squares Mean Square F Value Pr F Model 1 16.46958443 16.46958443 21.45 .0001 Error 36 27.64080504 0.76780014 Corrected Total 37 44.11038947,Dependent Variable: x4 Sum of Source DF Squares Mean Square F Value Pr F Model 1 0.00112694 0.00112694 0.03 0.8643 Error 36 1.36978095

16、0.03804947 Corrected Total 37 1.37090789,二、成对试验的T2统计量,前面我们讨论的是两个独立样本的检验问题,但是不少的实际问题中,两个样本的数据是成对出现的。例如当讨论男女职工的工资收入是否存在差异;一种新药的疗效等。,思考:两独立样本和成对样本的观测值有何不同。,设(xi,yi),i=1,2,3,n,时成对的试验数据,由于总体X和Y均服从p维正态分布,且协方差相等。,假设检验,检验的统计量为,其中,当原假设为真时,例1 一组学生共5人,采用两种不同的方式进行教学, 然后对5个学生进行测验,得如下得分数:,分析不同的教学方式是否有差异。,data a;

17、input x1 x2 y1 y2; cards; 89 90 82 85 98 88 80 83 75 69 61 70 76 70 67 66 90 76 63 65 ; data d; set a; x12=x1-y1; y12=x2-y2; proc corr cov; var x12 y12; run; proc iml; s= 63.50 21.000, 21.00 18.200; mu= 15.00, 4.800; g=inv(s); r=t(mu)*g*mu; print r; run;,5 两个总体均值分量间结构关系的检验,一、问题提出,设从总体 ,中各自独立地抽取样本 和

18、, 。他们的均值向量差为:,例 在爱情和婚姻的调查中,对一个由若干名丈夫和妻子组成的样本进行了问卷调查,请他们回答以下几个问题: (1)你对伴侣的爱情的“热度”感觉如何? (2)伴侣对你的爱情的“热度”感觉如何? (3)你对伴侣的爱情的“可结伴”水平感觉如何? (4)伴侣对你的爱情的“可结伴”水平感觉如何? 回答采用没有、很小、有些、很大和非常大5个等级,得到结果如表。,现在我们关心均值分量间的差异是否满足某种结构关系。比如每个指标均值间的差异是否相等。 1、丈夫对妻子以及妻子对丈夫的回答在0.05显著水平上没有差异。 2、在四个指标上他们是否会有相同的分数。即检验四个分数的平均值是否相等。,

19、二、统计量与检验,检验,在原假设为真的条件下,检验的统计量为:,data a; input x1 x2 x3 x4 class; cards; 数据行省略 ; run; proc anova; class class; model x1-x4=class; manova h=class m=(1 -1 0 0 , 1 0 -1 0 , 1 0 0 -1); run;,H = Anova SSCP Matrix for class E = Error SSCP Matrix S=1 M=0.5 N=27 Statistic Value F Value Num DF Den DF Pr F Wil

20、ks Lambda 0.87857261 2.58 3 56 0.0626 Pillais Trace 0.12142739 2.58 3 56 0.0626 Hotelling-Lawley Trace 0.13820985 2.58 3 56 0.0626 Roys Greatest Root 0.13820985 2.58 3 56 0.0626,proc iml; sigma1=0.5758620690 0.3758620690 -.1034482759 -.1655172414, 0.3758620690 0.5850574713 -.0919540230 -.1586206897,

21、 -.1034482759 -.0919540230 0.4367816092 0.4137931034, -.1655172414 -.1586206897 0.4137931034 0.4551724138; mu1= 3.90000, 3.96667, 4.33333, 4.40000; sigma2= 0.4885057471 -.0172413793 0.0402298851 0.0229885057, -.0172413793 0.4379310345 0.0724137931 0.1172413793, 0.0402298851 0.0724137931 0.2402298851

22、 0.2022988506, 0.0229885057 0.1172413793 0.2022988506 0.2574712644; mu2= 3.83333, 4.10000, 4.63333, 4.53333; c=1 -1 0 0 , 1 0 -1 0 , 1 0 0 -1; mu=(mu1+mu2)/2; a=c*mu; sigma=29#(sigma1+sigma2)/58; t2=60#t(a)*inv(c*sigma*t(c)*a; print t2;,第一节 单因素方差分析,问题的提出 统计的模型及检验方法 多重比较检验,问题的提出,某工厂实行早、中、晚三班工作制。工厂管理部

23、门想了解不同班次工人劳动效率是否存在明显的差异。每个班次随机抽出了7个工人,得工人的劳动效率(件/班)资料如表。分析不同班次工人的劳动效率是否有显著性差异。 a=0.05,0.01。,为什么各值 会有差异?可能的原因有两个。,一是,各个班次工人的劳动效率可能有差异,从而导致了不同水平下的观察值之间差异,即存在条件误差。,二是,随机误差的存在。,如何衡量两种原因所引起的观察值的差异?,总平均劳动效率为:,三个班次工人的平均劳动效率分别为:,总离差平方和ss,组间离差平方和(条件误差)ssA,组内离差平方和(随机误差)sse,统计量F,把计算的F值与临界值比较, 当F F时,拒绝原假设,不同水平下

24、的效应有显著性差异;当F F 时,接受原假设。,NEXT,查F分布表得临界值 因为 故应拒绝原假设,即不同班次工人的劳动效率有显著的差异。,方差分析:比较3个或3个以上的总体均值是否有显著性差异。用组间的方差与组内方差相比,据以判别误差主要源于组间的方差(不同组工人的产量,条件误差),还是源于组内方差(随机误差)。,NEXT,50家上市公司,按行业计算其1999年底的资产负债情况,如下:,多重比较检验,1、多重比较检验 前面的F检验只能说明在单一因素的影响下,不同水平是否存在显著性的差异,但不能断言哪些总体之间存在差异,在方差分析中否定了原假设,并不意味着接受了假设:,因而还应该进一步讨论到底

25、是哪些总体之间存在差异。,Scheffe检验,检验的结论:,第二节 多元方差分析,一、假设,二、多元方差分析的离差平方和的分解,总离差平方和,由于交叉乘积项为零,故 组间叉积矩阵组内叉积矩阵总叉积矩阵,组内叉积矩阵:主要由随机因素构成,组间叉积矩阵:主要由系统因素构成,SSE和SS(TR)之和等于总离差平方和SST。当SSE在SST中占有较大的份额时,可以认为随机因素影响过大,反之SSE所占份额小,SS(RT)所占份额就大,不同试验间的观测值会有显著性差异。,三、统计量,对给定的显著性水平,检验规则为:,拒绝原假设;,接受原假设;,注:关于统计量与F统计量的换算,参看附录。,例4.6.1,有四

26、种不同的商品x1,x2,x3和x4,按三种不同的方式销售,有数据如程序数据行,检验三种消费方式是否有显著性差异。,proc iml; csscp=49290.8500 8992.2500 -36444.0000 28906.8000, 8992.2500 9666.5833 -4658.3333 4859.0000, 36444.0000 -4658.3333 429509.3333 -58114.0000, 28906.8000 4859.0000 -58114.0000 175644.4000; mu1=90.80000 58.65000 404.50000 230.65000; mu2=

27、 72.90000 51.45000 417.75000 253.15000; mu3= 94.15000 55.15000 403.75000 292.00000; mu= 85.95000 55.08333 408.66667 258.60000; bcsscp=20#(t(mu1-mu)*(mu1-mu)+t(mu2-mu)*(mu2-mu)+t(mu3-mu)*(mu3-mu); icsscp=csscp-bcsscp; ht=det(csscp); hi=det(icsscp); lamda=hi/ht; print lamda;,134,第七章 聚类分析 Clustering An

28、alysis,135,系统聚类分析 直观,易懂。 快速聚类 快速,动态。 有序聚类 保序(时间顺序或大小顺序)。,136,例 对10位应聘者做智能检验。3项指标X,Y和Z分别表示数学推理能力,空间想象能力和语言理解能力。其得分如下,选择合适的统计方法对应聘者进行分类。,1 什么是聚类分析,137,138,139,我们直观地来看,这个分类是否合理? 计算4号和6号得分的离差平方和: (21-20)2+(23-23)2+(22-22)2=1 计算1号和2号得分的离差平方和: (28-18)2+(29-23)2+(28-18)2=236 计算1号和3号得分的离差平方和为482,由此可见一般,分类可能

29、是合理的,欧氏距离很大的应聘者没有被聚在一起。 由此,我们的问题是如何来选择样品间相似的测度指标,如何将有相似性的类连接起来?,140,聚类分析根据一批样品的许多观测指标,按照一定的数学公式具体地计算一些样品或一些参数(指标)的相似程度,把相似的样品或指标归为一类,把不相似的归为一类。 例如对上市公司的经营业绩进行分类;据经济信息和市场行情,客观地对不同商品、不同用户及时地进行分类。又例如当我们对企业的经济效益进行评价时,建立了一个由多个指标组成的指标体系,由于信息的重叠,一些指标之间存在很强的相关性,所以需要将相似的指标聚为一类,从而达到简化指标体系的目的。,141,思考:样本点之间按什么刻

30、画相似程度 思考:样本点和小类之间按什么刻画相似程度 思考:小类与小类之间按什么来刻画相似程度,142,一、变量测量尺度的类型 为了将样本进行分类,就需要研究样品之间的关系;而为了将变量进行分类,就需要研究变量之间的关系。但无论是样品之间的关系,还是变量之间的关系,都是用变量来描述的,变量的类型不同,描述方法也就不同。通常,变量按照测量它们的尺度不同,可以分为三类。 (1)间隔尺度。指标度量时用数量来表示,其数值由测量或计数、统计得到,如长度、重量、收入、支出等。一般来说,计数得到的数量是离散数量,测量得到的数量是连续数量。在间隔尺度中如果存在绝对零点,又称比例尺度。,2 相似系数和距离,14

31、3,(2)顺序尺度。指标度量时没有明确的数量表示,只有次序关系,或虽用数量表示,但相邻两数值之间的差距并不相等,它只表示一个有序状态序列。如评价酒的味道,分成好、中、次三等,三等有次序关系,但没有数量表示。 (3)名义尺度。指标度量时既没有数量表示也没有次序关系,只有一些特性状态,如眼睛的颜色,化学中催化剂的种类等。在名义尺度中只取两种特性状态的变量是很重要的,如电路的开和关,天气的有雨和无雨,人口性别的男和女,医疗诊断中的“十”和“一”,市场交易中的买和卖等都是此类变量。,144,二、数据的变换处理,所谓数据变换,就是将原始数据矩阵中的每个元素,按照某种特定的运算把它变成为一个新值,而且数值

32、的变化不依赖于原始数据集合中其它数据的新值。,1、中心化变换 中心化变换是一种坐标轴平移处理方法,它是先求出每个变量的样本平均值,再从原始数据中减去该变量的均值,就得到中心化变换后的数据。 设原始观测数据矩阵为:,145,中心化变换的结果是使每列数据之和均为0,即每个变量的均值为0,而且每列数据的平方和是该列变量样本方差的(n1)倍,任何不同两列数据之交叉乘积是这两列变量样本协方差的(n1)倍,所以这是一种很方便地计算方差与协方差的变换。,146,2、极差规格化变换 规格化变换是从数据矩阵的每一个变量中找出其最大值和最小值,这两者之差称为极差,然后从每个变量的每个原始数据中减去该变量中的最小值

33、,再除以极差,就得到规格化数据。即有:,147,经过规格化变换后,数据矩阵中每列即每个变量的最大数值为1,最小数值为0,其余数据取值均在01之间;并且变换后的数据都不再具有量纲,便于不同的变量之间的比较。,3、标准化变换 标准化变换也是对变量的数值和量纲进行类似于规格化变换的一种数据处理方法。首先对每个变量进行中心化变换,然后用该变量的标准差进行标准化。即有:,148,经过标准化变换处理后,每个变量即数据矩阵中每列数据的平均值为0,方差为1,且也不再具有量纲,同样也便于不同变量之间的比较。变换后,数据短阵中任何两列数据乘积之和是两个变量相关系数的(n1)倍,所以这是一种很方便地计算相关矩阵的变

34、换。,4对数变换 对数变换是将各个原始数据取对数,将原始数据的对数值作为变换后的新值。即:,149,三、样品间亲疏程度的测度,研究样品或变量的亲疏程度的数量指标有两种,一种叫相似系数,性质越接近的变量或样品,它们的相似系数越接近于1或一l,而彼此无关的变量或样品它们的相似系数则越接近于0,相似的为一类,不相似的为不同类;另一种叫距离,它是将每一个样品看作p维空间的一个点,并用某种度量测量点与点之间的距离,距离较近的归为一类,距离较远的点应属于不同的类。,150,变量之间的聚类即R型聚类分析,常用相似系数来测度变量之间的亲疏程度。而样品之间的聚类即Q型聚类分析,则常用距离来测度样品之间的亲疏程度

35、。 注:变量聚类放到因子分析后面,151,1、定义距离的准则,定义距离要求满足第i个和第j个样品之间的距离如下四个条件(距离可以自己定义,只要满足距离的条件),152,2、常用距离的算法,设 和 是第i和 j 个样品的观测值,则二者之间的距离 为:,明氏距离,特别,欧氏距离,(1) 明氏距离测度,153,明考夫斯基距离主要有以下两个缺点: 明氏距离的值与各指标的量纲有关,而各指标计量单位的选择有一定的人为性和随意性,各变量计量单位的不同不仅使此距离的实际意义难以说清,而且,任何一个变量计量单位的改变都会使此距离的数值改变从而使该距离的数值依赖于各变量计量单位的选择。 明氏距离的定义没有考虑各个

36、变量之间的相关性和重要性。实际上,明考夫斯基距离是把各个变量都同等看待,将两个样品在各个变量上的离差简单地进行了综合。,154,(2)杰氏距离 这是杰斐瑞和马突斯塔(Jffreys & Matusita)所定义的一种距离,其计算公式为:,155,(3)兰氏距离 这是兰思和维廉姆斯(Lance & Williams)所给定的一种距离,其计算公式为:,这是一个自身标准化的量,由于它对大的奇异值不敏感,这样使得它特别适合于高度偏倚的数据。虽然这个距离有助于克服明氏距离的第一个缺点,但它也没有考虑指标之间的相关性。,156,(4)马氏距离 这是印度著名统计学家马哈拉诺比斯(PCMahalanobis)

37、所定义的一种距离,其计算公式为:,分别表示第i个样品和第j样品的p指标观测值所组成的列向量,即样本数据矩阵中第i个和第j个行向量的转置,表示观测变量之间的协方差短阵。在实践应用中,若总体协方差矩阵未知,则可用样本协方差矩阵作为估计代替计算。,157,马氏距离又称为广义欧氏距离。显然,马氏距离与上述各种距离的主要不同就是马氏距离考虑了观测变量之间的相关性。如果假定各变量之间相互独立,即观测变量的协方差矩阵是对角矩阵,则马氏距离就退化为用各个观测指标的标准差的倒数作为权数进行加权的欧氏距离。因此,马氏距离不仅考虑了观测变量之间的相关性,而且也考虑到了各个观测指标取值的差异程度,为了对马氏距离和欧氏

38、距离进行一下比较,以便更清楚地看清二者的区别和联系,现考虑一个例子。,158,例如,假设有一个二维正态总体,它的分布为:,159,(5) 斜交空间距离,由于各变量之间往往存在着不同的相关关系,用正交空间的距离来计算样本间的距离易变形,所以可以采用斜交空间距离。,当各变量之间不相关时,斜交空间退化为欧氏距离。,160,2、相似系数的算法 (1)相似系数,设 和 是第 和 个样品的观测值,则二者之间的相似 测度为:,其中,161,(2)夹角余弦,夹角余弦时从向量集合的角度所定义的一种测度变量之间亲疏程度的相似系数。设在n维空间的向量,162,五、距离和相似系数选择的原则 一般说来,同一批数据采用不

39、同的亲疏测度指标,会得到不同的分类结果。产生不同结果的原因,主要是由于不同的亲疏测度指标所衡量的亲疏程度的实际意义不同,也就是说,不同的亲疏测度指标代表了不同意义上的亲疏程度。因此我们在进行聚类分析时,应注意亲疏测度指标的选择。通常,选择亲疏测度指标时,应注意遵循的基本原则主要有:,163,(1)所选择的亲疏测度指标在实际应用中应有明确的意义。如在经济变量分析中,常用相关系数表示经济变量之间的亲疏程度。,164,(2)亲疏测度指标的选择要综合考虑已对样本观测数据实施了的变换方法和将要采用的聚类分析方法。如在标准化变换之下,夹角余弦实际上就是相关系数;又如若在进行聚类分析之前已经对变量的相关性作

40、了处理,则通常就可采用欧氏距离,而不必选用斜交空间距离。此外,所选择的亲疏测度指标,还须和所选用的聚类分析方法一致。如聚类方法若选用离差平方和法,则距离只能选 用欧氏距离。,165,(3)适当地考虑计算工作量的大小。如对大样本的聚类问题,不适宜选择斜交空间距离,因采用该距离处理时,计算工作量太大。样品间或变量间亲疏测度指标的选择是一个比较复杂且带主规性的问题,我们应根据研究对象的特点作具体分折,以选择出合适的亲疏测度指标。实践中,在开始进行聚类分析时,不妨试探性地多选择几个亲疏测度指标,分别进行聚类,然后对聚类分析的结果进行对比分析,以确定出合适的亲疏测度指标。,166,至此,我们已经可以根据

41、所选择的距离构成 样本点间的距离表,样本点之间被连接起来。,167,四、样本数据与小类、小类与小类之间的度量,1 、最短距离(Nearest Neighbor),168,最长距离(Furthest Neighbor ),169,组间平均连接(Between-group Linkage),170,1 、组内平均连接法(Within-group Linkage),171,重心法(Centroid clustering):均值点的距离,172,离差平方和法连接,2,4,1,5,6,5,173,红绿(2,4,6,5)8.75 离差平方和增加8.752.56.25 黄绿(6,5,1,5)14.75 离差

42、平方和增加14.758.56.25 黄红(2,4,1,5)10100 故按该方法的连接和黄红首先连接。,174,3 系统聚类方法,1、根据样品的特征,规定样品之间的距离 ,共有 个。将所有列表,记为D(0)表,该表是一张对称表。所有的样本点各自为一类。,2、选择D(0)表中最小的非零数,不妨假设 ,于是将 和 合并为一类,记为 。,(一)方法,开始各样本自成一类。,175,3、利用递推公式计算新类与其它类之间的距离。分别删除D(0)表的第p,q行和第p,q列,并新增一行和一列添上的结果,产生D(1)表。,176,4、在D(1)表再选择最小的非零数,其对应的两类有构成新类,再利用递推公式计算新类

43、与其它类之间的距离。分别删除D(1)表的相应的行和列,并新增一行和一列添上的新类和旧类之间的距离。结果,产生D(2)表。类推直至所有的样本点归为一类为止。,177,(二)常用的种类,1、 最短距离法 设抽取五个样品,每个样品只有一个变量,它们 是1,2,3.5,7,9。用最短距离法对5个样品进行分类。 首先采用绝对距离计算距离矩阵:,178,然后 和 被聚为新类 ,得 :,179,180,最短距离法的递推公式,假设第p类和第q类合并成第类,第r类与其它各旧类的距离按最短距离法为:,181,182,183,各步聚类的结果: (1,2) (3) (4) (5) (1,2,3) (4) (5) (1

44、,2,3) (4,5) (1,2,3,4,5),184,2、最长距离法 用最长距离法对5个样品进行分类。首先采用绝对距离计算距离矩阵:,185,然后和被聚为新类,得:,186,最长距离法的递推公式,假设第p类和第q类合并成第类,第r类与其它各旧类的距离按最长距离法为:,187,3、中间距离法,最长距离,最短距离,中间距离,188,用中间距离法对5个样品进行分类。首先采用绝对距离计算距离平方矩阵:,189,中间距离法的递推公式,190,191,类平均法定义类间的距离是两类间样品的距离的平均数。对应我们前面讨论的组间,4、类平均法,192,然后和被聚为新类,得 :,193,类平均法的递推公式,假设

45、第p类和第q类合并成第类,第r类与其它各 旧类的距离按最短距离法为:,194,p类和q类与L类的距离的加权平均数,195,5、可变类平均法 类平均法的递推公式中,没有反映Gp类和Gq类的距离有多大,进一步将其改进,加入D2Pq,并给定系数1,则类平均法的递推公式改为:,用此递推公式进行聚类就是可变类平均法。递推公式由: p类和q类与L类的距离的加权平均数 p类和q类的距离 两项的加权和构成,的大小根据哪项更重要而定。,196,6、离差平方和法,如 和 为一类,则离差平方和,如 和 为一类,则离差平方和,和 被聚为新类,重心为,197,类似于方差分析的想法,如果类分得恰当,同类内的样品之间的离差平方和应较小,而类间的离差平方和应当较大。,离差平方和法的思路是,当k固定时,选择使S达

展开阅读全文
相关资源
猜你喜欢
相关搜索

当前位置:首页 > 其他


经营许可证编号:宁ICP备18001539号-1