七章主成分分析.ppt

上传人:本田雅阁 文档编号:3182209 上传时间:2019-07-22 格式:PPT 页数:64 大小:888.03KB
返回 下载 相关 举报
七章主成分分析.ppt_第1页
第1页 / 共64页
七章主成分分析.ppt_第2页
第2页 / 共64页
七章主成分分析.ppt_第3页
第3页 / 共64页
七章主成分分析.ppt_第4页
第4页 / 共64页
七章主成分分析.ppt_第5页
第5页 / 共64页
点击查看更多>>
资源描述

《七章主成分分析.ppt》由会员分享,可在线阅读,更多相关《七章主成分分析.ppt(64页珍藏版)》请在三一文库上搜索。

1、第七章 主成分分析 v7.1 引言 v7.2 总体的主成分 v7.3 样本的主成分 1 7.1 引言 v主成分分析(principal component analysis)由皮 尔逊(Pearson,1901)首先引入,后来被霍特林 (Hotelling,1933)发展了。 v主成分分析是一种通过降维技术把多个变量化为少 数几个主成分(综合变量)的统计分析方法。这些 主成分能够反映原始变量的绝大部分信息,它们通 常表示为原始变量的某种线性组合。 2 v习题7.6 下表给出的是美国50个州每100 000个人中 七种犯罪的比率数据。这七种犯罪是: x1:杀人罪x5 :夜盗罪 x2:强奸罪x6

2、:偷盗罪 x3:抢劫罪x7 :汽车犯罪 x4:斗殴罪 试图用降维的方式对50个州的犯罪情况进行比较分 析。 3 4 statex1x2x3x4x5x6x7 Alabama14.225.296.8278.31135.51881.9280.7 Alaska10.851.696.82841331.73369.8753.3 Arizona9.534.2138.2312.32346.14467.4439.5 Arkansas8.827.683.2203.4972.61862.1183.4 California11.549.42873582139.43499.8663.5 Colorado6.342170

3、.7292.91935.23903.2477.1 Connecticut4.216.8129.5131.813462620.7593.2 Delaware624.9157194.21682.63678.4467 Florida10.239.6187.9449.11859.93840.5351.4 Georgia11.731.1140.5256.51351.12170.2297.9 Hawaii7.225.512864.11911.53920.4489.4 Idaho5.519.439.6172.51050.82599.6237.6 Illinois9.921.8211.320910852828

4、.5528.6 Indiana7.426.5123.2153.51086.22498.7377.4 Iowa2.310.641.289.8812.52685.1219.9 Kansas6.622100.7180.51270.42739.3244.3 Kentucky10.119.181.1123.3872.21662.1245.4 Louisiana15.530.9142.9335.51165.52469.9337.7 Maine2.413.538.71701253.12350.7246.9 5 主成分的应用 v(1)在一些应用中,这些主成分本身就是分析的目的 ,此时我们需要给(用来降维的前几

5、个)主成分一 个符合实际背景和意义的解释,以明白其大致的含 义。 v(2)在更多的另一些应用中,主成分只是要达到目的 的一个中间结果(或步骤),而非目的本身。例如 ,将主成分用于聚类(主成分聚类)、回归(主成 分回归)、评估正态性、寻找异常值,以及通过方 差接近于零的主成分发现原始变量间的多重共线性 关系等,此时的主成分可不必给出解释。 6 v旋转公式: 7 图7.1.1 寻找主成分的正交旋转 7.2 总体的主成分 v一、主成分的定义及导出 v二、主成分的性质 v三、从相关阵出发求主成分 8 一、主成分的定义及导出 v设 ,E(x)=,V(x)=。考虑如下的 线性变换 希望在约束条件 下寻求向

6、量a1,使得 达到最大,y1就称为第一主成分。 v设1 2p0为的特征值, , i=1,2,p为相应的一组正交单位特征向量。则可求 得第一主成分为 它的方差具有最大值1。 9 v如果第一主成分所含信息不够多,还不足以代表原 始的p个变量,则需考虑再使用 ,并要求 Cov(y1,y2) =0 我们在此条件和约束条件 下寻求向量a2,使 得 达到最大,所求的y2称为第二主成 分。可求得 其方差为2。 v一般来说,x的第i主成分是指:在约束条件 和 Cov(yk,yi)=0, k=1,2,i1下寻求ai,使得 达到最大。第i主成分为 10 主成分的几何意义 v在几何上,ti表明了第i主成分的方向,y

7、i是x在ti上的 投影值(其绝对值即为投影长度),i是这些值的 方差,它反映了ti上投影点的变异程度。 11 x投影到ti上的值 其中i是ti与x的夹角。 12 主成分向量与原始向量之间的关系式 13 14 主成分与原始变量之间的关系式矩阵 y1y2yp x1t11t12t1p x2t21t22t2p xptp1tp 2tpp 15 正交变换 的几何意义 v正交变换 的几何意义是将Rp中由x1,x2,xp构成 的原p维坐标轴作一正交旋转,一组正交单位向量 t1,t2,tp表明了p个新坐标轴的方向,这些新坐标轴 彼此仍保持正交(或说垂直)。 16 多元正态总体的主成分方向 17 二、主成分的性质

8、 v1.主成分向量的协方差矩阵 v2.主成分的总方差 v3.原始变量xi与主成分yk之间的相关系数 v4.m个主成分对原始变量的贡献率 v5.原始变量对主成分的影响 18 1.主成分向量的协方差矩阵 V(y)= 其中=diag(1,2,p),即V(yi)= i, i=1,2,p,且 y1,y2,yp互不相关。 19 2.主成分的总方差 v 或 20 v总方差中属于第i主成分yi (或被yi所解释)的比例 为 称为主成分yi的贡献率。 v第一主成分y1的贡献率最大,表明它解释原始变量 x1,x2,xp的能力最强,而y2,y3,yp的解释能力依次递 减。 v主成分分析的目的就是为了减少变量的个数,

9、因而 一般是不会使用所有p个主成分的,忽略一些带有较 小方差的主成分将不会给总方差带来大的影响。 21 v前m个主成分的贡献率之和 称为主成分y1,y2,ym的累计贡献率,它表明y1,y2, ,ym解释x1,x2,xp的能力。 v通常取(相对于p)较小的m ,使得累计贡献达到一 个较高的百分比(如8090)。此时,y1,y2, ,ym可用来代替x1,x2,xp,从而达到降维的目的,而 信息的损失却不多。 22 3.原始变量xi与主成分yk之间的相关系数 v x=Ty 即 xi=ti1y1+ti2y2+tipyp 所以 Cov(xi,yk)=Cov(tikyk,yk)=tikk v在实际应用中,

10、通常我们只对xi (i=1,2,p)与yk (k=1,2,m)的相关系数感兴趣。 23 4.m个主成分对原始变量的贡献率 vm个主成分y1,y2,ym从原始变量x1,x2,xp中提取的信 息量,可度量为xi与y1,y2,ym的复相关系数的平方, 它是xi的方差可由y1,y2,ym联合解释的比例,称之为 m个主成分y1,y2,ym对原始变量xi的贡献率。 v 24 v例7.2.1 设x=(x1,x2,x3)的协方差矩阵为 其特征值为 1=5.83,2=2.00,3=0.17 相应的特征向量为 若只取一个主成分,则贡献率为 5.83/(5.83+2.00+0.17)=0.72875=72.875%

11、 25 应再取y2,此时累计贡献率为 (5.83+2.00)/8=97.875% (y1, y2)对每个变量xi的贡献率分别为 , 都比较高。 表7.2.1 y1及(y1,y2)对每个原始变量的贡献率 i(y1,xi)(y2,xi) 10.9250.8550.0000.855 20.9980.9960.0000.996 30.0000.0001.0001.000 26 5.原始变量对主成分的影响 v yk=t1kx1+t2kx2+tpkxp 称tik为第k主成分yk在第i个原始变量xi上的载荷,它 反映了xi对yk的重要程度。 v v在解释主成分时,我们需要考察载荷,同时也应考 察一下相关系数

12、。 27 v例7.2.2 设x=(x1,x2,x3)的协方差矩阵为 经计算,的特征值及特征向量为 1=109.793,2=6.469,3=0.738 相应的主成分分别为 28 y1=0.305x1+0.041x2+0.951x3 y2=0.944x1+0.120x20.308x3 y3=0.127x1+0.992x20.002x3 可见,方差大的原始变量x3在很大程度上控制了第一主成分 y1,方差小的原始变量x2几乎完全控制了第三主成分y3,方 差介于中间的x1则基本控制了第二主成分y2。y1的贡献率为 这么高的贡献率首先归因于x3的方差比x1和x2的方差大得多 ,其次是x1,x2,x3相互之

13、间存在着一定的相关性。y3的特征值 相对很小,表明x1,x2,x3之间有这样一个线性依赖关系: 0.127x1+0.992x20.002x3c 其中c=0.1271+0.99220.0023为一常数。 29 v v方差大的那些变量与具有大特征值的主成分有较密切的联系 ,而方差小的另一些变量与具有小特征值的主成分有较强的 联系。通常我们取前几个主成分,因此所取主成分会过于照 顾方差大的变量,而对方差小的变量却照顾得不够。 揭示多重共线性关系 vyp的贡献率常常很小,可视作接近于一个常数(均值)。虽 然yp似乎显得不重要,一般被忽略,但它却可能揭示出原始 变量之间存在着一个意外的多重共线性关系。

14、v更进一步来说,如果后几个主成分的贡献率都非常小,则可 能表示变量之间有几个彼此独立的多重共线性关系。 v如果V(yp)=0,则表明x1,x2,xp之间(以概率1)存在线性关系 (或者说完全共线性关系)。此时应从这些原始变量中删除 “多余”的变量(一般来说,有几个主成分方差为零,就有几 个“多余”的变量),然后再重新进行主成分分析。 31 三、从相关阵出发求主成分 v通常有两种情形不适合直接从协方差矩阵出发进 行主成分分析。 一种是各变量的单位不全相同的情形。 另一种是各变量的单位虽相同,但其变量方差的差 异较大(在应用中常表现为各变量数据间的数值大 小相差较大)的情形, 32 v最常用的标准

15、化变换是令 。 v显然,的协差阵正是x的相关阵R。 v从R出发求主成分,主成分分析将均等地对待每一个原始变 量。 v设 为R的p个特征值, 为相应的 单位特征向量,且相互正交,则p个主成分为 v记 于是 y*=T*x* 33 从R出发的主成分性质 v(1)E(y*)=0,V(y*)=*,其中 v(2) 。 v(3)变量 与主成分 之间的相关系数 即有 34 因此,在解释主成分 时,由相关阵R求得的载荷 和相关系数 所起的作用是完全相同的,只需选其一用 来作主成分解释即可。 v(4)主成分 对变量 的贡献率 v(5) 。 35 v例7.2.3 在例7.2.2中,x的相关阵 R的特征值及特征向量为

16、 相应的主成分分别为 36 的贡献率为 和 累计贡献率为 现比较本例中从R出发和例7.2.2中从 出发的主成分 计算结果。从R出发的 的贡献率0.705明显小于从 出发的y1的贡献率0.938,事实上,原始变量方差之 间的差异越大,这一点也就倾向于越明显。 可用标准化前的原变量表达如下: 37 可见, 在原变量x1,x2,x3上的载荷相对大小与例 7.2.2中yi在x1,x2,x3上的载荷相对大小之间有着非常大 的差异。这说明,标准化后的结论完全可能会发生 很大的变化,因此标准化不是无关紧要的。 38 7.3 样本的主成分 v设数据矩阵为 则样本协差阵和样本相关阵分别为 39 7.3 样本的主

17、成分 v一、样本主成分的定义 v二、从S出发求主成分 v三、从 出发求主成分 v四、主成分分析的应用 v五、若干补充及应用中需注意的问题 40 回顾主成分的定义 v第一主成分:在约束条件|a1|=1下寻求向量a1,使得 的方差 达到最大。 v第二主成分:在约束条件|a2|=1和Cov(y1,y2) =0下寻 求向量a2,使得 的方差 达到最 大。 v第i主成分:在约束条件|ai|=1和Cov(yk,yi)=0, k=1,2,i1下寻求ai,使得 的方差 达到最大。 41 一、样本主成分的定义 v若向量a1在约束条件|a1|=1下,使得 的样本方差 达到最大,则称线性组合 为第一样本主成 分。若

18、向量a2在约束条件|a2|=1和 42 的样本协方差 下,使得 的样本方差 达到最大,则称线性组合 为第二样本主成 分。一般地,若向量ai 在约束条件|ai|=1和 的样本协方差 43 下,使得的样本方差 达到最大,则称线性组合 为第i样本主成分, i=1,2,p 。 v需要指出的是,样本主成分是使样本方差而非方差 达到最大,是使样本协方差而非协方差为零。 44 二、从S出发求主成分 v用类似于上一节的方法,以S代替即可求得样本主 成分。设 为S的特征值, 为相应的单位特征向量,且彼此正交。则第i样本主 成分为 ,它具有样本方差 , i=1,2,p,各主 成分之间的样本协方差为零。 v在几何上

19、,p个样本主成分的方向为 所在 的方向,且彼此垂直。n个样品点在 上的投影点最 为分散,在其余 上投影点的分散程度依次递 减。 45 v总样本方差 vxi与 的样本相关系数 其中 ,k=1,2,p。 46 主成分得分 v v中心化的第i主成分 v若将各观测值xj代替上式中的x,则第i主成分的值 称之为观测值xj的第i主成分得分。所有观测值的平均主成分 得分 47 三、从 出发求主成分 v设样本相关阵 的p个特征值为 , 为相应的正交单位特征向量,则第i样本主 成分 其中x*是各分量经(样本)标准化了的向量,即 48 标准化后的主成分得分 v令 将其代替上述公式中的x*,即得观测值xj在第i主成

20、 分上的得分 所有观测值的平均主成分得分 49 四、主成分分析的应用 v在主成分分析中,我们首先应保证所提取的前几个 主成分的累计贡献率达到一个较高的水平,其次对 这些被提取的主成分必须都能够给出符合实际背景 和意义的解释。 v主成分的解释其含义一般多少带有点模糊性,不像 原始变量的含义那么清楚、确切,这是变量降维过 程中不得不付出的代价。因此,提取的主成分个数 m通常应明显小于原始变量个数p(除非p本身较小 ),否则维数降低的“利”可能抵不过主成分含义不 如原始变量清楚的“弊”。 50 v如果原始变量之间具有较高的相关性,则前面少数 几个主成分的累计贡献率通常就能达到一个较高水 平,也就是说

21、,此时的累计贡献率通常较易得到满 足。 v主成分分析的困难之处主要在于要能够给出主成分 的较好解释,所提取的主成分中如有一个主成分解 释不了,本身作为目的的整个主成分分析也就失败 了。 v主成分分析是变量降维的一种重要、常用的方法, 简单的说,该方法要应用得成功,一是靠原始变量 的合理选取,二是靠“运气”。 51 v例7.3.1 在制定服装标准的过程中,对128名成年 男子的身材进行了测量,每人测得的指标中含有这 样六项:身高(x1)、坐高(x2) 、胸围(x3) 、 手臂长(x4) 、肋围(x5)和腰围(x6) 。所得样 本相关矩阵列于表7.3.1。 x1x2x3x4 x5x6 x11.00

22、 x20.791.00 x30.360.311.00 x40.760.550.351.00 x50.250.170.640.16 1.00 x60.510.350.580.38 0.631.00 表7.3.1 男子身材六项指标的样本相关矩阵 52 表7.3.2 的前三个特征值、特征向量以及贡献率 特征向量 :身高0.4690.3650.092 :坐高0.4040.3970.613 :胸围0.3940.3970.279 :手臂长0.4080.3650.705 :肋围0.3370.5690.164 :腰围0.4270.3080.119 特征值3.2871.4060.459 贡献率0.5480.23

23、40.077 累计贡献率0.5480.7820.859 53 前三个主成分分别为 根据累计贡献率可考虑取前面两个或三个主成分。 称第一主成分为(身材)大小成分,称第二主成分 为形状成分(或胖瘦成分),称第三主成分为臂长 成分。 可考虑取前两个主成分。 由于 非常小,所以存在共线性关系: 54 v例7.3.2 在习题6.5中,如下八项男子径赛运动记录 : x1:100米(秒) x5:1500米(分) x2:200米(秒) x6:5000米(分) x3:400米(秒) x7:10000米(分) x4:800米(秒) x8:马拉松(分) 表7.3.3 八项男子径赛运动记录的样本相关矩阵 x1x2x3

24、x4x5x6x7x8 x11.000 x20.9231.000 x30.8410.8511.000 x40.7560.8070.8701.000 x50.7000.7750.8350.9181.000 x60.6190.6950.7790.8640.9281.000 x70.6330.6970.7870.8690.9350.9751.000 x80.5200.5960.7050.8060.8660.9320.9431.000 55 表7.3.4 的前三个特征值、特征向量以及贡献率 特征向量 :100米0.3180.5670.332 :200米0.3370.4620.361 :400米0.356

25、0.2480.560 :800米0.3690.0120.532 :1500米0.3730.1400.153 :5000米0.3640.3120.190 :10000米0.3670.3070.182 :马拉松0.3420.4390.263 特征值6.6220.8780.159 贡献率0.8280.1100.020 累计贡献率0.8280.9370.957 56 在径赛项目上的强弱成分。 反映了速度与耐力成绩的对比。 v例7.3.3 对例6.3.3中的数据从相关矩阵出发进行主 成分分析。 57 图7.3.1 相关矩阵 58 图7.3.2 特征值和特征向量 第一主成分可称为综合消费性支出成分。第二主

26、成 分可称为(受地区气候影响的)消费(结构)倾向 成分,后面表7.3.6中的排序进一步支持了这一解释 。第三主成分很难给出明显的解释,因此我们只取 前面两个主成分。 59 表7.3.5 按第一主成分排序的31个地区 地区地区 江西2.2341.867新疆0.6970.647 河南1.9470.388四川0.5330.041 黑龙江1.9270.636广西0.2512.058 吉林1.8590.151山东0.1470.983 山西1.8480.404福建0.2011.337 内蒙古1.8260.509湖南0.2190.203 安徽1.7960.519江苏0.4070.311 甘肃1.5490.5

27、26云南0.4350.479 宁夏1.5010.906西藏0.4372.365 辽宁1.3130.844重庆1.1150.409 贵州1.2980.341天津2.0060.044 海南1.1571.913浙江3.5830.531 青海1.0450.426北京5.4262.466 陕西0.8590.501广东5.5833.072 河北0.7690.580上海5.8660.195 湖北0.7170.247 60 表7.3.6 按第二主成分排序的31个地区 地区地区 广东5.5833.072山西1.8480.404 广西0.2512.058重庆1.1150.409 海南1.1571.913青海1.0

28、450.426 江西2.2341.867云南0.4350.479 福建0.2011.337内蒙古1.8260.509 安徽1.7960.519甘肃1.5490.526 陕西0.8590.501浙江3.5830.531 河南1.9470.388河北0.7690.580 贵州1.2980.341黑龙江1.9270.636 江苏0.4070.311新疆0.6970.647 湖北0.7170.247辽宁1.3130.844 湖南0.2190.203宁夏1.5010.906 上海5.8660.195山东0.1470.983 四川0.5330.041西藏0.4372.365 天津2.0060.044北京5.4262.466 吉林1.8590.151 61 62 63 五、若干补充及应用中需注意的问题 v1.关于时间序列数据 v2.主成分用于聚类分析 v3.关于不同时期的主成分分析 v4.对综合得分方法的质疑 64

展开阅读全文
相关资源
猜你喜欢
相关搜索

当前位置:首页 > 其他


经营许可证编号:宁ICP备18001539号-1