引言课件.ppt

上传人:本田雅阁 文档编号:2852893 上传时间:2019-05-28 格式:PPT 页数:57 大小:1.23MB
返回 下载 相关 举报
引言课件.ppt_第1页
第1页 / 共57页
引言课件.ppt_第2页
第2页 / 共57页
引言课件.ppt_第3页
第3页 / 共57页
引言课件.ppt_第4页
第4页 / 共57页
引言课件.ppt_第5页
第5页 / 共57页
点击查看更多>>
资源描述

《引言课件.ppt》由会员分享,可在线阅读,更多相关《引言课件.ppt(57页珍藏版)》请在三一文库上搜索。

1、10.1 引言,一. PCA的主要功能 在信息损失最小的前提下,对高维空间进行降维处理。 数据类型: 样本点变量(定量变量),10.3 数据的标准化处理,(一)“中心化”处理平移变换 性质:不改变样本点集合中点与点的相互位置;,(二) 标准化处理:中心化压缩 性质: g*=0 (均值为0) sj* =1, j=1,2, p ( 方差等于1 ) .,对于标准化数据表: (1)变量方差均等于1 (2)相关系数矩阵 = 协方差矩阵,10.4 PCA的算法,一. PCA对数据系统做“最佳简化”的含意 PCA可在保证信息损失的前提下,经线性变换和舍弃一小部分信息,以少数线性无关的新综合变量取代原始采用的

2、多维相关变量。 称: 为“主超平面”; 称: 为“主平面”;,输入输出: (1)平移变换:把原点移到重心:,二. PCA算法中的几个要素,(2)旋转变换,得到“主轴”:u1,u2,upR p 其中,u1对应数据变异最大的方向,u2与u1 垂直,对应于数据变异第二大方向, 所以u1,,up是标准正交的,即: (3)求样本点ei 在 uh轴上的投影坐标 所有样本点在uh 上的投影构成“第h主成分 yh”: 在主成分中,Var(y1)max 而 y2 y1,且Var(y2)是次大的,(4)在 uh主轴上,ei 的投影坐标是yh(i) 第h主成分为:,yh是原变量x1,xP的线性组合,组合系数为uh(

3、1),uh(p),PAC算法推导: 不妨设变量 都是中心化的, 求第主成分,经过旋转变换得到的,是的线性组合,因此 是矩阵 的特征向量, 对应的特征值是,三. PCA的计算方法(一般情况下),(1)数据的标准化 为方便起见,仍记 。 (2)计算标准化数据表 的协方差矩阵V。 (3)求V的前m个特征值12m0, 以及对应的特征向量: u1, u2, ,um (主轴) 它们是标准正交的:,(4)在 uh主轴上,ei 的投影坐标是yh(i) 第h主成分为:,yh是原变量x1,xP的线性组合,组合系数为uh(1),uh(p),四、主成分的统计特征,第h主成分 yh 的均值为0。 yh的方差等于 h。

4、yj与yk 的协方差等于0:,总结:PCA算法的输入与输出,12m Var(y1),Var(y2),,Var(ym) u1,u2, umRP (主轴) y1,y2, ymRn (主成分),n个样本点,p个变量,n个样本点,m个变量,总结:经过主成分分析,,10.5 PCA的辅助分析技术,一. 怎样选取精度合适的主超平面 1. m维主超平面的精度测量 主成分分析前,Xnp数据中的全部变异信息: 主成分分析后保留的数据变差: Var(y1)=1,Var(y2)= 2, , Var(ym)= m,标准化,形象地看: 方差: 注意: 所以,定义“累计贡献率”:,标准化,2. 、如何选取合适精度的u1,

5、um 。 根据累计贡献率可以确定所要选取的成分的个数。 (2)若希望Qm在80%左右,应选取 3 个主成分。 一些科技问题的累计贡献率要求在90%以上。但对复杂的社会科学、行为科学或经济学中的数据,能达到60%也可以考虑。,例.管理期刊评价,二. 主成分的命名,主成分y1,ym 是原变量x1,,xp 的线性组合。原变量x1,,xp 都有明确的物理含意。 问题: y1,ym的物理含意是什么? 1. 作用:指出影响系统结构的主要因素和主要特征。 例 :分析各阶层人员生活状态 发展中国家:y1食品, y2穿着 发达国家: y1住宅, y2旅游 以此可以划分不同社会阶层的生活档次。 (在这个方向,人们

6、的生活水平差距最大),例:中国城市经济分析: 1984: y1综合水平, y2工农业投入国家。1988: y1综合水平,y2外贸,科技。 中国改革开放以来,由于开放程度不同,使中国各地区经济水平差距逐渐拉大。所以,加大开放力度,发展高科技产业是城市发展的重要工作方面。 2.方法:专业知识 + 数学手段 数学手段:研究 yh与 x1,,xp 的相关关系。 对于标准化数据可以证明:,所以: 第一个主轴: 由此可见,仅差一个常量倍 : 是 y1与 x1,,xp 的相关系数。 因此,可以通过观察 来确定y1的含意。,例.管理期刊分类评估,(2)相关圆图(Component Plot),若 m = 2,

7、y1,Component Plot,三. 判断“特异点”(ek),“特异点”: 在PCA中,若有ek远离数据分布的平均水平, 可以用“点对主成分方差的贡献”来测量。 如: 则定义“ei 对Var(y1)的贡献”为:,一般地,定义“ei 对Var(yh)的贡献”CTRh(i): CTR(i)过大解原因: (1)数据本身的特异性(BJ,SH, GZ, SZ, TJ) (2)数据统计上的错误 处理方法:除去这些特异点,可以提高分析精度,图示也更加清楚。,四. 主平面图,PCA将一个高维变量系统有效的降至 1 维 例1:Kendall 英 评估英国各地区农业生产水平。48个郡,10种农作物:小麦(x1

8、)、大麦(x2)、燕麦(x3)、土豆(x4)、菜豆(x5)、马铃薯(x6)、萝卜(x7)、饲料甜菜(x8)、临时牧场干草(x9)、永久牧场干草(x10)。(精度:47.6%) Y1= 0.39 x1+0.37 x2+0.39 x3+0.27 x4+0.22 x5 +0.30 x6+0.32 x7+0.26 x8+0.24 x9+0.34 x10 第一主成分y1与 x1,,x10 均正相关。所以y1称为“水平因子”,可用于评估排序。即:某个样本点在y1上取值很大时,它在x1,,x10取值都会很大。,10.6 利用主成分分析构造评估函数,1、“主成分”是否等同于“主要因素”? 例如:利用主成分分析

9、构造评估函数 (1)样本点:n个有关专家 (2)变量:p个评估指标 问题:用第一主成分构造的评估指标完全不符合人们对实际情 况的认识。 原因:,第一主成分对应数据方差最大的方向, 这是专家意见分歧最大的方向!,2、 y2 一般不可以用于评估!,应用中要注意的问题:,例如: 并不说明:沈阳(SY)的外贸比拉萨(LS)差。,10.7 时序立体数据表分析,平面数据表主成分分析: 时序立体数据表主成分分析:,PCA,时序立体数据表主成分分析方法 :,Y1,Y2,YT,PCA,0,y2,y1,时序立体数据表分析内容,1. 主轴随时间的变化 2. 总体水平的运动轨迹 3. 类的生成与变化规律 4. 类轨迹

10、的比较分析 5. 评估排序的比较研究 6. 群点运动预测模型,19851988,中国城市的国民生产总值平均年增长率为10.7%。 1989年国民生产总值比上年增长4%。,10.8 因素分析,Varimax旋转,0,y1,y2,x1,x2,x8,x5,x6,x7,x4,x3,例10.1这里有100个学生的数学、物理、化学、语文、历史、英语的成绩如下表(只展示了部分,数据在student.sav)。,对学生成绩的数据进行主成分分析,得到下面的SPSS输出:,主成分分析的结果 从SPSS的输出,得到用成分 f1和 f2与原来变量的相关系数,因子分析的结果( Varimax旋转后) 从SPSS的输出,

11、得到因子f1和 f2与原来变量的相关系数,10.9 主成分回归 (讲座一),由于:主成分 f1, , fm 是线性无关的变量 做因变量 y 关于f1, , fm 的回归模型:,问题:有时主成分 f1, , fm 对 y 的解释性很差,原因:关于名称的思维定势,建议的PCA回归方法,采用OLS中的变量筛选方法,做因变量 y 关于f1, , fp 的回归模型. 特点:可在变量严重多重相关的条件下回归建模; 在模型中可以包含原有的所有变量。,10.10 偏最小二乘回归(PLS) (讲座二),u1,t1,求回归模型:,分别用 Y1 、X1 取代 Y 、X , 然后求第二个PLS成分。,PLS回归模型的

12、主要特点 1、 多因变量对多自变量的回归模型 2、可以在变量严重多重相关的条件下进行回归建模; 3、可以在样本点个数少于变量的条件下进行回归建模; 4、PLS回归模型中将包含原有的所有变量。 5、提取的成分一般比PCA少 (问题:PCA回归与PLS回归都依然受多重共线性影响),6、 PLS回归实现了预测分析与数据认识性分析的有机结合,PLS回归,主成分分析(高维空间的降维处理),典型相关分析(两组变量之间的相关关系),回归建模(预测),Y,X,u1 u2us,t1 , t2ts,应用软件: SIMCA-P,免耕法在我国沙尘暴的防治中的作用,最新研究表明,我国沙尘暴的沙尘来源并非沙漠。据调查,影

13、响京津地区的沙尘暴,70左右的沙源就来自于内蒙古、山西、河北以及京津周边干旱裸露的农田。因此,为了有效地防治沙尘暴,对农田的风蚀进行研究就显得十分重要。研究人员在我国内蒙古的一些地区,对施行传统耕作、草地条件、沙地和施行免耕法的农田进行实地考察。通过建立偏最小二乘模型,发现关键因素,为防止农田沙化、降低风蚀提供理论依据。,北京,春天季风,北京的海拔低于丰宁,丰宁,数据:各样农田土壤风蚀量与影响因素,自变量的相关系数矩阵,PLS回归模型,平面图,风蚀量与土壤颗粒直径高度正相关;与土壤含水量、地表覆盖率高度负相关。 从不同类型的农田来看,风蚀量与与免耕法农田的负相关程度最大,说明了施行免耕法农田相对与其他农田类型对于保护土壤风蚀有着更好的效果。,拟合效果:观测值与拟合值曲线图,施行免耕法的农田是风蚀程度最低的农田类型。采用该方法耕作的农田具有很高的农作物残茬覆盖率,能有效地避免农田沙化和防止水土流失。因此,免耕法在北京和我国沙尘暴防治中是十分值得推广的,而在农业生产中,也同样具有很强的现实意义。,PCA作业,1、管理期刊遴选 2、中国股市特征PCA,

展开阅读全文
相关资源
猜你喜欢
相关搜索

当前位置:首页 > 其他


经营许可证编号:宁ICP备18001539号-1