专题6偏最小二乘回归ppt课件.ppt

上传人:本田雅阁 文档编号:2697835 上传时间:2019-05-05 格式:PPT 页数:43 大小:1.44MB
返回 下载 相关 举报
专题6偏最小二乘回归ppt课件.ppt_第1页
第1页 / 共43页
专题6偏最小二乘回归ppt课件.ppt_第2页
第2页 / 共43页
专题6偏最小二乘回归ppt课件.ppt_第3页
第3页 / 共43页
专题6偏最小二乘回归ppt课件.ppt_第4页
第4页 / 共43页
专题6偏最小二乘回归ppt课件.ppt_第5页
第5页 / 共43页
点击查看更多>>
资源描述

《专题6偏最小二乘回归ppt课件.ppt》由会员分享,可在线阅读,更多相关《专题6偏最小二乘回归ppt课件.ppt(43页珍藏版)》请在三一文库上搜索。

1、1,专题6 偏最小二乘回归 Partial Least-Squares Regression,2,主要内容,一、偏最小二乘回归概述 二、偏最小二乘回归的建模步骤 三、偏最小二乘回归的辅助分析技术 四、偏最小二乘回归的研究前沿 五、文献研读,3,一、偏最小二乘回归概述,偏最小二乘回归方法的产生背景 偏最小二乘回归的基本思想 偏最小二乘回归的特点,4,偏最小二乘回归方法的产生背景,PLS最先产生于化学领域,在利用分光镜来预测化学样本的组成时,作为解释变量的红外区反射光谱的波长常有几百个,往往超过化学样本的个数,所造成的多重相关性使得人们很难利用传统的最小二乘法。 基于这个应用的需要,S.Wold和

2、C.Albano等人于1983年首次提出了PLS回归方法并首先在化工领域取得了广泛的应用。,一、偏最小二乘回归概述,5,在国内,最早对此进行系统研究的学者是北京航空航天大学的王惠文教授。,一、偏最小二乘回归概述偏最小二乘回归方法的产生背景(续),6,偏最小二乘回归的基本思想,设有p个自变量 和q因变量 。为了研究因变量和自变量的统计关系,我们观测了n个样本点,由此构成了自变量与因变量的数据表X= np和Y= nq。 偏最小二乘回归分别在X与Y中提取出成分t1和u1(也就是说, t1是 的线性组合, u1是 的线性组合)。,一、偏最小二乘回归概述,7,在提取这两个成分时,为了回归分析的需要,有下

3、列两个要求: (1)t1和u1应尽可能大地携带它们各自数据表中的变异信息; (2)t1和u1的相关程度能够达到最大。 这两个要求表明:t1和u1应尽可能好地代表数据表X和Y,同时,自变量的成分t1对因变量的成分u1又有很强的解释能力。,一、偏最小二乘回归概述偏最小二乘回归的基本思想(续),8,在第一个成分t1和u1被提取后,偏最小二乘回归分别实施X对t1的回归以及Y对t1的回归。如果回归方程已经达到满意的精度,则算法终止;否则,将利用 X被t1解释后的残余信息以及Y被t1解释后的残余信息进行第二轮的成分提取。如此往复,直到能达到一个较满意的精度为止。 若最终对 X共提取了m个成分t1、t2、t

4、m,偏最小二乘回归将通过实施yk(k=1、2、q)对t1、t2、tm的回归,然后表达成yk关于原变量x1、x2、xp的回归方程。,一、偏最小二乘回归概述偏最小二乘回归的基本思想(续),9,偏最小二乘回归的特点,1.PLS是一种可以处理多个因变量对多个自变量的回归建模方法。特别当各变量集合内部存在较高程度的相关性时,用PLS进行回归建模分析,比对逐个因变量做多元回归更加有效,其结论更加可靠,整体性更强。 2.PLS可以较好地解决许多以往用普通多元回归分析方法无法解决的重要问题。例如自变量之间的多重相关性问题和样本点容量不宜太少等问题。,一、偏最小二乘回归概述,10,偏最小二乘回归的特点,1.PL

5、S是一种可以处理多个因变量对多个自变量的回归建模方法。特别当各变量集合内部存在较高程度的相关性时,用PLS进行回归建模分析,比对逐个因变量做多元回归更加有效,其结论更加可靠,整体性更强。 2.PLS可以较好地解决许多以往用普通多元回归分析方法无法解决的重要问题。例如自变量之间的多重相关性问题和样本点容量不宜太少等问题。,一、偏最小二乘回归概述,11,3.PLS可以实现多种数据分析方法的综合应用。它可以集多元线性回归方法、主成分分析法和典型相关分析的基本功能为一体。在一次PLS计算后,不但可以得到多因变量对多自变量的回归模型,而且可以分析2组变量之间的相关关系,以及观察样本点间的相似性结构。这使

6、得数据系统的分析内容更加丰富,同时还可以对所建立的回归模型给予许多更详细深入的实际解释。,一、偏最小二乘回归概述偏最小二乘回归的特点(续),12,4.PLS允许在最终模型中包含原来全部自变量,最大限度地利用数据信息,使得PLS在相同的数据信息情况下比普通多元二乘回归模型具有更高的有效性。 5.在建模的同时实现了数据结构的简化,可以在二维平面上对多维数据的特性进行观察,图形功能强大。 因此,许多统计分析专家称PLS为第二代回归分析方法。,一、偏最小二乘回归概述偏最小二乘回归的特点(续),13,二、偏最小二乘回归的建模步骤,Step1.将X与Y进行标准化处理,得到标准化后的自变量矩阵E0=(E01

7、,E02,E0P)np和因变量矩阵 F0= (F01,F02,F0q)nq 。 标准化处理的目的是为了公式表达上的方便和减少运算误差。,14,Step2.记t1是E0的第1个成分,t1=E01, 1是E0的第1个轴,它是一个单位向量,既|1|=1。 记u1是F0的第1个成分, u1 = F0 c1。c1是F0的第1个轴,并且|c1|=1。 如果要t1和u1能分别很好地代表X与Y中的数据变异信息,根据主成分分析原理,应该有: Var(t1)max Var(u1)max,二、偏最小二乘回归的建模步骤,15,另一方面,由于回归建模的需要,又要求t1对u1有很大的解释能力,由典型相关分析的思路,t1与

8、u1的相关度应达到最大值,即: r(t1,u1)max 因此,综合起来,在偏最小二乘回归中,我们要求t1与u1的协方差达到最大,即: Cov(t1,u1)= r(t1,u1)max,二、偏最小二乘回归的建模步骤,16,正规的数学表述应该是求解下列优化问题: 因此,将在|1|2=1和|c1|2=1的约束条件下,去求 的最大值。,二、偏最小二乘回归的建模步骤,17,采用拉格朗日算法(过程略),可得: 1是矩阵 的特征向量,对应的特征值为 , 是目标函数值,它要求取最大值,所以, 1是对应于 矩阵最大特征值的单位特征向量。 而另一方面, c1是对应于矩阵 最大特征值 的单位特征向量。,二、偏最小二乘

9、回归的建模步骤,18,求得1和c1后,即可得到成分: 然后,分别求E0和F0对t1的回归方程:,二、偏最小二乘回归的建模步骤,19,Step3.用残差矩阵E1和F1取代E0和F0。然后,求第2个轴2和c2以及第2个成分t2和u2,有: 同理,有: 2是对应于矩阵 最大特征值 的特征向量, c2是对应于矩阵 最大特征值的特征向量。,二、偏最小二乘回归的建模步骤,20,从而,有回归方程:,二、偏最小二乘回归的建模步骤,21,Step4.如此计算下去,如果X的秩是A,则会有: 由于t1,t2,tA均可以表示成E01,E02,E0p的线性组合,因此上式可还原成yk*=F0k关于yk*=E0j的回归方程

10、形式,即:,二、偏最小二乘回归的建模步骤,22,Step5.确定抽取成分的个数交叉有效性 下面要讨论的问题是在现有的数据表下,如何确定更好的回归方程。在许多情形下,偏最小二乘回归方程并不需要选用全部的成分t1,t2,tA进行回归建模,而是可以像在主成分分析时一样,采用截尾的方式选择前m 个成分(mA,A=秩(X),仅用这m 个后续的成分就可以得到一个预测性能较好的模型。,二、偏最小二乘回归的建模步骤,23,在多元回归分析中,经常采用抽样测试法来确定回归模型是否适于预测应用。该方法是把观测到的样本点分成2部分:第1部分数据用于建立回归方程,求出回归系数估计量 ,拟合值 以及残差均方和 ;再用第2

11、部分数据作为试验点,代入所求得的回归方程,由此求出 。一般地,若有 ,则回归方程会有更好的预测效果;若 ,则回归方程不宜用于预测。,二、偏最小二乘回归的建模步骤,24,在PLS建模中,究竟该选取多少个成分为宜,这可通过考察增加一个新的成分后,能否对模型的预测功能有明显改进来考虑。 采用类似于抽样测试法的工作方式,把所有n个样本点分成2部分:第1部分除去某个样本点i的所有样本点集合(共含n-1个样本点),用这部分样本点并使用h个成分拟合一个回归方程;第二部分是把刚才被排除的样本点i代入前面拟合的回归方程,得到 在样本点i上的拟合值 。,二、偏最小二乘回归的建模步骤,25,对于每一个i=1,2,n

12、,重复上述测试,则可以定义 的预测误差平方和为 ,有: 定义Y的预测误差平方和为 ,有:,二、偏最小二乘回归的建模步骤,显然,如果回归方程的稳健性不好,误差就很大,它对样本点的变动就会十分敏感,这种扰动误差的作用就会加大SPRESS,h的值。,26,另外,再采用所有的样本点,拟合含h 个成分的回归方程。这时,记第i个样本点的预测值为 ,则可以定义 的误差平方和为 ,有: 定义Y的误差平方和为 ,有:,二、偏最小二乘回归的建模步骤,27,一般说来,总是有(WHY?): 下面,比较,二、偏最小二乘回归的建模步骤,是用全部样本点拟合的具有h-1个成分的方程的拟合误差; 增加了1个成分 ,但却含有样本

13、点的扰动误差。,如果h个成分的回归方程的含扰动误差SPRESS,h能在一定程度上小于(h-1)个成分回归方程的拟合误差SSS,h-1,则认为增加1个成分 ,会使预测的精度明显提高。,28,三、偏最小二乘回归的辅助分析技术,与典型相关分析对应的研究内容 与主成分分析对应的研究内容,29,与典型相关分析对应的研究内容,1.精度分析 (1)th对某自变量xj的解释能力为 (2)th对X的解释能力为 (3) t1,t2,tm对X的累计解释能力为,三、偏最小二乘回归的辅助分析技术,30,(4) t1,t2,tm对某自变量xj的累计解释能力为 (5)th对某因变量yk的解释能力为 (6)th对Y的解释能力

14、为,三、偏最小二乘回归的辅助分析技术与典型相关分析对应的研究内容 (续),31,(7) t1,t2,tm对Y的累计解释能力为 (8) t1,t2,tm对某因变量yk的解释能力为,三、偏最小二乘回归的辅助分析技术与典型相关分析对应的研究内容 (续),32,2.判断X与Y之间的相关关系 由于在PLS分析中,自变量的成分t1与因变量的成分u1明显具备典型成分的特征,因此类似地,也可以绘制t1/u1平面图,在其上标出每个样本点(t1(i),u1(i)的位置。 如果在图中明显观察到t1与u1之间存在线性关系,则说明X与Y有显著的相关关系,这时采用PLS建立Y对X的线性模型才会是比较合理的。,三、偏最小二

15、乘回归的辅助分析技术与典型相关分析对应的研究内容 (续),33,3.自变量xj在解释因变量集合Y时的作用 xj在解释Y时作用的重要性,可以用变量投影重要性指标(Variable Importance in Projection,VIP),即:,三、偏最小二乘回归的辅助分析技术与典型相关分析对应的研究内容 (续),34,需要注意的是: 在上述分析自变量xj对因变量的解释能力过程中,虽然定义了VIPj指标,但其分析结论还基本是定性的。 我们只能说明相对而言,哪些自变量的作用更大一些,但却不能决定哪些自变量几乎没有作用,因此,可以从自变量集合中被删除。 要解决这一问题,还需要发展进一步的统计检验技术

16、,如:Bootstrap。,三、偏最小二乘回归的辅助分析技术与典型相关分析对应的研究内容 (续),35,4.对成分的解释或命名 我们从th的构造方式来对其做一大致的解释: 其中,E0j是xj的标准化后的变量; 可见,E0j的权重hj*越大,xj在构造th时的边际贡献就越为重要。因此在实际应用中,可根据hj*(j=1,2,p)的取值情况来大致判断成分th的物理含义。,三、偏最小二乘回归的辅助分析技术与典型相关分析对应的研究内容 (续),36,与主成分分析对应的研究内容,1.对样本点分布结构的观察 从PLS对成分提取的过程来看,th虽然并不是主成分分析中的主成分,但它却带有很明显的主成分特征。例如

17、t1,它是在能很大程度解释Y的同时,又尽可能多地反映X中的变异信息。 所以,在PLS分析后,可以直接利用成分t1、t2,做t1/t2平面图。在这个图上,以(t1(i),t2(i)作为样本点i的坐标点,绘出所有样本点的位置,从而观察样本点在高维空间的分布特征和相似性结构。,三、偏最小二乘回归的辅助分析技术,37,2.特异点的发现 样本中特异点的存在会对回归线产生明显的拉动作用,使模型偏离原统计规律。 类似于主成分分析,定义第i个样本点对第h成分th的贡献率:,三、偏最小二乘回归的辅助分析技术与主成分分析对应的研究内容 (续),38,从而,样本点i对成分t1,t2,tm的累计贡献率: 一般说来,T

18、i2值不宜过大。一个点若对成分构成的贡献过大,它的存在有可能使分析发生偏离。Tracy给出了一个统计量用以检验:,三、偏最小二乘回归的辅助分析技术与主成分分析对应的研究内容 (续),39,所以,当 时,可以认为在95%的检验水平下,样本点对成分t1、t2、tm的贡献过大,这时称样本点i为一个特异点。,三、偏最小二乘回归的辅助分析技术与主成分分析对应的研究内容 (续),40,当m=2时,这个判别条件为 则有: 上式是一个椭圆。,三、偏最小二乘回归的辅助分析技术与主成分分析对应的研究内容 (续),41,所以,在t1/t2平面图上,可以做出这个椭圆图。如果所有的样本点都落在椭圆内,则认为所有的样本点的分布是均匀的;否则,若有若干样本点落在椭圆之外,则可以认为这些点是特异点,它们的取值远离所有样本点的平均水平。,三、偏最小二乘回归的辅助分析技术与主成分分析对应的研究内容 (续),42,四、偏最小二乘回归的研究前沿,Partial Least-Squares Path Modeling Partial Least-Squares Hierarchical Modeling Nonlinear Partial Least-Squares Regression,43,五、文献研读,The PLS Procedure.SAS OnlineDocTM:Version8,

展开阅读全文
相关资源
猜你喜欢
相关搜索

当前位置:首页 > 其他


经营许可证编号:宁ICP备18001539号-1