神经网络2010.ppt

上传人:本田雅阁 文档编号:3109705 上传时间:2019-07-09 格式:PPT 页数:223 大小:6.10MB
返回 下载 相关 举报
神经网络2010.ppt_第1页
第1页 / 共223页
神经网络2010.ppt_第2页
第2页 / 共223页
神经网络2010.ppt_第3页
第3页 / 共223页
神经网络2010.ppt_第4页
第4页 / 共223页
神经网络2010.ppt_第5页
第5页 / 共223页
点击查看更多>>
资源描述

《神经网络2010.ppt》由会员分享,可在线阅读,更多相关《神经网络2010.ppt(223页珍藏版)》请在三一文库上搜索。

1、神经网络控制,电信学院 周强,第一章 引 言,人工神经网络的简介 人工神经网络的发展历史 人工神经元的模型 人工神经网络的结构与学习规则 人工神经网络的应用,1.1 人工神经网络的简介,人工神经网络(Artificial Neural Network,ANN) 即,神经网络(Neural Network,NN) 是由大量处理单元(神经元Neurons)互连而成 的网络,是对 人脑的抽象、简化和模拟(即智 能化),模仿人脑信息处理的功能。 涉及神经科学、数学、统计学、计算机科学 的一门学科。,神经网络属于控制科学的范畴。 经典控制现代控制理论大系统 和 智能控制 1992年 世界数学家大会 神经

2、网络 模糊控制 仿人控制 遗传算法 蚁群算法 内分泌算法 免疫算法,智能控制,神经网络:最早、理论性最强、最深奥; 目前的研究已经饱和; 笨办法; 模糊控制:理论较简单,模糊数学 抽象出模糊化; 应用很成功。由于其简化作用,特别适合在处 理能力有限的处理器中使用,家用电气、导弹; 仿人控制:对成功经验的数学化和固化,范围有限 遗传算法:对生物进化学的模仿,个体随机性和统计规律性 的结合,理论上很巧妙,但应用范围也有限,目 前仅仅适合于优化。,特点: *并行运算(每个神经元都在独立的运算) *自学习能力很强 *非线性处理能力(这源于神经网络的每一块砖都是非线性的,如S型函数) 因此,神经网络具有

3、能力:1、获取信息 2、储存信息。,1.2 人工神经网络发展历史,20世纪40年代开始,经历兴起、萧条、兴盛3个阶段。 1、兴起阶段(1943-1970) 1943 神经病学和神经解剖学家McCulloch 数学家Pitts # 在总结神经元一些生理特性的基础上,提出 神经元的数学模型,MP模型。 # 证明了:数量众多的神经元网络可以能计算 任何可计算的函数。,# NN的兴起,同时也是人工智能(Artificial Intelligence,AI)这一学科。 1949年,生物学家D.O.Hebb 提出改变NN连接强度的Hebb规则。 1957年,Neumann提出感知器(Perceptron)

4、的概念 ,并于次年将神经网络首次应用于工程实践。感知器 可应用于模式识别和联想记忆等方面。,1960年,Widrow和Hoff引入最小均方差(Least Mean-Square,LMS)算法,用于阐述感知器与 自适应线性元件之间选练差异的标准。 2.萧条阶段 (1970-1980) 导致十年低谷的原因包括:1、技术上的:计 算机技术支持不够;2、信心上的:资金悲观情绪 这个阶段的标志,1969年麻省理工学院著名的人工 智能专家M.Minsky和S.Papert共同出版了专著感知器 指出单层感知器无法解决非线性问题,线性问题需要由多 层感知器来解决,而感知器模型扩展到多层是否有意义, 尚不能从理

5、论上得到证明。 当时计算机水平低,人们都去研究人工智能和专家系 统了。,这一时期的研究成果也不够显著、值得一提的是1977 年Anderson等提出的黑箱脑状态(Brain-state-in-a-Box) 模型。不必关心它的参数,只关心输入-输出。 3 兴盛阶段(1980- 1982年美国生物物理学家Hophield提出反馈神经网络 (Hophield网络) ,标志着兴盛阶段的到来。,1998年,Broom和Lowe提出了径向基神经网络(RBF)。 径向基神经网络具有对训练样本具有预处理的能力。是对BP网络的一大进步。 90年代初,支持向量基()。 径向基神经网络和支持向量基都会在本课程中介绍

6、。,神经网络的应用及研究方向,理论研究分为: 利用神经生理与认知科学研究大脑思维即智能机理;(作为大脑的仿真研究手段) 利用神经科学基础理论的研究成果,用数理方法探索智能水平更高的人工神经网络模型,深入研究网络的算法与性能(稳定性、收敛性、容错性、鲁棒性等),开发新的网络数理理论(神经网络动力学、非线性神经场)。,应用研究包括两类: 神经网络的软件模拟和硬件实现的研究; 神经网络在各个领域中的应用研究,这些领域包括:模式识别、信号处理、知识工程、专家系统、优化组合、智能控制等。,1.3 人工神经元的模型,1.3.1 生物神经元模型,结构特点: 轴突(神经纤维)很长(输出冲动)、 树突接受冲动,

7、突出连接者(体现出连接权值),细 胞膜内外有电位差(内高外低)40-100mV。,工作: 突出转换(放大或缩小)神经冲动,由树突输入到细 胞膜,如果大于细胞膜电压,则使得细胞兴奋,产生 神经冲动,由轴突输出。,1.3. 人工神经元网络模型,输入信号是xi,总输入为ui bi是阈值,除了阈值输入为vi f()是激励函数, yi是输出,常用的激励函数有种 ()阈值函数(符号函数) 可用于分类,()符号函数,()Sigmoid函数 ()组合函数 *激励函数的选择:相似性与紧支撑原则。,1.4 人工神经元网络的结构及学习规则,按网络结构分类:前向神经网络 反馈神经网络 按学习方式分类:有导师神经网络

8、无导师神经网络 * 一定的结构决定了一定的学习方式。 1.4.1人工神经元网络的结构 1.单层前向网络 定义:所谓单层前向网络是指网络中计算节点(神经元)只有一层。 见图1-5,上面的网络,只有输出层有计算能力。 2. 多层前向神经网络 多层前向神经网含有一个或多个隐层,即至少隐层和输出层都有运算能力。,输出层神经元的工作: 计算隐层各神经元输出的加权和。 隐层神经元的工作: 计算输入层各神经元输出的加权和; 加权和 - 神经元阈值; 此值作为隐层神经元激励函数的输入产生的函数 值作为隐层输出。,3. 反馈网络 所谓反馈网络是指网络中至少含有一个反馈回路的神经网络。,这是一个自反馈神经网络,

9、z-1是滞后环节。,4.随机神经网络 将随机运算引入到神经网络中,具体来说,神经元的运算是按概率原理进行的。下图中阈值是一个随机变量,竞争神经网络 竞争神经网络的输出神经元相互竞争以确定胜者,胜者指出那一种输出最能代表网络输出。,上图是一个最简单的竞争神经网络,Hamming网络。 每个输出神经元都与输入节点全连结; 输出神经元之间全互连(用于相互比较); 最终,竞争获胜的胜者作为网络的输出。,1.4.2 神经网络的学习 定义:神经网络的学习又称为训练,是指神经网络根据环境的刺激作用自动调整神经元连结权值和自身阈值的过程。 神经网络学习的方式: 有教师学习 无教师学习 有教师学习 又称有监督学

10、习(Surpervised Learning) 训练样本 (输入-输出),(输入-输出), 偏差 = 网络实际输出 - 网络期望输出 权重改变量W = G( 偏差 ) W(n+1)= W(n)+W 见图1-11 无教师的学习 没有外部导师统观学习过程,而是提供一个网络质量的衡量标准。根据这个标准进行学习。,图1-11 有教师的神经网络学习,图1-12 无教师神经网络实现滤波电路,神经网络学习的方式:,每 个神经网络结构都对应着一种学习方式。下面介绍5种主要的神经网络学习规则:Hebb学习、纠错学习、基于记忆的学习、随机学习、竞争学习 1 Hebb学习规则 语言描述: i 如果一个突触Wij两边

11、的神经元被同时激活,则它的能量(权重)就被选择性的加强; ii 如果一个突触两边的神经元被异步激活,则它的能量(权重)就被选择性的消弱或消除。,Hebb规则的数学描述: Wij表示神经元xj到神经元xi的突触权重 神经元xj在一段时间内的平均值 神经元xi在一段时间内的平均值 在学习进行到第N步时,对权重的调整为 式中, 是正常数,称为学习速率或者步长。 它就像PID算法中的比例系数(后面会讲道)。 Hebb规则的工作过程的描述: 情况1、神经元Xi、Xj活动充分,则 权值被加强了。,情况2、神经元Xi、Xj活动异步,则即 之一的情况存在,权重Wij显然小于0。权重Wij被减弱了。 2 纠错学

12、习规则 又称为Delta规则 或 Widrow-Hoff规则。,神经网络的输入Xi(n),产生实际输出yi(n), 网络期望输出di(n), 期望值和真实值之间偏差,要调整权值,以误差e(n)最小为原则(才能使得网络无差),为避免正负号的影响,采用e(n)的最小二乘值最小为性能指数,可以推出权值的调整为,每一步运算都会得到一个权值的修改量 用于修改权值,反复次运算,就可以获得新的权值,它实际是一个矩阵, 例如,下面是一个3单元输入层,2单元输出层的神经网络。,因此,神经网络的运算(前向工作、反向学习)都是矩阵运算。,3、基于记忆的学习规则,基于记忆的学习规则主要用于模式分类,一种简单而 有效的

13、方法最近临域法。 设存储器中所记忆的某一类l1含有向量,如果,下式成立,则Xtest属于l1类,上式采用了欧式距离的计算 。,4. 随机学习规则,又称为Boltzmann学习规则,其实质是模拟退火(Simulated Annealing,SA)算法。,5.竞争学习规则,竞争学习中,神经元网络之间相互竞争,在任一时刻。只能有一个输出神经元是活性的。 如果一个神经元网络输入x,一个神经元i在竞争中获胜(即输出大于其它神经元)则其输出为1,其它为0; 与神经元i相连的权值为 与神经元i相连的权值为0,1.5 人工神经元网络的应用,神经网络几乎能够应用到任何一个领域,仅就控制领域来说,有以下一些实例。

14、 曲线拟合: 浓度传感器的 浓度-输出电压 的非线性关系,神经网络控制 神经网络可以学习控制器(PID、模糊、大林等等),也可以是一个有经验的操作工人,完成人工智能控制。,故障诊断 破坏性试验 获得数据训练样本,非线性软测量 软测量就是间接测量,利用温度计接触式测量温度是直接测量,利用光谱测量温度就是温度软测量。,热电厂煤块粉碎尺寸的软测量,测量粉碎机中煤块的尺寸 利用声音完成测量,基于小波-神经网络的瓷坯泥内部应力分布的软测量,压力差即压力梯度是内应力不均匀的反应 陶瓷颗粒定向问题,内部应力的分布与真空练泥机的机头内壁压力的关系,轴向 径向 切向,模式识别 如指纹识别,药方的配置,黑箱问题:

15、 药物的种类 药量 陶瓷的性质 建立对应关系,面部识别、虹膜识别、笔迹识别,身份识别: 原始数据用于训练、学习;记忆。 与新的图像数据进行相关分析。 面部识别:通过训练能够抓住最主要的几个特征点。 为什么个人能够在瞬间识别出人的身份, 而现在的机器却要几十分钟。是因为抓主 要特征,而忽略细节。 笔迹识别:是神经网络识别的成功事例。,语音压缩、语音记忆、字符语音识别,隐层各个神经元具有正交性(独立性)、完备性。 重新调整系数,使得 系数数据量最小。 进行语音记忆,所占用信息量最小。 字符语音识别:相关性计算。, 金融领域的发现,金融曲线的分析: 股票分析 证券市场预测 市场预测 自动证券估计,(

16、11) 纸张平滑度软测量,平滑度是评价纸张表面凸凹程度的一个指标, 它是粗糙度的对立概念。纸张的平滑度与印刷 油墨在纸面上的均一转移密切相关。因此,对 印刷用纸的平滑度测量十分必要。 Aguilar, J.R., Arenas, J.P. and Salinas, R. Friction noise technique for the measurement of surface roughness of papersJ. Applied Acoustics, 2009, 70 (9):1235-1240.,纸张定量仪测量纸张定量过程,纸张定量测量值,基于纸张定量噪声STPS的纸张 平滑度在线

17、软测量系统框图,第二章 单层前向网络及LMS学习算法,主要内容 单层感知器 自适应线性元件 LMS学习算法,2.1 单层感知器,2.1.1单层感知器的模型,单层感知器的运算 线性累加器: 外部偏差: 二值阈值元件:,单层感知器的作用 对外部输入量x1,x2,xm进行识别分类,分成2类l1和l2。 当感 知器输出1则认为外部输入量x1,x2,xN属于l1类; 当感知器输出-1则认为外部输入量x1,x2,xN属于l2类; 2个状态的分界线是 (2-1) 也就是说,使(2-1)大于等于0的x1,x2,xN被识别为l1类, 而使(2-1)大于等于0的x1,x2,xN被识别为l2类。 这里(2-1)直线

18、(j=2)、平面(j=3)、超平面(j3)。 例 一种只有2个外部输入量x1,x2的单层感知器。 它的分界线是: 可以在一个平面上画出这个单层感知器,单层感知器的工作包括2部分: !学习(以确定边界线) ! 识别(判断输入量属于I1 I2),2.1.1单层感知器的学习算法 单层感知器的学习就是确定边界的过程,也就是调整权值w1 w2 和阈值b的过程。 输入向量: 权值向量: 其中,n代表迭带次数,阈值b可以用w0来表示,因此,公式 (2-1)的2个状态的分界线可以表示为,学习步骤: 第一步 定义变量和参数 训练样本=输入向量,期望输出=X(n),d(n) 权值向量(包括阈值b(n)) W(n)

19、=b(n),w1(n),w2(n),wN(n) 实际输出y(n) n迭代次数,即第几步 是学习速率 第二步 初始化, W(n)=b(n),w1(n),w2(n),wN(n)是随机给出的,不过研究表明w1(n),w2(n),wN(n)是小随机数比较好。 怎么好那?大的权值易出现“早熟”。 第三步 计算单层感知器输出(前向运算),第四步 调整感知器权值向量(反向运算) 第五步 判断是否满足条件 若满足 则结束运算;否则n=n+1,转到第三步接续运算。 说明: 1 是一个给定的小正数; 2 期望输出,关于线性可分与线性不可分的问题 线性可分的情况:通过学习可以获得边界条件 线性不可分的情况:通过学习

20、无法获得边界条件,例题 用单层感知器实现“与”、“或”、“异或”的运算。,2.2 自适应线性元件,自适应线性元件与感知器同时被提出,也很相似,显然,自适应线性元件与感知器有相当的功能。,自适应线性元件实现非线性可分有2个办法。 (1)给神经元施加非线性输入函数,见下图,分界线为: 模拟输出为:,显然:有一些非线性的运算需要在输入前完成,例题:,(0.5,0.5)(0.6,0.8)(1,1),(2)多个自适应线性元件组合,见下图,解决线性可分的2方法,问题:单层感知器与自适应线性元件的区别在那里? 答:在于反馈变量不同,感知器返回与期望值相比较 的是二进制输出yi,自适应线性元件的连续输出vi。

21、,2.3 LMS学习算法,感知器和自适应元件,都使用LMS学习算法调整权值。 LMS学习算法也是基于纠错规则的学习算法。 LMS学习算法的推导: n时刻的误差: 误差的均方值: 由上2式得到:,由上2式得到: 为了使误差均方值尽快减小,令权值沿着误差函数负 梯度方向改变 LMS算法权值调整公式 学习步长 对于LMS算法影响很大: 快速性;全局最优; 收敛性;数据存储量。,LMS算法是一种迭代算法。 LMS算法的学习速率,LMS算法的学习曲线,学习速率的退火算法 (一种变步长的学习算法) 这里 是初始步长, 随着时间坐标的变化而衰减,正如退火过程一样。 3 仿真研究,第3章 多层前向网络及BP学

22、习算法,主要内容 多层感知器 BP学习算法 径向基网络 小脑神经网络 神经网络在控制领域中的应用,本章前言 单层感知器只能解决分类问题,在单层感知器的输入输出层之间添加隐含层,就得到了多层感知器(Multilayer Perceptron,MLP)。这种由输入层、隐含层(一层或多层)和输出层构成的网络成为多层前向神经元网络(Multilayer forward Neural Networks)。 多层前向神经元网络中前一层神经元作为后一层的输入。 本章介绍2种多层前向网络:多层感知器和径向基神经网络,详细介绍多层感知器的学习算法著名的误差反向传递算法(Back-Propation Algori

23、thm,BP算法)及其改进算法,并将比较这2种算法。,3.1 多层感知器,多层感知器能够解决单层感知器不能解决非线性问 题。其结构如下图。,输入层神经元的个数为输入信号的维数,输出层的个数是 输出信号的维数,隐层个数根据输入输出个数主要是对应 关系的复杂程度而定,通常有2n+1原则作为隐神经元初 始个数,而后再调整。 多层感知器的特点: 1、引入了隐含层(简称隐层),外界无法接触到它。 2、隐层的激励函数可以选用非线性函数,这对于整个神经元网络的性质非常重要。 3、BP算法是针对于多层感知器的算法,因此多层感知器又称为BP网络。 正是因为多层感知器的这些特性,使得它是当前应用 最广泛的一种神经

24、网络。,隐层神经元的激励函数,1 Sigmoid函数 请求解s形函数的导数 2 双正切函数 它和Sigmoid函数形状相似,不过它具有正负双极输出,它可 以被认为是被光滑的阶跃函数。,3 Gaussian高斯函数 高斯函数有简化优化问题的特点,而神经网络的学习实质上是优化问题,所使用的梯度下降法,必然会带来收敛速度慢的问题,高斯函数可以改善此问题。 新激活函数 5 组合激活函数,3.2 BP学习算法,3.2.1 BP学习算法的描述 BP学习算法分为正向传播和反向传播2部分。 1)工作信号正向传播: 权值不变,由输入信号产生输出信号。 2)误差信号反向传播: 偏差信号(网络实际输出与 期望输出的

25、差)由输出端逐 层向前传播,即误差信号反 向传播,这个过程网络权值 由误差反馈进行调节。,下面以2层神经网络为例推导BP算法,上图的神经网络中: 输入层:M个输入信号,任一个输入信号用m表示; 第一隐层:I个神经元,任一个神经元用i来表示; 第二隐层:J个神经元,任一个神经元用j来表示; 输出层:P个神经元,任一个神经元用p来表示。 各层的连接权值分别是Wmi Wij Wjp 神经元的输入和输出: 上标表示层(M、I、J、P)下标表示神经元序号,u表示输入,v表示输出。,所有的神经元都用Sigmoid函数。 训练样本集 X=X1,X2,Xk,XN,其中任一个样本Xk=xk1,xk2,xkM,y

26、k1,yk2, ykp,(k=1,2,N). 实际输出 Yk=yk1,yk2,ykpT 期望输出 dk=dk1,dk2, ,dkPT K为迭代次数。 网络输入训练样本Xk,由信号正向传播过程可得 第一隐层 第二隐层 输出层,输出层第p个神经元误差信号为 定义神经元p的误差能量为 ,则输出层所有神经元的误 差能量总和为E(n) 误差信号由后向前传递,传播过程中,逐层修改权值。下面是 反向传播过程。 1)隐层神经元与输出层神经元之间权值的修改 BP算法中权值的修改量W与误差对该权值的偏微分成正比,即 这就是寻优方式中所谓的牛顿梯度法。它的思想见下图。,也即Delta规则 这里反映了修改权重的依据是

27、: 通过调整权重使得误差的均方值减小。 这里很难直接求出,E对wip(n)的导数。 由下图可见,E和wip(n)之间通过 传递。,它们的关系可以由下式表达。 因此有,其中 则有 (3-0) 可以简写为 更有意 义,设其中 ,这里 是局部梯度,反映了输出层神 经元其输入对于偏差的影响。 (3-1),Sigmoid函数 的导数是 从而有 因此代入(3-1),得到 因此,第二隐层和输出层之间的网络权值改变量由网络实际输 出和期望输出、实际输入就可以计算易于计算。 最后,2)隐含层与隐含层之间的权值修正值,(3-1)中只有 未知,代入公式(3-1),得 3)输入层M与第一隐层I之间的连接权值的调整,3

28、.2.2 BP算法的学习步骤,第一步 设置变量和参数: 输入向量(训练样本) N是训练样本的个数。 几组权值,期望输出 实际输出 第二步 初始化,赋给 小随机非零数。 第三步(正向过程) 输入样本,获得网络实际输出,计算偏差。 第四步 (反向过程)根据偏差反向计算每层神经元的局部偏差 第五步 计算权值的修正量,并获得新权值,第六部 若所有的样本都用完了,结束;否则转到第三步。 说明: 1)权值的初始化问题 权值过大会影响学习速度,使用小随机数,随机范围 这里F是输入层单元的个数。,2) Sigmoid函数的取值范围 (0,1),也就是说只能趋近0和1, 因此对于 神经元输出期望值只能取0.01

29、和0.99这样近似0和1的数字。 3)BP算法的2种方式, 顺序方式: 一个一个样本的训练 批处理方式:待组成一个周期的全部样本都一次性输 入网络后,以总的平均误差能量为修正 目标,训练网络。 4)步长 5)激励函数 6)训练结束条件,3.2.3 BP算法的改进 实际应用中的神经网络存在2个问题,收敛速度慢和目标 函数存在局部极小点。因此必须改进。 加入动量项 真对于学习步长 缺少自适应性,难以同时满足收敛性和 快速性的问题,加入动量项,即在原来(ID控制器) 公式中加入动量项 公式成为 (3-3),分析动量项的作用,将(3-3)展开 由以上公式迭代计算得: 分析:可见在n时刻,不仅n时刻的调

30、节量起作用,n-1,n-2 ,n-m 时刻的调节量仍然起作用,只是乘上权重,这和控制中的ID控制器十分相似,公式 中第一项是微分项,后面的都是微分积分项,对于偏差的存 在,积分项加强了调节作用,最大(假设所用的 相同 )可达 。 的取值范围(0,1),例如动量项取 0.9,则调节作用可增大到10倍。 在E(n)减小后,经过若干步后,传递到动量项,调节量减小( 正负抵消),但有些滞后,显然这是动量项的一个缺点,会 引起一定幅度的振荡(总会有小幅振荡),但很快会消除。,动量项的 另一种分析: 从Z变换结果可见,调节量是计算量的一阶惯性滤波,对于被优化曲线的波动,使其平滑,易于实现优化。 不过一阶惯

31、性也会破坏一定的快速性。 2)弹性BP算法 S型函数常常被称为“压扁”函数,它将正负无穷的输入影射为(0,1)范围,在输入很大、很小时,斜率,几乎为0,我们知道权值的修改量与激励函数的导数有关,因 此此时权值修改几乎停顿下来。 采用的方法,只提取偏差符号,若连续偏差同号,加大步长;若出现变号,说明出现震荡,减小步长。 3.3 径向基网络 RBF历史:径向基函数(Radial Basis Function ,RBF) 是多维空间插值的传统技术,由Powell于1985年提出 。1988年,Broomhead 和Lowe将RBF引入到神经 网络的设计中,产生了RBF神经网络。1989年, Jack

32、son论证了RBF网络对非线性的一致逼近性能。,RBF网络结构:与BP网络类似,输入层、隐含层、输出层三层组成,其中隐含层的个数由问题的复杂程度及研究精度而定,隐层函数是对称衰减的非线性非负函数。 RBF网络的基本思想:以径向基函数(RBF)作为隐单元的“基”,构成隐含层空间,将输入数据用隐含层的多维空间进行衡量,使得非线性的线性不可分问题转化为高维空间线性可分问题。这个思想和解耦方法、非线性系统方法一致 RBF网络的优点:径向基函数(RBF)网络学习收敛速度快,能够逼近任意非线性函数。 RBF网络的应用:径向基函数(RBF)网络广泛地应用于时间序列分析、模式识别和图像处理等领域。,水分定量耦

33、合关系,经过解耦,新的控制变量吸收了耦合关系,解耦控制中的近似思想,非线性控制系统中的近似思想,无论是非线性关系还是耦合关系的存在都无法消除; 所谓补偿只是对其进行了空间上的移动,移到了更易处理的区域(移入了计算机),3.1.1 RBF神经网络模型,RBF网络有2种模型: 正规化网络(Regularization Network) 广义网络 (Generalized Network) 1.正规化网络 正规化网络的隐单元的就是训练样本,所以正规化网络其隐单元的个数与训练样本的个数相同。假设训练样本个数有N个,如图3-8 图中输入层有M个神经元,m表示任一个; 隐层有N个神经元,i表示任一个; 输

34、出层有J个神经元,j表示任一个;,为隐层的“基函数”,它是第i个隐单元的激励输出。 隐含层与输出层权值用 。 设训练样本集 其中任一 训练样本,对应实际输出为 期望输出 当网络输入训练样本Xk时,网络第j个输出的实际输出为 其中“基函数”一般选用格林函数 更多的情况下,一般选用高斯函数(一种特殊的格林函数), 式中, 为高斯函数的中心, 为方差。 对于多维的高斯函数 可以表示为,式中, 是高斯函数的中心, 高斯函数的方差。,正规化网络是一个通用逼近器,只要隐单元足够多,它就可以逼近任意M元连续函数,且对任一未知的非线性函数out(.) ,总存在一组权值使网络对该函数out(.)的逼近效果最好。

35、 正规化网络只是实际上难以体现RBF网络的优点。 2. 广义网络 正规化网络的训练样本Xi与“基函数” 是一一对应的,当N很大时,网络的实现复杂,且求解网络权值时可能产生病态问题。 为减少隐层神经元的个数,假设训练样本个数为N。 广义网络输入、输出层数量未变,隐层数量减少(IN),第i个隐层神经元的激励输出为“基函数” ,其中 ,为基函数的中心;,输出层还设置了阈值 ,而令输出层与其连接权值为 。当网络输入训练样本Xk时,网络第j个神经元的实际输出为,当“基函数”为高斯函数时,可如下表示 式中, ,为高斯函数中心; 为高斯函数方 差。实际应用中,我们使用的都是广义的RBF网络。 3.3.2 R

36、BF网络的学习算法 RBF网络要学习的参数有三个: 基函数中心、方差 、隐含层与输出层间的权值。 RBF网络有多种学习算法:随机选取中心法、自组织选取中心法、有监督选取中心法和正交最小二乘法。 下面详细介绍自组织选取中心法。,特点:中心和权值的确定分别独立进行。 (1) 学习中心 K-均值聚类算法,学习过程:,(2) 方差 中心一旦确定,方差也就固定。 反映了数据的离散程度。 (3) 学习权值 可以使用LMS算法,即 几点注意: 1) K均值聚类算法的终止条件是网络学完所有的训练样本 且中心分布不再变化;,2)“基函数” 除了选用高斯函数外,也常使用多二次函数和逆多二次函数。它们都是中心点径向

37、对称函数。 多二次函数 逆多二次函数,3.3.3 RBF网络与BP网络的比较 RBF网络只有一个隐含层,BP网络则可以是一层或者是多层。 BP网络是对非线性输入-输出关系的全局逼近,而RBF网络使用局部指数衰减的非线性函数(如高斯函数)对非线性输入-输出关系的局部逼近(局域性)。 也就是一段一段的逼近 显然, RBF网络所使用的神经元 及 耗费计算量要比BP网络少很多。,3.4 小脑模型连接控制器(CMAC)网络,原理:从小脑活动只获取启发,1)小脑从各种传感器获得信号、反馈和命令,构成地址,地址 的内容形成各种动作 一种查表工作方式。,2)输出的动作只限制在最活跃神经中的一个小子集,绝大多数

38、 神经元都受到抑制。,网络逼近功能:前面所介绍的前馈都可以看为输入输出之间的映射。调整网络结构和网络的权连接系数,影射可以达到期望的程度。这就是网络的逼近能力。 全局逼近网络:如果网络的权连接系数或自适应可调参数在输入空间的每一个点对任何一个输出都有影响。该网络为全局逼近。对每个输入输出数据对,网络的每个权连接系数均需要进行调整。这一点带来的问题网络 的学习速度非常慢; 前面所学习的前馈网络合反馈网络大多属于全局逼近型网络。,局部逼近网络:对输入空间某局部区域,只有几个权连接系数影响网络的输出。对于输入输出数据对只要少量几个权连接系数需要进行调整。 CMAC小脑模型连接控制器、B样条、 RBF

39、、模糊神经网络都是局部逼近网络。,全局网络和局部网络示意图 耦合与解耦,CMAC结构原理 4部分组成,输入空间,相联空间,输出空间,CMAC工作原理以逼近函数关系为例,CMAC所要逼近的函数影射关系为 y=f(x) 其中,实现二个映射,输入状态空间n维,相联存贮空间m维,s : x A,p: A P,输出状态空间r维,S: xA,即=S(x),这里对进行关注,P:Ay,即y=P()=W,非线性体现在什么地方哪?截断,变前面的形式为下图所示,写为普遍形式,对于这个图所示影射关系我们应很熟悉。它所表达的关系为:,所以P:ay影射是线性影射。而且是非常简单的影射。关键在于,其中Xm只是X的一维,也就

40、是说还有m-1个这样 的对应关系,才是完整的y=f(x)。,输入非线性影射的实现 非线性影射S所实现的从输入空间到相联空间的影射,由于相联空间向量中只有少量几个元素为1值,其余为零,因此,在一次训练中只有少量的连接权值需要进行调整。正是由于这个特点,才使得CMAC网络具有比较快的学习速度。 输入空间中一个点对应相联空间一个集合,当输入空间中的两个点比较靠近时,它们在相联空间中影射的两个集合产生的交叠越多。 在控制中我们希望输入空间中两个相近的输入能产生交叠的影射。而对于两个相距很远的输入产生各自的独立的响应。 几个概念,综上所述,我们考虑以下几个问题 1、m大小的确定,即相联空间的大小考虑 2

41、、非零元素个数的确定 3、非零元素分布,为了实现上述S影射,要求相联空间的维数远远大于 中的元素个数。通常选,对于上述关系,能否保证对于输入空间的每个点均存在唯一的影射XA? 假设输入向量X的每个分量均可取q个不同的值,则输入总共可能有 个不同的模式,可以证明要保证存在唯一的影射,只需,非零元素如何分布? 前面谈到输入空间两个点距离较近,它们在相联空间中影射的两个点(向量)产生的交叠越多。直观想一想,非零元素分布一定有某规律才能做到这一点。比如非零元素连续分布就是一种选择,映射:, 使输入空间中,相同或相距不远的输入向量,有相同 的输出 泛化, 使输入空间中,不同或相距远的输入向量,有不同 的

42、输出 分类,类似BP网络,CMAC神经元网络的连接权学习算法为,编码方法,X的大小,*i,把X=(x1 ,x2 ,xN)变成二进制变量*,规则: a) 对每一个输入量, *只能有|Ai*|个1; b) 相邻的输入,只有1位不同;(连续),|Ai*|= 4,一维向量,CMAC网络主要优点 1、 CMAC 接受实际输入,给出实际输出 2、CMAC可用于实时大系统的训练,因为每一输出只要少量计算,与感知器BP网络比较对同样规模的问题求解,CMAC迭代次数少得多; 3、CMAC有局部泛化能力(1个数大于1)。在输入空间相近的输入向量给出相近的输出。 4、可以训练种类很多的函数; 5、CMAC在输出空间

43、服从迭加原理。比如,如果权值w1产生非线性函数为F1(s)权值阵W2产生的非线性函数F2(s),那W1+W2,将会产生F1(s)+F2(s); 6、CMAC逻辑元阵列可硬件实现。 例1设输入和输出均为一维向量,输入变量S定义在1到360的区间内,分辨率为1,即,学习过程为,0,1,-1,360,50,最大误差1.0均方差0.625,最大误差0.87均方差0.530,1次训练,2次训练,50,50,50,最大误差0.34均方差0.313,最大误差0.33均方差0.091,最大误差0.09均方差0.033,5次训练,9次训练,16次训练,120次迭代后的输出,3.6 实例,例1 神经元PID的自适

44、应控制作用。,无需训练样本,只是通过加入扰动,引起网络调整过程就会不断优化PID参数。,例 时域控制法,控制输出量: u(n)=w0*e(n)+w1*e(n-1)+ Wm*e(n-m),例 RBF模糊控制器,根据偏差E和偏差导数EC的组合,有A、B、Z 共25种输出,但实际情况,会有多种输出,每种输出 都按着一定概率实现。 每种输出乘以概率再实现加权和。这个过程叫做“ 解模糊化”。获得连续输出。,二维隶属度函数,RBF网络(这一应用可以获得最佳的模糊控制规则),神经元输入的是偏差E、偏差的导数EC,输出 是隶属度的大小。 不过,分类已经确定,不必由训练来确定。,第四章 支持向量基,主要内容 1

45、、统计学习理论 2、支持向量基 3、用于分类的支持向量机 4、用于函数拟合的支持向量基,4.1 统计学习理论介绍,前面学习中的单层感知器、BP网络、RBF网络存在的一些问题如过学习(overfitting) 、局部极小点问题,从本质上说是由于理论上需要无穷训练样本和实际中样本有限的矛盾。 与传统的统计学研究方向不同,Vapnik提出一个较完善的基于样本的理论体系统计学习理论。 这种理论是一种专门研究在小样本情况下,机器学习规律的理论。,4.1.1 机器学习的基本问题 1、机器学习问题的表示 图4-1 机器学习的基本模型 学习问题可以表示为变量y与x的未知依赖关系,即遵循某一未知的联合概率F(x

46、,y)。机器学习问题就是根据n个独立同分布观测样本 (4-1),获得一组函数 ,对依赖关系进行估计,使期望风险 (4-2) 最小。其中, 称作预测函数集, ,为函数广义参数。 表示由于用 对 进行预测而造成的损失,称损失函数。 有三类基本的机器学习问题: 模式识别 函数逼近 概率密度估计 不同类型的学习问题,有不同的损失函数。,两类模式识别问题,系统输出 只有0和1,损失函数 函数拟合问题的损失函数 概率密度估计,就是根据样本确定 的概率分布,损失函数,2 经验风险最小化 学习的目的就是使得期望风险 最小。但是(4-2)中的 不知道。 因此实际应用中,根据概率论中的大数定理, 用算数平均代替数学期望,用 来逼近期望风险,称为经验风险(有限近似无限)。 经验风险最小化原则就是用 最小代替 最小,它是目前却大多数模式识别方法的基础。,3 经验风险最小化的问题 无论从理论上还是从事实上,经验风险最小化与 期望风险最小完全等同。经验风险最小化不成功的 例子就是神经网络的过学习问题。 过学习的现象是已经训练好的网络(偏差已经很 小),泛化能力不好。 例1用样本(x,y)近似一个对应关系,y取值在(0,1)上。那么用 肯定比 训练效果好,但其泛化能力差。 而用 时这个问题更突出。,4.1.2 统计学习理论 是针对于小样本统计估计和预测学习的最佳理论。 1 函数集的VC维 VC维

展开阅读全文
相关资源
猜你喜欢
相关搜索

当前位置:首页 > 其他


经营许可证编号:宁ICP备18001539号-1