第三章前馈型神经网络模型.ppt

资源描述

《第三章前馈型神经网络模型.ppt》由会员分享，可在线阅读，更多相关《第三章前馈型神经网络模型.ppt（90页珍藏版）》请在三一文库上搜索。

1、第三章前馈型神经网络模型,87,2,第三章前馈型神经网络模型,3.1 感知器（Perception） 3.2 多层前馈型神经网络 3.3 误差逆传播算法（BP算法） 3.4 误差逆传播算法(BP算法)的若干改进 3.5 使用遗传算法(GA)训练前馈型神经网络方法 3.6 前馈型神经网络结构设计方法,87,3,3.7 基于算法的前馈型神经网络在识别问题中的应用 3.8 自适应线性元件 3.9 径向基函数神经网络,87,4,3.1 感知器（Perception）,3.1.1 单层感知器 3.1.2 感知器的收敛定理 3.1.3 多层感知器网络 3.1.4 感知器用于分类问题的算例,87,5,3

2、.1.1 单层感知器,一、单层感知器网络单层感知器神经网络，输入向量为X=（X1,X2,Xm），输出向量为Y=(Y1,Y2,Yn)。感知器的输入向量为XRn, 权值向量为WRn单元的输出为Y1,-1。其中：其中，X= (X,-1),W= (W,)。,87,6,w21,wmj,w22,wmn,w12,w11,xm,x1,x2,w1n,w2m,wmj,wij,w2j,w1j,yj,xi,x1,x2,xm,图3.1 单层感知器网络图3.2 最简单的感知器,wm1,87,7,二、单层感知器的学习算法令Wn+1=, Xn+1=-1, 则，具体算法如下：初始化给Wi(0)各赋一个较小的随机

3、非零值。这里Wi(t)为t时刻第i个输入的权值（1in）,Wn+1(t)为t时刻的阈值。输入样本X=(X1,X2,Xn,T),T 称为教师信号，在两类样本分类中，如果XA类，则T=1；如果XB类，则T=-1。,87,8,计算实际输出修正权值 Wi(t+1)= Wi(t)+(T-Y(t)Xi i=(1,2,n,n+1) 其中，01用于控制修正速度，通常不能太大，会影响Wi(t)的稳定，也不能太小，会使Wi(t)的收敛速度太慢。转到直到W对一切样本均稳定不变为止。用单层感知器可实现部分逻辑函数，如： X1X2： Y=1X1+1X2-2 即W1=W2=1,=2 X1X2： Y=1X1+1X2

4、-0.5 即W1=W2=1,=0.5 ： Y=(-1)X1+0.5 即W1=-1，=-0.5,87,9,三、单层感知器的局限性异或逻辑为，假定单层感知器能实现异或逻辑，那么，Y=W1X1+W2X2-，要求：表 3.1 异或逻辑,87,10,W1+W2- 0+W2-0W2 (a) XOR 逻辑 (b)AND逻辑 (c) OR逻辑图 3.3 线性可分性,(1,0),(1,0),87,11,3.1.2 感知器的收敛定理,一、线性可分函数对给定的X和Y，存在W和和线性映像函数f ，使得： f：Rn 1,-1, XRn, 则称 f为线性可分函数。所谓的线性可分是指存在一个超平面（二维为一条

5、直线）能将两类样本分开。对于上面的异或逻辑可用一个平面将其输出类别分开。平面方程为： X1W1+X2W2+X3W3=， X1W1+X2W2+(X1X2)W3=。,87,12,表3.2 三维异或逻辑,87,13,图 3.4 异或问题的三维表示,87,14,87,15,二、定理3.1 感知器收敛定理若函数f是线性可分的，则感知器的学习算法在有限次叠代后收敛。为证明此定理，先做一些简化。 (1)令Xk=1(即学习样本都是单位向量)； (2)若Yk0(因f是线性可分的)；这样，要证明上述定理只要证明以下的结论即可。,87,16,因为k个样本是线性可分的，若存在一个W*，对所有的样本k使得W*Xk

6、都成立，0。则下面步骤中的第步仅需有限次。置t=1，选初值W(t)为不等于0的值；任选k1,N，置X(t)=Xk；若W(t)X(t)0 返回，否则令W(t+1)=W(t)+X(t),t=t+1, 返回。,87,17,证明： C(t)表示向量W(t)与W*间夹角余弦，即 W*W(t+1)=W*W(t)+X(t)=W*W(t)+W*X(t)W*W(t)+ W*W(t)t W(t+1)2=W(t)2+2W(t)X(t)+X(t)2W(t)2+1 W(t)2t ， C(t)1，为一有限数。证毕。,87,18,3.1.3 多层感知器网络,一、多层感知器网络两个隐层感知器的输入层有n个节

7、点，第一隐层有n1个节点，第二隐层有n2个节点，各层节点的输出为： (j=1,2,n1) (k=1,2,n2),87,19,(A) 两个隐层的感知器图3.5 多层感知器网络,87,20,二、多层感知器的分类决策能力定理 3.2 假定隐层的节点可以根据需要自由设置，那么用三层的阈值网络可以实现任意的二值逻辑函数。图3.5(B)中输出层节点的输出为：此时隐层与n个输入节点的关系如同单层感知器一样，可以形成n1个n维空间的超平面把n维输入空间分成一些小的子空间。例如，n=2，n1=3的情况下，隐层第j个节点的输出为： (j=1,2,3),87,21,(B) 一个隐层的感知器图3.5 多层感

8、知器网络,87,22,可以在二维输入空间上决定三条直线，因为各自的Wij和j不同，三条直线的截距和斜率各不相同，如同3.6(A)所示，就可以找到一个区域使其内为A类，之外为B类，用这三个隐单元所得到的一个封闭区域就可满足条件。从隐单元到输出层只要满足下式即可得到正确划分。十分明显，隐节点到输出节点之间为“与”关系。对于图3.6(B)，可以采用有两个隐层的感知器来实现，其中第二隐层节点到输出层节点为“或”关系，即满足下式即可。,87,23,Y2=(X1,X2)(W11X1+W21 X2 -1)0(W12 X1+ W22 X2- 2)0(W13 X1+W23 X2-3)0 Y3=(X1,X2)Y

9、12Y22 3 6 =(X1,X2)(W1jX1+W2j X2 -j )0)(W1j X1 j=1 j=4 +W2j X2- j )0),87,24,(A) (B) 图3.6 多层感知器对输入空间的划分,87,25,Y11=1X1+1 X2-1 Y21=(-1) X1+(-1) X2-(-1.5) Y2=1 Y11+1 Y21-2 图 3.7 解决异或问题的三层感知器,87,26,图3.8 单层与多层感知器的决策分类能力,87,27,3.1.4 感知器用于分类问题的算例,感知器的结构见图 3.9所示。图3.9 感知器结构,87,28,其中，u = W1X1+W2X2，在此特选定输出单元为非线

10、性函数，其输出为：输入模式为：(0.5, 0.05)、(0.05, 0.5) A类 (0.95,0.5)、(0.5,0.95) B类教师信号为：,87,29,W1(t+1)=W1(t)+(T-Y)X1 W2(t+1)=W2(t)+(T-Y)X2 (t+1)=(t)+(T-Y) 总的误差之和为：,87,30,87,31,表 3.3 (a) 表 3.3 (b),87,32,87,33,3.2 多层前馈型神经网络,3.2.1 网络结构及工作过程 3.2.2 误差函数与误差曲面 3.2.3 网络的学习规则梯度下降算法,87,34,3.2.1 网络结构及工作过程,一、学习样本输入样本为：（XK

11、，TK），其中K1,2,N，N为学习样本数，XKRn，TKRm。二、工作过程,87,35,图 3.12 前馈型神经网络结构,87,36,三、非线性单元常采用的转移函数,87,37,(0 f(x) 1) 通常增加参数和来调整函数的斜率和使其左右平移， Sigmoid函数为一单调递增连续函数，且处处可导，其导数为：,87,38,Sigmoid函数通过下式能够映射到(-1,1)范围：双曲正切函数的表达式为： ( -1 f(x) 1 ) 通常增加参数和来调整函数的斜率和使其左右平移，,87,39,表3.4 新的转移函数极其导数,87,40,3.2.2误差函数与误差曲面,一、误差函数误差函数： E

12、 (W) =g ( f ( W, XK, TK ) ),K=1,2,N，E称为误差（测度）函数。即网络的实际输出向量YK与教师信号向量TK的误差用误差函数来判别，常采用二乘误差函数加以判别，其中，N为输入样本的个数，m为输出向量的维数。,87,41,二、映射对于给定的一组数据(XK , TK) , (K=1,2,N)网络一组特定的权值W实现一定精度的映射。训练的目的希望得到的权值能产生最小的误差和最好的精度。把从XkRn到YkRm的映射记为： f： XkRn YkRm,87,42,三、误差曲面误差曲面：若隐层与输出层间的权值数记为mn2，对于给定的训练样本（XK,TK），网络权矢量W(W1

13、,W2,.,W mn2)通过误差函数E(W)所计算出来的映射误差所描绘出来曲面。误差曲面可用(mn2+1)维空间来描述，即是mn2+1空间的一个曲面。不同的E (W)有不同的误差曲面形状。网络学习：是指按照某种学习规则选取新的W，使得E(W)E(W)，对于误差曲面上的点E(W)总是向山下移动，最终移到最深的谷底（全局最小）。若曲面有多个谷底，移动的过程可能陷入局部极小。,87,43,移动步长：也称学习率，步长小移动轨迹较平滑，慢，易陷入局部极小；步长大，速度快，可能跳过局部极小，也可能跳过全局最小点，也易产生振荡。一般情况下，开始时步长大，后期步长小。梯度下降算法：如果移动是在误差曲面最陡

14、的方向进行，或梯度下降的方向，这样下山的速度快，称做最速梯度下降法。,87,44,3.2.3网络的学习规则梯度下降算法,权值的修正量取误差函数E(W)对W的负梯度，即：设有N个学习样本(XK, TK), K=(1,2,N), 对于某个XK网络输出为YK，节点i的输出为YiK，i和j的连接权值为Wij，节点j的输入加权和为：,87,45,误差函数使用二乘误差函数：定义：,87,46,1当j为输出节点时： 2若j不是输出节点时，有：,87,47,因而对权值的修正为：,87,48,3.3 误差逆传播算法（BP算法）,3.3.1 BP算法的数学描述 3.3.2 BP算法收敛性定理,87,49,3.

15、3.1 BP算法的数学描述,一、首先，确定和选择网络结构，包括确定输入层和输出层的节点数，选择隐层数和各隐层内的节点数。确定节点的转移函数、误差函数类型和选择各个可调参数值。神经元的转移函数选择为Sigmoid函数：误差函数为二乘误差函数：,87,50,Yi1为输入层节点i的输出； Yj2为中间层节点j的输出； Yk3为输出层节点k的输出； Tk为输出层节点k对应的教师信号； Wij为节点i和节点j间的连接权值； Wjk为节点j和节点k间的连接权值； j 为中间层节点j的阈值； k 为输出层节点k的阈值；图 3.14 一个三层的前向神经网络,87,51,二、初始化设定学习次数t=

16、0；对网络权值和阈值赋于小的随机数，Wij(t)-1,1、Wjk(t)-1,1,j(t)-1,1, k(t)-1,1。 (一) 前向计算输入一个学习样本（XK,TK）,其中K1,2,N、N为样本数，XKRn，TKRm 。计算隐层各节点的输出值： j1,2,n1,87,52,计算输出层节点的输出： k1,2,m (二) 逆向误差修正计算：输出层节点和隐层节点之间连接权值修正量的计算： k1,2,m 隐层节点和输入层节点间连接权值修正量的计算：用求出的误差修正量k来修正输出层和隐层间连接权值矩阵Wjk和阈值向量k。例如对节点k和隐层j的连接权值Wjk和节点k的阈值的修正为：,87,53,用

17、求出的误差修正量j来修正隐层和输入层间连接权值矩阵Wij和阈值向量j。例如隐层j和输入层节点i的连接权值Wij和节点j的阈值的修正为：如果全部学习样本未取完，则返，否则，计算误差函数E，并判断E是否小于规定的误差上限，如果E小于误差上限，则算法结束；否则，如果学习次数到算法结束；否则更新学习次数t = t+1，返回。,87,54,W和的初始化,取一学习样本做为输入信号,中间层节点输出的计算,输出层节点输出的计算,输出层节点误差的计算,中间层节点误差的计算,中间层和输出层间权值的更新，输出层节点阈值更新,输入层和中间层间权值的更新，中间层节点阈值更新,全部学习样本取完？,学习次数达到？,误差

18、E小于误差上限？,学习结束,开始,Y,N,N,Y,Y,N,图3.15 BP算法程序流程图,87,55,一括修正法对图3.15的变更部分见图3.16所示。,87,56,使用Memond法修正权值向量和阈值向量时，要考虑到前一次修正量。如果(t-1)时刻的修正量为W(t-1)，t时刻计算的修正量为W(t)，设Memond系数为m，则Memond法对权值的修正量为： W (t+1) = W(t)+mW(t-1) 当t时刻计算的修正量为W(t)和Memond项W(t-1)符号相异时能使本次的修正量W(t)值变小，即能抑制振荡，因而能加快学习过程。为使本次修正量更接近于前一次的修正方向，应该使Memon

19、d系数不断增加，修改其修正量为： W (t+1) = W(t)+m(t)W(t-1) m(t) = m + m(t-1),87,57,87,58,87,59,3.3.2 BP算法收敛性定理,定理3.4 令(X)为一有界单调递增连续函数，K为Rn维的有界闭集合，f(X)=f(X1,X2,Xn)是K上的连续函数，那么对于任意的0。存在正整数N和常数Ci、i(i=1,2,N)和Wij(i=1,2,N;j=1,2,n)使： (3.3.16) 成立。此定理说明对于任意0，存在一个三层网络，其隐单元的输出函数为(X)，输入输出单元为线性的，对于任意连续映射f：RnRm，在任意的有界闭集合上能以任意精度逼

20、近。,87,60,BP算法虽然简单，对各个方面都有重要意义，但是它存在有以下问题： 1从数学上看它是一个非线性优化的问题，这就不可避免地存在局部极小的问题。 2学习算法的收敛速度很慢，通常需要几千步迭代或更多。 3网络的运行还是单向传播，没有反馈，目前这种模型并不是一个非线性动力学系统，只是一个非线性映射。,87,61,4网络的隐节点数目选取尚无理论上的指导，而是根据经验或实验选取。 5对于新加入的样本要影响已经学完的样本，不能在线学习，同时描述每一个样本的特征数目也要求必须相同。,87,62,3.4 误差逆传播算法(BP算法)的若干改进,3.4.1 基于全局学习速率自适应调整的BP算法 3.

21、4.2 基于局部学习速率自适应调整的BP算法 3.4.3 BI(Back Impedance)算法,87,63,3.4.1 基于全局学习速率自适应调整的BP算法,1加入动量项其中，为动量系数，一般取0.9左右。引入这个动量项之后，使得调节向着底部的平均方向变化，不致产生大的摆动，即动量起到缓冲平滑的作用。若系统进入误差曲面的平坦区，那么误差将变化很小，于是(t+1)近似等于(t) ，而平均的将变为：式中- / (1- )变化大，将调节尽快脱离饱和区和截至区。,87,64,2学习速率的经验公式法对于批处理更新的学习速率，是基于相类似训练模式产生类似梯度的假设。 =1.5 / =0.9 3

22、学习速率渐小法从大的学习速率(0)开始，在训练期间，这个值减小到大约(0)/(t+1)，后来为 (t) = (0)/(t+1),87,65,4渐进自适应学习速率用一种简单的进化策略来调节学习速率。从某个值开始，下一步更新通过用增加和减小学习速率去完成。产生比较好性能中的一个被用作为下一步更新的起始点：创建两个一样的网络和初始学习速率。按下式调节两个网络的权。,87,66,如果两者总误差已经得到增加(回溯)，放弃这些网络并重新起动以前的网络和初始学习速率。在减小总误差的情况下，用具有比较小的总误差的网络以及学习速率以启动下一个学习步。,87,67,3.4.2 基于局部学习速率自适应调整

23、的BP算法,1基于符号变换的学习速率自适应工作步骤如下：对每个权值，选择某个小初值ij(0)；修改学习速率 ij(t)= ij(t-1) u 如果否则,87,68,更新连接只要保持 u1/d，选择合适的参数和是很容易的。推荐的值分别是1.11.3或者0.7-0.9。如果总误差增加。用回溯策略重新起动更新步骤，对于这种重新起动，所有学习速率被减半。 2DeltaBarDelta技术 DeltaBarDelta方法通过观察指数平均梯度的符号变化来控制学习速率。通过加入常值代替乘这个值来提高学习速率：对每个权重，选择某个小的初值ij(0),87,69,修改学习速率如果如果其他其中

24、(t)表示指数平均梯度：,87,70,更新连接对于u推荐很不同的值(5.0，0.095，0.085，0.035)，对于d ，采用(0.9，0.85，0.666)和对于采用0.7。特别是难于找到合适的u ，小的值可能产生慢自适应，而大的值危及学习过程。,87,71,3.4.3 BI(Back Impedance)算法,1BI算法给权值赋予一个小的随机数。给定输入函数值与相应的输出函数值。计算每个节点的输出值，计算输出层节点的误差项，,87,72,调整权值 Wij(t+1)= Wij(t) + aj Yi + b(Wij(t) - Wij(t-1)+ c(Wij(t-1) - Wij(t

25、-2) 式中，a学习率，相当于梯度下降算法中的学习步长；b影响从“前一次”权值改变到“当前”权值的权值空间运动方向，是影响权值变化的一个常数；c 影响从“再前一次”权值改变到“前一次”权值的权值空间运动方向，也是影响权值变化的常数。a、b、c三个常数满足下列关系，则收敛速度会加快： a= 1 / (1+J+M+D) b= (2J+M) / (J+M+D) c= J / (J+M+D),87,73,式中J、M、D满足：给定另一输入函数值，返回。所有的输入函数值循环进行计算，直至所有权值稳定，网络误差达到预定精度算法结束。,87,74,图 3.18 网络结构,87,75,2算法应用于函数非线性变

26、换网络的输入函数为：式中X=0,1，A、B、C是常数，网络的期望输出函数为：D=KX+P。取A=0.5, B=0.75, C=3, K=-5, P=12。使用BI算法，运行结果见下表3.6，精度达到99.206%。,87,76,表 3.5 使用算法函数非线性变换的运行结果,87,77,3.5 前馈型神经网络结构设计方法,3.5.1 输入层和输出层的设计方法 3.5.2 隐层数和层内节点数的选择,87,78,3.5.1 输入层和输出层的设计方法,输出层维数应根据使用者的要求来设计，如果网络用作分类器，其类别数为m，那么一般取m个神经元，其训练样本集中的x。xj属于第j类，要求其输出为：即

27、第j个输出为1，其他输出为0，此外，输出神经元还可根据类别进行编码，即m类的输出只要用log2 m个输出节点即可。,87,79,3.5.2 隐层数和层内节点数的选择,一、隐层数的选择定理3.4 假定隐层的节点数可以根据需要自由设置，那么用三层S状的I/O特性的节点，可以以任意精度逼近任何连续函数。二、隐层内节点数的确定有一种设计是采用逐步增长和逐步修剪法来调整隐单元数目，初始时使用足够多的隐单元，然后在学习过程中逐步修剪掉那些不起作用的隐单元，一直减少到不可收缩为止。也可以在初始时设定较少的隐单元，学习一定次数后，不成功后再逐步增加隐单元数，一直到增加到比较合理的隐单元数为止。,87,8

28、0,另一种方法是使用遗传算法来确定网络的隐层数和隐层单元数，即把这些待定的数目编码成染色体的基因，然后通过遗传操作来优化网络结构，以确定隐层数和隐单元数。下面介绍几种方法，可作参考：（l）1987年HechtNielsen在讨论了具有单隐层的ANN的功能之后，指出它可实现输入的任意函数，并提出隐含层节点的数目为2N+1，其中N为输入的节点数。,87,81,（2）1987年RPLinnmann利用他对多层网络功能的几何解释，提出了对隐含层节点数的估算。对于一个图形识别问题，假设输出判别边界是任意的形状，那么平均来说，由于每个非凸域的输出边界是靠组合第二隐层的两个凸子域形成的，所以，第二隐层的

29、节点数应为M2，这里M为输出层的节点数。在模式分类中，有 H=log2T 的近似关系，其中H为隐单元数；T为输入训练模式数。（3）1988年Kuarycki根据其实验发现，在高维输入时，第一隐层对第二隐层的最佳节点数比例为3：1。,87,82,例如，由两个隐层的BP算法的神经元网络实现图形识别时，设输入节点为20和输出节点为8时，按Linnmann的关系，第二隐层的节点数为 M2=82=16，根据Kuarycki的推论，第一隐层的节点数应为3（M2）=48个。（4）用于统计过程控制的ANN 1990年Nelson和Illingworth建议隐含层节点数应为4N。对于图形识别的ANN，隐含层

30、节点数大为减少，当输入维数较高时，节点数最少可达到0.02N。例如，在贷款评估的网络中，输入节点为4，那么隐含层节点均取44=16，并在图形识别的例子中，输入节点数为64，第一隐含层节点数取64，第二隐含层节点数取20。,87,83,（5）对于医疗诊断，不少人作了研究，认为用具有单隐含层的网络就可得到满意结果。这种单隐含层网络的输出的判决域通常是凸域。下面介绍几种选择单隐含层节点数目的估值方法如下： Lippmann认为最大隐含层节点的数目为M1(N+1)。 Kuarycki认为最大隐含层节点的数目为M13。 A .J.Maren等人认为，对小型网络来说，输入节点数大于输出节点数时，最佳隐含层

31、节点数等于输入和输出节点的几何平均值即(M1N)1/2。M1为输出层节点数。,87,84,（6）下面几个公式也可供选择隐含层单元数参考 n Kn1 ，Cin1=0 。，其中m为输出层神经元数，n为输入层单元数，为1至10间的常数。 n1=log2n ，n为输入层神经元数，用于数据压缩的网络。隐单元数与输入单元数的比为其数据压缩比，常使用此公式。,87,85,还有一种方法就是使隐含单元数可变。一种是开始放入足够的隐含单元，然后把学习后那些不起作用的隐含单元逐步去掉，一直减少到不可收缩为止。另一种是在开始放入比较少的隐含单元，学习一定次数后，还不成功就要增加隐含单元个数，一直达到比较合理的隐含

32、单元数为止。这样做对于用硬件完成BP多层网有一定的好处，但是对于结构的选定所花的时间比较长，这属于一种变结构类型。,87,86,三、初始权值的选取由于系统是非线性的，初始值对于学习是否达到全局最小或是否能够收敛关系很大。一般情况下，希望初始权值在输入累加时使每个神经元的状态接近于零，这样开始时在误差曲面上不落到那些平坦区上。权值一般取较小的随机数，这样可以保证每个神经元在一开始时都在转移函数变化最大的区域进行。对于输入样本要进行归一化处理，使得那些比较大的输入值或者太小的输入值不至于使得神经元过于饱和或截止，应能使输入落在神经元转移函数梯度最大的那些区域。,87,87,作业,1、说明多层感

33、知器的基本作用和思想，并给出其学习算法的数学描述。 2、说明BP算法和梯度下降法的基本关系。 3、利用梯度下降算法求出下面函数的极小值： z=2-exp-(x2+y2), x,y-5,+5 要求给出基本框图和伪代码。,87,88,上机编程事项-1,利用BP算法处理二分类问题利用BP算法解决简单分类问题，如给定一些数据，然后编程实现分类；或者利用神经网络构造映射关系。我们将研究分类问题。输入的基本数据形式：(XK, TK) 例如：(x1, x2, x3, x4, x5, t) (X, T)。具体例子： (0.6, 1.6, 4.5, 2.0, 10.5, 1) (0.3, 1.2, 3.

34、5, 3.0, 7.5, 0) (0.8, 1.7, 4.9, 2.2, 11.5, 1) . (0.1, 1.5, 3.8, 3.5, 6.5, 0),87,89,上机编程事项-2,具体方法： 1. 初始化：设定学习次数t=0；对网络权值和阈值赋于小的随机数，Wij(t)-1,1、Wjk(t)-1,1, j(t)-1,1, k(t)-1,1。 2. 输入一个学习样本(XK,TK), 其中K1,2,N、N为样本数，XKRn，TKRm 3. 计算隐层各节点的输出值： 4. 计算输出层节点的输出：,87,90,上机编程事项-3,5. 计算输出误差说明：该误差可以在计算样本输出时同时算出，即 E=E+(Tk-Yk3) 6. 计算误差对于各个权值的偏导数 7. 按照前述方法修改权值，令t=t+1; 8. 判断是否满足停止条件；若满足，停止；否则，返回步骤2，继续训练。,

展开阅读全文