1、摘要近年来,随着轨道交通的不断发展,地铁出行成为居民出行的主要交通方式.随着地铁线路的不断完善发展,地铁客流量不断增加,这也容易造成地铁站客流拥堵,不利于居民出行及地铁运营管理.因此实现对站点客流量的短期预测能够帮助优化地铁运营管理,保障市民安全出行.本文通过收集杭州市AFC系统的所有地铁站刷卡数据信息,对数据进行处理后建立短期客流量预测模型.本文首先进行数据处理,将原始数据转化为各站点每十分钟客流量数据,从站点和时间两个方面对客流量数据特征进行分析.一方面分析不同站点的客流量分布特征,将站点划分为五类并具体分析每类站点的客流量分布. 另一方面分析工作日和节假日客流量的特征,总结得出工作日客流
2、量均呈现不同程度的高峰,而周末的客流相对来说更复杂,受随机因素影响较大.本文对工作日和周末分别建立客流量LightGBM预测模型,以金沙湖站为例分别度量工作日和周末客流量的特征重要性并利用网格搜索算法对模型参数进行了优化,最后以RMSE为评价指标对客流量预测结果进行评估.RMSE结果显示LightGBM模型对工作日预测效果颇佳,进出站客流量预测RMSE值分别为18.26、13.67,而对周末客流量预测效果与工作日相比较差,进出站RMSE值分别为23.36、28.14。为了对周末客流量预测模型进行优化,本文使用树模型和神经网络模型加权融合的创新方法,建立LSTM模型对周末客流量进行预测,并将Li
3、ghtGBM模型和LSTM模型进行加权融合,融合后进出站RMSE值分别为19.46、25.97,周末客流量预测精度得到提升.关键词: 地铁客流量短期预测;LightGBM模型;LSTM模型;模型融合AbstractIn recent years, Rail transport has become the main ways of travelling for residents. With the continuous development of metro lines , passenger flow of subway is increasing,leading to subway c
4、ongestion easily, and making it difficult for residents to travel and manager to make decision. Therefore, achieveing short-term forecast of passenger flows can help optimizing subway operation management and ensure the safety of passengers, which is of great significance.In this paper, through coll
5、ecting the card swiping data of all metro stations in Hangzhou AFC system, we established short-term passenger flow prediction models and optimized it after data processing . First of all, We processed the data, transforming the original data into the passenger flow data with ten minute intervals, a
6、nd analyzes the characteristics of the passenger flow data from aspects of station and time. On the one hand, we analyzed the distribution characteristics of passenger flow in different stations, and divided the stations into five categories according to the distribution characteristics and the stat
7、ion information, and specifically analyzed the distribution of the passenger flow of each category . On the other hand, we analyzed the characteristics of the passenger flow on weekdays and weekends, and concluded that the passenger flow on weekdays all presents peaks regardless of the type of stati
8、on, while the passenger flow on weekends is relatively more complex and greatly affected by random factors.Due to the great difference in the distribution characteristics of passenger flow on weekdays and weekends, we established lightgbm model to predict passenger flow on weekdays and weekends resp
9、ectively. Taking Jinsha Lake Station as an example,we analyzed the importance of the characteristics that affect the passenger flow on weekdays and weekends respectively, optimized the model parameters by using grid search algorithm and evaluated the prediction results with RMSE as the evaluation in
10、dex. The result of RMSE shows that the lightgbm model has a good prediction effect on weekdays and the RMSE value of inbound and outbound passenger flow is 18.26 and 13.67 respectively, while the prediction effect of weekends passenger flow is worse than that of weekdays, and the prediction effect o
11、f inbound and outbound passenger flow is 23.36 and 28.14 respectively.In order to optimize the prediction model of weekend passenger flow, we used the method of mixing tree model and neural network model together. we established LSTM model to predict weekend passenger flow, and merged lightgbm model
12、 with LSTM model. After merging two models, the RMSE values of inbound and outbound passenger flow changed to 19.46 and 25.97 respectively, it shows that the prediction accuracy of weekend passenger flow has been improved.Key words: short term prediction of passenger flow; lightgbm; LSTM; model fusi
13、on目录摘要IAbstractII1 绪论11.1研究背景与意义11.2国内外研究现状21.2.1数理统计模型预测21.2.2人工智能算法模型预测31.2.3混合模型预测31.3研究内容与论文框架41.3.1研究内容41.3.2论文框架52 预测算法理论知识概述72.1树模型LightGBM概述72.1.1 GBDT模型概述92.1.2 XGBoost模型概述102.1.3 LightGBM模型概述112.2深度神经网络模型LSTM模型概述132.2.1 RNN神经网络模型概述142.2.2 LSTM神经网络模型概述162.3 网格搜索法概述192.4 本章小结203 地铁客流数据特征分析21
14、3.1数据预处理213.1.1数据预处理213.1.2 数据归一化处理223.1.3数据集划分223.2客流量总体分析233.3站点客流量分析243.4客流量时间特征分析293.5 影响因素分析303.6 本章总结314 基于LightGBM模型的地铁客流量短期预测324.1 LightGBM模型准备324.2工作日客流量LightGBM模型预测334.2.1工作日LightGBM模型参数优化334.2.2工作日LightGBM模型特征重要性度量344.2.3工作日LightGBM模型预测结果354.3 周末客流量LightGBM模型预测364.3.1周末模型参数优化364.3.2周末Ligh
15、tGBM模型特征重要性度量364.3.3周末LightGBM模型预测结果375 周末客流量模型优化395.1 建立周末客流量LSTM预测模型395.1.1 LSTM模型模型准备395.1.2 周末客流量LSTM预测模型调参405.1.3 周末客流量LSTM模型预测结果425.2 LightGBM模型与LSTM模型融合435.2.1 模型融合概述435.2.2 LightGBM模型与LSTM模型融合446 总结与展望466.1 总结466.2 展望47致谢48参考文献491 绪论1.1研究背景与意义随着城市居住人口和务工人口的增多、居民生活条件的改善以及机动车数量的增多,地面交通压力逐渐加大,地
16、面交通拥堵成为许多城市难以避免的问题.一到交通高峰期,地面交通极易出现拥堵,这不仅增加了交通管理的难度,还增加了交通事故的风险,同时还给城市居民出行带来不便,增加了居民的交通出行时间.随着轨道交通的不断发展,越来越多的居民选择搭乘地铁或者其他轨道交通出行.地铁等轨道交通工具与地面交通工具相比,具有运输容量大,准时性,安全性,舒适性,环保性等特点1,现如今,地铁出行已成为市民出行的主要交通方式.轨道交通发展至今已有一百多年的历史,19世纪60年代,世界上第一条地铁线路在伦敦开通,随后美国,德国等国家相继在本国内开展地铁轨道交通建设,地铁交通在世界范围内发展2.我国地铁轨道交通发展起步较晚,但发展
17、迅速.1965年我国第一条地铁线路北京地铁开通3,截止2019年底,我国共有41个城市开通了地铁交通,同时有部分城市地铁正在建设中.从第一条地铁建设至今虽然只有55年,但我国地铁建设飞速发展,并在我国的一线、二线城市中广泛分布4.同时地铁发展与城市经济发展相互促进,随着城市经济的不断发展,城市地铁进一步发展,目前许多城市正在积极进行地铁线路扩建,而随着地铁交通的不断发展,城市经济也进一步增强.随着地铁轨道交通的逐步扩建和完善,地铁交通在我国公共交通系统中占据着重要的位置,越来越多的人选择搭乘地铁作为出行的第一方案.然而地铁交通的不断发展也带来了新的问题,随着地铁线路的不断完善与覆盖面积的不断增
18、大,城市地铁尤其是一线城市地铁线路相互连通,使得整个城市的地铁客流量不断增加,而这也容易造成地铁站客流拥堵,导致客流对冲等问题出现,这不仅易对居民出行造成影响,产生安全隐患,同时也给地铁交通运营管理带来难题.而如何有效的缓解地铁乘客拥堵,提前部署规划,规避可能存在的安全问题成为现阶段地铁交通管理需要解决的主要问题之一.随着地铁交通网络化管理的不断发展以及大数据应用和人工智能等技术的不断进步,通过地铁站的刷卡系统可以获取所有地铁站乘客的刷卡数据.基于这些乘客刷卡信息结合其他收集到的信息,可以建立模型来挖掘乘客的出行规律,预测各个地铁站点未来的客流量变化,进一步优化地铁运营管理,提前部署相应的安保
19、策略,给市民提供出行建议,保障市民安全出行.1.2国内外研究现状对客流量进行预测的研究主要有长期预测和短期预测两种,长期客流量的预测主要应用于基建阶段,通过对线路长期客流量进行预测来统筹地铁的线路安排,规划交通,确保项目价值最大化5.短期预测主要应用于运营阶段,通过对各站点未来短期内客流量的变化来提前部署安保策略,方便市民出行.现阶段对客流量进行预测的研究主要以短期客流量预测为主.对短期客流量进行预测的方法主要有数理统计模型和人工智能算法模型 6,数理统计预测的方法主要有时间序列模型、回归模型、卡尔曼滤波模型等7-10,人工智能算法预测模型主要有传统机器学习算法以及深度学习神经网络模型等11-
20、17.1.2.1数理统计模型预测基于数理统计模型对短期客流量进行预测的研究开始较早,学者Pitfield18基于自回归滑动平均模型即ARIMA模型对航线客流量进行短期预测,证实ARIMA模型在航空客流量预测上是可行的,但由于客流量数据具有非线性性和随机性,该方法进行预测的精度不是很高.国内熊杰19等学者基于卡尔曼滤波对地铁换乘站点这一特殊站点进行客流量短期预测,该模型对工作日的预测结果较为精准,但对突变性强的节假日预测结果不够准确.包磊20等学者建立灰色模型和马尔科夫链, 预测南京二号线下一站的实时客流量.与预测各站点未来某时刻的客流量不同,该模型预测的是下一站的站点客流量.学者 Cardoz
21、o21使用地理加权回归模型来对马德里地铁站客流量数据进行预测并与传统模型进行比较.1.2.2人工智能算法模型预测随着人工智能算法的不断完善改进以及计算机性能的不断加强,人工智能算法逐渐应用于各个领域,如在语音识别22,图像识别23,自然语言处理24方面均有着非常多的应用.由于人工智能算法具有非常强的数据分析能力,学习能力以及泛化能力,同时模型灵活多变,因此在客流量预测方面也有着很好的效果.林培群25等学者在分析发现地铁日客流具有一定规律,并根据该规律提出一种基于误差变化率计算的K近临算法,以广州南站为实例验证了其对节假日及非节假日均具有较高的预测精度.任崇岭26等学者考虑客流量数据的动态性由多
22、种因素影响,建立小波神经网络模型来预测短时客流,并与其他的典型模型进行比较,发现小波神经网络具有更高的预测精度.周燎27等学者基于动态贝叶斯神经网络,同时结合EM算法求得参数的最大似然估计,对车流量进行了预测.1.2.3混合模型预测混合模型能够规避单个模型的不足,集合多个模型的优点.Mascha Van Der Voort28等学者在基于ARIMA模型下提出了KARIMA模型,该模型将ARIMA模型与 Kohonen自组织特征映射网络进行结合,对自组织特征映射网络的每一个子类都构建一个单独的ARIMA模型,该方法与单个模型相比,模型预测效果明显提升且所需要的基模型与其他同类型分层预测模型相比更
23、少.Sun Y29等学者提出一种小波变换和SVM算法相混合的算法模型,该模型在建立SVM模型预测北京地铁短期客流量的基础上通过小波理论进行重构,结合小波变换和SVM优势,有效的提高了模型的性能.Jeremy Roos30等学者利用卡尔曼滤波对缺失值进行过滤后采用多维贝叶斯对数据进行预测,该模型在不涉及突发事件的情况下模型效果较佳,但在客流量产生突发性变化的时候模型效果不佳.宋国峰31等学者提出一种将遗传算法与BP神经网络模型结合的算法,通过遗传算法来优化BP神经网络模型的参数,来克服BP神经网络易陷入局部最小和收敛速度慢的问题,提高模型的学习能力.1.3研究内容与论文框架1.3.1研究内容总结
24、国内外客流量预测的研究现状,从传统的数理统计模型到深度学习算法模型,从单一模型到混合模型,客流量预测的方法正一步步改进.并且随着算法的不断改进,一些神经网络模型具有的不足如容易陷入局部最小和梯度消失等问题也得到了解决.然而现阶段的客流量预测主要依赖时间维度的数据,大部分研究都是通过站点的历史数据来进行预测,很少考虑其他其他因素的影响,同时现阶段的研究很少将客流量数据分布特征相差较大的工作日和节假日分开来建模,大部分研究将工作日和周末的客流量数据集中在一起,使用同一个模型进行预测分析.本文在前人学者的研究经验基础上,除了历史数据信息,在建模时把影响客流量预测的其他信息也纳入进来,综合考虑多种因素
25、进行建模来对站点客流量进行预测.同时本文将工作日和节假日的数据分开进行研究,分析工作日和节假日数据各自的特征、分别建立预测模型并通过融合树模型和神经网络模型来提高模型预测效果.本文收集了2019年1月1日至1月28日的数据,以2019年1月1日至2019年1月25日为训练集,1月26日(周六),1月28日(周一)为测试集,分别建立模型,预测各站点未来一天以十分钟为时间间隔的地铁进出站客流量数据(地铁运营时间:6:00至11:00),本文根据工作日和周末的不同特征对两类数据分别进行建模分析,并对预测效果进行检验.本文具体研究内如如下:1.各站点进出站数据分析,本文收集了杭州市地铁AFC系统进出站
26、的刷卡信息,以十分钟为时间间隔进行进出站客流的流量数据统计,并对其进行数据预处理,分析全网以及各线路客流量特征.同时将所有的地铁站点按照其功能性质及乘客出行目的的不同进行类别划分,从每一类站点中选择典型站点,分析各类站点的进出站客流量的时间空间特征.2.分析各类型站点工作日和周末客流量数据,总结工作日以及节假日客流量的数据特征,分别对工作日和周末建立客流量短期预测模型.3.分别对工作日和节假日建立短期客流量预测模型.本文采用学习能力较强的lightGBM模型进行客流量短期预测.同时通过网格搜索算法来优化模型参数,使用测试集对模型进行验证.4.基于RMSE指标对LightGBM模型的拟合效果进行
27、评估.分析模型对工作日和周末的短期客流量预测效果,并对模型进行改进.本文基于LightGBM对工作日和周末客流量预测的不同效果,建立树模型和神经网络模型的融合模型来对周末客流量预测模型进行改进,结合两种模型的优点,弥补单个模型的不足,提高模型的精确度,并使用测试集对模型进行验证.5.对本文进行总结,总结本文的主要工作及成果、简述本文的不足以及提出未来的改进方向.1.3.2论文框架本篇论文的主要框架如图1-1所示:图1-1 论文主要框架、2 预测算法理论知识概述本章对用到的一些理论知识及模型概念性质进行介绍.本章首先依次介绍了决策树、GBDT模型以及XGBoost模型,并以此引入本文用于短期客流
28、预测的LightGBM模型.接下来介绍了神经网络模型的概念以及深度神经网络模型RNN模型,并介绍了用于改进周末客流量预测的LSTM模型.最后介绍了在建模过程中用于调度模型参数的网格搜索算法.2.1树模型LightGBM概述决策树是一种常用的进行分类及回归预测的机器学习模型,当模型用于分类预测时称为分类树,用于回归预测时称为回归树.决策树模型中以二叉树的使用最为广泛.由于本文为回归预测,因此主要介绍回归树.决策树整体由结点和有向边构成.结点分为内部结点和叶结点,其中内部结点作为划分依据,通常表示一个特征或属性,而叶结点表示一个类或预测值,其中当决策树用于分类时表示为类别,用于回归则表示预测值.一
29、般的,一棵决策树包含一个根结点、若干个内部结点以及若干个叶结点.决策树模型通过在内部节点通过特征属性逐层往下进行分叉,直至到达叶子结点.决策树的基本模型如图2-1所示:2-1决策树基本模型回归树通过遍历特征,递归的将每个区域划分为两个子区域.每次划分时找到最优的划分变量和划分点来对区域进行划分并确定每个子区域的输出.其主要过程为:(1)选择最优的划分变量和划分点,通过求解:minj,sminc1xiR1(J,S)(yi-c1)2+minc2xiR2(J,S)(yi-c2)2遍历所有特征,对每一个特征遍历所有可能的切分点,选择使以上式子成立的特征及切分点作为最佳划分变量和划分点.(2)根据最佳的
30、特征变量及切分点将原区域划分为两个区域:R1J,S=x(j)S,R2J,S=x(j)S其中:x(j)为数据x在j个特征变量上的取值确定每个子区域的输出值为:ci=1NixiRi(J,S)yi(3)对切分得到的子区域重复步骤(1),(2),直到满足停止条件.(4)最后将原始区域进行划分并得到叶子结点m个区域R1,R2,Rm,生成回归树:fx=i=1mciI(xRi)为了提升单个决策树算法的学习效率,提出了boosting算法和bagging算法来对决策树进行提升.其中bagging算法通过对样本重复采样,把每个子样本学习得到的决策树作为基分类器,通过对弱基分类器进行整合训练来强化决策树模型.而b
31、oosting算法每次的训练集不变,但每次训练时根据上一轮训练的预测结果调整训练集中的样本权重,赋予上一轮中预测错误率高的样本更高的权重,直到达到停止条件.AdaBoost算法和GBDT算法是最为经典的boosting算法.XGBoost模型和LightGBM模型都是根据GBDT算法而衍生出来的算法.2.1.1 GBDT模型概述XGBoost模型和LightGBM模型都是对GBDT模型的算法改进优化.GBDT模型即梯度下降树模型是一种以CART树为基学习器的boosting算法,通过对基学习器进行线性组合,并不断减小训练过程中产生的残差来进行分类或回归,客流量短期预测属于回归问题,因此只简述回
32、归模型的基本原理.GBDT算法的建模过程如下所示:(1)初始化基学习器:f0x=argminci=1NLyi,c,其中 L(y,f(x)为损失函数,N为数据集样本总量(2)对每个基学习器fmx,m=1,2,M:(a)对每个样本i=1,2,N计算损失函数的负梯度在当前学习器的取值,并将其作为残差的估计:rmi=-L(yi,f(xi)(f(xi)fx=fm-1(x)(b)将(a)得到的残差值作为样本新的真实值,以xi,rim,i=1,2N作为训练数据拟合回归树,得到第m棵基回归树fm(x)的叶子结点区域Rjm,j=1,2J(J为回归树的叶子结点个数)(c)对j=1,2J,通过线性搜索,估计叶节点区
33、域的值,使损失函数达到最小:cmj=argmincxiRmjLyi,fm-1(xi+c)(d)更新学习器:fmx=fm-1x+j=1JcmjI(xRmj)(e)得到最终回归树:fx=fMx=m=1Mj=1JcmjI(xRmj),2.1.2 XGBoost模型概述XGBoost在GBDT的基础上对其进行改进,主要体现在GBDT模型将CART树作为基学习器,XGBoost除了CART树外还支持线性学习器,同时XGBoost在构建决策树的阶段,在代价函数中加入正则项,降低了模型的方差.同时XGBoost完成一次迭代后,使叶子节点的权值乘以该系数,削弱前面每棵树的影响,增大后面的学习空间.首先,XGB
34、oost算法在GBDT算法的基础上,在误差函数中加入正则项,有效防止过拟合.其目标函数变为:Obj=i=1nlyi,yi+k=1Kfk其中:lyi,yi为第i个样本的预测误差,为正则惩罚项函数,fk为第k个树模型.正则惩罚项表达式为:fk=J+12|2其中:J为回归树的叶子结点个数,为该回归树叶子结点权重和,,均为惩罚系数.同时预测值yi可以表示为:yi=t=1Tft(xi)其中:ft(xi)为第t个回归树,回归树总数为T因此将yi经过t次迭代后,目标函数变化为:Obj(t)=i=1nlyi,yit-1+ft(xi)+ ft+c其次,XGBoost模型对损失函数进行二阶泰勒展开,加速了模型优化
35、GBDT模型只利用一阶导数信息,即只对损失函数做一阶泰勒展开,XGBoost同时利用了一阶导数和二阶导数,对目标函数进行二阶泰勒展开.展开后目标函数变化为:Obj(t)=i=1nlyi,yit-1+giftxi+12hift2xi+ft+c其中:gi=yit-1lyi,yit-1,hi=yit-12l(yi,yit-1)在去除常数项后,发现目标函数只依赖于数据在误差函数上的一阶导和二阶导.XGBoost在GBDT的基础上对其进行了改进,除了以上改进外还参考随机森林引进特征子采样来减少计算、支持特征并行、在寻找最佳分割点时对分位点算法进行优化减少运行时间,考虑稀疏数据集和缺失值数据的处理,提高
36、了模型效率322.1.3 LightGBM模型概述LightGBM是对XGBoost进行改进的优化算法. GBDT在每一次迭代时,需要多次遍历所有训练数据,因此GBDT的模型复杂度受数据集和特征数量的影响,当数据集较大时模型复杂度过高,尽管精确度相应提高但是模型拟合效率被拉低.XGBoost算法在GBDT的基础上可以找到精确的划分条件,但同时也有着计算量大,易过拟合的缺点.而LightGBM模型则从训练集和特征数量方面对其进行了优化.LightGBM与XGBoost相比,基于梯度进行单边梯度采样提高模型效率,使用基于Histogram的决策树算法,降低了时间复杂度.同时LightGBM采用带深
37、度限制的Leaf-wise的叶子生长策略,在分裂次数相同的情况下,与XGBoost按层生长的策略相比降低了误差,提高了精度,同时在XGBoost的基础上增加并行方案,支持数据,特征并行等33.LightGBM算法采用单边梯度采样算法(GOSS算法)对原始数据集进行采样,通过减少数据集来提高模型训练效率.在决策树特征选择过程中,梯度取值大的数据对特征选择的影响较大,而梯度较小的数据的影响较小,如果能对梯度较小的数据进行处理则可以有效的提高模型训练的效率.单边梯度采样算法根据原始数据集特征上的单梯度作为样本的权值进行训练.首先确定比率%,%,将数据集按照梯度取值降序进行排序,将排前%的数据集纳入新
38、数据集中,在剩下的1-%的数据集中随机选取%的数据纳入新训练集来进行采样,减少数据集样本数量.LightGBM算法使用直方图算法对特征进行抽取,降低模型时间复杂度.直方图算法将连续的特征离散成k个离散的值,同时构造宽度为k的直方图.接着遍历所有的训练数据,计算k个离散值在直方图中的累计统计量.据此在特征选择的时候,通过直方图的离散值遍历来寻求最优分割点.XGBoost需要遍历每一个特征并计算其分裂增益来找到分裂点,而LightGBM算法只需计算K次.与XGBoost相比,LightGBM内存占用更少,数据分隔的复杂度相对更低.LightGBM采用按叶子生长策略(leaf-wise),每次都从当
39、前的所有叶子中选择分裂增益最大的一个叶子进行分裂,来提升模型学习效率.XGBoost使用的按层生长(level-wise)的决策树生长策略,不加区分的对待同一层的叶子节点,不管分裂增益的大小,均对其进行分裂计算,导致模型效率可能较低.而按叶子生长策略每次从当前所有的叶子结点中找到分裂增益最大的一个叶子进行分裂,并进行循环操作.同时为了防止决策树过深造成过拟合,LightGBM模型在叶子生长策略的基础上确定了一个决策树最大深度.在分裂次数相同的情况下,按叶子生长策略比按层生长策略降低的误差更多,模型效率更高.按层生长策略及叶子生长策如图2-2,2-3所示:图2-2按层生长策略图2-3叶子结点生长
40、策略常见的处理类别特征的方式是使用one-hot 编码,然而对于树模型来说,使用one-hot 编码会出现一些问题,例如当类别较多时,无法对所有类别特征进行有效的切分,容易产生切分不平衡.即使可以对类别进行切分,也有可能把数据切分到零碎的小空间里而影响决策树的学习效率.LightGBM对此进行了优化,使用Many to Many的切分方式对类别特征进行切分,可以直接输入类别特征,无需对类别特征单独进行处理.2.2深度神经网络模型LSTM模型概述神经网络模型是以现代神经学为基础提出的一种根据人脑结构和功能来进行预测的一种模型.神经网络模型的基本为神经元,神经元以生物神经细胞为基础,模拟神经细胞的
41、信号传输,将多个神经元进行连接,模型主要由输入层、隐藏层、输出层构成.数据经过输入层输入模型,通过隐藏层寻找输入层与输出层的联系,并通过该关系进行预测.神经网络模型根据模型网络层数及模型复杂度可以分为浅层神经网络模型和深度神经网络模型,浅层神经网络即网络层数较少的神经网络,在神经网络学科发展初期,由于受到客观条件的限制均采用浅层神经网络模型,神经网络提出的第一个模型为感知机模型34,感知机模型只有输入层和输出层两层结构,输入层负责传输数据,输出层负责对传输进来的数据进行计算并输出.感知机模型作为神经网络模型发展的基础,一直在神经网络的发展中发挥着巨大的作用.由于浅层神经网络模型层数不多,在处理
42、复杂问题时受到限制,导致模型拟合效果不佳.随着计算机性能的完善以及神经网络算法的不断改进,深度神经网络模型应运而生.与浅层神经网络相比,深度神经网络模型结构更加复杂,可以更好地挖掘数据的特征信息,同时随着模型的不断改进,现在深度学习模型在众多领域均有着广泛的应用.其中RNN循环神经网络模型,LSTM长短期记忆神经网络模型,CNN卷积神经网络模型等模型均为现阶段使用较多的深度学习神经网络模型.LSTM模型即长短期记忆神经网络模型,是一种基于RNN模型的优化模型.RNN模型即循环神经网络模型,其模型结构分为:输入层,隐藏层,输出层.和一般的全连接神经网络不同,RNN模型在t时刻的隐藏层状态不仅取决
43、于当前时刻输入Xt和输出ht,还受上一时刻的隐藏层的影响.2.2.1 RNN神经网络模型概述对于许多时间序列类型数据,下一时刻的数据信息不仅受当前时刻影响,还受历史数据影响.而在一般的全连接神经网络中,对于输入层,隐藏层以及输出层之间的神经元,处于相邻层的神经元之间是可以互相连接的,但是处于同层的神经元却是相互独立隔离的.RNN模型在普通的全连接神经网络基础上,增加了隐藏层各单元间的相互联系,通过构建权重矩阵,可以将上一时刻的隐藏层神经元信息传递到当前时刻的隐藏层,从而使神经网络模型具备记忆的功能,即RNN神经网络模型会对历史数据信息进行记忆,并综合历史数据信息与当前时刻信息进行预测35.RN
44、N模型的模型框架如图2-4所示,其隐藏层展开如图2-5所示,其中Xi,hi为i时刻的输入,输出,A为隐藏层:图2-4:RNN模型框架图2-5:隐藏层展开RNN模型的建模过程如下:(1)初始化权重矩阵U,W以及输出结果参数V.其中U为输入层到隐藏层的权重矩阵,W为上一时刻隐藏层状态到当前时刻隐藏层状态的权重矩阵(2)根据权重矩阵计算当前时刻的隐藏层状态及当前状态的输出.t时刻隐藏层状态St和输出hi可以表示为:t=UXt+WSt-1: St=f(t) ht=g(VSt)其中Xt为t时刻的输入,f和g均为激活函数, (3)利用梯度下降法对权重矩阵U,W进行更新:对于隐藏层当前时刻输入以及上一时刻隐
45、藏层输入求偏导:tt-1= (UXt+WSt-1)t-1=W(f(t-1)t-1=W*diag(f(t-1)对t时刻的输出误差Jt()求偏导得:Jtt=Jtt-ki=t-k+1tii-1根据输出误差Jt()计算权重矩阵U和W的梯度为:JtU=JtttU=Xt*JttJtW=JtttW=St-1*Jtt则权重U,W在下一时刻t+1时刻更新为:Ut+1=Ut-JtUtWt+1=Wt-JtWt在建立RNN模型时,之前时刻的序列在神经元上的输出对当前时刻序列在神经元上的输出产生影响,主要体现在当前时刻隐藏层除了接受来自当前时刻的输入信息,还接受来自上一时刻隐藏层的信息,RNN模型会保留过去时刻的信息,
46、并将之应用于计算当前时刻输出.因此RNN算法常用于处理时间序列.当历史时间段相对较短的时候,在计算当前时刻输出时能很完整的利用到历史数据,但当历史数据相对较长的时候,由于隐藏层中只存在一个记忆单元,在计算当前时刻输出时,距离当前时刻较远的历史数据由于经过层层处理保留较少,容易出现梯度下降的问题,同时随着隐藏层层数的增加,梯度下降也愈加严重36.使得与当前时刻相差较远的历史数据对当前时刻输出的影响力逐渐变弱,且当前时刻间隔的越远,对当前时刻输出的影响力越弱,造成信息衰减.即RNN算法存在梯度可能消失的问题.但在实际问题中,数据通常为长时间序列,因此在应用RNN模型来处理时间序列问题时,存在一些弊
47、端37.2.2.2 LSTM神经网络模型概述LSTM模型针对RNN模型存在的弊端进行了优化,LSTM模型在RNN模型的基础上,在其隐藏层新增了记忆单元以及门控制单元两个单元,其中门控制单元通过构建遗忘门、输入门以及输出门三个门来确定是否对当前信息、历史信息进行记忆以及这些信息是否影响输出38,结合长期记忆和短期记忆,解决RNN模型只能维持短期记忆的问题.LSTM隐藏层结构如图2-6所示:图2-6:LSTM隐藏层结构LSTM模型的隐藏层结构详解如下:(1)在隐藏层中横线传播信息传送带为被称为细胞状态,该信息传输带为记忆单元,记为Ct,记忆单元接沿着整个传送带运行,很少进行线性交互, 信息可以沿着记忆单元流动.记忆单元在隐藏层中结构如图2-7所示:图2-7:记忆单元(2)LSTM模型主要通过门控制单元来确定是否将信息增加到细胞状态或将信息从细胞状态去除.控制门操作包含构建激活函数如sigmoid函数和点乘操作,激活函数的取值范围为(0,1),控制门通过激活函数和点乘操作来确定传输信息的比率,当为0时,选择不传送信息,当为1时,则全部传送.LSTM模型