馬樂庭 伍紅波
(1.中車長春軌道客車股份有限公司, 130062, 長春; 2.北京交通大學(xué)電子信息工程學(xué)院, 100044, 北京∥第一作者, 高級工程師)
列車控制系統(tǒng)中的信息傳輸及城市軌道交通運營商對控制通信的要求不斷上升,使得傳統(tǒng)列車總線技術(shù)已不能滿足列車通信控制網(wǎng)絡(luò)日益增長的帶寬需求。采用ETB(以太網(wǎng)列車骨干網(wǎng))和ECN(以太網(wǎng)編組網(wǎng))等列車以太網(wǎng)技術(shù)來提升列車通信帶寬是急迫且可行的[1]。
網(wǎng)絡(luò)流量預(yù)測技術(shù)是網(wǎng)絡(luò)監(jiān)控技術(shù)的重要組成部分之一[2]。高效、高精度的網(wǎng)絡(luò)流量預(yù)測技術(shù)可協(xié)助監(jiān)控系統(tǒng)進行實時、高質(zhì)量的網(wǎng)絡(luò)通信流量預(yù)警和控制,并為網(wǎng)絡(luò)安全和異常監(jiān)測提供技術(shù)支撐。針對車輛以太網(wǎng)的網(wǎng)絡(luò)流量預(yù)測技術(shù),尚未有一種普適性方法可適用于所有網(wǎng)絡(luò)環(huán)境,需針對具體應(yīng)用場景和網(wǎng)絡(luò)流量特性進行選擇。利用主流的智能預(yù)測方法進行以太網(wǎng)流量預(yù)測,通常需進行3方面的研究和分析:
1)網(wǎng)絡(luò)流量歷史數(shù)據(jù)的特性分析:是否可用確定的統(tǒng)計學(xué)模型描述,或是否具備智能預(yù)測方法所需的統(tǒng)計學(xué)規(guī)律特性,尤其是平穩(wěn)性。
2)模型方法的選擇和訓(xùn)練:根據(jù)流量場景和樣本量選擇適當?shù)闹悄茴A(yù)測模型,劃分訓(xùn)練集和測試集進行訓(xùn)練和測試。
3)模型方法的分析和評價:基于模型訓(xùn)練和測試結(jié)果,對預(yù)測方法進行性能分析和評價。
網(wǎng)絡(luò)流量預(yù)測屬于典型的時間序列預(yù)測問題,諸多模型方法如GARMA(廣義自回歸移動平均)、RBF(徑向基函數(shù))神經(jīng)網(wǎng)絡(luò)、小波變換及SVM(支持向量機)等均有相關(guān)研究[3-5]。但大多智能預(yù)測方法對數(shù)據(jù)集的敏感性較高,若數(shù)據(jù)量不足或缺乏多樣性甚至存在過多離群點,則預(yù)測精度會明顯受到影響[6]。雖通過融合或改進智能算法能提升網(wǎng)絡(luò)流量預(yù)測精度,但其算法復(fù)雜度的增加會影響預(yù)測的實時性[7]。因此,如何權(quán)衡速度與精度,并針對車輛以太網(wǎng)應(yīng)用場景進行主流方法的仿真對比試驗,具有積極的意義。
本文基于以太網(wǎng)公開數(shù)據(jù)集結(jié)合自建的車輛以太網(wǎng)試驗系統(tǒng),對典型的3種智能預(yù)測方法,即RBF神經(jīng)網(wǎng)絡(luò)模型、LSTM(長短期記憶)神經(jīng)網(wǎng)絡(luò)模型和LS-SVM(最小二乘支持向量機)模型的網(wǎng)絡(luò)流量預(yù)測性能進行研究。首先,對擬用于試驗的數(shù)據(jù)特性進行分析,討論其使用智能預(yù)測方法進行訓(xùn)練和回歸的可行性,并描述了網(wǎng)絡(luò)流量預(yù)測的總體方案框架;進而,簡述了3種典型智能方法的預(yù)測原理和步驟;最后,對3種方法的仿真試驗結(jié)果進行了對比分析,為車輛以太網(wǎng)流量預(yù)測方法的選擇提供一定技術(shù)參考。
本文的以太網(wǎng)試驗數(shù)據(jù)來源于Bellcore Morristown研究工程中心的高分辨率網(wǎng)絡(luò)流量數(shù)據(jù)采樣[8]。對預(yù)測的數(shù)據(jù),通常要求其是平穩(wěn)時間序列的[9]。上述公開數(shù)據(jù)集經(jīng)多場景分析,表明其具有時間序列的規(guī)律統(tǒng)計特性:周期平穩(wěn)性和自相似特性[10-11],且本文后續(xù)仿真曲線也展現(xiàn)出數(shù)據(jù)的周期平穩(wěn)特性。故基于該數(shù)據(jù)集搭建試驗系統(tǒng)如圖1所示,總體網(wǎng)絡(luò)流量預(yù)測方案如圖2所示。
圖1 基于Duagon板卡的試驗系統(tǒng)Fig.1 Experiment system based on Duagon cards
圖2 總體網(wǎng)絡(luò)流量預(yù)測方案Fig.2 Overall internet flow data prediction scheme
由圖1可見,基于杜根(Duagon)設(shè)備的試驗系統(tǒng)由電腦主機擔任輸入數(shù)據(jù)包的發(fā)送端和輸出數(shù)據(jù)的接收端;杜根設(shè)備核心板卡型號為I303,即車輛以太網(wǎng)通信板卡;交換機、Wireshark軟件和網(wǎng)絡(luò)調(diào)試軟件協(xié)助進行通信監(jiān)控。由圖2可見,將Bellcore數(shù)據(jù)集輸入以太網(wǎng)試驗系統(tǒng),然后輸出以太網(wǎng)數(shù)據(jù)包送往RBF神經(jīng)網(wǎng)絡(luò)、LSTM神經(jīng)網(wǎng)絡(luò)和LS-SVM等3種智能預(yù)測方法進行訓(xùn)練和預(yù)測,最后進行網(wǎng)絡(luò)流量預(yù)測性能的對比分析。
RBF神經(jīng)網(wǎng)絡(luò)對非線性連續(xù)函數(shù)具有一致逼近性能,常用于不確定因素的建模和估計[12]。
基于RBF神經(jīng)網(wǎng)絡(luò)模型進行車輛以太網(wǎng)網(wǎng)絡(luò)流量預(yù)測,需要在模型訓(xùn)練中解決2個問題:其一,確定神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu),主要包括隱藏層的數(shù)目以及RBF神經(jīng)網(wǎng)絡(luò)的聚類中心;其二,校正相應(yīng)的權(quán)值,即將權(quán)值矩陣W從隱層空間映射到輸出空間。其中,輸入層到隱藏層之間為低維空間到高維空間的非線性映射,故隱藏層采用非線性的調(diào)整辦法。隱藏層到輸出層是線性加權(quán)的過程,故輸出層采用線性調(diào)整辦法。從而整個網(wǎng)絡(luò)學(xué)習(xí)可分為聚類中心的確定以及權(quán)值矩陣的調(diào)整,兩者的同步執(zhí)行程度取決于數(shù)據(jù)復(fù)雜度。
本文采用3 000個車輛以太網(wǎng)流量數(shù)據(jù)采樣點進行試驗,其中前2 500個數(shù)據(jù)作為訓(xùn)練數(shù)據(jù),后500個數(shù)據(jù)作為測試數(shù)據(jù)。建立RBF神經(jīng)網(wǎng)絡(luò)預(yù)測模型,取隱藏神經(jīng)元數(shù)20個,迭代次數(shù)為10次,經(jīng)數(shù)據(jù)預(yù)處理、模型訓(xùn)練和預(yù)測,得到500個以太網(wǎng)流量預(yù)測數(shù)值分布如圖3所示。
圖3 基于RBF的網(wǎng)絡(luò)流量預(yù)測值與實際值對比Fig.3 Comparison between the prediction value and real value of network flow based on RBF
由圖3可見,RBF神經(jīng)網(wǎng)絡(luò)模型總體上實現(xiàn)了流量的預(yù)測趨勢跟蹤,在流量上升和下降的走勢中基本能保證較準確預(yù)測;但在峰谷拐點時刻出現(xiàn)較明顯的延遲及波動,最大誤差點的幅值近30%,這說明流量值波動較頻繁,難以滿足高精度預(yù)測的需求。
LSTM神經(jīng)網(wǎng)絡(luò)源于RNN(循環(huán)神經(jīng)網(wǎng)絡(luò))。LSTM神經(jīng)網(wǎng)絡(luò)模型在RNN的基礎(chǔ)上將記憶單元置于隱藏層中的各神經(jīng)單元內(nèi)。該記憶單元可對歷史數(shù)據(jù)信息和狀態(tài)值進行長期的存儲,同時傳輸存儲的歷史信息,加深時間序列的聯(lián)系性[13]。該特性使其適于進行長時間序列的預(yù)測。
本文基于LSTM神經(jīng)網(wǎng)絡(luò)模型對車輛以太網(wǎng)流量預(yù)測模型的訓(xùn)練主要采用時間反向傳播算法,即通過梯度下降法迭代更新參數(shù),計算所有參數(shù)基于損失函數(shù)的偏導(dǎo)數(shù)。模型對權(quán)值的更新以迭代次數(shù)為一周期,當滿足迭代次數(shù)達到最大值,或模型預(yù)測的車輛以太網(wǎng)流量和實際流量間的誤差達到預(yù)定最小閾值,則停止對權(quán)重值的更新。本文LSTM神經(jīng)網(wǎng)絡(luò)選擇Adam函數(shù)作為優(yōu)化函數(shù)以及Sigmoid函數(shù)作為激勵函數(shù),網(wǎng)絡(luò)流量預(yù)測步驟如下:
1)對車輛以太網(wǎng)的網(wǎng)絡(luò)流量數(shù)據(jù)進行預(yù)處理。
2)設(shè)定LSTM神經(jīng)網(wǎng)絡(luò)模型結(jié)構(gòu),包括2個隱藏層、1個輸入層和1個輸出層;設(shè)置隱藏神經(jīng)元數(shù)目為100、迭代次數(shù)為140、初始學(xué)習(xí)率為0.005、梯度閾值為1。
3)將訓(xùn)練數(shù)據(jù)輸入LSTM神經(jīng)網(wǎng)絡(luò)模型進行訓(xùn)練,并利用測試數(shù)據(jù)進行預(yù)測測試。
4)比較預(yù)測值與實際值,計算預(yù)測誤差。
5)根據(jù)誤差的大小,進行模型的反向傳播運算,從而得到反饋的參數(shù)更新權(quán)值,以判斷是否重復(fù)新的循環(huán);為防止收斂度過低,在60輪訓(xùn)練之后,通過乘以因子0.2來降低學(xué)習(xí)率。
基于LSTM的網(wǎng)絡(luò)流量預(yù)測結(jié)果如圖4所示??傮w上,在數(shù)據(jù)的前段部分,模型的預(yù)測性能較好;在數(shù)據(jù)的中間部分預(yù)測誤差較大;在數(shù)據(jù)的中后段部分預(yù)測趨勢延遲明顯,這也是LSTM神經(jīng)網(wǎng)絡(luò)模型在小樣本時間序列預(yù)測中的缺陷。
圖4 基于LSTM的網(wǎng)絡(luò)流量預(yù)測值與實際值對比Fig.4 Comparison between the prediction value and real value of network flow based on LSTM
LS-SVM模型的主要機理是尋求結(jié)構(gòu)化風險最小,從而提高學(xué)習(xí)機的泛化能力,同時實現(xiàn)經(jīng)驗風險和置信范圍最小化。其優(yōu)勢主要表現(xiàn)在小樣本數(shù)據(jù)條件下,仍然保證較好的回歸預(yù)測精度[14],其應(yīng)用于本文網(wǎng)絡(luò)流量預(yù)測結(jié)果如圖5所示。
如圖5可見,基于LS-SVM模型的預(yù)測在整個數(shù)據(jù)段均實現(xiàn)了高精度的預(yù)測,尤其在峰谷及數(shù)據(jù)趨勢發(fā)生變化的拐點處,預(yù)測跟蹤效果突出。
圖5 基于LS-SVM模型的網(wǎng)絡(luò)流量預(yù)測值與實際值對比Fig.5 Comparison between the prediction value and real value of network flow based on LS-SVM
作為示例,本文取1~25個數(shù)據(jù)點(數(shù)值保留至小數(shù)點后2位,四舍五入),其實際流量、預(yù)測流量及誤差值如表1所示。
表1 LS-SVM模型的車輛網(wǎng)絡(luò)流量預(yù)測值與實際值對比Tab.1 Comparison between the prediction value and real value of vehicle network flow based on LS-SVM
上述3種智能預(yù)測方法的預(yù)測結(jié)果對比曲線如圖6所示。
圖6 3種智能網(wǎng)絡(luò)流量預(yù)測方法對比Fig.6 Comparison of the three intelligent network flow prediction methods
采用均方根誤差eRMSE和平均絕對百分比誤差eMAPE對模型預(yù)測性能進行評價,其計算式如下:
(1)
(2)
式中:
n——時間序列的元素個數(shù);
Yi——各元素實際值;
i——采樣點序號;
n——采樣總量。
式(1)—(2)中,n=25。
計算得到3種預(yù)測模型的指標結(jié)果如表2所示。
表2 3種模型預(yù)測指標對比Tab.2 Prediction index comparison of the three models
由表2可見:LS-SVM模型在車輛以太網(wǎng)的網(wǎng)絡(luò)流量預(yù)測中相比RBF神經(jīng)網(wǎng)絡(luò)、LSTM神經(jīng)網(wǎng)絡(luò)模型更有優(yōu)勢。此外,在MATLAB 2019版本的軟件運算上述3個模型時,RBF神經(jīng)網(wǎng)絡(luò)模型與LSTM神經(jīng)網(wǎng)絡(luò)運算的時間較長,而LS-SVM模型訓(xùn)練速度較快,保證了收斂的快速性和準確性,這反映出LS-SVM在工程應(yīng)用領(lǐng)域的潛在價值。在本文測試場景中,具有長時記憶、強非線性適應(yīng)性的LSTM神經(jīng)網(wǎng)絡(luò)在本場景預(yù)測中的性能并不如LS-SVM優(yōu)越,這在一定程度上是由于本次測試樣本量對LSTM神經(jīng)網(wǎng)絡(luò)而言不具有優(yōu)勢,而大幅度增大樣本量和訓(xùn)練場景多樣性將會有效提升LSTM神經(jīng)網(wǎng)絡(luò)性能。限于實際硬件平臺試驗資源所限,不再進行全面的對比。
智能算法的訓(xùn)練受到訓(xùn)練數(shù)據(jù)、模型參數(shù)、測試數(shù)據(jù)、噪聲干擾和場景轉(zhuǎn)換等多個因素的影響。在不同的測試場景和測試數(shù)據(jù)下,智能預(yù)測模型方法的性能可能會發(fā)生明顯波動。因此,需要針對具體應(yīng)用需求進行選擇和人工調(diào)整參數(shù)。
本文面向城市軌道交通車輛以太網(wǎng)網(wǎng)絡(luò)流量特性,采用3種智能網(wǎng)絡(luò)方法設(shè)計網(wǎng)絡(luò)流量預(yù)測方法,并給出了分析和計算。結(jié)果表明,對于模型的選用,樣本量較小時宜選用LS-SVM,樣本量較大且對實時性要求較高時宜選用RBF神經(jīng)網(wǎng)絡(luò),樣本量充足且對精度要求高時可選用LSTM神經(jīng)網(wǎng)絡(luò)。本文測試中,相對RBF和LSTM神經(jīng)網(wǎng)絡(luò),LS-SVM在小樣本(3000數(shù)據(jù)量)條件下體現(xiàn)出快速性和準確性的優(yōu)勢,具有在未來軌道車輛網(wǎng)絡(luò)流量預(yù)測中的工程應(yīng)用潛力。
綜上,本文研究的算法對于一定應(yīng)用場景下車輛以太網(wǎng)的網(wǎng)絡(luò)流量預(yù)測具有較好的可行性,但對于實際多樣化場景應(yīng)用,應(yīng)綜合考慮數(shù)據(jù)樣本量以及時效性要求,選擇合適的智能算法并進行必要的數(shù)據(jù)預(yù)處理和網(wǎng)絡(luò)參數(shù)整定。