蔣哲遠,葛承宇,陳 超,米希偉
(北京交通大學,交通運輸學院,北京 100044)
運輸時間預測是交通運輸領域的一個經(jīng)典問題,近年來,很多學者圍繞公路、航空、水運運輸時間預測方面開展研究,一些模型已取得較好的效果。然而,相比于這些研究,鐵路貨運時間預測至今仍是一個難點,這是因為鐵路貨運專業(yè)背景較強、貨物列車運營模式復雜、受到各種因素的影響和制約較多。準確預測鐵路貨物運輸時間不僅能給鐵路部門、貨主及收貨人帶來直接利益,而且對解決列車調(diào)度、物流交付、運輸合同制定等諸多重要問題有著重要的意義。
國內(nèi)外已提出了許多經(jīng)典的運輸時間預測模型,差分整合移動平均自回歸模型(Autoregressive Integrated Moving Average model,ARIMA)是一種經(jīng)典的時間序列預測模型,該模型結構簡單,計算方便,預測結果可以外延,但模型對數(shù)據(jù)規(guī)律具有依賴性,抗干擾能力較差,難以適應日趨復雜的時間序列預測問題。模糊模型、卡爾曼濾波模型等非線性參數(shù)回歸模型也是一類經(jīng)典的時間序列預測模型,相比于ARIMA 類模型,這類模型的抗干擾能力得到增強,但仍存在預測數(shù)據(jù)外延性差,鄰近特征點或訓練集需要及時更新的缺點。
近年來,伴隨著人工智能理論的快速發(fā)展,機器學習方法在諸多領域中顯示出優(yōu)勢,在時間序列預測方面,隨機森林模型[1]、支持向量機[2]、人工神經(jīng)網(wǎng)絡[3]等模型得到了廣泛應用,一些學者已將這些模型應用于運輸時間預測。Huang 等[4]提出一種基于SVR(Support Vector Regression)算法和KF(Kalman Filter)算法的混合模型來預測列車運行時間,該模型結合了2 種算法的特點,可以實現(xiàn)更短計算時間下的高準確率預測,其研究表明,支持向量機在對小樣本和高維數(shù)據(jù)集預測時能取得良好的預測效果,但不適用于大規(guī)模訓練樣本和高度稀疏數(shù)據(jù)。袁志明等[5]采用隨機理論研究了列車的到站時間預測,在分析列車到站時間不確定性的基礎上,提取特征指標,挖掘歷史行車數(shù)據(jù),以提高列車到站時間預測準確性為優(yōu)化目標,提出一種基于隨機森林的列車到站時間預測模型,其研究表明,隨機森林模型能在大數(shù)據(jù)集和高維數(shù)據(jù)集預測中取得優(yōu)良的預測結果,但由于其本身的復雜性,預測所需時間和空間較大,當數(shù)據(jù)噪音較大時,會出現(xiàn)過擬合現(xiàn)象。隨著深度學習的飛速發(fā)展,神經(jīng)網(wǎng)絡已成為目前運輸時間預測的主要研究方向。孫略添等[6]運用灰色模型對技術站列車晚點進行預測,再綜合運用馬爾可夫和改進的神經(jīng)網(wǎng)絡模型進行修正和預測,最后將2種方法進行了對比,結果顯示文中所建的神經(jīng)網(wǎng)絡模型在大規(guī)模數(shù)據(jù)集情形下預測精度更高。He等[7]提出了一種基于卷積神經(jīng)網(wǎng)絡的深度時空預測模型(Deep Spatial-Temporal,Deep ST),文中在考慮外部因素的基礎上對不同時間尺度的歷史數(shù)據(jù)特征進行建模。之后He 等[8]又提出了深度時空殘差網(wǎng)絡(Spatial-Temporal Resnet,ST-Resnet),此模型先將不同時間尺度分別用殘差單元建模,再進行特征融合。但這種方法難以顯式地對時間序列的時序依賴關系進行建模,為解決這個問題,一些研究者提出了利用卷積計算和循環(huán)神經(jīng)網(wǎng)絡對時序依賴關系進行建模的方法[9]。Yu 等[10]提出了一種時空圖卷積網(wǎng)絡(Spatio-Temporal Graph Convolutional Networks, ST-GCN)來解決時空序列預測問題。Kong等[11]提出了一種分層時空長短期記憶(Hierarchical Spatial-Temporal Long-Short Term Memory Network,HST-LSTM)模型,該模型可以結合雙向歷史信息進行位置預測。范光鵬等[12]提出一種基于長短期記憶(Long-Short Term Memory Network, LSTM)和Kalman 濾波的混合時間預測模型,其中LSTM 模型用來預測車輛到站的基礎時間序列,Kalman濾波模型用于對基礎時間序列數(shù)據(jù)動態(tài)調(diào)整。Che 等[13]提出了基于GRU 的多變量缺失時間序列遞歸神經(jīng)網(wǎng)絡(Deep Learning Model Based on Gated Recurrent Unit,GRU-D),該模型可以準確地捕捉到時間序列的長期依賴關系。雖然相比于經(jīng)典預測模型,基于深度神經(jīng)網(wǎng)絡的運輸時間預測模型取得了更好的預測效果,但目前已提出的模型仍然難以深入挖掘運輸時間中復雜的顯式特征交互信息和高階特征關聯(lián)信息。
鐵路貨物運輸時間受線路長度、線路數(shù)目、限速、列車優(yōu)先級、列車速度、車站到發(fā)線數(shù)、貨場配線數(shù)、車站作業(yè)計劃等相關因素的影響,且這些相關因素存在復雜的交叉關系?,F(xiàn)有的鐵路貨物運輸時間預測模型大多沒有充分考慮特征交叉或者僅通過人工經(jīng)驗進行特征交叉,而當特征量較多、特征交叉較復雜、計算量較大時,人工方法難以提取出所有關鍵交叉特征。不同于運輸時間預測領域,在推薦系統(tǒng)領域[14],特征交互的研究眾多,一些模型已取得很好的效果。因此,本文引入推薦系統(tǒng)領域中壓縮交互網(wǎng)絡(Compressed Interaction Network,CIN)算法,并結合深度神經(jīng)網(wǎng)絡(Deep Neural Network,DNN),設計了面向鐵路貨物運輸時間預測的xDeepFM(Extreme Deep Factorization Machine)模型。
本文的主要貢獻如下:
(1)針對鐵路貨物運輸時間受諸多復雜因素耦合影響的情況,提取較為重要的影響因素,并把各影響因素的特征交互納入考慮,創(chuàng)新性地將智能推薦算法領域的xDeepFM 算法引入運輸時間預測問題,為鐵路貨物運輸時間預測提供了新方法。
(2)在以ReLU 函數(shù)為激活函數(shù)的基礎上引入了稀疏規(guī)則算子正則化函數(shù),減少無用特征,生成有限的關鍵特征,有利于自動選擇特征,優(yōu)化算法效率。
(3)xDeepFM 預測模型既能兼顧低階和高階特征交互,又能兼顧顯式和隱式特征交互,同時也具備記憶與泛化的學習能力,可以有效提高鐵路貨運時間預測精度,為具有多種影響因素、不同因素交叉影響的復雜場景預測問題提供新思路。
本文以一列具有貨物運輸任務的列車按照列車運行時刻表準時從起點站發(fā)車,途經(jīng)各個中間站并根據(jù)列車改編計劃、乘務計劃等完成相關任務,最終到達終點站的一個OD 貨運[15]過程為研究對象,預測單列車一個OD對的貨物運輸時間。
本文所采用的數(shù)據(jù)來自于由運籌學和管理科學研究協(xié)會(Institute for Operations Research and the Management Sciences, INFORMS)于2020 年舉辦的“鐵路運籌學應用大賽”所提供的比賽數(shù)據(jù),其中數(shù)據(jù)信息包含了列車運行時刻表、列車改編信息、乘務計劃信息、列車優(yōu)先級、列車最大運行速度等列車信息,以及站間距離、線路數(shù)目、線路允許通過最大速度、貨場配線數(shù)、車站到發(fā)線數(shù)量等車站線路信息。
根據(jù)預處理和特征提取的原始數(shù)據(jù),以單列車從起點站出發(fā)完成一次貨運任務到達終點站為一次完整的貨運過程,提取該過程中影響貨物運輸時間的因素如下所示:
(1)列車運行區(qū)段線路長度,即列車從起點站出發(fā)到達終點站的總路程。該參數(shù)對鐵路貨物運輸時間造成直接影響,為主要影響因素之一。
(2)最大允許速度,即列車在運行區(qū)段所允許的最大速度。該參數(shù)為軌道限速和列車最大運行速度中的較小值,對鐵路貨物運輸時間造成主要影響。
(3)列車改編信息,即列車在編組站是否需要編組。
(4)乘務人員變更,即在中間站乘務人員是否需要換班。
(5)線路數(shù)目,即列車運行區(qū)段線路軌道數(shù)。
(6)貨場配線數(shù),即貨場的可用裝卸線數(shù)量。
(7)車站到發(fā)線數(shù),即車站貨物列車到發(fā)線數(shù)目。到發(fā)線數(shù)目對列車到發(fā)、列車會讓造成影響,從而間接影響鐵路貨物運輸時間。
(8)各優(yōu)先級列車數(shù),即在列車運行區(qū)段范圍內(nèi)存在的不同優(yōu)先級列車數(shù)。由于不同優(yōu)先級列車相遇時,低優(yōu)先級列車需要會讓高優(yōu)先級列車,對貨物運輸時間造成一定影響。
將上述特征因素組成特征向量,作為模型的一組輸入?yún)?shù)。對樣本進行編號分組,樣本編號i包含特征如下:列車運行區(qū)段線路長度為x(i);車站到發(fā)線數(shù)為m(i);貨場配線數(shù)為D(i);相同方向相同優(yōu)先級列車數(shù)量為p1(i);相反方向相同優(yōu)先級的列車數(shù)量為p2(i);相同方向較高優(yōu)先級的列車數(shù)量為p3(i);相反方向較高優(yōu)先級的列車數(shù)量為p4(i);相同方向較低優(yōu)先級的列車數(shù)量為p5(i);相反方向較低優(yōu)先級的列車數(shù)量為p6(i);最大允許速度為v(i);乘務人員變更為O(i);列車改編信息為B(i)。
輸入特征向量為:
貨物實際運輸時間為Y(i)。
根據(jù)上述方法,在原始數(shù)據(jù)中一共提取4 000條樣本數(shù)據(jù),每一樣本數(shù)據(jù)有12維度。
鐵路貨運受影響的特征因素多、數(shù)據(jù)量大,而DNN擁有處理高階特征、海量數(shù)據(jù)的優(yōu)點,在預測上有優(yōu)勢,因此本文選用DNN 作為模型框架的一部分,旨在利用其強大的非線性映射能力學習高階特征交互。本文采用的DNN 為多個全連接層搭建,其基本結構如圖1所示。
圖1 DNN網(wǎng)絡結構
在基于深度學習的特征融合模型中,特征交互的方式可以分為隱式特征交互和顯式特征交互兩種[16]。由于DNN 模型有黑箱性質(zhì),其學習的是隱式的特征交互,特征形式未知、不可控,同時,模型最終的輸出表現(xiàn)為一種特殊的向量擴張,特征交互發(fā)生在元素級而不是特征向量之間。
為使模型可自動學習顯式的高階特征交互,并使特征交互發(fā)生在向量級上,本文引入壓縮交互網(wǎng)絡(CIN)模型。在CIN 中,隱向量是單元對象,將輸入的原特征和神經(jīng)網(wǎng)絡中的隱層都分別變換成一個矩陣,記為X0和Xk。CIN 中每一層的神經(jīng)元全是依據(jù)前一層的隱層以及原特征向量演算得來,其計算公式如下:
其中第k層隱層含有Hk條神經(jīng)元向量。隱層的計算可以分成兩個步驟:(1)根據(jù)前一層隱層的狀態(tài)Xk和原特征矩陣X0,算出一個中間值Z^k+ 1,在此中間值上,用Hk+1個尺寸為m×Hk的卷積核產(chǎn)生下一隱層的狀態(tài),最后學習出的特征交互階數(shù)由網(wǎng)絡的層數(shù)確定,每一隱層都通過一個池化操作連接到輸出層,確保輸出單元可以產(chǎn)生不同階數(shù)的特征交互模式。
由于影響鐵路貨物運輸時間的因素具有特征階數(shù)高,存在復雜特征交互且主要在特征向量之間存在互相影響關系等特點,本文將DNN 模型與CIN 模型合并到端到端框架中,生成一種新的顯式交叉高階特征方法xDeepFM 模型[17]。此模型結構可以分成四個模塊,分別是嵌入層、CIN、DNN 和線性模塊。嵌入層的作用是將特征向量轉換為具有固定大小的向量,將多個方面組成的高維稀疏分類特征通過神經(jīng)網(wǎng)絡嵌入到低維密集特征。CIN 模塊的作用是進行顯式特征交互,而
式中:λ*表示正則項;θ表示參數(shù)集。
其模型結構如圖2所示。
圖2 xDeepFM模型結構
本文選取均方誤差(MSE)、均方根誤差(RMSE)、平均絕對誤差(MAE)和平均絕對百分誤差(MAPE)來評估xDeepFM模型的性能,其公式如下:
式中:N為貨物運輸時間預測的總樣本數(shù)目;yi為貨物運輸時間預測值;yi為貨物實際運輸時間。
本節(jié)對模型超參數(shù)的敏感性進行分析,使用上述處理完成的數(shù)據(jù),對以下參數(shù)進行具體分析,包括:(1)CIN 隱含層的數(shù)量;(2)CIN 每層神經(jīng)元數(shù)量;(3)DNN 隱含層的數(shù)量;(4)DNN 每層神經(jīng)元數(shù)量;(5)batchsize 的大小。在研究分析某一具體參數(shù)時,固定其他參數(shù)為最佳參數(shù),同時改變研究參數(shù)的設置來進行實驗,訓練次數(shù)都設置為150 次,最后使用最優(yōu)參數(shù)訓練模型。
CIN 隱藏層數(shù)量的影響如圖3(a)所示。圖中可以看到xDeepFM 的模型性能在開始時隨著網(wǎng)絡深度的增加而增加。但當網(wǎng)絡深度設置大于3時,模型性能下降,這可能是由于網(wǎng)絡深度加深引起的過擬合造成的?;诖吮疚膶IN 隱含層的數(shù)量設置為3。
由于3.1表明CIN 隱含層的數(shù)量設置為3時有最佳效果,在此實驗中將CIN 隱含層數(shù)量固定在3。每層神經(jīng)元數(shù)目的增加,表示CIN 中特征映射數(shù)目的增加。如圖3(b)所示,當神經(jīng)元數(shù)量從6 增加到40 時,xDeepFM 的模型性能先增長后下降,每層神經(jīng)元數(shù)量設置為10時,模型性能相對更優(yōu)。因此本文最終選用的CIN網(wǎng)絡結構為[10 10 10]。
圖3(c)展示了DNN 隱藏層數(shù)量的影響??梢杂^察到xDeepFM 的模型性能在開始時隨著網(wǎng)絡深度的增加而明顯優(yōu)化。但當網(wǎng)絡深度設置大于4時,模型性能下降,且模型訓練時間增加,隱藏層數(shù)量的增加可能引起網(wǎng)絡的過擬合。所以本文將DNN 隱含層的數(shù)量設置為4,模型既有較好的訓練效果,也有比較快的訓練速度。
由于3.3 表明DNN 隱含層的數(shù)量設置為4 時有最佳效果,在此實驗中將DNN 隱含層的數(shù)量固定在4。經(jīng)訓練發(fā)現(xiàn),DNN 網(wǎng)絡每層神經(jīng)元數(shù)目設置為[2x2x x x]時,模型有較好的性能。此次實驗主要研究DNN 每層神經(jīng)元數(shù)量對模型的影響。當神經(jīng)元數(shù)量較少時,模型訓練效果較差;當神經(jīng)元數(shù)量改變較少時,模型性能變化不顯著。因此,本文從神經(jīng)元數(shù)量x=200 開始,以100 為增量增加到x=500 進行實驗。如圖3(d)所示,xDeepFM 的模型性能剛開始時隨著神經(jīng)元數(shù)量的增加而增長,在x=400 時達到最優(yōu),隨后模型性能開始下降。因此最終將DNN 網(wǎng)絡結構設置為[800 800 400 400]。
batchsize的大小是機器學習中一個重要參數(shù),表示一次訓練所選取的樣本數(shù)。batchsize 的大小影響模型的優(yōu)化程度和速度,batchsize 設置大,通常收斂快,需要訓練的次數(shù)少,準確率上升較穩(wěn)定,但精度不高。batchsize設置小,通常精度較高,但收斂慢,準確率易出現(xiàn)震蕩。如圖3(e)所示,當batchsize 從400 增加到1 000 的過程中,訓練次數(shù)固定在150 次,將batchsize 設置為800 時,模型在有較高精度的同時也有較快的收斂速度。因此,本文的batchsize設置為800。
圖3 參數(shù)敏感性分析
在完成了上述數(shù)據(jù)處理、特征映射及模型參數(shù)尋優(yōu)后,將數(shù)據(jù)處理得到的4 000 條樣本數(shù)據(jù)以3:1的比例劃分訓練集和測試集,前3 000條數(shù)據(jù)作為訓練集,剩下的1 000 條數(shù)據(jù)作為測試集。設置CIN 網(wǎng)絡結構為[10 10 10]、DNN 網(wǎng)絡結構為[800 800 400 400]、batch 為800、訓練次數(shù)為150 次,以最優(yōu)參數(shù)進行模型訓練,最后得到的預測結果,其性能指標如表1。
表1 xDeepFM性能指標
較小的MSE 和RMSE 以及較小的MAE 和MAPE 都表明xDeepFM 預測模型的高預測準確度。針對鐵路貨運受很多復雜因素耦合影響的實際情況,xDeepFM預測模型擁有其獨特優(yōu)勢:(1)擁有嵌入層模塊,對數(shù)據(jù)進行Embedding 映射,將特征向量轉換為具有固定大小的向量,將多個方面組成的高維稀疏分類特征通過神經(jīng)網(wǎng)絡嵌入到低維密集特征。(2)擁有CIN 模塊提取顯式特征交互,能夠使特征交互發(fā)生在特征向量與向量之間,解決傳統(tǒng)深度神經(jīng)網(wǎng)絡特征交互發(fā)生在特征元素之間、與實際鐵路貨物運輸時間影響因素交叉影響情況不相符的問題。(3)在ReLU 函數(shù)為激活函數(shù)的基礎上引入了稀疏規(guī)則算子正則化函數(shù),去除無用特征,產(chǎn)生少量關鍵特征,有利于特征自動選擇,提高算法效率。(4)擁有線性模塊,把原始特征數(shù)據(jù)作為輸入進行線性回歸,使得模型具有更強的記憶與泛化學習能力,有利于模型在鐵路貨物運輸時間預測的推廣與應用。
通過實驗表明,xDeepFM 預測模型既能兼顧低階和高階特征交互,又能兼顧顯式和隱式特征交互,同時也具備記憶與泛化的學習能力,對受復雜交叉因素影響的鐵路貨物運輸時間預測具有不錯的預測準確度。
為了研究本文建立的xDeepFM 模型的預測性能,在訓練集和測試集相同的條件下,本文使用最小二乘支持向量機(Least Squares Support Vector Machine,LSSVM)模型、隨機森林模型、DNN 模型、卷積神經(jīng)網(wǎng)絡(Convolutional Neural Networks,CNN)模型和LSTM 模型對鐵路貨運時間進行預測。選取樣本編號400 到500 的預測結果進行可視化,五種比較模型和xDeepFM 模型預測效果對比結果如圖4所示。
圖4 不同模型預測效果圖
總體而言,xDeepFM 模型預測的運輸時間與實際運輸時間基本相符,擬合效果好。其優(yōu)越性能更體現(xiàn)在復雜貨運情況中,如圖5 所示,當貨運作業(yè)環(huán)節(jié)多、干擾多、運輸時間較長時,對比模型并不能較好地考慮影響因素的交互,導致預測效果不佳,而xDeepFM 模型,在引入學習高維特征交互的能力后,能夠對復雜特殊情況做到一個較好的預測。實驗表明,xDeepFM 模型預測精度更高、魯棒性更好、對隱式特征提取能力更強,并能顯式呈現(xiàn)特征交互,因此更適用于解決該問題。
圖5 預測效果放大圖
MSE 和RMSE 度量預測值與真實值的偏差,MAPE和MAE度量預測誤差相對于真實值精度的指標,能夠評價模型的預測精確度。通過表2可以發(fā)現(xiàn),xDeepFM 預測模型的預測效果不僅明顯優(yōu)于LSSVM 模型、隨機森林模型此類經(jīng)典模型,而且與DNN 模型、CNN 模型以及LSTM 模型這些新穎的深度學習模型相比,也顯示出其優(yōu)越的預測性能。
表2 模型性能指標對比
xDeepFM 預測模型具有其獨特的優(yōu)點:(1)它可以學習高階和低階、顯式和隱式的特征交互。(2)表達能力強,精度高,可以發(fā)掘出向量級的交互特征。(3)在向量級而不是元素級發(fā)生特征交互。但xDeepFM 預測模型也有其不可忽視的缺點,其訓練速度相對較慢,難以在幾秒之內(nèi)迅速得到較好的預測結果。實驗結果表明,本文所建的xDeepFM模型具有更好的預測性能。
本文改進了多應用在廣告點擊率預測[18]的推薦系統(tǒng)模型,將CIN 和DNN 合并融合,兼顧低階、高階特征和顯式、隱式特征,構建了一種基于xDeepFM 的鐵路貨物運輸時間預測模型。本文所建的xDeepFM 模型預測精確度高,和LSTM 模型相比,本文模型的MSE 提升了31.1%,MAPE 提升了60.3%,且實際案例分析表明所建的xDeepFM模型可以適用于具有多種影響因素、不同因素耦合影響的復雜預測場景,在鐵路貨物運輸時間預測方面有較大的優(yōu)勢和發(fā)展前景。