孫曉聰 付玉慧
摘要:為提高集裝箱吞吐量的預(yù)測精度,使其滿足港口未來發(fā)展需求,提出基于隨機(jī)森林(random forest, RF)與雙向長短期記憶網(wǎng)絡(luò)(long short-term memory network, LSTM)結(jié)合的集裝箱吞吐量預(yù)測方法(簡稱RF-雙向LSTM)。分別用RF-LSTM、RF-雙向LSTM和BP神經(jīng)網(wǎng)絡(luò)預(yù)測2010—2019年青島港40個季度的集裝箱吞吐量,并對未來2020—2025年青島港集裝箱吞吐量進(jìn)行預(yù)測。結(jié)果表明,RF-雙向LSTM預(yù)測精度最高,其均方根差、平均絕對誤差和平均絕對百分比誤差分別為2.45、1.17和0.26%,與BP神經(jīng)網(wǎng)絡(luò)相比平均絕對百分比誤差低了5.35個百分點(diǎn)。本文提出的集裝箱吞吐量預(yù)測方法可為港口未來發(fā)展與規(guī)劃布局提供決策指導(dǎo)。
關(guān)鍵詞:
集裝箱吞吐量; 雙向長短期記憶網(wǎng)絡(luò)(LSTM); 隨機(jī)森林(RF); 組合預(yù)測
中圖分類號:? F552
文獻(xiàn)標(biāo)志碼:? A
Container throughput prediction based on RF-bidirectional LSTM
SUN Xiaocong, FU Yuhui
(Navigation College, Dalian Maritime University, Dalian 116026, Liaoning, China)
Abstract:
In order to improve the prediction accuracy of container throughput and make it meet the future development need of ports, a container throughput prediction method based on a combination of the random forest (RF) and the bidirectional long short-term memory network (LSTM) (RF-bidirectional LSTM, for short) is proposed. RF-LSTM, RF-bidirectional LSTM and the back propagation (BP) neural network are respectively applied to the prediction of the container throughput of Qingdao Port in the 40 quarters from 2010 to 2019, and the prediction of the container throughput of Qingdao Port from 2020 to 2025 in the future. The results show that, RF-bidirectional LSTM is of the highest prediction accuracy, its root mean square error, mean absolute error and mean absolute percentage error are 2.45, 1.17 and 0.26%, respectively; compared with BP neural network, the percentage error decreases by 5.35 percentage points. The container throughput prediction method proposed in this paper can provide decision-making guidance for the future development and planning layout of ports.
Key words:
container throughput; bidirectional long short-term memory network (LSTM); random forest (RF); combination prediction
0 引 言
集裝箱吞吐量是影響港口未來發(fā)展和航道優(yōu)化布局的重要因素。從20世紀(jì)80年代起,許多國內(nèi)外學(xué)者對集裝箱吞吐量進(jìn)行了大量研究與實踐,提出了多種預(yù)測方法,如灰色馬爾科夫預(yù)測法[1]、支持向量回歸機(jī)法[2]、神經(jīng)網(wǎng)絡(luò)法[3]、TEI@I方法論[4]和組合模型法等[5-6]。曹杰等[7]運(yùn)用遺傳算法優(yōu)化反向傳播(back propagation, BP)神經(jīng)網(wǎng)絡(luò),并與傳統(tǒng)BP神經(jīng)網(wǎng)絡(luò)作比較,其擬合度和預(yù)測精度均較高。馮宏祥等[8]先后運(yùn)用經(jīng)驗?zāi)J椒纸馑惴ê图竟?jié)性自回歸移動平均模型,將月度集裝箱吞吐量數(shù)據(jù)進(jìn)行特征分量分解,證明了間接性預(yù)測模型的可行性。范瑩瑩等[9]先用主成分分析法對上海港港口吞吐量數(shù)據(jù)影響因素進(jìn)行相關(guān)性分析,再將上海市生產(chǎn)總值這一影響因素作為外部輸入引入帶外源輸入的非線性自回歸神經(jīng)網(wǎng)絡(luò),其擬合度和泛化能力均較好。集裝箱吞吐量變化具有復(fù)雜性和動態(tài)性,僅分析集裝箱吞吐量數(shù)據(jù),難以反映集裝箱吞吐量的內(nèi)在變化規(guī)律。不僅如此,由于影響集裝箱吞吐量的因素有很多,如果將這些因素全部作為考慮對象則會造成模型訓(xùn)練煩瑣,容易出現(xiàn)錯誤的結(jié)果,這更增加了問題的復(fù)雜性。同時,由于各影響因素指標(biāo)均是對同一事物的反映,不可避免會造成信息的重疊,所以需要分析這些影響因素的重要程度,提取最重要的因素。李怡瑩[10]將港口吞吐量的影響因素引入寬度學(xué)習(xí)系統(tǒng)中,建立基于寬度學(xué)習(xí)系統(tǒng)的多因素影響下港口吞吐量預(yù)測模型,結(jié)果表明考慮影響因素的預(yù)測模型均比不考慮影響因素的自回歸移動平均模型和寬度學(xué)習(xí)系統(tǒng)模型的預(yù)測精度高。文獻(xiàn)[11-12]說明加入影響因素的預(yù)測模型的預(yù)測精度更高,用隨機(jī)森林(random forest, RF)的方法篩選出的影響因素更具說服力,模型收斂速度更快。
因此,本文將RF算法與雙向長短期記憶網(wǎng)絡(luò)(long short-term memory network, LSTM)相結(jié)合,以青島港2010—2019年40個季度的集裝箱吞吐量數(shù)據(jù)為基礎(chǔ),建立基于RF-雙向LSTM的集裝箱吞吐量預(yù)測模型。首先采用RF算法對搜集到的集裝箱吞吐量影響因素與集裝箱吞吐量進(jìn)行關(guān)聯(lián)性分析,選出與集裝箱吞吐量關(guān)聯(lián)度較高的特征,從而降低模型的復(fù)雜程度、提高訓(xùn)練速度。多年來的研究已經(jīng)證明神經(jīng)網(wǎng)絡(luò)在預(yù)測方面的適用性,本文選擇目前較先進(jìn)的雙向LSTM進(jìn)行預(yù)測,以期給相關(guān)人員合理規(guī)劃港口未來布局提供參考。
1 基本原理及方法
1.1 RF特征選擇原理
運(yùn)用具有集成學(xué)習(xí)思維的RF算法,將多個決策樹集成進(jìn)行預(yù)測。在每棵決策樹每個節(jié)點(diǎn)的建立過程中,需要對所有的影響因素進(jìn)行比較,選擇導(dǎo)致不純度下降最大的影響因素和分裂值。對于分類問題通常采用基尼不純度或者信息增益,對于回歸問題一般采用方差度量不純度。
在RF算法的基礎(chǔ)上,利用RF特征選擇中的平均不純度減少(mean decrease impurity)的方法對集裝箱吞吐量所有影響因素進(jìn)行關(guān)聯(lián)性分析。在利用RF算法生成決策樹的過程中,可以計算出每個特征減少了多少樹的不純度,得到平均不純度減少值并對影響因素的重要程度進(jìn)行排序。如果這個因素對模型很重要,那么將這個因素用噪聲代替之后,模型的表現(xiàn)肯定會下降,差值也就越大,因此哪個因素下降得多就證明哪個因素越重要,從而找到與集裝箱吞吐量高度相關(guān)的因素。
2 RF-雙向LSTM預(yù)測模型建立
2.1 模型構(gòu)建流程
RF-雙向LSTM預(yù)測模型構(gòu)建流程見圖3。
2.2 RF模型建立
本文以青島港直接經(jīng)濟(jì)腹地山東省青島市為依托,青島港集裝箱吞吐量為研究對象。綜合考慮各方面影響因素,初步選取以下主要指標(biāo):青島市GDP,涵蓋了青島市所有的經(jīng)濟(jì)領(lǐng)域,能夠真實反映青島市經(jīng)濟(jì)情況;外貿(mào)出口總額,反映青島市對外經(jīng)貿(mào)關(guān)系,是外向型經(jīng)濟(jì)發(fā)展的重要指標(biāo);貨物吞吐量,反映青島港在國內(nèi)外物資交流中所起的作用,真實反映港口腹地運(yùn)輸業(yè)發(fā)展情況;山東省交通運(yùn)輸固定資產(chǎn)沿海建設(shè)投資,反映沿海運(yùn)輸業(yè)的發(fā)展趨勢和集裝箱腹地運(yùn)輸情況;社會消費(fèi)品總額,是研究人民生活水平、社會消費(fèi)品購買力的重要指標(biāo)。
構(gòu)造一個RF模型,首先確定森林中樹的數(shù)量,采用試算法對模型各個參數(shù)進(jìn)行調(diào)試,最終確定樹的數(shù)量為50,特征子集中特征數(shù)量為5。構(gòu)建決策樹,將搜集到的所有特征數(shù)據(jù)導(dǎo)入模型,設(shè)置集裝箱吞吐量為預(yù)測值。
2.3 特征選擇
為增強(qiáng)預(yù)測模型的收斂速度,提高模型泛化能力,防止出現(xiàn)過擬合的情況,分析搜集到的5種集裝箱吞吐量影響因素數(shù)據(jù),從中選出與集裝箱吞吐量關(guān)聯(lián)度最大的影響因素。采用RF算法進(jìn)行建模,對5種影響因素進(jìn)行歸一化處理,消除量綱影響。計算各影響因素的平均不純度減少值,計算結(jié)果見表1。
選擇的影響因素過多,會導(dǎo)致預(yù)測模型泛化能力弱;選擇的影響因素過少,會遺漏有用信息,降低預(yù)測模型精度。根據(jù)表1,選擇使平均不純度減少最多的3個影響因素(貨物吞吐量、外貿(mào)出口總額、
青島市GDP)作為模型輸入值進(jìn)行預(yù)測。
3 實例驗證
3.1 數(shù)據(jù)來源
為驗證所提出模型的有效性,搜集整理2010—2019年青島港季度集裝箱吞吐量數(shù)據(jù),以及基于RF模型得到的與集裝箱吞吐量關(guān)聯(lián)度最大的3個因素(貨物吞吐量、外貿(mào)出口總額和青島市GDP)數(shù)據(jù),見表2。
3.2 數(shù)據(jù)分析與預(yù)處理
所有搜集到的數(shù)據(jù)均為真實數(shù)據(jù),考慮到試驗的真實性,不做異常值處理。對數(shù)據(jù)進(jìn)行歸一化處理,以消除由各個因素量綱不同所造成的誤差,在模型訓(xùn)練完成后再進(jìn)行反歸一化處理。
3.3 集裝箱吞吐量預(yù)測
數(shù)據(jù)樣本選取2010—2019年青島港共40個季度的集裝箱吞吐量數(shù)據(jù),以及與集裝箱吞吐量關(guān)聯(lián)度最高的3個影響因素數(shù)據(jù)。關(guān)于LSTM的構(gòu)建,首先經(jīng)過不斷測試與調(diào)試找到最適合學(xué)習(xí)的神經(jīng)網(wǎng)絡(luò)模型結(jié)構(gòu),在不斷調(diào)試中確定采用三層神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu),其中前兩層為雙向LSTM層,第三層為全連接層。第一、第二、第三層的神經(jīng)元數(shù)量分別為50、128、1。訓(xùn)練次數(shù)為4 000次,一次訓(xùn)練所抓取的數(shù)據(jù)樣本數(shù)量為128,以前36個季度數(shù)據(jù)為訓(xùn)練集,以2019年的4個季度數(shù)據(jù)為測試集。將RF算法的輸出結(jié)果與集裝箱吞吐量一起輸入雙向LSTM進(jìn)行預(yù)測。
針對所提出的組合預(yù)測方法進(jìn)行預(yù)測結(jié)果的驗證,逐次用BP神經(jīng)網(wǎng)絡(luò)、RF-LSTM和RF-雙向LSTM預(yù)測2019年青島港集裝箱吞吐量,結(jié)果見表3。
圖4和5分別為2種預(yù)測模型的集裝箱吞吐量預(yù)測值與真實值對比。其中,橫坐標(biāo)刻度10-1表示2010年第一季度,10-2表示2010年第二季度,其他刻度的意義以此類推。
3.4 模型評價
利用均方根差(root mean square error,RMSE)、平均絕對誤差(mean absolute error,MAE)和平均絕對百分比誤差(mean absolute percentage error,MAPE)進(jìn)行評價,表4為3種預(yù)測模型的誤差對比??梢钥闯?,精度最高、效果最好的為RF-雙向LSTM,其RMSE、MAE和MAPE分別為2.45、1.17和0.26%。通過統(tǒng)計數(shù)據(jù)比較可知:這兩種組合預(yù)測模型在青島港集裝箱吞吐量預(yù)測中,基于RF-雙向LSTM的集裝箱吞吐量預(yù)測模型表現(xiàn)最為優(yōu)異。通過調(diào)試發(fā)現(xiàn),基于RF-LSTM的集裝箱吞吐量預(yù)測模型明顯優(yōu)于BP神經(jīng)網(wǎng)絡(luò)預(yù)測模型,但隨著訓(xùn)練次數(shù)的增多其預(yù)測精度變化不大。
3.5 預(yù) 測
運(yùn)用已建立模型對2020—2025年青島港集裝箱吞吐量進(jìn)行預(yù)測,并與2020年青島港集裝箱吞吐量數(shù)據(jù)比較,結(jié)果見表5。
由表5可以看出,用所提出的組合預(yù)測模型得到的2020年前三個季度的集裝箱吞吐量預(yù)測值與真實值基本相同,2020年第四季度的預(yù)測精度略有降低??傮w上看,從2019年開始,前6個季度的預(yù)測精度較高,從第7個季度開始預(yù)測精度降低。未來5年預(yù)測數(shù)據(jù)僅供港口相關(guān)工作人員參考。
4 結(jié) 論
本文通過數(shù)學(xué)建模將隨機(jī)森林(RF)分別與單向、雙向長短期記憶網(wǎng)絡(luò)(LSTM)進(jìn)行組合,并對青島港集裝箱吞吐量進(jìn)行了預(yù)測。兩種組合預(yù)測模型相比,用加入RF算法考慮多種影響因素的雙
向LSTM預(yù)測青島港集裝箱吞吐量具有更好的效果,并且預(yù)測精度和收斂速度都得到了較大提升,驗證了將RF模型與LSTM結(jié)合預(yù)測集裝箱吞吐量的合理性。
參考文獻(xiàn):
[1]湯天辰, 李林. 基于灰色馬爾科夫模型的上海港集裝箱吞吐量預(yù)測[J]. 物流科技, 2020, 43(3): 105-108, 114. DOI: 10.13714/j.cnki.1002-3100.2020.03.026.
[2]王炳丹. 基于SVM的集裝箱吞吐量預(yù)測研究[D]. 北京: 北京交通大學(xué), 2011.
[3]陳錦文, 蘭培真. 改進(jìn)型BP神經(jīng)網(wǎng)絡(luò)的港口吞吐量預(yù)測[J]. 集美大學(xué)學(xué)報(自然科學(xué)版), 2019, 24(5): 352-357. DOI: 10.19715/j.jmuzr.2019.05.05.
[4]田歆, 王皓晴, 朱佳儀, 等. TEI@I預(yù)測的有效性: 來自持續(xù)五年公開預(yù)報珠三角港口運(yùn)輸需求項目的證據(jù)[J]. 管理評論, 2020, 32(7): 76-88. DOI: 10.14120/j.cnki.cn11-5057/f.2020.07.008.
[5]王振振, 萇道方, 朱宗良, 等. 基于ES-Markov模型的港口集裝箱季度吞吐量分析與預(yù)測[J]. 中國航海, 2019, 42(4): 125-130.
[6]劉鈺. 基于VMD-ARIMA-HGWO-SVR組合模型的港口集裝箱吞吐量預(yù)測[D]. 蘭州: 蘭州大學(xué), 2018.
[7]曹杰, 黃富程, 安天圣. 基于GA優(yōu)化BP神經(jīng)網(wǎng)絡(luò)的港口集裝箱吞吐量預(yù)測[J]. 天津航海, 2020(3): 42-45.
[8]馮宏祥, GRIFOLL M, AGUSTI M, 等. 基于數(shù)據(jù)分解的上海港集裝箱吞吐量預(yù)測模型[J]. 中國航海, 2019, 42(2): 132-138.
[9]范瑩瑩, 余思勤. 基于NARX神經(jīng)網(wǎng)絡(luò)的港口集裝箱吞吐量預(yù)測[J]. 上海海事大學(xué)學(xué)報, 2015, 36(4): 1-5. DOI: 10.13340/j.jsmu.2015.04.001.
[10]李怡瑩. 基于BLS的多影響因素下港口吞吐量預(yù)測研究[D]. 大連: 大連海事大學(xué), 2020.
[11]楊文峰, 王艷, 紀(jì)志成. 基于RF-GA-BP神經(jīng)網(wǎng)絡(luò)的N-乙酰氨基葡萄糖含量預(yù)測[J]. 系統(tǒng)仿真學(xué)報, 2020, 32(10): 2034-2040. DOI: 10.16182/j.issn1004731x.joss.20-fz0335.
[12]郭昱辰, 楊亮, 劉春紅, 等. 基于RF-LSTM的雞舍惡臭氣體預(yù)測研究[J]. 中國環(huán)境科學(xué), 2020, 40(7): 2850-2857. DOI: 10.19674/j.cnki.issn1000-6923.2020.0318.
[13]曾慧潔, 郭建勝. 雙向LSTM神經(jīng)網(wǎng)絡(luò)的航空發(fā)動機(jī)故障預(yù)測[J]. 空軍工程大學(xué)學(xué)報(自然科學(xué)版), 2019, 20(4): 26-32. DOI: 10.3969/j.issn.1009-3516.2019.04.004.
(編輯 賈裙平)
收稿日期: 2020-12-14
修回日期: 2021-05-18
作者簡介:
孫曉聰(1995—),男,河北石家莊人,碩士研究生,研究方向為海上事故調(diào)查與分析,(E-mail)sunxiaocong1995@163.com;
付玉慧(1963—),男,遼寧大連人,教授,碩士,研究方向為海上事故調(diào)查與分析,(E-mail)fuyhui@aliyun.com