楊超,王建兵,黃暕
(安徽港口物流有限公司,安徽銅陵 244000)
近年來(lái),物流行業(yè)開(kāi)啟了數(shù)字化轉(zhuǎn)型之路,全面邁進(jìn)網(wǎng)絡(luò)貨運(yùn)時(shí)代[1]。在物流信息化平臺(tái)中,運(yùn)力庫(kù)將所有車(chē)輛所在地按照行政區(qū)域劃分為多個(gè)流向,對(duì)于各個(gè)流向承運(yùn)貨物的車(chē)輛統(tǒng)稱為運(yùn)力[2]。在現(xiàn)代大規(guī)模物流系統(tǒng)中,準(zhǔn)確預(yù)測(cè)區(qū)域運(yùn)力具有很強(qiáng)的經(jīng)濟(jì)意義和社會(huì)意義。準(zhǔn)確的區(qū)域運(yùn)力預(yù)測(cè)不僅能夠預(yù)防爆倉(cāng)、訂單延誤等風(fēng)險(xiǎn),還可以在日常的運(yùn)營(yíng)中減少運(yùn)力浪費(fèi),提高運(yùn)營(yíng)效率。
當(dāng)前,面向不同應(yīng)用場(chǎng)景的運(yùn)力預(yù)測(cè)已獲得學(xué)術(shù)界廣泛關(guān)注[3-5]。時(shí)間序列模型雖然能夠從歷史數(shù)據(jù)中提取出一些時(shí)間序列的特征,由于模型復(fù)雜度較為有限,所能表征的特征種類(lèi)也比較單一,導(dǎo)致預(yù)測(cè)結(jié)果準(zhǔn)確性較低。為克服現(xiàn)有研究成果應(yīng)用在區(qū)域物流運(yùn)力預(yù)測(cè)上的缺陷,本文提出了一種基于熵權(quán)法的區(qū)域車(chē)輛運(yùn)力預(yù)測(cè)模型。該模型根據(jù)熵權(quán)法計(jì)算得到車(chē)輛運(yùn)力得分來(lái)計(jì)算整個(gè)區(qū)域運(yùn)力得分,并融合XGBoost 和長(zhǎng)短期記憶網(wǎng)絡(luò)(Long Short-Term Memory,LSTM)模型的預(yù)測(cè)結(jié)果作為區(qū)域運(yùn)力的預(yù)測(cè)結(jié)果。
GPS 軌跡數(shù)據(jù)是基于時(shí)間和空間對(duì)車(chē)輛的移動(dòng)過(guò)程進(jìn)行采用并記錄獲得的數(shù)據(jù),包含了車(chē)輛移動(dòng)的經(jīng)緯度、時(shí)間、車(chē)速、方向等信息。GPS軌跡數(shù)據(jù)蘊(yùn)含了豐富的運(yùn)力特征,對(duì)這些特征進(jìn)行分析提取,對(duì)后續(xù)區(qū)域運(yùn)力預(yù)測(cè)具有重要作用。
本文GPS 數(shù)據(jù)來(lái)自安徽港口物流有限公司運(yùn)營(yíng)管理過(guò)程中所形成的真實(shí)數(shù)據(jù)。由于GPS數(shù)據(jù)龐大,因此需要對(duì)其進(jìn)行數(shù)據(jù)質(zhì)量評(píng)價(jià)。本文根據(jù)《GB/T 36344-2018 信息技術(shù)數(shù)據(jù)質(zhì)量評(píng)價(jià)指標(biāo)》[6],選取完整性、準(zhǔn)確性、冗余性和一致性來(lái)評(píng)價(jià)安徽港口物流有限公司物流車(chē)輛GPS 數(shù)據(jù),評(píng)價(jià)指標(biāo)計(jì)算方法如下:
1)完整性
完整性是按照數(shù)據(jù)規(guī)則要求,用于描述數(shù)據(jù)集中所有元素非空的程度。完整性分為數(shù)據(jù)元素完整性和數(shù)據(jù)記錄完整性。計(jì)算公式如下:
100% -(B/A) × 100%
其中,B 為缺失值數(shù)據(jù)量,A 為所有字段總數(shù)據(jù)量。如果只有一條日志記錄,則默認(rèn)100%。
2)準(zhǔn)確性
準(zhǔn)確性是指待評(píng)價(jià)數(shù)據(jù)元素與期望的數(shù)據(jù)元素之間的真實(shí)程度,即待評(píng)價(jià)數(shù)據(jù)元素是否錯(cuò)誤或異常。準(zhǔn)確性指的是數(shù)據(jù)格式合規(guī)性、數(shù)據(jù)重復(fù)率和數(shù)據(jù)唯一性。計(jì)算公式如下:
其中,Ai為第i個(gè)待檢測(cè)字段符合準(zhǔn)確性檢測(cè)函數(shù)的行數(shù),待檢測(cè)字段數(shù)為n,B為待測(cè)表的行數(shù)。
3)冗余性
冗余性主要評(píng)價(jià)數(shù)據(jù)集中無(wú)意義的冗余記錄占整個(gè)數(shù)據(jù)集中記錄的程度。冗余性分?jǐn)?shù)由去重后數(shù)據(jù)集的數(shù)據(jù)量與總數(shù)據(jù)量的比例構(gòu)成,計(jì)算公式如下:
其中,A為對(duì)數(shù)據(jù)集進(jìn)行去重后的總數(shù)據(jù)量,B為待評(píng)價(jià)數(shù)據(jù)集的總數(shù)據(jù)量。
4)一致性
一致性是指用于描述數(shù)據(jù)與數(shù)據(jù)之間在某一特定條件下滿足某一相同的條件或狀態(tài)。一致性指標(biāo)包括相同數(shù)據(jù)一致性和關(guān)聯(lián)數(shù)據(jù)一致性。計(jì)算公式如下:
其中,Ai為待評(píng)價(jià)數(shù)據(jù)集中符合一致性評(píng)價(jià)要求的行數(shù),待檢測(cè)字段數(shù)為n,B為待評(píng)價(jià)數(shù)據(jù)集中所有數(shù)據(jù)元素個(gè)數(shù)。
本文對(duì)GPS軌跡信息相關(guān)的6個(gè)數(shù)據(jù)項(xiàng)(設(shè)備號(hào)、時(shí)間、經(jīng)度、緯度、速度、方向)所產(chǎn)生的811 402 條實(shí)體數(shù)據(jù)進(jìn)行質(zhì)量評(píng)價(jià)的結(jié)果如表1所示。
表1 GPS數(shù)據(jù)質(zhì)量評(píng)價(jià)結(jié)果
從表1可以看出:GPS數(shù)據(jù)總體準(zhǔn)確性得分較好,數(shù)據(jù)缺失較少,有較高的利用價(jià)值,利用GPS 數(shù)據(jù)可以挖掘運(yùn)力特征。
對(duì)于一些影響運(yùn)力的因素(如運(yùn)營(yíng)里程、運(yùn)營(yíng)天數(shù)、運(yùn)營(yíng)時(shí)長(zhǎng)),需要計(jì)算相鄰經(jīng)緯度之間的距離差,結(jié)合時(shí)間戳以統(tǒng)計(jì)駕駛員在指定范圍內(nèi)的駕駛情況和停車(chē)情況。由于GPS軌跡數(shù)據(jù)的量級(jí)非常龐大,并且存在冗余和異常,因此本文通過(guò)對(duì)GPS經(jīng)緯度數(shù)據(jù)進(jìn)行數(shù)據(jù)降采樣,剔除GPS 軌跡數(shù)據(jù)中的冗余數(shù)據(jù),從原始數(shù)據(jù)中提煉出有價(jià)值的數(shù)據(jù)。在保證數(shù)據(jù)準(zhǔn)確性的情況下,減少冗余數(shù)據(jù)對(duì)特征挖掘的影響,同時(shí)提高特征提取的效率。
GPS 軌跡數(shù)據(jù)降采樣的主要過(guò)程是:首先,對(duì)選取的30天內(nèi)的GPS數(shù)據(jù)進(jìn)行處理,剔除GPS數(shù)據(jù)中的錯(cuò)誤數(shù)據(jù),同時(shí)對(duì)各數(shù)據(jù)字段進(jìn)行數(shù)據(jù)整合,包括數(shù)據(jù)類(lèi)型統(tǒng)一和數(shù)據(jù)格式的確定,從而為下一步的數(shù)據(jù)降采樣提供可靠的GPS 基礎(chǔ)數(shù)據(jù);其次,針對(duì)多來(lái)源GPS數(shù)據(jù)頻率不一致的情況,使用按時(shí)間間隔等距抽樣的方法降低高頻率數(shù)據(jù),實(shí)現(xiàn)不同來(lái)源數(shù)據(jù)的頻率一致化;最后,選取最優(yōu)的降采樣參數(shù),使用Douglas-Peucker 算法[7]對(duì)處理后的GPS 基礎(chǔ)數(shù)據(jù)進(jìn)行降采樣操作,進(jìn)而實(shí)現(xiàn)在保證GPS 數(shù)據(jù)準(zhǔn)確性的情況下,提高數(shù)據(jù)降采樣的精度。
2021 年12 月,福田汽車(chē)集團(tuán)發(fā)布了商用車(chē)行業(yè)首個(gè)物流景氣指數(shù)“智科物流指數(shù)”,該指數(shù)通過(guò)對(duì)車(chē)輛的運(yùn)營(yíng)里程、運(yùn)營(yíng)天數(shù)、運(yùn)營(yíng)時(shí)長(zhǎng)、運(yùn)價(jià)和貨運(yùn)周轉(zhuǎn)量5個(gè)因子進(jìn)行整合分析,通過(guò)設(shè)置不同的系數(shù)權(quán)重,以前一年度數(shù)據(jù)均值為基準(zhǔn)來(lái)計(jì)算商用車(chē)行業(yè)景氣度值[8]。然而,該指數(shù)的計(jì)算細(xì)節(jié)并未公開(kāi)披露。本文借鑒該指數(shù)的5個(gè)因子來(lái)衡量區(qū)域運(yùn)力,并利用熵權(quán)法計(jì)算區(qū)域運(yùn)力值。
熵權(quán)法充分考慮了系統(tǒng)中各指標(biāo)的變化程度,根據(jù)各指標(biāo)的差異程度來(lái)對(duì)其賦予不同的權(quán)重[12]。通常來(lái)說(shuō),一個(gè)指標(biāo)的信息熵越小,說(shuō)明它在綜合評(píng)價(jià)中所提供的信息量越多,相應(yīng)的權(quán)重也就越高。假設(shè)某區(qū)域擁有n0輛車(chē),選取m個(gè)指標(biāo)(m=5,分別代表30天內(nèi)的運(yùn)營(yíng)里程、運(yùn)營(yíng)天數(shù)、運(yùn)營(yíng)時(shí)長(zhǎng)、運(yùn)價(jià)和貨運(yùn)周轉(zhuǎn)量),剔除空值和異常值后隨機(jī)選取n輛車(chē)作為熵權(quán)法的輸入,假定第i個(gè)車(chē)輛的第j個(gè)指標(biāo)數(shù)值表示為xij(i=1,2,...,n;j=1,2,...,m)。因?yàn)閙個(gè)指標(biāo)的計(jì)量單位存在差異,可能會(huì)對(duì)最終結(jié)果產(chǎn)生影響。因此,需要對(duì)這些指標(biāo)進(jìn)行標(biāo)準(zhǔn)化處理,將它們的絕對(duì)值轉(zhuǎn)化成相對(duì)值。指標(biāo)歸一化的方法如下所示:
第j項(xiàng)指標(biāo)的熵值計(jì)算方法如下所示:
其中,k=>0,ln為自然對(duì)數(shù),且滿足ej>=0。
信息熵冗余度(即各指標(biāo)的差異化系數(shù))計(jì)算方式如下所示:
根據(jù)信息熵冗余度計(jì)算運(yùn)力評(píng)估指標(biāo)體系中各項(xiàng)指標(biāo)的權(quán)重,如下所示:
在獲得各指標(biāo)的權(quán)重后,各車(chē)輛的運(yùn)力綜合得分計(jì)算方法如下所示:
因此,該區(qū)域所擁有的n0輛車(chē)的運(yùn)力綜合得分sall的計(jì)算方法如下所示:
可見(jiàn),基于熵權(quán)法可以計(jì)算出該區(qū)域30天的綜合運(yùn)力得分,也可以計(jì)算出該區(qū)域歷史各個(gè)月份的綜合運(yùn)力得分。以該區(qū)域歷史的綜合運(yùn)力得分作為標(biāo)簽來(lái)構(gòu)建該區(qū)域運(yùn)力得分?jǐn)?shù)據(jù)集,并以此作為區(qū)域運(yùn)力預(yù)測(cè)模型的訓(xùn)練數(shù)據(jù)。
天氣因素(降雨、氣溫、氣壓、風(fēng)速等)會(huì)影響車(chē)輛運(yùn)輸?shù)臅r(shí)間、油耗等,從而影響運(yùn)力值的變化,因此天氣因素也需要納入運(yùn)力預(yù)測(cè)模型。由于在模型訓(xùn)練階段采用的是歷史已知數(shù)據(jù),故此可以直接應(yīng)用天氣數(shù)據(jù)進(jìn)行訓(xùn)練。然而在預(yù)測(cè)階段,由于未來(lái)天氣是未知的,只能使用天氣預(yù)報(bào)數(shù)據(jù)來(lái)進(jìn)行預(yù)測(cè),這會(huì)導(dǎo)致天氣預(yù)報(bào)的準(zhǔn)確性對(duì)運(yùn)力預(yù)測(cè)模型的準(zhǔn)確性產(chǎn)生影響。同時(shí),天氣預(yù)報(bào)的準(zhǔn)確性也會(huì)隨時(shí)間衰減,因此本文采用了基于時(shí)間衰減的天氣因素提取算法來(lái)提取天氣相關(guān)因素。天氣因素提取包含訓(xùn)練階段的天氣數(shù)據(jù)嵌入和預(yù)測(cè)階段的基于時(shí)間衰減的天氣預(yù)報(bào)數(shù)據(jù)嵌入。
在模型訓(xùn)練階段,根據(jù)歷史30天的降雨、氣溫、氣壓、風(fēng)速的氣象數(shù)據(jù)構(gòu)建4個(gè)天氣因素的特征向量,生成30m維向量,m為天氣因素個(gè)數(shù)(本文m取值為4)。這30m 維向量作為區(qū)域車(chē)輛運(yùn)力預(yù)測(cè)模型訓(xùn)練時(shí)的天氣因素輸入特征。在模型預(yù)測(cè)階段,本文選取中國(guó)氣象數(shù)據(jù)網(wǎng)對(duì)評(píng)估區(qū)域未來(lái)30天的天氣預(yù)報(bào)數(shù)據(jù)(降雨、氣溫、氣壓、風(fēng)速)作為初始數(shù)據(jù),并采用時(shí)間衰減算法來(lái)修正天氣預(yù)報(bào)數(shù)據(jù)以作為區(qū)域車(chē)輛運(yùn)力預(yù)測(cè)模型的天氣因素輸入特征。具體算法流程如下:
Step4:如圖1 所示,由于預(yù)測(cè)的是未來(lái)30 天的數(shù)據(jù),僅需要對(duì)30天天氣預(yù)報(bào)數(shù)據(jù)進(jìn)行修正,因此采用權(quán)值集合的平均數(shù)作為修正權(quán)值,如下所示:
圖1 天氣因素提取
根據(jù)上式可以計(jì)算得到未來(lái)30 天的天氣預(yù)報(bào)修正結(jié)果W={wj},j=1,2,..,30,其中wj=[rj,tj,pj,sj]包含降雨、氣溫、氣壓、風(fēng)速4 個(gè)維度數(shù)據(jù),共生產(chǎn)成30×4維的輸出向量,作為后續(xù)區(qū)域運(yùn)力預(yù)測(cè)模型的入模特征。
為了進(jìn)一步提升模型的預(yù)測(cè)準(zhǔn)確率,本文將天氣變化因素作為特征變量嵌入到預(yù)測(cè)模型中。給出針對(duì)區(qū)域所有車(chē)輛的運(yùn)力得分集合D={{xi,yi}}(|D|=n,xi∈Rm,yi∈R),其中xi為車(chē)輛運(yùn)力得分對(duì)應(yīng)的計(jì)算指標(biāo),yi為對(duì)應(yīng)的車(chē)輛運(yùn)力得分(i∈N表示運(yùn)力得分集合所覆蓋的時(shí)間長(zhǎng)度,以月為單位)。通過(guò)熵權(quán)法計(jì)算得到區(qū)域所有車(chē)輛每30天的運(yùn)力值后,使用大小為Sw步長(zhǎng)為L(zhǎng)s的滑動(dòng)窗口選取數(shù)據(jù)作為輸入數(shù)據(jù),滑動(dòng)窗口的下一個(gè)位置為模型label。
如圖2所示,選取前1~6個(gè)30天的多因素特征ti作為模型的輸入數(shù)據(jù),以第7個(gè)30天運(yùn)力得分yi為模型label,其中多因素特征ti為第i個(gè)30 天的運(yùn)力值數(shù)據(jù)和第i個(gè)30 天多因素向量融合得到的向量。使用窗口大小為6步長(zhǎng)為l的滑動(dòng)窗口沿時(shí)序方向進(jìn)行滑動(dòng),得到一系列數(shù)據(jù)來(lái)構(gòu)建數(shù)據(jù)集。將構(gòu)建的數(shù)據(jù)集劃分為訓(xùn)練集、驗(yàn)證集、測(cè)試集對(duì)模型進(jìn)行訓(xùn)練和預(yù)測(cè),并采用相應(yīng)的評(píng)價(jià)指標(biāo)進(jìn)行模型評(píng)估。在完成訓(xùn)練集構(gòu)建后,分別訓(xùn)練XGBoost 模型和LSTM模型,并進(jìn)行調(diào)參,選取最優(yōu)的模型結(jié)果使用投票法進(jìn)行加權(quán)融合,從而得到對(duì)區(qū)域所有車(chē)輛在未來(lái)一段時(shí)間內(nèi)的運(yùn)力趨勢(shì)預(yù)測(cè)。
圖2 數(shù)據(jù)分割處理
本文使用基于CUDA 11.0 的深度學(xué)習(xí)框架Py-Torch 1.7.1 構(gòu)建BERT 和LSTM 網(wǎng)絡(luò)模型,使用scikitlearn工具包進(jìn)行數(shù)據(jù)標(biāo)準(zhǔn)化等處理,使用XGBoost 工具包構(gòu)建XGBoost 模型,實(shí)驗(yàn)平臺(tái)為內(nèi)存64G,顯存24G的Ubuntu 18.04 LTS系統(tǒng)。
本文選取了安徽港口物流有限公司銅陵區(qū)域2019年6月—2022年5月期間的貨運(yùn)車(chē)輛GPS數(shù)據(jù)和天氣數(shù)據(jù)構(gòu)建了實(shí)驗(yàn)數(shù)據(jù)集。數(shù)據(jù)集描述如表2所示。
表2 數(shù)據(jù)集描述
XGBoost模型和LSTM模型的超參數(shù)如表3和表4所示。
表3 XGBoost超參數(shù)設(shè)置
表4 LSTM超參數(shù)設(shè)置
本文采用常用的回歸模型評(píng)價(jià)指標(biāo):平均絕對(duì)誤差(MAE)、平方根誤差(RMSE)和平均絕對(duì)百分誤差(MAPE)作為模型性能的評(píng)價(jià)指標(biāo)。為驗(yàn)證本文提出的區(qū)域運(yùn)力預(yù)測(cè)模型方法的性能,與多種基線方法進(jìn)行了對(duì)比:
1)SVM(支持向量機(jī)):對(duì)于構(gòu)建的數(shù)據(jù)集去除天氣因素,使用運(yùn)力分和其他數(shù)據(jù)作為模型入模特征,使用SVM模型進(jìn)行回歸預(yù)測(cè)。
2)XGBoost:對(duì)于構(gòu)建的數(shù)據(jù)集去除天氣因素,使用運(yùn)力分和其他數(shù)據(jù)作為模型入模特征,使用XGBoost模型進(jìn)行回歸預(yù)測(cè)。
3)LSTM:對(duì)于構(gòu)建的數(shù)據(jù)集去除天氣因素,使用運(yùn)力分作為模型入模特征,使用LSTM 網(wǎng)絡(luò)提取輸入特征并結(jié)合全連接網(wǎng)絡(luò)實(shí)現(xiàn)運(yùn)力分預(yù)測(cè)。
對(duì)比實(shí)驗(yàn)結(jié)果如表5 所示。從表5 可以看出,本文提出的預(yù)測(cè)模型在各項(xiàng)指標(biāo)上均優(yōu)于其他基線模型。由于本文是序列預(yù)測(cè)型任務(wù),而LSTM 模型對(duì)于序列預(yù)測(cè)型任務(wù)非常適配,因此取得了較好的效果。本文方法在融合了XGBoost 和LSTM模型效果的同時(shí)還加入天氣因素,因此取得了最優(yōu)的預(yù)測(cè)效果。
表5 基線對(duì)比結(jié)果
為提升物流公司應(yīng)對(duì)區(qū)域運(yùn)力變化的預(yù)判能力,本文提出了一種區(qū)域運(yùn)力預(yù)測(cè)方法。該方法利用熵權(quán)法獲取區(qū)域歷史運(yùn)力得分,使用基于權(quán)值修正的天氣因素生成方法,根據(jù)歷史天氣數(shù)據(jù)構(gòu)建修正權(quán)值對(duì)天氣預(yù)報(bào)數(shù)據(jù)進(jìn)行修正,獲取天氣因素特征并生成對(duì)應(yīng)的向量化特征表示。最后使用XGBoost 和LSTM模型分別進(jìn)行序列預(yù)測(cè),并融合兩個(gè)模型的預(yù)測(cè)結(jié)果作為區(qū)域運(yùn)力的預(yù)測(cè)結(jié)果。