隨著經(jīng)濟(jì)的高速發(fā)展,人們的消費(fèi)需求不斷升級,快遞業(yè)也日益發(fā)展壯大。根據(jù)《中國快遞業(yè)社會貢獻(xiàn)報(bào)告2021》的報(bào)道,我國快遞業(yè)已經(jīng)連續(xù)8年穩(wěn)居世界前列,全年快遞業(yè)務(wù)量和業(yè)務(wù)收入達(dá)到1 083億件和10 332.3億元,快遞業(yè)已經(jīng)成為拉動(dòng)國民經(jīng)濟(jì)發(fā)展的重要力量。
江蘇位于長江三角洲地區(qū),是我國綜合發(fā)展水平最高的省份,省域經(jīng)濟(jì)綜合競爭力居全國前列,人均GDP自2009年起連續(xù)13年全國領(lǐng)先,是我國經(jīng)濟(jì)最活躍的省份之一。作為我國經(jīng)濟(jì)強(qiáng)省,江蘇省的快遞業(yè)務(wù)量位居全國第三,十年內(nèi)增長了13倍。截止到2022年11月,江蘇省郵政快遞業(yè)務(wù)量累計(jì)78.8億件,同比增長3.4%,快遞業(yè)務(wù)收入累計(jì)740.7億元,同比增長1.1%??梢哉f,快遞業(yè)務(wù)已經(jīng)成為江蘇經(jīng)濟(jì)發(fā)展的重要領(lǐng)域之一。但是,經(jīng)濟(jì)下行使得我國各省市經(jīng)濟(jì)和居民生活受到影響,許多居民從線下購物轉(zhuǎn)為線上購物。這些不確定因素給快遞行業(yè)帶來了更大風(fēng)險(xiǎn),除了季節(jié)性因素帶來的周期性快遞業(yè)務(wù)量波動(dòng)之外,快遞業(yè)務(wù)量數(shù)據(jù)出現(xiàn)暴跌和驟增都暴露了我國在快遞行業(yè)還存在許多問題[1]。區(qū)域快遞量預(yù)測不僅能為快遞行業(yè)提供更多的數(shù)據(jù)支持,還能相應(yīng)地提高快遞行業(yè)對風(fēng)險(xiǎn)的事前預(yù)測和事后評估能力,更好地助力物流和快遞行業(yè)的發(fā)展[2]。SARIMA模型在金融、交通、醫(yī)學(xué)、電力等領(lǐng)域都有廣泛應(yīng)用,是統(tǒng)計(jì)模型中常見的時(shí)間序列預(yù)測模型。由于快遞量時(shí)間序列數(shù)據(jù)存在明顯的季節(jié)性特征,故本文采用SARIMA模型。
Python是一門免費(fèi)開源、簡單、高效的面向?qū)ο蟮木幊陶Z言。Anaconda為Python發(fā)行版本,其中包含180個(gè)科學(xué)包及其依賴項(xiàng)。本文將采用其中的Numpy,pandas,matplotlib,Scikit-learn,statsmodels,pmdarima等Python庫進(jìn)行數(shù)據(jù)分析及可視化、統(tǒng)計(jì)分析、模型建模等[3]。
同時(shí),在人工智能、大數(shù)據(jù)分析等技術(shù)飛速發(fā)展的環(huán)境下,智能化的信息搜索和收集方式更受人們歡迎。網(wǎng)絡(luò)爬蟲技術(shù)可以模擬人類的上網(wǎng)行為,在互聯(lián)網(wǎng)上“爬取”信息,并且對網(wǎng)頁信息進(jìn)行提取,自動(dòng)保存。本文采用了爬蟲技術(shù),完成了數(shù)據(jù)的采集、處理、儲存[4]。
季節(jié)性差分自回歸滑動(dòng)平均模型(Seasonal Autoregressive Integrated Moving Average,簡稱SARIMA),是常用的時(shí)間序列預(yù)測模型,其在自回歸移動(dòng)平均模型(Autoregressive Integrated Moving Average,簡稱ARIMA)的基礎(chǔ)上考慮了季節(jié)性因素。SARIMA模型在金融、交通、醫(yī)學(xué)、電力等領(lǐng)域都有廣泛的運(yùn)用。由于快遞業(yè)存在明顯的季節(jié)性特征,故本文采用SARIMA模型。
1.3.1 數(shù)據(jù)處理
在獲取到原始時(shí)間序列之后,通過Python的pandas庫導(dǎo)入數(shù)據(jù),并將原始數(shù)據(jù)拆分為測試集和訓(xùn)練集。使用訓(xùn)練集完成對模型的訓(xùn)練,將測試集作為模型測試的數(shù)據(jù),評估模型的準(zhǔn)確性。
1.3.2 數(shù)據(jù)檢驗(yàn)
在分析時(shí)間序列數(shù)據(jù)之前,需要對相關(guān)原始數(shù)據(jù)進(jìn)行檢驗(yàn)。首先,要判斷時(shí)間序列數(shù)據(jù)是否具有平穩(wěn)性,即通過ADF單位根檢驗(yàn),若數(shù)據(jù)是穩(wěn)定的,那么可以直接使用SARIMA模型進(jìn)行建模分析,否則需要進(jìn)行d階差分和D階差分處理,直到數(shù)據(jù)通過平穩(wěn)性檢驗(yàn)。
1.3.3 白噪聲檢驗(yàn)
白噪聲檢驗(yàn),即判斷經(jīng)過處理的穩(wěn)定時(shí)間序列數(shù)據(jù)是否是隨機(jī)序列,因?yàn)殡S機(jī)序列不具有分析意義。圖1為SARIMA模型建立過程。
圖1 SARIMA模型建立過程
1.3.4 確定參數(shù)
確定時(shí)間序列數(shù)據(jù)是穩(wěn)定、非隨機(jī)的,那么要對SARIMA(p,d,q)(P,D,Q)m模型參數(shù)進(jìn)行選擇,即通過自相關(guān)分析和偏自相關(guān)分析的大小來分析時(shí)間序列是否拖尾,確定趨勢自回歸階數(shù)p、趨勢移動(dòng)平均階數(shù)q、季節(jié)性自回歸階數(shù)P、季節(jié)性移動(dòng)平均階數(shù)Q;也可通過遍歷AIC(最小化信息量準(zhǔn)則)和BIC(貝葉斯信息準(zhǔn)則)的方式找到最佳參數(shù)。
1.3.5 判斷檢驗(yàn)
確定模型的殘差序列是否為白噪聲,即是否屬于隨機(jī)序列,若是則檢驗(yàn)通過,說明原始時(shí)間序列中的信息已經(jīng)被提取,不用再進(jìn)一步分析了,否則需要重新進(jìn)行參數(shù)的調(diào)整和確定。此外,還要觀察殘差圖是否符合正態(tài)分布[5]。
1.3.6 預(yù)測及評價(jià)
將測試集和SARIMA(p,d,q)(P,D,Q)m模型的預(yù)測數(shù)據(jù)進(jìn)行比對,若誤差較小,則說明模型可行,否則說明模型的誤差較大,預(yù)測的性能較差。若預(yù)測誤差小,則使用該模型對未來數(shù)據(jù)進(jìn)行預(yù)測。
由圖2可知,江蘇省快遞量呈逐漸上升趨勢。
圖2 江蘇省2016年1月—2022年11月快遞業(yè)務(wù)量
將原始數(shù)據(jù)進(jìn)行分解,得到趨勢圖、季節(jié)性圖和殘差圖(見圖3)。結(jié)果顯示,江蘇省快遞業(yè)務(wù)量的季節(jié)性明顯。一年中的11月左右達(dá)到物流量的最高峰,2—3月份為物流量的最低谷。其主要原因?yàn)椋河捎诖汗?jié)導(dǎo)致快遞停運(yùn)使物流量下降;每年的“雙11”等線上促銷活動(dòng)使得物流量達(dá)到高峰。物流量趨勢在2016年1月—2021年6月明顯上升、2021年7月—2021年12月開始趨于平穩(wěn)。其主要原因?yàn)椋簢鴥?nèi)面臨經(jīng)濟(jì)下行的困難局面,經(jīng)濟(jì)增長變緩;“雙11”期間消費(fèi)者的購物需求明顯降低,商家擔(dān)心庫存積壓、減少參與活動(dòng)等。
圖3 原始時(shí)間序列分解圖
將2016年1月—2021年6月的數(shù)據(jù)進(jìn)行劃分,2016年1月—2021年12月的前72個(gè)數(shù)據(jù)作為訓(xùn)練集,2022年1月—2022年12月的11個(gè)數(shù)據(jù)作為測試集。
Augmented Dickey-Fuller test(增項(xiàng)DF單位根檢驗(yàn),簡稱ADF)是時(shí)間序列分析中常用的檢驗(yàn)方法,表1是對2016年1月—2021年12月江蘇省快遞業(yè)務(wù)量進(jìn)行ADF檢驗(yàn)的結(jié)果。對原始數(shù)據(jù)進(jìn)行檢驗(yàn),p值大于0.05,說明原始數(shù)據(jù)是不平穩(wěn)的。在經(jīng)過一階差分處理后,p值小于0.05且t值小于顯著性水平,說明一階差分后的數(shù)據(jù)是平穩(wěn)的。從原始數(shù)據(jù)分解圖(見圖3)可知,原始數(shù)據(jù)存在明顯的季節(jié)性,其周期為12,對一階差分后的數(shù)據(jù)進(jìn)行季節(jié)性差分,p值小于0.05,且t值小于顯著性水平,說明在一階差分和季節(jié)性差分之后得到了平穩(wěn)序列,可以進(jìn)行下一步分析。同時(shí),從表中可以得知差分階層d、季節(jié)性差分階層D均為1。根據(jù)上述分析,可以確定模型為SARIMA(p,1,q)(P,1,Q)12。
表1 對2016年1月—2021年12月江蘇省快遞業(yè)務(wù)量進(jìn)行ADF檢驗(yàn)的結(jié)果
Ljung-Box檢驗(yàn),用來檢驗(yàn)m階滯后范圍內(nèi)序列是否為隨機(jī)序列[6];在statsmodels庫中可以使用acorr_ljungbox函數(shù)進(jìn)行分析。差分后的時(shí)間序列經(jīng)檢驗(yàn),p<0.001,為非白噪聲即非隨機(jī)序列,可以繼續(xù)分析。
自相關(guān)階數(shù)p、滑動(dòng)平均階數(shù)q和季節(jié)性參數(shù)P、Q可以根據(jù)ACF圖(自相關(guān)圖)、PACF圖(偏自相關(guān)圖)來確定,也可以通過遍歷AIC(最小化信息量準(zhǔn)則)和BIC(貝葉斯信息準(zhǔn)則)最小參數(shù)組合來確定。從圖4可以看出,原序列在經(jīng)過一階差分和季節(jié)性差分之后得到了平穩(wěn)序列,可以開始進(jìn)行模型的建立。通過網(wǎng)格搜索得到模型的最佳參數(shù)為SARIMA(1,1,1)(0,1,2)12。經(jīng)過白噪聲測試,模型的殘差為隨機(jī)序列,說明信息已經(jīng)被提取。
圖4 自相關(guān)系數(shù)圖和偏自相關(guān)系數(shù)圖
從表2中可以得知采用SARIMA(1,1,1)(0,1,2)12模型對2022年1月—2022年11月的數(shù)據(jù)進(jìn)行預(yù)測,相對誤差的范圍在-0.22%~0.71%,結(jié)果顯示模型的預(yù)測效果良好。圖5為SARIMA(1,1,1)(0,1,2)12模型測試集的擬合。
表2 測試集真實(shí)數(shù)據(jù)和預(yù)測數(shù)據(jù)的比較
圖5 測試集SARIMA (1, 1, 1)(0, 1, 2)12的擬合圖
SARIMA模型對于短期時(shí)間內(nèi)的預(yù)測是比較準(zhǔn)確的,隨著預(yù)測時(shí)間的延長,誤差便越來越大。所以選擇未來半年的數(shù)據(jù)預(yù)測未來目標(biāo)。在模型評估后對2022年12月—2023年5月的江蘇省快遞業(yè)務(wù)量數(shù)據(jù)進(jìn)行預(yù)測,見表3。
表3 江蘇省2022年12月—2023年5月快遞量預(yù)測
通過對2016—2022年的快遞業(yè)務(wù)量進(jìn)行分析,結(jié)果表明,SARIMA模型在短期時(shí)間內(nèi)的預(yù)測效果較好,可以將預(yù)測數(shù)據(jù)作為未來短期物流需求量的參考指標(biāo)。雖然由于經(jīng)濟(jì)下行等原因造成快遞量的波動(dòng)和近期快遞需求量變緩,但從長期來看,這些因素對快遞行業(yè)的影響會逐漸減小。從原始快遞量數(shù)據(jù)的季節(jié)、趨勢分離結(jié)果來看,每年11月是快遞業(yè)務(wù)量的高峰期,快遞行業(yè)會面臨一年中最大的機(jī)會和挑戰(zhàn),在保證物品配送、運(yùn)輸、搬運(yùn)效率的同時(shí),也要確保安全性,提升服務(wù)質(zhì)量。對于商家來說,應(yīng)提前制訂好庫存計(jì)劃、配置好資源、人員等,以面對可能出現(xiàn)的風(fēng)險(xiǎn)和機(jī)遇。在“雙11”“雙12”等線上促銷活動(dòng)中應(yīng)當(dāng)搶抓商機(jī),制訂更加合理的營銷方案;對于電商平臺來說,要為消費(fèi)者和商家建立合理的購物平臺,提高消費(fèi)者的消費(fèi)體驗(yàn),保障消費(fèi)者權(quán)益等;對于快遞服務(wù)商來說,應(yīng)該提高服務(wù)水平,確保商品運(yùn)輸?shù)馁|(zhì)量安全性,合理制訂計(jì)劃,避免庫存積壓等問題的出現(xiàn)。春節(jié)前后是快遞量的低潮期,在面臨可能需要減少資源投入時(shí),物流和快遞服務(wù)商應(yīng)制定好相應(yīng)的措施。在此過程中,區(qū)域快遞量預(yù)測和需求預(yù)測是必要的。
文章只考慮了包括季節(jié)性時(shí)間序列的單個(gè)因素,如果能夠考慮多種因素的組合實(shí)現(xiàn)區(qū)域快遞需求量預(yù)測將會使得該模型更加完善,影響快遞業(yè)的因素有許多,例如宏觀因素有區(qū)域經(jīng)濟(jì)、信息化程度、工業(yè)化程度、全球化程度、運(yùn)輸化程度等;微觀因素有從業(yè)人員數(shù)量、基礎(chǔ)設(shè)施等[6],除此之外還要考慮一些突發(fā)情況。