陳孝文,蘇 攀,李夏青,張 俊,王 林
(1.湖北中煙工業(yè)有限責(zé)任公司,湖北 武漢 430040;2.湖北省社會(huì)科學(xué)院經(jīng)濟(jì)研究所,湖北 武漢 430077;3.華中科技大學(xué) 管理學(xué)院,湖北 武漢 430074)
隨著大數(shù)據(jù)時(shí)代的到來(lái),當(dāng)前的預(yù)測(cè)研究能夠在復(fù)雜的決策情境下,結(jié)合大量數(shù)據(jù)學(xué)習(xí)構(gòu)建分析系統(tǒng),對(duì)真實(shí)世界數(shù)據(jù)的分布做出模擬。預(yù)測(cè)問(wèn)題無(wú)處不在,如產(chǎn)品供給需求預(yù)測(cè)、糧食霉變預(yù)測(cè)、電力產(chǎn)能預(yù)測(cè)、輿論周期預(yù)測(cè)等。然而,由于預(yù)測(cè)需求的多樣化,傳統(tǒng)的數(shù)據(jù)處理方法已經(jīng)很難滿足要求。因此,需要提出精度更準(zhǔn)、數(shù)據(jù)處理效率更高、泛化能力更強(qiáng)的預(yù)測(cè)方法。
關(guān)于預(yù)測(cè)模型,已有學(xué)者做出大量研究并應(yīng)用于各類領(lǐng)域。WANG等[1]結(jié)合經(jīng)驗(yàn)?zāi)P头纸夂腿斯ぶ悄苣P蛯?duì)風(fēng)速進(jìn)行預(yù)測(cè),得出混合模型能提高預(yù)測(cè)精度的結(jié)論。FAN等[2]提出了一種用于多視距時(shí)間序列預(yù)測(cè)的端到端深度學(xué)習(xí)預(yù)測(cè)模型,并在兩個(gè)不同領(lǐng)域的大規(guī)模預(yù)測(cè)數(shù)據(jù)集上證明了該模型的有效性。LI等[3]提出用變換器來(lái)解決時(shí)間序列預(yù)測(cè)問(wèn)題。LUNDBERG等[4]提出了一個(gè)解釋預(yù)測(cè)模型SHAP,其能為每個(gè)特征分配一個(gè)特定預(yù)測(cè)的重要值。RIBEIRO等[5]將新的解釋技術(shù)LIME加入到解釋模型中,通過(guò)解釋文本和圖像分類等不同模型驗(yàn)證了方法的靈活性。冉靖等[6]對(duì)ARIMA等概率統(tǒng)計(jì)模型、支持向量機(jī)等機(jī)器學(xué)習(xí)模型、深度學(xué)習(xí)模型、模型分解方法等基本預(yù)測(cè)方法和組合預(yù)測(cè)方法進(jìn)行對(duì)比分析,總結(jié)了各類方法的優(yōu)點(diǎn)和局限性。張莉等[7]利用改進(jìn)的GARCH-MIDAS模型提高了股票波動(dòng)率的預(yù)測(cè)性能。李潔等[8]構(gòu)建了基于長(zhǎng)短時(shí)記憶網(wǎng)絡(luò)(LSTM)的高速鐵路客流預(yù)測(cè)模型,證明了LSTM 客流模型比其他模型預(yù)精度更高。楊青等[9]基于深度神經(jīng)網(wǎng)絡(luò)優(yōu)化技術(shù)構(gòu)造了一個(gè)深層LSTM神經(jīng)網(wǎng)絡(luò),并將其應(yīng)用于全球30個(gè)股票指數(shù)3種不同期限的預(yù)測(cè)研究。郭金錄[10]提出了融合變分模態(tài)分解(VMD)、集合經(jīng)驗(yàn)?zāi)B(tài)分解二層分解技術(shù)及長(zhǎng)短期記憶深度神經(jīng)網(wǎng)絡(luò)的滬深300股指收益率組合預(yù)測(cè)模型。崔煥影等[11]基于經(jīng)驗(yàn)?zāi)B(tài)分解算法(EMD)、遺傳算法(GA)、神經(jīng)網(wǎng)絡(luò)(BP)等模型及其組合預(yù)測(cè)模型,對(duì)中國(guó)碳市場(chǎng)交易價(jià)格進(jìn)行短期預(yù)測(cè)和長(zhǎng)期預(yù)測(cè)。
目前,已有模型大多數(shù)是“黑盒”模型,即由各參數(shù)之間復(fù)雜的非線性交互來(lái)產(chǎn)生預(yù)測(cè)結(jié)果。此類模型的問(wèn)題在于難以解釋模型的預(yù)測(cè)過(guò)程,無(wú)法判斷模型求解結(jié)果的可靠性。而常用的深度神經(jīng)網(wǎng)絡(luò)(DNN)解釋方法又不適用于時(shí)間序列,后置方法也沒(méi)有考慮輸入特征的時(shí)間或延遲。在時(shí)間序列中時(shí)間步之間的相關(guān)性通常較為顯著,所以后置方法會(huì)降低解釋的質(zhì)量。也有學(xué)者提出了一種基于注意力的預(yù)測(cè)模型,可以用來(lái)解釋時(shí)序數(shù)據(jù)。不同于其他模型,多視界預(yù)測(cè)包含許多不同類型的輸入特征,可為多視界預(yù)測(cè)提供相關(guān)的時(shí)間步,但不能在給定的時(shí)間步中標(biāo)注不同特征的重要性。因此,需要新方法來(lái)解決多維水平預(yù)測(cè)中數(shù)據(jù)的異構(gòu)性,并使這些預(yù)測(cè)具有可解釋性。
綜上,筆者提出了一種結(jié)合變分模態(tài)分解 (variational mode decomposition,VMD)和時(shí)域融合變換器(temporal fusion transformer,TFT)的預(yù)測(cè)模型,VMD用于充分挖掘原始數(shù)據(jù)特征,TFT模型能在保證高性能預(yù)測(cè)的同時(shí)為預(yù)測(cè)過(guò)程提供一定的解釋。最后,以白卡紙價(jià)格數(shù)據(jù)為例,驗(yàn)證所提模型的可行性,并給出可解釋性的預(yù)測(cè)過(guò)程。
變分模態(tài)分解是一種自適應(yīng)、完全非遞歸的模態(tài)變分和信號(hào)處理的方法,可以根據(jù)實(shí)際情況確定所給序列的模態(tài)分解個(gè)數(shù),通過(guò)匹配每種模態(tài)的最佳中心頻率和有限帶寬,實(shí)現(xiàn)固有模態(tài)分量(IMF)的有效分離和信號(hào)的頻域劃分,得到給定信號(hào)的有效分解成分,最終獲得變分問(wèn)題的最優(yōu)解。時(shí)域融合變換器 是一種基于注意力的多視界預(yù)測(cè)深度學(xué)習(xí)神經(jīng)模型,結(jié)合了高性能的多元預(yù)測(cè)與時(shí)態(tài)動(dòng)力學(xué)的可解釋洞察。TFT使用遞歸層進(jìn)行局部處理,使用可解釋的自我注意層進(jìn)行長(zhǎng)期依賴,從而學(xué)習(xí)不同尺度下的時(shí)間關(guān)系。TFT利用特定的組件來(lái)選擇相關(guān)的特征,并利用一系列的門控層來(lái)抑制不必要的特征,從而在各個(gè)場(chǎng)景中均保持較高性能。
VMD是DRAGOMIRETSKIY和ZOSSO[12]于2014年提出的一個(gè)完全非遞歸的模型,可捕獲原始數(shù)據(jù)的不規(guī)則特征,是一種有效的信號(hào)分解方法,比經(jīng)驗(yàn)?zāi)B(tài)分解(EMD)具有更好的適應(yīng)性和分解效果。在VMD中,原信號(hào)f(t)被VMD分解成多個(gè)子模態(tài)uk,k=1,2,…,K,每個(gè)子模態(tài)都有一個(gè)中心頻率ωk。VMD的目標(biāo)函數(shù)是使各子模態(tài)的頻帶寬度之和最小,約束條件為各子模態(tài)的頻帶寬度之和等于原始信號(hào)。
(1)
式中:j為虛數(shù)單位;t為迭代次數(shù);K為子模態(tài)數(shù);δ(t)為Dirac分布;*為卷積。
然后,通過(guò)引入二次懲罰項(xiàng)alpha和拉格朗日乘子λ(t),將約束問(wèn)題轉(zhuǎn)化為無(wú)約束問(wèn)題,從而得出上述問(wèn)題的最優(yōu)解。alpha可以保證在高斯噪聲存在的情況下精確地重構(gòu)子模態(tài),λ(t)可以保證無(wú)約束問(wèn)題等價(jià)于有約束問(wèn)題。其中,無(wú)約束問(wèn)題可以描述為:
(2)
(3)
(4)
(5)
(6)
式中:τ為更新后的參數(shù);ε為計(jì)算精度。
(7)
式中:f(t)為原始信號(hào)序列;uk(t)為分解后的子模態(tài);K為子模態(tài)數(shù);Ns為樣本個(gè)數(shù)。根據(jù)以往經(jīng)驗(yàn),當(dāng)rres沒(méi)有明顯下降趨勢(shì)時(shí),模態(tài)數(shù)即可確定。
時(shí)域融合變換器是谷歌云人工智能團(tuán)隊(duì)提出的一種內(nèi)在可解釋的多視界的時(shí)間序列預(yù)測(cè)深度學(xué)習(xí)模型,比一般黑盒模型具有更強(qiáng)的解釋能力。多水平預(yù)測(cè)問(wèn)題通常包含復(fù)雜的輸入,包括靜態(tài)協(xié)變量、已知的未來(lái)輸入和其他只有在歷史上觀察到的外生時(shí)間序列,而TFT將高性能的多水平預(yù)測(cè)與可解釋的見(jiàn)解相結(jié)合。利用靜態(tài)協(xié)變量編碼器來(lái)編碼上下文向量;利用門控機(jī)制和依賴于樣本的變量選擇,最大程度地減少無(wú)關(guān)輸入;序列到序列層,用于本地處理已知和觀察到的輸入;時(shí)間自注意解碼器,用于了解數(shù)據(jù)集中存在的任何長(zhǎng)期依存關(guān)系。TFT的模型架構(gòu)如圖1所示。TFT能夠高效使用規(guī)范組件為每種輸入類型構(gòu)建特征表示,從而提高各種預(yù)測(cè)問(wèn)題的預(yù)測(cè)性能。
圖1 時(shí)域融合變換器的模型結(jié)構(gòu)
TFT包括5個(gè)主要組成部分,即門控機(jī)制、變量選擇網(wǎng)絡(luò)、靜態(tài)協(xié)變量編碼器、時(shí)間處理和多水平預(yù)測(cè)區(qū)間預(yù)測(cè)。①門控機(jī)制,它的功能是跳過(guò)架構(gòu)中所有未使用的組件,提供自適應(yīng)深度和網(wǎng)絡(luò)復(fù)雜性,以適應(yīng)不同的數(shù)據(jù)集和場(chǎng)景。②變量選擇網(wǎng)絡(luò),在每個(gè)時(shí)間步長(zhǎng)選擇相應(yīng)的輸入變量。③靜態(tài)協(xié)變量編碼器,將靜態(tài)特征集成到網(wǎng)絡(luò)中,通過(guò)編碼上下文向量來(lái)約束時(shí)間動(dòng)態(tài)。④時(shí)間處理,從觀察值或已知時(shí)變輸入中學(xué)習(xí)長(zhǎng)期或短期的時(shí)間關(guān)系。序列到序列層用于本地處理,而長(zhǎng)期項(xiàng)取決于一個(gè)新的可解釋的多頭注意塊捕獲的使用。⑤多水平預(yù)測(cè)區(qū)間預(yù)測(cè),通過(guò)分位數(shù)預(yù)測(cè)來(lái)確定每個(gè)預(yù)測(cè)區(qū)間內(nèi)可能的目標(biāo)值的范圍。
1.2.1 控制機(jī)制
門控殘差網(wǎng)絡(luò)(GRN)能夠使模型的變量與目標(biāo)之間的非線性運(yùn)算更加靈活。GRN包含主輸入a和可選上下文c兩種類型的輸入。
GRNω(a,c)=LayerNorm(a+GLUω(η1))
(8)
η1=W1,ωη2+b1,ω
(9)
η2=ELU(W2,ωa+W3,ωc+b2,ω)
(10)
式中:ELU為指數(shù)線性單元激活函數(shù);η1和η2為中間層,η1、η2∈Rdmodel;dmodel為隱藏狀態(tài)大?。籐ayerNorm表示標(biāo)準(zhǔn)層歸一化;ω為權(quán)重共享;W(.)為權(quán)重,W(.)∈Rdmodel×dmodel。
基于門控線性單元(GLUs)的組件門控層可以提供彈性,以抑制給定數(shù)據(jù)集不需要的任何體系結(jié)構(gòu)。
GLUω(γ)=σ(W4,ωγ+b4,ω)⊙(W5,ωγ+b5,ω)
(11)
式中:γ為輸入?yún)?shù),γ∈Rdmodel;σ(.)為sigmoid激活函數(shù);b(.)為偏差,b(.)∈Rdmodel;⊙為元素Hadamard的乘積。GLU允許TFT控制GRN對(duì)初始輸入的貢獻(xiàn)度。
1.2.2 變量選擇網(wǎng)絡(luò)
Vxt=Softmax(GRNVx([I]t,cs))
(12)
(13)
(14)
1.2.3 可解釋的多頭注意力
TFT采用自注意機(jī)制學(xué)習(xí)不同時(shí)間步長(zhǎng)之間的長(zhǎng)期關(guān)系,該機(jī)制對(duì)基于變換器的多頭注意結(jié)構(gòu)進(jìn)行了改進(jìn),增強(qiáng)了可解釋性。一般來(lái)說(shuō),基于Q∈RN×dattn與鍵K∈RN×dattn之間的關(guān)系,注意機(jī)制將V∈RN×dV的值標(biāo)度如下:
Attention(Q,K,V)=A(Q,K)V
(15)
式中:N為輸入注意層的時(shí)間步長(zhǎng);A()為歸一化函數(shù)。針對(duì)注意力值,尺度點(diǎn)積通常采用如下方法:
(16)
注意機(jī)制的學(xué)習(xí)能力采用多頭注意方法,對(duì)不同的表示子空間采用不同的注意頭:
MultiHead(Q,K,V)=[H1,H2,…,HmH]WH
(17)
(18)
考慮到每個(gè)頭使用不同的值,單一注意力權(quán)重不能表明特定特征的重要性。因此,將多頭注意力修改為每個(gè)頭的共享值,并對(duì)所有頭進(jìn)行相加聚合:
(19)
(20)
1.2.4 分位數(shù)輸出和損失函數(shù)
TFT通過(guò)同時(shí)預(yù)測(cè)每個(gè)時(shí)間步的不同百分位數(shù)(如10、50和90)來(lái)生成點(diǎn)預(yù)測(cè)區(qū)間。分位數(shù)預(yù)測(cè)則是利用時(shí)域融合解碼器的線性變換輸出產(chǎn)生。采用聯(lián)合最小化分位數(shù)損失來(lái)訓(xùn)練TFT,并將所有分位數(shù)的輸出相加,具體方法如下:
(21)
(22)
白卡紙是由純優(yōu)質(zhì)木漿制成的白色卡紙,主要用于包裝裝潢用的印刷承印物,有較高的挺度、耐破度和平滑度。白卡紙作為產(chǎn)品包裝紙和塑料的主要替代品,隨著食品、3C產(chǎn)品、化妝品銷量的逐年增長(zhǎng),以及 2021年1月1日“禁塑令”的推出,白卡紙的價(jià)格經(jīng)歷了快速拉升,又急速下跌的“火與冰”的行情。準(zhǔn)確預(yù)測(cè)白卡紙價(jià)格不僅具有重要的現(xiàn)實(shí)意義,也具有較高的挑戰(zhàn)性。因此,筆者以白卡紙價(jià)格為例,進(jìn)行VMD-TFT可解釋預(yù)測(cè)模型的應(yīng)用研究。
白卡紙價(jià)格數(shù)據(jù)來(lái)源于《造紙信息》期刊(http://zzxx.ijournals.cn/)每月發(fā)布的各品牌白卡紙的均價(jià)。其中,2010年1月到2020年12月的白卡紙價(jià)格數(shù)據(jù)為訓(xùn)練集,2021年1月到2021年9月的白卡紙價(jià)格數(shù)據(jù)為測(cè)試集。2010年1月—2021年9月白卡紙價(jià)格如圖2所示,可以看出受原材料紙漿價(jià)格上漲的影響,自2020年9月白卡紙價(jià)格節(jié)節(jié)攀登,至2021年5月白卡紙價(jià)格才開(kāi)始回落。
圖2 2010年1月—2021年9月白卡紙價(jià)格
運(yùn)用均方誤差(RMSE)、平均絕對(duì)百分比誤差(MAPE)和平均絕對(duì)誤差(MAE)3個(gè)指標(biāo)計(jì)算測(cè)試集的精度:
(23)
(24)
(25)
(1)單因素預(yù)測(cè)。使用向量自回歸(VAR)模型來(lái)選擇每月白卡紙價(jià)格預(yù)測(cè)合適的滯后階數(shù)。VAR模型選擇滯后階數(shù)采用4個(gè)推薦指標(biāo):赤池信息量準(zhǔn)則(Akaike information criterion,AIC)、貝葉斯信息準(zhǔn)則(Bayesian information criterion,BIC)、最終預(yù)報(bào)誤差準(zhǔn)則(final prediction error,F(xiàn)PE)和Hannan-Quinn信息準(zhǔn)則(HQIC)。VAR 模型的結(jié)果如表1所示,AIC、FPE、HQIC皆推薦12為滯后階數(shù),即用滯后12個(gè)月的白卡紙價(jià)格來(lái)預(yù)測(cè)當(dāng)月的白卡紙價(jià)格最合適。采用網(wǎng)格搜索法來(lái)尋找模型最優(yōu)的參數(shù)組合,通過(guò)多次實(shí)驗(yàn),設(shè)置時(shí)域融合TFT模型的參數(shù)為:學(xué)習(xí)速率為0.3,注意頭的數(shù)量為1,隱藏層數(shù)為16,隱藏連續(xù)數(shù)為8,每次迭代數(shù)據(jù)集大小為32。單因素TFT的預(yù)測(cè)結(jié)果顯示MAPE為18.02%,預(yù)測(cè)效果較差。為應(yīng)對(duì)單因素模型預(yù)測(cè)性能低的問(wèn)題,筆者考慮使用VMD分解模型對(duì)原始序列進(jìn)行分解,以更充分地提取數(shù)據(jù)的特征。
表1 白卡紙價(jià)格滯后階數(shù)的選擇
(2)VMD-TFT多因素可解釋預(yù)測(cè)模型。為了減少白卡紙價(jià)格序列的非平穩(wěn)特性,采用VMD方法將原始價(jià)格序列分解為多個(gè)子模態(tài)。經(jīng)過(guò)數(shù)次實(shí)驗(yàn)后,將分解的子模態(tài)數(shù)目定為4,分解后的子序列能取得較好的預(yù)測(cè)效果。分解后的子序列如圖3所示,低頻子模態(tài)代表了原始白卡紙價(jià)格序列的總體趨勢(shì),高頻子模態(tài)則反映了局部的波動(dòng)趨勢(shì),能很好地反映價(jià)格波動(dòng)的拐點(diǎn)。經(jīng)過(guò)VMD提取后的子序列比原數(shù)據(jù)更加平滑,有利于提高白卡紙價(jià)格預(yù)測(cè)的性能。
圖3 2010年1月—2021年9月白卡紙價(jià)格原序列及VMD分解后的子序列
為驗(yàn)證所提出的時(shí)域融合TFT模型的預(yù)測(cè)效果,選用流行的BP神經(jīng)網(wǎng)絡(luò)(BPNN)、支持向量機(jī)(SVM)、循環(huán)神經(jīng)網(wǎng)絡(luò)(RNN)、長(zhǎng)短期神經(jīng)網(wǎng)絡(luò)(LSTM)和門控循環(huán)神經(jīng)網(wǎng)絡(luò)(GRU)作為對(duì)比算法。與單因素模型滯后12個(gè)月保持一致,多因素預(yù)測(cè)的滯后階數(shù)也選擇12個(gè)月。所有模型均通過(guò)Python軟件進(jìn)行編碼。經(jīng)過(guò)多組實(shí)驗(yàn),時(shí)域融合TFT模型的參數(shù)設(shè)置為:學(xué)習(xí)速率為0.3,注意頭的數(shù)量為1,隱藏層數(shù)為8,隱藏層神經(jīng)元個(gè)數(shù)為4,每次迭代數(shù)據(jù)集大小為32。BPNN、SVM、RNN、LSTM和GRU的參數(shù)設(shè)置如表2所示。
表2 各預(yù)測(cè)模型的參數(shù)設(shè)置
各模型的預(yù)測(cè)結(jié)果如表3所示,對(duì)比MAPE、RMSE、MAE3個(gè)性能指標(biāo)可以看出,VMD-TFT模型的預(yù)測(cè)精度比BPNN、SVM、RNN、LSTM、GRU及單因素TFT均有明顯的提升,且VMD-TFT較其他模型能取得更貼近真實(shí)值的預(yù)測(cè)值(如圖4所示),能夠達(dá)到滿意的預(yù)測(cè)性能。通過(guò)與單因素預(yù)測(cè)的結(jié)果對(duì)比可以發(fā)現(xiàn),使用VMD分解后的預(yù)測(cè)模型比僅使用歷史價(jià)格序列預(yù)測(cè)的MAPE值更低,證明其預(yù)測(cè)性能更加優(yōu)異。
表3 預(yù)測(cè)結(jié)果展示與對(duì)比
圖4 各模型預(yù)測(cè)值與真實(shí)值對(duì)比圖(2021年1月—2021年9月)
TFT模型的輸入變量可解釋性權(quán)重如圖5所示,可知序列S2、S3對(duì)于白卡紙價(jià)格預(yù)測(cè)的貢獻(xiàn)更大,S1和S4的貢獻(xiàn)較低。這是因?yàn)镾1反映的是白卡紙價(jià)格波動(dòng)的大致趨勢(shì),S4反映的是分解后的殘差,故其對(duì)預(yù)測(cè)的貢獻(xiàn)較低。
圖5 各輸入變量可解釋性權(quán)重
筆者重點(diǎn)研究了變分模態(tài)分解和時(shí)域融合變換器相結(jié)合的高效可解釋預(yù)測(cè)模型,VMD有助于充分提取復(fù)雜數(shù)據(jù)中隱藏的特征,TFT模型具備高效的預(yù)測(cè)性能,且能給出可解釋性的預(yù)測(cè)過(guò)程。同時(shí),構(gòu)建一個(gè)高效的白卡紙價(jià)格預(yù)測(cè)框架,可有效應(yīng)對(duì)近年來(lái)白卡紙價(jià)格波動(dòng)劇烈的挑戰(zhàn),為可解釋預(yù)測(cè)的研究提供了新的應(yīng)用。
在新冠肺炎疫情和國(guó)際經(jīng)濟(jì)政策局勢(shì)不動(dòng)變化的背景下,如白卡紙等大宗商品的價(jià)格預(yù)測(cè)非常復(fù)雜,未來(lái)可以考慮更多的輸入因素,如國(guó)際經(jīng)濟(jì)情況和白卡紙銷量等影響。同時(shí),TFT模型具備很強(qiáng)的解釋能力,本研究只用了深度學(xué)習(xí)模型的部分結(jié)構(gòu),未來(lái)可以考慮更多因素來(lái)挖掘TFT模型的潛能,如過(guò)去已知變量、未來(lái)已知變量等,從而進(jìn)一步提高預(yù)測(cè)精度。
武漢理工大學(xué)學(xué)報(bào)(信息與管理工程版)2022年2期