韓 璐,霍緯綱,張永會(huì),劉 濤
(1.中國(guó)民航大學(xué) 計(jì)算機(jī)科學(xué)與技術(shù)學(xué)院,天津 300300;2.濰坊學(xué)院 計(jì)算機(jī)工程學(xué)院,山東 濰坊 261061)
多元時(shí)間序列(Multivariate Time Series,MTS)是指在一段時(shí)間內(nèi)依照固定的采樣率對(duì)某種過(guò)程進(jìn)行觀測(cè)并記錄一組包含多個(gè)變量的數(shù)據(jù)[1],本質(zhì)上是反映這些變量隨著時(shí)間不斷變化的趨勢(shì)。對(duì)MTS的歷史觀測(cè)值進(jìn)行分析,并估計(jì)未來(lái)某個(gè)時(shí)刻值的過(guò)程稱為時(shí)間序列預(yù)測(cè)。多元時(shí)間序列預(yù)測(cè)在商業(yè)、醫(yī)學(xué)、氣象等領(lǐng)域具有重要的研究?jī)r(jià)值。
時(shí)間序列預(yù)測(cè)方法可大致分為統(tǒng)計(jì)方法、傳統(tǒng)機(jī)器學(xué)習(xí)方法和深度學(xué)習(xí)方法。統(tǒng)計(jì)方法主要采用統(tǒng)計(jì)學(xué)知識(shí)對(duì)時(shí)間序列中蘊(yùn)含的發(fā)展過(guò)程、方向和趨勢(shì)進(jìn)行建模并預(yù)測(cè),常見(jiàn)的模型有自回歸(Auto-Regressive,AR)模型、移動(dòng)平均(Moving Average,MA)模型等。然而,此類方法具有較低的表達(dá)能力,不能處理復(fù)雜數(shù)據(jù)中的非線性關(guān)系,因此,預(yù)測(cè)準(zhǔn)確率比較有限。傳統(tǒng)機(jī)器學(xué)習(xí)方法包括支持向量機(jī)[2]、貝葉斯網(wǎng)絡(luò)[3]、高斯過(guò)程[4]等,克服了統(tǒng)計(jì)方法的弊端,在時(shí)間序列預(yù)測(cè)方面展現(xiàn)出較優(yōu)的效果。但是傳統(tǒng)機(jī)器學(xué)習(xí)方法往往需要復(fù)雜的特征工程且特征適應(yīng)性差,導(dǎo)致預(yù)測(cè)精度呈現(xiàn)一定的不穩(wěn)定性[5]。
深度學(xué)習(xí)因其強(qiáng)大的表征和擬合能力而受到研究人員的關(guān)注,已經(jīng)被廣泛應(yīng)用于時(shí)間序列分析的相關(guān)領(lǐng)域[6-8]。深度學(xué)習(xí)方法主要有循環(huán)神經(jīng)網(wǎng)絡(luò)[9](Recurrent Neural Network,RNN)及其變體長(zhǎng)短時(shí)記憶[10](Long Short-Term Memory,LSTM)網(wǎng)絡(luò)和卷積神經(jīng)網(wǎng) 絡(luò)(Convolutional Neural Network,CNN)[11-12]2 類模型結(jié)構(gòu)。將循環(huán)神經(jīng)網(wǎng)絡(luò)及其變體長(zhǎng)短時(shí)記憶網(wǎng)絡(luò)作為單元組件,對(duì)時(shí)序數(shù)據(jù)進(jìn)行預(yù)測(cè)。文獻(xiàn)[13]通過(guò)結(jié)合RNN 和概率模型提出一種混合預(yù)測(cè)方法,在提取全局非線性特征的同時(shí)估計(jì)局部隨機(jī)性變化趨勢(shì),提高預(yù)測(cè)精度。以卷積神經(jīng)網(wǎng)絡(luò)作為特征提取器,通過(guò)構(gòu)建深層卷積模型以獲得強(qiáng)大的特征提取及預(yù)測(cè)能力。與循環(huán)神經(jīng)網(wǎng)絡(luò)模型結(jié)構(gòu)相比,基于CNN 的時(shí)間序列預(yù)測(cè)模型具有計(jì)算效率高、訓(xùn)練難度低等特點(diǎn),在多元時(shí)間序列預(yù)測(cè)方面具有一定優(yōu)勢(shì)。文獻(xiàn)[14]提出DeepGLO 模型,利用時(shí)序卷積解決極高維時(shí)間序列的預(yù)測(cè)問(wèn)題。
上述工作都只針對(duì)深度學(xué)習(xí)的直接應(yīng)用,而沒(méi)有結(jié)合MTS 數(shù)據(jù)及其特征的特點(diǎn)。在時(shí)間序列中各變量的變化往往具有不同的時(shí)間跨度,存在多種尺度特征。對(duì)于MTS 預(yù)測(cè)任務(wù),充分利用多尺度特征能夠增強(qiáng)網(wǎng)絡(luò)的預(yù)測(cè)能力。文獻(xiàn)[15]提出的LSTNet 通過(guò)結(jié)合CNN 和RNN 捕獲MTS 中的短期和長(zhǎng)期尺度特征,大幅提高預(yù)測(cè)準(zhǔn)確率。針對(duì)負(fù)荷數(shù)據(jù)中的周期性波動(dòng)特征,文獻(xiàn)[16]基于LSTM 結(jié)構(gòu)構(gòu)建一種Seq2seq 模型,實(shí)現(xiàn)數(shù)據(jù)相關(guān)性建模并對(duì)其進(jìn)行預(yù)測(cè)。在計(jì)算機(jī)視覺(jué)領(lǐng)域,文獻(xiàn)[17]所提GoogleNet 的核心是通過(guò)Inception 結(jié)構(gòu)處理圖像中不同尺度的語(yǔ)義信息?;诖耍琈TGNN 模型[18]將Inception 結(jié)構(gòu)引入到MTS 預(yù)測(cè)中,利用多個(gè)不同大小卷積核和膨脹卷積[19]提取多尺度特征,在預(yù)測(cè)方面表現(xiàn)更優(yōu)的性能。CNN 卷積核是一種特征檢測(cè)器,各卷積核捕獲數(shù)據(jù)中不同方面的特征[20],這些特征對(duì)預(yù)測(cè)的重要程度不盡相同。為此,研究人員需要利用注意力機(jī)制以聚焦對(duì)預(yù)測(cè)有重要貢獻(xiàn)的關(guān)鍵時(shí)序特征,抑制其他無(wú)用特征。文獻(xiàn)[21]提出TPALSTM 模型,利用時(shí)序模式注意力機(jī)制關(guān)注與待預(yù)測(cè)值更相關(guān)的時(shí)序區(qū)間。文獻(xiàn)[22]提出DAFDCRNN 模型,利用注意力機(jī)制對(duì)時(shí)間序列的特征相關(guān)性進(jìn)行建模,通過(guò)學(xué)習(xí)其中的長(zhǎng)期時(shí)間依賴來(lái)提升預(yù)測(cè)精度。文獻(xiàn)[23]提出的AttAR 模型引入時(shí)不變注意力機(jī)制,進(jìn)一步區(qū)分性地利用時(shí)序特征。
上述研究表明多尺度特征及注意力機(jī)制在MTS預(yù)測(cè)方面具有較優(yōu)效果,但是依然存在不足之處。時(shí)間序列在不同時(shí)間跨度下呈現(xiàn)完全不同的走勢(shì),其對(duì)應(yīng)的尺度特征也對(duì)預(yù)測(cè)發(fā)揮不同程度的作用?,F(xiàn)有方法不能自適應(yīng)提取、選擇并融合這些尺度特征,限制了模型的預(yù)測(cè)性能。上述注意力機(jī)制只從時(shí)間維度聚焦相關(guān)影響因素,而沒(méi)有對(duì)特征的長(zhǎng)時(shí)序、多通道方面重要程度加以區(qū)分。
本文提出一種基于多尺度時(shí)序特征融合與雙注意力機(jī)制的多元時(shí)間序列預(yù)測(cè)網(wǎng)絡(luò)FFANet。利用多尺度時(shí)序特征融合模塊從時(shí)間序列中提取多尺度特征,并自適應(yīng)選擇和融合多尺度時(shí)序特征。雙注意力模塊(Dual-Attention Module,DAM)分別對(duì)每個(gè)變量特征從時(shí)序和通道2 個(gè)維度計(jì)算特征重要程度并分配權(quán)重,使FFANet有區(qū)分地利用多尺度特征。
本文將 MTS 的觀測(cè)樣本表示為X=(X1,X2,…,XT) ?RN×T,其中,T為該MTS 觀測(cè)樣本的時(shí)間步總數(shù),N為變量數(shù)目。將單個(gè)時(shí)間步上的MTS 樣本表 示為Xt=(xt,1,xt,2,…,xt,N) ?RN,xt,n表示第n個(gè)變量在第t個(gè)時(shí)間步上的觀測(cè)值,其中,1 ≤t≤T,1 ≤n≤N。本文的目標(biāo)是基于歷史d個(gè)時(shí)間步的觀測(cè)值χt=(Xt-d,Xt-d+1,…,Xt) ?RN×d,預(yù)測(cè)未來(lái)第h個(gè)時(shí)間步的值Xt+h?RN,其中,d是在指定的訓(xùn)練預(yù)測(cè)模型時(shí)MTS 樣本時(shí)間步長(zhǎng)。
MTS 預(yù)測(cè)是滾動(dòng)預(yù)測(cè)過(guò)程。在t時(shí)刻,基于歷史觀測(cè)值χt=(Xt-d,Xt-d+1,…,Xt)預(yù)測(cè)未來(lái)第h個(gè)時(shí)間步的值Xt+h。類似地,在t+1 時(shí)刻,基于歷史觀測(cè)值χt+1=(Xt-d+1,Xt-d+2,…,Xt+1)預(yù)測(cè)值Xt+h+1。
本文設(shè)計(jì)FFANet 模型的整體架構(gòu)如圖1 所示,該模型由多尺度時(shí)序特征融合模塊FFM、雙注意力模塊、壓縮層和輸出模塊構(gòu)成。FFANet模型中多次使用FFM、DAM、圖卷積模塊和壓縮層的結(jié)構(gòu),下文中將該結(jié)構(gòu)稱為“Section”結(jié)構(gòu)。
圖1 FFANet 的整體結(jié)構(gòu)Fig.1 Overall structure of the FFANet
給定MTS 樣本χt?RN×d,F(xiàn)FANet 模型首先利用一維卷積層將其映射為3 維特征F0?RN×d′×C,d′為時(shí)序特征長(zhǎng)度,C為特征通道數(shù)。F0的計(jì)算如式(1)所示:
其中:HSF(?)為卷積操作。FFANet 模型的 主干部 分由4 個(gè)Section 結(jié)構(gòu)組成,用于挖掘特征F0的深層多尺度特征。為了避免梯度消失,在每個(gè)Section 內(nèi)設(shè)計(jì)Section 結(jié)構(gòu)的輸入與圖卷積模塊輸出相加的殘差連接,同時(shí),將對(duì)每個(gè)Section 的輸出進(jìn)行壓縮時(shí)序長(zhǎng)度后,通過(guò)跳躍連接求和得到Fd?RN×1×C,即輸出模塊的輸入特征為Fd。最后,通過(guò)卷積操作將輸出模塊特征Fd映射為最終預(yù)測(cè)值
FFANet 模型通過(guò)訓(xùn)練最小化真實(shí)值Xt+h與預(yù)測(cè)值之間的l1損失以更新網(wǎng)絡(luò)參數(shù),具體損失函數(shù)如式(2)所示:
其中:f(?)表示FFANet 模型函數(shù);Θ表示其中的網(wǎng)絡(luò)參數(shù)。
為了有效利用MTS 中的多尺度時(shí)序特征,本文提出多尺度時(shí)序特征融合模塊,包含多尺度時(shí)序特征提取、多尺度時(shí)序特征選擇和多尺度時(shí)序特征融合3 個(gè)階段。
在多尺度時(shí)序特征提取階段,本文引入時(shí)序卷積層[18],使用J組尺寸為1×κj(1 ≤j≤J)的一維膨脹卷積提取Section 結(jié)構(gòu)的輸入特征,以獲取不同尺度的時(shí)序特征。給定第i(1 ≤i≤I)層Section 結(jié)構(gòu)的輸入FSec,i?RN×d′×C,每組特征提取過(guò)程如下:
其中:q表示膨脹因子;pi表示該層卷積膨脹率;ht,n?RC表示輸入特征FSec,i中第n個(gè)變量在t時(shí)刻的隱狀態(tài);fκj,i?Rκ×C表示尺寸為1×κj的膨脹卷積核;Fκj,i(n,t,pi)表示由尺寸為1×κj的膨脹卷積(膨脹率為pi)對(duì) 第n個(gè)變量提取t時(shí)刻的 隱狀態(tài);δ表示Re LU 激活函數(shù)。
在多尺度時(shí)序特征選擇階段,F(xiàn)FANet 模型自適應(yīng)調(diào)節(jié)上述多尺度時(shí)序特征權(quán)重,以實(shí)現(xiàn)特征選擇。首先,多尺度時(shí)序特征選擇階段接收來(lái)自提取階段4 個(gè)并行的不同尺度時(shí)序特征,對(duì)該特征進(jìn)行元素求和,生成包含全局信息的特征Seli?RN×d′×C,計(jì)算式如下:
隨后,在變量和時(shí)序維度上利用全局平均池化層(Global Average Pooling,GAP)對(duì)特征Seli生成特征si?RC,對(duì)于sc,i?si,計(jì)算式如下:其中:fGAP(?)表示全 局平均 池化操 作。FFANet模型進(jìn)而利用卷積操作提取特征si的全局特征zi?RC/r,r表示通道壓縮率。最后,特征zi通過(guò)J組并行的卷積層(每個(gè)尺度特征對(duì)應(yīng)一層卷積層)生成J個(gè)特征描述符zj,i?R1(1 ≤j≤J)。
最后,根據(jù)式(6)將上述4 個(gè)特征描述符生成不同尺度特征對(duì)應(yīng)權(quán)重:
其中:wκj,i為第i(i≥1)層Section 結(jié)構(gòu)由尺寸為1×κj的膨脹卷積所提取特征的權(quán)重。
在多尺度時(shí)序特征融合階段,F(xiàn)FANet 模型將上述權(quán)重分別通過(guò)相乘作用于對(duì)應(yīng)尺度特征并求和,實(shí)現(xiàn)多尺度時(shí)序特征融合,具體計(jì)算如下:
本文設(shè)計(jì)了雙注意力模塊,該模塊的結(jié)構(gòu)如圖2所示。雙注意力模塊由時(shí)序注意力機(jī)制TA 和通道注意力機(jī)制CA 組成。
圖2 雙注意力模塊結(jié)構(gòu)Fig.2 Structure of the dual-attention module
在雙注意力模塊中,首先將第2.2 節(jié)多尺度時(shí)序特征融合模塊輸出的特征FFFM,i?RN×d′×C作為輸入,由卷積層、ReLU 激活函數(shù)和卷積層構(gòu)成的卷積組提取特征,計(jì)算式如下:
其中:Groupatt,i(?)表示第i層Section 結(jié)構(gòu)中 雙注意 力模塊首端的卷積組;W(att-1),i和W(att-2),i分別表示該卷積組中的2 層1×3 卷積核的權(quán)重;Fatt,i?RN×d′×C表示該卷積組的輸出。
2.3.1 時(shí)序注意力機(jī)制
為了從MTS 中區(qū)分與待預(yù)測(cè)點(diǎn)更相關(guān)的時(shí)序,進(jìn)而對(duì)其進(jìn)行聚焦,本文設(shè)計(jì)時(shí)序注意力機(jī)制。
首先,在通道維度上利用平均池化層和最大池化層對(duì)輸入特征Fatt,i進(jìn)行降維,分別生成特征F(avg-t),i?RN×d′×1和F(max-t),i?RN×d′×1;然 后,將兩者 拼接后通過(guò)卷積將雙通道特征壓縮為單通道;最后,使用Sigmoid 激活函數(shù)對(duì)時(shí)序權(quán)重進(jìn)行歸一化,生成時(shí)序注意力權(quán)重Ti?RN×d′;最終,將時(shí)序注意力權(quán)重與輸入特征對(duì)應(yīng)元素相乘,生成不同權(quán)重的時(shí)序特征。時(shí)序注意力機(jī)制的運(yùn)算過(guò)程如式(9)所示:
其中:σ表示Sigmoid 激活函 數(shù);Htemp,i(?)表示卷積操作;[F(avg-t),i,F(max-t),i]表示池化并拼接后的特征;AvgPoolC(?)和MaxPoolC(?)分別表示通道維度的平均池化和最大池化層;Ti表示時(shí)序注意力權(quán)重。
2.3.2 通道注意力機(jī)制
本文引入的通道注意力機(jī)制[24]如圖2 所示。首先,CA 采用與TA 同樣的方式,通過(guò)全局平均池化和全局最大池化層對(duì)特征Fatt,i各通道的全局時(shí)序和變量特征進(jìn)行壓縮,生成2 組特征F(avg-c),i,F(max-c),i?RC;然后,將上述2 組特征的對(duì)應(yīng)元素求和后通過(guò)卷積組建模通道之間的相互依賴性,自適應(yīng)地判別各通道的重要程度;最后,由Sigmoid 激活函數(shù)生成通道注意力權(quán)重Ci?RC,并通過(guò)逐元素相乘將權(quán)重應(yīng)用于特征Fatt,i中。通道注意力機(jī)制的運(yùn)算過(guò)程如式(10)所示:
其中:Groupchannel,i表示由卷積層、ReLU 激活函數(shù)和卷積層 構(gòu)成的 卷積組;AvgPoolNT(?)和MaxPoolNT(?)分別表示時(shí)序和變量維度的平均池化和最大池化層;Ci表示通道注意力權(quán)重。
時(shí)序注意力權(quán)重和通道注意力權(quán)重通過(guò)相乘應(yīng)用于特征Fatt,i后生成雙注意力模塊的輸出FDAM,i?RN×d′×C:
在MTS 變量對(duì)之間通常具有潛在的依賴關(guān)系。為此,本文引入圖卷積模塊[18],包含圖學(xué)習(xí)層和圖卷積層,自適應(yīng)捕獲變量對(duì)之間的關(guān)聯(lián)關(guān)系。
圖學(xué)習(xí)層的目標(biāo)是學(xué)習(xí)變量間的動(dòng)態(tài)空間依賴關(guān)系,并用鄰接矩陣表達(dá)。首先,將隨機(jī)初始化的嵌入矩陣E1,E2?RN×e表示特 征M1,M2?RN×e,N和e分別表示圖節(jié)點(diǎn)(變量)數(shù)量及圖節(jié)點(diǎn)嵌入維度。M1、M2、鄰接矩陣A?RN×N計(jì)算過(guò)程為:
其中:q1和q2表示全連接網(wǎng)絡(luò)參數(shù)。
圖卷積層計(jì)算過(guò)程如下:
其中:G為圖卷積層數(shù);Fg,i為第g層圖卷積輸出;α為圖卷積層的超參數(shù)表示歸一化的鄰接矩陣,為A矩陣的度矩陣,表示單位矩陣。最后,根據(jù)式(14)對(duì)圖卷積層結(jié)果F1,i,F2,i,…,FG,i進(jìn)行計(jì) 算:
其中:FGraph,i?RN×d′×C表示圖卷積模塊的輸出特征。
在FFANet 模型中,特征F0和各Section 結(jié)構(gòu)的輸出特征都經(jīng)過(guò)壓縮層以縮短特征長(zhǎng)度,其本質(zhì)是利用與給定輸入等長(zhǎng)的卷積核逐變量卷積。給定的時(shí)序特征Fdown,i?RN×d′×C為:
特征Fd?RN×1×C通過(guò)跳躍連接對(duì)各壓縮特征求和獲得,計(jì)算過(guò)程如下:
其中:Hdown,i代表特征Fdown,i所對(duì)應(yīng)的壓縮層函數(shù)。
輸出模塊由卷積層、Re LU 激活函數(shù)和卷積層構(gòu)成,根據(jù)式(17)將特征Fd映射為最終預(yù)測(cè)值:
其中:Wout-1和Wout-2分別表示2 層卷積核的權(quán)重。
3.1.1 數(shù)據(jù)集
為驗(yàn)證本文模型的性能,本文實(shí)驗(yàn)選取UCI 機(jī)器學(xué)習(xí)庫(kù)中4 種不同領(lǐng)域的公開(kāi)數(shù)據(jù)集。該數(shù)據(jù)集的相關(guān)統(tǒng)計(jì)信息如表1 所示。
表1 時(shí)間序列數(shù)據(jù)集詳細(xì)信息 Table 1 Details information of time-series datasets
Traffic 為交通數(shù)據(jù)集,統(tǒng)計(jì)了在美國(guó)舊金山灣區(qū)高速公路48 個(gè)月(2015 年1 月1 日—2016 年12 月31 日)內(nèi)通過(guò)862 個(gè)傳感器測(cè)量得到的道路占用率。Solar Energy 為太陽(yáng)能數(shù)據(jù)集,統(tǒng)計(jì)了2006 年阿拉巴馬州137 個(gè)光伏發(fā)電廠的太陽(yáng)能發(fā)電記錄。Electricity 為電力數(shù)據(jù)集,統(tǒng)計(jì)2012—2014 年葡萄牙321 個(gè)用戶每小時(shí)的電力消耗量。Exchange Rate 為匯率數(shù)據(jù)集,統(tǒng)計(jì)了從1990—2016 年內(nèi)包含澳大利亞、英國(guó)、加拿大、瑞士、中國(guó)、日本、新西蘭和新加坡8 個(gè)國(guó)家的每日匯率。本文實(shí)驗(yàn)的所有數(shù)據(jù)集被劃分為訓(xùn)練集(60%)、驗(yàn)證集(20%)、測(cè)試集(20%)。從4 個(gè)數(shù)據(jù)集抽樣的部分變量如圖3 所示。
圖3 不同數(shù)據(jù)集的可視化結(jié)果Fig.3 Visualization results among different datasets
3.1.2 實(shí)驗(yàn)細(xì)節(jié)
數(shù)據(jù)指標(biāo):本文實(shí)驗(yàn)采用相對(duì)平方根誤差(Root Relative Squared Error,RRSE)和經(jīng)驗(yàn) 相關(guān)性系數(shù)(Empirical Correlation Coefficient,CORR)作為評(píng)價(jià)指標(biāo)。RRSE 是評(píng)價(jià)預(yù)測(cè)結(jié)果與真實(shí)值的偏離程度,CORR 是評(píng)價(jià)模型滾動(dòng)預(yù)測(cè)步序列取值與真實(shí)值的相關(guān)程度。RRSE 越低表示預(yù)測(cè)效果越好,CORR 越高表示預(yù)測(cè)效果越好。
實(shí)驗(yàn)環(huán)境:FFANet 模型代碼全部由Python3.6 實(shí)現(xiàn),使用PyTorch 深度學(xué)習(xí)框架搭建,并在NVIDIA GeForce RTX 3080 Ti GPU 上進(jìn)行訓(xùn)練。
參數(shù)設(shè)置:FFANet 模型的相關(guān)超參數(shù)取值如表2 所示。模型使用Adam 優(yōu)化器,學(xué)習(xí)率為0.001,梯度衰減率為0.000 1,epoch 為100。
表2 超參數(shù)設(shè)置Table 2 Hyperparameter settings
3.2.1 對(duì)比實(shí)驗(yàn)
為評(píng)估本文模型的預(yù)測(cè)效果,本文選擇以下7 種主流的MTS 預(yù)測(cè)模 型:1)AR 是一種自回歸模型;2)VARMLP[25]是一種基于自回歸方法和全連接網(wǎng)絡(luò)的混合模型;3)RNN-GRU 是一種使用GRU 隱藏層的循環(huán)神經(jīng)網(wǎng)絡(luò);4)LSTNet-skip[15]是一種結(jié)合卷積神經(jīng)網(wǎng)絡(luò)和遞歸神經(jīng)網(wǎng)絡(luò)的深度預(yù)測(cè)網(wǎng)絡(luò);5)TPA-LSTM[21]是一種 注意力 遞歸神 經(jīng)網(wǎng)絡(luò);6)MTGNN[18]是一種圖神經(jīng)網(wǎng)絡(luò);7)AttnAR[23]是一種基于時(shí)不變注意力機(jī)制的卷積神經(jīng)網(wǎng)絡(luò)。
預(yù)測(cè)時(shí)間步與文獻(xiàn)[15]保持一致設(shè)置為3、6、12和24,時(shí)間步越大表示預(yù)測(cè)時(shí)間間隔越長(zhǎng),預(yù)測(cè)難度也越大。不同模型在各數(shù)據(jù)集上的測(cè)試結(jié)果如表3所示,加粗表示最優(yōu)數(shù)據(jù),下劃線表示次優(yōu)數(shù)據(jù)。所有對(duì)比模型的實(shí)驗(yàn)結(jié)果均來(lái)源于原文獻(xiàn)。本文模型在Traffic 數(shù)據(jù)集 上預(yù)測(cè) 時(shí)間步3、6、12、24 的平均RRSE 誤差為0.423 2,與AR、VARMLP、RNN-GRU、LSTNet-skip、TPA-LSTM、MTGNN 和AttnAR模型相比,預(yù)測(cè)誤差分別降低0.195 8、0.185 0、0.128 6、0.066 6、0.040 5、0.024 6、0.011 9。FFANet 模型在Solar Energy 數(shù)據(jù)集上的RRSE 誤差平均為0.277 8,相比上述7 種預(yù)測(cè)模型,預(yù)測(cè)誤差分別降低0.243 0、0.114 3、0.061 5、0.029 6、0.016 5、0.009 8、0.040 0。FFANet 模型在Electricity 數(shù)據(jù)集上的RRSE 誤差平均為0.085 3,相比上述7 種預(yù)測(cè)模型,預(yù)測(cè)誤差分別降 低0.018 0、0.060 8、0.032 8、0.009 9、0.007 4、0.002 0、0.008 1。
表3 各模型在不同數(shù)據(jù)集上的預(yù)測(cè)結(jié)果Table 3 Forecasting results of each models on different datasets
相比早期的AR、VARMLP 和RNN-GRU 模型,本文模型在RRSE 和CORR 指標(biāo)上取得了較大提升,其原因?yàn)榛诮y(tǒng)計(jì)的AR 模型無(wú)法捕獲MTS 數(shù)據(jù)中復(fù)雜的非線性關(guān)系,VARMLP 和RNN-GRU 模型只能提取單一尺度時(shí)序特征,且無(wú)法處理多元變量間的依賴關(guān)系,導(dǎo)致預(yù)測(cè)誤差相對(duì)較大。LSTNet-skip 和MTGNN 提取時(shí)間序列中的多尺度特征,然而,LSTNet-skip 只能處理定長(zhǎng)的短期模式和長(zhǎng)期模式,MTGNN 則無(wú)法自適應(yīng)融合不同尺度特征。TPA-LSTM 和AttnAR 方法引入注意力機(jī)制,然而只從時(shí)序維度施加注意力權(quán)重,對(duì)預(yù)測(cè)準(zhǔn)確率的提升仍然有限。
從表3 可以看出,在Traffic 數(shù)據(jù)集中,F(xiàn)FANet 模型相比于MTGNN 模型在預(yù)測(cè)時(shí)間步3、6、12、24 上的RRSE 分別降低了4.11%、9.93%、4.06%和3.48%。這是因?yàn)門(mén)raffic 數(shù)據(jù)集存在明顯的多尺度模式(如小時(shí)、天、周等),F(xiàn)FANet 中的多尺度時(shí)序特征融合模塊能夠識(shí)別不同尺度模式,雙注意力模塊對(duì)每個(gè)變量的時(shí)序和通道特征進(jìn)行聚焦,從而獲得更精確的預(yù)測(cè)結(jié)果。在Solar Energy 數(shù)據(jù)集中各變量數(shù)據(jù)的夜間讀數(shù)為0,僅存在小時(shí)、天等小尺度模式,因此當(dāng)預(yù)測(cè)時(shí)間步為3 時(shí)FFANet 預(yù)測(cè)RRSM 最優(yōu),相較于MTGNN 降低了6.18%,隨著預(yù)測(cè)時(shí)間步的增大,RRSE 分別增大了2.90%、2.61% 和3.07%。FFANet在Exchange Rate 數(shù)據(jù)集上的預(yù)測(cè)效果較差,主要原因是Exchange Rate 數(shù)據(jù)集中各變量變化較隨機(jī)且不具備多尺度性,無(wú)法從中有效提取多尺度特征。此外,F(xiàn)FANet 模型在預(yù)測(cè)時(shí)間步3、6、24 上的CORR指標(biāo)取得了最高結(jié)果,表明雙注意力模塊能夠捕獲時(shí)序依賴關(guān)系及變化趨勢(shì)。
3.2.2 消融實(shí)驗(yàn)
FFANet 模型包括多尺度時(shí)序特征融合模塊和雙注意力模塊2 個(gè)核心部件,其中,DAM 又包含時(shí)序注意力機(jī)制和通道注意力機(jī)制。為了驗(yàn)證各部件在FFANet 中的有效性,本文設(shè)計(jì)4 種網(wǎng)絡(luò):1)Base 是在FFANet 模型的基礎(chǔ)上去除FFM 模塊和DAM 模塊;2)Base+FFM 是在Base模型的基礎(chǔ)上增加FFM 模塊;3)Base+FFM+CA 是在Base+FFM 模型的基礎(chǔ)上添加通道注意力;4)Base+FFM+TA 是在Base+FFM 模型的基礎(chǔ)上添加時(shí)序注意力機(jī)制。本文選取了Electricity 和Solar Energy 2 個(gè)代表性數(shù)據(jù)集進(jìn)行消融實(shí)驗(yàn),Electricity 數(shù)據(jù)集包含多種模式(時(shí)、天、周)變化,Solar Energy 數(shù)據(jù)集的變化主要集中在白天,各變量數(shù)據(jù)的夜間讀數(shù)為0。消融實(shí)驗(yàn)結(jié)果如圖4所示。
圖4 消融實(shí)驗(yàn)結(jié)果Fig.4 Ablation experiment results
在Electricity 數(shù)據(jù)集中,隨著Horizon 的增加,F(xiàn)FM 模塊的作用愈發(fā)突顯。主要原因是待預(yù)測(cè)點(diǎn)與輸入樣本間的模式復(fù)雜性隨著Horizon 的增加而增加,F(xiàn)FM 模塊準(zhǔn)確挖掘其中的關(guān)聯(lián)關(guān)系,自適應(yīng)融合跨尺度特征。然而,在Solar Energy 數(shù)據(jù)集中出現(xiàn)了與之相反的規(guī)律,F(xiàn)FM 模塊相較于Base 模型CORR分別提升0.002 4、0.001 5 和0.000 3。這是因?yàn)樵摂?shù)據(jù)集的讀數(shù)主要與當(dāng)日天氣有關(guān)且夜間讀數(shù)為0,沒(méi)有明顯的多尺度特征,導(dǎo)致FFM 模塊作用不顯著。
在上述模型基礎(chǔ)上進(jìn)一步增加了TA 和CA,實(shí)驗(yàn)結(jié)果表明,將TA 和CA 同時(shí)加入使模型具有較優(yōu)的實(shí)驗(yàn)結(jié)果。此外,在Solar Energy 數(shù)據(jù)集中注意力機(jī)制的作用更明顯,尤其是時(shí)序注意力機(jī)制。時(shí)序注意力機(jī)制對(duì)與待預(yù)測(cè)點(diǎn)相關(guān)的時(shí)序特征進(jìn)行聚焦,從而提升了預(yù)測(cè)的準(zhǔn)確性。因此,在多尺度特征并存的數(shù)據(jù)中,F(xiàn)FM 模塊的效果更顯著;反之,注意力機(jī)制則占據(jù)主導(dǎo)地位。
3.2.3 超參數(shù)選擇與設(shè)置
本文對(duì)FFANet 模型中節(jié)點(diǎn)嵌入維度e和特征通道數(shù)C超參數(shù)進(jìn)行實(shí)驗(yàn),采用貪婪策略確定最優(yōu)參數(shù)組合。給定節(jié)點(diǎn)嵌入維度e的取值集合為{10,20,30,40,50,60},特征通道數(shù)C的取值集合為{8,16,24,32,48,64}。本文固 定C的值為32,分別在Traffic、Solar Energy 和Electricity 數(shù)據(jù)集上對(duì)e的取值進(jìn)行實(shí)驗(yàn),選取使模型達(dá)到最高CORR 值的超參數(shù)e作為最優(yōu)值。將超參數(shù)e的最優(yōu)值固定,從而確定C的取值。每組實(shí)驗(yàn)分別進(jìn)行3 次。圖5 所示為在Traffic、Solar Energy、Electricity 數(shù)據(jù)集上節(jié)點(diǎn)嵌入維度e對(duì)CORR 的影響。圖6 所示為在Electricity數(shù)據(jù)集上特征通道數(shù)C對(duì)CORR 的影響。
圖5 節(jié)點(diǎn)嵌入維度e 對(duì)CORR 的影響Fig.5 Influence of node embedding dimension e on CORR
圖6 在Electricity 數(shù)據(jù)集上特征通道數(shù)C 對(duì)CORR 的影響Fig.6 Influence of characteristic channel number C on CORR on Electricity dataset
從圖5 可以看出,在3 個(gè)數(shù)據(jù)集上節(jié)點(diǎn)嵌入維度e對(duì)模型的影響大致相似。FFANet 模型性能表現(xiàn)隨著e的增加呈現(xiàn)出先上升后下降的趨勢(shì),說(shuō)明e在一定范圍內(nèi)的增加使得圖鄰接矩陣融入更多信息,從而使FFANet 模型表現(xiàn)更優(yōu)的性能。在3 個(gè)數(shù)據(jù)集上的實(shí)驗(yàn)結(jié)果顯示,當(dāng)e=40 時(shí)FFANet 模型性能最佳。從圖6 可以看出,對(duì)于特征通道數(shù)C,特征數(shù)量的增加使得FFANet 模型性能總體表現(xiàn)上升趨勢(shì)。但是,F(xiàn)FANet 模型參數(shù)量也隨著C的增加而線性增加,導(dǎo)致FFANet 模型訓(xùn)練會(huì)花費(fèi)更長(zhǎng)時(shí)間。因此,C=32是更綜合的選擇,不僅可以取得較優(yōu)的性能,而且可以節(jié)省訓(xùn)練時(shí)間。
為提高多元時(shí)間序列的預(yù)測(cè)準(zhǔn)確率,本文提出一種基于多尺度時(shí)序特征融合與雙注意力機(jī)制的多元時(shí)間序列預(yù)測(cè)網(wǎng)絡(luò)FFANet。針對(duì)時(shí)序數(shù)據(jù)包含的不同時(shí)間跨度特征難以有效利用問(wèn)題,設(shè)計(jì)多尺度時(shí)序特征融合模塊,通過(guò)時(shí)序膨脹卷積提取數(shù)據(jù)在不同尺度上的特征,并對(duì)其進(jìn)行自適應(yīng)選擇和融合,從而獲得更豐富的特征表示。同時(shí),結(jié)合雙注意力機(jī)制,從時(shí)序及通道維度分析相關(guān)特征的重要性,進(jìn)而聚焦其中重要部分,提高模型預(yù)測(cè)精度。在Traffic、Solar Energy、Electricity 和Exchange Rate 4 個(gè)多變量時(shí)間序列數(shù)據(jù)集上的實(shí)驗(yàn)結(jié)果表明,本文方法與當(dāng)前主流的時(shí)間序列預(yù)測(cè)方法相比,在RRSE和CORR 指標(biāo)上取得了較優(yōu)的預(yù)測(cè)效果。下一步將在本文所提模型的基礎(chǔ)上深入研究動(dòng)態(tài)圖結(jié)構(gòu),通過(guò)動(dòng)態(tài)更新圖鄰接矩陣以建模各變量間的時(shí)變相關(guān)性,提高變量間關(guān)聯(lián)分析能力。