關(guān)鍵詞:時(shí)間序列預(yù)測,多變量時(shí)間序列,深度學(xué)習(xí),時(shí)間序列分解
中圖分類號:TP391 文獻(xiàn)標(biāo)志碼:A
時(shí)間序列是一種按照時(shí)間順序排列的數(shù)據(jù),通常具有等間距的采樣間隔. 多變量時(shí)間序列是在同一時(shí)間點(diǎn)上記錄多個(gè)變量數(shù)據(jù)的時(shí)間序列,多變量時(shí)間序列預(yù)測是一種重要的數(shù)據(jù)挖掘技術(shù).
多變量時(shí)間序列預(yù)測在經(jīng)濟(jì)學(xué)[1]、氣象學(xué)[2]、工程學(xué)[3]以及醫(yī)療保健等多個(gè)領(lǐng)域中發(fā)揮著至關(guān)重要的作用[4]. 例如,霧作為一種主要的天氣現(xiàn)象,造成能見度降低,使駕車行駛和戶外工作變得極其危險(xiǎn),采用霧預(yù)報(bào)系統(tǒng)[5]可以提前針對霧的濃度進(jìn)行預(yù)報(bào),保障用戶的生命財(cái)產(chǎn)安全. 時(shí)間序列預(yù)測利用歷史數(shù)據(jù)來預(yù)測未來的數(shù)值,為支持決策和資源優(yōu)化提供關(guān)鍵的依據(jù). 現(xiàn)實(shí)中,大多數(shù)的時(shí)間序列是多變量時(shí)間序列,其預(yù)測結(jié)果受多種變量的共同影響,因此,多變量時(shí)間序列預(yù)測面臨更高的要求. 通過分析和挖掘多變量時(shí)間序列數(shù)據(jù)間的潛在規(guī)律,可以更深入地理解數(shù)據(jù)的演變趨勢.
自回歸(Autoregressive Model,AR)[6]和自回歸整合移動平均(Autoregressive Integrated Mov?ing Average Model,ARIMA)[7]等統(tǒng)計(jì)類方法在時(shí)間序列預(yù)測問題中長期發(fā)揮著重要作用,然而,統(tǒng)計(jì)類方法對單一變量平穩(wěn)時(shí)間序列預(yù)測的表現(xiàn)比較有效,但在處理多變量時(shí)間序列數(shù)據(jù)時(shí),其預(yù)測效果不佳. 同時(shí),基于線性的統(tǒng)計(jì)學(xué)方法往往無法在多變量時(shí)間序列中達(dá)到預(yù)期的預(yù)測效果.隨著眾多機(jī)器學(xué)習(xí)方法的提出,如支持向量機(jī)[8]、決策樹等方法可以提取多變量時(shí)間序列中的特征,通過特征來進(jìn)行預(yù)測,推動了多變量時(shí)間序列預(yù)測的發(fā)展. 近年來,隨著深度學(xué)習(xí)技術(shù)的發(fā)展,卷積神經(jīng)網(wǎng)絡(luò)、循環(huán)神經(jīng)網(wǎng)絡(luò)(Recurrent NeuralNetwork,RNN)[9]、Transformer[10]等技術(shù)相繼出現(xiàn). 隨著數(shù)據(jù)量的增加,通過學(xué)習(xí)和捕捉數(shù)據(jù)中的非線性關(guān)系和復(fù)雜模式可以提升多變量時(shí)間序列預(yù)測的準(zhǔn)確性,這不僅為該領(lǐng)域帶來了諸多機(jī)遇,也帶來了挑戰(zhàn),深入分析和理解這些復(fù)雜模式,有助于更全面地把握數(shù)據(jù)的演變趨勢.
Transformer 是一種從序列到序列的預(yù)測方法,具備高效的并行計(jì)算能力、對位置信息的處理能力和全局感知的能力,是多變量時(shí)間序列預(yù)測中一種重要的方法. 在基于Transformer 的多變量時(shí)間序列預(yù)測模型中,常見做法是將同一時(shí)間點(diǎn)對應(yīng)的多個(gè)變量進(jìn)行嵌入并輸入相同的通道,然后利用注意力機(jī)制來捕捉時(shí)間序列在時(shí)間維度上的依賴關(guān)系. 然而,使用Transformer 進(jìn)行多變量時(shí)間序列預(yù)測面臨以下挑戰(zhàn).(1)直接使用原始的Transformer 框架結(jié)構(gòu),在預(yù)測序列的長度增加時(shí),其預(yù)測精度將會大幅下降. 同時(shí),直接對同一時(shí)間點(diǎn)的多個(gè)變量進(jìn)行嵌入會導(dǎo)致通道中信息的混淆,影響后續(xù)注意力計(jì)算的區(qū)分度,降低了多變量時(shí)間序列預(yù)測的精度.(2)Transformer 模型的注意力機(jī)制在處理長序列時(shí)計(jì)算復(fù)雜度較高.在標(biāo)準(zhǔn)的Transformer 中,長度為N 的序列,計(jì)算注意力的復(fù)雜度為O (N2 ),限制了模型在長序列上的應(yīng)用. 時(shí)間序列長度的增加使注意力計(jì)算的復(fù)雜度呈二次增長,導(dǎo)致模型在處理長序列時(shí)的計(jì)算成本急劇上升.
針對上述挑戰(zhàn),本文構(gòu)建了DItrans( Decom?position Invert Transformer)模型,引入轉(zhuǎn)置策略,將時(shí)間序列的時(shí)間維度和變量維度進(jìn)行轉(zhuǎn)置后進(jìn)行嵌入(簡稱轉(zhuǎn)置嵌入). 利用傳統(tǒng)Transformer的編碼器(TRM)和本文提出的一種新型的高效Transformer 編碼器(eTRM)對嵌入表征進(jìn)行學(xué)習(xí),eTRM 的學(xué)習(xí)方式可以降低時(shí)間復(fù)雜度. 同時(shí),直接從長時(shí)間序列中挖掘時(shí)間維度的依賴關(guān)系比較困難,因?yàn)閺?fù)雜的時(shí)間模式可能會掩蓋這種依賴關(guān)系. 為了更好地捕獲時(shí)間維度的關(guān)系,引入時(shí)間序列分解方法,利用時(shí)間序列分解方法將時(shí)間序列分解為趨勢項(xiàng)、周期項(xiàng)和殘差項(xiàng)再進(jìn)行學(xué)習(xí). 通過融合分解與轉(zhuǎn)置策略,DItrans 模型可以更好地捕獲時(shí)間序列的潛在特征,提高模型預(yù)測性能. 本文的貢獻(xiàn)如下.
(1)基于Transformer 模塊建立一種結(jié)合轉(zhuǎn)置策略、時(shí)間序列預(yù)測分解等方法的DItrans 模型.
本文首次融合了時(shí)間序列分解與轉(zhuǎn)置策略,還提供了一種在深度學(xué)習(xí)過程將時(shí)間序列分解為趨勢項(xiàng)、周期項(xiàng)和殘差項(xiàng)的方法.
(2)提出一種新的編碼器eTRM,利用可調(diào)節(jié)維度的可學(xué)習(xí)矩陣,針對不同的應(yīng)用場景進(jìn)行調(diào)整,以學(xué)習(xí)更豐富的時(shí)序特征. 該方法不僅適用于時(shí)間序列數(shù)據(jù),還為其他領(lǐng)域的模型提供了一種有效的編碼器學(xué)習(xí)策略.
(3)實(shí)驗(yàn)發(fā)現(xiàn),通過結(jié)合轉(zhuǎn)置、時(shí)間序列預(yù)測分解以及優(yōu)化的編碼器結(jié)構(gòu),DItrans 模型在多個(gè)數(shù)據(jù)集上取得了最優(yōu)的預(yù)測結(jié)果,證實(shí)了DItrans模型的有效性. 該方法為時(shí)間序列多變量預(yù)測研究提供了有效的思路.
1 相關(guān)工作
1. 1時(shí)間序列分解 趨勢項(xiàng)、周期項(xiàng)和殘差項(xiàng)的分解在傳統(tǒng)的時(shí)間序列預(yù)測中對于模型的預(yù)測具有重要作用,可以更好地捕捉時(shí)間序列數(shù)據(jù)中的趨勢和變化[11-13]. 分解方法可以采用加法模型和乘法模型,加法模型的計(jì)算如下:
Yt = Tt + St + Rt (1)
其中,Yt 為原始的時(shí)間序列;Tt 為趨勢項(xiàng),可以利用移動平均、指數(shù)平滑或回歸分析等方法對其進(jìn)行提?。恢芷陧?xiàng)St 是所有固定時(shí)間間隔位置對應(yīng)的原始實(shí)際序列與趨勢項(xiàng)之間的偏差值的平均,反映了時(shí)間序列在去除趨勢項(xiàng)后的周期情況. 最后,從原始時(shí)間序列中去除趨勢項(xiàng)和周期項(xiàng),就得到殘差項(xiàng).
時(shí)間序列分解的乘法模型如下:
Yt = Tt × St × Rt (2)
研究適合于深度學(xué)習(xí)方法的時(shí)間序列分解方法對于充分挖掘時(shí)間序列中的潛在特征和提升模型的預(yù)測能力非常重要. Wu et al[14]提出Auto?former,設(shè)計(jì)了一種具有自動相關(guān)性機(jī)制的新型分解架構(gòu),利用趨勢項(xiàng)和殘差項(xiàng)建模取得了更好的預(yù)測效果. Tong et al[15]提出一種具有概率分解表示的分層Transformer,為時(shí)間序列的分層和可分解預(yù)測提供一個(gè)靈活的框架. 現(xiàn)有的工作通常將時(shí)間序列分解為趨勢項(xiàng)和季節(jié)項(xiàng),然而,受到傳統(tǒng)時(shí)間序列方法的啟發(fā),時(shí)間序列經(jīng)過合理的函數(shù)變換,可以分解為趨勢項(xiàng)、周期項(xiàng)和殘差項(xiàng),因此,開發(fā)一種適合深度學(xué)習(xí)的趨勢項(xiàng)、周期項(xiàng)和殘差項(xiàng)分解的方法十分重要.
1. 2多變量時(shí)間序列預(yù)測方法 為了提升多變量時(shí)間序列預(yù)測模型效能,學(xué)者提出并改良了很多的多變量時(shí)間序列預(yù)測模型. 傳統(tǒng)的時(shí)間序列預(yù)測算法,如AR[6]、移動平均模型(Moving Aver?age Model,MA)和ARIMA[7]等統(tǒng)計(jì)類方法,長期以來在該領(lǐng)域中發(fā)揮著關(guān)鍵作用,但它們對時(shí)間序列的平穩(wěn)性有特定要求,所以其適用性受到了限制. 同時(shí),在進(jìn)行多變量預(yù)測時(shí),傳統(tǒng)的時(shí)間序列預(yù)測方法一般將多變量時(shí)間序列數(shù)據(jù)拆分為單變量時(shí)間序列數(shù)據(jù),分別對每個(gè)變量的數(shù)據(jù)進(jìn)行預(yù)測,無法充分利用變量之間的相關(guān)性.
為了彌補(bǔ)傳統(tǒng)的統(tǒng)計(jì)方法模型的缺陷,機(jī)器學(xué)習(xí)的方法已廣泛應(yīng)用于各個(gè)領(lǐng)域,如將支持向量機(jī)[8]、決策樹、隨機(jī)森林等機(jī)器學(xué)習(xí)模型應(yīng)用于多變量時(shí)間序列預(yù)測. 通過數(shù)據(jù)驅(qū)動的方式,機(jī)器學(xué)習(xí)模型能學(xué)習(xí)并識別時(shí)間序列中的模式和特征,進(jìn)而建立歷史數(shù)據(jù)與未來數(shù)據(jù)之間的映射關(guān)系,更好地適用于多變量預(yù)測研究,和傳統(tǒng)的統(tǒng)計(jì)方法相比,取得了良好的效果,但在時(shí)間序列預(yù)測應(yīng)用中,過擬合是機(jī)器學(xué)習(xí)方法常見的問題.
深度學(xué)習(xí)模型可以更好地捕捉數(shù)據(jù)中的非線性關(guān)系和復(fù)雜模式,尤其是復(fù)雜的時(shí)序模式和變量之間的依賴關(guān)系[16],目前出現(xiàn)了眾多基于深度學(xué)習(xí)的多變量時(shí)間序列預(yù)測框架. 最早用于時(shí)間序列預(yù)測的深度學(xué)習(xí)框架是全連接神經(jīng)網(wǎng)絡(luò)[17],能捕捉多變量時(shí)間序列中的復(fù)雜模式和變量之間的關(guān)聯(lián). 接著是RNN[9],其具有記憶功能,能捕捉序列中的長期依賴關(guān)系. 為了緩解RNN 的梯度消失[18]問題,學(xué)者們提出基于門控機(jī)制的LongShort ? Term Memory (LSTM)[19] 網(wǎng)絡(luò)架構(gòu).LSTM 是一種常用的RNN 變體,已被廣泛應(yīng)用于處理序列數(shù)據(jù),其門控機(jī)制能有效地捕捉序列中的長期依賴關(guān)系,在各種時(shí)間序列建模任務(wù)中均表現(xiàn)出顯著效果[20]. LSTM 還有多種變體,如GRU( Gated Recurrent Unit)[21],phi?LSTM[22]等.
近年來,隨著自然語言處理和計(jì)算機(jī)視覺領(lǐng)域的發(fā)展,學(xué)者們提出了Transformer[10],該模型的依賴性建模的優(yōu)勢使其成為時(shí)間序列建模領(lǐng)域的研究熱點(diǎn)[23-25]. 但Transformer 處理長距離時(shí)間序列預(yù)測的能力有限,為此學(xué)者們提出了多種變體[26-30]. Zhou et al[26]的Informer 利用稀疏注意力機(jī)制來降低注意力時(shí)間復(fù)雜度與內(nèi)存使用率.Zhou et al[27]的FEDformer 在頻域中應(yīng)用了注意力操作,主要涉及組件的調(diào)整,特別是用于時(shí)間依賴建模的注意力模塊和對長序列復(fù)雜性的優(yōu)化.隨著線性預(yù)測器的發(fā)展[28],Transformer 對不同時(shí)間步間注意力機(jī)制的計(jì)算受到了挑戰(zhàn),現(xiàn)有工作更加關(guān)注時(shí)間序列的固有處理. Nie et al[29]的PatchTST 利用獨(dú)立通道的設(shè)計(jì),其中每個(gè)通道包含單個(gè)單變量時(shí)間序列,在所有序列中共享相同的嵌入,并將時(shí)間序列分割為塊來進(jìn)行嵌入.Liu et al[30]利用非穩(wěn)態(tài)變壓器作為一個(gè)通用框架,通過級數(shù)穩(wěn)態(tài)化和去穩(wěn)態(tài)注意力兩個(gè)相互依賴的模塊來進(jìn)行預(yù)測,效果良好. 上述Transformer 變體在處理時(shí)間序列數(shù)據(jù)時(shí)展現(xiàn)了強(qiáng)大的表現(xiàn)力和靈活性,能夠捕捉序列中復(fù)雜的時(shí)序模式和變量間的關(guān)系,為時(shí)間序列預(yù)測任務(wù)帶來了新的突破和可能性. 其優(yōu)異的性能使它們在時(shí)間序列預(yù)測時(shí)的誤差更微小,為實(shí)現(xiàn)更準(zhǔn)確、更有效的時(shí)間序列預(yù)測提供了有力支持.
關(guān)注變量間的依賴性對于多變量的預(yù)測具有重要意義. 目前,大部分基于Transformer 的改良模型主要集中于對時(shí)間依賴性進(jìn)行建模,但忽略了變量間的依賴性. Zhang and Yan[31]的Cross?former 通過改進(jìn)的注意力機(jī)制和架構(gòu),明確捕捉跨時(shí)間和跨變量的依賴關(guān)系,在捕捉多變量間的時(shí)間和變量關(guān)系時(shí)取得了良好的效果. Liu etal[32]的iTransformer,對輸入的時(shí)間序列數(shù)據(jù)矩陣進(jìn)行轉(zhuǎn)置,在不修改Transformer 組件的情況下取得良好的預(yù)測結(jié)果.
降低Transformer 模型的計(jì)算復(fù)雜度是研究中的另一個(gè)重要問題,有大量的工作致力于降低時(shí)間復(fù)雜度[33],目前主要的方法聚集于改變注意力計(jì)算方法,但優(yōu)化Transformer 模塊結(jié)構(gòu)也同樣重要.
2. 2 時(shí)間序列分解 在多變量時(shí)間序列預(yù)測中,對時(shí)間維度的依賴關(guān)系至關(guān)重要. 充分挖掘不同時(shí)間步的相關(guān)性,能提高模型對多變量時(shí)間序列的預(yù)測性能. 為了有效利用該相關(guān)性,首先利用移動平均得到趨勢項(xiàng)的分解策略. 如圖2 所示,將時(shí)間序列分解為趨勢項(xiàng)和剩余項(xiàng)兩個(gè)部分,剩余項(xiàng)代表時(shí)間序列周期項(xiàng)和殘差項(xiàng)的和,如式(4)和式(5)所示:
ETT 數(shù)據(jù)集(https://github. com/zhouhaoyi/ETDataset)[26]是從電力變壓器中收集的數(shù)據(jù),包括2016 年7 月至2018 年7 月記錄的負(fù)荷和油溫?cái)?shù)據(jù),分別包含時(shí)間間隔粒度為1 h 的數(shù)據(jù)集ETTH1,ETTH2 和時(shí)間間隔粒度為15 min 的數(shù)據(jù)集ETTM1,ETTM2. ETTH 數(shù)據(jù)集中的每個(gè)變量有17420 個(gè)時(shí)間步,ETTM 數(shù)據(jù)集中的每個(gè)變量有69680 個(gè)時(shí)間步.
Electricity數(shù)據(jù)集( https://archive. ics. uci. edu/ml/datasets/ElectricityLoadDiagrams20112014)收集了2012年到2014年321位客戶的每小時(shí)用電量數(shù)據(jù),對于電力系統(tǒng)的規(guī)劃和管理至關(guān)重要,對于了解電力消費(fèi)的模式和趨勢也有重要作用.
Weather 數(shù)據(jù)集(https://www. bgc-jena.mpg. de/wetter/)是2020年從馬克斯·普朗克生物地球化學(xué)研究所氣象站每10 min 采集的21 個(gè)氣象因素,對于氣象學(xué)、氣候?qū)W以及各個(gè)與天氣相關(guān)領(lǐng)域的研究具有重要的研究和應(yīng)用價(jià)值.
3. 2對比算法與評估指標(biāo)
3. 2. 1對比算法 將提出的方法與多個(gè)算法進(jìn)行對比實(shí)驗(yàn),以驗(yàn)證DItrans 模型的性能.
Informer[26]是基于Transformer 的方法,利用稀疏注意力機(jī)制來降低注意力時(shí)間復(fù)雜度與內(nèi)存使用率,是一種有效的優(yōu)化效率的方法.
Autoformer[14]具有自動相關(guān)性機(jī)制的新型分解架構(gòu),其利用趨勢項(xiàng)和殘差項(xiàng)建模取得了更好的效果,提供了一種良好的時(shí)間序列分解方法.
DLinear[28]是一種用于多變量時(shí)間序列預(yù)測的線性模型,結(jié)構(gòu)簡單而誤差較低,對于在變量維度上進(jìn)行時(shí)間序列預(yù)測研究提供了良好的思路.
Crossformer[31]在建模時(shí)考慮了不同變量之間的關(guān)系,而不僅僅是時(shí)間上的依賴關(guān)系,通過時(shí)間依賴性和變量依賴性的建模方法,在多變量預(yù)測中取得了良好的效果.
iTransformer[34]通過轉(zhuǎn)置時(shí)間步和變量的維度進(jìn)行建模,在不修改Transformer 組件的同時(shí)對變量間的依賴關(guān)系進(jìn)行建模,提高了模型對多變量之間關(guān)系的理解能力,取得了良好的效果.
3. 2. 2損失函數(shù)和評估指標(biāo) 在訓(xùn)練過程中采用均方誤差(Mean Squared Error,MSE)作為損失函數(shù),評估模型性能時(shí)采用MSE 和平均絕對誤差(Mean Absolute Error,MAE)作為評估指標(biāo).MSE 和MAE 越小,表示模型的預(yù)測誤差越小,即模型的預(yù)測能力越強(qiáng). 針對第i個(gè)實(shí)例,MSE(i) 和MAE(i) 的計(jì)算如下所示:
3. 3 實(shí)驗(yàn)設(shè)置
3. 3. 1實(shí)驗(yàn)平臺 物理機(jī)包括Intel Xeon Plati?num 8352V的CPU以及一個(gè)顯存24GB 的RTX4090 的GPU. 使用PyTorch 深度學(xué)習(xí)框架搭建網(wǎng)絡(luò)結(jié)構(gòu)進(jìn)行實(shí)驗(yàn).
3. 3. 2訓(xùn)練和超參數(shù)設(shè)置 采用EarlyStopping機(jī)制,當(dāng)驗(yàn)證集的表現(xiàn)連續(xù)若干輪次未見提升時(shí)訓(xùn)練終止,以防止模型過擬合,提高其泛化能力.使用Adam[36]優(yōu)化器,選擇MSE 作為損失函數(shù).
實(shí)驗(yàn)的重要超參數(shù)設(shè)置如表2所示,其中,dff為編碼器中前饋神經(jīng)網(wǎng)絡(luò)的隱層維度,e為可學(xué)習(xí)矩陣的維度,Sl 為片段數(shù).
實(shí)驗(yàn)中若無特殊說明,設(shè)置觀察序列長度X為96,預(yù)測序列長度Y 分別為96,192,336,720.設(shè)置平均核長度K = 5,以此來提取趨勢項(xiàng),得到剩余項(xiàng),再在剩余項(xiàng)中提取周期項(xiàng)和殘差項(xiàng).
3. 4實(shí)驗(yàn)結(jié)果
3. 4. 1多變量時(shí)間序列預(yù)測結(jié)果 將DItrans模型與對比算法的預(yù)測結(jié)果進(jìn)行比較,如表3 所示,表中黑體字表示性能最優(yōu). 由表可見,DItrans 模型表現(xiàn)出良好的多變量時(shí)間序列預(yù)測性能. 與對比算法相比,DItrans 的MSE 下降了1. 71%~79. 28%,MAE 下降了0. 72%~57. 52%.
在ETTH1,ETTH2與Electricity 數(shù)據(jù)集上,DItrans 模型展現(xiàn)了更優(yōu)異的性能,證明其獨(dú)特的編碼器、融合嵌入和分解方法更適合捕捉這些數(shù)據(jù)集的特征. 因?yàn)閷τ谛r(shí)級別這種采樣間隔較大的時(shí)間序列數(shù)據(jù),DItrans 能夠更有效地捕獲并處理,從而實(shí)現(xiàn)更精準(zhǔn)的預(yù)測. 此外,在ETTM2數(shù)據(jù)集上DItrans 的表現(xiàn)同樣出色,說明它在采樣粒度較小的時(shí)間序列數(shù)據(jù)中也能取得良好效果.然而,對于ETTM1 數(shù)據(jù)集,DLinear 模型表現(xiàn)最佳,表明在此數(shù)據(jù)集中,除了考慮變量間的依賴關(guān)系,還需要重視不同時(shí)間步之間關(guān)系的捕捉. 在Weather 數(shù)據(jù)集中,DItrans,iTransformer,Cross?former 表現(xiàn)效果較佳,說明對于Weather 這種變量間具有高度依賴性關(guān)系的數(shù)據(jù),采用轉(zhuǎn)置嵌入方法可以實(shí)現(xiàn)更好的預(yù)測效果.
此外,在預(yù)測序列長度為96時(shí),DItrans 模型在各個(gè)數(shù)據(jù)集上的性能均為最優(yōu),說明其擁有較強(qiáng)的短期預(yù)測能力. 同時(shí),模型的預(yù)測序列長度Y 不同時(shí),各個(gè)數(shù)據(jù)集上的MSE 和MAE 的變化較小,證明該模型能夠有效地捕捉時(shí)間序列數(shù)據(jù)的趨勢、周期等關(guān)系,并在長時(shí)間序列預(yù)測中展現(xiàn)出良好的魯棒性.
3. 4. 2編碼器和嵌入方法對比實(shí)驗(yàn) 為了驗(yàn)證不同編碼器的學(xué)習(xí)效果和對比使用不同的嵌入方法,進(jìn)行了對比實(shí)驗(yàn).
版本1:保持其他結(jié)構(gòu)不變,去除時(shí)間序列分解過程,直接針對原始的時(shí)間序列經(jīng)過歸一化后再進(jìn)行轉(zhuǎn)置嵌入,并使用eTRM 編碼器結(jié)構(gòu),再經(jīng)過線性層和反歸一化得到預(yù)測結(jié)果.
版本2:未進(jìn)行時(shí)間序列分解,并在學(xué)習(xí)表征時(shí)使用原始的eTRM 編碼器結(jié)構(gòu).
版本3:進(jìn)行趨勢項(xiàng)、周期項(xiàng)和殘差項(xiàng)的分解,針對三項(xiàng)學(xué)習(xí)表征,均使用原始的TRM 編碼器結(jié)構(gòu).
版本4:進(jìn)行趨勢項(xiàng)、周期項(xiàng)和殘差項(xiàng)的分解,針對三項(xiàng)學(xué)習(xí)表征,均使用eTRM 編碼器結(jié)構(gòu).
版本5:對時(shí)間序列進(jìn)行趨勢項(xiàng)、周期項(xiàng)和殘差項(xiàng)的分解,在嵌入時(shí)不針對時(shí)間序列進(jìn)行轉(zhuǎn)置,而直接使用線性層進(jìn)行嵌入;針對趨勢項(xiàng)利用TRM 編碼器學(xué)習(xí)表征,而針對周期項(xiàng)和殘差項(xiàng)利用eTRM編碼器學(xué)習(xí)表征,最后的線性層將學(xué)習(xí)得到的表征映射為預(yù)測的結(jié)果Y? ∈R S × N.
由于ETT數(shù)據(jù)集沒有很強(qiáng)的周期性,而Elec?tricity數(shù)據(jù)集周期性較強(qiáng),因此選擇在ETTH1和Electricitiy數(shù)據(jù)集上進(jìn)行對比實(shí)驗(yàn).
對比實(shí)驗(yàn)的結(jié)果如表4 所示,表中黑體字表示性能最優(yōu). 由表可見,在周期性不是很強(qiáng)的ETT 數(shù)據(jù)集中,版本1 的預(yù)測精度優(yōu)于版本2,說明該編碼器的學(xué)習(xí)方式更適合捕獲不具備明顯周期性特征的數(shù)據(jù). 同時(shí),版本1 的MAE 和MSE的均值均小于版本2,說明改進(jìn)的eTRM 編碼器結(jié)構(gòu)能減小時(shí)間復(fù)雜度,預(yù)測也更準(zhǔn)確. DItrans模型的預(yù)測精度表現(xiàn)最佳,超過版本3 和版本4,證明兩種編碼器的組合更有利于學(xué)習(xí)當(dāng)前時(shí)間序列分解的趨勢項(xiàng)、周期項(xiàng)和殘差項(xiàng). 版本5 的實(shí)驗(yàn)結(jié)果證明了轉(zhuǎn)置嵌入方法對本文模型的有效性.
3. 4. 3分解方法對比實(shí)驗(yàn) 合適的時(shí)間序列分解方法對于模型的預(yù)測性能十分重要,為了驗(yàn)證時(shí)間序列分解的作用,對比了不同的分解方式對模型的影響.
表5 展示了時(shí)間序列分解對比實(shí)驗(yàn)的結(jié)果,表中黑體字表示結(jié)果最優(yōu). 由表可見,將時(shí)間序列分解為趨勢項(xiàng)、周期項(xiàng)和殘差項(xiàng)再分別進(jìn)行學(xué)習(xí)的方法,總體上優(yōu)于只分解為趨勢項(xiàng)和剩余項(xiàng)的方法,驗(yàn)證了本文分解方法的優(yōu)勢. 同時(shí),DI?trans 模型在大多數(shù)情況下MSE 均為最優(yōu). 但由于模型的訓(xùn)練目標(biāo)是最小化MSE 損失,這使模型在訓(xùn)練過程中更傾向于降低MSE,而在某些情況下忽略了對MAE 的優(yōu)化,所以在某些情況下MAE 表現(xiàn)稍差. 因此,在結(jié)合時(shí)間序列分解方法的同時(shí),合理選擇和組合訓(xùn)練損失函數(shù)十分重要,以便在優(yōu)化MSE 的同時(shí)兼顧MAE,從而提高模型的整體預(yù)測性能.
3. 4. 4編碼器維度e 靈敏度實(shí)驗(yàn) 為了進(jìn)一步提升模型的實(shí)用性,調(diào)整可學(xué)習(xí)矩陣維度e 來驗(yàn)證其對模型的影響. 使用MSE 的平均值來評估模型的準(zhǔn)確性,使用吞吐量來衡量模型的計(jì)算速度. 發(fā)現(xiàn)在e 不同時(shí),MSE 的變化幅度有限,并且模型的計(jì)算效率顯著提升,可為模型在實(shí)際的多變量時(shí)間序列預(yù)測應(yīng)用過程中提供有效的策略.此實(shí)驗(yàn)有助于在實(shí)際應(yīng)用中選取最合適的e,在保證模型精度的同時(shí)提高了其計(jì)算效率. 在ETTH1,Electricity 和Weather 數(shù)據(jù)集上進(jìn)行了對比實(shí)驗(yàn),設(shè)置預(yù)測序列長度Y = 96.
圖5展示了預(yù)測序列長度Y =96時(shí),在不同數(shù)據(jù)集上可學(xué)習(xí)矩陣維度e 對模型的MSE 和吞吐量的影響. 在ETTH1數(shù)據(jù)集上,e較高時(shí)模型的預(yù)測精度較高,且吞吐量較大,所以應(yīng)當(dāng)選取較高的e;在Electricity 和Weather 數(shù)據(jù)集上,e較高模型的預(yù)測精度更高,e較低時(shí)模型的吞吐量更大. 所以,針對不同的數(shù)據(jù)集和實(shí)驗(yàn)設(shè)置,應(yīng)綜合考慮預(yù)測精度和吞吐量,選擇合適的e 至關(guān)重要.
3. 4. 5片段數(shù)Sl 的靈敏度實(shí)驗(yàn) 為了更好地進(jìn)行周期項(xiàng)和殘差項(xiàng)分解,在ETTH1數(shù)據(jù)集上通過實(shí)驗(yàn)來尋找合適的片段數(shù)Sl,設(shè)置預(yù)測序列長度分別為96,192,336,720. 表6 展示了實(shí)驗(yàn)結(jié)果,由表可見,Sl = 4 時(shí)模型的預(yù)測效果較好. 由于ETTH 實(shí)際的采樣粒度是1 h,針對ETTH1 數(shù)據(jù)集進(jìn)行周期長度為24 h 的劃分具有更好的預(yù)測能力.
3. 4. 6預(yù)測實(shí)例分析 將多種模型與DItrans 模型進(jìn)行預(yù)測效果的可視化對比,圖6 展示了在三個(gè)數(shù)據(jù)集上的預(yù)測實(shí)例分析結(jié)果,實(shí)例由以下模型提供:iTransformer[34],Crossformer[31],Dlinear[28],Autoformer[14],Informer[26]. 由圖可見,本文提出的DItrans 模型取得了最優(yōu)的效果. 特別是針對Weather 數(shù)據(jù)集的實(shí)例,其他對比算法對該實(shí)例進(jìn)行預(yù)測時(shí),對趨勢的預(yù)測出現(xiàn)了較大的偏差,而DItrans 模型可以較好地捕獲趨勢特征,從而擁有良好的預(yù)測性能.
4 結(jié)論
時(shí)間序列預(yù)測是一項(xiàng)重要且具有挑戰(zhàn)性的任務(wù),在許多領(lǐng)域均有廣泛的應(yīng)用. 隨著深度學(xué)習(xí)方法的發(fā)展,針對多變量時(shí)間序列預(yù)測的研究受到廣泛關(guān)注[32,37-41]. 本文提出一種融合趨勢項(xiàng)、周期項(xiàng)和殘差分解和轉(zhuǎn)置策略的模型DItrans,并引入了新的編碼器結(jié)構(gòu). 通過趨勢項(xiàng)、周期項(xiàng)和殘差項(xiàng)的分解,再進(jìn)行轉(zhuǎn)置嵌入,最后利用不同的編碼器結(jié)構(gòu)進(jìn)行學(xué)習(xí),使得模型在保證預(yù)測準(zhǔn)確性的同時(shí)降低了時(shí)間復(fù)雜度. 轉(zhuǎn)置嵌入的方法有助于研究變量之間的相關(guān)性,而趨勢項(xiàng)、周期項(xiàng)和殘差項(xiàng)的分解有助于捕獲時(shí)間維度的依賴關(guān)系,DI?trans 為同時(shí)研究變量和時(shí)間維度的特征提供了一種新的思路.
在三個(gè)真實(shí)數(shù)據(jù)集上對DItrans 模型進(jìn)行了性能評估,結(jié)果表明,其MSE 和MAE 均為最佳.和對比算法相比,其MSE 下降1. 71%~79. 28%,MAE 下降0. 72%~57. 52%,說明DItrans 模型在多變量時(shí)間序列預(yù)測任務(wù)中表現(xiàn)良好.
未來考慮提高模型的性能和效率,嘗試更精確的時(shí)間序列分解方法或其他的時(shí)間序列特征提取方法,還考慮將該模型應(yīng)用到更多的領(lǐng)域和實(shí)際問題中,以驗(yàn)證其在不同場景下的通用性和實(shí)用性. 隨著深度學(xué)習(xí)技術(shù)的不斷發(fā)展,融合時(shí)間序列分解與轉(zhuǎn)置策略的多變量時(shí)間序列預(yù)測模型將在時(shí)間序列預(yù)測領(lǐng)域發(fā)揮更重要的作用.
(責(zé)任編輯 楊可盛)