梁宏濤,劉 碩,杜軍威,胡 強(qiáng),于 旭
青島科技大學(xué) 信息科學(xué)技術(shù)學(xué)院,山東 青島266061
隨著社會(huì)中物聯(lián)網(wǎng)傳感器的廣泛接入,幾乎所有科學(xué)領(lǐng)域都在以不可估量的速度產(chǎn)生大量的時(shí)間序列數(shù)據(jù)。傳統(tǒng)參數(shù)模型和機(jī)器學(xué)習(xí)算法已難以高效準(zhǔn)確地處理時(shí)間序列數(shù)據(jù),因此采用深度學(xué)習(xí)算法從時(shí)間序列中挖掘有用信息已成為眾多學(xué)者關(guān)注的焦點(diǎn)。
分類聚類[1-4]、異常檢測(cè)[5-7]、事件預(yù)測(cè)[8-10]、時(shí)間序列預(yù)測(cè)[11-14]是時(shí)間序列數(shù)據(jù)的四個(gè)重點(diǎn)研究方向。已有的時(shí)序預(yù)測(cè)綜述文章,概括了經(jīng)典的參數(shù)模型以及傳統(tǒng)機(jī)器學(xué)習(xí)算法的相關(guān)內(nèi)容,但缺少對(duì)Transformer 類算法最新成果的介紹和在各行業(yè)常用數(shù)據(jù)集的實(shí)驗(yàn)對(duì)比分析。余下內(nèi)容將以深度學(xué)習(xí)的視角重點(diǎn)分析闡述有關(guān)時(shí)間序列預(yù)測(cè)方向的內(nèi)容,并在多種GPU環(huán)境下對(duì)不同數(shù)據(jù)集采用多個(gè)評(píng)價(jià)指標(biāo)進(jìn)行實(shí)驗(yàn)對(duì)比分析?;谏疃葘W(xué)習(xí)的時(shí)間序列預(yù)測(cè)算法發(fā)展脈絡(luò)如圖1所示。
圖1 基于深度學(xué)習(xí)的時(shí)間序列預(yù)測(cè)算法時(shí)間表Fig. 1 Development history of time series prediction algorithms based on deep learning
時(shí)間序列預(yù)測(cè)是時(shí)間序列任務(wù)中最常見和最重要的應(yīng)用,通過挖掘時(shí)間序列潛在規(guī)律,進(jìn)行類推或者延展用于解決在現(xiàn)實(shí)生活中面臨的諸多問題,包括噪聲消除[15]、股票行情分析[16-17]、電力負(fù)荷預(yù)測(cè)[18]、交通路況預(yù)測(cè)[19-20]、流感疫情預(yù)警[21]等。
當(dāng)時(shí)間序列預(yù)測(cè)任務(wù)提供的原始數(shù)據(jù)僅為目標(biāo)數(shù)據(jù)的歷史數(shù)據(jù)時(shí),為單變量時(shí)間序列預(yù)測(cè),當(dāng)提供的原始數(shù)據(jù)包含多種隨機(jī)變量時(shí),為多變量時(shí)間序列預(yù)測(cè)。
時(shí)間序列預(yù)測(cè)任務(wù)根據(jù)所預(yù)測(cè)的時(shí)間跨度長(zhǎng)短,可劃分為四類,具體如圖2所示。
圖2 預(yù)測(cè)任務(wù)以時(shí)間跨度分類圖Fig. 2 Prediction tasks categorized by time span
時(shí)間序列預(yù)測(cè)是對(duì)前t-1 個(gè)時(shí)刻的歷史數(shù)據(jù)學(xué)習(xí)分析來估計(jì)出指定未來時(shí)間段的數(shù)據(jù)值。時(shí)間序列數(shù)據(jù)由于其各變量間固有的潛在聯(lián)系,常表現(xiàn)出一種或多種特性,為對(duì)時(shí)序預(yù)測(cè)有更全面的認(rèn)識(shí),本章將對(duì)這些常見特性進(jìn)行詳細(xì)介紹。
(1)海量性:隨著物聯(lián)網(wǎng)傳感器設(shè)備的升級(jí)、測(cè)量頻率的提高、測(cè)量維度的增加,時(shí)間序列數(shù)據(jù)爆炸性增長(zhǎng),高維度的時(shí)間序列數(shù)據(jù)占據(jù)主流[22]。在數(shù)據(jù)集層面進(jìn)行有效的預(yù)處理工作,是高質(zhì)量完成時(shí)間序列預(yù)測(cè)任務(wù)的關(guān)鍵。
(2)趨勢(shì)性:當(dāng)前時(shí)刻數(shù)據(jù)往往與前一段時(shí)刻數(shù)據(jù)有著密切的聯(lián)系,該特點(diǎn)暗示了時(shí)間序列數(shù)據(jù)受其他因素影響通常有一定的變化規(guī)律,時(shí)間序列可能在長(zhǎng)時(shí)間里展現(xiàn)出一種平穩(wěn)上升或平穩(wěn)下降或保持水平的趨勢(shì)。
(3)周期性:時(shí)間序列中數(shù)據(jù)受外界因素影響,在長(zhǎng)時(shí)間內(nèi)呈現(xiàn)出起起落落的交替變化[23],例如,漲潮退潮,一周內(nèi)潮水高度不符合趨勢(shì)性變化,并不是朝著某一方向的近似直線的平穩(wěn)運(yùn)動(dòng)。
(4)波動(dòng)性:隨著長(zhǎng)時(shí)間的推移和外部多因素影響,時(shí)間序列的方差和均值也可能會(huì)發(fā)生系統(tǒng)的變化,在一定程度上影響時(shí)間序列預(yù)測(cè)的準(zhǔn)確度。
(5)平穩(wěn)性:時(shí)間序列數(shù)據(jù)個(gè)別為隨機(jī)變動(dòng),在不同時(shí)間上呈統(tǒng)計(jì)規(guī)律,在方差與均值上保持相對(duì)穩(wěn)定。
(6)對(duì)稱性:若某段時(shí)間周期內(nèi),原始的時(shí)間序列和其反轉(zhuǎn)時(shí)間序列的距離控制在一定的閾值以內(nèi),曲線基本對(duì)齊,即認(rèn)定該段時(shí)間序列具有對(duì)稱性[24],例如港口大型運(yùn)輸車往復(fù)作業(yè),起重機(jī)抬臂和降臂工作等。
各特性具體示例如圖3所示。
圖3 時(shí)間序列數(shù)據(jù)特性示例圖Fig. 3 Example graphs of time series data characteristics
權(quán)威的數(shù)據(jù)集一直是衡量不同算法優(yōu)劣的重要標(biāo)準(zhǔn),數(shù)據(jù)集在使用前一般要進(jìn)行子集選擇、噪音處理、缺失值補(bǔ)充和數(shù)據(jù)類型轉(zhuǎn)換等操作,來保證數(shù)據(jù)準(zhǔn)確性、完整性和一致性。在解決實(shí)際任務(wù)時(shí),對(duì)于一個(gè)給定的數(shù)據(jù)集,應(yīng)當(dāng)根據(jù)數(shù)據(jù)集的情況來選擇適當(dāng)?shù)哪P退惴ㄟM(jìn)行處理,如果盲目選擇經(jīng)典或最先進(jìn)算法往往難以得到一個(gè)好的預(yù)測(cè)結(jié)果。研究人員可以根據(jù)數(shù)據(jù)集記錄條數(shù)的數(shù)量級(jí)和特征變量的多少以及任務(wù)要求的預(yù)測(cè)步長(zhǎng)來選定合適的算法。
下文用于衡量各類模型處理不同任務(wù)優(yōu)劣的權(quán)威數(shù)據(jù)集如下:(1)Electricity Load 是一個(gè)從電力行業(yè)收集的大型電力負(fù)荷數(shù)據(jù)集,其中包含了2012 至2014 年超過140 萬條記錄,包括目標(biāo)值“負(fù)荷”、位置信息、天氣信息、濕度信息和用戶數(shù)量等多個(gè)變量。(2)COVID-19是一個(gè)根據(jù)國家發(fā)布新冠肺炎感染情況的小數(shù)據(jù)集,包括從2020 年1 月22 日到2020 年6 月27 日的確診病例、死亡病例和康復(fù)病例數(shù)據(jù)。(3)ETTh1是北京航空航天大學(xué)收集的中國某縣的電力變壓器溫度數(shù)據(jù)集,包括從2016年7月1日至2018年6 月26 日超過1.7 萬條數(shù)據(jù)記錄,以1 h 為間隔,每條記錄包括目標(biāo)值“油溫”和6 個(gè)電力負(fù)荷特征。(4)Electricity 收集了321 個(gè)電力用戶的耗電量,包括從2012 年1 月1 日至2014 年12 月31 日超過2.6 萬條數(shù)據(jù)記錄,以1 h為間隔。(5)Weather包含近1 600個(gè)美國地區(qū)的當(dāng)?shù)貧夂驍?shù)據(jù),從2010 年1 月1 日至2013年12 月31 日超過3.5 萬條數(shù)據(jù)記錄,以1 h 為間隔,每條記錄包括目標(biāo)值“濕球”和11個(gè)氣候特征。
第3 章將根據(jù)上述數(shù)據(jù)集的規(guī)模和不同算法的性能特點(diǎn)進(jìn)行實(shí)驗(yàn)。
誤差評(píng)價(jià)指標(biāo)是衡量一個(gè)時(shí)間序列預(yù)測(cè)模型性能的重要方法,一般而言,評(píng)價(jià)指標(biāo)計(jì)算出的誤差越大,模型預(yù)測(cè)的準(zhǔn)確率越低,進(jìn)而表示所建立的預(yù)測(cè)模型性能表現(xiàn)也就越差。目前常用的時(shí)間序列預(yù)測(cè)算法評(píng)價(jià)指標(biāo)如下:
(1)平均絕對(duì)誤差(mean absolute error,MAE)[25],是通過計(jì)算每一個(gè)樣本的預(yù)測(cè)值和真實(shí)值的差的絕對(duì)值得出,具體計(jì)算公式為:
MAE 的取值范圍為[0,+∞],當(dāng)模型預(yù)測(cè)完全準(zhǔn)確時(shí),所計(jì)算出的MAE為0,代表模型預(yù)測(cè)準(zhǔn)確度達(dá)到100%,模型是完美模型。公式中m為樣本數(shù)量,yi為真實(shí)值,為模型的預(yù)測(cè)值,下同。
(2)均方誤差(mean square error,MSE)[26],是一個(gè)很實(shí)用的指標(biāo),通過計(jì)算每一個(gè)樣本的預(yù)測(cè)值與真實(shí)值的差的平方再取平均值得出,具體公式為:
MSE 的取值范圍同樣是[0,+∞],計(jì)算速度快。一直作為時(shí)序預(yù)測(cè)算法的主要評(píng)價(jià)指標(biāo)之一。
(3)均方根誤差(root mean square error,RMSE)[27],是均方誤差進(jìn)行開方得到,具體公式為:
RMSE其取值范圍依然是[0,+∞],最終計(jì)算結(jié)果容易受數(shù)據(jù)集中的極端值影響。
(4)平均絕對(duì)百分比誤差(mean absolute percentage error,MAPE)[28],是相對(duì)誤差度量值,避免了正誤差和負(fù)誤差相互抵消,具體公式為:
該評(píng)價(jià)指標(biāo)在有足夠數(shù)據(jù)可用的情況下常被選用,無法處理真實(shí)值存在0 的數(shù)據(jù)集,因?yàn)闀?huì)出現(xiàn)分母為0的問題,值越小,說明預(yù)測(cè)模型擬合效果越好。
(5)決定系數(shù)R-squared[29]又叫可決系數(shù)(coefficient of determination),也叫擬合優(yōu)度,其計(jì)算結(jié)果即為模型預(yù)測(cè)的準(zhǔn)確度,取值范圍為[0,1]。R2值越接近1,模型性能越好;該模型等于基準(zhǔn)模型時(shí)R2=0,R-squared公式為:
上述五種常見評(píng)價(jià)指標(biāo)中,由于MAE、MSE 和RMSE等都缺少確定的上限和下限,無法有效判斷當(dāng)前預(yù)測(cè)模型的性能好壞,然而R-squared 的計(jì)算結(jié)果位于[0,1]區(qū)間,使得對(duì)預(yù)測(cè)模型的評(píng)價(jià)有了更加統(tǒng)一的標(biāo)準(zhǔn)。研究人員在針對(duì)預(yù)測(cè)任務(wù)時(shí)所提出的各類算法往往采用不同的評(píng)價(jià)指標(biāo)來證明算法的先進(jìn)性。例如,在循環(huán)神經(jīng)網(wǎng)絡(luò)類算法蓬勃發(fā)展時(shí)期,研究人員采用的評(píng)價(jià)指標(biāo)較為多元化,而到了采用Transformer 類算法處理時(shí)序預(yù)測(cè)任務(wù)時(shí),則更多地使用MAE和MSE兩個(gè)評(píng)價(jià)指標(biāo)。
最初預(yù)測(cè)任務(wù)數(shù)據(jù)量小,淺層神經(jīng)網(wǎng)絡(luò)訓(xùn)練速度快,但隨著數(shù)據(jù)量的增加和準(zhǔn)確度要求的不斷提高,淺層神經(jīng)網(wǎng)絡(luò)已經(jīng)遠(yuǎn)不能滿足任務(wù)需求。近年來,深度學(xué)習(xí)引起了各領(lǐng)域研究者的廣泛關(guān)注,深度學(xué)習(xí)方法在時(shí)間序列預(yù)測(cè)任務(wù)中與傳統(tǒng)算法相比表現(xiàn)出了更強(qiáng)勁的性能,得到了長(zhǎng)遠(yuǎn)發(fā)展和普遍應(yīng)用。
深度神經(jīng)網(wǎng)絡(luò)與淺層神經(jīng)網(wǎng)絡(luò)相比有更好的線性和非線性特征提取能力,能夠挖掘出淺層神經(jīng)網(wǎng)絡(luò)容易忽略的規(guī)律,最終滿足高精度的預(yù)測(cè)任務(wù)要求[30]。本章余下部分將介紹可用于解決時(shí)間序列預(yù)測(cè)問題的三大類深度學(xué)習(xí)模型。
3.1.1 CNN
卷積神經(jīng)網(wǎng)絡(luò)(convolutional neural networks,CNN)是一類以卷積和池化操作為核心的深層前饋神經(jīng)網(wǎng)絡(luò),在設(shè)計(jì)之初,其用于解決計(jì)算機(jī)視覺領(lǐng)域的圖片識(shí)別問題[31-32]。
卷積神經(jīng)網(wǎng)絡(luò)做時(shí)間序列預(yù)測(cè)的原理是利用卷積核的能力,可以感受歷史數(shù)據(jù)中一段時(shí)間的變化情況,根據(jù)這段歷史數(shù)據(jù)的變化情況做出預(yù)測(cè)。池化操作可以保留關(guān)鍵信息,減少信息的冗余,卷積神經(jīng)網(wǎng)絡(luò)可以有效減少以往算法提取特征的人力資源消耗,同時(shí)避免了人為誤差的產(chǎn)生。卷積神經(jīng)網(wǎng)絡(luò)所需的樣本輸入量巨大,多用于預(yù)測(cè)具備空間特性的數(shù)據(jù)集,其網(wǎng)絡(luò)結(jié)構(gòu)一般有五層,具體結(jié)構(gòu)如圖4所示。
2017年,Li等[33]通過將時(shí)間序列的數(shù)值按一定規(guī)律排列轉(zhuǎn)化為圖像進(jìn)行處理,使用CNN 模型將輸入數(shù)據(jù)進(jìn)行聚類,再將天氣數(shù)據(jù)等外部影響因素考慮其中,來進(jìn)行電力負(fù)荷預(yù)測(cè)。
3.1.2 WaveNet-CNN
2017 年,Borovykh 等[34]受WaveNet 這種語音序列生成模型的啟發(fā),使用ReLU激活函數(shù)并采用參數(shù)化跳過連接,在結(jié)構(gòu)上進(jìn)行了簡(jiǎn)化,改進(jìn)了CNN 模型。該模型在金融分析任務(wù)中實(shí)現(xiàn)了高性能,證明卷積網(wǎng)絡(luò)不僅更簡(jiǎn)單更容易訓(xùn)練,同時(shí)在有噪聲的預(yù)測(cè)任務(wù)上也能有優(yōu)異的表現(xiàn)。
3.1.3 Kmeans-CNN
隨著數(shù)據(jù)集規(guī)模越來越大,CNN 在處理大數(shù)據(jù)集中表現(xiàn)不佳。2017 年,Dong 等[35]選擇將可以學(xué)習(xí)更多有用特征的CNN 和分割數(shù)據(jù)的K均值聚類算法結(jié)合,通過將大數(shù)據(jù)集中的相似樣本聚類,分成多個(gè)小樣本來訓(xùn)練,在百萬級(jí)大規(guī)模電力負(fù)荷數(shù)據(jù)集中表現(xiàn)良好。
3.1.4 TCN
2018年,Bai等[36]基于CNN提出了一種內(nèi)存消耗更低而且可并行的時(shí)間卷積網(wǎng)絡(luò)架構(gòu)(temporal convolutional networks,TCN)。TCN 引入因果卷積,保證了未來信息在訓(xùn)練時(shí)不會(huì)被提前獲取到,其反向傳播路徑與時(shí)間方向不同,避免了梯度消失和梯度爆炸問題。為解決CNN在層數(shù)過多時(shí)導(dǎo)致的信息丟失問題,TCN 引入殘差連接使得信息在網(wǎng)絡(luò)間傳遞時(shí)可以跨層傳遞。
3.1.5 小結(jié)
卷積神經(jīng)網(wǎng)絡(luò)類模型在樣本數(shù)量足夠的情況下可用于時(shí)間序列短期預(yù)測(cè)任務(wù),上述算法實(shí)驗(yàn)性能對(duì)比和總體分析如表1及表2所示。
表1 卷積神經(jīng)網(wǎng)絡(luò)類算法多變量預(yù)測(cè)性能對(duì)比Table 1 Comparison of multivariate prediction performance of convolutional neural network-like algorithms
表2 卷積神經(jīng)網(wǎng)絡(luò)類算法總體分析Table 2 Overall analysis of convolutional neural network-like algorithms
從表1中可以看出,模型在樣本量巨大的多變量數(shù)據(jù)集上處理短期預(yù)測(cè)任務(wù)時(shí),Kmeans-CNN采用先聚類分類再由模型訓(xùn)練的思路取得了比較理想的預(yù)測(cè)效果,后續(xù)也有不少研究人員在解決時(shí)序預(yù)測(cè)問題時(shí)進(jìn)行類似處理。引入了擴(kuò)展卷積和殘差連接等架構(gòu)元素的TCN 能保有更長(zhǎng)的有效歷史信息,同樣達(dá)到了不錯(cuò)的預(yù)測(cè)效果,而且其網(wǎng)絡(luò)較為簡(jiǎn)單清晰。
目前,CNN 的預(yù)測(cè)精度與循環(huán)神經(jīng)網(wǎng)絡(luò)等其他網(wǎng)絡(luò)結(jié)構(gòu)相比已不占優(yōu)勢(shì),難以單獨(dú)處理步長(zhǎng)較長(zhǎng)的時(shí)序預(yù)測(cè)問題,但常作為一個(gè)功能強(qiáng)大的模塊接入其他先進(jìn)算法模型中用于預(yù)測(cè)任務(wù)。
3.2.1 RNN
循環(huán)神經(jīng)網(wǎng)絡(luò)(recurrent neural networks,RNN)是由Jordan在1990年提出的用于學(xué)習(xí)時(shí)間維度特征的深度學(xué)習(xí)模型[37]。
RNN的各單元以長(zhǎng)鏈的形式連接在一起按序列發(fā)展的方向進(jìn)行遞歸,模型的輸入是序列數(shù)據(jù),可用于處理自然語言處理的各種任務(wù)(例如文本情感分類、機(jī)器翻譯等)。RNN 同CNN 一樣,參數(shù)是共享的,因此在處理時(shí)間序列數(shù)據(jù)、語音數(shù)據(jù)時(shí)能體現(xiàn)出較強(qiáng)的學(xué)習(xí)能力,通過識(shí)別數(shù)據(jù)的順序特征并使用先前的模式來預(yù)測(cè),具體結(jié)構(gòu)如圖5所示。
圖5 循環(huán)神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)示意圖Fig. 5 Schematic diagram of RNN structure
圖5中xt表示t時(shí)刻的輸入向量,ht表示t時(shí)刻的隱藏向量,可以看到傳統(tǒng)RNN 神經(jīng)元會(huì)接受上一時(shí)刻的隱藏狀態(tài)ht-1和當(dāng)前輸入xt。
使用RNN訓(xùn)練容易出現(xiàn)很嚴(yán)重的梯度消失問題或者梯度爆炸問題。梯度消失問題主要是因?yàn)樵谏窠?jīng)網(wǎng)絡(luò)模型中位于最前面層的網(wǎng)絡(luò)權(quán)重?zé)o法及時(shí)進(jìn)行有效的更新,訓(xùn)練失??;梯度爆炸問題是指由于迭代參數(shù)的改變幅度太過劇烈,學(xué)習(xí)過程不平衡。隨著數(shù)據(jù)長(zhǎng)度的提升,該問題愈加明顯,導(dǎo)致RNN只能有效捕捉短期規(guī)律,即僅具有短期記憶。
1997年,Schuster等[38]將常規(guī)循環(huán)神經(jīng)網(wǎng)絡(luò)RNN擴(kuò)展到雙向循環(huán)神經(jīng)網(wǎng)絡(luò)(bidirectional recurrent neural networks,Bi-RNN)。Bi-RNN 通過同時(shí)在前向和后向上訓(xùn)練,不受限制地使用輸入信息,直到預(yù)設(shè)的未來幀,可同時(shí)獲得過去和未來的特征信息。在人工數(shù)據(jù)的回歸預(yù)測(cè)實(shí)驗(yàn)中,Bi-RNN與RNN訓(xùn)練時(shí)間大致相同并取得了更好的預(yù)測(cè)效果。
3.2.2 長(zhǎng)短期記憶網(wǎng)絡(luò)
長(zhǎng)短期記憶網(wǎng)絡(luò)(long short-term memory,LSTM)于1997 年被Hochreiter 提出,用于解決RNN 模型的諸多問題[39]。LSTM循環(huán)單元結(jié)構(gòu)如圖6所示。
圖6 LSTM單元結(jié)構(gòu)示意圖Fig. 6 Schematic diagram of LSTM cell structure
LSTM的神經(jīng)元在RNN的基礎(chǔ)上還增加了一個(gè)cell 狀態(tài)Ct-1,與RNN 中h的作用相似,都是用來保存歷史狀態(tài)信息的。LSTM 采用三個(gè)門來選擇忘記和記住一些關(guān)鍵信息。
遺忘門和輸入門都作用于單元的內(nèi)部狀態(tài),分別控制遺忘多少前一個(gè)時(shí)間步內(nèi)部狀態(tài)的信息和吸收多少當(dāng)前時(shí)刻的輸入信息,若門的值為0,即不遺忘和完全不吸收,若門的值為1,即完全遺忘和全部吸收。輸出門在隱層ht發(fā)揮作用,主要決定該單元的內(nèi)部狀態(tài)對(duì)系統(tǒng)整體狀態(tài)的影響多少[40]。
王鑫等[41]提出了一種基于LSTM 的單變量故障時(shí)間序列預(yù)測(cè)算法,應(yīng)用于航空領(lǐng)域的飛機(jī)數(shù)據(jù)案例,對(duì)比多元線性回歸模型、支持向量回歸等多個(gè)模型,最終LSTM模型表現(xiàn)出更好的性能。
2005年,Graves等[42]提出的雙向長(zhǎng)短期記憶網(wǎng)絡(luò)(bidirectional long short-term memory,Bi-LSTM)結(jié)構(gòu)類似于Bi-RNN,其由兩個(gè)獨(dú)立的LSTM 拼接而成。Bi-LSTM 的模型設(shè)計(jì)初衷是克服LSTM 無法利用未來信息的缺點(diǎn),使t時(shí)刻所獲得特征數(shù)據(jù)同時(shí)擁有過去和將來的信息[43]。由于Bi-LSTM 利用額外的上下文而不必記住以前的輸入,處理較長(zhǎng)時(shí)間延遲的數(shù)據(jù)時(shí)表現(xiàn)出更強(qiáng)大的能力。經(jīng)實(shí)驗(yàn)表明,沒有時(shí)間延遲的LSTM幾乎返回同樣的結(jié)果,這代表著在部分時(shí)間序列數(shù)據(jù)中向前訓(xùn)練和向后訓(xùn)練兩個(gè)方向上的上下文同樣重要,Bi-LSTM 的特征提取能力明顯高于LSTM。
3.2.3 門控循環(huán)單元
門控循環(huán)單元(gated recurrent unit,GRU)是由Cho等[44]在2014年通過改進(jìn)LSTM模型提出的,具體循環(huán)單元結(jié)構(gòu)如圖7所示。
圖7 GRU單元結(jié)構(gòu)示意圖Fig. 7 Schematic diagram of GRU cell structure
GRU相較于LSTM簡(jiǎn)化了結(jié)構(gòu),圖7中的γt和zt分別表示GRU僅有的重置門和更新門。重置門決定著前一狀態(tài)的信息傳入候選狀態(tài)的比例。更新門是將LSTM的遺忘門和輸出門的功能組合在一起,用于控制前一狀態(tài)的信息ht-1有多少保留到新狀態(tài)ht中,GRU的門的計(jì)算方式和LSTM類似,因此參數(shù)比LSTM少得多,從而訓(xùn)練時(shí)間更少,而且在多個(gè)數(shù)據(jù)集中的表現(xiàn)證明GRU有不亞于LSTM的準(zhǔn)確度表現(xiàn)。
文獻(xiàn)[45]首次將GRU 應(yīng)用于交通流量預(yù)測(cè)并與LSTM 模型作對(duì)比進(jìn)行實(shí)驗(yàn),在MAE 評(píng)價(jià)指標(biāo)下,GRU的表現(xiàn)比LSTM模型低5%左右。
對(duì)于電子商務(wù)中廣泛存在的促銷銷售預(yù)測(cè)任務(wù),Qi 等[46]提出了一種基于GRU 的算法來明確建模目標(biāo)產(chǎn)品與其替代產(chǎn)品之間的競(jìng)爭(zhēng)關(guān)系。Xin等[47]提出的另一項(xiàng)工作將異構(gòu)信息融合到修改后的GRU單元中,以了解促銷活動(dòng)前的預(yù)售階段的狀態(tài)。
3.2.4 小結(jié)
RNN循環(huán)神經(jīng)網(wǎng)絡(luò)類算法自提出就一直是解決時(shí)間序列預(yù)測(cè)任務(wù)的重要方法,常常作為一個(gè)模塊嵌入到其他算法中來獲得更好的預(yù)測(cè)效果,在2017年以前一直作為解決時(shí)間序列數(shù)據(jù)預(yù)測(cè)問題的主力模型,得到廣泛應(yīng)用。主要循環(huán)神經(jīng)網(wǎng)絡(luò)類算法實(shí)驗(yàn)性能對(duì)比和總體分析如表3和表4所示。
表3 循環(huán)神經(jīng)網(wǎng)絡(luò)類算法單變量預(yù)測(cè)性能對(duì)比Table 3 Comparison of univariate prediction performance of recurrent neural network-like algorithms
表4 循環(huán)神經(jīng)網(wǎng)絡(luò)類算法總體分析Table 4 Overall analysis of recurrent neural network-like algorithms
從表3 可以看出,GRU 和LSTM 在性能上相當(dāng),但都受限于只能從一個(gè)方向上學(xué)習(xí)訓(xùn)練,在預(yù)測(cè)精度上要低于可以從兩個(gè)方向上獲取信息的Bi-LSTM模型。Bi-LSTM在解決短期時(shí)序預(yù)測(cè)任務(wù)時(shí)的優(yōu)勢(shì)包括所需的樣本數(shù)量少、擬合速度快、預(yù)測(cè)精度高,如今依然有眾多學(xué)者研究使用。
循環(huán)神經(jīng)網(wǎng)絡(luò)類方法可以捕獲并利用長(zhǎng)期和短期的時(shí)間依賴關(guān)系來進(jìn)行預(yù)測(cè),但在長(zhǎng)序列時(shí)間序列預(yù)測(cè)任務(wù)中表現(xiàn)不好,并且RNN多為串行計(jì)算,導(dǎo)致訓(xùn)練過程中對(duì)內(nèi)存的消耗極大,而且梯度消失和梯度爆炸問題始終沒有得到徹底解決。
介紹Transformer模型之前先要介紹一下注意力機(jī)制,人類眼睛的視角廣闊,但局限于視覺資源,往往重點(diǎn)關(guān)注視線中的特定部分,注意力機(jī)制就是以此為靈感提出,重點(diǎn)關(guān)注數(shù)據(jù)中更有價(jià)值的部分[48-49]。
3.3.1 Transformer
Vaswani 等[50]提出了Transformer這種與以往的CNN 或者RNN 結(jié)構(gòu)不同的新的深度學(xué)習(xí)框架。Transformer 所采用的自注意力機(jī)制所解決的情況是:神經(jīng)網(wǎng)絡(luò)的輸入是很多大小不一的向量,不同時(shí)刻的向量往往存在著某種潛在聯(lián)系,實(shí)際訓(xùn)練的時(shí)候無法充分捕捉輸入之間的潛在聯(lián)系而導(dǎo)致模型訓(xùn)練結(jié)果較差。自注意力機(jī)制的輸入(Query,Key)計(jì)算公式為:
一個(gè)自注意力模塊接收n個(gè)輸入,然后返回n個(gè)輸出,其中的所有輸入都會(huì)彼此作用,挖掘出其中作用明顯的注意力點(diǎn),這些相互作用的聚合和注意力分?jǐn)?shù)即為模塊給出的輸出。Transformer是完全依賴注意力機(jī)制來表征模型的輸入和輸出之間的全局依賴關(guān)系,具體結(jié)構(gòu)如圖8所示。
圖8 Transformer結(jié)構(gòu)示意圖Fig. 8 Schematic diagram of Transformer structure
圖8中的N是一個(gè)超參數(shù),表示編碼器和解碼器部分是由多個(gè)相同的層疊起來。
Transformer 的核心是自注意力模塊,它可以被視為一個(gè)完全連接層,其權(quán)重是基于輸入模式的成對(duì)相似性而動(dòng)態(tài)生成的。其參數(shù)數(shù)量少,同條件下所需計(jì)算量更少,使其適合建模長(zhǎng)期依賴關(guān)系[51]。
相較于RNN的模型,使用LSTM和GRU也不能避免梯度消失和梯度爆炸的問題:隨著網(wǎng)絡(luò)往后訓(xùn)練,梯度越來越小,要走n-1 步才能到第n個(gè)詞,而Transformer的最長(zhǎng)路徑僅為1,解決了長(zhǎng)期困擾RNN的問題。Transformer捕捉長(zhǎng)期依賴和彼此交互的突出能力對(duì)于時(shí)間序列建模任務(wù)有巨大吸引力,能在各種時(shí)間序列任務(wù)中表現(xiàn)出高性能[52]。
3.3.2 BERT
2018 年10 月,Google 的BERT(bidirectional encoder representation from transformers)模型[53]橫空出世,并橫掃自然語言處理領(lǐng)域11 項(xiàng)任務(wù)的最佳成績(jī),隨后Transformer模型運(yùn)用于各大人工智能領(lǐng)域。
2021 年,Jin 等[54]為克服交通流量預(yù)測(cè)所需道路天氣數(shù)據(jù)繁雜、通用性差和應(yīng)用局限等缺點(diǎn),提出了trafficBERT 這種適用于各種道路的模型。該模型通過多頭自注意力來代替預(yù)測(cè)任務(wù)常用的RNN來捕獲時(shí)間序列信息,還通過分解嵌入?yún)?shù)化來更有效地確定每個(gè)時(shí)間步之前和之后狀態(tài)之間的自相關(guān)性,只需要有關(guān)交通速度和一周內(nèi)幾天的道路信息,不需要當(dāng)前時(shí)刻相鄰道路的流量信息,應(yīng)用局限性小。
3.3.3 AST
2020 年,Wu 等[55]應(yīng)用生成對(duì)抗思想在Sparse Transformer[56]基礎(chǔ)上提出了對(duì)抗稀疏Transformer(adversarial sparse Transformer,AST)。
大多數(shù)點(diǎn)預(yù)測(cè)模型只能預(yù)測(cè)每個(gè)時(shí)間步的準(zhǔn)確值,缺乏靈活性,難以捕捉數(shù)據(jù)的隨機(jī)性,在推理過程中常常被網(wǎng)絡(luò)自己的一步超前輸出代替,導(dǎo)致推理過程中的誤差累積,由于誤差累積,它們可能無法預(yù)測(cè)長(zhǎng)時(shí)間范圍內(nèi)的時(shí)間序列。大多數(shù)時(shí)間序列預(yù)測(cè)模型會(huì)優(yōu)化特定目標(biāo),例如最小化似然損失函數(shù)或分位數(shù)損失函數(shù),然而這種強(qiáng)制執(zhí)行步級(jí)精度的精確損失函數(shù)無法處理時(shí)間序列中的真實(shí)隨機(jī)性,從而導(dǎo)致性能下降。
AST模型通過對(duì)抗訓(xùn)練和編碼器-解碼器結(jié)構(gòu)可以更好地表示時(shí)間序列,在序列級(jí)別以更高的保真度預(yù)測(cè)時(shí)間序列的多個(gè)未來步驟來緩解上述問題,并使用鑒別器來提高序列級(jí)別的預(yù)測(cè)性能。實(shí)驗(yàn)表明,時(shí)間序列步驟之間的依賴關(guān)系具有一定的稀疏性,AST 采用的對(duì)抗訓(xùn)練可以從全局角度改善時(shí)間序列預(yù)測(cè),基于編碼器-解碼器的Transformer的性能優(yōu)于僅采用自回歸解碼器的Transformer。
3.3.4 Informer
2021 年,北京航空航天大學(xué)的Zhou 等[57]在經(jīng)典的Transformer 編碼器-解碼器結(jié)構(gòu)的基礎(chǔ)上提出了Informer 模型來彌補(bǔ)Transformer 類深度學(xué)習(xí)模型在應(yīng)用于長(zhǎng)序列時(shí)間預(yù)測(cè)問題時(shí)的不足。在此之前,解決預(yù)測(cè)一個(gè)長(zhǎng)序列的任務(wù)往往采用多次預(yù)測(cè)的方法,而Informer 可以一次給出想要的長(zhǎng)序列結(jié)果,Informer具體結(jié)構(gòu)如圖9所示。
圖9 Informer結(jié)構(gòu)示意圖Fig. 9 Schematic diagram of Informer structure
Informer具有三個(gè)顯著特點(diǎn):(1)ProbSparse自注意力機(jī)制。在Informer的整體結(jié)構(gòu)圖中,編碼器部分采用多頭稀疏自注意力替換了Transformer模型傳統(tǒng)的自注意力,可以有效處理較長(zhǎng)的序列輸入。(2)自注意力提煉。藍(lán)色梯形部分是提取主導(dǎo)注意力的自注意力蒸餾部分,大大減少了網(wǎng)絡(luò)的層數(shù),并且提高了層堆疊部分的魯棒性。(3)生成式解碼器。解碼器部分將預(yù)測(cè)序列及之后的數(shù)據(jù)置為0來進(jìn)行遮擋,分析特征圖的注意力權(quán)重,隨后生成預(yù)測(cè)的結(jié)果,序列輸入只需要一個(gè)前向步驟,有效避免了誤差的累積。
Informer在自我注意模型中引入了稀疏偏差,以及Logsparse 掩碼,從而將傳統(tǒng)Transformer 模型的計(jì)算復(fù)雜度從O(L2)降低到O(LlogaL),它沒有顯式引入稀疏偏差,而是根據(jù)查詢和關(guān)鍵相似性選擇O(LlogaL)占主導(dǎo)地位的查詢,從而在計(jì)算復(fù)雜度上實(shí)現(xiàn)較好的改進(jìn)。長(zhǎng)序列的預(yù)測(cè)在極端天氣的預(yù)警和長(zhǎng)期能源消耗規(guī)劃等實(shí)際應(yīng)用中尤為重要,Informer能在長(zhǎng)時(shí)間序列任務(wù)上表現(xiàn)出優(yōu)越的性能。
3.3.5 TFT
2021 年,Lim 等[58]提出的TFT(temporal fusion transformers)設(shè)計(jì)了一個(gè)包含靜態(tài)協(xié)變量編碼器、門控特征選擇模塊和時(shí)間自注意力解碼器的多尺度預(yù)測(cè)模型。
已經(jīng)提出的幾種深度學(xué)習(xí)方法,通常都是“黑盒”模型,沒有闡明它們?nèi)绾问褂脤?shí)際場(chǎng)景中存在的全部輸入。TFT 編碼可以從協(xié)變量信息中選擇有用的信息來執(zhí)行預(yù)測(cè),它還保留了包含全局、時(shí)間依賴性和事件的可解釋性。
3.3.6 SSDNet
2021 年,Lin 等[59]提出的空間狀態(tài)空間分解神經(jīng)網(wǎng)絡(luò)(state space decomposition neural network,SSDNet),將Transformer 深度學(xué)習(xí)架構(gòu)和狀態(tài)空間模型(state space models,SSM)相結(jié)合,兼顧了深度學(xué)習(xí)的性能優(yōu)勢(shì)和SSM的可解釋性。
SSDNet 采用Transformer 架構(gòu)來學(xué)習(xí)時(shí)間模式并直接估計(jì)SSM的參數(shù)。為了便于解釋,使用固定形式的SSM來提供趨勢(shì)和周期性成分以及Transformer的注意力機(jī)制,以識(shí)別過去歷史的哪些部分對(duì)預(yù)測(cè)最重要。
評(píng)估SSDNet在太陽能、電力、交易所等五個(gè)數(shù)據(jù)集的時(shí)間序列預(yù)測(cè)任務(wù)上的性能,結(jié)果表明,SSDNet比最先進(jìn)的深度學(xué)習(xí)模型DeepAR(deep autoregressive recurrent)[60]、DeepSSM(deep state space models)[61]、LogSparse Transformer、Informer 和N-BEATS(neural basis expansion analysis for interpretable time series forecasting)[62]以及統(tǒng)計(jì)模型SARIMAX(seasonal autoregressive integrated moving average with exogenous factor)[63]和Prophet[64]的預(yù)測(cè)準(zhǔn)確度更高。
3.3.7 Autoformer
2021 年,Wu 等[65]提出的Autoformer 設(shè)計(jì)了一種簡(jiǎn)單的周期性趨勢(shì)分解架構(gòu)。Autoformer 繼承使用Transformer的編碼器-解碼器結(jié)構(gòu)。通過Autoformer采用的獨(dú)特內(nèi)部算子能夠?qū)⒆兞康目傮w變化趨勢(shì)與預(yù)測(cè)的隱藏變量分離,這種設(shè)計(jì)可以使模型在預(yù)測(cè)過程中交替分解和細(xì)化中間結(jié)果。其采用獨(dú)特的自相關(guān)機(jī)制,這種逐級(jí)機(jī)制實(shí)現(xiàn)了長(zhǎng)度L系列的O(LlogaL)復(fù)雜度,并通過在子序列級(jí)別進(jìn)行依賴關(guān)系發(fā)現(xiàn)和表示聚合來打破信息利用瓶頸,在多個(gè)公開數(shù)據(jù)集中表現(xiàn)出優(yōu)異的性能。
3.3.8 Aliformer
電子商務(wù)中,產(chǎn)品的趨勢(shì)和周期性變化很大,促銷活動(dòng)嚴(yán)重影響銷售導(dǎo)致預(yù)測(cè)難度較大,對(duì)算法要求更高。
2021 年,阿里巴巴的Qi 等[66]為解決電子商務(wù)中準(zhǔn)確的時(shí)間序列銷售預(yù)測(cè)問題,提出基于雙向Transformer 的Aliformer,利用歷史信息、當(dāng)前因素和未來知識(shí)來預(yù)測(cè)未來的數(shù)值。Aliformer設(shè)計(jì)了一個(gè)知識(shí)引導(dǎo)的自注意力層,使用已知知識(shí)的一致性來指導(dǎo)時(shí)序信息的傳輸,并且提出未來強(qiáng)調(diào)訓(xùn)練策略,使模型更加注重對(duì)未來知識(shí)的利用。
對(duì)四個(gè)公共基準(zhǔn)數(shù)據(jù)集(ETTh1、ETTm1、ECL2、Kaggle-M53)和一個(gè)大規(guī)模的天貓商品銷售數(shù)據(jù)集(TMS)進(jìn)行的廣泛實(shí)驗(yàn)表明,Aliformer 在銷售預(yù)測(cè)問題中可以比最先進(jìn)的時(shí)間序列預(yù)測(cè)方法表現(xiàn)更好。
3.3.9 FEDformer
2022 年,Zhou 等[67]提出的FEDformer(frequency enhanced decomposed Transformer)設(shè)計(jì)了兩個(gè)注意模塊,分別用傅里葉變換[68]和小波變換[69]處理頻域中應(yīng)用注意力操作。
FEDformer 將廣泛用于時(shí)間序列分析的周期性趨勢(shì)分解方法[70]融入到基于Transformer 的方法中,還將傅里葉分析與基于Transformer 的方法結(jié)合起來,沒有將Transformer應(yīng)用于時(shí)域,而是將其應(yīng)用于頻域,這有助于Transformer 更好地捕捉時(shí)間序列的全局特征。
圖10 中頻率增強(qiáng)塊(frequency enhanced block,F(xiàn)EB)和頻率增強(qiáng)注意力(frequency enhanced attention,F(xiàn)EA),二者用于在頻域中進(jìn)行表示學(xué)習(xí),周期趨勢(shì)分解塊用于從輸入數(shù)據(jù)中提取周期趨勢(shì)特征。
圖10 FEDformer結(jié)構(gòu)示意圖Fig. 10 Schematic diagram of FEDformer structure
FEDformer通過傅里葉變換中的隨機(jī)模式部分實(shí)現(xiàn)了線性復(fù)雜度,部分相關(guān)算法復(fù)雜度分析如表5所示。
表5 不同預(yù)測(cè)模型的復(fù)雜度分析Table 5 Complexity analysis of different forecasting models
需要指出的是,自FEDformer 提出以來,時(shí)間序列數(shù)據(jù)在頻域或時(shí)頻域中的獨(dú)特屬性在時(shí)間序列預(yù)測(cè)領(lǐng)域中引起了廣泛的關(guān)注。
3.3.10 Pyraformer
2022年,Liu等[73]提出Pyraformer,這是一種基于金字塔注意力的新型模型,可以有效地描述短期和長(zhǎng)期時(shí)間依賴關(guān)系,且時(shí)間和空間復(fù)雜度較低。
Pyraformer 首先利用更粗尺度構(gòu)造模塊(coarser scale construction module,CSCM)構(gòu)造多分辨率C叉樹,然后設(shè)計(jì)金字塔注意模塊以跨尺度和尺度內(nèi)的方式傳遞消息,當(dāng)序列長(zhǎng)度L增加時(shí),通過調(diào)整C和固定其他參數(shù),Pyraformer可以達(dá)到理論O(L)復(fù)雜度和O(1) 最大信號(hào)遍歷路徑長(zhǎng)度。實(shí)驗(yàn)結(jié)果表明,Pyraformer 模型在單步和多步預(yù)測(cè)任務(wù)中都優(yōu)于最先進(jìn)的模型,而且計(jì)算時(shí)間和內(nèi)存成本更少。
3.3.11 Conformer
2023年,Li等[74]為解決有明顯周期性的長(zhǎng)序列預(yù)測(cè)任務(wù)的效率和穩(wěn)定性問題,提出了一種針對(duì)多元長(zhǎng)周期時(shí)序預(yù)測(cè)的Conformer模型。
該模型采用快速傅里葉變換對(duì)多元時(shí)間做處理,以此來提取多元變量的相關(guān)性特征,完成了多個(gè)變量之間關(guān)系的建模,以及月、周、天、小時(shí)等不同頻率下規(guī)律性的提取。為了提升長(zhǎng)周期預(yù)測(cè)的運(yùn)行效率,Conformer 采用了滑動(dòng)窗口的方法,即每個(gè)位置只和附近一個(gè)窗口內(nèi)的鄰居節(jié)點(diǎn)結(jié)算attention,犧牲了全局信息提取和復(fù)雜序列模型建模能力,從而將時(shí)間復(fù)雜度降低到O(L)。Conformer又提出了靜止和即時(shí)循環(huán)網(wǎng)絡(luò)模塊,使用GRU編碼輸入時(shí)間序列,來提取全局信息彌補(bǔ)滑動(dòng)窗口方法造成的全局信息損失。
為解決高位多元時(shí)間序列聯(lián)合建模所形成的分布復(fù)雜的問題,Conformer采用標(biāo)準(zhǔn)化流操作,即用GRU產(chǎn)出的全局信息和解碼器信息進(jìn)行標(biāo)準(zhǔn)化流的初始化,然后進(jìn)行一系列映射得到目標(biāo)分布后進(jìn)行預(yù)測(cè)。
3.3.12 小結(jié)
Transformer 類算法如今廣泛用于人工智能領(lǐng)域的各項(xiàng)任務(wù),在Transformer 基礎(chǔ)上構(gòu)建模型可以打破以往算法的能力瓶頸,可以同時(shí)具備良好的捕捉短期和長(zhǎng)期依賴的能力,有效解決長(zhǎng)序列預(yù)測(cè)難題,并且可以并行處理。上述算法性能對(duì)比和總體分析如表6和表7所示。
表6 Transformer類算法多變量預(yù)測(cè)性能對(duì)比Table 6 Comparison of multivariate prediction performance of Transformer-like algorithms
表7 Transformer類算法總體分析Table 7 Overall analysis of Transformer-like algorithms
從表6可以看出,Transformer類算法為避免過擬合需要大量數(shù)據(jù)來進(jìn)行自身的訓(xùn)練,在中期和長(zhǎng)期預(yù)測(cè)任務(wù)上都有著不錯(cuò)的性能表現(xiàn)。
目前,部分Transformer 類算法在保留編碼器-解碼器架構(gòu)的同時(shí),開始重新審視注意力機(jī)制的作用,因?yàn)樵阱e(cuò)綜復(fù)雜的長(zhǎng)序列預(yù)測(cè)任務(wù)中自注意力機(jī)制可能不可靠。Informer 等在降低復(fù)雜度的同時(shí)選擇犧牲了一部分的有效信息,Conformer 使用局部注意力與全局的GRU進(jìn)行功能互補(bǔ)。
Pyraformer 在相對(duì)較低的配置下依然表現(xiàn)出不錯(cuò)的性能,一定程度上緩解了Transformer 類算法設(shè)備要求高的問題,適合在欠發(fā)達(dá)地區(qū)普及使用。
文章在對(duì)時(shí)間序列數(shù)據(jù)相關(guān)理論、常用數(shù)據(jù)集和算法評(píng)價(jià)指標(biāo)簡(jiǎn)單介紹后,系統(tǒng)總結(jié)了基于深度學(xué)習(xí)的時(shí)間序列預(yù)測(cè)算法,其中以基于Transformer的模型為主,深入分析了Transformer 類算法的網(wǎng)絡(luò)架構(gòu)優(yōu)缺點(diǎn),在注意力機(jī)制被提出以來,時(shí)間序列預(yù)測(cè)任務(wù)發(fā)展進(jìn)入快車道,取得了令人矚目的成果。下面列出了時(shí)間序列預(yù)測(cè)領(lǐng)域的重點(diǎn)問題和進(jìn)一步的研究方向,以促進(jìn)時(shí)間序列預(yù)測(cè)算法的研究和完善。
(1)采用隨機(jī)自然啟發(fā)優(yōu)化算法優(yōu)化深度學(xué)習(xí)模型的多個(gè)超參數(shù)。深度學(xué)習(xí)算法愈發(fā)復(fù)雜,需要處理的超參數(shù)越來越多,超參數(shù)的選擇往往決定著算法能不能突破局部最優(yōu)陷阱達(dá)到全局最優(yōu)。隨機(jī)自然啟發(fā)優(yōu)化算法靈感來自群體智能的各種現(xiàn)象、動(dòng)物行為、物理定律以及進(jìn)化定律。優(yōu)化算法首先基于問題的約束隨機(jī)生成一定數(shù)量的可解,然后利用算法的各階段重復(fù)尋找全局最優(yōu)解,在限制范圍內(nèi)尋找最優(yōu)的超參數(shù)以提升模型預(yù)測(cè)能力。因此,采用隨機(jī)自然啟發(fā)優(yōu)化算法用于模型最優(yōu)超參數(shù)尋找,將成為未來研究熱點(diǎn)之一。
(2)研究適合時(shí)間間隔不規(guī)則的小數(shù)據(jù)集的網(wǎng)絡(luò)架構(gòu)。現(xiàn)有Transformer模型架構(gòu)復(fù)雜,參數(shù)多,在周期性好的數(shù)據(jù)集上表現(xiàn)出優(yōu)越的性能,但在數(shù)據(jù)量小、時(shí)間間隔不規(guī)則的數(shù)據(jù)集中表現(xiàn)不理想。Transformer類模型為在小數(shù)據(jù)上的過擬合問題值得進(jìn)一步思考和解決。處理時(shí)間間隔不規(guī)則的數(shù)據(jù)集時(shí),在模型架構(gòu)中引入重采樣、插值、濾波或其他方法是處理時(shí)間序列數(shù)據(jù)和任務(wù)特征的新思路,會(huì)是未來一個(gè)新的研究方向。
(3)引入圖神經(jīng)網(wǎng)絡(luò)(graph neural network,GNN)用于多變量時(shí)序預(yù)測(cè)建模。由于多變量時(shí)序預(yù)測(cè)任務(wù)的潛在變量相關(guān)性十分復(fù)雜,且在現(xiàn)實(shí)世界中的數(shù)據(jù)相關(guān)性是變化的,導(dǎo)致準(zhǔn)確多變量預(yù)測(cè)具有挑戰(zhàn)性。最近不少學(xué)者采用時(shí)間多項(xiàng)式圖神經(jīng)網(wǎng)絡(luò)將動(dòng)態(tài)變量相關(guān)性表示為動(dòng)態(tài)矩陣多項(xiàng)式,可以更好地理解時(shí)空動(dòng)態(tài)和潛在的偶然性,在短期和長(zhǎng)期多變量時(shí)序預(yù)測(cè)上都達(dá)到了先進(jìn)的水平。因此GNN對(duì)多變量時(shí)序預(yù)測(cè)的強(qiáng)大建模能力值得進(jìn)一步研究。
(4)研究同時(shí)支持精確形狀和時(shí)間動(dòng)態(tài)的可微損失函數(shù)作為評(píng)價(jià)指標(biāo)。在時(shí)間序列預(yù)測(cè)領(lǐng)域中已經(jīng)使用了許多測(cè)量度量,并且基于歐氏距離的點(diǎn)誤差損失函數(shù),例如MSE,被廣泛用于處理時(shí)間序列數(shù)據(jù),但是其逐點(diǎn)映射,對(duì)形狀和時(shí)間延后失真不具有不變性。損失函數(shù)不僅要最小化預(yù)測(cè)和目標(biāo)時(shí)間序列之間的差距,還應(yīng)該考慮整個(gè)輸出序列和基本事實(shí)之間的相關(guān)性,從而幫助模型生成更及時(shí)、更穩(wěn)健和更準(zhǔn)確的預(yù)測(cè),而不是僅僅逐點(diǎn)優(yōu)化模型。如果損失函數(shù)能在曲線形狀和時(shí)間感知上對(duì)模型進(jìn)行評(píng)價(jià)能更有利于訓(xùn)練出高效準(zhǔn)確的時(shí)間序列預(yù)測(cè)模型。
數(shù)據(jù)維度擴(kuò)張、數(shù)據(jù)量級(jí)別增大、應(yīng)用場(chǎng)景需求變換依舊給時(shí)間序列預(yù)測(cè)任務(wù)帶來巨大的挑戰(zhàn)?;谏疃葘W(xué)習(xí)的時(shí)間序列預(yù)測(cè)算法,目前看來具有一定的性能優(yōu)勢(shì),但仍需要進(jìn)一步的提升和完善。本文以時(shí)序數(shù)據(jù)特性、常用數(shù)據(jù)集和評(píng)價(jià)指標(biāo)為引,以基于深度學(xué)習(xí)時(shí)序預(yù)測(cè)算法發(fā)展時(shí)間線為主線,將卷積神經(jīng)網(wǎng)絡(luò)類算法、循環(huán)神經(jīng)網(wǎng)絡(luò)類算法和Transformer 類算法進(jìn)行性能分析和優(yōu)缺點(diǎn)綜述,最后對(duì)深度學(xué)習(xí)應(yīng)用于時(shí)間序列預(yù)測(cè)算法的發(fā)展趨勢(shì)進(jìn)行了總結(jié)與展望。