章 靖 凱, 顧 宏, 秦 攀, 余 向 軍
( 1.大連理工大學(xué) 控制科學(xué)與工程學(xué)院,遼寧 大連 116024;2.海軍大連艦艇學(xué)院 軍事海洋與測繪系,遼寧 大連 116018 )
在遠(yuǎn)洋航行領(lǐng)域,準(zhǔn)確的風(fēng)速預(yù)測結(jié)合海況信息預(yù)報,可以為船舶航行設(shè)計出最佳的航線[1],在保障航行安全性的同時,減少航時與油耗.在軍事領(lǐng)域,氣象狀況是一項極為重要的參考因素,借助準(zhǔn)確的氣象預(yù)測,軍事指揮人員可針對性裝配部隊,制訂行軍方案,從而提高軍事行動成功率.軍事需求在很大程度上直接推動著天氣預(yù)測技術(shù)的發(fā)展[2].
傳統(tǒng)氣象數(shù)值預(yù)測技術(shù)中采用WRF[3-4]等NWP數(shù)值天氣預(yù)報物理模型,對實(shí)時氣象運(yùn)行規(guī)律有較好的模擬,但建模過程本身的復(fù)雜性與對環(huán)境信息精確性的高依賴度,使得結(jié)果表現(xiàn)出對短期高精度預(yù)測的不確定性[5-6].區(qū)別于經(jīng)典物理模型基于氣象變化機(jī)理的解析,新興的氣象預(yù)測技術(shù)主要從統(tǒng)計機(jī)器學(xué)習(xí)方向展開對氣象時間序列數(shù)據(jù)的處理.基于模糊聚類法[7]等分類方法可對時間序列數(shù)據(jù)進(jìn)行分類,并以之所屬類型結(jié)合自回歸移動平均法[8]、自回歸差分移動平均法[9]、卡爾曼濾波[10]等經(jīng)典計量模型進(jìn)行短時預(yù)測.然而,基于經(jīng)典計量模型的風(fēng)速時序預(yù)測方法往往建立在嚴(yán)格的假設(shè)之上,預(yù)測精度易受到時間序列隨機(jī)波動性、不穩(wěn)定性等因素的限制,采用支持向量機(jī)[11-12]、人工神經(jīng)網(wǎng)絡(luò)[13]等基于數(shù)據(jù)驅(qū)動的模型可有效提高精度,增強(qiáng)模型泛化性.在深度學(xué)習(xí)領(lǐng)域,李大中等[14]提出了一種基于卷積循環(huán)神經(jīng)網(wǎng)絡(luò)的深度學(xué)習(xí)模型,較一般機(jī)器學(xué)習(xí)算法在短期預(yù)報精度上有較大的提高,但在長距離預(yù)測中表現(xiàn)不佳.Shi等[15]提出了一種卷積長短期記憶神經(jīng)網(wǎng)絡(luò),并在多普勒雷達(dá)回波時間序列數(shù)據(jù)上進(jìn)行驗(yàn)證,取得了較傳統(tǒng)物理模型光流法更好的預(yù)測結(jié)果.此外,一些研究開始注重在數(shù)據(jù)預(yù)處理階段就對原始數(shù)據(jù)進(jìn)行降噪、降低復(fù)雜度等處理,采用“分解-預(yù)測-重構(gòu)”的思路.田中大等[16]提出了一種基于小波變換的風(fēng)速組合預(yù)測模型.Santhosh等[17]采用集成經(jīng)驗(yàn)?zāi)B(tài)分解算法對原始數(shù)據(jù)進(jìn)行分解,并將解構(gòu)之后的信號輸入神經(jīng)網(wǎng)絡(luò)進(jìn)行模型參數(shù)訓(xùn)練,對時序數(shù)據(jù)的預(yù)測精度有較大提升.然而,分解算法在一定程度上會引起端點(diǎn)效應(yīng)、模態(tài)混疊現(xiàn)象,干擾實(shí)際預(yù)測效果.
針對以上問題,本文提出一種基于變分模態(tài)分解與融合注意力機(jī)制的神經(jīng)網(wǎng)絡(luò)模型進(jìn)行風(fēng)速預(yù)測.變分模態(tài)分解[18-19]可有效提高噪聲魯棒性,使得風(fēng)速時間序列得到有效特征分解.基于Transformer[20]的融合注意力機(jī)制的神經(jīng)網(wǎng)絡(luò)模型具有抓取全局內(nèi)部關(guān)聯(lián)信息的能力,可有效捕捉長距離依賴關(guān)系,提升模型長距離預(yù)測性能.首先,通過變分模態(tài)分解對原始信號進(jìn)行降噪與特征提取;然后,將處理后的信號輸入融合注意力機(jī)制的神經(jīng)網(wǎng)絡(luò)進(jìn)行風(fēng)速預(yù)測;最后,利用浮標(biāo)站實(shí)測數(shù)據(jù)進(jìn)行驗(yàn)證,并與其他方法進(jìn)行比較.
選取美國國家海洋和大氣管理局?jǐn)?shù)據(jù)浮標(biāo)中心觀測數(shù)據(jù)作為數(shù)據(jù)集.因浮標(biāo)設(shè)備問題,有時會出現(xiàn)測繪數(shù)據(jù)丟失的情況,若不加修正將削弱模型的擬合與泛化能力,故本文采用一種分權(quán)線性插值算法,將更大的權(quán)重分配給更靠近缺失點(diǎn)或異常點(diǎn)處的可用值,用以填充原始浮標(biāo)數(shù)據(jù)中的缺失值.同時,為消除數(shù)據(jù)集中特征變量量綱不同對實(shí)驗(yàn)造成的影響,本文采用均值方差歸一化方法將數(shù)據(jù)縮放至同一尺度(均值為0,方差為1),并分別應(yīng)用于訓(xùn)練集、驗(yàn)證集與測試集.
圖1 VMD-Transformer模型整體流程
對預(yù)處理后的時序數(shù)據(jù)做變分模態(tài)分解[21],以某一相關(guān)變量時序u(t)為例,將其分解為K個具有特定模態(tài)的序列uk(t),k=1,2,…,K,滿足K個模態(tài)重構(gòu)之和等于序列u(t)的條件下,各模態(tài)的估計帶寬之和最?。畼?gòu)造非約束性變分問題:
(1)
其中δ(t)為狄拉克函數(shù),wk為第k個模態(tài)的中心頻率,α作為二次懲罰因子可保證時間序列在混入噪聲信號的情況下的重構(gòu)精度,λ(t)作為拉格朗日乘法算子以保持約束條件嚴(yán)格性.采用交替方向乘子法可求得各模態(tài)新分量:
(2)
對選取的J個變量輸入序列均做變分模態(tài)分解,各分解為K個模態(tài),特征變量維度變?yōu)镴×K,輸入矩陣變?yōu)閁′∈RL×(J×K).
基于Transformer的融合注意力機(jī)制的神經(jīng)網(wǎng)絡(luò)與經(jīng)典的遞歸神經(jīng)網(wǎng)絡(luò)LSTM、RNN相比,完全基于注意力機(jī)制,無須遞歸與卷積計算,使其在模型參數(shù)計算上不再依賴于由前一位置的輸出與當(dāng)前位置的輸入來計算得到當(dāng)前位置的輸出,從而將串行化計算轉(zhuǎn)換為并行化計算,有效節(jié)省運(yùn)行時長.并且,傳統(tǒng)的遞歸神經(jīng)網(wǎng)絡(luò)提取全局信息能力較差,在長時間尺度特征提取與預(yù)測上有較大瓶頸.Transformer可從全局提取信息,在長時間尺度特征提取與預(yù)測上有較大優(yōu)勢.
如圖1所示,模型分為編碼器與解碼器兩部分.其中,編碼器由若干相同的單元塊組成,每個單元塊又由兩個子單元組成,包括多頭注意力機(jī)制層和前饋網(wǎng)絡(luò)層,每一子層都增加殘差連接和歸一化.本文采用雙層全連接神經(jīng)網(wǎng)絡(luò)作為解碼器.
經(jīng)變分模態(tài)分解后的時序數(shù)據(jù),首先會進(jìn)行位置編碼.相較于RNN、LSTM等遞歸神經(jīng)網(wǎng)絡(luò)和CNN等卷積神經(jīng)網(wǎng)絡(luò)可以獲取數(shù)據(jù)相對位置信息的特征,Transformer無法獲得輸入信息的空間關(guān)系,因此為了利用時間序列的位置信息,在模型中引入位置編碼以記錄序列中各數(shù)據(jù)間相對位置信息.Transformer為每個輸入序列配置特有位置向量,向量遵循特定模式,有助于確定序列中不同單點(diǎn)數(shù)據(jù)的位置信息與相互關(guān)系,使得后續(xù)計算中能更好地表達(dá)各數(shù)據(jù)點(diǎn)的相對信息.
位置編碼采取方法如下:構(gòu)造與輸入數(shù)據(jù)維數(shù)一致的矩陣P∈RL×(J×K),通過式(3)確定矩陣值,與輸入矩陣相加得到注意力層輸入U″∈RL×(J×K).
(3)
其中,p∈[1,L]表示該單點(diǎn)數(shù)據(jù)在整個序列中的相對位置順序,dm=J×K,i∈[1,L]表示變量維度序號.整個輸入序列信號可以注入一定的位置信息,位置信息的差異取決于頻率和相位的差異.
(4)
式(4)右側(cè)即為Q與K各元素的相關(guān)程度或匹配程度,A∈RL×D.
多頭注意力機(jī)制(圖2)通過h個不同注意力層進(jìn)行線性變換可投影多組不同的K、Q、V,即模型中存在多個子空間,將自注意力機(jī)制應(yīng)用于每個子空間,最后將不同子空間注意力層輸出進(jìn)行拼接可得到多層注意力機(jī)制層輸出矩陣M=(A1A2…Ah)∈RL×(h×D),將其做線性變換以轉(zhuǎn)換成與注意力層輸入矩陣U″相同維度輸出結(jié)果.上述這種通過增加多頭注意力的機(jī)制,進(jìn)一步完善了注意力層,可擴(kuò)展模型專注于不同位置的能力.
圖2 多頭注意力機(jī)制
編碼器中的每一單元都包含一個全連接的前饋網(wǎng)絡(luò),其輸出可表示為
N=ReLU[(XW1+b1)W2+b2]
(5)
式中:X∈RL×(J×K)是前一層的輸出;W1,W2∈R(J×K)×(J×K)是權(quán)重矩陣;b1,b2∈RL×(J×K)是偏移值.
注意力層或前向反饋層輸出經(jīng)歸一化后與該層的輸入相加做殘差連接,以避免深層神經(jīng)網(wǎng)絡(luò)性能退化.然后將編碼器處理后的時序數(shù)據(jù)輸入解碼器即雙層全連接神經(jīng)網(wǎng)絡(luò)以得到模型的預(yù)測結(jié)果.
變分模態(tài)分解所涉及的超參數(shù)有目標(biāo)模態(tài)數(shù)K、懲罰因子α、保真度稀疏τ和收斂停止條件.根據(jù)經(jīng)驗(yàn)值分別取α=1 000,τ=1×10-6,=1×10-9.目標(biāo)模態(tài)數(shù)的設(shè)定取決于各模態(tài)中心頻率有無重疊且最后一層分量的中心頻率是否保持相對穩(wěn)定,若K取值過大,則會導(dǎo)致模態(tài)重疊并引入噪聲,若K取值過小,則會存在分解不徹底問題,影響預(yù)測精度.實(shí)驗(yàn)觀察發(fā)現(xiàn),當(dāng)K=8時,最后一層分量保持相對穩(wěn)定,達(dá)到較理想的分解結(jié)果.以風(fēng)速連續(xù)36個觀測采樣值經(jīng)歸一化后作為量綱一輸入序列經(jīng)變分模態(tài)分解為例,如圖3所示.
圖3 變分模態(tài)分解示例圖
設(shè)定編碼層為2,其中多頭注意力機(jī)制層設(shè)定為雙頭注意力,解碼器為雙層全連接神經(jīng)網(wǎng)絡(luò),隱藏單元分別為36和18.網(wǎng)絡(luò)以均方誤差作為損失函數(shù),利用反向傳播算法更新網(wǎng)絡(luò)參數(shù),使用自適應(yīng)優(yōu)化器Adam對網(wǎng)絡(luò)模型參數(shù)進(jìn)行優(yōu)化.模型正則化Dropout比率設(shè)定為0.2.Adam優(yōu)化器學(xué)習(xí)率設(shè)定為0.002.
實(shí)驗(yàn)數(shù)據(jù)集選自美國國家海洋和大氣管理局?jǐn)?shù)據(jù)浮標(biāo)中心(https://www.ndbc.noaa.gov).本文選取48.493°N、124.726°W的浮標(biāo)站46087于2015-12-31~2020-11-23所測以30 min為時間間隔的氣象數(shù)據(jù)共84 944條作為數(shù)據(jù)集.將站點(diǎn)所測風(fēng)向、風(fēng)速、陣風(fēng)、大氣壓力、氣溫與水溫等作為6個可能影響風(fēng)速預(yù)測的特征變量,以連續(xù)觀測18 h共36個觀測值組成輸入數(shù)據(jù)U∈RL×J,其中L=36,J=6.
本文選取浮標(biāo)觀測數(shù)據(jù)作為影響風(fēng)速預(yù)測的自然因素組成輸入數(shù)據(jù),分別以未來1、2、3、6、12、18步的風(fēng)速作為輸出標(biāo)簽,并且將數(shù)據(jù)集按85%、10%與5%的比例劃分為訓(xùn)練集、驗(yàn)證集與測試集.
本文對風(fēng)速進(jìn)行一步至多步預(yù)測,選取均方誤差E與決定系數(shù)R2作為預(yù)測結(jié)果準(zhǔn)確度評價指標(biāo).性能指標(biāo)的定義如下:
(6)
(7)
為驗(yàn)證模型有效性,將本文模型與LSTM、VMD-LSTM、Persistence Model等其他經(jīng)典模型進(jìn)行風(fēng)速預(yù)測性能對比.將模型在訓(xùn)練集上進(jìn)行訓(xùn)練,每訓(xùn)練一輪便在驗(yàn)證集上進(jìn)行驗(yàn)證并比較驗(yàn)證效果,當(dāng)模型在驗(yàn)證集上的性能連續(xù)5輪不再改善時,停止訓(xùn)練,將驗(yàn)證效果最好的一次模型參數(shù)保存并用于風(fēng)速序列預(yù)測.因預(yù)測步長超過18步后預(yù)測誤差較大,故本文僅選取18步內(nèi)預(yù)測進(jìn)行對比實(shí)驗(yàn),結(jié)果如表1、2所示.
表1、2各項指標(biāo)數(shù)值后括號內(nèi)數(shù)據(jù)為該預(yù)測步長下最優(yōu)模型相對本模型性能指標(biāo)提升比例.
表1 模型預(yù)測效果對比(均方誤差)
表2 模型預(yù)測效果對比(決定系數(shù))
由表可知,隨著預(yù)測步長的增加,模型的預(yù)測結(jié)果顯著偏離實(shí)際值,多步預(yù)測性能逐漸不佳.通過比對實(shí)驗(yàn)結(jié)果可發(fā)現(xiàn),相比于未經(jīng)變分模態(tài)分解直接對原始數(shù)據(jù)進(jìn)行處理,結(jié)合VMD的模型都具有更佳的預(yù)測表現(xiàn),表明VMD可有效提取輸入時間序列數(shù)據(jù)的特征,為模型提供更易感知的序列特征,使模型預(yù)測效果更優(yōu)異.同時,對比不同神經(jīng)網(wǎng)絡(luò)模型,發(fā)現(xiàn)VMD-LSTM在1步預(yù)測上效果較優(yōu),但VMD-Transformer在2~18步等多步預(yù)測上各項指標(biāo)更優(yōu)異,具有與實(shí)際觀測值更小的偏離程度,在實(shí)驗(yàn)預(yù)測步長范圍內(nèi)展現(xiàn)出更好的長序列預(yù)測敏感性與更優(yōu)的多步預(yù)測性能,故可知引入融合注意力機(jī)制的神經(jīng)網(wǎng)絡(luò)Transformer與循環(huán)神經(jīng)網(wǎng)絡(luò)LSTM相比,對全局信息特征的學(xué)習(xí)效果更佳,從而使其在一定范圍內(nèi)相對更長時間序列的預(yù)測中有更佳優(yōu)良的表現(xiàn).
(1)變分模態(tài)分解根據(jù)其自適應(yīng)時頻分解特性,在濾除噪聲、降低數(shù)據(jù)復(fù)雜度的同時,可將原始信號分解為具有不同中心頻率的若干特征序列,提高噪聲魯棒性,為神經(jīng)網(wǎng)絡(luò)模型提供更易感知的特征信息,使后續(xù)模型預(yù)測性能顯著提升.
(2)基于Transformer的融合注意力機(jī)制的神經(jīng)網(wǎng)絡(luò)利用其多頭注意力機(jī)制,可在序列的不同子空間學(xué)習(xí)相關(guān)位置信息,提升序列長距離依賴的敏感度,從而使其在抓取時間序列全局信息上有著較傳統(tǒng)循環(huán)神經(jīng)網(wǎng)絡(luò)更好的性能,在2~18步等多步長風(fēng)速預(yù)測上表現(xiàn)出優(yōu)異預(yù)測效果.
(3)實(shí)驗(yàn)表明,本文所提基于變分模態(tài)分解與融合注意力機(jī)制的神經(jīng)網(wǎng)絡(luò)模型可有效提高風(fēng)速時序預(yù)測準(zhǔn)確度,具有一定實(shí)際應(yīng)用價值,可為研究者進(jìn)一步研究時序預(yù)測提供參考思路.