凌 銘,肖麗英*,趙 嘉,王萍根,王 寅,項(xiàng) 凱,蔡高堂
(1.南昌工程學(xué)院水利與生態(tài)工程學(xué)院,江西 南昌 330099;2.南昌工程學(xué)院信息工程學(xué)院,江西 南昌 330099)
降水的形成受多因素的影響,導(dǎo)致降水雖然存在一定的規(guī)律性,但同時(shí)也存在較強(qiáng)的復(fù)雜性和不確定性。因此,在國(guó)內(nèi)乃至全球氣象領(lǐng)域,降水預(yù)測(cè)一直是難點(diǎn)。國(guó)內(nèi)外有關(guān)降水時(shí)間序列的傳統(tǒng)預(yù)測(cè)研究主要有統(tǒng)計(jì)學(xué)、動(dòng)力學(xué)等方式。近年來(lái),隨著人工智能與大數(shù)據(jù)的發(fā)展,復(fù)雜神經(jīng)網(wǎng)絡(luò)、機(jī)器學(xué)習(xí)等逐步應(yīng)用為降水預(yù)測(cè)帶來(lái)了新的機(jī)遇[1-2]。吳有訓(xùn)等[3]基于支持向量機(jī)(SVM),通過(guò)歷史數(shù)據(jù)構(gòu)建月尺度降雨級(jí)別預(yù)測(cè)模型。結(jié)果表明SVM模型在降雨級(jí)別等分類(lèi)應(yīng)用上有較強(qiáng)的預(yù)測(cè)能力,可在氣候預(yù)測(cè)業(yè)務(wù)中推廣使用。甄億位等[4]利用隨機(jī)森林算法分別構(gòu)建了年、月尺度降水預(yù)測(cè)模型,并采用歷史氣象數(shù)據(jù)驗(yàn)證模型的適用性。結(jié)果表明:隨機(jī)森林模型與BP神經(jīng)網(wǎng)絡(luò)等機(jī)器學(xué)習(xí)預(yù)測(cè)模型相比,具有精度高、穩(wěn)定性好、收斂快等優(yōu)點(diǎn),但對(duì)年、月尺度極端降水?dāng)?shù)據(jù)的預(yù)測(cè)效果不太理想。
作為機(jī)器學(xué)習(xí)中一個(gè)新的研究方向,深度學(xué)習(xí)在降水預(yù)測(cè)領(lǐng)域有別于傳統(tǒng)預(yù)測(cè)方法,它在處理非線(xiàn)性問(wèn)題上效果更佳。沈皓俊等[5]基于LSTM構(gòu)建了降水預(yù)測(cè)模型,并預(yù)測(cè)了季尺度降水量。結(jié)果表明LSTM模型的降水預(yù)測(cè)能力優(yōu)于BP神經(jīng)網(wǎng)絡(luò)等機(jī)器學(xué)習(xí)模型。隨著信號(hào)處理技術(shù)的發(fā)展,數(shù)據(jù)去噪逐步被應(yīng)用到氣象預(yù)測(cè)領(lǐng)域中。例如Kala等[6]提出一種新型CEEMDAN-LSTM模型,將其應(yīng)用于印度的月降水量預(yù)測(cè),結(jié)果表明該組合模型預(yù)測(cè)能力遠(yuǎn)高于LSTM預(yù)測(cè)模型。華亞婕[7]提出一種基于GWO-DE-SVM的改進(jìn)模型應(yīng)用于吉林省的降雨等級(jí)預(yù)測(cè),結(jié)果表明該組合模型降雨等級(jí)預(yù)測(cè)能力遠(yuǎn)高于SVM模型。
綜上,深度學(xué)習(xí)方法為氣象領(lǐng)域的降水預(yù)測(cè)提供了新的思路。但是,以前大部分的研究集中于年、季、月尺度的降水量預(yù)測(cè)[8-9],而對(duì)防旱抗?jié)掣哂醒芯恳饬x的日尺度降水量預(yù)測(cè)方面研究卻較少。無(wú)論是單一模型還是組合模型在日尺度降水預(yù)測(cè)上,往往存在降水極大值與無(wú)雨日預(yù)測(cè)精度低的問(wèn)題[10-11]。為解決上述情況,先利用支持向量機(jī)將無(wú)雨日與有雨日分離出來(lái),然后借助完全集合經(jīng)驗(yàn)?zāi)B(tài)分解(CEEMDAN)將降水序列的中高頻與低頻子序列分解出來(lái)以便針對(duì)性預(yù)測(cè),再利用雙向長(zhǎng)短期記憶神經(jīng)網(wǎng)絡(luò)(BiLSTM)對(duì)降水序列進(jìn)行有效預(yù)測(cè)。因此,形成了降水預(yù)測(cè)耦合模型(SVM-CEEMDAN-BiLSTM)。本研究采用鄱陽(yáng)湖流域典型氣象站點(diǎn)的日降水序列與其他氣象要素序列作為模型輸入,通過(guò)優(yōu)化耦合模型以達(dá)到最優(yōu)降水預(yù)測(cè)效果。
為方便對(duì)比檢驗(yàn)不同模型的降水預(yù)測(cè)精度,本研究選取鄱陽(yáng)湖流域降水集中程度表現(xiàn)較為典型的景德鎮(zhèn)站、贛縣站[12-13]作為研究站點(diǎn),采取其1957—2018年期間多項(xiàng)氣象數(shù)據(jù)展開(kāi)對(duì)比研究。位于流域北部的景德鎮(zhèn)站由于地形等因素,年內(nèi)降水最為集中;贛縣站則位于流域南部,其年內(nèi)降水在流域內(nèi)最為均勻,這與景德鎮(zhèn)站的日降水集中程度形成鮮明對(duì)比。2個(gè)站的氣象數(shù)據(jù)均來(lái)源于國(guó)家氣象科學(xué)數(shù)據(jù)中心(http://data.cma.cn)的中國(guó)地面氣候資料數(shù)據(jù)集。另外,本研究選取的氣象因子為降水量(Pre)、0 cm地溫(Gst)、蒸發(fā)量(Evp)、氣壓(Prs)、相對(duì)濕度(Rhu)、日照(Ssd)、氣溫(Tem)、風(fēng)速(Win)。原始?xì)庀髷?shù)據(jù)中的缺失值和異常值利用K-最近鄰(KNN)插補(bǔ)方法進(jìn)行插補(bǔ)[14],并對(duì)與試驗(yàn)無(wú)關(guān)數(shù)據(jù)進(jìn)行剔除等處理,整理之后的數(shù)據(jù)作為研究用的輸入數(shù)據(jù)。
1.2.1支持向量機(jī)
支持向量機(jī)(Support Vector Machine,SVM)是一類(lèi)按監(jiān)督學(xué)習(xí)方式對(duì)數(shù)據(jù)進(jìn)行二元分類(lèi)的分類(lèi)器[15],能夠支持線(xiàn)性和非線(xiàn)性核函數(shù)對(duì)復(fù)雜樣本進(jìn)行分類(lèi),它在分類(lèi)與預(yù)測(cè)上[16]應(yīng)用較廣。因此,可利用SVM對(duì)降水?dāng)?shù)據(jù)進(jìn)行晴雨分類(lèi)。考慮氣象數(shù)據(jù)有較為復(fù)雜的相互關(guān)系,選用徑向基核函數(shù)K(x1,x2),見(jiàn)式(1):
(1)
式中x1、x2——2個(gè)不同樣本的特征向量;γ——徑向基核函數(shù)的超參數(shù)。
1.2.2集合經(jīng)驗(yàn)?zāi)B(tài)分解方法
自適應(yīng)噪聲的完全集合經(jīng)驗(yàn)?zāi)B(tài)分解[17](Complete Ensemble Empirical Mode Decomposition Adaptive Noise,CEEMDAN)是在集合經(jīng)驗(yàn)?zāi)B(tài)分解[18](Ensemble Empirical Mode Decomposition,EEMD)的基礎(chǔ)上有所改進(jìn)的一種分解方法,它解決了EEMD加入白噪聲后分解引起的誤差增大與完備性不足的問(wèn)題。在本研究中,對(duì)降水序列分解可得到多個(gè)原序列中不同氣候振蕩信號(hào)的固有模態(tài)函數(shù)(Intrinsic Mode Function,IMF)。分析各個(gè)IMF分量可以獲取不同頻率降水變化的內(nèi)在規(guī)律。CEEMDAN分解的步驟如下。
步驟一在原始信號(hào)h(t)中加入白噪聲ωi(t),更新信號(hào)為:
hi(t)=h(t)+ε0ωi(t)
(2)
其中ε0為噪聲系數(shù)。
步驟二使用EMD方法對(duì)更新后信號(hào)進(jìn)行次分解并取均值,得到第一個(gè)固有模態(tài)函數(shù)(Intrinsic Mode Function,IMF):
(3)
步驟三計(jì)算殘余分量:
r1(t)=h(t)-IMF1(t)
(4)
步驟四計(jì)算第二個(gè)IMF。定義EMD方法分解后的第j個(gè)固有模態(tài)函數(shù)為Ej(·)。即對(duì)信號(hào)r1(t)+ε0Ej(ωi(t))再重復(fù)進(jìn)行I次分解,得到第二個(gè)IMF分量:
(5)
步驟五計(jì)算k階殘余分量為:
rk(t)=rk-1(t)-IMFk(t)
(6)
第k+1個(gè)IMF為:
(7)
以此類(lèi)推得到各階IMF分量,直到殘余分量為單調(diào)函數(shù)時(shí)停止分解。當(dāng)?shù)玫終個(gè)模態(tài)函數(shù)時(shí),原始信號(hào)則可表示成:
(8)
1.2.3BiLSTM神經(jīng)網(wǎng)絡(luò)
雙向長(zhǎng)短期記憶網(wǎng)絡(luò)[19](Bi-directional Long Short-Term Memory,BiLSTM)是長(zhǎng)短期記憶神經(jīng)網(wǎng)絡(luò)[20](Long Short-Term Memory,LSTM)的一個(gè)變種。LSTM模型只利用過(guò)去的數(shù)據(jù)信息進(jìn)行預(yù)測(cè),且常導(dǎo)致較早的歷史數(shù)據(jù)信息遺忘。BiLSTM神經(jīng)網(wǎng)絡(luò)則可同時(shí)利用過(guò)去和未來(lái)的數(shù)據(jù)信息模擬預(yù)測(cè),已成功應(yīng)用于語(yǔ)言和圖像處理中[21-22]。本研究引入BiLSTM模型對(duì)日尺度降水序列進(jìn)行模擬預(yù)測(cè)。
LSTM、BiLSTM神經(jīng)網(wǎng)絡(luò)拓?fù)浣Y(jié)構(gòu)見(jiàn)圖1。BiLSTM模型的結(jié)構(gòu)由前向和后向的2個(gè)LSTM模型組成。在t時(shí)刻,輸入信息傳遞到前向和后向的LSTM模型,輸出由2個(gè)方向的LSTM模型輸出共同確定。LSTM模型的基本架構(gòu)由輸入層、輸出層和隱含層組成。其中,隱含層的基本單元被稱(chēng)為存儲(chǔ)塊。存儲(chǔ)塊包含3個(gè)門(mén)(輸入門(mén)(i)、輸出門(mén)(o)和遺忘門(mén)(f))和 1 個(gè)單元狀態(tài)(c),用于控制信息的傳遞與更新,單元狀態(tài)儲(chǔ)存過(guò)去的信息。符號(hào)⊕和?分別代表 2 個(gè)向量的加法運(yùn)算和點(diǎn)乘運(yùn)算,σ代表 sigmoid 激活函數(shù),tanh為雙曲正切激活函數(shù),計(jì)算見(jiàn)式(9)、(10):
圖1 LSTM、BiLSTM神經(jīng)網(wǎng)絡(luò)拓?fù)浣Y(jié)構(gòu)
(9)
(10)
隱含層具體計(jì)算過(guò)程見(jiàn)式(11)—(16):
ft=σ(Wf·[ht-1,xt]+bf)
(11)
i=σ(Wi·[ht-1,xt]+bi)
(12)
ot=σ(Wo·[ht-1,xt]+bo)
(13)
(14)
(15)
ht=ot·tanh(Ct)
(16)
式中 “·”——遺忘門(mén)、輸入門(mén)、輸出門(mén)和單元狀態(tài)的權(quán)重向量;Wf、Wi、Wo、Wc——遺忘門(mén)、輸入門(mén)、輸出門(mén)和單元狀態(tài)的偏置向量;bf、bi、bo、bc——遺忘門(mén)、輸入門(mén)、輸出門(mén)和單元狀態(tài)的偏置向量;xt、ht——t時(shí)刻輸入層的輸入、隱含層的輸出。
1.2.4評(píng)價(jià)指標(biāo)
首先,本文選取準(zhǔn)確率(Accuracy)用于評(píng)價(jià)SVM的分類(lèi)預(yù)測(cè)效果。其次,選取泰勒?qǐng)D來(lái)綜合評(píng)價(jià)不同降水預(yù)測(cè)模型的預(yù)測(cè)能力。該圖同時(shí)涵蓋了均方根誤差(Root Mean Square Error,RMSE)、標(biāo)準(zhǔn)差(Standard Deviation,σ)和皮爾遜相關(guān)系數(shù)(Pearson Correlation Coefficient,PCC)3 個(gè)指標(biāo),能從 3 個(gè)角度更加全面對(duì)比不同模型的預(yù)測(cè)性能[23-24]。其中,RMSE 反映預(yù)測(cè)精度,PCC 反映預(yù)測(cè)誤差實(shí)際情況,σ反映模型的穩(wěn)定性。
各個(gè)評(píng)價(jià)指標(biāo)的計(jì)算見(jiàn)式(17)—(20):
(17)
(18)
(19)
(20)
由于日尺度降水時(shí)間序列具有多變性與非線(xiàn)性的特征,單一模型在降水量變化的捕捉上存在局限性[10-11]。本研究首先采用二分類(lèi)算法SVM對(duì)降水序列完成晴雨預(yù)測(cè)(日降水量大于0.1 mm定義為降雨日,反之為晴),以提高無(wú)雨日預(yù)測(cè)精度與減小模型工作量[25-26]。其次,針對(duì)降水序列的多變性,采用模態(tài)分解法CEEMDAN將原序列分解成若干不同尺度的IMF分量和1個(gè)殘余分量,以提高對(duì)原降水序列變化規(guī)律的捕捉能力[27]。最后,引入BiLSTM網(wǎng)絡(luò)對(duì)每一個(gè)分量序列進(jìn)行降水序列預(yù)測(cè)。
模型構(gòu)建分為4步(圖2)。
圖2 SVM-CEEMDAN-BiLSTM模型結(jié)構(gòu)與構(gòu)建流程
步驟一晴雨預(yù)測(cè)。將降水量(Pre)、0 cm地溫(Gst)等氣象因子時(shí)間序列作為輸入,并以8∶2比例劃分訓(xùn)練集與測(cè)試集。將SVM模型遍歷尋優(yōu)進(jìn)行超參數(shù)組合優(yōu)化,利用訓(xùn)練集擬合模型完成晴雨預(yù)測(cè)。在預(yù)測(cè)結(jié)果為降雨日時(shí)進(jìn)行下一步驟,否則輸出降水量預(yù)測(cè)結(jié)果為0。
步驟二降水序列分解。利用CEEMDAN模態(tài)分解法將非平穩(wěn)的降水時(shí)間序列分解成多個(gè)本征模態(tài)分量IMF(1) 、…、IMF(k) 、…、IMF(n)和1個(gè)殘余分量。分解后的序列相對(duì)穩(wěn)定,且具有不同的局部特征信息[8]。
步驟三降水量預(yù)測(cè)。將分解后的降水子序列信息與氣象數(shù)據(jù)作為輸入,在歸一化處理后以8∶2比例劃分為訓(xùn)練集與測(cè)試集。通過(guò)參數(shù)優(yōu)化,利用BiLSTM分別對(duì)分解后的子序列進(jìn)行預(yù)測(cè),獲得各個(gè)子序列預(yù)測(cè)結(jié)果F(1)、…、F(k)、…、F(n+1)。將各個(gè)子序列預(yù)測(cè)結(jié)果累加便可獲得最終降水預(yù)測(cè)結(jié)果。
步驟四結(jié)果輸出。
參數(shù)設(shè)定對(duì)BiLSTM模型預(yù)測(cè)結(jié)果的準(zhǔn)確性影響較大。BiLSTM網(wǎng)絡(luò)使用tanh為激活函數(shù)、adam為優(yōu)化函數(shù)、RMSE為損失函數(shù),采用Dropout方法防止過(guò)擬合。需要調(diào)整的超參數(shù)為輸入、輸出、隱含層節(jié)點(diǎn)數(shù)、訓(xùn)練次數(shù)、Dropout大小等。本研究采用試湊試驗(yàn)完成超參數(shù)確定。試湊試驗(yàn)指通過(guò)固定其他超參數(shù)試湊剩余的一個(gè),并進(jìn)行多次遍歷,將不同組合的預(yù)測(cè)值與實(shí)測(cè)值進(jìn)行對(duì)比,確定表1所示的超參數(shù)。
表1 BiLSTM網(wǎng)絡(luò)超參數(shù)
為探討SVM-CEEMDAN-BiLSTM模型與LSTM模型的預(yù)測(cè)效果優(yōu)劣,選用1957—2018年景德鎮(zhèn)站、贛縣站逐日氣象數(shù)據(jù)完成降水預(yù)測(cè)模型的訓(xùn)練和測(cè)試,獲得模型測(cè)試集逐日降水預(yù)測(cè)結(jié)果。圖3為景德鎮(zhèn)站、贛縣站測(cè)試集預(yù)測(cè)與實(shí)測(cè)結(jié)果變化過(guò)程,其中左上角小圖展示測(cè)試集不同模型預(yù)測(cè)結(jié)果變化過(guò)程,大圖選取測(cè)試集中降水序列波動(dòng)較大的時(shí)間段。由圖3可知:①預(yù)測(cè)結(jié)果上,本研究提出的SVM-CEEMDAN-BiLSTM模型在預(yù)測(cè)結(jié)果上更接近于實(shí)測(cè)值,在極大值預(yù)測(cè)上有較大的提升;②模型對(duì)比上,SVM-CEEMDAN-BiLSTM模型在不同站點(diǎn)降水預(yù)測(cè)結(jié)果更接近于觀(guān)測(cè)值。
為驗(yàn)證SVM-CEEMDAN-BiLSTM耦合模型無(wú)雨日預(yù)測(cè)精度,統(tǒng)計(jì)了景德鎮(zhèn)站、贛縣站不同模型測(cè)試集無(wú)雨日預(yù)測(cè)結(jié)果與實(shí)測(cè)結(jié)果,見(jiàn)表2。在景德鎮(zhèn)站,耦合模型的無(wú)雨日預(yù)測(cè)誤差率由LSTM模型的73.96%下降至10.71%;在贛縣站,無(wú)雨日預(yù)測(cè)誤差率由LSTM模型的86.72%下降至10.97%。可見(jiàn),耦合模型的無(wú)雨日預(yù)測(cè)精度皆高于LSTM等模型。
表2 景德鎮(zhèn)站、贛縣站不同模型測(cè)試集無(wú)雨日預(yù)測(cè)結(jié)果
為進(jìn)一步驗(yàn)證耦合模型的降水預(yù)測(cè)效果,選取表3所示的不同組合模型在相同數(shù)據(jù)集(測(cè)試集)下的降水預(yù)測(cè)結(jié)果進(jìn)行了分析,并選用泰勒?qǐng)D反映不同模型的預(yù)測(cè)情況。圖4為不同組合降水預(yù)測(cè)對(duì)比。圖中橫軸和縱軸表示不同耦合模型測(cè)試集標(biāo)準(zhǔn)差、圓弧軸表示相關(guān)系數(shù)、弧線(xiàn)表示均方根誤差。模型的降水預(yù)測(cè)效果越好,則在圖中可觀(guān)察到模型圖示與觀(guān)測(cè)值直線(xiàn)距離越短。
表3 不同方案降水預(yù)測(cè)結(jié)果的評(píng)價(jià)指標(biāo)
a)景德鎮(zhèn)站
下面展開(kāi)2個(gè)方面的分析:①組合模型對(duì)比,耦合模型與觀(guān)測(cè)點(diǎn)Observation直線(xiàn)距離在景德鎮(zhèn)站與贛縣站皆最短,表明耦合模型的降水預(yù)測(cè)效果優(yōu)于其他組合;②氣象站點(diǎn)對(duì)比,在贛縣站,大部分模型與觀(guān)測(cè)值直線(xiàn)距離小于景德鎮(zhèn)站,這表明在贛縣站的預(yù)測(cè)效果優(yōu)于景德鎮(zhèn)站。
由表3可知:①在景德鎮(zhèn)站,耦合模型的評(píng)價(jià)指標(biāo)RMSE由15.10下降至6.93,降低54.1%,PCC由0.28上升至0.90,提升221.4%,在贛縣站,RMSE由10.24下降至3.85,降低62.4%,PCC由0.33上升至0.93,提升181.8%;②CEEMDAN-BiLSTM模型預(yù)測(cè)誤差均小于SVM-BiLSTM模型,這表明CEEMDAN在提升BiLSTM預(yù)測(cè)效果上強(qiáng)于SVM。
綜上,本研究提出的SVM-CEEMDAN-BiLSTM耦合模型在降水預(yù)測(cè)精度上高于傳統(tǒng)的單一模型LSTM、BiLSTM和多項(xiàng)組合方案。
為克服降水預(yù)測(cè)中極大值、無(wú)雨日預(yù)測(cè)精度低等問(wèn)題,本研究將SVM、CEEMDAN、BiLSTM算法的優(yōu)勢(shì)結(jié)合起來(lái),構(gòu)建出SVM-CEEMDAN-BiLSTM耦合模型,并對(duì)不同氣象站點(diǎn)日尺度降水量進(jìn)行了預(yù)測(cè)。主要結(jié)論如下:①本研究提出的SVM-CEEMDAN-BiLSTM耦合模型的降水預(yù)測(cè)結(jié)果與LSTM等傳統(tǒng)模型預(yù)測(cè)結(jié)果相比,在日尺度降水預(yù)測(cè)有一定的優(yōu)勢(shì),降水預(yù)測(cè)結(jié)果與實(shí)測(cè)結(jié)果基本一致;②模擬效果上,SVM-CEEMDAN-BiLSTM耦合模型在日尺度降水序列極大值與無(wú)雨日方面的預(yù)測(cè)精度均較高;③從站點(diǎn)角度上看,在贛縣站,不同預(yù)測(cè)模型的降水預(yù)測(cè)、晴雨預(yù)測(cè)誤差均小于景德鎮(zhèn)站,這可能與贛縣站年內(nèi)降水相比景德鎮(zhèn)站更為均勻有一定關(guān)系。
針對(duì)日尺度降水預(yù)測(cè),本研究提出的SVM-CEEMDAN-BiLSTM模型有效地提升了預(yù)測(cè)的準(zhǔn)確性。在后續(xù)的研究中,將針對(duì)耦合模型的輸入與輸出、氣象因子與模型相關(guān)性分析做進(jìn)一步的試驗(yàn)和研究。