秦 壯
(河北省石家莊水文勘測研究中心,石家莊 050000)
氣候變化深刻影響人類社會(huì),降水量變化對(duì)農(nóng)業(yè)、水資源管理等領(lǐng)域產(chǎn)生重大影響,準(zhǔn)確的降水量是旱澇防御、節(jié)水和農(nóng)作物灌溉等工作前提。但由于氣候系統(tǒng)復(fù)雜性和不確定性,降水量預(yù)測一直是氣象學(xué)領(lǐng)域面臨的挑戰(zhàn)。石家莊位于華北平原西南部,是灌溉農(nóng)業(yè)聚集地,降水對(duì)其農(nóng)業(yè)生產(chǎn)和生態(tài)環(huán)境具有重要影響。由于該地區(qū)降水量分布不均勻,且具有明顯的季節(jié)性變化,傳統(tǒng)數(shù)學(xué)統(tǒng)計(jì)方法在降水量預(yù)測方面存在一定局限性。因此,需借助建模技術(shù)來提高其預(yù)測可靠性。
近年來,深度學(xué)習(xí)技術(shù)在氣象預(yù)測領(lǐng)域取得顯著進(jìn)展。其中,長短時(shí)記憶網(wǎng)絡(luò)(Long Short-Term Memory)作為一種特殊的循環(huán)神經(jīng)網(wǎng)絡(luò),具有良好的序列建模能力。但由于降水序列具有非線性和非平穩(wěn)性特點(diǎn),傳統(tǒng)LSTM模型在降水量預(yù)測中仍存在一定局限性。
為此,本文引入經(jīng)驗(yàn)?zāi)B(tài)分解(Ensemble Empirical Mode Decomposition,EEMD)方法,將降水序列分解成一系列固有模態(tài)函數(shù)(IMFs),并通過LSTM網(wǎng)絡(luò)對(duì)每個(gè)IMF進(jìn)行預(yù)測,可將復(fù)雜的降水序列轉(zhuǎn)化為多個(gè)簡單的子序列,可以提高預(yù)測模型的準(zhǔn)確性和穩(wěn)定性。本研究的目的是基于EEMD-LSTM算法,對(duì)石家莊逐月降水量進(jìn)行預(yù)測,并與傳統(tǒng)模型進(jìn)行對(duì)比分析。
研究區(qū)位于華北平原西南向太行山地延伸地帶的石家莊市,空間位置為E113°3′-E115°2′、N37°27′-N38°4′,轄區(qū)總面積15 848km2。屬土石山地、平原分異地貌,高程自西向東遞減,介于0~2 281m。受季風(fēng)環(huán)流與海陸位置影響,形成溫帶大陸性季風(fēng)氣候,多年平均氣溫13℃、降水量545mm、蒸發(fā)量1 650mm。研究區(qū)下轄正定、趙縣等縣區(qū),降水量呈現(xiàn)自東向西減少。見圖1。
圖1 氣象站點(diǎn)數(shù)據(jù)分布示意圖
本研究月降水量資料來自氣象數(shù)據(jù)共享服務(wù)網(wǎng)站 (http://dctc.cmc.cn/),獲取研究區(qū)12個(gè)氣象站點(diǎn)自1981-2020年日數(shù)據(jù)集,經(jīng)合成后得到480個(gè)逐月序列數(shù)據(jù)。該原始數(shù)據(jù)經(jīng)過質(zhì)量控制,已在氣象、水土科學(xué)中得到廣泛應(yīng)用。選取1981-2010年月降水序列(共360個(gè)月)為訓(xùn)練集,2001-2020年月序列(共120個(gè)月)為驗(yàn)證集。
EEMD是建立于EMD基礎(chǔ)上的一種改進(jìn)的數(shù)據(jù)分解算法,其旨在通過加入白噪聲解決EMD方法中存在模態(tài)混疊現(xiàn)象,進(jìn)而生成精準(zhǔn)包絡(luò)線。EEMD具有自適應(yīng)性,能夠在不需要預(yù)先選擇小波基的情況下,根據(jù)信號(hào)的不同特征尺度自動(dòng)產(chǎn)生基函數(shù),并且仿真信號(hào)的EMD分解可重構(gòu)成出原始信號(hào)。其主要流程如下:
①基于逐月降水量序列X(t)中的極大或極小值Ei(1≤i≤n),計(jì)算出鄰域中值Fi(1≤i≤n-1)。
②利用最小二乘法,擬合全部n+1個(gè)中值點(diǎn)連成的k值曲線,則曲線平均值:
L*=(L1+L2+…+Lk)/k
(1)
③迭代前兩個(gè)步驟,直至得到篩選次數(shù)達(dá)到預(yù)設(shè)最大值q或滿足 或|L*|≤ε(ε為允許誤差),由此分解到第一模態(tài)分量MF1。
④基于數(shù)據(jù)結(jié)構(gòu)與長度,自適應(yīng)提取生成其他IMF。
⑤原徑流序列X(t)可重構(gòu)為所有模態(tài)分量與殘差趨勢項(xiàng)之和:
X(t)=∑Mi+R0
(2)
式中:W為隱藏狀態(tài)到輸出的權(quán)重矩陣;b為對(duì)應(yīng)的偏置項(xiàng);ht為t時(shí)刻LSTM輸出值。
φ=δ[Wo(ht-1,xt)]+bo
(5)
ht=φttanh(Ct)
(6)
式中:δ為激活函數(shù)sigmoid;ht為t時(shí)刻LSTM輸出值。
由圖2可知,研究區(qū)逐月降水量呈非線性變化,其總體呈躍遷波動(dòng)性。近480個(gè)月序列中,最大值出現(xiàn)在第470個(gè)月,達(dá)72.8 mm;最少月僅為15.2 mm,出現(xiàn)在第67月;其整體離差系數(shù)為36.5%,表明其波動(dòng)性強(qiáng)烈。統(tǒng)計(jì)得到該時(shí)域內(nèi),月降水量變化的傾向斜率為-0.0013,變化形式為y=-0.0013x+41.767,R2=0.0002,但并不具有統(tǒng)計(jì)意義(P>0.05)。由此可見,常規(guī)線性擬合方法難以捕捉其非平穩(wěn)性特征,這增加了降水量預(yù)測難度。
圖2 研究區(qū)逐月降水量序列變化
將研究區(qū)480個(gè)逐月徑流量序列使用EEMD解析,得到若干固有模式函數(shù)(IMF),其結(jié)構(gòu)見圖3。由圖3可知,隨著模態(tài)數(shù)增加,其頻率域信息量減少、波動(dòng)性變?nèi)?而殘差趨勢項(xiàng)描述了月降水量序列整體傾向趨勢特征。在此基礎(chǔ)上,利用周期圖法計(jì)算得到第一模態(tài)(IMF1)的方差貢獻(xiàn)率最大,為32.83%,承載了降水量分量強(qiáng)烈波動(dòng)信息;IMF2-IMF4次之,分別為24.20%、16.45%、11.29%;IMF5-IMF7僅為1.96%~8.44%,其承載的分量信息率較低。IMF代表了時(shí)間序列中的不同頻率分量,通過對(duì)IMF進(jìn)行分析,可以了解降水量的周期性和趨勢性變化。
為了驗(yàn)證EEMD-LSTM算法的有效性,將數(shù)據(jù)集劃分為訓(xùn)練集和測試集。其中,訓(xùn)練集用于訓(xùn)練,驗(yàn)證數(shù)據(jù)用于測試。7項(xiàng)模態(tài)分量以及殘差項(xiàng)作為輸入變量,利用Rustudio開源平臺(tái)設(shè)計(jì)LSTM網(wǎng)絡(luò),為確定模型性能,采用貝葉斯方法進(jìn)行參數(shù)優(yōu)化。LSTM網(wǎng)絡(luò)中包含隱藏層大小(hidden_size)、網(wǎng)絡(luò)層數(shù)(n_layer)、Dropout、滑動(dòng)窗口大小(window size) 、學(xué)習(xí)率(learn rate) 、梯度截?cái)?Gradient Clipping)等關(guān)鍵參數(shù)。其中,hidden_size 影響模型所能捕捉的訓(xùn)練數(shù)據(jù)復(fù)雜度;n_layer控制模型的復(fù)雜度;Dropout是為了防止模型過擬合而添加的正則化項(xiàng),以減小過擬合的風(fēng)險(xiǎn);window size 為記憶單元長度、learn rate控制收斂速度、Gradient Clipping防止梯度爆炸或梯度消失。將其通過貝葉斯參數(shù)試錯(cuò)分析,確定以上6項(xiàng)模型參數(shù)配置依次為150、16、0.5、13、0.03、0.1。
圖4為EEMD-LSTM算法預(yù)測的研究區(qū)2010-2020(第361-480月份)的降水量。由圖4可知,該模型準(zhǔn)確模擬了降水量變化形態(tài),對(duì)徑流豐枯變化、相位躍遷具有較高溯源性。經(jīng)計(jì)算,得到模型驗(yàn)證精度決定系數(shù)R2為0.92,MAE和RMSE分別為2.14、3.13mm,顯示了該模型較高擬合性能,因此具有良好應(yīng)用潛力。
該算法的成功應(yīng)用,一方面在于EEMD分解的模態(tài)可將非線性逐月降水?dāng)?shù)據(jù)轉(zhuǎn)化為若干簡易、靜態(tài)序列變量,極大地去除了數(shù)據(jù)噪聲而僅保留有益的信息;另一方面在于LSTM善于利用EEMD分解得到的IMF信息溯源降水變化,在前向模擬過程中加入歷史信息,從而有助于提高預(yù)測性能。
圖4 研究區(qū)逐月降水量序列預(yù)測精度圖
本文通過應(yīng)用EEMD-LSTM算法,對(duì)石家莊市逐月降水量進(jìn)行了預(yù)測,結(jié)論如下:通過EEMD分解去除原始降水量序列中的噪聲,并將其分為獨(dú)立模態(tài)IMF和殘差,包括降水量變化非線性、非平穩(wěn)、周期性特征,促進(jìn)了模型解釋性。EEMD-LSTM模型以每個(gè)IMF作為輸入,能夠較好地捕捉時(shí)間序列數(shù)據(jù)中的非線性和長期依賴關(guān)系。
但本研究也存在一些限制:①只考慮了石家莊市的逐月降水量數(shù)據(jù),對(duì)于其他地區(qū)預(yù)測效果還需要進(jìn)一步驗(yàn)證;②EEMD-LSTM算法的參數(shù)選擇對(duì)于預(yù)測結(jié)果的影響較大,需要進(jìn)一步優(yōu)化參數(shù)選取方法,以提高預(yù)測精度;③還可以考慮將其他氣象數(shù)據(jù)如溫度、濕度等納入模型中,以提高預(yù)測效果。