卜清軍,侯 敏*,王國(guó)松,常春輝,王彩霞
(1. 天津市濱海新區(qū)氣象局 天津300457;2. 河海大學(xué) 江蘇南京210098;3. 國(guó)家海洋信息中心 天津300171)
天津港位于天津市濱海新區(qū),地處渤海灣西端,是吞吐量穩(wěn)居世界前十的綜合性港口。由于近年來(lái)極端天氣頻繁發(fā)生,造成較大的經(jīng)濟(jì)損失和人員傷亡,圍繞港口的各大產(chǎn)業(yè)對(duì)氣象的需求日益增長(zhǎng)。災(zāi)害性大風(fēng)[1-5]是天津地區(qū)最常見(jiàn)、也是各行各業(yè)尤其是港口用戶(hù)非常關(guān)注的災(zāi)害性天氣之一。比如天津港平臺(tái)作業(yè),對(duì)風(fēng)速預(yù)報(bào)精準(zhǔn)程度要求極高,一旦風(fēng)速大于6級(jí)就必須停止作業(yè),同時(shí)對(duì)于突發(fā)性大風(fēng)更是需要及時(shí)快速地預(yù)報(bào)預(yù)警以讓作業(yè)人員從平臺(tái)安全撤離。在海上航線(xiàn)運(yùn)輸?shù)染W(wǎng)絡(luò)信號(hào)差、計(jì)算資源限制的情況下,快速獲取精準(zhǔn)預(yù)報(bào)預(yù)警難度較大,這些都給氣象部門(mén)提出更高的要求。
數(shù)值預(yù)報(bào)技術(shù)是現(xiàn)有最常用的預(yù)報(bào)手段。但數(shù)值模式進(jìn)行風(fēng)場(chǎng)預(yù)報(bào)時(shí)需要采用復(fù)雜變分方法來(lái)同化實(shí)時(shí)觀測(cè)數(shù)據(jù),同時(shí)耗費(fèi)大量計(jì)算資源和時(shí)間,很難得到快速的預(yù)報(bào)結(jié)果。對(duì)于目前的數(shù)值預(yù)報(bào)模型,在預(yù)報(bào)初期(前12h)模式結(jié)果無(wú)法很好地描述大氣過(guò)程,因此模式前12h的結(jié)果通常不能使用[6]。在模擬氣象過(guò)程中,由于分辨率不足等原因,對(duì)小尺度的物理過(guò)程不能給予很好的描述[7]。因此,雖然數(shù)值模式越來(lái)越精細(xì)化,但對(duì)于實(shí)際需求來(lái)說(shuō),預(yù)報(bào)網(wǎng)格尺度還是偏大,比如在天津港口區(qū)域,作業(yè)地點(diǎn)和陸地區(qū)域風(fēng)也是差異比較大。
隨著科技的不斷發(fā)展,人工智能尤其在深度神經(jīng)網(wǎng)絡(luò)領(lǐng)域得到了飛速發(fā)展[8-15],而大量的氣象歷史監(jiān)測(cè)數(shù)據(jù)能為預(yù)報(bào)研究提供良好的數(shù)據(jù)基礎(chǔ)[16]。將氣象觀測(cè)數(shù)據(jù)與人工智能相結(jié)合是現(xiàn)今氣象預(yù)報(bào)的一個(gè)發(fā)展方向和研究切入點(diǎn)。Zameer等[17]利用深度神經(jīng)網(wǎng)絡(luò)預(yù)報(bào)風(fēng)功率,效果不錯(cuò),而目前針對(duì)風(fēng)速短時(shí)預(yù)報(bào)方面的研究很少,且大部分關(guān)于氣象要素預(yù)報(bào)的研究都是基于少量數(shù)據(jù)的三層神經(jīng)網(wǎng)絡(luò)或者支持向量機(jī)模型(SVM)等完成[18-19]。
預(yù)測(cè)風(fēng)速最大的挑戰(zhàn)就是其間歇性和不確定性。經(jīng)驗(yàn)?zāi)B(tài)分解(EMD)已廣泛應(yīng)用于分析非線(xiàn)性隨機(jī)信號(hào)。與小波變換和傅立葉變換相比,具有分辨率好,適用范圍廣的優(yōu)點(diǎn)。但是,EMD最明顯的缺點(diǎn)是模態(tài)混疊效應(yīng)。為了克服這個(gè)問(wèn)題,提出了一種新的噪聲輔助分析方法,稱(chēng)為集合經(jīng)驗(yàn)?zāi)B(tài)分解(EEMD),并在許多領(lǐng)域進(jìn)行了測(cè)試[20-23]。
本文采用天津?yàn)I海新區(qū)的國(guó)家基本氣象監(jiān)測(cè)站——塘沽站代表天津港區(qū)域,結(jié)合集合經(jīng)驗(yàn)?zāi)B(tài)分解和深度神經(jīng)網(wǎng)絡(luò)(LSTM)方法,開(kāi)展在有監(jiān)督學(xué)習(xí)情況下的風(fēng)速快速預(yù)報(bào)應(yīng)用研究,建立風(fēng)速快速預(yù)報(bào)模型,以此作為現(xiàn)有數(shù)值預(yù)報(bào)模式的補(bǔ)充,為沿海及海上風(fēng)速預(yù)報(bào)預(yù)警提供新思路,為提高天津港區(qū)域海洋氣象防災(zāi)減災(zāi)和快速預(yù)報(bào)預(yù)警能力提供技術(shù)支撐。
本文采用的數(shù)據(jù)來(lái)源有:
①?lài)?guó)家基本氣象監(jiān)測(cè)站(塘沽 54623)歷史氣象資料,包括風(fēng)速(SPD)、風(fēng)向(dir)、氣溫(Tem)、露點(diǎn)溫度(DPT)、能見(jiàn)度(Vis),并利用對(duì)數(shù)風(fēng)廓線(xiàn)公式把數(shù)據(jù)訂正到海上10m高度。
②基于歐洲中期天氣預(yù)報(bào)中心(ECMWF)提供的 6h數(shù)據(jù),再分析歐洲氣象中心資料(ERA-interim),空間分辨率 0.125°×0.125°,包括 10m 徑向風(fēng)(10V)、10m 緯向風(fēng)(10U)、海溫(SST)、2m 氣溫(T2m)。時(shí)間范圍2005—2017年,6h間隔。
對(duì)數(shù)據(jù)集進(jìn)行質(zhì)量控制,檢查數(shù)據(jù)一致性,刪除重復(fù)信息和缺省值,并統(tǒng)計(jì)數(shù)據(jù)連續(xù)性和數(shù)據(jù)質(zhì)量。
構(gòu)造訓(xùn)練集(2005—2015年)、測(cè)試集(2016年)和驗(yàn)證集(2017年),并對(duì)訓(xùn)練集進(jìn)行資料預(yù)處理操作,將數(shù)據(jù)均一化。圖 1為預(yù)處理歸一化之后各相關(guān)要素序列。
圖1 預(yù)處理后測(cè)試集主要變量序列Fig.1 Main variable sequence of test set after preprocessing
模態(tài)混疊效應(yīng)是EMD最顯著的缺點(diǎn)。這意味著單個(gè)基本模式分量(IMF)包含截然不同的信號(hào),或者相同的信號(hào)出現(xiàn)在不同的 IMF中。使用 EMD分析信號(hào)時(shí),這通常會(huì)導(dǎo)致信號(hào)中斷。為解決 EMD中的模態(tài)混疊問(wèn)題,提出了一種新的噪聲輔助分析方法EEMD,在EEMD中,IMF的真正組成部分定義為總體軌跡的均值,每條跡線(xiàn)都包含信號(hào)的分解結(jié)果以及有限幅度的白噪聲[24]。EEMD受益于最近對(duì)白噪聲的研究,該研究表明,當(dāng)將EMD應(yīng)用于白噪聲時(shí),它是一種有效的自適應(yīng)二元濾波器組[25-26]。其結(jié)果表明,噪聲可以幫助采用EMD方法進(jìn)行數(shù)據(jù)分析。
EEMD算法步驟如下:
①在原始風(fēng)速信號(hào)上添加白噪聲系列;
②使用EMD將添加白噪聲的信號(hào)分解為IMF;
③用不同的白噪聲重復(fù)步驟①和②,并獲得相應(yīng)的IMF分量,重復(fù)過(guò)程的數(shù)目稱(chēng)為集成數(shù);
④將所有 IMF成分的平均值和殘基成分的平均值作為最終結(jié)果。
時(shí)間序列模型最常用的就是遞歸神經(jīng)網(wǎng)絡(luò)(recurrent neural network,RNN),一般用來(lái)進(jìn)行長(zhǎng)期記憶計(jì)算。而LSTM(長(zhǎng)短期記憶網(wǎng)絡(luò)long short-term memory)[27]模型是 RNN的變型,LSTM 的特點(diǎn)就是在 RNN結(jié)構(gòu)之外添加了遺忘和強(qiáng)化學(xué)習(xí)[28-31],可廣泛應(yīng)用于氣象短時(shí)序列預(yù)報(bào)。本文構(gòu)建的 LSTM 深度神經(jīng)網(wǎng)絡(luò)預(yù)報(bào)模型中包含 4個(gè) LSTM 層、4個(gè)Dropout層和 3個(gè) Dense層,其中輸入層是 00時(shí)(t-3),06時(shí)(t-2),12時(shí)(t-1)和 18時(shí)(t)4個(gè)時(shí)刻的結(jié)果,輸出層是未來(lái)6小時(shí)(t+1)風(fēng)速結(jié)果,見(jiàn)圖2。
圖2 LSTM預(yù)報(bào)模型結(jié)構(gòu)圖Fig.2 LSTM prediction model structure diagram
模型建立后,為獲得更好的模型性能,再針對(duì)塘沽氣象站的風(fēng)速預(yù)報(bào)模型特點(diǎn),分別進(jìn)行調(diào)參。同時(shí)選擇不同的驗(yàn)證集方案和交叉驗(yàn)證方法,利用臺(tái)站觀測(cè)資料對(duì)預(yù)報(bào)結(jié)果進(jìn)行對(duì)比檢驗(yàn),修正目標(biāo)函數(shù)和外部參數(shù),確定最優(yōu)的深度神經(jīng)網(wǎng)絡(luò)構(gòu)建方案。表 1給出了 LSTM 神經(jīng)網(wǎng)絡(luò)訓(xùn)練的各參數(shù)設(shè)置。通過(guò)引進(jìn)Dropout正則化技術(shù),遏制過(guò)擬合訓(xùn)練數(shù)據(jù),努力提高模型的泛化能力和魯棒性,增強(qiáng)模型的可移植性,方便共享擴(kuò)展到新的任務(wù)和設(shè)置上?;谟?xùn)練好的預(yù)訓(xùn)練權(quán)重,可以用來(lái)進(jìn)行預(yù)測(cè)、特征提取和finetune,用于快速預(yù)報(bào)。圖3為訓(xùn)練損失和驗(yàn)證損失值隨訓(xùn)練次數(shù)的變化曲線(xiàn),模型總共訓(xùn)練了1400次,可以看到模型誤差隨訓(xùn)練次數(shù)逐漸下降,到400次之后誤差值逼近于0線(xiàn)且非常穩(wěn)定,說(shuō)明模型有很好的泛化能力和魯棒性。
表1 LSTM神經(jīng)網(wǎng)絡(luò)訓(xùn)練參數(shù)Tab.1 LSTM neural network training parameters
圖3 訓(xùn)練損失和驗(yàn)證損失序列圖Fig.3 Sequence diagram of training loss and verification loss
EEMD-LSTM 風(fēng)速預(yù)測(cè)模型主要包括以下 3個(gè)步驟:
①原始風(fēng)速數(shù)據(jù)被 EEMD分解為具有不同頻率的某些更平穩(wěn)的信號(hào);
②使用LSTM神經(jīng)網(wǎng)絡(luò)預(yù)測(cè)每個(gè)IMF和殘差r;
③將每個(gè) IMF和殘差 r的預(yù)測(cè)結(jié)果合計(jì),以獲得最終的風(fēng)速預(yù)測(cè)結(jié)果。
模型構(gòu)建完成后,采用相關(guān)系數(shù)(correlation coefficients,CC)、絕對(duì)誤差(root-mean-square error,MAE)以及均方根誤差(root-mean-square error,RMSE)3種誤差統(tǒng)計(jì)因子來(lái)評(píng)估模型預(yù)報(bào)性能。驗(yàn)證數(shù)據(jù)采用2017年塘沽站點(diǎn)逐6h實(shí)測(cè)風(fēng)速。
圖 4對(duì)比了歐洲中心數(shù)據(jù)集(ERA)模式和EEMD-LSTM 模型的風(fēng)速預(yù)測(cè)曲線(xiàn),其中黑色線(xiàn)為實(shí)際觀測(cè)風(fēng)速值,綠色線(xiàn)為 ERA模式值,紅色線(xiàn)為L(zhǎng)STM 模型預(yù)測(cè)結(jié)果。從圖中可以看到,基于集合經(jīng)驗(yàn)?zāi)B(tài)分解EEMD的LSTM深度學(xué)習(xí)模型預(yù)測(cè)結(jié)果與實(shí)測(cè)風(fēng)速曲線(xiàn)相近,對(duì)于天津港區(qū)域風(fēng)速的波動(dòng)、低風(fēng)速、大風(fēng)等特征都預(yù)測(cè)較好,顯著優(yōu)于 ERA模式。
圖4 ERA和EEMD-LSTM模型風(fēng)速預(yù)測(cè)曲線(xiàn)Fig.4 Wind speed prediction curve of ERA and EEMDLSTM models
表2給出了ERA和EEMD-LSTM模型各評(píng)估因子值,EEMD-LSTM 預(yù)測(cè)的風(fēng)速序列與實(shí)測(cè)值的相關(guān)系數(shù)(CC)為 0.97,遠(yuǎn)高于 ERA 模式相關(guān)系數(shù)0.15。絕對(duì)誤差和均方根誤差也較 ERA模式結(jié)果有很大提升,絕對(duì)誤差(MAE)減小了 1.13m/s,均方根誤差(RMSE)降低了 1.68m/s。這說(shuō)明 EEMD-LSTM模型適用于天津港區(qū)域的短期風(fēng)速預(yù)測(cè)。
表2 ERA和EEMD-LSTM模型評(píng)估因子Tab.2 Evaluation factors of ERA and EEMD-LSTM models
本文提出了一種基于混合EEMD和LSTM深度神經(jīng)網(wǎng)絡(luò)的天津港風(fēng)速預(yù)測(cè)方法。通過(guò) EEMD,風(fēng)速數(shù)據(jù)被分解為不同的IMF和殘差r,LSTM神經(jīng)網(wǎng)絡(luò)用于預(yù)測(cè)單個(gè) IMF和殘差 r,通過(guò)將單個(gè) IMF和 r的預(yù)測(cè)結(jié)果相加可以獲得最終結(jié)果。采用 2017年天津港區(qū)域風(fēng)速實(shí)測(cè)數(shù)據(jù)對(duì) EEMD-LSTM 模型進(jìn)行驗(yàn)證,該方法的MAE和RMSE分別為0.87和1.04,相關(guān)系數(shù)高達(dá) 0.97,均比 ERA模式預(yù)報(bào)結(jié)果好得多。這表明,本文提出的基于混合EEMD和LSTM神經(jīng)網(wǎng)絡(luò)的方法在風(fēng)速預(yù)測(cè)中表現(xiàn)良好,適用于天津港區(qū)域的短期風(fēng)速預(yù)測(cè)。