趙玉娟,李宗飛,陳凱華,王 彥,朱男男,李祥海,姜罕盛
(1.天津市氣象信息中心,天津 300074;2.天津市人工影響天氣辦公室,天津 300074;3.天津海洋中心氣象臺(tái),天津 300074)
臨近預(yù)報(bào)通常指未來(lái)0~2 h的天氣預(yù)報(bào)。強(qiáng)對(duì)流天氣包括雷雨大風(fēng)、冰雹等天氣,因其歷時(shí)短、破壞性強(qiáng)、演變規(guī)律復(fù)雜,是臨近預(yù)報(bào)的重點(diǎn)和難點(diǎn)。海洋強(qiáng)對(duì)流天氣臨近預(yù)報(bào)在海洋氣象災(zāi)害防御中具有重要地位。海上大風(fēng)及其引發(fā)的次生災(zāi)害是導(dǎo)致海洋氣象災(zāi)害的主要因素。為了提升海上大風(fēng)等海上強(qiáng)對(duì)流天氣預(yù)報(bào)能力,氣象工作者持續(xù)在開(kāi)展大風(fēng)天氣特征及預(yù)報(bào)方法等方面的探索。多普勒天氣雷達(dá)是氣象部門用于大氣監(jiān)測(cè)的重要設(shè)備,能夠提供高時(shí)空分辨率的精細(xì)監(jiān)測(cè)產(chǎn)品,在災(zāi)害性、突發(fā)性天氣監(jiān)測(cè)預(yù)警中是極為重要的參考指標(biāo),因此,許多學(xué)者開(kāi)展了分析雷達(dá)回波在雷暴大風(fēng)天氣條件下特征的研究,為相關(guān)領(lǐng)域天氣預(yù)報(bào)能力提升提供支撐。王彥等[1]利用天津地區(qū)46次雷暴大風(fēng)過(guò)程統(tǒng)計(jì)分析了雷達(dá)回波在雷暴大風(fēng)天氣過(guò)程下的特征,得出了影響渤海西部的雷暴大風(fēng)在雷達(dá)回波形態(tài)方面有弓狀、帶狀、陣風(fēng)鋒等四種類型,弓狀回波對(duì)應(yīng)的雷暴大風(fēng)天氣最強(qiáng)烈等結(jié)論;郭慶利等[2]通過(guò)對(duì)煙臺(tái)北部沿海5年的雷雨大風(fēng)天氣個(gè)例分析,得到了渤海海峽雷雨大風(fēng)天氣下雷達(dá)反射率因子的回波強(qiáng)度多在45 dbz以上,形狀大致分帶狀、弓形等5類的結(jié)論。郭鴻鳴等[3]綜合運(yùn)用6部天氣雷達(dá)拼圖、WRF模式物理場(chǎng)等資料分析了強(qiáng)對(duì)流系統(tǒng)入海前后的時(shí)空變化規(guī)律。王亞南等[4]利用海島、平臺(tái)、浮標(biāo)等站點(diǎn)加密觀測(cè)資料,分析了渤海西部雷雨大風(fēng)的統(tǒng)計(jì)特征。陳明軒等[5]、俞小鼎等[6]、程叢蘭[7]等則論述了強(qiáng)對(duì)流天氣臨近預(yù)報(bào)方法。
雷達(dá)回波外推結(jié)果是臨近預(yù)報(bào)主要參考數(shù)據(jù)之一。如何快速、準(zhǔn)確地生成雷達(dá)回波預(yù)測(cè)數(shù)據(jù)是近年來(lái)氣象領(lǐng)域研究熱點(diǎn)之一。傳統(tǒng)雷達(dá)外推方法包括交叉相關(guān)法(COTREC)[8]、光流法等[9-10]。交叉相關(guān)法和光流法均是假定雷達(dá)反射率因子的運(yùn)動(dòng)符合拉格朗日守恒規(guī)律,在穩(wěn)定性降水預(yù)報(bào)中效果較好[11],但對(duì)于局地強(qiáng)對(duì)流天氣,因雷達(dá)回波演變快,不滿足守恒條件,預(yù)報(bào)效果則會(huì)隨著時(shí)間快速下降[12-13]。
探索雷達(dá)回波外推新方法,高效、準(zhǔn)確地生成雷達(dá)回波預(yù)測(cè)數(shù)據(jù),對(duì)提升海上強(qiáng)對(duì)流天氣臨近預(yù)報(bào)和服務(wù)能力具有重要意義。深度學(xué)習(xí)算法可自動(dòng)學(xué)習(xí)海量數(shù)據(jù)中蘊(yùn)含規(guī)律,且無(wú)需較多先驗(yàn)知識(shí),因此在氣象領(lǐng)域應(yīng)用日益廣泛,諸多學(xué)者開(kāi)展了相關(guān)方法在短臨天氣預(yù)報(bào)方面研究。郭尚瓚等[14]開(kāi)展了多層感知器在短時(shí)降雨預(yù)測(cè)方面的探索。Shi等[15]利用帶卷積的長(zhǎng)短時(shí)記憶單元構(gòu)建RNN,將其在雷達(dá)外推預(yù)報(bào)方面應(yīng)用取得了較好效果。施恩[16]提出了基于輸入的動(dòng)態(tài)卷積神經(jīng)網(wǎng)絡(luò)模型,卷積核含有當(dāng)前輸入的特征,網(wǎng)絡(luò)模型測(cè)試期間還可基于輸入圖像變化,輸入、輸出圖像的強(qiáng)相關(guān)性得到保證,利用南京、杭州、廈門三地雷達(dá)CAPPI圖像數(shù)據(jù)作為樣本試驗(yàn)的結(jié)果表明,所提方法較傳統(tǒng)雷達(dá)回波外推方法,預(yù)測(cè)圖像準(zhǔn)確率和外推時(shí)效均有所提高。郭瀚陽(yáng)[17]等借助基于自編碼的卷積GRU網(wǎng)絡(luò),利用雷達(dá)拼圖數(shù)據(jù)訓(xùn)練得到了可利用歷史0.5 h數(shù)據(jù)預(yù)測(cè)未來(lái)1 h回波的雷達(dá)回波外推模型。試驗(yàn)結(jié)果證明其所提方法在預(yù)測(cè)精度上明顯優(yōu)于傳統(tǒng)方法。黃興友[18]等采用Causal-LSTM單元構(gòu)建神經(jīng)網(wǎng)絡(luò)模型實(shí)現(xiàn)雷達(dá)回波外推,并使用帶權(quán)重的損失函數(shù)進(jìn)行模型訓(xùn)練,測(cè)試集及個(gè)例檢驗(yàn)表明其構(gòu)建的模型在強(qiáng)回波預(yù)報(bào)方面優(yōu)于光流法。
目前基于深度學(xué)習(xí)的雷達(dá)回波外推研究多面向降水預(yù)報(bào),針對(duì)海上大風(fēng)天氣的研究較少。本研究面向海上大風(fēng)臨近預(yù)報(bào)需求選取雷達(dá)數(shù)據(jù),并從輸入數(shù)據(jù)格式、損失函數(shù)兩方面進(jìn)行改進(jìn),構(gòu)建了基于自編碼的ConvLSTM網(wǎng)絡(luò),利用滄州雷達(dá)站4年的歷史觀測(cè)數(shù)據(jù)對(duì)其進(jìn)行訓(xùn)練,得到了雷達(dá)回波外推模型,可利用近1 h雷達(dá)反射率因子數(shù)據(jù)預(yù)測(cè)未來(lái)1 h雷達(dá)反射率因子數(shù)據(jù)。測(cè)試集及典型天氣個(gè)例對(duì)模型預(yù)測(cè)效果進(jìn)行檢驗(yàn)的結(jié)果表明,改進(jìn)后模型較傳統(tǒng)ConvLSTM模型在強(qiáng)回波預(yù)測(cè)方面效果更好。
本研究擬通過(guò)學(xué)習(xí)歷史雷達(dá)數(shù)據(jù)時(shí)空變化規(guī)律,預(yù)測(cè)未來(lái)雷達(dá)回波序列,屬于時(shí)間序列預(yù)測(cè)問(wèn)題,循環(huán)神經(jīng)網(wǎng)絡(luò)在相關(guān)領(lǐng)域應(yīng)用較多。不同于一般神經(jīng)網(wǎng)絡(luò)不同層神經(jīng)元節(jié)點(diǎn)互相獨(dú)立,循環(huán)神經(jīng)網(wǎng)絡(luò)各隱藏層節(jié)點(diǎn)不僅依賴當(dāng)前輸入,還依賴前一時(shí)刻中間狀態(tài),處理新數(shù)據(jù)時(shí),也可記憶歷史計(jì)算結(jié)果。卷積長(zhǎng)短時(shí)記憶單元ConvLSTM是應(yīng)用較廣的循環(huán)神經(jīng)網(wǎng)絡(luò)模型之一,通過(guò)輸入門、遺忘門及輸出門實(shí)現(xiàn)信息流動(dòng)控制,可防止有價(jià)值信息因?yàn)轭A(yù)測(cè)序列長(zhǎng)度的增大而被丟,還能選擇性地實(shí)現(xiàn)“更新”和“遺忘”。ConvLSTM工作原理如式(1)~(5)所示,it表示輸入門,ft表示遺忘門,ot表示輸出門,算子(o)表示矩陣對(duì)應(yīng)元素相乘,“*”表示卷積操作,“σ”表示Sigmoid函數(shù),Wx-,Wh-是二維卷積核,輸入X1,…,Xt和單元狀態(tài)C1,…,Ct,隱藏狀態(tài)H1,…,Ht及it、ft、ot均為3維張量。
it=σ(Wxi*Xt+Whi*Ht-1+WciοCt-1+bi)
(1)
ft=σ(Wxf*Xt+Whf*Ht-1+WcfοCt-1+bf)
(2)
Ot=σ(Wxo*Xt+Who*Ht-1+WcoοCt+bo)
(3)
Ct=ftοCt-1+itοtanh(Wxc*Xt+Whc*Ht-1+bc)
(4)
Ht=Otοtanh(Ct)
(5)
循環(huán)神經(jīng)網(wǎng)絡(luò)還能作為基本單元構(gòu)建更復(fù)雜網(wǎng)絡(luò)。本研究借鑒了郭瀚陽(yáng)等[17]研究思路,亦采用自編碼模型構(gòu)建網(wǎng)絡(luò),不同之處在于本文采用基于自編碼的ConvLSTM網(wǎng)絡(luò)進(jìn)行雷達(dá)回波序列預(yù)測(cè),通過(guò)多層堆疊ConvLSTM,增強(qiáng)模型學(xué)習(xí)能力。自編碼模型包含編碼、解碼兩階段。編碼階段先用最后輸入的隱藏層狀態(tài)代表所有輸入序列信息,再將編碼最后一步隱藏層狀態(tài)用于初始化解碼階段隱藏層的狀態(tài)。解碼階段先用編碼輸入的最后一幀作為第一個(gè)輸入得到第一個(gè)預(yù)測(cè)輸出,再用第一個(gè)預(yù)測(cè)輸出作為輸入得到第二個(gè)預(yù)測(cè)輸出,持續(xù)迭代此過(guò)程得到所有預(yù)測(cè)輸出,該方法具備可產(chǎn)生變長(zhǎng)預(yù)測(cè)序列的優(yōu)勢(shì)。本研究的編碼和解碼階段均采用三層堆疊ConvLSTM來(lái)學(xué)習(xí)數(shù)據(jù)特征。
不同天氣狀況下,雷達(dá)反射率因子強(qiáng)度具有明顯差異。天氣雷達(dá)實(shí)時(shí)觀測(cè)到的回波強(qiáng)度是判斷強(qiáng)對(duì)流天氣的重要參考數(shù)據(jù)。預(yù)報(bào)經(jīng)驗(yàn)和已有對(duì)海上強(qiáng)對(duì)流大風(fēng)天氣的雷達(dá)回波特征分析研究表明,雷達(dá)反射率因子包含較多強(qiáng)回波情況下,發(fā)生海上強(qiáng)對(duì)流大風(fēng)天氣的概率相對(duì)更高[19-22],王福俠等[21]利用天氣雷達(dá)和自動(dòng)站資料研究統(tǒng)計(jì)2006~2008年河北省中南部地區(qū)28次雷暴大風(fēng)過(guò)程中出現(xiàn)地面大風(fēng)的262個(gè)觀測(cè)站上空的雷達(dá)回波特征發(fā)現(xiàn),一般雷暴大風(fēng)的反射率因子都在50 dbz以上,但干對(duì)流雷暴大風(fēng)的反射率因子一般只有40 dbz左右。強(qiáng)回波預(yù)測(cè)準(zhǔn)確與否對(duì)預(yù)報(bào)效果影響更大,提高強(qiáng)回波預(yù)測(cè)準(zhǔn)確率是提升預(yù)報(bào)效果的關(guān)鍵。
ConvLSTM模型常規(guī)采用的是均方差損失函數(shù)MSE,均方差損失函數(shù)先計(jì)算真實(shí)數(shù)據(jù)與預(yù)測(cè)數(shù)據(jù)所有對(duì)應(yīng)點(diǎn)誤差平方的總和,再計(jì)算其均值,對(duì)于不同大小的真實(shí)值權(quán)重一樣,對(duì)于雷達(dá)回波數(shù)據(jù)則表現(xiàn)為對(duì)不同強(qiáng)度回波的權(quán)重一樣。對(duì)于雷達(dá)回波預(yù)測(cè)應(yīng)用而言,希望較大的回波值能夠具有更高的預(yù)測(cè)準(zhǔn)確率,為提升強(qiáng)回波預(yù)測(cè)能力,本文改進(jìn)了損失函數(shù),將損失函數(shù)構(gòu)造為原始MSE損失函數(shù)和加權(quán)重的MSE函數(shù)兩部分的組合,兩部分的系數(shù)各為0.5,對(duì)于加權(quán)重的MSE損失函數(shù),在利用均方差損失函數(shù)計(jì)算真實(shí)值與預(yù)測(cè)值差值基礎(chǔ)上增加回波真實(shí)值作為權(quán)重,強(qiáng)回波的值較大權(quán)重會(huì)更高,弱回波值較小則權(quán)重會(huì)更低,從而實(shí)現(xiàn)提升強(qiáng)回波預(yù)測(cè)準(zhǔn)確率的目標(biāo)。改進(jìn)后損失函數(shù)如式(6)所示,其中pred代表預(yù)測(cè)值集合,label代表實(shí)際觀測(cè)值集合,N代表系數(shù),改進(jìn)后損失函數(shù)在label值較大即觀測(cè)值為強(qiáng)回波時(shí)將產(chǎn)生更大影響,lossfunction為MSE函數(shù),計(jì)算公式如式(7)所示,其中yi代表實(shí)際觀測(cè)值集合label中的第i個(gè)真實(shí)觀測(cè)值,yip代表第i個(gè)觀測(cè)值在預(yù)測(cè)值集合pred中對(duì)應(yīng)的預(yù)測(cè)值?;诠?6)、(7)可推導(dǎo)得出公式(8),由公式(8)可見(jiàn),改進(jìn)后的損失函數(shù)增加了N2yi2作為真實(shí)值與預(yù)測(cè)值差值的權(quán)重系數(shù),當(dāng)預(yù)測(cè)值與真實(shí)值存在差異且真實(shí)觀測(cè)值較大時(shí),改進(jìn)后損失函數(shù)計(jì)算得出的數(shù)值較改進(jìn)前更大,因此能夠?qū)崿F(xiàn)增大強(qiáng)回波權(quán)重,提升強(qiáng)回波預(yù)測(cè)效果的目的。
loss=0.5*lossfunction(pred,label)+
0.5*lossfunction(N*label*label,N*pred*label)
(6)
(7)
(8)
氣象部門長(zhǎng)期存儲(chǔ)的主要是二進(jìn)制格式的雷達(dá)基數(shù)據(jù),該類數(shù)據(jù)無(wú)法直接用于深度學(xué)習(xí)訓(xùn)練,已有研究多采用基數(shù)據(jù)生成圖像文件方式作為輸入數(shù)據(jù),而單個(gè)圖像文件僅能保存1個(gè)仰角的觀測(cè)數(shù)據(jù)。天氣雷達(dá)是對(duì)一定空間范圍內(nèi)降水回波的觀測(cè),一個(gè)體掃包含多個(gè)仰角觀測(cè)數(shù)據(jù)。大氣流體運(yùn)動(dòng)變化過(guò)程是在三維空間中進(jìn)行,每個(gè)高度層均與其附近高度層有較強(qiáng)相關(guān)性[23]。在每個(gè)時(shí)刻輸入相鄰多個(gè)仰角觀測(cè)數(shù)據(jù)有助于解決單層雷達(dá)回波圖像外推局限性。數(shù)組是在程序設(shè)計(jì)中,為了處理方便,把具有相同數(shù)據(jù)類型的若干元素按有序的形式組織起來(lái)的一種數(shù)據(jù)組織方式,是用于儲(chǔ)存多個(gè)相同類型數(shù)據(jù)的集合。每個(gè)觀測(cè)時(shí)次,天氣雷達(dá)單個(gè)仰角對(duì)一定空間范圍的觀測(cè)數(shù)據(jù)可抽象為二維數(shù)組,多個(gè)仰角的雷達(dá)觀測(cè)數(shù)據(jù)可抽象為三維數(shù)組,npy文件是Python語(yǔ)言針對(duì)多維數(shù)組(Ndarray)的科學(xué)計(jì)算庫(kù)NumPy專用的二進(jìn)制文件格式,能夠保存任意維度的NumPy數(shù)組,可滿足存儲(chǔ)多仰角雷達(dá)觀測(cè)數(shù)據(jù)的需求,而且NumPy庫(kù)提供了save、load函數(shù)為便捷地將數(shù)組數(shù)據(jù)存儲(chǔ)到npy文件和從npy文件讀取數(shù)組內(nèi)容提供了有力支撐,因此,本文對(duì)深度學(xué)習(xí)模型的雷達(dá)輸入數(shù)據(jù)存儲(chǔ)格式進(jìn)行改進(jìn),將同一個(gè)觀測(cè)時(shí)次多個(gè)仰角的雷達(dá)反射率觀測(cè)數(shù)據(jù)定義為(n,x,y)形式的三維數(shù)組進(jìn)行存儲(chǔ),n代表觀測(cè)仰角個(gè)數(shù),x代表經(jīng)度方向的觀測(cè)數(shù)據(jù)點(diǎn)個(gè)數(shù),y代表緯度方向的觀測(cè)數(shù)據(jù)點(diǎn)個(gè)數(shù),并利用numpy庫(kù)的save函數(shù)將其存儲(chǔ)在同一個(gè)npy文件中,N個(gè)觀測(cè)時(shí)次的觀測(cè)數(shù)據(jù)轉(zhuǎn)化為N個(gè)npy文件存儲(chǔ),為后續(xù)實(shí)現(xiàn)多仰角輸入數(shù)據(jù)訓(xùn)練打下基礎(chǔ),實(shí)際訓(xùn)練時(shí)可按需靈活提取npy文件中的1個(gè)或多仰角的雷達(dá)觀測(cè)數(shù)據(jù)用于訓(xùn)練。
深度學(xué)習(xí)雷達(dá)數(shù)據(jù)集構(gòu)建主要包括雷達(dá)數(shù)據(jù)篩選、數(shù)據(jù)預(yù)處理、深度學(xué)習(xí)樣本組構(gòu)造三個(gè)步驟,流程如圖1所示。
圖1 雷達(dá)數(shù)據(jù)深度學(xué)習(xí)數(shù)據(jù)集構(gòu)建流程
雷達(dá)數(shù)據(jù)時(shí)段選取強(qiáng)對(duì)流大風(fēng)發(fā)生較多的5~9月。首先使用渤海西部有代表性的地面自動(dòng)氣象站、海上平臺(tái)站逐小時(shí)觀測(cè)資料,根據(jù)王亞男等[4]提出的指標(biāo)選取強(qiáng)對(duì)流天氣導(dǎo)致的雷暴大風(fēng)過(guò)程,然后依據(jù)大風(fēng)過(guò)程日期挑選雷達(dá)數(shù)據(jù)。強(qiáng)對(duì)流天氣導(dǎo)致雷暴大風(fēng)過(guò)程選取標(biāo)準(zhǔn)如下:
代表站瞬時(shí)風(fēng)速(或最大風(fēng)速)≥17 m/s,相應(yīng)海域出現(xiàn)雷電天氣(為消除系統(tǒng)性大風(fēng)過(guò)程,對(duì)于瞬時(shí)風(fēng)速(或最大風(fēng)速)≥17 m/s且持續(xù)時(shí)間大于3小時(shí)的過(guò)程予以去除)。當(dāng)多個(gè)觀測(cè)站在不超過(guò)12小時(shí)范圍內(nèi)先后監(jiān)測(cè)到雷雨大風(fēng)并受同一天氣系統(tǒng)影響時(shí),記為一次過(guò)程。
雷達(dá)基數(shù)據(jù)預(yù)處理包括數(shù)據(jù)解碼、坐標(biāo)轉(zhuǎn)換等步驟。CINRAD-SA型多普勒天氣雷達(dá)基數(shù)據(jù)文件為二進(jìn)制格式,存儲(chǔ)的數(shù)據(jù)采用極坐標(biāo)系,存儲(chǔ)內(nèi)容包括反射率、速度、譜寬等。數(shù)據(jù)解碼步驟負(fù)責(zé)按照雷達(dá)基數(shù)據(jù)文件格式,完成雷達(dá)觀測(cè)描述信息和反射率觀測(cè)數(shù)據(jù)的提取并按不同信息的數(shù)據(jù)類型完成格式轉(zhuǎn)換,坐標(biāo)轉(zhuǎn)換步驟首先建立極坐標(biāo)和經(jīng)緯度坐標(biāo)的對(duì)應(yīng)關(guān)系,然后將以極坐標(biāo)形式存儲(chǔ)的反射率等數(shù)據(jù),投影到經(jīng)緯度坐標(biāo)系,得到反射率數(shù)據(jù)的格點(diǎn)矩陣。坐標(biāo)轉(zhuǎn)換步驟中建立極坐標(biāo)和經(jīng)緯度坐標(biāo)對(duì)應(yīng)關(guān)系的過(guò)程如下:雷達(dá)觀測(cè)徑向剖面圖如圖2所示,∠φ代表雷達(dá)觀測(cè)仰角,d代表雷達(dá)站點(diǎn)與觀測(cè)位置的徑向距離。建立以地球中心為原點(diǎn)的三維直角坐標(biāo)系,雷達(dá)站點(diǎn)r的坐標(biāo)為(x1,y1,z1),雷達(dá)觀測(cè)任意點(diǎn)位置為p,其在地球表面投影為p’(x2,y2,z2),Δlon,Δlat為投影點(diǎn)與雷達(dá)站點(diǎn)的經(jīng)緯度差,觀測(cè)點(diǎn)p在地球表面投影p’坐標(biāo)利用式(9)計(jì)算得到。通過(guò)式(10),計(jì)算得到任意p’位置(lon,lat)的極坐標(biāo)值(∠A,∠φ,d),其中∠A,d通過(guò)計(jì)算得到,∠φ為已知值,∠A代表雷達(dá)觀測(cè)方位角。
圖2 雷達(dá)觀測(cè)徑向剖面圖
(9)
(10)
坐標(biāo)轉(zhuǎn)換后單個(gè)仰角的觀測(cè)數(shù)據(jù)為400*400的格點(diǎn)矩陣,直接用于訓(xùn)練計(jì)算開(kāi)銷較大,為提高處理效率,本研究對(duì)數(shù)據(jù)進(jìn)行了抽樣處理,提取以雷達(dá)站點(diǎn)為中心±2度經(jīng)緯度范圍的格點(diǎn)數(shù)據(jù),抽樣處理后單個(gè)仰角觀測(cè)數(shù)據(jù)的格點(diǎn)分辨率為100*100,數(shù)據(jù)量降低為抽樣前的1/16。
在特定環(huán)境下,雷達(dá)觀測(cè)受地物雜波、晴空回波等諸多因素影響,將產(chǎn)生非降水回波干擾。地物雜波已在雷達(dá)RPG中進(jìn)行了處理,為進(jìn)一步去除無(wú)效回波干擾,質(zhì)量控制方面,本研究主要通過(guò)去除10 dbz以下晴空回波以保障模型訓(xùn)練效果。
雷達(dá)數(shù)據(jù)因觀測(cè)設(shè)備故障、維護(hù)等原因存在缺測(cè),導(dǎo)致數(shù)據(jù)存在時(shí)間間隔不等的問(wèn)題,為去除時(shí)間不連續(xù)數(shù)據(jù),按以下步驟構(gòu)造觀測(cè)數(shù)據(jù)文件時(shí)間間隔相同的深度學(xué)習(xí)數(shù)據(jù)集:
1)針對(duì)預(yù)處理得到的文件生成其文件名、觀測(cè)時(shí)間索引信息。
2)利用索引信息,按照時(shí)間連續(xù)原則,篩選構(gòu)造深度學(xué)習(xí)樣本組。對(duì)符合時(shí)間連續(xù)性檢查的數(shù)據(jù)文件使用長(zhǎng)度為20的滑動(dòng)窗口以步長(zhǎng)為1進(jìn)行滑動(dòng)采樣,得到所有樣本組。每組樣本包含20個(gè)觀測(cè)時(shí)間連續(xù)的雷達(dá)數(shù)據(jù)文件{x1,x2,x3,…,x10,y1,y2,y3,…,y10},x1到x10為輸入數(shù)據(jù),對(duì)應(yīng)近一小時(shí)10個(gè)觀測(cè)時(shí)間的雷達(dá)回波,y1到y(tǒng)10為輸出數(shù)據(jù),代表下一小時(shí)10個(gè)觀測(cè)時(shí)間的雷達(dá)回波,每個(gè)文件時(shí)間間隔為6 min。
為驗(yàn)證本文方法有效性,利用Pytorch實(shí)現(xiàn)了深度學(xué)習(xí)模型,按照本研究方法,基于滄州雷達(dá)站2016~2019年5~9月觀測(cè)數(shù)據(jù),利用Python語(yǔ)言開(kāi)發(fā)軟件構(gòu)建了雷達(dá)數(shù)據(jù)深度學(xué)習(xí)數(shù)據(jù)集,構(gòu)建的訓(xùn)練集包含10 640個(gè)樣本,測(cè)試集包含2 000個(gè)樣本。激活函數(shù)是深度學(xué)習(xí)神經(jīng)網(wǎng)絡(luò)模型的重要組成部分,旨在使神經(jīng)網(wǎng)絡(luò)模型能更好地?cái)M合數(shù)據(jù)分布,輸出更準(zhǔn)確的結(jié)果,其選擇對(duì)神經(jīng)網(wǎng)絡(luò)性能、模型收斂速度有很大影響,本研究激活函數(shù)使用LeakyReLU.LeakyReLU是神經(jīng)網(wǎng)絡(luò)常用激活函數(shù)ReLU的變體。對(duì)于ReLU函數(shù),當(dāng)輸入x>0時(shí),輸出為x,當(dāng)輸入x≤0時(shí),輸出始終為0,導(dǎo)致神經(jīng)元不能更新。為了解決ReLU函數(shù)這一問(wèn)題,在ReLU函數(shù)的負(fù)半?yún)^(qū)引入一個(gè)非常小的常數(shù)leak,即當(dāng)x≤0時(shí),輸出為leak*x,使得輸入信息小于0時(shí),信息沒(méi)有被完全丟掉,仍有很小的梯度。由于導(dǎo)數(shù)總是不為零,能減少靜默神經(jīng)元的出現(xiàn),允許基于梯度的學(xué)習(xí),解決了ReLU函數(shù)進(jìn)入負(fù)區(qū)間后,導(dǎo)致神經(jīng)元不學(xué)習(xí)的問(wèn)題。訓(xùn)練過(guò)程采用反向傳播算法計(jì)算誤差,網(wǎng)絡(luò)參數(shù)利用Adam算法更新,Adam算法本質(zhì)上是帶有動(dòng)量項(xiàng)的RMSprop,它利用梯度的一階矩估計(jì)和二階矩估計(jì)動(dòng)態(tài)調(diào)整每個(gè)參數(shù)的學(xué)習(xí)率,該算法的優(yōu)點(diǎn)主要在于經(jīng)過(guò)偏置校正后,每一次迭代學(xué)習(xí)率都有確定的范圍,參數(shù)比較平穩(wěn),對(duì)內(nèi)存需求少,適用于大數(shù)據(jù)集和高維空間。學(xué)習(xí)率參數(shù)的設(shè)置很重要,學(xué)習(xí)率取值過(guò)小會(huì)使網(wǎng)絡(luò)收斂緩慢,過(guò)大則又會(huì)使訓(xùn)練易陷入局部最優(yōu)解。本研究通過(guò)引入動(dòng)量項(xiàng)加快網(wǎng)絡(luò)收斂速度,減少震蕩,使網(wǎng)絡(luò)訓(xùn)練不易陷入局部最優(yōu)解。損失函數(shù)采用原始MSE函數(shù)和帶權(quán)重的MSE函數(shù)組合的方式,詳見(jiàn)1.2節(jié),實(shí)驗(yàn)過(guò)程對(duì)比了N設(shè)置為2、3、4情況下和輸入數(shù)據(jù)為1個(gè)仰角、2個(gè)仰角時(shí)的模型預(yù)測(cè)效果,對(duì)比結(jié)果表明輸入為1個(gè)仰角、N=2時(shí)預(yù)測(cè)效果最優(yōu),最終選定的損失函數(shù)參見(jiàn)式(11)。其他訓(xùn)練參數(shù)如表1所示,初始學(xué)習(xí)率采用0.000 1,模型的訓(xùn)練采用批訓(xùn)練方式,batch_size設(shè)置為20。訓(xùn)練采用早停策略(Early Stop)方式停止以避免過(guò)擬合。最大迭代次數(shù)設(shè)置為400次,當(dāng)10次循環(huán)迭代后訓(xùn)練集精度提高不超過(guò)0.000 1,則訓(xùn)練結(jié)束。訓(xùn)練完成后,模型能夠根據(jù)雷達(dá)近1小時(shí)10個(gè)觀測(cè)時(shí)次的回波數(shù)據(jù)作為輸入,預(yù)測(cè)出未來(lái)1小時(shí)10個(gè)時(shí)次的雷達(dá)回波數(shù)據(jù)。
表1 雷達(dá)數(shù)據(jù)深度學(xué)習(xí)訓(xùn)練參數(shù)
loss=0.5*lossfunction(pred,label)+
0.5*lossfunction(2*label*label,2*pred*label)
(11)
采用分閾值評(píng)估方式對(duì)測(cè)試集進(jìn)行檢驗(yàn),閾值分別選取15、20、30、40 dbz,預(yù)測(cè)時(shí)長(zhǎng)包括0.5 h和1 h,預(yù)報(bào)時(shí)間間隔為6 min,評(píng)價(jià)指標(biāo)采用氣象領(lǐng)域常用指標(biāo)臨界成功指數(shù)(CSI)、命中率(POD)和虛警率(FAR)。通過(guò)逐點(diǎn)對(duì)比預(yù)測(cè)值與觀測(cè)值,得出各預(yù)測(cè)點(diǎn)所屬分類(分類標(biāo)準(zhǔn)參見(jiàn)表2),進(jìn)而計(jì)算得出評(píng)估指標(biāo)。a、b、c分別代表預(yù)測(cè)數(shù)據(jù)命中數(shù)、空?qǐng)?bào)數(shù)和漏報(bào)數(shù),評(píng)估指標(biāo)公式如式(12)~(14):
表2 雷達(dá)回波像素點(diǎn)分類標(biāo)準(zhǔn)
(12)
(13)
(14)
表3對(duì)比了原模型和本文改進(jìn)模型對(duì)于測(cè)試集在15、20、30、40 dBz共4個(gè)反射率閾值0.5 h和1 h的預(yù)測(cè)結(jié)果。由表3可知,本文改進(jìn)模型在4個(gè)閾值的CSI、POD指標(biāo)均明顯優(yōu)于改進(jìn)前,F(xiàn)AR指標(biāo)在閾值較小時(shí)略有增長(zhǎng),但在閾值較高時(shí)優(yōu)于改進(jìn)前。
表3 模型改進(jìn)前后在測(cè)試集檢驗(yàn)指標(biāo)
POD指標(biāo)方面,閾值為30 dbz及以下時(shí),0.5 h、1 h的預(yù)測(cè)較改進(jìn)前分別提高了9%~17%和13%~17%;閾值為40 dbz時(shí),0.5 h、1 h的預(yù)測(cè)分別提高了8%和2%。CSI指標(biāo)方面,閾值為30 dbz及以下時(shí),0.5 h、1 h的預(yù)測(cè)較改進(jìn)前分別提高了4%~12%和7%~10%;閾值為40 dbz時(shí),0.5 h、1 h的預(yù)測(cè)較改進(jìn)前分別提高了6%和1%。FAR指標(biāo)方面,0.5 h的預(yù)測(cè)較改進(jìn)前略有增長(zhǎng),1 h的預(yù)測(cè)在30、40 dbz較改進(jìn)前降低。0.5 h的預(yù)測(cè)在閾值為30 dbz及以下時(shí),較改進(jìn)前增幅不超過(guò)6%,閾值為40 dbz的預(yù)測(cè)和改進(jìn)前相當(dāng);1 h的預(yù)測(cè)在閾值為20 dbz及以下時(shí),較改進(jìn)前增幅不超過(guò)4%,在閾值為30、40 dbz時(shí)的預(yù)測(cè)較改進(jìn)前分別降低1%和13%,優(yōu)于改進(jìn)前。
文獻(xiàn)[21]研究表明,產(chǎn)生雷暴大風(fēng)的回波主要為弓形回波、帶狀回波和塊狀回波,其中帶狀回波是產(chǎn)生雷暴大風(fēng)的主要回波。為更直觀分析預(yù)測(cè)效果,從測(cè)試集和非測(cè)試集共選取2019年7月29日、2020年05月21日、2022年06月12日3組發(fā)生強(qiáng)對(duì)流大風(fēng)的個(gè)例日期進(jìn)行雷達(dá)回波外推分析,通過(guò)回波圖像和預(yù)測(cè)指標(biāo)兩方面對(duì)比原始ConvLSTM模型和本文改進(jìn)模型未來(lái)1 h雷達(dá)回波預(yù)測(cè)效果,對(duì)比圖形包括四行,每行圖像之間的時(shí)間間隔為6分鐘,第一行為輸入的近1小時(shí)雷達(dá)觀測(cè)真實(shí)回波圖像,第二行為未來(lái)1小時(shí)雷達(dá)實(shí)際觀測(cè)的真實(shí)回波圖像,第三、四行分別為原始ConvLSTM模型和改進(jìn)模型基于第一行真實(shí)雷達(dá)觀測(cè)預(yù)測(cè)的未來(lái)1小時(shí)雷達(dá)回波圖像。
圖3為測(cè)試集2019年07月29日09點(diǎn)06分到10點(diǎn)00分雷達(dá)回波個(gè)例預(yù)測(cè)效果對(duì)比,該個(gè)例是一次強(qiáng)帶狀回波引發(fā)的海上大風(fēng)過(guò)程。帶狀回波通常是由多個(gè)對(duì)流回波單體相連排列成帶狀的回波,回波長(zhǎng)度遠(yuǎn)大于回波寬度,有強(qiáng)回波時(shí),傳播方向與回波帶垂直[22]。由圖3可見(jiàn),未來(lái)1 h的真實(shí)回波圖像中在右下方一直存在一條形態(tài)較為明顯、強(qiáng)度較高的帶狀回波,原始模型的預(yù)測(cè),尤其在35 min之后的預(yù)測(cè),對(duì)于帶狀回波的覆蓋區(qū)域、強(qiáng)度方面均與實(shí)況有較大差異,而改進(jìn)后模型預(yù)測(cè)的回波圖像則整體上與觀測(cè)實(shí)況更為相似,而且對(duì)帶狀強(qiáng)回波的預(yù)測(cè)效果有更為明顯的提升,能較準(zhǔn)確地預(yù)測(cè)出右下角帶狀回波形態(tài)、強(qiáng)度和移動(dòng)位置,尤其是后30分鐘的預(yù)測(cè)效果相比原始模型改進(jìn)更為明顯,較改進(jìn)前更完整、清晰地預(yù)測(cè)了強(qiáng)回波形態(tài)、強(qiáng)度。該個(gè)例在閾值為30 dbz時(shí),0.5 h、1 h的預(yù)測(cè)命中率分別為73%和62%,較改進(jìn)前分別提升29%、32%;閾值為40 dbz時(shí),0.5 h、1 h的預(yù)測(cè)命中率分別為37%和17%,較改進(jìn)前分別提升36%、17%,虛警率皆低于改進(jìn)前。不過(guò)也應(yīng)注意到,改進(jìn)后模型雖然在回波細(xì)節(jié)預(yù)測(cè)上優(yōu)于改進(jìn)前,但與觀測(cè)實(shí)況仍有一定差距,而且預(yù)測(cè)細(xì)節(jié)與實(shí)際圖像的差異隨著預(yù)測(cè)時(shí)間的變長(zhǎng)逐漸加大,外推時(shí)間越長(zhǎng),細(xì)節(jié)丟失也越來(lái)越多。
圖4展示了非測(cè)試集個(gè)例2020年05月21日07點(diǎn)00分到07點(diǎn)54分雷達(dá)回波預(yù)測(cè)效果對(duì)比情況,該個(gè)例是一次小弓形回波引發(fā)的海上大風(fēng)過(guò)程。弓形回波是指快速移動(dòng)的向著運(yùn)動(dòng)方向凸起的,形如弓的強(qiáng)對(duì)流回波。弓形回波的空間尺度大小不一,小的弓形回波長(zhǎng)度僅幾十公里,有的可達(dá)上百公里.弓形回波是由后側(cè)強(qiáng)烈的下沉氣流造成的。顯著弓形回波在低層反射率因子圖上除了形如弓形外,弓形回波前沿存在高的反射率因子梯度,在較強(qiáng)回波帶后側(cè)有弱回波通道或者后側(cè)入流缺口[21-22]。由圖4中未來(lái)1 h的真實(shí)回波可見(jiàn),圖像上方持續(xù)存在一小弓形回波,并逐漸自左向右移動(dòng),改進(jìn)后模型對(duì)回波整體形態(tài)預(yù)測(cè)更為準(zhǔn)確,對(duì)于圖像上部的回波強(qiáng)度、形態(tài)和移動(dòng)趨勢(shì)預(yù)測(cè)效果更優(yōu),能夠更為明顯地呈現(xiàn)出小弓形回波的形態(tài)特征和強(qiáng)度。該個(gè)例在閾值為30 dbz時(shí),0.5 h、1 h的預(yù)測(cè)命中率分別為41%和29%,較改進(jìn)前分別提升13%、11%;閾值為40 dbz時(shí),0.5 h、1 h的預(yù)測(cè)命中率分別為27%和18%,較改進(jìn)前分別提升15%、13%,虛警率皆低于改進(jìn)前。
圖4 模型改進(jìn)前后2020年05月21日07點(diǎn)00分至07點(diǎn)54分預(yù)測(cè)效果對(duì)比
圖5為非測(cè)試集個(gè)例2022年06月12日15點(diǎn)00分至15點(diǎn)54分雷達(dá)回波預(yù)測(cè)效果對(duì)比,該個(gè)例在未來(lái)1 h的真實(shí)雷達(dá)回波中存在兩個(gè)小帶狀回波。由圖5中可見(jiàn),未來(lái)1 h的真實(shí)雷達(dá)回波中左側(cè)帶狀回波形態(tài)較為穩(wěn)定,且維持了較高的強(qiáng)度,右側(cè)的帶狀回波則逐漸變?nèi)?、消散,原始模型預(yù)測(cè)左側(cè)帶狀回波逐漸消散、右側(cè)回波維持,而改進(jìn)后模型則較準(zhǔn)確地預(yù)測(cè)了未來(lái)1 h左下角回波一直保持較高強(qiáng)度、右下角回波逐漸減弱的變化趨勢(shì),與實(shí)況更為一致。該個(gè)例在閾值為30 dbz時(shí),0.5 h、1 h的預(yù)測(cè)命中率分別為76%和73%,較改進(jìn)前分別提升18%、36%;閾值為40 dbz時(shí),0.5 h、1 h的預(yù)測(cè)命中率分別為30%和14%,較改進(jìn)前皆提升6%,0.5 h預(yù)測(cè)的虛警率與改進(jìn)前相當(dāng),1 h預(yù)測(cè)的虛警率較改進(jìn)前分別降低18%、19%。
圖5 模型改進(jìn)前后2022年06月12日15點(diǎn)00分至15點(diǎn)54分預(yù)測(cè)效果對(duì)比
本文基于深度學(xué)習(xí)模型ConvLSTM,提出了從輸入數(shù)據(jù)格式和損失函數(shù)兩方面改進(jìn)的雷達(dá)回波外推模型構(gòu)建思路,通過(guò)滄州雷達(dá)觀測(cè)站4年的歷史數(shù)據(jù)對(duì)模型進(jìn)行訓(xùn)練得到了可利用近1 h雷達(dá)觀測(cè)數(shù)據(jù)預(yù)測(cè)未來(lái)1 h雷達(dá)回波的模型。測(cè)試集和非測(cè)試集典型個(gè)例檢驗(yàn)結(jié)果表明,改進(jìn)模型對(duì)于強(qiáng)回波的預(yù)測(cè)能力明顯提升,預(yù)測(cè)的雷達(dá)強(qiáng)回波形態(tài)、強(qiáng)度、位置相比改進(jìn)前與實(shí)況具有更高的相似性,能夠?yàn)榕R近預(yù)報(bào)提供一定的參考。但改進(jìn)模型在回波強(qiáng)度最大值、形態(tài)細(xì)節(jié)等方面的預(yù)測(cè)結(jié)果距離雷達(dá)真實(shí)觀測(cè)仍有一定差距,同時(shí),隨著預(yù)測(cè)時(shí)間的增長(zhǎng),預(yù)測(cè)值與真實(shí)觀測(cè)值的差異也逐漸加大,而且在外推預(yù)報(bào)的雷達(dá)數(shù)據(jù)產(chǎn)品方面,本研究?jī)H探索了對(duì)反射率因子數(shù)據(jù)的預(yù)測(cè),對(duì)于雷達(dá)觀測(cè)數(shù)據(jù)中對(duì)大風(fēng)預(yù)報(bào)也有較好指示意義的徑向速度數(shù)據(jù)的預(yù)測(cè)尚未涉及。訓(xùn)練數(shù)據(jù)的質(zhì)量和用于預(yù)測(cè)的模型均會(huì)對(duì)預(yù)測(cè)效果的提升產(chǎn)生影響,更豐富的預(yù)報(bào)產(chǎn)品也將為預(yù)報(bào)能力提升提供更好支撐,因此,下一步將繼續(xù)開(kāi)展基于更豐富和更高質(zhì)量訓(xùn)練數(shù)據(jù)、增加注意力機(jī)制的深度學(xué)習(xí)模型以及關(guān)于雷達(dá)徑向速度觀測(cè)數(shù)據(jù)產(chǎn)品預(yù)測(cè)等方面的研究,進(jìn)一步優(yōu)化預(yù)測(cè)模型設(shè)計(jì),豐富預(yù)測(cè)產(chǎn)品種類,提升預(yù)測(cè)效果,以便為大風(fēng)臨近預(yù)報(bào)提供更好支撐。