王志斌,肖艷姣,王 玨,吳 濤
(1.中國氣象局武漢暴雨研究所,暴雨監(jiān)測預(yù)警湖北省重點實驗室,湖北武漢 430205;2.武漢中心氣象臺,湖北武漢 430074)
雷電是世界上十大自然災(zāi)害之一,隨社會的進(jìn)步其危害程度加大,每年都有因雷擊造成的人身傷亡和火災(zāi)事故發(fā)生。國內(nèi)外在雷暴的起電物理過程、電荷分布及與強對流天氣的關(guān)系、災(zāi)害評估等方面進(jìn)行了較多研究[1-8]。雷電發(fā)生的理論也取一定的成果,但起電放電機制還非常不明確,因此雷電的臨近預(yù)報存在著相當(dāng)?shù)碾y度,但有些學(xué)者通過研究發(fā)現(xiàn)天氣雷達(dá)反射率因子的強度和雷電發(fā)生有一定聯(lián)系,單體中如能產(chǎn)生雷電,單體反射率因子強度大于40 dBZ,頂高必須高于7 km,如國外學(xué)者Brandon等認(rèn)為,用負(fù)10℃層高度位置的反射率因子其值大于35 dBZ作為預(yù)測初始雷電,其命中率幾乎可達(dá)100%,但綜合考慮FAR(虛警率)和CSI(成功指數(shù)),則用負(fù)10℃層高度處40 dBz反射率因子強度作為預(yù)測初次雷電發(fā)生的最佳預(yù)測因子更佳。國內(nèi)學(xué)者李南等[9]利用閃電及雷電與雷達(dá)回波也進(jìn)行研究,發(fā)現(xiàn)閃電發(fā)生的數(shù)目和回波頂高有較好的關(guān)系。國內(nèi)外雷電的臨近預(yù)報技術(shù)采用資料主要是閃電定位系統(tǒng)、雷達(dá)回波等,近年來還加入了衛(wèi)星資料,利用數(shù)值預(yù)報產(chǎn)品做雷電的潛勢預(yù)報也非常流行。中國香港天文臺發(fā)展了名為ATLAS(AirportThunder?storm and Lightning Alerting System)的香港國際機場(HKIA)雷電臨近預(yù)報系統(tǒng)(Li et al,2008)[10],主要由監(jiān)測與預(yù)報兩個模塊構(gòu)成。當(dāng)ATLAS監(jiān)測或預(yù)報到機場有云地(CG)閃電發(fā)生,會自動產(chǎn)生紅色和黃色警報。該系統(tǒng)把閃電定位信息系統(tǒng)監(jiān)測到的雷電群用橢圓擬合,利用多普勒天氣雷達(dá)TREC技術(shù)得到風(fēng)矢量進(jìn)行雷電群的臨近外推,而預(yù)警結(jié)果則分別由權(quán)重集合WE(Weighted Ensemble)和時間延遲集合TLE(Time Lagged Ensemble)算法生成。在國內(nèi)雷電預(yù)警方面開發(fā)的雷電臨近預(yù)警系統(tǒng)LNWS(Lightning Nowcasting and Warning System)(呂偉濤等,2009)[11],該系統(tǒng)能夠綜合利用雷達(dá)、衛(wèi)星、閃電監(jiān)測系統(tǒng)、地面電場儀和探空儀等資料,結(jié)合區(qū)域識別、跟蹤和外推算法與決策樹算法,自動生成雷電活動潛勢預(yù)報和雷電臨近預(yù)警;最近,Zhou K H[12-13]利用深度學(xué)習(xí),命名了一個為LightningNet的網(wǎng)絡(luò),結(jié)合多元資料對閃電進(jìn)行預(yù)測。由于天氣雷達(dá)資料時空分辨率高,且對雷電的預(yù)警有幫助,因此把閃電定位資料和雷達(dá)資料是預(yù)警有效的手段之一。雷電生消和移動預(yù)報非常困難,天氣雷達(dá)可以有效的從三維反射率因子場中定位風(fēng)暴,且能夠較好地追蹤和識別風(fēng)暴生消和移動。由于雷電產(chǎn)生于風(fēng)暴中,所以本文是試圖把基于雷達(dá)三維拼圖和雷電的未來移動結(jié)合起來,從而達(dá)到對雷電的臨近預(yù)警。雷電監(jiān)測中主要依賴于閃電定位儀,但它容易受周圍電磁環(huán)境的影響,產(chǎn)生虛假的雷電信息,因此利用雷達(dá)資料可以對它進(jìn)行必要的質(zhì)量控制。同時可以用三維的雷達(dá)資料結(jié)合常規(guī)的探空資料進(jìn)行閃電的識別,更重要的是可以通過雷達(dá)三維拼圖的資料利用改進(jìn)的變分光流方法進(jìn)行外推預(yù)報。本文利用三維雷達(dá)資料結(jié)合探空資料,設(shè)計出多層的卷積神經(jīng)網(wǎng)絡(luò),在網(wǎng)絡(luò)的尾端輸入探空信息,并在網(wǎng)絡(luò)的末端增加了SVM分類器,這樣可以適當(dāng)提高雷電的識別率。由于產(chǎn)生雷電正負(fù)樣本的不平衡,我們使用SMOTE方法進(jìn)行樣本的擴充,使得雷電的正負(fù)樣本達(dá)到平衡,實驗表明,用三維雷達(dá)資料和探空資料,雷電的識別率為76.4%,利用外推的三維雷達(dá)資料進(jìn)行閃電的預(yù)報0-30分鐘的準(zhǔn)確率達(dá)54.0%,對業(yè)務(wù)應(yīng)用有一定的實用性。
資料使用的是武漢2016-2017的有雷電過程的資料,對武漢雷達(dá)資料進(jìn)行三維格點化處理,垂直方向21層,水平格距為0.01度,資料范圍以武漢雷達(dá)為中心距離100 km。
在形成三維格點場數(shù)據(jù)之前,需要使用模糊邏輯方法對各單部雷達(dá)的數(shù)據(jù)進(jìn)行質(zhì)量控制,本文利用吳濤[14]的方法進(jìn)行。在完成各單站雷達(dá)質(zhì)量后,采用了肖艷姣[15]三維拼圖方法完成坐標(biāo)格式的變換。對各單雷達(dá)數(shù)據(jù)質(zhì)量控制完成,個別雷達(dá)數(shù)據(jù)質(zhì)量仍有質(zhì)量問題存在,還需要利用了多點平滑對整場進(jìn)行處理。通過上述各種方法計算出的格點風(fēng)場仍有奇異的地方,需要進(jìn)一步修正。如某一格點在速度和方向上超過某些閥值,此值也給予修正,用周圍平均值進(jìn)行替換。
對200 km范圍內(nèi)的三維雷達(dá)資料進(jìn)行細(xì)分,以格距為5*5的方框為識別單位。根據(jù)識別單位標(biāo)記有/無閃電信息。并行了質(zhì)量控制,以閃電密度為衡量標(biāo)準(zhǔn),剔除一些可能虛假的閃電信息,如有閃電而沒有回波,以及閃電密度達(dá)不到要求的格點都認(rèn)為沒有雷電發(fā)生。樣本里只保留了有組合反射率大于35 DBZ的標(biāo)記單位,對小于35 DBZ的樣本進(jìn)行剔除。
基于欠采樣的抽樣處理:在統(tǒng)計的總的樣例中,有雷電的5 888次,無雷電的有210 612次,比例1:35,顯然把這兩種資料同時放入CNN中進(jìn)行學(xué)習(xí)是不合適的。因此每次把5 888正樣例進(jìn)行放回抽樣,在210 612次反樣例中抽取同樣的5 888個樣例組成1:1的比例的樣例進(jìn)行計算,其中反樣例每次抽取是不同批次的數(shù)據(jù)。
利用SMOTE方法進(jìn)行樣例擴充:SMOTE是改進(jìn)了的采用隨機過采樣進(jìn)行計算的方法,SMOTE算法是分析少數(shù)類樣本特點,并根據(jù)其特點合成新樣本加到原數(shù)據(jù)集中,其方法,步驟為:
(1)選取有雷電樣本L,以距離為標(biāo)準(zhǔn)(這里才用歐氏距離)計算它到有其它有雷電樣例樣本集中的距離,獲得k近鄰。
(2)根據(jù)有無雷電的樣本比例確定采樣倍率N(這里為35),對于每個有雷電類樣本,從其k近鄰中隨機選擇若干個樣本,假設(shè)選擇的近鄰為X。
(3)對于每一個隨機選出的近鄰Xi,按照如下的公式進(jìn)行計算構(gòu)建新的樣本。雷電新樣本=L+rand(0,1)*|L?X|,Rand(0,1)為產(chǎn)生的0到1之間的隨機數(shù),樣本取完否,否:轉(zhuǎn)A步,是:則完成所有樣本選取。
把常用HS和LK兩種方法結(jié)合[16],給出的光流的能量函數(shù)如式(1):
其中Δ2u,Δ2v為下面高階的拉普拉斯算子。
雷電預(yù)測的有/無是一個二分類問題,利用SVM[17]可以有效地處理這些問題。它最初于20世紀(jì)90年代由Vapnik提出,在氣象等領(lǐng)域獲得了廣泛的應(yīng)用。在我們設(shè)計的卷積神經(jīng)網(wǎng)絡(luò)的第2個全連接層共有500個特征向量,利用這些特征向量再使用SVM進(jìn)行分類。它是利用非線性映射將輸入特征映射到高維特征空間,在高維特征空間中構(gòu)造線性分類,最后求解對偶問題實現(xiàn)決策函數(shù)。
SVM算法為:
設(shè)集合T={(x1,y1),…,(xn,yn)}∈(X,Y),n為訓(xùn)練個數(shù),其中xi∈X=Rn,yi∈Y∈{1,-1},i=1,2,…,n
(1)選擇核函數(shù)K和懲罰參數(shù)C,構(gòu)造勢能函數(shù),并求解。
(2)選擇α*的一個分量并據(jù)此計算
圖1 CNN+SVM網(wǎng)絡(luò)結(jié)構(gòu)Fig.1 CNN+SVM network structure
網(wǎng)絡(luò)[18-22]由3個卷積層,兩個池化層,2個全連接層,并在第一個全連接層加入了合并層,尾端加入了支持向量機分類器組成。支持向量機用于CNN產(chǎn)生的特征向量以及探空數(shù)據(jù)的學(xué)習(xí),最后產(chǎn)生2分類問題,在網(wǎng)絡(luò)結(jié)構(gòu)中利用全連接層的輸出信息作為SVM的輸入,整個卷積網(wǎng)絡(luò)和SVM一起進(jìn)行訓(xùn)練。
雷達(dá)數(shù)據(jù)輸入由5*5水平格點及21高度層組成,探空數(shù)據(jù)由加密資料組成。包含高度,溫度,風(fēng)向,風(fēng)速,露點溫度等信息。
實驗平臺為1臺高性能服務(wù)器,有2個CPU共8核,共有16個CPU數(shù),GPU英偉達(dá)(NVIDIA)Ge?Force RTX 2080Ti一塊,操作系統(tǒng)采用Centos 7.4。其上部署有Tensorflow和sklearn軟件。
我們利用5 888個正樣例,把反樣例分為35份,每份都和正樣例數(shù)據(jù)相等,分別訓(xùn)練由CNN組成的網(wǎng)絡(luò)和由CNN及SVM組成的混合網(wǎng)絡(luò)。得到每個批次網(wǎng)絡(luò)訓(xùn)練的最佳值見表1和圖2。比較兩者網(wǎng)絡(luò)的準(zhǔn)確率(預(yù)報正確的樣例/總樣例數(shù)和3.3的POD含義相同),發(fā)現(xiàn)混合網(wǎng)略比CNN好,CNN網(wǎng)絡(luò)準(zhǔn)確率平均值為73.8%,CNN+SVM均值為74.7%,高出近1個百分點,CNN網(wǎng)絡(luò)準(zhǔn)確率在71.4%-74.64%之間變化,CNN+SVM網(wǎng)絡(luò)72.30-76.44%之間變化,說明樣本基本上是獨立同分布的。抽取其中第16個批次的CNN計算結(jié)果進(jìn)行分析,學(xué)習(xí)率為0.000 5,損失函數(shù)采用交叉墑,每次學(xué)習(xí)為200個樣例,其中學(xué)習(xí)樣例和測試樣例的比為5:1,隨著樣本的不斷增加,準(zhǔn)確率不斷上升,準(zhǔn)確率從64.5%到74.5%之間變化,見圖3,在網(wǎng)絡(luò)訓(xùn)練過程中有5和21兩個批次準(zhǔn)確率有5%的波動,其它批次很穩(wěn)定。
圖2 CNN和CNN+SVM批次準(zhǔn)確率Fig.2 Batch accuracy of CNN and CNN+SVM
圖3 CNN第16批次準(zhǔn)確率Fig.3 Accuracy of CNN 16th batch
表1 CNN和CNN+SVM批次準(zhǔn)確率Table 1 Batch accuracy of CNN and CNN+SVM
我們把5 888個正樣例用,使用合成少數(shù)類過采樣技術(shù)SMOTE(Synthetic Minority Over?sampling Tech?nique),把正樣例擴充到210 612個,使其與反樣例相等。同樣和欠采樣一樣分兩種情況訓(xùn)練,同樣采用學(xué)習(xí)率為0.000 5,損失函數(shù)采用交叉墑,每次學(xué)習(xí)為6 000個樣例,其中學(xué)習(xí)樣例和測試樣例的比為5:1,共需要35個批次學(xué)習(xí)完成,CNN準(zhǔn)確率從71.0%到76.6%之間變化,平均準(zhǔn)確在73.5%,CNN+SVM準(zhǔn)確率在70.2%-80.2%之間變化,平均在76.4%,SVM+CNN的平均準(zhǔn)確率比CNN高3%,說明利用CNN并加入SVM的結(jié)果比CNN效果好。結(jié)果見圖4。
圖4 CNN和CNN+SVM學(xué)習(xí)批次準(zhǔn)確率Fig.4 Accuracy of learning batch of CNN and cnn+svm
對比欠采樣和SMOTE方法,總體SMOTE比欠采樣略好,以SMOTE方法中的CNN+SVM最好,但兩者才別不大,說明SMOTE方法對基于雷達(dá)反射率因子及探空資料是可用。
利用雷達(dá)三維拼圖資料,采用改進(jìn)的光流方法和半拉格朗日方法對三維拼圖資料進(jìn)行外推預(yù)報,在此基礎(chǔ)上進(jìn)行水平方向5*5的單元格劃分,垂直方向21層,同時加入探空資料輸入到網(wǎng)絡(luò)中,使用SMOTE方法訓(xùn)練好的參數(shù)進(jìn)行計算,用一個例進(jìn)行了預(yù)報,2018年5月18日午后江漢平原至鄂東北先后經(jīng)歷了一次強雷電天氣過程見圖5,雷電為有組織性的線狀風(fēng)暴產(chǎn)生,分布范圍廣,正負(fù)地閃均有出現(xiàn),密度大。評分方法采用氣象上常用3種評價指標(biāo)進(jìn)行評估,時間范圍為北京10~12時,分別是擊中率、虛警率、臨界成功指數(shù),分別用POD,F(xiàn)AR,CSI代表,評估結(jié)果見表2。并和中國氣象科學(xué)研究院開發(fā)的雷電臨近預(yù)警系統(tǒng)(CAMS_LNWS)[14]進(jìn)行了比較,其中POD在2個時段都比CAMS_LNWS高,F(xiàn)AR也比CAMS_LNWS低,CSI相當(dāng),結(jié)果見表3。
圖5 2018年5月18日06-12時湖北中東部雷電分及雷達(dá)布圖(左為雷電,右為雷達(dá)加雷電預(yù)報)Fig.5 Lightning and radar layout in central and Eastern Hubei from 06:00 to 12:00 on May 18,2018(Lightning on the left,radar and lightning forecast on the right)
表2 0-30和30-60 min預(yù)報指標(biāo)Table 2 0-30 and 30-60 minute forecast
表3 CAMS_LNWS系統(tǒng)0-30和30-60 min預(yù)報指標(biāo)Table 3 CAMS_LNWS system 0-30 and 30-60 minute forecast
由評估結(jié)果可知,雷電預(yù)報0-30 minPOD、CSI比30-60 min準(zhǔn)確率高,其中0-30 min的擊中率達(dá)到54%,和CAMS_LNWS系統(tǒng)比較都有一定程度的提高,具有較好的適應(yīng)性。但和實況監(jiān)測比預(yù)報有較大的下降,并隨時間延遲變化更大。
通過設(shè)計CNN網(wǎng)絡(luò),并在尾端加入SVM分類器,可以適當(dāng)提高分類效果,同時設(shè)計了2種樣本提取方法,用SMOTE方法能有效緩解了樣本不平衡問題。
(1)使用SMOTE方法略好于欠采樣方法,但兩者才別不大,說明樣本選取的是獨立同分布的。
(2)CNN+SVM準(zhǔn)確率在平均在76.4%,0-30分鐘擊中率0.54,成功指數(shù)為0.21;30-60分鐘擊中率0.35,成功指數(shù)為0.17,和傳統(tǒng)方法進(jìn)行比較有一定提高,可以進(jìn)行業(yè)務(wù)應(yīng)用。
(3)隨預(yù)報時間的延長,POD和CSI都有顯著下降,這和反射率因子外推不能反映系統(tǒng)演變有較大關(guān)系,為此我們將進(jìn)一步優(yōu)化網(wǎng)絡(luò)設(shè)計,運用深度學(xué)習(xí)進(jìn)行反射率因子預(yù)報。