池欽,趙興旺,陳健
(安徽理工大學(xué) 空間信息與測繪工程學(xué)院,安徽 淮南 232001)
大氣可降水量(PWV)是監(jiān)控氣候變化的重要一環(huán).以全球衛(wèi)星導(dǎo)航系統(tǒng)(GNSS)技術(shù)為代表的水汽反演PWV 方法在時間、空間、速度上占有優(yōu)勢,在氣象學(xué)領(lǐng)域中逐漸發(fā)揮作用[1].而降雨情況與PWV 的動態(tài)特征變化關(guān)系,讓不少學(xué)者開始利用機(jī)器學(xué)習(xí)模型對降雨進(jìn)行預(yù)報.
降雨預(yù)報模型包括降雨信息錄入和氣象參數(shù)因子獲取、測試訓(xùn)練集規(guī)劃確定、降雨預(yù)報模型的選擇、模型參數(shù)的確定、降雨模型訓(xùn)練和建模結(jié)果分析等步驟[2].在獲取準(zhǔn)確的降雨信息和氣象參數(shù)因子等關(guān)鍵數(shù)據(jù)后,模型的選擇問題是影響降雨預(yù)報結(jié)果的一個重要因素.適用的預(yù)報模型能夠模擬降雨與氣象參數(shù)因子的數(shù)據(jù)關(guān)系,利用線性或非線性函數(shù)構(gòu)建兩者之間的聯(lián)系,這種方法不需要再深入了解降雨發(fā)生背后的物理規(guī)律,只需要通過挖掘歷史數(shù)據(jù)(氣象參數(shù)、降水信息等)的變化規(guī)律[3].
機(jī)器學(xué)習(xí)模型在降雨預(yù)報中表現(xiàn)出了良好的效果[4-5].LIU 等[6]基于一種新的空間框架,將改進(jìn)的K近鄰(KNN)算法在遙感影像上分析了強(qiáng)降雨下影像的范圍.HUANG 等[7]利用改進(jìn)的KNN,在降雨數(shù)據(jù)分布不均勻的情況下,在降雨預(yù)報中取得了不錯的效果.BOJANG 等[8]將奇異譜分析與最小二乘支持向量機(jī)和隨機(jī)森林(RF)結(jié)合,可用于月降雨量的研究.SHI 等[9]利用長短期記憶神經(jīng)網(wǎng)絡(luò)(LSTM)模型引入衛(wèi)星遙感云圖以時間序列建立降雨預(yù)報模型,也取得不錯的效果.然而,這些研究主要把機(jī)器學(xué)習(xí)算法應(yīng)用在遙感影像和雷達(dá)圖像.因此,另一批學(xué)者在GNSS PWV 與機(jī)器學(xué)習(xí)的融合應(yīng)用上進(jìn)行探索,嘗試?yán)肎NSS 解算出來的天頂對流層延遲(ZTD)通過機(jī)器學(xué)習(xí)算法建立降雨預(yù)報模型.周永江等[10]利用BP 神經(jīng)網(wǎng)絡(luò)融合氣象參數(shù)、PWV 和PM2.5 數(shù)據(jù)建立時間序列和回歸的霧霾預(yù)測模型,時效性達(dá)到3 h.劉洋等[11]利用反向傳播神經(jīng)網(wǎng)絡(luò)結(jié)合多種氣象參數(shù)和PWV 進(jìn)行短臨降雨預(yù)報,比BP 神經(jīng)網(wǎng)絡(luò)擁有更好的性能,趙慶志等[12]利用最小二乘支持向量機(jī)(SVM)對短臨降雨進(jìn)行預(yù)測,相對傳統(tǒng)降雨預(yù)測算法具有顯著提升.
為了驗證機(jī)器學(xué)習(xí)算法在降雨預(yù)報中的可靠性能,本文在上述研究的基礎(chǔ)上,以幾種典型機(jī)器學(xué)習(xí)算法構(gòu)建短臨降雨預(yù)報模型,融合PWV 和氣象參數(shù)數(shù)據(jù),定量分析和比較這些機(jī)器學(xué)習(xí)算法在相同背景下的降雨預(yù)測性能,研究和評價模型的可行性.
GNSS 信號在傳播過程中會受到對流層延遲的干擾,利用對流層延遲不僅可以改進(jìn)GNSS 定位的精度,同時對水汽的研究有著重要作用.ZTD 可由斜路徑方向上的對流層延遲通過映射函數(shù)投影在天頂方向上得到.GAMIT 解算的對流層延遲與國際GNSS服務(wù)(IGS)提供的對流層延遲產(chǎn)品具有很好的一致性[13].本文使用IGS ZTD 產(chǎn)品代替GAMIT 處理的ZTD 延遲.
ZTD 由天頂對流層靜力延遲(ZHD)和天頂對流層濕延遲(ZWD)兩部分組成,前者是ZTD 中的主要成分,可以通過Saastamoinen 公式求得;后者通過ZTD 與ZHD 之間作差求得.PWV 與ZWD 之間的轉(zhuǎn)換系數(shù)(π)由Bevis 提出,通過ZWD 和π 的乘積可以得到PWV.綜上,PWV 的計算公式為
1.2.1 KNN 算法
KNN 算法是一種通過特征空間中的輸入樣本尋找k個距離最近鄰的樣本并依據(jù)所屬類別投票表決的方法[14].距離的計算函數(shù)有歐幾里得距離、巴氏距離和馬氏距離等.常用的歐幾里得距離計算的是兩個點距離之間的平方差之和的平方根,計算公式為
式中,i表示點x和y的第i個坐標(biāo).通過KNN 算法對目標(biāo)進(jìn)行分類,輸出值是k個最近鄰樣本類別中占比最大的一類.可以通過手動設(shè)置或使用交叉驗證結(jié)果較為準(zhǔn)確的k值.
1.2.2 隨機(jī)森林
隨機(jī)森林(RF)在Bagging 算法的基礎(chǔ)上,隨機(jī)選取部分特征向量組成CART (classification and regression tree)決策樹,流程如圖1 所示,重復(fù)m次建立m個決策樹模型,通過多顆決策樹聯(lián)合對結(jié)果進(jìn)行預(yù)測.
圖1 隨機(jī)森林示意圖
1.2.3 樸素貝葉斯分類器
樸素貝葉斯分類器(NBC)是貝葉斯分類器中常用的模型之一.這種分類器假設(shè)特征向量之間獨立,降低了運算的邏輯性和復(fù)雜性.在特征向量為x的情況下,對目標(biāo)進(jìn)行歸類時,計算公式為
對于特征向量的屬性是連續(xù)性分布的二分類問題,計算出變量正態(tài)分布的均值和方差,可將公式轉(zhuǎn)換為
式中:Z表示歸歸一化因子;μj表示第j個特征向量的均值;σj表示第j個特征向量的標(biāo)準(zhǔn)差;y=+1 表示樣本歸為正類的標(biāo)簽.
1.2.4 SVM
SVM 的目的通過尋找一個最具魯棒性的超平面來將樣本進(jìn)行分類.這個超平面讓不同的樣本類別分布在平面兩側(cè),同時讓兩側(cè)距離決策邊界最近的樣本類別有一個極大值.這個超平面用下面的式子表示:
式中:x為特征向量;w表示超平面的歸一化方向向量;b表示閾值.
SVM 可以利用核函數(shù)將原始特征向量映射到新空間.常用的核函數(shù)有線性核函數(shù)、多項式核函數(shù)和高斯核函數(shù)等.在本次實驗中,使用了高斯核函數(shù)[15],如下式所示:
數(shù)據(jù)選取位于北京(BJFS)和武漢(WUH2) 2 個GNSS 測站,其中ZTD 數(shù)據(jù)來自IGS 提供的對流層延遲產(chǎn)品,PWV 由式(1)計算得到.氣象數(shù)據(jù)來自氣象網(wǎng)站rp5.ru,由英國氣象局制作并根據(jù)相關(guān)資質(zhì)發(fā)布在該網(wǎng)站上,提供的氣象數(shù)據(jù)有溫度(T)、氣壓(P)、相對濕度(U)、露點溫度(Td)、每3 h 降雨量.
降雨的發(fā)生往往伴隨著復(fù)雜參數(shù)的變化,研究降水形成過程中PWV 和多尺度氣象參數(shù)時間序列的周期性、敏感性等特征,挖掘降雨的形成機(jī)理是有必要的.圖2~3 分別為BJFS 站和WUH2 站降雨及相關(guān)其氣象參數(shù)的時間序列變化.由圖可知,降雨的發(fā)生與PWV 及其氣象參數(shù)的變化基本是一致的,有比較強(qiáng)的相關(guān)性.從全年的數(shù)據(jù)變化看,在PWV 的峰值到來時,會伴隨著降雨的發(fā)生;結(jié)合氣象資料選擇降雨較為集中的180—210 天,在降雨發(fā)生前,通常伴隨著PWV、Td及U的上升,T的下降,P的陡峭上升;在降雨發(fā)生時,通常伴隨著PWV、P、Td及U的下降,T的上升.
圖2 BJFS 站2020 年降雨量與PWV 關(guān)系以及7 月(年積日第180—210 天)降雨量與相關(guān)氣象參數(shù)關(guān)系
圖3 WHU2 站2020 年降雨量與PWV 關(guān)系以及7 月(年積日第180—210 天)降雨量與相關(guān)氣象參數(shù)關(guān)系
圖4 展示了區(qū)域短臨降雨的一般預(yù)報框架.
圖4 降雨預(yù)報模型流程
以BJFS 站2020 年的實驗數(shù)據(jù)為例,首先對PWV 和氣象參數(shù)進(jìn)行歸一化處理.模型的參數(shù)對預(yù)報的精度起到重要作用,RF 模型的參數(shù)有樹的數(shù)目和深度,KNN 的參數(shù)有權(quán)重和距離,SVM 的參數(shù)有正則化參數(shù)和懲罰參數(shù),本文利用網(wǎng)格搜索法和交叉驗證的方式來確定模型的最優(yōu)參數(shù).接著將預(yù)報因子(PWV、T、P、Td、U)與降雨情況作為數(shù)據(jù)集輸入模型中,分別隨機(jī)將數(shù)據(jù)集中的70%和80%作為訓(xùn)練集進(jìn)行模型訓(xùn)練,剩下的數(shù)據(jù)作為測試集進(jìn)行模型驗證,得到BJFS 站2020 年的降雨預(yù)報模擬結(jié)果.WUH2 站的模擬實驗流程與上述流程基本一致.
本文使用準(zhǔn)確性(Accuracy)、精確率(Precision)和假負(fù)率(FNR)來評價降雨預(yù)報模型的精度
式中:將降雨預(yù)報的分類情況表示為混淆距陣,具體如表1 所示.TP 為實際情況降雨,預(yù)報情況為降雨的樣本數(shù);TN 為實際情況不降雨,預(yù)報情況為不降雨的樣本數(shù);FP 為實際情況不降雨,預(yù)報情況為降雨的樣本數(shù);FN 為實際情況降雨,預(yù)報情況為不降雨的樣本數(shù).
表1 降雨預(yù)報混淆矩陣
圖5~7 為BJFS 站和WUH2 站2020 年100 次的降雨模擬結(jié)果,由圖可見,2 個測站的降雨預(yù)報模擬都有不錯的效果.BJFS 站4 種模型不同百分比訓(xùn)練集準(zhǔn)確性的平均值均約為0.96,精確率的平均值約為80%,假負(fù)率的平均值約為21%;WUH2 站4 種模型不同百分比訓(xùn)練集準(zhǔn)確性的平均值約為0.92,精確率的平均值約為86%,假負(fù)率的平均值約為13%.而在4 種模型中,RF 的模型在準(zhǔn)確性和精確率上比其他3 種模型更優(yōu)一點,SVM 的模型在假負(fù)率上比其他3 種模型更低一點.
圖5 4 種預(yù)報模型的準(zhǔn)確性箱圖
傳統(tǒng)的閾值方法利用降雨前的PWV 的變化量和變化率進(jìn)行短臨降雨預(yù)報[16],表2 對BJFS 站和WUH2 站的PWV 變化量和變化率進(jìn)行分析并確定合適的閾值,模擬2 個測站的降雨預(yù)報效果.
表2 BJFS 站和WUH2 站降雨預(yù)報的統(tǒng)計結(jié)果
圖6 4 種預(yù)報模型的精確率箱圖
圖7 4 種預(yù)報模型的假負(fù)率箱圖
由表2 可以看出,選擇合適的PWV 變化量和變化率并利用閾值方法對降雨進(jìn)行預(yù)報,其精確率和假負(fù)率約在80%和60%,說明該方法在一定程度上能對未來短時間進(jìn)行降雨預(yù)報,但卻有著不低的假負(fù)率,對預(yù)報的應(yīng)用存在一定的影響.
綜上所述,4 種模型在BJFS 站和WUH2 站的降雨預(yù)報都起到了不錯的效果,且漏報率低于傳統(tǒng)的閾值方法判斷降雨模型.
以BJFS 站為例,按時間序列的方式選取年積日為第150—200 天的數(shù)據(jù)作為訓(xùn)練集數(shù)據(jù),對數(shù)據(jù)集進(jìn)行歸一化處理輸入預(yù)報模型中進(jìn)行訓(xùn)練,以200—250 天的數(shù)據(jù)作為測試集數(shù)據(jù),預(yù)報下一時間段的短臨降雨情況.利用接收器操作特性(ROC)曲線和查準(zhǔn)率一查全齊(PR)曲線對結(jié)果進(jìn)行評估.WUH2 站的預(yù)報流程與上述流程基本一致.
圖8~11 為BJFS 站和WUH2 站的降雨預(yù)報結(jié)果.由圖可見,2 個測站的降雨預(yù)報都取得不錯的效果,BJFS 站的ROC 曲線下與坐標(biāo)軸圍成的面積(AUC)值最好的是SVM 模型的0.923 80,平均準(zhǔn)確率(AP)值最好的是SVM 模型的0.790 92;WUH2 站的AUC 值最好的是SVM 模型的0.924 30,AP 值最好的是RF 模型的0.821 86.綜上所述,SVM 模型的分類器性能略優(yōu)于RF 模型,而KNN 模型和NBC 模型也能取得不錯的效果.因此,本文基于機(jī)器學(xué)習(xí)的短臨降雨預(yù)報模型對未來3 h 的降雨預(yù)報能達(dá)到一個不錯的效果,可以達(dá)到80%以上的降雨情況,而假負(fù)率在20%以下.相對于傳統(tǒng)的閾值預(yù)報模型,在正確率相當(dāng)?shù)那闆r下(其正確率約為為80%),假負(fù)率降低了50%左右(其假負(fù)率約為70%).
圖8 BJFS 站的ROC 和AUC 曲線
圖9 WUH2 站 的ROC 和AUC 曲線
圖10 BJFS 站的PR 和AP 曲線
圖11 WUH2 站的PR 和AP 曲線
1)通過分析降雨發(fā)生前后與PWV 和多種氣象參數(shù)(T、P、Td、U)的一種非線性變化關(guān)系得出,在降雨發(fā)生前,會有PWV、Td、U和P的上升過程,T的下降,而在降雨發(fā)生時,這些參數(shù)發(fā)生相反的態(tài)勢.
2)利用不同的機(jī)器學(xué)習(xí)算法,分別對測站整年的降雨數(shù)據(jù)劃分不同的訓(xùn)練集構(gòu)建短臨降雨預(yù)報模型,結(jié)果表明4 種模型均能取得不錯的效果,準(zhǔn)確性在0.9 以上,精確率在80%以上,假負(fù)率在25%以下,而RF 模型在準(zhǔn)確性和精確率上更優(yōu),SVM 的模型在假負(fù)率上更優(yōu).
3)以時間序列構(gòu)建的短臨降雨預(yù)報模型的結(jié)果表明,4 種模型對未來3 h 的80%以上降雨情況可以很好的預(yù)報,假負(fù)率在20%以下,相較傳統(tǒng)的閾值方法,假負(fù)率降低了約50%,有了很大的改進(jìn).其中SVM 模型的綜合性能略優(yōu),在BJFS 和WUH2 測站上的AUC 最好,BJFS 的AP 最好,其次是RF 模型,最后KNN 模型和NBC 模型也能取得不錯的效果.綜上,4 種典型機(jī)器學(xué)習(xí)構(gòu)建的短臨降雨預(yù)報模型具有不錯的可行性.
致謝:感謝IGS 提供的GNSS 數(shù)據(jù),感謝rp5.ru網(wǎng)站提供的氣象數(shù)據(jù).