摘 要:利用2018—2023年江西吉安地區(qū)12個國家氣象站地面小時(shí)觀測資料,分析了吉安地區(qū)大霧天氣的時(shí)空分布特征,通過數(shù)據(jù)處理后形成訓(xùn)練集和驗(yàn)證集,代入SVM算法和LSTM網(wǎng)絡(luò)建立了大霧天氣預(yù)報(bào)模型,檢驗(yàn)評估了模型預(yù)報(bào)效果,并選取近期典型個例進(jìn)行驗(yàn)證。結(jié)果表明:大霧主要集中在深秋至次年初春時(shí)段,其他時(shí)段逐漸減少,7月份最少;起伏山區(qū)以及高海拔的山上相比平坦地形出現(xiàn)次數(shù)更多;兩種預(yù)報(bào)模型預(yù)測得分接近,總體都較好,TS評分都在50%以上,檢驗(yàn)準(zhǔn)確率可達(dá)75%以上,可以用來作為預(yù)報(bào)參考,有較好的業(yè)務(wù)應(yīng)用前景。
關(guān)鍵詞:機(jī)器學(xué)習(xí);大霧;預(yù)報(bào)
Abstract:Using surface hourly observation data from 12 national meteorological stations in the Ji'an area of Jiangxi Province from 2018 to 2023,the spatiotemporal distribution characteristics of fog weather in the Ji'an area were analyzed.After data processing,training and validation sets were formed.These were then used in Support Vector Machine (SVM) algorithm and Long ShortTerm Memory (LSTM) network to establish fog weather forecast models.The forecast performance of the models was tested and evaluated,and recent typical cases were selected for verification.The results indicate that:Fog occurs mainly from late autumn to early spring of the following year,gradually decreasing during other periods,with the least occurrence in July;Fog occurs more frequently in undulating mountainous areas and at higher altitudes compared to flat terrain;The prediction scores of the two forecast models were close and both performed well overall,with TS scores above 50% and verification accuracy reaching over 75%.These models can be used as a forecasting reference and show good prospects for operational application.
Keywords:Machine learning;Fog;Forecast
" 吉安位于江西省中部,地勢復(fù)雜多變,氣候條件獨(dú)特,是大霧天氣頻發(fā)的區(qū)域之一。大霧天氣不僅嚴(yán)重影響交通運(yùn)輸安全,增加交通事故風(fēng)險(xiǎn),還對農(nóng)業(yè)生產(chǎn)、居民日常生活以及空氣質(zhì)量監(jiān)測等多個方面造成不利影響。傳統(tǒng)的大霧預(yù)報(bào)方法多依賴于預(yù)報(bào)經(jīng)驗(yàn)、統(tǒng)計(jì)模型和數(shù)值模式[13],這些方法在預(yù)報(bào)精度和時(shí)效性上尚存在一定的局限性,難以滿足現(xiàn)代社會對精準(zhǔn)氣象服務(wù)的需求。
隨著科技的飛速發(fā)展,特別是大數(shù)據(jù)和人工智能技術(shù)的廣泛應(yīng)用,機(jī)器學(xué)習(xí)作為人工智能的一個重要分支,在氣象預(yù)報(bào)領(lǐng)域展現(xiàn)出巨大的潛力和優(yōu)勢。機(jī)器學(xué)習(xí)算法能夠自動從大量歷史氣象數(shù)據(jù)中學(xué)習(xí)并提取出復(fù)雜的非線性關(guān)系,從而實(shí)現(xiàn)對未來氣象狀態(tài)的準(zhǔn)確預(yù)測。因此,將機(jī)器學(xué)習(xí)技術(shù)應(yīng)用于吉安地區(qū)大霧預(yù)報(bào),探索一種更加精準(zhǔn)、高效的大霧預(yù)報(bào)方法,具有重要的現(xiàn)實(shí)意義和科研價(jià)值。
目前,利用機(jī)器學(xué)習(xí)方法對大霧進(jìn)行預(yù)報(bào)已有不少研究和應(yīng)用。何東坡等[4]利用C5.0、CART決策樹和多層感知器網(wǎng)絡(luò)構(gòu)建了貴陽霧的預(yù)報(bào)模型;時(shí)瑋域[5]結(jié)合了支持向量機(jī)與特征選擇Wrapper方法實(shí)現(xiàn)短鄰霧天氣分類預(yù)測模型,并在實(shí)際業(yè)務(wù)系統(tǒng)中進(jìn)行應(yīng)用;陳貝等[6]利用指標(biāo)判斷法和非線性統(tǒng)計(jì)支持向量機(jī)法,分別對成樂路沿線各站大霧和能見度量級進(jìn)行預(yù)報(bào)模型構(gòu)建,最后通過人為經(jīng)驗(yàn)訂正對沿線各站大霧做出精細(xì)化客觀預(yù)報(bào);此外,苗開超等[7]、王月琴等[8]將神經(jīng)網(wǎng)絡(luò)應(yīng)用于大霧和團(tuán)霧的預(yù)報(bào)。
1 吉安地區(qū)大霧天氣特征
吉安地區(qū)東、西、南三面環(huán)山,中間則是地勢相對平坦的吉泰盆地,形成了顯著的海拔差異,氣候上屬于亞熱帶季風(fēng)氣候區(qū),四季分明、雨熱同期,地形和氣候共同作用導(dǎo)致吉安成為江西省區(qū)域性大霧出現(xiàn)最為集中的地區(qū)之一[9],同時(shí)也使大霧天氣呈現(xiàn)出明顯的時(shí)空分布差異(圖1和圖2):吉安、吉水、萬安等站海拔較低(60~100米),且地勢平坦,大霧天氣相對較少,年平均霧日3~10天,主要以區(qū)域性大霧為主。峽江、永豐、廈坪等站位于山區(qū)(平均海拔100~300米),受山地地形影響輻射霧多發(fā)。井岡山站海拔最高(848米),來往氣流受羅霄山脈阻擋在此強(qiáng)制爬升,山上常年云霧繚繞,平均每6天就有一次大霧;霧日數(shù)季節(jié)差異性明顯,霧天氣主要出現(xiàn)在深秋至次年初春(11月—次年3月),其中輻射霧占據(jù)主導(dǎo)地位,平流霧和平流輻射霧數(shù)量相對較少,主要發(fā)生于1~2月和冬末初春時(shí)節(jié)(2~3月)[9]。
圖1 吉安地區(qū)2018—2023年各國家站霧出現(xiàn)日數(shù)
圖2 吉安地區(qū)2018—2023年各月國家站霧出現(xiàn)日數(shù)
2 數(shù)據(jù)處理
為建立吉安地區(qū)大霧天氣預(yù)報(bào)模型,研究數(shù)據(jù)選取吉安地區(qū)12個國家站2018—2023年6年時(shí)間的逐小時(shí)地面氣象數(shù)據(jù),依據(jù)影響大霧形成的物理機(jī)制和預(yù)報(bào)方法[910],選取的要素為氣壓、氣溫、相對濕度、風(fēng)向、風(fēng)速、降水量、能見度等7類數(shù)據(jù)。按照現(xiàn)行業(yè)務(wù)大霧判定標(biāo)準(zhǔn)能見度值低于750米且相對濕度大于85%時(shí)判定為有霧出現(xiàn)。
在數(shù)據(jù)預(yù)處理階段,先針對孤立且非風(fēng)向、風(fēng)速的氣象要素缺測值,采取了線性插值的方法進(jìn)行替代,對于較多缺測值的記錄直接刪除,對數(shù)據(jù)進(jìn)行了標(biāo)準(zhǔn)化和歸一化處理。
在構(gòu)建預(yù)測模型時(shí),考慮霧天氣出現(xiàn)的時(shí)間點(diǎn)(20時(shí)至次日12時(shí))和維持的時(shí)間長度(不超過12小時(shí)),以每天20時(shí)為界,將過去12小時(shí)內(nèi)的氣象要素作為預(yù)測輸入,將未來12小時(shí)內(nèi)是否出現(xiàn)霧作為預(yù)測目標(biāo),并標(biāo)記為0(無霧)或1(有霧)。通過篩選得到了771個霧樣本。然而,與剩余的25291個無霧樣本相比,霧樣本的數(shù)量比例過低,約為1∶33。為了保證訓(xùn)練效果,本文參考了相關(guān)文獻(xiàn)[7],將正負(fù)樣本的比例調(diào)整為1∶2,從無霧樣本的記錄中隨機(jī)抽取了5000個樣本,然后使用隨機(jī)過采樣方法將有霧樣本擴(kuò)充到2500個,得到了一個由7500個樣本組成的數(shù)據(jù)集,按照60%、40%的比例隨機(jī)分配了訓(xùn)練集和驗(yàn)證集。
3 模型建立和訓(xùn)練
本文利用過去時(shí)間的氣象要素預(yù)報(bào)未來是否有大霧天氣,其中既涉及時(shí)間序列處理又有分類要求,因此采用了兩種不同的機(jī)器學(xué)習(xí)模型:支持向量機(jī)(Support Vector Machine,SVM)和長短期記憶網(wǎng)絡(luò)(Long ShortTerm Memory,LSTM),分別基于這兩種算法構(gòu)建了預(yù)測模型,通過對比它們在預(yù)測準(zhǔn)確性、穩(wěn)定性以及泛化能力等方面的表現(xiàn),來綜合判斷哪個模型更為優(yōu)越,從而篩選出效果最佳的預(yù)報(bào)模型。
SVM是一種二分類模型,其目標(biāo)是在特征空間中找到一個間隔最大的超平面,以對樣本進(jìn)行分割,使得離該平面最近的樣本點(diǎn)(稱為支持向量)到平面的距離最大。在實(shí)際應(yīng)用中,SVM可以通過核函數(shù)技巧將線性不可分的問題轉(zhuǎn)化為線性可分的問題,從而實(shí)現(xiàn)對復(fù)雜數(shù)據(jù)的分類。
LSTM是一種特殊的循環(huán)神經(jīng)網(wǎng)絡(luò)(Recurrent Neural Network,RNN)架構(gòu),旨在解決傳統(tǒng)RNN在處理長序列數(shù)據(jù)時(shí)遇到的梯度消失和梯度爆炸問題。LSTM的核心在于其獨(dú)特的細(xì)胞狀態(tài)和三個門控機(jī)制,這種設(shè)計(jì)使其能夠捕獲序列數(shù)據(jù)中的長期依賴關(guān)系,即使在輸入序列非常長的情況下也能有效工作。
模型的實(shí)現(xiàn)使用Python語言編寫,采用了PyTorch深度學(xué)習(xí)框架。對于SVM模型,其輸入數(shù)據(jù)即7類氣象要素在過去12小時(shí)內(nèi)的觀測值。輸出未來12小時(shí)內(nèi)是否有霧,其中1代表有霧,0代表無霧。選擇了三種常用的核函數(shù)進(jìn)行比較,它們分別是線性核函數(shù)(LKF)、多項(xiàng)式核函數(shù)(PKF)和徑向基核函數(shù)(RBF)。對于LSTM模型,其輸入層尺寸同樣為7類氣象要素,輸入序列長度為12。模型包含兩層隱藏層,每層隱藏層的尺寸都設(shè)置為32。在輸出層,設(shè)置了一個時(shí)間步的預(yù)測輸出,如果任何一個時(shí)間步的輸出為1(表示有霧),則模型的總體輸出即為1(有霧);否則,輸出為0(無霧)。為了衡量模型預(yù)測的準(zhǔn)確性,采用了交叉熵?fù)p失函數(shù)(Cross Entropy Loss)作為模型的損失函數(shù)。
4 實(shí)驗(yàn)與結(jié)果
為評估訓(xùn)練模型的性能,本文選用TS評分、準(zhǔn)確率A、空報(bào)率E、漏報(bào)率F以及霧準(zhǔn)確率Af作為評價(jià)指標(biāo),指標(biāo)公式如下:
TS=TP/(TP+FP+FN)(1)
A=(TP+TN)/(TP+TN+FP+FN)(2)
E=FP/(TP+FP)(3)
F=FN/(TP+FN)(4)
Af=TP/(TP+FN)(5)
其中TP是預(yù)測有霧實(shí)際有霧的樣本數(shù),TN是預(yù)測無霧實(shí)際無霧的樣本數(shù),F(xiàn)P是預(yù)測有霧實(shí)際無霧的樣本數(shù),F(xiàn)N是預(yù)測無霧實(shí)際有霧的樣本數(shù)。
分別計(jì)算兩種模型對訓(xùn)練集和驗(yàn)證集的預(yù)報(bào)結(jié)果的TS評分、準(zhǔn)確率、空報(bào)率、漏報(bào)率和霧準(zhǔn)確率,結(jié)果見表1。
從結(jié)果來看,兩種機(jī)器學(xué)習(xí)模型均有較為優(yōu)良的表現(xiàn),驗(yàn)證集對霧的預(yù)測準(zhǔn)確率都在75%以上,其中使用多項(xiàng)式核函數(shù)(PKF)的SVM模型TS評分可達(dá)57.2%,對霧的預(yù)報(bào)準(zhǔn)確率可達(dá)87%,能夠較好地作為預(yù)報(bào)參考。
但同時(shí)注意到,各個模式的空報(bào)率都在32%以上,說明有很多沒有霧的樣本預(yù)報(bào)出霧,分析可能的原因,一是樣本總數(shù)偏少,771個正樣本所能涵蓋的霧天氣預(yù)測要素搭配還是偏少,模型所能學(xué)習(xí)的信息不足;二是現(xiàn)在霧天氣觀測只能監(jiān)測周邊幾百米到幾千米的能見度,有些實(shí)際有霧出現(xiàn)的樣本可能因?yàn)闆]有被觀測到而被錯誤地歸類為無霧樣本,導(dǎo)致模型無法正確地區(qū)分和預(yù)測,影響了訓(xùn)練效果。
5 典型個例驗(yàn)證
利用2024年1月4日、1月9日、1月31日、2月10日、3月3日、3月12日6次大霧天氣實(shí)例進(jìn)行驗(yàn)證,模型選擇使用了多項(xiàng)式核函數(shù)的SVMPKF和LSTM,兩個模型預(yù)測結(jié)果的各項(xiàng)評分指標(biāo)見表2。
評分結(jié)果與驗(yàn)證集的驗(yàn)證結(jié)果接近,總體預(yù)測結(jié)果較好,對霧的預(yù)測準(zhǔn)確率在80%以上,SVMPKF模型相對LSTM模型效果稍好,基本滿足業(yè)務(wù)工作的需求。
6 結(jié)論
(1)吉安地區(qū)大霧天氣的出現(xiàn)有明顯的時(shí)空特征,主要集中在深秋至次年初春時(shí)段(11月—次年3月),其他時(shí)段逐漸減少,7月份最少;起伏山區(qū)以及高海拔的山上相比平坦地形出現(xiàn)次數(shù)更多。
(2)基于SVM和LSTM建立了吉安地區(qū)國家站大霧預(yù)報(bào)模型,利用過去時(shí)間的地面觀測要素來預(yù)測未來當(dāng)?shù)厥欠駮霈F(xiàn)大霧,通過檢驗(yàn)?zāi)軌蜻_(dá)到較好的預(yù)測效果,準(zhǔn)確率可達(dá)80%以上,通過典型個例驗(yàn)證,準(zhǔn)確率滿足基本工作要求,可以應(yīng)用于實(shí)際業(yè)務(wù)中。
(3)同時(shí)預(yù)報(bào)模型還存在空報(bào)率過高的問題,原因可能是樣本偏少,以及實(shí)際業(yè)務(wù)中由于站點(diǎn)分布稀疏,局地出現(xiàn)了霧而儀器沒有觀測到,導(dǎo)致訓(xùn)練結(jié)果偏差。
參考文獻(xiàn):
[1]馮蕾,田華.國內(nèi)外霧預(yù)報(bào)技術(shù)研究進(jìn)展[J].南京信息工程大學(xué)學(xué)報(bào):自然科學(xué)版,2014,6(1):7481.
[2]周須文,時(shí)青格,賈俊妹,等.低能見度霧的分級預(yù)報(bào)方法研究[J].熱帶氣象學(xué)報(bào),2014,30(1):161166.
[3]任照環(huán),許偉,余蜀豫,等.重慶南川區(qū)霧氣候特征及天氣成因分析[J].成都信息工程大學(xué)學(xué)報(bào),2021,36(2):223229.
[4]何東坡,王玥彤,杜小玲,等.基于機(jī)器學(xué)習(xí)方法的貴陽霧預(yù)報(bào)模型研究[J].高原山地氣象研究,2023,43(04):4247.
[5]時(shí)瑋域.基于機(jī)器學(xué)習(xí)方法的霧天氣預(yù)測研究[D].沈陽:沈陽工業(yè)大學(xué),2020.
[6]陳貝,徐洪剛,王明天,等.成樂高速公路大霧預(yù)報(bào)方法研究[J].高原山地氣象研究,2012,32(2):7076.
[7]苗開超,韓婷婷,王傳輝,等.基于LSTM網(wǎng)絡(luò)的濃霧臨近預(yù)報(bào)模型及應(yīng)用[J].計(jì)算機(jī)系統(tǒng)應(yīng)用,2019,28(5):215219.
[8]王月琴,張文菊,談玲瓏.基于BP神經(jīng)網(wǎng)絡(luò)的高速公路團(tuán)霧預(yù)測研究[J].佳木斯大學(xué)學(xué)報(bào)(自然科學(xué)版),2017,35(3):485487.
[9]陳翔翔,許愛華,肖安,等.江西省三類區(qū)域性大霧時(shí)空特征和氣象要素對比分析[C]//中國氣象學(xué)會.第33屆中國氣象學(xué)會年會S1災(zāi)害天氣監(jiān)測、分析與預(yù)報(bào).西安:第33屆中國氣象學(xué)會年會,2016:202204.
[10]許愛華,陳翔翔,肖安,等.江西省區(qū)域性平流霧氣象要素特征分析及預(yù)報(bào)思路[J].氣象,2016,42(3):372381.
作者簡介:彭勃(1984— ),男,漢族,本科,工程師,主要從事氣象防災(zāi)減災(zāi)和防雷工作。