陳錦鵬,林輝,吳雪菲,黃奕丹,程晶晶,莊毅斌
(1.福建省災(zāi)害天氣重點(diǎn)實(shí)驗室,福建 福州 350001;2.數(shù)字科學(xué)與統(tǒng)計重點(diǎn)實(shí)驗室,福建 漳州 363005;3.漳州市氣象局,福建 漳州 363005;4.福建省大氣探測技術(shù)保障中心,福建 福州 350001)
氣象能見度作為氣象觀測的基本要素之一,容易受到各種因素的影響。當(dāng)出現(xiàn)霧、霾、降雨、降雪等天氣現(xiàn)象時,能見度往往轉(zhuǎn)差;另外邊界層變化、大氣低頻振蕩也能造成能見度下降[1]。沿海低能見度天氣會對交通、運(yùn)輸和作業(yè)等產(chǎn)生不利影響,因此其預(yù)報預(yù)警技術(shù)研究具有重要的實(shí)踐意義。
多年統(tǒng)計來看,造成閩南沿海地區(qū)低能見度事件的主要原因分別是霾和霧,且上半年的持續(xù)時間和發(fā)生頻率高于下半年[2]。分析發(fā)現(xiàn),在爆發(fā)性濃霧過程中除了由海風(fēng)和地面長波輻射提供的主要冷卻條件外,還存在來自平流和蒸發(fā)的充足水汽條件以及貼地強(qiáng)逆溫[3]。近年來,關(guān)于低能見度天氣客觀預(yù)報的研究工作日漸增多。王楠等[4]以相關(guān)性為依據(jù)篩選預(yù)報因子,分別采用基于Poly、RBF 核函數(shù)的支持向量機(jī)(SVM)方法建立能見度預(yù)報模型,發(fā)現(xiàn)在檢驗樣本中預(yù)報準(zhǔn)確樣本的誤差整體較小,而在漏報樣本中有能見度越低誤差越大的特點(diǎn)。謝超等[5]通過訓(xùn)練神經(jīng)網(wǎng)絡(luò)模型來獲得能見度集合預(yù)報,試驗顯示模型預(yù)報的誤差與TS 評分均優(yōu)于模式預(yù)報。黃輝軍等[6]嘗試將近地層溫差因子作為GRAPES 模式的預(yù)報變量因子以改進(jìn)海霧預(yù)報,引入后海霧區(qū)域預(yù)報的準(zhǔn)確率、TS 和HSS 評分都有明顯提高。黃健等[7]在海霧歷史觀測資料和再分析資料的基礎(chǔ)上,采用分類與回歸樹(CART)方法對海霧發(fā)生發(fā)展的海洋氣象條件進(jìn)行分類分析,建立了決策樹預(yù)報模型,對廣東沿岸海霧的預(yù)報準(zhǔn)確率可達(dá)到73%以上。俞涵婷等[8]從統(tǒng)計角度驗證了溫差是大霧形成的重要因素,同時運(yùn)用決策樹模型進(jìn)行海霧預(yù)報試驗,在測試集數(shù)據(jù)中成功率為0.8,可用于業(yè)務(wù)中對海霧的判別。
總體來看,目前對于海霧的預(yù)報方法主要包括天氣學(xué)方法、統(tǒng)計預(yù)報方法和數(shù)值預(yù)報方法,天氣學(xué)方法對預(yù)報員的主觀經(jīng)驗依賴性較高,預(yù)報準(zhǔn)確率和可靠性較低;單純的統(tǒng)計預(yù)報方法缺乏對海霧過程物理規(guī)律的描述,多依賴于歷史觀測資料或數(shù)值預(yù)報資料的質(zhì)量和數(shù)量[9]。而數(shù)值預(yù)報方法作為氣象預(yù)報的主流發(fā)展方向,離不開客觀化、自動化的后處理訂正技術(shù)。輕量梯度提升機(jī)(Light Gradient Boosting Machine,LightGBM)作為目前集成學(xué)習(xí)代表性算法之一,面對結(jié)構(gòu)化數(shù)據(jù)時具有比較出色的普適性、準(zhǔn)確性和可解釋性,在各大數(shù)據(jù)挖掘競賽與各個行業(yè)領(lǐng)域中的應(yīng)用相當(dāng)廣泛。如何將LightGBM 算法更好地應(yīng)用于低能見度天氣預(yù)報預(yù)警業(yè)務(wù)之上,是非常值得探究的問題。在上海區(qū)域的能見度預(yù)報試驗中,基于WRF 模式的LightGBM 訂正模型在驗證集上的平均絕對誤差相對于原始預(yù)報提升比例可達(dá)47.2%[10]。但交叉驗證中的數(shù)據(jù)集來自于同分布隨機(jī)采樣,缺乏時間相關(guān)性,不足以體現(xiàn)模型在實(shí)際業(yè)務(wù)中面對未知數(shù)據(jù)的預(yù)測能力。
此外,福建漳州地區(qū)現(xiàn)有的沿岸、島嶼和浮標(biāo)自動站過于稀疏,探測范圍也極為有限,過少的觀測樣本不利于模型訓(xùn)練與測試。本試驗嘗試引入遠(yuǎn)距離無線電(Long Range Radio,LoRa)探測數(shù)據(jù),與自動站觀測數(shù)據(jù)進(jìn)行融合以擴(kuò)充數(shù)據(jù)集。LoRa 是一種窄帶物聯(lián)網(wǎng)通信技術(shù),其信號衰減對天氣要素變化敏感,尤其是與相對濕度、風(fēng)速存在一定的相關(guān)性。目前漳州沿海及海上地區(qū)已部署LoRa 觀測組網(wǎng),通過能見度反演算法得到高時空分辨率的LoRa 海霧探測數(shù)據(jù)[11],可在一定程度上彌補(bǔ)傳統(tǒng)觀測手段的不足。
本文提出的低能見度天氣分類預(yù)報技術(shù)本質(zhì)是應(yīng)用集成學(xué)習(xí)對數(shù)值預(yù)報進(jìn)行統(tǒng)計訂正,融合了數(shù)值模式擅長環(huán)流形勢預(yù)報與集成學(xué)習(xí)擅長統(tǒng)計規(guī)律挖掘的優(yōu)勢來進(jìn)一步推導(dǎo)低能見度天氣的可能性。試驗中應(yīng)用2020年數(shù)據(jù)集進(jìn)行建模和訓(xùn)練,以2021年數(shù)據(jù)集進(jìn)行測試,充分考察模型的擬合能力和泛化能力,驗證了該模型具有優(yōu)于模式原始預(yù)報甚至傳統(tǒng)統(tǒng)計方法的預(yù)測能力。同時也探究了試驗過程中遇到的樣本不均衡、特征構(gòu)造和模型融合等問題,為集成學(xué)習(xí)在能見度預(yù)報方面的應(yīng)用和數(shù)值模式訂正技術(shù)的發(fā)展提供參考。
本文采 用2020 年3 月—2021 年7 月 漳州地區(qū)沿海與島嶼自動站的逐小時能見度觀測數(shù)據(jù)作為實(shí)況資料,共包含10 個站點(diǎn)(圖1)。由于沿海自動站分布過于稀疏,難以精細(xì)體現(xiàn)能見度要素的空間分布,故將相應(yīng)的LoRa 探測數(shù)據(jù)與其進(jìn)行融合作為補(bǔ)充(詳見3.3.1 節(jié)),最后得到網(wǎng)格化的能見度實(shí)況資料。
圖1 漳州地區(qū)沿海與島嶼自動站(紅色)以及LoRa探測格點(diǎn)(黑色)分布
另外,采用EC-thin 歷史數(shù)據(jù)作為預(yù)報資料。其時間分辨率為3 h,空間分辨率為0.125 °×0.125 °。預(yù)先根據(jù)業(yè)務(wù)經(jīng)驗挑選出與能見度關(guān)聯(lián)較強(qiáng)的預(yù)報因子作為模型的待選特征,具體包括2 m 露點(diǎn)(d2)、2 m 相對濕度(rh2)、2 m 氣溫(T2)、10 m 風(fēng)場U分量(u10)、10 m 風(fēng)場V分量(v10)、海平面氣壓(msl)、925 hPa比濕(q925)和1 000 hPa比濕(q1000)、925 hPa 氣溫(T925)和1 000 hPa 氣溫(T1000)、低云量(LCC)、總云量(TCC)等共計12 類預(yù)報產(chǎn)品。這些變量均來自于模式的直接輸出產(chǎn)品,基本反映了邊界層內(nèi)的氣象環(huán)境條件。
從逐小時、逐格點(diǎn)的角度制作樣本數(shù)據(jù)集:對于每個實(shí)況融合后的格點(diǎn)而言,在預(yù)報資料中選取以其為中心的16 點(diǎn)平均值(覆蓋邊長為0.375 °的矩形區(qū)域)作為該點(diǎn)的特征變量。建模的目的在于挖掘特征變量與格點(diǎn)水平能見度級別之間的映射關(guān)系。定義水平能見度小于500 m 的樣本為正類樣本,反之則為負(fù)類樣本。觀察樣本分布(表1)可發(fā)現(xiàn)正負(fù)類樣本數(shù)量懸殊,如2020 年正負(fù)比率不足0.6%,屬于極小概率事件,嚴(yán)重的樣本不均衡問題會導(dǎo)致模型訓(xùn)練出現(xiàn)顯著偏離,試驗中需加以解決。分別將2020 年和2021 年數(shù)據(jù)集作為訓(xùn)練集和測試集,避免由于打亂時間順序而出現(xiàn)數(shù)據(jù)信息泄露,充分考察模型面對完全陌生的“未來”數(shù)據(jù)的預(yù)測能力。
表1 2020年與2021年正負(fù)類樣本分布
漳州沿海地區(qū)低能見度天氣具有鮮明的日變化特征。從2020年不同程度的低能見度天氣頻次統(tǒng)計可以發(fā)現(xiàn),無論是能見度在3 000 m以下或是500 m 以下的天氣均以下半夜最多見(圖2)。具體來看,前者在05 時(北京時間,下同)頻次最高,06時以后頻次急劇下降,在00—12 時之間呈現(xiàn)單峰型分布;而后者在04 時頻次最高,在08 時頻次次高,在下半夜至上午時段亦呈現(xiàn)單峰型分布,且04—08時發(fā)生頻次顯著高于其他時間。這表明了夜間的冷卻條件極為重要,也反映了引入日變化的時間參數(shù)作為模型的特征變量是很有意義的。
圖2 3 000 m以下(藍(lán)色柱狀)和500 m(紅色折線)以下的低能見度時刻發(fā)生頻次的日變化
在使用LoRa 探測數(shù)據(jù)之前,需要初步評估LoRa 探測數(shù)據(jù)的準(zhǔn)確性和可用性。以上述10 個沿海和島嶼自動站的能見度觀測資料為參照標(biāo)準(zhǔn),對空間分辨率為1 km 的網(wǎng)格化的LoRa 探測數(shù)據(jù)進(jìn)行檢驗。考慮到所選自動站的能見度觀測儀可能存在偏差以及實(shí)際業(yè)務(wù)中更加關(guān)注能見度在3 000 m以下的天氣,故只篩選出同一小時內(nèi)至少存在相鄰兩個自動站能見度小于3 000 m 的時次樣本進(jìn)行檢驗。
根據(jù)能見度要素在空間分布上具有一定的連續(xù)性,采用鄰域檢驗法進(jìn)行檢驗,即假設(shè)自動站周邊一定范圍的區(qū)域內(nèi)能見度等級與該站點(diǎn)一致。隨著鄰域半徑增大,參與檢驗的格點(diǎn)數(shù)也越多;但當(dāng)領(lǐng)域半徑過大時,上述假設(shè)可能會失效。以能見度分類閾值為500 m、鄰域半徑為2 000 m 的檢驗為例,參與檢驗站點(diǎn)的平均結(jié)果如表2 所示,其TS 評分和準(zhǔn)確率分別接近60%和94%以上,漏報率略多于空報率,但均未超過1/3,表明了具有較理想的可用性。
表2 LoRa探測數(shù)據(jù)的檢驗指標(biāo)(能見度分類閾值為1 000 m、鄰域半徑為2 000 m)
3.3.1 實(shí)況資料合成
單純使用自動站的能見度觀測資料在范圍和數(shù)量上都會受到較大的限制,不利于模型的訓(xùn)練和測試。在LoRa 探測數(shù)據(jù)可用性較好的基礎(chǔ)上,將相距3 km 內(nèi)的自動站觀測數(shù)據(jù)與LoRa 探測數(shù)據(jù)進(jìn)行指數(shù)權(quán)重合成以獲得網(wǎng)格化的實(shí)況數(shù)據(jù)。該合成方式的優(yōu)點(diǎn)在于權(quán)重隨著距離快速減少,又始終保持正值[12]。具體公式如下:
對于某一格點(diǎn)而言,V為融合能見度,Vd為LoRa 探測能見度,Vo為自動站能見度,R為該格點(diǎn)與最鄰近站點(diǎn)的距離,即距離自動站3 km 以外的格點(diǎn)值只取LoRa 探測值,反之則根據(jù)與自動站的距離進(jìn)行指數(shù)權(quán)重合成,離自動站越遠(yuǎn)則LoRa 探測值的權(quán)重越大。
3.3.2 新特征構(gòu)造
模型的輸入特征好壞在很大程度上決定了模型的預(yù)測能力上限。雖然來自于模式直接輸出產(chǎn)品的特征變量足以描述邊界層內(nèi)大氣環(huán)境條件,但是與低能見度天氣過程之間的映射關(guān)系還不夠顯著,諸如水汽、冷卻、弱風(fēng)和穩(wěn)定層結(jié)等氣象條件可以通過構(gòu)造新的特征變量以得到更好地描述。
在水汽和弱風(fēng)條件方面,分別增加2 m 溫度露點(diǎn)差(T2-d2)和10 m 全風(fēng)速(uv10)作為新的特征變量。此外,增加925 hPa 與2 m 溫差(T2-T925)、925 hPa 與1 000 hPa 溫差(T1000-T925)、1 000 hPa與2 m 溫差(T2-T1000)等三個特征變量。由于低能見度天氣具有日變化規(guī)律,還可以引入樣本所屬的時刻作為時間參數(shù)特征。將原先的特征稱為初始特征,加入6個新特征后稱為全特征。
梯度提升決策樹(Gradient Boosting Decision Tree,GBDT)的基本原理是不斷通過擬合殘差(真實(shí)值與預(yù)測值的偏差)來迭代學(xué)習(xí)新的決策樹,再將所有決策樹的單獨(dú)預(yù)測進(jìn)行相加即得最終結(jié)果,因此可以由如下公式表示:
其中X代表輸入特征,F(xiàn)代表決策樹,Θn為決策樹的超參數(shù)(如最大深度、葉子節(jié)點(diǎn)數(shù)等),N為決策樹的個數(shù)。LightGBM 每次選擇能夠帶來最大信息增益的節(jié)點(diǎn)進(jìn)行切分,即保證切分前后的信息熵差值為最大。特征種類越多、樣本數(shù)據(jù)量越大時,LightGBM 越有計算成本上的優(yōu)勢,這主要由于LightGBM 采用的兩種創(chuàng)新技術(shù):基于梯度的單側(cè)采樣(Gradient-based One-Side Sampling)和互斥特征捆綁(Exclusive Feature Bundling)。前者的目的是縮減用于計算信息增益的樣本數(shù)量,后者則能夠減少用于參與分裂點(diǎn)篩選計算的特征數(shù)量[13]。在幾乎相同的精度上,LightGBM 可以使傳統(tǒng)GBDT的訓(xùn)練過程加速20倍以上[14]。
邏輯回歸(Logistic Regression,LR)算法也是一種用于解決二分類問題的算法。該算法基于數(shù)據(jù)服從伯努利分布的假設(shè),在給定條件概率分布的基礎(chǔ)上運(yùn)用極大似然估計求解最優(yōu)參數(shù)。具體是使用Sigmoid 函數(shù)將線性回歸的預(yù)測值映射為(0, 1)上的概率值,最終公式如下:
其中θ為LR 模型超參數(shù),可用梯度下降法尋找最優(yōu)解。LR 算法的運(yùn)行效率高、可解釋性強(qiáng),適合作為基準(zhǔn)算法進(jìn)行對比。
本研究依靠LightGBM 模型來挖掘同一時刻內(nèi)某點(diǎn)能見度V與該點(diǎn)附近的氣象條件X之間的映射關(guān)系,即認(rèn)為存在V=f(X)。此外,LightGBM能夠從信息熵和信息增益[15]的角度來考察各類特征重要性,后續(xù)將據(jù)此對特征變量的貢獻(xiàn)大小進(jìn)行排序。
LightGBM 模型的輸出是預(yù)測概率值,在應(yīng)用命中率、TS 評分等傳統(tǒng)分類指標(biāo)時需要事先確定分類概率閾值,不同的閾值所對應(yīng)的指標(biāo)也有所不同,如此不利于全面跟蹤和評估模型性能的變化。本試驗引入受試者工作特征曲線下面積(Area Under ROC Curve,AUC)評分[16]對模型表現(xiàn)進(jìn)行跟蹤檢驗,受試者工作特征曲線(Receiver Operating Characteristic Curve,ROC 曲線)是指遍歷模型所有分類概率閾值后,在以偽陽性率(False Positive Rate,F(xiàn)PR)為橫坐標(biāo)、以真陽性率(True Positive Rate,TPR)為縱坐標(biāo)的坐標(biāo)系中由一系列不同閾值的點(diǎn)組成的曲線,其中FPR、TPR計算公式如下:
NA 為預(yù)報和實(shí)況均出現(xiàn)低能見度天氣的次數(shù),NB 為漏報次數(shù),NC 為空報次數(shù),ND 為預(yù)報和實(shí)況均未出現(xiàn)低能見度的次數(shù)。AUC 為0.5 時說明預(yù)測完全是隨機(jī)的;AUC在0.5以上才能說明模型具有正向預(yù)測價值;AUC 越接近1,則模型預(yù)測效果越趨于完美[17]。
根據(jù)時空對應(yīng)關(guān)系將實(shí)況融合資料與模式預(yù)報資料制作成數(shù)據(jù)集??臻g上,以預(yù)測點(diǎn)為中心、邊長為4×4 格點(diǎn)的矩形區(qū)域內(nèi)物理量平均值作為特征變量;時間上,選取起報時間為20 時、預(yù)報時效包含15~36 h 的預(yù)報產(chǎn)品進(jìn)行處理。由于2021年部分時段資料缺失,總共整理出約18萬個樣本。
為了盡量減小樣本極端不均衡對訓(xùn)練過程帶來的影響,試驗中運(yùn)用自助聚合(Bootstrap Aggregating,Bagging)技術(shù)進(jìn)行采樣和建模:在負(fù)樣本遠(yuǎn)多于正樣本的數(shù)據(jù)集中,對大量負(fù)樣本進(jìn)行隨機(jī)采樣50 次,每次可得到與正樣本數(shù)量接近的負(fù)樣本以組成子訓(xùn)練集,即每一份子訓(xùn)練集中的正樣本相同而負(fù)樣本不同。在50份子訓(xùn)練集的基礎(chǔ)上可訓(xùn)練出50 個不同的基模型,將每個基模型的預(yù)測概率進(jìn)行平均處理,則為融合模型。預(yù)先統(tǒng)一設(shè)定基模型的超參數(shù),其中關(guān)鍵超參數(shù)如最大樹深度為7、葉子節(jié)點(diǎn)數(shù)為2、學(xué)習(xí)率為0.06。
試驗共劃分為四組:(a) 基于初始特征的基模型預(yù)測(RAW-BASE);(b) 基于全特征的基模型預(yù)測(ALL-BASE);(c) 基于初始特征的融合模型預(yù)測(RAW-MIX);(d) 基于全特征的融合模型預(yù)測(ALL-MIX)。此外,以基于全特征的LR方法作為參照試驗,稱為ALL-LR,在該方法中設(shè)定根據(jù)樣本數(shù)量來調(diào)整樣本權(quán)重以緩解數(shù)據(jù)不均衡的影響。根據(jù)AUC 評分對各類方案的結(jié)果進(jìn)行評估和對比。
LightGBM 建模方法可通過計算每類特征在分割點(diǎn)產(chǎn)生的信息增益總和來對特征重要性進(jìn)行排序,這有助于深入了解低能見度天氣發(fā)生發(fā)展的氣象環(huán)境條件。如圖3 所示,d2的重要性高達(dá)3 000以上,遠(yuǎn)遠(yuǎn)超過其他特征,這表明了近洋面高度的水汽絕對含量對低能見度天氣過程非常關(guān)鍵。其余特征重要性之間的差異相對較小,第二為T2-T1000,包括T2-T925也排行第六,可見近地層溫差的作用亦不可忽視。往后從大到小分別為v10、u10、T925、T2-T925、msl、q1000等,主要與弱風(fēng)條件有關(guān)。同時注意到,uv10和T1000參考意義并不是很大。
圖3 基于LightGBM的預(yù)報模型輸入特征重要性排序
分別對五種建模方案進(jìn)行訓(xùn)練。其中四種基于LightGBM 的方案中均包含50 個基模型,每個基模型迭代訓(xùn)練1 200 次。RAW-BASE 和ALLBASE方案是對逐個基模型進(jìn)行檢驗,故存在虛線和陰影區(qū)以表示其AUC 評分的平均值和95%置信區(qū)間。而RAW-MIX和ALL-MIX方案則是對融合模型的概率進(jìn)行檢驗。
在訓(xùn)練集上,主要對比RAW-BASE、ALLBASE 和LR 方案的差異。如圖4 所示,在經(jīng)過30次迭代訓(xùn)練后,基于LightGBM 的兩種方案就表現(xiàn)出比LR 更高的擬合精度,最終AUC 評分均達(dá)到了0.9 以上。RAW-BASE 和ALL-BASE 方案的訓(xùn)練曲線比較相似,開始時AUC 評分的提升率較大,在30~40 代之間后者逐漸與前者拉開差距,中后期提升率逐漸減小,AUC評分處于較高水平,模型存在過擬合的風(fēng)險,需進(jìn)一步考察其在測試集上的表現(xiàn)。這表明了引入新特征能夠讓模型更快更好地學(xué)習(xí)到低能見度天氣的發(fā)生規(guī)律。
圖4 模型在訓(xùn)練集上的AUC評分對比
在測試集上,EC-thin 模式對于樣本能見度的原始預(yù)報均在3 000 m以上,難以捕捉低能見度天氣發(fā)生的征兆。從圖5 可以看到,經(jīng)過LR 方法訂正后提升微弱,AUC 評分仍不足0.71,參考性較差。整體來看,基于LightGBM 的建模方案訂正效果顯著優(yōu)于LR 方法,前者AUC 評分均能超過0.85,在800 次迭代訓(xùn)練后基本趨于收斂,穩(wěn)定性較好,反映了基于LightGBM 的建模方法具有優(yōu)秀的非線性擬合能力。
圖5 模型在測試集上的AUC評分對比
在四組基于LightGBM 的訂正方案中,模型擬合穩(wěn)定后的AUC 評分由高到低分別為:ALLMIX、ALL-BASE、RAW-MIX、RAW-BASE。基于全特征的訂正方案(ALL-MIX 和ALL-BASE)相比于原始特征(RAW-MIX 和RAW-BASE)具備更優(yōu)越的改善作用,前者在1 000 代之后集中于0.94附近,后者仍分布在0.87 上下。新特征的構(gòu)造和引入也縮小了基模型的振蕩區(qū)間,有效削弱模型隨機(jī)性,也使得200 代之前的AUC 評分提升更加迅速和平滑。
模型融合與否也會小幅影響其預(yù)測能力。經(jīng)過平均處理后的融合模型(RAW-MIX 和ALLMIX)表現(xiàn)基本與50 個基模型(RAW-BASE 和ALL-BASE)中的最優(yōu)者相當(dāng),更重要的是融合模型可以解決實(shí)際業(yè)務(wù)中我們難以提前得知哪個基模型為最優(yōu)的問題。與基模型相對平穩(wěn)的能力提升不同,融合模型在測試集上的AUC 變化曲線呈現(xiàn)階躍式上升,且在接近1 200代時再次超過基模型,甚至還存在繼續(xù)優(yōu)化的潛力。這些現(xiàn)象說明了融合模型能夠逼近甚至超越最優(yōu)基模型,既避免了基模型選擇困難,還可以加速模型優(yōu)化過程,提高模型學(xué)習(xí)效率,使其更早進(jìn)入穩(wěn)定收斂狀態(tài)??傊瑢Ρ仍囼烌炞C了LightGBM 模型相對于傳統(tǒng)訂正方法具有更大的潛力,而新特征引入和模型融合的技巧能夠?qū)τ喺Чa(chǎn)生正貢獻(xiàn),尤其是構(gòu)造合理的新特征對模型的提升幅度更為突出。
由上述對比可知,最優(yōu)建模方案為ALL-MIX方案,現(xiàn)對ALL-MIX 模型和LR 模型作進(jìn)一步評估。對于第1 200 代的ALL-MIX 模型而言,通過搜索TPR 與FPR 之差的最大值可以確定其最佳概率閾值a為0.999 7 左右,即當(dāng)模型輸出概率P≥a時判斷為水平能見度低于500 m,反之則在500 m以上。同時計算ALL-MIX 模型和LR 模型的交叉矩陣(其最佳概率閾值約為0.953 6)以做進(jìn)一步對比(表3 和表4)??梢园l(fā)現(xiàn),兩者的預(yù)報準(zhǔn)確數(shù)和漏報數(shù)基本一致,命中率都在98%左右,這是訂正模型對模式原始預(yù)報改善作用最突出的方面。與此相反,兩種建模方案的空報數(shù)差距很大,LR 模型的空報數(shù)約為ALL-MIX 模型的8.5 倍,故前者空報率超過93%,后者則控制在61%左右,表明了融合模型相對于傳統(tǒng)模型的優(yōu)勢在于顯著降低了空報率。因此,ALL-MIX模型的TS評分可以達(dá)到38.71%左右,比LR模型提升了5倍以上。
表3 ALL-MIX方案在測試集上的交叉矩陣
表4 ALL-LR方案在測試集上的交叉矩陣
本文從逐小時逐格點(diǎn)的角度出發(fā),在2020 年3 月—2021 年7 月漳州地區(qū)融合實(shí)況資料與ECthin模式歷史預(yù)報產(chǎn)品的基礎(chǔ)上制作數(shù)據(jù)集,將能見度是否低于500 m 作為分類預(yù)測目標(biāo),應(yīng)用集成學(xué)習(xí)中的LightGBM 算法建立了分類預(yù)報訂正模型,利用Bagging 技術(shù)和AUC 評分指標(biāo)在一定程度上克服樣本極端不均衡帶來的影響,并根據(jù)新特征構(gòu)造和模型融合劃分為四種訓(xùn)練方案進(jìn)行試驗,同時設(shè)定基于LR(邏輯回歸)方法的預(yù)測模型作為基準(zhǔn)試驗。經(jīng)過對比分析得到如下結(jié)論。
(1)所有訂正方案對于EC-thin模式原始預(yù)報能力均有不同程度的提升。在所有表征氣象環(huán)境條件的特征中,d2在建模過程中產(chǎn)生的信息增益總和最大,即d2對判斷低能見度天氣發(fā)生發(fā)展最為重要,T2-T1000的重要性次之。
(2)基于LightGBM 方法的訂正模型總體效果優(yōu)于LR 模型。兩者的命中率基本接近,但前者通過削減空報率而進(jìn)一步優(yōu)化了預(yù)測能力。其中ALL-MIX(基于全特征的融合模型)建模方案在測試集上的AUC 評分相比于LR 模型增加了0.387 7,TS 評分也提升了7 倍以上。表明了LightGBM 模型在搜尋非線性復(fù)雜規(guī)律方面具有比較優(yōu)秀的擬合能力和泛化能力。
(3)合理構(gòu)造新特征以及對基模型進(jìn)行平均融合有助于優(yōu)化訂正模型。在四種基于LightGBM 的訓(xùn)練方案中,ALL-MIX 方案可以使模型在測試集上取得最高的AUC 評分。對比試驗表明了合理構(gòu)造新特征對模型的提升幅度更為突出,而模型融合則能夠甚至超越最優(yōu)基模型,既避免了基模型選擇困難,也保持了模型的穩(wěn)定性。
不可忽視的是,本文提出的分類預(yù)報模型仍然存在空報率較高、分類過于簡單等不足,下一步將通過調(diào)整超參數(shù)和增加分類試驗等方法繼續(xù)優(yōu)化和改進(jìn)。