郭佳賓 程麗丹 金雙根
全球衛(wèi)星導(dǎo)航系統(tǒng)(GNSS)無線電掩星技術(shù)利用導(dǎo)航衛(wèi)星與低軌衛(wèi)星之間的信號延遲來反演全球高精度大氣參數(shù),在大氣探測和氣象預(yù)報中具有重要的應(yīng)用前景[1].1995年,美國成功進(jìn)行了GPS/MET探測計(jì)劃,首次證明了大氣掩星探測的可行性[2].2001年,德國發(fā)射了CHAMP衛(wèi)星,該衛(wèi)星搭載的掩星載荷更為先進(jìn),在掩星資料的數(shù)量以及資料精度上都有了較大改進(jìn)[3-4].2006年,中國臺灣和美國聯(lián)合研制的COSMIC衛(wèi)星成功發(fā)射,該星座共有在軌衛(wèi)星6顆[5].2012年9月,歐洲氣象衛(wèi)星組織正式發(fā)射了METOP-B星[6].2013年8月,韓國發(fā)射了KOMPSAT-5衛(wèi)星[7].2018年11月,歐洲氣象衛(wèi)星組織又再次發(fā)射了METOP-C星.在COSMIC取得巨大成功后,美國與中國臺灣再次合作,開展了COSMIC-2計(jì)劃,并于2019年6月下旬發(fā)射[8].2013年9月,我國發(fā)射了FY-3C衛(wèi)星.FY-3C星上新增的GNOS載荷是國內(nèi)第一個星上GNSS無線電掩星探測儀,該載荷可以同時接收北斗與GPS信號,從而大大提升了探測能力[9].
GNSS掩星探測技術(shù)擁有全天時、高精度、高分辨率等優(yōu)勢,但搭載低軌衛(wèi)星數(shù)量少,數(shù)據(jù)空間分辨率低于傳統(tǒng)再分析資料,且在較低高度上,由于水汽以及折射、超折射現(xiàn)象的存在,導(dǎo)致掩星數(shù)據(jù)質(zhì)量較差.廖蜜等[10]研究證明了FY-3C的中性大氣折射率產(chǎn)品的精度基本能夠達(dá)到預(yù)定目標(biāo);徐曉華等[11]將FY-3C掩星數(shù)據(jù)與IGRA2 探空資料進(jìn)行比較,證明了兩種資料的一致性,但存在一定的差異;魏晉德[12]通過對FY-3C的掩星產(chǎn)品質(zhì)量進(jìn)行研究,證明了產(chǎn)品的可靠性,并使用相關(guān)產(chǎn)品對對流層頂特征進(jìn)行了相關(guān)研究.上述文獻(xiàn)均指出了FY-3C掩星數(shù)據(jù)的質(zhì)量問題,但并未提出對數(shù)據(jù)質(zhì)量進(jìn)行改進(jìn)的方法.GNSS掩星數(shù)據(jù)量大,對其精度進(jìn)行分析時,通常是一個統(tǒng)計(jì)平均的結(jié)果.因此可以使用機(jī)器學(xué)習(xí)方法對掩星廓線數(shù)據(jù)進(jìn)行修正.本文將FY-3C的溫度廓線數(shù)據(jù)與ERA5再分析數(shù)據(jù)作為輸入值,分別使用神經(jīng)網(wǎng)絡(luò)方法和隨機(jī)森林回歸算法對其進(jìn)行修正,并對修正結(jié)果做出評價.
1.1.1 GNSS掩星數(shù)據(jù)
本文所采用的數(shù)據(jù)是由風(fēng)云數(shù)據(jù)網(wǎng)提供的2017年1月1日—12月31日FY-3C的L2溫度廓線數(shù)據(jù),其中6月1—31日沒有數(shù)據(jù).圖1展示了2017年3月1—7日的掩星事件在中國區(qū)域的分布狀況.
圖1 2017年3月1日與3月1—7日掩星事件在中國區(qū)域分布狀況Fig.1 Distribution ofradio occultation events in China on March 1,2017 and during March 1-7,2017
1.1.2 ERA5再分析數(shù)據(jù)
ERA5再分析數(shù)據(jù)的前身是ERA-Interim[13-14],是由歐盟提供資助、ECMWF(歐洲中期天氣預(yù)報中心)進(jìn)行運(yùn)營的新一代再分析資料[15].在此之前,再分析資料已經(jīng)歷經(jīng)了FGGE、ERA-15、ERA-40等產(chǎn)品[16].ERA5再分析數(shù)據(jù)水平分辨率為0.25°×0.25°,垂直分辨率為37層,時間分辨率為1 h.本文使用的是150 hPa的ERA5數(shù)據(jù),其高度在10 km左右.
1.2.1 神經(jīng)網(wǎng)絡(luò)方法
BP神經(jīng)網(wǎng)絡(luò)方法可以學(xué)習(xí)與存儲較多的輸入-輸出模式的映射關(guān)系,且無需事先知道這種映射關(guān)系的數(shù)學(xué)方程.BP神經(jīng)網(wǎng)絡(luò)的拓?fù)浣Y(jié)構(gòu)中包括輸入層、隱層以及輸出層.首先在輸入層輸入學(xué)習(xí)樣本,然后使用反向傳播方法,不斷地計(jì)算每個節(jié)點(diǎn)的權(quán)值與偏差,并進(jìn)行調(diào)整,使輸出層的值與預(yù)期值盡可能靠攏.當(dāng)輸出值與預(yù)期值滿足設(shè)定條件時,保存整個網(wǎng)絡(luò)的權(quán)值與偏差[17].本文的輸入層、隱層以及輸出層關(guān)系如圖2所示.
圖2 神經(jīng)網(wǎng)絡(luò)方法原理Fig. 2 Principle of neural network algorithm
1.2.2 隨機(jī)森林
隨機(jī)森林是指利用多棵樹對樣本進(jìn)行訓(xùn)練,并預(yù)測的一種分類器.隨機(jī)森林回歸算法對于多種資料,可以產(chǎn)生高準(zhǔn)確度的分類器,可以處理大量的輸入變數(shù).在存在N個數(shù)據(jù)的樣本集中,每個樣本的輸入特征向量都有k個特征,通過依次有放回的抽樣得到它們的子樣本集,將子樣本集帶入決策樹中,這樣每棵決策回歸樹會隨機(jī)選取特征,進(jìn)而通過訓(xùn)練得到一系列回歸結(jié)果,再對這些回歸結(jié)果取平均得到最終的回歸結(jié)果[18],以此來降低回歸方差.隨機(jī)森林回歸算法結(jié)構(gòu)如圖3所示.
圖3 隨機(jī)森林回歸算法結(jié)構(gòu)示意Fig. 3 Structure of random forest regression algorithm
1.3.1 GNSS掩星數(shù)據(jù)與再分析資料處理
使用機(jī)器學(xué)習(xí)算法對掩星數(shù)據(jù)修正前,要對掩星數(shù)據(jù)和再分析數(shù)據(jù)的時空特征進(jìn)行匹配,生成若干組數(shù)據(jù)對.具體匹配規(guī)則為:時間間隔1 h;空間上選擇距離掩星點(diǎn)最近點(diǎn)的ERA5溫度數(shù)據(jù).將經(jīng)緯度、時間等數(shù)據(jù)進(jìn)行歸一化處理[19],處理規(guī)則如下:
(1)
(2)
(3)
其中:Ilat,ro為掩星事件的緯度信息;Ilat為歸一化的掩星事件的緯度信息;Ilon,ro為掩星事件的經(jīng)度信息;Ilon為歸一化的掩星事件的經(jīng)度信息;Itime,ro為掩星事件的時間信息;Itime為歸一化的掩星事件的時間信息.
圖5 不同緯度帶平均絕對誤差差值與均方誤差差值Fig. 5 Differences of MAE and MSE at different latitudes
1.3.2 機(jī)器學(xué)習(xí)參數(shù)設(shè)置
在經(jīng)過數(shù)據(jù)時空特征匹配后,隨機(jī)選取80%的數(shù)據(jù)對組成訓(xùn)練集,剩下的20%數(shù)據(jù)對組成測試集.從圖4可以看到,訓(xùn)練集與測試集具有相似的緯度分布特征.
圖4 掩星數(shù)據(jù)訓(xùn)練集與測試集緯度特征分布Fig. 4 Latitude distribution of training set and test set of radio occultation data
神經(jīng)網(wǎng)絡(luò)模型選擇5層全連接的神經(jīng)網(wǎng)絡(luò),每個隱藏層設(shè)置10個神經(jīng)元,損失函數(shù)設(shè)置為mse,參數(shù)更新采用Adam方法.隨機(jī)森林回歸模型中設(shè)置了100棵樹,且不限制每棵決策樹的樹最大深度和最大葉節(jié)點(diǎn)數(shù)目,將決策樹放入隨機(jī)森林避免過擬合.
將全球化分為18×18個網(wǎng)格,即10°(lat)×10°(lon).計(jì)算每一個網(wǎng)格的平均絕對誤差與均方誤差.
(4)
(5)
式中:Tmae是該網(wǎng)格的溫度平均絕對誤差;Tmse是該網(wǎng)格的溫度的均方誤差;Tro,t是網(wǎng)格內(nèi)任一掩星廓線的溫度值;Trea5,t為對應(yīng)的再分析資料的溫度值;N為該網(wǎng)格內(nèi)數(shù)據(jù)對的個數(shù).
ΔTmae=Tmae,ro-ec-Tmae,pre-ec,
(6)
ΔTmse=Tmse,ro-ec-Tmse,pre-ec,
(7)
式中:Tmae,ro-ec為網(wǎng)格內(nèi)未修正前的掩星數(shù)據(jù)與再分析數(shù)據(jù)的平均絕對誤差;Tmae,pre-ec為使用相應(yīng)方法修正后的掩星數(shù)據(jù)與再分析數(shù)據(jù)的平均絕對誤差;Tmse,ro-ec為網(wǎng)格內(nèi)未修正前的掩星數(shù)據(jù)與再分析數(shù)據(jù)的均方誤差;Tmse,pre-ec為使用相應(yīng)方法修正后的掩星數(shù)據(jù)與再分析數(shù)據(jù)的均方誤差;ΔTmse為修正前后均方誤差的差值,該值越大表明修正效果越好,反之則修正效果越差;ΔTmae為修正前后平均絕對誤差的差值,該值越大表明修正效果越好,反之則修正效果越差.
圖5為不同緯度帶上神經(jīng)網(wǎng)絡(luò)方法與隨機(jī)森林回歸算法對FY-3C掩星數(shù)據(jù)的修正結(jié)果.可以看到,在全球范圍內(nèi),兩種方法都可以對掩星數(shù)據(jù)進(jìn)行修正,且隨機(jī)森林算法的修正效果遠(yuǎn)勝神經(jīng)網(wǎng)絡(luò)方法.
兩種方法在中緯度地區(qū)的修正效果要優(yōu)于其他兩個緯度帶.北半球的修正效果略優(yōu)于南半球的修正效果,這是FY-3C星自身原因造成的:北半球的廓線數(shù)據(jù)略多于南半球,更多的數(shù)據(jù)意味著更多的樣本與特征,能讓模型對經(jīng)緯度參數(shù)更加敏感.
從表1可以看出,在高緯度地區(qū),使用神經(jīng)網(wǎng)絡(luò)方法修正后的溫度數(shù)據(jù)均方誤差與平均絕對誤差,北半球的正向收益均大于南半球.隨機(jī)森林回歸算法的南北半球修正結(jié)果較為一致.
表1 高緯度地區(qū)兩種方法修正結(jié)果
從圖6、7得知,在高緯度地區(qū)的108個網(wǎng)格中,經(jīng)過神經(jīng)網(wǎng)絡(luò)與隨機(jī)森林修正后的掩星溫度數(shù)據(jù)大部分具有正向收益,且隨機(jī)森林回歸算法的修正效果遠(yuǎn)高于神經(jīng)網(wǎng)絡(luò)方法.神經(jīng)網(wǎng)絡(luò)與隨機(jī)森林回歸算法對平均絕對誤差的正向修正率分別為74.07%與96.3%,對均方誤差的正向修正率分別為66.67%與90.74%.
圖6 高緯度地區(qū)神經(jīng)網(wǎng)絡(luò)方法對平均絕對誤差與均方誤差的修正結(jié)果Fig. 6 Correction of MAE and MSE by neural network in high latitudes
圖7 高緯度地區(qū)隨機(jī)森林回歸算法對平均絕對誤差與均方誤差的修正結(jié)果Fig. 7 Correction of MAE and MSE by random forest regression in high latitudes
從表2可以看出,在中緯度地區(qū),兩種方法的修正結(jié)果都具有正向收益.在每項(xiàng)修正指標(biāo)中,隨機(jī)森林回歸算法的修正效果約為神經(jīng)網(wǎng)絡(luò)方法的10倍.
表2 中緯度地區(qū)兩種方法修正結(jié)果
從圖8可以看到,均方誤差和平均絕對誤差的差值范圍集中在-0.4~0.6 K2與-0.1~0.15 K之間,相比于修正前的結(jié)果提升不大.對均方誤差與平均絕對誤差的修正率分別為70.37%與80.55%.
圖8 中緯度地區(qū)神經(jīng)網(wǎng)絡(luò)方法對平均絕對誤差與均方誤差的修正結(jié)果Fig. 8 Correction of MAE and MSE by neural network in middle latitudes
從圖9可以看到,使用隨機(jī)森林回歸算法后,均方誤差與平均絕對誤差的差值范圍分別集中于0~2.5 K2與0~0.6 K.對均方誤差與平均絕對誤差的修正率分別為92.59%與98.15%.
美國卡內(nèi)基·梅隆大學(xué)計(jì)算機(jī)科學(xué)系主任周以真教授在2006 年提出的“計(jì)算思維”(Computational Thinking),認(rèn)為:計(jì)算思維是運(yùn)用計(jì)算機(jī)科學(xué)的基礎(chǔ)概念進(jìn)行問題求解、系統(tǒng)設(shè)計(jì)以及人類行為理解的思維活動[2]。
圖9 中緯度地區(qū)隨機(jī)森林回歸算法對平均絕對誤差與均方誤差的修正結(jié)果Fig. 9 Correction of MAE and MSE by random forest regression in middle latitudes
從圖10可以看到,對均方誤差與平均絕對誤差的修正率分別為66.67%與72.22%,且在某一塊區(qū)域整體呈現(xiàn)為正向收益與負(fù)向收益.如5°S~5°N處大部分表現(xiàn)為負(fù)收益,25°S與25°N處表現(xiàn)為正收益.低緯度地區(qū)兩種方法修正結(jié)果如表3所示.
圖10 低緯度地區(qū)神經(jīng)網(wǎng)絡(luò)方法對平均絕對誤差與均方誤差的修正結(jié)果Fig. 10 Correction results of MAE and MSE by neural network in low latitudes
表3 低緯度地區(qū)兩種方法修正結(jié)果
從圖11可以看到,在低緯度地區(qū),隨機(jī)森林回歸算法對均方誤差與平均絕對誤差的修正率分別為95.37%與98.15%,且隨機(jī)森林回歸算法的正向收益與負(fù)向收益的分布沒有明顯的分布規(guī)律.
圖11 低緯度地區(qū)隨機(jī)森林回歸算法對平均絕對誤差與均方誤差的修正結(jié)果Fig. 11 Correction of MAE and MSE by random forest regression in low latitudes
本文采用神經(jīng)網(wǎng)絡(luò)方法和隨機(jī)森林回歸算法對2017年FY-3C掩星廓線的溫度數(shù)據(jù)進(jìn)行修正和評估,按照10°×10°將全球劃分為324個網(wǎng)格計(jì)算有效修正率,對兩種修正效果的空間分布特征進(jìn)行研究,得到如下結(jié)論:
1)神經(jīng)網(wǎng)絡(luò)方法與隨機(jī)森林回歸算法均可以對FY-3C掩星溫度數(shù)據(jù)進(jìn)行修正,其中隨機(jī)森林回歸算法對平均絕對誤差與均方誤差的正向修正率超過90%,神經(jīng)網(wǎng)絡(luò)方法對平均絕對誤差與均方誤差的正向修正率超過66.67%.
2)將修正結(jié)果按照高中低三個緯度劃分,隨機(jī)森林回歸算法對三個緯度帶的平均絕對誤差的正向修正率分別為96.3%、98.15%和98.15%;均方誤差的正向修正率分別為90.74%、92.59%和95.37%.神經(jīng)網(wǎng)絡(luò)方法對三個緯度帶的平均絕對誤差的正向修正率分別為74.07%、80.55%和72.22%;均方誤差的正向修正率分別為66.67%、70.37%和66.67%.
3)神經(jīng)網(wǎng)絡(luò)方法和隨機(jī)森林回歸算法在北半球GNSS掩星溫度剖面修正效果略優(yōu)于南半球.