侯靈,陳逸智,黃偉,鄧若釗,尹淑嫻
(1.廣東省氣象數(shù)據(jù)中心,廣東廣州 510080;2.遂溪縣氣象局,廣東遂溪 524300;3.東莞市氣象局,廣東東莞 523000)
廣東省受低緯度熱帶天氣系統(tǒng)和中高緯度天氣系統(tǒng)的交替影響,天氣復(fù)雜多變,是我國氣象災(zāi)害多發(fā)、頻發(fā)的地區(qū)[1-2]。為保障社會經(jīng)濟的高速發(fā)展,加強氣象監(jiān)測預(yù)報能力成為廣東氣象現(xiàn)代化建設(shè)的首要任務(wù)。截止至2021年底,廣東省氣象部門共布設(shè)地面自動氣象站3 400多個,廣東省水文部門共布設(shè)水文氣象站2 108個,全省平均站網(wǎng)密度約6 km,珠三角地區(qū)約3 km。地面自動氣象站業(yè)務(wù)觀測頻次為5 min一次,觀測站網(wǎng)密、觀測頻次高、觀測數(shù)據(jù)量大等特點突出,如何對全省地面氣象站數(shù)據(jù)進行高效采集與質(zhì)量控制成為制約氣象業(yè)務(wù)時效性和準(zhǔn)確性的主要問題[3]。
國內(nèi)外有許多學(xué)者對氣象資料質(zhì)量控制方法做過研究[4-6],華南區(qū)域氣象要素質(zhì)控研究多集中在探測端[7-9],廣東省氣象局目前使用的地面自動氣象站數(shù)據(jù)實時質(zhì)量控制系統(tǒng)是中國氣象局統(tǒng)一部署的氣象資料業(yè)務(wù)系統(tǒng)(meteorological data operational system,MDOS),因MDOS沒有實現(xiàn)5 min時間分辨率的實時資料質(zhì)量控制,導(dǎo)致業(yè)務(wù)工作中使用的實時觀測數(shù)據(jù)均未經(jīng)過質(zhì)控,從而直接影響氣象預(yù)警、決策服務(wù)以及預(yù)報檢驗等工作的準(zhǔn)確性[10]。為此,利用廣東省氣象局一體化數(shù)據(jù)訪問平臺(簡稱MUSIC-GD)獲取逐5 min時間分辨率的實時地面自動氣象站觀測資料,基于消息傳輸、Redis緩存機制,多線程分要素建立質(zhì)量控制業(yè)務(wù)流程,進而提高數(shù)據(jù)質(zhì)控的準(zhǔn)確性和處理效率。
實時質(zhì)控資料為常規(guī)觀測的國家氣象觀測站全部76個要素(氣溫、1 h降水量、本站氣壓、相對濕度、風(fēng)、地溫、草溫、蒸發(fā)、能見度、天氣現(xiàn)象、凍土、積雪及以上要素相關(guān)要素等),區(qū)域氣象觀測站34個觀測要素(氣溫、本站氣壓、相對濕度、1 h降水量、風(fēng)及以上要素相關(guān)要素等)及水文雨量站小時雨量觀測資料,其中國家站和區(qū)域站常規(guī)觀測資料時間頻率為5 min。
針對廣東省地面自動氣象站數(shù)據(jù)的質(zhì)量控制,在參考地面氣象觀測資料質(zhì)量控制行標(biāo)[11]的基礎(chǔ)上,結(jié)合廣東省區(qū)域氣候特征,根據(jù)不同站點地理分布等特征開展相應(yīng)的處理。以氣溫質(zhì)控流程和界限值檢查為例簡要介紹系統(tǒng)中要素質(zhì)控流程及算法設(shè)計。
(1)要素質(zhì)量控制流程。
氣溫進入質(zhì)控模塊后,依次經(jīng)過缺測檢查、界限值檢查、內(nèi)部一致性檢查、時變檢查(5 min、1和3 h時變檢查)、持續(xù)性檢查、空間一致性檢查、特殊天氣事件檢查、綜合檢查。當(dāng)缺測檢查未通過時,判斷該臺站要素是否有此觀測項,中斷質(zhì)控流程,直接進入綜合檢查;反之,按照質(zhì)控流程依次進行質(zhì)控。
(2)氣溫界限值檢查。
氣溫界限值檢查通過檢查氣溫要素是否在其測量允許值范圍之內(nèi),判定數(shù)據(jù)正確與否。本系統(tǒng)利用氣候?qū)W界限值檢查、區(qū)域界限值檢查和區(qū)域界限值臨近站輔助檢查3類質(zhì)控算法進行氣溫界限值檢查。氣候?qū)W界限值檢查時選取[-60℃,80℃]為氣溫的氣候?qū)W范圍,超過該范圍的氣溫值,直接標(biāo)記為數(shù)據(jù)錯誤,不再進行后續(xù)質(zhì)控檢查。
區(qū)域界限值檢查時,針對廣東省復(fù)雜的下墊面分布,將地面自動氣象站探測地表環(huán)境分為城市和山區(qū)兩類。根據(jù)全省各個臺站自建站以來的氣溫觀測數(shù)據(jù),統(tǒng)計得到各月氣溫的最大值tmax和最小值tmin(表1),并以此為界限標(biāo)準(zhǔn),根據(jù)氣溫值是否在對應(yīng)的極值范圍內(nèi),判斷氣溫值是否正確。
表1 廣東省地面自動氣象觀測站氣溫歷史極值℃
當(dāng)區(qū)域界限值檢查判斷數(shù)據(jù)為錯誤時,仍需開展區(qū)域界限值臨近站輔助檢查,以避免因極端天氣引起的觀測數(shù)據(jù)被誤判。主要有兩種情況:
一是當(dāng)氣溫值>42℃(全年極大值)或<-7.3℃(全年極小值)時,需與周圍50 km范圍內(nèi)最近的5個鄰近自動氣象站觀測到的氣溫平均值(tave)進行比較。若|t-tave|>5℃,則數(shù)據(jù)判斷為明顯錯誤數(shù)據(jù);若|t-tave|<5℃,質(zhì)控碼標(biāo)記為一般錯誤。
二是當(dāng)月的氣溫值超過本月的極值,但又低于全年的極值,即tmax<t≤42℃,或者-7.3℃≤t<tmin,也需與周圍50 km范圍內(nèi)最近的5個鄰近站氣溫的平均值(tave)進行比較。若|t-tave|>8℃,則數(shù)據(jù)判斷為明顯錯誤數(shù)據(jù);若5℃≤|t-tave|≤8℃,則數(shù)據(jù)判斷為一般錯誤;|t-tave|<5℃,數(shù)據(jù)標(biāo)記為可疑。
實時質(zhì)控中,為了均衡臨近站數(shù)據(jù)完整度與質(zhì)控時效,系統(tǒng)設(shè)置當(dāng)前時次自動站到報數(shù)達到3 000個時,啟動區(qū)域界限值臨近站輔助檢查,同時標(biāo)記臨近站未滿5個而沒有啟動臨近站輔助檢查的臺站,每間隔1 min重新啟動一次,重復(fù)執(zhí)行5次后若臨近站仍未滿5個,則該臺站跳過該項檢查。
依此類推,對地面自動氣象站的其它觀測要素也分別依據(jù)要素特征開展質(zhì)控,并利用質(zhì)量控制標(biāo)識(表2)表征數(shù)據(jù)質(zhì)量狀況,用戶可以根據(jù)質(zhì)量控制標(biāo)識,結(jié)合自身需求情況,對觀測數(shù)據(jù)進行處理與應(yīng)用。
表2 質(zhì)量控制碼
由于空間一致性檢查依賴于臨近站、臨近時次的觀測資料,但實際業(yè)務(wù)中,不同臺站受校時、信號、網(wǎng)絡(luò)等影響,同一觀測時次數(shù)據(jù)到報時間很難統(tǒng)一。為了確保質(zhì)控效率,按照到報時間與觀測時間差值及是否為更正報將待檢數(shù)據(jù)分為暫不進行空間一致性檢查的(A)、只進行空間一致性檢查的(B)、運行全部質(zhì)控算法的(C)、更正報暫不進行空間一致性檢查的(D)和更正報運行全部質(zhì)控算法的(E)數(shù)據(jù),根據(jù)數(shù)據(jù)分類確定其質(zhì)控和入庫流程。
質(zhì)控后的數(shù)據(jù)以消息的形式發(fā)送給入庫模塊,入庫模塊通過判斷數(shù)據(jù)分類,暫不跑空間一致性的數(shù)據(jù),在數(shù)據(jù)庫表中標(biāo)記為待更新,待所有質(zhì)控方法完成后更新表中質(zhì)控碼;所有質(zhì)控方法都跑的數(shù)據(jù)和不需要跑空間一致性的數(shù)據(jù)直接入庫,標(biāo)記入庫完成。實時質(zhì)控流程見圖1。
圖1 實時質(zhì)控流程示意圖
系統(tǒng)利用數(shù)據(jù)更新時間通過實時數(shù)據(jù)接口一次獲取近千條觀測記錄,在有歷史數(shù)據(jù)補調(diào)時,調(diào)用量甚至達到上萬條,數(shù)據(jù)量持續(xù)激增會導(dǎo)致質(zhì)控各環(huán)節(jié)耗時成倍增加。為了提高質(zhì)控時效,主要采用集中加載分流、集群化部署、多線程處理和緩存技術(shù)。
集中加載分流。根據(jù)觀測時間被質(zhì)控數(shù)據(jù)分為實時數(shù)據(jù)和補調(diào)歷史數(shù)據(jù),實時數(shù)據(jù)在實時加載后同步進行質(zhì)控任務(wù)分發(fā),進行后續(xù)質(zhì)量控制處理;但對由于觀測系統(tǒng)自身故障未上報,需要通過補調(diào)上報的補調(diào)歷史數(shù)據(jù),則通過定時觸發(fā)、異步處理的方式加載數(shù)據(jù)進行質(zhì)控任務(wù)分發(fā);實時數(shù)據(jù)同步質(zhì)控任務(wù)分發(fā)與補調(diào)歷史數(shù)據(jù)異步質(zhì)控任務(wù)分發(fā)相結(jié)合,保證被質(zhì)控的觀測數(shù)據(jù)時間序列上的完整性。
集群化部署、多線程處理。質(zhì)控處理采用多臺機器、多線程并行模式,當(dāng)前業(yè)務(wù)中已部署10個處理節(jié)點,每節(jié)點180線程,共計1 800線程,所有線程同時對數(shù)據(jù)質(zhì)控任務(wù)進行處理,以此提高全省數(shù)據(jù)的質(zhì)控處理速度。同時,為及時向應(yīng)用提供服務(wù),同樣采用多線程入庫處理,質(zhì)控更新數(shù)據(jù)借助臨時表采用插入方式更新數(shù)據(jù),減少入庫積壓,提高入庫時效。
緩存技術(shù)。質(zhì)控處理過程中需要頻繁的訪問相應(yīng)的參數(shù)、閾值、臨近站點等信息,因此提前將相關(guān)信息存儲到高性能緩存數(shù)據(jù)庫系統(tǒng)Redis,并持續(xù)優(yōu)化緩存數(shù)據(jù)結(jié)構(gòu),節(jié)約了每次從存儲上讀取配置的耗時,提高了系統(tǒng)的處理效率。
目前國家站、區(qū)域站、水文站數(shù)據(jù)入庫后1 min質(zhì)控完成率達到95%左右,基本能夠滿足實時業(yè)務(wù)需求。
系統(tǒng)業(yè)務(wù)應(yīng)用之前,利用10臺虛擬機作為質(zhì)控節(jié)點集群進行了系統(tǒng)壓力測試,每臺測試機配置相同(linux系統(tǒng)、CPU為8核、內(nèi)存為32 G),每臺測試機分別設(shè)置線程池為10、50、100、150、180、200個進行測試,測試20組1 h(12個5 min時次)數(shù)據(jù)在每臺測試機設(shè)置不同線程池數(shù)下的質(zhì)控平均耗時及CPU和內(nèi)存使用率情況(表略)。測試發(fā)現(xiàn),當(dāng)每臺測試機線程池數(shù)≥150時,平均每個時次質(zhì)控耗時差別不大;線程池為180時,平均耗時最短為52 s。平均每臺測試機CPU使用率為20% ~30%,內(nèi)存使用率為50%左右,機器性能較好,運行穩(wěn)定。
2021年9月17日,探測數(shù)據(jù)中心通過IDEA發(fā)布質(zhì)控數(shù)據(jù)和質(zhì)控訂正數(shù)據(jù)接口,用戶根據(jù)自身需求調(diào)用相應(yīng)數(shù)據(jù)集。為了確保調(diào)用原始數(shù)據(jù)的舊業(yè)務(wù)系統(tǒng)如SWIFT2.0(圖2)等順利過渡到質(zhì)控后數(shù)據(jù),將質(zhì)控訂正數(shù)據(jù)中錯誤和明顯錯誤數(shù)據(jù)作缺測處理,如2022年2月11日07:00—2月12日03:00(世界時)G5605海豐縣城東鎮(zhèn)合利農(nóng)業(yè)站由于降水儀器故障出現(xiàn)了極端錯誤降水,質(zhì)控系統(tǒng)及時發(fā)現(xiàn)并訂正后將缺測數(shù)據(jù)提供給業(yè)務(wù)系統(tǒng),減少了錯誤數(shù)據(jù)對業(yè)務(wù)的影響。
圖2 錯誤數(shù)據(jù)經(jīng)質(zhì)控訂正在SWIFT2.0上顯示視屏
2021年6月1日起向廣東省所有自動站發(fā)送告警信息,目前每天發(fā)送短信1 000余條。統(tǒng)計2021年廣東省考核區(qū)域自動站的數(shù)據(jù)可用率(圖3)。
由圖3可知,隨著疑誤告警業(yè)務(wù)運行,6—12月全省考核區(qū)域站可用率呈持續(xù)上升趨勢,平均值為99.79%,相較于告警應(yīng)用前的1—5月可用率平均值99.59%升高了0.2%,可見質(zhì)控系統(tǒng)在提高數(shù)據(jù)可用性方面取得了良好的業(yè)務(wù)效益。
目前,廣東省地面自動氣象觀測資料質(zhì)量控制系統(tǒng)已在全省開展業(yè)務(wù)應(yīng)用,基于質(zhì)控后數(shù)據(jù)建立了省市縣疑誤數(shù)據(jù)實時聯(lián)動處理機制,為臺站進行儀器維護及數(shù)據(jù)管理提供了技術(shù)支撐;系統(tǒng)通過MUSIC-GD為全省實時氣象業(yè)務(wù)提供經(jīng)過質(zhì)控的數(shù)據(jù),大幅減少了錯誤數(shù)據(jù)對實時業(yè)務(wù)的影響,取得了較好的業(yè)務(wù)效益。
隨著氣象服務(wù)社會影響力的不斷提高,仍需不斷優(yōu)化常規(guī)質(zhì)控算法以滿足氣象業(yè)務(wù)對數(shù)據(jù)準(zhǔn)確率的更高要求。在下一步研究中,考慮融合智能天象圖片、X波段相控陣?yán)走_資料等高精度、多維度的新型觀測資料,協(xié)同質(zhì)控以不斷提高質(zhì)控準(zhǔn)確率。