王立俊 江 益* 王 旭 賀永興 趙 冰
1(海南省氣象信息中心 海南 ???570203) 2(海南省南海氣象防災(zāi)減災(zāi)重點(diǎn)實(shí)驗(yàn)室 海南 海口 570203)
近年來(lái),氣象預(yù)報(bào)和服務(wù)已成為人們出行和工作的關(guān)注重點(diǎn)之一,而實(shí)時(shí)氣象觀測(cè)數(shù)據(jù)的好壞直接影響到氣象預(yù)報(bào)和服務(wù)的實(shí)效性和準(zhǔn)確性,因此確保實(shí)時(shí)氣象觀測(cè)數(shù)據(jù)的高可用性,數(shù)據(jù)質(zhì)量控制環(huán)節(jié)是至關(guān)重要的[1-2]。對(duì)此,中國(guó)氣象局與各省、市級(jí)氣象局一起設(shè)計(jì)、研發(fā)了國(guó)家級(jí)-省級(jí)-臺(tái)站三級(jí)質(zhì)控的氣象資料業(yè)務(wù)系統(tǒng)(Meteorological Data Operation System,MDOS)[3],實(shí)現(xiàn)對(duì)各種類型的氣象原始觀測(cè)數(shù)據(jù)進(jìn)行質(zhì)控,以人機(jī)交互的形式審核質(zhì)控后產(chǎn)生的疑誤數(shù)據(jù)[4]。
目前,MDOS僅使用界限值檢查等基本方法對(duì)小時(shí)能見度數(shù)據(jù)進(jìn)行質(zhì)量控制,且質(zhì)量控制算法較為薄弱,許多疑誤數(shù)據(jù)被漏檢,致使值班人員的數(shù)據(jù)審核效率降低。
中國(guó)氣象局研發(fā)的氣象信息共享系統(tǒng)(China Integrated Meteorological Information Service System,CIMISS)是MDOS系統(tǒng)的數(shù)據(jù)來(lái)源,主要由五個(gè)功能系統(tǒng)組成,分別是收集與分發(fā)模塊CTS、數(shù)據(jù)加工處理模塊DPC、數(shù)據(jù)存儲(chǔ)管理模塊SOD、綜合業(yè)務(wù)監(jiān)控模塊MCP和數(shù)據(jù)共享服務(wù)模塊GDS,部署在國(guó)家和各省級(jí)節(jié)點(diǎn),對(duì)各種氣象資料和產(chǎn)品進(jìn)行收集、加工、存儲(chǔ)及服務(wù),是氣象業(yè)務(wù)、服務(wù)和管理的核心基礎(chǔ)數(shù)據(jù)支撐平臺(tái)[5]。
針對(duì)上述問(wèn)題,本文分析各臺(tái)站的歷年小時(shí)能見度數(shù)據(jù),總結(jié)出各臺(tái)站能見度要素與相對(duì)濕度、風(fēng)速、降水等其他氣象要素之間的關(guān)聯(lián)性,引入時(shí)間一致性檢查、內(nèi)部一致性檢查等多種方法,提出基于CIMISS的DBQC(Dual-Bound Quality Control)算法,算法多時(shí)次地雙重質(zhì)控原始能見度數(shù)據(jù),能快速、準(zhǔn)確地質(zhì)控出能見度疑誤數(shù)據(jù),疑誤信息顯示在Web頁(yè)面供值班人員篩查。業(yè)務(wù)試用結(jié)果表明,系統(tǒng)能快速、準(zhǔn)確地質(zhì)控出更多的能見度疑誤數(shù)據(jù),提高數(shù)據(jù)審核人員篩查疑誤數(shù)據(jù)的效率。
針對(duì)不同類型的氣象數(shù)據(jù),國(guó)內(nèi)外設(shè)計(jì)、研發(fā)了各種質(zhì)量控制系統(tǒng),例如:在地面觀測(cè)業(yè)務(wù)中,北歐采用臺(tái)站級(jí)質(zhì)控、入庫(kù)前實(shí)時(shí)質(zhì)控、入庫(kù)后非實(shí)時(shí)質(zhì)控和人工質(zhì)控的方式對(duì)自動(dòng)站數(shù)據(jù)進(jìn)行質(zhì)控[6];美國(guó)使用臺(tái)站-州-國(guó)家三級(jí)的質(zhì)控方式對(duì)地面觀測(cè)數(shù)據(jù)進(jìn)行質(zhì)控[7];我國(guó)采用的氣象觀測(cè)數(shù)據(jù)質(zhì)控方式是臺(tái)站級(jí)、省級(jí)和國(guó)家級(jí)三級(jí)質(zhì)控[8]。
不同質(zhì)控系統(tǒng)中使用的數(shù)據(jù)質(zhì)量控制方法主要分為以下幾種檢查方法[9-13],分別是氣候界限值檢查、臺(tái)站極值檢查、內(nèi)部一致性檢查、時(shí)間一致性檢查和空間一致性檢查。
1)氣候界限值檢查:通常是從氣候?qū)W的角度去判斷某個(gè)氣象要素的數(shù)值是否超過(guò)了不可能出現(xiàn)的氣象要素臨界值[8]。一般通過(guò)選擇極值上下界來(lái)判定氣象數(shù)據(jù)是否為疑誤數(shù)據(jù)。
2)臺(tái)站極值檢查:檢查原始觀測(cè)數(shù)據(jù)是否超出臺(tái)站已出現(xiàn)過(guò)的歷史極值,如果數(shù)值超過(guò)歷史極值,由觀測(cè)員分析站點(diǎn)歷史數(shù)據(jù),按照實(shí)際情況和工作經(jīng)驗(yàn)判斷觀測(cè)數(shù)據(jù)的正確性[9]。
3)內(nèi)部一致性檢查:不同氣象要素之間在同一時(shí)間內(nèi)是否滿足一定的物理關(guān)系。若相應(yīng)要素不符合這些關(guān)系,則至少有一個(gè)要素為錯(cuò)誤數(shù)據(jù)[10]。
4)時(shí)間一致性檢查:在一定時(shí)間段內(nèi),氣象要素必須滿足規(guī)律性變化[11]。如小時(shí)紫外線有明顯的日變化,如果連續(xù)24小時(shí)無(wú)變化,則數(shù)據(jù)可能為疑誤或錯(cuò)誤。
5)空間一致性檢查:氣象要素在空間上(相鄰臺(tái)站)滿足一定的連續(xù)性,常用方法有空間插值法、Madsen方法[12]、空間回歸檢查法[13]等。
本文設(shè)計(jì)的應(yīng)用是基于CIMISS的接口服務(wù)研發(fā)的,CIMISS系統(tǒng)中數(shù)據(jù)流轉(zhuǎn)的流程如下:CTS實(shí)時(shí)收集臺(tái)站上傳至省級(jí)節(jié)點(diǎn)的各類氣象觀測(cè)數(shù)據(jù),對(duì)數(shù)據(jù)進(jìn)行格式檢查,快速質(zhì)控等操作后,分別分發(fā)至國(guó)家級(jí)和DPC;DPC實(shí)時(shí)對(duì)分發(fā)來(lái)的數(shù)據(jù)進(jìn)行解碼入庫(kù),并調(diào)用數(shù)據(jù)簡(jiǎn)約處理流程負(fù)責(zé)入庫(kù)如地面、高空觀測(cè)類的結(jié)構(gòu)化數(shù)據(jù),諸如雷達(dá)、衛(wèi)星云圖等非結(jié)構(gòu)化數(shù)據(jù)由SOD上的處理流程負(fù)責(zé)入庫(kù);MCP實(shí)時(shí)接收其他模塊發(fā)送的運(yùn)行及告警信息,并監(jiān)控、預(yù)警各類觀測(cè)數(shù)據(jù);CIMISS系統(tǒng)采用MUSIC接口形式封裝數(shù)據(jù)庫(kù)數(shù)據(jù),對(duì)外提供數(shù)據(jù)讀取服務(wù)。
本文設(shè)計(jì)的應(yīng)用采用SSH框架技術(shù),以Browser/Server模式來(lái)跨平臺(tái)呈現(xiàn)能見度質(zhì)控?cái)?shù)據(jù)。SSH框架是由Struts 2、Spring和Hibernate組成的,屬于主流的輕量級(jí)J2EE軟件開發(fā)架構(gòu)。采用該框架開發(fā)應(yīng)用,能較好地對(duì)應(yīng)用功能模塊分層、解耦,明確項(xiàng)目成員分工,加快開發(fā)進(jìn)度,縮短開發(fā)周期,使應(yīng)用具有良好的擴(kuò)展性和維護(hù)性。其中:Struts 2是以Webwork為核心的邏輯控制器,采用攔截器機(jī)制來(lái)響應(yīng)前端用戶提交的Web請(qǐng)求,將Servlet與業(yè)務(wù)邏輯控制器分離[14];Spring是屬于輕量級(jí)的Java Web框架,通過(guò)配置文件及事務(wù)管理機(jī)制,可靈活管理多種數(shù)據(jù)庫(kù),提供多元化的業(yè)務(wù)邏輯[15];Hibernate采用O/R Mapping技術(shù),通過(guò)配置XML文件或Annotation注解為Java對(duì)象和各類數(shù)據(jù)庫(kù)中的表結(jié)構(gòu)建立一種或多種映射關(guān)系,操控對(duì)象即操作數(shù)據(jù)庫(kù)[16]。
目前,MDOS對(duì)能見度要素僅使用界限值檢查等簡(jiǎn)單方法進(jìn)行質(zhì)控,使得許多疑誤數(shù)據(jù)被遺漏,降低數(shù)據(jù)審核值班人員篩查疑誤數(shù)據(jù)的效率。因此,分析、研究海南省各國(guó)家氣象觀測(cè)站的能見度要素與其他要素間的相關(guān)性,總結(jié)得到小時(shí)能見度變化預(yù)估值擬合公式,并引入時(shí)間一致性檢查、內(nèi)部一致性檢查等方法,提出基于CIMISS的DBQC算法,算法通過(guò)多時(shí)次質(zhì)控原始?xì)庀笥^測(cè)數(shù)據(jù),能快速、準(zhǔn)確地質(zhì)控出能見度疑誤數(shù)據(jù)。
與能見度變化直接相關(guān)的要素有降水量、天氣現(xiàn)象(輕霧、霧、霾),但由于臺(tái)站實(shí)現(xiàn)自動(dòng)觀測(cè)后,天氣現(xiàn)象數(shù)據(jù)由能見度與相對(duì)濕度等相關(guān)氣象要素來(lái)判斷,因此不能通過(guò)天氣現(xiàn)象來(lái)判斷能見度要素是否存在疑誤,但相對(duì)濕度、風(fēng)速這兩個(gè)要素與能見度存在一定的關(guān)聯(lián)性。
以部分國(guó)家氣象觀測(cè)站為例,選取2017年6月7日至2018年10月29日時(shí)間段,共計(jì)262 419條地面原始觀測(cè)數(shù)據(jù),分析能見度與相對(duì)濕度、風(fēng)速這兩個(gè)要素的相關(guān)性,得出能見度與相對(duì)濕度、風(fēng)速的相關(guān)系數(shù),如表1所示??梢钥闯霾糠峙_(tái)站能見度與相對(duì)濕度存在負(fù)相關(guān),與風(fēng)速存在正相關(guān)。
表1 部分臺(tái)站能見度與其他要素的相關(guān)系數(shù)
對(duì)小時(shí)能見度實(shí)際變化值ΔV與相對(duì)濕度變化值ΔP、風(fēng)速變化值ΔW進(jìn)行二元線性擬合,得出擬合公式:
Δy=-1 186.7-745.36×ΔP+217.34×ΔW
(1)
式中:Δy為小時(shí)能見度變化預(yù)估值。將預(yù)估值與實(shí)際變化值進(jìn)行對(duì)比,可作為判斷能見度變化是否異常的參考。
此外,當(dāng)能見度出現(xiàn)大幅度降低時(shí),還可通過(guò)上一時(shí)次有無(wú)降水來(lái)判斷能見度是否出現(xiàn)疑誤:
(1)該時(shí)次有降水量,則能見度變化為正?,F(xiàn)象;
(2)該時(shí)次無(wú)降水量,則通過(guò)前后時(shí)次相對(duì)濕度和風(fēng)速的變化來(lái)進(jìn)行判斷。
根據(jù)對(duì)全省歷史小時(shí)能見度與最小能見度進(jìn)行分析和對(duì)各類差值的統(tǒng)計(jì),得出閾值Δ的0取值公式,如式(2)所示,當(dāng)對(duì)比數(shù)值小于閾值Δ時(shí),則該時(shí)次能見度為正確數(shù)值。
(2)
針對(duì)小時(shí)能見度質(zhì)量控制存在的問(wèn)題,分析海南本地能見度與其他氣象要素的相關(guān)性,引入時(shí)間一致性、內(nèi)部一致性等檢查方法,重新設(shè)計(jì)小時(shí)能見度質(zhì)量控制算法(DBQC算法)。其中對(duì)于能見度界限值的檢查,根據(jù)最新氣象觀測(cè)業(yè)務(wù)規(guī)定,小時(shí)能見度的數(shù)值均應(yīng)在0~30 000米的范圍內(nèi)。
算法思路分為兩個(gè)質(zhì)量控制階段a和b,實(shí)現(xiàn)對(duì)能見度數(shù)據(jù)的雙重質(zhì)控,及時(shí)、有效地質(zhì)疑出符合要求的疑誤數(shù)據(jù)。其中:Δ為能見度閾值;V10i為10分鐘平均水平能見度;VMINi為最小水平能見度;Flag為數(shù)據(jù)疑誤標(biāo)識(shí);Δyi為小時(shí)能見度變化預(yù)估值;i為時(shí)次。
1)質(zhì)量控制階段a的流程如圖1所示。遍歷當(dāng)前時(shí)次各臺(tái)站的最小能見度,初始化閾值Δ,并對(duì)V10i和VMINi進(jìn)行極值檢查和同氣象要素間的內(nèi)部一致性檢查,用于初步篩查出滿足條件的疑誤數(shù)據(jù)。接著,比較當(dāng)前時(shí)次能見度實(shí)際變化值ΔV與閾值Δ的大?。?1)若ΔV小于Δ,則該時(shí)次不滿足疑誤條件,屬于正常范圍的數(shù)值。(2)若ΔV大于Δ,需要判斷上一時(shí)次是否出現(xiàn)降水。若出現(xiàn)降水,則該時(shí)次能見度數(shù)據(jù)正確;若無(wú)降水,則需要計(jì)算VMINi與V10i-1的差值,并再與閾值Δ比較,若小于,則該時(shí)次能見度數(shù)據(jù)正確,反之,則由于式(2)的設(shè)定,數(shù)據(jù)被質(zhì)疑為疑誤。
圖1 一階段質(zhì)控流程a
2)質(zhì)量控制階段b的流程如圖2所示。對(duì)階段a中產(chǎn)生的Flag為1的數(shù)據(jù)進(jìn)行再質(zhì)控,先遍歷這些數(shù)據(jù),依次初始化初始化閾值Δ,對(duì)VMINi進(jìn)行極值檢查后,計(jì)算當(dāng)前時(shí)次和上一時(shí)次V10的差值,并與Δ比較。若小于,數(shù)據(jù)為正確的;若大于等于,需判斷是否有降水。若有,數(shù)值未發(fā)生陡降,滿足同一要素的時(shí)間一致性檢查,數(shù)據(jù)為正確;若無(wú),需要計(jì)算下一時(shí)次V10i+1和當(dāng)前時(shí)次VMINi的差值絕對(duì)值,再與Δ比較。若大于等于,數(shù)據(jù)為正確;若小于,計(jì)算實(shí)際變化值ΔVi(V10i-V10i-1)與預(yù)估值Δyi的差值絕對(duì)值,與Δ作最終的比較,若小于,數(shù)據(jù)為正確,反之,為疑誤。
圖2 二階段質(zhì)控流程b
使用Java編程語(yǔ)言來(lái)實(shí)現(xiàn)DBQC算法,系統(tǒng)參數(shù)如表2所示。
表2 系統(tǒng)參數(shù)表
算法處理的業(yè)務(wù)數(shù)據(jù)集為2019年1月至2019年5月期間的所有國(guó)家站逐小時(shí)數(shù)據(jù),調(diào)用CIMISS接口獲取該時(shí)間段原始數(shù)據(jù),預(yù)處理后入本地?cái)?shù)據(jù)庫(kù)。
使用DBQC算法質(zhì)控后的結(jié)果與MDOS系統(tǒng)快速質(zhì)控后的結(jié)果進(jìn)行對(duì)比,結(jié)果如表3所示。表3中的準(zhǔn)確率表示從業(yè)務(wù)數(shù)據(jù)集中篩查出的能見度疑誤數(shù)據(jù),經(jīng)人為確認(rèn)后是否為疑誤的概率。
表3 對(duì)比結(jié)果
由對(duì)比結(jié)果可知,使用DBQC算法質(zhì)控原始觀測(cè)數(shù)據(jù)的能見度要素,比MDOS質(zhì)控出更多的疑誤數(shù)據(jù)。這是因?yàn)镸DOS僅使用界限值檢查等方法對(duì)小時(shí)能見度數(shù)據(jù)進(jìn)行質(zhì)量控制。而DBQC算法引入時(shí)間一致性和內(nèi)部一致性檢查等方法,分析能見度與其他要素的關(guān)聯(lián)性,對(duì)數(shù)據(jù)進(jìn)行多時(shí)次雙重質(zhì)控,能較好地發(fā)現(xiàn)類似“低谷”數(shù)值的疑誤數(shù)據(jù)。因此,本文提出的DBQC算法能快速、準(zhǔn)確地質(zhì)控出更多的能見度疑誤數(shù)據(jù)。
為了讓值班人員能更好、更快地審核能見度疑誤數(shù)據(jù),在上述基礎(chǔ)上,根據(jù)實(shí)際的值班需求,分析、總結(jié)小時(shí)能見度實(shí)時(shí)質(zhì)控的流程,使用基于Java EE的SSH框架,研發(fā)一個(gè)用于展示、搜索經(jīng)過(guò)DBQC算法質(zhì)控后的小時(shí)能見度實(shí)時(shí)質(zhì)控平臺(tái)。
整個(gè)質(zhì)控流程如圖3所示,值班人員通過(guò)瀏覽器打開能見度監(jiān)控頁(yè)面后,后臺(tái)將自動(dòng)調(diào)用小時(shí)能見度質(zhì)控模塊:(1)數(shù)據(jù)入庫(kù):后臺(tái)先從數(shù)據(jù)庫(kù)查詢最新的質(zhì)控時(shí)次,若是第一次部署應(yīng)用,數(shù)據(jù)庫(kù)為新庫(kù),后臺(tái)根據(jù)應(yīng)用服務(wù)器的系統(tǒng)時(shí)間,自動(dòng)生成Music語(yǔ)句讀取接口,獲取相應(yīng)時(shí)間段內(nèi)的原始觀測(cè)數(shù)據(jù)來(lái)初始化數(shù)據(jù)庫(kù),若非新的數(shù)據(jù)庫(kù),后臺(tái)自動(dòng)獲取數(shù)據(jù)庫(kù)中最新的質(zhì)控時(shí)次,并生成Music語(yǔ)句讀取接口來(lái)獲取需要入庫(kù)的原始觀測(cè)數(shù)據(jù)。(2)數(shù)據(jù)質(zhì)控:數(shù)據(jù)入庫(kù)后,后臺(tái)自動(dòng)遍歷質(zhì)控狀態(tài)碼為0(0為未質(zhì)控過(guò),1為完成一階段質(zhì)控,2為完成二階段質(zhì)控),疑誤碼為2(0為疑誤,1為正確,2為未判斷)的數(shù)據(jù),對(duì)這些數(shù)據(jù)進(jìn)行一階段質(zhì)控,篩選出部分疑誤數(shù)據(jù);一階段質(zhì)控完成后,后臺(tái)再對(duì)一階段產(chǎn)生的疑誤數(shù)據(jù)進(jìn)行質(zhì)控。
圖3 實(shí)時(shí)小時(shí)能見度質(zhì)控流程圖
前臺(tái)Web頁(yè)面如圖4所示,值班人員能實(shí)時(shí)看到最新的能見度質(zhì)控結(jié)果,可查詢相關(guān)疑誤數(shù)據(jù)的相關(guān)時(shí)次數(shù)據(jù),便于查找疑誤數(shù)據(jù)出現(xiàn)的原因。
圖4 能見度質(zhì)控展示頁(yè)面
MDOS中現(xiàn)有的能見度質(zhì)控方法比較薄弱,會(huì)漏檢許多疑誤數(shù)據(jù),為提高能見度疑誤數(shù)據(jù)的質(zhì)控效率,在分析海南能見度要素與其他氣象要素的相關(guān)性,引入時(shí)間一致性、內(nèi)部一致性等檢查方法,本文提出DBQC算法。算法對(duì)能見度數(shù)據(jù)進(jìn)行雙重質(zhì)控,與現(xiàn)有MDOS的能見度質(zhì)控效果相比,能有效地質(zhì)控出更多的疑誤數(shù)據(jù)。在此基礎(chǔ)上,研發(fā)一個(gè)能見度質(zhì)控監(jiān)控平臺(tái),使值班人員能快速地篩查能見度疑誤數(shù)據(jù)。經(jīng)業(yè)務(wù)試用,各模塊運(yùn)行穩(wěn)定,有效提高了數(shù)據(jù)審核人員的疑誤篩查效率。