袁 偉 許駿寧 楊志勇 田功平 葉棟水
(1.福建省氣象信息中心,福建 福州 350001;2.福建省減災(zāi)中心,福建 福州 350001;
3.海峽氣象開放實(shí)驗(yàn)室,福建 廈門 361000)
區(qū)域自動(dòng)站觀測(cè)資料往往因站點(diǎn)建設(shè)位置、數(shù)量多不易精細(xì)化管理等原因,數(shù)據(jù)質(zhì)量一定程度上難以保證,同時(shí)也鑒于目前技術(shù)手段的投入與限制等問題,一旦數(shù)據(jù)進(jìn)入相關(guān)業(yè)務(wù)系統(tǒng),往往不易察覺,并帶來系列不良影響。本文圍繞區(qū)域自動(dòng)站觀測(cè)數(shù)據(jù),研究實(shí)時(shí)業(yè)務(wù)中的質(zhì)量控制問題,期望在關(guān)鍵時(shí)候能夠阻止顯性錯(cuò)誤,業(yè)務(wù)應(yīng)用前對(duì)疑似錯(cuò)誤提示告警,必要時(shí)對(duì)大概率異常值先行剔除。
此外,在結(jié)合業(yè)務(wù)需求的研究過程中,我們將隨機(jī)取一次包含降雨的天氣過程的區(qū)域自動(dòng)站、雷達(dá)資料,用于對(duì)文中算法的學(xué)習(xí)與驗(yàn)證,其中區(qū)域自動(dòng)站資料5分鐘觀測(cè)頻率,資料窗口包含天氣過程頭尾共7天的數(shù)據(jù)量進(jìn)行演算。
通常來說,觀測(cè)值與真值之間的誤差有系統(tǒng)誤差、測(cè)量誤差、環(huán)境誤差等[1],表達(dá)如下:
X(t)=X′(t)+E(t)
其中,X′(t)為真值,X(t)為觀測(cè)值,E(t)為觀測(cè)誤差,t為觀測(cè)時(shí)次。
立足區(qū)域自動(dòng)站的觀測(cè)數(shù)據(jù),我們使用誤差來表述觀測(cè)值正常與否,觀測(cè)誤差的基本組成部分理解如下:系統(tǒng)誤差(記為:S(t))可理解為設(shè)備故障、接觸不良、通信中斷等情況代入的數(shù)據(jù)誤差;測(cè)量誤差(記為:R(t))可理解為測(cè)量設(shè)備因可能的老化、校正等情況引起的測(cè)量變動(dòng);環(huán)境誤差(記為:V(t))可理解為測(cè)試、人為性質(zhì)代入的數(shù)據(jù)誤差。為簡化分析,我們僅研究E(t)=S(t)+R(t)+V(t)誤差模型,忽略其他誤差源。對(duì)于不同的誤差來源,需采用相應(yīng)的一些技術(shù)手段,本文將通過重構(gòu)或改造或利用一些分析方法,提出誤差抑制的相關(guān)性分析。值得關(guān)注的是,在較長序列的數(shù)據(jù)中,上述誤差可能會(huì)相互轉(zhuǎn)換,因此需要考慮不同計(jì)算法的混合應(yīng)用。
根據(jù)誤差模型,應(yīng)用歷史資料研究誤差分布,進(jìn)而用于實(shí)時(shí)觀測(cè)的預(yù)測(cè),也是一種研究思路。
此時(shí)根據(jù)原始觀測(cè)值與經(jīng)過人工訂正后的歷史資料,做相應(yīng)研究,如差分、樣條函數(shù)、最小二乘擬合等相關(guān)性研究,挖掘誤差分布情況。
對(duì)于氣象觀測(cè)數(shù)據(jù)的質(zhì)量控制,結(jié)合觀測(cè)設(shè)備的類型和觀測(cè)對(duì)象,國內(nèi)外做了大量的算法研究[2-4],如氣候?qū)W界限值檢查、氣候極值檢查、空間一致性檢驗(yàn)、時(shí)間一致性檢驗(yàn)、統(tǒng)計(jì)分析等。本文的自動(dòng)站數(shù)據(jù)質(zhì)量控制,綜合考慮實(shí)時(shí)業(yè)務(wù)中的時(shí)效性、準(zhǔn)確性,除了結(jié)合這些成熟的技術(shù)外,還將根據(jù)具體的實(shí)時(shí)應(yīng)用,改造或重構(gòu)計(jì)算法,來滿足現(xiàn)有業(yè)務(wù)的部分急需應(yīng)用。
此外,考慮到業(yè)務(wù)實(shí)時(shí)應(yīng)用,將采用更多的輕量級(jí)的質(zhì)控技術(shù),遴選若干種后,最后做綜合評(píng)分,如果質(zhì)控評(píng)估分值超大,則認(rèn)為數(shù)據(jù)顯性異常,如果評(píng)估分值較大,則認(rèn)為數(shù)據(jù)存疑。其他情況對(duì)數(shù)據(jù)放行。
根據(jù)觀測(cè)數(shù)據(jù)的統(tǒng)計(jì)分析,本文復(fù)合應(yīng)用IQR、Z-Score、DBSCAN、LSM等方法進(jìn)行平滑、濾波、外推研究,并根據(jù)其計(jì)算結(jié)果作為質(zhì)量控制的依據(jù)。
相鄰時(shí)次的觀測(cè)值之差,可以有效削弱系統(tǒng)誤差所帶來的影響,尤其是觀測(cè)對(duì)象本身變動(dòng)有規(guī)律的情況下,差分結(jié)果跳變較大時(shí),比較容易發(fā)現(xiàn)異常值,如氣溫、氣壓等要素。與此同時(shí),當(dāng)測(cè)量值出現(xiàn)不變或變動(dòng)范圍很小時(shí),需要改造差分算法,引入長序列穩(wěn)態(tài)判斷,即需要對(duì)長序列數(shù)據(jù)進(jìn)行監(jiān)控,我們通過實(shí)時(shí)計(jì)算差分游程,來探測(cè)數(shù)據(jù)誤差的影響。
設(shè)觀測(cè)時(shí)次t1,t2,t3,...,tn,n為當(dāng)前觀測(cè),觀測(cè)值差分:DX(ti)=X(ti)-X(ti-1) ,則差分游程計(jì)算式如下:
其中α是游程標(biāo)尺閾值,當(dāng)α取0時(shí),為嚴(yán)格的游程過程,容易描述長時(shí)序數(shù)據(jù)的穩(wěn)定性,當(dāng)取α非零值,不同觀測(cè)要素下,適當(dāng)取值,容易描述長時(shí)序數(shù)據(jù)的微變性。統(tǒng)計(jì)連續(xù)0態(tài)或連續(xù)1態(tài)的資料觀測(cè)時(shí)次的次數(shù),稱為穩(wěn)定周期。表1為實(shí)際數(shù)據(jù)在不同標(biāo)尺下的游程穩(wěn)定性估測(cè)。
表1 游程穩(wěn)定周期評(píng)估
從表1可見,隨著α增大,穩(wěn)定周期由小逐漸變大,并開始趨于相對(duì)固定。在實(shí)際業(yè)務(wù)中,我們選取穩(wěn)定周期相對(duì)固定的最小α值作為差分游程技術(shù)的游程標(biāo)尺閾值。
通過對(duì)區(qū)域自動(dòng)站進(jìn)行地理分析,從地理相似條件、距離、海拔等位置出發(fā),嘗試匹配出每個(gè)站的若干鄰近站,用于對(duì)當(dāng)前站的觀測(cè)數(shù)據(jù)質(zhì)量進(jìn)行研判。與此同時(shí),本文嘗試引入雷達(dá)資料進(jìn)行格點(diǎn)化,用于對(duì)某區(qū)域的自動(dòng)站進(jìn)行降水量輔助質(zhì)量控制判斷。綜合這些方式方法,構(gòu)建區(qū)域站鄰近判識(shí)技術(shù)。為找到最佳鄰近站,首先從地理相似條件出發(fā)進(jìn)行篩選:
d={D[Fk(B,L,H),F(B,L,H)]}
其中F(B,L,H)為本站的GCCS地理坐標(biāo),F(xiàn)k(B,L,H)為除本站外的其他站GCCS地理坐標(biāo),D為判斷函數(shù),最簡單的一種方式是取歐氏距離,較復(fù)雜的方式可以考慮等緯度線、等溫線、等壓線等條件。d為篩選集合,在實(shí)際使用時(shí),可取TOP5(例如,按歐氏距離由小到大排序后,取前5個(gè))。通過計(jì)算,則每個(gè)站均能得到相應(yīng)的鄰近站。
其次,針對(duì)每個(gè)站的鄰近站集,再通過歷史數(shù)據(jù)進(jìn)行對(duì)比,找出其觀測(cè)要素相關(guān)性更好的站。要素相關(guān)性采用均方差計(jì)算(考慮到天氣過程的尺度問題,不同的觀測(cè)要素有不同的相關(guān)性屬性,需要設(shè)計(jì)更復(fù)雜的計(jì)算法,本文假設(shè)在同一尺度下進(jìn)行各要素的相關(guān)性研究),取均方差最小的作為觀測(cè)一致性符合程度的判識(shí)依據(jù):
代入實(shí)際區(qū)域站相關(guān)信息運(yùn)算后,并不能保證每個(gè)站都有理想的鄰近站。同時(shí)在實(shí)際運(yùn)算過程中,該算法過程可以設(shè)置為動(dòng)態(tài)學(xué)習(xí)過程,確保找到的鄰近站更能反映本站的一些特性,從而為本站數(shù)據(jù)質(zhì)控提供參考依據(jù)。
天氣過程的尺度選擇依據(jù),我們從某次天氣過程中的雷達(dá)回波演變過程,來粗略劃定一個(gè)區(qū)域,得到一個(gè)回波過程區(qū)域:經(jīng)度范圍[118.00,118.45],緯度范圍[26.75,27.25](按3小時(shí)演變,統(tǒng)計(jì)24小時(shí)的回波覆蓋區(qū)域)。
在這個(gè)區(qū)域內(nèi),再考慮測(cè)站的地理特性,并對(duì)選定的觀測(cè)站點(diǎn)進(jìn)行遍歷計(jì)算,得到每一個(gè)參考站所屬的鄰近集。以F9742觀測(cè)站為例,得到相應(yīng)的鄰近集如表2所示。
表2 TOP5鄰近集
針對(duì)每個(gè)參考站及其鄰近集,分析觀測(cè)要素的相關(guān)性(這里采用要素的均方差):
進(jìn)一步鎖定一個(gè)時(shí)間段內(nèi)的最佳鄰近集,以此確定每個(gè)觀測(cè)站在實(shí)時(shí)業(yè)務(wù)中相當(dāng)可靠的鄰近集。表3是部分鄰近判識(shí)的測(cè)算過程和最佳鄰近集選擇參考,統(tǒng)計(jì)表明歐式距離遠(yuǎn)近能夠反映出部分相關(guān)性,距離越近相關(guān)性要強(qiáng)些,以F9742為例,對(duì)應(yīng)最佳鄰近集的相關(guān)性計(jì)算結(jié)果如表3所示。
表3 最佳鄰近集
根據(jù)每個(gè)參考站的最佳鄰近集,可以采用大數(shù)判決、最小方差等方法,進(jìn)行觀測(cè)預(yù)測(cè),預(yù)測(cè)值可作為參考站的當(dāng)前觀測(cè)值的質(zhì)量控制依據(jù)。整個(gè)計(jì)算過程平滑滾動(dòng),其結(jié)果將隨學(xué)習(xí)過程而作動(dòng)態(tài)調(diào)整,便于實(shí)時(shí)業(yè)務(wù)的應(yīng)用展開。
針對(duì)各種誤差所帶入的觀測(cè)要素,相關(guān)質(zhì)量控制技術(shù)在國內(nèi)外也做過大量的研究如空間一致性、時(shí)間一致性等均有不同程度的質(zhì)量控制效果。本文針對(duì)相關(guān)地區(qū)的區(qū)域站在特殊環(huán)境,設(shè)計(jì)較短時(shí)序的概率落點(diǎn)技術(shù),即統(tǒng)計(jì)分析較短時(shí)序下的觀測(cè)要素的相鄰觀測(cè)值相關(guān)性,構(gòu)建落點(diǎn)統(tǒng)計(jì)矩陣,獲取相應(yīng)落點(diǎn)概率,以此作為判斷短時(shí)效內(nèi)觀測(cè)要素的變動(dòng)范圍及質(zhì)控依據(jù)。
記ti時(shí)次的觀測(cè)值對(duì)應(yīng)ti+1時(shí)次的觀測(cè)值為落點(diǎn)C[X(tk)],相同觀測(cè)值的相同落點(diǎn)計(jì)數(shù)加1,累積落點(diǎn)值∑X(tki),得到落點(diǎn)統(tǒng)計(jì)矩陣:
針對(duì)落地統(tǒng)計(jì)矩陣,到落點(diǎn)概率分布:
其中,p(ki)=∑X(tki)/(∑X(tk1)+…+∑X(tkn))。
當(dāng)C[X(tk)]是ti時(shí)次的觀測(cè)值對(duì)應(yīng)ti+2時(shí)次的觀測(cè)值時(shí),稱為二階落點(diǎn),并對(duì)應(yīng)相應(yīng)的二階落點(diǎn)矩陣和二階落點(diǎn)概率分布,依此類推,本文暫不贅述。
經(jīng)過一定時(shí)間的算法訓(xùn)練后,落點(diǎn)概率分布將趨于穩(wěn)態(tài),學(xué)習(xí)時(shí)間越長,分布越穩(wěn)定,但同時(shí)落點(diǎn)也變得更加離散,擴(kuò)大判斷范圍,不利于質(zhì)量控制應(yīng)用。本文采用實(shí)際數(shù)據(jù)作為算法學(xué)習(xí)訓(xùn)練依據(jù),不同的觀測(cè)要素存在相應(yīng)的最佳時(shí)間窗口。
從上述雷達(dá)回波過程中選取一塊區(qū)域進(jìn)行研究,以F9742對(duì)應(yīng)的降水量要素落點(diǎn)進(jìn)行研究,過程描述如圖1所示。
(a)8日降水落點(diǎn)
計(jì)算表明,降水在8~9日之間有切變,與實(shí)際天氣過程較吻合;氣溫變化穩(wěn)定,落點(diǎn)概率平穩(wěn),表明預(yù)測(cè)參考前一值(或前一天的當(dāng)前時(shí)刻值)有一定意義;氣壓落點(diǎn)概率固定,后經(jīng)數(shù)據(jù)驗(yàn)證為氣壓計(jì)輸出值長時(shí)段內(nèi)不改變。
融合上述幾種計(jì)算法,我們針對(duì)每個(gè)站,利用一定時(shí)序的數(shù)據(jù),預(yù)測(cè)下一個(gè)時(shí)次的數(shù)值,并結(jié)合實(shí)際值進(jìn)行對(duì)比,觀測(cè)與預(yù)測(cè)對(duì)比如圖2所示。
圖2 觀測(cè)與預(yù)測(cè)對(duì)比過程(實(shí)際數(shù)據(jù)分析)
觀測(cè)值與動(dòng)態(tài)預(yù)測(cè)值的相關(guān)系數(shù)為:
觀測(cè)值與動(dòng)態(tài)預(yù)測(cè)值的均方差為:
圖3 觀測(cè)與預(yù)測(cè)對(duì)比過程(模擬異常值)
此時(shí),觀測(cè)值與動(dòng)態(tài)預(yù)測(cè)值的相關(guān)性系數(shù)為:Correl(X,Y)=0.293 ,觀測(cè)值與動(dòng)態(tài)預(yù)測(cè)值的均方差為Stdev(X,Y)=7.01。這反映出相關(guān)性變低,兩者之間表現(xiàn)出背離。從圖3對(duì)比結(jié)果來看,預(yù)測(cè)值能夠較好符合實(shí)時(shí)觀測(cè)值,當(dāng)出現(xiàn)顯性異常時(shí),相關(guān)性背離加快,這在實(shí)時(shí)業(yè)務(wù)應(yīng)用中具備了風(fēng)險(xiǎn)研判和數(shù)據(jù)質(zhì)量訂正依據(jù)。
自動(dòng)站數(shù)據(jù)在災(zāi)害性天氣監(jiān)測(cè)預(yù)警中應(yīng)用最廣泛、最直接,其數(shù)據(jù)質(zhì)量對(duì)于預(yù)報(bào)分析和服務(wù)效果有直接影響。目前也有很多數(shù)據(jù)質(zhì)控平臺(tái)專門對(duì)數(shù)據(jù)進(jìn)行研究與應(yīng)用,且也已經(jīng)實(shí)現(xiàn)了快速質(zhì)控、人工疑誤處理等多種處理方式。然而在實(shí)際業(yè)務(wù)中,仍然存在各式各樣的要素冒“大數(shù)”的現(xiàn)象,如雨量、風(fēng)速、溫度等。本文主要從實(shí)際業(yè)務(wù)出發(fā),業(yè)務(wù)數(shù)據(jù)入口之前通過一定的技術(shù)研究增加數(shù)據(jù)質(zhì)量防火墻或預(yù)警墻,并取得了一定的預(yù)期效果。本文所提的計(jì)算法還有不斷完善和改進(jìn)的空間,需要繼續(xù)探索國內(nèi)外技術(shù),以期繼續(xù)豐富數(shù)據(jù)的質(zhì)量控制技術(shù)。