譚曉光羅 兵
1)(中國氣象局北京城市氣象研究所,北京100089)2)(國家氣象中心,北京100081)
天氣預(yù)報(bào)分析型數(shù)據(jù)模型及生成
譚曉光1)*羅 兵2)
1)(中國氣象局北京城市氣象研究所,北京100089)2)(國家氣象中心,北京100081)
將原始數(shù)據(jù)轉(zhuǎn)換為分析型數(shù)據(jù),增強(qiáng)用戶對(duì)海量數(shù)據(jù)的分析能力,是數(shù)據(jù)倉庫技術(shù)最核心、最有價(jià)值的思想,也是數(shù)據(jù)倉庫在氣象領(lǐng)域應(yīng)用的基礎(chǔ)。該文針對(duì)天氣預(yù)報(bào)領(lǐng)域數(shù)據(jù)空間性、瞬變性、物理性和多尺度性等特點(diǎn),提出了五元組描述的天氣預(yù)報(bào)分析型數(shù)據(jù)概念模型;總結(jié)了生成分析型數(shù)據(jù)的固定區(qū)域統(tǒng)計(jì)、劃分區(qū)域統(tǒng)計(jì)、基本天氣系統(tǒng)識(shí)別和天氣學(xué)概念模型識(shí)別4種聚集變換,并對(duì)其關(guān)鍵技術(shù)進(jìn)行了討論。提出了基本天氣系統(tǒng)自動(dòng)識(shí)別的濾波-劃分-測量算法,探討了針對(duì)氣象數(shù)據(jù)特點(diǎn)的模糊空間關(guān)系,定義了進(jìn)行天氣學(xué)概念模型識(shí)別的空間模糊產(chǎn)生式規(guī)則,并針對(duì)空間數(shù)據(jù)給出了定位條件等擴(kuò)展。
天氣預(yù)報(bào);數(shù)據(jù)倉庫;分析型數(shù)據(jù);天氣系統(tǒng)識(shí)別
目前天氣預(yù)報(bào)業(yè)務(wù)中預(yù)報(bào)員獲取的數(shù)據(jù)量迅速增長,“信息爆炸”問題突出。為了解決問題,開發(fā)以數(shù)據(jù)檢索、圖形顯示為主要功能的人機(jī)交互系統(tǒng),使預(yù)報(bào)員能夠快速檢索、查看、分析各種氣象數(shù)據(jù)。但由于數(shù)據(jù)量過于龐大,預(yù)報(bào)員進(jìn)行預(yù)報(bào)決策時(shí)間相對(duì)較短,很難充分利用。在大量的數(shù)值預(yù)報(bào)產(chǎn)品面前,預(yù)報(bào)員往往只了解其預(yù)報(bào)結(jié)果;衛(wèi)星、雷達(dá)系統(tǒng)產(chǎn)生的大量反演產(chǎn)品、密集的自動(dòng)氣象站觀測數(shù)據(jù)也只得到粗淺的使用。因此僅依靠目前的人機(jī)交互系統(tǒng),不能解決“信息爆炸”問題,還需要強(qiáng)有力的工具幫助預(yù)報(bào)員進(jìn)行數(shù)據(jù)分析,而數(shù)據(jù)倉庫技術(shù)是該方向重要的成熟工具。文獻(xiàn)[1]介紹了數(shù)據(jù)倉庫技術(shù)的基本概念并給出了天氣預(yù)報(bào)數(shù)據(jù)倉庫的基本框架,本文將對(duì)數(shù)據(jù)倉庫的關(guān)鍵技術(shù)——天氣預(yù)報(bào)分析型數(shù)據(jù)的設(shè)計(jì)和生成進(jìn)行深入探討。
數(shù)據(jù)倉庫技術(shù)核心思想是將原始雜亂的數(shù)據(jù)轉(zhuǎn)變?yōu)榉治鲂蛿?shù)據(jù),從而幫助用戶快速地分析大量數(shù)據(jù)。分析型數(shù)據(jù)簡單說就是經(jīng)過加工,易于分析的數(shù)據(jù)。加工過程包括對(duì)原始雜亂的數(shù)據(jù)進(jìn)行整理和一致性處理(整合),抽取對(duì)數(shù)據(jù)分析任務(wù)重要的數(shù)據(jù),對(duì)這些數(shù)據(jù)進(jìn)行聚集變換,使分析信息(例如未來天氣的信息)集中到具有不同粒度的少量數(shù)據(jù)中。經(jīng)過這些處理后的數(shù)據(jù)再配合適當(dāng)?shù)姆治龉ぞ撸梢允狗治鋈藛T能夠在短時(shí)間內(nèi)充分分析大量數(shù)據(jù)。
分析型數(shù)據(jù)對(duì)于數(shù)據(jù)倉庫的重要性相當(dāng)于預(yù)報(bào)因子對(duì)于統(tǒng)計(jì)預(yù)報(bào)(或模式產(chǎn)品的統(tǒng)計(jì)釋用)的重要性。在統(tǒng)計(jì)預(yù)報(bào)中,有“好”的預(yù)報(bào)因子時(shí),用最簡單的統(tǒng)計(jì)預(yù)報(bào)方法也可以得到很好的結(jié)果。沒有“好”的因子則無論使用如何復(fù)雜的方法也很難得到滿意的結(jié)果。而將原始數(shù)據(jù)轉(zhuǎn)換為分析型數(shù)據(jù)就相當(dāng)于解決因子問題,特別是聚集變換,能夠?qū)⑽磥硖鞖庑畔⒓械缴贁?shù)數(shù)據(jù)中,十分關(guān)鍵。目前數(shù)值預(yù)報(bào)網(wǎng)格越來越細(xì),必須將多個(gè)格點(diǎn)的信息聚集到少數(shù)數(shù)據(jù)中,才能提高分析的效率和質(zhì)量。有了“好”的分析型數(shù)據(jù),數(shù)據(jù)挖掘和聯(lián)機(jī)分析處理等分析工具才能取得好的效果。因此,分析型數(shù)據(jù)設(shè)計(jì)和生成質(zhì)量是整個(gè)數(shù)據(jù)倉庫項(xiàng)目能否獲得成功的關(guān)鍵。
氣象方面應(yīng)用的分析型數(shù)據(jù)的設(shè)計(jì)和生成必須依據(jù)氣象領(lǐng)域分析任務(wù)的特點(diǎn),由信息技術(shù)專家與氣象領(lǐng)域?qū)<颐芮信浜贤瓿桑瑢?duì)于天氣預(yù)報(bào)業(yè)務(wù)來說,首先需要分析天氣預(yù)報(bào)中氣象數(shù)據(jù)的特點(diǎn),建立適當(dāng)?shù)奶鞖忸A(yù)報(bào)分析型數(shù)據(jù)模型。
在設(shè)計(jì)數(shù)據(jù)處理、存儲(chǔ)和應(yīng)用系統(tǒng)時(shí),首先要對(duì)數(shù)據(jù)概念模型有清晰的認(rèn)識(shí),其次要設(shè)計(jì)好計(jì)算機(jī)能理解的邏輯模型,最終落實(shí)到數(shù)據(jù)的物理模型,其中的關(guān)鍵是概念模型。
天氣預(yù)報(bào)中的氣象數(shù)據(jù)是分布在時(shí)空中的空間數(shù)據(jù),其概念模型必須考慮其空間特性。而與一般地理信息空間數(shù)據(jù)相比氣象數(shù)據(jù)有4個(gè)主要特點(diǎn):場特性,氣象數(shù)據(jù)是在時(shí)空中連續(xù)分布的場數(shù)據(jù);瞬變性,氣象數(shù)據(jù)隨時(shí)間變化快速變化;物理性,氣象數(shù)據(jù)是按一定物理規(guī)律分布和變化的,受一組動(dòng)力方程約束;多尺度性,氣象領(lǐng)域習(xí)慣將氣象數(shù)據(jù)場分解成大、中、小多種尺度的運(yùn)動(dòng)進(jìn)行分析。
通用的地理信息系統(tǒng)(GIS)數(shù)據(jù)模型對(duì)這4個(gè)特性考慮較少,不能簡單套用已有的GIS數(shù)據(jù)模型,而是既要充分利用GIS的研究成果,也要考慮氣象數(shù)據(jù)的特殊性。
在GIS領(lǐng)域,描述空間數(shù)據(jù)的概念模型通常包括:場模型、對(duì)象模型和網(wǎng)絡(luò)模型。
場模型是用于描述在空間連續(xù)分布的量。氣象數(shù)據(jù)就是這種量,可以有二維場和三維場,氣象數(shù)據(jù)還經(jīng)常要考慮時(shí)間維和要素維。目前獲得的天氣預(yù)報(bào)業(yè)務(wù)數(shù)據(jù)主要采用二維場。二維場又可以分為若干具體的場模型:不規(guī)則分布點(diǎn)模型,即常見的站點(diǎn)數(shù)據(jù);規(guī)則矩形區(qū)模型,即常見的網(wǎng)格點(diǎn)數(shù)據(jù);等值線模型,即用一組等值線描述整個(gè)場,MICAPS第14類數(shù)據(jù)用圖元信息表述整個(gè)場數(shù)據(jù),是這種模型的擴(kuò)展。
對(duì)象模型也稱為要素模型。將空間中的實(shí)體作為獨(dú)立的對(duì)象。按空間特征可以分為點(diǎn)、線、面、體等對(duì)象。每個(gè)對(duì)象由一系列屬性描述,包括空間屬性、非空間屬性等。天氣分析中的各種天氣系統(tǒng)就屬于對(duì)象模型,在天氣預(yù)報(bào)業(yè)務(wù)提供的數(shù)據(jù)中沒有現(xiàn)成的天氣系統(tǒng)數(shù)據(jù),必須經(jīng)過預(yù)報(bào)員人工或天氣系統(tǒng)自動(dòng)識(shí)別算法,從業(yè)務(wù)提供的場數(shù)據(jù)中識(shí)別出各種特征點(diǎn)、線、面、體等空間對(duì)象,即天氣系統(tǒng)。
網(wǎng)絡(luò)模型是多個(gè)空間對(duì)象(節(jié)點(diǎn))通過路徑連通為一個(gè)網(wǎng)絡(luò)的模型,如路網(wǎng)、河網(wǎng)、管網(wǎng)、電網(wǎng)等,為氣象服務(wù)業(yè)務(wù)中常用模型。
預(yù)報(bào)員在進(jìn)行天氣分析時(shí),主要是依據(jù)天氣學(xué)知識(shí),在業(yè)務(wù)環(huán)境提供的二維數(shù)據(jù)場中分析識(shí)別天氣系統(tǒng)。根據(jù)天氣系統(tǒng)的移動(dòng)、變化及其與局地天氣的關(guān)系做出未來天氣的預(yù)報(bào)。因此,滿足天氣分析需要的分析型數(shù)據(jù)應(yīng)主要采用基于二維場識(shí)別的天氣系統(tǒng)空間對(duì)象模型作為概念模型。參考GIS已有研究的對(duì)象模型[2-7],并考慮到氣象數(shù)據(jù)的瞬變性、物理性和多尺度性,定義天氣預(yù)報(bào)分析型數(shù)據(jù)的概念模型。
定義1:將天氣預(yù)報(bào)分析中氣象數(shù)據(jù)的最小分析單元稱為一個(gè)天氣預(yù)報(bào)分析型數(shù)據(jù)(weather analytic data,WAD)。WAD由一個(gè)五元組描述(ID,SA,EA,TA,PA)。其中,ID(identity)為數(shù)據(jù)標(biāo)識(shí)屬性集合,SA(spatial attributes)為數(shù)據(jù)空間屬性集合,EA(entity attributes)為數(shù)據(jù)實(shí)體的非空間屬性集合,TA(time attributes)為數(shù)據(jù)時(shí)間屬性集合,PA(physical attributes)為數(shù)據(jù)物理屬性集合。
與普通的GIS數(shù)據(jù)模型比較來說,WAD多了一個(gè)PA元組,以反映大氣的物理屬性。上述各個(gè)集合又是若干子集的并集,下面對(duì)各集合的組成進(jìn)行詳細(xì)解釋。
其中,NAME為數(shù)據(jù)名稱,是數(shù)據(jù)的唯一標(biāo)識(shí);TIME為數(shù)據(jù)時(shí)間;SUBJECT為所屬主題,隨分析任務(wù)而定;KIND為類型,例如高值區(qū)、低值區(qū)、槽線、脊線等;GRANULARITY為數(shù)據(jù)粒度,即數(shù)據(jù)的概括程度,由分析任務(wù)而定;MAGNITUDE為數(shù)據(jù)量綱,即數(shù)據(jù)使用什么單位;ELEMENT為要素(或物理量)的枚舉名稱。
其中,F(xiàn)A(field attribute)為場屬性,F(xiàn)A=PROJ∪FM ∪FTD∪ TD,PROJ(project)為原始二維場數(shù)據(jù)(產(chǎn)生本分析型數(shù)據(jù)的源數(shù)據(jù))的投影屬性(蘭勃托、麥開托、極射赤面等),F(xiàn)M(field model)為原始二維場模型(離散點(diǎn)、經(jīng)緯度網(wǎng)格、等距直角坐標(biāo)網(wǎng)格),F(xiàn)TD(first two dimensions)為二維場的坐標(biāo)(x-y,x-z,y-z,x-p,y-p等),TD(the third dimension)為第3維坐標(biāo)類型(氣壓坐標(biāo)、高度坐標(biāo)、x和y、經(jīng)度、緯度等),TDV(the third dimension value)為第3維的取值;LS(location set)為空間對(duì)象所在位置的空間點(diǎn)集(測站位置或網(wǎng)格點(diǎn)位置的列表);GA(geo-attributes)為地理屬性,GA=CP∪ EP∪AREA ∪ ASPECT ∪ CL,CP(center point)為幾何中心位置(經(jīng)緯度),EP(extreme point)為極值位置(經(jīng)緯度),AREA(area)為面積,ASPECT(aspect)為縱橫比,CL(center line)為中心線(長度∪寬度∪方向∪彎曲度∪各頂點(diǎn)矢量坐標(biāo))。
其中,STA(statistical attribute)為統(tǒng)計(jì)屬性,STA=AVE∪EXTREME∪VAR∪INTENSITY,AVE為平均值,EXTREME為極值,VAR為方差,INTENSITY為強(qiáng)度(極值減臨界值的絕對(duì)值);SPA(spectrum attribute)為譜屬性,SPA=SPT∪SPV,SPT為譜類型(傅立葉變換、小波函數(shù)、正交多項(xiàng)式、經(jīng)驗(yàn)正交分解等),SPV為譜展開系數(shù)。
其中,H(history)為生命周期,H=FORMER ∪COMER,F(xiàn)ORMER為過去時(shí)刻對(duì)應(yīng)的空間對(duì)象標(biāo)識(shí),COMER為預(yù)報(bào)的未來時(shí)刻對(duì)應(yīng)的空間對(duì)象標(biāo)識(shí);LA(life attribute)為生命周期屬性值(可以取值為新生、發(fā)展、持續(xù)、消散等)。
其中,SCALE(scale)為尺度特征(大、中、小尺度等),PR(physical restrains)為數(shù)據(jù)滿足的物理約束關(guān)系(靜力關(guān)系、地轉(zhuǎn)平衡、位渦守恒等代碼)。
預(yù)報(bào)員使用的業(yè)務(wù)數(shù)據(jù)通常為二維場數(shù)據(jù),上述模型采用了二維空間對(duì)象模型;而實(shí)際大氣運(yùn)動(dòng)場是由時(shí)空四維場與要素維的五維空間來描述的,相應(yīng)的空間實(shí)體是一個(gè)五維實(shí)體。因此,模型中也包括第3空間維、時(shí)間維和要素的取值。而這些二維空間對(duì)象在其他三維空間中的屬性可以通過它們之間在其他三維中的空間關(guān)系來描述。
為了從業(yè)務(wù)氣象數(shù)據(jù)得到上述對(duì)象模型的各個(gè)參數(shù),從提供的場數(shù)據(jù)中識(shí)別出空間對(duì)象的多組參數(shù),并討論如何通過聚集變換從原始的場數(shù)據(jù)中自動(dòng)識(shí)別出空間對(duì)象,從而產(chǎn)生出天氣預(yù)報(bào)分析型數(shù)據(jù)。為統(tǒng)一描述,在后面的敘述中將直接引用上述模型中的屬性代碼代替相應(yīng)的文字。
天氣預(yù)報(bào)業(yè)務(wù)中,原始觀測數(shù)據(jù)經(jīng)過了數(shù)據(jù)融合(如局地分析預(yù)報(bào)系統(tǒng)LAPS)、同化(如三維變分3DVAR)或數(shù)值分析(如GRAPS)等處理,已較為規(guī)范。因此,分析型數(shù)據(jù)的生成主要集中在聚集變換上。聚集變換就是將原始數(shù)據(jù)變換為一些概括的、粒度比較大的數(shù)據(jù),將信息濃縮到少量的粒度數(shù)據(jù)中以便于快速分析。對(duì)于天氣分析來說,數(shù)據(jù)倉庫提供的求和、匯總等變換遠(yuǎn)遠(yuǎn)不夠。因此,根據(jù)天氣分析的經(jīng)驗(yàn),從業(yè)務(wù)場數(shù)據(jù)到空間對(duì)象的聚集變換包括空間固定區(qū)域統(tǒng)計(jì)、空間劃分區(qū)域統(tǒng)計(jì)、基本天氣系統(tǒng)識(shí)別、天氣學(xué)概念模型識(shí)別。
2.1 空間固定區(qū)域統(tǒng)計(jì)
取空間某固定區(qū)域內(nèi)的場數(shù)據(jù)進(jìn)行統(tǒng)計(jì)。此時(shí)該空間區(qū)域就被定義為一個(gè)空間對(duì)象,其SA不隨時(shí)間變化。
這種數(shù)據(jù)主要應(yīng)用其STA或SPA屬性。通常用于表示預(yù)報(bào)量、預(yù)報(bào)關(guān)鍵區(qū)或指標(biāo)類的知識(shí)。如北京24h降水量、2m溫度、10m風(fēng)等統(tǒng)計(jì),SPA屬性則可以描述華北地區(qū)的降水場分布、風(fēng)場分布等譜特征。一般區(qū)域面積小則以STA為主,面積大則以SPA為主。
數(shù)據(jù)粒度根據(jù)給定區(qū)域的面積或譜展開保留的階數(shù)來確定。
2.2 空間劃分區(qū)域統(tǒng)計(jì)
與上述統(tǒng)計(jì)類似,將全場劃分為若干不重疊的區(qū)域。例如可以規(guī)則地取經(jīng)、緯度每隔2°,5°,10°,或網(wǎng)格點(diǎn)每隔5,10,20個(gè)格點(diǎn)進(jìn)行劃分;也可以不規(guī)則地取山區(qū)、平原、城市等,或按行政區(qū)劃進(jìn)行劃分等。規(guī)則的劃分統(tǒng)計(jì)可以反映不同尺度的運(yùn)動(dòng),其粒度的確定也與上述固定區(qū)域統(tǒng)計(jì)類似。
2.3 基本天氣系統(tǒng)識(shí)別
本文的基本天氣系統(tǒng)是指單一要素標(biāo)量場的特征點(diǎn)、線、面對(duì)象。天氣預(yù)報(bào)分析中,特征點(diǎn)一般取極值中心(高、低中心)、線對(duì)象取槽、脊線、面對(duì)象取高、低值區(qū)。常見天氣系統(tǒng)大部分都可以由天氣要素場基本天氣系統(tǒng)表示,或通過一定的預(yù)處理。
?大梯度區(qū):計(jì)算要素場的梯度場,大梯度區(qū)就是梯度場的高值區(qū)。
?大梯度帶:計(jì)算要素場的梯度場,大梯度帶(如鋒區(qū))就是梯度場的脊區(qū)(線),適用于識(shí)別溫度鋒、露點(diǎn)鋒等。
?輻合、輻散中心:計(jì)算風(fēng)場的散度場,取高、低中心。
? 輻合、輻散線:計(jì)算風(fēng)場的散度場,取其槽、脊線。
?正、反渦旋中心:計(jì)算風(fēng)場的渦度場,取高、低中心。
?正、反渦旋區(qū):計(jì)算風(fēng)場的渦度場,取高、低值區(qū)。
?只考慮風(fēng)向的正、反切變線:風(fēng)速歸一化后計(jì)算的渦度場的槽、脊線。
?急流軸:計(jì)算風(fēng)場的全風(fēng)速場,取脊線。
?急流中心:計(jì)算風(fēng)場的全風(fēng)速場,取高中心。
此類型數(shù)據(jù)的粒度將由兩種方法定義:一種是在不同粒度的規(guī)則劃分統(tǒng)計(jì)平均值場基礎(chǔ)上進(jìn)行基本天氣系統(tǒng)識(shí)別,其粒度與這個(gè)場的粒度一樣;另一種是用天氣系統(tǒng)識(shí)別時(shí)的隸屬度作為其粒度。
2.4 天氣學(xué)概念模型識(shí)別
有些天氣系統(tǒng)無法從單一的場數(shù)據(jù)中識(shí)別,需要多個(gè)基本天氣系統(tǒng)的邏輯組合來識(shí)別。
定義2:一組滿足一定空間關(guān)系的基本天氣系統(tǒng)的邏輯組合稱為天氣學(xué)概念模型(簡稱為概念模型)。
本文中天氣學(xué)概念模型的定義與氣象領(lǐng)域的災(zāi)害性天氣概念模型不同,主要用于復(fù)雜天氣系統(tǒng)的靜態(tài)識(shí)別。例如,對(duì)鋒線的識(shí)別必須建立相應(yīng)的天氣學(xué)概念模型,通過對(duì)這個(gè)模型的識(shí)別來完成。
概念模型粒度的確定與上述基本天氣系統(tǒng)一樣,也可以根據(jù)識(shí)別概念模型所使用的場數(shù)據(jù)的尺度,或根據(jù)規(guī)則滿足的隸屬度大小來確定。當(dāng)組成概念模型的各基本天氣系統(tǒng)具有不同的粒度時(shí),取其中最粗的粒度作為該概念模型的粒度。
經(jīng)過上述4類聚集變換就可以從原始的氣象場數(shù)據(jù)得到天氣預(yù)報(bào)的分析型數(shù)據(jù)。前兩類變換所需要的各種算法是天氣預(yù)報(bào)員熟知的,不在此贅述。后面兩類分析型數(shù)據(jù)產(chǎn)生的算法則比較復(fù)雜,須進(jìn)一步說明。
基本天氣系統(tǒng)的識(shí)別是從一個(gè)網(wǎng)格點(diǎn)場數(shù)據(jù)中識(shí)別出其特征的點(diǎn)、線、面對(duì)象,即預(yù)報(bào)員熟悉的高、低中心、槽、脊線和高、低值區(qū)等。常見的圖像處理和模式識(shí)別算法要處理的數(shù)據(jù)很復(fù)雜,如圖像處理首先就要遇到圖像數(shù)值化的問題。天氣預(yù)報(bào)業(yè)務(wù)中的數(shù)據(jù)大部分是規(guī)范的網(wǎng)格點(diǎn)數(shù)據(jù),問題要簡單些。借鑒計(jì)算機(jī)視覺中的一些算法[8],本文提出一個(gè)簡單的基本天氣系統(tǒng)識(shí)別算法,即先對(duì)原始的數(shù)據(jù)場進(jìn)行濾波,然后對(duì)濾波后的場劃分出高、低值區(qū),最后對(duì)每個(gè)高、低值區(qū)測量計(jì)算其相應(yīng)的一系列屬性值,如高、低中心位置、強(qiáng)度、縱橫比等。根據(jù)屬性再將區(qū)域進(jìn)行簡單的分類,區(qū)分出條狀的槽、脊和塊狀的高、低值區(qū)域等??煞Q為F(filtering,濾波)-D(dividing,劃分)-M(measuring,測量)算法。
3.1 濾 波
濾波是第1步,可以去除缺乏天氣學(xué)意義的尺度過小的波動(dòng),并可以突出數(shù)據(jù)場中對(duì)天氣系統(tǒng)識(shí)別重要的特征,另外也能用于將離散點(diǎn)(站點(diǎn))數(shù)據(jù)插值到網(wǎng)格點(diǎn)上。常用濾波算法為距離權(quán)重方法:
其中,F(xiàn)i,j為濾波后第(i,j)個(gè)格點(diǎn)的值。W是權(quán)重函數(shù),rn是第n個(gè)數(shù)據(jù)(站點(diǎn)或格點(diǎn))到格點(diǎn)(i,j)的距離,Rc為影響半徑,θn則是第n個(gè)數(shù)據(jù)的值。使用不同的權(quán)重函數(shù)會(huì)有不同的濾波效果。針對(duì)天氣系統(tǒng)識(shí)別的特點(diǎn),可以選用墨西哥帽函數(shù)作為權(quán)重函數(shù):
其中,r為距離;a和b為常數(shù),表示控制函數(shù)尖銳或平坦?fàn)顩r,該權(quán)重函數(shù)為一個(gè)較尖銳的高斯函數(shù)和一個(gè)較平滑的高斯函數(shù)之差(圖1)。
圖1a是兩個(gè)高斯函數(shù)的圖形,相減后得到圖1b的墨西哥帽函數(shù)。這種權(quán)重函數(shù)的特點(diǎn)是靠近中心格點(diǎn)的權(quán)重為正,遠(yuǎn)離中心格點(diǎn)的權(quán)重為負(fù),權(quán)重為零的距離稱為臨界半徑。墨西哥帽權(quán)重函數(shù)的濾波作用是用中心格點(diǎn)附近(臨界半徑以內(nèi))的格點(diǎn)值減去周邊格點(diǎn)的值,其作用類似二階導(dǎo)數(shù)(網(wǎng)格點(diǎn)數(shù)據(jù)的二階導(dǎo)數(shù)差分格式就是用中心格點(diǎn)上、下、左、右4個(gè)格點(diǎn)值減去4倍的中心格點(diǎn)值),但符號(hào)相反。眾所周知,二階導(dǎo)數(shù)在函數(shù)凹凸之處、槽脊曲率最大處都會(huì)出現(xiàn)高、低中心。突出這些區(qū)域有利于天氣系統(tǒng)的識(shí)別。
可以證明,墨西哥帽函數(shù)的頻率響應(yīng)函數(shù)是頻率的單峰函數(shù)。臨界半徑越大,峰值頻率越低。如果取足夠大的臨界半徑,就可以使墨西哥帽函數(shù)濾波在該要素場頻率特征范圍內(nèi)起到一個(gè)類似低通濾波器的作用。
圖1 墨西哥帽權(quán)重函數(shù)(a)兩個(gè)高斯權(quán)重函數(shù),(b)兩函數(shù)相減后結(jié)果Fig.1 Weight function of Mexican hat(a)two Gaussian wight functions,(b)result of sharper one subtract smoother one
圖2a為一個(gè)LAPS(局地分析預(yù)報(bào)系統(tǒng))分析的2012年7月7日20:00(北京時(shí),下同)北京及河北北部地面散度場。由于LAPS地面分析考慮了地形等諸多因素,其分析場包含了很細(xì)致的中尺度特征,但也顯得十分凌亂(由于MICAPS V2等值線算法的限制,對(duì)如此凌亂的數(shù)據(jù)已經(jīng)無法畫出正常的等值線)。上述濾波函數(shù)同時(shí)具有低通濾波的作用,取臨界半徑10km,得到的結(jié)果圖2b所示。通常一個(gè)中尺度天氣系統(tǒng)必須要有一定空間規(guī)模并持續(xù)一定的時(shí)間,才能產(chǎn)生有天氣意義的影響。對(duì)突出物理意義的數(shù)據(jù)分析來說,針對(duì)不同的分析任務(wù)設(shè)計(jì)不同的濾波參數(shù)濾掉尺度過小的系統(tǒng)很重要。但濾波會(huì)造成原始數(shù)據(jù)場的變形,有時(shí)為了保持原始數(shù)據(jù)場的特征,則不能濾波。
圖2 2012年7月7日20:00北京及河北北部LAPS分析的地面散度場(a)濾波前,(b)濾波后Fig.2 LAPS surface divergence field of Beijing and north part of Hebei at 2000BT 7July 2012(a)before filtering,(b)after filtering
3.2 劃 分
濾波后的場要進(jìn)行劃分。劃分的算法有生長法、閾值法等。本文針對(duì)天氣預(yù)報(bào)數(shù)據(jù)的特點(diǎn)提出雙閾值法進(jìn)行劃分。其算法可描述如下:設(shè)t1和t2為兩個(gè)閾值,且t1>t2。取所有網(wǎng)格點(diǎn)值不小于t1且只有1個(gè)有效極值點(diǎn)的聯(lián)通區(qū)域?yàn)楦咧祬^(qū)、所有網(wǎng)格點(diǎn)值不大于t2且只有1個(gè)有效極值點(diǎn)的聯(lián)通區(qū)域?yàn)榈椭祬^(qū),網(wǎng)格點(diǎn)值小于t1且大于t2的聯(lián)通區(qū)域?yàn)榕R界區(qū),臨界區(qū)只能有1個(gè)。即劃分結(jié)果必須滿足如下條件:①全場為互不重疊的若干高值區(qū)、若干低值區(qū)和1個(gè)臨界區(qū)組成,②所有高值區(qū)、低值區(qū)和臨界區(qū)均為聯(lián)通區(qū)域,③高值區(qū)內(nèi)所有網(wǎng)格點(diǎn)值均不小于臨界值t1,④低值區(qū)內(nèi)所有網(wǎng)格點(diǎn)值均不大于臨界值t2,⑤臨界區(qū)內(nèi)所有網(wǎng)格點(diǎn)值均小于t1同時(shí)大于t2,⑥所有高值區(qū)和低值區(qū)都存在且僅存在1個(gè)有效極值點(diǎn)。
極值點(diǎn)值與最低(高)邊緣值之差的絕對(duì)值大于人為指定的強(qiáng)度閾值時(shí)稱為有效極值點(diǎn)。求最低(高)邊緣值的算法為從極值網(wǎng)格點(diǎn)出發(fā),沿包括x軸正方向在內(nèi)的均勻分布的8個(gè)方向延伸,取每個(gè)延伸射線經(jīng)過的網(wǎng)格點(diǎn)值單調(diào)下降(或上升)達(dá)到該區(qū)域內(nèi)最低(或最高)點(diǎn)時(shí)的值,得到8個(gè)方向的最低(或最高)值,取8個(gè)值中最低(或最高)的作為最低(高)邊緣值。取有效極值點(diǎn)可以消除那些強(qiáng)度過低的缺乏物理意義的極值點(diǎn)。有時(shí)在一個(gè)區(qū)域內(nèi)有多個(gè)滿足條件的有效極值點(diǎn),此時(shí)取其中之一即可。
上述算法中雖然全場使用了統(tǒng)一的閾值(t1和t2),但實(shí)際上識(shí)別每個(gè)天氣系統(tǒng)的最佳閾值(t1或t2)應(yīng)該取其最低(高)邊緣值。對(duì)不同的天氣系統(tǒng),閾值不同。一般情況下,天氣系統(tǒng)尺度越大,最佳閾值越低。因此,只有在同一個(gè)場中天氣系統(tǒng)尺度相差不大時(shí)(如渦度場、散度場等)才可以采用統(tǒng)一的閾值t1,t2進(jìn)行劃分。當(dāng)天氣系統(tǒng)尺度相差較大時(shí)(如高度場、溫度場等,大槽、大脊與小波動(dòng)同時(shí)存在),可先對(duì)原場進(jìn)行尺度分離,形成幾個(gè)不同尺度的場,再對(duì)不同尺度的場采用不同的閾值進(jìn)行識(shí)別。
圖3a是對(duì)圖2地面散度場濾波后采用最簡單的全場統(tǒng)一閾值的劃分結(jié)果。
圖3 對(duì)2012年7月7日20:00北京及河北北部LAPS地面散度場的劃分及測量(a)劃分區(qū)域,(b)測量得到的高、低中心和槽脊線(G為高中心,D為低中心;藍(lán)線為脊線,紅線為槽線)Fig.3 Result of dividing and measuring of LAPS surface divergence of Beijing and north part of Hebei at 2000BT 7July 2012(a)regions by dividing,(b)extreme center,trough and ridge line(G denotes high center,D denotes low center,blue line denotes ridge,red line denotes trough)
3.3 測 量
對(duì)劃分出的各高、低值區(qū)進(jìn)行測量,計(jì)算出WAD數(shù)據(jù)模型中SA(空間屬性)、EA(非空間屬性)和TA(時(shí)間屬性)的所有屬性值。其中縱橫比用中心線CL的寬度除以長度得到,縱橫比小于某閾值的區(qū)域即為狹長的槽、脊區(qū)域,可以取其中心線CL為槽、脊線。在WAD模型中,空間形狀參數(shù)只取了縱橫比,用于區(qū)分線狀和塊狀對(duì)象。
圖3b中標(biāo)注G和D的區(qū)域標(biāo)識(shí)高、低區(qū)域和中心(風(fēng)場的輻散輻合中心)。標(biāo)紅線和藍(lán)線的區(qū)域是縱橫比小于0.5的槽線和脊線(風(fēng)場的輻合輻散線),最終分析結(jié)果見圖4。
圖5給出2009年6月1日08:00的散度場分析與自動(dòng)氣象站實(shí)況風(fēng)場的對(duì)比,該個(gè)例未對(duì)散度場進(jìn)行濾波。分析的天氣系統(tǒng)與實(shí)況吻合。
對(duì)格距較大的網(wǎng)格數(shù)據(jù),由于槽、脊線等采用的是區(qū)域的中心線,與實(shí)際的槽、脊線有一定誤差,這時(shí)可以對(duì)原網(wǎng)格進(jìn)行內(nèi)插加密(2~3倍甚至10倍),直到消除誤差為止。
圖4 2012年7月7日20:00北京及河北北部LAPS地面散度場基本天氣系統(tǒng)Fig.4 Basic weather systems of LAPS surface divergence of Beijing and north part of Hebei at 2000BT 7July 2012
圖5 對(duì)2009年6月1日08:00北京地區(qū)LAPS地面散度場的劃分及天氣系統(tǒng)分析(a)劃分區(qū)域與自動(dòng)氣象站風(fēng)相比,(b)測量得到的天氣系統(tǒng)分析(G為輻散中心,D為輻合中心;藍(lán)線為輻散線,紅線為輻合線)Fig.5 Result of dividing and weather systems of LAPS surface divergence of Beijing at 0800BT 1June 2009(a)regions by dividing vs wind in situ,(b)basic weather systems vs wind in situ(G denotes divergence center,D denotes convergence center;blue line denotes divergence line,red line denotes convergence line)
第3章算法解決了單一標(biāo)量場的基本天氣系統(tǒng)識(shí)別問題。但只有對(duì)單一標(biāo)量場的基本天氣系統(tǒng)識(shí)別是不夠的,例如冷鋒、颮線等必須用一組基本天氣系統(tǒng)的邏輯組合來識(shí)別。這就是2.4節(jié)定義2給出的天氣學(xué)概念模型。以鋒線為例,根據(jù)經(jīng)驗(yàn)給出一個(gè)定義。
定義3:鋒線是一條特殊的地面切變線,其后方附近在850hPa上空有一條基本平行的鋒區(qū)或海平面氣壓的大梯度帶,在其前方附近地面有一個(gè)明顯的3h變壓的降壓中心或在其后方附近地面有一個(gè)明顯的3h變壓的升壓中心。
該鋒線的定義具有如下4個(gè)特點(diǎn):①是5個(gè)(至少要有3個(gè)存在)基本天氣系統(tǒng)的組合,地面切變線、850hPa鋒區(qū)、海平面氣壓大梯度帶、降壓中心、升壓中心;②基本天氣系統(tǒng)之間必須滿足一定的空間關(guān)系,如850hPa鋒區(qū)必須在地面切變線的后方、附近、基本平行等;③各基本天氣系統(tǒng)的存在和它們之間的關(guān)系都是模糊的,如“附近”、“基本平行”,“明顯”等模糊詞匯;④有一個(gè)確定鋒線位置的定位條件,鋒線位置與地面切變線一致。
用預(yù)報(bào)員熟悉的方式表示這類具有上述4個(gè)特點(diǎn)的知識(shí),選擇用空間模糊產(chǎn)生式規(guī)則。將各類天氣系統(tǒng)概念模型都轉(zhuǎn)化成空間模糊產(chǎn)生式規(guī)則,則可以組成天氣系統(tǒng)概念模型的規(guī)則庫,與相應(yīng)的推理機(jī)就構(gòu)成了一個(gè)知識(shí)庫系統(tǒng)。這樣,天氣系統(tǒng)的識(shí)別過程就成為對(duì)這個(gè)知識(shí)庫系統(tǒng)的推理過程。
模糊產(chǎn)生式規(guī)則[9]可以表達(dá)為
其中,P是結(jié)論,Q是前提,CF為規(guī)則可信度,τ是預(yù)報(bào)員根據(jù)經(jīng)驗(yàn)確定的閾值。
空間的模糊產(chǎn)生式規(guī)則,則是包含了空間對(duì)象和模糊空間關(guān)系的模糊產(chǎn)生式規(guī)則。
空間對(duì)象是通過第2章中前3類聚集變換得到的分析型數(shù)據(jù),其存在可以是確定的,也可以是模糊的(根據(jù)實(shí)際空間對(duì)象與理想空間對(duì)象的屬性進(jìn)行比較給出隸屬度)。
空間關(guān)系則是指兩個(gè)空間對(duì)象屬性之間的關(guān)系。根據(jù)GIS理論,空間關(guān)系分為度量關(guān)系、順序關(guān)系(方位關(guān)系)和拓?fù)潢P(guān)系3類[10]。而模糊空間關(guān)系就是在兩個(gè)空間對(duì)象屬性之間計(jì)算的這些空間關(guān)系的隸屬度。
拓?fù)潢P(guān)系[11-14]是在空間任意伸縮扭曲的情況下都不會(huì)改變的空間關(guān)系。采用Egenhofer等[15]早期定義的8種簡單的拓?fù)潢P(guān)系,針對(duì)氣象數(shù)據(jù)特點(diǎn)可以簡化為相離、相接、相疊和覆蓋4種拓?fù)潢P(guān)系。根據(jù)WAD的位置點(diǎn)集(LS)不難計(jì)算它們的隸屬度。
度量關(guān)系是空間對(duì)象屬性之間的數(shù)值關(guān)系。主要包括空間距離(可以有幾何中心距離、平均距離、最近距離等)、平行(根據(jù)中心線CL各頂點(diǎn)坐標(biāo)計(jì)算)等度量,EA各屬性(強(qiáng)度、面積等)之間的比較等。
順序關(guān)系包括重要的方位關(guān)系,即一個(gè)對(duì)象相對(duì)另一個(gè)對(duì)象的方位,對(duì)天氣預(yù)報(bào)來說,更重要的是前后關(guān)系,即一個(gè)對(duì)象在另一個(gè)對(duì)象運(yùn)動(dòng)的前方還是后方,以及垂直方向的前傾、后傾等順序關(guān)系。這首先需要解決判斷天氣系統(tǒng)移動(dòng)方向的復(fù)雜問題,在大尺度西風(fēng)帶可以用方位關(guān)系代替復(fù)雜的前后關(guān)系,一般東南方是系統(tǒng)移動(dòng)的前方,西北方是后方。對(duì)于雷達(dá)回波系統(tǒng)等就需要借鑒例如雷暴識(shí)別追蹤分析預(yù)報(bào)(TITAN)等算法[16]。
模糊產(chǎn)生式規(guī)則一般的推理過程是先根據(jù)各條件的隸屬度計(jì)算Q的匹配程度m,然后計(jì)算真度t??梢匀=min{m,CF},或t=m×CF。當(dāng)t>τ時(shí),規(guī)則被激活,即結(jié)論P(yáng)成立,且結(jié)論的真度為t。
一個(gè)空間模糊產(chǎn)生式規(guī)則被激活后,應(yīng)該得到一個(gè)結(jié)論的空間對(duì)象p。例如前面鋒線定義中p就是一個(gè)與地面切變線一致的空間對(duì)象。因此伴隨一個(gè)空間模糊產(chǎn)生式規(guī)則應(yīng)該有一個(gè)從Q的各空間對(duì)象屬性中生成p的各屬性的規(guī)則。如可以規(guī)定鋒線繼承地面切變線所有的屬性。但一般情況下,要確定p的全部屬性是一個(gè)復(fù)雜問題,還有待進(jìn)一步研究。下面給出一個(gè)能夠確定p空間位置的定位條件定義。
定義4:定位條件是規(guī)則前提Q中與結(jié)論P(yáng)空間位置有關(guān)的各空間對(duì)象位置點(diǎn)集LS的交、并、補(bǔ)的集合運(yùn)算式。
當(dāng)規(guī)則激活時(shí),Q中存在的各空間對(duì)象LS經(jīng)過定位條件的集合運(yùn)算就能夠得到結(jié)論空間對(duì)象p的空間點(diǎn)集LS。LS是p最重要的屬性。
天氣預(yù)報(bào)分析型數(shù)據(jù)的定義和生成是整個(gè)天氣預(yù)報(bào)數(shù)據(jù)倉庫的基礎(chǔ)。本文針對(duì)天氣預(yù)報(bào)領(lǐng)域的特點(diǎn)對(duì)分析型數(shù)據(jù)模型的定義和生成技術(shù)進(jìn)行了深入探討。重點(diǎn)考慮了氣象數(shù)據(jù)的空間性、模糊性、時(shí)變性、物理性和多尺度性等特點(diǎn),給出了WAD數(shù)據(jù)模型和產(chǎn)生該模型各屬性的一系列算法,未來將在實(shí)時(shí)業(yè)務(wù)環(huán)境的進(jìn)一步研究中試驗(yàn)并優(yōu)化。
將原始數(shù)據(jù)轉(zhuǎn)換為分析型數(shù)據(jù)的算法與數(shù)據(jù)倉庫建設(shè)目的密切相關(guān),須由預(yù)報(bào)員結(jié)合信息技術(shù)專家共同實(shí)現(xiàn)。分析型數(shù)據(jù)產(chǎn)生后,其存儲(chǔ)、檢索等問題可以借助現(xiàn)有的商業(yè)數(shù)據(jù)倉庫產(chǎn)品(ORICLE,SQL Server等)實(shí)現(xiàn)。如何建立基于本文WAD模型的數(shù)據(jù)倉庫及數(shù)據(jù)挖掘和聯(lián)機(jī)分析處理系統(tǒng),將在未來的研究中進(jìn)一步探討。
[1] 譚曉光.數(shù)據(jù)倉庫技術(shù)在天氣預(yù)報(bào)決策中的應(yīng)用探討.應(yīng)用氣象學(xué)報(bào),2006,17(3):325-332.
[2] 李景文,田麗亞,張燕,等.面向?qū)ο蟮目臻g數(shù)據(jù)模型設(shè)計(jì)方法.地理空間信息,2011,9(5):9-11.
[3] 劉亞彬,劉大友,王飛.空間對(duì)象的幾何表示.計(jì)算機(jī)科學(xué),2003,30(3):62-64.
[4] 劉瑜,龔詠喜,張晶,等.地理空間中的空間關(guān)系表達(dá)和推理.地理與地理信息科學(xué),2007,23(5):1-7.
[5] 滿君豐,劉強(qiáng),楊鼎.空間數(shù)據(jù)的表示方法研究.計(jì)算機(jī)應(yīng)用,2004,24(11):97-99.
[6] 王宏勇,郭建星.空間運(yùn)動(dòng)對(duì)象與時(shí)空數(shù)據(jù)類型研究.地理與地理信息科學(xué),2005,21(5):1-5.
[7] 張英,邵峰晶,孫仁誠.面向?qū)ο蟮乃脑M時(shí)空數(shù)據(jù)模型.四川大學(xué)學(xué)報(bào):工程科學(xué)版,2007,39(增刊):115-118.
[8] 傅京孫.人工智能及其應(yīng)用.北京:清華大學(xué)出版社,1987.
[9] 何新貴.模糊知識(shí)處理的理論與技術(shù)(第二版).北京:國防工業(yè)出版社,1998.
[10] 蔡少華,翟戰(zhàn)強(qiáng).GIS基礎(chǔ)空間關(guān)系分析.測繪工程,1999,8(2):38-42.
[11] 吳長彬,閭國年.空間拓?fù)潢P(guān)系若干問題研究現(xiàn)狀的評(píng)析.地球信息科學(xué)學(xué)報(bào),2010,12(4):524-531.
[12] 寇振華,應(yīng)新洋,周國兵.GIS中拓?fù)潢P(guān)系及空間推理研究.計(jì)算機(jī)應(yīng)用研究,2005(5):97-99.
[13] 郭慶勝,丁虹,劉浩,等.面狀目標(biāo)之間空間拓?fù)潢P(guān)系的組合式分類.武漢大學(xué)學(xué)報(bào):信息科學(xué)版,2005,30(8):728-732.
[14] 郭慶勝,陳宇箭,劉浩.線與面的空間拓?fù)潢P(guān)系組合推理.武漢大學(xué)學(xué)報(bào):信息科學(xué)版,2005,30(6):529-532.
[15] Egenhofer M J,Herring J R.A Mathematical Framework for the Definition of Topological Relationships∥Brassel K E,KishimotoH.4th International Symposium on Spatial Data Handling.Zurich:Department of Geography,University of Zurich,1990:803-813.
[16] 韓雷,鄭永光,王洪慶,等.基于數(shù)學(xué)形態(tài)學(xué)的三維風(fēng)暴體自動(dòng)識(shí)別方法研究.氣象學(xué)報(bào),2007,65(5):805-814.
Model and Generation of Weather Forecast Analytic Data
Tan Xiaoguang1)Luo Bing2)
1)(Institute of Urban Meteorology,CMA,Beijing100089)
2)(National Meteorological Center,Beijing100081)
To solve the problem of“information exploration”in operational weather forecast,building a data warehouse to help forecaster’s analysis is necessary.The key and most valuable idea is to change raw data to analytic data,include extracting useful data,making data clean,and aggregating data to rough granularity data.Usually the meteorological data got in operational weather forecast is processed,clean and canonical.So the main process is“aggregation”to concentrate the weather information to fewer data which have clear physical meaning.
A conceptual model of weather analytic data is suggested with a pentagon tuple considering the spatial,transitional,physical and multi-scale natures of meteorological data.The pentagon tuple refers to ID(identification),SA (spatial attributes),EA (entity attributes),TA (time attributes)and PA (physical attributes),including several detailed attributes set each.Although meteorological data is field data,forecasters usually use spatial object data to analyze the weather systems.So the main work of changing raw data to analytic data is identifying spatial objects from field data.
Four aggregations arithmetics to change raw data to analytic data are suggested:Statistics for fixed region,statistics for given spatial or temporal partitions,identification of basic weather systems and identification of weather conceptual models.The former two are relatively simple statistics,while the latter two are complex for mutative spatial object and they are discussed in detail.
Basic weather systems include region of high/low,center of high/low and trough/ridge in a data field.A filtering-dividing-measuring arithmetic is suggested.Filtered with a Mexican-h(huán)at function,the trough/ridge become high/low region and easier to identify,and then the high/low region are divided from the filtered field,with some arithmetics adopted to tread with multi-scale problems of meteorological field.At last the divided regions are measured to get area,extreme value,length,width,aspect ratio(width/length),geometry center,extreme data location,points of central line,including all attributes of SA,EA,TA and PA.If the aspect ratio is smaller than a threshold,the region will be identified as a trough or ridge,and the central line is the trough or ridge line.
A knowledge base system with spatial fuzzy production rule is suggested for identifying weather conceptual models(e.g.,cold front),and the rational process of this rule is described.4topological relations,several order relations,measure relations and their subjection functions are suggested.The conclusion of the rules is expanded to spatial objects with a result-spatial-object.
weather forecast;data warehouse;weather analytic data;weather system identifying
譚曉光,羅兵.天氣預(yù)報(bào)分析型數(shù)據(jù)模型及生成.應(yīng)用氣象學(xué)報(bào),2014,25(1):120-128.
2013-02-18收到,2013-10-23收到再改稿。
公益性行業(yè)(氣象)科研專項(xiàng)(GYHY201206031)
*email:xgtan@ium.cn