卞曉豐
國(guó)家氣象信息中心,北京 100081
隨著中尺度、精細(xì)化天氣預(yù)報(bào)以及各種探測(cè)技術(shù)迅速發(fā)展,氣象觀測(cè)資料種類與數(shù)量增長(zhǎng)迅猛,綜合觀測(cè)系統(tǒng)、預(yù)報(bào)預(yù)測(cè)系統(tǒng)、公共服務(wù)系統(tǒng)對(duì)信息技術(shù)支撐系統(tǒng)提出了越來(lái)越高的要求[1]。氣象資料的特點(diǎn)是:數(shù)據(jù)種類的多樣化、時(shí)效性要求高以及數(shù)據(jù)量特別大[2],從使用的角度看,往往是要求高時(shí)效、大批量,且多數(shù)用戶通常都集中在同一個(gè)時(shí)段使用數(shù)據(jù)。氣象行業(yè)傳統(tǒng)的質(zhì)量控制主要依據(jù)氣象學(xué)、天氣學(xué)、氣候?qū)W原理,以及氣象要素的時(shí)間、空間變化規(guī)律和各要素間相互聯(lián)系的規(guī)律為線索,分析氣象資料是否合理[3]??梢赃@么說(shuō),數(shù)據(jù)質(zhì)量控制主要解決氣象數(shù)據(jù)的科學(xué)性問(wèn)題。如何構(gòu)建一個(gè)分層次的業(yè)務(wù)系統(tǒng),用以有效地收集和處理海量的原始?xì)庀髷?shù)據(jù)是氣象信息系統(tǒng)首先要解決的問(wèn)題[4]。
數(shù)據(jù)質(zhì)量管理不同于對(duì)氣象資料的質(zhì)量控制,它是一個(gè)持續(xù)的過(guò)程,并貫穿數(shù)據(jù)的整個(gè)生命周期。在信息技術(shù)發(fā)展的不同時(shí)期,數(shù)據(jù)質(zhì)量有著不同的概念和標(biāo)準(zhǔn)。20世紀(jì)80年代以前,關(guān)于數(shù)據(jù)質(zhì)量的標(biāo)準(zhǔn)基本上以提高數(shù)據(jù)準(zhǔn)確性為出發(fā)點(diǎn)。但是隨著質(zhì)量含義的不斷延伸,對(duì)數(shù)據(jù)質(zhì)量的認(rèn)識(shí)也從狹義向廣義轉(zhuǎn)變。目前數(shù)據(jù)質(zhì)量有著不同的定義,一種看法認(rèn)為數(shù)據(jù)質(zhì)量是數(shù)據(jù)適用于使用(fit for use)[6],另一種看法認(rèn)為數(shù)據(jù)質(zhì)量是數(shù)據(jù)對(duì)其期望目的的適應(yīng)度[7],還有一種看法認(rèn)為,數(shù)據(jù)質(zhì)量是模式(schema)和數(shù)據(jù)實(shí)例(instance)的一致性程度[8]。從數(shù)據(jù)質(zhì)量整體框架和方法論上講,首先我們要確定目標(biāo),然后要清楚用什么人,通過(guò)怎樣的流程,采用什么樣的技術(shù)支撐來(lái)達(dá)成目標(biāo),信息、人員、流程、技術(shù)缺一不可。本文從數(shù)據(jù)質(zhì)量管理角度出發(fā),介紹種類繁多以及不同生命周期的氣象數(shù)據(jù)以不同形式并存情況下的質(zhì)量管理方法。
數(shù)據(jù)質(zhì)量具有個(gè)性化,多樣性,不穩(wěn)定等特點(diǎn),不同行業(yè)可以根據(jù)自身背景,建立一組業(yè)內(nèi)認(rèn)可的質(zhì)量維度和指標(biāo)體系并制定其采集辦法。隨著氣象行業(yè)的發(fā)展,各種數(shù)據(jù)正在以難以想象的速度急劇膨脹。比如數(shù)據(jù)種類繁多、數(shù)據(jù)檢索困難、數(shù)據(jù)流向不明、數(shù)據(jù)無(wú)法共享,甚至更為嚴(yán)重的數(shù)據(jù)泛濫。如果在數(shù)量巨大的數(shù)據(jù)在通信系統(tǒng)上以不同形式并存,產(chǎn)品種類越多,生命周期越長(zhǎng),那么管理數(shù)據(jù)的難度也就越大。實(shí)現(xiàn)數(shù)據(jù)質(zhì)量管理以及建立相關(guān)的管理流程,需要考慮以下因素:
1) 注重從氣象數(shù)據(jù)使用者的角度來(lái)衡量數(shù)據(jù)質(zhì)量,數(shù)據(jù)質(zhì)量是由用戶以及數(shù)據(jù)的使用價(jià)值來(lái)評(píng)判的[10]。只有當(dāng)數(shù)據(jù)被用戶接受并使用時(shí),對(duì)數(shù)據(jù)質(zhì)量管理的討論才具有意義;
2) 數(shù)據(jù)質(zhì)量本身不可測(cè)度,通常根據(jù)需求分為若干維度逐個(gè)加以識(shí)別。一般來(lái)說(shuō),準(zhǔn)確性,及時(shí)性,完整性,一致性等構(gòu)成了數(shù)據(jù)質(zhì)量的基本因素[8];
3) 數(shù)據(jù)是持續(xù)更新的,數(shù)據(jù)質(zhì)量管理是一個(gè)持續(xù)的過(guò)程而不是一次性的活動(dòng)
[14]。
數(shù)據(jù)的不同使用目的導(dǎo)致了數(shù)據(jù)質(zhì)量目標(biāo)不同。如果數(shù)據(jù)的使用主要是為了業(yè)務(wù)流程的正常運(yùn)轉(zhuǎn),只要數(shù)據(jù)流向和某些數(shù)據(jù)統(tǒng)計(jì)正常,就可以認(rèn)為數(shù)據(jù)質(zhì)量滿足需求;如果數(shù)據(jù)是用于后續(xù)業(yè)務(wù)中的分析和計(jì)算,那么數(shù)據(jù)的使用目的則多種多樣,所以這種情況下的數(shù)據(jù)質(zhì)量需求是數(shù)據(jù)質(zhì)量管理目標(biāo)的主要方面。氣象通信系統(tǒng)中流轉(zhuǎn)的數(shù)據(jù)大多屬于后者,用作下游業(yè)務(wù)系統(tǒng)的輸入。
氣象通信系統(tǒng)是數(shù)據(jù)收集、分發(fā)、交換控制以及傳輸監(jiān)視的綜合業(yè)務(wù)系統(tǒng),承擔(dān)實(shí)時(shí)氣象數(shù)據(jù)傳輸和交換[1]。它主要由國(guó)際氣象通信系統(tǒng)、國(guó)內(nèi)氣象通信系統(tǒng)組成(圖1),其中國(guó)際通信系統(tǒng)承擔(dān)世界氣象組織全球通信系統(tǒng)亞洲區(qū)域樞紐職責(zé)的業(yè)務(wù)系統(tǒng)。國(guó)內(nèi)通信系統(tǒng)有臺(tái)站通信系統(tǒng)、縣級(jí)和地級(jí)通信系統(tǒng)、省級(jí)通信系統(tǒng)和國(guó)家級(jí)通信系統(tǒng)組成,負(fù)責(zé)國(guó)內(nèi)氣象數(shù)據(jù)的收集、國(guó)內(nèi)外氣象數(shù)據(jù)的分發(fā)服務(wù),用戶不只是各級(jí)氣象部門,還包括民航、水利、海洋等相關(guān)行業(yè)部門。
圖1 氣象通信系統(tǒng)的組成
作為基礎(chǔ)業(yè)務(wù)平臺(tái),氣象通信系統(tǒng)主要考慮以下四種影響數(shù)據(jù)質(zhì)量的因素:
1) 科學(xué)性。氣象數(shù)據(jù)必須真實(shí)的反應(yīng)實(shí)際狀況,避免出現(xiàn)誤差或者誤操作,控制數(shù)據(jù)的準(zhǔn)確程度;
2) 標(biāo)準(zhǔn)化和共享性。傳統(tǒng)上提供服務(wù)的各個(gè)信息系統(tǒng)相互獨(dú)立,在它們?cè)O(shè)計(jì)實(shí)施階段都沒有統(tǒng)一規(guī)劃,各個(gè)系統(tǒng)往往采用不同的技術(shù)和架構(gòu),不同的業(yè)務(wù)規(guī)范和數(shù)據(jù)模式,導(dǎo)致數(shù)據(jù)分散、不完整甚至可能會(huì)有沖突。
3) 時(shí)效性和穩(wěn)定性。數(shù)據(jù)的交換過(guò)程并不是完全可控的,存在一定的變化。氣象行業(yè)要求規(guī)定時(shí)間內(nèi)得到最新的數(shù)據(jù),并且要求業(yè)務(wù)系統(tǒng)是穩(wěn)定可靠的。
4) 可維護(hù)性。缺乏針對(duì)業(yè)務(wù)系統(tǒng)的數(shù)據(jù)質(zhì)量監(jiān)督管理措施。在系統(tǒng)的建設(shè)過(guò)程中,往往關(guān)心的是數(shù)據(jù)應(yīng)該往哪里去,應(yīng)該由誰(shuí)處理它。數(shù)據(jù)不只是業(yè)務(wù)的副產(chǎn)品,應(yīng)提高對(duì)數(shù)據(jù)質(zhì)量的重視。
影響其質(zhì)量的因素有很多,在數(shù)據(jù)的生產(chǎn)、傳輸和處理過(guò)程中,任何環(huán)節(jié)的問(wèn)題都會(huì)對(duì)信息系統(tǒng)的數(shù)據(jù)質(zhì)量產(chǎn)生負(fù)面影響。一種普遍認(rèn)可數(shù)據(jù)質(zhì)量研究主要集中在模式層和實(shí)例層。加入對(duì)數(shù)據(jù)來(lái)源的考慮,數(shù)據(jù)質(zhì)量問(wèn)題可分為如下4類(圖2):數(shù)據(jù)源模式層問(wèn)題、單數(shù)據(jù)源實(shí)例層問(wèn)題、多數(shù)據(jù)源模式層問(wèn)題和多數(shù)據(jù)源實(shí)例層問(wèn)題[9]。
單數(shù)據(jù)源情形中出現(xiàn)的問(wèn)題在多數(shù)據(jù)源的情況下會(huì)變得更為嚴(yán)重。上圖對(duì)多數(shù)據(jù)源沒有列出在單數(shù)據(jù)源情形中就已經(jīng)出現(xiàn)的問(wèn)題。模式層次上的問(wèn)題也會(huì)體現(xiàn)在實(shí)例層次上,而實(shí)例層次上的問(wèn)題在模式層次上不可見[12]。
圖2 數(shù)據(jù)質(zhì)量問(wèn)題分析
氣象數(shù)據(jù)的數(shù)據(jù)編碼技術(shù)基本可分為兩大類:字符編碼和二進(jìn)制編碼。字符編碼簡(jiǎn)單直觀,人工可讀、可編碼和解碼的。字符編碼對(duì)通信要求不高,適應(yīng)于早期電路速率低,只能以電報(bào)形式傳輸?shù)臈l件。二進(jìn)制編碼既能反映氣象信息的全貌,又能適應(yīng)高速通信線路的傳輸,便于計(jì)算機(jī)處理。二進(jìn)制的表格驅(qū)動(dòng)碼不僅包含數(shù)據(jù)本身,還包含對(duì)數(shù)據(jù)的完整描述,具備良好的擴(kuò)展性與靈活性。這種數(shù)據(jù)格式的自描述信息能夠規(guī)避模式層,甚至實(shí)例層的很多問(wèn)題,而且使編解碼簡(jiǎn)單化。所以,隨著二進(jìn)制編碼的推廣和應(yīng)用,氣象數(shù)據(jù)會(huì)逐漸轉(zhuǎn)為二進(jìn)制編碼以規(guī)避數(shù)據(jù)質(zhì)量問(wèn)題。
數(shù)據(jù)質(zhì)量是一個(gè)多維的概念[9],理論上不是完全可控的。而數(shù)據(jù)質(zhì)量維度是數(shù)據(jù)質(zhì)量的評(píng)估標(biāo)準(zhǔn),提供測(cè)量和管理信息和數(shù)據(jù)的方式。因此,將維度與業(yè)務(wù)需求相匹配,可較好地界定數(shù)據(jù)質(zhì)量管理的范圍??紤]氣象數(shù)據(jù)特點(diǎn),數(shù)據(jù)質(zhì)量維度的提出即從技術(shù)和業(yè)務(wù)兩個(gè)層面對(duì)目標(biāo)進(jìn)行定義。
一方面,在技術(shù)層面普遍認(rèn)可的四個(gè)基本要素是:
1) 完整性:數(shù)據(jù)的記錄和信息是否完整,主要包括是否存在文件缺失、要素缺失、記錄缺失和字段缺失等問(wèn)題;
2) 一致性:數(shù)據(jù)的記錄是否符合規(guī)范,是否與前后及其他數(shù)據(jù)集合統(tǒng)一,主要包括數(shù)據(jù)記錄的規(guī)范和數(shù)據(jù)邏輯的一致性;
3) 準(zhǔn)確性:數(shù)據(jù)中記錄的信息是否真實(shí)有效,是否存在異常或者錯(cuò)誤,比如誤差,異常大或者異常小的數(shù)據(jù)等;
4) 及時(shí)性:數(shù)據(jù)的延時(shí)時(shí)長(zhǎng)是否滿足時(shí)效性要求。當(dāng)然,對(duì)不同時(shí)間尺度的數(shù)據(jù)時(shí)延的要求是不同的。
另一方面,業(yè)務(wù)層面的需求從用戶視角衡量數(shù)據(jù)質(zhì)量,重視用戶對(duì)數(shù)據(jù)質(zhì)量的滿意程度。如何建立數(shù)據(jù)質(zhì)量監(jiān)控流程,及時(shí)發(fā)現(xiàn)、報(bào)告、處理數(shù)據(jù)質(zhì)量問(wèn)題。在發(fā)展的不同階段,對(duì)數(shù)據(jù)質(zhì)量的關(guān)注點(diǎn)也有所不同。早期對(duì)數(shù)據(jù)質(zhì)量的關(guān)注點(diǎn)在于提高數(shù)據(jù)的準(zhǔn)確性,隨著系統(tǒng)功能的不斷完善和擴(kuò)展,用戶的關(guān)注重點(diǎn)逐步轉(zhuǎn)向其它方面。完成數(shù)據(jù)質(zhì)量的維度以及業(yè)務(wù)需求分析之后,應(yīng)評(píng)估一個(gè)特定的數(shù)據(jù)質(zhì)量問(wèn)題在數(shù)據(jù)使用方面帶來(lái)的影響,定義可以接受的數(shù)據(jù)質(zhì)量閾值。根據(jù)影響分析可以確定數(shù)據(jù)質(zhì)量問(wèn)題的重要性和優(yōu)先級(jí)別。
以地面觀測(cè)資料為例,數(shù)據(jù)質(zhì)量管理分為三個(gè)部分:傳輸質(zhì)量檢查、數(shù)據(jù)質(zhì)量檢查和網(wǎng)絡(luò)系統(tǒng)工作情況檢查。傳輸質(zhì)量主要考察數(shù)據(jù)傳輸階段的完整性和及時(shí)性,考核指標(biāo)分別是及時(shí)到達(dá)文件數(shù)量、逾限到達(dá)文件數(shù)量和缺失文件數(shù)量。實(shí)時(shí)數(shù)據(jù)質(zhì)量則主要針對(duì)數(shù)據(jù)采集階段的準(zhǔn)確性和完整性,考核指標(biāo)有數(shù)據(jù)可用率、數(shù)據(jù)錯(cuò)誤率、數(shù)據(jù)可疑率和數(shù)據(jù)缺測(cè)率。上述兩種質(zhì)量對(duì)于不同種類的數(shù)據(jù)有著不同的閾值要求[1]。而網(wǎng)絡(luò)系統(tǒng)工作情況是對(duì)氣象通信網(wǎng)絡(luò)、系統(tǒng)等支撐環(huán)境的要求,考核指標(biāo)為系統(tǒng)的可靠性,要求系統(tǒng)全年7×24小時(shí)不間斷運(yùn)行,可用率在99.8%以上且每月平均故障時(shí)間不超過(guò)1個(gè)小時(shí)。
數(shù)據(jù)質(zhì)量的需求與實(shí)際之間的差距,通常是由信息、流程、技術(shù)、人員所造成的。建立和實(shí)施數(shù)據(jù)質(zhì)量管理體系的方法包括以下步驟:首先,確定數(shù)據(jù)使用者的需求和期望。其次,制定質(zhì)量目標(biāo),確定實(shí)現(xiàn)該目標(biāo)必需的業(yè)務(wù)流程和職責(zé),確定和提供實(shí)現(xiàn)質(zhì)量目標(biāo)必需的資源。然后,規(guī)定測(cè)量業(yè)務(wù)流程的有效性和效率,應(yīng)用測(cè)量方法確定每個(gè)流程的有效性和效率,確定防止不合格并消除產(chǎn)生原因的措施;最后,建立和應(yīng)用持續(xù)改進(jìn)質(zhì)量管理體系的過(guò)程。采用上述方法對(duì)過(guò)程和產(chǎn)品質(zhì)量樹立信心,為持續(xù)改進(jìn)提供基礎(chǔ),從而增進(jìn)用戶滿意并使氣象信息系統(tǒng)滿足設(shè)計(jì)要求。
針對(duì)氣象數(shù)據(jù)的來(lái)源多樣性、類型多樣性等特點(diǎn),面向數(shù)據(jù)生命流程的框架體系的是實(shí)現(xiàn)數(shù)據(jù)質(zhì)量控制的較好選擇。對(duì)于數(shù)據(jù)而言,雖然在內(nèi)容、格式等方面存在差異,但生命流程是具有共性的[16]。對(duì)于數(shù)據(jù)生命流程的分類多種多樣,但總的說(shuō)來(lái)大同小異,只是具體細(xì)節(jié)方面的不同。氣象通信系統(tǒng)中數(shù)據(jù)的重要生命階段大致可分為數(shù)據(jù)收集、數(shù)據(jù)管理和存儲(chǔ)、數(shù)據(jù)應(yīng)用和服務(wù)三個(gè)階段。
數(shù)據(jù)質(zhì)量的提高策略多種多樣[13],從數(shù)據(jù)生命流程來(lái)看,一類從預(yù)防的角度,即在數(shù)據(jù)生命流程的任何一個(gè)階段,都有嚴(yán)格的數(shù)據(jù)規(guī)劃和約束來(lái)防止數(shù)據(jù)質(zhì)量問(wèn)題的產(chǎn)生;另一類是事后診斷,即由于數(shù)據(jù)的演化或集成,會(huì)有臟數(shù)據(jù)逐漸涌現(xiàn)。從數(shù)據(jù)質(zhì)量問(wèn)題解決依賴的知識(shí)來(lái)看,數(shù)據(jù)質(zhì)量提高策略分為兩類:一類提高策略不依賴特定業(yè)務(wù)規(guī)則,是應(yīng)用獨(dú)立的,如誤差、數(shù)據(jù)異常、某些缺失值的處理等,這類問(wèn)題不依賴于特定規(guī)則,可以從數(shù)據(jù)本身中尋找特征來(lái)解決
[12];另一類解決方法與特定業(yè)務(wù)規(guī)則相關(guān),是應(yīng)用依賴的,這些相關(guān)領(lǐng)域知識(shí)是消除數(shù)據(jù)邏輯錯(cuò)誤的必需條件。由于數(shù)據(jù)質(zhì)量問(wèn)題涉及方方面面,成功的數(shù)據(jù)質(zhì)量提高方案必然是綜合應(yīng)用以上各種策略。
綜上所述,改善數(shù)據(jù)質(zhì)量從兩個(gè)方面著手,一個(gè)是在數(shù)據(jù)進(jìn)入系統(tǒng)時(shí)引入各種規(guī)則來(lái)保證數(shù)據(jù)的正確性;另一個(gè)是在數(shù)據(jù)整合時(shí)引入專門的工具進(jìn)行數(shù)據(jù)清洗。后一種方法的成本較高,而且需要持續(xù)不斷的進(jìn)行。相對(duì)而言,前一種方法更加主動(dòng),成本也較低。
數(shù)據(jù)交換是數(shù)據(jù)生命流程的開始,數(shù)據(jù)通過(guò)各種方式進(jìn)入氣象信息系統(tǒng)內(nèi)部。氣象數(shù)據(jù)具有多源性和復(fù)雜性,數(shù)據(jù)交換與多方面的因素直接相關(guān),這些直接相關(guān)的因素都不同程度對(duì)數(shù)據(jù)質(zhì)量情況有所影響,比如模式設(shè)計(jì)、傳輸方式、設(shè)備的工作狀態(tài)等。
以觀測(cè)資料為例,目前用于提高數(shù)據(jù)的準(zhǔn)確性的管理方法包括:格式檢查、范圍檢查、極值檢查、內(nèi)部一致性檢查、空間一致性檢查、氣象學(xué)公式檢查、統(tǒng)計(jì)學(xué)檢查、均一性檢查等。臺(tái)站、地市和縣級(jí)、省級(jí)、國(guó)家級(jí)資料部門的四級(jí)質(zhì)量控制業(yè)務(wù)系統(tǒng)在數(shù)據(jù)源頭確保數(shù)據(jù)的完整性、正確性,根據(jù)數(shù)據(jù)時(shí)效性區(qū)分實(shí)時(shí)和非實(shí)時(shí)業(yè)務(wù),保證數(shù)據(jù)的及時(shí)性[5]。
一般來(lái)說(shuō),數(shù)據(jù)管理和存儲(chǔ)不會(huì)對(duì)數(shù)據(jù)有直接改變的操作,通常是把數(shù)據(jù)以具體的形式存儲(chǔ)和管理。除了數(shù)據(jù)自身的質(zhì)量,存儲(chǔ)介質(zhì)、環(huán)境、歸檔策略等也都是和質(zhì)量管理緊密相關(guān)的,數(shù)據(jù)管理應(yīng)該在保證數(shù)據(jù)安全性的前提下提供用戶訪問(wèn)。在這一階段中,還應(yīng)當(dāng)重點(diǎn)關(guān)注存儲(chǔ)介質(zhì)、環(huán)境以及管理系統(tǒng)的安全性、可訪問(wèn)性等因素。另外,數(shù)據(jù)管理流程不清晰、資料標(biāo)準(zhǔn)不統(tǒng)一等問(wèn)題給業(yè)務(wù)人員和用戶都增加了一定的工作量。需要增加對(duì)數(shù)據(jù)進(jìn)行詳細(xì)、深入的了解,注重解決元數(shù)據(jù)管理、數(shù)據(jù)整合等方面的細(xì)節(jié)問(wèn)題。
數(shù)據(jù)進(jìn)入數(shù)據(jù)庫(kù)管理之前,根據(jù)來(lái)源、種類等信息對(duì)上一階段的數(shù)據(jù)進(jìn)行清理和驗(yàn)證。具體的方式有重復(fù)性檢查、數(shù)據(jù)補(bǔ)調(diào)、錯(cuò)報(bào)調(diào)閱及修改等。通過(guò)文件級(jí)、公報(bào)級(jí)、報(bào)告級(jí)數(shù)據(jù)收發(fā)情況和傳輸時(shí)效的監(jiān)視、統(tǒng)計(jì),按照規(guī)定生成指定的報(bào)告級(jí)報(bào)表,對(duì)重要數(shù)據(jù)質(zhì)量問(wèn)題應(yīng)當(dāng)做持續(xù)監(jiān)控。通過(guò)數(shù)據(jù)質(zhì)量檢查和監(jiān)控來(lái)測(cè)量和監(jiān)控?cái)?shù)據(jù)項(xiàng)對(duì)數(shù)據(jù)質(zhì)量的符合度,提高識(shí)別和糾正數(shù)據(jù)質(zhì)量問(wèn)題的可能性,從而避免對(duì)業(yè)務(wù)的重大沖擊。對(duì)于一些實(shí)驗(yàn)性的項(xiàng)目而言,巨大的數(shù)據(jù)量和高時(shí)效的要求促使技術(shù)人員正在尋找新的架構(gòu)實(shí)現(xiàn)智能動(dòng)態(tài)管理,以方便對(duì)其進(jìn)行高效存儲(chǔ)和訪問(wèn)。
數(shù)據(jù)應(yīng)用和服務(wù)階段是根據(jù)業(yè)務(wù)需求將數(shù)據(jù)傳遞給下游的過(guò)程,在該階段最容易暴露數(shù)據(jù)本身及其所產(chǎn)生的信息內(nèi)容的質(zhì)量問(wèn)題。因?yàn)閿?shù)據(jù)的使用決定了數(shù)據(jù)質(zhì)量問(wèn)題的定義,很多質(zhì)量問(wèn)題都是在使用時(shí)首次發(fā)現(xiàn)。除此之外,從用戶角度出發(fā),數(shù)據(jù)服務(wù)系統(tǒng)的友好性、易用性也可作為該階段數(shù)據(jù)質(zhì)量控制和保證的維度。
氣息通信系統(tǒng)提供各種傳輸協(xié)議接口,實(shí)現(xiàn)數(shù)據(jù)交換控制、傳輸處理以及作業(yè)調(diào)度。通過(guò)管理入口技術(shù)人員對(duì)系統(tǒng)做業(yè)務(wù)管理、維護(hù)和運(yùn)行監(jiān)視,保證數(shù)據(jù)能夠及時(shí)分發(fā),及時(shí)到達(dá)。在日常業(yè)務(wù)工作中,業(yè)務(wù)人員逐步認(rèn)識(shí)到數(shù)據(jù)質(zhì)量是一個(gè)嚴(yán)重的,需要高昂的成本的問(wèn)題。很多數(shù)據(jù)使用者并不能完全了解數(shù)據(jù)質(zhì)量問(wèn)題產(chǎn)生的原因,他們認(rèn)為數(shù)據(jù)質(zhì)量的問(wèn)題主要是技術(shù)層面的問(wèn)題。但是,數(shù)據(jù)質(zhì)量問(wèn)題又不可能僅僅通過(guò)氣象通信系統(tǒng)的改善來(lái)實(shí)現(xiàn),更需要其他業(yè)務(wù)部門的積極、主動(dòng)參與。
數(shù)據(jù)質(zhì)量問(wèn)題的產(chǎn)生往往主要在數(shù)據(jù)收集階段,然后隨著數(shù)據(jù)生命流程的發(fā)展而逐漸減少,而數(shù)據(jù)質(zhì)量問(wèn)題的發(fā)現(xiàn)則相反(圖3)。數(shù)據(jù)收集階段最開始只能發(fā)現(xiàn)業(yè)務(wù)流程相關(guān)的數(shù)據(jù)質(zhì)量問(wèn)題,而且僅限于本系統(tǒng)內(nèi)部。預(yù)防比修正的成本低,而且效果更好,因此數(shù)據(jù)質(zhì)量的問(wèn)題最好在源頭得到修正。相比較其它階段,在數(shù)據(jù)收集階段預(yù)防數(shù)據(jù)質(zhì)量缺陷發(fā)生的意義更大。對(duì)于數(shù)據(jù)管理和存儲(chǔ)階段,應(yīng)當(dāng)利用基礎(chǔ)數(shù)據(jù)平臺(tái)類系統(tǒng)對(duì)數(shù)據(jù)質(zhì)量問(wèn)題的解決情況進(jìn)行跟蹤,作為數(shù)據(jù)質(zhì)量監(jiān)控的一個(gè)重要組成部分,也是數(shù)據(jù)質(zhì)量提高的一個(gè)依據(jù)。作為數(shù)據(jù)的使用者,在數(shù)據(jù)應(yīng)用和服務(wù)階段對(duì)數(shù)據(jù)質(zhì)量進(jìn)行評(píng)估和反饋,用于設(shè)定下一階段數(shù)據(jù)管理目標(biāo)。
圖3 數(shù)據(jù)生命流程
數(shù)據(jù)質(zhì)量管理的有效實(shí)施依賴于建立數(shù)據(jù)質(zhì)量事件解決報(bào)告與跟蹤機(jī)制。記錄數(shù)據(jù)質(zhì)量事件的評(píng)估、初步診斷和后續(xù)行動(dòng)提供績(jī)效報(bào)告。包括問(wèn)題解決的平均時(shí)間、問(wèn)題發(fā)生頻次、問(wèn)題類型、問(wèn)題來(lái)源以及糾正或者消除問(wèn)題的常規(guī)做法。從質(zhì)量管理的持續(xù)改進(jìn)原則出發(fā),不斷的改進(jìn)數(shù)據(jù)質(zhì)量是一個(gè)永恒的目標(biāo)。數(shù)據(jù)是持續(xù)更新的,數(shù)據(jù)質(zhì)量管理是一個(gè)持續(xù)的過(guò)程而不是一次性的活動(dòng),沒有持續(xù)的監(jiān)控和預(yù)防措施,數(shù)據(jù)質(zhì)量缺陷仍有可能再次出現(xiàn)。一般通過(guò)預(yù)定義的規(guī)則進(jìn)行數(shù)據(jù)質(zhì)量驗(yàn)證,提供了將數(shù)據(jù)監(jiān)控與主動(dòng)數(shù)據(jù)質(zhì)量管理日常操作流程相融合的方式來(lái)。因此,數(shù)據(jù)質(zhì)量日常工作的四項(xiàng)活動(dòng)有:檢查和監(jiān)控;診斷和評(píng)估補(bǔ)救辦法;解決問(wèn)題;形成報(bào)告。
不同的業(yè)務(wù)對(duì)數(shù)據(jù)質(zhì)量的要求是不同的,在具體的實(shí)踐中可以根據(jù)質(zhì)量控制、評(píng)估等具體需要增加質(zhì)量維度,輔以相應(yīng)的質(zhì)量對(duì)象實(shí)現(xiàn)理論和方法,評(píng)估、控制和保證相應(yīng)的數(shù)據(jù)質(zhì)量?jī)?nèi)容。為了最大范圍進(jìn)行有效的數(shù)據(jù)質(zhì)量管理,數(shù)據(jù)質(zhì)量管理的功能點(diǎn)應(yīng)該合理分布在流程的各個(gè)階段。數(shù)據(jù)質(zhì)量管理的最佳選擇是將數(shù)據(jù)、業(yè)務(wù)系統(tǒng)、技術(shù)人員和用戶都納入到數(shù)據(jù)質(zhì)量的發(fā)現(xiàn)、修正、跟蹤和評(píng)估的閉環(huán)流程之中,數(shù)據(jù)質(zhì)量管理成敗的關(guān)鍵在于合理有效的組織架構(gòu)和流程。
氣象科學(xué)數(shù)據(jù)作為國(guó)家基礎(chǔ)性、公益性科學(xué)數(shù)據(jù)資源的重要組成部分,良好設(shè)計(jì)和規(guī)劃的信息系統(tǒng)并不能保證在所有的情況下都能滿足氣象行業(yè)對(duì)數(shù)據(jù)業(yè)務(wù)的要求。數(shù)據(jù)質(zhì)量管理應(yīng)該作為業(yè)務(wù)系統(tǒng)中一項(xiàng)關(guān)鍵的支撐流程,在業(yè)務(wù)系統(tǒng)的設(shè)計(jì)改造、業(yè)務(wù)的變更整合,以及業(yè)務(wù)的遷移過(guò)程中統(tǒng)籌考慮,否則就會(huì)影響所存放的數(shù)據(jù)的質(zhì)量。而且,對(duì)數(shù)據(jù)短期的清理也許會(huì)帶來(lái)一定的改善,但并不解決數(shù)據(jù)缺陷的根本原因。應(yīng)當(dāng)根據(jù)發(fā)展需求制定的數(shù)據(jù)質(zhì)量標(biāo)準(zhǔn),為提升數(shù)據(jù)質(zhì)量提供合理有效的解決方案。
數(shù)據(jù)質(zhì)量管理過(guò)程是一個(gè)沒有終點(diǎn)的過(guò)程,也沒有統(tǒng)一架構(gòu)原則。數(shù)據(jù)質(zhì)量是一個(gè)多維的概念,貫穿于數(shù)據(jù)生命流程的各個(gè)階段。為了防患于未然,定位、解決和避免數(shù)據(jù)質(zhì)量問(wèn)題,需要構(gòu)建可長(zhǎng)期持續(xù)保持的數(shù)據(jù)質(zhì)量流程,減少業(yè)務(wù)中數(shù)據(jù)流程風(fēng)險(xiǎn)。將數(shù)據(jù)質(zhì)量管理和質(zhì)量提高等流程制度化,識(shí)別業(yè)務(wù)對(duì)高質(zhì)量數(shù)據(jù)的需求,確定如何度量、監(jiān)控和報(bào)告數(shù)據(jù)質(zhì)量的最佳方式。根據(jù)數(shù)據(jù)質(zhì)量問(wèn)題的定義、分類和特性,可從技術(shù)和管理兩個(gè)方面分析并解決氣象通信系統(tǒng)中的可能存在的數(shù)據(jù)質(zhì)量問(wèn)題。氣象數(shù)據(jù)質(zhì)量的研究工作仍有許多可以改善的地方,這需要在今后的業(yè)務(wù)工作中將這部分研究工作將和氣象通信系統(tǒng)的建設(shè)和發(fā)展結(jié)合起來(lái),根據(jù)下游業(yè)務(wù)的反饋和意見做進(jìn)一步的完善和豐富。
[1]趙立成,氣象信息系統(tǒng)[M]氣象出版社,2011.
[2]林潤(rùn)生, 孫周軍, 譚小華, 等. 新一代國(guó)內(nèi)氣象通信系統(tǒng)設(shè)計(jì)與實(shí)現(xiàn)[J]. 氣象, 2011, 37(3):356-362.
[3]李集明,熊安元.氣象科學(xué)數(shù)據(jù)共享系統(tǒng)研究綜述[J]. 應(yīng)用氣象學(xué)報(bào),2004,15(Z1).
[4]李集明, 沈文海, 王國(guó)復(fù). 氣象信息共享平臺(tái)及其關(guān)鍵技術(shù)研究[J]. 應(yīng)用氣象學(xué)報(bào), 2006,17(5): 621-628.
[5]劉小寧, 任芝花. 地面氣象資料質(zhì)量控制方法研究概述[J]. 氣象科技, 2005, 33(3): 199-203.
[6]Wang R Y, Strong D M, Guarascio L M.Beyond accuracy: What data quality means to data consumers[J]. J. of Management Information Systems,1996, 12(4): 5-33.
[7]Beverly K. Kahn, Diane M. Strong. Product and Service Performance Model for Information Quality: An Update[J]. IQ 1998: 102-115, 1998.
[8]Aebi D, Perrochon L. Towards Improving Data Quality[C]//CISMOD. 1993: 273-281.
[9]Rahm E, Do H H. Data cleaning: Problems and current approaches[J]. IEEE Data Eng. Bull., 2000,23(4): 3-13.
[10]DAMA著,馬歡,劉晨等譯,DAMA數(shù)據(jù)管理知識(shí)體系指南[M],清華大學(xué)出版社,2012
[11]宋敏, 覃正. 國(guó)外數(shù)據(jù)質(zhì)量管理研究綜述[J]. 情報(bào)雜志, 2007, 2: 7-9.
[12]郭志懋, 周傲英. 數(shù)據(jù)質(zhì)量和數(shù)據(jù)清洗研究綜述[J]. 軟件學(xué)報(bào), 2002, 13(11): 2076-2082.
[13]韓京宇, 徐立臻, 董逸生. 數(shù)據(jù)質(zhì)量研究綜述[J]. 計(jì)算機(jī)科學(xué), 2008, 35(2): 1-5.
[14]孫中東. 企業(yè)級(jí)數(shù)據(jù)治理框架下的數(shù)據(jù)質(zhì)量管理[J]. 金融電子化, 2011 (6): 57-60.
[15]王國(guó)復(fù), 徐楓, 吳增祥. 氣象元數(shù)據(jù)標(biāo)準(zhǔn)與信息發(fā)布技術(shù)研究[J]. 應(yīng)用氣象學(xué)報(bào), 2005,16(1): 114-121.
[16]胡良霖. 科學(xué)數(shù)據(jù)資源的質(zhì)量控制和評(píng)估[J]. E-Science, 2009 (1): 50-55.