路勁
(云南電網公司信息中心,昆明 650051)
數(shù)據(Information Data):是指信息系統(tǒng)在應用過程中通過采集、分類、錄入、儲存、統(tǒng)計分析、統(tǒng)計檢驗等產生的定量和定性的數(shù)據。數(shù)據質量指滿足某種定義和規(guī)則要求指標的數(shù)據,通常從以下五個方面對數(shù)據質量進行約束:
數(shù)據規(guī)范性:數(shù)據的定義和取值是否滿足相關規(guī)范要求,如數(shù)據類型、數(shù)據精度、字符長度、數(shù)據格式、取值范圍、唯一性、編碼等方面是否滿足規(guī)范要求
數(shù)據準確性:數(shù)據值是否真實反映業(yè)務情況,或數(shù)據是否被準確記錄。
數(shù)據完整性:業(yè)務所需的關鍵數(shù)據項是否在系統(tǒng)中有定義,關鍵數(shù)據項是否被采集。
數(shù)據及時性:數(shù)據是否在規(guī)定的期限內獲取、錄入、更新、加工、刪除。
數(shù)據一致性:不同系統(tǒng)或同一系統(tǒng)內不同表單的相同數(shù)據項取值是否一致,關聯(lián)數(shù)據之間的邏輯關系是否正確和完整。
圖1 數(shù)據質量提升過程
如圖1 所示,數(shù)據質量提升過程通常包括五個主要環(huán)節(jié):制定規(guī)則、校驗分析、問題量化、數(shù)據整治、總結分析,形成一個閉環(huán)過程。在實際運作過程中,數(shù)據質量提升往往遵循一個螺旋上升的過程,通過階段性的分析整治提升,逐步推進整體數(shù)據質量。
數(shù)據作為一種特殊而極其重要的資源,與物理資源相比具有其獨特的性質:
1)數(shù)據有生命周期:計劃、獲取、存儲、共享、維護、應用、消亡等不同階段,各生命周期階段對數(shù)據質量可能存在不同維度的約束指標要求。
2)數(shù)據的不穩(wěn)定性:數(shù)據容易受到外界環(huán)境動態(tài)變換的影響,諸如企業(yè)戰(zhàn)略調整、生產經營目標的變更、管理制度的改革、工作流程的變化等都可能導致數(shù)據的變化,而數(shù)據的變化意味著數(shù)據質量的約束指標也可能需要隨之改變。
3)數(shù)據的增長性:隨著業(yè)務活動的開展,大量的新數(shù)據會被產生,對于新產生的數(shù)據,其數(shù)據質量是缺乏評估的,需要動態(tài)的對新生數(shù)據進行評估確認,以保證其合規(guī)性。
一方面,數(shù)據的上述變化特性,決定了數(shù)據質量的治理需隨數(shù)據的變化而變化;另一方面,數(shù)據質量提升的過程本身也是一個周期性調整的過程。因此,在數(shù)據質量校驗實施過程中,如何確保校驗規(guī)則的動態(tài)可調整將是至關重要的。
問題數(shù)據的追蹤與定位,是整個數(shù)據質量提升過程中的關鍵所在。作為問題分析與整治的前提條件,如何有效按照數(shù)據質量約束條件有效識別出不合規(guī)的問題數(shù)據,是數(shù)據質量提升需要解決的首要問題。
2.1.1 支持校驗規(guī)則動態(tài)配置
為了確保數(shù)據質量切實有效提升,數(shù)據質量管理平臺必須滿足數(shù)據動態(tài)治理這一基本要求。數(shù)據質量管理平臺借助校驗規(guī)則庫的思想,實現(xiàn)數(shù)據校驗的動態(tài)調整。在數(shù)據質量管理平臺中,校驗規(guī)則項作為最基本的數(shù)據質量約束指標,統(tǒng)一存放于校驗規(guī)則庫中。用戶可以根據實際的數(shù)據校驗需求,新增校驗規(guī)則項添加至校驗規(guī)則庫中,或是對已有的校驗規(guī)則項進行修改調整。每次執(zhí)行數(shù)據校驗時,從校驗規(guī)則庫中按需選取規(guī)則組成校驗模型,通過執(zhí)行引擎對校驗模型的調度執(zhí)行,實現(xiàn)一個批次校驗規(guī)則對數(shù)據的校驗。通過對校驗執(zhí)行前規(guī)則項的維護調整,達到按需動態(tài)校驗的目的。
2.1.2 松散耦合的非侵入式掃描
數(shù)據質量管理平臺的定位,在于協(xié)助各業(yè)務系統(tǒng)識別出其內部的問題數(shù)據。在數(shù)據質量管理平臺對各業(yè)務系統(tǒng)數(shù)據進行校驗的過程中,不可避免的會與各業(yè)務系統(tǒng)產生交互。為了降低數(shù)據質量管理平臺和各業(yè)務系統(tǒng)的耦合性,數(shù)據質量管理平臺將采用非侵入式的掃描方式來執(zhí)行數(shù)據校驗。在執(zhí)行數(shù)據校驗掃描時,數(shù)據質量管理平臺不需要在目標系統(tǒng)中植入任何程序,通過標準協(xié)議實現(xiàn)對目標系統(tǒng)數(shù)據源的直連,進而開展數(shù)據校驗掃描。通過使用標準訪問協(xié)議,降低對目標系統(tǒng)的依賴性,提高數(shù)據質量管理平臺的通用性。
圖2 數(shù)據質量管理平臺技術架構
支持自定義規(guī)則的動態(tài)配置,能夠以松散耦合、非侵入式的方式,實現(xiàn)對任意業(yè)務系統(tǒng)數(shù)據源的校驗掃描,是數(shù)據質量管理平臺最大的技術特點。在設計上,數(shù)據質量管理平臺主要由數(shù)據層、功能組件、連接適配器、應用界面四部分組成。
數(shù)據層主要由規(guī)則庫、缺陷池、連接源等數(shù)據組成。規(guī)則庫是動態(tài)校驗的基礎保障,規(guī)則在實現(xiàn)上體現(xiàn)為SQL 查詢語句模板,數(shù)據校驗的業(yè)務規(guī)則通過SQL 語句的查詢條件體現(xiàn)。缺陷池存儲掃描出來的問題數(shù)據詳細信息,為問題數(shù)據整治提供參考依據。連接源存儲了供連接適配器使用的標準協(xié)議訪問參數(shù)。
功能組件主要由報表管理、數(shù)據源管理、規(guī)則管理、執(zhí)行管理、調度引擎組成。報表管理負責根據掃描出的問題數(shù)據記錄項生成統(tǒng)計報表,以便用戶對數(shù)據質量進行宏觀決策。數(shù)據源管理、規(guī)則管理提供了對數(shù)據層中的連接源和規(guī)則庫進行維護的功能。執(zhí)行管理可以將一批規(guī)則組合為一個數(shù)據校驗模型,并通過指定數(shù)據源構成一個校驗任務。調度引擎是功能組件中的核心部分,它通過解析執(zhí)行管理設置的任務信息,按照任務設定完成目標系統(tǒng)數(shù)據源的數(shù)據掃描,并將問題數(shù)據寫入缺陷池中。
連接適配器是實現(xiàn)松散耦合的非侵入式掃描的關鍵所在。數(shù)據質量管理平臺通過連接適配器,建立與目標系統(tǒng)數(shù)據庫的直接連接。在此基礎上,調度引擎根據任務信息中存儲的數(shù)據校驗模型,執(zhí)行對應的校驗規(guī)則SQL 語句,從而找出業(yè)務系統(tǒng)中的問題數(shù)據。
圖3 數(shù)據質量管理平臺使用流程
數(shù)據質量管理平臺的典型應用場景主要由準備階段和使用階段構成。在準備階段中,需要完成數(shù)據校驗基礎信息的錄入。首先,通過數(shù)據源管理功能,完成目標系統(tǒng)數(shù)據庫連接參數(shù)的設置;其次,通過規(guī)則管理功能,將需要校驗的業(yè)務規(guī)則編制為對應的SQL 模板,存入規(guī)則庫中。
在使用階段,首先通過執(zhí)行管理對本次掃描任務進行配置,確定連接適配器使用的數(shù)據源數(shù)據源,選擇需要使用的校驗規(guī)則組成數(shù)據校驗模型。在完成任務的設置之后,即可開始 執(zhí)行校驗。校驗完成后,校驗出的問題數(shù)據會被存入數(shù)據質量管理平臺的缺陷池中,同時數(shù)據質量管理平臺會根據缺陷池信息生成數(shù)據質量報表,供用戶分析決策使用。
綜上所述,針對業(yè)務數(shù)據動態(tài)變化的特性,以動態(tài)校驗技術為核心,搭建了數(shù)據質量管理平臺。借助該平臺,用戶可以使用自定義的校驗規(guī)則,以松散耦合的非侵入式方式實現(xiàn)對業(yè)務系統(tǒng)數(shù)據的校驗掃描,有效識別出問題數(shù)據,為業(yè)務數(shù)據整改及數(shù)據質量有效提升奠定基礎。
[1]陳勇成,趙傳征、廣西電網公司營銷基礎數(shù)據質量評價管理系統(tǒng)設計分析、《廣西電業(yè)》、2012.4 (總第144 期)、P29-P32
[2]楊璽,譚健聰,張俊、數(shù)據質量管理在電力安全生產信息系統(tǒng)中的應用、《電子世界》、2013 (22),P234-P235
[3]盧紹年、淺析企業(yè)信息化建設與數(shù)據質量、《廣西電業(yè)》、2013.3 (總第155 期)、P88-P89
[4]鄭芒英、數(shù)據質量管理平臺的研究及應用、《寧波職業(yè)技術學院學報》、2013.1 (第17 卷第1 期)、P105-P107