張 恒,曹麗娟,程新洲,徐樂西(中國聯(lián)通研究院,北京 100048)
大數(shù)據(jù)平臺可用性是一項重要的平臺運行指標,一個優(yōu)秀的大數(shù)據(jù)平臺,首先能夠讓操作者快速發(fā)現(xiàn)和理解數(shù)據(jù),最終實現(xiàn)數(shù)據(jù)的高效應用。因此在整個過程中,平臺中數(shù)據(jù)獲取后的質(zhì)量管控非常重要,只有對采集的數(shù)據(jù)進行嚴格的分析治理和質(zhì)量管控,發(fā)現(xiàn)并完善數(shù)據(jù)的質(zhì)量問題,才能解決用戶對數(shù)據(jù)可用性的疑慮,保證后期業(yè)務的準確性和有效性。
數(shù)據(jù)質(zhì)量管理主要依靠管理制度和事后稽核。在平臺建設過程中,設計者通過改變模型管理和數(shù)據(jù)開發(fā)的模式,將后向管理變更為前向管理,從數(shù)據(jù)源頭保障數(shù)據(jù)質(zhì)量。
數(shù)據(jù)質(zhì)量稽核從流程上可以分為以下3個層級。
a)元數(shù)據(jù)管理:最基礎性的管理機制,可以識別、評價、追蹤資源,達到有效管理。
b)數(shù)據(jù)的標準化管理:建立標準化體系,保證數(shù)據(jù)的統(tǒng)一運營和維護。
c)數(shù)據(jù)質(zhì)量稽核:實現(xiàn)數(shù)據(jù)的深度質(zhì)量檢查,打造優(yōu)質(zhì)數(shù)據(jù)資產(chǎn)。
元數(shù)據(jù)管理應具備對元數(shù)據(jù)本身質(zhì)量進行檢查的功能,保證元數(shù)據(jù)自身的數(shù)據(jù)質(zhì)量。元數(shù)據(jù)質(zhì)量檢查包含但不限于以下內(nèi)容:元數(shù)據(jù)一致性、元數(shù)據(jù)關系的健全性、元數(shù)據(jù)屬性的填充率、元數(shù)據(jù)名稱重復性和元數(shù)據(jù)關鍵屬性值的唯一性。大數(shù)據(jù)平臺一般會提供專門的界面進行元數(shù)據(jù)質(zhì)量管控和呈現(xiàn)檢查結果。
a)平臺將提供在開發(fā)階段定義好對象的元數(shù)據(jù)質(zhì)量規(guī)則,并要求開發(fā)者在開發(fā)過程中按照規(guī)則錄入元數(shù)據(jù)信息,并由系統(tǒng)進行統(tǒng)一檢查。
b)平臺提供元數(shù)據(jù)質(zhì)量檢查機制,及時發(fā)現(xiàn)、報告和處理元數(shù)據(jù)的數(shù)據(jù)質(zhì)量問題。檢查包括自動檢查和人工檢查2種方式。
c)平臺提供可視化元數(shù)據(jù)血緣分析圖,可進行影響分析、血緣分析,同時可以在血緣分析圖中修改元數(shù)據(jù)信息,增加質(zhì)量規(guī)則。
d)對于一些必須手工維護的元數(shù)據(jù)可通過開發(fā)維護人員進行手工維護、審批、發(fā)布。同時檢查所提供的元數(shù)據(jù)與生產(chǎn)環(huán)境上元數(shù)據(jù)的一致性,形成元數(shù)據(jù)質(zhì)量報告,產(chǎn)生手工維護的任務單,以確保元數(shù)據(jù)質(zhì)量和可用性。
數(shù)據(jù)標準是大數(shù)據(jù)平臺數(shù)據(jù)治理的基礎性工作,是數(shù)據(jù)治理建設中的首要環(huán)節(jié),為大數(shù)據(jù)平臺提供統(tǒng)一的數(shù)據(jù)標準定義和平臺邏輯模型,是大數(shù)據(jù)平臺進行數(shù)據(jù)治理的依據(jù)和根本,同時也是衡量大數(shù)據(jù)平臺數(shù)據(jù)資產(chǎn)運營和管理的評估依據(jù),最終能實現(xiàn)對大數(shù)據(jù)平臺全網(wǎng)數(shù)據(jù)的統(tǒng)一運營管理。
平臺通過建立統(tǒng)一的數(shù)據(jù)標準,結合制度約束、系統(tǒng)控制等手段,實現(xiàn)大數(shù)據(jù)平臺中數(shù)據(jù)的完整性、有效性、一致性、規(guī)范性、開放性和共享性管理,提高大數(shù)據(jù)平臺的數(shù)據(jù)治理水平。
數(shù)據(jù)資產(chǎn)標準化主要包括以下內(nèi)容。
a)標準化的命名規(guī)則:數(shù)據(jù)的名稱、編碼、層級、層的屬性名稱等協(xié)調(diào)一致,統(tǒng)一管理,改變各源系統(tǒng)不規(guī)范的命名方式,避免同名不同意,同意不同名的現(xiàn)象。
b)統(tǒng)一數(shù)據(jù)擴展規(guī)則:對指標代碼、元數(shù)據(jù)、子類等擴展要素的擴展規(guī)則進行統(tǒng)一限定,保證后續(xù)數(shù)據(jù)的持續(xù)規(guī)范管理。
c)標準化規(guī)范執(zhí)行:平臺通過對數(shù)據(jù)資產(chǎn)產(chǎn)生過程的監(jiān)控(包括命名規(guī)范、信息完整性、合理性、基礎信息完整性等以及存儲周期、數(shù)據(jù)安全敏感信息和加密信息、權限賦權)以確保數(shù)據(jù)滿足整體規(guī)劃要求。
數(shù)據(jù)質(zhì)量體系需要通過實踐和規(guī)劃的相互促進,不斷完善改進,為此,需要確保數(shù)據(jù)架構合理,條理清晰,過程可控,知識積累傳承,并通過監(jiān)控和審計不斷促進質(zhì)量水平的持續(xù)提升。
數(shù)據(jù)質(zhì)量管理是對采集入庫的數(shù)據(jù)進行全面質(zhì)量管理。開發(fā)者制定相應的技術手段和組織、流程、評價考核規(guī)則,通過平臺操作,及時發(fā)現(xiàn)并解決數(shù)據(jù)質(zhì)量問題,提升數(shù)據(jù)的完整性、及時性、準確性及一致性,提升業(yè)務價值。
數(shù)據(jù)質(zhì)量規(guī)則配置如下。
a)提供便捷的IDE 界面,可通過圖形化或者標準SQL的方式,實現(xiàn)對數(shù)據(jù)質(zhì)量規(guī)則的配置,允許對校驗規(guī)則進行維護、優(yōu)化等處理。
b)根據(jù)預先定義的質(zhì)量規(guī)則,在應用運行時進行自動化監(jiān)控。
c)提供元數(shù)據(jù)質(zhì)量檢查機制,及時發(fā)現(xiàn)、報告和處理元數(shù)據(jù)的數(shù)據(jù)質(zhì)量問題。
d)提供問題定位分析,對問題的節(jié)點進行回溯,定位問題可能原因,分析其處理路徑上可能存在的問題;提供問題影響分析,能對問題的嚴重性、影響面做出判斷,并對重要問題提前進行預警。
數(shù)據(jù)質(zhì)量監(jiān)控功能設計如下。
a)提供數(shù)據(jù)映射分析,以拓撲圖的形式對各類數(shù)據(jù)實體、數(shù)據(jù)處理過程元數(shù)據(jù)進行分層次的圖形化展現(xiàn),滿足開發(fā)、運維或者業(yè)務上不同應用場景的圖形查詢和輔助分析需要。
b)根據(jù)預先定義的質(zhì)量規(guī)則,在應用運行時進行自動化監(jiān)控。
c)對數(shù)據(jù)采集層數(shù)據(jù)質(zhì)量進行監(jiān)控,主要包括文件接口、數(shù)據(jù)庫接口、采集接口監(jiān)控。
d)對數(shù)據(jù)處理過程進行監(jiān)控,主要包括數(shù)據(jù)處理任務執(zhí)行的情況,包括是否按時調(diào)度,是否成功等狀態(tài)消息。
e)定期提供數(shù)據(jù)質(zhì)量監(jiān)控報告,根據(jù)系統(tǒng)健康狀態(tài)按模板生成文本、圖形等結果信息。
數(shù)據(jù)質(zhì)量體系需要通過實踐和規(guī)劃的相互促進,不斷完善改進,為此,需要確保數(shù)據(jù)架構合理,條理清晰,過程可控,知識積累傳承,并通過監(jiān)控和審計不斷促進質(zhì)量水平的持續(xù)提升。
設定稽核規(guī)則:通過不同的內(nèi)置規(guī)則,可以對數(shù)據(jù)進行一定的計算處理,如空值、去重、最大、最小等,從而對數(shù)據(jù)有個直觀的認識,發(fā)現(xiàn)數(shù)據(jù)缺陷,具體操作如圖1所示。
圖1 規(guī)則設置
創(chuàng)建稽核模型:通過流程化的操作,操作者首先確定數(shù)據(jù)來源,根據(jù)不同數(shù)據(jù)源和目標,進行分區(qū)配置,從而建立對應的數(shù)據(jù)稽核模型,具體如圖2所示。
圖2 數(shù)據(jù)配置
稽核任務的創(chuàng)建:平臺在使用過程中,操作者首先選擇要進行稽核的數(shù)據(jù)時間、范圍等要素,再加載對應的數(shù)據(jù)稽核模型,從而完成任務創(chuàng)建。
數(shù)據(jù)精度決定后期業(yè)務分析的準確性,在平臺使用分析中,操作者一般通過對比目標值與來源的真實情況來進行分析評估,流程如下。
a)選擇用于比較的源數(shù)據(jù)和目標數(shù)據(jù)的集合和字段。
b)將目標字段與源字段進行關系映射。
c)將源數(shù)據(jù)集和目標數(shù)據(jù)集進行分區(qū)配置。
d)對分析模型進行配置,包括名稱、參數(shù)、閾值等。
數(shù)據(jù)剖析是檢查現(xiàn)有數(shù)據(jù)集中可用數(shù)據(jù),同時收集相關數(shù)據(jù)的統(tǒng)計信息的過程,主要包括以下內(nèi)容,具體如圖3所示。
圖3 數(shù)據(jù)結果詳情
a)選擇需要進行剖析的目標數(shù)據(jù)集和字段。
b)定義將應用于所選字段的語法檢查邏輯。
c)將目標數(shù)據(jù)集進行分區(qū)配置。
d)對分析模型進行配置,包括名稱、參數(shù)、閾值等。
在所有分析中,數(shù)據(jù)模型的建立是最重要的一環(huán),不同的數(shù)據(jù)模型可以分析不同的數(shù)據(jù)質(zhì)量。數(shù)據(jù)模型可以根據(jù)分析需求和數(shù)據(jù)類型,從5 個維度進行設計,首先建立相應的模型,其次定義模型詳細的源、目標、以及映射關系等的屬性,最終在任務中可調(diào)用該模型進行數(shù)據(jù)任務的設定。本文以平臺中的“數(shù)據(jù)準確性校驗模型1”為例進行說明。
5.3.1 模型信息
模型信息是對模型的基本情況的展示,包括類型、源、源分區(qū)、源條件、目標、目標分區(qū)、目標條件和責任人等信息,能夠清晰地呈現(xiàn)該模型的屬性,以方便使用,具體如圖4所示。
圖4 模型信息說明
5.3.2 模型精確度計算映射信息
該映射代表了源數(shù)據(jù)各字段與目標字段的一致性對比結果,其中source 和target 代表了不同的數(shù)據(jù)源,id、age、desc代表要對比的具體字段。
精度計算公式如下:
該公式分子代表了2 個數(shù)據(jù)源(demo_tgt 和demo_src)的匹配結果為一致的數(shù)量,分母代表了demo_tgt 中的匹配的數(shù)據(jù)數(shù)量,demo_tgt 和demo_src代表了2個對比數(shù)據(jù)源。該計算公式可以計算出稽查數(shù)據(jù)的準確率。
通過建立任務可以將模型應用到不同數(shù)據(jù)的稽核中,給出數(shù)據(jù)準確性的結果,圖5 是針對2021 年10月28 號到10 月29 號入庫的2 批不同數(shù)據(jù)的稽核結果,橫坐標是以小時為單位,可以看出不同時間對應數(shù)據(jù)的稽核結果,以方便使用人員針對問題進行后期處理。
圖5 準確度檢驗結果
圖5 為2 類數(shù)據(jù)準確性校驗模型的處理結果,從圖5 可以看出隨著數(shù)據(jù)的不斷采集和入庫,數(shù)據(jù)稽核任務以小時為周期持續(xù)性進行,因此,數(shù)據(jù)使用者可以實時查看數(shù)據(jù)準確性,以方便及時發(fā)現(xiàn)處理數(shù)據(jù)問題。
評分是以分值來展示數(shù)據(jù)的質(zhì)量,從而形成直觀的數(shù)據(jù)質(zhì)量感受,評估一般包括以下3個層面。
a)質(zhì)量評分=參與評分的各質(zhì)量維度評分總和/參與評估維度項。
b)某個維度質(zhì)量評分=參與該維度評估的任務的評分總和/參與該維度評估的任務的總數(shù)。
c)任務某個維度評分=該維度下參與評估各項規(guī)則得分之和。
5級維度數(shù)據(jù)質(zhì)量說明如下。
a)準確性:度量數(shù)據(jù)是否與指定的目標值匹配,如金額的校驗,校驗成功的記錄與總記錄數(shù)的比值。
b)完整性:度量數(shù)據(jù)是否缺失,包括記錄數(shù)缺失、字段缺失,屬性缺失。
c)差異性:度量數(shù)據(jù)記錄是否重復,屬性是否重復;常見度量為hive表主鍵值是否重復。
d)及時性:度量數(shù)據(jù)達到指定目標的時效性。
e)有效性:度量數(shù)據(jù)是否符合約定的類型、格式和數(shù)據(jù)范圍等規(guī)則。
大數(shù)據(jù)是未來數(shù)字化的重要能力。數(shù)據(jù)質(zhì)量是保證業(yè)務順利執(zhí)行的重要要素,因此數(shù)據(jù)質(zhì)量稽核非常重要。數(shù)據(jù)稽核包括普通的數(shù)據(jù)完整度、完善性等核查,同時根據(jù)不同數(shù)據(jù)的來源及業(yè)務特點,可以建立不同的特征模型進行針對性的稽核,這樣可以保證數(shù)據(jù)業(yè)務特征的準確性。因此未來數(shù)據(jù)稽核更關鍵的是針對性的稽核,尤其是針對不同業(yè)務特點的定制化數(shù)據(jù)稽核,它是保證數(shù)據(jù)質(zhì)量的關鍵方法。