劉金晶,王 梅
(1.北京銳安科技有限公司 大數(shù)據(jù)分析部,北京 100192;2.北京銳安科技有限公司 研究院,北京 100192)
人類歷史上從未有哪個時代像現(xiàn)在一樣,任何活動都帶來了大量的數(shù)據(jù)[1],完全不受時間、地點的限制。由此進入的大數(shù)據(jù)時代,數(shù)據(jù)成為了一種基礎資源、戰(zhàn)略資源[2],已然在業(yè)界形成了共識。但大數(shù)據(jù)產(chǎn)生的背景,使得大數(shù)據(jù)有其自身的典型特點,其價值不是顯性的可以被直接獲取使用的,而是需要像沙里淘金一樣,通過建立適當?shù)姆治瞿P停⑦\用相應的技術手段進行有效的深加工和挖掘分析[3],發(fā)現(xiàn)隱含在大數(shù)據(jù)中的價值并加以利用,進而指導決策,才能將大數(shù)據(jù)的真正效用發(fā)揮到極致。
而進行數(shù)據(jù)分析和挖掘,數(shù)據(jù)質(zhì)量則是一個至關重要的因素。根據(jù)“垃圾進,垃圾出(garbage in,garbage out)”[4]的原理,如果數(shù)據(jù)質(zhì)量存在問題,系統(tǒng)運算、分析的結(jié)果極有可能是錯誤的[5],甚至與真實世界南轅北轍。因此,數(shù)據(jù)質(zhì)量是發(fā)揮大數(shù)據(jù)價值的必要條件。
數(shù)據(jù)質(zhì)量是一種通過測量和改善數(shù)據(jù)綜合特征來優(yōu)化數(shù)據(jù)價值的過程[6]。提高和保障數(shù)據(jù)質(zhì)量,首先要建立的是數(shù)據(jù)質(zhì)量評估體系。雖然數(shù)據(jù)質(zhì)量不是一個新事物,但在大數(shù)據(jù)環(huán)境下的數(shù)據(jù)質(zhì)量相比傳統(tǒng)行業(yè),面臨的問題更加突出和急迫[2]。數(shù)據(jù)質(zhì)量的保障,需要多環(huán)節(jié)、全方位的一套治理體系。在這些環(huán)節(jié)中,數(shù)據(jù)質(zhì)量評估是提高數(shù)據(jù)質(zhì)量的基礎和必要前提[7]。
對于數(shù)據(jù)質(zhì)量評估,雖然業(yè)界已進行了大量的學術研究和應用探索,但在目前還沒有完全統(tǒng)一的定義和體系化的標準。
文獻[8-10]從不同的方面提出了數(shù)據(jù)質(zhì)量的評估方法,文獻[11]介紹了數(shù)據(jù)質(zhì)量的評估過程,文獻[4]介紹了統(tǒng)計學界的一些公認指標,主要包括準確性、時效性、相關性、客觀性、可銜接性、完整性、可理解性、透明性、可操作性、可取性、可解釋性、效益性、安全性等,以及UN下屬的經(jīng)濟委員會提出的包含11個指標變量的數(shù)據(jù)質(zhì)量評價體系。在國內(nèi),蔡莉等主導的研究中提出了包含5個指標的大數(shù)據(jù)質(zhì)量評價體系,它們分別是可獲得性、可靠性、可用性、相關性、可表達性。文獻[12]則結(jié)合所在的石油行業(yè)的需求提出了完整性、準確性、一致性、深度性、及時性、冗余性等6個關鍵特性。
可以看到,眾多的研究都集中在對數(shù)據(jù)質(zhì)量關鍵特性的評價指標定義上面。而關于如何將概念定義落實到量化的、可采集、可計算的評價指標的行業(yè)實踐經(jīng)驗,均較少涉及。
筆者通過參考這些公認的質(zhì)量評價指標,結(jié)合行業(yè)領域、數(shù)據(jù)類型、應用目的、信息系統(tǒng)使用的技術等多方面的相關影響因素,構(gòu)建了一套在行業(yè)領域內(nèi)適用的質(zhì)量評價指標并用于實踐,取得了一定的效果。
構(gòu)建一套質(zhì)量評價體系,首先需要對質(zhì)量評價的模型進行確定。筆者參考了國內(nèi)外的眾多研究成果,評估了質(zhì)量評估模型與所在行業(yè)、信息系統(tǒng)特點的相關程度之后,最終以文獻[7]所提出的模型作為基礎,結(jié)合數(shù)據(jù)采集、數(shù)據(jù)集成、數(shù)據(jù)整合與清洗、數(shù)據(jù)處理與加工、數(shù)據(jù)持久化等數(shù)據(jù)流轉(zhuǎn)環(huán)節(jié)的特點,建立了一個簡單且有效可行的數(shù)據(jù)質(zhì)量評估指標框架。
文獻[7]提出數(shù)據(jù)質(zhì)量評價體系需至少包含以下兩個方面的基本評估指標:
(1)數(shù)據(jù)對用戶必須是可信的,其中包括精確性、完整性、一致性、有效性、唯一性等指標。這些指標的具體含義如下:
精確性:描述數(shù)據(jù)是否與其對應的客觀實體的特征相一致。
完整性:描述數(shù)據(jù)是否存在缺失記錄或缺失字段。
一致性:描述同一實體的同一屬性的值在不同的系統(tǒng)或數(shù)據(jù)集中是否一致。
有效性:描述數(shù)據(jù)是否滿足用戶定義的條件或在一定的值域范圍內(nèi)。
唯一性:描述數(shù)據(jù)是否存在重復記錄。
(2)數(shù)據(jù)對用戶必須是可用的,其中包括時間性、穩(wěn)定性等指標。這些指標的具體含義:
時間性:描述數(shù)據(jù)是當前數(shù)據(jù)還是歷史數(shù)據(jù)。
穩(wěn)定性:描述數(shù)據(jù)是否是穩(wěn)定的,是否在其有效期內(nèi)。
文獻[8,13]總結(jié)了數(shù)據(jù)質(zhì)量的評價方法,有以下幾種方式:
(1)簡單比率法:指期望的結(jié)果(E)占總值(T)的比率即E/T,反映數(shù)據(jù)質(zhì)量某些方面的好壞程度。當結(jié)果等于或接近于1時,表明數(shù)據(jù)質(zhì)量情況好,否則質(zhì)量情況差。該計算方式還能用來進行縱向比較,反映數(shù)據(jù)質(zhì)量的改進情況。
(2)最小/最大值法:適用于衡量數(shù)據(jù)質(zhì)量中需要對多種指標進行加總的維度,評價的關鍵是要找出各類指標中的最小值或最大值。最小值和最大值分別代表了最保守和最激進的評價方法,一般適用于比較復雜的度量體系。
(3)加權(quán)平均法:對于復雜的多指標的評價,如果評價者對每個指標在總體評價中的重要程度很容易量化,則可以使用加權(quán)平均法。為每個單獨的指標設置權(quán)重λi,取值在0和1之間,且λi的和等于1,即λ1+λ2+…+λn=1,則最終的總體評價指標為X=λ1X1+λ2X2+…+λnXn,Xi代表不同的基礎指標。
根據(jù)實際情況,筆者擴展了最小/最大值法,增加了平均值的評估方法。如果說最小值和最大值分別代表了最保守和最激進的評估方法,那么對這些指標求平均值,相對而言則是一個更穩(wěn)妥、適中的評價方式。
筆者綜合考慮了所在公安大數(shù)據(jù)領域的大數(shù)據(jù)處理平臺的特點以及數(shù)據(jù)處理流程、數(shù)據(jù)來源、用戶使用數(shù)據(jù)以及數(shù)據(jù)模型等多方面影響因素,分別從數(shù)據(jù)自身的質(zhì)量、數(shù)據(jù)處理過程的質(zhì)量和數(shù)據(jù)效能三個方面,提出了評價指標框架,對全生命周期的數(shù)據(jù)質(zhì)量進行評估和度量。
根據(jù)指標是否具有對所有處理環(huán)節(jié)的數(shù)據(jù)質(zhì)量進行評價的共通性,分為通用指標和特定指標兩大類。通用指標指的是與數(shù)據(jù)的具體形態(tài)、處理的具體環(huán)節(jié)無關的評價指標,評價的是數(shù)據(jù)和數(shù)據(jù)處理過程本身的質(zhì)量。而特定指標則和數(shù)據(jù)的形態(tài)格式與數(shù)據(jù)處理的具體環(huán)節(jié)緊密相關,在不同的實際環(huán)境中,會根據(jù)使用的數(shù)據(jù)接口、數(shù)據(jù)處理技術和功能的不同有不同的評價指標。
根據(jù)能否通過采集到的信息直接進行計算,又可以分為基礎指標和綜合指標兩大類?;A指標是通過采集信息就可以通過簡單的計算得出,而綜合指標則需要結(jié)合對數(shù)據(jù)的使用需求、數(shù)據(jù)重要程度考量、指標計算的可行性等多方面因素之后形成規(guī)則,依據(jù)規(guī)則再進行計算得到的評價指標,一般使用的評價方法為最小/最大值法、平均值法或加權(quán)平均法。
最后,構(gòu)建質(zhì)量評價指標框架,如圖1所示。
圖1 數(shù)據(jù)質(zhì)量評價指標結(jié)構(gòu)
2.2.1 評價數(shù)據(jù)質(zhì)量的指標
結(jié)合文獻[7]提出的評估指標和現(xiàn)有系統(tǒng)的數(shù)據(jù)處理與使用的特性,最終選取了以下幾類指標:
完整性:數(shù)據(jù)的記錄和信息是否完整,是否存在缺失的情況;
可用性:數(shù)據(jù)對使用者來說是否是可用的、有效的,合并了一致性、有效性和準確性;
重復性:根據(jù)指定的判重規(guī)則計算重復率。
詳細的評價指標與評價方法如表1所示。
表1 數(shù)據(jù)質(zhì)量評價指標
續(xù)表1
其中,zip包可用率就是一個典型的特定指標。某個數(shù)據(jù)流轉(zhuǎn)環(huán)節(jié)中,定義的數(shù)據(jù)接口是遵循行業(yè)規(guī)范對數(shù)據(jù)文件和數(shù)據(jù)描述文件進行壓縮后的zip包,其中數(shù)據(jù)文件的命名、數(shù)據(jù)分隔符、數(shù)據(jù)描述文件的格式、里面包含的數(shù)據(jù)項內(nèi)容、數(shù)據(jù)項的值等都需要遵循相應的行業(yè)標準規(guī)范。如果輸入的數(shù)據(jù)不符合定義的格式和要求,那么數(shù)據(jù)將無法被解析,等同于無效數(shù)據(jù)。因此,在這個環(huán)節(jié),zip數(shù)據(jù)包的可用率就是一個非常重要且必要的特定監(jiān)測指標。
2.2.2 評價數(shù)據(jù)處理過程的指標
數(shù)據(jù)處理的基本過程一般包括校驗、傳輸、清洗、提取、持久化等類型。每一個處理過程都有可能帶來數(shù)據(jù)處理前后的數(shù)量變化、質(zhì)量變化。不同的數(shù)據(jù)處理過程不同,衡量其處理質(zhì)量的指標也存在差別。
同時,質(zhì)量高的處理過程應該在處理時效有保證的前提下,提升輸出數(shù)據(jù)相對輸入數(shù)據(jù)的質(zhì)量。因此,處理過程的質(zhì)量也不能孤立的使用過程指標就能判定,還需要配合處理前后的數(shù)據(jù)質(zhì)量才進行綜合判定。
因此,對數(shù)據(jù)處理過程[14]的質(zhì)量可以提出以下評價指標,如表2所示。
表2 數(shù)據(jù)處理過程評價指標
圖中不同環(huán)節(jié)的質(zhì)量指標雖然評價的處理環(huán)節(jié)不同,但卻也與具體的處理技術和細節(jié)無關。因此,如果在實際系統(tǒng)中,對監(jiān)控更細節(jié)的處理質(zhì)量存在需求,則可以根據(jù)實際情況添加更具體的評價指標。
2.2.3 評估數(shù)據(jù)效能的指標
數(shù)據(jù)最終需要為應用、為終端用戶所用才能展現(xiàn)價值,其質(zhì)量的好壞才有意義。前面數(shù)據(jù)采集的再好、質(zhì)量保證的再高、處理的再快,如果用戶不用或極少使用這些數(shù)據(jù),或者使用的效果不如用戶所期望,那么這些數(shù)據(jù)的價值也不算得到了體現(xiàn),需要根據(jù)用戶的需求進行調(diào)整。
考慮到應用系統(tǒng)對數(shù)據(jù)的訪問、使用情況能在一定程度上反映數(shù)據(jù)的利用價值,因此提出如表3所示的指標,作為評估數(shù)據(jù)最終價值也即數(shù)據(jù)效能的指標。同時也可以作為數(shù)據(jù)的使用情況反饋,為數(shù)據(jù)分析和數(shù)據(jù)處理的優(yōu)化、調(diào)整提供參考依據(jù)。
表3 數(shù)據(jù)效能指標
簡單比率法按其定義,其指標反映的是相對期望值(一般為1)的符合程度,其值越是接近1,表明質(zhì)量越高,否則反之。但對于評價數(shù)據(jù)的使用效能而言,數(shù)據(jù)字段和數(shù)據(jù)集的訪問率是不可能以1為期望值的。所以這兩個指標更多用來做排名,查看訪問率排名靠前的數(shù)據(jù)集和字段是否如需求所期望的,如果不是,那么就可以指導設計人員或開發(fā)人員進行相應的調(diào)整。同時,這個指標也可以用來做縱向?qū)Ρ?,即調(diào)整之后的訪問率相比調(diào)整之前的訪問率,是不是有相應的提升,提升的幅度是否達到了調(diào)整的期望。
而平均返回數(shù)據(jù)量,也是根據(jù)用戶期望的需求不同而不同,因此,沒有很統(tǒng)一的標準,需要根據(jù)實際情況制定參考標準。
基于上述指標框架,筆者所在單位開發(fā)了一套數(shù)據(jù)KPI監(jiān)控的系統(tǒng),數(shù)據(jù)質(zhì)量的指標已經(jīng)完全在系統(tǒng)中實現(xiàn),數(shù)據(jù)處理環(huán)節(jié)的指標有部分已經(jīng)實現(xiàn),目前已用于對大數(shù)據(jù)平臺的整個數(shù)據(jù)流的質(zhì)量進行監(jiān)控,取得了良好的效果。在沒有進行質(zhì)量監(jiān)控之前,問題數(shù)據(jù)的發(fā)現(xiàn)往往都是在后端,通過倒推檢查才能找到問題的源頭,問題發(fā)現(xiàn)的晚,解決耗時長。而通過這套質(zhì)量KPI系統(tǒng),每一個環(huán)節(jié)的質(zhì)量數(shù)據(jù)即時產(chǎn)生,即時評估,不符合質(zhì)量指標及時告警,及時解決,大大提升了問題暴露的速度和解決效率,給系統(tǒng)運維人員和用戶帶來了很大的便利,也提升了整個平臺的數(shù)據(jù)質(zhì)量。
而數(shù)據(jù)效能指標,涉及到用戶對數(shù)據(jù)的價值評估,根據(jù)數(shù)據(jù)-信息-知識-智慧[15]的金字塔體系,按照文獻[16]的定義,歸屬于信息質(zhì)量的范疇,目前業(yè)界大部分工作也還只處在研究階段,筆者所做的嘗試就是提出了一些可以進行采集與計算的量化指標,將概念上的信息質(zhì)量變成了可以進行評價比較的數(shù)據(jù),但實際應用效果還需要進行不斷的調(diào)整與實踐驗證。
通過綜合國內(nèi)外對數(shù)據(jù)質(zhì)量評價體系的研究成果,結(jié)合所在行業(yè)和大數(shù)據(jù)系統(tǒng)的特點,提出了一種評價指標框架,并在實際系統(tǒng)中進行了實踐應用,取得了良好的效果,為當前大數(shù)據(jù)處理平臺下的數(shù)據(jù)治理提供了重要的研究和實踐經(jīng)驗。通過以上實踐,實現(xiàn)了對現(xiàn)有系統(tǒng)的數(shù)據(jù)質(zhì)量和數(shù)據(jù)處理過程的質(zhì)量進行量化評估,是提升數(shù)據(jù)質(zhì)量進而挖掘數(shù)據(jù)價值的第一步,讓數(shù)據(jù)質(zhì)量從理論研究到實踐應用往前多走了一步,為后續(xù)進行持續(xù)的數(shù)據(jù)改進、數(shù)據(jù)治理、從數(shù)據(jù)價值到信息價值的提煉打下了基礎。