[譚志遠(yuǎn) 宮云平]
隨著大數(shù)據(jù)處理技術(shù)的蓬勃發(fā)展,基于海量數(shù)據(jù)的存儲(chǔ)、處理、挖掘分析得到了充分的技術(shù)保障,基于海量數(shù)據(jù)的挖掘分析結(jié)果將直接影響企業(yè)的決策和市場(chǎng)競(jìng)爭(zhēng),而數(shù)據(jù)質(zhì)量的好壞將直接影響數(shù)據(jù)挖掘分析的結(jié)果,劣質(zhì)的數(shù)據(jù)將可能給企業(yè)決策和市場(chǎng)競(jìng)爭(zhēng)帶來(lái)難以預(yù)估的傷害。因此為了高效支撐企業(yè)數(shù)據(jù)的價(jià)值挖掘,數(shù)據(jù)質(zhì)量的全面評(píng)估迫在眉睫。那么我們?cè)搹哪男┓矫鎸?duì)數(shù)據(jù)質(zhì)量進(jìn)行評(píng)估,如何體系化的評(píng)價(jià)所使用數(shù)據(jù)的質(zhì)量是否滿足數(shù)據(jù)挖掘的需要呢?
數(shù)據(jù)質(zhì)量評(píng)估是數(shù)據(jù)質(zhì)量管理的主要內(nèi)容之一,那什么是數(shù)據(jù)質(zhì)量管理呢?參考業(yè)界權(quán)威DAMA(數(shù)據(jù)管理學(xué)會(huì))在《DAMA 數(shù)據(jù)管理的知識(shí)體系和指南(DAMADMBOK)》一書(shū)中的定義,即數(shù)據(jù)質(zhì)量管理是指通過(guò)管理和技術(shù)手段,對(duì)數(shù)據(jù)處理全過(guò)程每個(gè)環(huán)節(jié)的數(shù)據(jù)質(zhì)量進(jìn)行識(shí)別、度量、監(jiān)控、預(yù)警等一系列管理活動(dòng),并通過(guò)改善和提高組織的管理水平提升數(shù)據(jù)質(zhì)量。
結(jié)合DAMA 對(duì)數(shù)據(jù)質(zhì)量管理的定義,以及我們實(shí)際工作需要,對(duì)于數(shù)據(jù)質(zhì)量管理,我們可以這么理解即在數(shù)據(jù)處理的全生命周期(數(shù)據(jù)生成、數(shù)據(jù)采集、數(shù)據(jù)傳輸、數(shù)據(jù)處理、數(shù)據(jù)使用等)中,通過(guò)技術(shù)和管理手段,始終圍繞著數(shù)據(jù)質(zhì)量的提升開(kāi)展相關(guān)工作。在這個(gè)過(guò)程中,首先必須梳理清楚,從哪些方面或者維度去識(shí)別數(shù)據(jù)質(zhì)量問(wèn)題,這些問(wèn)題該如何評(píng)估,如何通過(guò)一個(gè)可以量化的方法或指標(biāo)去評(píng)估,在此基礎(chǔ)上構(gòu)建數(shù)據(jù)質(zhì)量評(píng)估體系,從而結(jié)合監(jiān)控及告警系統(tǒng)對(duì)我們所關(guān)注的評(píng)估指標(biāo)進(jìn)行監(jiān)控及預(yù)警。
不同單位、組織或個(gè)人在結(jié)合自身實(shí)際需要的情況下,提出了不同評(píng)估維度(或稱度量維度),如表1 所述。
表1 不同組織/單位提出的數(shù)據(jù)質(zhì)量評(píng)估維度對(duì)照表
DAMA 提出的數(shù)據(jù)質(zhì)量評(píng)估維度主要包括:準(zhǔn)確性、完整性、一致性、時(shí)效性、精確度、隱私(訪問(wèn)控制和使用監(jiān)控)、合理性、參照完整性、及時(shí)性、有效性等。
百度百科在數(shù)據(jù)質(zhì)量管理(DQM:Data Quality Management)中提出的數(shù)據(jù)質(zhì)量評(píng)估維度主要包括:完整性、規(guī)范性、一致性、準(zhǔn)確性、唯一性、關(guān)聯(lián)性。
國(guó)際貨幣基金組織(IMF)在其通用性數(shù)據(jù)質(zhì)量評(píng)估框架(DQAF:Data Quality Assessment Framework)中提出通過(guò)相關(guān)性、準(zhǔn)確性、可靠性、適用性、可獲得性等五個(gè)維度來(lái)評(píng)估數(shù)據(jù)的質(zhì)量。DQAF 更注重對(duì)統(tǒng)計(jì)活動(dòng)進(jìn)行全面質(zhì)量管理,而我們更關(guān)注數(shù)據(jù)本身的質(zhì)量,但其對(duì)過(guò)程質(zhì)量的管控值得我們借鑒。
業(yè)界相關(guān)公司提出的數(shù)據(jù)質(zhì)量評(píng)估維度,如普元信息技術(shù)股份有限公司在其大數(shù)據(jù)中臺(tái)軟件數(shù)據(jù)質(zhì)量平臺(tái)中提出采用關(guān)聯(lián)性、正確性、完全性、一致性、合規(guī)性等維度來(lái)評(píng)估。
從表1 可以看出,各組織/單位從不同的出發(fā)點(diǎn)考慮,對(duì)數(shù)據(jù)質(zhì)量評(píng)估的角度是不一樣的,且差異較大。誠(chéng)然數(shù)據(jù)質(zhì)量評(píng)估的維度越多越能更好、更全面地評(píng)估數(shù)據(jù)質(zhì)量的好壞,但是太多的評(píng)估維度,給我們實(shí)際操作會(huì)帶來(lái)極大的不適應(yīng)。主要問(wèn)題如下。
(1)太多相似的度量名稱,容易混淆,不利于數(shù)據(jù)質(zhì)量評(píng)估工作的開(kāi)展,如及時(shí)性與時(shí)效性,合規(guī)性、有效性和規(guī)范性等。
(2)部分度量維度其實(shí)際評(píng)估目的是一致的,或者在實(shí)際操作中判斷數(shù)據(jù)好壞的手段或方法是類似的,其實(shí)沒(méi)必要拆分那么多維度,因此這類度量維度完全可以合并。例如準(zhǔn)確性、合規(guī)性、規(guī)范性、精確度等幾個(gè)維度,其目的都是為了判斷數(shù)據(jù)是否準(zhǔn)確,在判斷數(shù)據(jù)是否準(zhǔn)確的手段上,都是基于數(shù)據(jù)處理程序在數(shù)據(jù)處理過(guò)程中借助約定好的規(guī)則庫(kù),對(duì)數(shù)據(jù)進(jìn)行校驗(yàn)是否符合預(yù)先配置的規(guī)則等。
(3)部分維度屬于主觀判斷無(wú)法通過(guò)軟件客觀分析,缺乏可操作性。如:合理性、適用性等。
(4)每項(xiàng)評(píng)估維度都必須耗費(fèi)資源去評(píng)估,在滿足業(yè)務(wù)開(kāi)展需要的前提下,減少非必要的評(píng)估維度。
高質(zhì)量的數(shù)據(jù)最基本的要求是所使用的數(shù)據(jù)務(wù)必是客觀真實(shí)情況的反映,數(shù)據(jù)是準(zhǔn)確的、完整的,不同數(shù)據(jù)間相同內(nèi)容表述是一致的,在某些對(duì)數(shù)據(jù)時(shí)延要求嚴(yán)格的場(chǎng)景還需要評(píng)估數(shù)據(jù)處理時(shí)延是否是滿足及時(shí)性要求。因此,在滿足可操作(能客觀評(píng)估,非由人主觀判斷),避免維度命名混淆,合并可基于相同規(guī)則評(píng)估的維度的前提下,重新整合上述各類評(píng)估維度,僅采用準(zhǔn)確性、完整性、一致性和及時(shí)性等4 個(gè)維度來(lái)評(píng)估數(shù)據(jù)質(zhì)量。重新整合并劃分評(píng)估維度如表2 所述。
表2 評(píng)估維度重新整合表
在參考不同組織和單位對(duì)數(shù)據(jù)質(zhì)量評(píng)估維度及其定義后,結(jié)合現(xiàn)階段大數(shù)據(jù)挖掘分析對(duì)數(shù)據(jù)質(zhì)量的要求,重新對(duì)數(shù)據(jù)質(zhì)量的準(zhǔn)確性、完整性、一致性和及時(shí)性定義如下。
準(zhǔn)確性:指數(shù)據(jù)的準(zhǔn)確程度。數(shù)據(jù)記錄的信息符合業(yè)務(wù)或技術(shù)定義、標(biāo)準(zhǔn)、規(guī)范;數(shù)據(jù)處理過(guò)程嚴(yán)格遵循相關(guān)業(yè)務(wù)、技術(shù)定義的規(guī)則,沒(méi)有進(jìn)行人為篡改和調(diào)整。準(zhǔn)確性方面的評(píng)估指標(biāo),可根據(jù)實(shí)際評(píng)估需要制定,如:關(guān)鍵字段合規(guī)率,關(guān)鍵字段非空率等。
完整性:指端到端的數(shù)據(jù)處理過(guò)程中數(shù)據(jù)完整程度。主要包括信息實(shí)體不缺失、屬性不缺失、記錄不缺失、字段不缺失等。完整性方面的評(píng)估指標(biāo),如:文件數(shù)完整率,記錄數(shù)完整率,時(shí)間粒度完整率(如:某天中各小時(shí)的數(shù)據(jù)是否完整)。
一致性:指在業(yè)務(wù)定義一致性的情況下,關(guān)聯(lián)數(shù)據(jù)間的邏輯關(guān)系是正確和完整的,差異原因可解釋、可追溯。主要體現(xiàn)在各系統(tǒng)遵循企業(yè)或行業(yè)數(shù)據(jù)規(guī)范標(biāo)準(zhǔn),同一信息主體在不同系統(tǒng)中相應(yīng)信息屬性是相同的;業(yè)務(wù)定義相同的信息主體原則上在跨專業(yè)系統(tǒng)的取值是相同的,差異原因可解釋、可追溯。一致性方面的評(píng)估指標(biāo)如:某字段的關(guān)聯(lián)率,字段值在參考數(shù)據(jù)中的覆蓋率等。
及時(shí)性:指數(shù)據(jù)處理的及時(shí)程度。主要包括在規(guī)定時(shí)限內(nèi)(滿足相關(guān)規(guī)范或業(yè)務(wù)處理要求),完成數(shù)據(jù)的刷新、處理、提供等操作。及時(shí)性方面的評(píng)估指標(biāo)如:數(shù)據(jù)處理及時(shí)率等。
在開(kāi)展某項(xiàng)數(shù)據(jù)挖掘工作時(shí),將可能涉及多種類型的數(shù)據(jù),把這些不同的數(shù)據(jù)看成一個(gè)數(shù)據(jù)集,在評(píng)估這個(gè)數(shù)據(jù)集的總體質(zhì)量是否滿足我們業(yè)務(wù)開(kāi)展的需要,我們可以制定一個(gè)KQI(Key Quality Indicators 關(guān)鍵質(zhì)量指標(biāo))指標(biāo)來(lái)評(píng)估數(shù)據(jù)集的總體優(yōu)良率是否滿足業(yè)務(wù)要求。參考下圖1 所示,把業(yè)務(wù)總體KQI 指標(biāo)再細(xì)分到這個(gè)數(shù)據(jù)集中每項(xiàng)數(shù)據(jù)的KQI 指標(biāo),每項(xiàng)數(shù)據(jù)再根據(jù)評(píng)估需要逐級(jí)向下分解到具體的KPI 指標(biāo)(Key Performance Indicators 關(guān)鍵業(yè)績(jī)指標(biāo)),而每個(gè)具體的KPI 指標(biāo)由基礎(chǔ)的統(tǒng)計(jì)指標(biāo)計(jì)算得到。
評(píng)估模型從層次上劃分為三部分,分別是:基礎(chǔ)性統(tǒng)計(jì)指標(biāo)、評(píng)估維度指標(biāo)(準(zhǔn)確性、完整性、及時(shí)性、一致性)、優(yōu)良率指標(biāo)(含總體優(yōu)良率指標(biāo)),層次關(guān)系如圖1 所示。
圖1 數(shù)據(jù)質(zhì)量評(píng)估模型示意圖
為便于指標(biāo)引用針對(duì)圖1 中各層級(jí)指標(biāo)進(jìn)行編號(hào)(如圖2 所示),把指標(biāo)分成兩級(jí),一級(jí)指標(biāo)用一個(gè)字母(實(shí)際可根據(jù)需要用能增加識(shí)別度的縮寫(xiě)或其他簡(jiǎn)稱,此處僅舉例)代表指標(biāo)的類型(如:A 代表基礎(chǔ)性統(tǒng)計(jì)指標(biāo),B代表準(zhǔn)確性相關(guān)的指標(biāo),C 代表完整性相關(guān)的指標(biāo)等),二級(jí)指標(biāo)用四位數(shù)字對(duì)指標(biāo)進(jìn)行順序編號(hào)。如:基礎(chǔ)性統(tǒng)計(jì)指標(biāo),可以用A_1001、A_2001、A_3001 等表示。
圖2 指標(biāo)編號(hào)規(guī)則
針對(duì)各評(píng)估維度(如:準(zhǔn)確性、完整性、一致性、及時(shí)性等),結(jié)合評(píng)估期望,制定其基礎(chǔ)統(tǒng)計(jì)指標(biāo),舉例如表3 所示(實(shí)際應(yīng)用過(guò)程中,可根據(jù)需要擴(kuò)展,此處僅提供示例)。
表3 基礎(chǔ)性統(tǒng)計(jì)指標(biāo)命名舉例(不局限如下指標(biāo))
根據(jù)前面確定的4 個(gè)評(píng)估維度,分別制定各維度對(duì)應(yīng)的評(píng)估指標(biāo)(如表4 所示)。例如:評(píng)估數(shù)據(jù)的準(zhǔn)確性,制定“關(guān)鍵字段值準(zhǔn)確率”的評(píng)估指標(biāo);評(píng)估數(shù)據(jù)的完整性,制定“處理文件數(shù)完整率”和“文件按時(shí)間序列完整率”(具體可根據(jù)需要命名);評(píng)估數(shù)據(jù)的一致性,制定“數(shù)據(jù)關(guān)聯(lián)率”和“數(shù)據(jù)覆蓋率”;評(píng)估數(shù)據(jù)的及時(shí)性,制定“文件處理及時(shí)率”和“文件處理平均時(shí)延”等指標(biāo)對(duì)數(shù)據(jù)進(jìn)行評(píng)估。
表4 評(píng)估維度指標(biāo)應(yīng)用舉例(不局限如下指標(biāo))
優(yōu)良率指標(biāo)主要包括:各數(shù)據(jù)項(xiàng)的優(yōu)良率指標(biāo)和數(shù)據(jù)集的總體優(yōu)良率指標(biāo)。數(shù)據(jù)集中各數(shù)據(jù)項(xiàng)的優(yōu)良率指標(biāo)和數(shù)據(jù)集的總體優(yōu)良率指標(biāo),都可以有多種計(jì)算方法(如表5 所示),如:平均優(yōu)良率(對(duì)各維度指標(biāo)取平均值)、加權(quán)優(yōu)良率(根據(jù)考核或評(píng)估側(cè)重點(diǎn),不同維度指標(biāo)賦不同的權(quán)重)、最低優(yōu)良率(多個(gè)維度指標(biāo)取最低值),具體可結(jié)合實(shí)際需要選擇不同的計(jì)算方式。
表5 優(yōu)良率指標(biāo)舉例(不局限如下指標(biāo))
在實(shí)際開(kāi)展某數(shù)據(jù)集的質(zhì)量評(píng)估時(shí),可參考如上指標(biāo)模型的構(gòu)建方式,根據(jù)評(píng)估側(cè)重點(diǎn),選取相應(yīng)的維度和評(píng)估指標(biāo)進(jìn)行綜合評(píng)估,舉例如下:
總體優(yōu)良率指標(biāo)(Z_0001)=數(shù)據(jù)A 優(yōu)良率指標(biāo)(Y_0001)*權(quán)重A+數(shù)據(jù)B 優(yōu)良率指標(biāo)(Y_0002)*權(quán)重B。其中權(quán)重A+權(quán)重B=100%。
數(shù)據(jù)A 優(yōu)良率指標(biāo)(Y_0001)=權(quán)重1*準(zhǔn)確性指標(biāo)(B_1001)+權(quán)重2*完整性指標(biāo)(C_1001)+權(quán)重3*及時(shí)性指標(biāo)(E_0001)+...。其中權(quán)重1+權(quán)重2+權(quán)重3+...=100%。
其中及時(shí)性指標(biāo),如:統(tǒng)計(jì)A 數(shù)據(jù)文件采集及時(shí)率(E_0001)=A_4003/A_2002*100%,其中公式中涉及的基礎(chǔ)性統(tǒng)計(jì)指標(biāo)包括:采集文件總數(shù)(A_2002),采集時(shí)延符合要求的文件數(shù)(A_4003)。
本文通過(guò)分析業(yè)界數(shù)據(jù)質(zhì)量評(píng)估現(xiàn)狀,從實(shí)際出發(fā)依據(jù)可操作性、避免混淆等原則,確定4 個(gè)數(shù)據(jù)質(zhì)量評(píng)估維度,在此基礎(chǔ)上提出數(shù)據(jù)質(zhì)量評(píng)估模型,并結(jié)合實(shí)際應(yīng)用給出模型應(yīng)用示例,希望讀者在進(jìn)行數(shù)據(jù)質(zhì)量評(píng)估過(guò)程中有所啟發(fā)。