劉 芳,李 敏,任洪敏,周兆明
1(上海海事大學(xué) 信息工程學(xué)院,上海 201306)2(青島西海岸新區(qū)管委,青島 266555)3(上海產(chǎn)業(yè)研究院,上海 201306)
基于規(guī)則庫的數(shù)據(jù)質(zhì)量評估方法①
劉 芳1,李 敏2,任洪敏1,周兆明3
1(上海海事大學(xué) 信息工程學(xué)院,上海 201306)2(青島西海岸新區(qū)管委,青島 266555)3(上海產(chǎn)業(yè)研究院,上海 201306)
在當(dāng)今大數(shù)據(jù)時代下,數(shù)據(jù)質(zhì)量的保證是大數(shù)據(jù)價值得以發(fā)揮的前提,數(shù)據(jù)質(zhì)量的評估是其中一個重要的研究課題.本文基于規(guī)則庫的數(shù)據(jù)質(zhì)量評估方法,提出了數(shù)據(jù)質(zhì)量評估整體模型,包括規(guī)則、規(guī)則庫、數(shù)據(jù)質(zhì)量評估指標(biāo)、評估模板、評估報告.設(shè)計了規(guī)則評估模板,組合規(guī)則庫中的規(guī)則,根據(jù)數(shù)據(jù)質(zhì)量評估指標(biāo)的重要性設(shè)置規(guī)則的權(quán)重,采用簡單比率法和加權(quán)平均法相結(jié)合的評估方法,計算評估結(jié)果并確定數(shù)據(jù)質(zhì)量的等級,利用了數(shù)據(jù)可視化技術(shù)來展現(xiàn)數(shù)據(jù)質(zhì)量的評估結(jié)果.本文既考慮了單個規(guī)則的執(zhí)行合格率,又考慮了各規(guī)則在數(shù)據(jù)質(zhì)量評估模板中的比重,公正地準確地評估數(shù)據(jù)質(zhì)量,并且簡潔、直觀地呈現(xiàn)評估結(jié)果.
規(guī)則庫;數(shù)據(jù)質(zhì)量;評估模板;數(shù)據(jù)可視化
隨著網(wǎng)絡(luò)和信息技術(shù)的不斷發(fā)展,各行各業(yè)都已經(jīng)開始使用信息化技術(shù),并且在業(yè)務(wù)處理、交流中慢慢積累了大量的業(yè)務(wù)數(shù)據(jù),并且這些數(shù)據(jù)呈指數(shù)增長,我們已進入到一個大數(shù)據(jù)時代.在大數(shù)據(jù)時代下對于企業(yè)來說,抓住大數(shù)據(jù)時代帶來的機遇和優(yōu)勢,是企業(yè)的核心競爭力.但是保證數(shù)據(jù)的準確性、有效性,即數(shù)據(jù)的質(zhì)量,是發(fā)揮大數(shù)據(jù)在商業(yè)決策中作用的前提.因此如何評價、保證數(shù)據(jù)的質(zhì)量,已成為一個至關(guān)重要的問題.目前關(guān)于數(shù)據(jù)質(zhì)量的研究工作大致可以分為以下幾類:數(shù)據(jù)質(zhì)量評估模型[1,2]、數(shù)據(jù)質(zhì)量評價方法[3-6]、數(shù)據(jù)質(zhì)量規(guī)則庫模型[7]、數(shù)據(jù)質(zhì)量評估算法[8,9]、數(shù)據(jù)質(zhì)量評估在各個領(lǐng)域的應(yīng)用[10-12].
文中提出了一套完整的基于規(guī)則庫的數(shù)據(jù)質(zhì)量評估方法,由于規(guī)則庫是通用的,設(shè)計了數(shù)據(jù)質(zhì)量評估模板,針對具體的數(shù)據(jù)組合成不同的規(guī)則模板,設(shè)置權(quán)重,采用簡單比率法和加權(quán)平均法計算評估結(jié)果,并采用數(shù)據(jù)可視化技術(shù),簡潔地、直觀地呈現(xiàn)數(shù)據(jù)質(zhì)量分析報告.
設(shè)計的基于規(guī)則庫的數(shù)據(jù)質(zhì)量評估方法的框架如圖1所示,其組成部分包括:規(guī)則庫、數(shù)據(jù)質(zhì)量評價指標(biāo)、規(guī)則、評估模板、評估報告五個部分.
圖1 數(shù)據(jù)質(zhì)量評估框架圖
圖1的評估框架圖清楚的地展示了數(shù)據(jù)質(zhì)量的評估流程,首先設(shè)計數(shù)據(jù)質(zhì)量的規(guī)則庫,定義數(shù)質(zhì)量評價指標(biāo),設(shè)計規(guī)則并賦予該規(guī)則所依據(jù)的數(shù)據(jù)質(zhì)量評價指標(biāo),針對具體的數(shù)據(jù)和規(guī)則庫中的規(guī)則組合數(shù)據(jù)質(zhì)量評估模板,并且設(shè)置評估模板中規(guī)則的權(quán)重,最終計算評估結(jié)果,生成評估報告.
該框架面向數(shù)據(jù)倉庫全體數(shù)據(jù),保障數(shù)據(jù)質(zhì)量評估的準確和完整,周期性的對倉庫的增量數(shù)據(jù)實施評估.
數(shù)據(jù)資源不同與產(chǎn)品,具有用途個體化、多樣化、不穩(wěn)定等特點.數(shù)據(jù)質(zhì)量評價指標(biāo)受行業(yè)領(lǐng)域、數(shù)據(jù)類型和應(yīng)用目的等因素的影響極大,較難制定面向所有學(xué)科領(lǐng)域的普適性數(shù)據(jù)質(zhì)量指標(biāo)體系.為了對數(shù)據(jù)質(zhì)量進行更加深入的分析和評估,常常將數(shù)據(jù)質(zhì)量劃分為若干個更具體的數(shù)據(jù)質(zhì)量評價維度.不同的研究者有不同的劃分方法.Diane M.Strong等提出了一個目前被廣泛引用的數(shù)據(jù)質(zhì)量評估框架,這個框架將數(shù)據(jù)質(zhì)量劃分為內(nèi)在質(zhì)量、可訪問性質(zhì)量、上下文質(zhì)量和表達質(zhì)量四個大的質(zhì)量類,每個質(zhì)量類又可以再細分為若干更具體的質(zhì)量維度[13].
因此將從準確性、完整性、一致性、可信性、時效性、易訪問性、依從性、保密性、效率性、精準性、回溯性、易理解性、可用性、可移植性和易恢復(fù)性15個維度來評價數(shù)據(jù)質(zhì)量,如圖2所示.
圖2 數(shù)據(jù)質(zhì)量評估指標(biāo)圖
(1)準確性,用于描述一個值與它所描述的客觀事物的真實值之間的接近程度.
(2)完整性,用于描述為解決問題所獲得的數(shù)據(jù)的廣度、深度和規(guī)模足夠充分.
(3)一致性,用于描述數(shù)據(jù)項遵循預(yù)定的語法規(guī)則的程度.主要包括:參照完整性、數(shù)據(jù)格式一致性、數(shù)據(jù)不一致的風(fēng)險度、結(jié)構(gòu)的一致性、數(shù)據(jù)值一致性覆蓋程度、語義一致性.
(4)可信性,是一個集合性術(shù)語.它用來表示可用性及其影響因素:可靠性、維修性、保障性,它常用于非定量條款中的一般性描述.
(5)時效性,是指信息僅在一定時間段內(nèi)對決策具有價值的屬性.
(6)易訪問性,主要包括:用戶易訪問性、設(shè)備易訪問性、數(shù)據(jù)格式易訪問性.
(7)依從性,主要包括:數(shù)據(jù)值依從性、數(shù)據(jù)格式依從性和技術(shù)依從性.
(8)保密性,又稱機密性,其與 Integrity(完整性)和Availability(可用性)并稱為信息安全的CIA三要素.
(9)效率性,是指數(shù)據(jù)處理過程中投入時間與得到成果之間的對比關(guān)系.
(10)精準性,是指數(shù)據(jù)的準確性高和精度高.主要包括數(shù)據(jù)值的精確性、數(shù)據(jù)格式的精確性.
(11)回溯性,是指數(shù)據(jù)值本身、用戶訪問和系統(tǒng)依賴的數(shù)據(jù)值的可回溯性.
(12)易理解性,主要是指符號、語義、主數(shù)據(jù)、數(shù)據(jù)值、數(shù)據(jù)模型、數(shù)據(jù)呈現(xiàn)、和鏈接主數(shù)據(jù)的易理解性.
(13)可用性,是指數(shù)據(jù)對用戶來說有效、易學(xué)、高效、好記、少錯和令人滿意的程度.
(14)可移植性,指將數(shù)據(jù)從某一種存儲方式轉(zhuǎn)換到另一種存儲方式的難易程度.
(15)易恢復(fù)性,是指數(shù)據(jù)丟失、缺失、被改動之后的恢復(fù)程度,即數(shù)據(jù)的備份.
如何有效的評估數(shù)據(jù)質(zhì)量,關(guān)鍵在于數(shù)據(jù)質(zhì)量規(guī)則的制定.數(shù)據(jù)規(guī)則,又稱數(shù)據(jù)約束,是客觀世界的數(shù)據(jù)所應(yīng)遵循的語義限制,包括領(lǐng)域知識和業(yè)務(wù)規(guī)則[14].將所有的規(guī)則組織在一起,又叫做規(guī)則庫.數(shù)據(jù)質(zhì)量的分析,是基于規(guī)則的定義,對于不同的數(shù)據(jù)集,不同的業(yè)務(wù)數(shù)據(jù),規(guī)則的制定是不同的,因此本文基于“規(guī)則庫”[15]數(shù)據(jù)質(zhì)量評估方法,建立一種可適用于大多數(shù)數(shù)據(jù)集的數(shù)據(jù)質(zhì)量評估方法,使得數(shù)據(jù)質(zhì)量評估工具有通用性.
設(shè)計的數(shù)據(jù)質(zhì)量規(guī)則,包括序列標(biāo)識、條件類型、源數(shù)據(jù)、操作符、參考數(shù)據(jù)類型、參考數(shù)據(jù)、規(guī)則名稱、評價指標(biāo)和操作九個元素.如圖3所示.
(1)序列標(biāo)識,標(biāo)識是第幾條規(guī)則,如果幾個語句的序列標(biāo)識相同,說明這幾個語句屬于同一條規(guī)則.
(2)條件類型,主要定義了IF、AND、OR,用來表示同一條規(guī)則中的幾條語句之間的關(guān)系.
(3)源數(shù)據(jù),指待評估的數(shù)據(jù).
(4)運算符,指源數(shù)據(jù)和參考數(shù)據(jù)之間的關(guān)系,主要定義了 is、is not、is within、is not within、contain、lt;、lt;=、>、>=,在將來的數(shù)據(jù)質(zhì)量評估過程中對于具體的數(shù)據(jù)評估,會增加運算符,運算符體系將會越來越完善.
(5)參考數(shù)據(jù)類型,表示參考數(shù)據(jù)的數(shù)據(jù)類型.
(6)參考數(shù)據(jù),指將要與源數(shù)據(jù)進行比較的數(shù)據(jù),可以是用戶自己定義,也可以是系統(tǒng)內(nèi)定的.
(7)規(guī)則名稱,簡要說明該規(guī)則的功能.
(8)評價指標(biāo),指評價數(shù)據(jù)質(zhì)量的維度.
(9)操作,指源數(shù)據(jù)符合或者不符合一條規(guī)則后根據(jù)需要進行數(shù)據(jù)統(tǒng)計、清洗等.
圖3 規(guī)則管理界面圖
規(guī)則庫的設(shè)計,如圖4所示.
圖4 規(guī)則庫設(shè)計圖
由于規(guī)則庫是為了適用于大多數(shù)的數(shù)據(jù)質(zhì)量評估,而不是具體的、特定的數(shù)據(jù),因此評估不同的數(shù)據(jù)需要不同的規(guī)則,就需要不停的刪除規(guī)則、創(chuàng)建規(guī)則.針對此問題,本文提出了使用數(shù)據(jù)質(zhì)量評估模板,用若干規(guī)則組成一個模板,針對某具體數(shù)據(jù)進行評估,并且生成評估報告.設(shè)計的規(guī)則模板包括:模板Id、序列標(biāo)識、規(guī)則名稱、規(guī)則類型、是否已經(jīng)執(zhí)行和權(quán)重六個元素,如圖5所示.
圖5 評估模板界面圖
(1)模板Id,用來表示那些規(guī)則屬于哪一個模板.
(2)序列標(biāo)識,同規(guī)則中的序列標(biāo)識,表示一條規(guī)則.
(3)規(guī)則名稱,同規(guī)則中的規(guī)則名稱,簡要描述規(guī)則的功能.
(4)規(guī)則類型,同規(guī)則中的評價指標(biāo).
(5)是否已經(jīng)執(zhí)行,指該條規(guī)則是否已經(jīng)執(zhí)行.
(6)權(quán)重,表示該條規(guī)則在模板中的重要性,一個模板中的所有規(guī)則的權(quán)重之和為1.
文獻[16]中,提出了三種數(shù)據(jù)質(zhì)量評價方法:一是簡單比率法,指期望的結(jié)果(E)占總值(T)的比率E/T,反映數(shù)據(jù)質(zhì)量某些方面的好壞程度;二是最小/大值法,適用于衡量數(shù)據(jù)質(zhì)量中需要對多種指標(biāo)進行加總的維度,評價的關(guān)鍵是要找出各類指標(biāo)中的最大值或最小值.最小值法是一種保守的評估方法,它賦給維度一個不超過它的最差數(shù)據(jù)質(zhì)量指標(biāo)的值.最大值是一種不保守的評估方法,一般適用于比較復(fù)雜的度量體系;三是加權(quán)平均法,為了確保評價值標(biāo)準化,每個指標(biāo)的權(quán)重必須被限定在0和1之間,并且他們的和等于1,即?1+?2+…+?n=1,X=?1X1+?2X2+…+?nXn,其中 Xi代表數(shù)據(jù)質(zhì)量評價指標(biāo),?i代表評價指標(biāo)的權(quán)重,i=1,2,…,n.
考慮到待評估的大數(shù)據(jù)量和評估性能問題,實施簡單、快速的質(zhì)量評估,采用簡單比率法和加權(quán)評平均法相結(jié)合的方法,并且將文獻[16]中提出的加權(quán)評價法融入的數(shù)據(jù)質(zhì)量評估模板中.方法描述如下:
Step1.執(zhí)行規(guī)則,采用簡單比率法,所有符合規(guī)則的數(shù)據(jù)數(shù)(F)占所有的源數(shù)據(jù)數(shù)(S)的比率F/S,即每條規(guī)則執(zhí)行合格率R=F/S.
Step2.應(yīng)用某一評估模板對某一特定的數(shù)據(jù)進行評估,并在評估模板中設(shè)置規(guī)則的權(quán)重,并且一個模板中的所有規(guī)則的權(quán)重之和為1,即W1+W2+…+Wn=1,(W1,W2,…,Wn)屬于Mi,其中Mi代表某個模板.
Step3.最后將每條規(guī)則的執(zhí)行結(jié)果和每條規(guī)則的權(quán)重數(shù)之積相加,就得出某一模板的評估結(jié)果,即S=(R1W1+R2W2+…+RnWn)*100,Ri代表某條規(guī)則的執(zhí)行結(jié)果,Wi代表某條規(guī)則在同一模板中的權(quán)重數(shù),S代表某一模板的評估結(jié)果.
將每一條規(guī)則都轉(zhuǎn)化為正則表達式,匹配源數(shù)據(jù)與參考數(shù)據(jù),統(tǒng)計出合格數(shù)據(jù)所占比例,然后再結(jié)合加權(quán)平均法計算出最終的評估分數(shù).根據(jù)分數(shù)將數(shù)據(jù)質(zhì)量分為A、B、C、D、E五個等級:A級為質(zhì)量最優(yōu)的數(shù)據(jù),分數(shù)在90到100分之間;B級的數(shù)據(jù)質(zhì)量為良,分數(shù)在80到89之間;C級的數(shù)據(jù)質(zhì)量為中,分數(shù)在70到79之間;D級的數(shù)據(jù)質(zhì)量為合格,分數(shù)在60到69之間;E即的數(shù)據(jù)質(zhì)量為差,即不能使用的數(shù)據(jù),需要進行數(shù)據(jù)清洗和數(shù)據(jù)轉(zhuǎn)換,分數(shù)在60以下.表1將展現(xiàn)評估模板1對數(shù)據(jù)庫用戶表的評估結(jié)果,其中該模板包含規(guī)則1、規(guī)則2、…、規(guī)則8共八條規(guī)則,且八條規(guī)則的權(quán)重已經(jīng)根據(jù)規(guī)則的評估指標(biāo)的重要性給予賦值.
因此,由評估等級可以看出來,該模板評估處理的數(shù)據(jù)質(zhì)量等級為B.本文提出的評估體系和評估方法,即考慮了模板中各個規(guī)則的重要性,又考慮了各個規(guī)則執(zhí)行后數(shù)據(jù)的合格率,精確地評估出數(shù)據(jù)的質(zhì)量.
ECharts,Enterprise Charts商業(yè)產(chǎn)品圖表庫,ECharts開源來自百度商業(yè)前端數(shù)據(jù)可視化團隊,基于html5 Canvas,是一個純Javascript圖表庫,提供直觀,生動,可交互,可個性化定制的數(shù)據(jù)可視化圖表.
表1 數(shù)據(jù)質(zhì)量評估結(jié)果
因此,本文使用此技術(shù)來實現(xiàn)評估結(jié)果的可視化,如圖6將展現(xiàn)評估模板1對數(shù)據(jù)庫用戶表的評估結(jié)果,其中該模板包含規(guī)則1、規(guī)則2、…、規(guī)則8共八條規(guī)則.
由圖6可以看出,規(guī)則2、5、6的權(quán)重值比較高,并且該三個規(guī)則執(zhí)行時數(shù)據(jù)的合格率比較高,因此得到的規(guī)則評估分數(shù)中,這三個規(guī)則的評估分數(shù)所占的比率比較高,即該模板所評估的數(shù)據(jù)質(zhì)量的評估等級很大程度上取決于這三個規(guī)則.
隨著信息科技的蓬勃發(fā)展,數(shù)據(jù)已經(jīng)成為一種無形的、全新的資源,使人們對數(shù)據(jù)的質(zhì)量要求越來越高.然而大數(shù)據(jù)時代下,數(shù)據(jù)種類繁多且數(shù)據(jù)量大的特征,使得數(shù)據(jù)質(zhì)量評估的難度加大.本文提出一套整體的數(shù)據(jù)質(zhì)量評估方法,其中規(guī)則庫和評估模板的應(yīng)用使得該評估方法具有通用性,針對不同的業(yè)務(wù)數(shù)據(jù)設(shè)計不同的規(guī)則存放于規(guī)則庫中,再使用規(guī)則評估模板針對某一具體的數(shù)據(jù)進行評估,并且考慮數(shù)據(jù)質(zhì)量各個方面的評估維度.利用echarts.js實現(xiàn)評估結(jié)果的可視化,使評估結(jié)果更加清晰、明了,更有利于找出影響數(shù)據(jù)質(zhì)量的因素,對數(shù)據(jù)進行更改、恢復(fù)、清洗.
進一步的研究工作包括實時數(shù)據(jù)質(zhì)量的評估、探索邏輯規(guī)則校驗、多維評估延伸、統(tǒng)計分布驗證等質(zhì)量評價方法.
圖6 評估結(jié)果統(tǒng)計
1 袁滿,張雪.一種基于規(guī)則的數(shù)據(jù)質(zhì)量評價模型.計算機技術(shù)與發(fā)展,2013,23(3):81–84,89.
2 劉偉.基于元數(shù)據(jù)的數(shù)據(jù)質(zhì)量控制與評估模型研究[碩士學(xué)位論文].大慶:東北石油大學(xué),2011.
4 祝君儀.大數(shù)據(jù)時代背景下統(tǒng)計數(shù)據(jù)質(zhì)量的評估方法及適用性分析.中國市場,2015,(29):41–42.
5 陳蘇,柏文陽,徐潔磐.一種新的數(shù)據(jù)質(zhì)量模型的研究.計算機應(yīng)用研究,2005,22(7):48–50.
6 管尊友,馮建華.一個可擴展的數(shù)據(jù)質(zhì)量元模型.計算機工程,2005,31(8):74–76,226.
7 史峰.基于規(guī)則庫的數(shù)據(jù)質(zhì)量分析.武漢職業(yè)技術(shù)學(xué)院學(xué)報,2010,9(3):79–83.
8 王慧鋒,段磊,胡斌,等.帶間隔約束的序列數(shù)據(jù)質(zhì)量評價算法設(shè)計.計算機科學(xué)與探索,2015,9(10):1180–1194.
9 周青,張樂堅,李峰,等.自動站實時數(shù)據(jù)質(zhì)量分析及質(zhì)控算法改進.氣象科技,2015,43(5):814–822.
10 朱巧玉.基于質(zhì)量規(guī)則礦政屬性數(shù)據(jù)評價.黑龍江工程學(xué)院學(xué)報,2014,28(6):13–16.
11 宗威,吳鋒.大數(shù)據(jù)時代下數(shù)據(jù)質(zhì)量的挑戰(zhàn).西安交通大學(xué)學(xué)報(社會科學(xué)版),2013,33(5):38–43.
12 劉軍華.大數(shù)據(jù)視野下統(tǒng)計數(shù)據(jù)質(zhì)量演變的信息回歸、分布與趨勢.統(tǒng)計與信息論壇,2015,30(9):7–11.
13 陳衛(wèi)東,張維明.屬性粒度數(shù)據(jù)質(zhì)量模型及其評價指標(biāo)研究.計算機科學(xué),2010,37(5):139–142.
14 楊青云,趙培英,楊冬青,等.數(shù)據(jù)質(zhì)量評估方法研究.計算機工程與應(yīng)用,2004,40(9):3–4,15.
15 王樹西,白碩.事實庫、規(guī)則庫的一體化全文索引算法.計算機科學(xué),2006,33(4):174–176.
16 張勝.數(shù)據(jù)質(zhì)量評價指標(biāo)和評價方法淺析.科技信息,2014,(2):259.
Data Quality Evaluation Method Based on Rule Base
LIU Fang1,LI Min2,REN Hong-Min1,ZHOU Zhao-Ming31(College of Information Engineering,Shanghai Maritime University,Shanghai 201306,China)2(Qingdao West Coast New District Administrative Committee,Qingdao 266035,China)3(Shanghai Industrial Research Institute,Shanghai 201306,China)
In today’s era of big data,data quality is the premise of the significance of big data.The evaluation of data quality is one of the most important research topics.In this paper,the data quality assessment method based on rule base is put forward,and the overall model of data quality assessment is presented,which includes rules,rule base,data quality evaluation index,evaluation model and evaluation report.This paper designs the rule evaluation template,combines rules in the rule base,sets rule weight according to the importance of data quality evaluation index,adopts the evaluation method that combines the simple ratio method and the weighted average method,calculates the evaluation result,determines the grade of the data quality,and shows the evaluation result of data quality with the data visualization technology.In order to fairly and accurately assess the data quality,and concisely and intuitively present the evaluation results,the paper does not only consider the execution rate of a single rule,but also considers the proportion of each rule in the data quality evaluation template.
rule base;data quality;evaluation template;data visualization
劉芳,李敏,任洪敏,周兆明.基于規(guī)則庫的數(shù)據(jù)質(zhì)量評估方法.計算機系統(tǒng)應(yīng)用,2017,26(11):165–169.http://www.c-s-a.org.cn/1003-3254/6046.html
上海市科委重點項目(SKY2015004)
2017-02-23;修改時間:2017-03-09;采用時間:2017-03-13
10.3969/j.issn.1005-6432.2013.38.034]
?