李琳
摘 要:隨著社會經(jīng)濟的發(fā)展和大數(shù)據(jù)時代的到來,數(shù)據(jù)在人們?nèi)粘I钪邪缪莸慕巧絹碓街匾@脹Q策支持系統(tǒng)、客戶關(guān)系管理系統(tǒng)(CRM)等數(shù)據(jù)庫應(yīng)用項目,我們可以從海量數(shù)據(jù)中提取更有價值的信息。然而,調(diào)查發(fā)現(xiàn)很多數(shù)據(jù)庫應(yīng)用項目的運行效果并不令人滿意。數(shù)據(jù)數(shù)量增長的同時,數(shù)據(jù)質(zhì)量的控制也給廣大研究人員帶來一定的困擾。人們越來越意識到,高質(zhì)量的數(shù)據(jù)是商業(yè)成功的一個重要因素,而數(shù)據(jù)源中的“臟數(shù)據(jù)”是導(dǎo)致數(shù)據(jù)質(zhì)量低的一個重要原因。為了保證高質(zhì)量的數(shù)據(jù),企業(yè)需要采取一系列措施來控制數(shù)據(jù)質(zhì)量,并采用一定的手段來處理“臟數(shù)據(jù)”。然而現(xiàn)實中,檢測與清洗數(shù)據(jù)源中所有“臟數(shù)據(jù)”的開銷是昂貴的。因此,如何根據(jù)不同的商業(yè)的需求來揀選部分“臟數(shù)據(jù)”進行清洗具有一定的現(xiàn)實意義。文章在文獻分析的基礎(chǔ)上,回顧了數(shù)據(jù)質(zhì)量、數(shù)據(jù)質(zhì)量維度的定義,探討了常見數(shù)據(jù)質(zhì)量問題,闡明了數(shù)據(jù)質(zhì)量管理與數(shù)據(jù)清洗之間的關(guān)系。針對“臟數(shù)據(jù)”揀選問題提出了一種數(shù)據(jù)清洗方法。最后對數(shù)據(jù)清洗相關(guān)研究進行了展望。
關(guān)鍵詞: 數(shù)據(jù)質(zhì)量;數(shù)據(jù)質(zhì)量維度;數(shù)據(jù)質(zhì)量規(guī)則;數(shù)據(jù)清洗
中圖分類號:TP311.13 文獻標(biāo)志碼:A 文章編號:2095-2945(2017)21-0001-05
1 研究背景
目前,數(shù)據(jù)在人類日常生活中所扮演的角色越來越重要,利用決策支持系統(tǒng)、客戶關(guān)系管理系統(tǒng)(CRM)等數(shù)據(jù)庫應(yīng)用項目,我們可以從海量數(shù)據(jù)中獲得更有價值的信息。然而,調(diào)查發(fā)現(xiàn)很多數(shù)據(jù)庫應(yīng)用項目的運行效果并不令人滿意。其中一個重要的因素就是數(shù)據(jù)質(zhì)量問題[1]。普華永道會計事務(wù)所在紐約的研究也表明,75%的被調(diào)查公司存在因“臟數(shù)據(jù)”問題造成經(jīng)濟損失的現(xiàn)象,只有35%的被調(diào)查公司對自己的數(shù)據(jù)質(zhì)量充滿信心[2]。據(jù)統(tǒng)計,一些具有代表性的大公司的數(shù)據(jù)錯誤率預(yù)期在大約1%~5%,大部分數(shù)據(jù)源中都含有一定比例的“臟數(shù)據(jù)”[3]。數(shù)據(jù)是信息的載體,好的數(shù)據(jù)質(zhì)量是使各種數(shù)據(jù)分析(例如數(shù)據(jù)挖掘等)能夠得到有意義結(jié)果的基本條件。根據(jù)“進去的是垃圾,出來的也是垃圾(garbage in, garbage out)”這條原則,“臟數(shù)據(jù)”的存在會造成信息失真[4]。在各種數(shù)據(jù)處理任務(wù)中,數(shù)據(jù)清洗這一任務(wù)是至關(guān)重要的。數(shù)據(jù)清洗是數(shù)據(jù)質(zhì)量提高技術(shù)研究的主要內(nèi)容,數(shù)據(jù)清洗主要研究如何檢測并消除數(shù)據(jù)中的錯誤和不一致,以提高數(shù)據(jù)質(zhì)量,目前有很多數(shù)據(jù)清洗框架存在[5]。然而研究發(fā)現(xiàn),數(shù)據(jù)質(zhì)量問題并沒有引起大多數(shù)企業(yè)足夠的重視,同時這些企業(yè)也沒有應(yīng)用有效的方法和措施來提高其數(shù)據(jù)質(zhì)量。其中一個主要原因是這些企業(yè)缺少對各種臟數(shù)據(jù)類型的了解[6]。因此,為了提高數(shù)據(jù)質(zhì)量,有必要了解留存于數(shù)據(jù)源中的各類臟數(shù)據(jù)及其清洗方法。目前已有部分學(xué)者針對這一任務(wù),展開了研究[3][7][8][9]。在現(xiàn)實中,清洗所有數(shù)據(jù)源中的臟數(shù)據(jù)花銷是昂貴的,尤其是考慮到企業(yè)的實際需求時,清洗所有數(shù)據(jù)源中的臟數(shù)據(jù)是不劃算的。比如某公司只考慮清洗某一組特定類型的臟數(shù)據(jù)用來提高數(shù)據(jù)的準(zhǔn)確率問題。這樣的問題涉及到如何在臟數(shù)據(jù)中揀選特定類型的臟數(shù)據(jù)進行清洗。在本文中,該問題被定義為“臟數(shù)據(jù)選擇問題”(DDS)。雖然目前有不少文獻針對臟數(shù)據(jù)的分類進行了研究,但對于DDS這一問題并沒有展開進一步的研究。在現(xiàn)實中僅僅依靠各類臟數(shù)據(jù)的劃分,很難根據(jù)不同企業(yè)的實際需求來解決DDS問題來提高相應(yīng)的數(shù)據(jù)質(zhì)量。
為了解決這個問題(DDS),本文提出了一種數(shù)據(jù)清洗方法。從數(shù)據(jù)質(zhì)量維度的這一角度出發(fā),同時配合各類商業(yè)規(guī)則,將臟數(shù)據(jù)進一步劃分。進而解決DDS問題。利用該方法,用戶可以根據(jù)不同的商業(yè)需求來制定不同的優(yōu)先權(quán),選擇特定的臟數(shù)據(jù)進行清洗。同時該方法為我們提供了一種基于數(shù)據(jù)質(zhì)量維度與數(shù)據(jù)質(zhì)量規(guī)則的臟數(shù)據(jù)劃分,該劃分為提高數(shù)據(jù)質(zhì)量問題進一步提供了指導(dǎo)準(zhǔn)則。
2 數(shù)據(jù)質(zhì)量,數(shù)據(jù)質(zhì)量維度與數(shù)據(jù)質(zhì)量規(guī)則
基于目前現(xiàn)有的技術(shù),企業(yè)可以創(chuàng)建、存儲、處理大量的數(shù)據(jù)。但數(shù)據(jù)質(zhì)量問題的存在卻降低了某些數(shù)據(jù)庫應(yīng)用項目的處理效果。接下來,數(shù)據(jù)質(zhì)量、數(shù)據(jù)質(zhì)量維度、數(shù)據(jù)質(zhì)量規(guī)則的相關(guān)概念將進一步討論。
2.1 數(shù)據(jù)質(zhì)量
針對數(shù)據(jù)質(zhì)量問題的研究,最早可以追溯到十九世紀60年帶,由Fellegi與Sunter等人提出[10]。然而,直到1990年,關(guān)于數(shù)據(jù)庫及數(shù)據(jù)倉庫系統(tǒng)中的數(shù)據(jù)質(zhì)量問題才在計算機科學(xué)領(lǐng)域中被正式研究。越來越多的人意識到,數(shù)據(jù)質(zhì)量的問題是導(dǎo)致數(shù)據(jù)庫應(yīng)用項目運行失敗的一個重要因素。目前,數(shù)據(jù)質(zhì)量被廣泛的定義為“適合使用的程度(fitness for use)”。Orr提出數(shù)據(jù)質(zhì)量從本質(zhì)上講與我們?nèi)绾卧谙到y(tǒng)中使用數(shù)據(jù)有相當(dāng)大的關(guān)系[11]。我們可以從兩個方面對這一說法進行解釋。第一,如果數(shù)據(jù)有效并且符合用戶需求,則該數(shù)據(jù)可以直接進行使用。第二,在某些環(huán)境下符合用戶需求的數(shù)據(jù)有可能在另一環(huán)境中是不符合用戶需求的。例如,某公司的財務(wù)人員要求數(shù)據(jù)以萬為單位顯示來進行數(shù)據(jù)分析,而同一公司的審計員則要求數(shù)據(jù)精確到分。也就是說公司的商業(yè)策略或者商業(yè)規(guī)則在此時決定了數(shù)據(jù)質(zhì)量。
通常來說,數(shù)據(jù)質(zhì)量可以借由數(shù)據(jù)維度來進行衡量[12]。常用的數(shù)據(jù)質(zhì)量維度包括準(zhǔn)確度,完整度,時效度,一致度等。因此,數(shù)據(jù)質(zhì)量評估的核心在于如何具體地評估各個維度。對各個維度從定性的角度來分析其“好”或“壞”是目前數(shù)據(jù)質(zhì)量評估方法的主流。
2.2 數(shù)據(jù)質(zhì)量維度
文獻[12]指出, 數(shù)據(jù)質(zhì)量維度是一組數(shù)據(jù)質(zhì)量屬性的集合,每一種屬性代表著數(shù)據(jù)的某一特征。依靠調(diào)查研究報告而收集的179種數(shù)據(jù)質(zhì)量屬性,Wang和Strong等人將這些數(shù)據(jù)質(zhì)量屬性歸納為20種不同的維度。
這些維度從不同的角度對數(shù)據(jù)質(zhì)量進行衡量,并且將衡量的結(jié)果歸納為不同的類別。Wang和Strong的研究工作認為數(shù)據(jù)質(zhì)量的概念是一種多維的概念。文獻[13][14][15]也針對數(shù)據(jù)質(zhì)量維度展開了調(diào)查研究。大部分學(xué)者認為以下六個數(shù)據(jù)維度組成了最基礎(chǔ)的衡量數(shù)據(jù)質(zhì)量的標(biāo)準(zhǔn):準(zhǔn)確度,完整度,一致度,現(xiàn)時度,可解釋性,以及易接近性。在這六個維度中,同具體數(shù)據(jù)值相關(guān)的數(shù)據(jù)質(zhì)量維度包括準(zhǔn)確度,完整度,一致度和現(xiàn)時度[16]。本文將以這四個數(shù)據(jù)質(zhì)量維度為基礎(chǔ)進行臟數(shù)據(jù)的劃分。接下來,將對這四個數(shù)據(jù)質(zhì)量維度進行簡要的介紹。
2.2.1 準(zhǔn)確度(accuracy)
假設(shè)數(shù)據(jù)以
2.2.2 完整度(completeness)
Fox等人將數(shù)據(jù)的完整度定義為對于一切實體的所有屬性,其所對應(yīng)的值是否完整的程度[16]。數(shù)據(jù)的完整度可以由三個級別來進行度量:紀錄級別,屬性級別與關(guān)系級別。紀錄級別的完整度代表數(shù)據(jù)庫中每條紀錄中已錄入的值與該條紀錄所有屬性應(yīng)具有的值的數(shù)量百分比。屬性級別的完整度代表數(shù)據(jù)庫中紀錄的每列屬性中非缺失值與全體值的數(shù)量百分比。關(guān)系級別的完整度代表每張數(shù)據(jù)表中所有非缺失值與全體值的數(shù)量百分比。
2.2.3 現(xiàn)時度(currentness)
數(shù)據(jù)庫中所記錄的某些數(shù)據(jù)是靜態(tài)的,也就是說其值是不可變的。比如某人的出生日期,出生地點等。相反人的年齡,住址,體重等信息會隨著時間的變化而發(fā)生改變。這樣的數(shù)據(jù)被稱為時態(tài)數(shù)據(jù)?,F(xiàn)時度就是為了衡量時態(tài)數(shù)據(jù)的一個維度。Fox等人提出,如果一個數(shù)據(jù)在t時刻是準(zhǔn)時的,則說明該數(shù)據(jù)的值在t時刻是正確的。如果一個數(shù)據(jù)在t時刻是過期數(shù)據(jù),說明該數(shù)據(jù)的值在t時刻是不正確的,但它在t時刻之前的某一時刻是正確的[16]。例如,某人在2008年居住在中國上海,其居住地址在數(shù)據(jù)庫中已有所記錄。在2016年這個人居住在英國倫敦,則數(shù)據(jù)庫中反映該人“現(xiàn)居住地址”的信息應(yīng)進行更新。這樣的數(shù)據(jù)則被稱為現(xiàn)時度高的數(shù)據(jù)?,F(xiàn)實生活中,由于數(shù)據(jù)沒有被及時更新而造成的經(jīng)濟損失是非常高昂的。例如某調(diào)查研究表明,平均每公司每年因郵件地址信息過期而造成的損失高達9000美金[17]。
2.2.4 一致度
當(dāng)數(shù)據(jù)的值符合相應(yīng)的數(shù)據(jù)模型所定義的一系列約束條件時,該數(shù)據(jù)是一致的數(shù)據(jù)。例如,由于不同的商業(yè)需求,數(shù)據(jù)庫在不同環(huán)境中可能被設(shè)計成不同的模式。因此同一數(shù)據(jù)的值在不同的數(shù)據(jù)庫中的表現(xiàn)形式也各不相同,其度量單位也會有差別。當(dāng)不同數(shù)據(jù)源的數(shù)據(jù)進行抽取和整合時,數(shù)據(jù)的不一致性問題就會出現(xiàn)。例如,為記錄某人的收入信息,在某些數(shù)據(jù)庫中該人的收入會以人民幣做為結(jié)算單位進行記錄,在另一些數(shù)據(jù)庫中則以美元為結(jié)算單位進行記錄。
2.3 數(shù)據(jù)質(zhì)量規(guī)則
根據(jù)Adelman等人的研究, 數(shù)據(jù)質(zhì)量規(guī)則可以被歸納為以下四組:商業(yè)實體規(guī)則, 商業(yè)屬性規(guī)則, 數(shù)據(jù)依賴規(guī)則以及數(shù)據(jù)有效性規(guī)則[19]。表1歸納了這四組規(guī)則。
在這四組規(guī)則當(dāng)中,數(shù)據(jù)有效性規(guī)則是專門用來考察同數(shù)據(jù)值相關(guān)的質(zhì)量規(guī)則。由于本文所考慮的數(shù)據(jù)質(zhì)量維度僅針對于數(shù)據(jù)值而言,因此本文將采用數(shù)據(jù)有效性規(guī)則這一組數(shù)據(jù)質(zhì)量規(guī)則應(yīng)用于所提出的清洗方法之中。根據(jù)文獻[19],數(shù)據(jù)有效性規(guī)則包含六條數(shù)據(jù)質(zhì)量規(guī)則,分別為數(shù)據(jù)完整規(guī)則,數(shù)據(jù)正確規(guī)則,數(shù)據(jù)準(zhǔn)確規(guī)則,數(shù)據(jù)單一規(guī)則以及數(shù)據(jù)一致規(guī)則。本文繼續(xù)將這六條規(guī)則進行細分進而形成更加詳細的數(shù)據(jù)質(zhì)量規(guī)則,并為每條規(guī)則配備一個規(guī)則號。詳細的內(nèi)容見表2所示。
根據(jù)表1,數(shù)據(jù)單一規(guī)則被歸入數(shù)據(jù)有效性規(guī)則組中。在表2中,規(guī)則R5.1與R5.2是專門用來衡量由于數(shù)據(jù)庫中冗余紀錄的存在而引起的一類特殊的數(shù)據(jù)質(zhì)量問題?,F(xiàn)實中有很多原因會導(dǎo)致數(shù)據(jù)庫中冗余記錄的產(chǎn)生,例如數(shù)據(jù)錄入錯誤,針對同一數(shù)據(jù)值的不同表達方式等。目前,針對于不同的研究領(lǐng)域,有不同的方法用來解決冗余記錄問題。同時很多學(xué)者也開展了相應(yīng)的研究工作[20]。因此,除了前文所提到的四個數(shù)據(jù)質(zhì)量維度,本文同時引入“單一度”作為另一數(shù)據(jù)質(zhì)量維度專門用來衡量冗余記錄存在的問題。
3 臟數(shù)據(jù)類型
臟數(shù)據(jù)分類系統(tǒng)可以幫助人們更好的理解數(shù)據(jù)質(zhì)量問題。目前針對臟數(shù)據(jù)分類問題已有很多工作展開了相關(guān)研究[3][7][8][9]。文獻[8]將數(shù)據(jù)質(zhì)量問題分為兩組:單數(shù)據(jù)源問題、多數(shù)據(jù)源問題。在每一組中,又將對應(yīng)的數(shù)據(jù)質(zhì)量問題劃分為模式層問題與實例層問題。例如,在單數(shù)據(jù)源的實例層次上,數(shù)據(jù)的錯誤有可能來自數(shù)據(jù)輸入的錯誤,冗余記錄的存在以及矛盾數(shù)據(jù)的存在等。在多數(shù)據(jù)源實例層次上,不一致性數(shù)據(jù)的錯誤會發(fā)生在數(shù)據(jù)整合的過程中。
文獻[7]針對數(shù)據(jù)質(zhì)量問題也提出一組臟數(shù)據(jù)的分類。這組分類包括詞匯錯誤(Lexical error)、域值錯誤(Domain format error)、不規(guī)則性錯誤(Irregularities)、條件約束錯誤(Constraint violation)、缺失值(Missing value),冗余值(Duplicates)以及無效記錄(Invalid tuple)。
相比前兩個分類,文獻[3]提出了一個更詳盡的臟數(shù)據(jù)分類,該分類以分層的方式來表現(xiàn)。根據(jù)不同的臟數(shù)據(jù)表現(xiàn)方式,從各類數(shù)據(jù)源中所捕獲的臟數(shù)據(jù)首先可以歸入以下三類:
(1)缺失值
(2)非缺失但錯誤數(shù)據(jù)
(3)非缺失非錯誤但無法使用的數(shù)據(jù)
這三類錯誤數(shù)據(jù)組成了整個臟數(shù)據(jù)分類的主體。作者進一步對這三類錯誤數(shù)據(jù)進行細分,最終提出了一個含有33種不同的臟數(shù)據(jù)類型的分類。
文獻[9]則提供了一個更加完整的臟數(shù)據(jù)分類系統(tǒng)。作者采用了一種自底向上的方式將臟數(shù)據(jù)進行分類(從單一數(shù)據(jù)源中單一記錄的具體的屬性值問題到多數(shù)據(jù)源中存在的數(shù)據(jù)問題)。在單一數(shù)據(jù)源中,數(shù)據(jù)質(zhì)量問題從兩個方面進行劃分,最終分為兩組。分別是單數(shù)據(jù)表數(shù)據(jù)質(zhì)量問題與多數(shù)據(jù)表中的數(shù)據(jù)質(zhì)量問題。在多數(shù)據(jù)源中,數(shù)據(jù)質(zhì)量問題被歸納為9類問題。表3總結(jié)了文獻[9]提出的數(shù)據(jù)質(zhì)量問題。
由于Oliveira等人的臟數(shù)據(jù)分類在目前現(xiàn)有的研究工作中比較完整地歸納了不同的臟數(shù)據(jù)類型,因此本文所提出的數(shù)據(jù)清洗方法將利用表3所提供的臟數(shù)據(jù)類型進行描述。
4 基于數(shù)據(jù)質(zhì)量維度的數(shù)據(jù)清洗方法
根據(jù)前文所介紹的數(shù)據(jù)質(zhì)量,數(shù)據(jù)質(zhì)量維度,數(shù)據(jù)質(zhì)量規(guī)則,以及臟數(shù)據(jù)類型等概念,我們提出一種新的臟數(shù)據(jù)分類方法。
4.1 數(shù)據(jù)質(zhì)量規(guī)則與數(shù)據(jù)質(zhì)量維度的映射
在表1中所提到的四組數(shù)據(jù)質(zhì)量規(guī)則中,數(shù)據(jù)有效性規(guī)則組所定義的數(shù)據(jù)質(zhì)量規(guī)則用來專門制約與數(shù)據(jù)值相關(guān)的數(shù)據(jù)質(zhì)量[19]。因此該組提出的具體數(shù)據(jù)質(zhì)量規(guī)則將用來同前文所提到的五個數(shù)據(jù)質(zhì)量維度進行匹配。表4總結(jié)了五個數(shù)據(jù)質(zhì)量維度與Adelman等人提出的數(shù)據(jù)質(zhì)量規(guī)則的映射結(jié)果。
為了將臟數(shù)據(jù)類型與數(shù)據(jù)質(zhì)量維度進行匹配,需要進一步將數(shù)據(jù)質(zhì)量規(guī)則與臟數(shù)據(jù)類型進行匹配工作。
4.2 數(shù)據(jù)質(zhì)量規(guī)則與臟數(shù)據(jù)類型的映射
表3列舉了35種不同類型的臟數(shù)據(jù),并將每一類臟數(shù)據(jù)進行了編號(DT.1~DT.35)。根據(jù)表2提出的數(shù)據(jù)質(zhì)量規(guī)則 (R1.1~R6.2),表5將這35種臟數(shù)據(jù)類型與表2提出的數(shù)據(jù)質(zhì)量規(guī)則進行了匹配,結(jié)果見表5。
4.3 臟數(shù)據(jù)分類
綜合考慮表4與表5的匹配結(jié)果,我們得到了一種基于數(shù)據(jù)質(zhì)量維度的臟數(shù)據(jù)分類,其結(jié)果見表6所示。
4.4 臟數(shù)據(jù)清洗方法
David Loshin提出,企業(yè)的商業(yè)政策會對該企業(yè)的數(shù)據(jù)質(zhì)量造成影響[18]。為了量化數(shù)據(jù)質(zhì)量,各種度量標(biāo)準(zhǔn)信息應(yīng)在一個度量框架中有所分類,用來衡量數(shù)據(jù)是否符合企業(yè)所制定的各種標(biāo)準(zhǔn)。為了達到這一目標(biāo),數(shù)據(jù)質(zhì)量維度可以用來設(shè)計一系列的度量標(biāo)準(zhǔn)。企業(yè)所制定的各條政策準(zhǔn)則可以轉(zhuǎn)化為一組數(shù)據(jù)質(zhì)量規(guī)則。同時這組數(shù)據(jù)質(zhì)量規(guī)則可以用來衡量數(shù)據(jù)源中的各種數(shù)據(jù)缺陷[18]。
在本文中,臟數(shù)據(jù)被定義為不符合數(shù)據(jù)質(zhì)量規(guī)則的數(shù)據(jù)缺陷。因此,借由指定的商業(yè)政策標(biāo)準(zhǔn),我們可以定義一系列的數(shù)據(jù)質(zhì)量規(guī)則。臟數(shù)據(jù)的捕獲可以通過觀察該數(shù)據(jù)是否違反了數(shù)據(jù)質(zhì)量規(guī)則。同時,由于數(shù)據(jù)質(zhì)量規(guī)則嵌入于不同的數(shù)據(jù)質(zhì)量維度之中,因此我們可以建立一種基于數(shù)據(jù)質(zhì)量維度與臟數(shù)據(jù)的映射。依靠這種映射(表6),本文提出一種臟數(shù)據(jù)清洗方法如下:
(1)依靠企業(yè)制定的優(yōu)先權(quán),將五個數(shù)據(jù)質(zhì)量維度進行排序。
(2)識別企業(yè)的數(shù)據(jù)質(zhì)量問題。
(3)將第二步提出的數(shù)據(jù)質(zhì)量問題分別匹配到各數(shù)據(jù)質(zhì)
量維度中(依靠表6所示的臟數(shù)據(jù)分類)。
(4)根據(jù)企業(yè)能夠接受的開銷,選擇需要處理的數(shù)據(jù)質(zhì)量維度。
(5)為數(shù)據(jù)質(zhì)量維度中的各類臟數(shù)據(jù)選擇合適的數(shù)據(jù)清
洗算法。
(6)執(zhí)行各數(shù)據(jù)清晰算法進行數(shù)據(jù)清洗。
5 一個實例演示
依靠本文提出的臟數(shù)據(jù)清洗方法,數(shù)據(jù)清洗可以視為基于五個數(shù)據(jù)質(zhì)量維度來提高數(shù)據(jù)質(zhì)量的過程。在此我們舉例來說明某企業(yè)如何應(yīng)用該方法進行臟數(shù)據(jù)的清洗。
在某大學(xué)校園里,利用基于網(wǎng)絡(luò)的管理信息系統(tǒng),學(xué)生可以獲取各類信息。例如每學(xué)年的課程信息,本學(xué)年的課程考試信息等。假設(shè)該系統(tǒng)中反映學(xué)生考試的數(shù)據(jù)表中包含如下屬性:學(xué)生號、學(xué)生姓名、考試日期、考試地點、考試科目等。通過檢查各屬性值,根據(jù)表3我們有可能會在系統(tǒng)中發(fā)現(xiàn)以下臟數(shù)據(jù)的存在:拼寫錯誤(DT.6),輸入值不在固定值內(nèi) (DT.5),單/多數(shù)據(jù)源中的數(shù)據(jù)冗余(DT.18,DT.33),屬性值的內(nèi)容不足(DT.7),單/多數(shù)據(jù)源中的語法不一致問題(DT.23,DT.27),缺失數(shù)據(jù)(DT.1),過期數(shù)據(jù),過期引用 (DT.3,DT.22)等。
依靠本文提出的臟數(shù)據(jù)分類方法,表7體現(xiàn)了該校園管理信息系統(tǒng)中的臟數(shù)據(jù)類型與對應(yīng)的數(shù)據(jù)質(zhì)量維度的映射。
如本文之前所提出的,在現(xiàn)實中,清洗所有數(shù)據(jù)源中的臟數(shù)據(jù)花銷是昂貴的,考慮到企業(yè)的實際需求時,這一做法是不劃算的。因此基于數(shù)據(jù)質(zhì)量維度的權(quán)衡就必須在數(shù)據(jù)清洗時進行考慮。數(shù)據(jù)質(zhì)量維度的權(quán)衡可以為我們提供有用的信息,例如哪些數(shù)據(jù)質(zhì)量維度具有比較高的優(yōu)先權(quán)。在上面所提到的具體實例中,假設(shè)該學(xué)校無法做到全部清洗表7中提出的全部臟數(shù)據(jù),則該學(xué)校所面臨的實際問題是如何根據(jù)學(xué)校制定的優(yōu)先權(quán)選擇一系列臟數(shù)據(jù)優(yōu)先進行清洗。這一問題即是本文所提出的DDS問題。根據(jù)學(xué)校已制定的優(yōu)先權(quán)規(guī)則,針對網(wǎng)絡(luò)數(shù)據(jù)而言,時效性是首先必須滿足的。例如學(xué)生考試的時間,地點與科目對學(xué)生而言,該信息必須做到準(zhǔn)確與及時。學(xué)校需要保證系統(tǒng)中相關(guān)信息應(yīng)該是準(zhǔn)確而及時的以便為學(xué)生提供正確的考試信息。因此,相對與其他數(shù)據(jù)質(zhì)量維度,現(xiàn)時度與準(zhǔn)確度這兩個數(shù)據(jù)質(zhì)量維度就顯得尤為重要。根據(jù)該學(xué)校制定的優(yōu)先權(quán)規(guī)則,我們可以為五個數(shù)據(jù)質(zhì)量維度以優(yōu)先權(quán)降序的方式進行排序,依次為現(xiàn)時度、準(zhǔn)確度、一致度,單一度和完整度。利用本文提出的數(shù)據(jù)清洗方法可以進一步系統(tǒng)地進行數(shù)據(jù)清洗。表7列舉出該校園系統(tǒng)中對應(yīng)于五個數(shù)據(jù)質(zhì)量維度的臟數(shù)據(jù)類型。我們很容易根據(jù)該表提供的信息找出對應(yīng)于現(xiàn)時度與準(zhǔn)確度這兩個數(shù)據(jù)質(zhì)量維度下的臟數(shù)據(jù)類型。這些臟數(shù)據(jù)類型是在本例中應(yīng)該最先被清洗的臟數(shù)據(jù)類型。因此,接下來的數(shù)據(jù)清洗任務(wù)則是根據(jù)已有的數(shù)據(jù)清洗算法或者方法針對以下臟數(shù)據(jù)類型首先進行清洗:DT.3,DT.5,DT.6,DT.7和DT.22。
如果我們僅僅依靠目前存在的臟數(shù)據(jù)分類系統(tǒng),我們很難根據(jù)企業(yè)制訂的優(yōu)先權(quán)來選擇相應(yīng)的一組臟數(shù)據(jù)進行清洗。利用本文提出的數(shù)據(jù)清洗方法,依靠數(shù)據(jù)質(zhì)量維度的優(yōu)先權(quán),我們可以直接選擇同現(xiàn)時度與準(zhǔn)確度這兩個數(shù)據(jù)質(zhì)量維度相關(guān)的臟數(shù)據(jù)進行數(shù)據(jù)清洗。其具體清洗步驟如下:
(1)將數(shù)據(jù)質(zhì)量維度進行排序:現(xiàn)時度、準(zhǔn)確度、一致度,單一度和完整度。
(2)識別系統(tǒng)中的數(shù)據(jù)質(zhì)量問題:DT1,DT3,DT5,DT6,DT7,DT18,DT22,DT23,DT27,DT33。
(3)映射工作:見表6。
(4)選擇需要處理的數(shù)據(jù)質(zhì)量維度:見表8。
(5)針對臟數(shù)據(jù)類型選擇合適的清洗算法。
(6)執(zhí)行各清洗算法。
6 結(jié)論和展望
本文在充分分析文獻的基礎(chǔ)上,回顧了數(shù)據(jù)質(zhì)量,數(shù)據(jù)質(zhì)量維度的定義,探討了常見數(shù)據(jù)質(zhì)量問題,闡明了數(shù)據(jù)質(zhì)量管理與數(shù)據(jù)清洗之間的關(guān)系。針對臟數(shù)據(jù)揀選問題(DDS)提出了一種基于數(shù)據(jù)質(zhì)量維度的數(shù)據(jù)清洗方法,該方法可以有效地幫助企業(yè)提高數(shù)據(jù)質(zhì)量,同時解決DDS問題,降低數(shù)據(jù)清洗過程中的開銷。未來的研究工作包括數(shù)據(jù)清洗工具的開發(fā)。同時,不同臟數(shù)據(jù)類型清洗順序是否對整體數(shù)據(jù)清洗的效率和效果有所影響,以及針對不同問題領(lǐng)域而進行的數(shù)據(jù)清洗算法的選擇問題也是作者需要進一步研究的問題。
參考文獻:
[1]Ballou,D.P.,Tayi,G.K.: Enhancing data quality in data warehouse environments. Communications of the ACM,vo.42,No.1(1999).
[2]Pierce,E.M.:A progress Report from the MIT Information Quality Conference. http://www.tdan.com/view-articles/5143/.
[3]Kim,W.,Choi,B.,Hong,E.Y.,Kim,S.K.,Lee,D.: A taxonomy of dirty data. Data Mining and Knowledge Discovery,7,81-99(2003).
[4]Mong,L.:IntelliClean: A knowledge-based intelligent data cleaner. Proceedings of the ACM SIGKDD,Boston,USA (2000).
[5]Peng,T.: A Framework for Data Cleaning in Data Warehouses. Proc. of ICEIS 2008,pp.473-478,Spain (2008).
[6]Kim,W.:On three major holes in Data Warehousing Today. Journal of Object Technology,Vol.1,No.4 (2002).
[7]Müller,H.,F(xiàn)reytag,J.C.:Problems,Methods,and Challenges in Comprehensive Data Cleansing. Tech. Rep. HUB-1B-164(2003).
[8]Rahm,E.,Do,H.:Data Cleaning: Problems and Current Approaches. IEEE Bulletin of the Technical Committee on Data Engineering. vol.23,41,No.2 (2000).
[9]Oliveira,P.,Rodrigues,F(xiàn).T.,Henriques,P.,Galhardas,H.:A Taxonomy of Data Quality Problems. Second International Workshop on Data and Information Quality (in conjunction with CAISE'05), Porto,Portugal (2005).
[10]Fellegi,I.P.,Sunter,A.B.:A Theory for Record Linkage. Journal of the American Statistical Association,vol.64 (1969).
[11]Orr,K.:Data Quality and Systems. Communications of the ACM,Vol. 41,No. 2(1998).
[12]Wang,R.Y.,Strong,D.M.:Beyond Accuracy: What Data Quality Means to Data Consumers. Journal of Management Information Systems,12,4(1996).
[13]Redman,T.C.:Data Quality for the Information Age. Artech House (1996).
[14]Jarke,M.,Jeusfeld,M.A.,Quix,C.,Vassiliadis,P.:Architecture and Quality in Data Warehouses: an Extended Repository Approach. Information Systems,Vol.24,No.3 (1999).
[15]Bovee,M.,Srivastava,R.P.,Mak,B.:A conceptual Framework and Belief-Function Approach to Assessing Overall Information Quality. In Proceedings of the 6th International Conference on Information Quality. MIT Boston-MA (2001).
[16]Fox,C.,Levitin,A.,Redman,T.:The notion of data and its quality of dimensions. Information Processing & Management.,vol. 30,no. 1. pp. 9-19 (1994).
[17]Why Dirty Data May Cost You $180,000. http://www.melissadata.com/enews/articles/1206/1.htm.
[18]Monitoring Data Quality Performance Using Data Quality Metrics.http://www.it.ojp.gov/documents/Informatica_Whitepaper_Monitoring_DQ_Using_Metrics.pdf.
[19]Adelman,S.,Moss,L.,Abai,M.: Data Strategy. Addison-Wesley Professional (2005).
[20]Elmagarmid,A.K.,Ipeirotis,P.G.,VeryKios,V.S.:Duplicate Record Detection: A Survey. . IEEE Trans. on Knowl. and Data Eng. 19,1-16 (2007).