楊 莉,袁旭琦,李景奇
(1.河海大學(xué) 網(wǎng)絡(luò)與信息技術(shù)中心,江蘇 南京 210024;2.江蘇省水利工程科技咨詢股份有限公司,江蘇 南京 210029)
隨著《教育信息化2.0行動(dòng)計(jì)劃》的頒布,教育改革與發(fā)展的核心內(nèi)涵更強(qiáng)調(diào)一個(gè)“化”字——數(shù)據(jù)化、服務(wù)化、智慧化[1-2]。如何科學(xué)地運(yùn)用信息技術(shù)有效地催化教育數(shù)據(jù)“發(fā)酵”,創(chuàng)新地促進(jìn)教育、科研、管理的服務(wù)方式,已經(jīng)成為教育信息化的核心工作[1]。
然而,目前高校的教育數(shù)據(jù)普遍存在“發(fā)酵”能力不足的現(xiàn)象,例如:數(shù)據(jù)共享能力不足,缺乏數(shù)據(jù)質(zhì)量管理制度和體系,開(kāi)放的高質(zhì)量數(shù)據(jù)太少,等等。這些“發(fā)酵”能力不足的現(xiàn)象,歸根結(jié)底,在于數(shù)據(jù)質(zhì)量達(dá)不到數(shù)據(jù)使用的期望和需求。如何提升數(shù)據(jù)質(zhì)量受到越來(lái)越多的關(guān)注。目前,國(guó)內(nèi)高校經(jīng)過(guò)數(shù)十年的信息化建設(shè)發(fā)展,許多已經(jīng)進(jìn)入智慧校園建設(shè)階段,也逐漸意識(shí)到數(shù)據(jù)質(zhì)量問(wèn)題成為了限制學(xué)校信息化進(jìn)一步發(fā)展的絆腳石,所以陸陸續(xù)續(xù)建設(shè)了數(shù)據(jù)治理平臺(tái),擬通過(guò)數(shù)據(jù)梳理、確權(quán)調(diào)研、數(shù)據(jù)清洗、質(zhì)量評(píng)估、質(zhì)量管理等提升數(shù)據(jù)質(zhì)量。但目前實(shí)施的高校數(shù)據(jù)治理,大多僅公共數(shù)據(jù)平臺(tái)管理員和業(yè)務(wù)數(shù)據(jù)管理員參與其中,甚至僅有公共數(shù)據(jù)平臺(tái)管理員參與其中,而普通的師生用戶往往對(duì)數(shù)據(jù)質(zhì)量一無(wú)所知,也無(wú)法參與到數(shù)據(jù)治理的環(huán)節(jié)中,使得數(shù)據(jù)治理缺少良性互動(dòng)、無(wú)法形成治理合力,而最終流于形式。
而數(shù)據(jù)起源不僅能很好地記錄數(shù)據(jù)的來(lái)源和治理過(guò)程信息,在判斷數(shù)據(jù)的質(zhì)量和可信度方面也有非常重要的意義。所以,該文將數(shù)據(jù)起源引入到數(shù)據(jù)治理的過(guò)程中,從兩個(gè)方面探索提升高校數(shù)據(jù)質(zhì)量的方法:一是基于數(shù)據(jù)起源記錄數(shù)據(jù)變化過(guò)程的特性,提出了提升數(shù)據(jù)質(zhì)量的治理構(gòu)架,通過(guò)數(shù)據(jù)起源記錄數(shù)據(jù)治理的過(guò)程,特別是用戶反饋的過(guò)程,并展現(xiàn)給數(shù)據(jù)使用者,讓數(shù)據(jù)使用者明晰數(shù)據(jù)治理的進(jìn)展,方便其反饋數(shù)據(jù)的質(zhì)量,形成數(shù)據(jù)治理的閉環(huán);二是基于數(shù)據(jù)起源對(duì)數(shù)據(jù)質(zhì)量評(píng)估的作用,設(shè)計(jì)了一種數(shù)據(jù)質(zhì)量評(píng)估方法,將用戶反饋的過(guò)程轉(zhuǎn)化為可定量評(píng)估的數(shù)據(jù)質(zhì)量,并結(jié)合基于規(guī)則的數(shù)據(jù)質(zhì)量評(píng)估方法,實(shí)現(xiàn)定性+定量的數(shù)據(jù)質(zhì)量的綜合評(píng)價(jià),并通過(guò)提出的治理構(gòu)架展現(xiàn)給數(shù)據(jù)使用者,輔助其參與到數(shù)據(jù)治理的過(guò)程中。
數(shù)據(jù)起源(Data Provenance,Data Lineage,Data Pedigree,Data Derivation),又稱為數(shù)據(jù)世系、數(shù)據(jù)來(lái)源、數(shù)據(jù)血統(tǒng)、數(shù)據(jù)血緣等等,指產(chǎn)生數(shù)據(jù)的原始數(shù)據(jù)及其一系列的演化過(guò)程[3-4]。數(shù)據(jù)起源在數(shù)據(jù)質(zhì)量評(píng)價(jià)[5]、數(shù)據(jù)核查、數(shù)據(jù)恢復(fù)及數(shù)據(jù)引用等方面都具有非常重要的意義[6],具體為:(1)分析數(shù)據(jù)起源信息,實(shí)現(xiàn)數(shù)據(jù)質(zhì)量、可靠性評(píng)價(jià)[4];(2)根據(jù)數(shù)據(jù)起源審計(jì)、追蹤數(shù)據(jù)出處[4];(3)重現(xiàn)數(shù)據(jù)演變過(guò)程、重造數(shù)據(jù);(4)對(duì)數(shù)據(jù)的版權(quán)和知識(shí)產(chǎn)權(quán)進(jìn)行管理;(5)快速定位出錯(cuò)位置,確定錯(cuò)誤原由;(6)解析數(shù)據(jù)現(xiàn)狀的產(chǎn)生原因。
Batini和Scannapieco[7]分析了數(shù)據(jù)質(zhì)量的各種問(wèn)題及評(píng)估和提升數(shù)據(jù)質(zhì)量的主要方法,強(qiáng)調(diào)對(duì)數(shù)據(jù)來(lái)源和數(shù)據(jù)可信度的關(guān)注。張志強(qiáng)等[8]著重分析了基于數(shù)據(jù)源依賴關(guān)系的數(shù)據(jù)評(píng)價(jià)方法,并通過(guò)改進(jìn)ACCU算法,實(shí)現(xiàn)基于數(shù)據(jù)源依賴關(guān)系的數(shù)據(jù)源間可信度計(jì)算,提高了數(shù)據(jù)質(zhì)量計(jì)算的精度。Nicolas PRAT等[5]從信任度、合理性及暫時(shí)性三方面衡量數(shù)據(jù)質(zhì)量可信性,構(gòu)造了一個(gè)起源模型,基于所有數(shù)據(jù)源和處理歷史設(shè)計(jì)了數(shù)據(jù)可信性評(píng)估的計(jì)算方法。
數(shù)據(jù)質(zhì)量一般定義為“數(shù)據(jù)適合使用的程度”,是一個(gè)多維度的概念,包括準(zhǔn)確性、完整性、一致性和時(shí)效性等[9-11]。數(shù)據(jù)質(zhì)量評(píng)估是通過(guò)度量數(shù)據(jù)的綜合特征來(lái)估計(jì)數(shù)據(jù)質(zhì)量與數(shù)據(jù)價(jià)值的過(guò)程[12-13]。
業(yè)界對(duì)于數(shù)據(jù)質(zhì)量的維度已經(jīng)有相當(dāng)多的成熟的研究,例如Strong-Wang[9]提出數(shù)據(jù)質(zhì)量包括內(nèi)在、語(yǔ)境、表達(dá)、訪問(wèn)等4大類質(zhì)量和15個(gè)指標(biāo);Thomas Redman[14]制定了一套基于數(shù)據(jù)結(jié)構(gòu)的20多個(gè)數(shù)據(jù)質(zhì)量維度;DAMA UK分會(huì)2013年發(fā)布的一份白皮書,描述了6個(gè)核心數(shù)據(jù)質(zhì)量維度——完整性、唯一性、及時(shí)性、有效性、準(zhǔn)確性、一致性,并描述了置信度、可用性等其他對(duì)質(zhì)量有影響的特性。
數(shù)據(jù)質(zhì)量評(píng)估方法,一般可分為三類:定性評(píng)估、定量評(píng)估和綜合性評(píng)估。常見(jiàn)的定性評(píng)估方法有用戶反饋法、專家評(píng)議法和第三方評(píng)測(cè)法[15-16]。定量評(píng)估多是通過(guò)規(guī)則、算法實(shí)現(xiàn)對(duì)數(shù)據(jù)質(zhì)量的度量,也是較多研究者的關(guān)注重點(diǎn)。綜合性評(píng)估是定性和定量的有機(jī)結(jié)合,常見(jiàn)的有德?tīng)柗品?、層次分析法、扎根理論等。例?蔡莉等[17]利用層次分析法對(duì)構(gòu)建的評(píng)估體系中的質(zhì)量指標(biāo)進(jìn)行權(quán)重賦值,宋俊典等[18]提出了一種面向多維度數(shù)據(jù)質(zhì)量的模糊綜合評(píng)價(jià)方法。
數(shù)據(jù)質(zhì)量來(lái)源于數(shù)據(jù)產(chǎn)生的過(guò)程,其優(yōu)劣直接影響數(shù)據(jù)價(jià)值的高低,進(jìn)而影響管理者的分析和決策[12]。數(shù)據(jù)質(zhì)量問(wèn)題的出現(xiàn)催生了數(shù)據(jù)治理技術(shù),提高數(shù)據(jù)質(zhì)量也成了數(shù)據(jù)治理的核心目標(biāo)之一[19]。
郝志杰等[20]從戰(zhàn)略目標(biāo)、組織架構(gòu)、數(shù)據(jù)標(biāo)準(zhǔn)、數(shù)據(jù)集成、數(shù)據(jù)質(zhì)量、數(shù)據(jù)倉(cāng)庫(kù)六個(gè)方面提出了高校數(shù)據(jù)治理框架,并基于“一張表”工程進(jìn)行了具體的應(yīng)用和實(shí)踐。劉雅琴等[21]則是從高校數(shù)據(jù)管理現(xiàn)狀出發(fā),提出了“一張表”平臺(tái)的技術(shù)架構(gòu),并通過(guò)網(wǎng)上辦事大廳和“一張表”平臺(tái)建設(shè),提升了高校教師的數(shù)據(jù)質(zhì)量。張國(guó)寶等[22]系統(tǒng)闡述了智慧校園中數(shù)據(jù)質(zhì)量的若干問(wèn)題,設(shè)計(jì)了統(tǒng)一的數(shù)據(jù)管理服務(wù)平臺(tái)體系,針對(duì)性地解決數(shù)據(jù)不一致、不準(zhǔn)確等質(zhì)量問(wèn)題。陸成松等[23]則從對(duì)高校數(shù)據(jù)劣質(zhì)問(wèn)題的原因分析中,通過(guò)借鑒PDCA循環(huán)理論,從制度、標(biāo)準(zhǔn)、策略、工作內(nèi)容等方面構(gòu)建了數(shù)據(jù)治理體系,從而實(shí)現(xiàn)數(shù)據(jù)質(zhì)量的提升。
綜上,數(shù)據(jù)起源不僅可以記錄數(shù)據(jù)來(lái)源和治理過(guò)程,而且在數(shù)據(jù)質(zhì)量評(píng)價(jià)方面有著不可估量的作用。所以,將數(shù)據(jù)起源引入到數(shù)據(jù)治理中,對(duì)于提升數(shù)據(jù)質(zhì)量,具有非常重要的研究?jī)r(jià)值和探索意義。
為了記錄數(shù)據(jù)來(lái)源和數(shù)據(jù)治理的過(guò)程,需要對(duì)數(shù)據(jù)起源信息進(jìn)行收集,所以需要建立一個(gè)模式及實(shí)現(xiàn)模式的模型來(lái)描述數(shù)據(jù)來(lái)源和處理步驟。針對(duì)數(shù)據(jù)治理過(guò)程重現(xiàn)和質(zhì)量評(píng)估的要求,本節(jié)設(shè)計(jì)了一種數(shù)據(jù)起源標(biāo)注模型,并對(duì)模型中的屬性用本體描述語(yǔ)言O(shè)WL-S進(jìn)行數(shù)據(jù)起源約束性描述。
為了提高數(shù)據(jù)起源存儲(chǔ)和查詢的性能,該數(shù)據(jù)起源模型僅包含治理過(guò)程信息及必要的數(shù)據(jù)來(lái)源信息,包括什么人、通過(guò)什么環(huán)境、什么時(shí)間、對(duì)哪個(gè)源數(shù)據(jù)、實(shí)施了怎樣的治理。因此,將數(shù)據(jù)起源定義為數(shù)據(jù)治理過(guò)程中實(shí)施治理前(后)數(shù)據(jù)的產(chǎn)生及其演變過(guò)程。因?yàn)閿?shù)據(jù)治理是一個(gè)過(guò)程性的動(dòng)作,所以設(shè)計(jì)的是一種過(guò)程標(biāo)注模型,包括六大部分:Process、Time、Parameter、Data、Agent、Instrument。圖1是具體的過(guò)程標(biāo)注模型及其細(xì)化。
圖1 過(guò)程標(biāo)注模型及其細(xì)化
(1)Process。
Process是一系列的數(shù)據(jù)治理實(shí)施過(guò)程。例如:數(shù)據(jù)使用者會(huì)對(duì)數(shù)據(jù)進(jìn)行質(zhì)量反饋,經(jīng)業(yè)務(wù)管理員檢查確認(rèn)后,會(huì)執(zhí)行更新數(shù)值項(xiàng)操作。具體將在2.2節(jié)介紹。
(2)Time。
Time描述Process的執(zhí)行時(shí)間信息,包括Begin和End,代表Process開(kāi)始執(zhí)行的時(shí)間和結(jié)束的時(shí)間。具體如代碼1所示。
代碼1:Time約束描述。
(3)Parameter。
Parameter是Process實(shí)施的業(yè)務(wù)數(shù)據(jù)的參數(shù)信息,包括數(shù)據(jù)現(xiàn)值UseValue、數(shù)據(jù)源Source、治理標(biāo)簽Label、數(shù)據(jù)治理置信度Confidence。Label分為未實(shí)施治理、實(shí)施治理中、治理完成三類;Confidence表示數(shù)據(jù)治理的置信度[7],取值[0,1],數(shù)值越高表示數(shù)據(jù)治理過(guò)程的可信性越高。具體如代碼2所示。
代碼2:Parameter約束描述。
(4)Agent。
Agent是Process中涉及到的一切治理主體總稱,包含三類:數(shù)據(jù)使用者User、數(shù)據(jù)提供者Provider和數(shù)據(jù)平臺(tái)管理者M(jìn)anager。User通過(guò)各種應(yīng)用/服務(wù)使用數(shù)據(jù)進(jìn)而對(duì)數(shù)據(jù)質(zhì)量進(jìn)行評(píng)估、反饋;Provider指源數(shù)據(jù)的業(yè)務(wù)管理員,是源頭數(shù)據(jù)治理的實(shí)施者;Manager對(duì)業(yè)務(wù)數(shù)據(jù)執(zhí)行采集、清洗、對(duì)標(biāo)、轉(zhuǎn)換等操作,并對(duì)其進(jìn)行數(shù)據(jù)質(zhì)量檢測(cè)。具體如代碼3所示。
代碼3:Agent約束描述。
韓莎是被寵著長(zhǎng)大的,向來(lái)說(shuō)一不二,一聽(tīng)這話,立馬沖到門口穿鞋:“你不買,那我回家找我爸,讓他給我買……”
(5)Data。
Data是Process執(zhí)行中所用到或所產(chǎn)生的數(shù)據(jù)集合,包括實(shí)施治理前的數(shù)據(jù)原值Original和治理后的現(xiàn)值Government。具體如代碼4所示。
代碼4:Data約束描述。
(6)Instrument。
Instrument是Process執(zhí)行過(guò)程中反饋數(shù)據(jù)問(wèn)題的工具,包括名稱Name、業(yè)務(wù)應(yīng)用/服務(wù)環(huán)境Environment及反饋內(nèi)容描述Description。具體描述詳見(jiàn)代碼5。
代碼5:Instrument約束描述。
Process是一系列提升數(shù)據(jù)質(zhì)量的治理實(shí)施過(guò)程,是標(biāo)注模型的核心,與實(shí)施治理的主體有著非常重要的關(guān)系,該文從多元治理主體視角下分析確定Process起源的基本構(gòu)成元素。
2.2.1 多元治理主體視角下的數(shù)據(jù)質(zhì)量治理
根據(jù)Batini等[11]對(duì)數(shù)據(jù)質(zhì)量定義可知,一般從數(shù)據(jù)準(zhǔn)確性、完整性、一致性、時(shí)效性四方面進(jìn)行提升數(shù)據(jù)質(zhì)量的治理。具體為:
(1)數(shù)據(jù)準(zhǔn)確性治理:包括語(yǔ)法和語(yǔ)義兩個(gè)維度。語(yǔ)法準(zhǔn)確性治理是指其與數(shù)據(jù)標(biāo)準(zhǔn)的治理實(shí)施,由于業(yè)務(wù)系統(tǒng)的歷史遺留和不干擾原則,一般不對(duì)源頭數(shù)據(jù)進(jìn)行語(yǔ)法準(zhǔn)確性治理,而是對(duì)集成到公共數(shù)據(jù)平臺(tái)的共享數(shù)據(jù)進(jìn)行語(yǔ)法準(zhǔn)確性治理,即數(shù)據(jù)的清洗、轉(zhuǎn)換、對(duì)標(biāo),該過(guò)程無(wú)需數(shù)據(jù)提供者變更源頭數(shù)據(jù);而語(yǔ)義準(zhǔn)確性治理指數(shù)據(jù)值不準(zhǔn)確的治理,一般由數(shù)據(jù)使用者通過(guò)反饋的方式,經(jīng)由數(shù)據(jù)提供者檢查、核實(shí)后進(jìn)行數(shù)據(jù)值的更新;
(2)數(shù)據(jù)完整性治理:指數(shù)據(jù)缺失、不完整的治理,涉及各個(gè)維度是否有足夠的數(shù)據(jù),比如一個(gè)列由空變?yōu)樘畛渚唧w的值,需要從源頭去進(jìn)行數(shù)據(jù)值的更新;
(3)數(shù)據(jù)一致性治理:一般為不同業(yè)務(wù)數(shù)據(jù)間的不一致處理,由于該類治理從源頭執(zhí)行可能會(huì)影響到業(yè)務(wù)系統(tǒng)的功能,所以一般在公共數(shù)據(jù)平臺(tái)對(duì)集成的共享數(shù)據(jù)進(jìn)行一致性治理操作,所以該類治理也是無(wú)需數(shù)據(jù)提供者操作的;
(4)數(shù)據(jù)時(shí)效性治理:指數(shù)據(jù)是否為最新的數(shù)據(jù)。由于數(shù)據(jù)從業(yè)務(wù)源集成到公共數(shù)據(jù)平臺(tái),再?gòu)墓矓?shù)據(jù)平臺(tái)下發(fā)到第三方系統(tǒng),天然地存在數(shù)據(jù)時(shí)差,不好衡量其實(shí)施質(zhì)量,所以該類治理不在該文研究范圍內(nèi)。
進(jìn)一步地,從多元治理主體治理視角,語(yǔ)法準(zhǔn)確性治理、語(yǔ)義準(zhǔn)確性治理、數(shù)據(jù)完整性治理、數(shù)據(jù)一致性治理具體過(guò)程如下:
(1)語(yǔ)法準(zhǔn)確性治理,由數(shù)據(jù)平臺(tái)管理員對(duì)集成到公共數(shù)據(jù)平臺(tái)的業(yè)務(wù)數(shù)據(jù)實(shí)施,單向性過(guò)程,無(wú)需數(shù)據(jù)提供者復(fù)核,具體如圖2(a)所示;
(2)語(yǔ)義準(zhǔn)確性治理,由數(shù)據(jù)使用者反饋到數(shù)據(jù)提供者,再經(jīng)數(shù)據(jù)提供者核實(shí)、更新,最終再由數(shù)據(jù)使用者分析、評(píng)估、反饋。該過(guò)程是雙向性且可能存在多次循環(huán),具體如圖2(b)所示;
(3)數(shù)據(jù)完整性治理,由數(shù)據(jù)使用者或數(shù)據(jù)平臺(tái)管理者反饋,再經(jīng)數(shù)據(jù)提供者核實(shí)、更新,最終再由數(shù)據(jù)使用者、數(shù)據(jù)平臺(tái)管理者分析、評(píng)估、反饋。是雙向性過(guò)程,且可能存在多次循環(huán), 具體如圖2(c)所示;
圖2 多元治理主體參與下的提升數(shù)據(jù)質(zhì)量的治理過(guò)程
(4)數(shù)據(jù)一致性治理,由數(shù)據(jù)平臺(tái)管理員對(duì)公共數(shù)據(jù)平臺(tái)的共享數(shù)據(jù)實(shí)施。該過(guò)程是單向性的,不需要經(jīng)過(guò)數(shù)據(jù)提供者的復(fù)核,具體如圖2(d)所示。
由圖2可看出,實(shí)際治理過(guò)程中,多元治理主體視角下僅包含三種治理流轉(zhuǎn):
(1)單向性的數(shù)據(jù)平臺(tái)管理員對(duì)集成到公共數(shù)據(jù)平臺(tái)的共享數(shù)據(jù)進(jìn)行單方面的質(zhì)量治理操作,包括語(yǔ)法準(zhǔn)確性治理和數(shù)據(jù)一致性治理兩種,記為M;
(2)循環(huán)的數(shù)據(jù)平臺(tái)管理員——數(shù)據(jù)提供者——數(shù)據(jù)平臺(tái)管理員,僅包含數(shù)據(jù)完整性治理。一般這種治理是周期性、批量性的,治理的根據(jù)來(lái)源于檢測(cè)得到的數(shù)據(jù)質(zhì)量報(bào)告和整改報(bào)告,數(shù)據(jù)提供者完成數(shù)據(jù)的質(zhì)量治理后,會(huì)經(jīng)過(guò)再一次的數(shù)據(jù)質(zhì)量檢測(cè),直到數(shù)據(jù)質(zhì)量達(dá)標(biāo),記為MP—>PM;
(3)循環(huán)的數(shù)據(jù)使用者——數(shù)據(jù)提供者——數(shù)據(jù)使用者,包括語(yǔ)義準(zhǔn)確性治理和數(shù)據(jù)完整性治理,都可認(rèn)為是對(duì)源數(shù)據(jù)值的治理。數(shù)據(jù)使用者反饋質(zhì)量問(wèn)題一般是在使用某業(yè)務(wù)應(yīng)用/服務(wù)時(shí)發(fā)現(xiàn)數(shù)據(jù)質(zhì)量問(wèn)題進(jìn)行的文本性說(shuō)明,需要數(shù)據(jù)提供者去核實(shí)、檢查反饋的數(shù)據(jù)項(xiàng)問(wèn)題,再進(jìn)行數(shù)據(jù)項(xiàng)的更新處理,使用者能通過(guò)業(yè)務(wù)應(yīng)用再次確認(rèn)數(shù)據(jù)質(zhì)量治理的結(jié)果,這種治理一般是一次性、不定期的,記為UP—>PU;如果數(shù)據(jù)提供者復(fù)核后確認(rèn)不符合實(shí)際,記為UP—>P。
綜上,多元治理主體視角下的數(shù)據(jù)質(zhì)量治理過(guò)程如圖3所示。
圖3 多元主體治理視角下的數(shù)據(jù)質(zhì)量治理過(guò)程
2.2.2 Process構(gòu)成
根據(jù)圖3可知,在數(shù)據(jù)質(zhì)量的治理過(guò)程中,僅包含六個(gè)過(guò)程:UP、PU、MP、PM、M、P。所以,這六個(gè)過(guò)程即為數(shù)據(jù)起源Process的基本過(guò)程元素,通過(guò)并、串等組合為具體的治理過(guò)程。圖4是具體的數(shù)據(jù)質(zhì)量治理執(zhí)行流程和對(duì)應(yīng)的過(guò)程起源描述——Process。
圖4 數(shù)據(jù)質(zhì)量的治理過(guò)程實(shí)例及其過(guò)程起源描述
為了將數(shù)據(jù)質(zhì)量的治理過(guò)程及數(shù)據(jù)質(zhì)量呈現(xiàn)給數(shù)據(jù)使用者,需要對(duì)數(shù)據(jù)項(xiàng)進(jìn)行定義:
定義1 data項(xiàng):一個(gè)data項(xiàng)表示提供給第三方應(yīng)用/服務(wù)使用的數(shù)據(jù),是一個(gè)五元組,即data={G,V,L,Q,P}。其中G(government)為治理后的值,為實(shí)際第三方應(yīng)用/服務(wù)使用的值;V(useValue)為data的源數(shù)據(jù)現(xiàn)值;L(label)為data的治理標(biāo)簽;Q為實(shí)施治理后的數(shù)據(jù)質(zhì)量評(píng)估值,具體在第4節(jié)闡述;P為data的起源信息,詳細(xì)記錄了data的來(lái)源、治理過(guò)程。
圖5是基于數(shù)據(jù)起源的提升數(shù)據(jù)質(zhì)量的治理構(gòu)架。主要包括兩大部分:數(shù)據(jù)起源記錄、數(shù)據(jù)質(zhì)量治理。
圖5 基于數(shù)據(jù)起源的提升數(shù)據(jù)質(zhì)量的治理構(gòu)架
數(shù)據(jù)起源記錄:完成起源信息的記錄,由工作流定制引擎、過(guò)程標(biāo)注模塊、工作流標(biāo)注模塊、領(lǐng)域本體庫(kù)、語(yǔ)義標(biāo)注庫(kù)組成。過(guò)程標(biāo)注模塊是對(duì)過(guò)程進(jìn)行起源信息標(biāo)注的標(biāo)注工具,工作流標(biāo)注模塊是對(duì)工作流進(jìn)行起源信息標(biāo)注的標(biāo)注工具。過(guò)程標(biāo)注模塊和工作流標(biāo)注模塊都是在領(lǐng)域本體的支持下進(jìn)行標(biāo)注,標(biāo)注的結(jié)果即是語(yǔ)義標(biāo)注。
數(shù)據(jù)質(zhì)量治理:主要包含四個(gè)模塊,即數(shù)據(jù)使用、數(shù)據(jù)質(zhì)量問(wèn)題反饋、數(shù)據(jù)質(zhì)量反饋核實(shí)、數(shù)據(jù)質(zhì)量評(píng)估。圖6為具體流轉(zhuǎn),涉及三類治理主體、兩個(gè)治理循環(huán)。第一個(gè)循環(huán)稱為內(nèi)循環(huán),首先,數(shù)據(jù)平臺(tái)管理者在業(yè)務(wù)源數(shù)據(jù)集成到公共數(shù)據(jù)平臺(tái)的過(guò)程中,會(huì)通過(guò)數(shù)據(jù)治理工具執(zhí)行相應(yīng)的清洗、對(duì)標(biāo)及質(zhì)量檢查等;如果存在數(shù)據(jù)質(zhì)量問(wèn)題,會(huì)向數(shù)據(jù)提供者出具質(zhì)量檢查報(bào)告及整改報(bào)告;數(shù)據(jù)提供者根據(jù)整改報(bào)告進(jìn)行質(zhì)量檢查及治理實(shí)施,完成后再次循環(huán)上述步驟直至數(shù)據(jù)質(zhì)量達(dá)標(biāo)。第二個(gè)循環(huán)稱為外循環(huán),共享數(shù)據(jù)下發(fā)給第三方校園應(yīng)用/服務(wù)的使用過(guò)程中,數(shù)據(jù)使用者會(huì)根據(jù)數(shù)據(jù)質(zhì)量評(píng)估結(jié)果、數(shù)據(jù)治理過(guò)程反饋數(shù)據(jù)質(zhì)量,若發(fā)現(xiàn)數(shù)據(jù)質(zhì)量問(wèn)題,會(huì)向數(shù)據(jù)提供者反饋具體問(wèn)題;然后數(shù)據(jù)提供者會(huì)去核實(shí)、檢查反饋的質(zhì)量問(wèn)題,如果核實(shí),會(huì)更新業(yè)務(wù)源頭數(shù)據(jù),且進(jìn)行數(shù)據(jù)質(zhì)量的重新評(píng)估;循環(huán)執(zhí)行上述步驟直至復(fù)核數(shù)據(jù)質(zhì)量達(dá)標(biāo)。
圖6 數(shù)據(jù)質(zhì)量的治理流程
目前數(shù)據(jù)質(zhì)量評(píng)估方法多是定量評(píng)價(jià),即通過(guò)評(píng)估維度、規(guī)則、模型計(jì)算出某一數(shù)據(jù)表/視圖的數(shù)據(jù)質(zhì)量,是對(duì)源數(shù)據(jù)表/視圖的一個(gè)整體評(píng)價(jià),而實(shí)際上同一個(gè)表不同的字段屬性往往質(zhì)量不一,且對(duì)于某一列屬性的值準(zhǔn)確性評(píng)估,缺少用戶(既是生產(chǎn)者也是使用者)的反饋評(píng)價(jià)。
所以,基于上節(jié)提出的提升數(shù)據(jù)質(zhì)量的治理構(gòu)架,對(duì)傳統(tǒng)的數(shù)據(jù)質(zhì)量評(píng)估方法做兩點(diǎn)改進(jìn):一是將用戶的評(píng)價(jià)反饋以數(shù)據(jù)起源的方式記錄在了起源中(即UP、PU過(guò)程),設(shè)計(jì)了將定性評(píng)價(jià)轉(zhuǎn)化為可定量評(píng)估的數(shù)據(jù)質(zhì)量計(jì)算;二是結(jié)合文獻(xiàn)[24]提出的定量數(shù)據(jù)質(zhì)量評(píng)價(jià)方法,提出了定性+定量的綜合評(píng)估方法,實(shí)現(xiàn)列粒度的數(shù)據(jù)質(zhì)量評(píng)估。
該文默認(rèn)數(shù)據(jù)使用者僅能對(duì)自己的數(shù)據(jù)進(jìn)行質(zhì)量反饋,另外從數(shù)據(jù)全生命周期角度,數(shù)據(jù)最初來(lái)源于使用者,且最終為數(shù)據(jù)使用者使用,所以認(rèn)定經(jīng)過(guò)數(shù)據(jù)使用者反饋、業(yè)務(wù)提供者核實(shí)且更新過(guò)的數(shù)據(jù)是為高質(zhì)量的,不需要再進(jìn)行源頭數(shù)據(jù)值治理,即只有Process_PU、Process_PM會(huì)執(zhí)行源頭數(shù)據(jù)值的更新操作,認(rèn)為該次用戶反饋是有效的。
為了將用戶反饋轉(zhuǎn)化為可衡量的數(shù)據(jù)質(zhì)量定量計(jì)算,且與最終的數(shù)據(jù)質(zhì)量評(píng)估有所區(qū)分,作如下規(guī)定:
定義2 數(shù)據(jù)起源可信性:指某一條數(shù)據(jù)列屬性治理過(guò)程的可信性程度。與完整性治理、準(zhǔn)確性治理過(guò)程相關(guān),來(lái)源于用戶反饋,用來(lái)衡量用戶反饋的數(shù)據(jù)質(zhì)量評(píng)估,用置信度Confidence來(lái)表示,并記錄在Parameter起源中。
規(guī)定1 數(shù)據(jù)使用者、數(shù)據(jù)平臺(tái)管理者執(zhí)行反饋動(dòng)作,即UP、MP,未經(jīng)數(shù)據(jù)提供者復(fù)核、變更,不允許數(shù)據(jù)使用者、數(shù)據(jù)平臺(tái)管理者對(duì)同一數(shù)據(jù)項(xiàng)執(zhí)行第二次反饋,否則會(huì)存在數(shù)據(jù)不一致且重復(fù)操作的問(wèn)題。
規(guī)定2 只要經(jīng)過(guò)一次完整的數(shù)據(jù)使用者(User)——數(shù)據(jù)提供者(Provider)——數(shù)據(jù)使用者(User)治理流程,即UP—>PU,認(rèn)定完成源數(shù)據(jù)質(zhì)量治理,治理動(dòng)作結(jié)束,Confidence=1,Label=治理完成。
規(guī)定3 每經(jīng)過(guò)一次數(shù)據(jù)平臺(tái)管理者(Manager)——數(shù)據(jù)提供者(Provider)——數(shù)據(jù)平臺(tái)管理者(Manager),即MP—>PM,Confidence=a*Confidence +(1-a)*0.5,0≤a<1。
由規(guī)定可知,只有在Process起源中解析到PU、PM過(guò)程時(shí),才需更新Confidence值,且不存在并行的MP—>PM過(guò)程,并PU、PM過(guò)程必伴隨著相應(yīng)的UP、MP過(guò)程。所以只需對(duì)過(guò)程起源提取PU、PM過(guò)程,即可實(shí)現(xiàn)Confidence計(jì)算。具體算法偽代碼如下:
算法1 數(shù)據(jù)起源可信性計(jì)算
Input過(guò)程起源Process
Output用戶反饋的數(shù)據(jù)質(zhì)量評(píng)估值——Confidence
While過(guò)程起源未結(jié)束:
If有過(guò)程PU,則Confidence=1,跳出循環(huán);
else if有過(guò)程PM,則Confidence=a*Confidence+(1-a)*0.5
else繼續(xù);
返回Confidence
圖7為提出的數(shù)據(jù)質(zhì)量評(píng)估模型,數(shù)據(jù)質(zhì)量治理的所有主體均參與其中,且將用戶對(duì)數(shù)據(jù)質(zhì)量的定性評(píng)估,通過(guò)數(shù)據(jù)起源記錄以及算法1轉(zhuǎn)換為定量評(píng)價(jià)結(jié)果,再結(jié)合傳統(tǒng)的數(shù)據(jù)質(zhì)量評(píng)價(jià)方法,實(shí)現(xiàn)最終的數(shù)據(jù)質(zhì)量的評(píng)價(jià)。
圖7 數(shù)據(jù)質(zhì)量評(píng)估模型
根據(jù)圖7以及已有文獻(xiàn)研究,最終的數(shù)據(jù)質(zhì)量評(píng)估結(jié)果計(jì)算如下:
其中,Q為某一列數(shù)據(jù)的質(zhì)量評(píng)估結(jié)果;Qset為源頭數(shù)據(jù)表/視圖的數(shù)據(jù)質(zhì)量評(píng)估結(jié)果,采用文獻(xiàn)[24]的計(jì)算方法得到最終評(píng)估得分后,進(jìn)行歸一化處理;Qcon是用戶反饋的數(shù)據(jù)質(zhì)量評(píng)估結(jié)果,是對(duì)某一具體列數(shù)據(jù)的質(zhì)量度量值Confidence。
例如,表1為人事部門提供的教職工信息表(為源頭數(shù)據(jù)表),其通過(guò)文獻(xiàn)[24]計(jì)算的評(píng)估得分是90,進(jìn)行歸一化處理后為0.9,即整個(gè)教職工信息表T_JZG的數(shù)據(jù)質(zhì)量評(píng)估得分為Qset=0.9。
表1 教職工信息表T_JZG
張老師(001)在科研系統(tǒng)中發(fā)現(xiàn)個(gè)人信息中職稱信息有誤,去反饋在某年某月某日已聘為教授,經(jīng)人事管理員核查后屬實(shí),在人事系統(tǒng)中更新了其職稱信息,但該變更不會(huì)影響整個(gè)表的數(shù)據(jù)質(zhì)量評(píng)價(jià)結(jié)果,因?yàn)榛谝?guī)則的數(shù)據(jù)質(zhì)量評(píng)估只能對(duì)一些字段屬性設(shè)置、空、長(zhǎng)度等限制評(píng)分,而無(wú)法精確地對(duì)值進(jìn)行評(píng)估。
所以,對(duì)其進(jìn)行用戶反饋的數(shù)據(jù)質(zhì)量評(píng)估,該次是一次完整的UP→PU過(guò)程,按照算法1,設(shè)置質(zhì)量計(jì)算參數(shù)a=0.4,最終評(píng)估得分為Qcon=1。
所以,最終張老師(001)的職稱屬性(教授)的最終質(zhì)量評(píng)估得分為Q=0.95。
基于上文提出的治理構(gòu)架,以及數(shù)據(jù)質(zhì)量評(píng)估方法,設(shè)計(jì)了一個(gè)小型的基于H5的數(shù)據(jù)質(zhì)量評(píng)估原型系統(tǒng),具體如圖8所示。開(kāi)發(fā)環(huán)境為:開(kāi)發(fā)平臺(tái)Windows 7,開(kāi)發(fā)工具WeX5 3.6,Web服務(wù)器Tomcat 6.0,數(shù)據(jù)庫(kù)MySQL 5.0,本體開(kāi)發(fā)工具Protege3.4,標(biāo)注工具OWL-S Editor、OWLS-API3.0,推理機(jī)Jena2.6.0。
圖8 基于數(shù)據(jù)起源的數(shù)據(jù)質(zhì)量評(píng)估系統(tǒng)模型
數(shù)據(jù)質(zhì)量評(píng)估原型系統(tǒng)包括反饋與評(píng)估、起源信息記錄、公共數(shù)據(jù)庫(kù)、業(yè)務(wù)數(shù)據(jù)庫(kù)、起源數(shù)據(jù)庫(kù)5大部分。反饋與評(píng)估是系統(tǒng)模型的核心,包括:
(1)質(zhì)量問(wèn)題反饋模塊。提供給數(shù)據(jù)使用者、數(shù)據(jù)平臺(tái)管理者進(jìn)行質(zhì)量問(wèn)題的反饋,包括具體的數(shù)據(jù)問(wèn)題描述、反饋的平臺(tái)等;
(2)核實(shí)反饋問(wèn)題。數(shù)據(jù)治理過(guò)程是需要線下和線上相結(jié)合的特殊信息化過(guò)程,特別是核實(shí)這塊,需要數(shù)據(jù)提供者根據(jù)反饋的問(wèn)題,進(jìn)行線下的核實(shí);
(3)數(shù)據(jù)質(zhì)量評(píng)估模塊。對(duì)核實(shí)的源數(shù)據(jù),需要進(jìn)行數(shù)據(jù)質(zhì)量的重新評(píng)估。本模型中質(zhì)量計(jì)算參數(shù)設(shè)為a=0.4。
4.3.1 數(shù)據(jù)質(zhì)量問(wèn)題反饋
圖9(a)展示了李某的一系列個(gè)人數(shù)據(jù),包括基本信息、教學(xué)信息及相應(yīng)數(shù)據(jù)質(zhì)量情況。如,李某入職日期是1999-01-15,該數(shù)據(jù)項(xiàng)尚在治理過(guò)程中,數(shù)據(jù)質(zhì)量評(píng)估值為0.3,點(diǎn)擊質(zhì)量標(biāo)簽,可查看具體的治理過(guò)程,具體如圖9(b)所示;當(dāng)李某發(fā)現(xiàn)基本信息入職日期有誤時(shí),點(diǎn)擊“去反饋”,進(jìn)入數(shù)據(jù)質(zhì)量問(wèn)題反饋填寫模塊,填寫具體的反饋內(nèi)容,具體如圖10所示。
圖9 數(shù)據(jù)質(zhì)量評(píng)估平臺(tái)數(shù)據(jù)展示
圖10 數(shù)據(jù)質(zhì)量反饋填報(bào)
4.3.2 數(shù)據(jù)質(zhì)量評(píng)估
在數(shù)據(jù)提供者核實(shí)了反饋的問(wèn)題如實(shí)后,更新業(yè)務(wù)數(shù)據(jù)源,此時(shí)會(huì)重新評(píng)估數(shù)據(jù)質(zhì)量,最終李某的數(shù)據(jù)服務(wù)展示如圖11(a)所示,其治理過(guò)程如圖11(b)所示。
圖11 實(shí)施治理后數(shù)據(jù)值
數(shù)據(jù)使用者是數(shù)據(jù)的生產(chǎn)者,也是使用者,更是評(píng)價(jià)者。該文基于數(shù)據(jù)起源,從兩方面探索提升數(shù)據(jù)質(zhì)量的方法:一是設(shè)計(jì)了基于數(shù)據(jù)起源的治理構(gòu)架,數(shù)據(jù)使用者能清晰了解治理過(guò)程和數(shù)據(jù)質(zhì)量,形成治理合力,從而使數(shù)據(jù)治理落到實(shí)處;二是提出了基于數(shù)據(jù)起源的數(shù)據(jù)質(zhì)量評(píng)估方法,將數(shù)據(jù)使用者的反饋從定性轉(zhuǎn)化為定量評(píng)估,并實(shí)現(xiàn)了數(shù)據(jù)質(zhì)量的綜合性評(píng)價(jià)。實(shí)驗(yàn)表明提出的提升數(shù)據(jù)質(zhì)量的方法具備以下優(yōu)勢(shì):
(1)針對(duì)性。提出的數(shù)據(jù)起源標(biāo)注模型是針對(duì)數(shù)據(jù)治理領(lǐng)域而提出的,僅包含治理標(biāo)注信息和必要的數(shù)據(jù)來(lái)源信息,既滿足了記錄治理過(guò)程的需求,又保證了數(shù)據(jù)質(zhì)量評(píng)估的需要。
(2)全面性。提出的數(shù)據(jù)治理構(gòu)架涉及所有治理主體,特別是數(shù)據(jù)使用者,所有主體都能清晰、透明地了解數(shù)據(jù)質(zhì)量治理實(shí)施的過(guò)程、數(shù)據(jù)當(dāng)前的質(zhì)量情況,從而切實(shí)參與到提升數(shù)據(jù)質(zhì)量的過(guò)程中。
(3)有效性。提出的數(shù)據(jù)質(zhì)量評(píng)估方法,既有基于用戶反饋的定性評(píng)估,也包含基于規(guī)則的定量評(píng)估,是對(duì)數(shù)據(jù)質(zhì)量的綜合性評(píng)價(jià),能準(zhǔn)確、有效地輔助數(shù)據(jù)質(zhì)量的提升。
(4)擴(kuò)展性。提出的基于數(shù)據(jù)起源的治理構(gòu)架和質(zhì)量評(píng)估方法不僅可以應(yīng)用于教育領(lǐng)域,也可擴(kuò)展應(yīng)用至水利等其他領(lǐng)域。
當(dāng)然,也存在一定程度的不足。例如,提出的數(shù)據(jù)起源標(biāo)注模型是針對(duì)提升數(shù)據(jù)質(zhì)量的需求而設(shè)計(jì)的,并沒(méi)有其他的語(yǔ)義信息,在起源依賴性分析和功能擴(kuò)展性方面存在局限。但是,筆者認(rèn)為這是值得的,畢竟,過(guò)多的語(yǔ)義信息不僅會(huì)增加存儲(chǔ)的負(fù)擔(dān),也會(huì)降低數(shù)據(jù)應(yīng)用的性能。