文/張國(guó)寶 卞藝杰
高校在數(shù)字校園階段已經(jīng)建設(shè)了數(shù)據(jù)中心和若干應(yīng)用系統(tǒng),通過(guò)數(shù)據(jù)共享平臺(tái)和數(shù)據(jù)集成,一定程度上為教學(xué)科研和管理等業(yè)務(wù)提供了數(shù)據(jù)支撐。隨著大數(shù)據(jù)等信息化技術(shù)應(yīng)用的逐步延伸,業(yè)務(wù)驅(qū)動(dòng)需求的不斷挖掘,原有解決方案或體系架構(gòu)下的數(shù)據(jù)質(zhì)量問(wèn)題也不斷暴露出來(lái),在大數(shù)據(jù)時(shí)代為智慧校園的建設(shè)與發(fā)展帶來(lái)挑戰(zhàn)[1]。
1.校園信息標(biāo)準(zhǔn)不能有機(jī)地與校園業(yè)務(wù)數(shù)據(jù)結(jié)合,校園的元數(shù)據(jù)不能自動(dòng)地根據(jù)業(yè)務(wù)數(shù)據(jù)生成并且成為信息標(biāo)準(zhǔn)的一部分。2.數(shù)字校園建設(shè)了數(shù)據(jù)共享平臺(tái),但是數(shù)據(jù)共享平臺(tái)僅僅是解決了數(shù)據(jù)跨業(yè)務(wù)部門(mén)的問(wèn)題,實(shí)現(xiàn)了數(shù)據(jù)的“運(yùn)過(guò)去”,對(duì)于數(shù)據(jù)的運(yùn)行質(zhì)量難以保證,缺乏數(shù)據(jù)的全局視圖,不能質(zhì)量檢查,不能溯源。因而一定程度上制約了學(xué)校更大范圍的數(shù)據(jù)共享和上層應(yīng)用。3.缺乏全局的數(shù)據(jù)資產(chǎn)管理平臺(tái)和數(shù)據(jù)頂層設(shè)計(jì)。4.松散的高校業(yè)務(wù)數(shù)據(jù)環(huán)境,缺乏統(tǒng)一的數(shù)據(jù)管理制度和權(quán)限管理。
數(shù)據(jù)質(zhì)量管理是信息系統(tǒng)建設(shè)的首要問(wèn)題,“數(shù)據(jù)適合使用的程度”(Fit For Use)是數(shù)據(jù)質(zhì)量的主要定義之一,質(zhì)量屬性可劃分為正確性(Correctness)、一致性(Consistency)、完整性(Completeness)、最小性(Minimality),數(shù)據(jù)質(zhì)量也反映了數(shù)據(jù)模式與數(shù)據(jù)實(shí)例在以上屬性上的距離。從評(píng)估治理的角度來(lái)看,數(shù)據(jù)質(zhì)量也可劃分為內(nèi)在質(zhì)量( IntrinsicDQ) 、 可訪(fǎng)問(wèn)性質(zhì)量(Access ibilityDQ) 、 上下文質(zhì)量 ( ContextualDQ) 、 表達(dá)質(zhì)量 ( Repres entational DQ)四個(gè)維度。
元數(shù)據(jù)(Metadata),其含義為“描述數(shù)據(jù)的結(jié)構(gòu)化數(shù)據(jù)”[2],也被稱(chēng)為是關(guān)于數(shù)據(jù)內(nèi)容、質(zhì)量、條件和其他描述數(shù)據(jù)特征的結(jié)構(gòu)化數(shù)據(jù)。
元數(shù)據(jù)包括業(yè)務(wù)元數(shù)據(jù)、技術(shù)元數(shù)據(jù)、操作元數(shù)據(jù),見(jiàn)表1。
表1 元數(shù)據(jù)分類(lèi)表
本文認(rèn)為數(shù)據(jù)質(zhì)量管理最主要的目標(biāo)是安全、正確、時(shí)效。因而數(shù)據(jù)的真實(shí)性、完備性、自洽性是數(shù)據(jù)本身應(yīng)具有的屬性,稱(chēng)為數(shù)據(jù)的絕對(duì)質(zhì)量,是數(shù)據(jù)質(zhì)量的基礎(chǔ)。除了數(shù)據(jù)的①絕對(duì)質(zhì)量外,還有我們?cè)诶煤痛尜A數(shù)據(jù)的過(guò)程中所產(chǎn)生的數(shù)據(jù)質(zhì)量,包括②使用質(zhì)量、③存儲(chǔ)質(zhì)量和④傳輸質(zhì)量,稱(chēng)之為過(guò)程質(zhì)量。
數(shù)據(jù)質(zhì)量按照屬性可以劃分為:完整性、一致性、及時(shí)性和準(zhǔn)確性。常見(jiàn)數(shù)據(jù)質(zhì)量問(wèn)題及示例見(jiàn)表2。
表2 數(shù)據(jù)質(zhì)量屬性對(duì)照表
高校數(shù)據(jù)標(biāo)準(zhǔn)一般包括數(shù)據(jù)標(biāo)準(zhǔn)、代碼標(biāo)準(zhǔn)。通常參考國(guó)家教育行業(yè)標(biāo)準(zhǔn)教育管理信息之《教育管理基礎(chǔ)代碼》(JY/T1001-2012)和《高等學(xué)校管理信息》(JY/T1006-2012),以及包括學(xué)校的自定義編碼標(biāo)準(zhǔn)。在數(shù)據(jù)執(zhí)行標(biāo)準(zhǔn)的基礎(chǔ)上結(jié)合元數(shù)據(jù)標(biāo)準(zhǔn),與業(yè)務(wù)數(shù)據(jù)(數(shù)據(jù)源、數(shù)據(jù)模式)和主數(shù)據(jù)進(jìn)行定期的檢查比對(duì),發(fā)現(xiàn)上述列舉的質(zhì)量問(wèn)題,并且對(duì)與業(yè)務(wù)數(shù)據(jù)的正常變化,通過(guò)數(shù)據(jù)管理流程補(bǔ)充和完善到元數(shù)據(jù)和其他數(shù)據(jù)標(biāo)準(zhǔn)中,并且通過(guò)正常迭代進(jìn)行新版本標(biāo)準(zhǔn)的發(fā)布。通過(guò)這樣的措施在技術(shù)上保證數(shù)據(jù)質(zhì)量的穩(wěn)定和提升。
基于元數(shù)據(jù)標(biāo)準(zhǔn)的檢查對(duì)比能夠很好地解決數(shù)據(jù)質(zhì)量問(wèn)題中的完整性和值域類(lèi)型問(wèn)題。高校環(huán)境下由于業(yè)務(wù)數(shù)據(jù)具備差異化、異構(gòu)、松散、冗余的特征,數(shù)據(jù)一致性在全局的數(shù)據(jù)管理和質(zhì)量提高過(guò)程中相對(duì)其他質(zhì)量屬性更加重要。數(shù)據(jù)絕對(duì)質(zhì)量的提高主要通過(guò)自定義質(zhì)量規(guī)則約束,進(jìn)行定期的檢查來(lái)實(shí)現(xiàn)。質(zhì)量約束規(guī)則主要有單字段的語(yǔ)法檢查(數(shù)據(jù)特征、長(zhǎng)度、規(guī)則等)以及多字段的邏輯關(guān)系檢查(時(shí)間先后比較、數(shù)量大小比較等)。數(shù)據(jù)一致性存在于單數(shù)據(jù)源情況,也存在于多數(shù)據(jù)源的情況。單數(shù)據(jù)源中的一致性,通過(guò)重復(fù)記錄檢測(cè)就可以發(fā)現(xiàn)重復(fù)數(shù)據(jù)。多數(shù)據(jù)源的一致性判定較為復(fù)雜。舉例如下:學(xué)生張三在教務(wù)部門(mén)和學(xué)工部門(mén)都存在。
學(xué)工部門(mén):A
學(xué)號(hào) 姓名 學(xué)院代碼 手機(jī)號(hào)碼 是否在校123 張三 1O1OO 1313131313x True
教務(wù)部門(mén):B
學(xué)號(hào) 姓名 學(xué)院代碼 手機(jī)號(hào)碼 是否在校123 張三 1O1OO 1393939393x False
數(shù)據(jù)A和B產(chǎn)生了不一致,其算法有3種可能:
(1)Result(A+B) = A (2)Result(A+B) = B (3)Result(A+B)= A結(jié)合B
不一致數(shù)據(jù)的解決前提是確認(rèn)數(shù)據(jù)的權(quán)威數(shù)據(jù)源。對(duì)數(shù)據(jù)實(shí)體具體到每一個(gè)屬性都要確定其權(quán)威數(shù)據(jù)來(lái)源,則3種可能的結(jié)果是確定唯一的。所以,如果學(xué)生的學(xué)號(hào)、姓名、學(xué)院、是否在校的數(shù)據(jù)源是教務(wù)部門(mén)、手機(jī)號(hào)碼的來(lái)源是學(xué)工部門(mén),那么計(jì)算的結(jié)果應(yīng)該是(3):C
學(xué)號(hào) 姓名 學(xué)院代碼 手機(jī)號(hào)碼 是否在校123 張三 1O1OO 1313131313x False
通過(guò)確定主數(shù)據(jù)的權(quán)威數(shù)據(jù)源來(lái)實(shí)現(xiàn)數(shù)據(jù)清洗,支撐主數(shù)據(jù)庫(kù)的數(shù)據(jù)一致性和數(shù)據(jù)權(quán)威性。同時(shí)數(shù)據(jù)鏈的管理也能為主數(shù)據(jù)管理平臺(tái)提供數(shù)據(jù)血緣分析與影響范圍分析等管理功能。
圖1展示了高校的統(tǒng)一數(shù)據(jù)管理服務(wù)平臺(tái)結(jié)構(gòu),針對(duì)本文分析提出的大數(shù)據(jù)背景下高校數(shù)據(jù)質(zhì)量面臨的諸多問(wèn)題,圍繞提升數(shù)據(jù)質(zhì)量,該平臺(tái)能夠針對(duì)性的解決和提升數(shù)據(jù)質(zhì)量問(wèn)題,包括如下個(gè)步驟:
1.通過(guò)元數(shù)據(jù)標(biāo)準(zhǔn)(業(yè)務(wù)、技術(shù)、操作)建設(shè),形成高校的主數(shù)據(jù)體系,通過(guò)代碼標(biāo)準(zhǔn)、元數(shù)據(jù)標(biāo)準(zhǔn),完善高校已有的數(shù)據(jù)標(biāo)準(zhǔn),通過(guò)自動(dòng)的數(shù)據(jù)標(biāo)準(zhǔn)約束檢查不斷迭代發(fā)布更新數(shù)據(jù)標(biāo)準(zhǔn)。反過(guò)來(lái),由業(yè)務(wù)數(shù)據(jù)驅(qū)動(dòng)元數(shù)據(jù)標(biāo)準(zhǔn)的完善和補(bǔ)充。通過(guò)數(shù)據(jù)源和數(shù)據(jù)模式等元數(shù)據(jù)信息的定期檢查,保持和提高數(shù)據(jù)標(biāo)準(zhǔn)與業(yè)務(wù)數(shù)據(jù)的關(guān)聯(lián)一致。
元數(shù)據(jù)標(biāo)準(zhǔn)與數(shù)據(jù)標(biāo)準(zhǔn)檢查1主數(shù)據(jù)平臺(tái) 定期生成數(shù)據(jù)質(zhì)量報(bào)告大數(shù)據(jù)主題數(shù)據(jù)庫(kù)擴(kuò)展主數(shù)據(jù)、登記到統(tǒng)一數(shù)據(jù)平臺(tái)3數(shù)據(jù)清洗、質(zhì)量約束檢查2數(shù)據(jù)管理流程制度5 Hadoop集群系統(tǒng)/建模數(shù)據(jù)共享庫(kù)數(shù)據(jù)抽取、聚合建模、分析計(jì)算采集、存儲(chǔ)、傳輸
圖1 基于數(shù)據(jù)治理的統(tǒng)一數(shù)據(jù)管理服務(wù)平臺(tái)結(jié)構(gòu)示意
2.建設(shè)具有唯一權(quán)威數(shù)據(jù)源的主數(shù)據(jù)。針對(duì)數(shù)據(jù)質(zhì)量屬性中絕對(duì)質(zhì)量和使用質(zhì)量的問(wèn)題,通過(guò)質(zhì)量約束規(guī)則定期檢查主數(shù)據(jù),形成數(shù)據(jù)質(zhì)量結(jié)果報(bào)告。對(duì)于多來(lái)源數(shù)據(jù)不一致問(wèn)題通過(guò)確定唯一數(shù)據(jù)源進(jìn)行解決,不能確定數(shù)據(jù)源時(shí)還可通過(guò)專(zhuān)家干預(yù)的方式進(jìn)行處理。
3.通過(guò)大數(shù)據(jù)分析處理Hadoop集群平臺(tái),進(jìn)行基于主題數(shù)據(jù)模型的建模,通過(guò)分析計(jì)算形成結(jié)果數(shù)據(jù)。保存到主題數(shù)據(jù)庫(kù)中,并且登記到統(tǒng)一的主數(shù)據(jù)平臺(tái)。
4.在主數(shù)據(jù)平臺(tái)的基礎(chǔ)上,開(kāi)放和配置數(shù)據(jù)訪(fǎng)問(wèn)接口。通過(guò)API方式或者傳統(tǒng)數(shù)據(jù)接口方式,滿(mǎn)足大批量數(shù)據(jù)集成訪(fǎng)問(wèn)方式或者Web Service的數(shù)據(jù)訪(fǎng)問(wèn)方式的接口要求。通過(guò)統(tǒng)一的接口配置和管理,實(shí)現(xiàn)數(shù)據(jù)訪(fǎng)問(wèn)的權(quán)限管理和訪(fǎng)問(wèn)審計(jì)。
5. 數(shù)據(jù)質(zhì)量的管理流程制度化:通過(guò)定期數(shù)據(jù)質(zhì)量約束檢查→生成數(shù)據(jù)質(zhì)量結(jié)果報(bào)告→根據(jù)數(shù)據(jù)鏈溯源→數(shù)據(jù)質(zhì)量結(jié)果反饋來(lái)源部門(mén)→數(shù)據(jù)修正→再次數(shù)據(jù)質(zhì)量檢查,這樣的數(shù)據(jù)質(zhì)量管理流程,技術(shù)加管理相結(jié)合,實(shí)現(xiàn)數(shù)據(jù)質(zhì)量的提升。
數(shù)據(jù)的質(zhì)量問(wèn)題是高校信息化面臨的主要問(wèn)題之一。構(gòu)建統(tǒng)一的主數(shù)據(jù)管理服務(wù)平臺(tái),通過(guò)元數(shù)據(jù)標(biāo)準(zhǔn)和數(shù)據(jù)質(zhì)量治理技術(shù)手段和管理流程相結(jié)合,能夠解決質(zhì)量問(wèn)題,滿(mǎn)足未來(lái)智慧校園的服務(wù)需求。
(責(zé)編:楊燕婷)
[1]徐琦.基于大數(shù)據(jù)的高校數(shù)據(jù)整合模式研究[J].中國(guó)教育信息化. 2015 (15) :60-63.
[2]劉春燕,侯人華,杜薇薇.國(guó)際科研領(lǐng)域元數(shù)據(jù)研究及啟示[J].情報(bào)理論與實(shí)踐.2014,37 (9):39-43.
[3]高科,刁興春,曹建軍.基于簡(jiǎn)單規(guī)則的數(shù)據(jù)質(zhì)量檢查系統(tǒng)設(shè)計(jì)與應(yīng)用[J].計(jì)算機(jī)技術(shù)與發(fā)展.2015 (6) :176-180.