巫莉莉,張 波
(華南農(nóng)業(yè)大學(xué) 現(xiàn)代教育技術(shù)中心, 廣州 510642)
隨著IT時(shí)代向DT時(shí)代的轉(zhuǎn)變,數(shù)據(jù)變得越來(lái)越重要,隨之而來(lái)的數(shù)據(jù)質(zhì)量問(wèn)題也被越來(lái)越多的人關(guān)注。數(shù)據(jù)質(zhì)量來(lái)源于數(shù)據(jù)產(chǎn)生的過(guò)程,其優(yōu)劣將直接影響數(shù)據(jù)價(jià)值的高低,進(jìn)而影響管理者的分析和決策。數(shù)據(jù)質(zhì)量問(wèn)題的出現(xiàn)催生了數(shù)據(jù)治理技術(shù),數(shù)據(jù)作為一種資產(chǎn)在數(shù)據(jù)治理工作中得到進(jìn)一步的深化[1]。
數(shù)據(jù)治理是對(duì)數(shù)據(jù)全生命周期管理的組織行為,其主要目標(biāo)是利用數(shù)據(jù)解決問(wèn)題、創(chuàng)造新的價(jià)值,避免數(shù)據(jù)重復(fù)采集、數(shù)出多頭、數(shù)據(jù)不準(zhǔn)等情況,解決數(shù)據(jù)質(zhì)量的根本問(wèn)題,并通過(guò)提升數(shù)據(jù)質(zhì)量保證數(shù)據(jù)的高可用性[2-4]。國(guó)際數(shù)據(jù)管理協(xié)會(huì)(DAMA Internation)總結(jié)了數(shù)據(jù)管理的十大功能,把數(shù)據(jù)治理放在十大功能的核心位置,并指出每個(gè)數(shù)據(jù)管理的職能都有助于提升數(shù)據(jù)的質(zhì)量[5]。2018年6月,國(guó)家市場(chǎng)監(jiān)督管理總局和國(guó)家標(biāo)準(zhǔn)化管理委員會(huì)批準(zhǔn)《信息技術(shù)服務(wù) 治理 第5部分:數(shù)據(jù)治理規(guī)范》(簡(jiǎn)稱《規(guī)范》)國(guó)家標(biāo)準(zhǔn)發(fā)布實(shí)施,實(shí)施日期為2019年1月1日。該《規(guī)范》是在數(shù)據(jù)治理國(guó)際標(biāo)準(zhǔn) ISO/IEC 38505-1《信息技術(shù)IT治理數(shù)據(jù) 治理 第1部分:ISO/IEC 38500在數(shù)據(jù)治理中的應(yīng)用》和ISO/IEC TR 38505-2《信息技術(shù)IT治理數(shù)據(jù) 治理 第2部分:數(shù)據(jù)治理對(duì)數(shù)據(jù)管理的影響》之后發(fā)布的具有中國(guó)特色的數(shù)據(jù)治理規(guī)范?!兑?guī)范》中指出數(shù)據(jù)治理工作應(yīng)圍繞數(shù)據(jù)質(zhì)量開(kāi)展,并明確了數(shù)據(jù)質(zhì)量管理的需求[6],為國(guó)內(nèi)數(shù)據(jù)治理工作中決策層規(guī)劃、監(jiān)督提供了指引,打通了從治理到實(shí)施的路徑[7-8]。
目前,國(guó)內(nèi)高校經(jīng)過(guò)數(shù)十年信息化建設(shè)的發(fā)展,普遍建設(shè)了多個(gè)業(yè)務(wù)系統(tǒng),許多高校進(jìn)入智慧校園建設(shè)階段。2018年6月,國(guó)家市場(chǎng)監(jiān)督管理總局和國(guó)家標(biāo)準(zhǔn)化管理委員會(huì)發(fā)布了《智慧校園總體框架》國(guó)家標(biāo)準(zhǔn)[9],以此標(biāo)準(zhǔn)指導(dǎo)數(shù)據(jù)治理工作的開(kāi)展,以“用數(shù)據(jù)說(shuō)話、用數(shù)據(jù)決策、用數(shù)據(jù)管理、用數(shù)據(jù)創(chuàng)新”為目標(biāo),對(duì)學(xué)校各業(yè)務(wù)域數(shù)據(jù)進(jìn)行梳理、清洗、分析和利用,著力解決各業(yè)務(wù)系統(tǒng)長(zhǎng)期以來(lái)存在的“數(shù)據(jù)不規(guī)范、不統(tǒng)一、不準(zhǔn)確、共享難”問(wèn)題,實(shí)現(xiàn)“業(yè)務(wù)驅(qū)動(dòng)”轉(zhuǎn)為“數(shù)據(jù)驅(qū)動(dòng)”,從而提升數(shù)據(jù)質(zhì)量、規(guī)范數(shù)據(jù)使用、支撐數(shù)據(jù)應(yīng)用與決策[10-11],將松散的數(shù)據(jù)沉淀為科學(xué)有效的學(xué)校數(shù)據(jù)資產(chǎn),進(jìn)一步推進(jìn)學(xué)校信息化發(fā)展。
數(shù)據(jù)質(zhì)量是指在業(yè)務(wù)環(huán)境下,數(shù)據(jù)符合數(shù)據(jù)消費(fèi)者的使用目的,能滿足業(yè)務(wù)場(chǎng)景具體需求的程度[12]。本文結(jié)合國(guó)際標(biāo)準(zhǔn)以及相關(guān)學(xué)者的研究觀點(diǎn),重新描述了數(shù)據(jù)質(zhì)量的特點(diǎn)[13]:① 數(shù)據(jù)質(zhì)量存在于數(shù)據(jù)的整個(gè)生命周期,隨著數(shù)據(jù)的消失而消失;② 數(shù)據(jù)質(zhì)量不僅依賴于數(shù)據(jù)本身的特征,還依賴于數(shù)據(jù)所處的業(yè)務(wù)環(huán)境;③ 數(shù)據(jù)質(zhì)量可以借助業(yè)務(wù)系統(tǒng)來(lái)判斷,但獨(dú)立于業(yè)務(wù)系統(tǒng)而存在;④ 隨著業(yè)務(wù)需求和時(shí)間的變化,數(shù)據(jù)質(zhì)量衡量標(biāo)準(zhǔn)會(huì)發(fā)生變化。
影響高校數(shù)據(jù)質(zhì)量的因素有很多,既有管理方面的因素,又有技術(shù)方面的因素,其結(jié)果均表現(xiàn)為數(shù)據(jù)沒(méi)有達(dá)到預(yù)期的質(zhì)量指標(biāo)。主要表現(xiàn)在兩方面:
1) 數(shù)據(jù)管理不規(guī)范。數(shù)據(jù)全生命周期的各個(gè)階段由于業(yè)務(wù)流程設(shè)計(jì)不合理及數(shù)據(jù)錄入(更新)操作不規(guī)范,導(dǎo)致存在數(shù)據(jù)不完整、重復(fù)、格式不規(guī)范以及邏輯錯(cuò)誤等問(wèn)題。
2) 數(shù)據(jù)采集不規(guī)范。多源分布式異構(gòu)的數(shù)據(jù)源在采集過(guò)程中,由于數(shù)據(jù)清洗、集成的規(guī)則和方法等因素,會(huì)產(chǎn)生新的數(shù)據(jù)質(zhì)量問(wèn)題。
數(shù)據(jù)質(zhì)量對(duì)于數(shù)據(jù)治理至關(guān)重要,數(shù)據(jù)質(zhì)量需達(dá)到可接受的程度才能更好地發(fā)掘和體現(xiàn)數(shù)據(jù)價(jià)值。目前,高校數(shù)據(jù)治理中數(shù)據(jù)質(zhì)量主要面臨以下挑戰(zhàn)[14-15]:
1) 數(shù)據(jù)來(lái)源于眾多分散的業(yè)務(wù)系統(tǒng),具有多樣性和復(fù)雜性,需要統(tǒng)一的業(yè)務(wù)數(shù)據(jù)標(biāo)準(zhǔn),保證數(shù)據(jù)的規(guī)范、完整和準(zhǔn)確,以便有效地進(jìn)行質(zhì)量控制。
2) 遵循“一數(shù)一源”原則,確定數(shù)據(jù)源頭,避免數(shù)據(jù)的多頭采集,以保障數(shù)據(jù)治理核心業(yè)務(wù)數(shù)據(jù)的一致性和準(zhǔn)確性。
3) 遵循“伴隨式采集”原則進(jìn)行數(shù)據(jù)采集。數(shù)據(jù)的產(chǎn)生很大程度依賴于業(yè)務(wù)系統(tǒng),不同業(yè)務(wù)系統(tǒng)之間的數(shù)據(jù)也存在一定程度的依賴關(guān)系,因此對(duì)業(yè)務(wù)系統(tǒng)的基礎(chǔ)數(shù)據(jù)及數(shù)據(jù)交換的轉(zhuǎn)換規(guī)則要求較高。
數(shù)據(jù)質(zhì)量評(píng)估是通過(guò)度量數(shù)據(jù)的綜合特征來(lái)估計(jì)數(shù)據(jù)質(zhì)量與數(shù)據(jù)價(jià)值的過(guò)程[16]。數(shù)據(jù)質(zhì)量評(píng)估是數(shù)據(jù)治理過(guò)程中必不可少的重要環(huán)節(jié),目前主要通過(guò)數(shù)據(jù)質(zhì)量維度和規(guī)則相結(jié)合來(lái)實(shí)現(xiàn)高校數(shù)據(jù)治理中的數(shù)據(jù)質(zhì)量評(píng)估。
結(jié)合高校數(shù)據(jù)治理中的數(shù)據(jù)質(zhì)量問(wèn)題,總結(jié)了以下數(shù)據(jù)質(zhì)量的維度:完整性、準(zhǔn)確性、正確性、一致性、唯一性和及時(shí)性[17-19],通過(guò)它們來(lái)描述和量化數(shù)據(jù)的質(zhì)量。
1) 完整性是數(shù)據(jù)質(zhì)量最基礎(chǔ)的保障。主要是指數(shù)據(jù)的記錄和信息是否完整,是否存在缺失的情況。
2) 準(zhǔn)確性是用來(lái)描述數(shù)據(jù)是否與其對(duì)應(yīng)的客觀實(shí)體的特征相一致,是否存在異常或者錯(cuò)誤的信息,通常從命名、數(shù)據(jù)類型、長(zhǎng)度、值域、取值范圍、內(nèi)容規(guī)范等方面進(jìn)行約束。
3) 正確性表示數(shù)據(jù)與客觀事實(shí)的符合程度,與準(zhǔn)確性是不同的概念。
4) 一致性通常指關(guān)聯(lián)數(shù)據(jù)之間的邏輯關(guān)系是否正確和完整,用來(lái)描述統(tǒng)一信息主體在不同的數(shù)據(jù)集中信息屬性是否相同,各實(shí)體、屬性是否符合一致性約束關(guān)系。
5) 唯一性用來(lái)描述數(shù)據(jù)是否存在重復(fù)記錄,沒(méi)有實(shí)體多于一次出現(xiàn)。
6) 及時(shí)性是一個(gè)與時(shí)間相關(guān)的維度,主要用來(lái)描述從業(yè)務(wù)發(fā)生到對(duì)應(yīng)數(shù)據(jù)正確存儲(chǔ)并可正常查看的時(shí)間間隔。在確保數(shù)據(jù)完整性、準(zhǔn)確性和一致性的前提下,保障數(shù)據(jù)能夠及時(shí)產(chǎn)出,更加體現(xiàn)數(shù)據(jù)的價(jià)值。
對(duì)數(shù)據(jù)質(zhì)量維度與業(yè)務(wù)需求是否相匹配進(jìn)行評(píng)估,制定數(shù)據(jù)質(zhì)量規(guī)則,以便檢查數(shù)據(jù)質(zhì)量是否滿足業(yè)務(wù)規(guī)則的流程并監(jiān)控這些業(yè)務(wù)規(guī)則的符合度。根據(jù)業(yè)務(wù)特性確定質(zhì)量屬性,簡(jiǎn)單分為以下規(guī)則:
1) 單字段規(guī)則。字段作為數(shù)據(jù)庫(kù)中的最小組成單位,從格式、語(yǔ)法、長(zhǎng)度、范圍等進(jìn)行判斷。具體規(guī)則可表現(xiàn)為:非空、唯一、身份證號(hào)校驗(yàn)、日期校驗(yàn)、電子郵件校驗(yàn)、手機(jī)號(hào)校驗(yàn)、值域類型、值域范圍校驗(yàn)、學(xué)號(hào)長(zhǎng)度檢測(cè)等。
2) 跨字段關(guān)聯(lián)規(guī)則。從字段之間的邏輯關(guān)系和函數(shù)依賴關(guān)系等方面進(jìn)行數(shù)據(jù)質(zhì)量規(guī)則的定義。邏輯關(guān)系和函數(shù)關(guān)系都是指表的不同字段取值之間存在的一種或多種約束關(guān)系,使得彼此的取值相互制約[20]。
3) 業(yè)務(wù)校驗(yàn)規(guī)則。主要是檢查數(shù)據(jù)是否符合業(yè)務(wù)邏輯,需要業(yè)務(wù)部門(mén)參與制定、完善和實(shí)施的業(yè)務(wù)校驗(yàn)規(guī)則。
如表1所示,以學(xué)生個(gè)人基本信息為例說(shuō)明數(shù)據(jù)質(zhì)量規(guī)則與數(shù)據(jù)質(zhì)量維度之間的關(guān)系。
表1 質(zhì)量規(guī)則與質(zhì)量維度關(guān)聯(lián)
數(shù)據(jù)質(zhì)量的提升技術(shù)主要涉及模式層和實(shí)例層兩個(gè)方面[21]。數(shù)據(jù)集成主要解決模式層的問(wèn)題,數(shù)據(jù)剖析主要針對(duì)實(shí)例層的數(shù)據(jù)進(jìn)行分析,數(shù)據(jù)清洗解決的是實(shí)例層的數(shù)據(jù)問(wèn)題,這3個(gè)方面相互交織、相互滲透,但三者從實(shí)現(xiàn)目標(biāo)到使用技術(shù)都有明顯的不同。數(shù)據(jù)集成是目的,而數(shù)據(jù)剖析和數(shù)據(jù)清洗是手段[22]。表2對(duì)數(shù)據(jù)集成、數(shù)據(jù)剖析和數(shù)據(jù)清洗進(jìn)行比較[23]。
表2 數(shù)據(jù)集成、數(shù)據(jù)剖析和數(shù)據(jù)清洗的比較
數(shù)據(jù)集成(data integration)是將不同來(lái)源、不同系統(tǒng)、異構(gòu)且相互關(guān)聯(lián)的數(shù)據(jù)源集成到一起,并以統(tǒng)一的訪問(wèn)接口對(duì)外提供數(shù)據(jù)服務(wù),其主要目的是讓用戶能夠以透明的方式訪問(wèn)這些數(shù)據(jù)源[24-25]。數(shù)據(jù)集成是數(shù)據(jù)治理工作的基礎(chǔ),首先要解決的是數(shù)據(jù)異構(gòu)、分散的問(wèn)題。在高校數(shù)據(jù)治理中,目前主要通過(guò)數(shù)據(jù)視圖或數(shù)據(jù)復(fù)制的方式實(shí)現(xiàn)數(shù)據(jù)集成。
數(shù)據(jù)剖析(data profiling)[26]也稱數(shù)據(jù)概要分析,它通過(guò)對(duì)當(dāng)前數(shù)據(jù)源的數(shù)據(jù)分析,搜集該數(shù)據(jù)源的統(tǒng)計(jì)信息,以此來(lái)檢驗(yàn)數(shù)據(jù)的有效性、可用性,對(duì)數(shù)據(jù)源進(jìn)行初步的評(píng)估。數(shù)據(jù)剖析以數(shù)據(jù)質(zhì)量維度為指導(dǎo),對(duì)數(shù)據(jù)結(jié)構(gòu)、內(nèi)容、關(guān)系、繼承關(guān)系進(jìn)行識(shí)別分析,主要目的是為了發(fā)現(xiàn)數(shù)據(jù)的標(biāo)準(zhǔn)特征,包括數(shù)據(jù)類型、字段長(zhǎng)度、列基數(shù)、粒度、值集、格式模式、隱含的規(guī)則、跨列和跨表的數(shù)據(jù)關(guān)系及這些關(guān)系的基數(shù)。分析的結(jié)果可以直接作為元數(shù)據(jù)使用,通常從列分析、表分析和跨表分析3個(gè)方面進(jìn)行數(shù)據(jù)剖析[27-28]。在高校數(shù)據(jù)治理中,通常在數(shù)據(jù)集成的開(kāi)始階段對(duì)不同來(lái)源的數(shù)據(jù)進(jìn)行數(shù)據(jù)剖析。
數(shù)據(jù)清洗(data cleaning)是通過(guò)檢測(cè)發(fā)現(xiàn)和定位“臟數(shù)據(jù)”,并對(duì)這些數(shù)據(jù)進(jìn)行修補(bǔ)或移除以提升數(shù)據(jù)質(zhì)量的過(guò)程[29]。數(shù)據(jù)清洗主要關(guān)注缺失、不正確、邏輯錯(cuò)誤、相似重復(fù)記錄等“臟數(shù)據(jù)”的檢測(cè)和消除[30]。通過(guò)定義統(tǒng)一的數(shù)據(jù)格式對(duì)數(shù)據(jù)進(jìn)行合并、重組、消除等操作,將“臟數(shù)據(jù)”有效轉(zhuǎn)化成高質(zhì)量的干凈數(shù)據(jù),提升數(shù)據(jù)質(zhì)量。
確保數(shù)據(jù)質(zhì)量是高校數(shù)據(jù)治理工作中不容忽視的重要環(huán)節(jié)。然而,數(shù)據(jù)質(zhì)量問(wèn)題不能單純依靠技術(shù)去解決,而是需要依靠“制度+系統(tǒng)+人工”一起協(xié)力完成。
通過(guò)數(shù)據(jù)質(zhì)量的評(píng)估、反饋和整改,建設(shè)高校數(shù)據(jù)質(zhì)量提升體系(圖1),實(shí)現(xiàn)流程化的數(shù)據(jù)質(zhì)量管理的閉環(huán)。對(duì)原業(yè)務(wù)系統(tǒng)的數(shù)據(jù)分析形成現(xiàn)狀報(bào)告,經(jīng)過(guò)數(shù)據(jù)集成和清洗后生成質(zhì)量報(bào)告,通過(guò)數(shù)據(jù)共享平臺(tái)將數(shù)據(jù)質(zhì)量問(wèn)題反饋到源頭部門(mén)進(jìn)行修正和完善,然后再重新采集入庫(kù),實(shí)現(xiàn)完整的流程閉環(huán)及質(zhì)量改進(jìn)循環(huán)機(jī)制。
規(guī)范制度的建設(shè)是數(shù)據(jù)治理目標(biāo)實(shí)現(xiàn)的保障。在高校數(shù)據(jù)治理過(guò)程中,制定一系列的數(shù)據(jù)質(zhì)量管理制度,規(guī)范數(shù)據(jù)源頭采集、統(tǒng)一存儲(chǔ)數(shù)據(jù)和使用標(biāo)準(zhǔn)接口,保證數(shù)據(jù)從產(chǎn)生、使用到變更的管理流程規(guī)范;制定統(tǒng)一的數(shù)據(jù)標(biāo)準(zhǔn),在全校范圍梳理和建立數(shù)據(jù)認(rèn)責(zé)機(jī)制,確定數(shù)據(jù)安全等級(jí)以及來(lái)源部門(mén),按照“誰(shuí)產(chǎn)生數(shù)據(jù),誰(shuí)負(fù)責(zé)管理”的原則,數(shù)據(jù)使用部門(mén)參與管理,保證數(shù)據(jù)全生命周期的質(zhì)量。
數(shù)據(jù)的過(guò)程可視化和質(zhì)量可視化管理極為重要。在高校數(shù)據(jù)治理的實(shí)施過(guò)程中,通過(guò)數(shù)據(jù)質(zhì)量平臺(tái)建設(shè)(圖2),實(shí)現(xiàn)對(duì)數(shù)據(jù)質(zhì)量可視化的呈現(xiàn)和分析,實(shí)時(shí)、全面地展示數(shù)據(jù)質(zhì)量整體情況,及時(shí)發(fā)現(xiàn)數(shù)據(jù)質(zhì)量問(wèn)題,優(yōu)化、提升數(shù)據(jù)質(zhì)量,便于后續(xù)數(shù)據(jù)治理和數(shù)據(jù)分析與應(yīng)用的有效開(kāi)展。
圖1 數(shù)據(jù)質(zhì)量提升體系
圖2 數(shù)據(jù)質(zhì)量平臺(tái)
該平臺(tái)主要實(shí)現(xiàn)以下功能:
1) 數(shù)據(jù)集成規(guī)模展示。對(duì)數(shù)據(jù)進(jìn)行量化和全局的統(tǒng)計(jì),讓管理者對(duì)全校的數(shù)據(jù)資源一目了然。
2) 數(shù)據(jù)質(zhì)量分析與統(tǒng)計(jì)??勺远x數(shù)據(jù)質(zhì)量規(guī)則,并形成質(zhì)量報(bào)告,促使各部門(mén)不斷提升本部門(mén)數(shù)據(jù)質(zhì)量,形成良性循環(huán)。① 通過(guò)數(shù)據(jù)剖析形成現(xiàn)狀報(bào)告,理清學(xué)?,F(xiàn)有業(yè)務(wù)系統(tǒng)現(xiàn)狀,針對(duì)學(xué)校當(dāng)前數(shù)據(jù)現(xiàn)狀做全面的分析與可視化呈現(xiàn),明確當(dāng)前數(shù)據(jù)質(zhì)量問(wèn)題,為數(shù)據(jù)質(zhì)量的改善與提升提供基準(zhǔn)對(duì)比。② 通過(guò)數(shù)據(jù)清洗形成以季度、主題域及業(yè)務(wù)系統(tǒng)為單位的數(shù)據(jù)質(zhì)量報(bào)告,包括從總體數(shù)據(jù)質(zhì)量到系統(tǒng)、數(shù)據(jù)表及數(shù)據(jù)字段的數(shù)據(jù)質(zhì)量明細(xì),全面掌握數(shù)據(jù)清洗后的數(shù)據(jù)質(zhì)量情況。
3) 數(shù)據(jù)回溯。對(duì)數(shù)據(jù)全鏈流程實(shí)行監(jiān)控,隨時(shí)掌握數(shù)據(jù)的上下行狀態(tài),并可回溯數(shù)據(jù)的歷史進(jìn)化過(guò)程。
在高校數(shù)據(jù)治理過(guò)程中,將數(shù)據(jù)質(zhì)量問(wèn)題分為結(jié)構(gòu)性問(wèn)題和內(nèi)容性問(wèn)題。結(jié)構(gòu)性問(wèn)題通常是指代碼集不一致、填寫(xiě)不規(guī)范、代碼混淆、格式錯(cuò)誤等情況,可通過(guò)數(shù)據(jù)清洗解決問(wèn)題。內(nèi)容性問(wèn)題通常是指數(shù)據(jù)缺失、數(shù)值錯(cuò)誤、口徑不一致等現(xiàn)象,需要將問(wèn)題反饋給源頭部門(mén),通過(guò)源頭部門(mén)改錯(cuò)補(bǔ)漏,更新源頭數(shù)據(jù),再重新采集入庫(kù)。
高校數(shù)據(jù)治理實(shí)施主要以人、財(cái)、物為主線進(jìn)行,而人事信息是主線中的關(guān)鍵基礎(chǔ)信息。為了進(jìn)一步評(píng)估學(xué)校人事信息的數(shù)據(jù)質(zhì)量,對(duì)評(píng)估發(fā)現(xiàn)的異常數(shù)據(jù)進(jìn)行統(tǒng)計(jì)分析。如表3所示,人事信息的異常數(shù)據(jù)集中表現(xiàn)在完整性方面。在數(shù)據(jù)清洗的過(guò)程中,身份證件號(hào)為空的數(shù)據(jù)通過(guò)人事信息里的工號(hào)作為主鍵和一卡通人員信息做匹配,完善部分身份證件號(hào),并通過(guò)身份證件號(hào)完善身份證件類型字段。通過(guò)對(duì)數(shù)據(jù)清洗前后存在的問(wèn)題做量化對(duì)比,發(fā)現(xiàn)數(shù)據(jù)清洗解決了人事信息里身份證件問(wèn)題的大部分?jǐn)?shù)據(jù),剩下的為空數(shù)據(jù)主要是由于歷史數(shù)據(jù)缺失的原因造成。其他人事信息異常數(shù)據(jù)屬于內(nèi)容性問(wèn)題,需數(shù)據(jù)產(chǎn)生源頭部門(mén)修正、完善數(shù)據(jù)或通過(guò)改善產(chǎn)生數(shù)據(jù)的業(yè)務(wù)流程來(lái)解決。
表3 問(wèn)題數(shù)據(jù)統(tǒng)計(jì)情況記錄
在人事信息數(shù)據(jù)問(wèn)題的清洗過(guò)程中,通過(guò)部分算法模型進(jìn)行數(shù)據(jù)質(zhì)量控制。
算法1出生日期校驗(yàn)。主要通過(guò)身份證號(hào)(SFZJH)驗(yàn)證出生日期(CSRQ)的正確性,算法描述如下:
public class BirthDateAuth {
public static booleanauth(String CSRQ,String SFZJH) {
//判斷輸入條件是否為空
if (CSRQ==null || "".equals(CSRQ) || SFZJH == null || "".equals(SFZJH)) {
return false;
}
//IDCardAuth為判斷身份證號(hào)是否有效的函數(shù)
if(!IDCardAuth.auth(SFZJH)){
return false;
}
String birthDate=CSRQ.replaceAll("-","");
String cardBirthdate="";//身份證的生日
if (SFZJH.length() == 18) {
cardBirthdate=SFZJH.substring(6,14);
} else {
cardBirthdate=SFZJH.substring(4,12);
}
if (birthDate.equals(cardBirthdate)) {
return true;
}
return false;
}
}
算法2教師的正式報(bào)到時(shí)間(BDSJ)的取值應(yīng)大于或等于入職時(shí)間(RZSJ)的取值。算法描述如下:
public class TeacherCheckIn {
public static booleanauth(String bdsjStr,String rzsjStr) {
if (bdsjStr == null || rzsjStr == null || "".equals(rzsjStr) || "".equals(rzsjStr)){
return false;
}
DateFormat format=new SimpleDateFormat("yyyy-MM-ddHH:mm:ss");
try {
Date BDSJ=format.parse(bdsjStr);
Date RZSJ=format.parse(rzsjStr);
if (BDSJ.getTime() >=RZSJ.getTime()) {
return true;
} else {
return false;
}
} catch (ParseException e) {
e.printStackTrace();
return false;
}
}
}
數(shù)據(jù)質(zhì)量管理不是一次性行為,需建立持續(xù)監(jiān)測(cè)和問(wèn)題反饋的工作機(jī)制,從而多方位優(yōu)化改進(jìn)。高校數(shù)據(jù)治理工作中,主要從以下幾個(gè)方面進(jìn)行數(shù)據(jù)質(zhì)量問(wèn)題反饋和跟進(jìn):
1) 借助數(shù)據(jù)質(zhì)量平臺(tái),根據(jù)表規(guī)則(表數(shù)據(jù)量、容量、表非空)及字段規(guī)則(非空、值域、正則式、范圍)手動(dòng)核驗(yàn)數(shù)據(jù)清洗之后的數(shù)據(jù)存在的質(zhì)量問(wèn)題,將分析結(jié)果以質(zhì)量報(bào)告的形式呈現(xiàn)出來(lái),明確問(wèn)題所在。然后將質(zhì)量報(bào)告反饋給數(shù)據(jù)產(chǎn)生的源頭部門(mén),方便源頭部門(mén)查看整體和詳細(xì)的質(zhì)量問(wèn)題,進(jìn)而提升數(shù)據(jù)質(zhì)量。
2) 借助數(shù)據(jù)共享平臺(tái)反饋數(shù)據(jù)質(zhì)量。按人力資源、學(xué)生管理、科研管理、教學(xué)資源與管理、資產(chǎn)管理、財(cái)務(wù)管理、行政管理和公共服務(wù)等主題域進(jìn)行數(shù)據(jù)劃分,通過(guò)數(shù)據(jù)共享平臺(tái)提供不同維度的數(shù)據(jù)共享服務(wù)。在數(shù)據(jù)共享的過(guò)程中,通過(guò)數(shù)據(jù)質(zhì)量反饋的流程,借助數(shù)據(jù)共享平臺(tái)在線上形成數(shù)據(jù)質(zhì)量問(wèn)題上報(bào)、反饋和問(wèn)題督辦機(jī)制,在數(shù)據(jù)源頭進(jìn)行數(shù)據(jù)整改。
3) 進(jìn)行數(shù)據(jù)定期核查,結(jié)合數(shù)據(jù)的重要級(jí)別(核心數(shù)據(jù)、重要數(shù)據(jù)等),階段性地推進(jìn)數(shù)據(jù)整改工作,為后續(xù)數(shù)據(jù)使用及數(shù)據(jù)應(yīng)用分析提供高效、準(zhǔn)確的數(shù)據(jù)。
數(shù)據(jù)安全貫穿整個(gè)數(shù)據(jù)治理過(guò)程。建立完善的數(shù)據(jù)安全保障機(jī)制,為數(shù)據(jù)質(zhì)量的提升做好基礎(chǔ)保障工作。
1) 制度保障。制定校級(jí)數(shù)據(jù)管理相關(guān)辦法,建立健全數(shù)據(jù)安全管理框架,明確數(shù)據(jù)生產(chǎn)部門(mén)、數(shù)據(jù)使用部門(mén)、數(shù)據(jù)管理部門(mén)等單位的數(shù)據(jù)安全管理職責(zé)。建立數(shù)據(jù)資源的分類分級(jí)和保密定級(jí)工作,按分類等級(jí)和保密等級(jí)規(guī)定采取相關(guān)處理措施。
2) 技術(shù)保障。建立數(shù)據(jù)訪問(wèn)的身份驗(yàn)證、權(quán)限管理、行為審計(jì)及定期備份等多種安全防護(hù)機(jī)制。做好病毒預(yù)防、入侵檢測(cè)和數(shù)據(jù)保密工作,做好網(wǎng)絡(luò)層面的隔離工作,敏感信息限制在校內(nèi)服務(wù)器訪問(wèn)[31-33]。
3) 隊(duì)伍建設(shè)。組建專業(yè)的數(shù)據(jù)管理隊(duì)伍,定期和不定期地開(kāi)展數(shù)據(jù)安全檢查工作。
4) 環(huán)境保障。提供高性能、高可靠、高穩(wěn)定的存儲(chǔ)系統(tǒng),充分保障訪問(wèn)性能和數(shù)據(jù)安全。
數(shù)據(jù)治理是一個(gè)長(zhǎng)期的過(guò)程,需要建立長(zhǎng)效的管理機(jī)制來(lái)促進(jìn)數(shù)據(jù)治理工作的開(kāi)展。在高校數(shù)據(jù)治理過(guò)程中,數(shù)據(jù)質(zhì)量的管理也是一個(gè)持續(xù)的過(guò)程。為了保證高質(zhì)量的數(shù)據(jù),需要職能管理部門(mén)的積極配合與參與,逐步推進(jìn)不同層次和不同維度的數(shù)據(jù)共享,不斷完善質(zhì)量反饋與監(jiān)督機(jī)制,健全數(shù)據(jù)質(zhì)量提升體系,形成數(shù)據(jù)質(zhì)量管理的良性循環(huán)。通過(guò)數(shù)據(jù)助力數(shù)據(jù)治理,提升數(shù)據(jù)質(zhì)量,為高校師生提供更優(yōu)質(zhì)的數(shù)據(jù)支撐服務(wù),為學(xué)校管理者提供更精準(zhǔn)的輔助決策支持,提高學(xué)校的管理和科研水平,促進(jìn)學(xué)校建設(shè)。