蒲天銀,饒正嬋,雷 宏
(1.銅仁學(xué)院大數(shù)據(jù)學(xué)院,貴州 銅仁 554300;2.銅仁市大數(shù)據(jù)管理局,貴州 銅仁 554300)
目前信息技術(shù)高度發(fā)展,各行各業(yè)每天會(huì)產(chǎn)生大量的數(shù)據(jù),因此,數(shù)據(jù)挖掘、數(shù)據(jù)倉(cāng)庫(kù)、大數(shù)據(jù)、云計(jì)算等新的數(shù)據(jù)研究領(lǐng)域應(yīng)運(yùn)而生.與20世紀(jì)60年代軟件行業(yè)出現(xiàn)軟件危機(jī)相似,當(dāng)前的數(shù)據(jù)信息雖然看上去很多,但是在實(shí)際應(yīng)用中人們發(fā)現(xiàn),大部分?jǐn)?shù)據(jù)在應(yīng)用前都需要重新過(guò)濾,知識(shí)再發(fā)現(xiàn),才能得到有效的信息.通過(guò)目前的數(shù)據(jù)現(xiàn)象來(lái)看,中國(guó)軟件評(píng)測(cè)中心吳志剛提出“數(shù)據(jù)危機(jī)”這個(gè)說(shuō)法不無(wú)道理,那么,如何有效地解決好數(shù)據(jù)危機(jī)問(wèn)題,數(shù)據(jù)治理就提上了一個(gè)極為重要的日程.
關(guān)于數(shù)據(jù)治理的定義一直是學(xué)術(shù)界討論的重要話(huà)題,然而由于關(guān)注點(diǎn)、表述的不同,至今尚未形成一個(gè)統(tǒng)一的定義.現(xiàn)有的研究大致形成了以下兩種觀點(diǎn):一種觀點(diǎn)認(rèn)為,數(shù)據(jù)治理是有關(guān)數(shù)據(jù)決策權(quán)和職責(zé)的分配.數(shù)據(jù)治理研究所給出了類(lèi)似的定義,數(shù)據(jù)治理是指針對(duì)信息相關(guān)過(guò)程的決策權(quán)和職責(zé)體系[1].另一種觀點(diǎn)認(rèn)為,數(shù)據(jù)治理是一個(gè)圍繞數(shù)據(jù)全生命周期的活動(dòng)集合.國(guó)際數(shù)據(jù)管理協(xié)會(huì)在2009年的報(bào)告中對(duì)數(shù)據(jù)治理的定義是,數(shù)據(jù)治理是對(duì)數(shù)據(jù)資產(chǎn)管理行使權(quán)力和控制的活動(dòng)集合(包括計(jì)劃、監(jiān)督和執(zhí)行)[2].
大數(shù)據(jù)時(shí)代的到來(lái)為數(shù)據(jù)資產(chǎn)的管理和應(yīng)用帶來(lái)了新的挑戰(zhàn),大數(shù)據(jù)治理的需求應(yīng)運(yùn)而生.國(guó)際著名數(shù)據(jù)治理專(zhuān)家Sunil Soares將大數(shù)據(jù)治理定義為廣義信息治理計(jì)劃的一部分,通過(guò)協(xié)調(diào)多個(gè)職能部門(mén)的目標(biāo)來(lái)制定與大數(shù)據(jù)有關(guān)的數(shù)據(jù)優(yōu)化、隱私保護(hù)與數(shù)據(jù)變現(xiàn)的政策[3].從本質(zhì)上來(lái)講,大數(shù)據(jù)是數(shù)據(jù)存在和發(fā)展的新階段.同樣,大數(shù)據(jù)治理是數(shù)據(jù)治理發(fā)展的階段.
不僅僅行業(yè)數(shù)據(jù)多而復(fù)雜,高校數(shù)據(jù)也同樣如此.高校在發(fā)展過(guò)程中會(huì)產(chǎn)生各類(lèi)數(shù)據(jù),如學(xué)生信息數(shù)據(jù)、職工信息數(shù)據(jù)、科研信息數(shù)據(jù)、教學(xué)信息數(shù)據(jù)、資產(chǎn)數(shù)據(jù)、財(cái)務(wù)數(shù)據(jù)等等.而每一大類(lèi)數(shù)據(jù)又包含各種不同小類(lèi)的數(shù)據(jù),有些數(shù)據(jù)之間存在明顯的重疊.由于高校大多沒(méi)有考慮數(shù)據(jù)治理問(wèn)題,在信息化建設(shè)過(guò)程中,各內(nèi)設(shè)管理機(jī)構(gòu),根據(jù)自身業(yè)務(wù)建設(shè)信息化管理系統(tǒng),而這些系統(tǒng)相互之間又沒(méi)有形成有效的數(shù)據(jù)通道,各自為政,這導(dǎo)致高校雖積累了大量的業(yè)務(wù)數(shù)據(jù)和用戶(hù)行為相關(guān)日志數(shù)據(jù),但還是普遍存在數(shù)據(jù)質(zhì)量不達(dá)標(biāo),冗余數(shù)據(jù)大量存在、數(shù)據(jù)準(zhǔn)確性不高以及業(yè)務(wù)單位共享數(shù)據(jù)難度較大等問(wèn)題,這些問(wèn)題已嚴(yán)重制約了高校的信息化管理及信息化教學(xué)水平的提升.
雖然數(shù)字化校園、智慧校園已提出了一段時(shí)間,但是,高校在事業(yè)發(fā)展過(guò)程中,更多注重科學(xué)研究、人才培養(yǎng)等職能建設(shè),對(duì)學(xué)校的智能化建設(shè)重視不夠,因此,在信息化建設(shè)過(guò)程中沒(méi)有形成頂端的數(shù)據(jù)管理中控中心,沒(méi)有形成良好的規(guī)劃設(shè)計(jì),各業(yè)務(wù)部門(mén)分開(kāi)建設(shè)、管理業(yè)務(wù)系統(tǒng),數(shù)據(jù)之間無(wú)法互聯(lián)互通,共享不足,普通存在“數(shù)據(jù)孤島”現(xiàn)象,數(shù)據(jù)流通的范圍、時(shí)效性等仍受到嚴(yán)重的影響.
由于決策層沒(méi)有重視數(shù)據(jù)管理的重要性,相關(guān)職能部門(mén)也沒(méi)有這方面的思考,因此在實(shí)際運(yùn)行過(guò)程中,沒(méi)有建立必要的數(shù)據(jù)管理體系,缺少對(duì)數(shù)據(jù)使用的精確管理和監(jiān)督,導(dǎo)致管理職責(zé)不明確,數(shù)據(jù)沒(méi)有權(quán)威性.比如一些高校,有人想要了解學(xué)校的實(shí)際學(xué)生人數(shù),卻不知道應(yīng)該找招生管理部門(mén)、學(xué)生管理部門(mén)、學(xué)籍管理部門(mén)、學(xué)費(fèi)收繳管理部門(mén)中哪一部門(mén).每個(gè)部門(mén)都有自己的數(shù)據(jù),但都不全面、準(zhǔn)確,因此數(shù)據(jù)質(zhì)量當(dāng)然不高.其問(wèn)題的本質(zhì)就是高校缺少數(shù)據(jù)管理體系,各職能部門(mén)數(shù)據(jù)之間存在明顯的重疊,導(dǎo)致數(shù)據(jù)管理混亂.
高校跨部門(mén)的數(shù)據(jù)質(zhì)量管理規(guī)范與標(biāo)準(zhǔn)未建立,各類(lèi)數(shù)據(jù)的生產(chǎn)、使用、管理、維護(hù)等環(huán)節(jié)標(biāo)準(zhǔn)不統(tǒng)一,引起部門(mén)之間提升的數(shù)據(jù)結(jié)構(gòu)不一致的問(wèn)題.如提交教職工信息表,一是格式上不統(tǒng)一,有的部門(mén)做成xls格式,而有的部門(mén)做成doc格式;二是內(nèi)容上的不統(tǒng)一,有的表格里需要填寫(xiě)性別、民族,而有的表格不需要.
高校應(yīng)加大對(duì)非結(jié)構(gòu)化數(shù)據(jù)采集、儲(chǔ)存和分析工具的建設(shè)力度,便于真正地提升數(shù)據(jù)管理質(zhì)量.數(shù)據(jù)管理經(jīng)歷了從數(shù)據(jù)挖掘、云計(jì)算、大數(shù)據(jù)、區(qū)塊鏈等數(shù)據(jù)管理過(guò)程,就如何從任意一項(xiàng)數(shù)據(jù)中發(fā)現(xiàn)有效信息這個(gè)問(wèn)題,這是一個(gè)最基本的數(shù)據(jù)管理模式.但是目前大部分高校還沒(méi)有數(shù)據(jù)分析管理這一過(guò)程,即使有,也只是形式上的.如大部分高校未對(duì)每年的招生錄取信息進(jìn)行分析,未對(duì)每年的財(cái)務(wù)資金收支作具體分析,未對(duì)每年的科研項(xiàng)目作詳細(xì)分析.而恰恰這些問(wèn)題都是向決策層提供參考的必需信息,因此高校想要解決“數(shù)據(jù)危機(jī)”,進(jìn)行數(shù)據(jù)分析管理過(guò)程是必不可少的.
參考文獻(xiàn)[4]中關(guān)于教育數(shù)據(jù)分類(lèi),筆者結(jié)合對(duì)當(dāng)前高校數(shù)據(jù)類(lèi)型的理解,將教育數(shù)據(jù)從數(shù)據(jù)產(chǎn)生的層次、來(lái)源主體、業(yè)務(wù)活動(dòng)、采集技術(shù)及設(shè)備分類(lèi)等四方面進(jìn)行分類(lèi),結(jié)果如表1所示.
表1 高校數(shù)據(jù)分類(lèi)Table 1 Classification of Colleges and Universities Data
表1(續(xù))Table 1(Continued)
表1中的分類(lèi)只是數(shù)據(jù)治理過(guò)程中考慮的部分側(cè)重點(diǎn),每一大類(lèi)數(shù)據(jù)中具體的小類(lèi)數(shù)據(jù)及數(shù)據(jù)項(xiàng)不一定考慮周全.但不管什么樣的數(shù)據(jù)治理,筆者都大到數(shù)據(jù)系統(tǒng)小到具體的數(shù)據(jù)元素.治理方法有考慮管理層的體系機(jī)制治理,技術(shù)層面上的應(yīng)用工具方法等.
數(shù)據(jù)治理涉及的范圍廣,可以從頂層體系制度設(shè)計(jì)到數(shù)據(jù)具體運(yùn)行,可以從大數(shù)據(jù)的管理到具體的數(shù)據(jù)元素的管理.無(wú)論從哪個(gè)角度來(lái)看,要做好數(shù)據(jù)治理工作,可以從四個(gè)方面加以考慮.
4.2.1 構(gòu)建科學(xué)的治理機(jī)制體制,確保治理保障有效 國(guó)家針對(duì)推進(jìn)大數(shù)據(jù)工作及數(shù)據(jù)安全問(wèn)題出臺(tái)了《國(guó)務(wù)院關(guān)于印發(fā)促進(jìn)大數(shù)據(jù)發(fā)展行動(dòng)綱要的通知》(國(guó)發(fā)〔2015〕50號(hào)),將出臺(tái)的《中華人民共和國(guó)數(shù)據(jù)安全法(草案)》;在教育方面,相繼出臺(tái)了一系列國(guó)家政策文件,規(guī)劃教育大數(shù)據(jù)的建設(shè),指導(dǎo)教育大數(shù)據(jù)的管理和利用.2016年6月,《教育信息化“十三五”規(guī)劃》提出“制訂出臺(tái)教育數(shù)據(jù)管理辦法”“實(shí)現(xiàn)教育基礎(chǔ)數(shù)據(jù)的有序開(kāi)放與共享”“利用大數(shù)據(jù)提升教育治理能力”;2019年2月,《中國(guó)教育現(xiàn)代化2035》《加快推進(jìn)教育現(xiàn)代化實(shí)施方案(2018—2022年)》做出了面向教育現(xiàn)代化“大力推進(jìn)教育信息化,構(gòu)建基于信息技術(shù)的新型教育教學(xué)模式、教育服務(wù)供給方式以及教育治理模式”的重要部署.
具體落實(shí)到數(shù)據(jù)治理過(guò)程中,必須從兩個(gè)層面來(lái)進(jìn)行分析.筆者在參考文獻(xiàn)[5]提出的模型基礎(chǔ)上進(jìn)行了部分改進(jìn),改進(jìn)后模型如圖1所示.
圖1 數(shù)據(jù)治理管理機(jī)制模型Fig.1 Data Governance Management Mechanism Model
一是從管理層面進(jìn)行管理制度體系建設(shè),這個(gè)體系主要包括管理機(jī)制、管理辦法、操作規(guī)范、考核機(jī)制.具體來(lái)講,第一需要建立完善的管理機(jī)制,形成完備的治理人力、物資、后勤保障體系,如高校應(yīng)該高度重視數(shù)據(jù)治理工作,充分利用現(xiàn)代教育中心、網(wǎng)絡(luò)中心或信息中心現(xiàn)有的團(tuán)隊(duì),加上大數(shù)據(jù)專(zhuān)業(yè)技術(shù)研究隊(duì)伍,建立相應(yīng)的數(shù)據(jù)治理組織團(tuán)隊(duì);第二根據(jù)國(guó)家相關(guān)制度與條例,出臺(tái)相應(yīng)具體的管理方案;第三需要有可執(zhí)行的操作規(guī)范;第四需要對(duì)工作績(jī)效設(shè)置一個(gè)合理的考核評(píng)價(jià)機(jī)制.
二是從具體的數(shù)據(jù)治理技術(shù)層面強(qiáng)化落實(shí).在這個(gè)層面中,主要完成三步曲,即數(shù)據(jù)的采集識(shí)別、數(shù)據(jù)具體的治理工作、有效新數(shù)據(jù)的確認(rèn).在采集識(shí)別階段,主要完成數(shù)據(jù)采集、數(shù)據(jù)識(shí)別與分析、新數(shù)據(jù)標(biāo)準(zhǔn)制定、新數(shù)據(jù)最終標(biāo)準(zhǔn)確認(rèn).在數(shù)據(jù)治理階段主要完成,數(shù)據(jù)的抽取集成、數(shù)據(jù)的質(zhì)量檢測(cè)、數(shù)據(jù)分析與確認(rèn)、數(shù)據(jù)的清洗與轉(zhuǎn)換.
4.2.2 構(gòu)建學(xué)校統(tǒng)一的數(shù)據(jù)標(biāo)準(zhǔn)體系,確保分析維度統(tǒng)一 由現(xiàn)有數(shù)據(jù)可以看出,數(shù)據(jù)相互之間利用率不高,數(shù)據(jù)共享困難,主要還是因?yàn)閿?shù)據(jù)標(biāo)準(zhǔn)不統(tǒng)一,比如一個(gè)學(xué)生基本信息表的數(shù)據(jù)字段,現(xiàn)有的很多系統(tǒng)存在數(shù)據(jù)格式、數(shù)據(jù)類(lèi)型以及數(shù)據(jù)取值范圍不規(guī)范等問(wèn)題,導(dǎo)致數(shù)據(jù)后期使用存在難以交換的難題,從而使數(shù)據(jù)整合以深度挖掘數(shù)據(jù)價(jià)值受到阻礙.建立通用的數(shù)據(jù)標(biāo)準(zhǔn),分析梳理業(yè)務(wù)流程,形成數(shù)據(jù)標(biāo)準(zhǔn)規(guī)范,同時(shí)規(guī)范數(shù)據(jù)管控制度、流程規(guī)范文檔、信息項(xiàng)定義等,可以幫助整個(gè)智慧平臺(tái)提升數(shù)據(jù)標(biāo)準(zhǔn)性和一致性,為數(shù)據(jù)整合交換打下基礎(chǔ).
4.2.3 定期進(jìn)行數(shù)據(jù)過(guò)濾,確保數(shù)據(jù)干凈有用 從理論上講,經(jīng)過(guò)信息處理產(chǎn)生的數(shù)據(jù)在具體的應(yīng)用場(chǎng)景中發(fā)揮效能后,從短期來(lái)看可能這些數(shù)據(jù)就沒(méi)有用處了,但是數(shù)據(jù)通過(guò)數(shù)據(jù)挖掘、大數(shù)據(jù)技術(shù)處理后會(huì)發(fā)現(xiàn)其特有的價(jià)值.現(xiàn)實(shí)中普遍存在數(shù)據(jù)存儲(chǔ)問(wèn)題、數(shù)據(jù)信息不完整等問(wèn)題.對(duì)于數(shù)據(jù)存在的數(shù)據(jù)不完整、準(zhǔn)確率低以及一致性差等問(wèn)題,可通過(guò)數(shù)據(jù)過(guò)濾,過(guò)濾即按照一定的規(guī)則清理“臟數(shù)據(jù)”.根據(jù)業(yè)務(wù)規(guī)則將預(yù)先制定好出現(xiàn)數(shù)據(jù)質(zhì)量問(wèn)題時(shí)的處理規(guī)則放入過(guò)濾庫(kù),利用過(guò)濾工具對(duì)數(shù)據(jù)進(jìn)行過(guò)濾,可以有效提升數(shù)據(jù)質(zhì)量[6].
4.2.4 掌握數(shù)據(jù)治理重點(diǎn)環(huán)節(jié),確保數(shù)據(jù)質(zhì)量提升 判斷一個(gè)數(shù)據(jù)有沒(méi)有用,是在特定的場(chǎng)景中體現(xiàn)出來(lái)的.在大數(shù)據(jù)技術(shù)高度發(fā)展的今天,要保證數(shù)據(jù)治理質(zhì)量,必須從全面性、標(biāo)準(zhǔn)化、共享化、時(shí)效性、安全隱私性五大方面加以明確[4](表2).
表2 數(shù)據(jù)治理目標(biāo)標(biāo)準(zhǔn)屬性表Table 2 Data Governance Target Standard Attribute Table
從表2可以看出,數(shù)據(jù)的共享化和安全隱私性這兩組屬性的矛盾性,此處看似矛盾,實(shí)際上并不矛盾,原因如下:
教育數(shù)據(jù)開(kāi)放指教育領(lǐng)域的數(shù)據(jù)開(kāi)放,是數(shù)據(jù)開(kāi)放的一個(gè)子集,教育數(shù)據(jù)開(kāi)放多以數(shù)據(jù)服務(wù)的形式提供,根據(jù)用戶(hù)需求和數(shù)據(jù)分析結(jié)果,提供數(shù)據(jù)開(kāi)放服務(wù)接口,包括原始記錄數(shù)據(jù)服務(wù)、統(tǒng)計(jì)分析數(shù)據(jù)服務(wù)、公共數(shù)據(jù)服務(wù)和個(gè)性化數(shù)據(jù)服務(wù).數(shù)據(jù)開(kāi)放性是衡量教育數(shù)據(jù)共享程度的指標(biāo),教育數(shù)據(jù)的共享性包括縱向共享、橫向共享和跨界共享.
教育數(shù)據(jù)安全性即指教育數(shù)據(jù)從采集、存儲(chǔ)、分析到使用的整個(gè)過(guò)程中都能保證數(shù)據(jù)是安全可靠的,即不會(huì)遭到破壞或丟失教育數(shù)據(jù).隱私性即指在教育數(shù)據(jù)的整個(gè)使用過(guò)程中,對(duì)數(shù)據(jù)隱私的控制和保護(hù).在教育領(lǐng)域,學(xué)生是教育數(shù)據(jù)最大的來(lái)源主體,也是教育的主要參與者和服務(wù)者,因此研究者關(guān)于隱私權(quán)的討論也更多關(guān)注的學(xué)生的權(quán)利.
構(gòu)建智慧校園的目的就是讓高校數(shù)據(jù)在網(wǎng)上跑動(dòng),便于管理與分析,這就必須將數(shù)據(jù)上網(wǎng),在此過(guò)程中,特別需要注意開(kāi)放數(shù)據(jù)與保密數(shù)據(jù)兩者之間的平衡.針對(duì)高校教育數(shù)據(jù)的治理,數(shù)據(jù)層次范圍、數(shù)據(jù)格式標(biāo)準(zhǔn)以及如何把握好數(shù)據(jù)治理過(guò)程中,涉及到師生信息的開(kāi)放與隱私矛盾平衡,既做到數(shù)據(jù)的有效共享,體現(xiàn)智慧校園價(jià)值,又要能保證師生個(gè)人信息秘密,這些方面都是至關(guān)重要的.只有把這些問(wèn)題一一解決,才能真正達(dá)到數(shù)據(jù)治理的目的.