姜大慶 陳莉莉 史海雄
摘要:高職院校信息化建設(shè)積累了大量的數(shù)據(jù)資產(chǎn),但數(shù)據(jù)質(zhì)量也成為高職院校信息化發(fā)展的瓶頸,需要建立面向全校的數(shù)據(jù)治理體系以有效地提升數(shù)據(jù)質(zhì)量。本文在分析DAMA數(shù)據(jù)治理框架、桑尼爾·索雷斯大數(shù)據(jù)治理框架和我國制定的《數(shù)據(jù)治理白皮書》國際標準研究報告的基礎(chǔ)上,結(jié)合高職院校的特點,從數(shù)據(jù)治理的管理和技術(shù)兩大核心要素出發(fā),提出了一種基于大數(shù)據(jù)的高職院校數(shù)據(jù)治理框架體系,并對該體系主要內(nèi)容及實施方法進行了詳細闡述,希望能為高職院校數(shù)據(jù)治理的實踐提供思路。
關(guān)鍵詞:高職院校;大數(shù)據(jù);數(shù)據(jù)治理;數(shù)據(jù)治理體系
中圖分類號:G647? 文獻標識碼:A? 論文編號:1674-2117(2020)02-0108-05
● 引言
經(jīng)過十多年的信息化建設(shè),很多高職院校積累了大量的與人才培養(yǎng)活動相關(guān)的數(shù)據(jù),在移動互聯(lián)網(wǎng)和云計算等信息技術(shù)飛速發(fā)展和廣泛應用的當下,這些數(shù)據(jù)也表現(xiàn)出明顯的大數(shù)據(jù)特征。但是,由于高職院校辦學規(guī)模小,人員缺乏,技術(shù)力量相對薄弱[1],管理規(guī)范性不強,許多高職院校存在數(shù)據(jù)采集困難,數(shù)據(jù)錯誤、缺失、重復、不規(guī)范、審核困難、共享難度大等諸多問題,這些問題對高職院校開展教學診斷與改進、質(zhì)量評估、績效考核等工作影響很大。因此,筆者認為,有必要通過數(shù)據(jù)治理活動保證數(shù)據(jù)的準確性、一致性、可訪問性和合規(guī)性,為學校師生提供更好的數(shù)據(jù)服務。
國內(nèi)外院校及學者在數(shù)據(jù)治理領(lǐng)域開展了許多研究與實踐。美國麻省理工學院1991年提出了全面數(shù)據(jù)質(zhì)量管理計劃,包括數(shù)據(jù)質(zhì)量的定義、分析和提升三大模塊,其目標是向用戶提供高質(zhì)量的信息產(chǎn)品[2];美國圣母大學提出的數(shù)據(jù)治理模型對數(shù)據(jù)治理的目的、技術(shù)和原則進行了描述[3];李林[4]等根據(jù)高等學校的特點提出數(shù)據(jù)治理的模型、實施方法和步驟;彭雪濤[5]提出美國高校數(shù)據(jù)治理的成功實踐基于數(shù)據(jù)治理保障機制和數(shù)據(jù)治理技術(shù)工具兩個核心要素;趙安新[6]從數(shù)據(jù)融合的視角探討了高校數(shù)據(jù)融合的路徑及其治理框架??梢钥闯觯瑖鴥?nèi)外學者從不同層面和不同角度,結(jié)合技術(shù)實踐和管理創(chuàng)新提出了高校范圍內(nèi)的數(shù)據(jù)治理思路,但針對高職院校信息化建設(shè)過程中數(shù)據(jù)治理體系建設(shè)的研究很少。因此,本文在分析研究國內(nèi)外數(shù)據(jù)治理框架和模型的基礎(chǔ)上,結(jié)合高職院校的特點,提出大數(shù)據(jù)背景下高職院校數(shù)據(jù)治理框架體系,以期為高職院校數(shù)據(jù)治理的研究和實踐提供參考。
● 數(shù)據(jù)治理框架體系研究現(xiàn)狀
國內(nèi)外的研究機構(gòu)和個人提出了一些數(shù)據(jù)治理框架。比較有名的是國際數(shù)據(jù)管理協(xié)會(DAMA)提出的DAMA數(shù)據(jù)治理框架,該框架包括環(huán)境要素子框架和功能子框架兩部分,它闡明了數(shù)據(jù)管理過程中的7個環(huán)境要素與10個功能之間的對應關(guān)系,但該框架所提出的數(shù)據(jù)管理10個功能尚不能全面概括數(shù)據(jù)管理功能[7],特別是當前大數(shù)據(jù)技術(shù)的發(fā)展和應用所要求的大數(shù)據(jù)管理功能等。
我國于2015年在《數(shù)據(jù)治理白皮書》國際標準研究報告中提出了數(shù)據(jù)治理模型和框架。該模型由范圍子框架、原則子框架、實施和評估子框架三個方面組成,分別描述了數(shù)據(jù)治理的治理域、治理準則和實施方法。范圍子框架定義了數(shù)據(jù)治理的范圍和任務,包括主數(shù)據(jù)、大數(shù)據(jù)等九個關(guān)鍵域;原則子框架闡明了數(shù)據(jù)治理應遵守的規(guī)則,包括戰(zhàn)略一致等三個方面;實施和評估子框架闡述了數(shù)據(jù)治理的實施方法,包括實施生命周期等四個方面。[8]該數(shù)據(jù)治理模型和框架對高職院校數(shù)據(jù)治理框架體系的建立具有很強的指導意義。
在大數(shù)據(jù)治理領(lǐng)域,桑尼爾·索雷斯提出的大數(shù)據(jù)治理框架具有較強的借鑒意義[9],該框架面向各類不同的大數(shù)據(jù)使用場景,從產(chǎn)業(yè)場景、大數(shù)據(jù)類型和信息治理準則等三個方面提出大數(shù)據(jù)治理內(nèi)容。[10]對于高職院校來說,與此框架相對應的產(chǎn)業(yè)功能場景為公共事業(yè),大數(shù)據(jù)類別覆蓋全部,即大體量的一卡通消費數(shù)據(jù),宿舍管理、班級考勤等M2M數(shù)據(jù),在線學習網(wǎng)站上的學習行為數(shù)據(jù)以及課程、成績等人工生成的數(shù)據(jù);信息治理包括組織、元數(shù)據(jù)、數(shù)據(jù)質(zhì)量等內(nèi)容。因此,該理論體系對高職院校數(shù)據(jù)治理體系研究工作具有借鑒和參考價值。
上述數(shù)據(jù)治理的通用框架為高職院校建立各自的數(shù)據(jù)治理框架提供了思路,高職院校可以根據(jù)自身信息化建設(shè)的規(guī)模、階段、需求等,制訂個性化的治理框架體系,更好地把控數(shù)據(jù)質(zhì)量,提升數(shù)據(jù)的應用價值。
● 高職院校數(shù)據(jù)治理體系的構(gòu)建與實踐
1.高職院校數(shù)據(jù)管理方面存在的問題
根據(jù)對高職院校信息化建設(shè)現(xiàn)狀的調(diào)查,目前許多高職院校在數(shù)據(jù)管理方面存在以下問題。
①信息系統(tǒng)由各業(yè)務部門牽頭分散建設(shè),缺乏統(tǒng)一的數(shù)據(jù)規(guī)劃和數(shù)據(jù)標準。例如,學生數(shù)據(jù)、人事數(shù)據(jù)、科研數(shù)據(jù)、資產(chǎn)數(shù)據(jù)等,被分散存儲在不同的信息系統(tǒng)中,數(shù)據(jù)關(guān)聯(lián)性弱,導致出現(xiàn)數(shù)據(jù)不一致、重復、不規(guī)范、無法共享等問題。
②數(shù)據(jù)管理職責不健全,權(quán)責不明確。高職院校信息系統(tǒng)管理職能往往分散在各部門,而各部門關(guān)注數(shù)據(jù)的角度不一樣,信息技術(shù)部門關(guān)注對信息系統(tǒng)的運行管理和維護,而業(yè)務部門則只關(guān)注業(yè)務管理范圍內(nèi)的數(shù)據(jù),跨部門的數(shù)據(jù)質(zhì)量溝通機制尚不完善,缺少一個部門或機構(gòu)從全校的視角對數(shù)據(jù)的質(zhì)量進行監(jiān)督和控制。
③學校主數(shù)據(jù)質(zhì)量不高。由于學校信息化和管理業(yè)務沒有充分融合,核心的實體數(shù)據(jù)(如學生、教師、資產(chǎn)、設(shè)備等)不是通過統(tǒng)一的業(yè)務管理流程在系統(tǒng)間維護,無法保障主數(shù)據(jù)在整個業(yè)務范圍內(nèi)保持一致、完整和共享使用。
④數(shù)據(jù)全生命周期管理缺失。多數(shù)高職院校對數(shù)據(jù)生命周期管理流程不完善、不規(guī)范,缺乏對數(shù)據(jù)全生命周期進行管理的機制和技術(shù)支撐。
⑤大數(shù)據(jù)沒有得到深度的開發(fā)和應用。多數(shù)高職院校內(nèi)部沒有專門對學生消費數(shù)據(jù)、學生在線教學平臺上的學習行為數(shù)據(jù)進行采集、整理和分析,挖掘出有用的信息,從而支撐學校的決策。
2.高職院校數(shù)據(jù)治理體系的構(gòu)建及實施方法
數(shù)據(jù)治理是管理與技術(shù)的有機結(jié)合。[11]根據(jù)上述國內(nèi)外常見的數(shù)據(jù)治理框架和模型的研究,結(jié)合對高職院校數(shù)據(jù)管理方面存在的問題分析,本文提出大數(shù)據(jù)背景下“金字塔”型高職院校數(shù)據(jù)治理框架體系,包括目標域子框架、機制域子框架和關(guān)鍵域子框架三部分(如下頁圖1)。
在該數(shù)據(jù)治理框架體系中,目標域子框架位于金字塔的塔尖,描述了學校業(yè)務發(fā)展目標、IT治理規(guī)劃以及數(shù)據(jù)治理相關(guān)的發(fā)展規(guī)劃;機制域子框架位于金字塔中層,起到承上啟下的作用,描述了推進數(shù)據(jù)治理工作實現(xiàn)治理目標的保障機制,包括組織機構(gòu)等四個方面;關(guān)鍵域子框架位于金字塔底層,描述了高職院校數(shù)據(jù)治理應重點關(guān)注的領(lǐng)域,是高職院校數(shù)據(jù)治理的具體對象、技術(shù)與行動方向,包括主數(shù)據(jù)、大數(shù)據(jù)等八個既有機結(jié)合又相互支撐的內(nèi)容,分為基礎(chǔ)層(業(yè)務流程整合、數(shù)據(jù)生命周期)、支撐層(元數(shù)據(jù)、數(shù)據(jù)質(zhì)量)和應用層(主數(shù)據(jù)、大數(shù)據(jù))三個層次,而對數(shù)據(jù)安全和數(shù)據(jù)標準的管理對三個層次均產(chǎn)生影響。本文重點介紹該治理體系中的組織機構(gòu)及主數(shù)據(jù)、大數(shù)據(jù)等五個主要治理對象的內(nèi)涵及實施方法。
(1)組織機構(gòu)及職責劃分
通過建立組織機構(gòu),明確成員的角色和權(quán)限,保障數(shù)據(jù)治理工作的有效開展。筆者借鑒美國高校的經(jīng)驗[12],結(jié)合大多數(shù)高職院校的工作實際,從決策、統(tǒng)籌和執(zhí)行三層設(shè)計高職院校數(shù)據(jù)治理權(quán)責體系。決策層為學校網(wǎng)絡安全與信息化領(lǐng)導小組/數(shù)據(jù)治理委員會,由學校高層領(lǐng)導組成,總負責人一般為學校分管信息化的校領(lǐng)導或?qū)W校首席信息官;統(tǒng)籌層為數(shù)據(jù)治理工作組,由業(yè)務部門和信息中心負責人組成;執(zhí)行層由各業(yè)務部門數(shù)據(jù)責任人、信息中心數(shù)據(jù)管理員和數(shù)據(jù)集成開發(fā)人員組成。
(2)主數(shù)據(jù)管理與業(yè)務流程梳理
主數(shù)據(jù)是指具有共享性的基礎(chǔ)數(shù)據(jù)。高職院校各業(yè)務系統(tǒng)存儲了大量的人員、課程、設(shè)備、科研項目等實體數(shù)據(jù),這些數(shù)據(jù)相對穩(wěn)定,往往要跨部門、跨系統(tǒng)、跨業(yè)務流程共享使用,筆者將其稱之為主數(shù)據(jù)。主數(shù)據(jù)管理的目標是從學校的多個業(yè)務系統(tǒng)中抽取主數(shù)據(jù)并進行整合、治理,然后以提供服務的方式把主數(shù)據(jù)分發(fā)給其他業(yè)務系統(tǒng)使用。[13]
主數(shù)據(jù)管理的關(guān)鍵步驟是進行業(yè)務流程梳理。業(yè)務流程的梳理通常包括數(shù)據(jù)建模、數(shù)據(jù)分類和數(shù)據(jù)實體屬性梳理三個步驟。[14]數(shù)據(jù)建模是根據(jù)業(yè)務流程識別數(shù)據(jù)實體,按照數(shù)據(jù)實體的聯(lián)系進行數(shù)據(jù)的分析,建立數(shù)據(jù)模型;數(shù)據(jù)分類則進一步對業(yè)務流程上的各階段的數(shù)據(jù)進行分類、歸并,以創(chuàng)建可靠、唯一的數(shù)據(jù)來源,保障今后數(shù)據(jù)規(guī)范化的開發(fā)和應用;將每個流程上的環(huán)節(jié)相應的業(yè)務活動所產(chǎn)生的信息形成數(shù)據(jù)表,表中的每個信息項就是數(shù)據(jù)實體屬性。經(jīng)過上述三個步驟,業(yè)務流程和數(shù)據(jù)就得到較為全面的梳理。筆者以某高職院校學生主數(shù)據(jù)管理的業(yè)務流程為參考,設(shè)計了如上頁圖2所示的流程圖。基于此流程圖可把學生主數(shù)據(jù)從源系統(tǒng)中抽取成為權(quán)威數(shù)據(jù)源,并保證在持續(xù)使用和維護這些數(shù)據(jù)的應用中的唯一性。
(3)數(shù)據(jù)質(zhì)量管理
戴明質(zhì)量環(huán)[15]為數(shù)據(jù)質(zhì)量管理提供了一種通用方法,即用于解決問題的“計劃—實施—檢查—行動”模型。有鑒于此,高職院校的數(shù)據(jù)質(zhì)量管理可分計劃、實施、監(jiān)控、行動四個階段進行。計劃階段,數(shù)據(jù)治理工作組定義數(shù)據(jù)質(zhì)量的業(yè)務需求、識別數(shù)據(jù)質(zhì)量關(guān)鍵維度以及定義保障高水平數(shù)據(jù)質(zhì)量的關(guān)鍵業(yè)務規(guī)則,這里的數(shù)據(jù)質(zhì)量關(guān)鍵維度的定義可參考數(shù)據(jù)質(zhì)量評估框架DQAF(Data Quality Assessment Framework),該框架從數(shù)據(jù)質(zhì)量的完備性、及時性、有效性、一致性和完整性五個維度來進行數(shù)據(jù)質(zhì)量評估和提升[16];實施階段,剖析和檢查數(shù)據(jù),對數(shù)據(jù)缺失、重復、不一致等數(shù)據(jù)質(zhì)量問題進行確認,進行業(yè)務流程的校正;監(jiān)控階段,持續(xù)度量和監(jiān)控數(shù)據(jù)質(zhì)量水平,如果數(shù)據(jù)質(zhì)量下降到可接受的范圍以外,就要求數(shù)據(jù)管理員采取行動;行動階段,執(zhí)行數(shù)據(jù)質(zhì)量問題管理的解決方案,清洗和校正數(shù)據(jù)質(zhì)量缺陷,提升數(shù)據(jù)質(zhì)量,滿足業(yè)務預期。
上述四個階段是數(shù)據(jù)質(zhì)量管理的一個周期。當出現(xiàn)了新的數(shù)據(jù)集或?qū)σ延袛?shù)據(jù)集提出新的數(shù)據(jù)質(zhì)量需求時,就進入一個新的數(shù)據(jù)質(zhì)量管理周期。
(4)數(shù)據(jù)生命周期管理
數(shù)據(jù)是有生命周期的,如高職院校學生基礎(chǔ)數(shù)據(jù)的生命周期一般為三年,而數(shù)據(jù)中心的容量是有限的,不可能保存所有的基礎(chǔ)數(shù)據(jù),因此就存在數(shù)據(jù)生命周期管理的問題。根據(jù)數(shù)據(jù)生命周期POSMAD理論,數(shù)據(jù)生命周期包括數(shù)據(jù)規(guī)劃、數(shù)據(jù)獲取、數(shù)據(jù)存儲與共享、數(shù)據(jù)維護、數(shù)據(jù)應用和數(shù)據(jù)報廢這六個反復迭代的階段。[17]
高職院校在數(shù)據(jù)生命管理周期的數(shù)據(jù)規(guī)劃階段應做好數(shù)據(jù)概念及邏輯模型規(guī)劃、數(shù)據(jù)標準的制訂以及數(shù)據(jù)庫設(shè)計等數(shù)據(jù)資源的準備工作。數(shù)據(jù)獲取階段應采取措施保證數(shù)據(jù)的準確性和完整性,對于手工流程中產(chǎn)生的數(shù)據(jù),如學生成績、教師課務數(shù)據(jù)等,應通過復查、抽檢等手段保證其正確性。數(shù)據(jù)存儲階段,除了關(guān)注保密性和完整性之外,更要關(guān)注數(shù)據(jù)的可用性,對諸如校園一卡通消費數(shù)據(jù)、學生信息、教師檔案等敏感數(shù)據(jù)進行分級存儲,定期測試存儲備份的數(shù)據(jù),確保其可訪問且數(shù)據(jù)完整。數(shù)據(jù)維護階段對數(shù)據(jù)進行更新、解析、清洗、轉(zhuǎn)換、合并等維護操作。數(shù)據(jù)應用階段包括對數(shù)據(jù)的查詢、處理和輸出等,該階段要防止對數(shù)據(jù)的各種操作和傳輸對數(shù)據(jù)庫中的數(shù)據(jù)造成損壞。數(shù)據(jù)報廢階段應合理摒棄基于規(guī)制和業(yè)務需求考量不再需要的數(shù)據(jù),要明確數(shù)據(jù)刪除的流程,采用必要的工具,同時還應有完整的記錄。
(5)大數(shù)據(jù)管理
高職院校大數(shù)據(jù)治理包括大數(shù)據(jù)分析平臺的構(gòu)建、業(yè)務流程的重組、元數(shù)據(jù)與主數(shù)據(jù)的管理,以及大數(shù)據(jù)的挖掘應用等諸多方面。高職院校數(shù)據(jù)治理委員會應吸納專門從事大數(shù)據(jù)研究的人員,并明確角色和職責。大數(shù)據(jù)管理的關(guān)鍵環(huán)節(jié)是識別大數(shù)據(jù)相關(guān)的核心業(yè)務流程,然后針對業(yè)務流程中的關(guān)鍵步驟,制訂大數(shù)據(jù)治理策略和業(yè)務規(guī)則,將大數(shù)據(jù)與主數(shù)據(jù)管理進行整合;對于學校的敏感數(shù)據(jù)要進行分級存儲,并使用合理的策略和工具進行保護。此外,大數(shù)據(jù)治理還需要對數(shù)據(jù)備份政策、工具進行平衡,以降低大數(shù)據(jù)存儲成本,提高應用績效。
大數(shù)據(jù)治理功能強調(diào)發(fā)揮數(shù)據(jù)的應用價值,因而更關(guān)注將業(yè)務目標映射到數(shù)據(jù)分析,包括數(shù)據(jù)分類和數(shù)據(jù)建模。高職院校應基于大數(shù)據(jù)技術(shù)標準體系,通過對各種類型的結(jié)構(gòu)化、半結(jié)構(gòu)化、非結(jié)構(gòu)化數(shù)據(jù)信息的采集、預處理、分析處理以及存儲等相關(guān)操作,將原來分散于不同應用系統(tǒng)中的數(shù)據(jù)與業(yè)務流程整合起來,構(gòu)建一個統(tǒng)一、規(guī)范、全面的公共數(shù)據(jù)庫或大數(shù)據(jù)中心,在此基礎(chǔ)上建立“校園大數(shù)據(jù)分析平臺”來實現(xiàn)統(tǒng)一的業(yè)務規(guī)劃,消除信息孤島,滿足學?;诖髷?shù)據(jù)的科學決策、精準管理、智慧服務,提升學校的綜合治理能力。
● 結(jié)論與展望
在大數(shù)據(jù)背景下,高職院校數(shù)據(jù)治理的目的是既要保證數(shù)據(jù)的準確性、一致性、可訪問性和合規(guī)性,同時要在規(guī)范業(yè)務流程、優(yōu)化教學策略、提升教學質(zhì)量、輔助科學決策等方面充分發(fā)揮數(shù)據(jù)的應用價值。基于數(shù)據(jù)治理管理和技術(shù)兩大核心要素所構(gòu)建的高職院校數(shù)據(jù)治理體系,可以幫助高職院校規(guī)劃大數(shù)據(jù)背景下的數(shù)據(jù)治理策略,明確數(shù)據(jù)治理權(quán)責體系,利用信息技術(shù)保障高職院校數(shù)據(jù)治理工作,提升數(shù)據(jù)資產(chǎn)的管理和應用水平。
數(shù)據(jù)治理是一個長期的、持續(xù)推進的過程,需要結(jié)合高職院校的實際業(yè)務以及數(shù)據(jù)治理進程的不同時期適時調(diào)整和更新數(shù)據(jù)治理策略。隨著高職院校大數(shù)據(jù)的發(fā)展和應用,未來的高職院校數(shù)據(jù)治理標準必將融合大數(shù)據(jù)治理的需求,借助先進的大數(shù)據(jù)分析平臺和工具,以大數(shù)據(jù)的深度挖掘、可視化和應用推進高職院校的數(shù)據(jù)治理工作,真正發(fā)揮大數(shù)據(jù)在高職院校管理決策和教學診斷與改進中的巨大價值。
參考文獻:
[1]喻民權(quán),劉穎,趙研.數(shù)據(jù)治理對高職院校信息化建設(shè)的影響力探究[J].北京經(jīng)濟管理職業(yè)學院學報,2018,33(02):46-50+80.
[2]ZHU H W,MADNICK S E,LEE Y W,et,al.Data and information quality research:its evolution and future[DB/OL].[2016-10-24].http://mitiq.mit.edu/Documents/Publications/Papers/2012/Madnick_2012_Data%20and%20Information%20Qualiyt.pdf.
[3]CHAPPLE M.Speaking the same language:building a data governance program for institutional impact[EB/OL].[2016-10-24].http://er.educause.edu/articles/2013/12/speaking-the-same-language-building-a-data-governance-program-for-institutional-impact.
[4][13][16]李林.高校信息化數(shù)據(jù)治理探討[J].中國教育信息化,2017(09):66-68.
[5][11][12]彭雪濤.美國高校數(shù)據(jù)治理及其借鑒[J].教育信息化,2017(06):76-80.
[6]趙安新.高校數(shù)據(jù)融合路徑及其治理框架的探討[J].中國教育信息化,2016(23):75-77.
[7]劉桂鋒,錢錦琳,盧章平.國內(nèi)外數(shù)據(jù)治理研究進展:內(nèi)涵、要素、模型與框架[J].圖書情報工作,2017,61(21):137-144.
[8]張明英,潘蓉.《數(shù)據(jù)治理白皮書》國際標準研究報告要點解讀[J].信息技術(shù)與標準化,2015(06):54-57.
[9]曾凱.大數(shù)據(jù)治理框架體系研究[J].信息化建設(shè),2016(11):1-2.
[10][14][17]劉潔麗.H電力公司大數(shù)據(jù)治理體系構(gòu)建及實施研究[D].成都.電子科技大學,2017.
[15]DAMA International.DAMA數(shù)據(jù)管理知識體系指南[M].馬歡,等.譯.北京:清華大學出版社,2012:214-215.
第一作者簡介:姜大慶(1969.9—),男,江蘇如皋人,教授,工學碩士,主要研究方向為計算機網(wǎng)絡、數(shù)據(jù)挖掘、教育信息化。
基金項目:2018年江蘇省教育信息化研究資助課題“大數(shù)據(jù)背景下高職院校數(shù)據(jù)治理體系構(gòu)建與實踐研究”(20180003)。