摘 要 隨著數(shù)據(jù)呈現(xiàn)爆發(fā)式增長的態(tài)勢,如何對這些海量數(shù)據(jù)進行統(tǒng)一管理,進而形成有效的數(shù)據(jù)治理體系,成為前所未有的挑戰(zhàn)。以江蘇農(nóng)林職業(yè)技術學院的數(shù)據(jù)中臺建設為例,梳理數(shù)據(jù)治理的思路及治理路徑,通過全維度的數(shù)據(jù)采集、集中和治理形成標準統(tǒng)一、分類清晰、質(zhì)量可信的數(shù)據(jù)倉庫和數(shù)據(jù)集市,推動學校治理體系和治理能力現(xiàn)代化,全面推進學校智慧校園的建設。
關鍵詞 智慧校園;數(shù)據(jù);數(shù)據(jù)治理;數(shù)據(jù)中臺
中圖分類號:G717 文獻標識碼:B
文章編號:1671-489X(2024)17-00-05
0 引言
2023年3月,中共中央、國務院印發(fā)《黨和國家機構改革方案》,提出組建國家數(shù)據(jù)局,負責協(xié)調(diào)推進數(shù)據(jù)基礎制度建設,統(tǒng)籌數(shù)據(jù)資源整合共享和開發(fā)利用,凸顯了國家從戰(zhàn)略層面對數(shù)據(jù)要素的重視。伴隨著物聯(lián)網(wǎng)、云計算等新一代信息技術的發(fā)展,高校迎來了智慧校園建設的新發(fā)展階段。目前,高校所產(chǎn)生和積累的數(shù)據(jù)呈現(xiàn)爆發(fā)式增長的趨勢。在過去的幾十年里,高校內(nèi)部的數(shù)據(jù)管理和利用往往是分散、孤立的,各個部門和系統(tǒng)之間缺乏協(xié)同和集成,這導致了數(shù)據(jù)質(zhì)量低、數(shù)據(jù)孤島現(xiàn)象嚴重、數(shù)據(jù)安全和數(shù)據(jù)隱私無法保證、數(shù)據(jù)利用效率低等問題。學者普遍認可數(shù)據(jù)治理對高??茖W決策、高效管理、創(chuàng)新服務和迅速應變的重要作用[1],
所以高校的數(shù)據(jù)治理工作勢在必行。
國外高校數(shù)據(jù)治理研究已經(jīng)取得了一些重要成果,例如,DAMA-DMBOK(Data Management Body of Knowledge)框架和MIT的TDQM(Total Data Quality Management)模型,這些框架和模型提供了數(shù)據(jù)治理的基本原則、流程和組織結構,幫助高校建立系統(tǒng)化的數(shù)據(jù)治理策略和實踐;而Harvard Dataverse和UC Berkeley’s D-Lab則構建了數(shù)據(jù)共享平臺,促進了高校之間和跨學科領域的數(shù)據(jù)協(xié)作。近年來,國內(nèi)高職院校對于數(shù)據(jù)治理的重視程度日益提升,相關研究也逐漸增多,學界已有研究主要集中在高校數(shù)據(jù)治理模型和高校數(shù)據(jù)治理路徑的探討上,宋蘇軒等[2]、周煒[3]從數(shù)據(jù)治理管理體系、優(yōu)化路徑等方面就高校如何高效實施數(shù)據(jù)治理進行了探討;曹姣等[4]、胡水星等[5]從數(shù)據(jù)與信息、策略與機制、管理與決策、技術與平臺等方面研究了數(shù)據(jù)治理體系框架。
雖然已有數(shù)據(jù)治理的相關研究較為豐富,但各高校還需要根據(jù)自身情況進行因地制宜的探索和實踐,不斷改進和提升,例如,南京理工大學、長沙民政職業(yè)技術學院的數(shù)據(jù)服務體系就是在多期滾動的數(shù)據(jù)治理中構建并完善的。大多數(shù)高校已經(jīng)構建了數(shù)字校園時代的“三大平臺”(統(tǒng)一身份認證平臺、統(tǒng)一信息門戶和數(shù)據(jù)中心),雖然部分數(shù)據(jù)實現(xiàn)了整合,但學校的校級標準沒有形成或已形成的校級標準執(zhí)行不徹底、數(shù)據(jù)管理相關制度缺失,依然存在數(shù)據(jù)孤島現(xiàn)象無法消除、數(shù)據(jù)職責邊界不清、來源不明、數(shù)據(jù)無人維護等問題;這些現(xiàn)狀嚴重阻礙了學校的數(shù)字化轉型。江蘇農(nóng)林職業(yè)技術學院圍繞已有的各類業(yè)務系統(tǒng)以及現(xiàn)有平臺存儲的各類數(shù)據(jù)源進行全量校本數(shù)據(jù)中心建設,開展數(shù)據(jù)治理,目標是實現(xiàn)“一數(shù)一源”和清晰的數(shù)據(jù)資產(chǎn),打造數(shù)字化技術賦能的數(shù)據(jù)治理新生態(tài),建成校園數(shù)據(jù)大腦,推動學校數(shù)字化轉型。
1kT+JxsUmBS9jc6mBSrfpwmCfsGYz+ptUwX1R8SLuZZM= 建設思路
根據(jù)“數(shù)據(jù)從業(yè)務中來,到業(yè)務中去,服務業(yè)務需求”的建設思路,學校將數(shù)據(jù)流轉劃分為“業(yè)務數(shù)據(jù)化、數(shù)據(jù)資產(chǎn)化、資產(chǎn)服務化、服務業(yè)務化”四個環(huán)節(jié),形成有機閉環(huán),支撐各類創(chuàng)新業(yè)務開展。在具體操作上,采用“自下而上”與“自上而下”相結合的雙向融合治理模式,既考慮數(shù)據(jù)底座建設視角,又兼顧業(yè)務需求,構建學校數(shù)據(jù)治理體系,夯實數(shù)據(jù)基座,聚焦業(yè)務場景,解決實際問題,發(fā)揮數(shù)據(jù)的最大價值。
2 建設路徑
學校按照“搭建平臺→梳理數(shù)據(jù)→校級數(shù)據(jù)標準制定→匯聚數(shù)據(jù)→建設場景化專題庫→資源開放”的路徑開展數(shù)據(jù)治理工作,具體做法如下。
2.1 搭建平臺
依托學校大數(shù)據(jù)中臺能力,通過平臺的智能化數(shù)據(jù)管理能力進行數(shù)據(jù)治理。學校數(shù)據(jù)中臺架構如圖1所示。
2.2 梳理數(shù)據(jù)
在數(shù)據(jù)治理初期,通過走訪調(diào)研,對學校的數(shù)據(jù)資產(chǎn)進行詳細的梳理,了解數(shù)據(jù)的來源、存儲方式、使用范圍以及與各個部門或院系業(yè)務系統(tǒng)的對應關系。調(diào)研的內(nèi)容包括業(yè)務部門數(shù)據(jù)現(xiàn)狀,本部門產(chǎn)生的權威數(shù)據(jù),是否有相關數(shù)據(jù)字典,對外提供數(shù)據(jù)面臨的問題,現(xiàn)階段發(fā)現(xiàn)的數(shù)據(jù)質(zhì)量問題,現(xiàn)有系統(tǒng)哪些代碼、元數(shù)據(jù)可以采集引用為校級標準等,最終形成各部門數(shù)據(jù)調(diào)研報告,并理清數(shù)據(jù)源頭、供需關系,明確數(shù)據(jù)治理范圍,形成數(shù)據(jù)UC矩陣,通過UC矩陣表來記錄數(shù)據(jù)項與來源部門的對應關系,其中,U(USE) 表示使用方,C(CREATE)表示生產(chǎn)方。例如,學生基本信息數(shù)據(jù)來源于教務處,則教務處應標為C,其他使用部門標為U。
2.3 校級數(shù)據(jù)標準制定
教育部2012版信息標準(JY/T 1006—2012,以下簡稱部標)確立了高等學校管理信息的基本體系結構、數(shù)據(jù)元素的元數(shù)據(jù)結構,規(guī)定了高等學校管理數(shù)據(jù)元素。學校在建立數(shù)據(jù)標準體系時,以最小成本原則為導向,采取漸進式改革方式,參考學校當前使用的業(yè)務分類和代碼標準,利用現(xiàn)有資源最大限度兼容現(xiàn)狀,通過迭代完善逐步提升標準水平,形成符合學校實際業(yè)務需求的校級標準。具體優(yōu)化內(nèi)容如下。
2.3.1 擴展命名規(guī)范
例如,部標中定義的數(shù)據(jù)對象包含表、字段、代碼集,在落地校標時需要在此基礎上擴展數(shù)據(jù)開發(fā)、過程管理、接口管理等命名規(guī)范。如ETL接口、任務、索引、序列、過程、函數(shù)等,并將這些命名規(guī)范納入數(shù)據(jù)開發(fā)規(guī)范,以實現(xiàn)對數(shù)據(jù)開發(fā)進行規(guī)范化管理的目標。
2.3.2 代碼集的優(yōu)化
校標在部標代碼集的基礎上需要擴展學校相關屬性的代碼表,例如,教務系統(tǒng)使用的學期代碼0代表秋季學期,1代表春季學期,而校標參考JY/T 1001—2012 中的學期代碼,1代表秋季學期,2代表春季學期,確定使用部標代碼集作為學校標準,通過建立兩個代碼集的映射關系,供教務系統(tǒng)及其他使用了學期代碼的系統(tǒng)進行數(shù)據(jù)轉換。
2.3.3 補充新標準
因為部標的普適性,需要在部標的基礎上根據(jù)學校特色擴展新的標準內(nèi)容,如黨建思政數(shù)據(jù)子集、服務管理數(shù)據(jù)子集和日志數(shù)據(jù)標準等。根據(jù)走訪調(diào)研的結果,確定學校的數(shù)據(jù)標準中涉及的數(shù)據(jù)主題域包括9個分類,見表1。
2.4 匯集數(shù)據(jù)
匯集數(shù)據(jù)又稱數(shù)據(jù)采集,共分為三種:業(yè)務系統(tǒng)數(shù)據(jù)采集、線下電子表格數(shù)據(jù)采集和日志數(shù)據(jù)的采集。通常數(shù)據(jù)按如圖2所示的流程采集入庫。
2.4.1 數(shù)據(jù)識別和采集映射
數(shù)據(jù)識別是指通過業(yè)務系統(tǒng)提供的數(shù)據(jù)字典的指引,對原始數(shù)據(jù)進行識別理解,從中挑選出有效的數(shù)據(jù)(即校級數(shù)據(jù)標準所對應的數(shù)據(jù)范圍),進行相應的標注:是不是主數(shù)據(jù)、是不是關鍵過程數(shù)據(jù)、備注等。數(shù)據(jù)識別完成后,再根據(jù)校級數(shù)據(jù)標準中建立的表與表、字段與字段之間的映射關系通過配置ETL接口的方式,將原始數(shù)據(jù)采集為目標數(shù)據(jù)。
2.4.2 元數(shù)據(jù)標識
元數(shù)據(jù)是描述數(shù)據(jù)本身的信息,用來解釋和理解數(shù)據(jù)的含義、結構、格式和其他屬性。為了滿足學校數(shù)據(jù)互聯(lián)互通的需求以及確定數(shù)據(jù)來源、明確管理責權,在數(shù)據(jù)治理階段,將采集到的元數(shù)據(jù)進行標識,從而該字段在流轉過程中的位置可以清晰掌握,今后當需要使用數(shù)據(jù)或發(fā)現(xiàn)數(shù)據(jù)有問題時,能夠準確定位到對應的部門、崗位,以及對應的MIS業(yè)務系統(tǒng)、數(shù)據(jù)庫表、字段等。
2.4.3 數(shù)據(jù)質(zhì)量檢測
數(shù)據(jù)采集識別完畢后,需要進行數(shù)據(jù)質(zhì)量檢查。全面、及時地暴露已有數(shù)據(jù)的質(zhì)量問題是數(shù)據(jù)后期治理的重要依據(jù)。目前學校對于數(shù)據(jù)質(zhì)量檢測的主要定義為數(shù)據(jù)在非空性、唯一性、值域有效性、枚舉有效性、關聯(lián)一致性、正則規(guī)則這些方面的考慮,該過程通過學校采購的數(shù)據(jù)中臺的數(shù)據(jù)質(zhì)量管理模塊完成操作。數(shù)據(jù)質(zhì)量檢查的步驟如下:
1)配置質(zhì)量規(guī)則,例如非空性原則,說明該字段不允許為空,唯一性原則說明該字段值不允許與其他字段值相同;
2)在設置了數(shù)據(jù)質(zhì)量檢驗規(guī)則之后,將質(zhì)量規(guī)則綁定到對應字段上(一個字段可以同時綁定多個規(guī)則,根據(jù)字段的業(yè)務特性決定),然后按照規(guī)則選擇數(shù)據(jù)字段進行規(guī)則檢驗。例如,年齡字段需要綁定對應的值域規(guī)則(0~100),電話號碼字段需要綁定正則規(guī)則等;
3)執(zhí)行質(zhì)量檢查,輸出質(zhì)量檢測報告;
4)通過數(shù)據(jù)質(zhì)量規(guī)則定義功能,結合數(shù)據(jù)質(zhì)量報告功能,深度挖掘當前在數(shù)據(jù)層8J8yVk3Bzf5oGtUvAhbDnA==面需要改進的部分,并按照數(shù)據(jù)管理手段督促對應的數(shù)據(jù)負責人及時整改。
2.4.4 數(shù)據(jù)清洗
通過對數(shù)據(jù)進行質(zhì)量檢測,可以發(fā)現(xiàn)數(shù)據(jù)中存在的大部分結構性和小部分內(nèi)容性問題點,通過數(shù)據(jù)清洗轉換的手段可以提升數(shù)據(jù)質(zhì)量,挖掘數(shù)據(jù)內(nèi)在價值。而數(shù)據(jù)清洗又包括結構化數(shù)據(jù)清洗和非結構化清洗。
1)結構化數(shù)據(jù)清洗。結構化數(shù)據(jù)主要指來自學校各業(yè)務系統(tǒng)和各種Excel報表提供的能夠以二維表形式存在的數(shù)據(jù)。
如圖3所示,數(shù)據(jù)清洗主要是對原始數(shù)據(jù)中存在的明顯錯誤進行識別和處理,包括遺漏值處理、噪聲數(shù)據(jù)處理、不一致數(shù)據(jù)處理等內(nèi)容。對于處理遺漏值的方法,按照處理主體的不同,可以分為人工處理方法和自動處理方法。目前被認定為噪聲數(shù)據(jù)的主要是錯誤數(shù)據(jù)和重復數(shù)據(jù),與數(shù)據(jù)遺漏類似。噪聲數(shù)據(jù)也是真實數(shù)據(jù)中經(jīng)常出現(xiàn)的問題,可分為內(nèi)噪聲數(shù)據(jù)和外噪聲數(shù)據(jù)。一般來說,內(nèi)噪聲數(shù)據(jù)很難辨識,更不容易被修正。對于外噪聲數(shù)據(jù),一般情況下可根據(jù)整體數(shù)據(jù)的分布來辨識,通過分箱方法、人工智能法、人機結合法進行識別和處理。解決數(shù)據(jù)不一致性,主要是確認各類數(shù)據(jù)的權威源頭,通過權威數(shù)據(jù)源頭來控制其對于各個共享點的數(shù)據(jù)同步和更新,要做到數(shù)據(jù)在使用中“要么都對,要么都錯”。最后通過ETL工具或數(shù)據(jù)總線集成到統(tǒng)一的數(shù)據(jù)存儲庫,在此過程中完成數(shù)據(jù)的同步和一部分數(shù)據(jù)的清洗轉換。這一工作由學校采購的數(shù)據(jù)集成平臺完成,提供數(shù)據(jù)集成資源展示,集中展示已配置到?jīng)Q策支持系統(tǒng)的各種數(shù)據(jù)源的各類信息,包括數(shù)據(jù)源的載體形式、連接方式、應用場景、數(shù)據(jù)規(guī)模、同步頻率等信息,以及數(shù)據(jù)采集方式、數(shù)據(jù)集成相關統(tǒng)計信息(包括集成規(guī)模、集成數(shù)據(jù)源、集成表總數(shù)、數(shù)據(jù)模型總數(shù)、集成任務總數(shù)等),還提供全面的運行檢測并記錄日志數(shù)據(jù),當天任務的集成狀態(tài),系統(tǒng)可以自定義集成任務狀態(tài)列表,并通過圖表顯示運行狀態(tài)。最后,經(jīng)過數(shù)據(jù)轉換后,進入數(shù)據(jù)中心庫。
2)非結構化數(shù)據(jù)集成。除了來自學校各業(yè)務系統(tǒng)和Excel表格中的數(shù)據(jù),學校的網(wǎng)絡設備和系統(tǒng)、安全、網(wǎng)絡行為等設備每天也產(chǎn)生大量的日志數(shù)據(jù),這些數(shù)據(jù)除了體量大之外,還有一個特點就是結構雜亂無章,因此需要采用對應的解析將其進行從半結構化到結構化的處理。
日志數(shù)據(jù)解析的核心就是格式化。對于標準化程度不高的日志采用正則表達式進行切分,生成以固定分隔符‘|@!-|’區(qū)分的日志文本;對于標準化程度較高的日志,即本身嚴格按照一定分隔符(例如/ | ,等)區(qū)分的,則直接進行比對替換。以Nginx日志為例,解析模板如下:
(正則表達式)^(?<remote>[^ ]*) (?<host>[^ ]*) (?<requser>[^ ]*) \[(?<reqtime>[^\]]*)\] "(?<method>\S+)(?: +(?<path>[^\"]*?)(?: +\S*)?)?" (?<code>[^ ]*) (?<size>[^ ]*)(?: "(?<referer>[^\"]*)" "(?<agent>[^\"]*)")?$。
最后,通過數(shù)據(jù)關聯(lián)實現(xiàn)不同的日志數(shù)據(jù)之間或日志數(shù)據(jù)與業(yè)務系統(tǒng)數(shù)據(jù)之間的關聯(lián)匹配,最終實現(xiàn)與關系型數(shù)據(jù)資源進行關聯(lián)分析。
2.4.5 數(shù)據(jù)建模
整個數(shù)據(jù)倉庫的建設都依照已經(jīng)建設完成的校級數(shù)據(jù)標準進行建模,建模工具使用數(shù)據(jù)中臺的數(shù)據(jù)模型管理模塊結合數(shù)據(jù)標準規(guī)定的分類和格式規(guī)范,生成相應的數(shù)據(jù)倉庫結構,再將采集到的學校的各種有價值數(shù)據(jù),按照質(zhì)量要求進行清洗治理,按照數(shù)據(jù)標準的格式進行建模,利用大數(shù)據(jù)基礎技術架構進行存儲,形成全量數(shù)據(jù)倉庫。同時,對重要狀態(tài)數(shù)據(jù)進行歷史數(shù)據(jù)積累,形成全生命周期數(shù)據(jù)資源體系。
2.5 建設場景化專題庫
場景化專題庫根據(jù)業(yè)務場景創(chuàng)新應用需要,QoQ39gczZJIuKZzYjXUzrA==提供專題數(shù)據(jù)服務,從標準層數(shù)據(jù)倉庫中篩選合適的數(shù)據(jù)內(nèi)容,進行必要的預處理,形成針對特定業(yè)務場景的數(shù)據(jù)資源集合,并以適用的接口形式向創(chuàng)新應用提供數(shù)據(jù),保障數(shù)據(jù)對業(yè)務場景的適配性,確保數(shù)據(jù)與場景無縫融合。學校根據(jù)部門以及業(yè)務場景,將數(shù)據(jù)封裝成不同類型的主題數(shù)據(jù)集,針對特定場景提供數(shù)據(jù),根據(jù)學校當前需求,主要建設如圖4所示的主題數(shù)據(jù)集。
2.6 資源開放
治理后的數(shù)據(jù),將通過校級數(shù)據(jù)資源編目與發(fā)布,面向校內(nèi)各級部門和校外數(shù)據(jù)使用者提供數(shù)據(jù)資源在線查看、申請和使用服務,使校級數(shù)據(jù)資源的使用和管理過程在線化、流程化、業(yè)務化。
3 結束語
經(jīng)過多年的實踐探索,江蘇省農(nóng)林職業(yè)技術學院形成了“自下而上”與“自上而下”相結合的雙向融合治理模式,提升了面向場景改革的智慧校園數(shù)據(jù)治理能力,構建了新型數(shù)據(jù)治理體系,依托校本數(shù)據(jù)中臺,堅持需求牽引、應用為王,打造了集“教”“學”“研”“管”“評”于一體的“智慧學堂”平臺,完成全國職業(yè)教育智慧大腦院校中臺數(shù)據(jù)對接工作,通過了江蘇省高職院校內(nèi)部質(zhì)量保證體系診斷與改進的現(xiàn)場復核,實現(xiàn)了數(shù)據(jù)資產(chǎn)的價值最大化,助力學校高質(zhì)量發(fā)展,推動了學校治理能力現(xiàn)代化。
4 參考文獻
[1] 彭雪濤.美國高校數(shù)據(jù)治理及其借鑒[J].電化教育研究,2017,38(6):76-81.
[2] 宋蘇軒,楊現(xiàn)民,宋子強.高校數(shù)據(jù)治理統(tǒng)籌管理體系的構成與實踐路徑[J].中國遠程教育,2021(11):58-67.
[3] 周煒.大數(shù)據(jù)視域下高校數(shù)據(jù)治理優(yōu)化路徑研究[J].教育發(fā)展研究,2021,41(9):78-84.
[4] 曹姣,周志忠,楊蓮勉.大數(shù)據(jù)時代下高校數(shù)據(jù)治理體系研究[J].科技資訊,2022,20(22):177-181.
[5] 胡水星,荊洲,王會軍.我國高校大數(shù)據(jù)治理體系的關鍵要素與優(yōu)化路徑研究:基于DEMATEL-ISM的研究視角[J].電化教育研究,2022,43(11):38-44,52.
*項目來源:江蘇省現(xiàn)代教育技術研究2022年度智慧校園專項立項課題“基于數(shù)據(jù)中樞的職業(yè)院校數(shù)據(jù)報送機制的研究與應用”(項目編號:2022-R-107246);江蘇農(nóng)林職業(yè)技術學院教育科學研究項目“基于‘四個統(tǒng)一’的智慧校園平臺建設研究”(項目編號:JK202220)。
作者簡介:王彩萍,實驗師。