田威
(常德職業(yè)技術(shù)學(xué)院,湖南常德 415000)
隨著高校逐步從以信息化基礎(chǔ)設(shè)施建設(shè)和普及應(yīng)用為主的1.0時代進入到以深度融合、創(chuàng)新發(fā)展為主的2.0時代。如何合理配置資源、實現(xiàn)教育資源共享、使資源能最大限度地發(fā)揮作用,已成為高校在智慧校園發(fā)展階段需要解決的首要問題[1]。我校當前管理與服務(wù)的信息化已經(jīng)不再滿足于對數(shù)據(jù)單純的處理和查詢,而需要利用這些收集到的大量數(shù)據(jù)進行相關(guān)分析,將其轉(zhuǎn)換成有用的信息和知識,為決策提供有力的支撐,進而提升我校數(shù)據(jù)服務(wù)的能力。因此,建立符合我校的數(shù)據(jù)中心來統(tǒng)一集中管理數(shù)據(jù)、分析數(shù)據(jù)、開放數(shù)據(jù)迫在眉睫。
隨著信息化1.0時代的到來,一般職業(yè)院校都建設(shè)了各類管理信息系統(tǒng),各類系統(tǒng)都是相對獨立的,因此各類系統(tǒng)采用的數(shù)據(jù)定義、代碼集、計量單位、編碼方式均自成一體[2]。隨著時代的發(fā)展,我們要求實現(xiàn)大數(shù)據(jù)視角下的全維度數(shù)據(jù)分析和個性化服務(wù),因此需要將各種來源、各種維度的數(shù)據(jù)匯總到一起進行全局分析。此時,數(shù)據(jù)時間標準、規(guī)范的不統(tǒng)一,使得大量的數(shù)據(jù)處于游離、孤島的狀態(tài),難以實現(xiàn)關(guān)聯(lián)匯總和大數(shù)據(jù)分析。
各個信息系統(tǒng)運行時,由于種種原因(功能缺陷、管理缺位、操作不當?shù)龋?,各管理系統(tǒng)中的數(shù)據(jù)質(zhì)量常常存在各種問題。例如,數(shù)據(jù)項缺失、數(shù)據(jù)結(jié)構(gòu)化不良、無效枚舉項、錯誤表達格式、數(shù)值錯誤等。另外,部分系統(tǒng)涉及開發(fā)的業(yè)務(wù)流程并不完全符合業(yè)務(wù)部門的實際業(yè)務(wù)需求,操作人員就沒有使用這部分功能模塊,這樣導(dǎo)致了一部分高價值數(shù)據(jù)臨時存儲在某個電子表格中,甚至只留存了一些紙質(zhì)材料,這部分數(shù)據(jù)的準確性、規(guī)范性都存在比較大的問題。大數(shù)據(jù)時代,對于數(shù)據(jù)分析的任務(wù)更是無法實施。
各個部門在自己的管理過程中,經(jīng)常需要用到其他部門生成的數(shù)據(jù)。但實際的數(shù)據(jù)協(xié)調(diào)工作經(jīng)常面臨“黑盒困境”:不知道所需的數(shù)據(jù)是否存在、存在于什么地方、如何登陸、如何獲取、如何解讀、如何使用,即使拿到數(shù)據(jù)以后,也經(jīng)常發(fā)現(xiàn)數(shù)據(jù)的完整性、準確性缺乏保障,或者還需要找其他部門才能湊齊完整的數(shù)據(jù)。結(jié)果造成找一項數(shù)據(jù)要與多個部門協(xié)調(diào),還要耗費大量的精力進行整合去重、判斷正誤、對比沖突,致使工作效率低下,費時費力還費錢。
傳統(tǒng)的數(shù)據(jù)中心模式下,部分數(shù)據(jù)實現(xiàn)了初步的整合,并向一部分業(yè)務(wù)系統(tǒng)提供數(shù)據(jù)交換共享。但這種模式下的數(shù)據(jù)共享管理存在管理難點和安全風險。首先,數(shù)據(jù)的供應(yīng)只有一種方式,即通過對數(shù)據(jù)庫的配置發(fā)布表或視圖來提供數(shù)據(jù)。這種方式的弊端在于:大量的數(shù)據(jù)庫連接配置增加了數(shù)據(jù)管理的工作量和難度,而數(shù)據(jù)發(fā)布過程中難以監(jiān)控數(shù)據(jù)的調(diào)用過程、頻度、用量等,無法發(fā)現(xiàn)和阻止對數(shù)據(jù)的不當使用,對數(shù)據(jù)安全管理造成不小的威脅。當管理人員崗位變動時,新接手的人常常無法判斷每個接口的作用和業(yè)務(wù)屬性,造成故障排查困難、維護不便。
筆者根據(jù)我校超融合虛擬化服務(wù)器資源以及業(yè)務(wù)系統(tǒng)整體架構(gòu),并且考慮到后續(xù)應(yīng)用場景,設(shè)計了我校數(shù)據(jù)中心建設(shè)的整體框架,如圖1所示。Oracle用來做主存儲服務(wù)器,全量采集存儲教務(wù)、學(xué)工、資產(chǎn)等各業(yè)務(wù)系統(tǒng)數(shù)據(jù),使用Hadoop和Spark平臺用于后續(xù)部署大數(shù)據(jù)、人工智能等應(yīng)用。根據(jù)我校當前信息化存在的實際問題,數(shù)據(jù)中心建設(shè)內(nèi)容包含數(shù)據(jù)治理、數(shù)據(jù)填報、數(shù)據(jù)管理和統(tǒng)一開放開放平臺等內(nèi)容。
圖1 數(shù)據(jù)中心整體框架
我校的數(shù)據(jù)治理遵守國家強制標準、參考教育部推薦標準和其他學(xué)校數(shù)據(jù)標準、引入我校已有部分合格標準(含元數(shù)據(jù)模型和代碼集),兼顧各個標準之間的兼容性、一致性以及標準的可擴展性,并且通過與教務(wù)處、學(xué)生處、圖書館、財務(wù)處等各部門協(xié)調(diào)溝通,深刻了解了我校的管理業(yè)務(wù)特性,確定數(shù)據(jù)子集的分類方式,建設(shè)和完善常德職業(yè)技術(shù)學(xué)院校級數(shù)據(jù)標準[3]。制定了學(xué)校自定義的編碼規(guī)范并給出數(shù)據(jù)分類編碼規(guī)格說明書,輸出了一套符合學(xué)校實際的《常德職業(yè)技術(shù)學(xué)院數(shù)據(jù)標準》(數(shù)據(jù)子集、標準代碼集、編碼規(guī)范)。在數(shù)據(jù)治理實施過程中,再次與各部門業(yè)務(wù)系統(tǒng)管理員確認當前各系統(tǒng)的使用狀況和處理細節(jié),制定了一套符合我校數(shù)據(jù)治理的流程,實施過程嚴格按照我校制訂的數(shù)據(jù)治理流程執(zhí)行。具體實施過程如下:
首先,對各管理部門的業(yè)務(wù)內(nèi)容、組織機構(gòu)、管理信息系統(tǒng)、后臺數(shù)據(jù)庫信息、數(shù)據(jù)內(nèi)容和形態(tài)、供需關(guān)系、交換共享要求、數(shù)據(jù)質(zhì)量問題、可引入的標準資源等進行調(diào)研了解并輸出數(shù)據(jù)現(xiàn)狀報告。根據(jù)數(shù)據(jù)調(diào)研的結(jié)果,羅列所有已知的數(shù)據(jù)來源和分布,記錄訪問賬號和入口,查看實際的數(shù)據(jù)內(nèi)容。根據(jù)上述數(shù)據(jù)治理范圍目標,從數(shù)據(jù)來源中識別出目標數(shù)據(jù)所在的庫、表、字段、格式等。
其次,制訂數(shù)據(jù)質(zhì)量規(guī)則(如非空、唯一性、長度、取值范圍、枚舉范圍、關(guān)聯(lián)一致性等)根據(jù)每個字段應(yīng)有的質(zhì)量屬性將正確的質(zhì)量規(guī)則綁定到字段上。執(zhí)行質(zhì)量檢查,將不符合質(zhì)量規(guī)則的記錄識別出來,形成數(shù)據(jù)質(zhì)量報告,以便評估數(shù)據(jù)質(zhì)量狀況,定位有問題的數(shù)據(jù),便于下一步修正處理。根據(jù)質(zhì)量報告的內(nèi)容,確定質(zhì)量問題的內(nèi)容、程度,并定位到具體記錄。大致上,質(zhì)量問題分為兩大類:結(jié)構(gòu)性質(zhì)量問題:如代碼集定義、表達格式、數(shù)據(jù)單位不一致等問題。這類問題可以通過批量的、規(guī)則化的轉(zhuǎn)換處理即可轉(zhuǎn)換成符合標準的數(shù)據(jù),這類問題將通過ETL的轉(zhuǎn)換規(guī)則實現(xiàn)質(zhì)量提升。內(nèi)容性質(zhì)量問題:如數(shù)據(jù)缺失、內(nèi)容錯誤等問題。一般情況下,這類問題無法通過簡單的批量轉(zhuǎn)換修復(fù),因此需要將問題數(shù)據(jù)和質(zhì)量報告提交到數(shù)據(jù)對應(yīng)的負責部門,由部門進行核實、采集、填報后形成有效數(shù)據(jù)。數(shù)據(jù)修復(fù)后,需要記錄在業(yè)務(wù)管理系統(tǒng)中,通過再次采集入庫,直至質(zhì)量檢查合格。這部分工作是數(shù)據(jù)治理的核心工作,是整個過程中最復(fù)雜、最耗時的階段。
最后,將各種清洗轉(zhuǎn)換完成、符合質(zhì)量標準的數(shù)據(jù)導(dǎo)入到之前已經(jīng)建模完成的表格中,即形成了符合校標的、質(zhì)量達標的成果數(shù)據(jù)。
當前已經(jīng)完成對學(xué)校教務(wù)系統(tǒng)、人事系統(tǒng)、學(xué)生綜合管理系統(tǒng)、網(wǎng)站群、辦事大廳和統(tǒng)一身份平臺、一卡通平臺、教育陽光服務(wù)平臺、財務(wù)系統(tǒng)、微信掌上云推平臺的數(shù)據(jù)治理,通過數(shù)據(jù)治理后的結(jié)果統(tǒng)一對外共享和交換數(shù)據(jù)。
我校絕大多數(shù)數(shù)據(jù)都在業(yè)務(wù)系統(tǒng)中進行管理,數(shù)據(jù)存儲在數(shù)據(jù)庫中。但我校還存在部分業(yè)務(wù)系統(tǒng)不太健全的問題,有一些有價值的數(shù)據(jù)并沒有通過業(yè)務(wù)系統(tǒng)進行管理,而是直接利用電子表格進行記錄,如學(xué)綜系統(tǒng)學(xué)生個人操行分、學(xué)生上課紀律情況登記等。因此,僅采集數(shù)據(jù)庫中的數(shù)據(jù),并不能完整地采集所有具有業(yè)務(wù)價值的數(shù)據(jù)。為了實現(xiàn)全量數(shù)據(jù)治理,必須采用系統(tǒng)化、高效率的方案將線下數(shù)據(jù)也納入管理和采集的范圍。
學(xué)校需要數(shù)據(jù)填報及審批系統(tǒng),用來將線下的Excel記錄的數(shù)據(jù)進行采集,使用數(shù)據(jù)庫進行記錄,并提供WEB界面對數(shù)據(jù)進行查看、編輯,從而使原先線下的數(shù)據(jù)生成過程完全在線化。同時,可以體現(xiàn)簡單的流程協(xié)作能力,實現(xiàn)多用戶的協(xié)同操作,即不同的用戶去操作同一個表格,每個人負責編輯不同的字段。這些功能的組合可以實現(xiàn)一個簡單的業(yè)務(wù)管理系統(tǒng)那樣的多崗位流程管理功能。
具體操作時,由數(shù)據(jù)填報的發(fā)起部門設(shè)計好表格結(jié)構(gòu),將表格的編輯權(quán)限以及各字段的編輯權(quán)限分配給合適的對象,然后通知對方填寫數(shù)據(jù)。數(shù)據(jù)填寫完畢后,數(shù)據(jù)將自動記錄在數(shù)據(jù)庫中的一個表中。后面再通過ETL過程將數(shù)據(jù)進行采集、標準化、封裝等過程,即可形成可供全校共享使用的標準化數(shù)據(jù)資源,數(shù)據(jù)填報系統(tǒng)如圖2所示。
圖2 數(shù)據(jù)填報系統(tǒng)
全量數(shù)倉管理平臺,如圖3所示,為管理人員提供直觀、全面的數(shù)據(jù)治理工作展示頁面,幫助管理人員快速了解當前業(yè)務(wù)系統(tǒng)的使用情況。通過數(shù)倉管理平臺,管理人員能查看業(yè)務(wù)系統(tǒng)原始庫、數(shù)據(jù)集中庫、數(shù)據(jù)倉庫這幾類數(shù)據(jù)。其中業(yè)務(wù)系統(tǒng)原始庫:用來直觀展現(xiàn)業(yè)務(wù)系統(tǒng)數(shù)量、涉及部門、數(shù)據(jù)表張數(shù)、字段數(shù)、數(shù)據(jù)記錄數(shù)等信息;數(shù)據(jù)集中庫:用來直觀展現(xiàn)體積大小、數(shù)據(jù)表張數(shù)、字段數(shù)、數(shù)據(jù)記錄數(shù)等信息;數(shù)據(jù)倉庫:用來直觀展現(xiàn)體積大小、數(shù)據(jù)主題分類、涉及標準數(shù)量、數(shù)據(jù)表張數(shù)、字段數(shù)、數(shù)據(jù)記錄數(shù)等信息,從宏觀和微觀角度去全面掌控學(xué)校的數(shù)據(jù)。管理人員能定期生成業(yè)務(wù)系統(tǒng)使用檢查報告,詳細列舉出各系統(tǒng)存在數(shù)據(jù)缺失的信息項、數(shù)據(jù)不符合校方數(shù)據(jù)標準的信息項、數(shù)據(jù)存在錯誤等信息項,按照業(yè)務(wù)系統(tǒng)使用部門進行通知分發(fā),令部門系統(tǒng)負責人進行整改,從而有效提高學(xué)校業(yè)務(wù)系統(tǒng)的使用質(zhì)量。
圖3 數(shù)倉管理平臺
統(tǒng)一數(shù)據(jù)開放平臺,如圖4所示,是數(shù)據(jù)中心建設(shè)的核心系統(tǒng),著眼于大數(shù)據(jù)管理及應(yīng)用開發(fā)、大數(shù)據(jù)計算等層面,實現(xiàn)學(xué)院的一站式大數(shù)據(jù)落地,從根本上解決各業(yè)務(wù)系統(tǒng)“信息孤島”的問題。平臺需要為學(xué)院各應(yīng)用系統(tǒng)、教務(wù)系統(tǒng)、人事系統(tǒng)、學(xué)生綜合管理系統(tǒng)、辦事大廳和統(tǒng)一身份平臺、網(wǎng)站群、一卡通平臺、教育陽光服務(wù)平臺、財務(wù)系統(tǒng)、微信掌上云推平臺等提供統(tǒng)一、安全、高效的數(shù)據(jù)出口服務(wù),以解決傳統(tǒng)數(shù)據(jù)貢獻該過程中的溝通成本高、效率低等問題。平臺提供數(shù)據(jù)服務(wù)的方式包含數(shù)據(jù)API、數(shù)據(jù)庫鏈接、離線數(shù)據(jù)下載,安全保障方式為申請、審核、調(diào)用、監(jiān)控等流程,數(shù)據(jù)提供方只需要簡單地編寫SQL語句,通過Web可視化編輯配置數(shù)據(jù)庫信息,便可完成數(shù)據(jù)的開放。數(shù)據(jù)使用者只需在平臺上便捷申請所需數(shù)據(jù),當管理人員收到消息通知后,管理人員可以直接進行線上審核,即可通過API調(diào)用、數(shù)據(jù)庫連接、離線文件下載三種數(shù)據(jù)開放方式獲取所需數(shù)據(jù),其中,API調(diào)用滿足輕量級應(yīng)用系統(tǒng)開發(fā)的數(shù)據(jù)調(diào)用需求;數(shù)據(jù)庫連接在數(shù)據(jù)訪問負載非常大超出API響應(yīng)能力時使用;離線文件用來下載日常工作需要的電子表格形式數(shù)據(jù),數(shù)據(jù)使用人員可以根據(jù)不同場景靈活選用適合的開放方式。數(shù)據(jù)的開放和共享全程線上完成,大大提高數(shù)據(jù)開發(fā)效率。
圖4 統(tǒng)一數(shù)據(jù)開放平臺
我校對數(shù)據(jù)治理存在的普遍性問題進行總結(jié),針對我校日志體量大、日志廠商類型多等問題,通過部署CDH集群解決數(shù)據(jù)體量大的問題,滿足我校日志數(shù)據(jù)處理的需求。同時根據(jù)廠商提供的數(shù)據(jù)字典,進行高效率解析,解析之后的日志數(shù)據(jù)體量仍然非常龐大,日志處理工具支持通過數(shù)據(jù)計算功能對解析之后的數(shù)據(jù)進行大體量的分析計算,滿足高校對數(shù)據(jù)分析處理計算的需求,幫助高校解決日志數(shù)據(jù)分析的難題。支持通過可視化的圖表將計算后的結(jié)果數(shù)據(jù)進行呈現(xiàn),讓分析出來的數(shù)據(jù)清晰可見,能夠讓數(shù)據(jù)使用起來,發(fā)揮出數(shù)據(jù)應(yīng)有的價值[4]。
當前我?;谖⑿耪粕显仆破脚_,自主開發(fā)了學(xué)校重要新聞和重要通知推送、網(wǎng)上報賬、數(shù)字迎新、教務(wù)查詢、財務(wù)查詢、故障報修、數(shù)字資源等52個應(yīng)用,如圖5所示。學(xué)生能通過教務(wù)查詢完成在線選課、教學(xué)評價、查詢課表、查詢成績等操作;教職工能通過財務(wù)查詢應(yīng)用查詢自己的工資發(fā)放明細和在線完成網(wǎng)上報賬手續(xù);師生能通過故障報修應(yīng)用對學(xué)院網(wǎng)絡(luò)故障、教室和宿舍內(nèi)硬件故障等問題在線報修;校園資訊應(yīng)用能實時推送學(xué)校重要新聞和重要通知,學(xué)生能第一時間收到學(xué)校的各種政策,師生能夠及時了解學(xué)校的防疫政策,團結(jié)一心,共同抗疫,增強了學(xué)校師生的凝聚力;數(shù)字資源應(yīng)用能讓師生利用碎片化時間,隨時隨地瀏覽學(xué)校的圖書資源,充分發(fā)揮出了學(xué)校自購的數(shù)字資源的使用價值。掌上云推平臺52個應(yīng)用的數(shù)據(jù)均來自數(shù)據(jù)中心統(tǒng)一開放平臺,通過統(tǒng)一開放平臺,只需要簡單地書寫SQL語句便能完成數(shù)據(jù)API的開放,完成系統(tǒng)與系統(tǒng)之間的數(shù)據(jù)交換和共享。
圖5 掌上云推平臺
目前我校已初步完成數(shù)據(jù)中心建設(shè),解決了我校在信息化建設(shè)中遇到的主要問題。數(shù)據(jù)治理作為數(shù)據(jù)中心建設(shè)最主要的環(huán)節(jié),它的建設(shè)不可能一步到位,我校的數(shù)據(jù)治理還存在很多細節(jié)問題,還需要花更多時間和精力去探索,不停地優(yōu)化和完善我校數(shù)據(jù)治理標準。如何將大數(shù)據(jù)分析、云計算、人工智能等技術(shù)應(yīng)用在數(shù)據(jù)中心,設(shè)計更多綜合統(tǒng)計分析報表,并以更直觀的圖形和圖表展現(xiàn)給部門和院級管理者,使設(shè)計人工智能應(yīng)用更好地服務(wù)于學(xué)校師生的學(xué)習和工作,還需要多去參考學(xué)習國內(nèi)外智慧校園建設(shè)比較成功的案例。