朱 欣,董 劍,王亞東
(1.蘇州市職業(yè)大學 信息中心,江蘇 蘇州 215104;2.江蘇銀狐信息技術有限公司 研發(fā)部,江蘇 蘇州 215021)
教育部發(fā)布的《教育信息化十年發(fā)展規(guī)劃(2011—2020年)》中提到:加強高校智慧校園建設與應用,利用先進的網絡和信息技術,整合資源,構建先進、高效、實用的高等教育信息基礎設施,實現(xiàn)系統(tǒng)整合與數據共享。建立教育管理信息標準與編碼規(guī)范,建立數據采集、交換共享、管理與應用的技術平臺與工作機制,建立教育管理信息安全保障體系,銜接各級各類教育管理信息系統(tǒng)與基礎數據庫,實現(xiàn)系統(tǒng)互聯(lián)與數據互通,建設縱向貫通、橫向關聯(lián)的教育管理信息化體系。
目前,各高校的數據共享及交換平臺[1-6]主要通過以下幾種較通用的技術手段實現(xiàn)。一種是基于ETL工具進行數據抽取及交換(如開源ETL工具Kettle、Talend等,以及商業(yè)化工具如ODI[7]、DataMigrator等。二是基于企業(yè)服務總線(OSB[8]、Mule、AESB等)建立共享數據平臺,如文獻[9]基于企業(yè)服務總線Mule建立了華南師范大學的數據中心。ETL技術和ESB技術[10]雖然都能達到在異構數據間的數據交互及共享目的,但ETL工具在實現(xiàn)時卻有高耦合、缺少界面監(jiān)控等缺點。ESB技術在實現(xiàn)數據共享時有低耦合、界面監(jiān)控、實時更新等優(yōu)點。蘇州市職業(yè)大學早在數字化校園建設時期就已建成數據共享平臺,此平臺集成了一卡通、圖書、教務、宿管、科研等多個業(yè)務系統(tǒng),更多服務于學校的信息門戶,能滿足部分業(yè)務數據共享需求。然而隨著原有數據中心的運用,也暴露出一系列問題:數據共享中心沒有形成統(tǒng)一的數據服務資源池,業(yè)務系統(tǒng)之間數據共享程度不高(部門間數據的對接還需要運用電子表格導出的形式,如教務處需獲得學工處的學生基本信息數據;一卡通、保衛(wèi)處需獲得教務處的學籍數據),數據的利用率不高(多局限于現(xiàn)有信息門戶的展示);各系統(tǒng)之間缺乏有效的數據交換和共享機制,數據調用不直觀。
本研究針對現(xiàn)有數據平臺的缺陷,結合業(yè)內數據平臺的建設經驗,從本校實際情況出發(fā),提出了一種基于金蝶企業(yè)服務總線AESB的共享數據平臺,按照高校業(yè)務數據特點,將數據分成學生、教師兩個主題庫,以及科研、消費、上網等多個專題庫,提供Web Service數據服務,記錄采集加工日志,為后期進行多維度數據分析,輔助學校領導進行科學決策提供數據保障,解決了數據共享、數據交換、數據集成等問題。AESB提供可視化的設計工具和管理監(jiān)控頁面,此平臺將達成標準完善、數據集成、數據服務共享的目的。
蘇州市職業(yè)大學現(xiàn)有共享數據平臺是采用Oracle ODI工具抽取各業(yè)務系統(tǒng)數據實現(xiàn)的。在建設初期,此平臺解決了各類業(yè)務系統(tǒng)集成的難度,縮短了集成周期。但隨著業(yè)務系統(tǒng)陸續(xù)的集成和學校對數據使用要求的提升,現(xiàn)有數據共享平臺不能完全滿足后期的數據需求,從實際使用的情況來看,現(xiàn)有的數據共享平臺主要存在如下問題:①數據同步一旦出錯,將產生大量的日志文件,嚴重的將會導致系統(tǒng)崩潰。②現(xiàn)有平臺的數據對接方式單一,不能滿足日益增長的數據對接需求。③技術專業(yè)性較強,ODI工具不具有AESB可方便管理監(jiān)控操作界面,數據維護困難。④現(xiàn)有平臺局限于數據抽取,沒有數據服務的理念,沒有形成統(tǒng)一的數據服務資源池,更沒有分級權限的機制。⑤覆蓋數據范圍不夠廣泛(如沒有集成汽車門禁、刷卡詳情、宿管系統(tǒng)、就業(yè)信息等數據)。⑥目前數據中心共享平臺數據主要用于學校信息門戶的數據展示,業(yè)務系統(tǒng)之間數據共享程度不高,數據利用率不高,基于跨部門的綜合數據分析處理不能實現(xiàn)(如綜合查詢學生獎助、財務欠費、家庭情況的綜合信息)。
1) 實現(xiàn)數據采集的全面、長效化;
2) 落地業(yè)務主體庫,建立業(yè)務專題庫;
3) 以新建的核心數據共享數據中心為依托,制定合理的決策計劃,提高學校管理和領導決策水平;
4) 實現(xiàn)各業(yè)務部門間的數據共享,提高數據利用率;
5) 提高運維監(jiān)控水平。
數據平臺建設初期需要對全校各部門業(yè)務系統(tǒng)的數據字段進行梳理,以及各業(yè)務部門的數據需求進行梳理,包括數據的來源、各數據字段相對應的負責部門、數據的存儲方式、更新頻率、參考標準等,明確需要共享的數據內容,獲取各項數據內容的權限等。
企業(yè)服務總線(ESB)一般用于內部業(yè)務系統(tǒng)較多的企業(yè),如能源、政府、醫(yī)院、電力等行業(yè),具有低耦合、實時更新、為終端用戶提供Web Service服務的特點。本數據平臺采用數據交換工具金蝶企業(yè)服務總線(AESB V9.0),采集學校各個業(yè)務系統(tǒng)的業(yè)務數據,并對數據進行清洗加工、關聯(lián)整合、分區(qū)存儲,形成校級共享數據中心,并且本平臺包含數據服務、運維監(jiān)控、數據分析等功能。AESB提供可視化的設計工具和管理監(jiān)控頁面,支持各類非結構化數據源,提供實時高效的數據處理性能,易于操作,并且通過AESB,以一種無縫的非侵入方式使高校已有的系統(tǒng)具有全新的服務接口,具有良好的吞吐能力和擴展性。 同時AESB的監(jiān)控平臺包含了數據服務、采集流程、數據源、觸發(fā)器等多種系統(tǒng)資源的監(jiān)控,以及數據傳輸統(tǒng)計日志、文件傳輸日志、操作日志等,通過日志了解系統(tǒng)運行狀況,為系統(tǒng)排錯、信息調整作出依據。此外AESB的服務注冊庫為后期建立數據服務系統(tǒng)提供數據保證。
數據中心的形成需要經過從外部數據源進行數據適配采集、數據加工比對,標準轉換,再到最后數據分區(qū)存儲幾個關鍵過程。貫穿整個過程的同時,包括數據處理的工具集(交換工具、數據庫等)、安全管控的手段(交換安全、數據安全)、運維管理監(jiān)控(采集、加工、數據監(jiān)控管理),才能保證數據中心建設的順利展開。數據中心主要包括數據采集和數據分區(qū)兩個部分。數據中心架構如圖1所示。
圖1 數據中心架構圖
數據處理流程體現(xiàn)為數據交換的過程,實現(xiàn)不同數據源的數據整合,支持廣泛的數據源,對于數據庫、數據文件、Web Service等多種不同的數據源格式(如主流、非主流的關系型數據庫、ODBC數據源、消息類型數據源、格式化的txt文件、Web Service文件、Excel文件)提供多樣化的適配器接口,對目前我校的數據源進行統(tǒng)一的接入控制管理,提供安全、穩(wěn)定、靈活多樣的交換。數據采集流程圖如圖2所示。
2.1.1 數據采集機制
數據采集機制主要是確定數據在全量和增量的情況下從業(yè)務系統(tǒng)到主數據平臺的數據采集,確保采集數據不重復、實時更新。
在通過ESB抽取各業(yè)務系統(tǒng)數據時,已經做了初步的數據格式轉換、日期轉換以及原業(yè)務系統(tǒng)列名與數值不統(tǒng)一的情況等,并且將采集情況(添加記錄數、修改記錄數、采集開始時間、采集結束時間)錄入采集日志表,作為后期運維監(jiān)控表的數據基礎。
AESB在數據抽取采集時,定義一個定時器,對于不同的業(yè)務表,定義不同的采集頻率進行采集,對于源業(yè)務表中已經存在的業(yè)務數據,源表數據發(fā)生變化時,AESB工具自帶檢查沖突功能,更新相應的列值。無需在源業(yè)務系統(tǒng)上添加觸發(fā)器,耦合度低。原ODI工具在實現(xiàn)數據更新時需在業(yè)務表中建立觸發(fā)器,破壞了原有業(yè)務系統(tǒng)的完整性,耦合度較高。
圖2 數據采集流程圖
2.1.2 數據采集頻率
數據中心的數據來自于學校不同的業(yè)務系統(tǒng),針對不同的數據源,采集的頻率會有所差異。主要取決于數據源系統(tǒng)自身數據的產生頻率和平臺需要做分析展現(xiàn)的數據形成時間。對于實時性要求較高的系統(tǒng),如一卡通消費記錄、圖書館借書記錄,頻率設為每三分鐘采集一次。對于數據變化頻率不高的數據設為每天采集一次,或是每學期定期進行采集,如一卡通工作站、教職工基本信息。采集頻率是可以自定義、動態(tài)作調整的。為不影響學校各業(yè)務系統(tǒng)的正常運行與使用,對于每天定期采集的數據設定在夜晚進行,此時間段學校各業(yè)務系統(tǒng)基本處于使用低谷期。
2.1.3 數據標準
結合蘇州市職業(yè)大學一期數字化校園標準、JY/T 100x-2012 教育管理信息標準,形成我校新的數據標準,這是后期其他業(yè)務系統(tǒng)進行開發(fā)的數據標準準則,也是數據采集時源業(yè)務表到主數據平臺的字段映射標準。
2.1.4 數據源類型
數據采集支持多種主流、非主流的數據源,通過數據適配器可以靈活擴展。支持多種主流關系型數據庫(Oracle、Sqlserver、MySQL)、XML文件、Web Service、Word、Excel文件等類型。
2.1.5 數據對接方式
數據采集交換中間件支持多種數據獲取方式:
1) Web Service 服務接口。可以從指定Web Service服務接口提供的方法中提取數據,一般是對所對接的業(yè)務系統(tǒng)提供封裝好的服務接口,約定接口格式和驗證方式及返回信息,調用接口就可以獲取到數據。
2) 數據庫視圖。從指定數據庫的視圖中提取數據,一般是要對接的業(yè)務系統(tǒng)將部分所需數據通過數據庫視圖的方式開放權限,調用數據庫視圖獲取數據。
3) 數據表。從指定數據庫的表中提取數據,這種方式是數據庫直連,只能查詢數據不能對數據進行任何操作。
4) 自定義SQL。可以用自定義SQL從指定數據庫中提取數據,需要獲取源數據庫的查詢權限。
5) 文件??梢詮闹付╔ML、Excel、Access、Dbf文件中提取數據。這種文件方式較多的應用于Excel格式的數據,利用通用的數據上傳接口把模板數據導入進行通用流程采集。對于無權限獲得數據接口的數據,如省廳系統(tǒng)的就業(yè)數據以及財務處學生欠費數據均以Excel方式作為抽取數據源。
數據加工通過建立學校信息化統(tǒng)一標準代碼表,利用專業(yè)的工具經過數據的清洗轉換、關聯(lián)整合,形成學校核心基礎數據。定時對采集的緩沖數據進行加工。數據加工主要包含兩個方面的工作:
1) 數據清洗,對源數據進行如格式校驗(日期格式轉換)、空值補全、重復去除、代碼轉換等清洗工作,以提高主數據質量及數據源可信度。對于不同業(yè)務系統(tǒng)的數據字段展現(xiàn)方式進行統(tǒng)一。如原有的汽車出入門禁系統(tǒng),不以教職工工號作為主鍵,在抽取數據到數據中心時就需要進行處理。
2) 關聯(lián)整合,對數據進行如字段映射、字段拆分、字段合并、預計算等整合工作,形成統(tǒng)一主數據庫。
整體數據架構根據數據的不同類別進行分區(qū)設計,一方面通過工具平臺和中間緩沖庫數據區(qū)的引入,對不同類型數據區(qū)域進行區(qū)分,保障數據體系的劃分清晰和區(qū)域內部的靈活擴展。另一方面,根據不同的數據分區(qū)數據特性的不同,設置不同的安全和訪問策略,綜合考慮各類數據訪問使用的安全和效率,為后期進行數據分析縮短響應時間。
數據分區(qū)設計架構如圖3所示,包括五部分,分別是前置區(qū)、數據緩沖庫、師生核心庫、擴展主題庫和共享庫。
1) 前置區(qū)。前置區(qū)定義為外部應用業(yè)務系統(tǒng)的數據區(qū),是學校各個業(yè)務系統(tǒng)的數據庫、可以是針對各業(yè)務系統(tǒng)的查詢視圖、甚至是服務接口的部署服務器、文件數據服務器。
圖3 數據分區(qū)設計圖
2) 數據緩沖區(qū)。從外部業(yè)務系統(tǒng)采集過來的數據,首先在數據緩沖區(qū)落地,緩沖區(qū)的設計是為了減輕數據采集給服務器及數據加工帶來的壓力。緩沖區(qū)所采集的表是各個業(yè)務系統(tǒng)包含數據價值信息,能進行數據分析的表,除去業(yè)務系統(tǒng)本身構建所需要的數據表以及日志表等。使用AESB抽取的界面圖如圖4所示。
3) 數據核心區(qū)。數據核心區(qū)存儲的數據是通過Oracle Job定期調用事先設定的函數,經過緩沖區(qū)再次處理(格式檢驗、數據清洗)后的數據。處理的內容包括數據的權威性、業(yè)務關系、異常數據,其中異常包含業(yè)務異常和數據異常。數據核心區(qū)存儲的是學校的核心數據,比如學生、教師的基礎信息,擴展信息是一個較全面、質量較高的數據資源池,是今后做數據分析和數據共享以及數據應用的基礎。核心庫的每一張表需要有增量字段,采用采集時間戳來做增量,同時每張表需要主鍵UUID。
4) 擴展主題區(qū)。擴展主題區(qū)的數據來源于緩沖區(qū)和核心區(qū),在物理上統(tǒng)一存儲,這部分的數據是經過緩沖區(qū)和核心區(qū),挖掘有業(yè)務主題的相關數據集合,這些數據集合可以是動態(tài)新增的,每個數據集合都分別有不同的數據庫段存儲,相互獨立。擴展主題區(qū)是基于數據分析而設計的。數據庫設計中按照事實表和維度表進行設計。在蘇州市職業(yè)大學數據平臺項目中,擴展主題庫分為上網專題、消費專題、科研專題、教務專題、圖書專題。
圖4 使用AESB抽取的界面圖
5) 數據共享區(qū)。根據業(yè)務需求驅動,建立數據共享區(qū),共享區(qū)的數據供學校其他業(yè)務部門或其他建設項目使用。如果業(yè)務部門需要數據,由業(yè)務部門提出數據共享需求。存儲的方式和擴展區(qū)一樣,在物理上統(tǒng)一存儲,每個業(yè)務系統(tǒng)的數據需求相互獨立。對外以數據Web Service服務接口的方式提供。 數據共享區(qū)一方面與數據核心區(qū)隔離,另一方面負責對外發(fā)布服務。AESB工具自帶服務注冊功能,可以對數據接口進行封裝,并可通過用戶名、密碼、時間戳、加密算法來保證數據安全。AESB的服務注冊庫中可以清晰地看到數據服務調用信息(調用次數、成功次數、失敗次數、調用成功率、響應時間等)。在蘇州市職業(yè)大學智慧校園實際的建設項目過程中,已經向GIS、微信通、服務大廳、學生畫像、一卡通數據分析平臺等多個項目進行數據推送。
以蘇州市職業(yè)大學數據中心改造項目為例,從數據分區(qū)、數據采集流程等方面描述了數據中心改造平臺的設計過程,提出了基于AESB的數據共享平臺的改造方案。新改造的數據中心,含有可視化的數據監(jiān)控,實時保證數據更新和數據質量。且具有可視化維護監(jiān)控頁面,對數據抽取是否成功、抽取質量分析、數據服務調用具有直觀性體現(xiàn)。為后期建設數據分析、運維服務管理系統(tǒng)提供數據基礎。后續(xù)的工作將在現(xiàn)有的平臺上進行,主要包括在數據中心平臺上的多維度分析以及可視化報表展現(xiàn)、運維管理和服務管理系統(tǒng)的建立以及如何將數據中心向云平臺數據中心進行過渡。