西北工業(yè)大學(xué)信息中心 周曉菊 黃曉波 曹祥瑞
高校數(shù)據(jù)交換平臺(tái)的設(shè)計(jì)與研究
——以西北工業(yè)大學(xué)數(shù)據(jù)交換平臺(tái)為例
西北工業(yè)大學(xué)信息中心 周曉菊 黃曉波 曹祥瑞
隨著高校業(yè)務(wù)系統(tǒng)的增多,系統(tǒng)間數(shù)據(jù)存在著密切聯(lián)系,互聯(lián)互通需求越來越迫切。文章以西北工業(yè)大學(xué)數(shù)據(jù)交換平臺(tái)建設(shè)為例,具體從建立信息標(biāo)準(zhǔn)、收集需求、設(shè)計(jì)交換平臺(tái)、實(shí)現(xiàn)數(shù)據(jù)清洗四個(gè)方面來探討如何實(shí)現(xiàn)校園數(shù)據(jù)交換與共享,并提出了建立數(shù)據(jù)交換平臺(tái)的解決方案。
數(shù)據(jù)交換平臺(tái);數(shù)據(jù)共享;數(shù)據(jù)倉(cāng)庫(kù)
目前,信息化建設(shè)存在于高校管理的各個(gè)領(lǐng)域,信息化建設(shè)已經(jīng)成為學(xué)校實(shí)現(xiàn)跨越式發(fā)展和創(chuàng)建“雙一流”的重要手段和戰(zhàn)略選擇。近年來,各部門紛紛建立自己的應(yīng)用系統(tǒng),減輕了人工管理的負(fù)擔(dān),提高了管理效率。例如:教務(wù)處的排選課系統(tǒng);學(xué)生處的獎(jiǎng)助勤貸系統(tǒng);財(cái)務(wù)處的財(cái)務(wù)管理系統(tǒng)等。
但是,由于校內(nèi)部各部門的信息化建設(shè)程度參差不齊,在系統(tǒng)定制或產(chǎn)品購(gòu)買時(shí)只考慮到滿足實(shí)際業(yè)務(wù)的需要,未考慮系統(tǒng)互聯(lián)互通的需求,缺少統(tǒng)一規(guī)劃,使得開發(fā)語言、平臺(tái)、數(shù)據(jù)庫(kù)種類、版本上存在很大的差異,同時(shí),各部門自行維護(hù)數(shù)據(jù),易導(dǎo)致不一致等問題,對(duì)數(shù)據(jù)交換共享帶來很大障礙。因此,制定統(tǒng)一的數(shù)據(jù)標(biāo)準(zhǔn),構(gòu)建全校共有數(shù)據(jù)交換平臺(tái)顯得尤為重要。
那么,如何實(shí)現(xiàn)校園各應(yīng)用系統(tǒng)的數(shù)據(jù)交換和共享?下面主要以西北工業(yè)大學(xué)(以下簡(jiǎn)稱“西工大”)數(shù)據(jù)交換平臺(tái)為例,具體從建立信息標(biāo)準(zhǔn)和基礎(chǔ)數(shù)據(jù)庫(kù)、了解總體需求、設(shè)計(jì)交換平臺(tái)、實(shí)現(xiàn)數(shù)據(jù)清洗四個(gè)方面來探討。
信息標(biāo)準(zhǔn)從原則上遵循國(guó)標(biāo)、部標(biāo)、省標(biāo),優(yōu)先級(jí)從下到上的原則。2012年教育部頒發(fā)了《高等學(xué)校管理信息》標(biāo)準(zhǔn),具體由《學(xué)校概況數(shù)據(jù)子集》、《學(xué)生管理數(shù)據(jù)子集》、《教學(xué)管理數(shù)據(jù)子集》、《教職工管理數(shù)據(jù)子集》、《科研管理數(shù)據(jù)子集》、《財(cái)務(wù)管理數(shù)據(jù)子集》、《資產(chǎn)與設(shè)備管理數(shù)據(jù)子集》等十一部分組成。西工大在沿用該標(biāo)準(zhǔn)的基礎(chǔ)上,納入校內(nèi)編碼規(guī)則,形成了《西北工業(yè)大學(xué)基礎(chǔ)數(shù)據(jù)庫(kù)標(biāo)準(zhǔn)》,并依照該標(biāo)準(zhǔn)建成《西北工業(yè)大學(xué)基礎(chǔ)數(shù)據(jù)庫(kù)》,作為數(shù)據(jù)交換的中心節(jié)點(diǎn)。各部門通過數(shù)據(jù)交換平臺(tái),進(jìn)行數(shù)據(jù)抽取和轉(zhuǎn)換,提高交換效率,降低點(diǎn)對(duì)點(diǎn)交換的復(fù)雜性。該標(biāo)準(zhǔn)規(guī)范了學(xué)校信息化建設(shè),為后續(xù)數(shù)據(jù)層和接口層的交換打下了良好的數(shù)據(jù)基礎(chǔ)。
數(shù)據(jù)交換首要的工作是搜集各業(yè)務(wù)系統(tǒng)數(shù)據(jù)交換需求,分別形成各自的需求文檔,對(duì)需求進(jìn)行詳細(xì)地分析,這能極大提高實(shí)施效率。需求收集的主要內(nèi)容包括以下四點(diǎn):
(1)環(huán)境信息。記錄基礎(chǔ)數(shù)據(jù)庫(kù)和各業(yè)務(wù)數(shù)據(jù)庫(kù)所在主機(jī)IP地址、服務(wù)器操作系統(tǒng)、數(shù)據(jù)庫(kù)名、數(shù)據(jù)庫(kù)類型、版本信息、數(shù)據(jù)庫(kù)用戶名和密碼、數(shù)據(jù)庫(kù)用戶的訪問權(quán)限、數(shù)據(jù)庫(kù)端口等。
(2)流轉(zhuǎn)數(shù)據(jù)信息。即記錄基礎(chǔ)數(shù)據(jù)庫(kù)提供哪些數(shù)據(jù)給業(yè)務(wù)數(shù)據(jù)庫(kù),以及業(yè)務(wù)數(shù)據(jù)庫(kù)應(yīng)該提供哪些數(shù)據(jù)給基礎(chǔ)數(shù)據(jù)庫(kù),且要記述數(shù)據(jù)在交換到其他業(yè)務(wù)數(shù)據(jù)庫(kù)后的使用場(chǎng)景。
(3)數(shù)據(jù)項(xiàng)信息。首先需要進(jìn)行現(xiàn)行數(shù)據(jù)狀況普查,了解基礎(chǔ)數(shù)據(jù)庫(kù)中的數(shù)據(jù)項(xiàng)產(chǎn)生源頭部門、數(shù)據(jù)有無、數(shù)據(jù)現(xiàn)有存儲(chǔ)形式,確定數(shù)據(jù)單一來源,詳細(xì)記錄交換中源數(shù)據(jù)(或視圖)和目標(biāo)數(shù)據(jù)的表結(jié)構(gòu)、字段對(duì)照關(guān)系、字段具體信息、源與目標(biāo)字段的轉(zhuǎn)換關(guān)系、交換描述、交換規(guī)則等。詳見表1數(shù)據(jù)交換設(shè)計(jì)映射關(guān)系表。
表1 數(shù)據(jù)交換設(shè)計(jì)映射關(guān)系表
借助校園網(wǎng)絡(luò),將物理上各個(gè)獨(dú)立的業(yè)務(wù)系統(tǒng)通過數(shù)據(jù)交換共享平臺(tái)聯(lián)系起來,形成邏輯上高度集成的數(shù)據(jù)交換共享中心。該平臺(tái)將信息采集、加工和整合,通過制定合理的數(shù)據(jù)交換機(jī)制實(shí)現(xiàn)校園數(shù)據(jù)的集中管理與共享。西工大數(shù)據(jù)交換平臺(tái)通過集成校內(nèi)基礎(chǔ)數(shù)據(jù)庫(kù)與業(yè)務(wù)數(shù)據(jù)庫(kù),經(jīng)過數(shù)據(jù)抽取、映射和轉(zhuǎn)換以及加載,實(shí)現(xiàn)數(shù)據(jù)交換,減少系統(tǒng)間各自頻繁交換,實(shí)現(xiàn)校園信息共享。此外,該平臺(tái)在數(shù)據(jù)交換共享的同時(shí)為數(shù)據(jù)倉(cāng)庫(kù)清洗、沉淀數(shù)據(jù),為大數(shù)據(jù)分析打好數(shù)據(jù)基礎(chǔ)。
數(shù)據(jù)交換平臺(tái)架構(gòu):
圖1 西北工業(yè)大學(xué)數(shù)據(jù)交換平臺(tái)整體架構(gòu)
如圖1所示,西工大數(shù)據(jù)交換平臺(tái)的整體架構(gòu)由五層構(gòu)成,分別是源數(shù)據(jù)庫(kù)、目標(biāo)系統(tǒng)、基礎(chǔ)數(shù)據(jù)庫(kù)、數(shù)據(jù)倉(cāng)庫(kù)、公共數(shù)據(jù)管理平臺(tái)。
(1)源數(shù)據(jù)庫(kù)
是原始信息層,由各業(yè)務(wù)系統(tǒng)組成,各系統(tǒng)在實(shí)際運(yùn)行過程中積累了與學(xué)校業(yè)務(wù)相關(guān)的較為規(guī)則的業(yè)務(wù)數(shù)據(jù)和歷史數(shù)據(jù),如人事、教務(wù)、科研、資產(chǎn)、財(cái)務(wù)數(shù)據(jù)等。構(gòu)成交換所需的數(shù)據(jù)源。
(2)基礎(chǔ)數(shù)據(jù)庫(kù)
存放相對(duì)固定的共享的數(shù)據(jù),來源于學(xué)校的各個(gè)業(yè)務(wù)應(yīng)用系統(tǒng)。(3)數(shù)據(jù)倉(cāng)庫(kù)
收集業(yè)務(wù)數(shù)據(jù)、運(yùn)行監(jiān)控?cái)?shù)據(jù)、日志數(shù)據(jù)等,根據(jù)業(yè)務(wù)需求,對(duì)信息進(jìn)行加工轉(zhuǎn)換,進(jìn)行數(shù)據(jù)挖掘,為領(lǐng)導(dǎo)層提供決策支持。
(4)公共數(shù)據(jù)管理平臺(tái)
是數(shù)據(jù)交換的中心。該平臺(tái)主要包括交換機(jī)制管理、數(shù)據(jù)抽取與轉(zhuǎn)換、信息發(fā)布與訂閱以及信息標(biāo)準(zhǔn)等。對(duì)外統(tǒng)一以接口形式發(fā)布在ESB總線上,進(jìn)而實(shí)現(xiàn)了異構(gòu)數(shù)據(jù)庫(kù)和標(biāo)準(zhǔn)數(shù)據(jù)庫(kù)之間的數(shù)據(jù)雙向交換問題。
(5)目標(biāo)系統(tǒng)
是指需要通過數(shù)據(jù)交換平臺(tái)來獲取其他部門或者基礎(chǔ)數(shù)據(jù)庫(kù)數(shù)據(jù)的業(yè)務(wù)系統(tǒng)。目標(biāo)系統(tǒng)通過抽取、訂閱的方式在ESB總線上調(diào)用WEBService接口來獲取所需數(shù)據(jù)。
5.1 數(shù)據(jù)交換模式
目前國(guó)內(nèi)外數(shù)據(jù)交換的模式主要包括:利用中間數(shù)據(jù)庫(kù)進(jìn)行交換;通過ODI工具構(gòu)建視圖進(jìn)行交換;開發(fā)數(shù)據(jù)庫(kù)中間件或組件。西工大數(shù)據(jù)交換平臺(tái)采用ETL抽取和ESB發(fā)布的形式,以基礎(chǔ)數(shù)據(jù)庫(kù)作為中心節(jié)點(diǎn)對(duì)各個(gè)業(yè)務(wù)系統(tǒng)進(jìn)行數(shù)據(jù)交換。業(yè)務(wù)系統(tǒng)間的信息交換主要有兩種模式。
第一種是“請(qǐng)求與應(yīng)答模式”,某個(gè)系統(tǒng)獲取另一個(gè)系統(tǒng)的數(shù)據(jù),需獲取數(shù)據(jù)的系統(tǒng)向信息交換平臺(tái)發(fā)出請(qǐng)求消息,交換平臺(tái)將消息傳遞給提供數(shù)據(jù)的系統(tǒng),該系統(tǒng)向交換平臺(tái)發(fā)送應(yīng)答報(bào)文,交換平臺(tái)再將報(bào)文回傳給需求者。
第二種是“發(fā)布與預(yù)約模式”,某個(gè)系統(tǒng)需共享其他業(yè)務(wù)系統(tǒng)的數(shù)據(jù),需向交換平臺(tái)發(fā)出“預(yù)約”報(bào)文,當(dāng)被預(yù)約的數(shù)據(jù)更新時(shí),被預(yù)約數(shù)據(jù)所在系統(tǒng)向交換平臺(tái)發(fā)布“數(shù)據(jù)更新事件”消息,交換平臺(tái)立即將報(bào)文發(fā)送給預(yù)約者,從而實(shí)現(xiàn)數(shù)據(jù)的實(shí)時(shí)更新。
5.2 數(shù)據(jù)交換過程
西工大數(shù)據(jù)交換平臺(tái)借助基礎(chǔ)數(shù)據(jù)庫(kù)對(duì)數(shù)據(jù)進(jìn)行統(tǒng)一儲(chǔ)存,整合各個(gè)業(yè)務(wù)系統(tǒng)數(shù)據(jù)資源。為避免業(yè)務(wù)系統(tǒng)的升級(jí)和完善對(duì)其它業(yè)務(wù)系統(tǒng)正常運(yùn)行的影響,各業(yè)務(wù)系統(tǒng)間數(shù)據(jù)交換通過交換平臺(tái)的接口進(jìn)行的,不允許直接訪問基礎(chǔ)數(shù)據(jù)庫(kù)。好處是確?;A(chǔ)數(shù)據(jù)庫(kù)的數(shù)據(jù)安全,同時(shí),減輕多個(gè)業(yè)務(wù)系統(tǒng)對(duì)基礎(chǔ)數(shù)據(jù)庫(kù)同時(shí)訪問的壓力,應(yīng)對(duì)并發(fā)訪問帶來的響應(yīng)速度慢的問題。
下面以學(xué)生數(shù)據(jù)為例,對(duì)西工大數(shù)據(jù)交換平臺(tái)的轉(zhuǎn)換過程進(jìn)行說明。以在校學(xué)生信息為例,學(xué)工、教務(wù)、一卡通、財(cái)務(wù)、圖書館等系統(tǒng)都使用到它,目前各系統(tǒng)自行維護(hù)學(xué)生數(shù)據(jù),這種重復(fù)錄入可能導(dǎo)致數(shù)據(jù)不一致。
數(shù)據(jù)交換平臺(tái)采用主動(dòng)抽取訂閱、觸發(fā)兩種方式進(jìn)行數(shù)據(jù)交換。對(duì)于批量比較大,實(shí)時(shí)性要求不高的情況采用訂閱間斷性抽取的方式,對(duì)于實(shí)時(shí)性要求較高,數(shù)據(jù)量少的情況采用增量觸發(fā)的方式。
(1)新生入學(xué)
新生數(shù)據(jù)從招生系統(tǒng)開始至迎新系統(tǒng)完成,期間與各系統(tǒng)存在著反復(fù)的數(shù)據(jù)傳遞,其數(shù)據(jù)聯(lián)系如圖2所示。
圖2 新生入學(xué)期間系統(tǒng)間的數(shù)據(jù)傳遞
各系統(tǒng)數(shù)據(jù)流轉(zhuǎn)如下:
(1)從省招辦系統(tǒng)將新生數(shù)據(jù)導(dǎo)入招生系統(tǒng),獲取新生基本信息,包括:考號(hào)、姓名、專業(yè)、成績(jī)、聯(lián)系方式、照片等信息,招生系統(tǒng)編制學(xué)號(hào),打印通知書。基礎(chǔ)數(shù)據(jù)庫(kù)通過訂閱方式將招生系統(tǒng)中的新生信息導(dǎo)入基礎(chǔ)數(shù)據(jù)庫(kù)。
(2)教務(wù)系統(tǒng)完成分班,產(chǎn)生新生班級(jí)信息。基礎(chǔ)數(shù)據(jù)庫(kù)采用訂閱方式將教務(wù)系統(tǒng)中的班級(jí)信息更新至基礎(chǔ)數(shù)據(jù)庫(kù)。
(3)學(xué)生處的宿管系統(tǒng)劃分學(xué)生宿舍。產(chǎn)生宿舍信息被訂閱到基礎(chǔ)數(shù)據(jù)庫(kù)中。
(4)一卡通讀取學(xué)生基本信息,采集照片,將卡號(hào)、照片信息交換至基礎(chǔ)數(shù)據(jù)庫(kù),學(xué)工系統(tǒng)通過訂閱基礎(chǔ)數(shù)據(jù)庫(kù)獲取一卡通的更新信息。
(5)迎新系統(tǒng)補(bǔ)填學(xué)生手機(jī)號(hào)、家庭聯(lián)系人等信息,更新報(bào)到狀態(tài)。迎新系統(tǒng)中學(xué)生報(bào)到狀態(tài)的改變實(shí)時(shí)觸發(fā)迎新系統(tǒng)發(fā)送報(bào)文至基礎(chǔ)數(shù)據(jù)庫(kù),基礎(chǔ)數(shù)據(jù)庫(kù)接收?qǐng)?bào)文,將迎新系統(tǒng)中數(shù)據(jù)進(jìn)行標(biāo)準(zhǔn)格式轉(zhuǎn)換后寫入至基礎(chǔ)數(shù)據(jù)庫(kù),同時(shí)觸發(fā)學(xué)工、教務(wù)系統(tǒng)相應(yīng)的接口函數(shù)將學(xué)生報(bào)到狀態(tài)信息回填至學(xué)工、教務(wù)系統(tǒng)。
(6)財(cái)務(wù)系統(tǒng)產(chǎn)生的學(xué)費(fèi)、宿舍費(fèi)用等繳納信息的交換對(duì)實(shí)時(shí)性要求較高,固采用觸發(fā)機(jī)制。通過基礎(chǔ)數(shù)據(jù)庫(kù)將繳費(fèi)信息回填至學(xué)工、教務(wù)系統(tǒng)。
(7)圖書館從迎新系統(tǒng)讀取已報(bào)道的學(xué)生信息,為一卡通開通借閱功能。該部分采用周期訂閱的方式從基礎(chǔ)數(shù)據(jù)庫(kù)中獲取信息。
學(xué)校業(yè)務(wù)系統(tǒng)多,數(shù)據(jù)量大,數(shù)據(jù)質(zhì)量較差。數(shù)據(jù)清洗的任務(wù)繁重,為保證數(shù)據(jù)的準(zhǔn)確性、一致性,數(shù)據(jù)清洗在三個(gè)層面進(jìn)行:第一層,原始應(yīng)用層:在數(shù)據(jù)源所在的業(yè)務(wù)系統(tǒng)中進(jìn)行數(shù)據(jù)清洗;第二層,ETL層:在數(shù)據(jù)進(jìn)行抽取轉(zhuǎn)換時(shí)進(jìn)行清洗;第三層,目標(biāo)數(shù)據(jù)庫(kù)層:在數(shù)據(jù)裝入基礎(chǔ)數(shù)據(jù)庫(kù)后進(jìn)行清洗。我們主要討論在數(shù)據(jù)抽取轉(zhuǎn)換過程中(ETL層)進(jìn)行數(shù)據(jù)清洗。
數(shù)據(jù)清洗的實(shí)現(xiàn):
數(shù)據(jù)清洗在數(shù)據(jù)抽取配置中同時(shí)進(jìn)行,這里我們采用數(shù)據(jù)交換平臺(tái)中自帶的DI(Data Interchange)工具通過界面配置進(jìn)行清洗轉(zhuǎn)換。數(shù)據(jù)抽取清洗配置包括:(1)選擇從哪個(gè)業(yè)務(wù)系統(tǒng)的哪個(gè)數(shù)據(jù)表(包括關(guān)系型數(shù)據(jù)庫(kù)、webservice、Excel)抽取到基礎(chǔ)數(shù)據(jù)庫(kù)中對(duì)應(yīng)的哪個(gè)表。(2)進(jìn)行兩個(gè)表的數(shù)據(jù)項(xiàng)對(duì)應(yīng),包括設(shè)定的關(guān)鍵字。(3)進(jìn)行數(shù)據(jù)清洗設(shè)定,包括代碼轉(zhuǎn)換、字段組合拆分、字段默認(rèn)值等。
本文從西工大業(yè)務(wù)系統(tǒng)間的交換需求出發(fā),以提高數(shù)據(jù)共享為目的,提出建立數(shù)據(jù)交換平臺(tái)的策略,詳細(xì)介紹了數(shù)據(jù)交換平臺(tái)的整體架構(gòu)、交換模式和交換過程,以及數(shù)據(jù)清洗方案。在一定程度上解決了校園信息化建設(shè)中出現(xiàn)的信息分散、缺乏共享、集成困難等問題,為實(shí)現(xiàn)數(shù)字化校園提供了可行性方案。但是,高校信息化建設(shè)是一個(gè)需要不斷積累、修正、迭代的過程,信息共享和標(biāo)準(zhǔn)化建設(shè)仍在探索階段,還需要更深入的研究與實(shí)踐。
[1]郭文越,陳虹,劉萬軍.基于SOA的數(shù)據(jù)共享與交換平臺(tái)[J].計(jì)算機(jī)工程,2010,36(19):280-282.
[2]賀志強(qiáng),宋衍,高越.教育資源元數(shù)據(jù)規(guī)范標(biāo)準(zhǔn)及支撐平臺(tái)的設(shè)計(jì)研究[J].現(xiàn)代教育技術(shù),2010,20(2):109-111.
[3]刁宇.基于數(shù)字化校園的數(shù)據(jù)交換平臺(tái)的研究與實(shí)現(xiàn)[D].長(zhǎng)春:東北師范大學(xué),2013.
周曉菊(1982—),女,陜西西安人,大學(xué)本科,學(xué)士,現(xiàn)任西北工業(yè)大學(xué)信息中心應(yīng)用系統(tǒng)中心軟件工程師,中級(jí)工程師,專業(yè)技術(shù)崗,獲得項(xiàng)目管理師PMP認(rèn)證,主要研究方向?yàn)樾@信息化建設(shè)和數(shù)據(jù)交換共享,參與完成西北工業(yè)大學(xué)信息化頂層設(shè)計(jì)、標(biāo)準(zhǔn)規(guī)范、基礎(chǔ)數(shù)據(jù)庫(kù)、數(shù)據(jù)交換平臺(tái)等項(xiàng)目建設(shè),參與西北工業(yè)大學(xué)政策研究基金項(xiàng)目《我校信息化建設(shè)模式研究》的建設(shè)。