趙國慶 饒欽煥 張云徽
摘要:數(shù)據(jù)中心具有收集、處理、存儲的功能,可以為學(xué)校提供信息共享服務(wù)。以云南國土資源職業(yè)學(xué)院為例,對學(xué)校的數(shù)據(jù)中心平臺建設(shè)內(nèi)容進行探究,并實際應(yīng)用開發(fā)的兩個系統(tǒng),取得了較好的成效。
關(guān)鍵詞:數(shù)據(jù)中心;信息標準;異構(gòu)數(shù)據(jù);數(shù)據(jù)交換
中圖分類號:G712 文獻標志碼:A 文章編號:1674-9324(2019)36-0240-03
一、引言
隨著物聯(lián)網(wǎng)、云計算、大數(shù)據(jù)等信息技術(shù)進入高校,學(xué)校逐步從“數(shù)字化校園”進入到“智慧校園”階段。智慧校園的實現(xiàn)需要各類業(yè)務(wù)應(yīng)用的支撐,并產(chǎn)生大量的數(shù)據(jù)作為分析決策應(yīng)用。如何對一定規(guī)模的應(yīng)用系統(tǒng)所產(chǎn)生的大量數(shù)據(jù)進行收集、處理、存儲直至共享?數(shù)據(jù)中心平臺的建設(shè)十分重要。本文以“云南省地質(zhì)礦產(chǎn)勘查開發(fā)局科技創(chuàng)新基金項目(編號2016JJ03)”的課題一“現(xiàn)代信息技術(shù)環(huán)境下高職學(xué)生學(xué)情的調(diào)查及分析”的研究成果為例,提出數(shù)據(jù)中心建設(shè)的主要內(nèi)容,并對建設(shè)過程中應(yīng)注意的問題加以闡述。
二、數(shù)據(jù)中心Data Center定義
國際第一部以數(shù)據(jù)中心為對象的技術(shù)規(guī)范標準ANSI/TIA 942-2005將數(shù)據(jù)中心定義為:數(shù)據(jù)中心的主要功能是容納一個計算機房和它的支持區(qū)域的一個建筑物或一個建筑物的部分。國內(nèi)數(shù)據(jù)中心的定義:有從物理地域范圍出發(fā),僅僅是建筑物及建筑物內(nèi)的設(shè)施和設(shè)備的統(tǒng)稱,稱為物理數(shù)據(jù)中心;有從數(shù)據(jù)和應(yīng)用范圍出發(fā)定義邏輯數(shù)據(jù)中心,包括操作型數(shù)據(jù)存儲區(qū)數(shù)據(jù)庫ODS(Operational Data Store)、數(shù)據(jù)倉庫DW(Data Warehouse)、數(shù)據(jù)轉(zhuǎn)換ETL(Extraction、Transformation、Loading)、商務(wù)智能應(yīng)用、元數(shù)據(jù)管理等;第三種情況為物理和邏輯定義結(jié)合的定義,是一種廣義數(shù)據(jù)中心定義。本文從邏輯角度出發(fā),研究高職院校數(shù)據(jù)中心的建設(shè)內(nèi)容。
三、數(shù)據(jù)中心建設(shè)總體目標
高校的共享數(shù)據(jù)中心是收集、存儲、處理學(xué)校各業(yè)務(wù)應(yīng)用系統(tǒng)間的數(shù)據(jù)和部門間的交換數(shù)據(jù)并共享給系統(tǒng),進而為全校師生提供信息共享服務(wù)的平臺。共享數(shù)據(jù)中心平臺將各類異構(gòu)數(shù)據(jù)有效管理起來,并提供數(shù)據(jù)訪問的方法,為系統(tǒng)集成和系統(tǒng)間的數(shù)據(jù)共享提供平臺,保證數(shù)據(jù)的及時性、完整性、一致性。其總體目標是:(1)實現(xiàn)數(shù)字化校園統(tǒng)一信息編碼,數(shù)字化校園建設(shè)內(nèi)容為實現(xiàn)統(tǒng)一身份認證、建立一個門戶、創(chuàng)建一套數(shù)據(jù),而信息編碼的統(tǒng)一是基礎(chǔ)。(2)實現(xiàn)共享數(shù)據(jù)中心的數(shù)據(jù)“誰產(chǎn)生、誰維護”,保證數(shù)據(jù)只有唯一的維護者。(3)實現(xiàn)業(yè)務(wù)系統(tǒng)間數(shù)據(jù)共享,通過調(diào)用共享數(shù)據(jù)中心發(fā)布的Web服務(wù)、數(shù)據(jù)總線以及API接口等,實現(xiàn)業(yè)務(wù)系統(tǒng)中公共數(shù)據(jù)的共享。(4)實現(xiàn)通過共享數(shù)據(jù)中心獲取和更新部門需要的公共數(shù)據(jù)和交換數(shù)據(jù)信息。
四、數(shù)據(jù)中心整體框架
業(yè)務(wù)應(yīng)用系統(tǒng)要求數(shù)據(jù)共享中心提供的數(shù)據(jù)必須是權(quán)威的、最新的,以滿足數(shù)據(jù)共享和數(shù)據(jù)交換的需求。通常共享數(shù)據(jù)中心由統(tǒng)一信息標準庫、中心數(shù)據(jù)庫、異構(gòu)數(shù)據(jù)消除模塊和數(shù)據(jù)同步交換模塊四個部分組成,整體結(jié)構(gòu)如下:
(一)統(tǒng)一信息標準
信息標準指在信息的產(chǎn)生、傳輸、交換和處理時采用的統(tǒng)一規(guī)則、概念、名詞、術(shù)語、傳輸格式、表達格式和代碼。信息標準化是數(shù)字化校園建設(shè)中一項重要的基礎(chǔ)性工作,是實現(xiàn)數(shù)據(jù)庫合理設(shè)計、信息有效共享、數(shù)據(jù)高效交換、信息系統(tǒng)成功建設(shè)的保證。只有統(tǒng)一學(xué)校范圍內(nèi)的信息標準,才能實現(xiàn)信息系統(tǒng)的數(shù)據(jù)按照統(tǒng)一標準進行存儲,才能消除對數(shù)據(jù)的重復(fù)管理,才可能真正解決“信息孤島”問題。同時,建立統(tǒng)一的信息標準,以保證數(shù)據(jù)的唯一性,做到數(shù)據(jù)“誰生產(chǎn)、誰維護”,讓數(shù)據(jù)真實準確地反映整體情況,進而提供決策管理依據(jù)。
依據(jù)教育部2012年發(fā)布的《教育信息化行業(yè)標準》,以及2015年發(fā)布的《職業(yè)院校數(shù)字校園建設(shè)規(guī)范》,學(xué)校的共享數(shù)據(jù)中心信息標準參照國家標準、教育部標準、行業(yè)標準,按職能域分為13個數(shù)據(jù)集(圖2)。
(二)共享數(shù)據(jù)中心
校園共享數(shù)據(jù)中心是統(tǒng)一的數(shù)據(jù)資源共享與交換應(yīng)用服務(wù)平臺,是對數(shù)字化校園中的各種結(jié)構(gòu)化數(shù)據(jù)進行統(tǒng)一管理的平臺,是與各類應(yīng)用系統(tǒng)進行數(shù)據(jù)交換的平臺,是實現(xiàn)數(shù)字化校園數(shù)據(jù)共享,并提供深層次數(shù)據(jù)挖掘、數(shù)據(jù)分析的重要基礎(chǔ)。共享數(shù)據(jù)中心的建設(shè)從分析現(xiàn)有業(yè)務(wù)系統(tǒng)、分析業(yè)務(wù)系統(tǒng)或部門間的數(shù)據(jù)交換、分析數(shù)據(jù)儲存三個方面著手。
1.業(yè)務(wù)系統(tǒng)分析。高職院校的目的是培養(yǎng)具備職業(yè)應(yīng)用能力的高技能型人才,多數(shù)學(xué)校都建設(shè)了相關(guān)的業(yè)務(wù)系統(tǒng)使用。學(xué)校經(jīng)過幾年的數(shù)字化校園建設(shè),引入了多個業(yè)務(wù)部門工作相關(guān)的應(yīng)用系統(tǒng),包括:招生管理系統(tǒng)、數(shù)字迎新系統(tǒng)、學(xué)生工作管理系統(tǒng)、電子離校系統(tǒng)、就業(yè)管理系統(tǒng)、人力資源管理系統(tǒng)、國有資產(chǎn)管理系統(tǒng)等。
2.數(shù)據(jù)交換分析。通常,學(xué)校信息化建設(shè)引入的業(yè)務(wù)系統(tǒng)是異構(gòu)的,異構(gòu)來自計算機體系結(jié)構(gòu)、操作系統(tǒng)以及數(shù)據(jù)庫管理系統(tǒng),共享數(shù)據(jù)中心通過異構(gòu)數(shù)據(jù)消除模塊抽取、清洗、整理異構(gòu)數(shù)據(jù)再存儲,整個過程存在著很多數(shù)據(jù)交換關(guān)系。首先,我們要分析數(shù)據(jù)來源的權(quán)威部門,在支撐這些部門使用的業(yè)務(wù)系統(tǒng)交換獲取權(quán)威數(shù)據(jù)到數(shù)據(jù)中心,再用同步模塊交換其他業(yè)務(wù)應(yīng)用。學(xué)校管理的對象是人、財、物,學(xué)校的業(yè)務(wù)應(yīng)用離不開這三項,圖3展示學(xué)校部門之間、應(yīng)用系統(tǒng)之間有關(guān)學(xué)生基本信息、學(xué)籍信息的數(shù)據(jù)交換關(guān)系。
3.數(shù)據(jù)存儲原則。數(shù)據(jù)庫中心庫存儲數(shù)據(jù)時應(yīng)遵循以下原則:(1)權(quán)威性:數(shù)據(jù)中心庫的數(shù)據(jù)是業(yè)務(wù)部門的應(yīng)用系統(tǒng)經(jīng)過數(shù)據(jù)交換得到的,數(shù)據(jù)應(yīng)具有權(quán)威性,否則失去共享的意義。(2)正確性:保證共享數(shù)據(jù)中心的數(shù)據(jù)是正確的,而要達到這個目標必須采用統(tǒng)一的標準、統(tǒng)一的編碼和統(tǒng)一的代碼。(3)公共性:數(shù)據(jù)中心庫存儲的數(shù)據(jù)是公共數(shù)據(jù),數(shù)據(jù)由權(quán)威部門生產(chǎn)并維護,供其他部門使用,在此過程中,部門的特殊數(shù)據(jù)不必保存到數(shù)據(jù)中心。(4)交換性:數(shù)據(jù)中心庫存儲的數(shù)據(jù)是需要交換的,數(shù)據(jù)由權(quán)威部門交換進來,其他部門可以從中心數(shù)據(jù)庫獲取這些數(shù)據(jù),從而實現(xiàn)部門之間數(shù)據(jù)的交換。
(三)數(shù)據(jù)中心庫
學(xué)校的數(shù)據(jù)共享中心庫可以涵蓋學(xué)校人、財、物直接相關(guān)的信息,還包括網(wǎng)絡(luò)安全行為、消息、一卡通、門禁、辦事事務(wù),以及人和物的全生命周期等主題庫(圖4)。
(四)異構(gòu)數(shù)據(jù)
1.異構(gòu)數(shù)據(jù)類型。系統(tǒng)異構(gòu):業(yè)務(wù)應(yīng)用系統(tǒng)數(shù)據(jù)源所依賴的操作系統(tǒng)、數(shù)據(jù)庫管理系統(tǒng)、業(yè)務(wù)系統(tǒng)的應(yīng)用模式之間的不同構(gòu)成了系統(tǒng)異構(gòu)。如學(xué)校的教務(wù)管理系統(tǒng)是基于Windows系統(tǒng),以O(shè)racle作為數(shù)據(jù)庫,采用C/$和B/$混合結(jié)構(gòu)開發(fā)。其他系統(tǒng)多數(shù)基于Linux系統(tǒng),以O(shè)racIe作為數(shù)據(jù)庫,采用B,s結(jié)構(gòu)。
模式異構(gòu):即數(shù)據(jù)源在存儲模式上的不同。存儲模式主要包括關(guān)系模式、對象模式、對象關(guān)系模式和文檔嵌套模式等幾種,其中關(guān)系模式(關(guān)系數(shù)據(jù)庫)為主流存儲模式。而且,即便是同一類存儲模式,它們的模式結(jié)構(gòu)可能也存在著差異。例如不同的關(guān)系數(shù)據(jù)管理系統(tǒng)的數(shù)據(jù)類型等方面并不是完全一致的,如Ora-cIe、DB2、Sybase、Informix、SQL Server等。
語義異構(gòu):如果各業(yè)務(wù)系統(tǒng)間沒有使用統(tǒng)一的編碼標準,而由軟件開發(fā)者或系統(tǒng)用戶自定義代碼,容易導(dǎo)致代碼不一致。代碼不一致是語義異構(gòu)的一種,指同一實體在不同業(yè)務(wù)系統(tǒng)中使用不同的代碼表示。語義異構(gòu)的其他兩種表現(xiàn)是:第一,命名不一致,指實體命名的差異,包括同義異名和同名異義;第二,數(shù)據(jù)類型不一致,指相同的數(shù)據(jù)在不同業(yè)務(wù)數(shù)據(jù)庫中的取值不同。
2.異構(gòu)數(shù)據(jù)消除。系統(tǒng)異構(gòu)和模式異構(gòu)可以通過建立共享數(shù)據(jù)中心解決。對于不同的數(shù)據(jù)庫管理系統(tǒng)、不同的業(yè)務(wù)系統(tǒng)的應(yīng)用模式,主流軟件開發(fā)工具都提供了成熟的框架解決。如微軟的.NET Framework提供不同的.NET數(shù)據(jù)提供者連接相應(yīng)的DBMS:.NETData Provider for SQL Server、.NET Data Provider for or-acle、.NET Data Provider for OLE DB、.NET Data ProviderforODBC。
建立信息標準,在共享數(shù)據(jù)中心和業(yè)務(wù)系統(tǒng)間建立映射關(guān)系是消除語義異構(gòu)數(shù)據(jù)的一種解決辦法。映射關(guān)系主要包括數(shù)據(jù)中心數(shù)據(jù)庫和各業(yè)務(wù)系統(tǒng)數(shù)據(jù)庫之間字段的名稱、類型、長度、取值的對照,當(dāng)業(yè)務(wù)系統(tǒng)和數(shù)據(jù)中心有數(shù)據(jù)交換時,數(shù)據(jù)交換程序按照映射關(guān)系交換數(shù)據(jù),從而消除語義異構(gòu)。
五、數(shù)據(jù)中心建設(shè)應(yīng)注意的問題
(一)信息編碼的標準規(guī)范化
建立數(shù)據(jù)中心,目的是服務(wù)于學(xué)校的多個部門及部門的業(yè)務(wù)應(yīng)用。由于各部門的系統(tǒng)設(shè)計具有單一性,在系統(tǒng)建設(shè)時采用不同的編碼方式,這是產(chǎn)生“信息孤島”的原因之一。
(二)數(shù)據(jù)源產(chǎn)生問題
數(shù)據(jù)中心存儲的數(shù)據(jù)來源于部門的業(yè)務(wù)應(yīng)用系統(tǒng),如果系統(tǒng)產(chǎn)生了“臟”數(shù)據(jù),勢必影響其他與數(shù)據(jù)中心交換的系統(tǒng),因此數(shù)據(jù)權(quán)威部門務(wù)必正確使用業(yè)務(wù)系統(tǒng)。而在數(shù)據(jù)交換功能上,數(shù)據(jù)中心需要考慮建立數(shù)據(jù)源質(zhì)量監(jiān)控體系,先做質(zhì)量監(jiān)控,再執(zhí)行數(shù)據(jù)交換。
(三)信息化體質(zhì)問題
學(xué)校信息化的建設(shè)是“一把手”工程,是相當(dāng)長時間的建設(shè)周期,需要各個相關(guān)部門的配合才能順利開展,需要建立一系列的信息化制度,并嚴格實行,以此來保障數(shù)據(jù)中心的正常運行。
六、結(jié)語
數(shù)據(jù)是信息系統(tǒng)產(chǎn)生的最有價值的東西,將數(shù)據(jù)按規(guī)范存儲并共享,是提供決策依據(jù)、實現(xiàn)智慧校園的首要工作。本文依托筆者申報的云南省地礦局科技創(chuàng)新基金項目,對信息標準建設(shè)進行研究與探索,提出共享數(shù)據(jù)中心庫的建設(shè)。所開發(fā)的“信息中心數(shù)據(jù)交換系統(tǒng)V1.0.0”(軟著登字第2923604號)和“共享數(shù)據(jù)中心系統(tǒng)(V1.0.0)”(軟著登字第2388360號)兩個平臺應(yīng)用于學(xué)校的多個異構(gòu)應(yīng)用系統(tǒng),取得了較好的成效。下一步將繼續(xù)研究大數(shù)據(jù)分析技術(shù),挖掘共享數(shù)據(jù)中心的數(shù)據(jù),實現(xiàn)數(shù)據(jù)價值。