卜南翔 徐述 王吉祥 曾海洋
摘 要:數(shù)據(jù)集成是實現(xiàn)數(shù)據(jù)共享的有效手段,目前實現(xiàn)數(shù)據(jù)集成的主要方法有數(shù)據(jù)倉庫等,而在這些方法中都存在數(shù)據(jù)使用的耦合問題,文章對此進行研究,通過對SDO的概念闡述以及對高校數(shù)據(jù)集成平臺中SDO的應(yīng)用分析,進而提出SDO在該平臺中的實現(xiàn)方法。
關(guān)鍵詞:高校;數(shù)據(jù)集成;應(yīng)用分析;SDO
近年來,信息技術(shù)在我國各行業(yè)的應(yīng)用不斷深入,我國數(shù)字化建設(shè)得到快速發(fā)展。高校作為科研與知識傳播的前沿,也需加快對數(shù)據(jù)集成平臺的建設(shè)與服務(wù)數(shù)據(jù)對象(Service Data Objects,SDO)的應(yīng)用。SDO在數(shù)據(jù)集成平臺中的應(yīng)用,主要是為數(shù)據(jù)集成平臺提供一個良好的解決方案,提升高校的數(shù)字化與精細化管理水平。
1 案例概述
某高校為提高精細化與數(shù)字化管理水平,在數(shù)據(jù)集成平臺中應(yīng)用SDO,以此對高校的教學(xué)、管理等資源進行有效的整合,對用戶管理進行統(tǒng)一,并實現(xiàn)對資源的合理分配與利用。高校在進行集成平臺建設(shè)中有諸多困難,比如規(guī)劃無法有效落實,關(guān)鍵數(shù)據(jù)歸屬管理無法明確等均制約著集成平臺的建立。因此,針對高校自身存在的問題,依托數(shù)字校園新契機,制定合理的設(shè)計方案。
本次數(shù)據(jù)集成平臺的建設(shè)以實現(xiàn)管理效益最大化為目的,在建設(shè)中應(yīng)用現(xiàn)代管理思想,并加強對精細化的設(shè)計延伸。高校在進行精細化管理與數(shù)據(jù)集成平臺建設(shè)中需遵循:數(shù)據(jù)化原則、程序化原則、操作性原則與標準化原則。高校在數(shù)據(jù)集成平臺建設(shè)中,為強化對數(shù)據(jù)的集成與應(yīng)用,在數(shù)據(jù)集成平臺中應(yīng)用SDO,促進精細化建設(shè)與數(shù)字化校園管理。本文對高校數(shù)據(jù)集成平臺中SDO的應(yīng)用分析都是建立在此基礎(chǔ)上的。
2 SDO相關(guān)技術(shù)分析
2.1 SDO概述
SDO技術(shù)可以方便地實現(xiàn)對程序數(shù)據(jù)的統(tǒng)一訪問,并且能夠?qū)崿F(xiàn)編程模型的共同建立[1]。在對該技術(shù)的有效應(yīng)用下,數(shù)據(jù)操作方法得到統(tǒng)一,在進行應(yīng)用程序查詢等過程中數(shù)據(jù)訪問變得更加輕松。SDO已成為我國高校數(shù)據(jù)集成平臺應(yīng)用的重要支撐。
SDO具備以下兩個方面的特征:(1)支持動態(tài)與靜態(tài)編程模型。靜態(tài)接口應(yīng)用,使得編程模型簡單,且十分適用元數(shù)據(jù)明確的情況[2]。但動態(tài)查詢中,查詢產(chǎn)生的某些結(jié)果數(shù)據(jù)無法進行明確,從而無法使用靜態(tài)接口。所以在進行數(shù)據(jù)編程的時候,需同時支持動態(tài)與靜態(tài)數(shù)據(jù)API。
(2)支持離線編程模型。SDO主要通過對客戶端數(shù)據(jù)讀取,即時將數(shù)據(jù)保存并對這些數(shù)據(jù)進行相應(yīng)的操作,然后將其提交至數(shù)據(jù)源。即使客戶端不在線,系統(tǒng)也可以實現(xiàn)數(shù)據(jù)的修改。
2.2 SDO體系結(jié)構(gòu)
SDO體系結(jié)構(gòu)是由數(shù)據(jù)源、數(shù)據(jù)圖等要素構(gòu)成的,具體包含:(1)數(shù)據(jù)源。SDO能實現(xiàn)對多種數(shù)據(jù)源的訪問與更新。(2)數(shù)據(jù)中介服務(wù)。在不同的數(shù)據(jù)源中SDO采用不同的中介服務(wù)來保證不同數(shù)據(jù)的中介服務(wù)。(3)數(shù)據(jù)對象。數(shù)據(jù)對象是SDO的核心內(nèi)容,包含了各種數(shù)據(jù)、序列操作等,能夠?qū)崿F(xiàn)對非結(jié)構(gòu)化數(shù)據(jù)的有效支持。(4)數(shù)據(jù)圖。數(shù)據(jù)圖是依據(jù)元數(shù)據(jù)進行封裝。SDO在進行數(shù)據(jù)源訪問時,會對數(shù)據(jù)圖進行更新操作。(5)元數(shù)據(jù)。元數(shù)據(jù)描述數(shù)據(jù)的類型及關(guān)系,是數(shù)據(jù)圖創(chuàng)建的基礎(chǔ)。
3 高校數(shù)據(jù)集成平臺中SDO應(yīng)用技術(shù)
3.1 HDFS分布式存儲
分布式存儲系統(tǒng)(Hadoop Distributed File System,HDFS)具有高容錯與低成本的特點。HDFS由DataNode(實際數(shù)據(jù)存儲)與NameNode(文件系統(tǒng)元數(shù)據(jù)管理)組成。在HDFS單集群中只有一個主節(jié)點NameNode,其他節(jié)點是從節(jié)點DataNode。
對文件進行存儲時,HDFS將對文件進行數(shù)據(jù)塊分割,每個數(shù)據(jù)塊大小默認為128 Mb。每個小數(shù)據(jù)塊默認復(fù)制兩次,因此,每個數(shù)據(jù)塊在分布式存儲系統(tǒng)中有3份相同數(shù)據(jù)副本。然后NameNode會對數(shù)據(jù)塊進行存儲位置隨機分配,選擇合適的DataNode節(jié)點進行存儲,保證數(shù)據(jù)塊均衡地分布在HDFS中[3]。
3.2 Spark生態(tài)集成環(huán)境
Spark是一個能夠?qū)崿F(xiàn)快速運算的集群計算平臺,建立在內(nèi)存計算之上,對大數(shù)據(jù)環(huán)境下的數(shù)據(jù)能進行高效的處理,同時還能保證高容錯性。Spark的適應(yīng)性較強,在不同的分布式平臺中都能得到有效應(yīng)用。
Spark的生態(tài)集成環(huán)境包含Spark Core,Spark SQL,SparkStreaming等,并能夠為大數(shù)據(jù)云端提供一站式解決平臺。Spark集成開發(fā)環(huán)境的典型安裝是加載scala 2.9.3:對features和plugins兩個目錄下的文件進行拷貝并壓縮,重新啟動Eclipse,在Eclipse中依次選擇“Help”,最后完成安裝。
3.3 Python大數(shù)據(jù)開發(fā)
Python作為一門年輕、優(yōu)雅又簡潔的計算機語言,在大數(shù)據(jù)開發(fā)與集成、深度學(xué)習(xí)的應(yīng)用中得到了廣泛應(yīng)用。Python對大數(shù)據(jù)進行分析時最常使用NumPy庫與Pandas庫。
4 高校數(shù)據(jù)集成平臺中SDO的應(yīng)用實現(xiàn)
4.1 元數(shù)據(jù)
4.1.1 數(shù)據(jù)源元數(shù)據(jù)
數(shù)據(jù)源元數(shù)據(jù)是一種描述性文件,通過對數(shù)據(jù)源的驅(qū)動類型、端口與數(shù)據(jù)結(jié)構(gòu)等進行描述[4]。在SDO2.1中還尚未對數(shù)據(jù)中介服務(wù)的相關(guān)內(nèi)容進行涉及,對數(shù)據(jù)源的定義也相對較少,所以對SDO元數(shù)據(jù)擴展設(shè)計可以定義為元數(shù)據(jù)的數(shù)據(jù)源描述,將其簡稱為動態(tài)系統(tǒng)開發(fā)方法(Dynamic Systems Development Method,DSDM)。DSDM對數(shù)據(jù)源進行定義時,主體結(jié)構(gòu)有:根元素(DSInof)、驅(qū)動類型(DSDrive)與主鍵(DSKey)等。
4.1.2 對象元數(shù)據(jù)
對象元數(shù)據(jù)是對數(shù)據(jù)的組成結(jié)構(gòu)與關(guān)系的描述,這也是SDO創(chuàng)建與數(shù)據(jù)處理的基礎(chǔ),而中介服務(wù)封裝數(shù)據(jù)圖也是以此為標準進行工作的。對象元數(shù)據(jù)也需建立起元模型DOM,DOM是通過對DSDM的擴展得到。DOM模型主要有兩個方面的內(nèi)容,分別是數(shù)據(jù)集成與數(shù)據(jù)結(jié)構(gòu)描述。
4.2 數(shù)據(jù)服務(wù)中介
在進行多種數(shù)據(jù)源集成時,要通過不同的數(shù)據(jù)中介服務(wù)對數(shù)據(jù)源進行連接,提高高校對系統(tǒng)開發(fā)效率[5]。通用模塊主要有元數(shù)據(jù)解析器。元數(shù)據(jù)解析器對元數(shù)據(jù)的解析,并對信息進行提取。通過數(shù)據(jù)圖封裝模塊的應(yīng)用,可以將數(shù)據(jù)序列轉(zhuǎn)化為數(shù)據(jù)圖。
數(shù)據(jù)圖的請求工作流程為:數(shù)據(jù)圖請求→解析元數(shù)據(jù)文件→連接數(shù)據(jù)源→生成本地數(shù)據(jù)→生成目標數(shù)據(jù)圖。
4.3 統(tǒng)一訪問界面設(shè)計
集成系統(tǒng)化為異構(gòu)數(shù)據(jù)源提供進行訪問的統(tǒng)一界面。數(shù)據(jù)源在異構(gòu)分布中對用戶是透明的,形成一對一的數(shù)據(jù)源操作。用戶登錄到界面后,點擊數(shù)據(jù)查詢,在界面中進行條件檢索,檢索條件可以是關(guān)鍵字、數(shù)據(jù)源名稱與類型等。
4.4 數(shù)據(jù)源的配置信息
數(shù)據(jù)集成平臺在收到系統(tǒng)任務(wù)后,會根據(jù)不同的數(shù)據(jù)源進行信息的轉(zhuǎn)換與集成[6]。用戶在進行數(shù)據(jù)源的添加或者刪除等操作時,只需對相關(guān)的信息進行配置更改便可完成。
5 結(jié)語
本文基于高校進行精細化、數(shù)字化校園建設(shè),緊緊圍繞數(shù)據(jù)集成平臺中SDO的應(yīng)用進行分析,結(jié)論如下:SDO應(yīng)用中,通過SDOAPI替代數(shù)據(jù)接口,實現(xiàn)對數(shù)據(jù)的獲取,并對數(shù)據(jù)進行處理,而系統(tǒng)中的數(shù)據(jù)中介服務(wù)被當作包裝器;SDO元數(shù)據(jù)在功能上與中間件等基本相同,也即利用公共模型,對不同的數(shù)據(jù)源實現(xiàn)統(tǒng)一數(shù)據(jù)視圖。
高校數(shù)據(jù)集成平臺中的SDO應(yīng)用建立在良好的軟件與硬件環(huán)境中。SDO應(yīng)用的實現(xiàn)主要通過元數(shù)據(jù)、數(shù)據(jù)服務(wù)中介、統(tǒng)一訪問界面設(shè)計與數(shù)據(jù)源信息配置等完成。高校在進行數(shù)據(jù)集成平臺建設(shè)中有效應(yīng)用SDO,有助于實現(xiàn)高校管理的精細化與數(shù)字化,提高現(xiàn)代化高校管理水平。
[參考文獻]
[1]唐春波,郭文明,嚴靜東,等.FHIR數(shù)據(jù)集成平臺研究及其在連續(xù)醫(yī)療中的應(yīng)用[J].生物醫(yī)學(xué)工程研究,2017(2):178-182.
[2]萬歆,姚晴虹.基于異構(gòu)系統(tǒng)的數(shù)據(jù)集成平臺的搭建和應(yīng)用[J].醫(yī)療衛(wèi)生裝備,2016(2):61-63.
[3]肖培根,李海濤,朱凌,等.配網(wǎng)自動化規(guī)劃設(shè)計之數(shù)據(jù)集成平臺的研究與應(yīng)用[J].電子設(shè)計工程,2016(11):38-41.
[4]李景奇,卞藝杰.基于大數(shù)據(jù)挖掘的高校知識管理系統(tǒng)[J].計算機系統(tǒng)應(yīng)用,2017(9):54-61.
[5]吳振濤.基于數(shù)據(jù)倉庫技術(shù)的數(shù)據(jù)集成在數(shù)字化校園中的應(yīng)用[J].電子設(shè)計工程,2016(9):28-31.
[6]馬國耀,孫勇韜,馬玉玲.數(shù)據(jù)采集模板化技術(shù)在醫(yī)療大數(shù)據(jù)集成建設(shè)中的應(yīng)用[J].中國衛(wèi)生信息管理雜志,2016(4):414-416.