鄧林 四川職業(yè)技術(shù)學(xué)院 計算機科學(xué)系
隨著國家大力提倡“互聯(lián)網(wǎng)+”,現(xiàn)在各行各業(yè)都在大量使用互聯(lián)網(wǎng)來重構(gòu)本行業(yè)的數(shù)據(jù)系統(tǒng),這種趨勢也已經(jīng)滲透到各個行業(yè)。同時,數(shù)據(jù)的重要性也越發(fā)明顯,每個企業(yè)都會越來越重視各企業(yè)所產(chǎn)生的數(shù)據(jù),開發(fā)出適應(yīng)本單位的大數(shù)據(jù)系統(tǒng)顯得勢在必行。大數(shù)據(jù)包括結(jié)構(gòu)化、半結(jié)構(gòu)化和非結(jié)構(gòu)化等異構(gòu)數(shù)據(jù)源,其中結(jié)構(gòu)化數(shù)據(jù)是指存儲于數(shù)據(jù)庫之類的關(guān)系型數(shù)據(jù)庫中的數(shù)據(jù),非結(jié)構(gòu)化的數(shù)據(jù)指聲音、圖像等數(shù)據(jù),半結(jié)構(gòu)化則是介于兩者之間的一種非關(guān)系型數(shù)據(jù)文件。隨著大家對互聯(lián)網(wǎng)的依賴程序地提高,非結(jié)構(gòu)化數(shù)據(jù)越來越成為數(shù)據(jù)的主要部分,由此可見,異構(gòu)數(shù)據(jù)源的集成是相當(dāng)復(fù)雜的。我們要考慮如何去建立體系完整、標準統(tǒng)一、結(jié)構(gòu)合理、功能完善的大數(shù)據(jù)系統(tǒng),為單位或企業(yè)提供日常業(yè)務(wù)等提供綜合數(shù)據(jù)支撐。
整個系統(tǒng)前端首先接觸到數(shù)據(jù)的平臺就是數(shù)據(jù)采集平臺,數(shù)據(jù)采集平臺決定了初始數(shù)據(jù)的有效性,同時,數(shù)據(jù)的安全也顯得至關(guān)重要,為保證平臺的安全性,整個系統(tǒng)的終端在采集了實時數(shù)據(jù)后,利用安全手段通過數(shù)據(jù)單向傳輸存儲向?qū)>W(wǎng)大數(shù)據(jù)平臺傳輸終端數(shù)據(jù)。在傳輸過程中,對所有數(shù)據(jù)按照國家制定的該行業(yè)數(shù)據(jù)規(guī)范進行安全檢測存儲,檢測過程嚴格遵循數(shù)據(jù)的清洗、數(shù)據(jù)的加載以及數(shù)據(jù)的轉(zhuǎn)換的三大原則。并且終端錄入的實地數(shù)據(jù)按照接口規(guī)范以固定格式和固定路徑進行統(tǒng)一化存儲管理。
(1)由授過權(quán)的管理技術(shù)人員通過授權(quán)管理的主機在授權(quán)管理平臺中對設(shè)備進行授權(quán)記錄添加操作。
(2)授權(quán)管理技術(shù)人員將采集終端的設(shè)備連接到授權(quán)管理的主機上。
(3)授權(quán)管理技術(shù)人員登錄經(jīng)過授權(quán)的客戶端程序,通過該程序自動去查找當(dāng)前已連接的終端采集設(shè)備。
(4)授權(quán)管理技術(shù)人員對自動查找到的終端采集設(shè)備進行授權(quán)操作,允許其進行數(shù)據(jù)采集的權(quán)限,而客戶端程序則通過授權(quán)管理平臺對外接口進行查詢該設(shè)備的授權(quán)記錄。
(5)在授權(quán)管理平臺中查找到授權(quán)的相關(guān)數(shù)據(jù)時,授權(quán)相關(guān)的數(shù)據(jù)將通過對就的接口傳送至采集數(shù)據(jù)的終端設(shè)備上,并將本次授權(quán)相關(guān)的數(shù)據(jù)通過彈框的方式在采集終端的應(yīng)用程序中進行提示。
(6)如果授權(quán)管理平臺未查找到相關(guān)授權(quán)的任何數(shù)據(jù),也將通過彈框的方式在授權(quán)客戶端中進行提示。
(7)采集終端授權(quán)完成后,采集工作員可在授權(quán)截止日期前,提示采集到的信息必須在應(yīng)用程序中進行登錄。
(8)采集工作員開始進行所有數(shù)據(jù)的采集工作。
(9)采集工作員完成數(shù)據(jù)采集工作后,將采集終端再次連接到采集授權(quán)管理的主機上,通過授權(quán)管理客戶端進行數(shù)據(jù)同步操作。
(10)終端采集數(shù)據(jù)完成同步后,將通過授權(quán)管理客戶端進行反授權(quán)操作,反授權(quán)成功后的設(shè)備將無法使用上次授權(quán)信息進行登錄。
(11)重復(fù)進行前面九步,循環(huán)地進行數(shù)據(jù)采集任務(wù)。
關(guān)系型數(shù)據(jù)集成工具的主要功能是通過與外部系統(tǒng)接口的定制開發(fā),實現(xiàn)對來自政府、企事業(yè)和民眾等各類異構(gòu)的結(jié)構(gòu)化數(shù)據(jù)源的采集。隨后,通過關(guān)系型數(shù)據(jù)集成工具的關(guān)系型數(shù)據(jù)處理配置模塊、關(guān)系型數(shù)據(jù)處理管控模塊和關(guān)系型數(shù)據(jù)處理過程模塊實現(xiàn)對關(guān)系型數(shù)據(jù)的ETL處理,為數(shù)據(jù)倉庫提供完整、準確、統(tǒng)一、標準的數(shù)據(jù)。
關(guān)系型數(shù)據(jù)集成工具可以選擇一些開源的數(shù)據(jù)工具進行數(shù)據(jù)的操作,如Talend Open Studio等,將關(guān)系型數(shù)據(jù)集成以后便可以將數(shù)據(jù)傳遞給上層的分布式關(guān)系型數(shù)據(jù)庫進行存儲。
文件數(shù)據(jù)處理工具的功能是通過與外部系統(tǒng)接口的定制開發(fā),實現(xiàn)對來自外部系統(tǒng)各類文本數(shù)據(jù)的采集。隨后,通過文件數(shù)據(jù)處理工具的文件數(shù)據(jù)處理配置模塊、文件數(shù)據(jù)處理管控模塊和文件數(shù)據(jù)處理過程模塊實現(xiàn)對文本數(shù)據(jù)的ETL處理,為數(shù)據(jù)倉庫提供完整、準確、統(tǒng)標準的文件數(shù)據(jù)。
對于文本數(shù)據(jù)的處理,一般通過提前設(shè)置好配置文件、管控模塊和過程模塊,對收集到的各類文本文件進行處理,即可將文件提交給上層的分布式數(shù)據(jù)庫進行存儲。
多媒體數(shù)據(jù)處理工具的功能是通過與外部系統(tǒng)接口的定制開發(fā),實現(xiàn)對來自外部系統(tǒng)各類多媒體數(shù)據(jù)的采集。隨后,通過多媒體數(shù)據(jù)處理工具的多媒體數(shù)據(jù)處理配置模塊、多媒體數(shù)據(jù)處理管控模塊和多媒體數(shù)據(jù)處理過程模塊實現(xiàn)對多媒體數(shù)據(jù)的ETL處理,為數(shù)據(jù)倉庫提供完整準確、統(tǒng)一、標準的多媒體數(shù)據(jù)。
多媒體數(shù)據(jù)一般包括圖片、視頻、音頻文件等,通過多媒體數(shù)據(jù)處理工具可以將多媒體數(shù)據(jù)進行處理并以某種確定的形式儲存在分布式文件系統(tǒng)中或者分布式數(shù)據(jù)庫中。
流數(shù)據(jù)處理工具的功能是通過與外部系統(tǒng)接口的定制開發(fā),實現(xiàn)對來自外部系統(tǒng)流數(shù)據(jù)的采集。隨后,通過流數(shù)據(jù)處理工具的多媒體數(shù)據(jù)處理配置模塊、多媒體數(shù)據(jù)處理管控模塊和多媒體數(shù)據(jù)處理過程模塊實現(xiàn)對流數(shù)據(jù)快速處理。
流數(shù)據(jù)處理工具擬采用Storm進行開發(fā)。Storm是一個免費開源、分布式、高容錯的實時計算系統(tǒng)。Storm令持續(xù)不斷的流計算變得容易,彌補了Hadoop批處理所不能滿足的實時要求。Storm經(jīng)常用于在實時分析、在線機器學(xué)習(xí)、持續(xù)計算、分布式遠程調(diào)用和ETL等領(lǐng)域。Storm的部署管理非常簡單,而且,在同類的流式計算工具,Storm的性能也是非常出眾的。
本論文結(jié)合某行業(yè)開發(fā)的在建系統(tǒng),分別對前端數(shù)據(jù)源的構(gòu)成進行了分析,然后提出了數(shù)據(jù)采集的詳細步驟,對每一步如何操作進行了說明。最后,重點對每一種異構(gòu)數(shù)據(jù)源如何進行數(shù)據(jù)采集進行了分析,分別構(gòu)建相應(yīng)的采集平臺,實現(xiàn)每種異構(gòu)數(shù)據(jù)采集工具。在下一步研究工作中,將重點研究大數(shù)據(jù)下數(shù)據(jù)集成后如何使用的問題,因此還需做更多的研究。