摘 要:大數(shù)據(jù)時代檔案信息資源的不斷增加以及用戶的不斷拓展,對檔案信息資源共享平臺的數(shù)據(jù)處理流程提出了新的要求。文章論述了檔案信息資源共享平臺數(shù)據(jù)處理流程總體架構(gòu)按照確保平臺設(shè)計的可擴展性、充分重視數(shù)據(jù)的采集與存儲等原則進行設(shè)計。在分析平臺所要實現(xiàn)的功能需求基礎(chǔ)上,采用Hadoop技術(shù),從平臺數(shù)據(jù)處理流程中的數(shù)據(jù)采集、數(shù)據(jù)清洗與預(yù)處理、數(shù)據(jù)存儲及管理、數(shù)據(jù)展現(xiàn)等方面對平臺數(shù)據(jù)處理流程的實現(xiàn)進行了論證。
關(guān)鍵詞:大數(shù)據(jù);檔案信息資源;共享平臺;Hadoop;數(shù)據(jù)處理
Abstract: With the increasing of archives information resources and the expanding of users, new requirements are put forward for the data processing flow of archives information resources sharing platform in the era of big data. This paper discusses the data processing framework of archives information resource sharing platform, which is designed according to the principles of ensuring the extensibility of the platform design and paying full attention to data acquisition and storage. Based on the analysis of the functional requirements of the platform, the paper demonstrates the implementation of the platform data processing flow from the aspects of data acquisition, data cleaning and pretreatment, data storage and management, data display and so on.
Keyword: Big Data;Archive information resource;Sharing Platform; Hadoop;Data Processing
在數(shù)據(jù)信息高速擴張的時代,隨著云計算、物聯(lián)網(wǎng)、人工智能技術(shù)的大規(guī)模運用,當前的檔案信息資源的數(shù)據(jù)量正在呈指數(shù)形式增長,大數(shù)據(jù)時代的到來為精準而又快速地利用檔案信息資源提供了數(shù)據(jù)保障。檔案信息資源在被利用的同時,如何挖掘檔案信息資源數(shù)據(jù)的價值正成為當前檔案信息資源共享平臺研究的熱點。目前,由于缺乏統(tǒng)一的規(guī)劃和建設(shè)標準,前端使用的技術(shù)分辨率支持比較弱,導(dǎo)致各平臺瀏覽器兼容性、設(shè)備兼容性和系統(tǒng)兼容性都比較差[1],因此,為用戶精準而又快速地提供檔案信息是檔案信息共享平臺數(shù)據(jù)處理流程中最為關(guān)鍵的地方。在現(xiàn)有技術(shù)條件下,擬采用基于Hadoop技術(shù)的數(shù)據(jù)處理,最大限度地挖掘出檔案信息資源共享平臺中所蘊藏的巨大檔案信息使用價值。
1 平臺數(shù)據(jù)處理流程總體架構(gòu)設(shè)計
1.1 數(shù)據(jù)處理流程總體架構(gòu)設(shè)計原則。大數(shù)據(jù)時代檔案信息資源共享平臺數(shù)據(jù)處理流程構(gòu)建設(shè)計中最重要的就是檔案信息資源數(shù)據(jù)的收集、分析與應(yīng)用,平臺設(shè)計的目標是能夠匯集異構(gòu)的檔案信息資源共享平臺的檔案數(shù)據(jù),形成可以開放的檔案信息資源共享中心庫。在平臺的數(shù)據(jù)處理流程設(shè)計方面,需要遵循兩條原則:
一是檔案信息資源數(shù)據(jù)作為核心資產(chǎn),充分重視數(shù)據(jù)的采集與存儲。檔案信息資源共享平臺在大數(shù)據(jù)時代的應(yīng)用主要是精準提供有價值的檔案信息資源服務(wù),其核心在于海量的檔案信息資源的收集、存儲與分析。平臺需要持續(xù)從不同的環(huán)境中采集數(shù)據(jù),有價值的檔案信息資源數(shù)據(jù)不斷進入平臺是為用戶提供高質(zhì)量的檔案服務(wù)的關(guān)鍵。
二是平臺需求在不斷變化之中,確保平臺設(shè)計的可擴展性。平臺所使用的技術(shù)在不斷更新,同時用戶的需求也在不斷變化。如我國目前檔案信息資源共享平臺用戶使用的網(wǎng)絡(luò)環(huán)境包括電信、移動、聯(lián)通等網(wǎng)絡(luò),如果檔案信息資源共享平臺僅部署在某個網(wǎng)絡(luò)環(huán)境下,其他網(wǎng)絡(luò)環(huán)境的用戶使用平臺由于跨運營商的原因訪問平臺就會比較慢,采用CDN技術(shù)來解決相關(guān)傳輸問題[2],能夠更加快速有效地傳送Web內(nèi)容。其基本思路是盡可能避開互聯(lián)網(wǎng)上有可能影響數(shù)據(jù)傳輸速度和穩(wěn)定性的瓶頸和環(huán)節(jié),使內(nèi)容傳輸?shù)酶?、更穩(wěn)定[3]。
1.2 數(shù)據(jù)處理流程總體架構(gòu)設(shè)計。根據(jù)平臺數(shù)據(jù)處理流程總體架構(gòu)設(shè)計原則,結(jié)合平臺的功能要點,形成圖1所示的檔案信息資源共享平臺的大數(shù)據(jù)服務(wù)總體架構(gòu)。
檔案信息資源共享平臺的大數(shù)據(jù)服務(wù)總體架構(gòu)包含兩大平臺和三大角色。兩大平臺,即普通Web管理平臺、移動客戶端平臺;三大角色,即管理員、普通用戶、授權(quán)用戶。平臺包含檔案信息資源輸入模塊、用戶及權(quán)限角色管理模塊、檔案信息資源檢索模塊、資源管理模塊、日志管理模塊、報表模塊,數(shù)據(jù)通過不同的途徑進入系統(tǒng)之后,經(jīng)過平臺大數(shù)據(jù)分析引擎,將會輸出有價值的報表匯總與數(shù)據(jù)分析圖表。
2 平臺數(shù)據(jù)處理流程需求
在大數(shù)據(jù)時代,檔案信息資源共享平臺要達到提高服務(wù)效率、整合數(shù)據(jù)資源、延展信息內(nèi)容和滿足個性化需求的構(gòu)建目標[4],平臺數(shù)據(jù)處理流程的優(yōu)化目標實現(xiàn)顯得非常重要。檔案信息資源共享平臺大數(shù)據(jù)的特點包括:檔案信息資源數(shù)據(jù)量大、平臺訪問速度要求高、檔案信息資源的表現(xiàn)形式多樣、檔案信息資源的真實與保密性。針對檔案信息資源共享平臺的數(shù)據(jù)處理流程主要包括以下幾個方面:
首先是檔案信息資源數(shù)據(jù)采集。搭建數(shù)據(jù)倉庫,數(shù)據(jù)采集的方式有用戶通過自身平臺的導(dǎo)入與錄入,平臺提供的對外接口進行數(shù)據(jù)的處理并添加到目標平臺數(shù)據(jù)庫,通過爬蟲程序?qū)νㄟ^授權(quán)的目標檔案數(shù)據(jù)庫進行檔案信息資源數(shù)據(jù)抓取,這一步數(shù)據(jù)處理流程會出現(xiàn)很多無用的檔案信息資源數(shù)據(jù)進入平臺。
其次是數(shù)據(jù)清洗/預(yù)處理。這一步是要把進入到平臺的數(shù)據(jù)進行簡單處理,過濾掉沒有價值的檔案信息數(shù)據(jù)。
最后是對檔案信息數(shù)據(jù)進行加工處理并對檔案信息數(shù)據(jù)進行展現(xiàn)。這一步主要是將數(shù)據(jù)處理成利于平臺理解的數(shù)據(jù)形式,并通過合適的UI對外進行展示,以便于對檔案信息資源更直觀地理解。
平臺數(shù)據(jù)處理的總體流程圖如圖2所示:
3 平臺數(shù)據(jù)處理的實現(xiàn)
檔案信息資源共享平臺在數(shù)據(jù)處理流程的實現(xiàn)上主要包括以下幾個模塊:平臺檔案信息檢索模塊、平臺日志與分析模塊、平臺數(shù)據(jù)存儲與分析模塊、可視化模塊以及對外開放式服務(wù)。
3.1 平臺數(shù)據(jù)采集。檔案信息資源數(shù)據(jù)采集是平臺實現(xiàn)的第一個環(huán)節(jié)。它將通過傳統(tǒng)的互聯(lián)網(wǎng)、移動互聯(lián)網(wǎng)數(shù)據(jù)等方式獲得各種類型的結(jié)構(gòu)化、半結(jié)構(gòu)化及非結(jié)構(gòu)化的海量數(shù)據(jù)。由于檔案信息數(shù)據(jù)來源多樣,加上平臺同時支持移動客戶端,平臺會產(chǎn)生并發(fā)數(shù)據(jù)訪問與操作,因此必須采用專門針對該平臺的數(shù)據(jù)采集方法,主要包括數(shù)據(jù)庫采集、網(wǎng)絡(luò)數(shù)據(jù)采集以及日志信息采集。對于數(shù)據(jù)庫采集,目前主流的技術(shù)是采用關(guān)系型數(shù)據(jù)庫來存儲檔案信息資源數(shù)據(jù);對于網(wǎng)絡(luò)上的檔案信息資源數(shù)據(jù)采集一般以網(wǎng)絡(luò)爬蟲或網(wǎng)站公開的授權(quán)API等方式,從目標檔案信息網(wǎng)站上獲取檔案信息數(shù)據(jù),這種方案得到的檔案信息數(shù)據(jù)一般是非結(jié)構(gòu)化的或者半結(jié)構(gòu)化的HTML信息,需要通過正則表達式將其中的有效檔案信息數(shù)據(jù)提取出來并以結(jié)構(gòu)化的方式存儲到平臺所在的服務(wù)器;對于檔案日志信息數(shù)據(jù)的采集,可以采用Flume技術(shù),該技術(shù)可以用于高效地收集、聚合和移動大量的日志數(shù)據(jù),它具有基于流式數(shù)據(jù)流的簡單靈活的架構(gòu)。
檔案信息資源共享平臺在實際的利用過程中,會產(chǎn)生若干用戶行為相關(guān)的數(shù)據(jù),這些數(shù)據(jù)對于后期平臺的優(yōu)化至關(guān)重要,這就需要一個強大的日志分析功能。設(shè)計的架構(gòu)需要能夠滿足學(xué)習(xí)日志的收集與分析功能,針對Web環(huán)境中的學(xué)習(xí)環(huán)境服務(wù)器提供普適的學(xué)習(xí)分析數(shù)據(jù)匯聚接口,采用Hadoop Pig進行大規(guī)模日志收集與分析。該模塊主要包括數(shù)據(jù)匯聚、分析和報表三大模塊,在數(shù)據(jù)匯聚模塊中應(yīng)用服務(wù)器接收來自不同模塊的檔案信息資源數(shù)據(jù),將接收數(shù)據(jù)過程中以及檔案信息資源利用過程中產(chǎn)生的日志信息發(fā)送給代理節(jié)點,然后通過代理點將日志發(fā)送給Hadoop集群進行分析,并將結(jié)果存儲到HBase數(shù)據(jù)庫,從而為用戶提供日志查詢與利用服務(wù)。平臺日志與分析模塊的實現(xiàn)如圖3所示:
3.2 平臺數(shù)據(jù)預(yù)處理。通過檔案信息資源共享平臺采集流程中采集到的數(shù)據(jù)是不規(guī)則的,甚至有部分檔案信息數(shù)據(jù)是無效的。為了獲取高質(zhì)量的檔案信息數(shù)據(jù),就必須在數(shù)據(jù)準備階段提高檔案信息數(shù)據(jù)的質(zhì)量。在平臺的預(yù)處理階段需要將無規(guī)則的檔案信息數(shù)據(jù)轉(zhuǎn)化為系統(tǒng)識別的結(jié)構(gòu)化數(shù)據(jù)類型,有效的檔案信息資源數(shù)據(jù)是后期數(shù)據(jù)分析的基礎(chǔ)。檔案信息資源數(shù)據(jù)預(yù)處理主要包括:數(shù)據(jù)清理、數(shù)據(jù)集成及數(shù)據(jù)轉(zhuǎn)換三個方面[5]。數(shù)據(jù)清理主要包含干擾數(shù)據(jù)處理與不一致數(shù)據(jù)處理,對于數(shù)據(jù)清理可以采用ETL相關(guān)的工具,如Informatica、Datastage、OWB、微軟DTS等等;數(shù)據(jù)集成是將來自于不同平臺的數(shù)據(jù)合并存放到一個一致的數(shù)據(jù)存儲庫中,這里需要解決檔案信息資源數(shù)據(jù)冗余與沖突的問題,對于數(shù)據(jù)集成,可以通過建立源檔案信息資源數(shù)據(jù)的集中庫,通過百度自然學(xué)習(xí)語言模塊來分析其中的問題點,不斷積累知識庫的內(nèi)容以達到根據(jù)學(xué)習(xí)的知識庫自動剔除冗余數(shù)據(jù)與沖突數(shù)據(jù);數(shù)據(jù)轉(zhuǎn)換主要是將檔案信息資源數(shù)據(jù)名稱及格式進行統(tǒng)一,同時需要將收集到的信息組合、分割或計算,以便于保證抽取到的數(shù)據(jù)的一致性。
3.3 平臺數(shù)據(jù)存儲及管理。檔案信息資源共享平臺需要建立適合平臺大數(shù)據(jù)的管理的數(shù)據(jù)庫,以便于數(shù)據(jù)的管理與調(diào)用,目前常見的數(shù)據(jù)存儲技術(shù)有Hadoop與MPP兩種[6],Hadoop實現(xiàn)了一個分布式文件系統(tǒng)(Hadoop Distributed File System),簡稱HDFS。HDFS有高容錯性的特點,并且設(shè)計用來部署在低廉的(low-cost)硬件上;而且它提供高吞吐量(high throughput)來訪問應(yīng)用程序的數(shù)據(jù),適合那些有著超大數(shù)據(jù)集(large data set)的應(yīng)用程序,Hadoop適用于海量數(shù)據(jù)、離線數(shù)據(jù)和負責(zé)數(shù)據(jù)[7];MPP(Massively Parallel Processor)即大規(guī)模并行處理,在數(shù)據(jù)庫非共享集群中,每個節(jié)點都有獨立的磁盤存儲系統(tǒng)和內(nèi)存系統(tǒng),業(yè)務(wù)數(shù)據(jù)根據(jù)數(shù)據(jù)庫模型和應(yīng)用特點劃分到各個節(jié)點上,每臺數(shù)據(jù)節(jié)點通過專用網(wǎng)絡(luò)或者商業(yè)通用網(wǎng)絡(luò)互相連接,彼此協(xié)同計算,作為整體提供數(shù)據(jù)庫服務(wù)[8]。非共享數(shù)據(jù)庫集群有完全的可伸縮性、高可用、高性能、優(yōu)秀的性價比、資源共享等優(yōu)勢。
檔案信息資源共享平臺數(shù)據(jù)檢索模塊由三部分組成,首先是檔案信息資源數(shù)據(jù)的存儲與統(tǒng)計分析,這是平臺實現(xiàn)檢索功能的數(shù)據(jù)基礎(chǔ),這部分采用Hive技術(shù)實現(xiàn),其次是實際檢索信息的統(tǒng)計分析與計算,這部分通過MapReduce來實現(xiàn),最后是HDFS服務(wù)實際的數(shù)據(jù)存儲。具體的檢索模塊實現(xiàn)如圖4所示:
3.4 平臺數(shù)據(jù)分析及挖掘。檔案信息資源數(shù)據(jù)的分析與挖掘主要目的是把收集到的無規(guī)律的檔案信息數(shù)據(jù)進行提煉,以找出潛在有用的信息和所研究對象的內(nèi)在規(guī)律的過程。主要從可視化分析、預(yù)測性分析、數(shù)據(jù)質(zhì)量管理幾個方面進行著重分析。對于檔案信息資源可視化分析,主要是借助于圖形化手段,讓需要表現(xiàn)的信息更加清晰,這里可以借助于第三方圖標分析插件,進行數(shù)據(jù)展示,這樣可以讓平臺的數(shù)據(jù)信息簡單明了、清晰直觀。對于檔案信息的預(yù)測性分析,應(yīng)該是該平臺最有價值的功能,包括檔案信息資源統(tǒng)計分析、檔案信息資源分析、優(yōu)化、智能學(xué)習(xí),通過平臺的預(yù)測分析可以為平臺提供有價值的建議信息;檔案信息資源數(shù)據(jù)質(zhì)量管理是指對數(shù)據(jù)從計劃、獲取、存儲、共享、維護、應(yīng)用到消亡生命周期的每個階段里可能引發(fā)的各類數(shù)據(jù)質(zhì)量問題,進行識別、度量、監(jiān)控、預(yù)警等一系列管理活動,并通過改善和提高組織的管理水平使得數(shù)據(jù)質(zhì)量獲得進一步提高[9]。
*本文系2016年度教育部人文社會科學(xué)研究規(guī)劃基金項目《大數(shù)據(jù)時代檔案信息資源共享平臺構(gòu)建的研究》(項目編號:16YJA870001)資助。
參考文獻:
[1]卞咸杰.大數(shù)據(jù)時代檔案信息資源共享平臺前端框架的構(gòu)建[J].檔案與建設(shè),2017(10):11-15.
[2]卞咸杰.大數(shù)據(jù)時代檔案信息資源共享平臺性能優(yōu)化的研究[J].檔案管理,2016(6):17-20.
[3]HA Alzoubi,S Lee,M Rabinovich,O Spatscheck,VDMJacobus.A Practical Architecture for an Anycast CDN[J].AcmTransactions on the Web.2011, 5(4):2209-2220
[4]王琦.大數(shù)據(jù)環(huán)境下開放信息資源共享平臺構(gòu)建研究[J].信息與電腦(理論版),2018(10):12-13.
[5]衣連明.云計算在證券行業(yè)應(yīng)用的關(guān)鍵驅(qū)動因素研究——基于A證券公司的案例分析[D].北京郵電大學(xué),2012.
[6]楊璇.海量旅游統(tǒng)計數(shù)據(jù)可視化的研究與應(yīng)用[D].武漢郵電科學(xué)研究院,2018.
[7]王永康.Azure云平臺對Twitter推文關(guān)鍵字實時大數(shù)據(jù)分析[J].電腦編程技巧與維護,2015(12):68-72.
[8]沈瀅,張倩.大數(shù)據(jù)關(guān)鍵技術(shù)專利態(tài)勢研究[J].電信網(wǎng)技術(shù),2017(3):43-49.
[9]張凱,潘建宏,徐峰,樊家樹.數(shù)據(jù)資產(chǎn)管理與監(jiān)測技術(shù)的處理及分析[J].科技經(jīng)濟導(dǎo)刊,2018,26(7):39-40.
(作者單位:鹽城師范學(xué)院 來稿日期:2018-08-20)