摘要:本文針對(duì)如何處理和利用海量數(shù)據(jù)這一問(wèn)題,依托以大數(shù)據(jù)為主的現(xiàn)代技術(shù),提出搭建具有高度自動(dòng)化、智能化的檔案大數(shù)據(jù)系統(tǒng),對(duì)海量的數(shù)據(jù)資源進(jìn)行有效的處理。
關(guān)鍵詞:檔案大數(shù)據(jù)檔案資源檔案管理
大數(shù)據(jù)技術(shù)對(duì)信息時(shí)代產(chǎn)生的海量數(shù)據(jù)能夠做到有效處理和存儲(chǔ),這一特質(zhì)使擴(kuò)展和統(tǒng)一管理檔案資源成為可能。隨著檔案資源的擴(kuò)展和管理,檔案資源的有效利用也必將得到大幅度提升。在這種情況下,建構(gòu)檔案大數(shù)據(jù)系統(tǒng)成為必然要求。在建構(gòu)檔案大數(shù)據(jù)系統(tǒng)的過(guò)程中,數(shù)據(jù)結(jié)構(gòu)的科學(xué)性、數(shù)據(jù)的價(jià)值密度、共享性和可操作性等諸多因素,是影響檔案大數(shù)據(jù)系統(tǒng)運(yùn)營(yíng)效率、安全服務(wù)模式和內(nèi)容變更、提升服務(wù)能力的重要因素。特別是如何搭建高智能的基礎(chǔ)設(shè)施框架和采取科學(xué)、合理的方法,對(duì)價(jià)值密度低、分散、無(wú)序、海量的數(shù)據(jù)資源進(jìn)行有效采集、清洗、轉(zhuǎn)換和整合,使其結(jié)構(gòu)合理、價(jià)值密度高、易于管理和應(yīng)用,是檔案界需要該認(rèn)真思考的重要課題。
一、信息時(shí)代檔案大數(shù)據(jù)系統(tǒng)的提出
維克托·舍恩伯格在《大數(shù)據(jù)時(shí)代》中寫(xiě)道:“半個(gè)世紀(jì)以來(lái),隨著計(jì)算機(jī)技術(shù)、網(wǎng)絡(luò)技術(shù)融入社會(huì)生活,信息爆炸已經(jīng)成為事實(shí)。大數(shù)據(jù)時(shí)代的許多學(xué)科都會(huì)發(fā)生巨大甚至是本質(zhì)上的變化和發(fā)展,必將成為新發(fā)明和新服務(wù)的源泉。”[1]隨著檔案數(shù)字化、信息化進(jìn)程的加速,社會(huì)需求的種類(lèi)、數(shù)量和質(zhì)量影響著檔案數(shù)據(jù)的同步急速提升,檔案大數(shù)據(jù)成為當(dāng)今檔案界普遍關(guān)注的熱點(diǎn)問(wèn)題。筆者參考相關(guān)文獻(xiàn),認(rèn)為檔案大數(shù)據(jù)是指檔案數(shù)據(jù)量巨大到現(xiàn)有軟件工具無(wú)法在有效時(shí)間內(nèi)實(shí)現(xiàn)采集、整合和管理的檔案數(shù)據(jù)的集合,它區(qū)別于傳統(tǒng)檔案數(shù)據(jù),是傳統(tǒng)檔案數(shù)據(jù)的海量擴(kuò)展和補(bǔ)充。
目前,檔案信息化管理中檔案數(shù)據(jù)基本基于單機(jī)管理,無(wú)論是結(jié)構(gòu)化數(shù)據(jù)還是非結(jié)構(gòu)化數(shù)據(jù)基本上比較零亂、不便管理、不能實(shí)現(xiàn)數(shù)據(jù)共享。加上檔案數(shù)據(jù)量呈幾何級(jí)增長(zhǎng),原有的檔案數(shù)據(jù)系統(tǒng)已經(jīng)很難適應(yīng)時(shí)代發(fā)展的要求。為了解決上述問(wèn)題,筆者嘗試依托互聯(lián)網(wǎng)、基于數(shù)據(jù)庫(kù)、以Hadoop為框架建構(gòu)檔案大數(shù)據(jù)系統(tǒng)。檔案大數(shù)據(jù)系統(tǒng)強(qiáng)調(diào)智能化理念、決策理念、管理理念及服務(wù)理念的先進(jìn)性,具備前瞻性和創(chuàng)新性特質(zhì)。它通過(guò)系統(tǒng)的人工智能特征及決策支持系統(tǒng)的應(yīng)用功能,實(shí)現(xiàn)檔案大數(shù)據(jù)的有效利用,從而實(shí)現(xiàn)檔案服務(wù)功能的最大化,達(dá)到業(yè)務(wù)價(jià)值增值的目的。具體而言,檔案大數(shù)據(jù)系統(tǒng)是研究如何基于大數(shù)據(jù)的數(shù)據(jù)分析和數(shù)據(jù)挖掘技術(shù),從海量數(shù)據(jù)中發(fā)掘出有價(jià)值的信息,滿足不同檔案用戶的信息需求,將檔案信息資源轉(zhuǎn)化為知識(shí)資源,實(shí)現(xiàn)電子文件的鑒定、非結(jié)構(gòu)化電子文件的處理,提升檔案數(shù)據(jù)存儲(chǔ)與備份的數(shù)量與質(zhì)量,有效管理、組織和利用檔案資源。
二、信息時(shí)代檔案大數(shù)據(jù)系統(tǒng)的建構(gòu)
從檔案的收集、管理、利用來(lái)看:在傳統(tǒng)管理方式下,“收”是各部門(mén)移交;“管”是手工管理,手工查詢;“用”是提供被動(dòng)地查閱服務(wù)。在信息時(shí)代,“收”是將數(shù)據(jù)實(shí)時(shí)、自動(dòng)歸集;“管”是采用云平臺(tái)存儲(chǔ)、計(jì)算、分析;“用”則是分析、發(fā)現(xiàn)與預(yù)測(cè),為社會(huì)、企業(yè)創(chuàng)造價(jià)值。[2]
根據(jù)我國(guó)檔案信息化建設(shè)多年積累的經(jīng)驗(yàn),針對(duì)系統(tǒng)建設(shè)的自動(dòng)化、智能化目標(biāo),依據(jù)計(jì)算機(jī)數(shù)據(jù)管理規(guī)則要求,筆者主要采用了垂直+水平的分布式檔案數(shù)據(jù)庫(kù)模型,從檔案數(shù)據(jù)的采集、整合、過(guò)濾、管理四個(gè)層面對(duì)檔案大數(shù)據(jù)系統(tǒng)進(jìn)行建構(gòu)。如圖1所示。
(一)檔案數(shù)據(jù)的采集
傳統(tǒng)的紙質(zhì)檔案管理所采集的信息不準(zhǔn)確、圖像的清晰度及可識(shí)別性不高。而檔案大數(shù)據(jù)系統(tǒng)平臺(tái)的數(shù)據(jù)表現(xiàn)形式多樣化,如網(wǎng)頁(yè)、圖像、音頻視頻、文檔等。為了獲得高質(zhì)量的檔案數(shù)據(jù)信息,不僅可以通過(guò)內(nèi)網(wǎng)獲取現(xiàn)有局域網(wǎng)中的元數(shù)據(jù)、中心數(shù)據(jù)、引用數(shù)據(jù)、運(yùn)行數(shù)據(jù)、用戶數(shù)據(jù)、服務(wù)數(shù)據(jù)等結(jié)構(gòu)化數(shù)據(jù),而且也可以通過(guò)外網(wǎng)、RFID射頻、B/S移動(dòng)輸入等多種方式實(shí)現(xiàn)用戶反饋、監(jiān)視器采集、遠(yuǎn)程應(yīng)用系統(tǒng)數(shù)據(jù)等非結(jié)構(gòu)化數(shù)據(jù)的獲取,并對(duì)這些數(shù)據(jù)進(jìn)行采集、變更和處理。其中,通過(guò)影像識(shí)別技術(shù)獲取的動(dòng)態(tài)數(shù)據(jù)以及通過(guò)掃描、攝影等方式收入電腦的紙質(zhì)文檔,都是由非結(jié)構(gòu)化數(shù)據(jù)轉(zhuǎn)換為結(jié)構(gòu)化數(shù)據(jù)的事例。采取這種方式的優(yōu)勢(shì)在于便于管理者查詢?cè)紨?shù)據(jù)和利于數(shù)據(jù)分享、數(shù)據(jù)檢索、數(shù)據(jù)分析、數(shù)據(jù)展現(xiàn)。
(二)檔案數(shù)據(jù)的整合
檔案大數(shù)據(jù)系統(tǒng)平臺(tái)的檔案數(shù)據(jù)整合是對(duì)上傳檔案數(shù)據(jù)進(jìn)行質(zhì)量分析和治理,并對(duì)信息的生命周期進(jìn)行管理。也就是說(shuō),在進(jìn)行數(shù)據(jù)整合的過(guò)程中,主要采用了數(shù)據(jù)接入技術(shù)(包括廣域網(wǎng)、局域網(wǎng)、個(gè)人網(wǎng)等),將數(shù)據(jù)采集層(下層)已處理過(guò)的數(shù)據(jù)安全、穩(wěn)定、快速地輸送到上層(即數(shù)據(jù)過(guò)濾層),并通過(guò)數(shù)據(jù)交互功能模塊形成檔案大數(shù)據(jù)源共享系統(tǒng),并使其具備“智能交互”功能。
一般而言,檔案數(shù)據(jù)整合包括控制系統(tǒng)、運(yùn)行引擎、基礎(chǔ)平臺(tái)管理三個(gè)方面。主要通過(guò)聚類(lèi)和相似性分析等手段,對(duì)檔案數(shù)據(jù)間的有機(jī)聯(lián)系進(jìn)行分析和整合。其中,整合控制系統(tǒng)指的是通過(guò)調(diào)度、轉(zhuǎn)換、功能等手段,對(duì)檔案數(shù)據(jù)進(jìn)行索引和協(xié)同搜索,在前期信息整合前提下進(jìn)一步實(shí)現(xiàn)上下協(xié)同洞察。整合運(yùn)行引擎指的是對(duì)數(shù)據(jù)對(duì)象、數(shù)據(jù)訪問(wèn)、工作流的引擎和任務(wù)引擎的整合,它是一個(gè)分布式的基礎(chǔ)架構(gòu)。一個(gè)分布式文件系統(tǒng)的實(shí)現(xiàn),能夠做到經(jīng)濟(jì)高效地分析PB級(jí)的結(jié)構(gòu)化數(shù)據(jù)、非結(jié)構(gòu)化數(shù)據(jù)、信息。基礎(chǔ)平臺(tái)管理整合包括日志管理、數(shù)據(jù)訪問(wèn)及訪問(wèn)策略、信息通知、異常處理、緩存管理,它主要是按照預(yù)定規(guī)則對(duì)檔案數(shù)據(jù)進(jìn)行存儲(chǔ),并隨之進(jìn)行數(shù)據(jù)庫(kù)內(nèi)的科學(xué)分析。
(三)檔案數(shù)據(jù)的過(guò)濾
為避免海量數(shù)據(jù)傳輸中出現(xiàn)擁擠、堵塞及不必要占用空間等現(xiàn)象的發(fā)生,檔案數(shù)據(jù)過(guò)濾主要是按照規(guī)定的數(shù)據(jù)清洗與過(guò)濾規(guī)則,對(duì)已采集的大數(shù)據(jù)源(先期采集和整合過(guò)的數(shù)據(jù))進(jìn)行可用性檢查及質(zhì)量分析、對(duì)數(shù)據(jù)進(jìn)行過(guò)濾與清洗,以保證數(shù)據(jù)整合時(shí)的價(jià)值密度和可操作性。
檔案大數(shù)據(jù)過(guò)濾服務(wù)是一種快速、完全托管的TB/PB級(jí)數(shù)據(jù)倉(cāng)庫(kù)解決方案,由方法庫(kù)、知識(shí)庫(kù)和模型庫(kù)共同組成。它向用戶提供完善的數(shù)據(jù)導(dǎo)入以及多種經(jīng)典的分布式計(jì)算模型,能夠更快速地解決用戶海量數(shù)據(jù)過(guò)濾問(wèn)題?;谠朴?jì)算的分布式系統(tǒng)具有足夠的數(shù)據(jù)存儲(chǔ)和傳輸能力,它的數(shù)據(jù)清洗、數(shù)據(jù)過(guò)濾和外部數(shù)據(jù)存儲(chǔ)功能,能夠?qū)崿F(xiàn)檔案大數(shù)據(jù)的智能交互,搭建檔案大數(shù)據(jù)的過(guò)濾層,并保障數(shù)據(jù)的安全。
(四)檔案數(shù)據(jù)的管理
管理層面指的是使用和維護(hù)系統(tǒng)的接口。管理員通過(guò)該層面實(shí)現(xiàn)系統(tǒng)的管理、控制、應(yīng)用和維護(hù),是數(shù)據(jù)服務(wù)的指揮中心。管理層有兩個(gè)核心功能,一是將加工和過(guò)濾后的數(shù)據(jù)進(jìn)行可視化處理;二是建立多種應(yīng)用模塊,提供智能服務(wù)。也就是說(shuō),利用可視化和圖像處理技術(shù)輸出需要分析和預(yù)測(cè)的數(shù)據(jù)結(jié)果,并通過(guò)大數(shù)據(jù)技術(shù)的匹配機(jī)制為用戶提供智能化應(yīng)用。該系統(tǒng)中檔案數(shù)據(jù)的管理層面,是通過(guò)多維分析、數(shù)據(jù)挖掘和各種查詢?nèi)齻€(gè)工具實(shí)現(xiàn)人機(jī)交互界面的。通過(guò)對(duì)人機(jī)交互、操作邏輯、界面美觀的整體設(shè)計(jì),實(shí)現(xiàn)登錄與認(rèn)證、數(shù)據(jù)存儲(chǔ)、數(shù)據(jù)操作、數(shù)據(jù)查詢、基本參數(shù)設(shè)計(jì)等功能。需要注意的是,不管采用何種技術(shù),關(guān)鍵是應(yīng)用。應(yīng)用需要的數(shù)據(jù)才是有價(jià)值的數(shù)據(jù),只有生成多模式、多樣性的應(yīng)用數(shù)據(jù),檔案大數(shù)據(jù)的價(jià)值才能得以充分體現(xiàn)。
*本文為黑龍江省高校本科科研業(yè)務(wù)費(fèi)黑龍江大學(xué)專(zhuān)項(xiàng)資金“智慧城市背景下檔案信息資源規(guī)劃研究”(項(xiàng)目編號(hào):HDJDZ201613)的階段性研究成果;2017年黑龍江大學(xué)校級(jí)研究生創(chuàng)新科研項(xiàng)目“智慧城市建設(shè)中的檔案服務(wù)工作研究”(項(xiàng)目編號(hào):YJSCX2017-108HLJU)的階段性成果。
注釋及參考文獻(xiàn):
[1]維克托·舍恩伯格.大數(shù)據(jù)時(shí)代[M].杭州:浙江人民出版社,2015:8.
[2]蘭祝剛,劉在國(guó).大數(shù)據(jù)時(shí)代檔案管理帶來(lái)的挑戰(zhàn)與機(jī)遇[N].中國(guó)檔案報(bào),2013-11-29(2).
[3]席暢.大數(shù)據(jù)環(huán)境下未來(lái)檔案館建設(shè)的新構(gòu)想[J].云南檔案,2017(1):55-57.endprint