趙振營(yíng)
摘要:目前,大數(shù)據(jù)已經(jīng)成為檔案界研究的熱點(diǎn)。本文從大數(shù)據(jù)架構(gòu)、實(shí)施路徑等方面進(jìn)行分析,并以鄭州市檔案館為例,對(duì)大數(shù)據(jù)如何在檔案工作中進(jìn)行試點(diǎn)展開(kāi)深入研究。
關(guān)鍵詞:檔案館大數(shù)據(jù)檔案資源云
目前,大數(shù)據(jù)已經(jīng)成為檔案界研究的熱點(diǎn)。筆者在CNKI上以“大數(shù)據(jù)”為主題進(jìn)行檢索,發(fā)現(xiàn)在檔案學(xué)領(lǐng)域相關(guān)研究主要集中在大數(shù)據(jù)時(shí)代檔案館生存與發(fā)展的相關(guān)策略;檔案管理中運(yùn)用大數(shù)據(jù)技術(shù)的策略;數(shù)據(jù)挖掘與檔案利用服務(wù)等方面。這些研究大多以介紹大數(shù)據(jù)為主,其提出的策略也較為宏觀。鑒于此,本文擬從大數(shù)據(jù)架構(gòu)、實(shí)施路徑等方面進(jìn)行分析,并以鄭州市檔案館為例,對(duì)大數(shù)據(jù)如何在檔案工作中進(jìn)行試點(diǎn)展開(kāi)研究。
一、檔案館實(shí)施大數(shù)據(jù)戰(zhàn)略實(shí)踐的框架構(gòu)建
所謂大數(shù)據(jù),就是一種規(guī)模大到在獲取、存儲(chǔ)、管理、分析方面超出傳統(tǒng)數(shù)據(jù)庫(kù)軟件工具能力范圍的數(shù)據(jù)集合,它具有海量的數(shù)據(jù)規(guī)模、快速的數(shù)據(jù)流轉(zhuǎn)、多樣的數(shù)據(jù)類型和價(jià)值密度低四大特征。從上述定義中可以看到,龐大的數(shù)據(jù)量以及多樣的數(shù)據(jù)類型,需要海量的結(jié)構(gòu)化數(shù)據(jù)與非結(jié)構(gòu)化數(shù)據(jù)。同時(shí),它還要求傳輸這些海量數(shù)據(jù)的網(wǎng)絡(luò)具有較高的性能與速度,并且能夠在對(duì)海量數(shù)據(jù)進(jìn)行分析處理的基礎(chǔ)上提取有效信息,而這主要通過(guò)云計(jì)算、分布式架構(gòu)來(lái)實(shí)現(xiàn)。其中,大數(shù)據(jù)處理流程如圖1所示。
具體而言,第一步是構(gòu)建云計(jì)算平臺(tái),由于數(shù)據(jù)源具有TB甚至PB級(jí)以上的數(shù)據(jù)容量,因此可以將其用來(lái)構(gòu)建數(shù)據(jù)云計(jì)算平臺(tái)。其中,所涉數(shù)據(jù)源是各檔案館館藏的檔案資源。第二步是進(jìn)行大數(shù)據(jù)處理,在進(jìn)行大數(shù)據(jù)處理之前,需要進(jìn)行信息整合與治理,即對(duì)各級(jí)各類檔案數(shù)據(jù)進(jìn)行數(shù)據(jù)質(zhì)量治理并管理信息生命周期,通過(guò)聚類、相似性分析等分析檔案數(shù)據(jù)間的有機(jī)聯(lián)系,以保證大數(shù)據(jù)處理的質(zhì)量。在構(gòu)建數(shù)據(jù)云計(jì)算平臺(tái)和進(jìn)行大數(shù)據(jù)處理之間,需要實(shí)現(xiàn)海量檔案數(shù)據(jù)的傳輸,而這主要通過(guò)高速網(wǎng)絡(luò)來(lái)實(shí)現(xiàn)。高速網(wǎng)絡(luò),則以高性能網(wǎng)絡(luò)(如UltraScience Net、ESnet5/OSCARS等)為基礎(chǔ),將數(shù)據(jù)傳輸集中在一個(gè)較大的服務(wù)器集群中,進(jìn)行信息整合與治理、大數(shù)據(jù)處理。第三步是結(jié)果顯示,它主要是指以可視化的方式,將處理后的結(jié)果提交用戶利用。將圖1中的大數(shù)據(jù)流程與檔案工作實(shí)際相結(jié)合,并與各類物理設(shè)施建立聯(lián)系,構(gòu)建出檔案工作實(shí)施大數(shù)據(jù)戰(zhàn)略的具體框架,如圖2所示。
(一)數(shù)據(jù)整合與清洗
所謂數(shù)據(jù)整合與清洗,是指將分布在多個(gè)異構(gòu)平臺(tái)的數(shù)據(jù),集中到大數(shù)據(jù)的數(shù)據(jù)倉(cāng)庫(kù)前對(duì)數(shù)據(jù)進(jìn)行重新審查,以刪除重復(fù)的數(shù)據(jù)、補(bǔ)充不完整的信息以及修正錯(cuò)誤的信息,從而提高數(shù)據(jù)的質(zhì)量。比如,鄭州某類民生檔案數(shù)據(jù)分析,需要從鄭州市6區(qū)5縣的該類民生檔案數(shù)據(jù)中抽取并分析,這些來(lái)自于不同檔案系統(tǒng)的數(shù)據(jù)可能存在重復(fù),可能存在關(guān)鍵著錄項(xiàng)的缺失或錯(cuò)誤,可能因存在不同的檔案信息格式而造成數(shù)據(jù)質(zhì)量下降,引起大數(shù)據(jù)分析結(jié)果的不準(zhǔn)確。
存儲(chǔ)在多個(gè)異構(gòu)平臺(tái)的檔案信息的數(shù)據(jù)整合與清洗,完全可以通過(guò)構(gòu)建檔案信息云計(jì)算平臺(tái)來(lái)實(shí)現(xiàn),即檔案信息資源云。它是一個(gè)以數(shù)據(jù)存儲(chǔ)和管理為核心的云計(jì)算系統(tǒng),具有云存儲(chǔ)的作用。檔案信息資源云應(yīng)該是全國(guó)性的資源云,鑒于當(dāng)前的檔案工作實(shí)際,目前建設(shè)全國(guó)性的資源云并不現(xiàn)實(shí),可以考慮先建設(shè)區(qū)域性的公有云,實(shí)現(xiàn)區(qū)域內(nèi)檔案條目的集中與共享,也就是說(shuō)實(shí)現(xiàn)區(qū)域性的檔案信息分布式存儲(chǔ)與管理。具體來(lái)說(shuō),在建設(shè)區(qū)域性公有云的時(shí)候,可以通過(guò)區(qū)域性分布式檔案館聯(lián)盟,構(gòu)成區(qū)域性的資源云。李澤鋒曾提出“分布式檔案館聯(lián)盟”的概念,即在分布式聯(lián)盟中,“當(dāng)利用者查找的信息可能涉及多個(gè)檔案館的多個(gè)文件時(shí),分布式檢索系統(tǒng)根據(jù)公共目錄同時(shí)向多個(gè)檔案館發(fā)送電子文件請(qǐng)求,在收到多個(gè)檔案館分發(fā)的檔案數(shù)據(jù)后,將其壓縮打包,并在壓縮包中生成文件列表,以顯示各檔案數(shù)據(jù)的來(lái)源”,在此基礎(chǔ)上逐步構(gòu)建更大甚至全國(guó)性的資源云。在公有云下,區(qū)域內(nèi)的檔案部門(mén)還可以建設(shè)自己的私有云。
通過(guò)檔案信息資源公有云搭建云計(jì)算平臺(tái),一是實(shí)現(xiàn)檔案信息的查重,即按照檔案信息的元數(shù)據(jù)或著錄項(xiàng)進(jìn)行比對(duì),尤其是主要項(xiàng)如題名與責(zé)任說(shuō)明項(xiàng)、密級(jí)與保管期限項(xiàng)、時(shí)間項(xiàng)等。如果相似度為90%,則要全文比對(duì)。相似度為100%,表明檔案重復(fù)。一旦比對(duì)是重復(fù)的,只需將所保留全文的地址與相應(yīng)全宗的目錄建立對(duì)應(yīng)關(guān)系。建議先進(jìn)行檔案目錄的比較,因?yàn)槿淖鳛榉墙Y(jié)構(gòu)化信息,比對(duì)占用的云資源較多、時(shí)間較長(zhǎng);而目錄一般為結(jié)構(gòu)化信息,其比對(duì)簡(jiǎn)單迅速。二是對(duì)檔案信息生命周期的治理。它主要用于檔案鑒定與處置,尤其是達(dá)到保管期限的檔案鑒定與處置。
(二)大數(shù)據(jù)處理
大數(shù)據(jù)處理是該框架的核心。大數(shù)據(jù)處理就是在收集龐大復(fù)雜的數(shù)據(jù)基礎(chǔ)上,建立信息間的聚合,從而進(jìn)行知識(shí)獲取。由于大數(shù)據(jù)處理的是海量數(shù)據(jù),非常規(guī)軟件所能分析,它需要特殊技術(shù)在可容忍的時(shí)間內(nèi)進(jìn)行有效工作。
目前,主流的大數(shù)據(jù)處理主要包括語(yǔ)境搜索、數(shù)據(jù)倉(cāng)庫(kù)、Hadoop系統(tǒng)和流計(jì)算等。其中,語(yǔ)境檢索是指對(duì)檔案信息進(jìn)行索引與聯(lián)邦檢索,在信息整合的基礎(chǔ)上實(shí)現(xiàn)上下文聚合,在上下文中關(guān)聯(lián)并不相似的信息,探索和挖掘大數(shù)據(jù),以發(fā)現(xiàn)知識(shí)。數(shù)據(jù)倉(cāng)庫(kù)是檔案數(shù)據(jù)按照預(yù)定規(guī)則進(jìn)行存儲(chǔ)以及數(shù)據(jù)庫(kù)內(nèi)分析。Hadoop系統(tǒng)是實(shí)現(xiàn)分布式文件系統(tǒng),可以經(jīng)濟(jì)高效地分析PB級(jí)的結(jié)構(gòu)化與非結(jié)構(gòu)化數(shù)據(jù)。在處理海量的數(shù)據(jù)時(shí),流計(jì)算是必不可少的。它主要用來(lái)分析流數(shù)據(jù)和激增的大型數(shù)據(jù)。在云存儲(chǔ)的環(huán)境下,各節(jié)點(diǎn)都有可能產(chǎn)生新的電子文件或數(shù)字化結(jié)果,而將這些新增數(shù)據(jù)納入到大數(shù)據(jù)處理中是信息整合與處理的基礎(chǔ)。
(三)結(jié)果顯示
結(jié)果顯示包括兩部分。一是可視化顯示功能,即通過(guò)利用最佳的可視化模塊組合,收集、提取并探索大數(shù)據(jù)的處理結(jié)果,并以可視化的形式提交用戶。二是數(shù)據(jù)分析,它包括預(yù)測(cè)分析、內(nèi)容分析、輔助決策分析等,以便將與業(yè)務(wù)相關(guān)的結(jié)果提交用戶。一般來(lái)說(shuō),國(guó)家檔案館較為側(cè)重內(nèi)容分析。而企事業(yè)單位的檔案館(室)則認(rèn)為預(yù)測(cè)、輔助決策更有幫助。
二、檔案館實(shí)施大數(shù)據(jù)戰(zhàn)略的必要條件
(一)高性能的網(wǎng)絡(luò)技術(shù)
檔案館實(shí)現(xiàn)大數(shù)據(jù)處理的前提是以高性能的網(wǎng)絡(luò)訪問(wèn)檔案信息資源云,然后再將TB或PB級(jí)海量數(shù)據(jù)傳輸?shù)酱髷?shù)據(jù)處理平臺(tái)上。其中,高性能的網(wǎng)絡(luò)具有帶寬高、穩(wěn)定帶寬的特征,擁有高達(dá)10G甚至更高帶寬,用來(lái)支持龐大的數(shù)據(jù)傳輸,以及高達(dá)百兆以上的穩(wěn)定傳輸速度。目前,相當(dāng)多的大學(xué)、科研院所甚至政府部門(mén)都相繼建立了高性能計(jì)算中心,如鄭州大學(xué)、河南師范大學(xué)、鄭州高新區(qū)等。這些高性能計(jì)算中心除了服務(wù)于本單位以外,一般都與外界有合作關(guān)系,如河南省氣象局就是鄭大高性能計(jì)算中心的用戶。在這種情況下,檔案部門(mén)可以借用外力已有的高性能網(wǎng)絡(luò),實(shí)現(xiàn)海量數(shù)據(jù)的傳輸。
(二)應(yīng)用明確的大數(shù)據(jù)分析處理
目前,檔案部門(mén)主動(dòng)提供的檔案編研、編纂相對(duì)較少,主要是歷史檔案信息的編纂,這與信息處理與利用思想存在一定差距,與大數(shù)據(jù)思想更是存在較大差距。而大數(shù)據(jù)處理則需要對(duì)海量數(shù)據(jù)進(jìn)行管理、處理以輔助決策等,這就需要檔案部門(mén)變被動(dòng)為主動(dòng),目前可以考慮與其他部門(mén)合作,如與環(huán)保等部門(mén)合作,利用保存多年的海量信息,分析多年來(lái)霧霾、水污染的歷史變化規(guī)律等。這種合作,檔案部門(mén)以提供相應(yīng)信息為主,將數(shù)據(jù)分析、數(shù)據(jù)模型交給合作方,既可以積累經(jīng)驗(yàn),又可以提升檔案服務(wù)。
三、檔案館實(shí)施大數(shù)據(jù)戰(zhàn)略的路徑
按照大數(shù)據(jù)戰(zhàn)略,結(jié)合鄭州市檔案館的實(shí)際情況,鄭州市下轄6區(qū)5縣的相關(guān)檔案信息通過(guò)河南省教育網(wǎng)集中整合到鄭州市檔案信息資源云平臺(tái),進(jìn)行信息查重與治理,再通過(guò)河南省教育網(wǎng)傳輸?shù)洁嵵荽髮W(xué)高性能計(jì)算中心,將處理結(jié)果通過(guò)河南省教育網(wǎng)傳輸?shù)洁嵵菔袡n案信息資源云平臺(tái)進(jìn)行可視化處理,并提請(qǐng)專家分析,形成分析報(bào)告、輔助決策。如圖3所示。
(一)數(shù)據(jù)存儲(chǔ):鄭州市檔案資源云
鄭州市新檔案館于2011年建成,信息化建設(shè)較為完備,構(gòu)建了涵蓋鄭州市下轄6區(qū)5縣的檔案信息整合平臺(tái)??紤]以此為公有云基礎(chǔ),將6區(qū)5縣檔案館藏目錄及數(shù)字化成果納入并對(duì)檔案信息進(jìn)行整合。按照鄭州市數(shù)字檔案館建設(shè)實(shí)施方案,鄭州市在數(shù)字檔案館建設(shè)時(shí),專門(mén)構(gòu)建了數(shù)字檔案信息資源整合與共享平臺(tái),整合全市所轄12個(gè)市區(qū)縣三級(jí)綜合檔案館數(shù)字檔案信息資源,包括所有目錄、檔案原文、音視頻、珍貴歷史、專業(yè)、專門(mén)檔案數(shù)據(jù)。它具有在線報(bào)送、接收存儲(chǔ)、審批、業(yè)務(wù)指導(dǎo)、維護(hù)、查詢利用、綜合統(tǒng)計(jì)等功能,實(shí)現(xiàn)了鄭州市區(qū)域內(nèi)檔案信息資源的有機(jī)整合。同時(shí),鄭州市社會(huì)公共信息管理云平臺(tái)也在鄭州市檔案館建設(shè),進(jìn)一步增加了信息的完備性。圖4是鄭州市檔案資源云示意圖,它構(gòu)建了以鄭州市檔案館公有云、6區(qū)5縣檔案館私有云的檔案資源云服務(wù)平臺(tái)。
(二)數(shù)據(jù)處理:鄭州大學(xué)高性能計(jì)算中心
2008年,鄭州大學(xué)與聯(lián)想集團(tuán)合作,建設(shè)鄭州大學(xué)深騰1800高性能并行計(jì)算機(jī)系統(tǒng),并于近年來(lái)進(jìn)行了改造升級(jí)。目前,該高性能計(jì)算中心主要用于網(wǎng)格計(jì)算環(huán)境與集群計(jì)算技術(shù)及應(yīng)用、數(shù)據(jù)挖掘與海量信息處理、虛擬現(xiàn)實(shí)與多媒體處理技術(shù)及應(yīng)用,自然語(yǔ)言理解研究等領(lǐng)域,以此作為大數(shù)據(jù)服務(wù)器集群硬件的高性能計(jì)算。
(三)數(shù)據(jù)傳輸:河南省教育網(wǎng)
河南省教育網(wǎng)于2014年建成10G光網(wǎng)絡(luò),最高帶寬40G。鄭州市新檔案館通過(guò)河南省教育網(wǎng)進(jìn)行資源云的數(shù)據(jù)傳輸,將數(shù)據(jù)傳輸?shù)洁嵵荽髮W(xué),依托鄭州大學(xué)進(jìn)行大數(shù)據(jù)試點(diǎn)處理。處理結(jié)果通過(guò)河南省教育網(wǎng)傳輸?shù)洁嵵菔袡n案局,提請(qǐng)專家分析數(shù)據(jù)。在實(shí)際實(shí)施中,考慮到國(guó)家規(guī)定檔案存儲(chǔ)網(wǎng)絡(luò)與互聯(lián)網(wǎng)相互隔離,鄭州市檔案館離鄭州大學(xué)距離較近,可以租用河南聯(lián)通的裸光纖直連到鄭大的高性能計(jì)算中心服務(wù)器集群上。
*本文為國(guó)家社科基金“可信電子文件全生命周期管理體系研究”(項(xiàng)目編號(hào):10BTQ043)的研究成果之一。
參考文獻(xiàn):
[1]維克托·邁爾-舍爾維恩,肯尼斯·庫(kù)克耶.《大數(shù)據(jù)時(shí)代》[M].杭州:浙江人民出版社,2013:39.
[2]大數(shù)據(jù)時(shí)代要有大數(shù)據(jù)思維.[EB/OL].[2016-6-14]. http://www.thebigdata.cn/html/c3/14416.html.
[3]李澤鋒.基于OAIS的電子文件服務(wù)體系構(gòu)建[J].檔案學(xué)通訊,2011(4):73-77.
[4]IBM大數(shù)據(jù)平臺(tái)與應(yīng)用程序架構(gòu).[EB/OL].[2014-2-5].
http://baike.baidu.com/picview/6954399/7093827/ 0/fcfaaf51f3deb48f55da2d0ef01f3a292cf578ab.html#albu? mindex=1&picindex=5.