■許濟(jì)滄
大數(shù)據(jù)云計(jì)算對(duì)電子文件的影響
■許濟(jì)滄
本文主要分析了大數(shù)據(jù)環(huán)境對(duì)電子文件前端控制、歸檔存儲(chǔ)和數(shù)據(jù)挖掘等方面產(chǎn)生的巨大影響,闡述了云計(jì)算在大數(shù)據(jù)環(huán)境解決電子文件集成和安全保存方面發(fā)揮的作用,并運(yùn)用SWOT分析法,揭示了新技術(shù)在電子文件領(lǐng)域運(yùn)用的利弊和產(chǎn)生的影響。
大數(shù)據(jù)云計(jì)算電子文件
大數(shù)據(jù)的定義十分多樣,總結(jié)國(guó)內(nèi)外一些經(jīng)典的理論,如維克托·邁爾-舍恩伯格及肯尼斯·庫(kù)克耶的“4V”理論,“大數(shù)據(jù)”(Big data)研究機(jī)構(gòu)Gartner的信息資產(chǎn)論,從內(nèi)涵上來(lái)說(shuō)大數(shù)據(jù)是建立在對(duì)大規(guī)模、多樣且真實(shí)數(shù)據(jù)的實(shí)時(shí)處理基礎(chǔ)上的用以洞察、預(yù)測(cè)、決策的信息資源。從外延上來(lái)說(shuō),大數(shù)據(jù)包含了超過(guò)傳統(tǒng)工具和流程分析和處理能力的數(shù)據(jù)。這些大數(shù)據(jù)產(chǎn)生的行業(yè)分別來(lái)自于計(jì)算機(jī)軟硬件及計(jì)算機(jī)應(yīng)用、檔案及博物館、醫(yī)藥衛(wèi)生及健康領(lǐng)域、工業(yè)、企業(yè)經(jīng)濟(jì)、教育理論與教育管理、圖書情報(bào)與數(shù)字圖書館。根據(jù)對(duì)“知網(wǎng)期刊數(shù)據(jù)庫(kù)”的檢索分析,采用檢索式:SU=(‘大數(shù)據(jù)'+‘云計(jì)算')*‘電子文件',這幾個(gè)領(lǐng)域與大數(shù)據(jù)相關(guān)的論文數(shù)量占所有比例的85%。
(一)對(duì)電子文件形成的影響
由于大數(shù)據(jù)的分析是建立在“樣本等于總體”的基礎(chǔ)上的,沒(méi)有海量的數(shù)據(jù)作為支撐是無(wú)法發(fā)掘電子文件、電子文檔、電子檔案的價(jià)值的。當(dāng)今,圖、情、檔領(lǐng)域的數(shù)據(jù)主要來(lái)自于檔案、文檔數(shù)字化和電子文件的前端控制兩方面。面對(duì)強(qiáng)大的需求,數(shù)字化工作固然刻不容緩,但是更為重要和主要的還是注重強(qiáng)化電子文件工作的前端控制。要站在電子文件生命周期的宏觀層面上設(shè)計(jì)并完善管理系統(tǒng),在文件的制作、傳遞、收集流程中加強(qiáng)電子文件的質(zhì)量控制,從而保障電子文件的價(jià)值。如近年來(lái),國(guó)家電網(wǎng)公司各項(xiàng)經(jīng)營(yíng)管理過(guò)程實(shí)現(xiàn)了數(shù)字化管理,將電子文件的元數(shù)據(jù)、背景信息、關(guān)聯(lián)信息和辦理信息等捕獲到電子文件管理系統(tǒng),在電子文件管理系統(tǒng)中實(shí)現(xiàn)對(duì)電子文件的全程管理。
(二)對(duì)電子文件歸檔存儲(chǔ)的影響
1.在歸檔規(guī)范方面
在大數(shù)據(jù)環(huán)境下,電子文件的數(shù)量急劇膨脹,歸檔過(guò)程中鑒定工作遇到了極大的阻力,這使得電子文件的鑒定由逐份鑒定成為了對(duì)電子文件形成機(jī)構(gòu)的鑒定與認(rèn)證。對(duì)電子文件的分類與知識(shí)因子的提取也由原來(lái)的人工著錄元數(shù)據(jù),變?yōu)榇髷?shù)據(jù)工具和軟件自動(dòng)批處理。對(duì)于電子文件的編號(hào)也做出了相應(yīng)的調(diào)整,但是目前還不是很標(biāo)準(zhǔn)和規(guī)范。張勇提出一種新檔號(hào)編碼方式:
編碼結(jié)構(gòu):全宗號(hào)——類型——?dú)w檔年度——文件號(hào)
文件存儲(chǔ)結(jié)構(gòu):\全宗號(hào)類型歸檔年度文件號(hào)文檔流水號(hào).文件類型|原始文件
當(dāng)然,由于現(xiàn)如今存儲(chǔ)的高密度化,部分單位采取了取消卷宗編號(hào)的方式,而以GB為單位分類和整理非現(xiàn)行的電子文件。
總之,目前受大數(shù)據(jù)環(huán)境影響,電子文件歸檔過(guò)程中的規(guī)范發(fā)生了一些變化、創(chuàng)新,但仍需不斷完善。這項(xiàng)工作與電子文件的前端控制密不可分,在大數(shù)據(jù)環(huán)境下,只有企業(yè)、工程項(xiàng)目、科創(chuàng)系統(tǒng)形成電子文件的規(guī)范與以上種種變化相適應(yīng)、相互調(diào)整,才能達(dá)到系統(tǒng)效應(yīng)。
2.在存儲(chǔ)方式方面
大數(shù)據(jù)時(shí)代,數(shù)據(jù)不僅龐大,而且格式類型多樣,如北京市檔案館接收的原生電子文件格式就有20-30種,這給電子文件的存儲(chǔ)工作帶來(lái)了巨大影響,其中影響最大的就是數(shù)據(jù)庫(kù)結(jié)構(gòu)的改變。大量的電子文件以非結(jié)構(gòu)化的形式出現(xiàn),傳統(tǒng)的關(guān)系型數(shù)據(jù)庫(kù)已經(jīng)無(wú)法滿足存儲(chǔ)的需求?,F(xiàn)在SQL數(shù)據(jù)庫(kù)已經(jīng)針對(duì)電子文件領(lǐng)域推出了基于對(duì)象的存儲(chǔ)架構(gòu),使得大量的數(shù)據(jù)流、圖像、空間數(shù)據(jù)得到有效存儲(chǔ)。
3.對(duì)非現(xiàn)行電子文件挖掘的影響
大數(shù)據(jù)主要的理念是“通過(guò)分析現(xiàn)有的,找到相關(guān)性,從而預(yù)測(cè)未來(lái)的?!焙A康碾娮游募绻链蠛?,不能為政府、企業(yè)、個(gè)人的決策提供參考的話,將失去存儲(chǔ)保留的價(jià)值。大數(shù)據(jù)時(shí)代改變了電子文件被動(dòng)利用的局面。電子文件擁有者通過(guò)調(diào)查需求,建立數(shù)據(jù)模型,聚類、分類,相關(guān)性分析,提出決策方案等過(guò)程,將半現(xiàn)行和非現(xiàn)行電子文件的價(jià)值發(fā)掘出來(lái),滿足各類使用者的利用需求。如北京市政府外事辦從2010年開(kāi)始做信息化的頂層設(shè)計(jì),將隱形知識(shí)轉(zhuǎn)化為顯性知識(shí),較好預(yù)測(cè)了國(guó)際油價(jià)的走勢(shì)。
如果說(shuō)大數(shù)據(jù)給電子文件帶來(lái)的影響更多是產(chǎn)生諸多亟待解決的問(wèn)題,那么云計(jì)算更多是從技術(shù)層面提出如何解決這些問(wèn)題的方法。云計(jì)算分為三種,硬件即服務(wù)、應(yīng)用即服務(wù)、平臺(tái)即服務(wù)。云技術(shù)將海量電子文件以低廉的成本儲(chǔ)存在云端,整合網(wǎng)絡(luò)范圍內(nèi)的資源向圖、情、檔工作者提供高效的辦公工具,如果用戶不滿意還可以采用租用云平臺(tái)的方式開(kāi)發(fā)出與電子文件工作相適應(yīng)的云軟件。
(一)解決的問(wèn)題
1.方便電子文件的共享與集成
過(guò)去,常常是由檔案部門著手收集整理電子文件,工作量大,硬件投資成本高,也不易于電子文件的集成、開(kāi)發(fā)利用。但是云存儲(chǔ)技術(shù)解決了這樣的問(wèn)題,例如國(guó)家檔案局正在著手構(gòu)建“中國(guó)檔案云”,將囊括國(guó)內(nèi)50家以上的重要檔案館。在中心平臺(tái)進(jìn)行集成,形成目錄數(shù)據(jù)和各數(shù)據(jù)訪問(wèn)路徑。對(duì)于有困難的檔案館,可以先離線存儲(chǔ),報(bào)目錄文件與中心平臺(tái)的其他目錄合成。
2.提升電子文件保存的安全性
云計(jì)算最大的特點(diǎn)就是可以進(jìn)行自動(dòng)備份。由于用戶資源不是存儲(chǔ)在本地或某一臺(tái)服務(wù)器上,而是經(jīng)過(guò)高度虛擬化之后分布式存儲(chǔ)在云端。所以在云端始終保留了多個(gè)電子文件的副本。當(dāng)發(fā)生自然災(zāi)害或硬件損壞時(shí)能夠有效實(shí)現(xiàn)異地備份的功用,這極大地提高了電子文件建設(shè)的安全性。
(二)帶來(lái)的挑戰(zhàn)
這主要集中在了真實(shí)性、完整性和可靠性上。電子文件存儲(chǔ)在云端上難免會(huì)產(chǎn)生遷移,這在資源的整合時(shí)尤為突出。數(shù)據(jù)遷移時(shí)元數(shù)據(jù)產(chǎn)生的變化對(duì)文件的真實(shí)性產(chǎn)生巨大的影響。同時(shí)云計(jì)算環(huán)境中,電子文件以64MB被分塊處理,分布式存儲(chǔ)在不同服務(wù)器中,遷移過(guò)程中要保障數(shù)據(jù)的完整和一致。在云計(jì)算環(huán)境下私有云、公有云混合,文件的保密性大大降低,另外,云平臺(tái)也面臨著病毒的攻擊,文件的安全可靠需要保障。如何有效處理這樣的問(wèn)題是云計(jì)算帶來(lái)的重大挑戰(zhàn)。
(三)SWOT分析
云環(huán)境對(duì)電子文件帶來(lái)的影響:
優(yōu)勢(shì):在于降低了基礎(chǔ)設(shè)施的投資運(yùn)行成本,方便了電子文件的集成和利用;
劣勢(shì):在于文件的控制權(quán)模糊,保障電子文件的真實(shí)、可靠還缺乏相關(guān)法規(guī)的約束;
機(jī)會(huì):在于大數(shù)據(jù)為云計(jì)算的開(kāi)發(fā)利用,提供了很好的契機(jī),人類迫不及待想使用和開(kāi)發(fā)沉淀的信息資源;
威脅:在于云計(jì)算依賴的網(wǎng)絡(luò)和服務(wù)器易于受到病毒的攻擊,存在著比較大的安全隱患。行業(yè)內(nèi)的標(biāo)準(zhǔn)也有待整合、統(tǒng)一。
總之,云計(jì)算在大數(shù)據(jù)環(huán)境下產(chǎn)生,二者密不可分,與物聯(lián)網(wǎng)并稱當(dāng)今信息世界的新興技術(shù)。兩者對(duì)電子文件的全過(guò)程產(chǎn)生了巨大的影響。這種變化雖然帶來(lái)了挑戰(zhàn),但是筆者堅(jiān)信,電子文件領(lǐng)域始終應(yīng)該和信息技術(shù)的發(fā)展同呼吸、共命運(yùn)。相信在新技術(shù)的引導(dǎo)下,電子文件領(lǐng)域會(huì)更加智能、更加規(guī)范。
[1]余洋.大數(shù)據(jù)時(shí)代背景下電子文件歸檔的重要性及歸檔措施研究[J].商場(chǎng)現(xiàn)代化,2014,33:129.
[2]殷志敏.云計(jì)算時(shí)代市政檔案管理概述[J].科教文匯(中旬刊),2015,03:191-192.
[3]劉曉光.電子文件歸檔光盤的選擇與保存[J].中國(guó)檔案,2009,12:52-53.
[4]石峻峰,樊澤恒,畢建新.云計(jì)算環(huán)境下高校電子文件一體化管理研究[J].圖書情報(bào)工作,2014,04:35-39.
[5]畢建新,鄭建明.云計(jì)算環(huán)境下電子文件一體化管理初探[J].檔案與建設(shè),2014,04:15-18+33.
[6]本刊評(píng)論員.檔案大數(shù)據(jù):機(jī)遇與挑戰(zhàn)并存[J].檔案時(shí)空,2014,06:1.
[7]積極適應(yīng)主動(dòng)引領(lǐng)開(kāi)啟檔案管理大數(shù)據(jù)時(shí)代[J].山東檔案,2014,01:1.
[8]王玉龍.云計(jì)算環(huán)境下電子文件管理問(wèn)題的思考[J].北京檔案,2012,02:21-23.
[9]孫靖靖,金丹,馮瑜.云計(jì)算模式下電子文件中心安全問(wèn)題探討[J].蘭臺(tái)世界,2012,17:51-52.
[10]薛四新.云計(jì)算環(huán)境下電子文件管理的實(shí)現(xiàn)機(jī)理[J].檔案學(xué)通訊,2013,03:65-66.
作者單位:中國(guó)人民大學(xué)信息資源管理學(xué)院