文/上海市疾病預(yù)防控制中心 王曉輝
大數(shù)據(jù)時(shí)代背景下的企業(yè)檔案利用服務(wù)探討
文/上海市疾病預(yù)防控制中心王曉輝
信息技術(shù)發(fā)展迅猛,大數(shù)據(jù)時(shí)代來(lái)臨,大數(shù)據(jù)時(shí)代給企業(yè)檔案利用服務(wù)提出了更高的要求?;谝陨?,本文從大數(shù)據(jù)時(shí)代概述入手,簡(jiǎn)要分析了大數(shù)據(jù)時(shí)代背景下企業(yè)檔案利用服務(wù)面臨的挑戰(zhàn),并探討了企業(yè)檔案利用服務(wù)對(duì)策,旨在提升大數(shù)據(jù)時(shí)代背景下企業(yè)檔案利用服務(wù)水平。
大數(shù)據(jù)時(shí)代;企業(yè);檔案;利用服務(wù);數(shù)據(jù)挖掘
大數(shù)據(jù)時(shí)代已然來(lái)臨,傳感器、移動(dòng)設(shè)備以及社交網(wǎng)絡(luò)遍布世界各個(gè)角落,每天都有著海量數(shù)據(jù)產(chǎn)生,在大數(shù)據(jù)時(shí)代下,企業(yè)需要準(zhǔn)確快捷的獲取數(shù)據(jù),有效的分析數(shù)據(jù),挖掘數(shù)據(jù)價(jià)值,為企業(yè)的經(jīng)營(yíng)發(fā)展做貢獻(xiàn)。本文簡(jiǎn)要探討了大數(shù)據(jù)時(shí)代背景下企業(yè)檔案利用服務(wù)的相關(guān)問(wèn)題。
大數(shù)據(jù)指的是海量的非結(jié)構(gòu)化數(shù)據(jù),其有著數(shù)量大、實(shí)時(shí)性強(qiáng)、多樣化等特點(diǎn),對(duì)于企業(yè)來(lái)說(shuō),大數(shù)據(jù)中蘊(yùn)含著重要的價(jià)值。以某企業(yè)檔案館為例,隨著大數(shù)據(jù)時(shí)代的來(lái)臨,企業(yè)檔案存儲(chǔ)量已經(jīng)從GB級(jí)別上升到PB級(jí)別,包含四百余萬(wàn)卷案卷和四千萬(wàn)余萬(wàn)件檔案,檔案數(shù)據(jù)量呈現(xiàn)出幾何倍數(shù)的增長(zhǎng)趨勢(shì),檔案資源中包含掃描圖像、電子表格、傳真、音視頻信息以及文字檔案和演示文稿等眾多非結(jié)構(gòu)化數(shù)據(jù)形式,大數(shù)據(jù)的特點(diǎn)可見(jiàn)一斑。
在大數(shù)據(jù)時(shí)代背景下,企業(yè)檔案呈現(xiàn)出了數(shù)量大、形式豐富、更新迅速等特點(diǎn),這給企業(yè)檔案館利用服務(wù)帶來(lái)了一定的挑戰(zhàn)。
(一)在海量數(shù)據(jù)中查找所需要的檔案信息。在大數(shù)據(jù)時(shí)代背景下,企業(yè)經(jīng)營(yíng)業(yè)務(wù)活動(dòng)中產(chǎn)生的信息越來(lái)越多,作為檔案保存的文件也呈爆炸式增長(zhǎng),大數(shù)據(jù)時(shí)代,互聯(lián)網(wǎng)高度發(fā)達(dá),電子文件應(yīng)用廣泛,信息的豐富也給企業(yè)檔案的利用帶來(lái)了挑戰(zhàn)。以企業(yè)檔案檢索為例,過(guò)去主要依靠卡片檢索和手工著錄檢索為主要檢索形式,而在大數(shù)據(jù)時(shí)代背景下,企業(yè)檔案數(shù)量井噴,“脹庫(kù)”現(xiàn)象屢見(jiàn)不鮮,這就給檔案檢索帶來(lái)了挑戰(zhàn),如何在海量的檔案數(shù)據(jù)中及時(shí)、準(zhǔn)確的找出所需要的信息至關(guān)重要。
(二)在海量數(shù)據(jù)中挖掘信息價(jià)值。知識(shí)管理是企業(yè)檔案管理的重要發(fā)展趨勢(shì),企業(yè)不僅需要利用數(shù)據(jù)和文件,同時(shí)需要挖掘海量數(shù)據(jù)之后蘊(yùn)含的價(jià)值和知識(shí),如何將檔案中海量的數(shù)據(jù)轉(zhuǎn)化為價(jià)值和知識(shí)是大數(shù)據(jù)時(shí)代背景下企業(yè)檔案利用服務(wù)的一大挑戰(zhàn)。價(jià)值和知識(shí)是抽象的概念,其并不是簡(jiǎn)單的存儲(chǔ)于信息和數(shù)據(jù)中,在利用的過(guò)程中需要企業(yè)進(jìn)行數(shù)據(jù)挖掘。在信息貧瘠和紙質(zhì)檔案時(shí)代,依靠人工就可以實(shí)現(xiàn)檔案價(jià)值挖掘,但在大數(shù)據(jù)時(shí)代下,這種方式顯然是不可行的,海量非結(jié)構(gòu)化數(shù)據(jù)的應(yīng)用使得手工挖掘價(jià)值難以實(shí)現(xiàn),如何利用信息技術(shù)來(lái)挖掘檔案中海量數(shù)據(jù)的價(jià)值和知識(shí)是企業(yè)檔案利用服務(wù)工作急需解決的問(wèn)題。
大數(shù)據(jù)時(shí)代給企業(yè)檔案利用服務(wù)帶來(lái)了新的特點(diǎn)和新的挑戰(zhàn),企業(yè)應(yīng)當(dāng)積極創(chuàng)新、轉(zhuǎn)變業(yè)務(wù)流程,并應(yīng)用數(shù)據(jù)挖掘技術(shù)和文本挖掘技術(shù),以此來(lái)提升檔案利用服務(wù)質(zhì)量和效率。
(一)轉(zhuǎn)變業(yè)務(wù)流程。上文中提到,大數(shù)據(jù)的海量性、形式多樣性及更新的快速性給企業(yè)檔案檢索帶來(lái)了一定的困難,傳統(tǒng)檔案利用服務(wù)查詢(xún)模式的局限性逐漸凸顯出來(lái),傳統(tǒng)的收集、管理、存儲(chǔ)和利用的企業(yè)檔案業(yè)務(wù)流程已然落后,因此,企業(yè)應(yīng)當(dāng)針對(duì)大數(shù)據(jù)時(shí)代的特點(diǎn),合理的轉(zhuǎn)變業(yè)務(wù)流程,積極應(yīng)用數(shù)據(jù)挖掘、模式識(shí)別等技術(shù)來(lái)檢索多種形式的企業(yè)檔案,在海量數(shù)據(jù)中實(shí)現(xiàn)自己需要信息的定位,實(shí)現(xiàn)信息的初步篩選,之后在進(jìn)行檔案利用服務(wù),將傳統(tǒng)的業(yè)務(wù)流程轉(zhuǎn)變?yōu)槭占?、管理、存?chǔ)、數(shù)據(jù)挖掘、利用,只有這樣才能夠提升企業(yè)檔案利用服務(wù)質(zhì)量和效率。
(二)應(yīng)用數(shù)據(jù)挖掘和文本挖掘。挖掘檔案數(shù)據(jù)中的價(jià)值和知識(shí)是企業(yè)檔案利用服務(wù)的根本目的,在這個(gè)過(guò)程中需要應(yīng)用先進(jìn)數(shù)據(jù)挖掘技術(shù)。
對(duì)于數(shù)據(jù)挖掘技術(shù)來(lái)說(shuō),其指的是從海量、模糊、不完全的數(shù)據(jù)中挖掘數(shù)據(jù)蘊(yùn)含的潛在應(yīng)用價(jià)值信息和相關(guān)知識(shí),以此為基礎(chǔ)為企業(yè)經(jīng)營(yíng)管理提供指導(dǎo),對(duì)于企業(yè)檔案利用服務(wù)來(lái)說(shuō),主要應(yīng)用文本挖掘技術(shù),即對(duì)文本數(shù)據(jù)進(jìn)行挖掘和分析。企業(yè)檔案文本挖掘涉及分析、消除噪音、衍生語(yǔ)言特征處理等眾多文本處理過(guò)程,經(jīng)過(guò)這些處理過(guò)程來(lái)使非結(jié)構(gòu)化數(shù)據(jù)轉(zhuǎn)變?yōu)榻Y(jié)構(gòu)化數(shù)據(jù),從而實(shí)現(xiàn)有價(jià)值信息和知識(shí)的挖掘與探索。具體的挖掘流程如圖1所示:
圖1 數(shù)據(jù)挖掘流程
在檔案利用服務(wù)中,數(shù)據(jù)挖掘可以借助數(shù)據(jù)挖掘平臺(tái)來(lái)實(shí)現(xiàn),以模式識(shí)別技術(shù)和相關(guān)音視頻技術(shù)為基礎(chǔ)建立數(shù)據(jù)挖掘平臺(tái),抽取概念,挖掘相關(guān)內(nèi)容,為企業(yè)提供檔案搜索和應(yīng)用服務(wù),按照具體應(yīng)用來(lái)構(gòu)建平臺(tái)架構(gòu),包含數(shù)據(jù)采集、處理、挖掘和智能搜索應(yīng)用等眾多功能,從而更好地實(shí)現(xiàn)檔案利用服務(wù)。
綜上所述,大數(shù)據(jù)時(shí)代背景下,企業(yè)檔案利用服務(wù)面臨著檔案信息查找和價(jià)值與知識(shí)挖掘等挑戰(zhàn),企業(yè)應(yīng)當(dāng)轉(zhuǎn)變檔案利用服務(wù)流程,加入信息篩選步驟,并利用數(shù)據(jù)挖掘技術(shù)來(lái)挖掘檔案信息中蘊(yùn)含的價(jià)值和知識(shí),以此來(lái)提升大數(shù)據(jù)時(shí)代背景下企業(yè)檔案利用服務(wù)水平,更好地發(fā)揮檔案利用服務(wù)對(duì)企業(yè)經(jīng)營(yíng)管理的重要作用。
[1]錢(qián)小英.大數(shù)據(jù)時(shí)代背景下的檔案利用服務(wù)探討[J].信息技術(shù)與信息化,2014(10):117-119.
[2]宋健.大數(shù)據(jù)背景下的檔案利用服務(wù)探討[J].黑龍江檔案,2016(03):32-33.
[3]吳明忠.關(guān)于大數(shù)據(jù)時(shí)代企業(yè)檔案信息資源建設(shè)的研究[A].中國(guó)航空學(xué)會(huì)管理科學(xué)分會(huì)2015年學(xué)術(shù)交流會(huì)論文集[C].2015:13.
[4]王麗麗.大數(shù)據(jù)背景下企業(yè)檔案資源的整合與利用[J].蘭臺(tái)世界,2014(17):54-55.