李華
摘 要:隨著我國大數(shù)據(jù)時代的到來,數(shù)字檔案館建設(shè)成為現(xiàn)階段的重要發(fā)展目標(biāo)之一。在數(shù)字檔案館建設(shè)中必須認(rèn)真分析檔案資源建設(shè)的重點(diǎn),加強(qiáng)人才培養(yǎng)。本文敘述了大數(shù)據(jù)時代背景下,數(shù)字檔案館建設(shè)中存在的問題,提出了解決問題的對策,對當(dāng)前數(shù)字檔案館建設(shè)提供了建設(shè)性意見。
關(guān)鍵詞:大數(shù)據(jù);數(shù)字檔案館;模式建設(shè);對策
隨著我國大數(shù)據(jù)技術(shù)的快速發(fā)展,傳統(tǒng)的檔案館已經(jīng)不能滿足現(xiàn)階段的發(fā)展需要,利用大數(shù)據(jù)技術(shù),建設(shè)數(shù)字檔案館,是適應(yīng)我國經(jīng)濟(jì)建設(shè)發(fā)展的重要手段。在大數(shù)據(jù)時代背景下,數(shù)字檔案館的管理體系、管理模式、管理理論等都發(fā)生了極大的變化,在數(shù)字檔案館建設(shè)過程中,如何充分發(fā)揮大數(shù)據(jù)的作用,為廣大用戶提供優(yōu)質(zhì)、高效的服務(wù)成為現(xiàn)階段數(shù)字檔案館建設(shè)的重點(diǎn)。
一、大數(shù)據(jù)時代背景下對數(shù)字檔案館建設(shè)的影響
在建設(shè)數(shù)字檔案館工作中,隨著大數(shù)據(jù)時代的到來,數(shù)字檔案館的數(shù)據(jù)結(jié)構(gòu)和體系結(jié)構(gòu)都發(fā)生了巨大的變化,因此,要充分運(yùn)用大數(shù)據(jù)技術(shù)來對檔案進(jìn)行數(shù)據(jù)化分析。
關(guān)于大數(shù)據(jù),維基百科的定義是:由數(shù)量巨大、機(jī)構(gòu)復(fù)雜、類型眾多數(shù)據(jù)構(gòu)成的數(shù)據(jù)集合,是基于云計(jì)算的數(shù)據(jù)處理與應(yīng)用模式,通過數(shù)據(jù)的整合共享,交叉復(fù)用形成的智力資源和知識服務(wù)能力。盡管目前大數(shù)據(jù)還沒有統(tǒng)一定義,但對其存在一個共識:大數(shù)據(jù)不是對數(shù)據(jù)量大小的定量描述,而是一種在種類繁多、數(shù)量龐大的多樣數(shù)據(jù)中進(jìn)行的快速信息獲取和應(yīng)用。
1.大數(shù)據(jù)的種類及特點(diǎn)。大數(shù)據(jù)的類型大概包括以下幾種:(1)數(shù)字化數(shù)據(jù):掃描并借助光學(xué)字符識別轉(zhuǎn)化而成電子形式的傳統(tǒng)文獻(xiàn)數(shù)據(jù),其主要存在與國家和地方的檔案、圖書等文獻(xiàn)數(shù)據(jù)資源庫中;(2)自然數(shù)據(jù):即直接形成用于計(jì)算機(jī)和數(shù)據(jù)處理系統(tǒng)的數(shù)據(jù),其主要存在與應(yīng)用程序、管理平臺、交易系統(tǒng)、數(shù)據(jù)庫、電子郵件、公眾網(wǎng)絡(luò)、社交媒體及GPS定位系統(tǒng)中;(3)模擬數(shù)據(jù)是從物理世界發(fā)散出來但可以不斷被轉(zhuǎn)化成數(shù)字格式的,其主要存在于手機(jī)、相機(jī)、攝像設(shè)備、傳感器以及可以穿戴設(shè)備中。以上數(shù)據(jù)以實(shí)時、迭代的方式不斷生成、轉(zhuǎn)化和融合。
2.檔案大數(shù)據(jù)的獲取。數(shù)字檔案館的信息資源與大數(shù)據(jù)在內(nèi)容價值上是相互交叉的。一方面,數(shù)字檔案館的信息資源是大數(shù)據(jù)的重要組成部分。因?yàn)閿?shù)字檔案資源最重要的特點(diǎn)是有機(jī)聯(lián)系,而大數(shù)據(jù)的主要特點(diǎn)也是相關(guān)性,因此,本身即存在有機(jī)聯(lián)系或存在潛在聯(lián)系的數(shù)字檔案資源是大數(shù)據(jù)精華的一部分。另一方面,大數(shù)據(jù)又可以劃歸為數(shù)字檔案資源的理論范疇內(nèi)。因?yàn)榇髷?shù)據(jù)也是國家機(jī)構(gòu)、社會組織或個人在社會活動中直接形成的各種形式的信息記錄。如,收集運(yùn)營商掌握的人們實(shí)時通信記錄,金融行業(yè)掌握的國家、機(jī)構(gòu)和個人資金交易記錄,網(wǎng)絡(luò)服務(wù)商掌握的人們各種社會交往、交流記錄,監(jiān)視器留下的人們行動的信息記錄等,這些都是大數(shù)據(jù)內(nèi)容,而從“大檔案”的角度看,這些大數(shù)據(jù)又是數(shù)字檔案資源的組成部分。
由于數(shù)字檔案館里的數(shù)字資源內(nèi)容較多,各不相同,過去的數(shù)字檔案館資源類型主要是檔案數(shù)字化后形成的圖像數(shù)據(jù)和以數(shù)據(jù)庫為載體的機(jī)構(gòu)化數(shù)據(jù),而大數(shù)據(jù)時代非結(jié)構(gòu)化數(shù)據(jù)大量產(chǎn)生,如各種格式的文檔、文本、圖片、報表和音視頻信息等,數(shù)字檔案資源的類型越來越復(fù)雜多樣,管理難度也不斷增加。在實(shí)施過程中,要充分考慮到數(shù)字檔案館的數(shù)據(jù)結(jié)構(gòu)類型和實(shí)效性要求。在數(shù)據(jù)結(jié)構(gòu)上,要滿足各種數(shù)據(jù)結(jié)構(gòu)的要求,能夠同時的支持定期同步或者數(shù)據(jù)實(shí)時共享的要求。另外,在大數(shù)據(jù)的背景下,要滿足數(shù)據(jù)的抓起和數(shù)據(jù)的實(shí)時推送的要求。
3.檔案大數(shù)據(jù)平臺的建設(shè)。由于數(shù)字檔案館的資源眾多,結(jié)構(gòu)復(fù)雜,采用大數(shù)據(jù)技術(shù)進(jìn)行相關(guān)內(nèi)容的獲取后,如何保存相關(guān)的海量數(shù)據(jù),是建設(shè)數(shù)字檔案館需要重點(diǎn)考慮的內(nèi)容。因此,在檔案大數(shù)據(jù)平臺的建設(shè)過程中,需要建立起大量的異構(gòu)異質(zhì)數(shù)據(jù)的底層存儲以及分布式的系統(tǒng)架構(gòu),當(dāng)數(shù)據(jù)存儲容量超過服務(wù)器的承載能力時,數(shù)據(jù)存儲平臺能夠滿足可擴(kuò)展和可用性的要求,同時檔案大數(shù)據(jù)平臺要具備大數(shù)據(jù)分析和應(yīng)用等功能。
4.檔案大數(shù)據(jù)的分析。在數(shù)字檔案館建設(shè)中,由于不同的檔案數(shù)據(jù)所存儲的價值是存在著一定的差異的,在使用過程中,不可避免的會增大用戶獲取有價值信息的難度,這就要求在大數(shù)據(jù)的技術(shù)背景下,能夠?qū)n案信息進(jìn)行及時的區(qū)分和聯(lián)系,多方面、多角度對數(shù)字檔案進(jìn)行分析和挖掘,改變數(shù)據(jù)提取過程中的方式,充分發(fā)揮大數(shù)據(jù)的相關(guān)特性和優(yōu)勢,支持對各種數(shù)據(jù)的聚合分析,改進(jìn)數(shù)字檔案業(yè)務(wù)的流程。
5.檔案大數(shù)據(jù)的應(yīng)用。在檔案大數(shù)據(jù)的應(yīng)用過程中,要在保證檔案數(shù)據(jù)真實(shí)性的基礎(chǔ)上,針對檔案業(yè)務(wù)中的難點(diǎn),在檔案數(shù)據(jù)建設(shè)中加以規(guī)范化處理,使數(shù)據(jù)結(jié)構(gòu)和檔案業(yè)務(wù)能夠滿足大數(shù)據(jù)的需求,實(shí)現(xiàn)數(shù)字檔案館相關(guān)數(shù)據(jù)的關(guān)聯(lián)分析、檔案數(shù)據(jù)查詢等功能。同時,為了更好地滿足數(shù)字檔案查詢結(jié)果的多角度、多層次、多樣性分析,可以加強(qiáng)數(shù)字檔案館建設(shè)過程中的可視化技術(shù)的應(yīng)用等,從而保證數(shù)字檔案館建設(shè)的合理性,提高公民的檔案誠信度,實(shí)現(xiàn)數(shù)字檔案館的優(yōu)化配置。
二、數(shù)字檔案館在大數(shù)據(jù)時代面臨的挑戰(zhàn)
在大數(shù)據(jù)時代背景下,數(shù)字檔案館面臨著新的發(fā)展機(jī)遇的同時也面臨著新的挑戰(zhàn),主要體現(xiàn)在兩個方面:一方面,在數(shù)字檔案館大數(shù)據(jù)平臺下,如何采用大數(shù)據(jù)處理手段和工具實(shí)現(xiàn)對于數(shù)字檔案館的簡單化管理和自動化管理。另一方面,在數(shù)字檔案館建設(shè)中,實(shí)現(xiàn)檔案大數(shù)據(jù)專業(yè)化、可視化處理,才能充分揮出大數(shù)據(jù)所帶來的潛在價值,只有通過數(shù)據(jù)處理來增加相關(guān)數(shù)字檔案的價值,才能實(shí)現(xiàn)數(shù)字檔案館在大數(shù)據(jù)時代背景下快速的發(fā)展。
三、大數(shù)據(jù)時代背景下,數(shù)字檔案館建設(shè)存在的主要問題
1.統(tǒng)籌規(guī)劃力度不足??傮w來說,在大數(shù)據(jù)時代背景下,數(shù)字檔案館建設(shè)缺乏相關(guān)的指導(dǎo)文件和標(biāo)準(zhǔn)化規(guī)范,致使在建設(shè)過程中不能夠?qū)崿F(xiàn)資源的充分利用,建設(shè)的標(biāo)準(zhǔn)參差不齊,各地?cái)?shù)字檔案館建設(shè)水平也存在著較大的差距,同時,一些數(shù)字檔案館在建設(shè)過程中過分地重視數(shù)字化建設(shè)而輕視數(shù)字檔案內(nèi)容的建設(shè),使后期在數(shù)據(jù)處理與挖掘過程中無法充分發(fā)揮數(shù)字檔案的自身價值。
2.人才結(jié)構(gòu)有欠合理。數(shù)字檔案館內(nèi)的資源較為豐富,類型眾多,大數(shù)據(jù)時代背景下對檔案工作者處理數(shù)據(jù)、分析數(shù)據(jù)和挖掘數(shù)據(jù)的能力提出了更高的要求,而在一些數(shù)字檔案館中,受人員結(jié)構(gòu)等因素的影響,缺少專業(yè)的檔案管理人才和計(jì)算機(jī)人才,數(shù)字檔案館建設(shè)工作很難適應(yīng)現(xiàn)代化的要求。
3.技術(shù)應(yīng)用尚不深入。目前,雖然部分地區(qū)數(shù)字檔案館建設(shè)水平較高,但在大數(shù)據(jù)時代下,相關(guān)技術(shù)的應(yīng)用尚不深入,沒有實(shí)現(xiàn)一體化管理,高新技術(shù)的缺失,造成了數(shù)字檔案的應(yīng)用不能滿足現(xiàn)階段的工作需求,難以應(yīng)對大數(shù)據(jù)時代背景下海量數(shù)據(jù)壓力。
4.資源組織有待加強(qiáng)。在大數(shù)據(jù)時代背景下,我國大部分?jǐn)?shù)字檔案館由于客觀條件和技術(shù)上的不足,電子文件沒有進(jìn)行及時存儲、歸檔、接收,普遍存在館藏?cái)?shù)字檔案資源內(nèi)容不豐富,門類不齊全,在檔案資源開發(fā)過程中缺乏一定的深度和廣度,從而使各級數(shù)字檔案館的檔案資源難以實(shí)現(xiàn)有效的整合、共享。
5.信息服務(wù)亟需推進(jìn)。我國數(shù)字檔案館檔案服務(wù)中雖然取得了一定的成效,但存在數(shù)字檔案資源結(jié)構(gòu)單一,數(shù)據(jù)發(fā)掘的深度和廣度不夠,難以實(shí)現(xiàn)知識的轉(zhuǎn)化,數(shù)字資源利用仍然停留在簡單的數(shù)據(jù)查詢上,同時在檔案網(wǎng)站的在線信息服務(wù)過程中,一定程度上降低了數(shù)字檔案資源的競爭力。
四、大數(shù)據(jù)時代下數(shù)字檔案館建設(shè)策略
1.明確知識提供者的身份。在數(shù)字檔案館建設(shè)中,要對知識提供者的身份加以確認(rèn),從大眾思想上改變數(shù)字檔案館的職能定位,在檔案的管理上充分實(shí)現(xiàn)知識的共享與利用,發(fā)揮出數(shù)字檔案資源自身價值,實(shí)現(xiàn)數(shù)字檔案更好的服務(wù)社會大眾。
2.構(gòu)建高效的知識提取系統(tǒng)。在數(shù)字檔案館建設(shè)過程中,可以充分利用大數(shù)據(jù)的特征提取技術(shù)來更新數(shù)據(jù)檔案產(chǎn)品的種類,及時推送給需求人群,使數(shù)字檔案館充分發(fā)揮自身的館藏特色,發(fā)揮出自身產(chǎn)品的優(yōu)勢。這就需要在數(shù)字檔案館建設(shè)過程中,建立知識提取系統(tǒng),做到客戶所需就是自身需求,同時在各個數(shù)字檔案館之間實(shí)現(xiàn)數(shù)據(jù)之間的共享,相互取長補(bǔ)短,實(shí)現(xiàn)真正的大數(shù)據(jù)管理。
3.制定統(tǒng)一的數(shù)據(jù)標(biāo)準(zhǔn)。在大數(shù)據(jù)時代背景下,各數(shù)字檔案館之間實(shí)現(xiàn)資源共享的前提就是使用統(tǒng)一的數(shù)據(jù)標(biāo)準(zhǔn),同時各數(shù)據(jù)庫要相互的兼容。這就要求在數(shù)據(jù)交換過程中,要確保資源交換過程的數(shù)據(jù)安全,統(tǒng)一電子資源格式,在數(shù)據(jù)提取過程中確保數(shù)字檔案館數(shù)據(jù)的質(zhì)量,制定大眾需求的共同資源轉(zhuǎn)化及時,在統(tǒng)一管理中推進(jìn)數(shù)字檔案館的順利建設(shè)。
4.與平臺提供商共贏發(fā)展。在數(shù)字檔案館建設(shè)過程中,要充分發(fā)揮出自身的數(shù)字資源的優(yōu)勢,在與平臺提供商的合作過程中,運(yùn)用現(xiàn)階段的思維管理理念,構(gòu)建多種檔案服務(wù)體系,充分推進(jìn)檔案服務(wù)工作向知識化服務(wù)的方向改變,從而提高檔案的利用效率,充分發(fā)揮出知識對于社會發(fā)展的促進(jìn)作用。
五、結(jié)論
綜上所述,數(shù)字檔案館建設(shè)仍然存在著許多問題,大數(shù)據(jù)時代為數(shù)字檔案館建設(shè)提供了新的發(fā)展機(jī)遇和挑戰(zhàn),因此,在現(xiàn)階段的數(shù)字檔案館建設(shè)過程中要做好統(tǒng)籌規(guī)劃、合作機(jī)制和人才培養(yǎng)工作,從而實(shí)現(xiàn)數(shù)字檔案館的可持續(xù)發(fā)展。
參考文獻(xiàn):
[1]段 麗.大數(shù)據(jù)時代背景下數(shù)字檔案館建設(shè)的思考[J].城建檔案,2017(03):17-18.
[2]黃少芳,劉曉鴻,孫 玲,朱青峰.初論大數(shù)據(jù)時代地質(zhì)資料信息集成與服務(wù)[J].中國礦業(yè),2016,25(02):170-172.
[3]周耀林,朱 倩.大數(shù)據(jù)時代我國數(shù)字檔案館的建設(shè)與發(fā)展[J].信息資源管理學(xué)報,2015,5(02):108-113.
[4]宋美霞.大數(shù)據(jù)背景下數(shù)字檔案館信息服務(wù)研究[J].檔案管理,2015(02):45-46.