摘 要:文章通過對大數(shù)據(jù)時代檔案數(shù)字資源的產(chǎn)生、來源渠道、資源類型、歸檔速度以及價值層面展開分析,提出檔案數(shù)字資源建設(shè)在智慧化管理中的感知能力、綜合處理能力以及協(xié)同合作能力等特征,并對檔案數(shù)字資源在數(shù)字檔案館中的數(shù)據(jù)收集、檢索、監(jiān)督和服務實踐等方面開展了探討,強調(diào)應最終實現(xiàn)檔案信息資源社會共享的目標。
關(guān)鍵詞:檔案數(shù)字資源;智慧化管理;數(shù)字檔案館;實踐探討
一、大數(shù)據(jù)時代的檔案數(shù)字資源
伴隨信息化時代的發(fā)展,各地數(shù)字資源建設(shè)不斷推進,各種數(shù)字資源產(chǎn)生了大量的檔案數(shù)據(jù),尤其是智慧城市的建設(shè)需求更是促進了檔案數(shù)字資源的快速增長。各地檔案主管部門都在探索使用云計算平臺、大數(shù)據(jù)技術(shù)、物聯(lián)網(wǎng)和數(shù)據(jù)挖掘等技術(shù)開展數(shù)據(jù)歸檔工作。檔案數(shù)字資源需要科學、嚴謹和規(guī)范的整理,新修訂的《檔案法》要求電子檔案來源可靠、程序規(guī)范和要素合規(guī)。同時,國家也出臺了大量行業(yè)標準及從業(yè)規(guī)范,特別是在檔案收集、管理、存儲和利用等方面都有明確的要求。
1.檔案數(shù)字資源的量能分析
根據(jù)IDC提供的信息顯示,其呈逐年增長趨勢,從2010年至2020年,數(shù)據(jù)容量從800EB增長到40ZB。分析數(shù)據(jù)源可以發(fā)現(xiàn),數(shù)據(jù)來自數(shù)字檔案館、電子檔案、館藏檔案數(shù)字化、社會散存檔案、WEB信息、業(yè)務應用系統(tǒng)、廣播電視信息、智能化設(shè)備設(shè)施信息和移動終端等。例如,10年前一段15分鐘的視頻資源的電子檔案容量一般為450M大小,現(xiàn)在進入4K高清時代,是之前容量的13倍,目前可以達到6~8個G,數(shù)據(jù)容量呈爆發(fā)式增長態(tài)勢。
2.檔案數(shù)字資源的類型分析
在大數(shù)據(jù)主導的信息時代,數(shù)字資源類型變得更加寬泛,如果想要實現(xiàn)數(shù)字資源建設(shè)的智慧化管理,僅依靠單一的數(shù)據(jù)是遠遠不夠的。從目前的實踐過程來看,數(shù)字化資源包含計算機技術(shù)產(chǎn)生的電子文檔和電子檔案;多媒體技術(shù)產(chǎn)生的電子信息和數(shù)字檔案館產(chǎn)生的檔案數(shù)字化成果;通信技術(shù)下產(chǎn)生的數(shù)據(jù)庫信息以及電子期刊和電子圖書,還有各種網(wǎng)站信息、由專業(yè)檔案目錄及索引等檔案管理信息所構(gòu)成的檔案內(nèi)容信息以及系統(tǒng)開展數(shù)字資源采集時產(chǎn)生的歸檔工作信息等。例如,工作人員的操作記錄、歸檔的數(shù)據(jù)記錄以及檔案用戶產(chǎn)生的用戶行為信息,也包含館內(nèi)外人員產(chǎn)生的人員信息以及由溫濕度信息、安保信息等構(gòu)成的檔案館館庫信息等過程信息和日志信息等。
3.檔案數(shù)字資源的歸檔速度及價值分析
通過云計算技術(shù)等解決數(shù)字資源的歸檔速度問題。對于算法復雜、計算任務重的環(huán)節(jié),如數(shù)字資源質(zhì)量檢測、高級條件下的檢索機制以及OCR技術(shù)識別等,可以安排在云計算平臺實施。在大數(shù)據(jù)時代,數(shù)據(jù)模型構(gòu)建是快速檢索結(jié)果的重要渠道,也是數(shù)字資源建設(shè)中的重要環(huán)節(jié)。在價值分析判斷方面,檔案實體信息一般都具有保存價值。但是,在大數(shù)據(jù)時代,由于各種網(wǎng)絡信息、電子信息的產(chǎn)生、傳遞和保存方法等十分容易實現(xiàn),導致沒有保存價值的數(shù)字資源也容易進入檔案館。
二、檔案數(shù)字資源建設(shè)中實施智慧化管理的主要特征
1.感知能力
首先,通過RFID技術(shù)(射頻識別技術(shù))的實現(xiàn),能夠智能化識別、定位、跟蹤、監(jiān)控和管理檔案數(shù)字資源。通過RFID技術(shù)可以智能化識別某個檔案,確定其地點、位置,并實現(xiàn)跟蹤,跟蹤的作用是可以控制相關(guān)路線;其次,對電子檔案信息的感知,主要利用數(shù)據(jù)挖掘技術(shù)去實現(xiàn),對檔案信息實施四個過程的處理,包括識別、提取、整理和利用過程;再次,對數(shù)字資源相關(guān)業(yè)務信息的感知,通過使用業(yè)務信息數(shù)據(jù)挖掘技術(shù)實現(xiàn)全場管控管理,在使用軟件系統(tǒng)過程中可以同步了解相關(guān)管理人員的個人績效、工作效率和工作質(zhì)量的完成情況等;最后,就是對檔案數(shù)字資源利用過程的感知,主要通過管控檔案用戶利用檔案的行為信息,以實現(xiàn)對用戶利用檔案特點和趨勢的掌握。最終實現(xiàn)檔案業(yè)務滿足社會需求程度的預測和評價的目的。
2.綜合處理能力
綜合處理功能是指系統(tǒng)具有按照預案對感知的信息智能處置的過程,主要提供風險判斷、觸發(fā)預案、預警機制、過程控制機制、數(shù)據(jù)挖掘分析和決策參考等技術(shù)支持。
其一,檔案數(shù)字資源入館過程的處理。為把控工作進度,保證工作進程和完成度,在檔案數(shù)字資源利用過程中,感知工作中產(chǎn)生的管理人員的各種行為信息及數(shù)字檔案館的各種設(shè)備設(shè)施信息,使用數(shù)據(jù)模型對信息數(shù)據(jù)的合規(guī)性、相似度實施分析,對數(shù)據(jù)缺失、溢出和異常等情況自主判斷和決策,自動觸發(fā)處置預案,通過預置的工作流程,向設(shè)備設(shè)施發(fā)出指令,實行智能控制,并做出報警提示。
其二,對檔案數(shù)字資源的處理。為強化對海量檔案數(shù)字資源的管理,利用檔案信息形成的規(guī)律和檔案文件邏輯、語言和結(jié)構(gòu)的規(guī)律,按照預設(shè)方案,采取數(shù)據(jù)模型分析、全文檢索、數(shù)據(jù)挖掘以及知識管理等技術(shù),對檔案數(shù)字資源實行數(shù)據(jù)比對、數(shù)據(jù)檢索和語義分析等處理,以自動發(fā)現(xiàn)、抽取及加工信息,輔助檔案人員檢查歸檔,移交進館檔案齊全完整和質(zhì)量情況,鑒定檔案價值,審查開放檔案,并生成摘要知識庫,經(jīng)過信息提煉,可以得到挖掘、重組、新形態(tài)、新視角和新用途的增值信息。
3.協(xié)同合作處理能力
通過系統(tǒng)實現(xiàn)檔案數(shù)字資源信息、相關(guān)業(yè)務信息、電子文件及電子檔案保護過程、管理人員和管理目標的一體化管理,實現(xiàn)數(shù)字化檔案館事件、檔案數(shù)字資源與管理人員之間的高效協(xié)同,通過業(yè)務信息的采集和數(shù)據(jù)挖掘,實現(xiàn)人與人之間的高效協(xié)同。通過高效有序的業(yè)務整合與流程再造和組織再造,提高組織效率,促進檔案館和諧發(fā)展。以檔案數(shù)字資源盤點為例,庫房中的歸檔電子檔案都做RFID技術(shù)標識,發(fā)現(xiàn)相關(guān)電子檔案被刪除或移除,就會激發(fā)協(xié)同處理機制,出現(xiàn)盤點記錄比對過程,在檔案目錄數(shù)據(jù)庫查詢會發(fā)現(xiàn)目錄數(shù)據(jù)庫記錄出現(xiàn)有問題,也可以查看全文數(shù)據(jù)庫或修復數(shù)據(jù)庫,通過綜合性的處理,最終會給出一個建議報告,這就是協(xié)同合作處理數(shù)字資源的流程。
4.泛在服務能力
泛在服務是根據(jù)檔案業(yè)務工作的實際需求,通過強大的感知交互和計算能力,追求檔案系統(tǒng)內(nèi)部檔案業(yè)務信息服務的最大化,使檔案專業(yè)人員可以方便地利用相關(guān)檔案業(yè)務信息,更好、更快捷地完成工作,也是未來技術(shù)發(fā)展的方向和趨勢。針對客戶的實際檔案利用需求,在可能的條件下最大限度地滿足用戶需求,使用戶能夠隨時隨地多方式、多途徑地利用信息。不同網(wǎng)絡的服務水平更高,包括局域網(wǎng)、政務網(wǎng)、互聯(lián)網(wǎng)、傳統(tǒng)的計算機網(wǎng)絡和移動新媒體,對館庫信息的感知,主要通過樓宇智能技術(shù)實現(xiàn),以智能化監(jiān)測、評價和處置檔案管理狀態(tài);對人員信息的感知,主要通過RFID技術(shù)檢測館內(nèi)人員行為,以防范安全風險。例如,工作人員有胸卡,可以感知低風險、中風險和高風險,通過RFID技術(shù)圈定不同的人進入不同的位置,可以感知區(qū)域差值,系統(tǒng)會及時報警,進而引發(fā)處置機制。
三、檔案數(shù)字資源建設(shè)中的智慧化管理及在數(shù)字檔案館中的實踐
1.檔案數(shù)字資源的收集、檢索
在收集檔案數(shù)字資源的過程中,針對不同的數(shù)據(jù)源,如數(shù)據(jù)智能采集工廠、數(shù)據(jù)導入、數(shù)據(jù)管道、程序接口和網(wǎng)頁爬蟲等,可以使用魔方適配器,破解各式各樣的數(shù)據(jù)源。在此之前,需要對數(shù)字資源做好前期調(diào)研工作,數(shù)字化掃描、音視頻采集和縮微膠片轉(zhuǎn)換屬于OCR數(shù)據(jù)采集;互聯(lián)網(wǎng)信息、廣播信息、電視節(jié)目、物聯(lián)網(wǎng)設(shè)備信息、局域網(wǎng)數(shù)據(jù)信息以及智能移動終端屬于檔案智慧采集。信息數(shù)據(jù)接收之后,通過對檢索結(jié)構(gòu)的自動聚類,大量的檢索結(jié)果按照檔案之間的關(guān)聯(lián)性自動分成若干類,用戶可以選擇相應的類別,系統(tǒng)按照類別過濾,按照文件主題詞、文件類型、文件來源和建立時間等方式實施聚類。也可以通過訓練語料,系統(tǒng)實現(xiàn)全自動分類。例如,通過對代表性材料開展系統(tǒng)學習,包括政治、經(jīng)濟、文化和商務等信息,學習之后,系統(tǒng)可以對陌生的東西自動實施分類或者通過人工預先制定的規(guī)則文件,為每一個文檔確定一個類別,實現(xiàn)基于規(guī)則的自動分類。還可以通過系統(tǒng)把一篇文章的主干部分抽出來,形成摘要,顯示在首頁上,可以直接判斷是不是用戶需要的,以滿足不同需求的用戶。甚至可以加入人工干預,在此階段,對于比較熟悉檔案資源的工作人員及時開展語義網(wǎng)絡維護也很重要。通過語義網(wǎng)絡把人物、建筑、組織機構(gòu)、地名和資料等關(guān)聯(lián)起來,可以更深層次地挖掘檔案之間的關(guān)聯(lián)關(guān)系,豐富和維護人物、建筑、組織機構(gòu)、地名和資料等語義網(wǎng)絡,從而提高檔案檢索結(jié)果。目的是實現(xiàn)檔案之間的關(guān)聯(lián)與互動,使檔案資源更加豐富、生動,可以多層次、多維度的呈現(xiàn)意想不到的檢索效果。例如,將不同領(lǐng)導人、不同時期視察同一地區(qū)的信息相關(guān)聯(lián),可以直觀地感受該地區(qū)的變化,具有重要的歷史意義。此外,知識詞庫管理也很關(guān)鍵,通過建立豐富的詞庫,包括主題詞庫、近義詞庫、同義詞庫、形近詞庫、異體詞庫、虛擬人名庫和熱詞詞庫等,支持智慧化管理,通過詞庫開展一些換算,會帶來一些意想不到的東西。
2.檔案數(shù)字資源建設(shè)中的智慧化管理
在數(shù)字檔案館中實施檔案數(shù)字資源智慧化管理時,需要使用RFID技術(shù),在各個管理節(jié)點設(shè)置可以隨時抓取的感應點。例如,在電子檔案加上RFID的標識,并給管理人員安裝帶有RFID的工牌,在電子文檔中心安裝立體部署,當外來人員通過系統(tǒng)查詢檔案數(shù)字資源時,會同時給電子庫房發(fā)出信號,通過電子通道導出電子檔案,在對應感應點,系統(tǒng)就會全面感知到電子檔案出庫了。在系統(tǒng)當中,出庫路線就是按照數(shù)據(jù)模型設(shè)定好的,一旦偏離路線就會激發(fā)報警裝置,如果電子檔案發(fā)生跳躍或逃離通道情況,會激發(fā)高級別的報警,信號會直接發(fā)給高級管理部門,該部門有及時攔截權(quán)限。同時,這也是一種管控機制,可以管理工作人員的工作目標、工作效率以及績效,還有安全問題等。
3.檔案數(shù)字資源建設(shè)在數(shù)字檔案館中的監(jiān)督實踐
在實際檔案數(shù)字資源建設(shè)的監(jiān)督實踐中,主要實現(xiàn)兩個方面的監(jiān)督目標。一是對內(nèi)監(jiān)督的機制,主要是指對檔案館內(nèi)部工作人員的監(jiān)督過程。通過對各個部門預設(shè)一定的工作目標、工作任務和工作進度情況,監(jiān)督實施過程及其完成情況。通過對每一個工作環(huán)節(jié)的管控,可以實現(xiàn)對每一位管理人員具體工作任務、工作目標的感知,最終實現(xiàn)對管理人員工作績效的管控目的;二是對外監(jiān)督。也就是對進館轉(zhuǎn)檔的相關(guān)部門,可以通過建立云指導平臺實時管控檔案數(shù)字資源建設(shè),發(fā)揮平臺的服務功能。例如,實施檔案數(shù)字資源監(jiān)管,可以利用大數(shù)據(jù)技術(shù)監(jiān)管各個部門的電子檔案歸檔情況,在本單位機器上可以顯示部門排名、檔案數(shù)字資源歸檔及時程度以及電子檔案的質(zhì)量及存儲狀況,通過智慧挖掘、分析技術(shù)可以分析和排名,實現(xiàn)智慧化監(jiān)督的關(guān)鍵是建立各種業(yè)務數(shù)據(jù)模型,包括檔案數(shù)字資源接收模型、檔案數(shù)字化模型、檔案數(shù)字資源鑒定模型、檔案數(shù)字資源利用模型及進館預測模型等。例如,通過分析某個部門歷年檔案數(shù)字資源,可以預測明年大概會進館多少檔案,如果各個部門匯總起來,就可以預測明年整個檔案館會進館的檔案數(shù)量,然后和檔案館的系統(tǒng)實施匹配,系統(tǒng)會提供一個預案,出現(xiàn)一個報告或建議文件。特別是通過推送相關(guān)的專題,對部門的工作查考會有幫助,可以同步提高檔案數(shù)字資源的治理能力和質(zhì)量水平。
4.檔案數(shù)字資源建設(shè)在數(shù)字檔案館中的服務實踐
檔案利用的最大化是檔案數(shù)字資源建設(shè)的最終目的。檔案數(shù)字資源建設(shè)應依托“互聯(lián)網(wǎng)+”模式,在軟件方面,存量數(shù)字化,增量電子化,利用檔案網(wǎng)絡化的工作要求,全面推進數(shù)字化檔案館建設(shè);在硬件方面,加大中心機房、數(shù)字化加工場所和數(shù)字檔案庫房的建設(shè)改造,為用戶提供更好的數(shù)字化體驗,提供智慧檢索幫助用戶查詢到更高層次的資源,一鍵式的百度式檢索及高級檢索可以使檢索的條件更加具體化。通過數(shù)據(jù)挖掘技術(shù)和數(shù)據(jù)自動聚類檢索結(jié)果,可以利用語義關(guān)系繼續(xù)檢索,通過提供個性化搜索,還有相似性推薦,相似度比較高的檔案會被羅列出來,借用以上手段,可以讓一次查詢變得更有價值、更有深度。
四、結(jié)束語
總之,新時代賦予新的契機,要準確把握信息技術(shù)發(fā)展前沿,積極探索檔案資源建設(shè)發(fā)展戰(zhàn)略,牢牢抓住發(fā)展機遇,加快全面數(shù)字化進程,持續(xù)深化智慧檔案館、智慧城市和數(shù)字政府等方面的應用。檔案部門應以檔案信息資源社會共享為最終目標,在檔案信息化領(lǐng)域深化探索和實踐,以數(shù)字檔案賦能數(shù)字城市建設(shè),加強與其他檔案管理機構(gòu)交流協(xié)作,共同打造檔案數(shù)字資源平臺建設(shè),共享檔案篩選甄別和信息系統(tǒng)權(quán)限設(shè)置等準備工作,充分發(fā)揮檔案數(shù)字資源的價值,共同努力爭取和創(chuàng)造條件,完善檔案數(shù)字資源共享利用模式,使檔案數(shù)字資源最終實現(xiàn)跨區(qū)域、跨部門的共享功能,更好地服務社會。
參考文獻:
[1]曹 琳.高校檔案館數(shù)字資源管理與存儲優(yōu)化研究[J].檔案天地,2018(07):42-44.
[2]馬夢華.數(shù)字化建設(shè)過程中檔案精細化分類探索及實踐[J].檔案管理,2017(03):48-50.
[3]李月娥.數(shù)字校園背景下高校文書檔案在線歸檔模式與實踐探索[J].檔案與建設(shè),2016(04):28-31.
[4]朱麗梅.大數(shù)據(jù)時代高校數(shù)字檔案館的建設(shè)[J].蘭臺世界,2018(08):34-37.
[5]鐘 聲.檔案數(shù)字資源長久保存和備份技術(shù)與策略[J].蘭臺內(nèi)外,2021(31):10-12.
[6]王 昀.淺談數(shù)字檔案資源長期保存策略[J].蘭臺世界,2020(05):54-56.
[7]曾 智.億級城建檔案數(shù)字資源管理策略小議[J].城建檔案,2019(07):10-14.
[8]吳申艷.基于數(shù)字檔案長期保存的元數(shù)據(jù)需求及建設(shè)策略研究[J].檔案管理,2017(06):42-44.
作者單位:山東建筑大學
作者簡介:董琳(1977—),女,漢族,山東濟南人,碩士研究生,副研究館員,研究方向:檔案管理。