文·董聰穎 金軼瑩
新型冠狀病毒疫情發(fā)生后,國(guó)家檔案局《關(guān)于做好新型冠狀病毒感染肺炎疫情防控期間檔案工作的通知》(以下簡(jiǎn)稱《通知》)指出:要服務(wù)大局,充分發(fā)揮檔案政資作用,特別是2003年抗擊“非典”疫情的有關(guān)重要工作情況,匯總編輯成檔案參考材料。[1]
檔案數(shù)據(jù)作為社會(huì)公共資源,實(shí)現(xiàn)檔案數(shù)據(jù)價(jià)值、促進(jìn)檔案數(shù)據(jù)價(jià)值最大化是適應(yīng)政府?dāng)?shù)據(jù)開放的有效舉措。在數(shù)字化浪潮席卷社會(huì)的今天,檔案人不得不緊跟時(shí)代,及時(shí)向社會(huì)提供檔案數(shù)據(jù)服務(wù),高效跟進(jìn)政府、社會(huì)的改革與建設(shè)需求,重新將檔案數(shù)據(jù)管理、檔案數(shù)據(jù)服務(wù)、檔案數(shù)據(jù)價(jià)值實(shí)現(xiàn)等問題納入思考范疇。檔案數(shù)據(jù)價(jià)值是指檔案數(shù)據(jù)對(duì)于社會(huì)的積極意義和有用性,檔案數(shù)據(jù)價(jià)值的實(shí)現(xiàn)是一個(gè)動(dòng)態(tài)過程,是人對(duì)檔案數(shù)據(jù)加以動(dòng)作,使檔案數(shù)據(jù)“活起來”,從案牘上或者數(shù)據(jù)庫中的靜態(tài)數(shù)據(jù)變成信息甚至知識(shí)并為人所用的過程。
《數(shù)據(jù)資產(chǎn)管理實(shí)踐白皮書4.0》明確提出:“將數(shù)據(jù)轉(zhuǎn)變?yōu)閿?shù)據(jù)資產(chǎn),要掌握豐富的高價(jià)值數(shù)據(jù)資源?!睓n案數(shù)據(jù)和政府?dāng)?shù)據(jù)聯(lián)系密切,政府部門存有大量的公共數(shù)據(jù)資源,這些資源大多存放在原有的數(shù)據(jù)庫中或堆積在各部門檔案室或文件柜里,并沒有得到很好的利用,對(duì)這些數(shù)據(jù)資源進(jìn)行開發(fā)服務(wù)將是未來數(shù)據(jù)開放工作的重心。[2]政府?dāng)?shù)據(jù)開放力求通過帶動(dòng)社會(huì)開展大數(shù)據(jù)增值性、公益性開發(fā)和創(chuàng)新應(yīng)用,充分釋放數(shù)據(jù)紅利?!洞龠M(jìn)大數(shù)據(jù)發(fā)展行動(dòng)綱要》(以下簡(jiǎn)稱《綱要》)明確指出:“構(gòu)建電子健康檔案,加強(qiáng)數(shù)字圖書館、檔案館等公益設(shè)施建設(shè),構(gòu)建文化傳播大數(shù)據(jù)綜合服務(wù)平臺(tái)”,由此可見,增強(qiáng)檔案數(shù)據(jù)服務(wù)是推動(dòng)政府?dāng)?shù)據(jù)開發(fā)的重要因素之一。
截至2018年底,全國(guó)各級(jí)國(guó)家綜合檔案館館藏檔案75051.1萬卷、件,全國(guó)各級(jí)國(guó)家綜合檔案館紙質(zhì)館藏資料3883.1萬冊(cè)(不包含照片、影片檔案、電子檔案等)。[3]隨著大數(shù)據(jù)、社交媒體的發(fā)展,檔案數(shù)據(jù)的外延不斷擴(kuò)展,如此海量的檔案數(shù)據(jù)中蘊(yùn)藏的價(jià)值不可估量。另一方面,政府?dāng)?shù)據(jù)開放的深入開展,引發(fā)了檔案領(lǐng)域?qū)n案價(jià)值的思考,理論層面關(guān)于檔案數(shù)據(jù)價(jià)值實(shí)現(xiàn)的研究也不斷增多。馬海群指出在數(shù)據(jù)開放的研究與實(shí)踐潮流下,進(jìn)一步關(guān)注檔案數(shù)據(jù)開放將成為檔案數(shù)據(jù)研究的最新前沿問題。[4]Ahmed Elragal, Tero Paivarinta等學(xué)者尋求運(yùn)用數(shù)據(jù)挖掘技術(shù)實(shí)現(xiàn)檔案數(shù)據(jù)價(jià)值增值,提出通過新興的大數(shù)據(jù)分析手段來開展數(shù)字檔案和館藏的開發(fā)工作,從而為社會(huì)提供知識(shí)服務(wù)。[5]王向女、袁倩指出數(shù)據(jù)科學(xué)主要解決了檔案數(shù)據(jù)的快速增長(zhǎng)和精準(zhǔn)有效利用之間的矛盾問題,創(chuàng)新之處在于數(shù)據(jù)科學(xué)實(shí)現(xiàn)了檔案數(shù)據(jù)的數(shù)量“增殖”和價(jià)值“增值”之間的和諧。[6]
首先,檔案數(shù)據(jù)服務(wù)的開展。疫情防控期間,《通知》指示各級(jí)檔案部門要充分利用現(xiàn)代通訊技術(shù),靈活采用電話、辦公網(wǎng)、短信、微信、移動(dòng)客戶端等適宜方式,加強(qiáng)對(duì)疫情防控材料收集歸檔工作的業(yè)務(wù)指導(dǎo),做到疫情防控檔案應(yīng)收盡收、應(yīng)歸盡歸。許多檔案館紛紛制定策略,保障檔案數(shù)據(jù)服務(wù)的有序開展。第二,檔案數(shù)據(jù)服務(wù)網(wǎng)站的不斷完善。截至目前,一些省市已經(jīng)建成檔案數(shù)據(jù)服務(wù)網(wǎng)站,如上海市將檔案數(shù)據(jù)服務(wù)融入“一網(wǎng)通辦”工程、浙江檔案服務(wù)網(wǎng)增設(shè)“開放檔案”欄目。第三,數(shù)據(jù)挖掘技術(shù)的應(yīng)用。政府?dāng)?shù)據(jù)開放動(dòng)員社會(huì)利用數(shù)據(jù)挖掘技術(shù)來開發(fā)數(shù)據(jù)價(jià)值,真正實(shí)現(xiàn)數(shù)據(jù)來源于民用之于民,這對(duì)檔案數(shù)據(jù)價(jià)值實(shí)現(xiàn)提供了諸多可鑒之處。
大數(shù)據(jù)背景下,檔案數(shù)據(jù)價(jià)值可以挖掘出三個(gè)層次,一是檔案數(shù)據(jù)內(nèi)容的憑證價(jià)值和情報(bào)價(jià)值;二是檔案數(shù)據(jù)關(guān)聯(lián)、數(shù)據(jù)挖掘以及數(shù)據(jù)融合產(chǎn)生的二次價(jià)值;三是無法立即判斷其價(jià)值的數(shù)據(jù)的潛在價(jià)值。[7]檔案數(shù)據(jù)價(jià)值可以分為三類,即檔案數(shù)據(jù)內(nèi)容價(jià)值、檔案數(shù)據(jù)增值價(jià)值、檔案數(shù)據(jù)潛在價(jià)值。
1.檔案數(shù)據(jù)內(nèi)容價(jià)值
檔案數(shù)據(jù)內(nèi)容價(jià)值是指不經(jīng)過任何加工直接用肉眼或者簡(jiǎn)單分析就可獲取的憑證和情報(bào)價(jià)值。新型冠狀病毒防控期間,各級(jí)部門及時(shí)公布“非典”檔案和新型冠狀病毒的對(duì)比數(shù)據(jù),防治“非典”病毒的檔案為新型冠狀病毒的防控提供了可鑒之處,如當(dāng)時(shí)北京小湯山醫(yī)院的建設(shè)對(duì)遏制病毒起到了重要作用,截止到2020年2月7日,火神山醫(yī)院已經(jīng)開始收治病人,雷神山醫(yī)院也即將完工,這些都充分發(fā)揮了檔案數(shù)據(jù)的憑證和情報(bào)價(jià)值。
2.檔案數(shù)據(jù)增值價(jià)值
在數(shù)據(jù)科學(xué)的大背景下,檔案數(shù)據(jù)的價(jià)值在于海量數(shù)據(jù)基礎(chǔ)上的價(jià)值增值。[8]《通知》指出:“各級(jí)檔案局、檔案館要根據(jù)疫情防控工作實(shí)際需要,組織檔案編研人員,深入挖掘館藏檔案資源。”檔案數(shù)據(jù)增值價(jià)值又稱檔案數(shù)據(jù)附加價(jià)值,不易直接獲得,通常和數(shù)據(jù)量、技術(shù)手段相匹配,同一問題數(shù)據(jù)規(guī)模越龐大,數(shù)據(jù)分析技術(shù)越精進(jìn),檔案數(shù)據(jù)增值價(jià)值越容易體現(xiàn)。檔案數(shù)據(jù)增值價(jià)值包括定量和定性兩個(gè)層面。定量是可見的、真實(shí)的、可以測(cè)量的價(jià)值;定性更帶有主觀色彩和不確定性,如通過“非典”檔案和新型冠狀病毒對(duì)比數(shù)據(jù)的公布,緩解了社會(huì)對(duì)新型冠狀病毒的恐懼,發(fā)揮了穩(wěn)定社會(huì)秩序的作用,這很難用確切的數(shù)據(jù)來衡量,但也是檔案數(shù)據(jù)增值價(jià)值的體現(xiàn)。
3.檔案數(shù)據(jù)潛在價(jià)值
檔案數(shù)據(jù)潛在價(jià)值是還未發(fā)現(xiàn)的價(jià)值,一經(jīng)發(fā)現(xiàn)它既可以轉(zhuǎn)化為內(nèi)容價(jià)值也可以轉(zhuǎn)化為增值價(jià)值。在新型冠狀病毒未發(fā)生前,“非典”檔案只作為相關(guān)科研人員研究所用,其他憑證價(jià)值、情報(bào)價(jià)值以及經(jīng)過數(shù)據(jù)分析的價(jià)值則不會(huì)顯現(xiàn)。因此,檔案數(shù)據(jù)潛在價(jià)值需要一定條件去發(fā)現(xiàn)和實(shí)現(xiàn)。對(duì)于檔案館而言,從大量數(shù)據(jù)中分析潛在的價(jià)值決定著大數(shù)據(jù)時(shí)代檔案館的發(fā)展水平及方向。[9]當(dāng)前檔案數(shù)據(jù)仍有無數(shù)潛在價(jià)值等待我們?nèi)グl(fā)掘,需要檔案人敏銳的目光,需要整個(gè)社會(huì)的參與。
1.檔案數(shù)據(jù)價(jià)值實(shí)現(xiàn)的主體
2018年5月24日,馮惠玲在上海大學(xué)《新時(shí)代 新趨向 新思考——信息資源管理發(fā)展創(chuàng)新論壇》報(bào)告中提到,檔案管理與開發(fā)呈現(xiàn)出檔案主客體多元化、檔案實(shí)踐多元化等特點(diǎn)。政府?dāng)?shù)據(jù)開放背景下檔案數(shù)據(jù)價(jià)值實(shí)現(xiàn)主體是指開放檔案數(shù)據(jù)和挖掘數(shù)據(jù)價(jià)值的部門、機(jī)構(gòu)或者個(gè)人。檔案部門是開放檔案、提供檔案數(shù)據(jù)服務(wù)的主力;第三方服務(wù)機(jī)構(gòu)在技術(shù)、知識(shí)挖掘等層面占據(jù)優(yōu)勢(shì),是挖掘數(shù)據(jù)價(jià)值的重要力量;掌握數(shù)據(jù)挖掘技術(shù)的個(gè)人在檔案數(shù)據(jù)價(jià)值開發(fā)方面也可發(fā)揮其特長(zhǎng)。
2.檔案數(shù)據(jù)價(jià)值的服務(wù)對(duì)象
檔案數(shù)據(jù)價(jià)值的服務(wù)對(duì)象是接受檔案價(jià)值的用戶,是價(jià)值受眾。檔案數(shù)據(jù)管理的整個(gè)生命周期都圍繞用戶展開,是檔案數(shù)據(jù)價(jià)值實(shí)現(xiàn)的主要推動(dòng)力。2018年末,我國(guó)總?cè)丝?39,538萬人,2018年度,全國(guó)各級(jí)國(guó)家綜合檔案館接待利用者724.9萬人次。每一個(gè)人都是檔案數(shù)據(jù)的潛在用戶,由數(shù)據(jù)可知,我國(guó)檔案數(shù)據(jù)用戶的增長(zhǎng)空間巨大。隨著信息的高速發(fā)展,用戶對(duì)檔案數(shù)據(jù)的利用需求也在改變,用戶關(guān)注的已不再是簡(jiǎn)單地獲取文獻(xiàn),而是如何從繁雜的信息環(huán)境中捕獲和析取解決所面臨問題的信息內(nèi)容,并將這些信息融化或重組為相應(yīng)的知識(shí)或解決方案。[10]
3.開放的檔案數(shù)據(jù)
政府?dāng)?shù)據(jù)開放的重心在“開放”一詞,開放的政府?dāng)?shù)據(jù)具有自由訪問、規(guī)模大、種類齊全等特點(diǎn)。自由訪問代表任何人都可以獲取,無權(quán)限設(shè)置;《綱要》提出2020年前,實(shí)現(xiàn)信用、交通、醫(yī)療等20多個(gè)相關(guān)領(lǐng)域的政府?dāng)?shù)據(jù)集向社會(huì)開放,“數(shù)據(jù)集”是政府?dāng)?shù)據(jù)開放的單位之一,是海量數(shù)據(jù)組成的集合。開放的檔案數(shù)據(jù)是利用檔案數(shù)據(jù)的前提,大規(guī)模的數(shù)據(jù)開放是開展數(shù)據(jù)挖掘的基礎(chǔ),是促進(jìn)數(shù)據(jù)—信息—知識(shí)轉(zhuǎn)變的有效舉措。
除上述因素外,技術(shù)條件的成熟和引用、政策法規(guī)的出臺(tái)完善、逐步增強(qiáng)的社會(huì)檔案數(shù)據(jù)利用意識(shí)等也是檔案數(shù)據(jù)價(jià)值實(shí)現(xiàn)的要素。只有各要素相互配合,相輔相成,才能實(shí)現(xiàn)檔案數(shù)據(jù)價(jià)值最大化。
1.提高檔案數(shù)據(jù)內(nèi)容質(zhì)量
檔案數(shù)據(jù)價(jià)值開發(fā)的對(duì)象是檔案數(shù)據(jù),檔案數(shù)據(jù)內(nèi)容質(zhì)量的高低決定了檔案數(shù)據(jù)價(jià)值的可信性。電子文件歸檔有效解決了紙質(zhì)檔案保存對(duì)空間的特定要求,但是目前,電子文件的格式多樣、重復(fù)存儲(chǔ),不同系統(tǒng)的文件沒有接口,文件之間、類別之間、館際之間等形式及內(nèi)容間的深層次關(guān)聯(lián)仍未建立,限制了檔案價(jià)值的挖掘與利用。另外,不少檔案館采用數(shù)字外包的形式,檔案數(shù)字化質(zhì)量難以保證。因此,加快建設(shè)檔案數(shù)據(jù)共享平臺(tái)、完善電子文件標(biāo)準(zhǔn)建設(shè)、提高檔案數(shù)子化水平、做好元數(shù)據(jù)著錄和保存工作是提高檔案數(shù)據(jù)內(nèi)容質(zhì)量的重要因素。
2.擴(kuò)大檔案數(shù)據(jù)開放格局
檔案數(shù)據(jù)不是為了保存而保存,對(duì)檔案進(jìn)行一系列的管理活動(dòng),其最終目的是為了發(fā)揮檔案的作用。政府?dāng)?shù)據(jù)開放背景下,檔案數(shù)據(jù)更應(yīng)緊跟時(shí)代,擴(kuò)大檔案數(shù)據(jù)開放范圍,加大檔案數(shù)據(jù)開放格局。首先,促進(jìn)全方位的開放服務(wù),即面向用戶,無差別地提供服務(wù);其次,實(shí)行多層次的開放服務(wù),即檔案數(shù)據(jù)的開放由國(guó)家到省市、由較發(fā)達(dá)地區(qū)到經(jīng)濟(jì)相對(duì)落后地區(qū)依次推進(jìn);最后,寬領(lǐng)域的開放服務(wù),包括兩個(gè)方面,一是內(nèi)容領(lǐng)域更加廣泛,如開放種類增多、開放數(shù)據(jù)集,二是檔案數(shù)據(jù)的利用除憑證價(jià)值外,其增值價(jià)值也會(huì)激活市場(chǎng)某一領(lǐng)域的活力。
3.開展檔案數(shù)據(jù)化服務(wù)
開放的政府?dāng)?shù)據(jù)都是以數(shù)據(jù)化的形式向社會(huì)提供,檔案數(shù)據(jù)價(jià)值挖掘技術(shù)的應(yīng)用需要數(shù)據(jù)化為前提。檔案數(shù)據(jù)化是檔案數(shù)據(jù)的結(jié)構(gòu)化解析、應(yīng)用級(jí)封裝、媒體化組織和全鏈?zhǔn)焦芾磉^程。[11]檔案數(shù)據(jù)化是檔案數(shù)字化建設(shè)的發(fā)展方向。[12]我國(guó)檔案數(shù)字化已開展多年,但數(shù)字程度較高的檔案館多是經(jīng)濟(jì)發(fā)達(dá)城市,經(jīng)濟(jì)相對(duì)落后的市、縣數(shù)字化任務(wù)仍十分艱巨,加快這些地區(qū)的數(shù)字化進(jìn)程,是開展檔案數(shù)據(jù)化服務(wù)的重要因素。
1.充分借助政府?dāng)?shù)據(jù)開放平臺(tái)
《綱要》明確提出2018年底前建成國(guó)家政府?dāng)?shù)據(jù)統(tǒng)一開放平臺(tái)。目前,各省市政府?dāng)?shù)據(jù)開放平臺(tái)建設(shè)已比較成熟,如上海市“一網(wǎng)通辦”、貴州政府?dāng)?shù)據(jù)開放平臺(tái)等。政府?dāng)?shù)據(jù)和檔案數(shù)據(jù)聯(lián)系密切,檔案包含經(jīng)處理歸檔的政府公開信息,不少地區(qū)檔案數(shù)據(jù)服務(wù)借助政府?dāng)?shù)據(jù)開放平臺(tái)來開展,如《福建省數(shù)字檔案共享管理辦法》指出:“綜合檔案館基于省市兩級(jí)電子政務(wù)云計(jì)算平臺(tái),統(tǒng)籌建立數(shù)字檔案的目錄數(shù)據(jù)庫、全文數(shù)據(jù)庫、專題數(shù)據(jù)庫等數(shù)據(jù)庫?!币虼?,檔案部門應(yīng)抓住數(shù)據(jù)開放機(jī)遇,充分借助政府?dāng)?shù)據(jù)開放平臺(tái),推動(dòng)檔案數(shù)據(jù)服務(wù),促進(jìn)檔案數(shù)據(jù)價(jià)值的實(shí)現(xiàn)。
2.促進(jìn)檔案數(shù)據(jù)服務(wù)網(wǎng)站建設(shè)
檔案數(shù)據(jù)服務(wù)網(wǎng)站是影響檔案數(shù)據(jù)價(jià)值實(shí)現(xiàn)的重要因素,是用戶獲取檔案數(shù)據(jù)的關(guān)鍵渠道,服務(wù)網(wǎng)站及其內(nèi)容的完善與否決定了檔案數(shù)據(jù)的獲取量。政府?dāng)?shù)據(jù)開放背景下,檔案數(shù)據(jù)服務(wù)網(wǎng)站應(yīng)更加完善,但是實(shí)踐中仍存在一些問題,如網(wǎng)站建設(shè)多處于初步階段,經(jīng)濟(jì)相對(duì)落后地區(qū)甚至還未開始建設(shè)檔案數(shù)據(jù)開放平臺(tái)、網(wǎng)站訪問量有待提升等。因此,檔案部門應(yīng)加強(qiáng)舉措,繼續(xù)關(guān)注已經(jīng)有所發(fā)展的檔案數(shù)據(jù)服務(wù)網(wǎng)站,推動(dòng)其向更完善更豐富的方向發(fā)展;加大對(duì)經(jīng)濟(jì)相對(duì)落后和偏遠(yuǎn)地區(qū)檔案數(shù)據(jù)服務(wù)網(wǎng)站的資金投入,從而盡快實(shí)現(xiàn)檔案數(shù)據(jù)服務(wù)平臺(tái)的互聯(lián)互通,為檔案數(shù)據(jù)價(jià)值實(shí)現(xiàn)提供更多契機(jī)。
數(shù)據(jù)挖掘技術(shù)的應(yīng)用是開發(fā)檔案數(shù)據(jù)價(jià)值的關(guān)鍵。使用人工智能、文本挖掘、語義分析等大數(shù)據(jù)挖掘技術(shù)可以分析海量數(shù)據(jù)資源背后蘊(yùn)藏的潛在價(jià)值,將數(shù)據(jù)轉(zhuǎn)化為知識(shí)以滿足檔案用戶的需求;利用VR、AR、MR等大數(shù)據(jù)可視化技術(shù)可以使結(jié)構(gòu)復(fù)雜、類型多樣的檔案數(shù)據(jù)資源以清晰、明朗、更為直觀高效的方式呈現(xiàn)出來,便于檔案用戶的利用,提高檔案資源的利用率。[13]目前,檔案數(shù)據(jù)挖掘技術(shù)在檔案數(shù)據(jù)價(jià)值實(shí)現(xiàn)方面的應(yīng)用還不廣泛,有關(guān)部門可以借鑒政府?dāng)?shù)據(jù)價(jià)值實(shí)現(xiàn)的成功案例,加大投入力度,加強(qiáng)數(shù)據(jù)存儲(chǔ)、整理、分析處理、可視化、信息安全與隱私保護(hù)等領(lǐng)域技術(shù)產(chǎn)品的研發(fā),突破關(guān)鍵環(huán)節(jié)技術(shù)瓶頸,形成一批有代表性的應(yīng)用案例,以應(yīng)用帶動(dòng)檔案數(shù)據(jù)價(jià)值開發(fā)。
相關(guān)檔案數(shù)據(jù)標(biāo)準(zhǔn)制度的完善和實(shí)現(xiàn)檔案數(shù)據(jù)價(jià)值密切相關(guān)。首先,完善檔案數(shù)據(jù)標(biāo)準(zhǔn),一是檔案數(shù)據(jù)著錄標(biāo)準(zhǔn),包括電子文件主題著錄、元數(shù)據(jù)著錄等,便于相關(guān)數(shù)據(jù)的識(shí)別和開發(fā);二是檔案數(shù)據(jù)存儲(chǔ)標(biāo)準(zhǔn),促進(jìn)電子文件存儲(chǔ)格式的統(tǒng)一,便于數(shù)據(jù)挖掘技術(shù)的開展。其次,健全檔案數(shù)據(jù)保密制度。大數(shù)據(jù)背景下,檔案數(shù)據(jù)的外延不斷擴(kuò)展,哪些屬于檔案數(shù)據(jù),哪些不屬于檔案數(shù)據(jù)還沒有明確的界定,這給檔案數(shù)據(jù)的安全帶來了一定風(fēng)險(xiǎn)。因此,完善檔案數(shù)據(jù)保密制度,明確檔案數(shù)據(jù)保密內(nèi)容,是保障檔案數(shù)據(jù)安全的基礎(chǔ)。最后,強(qiáng)化檔案數(shù)據(jù)人才培訓(xùn)制度。檔案數(shù)據(jù)價(jià)值的開發(fā)需要更多的技術(shù)人才參與進(jìn)來,加大對(duì)檔案管理人員和相關(guān)領(lǐng)域人員的培訓(xùn),提高其檔案數(shù)據(jù)價(jià)值開發(fā)意識(shí),增強(qiáng)檔案數(shù)據(jù)價(jià)值挖掘機(jī)會(huì)。