王亦曼, 張朝暉, 向 禹,,3
(1.中南大學(xué) 生物醫(yī)學(xué)信息系,湖南 長沙 410013;2.中南大學(xué) 檔案技術(shù)研究所,湖南 長沙 410083;3.中國人民大學(xué) 檔案事業(yè)發(fā)展研究中心,北京 100872)
大數(shù)據(jù)時代,隨著物聯(lián)網(wǎng)、人工智能、區(qū)塊鏈等技術(shù)的興起,檔案管理部門面臨著工作對象及工作環(huán)境的雙重變化。飛速增長的檔案數(shù)據(jù)資源與新興發(fā)展的大數(shù)據(jù)技術(shù),迫使我們探尋新的檔案管理模式,檔案數(shù)據(jù)化也因此成為檔案學(xué)界新的研究熱點。有學(xué)者從檔案數(shù)字化發(fā)展的新階段出發(fā),認為“檔案數(shù)據(jù)化”是檔案部門以用戶、業(yè)務(wù)需要為導(dǎo)向,將數(shù)字檔案資源轉(zhuǎn)換為可閱讀、分析和處理的檔案數(shù)據(jù)資源的過程[1];還有學(xué)者從檔案信息價值的實現(xiàn)出發(fā),認為檔案信息與檔案載體以數(shù)據(jù)化表達形成分離,從而實現(xiàn)檔案信息的確定性、獨立性以及可交換性[2]。無論其內(nèi)涵如何,檔案數(shù)據(jù)化對大數(shù)據(jù)時代檔案工作的轉(zhuǎn)型與發(fā)展有著重要意義,促進檔案信息資源的深度開發(fā)、創(chuàng)新檔案服務(wù)模式、優(yōu)化檔案管理流程等。
本文從“檔案數(shù)據(jù)化”研究的時間、主題、作者、機構(gòu)、學(xué)科出發(fā),對我國近20年(2000—2020)的“檔案數(shù)據(jù)化”主題研究進行總結(jié)和分析,試圖探究不同時期“檔案數(shù)據(jù)化”主題研究的內(nèi)容與特征變化,為相關(guān)研究的深化和拓展提供參考。
文章以主題為檢索字段、以“檔案AND數(shù)據(jù)化”為檢索式,限制時間范圍“2000-01-01”至“2020-11-21”,在中國知網(wǎng)進行精確檢索,共檢索出有效文獻351篇。以下按文獻發(fā)表的時間、主題、作者、機構(gòu)、學(xué)科對這351篇文獻進行統(tǒng)計分析。
圖1為“檔案數(shù)據(jù)化”主題文獻的發(fā)表年度趨勢圖。我國“檔案數(shù)據(jù)化”主題研究從年度發(fā)文量上大致可分為三個階段。第一階段為平穩(wěn)低發(fā)時期,即2000—2006年;第二階段為曲折緩增時期,即2007—2012年;第三階段為爆炸增長時期,即2013—2020年。其中以2012年為轉(zhuǎn)折點,“檔案數(shù)據(jù)化”主題文獻數(shù)量從平緩的線性增長轉(zhuǎn)變?yōu)槎盖偷闹笖?shù)型增長,且在2019年達到巔峰值。結(jié)合當(dāng)時檔案學(xué)界研究背景,不難發(fā)現(xiàn)造成此現(xiàn)象的原因。1992年,學(xué)者馮惠玲在《檔案工作現(xiàn)代化的重大課題——論檔案計算機檢索的數(shù)據(jù)準(zhǔn)備》中提出“計算機環(huán)境下與檔案相關(guān)的數(shù)據(jù)內(nèi)容”,率先提出“檔案數(shù)據(jù)”這一概念[3],標(biāo)志著檔案學(xué)領(lǐng)域開拓了新的研究內(nèi)容。2007年,隨著信息化建設(shè)的大力實施,開始涌現(xiàn)“數(shù)字化”“數(shù)據(jù)化”等概念,“檔案數(shù)據(jù)化”獨立于檔案,進一步成為檔案學(xué)領(lǐng)域研究的熱門主題。2012年,學(xué)者涂子沛著述的《大數(shù)據(jù)》率先將國外提出的“Big Data”概念引入中國,對包括檔案學(xué)在內(nèi)的各類學(xué)科產(chǎn)生了深遠影響,引發(fā)了檔案學(xué)界對“大數(shù)據(jù)時代”、“大數(shù)據(jù)技術(shù)”與“檔案數(shù)據(jù)化”等概念的火熱討論,使得“檔案數(shù)據(jù)化”相關(guān)文章數(shù)量顯著上升。2018—2019年,隨著全國范圍內(nèi)信息化的實施,大數(shù)據(jù)技術(shù)的進一步發(fā)展,檔案學(xué)界掀起了檔案數(shù)據(jù)化研究的熱潮,將檔案數(shù)據(jù)化與檔案信息資源建設(shè)、檔案管理等主題結(jié)合進行探討,且研究熱度至今仍居高不下。
圖1 “檔案數(shù)據(jù)化”主題文獻的發(fā)表年度趨勢圖
將檢索到的文獻生成題錄信息導(dǎo)入sati文獻題錄信息統(tǒng)計工具,生成了如圖2所示的關(guān)鍵詞頻次時間序列。圖中的頻次是指文獻中該詞條的在某年出現(xiàn)的次數(shù),反映了我國2000—2020年檔案數(shù)據(jù)化研究的熱點。檔案數(shù)據(jù)化的主題分布也大致可以分為三個階段。第一階段是2000—2006年,此階段檔案數(shù)據(jù)化研究主題較為單一,關(guān)鍵詞頻次低,研究熱點主要為檔案數(shù)據(jù)、數(shù)據(jù)化、信息化、人事檔案。第二階段是2007—2011年,此階段研究主題明顯增多,關(guān)鍵詞頻次增高,研究熱點主要為人事檔案、人事檔案管理、檔案管理、信息化。第三階段為2012—2020年,此階段研究主題數(shù)量大幅增加,關(guān)鍵詞頻次爆炸式上升,大數(shù)據(jù)、大數(shù)據(jù)時代、數(shù)據(jù)化、檔案管理成為研究熱點,“檔案數(shù)據(jù)化”主題研究呈現(xiàn)以大數(shù)據(jù)、檔案管理研究為主全面發(fā)展的局面。
圖2 “檔案數(shù)據(jù)化”主題文獻的關(guān)鍵詞頻次時間序列圖
圖3、圖4分別為“檔案數(shù)據(jù)化”主題文獻作者分布圖、“檔案數(shù)據(jù)化”主題文獻機構(gòu)分布圖。“檔案數(shù)據(jù)化”研究高頻發(fā)文作者有楊來青、于英香、郭懷珍、龐宇飛等人;領(lǐng)先發(fā)文機構(gòu)有上海大學(xué)圖書情報檔案系、青島市檔案局、云南大學(xué)歷史與檔案學(xué)院、安徽大學(xué)管理學(xué)院、中國人民大學(xué)信息資源管理學(xué)院等。結(jié)合作者及機構(gòu)分布,“檔案數(shù)據(jù)化”研究領(lǐng)先發(fā)文作者為隸屬青島市檔案局的楊來青、上海大學(xué)圖書情報檔案學(xué)院的于英香以及中國人民大學(xué)信息資源管理學(xué)院的錢毅。
圖3 “檔案數(shù)據(jù)化”主題文獻作者分布圖
圖4 “檔案數(shù)據(jù)化”主題文獻機構(gòu)分布圖
圖5為2000—2020年“檔案數(shù)據(jù)化”主題研究所涉及的學(xué)科。顯而易見,檔案及博物館、計算機軟件及計算機應(yīng)用、高等教育、醫(yī)藥衛(wèi)生方針政策與法規(guī)、宏觀經(jīng)濟管理與可持續(xù)發(fā)展、企業(yè)經(jīng)濟是與該主題研究高度相關(guān)的學(xué)科。其中檔案館及博物館占據(jù)著主導(dǎo)地位,其次是計算機軟件及計算機應(yīng)用科學(xué)。這是因為“檔案數(shù)據(jù)化”研究屬于檔案學(xué)領(lǐng)域的研究方向,且在大數(shù)據(jù)技術(shù)發(fā)展的影響下,該主題研究與計算機科學(xué)密不可分;此外,研究涉及大量高校檔案、企業(yè)檔案和醫(yī)療衛(wèi)生檔案,因而又與高等教育、醫(yī)藥衛(wèi)生方針政策與法規(guī)、企業(yè)經(jīng)濟學(xué)科息息相關(guān)。
圖5 “檔案數(shù)據(jù)化”主題文獻學(xué)科分布圖
以上從文獻發(fā)表的時間、主題、作者、機構(gòu)、學(xué)科方面對2000—2020年我國“檔案數(shù)據(jù)化”研究的文獻分布情況進行了簡單的統(tǒng)計和分析,并根據(jù)文獻發(fā)表的年度趨勢及研究主題的發(fā)展變化將檔案數(shù)據(jù)化的研究劃分為三個階段。在具體的內(nèi)容述評中,本文將以技術(shù)環(huán)境的變化為主線,仍以上文中劃分的三個階段來探究不同技術(shù)環(huán)境下“檔案數(shù)據(jù)化”研究的內(nèi)容與特征。
20世紀(jì)90年代以后,計算機技術(shù)在各個行業(yè)的應(yīng)用不斷推廣,如何利用計算機技術(shù)開展檔案管理工作以及使用計算機和信息系統(tǒng)所產(chǎn)生的檔案相關(guān)數(shù)據(jù),成為當(dāng)時檔案工作亟待解決的問題。2001年,全國檔案工作報告中首次明確提出了檔案信息化建設(shè)的任務(wù),隨后國家檔案局制訂并發(fā)布了《全國檔案信息化建設(shè)實施綱要》,對檔案信息化建設(shè)作了系統(tǒng)部署,明確了檔案信息化建設(shè)的主要內(nèi)容和發(fā)展方向,并成立檔案信息化領(lǐng)導(dǎo)小組,將檔案信息化納入地區(qū)信息化和電子政務(wù)建設(shè)的整體框架[4]。將這一時期的“檔案數(shù)據(jù)化”主題文獻生成題錄信息導(dǎo)入sati文獻題錄信息統(tǒng)計工具,生成了如圖6所示的關(guān)鍵詞知識圖譜。由圖6可知,這一時期的“檔案數(shù)據(jù)化”主題研究主要與檔案管理、檔案數(shù)據(jù)與信息化的前期準(zhǔn)備工作有關(guān),具體內(nèi)容可以分為計算機技術(shù)管理檔案工作與檔案信息化建設(shè)的初步探討兩個方面。
圖6 2000—2007年“檔案數(shù)據(jù)化”主題文獻關(guān)鍵詞知識圖譜
2.1.1 計算機技術(shù)管理檔案工作
該研究方向主要針對檔案工作自動化與信息化環(huán)境下管理工作的變化問題,通過檔案管理流程中數(shù)據(jù)管理活動的模式革新與形式變化,對檔案的著錄、標(biāo)引等檔案工作環(huán)節(jié)進行革新優(yōu)化。張彥靜針對網(wǎng)絡(luò)環(huán)境下檔案館工作提出,檔案館實現(xiàn)網(wǎng)絡(luò)化就必須要實現(xiàn)檔案工作的標(biāo)準(zhǔn)化、數(shù)據(jù)化、整體化和共享化,檔案工作者的思想也需要改變[5]。王文芳認為計算機技術(shù)應(yīng)用于檔案管理工作的重要環(huán)節(jié)是檔案的前處理工作,即將檔案由案卷化向數(shù)據(jù)化轉(zhuǎn)化,主要指包括檔案的著錄與標(biāo)引等檔案數(shù)據(jù)的準(zhǔn)備工作[6]。
2.1.2 檔案信息化建設(shè)的初步探討
2003—2006年“檔案數(shù)據(jù)化”研究向檔案信息化建設(shè)方向發(fā)展,這一時期的研究基于各類檔案,探討不同類型檔案的信息化建設(shè)方向。方剛、高雅玲、譚麗珍與楊青英等分別針對工程檔案、水利檔案與人事檔案,提出建立專項檔案信息化系統(tǒng),推進檔案現(xiàn)代化管理。
圖7為2007—2011年“檔案數(shù)據(jù)化”主題文獻關(guān)鍵詞知識圖譜。此階段的檔案數(shù)據(jù)化主題研究廣度和深度都不斷提升,檔案管理、信息化、數(shù)據(jù)化仍是主要研究內(nèi)容,此外關(guān)于人事檔案、現(xiàn)代化管理的檔案數(shù)據(jù)化研究顯著增多。由于此階段計算機技術(shù)及信息管理系統(tǒng)的廣泛應(yīng)用,加快了檔案管理工作自動化及紙質(zhì)檔案的數(shù)字化進程,因而這一階段的“檔案數(shù)據(jù)化研究”針對的檔案種類更多,關(guān)于檔案信息管理系統(tǒng)的探討也更為深入、全面,具體可以劃分為以下三個主題:
圖7 2007—2011年“檔案數(shù)據(jù)化”主題文獻關(guān)鍵詞知識圖譜
2.2.1 檔案信息管理系統(tǒng)研究
這一時期的檔案信息管理系統(tǒng)研究針對更加多樣化的檔案種類,對檔案信息管理系統(tǒng)的探討也更加深入。程璇、田冬梅及陳小紅等分別針對醫(yī)院科技檔案、地質(zhì)檔案資料與高校人事檔案,探討如何確保檔案數(shù)據(jù)的完整和安全,使檔案發(fā)揮最大的效用。馮九龍在分析檔案信息化建設(shè)中安全問題的基礎(chǔ)上,從促進網(wǎng)絡(luò)安全、開發(fā)先進技術(shù)、提高人員素質(zhì)三個方面對檔案信息化建設(shè)中的安全工作提出了建議[7]。
2.2.2 檔案信息資源的開發(fā)與應(yīng)用
檔案信息資源的開發(fā)與應(yīng)用在這一階段的研究主題中具有重要價值,“檔案數(shù)據(jù)化”的研究內(nèi)容不再局限于檔案信息資源的著錄與格式轉(zhuǎn)換,開始探求開發(fā)利用、開放與共享的有效途徑。沈藝認為開發(fā)利用檔案信息資源是檔案工作的根本目標(biāo),只有通過檔案信息資源的開發(fā)利用,其作用和價值才能得到充分體現(xiàn)[8]。曾予新基于城建系統(tǒng)的檔案和信息資源,分析其特點及信息數(shù)字化和歸屬現(xiàn)狀,提出要構(gòu)建城市建設(shè)檔案和信息數(shù)字化框架,從而實現(xiàn)城市建設(shè)檔案和信息資源共享[9]。
2.2.3 檔案中介機構(gòu)新發(fā)展
此外,這一階段的研究還涌現(xiàn)了新的檔案管理機構(gòu)——檔案中介機構(gòu),隨著檔案信息化的發(fā)展,檔案管理對象的轉(zhuǎn)變促使市場和業(yè)務(wù)領(lǐng)域發(fā)生了轉(zhuǎn)變。歐其健以創(chuàng)新理念為基礎(chǔ),對檔案中介服務(wù)的領(lǐng)域進行分析研究,尋求符合檔案中介機構(gòu)發(fā)展的市場領(lǐng)域,進一步壯大檔案事業(yè)[10]。劉秀芬則認為檔案中介服務(wù)機構(gòu)在立足基本服務(wù)的同時,要與時俱進,不斷拓展業(yè)務(wù)領(lǐng)域,提高競爭力,并分析了檔案中介服務(wù)開展過程中需注意的一些問題[11]。
圖8為2012—2020年“檔案數(shù)據(jù)化”主題文獻關(guān)鍵詞知識圖譜。結(jié)合圖1、圖8可知,“檔案數(shù)據(jù)化”主題研究在大數(shù)據(jù)時代迅猛發(fā)展,主題文獻數(shù)量與質(zhì)量均達到巔峰,大數(shù)據(jù)、檔案管理、數(shù)據(jù)化成為此階段的主要研究內(nèi)容。這是由于此階段云計算、人工智能、物聯(lián)網(wǎng)等新興技術(shù)的應(yīng)用與發(fā)展對檔案管理工作的模式、對象都產(chǎn)生了深刻影響。此階段的研究大多以“大數(shù)據(jù)時代”“大數(shù)據(jù)技術(shù)”為立足點,對“檔案數(shù)據(jù)化”的具體內(nèi)涵及實踐應(yīng)用開展進一步的研究。
圖8 2012—2020年“檔案數(shù)據(jù)化”主題文獻關(guān)鍵詞知識圖譜
2.3.1 “檔案數(shù)據(jù)化”理論研究
于英香通過解析檔案大數(shù)據(jù)研究中概念的誤讀,指出大數(shù)據(jù)具有實時動態(tài)性、決策預(yù)測性特征與檔案信息的滯后靜態(tài)性、證據(jù)解惑性特征的偏離,因而大數(shù)據(jù)背景下檔案數(shù)字化不等同于檔案數(shù)據(jù)化[12]。錢毅從檔案信息形成技術(shù)環(huán)境的發(fā)展歷程出發(fā),闡述了不同技術(shù)環(huán)境下對應(yīng)三態(tài)(模擬態(tài)、數(shù)字態(tài)、數(shù)據(jù)態(tài))的特質(zhì)、相關(guān)要素以及轉(zhuǎn)換過程,認為狹義的數(shù)據(jù)化指的是針對數(shù)字化成果進行的數(shù)據(jù)著錄、抽取與掛接工作,廣義的數(shù)據(jù)化是要面對業(yè)務(wù)環(huán)境形成的各類專門的數(shù)據(jù)體[13]。隨后,于英香與孫遜(2019)也基于技術(shù)變遷的角度對數(shù)據(jù)時代電子文件結(jié)構(gòu)的數(shù)據(jù)化概念進行了探討,認為數(shù)據(jù)時代電子文件結(jié)構(gòu)的數(shù)據(jù)化是文件與數(shù)據(jù)的融合,即數(shù)據(jù)化的電子文件結(jié)構(gòu)可以靈活轉(zhuǎn)換為其他結(jié)構(gòu),且電子文件數(shù)據(jù)和對應(yīng)的版式文檔之間存在關(guān)聯(lián)[14]。金波與添志鵬基于大數(shù)據(jù)背景,從存在粒度、開發(fā)方式和價值特性三個方面分析檔案數(shù)據(jù)與傳統(tǒng)檔案的差異,提出檔案數(shù)據(jù)是數(shù)據(jù)化的檔案信息及具備檔案性質(zhì)的數(shù)據(jù)記錄,具有廣源性、共生與互生性、累積性、擴展性和易算性等新的特征[15]。
2.3.2 “檔案數(shù)據(jù)化”實踐研究
李斌從檔案公共服務(wù)信息安全保障角度出發(fā),認為檔案數(shù)據(jù)化建設(shè)存在技術(shù)、新型信息安全漏洞、法律、實體檔案侵權(quán)方面的挑戰(zhàn)[16]。周麗濱針對高?;n案,認為大數(shù)據(jù)時代需加強高校基建檔案的物理安全保障和網(wǎng)絡(luò)安全建設(shè)[17]。王協(xié)舟和王露露針對“互聯(lián)網(wǎng)+”時代檔案工作的發(fā)展理念、網(wǎng)絡(luò)環(huán)境、工作對象、信息用戶、媒體格局對檔案數(shù)據(jù)的組織結(jié)構(gòu)、開發(fā)模式、管理環(huán)節(jié)、服務(wù)方式、運營戰(zhàn)略的挑戰(zhàn),提出了一系列有助于推動“互聯(lián)網(wǎng)+”與檔案工作深度融合和創(chuàng)新發(fā)展的對策[18]。任越和倪麗娟基于八所綜合檔案館的具體數(shù)據(jù)資料,指出國內(nèi)綜合檔案館在檔案信息資源方面存在著數(shù)字檔案資源匱乏、數(shù)字化標(biāo)準(zhǔn)缺失、檔案數(shù)據(jù)化關(guān)聯(lián)程度不高與信息資源后續(xù)開發(fā)乏力等問題,并提出了相應(yīng)的對策[19]。周楓和楊智勇則基于5W1H分析法對檔案數(shù)據(jù)的管理進行研究,認為檔案管理應(yīng)以智慧、知識為基礎(chǔ),運用數(shù)據(jù)思維,從數(shù)據(jù)開始管理,通過數(shù)據(jù)驅(qū)動實現(xiàn)知識管理、智慧服務(wù)[20]。
綜上所述,國內(nèi)近20年“檔案數(shù)據(jù)化”主題研究存在著以下特點:一是以技術(shù)環(huán)境為導(dǎo)向,研究逐步深入。在檔案工作自動化和檔案信息化初步發(fā)展階段(2000—2003),“檔案數(shù)據(jù)化”研究與計算機技術(shù)在檔案管理工作中的應(yīng)用以及建設(shè)檔案信息化管理系統(tǒng)息息相關(guān);在檔案信息化進一步發(fā)展階段(2007—2011),檔案數(shù)據(jù)化的研究對象除人事檔案管理之外,還包括醫(yī)院科技檔案、地質(zhì)檔案、房地產(chǎn)檔案等各類檔案,研究范圍也向檔案管理系統(tǒng)的信息安全、檔案信息資源的開放與共享等方向拓展;在檔案大數(shù)據(jù)時代(2012—2020),“檔案數(shù)據(jù)化”研究依托“大數(shù)據(jù)技術(shù)”對檔案數(shù)據(jù)化的具體內(nèi)涵和實踐應(yīng)用進行研究。二是理論與實踐研究發(fā)展不平衡。從數(shù)量上看,“檔案數(shù)據(jù)化”的實踐研究文獻數(shù)量明顯多于理論研究文獻數(shù)量,但從文獻被引次數(shù)上看,“檔案數(shù)據(jù)化”的理論研究比實踐研究影響更為深刻。三是研究作者與機構(gòu)高度集中。由上文文獻分布情況可知,“檔案數(shù)據(jù)化”主題研究的領(lǐng)先作者及機構(gòu)為上海大學(xué)圖書情報檔案學(xué)院的于英香以及人民大學(xué)信息資源管理學(xué)院的錢毅,這兩位學(xué)者對“檔案數(shù)據(jù)化”的內(nèi)涵進行了深入解讀,明確了“檔案數(shù)據(jù)化”的具體內(nèi)涵,正式劃定了大數(shù)據(jù)時代檔案學(xué)研究的新領(lǐng)域。四是學(xué)科交叉程度高。一直以來,“檔案數(shù)據(jù)化”的研究與計算機科學(xué)、高等教育學(xué)等學(xué)科高度交叉,研究思路與研究方法也在不斷豐富融合。
隨著技術(shù)環(huán)境和價值認知的變化,國內(nèi)近20年“檔案數(shù)據(jù)化”主題研究逐步發(fā)展,尤其是自2012年引進國外“Big Data”即“大數(shù)據(jù)”的概念以來,“檔案數(shù)據(jù)化”主題研究依托“大數(shù)據(jù)技術(shù)”、“大數(shù)據(jù)時代”等迅速發(fā)展。本文僅從中國知網(wǎng)這一數(shù)據(jù)庫檢索“檔案數(shù)據(jù)化”主題文獻,對主題文獻的可視化分析主要從主題、時間角度出發(fā),受限于檢索范圍和樣本數(shù)量,仍有待于進一步全面、深層次地揭示其研究規(guī)律與特點。