摘 要:為了將檔案工作融入國家大數(shù)據(jù)戰(zhàn)略當(dāng)中,文章梳理國內(nèi)有關(guān)大數(shù)據(jù)與檔案數(shù)據(jù)管理相關(guān)的研究,對“大數(shù)據(jù)、檔案大數(shù)據(jù)、檔案數(shù)據(jù)、檔案數(shù)據(jù)化”的概念和相關(guān)實(shí)踐進(jìn)行研究。根據(jù)當(dāng)前研究現(xiàn)狀得出研究成果豐碩,但核心概念尚需厘清;注重理論研究,但實(shí)踐指導(dǎo)尚需深化;聚焦檔案領(lǐng)域,但交叉研究尚需形成等結(jié)論。并據(jù)此提出加大檔案基本理論體系研究的力度與深度、加大數(shù)據(jù)檔案管理活動研究的廣度與寬度、構(gòu)建國家大數(shù)據(jù)戰(zhàn)略下檔案管理框架以及研究國家大數(shù)據(jù)戰(zhàn)略下數(shù)據(jù)檔案應(yīng)用場景等下一步研究方向,以期為相關(guān)研究提供借鑒。
關(guān)鍵詞:大數(shù)據(jù);檔案數(shù)據(jù);數(shù)據(jù)管理
中圖分類號:G270.7" " " 文獻(xiàn)標(biāo)識碼:A" " " " " " " "文章編號:1007-1199(2024)02-0046-07
DOI:10.19327/j.cnki.zuaxb.1007-1199.2024.02.006
鄭州航空工業(yè)管理學(xué)院 信息管理學(xué)院,河南 鄭州 450046
1 引 言
2017年12月8日,中共中央政治局就實(shí)施國家大數(shù)據(jù)戰(zhàn)略進(jìn)行第二次學(xué)習(xí),習(xí)近平總書記明確指出了大數(shù)據(jù)作為信息化發(fā)展新階段的重要性。他強(qiáng)調(diào),新時(shí)期應(yīng)當(dāng)審時(shí)度勢,精心謀劃,超前布局,力爭主動,實(shí)施國家大數(shù)據(jù)戰(zhàn)略、加快建設(shè)數(shù)字中國成為關(guān)鍵任務(wù)。為此,要抓緊構(gòu)建以數(shù)據(jù)為關(guān)鍵要素的數(shù)字經(jīng)濟(jì),運(yùn)用大數(shù)據(jù)提升國家治理現(xiàn)代化水平,同時(shí)促進(jìn)保障和改善民生。在這一過程中,還應(yīng)切實(shí)保障國家數(shù)據(jù)的安全。
檔案作為國家信息資源的重要組成部分,如何融入國家大數(shù)據(jù)戰(zhàn)略是檔案工作的政治任務(wù),也是迫切需要解決的問題。
在當(dāng)前時(shí)代背景下,數(shù)據(jù)逐漸成為檔案的重要保存形式,我國學(xué)者圍繞大數(shù)據(jù)戰(zhàn)略下檔案數(shù)據(jù)管理展開了系列探索,形成了較為豐富的研究成果,本文通過全面收集、深入研讀國內(nèi)有關(guān)大數(shù)據(jù)與檔案數(shù)據(jù)及其管理相關(guān)成果,對相關(guān)研究進(jìn)行充分把握,在此基礎(chǔ)上明確研究方向,為后續(xù)的研究提供參考。
2 大數(shù)據(jù)戰(zhàn)略下國內(nèi)檔案數(shù)據(jù)管理研究主題分布
為更全面地了解國內(nèi)大數(shù)據(jù)與檔案數(shù)據(jù)化相關(guān)研究的情況,分別以“大數(shù)據(jù)檔案”“大數(shù)據(jù)+檔案”“檔案數(shù)據(jù)”“檔案數(shù)據(jù)化”“數(shù)據(jù)檔案化”等為主題進(jìn)行檢索,文獻(xiàn)來源類別限定為SCI、EI、北大核心、CSSCI、CSCD,起始時(shí)間不限,截至2024年2月1日,共檢索出69篇有效中文文獻(xiàn)。所獲文獻(xiàn)主要集中在檔案大數(shù)據(jù)與檔案數(shù)據(jù)化等方面,文章在細(xì)化研究主題的基礎(chǔ)上展開分析,以總結(jié)相關(guān)管理經(jīng)驗(yàn)。
2.1 大數(shù)據(jù)戰(zhàn)略下檔案工作相關(guān)研究
2.1.1 檔案大數(shù)據(jù)內(nèi)涵
大數(shù)據(jù)戰(zhàn)略下,檔案大數(shù)據(jù)概念應(yīng)時(shí)而生,它為人們認(rèn)識檔案提供一種新的價(jià)值觀和方法論。對檔案大數(shù)據(jù)概念進(jìn)行解讀,有利于提升檔案科學(xué)管理、實(shí)現(xiàn)檔案大數(shù)據(jù)的戰(zhàn)略意義。
康蠡等[1]結(jié)合大數(shù)據(jù)和檔案工作實(shí)際, 將檔案大數(shù)據(jù)定義為與檔案活動密切相關(guān)的各種高價(jià)值的、在短時(shí)間內(nèi)難以進(jìn)行分析處理的數(shù)據(jù)集。同時(shí),康蠡等[2]還從生態(tài)系統(tǒng)層面出發(fā),對檔案大數(shù)據(jù)生態(tài)系統(tǒng)進(jìn)行定義,認(rèn)為檔案大數(shù)據(jù)生態(tài)系統(tǒng)是由檔案大數(shù)據(jù)及其主體和環(huán)境構(gòu)成,大數(shù)據(jù)技術(shù)和理念的融入使檔案大數(shù)據(jù)生態(tài)系統(tǒng)有了新的特征。
鄭金月[3]立足于實(shí)際工作,認(rèn)為檔案大數(shù)據(jù)既是指檔案部門接收管理的各類檔案數(shù)據(jù),又囊括了檔案部門自身產(chǎn)生的大數(shù)據(jù),大數(shù)據(jù)的應(yīng)用成為檔案部門在其工作領(lǐng)域的核心之一。
王居一[4]綜合國內(nèi)研究,認(rèn)為將數(shù)量龐雜的檔案數(shù)據(jù)統(tǒng)稱為檔案大數(shù)據(jù),從學(xué)術(shù)角度來講是不正確的,大數(shù)據(jù)時(shí)代,檔案數(shù)據(jù)至關(guān)重要,若想將檔案數(shù)據(jù)真正成為現(xiàn)實(shí)意義上的大數(shù)據(jù),就需要改變與時(shí)代不相匹配的管理模式與方法,使檔案數(shù)據(jù)最大程度地融合到社會大數(shù)據(jù)中。
祁天嬌[5]立足于檔案視角,對歷史大數(shù)據(jù)進(jìn)行研究,認(rèn)為“歷史大數(shù)據(jù)”作為“大數(shù)據(jù)”的一種,在具備大數(shù)據(jù)基本特征的同時(shí),又有其特性,如泛在性、拓展性、再生產(chǎn)性等。
2.1.2 跨部門協(xié)同管理
大數(shù)據(jù)視閾下,檔案工作面臨轉(zhuǎn)型升級,檔案工作正在由數(shù)字化走向數(shù)據(jù)化。檔案工作的轉(zhuǎn)型必將帶來檔案部門的職能調(diào)整,創(chuàng)新升級現(xiàn)有模式。近年來,學(xué)者在檔案工作跨部門的協(xié)同管理上做出了初步探索。
徐擁軍等[6]從檔案與數(shù)據(jù)的協(xié)同管理出發(fā),認(rèn)為傳統(tǒng)的檔案部門與新興的數(shù)據(jù)管理部門之間存在著職責(zé)交叉的問題,需加以厘清優(yōu)化。在此基礎(chǔ)上,需明確檔案部門在大數(shù)據(jù)戰(zhàn)略中的地位、完善相關(guān)法規(guī)、統(tǒng)籌優(yōu)化協(xié)同機(jī)制等,實(shí)現(xiàn)合作共贏。同時(shí),徐擁軍等[7]以浙江省為例,對檔案部門參與大數(shù)據(jù)戰(zhàn)略的關(guān)鍵問題進(jìn)行研究。提出檔案部門需明確工作的職責(zé)劃分、對歸檔共享問題進(jìn)行妥善解決、協(xié)調(diào)好紙質(zhì)與電子文件之間的過渡問題以及主動提出需求等。
劉越男等[8]對企業(yè)檔案與數(shù)據(jù)資產(chǎn)的協(xié)同管理提出相關(guān)對策,主要在于創(chuàng)新檔案與數(shù)據(jù)資產(chǎn)部門的協(xié)作機(jī)制、加強(qiáng)業(yè)務(wù)領(lǐng)域的協(xié)同、統(tǒng)一數(shù)據(jù)標(biāo)準(zhǔn)并推動轉(zhuǎn)型升級。
金波[9]立足于檔案部門與政府部門之間的協(xié)同管理,提出大數(shù)據(jù)時(shí)代檔案部門需積極與政府部門合作,在參與政府治理的過程中,可采納構(gòu)建互動平臺、政務(wù)數(shù)據(jù)與檔案數(shù)據(jù)綜合管理、開發(fā)資源、創(chuàng)新服務(wù)形式等多種方式。此外,何玉顏[10]亦立足于檔案部門與政府部門之間的協(xié)同管理,提出相似觀點(diǎn):認(rèn)為檔案部門在政府大數(shù)據(jù)治理中應(yīng)主動參與,把檔案數(shù)據(jù)資源的開放共享融入政府治理中,積極構(gòu)建協(xié)同共治模式并踐行。
2.2 檔案數(shù)據(jù)化相關(guān)研究
檔案數(shù)據(jù)化是提高檔案管理效率的重要方式,對檔案數(shù)據(jù)化進(jìn)行研究可促進(jìn)檔案信息的共享和利用,保護(hù)檔案信息的安全性,推動檔案管理理論和方法的創(chuàng)新,在有效管理和利用國家信息資源、推動國家大數(shù)據(jù)戰(zhàn)略的實(shí)施方面具有重要意義。近年來,我國學(xué)者在檔案數(shù)據(jù)化的相關(guān)概念、管理與實(shí)踐等方面展開研究。
2.2.1 相關(guān)概念研究
(1)檔案數(shù)據(jù)。在檔案數(shù)據(jù)的概念研究方面,主要有兩種觀點(diǎn):一種認(rèn)為檔案數(shù)據(jù)是“數(shù)據(jù)形態(tài)的檔案”;另一種觀點(diǎn)認(rèn)為檔案數(shù)據(jù)是“具備檔案屬性的數(shù)據(jù)”。
對于檔案數(shù)據(jù)是“數(shù)據(jù)形態(tài)的檔案”這種觀點(diǎn),主要以錢毅[11]為代表。同時(shí),夏天[12]等人認(rèn)為檔案數(shù)據(jù)指各種數(shù)據(jù)形式的檔案記錄,包括電子檔案、傳統(tǒng)檔案的數(shù)字化副本,以及社會活動中產(chǎn)生的各種元數(shù)據(jù)。陳陽等[13]通過梳理檔案數(shù)據(jù)以及數(shù)據(jù)檔案定義的演化過程,認(rèn)為由檔案經(jīng)過數(shù)字化和數(shù)據(jù)化后形成數(shù)據(jù),即為檔案數(shù)據(jù);反之,先有數(shù)據(jù)后歸檔為檔案,即為數(shù)據(jù)檔案。數(shù)據(jù)檔案最初認(rèn)為是數(shù)據(jù),逐漸拓展為是記錄、信息、資源、文件、資料、數(shù)據(jù)庫等?!痘谖臋n型非關(guān)系型數(shù)據(jù)庫的檔案數(shù)據(jù)存儲規(guī)范》[14]將檔案數(shù)據(jù)注解為:包括電子檔案、傳統(tǒng)載體檔案數(shù)字化副本的內(nèi)容數(shù)據(jù)和元數(shù)據(jù)(含目錄數(shù)據(jù))。
對于檔案數(shù)據(jù)是“具備檔案屬性的數(shù)據(jù)”這一觀點(diǎn),亦有不少學(xué)者簇?fù)?。金波等?5]通過分析檔案數(shù)據(jù)形成的時(shí)代背景,從檔案的存在粒度、開發(fā)方式、價(jià)值等方面進(jìn)行研究,提出檔案數(shù)據(jù)是檔案經(jīng)過數(shù)據(jù)化而形成的數(shù)據(jù)記錄,展現(xiàn)出新的特征。此外,金波[16]還從狹義和廣義兩個(gè)方面對檔案數(shù)據(jù)的概念進(jìn)行研究,狹義的檔案數(shù)據(jù)主要指的是由國家機(jī)構(gòu)、各類社會組織以及個(gè)人在其社會活動中所生成的各種電子文件及其相關(guān)的元數(shù)據(jù),這些文件因其具備重要的保存與利用價(jià)值而被視為檔案。這些檔案數(shù)據(jù)以磁盤、光盤等物理媒介為存儲載體,依賴于計(jì)算機(jī)系統(tǒng)來進(jìn)行存儲、處理,并且能夠通過網(wǎng)絡(luò)進(jìn)行高效地傳輸。廣義的檔案數(shù)據(jù)指檔案機(jī)構(gòu)收集保存的各種數(shù)據(jù)形式的檔案資源,如各類數(shù)字、多媒體檔案,檔案統(tǒng)計(jì)數(shù)據(jù)等具有檔案性質(zhì)的數(shù)據(jù)記錄。同時(shí),于英香[17]認(rèn)為檔案數(shù)據(jù)指具有檔案屬性的數(shù)據(jù)、具有長期保存價(jià)值的數(shù)據(jù),以及在檔案業(yè)務(wù)活動中產(chǎn)生的數(shù)據(jù)。
(2)檔案數(shù)據(jù)化。檔案數(shù)據(jù)化是在檔案數(shù)據(jù)的基礎(chǔ)上發(fā)展而來。對于檔案數(shù)據(jù)化的概念含義,我國學(xué)者從不同角度展開闡述。
趙躍[18]基于開發(fā)的角度,從狹義上將檔案數(shù)據(jù)化理解為:以滿足用戶的具體需求與業(yè)務(wù)運(yùn)行的實(shí)際需要為出發(fā)點(diǎn),將數(shù)字檔案資源轉(zhuǎn)化為一種機(jī)器能夠識別、理解和高效處理的數(shù)據(jù)資源形式。這一過程不僅提升了檔案信息的利用率,也為檔案數(shù)據(jù)的進(jìn)一步分析和應(yīng)用提供了可能。
趙生輝等[19]認(rèn)為“檔案數(shù)據(jù)化”不僅指檔案資源轉(zhuǎn)化為數(shù)據(jù)形式,還有將數(shù)據(jù)轉(zhuǎn)化為檔案的意思。比如,將業(yè)務(wù)部門產(chǎn)生和管理的有證據(jù)價(jià)值的各類結(jié)構(gòu)化數(shù)據(jù)進(jìn)行檔案化管理。
劉永等[20]從兩個(gè)方面對檔案數(shù)據(jù)化進(jìn)行解讀。一方面,檔案數(shù)據(jù)化被視為數(shù)字化的自然延續(xù),在檔案數(shù)字化過程中,原生數(shù)據(jù)的處理和描述問題得到妥善解決后,檔案數(shù)據(jù)結(jié)構(gòu)化的進(jìn)一步解析、封裝、組織以及全鏈?zhǔn)焦芾肀銟?gòu)成了檔案數(shù)據(jù)化的核心環(huán)節(jié);另一方面,檔案數(shù)據(jù)化不僅是數(shù)字化的重要組成部分,更是貫穿于檔案數(shù)字化全生命周期的原生數(shù)據(jù)管理過程,具有不可替代的重要作用。
祁天嬌等[21]對檔案數(shù)據(jù)化過程中的語義組織進(jìn)行了界定,她認(rèn)為,語義組織就是在對檔案的相關(guān)內(nèi)容、背景以及結(jié)構(gòu)數(shù)據(jù)進(jìn)行深入梳理與明確的基礎(chǔ)之上,進(jìn)而通過編碼手段將這些信息形式化,并建立起它們之間的關(guān)聯(lián)鏈接。這一過程旨在使計(jì)算機(jī)能夠準(zhǔn)確地識別、理解、分析并輸出檔案的語義信息,從而建立起檔案語義之間的多級聯(lián)系。本質(zhì)上,語義組織的核心工作在于深入分析檔案語義間的復(fù)雜關(guān)系,并構(gòu)建它們之間的有效關(guān)聯(lián)。
另外,趙生輝等[22]還從不同視角對檔案數(shù)據(jù)化的定義進(jìn)行了分析,并借助記錄因子理論提出,“檔案數(shù)據(jù)化”指檔案管理的基本單元從文檔變?yōu)槟軌虬凑掌錃v史邏輯進(jìn)行關(guān)聯(lián)和重組的記錄因子,從粗粒度轉(zhuǎn)變?yōu)榧?xì)粒度后脫離了信息控制單元的限制,而且管理的核心工具從檔案元數(shù)據(jù)轉(zhuǎn)變?yōu)闄n案領(lǐng)域本體數(shù)據(jù)集。
2.2.2 管理研究
(1)檔案數(shù)據(jù)管理。管理思路上,周楓等[23]運(yùn)用5W1H分析法,對檔案數(shù)據(jù)管理的動因、對象、主體、場所、時(shí)點(diǎn)、路徑進(jìn)行了分析,提出檔案管理理念從資源中心轉(zhuǎn)變?yōu)橛脩糁行模还芾韺哟胃由顚踊?;管理目?biāo)從管理為主轉(zhuǎn)變?yōu)橥诰驒n案數(shù)據(jù)的價(jià)值;管理方法由經(jīng)驗(yàn)轉(zhuǎn)變?yōu)閿?shù)據(jù)驅(qū)動;管理手段由人工到智能。
管理顆粒度上,張芳霖等[24]對近代商會檔案數(shù)據(jù)資源進(jìn)行研究,通過分析資源整合的意義和底層邏輯,提出資源整合的實(shí)現(xiàn)路徑:首先,細(xì)化檔案數(shù)據(jù)顆粒度,建立單份檔案數(shù)據(jù)之間的內(nèi)在聯(lián)系和記憶實(shí)體,突破記憶實(shí)體的局限,實(shí)現(xiàn)檔案數(shù)據(jù)在更大范圍內(nèi)進(jìn)行聯(lián)系和重組;其次,構(gòu)建圖狀的數(shù)據(jù)結(jié)構(gòu),展現(xiàn)檔案的多重脈絡(luò);最后,構(gòu)建多元檔案數(shù)據(jù)共享平臺。
管理策略上,金波等[25]通過查閱文獻(xiàn)、結(jié)構(gòu)分析法,發(fā)現(xiàn)檔案數(shù)據(jù)生態(tài)失衡的核心矛盾在于龐大的數(shù)據(jù)資源與檔案數(shù)據(jù)治理之間存在明顯的不匹配和不到位問題。這種失衡現(xiàn)象可以從檔案數(shù)據(jù)本體、客體以及主體這三個(gè)層面進(jìn)行解釋。檔案數(shù)據(jù)本體的復(fù)雜性、客體的多樣性以及主體在治理過程中的局限性,共同導(dǎo)致了生態(tài)失衡。為了解決這一問題,提出從理念更新、規(guī)則制定、管理優(yōu)化以及技術(shù)升級等多個(gè)方面入手,對檔案數(shù)據(jù)生態(tài)進(jìn)行平衡調(diào)控,以期實(shí)現(xiàn)其健康穩(wěn)定的發(fā)展。楊晶晶[26]對企業(yè)檔案數(shù)據(jù)自動分類管理實(shí)踐進(jìn)行研究,提出管理目標(biāo)、設(shè)置自動分類規(guī)則以及實(shí)施步驟。萬雨晨等[27]提出數(shù)據(jù)管理的檔案化途徑,以檔案學(xué)話語體系主導(dǎo)數(shù)據(jù)管理業(yè)務(wù)、數(shù)據(jù)價(jià)值的檔案化認(rèn)同、數(shù)據(jù)選擇的檔案化鑒定、數(shù)據(jù)全景的檔案化組織。
智慧化管理方面,張慧穎等[28]深入研究了檔案數(shù)據(jù)資源的智慧化管理策略,這涵蓋了檔案的收集、整理以及保管的智慧化升級。通過實(shí)施統(tǒng)一的數(shù)據(jù)化協(xié)同機(jī)制,構(gòu)建以數(shù)據(jù)流通為核心的開放共享模式,并依托人才和技術(shù)的雙重支持,確保綜合檔案館藏資源能夠?qū)崿F(xiàn)高效且智能化的管理。
(2)檔案數(shù)據(jù)化管理。趙躍等[29]通過比較檔案數(shù)字化和數(shù)據(jù)化的管理思維,提出思維要有四個(gè)方面的轉(zhuǎn)變,具體包括存取到開發(fā)、信息服務(wù)到知識服務(wù)、信息管理到智慧管理、開放檔案到開放數(shù)據(jù)。
徐欽梅等[30]通過分析檔案數(shù)據(jù)化在處理檔案來源數(shù)據(jù)化和解決檔案服務(wù)供需失衡方面的優(yōu)勢,以及檔案數(shù)據(jù)化在思維、標(biāo)準(zhǔn)、數(shù)據(jù)提取等方面的管理現(xiàn)狀,提出檔案數(shù)據(jù)化管理的實(shí)現(xiàn)路徑為:確認(rèn)檔案數(shù)據(jù)憑證、保持媒體檔案原貌、貫徹?cái)?shù)據(jù)治理、落實(shí)數(shù)據(jù)保存、提升數(shù)據(jù)服務(wù)等。
曹惠娟等[31]提出檔案數(shù)據(jù)化正在向多元主體、多中心化存儲平臺、流程驅(qū)動業(yè)務(wù)運(yùn)行向數(shù)據(jù)驅(qū)動業(yè)務(wù)轉(zhuǎn)變,通過數(shù)據(jù)挖掘、融合分析,實(shí)現(xiàn)檔案館從基礎(chǔ)服務(wù)到提升服務(wù)直到智能服務(wù)的轉(zhuǎn)變,形成系統(tǒng)化的共建共享的解決方案。
陳嘉鈺[32]對智慧檔案館數(shù)據(jù)化管理功能進(jìn)行研究,提出實(shí)現(xiàn)路徑為數(shù)字技術(shù)為檔案數(shù)字資源提供了更廣闊的生存空間,同時(shí)也將人工智能與傳統(tǒng)文字識別技術(shù)結(jié)合,進(jìn)而全面實(shí)現(xiàn)智慧檔案館的管理功能,實(shí)現(xiàn)檔案“活化”和智慧檔案館管理理念的改變。
2.2.3 檔案數(shù)據(jù)共享研究
部分學(xué)者基于檔案數(shù)據(jù)化實(shí)踐,對檔案數(shù)據(jù)共享進(jìn)行研究,易濤[33]研究發(fā)現(xiàn)檔案數(shù)據(jù)共享面臨不敢共享、不愿共享、不能共享的困境,提出實(shí)現(xiàn)檔案數(shù)據(jù)共享的“雙元”路徑,在維護(hù)檔案數(shù)據(jù)工具價(jià)值的基礎(chǔ)上,實(shí)現(xiàn)檔案數(shù)據(jù)信息價(jià)值的共享目標(biāo)。趙生輝、胡瑩[34]用“檔案數(shù)據(jù)基因系統(tǒng)”統(tǒng)稱數(shù)據(jù)規(guī)則、數(shù)據(jù)模板、邏輯框架和技術(shù)體系,以實(shí)現(xiàn)大規(guī)模多源異構(gòu)檔案數(shù)據(jù)之間跨系統(tǒng)融合共享。李妲[35]構(gòu)建了大數(shù)據(jù)時(shí)代檔案數(shù)據(jù)開放共享機(jī)制,該機(jī)制由主體協(xié)調(diào)、政策協(xié)同、平臺聯(lián)動三種機(jī)制相互作用,提出從主體協(xié)力增強(qiáng)開放共享力度、利用數(shù)據(jù)安全支撐開放數(shù)據(jù)、資源統(tǒng)籌調(diào)配推進(jìn)開放共享進(jìn)程,這三個(gè)方面推進(jìn)數(shù)據(jù)開放共享策略。
3 研究評述
3.1 研究成果豐碩,但核心概念尚需厘清
自2008年維克托·邁爾·舍恩伯格和肯尼斯·庫克耶在其著作《大數(shù)據(jù)時(shí)代》對大數(shù)據(jù)做了概念界定后,國內(nèi)外真正開始了對大數(shù)據(jù)的研究,尤其是計(jì)算機(jī)界走在了理論研究與實(shí)踐應(yīng)用前列。檔案界認(rèn)識到了大數(shù)據(jù)對檔案行業(yè)的沖擊,從2015年左右開始了對大數(shù)據(jù)的關(guān)注與研究。部分學(xué)者根據(jù)大數(shù)據(jù)的4V(Volume、Velocity、Variety、value)特征將檔案納入大數(shù)據(jù)范疇,稱之為檔案大數(shù)據(jù),并對其從概念定義、管理體系人員要求等等方面開展研究。隨著研究的深入,學(xué)者相繼提出了檔案數(shù)據(jù)化和數(shù)據(jù)檔案化的概念,盡管學(xué)者對這兩個(gè)概念的認(rèn)識與界定還有分歧,但對于檔案工作、檔案資源要順應(yīng)大數(shù)據(jù)時(shí)代的發(fā)展與需要這一觀點(diǎn)達(dá)成了共識。2020年以來,學(xué)者們也認(rèn)識到了相關(guān)學(xué)科研究成果對檔案工作的借鑒性,將數(shù)據(jù)治理相關(guān)理論與實(shí)踐引入到數(shù)據(jù)檔案中來。
檔案學(xué)界對大數(shù)據(jù)與檔案結(jié)合的研究不過短短幾年,取得了較為豐碩的成果,學(xué)界共同認(rèn)為開展數(shù)據(jù)檔案研究、盡快融入國家大數(shù)據(jù)戰(zhàn)略,是檔案進(jìn)入新時(shí)代、邁向新征程的重要工作和抓手。然而還面臨著諸多問題。
首要解決的就是檔案數(shù)據(jù)、數(shù)據(jù)檔案、檔案大數(shù)據(jù)的內(nèi)涵尚未清晰問題。不同作者各抒己見,觀點(diǎn)相異。筆者認(rèn)為,存在這個(gè)問題的核心原因是對大數(shù)據(jù)的本質(zhì)尚未完全理解。2008年,維克托·邁爾·舍恩伯格和肯尼斯·庫克耶發(fā)表的經(jīng)典著作《大數(shù)據(jù)時(shí)代》提到了思維變革的三方面:全量數(shù)據(jù)而不是隨機(jī)樣本、相關(guān)關(guān)系而不是因果關(guān)系、混雜性而不是準(zhǔn)確性??梢哉f,全量、相關(guān)、混雜是大數(shù)據(jù)最核心的內(nèi)在特征,4V特征更多是大數(shù)據(jù)的外在表象。如果只抓住4V特征,就去套檔案資源,就會輕易下出結(jié)論是“檔案資源就是大數(shù)據(jù),檔案大數(shù)據(jù)”。
抓住大數(shù)據(jù)全量、相關(guān)、混雜這三個(gè)核心特征,我們再去審視學(xué)界關(guān)于檔案大數(shù)據(jù)、檔案數(shù)據(jù)化、數(shù)據(jù)檔案化的相關(guān)概念,會有新的疑問、發(fā)現(xiàn)和認(rèn)識。如現(xiàn)有館藏資源稱為檔案大數(shù)據(jù),是否是全量?這個(gè)全量和整個(gè)立檔單位的數(shù)據(jù)全量是否相符?檔案大數(shù)據(jù)和該單位信息中心保存的數(shù)據(jù)區(qū)別是什么?檔案大數(shù)據(jù)內(nèi)的數(shù)據(jù)之間是什么樣的關(guān)系,是否具有關(guān)聯(lián)關(guān)系?……如果這些基本問題沒有得到解決、達(dá)成共識的話,可能我們的很多研究是架空的,是難以在實(shí)踐中得到認(rèn)可的。
3.2 注重理論研究,但實(shí)踐指導(dǎo)尚需深化
檔案學(xué)界對大數(shù)據(jù)研究達(dá)成的共識是大數(shù)據(jù)時(shí)代檔案工作必須要轉(zhuǎn)向數(shù)據(jù)管理。學(xué)界在對大數(shù)據(jù)初步研究的基礎(chǔ)上,結(jié)合我國檔案工作實(shí)際,提出了檔案大數(shù)據(jù)等相關(guān)概念,并對檔案學(xué)基本理論如來源原則、全宗理論等進(jìn)行了初步探討,認(rèn)為檔案學(xué)基本理論應(yīng)該拓展以適應(yīng)大數(shù)據(jù)技術(shù)。學(xué)者們對于檔案數(shù)據(jù)治理、檔案數(shù)據(jù)安全治理能力成熟度模型、保障機(jī)制、檔案數(shù)據(jù)生態(tài)等進(jìn)行了理論研究。
縱觀數(shù)據(jù)檔案方面的研究,成果較多,為檔案工作向數(shù)據(jù)對象的管理提供了非常有益的理念和思路。但研究重心多在理論層面,尚未深入到實(shí)踐。比如,檔案數(shù)據(jù)化,要數(shù)據(jù)化的是什么樣的檔案?哪些檔案需要數(shù)據(jù)化?數(shù)據(jù)化后怎么管理?再如,數(shù)據(jù)檔案化如何開展,哪些數(shù)據(jù)需要檔案化,即數(shù)據(jù)歸檔范圍和鑒定問題,鑒定后需要?dú)w檔的數(shù)據(jù)如何保存?
實(shí)際上,隨著大數(shù)據(jù)、數(shù)據(jù)治理、數(shù)據(jù)湖等新技術(shù)在機(jī)構(gòu)的應(yīng)用,尤其是大型國企中的廣泛應(yīng)用,一些決策層、管理層、技術(shù)人員已經(jīng)產(chǎn)生了一個(gè)疑問:我所有的全量數(shù)據(jù)都已經(jīng)在企業(yè)統(tǒng)一的存儲平臺——數(shù)據(jù)湖中保存了,檔案為什么要參與?如果檔案要參與,怎么參與、參與后干什么?而檔案人員往往講不清,從而被排斥在了數(shù)據(jù)治理、大數(shù)據(jù)建設(shè)之外。
3.3 聚焦檔案領(lǐng)域,但交叉研究尚未形成
隨著以大數(shù)據(jù)為代表的新一輪科技革命和產(chǎn)業(yè)變革加速演進(jìn),學(xué)科深度交叉融合勢不可擋,數(shù)據(jù)管理與檔案學(xué)的交叉、融合是檔案學(xué)發(fā)展的趨勢之一。從目前數(shù)據(jù)檔案領(lǐng)域研究看,研究視角主要是在檔案領(lǐng)域,檔案人員意識到了大數(shù)據(jù)、數(shù)據(jù)治理對檔案工作帶來的深遠(yuǎn)影響。然而和電子文件不同的是,其他領(lǐng)域尚未意識到檔案工作對大數(shù)據(jù)和數(shù)據(jù)治理的重要作用。
目前我國數(shù)據(jù)檔案的研究還主要在檔案界,主要是檔案學(xué)者對大數(shù)據(jù)、數(shù)據(jù)治理開展了一定的研究后,與檔案工作相結(jié)合,形成一定的成果。部分成果沒有與數(shù)據(jù)管理專家、業(yè)務(wù)人員、數(shù)據(jù)治理專業(yè)人員等充分交流溝通完善,檔案人員設(shè)計(jì)的數(shù)據(jù)管理平臺、生態(tài)體系等是否能在實(shí)踐中應(yīng)用,尚未可知,存在著自說自話現(xiàn)象。從實(shí)際工作看,現(xiàn)有檔案資源離科學(xué)界定的大數(shù)據(jù)還有很大差距。我們更需要多元化力量參與進(jìn)來,形成跨學(xué)科或交叉學(xué)科研究。
4 進(jìn)一步的研究空間
學(xué)者們對檔案大數(shù)據(jù)、數(shù)據(jù)檔案方面的研究,取得了一定的成果,但研究的空間還可以進(jìn)一步拓寬、進(jìn)一步深入。
4.1 加大檔案基本理論體系研究的力度與深度
目前,以數(shù)據(jù)為管理對象的檔案學(xué)基礎(chǔ)理論的研究還處于起步階段,研究力度和深度都有待加強(qiáng)。
大數(shù)據(jù)的本質(zhì)是全數(shù)據(jù)、關(guān)聯(lián)關(guān)系和近似求解。如何理解全量數(shù)據(jù)?如何理解數(shù)據(jù)大與小、關(guān)聯(lián)關(guān)系與因果關(guān)系、全數(shù)據(jù)的相對性等?中科院院士梅宏教授認(rèn)為,多源數(shù)據(jù)聚集和跨組織、跨領(lǐng)域的數(shù)據(jù)深度融合挖掘是展現(xiàn)大數(shù)據(jù)價(jià)值的前提。在價(jià)值驅(qū)動下,普遍存在著數(shù)據(jù)突破單位邊界進(jìn)行流動的現(xiàn)象。因此,數(shù)據(jù)歸檔的研究,對檔案學(xué)的概念體系的認(rèn)識提出了新要求。
數(shù)據(jù)納入檔案管理對象這一結(jié)論已經(jīng)在《“十四五”全國檔案事業(yè)發(fā)展規(guī)劃》得到體現(xiàn),但現(xiàn)有的概念與理論尚難以支撐數(shù)據(jù)的歸檔。如現(xiàn)有檔案定義的內(nèi)涵和數(shù)據(jù)之間的關(guān)系是什么?全宗理論是以一定的社會單位為基礎(chǔ)構(gòu)成的,而數(shù)據(jù)突破單位邊界進(jìn)行流動是國家大數(shù)據(jù)戰(zhàn)略、激發(fā)數(shù)據(jù)要素活力的必然要求。全宗理論如何拓展以適應(yīng)大數(shù)據(jù)時(shí)代?鑒定理論也面臨著如何適應(yīng)數(shù)據(jù)歸檔的情況,如歸檔范圍問題。數(shù)據(jù)保存在數(shù)據(jù)庫中,如何對數(shù)據(jù)庫中的數(shù)據(jù)進(jìn)行鑒定?采用紙質(zhì)檔案、電子文件的鑒定方法是不現(xiàn)實(shí)的。一些學(xué)者對此進(jìn)行了有益的探索,這些探索能不能用來、如何用來指導(dǎo)檔案工作實(shí)踐?這一系列的基礎(chǔ)理論問題需要學(xué)界加大對檔案基本理論體系研究的力度與深度。
4.2 加大數(shù)據(jù)檔案管理活動研究的廣度與寬度
檔案學(xué)界將檔案工作劃分為八項(xiàng)內(nèi)容(或八個(gè)環(huán)節(jié))與兩大方面,實(shí)質(zhì)上就是以紙質(zhì)檔案為研究對象的檔案管理學(xué)的內(nèi)容,構(gòu)成了檔案工作的理論指導(dǎo),這八項(xiàng)內(nèi)容在紙質(zhì)檔案管理中是以線性順序開展的。在電子文件為對象的管理階段,八項(xiàng)內(nèi)容的線性開展已經(jīng)出現(xiàn)了難以適應(yīng)的現(xiàn)象,那么對于數(shù)據(jù)檔案管理是否還能適應(yīng)八項(xiàng)內(nèi)容?如何去研究數(shù)據(jù)檔案管理的八個(gè)方面?
審視數(shù)據(jù)治理與大數(shù)據(jù),有著明顯的方法論做指導(dǎo)。如數(shù)據(jù)采集與匯聚、數(shù)據(jù)管控、數(shù)據(jù)服務(wù)、平臺底座等,再如數(shù)據(jù)標(biāo)準(zhǔn)、元數(shù)據(jù)管理、主數(shù)據(jù)管理等。參與人員則有數(shù)據(jù)管理人員、數(shù)據(jù)管理專家、業(yè)務(wù)專家、計(jì)算機(jī)人員等。
數(shù)據(jù)檔案管理活動必須有相應(yīng)的方法論做指導(dǎo)。目前的一些研究,看研究標(biāo)題是數(shù)據(jù)治理視角下的檔案研究,看內(nèi)容則是檔案視角下的數(shù)據(jù)治理,即將檔案工作直接套向數(shù)據(jù)治理而得出結(jié)論。方法論方面的研究目前基本上是空白。
4.3 構(gòu)建國家大數(shù)據(jù)戰(zhàn)略下檔案管理框架
對檔案概念體系和基本理論體系的研究與拓展,更多的是解決一個(gè)單位的數(shù)據(jù)檔案管理問題,是從一個(gè)單位的角度(全宗邊界)為出發(fā)點(diǎn)。然而,隨著國家大數(shù)據(jù)戰(zhàn)略的深入實(shí)施,數(shù)據(jù)跨層級、跨地域、跨系統(tǒng)、跨部門、跨業(yè)務(wù)的流動和應(yīng)用已經(jīng)產(chǎn)生,并日益普遍,最佳的例子就是全流程一體化政務(wù)服務(wù)平臺已在各級政府普遍應(yīng)用。
這種涉及單位內(nèi)部、行業(yè)內(nèi)、跨行業(yè)跨區(qū)域的多層次的數(shù)據(jù)流動,需要從更高層次去構(gòu)建國家大數(shù)據(jù)戰(zhàn)略背景下的檔案管理理論框架,將數(shù)據(jù)檔案的價(jià)值重塑與發(fā)展需求、業(yè)務(wù)重構(gòu)與管理模式、應(yīng)用場景生態(tài)營造等進(jìn)行融合創(chuàng)新,試圖構(gòu)建一個(gè)具有宏觀指導(dǎo)意義的理論框架體系。
4.4 研究國家大數(shù)據(jù)戰(zhàn)略下數(shù)據(jù)檔案應(yīng)用場景
以數(shù)據(jù)形態(tài)歸檔保存的數(shù)據(jù)檔案,可以根據(jù)數(shù)據(jù)間邏輯關(guān)系按照固定格式形成電子文件,從而轉(zhuǎn)化為人類認(rèn)知的非結(jié)構(gòu)化檔案,說明數(shù)據(jù)檔案具有傳統(tǒng)的情報(bào)價(jià)值和憑證價(jià)值。最重要的是,傳統(tǒng)檔案更多以檢索利用、編研方式提供利用,大數(shù)據(jù)能夠?qū)⒌蛢r(jià)值密度的數(shù)據(jù)集聚整合為高價(jià)值、作用巨大的信息資產(chǎn),數(shù)據(jù)檔案的這一價(jià)值,是傳統(tǒng)檔案的利用工作所不具備的。
如何更充分發(fā)揮數(shù)據(jù)檔案的價(jià)值,需要加大對其應(yīng)用場景的研究,如檔案部門對數(shù)據(jù)檔案按照事由原則整理成各類主題數(shù)據(jù)庫,向利用者提供其所需的主題數(shù)據(jù)集合。國內(nèi)外的數(shù)據(jù)交易市場(大數(shù)據(jù)交易中心如上海數(shù)據(jù)交易中心、特定行業(yè)領(lǐng)域的大數(shù)據(jù)交易平臺如交通大數(shù)據(jù)交易平臺、互聯(lián)網(wǎng)企業(yè)的數(shù)據(jù)交易平臺如京東萬象、美林?jǐn)?shù)據(jù))可以給這樣的應(yīng)用場景提供借鑒。如企業(yè)檔案部門從數(shù)據(jù)檔案中抽取主題數(shù)據(jù)集合,利用大數(shù)據(jù)技術(shù)與工具進(jìn)行分析,將結(jié)果提交給利用者,這種情況下檔案部門不僅僅是數(shù)據(jù)檔案保管部門,還是數(shù)據(jù)分析的部門。這三種應(yīng)用場景對檔案部門的能力要求、服務(wù)方法、實(shí)施途徑是需要加大研究的內(nèi)容。
參考文獻(xiàn):
[1]康蠡,金慧.檔案大數(shù)據(jù)定義與內(nèi)涵解析[J].檔案管理,2017(1):24-26.
[2]康蠡,周銘.檔案大數(shù)據(jù)生態(tài)系統(tǒng)涵義、構(gòu)成與結(jié)構(gòu)摭探[J].北京檔案,2017(8):11-14.
[3]鄭金月.關(guān)于檔案與大數(shù)據(jù)關(guān)系問題的思辨[J].檔案學(xué)研究,2016(6):37-40.
[4]王居一.從大數(shù)據(jù)特征看檔案界對于檔案大數(shù)據(jù)認(rèn)知的誤區(qū)[J].檔案管理,2021(1):59-60.
[5]祁天嬌.從歷史檔案到歷史大數(shù)據(jù):基于威尼斯時(shí)光機(jī)十年路徑的探索[J].中國圖書館學(xué)報(bào),2022,48(5):116-129.
[6]徐擁軍,張臻,任瓊輝.國家大數(shù)據(jù)戰(zhàn)略背景下檔案部門與數(shù)據(jù)管理部門的職能關(guān)系[J].圖書情報(bào)工作,2019,63(18):5-13.
[7]徐擁軍,王露露.檔案部門參與大數(shù)據(jù)戰(zhàn)略的必備條件和關(guān)鍵問題:以浙江省為例[J].浙江檔案,2018(11):11-14.
[8]劉越男,何思源,王強(qiáng),等.企業(yè)檔案與數(shù)據(jù)資產(chǎn)的協(xié)同管理:問題與對策[J].檔案學(xué)研究,2022(6):94-102.
[9]金波.大數(shù)據(jù)時(shí)代政府治理的“檔案參與”[J].求索,2021(3):135-143.
[10]何玉顏.檔案部門參與政府大數(shù)據(jù)治理的路徑研究[J].浙江檔案,2018(8):23-25.
[11]錢毅.技術(shù)變遷環(huán)境下檔案對象管理空間演化初探[J].檔案學(xué)通訊,2018,240(2):10-14.
[12]夏天,錢毅.面向知識服務(wù)的檔案數(shù)據(jù)語義化重組[J].檔案學(xué)研究,2021(2):36-44.
[13]陳陽,吳雁平,劉永.檔案數(shù)據(jù)與數(shù)據(jù)檔案定義的演化過程[J].檔案管理,2022,256(3):20-24.
[14]DA/T 82-2019.基于文檔型非關(guān)系型數(shù)據(jù)庫的檔案數(shù)據(jù)存儲規(guī)范[S].2020.
[15]金波,添志鵬.檔案數(shù)據(jù)內(nèi)涵與特征探析[J].檔案學(xué)通訊,2020,253(3):4-11.
[16]金波,楊鵬.大數(shù)據(jù)時(shí)代檔案數(shù)據(jù)治理研究[J].檔案學(xué)研究,2020(4):29-37.
[17]于英香.從數(shù)據(jù)與信息關(guān)系演化看檔案數(shù)據(jù)概念的發(fā)展[J].情報(bào)雜志,2018,37(11):150-155.
[18]趙躍.大數(shù)據(jù)時(shí)代檔案數(shù)據(jù)化的前景展望:意義與困境[J].檔案學(xué)研究,2019(5):52-60.
[19]趙生輝,胡瑩.檔案數(shù)據(jù)基因系統(tǒng):概念、機(jī)理與實(shí)踐[J].檔案學(xué)研究,2021,178(1):40-48.
[20]劉永,龐宇飛.檔案數(shù)據(jù)化之原生數(shù)據(jù)源全鏈?zhǔn)焦芾矸治觯跩].檔案管理,2018,234(5):11-18.
[21]祁天嬌,馮惠玲.檔案數(shù)據(jù)化過程中語義組織的內(nèi)涵、特點(diǎn)與原理解析[J].圖書情報(bào)工作,2021,65(9):3-15.
[22]趙生輝,胡瑩.“檔案數(shù)據(jù)化”底層邏輯的解析與啟示[J].檔案學(xué)通訊,2021,260(4):20-27.
[23]周楓,楊智勇.基于5W1H分析法的檔案數(shù)據(jù)管理研究[J].檔案學(xué)研究,2019,169(4):21-25.
[24]張芳霖,王毓婕.近代商會檔案數(shù)據(jù)資源整合的意義、底層邏輯和實(shí)現(xiàn)路徑[J].檔案學(xué)通訊,2023,271(3):46-53.
[25]金波,楊鵬,添志鵬等.大數(shù)據(jù)時(shí)代檔案數(shù)據(jù)生態(tài)平衡與調(diào)適[J].圖書情報(bào)知識,2023,40(1):13-22.
[26]楊晶晶.企業(yè)檔案數(shù)據(jù)自動分類管理實(shí)踐探究[J].北京檔案,2022,375(3):32-34.
[27]萬雨晨,楊國立.數(shù)字記憶視角下數(shù)據(jù)管理的檔案化路徑研究[J].浙江檔案,2022,495(7):41-44.
[28]張慧穎,曹玉.國家綜合檔案館檔案數(shù)據(jù)資源智慧化管理路徑及其實(shí)現(xiàn)機(jī)制研究[J].北京檔案,2022,378(6):11-15.
[29]趙躍,王俊慧.從數(shù)字化到數(shù)據(jù)化:檔案管理思維的轉(zhuǎn)變[J].檔案與建設(shè),2020,379(7):39-42.
[30]徐欽梅,戴敏.檔案數(shù)據(jù)化管理的實(shí)現(xiàn)路徑研究[J].浙江檔案,2021,488(12):32-35.
(參考文獻(xiàn)[31]-[35]省略,有需要可聯(lián)系索?。?/p>
責(zé)任編校:杜晚霞,羅 紅
Overview of Archival Data Management at Home and Abroad Under Big Data Strategy
LI Zefeng,MA Wen,WANG Qian
(School of Information Management, Zhengzhou University of Aeronautics, Zhengzhou 450046, China)
Abstract: In order to integrate archives into the national big data strategy, this paper reviews the domestic research on big data and archival data management, and studies the concepts and related practices of \"big data, archival big data, archival data, and archival data\". According to the current research status, the research results are fruitful, but the core concepts still need to be clarified. Emphasis is placed on theoretical research, but practical guidance needs to be deepened. Focus on the field of archives, but the cross-research needs to form other conclusions. Accordingly, the next research directions such as increasing the intensity and depth of the research on the basic theoretical system of archives, increasing the breadth and breadth of the research on data archives management activities, construct an archives management framework under the national big data strategy,and studying the application scenarios of data archives under the national big data strategy are proposed, in order to provide reference for related research.
Key words: big data; archival data; data management