李星照
(北京空間機電研究所,北京 100094)
“互聯(lián)網(wǎng)+”是信息技術(shù)快速發(fā)展的延伸產(chǎn)物,代表著先進互聯(lián)網(wǎng)思維,反映現(xiàn)代先進生產(chǎn)關(guān)系,成為創(chuàng)新性發(fā)展新業(yè)態(tài)。借助“互聯(lián)網(wǎng)+檔案”理念,使航天檔案數(shù)據(jù)資源更加全面化、數(shù)字化、信息化?!斑@是一次革命”,哈佛量化社會科學研究所主任GaryKing 說:“我們的確正在起航,在龐大的新數(shù)據(jù)來源的支持下,量化的前進步伐將會踏遍學術(shù)、商業(yè)和政府領(lǐng)域,沒有一個領(lǐng)域可以不被觸及。”[1]航天檔案也毫不例外,自上古結(jié)繩記事到“互聯(lián)網(wǎng)+”時代的到來,巨大的數(shù)據(jù)量給航天檔案帶來了很大的沖擊。本文從數(shù)據(jù)管理的重要性、數(shù)據(jù)管理當前問題、數(shù)據(jù)治理路徑建設(shè)三個方面,對航天檔案數(shù)據(jù)管理和治理予以解構(gòu)和規(guī)劃,為建立數(shù)字化檔案室(館)奠定基礎(chǔ),也為推動檔案數(shù)據(jù)治理路徑的轉(zhuǎn)變提供依據(jù)。
2008年我國各級國家檔案館共保存檔案1.93 億卷,較上年增加1769萬卷,增幅達10%[2],到2011年各級國家檔案館館藏已達3.3 億卷,而到2019年各級國家檔案館館藏已達到6 億多卷[3]。
由此可看出,隨著“互聯(lián)網(wǎng)+”時代到來,檔案數(shù)據(jù)資源飛速增長,信息技術(shù)傳輸及數(shù)據(jù)快捷存儲使得大量碎片化的數(shù)據(jù)信息快速產(chǎn)生,大大豐富了傳統(tǒng)館藏檔案的數(shù)據(jù)資源。
“互聯(lián)網(wǎng)+”的最大特點就是能夠連接一切有關(guān)數(shù)據(jù),使得各行各業(yè)都能夠借助互聯(lián)網(wǎng)有機融合在一起,進而形成互聯(lián)互通的生態(tài)系統(tǒng),這必然會大大提高數(shù)據(jù)資源的傳遞能力,使得數(shù)據(jù)資源整合及共享成為可能[4]。在“互聯(lián)網(wǎng)+”時代下,借助其中的云計算及大數(shù)據(jù)技術(shù),縱向地將我國各個階段存儲的航天檔案資源鏈接在一起,并且將整合后的數(shù)據(jù)資源整合到云檔案中,使得檔案信息資源能夠在不同的區(qū)域之間進行自由的結(jié)合及交流,使得各個區(qū)域的信息交流更加便捷。
“互聯(lián)網(wǎng)+”時代背景下,航天檔案數(shù)據(jù)管理要充分利用信息化這一平臺,為航天檔案數(shù)據(jù)利用者提供高效便捷的服務(wù)。在權(quán)限匹配的情況下,能夠讓用戶快速查閱到所需的數(shù)據(jù)資源信息,并且形成關(guān)聯(lián)數(shù)據(jù)的知識網(wǎng)絡(luò),減少用戶的搜索時間,提高檔案數(shù)據(jù)資源的價值,使得檔案數(shù)據(jù)資源能夠最大價值地被利用。
航天檔案在建立企業(yè)數(shù)字檔案室(館)中面臨著數(shù)據(jù)管理日益嚴峻的挑戰(zhàn),低質(zhì)量的數(shù)據(jù)信息已經(jīng)成為信息化與業(yè)務(wù)深度融合過程中的關(guān)鍵制約因素。
航天檔案數(shù)據(jù)管理面臨的主要問題有:1)缺乏數(shù)據(jù)管理體系的制定;2)缺乏數(shù)據(jù)管理組織的選定;3)缺乏信息化支持與工具使用;4)缺乏對數(shù)據(jù)管理與利用的正確認識;4)缺乏數(shù)據(jù)信息間的關(guān)聯(lián)性。
具體表現(xiàn)為:1)數(shù)據(jù)管理思維滯后;2)檔案數(shù)字化成果有限;3)檔案數(shù)據(jù)對科研生產(chǎn)的被利用率不高;4)檔案數(shù)據(jù)庫質(zhì)量控制不足。
“互聯(lián)網(wǎng)+”的時代是信息化的時代,決策行為將日益基于數(shù)據(jù)分析,而不是更多地依賴于經(jīng)驗,甚至直覺。目前,我國航天檔案數(shù)據(jù)管理工作,仍保留著不少傳統(tǒng)固有思維模式,導致檔案數(shù)據(jù)以孤立數(shù)據(jù)和分散鏈接的形式存在,不能將數(shù)據(jù)的共性和網(wǎng)絡(luò)的整體特征隱藏在數(shù)據(jù)網(wǎng)絡(luò)中,因此,要掌握數(shù)據(jù)就要對數(shù)據(jù)背后的網(wǎng)絡(luò)進行深層次的探析,并且形成嶄新的數(shù)據(jù)管理思維模式及體系。
“數(shù)據(jù)管理體系該如何建立”“航天檔案的數(shù)據(jù)治理路徑是什么”均是航天檔案數(shù)據(jù)管理需要思考的重要問題,數(shù)據(jù)治理路徑的科學范式建立絕非易事,需要信息化技術(shù)的不斷創(chuàng)新運用,更需要數(shù)據(jù)管理者思維的快速前進。
近十年,航天各級檔案館的數(shù)據(jù)資源“光速般”遞增,面對傳統(tǒng)檔案數(shù)字化工作,以及具有歸檔價值的音視頻傳統(tǒng)載體潛在的數(shù)字化工作,其數(shù)量龐大及資金、物力不足的客觀特點,使得航天檔案數(shù)字化工作的進程較為緩慢。除上述客觀因素外,造成檔案數(shù)字化成果有限的主要原因還有以下兩點:
1.航天檔案數(shù)字化工作缺乏重視度
航天集團為科研單位,比起檔案工作更加重視科研生產(chǎn),而檔案工作以業(yè)務(wù)完成后的副產(chǎn)品存在,使得航天檔案數(shù)字化工作的被重視程度遠遠不夠。
2.航天檔案數(shù)字化工作缺乏專業(yè)人才
檔案信息化管理專業(yè)性較強,業(yè)務(wù)知識更新快,技術(shù)標準升級速度快,對從業(yè)人員的技能水平要求較高。我國的檔案管理工作者的專業(yè)匹配程度及能力考核程度均有較大差距,也是造成數(shù)字化成果有限的重要原因之一。
目前,對于航天檔案數(shù)據(jù),在數(shù)字文本(圖像)轉(zhuǎn)換、條目規(guī)范、著錄索引、專題數(shù)據(jù)庫建設(shè)等各個方面,與科研生產(chǎn)的配合度和利用率并不高。其問題主要為以下兩點:
1.缺乏檔案數(shù)據(jù)管理的規(guī)范性
檔案管理機構(gòu)、人員、日常管理等檔案工作缺乏全方位數(shù)據(jù)化,檔案清點、統(tǒng)計、分析等檔案業(yè)務(wù)管理工作不夠系統(tǒng),使得科研人員在數(shù)據(jù)查全率、查準率和服務(wù)效率上得不到很好的使用體驗,成為檔案數(shù)據(jù)被利用率不高的因素之一。
2.缺乏檔案數(shù)據(jù)管理的創(chuàng)新意識
檔案部門缺乏推進數(shù)據(jù)創(chuàng)新性,例如,用戶檢索檔案數(shù)據(jù)信息時,其檢索行為能否被數(shù)據(jù)化,并作為向其推送定制化信息服務(wù)的數(shù)據(jù)源,使得檔案數(shù)據(jù)管理業(yè)務(wù)成為主動服務(wù)業(yè)務(wù)。類似的想法,均是檔案部門推進數(shù)據(jù)創(chuàng)新、挖掘檔案數(shù)據(jù)的價值潛力。但目前檔案數(shù)據(jù)管理創(chuàng)新意識缺乏,使得檔案數(shù)據(jù)的智能化程度不夠,亦是檔案數(shù)據(jù)得不到科研生產(chǎn)高效利用的原因之一。
錢毅[5]認為對于檔案數(shù)據(jù)庫質(zhì)量控制,檔案分類理論起著導向作用,有利于在來源單位層次上建立實體數(shù)據(jù)庫。
航天檔案數(shù)據(jù)庫存在的質(zhì)量控制問題,主要表現(xiàn)為:1)檔案數(shù)據(jù)庫設(shè)計規(guī)范性缺乏;2)數(shù)據(jù)錄入準確性不足;3)數(shù)據(jù)安全性能差;4)數(shù)據(jù)管理不完善;5)數(shù)據(jù)轉(zhuǎn)換成本高等。
數(shù)據(jù)治理是組織中涉及數(shù)據(jù)使用的一整套管理行為?;诤教鞓I(yè)務(wù)特點,需要明確數(shù)據(jù)治理的重點和涵蓋的數(shù)據(jù)范圍,本文摒棄了以往以技術(shù)路線為主的數(shù)據(jù)治理實施框架與思路,創(chuàng)新地提出了以提供用戶便捷為目的的數(shù)據(jù)戰(zhàn)略制定方法。以支撐數(shù)據(jù)戰(zhàn)略為重點,以是否解決難點作為數(shù)據(jù)治理的考核標準,以管理部門為主要責任主體,以實際使用用戶為數(shù)據(jù)評價單位,建立相關(guān)數(shù)據(jù)治理的組織架構(gòu)與治理實施方法,如圖1。
圖1 數(shù)據(jù)治理組織戰(zhàn)略架構(gòu)
檔案數(shù)據(jù)由產(chǎn)品數(shù)據(jù)管理系統(tǒng)、生產(chǎn)制造管理系統(tǒng)、工藝管理系統(tǒng)等數(shù)據(jù)源層經(jīng)三大治理路徑最終通過數(shù)字檔案室(館)的形式表現(xiàn)出來,從而構(gòu)成檔案數(shù)據(jù)治理平臺。檔案元數(shù)據(jù)標準化、數(shù)據(jù)資源知識化管理和門類治理為檔案數(shù)據(jù)治理平臺提供體系支撐,實現(xiàn)精準數(shù)據(jù)基礎(chǔ)服務(wù)、數(shù)據(jù)知識化管理、數(shù)據(jù)快捷利用等,實現(xiàn)來源于各系統(tǒng)端的數(shù)據(jù)匯集和融合,實現(xiàn)檔案數(shù)據(jù)統(tǒng)一管控和精細化管理,讓數(shù)據(jù)變得業(yè)務(wù)化、可視化,如圖2。
圖2 數(shù)據(jù)治理平臺架構(gòu)
1.提供“數(shù)據(jù)精準化”的檔案服務(wù)
提供準確的檔案數(shù)據(jù)是推動數(shù)據(jù)治理的關(guān)鍵一步,其中,元數(shù)據(jù)的管理是提供“數(shù)據(jù)精準化”的檔案服務(wù)的重中之重。元數(shù)據(jù)在檔案領(lǐng)域的引用緣于檔案學者試圖通過元數(shù)據(jù)來解決概念來源的現(xiàn)實施行,并將其定義為:電子文件管理元數(shù)據(jù),元數(shù)據(jù)是自始至終地描述文件的背景、內(nèi)容、結(jié)構(gòu)及其管理的數(shù)據(jù)。其作用可歸納為以下幾點:1)檢索及確認,主要致力于如何幫助用戶檢索和確認所需的數(shù)據(jù)資源。2)著錄描述,包括文檔內(nèi)容、載體、位置與獲取方式、制作與利用方法、相關(guān)數(shù)據(jù)單元方面等。3)數(shù)據(jù)資源管理,包括:權(quán)限管理、資源評鑒、電子簽署等方面的信息。4)資源保護與長期保存,數(shù)據(jù)元素除對資源進行確認和描述外,往往包括詳細的格式信息、條目信息、轉(zhuǎn)換方式等內(nèi)容。5)電子文件的憑證作用,有利補充了電子文件的著錄內(nèi)容,在一定程度上保證電子文件的長期可讀性。
綜上所述,提供“數(shù)據(jù)精準化”的檔案服務(wù),須制定符合航天檔案的元數(shù)據(jù)管理標準,確保元數(shù)據(jù)的準確性,即保證nb 數(shù)據(jù)的準確性,也使外來數(shù)據(jù)得以尋根溯源,此為邁出數(shù)據(jù)治理的第一步。
2.建立“數(shù)據(jù)知識化”的管理體系
從國外的檔案數(shù)據(jù)治理路徑來看,知識圖譜技術(shù)或?qū)⒊蔀榻⒑教鞕n案數(shù)據(jù)知識化的有效工具之一,它具有強大的語義處理和開放互聯(lián)組織能力,米特·辛格(AmitSinghal)認為,知識圖譜就是一張巨大的語義網(wǎng)絡(luò)圖,由真實世界中存在的各種實體或概念及其關(guān)系構(gòu)成,節(jié)點表示實體或概念,邊則有屬性或關(guān)系構(gòu)成。
航天檔案數(shù)據(jù)特點為:數(shù)據(jù)量巨大、類型繁多、組織結(jié)構(gòu)零散等,均對用戶有效獲取信息提出了挑戰(zhàn)。在此背景下,建立知識圖譜正是航天檔案建立“數(shù)據(jù)知識化”管理體系的所需,以“實體(Entity)-關(guān)系(Relationship)-實體(Entity)”構(gòu)成的知識圖譜結(jié)構(gòu)來描述不同對象(包括屬性)以及它們之間的關(guān)系,如圖3。
圖3 知識圖譜示例
知識圖譜應用于航天檔案數(shù)據(jù)知識化的建設(shè)體系中,可采用基礎(chǔ)數(shù)據(jù)資源庫和檔案知識庫的雙庫設(shè)計來實現(xiàn)數(shù)據(jù)資源平臺的搭建,雙庫協(xié)同作業(yè),以基礎(chǔ)數(shù)據(jù)庫為數(shù)據(jù)資源,以知識庫為利用數(shù)據(jù)來源,充分挖掘檔案文件關(guān)聯(lián)性,提高檔案數(shù)據(jù)的利用率。
3.打破“數(shù)據(jù)門類化”的思維模式
我國航天檔案劃分為:文書、經(jīng)營、會計、科技研究、航天產(chǎn)品等門類,傳統(tǒng)的管理模式是按照門類進行歸檔整理,形成了“數(shù)據(jù)門類化”的思維模式。
為了解決門類管理造成的困擾,筆者認為,打破門類固有限制,不拘泥于在各自門類中管理檔案,將不同門類的檔案數(shù)據(jù)建立其關(guān)聯(lián)關(guān)系,在此基礎(chǔ)上做到關(guān)聯(lián)耦合建設(shè)檔案專題數(shù)據(jù)庫。關(guān)聯(lián)性原則不單單指關(guān)鍵詞,還包括關(guān)鍵字對應的檔案信息及信息的存儲位置,包括一個關(guān)鍵字或多個關(guān)鍵字對應的相似信息,甚至一個關(guān)鍵字對應多門類的檔案信息。
本文主要分析航天檔案數(shù)據(jù)治理路徑方向,在分析的過程中本文提出建立檔案元數(shù)據(jù)管理標準,提出打破傳統(tǒng)檔案門類管理,建立知識圖譜,建立完善的數(shù)據(jù)治理平臺,以此提高航天檔案的數(shù)據(jù)管理,發(fā)揮出航天檔案數(shù)據(jù)資源的最大化價值。