胡 慧, 向 禹
(1.中南大學 生物醫(yī)學信息系,湖南 長沙 410013;2.湖南核工業(yè)地質(zhì)局檔案館,湖南 長沙 410000;3.中南大學 檔案技術研究所,湖南 長沙 410083)
隨著現(xiàn)代信息技術的發(fā)展,檔案業(yè)務環(huán)境經(jīng)歷了重大變革。檔案信息經(jīng)歷了從模擬態(tài)到數(shù)字態(tài)的變化,目前正在向數(shù)據(jù)態(tài)的方向發(fā)展,在實際的檔案工作中,模擬態(tài)、數(shù)字態(tài)、數(shù)據(jù)態(tài)三種形態(tài)的檔案信息并存互補。大數(shù)據(jù)時代,不同型態(tài)的海量檔案信息未得到充分的挖掘、分析和利用,傳統(tǒng)的信息資源開發(fā)模式已經(jīng)不適用于數(shù)據(jù)驅(qū)動與模型驅(qū)動并嚴重依賴業(yè)務規(guī)則和場景的數(shù)據(jù)態(tài)檔案信息,必須探索適應大數(shù)據(jù)環(huán)境的檔案信息資源開發(fā)的新模式。
檔案是人們在各項社會活動中形成的原始記錄,只要能反映社會活動真實面貌的存在都能作為檔案保存。檔案類型多樣且涉及不同的行業(yè),傳統(tǒng)意義上將檔案按內(nèi)容分為文書檔案、科技檔案、會計檔案等,或按載體分為紙質(zhì)檔案、光盤檔案等。
中國人民大學錢毅教授根據(jù)檔案管理對象的形成環(huán)境和與之匹配的技術體系將檔案分為三種形態(tài):模擬態(tài)檔案:主要指以紙質(zhì)為主的檔案資料,還包括其他各種載體和內(nèi)容不可分離的縮微膠片檔案、簡牘檔案及實物檔案等。傳統(tǒng)的檔案管理方式就是對模擬態(tài)檔案的管理,其重點是通過分析檔案內(nèi)容對檔案載體進行收集、整理、鑒定、保管。數(shù)字態(tài)檔案:指檔案信息由人們可以肉眼觀察和識別的模擬態(tài)轉(zhuǎn)變?yōu)橛嬎銠C可以直接讀取的二進制的比特流,主要包括圖像文件、音頻音像文件、word文檔、CAD圖等類型的電子文件檔案資料,其特點是信息內(nèi)容可以自由流動、與固定載體不再緊密聯(lián)系,依賴電子系統(tǒng)。對數(shù)字態(tài)檔案的管理更側(cè)重分析其內(nèi)容、背景、結(jié)構(gòu)信息,努力維護其內(nèi)容的真實性、完整性、可靠性和可用性。數(shù)據(jù)態(tài)檔案:其實是數(shù)字態(tài)檔案的延伸,在數(shù)字態(tài)的基礎上,使其數(shù)據(jù)化,形成可重組、可分析、可關聯(lián)的概念集合,其形成依賴基于規(guī)則的業(yè)務系統(tǒng)或模型,如金融系統(tǒng)數(shù)據(jù)、政府系統(tǒng)數(shù)據(jù)等,本質(zhì)是通過制定一系列參數(shù)和規(guī)則形成的數(shù)據(jù)組合。數(shù)據(jù)態(tài)檔案管理的重點是對數(shù)據(jù)、業(yè)務流程或模型的描述與關聯(lián)管理[1]。
圖1 三種檔案形態(tài)的演進關系
檔案信息資源開發(fā)主體面對日益增長的檔案信息資源需求,通過各種技術手段對檔案資源進行開發(fā)并傳遞出去,主要目的在于充分發(fā)揮檔案的價值,促進用戶對檔案資源的有效利用。一般而言,檔案信息資源開發(fā)的不同程度對應著三個層次的檔案價值[2]。
檔案資源開發(fā)利用最基本的層次。由于檔案的本質(zhì)屬性是 “原始記錄性”,所以檔案在社會活動中具有較高的法律效力,擁有無可比擬的憑證作用,是檔案應用最廣泛的價值之一。通過復制制作檔案副本,可以代替檔案原件解決一些工作以及生活中的問題。此種檔案資源開發(fā)利用方式多見于模擬態(tài)檔案,需要在檔案實體上蓋檔案部門印章方能生效。
圖2 檔案價值的三個層次
檔案信息資源開發(fā)的中間層次。檔案信息資源開發(fā)主體通過分析社會需求、結(jié)合一定技術手段將檔案資源進行聚類整合,提煉出對生產(chǎn)生活、經(jīng)濟運行和國家社會發(fā)展有用的情報信息,為政府決策和普通用戶的工作生活提供信息支持。主要方式有資料簡介、原文匯編,建立檢索系統(tǒng)、數(shù)據(jù)庫等。
檔案信息資源開發(fā)的最高層次。由于檔案是社會實踐的原始記錄,涵蓋了不同年代的社會全貌,保存了某個地區(qū)或者國家的記憶,因此檔案具有一定的歷史文化價值。文化的影響和傳承離不開檔案,從浩繁的檔案資源中進行文化挖掘,是踐行黨和國家實現(xiàn)“文化自信”的重要舉措,也是檔案人必須要努力的方向。
數(shù)字態(tài)和數(shù)據(jù)態(tài)檔案都是計算機可以自動分析、理解與處置的檔案信息,通過對結(jié)構(gòu)化的數(shù)據(jù)進行關聯(lián)分析、聚類分析,對非結(jié)構(gòu)化的文本信息進行模塊提取,對業(yè)務系統(tǒng)采用面向不同主題、角度的多維分析等方式,實現(xiàn)對檔案信息的深度挖掘。相較于傳統(tǒng)載體檔案采用人工標引、編目、著錄、編研等進行檔案資源開發(fā)的方式,數(shù)字態(tài)和數(shù)據(jù)態(tài)的檔案資源開發(fā)方式顯然效率更高、效果更顯著。
呂玉潔、向禹在《確定性需求驅(qū)動的檔案數(shù)字化加工監(jiān)理模式構(gòu)建與適用性分析》中建立了檔案數(shù)字化加工確定需求的模型,對我國當前檔案數(shù)字化加工的確定性需求進行總結(jié)。檔案數(shù)字化加工的第一層次需求是要滿足長久保存,第二層需求是實現(xiàn)檢索、利用,第三層需求是檔案數(shù)據(jù)化,第四層需求是展現(xiàn)關聯(lián)性[3]。目前國內(nèi)許多綜合檔案館已完成對館內(nèi)部分歷史檔案和現(xiàn)行檔案的數(shù)字化處理工作,滿足了檔案數(shù)字化加工的第一層和第二層需求,而對第三層檔案信息的數(shù)據(jù)化處理尚缺乏宏觀性的規(guī)劃,大多數(shù)檔案數(shù)字化后以檔案目錄數(shù)據(jù)庫和數(shù)字圖像的形式保存。
圖3 檔案數(shù)字化加工的確定性需求
與此同時,政府部門、企業(yè)在社會活動中形成越來越多的數(shù)據(jù)態(tài)檔案沒有得到有效的歸檔和保存,大眾對數(shù)據(jù)資源進行整合與挖掘的需求越來越強烈,如地質(zhì)行業(yè)需要建立四維地質(zhì)環(huán)境模型實現(xiàn)數(shù)據(jù)可視化以便更好地進行地質(zhì)勘查和環(huán)境治理;人民群眾要求政府推行一站式辦理業(yè)務的服務;等。因此,如何建立檔案數(shù)據(jù)化發(fā)展模式,實現(xiàn)業(yè)務環(huán)節(jié)和檔案環(huán)節(jié)的無縫對接,以電子文件雙軌制向“單軌制”運行為契機,推動各行業(yè)的在線歸檔功能實現(xiàn),使檔案館形成社會檔案大數(shù)據(jù)資源中心,實現(xiàn)對檔案數(shù)據(jù)資源的深度挖掘和充分利用,是檔案部門必須解決的問題。
從檔案信息資源開發(fā)主體和開發(fā)技術角度,通過文獻調(diào)查和網(wǎng)絡查找的方式對檔案信息資源開發(fā)模式進行探討。
檔案信息資源開發(fā)主體可分為三種:政府部門、公共檔案部門和市場。
(1)政府部門主導的檔案信息資源開發(fā)模式。指政府部門主導單位內(nèi)部檔案信息資源開發(fā)的模式,政府部門作為檔案信息資源的生產(chǎn)者和使用者,是檔案信息資源開發(fā)的主力軍。政府部門占據(jù)了社會上大部分檔案信息資源,涵蓋行政公文、聲像資料等多種類型的檔案,涉及自然資源、氣象、農(nóng)林等多行業(yè)檔案資料,通過深度開發(fā)檔案信息資源為政府決策提供信息支持,為民眾辦理業(yè)務提供快速高效的服務。
政府部門主導的檔案信息資源開發(fā)模式的優(yōu)勢:一是安全。政府部門具有較高的保密意識,涉密和非涉密檔案信息的處理有嚴格區(qū)分,保密制度健全,安全措施到位。二是快速。政府部門通過行政指令分派任務,能將檔案資源開發(fā)的工作在全國范圍內(nèi)快速鋪陳開來,在短時間內(nèi)聚集優(yōu)質(zhì)人力物力資源完成任務。該模式的劣勢:一是人員技術不足。政府部門工作人員主要從事行政管理方面的工作,不擅長做技術層面的工作。政府各單位部門之間存在著信息壁壘,各業(yè)務系統(tǒng)之間還未完全整合,單靠檔案室的工作人員顯然無法解決這些難題。二是政府各單位檔案部門的局限性。政府各單位的檔案部門主要以檔案室的形式存在,其保存的檔案信息最終要流向公共檔案館,其檔案資源開發(fā)的任務多是局部性、應急性、預警性的,不適合多角度全方位的深度挖掘[4]。
(2)公共部門主導的檔案信息資源開發(fā)模式。主要是指公共綜合性檔案館、專門檔案館等公益性事業(yè)單位為主對館藏檔案資源進行開發(fā)的模式。檔案館的檔案信息資源一般是政府部門移交、其他單位匯交以及檔案館主動收集的資料,經(jīng)過分類、鑒定、整理歸檔形成的。以地質(zhì)資料檔案館為例,各省地質(zhì)資料檔案館都保存了不同地區(qū)豐富多樣的地質(zhì)資料,包括各種區(qū)調(diào)報告、礦產(chǎn)資源勘查成果資料、地質(zhì)災害調(diào)查報告等。目前許多地質(zhì)資料檔案館都搭建了地質(zhì)資料信息共享服務平臺,供公眾查詢館藏地質(zhì)資料目錄,單位和個人都可以按規(guī)定查詢所需檔案資料信息。同時,地質(zhì)資料檔案館還要圍繞環(huán)境評價、高速公路、高鐵地鐵等政府項目進行檔案資源開發(fā),及時提供信息支持。
公共部門主導的檔案信息資源開發(fā)模式優(yōu)勢是:①實用性強。檔案館的定位就是服務政府和公眾的信息中心,直接面向用戶,不僅能對現(xiàn)實需求迅速反應,還能通過用戶分析對未來的信息需求提前預判,及時提供所需檔案資源;專門性檔案館比如城建檔案館、地質(zhì)資料檔案館等,保存了大量專業(yè)的技術資料,通過大數(shù)據(jù)挖掘技術能深層次開發(fā)檔案信息資源。②人才技術資源優(yōu)勢。檔案館有專門的檔案信息技術人才,既懂檔案也懂現(xiàn)代信息技術,能有的放矢開發(fā)檔案資源,提供專業(yè)的信息咨詢。③安全優(yōu)勢。檔案館是公益性組織,與政府部門緊密聯(lián)系,嚴格執(zhí)行黨和國家的方針政策,安全保密度高。該模式劣勢為:許多檔案館保存的檔案內(nèi)容比較單一,館際之間信息化水平不一,不利于檔案信息資源的綜合開發(fā)。
(3)市場主導的信息資源開發(fā)模式。指企業(yè)根據(jù)市場需求自主開發(fā)檔案信息資源產(chǎn)品向政府和公眾提供有償?shù)臋n案信息服務,或通過招投標等方式接受政府或公共檔案館的委托,為其開發(fā)檔案信息資源的模式。該模式的優(yōu)勢是企業(yè)技術力量強大,項目開發(fā)經(jīng)驗豐富,靈活性強,快速高效。劣勢是:目前國家缺乏對企業(yè)檔案資源開發(fā)產(chǎn)品系統(tǒng)的監(jiān)管和評估規(guī)范,有泄露國家機密信息的風險;企業(yè)對委托其開發(fā)的檔案資源產(chǎn)品所有權(quán)存在爭議等。
表1 不同的檔案信息開發(fā)模式優(yōu)劣比較
從技術開發(fā)角度看,主要有平臺+數(shù)據(jù)挖掘、技術框架+用戶畫像兩種檔案資源開發(fā)模式。
(1)平臺+數(shù)據(jù)挖掘模式。目前許多政府部門和檔案館都建立了信息共享平臺,供用戶查詢信息、辦理業(yè)務、咨詢等,該平臺既保存了許多數(shù)字檔案也產(chǎn)生許多數(shù)據(jù)檔案。隨著物聯(lián)網(wǎng)和移動互聯(lián)網(wǎng)技術的快速發(fā)展,滲透到人們生活的方方面面,數(shù)據(jù)檔案的數(shù)量將劇烈上升。未來將以大數(shù)據(jù)和云計算技術為依托,建立智能化平臺,例如智慧城市大腦,通過物聯(lián)網(wǎng)的承載網(wǎng)絡、廣域互聯(lián)網(wǎng)、局域網(wǎng)、移動通信網(wǎng)獲取數(shù)據(jù)檔案。運用大數(shù)據(jù)技術對平臺內(nèi)的數(shù)據(jù)進行智能分析,通過數(shù)據(jù)關聯(lián)挖掘和提煉數(shù)據(jù)中隱藏的知識將變得十分便捷和高效。
(2)技術框架+用戶畫像模式。該模式對用戶在網(wǎng)絡中的行為進行分析,通過可視化統(tǒng)計描述、多維度交叉分析、用戶關系圖譜等技術構(gòu)建目標用戶模型。這種方式已廣泛應用到電子商務領域,通過用戶畫像判斷用戶需求實現(xiàn)精準推送。檔案行業(yè)要積極地轉(zhuǎn)變思維,通過信息共享平臺、微博、微信等渠道收集用戶的行為數(shù)據(jù),在大數(shù)據(jù)時代扭轉(zhuǎn)公眾對檔案部門的“刻板印象”,及時地改進工作,為用戶提供檔案信息的精準服務[5]。
通過對比研究,我們認為,政府作為行政管理部門,為了進一步提高工作效率和管理水平,建設現(xiàn)代智慧城市,滿足公眾的信息需求,對于深度開發(fā)檔案信息資源有著迫切的需要。由于政府檔案部門的局限性,可以通過行政命令或購買服務的方式,借助綜合檔案館、高校檔案館等公益性事業(yè)單位提供優(yōu)質(zhì)的技術服務和專業(yè)技術人才,結(jié)合檔案相關企業(yè)進行檔案信息資源的開發(fā)。而綜合檔案館、高校檔案館、專門檔案館等公共部門有良好的科研環(huán)境和項目績效刺激,掌握了比較新的數(shù)據(jù)分析技術和檔案專業(yè)知識,結(jié)合市場上檔案相關企業(yè)成熟的技術團隊和豐富的項目經(jīng)驗,能更好地應對不同類型的檔案數(shù)據(jù)資源開發(fā)。因此,政府部門負責履行公共管理職能,對檔案信息資源開發(fā)進行規(guī)劃、監(jiān)督和規(guī)范,檔案館和市場協(xié)同開展檔案信息資源開發(fā)工作,提供信息服務,是比較優(yōu)質(zhì)、高效的檔案資源開發(fā)模式。