陳方舟 張若梅
摘 要:檔案作為一種特殊的信息資源和組織核心的知識資源,具備為制定決策提供信息支持的智庫功能。本文針對檔案所特有的情報價值,提出面向決策的智庫型檔案平臺模型,基于需求中心原則、高內(nèi)聚低耦合原則、信息共享原則和評估反饋原則,引入分布式管理技術(shù)、數(shù)據(jù)挖掘技術(shù)和人機交互技術(shù),圍繞決策機構(gòu)需求搭建分布式共享檔案信息平臺、信息挖掘引擎及管理系統(tǒng),使之成為檔案開發(fā)管理新模式的有益探索,同時也能夠為決策機構(gòu)提供有效的信息服務(wù)保障。
關(guān)鍵詞:智庫型檔案平臺;分布式檔案信息平臺;智庫
2014年5月5日,中共中央辦公廳和國務(wù)院辦公廳聯(lián)合印發(fā)了《關(guān)于加強和改進新形勢下檔案工作的意見》,提出要“加大開發(fā)力度。各檔案館(室)要加強對檔案信息的分析研究、綜合加工、深度開發(fā),提供深層次、高質(zhì)量檔案信息產(chǎn)品,不斷挖掘檔案的價值,努力把‘死檔案變成‘活信息,把‘檔案庫變成‘思想庫,更好地為各級黨委和政府決策、管理提供參考”[1]。檔案作為一種特殊的情報信息,對于知識與信息優(yōu)勢的需求更高,因此促成了以征集保管與利用為主要業(yè)務(wù)職能的傳統(tǒng)檔案館向智庫型檔案機構(gòu)轉(zhuǎn)型的良好機遇。
1 檔案館智庫化的基本條件
1.1 具備一般機構(gòu)難以比擬的信息資源優(yōu)勢。檔案的特性決定了檔案館保管著行政或科研活動中直接形成的文件材料,真實反映了歷史原貌,其歷史真實性和憑證性使之能夠成為決策的參考依據(jù)。同時,檔案特有的保密性又在一定程度上造就了唯一性,使其具備獨有的歷史價值、憑證價值和情報價值。
經(jīng)過現(xiàn)有的標準化整理和歸檔流程,檔案館擁有存量豐富且系統(tǒng)化的檔案資源,這既是檔案館的信息資源量級優(yōu)勢,而隨著數(shù)據(jù)挖掘技術(shù)、知識工程技術(shù)在檔案領(lǐng)域的深層應用,這也將有助于檔案館建立起專業(yè)知識關(guān)聯(lián)的質(zhì)級優(yōu)勢,真正成為決策機關(guān)的“信息大腦”。
以成功轉(zhuǎn)型為胡佛戰(zhàn)爭、革命與和平研究所的胡佛戰(zhàn)爭圖書館(實質(zhì)上為檔案館)為例,該館創(chuàng)建之初是為了收集與第一次世界大戰(zhàn)有關(guān)的檔案文件資料,除后期收集的藏書和期刊資料外,現(xiàn)今擁有4300類4000余萬件檔案和6萬多件縮微影片文件(絕大多數(shù)為第一手檔案),成為世界上最大的政治、軍事和社會經(jīng)濟史料文獻收藏地之一,其檔案文件及資料存量仍在不斷擴充。正是基于這些珍貴的豐富館藏戰(zhàn)爭檔案資源,胡佛戰(zhàn)爭圖書館形成了一批專業(yè)學者團隊,隨著研究領(lǐng)域的不斷深入,建立了研究所和外交政策學會等眾多機構(gòu),位列美國知名公共政策智囊機構(gòu)之一,為美國政府及國防部擔當顧問,對美國公共政策產(chǎn)生了深遠影響。
1.2 具備一般信息資源機構(gòu)難以擁有的資政基礎(chǔ)。近年來,美軍轉(zhuǎn)變了過去的檔案工作主要是為史實考證、編史修志提供依據(jù)的傳統(tǒng)觀念,認為檔案工作只有緊貼軍事變革實際,實現(xiàn)由收集、整理等基礎(chǔ)性工作向鑒定、分析等高層次研究工作的轉(zhuǎn)變,才能充分發(fā)揮檔案工作的潛在價值[2]。因此,除了進一步完善鑒定和保管標準,美軍還在檔案工作中引入情報分析方法,突出檔案的信息內(nèi)涵,拓展了檔案信息資源為發(fā)展軍事理論、武器裝備技術(shù)以及制訂作戰(zhàn)決策等提供有力支撐,這是檔案直接發(fā)揮機關(guān)參謀作用的有效形式。
2 檔案智庫的構(gòu)建模型
2.1 構(gòu)建理念。檔案智庫的構(gòu)建,既要以“檔案”為基石,又要起到“智庫”之作用,因此,從宏觀上看需要圍繞以下四個方面進行設(shè)計:一是基于需求中心原則篩選和整理檔案,根據(jù)決策機關(guān)的重點工作方向及時、準確地聚合檔案信息;二是基于高內(nèi)聚、低耦合的原則進行多數(shù)據(jù)庫分類[3],針對所屬決策機關(guān)的特點建立常規(guī)的專題數(shù)據(jù)庫,各數(shù)據(jù)庫內(nèi)部生成聚類信息簇,將相關(guān)知識密度最高的檔案信息集成整合,滿足服務(wù)決策的全面性和高效性;三是基于信息共享原則構(gòu)建檔案數(shù)據(jù)庫的分布式共享平臺;四是基于評估和反饋原則連接決策機關(guān)與檔案智庫管理系統(tǒng),通過人-機間的多次反饋交互不斷完善檔案系統(tǒng)對決策者需求的理解,從而提供更具價值的檔案信息。
2.2 構(gòu)建模型。
決策者在進行決策時所需要的不是檔案文獻載體,而是檔案文獻所承載的內(nèi)容以及這些內(nèi)容之間的關(guān)聯(lián)。因此,檔案平臺所提供的決策支援應是深層次的、系統(tǒng)的檔案知識信息,并從中利用信息挖掘技術(shù)和手段建立檔案與問題之間的對應關(guān)聯(lián),形成符合推理邏輯的參謀信息庫為最終確定解決方案服務(wù)。一般而言,為決策提供檔案信息支持有兩種途徑:一是由決策者直接在管理系統(tǒng)中檢索查找,再根據(jù)查找結(jié)果進行人工整合;二是針對決策需求,通過信息挖掘引擎進行映射匹配,并將得到的檔案信息經(jīng)過語義整合為可用的結(jié)果反饋給決策者以供選擇。前者與傳統(tǒng)的檔案檢索本質(zhì)一致,只是強調(diào)了檔案為情報信息所用的目的,因此,本文選取后者作為平臺模型構(gòu)建的技術(shù)基礎(chǔ)。
具體來說,智庫型檔案平臺包含以下四個部分:
2.2.1 分布式共享檔案信息平臺。這一部分屬于檔案信息資源的準備和再組織,其目的是使結(jié)構(gòu)化的數(shù)字檔案以系統(tǒng)化專題數(shù)據(jù)庫的形式共享。這一過程分為三個步驟:一是將檔案館庫存內(nèi)的大量非結(jié)構(gòu)化、半結(jié)構(gòu)化和部分結(jié)構(gòu)化的檔案文獻數(shù)據(jù),通過掃描并借助光學字符識別技術(shù),全部轉(zhuǎn)換為符合全文檢索的標準化、結(jié)構(gòu)化數(shù)字檔案。由于數(shù)字檔案資源最重要的特點是有機聯(lián)系[4],因此廣泛地建立數(shù)字化檔案資源庫是進一步完成檔案信息挖掘和開發(fā)的基礎(chǔ)。二是在對決策需求和建庫能力進行充分分析與論證的基礎(chǔ)上,以文本搜索及模式抽取方法為核心,利用專題信息自動采集技術(shù)和跨庫檢索技術(shù)完成數(shù)據(jù)整合歸類,組織形成面向主題的、集成的、穩(wěn)定的專題數(shù)據(jù)庫。三是基于安全的內(nèi)部網(wǎng)絡(luò),通過建立檔案信息交換標準,在所屬部門系統(tǒng)內(nèi)的各節(jié)點上設(shè)置具體訪問權(quán)限的Web Service訪問接口,實現(xiàn)決策部門與檔案機構(gòu)以及各檔案機構(gòu)之間的檔案信息交互與共享,使檔案信息資源的檢索與利用更加實時高效,也使分散于不同檔案機構(gòu)的專題數(shù)據(jù)庫能夠互為補充,全面服務(wù)于決策過程。
2.2.2 信息挖掘引擎。這是整個平臺的控制部件,亦是整個平臺的關(guān)鍵部分,在深入理解和分析決策機構(gòu)需求的基礎(chǔ)上,從檔案庫中智能檢索、推理選擇并提供展示給決策者相應的信息知識,因此信息挖掘引擎中主要包含三種功能機制:分析機制、檢索機制和表達機制。分析機制完成系統(tǒng)對決策者需求的采集、分析及其與檔案庫信息的對應,在信息預處理階段利用神經(jīng)網(wǎng)絡(luò)技術(shù)提取并生成用戶個性化的目標特征信息;由于分布式共享檔案信息平臺在一定程度上已具備網(wǎng)絡(luò)化特征,因此可以通過檢索機制,利用基于本體的語義數(shù)據(jù)挖掘技術(shù)(OSDM)在檔案數(shù)據(jù)庫中爬取符合目標特征信息的檔案內(nèi)容,其中面向決策機關(guān)需求的過程包括對目標信息進行分詞、語法句法分析、查詢擴展與校正、根據(jù)決策需求查詢語義向量抽取、檢索及優(yōu)化結(jié)果,并推理更新信息。
如圖2所示,分詞仍屬于自然語言預處理階段,在保證詞語組合完整性的同時,語法句法分析幫助數(shù)據(jù)庫進一步理解決策者需求。通過數(shù)據(jù)庫中的相關(guān)性、一致性推理,與之前所獲得的目標特征信息比較并校正查詢語言,在語義向量抽取階段完成對查詢語言的再分析,形成多個多維查詢語言向量。在檢索過程中將檔案信息平臺存儲的數(shù)據(jù)與查詢語言進行映射,搜尋對應的檔案信息內(nèi)容,并優(yōu)化結(jié)果,比對關(guān)聯(lián)度最大的信息呈現(xiàn)給決策者。
OSDM的優(yōu)勢在于能夠高度適應中文檔案數(shù)據(jù)庫特征,具備根據(jù)中文分詞特點進行分析匹配的能力,而其難點在于目前不同單位、不同部門的檔案數(shù)據(jù)庫元數(shù)據(jù)標準不統(tǒng)一,致使在進行跨平臺檢索時可能出現(xiàn)遺漏信息、錯檢信息等情況,因此,在提高OSDM技術(shù)的同時必須跟進檔案數(shù)據(jù)庫的標準化建設(shè)和質(zhì)量控制,增強互操作能力。
這一階段的最后一步是向決策機構(gòu)提供信息,即表達機制。目前較為成熟的技術(shù)所能達到的是將與決策相關(guān)的信息以強相關(guān)和弱相關(guān)的形式顯示,包括傳統(tǒng)的文檔優(yōu)先排序顯示和更為直觀的可視化界面顯示。此外,還有張斌等提出采用決策支持模塊,經(jīng)過推理算法為用戶形成若干近似真實的決策方案并進行優(yōu)劣排序[5],要實現(xiàn)從檔案信息組織到形成決策方案,需進一步借助人工智能語言工具,可作為未來開發(fā)思路。
2.2.3 管理系統(tǒng)。管理系統(tǒng)在內(nèi)部的信息平臺與外部的決策機關(guān)之間發(fā)揮著承接作用,其主要功能有三點:一是對新掃描、著錄添加的檔案信息進行一致性檢驗,確保不與檔案數(shù)據(jù)庫中已有的信息出現(xiàn)重復,對重復信息進行清理,對相交信息進行合成重組,對新信息進行添加;二是對專題檔案數(shù)據(jù)庫、檔案信息共享平臺和信息挖掘引擎進行維護,保護檔案信息安全,清理糾正數(shù)據(jù),確保整個平臺的正常運轉(zhuǎn);三是對進入平臺的用戶規(guī)定系統(tǒng)內(nèi)部細粒度權(quán)限,存儲平臺訪問日志,保證檔案信息平臺的訪問和瀏覽安全。后兩項功能對于檔案共享平臺而言至關(guān)重要,信息安全是長期造成機關(guān)檔案信息難以共享的重要原因之一,在利用過程中如何防止失泄密和檔案信息損壞長期以來都是檔案部門關(guān)注的重點問題,因此只有做好全過程保密安全防范,才有可能真正實現(xiàn)檔案信息資源的深層次開發(fā)。
2.2.4 與決策者的交互與反饋。構(gòu)建智庫型檔案信息平臺的根本目的在于為決策機構(gòu)提供信息保障、輔助制訂決策,除了首先要求充分理解決策需求以外,更為重要的是在整個過程中與決策機關(guān)交互檢索結(jié)果,幫助信息挖掘引擎采取適當?shù)耐评聿呗圆粩喟l(fā)掘更符合需求的、更深層次的檔案信息,實時處理推理過程中出現(xiàn)的錯誤信息,實時的人-機交互能夠使檢索引擎和管理系統(tǒng)熟知具體決策者的檢索偏好,為進一步優(yōu)化結(jié)果、優(yōu)先排序個性化方案提供支持。此外,決策者的反饋評價對于改進檔案信息平臺的服務(wù)質(zhì)量與效率也至關(guān)重要。
3 發(fā)揮檔案智庫作用的相關(guān)條件
3.1 制訂并貫徹文檔一體的規(guī)范標準。按照傳統(tǒng)的文件區(qū)分方式,半現(xiàn)行文件多存于基層檔案管理室,非現(xiàn)行文件才存入檔案館,但是檔案館有時也接收和存儲部分半現(xiàn)行文件,因此單純采取這一劃分方法容易割裂檔案與現(xiàn)實決策需求之間的關(guān)聯(lián),也會造成檔案保存的數(shù)據(jù)標準不統(tǒng)一,影響現(xiàn)行文件、半現(xiàn)行文件與檔案之間知識的橫向交叉利用,不利于檔案充分發(fā)揮自身作用??紤]到美國檔案學者菲利普·布魯克斯在1940年提出的“文件生命周期”理論,提倡從文件到檔案全過程管理,認為文檔一體化的關(guān)鍵在于要從檔案的前端——文件產(chǎn)生開始就制訂統(tǒng)一的標準規(guī)范,以保證整個文件管理過程的有效性和連續(xù)性[6],這將有助于檔案作為文件的一種重要形式參與信息化管理活動,融入信息資源管理活動。
為便于文件在歸檔后的分布式共享,需為文檔一體制訂統(tǒng)一的規(guī)范標準。目前,從世界范圍來看,普遍采用的方法是在形成機關(guān)創(chuàng)建文件時,按照檔案部門設(shè)計的文件分類編碼表進行文件的命名,并建立起相應的《文件調(diào)查統(tǒng)計表》,以記錄下文件承辦和流轉(zhuǎn)過程中的各種重要信息,使文件在歸檔后能夠被準確判斷出所蘊含的價值[7]。這一方法的優(yōu)勢在于,文件自產(chǎn)生之時即按照檔案部門的創(chuàng)建、征集、鑒定、移交、保管、利用、處置等要求進行標準化管理,既滿足分布式平臺共享的數(shù)據(jù)條件,又支持根據(jù)現(xiàn)行文件進行檔案信息挖掘,建立檔案與決策活動的直接關(guān)聯(lián)。
3.2 提高檔案信息管理技術(shù)的智能化水平。一是對檔案信息密級和訪問權(quán)限進行全過程動態(tài)管理。智庫型檔案信息平臺的內(nèi)容構(gòu)成呈現(xiàn)動態(tài)性特征,以確定保管期限為主的管理模式過于簡單,不能充分體現(xiàn)檔案作為信息資源的復雜性和變化性,且不能很好地表示文件現(xiàn)行階段的密級與檔案使用期間的權(quán)限之間的關(guān)系,所以需要在人力鑒定的基礎(chǔ)上制訂更加詳細的密級標準,并以此創(chuàng)建面向標準映射的密級動態(tài)更新算法以及基于角色的粗粒度訪問權(quán)限控制,確保在庫涉密檔案信息能夠在保密安全的情況下得到充分的共享利用。
二是引入決策支持系統(tǒng)工具。決策支持系統(tǒng)是管理信息系統(tǒng)應用概念的深化,雖然不必承擔該系統(tǒng)內(nèi)模型庫和方法庫的完整功能,但是從半結(jié)構(gòu)化和非結(jié)構(gòu)化決策對象、垂直型組織結(jié)構(gòu)和目標作用角度看,面向決策的軍事智庫型檔案平臺本質(zhì)上仍然是數(shù)據(jù)庫+數(shù)據(jù)挖掘+分析處理(DW+DM+OLAP)模型,可以認為是決策支持系統(tǒng)中的一種形式,因此引用多樣化的數(shù)據(jù)交換模式和聯(lián)機分析系統(tǒng),能夠使檔案管理、分布式共享及信息挖掘機制更加靈活,具備輔助決策優(yōu)勢。
參考文獻:
[1] 中共中央辦公廳,國務(wù)院辦公廳.關(guān)于加強和改進新形勢下檔案工作的意見[Z].2014-5-5.
[2] 馬愛華.美軍檔案工作新動向[J].解放軍報,2004-9-15.
[3] 曹禮園,李深洛.一個基于高內(nèi)聚和低耦合的多數(shù)據(jù)庫分類方法[J].計算機與數(shù)字工程,2016(7):1226.
[4] 楊智勇,史曉杰.大數(shù)據(jù)時代數(shù)字檔案館的微服務(wù)研究[J].檔案管理,2014(6):21.
[5] 張斌,魏扣,郝琦.面向決策的檔案知識庫構(gòu)建研究[J].圖書情報工作, 2016(5):119.
[6] 胡燕,文件和文件生命周期理論新探[J].檔案學研究,2001(2):8.
[7] 周勝利,美軍檔案工作發(fā)展的歷史與趨勢[J].軍事歷史研究,2012(3):154.
(作者單位:中央軍委裝備發(fā)展部原檔案館 來稿日期:2018-06-25)