中圖分類號:G271 文獻標識碼:A
企業(yè)電子檔案管理系統(tǒng)是以文件生命周期理論為基礎(chǔ),以企業(yè)檔案信息資源建設(shè)為核心,以文檔一體化為抓手,緊抓檔案的“收、管、存、用”基本環(huán)節(jié),將檔案工作前移,最大限度地簡化企業(yè)檔案管理工作,實現(xiàn)企業(yè)檔案工作信息化管理。其最終的建設(shè)目標就是在企業(yè)實現(xiàn)真正意義的主動式檔案服務(wù)和數(shù)據(jù)共享,以最方便、最快速的方式向利用者提供檔案信息資源,更好地服務(wù)企業(yè)生產(chǎn)、經(jīng)營。因而如何利用現(xiàn)代計算機及網(wǎng)絡(luò)技術(shù)實現(xiàn)從傳統(tǒng)企業(yè)檔案查詢利用向現(xiàn)代企業(yè)檔案查詢利用轉(zhuǎn)變,為利用者提供方便、快捷的檔案服務(wù),實現(xiàn)資源共享,提高工作效率,是企業(yè)檔案管理當前需要探索和解決的主要問題。本文探討了企業(yè)檔案查詢利用的現(xiàn)狀及其存在的問題,借助現(xiàn)代計算機網(wǎng)絡(luò)技術(shù),探索企業(yè)檔案查詢利用的新途徑和新方法,最大限度地實現(xiàn)檔案價值,并提出對現(xiàn)代企業(yè)檔案查詢利用的一些想法。隨著國產(chǎn)DeepSeek等大模型的應(yīng)用為企業(yè)檔案信息化查詢利用帶來新的機遇和挑戰(zhàn),企業(yè)需統(tǒng)籌規(guī)劃新技術(shù)與檔案業(yè)務(wù)深入融合的應(yīng)用,充分釋放大模型在檔案利用中的創(chuàng)新能力。
一、檔案查詢利用的現(xiàn)狀
檔案工作的最終目標就是檔案的利用。由于檔案數(shù)字化進程的加快,傳統(tǒng)的檔案檢索方式已無法滿足用戶對高效、精準信息獲取的需求,檔案管理與服務(wù)領(lǐng)域正經(jīng)歷著深刻的變革。國內(nèi)一些學(xué)者開始探索如何利用人工智能技術(shù),特別是利用多模態(tài)融合技術(shù) + 大語言模型相結(jié)合技術(shù),提高檔案查詢利用的智能化水平。因而當今檔案查詢利用大致可分為傳統(tǒng)檔案查詢利用、計算機目錄信息輔助查詢利用以及現(xiàn)代檔案查詢利用。
1.傳統(tǒng)查詢利用
傳統(tǒng)的檔案查詢工具的種類很多,按編制方法、信息處理手段、收錄材料范圍及作用等不同的標準分類,可分為目錄、索引和指南,其中檔案目錄是由許多條目組成的有機體,也是檔案館(室)檢索體系的主要部分,常用的有分類目錄、專題目錄、全宗文件目錄、案卷目錄、全引目錄和卡片等。采用傳統(tǒng)查詢利用檔案,主要是由于該企業(yè)檔案管理信息化水平較低,未建立目錄數(shù)據(jù)庫及全文檢索數(shù)據(jù)庫,主要是通過分析利用要求,選定檢索工具,確定檢索途徑和方法,如按分類途徑、主題途徑或全宗構(gòu)成者、責任者、年代以及其他途徑檢索,按照選定的檢索途徑及其檢索標識,如分類號、主題詞等查取檔案,利用者翻閱目標文檔,找到有效內(nèi)容后展開閱覽、復(fù)制和摘錄檔案。傳統(tǒng)檔案查詢利用全過程均為手工操作,因而利用者有時雖然找到相關(guān)的檔案,但該檔案無利用者需要的有效信息,從而造成利用失敗。傳統(tǒng)檔案查詢利用相對現(xiàn)代檔案查詢利用的主要弊端是:通過手工翻找書本式目錄、檢索卡以及簡單的檔案系統(tǒng)查詢功能檢索檔案,因受條件限制,檢索步驟煩瑣,檢索方法刻板單一,常常需要通過多種檢索工具翻閱多篇文檔才找到有效的檔案信息。特別是遇到文檔內(nèi)容龐雜,極不易定位到有效的內(nèi)容,也就是說檔案查詢的查準率、查全率極低,導(dǎo)致查詢利用耗時多,工作效率低下,未能滿足利用者對檔案信息資源的利用需求,未能充分發(fā)揮檔案信息資源作用,不利于形成支持檔案、利用檔案的良好氛圍,最終影響到檔案工作的有效開展,造成惡性循環(huán)。
利用現(xiàn)代計算機及網(wǎng)絡(luò)技術(shù)探索和創(chuàng)新現(xiàn)代企業(yè)檔案查詢利用的新方法、新路子,實現(xiàn)從傳統(tǒng)企業(yè)檔案查詢利用向現(xiàn)代企業(yè)檔案查詢利用轉(zhuǎn)變,為利用者提供方便、快捷的檔案服務(wù),實現(xiàn)資源共享,提高工作效率,最大限度地實現(xiàn)檔案價值。
2.計算機目錄信息輔助查詢利用
計算機目錄信息查詢利用,是人工智能未出現(xiàn)前或檔案管理現(xiàn)代化水平較低的企業(yè)采用的查詢利用方式,是人工智能未發(fā)展成熟的必然之路。其主要利用計算機及數(shù)據(jù)庫,將館藏檔案的查詢信息著錄到檔案管理系統(tǒng)中,通過計算機輔助開展檔案的查詢利用,解決了手工查詢利用檔案的弊端、難點和痛點,提高了查詢效率。但其僅能實現(xiàn)對檔案案卷或卷內(nèi)文件的條目錄信息檢索,不能對文件內(nèi)容檢索,檔案的查準率和查全率受著錄員著錄結(jié)果影響較大。
3.人工智能查詢利用
隨著計算機、網(wǎng)絡(luò)技術(shù)進一步發(fā)展和人工智能的興起,在數(shù)字化轉(zhuǎn)型背景下,以手工為主的傳統(tǒng)檔案查詢利用及計算機目錄信息輔助查詢利用方式正悄然發(fā)生改變,為開發(fā)新檔案查詢利用方法提供了無限空間和可能,全文件檢索、人工智能查詢等檔案查詢利用方法已經(jīng)成為現(xiàn)代檔案查詢利用的前沿方向和發(fā)展趨勢。例如,國內(nèi)一些研究開始探索嘗試利用機器學(xué)習(xí)算法,通過分析用戶的檢索歷史和行為模式、興趣建模及工作崗位等,構(gòu)建個性化的知識圖譜及管理系統(tǒng),主動為其推薦需要的檔案信息及知識。
但是,人工智能檔案查詢利用仍處于起步階段,成熟度不高,研究也存在諸多不足。當前的研究關(guān)注點仍以宏觀為主,多數(shù)研究僅為宏觀探討技術(shù)的可行性,對象較為籠統(tǒng)和寬泛,針對性與指向性嚴重不足,且多數(shù)研究并未深入挖掘技術(shù)細節(jié),未對檔案人工智能查詢利用展開更深入的研究,導(dǎo)致研究的深度不足。
二、提高檔案查詢利用效率的思路
相對于各級檔案館,企業(yè)檔案數(shù)量較少,種類單一,業(yè)務(wù)流程規(guī)范,更容易通過建設(shè)企業(yè)電子檔案系統(tǒng)創(chuàng)新企業(yè)檔案查詢利用的方法和模式。通過實踐與探索,發(fā)現(xiàn)除了傳統(tǒng)電子目錄檢索、跨庫檢索等傳統(tǒng)計算機檢索外,全文檢索、知識查詢和多模態(tài)智能檢索比較適合企業(yè)電子檔案室系統(tǒng)平臺。
1.全文檢索
全文檢索作為現(xiàn)代檔案查詢利用的一個重要手段,利用者在搜索引擎輸入文中關(guān)鍵字(詞),系統(tǒng)即可全文檢索到的關(guān)鍵詞并在正文中反白顯示,快速定位查詢利用的有效內(nèi)容以提供利用,從而提高檔案查全率和查準率。全文檢索的基本原理主要是通過對檔案元數(shù)據(jù)和電子文件的正文、附件的內(nèi)容自動建立索引,形成全文檢索索引庫,為用戶提供全文檢索服務(wù)。對于工程圖紙、照片和音像等檔案,只需建立元數(shù)據(jù)的索引庫,電子文件無需參與索引的建立。對于紙質(zhì)檔案則需對其展開數(shù)字化,通過OCR技術(shù)識別圖像文件,形成TXT文本或雙層PDF,再通過全文檢索系統(tǒng)對圖像文件自動建立全文檢索的索引庫,達到全文檢索的目標。
為此,企業(yè)在建設(shè)電子檔案室時,要做好電子檔案室與業(yè)務(wù)系統(tǒng)的有效對接,實現(xiàn)文檔一體化,保證電子檔案符合來源可靠、程序規(guī)范和要素合規(guī)的要求,進而確保電子檔案的真實性、完整性、可用性和安全性。同時,還要做好館藏紙質(zhì)檔案的數(shù)字化,通過OCR技術(shù)識別數(shù)字化成果,形成全文件檢索數(shù)據(jù)庫,發(fā)揮全文檢索的效能。
2.知識查詢
知識管理是在組織內(nèi)識別、組織、存儲和傳播信息的過程,文檔一體化管理模式的發(fā)展趨勢就是融信息處理、業(yè)務(wù)流程和知識管理于一體的應(yīng)用模式,即知識管理模式,它是以知識管理為核心,提供豐富的學(xué)習(xí)功能與知識共享機制,確保使用者隨時隨地根據(jù)需要向?qū)<覍W(xué)習(xí),從機構(gòu)信息庫中掘取知識,就是知識查詢。知識查詢使電子檔案管理系統(tǒng)從被動向主動轉(zhuǎn)變,提高檔案信息的利用率。利用者可以通過搜索引擎輸入知識要素關(guān)鍵詞或輸入提問問句的方法,立即從電子檔案管理系統(tǒng)獲得有效的答案。這種檢索方式的優(yōu)點:一是精準查詢。利用者可深入文檔的內(nèi)容層級,知識獲取更直接;二是高效查詢。利用者無須翻閱文檔,直接獲取答案;三是智能查詢。利用者可直接提出問題,獲得文檔中的對應(yīng)答案。
企業(yè)應(yīng)通過電子檔案管理系統(tǒng)做好知識管理基礎(chǔ)工作,強化知識工程建設(shè),建設(shè)“知識圖譜”或“向量知識庫”,實現(xiàn)文件、檔案信息資源及知識的有機聯(lián)系。通過“知識圖譜”使一個主題與其他主題之間產(chǎn)生關(guān)聯(lián),讓每個利用者可以準確、快捷地找到所需要的檔案信息,并針對相關(guān)問題和專家展開交流,了解哪些檔案信息內(nèi)容使用率高以及知識之間的連接關(guān)系等,進而形成完整、有條理和相互聯(lián)系的知識體系結(jié)構(gòu),最終實現(xiàn)知識的查詢與獲取。
3.多模態(tài)融合與大語言模型集成的檔案智能查詢利用
檔案多模態(tài)融合指通過整合文本、圖像、音頻、視頻、3D掃描和傳感器數(shù)據(jù)等多種信息載體,建立多模態(tài)檔案數(shù)據(jù)之間的關(guān)聯(lián)關(guān)系,構(gòu)建多模態(tài)融合檢索模型。大語言模型是基于海量數(shù)據(jù)訓(xùn)練的深度學(xué)習(xí)系統(tǒng),理解、生成和推理、揣摩人類語言、語義及多模態(tài)信息,如文本、代碼、圖像,從而突破純文本局限,支持圖文生成、音視頻交互和上下文感知。目前,多模態(tài)融合技術(shù)已經(jīng)取得了較大的進展,如基于注意力機制的多模態(tài)融合模型、基于圖神經(jīng)網(wǎng)絡(luò)的多模態(tài)融合模型等,可以有效地實現(xiàn)不同模態(tài)數(shù)據(jù)之間的信息互補和協(xié)同。大語言模型擁有強大的自然語言理解和生成能力,能夠根據(jù)用戶語言表達和行為深刻感知其檔案信息需求,從不同模態(tài)且海量的檔案中檢索用戶需要的檔案信息,或根據(jù)用戶利用歷史、工作崗位和興趣愛好等,主動推送各種模態(tài)的檔案信息或形成個性化知識庫。
根據(jù)以上原理,多模態(tài)融合技術(shù)與大語言模型集成應(yīng)用到檔案智能查詢利用的基本方法及步驟如下:
(1)多模態(tài)檔案數(shù)據(jù)處理
首先,確定多模態(tài)數(shù)據(jù)的統(tǒng)一表示方法。例如,利用聯(lián)合嵌入空間,設(shè)計多模態(tài)數(shù)據(jù)的存儲結(jié)構(gòu),實現(xiàn)跨模態(tài)關(guān)聯(lián)。其次,利用深度學(xué)習(xí)模型(如DeepSeek)自動提取多模態(tài)數(shù)據(jù)的特征,構(gòu)建多模態(tài)數(shù)據(jù)的索引結(jié)構(gòu)(如倒排索引、圖索引)。
(2)大語言模型驅(qū)動的自然語言交互
利用大語言模型實現(xiàn)自然語言問答功能,設(shè)計查詢意圖理解與語義擴展算法,提升檢索準確性。首先,選擇適合的大語言模型,如DeepSeek、文心一言、通義千問等,根據(jù)檔案業(yè)務(wù)要求微調(diào),提升模型在檔案領(lǐng)域的適應(yīng)性。其次,設(shè)計查詢意圖分類模型,識別用戶的查詢類型,如事實查詢、推薦查詢,并結(jié)合上下文信息,提升查詢意圖理解的準確性。最后,設(shè)計語義擴展算法,自動補充相關(guān)查詢詞,結(jié)合拼寫糾錯和語義糾錯技術(shù),優(yōu)化用戶查詢輸入。
(3)多模態(tài)融合檢索技術(shù)
根據(jù)多模態(tài)數(shù)據(jù)之間的關(guān)聯(lián)關(guān)系,構(gòu)建多模態(tài)融合檢索模型,實現(xiàn)跨模態(tài)檢索。首先,采用多模態(tài)預(yù)訓(xùn)練模型,如CLIP、UNITER,構(gòu)建多模態(tài)數(shù)據(jù)之間的關(guān)聯(lián)關(guān)系,設(shè)計多模態(tài)融合檢索模型,支持跨模態(tài)檢索,如用文本查詢圖像或視頻。然后,設(shè)計基于用戶自然語言查詢的多模態(tài)檢索算法,結(jié)合大語言模型的語義理解能力,提升檢索結(jié)果的準確性和相關(guān)性。
總之,DeepSeek、通義千問等大語言模型在各自領(lǐng)域已展現(xiàn)出卓越的人工智能能力,將其與多模態(tài)融合技術(shù)相結(jié)合,取長補短,語言模型提供了強大的文本解釋和理解能力,而多模態(tài)融合則完善了其在視覺、聽覺等外部感官源信息上的不足,為人工智能查詢利用提供了有效的解決方案。通過整合多模態(tài)融合及大語言模型海量數(shù)據(jù)訓(xùn)練,形成跨模態(tài)檔案智能檢索系統(tǒng),作為電子檔案管理系統(tǒng)的子系統(tǒng),可以為用戶提供更加便捷、精準的跨模態(tài)檔案檢索服務(wù),幫助用戶快速找到所需信息,深度挖掘檔案價值,提供智能問答、個性化推薦等服務(wù),創(chuàng)新了檔案服務(wù)方式,提升用戶體驗,具有廣闊的應(yīng)用前景。
三、結(jié)束語
綜上所述,多模態(tài)融合和大語言模型技術(shù)相結(jié)合,可以構(gòu)建更加精準、高效的檔案檢索系統(tǒng),如基于語義理解的檔案檢索以及基于圖像和語音內(nèi)容的檔案檢索等技術(shù)已趨成熟,為實現(xiàn)從傳統(tǒng)企業(yè)檔案查詢利用向現(xiàn)代企業(yè)檔案查詢利用轉(zhuǎn)變提供了無限空間和可能。因而應(yīng)積極探索將新一代信息技術(shù)應(yīng)用到知識管理、檔案人工智能和數(shù)字人文方面,賦能檔案信息查詢利用,讓檔案“走出來”“活起來”“亮起來”,為檔案插上數(shù)字化、智能化、網(wǎng)絡(luò)化、遠程化、知識化和可視化的“翅膀”,讓檔案信息資源在數(shù)字時代煥發(fā)新的生命力,更好地為企業(yè)生產(chǎn)經(jīng)營和改革發(fā)展服務(wù)。
參考文獻:
[1]中華人民共和國檔案法實施條例[S]國令第772號,2024-01-25.https://www.gov.cn/zhengce/zhengceku/202401/content_6928164.htm
[2]劉洋.“大模型 + RAG”技術(shù)在檔案工作中的應(yīng)用探析[J].中國檔案,2025(03):64-65.
[3]李金訊,馮永青,郭瑋,等.基于多模態(tài)關(guān)鍵校驗算法的檔案歸檔完整性研究及應(yīng)用[J].電力大數(shù)據(jù),2023,26(07):76-83.
[4]袁博.企業(yè)BOM數(shù)據(jù)歸檔工作研究[J].中國檔案,2025(01):44-45.
作者單位:中國能源建設(shè)集團廣西電力設(shè)計研究院有限公司