Abstract: Conducting research and exploration based on microscopic particles to achieve a profound understanding of the macroscopiclawsof thingsisanimportantwaytomakebreakthroughs inscientificresearch.Inresponsetotherealneedsof intelligent transformationofChina'sachival management,thisarticleputsforwardtheacademicconceptof\"archivalmemory particles\",expounds its technical principles andfunctional values,discusss thecore ideas ofengineering architecture such as distributedarchitecture,semanticcoordinatesystem,vectordatabaseand intellgentbodyservice,andfinallyputs forward some policyrecommendations forthework in the15thFive-YearPlanperiod.Archivalmemory particles is thesmallest referableunitsoffactualsemantic iformationcontained inarchivaldocuments,which is thelogical intermediaryforrealizing theintegrationofsemanticinformationofmulti-modalarchivaldocuments,the\"logicallink\"forpromotingthesemantic integration ofarchival documents inmultipleethnic languages,thebasicresources forachievingaccurateretrieval of the content information ofarchival documents and human-machinequestion-answering services,anda reliablelogicalreference systemfor goveming the problemof machine hallucinations in large language models.The promotionand practiceof the fundamentalresearchesof \"archivalmemoryparticlecomputingproject\"willprovidesignifcantstrategicsupport forpromoting the modemizationof archival undertakings with Chinese characteristics and thedevelopmentofChina's ndependent knowledge system of archival science.
Keywords: AchivalMemoryParticles; IntellgentTransfomation;ArchivalData Governance; IntelligentAgentEngieering
基礎(chǔ)研究是基于源頭問題和底層邏輯對(duì)事物的深層次規(guī)律進(jìn)行的思考與探索,是國家創(chuàng)新體系的基石,其重大突破往往會(huì)引發(fā)社會(huì)生產(chǎn)力的全局性、系統(tǒng)性變革。人類自工業(yè)革命以來的每一輪產(chǎn)業(yè)升級(jí)都以科技領(lǐng)域基礎(chǔ)研究的重大突破為前提。2023年2月21日,習(xí)近平總書記在二十屆中央政治局第三次集體學(xué)習(xí)時(shí)指出:“加強(qiáng)基礎(chǔ)研究,是實(shí)現(xiàn)高水平科技自立自強(qiáng)的迫切要求,是建設(shè)世界科技強(qiáng)國的必由之路”,要“強(qiáng)化基礎(chǔ)研究前瞻性、戰(zhàn)略性、系統(tǒng)性布局。”[1]“十五五”時(shí)期,檔案管理行業(yè)面臨人工智能時(shí)代挑戰(zhàn),要推進(jìn)中國式檔案事業(yè)現(xiàn)代化,構(gòu)建中國自主檔案學(xué)知識(shí)體系,就必須重視基礎(chǔ)研究戰(zhàn)略布局,探索一條以基礎(chǔ)研究創(chuàng)新驅(qū)動(dòng)行業(yè)變革的高質(zhì)量發(fā)展道路。
1科學(xué)問題
1.1基本粒子研究方法及啟示
通過對(duì)微觀粒子的研究與探索實(shí)現(xiàn)對(duì)事物宏觀規(guī)律的精深理解,是科學(xué)研究取得突破的重要途徑。1665年,英國科學(xué)家羅伯特·胡克(RobertHooke)使用顯微鏡發(fā)現(xiàn)了細(xì)胞(cell)的存在,德國科學(xué)家施萊登(MatthiasJakobSchleiden)和施旺(Theodor Schwann)據(jù)此建立了“細(xì)胞學(xué)說”[2],開啟了現(xiàn)代醫(yī)學(xué)和生物學(xué)研究的新紀(jì)元。1808年,英國學(xué)者約翰·道爾頓(JohnDalton)提出“原子論”[3],認(rèn)為物質(zhì)是性質(zhì)單一、不可分割的原子相互組合的結(jié)果,為現(xiàn)代化學(xué)和化學(xué)工業(yè)奠定了理論基礎(chǔ)。此后兩個(gè)世紀(jì)里,關(guān)于物質(zhì)基本粒子的研究不斷走向深入,強(qiáng)子、輕子、玻色子、傳播子、夸克等基本粒子研究依然是物理學(xué)的前沿問題。盡管學(xué)科領(lǐng)域各不相同,但是其背后的底層邏輯卻是高度一致的,即認(rèn)為復(fù)雜事物是由眾多不可再分的單一粒子構(gòu)成,事物的復(fù)雜性特征是由若干單一粒子的組合結(jié)構(gòu)所決定,通過對(duì)基本粒子及其組合方式研究就可以揭示復(fù)雜事物變化的內(nèi)在機(jī)理。
1.2檔案記憶粒子研究的提出
2022年以來,以ChatGPT、DeepSeek為代表的新一代人工智能技術(shù)取得重大突破,各類大語言模型在人類自然語言深度處理和自動(dòng)生成方面的能力達(dá)到了前所未有的高度[4],人機(jī)深度共生的全新社會(huì)形態(tài)正在加速到來,人工智能應(yīng)用成為各行各業(yè)編制“十五五”規(guī)劃時(shí)必須正視的問題
在檔案管理領(lǐng)域,以檔案文獻(xiàn)檢索和人工閱檔為核心內(nèi)容的傳統(tǒng)檔案服務(wù)正在面臨人機(jī)問答式服務(wù)的挑戰(zhàn),直接對(duì)用戶的事實(shí)查證需求進(jìn)行精準(zhǔn)回應(yīng)而不是提供一系列相關(guān)檔案文獻(xiàn)供其自行閱讀的服務(wù)形式,正開始成為新興潮流??梢灶A(yù)見,習(xí)慣了大語言模型和智能體問答服務(wù)的用戶群體終將對(duì)檢索表單、人工閱檔等傳統(tǒng)檔案服務(wù)模式失去耐心。而要提供高精準(zhǔn)、智能化的檔案事實(shí)問答服務(wù),就要改變?cè)械臋n案資源組織方式,使得檔案檢索、計(jì)算可以基于更為精細(xì)的檔案語義顆粒進(jìn)行,本文將其稱為“檔案記憶粒子”。抓住“十五五”時(shí)期我國檔案事業(yè)智能化轉(zhuǎn)型的戰(zhàn)略機(jī)遇,推進(jìn)“檔案記憶粒子計(jì)算工程”基礎(chǔ)理論和技術(shù)方法研究,建構(gòu)適應(yīng)人工智能社會(huì)運(yùn)行規(guī)則的檔案管理與服務(wù)體系,已經(jīng)成為推進(jìn)中國式檔案事業(yè)現(xiàn)代化進(jìn)程的重大戰(zhàn)略性舉措。
1.3“檔案記憶粒子”的概念與本質(zhì)
“檔案記憶粒子”(ArchivalMemoryParticle,AMP)是檔案文獻(xiàn)所蘊(yùn)含事實(shí)性語義信息的最小可引用單位,是對(duì)檔案文獻(xiàn)事實(shí)性語義信息的單一維度、最小顆粒描述。「5]對(duì)具體的檔案文獻(xiàn)而言,其作為可靠證據(jù)可以提供佐證的事實(shí)性語義信息是有限的,“檔案記憶粒子”是對(duì)檔案文獻(xiàn)事實(shí)性語義信息進(jìn)行數(shù)據(jù)表征的基礎(chǔ)信息單元,無論檔案文獻(xiàn)的內(nèi)容信息如何復(fù)雜,經(jīng)過層層解構(gòu)最終都可以轉(zhuǎn)換為單一維度的語義顆粒。受到載體信息容量的制約,蘊(yùn)含在檔案文獻(xiàn)的“檔案記憶粒子”通常以黏著態(tài)存在,只有將其解構(gòu)、抽取和表征為獨(dú)立存在的數(shù)據(jù)顆粒,才具有在更大范圍內(nèi)傳播、共享與聚合的可能性。
從檔案文獻(xiàn)自然語言文本當(dāng)中解構(gòu)和抽取“檔案記憶粒子”的過程與物理學(xué)的“核裂變效應(yīng)”類似,都致力于將事物的基本單元切分為更小的顆粒同時(shí)釋放出巨大的能量。而將來自多個(gè)機(jī)構(gòu)、多份檔案文獻(xiàn)的“檔案記憶粒子”聚合在一起進(jìn)行整體性檢索和計(jì)算的過程與物理學(xué)的“核聚變效應(yīng)”類似,都致力于將較小的顆粒組合為更大的顆粒同時(shí)釋放出巨大的能量。“檔案記憶粒子”的解構(gòu)、抽取、聚合、計(jì)算、檢索和利用形成“檔案數(shù)據(jù)要素場”[6],與傳統(tǒng)的檔案文獻(xiàn)服務(wù)相比,基于大規(guī)?!皺n案記憶粒子”的全面化、精準(zhǔn)性事實(shí)計(jì)算與推理是人類檔案管理史上的一次重大飛躍,從此用戶或者智能設(shè)備可以直接針對(duì)其所蘊(yùn)含的事實(shí)性語義信息進(jìn)行智能分析與精準(zhǔn)化問答,為各行各業(yè)的檔案利用活動(dòng)注入新活力。
2技術(shù)原理
2.1“檔案記憶粒子”的技術(shù)實(shí)現(xiàn)
“檔案記憶粒子”的技術(shù)實(shí)現(xiàn)形式是資源描述框架(ResourceDescriptionFrame,RDF),即由“主語”“謂詞”和“賓語”構(gòu)成的語義三元組?!爸髡Z”通常由概念類實(shí)體或命名實(shí)體的全局唯一標(biāo)識(shí)符(UniqueIdentifier,UID)構(gòu)成,“賓語”通常由另外的概念類實(shí)體、命名實(shí)體或者屬性值文本構(gòu)成?!爸^詞”是描述主語和賓語之間的關(guān)系,是描述人類社會(huì)實(shí)體屬性和關(guān)系共性特征的標(biāo)準(zhǔn)符號(hào)。例如,“RF1{中華人民共和國,成立日期,1949-10-01}”描述了中華人民共和國成立于1949年10月1日這個(gè)客觀事實(shí),“RF2{江蘇省,IsPartOf,中華人民共和國}”描述了江蘇省是中華人民共和國組成部分的客觀事實(shí)。為了更加精準(zhǔn)地描述檔案文獻(xiàn)的語義信息,“檔案記憶粒子”數(shù)據(jù)可以增加“檔案記憶粒子標(biāo)識(shí)符”“時(shí)間要素”“空間要素”“來源文獻(xiàn)”和“可信度”共5個(gè)要素,從而形成由8個(gè)字段構(gòu)成的“檔案記憶粒子”基礎(chǔ)數(shù)據(jù)結(jié)構(gòu)。上述數(shù)據(jù)映射到8維向量空間,“檔案記憶粒子”就表現(xiàn)為獨(dú)立存在的“邏輯點(diǎn)”,本質(zhì)上是不同維度數(shù)據(jù)相互融合的結(jié)果。任何由檔案文獻(xiàn)作為佐證的“檔案記憶粒子”最終都可以在向量數(shù)據(jù)空間中找到對(duì)應(yīng)的邏輯點(diǎn)位,這就是“檔案記憶粒子”的“數(shù)粒二象性”。
從理論上說,古今中外任何基于檔案文獻(xiàn)的“檔案記憶粒子”都可以匯聚到同一個(gè)語義向量空間,只要其語義信息不同,在空間中的位置就不同。同時(shí),“檔案記憶粒子”主要關(guān)注的是語義層信息,與檔案文獻(xiàn)的符號(hào)層特征無關(guān),無論檔案文獻(xiàn)是文本、圖形、圖像、音頻、視頻等任何一種模態(tài),不論是不是國家通用語言文字,只要其描述的語義信息是一致的,在向量空間就是同一個(gè)邏輯點(diǎn)位。
2.2“檔案記憶粒子”的功能與價(jià)值
第一,“檔案記憶粒子”是實(shí)現(xiàn)多模態(tài)檔案文獻(xiàn)語義信息集成的“邏輯中介”?!皺n案記憶粒子”本質(zhì)上是檔案語義信息在“國家檔案語義空間”各個(gè)維度坐標(biāo)系統(tǒng)當(dāng)中的映射結(jié)果。無論檔案文獻(xiàn)是文本態(tài)、圖形態(tài)、圖像態(tài)、音頻態(tài)、視頻態(tài)還是實(shí)物態(tài),只要其記錄和描述的語義信息是一致的,對(duì)應(yīng)的“檔案記憶粒子”在邏輯上就沒有任何差別。
第二,“檔案記憶粒子”是推進(jìn)中國多民族語言文字檔案文獻(xiàn)資源語義整合的“邏輯紐帶”。“檔案記憶粒子”獨(dú)立于任何一種自然語言,對(duì)于國家通用語言文字與有著較大社會(huì)影響力的少數(shù)民族文字檔案文獻(xiàn)的語義信息而言,其使用“檔案記憶粒子”進(jìn)行數(shù)據(jù)表征時(shí)在形態(tài)上沒有任何區(qū)別,映射于統(tǒng)一向量空間之后邏輯上相互關(guān)聯(lián),從技術(shù)層面上體現(xiàn)了中華民族語言文字和歷史文化的共同體特征,有助于增強(qiáng)各族群眾對(duì)“中華民族共同體”的直觀感知。
第三,“檔案記憶粒子”是實(shí)現(xiàn)檔案文獻(xiàn)內(nèi)容信息精準(zhǔn)檢索和人機(jī)問答服務(wù)的基礎(chǔ)資源。檔案文獻(xiàn)在邏輯上等于其可證明事實(shí)信息的集合,如果可以將檔案文獻(xiàn)所蘊(yùn)含的事實(shí)性語義信息都表征為基于“檔案記憶粒子”的向量數(shù)據(jù)集合,那么理論上,對(duì)應(yīng)檔案文獻(xiàn)內(nèi)容信息的檢索與解讀就可以由“檔案記憶粒子”數(shù)據(jù)集的檢索來替代。如果用戶需要查證某一歷史事實(shí)是否存在,系統(tǒng)可以基于“檔案記憶粒子”數(shù)據(jù)集為其提供精準(zhǔn)反饋結(jié)果,不再需要用戶閱讀原始檔案文獻(xiàn)
第四,“檔案記憶粒子”是基于可解釋性實(shí)現(xiàn)大語言模型機(jī)器幻覺問題治理的可靠邏輯參照體系?!皺n案記憶粒子”是從檔案文獻(xiàn)中抽取的事實(shí)性語義數(shù)據(jù)顆粒,實(shí)現(xiàn)基于向量數(shù)據(jù)庫的邏輯集成之后,可以滿足用戶對(duì)檔案內(nèi)容信息的查證需求,并可以為大語言模型生成結(jié)果提供外部約束。在“檔案記憶智能體工程”中,為了有效降低大語言模型可能產(chǎn)生的機(jī)器幻覺問題,可以將大語言模型的生成結(jié)果提交到系統(tǒng)進(jìn)行“檔案記憶粒子”數(shù)據(jù)集的檢索驗(yàn)證,通過驗(yàn)證才能繼續(xù)向用戶提交。這種以“白箱模型”為大語言模型的“黑箱模型”提供邏輯約束的方法,既利用了大語言模型的自然語言交互能力優(yōu)勢(shì),又最大化避免出現(xiàn)機(jī)器幻覺問題。
3工程架構(gòu)
3.1“檔案記憶粒子計(jì)算工程”的分布式架構(gòu)
“檔案記憶粒子計(jì)算工程”是我國各級(jí)各類檔案機(jī)構(gòu)為了推進(jìn)檔案記憶信息的粒子化管理和利用而共同推動(dòng)建設(shè)的分布式檔案信息化工程。“檔案記憶粒子計(jì)算工程”需要由國家檔案主管部門、工程中心服務(wù)站點(diǎn)和各級(jí)各類檔案館的分布式數(shù)據(jù)站點(diǎn)共同構(gòu)成。各級(jí)各類檔案館參照“檔案記憶坐標(biāo)系統(tǒng)”將館藏開放檔案文獻(xiàn)所蘊(yùn)含的事實(shí)性語義信息抽取和表述為“檔案記憶粒子”數(shù)據(jù)集,并為本地用戶提供檔案事實(shí)查證服務(wù)。如果用戶的查檔需求需要跨越多個(gè)檔案館,則可以通過工程協(xié)作網(wǎng)絡(luò)進(jìn)行全局式檢索,獲得其他檔案館生成的“檔案記憶粒子”數(shù)據(jù)?!皺n案記憶粒子計(jì)算工程”的中心服務(wù)站點(diǎn)和各級(jí)各類檔案館數(shù)據(jù)站點(diǎn)之間按照“分布式架構(gòu)”進(jìn)行組織,各數(shù)據(jù)站點(diǎn)之間在物理上是分散的,邏輯上是集中的,每一個(gè)數(shù)據(jù)站點(diǎn)在為本地用戶提供檔案事實(shí)查證服務(wù)的基礎(chǔ)上,都有發(fā)起全局性檢索并獲得其他檔案館數(shù)據(jù)資源的權(quán)限。因而,“檔案記憶粒子計(jì)算工程”在檔案事實(shí)檢索的“查準(zhǔn)率”和“查全率”指標(biāo)都會(huì)得到顯著性地提升。由此可知,實(shí)現(xiàn)全國范圍的“檔案記憶粒子”集成計(jì)算要以全行業(yè)分布式資源共享組織體系和網(wǎng)絡(luò)體系為基礎(chǔ)條件。
3.2“檔案記憶粒子計(jì)算工程”的語義坐標(biāo)系統(tǒng)
“檔案記憶粒子計(jì)算工程”的核心是為全國各級(jí)各類檔案館進(jìn)行檔案文獻(xiàn)“檔案記憶粒子”抽取提供統(tǒng)一的邏輯參照體系,即“檔案記憶坐標(biāo)系統(tǒng)”(Archival Memory Coordinate System,AMCS)?!皺n案記憶坐標(biāo)系統(tǒng)”主要由以下模塊構(gòu)成:第一,統(tǒng)一時(shí)間標(biāo)尺平臺(tái)。統(tǒng)一時(shí)空標(biāo)尺平臺(tái)主要為全國各級(jí)各類檔案館館藏檔案文獻(xiàn)中的時(shí)間表述提供統(tǒng)一的時(shí)間參照體系。我國古代使用的天干地支紀(jì)年法、皇帝年號(hào)紀(jì)年法、農(nóng)歷紀(jì)年法以及各少數(shù)民族使用的歷法所形成的時(shí)間表述最終都可以在“統(tǒng)一時(shí)間標(biāo)尺平臺(tái)”當(dāng)中找到對(duì)應(yīng)的公歷紀(jì)年表述方式,從而使檔案文獻(xiàn)提及的各類時(shí)間表達(dá)方式可以基于共同的時(shí)間標(biāo)尺數(shù)據(jù)進(jìn)行比對(duì)和計(jì)算。
第二,統(tǒng)一地名數(shù)據(jù)平臺(tái)。“統(tǒng)一地名數(shù)據(jù)平臺(tái)”主要為檔案文獻(xiàn)當(dāng)中提及的地名提供唯一標(biāo)識(shí)符編碼,通常使用經(jīng)度、緯度和海拔高度相結(jié)合的方式,準(zhǔn)確描述地名所對(duì)應(yīng)的地理實(shí)體的位置。同一地理位置在歷史上先后使用多個(gè)地名的,其對(duì)應(yīng)的地名編碼是一致的,從而可以基于其編碼數(shù)據(jù)進(jìn)行相互之間空間位置的計(jì)算。
第三,實(shí)體唯一標(biāo)識(shí)符編碼平臺(tái)。主要是由各級(jí)各類檔案館根據(jù)檔案記憶粒子抽取工作的需要,向平臺(tái)提交實(shí)體唯一標(biāo)識(shí)符編碼方案的注冊(cè)申請(qǐng),如獲通過則成為全局性標(biāo)準(zhǔn),其他機(jī)構(gòu)在進(jìn)行“檔案記憶粒子”抽取時(shí)可以直接引用?!皩?shí)體唯一標(biāo)識(shí)符”分為概念類實(shí)體和命名實(shí)體兩種類型,前者是對(duì)同一類實(shí)體物的通用表述,后者是針對(duì)可以相互區(qū)分的人名、機(jī)構(gòu)名或?qū)嵨锩奈ㄒ痪幋a。
第四,統(tǒng)一謂詞數(shù)據(jù)字典?!爸^詞數(shù)據(jù)字典”是對(duì)實(shí)體與實(shí)體、實(shí)體與屬性之間的關(guān)系的規(guī)范化標(biāo)識(shí)符號(hào),需要從大量檔案文獻(xiàn)中抽取,并進(jìn)行規(guī)范化。
第五,統(tǒng)一場景語義框架庫。“場景語義框架庫”是對(duì)人類社會(huì)共性場景的結(jié)構(gòu)化描述,可以參照框架語義學(xué)領(lǐng)域的現(xiàn)有場景框架進(jìn)行構(gòu)建。根據(jù)場景的不同,涉及的時(shí)間、空間、主體、工具、對(duì)象等語義要素及其組合關(guān)系也各不相同。只要檔案文獻(xiàn)記錄的內(nèi)容屬同一類型,所使用的語義場景描述框架就應(yīng)該是一致的。
第六,統(tǒng)一敘事腳本庫?!皵⑹履_本庫”是對(duì)人類社會(huì)系統(tǒng)當(dāng)中各類事件邏輯結(jié)構(gòu)的通用表征,主要描述不同類型事件的場景類型及其組合方式。基于上述檔案語義坐標(biāo)系統(tǒng)的組成模塊,檔案文獻(xiàn)的任何事實(shí)性語義信息都可以表征為由事件、場景、時(shí)間唯一標(biāo)識(shí)符、空間唯一標(biāo)識(shí)符、實(shí)體唯一標(biāo)識(shí)符、關(guān)系謂詞、屬性值等要素組成的RDF數(shù)據(jù)集,從而為基于“檔案記憶粒子”的精準(zhǔn)化檔案事實(shí)查證奠定基礎(chǔ)。
3.3“檔案記憶粒子計(jì)算工程”的向量數(shù)據(jù)庫
作為“檔案記憶粒子”基本形式的RDF語義三元組數(shù)據(jù)是基于符號(hào)比對(duì)原理而構(gòu)建的,與大語言模型所依賴的向量空間詞元生成技術(shù)屬于不同的技術(shù)體系,兩者之間無法直接進(jìn)行數(shù)據(jù)交流。為
檔案與建設(shè)
了充分利用大語言模型在智能檔案服務(wù)領(lǐng)域的優(yōu)勢(shì),有必要將從檔案文獻(xiàn)當(dāng)中抽取而來的“檔案記憶粒子”RDF數(shù)據(jù)集全部映射到同一向量數(shù)據(jù)空間當(dāng)中,使其在邏輯上成為向量空間的若干數(shù)據(jù)點(diǎn)。
與此同時(shí),“向量數(shù)據(jù)庫”的信息檢索采用的是向量余弦相似度計(jì)算和歐氏距離計(jì)算,檢索效率要顯著高于任何基于符號(hào)比對(duì)原理的關(guān)系型數(shù)據(jù)或圖數(shù)據(jù)庫。[7]更為重要的是,基于某些大語言模型提供的智能體開發(fā)工具,可以將RDF格式記錄因子轉(zhuǎn)換為向量數(shù)據(jù)表征形式,從而可以使大語言模型從領(lǐng)域數(shù)據(jù)庫當(dāng)中檢索數(shù)據(jù)或者對(duì)其生成結(jié)果進(jìn)行邏輯驗(yàn)證,從而降低機(jī)器幻覺的產(chǎn)生概率。
3.4“檔案記憶粒子計(jì)算工程”的智能體服務(wù)
“智能體”(Agent)是可以部分地替代人類完成系列工作任務(wù)的計(jì)算機(jī)程序。[8]當(dāng)前,“檔案記憶智能體”的技術(shù)實(shí)現(xiàn)主要依托大語言模型展開,其在人機(jī)自然語言交互能力上的表現(xiàn)已經(jīng)顯著超過其他類型的技術(shù)方案。然而,大語言模型畢竟是一個(gè)無法進(jìn)行精準(zhǔn)解釋和驗(yàn)證的“黑箱模型”,且具有產(chǎn)生“機(jī)器幻覺”的可能性。較為可行的解決方案是在大語言模型之外,增加基于“白箱模型”的檔案記憶粒子RDF數(shù)據(jù)集和統(tǒng)一向量數(shù)據(jù)庫。一方面,大語言模型可以從向量數(shù)據(jù)庫提取行業(yè)數(shù)據(jù),減少生成答案時(shí)的幻覺問題;另一方面,當(dāng)大語言模型生成答案之后,可以交由白箱模型進(jìn)行邏輯驗(yàn)證,如果無法從白箱模型當(dāng)中檢索到相應(yīng)記錄,說明尚無證據(jù)為該事實(shí)提供佐證,則不能向用戶進(jìn)行反饋。上述通過將大語言模型和本地向量數(shù)據(jù)庫相結(jié)合實(shí)現(xiàn)智能體服務(wù)的方式,通常被稱為“檢索增強(qiáng)生成”(RetrievalAugmentedGeneration,RAG)??傊?,隨著“檔案記憶粒子計(jì)算工程”的推進(jìn),人類的檔案服務(wù)將不再局限于內(nèi)容的精準(zhǔn)化,在服務(wù)形式上也將變得更為接近人類個(gè)體提供自然語言服務(wù)的狀態(tài),這將是人類檔案服務(wù)能力從未達(dá)到的新高度。
4政策建議
檔案記憶粒子計(jì)算工程”是一項(xiàng)難以在短期內(nèi)完成的巨型復(fù)雜系統(tǒng)工程。原因在于:一是,檔案文獻(xiàn)數(shù)量規(guī)模的龐大性。相比地方志、史籍等歷史文獻(xiàn),檔案文獻(xiàn)體量龐大,要完成整體性的“檔案記憶粒子”抽取和數(shù)據(jù)表征意味著巨大的工作量,完全依靠人工根本不可能完成。二是,檔案文獻(xiàn)語義結(jié)構(gòu)的復(fù)雜性。無論是統(tǒng)一時(shí)間標(biāo)尺平臺(tái)、統(tǒng)一地名數(shù)據(jù)平臺(tái)、統(tǒng)一謂詞數(shù)據(jù)字典,還是統(tǒng)一場景框架庫、統(tǒng)一敘事腳本庫等基礎(chǔ)設(shè)施建設(shè)都是涉及要素眾多、結(jié)構(gòu)復(fù)雜的檔案語義坐標(biāo)系統(tǒng)的組成部分,需要在“檔案記憶粒子計(jì)算工程”實(shí)踐當(dāng)中由多個(gè)主體共同協(xié)作、逐步積累才能完成。三是,檔案文獻(xiàn)存在封閉期。開放檔案文獻(xiàn)還受到開放審核速度的制約,短期內(nèi)實(shí)現(xiàn)大規(guī)模檔案文獻(xiàn)語義信息分布式共享的阻力較大。然而,任何新興事物的發(fā)展都會(huì)面臨挑戰(zhàn),較為合理的方法是“基礎(chǔ)研究先行”和“戰(zhàn)略規(guī)劃先行”,在“檔案記憶粒子計(jì)算工程”尚未大規(guī)模實(shí)踐時(shí),提前進(jìn)行戰(zhàn)略性布局,隨著時(shí)間的推移逐步發(fā)展壯大并逐一解決發(fā)展中面臨的各類問題。因此,“檔案記憶粒子計(jì)算工程”應(yīng)當(dāng)提前進(jìn)行戰(zhàn)略規(guī)劃,“十五五”時(shí)期可先期啟動(dòng)以下任務(wù):
第一,籌建“檔案記憶粒子計(jì)算工程”國家重點(diǎn)實(shí)驗(yàn)室。目前,“檔案記憶粒子計(jì)算工程”領(lǐng)域的基礎(chǔ)理論尚未成熟,需要建立專門的研究機(jī)構(gòu)對(duì)領(lǐng)域涉及的核心關(guān)鍵問題進(jìn)行深入探索?!皺n案記憶粒子計(jì)算工程”重點(diǎn)實(shí)驗(yàn)室的主要任務(wù)是探索“檔案記憶粒子”的底層邏輯、數(shù)據(jù)結(jié)構(gòu)和基礎(chǔ)運(yùn)行邏輯,進(jìn)行“檔案記憶粒子”抽取與計(jì)算的技術(shù)實(shí)驗(yàn),為相關(guān)領(lǐng)域的基礎(chǔ)研究提供實(shí)驗(yàn)環(huán)境。
第二,啟動(dòng)“檔案記憶粒子計(jì)算工程”協(xié)作聯(lián)盟的籌建工作?!皺n案記憶粒子計(jì)算工程”協(xié)作聯(lián)盟是由國家檔案主管部門、檔案科研機(jī)構(gòu)和全國4000余家各級(jí)各類檔案館本著“共建共用”和“互利共贏”原則組建的跨地區(qū)、跨層級(jí)檔案數(shù)據(jù)資源共享基礎(chǔ)設(shè)施平臺(tái)和多元主體協(xié)作機(jī)制,有助于減少檔案數(shù)據(jù)資源共享的行政阻力,實(shí)現(xiàn)同一語義對(duì)象檔案記憶粒子數(shù)據(jù)的全局一站式檢索
第三,進(jìn)行“檔案記憶坐標(biāo)系統(tǒng)”國家標(biāo)準(zhǔn)的聯(lián)合制定?!皺n案記憶坐標(biāo)系統(tǒng)”是“檔案記憶粒子計(jì)算工程”的邏輯參照體系,是各級(jí)各類檔案館進(jìn)行檔案文獻(xiàn)語義顆粒抽取的基礎(chǔ)性支撐。建議相關(guān)部門組織研究力量,圍繞“檔案記憶坐標(biāo)系統(tǒng)”邏輯和物理設(shè)計(jì)問題進(jìn)行聯(lián)合攻關(guān),最終拿出可以為各級(jí)各類檔案館進(jìn)行“檔案記憶粒子”解構(gòu)和表征提供邏輯參照的系統(tǒng)性技術(shù)方案。
第四,設(shè)立“檔案記憶粒子計(jì)算工程”基礎(chǔ)研究基金?!皺n案記憶坐標(biāo)系統(tǒng)”的構(gòu)建是協(xié)作聯(lián)盟中心服務(wù)站點(diǎn)和全國各級(jí)各類檔案館數(shù)據(jù)站點(diǎn)共同參與、逐步積累的結(jié)果。為了調(diào)動(dòng)各類數(shù)據(jù)站點(diǎn)進(jìn)行概念實(shí)體、命名實(shí)體、關(guān)系謂詞、場景框架、敘事框架數(shù)據(jù)注冊(cè)和維護(hù)的熱情和積極性,建議國家檔案主管部門投人專項(xiàng)基金,按照各個(gè)數(shù)據(jù)站點(diǎn)負(fù)責(zé)注冊(cè)和維護(hù)唯一標(biāo)識(shí)符的數(shù)據(jù)予以資金支持,確?!皺n案記憶坐標(biāo)系統(tǒng)”基礎(chǔ)數(shù)據(jù)集建設(shè)工作的科學(xué)性、嚴(yán)謹(jǐn)性和可持續(xù)性。
第五,開展“檔案記憶粒子計(jì)算工程”的項(xiàng)目試點(diǎn)。選擇檔案信息化基礎(chǔ)較好的城市開展“檔案記憶粒子計(jì)算工程”的技術(shù)試點(diǎn),尤其是面臨海量文獻(xiàn)時(shí)的“檔案記憶粒子”的解構(gòu)與抽取問題?!皺n案記憶粒子計(jì)算工程”的試點(diǎn)項(xiàng)目的數(shù)據(jù)量積累到一定程度時(shí),可以從技術(shù)上驗(yàn)證基于資源描述框架的“檔案記憶粒子”在技術(shù)層面是否可行,針對(duì)試點(diǎn)中出現(xiàn)的問題有針對(duì)性地進(jìn)行處理
第六,培育“檔案記憶粒子計(jì)算工程”的人才隊(duì)伍?!皺n案記憶粒子計(jì)算工程”對(duì)于檔案管理機(jī)構(gòu)的工作人員提出了更高的要求,開設(shè)有檔案學(xué)專業(yè)的各大院校需要針對(duì)“檔案記憶粒子計(jì)算工程積極調(diào)整培養(yǎng)方案和培養(yǎng)方式,培養(yǎng)同時(shí)精通計(jì)算機(jī)、數(shù)據(jù)科學(xué)和檔案學(xué)的復(fù)合型人才。
作者貢獻(xiàn)說明
趙生輝:提出學(xué)術(shù)觀點(diǎn),完成初稿撰寫;錢佳樂:參與觀點(diǎn)論證,校對(duì)文章內(nèi)容;
韓雨:搜集參考資料,校對(duì)文章內(nèi)容。
注釋與參考文獻(xiàn)
[1]習(xí)近平.加強(qiáng)基礎(chǔ)研究,實(shí)現(xiàn)高水平科技自立自強(qiáng)[J].求知,2023(8):4-6.
[2]陳家豪,林心月.細(xì)胞學(xué)說的提出與修正[J].醫(yī)學(xué)與哲學(xué),2025(3):72-76.
[3]道爾頓.化學(xué)哲學(xué)的新體系M」.李家玉,盛根玉,譯.北京:北京大學(xué)出版社, 2006:1-3
[4]李思藝,王振杰,陳子憶.可解釋人工智能在檔案領(lǐng)域的應(yīng)用初探[J].檔案與建設(shè),2025(3):53-62.
[5]趙生輝,胡瑩.“檔案數(shù)據(jù)化”底層邏輯的解析與啟示[J].檔案學(xué)通訊,2021(4):20-27.
[6」譚必勇.大數(shù)據(jù)時(shí)代檔案數(shù)據(jù)治理的范式轉(zhuǎn)型和時(shí)代挑戰(zhàn)[J].檔案與建設(shè),2025(2):36-44.
[7」羅云.從零構(gòu)建向量數(shù)據(jù)庫[M」.北京:人民郵電出版社,2024:2.
[8]葉濤,管鍇,張心雨.零基礎(chǔ)開發(fā)AIAgent[M]北京:電子工業(yè)出版社, 2025:1
(責(zé)任編輯:張帆)