摘要:檔案事業(yè)正處于數(shù)智化轉(zhuǎn)型期,技術(shù)變遷等環(huán)境因素對(duì)檔案開發(fā)工作產(chǎn)生重要影響。論文基于文件連續(xù)體理論模型,構(gòu)建了“AI+檔案開發(fā)”的四維要素分析框架。首先,從互動(dòng)、制度、文件保存形式和證據(jù)四個(gè)方面,系統(tǒng)識(shí)別出“AI+檔案開發(fā)”的開發(fā)行為、開發(fā)主體、開發(fā)形式及開發(fā)意義要素;其次,從四維要素維度展開理論闡釋,深入解讀“AI+檔案開發(fā)”過(guò)程中的互動(dòng)推進(jìn)、身份重構(gòu)、模式創(chuàng)新及價(jià)值轉(zhuǎn)化關(guān)系;最后,選取法國(guó)Socface歷史檔案開發(fā)項(xiàng)目作為典型案例,通過(guò)實(shí)證分析,驗(yàn)證要素框架的實(shí)踐解釋力,為我國(guó)檔案事業(yè)數(shù)字化轉(zhuǎn)型提供理論參照與實(shí)踐范式。
關(guān)鍵詞:人工智能 檔案開發(fā) 文件連續(xù)體 要素框架
Abstract:The archival industry is currently un? dergoing a period of digital transformation, and environmentalfactorssuchastechnological changes have a significant impact on archival de? velopment. Therefore, based on the theory of re? cords continuum, this article constructs a four-di? mensional element analysis framework for AI+ar? chival development. Firstly, the system identifies the development behavior, development subject, developmentform,anddevelopmentsignifi? cance elements of AI+archive development from four aspects: transaction, system, recordkeeping containers, and evidentiality; Subsequently, theo? retical interpretation is carried out from the per? spective of four- dimensional elements, delving into the interactive promotion, identity recon? struction, mode innovation, and value transforma? tion relationships in the process of AI + archival development ; Finally, the Socface Historical Ar? chives Development Project in France was se? lected as a typical case, and the practical explana? tory power of the element framework was veri? fied through empirical analysis, providing theoreti? cal references and practical paradigms for the dig? ital transformation of China’s archival industry.
Keywords:Artificialintelligence;Archivedevel? opment;Recordscontinuum;Elementframework
在人工智能(Artificial Intelligence,AI)驅(qū)動(dòng)檔案工作數(shù)智化轉(zhuǎn)型的背景下,技術(shù)生態(tài)、制度環(huán)境與社會(huì)需求的耦合效應(yīng)使得檔案開發(fā)要素呈現(xiàn)動(dòng)態(tài)重構(gòu)特征,需重新聚焦開發(fā)要素的識(shí)別和優(yōu)化,構(gòu)建適應(yīng)技術(shù)特性的檔案開發(fā)要素框架,以確保技術(shù)賦能過(guò)程中檔案真實(shí)性保障鏈與價(jià)值詮釋邏輯的完整性。因此,本文基于文件連續(xù)體理論模型,落腳于互動(dòng)(Transaction,T)、身份(Identity,I)、文件保存形式(Recordkeeping containers,R)和證據(jù)(Evidenti? ality,E)四方面,提出“AI+檔案開發(fā)”的要素框架(以下簡(jiǎn)稱TIRE要素框架),研究“AI+檔案開發(fā)”的開發(fā)行為、開發(fā)主體、開發(fā)形式和開發(fā)意義要素的組合關(guān)系,并結(jié)合典型案例進(jìn)行實(shí)證分析,探討TIRE要素框架在實(shí)踐中的具體運(yùn)用,以期推動(dòng)“AI+檔案開發(fā)”的導(dǎo)向化、模塊化和協(xié)同化,提升“AI+檔案開發(fā)”的工作質(zhì)效。
數(shù)智時(shí)代,AI技術(shù)廣泛運(yùn)用至社會(huì)各領(lǐng)域,為檔案事業(yè)帶來(lái)新的發(fā)展機(jī)遇。檔案資源從數(shù)字化呈現(xiàn)到數(shù)據(jù)化挖掘,再到智慧化開發(fā),從傳統(tǒng)的重藏輕用、服務(wù)單一向需求至上、知識(shí)賦能轉(zhuǎn)變?!丁笆奈濉比珖?guó)檔案事業(yè)發(fā)展規(guī)劃》明確提出要積極探索知識(shí)管理、人工智能、數(shù)字人文等技術(shù)在檔案信息深層加工和利用中的應(yīng)用。[1]區(qū)別于傳統(tǒng)開發(fā)形式,“AI+檔案開發(fā)”是對(duì)檔案信息進(jìn)行“智慧性開發(fā)”,具備全面性、廣泛性、徹底性、精細(xì)性、自動(dòng)性、智慧性特征。[2]
在實(shí)踐工作方面,各地檔案局、檔案館積極推動(dòng)AI在檔案開發(fā)中的應(yīng)用。例如,北京市檔案局發(fā)起共建“首都智慧檔案聯(lián)合創(chuàng)新實(shí)驗(yàn)室”,致力于廣泛匯聚智庫(kù)外腦等各方力量,推動(dòng)AI在檔案開發(fā)工作中的實(shí)際應(yīng)用;[3]浙江省檔案館與國(guó)家級(jí)AI+檔案聯(lián)合實(shí)驗(yàn)室共同簽訂戰(zhàn)略合作協(xié)議,在AI+檔案智慧化開發(fā)上開展聯(lián)合攻關(guān);[4]福建省檔案館設(shè)計(jì)并訓(xùn)練了深度神經(jīng)網(wǎng)絡(luò)輔助開放審核算法模型,編制了檔案開放審核關(guān)鍵詞表,提升了檔案開放審核工作效率,便捷了檔案資源開發(fā)利用。[5]
在理論研究方面,學(xué)界目前關(guān)于“AI+檔案開發(fā)”的研究主要集中于以下兩方面。一是從開發(fā)的檔案資源特點(diǎn)出發(fā),研究AI在不同類型檔案資源開發(fā)中的運(yùn)用策略。例如,崔偉等[6]在論述音視頻檔案管理中應(yīng)用AI技術(shù)必要性的基礎(chǔ)上,提出了應(yīng)用AI技術(shù)的原則,并基于實(shí)際業(yè)務(wù)分析設(shè)計(jì)了AI技術(shù)在音視頻檔案收、管、存、用全業(yè)務(wù)流程的應(yīng)用場(chǎng)景方案;李穎等[7]基于“跟著檔案觀上?!睌?shù)字人文平臺(tái),提出將GIS與3D建模技術(shù)結(jié)合重建數(shù)字世界、以信息可視化構(gòu)建檔案數(shù)據(jù)隱性聯(lián)系和以生成式人工智能激發(fā)數(shù)字人文活力的歷史檔案開發(fā)策略;瑞查茲(RICH? ARZ)等[8]通過(guò)半監(jiān)督機(jī)器學(xué)習(xí)技術(shù)對(duì)歷史檔案文獻(xiàn)進(jìn)行字符識(shí)別,輔助歷史檔案數(shù)據(jù)的深度開發(fā)。二是從開發(fā)的用戶需求出發(fā),研究AI提升用戶利用檔案資源開發(fā)成效的路徑選擇。例如,周林興等[9]提出國(guó)家文化數(shù)字化戰(zhàn)略下檔案文化智能傳播的應(yīng)對(duì)思路,強(qiáng)調(diào)從空間建設(shè)、內(nèi)容供給、媒介選擇和對(duì)象服務(wù)四個(gè)維度制定傳播策略;周子晴等[10]將感官體驗(yàn)和檔案記憶相關(guān)聯(lián),提出借力AI技術(shù)構(gòu)建多感官體驗(yàn)視域下檔案記憶資源開發(fā)路徑;李諾[11]在分析檔案館應(yīng)用虛擬數(shù)字人技術(shù)賦能用戶服務(wù)必要性的基礎(chǔ)上,探討了可賦能的多重檔案館智慧服務(wù)場(chǎng)景;比特納(BüTTNER)[12]利用AI提升個(gè)性化和細(xì)粒度的檔案信息檢索,以滿足用戶不同場(chǎng)景的應(yīng)用。
綜上,上述研究主要從技術(shù)維度出發(fā),即通過(guò)技術(shù)適配性分析解決“如何做”的問題,旨在建立AI技術(shù)在檔案開發(fā)場(chǎng)景中的方法論體系,呈現(xiàn)策略導(dǎo)向型研究特征。然而,在要素分析層面,現(xiàn)有研究存在明顯局限,較少關(guān)注AI驅(qū)動(dòng)下檔案開發(fā)工作環(huán)境的變化,對(duì)“AI+檔案開發(fā)”工作的要素識(shí)別與優(yōu)化研究不足,缺乏對(duì)技術(shù)主體、數(shù)據(jù)資源、開發(fā)形式等核心要素的協(xié)同關(guān)系研究,難以支撐AI賦能檔案開發(fā)的多維價(jià)值實(shí)現(xiàn)。因此,本文聚焦于AI技術(shù)與檔案資源開發(fā)的融合路徑,基于文件連續(xù)體理論模型提出了TIRE要素框架,嘗試發(fā)現(xiàn)“AI+檔案開發(fā)”過(guò)程中的關(guān)鍵要素,搭建起“AI+檔案開發(fā)”的組件架構(gòu),旨在提升“AI+檔案開發(fā)”的工作質(zhì)效。
文件連續(xù)體模型經(jīng)由弗蘭克·阿普沃德(Frank Upward)于20世紀(jì)90年代完整清晰地論證后正式提出,該理論要求建立一個(gè)自下而上的、可靠的文件保存體系,以完整保存集體記憶,促進(jìn)社會(huì)民主發(fā)展。[13]目前學(xué)界關(guān)于文件連續(xù)體理論模型的解讀較為豐富,連志英[14]在《一種新范式:文件連續(xù)體理論的發(fā)展及應(yīng)用》一文中,將文件連續(xù)體的四軸稱為互動(dòng)軸、身份軸、文件保存軸和證據(jù)軸,四維稱為形成維、捕獲維、組織維、聚合維。其中聚合維及該維度四個(gè)軸上坐標(biāo)——目的、制度、檔案集合、集體記憶,是TIRE要素框架構(gòu)建的關(guān)鍵。
TIRE要素框架的構(gòu)建過(guò)程包括三個(gè)步驟:一是基于文件連續(xù)體理論模型確定構(gòu)建基礎(chǔ);二是通過(guò)確定“AI+檔案開發(fā)”應(yīng)用方向樹立構(gòu)建導(dǎo)向;三是提出具體分析錨點(diǎn)以明確構(gòu)建內(nèi)容,具體構(gòu)建過(guò)程如圖1所示。
(一)要素框架的構(gòu)建基礎(chǔ)
該步驟主要分析文件連續(xù)體理論模型在“AI+檔案”工作中的邏輯適配度,確定TIRE要素框架的構(gòu)建基礎(chǔ)。
首先是研究對(duì)象層面的契合。文件連續(xù)體強(qiáng)調(diào)文件在時(shí)空維度中的多維關(guān)聯(lián)性,這與AI驅(qū)動(dòng)的檔案數(shù)據(jù)治理需求高度契合。AI技術(shù)依賴數(shù)據(jù)的連貫性進(jìn)行模型訓(xùn)練和預(yù)測(cè)分析,文件連續(xù)體理論的全生命周期管理框架,為AI提供了結(jié)構(gòu)化數(shù)據(jù)流動(dòng)的基礎(chǔ)。此外,理論模型的“四維”時(shí)空延伸思維與AI技術(shù)對(duì)檔案數(shù)據(jù)的實(shí)時(shí)采集、動(dòng)態(tài)分類和智能檢索賦能工作相呼應(yīng)。其次是主體協(xié)同的耦合。文件連續(xù)體理論強(qiáng)調(diào)檔案管理中的多元主體協(xié)作,而AI技術(shù)的引入重構(gòu)了協(xié)同工作模式。傳統(tǒng)檔案管理依賴人工主導(dǎo),而AI通過(guò)“初審—復(fù)審”機(jī)制實(shí)現(xiàn)人機(jī)分工,從單一主體到人機(jī)合作。由于AI驅(qū)動(dòng)下檔案工作的復(fù)雜性,強(qiáng)調(diào)不同階段主體的責(zé)任銜接,實(shí)現(xiàn)跨部門協(xié)作。最后是管理流程動(dòng)態(tài)化和智能化的共同目標(biāo)導(dǎo)向。
由此發(fā)現(xiàn),盡管文件連續(xù)體理論模型提出至今已有幾十年,但在AI技術(shù)與檔案工作深度融合的背景下,仍展現(xiàn)出顯著的理論適配性與實(shí)踐指導(dǎo)價(jià)值,能夠?yàn)門IRE要素框架提供理論基礎(chǔ)支撐。
(二)要素框架的構(gòu)建導(dǎo)向
該步驟主要將文件連續(xù)體理論模型第四維度(聚合維)和“AI+檔案開發(fā)”進(jìn)行關(guān)聯(lián),確定TIRE要素框架的適用領(lǐng)域,為TIRE要素框架的構(gòu)建樹立實(shí)踐導(dǎo)向。
一方面,是第四維度的多源異構(gòu)數(shù)據(jù)整合需求與AI技術(shù)優(yōu)勢(shì)的契合。第四維度的核心目標(biāo)是實(shí)現(xiàn)檔案資源在時(shí)空和邏輯上的動(dòng)態(tài)聚合,涉及多來(lái)源、多格式數(shù)據(jù)的整合。傳統(tǒng)檔案管理系統(tǒng)受限于結(jié)構(gòu)化處理能力,難以高效整合非結(jié)構(gòu)化數(shù)據(jù)。AI技術(shù)能夠通過(guò)語(yǔ)義分析、實(shí)體識(shí)別和關(guān)聯(lián)挖掘,突破數(shù)據(jù)孤島,建立跨領(lǐng)域關(guān)聯(lián)。這種技術(shù)特性與第四維度強(qiáng)調(diào)的“全宗集合”和“社會(huì)記憶”目標(biāo)高度契合。另一方面,是第四維度的協(xié)同治理關(guān)聯(lián)需求與AI技術(shù)優(yōu)化需求的匹配。第四維度要求建立跨機(jī)構(gòu)、跨領(lǐng)域的協(xié)同治理機(jī)制,而“AI+檔案開發(fā)”需依賴制度與技術(shù)的深度耦合。這種制度與技術(shù)的耦合性,使得“AI+檔案開發(fā)”必須優(yōu)先解決第四維度中主體權(quán)責(zé)界定、數(shù)據(jù)共享規(guī)則等制度性難題,而非單純關(guān)注單一環(huán)節(jié)的技術(shù)優(yōu)化。
綜上,文件連續(xù)體理論模型的第四維度關(guān)注的是“外部”事務(wù),即各個(gè)組織機(jī)構(gòu)或行動(dòng)者的檔案如何聚合在一起形成社會(huì)記憶。[15]而AI技術(shù)驅(qū)動(dòng)的檔案開發(fā)的本質(zhì)在于通過(guò)技術(shù)賦能實(shí)現(xiàn)檔案數(shù)據(jù)的深度聚合與智能增值,在實(shí)踐邏輯上與第四維度的核心訴求高度契合。
(三)要素框架的構(gòu)建內(nèi)容
該步驟主要抽取文件連續(xù)體理論模型第四維度的四軸作為“AI+檔案開發(fā)”要素識(shí)別框架的核心主軸,構(gòu)建TIRE要素框架的基本結(jié)構(gòu),并進(jìn)一步識(shí)別文件連續(xù)體理論模型第四維度的四軸在“AI+檔案開發(fā)”中分別對(duì)應(yīng)的軸上坐標(biāo),確定TIRE要素框架的關(guān)鍵組件。
TIRE要素框架聚焦于文件連續(xù)體第四維度,以四軸搭建核心框架,即互動(dòng)(T)軸、身份(I)軸、文件保存形式(R)軸、證據(jù)(E)軸;抽取第四維度中對(duì)應(yīng)的目的、制度、檔案集合和集體記憶四個(gè)軸上坐標(biāo)作為關(guān)鍵組件,以此探討“AI+檔案開發(fā)”工作中開發(fā)行為、開發(fā)主體、開發(fā)形式、開發(fā)意義要素的作用關(guān)系,是文件連續(xù)體理論模型第四維度在“AI+檔案開發(fā)”領(lǐng)域的具象化體現(xiàn)。在實(shí)際運(yùn)用中,四軸提供分析層次,四個(gè)軸上坐標(biāo)則提供分析錨點(diǎn),共同促成TIRE要素框架在“AI+檔案開發(fā)”中的應(yīng)用。下面對(duì)構(gòu)建內(nèi)容作進(jìn)一步解釋,從理論層面論證要素框架的合理性。
文件連續(xù)體第四維度“互動(dòng)軸”上的坐標(biāo)是“目的”,強(qiáng)調(diào)檔案開發(fā)工作需圍繞價(jià)值創(chuàng)造目標(biāo)有序推進(jìn)。在“AI+檔案開發(fā)”場(chǎng)景中,“目的”具體表現(xiàn)為檔案工作目標(biāo)與用戶需求的緊密契合,并根據(jù)不同階段的實(shí)際情況進(jìn)行階段目標(biāo)的動(dòng)態(tài)調(diào)整,要求檔案部門能及時(shí)掌握用戶需求,并積極響應(yīng)調(diào)整。在前期準(zhǔn)備階段,需聚焦于深入了解用戶需求。進(jìn)入開發(fā)階段,則圍繞前期針對(duì)用戶需求而預(yù)設(shè)的階段目標(biāo),有針對(duì)性地優(yōu)化檔案資源處理流程。因此,在TIRE要素框架中,“目的”揭示“AI+檔案開發(fā)”的互動(dòng)推進(jìn)關(guān)系,用以分析開發(fā)行為要素。
文件連續(xù)體第四維度“身份軸”上的坐標(biāo)是“制度”,強(qiáng)調(diào)檔案開發(fā)工作需搭建起具備多元身份關(guān)系的協(xié)同網(wǎng)絡(luò)以達(dá)成共識(shí)。在“AI+檔案開發(fā)”場(chǎng)景中,“制度”具體表現(xiàn)為技術(shù)開發(fā)者、檔案管理者、業(yè)務(wù)部門、立法監(jiān)管機(jī)構(gòu)及社會(huì)公眾等主體在共同認(rèn)可的制度之下,通過(guò)AI平臺(tái)實(shí)現(xiàn)跨角色協(xié)作,各方在數(shù)據(jù)共享、模型優(yōu)化和場(chǎng)景應(yīng)用中形成動(dòng)態(tài)互嵌,共同驅(qū)動(dòng)檔案資源從生成、管理到智慧化利用的連續(xù)價(jià)值釋放。因此,在TIRE要素框架中,“制度”揭示“AI+檔案開發(fā)”的身份重構(gòu)關(guān)系,用以分析開發(fā)主體要素。
文件連續(xù)體第四維度“文件保存形式軸”上的坐標(biāo)是“檔案集合”(多個(gè)組織機(jī)構(gòu)的文件組合形式),強(qiáng)調(diào)檔案開發(fā)工作需基于檔案資源特征與實(shí)際開發(fā)需求確定合適的開發(fā)方式。在“AI+檔案開發(fā)”場(chǎng)景中,“檔案集合”具體表現(xiàn)為通過(guò)AI技術(shù)實(shí)現(xiàn)檔案數(shù)據(jù)的動(dòng)態(tài)聚合與智能協(xié)同,形成“人機(jī)共治”的檔案開發(fā)模式。因此,在TIRE要素框架中,“檔案集合”揭示“AI+檔案開發(fā)”的模式創(chuàng)新關(guān)系,用以分析開發(fā)形式要素的影響。
文件連續(xù)體第四維度“證據(jù)軸”上的坐標(biāo)是“集體記憶”(檔案價(jià)值的社會(huì)性延伸),強(qiáng)調(diào)檔案開發(fā)工作需以最大限度實(shí)現(xiàn)檔案價(jià)值及增值,促進(jìn)檔案的利用和再利用。在“AI+檔案開發(fā)”場(chǎng)景中,“集體記憶”具體表現(xiàn)為技術(shù)賦能下的社會(huì)價(jià)值重構(gòu),通過(guò)AI對(duì)海量檔案數(shù)據(jù)的語(yǔ)義分析、知識(shí)關(guān)聯(lián)與記憶聚合,將傳統(tǒng)以機(jī)構(gòu)為中心的檔案記憶升維為可交互、可拓展的社會(huì)化集體記憶網(wǎng)絡(luò),實(shí)現(xiàn)檔案數(shù)據(jù)從“機(jī)構(gòu)憑證”到“社會(huì)遺產(chǎn)”的價(jià)值升華。因此,在TIRE要素框架中,“集體記憶”表示“AI+檔案開發(fā)”的價(jià)值轉(zhuǎn)化關(guān)系,用以分析檔案開發(fā)意義要素。
筆者選取法國(guó)Socface項(xiàng)目[16]進(jìn)行實(shí)證分析,從實(shí)踐層面驗(yàn)證要素框架的可行性。Socface項(xiàng)目由法國(guó)國(guó)立人口研究所和特科利亞(Teklia)公司牽頭,法國(guó)國(guó)家檔案館與巴黎經(jīng)濟(jì)學(xué)院聯(lián)合發(fā)起。該項(xiàng)目旨在利用法國(guó)1836年至1936年共計(jì)20次人口普查形成的檔案數(shù)據(jù),研究法國(guó)經(jīng)濟(jì)、社會(huì)、人口等領(lǐng)域百年間的演變。項(xiàng)目周期從2021年9月到2025年3月,按階段完成相應(yīng)檔案資源的收集、處理、標(biāo)準(zhǔn)化和聚合,最終在法國(guó)國(guó)家檔案館網(wǎng)站提供數(shù)據(jù)的公開訪問利用。該項(xiàng)目的實(shí)施有助于大規(guī)模歷史檔案文獻(xiàn)研究的開展,并為法國(guó)勞動(dòng)力市場(chǎng)變化、移民因果關(guān)系探究等提供寶貴的資料。
(一)行為要素:面向公眾的開放數(shù)據(jù)庫(kù)構(gòu)建
互動(dòng)(T)軸上的坐標(biāo)“目的”用于分析“AI+檔案開發(fā)”的開發(fā)行為要素,重點(diǎn)關(guān)注互動(dòng)推進(jìn)關(guān)系,其在Socface項(xiàng)目中的具象化實(shí)踐表現(xiàn)為面向公眾的開放數(shù)據(jù)庫(kù)的構(gòu)建。
數(shù)智時(shí)代,受技術(shù)環(huán)境變遷和政策激勵(lì)導(dǎo)向的影響,檔案部門要及時(shí)適應(yīng)信息環(huán)境和用戶行為的變化,基于用戶需求提供更多便捷適用的檔案服務(wù)。因此,Socface項(xiàng)目深入挖掘人口普查檔案數(shù)據(jù),以此滿足法國(guó)公眾需求。借助AI技術(shù),Socface項(xiàng)目顯著提高數(shù)據(jù)聚合效率,同時(shí)也提高聚合的準(zhǔn)確性和可靠性。Socface項(xiàng)目通過(guò)建立數(shù)據(jù)集合關(guān)聯(lián),建設(shè)一個(gè)包含百年間居住在法國(guó)的所有個(gè)人信息的開放數(shù)據(jù)庫(kù)。該項(xiàng)目分階段完成最終目標(biāo),提出“三步走”計(jì)劃。第一步是做好數(shù)據(jù)的收集與處理。在多方機(jī)構(gòu)合作下,對(duì)1836—1936年的人口普查檔案掃描圖像及相關(guān)元數(shù)據(jù)進(jìn)行收集。第二步是實(shí)現(xiàn)數(shù)據(jù)的關(guān)聯(lián)。通過(guò)開發(fā)自動(dòng)學(xué)習(xí)模型對(duì)人口普查檔案掃描圖像進(jìn)行特征分析,借助自動(dòng)匹配技術(shù)實(shí)現(xiàn)個(gè)人數(shù)據(jù)的相互關(guān)聯(lián)。第三步是利用數(shù)據(jù)展開深入研究。建設(shè)開放數(shù)據(jù)庫(kù)并在法國(guó)國(guó)家檔案館網(wǎng)站上提供公開訪問權(quán)限,允許利用數(shù)據(jù)展開研究。Socface項(xiàng)目將對(duì)每個(gè)階段工作任務(wù)進(jìn)行質(zhì)量評(píng)估,檢驗(yàn)是否符合階段目標(biāo)需求,評(píng)估團(tuán)隊(duì)由研究人口、經(jīng)濟(jì)、歷史的專家學(xué)者組成,充分發(fā)揮專家智慧,提升項(xiàng)目實(shí)施效果。
(二)主體要素:協(xié)同理念下多方機(jī)構(gòu)的合作
身份(I)軸上的坐標(biāo)“制度”用于分析“AI+檔案開發(fā)”的開發(fā)主體要素,重點(diǎn)關(guān)注身份重構(gòu)關(guān)系,其在Socface項(xiàng)目中的具象化實(shí)踐表現(xiàn)為協(xié)同理念下多方機(jī)構(gòu)的合作。
Socface項(xiàng)目共有四家主要的合作機(jī)構(gòu),分別是法國(guó)國(guó)立人口研究所、Teklia公司、法國(guó)國(guó)家檔案館和巴黎經(jīng)濟(jì)學(xué)院,另外還涉及法國(guó)國(guó)家科研署和法國(guó)各公共檔案服務(wù)機(jī)構(gòu)。其中法國(guó)國(guó)立人口研究所是一家專門從事人口研究的公共研究機(jī)構(gòu),負(fù)責(zé)分析人口普查檔案數(shù)據(jù)中關(guān)于人口結(jié)構(gòu)變遷的部分。Teklia是一家專門從事AI技術(shù)研究的公司,負(fù)責(zé)提供基于機(jī)器學(xué)習(xí)、深度學(xué)習(xí)和自然語(yǔ)言處理的數(shù)據(jù)處理方案,負(fù)責(zé)開發(fā)Socface項(xiàng)目中使用的數(shù)據(jù)分析模型。法國(guó)國(guó)家檔案館則負(fù)責(zé)制定檔案資源開發(fā)工作制度,協(xié)調(diào)與法國(guó)多個(gè)公共檔案服務(wù)機(jī)構(gòu)的合作,收集、保存檔案數(shù)據(jù),推廣、宣傳項(xiàng)目的研究成果。巴黎經(jīng)濟(jì)學(xué)院是法國(guó)經(jīng)濟(jì)學(xué)研究和培訓(xùn)的中心之一,在利用空間數(shù)據(jù)研究城市化和移民方面擁有廣泛的知識(shí),其組建的“經(jīng)濟(jì)和社會(huì)史”專題組致力于研究1836—1936年間的經(jīng)濟(jì)和社會(huì)現(xiàn)象,補(bǔ)充人口普查檔案數(shù)據(jù)反映的深層次的社會(huì)經(jīng)濟(jì)現(xiàn)象。
多方機(jī)構(gòu)有效開展合作的原因歸根結(jié)底在于構(gòu)建了機(jī)構(gòu)共同認(rèn)可的多元合作制度,具體表現(xiàn)如下。一是確立協(xié)同服務(wù)理念。法國(guó)政府堅(jiān)持民主透明傳統(tǒng),尊重公民的信息獲取權(quán),設(shè)立國(guó)家首席數(shù)據(jù)官,倡導(dǎo)各方機(jī)構(gòu)共同推動(dòng)數(shù)據(jù)的開放和利用。二是具備項(xiàng)目基金的支持。Socface項(xiàng)目具備可靠的經(jīng)費(fèi)支持,由法國(guó)國(guó)家科研署資助,并接受其監(jiān)督。當(dāng)各方機(jī)構(gòu)在資金上得到保障時(shí),可以更加專注于項(xiàng)目本身,減少因資源短缺而導(dǎo)致的合作障礙,確保項(xiàng)目的順利進(jìn)行。三是公共數(shù)據(jù)再利用制度的規(guī)定。Socface項(xiàng)目在《公眾與行政部門關(guān)系守則》下開展,該守則將公共信息的重復(fù)使用定義為第三方將公共信息用于制作或接收文件的公共服務(wù)任務(wù)以外的目的。[17]一般而言,Socface項(xiàng)目所使用的檔案資料都在公共信息重復(fù)使用的范圍內(nèi),如果超過(guò)這一限定范圍,就必須遵守地方當(dāng)局在必要時(shí)采用的有償再利用制度,因此,項(xiàng)目組還會(huì)與各數(shù)據(jù)來(lái)源機(jī)構(gòu)簽訂相關(guān)協(xié)議,保證項(xiàng)目的推進(jìn)。
(三)形式要素:漸進(jìn)式人機(jī)協(xié)同數(shù)據(jù)處理模式
文件保存形式(R)軸上的坐標(biāo)“檔案集合”用于分析“AI+檔案開發(fā)”的開發(fā)形式要素,重點(diǎn)關(guān)注模式創(chuàng)新關(guān)系,其在Socface項(xiàng)目中的具象化實(shí)踐表現(xiàn)為漸進(jìn)式人機(jī)協(xié)同數(shù)據(jù)處理模式。
一是在數(shù)據(jù)收集階段,Socface項(xiàng)目致力于實(shí)現(xiàn)檔案資源開發(fā)的高效化。通過(guò)選取人口普查填寫表單的掃描圖像,可以在保證檔案原件不受損耗的同時(shí),大幅減少物理存儲(chǔ)空間和人工翻閱時(shí)間。通過(guò)制定標(biāo)準(zhǔn)化協(xié)議,完成對(duì)人口普查檔案元數(shù)據(jù)的收集,確保檔案數(shù)字化、分類和保存方式的一致性。二是在數(shù)據(jù)清洗階段,Socface項(xiàng)目致力于實(shí)現(xiàn)檔案資源開發(fā)的規(guī)范化。首先,規(guī)定統(tǒng)一以CSV格式導(dǎo)入元數(shù)據(jù),并允許用戶手動(dòng)選擇包含必要元數(shù)據(jù)的列,如年份、檔號(hào)和圖像路徑等,確保準(zhǔn)確識(shí)別和規(guī)范化基本數(shù)據(jù);其次,使用模糊匹配技術(shù)識(shí)別索引中的城市名稱,規(guī)避各地區(qū)所保存的檔案缺乏標(biāo)準(zhǔn)化城市命名的問題;再次,通過(guò)國(guó)際圖像互操作框架(International Image Interoperability Framework, IIIF)檢查圖像完整性,確保圖像在進(jìn)一步處理之前完整且未損壞;最后,將數(shù)據(jù)導(dǎo)出到Arkindex數(shù)據(jù)存儲(chǔ)軟件,并按人口普查年份、市政當(dāng)局和登記冊(cè)以標(biāo)準(zhǔn)化方式組織,從而創(chuàng)建一個(gè)結(jié)構(gòu)化且可訪問的數(shù)據(jù)集。三是在數(shù)據(jù)建模階段,Socface項(xiàng)目致力于實(shí)現(xiàn)檔案資源開發(fā)的智能化。Socface項(xiàng)目選擇開發(fā)自主學(xué)習(xí)模型,通過(guò)卷積神經(jīng)網(wǎng)絡(luò)提取圖像中的特征,之后對(duì)這些特征進(jìn)行平均操作,將平均后的特征向量送入全連接層進(jìn)行分類,最后通過(guò)全連接層對(duì)特征進(jìn)行組合和抽象,實(shí)現(xiàn)圖像數(shù)據(jù)的分類。
關(guān)于模型的預(yù)訓(xùn)練,Socface項(xiàng)目從11個(gè)樣本檔案館的數(shù)據(jù)中隨機(jī)選擇100份單獨(dú)圖像數(shù)據(jù),這些數(shù)據(jù)能夠反映所有研究年份的頁(yè)面、圖像質(zhì)量和表格格式的多樣性。之后將這些頁(yè)面上傳到Callico數(shù)據(jù)轉(zhuǎn)錄與分析平臺(tái),以手動(dòng)轉(zhuǎn)錄表格行中的文本,并且在Callico平臺(tái)中提供兩種不同的編碼模式:用于編碼個(gè)人信息的鍵值模式(Key-value Model)以及用于將個(gè)人分組到家庭中的元素組(Element Group)模式。大多數(shù)編碼內(nèi)容會(huì)由專家進(jìn)行審核校正,以確保其準(zhǔn)確性和可靠性。同時(shí)Socface項(xiàng)目對(duì)算力進(jìn)行拓展,采取邊緣計(jì)算的方式解決當(dāng)前設(shè)備無(wú)法滿足海量數(shù)據(jù)計(jì)算要求的問題。Socface項(xiàng)目預(yù)計(jì)需要處理3000萬(wàn)張圖像,面對(duì)如此大規(guī)模的計(jì)算量,現(xiàn)有計(jì)算資源無(wú)法滿足,必須依賴公共高性能計(jì)算資源。但是,HPC基礎(chǔ)架構(gòu)要求在專門的本地存儲(chǔ)上預(yù)先暫存數(shù)據(jù),并通過(guò)專用調(diào)度系統(tǒng)編排提交,實(shí)際上法國(guó)國(guó)家檔案館現(xiàn)有設(shè)備無(wú)法實(shí)現(xiàn)3000萬(wàn)張圖像的本地預(yù)存。因此,Socface項(xiàng)目選擇升級(jí)Arkindex數(shù)據(jù)存儲(chǔ)軟件,以促進(jìn)通過(guò)工作負(fù)載管理器(Workload Manager)與公共高性能計(jì)算資源的連接,此擴(kuò)展能夠利用公共計(jì)算環(huán)境固有的巨大處理能力來(lái)應(yīng)對(duì)海量數(shù)據(jù)處理的需求。
(四)意義要素:重塑社會(huì)變遷中的集體記憶
證據(jù)(I)軸上的坐標(biāo)“集體記憶”用以分析“AI+檔案開發(fā)”的開發(fā)意義要素,重點(diǎn)關(guān)注價(jià)值轉(zhuǎn)化關(guān)系,其在Socface項(xiàng)目中的具象化實(shí)踐表現(xiàn)為重塑社會(huì)變遷中的集體記憶。
人口普查檔案記錄著一個(gè)地區(qū)人口和住戶的基本情況,能夠反映該區(qū)域人口結(jié)構(gòu)的變化趨勢(shì)和該區(qū)域社會(huì)經(jīng)濟(jì)結(jié)構(gòu)的變遷,對(duì)研究區(qū)域內(nèi)社會(huì)問題的變化和趨勢(shì)具有重要影響。Socface項(xiàng)目深度挖掘1836—1936年間形成的人口普查檔案數(shù)據(jù),可以重塑社會(huì)變遷下的集體記憶,以此增強(qiáng)社會(huì)公眾的身份認(rèn)同。一是對(duì)家族集體記憶的重塑。人口普查檔案詳細(xì)記錄家族成員的基本信息,這些信息有助于家族成員更好地理解自己家族的歷史和文化傳承,增強(qiáng)家族凝聚力和認(rèn)同感。用戶可以通過(guò)開放數(shù)據(jù)庫(kù)中的數(shù)據(jù)確認(rèn)自己的家族譜系、祖籍和血緣關(guān)系,從而增強(qiáng)身份認(rèn)同感和歸屬感。二是對(duì)社會(huì)集體記憶的重塑。檔案具備社會(huì)記憶控制功能,對(duì)檔案的操控、重組與利用實(shí)則是對(duì)社會(huì)記憶的操控。[18]社會(huì)人口以及經(jīng)濟(jì)結(jié)構(gòu)變遷會(huì)影響社會(huì)集體記憶的選擇和強(qiáng)化,在其發(fā)生巨大變遷的情況下,人們會(huì)更多地關(guān)注和記憶與這種變遷相關(guān)的歷史事件和文化符號(hào)。利用檔案呈現(xiàn)百年間的社會(huì)變遷,不僅能重塑該時(shí)期的社會(huì)記憶,也能影響用戶對(duì)集體記憶的理解。用戶會(huì)根據(jù)自己對(duì)這種變遷的理解和認(rèn)識(shí),來(lái)解讀和評(píng)價(jià)相關(guān)的歷史事件和文化符號(hào),從而產(chǎn)生新的集體記憶。
“AI+檔案開發(fā)”研究需要兼顧線性的行進(jìn)路徑和立體的要素框架,通過(guò)析出開發(fā)過(guò)程中的關(guān)鍵要素能夠助推AI技術(shù)與檔案資源開發(fā)的深度融合,提升開發(fā)工作的質(zhì)效,滿足用戶利用檔案開發(fā)成果的需求。文件連續(xù)體理論模型完整呈現(xiàn)了文件連續(xù)性運(yùn)動(dòng)過(guò)程中各要素的互動(dòng)關(guān)系,為構(gòu)建“AI+檔案開發(fā)”的要素框架提供了借鑒。由此提出的TIRE要素框架識(shí)別出“AI+檔案開發(fā)”的行為、主體、形式和意義要素,為“AI+檔案開發(fā)”實(shí)踐工作提供指導(dǎo)。利用TIRE要素框架對(duì)法國(guó)Socface項(xiàng)目進(jìn)行解析,明確該項(xiàng)目為實(shí)現(xiàn)檔案資源開發(fā)的價(jià)值最大化,確定了構(gòu)建面向公眾的開放數(shù)據(jù)庫(kù)統(tǒng)一目標(biāo),憑借多元主體協(xié)同、人機(jī)協(xié)同的檔案數(shù)據(jù)開發(fā)模式,重塑法國(guó)百年變遷中的集體記憶。通過(guò)對(duì)“AI+檔案開發(fā)”的TIRE要素框架的探討,旨在為用戶提供更優(yōu)質(zhì)、更全面的檔案資源開發(fā)成果,為數(shù)智社會(huì)建設(shè)貢獻(xiàn)檔案力量。
*本文系國(guó)家社科基金一般項(xiàng)目“檔案服務(wù)智慧化轉(zhuǎn)型的實(shí)現(xiàn)機(jī)制與推進(jìn)策略研究”(項(xiàng)目編號(hào):24BTQ024)的階段性研究成果。
注釋及參考文獻(xiàn):
[1]中華人民共和國(guó)國(guó)家檔案局.中辦國(guó)辦印發(fā)《“十四五”全國(guó)檔案事業(yè)發(fā)展規(guī)劃》[EB/OL].(2021-06- 09)[2025- 03- 02].https://www.saac.gov.cn/daj/toutiao/ 202106/ecca2de5bce44a0eb55c890762868683.shtml.
[2]楊冬權(quán).始終牢記初心,以檔案力量服務(wù)中國(guó)式現(xiàn)代化[J].檔案學(xué)研究,2023(1):4-11.
[3]北京市檔案局.加強(qiáng)行業(yè)融合匯聚各方智慧打造首都檔案創(chuàng)新發(fā)展新生態(tài):首都智慧檔案聯(lián)合創(chuàng)新實(shí)驗(yàn)室成立[EB/OL].(2024-12-23)[2025-03-02].https://www.bjma. gov.cn/bjma/300478/301765/301144/369232/index.html.
[4]浙江省檔案館.國(guó)家級(jí)成果應(yīng)用示范基地在省檔案館揭牌[EB/OL].(2019-06-17)[2025-03-02]https://www. zjda.gov.cn/art/2019/6/17/art_1388589_34682954_6.html.
[5]中華人民共和國(guó)國(guó)家檔案局.福建“數(shù)智檔案”亮相第六屆數(shù)字中國(guó)建設(shè)峰會(huì)[EB/OL].(2023-05-11)[2024- 11- 02] https : // www.saac.gov.cn/daj/xwdt/202305/ 4825ecdcf1474b898479ae1a52c3cdf7.shtml.
[6]崔偉,熊延萍,項(xiàng)偉,等.人工智能技術(shù)在音視頻檔案管理中的應(yīng)用原則及應(yīng)用場(chǎng)景分析[J].北京檔案,2023(12):30-32.
[7]李穎,沈保棟.數(shù)字人文視域下的歷史檔案開發(fā)路徑:以“跟著檔案觀上?!睘槔齕J].檔案與建設(shè),2024(3):56-62.
[8]RICHARZ J,VAJDA S,GRZESZICK R,et al.Semisupervised learning for character recognition in historical ar? chive documents[J].Pattern Recognition,2014(3):1011-1020.
[9]周林興,朱富成.國(guó)家文化數(shù)字化戰(zhàn)略下檔案文化智能傳播探析[J].北京檔案,2025(1):23-30.
[10]周子晴,丁華東.多感官體驗(yàn)與檔案記憶資源開發(fā)[J].檔案管理,2021(6):34-39.
[11]李諾.虛擬數(shù)字人賦能檔案館用戶服務(wù)的場(chǎng)景與進(jìn)路[J].北京檔案,2024(8):22-27.
[12]BüTTNER G.Auto- classification in an in? ternational organization:report from a feasibility study[J].Comma,2017(2):15-26.
[13]陸陽(yáng),蘇立.論文件連續(xù)體理論結(jié)構(gòu)與功能間的張力及其彌合(一)[J].中國(guó)檔案,2023(5):64-65.
[14] [15]連志英.一種新范式:文件連續(xù)體理論的發(fā)展及應(yīng)用[J].檔案學(xué)研究,2018(1):14-21.
[16]法國(guó)國(guó)立人口研究所. Socface項(xiàng)目網(wǎng)站[EB/ OL].[2025-03-11] https://Socface.site.ined.fr/en/.
[17]Code des relations entre le public et l’administration. Commission supérieure chargée d’étudier la codification et la simplification des textes législatifs et réglementaires[EB/OL].(2016-01-01)[2025-03-02]. https://www.cada.fr/.
[18]丁華東.論檔案與社會(huì)記憶控制[J].檔案學(xué)通訊,2011(3):4-7.
作者單位:上海大學(xué)文化遺產(chǎn)與信息管理學(xué)院