摘 要:生成式人工智能的問世與發(fā)展正為知識服務(wù)、生產(chǎn)方式與社會經(jīng)濟帶來深刻變革。梳理生成式人工智能的研究與實踐現(xiàn)狀,發(fā)現(xiàn)生成式人工智能具有高效生產(chǎn)、需求錨定與沉浸體驗的技術(shù)特征。文章圍繞基礎(chǔ)設(shè)施層、數(shù)據(jù)資源層、內(nèi)容創(chuàng)作層與場景衍生層構(gòu)建起生成式人工智能賦能檔案館服務(wù)質(zhì)量優(yōu)化的總體框架,并結(jié)合現(xiàn)有實踐案例與經(jīng)驗,從引進技術(shù)設(shè)施、開展數(shù)據(jù)喂養(yǎng)、深化用戶交互等方面探索實踐路徑,為新技術(shù)環(huán)境下檔案館服務(wù)的建設(shè)提供借鑒。
關(guān)鍵詞:生成式人工智能;檔案館;檔案內(nèi)容生產(chǎn);檔案服務(wù)
分類號:G270.7
The Optimization Path for Generative Artificial Intelligence Serving the Improvement of Archival Service Quality
Zhang Xiaowei, Wu Jianhua
( School of Information Management, Nanjing University, Nanjing, Jiangsu 210023 )
Abstract: The advent and development of generative artificial intelligence is bringing profound changes to knowledge services, production methods and social economy.This paper sorts out the researches and practice status of generative artificial intelligence, and finds its technical characteristics in efficient production, demand anchoring and immersive experience. Based on the infrastructure layer, data resource layer, content creation layer and scenario derivation layer, the overall framework of service quality optimization of archives enabled by generative artificial intelligence is developed, and combined with existing practical cases and experience, the practical path is explored from the aspects of introducing technical facilities, developing data feeding and deepening user interaction, so as to provide reference for the development of archival services in the new technology environment.
Keywords: Generative Artificial Intelligence; Archives; Archival Content Production; Archival Services
2025年2月1日,由國內(nèi)人工智能公司研發(fā)的大型語言模型DeepSeek日活躍用戶數(shù)突破3000萬大關(guān),成為史上最快達成這一里程碑的應(yīng)用。國內(nèi)包括通信、教育、創(chuàng)作、醫(yī)療、影視、智能駕駛等在內(nèi)的多個業(yè)態(tài)開始接入DeepSeek云服務(wù)并完成了模型適配,實現(xiàn)了多場景、多產(chǎn)品中的廣泛應(yīng)用,助力國產(chǎn)大模型性能釋放。生成式人工智能作為一種內(nèi)容生產(chǎn)方式,在推廣與應(yīng)用過程中逐步展現(xiàn)出其在驅(qū)動數(shù)字內(nèi)容與文化創(chuàng)作、產(chǎn)業(yè)革新、生產(chǎn)力升級等方面的重要作用。目前國內(nèi)圖情領(lǐng)域關(guān)于生成式人工智能的研究主要圍繞三個方面:一是生成式人工智能技術(shù)給圖書館建設(shè)與服務(wù)帶來的改變與應(yīng)用策略,包括閱讀推廣[1]與智慧圖書館建設(shè)[2]等;二是生成式人工智能對用戶信息行為及其生態(tài)治理研究,包括基于用戶行為的知識服務(wù)開發(fā)[3]、虛假信息[4]與技術(shù)倫理生態(tài)治理[5]等;三是利用生成式人工智能技術(shù)開發(fā)知識與數(shù)據(jù)處理工具或技術(shù),如面向古籍內(nèi)容組織與再創(chuàng)作的SikuGPT開發(fā)[6]。檔案學界對生成式人工智能輔助檔案編研[7]等展開了探討,同時預(yù)測了應(yīng)用進程中可能存在的潛在瓶頸[8],如不實信息與高并發(fā)性的侵權(quán)行為等。
2024年頒布實施的《中華人民共和國檔案法實施條例》新增“檔案信息化建設(shè)”專章,要求機關(guān)、團體、企事業(yè)單位和其他組織加強檔案信息化建設(shè),積極開展文字、語音、圖像識別工作,加強檔案資源的深度挖掘和開發(fā)利用,為推進生成式人工智能在檔案館服務(wù)中的應(yīng)用提供了政策依據(jù)。生成式人工智能賦能檔案館服務(wù)優(yōu)化,本質(zhì)上是將生成式人工智能體系中的強大算力、語義學習與數(shù)實融合等革新性技術(shù)要件及理念,融入檔案館的信息與文化服務(wù)場景中,通過對現(xiàn)有檔案館服務(wù)理念、設(shè)施、場景等要素的升級、優(yōu)化與迭代,優(yōu)化新數(shù)字環(huán)境下的檔案館服務(wù)質(zhì)量。
1 生成式人工智能的發(fā)展與特征
1.1 生成式人工智能的發(fā)展
生成式人工智能又稱“生成式AI”,主要通過人工智能算法對數(shù)據(jù)和媒體進行生產(chǎn)、操控和修改。2022年底,人工智能實驗室OpenAI開發(fā)的ChatGPT風靡全球,可以執(zhí)行文本翻譯、摘要生成、情感分析等任務(wù);2023年2月,微軟宣布在Bing搜索引擎中引入ChatGPT,日活量首次突破1億。國內(nèi)互聯(lián)網(wǎng)企業(yè)亦對生成式人工智能展開了積極探索,如百度開發(fā)的手機APP“文心一言”“創(chuàng)作者AI助理”和“百度APP數(shù)字人”,阿里開發(fā)的APP“通義千問”和通用性人工智能大模型 M6 項目。2024年1月5日,杭州深度求索人工智能基礎(chǔ)技術(shù)研究有限公司正式發(fā)布大型語言模型DeepSeek LLM(深度求索的第一個大模型)。12月26日,正式上線DeepSeek-V3 首個版本并同步開源。在目前大模型主流榜單中,DeepSeek-V3 在開源模型中位列榜首。在生成式人工智能廣泛應(yīng)用于企業(yè)發(fā)展與場景創(chuàng)新的實踐過程中,相關(guān)的政策性指導與規(guī)范也開始落地。2023年2月,北京市經(jīng)濟和信息化局發(fā)布《2022年北京人工智能產(chǎn)業(yè)發(fā)展白皮書》,支持頭部企業(yè)打造對標ChatGPT的大模型[9];上海市經(jīng)信委表示積極發(fā)展生成式人工智能將是上海人工智能發(fā)展的重要著力點。
1.2 生成式人工智能的技術(shù)特征
(1)強大算力加持下的高效生產(chǎn)
心理學家班杜拉在社會認知學層面提出,人類主體傾向于將任務(wù)委托給復(fù)雜技術(shù)以發(fā)揮技術(shù)能動性,這一特征被稱為代理能動性。[10]生成式人工智能的出現(xiàn)極大提升了當前機器的代理能動性。數(shù)智化時代,信息與數(shù)據(jù)體量龐大、種類繁多且碎片化突出,人類難以對其進行第一時間的高效吸收,而生成式人工智能作為一種內(nèi)容分類模式,可先對信息做初步處理再交付于人類,提升信息使用效率,從而簡化業(yè)務(wù)流程,優(yōu)化人機分工,有效提升數(shù)字與文化內(nèi)容生產(chǎn)效率。
(2)語義學習助力下的需求錨定
生成式人工智能出現(xiàn)之前,AI只承擔類似“郵件分揀員”的角色,并不過多涉及內(nèi)容創(chuàng)作部分。生成式人工智能的出現(xiàn),使AI能在人類設(shè)置的預(yù)訓練過程中通過大量的參數(shù)獲取學習、理解、記憶、總結(jié)、預(yù)測等基礎(chǔ)性能力,輔之以在自然語言處理、計算機視覺、多模態(tài)等領(lǐng)域均出現(xiàn)的相應(yīng)預(yù)訓練模型(GPT、Florenc、Gato等),從而可利用上下文機制將海量文本、圖像、代碼、語音生成等形態(tài)的數(shù)據(jù)串聯(lián)起來,并不斷深化了解人類在進行文化內(nèi)容創(chuàng)作時的行為規(guī)律。
(3)數(shù)實融合驅(qū)動下的沉浸體驗
生成式人工智能賦能下的數(shù)字文化內(nèi)容生產(chǎn)已經(jīng)逐漸趨向虛實結(jié)合的形式,在聽覺、視覺、觸覺與感覺等方面為用戶帶來更好的沉浸式、臨場感、仿生級的感官體驗。目前生成式人工智能已經(jīng)可以根據(jù)用戶給定的表征來生產(chǎn)接近真實的AI圖像、藝術(shù)品、視頻、微電影等,通過深度學習大量情感標注數(shù)據(jù),對用戶注入或調(diào)整的文本、音頻、圖像等內(nèi)容進行情感分析,做到脫離真實的虛擬感官體驗。
2 生成式人工智能與檔案館服務(wù)質(zhì)量的邏輯鏈接
2.1 機器賦力:優(yōu)化檔案館館藏資源的組織效能
生成式人工智能的技術(shù)特點能夠顯著提升檔案館館藏數(shù)字化資源的組織效率與質(zhì)量,從而為檔案館服務(wù)提供堅實的資源基礎(chǔ)。一方面,生成式人工智能的大模型與語義分析能力有助于強化檔案館對館藏資源的全局把控與調(diào)適能力。現(xiàn)有的檔案資源編研工具單一、效率低下,難以滿足日益增長的編研與敘事需求。生成式人工智能基于流的生成模型(Flow-based Model)、擴散模型(Diffusion Model)等在檔案館內(nèi)部進行模型訓練,當被“喂養(yǎng)”一定數(shù)量的館藏檔案資源信息后,便能夠借助其語義學習與輸出能力、思維鏈推理能力高效梳理館藏檔案資源的主題脈絡(luò)與歷史邏輯。同時,能增強對進館數(shù)字資源的實時處理與調(diào)度能力,及時、快速、準確地進行主題劃類和邏輯歸納,分擔檔案工作人員的重復(fù)性勞作。另一方面,生成式人工智能有助于實現(xiàn)檔案資源集聚。傳統(tǒng)檔案館依據(jù)館藏紙質(zhì)檔案及電子文件所提供的單一模態(tài)(以檔案文本為主)的、分散式的檔案資源內(nèi)容,已無法充分滿足用戶日益增長的多元化利用需求。[11]此外,傳統(tǒng)檔案開發(fā)利用以檔案館工作人員為主體,往往需要投入大量人類智力以獲得高質(zhì)量的知識成果。生成式人工智能的上下文機制具有良好的擴展性與靈活性,能夠?qū)⑼恢黝}但不同形態(tài)的分散在不同機構(gòu)、部門、數(shù)據(jù)庫的檔案資源進行整合,形成包含文本、圖片、音頻、視頻在內(nèi)的全媒體式集聚,有效規(guī)避人力操作存在的認知范圍局限等問題,以便檔案工作人員開展專題研究、宣傳展覽、資源開發(fā)等后續(xù)活動。
2.2 體驗賦智:打造檔案館虛實融合的服務(wù)場域
在數(shù)字文化生產(chǎn)時代,檔案館用戶對文化服務(wù)的沉浸式、臨場感需求更高。生成式人工智能賦能的虛實融合內(nèi)容創(chuàng)作模式、仿真現(xiàn)實式的產(chǎn)品服務(wù)開發(fā)與檔案用戶的需求“一拍即合”。一方面,生成式人工智能助力檔案館服務(wù)設(shè)施升級。生成式人工智能的出現(xiàn)能夠進一步降低元宇宙空間等的基建成本[12],通過推動館藏檔案資源以可視化、多模態(tài)與多感官體驗的形式展現(xiàn),或在用戶體驗檔案資源時自動播放相應(yīng)音頻解說、加入無障礙AI機器人等形式,進一步優(yōu)化檔案館用戶的沉浸感。另一方面,生成式人工智能能夠賦予“檔案館”這一物理客體以“生命力”。數(shù)字檔案館員 AI 咨詢、數(shù)字檔案解說員、閱讀推廣服務(wù)等都可以作為生成式人工智能的功能模塊融入檔案館服務(wù),將檔案館與檔案用戶均轉(zhuǎn)化為“虛擬數(shù)字人”或數(shù)字孿生形象,有助于進一步延續(xù)兩者在物理空間的利用聯(lián)系,并進一步在虛擬空間中強化情感紐帶。
2.3 用戶賦權(quán):煥新檔案館服務(wù)建設(shè)的社會參與
“公民是公共產(chǎn)品和公共服務(wù)的最終使用者,他們對質(zhì)量的評價是公共服務(wù)結(jié)果的指向標,也是公共服務(wù)質(zhì)量改進的重要依據(jù)”[13]。檔案館作為公共文化服務(wù)陣地一環(huán),始終堅持“以人為本”是其發(fā)揮文化服務(wù)與宣傳教育功能的使命要求。一方面,生成式人工智能的應(yīng)用有助于賦予檔案館用戶更自主的能動權(quán)利。這種權(quán)利表現(xiàn)在檔案資源建設(shè)共享、檔案服務(wù)與產(chǎn)品價值共創(chuàng)、檔案文化共建等過程中,越來越多的大眾將得益于生成式人工智能技術(shù),成為檔案館與檔案文化生產(chǎn)中的行動者,全民創(chuàng)新力的釋放將為檔案文化內(nèi)容生產(chǎn)提供源源不斷的創(chuàng)意來源。如快手的“快影APP”具備“AI動漫視頻”“AI素材庫”“AI文案推薦”“AI瞬息宇宙”等4個生成式人工智能功能,將帶動更加廣泛的用戶成為技術(shù)賦能下的創(chuàng)意者。[14]另一方面,生成式人工智能的應(yīng)用有助于豐富檔案館服務(wù)建設(shè)的主體參與格局。檔案館在推進生成式人工智能應(yīng)用過程中,需要與相關(guān)的數(shù)字文化與技術(shù)企業(yè)進行合作以節(jié)省開發(fā)成本,獲取技術(shù)優(yōu)勢,并利用高等院校、科研院所在生成式人工智能領(lǐng)域的研究進展提升專業(yè)水平,以及與圖書館、博物館等文化機構(gòu)進行應(yīng)用經(jīng)驗的交流、應(yīng)用項目的合作等。在與不同文化服務(wù)主體進行合作與交流的過程中,檔案館服務(wù)建設(shè)的主體參與更加廣闊,從而提升檔案館服務(wù)的技術(shù)性、專業(yè)性水平。
3 生成式人工智能賦能檔案館服務(wù)質(zhì)量的優(yōu)化框架
通過分析生成式人工智能的技術(shù)特征,發(fā)現(xiàn)其在數(shù)據(jù)資源建設(shè)與分析、用戶服務(wù)場景與感知力等方面極具技術(shù)優(yōu)勢。本研究認為,生成式人工智能可以從基礎(chǔ)設(shè)施層、數(shù)據(jù)資源層、內(nèi)容創(chuàng)作層與場景衍生層有效賦能檔案館服務(wù)質(zhì)量的優(yōu)化(如圖1所示)。
3.1 基礎(chǔ)設(shè)施層:對檔案館軟硬件的更新與使用
基礎(chǔ)設(shè)施層是生成式人工智能賦能檔案館服務(wù)的根基所在。為滿足生成式人工智能運轉(zhuǎn)的基礎(chǔ)算力要求,需要對檔案館現(xiàn)有的基礎(chǔ)設(shè)施儲備進行適當?shù)母禄蛞M。檔案館可通過購入先進芯片、高性能服務(wù)器、傳感器等設(shè)施等,或借助API接口與超算中心、大數(shù)據(jù)中心等合作的方式,提高生成式人工智能數(shù)據(jù)分析與學習模塊在檔案館現(xiàn)有底層服務(wù)架構(gòu)中的兼容性,為檔案館藏數(shù)字資源、服務(wù)組織等后續(xù)工作提供穩(wěn)定可靠的算力兜底。在更新與引進基礎(chǔ)設(shè)施的同時,檔案館也可積極根據(jù)生成式人工智能技術(shù)體系的應(yīng)用狀態(tài),通過基礎(chǔ)性業(yè)務(wù)試點統(tǒng)計檔案館員的使用情況,發(fā)現(xiàn)使用過程中的潛在問題,評測具體技術(shù)在業(yè)務(wù)環(huán)境中的相對優(yōu)勢與不足,逐步優(yōu)化技術(shù)應(yīng)用與驅(qū)動方案。
3.2 數(shù)據(jù)資源層:對檔案館藏資源的學習與分析
數(shù)據(jù)資源層是提升檔案館資源處理、調(diào)度、分析、把控能力的關(guān)鍵,其聚焦的是檔案館驅(qū)使機器開展服務(wù)的“自主學習”能力。檔案資源本身的形態(tài)異構(gòu)性,加之檔案數(shù)據(jù)資源開發(fā)的專業(yè)化、垂直化、精細化、個性化等趨向,對檔案館的資源處理與分析能力提出了更高的要求。如浙江省委辦公廳、省政府辦公廳于2023年12月印發(fā)的《關(guān)于推進新時代檔案事業(yè)現(xiàn)代化先行的意見》就明確“支持利用智能化技術(shù)構(gòu)建檔案行業(yè)知識服務(wù)與知識管理平臺,建立人工智能海量訓練資源庫、標準測試數(shù)據(jù)集”[15]。生成式人工智能的賦能,主要從算法模型的建構(gòu)與學習能力的提升來推動檔案館在檔案資源關(guān)聯(lián)、內(nèi)容生成等方面的智慧化升級。在算法模型方面,生成式人工智能驅(qū)動的檔案館服務(wù)不僅囊括傳統(tǒng)的回歸模型、支持向量機、決策樹及神經(jīng)網(wǎng)絡(luò)等模型,同時也包括Transformer、GPT、CLIP、DALL-E2、Diffusion 等通用的生成式人工智能預(yù)訓練大模型,從自然語言生成、多模態(tài)分析、計算機可視化等多個方面強化檔案館的基礎(chǔ)算力。僅有算法模型是不夠的,還需要通過“喂養(yǎng)”相關(guān)數(shù)據(jù)來持續(xù)調(diào)適、優(yōu)化算法模型的科學性。通過向生成式人工智能喂養(yǎng)館藏數(shù)字化資源或業(yè)務(wù)數(shù)據(jù)資源等,不斷提升其在自動分類編目、檔案主題標識、文獻分析、采購優(yōu)化、價值判定等方面的能力,打造并完善符合檔案館服務(wù)特征與專業(yè)要求的專有算法或AI模型。
3.3 內(nèi)容創(chuàng)作層:對檔案館創(chuàng)新力的盤活與聚勢
在內(nèi)容創(chuàng)作層面,生成式人工智能助推技術(shù)設(shè)施與檔案館員、檔案館用戶、有形的檔案館藏等服務(wù)資源互通融合,形成“人—技術(shù)—資源”的檔案館服務(wù)內(nèi)容生產(chǎn)共同體,激活與發(fā)揮各主體角色的能動創(chuàng)造性。首先,借助生成式人工智能延伸檔案館員的綜合素質(zhì)。在生成式人工智能代替館員進行重復(fù)性、難度低的基礎(chǔ)性工作的同時,檔案館員能夠利用“優(yōu)化”后的時間與精力儲備,把控檔案館服務(wù)的狀態(tài)信息,結(jié)合自身的工作經(jīng)驗,發(fā)揮主觀能動性,參與館藏資源再創(chuàng)作、流程環(huán)節(jié)優(yōu)化、檔案資源選題等高附加值的腦力勞動。其次,借助生成式人工智能提升檔案館藏資源的開發(fā)質(zhì)量。經(jīng)過數(shù)據(jù)“喂養(yǎng)”與模型訓練后,生成式人工智能能夠全面有條理地描摹館藏資源體系的脈絡(luò),其強大算力也能更好實現(xiàn)對館藏資源本體的語義分析、詞頻統(tǒng)計、主題分析、價值權(quán)重等功能訴求,從而滿足多重要求的復(fù)雜檢索、非線性的知識網(wǎng)絡(luò)、古籍孤本的虛擬修復(fù)、細粒度知識輸出等高附加值功能。最后,借助生成式人工智能優(yōu)化檔案館服務(wù)與用戶的交互過程。當前檔案資源的開發(fā)者與檔案用戶的行為、意愿、認知、取向還存在不匹配之處。[16]借助生成式人工智能收集與輸出用戶的文化喜好、服務(wù)反饋、虛擬畫像等,優(yōu)化服務(wù)過程中用戶的視聽體驗,能夠有效把控用戶的情緒變化、情感需求、潛在要求與行為路徑,根據(jù)用戶訴求,賦權(quán)其進行檔案文化內(nèi)容的再創(chuàng)作,集思廣益,實現(xiàn)檔案館服務(wù)文化內(nèi)容的共建。
3.4 場景衍生層:對檔案館新場景的延拓與豐富
場景衍生層是生成式人工智能賦能下對檔案館服務(wù)模式、理念的深層創(chuàng)新,助力把握技術(shù)、文化熱點與轉(zhuǎn)型趨向,推動檔案館形成具有預(yù)見性、前沿性、多樣性的新型服務(wù)模態(tài)。檔案館服務(wù)的原生場景,如文化體驗、主題展覽等,將借助生成式人工智能賦予新的建設(shè)理念、價值邏輯、時空場景,進一步夯實“人”的創(chuàng)意主體地位,完成由單模態(tài)向多模態(tài)的創(chuàng)新式轉(zhuǎn)換。例如,檔案資源內(nèi)容生產(chǎn)由原來的圖像、文本式單一模態(tài)的輸出,轉(zhuǎn)換為綜合視覺語言生成、文本語音生成、文本圖形生成和文本代碼生成等的多模態(tài)輸出;檔案內(nèi)容創(chuàng)作由原來的檔案館員賦予智力勞動的單一創(chuàng)作模態(tài),轉(zhuǎn)換為館員與用戶共同表達創(chuàng)意、虛擬社區(qū)內(nèi)容高度共享的多模態(tài)創(chuàng)作??傃灾噍^于原有檔案館服務(wù)體系,場景衍生層能夠更好地實現(xiàn)基礎(chǔ)設(shè)施層、數(shù)據(jù)資源層與人機交互層面建設(shè)成果的有機融合,由原有各有側(cè)重的單模態(tài)服務(wù)轉(zhuǎn)換為兼收并蓄、協(xié)同賦力的多模態(tài)服務(wù)。
4 生成式人工智能賦能檔案館服務(wù)質(zhì)量優(yōu)化的路徑
4.1 引進技術(shù)設(shè)施,逐步提升檔案館基礎(chǔ)算力
一方面,引進生成式人工智能主要技術(shù)手段與基礎(chǔ)設(shè)施。檔案館需要推進相應(yīng)生成式人工智能技術(shù)的適用性評估工作,對館內(nèi)現(xiàn)有的技術(shù)設(shè)備與軟件系統(tǒng)進行更新與換代。鑒于前期設(shè)備投入成本與技術(shù)要求過高,檔案館可以考慮借助國家數(shù)據(jù)專網(wǎng)或調(diào)用API接口等形式實現(xiàn)自身算力設(shè)施的換代與增強。國家數(shù)據(jù)專網(wǎng)以建立起貫通跨地域、行業(yè)、機構(gòu)、部門的國家級數(shù)據(jù)資源共享與計算中心為目的,檔案館作為公共文化機構(gòu),可以融入其中,借助城市超算中心、大數(shù)據(jù)平臺等工程的高性能GPU、FPGA 和ASIC等AI芯片,通過資源共享聯(lián)合訓練算法模型,降低技術(shù)設(shè)施的建設(shè)成本。API接口是檔案館引進生成式人工智能體系的另一個可能,與企業(yè)進行合作開發(fā)更為經(jīng)濟且見效更快。目前主流的OpenAI或Stability.ai這類上游基礎(chǔ)層公司大多采取基礎(chǔ)版開源或以調(diào)用API收費的形式進行商業(yè)應(yīng)用。以中國AI大模型DeepSeek為例,其開源策略正引發(fā)全產(chǎn)業(yè)鏈“井噴式”創(chuàng)新。自2025年1月末以來,華為、騰訊云、阿里云等頭部云服務(wù)商爭相推出“一鍵部署”“零代碼調(diào)用”等低門檻服務(wù);騰訊云在2月2日至8日期間,其HAI、CNB等產(chǎn)品矩陣全面支持DeepSeek私有化部署,并推出限時免費API服務(wù),大大降低了其引進調(diào)用的成本。檔案館可以向大型互聯(lián)網(wǎng)企業(yè)直接訂購、調(diào)用開發(fā)完成的開源式通用大模型或生成式人工智能解決方案,參照ChatGPT主動融入辦公軟件WPS和搜索引擎 Google,接入DeepSeek云服務(wù),利用接口等形式完成語言模型的適配,并進行拓展應(yīng)用。如“盛飛檔案AI大模型1.0”平臺在通用大模型基礎(chǔ)上進行垂直化訓練,搭建了基于本地檔案數(shù)據(jù)集的專屬檔案大模型知識庫。[17]
另一方面,提升生成式人工智能基礎(chǔ)設(shè)施的使用與管理能力。檔案館可推動生成式人工智能初期先應(yīng)用推廣到服務(wù)業(yè)務(wù)的基礎(chǔ)性環(huán)節(jié),如檔案業(yè)務(wù)咨詢與導航利用,高效集中進行問卷調(diào)查,收集用戶熱點需求并作關(guān)聯(lián)性分析等,幫助檔案館員進一步熟悉生成式人工智能的工作方式,提升其認知與使用能力。同時,檔案館應(yīng)實時監(jiān)控與把握生成式人工智能技術(shù)的效用狀態(tài),如生成式人工智能嵌入前后的業(yè)務(wù)環(huán)節(jié)變動帶來的服務(wù)渠道變化、檔案館員心理變化、相關(guān)銜接性的前后服務(wù)環(huán)節(jié)變動等,綜合反饋信息進行適用性評估,判斷部分技術(shù)嵌入對應(yīng)業(yè)務(wù)環(huán)節(jié)的可持續(xù)性,根據(jù)實際不斷調(diào)整生成式人工智能技術(shù)體系在基礎(chǔ)性業(yè)務(wù)環(huán)節(jié)中的嵌入策略。
4.2 開展數(shù)據(jù)喂養(yǎng),培育檔案館資源分析能力
一方面,通過數(shù)據(jù)喂養(yǎng)打造符合檔案館服務(wù)特征的算法模型。對于檔案館服務(wù)而言,打造獨有的算法模型或大語言模型,能夠有效輔助各項業(yè)務(wù)的高效開展。前文提到,考慮建設(shè)成本與技術(shù)容錯,檔案館可以與互聯(lián)網(wǎng)企業(yè)進行合作,借助API接口調(diào)用“文心一言”“通義千問”“訊飛星火”等通用大模型。通過訂購或合作研發(fā)等形式,既能共享企業(yè)清洗后的高質(zhì)量數(shù)據(jù)資源與語料庫,也能將其算法模型嵌入檔案館服務(wù)環(huán)節(jié)。隨后,通過喂養(yǎng)檔案館的服務(wù)業(yè)務(wù)數(shù)據(jù)或館藏資源內(nèi)容數(shù)據(jù),在模型設(shè)計、數(shù)據(jù)訓練、指令輸入、生成轉(zhuǎn)換、提示引導以及生成后的調(diào)整修改等關(guān)鍵環(huán)節(jié)保證檔案館員、企業(yè)開發(fā)者與專家的“主體介入”與“在場表達”。喂養(yǎng)的數(shù)據(jù)資源,可以是檔案館咨詢與檢索需求等業(yè)務(wù)性用戶與流程數(shù)據(jù),也可以是包括圖片、音頻、視頻、虛擬實物等數(shù)字化館藏資源,先抽取典型的結(jié)構(gòu)化式的數(shù)據(jù)投入模型進行預(yù)訓練。2023年5月,新華通訊社出品“古詩今畫,‘云’賞新時代勞動之美”活動,投喂古今詩詞數(shù)據(jù)生成了兼具傳統(tǒng)色彩與現(xiàn)代意象的生成式人工智能畫作。[18]檔案館可以通過投喂特色館藏資源來從中歸納提取主題風格,借助深度卷積GAN、有條件GAN、語言圖像預(yù)訓練等不斷優(yōu)化檔案館服務(wù)算法模型的適用性與兼容性。
另一方面,建立文檔化的數(shù)據(jù)集實現(xiàn)對數(shù)據(jù)更加謹慎的管理。[19]這一點正與檔案專業(yè)特長相契合,能夠充分利用檔案館資源建設(shè)的已有成果。檔案部門也應(yīng)在《檔案著錄規(guī)則》《錄音錄像類電子檔案元數(shù)據(jù)方案》等國家標準的基礎(chǔ)上,加快制定符合生成式人工智能應(yīng)用要求的標注規(guī)則。在進行預(yù)訓練時,通過對已經(jīng)結(jié)構(gòu)化的檔案館服務(wù)業(yè)務(wù)數(shù)據(jù)與館藏資源進行分析,綜合考量訓練數(shù)據(jù)的類型信息、內(nèi)容信息、來源信息,以及收集的方式、選擇的動機、來源的主體與包含的價值觀等,促使檔案館員與專業(yè)人士發(fā)揮作用,保證高質(zhì)量的數(shù)據(jù)喂養(yǎng)與模型訓練工作。
4.3 發(fā)揮主體作用,實現(xiàn)服務(wù)內(nèi)容參與式創(chuàng)新
生成式人工智能的應(yīng)用能將檔案館服務(wù)的主體與受眾更加緊密聯(lián)系起來,并充分調(diào)動其在文化內(nèi)容生產(chǎn)上的創(chuàng)造性與積極性,從而更高質(zhì)量地盤活與開發(fā)館藏檔案數(shù)字化資源。
(1)對館藏資源進行高效關(guān)聯(lián)與組織整合
生成式人工智能的引進,對于檔案館員來說,是一次提升能力素質(zhì)的良機。作為直接接觸與參與館藏檔案資源數(shù)字化與開發(fā)工作的主體,檔案館員能夠借助生成式人工智能的技術(shù)優(yōu)勢更加充分發(fā)揮創(chuàng)造性。
在館藏資源的數(shù)字化建設(shè)方面,利用生成式人工智能技術(shù)能夠提高館藏檔案資源數(shù)字化的質(zhì)量,尤其是稀缺性、保護性與瀕危性資源。對于古籍數(shù)字文本,可以利用生成式人工智能的斷句、歧義標記、缺字填補等功能,彌補其數(shù)字化資源分辨率低且難以進行內(nèi)容檢索的短板,借助生成式人工智能提取館藏資源的內(nèi)容,自動生成標點斷句,進行畫質(zhì)修復(fù)與增強。此外,生成式人工智能也為口述檔案保護與傳承提供了新思路,如世界首部人工智能配音紀錄片《創(chuàng)新中國》就通過AI學習已逝著名配音藝術(shù)家李易老師過往紀錄片的聲音資料合成配音,讓李易的聲音重現(xiàn),為檔案館開展口述檔案開發(fā)和創(chuàng)新展示形式提供了參考。
在館藏資源的關(guān)聯(lián)方面,可以通過生成式人工智能對海量數(shù)據(jù)的分析與關(guān)聯(lián)能力,引入注意力機制、圖神經(jīng)網(wǎng)絡(luò)等深度學習技術(shù),更好地捕獲檔案語義特征,實現(xiàn)對多模態(tài)館藏檔案資源的初步認知與自動抓取,在數(shù)字化過程中不斷深化館藏資源的細粒度建設(shè),對實體、事件之間的關(guān)系屬性進行聯(lián)結(jié)與標準化處理,建構(gòu)起基于人物、事件、地點、主題的非線性知識關(guān)聯(lián)網(wǎng)絡(luò),完善復(fù)雜關(guān)系的多重檢索工具。如耶魯大學的“讓二戰(zhàn)大屠殺受害者發(fā)聲(Let Them Speak)”項目,就通過結(jié)合自然語言處理技術(shù),對近3 000份大屠殺幸存者所留存下的視聽資料、文本證詞等材料進行數(shù)據(jù)清洗、文本挖掘與可視化,深化了語義關(guān)聯(lián)效果。[20]
在館藏檔案資源的特色開發(fā)方面,館員可以在檔案資源細粒度建設(shè)的基礎(chǔ)上,通過喂養(yǎng)典型檔案資源建設(shè)與內(nèi)容創(chuàng)作案例,培育檔案館算法與語言模型的學習與模仿能力,圍繞館藏特色檔案,整合照片檔案、口述檔案、音視頻檔案、實物檔案等多模態(tài)資源,形成圖片、視頻、音頻、微電影、3D模型、虛擬場景等更全面立體生動的檔案文化內(nèi)容形式等。如2019年浙江省檔案館在全國率先使用科大訊飛檔案機,實現(xiàn)了口述歷史采集室建設(shè)運行、重點檔案保護與開發(fā)等工作中的成果轉(zhuǎn)化及推廣。
(2)更好發(fā)揮檔案用戶的文化創(chuàng)意
公共文化服務(wù)雖以外在資源輸入為供給起點,但欲達至供需匹配,需要民眾深度參與。[21]目前,僅有2個省級綜合檔案館開展了基于開放檔案的知識服務(wù),對檔案資源開發(fā)的用戶參與度建設(shè)仍需加強。[22]而生成式人工智能技術(shù)的分權(quán)性豐富了檔案館用戶在館藏資源建設(shè)與文化創(chuàng)意表達方面更多的可能性。
算法驅(qū)動下的生成式人工智能倡導文本交互關(guān)注用戶(讀者、觀眾、聽眾)釋讀文本的創(chuàng)造性和解釋性?;趯κ鼙姷暮A啃畔⒎治雠c高質(zhì)量文化內(nèi)容的計算,生成式人工智能可及時給予創(chuàng)作者反饋。檔案館可以在官方網(wǎng)站開辟用戶UGC內(nèi)容創(chuàng)作模塊,拓展網(wǎng)站建設(shè)功能的同時,在該模塊中配備業(yè)已開發(fā)共享的館藏數(shù)字化資源。通過注冊與資質(zhì)審核,集聚一大批創(chuàng)造力強、活躍度高的個體參與進來,可以是高校檔案學專業(yè)學子、教師、專家,也可以是歷史文化領(lǐng)域的網(wǎng)絡(luò)博主。在該模塊中融入生成式人工智能技術(shù)體系在內(nèi)容創(chuàng)作上的基礎(chǔ)功能,并于國際檔案日等節(jié)日在官方網(wǎng)站平臺發(fā)布“檔案征集令”活動,設(shè)立相應(yīng)獎勵體系。
鼓勵檔案館官網(wǎng)注冊用戶去探索家鄉(xiāng)及長輩傳承的鄉(xiāng)土記憶、文化遺產(chǎn)等,并以檔案的形式記錄或保存,收集歷史記憶、地域特色、民族風情等檔案資源并加以二創(chuàng)。近年來興起的少數(shù)群體數(shù)字建檔實踐,面向公眾開展的數(shù)字檔案征集、著錄、數(shù)字化編研等工作,便是引導公眾參與檔案文化資源建設(shè)與開發(fā)的有益探索。[23]推動檔案館與開設(shè)檔案學專業(yè)的高校進行合作,通過提供實習崗位、承擔假期社會實踐項目、實地參與制作視頻、定期舉辦檔案館內(nèi)容創(chuàng)意推廣競賽等形式,發(fā)揮檔案學師生的專業(yè)素養(yǎng)與創(chuàng)造智力,將檔案館的館藏資源、實地場所、業(yè)務(wù)流程、特色服務(wù)、文化體驗等以“專業(yè)+年輕”的角度進行解讀與再創(chuàng)作,發(fā)揮多方主體在檔案文化內(nèi)容生產(chǎn)上的積極性與創(chuàng)造性。
(3)優(yōu)化服務(wù)交互體驗,提升用戶沉浸體驗
在館藏檔案資源的多模態(tài)生成方面,生成式人工智能的強大之處在于對圖片、視頻、音頻、虛擬場景的生成創(chuàng)作能力,可以對館藏資源體系的表達方式進行升級,提升用戶的臨場感與沉浸感。對此,檔案館可以利用生成式人工智能將館藏特色檔案資源中的歷史場景與人物故事以多模態(tài)、多感官、可視化、可交互的形式展現(xiàn),輔以可穿戴、VR/AR、智能交互手柄等設(shè)備,借助生成式人工智能的語言學習與內(nèi)容生成能力,將原本需要大量人力物力的資源還原與打造工作簡化,將檔案資源所承載的地域歷史風貌、風土人情、傳統(tǒng)文化以更立體、更直觀、更能打動人心的狀態(tài)展現(xiàn)。如中國國家圖書館就曾運用智能技術(shù),將《山海經(jīng)》中的神怪異獸、山川河海與名家金句精細關(guān)聯(lián),繪制成新時代書海泛舟的航行地圖。[24]在無障礙服務(wù)方面,可以將生成式人工智能的動作識別模塊嵌入館內(nèi)機器人,提高檔案館服務(wù)的寬容度。在用戶的需求與行為分析方面,可發(fā)揮生成式人工智能的內(nèi)容核心綜述、潛在語義分析、段間語義分析等能力,根據(jù)用戶在檔案館的借閱歷史、檢索歷史、身份特征等數(shù)據(jù),描摹并完善用戶需求畫像,為用戶提供可能利用到的關(guān)聯(lián)檔案資源。
4.4 進行場景打造,立足個性化衍生服務(wù)場景
借助生成式人工智能,檔案館能實現(xiàn)全天候、不限時的業(yè)務(wù)咨詢,資源借閱與館藏導航等基礎(chǔ)性服務(wù),檔案閱覽形式不再局限于線下或等待管理員反饋。在此基礎(chǔ)上對原有的檔案館服務(wù)具體形式,如檔案宣傳展覽、資源編研、研學旅行等原生服務(wù)場景進行模態(tài)轉(zhuǎn)換,實現(xiàn)知識服務(wù)與應(yīng)用場景的深度創(chuàng)新。“虛擬檔案館員”和“在線檔案知識社區(qū)”將成為生成式人工智能賦能下檔案館服務(wù)場景衍生的兩個主要方向。
(1)全程在場:“虛擬檔案館員”
虛擬數(shù)字人是一種由計算機生成,可以模仿人類行為、思考、感知和情感,具有多重人類特征的人工智能實體。[25]廈門大學檔案館推出的“廈小檔”虛擬數(shù)字人,融合了AIGC、數(shù)字人、語音識別等技術(shù),已經(jīng)支持語音、文本輸入,自動識別利用者的需求。[26]利用生成式人工智能打造檔案館專有語言模型時形成的檔案館藏資源數(shù)據(jù)集,可以作為檔案館“虛擬檔案館員”進行定向信息整合的核心數(shù)據(jù)。結(jié)合算法模型,預(yù)先訓練在分類編目、查閱借閱、檔案保管和參觀咨詢等環(huán)節(jié)的基礎(chǔ)應(yīng)對策略,將“虛擬數(shù)字館員”的業(yè)務(wù)能力與資源輸出能力進一步融合。
在此基礎(chǔ)上,檔案館可以賦予“虛擬檔案館員”眾多職能。如館藏資源解說員職能,通過錄入檔案館員的動作表情、語音講解資源等,承擔實時導覽功能;無障礙服務(wù)職能,融入語音服務(wù)、手勢服務(wù)、盲圖程序、APP終端等,滿足特殊群體的文化需求;個性化借閱建議與推廣職能,結(jié)合豐富的館藏資源語料庫,根據(jù)用戶興趣、閱讀偏好進行內(nèi)容適配,以用戶需求的某一檔案資源為核心,發(fā)散不同載體、多種形式的資源推廣,既可以是館藏的其他關(guān)聯(lián)檔案資源,也可以是圖書、文物等關(guān)聯(lián)文化業(yè)態(tài)的數(shù)字或?qū)嶓w資源等,提升用戶體驗滿意度;內(nèi)容創(chuàng)意與創(chuàng)作職能,通過用戶給定的參數(shù)、要求與檔案客體,繪制或還原歷史場景、人物故事或虛擬文物等,與用戶交互更加活潑。
(2)知識社交:“在線檔案知識社區(qū)”
以生成式人工智能推動內(nèi)容共創(chuàng),需要重視社交媒介的有效參與,為檔案館用戶提供學習、獲利、評論和分享的開放性場域。[27]在生成式人工智能的助力下,檔案館用戶在檔案資源開發(fā)、闡釋與內(nèi)容創(chuàng)作等方面的文化創(chuàng)意,能夠得到豐富展現(xiàn)和快速轉(zhuǎn)化。借助現(xiàn)有主流的知識共享平臺打造檔案館的“在線檔案知識社區(qū)”,以館藏檔案資源與個人知識社交為核心,能夠為檔案館用戶提供一個實時、持續(xù)、直接的交往互動平臺,充分發(fā)揮用戶的自組織性,推動其知識儲備、認知方式、能力結(jié)構(gòu)等交流共享,進一步提高檔案文化創(chuàng)意與內(nèi)容生產(chǎn)的即時性、共享性與協(xié)作性,從而打破檔案館物理空間與數(shù)字空間的壁壘,為檔案館用戶參與檔案館服務(wù)建設(shè)提供更為便捷、高效的方式,以數(shù)據(jù)智能驅(qū)動形成檔案館服務(wù)圈層認同。
檔案館建設(shè)“在線檔案知識社區(qū)”也是深化檔案數(shù)字敘事的重要途徑之一。前文提及,在檔案資源建設(shè)與文化塑造中,生成式人工智能有助于發(fā)揮用戶的文化創(chuàng)意。針對某一主題的檔案資源,檔案館可以開設(shè)專門板塊來提供分享空間,用戶可以交流檔案資源體驗、提出開發(fā)想法,甚至可以實現(xiàn)對散落民間的相關(guān)檔案的發(fā)掘與在線上傳,豐富館藏。還可以推動用戶聯(lián)合創(chuàng)作,尤其是開發(fā)具有館藏特色的檔案文創(chuàng)產(chǎn)品,將志同道合的檔案館知識社區(qū)用戶以共同興趣與愛好為紐帶聯(lián)系到一起,匯集創(chuàng)意,增強面向參與者的資源開發(fā)力量。以算法為引擎,以內(nèi)容交互為目的,以檔案文化興趣為指引,吸引更廣泛的文化設(shè)計與創(chuàng)意人才主動參與檔案館藏資源的開發(fā)[28],形塑檔案館文化、檔案文化層面的思想、觀念和精神,推動形成新穎、高質(zhì)的檔案文化服務(wù)產(chǎn)品。
5 結(jié) 語
生成式人工智能浪潮的興起將對公共文化服務(wù)事業(yè)產(chǎn)生深遠影響,檔案館作為公共文化服務(wù)陣地的一環(huán),在建設(shè)館藏資源、優(yōu)化服務(wù)體驗和促進社會參與等方面為生成式人工智能提供了應(yīng)用空間。[29]利用生成式人工智能優(yōu)化檔案館的服務(wù)質(zhì)量,既要著眼于對檔案館基礎(chǔ)服務(wù)設(shè)施與數(shù)據(jù)學習能力的提升,也要注重發(fā)揮生成式人工智能在文化內(nèi)容生產(chǎn)中的技術(shù)優(yōu)勢,激發(fā)相關(guān)主體在檔案文化創(chuàng)意、內(nèi)容創(chuàng)作等方面的積極性,從基礎(chǔ)設(shè)施、資源建設(shè)、服務(wù)參與、模式創(chuàng)新等方面優(yōu)化檔案館的服務(wù)質(zhì)量。
作者貢獻說明:
張笑瑋:提出總體思路,撰寫與修改論文;吳建華:提出修改思路和重要觀點。
注釋與參考文獻
[1]劉瓊,劉桂鋒,王鵬.AIGC賦能圖書館閱讀推廣智慧服務(wù)的框架和應(yīng)用研究[J].圖書館學研究,2024(2):108-118,107.
[2]李佳軒,儲節(jié)旺,杜秀秀.關(guān)聯(lián)、黑箱與賦能: AIGC驅(qū)動智慧圖書館的轉(zhuǎn)型路徑[J].圖書情報工作,2023(23):18-27.
[3]劉逸倫,黃微,張曉君,等.AIGC賦能的科技情報智能服務(wù):特征、場景與框架[J].現(xiàn)代情報,2023(12):88-99.
[4]莫祖英,盤大清,劉歡,等.信息質(zhì)量視角下AIGC虛假信息問題及根源分析[J].圖書情報知識,2023(4):32-40.
[5]張衛(wèi),黃成馳.生成式人工智能中的“責任”問題及成因探析——基于身體的視角[J].圖書館建設(shè),2023(4):15-18.
[6]劉江峰,劉雛菲,齊月,等.AIGC助力數(shù)字人文研究的實踐探索:SikuGPT驅(qū)動的古詩詞生成研究[J].情報理論與實踐,2023(5):23-31.
[7]周海.生成式人工智能輔助檔案編研工作的實現(xiàn)路徑構(gòu)建[J].北京檔案,2024(6):45-48.
[8]王冠,袁燁.現(xiàn)階段生成式人工智能在檔案開發(fā)利用中的應(yīng)用瓶頸分析——以ChatGPT類人工智能為例[J].檔案與建設(shè),2023(11):48-51.
[9]《2022年北京人工智能產(chǎn)業(yè)發(fā)展白皮書》重磅發(fā)布[EB/OL]. [2024-04-17].https://www.beijing. gov.cn/ywdt/gzdt/202302/t20230214_2916514.html.
[10]BANDURA A. Toward a psychology of human agency[J]. Perspectives on psychological science, 2006, 1(2): 164-180.
[11]顏涵,于英香.AIGC賦能檔案知識服務(wù):價值意蘊與應(yīng)用場景[J].檔案與建設(shè),2024(7):79-85.
[12]解學芳,高嘉琪.AIGC模式賦能數(shù)字文化創(chuàng)新的邏輯與善治:基于ChatGPT熱潮的思考[J].江海學刊, 2023(3): 86-95.
[13]HOLZER M, CHARBONNEAU E,KIM Y. Mapping the terrain of public service quality improvement:twenty-five years of trends and practices in the United States[J].International Review of Administrative Sciences, 2009,75(3):403-418.
[14]陳思函,解學芳.AIGC驅(qū)動下的數(shù)字文化消費:困境透視與紓解路徑[J].新疆社會科學,2024(4):142-152,174.
[15]浙江省委辦公廳省政府辦公廳印發(fā)《關(guān)于推進新時代檔案事業(yè)現(xiàn)代化先行的意見》[N].中國檔案報,2024-04-08(4).
[16]張斌,高晨翔,牛力.對象、結(jié)構(gòu)與價值:檔案知識工程的基礎(chǔ)問題探究[J].檔案學通訊,2021(3):18-26.
[17]生成式AI大模型賦能檔案管理智慧應(yīng)用[EB/OL].[2024-04-17].https://www.sythams. com/gongsixinwen/534.html.
[18]蔡琳,楊廣軍.人工智能生成內(nèi)容(AIGC)的作品認定困境與可版權(quán)性標準構(gòu)建[J].出版發(fā)行研究,2024(1):67-74.
[19]胡泳,劉純懿.大語言模型“數(shù)據(jù)為王”:訓練數(shù)據(jù)的價值、迷思與數(shù)字傳播的未來挑戰(zhàn)[J].西北師大學報(社會科學版),2024(3):43-54.
[20]The Yale Digital Humanities Lab.Let them speak[EB/OL]. [2024-11-20]. https://Its. fortunoff.library.yale.edu/.
[21]湯資嵐.數(shù)字賦能共同生產(chǎn):公共文化服務(wù)供給新范式[J].新世紀圖書館,2023(5):5-9,76.
[22]劉婧,歐月.面向生成式人工智能的檔案數(shù)智化服務(wù)應(yīng)用場景探索[J].檔案與建設(shè),2024(9):83-91.
[23]向曉旭.檔案參與國家敘事:邏輯、維度與策略[J].檔案與建設(shè),2023(9):44-48.
[24]ZHANG Z, WEN F, SUN Z, et al. Artificial intelligence-enabled sensing technologies in the 5G/ internet of things era:from virtual reality/augmented reality to the digital twin[J]. Advanced intelligent systems, 2022,7(7):2100228.
[25]NOAH L S, SCOTTY D C. Learning with virtual humans:Introduction to the special issue[J]. Journal of Research on Technology in Education,2021,53(1):1-7.
[26]徐祥伍,韓笑.AIGC+虛擬數(shù)字人:人工智能時代檔案館數(shù)字服務(wù)新展望[J].檔案,2023(10):9-14.
[27]DONGMEI C,MAUREEN M,DONNA W,SENMAOX. Understanding Consumers’ Social Media Engagement Behaviour:An Examination of the Moderation Effect of Social Media Context[J].Business Research,2021,122(1):835-846.
[28]葛悅,謝詩藝.當前我國檔案文化產(chǎn)品的開發(fā)邏輯:定位與取向[J].檔案管理,2024(1):73-78.
[29]楊劍云,付甜甜.生成式AI視域下智慧檔案館建設(shè)的邏輯進路與應(yīng)然策略[J].蘭臺世界,2024(9):41-45.
(責任編輯:馮婧愷 張 帆)