摘 要:生成式人工智能為檔案館智慧編研帶來了機遇和挑戰(zhàn)。在生成式人工智能背景下,檔案館智慧編研顯露出檔案數(shù)據(jù)處理智能化、編研作品呈現(xiàn)多樣化、用戶服務(wù)推薦智慧化等態(tài)勢,存在語料構(gòu)建成本高、技術(shù)應(yīng)用難度大和相關(guān)人才儲備少等困境,需要推進全國檔案資源集成與整合,加強語料安全控制;扶持國內(nèi)生成式人工智能技術(shù),降低技術(shù)應(yīng)用風(fēng)險;開展檔案工作人員專業(yè)化培訓(xùn),提升檔案編研水平等。
關(guān)鍵詞:檔案館;生成式人工智能;智慧編研
分類號:G270.7
The Desirable Situation, Practical Dilemma, and Necessary Path of Intelligent Compilation and Research of Archives Under the Background of Generative Artificial Intelligence
Xing Bianbian1,2, Liu Yang1
( 1. School of Information Management, Zhengzhou University, Zhengzhou, Henan 450001, 2. Key Laboratory of the National Archives Administration of China “Key Laboratory of Archives Disaster Prevention and Emergency Rescue” , Zhengzhou, Henan 450001 )
Abstract: Generative artificial intelligence brings opportunities and challenges for the intelligent compilation and research of archives. Under the background of generative artificial intelligence, the intelligent compilation and research of archives presents the trends of intelligent archival data processing, diversified compilation and research works, and intelligent user service recommendation, etc. There are difficulties such as high corpus development cost, difficult technology application and small talent reserve. It is necessary to promote the integration of national archival resources, strengthen corpus security control, support domestic generative artificial intelligence technology, reduce the risk of technology application, carry out professional training of archival staff, and improve the level of archival compilation and research.
Keywords: Archives; Generative Artificial Intelligence; Intelligent Compilation and Research
隨著ChatGPT在社會各領(lǐng)域內(nèi)的火熱應(yīng)用,生成式人工智能越來越引起人們的關(guān)注。作為一種具有文本、圖片、音頻、視頻等內(nèi)容生成能力的模型及相關(guān)技術(shù)[1],生成式人工智能在檔案領(lǐng)域具有發(fā)展需求和應(yīng)用空間。中共中央辦公廳、國務(wù)院辦公廳印發(fā)的《“十四五”全國檔案事業(yè)發(fā)展規(guī)劃》(以下簡稱《規(guī)劃》)指出要積極探索知識管理、人工智能、數(shù)字人文等技術(shù)在檔案信息深層加工和利用中的應(yīng)用。[2]目前,我國檔案館智能化編研工作的部分環(huán)節(jié)已初見成效,如浙江省檔案館與科大訊飛聯(lián)合開展的人工智能項目為音頻檔案整理利用提供了高效便捷的新途徑[3];河南省檔案館應(yīng)用人工智能等技術(shù)實現(xiàn)了對中福公司檔案的深度挖掘、知識管理與可視化呈現(xiàn)。[4]生成式人工智能的內(nèi)容生成特性是檔案館編研工作從智能走向智慧的關(guān)鍵一步。在實踐工作中,泉州市檔案館首次利用生成式人工智能技術(shù),推出《AI主播小君讀清明僑批》《泉州僑批里的清明》兩期視頻節(jié)目[5],這是生成式人工智能在檔案編研工作中的重要嘗試。將生成式人工智能技術(shù)應(yīng)用于檔案館編研工作,有助于檔案資源的深層次開發(fā)利用,提高檔案編研的智慧化水平,服務(wù)于人民群眾日益增長的檔案文化需求。
檔案領(lǐng)域現(xiàn)有相關(guān)研究主要側(cè)重于生成式人工智能在檔案管理、資源開發(fā)、利用服務(wù)中的應(yīng)用,較少從檔案編研的角度展開研究。周海專門論述了生成式人工智能輔助檔案編研工作的可行性,并從數(shù)據(jù)處理層、模型訓(xùn)練層、智能應(yīng)用層、機制保障層等四個層面提出了實施方案。[6]楊晶晶[7]、許劍穎[8]、尹良鑫[9]、劉麗[10]等在討論生成式人工智能對檔案工作的影響以及應(yīng)用場景時提及了檔案編研工作。因此,探討生成式人工智能背景下檔案館智慧編研的應(yīng)然態(tài)勢、實然困境和使然策略,不僅是對國家政策的積極響應(yīng),更有助于探索檔案編研新路徑,實現(xiàn)檔案編研工作高質(zhì)量發(fā)展。
1 生成式人工智能背景下檔案館智慧編研的應(yīng)然態(tài)勢
1.1 編研過程:檔案數(shù)據(jù)處理智能化
生成式人工智能背景下的檔案館智慧編研能夠做到選題、選材、挖掘、整合的全流程智能化處理。第一,基于大數(shù)據(jù)模型,檔案館可以應(yīng)用趨勢分析和預(yù)測技術(shù)在全網(wǎng)范圍內(nèi)搜尋熱點話題,結(jié)合館藏數(shù)據(jù)資源情況生成編研選題,使選題更加切合社會熱點與市場需要。第二,檔案館可以應(yīng)用自然語言處理技術(shù)從海量數(shù)據(jù)中精準(zhǔn)識別并提取與選題相關(guān)的關(guān)鍵信息并對其進行整合,實現(xiàn)檔案編研資料的快速摘編與全面匯集,縮短編研工作的周期,提高編研選材的豐富度。第三,知識圖譜和機器學(xué)習(xí)技術(shù)擁有關(guān)聯(lián)性知識挖掘的能力,能夠在現(xiàn)有檔案信息中進行深挖,創(chuàng)造性產(chǎn)出知識內(nèi)容,提升檔案編研作品的創(chuàng)新性,契合用戶多樣化需求。第四,生成式預(yù)訓(xùn)練模型能夠基于語義連續(xù)性原則自動化生成內(nèi)容,可以連續(xù)產(chǎn)出編研內(nèi)容,兼顧上下文整體的協(xié)調(diào)統(tǒng)一。例如,美聯(lián)社通過Automated Insights的Wordsmith平臺實現(xiàn)了數(shù)據(jù)驅(qū)動型新聞報道的自動化[11],使記者能夠更專注于撰寫批判性的定性文章。此外,生成式對抗網(wǎng)絡(luò)可以應(yīng)用于照片檔案的修復(fù)工作中,為檔案編研工作提供更為豐富完整的檔案資料。這些技術(shù)的綜合使用,不僅有助于提升檔案館編研工作的效率和質(zhì)量,同時也可為用戶提供更具價值和吸引力的內(nèi)容。
1.2 內(nèi)容生成:編研作品呈現(xiàn)多樣化
隨著近些年新媒體的快速發(fā)展,人們的閱讀習(xí)慣以及文化消費習(xí)慣發(fā)生了深刻變革,對影視類、游戲類和虛擬展覽類等多樣化的文化產(chǎn)品需求顯著增長,更加關(guān)注檔案編研作品的生動性與趣味性。[12]生成式人工智能擁有多模態(tài)內(nèi)容生成能力,能夠輔助檔案館產(chǎn)出文字、圖片、聲音、視頻等更為豐富的多媒體編研作品,滿足人民群眾日益增長的檔案文化需求。例如,通過預(yù)設(shè)創(chuàng)作風(fēng)格,經(jīng)由文字或圖像的描述,可以生成初級的影視劇本,再經(jīng)過細致的描述加工則可最終形成一個完整的作品。2023年2月,第一部由AI編劇和導(dǎo)演的短片《安全地帶》(The Safe Zone)就是通過這樣的方式生成的。[13]ChatGPT深度參與了該影片制作的各階段,僅用7天就完成了拍攝,極大縮短了影片制作進程,節(jié)省了時間和資源,其完整的故事結(jié)構(gòu)與清晰的戲劇張力都顯露出ChatGPT在影視制作方面不容忽視的內(nèi)容創(chuàng)作能力。有了生成式人工智能的參與,檔案編研人員可專注于編研作品的內(nèi)容把關(guān),而將文獻類作品的內(nèi)容生成、影視類作品的腳本設(shè)計、展演類作品的流程設(shè)置等內(nèi)容交給生成式人工智能模型,就能極大提高編研效率,豐富編研作品形式。
1.3 成果傳播:用戶服務(wù)推薦智慧化
生成式人工智能可為檔案用戶提供更具靈活性、更為個性化的推薦服務(wù)。借助算法和深度學(xué)習(xí)能力,它不僅能夠根據(jù)用戶的興趣和需求,智能地篩選和整理海量的檔案信息,為用戶呈現(xiàn)定制化的編研產(chǎn)品推薦列表,而且能夠根據(jù)用戶的反饋和行為數(shù)據(jù),不斷優(yōu)化推薦策略,使推薦服務(wù)更加精準(zhǔn)。例如,在電商營銷領(lǐng)域,亞馬遜使用生成式人工智能技術(shù)不僅能夠優(yōu)化產(chǎn)品描述,提高產(chǎn)品的可發(fā)現(xiàn)性,還可提供符合用戶需求的定制化產(chǎn)品推薦和個性化服務(wù)體驗。[14]作為生成式人工智能的典型代表,ChatGPT擁有高水平的自然語言處理能力,能夠準(zhǔn)確理解、連續(xù)回答用戶提問,并進行文本生成與內(nèi)容創(chuàng)作任務(wù)。將此種自然語言生成模型應(yīng)用于檔案編研作品推薦服務(wù),能夠降低用戶利用檔案編研作品的門檻,檔案用戶不必具備專業(yè)的提問表達能力,也不必拘泥于特定的檢索式,通過日?;恼Z言表達便能獲得所需的檔案信息。同時,ChatGPT能夠根據(jù)用戶提問生成知識總結(jié)類內(nèi)容,通過用戶不斷細化提問細節(jié),從而提供與用戶意圖相匹配的高質(zhì)量檔案編研作品信息,針對性地提供推薦服務(wù),優(yōu)化用戶體驗,提升檔案編研成果質(zhì)量。
2 生成式人工智能背景下檔案館智慧編研的實然困境
2.1 語料構(gòu)建成本高
生成式人工智能的關(guān)鍵技術(shù)之一是大數(shù)據(jù)預(yù)訓(xùn)練模型,強大的數(shù)據(jù)支撐是模型開發(fā)的基礎(chǔ)性保障,這也意味著需要巨量的檔案數(shù)據(jù)資源集成與復(fù)雜的安全控制。
一方面,檔案數(shù)據(jù)資源集成工程量大。智慧編研需要在數(shù)字環(huán)境中開展,生成式人工智能模型的開發(fā)需要大量檔案數(shù)據(jù)的“投喂”,因此一個龐大且信息完備的檔案語料庫是重要且必要的。生成式人工智能模型基于語料庫開展預(yù)訓(xùn)練,語料庫內(nèi)的信息越豐富,所得出的訓(xùn)練模型越接近理想狀態(tài),后續(xù)應(yīng)用中的內(nèi)容生成也就越可靠。我國館藏檔案資源豐富,截至2023年底[15],我國各級綜合檔案館館藏檔案126846.5萬卷、件,館藏照片檔案2862.0萬張,館藏錄音磁帶、錄像磁帶、影片檔案112.3萬盤,但其數(shù)字化率有待提高?!兑?guī)劃》提出全國縣級以上綜合檔案館檔案數(shù)字化率要達到80%,但我國檔案數(shù)字化整體情況距此目標(biāo)仍有距離,且數(shù)字化成果多停留于圖片、PDF文檔等形式,檔案信息與載體并不能有效分離,檔案資源數(shù)據(jù)化轉(zhuǎn)向有待加強。
另一方面,語料安全控制程序復(fù)雜。語料安全控制須關(guān)注語料的來源是否合規(guī)、語料內(nèi)容是否真實、語料標(biāo)注是否準(zhǔn)確等問題,每一個環(huán)節(jié)都需要嚴格的控制和監(jiān)管,任何疏忽都可能導(dǎo)致語料安全事故的發(fā)生,從而對檔案資源的保護和利用造成不可逆的損害。在生成式人工智能環(huán)境下,檔案隱私安全問題和語料真實性問題更加突出:開放檔案數(shù)據(jù)中包含個人隱私信息,如若不能對敏感信息進行有效控制,在內(nèi)容生成階段就容易引發(fā)個人信息泄露風(fēng)險;真假難辨的網(wǎng)絡(luò)數(shù)據(jù)、真實性存疑的檔案數(shù)據(jù)、不可控的用戶上傳數(shù)據(jù)等語料來源極易造成檔案數(shù)據(jù)庫污染,生成內(nèi)容的真實性也會遭到質(zhì)疑。[16]如何獲得一個干凈安全的語料庫是我們亟須解決的問題。
2.2 技術(shù)應(yīng)用難度大
目前檔案領(lǐng)域還沒有較為成熟的生成式人工智能模型,要將其應(yīng)用于實踐,一是靠模型引入,二是靠模型開發(fā),但這二者都有應(yīng)用難度。
一方面,模型引入風(fēng)險高。由于算法設(shè)計、信息搜集、數(shù)據(jù)共享等方面不透明,生成式人工智能模型的引入可能會引發(fā)安全問題。尤其是語料訓(xùn)練模型和隱私安全控制規(guī)則方面的差異帶來的模型適用性問題,可能會造成應(yīng)用過程中生成內(nèi)容混亂失實、隱私泄密等后果。此外,技術(shù)依賴和控制權(quán)問題所引發(fā)的服務(wù)中斷、合作終止等情況也會影響模型應(yīng)用的長期性和穩(wěn)定性。檔案本身具有很強的政治性和保密性,將檔案數(shù)據(jù)資源接入一個存在安全風(fēng)險的智能模型不符合檔案安全準(zhǔn)則,同時違反了相關(guān)法律規(guī)定,容易引發(fā)檔案數(shù)據(jù)泄露、非法訪問與篡改等惡性情況,威脅國家安全和社會穩(wěn)定。
另一方面,模型開發(fā)難度大。在專業(yè)問題上生成式人工智能的回答質(zhì)量至關(guān)重要。為實現(xiàn)精準(zhǔn)的檔案館智慧編研,所開發(fā)模型除了要具備常規(guī)語言模型的處理能力外,還須具備深厚的檔案專業(yè)知識,對檔案知識尤其是檔案編研相關(guān)工作有足夠的了解,這意味著在模型開發(fā)階段需要大量的檔案數(shù)據(jù)接入語料訓(xùn)練庫,開發(fā)檔案領(lǐng)域?qū)俚纳墒饺斯ぶ悄苣P?。但我國檔案資源數(shù)字化工作還未實現(xiàn)全覆蓋,檔案數(shù)據(jù)的全面接入難度較大。另外,檔案的特殊性和敏感性還要求模型在開發(fā)時必須確保檔案信息的安全和隱私,進一步增加了開發(fā)的技術(shù)難度和復(fù)雜程度。
2.3 相關(guān)人才儲備少
一方面,檔案專業(yè)人才儲備少。據(jù)中華人民共和國國家檔案局數(shù)據(jù)統(tǒng)計[17],2023年我國各級綜合檔案館中具有檔案專業(yè)程度的專職人員占比雖較2022年有所上升,但整體受教育水平偏低,檔案人才隊伍的專業(yè)化程度仍有較大的提升空間(詳見表1)。缺乏檔案專業(yè)背景容易造成檔案編研工作專業(yè)性、系統(tǒng)性不足,從而影響檔案編研成果質(zhì)量。只有在檔案專業(yè)知識的指導(dǎo)下,立足檔案內(nèi)容,深挖檔案資源的多維價值,才能創(chuàng)作出符合人民群眾需求的檔案文化產(chǎn)品。
另一方面,數(shù)字技術(shù)知識儲備弱。傳統(tǒng)環(huán)境下檔案館人才隊伍更多側(cè)重于實體檔案的管理工作,而在人工智能、數(shù)據(jù)分析、編程語言等相關(guān)領(lǐng)域的知識儲備則較弱。如某市檔案館工作人員就存在由于缺乏數(shù)字技術(shù)等知識而無法適應(yīng)數(shù)字化轉(zhuǎn)型下的檔案服務(wù)工作的情況。[18]檔案館缺乏能夠同時掌握檔案學(xué)專業(yè)知識和人工智能技術(shù)的復(fù)合型人才,從而難以對生成式人工智能環(huán)境下的智慧編研工作做到有效控制與監(jiān)管。例如在ChatGPT的使用過程中,如果不對用戶行為加以控制和監(jiān)管,用戶可能會通過修改措辭、多次提問等方式避開其安全機制,從而獲取帶有偏見或有害的內(nèi)容[19],甚至實施危害國家和社會的行為。
3 生成式人工智能背景下檔案館智慧編研的使然策略
3.1 推進全國檔案資源集成與整合,加強語料安全控制
其一,推進檔案數(shù)字化進程,實現(xiàn)檔案數(shù)據(jù)化轉(zhuǎn)向?!兑?guī)劃》指出要加快檔案資源數(shù)字轉(zhuǎn)型,繼續(xù)做好“存量數(shù)字化”,加快推進對重要檔案數(shù)字化成果進行文字識別和語音識別。[20]各級各類檔案館應(yīng)嚴格按照相關(guān)數(shù)字化標(biāo)準(zhǔn)規(guī)范,推進館藏資源數(shù)字化工作,積極對數(shù)字化成果進行數(shù)據(jù)化處理,以數(shù)據(jù)態(tài)檔案為對象,進行深層次的檔案資源開發(fā)利用。在此基礎(chǔ)上,由政府牽頭,集全國檔案館之力,推動全國檔案資源互聯(lián)共通,建設(shè)統(tǒng)一的開放檔案語料庫,為檔案領(lǐng)域?qū)俚纳墒饺斯ぶ悄苣P烷_發(fā)創(chuàng)造條件。例如浙江省委辦公廳、省政府辦公廳印發(fā)的《關(guān)于推進新時代檔案事業(yè)現(xiàn)代化先行的意見》提出“實施數(shù)字檔案‘匯聚暢流’行動,制定檔案數(shù)據(jù)匯流標(biāo)準(zhǔn)和安全策略,全面打造安全可控、高效暢流的數(shù)字檔案‘水系’;支持建立人工智能海量訓(xùn)練資源庫、標(biāo)準(zhǔn)測試數(shù)據(jù)集”[21]。
其二,遵守相關(guān)服務(wù)規(guī)范,加強語料安全控制。2023年1月10日,由國家網(wǎng)信辦、工信部、公安部聯(lián)合發(fā)布的《互聯(lián)網(wǎng)信息服務(wù)深度合成管理規(guī)定》針對利用深度學(xué)習(xí)等生成合成類算法制作文本、圖像等網(wǎng)絡(luò)信息的技術(shù),對篇章生成、文本風(fēng)格轉(zhuǎn)換、問答對話等生成或者編輯文本內(nèi)容的技術(shù)進行監(jiān)管,為生成式大語言模型的應(yīng)用提供了基礎(chǔ)性規(guī)則。[22]2023年7月10日發(fā)布的《生成式人工智能服務(wù)管理暫行辦法》指出生成式人工智能服務(wù)提供者應(yīng)當(dāng)依法開展預(yù)訓(xùn)練、優(yōu)化訓(xùn)練等訓(xùn)練數(shù)據(jù)處理活動,并對訓(xùn)練數(shù)據(jù)來源的合法合規(guī)性方面作出了相關(guān)規(guī)定。[23]2024年3月1日,全國網(wǎng)絡(luò)安全標(biāo)準(zhǔn)化技術(shù)委員會發(fā)布的《生成式人工智能服務(wù)安全基本要求》規(guī)定了生成式人工智能服務(wù)在安全方面的基本要求,包括語料安全、模型安全、安全措施、安全評估等。[24]在項目實施過程中,一方面檔案館應(yīng)嚴格遵守生成式人工智能相關(guān)服務(wù)規(guī)范,通過組建專業(yè)的語料審核團隊來制定相關(guān)安全審核機制,明確審核目標(biāo)、規(guī)范審核標(biāo)準(zhǔn)、細化審核流程;另一方面檔案館也應(yīng)嚴格遵守《國家檔案館檔案開放辦法》,對接入檔案語料庫的開放檔案資源數(shù)據(jù)進行篩選和控制,做到語料來源合規(guī)、內(nèi)容真實、標(biāo)注準(zhǔn)確,建設(shè)高質(zhì)量檔案語料庫。
3.2 扶持國內(nèi)生成式人工智能技術(shù),降低技術(shù)應(yīng)用風(fēng)險
盡管國外生成式人工智能技術(shù)模型相對成熟,但由于其訓(xùn)練語料庫和算法設(shè)計的不透明,容易造成由意識文化差異、國別偏見和隱私安全引發(fā)的技術(shù)應(yīng)用障礙,技術(shù)應(yīng)用風(fēng)險增加。[25]我國目前已經(jīng)有一批較為成熟的生成式人工智能模型,如百度的ERNIE、阿里巴巴的盤古、華為的NEZHA等,能在文本生成、語言理解等多個任務(wù)中展現(xiàn)出色的性能。此外,科大訊飛作為語音識別和語音合成領(lǐng)域的領(lǐng)先企業(yè)之一,其開發(fā)的生成式人工智能技術(shù)廣泛應(yīng)用于智能助手、自動翻譯、輔助閱讀等場景。2020年4月,安徽省檔案館與訊飛智元信息科技有限公司合作的“檔案智能劃控系統(tǒng)”正式發(fā)布。在項目實施過程中,安徽省檔案館負責(zé)規(guī)則制定與數(shù)據(jù)保障,訊飛智元信息科技有限公司負責(zé)系統(tǒng)設(shè)計與技術(shù)實現(xiàn),此次館企合作或可為檔案館應(yīng)用生成式人工智能技術(shù)開展檔案編研工作提供案例參考。
普適性的大語言模型難以成為某一特定細分領(lǐng)域?qū)<?,基于基礎(chǔ)模型開發(fā)檔案領(lǐng)域的垂類模型是實現(xiàn)檔案館智慧編研目標(biāo)的有效途徑。[26]在需要深入專業(yè)知識的應(yīng)用場景中,垂類模型能夠更好地理解和處理特定領(lǐng)域的專業(yè)術(shù)語、知識和任務(wù),專業(yè)化使得它們能夠提供更加準(zhǔn)確的結(jié)果。目前,醫(yī)學(xué)、法律和金融等領(lǐng)域的垂類模型已有比較成功的典型示范,檔案館應(yīng)以其為參考,積極與生成式人工智能技術(shù)公司開展對接與合作,結(jié)合檔案領(lǐng)域的實際需求和檔案編研工作的規(guī)律特點,共同研發(fā)出符合檔案工作專業(yè)要求的垂類模型。有了技術(shù)公司的參與,檔案館可以充分利用其專業(yè)能力和資源,降低技術(shù)開發(fā)風(fēng)險,確保模型在實際應(yīng)用中的穩(wěn)定性和可靠性。同時,隨著檔案領(lǐng)域的發(fā)展和變化,模型需要不斷更新和優(yōu)化,以適應(yīng)新的需求,因此研發(fā)過程中模型的靈活性和可定制性也應(yīng)得到重視,以便在未來的發(fā)展中能夠輕松地進行模型調(diào)整和升級。此外,生成式人工智能的插件化趨勢也為其在檔案領(lǐng)域內(nèi)的應(yīng)用提供了新方向,如今各檔案數(shù)據(jù)庫與檔案信息利用平臺的建設(shè)已相對完善,生成式人工智能插件的應(yīng)用將為其提供更為便捷的服務(wù)。
3.3 開展檔案工作人員專業(yè)化培訓(xùn),提升檔案編研水平
生成式人工智能在檔案館編研工作中應(yīng)用的關(guān)鍵是人,應(yīng)充分發(fā)揮檔案工作人員的能動價值。[27]這不僅是提升檔案館智慧編研工作質(zhì)量和效率的關(guān)鍵,也是確保檔案信息安全和合規(guī)利用的重要保障。
其一,培養(yǎng)兼具檔案學(xué)專業(yè)知識和人工智能技術(shù)的復(fù)合型人才。一方面積極引進人才。檔案館招聘人才要有專業(yè)要求,尤其是具備信息技術(shù)背景的人才,能夠有效輔助檔案館智慧編研工作的順利進行??梢酝ㄟ^設(shè)立專項招聘計劃,如信息技術(shù)人才專項招聘、跨界人才招募等,確保人才精準(zhǔn)定位,提升檔案館專業(yè)人才隊伍的信息技術(shù)能力。同時,還可以通過建立人才評估機制,確保引進人才的專業(yè)技能與檔案館的實際需求相匹配,做到人才引進來、用得好、留得住,充分發(fā)揮人才價值。另一方面,定期組織業(yè)務(wù)培訓(xùn)與項目交流活動。通過邀請行業(yè)專家組織內(nèi)部培訓(xùn)會、對接技術(shù)公司參與外部實踐項目等方式,設(shè)立人工智能基礎(chǔ)理論、自然語言處理技術(shù)、數(shù)據(jù)分析與解讀等培訓(xùn)課程,鼓勵檔案工作人員在學(xué)習(xí)理論知識的同時參與實踐項目,通過實踐加深對生成式人工智能技術(shù)的理解與掌握。還要建立良好的學(xué)習(xí)成果評估與反饋機制,確保培訓(xùn)效果得到持續(xù)提升,從而更好地輔助檔案館智慧編研工作。
其二,強化檔案工作人員全流程監(jiān)管者的角色定位。一方面是對智慧編研的流程監(jiān)管。檔案工作人員應(yīng)全面把控數(shù)據(jù)采集、處理、分析、生成等各個環(huán)節(jié),確保各階段工作的準(zhǔn)確性和高效性,還應(yīng)特別關(guān)注采用生成式人工智能技術(shù)進行編研活動的合規(guī)性。例如在智慧編研過程中,檔案工作人員不僅要關(guān)注所生成編研內(nèi)容的準(zhǔn)確性和邏輯性,還要仔細審查生成內(nèi)容是否存在誤導(dǎo)信息或偏見。如果發(fā)現(xiàn)算法生成的某些內(nèi)容不符合檔案事實或存在爭議,則應(yīng)立即停止流程,并通過調(diào)整算法參數(shù)或采用其他方法進行修正。另一方面是對用戶服務(wù)的監(jiān)管。檔案工作人員既要保證用戶高效訪問和利用檔案編研成果的效率,也應(yīng)嚴格監(jiān)督用戶在獲取和使用人工智能生成內(nèi)容時的行為。確保用戶在享受檔案編研服務(wù)的同時,嚴格遵循相關(guān)的法律法規(guī)和標(biāo)準(zhǔn)規(guī)范,防止出現(xiàn)任何可能發(fā)生的濫用或侵權(quán)行為,保障檔案信息傳播安全,維護檔案工作的公信力和權(quán)威性。例如制定明確的用戶行為規(guī)范,包括但不限于禁止未經(jīng)許可的傳播、復(fù)制、篡改等行為;規(guī)定用戶在特定的范圍內(nèi)利用編研成果并注明來源及出處;利用數(shù)字水印、訪問日志等技術(shù)手段,對用戶的使用活動進行追蹤與記錄,以便迅速識別并應(yīng)對可能存在的濫用情形或侵權(quán)行為。
作者貢獻說明
邢變變:設(shè)計論文框架,提出核心觀點,修改論文;劉陽:撰寫論文,收集資料。
注釋與參考文獻
[1][23]生成式人工智能服務(wù)管理暫行辦法[EB/OL].[2024-07-20].https://www.cac.gov. cn/2023-07/13/c_1690898327029107.htm.
[2][20]中辦國辦印發(fā)《“十四五”全國檔案事業(yè)發(fā)展規(guī)劃》[EB/OL].[2024-07-20].https://www. saac.gov.cn/daj/toutiao/202106/ecca2de5bce44a0eb5 5c890762868683.shtml.
[3]省檔案館承擔(dān)的科技項目通過國家檔案局驗收[EB/OL].[2024-07-20].https://www.zjda.gov. cn/art/2021/3/12/art_1378521_58922763.html.
[4]河南省檔案館中福公司檔案史料開發(fā)結(jié)碩果[EB/OL].[2024-07-20].https://www.hada.gov. cn/2022/10-11/176055.html.
[5]福建泉州創(chuàng)新運用AI技術(shù)傳播檔案文化[EB/OL].[2024-07-20].https://www.saac.gov. cn/daj/c100211/202404/f1b944f7c9844fd5adeb150827 7ab54f.shtml.
[6]周海.生成式人工智能輔助檔案編研工作的實現(xiàn)路徑構(gòu)建[J].北京檔案,2024(6):45-48.
[7]楊晶晶.生成式人工智能在檔案數(shù)字場景中的應(yīng)用研究[J].浙江檔案,2024(1):45-47,54.
[8]許劍穎,馮桂珍.ChatGPT賦能檔案服務(wù):技術(shù)特征、應(yīng)用場景與實現(xiàn)路徑[J].山西檔案,2023(6):111-120.
[9][16]尹良鑫.論生成式人工智能檔案產(chǎn)品的真實性維護[J].檔案與建設(shè),2023(12):39-42.
[10]劉麗,王兆偉,張明智,等.生成式人工智能對檔案工作的影響——從ChatGPT談起[J].浙江檔案,2023(9):47-50.
[11]美聯(lián)社自動寫稿系統(tǒng)運營正?;巡恍枞斯ぜm錯[EB/OL].[2024-07-20].https://world. huanqiu.com/article/9CaKrnJHnTx.
[12]張輝華.學(xué)習(xí)貫徹習(xí)近平文化思想推動檔案編研高質(zhì)量發(fā)展——在2023年檔案編研工作座談會上的講話(摘要)[J].四川檔案,2023(6):12-14.
[13]人工智能ChatGPT當(dāng)導(dǎo)演,電影人真要失業(yè)了?[EB/OL].[2024-07-20].https://www.163.com/ dy/article/HT9P0HD10517CGO5.html.
[14]亞馬遜云科技:跨境電商新動力——生成式AI技術(shù)的應(yīng)用與創(chuàng)新[EB/OL].[2024-07-20]. https://www.sohu.com/a/793989791_120157439.
[15][17]2022年度全國檔案主管部門和檔案館基本情況摘要(一)[EB/OL].[2024-07-20]. https://www.saac.gov.cn/daj/zhdt/202308/b2d8cfbede054 6c68b4bfdb0889f2702.shtml.
[18]李建港.數(shù)字化轉(zhuǎn)型背景下麗水市檔案館公共服務(wù)優(yōu)化研究[D].南寧:廣西民族大學(xué),2024.
[19]邱瑾,黃茂漢.生成式人工智能對高校圖書館的影響及應(yīng)對策略——以ChatGPT大型語言模型為例[J].圖書館工作與研究,2024(3):58-66.
[21]浙江省委辦公廳 省政府辦公廳印發(fā)《關(guān)于推進新時代檔案事業(yè)現(xiàn)代化先行的意見》[N].中國檔案報,2024-04-08(04).
[22]互聯(lián)網(wǎng)信息服務(wù)深度合成管理規(guī)定[EB/ OL].[2024-07-20].https://www.cac.gov.cn/2022-12/11/c_1672221949354811.htm.
[24]全國信息安全標(biāo)準(zhǔn)化技術(shù)委員會.TC260-003《生成式人工智能服務(wù)安全基本要求》發(fā)布[EB/ OL].[2024-07-20].https://www.tc260.org.cn/ front/postDetail.html id=20240301164054.
[25]李明昊.生成式人工智能的數(shù)據(jù)風(fēng)險與中國路徑[J].網(wǎng)絡(luò)安全技術(shù)與應(yīng)用,2024(4):139-141.
[26]儲節(jié)旺,羅怡帆.人工智能生成內(nèi)容賦能圖書館知識服務(wù)的路徑研究[J].情報理論與實踐,2024(8):34-42.
[27]李姍姍,王小云,房小可,等.檔案教育與檔案人才隊伍建設(shè)的守正創(chuàng)新[J].檔案與建設(shè),2024(8):19-23.
(責(zé)任編輯:陳 騫)