摘要:生成式大語言模型以ChatGPT為代表在科技文獻(xiàn)、企業(yè)文件、法律文書等各領(lǐng)域的應(yīng)用取得了顯著的成就,也引起了眾多研究者的關(guān)注。文章以水利檔案的大語言模型應(yīng)用為觀察點(diǎn),從適應(yīng)性和應(yīng)用場(chǎng)景兩方面進(jìn)行分析,就大語言模型在水利檔案領(lǐng)域的應(yīng)用可能存在的問題包括:數(shù)據(jù)安全性問題、專業(yè)性不強(qiáng)問題、信息準(zhǔn)確性未知問題和技術(shù)成本問題等,提出對(duì)策及進(jìn)行探討,為大語言模型在該領(lǐng)域的拓展提供建議。
關(guān)鍵詞:生成式模型;大語言模型;水利部門檔案;檔案分類;知識(shí)圖譜
中圖分類號(hào):TP391 文獻(xiàn)標(biāo)識(shí)碼:A
文章編號(hào):1009-3044(2024)31-0015-03
開放科學(xué)(資源服務(wù))標(biāo)識(shí)碼(OSID) :
0 引言
將人工智能應(yīng)用于檔案管理已成為國(guó)家對(duì)發(fā)展檔案事業(yè)的明確要求,并寫入《“十四五”全國(guó)檔案事業(yè)發(fā)展規(guī)劃》中。水利部門檔案管理是國(guó)家國(guó)土規(guī)劃、水利事業(yè)發(fā)展的基礎(chǔ)性工作。同時(shí)水利部門檔案存在數(shù)量多、類型廣、存儲(chǔ)格式復(fù)雜等特點(diǎn),近年來隨著信息化和數(shù)字化的發(fā)展,在水利部門檔案管理中取得了一定的成效,但存在兩個(gè)方面需要改進(jìn)的方向:一是現(xiàn)有部門檔案數(shù)據(jù)的利用效率不高;二是原有部門檔案按照數(shù)字化要求重新整理需要大量的工作。
在人工智能領(lǐng)域,近年來以ChatGPT為代表的生成式大語言模型是重要的熱點(diǎn),在眾多應(yīng)用領(lǐng)域中表現(xiàn)出優(yōu)異的性能[1]。生成式大語言模型通過預(yù)訓(xùn)練過程能夠理解復(fù)雜文本和隱含的語義關(guān)系,針對(duì)上述兩方面的問題,可以推動(dòng)對(duì)水利部門檔案數(shù)據(jù)的知識(shí)圖譜的構(gòu)建和新的服務(wù)領(lǐng)域的拓展。作為工程領(lǐng)域自然語言處理的典型應(yīng)用,本文結(jié)合生成式大語言模型在水利部門檔案中的應(yīng)用場(chǎng)景,來分析存在的問題,并提出可行的對(duì)策方法,其在水利檔案領(lǐng)域中的應(yīng)用和研究具有理論和實(shí)踐的雙重意義。
1 生成式大語言模型概述
人工智能生成技術(shù)(Artificial Intelligence Gener?ated Content, AIGC)是目前最吸引人的前沿技術(shù)之一[2]。用戶可以根據(jù)自己的個(gè)性化需求,使用生成式大語言模型自動(dòng)創(chuàng)建需要的內(nèi)容(如圖片、文字、視頻等)。隨著人工智能算法和網(wǎng)絡(luò)結(jié)構(gòu)的迭代發(fā)展,AIGC取得了重大進(jìn)展[3]。生成式對(duì)抗網(wǎng)絡(luò)(GAN)、對(duì)比語言-圖像預(yù)訓(xùn)練(CLIP)、擴(kuò)散模型以及多模態(tài)生成是AIGC各個(gè)領(lǐng)域的核心技術(shù),以便自動(dòng)生成高質(zhì)量的內(nèi)容[4]。在2022年底,OpenAI發(fā)布了ChatGPT的公開版本,它完美地回應(yīng)了任何用自然語言描述的人類請(qǐng)求,進(jìn)一步吸引了全世界的關(guān)注[5-6]。
1.1 發(fā)展過程
ChatGPT集成了深度學(xué)習(xí)、無監(jiān)督學(xué)習(xí)、指令微調(diào)、多任務(wù)學(xué)習(xí)、上下文學(xué)習(xí)和強(qiáng)化學(xué)習(xí)等多種技術(shù),功能強(qiáng)大。ChatGPT 建立在最初的GPT(GenerativePretrained Transformer) 模型之上,該模型已從GPT-1 迭代更新為GPT-4。GPT-1于2018年開發(fā),其最初目的致力于通過無監(jiān)督學(xué)習(xí)訓(xùn)練基于一個(gè)Transformer 框架的生成式語言模型,并通過對(duì)下游任務(wù)進(jìn)一步微調(diào)該預(yù)訓(xùn)練模型。2019 年開發(fā)的GPT-2,則相對(duì)GPT-1基礎(chǔ)上主要引入多任務(wù)學(xué)習(xí)的思想,采用比GPT-1更多的網(wǎng)絡(luò)參數(shù)和數(shù)據(jù)進(jìn)行訓(xùn)練,使預(yù)訓(xùn)練的生成語言模型可以推廣到大多數(shù)監(jiān)督子任務(wù)中,而無須進(jìn)一步微調(diào)。2020年為了進(jìn)一步提高模型在少樣本或零樣本設(shè)置上的性能,GPT-3被推出。GPT-3將元學(xué)習(xí)和上下文學(xué)習(xí)相結(jié)合,使模型的泛化能力得到大幅提升,在各種下游任務(wù)上超過了大多數(shù)現(xiàn)有方法。2023年推出的GPT-4是一個(gè)接受圖像和文本輸入并發(fā)出文本輸出的大型多模態(tài)模型,并且隨著自監(jiān)督學(xué)習(xí)和多模態(tài)大模型的不斷發(fā)展,ChatGPT在各種專業(yè)和學(xué)術(shù)基準(zhǔn)上已經(jīng)表現(xiàn)出了接近人類水平的性能。
ChatGPT的zero-shot learning能力是重要的研究亮點(diǎn),這一能力也被稱為通用適配能力。這一能力使其在無需特定領(lǐng)域任務(wù)數(shù)據(jù)訓(xùn)練微調(diào)的情況下,就能夠發(fā)現(xiàn)新的類別。這一特點(diǎn)使其靈活性和通用性在面對(duì)新的任務(wù)或數(shù)據(jù)時(shí)發(fā)揮作用。
1.2 工作原理
生成式大語言模型是基于Transformer框架的自然語言處理模型。以ChatGPT為例,其主要通過預(yù)訓(xùn)練和微調(diào)兩種方式進(jìn)行訓(xùn)練。在預(yù)訓(xùn)練方式中,模型通過自監(jiān)督學(xué)習(xí)方式訓(xùn)練模型參數(shù),嘗試預(yù)測(cè)給定上下文的每一個(gè)詞,從而學(xué)習(xí)到訓(xùn)練語言中的語法、語義、語序和上下文相關(guān)的知識(shí)。微調(diào)的目的是針對(duì)特定的任務(wù)對(duì)模型參數(shù)進(jìn)行優(yōu)化,使其能更加適應(yīng)具體的場(chǎng)景。
2 生成式大語言模型在水利部門檔案中的應(yīng)用
2.1 適應(yīng)性分析
水利部門檔案根據(jù)其不同的數(shù)據(jù)及技術(shù)規(guī)范要求,具有多種不同的類型。這些類型在內(nèi)容、格式、采集方式、使用領(lǐng)域等方面存在差異。這就需要生成式大語言模型的泛化能力。ChatGPT在對(duì)海量的數(shù)據(jù)的訓(xùn)練下,憑借其對(duì)泛化能力的設(shè)計(jì),展現(xiàn)出對(duì)水利部門檔案電子文檔的優(yōu)秀處理能力。
同時(shí)在通用的大語言模型之外,可以通過特定類型的水利部門檔案電子文檔對(duì)大語言模型進(jìn)行微調(diào),從而呈現(xiàn)垂直細(xì)分領(lǐng)域的大語言模型,更具有針對(duì)性。這就需要高質(zhì)量和一定數(shù)量的領(lǐng)域數(shù)據(jù),水利部門檔案經(jīng)過多年的積累和電子化過程,其專業(yè)性和規(guī)范性使其比其他類型電子文檔更具有真實(shí)、全面、專業(yè)等優(yōu)勢(shì)。這些數(shù)據(jù)加入特定領(lǐng)域生成式大語言模型中作為訓(xùn)練語料,可有效補(bǔ)充該領(lǐng)域數(shù)據(jù)偏置的問題。
2.2 應(yīng)用場(chǎng)景分析
1) 水利部門檔案分類與摘要抽取。
在水利部門檔案的編制過程中,需要對(duì)每份檔案的目錄與內(nèi)容進(jìn)行核對(duì)及分析,確定其分類,并對(duì)檔案的內(nèi)容進(jìn)行摘要抽取,并做好記錄。這一過程通過生成式大語言模型可以很好地理解檔案文檔的內(nèi)容,從而對(duì)該檔案進(jìn)行準(zhǔn)確的分類,并生成流暢的符合水利檔案要求的摘要。
大語言模型經(jīng)過海量各種類型文本的訓(xùn)練,生成了大規(guī)模的模型參數(shù),這些參數(shù)針對(duì)文本中的各種顯式和隱式的知識(shí)進(jìn)行獲取,能夠?qū)λ块T檔案中各類信息進(jìn)行精確的理解和分析,再輸出按照任務(wù)所需要的各類型信息和摘要,能夠顯著改善檔案管理過程中的效率和質(zhì)量。
2) 水利部門檔案的知識(shí)圖譜構(gòu)建。
水利部門檔案工作的一個(gè)重要任務(wù)是構(gòu)建每份檔案之間的知識(shí)圖譜,面臨的挑戰(zhàn)主要有:一是檔案之間的關(guān)聯(lián)及關(guān)聯(lián)程度如何快速有效地獲?。欢且呀?jīng)構(gòu)建的知識(shí)圖譜可能存在不全遺漏等問題。
通過大語言模型可以有效緩解或解決上述問題,協(xié)助構(gòu)建更加完整準(zhǔn)確的水利部門檔案知識(shí)圖譜。在水利部門檔案檢索任務(wù)中,通過大語言模型與知識(shí)圖譜相互協(xié)作,可以先在大語言模型中解析查詢要求,構(gòu)建語義相似度檢索目錄,再通過知識(shí)圖譜尋找最優(yōu)的檢索結(jié)果,從而精準(zhǔn)查詢用戶需求,提升質(zhì)量和效率;在知識(shí)圖譜不全過程中,可以利用大語言模型對(duì)原有知識(shí)圖譜進(jìn)行知識(shí)的再發(fā)現(xiàn),對(duì)原知識(shí)圖譜中的錯(cuò)誤、遺漏、增加等工作進(jìn)行快速有效的反應(yīng)[7]。通過智能化的處理極大提高知識(shí)圖譜構(gòu)建的科學(xué)性和可靠性,為水利部門檔案管理智能化提供解決方案。
3) 水利部門檔案智能問答系統(tǒng)。
水利部門檔案的智能問答系統(tǒng)可以為社會(huì)公眾需求提供有益的智力和技術(shù)支持,從而提升水利部門檔案服務(wù)社會(huì)的能力。在具體的實(shí)施過程中存在的問題有:一是如何有效區(qū)分所需要回答服務(wù)的安全性和保密性方面的要求;二是如何有效準(zhǔn)確、全面地理解所提問的問題,并有效檢索知識(shí)庫(kù),作出及時(shí)響應(yīng);三是如何通過收集各種問題的需求,從而有效迭代提升現(xiàn)有知識(shí)庫(kù)的系統(tǒng)性和結(jié)構(gòu)化。
通過人工的方式無法有效和快速地做到深入分析水利部門檔案各種敏感信息,而大語言模型能夠結(jié)合現(xiàn)有自然語言處理的各種算法和技術(shù),再對(duì)水利部門檔案文檔進(jìn)行深度理解和分析,識(shí)別各種敏感信息,快速有效提升智能審核的效率和質(zhì)量,保障安全。在智能問答系統(tǒng)中,大語言模型在與用戶的幾輪對(duì)話式互動(dòng)中,了解用戶提問的上下文語境,從而全面理解用戶的需求,并根據(jù)每輪的反饋檢索知識(shí)圖譜,整理結(jié)果,及時(shí)給出流暢的詢問結(jié)果,同時(shí)現(xiàn)有大語言模型能夠理解文字、圖像等信息,所以反饋的結(jié)果既包含了詳盡的文字內(nèi)容也可以圖文并茂地展示對(duì)應(yīng)的多模態(tài)信息,從而提高用戶對(duì)問答系統(tǒng)的體驗(yàn)。大語言模型是開放的模型架構(gòu),能夠通過自監(jiān)督學(xué)習(xí)和主動(dòng)學(xué)習(xí)的機(jī)制,將問答系統(tǒng)中收集到的各種問題進(jìn)行聯(lián)系,迭代挖掘水利部門檔案中的各類信息,從而實(shí)現(xiàn)知識(shí)圖譜和問答系統(tǒng)知識(shí)庫(kù)的迭代更新,使現(xiàn)有的知識(shí)利用最大化。
3 應(yīng)用中可能存在問題及對(duì)策
3.1 可能存在問題分析
1) 水利部門檔案數(shù)據(jù)安全性問題。
數(shù)據(jù)安全是國(guó)家安全的重要組成部分,如何保障水利部門檔案中各類涉及個(gè)人、企業(yè)、部門、國(guó)家的信息安全,敏感信息的保密是一項(xiàng)極其重要的問題。在水利部門檔案通過生成式大語言模型進(jìn)行開發(fā)過程中,需要將大數(shù)據(jù)量的水利部門檔案文檔上傳至該模型所在的云端,這就存在敏感信息泄漏的風(fēng)險(xiǎn)。因此構(gòu)建屬于我國(guó)自主知識(shí)產(chǎn)權(quán)的生成式大語言模型,并在使用中嚴(yán)格遵守相應(yīng)的法律法規(guī),通過各種加密技術(shù)來全閉環(huán)地解決信息泄漏的風(fēng)險(xiǎn)挑戰(zhàn)。需要考慮。現(xiàn)有的大語言模型與檔案類相關(guān)的研究以小的模型為主,實(shí)際場(chǎng)景中的應(yīng)用在安全性仍存在一定風(fēng)險(xiǎn)。
2) 大語言模型在水利部門檔案應(yīng)用中專業(yè)性不強(qiáng)問題。
以ChatGPT為代表的大語言模型是在海量的各類型數(shù)據(jù)集上訓(xùn)練得到的通用大語言模型,其能夠在較為普通的非專業(yè)領(lǐng)域的數(shù)據(jù)上獲得較好的效果。但在不同的下游任務(wù)中,其獲得的結(jié)果會(huì)表現(xiàn)為綜合性好但專業(yè)性的不足。水利部門檔案數(shù)據(jù)相對(duì)于通用大語言模型訓(xùn)練的海量通用數(shù)據(jù)存在數(shù)據(jù)構(gòu)建和用詞等語言規(guī)范上的不同,從而會(huì)在語料數(shù)據(jù)的術(shù)語、語言組織、表現(xiàn)形式、專業(yè)知識(shí)內(nèi)涵等方面存在顯著差異。這些差異明顯的數(shù)據(jù)直接應(yīng)用于通用大語言模型,會(huì)因?yàn)槿狈?duì)水利部門檔案這一專業(yè)領(lǐng)域知識(shí)的缺乏而無法完全匹配,從而導(dǎo)致從理解到生成的偏差。這樣的問題也會(huì)影響在智能問答系統(tǒng)中的表現(xiàn),表現(xiàn)為非專業(yè)性。
3) 大語言模型獲取水利部門檔案中信息準(zhǔn)確性未知的問題。
生成式大語言模型采用基于神經(jīng)網(wǎng)絡(luò)的深度學(xué)習(xí)框架,其結(jié)構(gòu)由Transformer構(gòu)成,結(jié)構(gòu)復(fù)雜且參數(shù)眾多,在這一框架中每層的特征無法準(zhǔn)確解釋,從而造成人們對(duì)系統(tǒng)在學(xué)習(xí)過程中得到的知識(shí)準(zhǔn)確性未知,進(jìn)而給生成式大語言模型在實(shí)際中的使用帶來一定的風(fēng)險(xiǎn)挑戰(zhàn)。這一特性會(huì)導(dǎo)致生成式大語言模型在一些特殊場(chǎng)合生成無法控制的創(chuàng)造性結(jié)果,這對(duì)相對(duì)固化的水利部門檔案應(yīng)用帶來潛在風(fēng)險(xiǎn)。從而使生成的內(nèi)容相對(duì)于水利部門檔案真實(shí)性下降,造成一定的不可信度上升。
4) 大語言模型在水利部門檔案應(yīng)用中的技術(shù)成本問題。
生成式大語言模型需要強(qiáng)大的算力支持和一定的技術(shù)支持,在這一新技術(shù)應(yīng)用于水利部門檔案應(yīng)用時(shí),會(huì)帶來技術(shù)成本問題。體現(xiàn)在:一是傳統(tǒng)的水利部門檔案管理人員需要在原有的檔案技術(shù)標(biāo)準(zhǔn)和硬件基礎(chǔ)之上,進(jìn)一步接受新的技術(shù)培訓(xùn),從而在水利部門檔案的編輯管理中引入新的標(biāo)準(zhǔn)和內(nèi)容。二是生成式大語言模型采用的基于神經(jīng)網(wǎng)絡(luò)的深度學(xué)習(xí)技術(shù)存在復(fù)雜度相對(duì)較高,對(duì)使用者能力要求也相應(yīng)提高的問題,從而需要加大對(duì)管理者的培訓(xùn)投入,從而在普及階段投入較多人力和物力成本。
3.2 對(duì)策分析
生成式大語言模型作為人工智能技術(shù)的一個(gè)重大突破,在各行業(yè)中的應(yīng)用隨著時(shí)間的推移會(huì)更加深入和廣泛,在其應(yīng)用于水利部門檔案應(yīng)用過程中,需要從以下兩個(gè)方面進(jìn)行有針對(duì)性的投入。
1) 技術(shù)角度。
綜合前面提到的問題,在技術(shù)方面首先,提倡使用代碼開源或具有獨(dú)立自主知識(shí)產(chǎn)權(quán)的生成式大語言模型。首先,開源代碼的系統(tǒng)其模型細(xì)節(jié)可知,即對(duì)數(shù)據(jù)處理的過程安全有保障,在部署到云平臺(tái)等互聯(lián)網(wǎng)時(shí)安全可信,可以從模型最底層就控制好用戶的數(shù)據(jù)安全。其次,生成式大模型在水利部門檔案應(yīng)用中,需要對(duì)原始檔案文檔進(jìn)行準(zhǔn)確的語義理解,因此需要同時(shí)關(guān)注生成式大模型的兩個(gè)能力即自然語言理解和自然語言生成。自然語言理解能力對(duì)于水利部門檔案數(shù)據(jù)輸入后對(duì)其內(nèi)容全面、準(zhǔn)確完整地理解,直接關(guān)系到自然語言生成時(shí)的推理能力,并對(duì)摘要質(zhì)量、智能問答結(jié)果起到關(guān)鍵的作用。最后應(yīng)該在使用通用的生成式大語言模型的基礎(chǔ)上,構(gòu)建專業(yè)性更強(qiáng)的水利部門檔案大語言模型。通過在通用生成式大語言模型基礎(chǔ)上,加入水利部門檔案數(shù)據(jù)集進(jìn)行訓(xùn)練,同時(shí)在模型內(nèi)容引入水利部門檔案先驗(yàn)知識(shí),并進(jìn)行有針對(duì)的優(yōu)化,這樣產(chǎn)生的生成式大模型在水利部門檔案領(lǐng)域中具有更強(qiáng)和更高質(zhì)量的結(jié)果輸出。
2) 管理角度。
任何技術(shù)都需要在落地過程中與水利部門檔案管理相結(jié)合,在考慮技術(shù)的條件下,同時(shí)降低管理成本。即引導(dǎo)管理人員在使用生成式大模型時(shí)能夠切實(shí)接受對(duì)檔案管理工作帶來的效率提升,從而更加主動(dòng)地學(xué)習(xí)生成式大語言模型,形成良性循環(huán)。首先,應(yīng)用生成式大語言模型的管理部門需要摸清楚本部門的檔案信息化程度、員工的信息技術(shù)操作水平,對(duì)最新的人工智能技術(shù)了解程度,是否已經(jīng)在水利檔案的信息化過程中應(yīng)用了知識(shí)圖譜等新技術(shù)手段。其次,需要按照水利部門檔案管理的性質(zhì)和要求,結(jié)合生成式大語言模型的優(yōu)勢(shì),制定切實(shí)可行的推進(jìn)計(jì)劃。最后在水利部門檔案管理的各個(gè)層面,結(jié)合實(shí)際利用生成式大語言模型進(jìn)行各層次的優(yōu)化,逐步推向深入,從而節(jié)省培訓(xùn)成本。最終有效結(jié)合生成式大語言模型和水利部門檔案管理的應(yīng)用,達(dá)到雙贏結(jié)果。
4 總結(jié)
在生成式大語言模型不斷取得技術(shù)突破,能夠應(yīng)用的場(chǎng)景更加廣泛的今天,水利部門檔案的智能化是大勢(shì)所趨,生成式大語言模型必然在該領(lǐng)域大有可為。如何有效迎接挑戰(zhàn),抓住機(jī)會(huì),是本文想要提供的一個(gè)方面的思考。從人工智能技術(shù)發(fā)展的趨勢(shì)來說,生成式大語言模型在水利部門檔案應(yīng)用中的使用場(chǎng)景會(huì)更加多樣化和深入,構(gòu)建基于水利部門檔案的自有可控的生成式大語言模型是一個(gè)重要的方向。同時(shí)也會(huì)面臨諸多問題,通過針對(duì)性的應(yīng)對(duì)策略可以有效提升水利檔案服務(wù)社會(huì)的深度和廣度,促進(jìn)水利部門檔案工作高效智能化發(fā)展。
參考文獻(xiàn):
[1] 皇甫超.大語言模型在檔案實(shí)踐中的應(yīng)用研究[J].山西檔案,2024(1):128-131.
[2] 張丹.大語言模型與檔案資源開發(fā):前景、挑戰(zhàn)與應(yīng)對(duì)[J].山西檔案,2023(5):108-111.
[3] 胡毅.大語言模型在檔案領(lǐng)域中的應(yīng)用研究[J].辦公自動(dòng)化,2024,29(13):83-86.
[4] 楊磊.新質(zhì)生產(chǎn)力引擎:大語言模型的原理與應(yīng)用[J].中國(guó)信息技術(shù)教育,2024(9):77-82.
[5] 陳遠(yuǎn)洋.大語言模型在企業(yè)數(shù)字化轉(zhuǎn)型中的應(yīng)用[J].通訊世界,2024,31(3):129-131.
[6] 張婷婷.企業(yè)檔案部門對(duì)大語言模型的使用意愿影響因素研究[J].山西檔案,2023(5):112-117,107.
[7] 馮鈞,暢陽紅,陸佳民,等.基于大語言模型的水工程調(diào)度知識(shí)圖譜的構(gòu)建與應(yīng)用[J]. 計(jì)算機(jī)科學(xué)與探索,2024,18(6):1637-1647.
【通聯(lián)編輯:王力】