提 要 大語言模型的出現(xiàn)對詞典自動化編纂產生了重大影響?;谠~向量和權重參數(shù)優(yōu)化等基本原理,廣東外語外貿大學詞典學研究中心研發(fā)的“百年來歐美外來詞語言資源平臺”系統(tǒng),引入大語言模型對外來詞語料庫等進行訓練和調優(yōu),同時建立完善的人工審核機制,歷時4000 余小時生成3 萬余條外來詞自動釋義、溯源和例句。通過平臺自有模型和ChatGPT 對外來詞釋義準確率的對比實驗,證明該編纂方法的有效性和可行性,發(fā)現(xiàn)持續(xù)更新數(shù)據(jù)庫、加強文獻研究、豐富專用語料庫、強化人工檢查,將對生成高質量釋義產生較大影響。大語言模型較之傳統(tǒng)手工編纂有碾壓性優(yōu)勢,其應用將沖擊現(xiàn)有電子詞典形態(tài),改變未來的詞典查詢行為。詞典編纂專家與人工智能專家需要協(xié)同合作,對模型輸出的內容進行質量控制。而版權問題也將轉化為數(shù)據(jù)歸屬權問題,需要各方專家共同制定相關規(guī)則。大語言模型在漢語詞典自動化編纂方面的應用潛力不應被低估,預計它還能被擴展至其他語言和專業(yè)領域的詞典編纂中,進一步促進詞典學領域的新突破。
關鍵詞 大語言模型;詞典編纂;人工智能;自動化;外來詞
中圖分類號H002 文獻標識碼A 文章編號2096-1014(2025)02-0061-12
DOI 10.19689/j.cnki.cn10-1361/h.20250206
一、引 言
近年來,人工智能技術不斷進步,對社會發(fā)展的方方面面產生了重要影響。自2022 年年底ChatGPT 發(fā)布以來,基于大語言模型的文本自動化生成技術在眾多領域展現(xiàn)出巨大的潛力。ChatGPT以其卓越的語言理解、內容生成及精準捕捉用戶意圖的能力,在許多應用場景中表現(xiàn)出強大的實用價值,如智能客服支持、輔助文本創(chuàng)作、語言教育輔導和復雜數(shù)據(jù)分析等(車萬翔,等2023,楊爾弘,胡韌奮2024)。其核心技術大語言模型(Large Language Models,LLMs),不僅在眾多自然語言處理任務上表現(xiàn)出領先水平,而且廣泛應用于計算機視覺、多模態(tài)分析等領域,成為推動當今社會和經濟進步的關鍵技術力量之一(李耕,等2023)。當前大語言模型普遍基于Transformer 架構,利用注意力機制有效捕捉輸入文本中的長距離依賴關系。這種架構不僅具備出色的規(guī)模擴展能力,而且能夠高效地進行并行計算。大語言模型的基本原理就是通過上文來預測下一個詞(劉挺2023),這種預測通常通過詞與詞之間的概率統(tǒng)計分析和相似度計算來決定。由于采用了基于神經網(wǎng)絡的文本生成方法,大語言模型通過在大量無標簽文本數(shù)據(jù)上進行無監(jiān)督訓練,從而學習到豐富的語言知識和世界知識。特別是以GPT(Generative Pretrained Transformer)系列模型為代表的生成式預訓練模型,在文本生成任務上展現(xiàn)出了驚人的能力。這種令人印象深刻的文本生成能力可否應用在詞典文本的輔助編纂中,成為當下學界關注的焦點之一。
作為語言學的重要組成部分之一,詞典編纂一直以來都面臨著繁重的工作和復雜的流程。傳統(tǒng)的詞典編纂過程耗時費力且存在更新滯后及良莠不齊等問題。為應對這些問題,詞典學專家一直在不斷努力嘗試利用信息技術和方法提升詞典編纂的效率和質量。中國詞典編纂信息化大致分為4 個階段:(1)20 世紀90 年代初,電子檢字表、索引階段;(2)20 世紀90 年代末,語料庫階段;(3)21 世紀初,語料庫+ 協(xié)同編纂平臺階段(呂海春2023);(4)新時代,基于人工智能的自動化編纂階段。由于大語言模型技術的興起,國內外詞典學專家紛紛開始討論利用大語言模型進行詞典編纂的可行性(deSchryver 2023 ;許桂芬2018 ;侯復旦,趙翠蓮2024)。融媒辭書的多模態(tài)內容的產生也需要借助這些最新的信息技術(章宜華2021,2024)。人工智能技術為傳統(tǒng)的詞典編纂方法提供了一個新的視角,特別是在迅速增長的新詞新義面前,其生成能力表現(xiàn)出了明顯的優(yōu)勢。但鑒于目前機器學習仍具有局限性,引入人工審核環(huán)節(jié)對生成詞典內容的準確性和可靠性起到至關重要的作用。盡管這些技術會對詞典編纂帶來一定的便利,但新的技術和方法也需要不斷地優(yōu)化和創(chuàng)新,以應對語言的持續(xù)演變。
本文主要采用大語言模型技術對詞典的語料庫和知識庫進行學習訓練,從而使其具備詞語自動釋義、溯源和例句生成的能力。首先闡述大語言模型應用于詞典編纂的主要原理。然后,詳述基于大語言模型的詞典自動化編纂平臺整體架構和核心技術,包括語料收集處理、模型訓練調優(yōu)、人工審核機制等。再次,通過平臺自有模型和ChatGPT 對外來詞釋義準確率的對比實驗,證明該編纂方法的有效性和可行性。最后,探討該方法在實際應用中的潛在價值和未來發(fā)展方向,并思考大語言模型對詞典編纂的影響。本文的實驗數(shù)據(jù)均來自廣東外語外貿大學詞典學研究中心科研團隊研發(fā)的“百年來歐美外來詞語言資源平臺”系統(tǒng)。該平臺在ChatGPT 剛剛發(fā)布不久就將大語言模型技術嵌入到外來詞的自動釋義、例句自動生成和詞源溯源等研究當中。其大語言模型歷時4000 余小時生成了3 萬余條外來詞釋義及其相關信息,實驗取得了良好效果。研究表明,大語言模型技術在漢語詞典自動化編纂方面的應用潛力不應被低估。預計它還能被擴展至其他語言和專業(yè)領域的詞典編纂中,并進一步推動詞典編纂行業(yè)的現(xiàn)代化進程。
二、大語言模型應用于詞典編纂的主要原理
GPT 中文全稱是“生成式預訓練轉換器”,其中“生成式”表示模型可以生成自然語言文本,而“預訓練”則表示該模型在使用時需要進行微調和優(yōu)化(馮志偉,等2023)。它是一種基于Transformer架構的語言模型(Vaswani et al. 2017),使用前饋神經網(wǎng)絡和自注意力機制來生成自然語言文本,可以用于各種自然語言處理任務,如文本生成、文本分類和問答系統(tǒng)等。GPT 采用詞向量的方法將每個單詞實數(shù)化,以便于計算機進行計算并推理。詞向量概念被大眾廣泛關注始于2013 年美國谷歌公司推出的詞向量Word2Vec 項目。在詞向量方法中,每個向量化的詞都可以看作一個被投射到詞空間中的點,在這個巨大的詞空間中具有相似含義、語義或相關語言信息的詞互相處于平行和接近的位置。例如,cat(貓)的詞向量可以表示為:
[0.0074, 0.0030, -0.0105, 0.0742, 0.0765, -0.0011, 0.0265, 0.0106, 0.0191, 0.0038, -0.0468,-0.0212, 0.0091, 0.0030, -0.0563, -0.0396, -0.0998, -0.0796, …, 0.0002]
-0.0212, 0.0091, 0.0030, -0.0563, -0.0396, -0.0998, -0.0796, …, 0.0002]其完整的向量長度實際上有300 個實數(shù)之多。而與單詞cat(貓)最為接近的單詞有dog(狗)、kitten(小貓)和pet(寵物)。采用實數(shù)向量來表示單詞的一個主要優(yōu)勢在于,數(shù)字可以實現(xiàn)字母所不能進行的數(shù)學計算操作。相較于單詞的不可計算性,大語言模型使用的實數(shù)向量可以擁有數(shù)百甚至數(shù)千個維度,創(chuàng)造出一個極為復雜的向量空間。對于人類來說,想象一個如此高維度的空間是非常困難的,但計算機卻能夠有效地在這個空間中進行推理和計算,從而得出有價值的結果。
以下為一組類比推理:
biggest – big + small = smallest
woman – man + king = queen
ate – eat + speak = spoke
如圖1 所示,在上述類比推理中,單詞在詞向量空間中通過向量運算獲得多樣化的語言關系。a 這種向量化的數(shù)據(jù)再經過神經網(wǎng)絡計算就成為大語言模型預測下一個單詞的依據(jù)。
Timothy Lee 和Sean Trott 認為,對于單詞的同音異義詞、多義詞的情況,大語言模型主要通過上下文來捕捉其具體的意義。a 例如:
· John picks up a magazine.(約翰撿起了一本雜志。)
· Susan works for a magazine.(蘇珊為一家雜志社工作。)
其中的magazine 含義并不相同。類似的詞語還有bank(銀行)、bank(河岸)等。像ChatGPT 這樣的大語言模型能夠根據(jù)單詞出現(xiàn)的上下文,用不同的向量表示相同的單詞。詞向量中可以有一個銀行(金融機構)的向量和一個河岸(河流)的向量,有一個用于雜志(出版物)的向量和一個用于雜志社(組織)的向量。結合語境并通過多維向量方式,大語言模型就能夠處理多義和歧義等問題。
早期人工智能語言模型主要依賴于大量標注過的數(shù)據(jù)進行訓練,且面向的是單一的任務和場景。這導致其應用成本較高,對不同場景的適應力較弱,難以大規(guī)模推廣。而大語言模型的一個關鍵技術在于,其基石模型的訓練數(shù)據(jù)是不需要被明確標注的。它可通過預測普通文本段落中的下一個單詞來進行訓練。這種訓練的目的就是獲取單詞的權重參數(shù)。幾乎網(wǎng)絡上的所有文本語料都可以用來訓練大語言模型。不過,早期的ChatGPT-1 模型在單詞預測方面表現(xiàn)得并不如人意,這是由于大語言模型最初的權重參數(shù)實際上還像一個隨機數(shù)。但隨著大語言模型不斷地讀取文本語料,它的詞向量權重參數(shù)也不斷隨之調整和豐富,從起初的隨機數(shù)慢慢變化為后來具有一定意義的實際權重參數(shù)。它閱讀的語料越多,參數(shù)的權重就越豐富和準確,久而久之就產生了從量變到質變的轉化,學者們將這種轉變稱為“大模型涌現(xiàn)”。例如,當ChatGPT-3 的語料規(guī)模達到5000 億詞時,其權重參數(shù)也達到1750 億個(饒高琦,等2023),參數(shù)量占到語料量的35%。因此,可以說大語言模型是對電子語料、互聯(lián)網(wǎng)文本的一種特殊的“壓縮”。由于是“壓縮”,所以模型給出的答案會存在所謂的“幻覺”現(xiàn)象。大語言模型依賴訓練形成的參數(shù)壓縮文件就是模型對人類世界知識的理解。從代碼層面看,大語言模型通常由兩個文件組成:一是參數(shù)文件,一是運行參數(shù)的代碼文件。這個代碼文件可以是C 語言或者其他高級語言編寫而成的。以llama-2-70b 模型為例,其參數(shù)文件大小為140Gb,其運行文件run.c 有500 余行代碼。b 有了這兩個文件,大語言模型就可以開始工作了。人們通過一臺普通電腦在不聯(lián)網(wǎng)的情況下就可以開始與大語言模型進行人機對話。
三、基于大語言模型的詞典自動化編纂平臺設計方案
本文的實驗數(shù)據(jù)主要來自“百年來歐美外來詞全息語料庫的建設與‘ 漢語化’ 機制研究”第一子課題的相關研究。該子課題的主要內容是建立“外來詞基礎數(shù)據(jù)庫”“外來詞研究文獻資源庫”“外來詞相關語料庫”“外來詞全息數(shù)據(jù)庫”和“外來詞資源應用平臺”?!巴鈦碓~基礎數(shù)據(jù)庫”是基于外來詞詞條建立的,用戶可瀏覽和查詢外來詞基礎信息,提取其屬性?!巴鈦碓~研究文獻資源庫”收錄外來詞領域及其相關領域的研究文獻和研究資料?!巴鈦碓~相關語料庫”建立在“外來詞研究文獻資源庫”基礎上,收錄中國新文化運動至今的充足的紙質語料和網(wǎng)絡語料?!巴鈦碓~全息數(shù)據(jù)庫”用來查詢和展示外來詞的全景相關信息?!巴鈦碓~資源應用平臺”通過全息數(shù)據(jù)庫和外來詞語料庫模塊的集成解決應用問題,比如對外來詞的快速查詢和智能釋義,還可以自動生成特定版式的詞典電子文檔。該平臺采用API 接口調用方式,通過購買授權的API 密鑰接入大語言模型系統(tǒng)。
具體成果“百年來歐美外來詞語言資源應用平臺”(主界面如圖2 所示)共分為6 個模塊:外來詞語料庫、全息數(shù)據(jù)庫、文獻資源庫、系統(tǒng)簡介、大語言模型和用戶管理。外來詞語料庫建設的主要目的是展示真實的語例,方便用戶查詢外來詞的句法環(huán)境、使用特征等。除外來詞研究文獻之外,我們還搜集了充足的紙質語料和網(wǎng)絡語料,其中包括中文文獻2591 冊(篇),外文文獻7238 冊(篇),后續(xù)還將不斷添加相關文獻資料。外來詞研究文獻資源庫和外來詞相關語料庫中文獻和語料的搜集主要通過兩條渠道:一是相關材料的紙媒,二是互聯(lián)網(wǎng)。紙質資料需要通過機器掃描+ 人工干預整理,除新馬泰地區(qū)的媒體語料之外大多為紙質書籍的形式。網(wǎng)絡資料需要用爬蟲抓取技術進行搜集,用數(shù)據(jù)挖掘技術提取相關信息。
我們專門編寫了語料導入處理工具軟件(如圖3 所示)。該模塊可以對語料進行遍歷和整理,并對每一個文本進行中文分詞、標注和相關統(tǒng)計。通過工具軟件對語料進行預處理,對建設語料庫查詢系統(tǒng)具有十分重要的意義。
“外來詞語料庫”采用SQLite 數(shù)據(jù)庫工具軟件構建,匯集辭書、專著、研究論文和網(wǎng)絡媒體的語料,并進行了電子化處理。通過分類梳理各類文獻、編制語料庫查詢界面(如圖4 所示),在此基礎上形成了“外來詞基本數(shù)據(jù)庫詞表”。其中具有代表性的詞表主要來源于《新華外來詞詞典》(史有為2019)、《漢語字母詞詞典》(劉涌泉2009)以及外語中文譯寫規(guī)范部際聯(lián)席會議專家委員會審議通過的第一至十三批推薦使用外語詞中文譯名表等。在該模塊中主要有外來詞的詞源特征(國別、形式、詞類、出現(xiàn)年代)、漢化異形詞、詞義、提取出版物、書證來源(例句和出現(xiàn)時間)、知識注釋、副條等內容。上述大部分屬性均可利用大語言模型進行內容生成。
(一)訓練與調優(yōu)
我們采用大語言模型作為實驗架構,并使用大量多語言語料進行訓練。在系統(tǒng)中,訓練與優(yōu)化過程占據(jù)了重要地位。大語言模型的性能反映了其訓練數(shù)據(jù)的質量和數(shù)量。以下是我們訓練與優(yōu)化的過程和策略。
1. 訓練語料的選擇。語料需滿足多樣性,且盡量包含更多的詞性、義項和詞義、釋義等詞典編纂所需的元信息。具體包括從網(wǎng)絡獲取的大規(guī)模未標注語料和人工創(chuàng)建的高質量詞典語料。
2. 預處理。包括文本清理、標記化、詞根化和詞性標注等。文本清理是必不可少的,包括去除亂碼、非打印字符、HTML 標記等。標記化是將文本分解成更容易管理的小塊(如單詞、句子)。此外,還需要進行詞根化和詞性標注,以應對詞典編纂中的語言學問題。
3. 模型訓練。應用最新的模型架構如Transformer 等,并使用了優(yōu)化算法。模型訓練的過程類似于自監(jiān)督學習,即模型通過預測語料庫中的下一個詞或短語來自我生成新的文本。
4. 模型調優(yōu)。模型訓練后引入反饋機制,由詞典編纂專家來校對模型的輸出。專家核查模型生成的詞條和釋義并提供反饋信息,然后我們將反饋信息融入模型的訓練中,使模型能夠進行自我改進。
在每次訓練迭代和優(yōu)化過程中,我們始終以提高系統(tǒng)的準確性、操作性和最終的用戶體驗為目標。將這些實踐應用于模型的訓練過程中,可以確保得到的模型是針對詞典編纂任務進行優(yōu)化的,且可以產出高質量的詞典編纂結果。
圖5 展示了按照“外來詞基本數(shù)據(jù)庫詞表”詞目詞生成的AI(智能)釋義、詞源和中英文雙語例句。例句還可按照類別生成不同類型。
(二)人工審核機制
雖然大語言模型在自動生成詞典內容方面有著卓越的能力,但為確保最終輸出的質量和準確性,人工審核仍是必不可少的環(huán)節(jié)。人工審核機制起到了糾正誤解和避免錯誤傳播的關鍵作用。以下詳述我們的人工審核機制。
1. 審核界面(如圖6 所示)。我們設計了一個直觀便捷的在線審核界面,使編輯和校對者能輕松地查看模型生成的結果,并對其進行校對。界面包括各類詞典內容、詞條、釋義及例句等,并對應有相關的審核和操作選項。
2. 審核流程。審核員首先檢查自動生成的詞典內容,包括但不限于詞條的選擇、釋義的準確性和例句的相關性;然后對有需要的地方進行修改、刪除或添加操作;最后,確認該詞條可否被錄入詞典數(shù)據(jù)庫,并反饋給系統(tǒng)。
3. 反饋與迭代。系統(tǒng)將根據(jù)審核員的反饋進行學習和調整。審核員更改了某個詞條的釋義,系統(tǒng)將記錄這個更改,并在此基礎上調整模型參數(shù)。這是一種迭代學習過程,模型將不斷從人的知識和經驗中學習并改進。
4. 優(yōu)化審核效率。我們使用了一些輔助工具和策略。系統(tǒng)將預測可能需要更嚴格審查的詞條,并將其優(yōu)先呈現(xiàn)給審核員。采用分布式的審核流程,讓多位審核員可以同時在不同詞條上進行操作。
通過這樣的人工審核機制,我們不僅賦予詞典專家一個可以直接影響詞典內容生成的重要角色,還利用人類的專業(yè)知識和直覺來優(yōu)化我們的語言模型系統(tǒng)。
四、基于大語言模型的詞典自動化編纂實驗結果及評估
我們從現(xiàn)有語料、相關文獻、辭書等資源庫中搜集了32 000 余個外來詞,使用“百年來歐美外來詞語言資源應用平臺”自有模型進行自動釋義,將生成結果與原始詞典釋義進行比較。結果顯示,該平臺生成的內容在準確性、完整性和一致性上都達到了較為令人滿意的水平。相比傳統(tǒng)的信息技術輔助編纂方法而言,基于大語言模型的自動生成方法更顯優(yōu)勢,可大大提高編纂的效率及準確性。
為了對比有據(jù),我們從32 000 余個外來詞中隨機選取了131 個詞(見表1),其中冷僻詞69 個,常見詞62 個,重復詞2 個。冷僻詞主要來源于佛經、藥物名稱及物理儀器名稱等。我們對這131 個詞分別進行了自有模型和ChatGPT 的詞語釋義訓練。生成釋義的準確率以《新華外來詞詞典》和《現(xiàn)代漢語詞典》(第7 版)的釋義為參照標準。做模型對比測試的主要目的是為今后建立自主、可控的辭書專有語言模型做前期的準備與探索。自有模型的主要優(yōu)勢是,用于訓練的語料資源能夠完全掌握在自己手中。對于ChatGPT 的訓練,我們每個詞語都給了一些額外的相關知識提示和上下文,以便其能夠更準確地生成釋義內容;對于自有模型,我們設定了比ChatGPT 更嚴苛的訓練條件,不給任何上下文和提示,僅給出詞目詞表。這樣做的目的是希望了解自有模型的抗壓能力有多強。
冷僻詞、常用詞和全部詞語的統(tǒng)計結果如下所示。
在冷僻詞釋義方面, 表2 顯示自有模型的準確率為23.19%,ChatGPT 的準確率為73.91%。ChatGPT 比自有模型準確率高很多,這主要是因為ChatGPT 的前期訓練語料庫巨大,且獲取了相應的上下文和相關知識提示;而自有模型沒有獲取提示,前期預訓練語料規(guī)模也不及ChatGPT。因此可以預見,對自有模型開展針對性訓練應該能夠大幅提高其對于冷僻詞的釋義能力。
在常見詞釋義方面,表3 顯示自有模型和ChatGPT 都表現(xiàn)出很好的準確性。自有模型達到98.39%的釋義準確度,ChatGPT 則達到100%。
對于131 個隨機選取的外來詞,表4 顯示自有模型釋義的準確率為58.78%,ChatGPT 的準確率為86.26%。拉低自有模型準確率的因素主要是冷僻詞釋義方面。如果給自有模型更為豐富的上下文提示及相關知識語料,自有模型對于冷僻詞釋義的準確性將會大幅提高。這將是我們后續(xù)開展的研究工作之一。
通過上述實驗結果,我們發(fā)現(xiàn)以下幾個方面能夠對生成高質量的詞典釋義產生較大影響。
(1)優(yōu)化和更新數(shù)據(jù)庫。由于語言是活動的,外來詞的使用也會因社會環(huán)境和文化背景的變化而變化。因此,需要不斷地更新和優(yōu)化數(shù)據(jù)庫,保持其及時性和準確性。
(2)注重文獻研究。雖然生成式大語言模型的使用大大提高了工作效率,但需注意,大語言模型技術并不能完全替代人工的文獻研究。因此,我們也需要重視并加強文獻研究工作。
(3)豐富專用語料庫。為了保證模型的準確性,我們需要定期豐富和更新專有語料庫,增加多元化的語料來源和類型,以訓練和優(yōu)化模型。
(4)強化人工檢查。無論大語言模型技術多么出色,它始終不能消除可能出現(xiàn)的誤差。因此,由人工進行盲查和修正是必要的。此外,還需要提出一套完整的模型測試標準、分級和方法(劉建達2024)。
五、大語言模型對詞典編纂影響的思考
大語言模型對詞典編纂的影響是多方面的。
1. 大語言模型無論在資料的搜集整理還是內容的快速整合方面均大大優(yōu)于傳統(tǒng)的手工編纂,甚至有碾壓性的優(yōu)勢。大語言模型編纂的速度快,生成的文本質量高,自動化程度高。尤其是以ChatGPT-4o 為代表的多模態(tài)語言模型,其自動分析圖像、讀取文件、數(shù)據(jù)分析的能力大大超過了以往的人工智能應用。
2. 大語言模型在語言方面具有強大的能力。它可以同時流暢輸出多種語言,高質量地完成多語種的內容生成,對于多語言詞典編纂來說是強有力的工具。大語言模型具有通用模型的優(yōu)勢,因此其靈活性和易用性也是其他工具所無法比擬的。對于不同的編纂體例,大語言模型可以隨時按照指令生成所需要的格式和詞條內容。而這些操作只需要幾句簡單的自然語言描述即可實現(xiàn),使用者無須學習復雜的代碼、命令或軟件工具的操作指令。對于沒有計算機專業(yè)知識背景的詞典編纂者來說是福音。
3. 大語言模型還可以完成對詞典內容進行二次校對、內容糾錯、文本預處理等任務。當使用者給出優(yōu)良的微調指令時,它能夠對文本進行內容、格式、語法等多方面的審讀,并著重標注出需要修正的文字,這對于編纂者來說又是很好的輔助。至于智能審讀的結果正確與否,其判定權仍然掌握在編纂者手中。
4. 大語言模型的出現(xiàn)給使用傳統(tǒng)編纂軟件工具的編纂者形成了巨大的挑戰(zhàn)。似乎一夜之間,已有的詞典編纂軟件都可以被具有自動化編纂能力的大語言模型所替代。這多少會讓研發(fā)、使用傳統(tǒng)編纂軟件工具的從業(yè)者有些焦慮甚至沮喪。雖然目前來看,大語言模型暫時還不能完全替代傳統(tǒng)編纂軟件,但這個趨勢越來越明顯。
5. 大語言模型的“幻覺”問題。眾所周知,由于大語言模型基于大量數(shù)據(jù)訓練,它可能會在沒有明確事實基礎的情況下生成聽起來合理,但實際上是錯誤或虛構的信息。特別為確保內容準確性和適應性,大語言模型對于非標準語言表達、地區(qū)差異和文化差異的處理以及掌握語言的不斷演變等方面還需要不斷訓練、學習和優(yōu)化。在詞典編纂中,這些方面可能會導致對詞語表達的誤解。因此,詞典編纂者在利用大語言模型時需要格外小心,對其生成的內容須進行仔細的審核和驗證。大語言模型在詞典編纂中是一種與人類專家合作的角色(袁毓林2024),而非完全替代。
6. 由于大語言模型的出現(xiàn),這種問答式的知識生產,也將給現(xiàn)有的電子字典、APP(應用程序)詞典的形態(tài)帶來沖擊。未來的詞典查詢行為可能會完全融合在問答式的人機交互方式中。這種問答式的交互較之現(xiàn)有的關鍵詞查詢方式,有著更加自然、平滑及精準的特點。再結合融媒體、多模態(tài)技術,基于大語言模型的詞典將不再是“無聲的老師”,而是一個集多語種、語音、視頻、文字及圖像等媒體融合、無所不知的“全能老師”。
7. 大語言模型生成內容的版權問題,在大語言模型出現(xiàn)之時便有很多討論,各國對此也開展了各種研究和相關政策的制定(李宇明2023)。這個問題從技術層面是可以解決的。對一個大語言模型的訓練起決定性作用的因素是數(shù)據(jù),當今大語言模型本身已經不是壁壘,而真正的壁壘是針對應用場景的大數(shù)據(jù)。誰有第一手的海量數(shù)據(jù),誰就可以在這個領域練成最強大語言模型。而版權問題也將轉化為數(shù)據(jù)的歸屬權問題,這需要各方專家一道共同制定相關規(guī)則。
未來的電子詞典形態(tài)將會更加多樣和豐富,一個語言模型本身可能就是一個詞典,或者是訓練出專科詞典的專用大語言模型。專用模型相較于通用模型將更加專業(yè)和準確。這也帶來一個新的思考:隨著人工智能時代的到來,大語言模型是否是最適合應用在詞典編纂領域的新技術之一?詞典編纂的模式是否會有顛覆性的發(fā)展和變革?
六、結 論
基于大語言模型的詞典自動化編纂是詞典學和計算機科學的交叉研究領域的新方法,對比傳統(tǒng)的詞典編纂過程,這種方法展現(xiàn)出了顯著的優(yōu)勢。傳統(tǒng)詞典編纂通常需要詞匯學家和語言學家們耗費數(shù)年時間通過人工方式逐一收集、驗證并定義詞語。而大語言模型則通過分析大規(guī)模語料庫來理解和生成文本,能夠自動提取新詞并根據(jù)上下文內容釋義,這對于跟蹤語言的自然演變尤為重要。特別是對于外來詞、新詞、行業(yè)術語等這些經常迅速變化的語言形式,傳統(tǒng)方法很難實時捕捉,而大語言模型則能夠高效地從不斷更新的語料庫中學習這些新詞語及其用法。在自動化編纂詞典的過程中,大語言模型能夠提供詞義、用例、語法信息等,這大大提升了詞典內容生成的效率和質量。此外,這種方法還有助于發(fā)現(xiàn)和糾正傳統(tǒng)詞典中可能存在的錯誤或疏漏。利用大語言模型的自動化編纂方法,詞典的內容不僅限于傳統(tǒng)的定義和用法,還可以自動生成包括詞語的歷史發(fā)展、變體、同義詞、反義詞等信息,甚至使用示例和語言學分析。這為詞典內容的豐富性和創(chuàng)新性開辟了新的可能。
然而,盡管大語言模型在詞典編纂中展現(xiàn)出顯著優(yōu)勢,人工審核環(huán)節(jié)仍然不可或缺。自動化生成的詞匯條目需要由專業(yè)人員進行審核,以確保其準確。為了提高模型的準確性和豐富性,不斷更新和優(yōu)化數(shù)據(jù)庫是關鍵。同時,文獻研究和專用語料庫的建設,可以進一步提升模型對于語言的理解能力。豐富的專用語料庫是提高模型性能的另一個重要方面,這意味著不僅要收集標準語言資料,還要收集包括專業(yè)術語、歷史文獻等多種形式的語言使用實例。通過這種方式,模型才能夠更全面地理解和反映語言的多樣性。此外,機器學習模型有著從數(shù)據(jù)中學習的特點,它們可能會從有偏見的語料庫中學到并復制這些偏見,因此需要對輸入數(shù)據(jù)進行仔細的篩選和平衡。詞典編纂工作的自動化,對專業(yè)人員的角色也提出了新的要求。詞典編纂專家與人工智能專家需要協(xié)同合作,對模型輸出的內容進行質量控制。
總之,研究表明大語言模型在詞典自動化編纂中具有巨大的潛力,增加了詞典編纂的深度和廣度。只有真正深入學習和使用大語言模型,才能對它的能力有切身的體會和理性的認識。國產開源模型DeepSeek 的高質量推理生成、快速本地化部署和低廉的應用成本對于未來研發(fā)自主可控的辭書大語言模型具有深遠影響。隨著大數(shù)據(jù)和機器學習技術的不斷發(fā)展,我們可以期待未來會有更多創(chuàng)新性的大語言模型出現(xiàn)在詞典編纂和語言學習領域,這必將進一步促進詞典學領域的新突破。
參考文獻
車萬翔,竇志成,馮巖松,等 2023 《大模型時代的自然語言處理:挑戰(zhàn)、機遇與發(fā)展》,《中國科學:信息科學》第9 期。
馮志偉,張燈柯,饒高琦 2023 《從圖靈測試到ChatGPT—— 人機對話的里程碑及啟示》,《語言戰(zhàn)略研究》第2 期。
侯復旦,趙翠蓮 2024 《拓展人工智能時代詞典研編新方向—— 亞洲辭書學會第十六屆國際學術大會綜述》,《辭書研究》第1 期。
李 耕,王梓爍,何相騰,等 2023 《從ChatGPT 到多模態(tài)大模型:現(xiàn)狀與未來》,《中國科學基金》第5 期。
李宇明 2023 《人機共生時代的語言數(shù)據(jù)問題》,《華中師范大學學報(人文社會科學版)》第5 期。
劉 挺 2023 《從ChatGPT 談大語言模型及其應用》,《語言戰(zhàn)略研究》第5 期。
劉建達 2024 《人工智能時代的語言測評:機遇與挑戰(zhàn)》,《現(xiàn)代外語》第6 期。
劉涌泉 2009 《漢語字母詞詞典》,北京:外語教學與研究出版社。
呂海春 2023 《中國辭書數(shù)字化發(fā)展三十年》,《語言戰(zhàn)略研究》第5 期。
饒高琦,胡星雨,易子琳 2023 《語言資源視角下的大規(guī)模語言模型治理》,《語言戰(zhàn)略研究》第4 期。
史有為 2019 《新華外來詞詞典》,北京:商務印書館。
許桂芬 2018 《淺析人工智能在辭書編纂中的應用——以收詞立目為例》,《新聞傳播》第23 期。
楊爾弘,胡韌奮 2024 《大語言模型與語言研究的雙向賦能與融合發(fā)展》,《語言戰(zhàn)略研究》第5 期。
袁毓林 2024 《ChatGPT 能不能勝任語言學家的合作伙伴?》,《漢語研究》第2 期。
章宜華 2021 《融媒體視角下多模態(tài)詞典文本的設計構想》,《辭書研究》第2 期。
章宜華 2024 《融媒辭書的理論方法與實踐演化》,《語言戰(zhàn)略研究》第3 期。
Vaswani, A., N. Shazeer, N. Parmar, et al. 2017. Attention is all you need. In Proceedings of the 31st International Conference on Neural Information Processing Systems (NIPS’17), 6000–6010.
de Schryver, G-M. 2023. Generative AI and lexicography: The current state of the art using ChatGPT. International Journal of Lexicography 36(4), 355–387.
責任編輯:韓 暢
教育部哲學社會科學研究重大攻關項目“百年來歐美外來詞的全息語料庫建設與‘漢語化’機制研究”(21JDA050),廣東省高??蒲谢鹬卮笈嘤椖俊罢Z言資源與外語教學研究”(2018WZDXM011),廣東外語外貿大學引進人才科研啟動項目。