一、引 言
本文提到的編纂模式旨在提高詞典編纂效率,并為在線詞典學(xué)未來發(fā)展的三個(gè)重要理念提供依據(jù)(Fuertes-Olivera 待出版):其一,在線詞典學(xué)是一門獨(dú)立的學(xué)科,由四個(gè)要素組成:詞典數(shù)據(jù)、用戶、訪問與呈現(xiàn)、使用;其二,這四個(gè)要素相互關(guān)聯(lián)和制約,任何一個(gè)要素都會影響詞典編纂過程;其三,每個(gè)要素又相對獨(dú)立,可以同時(shí)具有多種功能,這些要素既是詞典的組成部分,也可以作為詞典的釋義內(nèi)容呈現(xiàn)出來。Fuertes-Olivera(2025)明確界定了在線詞典學(xué)是一門獨(dú)立學(xué)科,主要研究如何創(chuàng)建和/或驗(yàn)證詞典數(shù)據(jù)。這些詞典數(shù)據(jù)存儲在詞典編纂編輯軟件(LSE)的數(shù)據(jù)庫信息槽位中,方便詞典用戶檢索不同類型的信息并清楚地呈現(xiàn)出來,這種多功能在線電子詞典往往能夠以最直接、最快速的方式滿足不同詞典用戶的即時(shí)需求。根據(jù)上述釋義內(nèi)容,在線詞典學(xué)(e-lexicography)就好比是一個(gè)詞典“方陣”,包含四個(gè)相互關(guān)聯(lián)的要素:詞典數(shù)據(jù)、用戶、訪問與呈現(xiàn)及使用。詞典數(shù)據(jù)是指由詞典編纂者準(zhǔn)備或接受并存儲在LSE數(shù)據(jù)庫信息槽位中的所有數(shù)據(jù),這些數(shù)據(jù)直接轉(zhuǎn)換成信息,服務(wù)于真實(shí)用戶和/或機(jī)器。這一定義表明,詞典數(shù)據(jù)指的是詞典資源中的一組或多組詞典條目,這些條目最終被轉(zhuǎn)換成信息,信息轉(zhuǎn)換過程也就是輸人數(shù)據(jù)轉(zhuǎn)化為輸出知識的過程。用戶可以是真實(shí)的人類或機(jī)器,也可以說是詞典數(shù)據(jù)的消費(fèi)者或生產(chǎn)者。作為消費(fèi)者,他們要求詞典數(shù)據(jù)能夠滿足使用需求,適用于不同的使用情境。作為生產(chǎn)者,人類、自然語言處理(NLP)語料庫查詢工具及生成式人工智能聊天機(jī)器人都能夠積極地參與到詞典數(shù)據(jù)的準(zhǔn)備工作中去,例如Wikipedia和 Wiktionary所采用的所謂“自下而上的詞典編纂”方式就能很好地說明這一點(diǎn)。當(dāng)然,這種新情況也會影響數(shù)據(jù)訪問、呈現(xiàn)及用途等各個(gè)方面。數(shù)據(jù)訪問與呈現(xiàn)是與信息數(shù)字化相關(guān)的兩個(gè)概念。訪問是一種技術(shù),能夠使用戶在特定的語言外情境中搜索所需的數(shù)據(jù)。呈現(xiàn)是數(shù)據(jù)的展示方式,尤其是在數(shù)字環(huán)境中的展示。由此可見,訪問與呈現(xiàn)的前提是要有可搜索的字符串,這些字符串有不同的大小、格式和搜索情境。這就為“詞條\"(lemma)注入了新的解釋,詞條指任何具有標(biāo)準(zhǔn)可搜索形式的詞匯(語言的)或非詞匯(非語言的)字符,支持對其進(jìn)行詞典編纂和定制化描述。(Fuertes-Olivera待出版)無論是作為詞典數(shù)據(jù)的創(chuàng)建者還是消費(fèi)者,詞條是一種詞典編纂者和用戶用來簡化工作的“錨點(diǎn)”,是最為基礎(chǔ)的可搜索字符串,有助于實(shí)現(xiàn)詞典描述和定制化檢索?!岸ㄖ苹瘷z索”取決于用途,這一概念類似于詞典編纂學(xué)中用于指代詞典在特定情境中為特定用戶提供幫助的詞典功能。(Bergenholtzamp; Tarp 2003;Tarp 2008;Fuertes-Oliveraamp; Tarp 2014)在數(shù)字環(huán)境中,其用途還包括詞匯注釋編纂(glossography)及其他任何詞典數(shù)據(jù),例如基于人工智能開發(fā)軟件的建模數(shù)據(jù),可以將具體意義和/或用途與特定的查閱需求相匹配,這一用途已經(jīng)在電子閱讀器中得到了廣泛的應(yīng)用。(Bothma&Gouws2022;Tarp&Gouws 2023)
本文以《西班牙語數(shù)字詞典》(DiccionarioDigitaldel Espanol,以下或簡稱 DIDES[1] )為例,通過詞組(word combination)的編纂處理來闡述上述新理念。在此框架下,我將分析詞組的概念(第二部分),說明如何使用ChatGPT4o和Claude3.5(Pro)等聊天機(jī)器人生成詞組(第三部分),然后將其存儲在詞典數(shù)據(jù)槽中(第四部分)。最后總結(jié)主要觀點(diǎn),并為未來研究提供一些啟發(fā)性建議。
二、概念辨析:詞組
詞組是一個(gè)總括性術(shù)語,詞典編纂者通常用它來指代由兩個(gè)或多個(gè)單詞組成的短語或表達(dá),這些單詞經(jīng)常一起使用并在語言中表達(dá)特定的意義或功能。語言學(xué)家通常將“短語”(phrases)和“搭配”(collocations)區(qū)分開來,這兩個(gè)相關(guān)的概念并非同義詞。短語是指在句子中作為一個(gè)整體起作用的兩個(gè)或多個(gè)單詞的組合。它們可以由包括名詞、動詞、形容詞、副詞等在內(nèi)的各種詞匯組合而成。短語不包括主語和謂語,這也是它們與從句的區(qū)別所在。在詞典編纂中,短語非常重要,它們的意義通常無法通過逐詞分析得到,例如kick the bucket、on time 等短語。搭配是指特定單詞與另一個(gè)或多個(gè)單詞習(xí)慣性并列使用的現(xiàn)象,使用頻率高于一般使用的情況。經(jīng)常一起使用的、并列關(guān)系非常緊密的搭配被標(biāo)記為“強(qiáng)搭配\"(strong collocations),例如 fast food(不是 *quick food);并列關(guān)系比較松散的搭配則被標(biāo)記為“弱搭配”(weakcollocations),例如 takeawalk。
語言學(xué)家通常從三個(gè)角度分析搭配,分別是詞匯、語義和結(jié)構(gòu),(Gitsaki1999)詞匯和語義主要針對詞匯性單詞,而結(jié)構(gòu)主要是語法性單詞。詞匯視角(基于分布或頻率的方法,參見Grangeramp;Munier2008)和語義視角(短語學(xué)方法,參見Grangeramp;Munier2008)在處理搭配問題上有顯著差異。詞匯視角由Halliday等(1964)和Sinclair(1966)發(fā)起,遵循Firth(1957)的詞義觀念,將搭配解釋為“一個(gè)詞匯項(xiàng)與一個(gè)或多個(gè)單詞共現(xiàn)的傾向\"(Fan 2009)11。Sinclair(1991)進(jìn)一步將搭配限定為一種統(tǒng)計(jì)選項(xiàng),指出搭配是“兩個(gè)或多個(gè)單詞在文本中短距離內(nèi)的共現(xiàn)”,并區(qū)分了常見搭配和罕見搭配兩種概念。語義視角最早由俄羅斯學(xué)者Vinogradov(1947)提出,后來Katz和Fodor(1963)及Chomsky(1965)等人繼續(xù)發(fā)展了這一觀點(diǎn)。基于語義視角,詞語搭配的語義屬性決定搭配詞的選擇,由此可以說,大多數(shù)詞語搭配的意義能夠反映出構(gòu)成詞匯的語義。最后,Benson提出結(jié)構(gòu)視角(Benson,Benson,Ilson1997),他認(rèn)為,搭配是“經(jīng)常與特定單詞或語法結(jié)構(gòu)組合的詞語”。(Fan 2009)11
大多數(shù)詞典編纂者認(rèn)同并接受從結(jié)構(gòu)視角來看待詞組,他們把詞組看作是附加詞條(run-ons),認(rèn)為詞組是一個(gè)主詞條(headword)中相關(guān)詞或派生形式的一部分。這種編纂實(shí)踐似乎回應(yīng)了兩種筆者不認(rèn)同的觀點(diǎn)。第一種觀點(diǎn)認(rèn)為,將詞組處理成附加詞條可以節(jié)省空間。然而,在數(shù)字詞典編纂中,空間的使用并不重要,因此不值得去“節(jié)省”。第二種觀點(diǎn)傾向于:搭配詞的每個(gè)元素都“依附”于一個(gè)單詞詞條。這種觀點(diǎn)似乎基于這樣的信念,即我們稱之為“語言”的交流系統(tǒng)基本上由語境中的單個(gè)詞組成。筆者的看法則不同,我們認(rèn)為人類通常使用詞塊(chunksof words)進(jìn)行交流,其中一些詞塊具有獨(dú)立的意義,我們稱這些詞塊為詞組?;谝陨蠈煞N觀點(diǎn)的回應(yīng),筆者認(rèn)為詞組應(yīng)該被詞條化(lemmatised),在詞典編纂中與單詞同等重要(參見下文第四部分)。
三、使用大型語言模型(LLMs)生成詞組
將詞組納人詞典編纂需要完成三個(gè)相關(guān)的任務(wù)。首先,詞典編纂者需要明確在詞典編纂項(xiàng)目中什么是“詞組”。以筆者個(gè)人主持研編的《西班牙語數(shù)字詞典》為例,基于西班牙語的特點(diǎn),假設(shè)詞組是由兩個(gè)或多個(gè)單詞組成的詞匯鏈,并且滿足以下一種或多種特征(Gantar等 2019)141-142:
(1)搭配性(Collocability):詞匯鏈中的單詞組合在一起有意義。例如,“and he is”沒有意義,而“veryhigh”有意義。
(2)習(xí)語性(Idiomaticity):詞匯鏈中的單詞組合在詞匯(如ad hoc)句法(如every now and then)、語義(如kick the bucket)、語用(如good morning)統(tǒng)計(jì)(如cats and dogs)以及慣用(如heavysmoker)等方面偏離了常規(guī)行為。
(3)組合性(Compositionality):詞匯鏈中的單詞組合不僅與習(xí)語性相關(guān),還涉及“通過對單個(gè)詞匯應(yīng)用標(biāo)準(zhǔn)組合規(guī)則來預(yù)測一組詞匯特征(語義、句法等)的能力\"(Ramish2015,引自Gantar等 2019142 )。
(4)比喻意義(FigurativeMeaning):詞匯鏈中的單詞組合具有比喻意義,與字面意義相比則更加凸顯。如在西班牙語中,senalar con el dedoa alguieno algo(用手指指某人或某物)同時(shí)具有字面意義和比喻意義,而比喻意義在理解并解釋字面意義后會更為合理。
(5)變化性(Variation):詞匯鏈中的單詞組合允許形態(tài)上的變化。例如,西班牙語中的 morderse la lengua(咬住自己的舌頭,意指忍住不說話)允許根據(jù)主語的性別和數(shù)量對se進(jìn)行調(diào)整,同時(shí)允許動詞詞根根據(jù)時(shí)態(tài)、人稱或數(shù)量進(jìn)行變化。
(6)固定性(Fixedness):詞匯鏈中的單詞組合不允許形態(tài)句法的變化或內(nèi)部變化。例如,by and large 是一個(gè)詞組,而*by and larger 就不是。
其次,詞典編纂者需要明確他們在編纂過程中會使用哪些詞典證據(jù),也就是如何設(shè)計(jì)、獲取和處理一系列語言數(shù)據(jù)和非語言數(shù)據(jù),以用于創(chuàng)建詞典數(shù)據(jù)。Fuertes-Olivera(2025)指出,一般意義上的詞典證據(jù)指的是選擇詞典數(shù)據(jù)的記錄情況。詞典證據(jù)主要有三種類型:主觀詞典證據(jù)、客觀詞典證據(jù)和混合詞典證據(jù)。具體而言,主觀詞典證據(jù)指的是基于個(gè)人判斷、意見或解釋使用的數(shù)據(jù),而非基于客觀事實(shí)或使用的數(shù)據(jù)。例如,母語者都知道comeup short是一個(gè)詞組,因此他們能夠根據(jù)已掌握的語言知識來準(zhǔn)確識別類似的表達(dá)??陀^詞典證據(jù)指的是我們通過觀察語言使用所學(xué)到的單詞和表達(dá)方式,以及它們是如何使用的,目的是將這些知識用于創(chuàng)建詞典數(shù)據(jù)。例如,在文學(xué)引文、語詞索引和詞形圖中往往能夠找到詞組的使用情況?;旌显~典證據(jù)指的是部分主觀和部分客觀的詞典數(shù)據(jù),也就是說,證據(jù)是客觀的,因?yàn)樗怯赡橙水a(chǎn)生并可以在真實(shí)的口語或書面文本中找到的,但同時(shí)它也是主觀的,因?yàn)樵~典編纂者必須決定它是否適用于詞典編纂。例如,使用生成式人工智能聊天機(jī)器人[如ChatGPT4o和Claude3.5(Pro),通常被視為大語言模型(LLMs)]生成的詞典數(shù)據(jù)。
在詞典編纂中也會用到大語言模型。在接下來的內(nèi)容中,我們會使用大語言模型來完成兩個(gè)任務(wù):搜索詞組和對先前識別的詞組進(jìn)行編纂。具體可分為三個(gè)步驟,旨在將大語言模型的使用功能最大化并將其潛在的幻覺和錯(cuò)誤行為的影響最小化。
第一步是確立我們與聊天機(jī)器人展開對話的三個(gè)基本概念:“語義熵”(semanticentropy)、“詞匯熵”(lexical entropy)和“多智能體系統(tǒng)\"(multi-agent systems)。語義熵是指在特定上下文語境中單詞或短語的意義不一致或不可預(yù)測的程度。Farquhar 等(2024)提出了一種應(yīng)對這一問題的技術(shù)。該技術(shù)包括多次給出相同的提示,然后根據(jù)其含義回答“聚類”。這種技術(shù)有助于評估“幻覺”及其他錯(cuò)誤,因?yàn)閼{此可以推測大語言模型的回答,從而發(fā)現(xiàn)可能與大語言模型不確定性(或者說幻覺)相對應(yīng)的不一致程度。在實(shí)際操作中,我們通過多次在不同時(shí)間、同時(shí)向兩個(gè)聊天機(jī)器人提出相同或相似的提示語來討論語義熵的問題。我們發(fā)現(xiàn)這個(gè)方法非常有效,因?yàn)樗徑饬松墒酱笳Z言模型的主要問題之一:它們是“非確定性的”,即它們可能會對相同的問題給出不同的答案。詞匯熵指的是在上下文中,單詞選擇的不可預(yù)測性或變異性。Karimi等(2024)指出,這種技術(shù)包括對語義相似的提示語進(jìn)行不同的措辭。與語義熵一樣,通過分析大語言模型給出的回答,提取滿足詞典編纂者任務(wù)的詞典數(shù)據(jù),例如搜索詞組。多智能體系統(tǒng)是指讓兩個(gè)或更多聊天機(jī)器人協(xié)同工作,目的是解決相同或相似的問題。最新研究表明,這種協(xié)同工作模式能提高大語言模型的推理能力。(Wang等 2024)在實(shí)際操作中,我們向兩個(gè)聊天機(jī)器人輸入相同的提示語,收集它們的答案,并深人分析答案中的差異(如果有)。
第二步是收集已提取的數(shù)據(jù)。例如,可以將對話復(fù)制并粘貼到兩列中,一列是與ChatGPT4o的對話,另一列是與Claude3.5(Pro)的對話,詳見表1:
第三步是檢查兩個(gè)聊天機(jī)器人的回答,并像詞典編纂者一樣進(jìn)行處理,也就是說,信任并整理這兩列中的數(shù)據(jù)。信任數(shù)據(jù)意味著驗(yàn)證數(shù)據(jù)的真實(shí)性和準(zhǔn)確性。整理數(shù)據(jù)意味著積極選擇符合數(shù)字環(huán)境技術(shù)的數(shù)據(jù),不帶有數(shù)據(jù)整理者任何的偏見與喜好,也不再局限于通過“頻率”“典型性”“多樣性”等維度來描寫詞典數(shù)據(jù)。所整理出的數(shù)據(jù)以合乎邏輯的方式對其進(jìn)行排序,例如先列出字面意義,再列出比喻意義,當(dāng)然也可以根據(jù)數(shù)據(jù)不同的使用目的來調(diào)整順序,例如用作解釋的數(shù)據(jù)。
最后,因?yàn)樵~組一般是由兩個(gè)或多個(gè)單詞組成,我們就必須設(shè)計(jì)一個(gè)訪問和呈現(xiàn)系統(tǒng),讓用戶能夠搜索“隱藏?cái)?shù)據(jù)”,即用戶不知道、不記得或不確定其準(zhǔn)確形式的數(shù)據(jù)。(Fuertes-Olivera2025)這一點(diǎn)非常重要,因?yàn)榇蠖鄶?shù)用戶只有看到完整的詞組才能識別它們。
四、示例:《西班牙語數(shù)字詞典》中的詞組
接下來,筆者將通過舉例來闡述如何在《西班牙語數(shù)字詞典》中搜索詞組及詞組數(shù)據(jù)是如何在詞典中呈現(xiàn)出來的?!段靼嘌勒Z數(shù)字詞典》是一個(gè)西班牙語在線通用詞典,由巴利亞多利德大學(xué)國際詞典編纂中心(西班牙)負(fù)責(zé)編纂,PedroA.Fuertes-Olivera任主編。截至本文撰寫時(shí),詞典已完成超過5萬個(gè)詞條,其中約 26% 為詞組(約等于1.3萬個(gè))。在該詞典中,所有詞組都作為詞條處理。
將詞組列為詞條符合筆者在新書AGuidetoPracticalOnlineLexicography(Fuertes-Olivera 2025)中對“詞條”下的定義,即“可搜索的單位,便于定制化的詞典描述”。事實(shí)上,這樣處理對詞典用戶來說有許多優(yōu)勢,包括:
(1)它在很大程度上能夠減輕用戶的負(fù)擔(dān)(例如,認(rèn)知負(fù)荷),避免用戶猜測。例如,在《劍橋在線詞典》(CambrdgeOnlineDictionary)[2」中,搜索farming會檢索出不同類型的詞典數(shù)據(jù),包括發(fā)音、詞性、定義和例句等,在頁面底部會出現(xiàn)標(biāo)題為“COLLOCATIONwith farming”的部分,內(nèi)容是常與farming搭配使用的單詞,并且還有“點(diǎn)擊一個(gè)搭配查看更多示例”的操作提示。其中,一個(gè)與 farming 搭配的詞組是farmingequipment,點(diǎn)擊它會檢索出帶有該“搭配”的例句,此外沒有其他數(shù)據(jù)。這將迫使用戶去猜測 farmingequipment的意義、語法、用法等??偠灾?,詞典沒有提供任何關(guān)于這個(gè)詞組的詞典數(shù)據(jù),不能直接、快速地滿足用戶需求。
(2)它將為第二語言學(xué)習(xí)者、翻譯人員等詞典用戶提供更全面的詞典數(shù)據(jù)(3)詞組信息呈現(xiàn)更清晰、更精確,詞典用戶更容易識別和研究它們的基本意義,以及它們的使用方式和語法特點(diǎn)。(4)搜索和訪問詞組更容易,把它們當(dāng)作詞條處理,能確保在查找任何單詞時(shí)都可以找到它們。(5)在機(jī)器學(xué)習(xí)和人工智能的時(shí)代背景下,把“詞組”當(dāng)作詞條處理,有助于改進(jìn)語言模型,從而能夠更自然、更準(zhǔn)確地識別和生成包含這些詞組的語言成分。
對詞組進(jìn)行詞條化處理也會影響詞典用戶所給出的提示語和與聊天機(jī)器人之間展開對話的類型。基于“語義熵”“詞匯熵”和“多智能體系統(tǒng)”等重要概念,我們以西班牙語單詞comida(食物)為例設(shè)計(jì)了如下的提示語。針對其他語言的單詞或表達(dá),也可以參考類似的提示語。
提示語:
1.我認(rèn)為西班牙語的[comida]有幾種含義。請一一列出它們,每個(gè)含義都要有上下文說明,包括示例、同義詞、反義詞、相關(guān)詞等。換句話說,我需要西班牙語[comida]的詞典數(shù)據(jù)。請用西班牙語回答,并且為每個(gè)含義提供英語對等詞。
2.我認(rèn)為你提到的西班牙語[comida]的某些含義僅在某些西班牙語國家使用。你能列出這些國家及其對應(yīng)的英語對等詞嗎?請用西班牙語回答,并且別忘了為每個(gè)含義提供詞典數(shù)據(jù)。
3.你提到了西班牙語[comida]的三種含義。我認(rèn)為可能還有更多含義,其中一些可能是“比喻的”,即隱喻擴(kuò)展。如果你同意,能否為我列出這些含義(以及它們的英語對等詞)?請用西班牙語回答,并且別忘了提供上下文說明,即提供對編寫詞典有用的詞典數(shù)據(jù)。
4.針對西班牙語單詞[comida],請列出與該單詞有關(guān)的詞組(以及它們的英語對等詞)嗎?請用西班牙語回答,并且別忘了對每個(gè)詞組提供詞典數(shù)據(jù),特別是含義、同義詞、語法、示例、變體等。
5.你知道哪些帶有西班牙語單詞[comida]的詞組?能否給我列出它們,以及它們的英語對等詞?請用西班牙語回答,并且別忘了對每個(gè)多詞表達(dá)提供詞典數(shù)據(jù),例如它們的含義(字面意義和比喻意義)同義詞、反義詞、示例、語法、變體等。
6.你怎么看待西班牙語單詞[comida]?能否給我列出包含該單詞的西班牙語表達(dá)式,并提供它們的英語對等詞?請用西班牙語回答,并且別忘了對每個(gè)表達(dá)進(jìn)行上下文說明,例如給出含義(字面意義和比喻意義)同義詞、反義詞、示例、語法、變體等。
7.我想找出帶有[comida]的西班牙語表達(dá)式,這些表達(dá)式由兩個(gè)或更多正字法單詞組成。請給我列出這些表達(dá)式及其英語對等詞。請用西班牙語回答,并且別忘了對每個(gè)表達(dá)式提供詞典數(shù)據(jù),例如給出含義(字面意義和比喻意義)同義詞、反義詞、示例、語法、變體等。
8.許多包含西班牙語單詞[comida]的表達(dá)式中間帶有介詞[de],例如[comidadeplastico]。能否給我列出按照這種組合方式形成的西班牙語單詞組合及其英語對等詞?請用西班牙語回答,并且別忘了對每個(gè)表達(dá)式提供詞典數(shù)據(jù),例如含義(字面意義和比喻意義)同義詞、反義詞、示例、語法、變體等數(shù)據(jù)。
9.我碰到了一些西班牙語表達(dá)式,它們以[comida]開頭,后跟介詞[de]或[para],例如[comida para llevar]。我認(rèn)為這種表達(dá)方式在西班牙語中很常見,可以用來創(chuàng)建與[comida]相關(guān)的詞組。如果你同意,能否列出更多類似的表達(dá)方式,并附上它們的英語對等詞?請用西班牙語回答,并且別忘了我需要它們的詞典數(shù)據(jù),例如含義、示例、變體、同義詞、反義詞、語法等。在設(shè)計(jì)好提示語后,詞典編纂者就開始用不同措辭向兩個(gè)或多個(gè)聊天機(jī)器人發(fā)出指示。根據(jù)具體任務(wù)的需要,詞典編纂者可以使用上述所有或部分提示語,以便開始與聊天機(jī)器人展開對話,從而找出相關(guān)數(shù)據(jù)。在這個(gè)框架下,我們首先輸入西班牙語單詞comida,然后開始與聊天機(jī)器人進(jìn)行更具體的對話,以便獲取關(guān)于這個(gè)詞的數(shù)據(jù),這些數(shù)據(jù)將幫助我們對可能的詞組進(jìn)行詞條化(詳見圖1所示)處理。由于篇幅限制,僅展示通過這種方法獲取的5個(gè)表達(dá)式(總共60個(gè))。
我們一邊審讀兩個(gè)聊天機(jī)器人所提供的答案,一邊驗(yàn)證從中獲取的大部分?jǐn)?shù)據(jù),并嘗試用它們來創(chuàng)建55個(gè)包含comida的多詞詞條(在檢查和驗(yàn)證過程中,僅有5個(gè)被舍棄)。以comidachatarra為例,DIDES大多數(shù)潛在用戶相關(guān)的詞典數(shù)據(jù)詳見圖1所示。
·comidabasura 和comidachatarra 是同義詞。它們的英語對應(yīng)詞都是 junk food?!omidabasura 和comidachatarra都是名詞(在西班牙語詞典中,它們通常作為名詞comida的附加詞條)。從語法上看,它們可以與冠詞una、la、unas 和las搭配使用,這表明該西班牙語單詞是陰性,并且有單數(shù)和復(fù)數(shù)形式。
comidachatarra在多個(gè)美洲國家使用(屬于美洲主義)。
? 兩個(gè)詞組的意義已“語境化”,即有包含comidachatarra的例句和短語,這些例句和短語進(jìn)一步強(qiáng)化了它們的意義。
·兩個(gè)聊天機(jī)器人最開始提供的兩個(gè)術(shù)語的意義是很充分的。然而,我們認(rèn)為需要進(jìn)一步研究,因此再次輸入提示語:你提到comidachatarra通常指熱量高但營養(yǎng)價(jià)值低的食物。我同意這一點(diǎn),但需要你為我提供一個(gè)更好的描述??梢詾槲彝瓿蓡??通過研究兩個(gè)聊天機(jī)器人給出的答案,我們確定了DIDES中提供的定義:
(1)comidachatarra是加工食品,熱量高但營養(yǎng)價(jià)值低;
(2)通常含有不健康的脂肪、糖和鹽;
(3)還含有添加劑,如谷氨酸鈉,這是一種常見于加工食品中的增味劑。
最后,可以通過點(diǎn)擊主頁底部任何包含comida的短語來獲取更多相關(guān)的詞組數(shù)據(jù)。同時(shí),還可以通過點(diǎn)擊同義詞列表,或者在搜索框中使用諸如“?”“ °+ ”等符號加任何單詞來定位這些詞組。
五、結(jié)語
在線詞典編纂學(xué)的定義清楚地表明了它獨(dú)立的學(xué)科地位,相關(guān)研究具有跨學(xué)科特點(diǎn)。它還強(qiáng)調(diào)了四個(gè)核心要素之間的相互聯(lián)系,在具體的詞典編纂工作中,每位詞典編纂者都需要充分考慮這些元素的協(xié)同作用。本文提供了一種把生成性人工智能聊天機(jī)器人應(yīng)用于在線詞典編纂實(shí)踐的方法論。這類似于“后期編輯詞典編纂”(post-editinglexicography)的概念。在筆者看來,如果在創(chuàng)建初始提示語時(shí)能夠充分考慮語義熵、詞匯熵和多智能體系統(tǒng),我們的實(shí)踐會更加穩(wěn)妥,事實(shí)已經(jīng)證明了這一點(diǎn)。一旦與聊天機(jī)器人的對話開始,詞典編纂者可以(且應(yīng)該)繼續(xù)提示下去,需要特別注意,提示語應(yīng)基于先前的回答、自己的知識和他們所使用的語言的特點(diǎn)。例如,在西班牙語中,理解名詞和形容詞的數(shù)和性是非常重要的,因此提示語中可以包含有關(guān)的問題。我們認(rèn)為,使用生成性AI聊天機(jī)器人進(jìn)行詞典編纂有以下優(yōu)點(diǎn):1)便于描述詞典數(shù)據(jù),例如,我們無需依賴含有所有語言變體的語料庫來識別變體;2)提高了詞典編纂效率;3)比構(gòu)建一個(gè)或多個(gè)語料庫更經(jīng)濟(jì),也更省時(shí)省力;4)比現(xiàn)有的語料庫查詢工具更便于使用。
附注
[1]《西班牙語數(shù)字詞典》(DIDES)在線網(wǎng)址:DiccionarioDigitaldelEspanol。
[2]《劍橋在線詞典》(Cambrdge Online Dictionary)網(wǎng)址:English:https://diesgital.com/。
參考文獻(xiàn)
1. Abel A. Dictionary Writing Systems and Beyond. //Granger S,Paquot M. (eds.) Electronic Lexicography. Oxford:Oxford University Press,2012:83-106.
2. Benson M,Benson E,Ilson R. The BBI Dictionary of English Word Combinations. Amsterdam and Philadelphia:John Benjamins Publishing Company,1997.
3. Bergenholtz H,Tarp S. Two Opposing Theories:On H.E. Wiegand’s Recent Discovery of Lexicographic Functions. Hermes,Journal of Linguistics,2003(31):171-196.
4. Bothma T J,Gouws R H. Information Needs and Contextualization in the Consultation Process of Dictionaries that are Linked to E-texts. Lexikos,2022,32(2):53-81.
5. Chomsky N. Aspects of the Theory of Syntax. Cambridge,MA:MIT Press,1965.
6. Fan M. An Exploratory Study of Collocational Use by ESL Students:A Task-Based Approach. System,2009(37):110-123.
7. Farquhar S,Kossen J,Kuhn L,et al. Detecting Hallucinations in Large Language Models Using Semantic Entropy. Nature,2024(630):625-630.
8. Firth J R. Papers in linguistics 1934—1951. London:Oxford University Press,1957.
9. Fuertes-Olivera P A. The Mental Lexicon in Lexicography:The Diccionarios Valladolid-UVa. Lexikos,2022,32(1):118-140.
10. Fuertes-Olivera P A. A Guide to Practical Online Lexicography. London amp; New York:Routledge,2025.
11. Fuertes-Olivera P A. Innovations in Spanish lexicography:The Diccionario Digital del Espa?ol (DIDES). Círculo de Lingüística Aplicada a la Comunicación,in press.
12. Fuertes-Olivera P A,Tarp S. Theory and Practice of Specialised Online Dictionary. Terminology versus Lexicography. Berlin:De Gruyter,2014.
13. Fuertes-Olivera P A,Tarp S. Critical Lexicography at Work:Reflections and Proposals for Eliminating the Gender Bias in General Dictionaries of Spanish. Lexikos,2022,32(2):105-132.
14. Gantar P,Colman L,Parra E C,et al. Multiword Expressions:Between Lexicography and NLP. International Journal of Lexicography,2019,32(2):138-162.
15. Gitsaki C. Econd Language Lexical Acquisition:A Study of the Development of Collocational Knowledge. San Francisco:International Scholars Publications,1999.
16. Granger S,Meunier F. (eds.). Phraseology. An Interdisciplinary Perspective. Amsterdam and Philadelphia:John Benjamins Publishing Company,2008.
17. Halliday M A K,McIntosh A,Strevens P. The Linguistic Sciences and Language Teaching. London:Longman,1964.
18. Karimi H,Weber P,Zinn J. Information Entropy (not Impedes) Lexical Processing during Language Comprehension. Psychon Bull Rev,2024. https://doi.org/10.3758/s13423-024-02463-x.
19. Katz J J,F(xiàn)odor J A. The Structure of a Semantic Theory. Language,1963,39(2):170-210.
20. Ramisch C. Multiword Expressions Acquisition:A Generic and Open Framework. Berlin:Springer,2015:34.
21. Rundell M. Automating the Creation of Dictionaries:Are We Nearly There? Proceedings of the 16th International Conference of the Asian Association for Lexicography:“Lexicography,Artificial Intelligence,and Dictionary Users”. Seoul:Yonsei University,2023:1-9.
22. Sinclair J M. Beginning the Study of Lexis.// Bazell C E,Catford C E,Halliday M A K,et al.(eds.)In Memory of J.R. Firth. London:Longman,1966:410-430.
23. Sinclair J M. Corpus,Concordance,Collocation. London:Oxford University Press,1991:170.
24. Tarp S. Lexicography in the Borderland Between Knowledge and Non-knowledge. Tübingen:Niemeyer,2008.
25. Tarp S,Gouws R H. A Necessary Redefinition of Lexicography in the Digital Age:Glossography,Dictionography and Implications for the Future. Lexikos,2023,33(1):425-447.
26. Vinogradov V V. Ob osnovnij Tipaj fraseologicheskij ledinits v russkom yazike. Moscow:Moscow University Press,1947.
27. Wang Q,Wang Z,Su Y,et al. Rethinking the Bounds of LLM Reasoning:Are Multi-agent Discussions the Key? 2024. https://arxiv.org/abs/2402.18272.
(
(責(zé)任編輯 劉 博)