摘 要 就在十余年前,多篇論文評介了計(jì)算技術(shù)在詞典編纂中的應(yīng)用研發(fā)情況(尤見于Rundell amp; Kilgarriff 2011)。這些論文展示了詞典編纂過程如何在某種程度上實(shí)現(xiàn)了自動化,并對完全自動化道路上可能取得的更多進(jìn)展進(jìn)行了預(yù)測。文章首先簡述 2011 年的前沿技術(shù),然后梳理迄今所取得的進(jìn)展。對早期論文所做出的預(yù)期進(jìn)行了回顧。在被稱作“后期編輯詞典編纂”的模式中,人類詞典編纂者的角色是后期編輯,即對自動生成并轉(zhuǎn)入詞典編寫系統(tǒng)的詞典初稿進(jìn)行評估優(yōu)化。但這些已取得的進(jìn)展目前皆受到懷疑,因?yàn)镃hatGPT等大型語言模型似乎有望繞過眼下所使用的技術(shù)。文章通過 ChatGPT 生成詞典文本的諸多實(shí)驗(yàn),探討了這些人工智能工具取代目前詞典編纂前沿技術(shù)的可能性。
關(guān)鍵詞 自動化 Sketch Engine 后期編輯詞典編纂 ChatGPT 大型語言模型
一、 背 景
十余年前曾有多篇論文探討了產(chǎn)出詞典所涉及諸過程的自動化前景。其中兩篇(Rundell amp; Kilgarriff 2011;Rundell 2012)綜述了當(dāng)時(shí)應(yīng)用于詞典編纂各階段的前沿計(jì)算技術(shù),從收集語料到編寫詞條,最終以多種版式出版。第三篇論文(Kilgarriff amp; Rychly 2010)描述了單詞顯著搭配的自動聚類,展示了其如何為(相當(dāng)簡略的)詞義消歧形式提供依據(jù)——這一模型當(dāng)時(shí)被稱為 semi-automatic dictionary drafting(半自動詞典初稿編寫),簡稱SADD。第四篇論文(Kilgarriff 等2010)聚焦兩大出版項(xiàng)目所使用的方法,只需單擊鼠標(biāo)(或勾選)便可自動選取合適的例句,并將這些例句及其XML標(biāo)記從語料庫轉(zhuǎn)入詞典編寫系統(tǒng)[因此得名 Tickbox Lexicography(復(fù)選框詞典編纂)]??傊@些論文展示了“詞典產(chǎn)出的幾個(gè)重要方面如何從人類編纂者逐步移交給計(jì)算機(jī)”(Rundell amp; Kilgarriff 2011)258。[1]
本文首先概述這些論文發(fā)表前后可供詞典編纂者使用的技術(shù)——當(dāng)時(shí)的自動化程度,以及我們?nèi)绾慰创@一過程可能的發(fā)展軌跡。我們以2011年左右為起點(diǎn),梳理大約在2011—2022年間的新進(jìn)展,并評述其對詞典編纂自動化目標(biāo)的影響。過去十年中,我們在提高自動化程度方面取得了重要進(jìn)步,部分原因是出現(xiàn)了更大規(guī)模的語料庫。一項(xiàng)引人注目的新進(jìn)展是:過去六個(gè)月左右(譯者按:指2023年6月之前的六個(gè)月),一種新的、可能改變游戲規(guī)則的技術(shù)已經(jīng)到來。不久前,就在2022年11月,首次出現(xiàn)了大型語言模型(LLM),尤其是 OpenAI 發(fā)布的 ChatGPT 系列,這些技術(shù)已經(jīng)對整個(gè)行業(yè)和研究領(lǐng)域產(chǎn)生了重大影響。如果不對這些最新的競爭者及其優(yōu)化或改變詞典編纂過程的潛力做出評述,甚至置之不理,那么對詞典編纂自動化這一主題的任何概述都將是不完整的。其影響是真正具有破壞性的還是僅僅帶來變革,尚待觀察。在總結(jié)部分,我們將討論所有這些技術(shù)對詞典未來以及詞典編纂者的影響。
二、 2011年的前沿技術(shù)
詞典的產(chǎn)出與出版需要經(jīng)歷怎樣的過程?我們可以將其分解為三個(gè)連續(xù)的階段:
1. “前詞典編纂”階段(參見Atkins amp; Rundell 2008)15:收集語料,(通過分詞、詞形還原、詞類標(biāo)注等)對語料做語言標(biāo)記以優(yōu)化其可用性,然后用作數(shù)據(jù)源,從中提取臨時(shí)詞目表。
2. 項(xiàng)目的詞典編纂核心階段:分析語料庫語料,識別相關(guān)語言事實(shí),并根據(jù)前詞典編纂階段設(shè)立的標(biāo)準(zhǔn)編寫詞條。
3. 出版階段:前一階段所產(chǎn)出的內(nèi)容以紙質(zhì)和/或數(shù)字形式出版,供終端用戶購買。
(一) 出版
我們不必花很多時(shí)間介紹這三個(gè)階段中的最后一階段。到2011年為止,詞典出版過程自動化已基本實(shí)現(xiàn)。半個(gè)多世紀(jì)以來,詞典文本已結(jié)構(gòu)化并存儲在日益復(fù)雜的數(shù)據(jù)庫中。(如 Krishnamurthy 1987;Rundell 等 2020)18-20從21世紀(jì)之交開始,專用詞典編寫軟件得以廣泛使用,大大簡化了詞典數(shù)據(jù)庫轉(zhuǎn)換為出版產(chǎn)品的工作。在此過程中,詞典編纂者被免除了許多日常工作,這些工作雖然不需要耗費(fèi)腦力,但工作量大且容易出錯(cuò)——如,確保每個(gè)詞典條目的結(jié)構(gòu)完整性,或檢查參見項(xiàng)是否匹配。不久前,詞典編纂者的工作之一是確保詞典中的各種元素以正確的字體呈現(xiàn)(如示例、句法代碼或文體標(biāo)簽)。如今,詞典內(nèi)容用純文本生成,而以何種形式出版這一問題與編纂過程無關(guān)。其他操作已經(jīng)從詞典編纂者轉(zhuǎn)移到終端用戶:例如,習(xí)語在詞典中的位置(kick the bucket 放在 kick條中還是放在 bucket條中?)不再是困擾詞典編纂者的問題,因?yàn)樵诰€詞典搜索算法會在其出現(xiàn)的位置找到它。
因此,詞典制作過程中的出版這一環(huán)節(jié)自動化程度已經(jīng)很高(并得以廣泛使用)。這將詞典編纂者從耗時(shí)、乏味的工作(即約翰遜博士所抱怨的“苦差事”)中解放出來,并將這些工作轉(zhuǎn)交給機(jī)器,后者通常會更好更快地對其進(jìn)行處理。
(二) 前詞典編纂
截至二十一世紀(jì)第二個(gè)十年初期,這一階段基本實(shí)現(xiàn)了自動化。(Rundell amp; Kilgarriff 2011)262-267尤其是當(dāng)時(shí)特大型語料庫的開發(fā)要容易得多(也便宜得多)。盡管那時(shí)語料庫建設(shè)仍然不是一件輕松的事,但與第一個(gè)COBUILD語料庫(Renouf 1987)或英國國家語料庫(http://www.natcorp.ox.ac.uk/)時(shí)代的宏偉任務(wù)相比已有天壤之別?;ヂ?lián)網(wǎng)的出現(xiàn)使人們能夠大量獲取幾乎所有種類的數(shù)字文本,而將原始文本轉(zhuǎn)換為語言處理可用的數(shù)據(jù),這方面的技術(shù)已經(jīng)成熟可靠。詞典編纂得益于自然語言處理(NLP)學(xué)界的研究。已研發(fā)出各種方法在互聯(lián)網(wǎng)上查找大量連續(xù)文本(其中充斥著表單、廣告、鏈接以及各種文件模板), 并“清洗”互聯(lián)網(wǎng)衍生文本,如刪除互聯(lián)網(wǎng)上無處不在的各類副本。(參見Kilgarriff 等 2006)
然后,按照Grefenstette早在1998年提出的簡要分步程序,對清洗后的網(wǎng)絡(luò)源文本進(jìn)行處理,以優(yōu)化其作為詞典編纂數(shù)據(jù)資源的效度,如文本分詞(識別詞邊界)、詞形還原(將單詞屈折變化形式歸入單一的“規(guī)范”詞形下)、詞類標(biāo)注(為每個(gè)詞形或詞元指派語法類)。這些處理應(yīng)用了自然語言處理研究人員多年來開發(fā)的、原本與詞典編纂不相關(guān)的工具,正如 Grefenstette(1998)24所指出的那樣,“一個(gè)層面所用的工具可以充分加以利用,在更高層面執(zhí)行任務(wù)”。
當(dāng)我們擁有了經(jīng)過處理的大型語料庫,便完全有能力為任何一部計(jì)劃編纂的詞典生成詞目表。一系列因素會影響詞目的選擇,特別是“用戶資料”,這有助于確定目標(biāo)用戶可能需要的詞匯類型。但大致說來,頻率是關(guān)鍵的決定性因素。在其他條件相同的情況下,“如果詞典要收錄 N 個(gè)單詞,那就應(yīng)該是語料庫詞頻表的前N個(gè)單詞”(Rundell amp; Kilgarriff 2011)264。頻率驅(qū)動產(chǎn)生的臨時(shí)詞表隨后可由人工編輯加以完善。[2]
(三) 詞典編纂過程
截至2011年,隨著詞典編纂前期、后期各階段的大幅度自動化,詞典條目編寫這一核心任務(wù)又在多大程度上從人類轉(zhuǎn)移給了機(jī)器呢?
從21世紀(jì)初起,對于英語以及其他資源豐富的語言而言,語料庫規(guī)模開始以數(shù)十億詞計(jì)量,這比20世紀(jì)80年代800萬詞的COBUILD語料庫高出幾個(gè)數(shù)量級,而且可供詞典開發(fā)者使用的語料庫持續(xù)穩(wěn)步增長。面對如此豐富的語料,以閱讀索引行為主的工作方法變得越來越不可行——要閱讀的索引行太多了。為解決這一問題,詞法分析軟件應(yīng)運(yùn)而生,其中最為有名的是詞匯素描(Word Sketch)。詞匯素描很快便成為詞典人的核心裝備,因其“一目了然地概括了詞典人通常瀏覽索引行可能找到的大部分內(nèi)容”(Rundell amp; Kilgarriff 2011)269。詞匯素描研發(fā)之初針對的是特定要求,即更加系統(tǒng)地描述搭配信息這一需要。但由于形形色色的搭配或句型往往與不同的詞義相關(guān)聯(lián),人們很快便明白,詞匯素描對于詞典義項(xiàng)的辨析頗具指導(dǎo)作用。因此,詞匯素描有望取代詞匯索引,成為分析多義詞過程中的起點(diǎn)。
一項(xiàng)相關(guān)的研究是詞義消歧(WSD),這一“語言技術(shù)領(lǐng)域的研究者從早期開始便面臨的挑戰(zhàn)”(Kilgarriff amp; Rychly 2010)303,開始讓步于計(jì)算方法。其基本原理是,多義詞的不同詞義通常與特定搭配和/或句型相關(guān)聯(lián)。在詞匯素描的助力下,人類詞典編纂者現(xiàn)在根據(jù)其共同的搭配或句法行為將獨(dú)立的語言事件(索引行)進(jìn)行聚類,進(jìn)而識別“詞典義項(xiàng)”。因此,自動化面臨的挑戰(zhàn)是,讓機(jī)器復(fù)制這個(gè)過程。到2011年為止,至少在觀念上已取得很大的進(jìn)展(尤見于 Kilgarriff amp; Rychly 2010)。
這一時(shí)期的另一項(xiàng)重大創(chuàng)新是 GDEX 算法[全稱為 good dictionary examples(好的詞典例證)]。其工作方式是在語料庫中搜索一些句子,能說明單詞的典型語言行為特征,如句型或搭配。候選例句表將提交給詞典編纂者,由其挑選最合適的詞典例證,無論是一字不差地收錄還是稍加編輯。同樣,這取代了早期的工作模型,即由詞典編纂者“人工”瀏覽大量索引行以找到合適的例證。該系統(tǒng)的工作原理在別處有詳細(xì)說明(Kilgarriff 等2008),但關(guān)鍵的一點(diǎn)是,即便是在2007年首次推出時(shí),該系統(tǒng)也運(yùn)行良好,足以改進(jìn)詞典條目編寫這一主要組成部分。
GDEX在操作層面設(shè)計(jì)了協(xié)議,將語料庫數(shù)據(jù)直接鏈接到詞典數(shù)據(jù)庫。因此,搭配或構(gòu)式,連同由GDEX選取并由詞典編纂者認(rèn)可的示例,可直接一并復(fù)制到初具規(guī)模的詞典數(shù)據(jù)庫相關(guān)域。所有這些創(chuàng)新最初只是針對特定項(xiàng)目的需求而研發(fā),但逐漸成為詞典編纂者的標(biāo)配。
現(xiàn)在我們來看另一詞條組件,即詞典中的“標(biāo)簽”,用于標(biāo)示語言成分以某種方式偏離無標(biāo)記的情況。大致而言,標(biāo)簽可以是語法方面的,也可以是社會語言學(xué)方面的。例如,語法標(biāo)簽可表示某個(gè)動詞強(qiáng)烈偏好以被動式出現(xiàn),或不用于進(jìn)行時(shí)。社會語言學(xué)標(biāo)簽則適用于在不同體裁的文本中使用受限的單詞或詞義。雖然“未標(biāo)記”單詞可用于所有類型的文本,但有些單詞多用于法律或醫(yī)學(xué)語篇,或特別非正式的語域,或特定地域變體的文本(例如印度人說的英語或阿根廷人說的西班牙語)。
就語法偏好而言,確定哪些單詞應(yīng)該加標(biāo)簽這一過程在2011年就已十分明確。稍加統(tǒng)計(jì)便可看出所有動詞被動式的“正?!卑l(fā)生率,以及任一動詞偏離該常態(tài)的程度。當(dāng)偏差達(dá)到顯著時(shí),軟件便會提示詞典編纂者。動詞應(yīng)加標(biāo)簽的確切閾值(如“常用被動式”是50%的被動式,60%,還是更多?)是編輯原則問題,但原則很簡單。
同樣,對于許多社會語言學(xué)特征而言,自動添加標(biāo)簽的方法(或者至少是提示詞典編纂者添加標(biāo)簽的方法)在理論上并不復(fù)雜。本質(zhì)上講,我們需要收集界定明確的子語料庫(例如特定主題領(lǐng)域或代表特定語域變體的語篇),并識別“關(guān)鍵詞”——即在子語料庫中的出現(xiàn)頻率顯著高于普通“參考語料庫”的詞項(xiàng)。這些在技術(shù)上都不難,但在實(shí)踐中卻仍然有挑戰(zhàn)性:為方便自動加標(biāo)簽而收集大量子語料庫,這并非易事。即便如此,也有一些門類的標(biāo)簽不太適合自動添加。例如,添加“offensive(冒犯)”這樣的標(biāo)簽多半是主觀判斷問題,而不是統(tǒng)計(jì)計(jì)算問題??傊?,盡管大多數(shù)情況下的處理方式可以理解,但在2011年,標(biāo)簽添加自動化進(jìn)展不大。
2011年,詞典的一大要素仍然依賴“人工”詞典編纂——彼時(shí)的釋義產(chǎn)出仍然拒絕自動生成。當(dāng)然,豐富的語料庫資料和復(fù)雜的分析軟件為詞典編纂者提供了更好的原始資料,因而更容易識別詞義的顯著特征,釋義質(zhì)量因此得以提高。但釋義產(chǎn)出仍然是一項(xiàng)要求高且勞動密集型工作,機(jī)器無法自行完成。
總結(jié)一下2011年的狀況:在將詞典編纂過程中的要素從人類轉(zhuǎn)移到機(jī)器這方面取得了重大進(jìn)展。語料庫建設(shè)、詞目表研制以及大部分出版過程都基本實(shí)現(xiàn)了自動化。在詞典條目生成的某些方面也是如此。找到合適的例句以反映典型用法這一工作已大大簡化。詞義消歧尚未實(shí)現(xiàn)自動化,但詞匯素描能讓詞典編纂者更有效地完成這一工作(并且更少依賴主觀判斷),而且已經(jīng)可以預(yù)見自動化可能的運(yùn)行方式。
所有這些都提高了工作效率,也相應(yīng)提高了詞典質(zhì)量。但在很大程度上,大部分內(nèi)容仍然是人類技能與努力的產(chǎn)出。然而,工作模式的轉(zhuǎn)變正悄然出現(xiàn)。詞典編纂者以前要瀏覽數(shù)條索引行以提取相關(guān)信息,而如今我們可預(yù)見“一種新的范式,即軟件選擇它認(rèn)為相關(guān)的內(nèi)容,并……填充到詞典數(shù)據(jù)庫的相應(yīng)域”(Rundell amp; Kilgarriff 2011)278。在此模型中,詞典人的工作是評估計(jì)算機(jī)生成的條目初稿,并決定保留什么、刪除什么、添加什么。
三、 第二個(gè)十年(2011—2022)
(一) 穩(wěn)步改進(jìn)
基于上一節(jié)概述的方法和技術(shù),接下來的十年便朝著更高的自動化方向穩(wěn)步前進(jìn)。在這一階段,詞典人使用的語料庫增長了一個(gè)數(shù)量級或更多。當(dāng)Kilgarriff 和 Rychly 在2010年探討自動詞義消歧的構(gòu)想時(shí),他們使用的是13億詞的語料庫。5年后,研發(fā)人員為英語和其他幾種歐洲語言均開發(fā)了200億詞的語料庫,在二十一世紀(jì)第一個(gè)十年末期,最大的英語語料庫有近400億單詞。這很重要,因?yàn)楸娝苤?Zipfian 分布[3]
不僅有關(guān)單詞,還有關(guān)特定詞義、多詞單位以及與單詞相關(guān)的構(gòu)式。有了更大的語料庫,我們便能更精細(xì)、更可靠地了解單詞的典型組合方式,這也相應(yīng)地為自動化工作提供支持。
軟件也在不斷改進(jìn)。例如,如今Sketch Engine 的諸多功能中包含了一個(gè)工具,可識別文本或語料庫中的關(guān)鍵詞——不僅是單個(gè)單詞,還包括多詞用語。斯洛文尼亞語的兩個(gè)項(xiàng)目(通用詞匯語料庫和專業(yè)術(shù)語詞典)從語料庫自動提取了各自的詞目表,而例句則由GDEX算法的兩個(gè)獨(dú)立配置生成。這種方法節(jié)省了大量時(shí)間,“通過直接導(dǎo)出每個(gè)詞元的所有語料并將其導(dǎo)入詞典編寫系統(tǒng)”(Kosem等2014)361,減輕了詞典人乏味的日常工作,使他們能夠?qū)W⒂诹x項(xiàng)劃分、釋義編寫以及詞條定稿。
社會語言標(biāo)簽的使用(用于標(biāo)記語域、知識域等)繼續(xù)對便捷的自動化形成阻力。事實(shí)證明,與早期用印刷媒體資料建立的小型語料庫相比(如英國國家語料庫),數(shù)十億詞的網(wǎng)絡(luò)源語料庫總體來說對詞典編纂更有用。但是,獲取如此龐大的數(shù)據(jù)集的代價(jià)是,不能提供其中文檔的詳細(xì)標(biāo)題信息,而較為“傳統(tǒng)”語料庫的文檔標(biāo)題信息則一應(yīng)俱全。到目前為止,通過監(jiān)督學(xué)習(xí)對網(wǎng)絡(luò)語料庫進(jìn)行體裁劃分的實(shí)驗(yàn)收效有限(Suchomel 2021),但這是很有前途的研究方向,最終可能支持一定程度的自動標(biāo)簽添加。
大多數(shù)詞典在從印刷到數(shù)字媒體遷移的過程中更加重視“應(yīng)時(shí)性”——即詞典常用常新這一必要性。這意味著需要及時(shí)發(fā)現(xiàn)新出現(xiàn)的詞匯項(xiàng)目。自動化方法對這一過程能提供多少支持?Cook等(2013)報(bào)告了將詞義歸納系統(tǒng)應(yīng)用于兩個(gè)語料庫的情況(“焦點(diǎn)語料庫”和較早的“參考語料庫”),其構(gòu)成文本間隔約 15 年——目標(biāo)是在較新的文本中識別出早期文本中未曾出現(xiàn)的詞匯項(xiàng)目。這些項(xiàng)目可能是新詞,也可能是(更難識別的)詞典中已有詞目的新義。即使小規(guī)模的實(shí)驗(yàn)也檢測到了許多顯而易見的新詞新義,表明該方法“頗具潛力,有助于識別需要更新的詞條”(Cook等2013)63,這些詞條的釋義或例證可能無法反映當(dāng)前的使用情況。
(二) 前沿技術(shù):后期編輯詞典編纂
截至我們所回顧的這一時(shí)期末,過去20多年推介的各種技術(shù)創(chuàng)新集中體現(xiàn)在一系列項(xiàng)目中,代表著半自動詞典編纂的前沿技術(shù)。Sketch Engine公司的 Lexical Computing(詞匯計(jì)算)受委托為 Naver 公司(韓國一流的信息與通信技術(shù)公司)制作三部原創(chuàng)的三語詞典。三部詞典的目標(biāo)語(TL)均為韓語和英語,源語(SL)則分別是老撾語、他加祿語和烏爾都語。音頻讀音采用傳統(tǒng)方式錄制人類說話者的發(fā)音,但除了這個(gè)單一組件外,該項(xiàng)目的語料庫和詞典內(nèi)容的所有部分均自動生成,然后由人類進(jìn)行后期編輯。
Baisa 等(2019)和 Jakubí?ek等(2021)對這些項(xiàng)目進(jìn)行了詳細(xì)描述,本文只做簡要介紹。先是創(chuàng)建三個(gè)源語大型網(wǎng)絡(luò)語料庫,然后利用 Sketch Engine 中的工具進(jìn)行標(biāo)注(詞形還原、詞性標(biāo)簽等)。各語料庫依次為詞目列表和詞典中各詞條的主要內(nèi)容提供原始資料。
作為構(gòu)建詞條的第一步,詞義劃分可結(jié)合使用詞匯素描和單詞嵌入(word embedding)來實(shí)現(xiàn)。搭配是最重要的一環(huán),而算法輸出的是關(guān)聯(lián)搭配聚類集。這里的一個(gè)重要特征是,每個(gè)聚類都隨附一組索引行(我們下面討論 ChatGPT 時(shí)還會論及),為詞典編纂者提供了通達(dá)語料庫底層語料的直接路徑。一旦確定了義項(xiàng)清單,接下來就會給每個(gè)義項(xiàng)添加主要搭配,以及來自語料庫的示例、相關(guān)詞列表(如同義詞和反義詞),還有商業(yè)機(jī)器翻譯服務(wù)提供的目標(biāo)語譯文。
所有這些數(shù)據(jù)均自動生成,并導(dǎo)入 Lexonomy 這一編寫與編輯工具。人類的作用則體現(xiàn)在一系列分工明確、循序漸進(jìn)的階段,“編纂者往往只對詞條的特定部分進(jìn)行后期編輯”(Baisa等2019)807。他們的角色類似于傳統(tǒng)詞典項(xiàng)目的高級編輯,對詞典編纂團(tuán)隊(duì)成員完成的初稿進(jìn)行編輯加工。例如,編纂者審閱由算法提交的一個(gè)義項(xiàng)聚類時(shí),可能會決定將其拆分為兩個(gè)獨(dú)立義項(xiàng),或者將整個(gè)聚類并入另一義項(xiàng)。此類編輯任務(wù)(如核實(shí)譯文或優(yōu)化機(jī)器提供的例句)可借助 Lexonomy系統(tǒng)添加的自定義小組件。
這是對一個(gè)重大項(xiàng)目進(jìn)行全面“后期編輯詞典編纂”的首次嘗試,效果不錯(cuò)。雖然在語料處理和人力資源管理方面仍然存在挑戰(zhàn),但我們學(xué)到了很多東西,這些經(jīng)驗(yàn)已融入處理其他項(xiàng)目的新版本中,但這種方法顯然可以有效地驗(yàn)證編纂理念并說明了“這一編寫模型的可行性、可負(fù)擔(dān)性和性能優(yōu)勢”(Baisa等2019)817。10年前的預(yù)測得到了實(shí)質(zhì)性證實(shí),盡管從技術(shù)上講,還需要經(jīng)年累月地發(fā)展,但在詞典編纂實(shí)踐和方法方面,已可視為具有革命性的意義。
四、 人工智能與大型語言模型
(一) ChatGPT及其工作原理
2022年11月,ChatGPT發(fā)布。眾多競爭對手緊隨其后,如谷歌Bard、微軟Bing Chat以及Anthropic的Claude,其中一些可能尚未完善便披掛上陣,以便從這些工具的大肆炒作中獲利。經(jīng)過短短幾個(gè)月的時(shí)間,上文中的大部分討論都因這些人工智能的出現(xiàn)而受到懷疑。本文報(bào)告的所有分析均使用 ChatGPT 3.5完成。
這一系統(tǒng)用途廣泛,包括為程序員創(chuàng)建代碼,提供醫(yī)療診斷,寫詩、賦詞或撰寫學(xué)術(shù)論文,提供譯文——也可能編纂詞典。就其對全世界的潛在影響而言,對 ChatGPT 到來的反應(yīng)不一而足,從世界末日(“人類文明的終結(jié)”)到嘲笑(在諾姆·喬姆斯基看來,這只不過是“高科技剽竊”和“一種逃避學(xué)習(xí)的方式”[4])。
我們這個(gè)領(lǐng)域所面臨的問題是,我們可否放棄上述所有技術(shù)(隨著時(shí)間的推移,這些技術(shù)使我們穩(wěn)步接近完全自動化的目標(biāo)),而簡單地將詞典編纂的一攬子工作交給這一引起混亂的新興人工智能技術(shù)。在回答這個(gè)問題之前,我們得對該系統(tǒng)的工作原理有所了解,這很重要。
ChatGPT 是基于大型語言模型(LLM)的聊天機(jī)器人。最簡單地說,LLM所做的是,按照提示生成統(tǒng)計(jì)上合理的字詞序列。如今的情況是,“許多需要人類智慧的工作可以通過性能足夠優(yōu)良的模型簡化為順序詞預(yù)測”(Shanahan 2022)1。ChatGPT 的性能往往異乎尋常地好,以至于我們可能會受騙,誤以為這些系統(tǒng)具備了類似于人類的智能,但它們并不具備。它們“在結(jié)構(gòu)上與人類千差萬別,但同時(shí)……其行為卻與人類如此相似,因此我們需要特別注意其工作方式,而不是用暗示人類能力和行為模式的語言來談?wù)撍鼈儭保⊿hanahan 2022)3。
(二) 利用ChatGPT 生成詞典
評估這一系統(tǒng)性能的最好方法是讓它生成詞典條目。ChatGPT 發(fā)布后的短時(shí)間內(nèi),已進(jìn)行過許多這方面的實(shí)驗(yàn)。(如 de Schryver amp; Joffe 2023;Lew 2023;Jakubí?ek amp; Rundell 2023)
實(shí)驗(yàn)開頭始終是一條“提示語”——即用自然語言表達(dá)的問題,提示 ChatGPT 生成反饋。典型的提示語包括“請解釋單詞W好嗎?”,或“給W生成詞條”,或“為W生成詞條,顯示其所有義項(xiàng)及其在不同語境中的用法”,或許多其他程式化提示方式。需要大量的試錯(cuò)才能確定一種表達(dá)方式,誘導(dǎo)系統(tǒng)產(chǎn)出我們所希望的結(jié)果。但所有這些都是可行的。我們可以要求它(為數(shù)十個(gè)甚至數(shù)百個(gè)詞目詞)生成一整批詞條。還可以編程讓它生成結(jié)構(gòu)完整的詞條,帶有XML標(biāo)記,并將其無縫輸送到 Tshwanelex 或 Lexonomy 等編寫系統(tǒng)的詞典數(shù)據(jù)庫。
這里將討論兩組樣條:一批是大約20個(gè)專門選取的詞條,用以測試系統(tǒng)在特定詞條組成部分上的性能(樣本 A);另一批選取 99 個(gè)詞條,代表所有詞條類型,包括所有主要詞類,單義和多義詞,具體和抽象概念等[樣本B:這組詞在Jakubí?ek amp; Rundell(2023)中有更全面的討論]。所有樣條均針對英語單語詞典。
1. 詞義與釋義
首先來看一個(gè)“簡單的”詞條。在試用的三個(gè)版本中,科技術(shù)語carbon cycle(碳循環(huán),樣本B)的釋義都很清楚。這是其中之一:
(1) The process that carbon goes through in nature,including its exchange between the atmosphere,oceans,and land biosphere through natural processes such as photosynthesis,respiration and decomposition.
(碳在自然界的歷程,包括通過光合作用、呼吸和分解等自然過程在大氣、海洋和陸地生物圈之間進(jìn)行的交換。)
在不太專業(yè)的層面上,形容詞 remiss(樣本A)的釋義很充分:
(2) failing to fulfill a duty or obligation;careless or negligent in the performance of a task.
(未能履行職責(zé)或義務(wù);工作時(shí)粗心或疏忽。)
有些單詞用于字里行間時(shí)強(qiáng)烈偏好出現(xiàn)于某些復(fù)現(xiàn)模式,remiss 便是其中之一(下面示例帶下畫線的部分),ChatGPT 的例句很好地反映了這一點(diǎn):
(3) As a teacher,it would be remiss of me not to grade my students’ assignments promptly.
(作為教師,如果不及時(shí)批改學(xué)生的作業(yè),那將是我的失職。)
(4) The company was found to be remiss in its safety protocols.
(該公司在安全規(guī)程方面被發(fā)現(xiàn)有疏漏。)
到目前為止,一切還好。但這兩個(gè)詞條均為單義詞條。多義性證明是更大的挑戰(zhàn)——這不奇怪,因?yàn)樵~義消歧是詞典編纂中最困難的工作之一(如我們之前所見,也是一項(xiàng)最難自動化的工作之一)。當(dāng)系統(tǒng)得到提示“給單詞 party 創(chuàng)建詞條,顯示它在不同語境中的用法”時(shí)(樣本A),其任務(wù)處理性能不佳。它正確地識別出了三個(gè)明確的詞義:①a social gathering(社交聚會),②a political organisation(政治組織),以及③a group of people engaged in a particular activity(從事特定活動的一群人)[a party of hikers(徒步旅行團(tuán))]。但隨后情況急轉(zhuǎn)直下:第一,它提供的另外兩個(gè)“義項(xiàng)”只不過是將“a social gathering”這個(gè)釋義變換了措辭:④a group of people having a good time,typically involving music and dancing(玩得開心的一群人,通常伴有音樂和跳舞),⑤a group of people who have gathered to celebrate(聚集在一起慶祝的一群人);第二,它未提供真實(shí)例證的又一個(gè)“義項(xiàng)”:⑥the people present in a room,place,or gathering(出現(xiàn)在房間、處所或聚會中的人們)(這可能是義項(xiàng)1的轉(zhuǎn)義擴(kuò)展,或者是將義項(xiàng)③變換了措辭);第三,它沒有解釋用于法律話語的詞義,即協(xié)議或合同所涉及的個(gè)人或團(tuán)體[all parties to the agreement...(協(xié)議的所有當(dāng)事方……)],或 party 的任何動詞用法。
選擇 party 正是因?yàn)樗鼘儆谝环N簡單的多義詞:其各個(gè)詞義截然不同,易于識別,所以是人類詞典編纂者不難編寫的一類條目。而 overwhelm 更棘手。這是一個(gè)更具挑戰(zhàn)性的多義詞,沒有兩部詞典會以相同的方式劃分其義項(xiàng),但即便如此,ChatGPT 的反饋(樣本 A)也經(jīng)不起推敲:
①to defeat completely; to bury or bury under a mass of something
(徹底擊??;掩埋或埋在一堆東西下)
②to overwhelm or overcome,especially with emotion
(充溢或難以禁受,尤指情感)
③to overwhelm someone or something with a superior force
(用優(yōu)勢力量擊敗某人或某事物)
④noun:a feeling of being overwhelmed
(名詞:難以禁受的感覺)
義項(xiàng)①將兩個(gè)完全不同的概念相提并論;義項(xiàng)③只是重復(fù)了義項(xiàng)①(并在釋義中使用了overwhelm 本詞);名詞用法很少見(盡管語料庫中有語料佐證)。在另一樣本中(de Schryver amp; Joffe 2023),單詞 cat 被賦予兩個(gè)動詞義項(xiàng):
①to behave in a sly,stealthy,or stealthily destructive manner
(行為狡猾、隱蔽或暗中造成破壞)
②to spend time idly or lazily,particularly while lounging or relaxing in a comfortable manner
(閑散或慵懶地打發(fā)時(shí)間,尤指懶洋洋地坐臥或舒適地休息時(shí))
兩個(gè)義項(xiàng)看起來似乎都有道理,但純屬杜撰,既無來自語料庫的語料支持,也未收錄在主流詞典(如Oxford Dictionary of English,Merriam-Webster Dictionary 或 dictionary.com)。[有些證據(jù)支持 catting around 這一表達(dá)方式,例如:he had been out drinking and “catting around” at one of many brothels(他外出喝酒了,在許多妓院中的一處“消遣”),但意義有所不同,而且使用頻率過低,大多數(shù)詞典不會收錄。]
當(dāng)要求 ChatGPT 提供樣本A中presentation 的釋義時(shí),它回答說,“根據(jù)Merriam-Webster Dictionary,釋義為“the act or process of presenting something to an audience (向觀眾展示某物的動作或過程)”。實(shí)際上,這并非Merriam-Webster Dictionary的釋義,而其中陳舊、公式化的風(fēng)格“act or process of ”對釋義并無助益[類似風(fēng)格可見于樣本B中 closure 的釋義:“The act or process of closing or the state of being closed(關(guān)閉的動作或過程或被關(guān)閉的狀態(tài))”]。
這些詞條暴露了兩個(gè)樣本大多數(shù)多義詞條目中發(fā)現(xiàn)的問題:某些詞義重復(fù),某些詞義為杜撰,重要詞義遺漏[在樣本B中,climate 有5個(gè)與天氣相關(guān)的“義項(xiàng)”,但沒有一個(gè)是常見的隱喻用法,如“a climate of distrust(不信任的氛圍)”]。
我們在這兩個(gè)樣本集的基礎(chǔ)上基本可以得出如下結(jié)論:即 ChatGPT 在處理單義詞時(shí)表現(xiàn)最好(尤其是專業(yè)術(shù)語),但在應(yīng)對有多個(gè)義項(xiàng)的常用詞,甚至非常簡單的多義詞項(xiàng)時(shí),其表現(xiàn)并不可靠。
2. 例證與語法
當(dāng)代詞典中的例句通常直接從語料庫提取,并對其進(jìn)行后期編輯(無論是由詞典編纂者“手工”挑選,還是由GDEX提供),以刪除干擾信息或無關(guān)內(nèi)容。目前尚不清楚 ChatGPT 生成詞條的例證來源,但結(jié)果尚不合格。
樣本A中的詞條 fair(形容詞)有9個(gè)義項(xiàng)(原文如此),其中2個(gè)標(biāo)記為 obsolete(過時(shí))、2個(gè)標(biāo)記為 archaic(古舊)、1個(gè)標(biāo)記為 dialect(方言)。每個(gè)義項(xiàng)都配有一個(gè)例證,并且每個(gè)例證都按相同的模式呈現(xiàn):第三人稱單數(shù)主語,句子首詞為 The,后跟動詞簡單過去式。比如, fair 的前四個(gè)例證是這樣的:
(1) The referee made a fair decision by awarding a penalty.
(裁判裁決公正,判罰點(diǎn)球。)
(2) The garden was filled with fair flowers.
(花園里開滿了美麗的鮮花。)
(3) The price of the item was fair,not too high or too low.
(這件商品價(jià)格公道,不太高也不太低。)
(4) The fair-skinned woman had to wear a hat and sunscreen to protect her skin from the sun.
(這位皮膚白皙的女子不得不戴帽子、涂抹防曬霜,給皮膚做防曬保護(hù)。)
具有諷刺意味的是,雖然這些例子是機(jī)器生成的,但看起來倒像是不太稱職的人編造的[順便說一下,例(3)和例(4)有同義反復(fù)之嫌,違反了Grice的數(shù)量原則,因而看起來更加不真實(shí)]。這并非特殊案例,在詞條 party 中,12 個(gè)示例中有 11 個(gè)采用了類似模式,并且兩個(gè)樣本中的每個(gè)詞條都一再表現(xiàn)出相同的偏好。在一項(xiàng)獨(dú)立實(shí)驗(yàn)中(Lew 2023),我們看到 persuade主要詞義下的三條配例:
(1) The salesperson persuaded the customer to buy the product.
(推銷員說服客戶購買產(chǎn)品。)
(2) The speaker persuaded the audience to support the cause.
(演講者說服聽眾支持這項(xiàng)事業(yè)。)
(3) The friend persuaded the colleague to take a day off.
(朋友勸同事請一天假。)
這些例證更糟糕,動詞的主、賓語均為以定冠詞打頭的一般名詞。而為 command(樣本B)提供的例證也同樣糟糕:
The commander commanded his troops to march forward.
(指揮官指揮他的部隊(duì)向前前進(jìn)。)
當(dāng)前的技術(shù)(GDEX)為詞典編纂者提供了他們可能需要編輯的候選例證,但上面顯示的(ChatGPT生成的)例證卻無法挽救,只能被替換掉。
該系統(tǒng)在處理語法范疇方面也存在問題。在樣本B中,aside 的一個(gè)義項(xiàng)[例證為:He pushed the plate aside to make room for the pie(他把盤子推到一邊給餡餅騰地方)]被標(biāo)記為介詞(而此處為副詞)。動詞 haunt(樣本 B)這個(gè)詞條開頭處理得比較好,義項(xiàng)①描述了鬼魂的行為。但義項(xiàng)②先是以形容詞短語描述動詞,然后又用了名詞:
Constantly present in one’s mind;an obsession (縈繞腦海的;一種癡迷)
當(dāng)然,盡管在對樣本詞條的簡要評述中強(qiáng)調(diào)了一些問題,我們?nèi)匀挥欣碛蓸酚^。在研發(fā)方面,ChatGPT 等類似的系統(tǒng)正在迅速改進(jìn),部分是通過(但不限于)其訓(xùn)練數(shù)據(jù)量的大幅增加。我們所使用的提示語也有許多微調(diào)空間,實(shí)際上稍做調(diào)整便會得到很好的反饋:例如Lew(2023)的實(shí)驗(yàn)(成功地)提示系統(tǒng)按照COBUILD系列詞典的整句模式生成釋義。同樣,想必可以設(shè)計(jì)一條提示語,引導(dǎo)其避免在例句中過度使用“第三人稱主語+簡單過去式”這一句式。另外,盡管在詞義劃分和語法范疇方面存在很大問題,但其釋義(即使有時(shí)不正確)通常寫得很好,通俗易懂。總而言之,這是一大引人注目的技術(shù)飛躍,并且,作為生成式人工智能的首次嘗試,它十分出色——也許很危險(xiǎn)。
五、 討論總結(jié):人工智能與當(dāng)前的方法
經(jīng)過20多年的時(shí)間,詞典界與計(jì)算機(jī)界日益加強(qiáng)的合作過程使我們更加接近詞典產(chǎn)出自動化。目前的前沿技術(shù)是一種模型,可自動生成完整的詞典初稿并導(dǎo)入詞典數(shù)據(jù)庫充實(shí)語料,然后由人類(不一定是詞典編纂者)進(jìn)行后期編輯,產(chǎn)出詞典成稿。隨著新近人工智能技術(shù)(以ChatGPT 等類似工具的形式)的出現(xiàn),這種方法猛然間受到了挑戰(zhàn)。人工智能技術(shù)提供了一種可能性,可繞過目前的人機(jī)合作程序,只需一次操作便可生成幾近完成的詞典。為探討這種可能性有多現(xiàn)實(shí),以及人工智能對我們領(lǐng)域的破壞性有多大,我們可以先問三個(gè)問題:
1. 針對用戶詞匯查詢,ChatGPT能否直接提供答案(因而不再需要詞典)?
2. 如若不能,ChatGPT能否以微乎其微的人工介入生成好詞典(因而不再需要詞典編纂者)?
3. 如若不能,ChatGPT能否產(chǎn)出質(zhì)量足夠好的詞典初稿,供人類后期編輯(因而不再需要我們現(xiàn)有的工具)?
(一) ChatGPT能否有效解答用戶的詞匯查詢?
在許多使用場景中,人們只需要一個(gè)快速的解答,以便繼續(xù)處理手頭事務(wù):這個(gè)詞是什么意思?它的韓語或德語對應(yīng)詞是什么?可否舉例說明其用法?
ChatGPT通常能提供用戶需要的東西。但現(xiàn)有資源也可以做到這一點(diǎn)。我們大多數(shù)人使用搜索引擎(如谷歌)快速查找單語釋義,或利用翻譯服務(wù)(如 Deepl)獲取雙語譯文。換言之,我們已習(xí)慣于不借助詞典來解決一些詞匯問題,而且,大多數(shù)情況下,我們所用的資源在簡易與可靠性方面優(yōu)于 ChatGPT。
對于許多其他使用情況,特別是教育或?qū)I(yè)領(lǐng)域,人們往往會參考詞典。在這種情況下,人們很重視“信任”(相信詞典信息的準(zhǔn)確性)與“選編”(知道詞典信息是經(jīng)過篩選的,反映特定單詞最典型的行為方式)。ChatGPT 能否為更忠實(shí)的用戶提供類似基于語料庫的好詞典那樣的服務(wù)?
關(guān)于信任問題,研究表明,ChatGPT 尚不能提供可靠的信息。我們已經(jīng)看到,它經(jīng)常出錯(cuò),這意味著即便是表面看來 “好”的釋義(見 carbon cycle)也需要單獨(dú)核實(shí)。對ChatGPT信任更大的“破壞”是,這個(gè)系統(tǒng)實(shí)際上“變幻不定”:對同一提示所提供的答案總是前后不一致?!斑x編”指詞典編纂“綜合”階段的情況(Atkins amp; Rundell 2008)386,即我們從大量語料庫資料中提取與詞典編纂相關(guān)的內(nèi)容時(shí)的情況:例如,列出最典型的句型;選擇“最佳”搭配和其他反復(fù)出現(xiàn)的短語模式;生成釋義,描述單詞最重要的語義特征;提供用法示例,反映語料庫資料中最典型的語境。這是詞典編纂者的工作,而過去20年研發(fā)的計(jì)算資源旨在復(fù)制這一過程,應(yīng)用顯著性指標(biāo)來識別單詞行為的最典型
特征。
假設(shè)在許多使用中仍然需要可靠的且精心選編的詞典(當(dāng)然是語言專業(yè)人士和認(rèn)真的學(xué)習(xí)者及其老師的需求),我們來討論第二個(gè)問題。
(二) ChatGPT 能否以最少的人工投入生成好的詞典?
這一次的回答直截了當(dāng),“否”。上一節(jié)中描述的實(shí)驗(yàn)表明,ChatGPT 會生成貌似合理的詞典文本,至少對于較簡單的詞目而言。但稍加推敲便幾乎總會發(fā)現(xiàn)問題,無論是遺漏、杜撰還是虛假。對該系統(tǒng)最熱衷的支持者在發(fā)表演講時(shí)總會說,“我們認(rèn)為如今機(jī)器可以接管[詞典編纂的]整個(gè)過程”(de Schryver amp; Joffe 2023)。他們還強(qiáng)調(diào)說,ChatGPT 可以整體并入詞典編寫系統(tǒng)(如他們的 Tshwanelex系統(tǒng)),生成以 XML 或 JSON 等其他數(shù)據(jù)格式構(gòu)建的完整詞典條目。然而,他們在講話即將結(jié)束時(shí)措辭似乎有所變化,他們總結(jié)說:“讓機(jī)器完成大部分工作,僅在審閱階段進(jìn)行人工干預(yù)?!倍@正是我們現(xiàn)在使用的“后期編輯”模型,(語料庫中的)語料與(詞典編寫系統(tǒng)中的)結(jié)構(gòu)化詞典文本之間的無縫銜接已成為這種方法不可或缺的一環(huán)。這就引出了最后一個(gè)問題。
(三) 在生成供后期編輯的詞典初稿方面,ChatGPT能否超越現(xiàn)有技術(shù)?
我們現(xiàn)在可用的工具與方法能夠生成很好的詞典初稿。這些在真實(shí)的詞典項(xiàng)目中已進(jìn)行過測試,并隨每款新版軟件改進(jìn)。到目前為止,這種后期編輯模型僅用于雙語(以及多語)詞典,而本文討論的 ChatGPT 生成樣本屬于單語詞典。但其大多數(shù)詞目組成部分(義項(xiàng)劃分、語法信息、例句)對于兩類詞典都是相同的,因此更恰當(dāng)?shù)恼f法是,ChatGPT 尚無法與現(xiàn)有技術(shù)抗衡。一些樂觀的證據(jù)表明,ChatGPT 或許能夠生成足夠好的釋義,作為人類后期編輯的基礎(chǔ)。這值得進(jìn)一步探討,因?yàn)槟壳暗姆椒ㄔ谧詣由舍屃x方面尚未成熟。
在這兩種編寫模型中(我們現(xiàn)在使用的后期編輯法和基于 ChatGPT 的模型),人類智慧在解釋自動生成的語言數(shù)據(jù)方面仍然發(fā)揮著重要作用。在一項(xiàng)實(shí)驗(yàn)中(樣本 A),ChatGPT 被多次提示“解釋動詞 cause 的含義和用法”。(這不是生成詞典條目的請求)它的反饋措辭流暢、東拉西扯,但解釋得總是不夠充分。因?yàn)?cause(此處無意雙關(guān))是語料庫語言學(xué)中的一大 cause célèbre(廣受關(guān)注有爭議的問題)。前語料庫時(shí)代的詞典對這一動詞的描寫僅限于行為與其結(jié)果之間的關(guān)系(類似 ChatGPT 的處理)。但是,隨著詞匯素描投入使用,人類語言學(xué)家立刻看出,cause 具有約翰·辛克萊 (John Sinclair) 所說的“消極語義韻”:它大量用于結(jié)果是“壞事”的語境中。在 Sketch Engine 語料庫 English Web 2020 的詞匯素描中,前 12 個(gè)顯著賓語搭配均屬消極搭配,前幾個(gè)依次為:damage(損壞)、problem(問題)、harm(傷害)、death(死亡)、injury (損傷)以及 disease(疾?。?。對于本文的“人類讀者”而言,結(jié)論一目了然,而當(dāng)代詞典中的釋義也反映了這一發(fā)現(xiàn)。但是,雖然 ChatGPT 反饋的例證確實(shí)包括動詞賓語 cancer(癌癥)、tension(緊張)、damage(損壞)以及 confusion(混亂),卻未能實(shí)現(xiàn)任何人類編纂者都能做到的富于想象力的思維飛躍,因而未在其釋義中標(biāo)示這一消極語義韻。換言之,人工智能工具缺乏推測 cause 真正含義的智能。
相比而言,詞典編纂者審閱由后期編輯模式生成的初稿時(shí)——在看到一組消極賓語后——能夠深入到語料庫的底層語料,并立即檢索到該詞的常規(guī)使用模式。這一點(diǎn)是理解ChatGPT 模型根本缺陷的關(guān)鍵。在后期編輯系統(tǒng)中,詞典初稿與生成詞典的語料庫之間始終保持鏈接。編纂者可隨時(shí)返回原始語料澄清問題。ChatGPT 不提供這一選項(xiàng),它本質(zhì)上就是一只黑匣子。它為我們提供答案(而且每次問到同一問題都會提供不同的答案),但我們無法知道它如何生成這些答案,因此無法驗(yàn)證其真實(shí)性。這一缺陷在未來的版本中能否克服尚未可知。但如不允許訪問其輸出內(nèi)容所基于的底層語料,那么對任何大型語言模型的依賴都是極其危險(xiǎn)的。
人工智能技術(shù)領(lǐng)域競爭激烈,支配著大量資源。ChatGPT 之類的工具很可能迅速改進(jìn)。Lew(2023)發(fā)現(xiàn),與他的早期實(shí)驗(yàn)相比,可提示 ChatGPT第 4 版能生成更好(或不太糟糕)的例句。因此,如果斷定此類系統(tǒng)永遠(yuǎn)不會取代,或至少大大超越我們現(xiàn)在用于后期編輯的詞典編纂工具,這是愚蠢的——盡管用于后期編輯的詞典編纂工具也在不斷改進(jìn)。目前,我們應(yīng)當(dāng)?shù)贸龅慕Y(jié)論是,ChatGPT 尚不能預(yù)示“詞典編纂的終結(jié)”。
附 注
[1] 有關(guān)技術(shù)應(yīng)用于詞典編纂的簡要評述,請參閱Rundell 等(2020)。
[2] 所有這些都特別適用于英語,在很大程度上也適用于其他資源豐富的語言。對于資源較少的語言來說,目前尚不適用。但是,這些方法屢試不爽,資源充足時(shí)可推廣應(yīng)用。
[3] Zipfian分布描述語料庫中單詞頻率與排序的關(guān)系:單詞出現(xiàn)的頻率與它在頻率表里的排序成反比,頻率較高者排序靠前,頻率較低者排序靠后。
[4] “High-tech plagiarism”“a way of avoiding learning”是Chomsky在一次在線訪談節(jié)目中的說法:ChatGPT is High-Tech Plagiarism,Professor Noam Chomsky on ChatGPT and Education,2023-01-20(youtube.com)。
參考文獻(xiàn)
1. Atkins B T S,Rundell M. The Oxford Guide to Practical Lexicography. Oxford:Oxford University Press,2008.
2. Baisa V,Blahu? M,Cukr M,et al. Automating Dictionary Production:A Tagalog-English-Korean Dictionary from Scratch. // Electronic Lexicography in the 21st Century. Proceedings of the eLex 2019 Conference. Sintra,Portugal,2019:805-818.
3. Baroni M,Kilgarriff A,Pomikálek J,et al. WebBootCaT:A Web Tool for Instant Corpora. // Euralex Proceedings 2006,Torino,Italy:Edizioni Dell’Orso,2006:123-131.
4. Cook P,Lau J H,Rundell M,et al. A Lexicographic Appraisal of an Automatic Approach for Detecting New Word Senses. // Electronic Lexicography in the 21st Century:Thinking outside the Paper. Proceedings of eLex 2013. Ljubljana/Tallinn:Trojina,Institute for Applied Slovene Studies/Eesti Keele Instituut,2013:49-65.
5. de Schryver G-M,Joffe D. The End of Lexicography:Welcome to the Machine. https://www.youtube.com/watch?v=mEorw0yefAsamp;list=PLXmFdQASofcdnRRs0PM1kCzpuoyRTFLmmamp;index=5.(last access:20.05.23). 2023.
6. Grefenstette G. The Future of Linguistics and Lexicographers:Will there be Lexicographers in the Year 3000? // EURALEX 1998 Proceedings. Liège:University of Liège,1998:25-42.
7. Jakubí?ek M,Ková? V,Rychly P. Million-Click Dictionary:Tools and Methods for Automatic Dictionary Drafting and Post-Editing. // Book of Abstracts of the 19th EURALEX International Congress. 2021:65-67.
8. Jakubí?ek M,Rundell M. Generating English Dictionary Entries Using ChatGPT:Advances,Options and Limitations. // Proceedings of eLex 2023. Brno,Czech Republic,2023.
9. Kilgarriff A,Rundell M,Uí Dhonnchadha. Efficient Corpus Development for Lexicography:Building the New Corpus for Ireland. Language Resources and Evaluation Journal,2006(2):127-
152.
10. Kilgarriff A,Husák M,McAdam K,et al. GDEX:Automatically Finding Good Dictionary Examples in a Corpus. // Proceedings of the XIII EURALEX International Congress. Barcelona:Universitat Pompeu Fabra,2008:425-433.
11. Kilgarriff A,Rychly P. Semi-Automatic Dictionary Drafting. // de Schryver G-M.(ed.) A Way with Words:A Festschrift for Patrick Hanks. 2010:299-312.
12. Kilgarriff A, Ková V, Rychly P. Tickbox Lexicography. // Granger S," Paquot M.(eds.)E-lexicography in the 21st Century:New Challenges,New Applications. Brussels: Presses Universitaires de Louvain, 2010: 411-418.
13. Kosem I,Gantar P,Logar N,et al. Automation of Lexicographic Work Using General and Specialized Corpora:Two Case Studies. // Euralex Proceedings 2014. Bolzano,Italy:Institute for Specialised Communication and Multilingualism,2014:355-364.
14. Krishnamurthy R. The Process of Compilation. //Sinclair J M. (ed.) Looking up:An Account of the COBUILD Project in Lexical Computing. London: Collins. 1987: 62-85.
15. Lew R. ChatGPT as a COBUILD Lexicographer. Humanities and Social Sciences Communications. https://doi.org/10.1057/s41599-023-02119-6. 2023.
16. Renouf A. Corpus Development. // Sinclair J M.(ed.) Looking Up:An Account of the COBUILD Project in Lexical Computing. London:Collins ELT,1987:1-40.
17. Rundell M. The Road to Automated Lexicography:An Editor’s Viewpoint. // Granger S,Paquot M.(eds.) Electronic Lexicography. Oxford:Oxford University Press,2012:15-30.
18. Rundell M,Jakubí?ek M,Kovár V. Technology and English Dictionaries. // Ogilvie S.(ed.) The Cambridge Companion to English Dictionaries. Cambridge:Cambridge University Press,2020:18-30.
19. Rundell M,Kilgarriff A. Automating the Creation of Dictionaries:Where Will it all End? // Meunier F,De Cock S,Gilquin G,et al.(eds.) A Taste for Corpora:A Tribute to Professor Sylviane Granger. Amsterdam / Philadelphia: John Benjamins Publishing Company,2011:257-281.
20. Shanahan M. Talking About Large Language Models. https://arxiv.org/abs/2212.03551. 2022.
21. Suchomel V. Genre Annotation of Web Corpora:Scheme and Issues. // Proceedings of the Future Technologies Conference (FTC)2020,2021(1):738-754.
(Michael Rundell Lexical Computing Ltd.;
趙翠蓮 四川外國語大學(xué) 重慶 400031;
于文雍 復(fù)旦大學(xué)出版社 上海 200433)
(責(zé)任編輯 馬 沙)