摘要文章探討了如何在人機(jī)共生范式下開發(fā)出一種適用于寫作助手的語(yǔ)法分類新體系,并在數(shù)字詞典視閾下審視了“人類智能”與“人工智能”之間的關(guān)系。借助人工智能提升編纂效率的理論創(chuàng)新與實(shí)踐舉措已成為詞典學(xué)領(lǐng)域的重要課題,但在此過(guò)程中人工智能所展現(xiàn)的“理論”與“實(shí)踐”之間的差距,也進(jìn)一步印證了人類智能的重要性。
一、引言
本文的主題聚焦數(shù)字詞典視閾下人工智能與人類智能的關(guān)系。本文與之前筆者在中國(guó)的一場(chǎng)國(guó)際會(huì)議[1上講述的內(nèi)容相似。但是由于數(shù)字詞典項(xiàng)目的持續(xù)推進(jìn),也促使我們對(duì)人工智能與人類智能之間的關(guān)系進(jìn)行了更加深刻的反思。
二、概念辨析:人工智能與人類智能
縱觀人類發(fā)展的歷史進(jìn)程,人類與機(jī)器的關(guān)系始終處于動(dòng)態(tài)演變之中,貫穿了從原始社會(huì)到當(dāng)今智能時(shí)代的漫長(zhǎng)歷程。在此期間,人類使用的工具幾經(jīng)迭代,從遠(yuǎn)古時(shí)期的簡(jiǎn)單工具,到工業(yè)革命時(shí)期以蒸汽機(jī)為代表的動(dòng)力機(jī)械的誕生,從工業(yè)自動(dòng)化到人工智能的問(wèn)世,其復(fù)雜程度與日俱增。但是,究其本質(zhì),機(jī)器作為人類身體機(jī)能的延伸這一核心特質(zhì)從未改變。人工智能也是人類身體機(jī)能(思維)的延伸。
“人工智能”這一概念最早由約翰·麥卡錫(JohnMcCarthy)及其三位同事于1955年提出。(McCarthy等2006)他們認(rèn)為,人工智能旨在通過(guò)技術(shù)手段(如計(jì)算機(jī)程序)模擬和實(shí)現(xiàn)人類智能的核心特征,逐步理解和擴(kuò)展人類智能,而非從生物學(xué)角度出發(fā)復(fù)刻人類大腦構(gòu)造或其神經(jīng)系統(tǒng)運(yùn)行機(jī)制。喬姆斯基則認(rèn)為,這偏離了他們最初的目標(biāo)。喬氏對(duì)當(dāng)前一些基于大數(shù)據(jù)和統(tǒng)計(jì)模型的研究方法持批判態(tài)度,強(qiáng)調(diào)人類智能涉及復(fù)雜的生物學(xué)知識(shí)和深層認(rèn)知機(jī)制,人工智能難以模擬,這也催生了認(rèn)知科學(xué)(cognitivescience)的發(fā)展。探討人工智能與人類智能的關(guān)系,必須厘清二者在“智能”概念層面的本質(zhì)差異。從底層邏輯來(lái)看,人工智能與人類智能的核心區(qū)別在于:前者主要依賴復(fù)雜算法和計(jì)算模型來(lái)模擬智能行為,而后者則包含了復(fù)雜的生物學(xué)、神經(jīng)學(xué)和認(rèn)知機(jī)制。因此,雖然人工智能在處理特定任務(wù)時(shí)展現(xiàn)出強(qiáng)大的能力,但其“智能”與人類的思維方式截然不同。事實(shí)上,人工智能無(wú)法真正復(fù)刻人類智能深層次的思維特質(zhì)。例如,生物科學(xué)家對(duì)秀麗隱桿線蟲(caenorhabditiselegans)的研究可以支持這一觀點(diǎn)。悉尼·布倫納(SydneyBrenner)最先提出了秀麗隱桿線蟲的分子生物學(xué)與發(fā)育生物學(xué)研究,該項(xiàng)目于1974年在麻省理工學(xué)院正式實(shí)施。秀麗隱桿線蟲的結(jié)構(gòu)相對(duì)簡(jiǎn)單,神經(jīng)系統(tǒng)的規(guī)模有限,然而,即使經(jīng)過(guò)精準(zhǔn)解析其基因序列及繪制神經(jīng)元線路圖,其行為依然難以預(yù)測(cè)。這充分表明,看似簡(jiǎn)單的生物也極具復(fù)雜性,進(jìn)一步說(shuō)明了從人工智能的角度理解生物過(guò)程,極有可能導(dǎo)致對(duì)“智能”本質(zhì)的錯(cuò)誤解讀和方向性偏差。
談及人工智能的未來(lái)發(fā)展,許多專家學(xué)者對(duì)其潛在威脅表示擔(dān)憂。英國(guó)著名物理學(xué)家斯蒂芬·威廉·霍金(StephenWilliamHawking,2018)曾言:人工智能的發(fā)展可能意味著人類種族的終結(jié)。人工智能領(lǐng)域的先鋒人物杰弗里·辛頓(Geoffrey Hinton,2025)也曾公開表達(dá)過(guò)對(duì)人工智能脫離人類控制的擔(dān)憂。這些觀點(diǎn)反映了人類對(duì)人工智能發(fā)展的警覺(jué),從宏觀角度提醒我們?cè)谧非蠹夹g(shù)創(chuàng)新的同時(shí),一定要謦惕其潛在的風(fēng)險(xiǎn)。從微觀層面來(lái)看,人工智能的發(fā)展大致經(jīng)歷了三個(gè)階段。早期的符號(hào)主義學(xué)派認(rèn)為,人類思維過(guò)程可以用符號(hào)和規(guī)則表示,并據(jù)此將“智能”簡(jiǎn)化為符號(hào)邏輯推演,其核心目標(biāo)在于通過(guò)建立形式化的邏輯模型來(lái)模擬人類智能。后來(lái)的連接主義學(xué)派則認(rèn)為,人類智能的產(chǎn)生源于大腦神經(jīng)元之間的連接,他們希望通過(guò)建立神經(jīng)網(wǎng)絡(luò)模型來(lái)模仿人腦的結(jié)構(gòu)和功能。2022年以來(lái),人工智能的效能顯著提升,其工作原理主要基于外部反饋與強(qiáng)化學(xué)習(xí)機(jī)制,在本質(zhì)上與早期認(rèn)知科學(xué)所摒棄的行為主義訓(xùn)練方式相似,但這種方法依然缺乏對(duì)人類智能深層次運(yùn)行機(jī)制的理解。
人類智能與人工智能的關(guān)鍵差異在于人類大腦的神經(jīng)元數(shù)量及其錯(cuò)綜復(fù)雜的連接結(jié)構(gòu)。盡管人工智能在某些任務(wù)上表現(xiàn)出色,但人類大腦中的神經(jīng)元質(zhì)量遠(yuǎn)超人工神經(jīng)元,尤其體現(xiàn)在學(xué)習(xí)能力上。例如,兒童僅需接觸幾千個(gè)詞匯便可掌握語(yǔ)言的基本結(jié)構(gòu),但是訓(xùn)練一個(gè)大語(yǔ)言模型卻需要海量數(shù)據(jù)。這一現(xiàn)象凸顯了人類智能與人工智能在處理復(fù)雜認(rèn)知任務(wù)時(shí)的巨大差異。因此,人類智能與人工智能之間的區(qū)別仍然是認(rèn)知科學(xué)和人工智能領(lǐng)域亟待探討的重要課題。
三、數(shù)字詞典項(xiàng)目新進(jìn)展:寫作助手(Writingassistants)
接下來(lái),以筆者參加的一個(gè)數(shù)字詞典實(shí)踐項(xiàng)目(西班牙語(yǔ)版寫作助手)為例,分享筆者的經(jīng)驗(yàn)和反思。該項(xiàng)目旨在探索如何應(yīng)用基于人工智能驅(qū)動(dòng)的語(yǔ)言模型GECToR(Grammatical Error Correction:Tag,NotRewrite)來(lái)研發(fā)服務(wù)于西班牙語(yǔ)學(xué)習(xí)者(包括母語(yǔ)學(xué)習(xí)者和非母語(yǔ)學(xué)習(xí)者)寫作需求的數(shù)字產(chǎn)品。與歐美國(guó)家已發(fā)布的寫作助手(如DeepLWrite、Grammarly、Ginger、LanguageTool、ProWritingAid 等)不同,我們研發(fā)的寫作助手將提供雙語(yǔ)版本及附加解釋,凸顯其教學(xué)功能。作為詞典學(xué)家,筆者主要參與了語(yǔ)料訓(xùn)練、功能設(shè)計(jì)及用戶互動(dòng)等方面的工作。GECToR的語(yǔ)料訓(xùn)練主要包括:(1)西班牙語(yǔ)語(yǔ)料訓(xùn)練;(2)添加源自詞典數(shù)據(jù)庫(kù)的合成數(shù)據(jù);(3)添加驗(yàn)證數(shù)據(jù)以評(píng)估語(yǔ)言模型性能。此外,為了提升產(chǎn)品的用戶友好度,筆者還做了如下主要工作:(1)用西班牙語(yǔ)撰寫“文本片段”以闡明語(yǔ)法問(wèn)題并提供替代選項(xiàng);(2)撰寫“附加文本”以提示詞匯、語(yǔ)法、文體等知識(shí);(3)將西班牙語(yǔ)對(duì)譯為英語(yǔ)、丹麥語(yǔ)、意大利語(yǔ)和漢語(yǔ)。
人工智能并非完全可靠,但是,以往的認(rèn)知似乎陷入了一個(gè)誤區(qū),即過(guò)分關(guān)注其給出的回復(fù)正確與否,而忽略了問(wèn)題的關(guān)鍵所在,即我們(人類)如何使用人工智能(例如,提供恰當(dāng)?shù)闹噶睿┮猿浞职l(fā)揮其潛力。正如沒(méi)有人會(huì)問(wèn)一個(gè)網(wǎng)球拍“你能做什么”這樣荒誕的問(wèn)題。因?yàn)槲覀冎?,它只是一個(gè)工具,只有在經(jīng)過(guò)專業(yè)訓(xùn)練的網(wǎng)球運(yùn)動(dòng)員手中才能發(fā)揮其價(jià)值。人工智能與人類智能之間的關(guān)系也是如此。諸如ChatGPT之類的生成式人工智能也只是工具,若缺乏系統(tǒng)訓(xùn)練,便難以精準(zhǔn)執(zhí)行指令、完成復(fù)雜任務(wù)。因此,若想充分發(fā)揮其效用,掌握最終話語(yǔ)權(quán)的人類必須主動(dòng)接受訓(xùn)練,掌握人機(jī)交互技巧,挖掘其應(yīng)用價(jià)值。
2023年3月,ChatGPT被引人本項(xiàng)目,研究人員逐漸聚焦于人工智能和人類智能之間的協(xié)作關(guān)系,探索如何在人機(jī)協(xié)同下提升項(xiàng)目進(jìn)展效率。(Huete-Garciaamp;Tarp 2024)在本項(xiàng)目中,詞典學(xué)家主要使用ChatGPT訓(xùn)練語(yǔ)言模型(生成西班牙語(yǔ)語(yǔ)料庫(kù)和驗(yàn)證數(shù)據(jù))及用戶交互(提供簡(jiǎn)單解釋和增補(bǔ)解釋)。經(jīng)過(guò)訓(xùn)練后的語(yǔ)言模型會(huì)自動(dòng)識(shí)別詞匯、語(yǔ)法等問(wèn)題,并基于該語(yǔ)言模型生成的內(nèi)部編碼(詳見(jiàn)圖1所示),為用戶指明問(wèn)題并提供替代選項(xiàng)(詳見(jiàn)圖2所示)。
該項(xiàng)目的最終目標(biāo)是推出一款高質(zhì)量的寫作助手,以幫助西班牙語(yǔ)學(xué)習(xí)者提升其寫作水平。因此,在正式發(fā)布該寫作助手之前,有必要通過(guò)驗(yàn)證數(shù)據(jù)(validationdata)測(cè)試其各項(xiàng)功能。如果驅(qū)動(dòng)寫作助手的語(yǔ)言模型表現(xiàn)不佳,就需要基于更多的語(yǔ)料進(jìn)一步訓(xùn)練,以便后續(xù)進(jìn)行實(shí)際的用戶測(cè)試。經(jīng)過(guò)一系列試驗(yàn),我們已經(jīng)探索出利用ChatGPT推進(jìn)該任務(wù)的方法,該方法主要包括3個(gè)步驟:(1)向ChatGPT簡(jiǎn)要介紹問(wèn)題,并詢問(wèn)其是否了解該問(wèn)題;(2)闡明我們需要其協(xié)助的原因;(3)明確告知其具體任務(wù),引導(dǎo)其生成符合要求的文本。大多數(shù)情況下,ChatGPT能夠正確理解我們所提出的問(wèn)題。然而,某些情況下,即便它可以從抽象層面正確描述語(yǔ)言規(guī)則,但在提供具體例證時(shí)卻出現(xiàn)了錯(cuò)誤。例如,在對(duì)西班牙語(yǔ)中的連詞“o”(英文中的“or”)進(jìn)行解釋時(shí),它雖然能正確闡明語(yǔ)法規(guī)則,即指出該連詞在位于以“o”或“ho”開頭的單詞之前時(shí)要寫成“u”,以避免連續(xù)重復(fù)相同發(fā)音,但是給出的例證卻出現(xiàn)了錯(cuò)誤。隨后,我們多次詢問(wèn)ChatGPT是否了解上述問(wèn)題。盡管其回復(fù)表明它了解該問(wèn)題并提供了正確的語(yǔ)法解釋,但提供的例證仍然出現(xiàn)了錯(cuò)誤。由此可見(jiàn),人工智能無(wú)法像人類一樣思考和推理,這也進(jìn)一步說(shuō)明詞典學(xué)家的獨(dú)特價(jià)值不會(huì)輕易被取代。(Tarp&Nomdedeu-Rull2024)但是,ChatGPT可以顯著提升工作效率的價(jià)值也不容忽視。此前,詞典學(xué)家每天最多編寫200個(gè)句子,而借助ChatGPT,工作效率提高了將近20倍。最終,通過(guò)人機(jī)協(xié)作,團(tuán)隊(duì)在幾天內(nèi)就構(gòu)建了約3.5萬(wàn)個(gè)包括正確句子和錯(cuò)誤句子的語(yǔ)料庫(kù),用于寫作助手語(yǔ)言模型的性能檢驗(yàn),充分證明了ChatGPT在該語(yǔ)言模型訓(xùn)練中的作用。
此外,我們認(rèn)為,人工智能應(yīng)用于翻譯或文學(xué)創(chuàng)作之中也是可行的,但存在過(guò)度泛化的風(fēng)險(xiǎn)。美國(guó)的一項(xiàng)實(shí)驗(yàn)顯示,目前互聯(lián)網(wǎng)上 40% 的文本是由人工智能生成的,且這一比例隨著技術(shù)發(fā)展仍在持續(xù)增加。該實(shí)驗(yàn)通過(guò)使用人工智能生成的文本來(lái)測(cè)試語(yǔ)言模型,并讓其再生成新的文本,經(jīng)過(guò)5次迭代之后,生成的文本與人類使用的語(yǔ)言相差甚遠(yuǎn),難以理解。這表明,我們不能完全依賴人工智能生成文本。此外,我們也觀察到,新一代學(xué)習(xí)者的寫作能力普遍較弱。隨著人工智能的發(fā)展,學(xué)習(xí)者可以直接將自己的寫作文本粘貼至寫作助手進(jìn)行修改,無(wú)需過(guò)多關(guān)注語(yǔ)言的正確性。盡管這一趨勢(shì)可能難以改變,但我們認(rèn)為,有必要讓學(xué)習(xí)者意識(shí)到語(yǔ)言技能(skill)批判性思維(critical sense)及創(chuàng)造力(creativity)的重要性。因此,本項(xiàng)目研發(fā)的西班牙語(yǔ)版寫作助手,旨在與用戶的互動(dòng)中提供即時(shí)的語(yǔ)言使用指導(dǎo),通過(guò)提供替代選項(xiàng)、簡(jiǎn)單解釋、增補(bǔ)解釋等方式,助力學(xué)習(xí)者從“發(fā)現(xiàn)錯(cuò)誤”到“理解錯(cuò)誤”,使其能夠在不斷的反饋中提升語(yǔ)言能力,培養(yǎng)批判性思維。
四、新型語(yǔ)法分類:以西班牙語(yǔ)和英語(yǔ)為例
教科書、語(yǔ)法書與詞典是輔助二語(yǔ)學(xué)習(xí)者語(yǔ)法習(xí)得的三類基礎(chǔ)性材料。三者基于各自視角對(duì)語(yǔ)法問(wèn)題予以闡釋,各具優(yōu)勢(shì)和不足。例如,教科書與語(yǔ)法書涵蓋一般性的語(yǔ)法規(guī)則,卻不會(huì)針對(duì)特定的語(yǔ)法問(wèn)題展開詳細(xì)解釋,且查檢不便。詞典相較于前兩者,雖然查檢方便,且部分情況下會(huì)針對(duì)特定的語(yǔ)法問(wèn)題進(jìn)行解釋說(shuō)明,但通常為單語(yǔ)形式,功能豐富,并非聚焦于單一的語(yǔ)法問(wèn)題,無(wú)法助益學(xué)習(xí)者對(duì)特定語(yǔ)法問(wèn)題的深度理解。鑒于此,我們?cè)谌藱C(jī)協(xié)作下創(chuàng)造出了一種新型語(yǔ)法分類,與傳統(tǒng)語(yǔ)法書、教科書及詞典中的分類截然不同,該分類模式能夠更好地反映學(xué)習(xí)者在實(shí)際使用語(yǔ)言時(shí)的需求。我們將其主要特征歸納為5個(gè)方面:(1)雙語(yǔ)編寫,凸顯學(xué)習(xí)者母語(yǔ)的重要作用;(2)單一功能,幫助學(xué)習(xí)者在產(chǎn)出西班牙語(yǔ)文本時(shí),深入理解文本中的語(yǔ)法錯(cuò)誤;(3)易于獲取,只需點(diǎn)擊由語(yǔ)言模型識(shí)別為有問(wèn)題的單詞即可獲取所需信息;(4)它既不像傳統(tǒng)語(yǔ)法書或教科書附錄中的迷你語(yǔ)法指南(mini-grammars)那樣具有系統(tǒng)性,也不像教科書中的注釋或者學(xué)習(xí)者期望在詞典中找到語(yǔ)法信息那樣針對(duì)特定詞匯;(5)提供解釋,大部分解釋針對(duì)單詞或詞組中常見(jiàn)的語(yǔ)法問(wèn)題,同時(shí)又具備個(gè)性化特征,可以幫助學(xué)習(xí)者解決文本寫作時(shí)遇到的具體問(wèn)題。
然而,確定需要為哪些語(yǔ)法錯(cuò)誤提供解釋,頗具挑戰(zhàn)性。一方面,語(yǔ)法錯(cuò)誤在學(xué)習(xí)者的文本寫作中要有一定的出現(xiàn)頻率;另一方面,這些語(yǔ)法錯(cuò)誤既不能過(guò)于籠統(tǒng)也不能過(guò)于具體。[2]因此,選擇一種合適的方法對(duì)語(yǔ)法錯(cuò)誤進(jìn)行再分類至關(guān)重要。最初,我們計(jì)劃采用語(yǔ)言模型生成的內(nèi)部編碼(詳見(jiàn)圖1所示),但由于數(shù)據(jù)過(guò)多,難以進(jìn)行實(shí)際操作。另一種解決方案則是使用西班牙語(yǔ)標(biāo)注語(yǔ)料庫(kù)幫助我們進(jìn)行語(yǔ)法錯(cuò)誤再分類,這一方法主要受到了Bestgen和Granger(2011)研究的啟發(fā)。[3]然而,經(jīng)過(guò)調(diào)查,我們發(fā)現(xiàn)西班牙語(yǔ)作為第二語(yǔ)言及母語(yǔ)的書面語(yǔ)語(yǔ)料庫(kù)(CorpusofWriten Spanish ofL2andHeritageSpeakers,以下簡(jiǎn)稱COWS-L2H)是唯一一個(gè)進(jìn)行標(biāo)注的開放型語(yǔ)料庫(kù)。據(jù)該語(yǔ)料庫(kù)的研發(fā)團(tuán)隊(duì)稱,它包含了基于先前確立的分類法所做的共計(jì)9463個(gè)與名詞性句法結(jié)構(gòu)類別相關(guān)的語(yǔ)法錯(cuò)誤標(biāo)注。其中,出現(xiàn)頻率最高的是主語(yǔ)人稱代詞的不當(dāng)使用(3051例, 32% ),[4]其次是性屬不一致(gender disagreement)(2235例, 24% )及冠詞缺失(1695例, 18% )。在本研究中,我們選擇了性屬不一致這一語(yǔ)法錯(cuò)誤類別作為進(jìn)一步研究的對(duì)象。但是,COWS-L2H并未提供更多的幫助,即該語(yǔ)料庫(kù)并未對(duì)語(yǔ)法錯(cuò)誤類別進(jìn)行細(xì)分及提供性屬不一致語(yǔ)法錯(cuò)誤類別下的子類別語(yǔ)法錯(cuò)誤頻率等信息。因此,我們借助ChatGPT及詞典專家的專業(yè)知識(shí)對(duì)性屬不一致語(yǔ)法錯(cuò)誤進(jìn)行了再分類。在此過(guò)程中,我們還檢索了權(quán)威的西班牙語(yǔ)語(yǔ)法書和詞典及西班牙國(guó)家廣播電視的文體指南。最終,在性屬不一致語(yǔ)法錯(cuò)誤類別下細(xì)分了25個(gè)子類別(詳見(jiàn)表1)。此外,需要說(shuō)明的是,這一語(yǔ)法錯(cuò)誤類別劃分有別于傳統(tǒng)的語(yǔ)法分類模式,主要是基于適宜納入寫作助手,并且能夠針對(duì)學(xué)習(xí)者特定的語(yǔ)法錯(cuò)誤提供解釋等標(biāo)準(zhǔn)。
接下來(lái)就需要撰寫文本,就特定的語(yǔ)法問(wèn)題向用戶提供解釋。我們先要明確人機(jī)協(xié)同撰寫文本以闡明語(yǔ)法問(wèn)題的主要目的,即回答以下4個(gè)問(wèn)題:(1)誰(shuí)可能需要這些解釋;(2)為什么需要這些解釋;(3)在什么情況下需要這些解釋;(4)在什么技術(shù)環(huán)境下產(chǎn)生這種需求。在第一項(xiàng)研究中,我們所撰寫的文本旨在幫助西班牙語(yǔ)學(xué)習(xí)者實(shí)現(xiàn)對(duì)語(yǔ)法問(wèn)題的深度理解。具體來(lái)講,本研究對(duì)上述4個(gè)問(wèn)題的回答如下:(1)該文本所針對(duì)的對(duì)象是初級(jí)或中級(jí)西班牙語(yǔ)學(xué)習(xí)者;(2)上述學(xué)習(xí)者的需求是更好地理解文本寫作中出現(xiàn)的語(yǔ)法錯(cuò)誤;(3)其所處的具體情景為西班牙語(yǔ)寫作;(4)其所處的技術(shù)環(huán)境為基于語(yǔ)言模型驅(qū)動(dòng)的寫作助手。為實(shí)現(xiàn)上述目的,我們所撰寫的文本應(yīng)該具備以下特征:(1)簡(jiǎn)明易懂且具備教學(xué)性;(2)不使用過(guò)多的專業(yè)術(shù)語(yǔ);(3)提供與特定的語(yǔ)法問(wèn)題最為相關(guān)的信息;(4)結(jié)構(gòu)布局合理,便于學(xué)習(xí)者全面了解并領(lǐng)會(huì)語(yǔ)法問(wèn)題的關(guān)鍵所在。
在這一過(guò)程中,ChatGPT[5]出現(xiàn)了更多的問(wèn)題。最初,ChatGPT幾乎不可能產(chǎn)出符合上述要求的文本內(nèi)容。但是,我們不應(yīng)該將全部問(wèn)題歸咎于ChatGPT,而應(yīng)重新審視自己的能力(例如,撰寫的指令是否存在問(wèn)題),從而發(fā)揮其最大效用。因此,基于詞典學(xué)家的經(jīng)驗(yàn)及對(duì)ChatGPT的了解,情況逐漸有所好轉(zhuǎn),ChatGPT生成的內(nèi)容質(zhì)量也不斷提升。我們向ChatGPT發(fā)布的第1條指令為:“請(qǐng)向一位母語(yǔ)非西班牙語(yǔ)且不熟悉語(yǔ)法術(shù)語(yǔ)的學(xué)習(xí)者解釋西班牙語(yǔ)中名詞和形容詞性屬不一致這一語(yǔ)法錯(cuò)誤。我只需要一個(gè)錯(cuò)誤例證及同一個(gè)經(jīng)過(guò)修正的例證。\"(Prompt1:Explain to a non-native Spanishlearner,who is also a layman in grammatical terminology,the error in gender agreementin Spanish between noun and adjective. I just need an incorrect example and the sameexamplecorrected.)基于上述指令,ChatGPT生成了很長(zhǎng)的文本,主要包括7方面的內(nèi)容。「6]鑒于ChatGPT存在提供冗長(zhǎng)文本及錯(cuò)誤信息等問(wèn)題,我們對(duì)上述指令進(jìn)行了修改,要求它僅提供對(duì)上述語(yǔ)法錯(cuò)誤的簡(jiǎn)短介紹、錯(cuò)誤和正確的例證及對(duì)例證的簡(jiǎn)要解釋。指令2為:“請(qǐng)用簡(jiǎn)潔且具備教學(xué)性特征的表述,向一位非母語(yǔ)的西班牙語(yǔ)學(xué)習(xí)者解釋西班牙語(yǔ)中名詞和形容詞性屬不一致這一語(yǔ)法問(wèn)題。我需要你先提供該語(yǔ)法問(wèn)題的簡(jiǎn)單介紹,然后給出一個(gè)錯(cuò)誤例證以及同一個(gè)經(jīng)過(guò)修正的例證,并提供簡(jiǎn)要解釋。例證長(zhǎng)度至少10 個(gè)單詞。\"(Prompt 2:Explain briefly and didactically to a non-native Spanishlearner the gender agreement error between a noun and an adjective in Spanish. I need youto present the problem,give an example with an error and its correction and briefly explainthe example. The example must be at least l0 words long.)
在新的指令下,ChatGPT生成的文本進(jìn)行了信息刪減及結(jié)構(gòu)簡(jiǎn)化(詳見(jiàn)圖3所示)。然而,新生成的文本內(nèi)容中仍舊存在指令1中出現(xiàn)的問(wèn)題,盡管相較之前有所改善。例如,內(nèi)容矛盾,它仍舊表示“形容詞用來(lái)描述事物”。其次,當(dāng)解釋錯(cuò)誤例證中的名詞和形容詞性屬不一致的問(wèn)題時(shí),ChatGPT使用的表達(dá)方式是“使它們一致”(tomake themagree),而更準(zhǔn)確的表達(dá)方式應(yīng)該是“使它們性屬一致”(to make themagree in gender),表明這不是其他類型的語(yǔ)法問(wèn)題?;谥噶?的第2次回復(fù)(詳見(jiàn)圖4所示),ChatGPT表示“名詞用來(lái)指代事物或人”,這也是不準(zhǔn)確的。此外,“為了使它們一致,bonito(漂亮的,陽(yáng)性)必須改為bonita(漂亮的,陰性)\"(To make them match,“bonito”must bechanged to its feminineform,“bonita”.),這一內(nèi)容幾乎和ChatGPT基于指令1生成的內(nèi)容完全相同,即“為了使它們一致,我們必須使用形容詞的陰性形式bonita”(To makethem match,we must use “bonita”,which is the feminine form of the adjective.),并且二者都采取了“一致”而非“性屬一致”的表達(dá)方式。
然后,詞典學(xué)家進(jìn)行了二次編輯,保留了ChatGPT先前提供的整體結(jié)構(gòu)框架,并在此基礎(chǔ)上進(jìn)行了修改(詳見(jiàn)圖5所示)。具體的優(yōu)化流程如下:(1)快速閱讀ChatGPT生成的內(nèi)容;(2)刪除干擾學(xué)習(xí)者的冗余信息;(3)替換部分單詞或詞組以提升文本的可讀性;(4)從例證中選取相關(guān)信息將其添加到開始的簡(jiǎn)介部分,以闡明所解釋的語(yǔ)法問(wèn)題(尤其在不可避免地要使用語(yǔ)法術(shù)語(yǔ)的情況下);(5)改進(jìn)文本布局,以便快速獲取必要信息;(6)優(yōu)化論證結(jié)構(gòu)(argumentation structure),即錯(cuò)誤例證和正確例證的解釋部分,使其簡(jiǎn)潔明了,更具邏輯性。
具體來(lái)講,在本例中我們做了如下工作:其一,針對(duì)名詞和形容詞這兩類詞匯給出了更易于理解的定義,即以在兩個(gè)例證中出現(xiàn)的西班牙語(yǔ)具體詞匯為例說(shuō)明何為形容詞和名詞;其二,采取了更加精確的表述方式,把“一致”改為“性屬一致”;其三,改進(jìn)了文本布局,錯(cuò)誤例證和正確例證分別用不同的顏色進(jìn)行標(biāo)記區(qū)分;其四,優(yōu)化了論證結(jié)構(gòu),即在解釋中明晰錯(cuò)誤例證(in the incorrect example...)和正確例證(in the correctexample...)兩項(xiàng)信息內(nèi)容。
正如前文所述,我們開發(fā)的寫作助手是雙語(yǔ)的,即以學(xué)習(xí)者的母語(yǔ)編寫語(yǔ)法解釋。我們計(jì)劃首先使用上述方法撰寫西班牙語(yǔ)語(yǔ)法解釋(詳見(jiàn)圖6所示),然后使用DeepL將其對(duì)譯為多種語(yǔ)言,主要包括英語(yǔ)、丹麥語(yǔ)、意大利語(yǔ)和漢語(yǔ)(詳見(jiàn)圖7所示),并基于詞典學(xué)家的專業(yè)知識(shí)進(jìn)行修正。在本例中,提供了兩組正確和錯(cuò)誤的例證,因?yàn)樗鼈兎謩e代表了不同的語(yǔ)法問(wèn)題,在這里一起解釋,既為避免編寫和翻譯過(guò)多的內(nèi)容,也為讓學(xué)習(xí)者對(duì)該問(wèn)題有更全面的了解。
我們的第二項(xiàng)研究旨在幫助中國(guó)的英語(yǔ)學(xué)習(xí)者對(duì)主謂不一致(subject-verb disagreement)語(yǔ)法錯(cuò)誤的認(rèn)識(shí),該研究主要包括以下3項(xiàng)任務(wù):(1)在人機(jī)協(xié)作下確定需要提供解釋的錯(cuò)誤類別;(2)提供簡(jiǎn)單解釋;(3)提供增補(bǔ)解釋。
首先,我們憑借ChatGPT及詞典學(xué)家的專業(yè)知識(shí)確定了需要提供解釋的語(yǔ)法錯(cuò)誤類別,具體流程如下:(1)要求ChatGPT提供英語(yǔ)中主謂不一致(subject-verb disagreement)語(yǔ)法錯(cuò)誤類別的列表,它表現(xiàn)得非常出色;(2)點(diǎn)擊“重新生成”(regenerate)按鈕,看它是否會(huì)提供更多有用的建議,重復(fù)這一操作,直到?jīng)]有新的內(nèi)容產(chǎn)生;(3)如果對(duì)ChatGPT提供的結(jié)果不滿意,就修改或重寫指令以改善輸出的文本質(zhì)量;(4)利用經(jīng)驗(yàn)豐富的詞典專家和教師的專業(yè)知識(shí)及教學(xué)經(jīng)驗(yàn)增加錯(cuò)誤類別或者把ChatGPT所提供的一些錯(cuò)誤類別一分為二;(5)檢索中國(guó)英語(yǔ)學(xué)習(xí)者語(yǔ)料庫(kù)(TheChineseLearnerEnglishCorpus),確認(rèn)語(yǔ)料庫(kù)中是否包含上述語(yǔ)法錯(cuò)誤。如果沒(méi)有,則暫時(shí)忽略該語(yǔ)法錯(cuò)誤;(6)統(tǒng)一使用用于描述不同子類別的語(yǔ)法錯(cuò)誤的術(shù)語(yǔ),因?yàn)橛袝r(shí)ChatGPT生成的內(nèi)容會(huì)前后矛盾。最終,我們?cè)谥髦^不一致語(yǔ)法錯(cuò)誤類別下細(xì)分了26個(gè)子類別(詳見(jiàn)表2所示)。但是,這一分類并未包含主謂不一致這一語(yǔ)法錯(cuò)誤類別下的所有語(yǔ)法問(wèn)題。例如,集體名詞未被納入其中,因?yàn)楦鶕?jù)語(yǔ)言使用者想要表達(dá)的內(nèi)容,集體名詞可以與動(dòng)詞的單數(shù)形式(大多數(shù)情況下如此)搭配使用,也可以與動(dòng)詞的復(fù)數(shù)形式搭配使用,但是當(dāng)下區(qū)分這兩種用法的技術(shù)手段尚未成熟。
在撰寫文本提供解釋時(shí),我們向ChatGPT提供了以下指令:“我正在訓(xùn)練一個(gè)用于教學(xué)目的的語(yǔ)言模型。我希望你針對(duì)(問(wèn)題類型)向一位中國(guó)英語(yǔ)學(xué)習(xí)者提供一個(gè)簡(jiǎn)要且具備教學(xué)性的解釋。我需要你所生成的文本具有以下結(jié)構(gòu):(1)語(yǔ)法問(wèn)題的簡(jiǎn)單介紹;(2)一個(gè)錯(cuò)誤例證;(3)同一個(gè)經(jīng)過(guò)修正的例證;(4)錯(cuò)誤例證和正確例證的簡(jiǎn)要解釋。例證的長(zhǎng)度至少12 個(gè)單詞?!盵Prompt 3:I am training a language model to be usedfor didactic purposes.I want you to briefly and didactically explain to a Chinese learnerof English en error related to the noun subject-verb agreement.I need the text to have thefollowing structure:( 1 ) an introduction to the problem;(2) an example sentence with anerror;(3 ) the same example sentence with the error corrected;(4) a brief explanation ofthe incorrect and correct examples. The example sentences must be at least l2 words long.]基于上述指令,ChatGPT生成了如下內(nèi)容(詳見(jiàn)圖8所示),這一文本中也同樣存在諸多問(wèn)題。然后,憑借詞典學(xué)家的專業(yè)知識(shí),我們進(jìn)行了和第一項(xiàng)研究類似的優(yōu)化流程,以便為用戶呈現(xiàn)更為完善的語(yǔ)法解釋(詳見(jiàn)圖9所示)。
五、新型語(yǔ)法分類在寫作助手中的應(yīng)用
我們需要將上述語(yǔ)法解釋集成到寫作助手中。寫作助手基于語(yǔ)言模型驅(qū)動(dòng),該語(yǔ)言模型經(jīng)過(guò)訓(xùn)練可以識(shí)別文本中的詞匯、語(yǔ)法等錯(cuò)誤,為學(xué)習(xí)者提供即時(shí)的語(yǔ)言使用指導(dǎo)。學(xué)習(xí)者可以將他們的文本粘貼到寫作助手中,也可以直接基于寫作助手進(jìn)行寫作。寫作助手會(huì)突出顯示文本中存在的語(yǔ)法問(wèn)題,只需點(diǎn)擊添加下畫線的詞匯就會(huì)出現(xiàn)一個(gè)提供簡(jiǎn)短解釋的彈窗(詳見(jiàn)圖10所示)。本例中的語(yǔ)法問(wèn)題是名詞和動(dòng)詞主謂不一致:動(dòng)詞are是復(fù)數(shù),但是必須使用動(dòng)詞的單數(shù)形式才能與主語(yǔ)impact保持一致。學(xué)習(xí)者只需點(diǎn)擊標(biāo)注為綠色的is,這一正確的動(dòng)詞形式就會(huì)取代標(biāo)注為紅色的錯(cuò)誤的動(dòng)詞形式are嵌人到文本中,并且不會(huì)中斷學(xué)習(xí)者的寫作流程。如果學(xué)習(xí)者是初學(xué)者,想要對(duì)這一語(yǔ)法問(wèn)題有更深入的了解,點(diǎn)擊彈窗左下角的“更多知識(shí)”,就會(huì)出現(xiàn)提供增補(bǔ)解釋的文本(詳見(jiàn)圖11所示)。其構(gòu)建框架體現(xiàn)了黑格爾的辯證法思維。具體來(lái)講,寫作助手向用戶提供的替代選項(xiàng),即將are改為is代表了語(yǔ)法錯(cuò)誤實(shí)例,簡(jiǎn)單解釋闡明了本例中的語(yǔ)法問(wèn)題所在,增補(bǔ)解釋則揭示了該語(yǔ)法問(wèn)題表象下的語(yǔ)法規(guī)則。簡(jiǎn)言之,簡(jiǎn)單解釋充當(dāng)了連接具體語(yǔ)法錯(cuò)誤與抽象語(yǔ)法規(guī)則的橋梁,可以有效引導(dǎo)學(xué)習(xí)者實(shí)現(xiàn)從對(duì)語(yǔ)法問(wèn)題的附帶學(xué)習(xí)(incidental learning)到對(duì)語(yǔ)法規(guī)則的有意學(xué)習(xí)(intentional learning)。(Tarp2022)
簡(jiǎn)單解釋基于模板直接生成,“動(dòng)詞:token是復(fù)數(shù),但是必須是單數(shù)動(dòng)詞才能與主語(yǔ):subject在數(shù)量上保持一致”。前者(token)由驅(qū)動(dòng)寫作助手的語(yǔ)言模型提供,后者(subject)由ChatGPT提供。我們向ChatGPT發(fā)出了以下指令要求其解釋為何圖10中寫作助手添加下畫線的動(dòng)詞are是錯(cuò)誤的,即“請(qǐng)解釋為什么下面這個(gè)句子使用are 是錯(cuò)誤的\"(Prompt: Please explain why it is a mistake to use“are”in the following sentence:“The impact of social media on teenagers are a topic worth exploring because it shapes ouridentities,influences our mental health,and affect our social interactions.”)。從 ChatGPT的回復(fù)(詳見(jiàn)圖12所示)可以看出,它完全能夠識(shí)別出主語(yǔ)(impact)及其單復(fù)數(shù)形式,并將其與動(dòng)詞的復(fù)數(shù)形式(are)做對(duì)比,并基于此,為當(dāng)前的語(yǔ)法問(wèn)題提供解釋。然而,我們不能直接將這些信息提供給學(xué)習(xí)者,因?yàn)镃hatGPT提供的內(nèi)容篇幅過(guò)長(zhǎng),且存在信息錯(cuò)誤及使用專業(yè)術(shù)語(yǔ)的情況,必須經(jīng)過(guò)詞典學(xué)家的二次編輯。但是,它所提供的信息,對(duì)于詞典學(xué)家編寫簡(jiǎn)單解釋極具價(jià)值。因此,如何從ChatGPT生成的內(nèi)容中提取主語(yǔ)并將其嵌入到上述模板是另外需要解決的問(wèn)題,亟需技術(shù)人員設(shè)計(jì)有效的信息提取與嵌入機(jī)制。
六、辭書未來(lái)發(fā)展展望
我們認(rèn)為,寫作助手項(xiàng)目研發(fā)的不同階段主要體現(xiàn)了人類智能和人工智能之間的4種關(guān)系:1)在構(gòu)建語(yǔ)料庫(kù)進(jìn)行語(yǔ)言模型的訓(xùn)練時(shí),詞典學(xué)家只需要檢查其發(fā)布的指令是否可以促使ChatGPT生成正確的文本類型,因?yàn)檫@些文本僅用于寫作助手語(yǔ)言模型的內(nèi)部訓(xùn)練;2)在生成驗(yàn)證數(shù)據(jù)進(jìn)行語(yǔ)言模型的檢驗(yàn)時(shí),詞典學(xué)家必須仔細(xì)校對(duì)所有文本,以便糾正ChatGPT出現(xiàn)的錯(cuò)誤;(3)在撰寫附加解釋時(shí),ChatGPT只是提供靈感啟發(fā),詞典學(xué)家需要對(duì)文本進(jìn)行最終編輯,使文本內(nèi)容更加符合用戶需求;(4)在撰寫簡(jiǎn)短解釋時(shí),ChatGPT負(fù)責(zé)執(zhí)行文本分析與特定詞匯識(shí)別的任務(wù),詞典學(xué)家則通過(guò)設(shè)計(jì)恰當(dāng)?shù)闹噶罱档虲hatGPT的錯(cuò)誤率,這主要是基于人機(jī)互動(dòng)中,詞典學(xué)家對(duì)ChatGPT工作的深度認(rèn)知。
生物學(xué)中將共生關(guān)系(symbiosis)定義為兩個(gè)物種之間長(zhǎng)期的、緊密的關(guān)系或相互作用。具體來(lái)講,這種關(guān)系包含3種具體類型:互利共生型(mutualistic),即兩個(gè)生物體都受益;偏利共生型(commensalistic),即一方受益而另一方不受影響;寄生型(parasitic),即一方受益而另一方受到損害。此外,這種關(guān)系可以是非強(qiáng)制型,即兩個(gè)生物體能夠彼此獨(dú)立存在;也可以是強(qiáng)制型,即其中一方的生存完全依賴于另一方。人類智能和人工智能之間的關(guān)系本質(zhì)上是偏利共生型,因?yàn)橹挥星罢邚娜藱C(jī)互動(dòng)中受益,而后者并不會(huì)受到影響。此外,人類智能和人工智能之間的關(guān)系顯然是非強(qiáng)制型,因?yàn)樵~典學(xué)家可以自由決定是否使用人工智能。然而,如果想要提升工作效率,這種共生關(guān)系就顯得尤為必要。正如在寫作助手的項(xiàng)目研發(fā)中,人工智能的參與顯著提升了工作效率,也促進(jìn)了我們對(duì)人機(jī)協(xié)作新模式的探索,為詞典研究和技術(shù)應(yīng)用的深度融合提供了新思路。借助人工智能提升辭書編纂效率,既是理論創(chuàng)新的焦點(diǎn),也是實(shí)踐探索的任務(wù),人類智能與人工智能的協(xié)同編纂無(wú)疑會(huì)成為未來(lái)辭書發(fā)展的基本方向。關(guān)鍵在于,誰(shuí)才是掌握最終話語(yǔ)權(quán)的一方,毫無(wú)疑問(wèn),答案是我們(人類)。正如上文所言,人工智能始終無(wú)法像人類一樣進(jìn)行深層次思考,人類智能的重要性毋庸置疑,這也要求我們掌握必要的技能和知識(shí),以充分發(fā)揮人工智能潛力,實(shí)現(xiàn)人類智能與人工智能的共生。
附注
[1]第九屆學(xué)習(xí)詞典與二語(yǔ)教學(xué)國(guó)際研討會(huì)(2024年10月24日—27日,湖北武漢,華中農(nóng)業(yè)大學(xué))。[2]如果語(yǔ)法錯(cuò)誤過(guò)于籠統(tǒng),提供的解釋建議會(huì)過(guò)于寬泛,無(wú)法令學(xué)習(xí)者明確具體問(wèn)題所在;如果過(guò)于具體,語(yǔ)法錯(cuò)誤類別數(shù)量過(guò)多,也難以歸類處理。[3]Bestgen 和Granger(2011)利用國(guó)際英語(yǔ)學(xué)習(xí)者語(yǔ)料庫(kù)(International Corpus of LearnerEnglish)對(duì)拼寫錯(cuò)誤進(jìn)行了再分類,該語(yǔ)料庫(kù)涵蓋8個(gè)主要領(lǐng)域和56個(gè)錯(cuò)誤類別。[4」嚴(yán)格來(lái)講,這一類并不是真正的語(yǔ)法錯(cuò)誤。[5」本文中第一項(xiàng)研究及第二項(xiàng)研究使用的均是ChatGPT4o版本。[6]ChatGPT生成的文本主要涵蓋以下7方面的內(nèi)容:(1)使用簡(jiǎn)潔易懂的語(yǔ)言引出了西班牙語(yǔ)中性屬一致的話題;(2)對(duì)性屬一致語(yǔ)法規(guī)則進(jìn)行了解釋,圍繞指令1中所要求的內(nèi)容展開;(3)給出了一個(gè)錯(cuò)誤例證和一個(gè)正確例證;(4)對(duì)上述兩個(gè)例證做了簡(jiǎn)單解釋;(5)總結(jié)了上述內(nèi)容;(6)給出了一個(gè)有關(guān)西班牙語(yǔ)性屬一致語(yǔ)法規(guī)則的練習(xí);(7)以一句鼓勵(lì)性的話語(yǔ)結(jié)尾:“堅(jiān)持練習(xí),很快就能掌握西班牙語(yǔ)中性屬一致的語(yǔ)法規(guī)則!”該文本主要存在以下問(wèn)題:首先,它所提供的練習(xí)不符合我們的要求,也并未體現(xiàn)教學(xué)性的目標(biāo)。其次,內(nèi)容準(zhǔn)確性有待提升。例如,把名詞定義為“命名事物的詞”,比如“房子”或“書”;把形容詞定義為“描述事物的詞”,比如“漂亮的”或“大的”,這是不準(zhǔn)確的。因?yàn)槌酥?,名詞還可以指代具備不同性質(zhì)的實(shí)體,形容詞還可以對(duì)名詞進(jìn)行限定或修飾。最后,ChatGPT生成的內(nèi)容包含了許多干擾學(xué)習(xí)者的冗余信息。
參考文獻(xiàn)
1.Bestgen Y,Granger S. Categorising Spelling Errors to AssessL2 Writing. International Journal ofContinuing Engineering Education and Life Long Learning,2011,21(2-3): 235-252.
2.Hawking S.BriefAnswers to the Big Questions.Newyork:Bantam,2018:251.
3.Hinton G. Interview.NobelPrize.org. Nobel Prize. Outreachhttps://www.nobelprize.org/prizes/physics/2024/hinton/interview/,2025.
4.Huete-Garcia A,Tarp S. Training an AI-based Writing Assistant for Spanish Learners : TheUsefulnessof Chatbots and the Indispensability of Human-assisted Intellgence.Lexikos,2024,34(1) : 21-40.
5.Li Q,Tarp S. Using Generative AI to Provide High-quality Lexicographic Assistance to ChineseLearners ofEnglish. Lexikos,2024(34):397-418.
6.McCarthy J,Minsky ML,Rochester N,et al.A Proposal for the Dartmouth Summer Research Project on Artificial Intelligence,August 31,1955.AI Magazine,2006,27(4): 12.
7.Tarp S.A Lexicographical Perspective to Intentional and Incidental Learning: Approaching an Old Question from a New Angle.Lexikos,2022,32(2):203-222.
8.Tarp S,Nomdedeu-RullA. Who Has the Last Word? Lessons from Using ChatGPT to Develop an AI based Spanish Writing Asistant. Circulo de linguistica aplicada a la comunicacion,2024(97):309-321.
(責(zé)任編輯 劉博)