[摘" 要] 語(yǔ)料庫(kù)作為大數(shù)據(jù)時(shí)代語(yǔ)言資源的重要組成部分,對(duì)于翻譯研究、外語(yǔ)教學(xué)等方面有重要意義。近年來(lái),大語(yǔ)言模型高速發(fā)展,其對(duì)自然語(yǔ)言的處理能力十分強(qiáng)大。因此,本研究探討了大語(yǔ)言模型賦能語(yǔ)料庫(kù)建設(shè)的可能方法,對(duì)語(yǔ)料庫(kù)建設(shè)的基本原理進(jìn)行了闡釋,并對(duì)大語(yǔ)言模型在文本生成、語(yǔ)義理解等方面的優(yōu)秀表現(xiàn)進(jìn)行了基本介紹。本文重點(diǎn)探究了基于大語(yǔ)言模型的語(yǔ)料庫(kù)構(gòu)建方法,如自然語(yǔ)言理解與標(biāo)注、多語(yǔ)種同步構(gòu)建、數(shù)據(jù)質(zhì)量評(píng)估等。研究結(jié)果表明,基于大語(yǔ)言模型的新方法不僅可以顯著提高語(yǔ)料庫(kù)的構(gòu)建效率,降低人力和財(cái)力成本,而且語(yǔ)料的質(zhì)量也得到明顯提升。這些方法具有較強(qiáng)的可擴(kuò)展性,為構(gòu)建海量高質(zhì)量語(yǔ)料庫(kù)提供了行之有效的新路徑。
[關(guān)鍵詞] 大語(yǔ)言模型" ChatGPT" 語(yǔ)料庫(kù)" 語(yǔ)言學(xué)
[中圖分類號(hào)] I206 [文獻(xiàn)標(biāo)識(shí)碼] A [文章編號(hào)] 2097-2881(2025)12-0090-04
近年來(lái),以ChatGPT、DeepSeek為代表的大語(yǔ)言模型快速發(fā)展,其以在語(yǔ)言應(yīng)用方面的出色表現(xiàn),迅速滲透到語(yǔ)言應(yīng)用的各個(gè)方面。本文將探究大語(yǔ)言模型在語(yǔ)料庫(kù)建設(shè)方面的應(yīng)用和方法,以期在“數(shù)智時(shí)代”找到更加具有創(chuàng)新性的語(yǔ)料庫(kù)建設(shè)途徑。
語(yǔ)料庫(kù)作為自然語(yǔ)言處理研究和應(yīng)用的基石,對(duì)于機(jī)器翻譯、信息檢索、文本分類等具有不可替代的作用。然而,傳統(tǒng)語(yǔ)料庫(kù)構(gòu)建過(guò)程面臨著數(shù)據(jù)規(guī)模有限、多樣性不足、維護(hù)困難等諸多挑戰(zhàn),而以深度學(xué)習(xí)為代表的大數(shù)據(jù)方法將突破語(yǔ)料庫(kù)容量擴(kuò)大帶來(lái)的瓶頸[1]。因此,隨著大語(yǔ)言模型的涌現(xiàn),這些困難迎刃而解。大語(yǔ)言模型以其卓越的生成和理解能力,為語(yǔ)料庫(kù)建設(shè)注入新的活力,為我們理解和處理自然語(yǔ)言提供更廣泛、更深入的視角。
隨著深度學(xué)習(xí)的不斷發(fā)展,大語(yǔ)言模型在過(guò)去幾年中取得了巨大的成功。以GPT系列為代表的大語(yǔ)言模型,通過(guò)海量的預(yù)訓(xùn)練數(shù)據(jù)和強(qiáng)大的神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu),展現(xiàn)了出色的自然語(yǔ)言生成和理解能力。這種用單一的后詞預(yù)測(cè)機(jī)制來(lái)一體化地解決多種與自然語(yǔ)言相關(guān)的下游任務(wù)的工作方式,不僅顛覆了主流的自然語(yǔ)言處理范式,而且也顛覆了人們對(duì)于人類語(yǔ)言的結(jié)構(gòu)方式的認(rèn)知[2]。
大語(yǔ)言模型在語(yǔ)料庫(kù)建設(shè)中擁有一定的優(yōu)勢(shì),因?yàn)樗軌蛲ㄟ^(guò)不斷地訓(xùn)練和學(xué)習(xí),以前所未有的規(guī)模生成高質(zhì)量文本,為語(yǔ)料庫(kù)注入更多樣、更廣泛的內(nèi)容。除此之外,大語(yǔ)言模型不僅在自然語(yǔ)言理解和標(biāo)注任務(wù)上表現(xiàn)出色,還擁有強(qiáng)大的多語(yǔ)言能力,可用于自動(dòng)執(zhí)行諸如實(shí)體識(shí)別、情感分析等標(biāo)注任務(wù)并且能夠在跨語(yǔ)言環(huán)境中進(jìn)行語(yǔ)料庫(kù)建設(shè)。這為語(yǔ)料庫(kù)的結(jié)構(gòu)化和標(biāo)準(zhǔn)化提供了強(qiáng)有力的支持,也為其在全球范圍內(nèi)的研究和應(yīng)用提供了更多可能性[3]。
本研究將介紹大語(yǔ)言模型的基本原理和在自然語(yǔ)言處理中的應(yīng)用,并深入研究大語(yǔ)言模型在語(yǔ)料庫(kù)生成、標(biāo)注以及多語(yǔ)言建模等方面的方法。此外,本文通過(guò)深入探究大語(yǔ)言模型在語(yǔ)料庫(kù)建設(shè)中的方法,揭示其在推動(dòng)語(yǔ)料庫(kù)建設(shè)方面的前沿進(jìn)展,以期為語(yǔ)料庫(kù)構(gòu)建提供新的思路和方法,推動(dòng)自然語(yǔ)言處理領(lǐng)域的發(fā)展,促進(jìn)語(yǔ)料庫(kù)在各個(gè)領(lǐng)域的更廣泛應(yīng)用。
一、大語(yǔ)言模型簡(jiǎn)介
大語(yǔ)言模型是近年來(lái)自然語(yǔ)言處理領(lǐng)域中一種備受關(guān)注的新型技術(shù)范式。它是基于深度學(xué)習(xí)技術(shù),通過(guò)在海量文本語(yǔ)言語(yǔ)料上進(jìn)行大規(guī)模預(yù)訓(xùn)練和構(gòu)建的語(yǔ)言模型。與以傳統(tǒng)的規(guī)則為基礎(chǔ)或統(tǒng)計(jì)方法的自然語(yǔ)言處理系統(tǒng)不同,大語(yǔ)言模型能夠自主學(xué)習(xí)并獲取語(yǔ)言的內(nèi)在知識(shí)和語(yǔ)義信息,以其不斷的迭代能力來(lái)影響后續(xù)的輸出[4]。
大語(yǔ)言模型的核心特征在于其龐大的模型規(guī)模。一些知名的大語(yǔ)言模型如OpenAI的ChatGPT甚至擁有多達(dá)1750億個(gè)參數(shù),這使得GPT能夠捕捉和存儲(chǔ)大量的語(yǔ)言知識(shí)[5]。支撐如此龐大的語(yǔ)言知識(shí),模型訓(xùn)練所需的語(yǔ)料規(guī)模也是史無(wú)前例的,通常會(huì)采用從互聯(lián)網(wǎng)上獲取的海量多領(lǐng)域文本語(yǔ)料。需要注意的是,這些數(shù)據(jù)不單指語(yǔ)料規(guī)模的擴(kuò)大,更在數(shù)據(jù)結(jié)構(gòu)和方法上與以往有所不同[6]。在預(yù)訓(xùn)練過(guò)程中,大語(yǔ)言模型通過(guò)自我監(jiān)督的方式,利用掩碼語(yǔ)言模型、下一句進(jìn)行預(yù)測(cè)等任務(wù)目標(biāo),自主學(xué)習(xí)表征,獲取通用的語(yǔ)言理解能力。
大語(yǔ)言模型預(yù)訓(xùn)練完成后,雖然仍存在一些缺陷,如生成文本存在語(yǔ)言風(fēng)格趨同化和單一化,在一定意義上喪失了語(yǔ)言文字本身的功能[7],但已經(jīng)能夠展現(xiàn)出強(qiáng)大的語(yǔ)言生成、理解、問(wèn)答、文本分析等綜合能力。更重要的是,借助其通用性和遷移學(xué)習(xí)能力,大語(yǔ)言模型可以通過(guò)少量的任務(wù)數(shù)據(jù)調(diào)整,快速地為特定的自然語(yǔ)言應(yīng)用場(chǎng)景提供高水平的服務(wù)。目前,以ChatGPT-4.0、Claude、DeepSeek等為代表的大語(yǔ)言模型已經(jīng)在多種語(yǔ)言處理任務(wù)中取得了優(yōu)異的表現(xiàn),推動(dòng)了人工智能自然語(yǔ)言處理技術(shù)的發(fā)展進(jìn)程。
盡管取得了巨大的成就,大語(yǔ)言模型也面臨著一些挑戰(zhàn),比如知識(shí)存在偏差、缺乏常識(shí)推理能力、存在隱私和安全關(guān)注風(fēng)險(xiǎn)等,這需要通過(guò)持續(xù)的研究和優(yōu)化來(lái)解決和完善[8]??梢哉f(shuō),大語(yǔ)言模型作為自然語(yǔ)言處理領(lǐng)域的一種創(chuàng)新性技術(shù)范式,正在為語(yǔ)言人工智能的發(fā)展開(kāi)辟新的前景。
二、語(yǔ)料庫(kù)建設(shè)的基本原理
語(yǔ)料庫(kù)建設(shè)的基本原理涉,是指在研究或應(yīng)用中收集、整理和管理文本數(shù)據(jù)的相關(guān)理論和研究方法。建設(shè)語(yǔ)料庫(kù)需要明確研究或任務(wù)的目標(biāo)和范圍,以確定語(yǔ)料庫(kù)應(yīng)該涵蓋的語(yǔ)言、主題、領(lǐng)域等方面的要求。收集原始文本數(shù)據(jù)是建設(shè)語(yǔ)料庫(kù)的第一步,可以通過(guò)網(wǎng)絡(luò)抓取、收集文本數(shù)據(jù)庫(kù)或人工采集等方式進(jìn)行。這一階段需要確保數(shù)據(jù)來(lái)源廣泛、具有代表性,以滿足后續(xù)分析和應(yīng)用的需求。在收集到原始文本數(shù)據(jù)后,清理和預(yù)處理是建設(shè)語(yǔ)料庫(kù)的關(guān)鍵步驟。去重是為了確保語(yǔ)料庫(kù)的多樣性,而標(biāo)點(diǎn)符號(hào)和大小寫的處理有助于提高文本的一致性。分詞是將文本分解為單詞或標(biāo)記的過(guò)程,為后續(xù)的語(yǔ)言分析和處理提供基礎(chǔ)。去噪則有助于去除文本中的不必要的干擾信息,例如HTML標(biāo)簽、廣告等,以確保語(yǔ)料庫(kù)的純凈性。標(biāo)注和注釋是建設(shè)語(yǔ)料庫(kù)的另一重要環(huán)節(jié),它增加了對(duì)文本的語(yǔ)法和語(yǔ)義信息的理解。詞性標(biāo)注、實(shí)體識(shí)別和情感分析等任務(wù)有助于為語(yǔ)料庫(kù)添加更為結(jié)構(gòu)化和豐富的元信息,提高其在特定任務(wù)上的可用性。
傳統(tǒng)的語(yǔ)料收集方式具有一定程度的缺陷,而大語(yǔ)言模型的出現(xiàn)能夠在一定程度上彌補(bǔ)這些缺陷。語(yǔ)料庫(kù)的構(gòu)建需要大量投入的人力和財(cái)力,尤其是對(duì)于需要專業(yè)知識(shí)的特定領(lǐng)域語(yǔ)料庫(kù),獲取難度和成本更高。最顯著的問(wèn)題之一就是人工處理的語(yǔ)料數(shù)據(jù)量有限,難以滿足大數(shù)據(jù)時(shí)代人們對(duì)海量語(yǔ)料的需求。一方面,人工構(gòu)建的語(yǔ)料庫(kù)通常只能覆蓋有限的語(yǔ)言現(xiàn)象和領(lǐng)域,不夠廣泛和全面。且人工標(biāo)注的語(yǔ)料庫(kù)質(zhì)量參差不齊,存在標(biāo)注錯(cuò)誤和主觀性偏差的風(fēng)險(xiǎn)。人工標(biāo)注往往缺乏一致性標(biāo)準(zhǔn),使語(yǔ)料庫(kù)的可信度和復(fù)用性受到影響。另一方面,隨著自然語(yǔ)言處理技術(shù)的不斷發(fā)展,人們對(duì)語(yǔ)料庫(kù)的要求也日益提高。大數(shù)據(jù)時(shí)代,人工智能系統(tǒng)需要消化大規(guī)模、多語(yǔ)種、多領(lǐng)域的海量語(yǔ)料,以獲取更豐富、更精確的語(yǔ)言知識(shí)。傳統(tǒng)的人工構(gòu)建方法很難滿足這一需求。除此之外,一些新興語(yǔ)言處理任務(wù)對(duì)語(yǔ)料庫(kù)的質(zhì)量和覆蓋面也提出了更高要求。例如,對(duì)話系統(tǒng)需要大量會(huì)話數(shù)據(jù)、知識(shí)圖譜構(gòu)建需要特定格式的結(jié)構(gòu)化語(yǔ)料等,而單一來(lái)源和格式的語(yǔ)料庫(kù)難以滿足多樣化的應(yīng)用場(chǎng)景的需求。
可見(jiàn),在大數(shù)據(jù)和人工智能時(shí)代,傳統(tǒng)的語(yǔ)料庫(kù)構(gòu)建方法日益暴露出效率低下、數(shù)據(jù)量有限、質(zhì)量參差不齊等諸多不足,迫切需要尋找新的、高效、低成本、高質(zhì)量的語(yǔ)料庫(kù)建設(shè)途徑。
三、大語(yǔ)言模型在語(yǔ)料庫(kù)建設(shè)中的應(yīng)用
例如,在文學(xué)類文本語(yǔ)料庫(kù)建設(shè)中,大語(yǔ)言模型展現(xiàn)出了引人矚目的潛力和獨(dú)特價(jià)值。傳統(tǒng)的文學(xué)作品收集方式可能受到時(shí)間、版權(quán)和獲取難度等因素的限制,這些都是研究者需要考慮的問(wèn)題。然而,隨著大語(yǔ)言模型的出現(xiàn)和發(fā)展,研究者可以更加便捷地獲得各種文學(xué)體裁的文本數(shù)據(jù),并構(gòu)建多樣化的語(yǔ)料庫(kù)。大語(yǔ)言模型的生成能力為文學(xué)作品的獲取提供了全新的途徑。研究者可以利用大語(yǔ)言模型生成各類文學(xué)作品的樣本,包括小說(shuō)、詩(shī)歌、戲劇等。通過(guò)調(diào)整模型的輸入?yún)?shù),研究者可以探索不同風(fēng)格、時(shí)代和主題的文學(xué)作品,從而豐富語(yǔ)料庫(kù)的多樣性[9]。
大語(yǔ)言模型可以通過(guò)使用合理的prompt(提示詞)來(lái)指導(dǎo)大語(yǔ)言模型關(guān)注特定的文學(xué)風(fēng)格、主題或作者,以模仿生成更符合研究需求的文本樣本。這也就意味著如果能夠收集到某個(gè)作家或角色的經(jīng)典語(yǔ)錄和語(yǔ)言風(fēng)格,我們就可以得到任一風(fēng)格的遷移模型,從而用于構(gòu)建更為大型的平行語(yǔ)料庫(kù),進(jìn)而進(jìn)一步推動(dòng)語(yǔ)言學(xué)研究的發(fā)展[10]。
此外,大語(yǔ)言模型的多語(yǔ)言能力為跨語(yǔ)言文學(xué)作品的收集和分析提供了可能。通過(guò)翻譯文學(xué)作品,研究者可以構(gòu)建一個(gè)包含多種語(yǔ)言版本的文學(xué)語(yǔ)料庫(kù),促進(jìn)不同文化和語(yǔ)言背景下文學(xué)作品的比較和研究。
綜上所述,大語(yǔ)言模型在文學(xué)類文本語(yǔ)料庫(kù)建設(shè)中具有廣泛的應(yīng)用前景和獨(dú)特的優(yōu)勢(shì)。優(yōu)勢(shì)之一是引入大語(yǔ)言模型可以大大提高語(yǔ)料庫(kù)建設(shè)的效率。傳統(tǒng)的人工方式由于需要大量人力進(jìn)行數(shù)據(jù)收集、標(biāo)注和整理,效率通常不高,而大語(yǔ)言模型則能夠基于少量初始種子數(shù)據(jù)和用戶每天輸入獲取的數(shù)據(jù)來(lái)縮短語(yǔ)料獲取的周期。
優(yōu)勢(shì)之二是運(yùn)用大語(yǔ)言模型可以顯著降低語(yǔ)料庫(kù)建設(shè)的整體成本。人工構(gòu)建語(yǔ)料庫(kù)需要投入大量的人力和財(cái)力資源,而利用模型的學(xué)習(xí)能力和迭代能力,可以有效減少人工的參與,減少所需的人力和財(cái)力資源,從而降低了總體成本。大語(yǔ)言模型另一個(gè)突出的優(yōu)勢(shì)是支持規(guī)模化語(yǔ)料庫(kù)的構(gòu)建。大語(yǔ)言模型憑借強(qiáng)大的信息處理能力和學(xué)習(xí)能力,可以高效快速地收集和學(xué)習(xí)海量語(yǔ)料,滿足了大數(shù)據(jù)時(shí)代對(duì)構(gòu)建規(guī)?;Z(yǔ)料庫(kù)的需求,而傳統(tǒng)的人工方法很難高效獲取如此大規(guī)模的語(yǔ)料數(shù)據(jù)。此外,引入大語(yǔ)言模型還豐富了語(yǔ)料庫(kù)的多樣性?;谀P蛯W(xué)習(xí)后提取的語(yǔ)料,不僅可以包含不同體裁、風(fēng)格的文本內(nèi)容,還能涵蓋更廣泛和全面的主題領(lǐng)域。這極大地拓展了語(yǔ)料庫(kù)的多樣性,而人工構(gòu)建的語(yǔ)言材料通常只針對(duì)某些特定領(lǐng)域。
在語(yǔ)料質(zhì)量控制方面,采用人機(jī)協(xié)作的方式,通過(guò)樣本審核、迭代訓(xùn)練、人工校正等環(huán)節(jié),可以更精細(xì)地控制和優(yōu)化語(yǔ)料的質(zhì)量,減少生成內(nèi)容中的錯(cuò)誤和偏差,提高可靠性。并且一些大語(yǔ)言模型已經(jīng)具備了基本的語(yǔ)義理解能力,可以自動(dòng)或輔助完成語(yǔ)料庫(kù)的元數(shù)據(jù)標(biāo)簽工作,如文本分類、主題標(biāo)簽等,減輕了人工標(biāo)簽的負(fù)擔(dān),支持元數(shù)據(jù)標(biāo)簽的自動(dòng)化生成。
總而言之,大語(yǔ)言模型賦能語(yǔ)料庫(kù)建設(shè)的新范式較傳統(tǒng)人工方法而言,在效率、規(guī)模、多樣性、可擴(kuò)展性等方面具有明顯優(yōu)勢(shì),同時(shí)還提供了質(zhì)量控制和自動(dòng)化標(biāo)志的可能性,這為語(yǔ)言資源和應(yīng)用的發(fā)展提供了強(qiáng)有力的支撐。
四、基于大語(yǔ)言模型的語(yǔ)料庫(kù)構(gòu)建方法
1.自然語(yǔ)言理解及標(biāo)記方法
除了純文本生成外,大語(yǔ)言模型還具備了大部分的自然語(yǔ)言理解能力。因此,可以讓模型對(duì)現(xiàn)有的非格式化文本進(jìn)行分析和語(yǔ)義標(biāo)注,從而獲取格式化的語(yǔ)料。也就是說(shuō),首先需要帶上標(biāo)注的文本語(yǔ)料訓(xùn)練數(shù)據(jù),對(duì)大語(yǔ)言模型進(jìn)行監(jiān)督訓(xùn)練或提示調(diào)優(yōu),使其獲得相應(yīng)的自然語(yǔ)言理解任務(wù)能力,如命名式實(shí)體識(shí)別、關(guān)系抽取、事件檢測(cè)等。然后,將待標(biāo)注的文本輸入經(jīng)過(guò)訓(xùn)練的模型,模型會(huì)自動(dòng)分析積分信息,并生成所需的標(biāo)注結(jié)果,如標(biāo)出實(shí)體類別、抽取出事件要素關(guān)系等。生成的結(jié)果需要人工評(píng)估并修改,以確保質(zhì)量。這種方法可以高效地從海量非結(jié)構(gòu)化文本中提取出結(jié)構(gòu)化的語(yǔ)義知識(shí),為構(gòu)建知識(shí)圖譜、問(wèn)答系統(tǒng)等提供高質(zhì)量的語(yǔ)料支撐。
2.語(yǔ)料同步構(gòu)建流程
大語(yǔ)言模型的通用性和多語(yǔ)種支持能力,可以同步構(gòu)建多種語(yǔ)言的語(yǔ)料庫(kù)。其基本思路是:首先構(gòu)建一種語(yǔ)言的高質(zhì)量語(yǔ)料集,然后將其輸入多語(yǔ)種大語(yǔ)言模型,讓模型生成其他語(yǔ)言的對(duì)應(yīng)語(yǔ)料。
例如,首先用一個(gè)自動(dòng)生成方法,構(gòu)建一個(gè)高質(zhì)量的英語(yǔ)語(yǔ)言資料庫(kù)。然后,使用諸如mT5等多語(yǔ)種大語(yǔ)言模型,輸入英語(yǔ)文本,讓模型輸出其他如中文、法語(yǔ)等多種語(yǔ)言的譯文版本。通過(guò)機(jī)器審核和人工校正,研究者可以獲得準(zhǔn)確的多語(yǔ)種同步語(yǔ)料。同時(shí),研究者還可以利用生成的多語(yǔ)種語(yǔ)料,對(duì)模型進(jìn)行持續(xù)訓(xùn)練,提高其跨語(yǔ)言生成能力,從而保證后續(xù)生成內(nèi)容的質(zhì)量。這種方法的優(yōu)點(diǎn)是模型可以高效支持多語(yǔ)種語(yǔ)料同步生成,大大節(jié)省了人工翻譯和標(biāo)注的時(shí)間,對(duì)于語(yǔ)言資源匱乏的領(lǐng)域具有重要的應(yīng)用價(jià)值。
3.數(shù)據(jù)質(zhì)量評(píng)估方法
在語(yǔ)料庫(kù)構(gòu)建過(guò)程中,評(píng)估其內(nèi)容質(zhì)量是一個(gè)關(guān)鍵環(huán)節(jié)。我們可以借助大語(yǔ)言模型在自然語(yǔ)言理解和生成等方面的卓越表現(xiàn),提出新的質(zhì)量評(píng)估方法。其中一種思路是,基于大語(yǔ)言模型的掩碼語(yǔ)言模型等能力,評(píng)估語(yǔ)料樣本在語(yǔ)義、語(yǔ)法和語(yǔ)境等方面的一致性和質(zhì)量評(píng)分。通過(guò)統(tǒng)計(jì)不同粒度的語(yǔ)料質(zhì)量評(píng)分,我們可以發(fā)現(xiàn)和篩選語(yǔ)料庫(kù)中的異常樣本。此外,大語(yǔ)言模型還可以從多維度評(píng)估生成語(yǔ)種的多樣性、覆蓋面、多語(yǔ)種一致性等質(zhì)量指標(biāo),為后續(xù)優(yōu)化提供參考;或者是可以嘗試訓(xùn)練一個(gè)監(jiān)督式語(yǔ)料質(zhì)量二分類或評(píng)分模型,在帶標(biāo)注數(shù)據(jù)的指導(dǎo)下,基于規(guī)則方法和模型預(yù)測(cè)分?jǐn)?shù),形成多維度的語(yǔ)料質(zhì)量評(píng)估體系。
五、結(jié)語(yǔ)
本文系統(tǒng)地探討了大語(yǔ)言模型在語(yǔ)料庫(kù)建設(shè)中的應(yīng)用方法和前景。研究表明,將大語(yǔ)言模型引入語(yǔ)料庫(kù)建設(shè)中,可以極大地提升效率、降低成本、擴(kuò)大規(guī)模、增強(qiáng)多樣性和可擴(kuò)展性,為獲得高質(zhì)量的語(yǔ)言資源提供了全新的有效途徑?;诖笳Z(yǔ)言模型的自然語(yǔ)言理解標(biāo)注、多語(yǔ)種同步構(gòu)建、數(shù)據(jù)質(zhì)量評(píng)估等創(chuàng)新方法,不僅提高了語(yǔ)料庫(kù)建設(shè)的自動(dòng)化水平,也為質(zhì)量把控提供了新的思路。研究成果有助于推動(dòng)語(yǔ)料庫(kù)建設(shè)朝標(biāo)準(zhǔn)化的方向發(fā)展,為自然語(yǔ)言處理技術(shù)的創(chuàng)新應(yīng)用提供了完善的語(yǔ)料支撐,促進(jìn)了語(yǔ)言大數(shù)據(jù)資源的高效獲取和利用。
然而,由于大語(yǔ)言模型生成內(nèi)容中的偏差和錯(cuò)誤都缺乏有效的控制,知識(shí)溯源性也較差,且版權(quán)、隱私、倫理等方面的合規(guī)性都有待加強(qiáng),該研究也存在一定的局限性。并且需要注意的是,雖然ChatGPT在對(duì)關(guān)鍵詞進(jìn)行語(yǔ)義分類時(shí)表現(xiàn)相當(dāng)不錯(cuò),但分類是基于去語(yǔ)境化的關(guān)鍵詞,這使得類別過(guò)于寬泛,在分析專業(yè)語(yǔ)境和語(yǔ)料庫(kù)方面有一定的限制。未來(lái)的研究可以關(guān)注以下幾個(gè)方向:如建立深入挖掘大語(yǔ)言模型在自動(dòng)數(shù)據(jù)標(biāo)簽、信息抽取等方面的新應(yīng)用。
大語(yǔ)言模型賦能語(yǔ)料庫(kù)建設(shè)具有良好的發(fā)展前景,有望持續(xù)推動(dòng)語(yǔ)料資源建設(shè)水平的提升。當(dāng)前所取得的進(jìn)展只是一個(gè)良好的開(kāi)端,后續(xù)仍需學(xué)術(shù)界和產(chǎn)業(yè)界的共同努力,不斷創(chuàng)新和完善,最終實(shí)現(xiàn)數(shù)智時(shí)代語(yǔ)料庫(kù)建設(shè)的智能化。
參考文獻(xiàn)
[1] 梁茂成.大數(shù)據(jù)時(shí)代的語(yǔ)料庫(kù)語(yǔ)言學(xué)研究探索[J].中國(guó)外語(yǔ),2021(1).
[2] 袁毓林.ChatGPT等大型語(yǔ)言模型對(duì)語(yǔ)言學(xué)理論的挑戰(zhàn)與警示[J].當(dāng)代修辭學(xué),2024(1).
[3] 陳舒夢(mèng).大語(yǔ)言模型在外語(yǔ)教學(xué)中的應(yīng)用研究[J].長(zhǎng)春師范大學(xué)學(xué)報(bào),2023(11).
[4] Meyer J G, Urbanowicz R J, Martin P C N, et al. ChatGPT and large language models in academia: opportunities and challenges[J]. BioData Mining, 2023(1).
[5] 朱光輝,王喜文.ChatGPT的運(yùn)行模式、關(guān)鍵技術(shù)及未來(lái)圖景[J].新疆師范大學(xué)學(xué)報(bào)(哲學(xué)社會(huì)科學(xué)版),2023(4).
[6] 劉海濤,鄭國(guó)鋒.大數(shù)據(jù)時(shí)代語(yǔ)言學(xué)理論研究的路徑與意義[J].當(dāng)代外語(yǔ)研究,2021(2).
[7] 徐月梅,胡玲,趙佳藝,等.大語(yǔ)言模型與多語(yǔ)言智能的研究進(jìn)展與啟示[J].計(jì)算機(jī)應(yīng)用,2023(S2).
[8] 趙月,何錦雯,朱申辰,等.大語(yǔ)言模型安全現(xiàn)狀與挑戰(zhàn)[J].計(jì)算機(jī)科學(xué),2024(1).
[9] 侯羽,劉澤權(quán),劉鼎甲.基于語(yǔ)料庫(kù)的葛浩文譯者風(fēng)格分析——以莫言小說(shuō)英譯本為例[J].外語(yǔ)與外語(yǔ)教學(xué),2014(2).
[10] 郭肖和.基于神經(jīng)機(jī)器翻譯的魯迅文本風(fēng)格遷移[D].蘭州:蘭州大學(xué),2023.
(特約編輯 楊" 艷)
作者簡(jiǎn)介:王靜,曲阜師范大學(xué)外國(guó)語(yǔ)學(xué)院,研究方向?yàn)橛⒄Z(yǔ)語(yǔ)言學(xué)。