哈里旦木·阿布都克里木,侯鈺濤,姚登峰,阿布都克力木·阿布力孜,陳吉尚
(1.新疆財經(jīng)大學信息管理學院,新疆烏魯木齊 830012;2.北京聯(lián)合大學信息服務工程重點實驗室, 北京 100101)
機器翻譯是自然語言處理(NLP)領(lǐng)域重要的研究內(nèi)容,其借助計算機程序自動地將源語言文本翻譯為具有相同語義的目標語言文本。近年來,機器翻譯發(fā)展迅速,尤其是神經(jīng)機器翻譯(NMT)方法被提出之后[1-3],該領(lǐng)域得到了空前的發(fā)展。
維吾爾語是中華人民共和國新疆維吾爾自治區(qū)的法定官方語言之一,廣泛分布于中國新疆維吾爾自治區(qū)及周邊國家和地區(qū),語系隸屬于阿爾泰語系突厥語族葛邏祿語支[4]。新疆地區(qū)作為我國國際貿(mào)易的活躍口岸,機器翻譯模型的應用為維吾爾族人民提供了更好的漢語及其他語言的學習工具,進一步促進不同地區(qū)和民族之間的文化交流和貿(mào)易往來。
本文旨在考察維吾爾語與其他語言之間機器翻譯的研究現(xiàn)狀,從基于規(guī)則和實例、基于統(tǒng)計以及基于神經(jīng)網(wǎng)絡等方面詳細梳理了維吾爾語機器翻譯相關(guān)研究。同時,總結(jié)歸納了維吾爾語機器翻譯的相關(guān)資源,此外使用ChatGPT 模型對維吾爾語-漢語(后文簡稱維-漢)機器翻譯任務進行了初步探索,最后對維吾爾語機器翻譯未來的研究方向進行了展望,為進一步研究提供借鑒和參考。
20 世紀90 年代末,王世杰等[5]對漢語-維吾爾語(后文簡稱漢-維)機器翻譯面臨的主要問題進行初步探索,開啟了維吾爾語機器翻譯領(lǐng)域的研究,早期多數(shù)學者將基于規(guī)則和基于實例的維吾爾語機器翻譯方法進行結(jié)合討論,后續(xù)的發(fā)展同樣分為基于統(tǒng)計和基于神經(jīng)網(wǎng)絡的維吾爾語機器翻譯兩個階段。表1 匯總了維吾爾語機器翻譯的方法及其優(yōu)缺點。
表1 維吾爾語機器翻譯方法優(yōu)缺點Table 1 Advantages and disadvantages of Uyghur machine translation methods
迄今為止,主流語言的機器翻譯研究主要經(jīng)歷了基于規(guī)則的機器翻譯(RBMT)、基于實例的機器翻譯(EBMT)、基于統(tǒng)計的機器翻譯(SMT)以及基于神經(jīng)網(wǎng)絡的機器翻譯4 個發(fā)展階段。然而,維吾爾語作為一種形態(tài)結(jié)構(gòu)復雜多變的語言,其語義通過有限的詞干和詞綴的不同組合表達,主要在詞干后面首先添加構(gòu)詞詞綴,然后添加構(gòu)形詞綴而成,具體信息見表2。維吾爾語詞干“???”(“看”)通過添加構(gòu)詞詞綴“??”生成具有不同語義的新詞匯——動名詞“?????”(“看著”),該動名詞后面繼續(xù)添加動詞過去式構(gòu)詞詞綴可以派生新的詞匯“????????”(“見過面”),然后添加名詞復數(shù)構(gòu)形詞綴“???”來構(gòu)成新的詞“???????????”(“見過的人”),最后可以添加構(gòu)形詞綴“??”(“呢”)構(gòu)成“?????????????.”(“見過面的人呢”)。由此可見,維吾爾語詞干后面添加構(gòu)詞和構(gòu)形詞綴可派生出新的詞匯和詞的不同形態(tài)形式。在理論上,維吾爾語可以通過此方式產(chǎn)生無限多的詞匯,但也因此會產(chǎn)生更多的未登錄詞(OOV),從而導致嚴重的數(shù)據(jù)稀疏性問題。由于維吾爾語具有形態(tài)復雜、語料稀缺等問題,導致其發(fā)展相對緩慢。
表2 維吾爾語語言特性實例Table 2 Examples of Uyghur language features
在機器翻譯領(lǐng)域最早進行基于規(guī)則的機器翻譯研究,該方法首先對語言進行分析,然后利用人工抽取的規(guī)則將源語言轉(zhuǎn)換為目標語言,但規(guī)則的撰寫需要耗費大量的成本,因此在實際應用中受到一定限制。之后,文獻[6]提出基于實例的機器翻譯方法,受益于計算機處理性能的逐步提升以及雙語平行語料庫規(guī)模的不斷擴大,越來越多的語言學信息被直接用于機器翻譯的實例,從而逐漸取代了基于規(guī)則的機器翻譯方法[7]。在此發(fā)展階段,規(guī)則撰寫(規(guī)則庫)、語言相似度算法、電子詞典等直接影響翻譯的性能。圖1 所示為基于規(guī)則和實例的維吾爾語機器翻譯結(jié)構(gòu)(以維-漢為例)。
圖1 基于規(guī)則和實例的維吾爾語機器翻譯Fig.1 Rule-and example-based Uyghur machine translation
在維吾爾語機器翻譯發(fā)展的初期階段,研究人員主要采用規(guī)則驅(qū)動的方法,文獻[8-11]針對維吾爾語人名、專有名詞、動詞后綴等介紹了基于規(guī)則的翻譯方法。鑒于維吾爾語和日語在句法結(jié)構(gòu)和詞素等方面具有一定的相似性,文獻[12-13]介紹了維吾爾語和日語詞規(guī)則庫的構(gòu)建,在此基礎(chǔ)上進行維吾爾語-日語機器翻譯任務的探索。在基于詞匯層面的規(guī)則基礎(chǔ)上,文獻[14-15]介紹了句子級相似度衡量方法,然而該方法對較長的句子或組成詞頻低的句子存在相似度計算偏差較大等問題。為了解決這些問題,文獻[16]利用單詞信息計算語言相似度來進行改進。電子詞典是基于規(guī)則和實例機器翻譯方法的基礎(chǔ),通過構(gòu)建維吾爾語詞典[17-18]來探索與漢語、英語[19]以及日語[20]之間的翻譯。為了取得更佳的翻譯效果,文獻[21-24]介紹了將規(guī)則、翻譯記憶庫以及詞典相結(jié)合的方法。
隨著機器翻譯技術(shù)和計算機性能的不斷發(fā)展,機器翻譯逐步邁入基于統(tǒng)計的發(fā)展階段,維吾爾語統(tǒng)計機器翻譯研究的主要思想是基于維吾爾語雙語語料庫,通過概率算法挖掘平行語料中詞語對應的翻譯關(guān)系,尋找將源語言序列轉(zhuǎn)換為生成概率最高的目標語言序列[25]。圖2 所示為基于統(tǒng)計的維吾爾語機器翻譯結(jié)構(gòu)(以維-漢為例)。
圖2 基于統(tǒng)計的維吾爾語機器翻譯Fig.2 Statistical-based Uyghur machine translation
基于統(tǒng)計的維吾爾語機器翻譯研究主要以短語[26]和句法[27]的統(tǒng)計機器翻譯為主要研究方法;部分研究融入了詞典[28]和詞級別的語法信息[29-30]等外部知識。由于維吾爾語具有主語、賓語、謂語(SOV)的詞序結(jié)構(gòu)以及從右到左的書寫順序等特點,文獻[31-33]介紹了漢語句子重排以及優(yōu)化解碼時的調(diào)序方法來緩解維吾爾語和漢語的句法結(jié)構(gòu)差異,使得兩者在形態(tài)上更加相近,以此提升了翻譯性能。文獻[34]介紹了影響漢-維翻譯效果的多種因素(詞對齊、句法結(jié)構(gòu)差異、翻譯調(diào)序、翻譯一致性和未登錄詞),并提出了改善翻譯性能的建議。然而,由于基于統(tǒng)計的翻譯方法沒有考慮到語義之間的關(guān)系,因此文獻[35-36]介紹了統(tǒng)計機器翻譯與規(guī)則和翻譯記憶相結(jié)合的方法,以此來改善翻譯效果?;诮y(tǒng)計的方法在維吾爾語機器翻譯研究中發(fā)揮了重要作用,但仍需要進一步提升翻譯質(zhì)量。
神經(jīng)機器翻譯方法已在維吾爾語機器翻譯任務中占據(jù)主導地位,其主體結(jié)構(gòu)由編碼器-解碼器兩部分構(gòu)成。首先使用編碼器將輸入的源語言文本轉(zhuǎn)化為固定向量,然后使用解碼器對向量逐次解碼,從而輸出目標語言文本。神經(jīng)機器翻譯的目標是在給定源語言文本x的情況下,找出翻譯概率最大的目標語言文本如式(1)、式(2)所示:
其中:x=(x1,x2,…,xm) 表示源語言文本;y=(y1,y2,…,ym)表示目標語言文本;y 圖3 維吾爾語NMT 訓練框架Fig.3 Uyghur NMT training framework 在神經(jīng)機器翻譯發(fā)展前期,研究人員使用循環(huán)神經(jīng)網(wǎng)絡(RNN)、卷積神經(jīng)網(wǎng)絡(CNN)以及門控循環(huán)單元(GRU)等網(wǎng)絡進行機器翻譯的初步探索。文獻[37]介紹了6 種經(jīng)典的神經(jīng)機器模型在維吾爾語-漢語的翻譯效果,為基于神經(jīng)網(wǎng)絡的維吾爾語機器翻譯工作帶來了啟發(fā)。由于維吾爾語存在形態(tài)復雜和語料稀缺等問題導致譯文效果不佳是目前研究人員面臨的嚴峻挑戰(zhàn)?;谏窠?jīng)網(wǎng)絡的維吾爾語機器翻譯針對此問題采用不同方法解決,本節(jié)主要從以下3 個方面對其進行歸類整理:注意力機制,Transformer 模型和基于預訓練模型的維吾爾語機器翻譯方法。 1.3.1 注意力機制 自從注意力機制[38-39]被提出以來,研究人員將注意力機制與雙向LSTM、RNN 以及GRU 等網(wǎng)絡相結(jié)合,構(gòu)建維吾爾語神經(jīng)機器翻譯模型,如圖4所示。 圖4 基于注意力機制的維吾爾語機器翻譯模型Fig.4 Model of Uyghur machine translation based on attention mechanisms 同時,充分考慮維吾爾語的語言特點,融入詞級別以及句子級別的語法知識,分別研究了維吾爾語-英語[40]和漢語[41-42]的翻譯;此外,文獻[43]介紹了維-漢人名翻譯數(shù)據(jù)集的構(gòu)建,并在此數(shù)據(jù)集上研究人名翻譯中的不雅詞和譯文不當?shù)膯栴}。為了更好地學習源語言和目標語言的語言理解與生成能力,文獻[44-45]介紹了基于注意力機制的多編碼器-多解碼器結(jié)構(gòu)的大型神經(jīng)機器翻譯模型,用于研究維吾爾語機器翻譯,該方法明顯優(yōu)于基于統(tǒng)計的方法和基本的神經(jīng)機器翻譯模型。 1.3.2 Transformer 模型 Transformer 模型[46]是完全使用注意力機制構(gòu)建的序列到序列的模型,相較之前神經(jīng)機器翻譯模型中使用的循環(huán)神經(jīng)網(wǎng)絡而言,具有計算復雜度小、并行度高等優(yōu)點。文獻[47]在Transformer 模型基礎(chǔ)上提出一種雙編碼器結(jié)構(gòu),分別對維吾爾語的單詞和語言特征進行編碼,旨在有效地整合語言特征并提升源語言知識的挖掘效果,從而改善維-漢翻譯的質(zhì)量。 1)不同粒度切分 為了解決維吾爾語形態(tài)復雜性對機器翻譯質(zhì)量的影響,研究人員探索適用于維吾爾語機器翻譯的不同粒度單元,以更有效地利用有限的平行語料資源。文獻[48]給出了維-漢和漢-維組織名(ONs)翻譯任務的對比分析,探討了字符、音節(jié)、BPE、標記字符和單詞5 種粒度單元的分詞方法對翻譯結(jié)果的影響。文獻[49]介紹了多層次分段粒度訓練方法,包括音節(jié)、標記音節(jié)、單詞和音節(jié)-單詞融合,實驗結(jié)果表明,多翻譯粒度訓練優(yōu)于其他粒度分段的翻譯系統(tǒng)。此外,基于多頭自注意力機制的Transformer 模型也被證明優(yōu)于基于自注意力機制的RNN 翻譯模型。文獻[50]將維吾爾語單詞切分成音節(jié)粒度,并融入BME 標記,結(jié)果顯示,音節(jié)標記方法明顯優(yōu)于基于單詞和BPE 切分粒度的方法。 2)數(shù)據(jù)增強 由于維吾爾語平行語料資源的稀缺性,NMT 模型的訓練受到限制,無法獲得足夠的訓練數(shù)據(jù)以實現(xiàn)更優(yōu)的翻譯性能,因此大多數(shù)研究者采用各種數(shù)據(jù)增強技術(shù)來解決數(shù)據(jù)不足的問題,從而提高翻譯質(zhì)量和性能[51]。反向翻譯[52]是機器翻譯領(lǐng)域一種典型的數(shù)據(jù)增強技術(shù),其核心思想是利用額外的目標端單語數(shù)據(jù)構(gòu)建偽平行語料庫,并與原始語料庫按比例混合,以增加訓練數(shù)據(jù)量,具體流程如圖5 所示。然而,反向翻譯并非完美方法,當原始平行語料庫規(guī)模較小時,通過反向翻譯生成的偽平行語料質(zhì)量往往不佳,而且將其混合則難以有效利用原始平行語料庫。因此,研究人員通常將反向翻譯技術(shù)與其他方法結(jié)合使用。 圖5 基于反向翻譯的維吾爾語機器翻譯Fig.5 Uyghur machine translation based on back translation 文獻[53]利用反向翻譯技術(shù)構(gòu)建偽平行語料庫,并通過增量訓練和模型融合生成最終譯文。文獻[54]通過改進的反向翻譯技術(shù)將漢語單語數(shù)據(jù)轉(zhuǎn)化為不同領(lǐng)域的相似數(shù)據(jù),然后分段訓練偽平行語料,利用模型平均和集成方法提高翻譯性能。文獻[55-56]介紹了反向翻譯、數(shù)據(jù)篩選和知識蒸餾等策略相結(jié)合的方法。文獻[57-58]提出了基于回譯和集成學習的方法(BTEM)以及集成修剪算法來緩解維吾爾語語料稀缺、傳統(tǒng)集成方法計算資源消耗大等問題。此外,文獻[59]介紹了基于知識蒸餾的數(shù)據(jù)增強方法,將教師模型的知識傳遞給學生模型,有效提升了翻譯性能。 3)遷移學習 遷移學習最早被用于機器翻譯任務[60],該方法首先在大規(guī)模平行語料庫上訓練一個“父”模型,然后使用“父”模型初始化“子”模型權(quán)重,最后在低資源語言上訓練“子”模型作為最終的翻譯模型,從而有效提升了低資源機器翻譯性能,如圖6 所示。 圖6 基于遷移學習的維吾爾語機器翻譯Fig.6 Uyghur machine translation based on transfer learning 文獻[60]提出應在資源豐富的語言上訓練“父”模型,而文獻[61]提出了與其相反的方法,利用相似的低資源語言訓練“父”模型和“子”模型,兩種語言均為突厥語(使用烏茲別克語訓練“父”模型,使用土耳其語和維吾爾語訓練“子”模型)。雖然文獻[61]利用了同類型語言句法相似性的優(yōu)勢,但在低資源語言上訓練的效果遠不及高資源語言的訓練效果。文獻[62]比較了數(shù)據(jù)量和語言相似性對遷移學習方法的影響,發(fā)現(xiàn)高資源語言的數(shù)據(jù)量比語言的相似性更重要。相反,文獻[63]介紹了語言相似性對遷移學習的影響,他們認為選擇與低資源語言更相似的語言效果更好。為了平衡這兩個問題,文獻[64]提出了分層遷移學習方法,通過添加中間層,結(jié)合高資源語言的數(shù)據(jù)量優(yōu)勢和相似語言的句法相似性優(yōu)勢。NMT 模型依次在不相關(guān)的高資源語言對(英語-漢語)、相似中間語言對(土耳其語-英語)和低資源語言對(維吾爾語-漢語)上進行訓練,并逐層傳遞和微調(diào)參數(shù),與傳統(tǒng)遷移學習方法相比,該方法在維-漢翻譯任務中的性能有所提高。 數(shù)據(jù)增強和遷移學習是解決低資源機器翻譯任務的有效方法,文獻[65]介紹了反向翻譯技術(shù)與不同的遷移學習體系結(jié)構(gòu)相結(jié)合的方法,探索了預處理和訓練方法的差異,并證明了聯(lián)合反向翻譯和遷移學習方法的有效性。 1.3.3 預訓練模型 預訓練模型的基本思想是在大規(guī)模訓練語料上預先訓練神經(jīng)網(wǎng)絡模型,從中學習通用的語言學知識,然后通過微調(diào)來適應下游任務。在主流語言中,預訓練模型已廣泛應用于機器翻譯領(lǐng)域,研究主要集中在以下2 個方面:1)將現(xiàn)有的預訓練模型與NMT 融合在一起[66-72];2)針對機器翻譯任務設計特有的端到端的預訓練模型[73-81]。 在維吾爾語機器翻譯領(lǐng)域,為了利用預訓練模型中的豐富語言學知識,文獻[82]介紹了基于BERT-fused[66]模型的漢語-維吾爾語的機器翻譯方法,并提出一種兩段式微調(diào)的策略進一步提高模型性能,如圖7所示。文獻[83]提出一種新的預訓練方法,其主要思想是對輸入序列掩碼時,不僅對源語言的Token 進行掩碼處理,而且將未掩碼詞按一定比例來替換成目標語言的待翻譯詞,該研究將這種預訓練方法與預訓練模型(XLM 和MASS)相結(jié)合,在維-漢和漢-維翻譯任務上實現(xiàn)了明顯的性能提升。 圖7 基于BERT-fused 的維吾爾語機器翻譯Fig.7 Uyghur machine translation based on BERT-fused 隨著機器翻譯領(lǐng)域的不斷發(fā)展,低資源機器翻譯受到學者廣泛的關(guān)注。2022 年,文獻[81]提出了支持202 種語言之間任意互譯的大規(guī)模機器翻譯模型(NLLB),202 種語言中的大部分屬于低資源語言,其中包含維吾爾語語料。NLLB 模型主體架構(gòu)是在pre-LN 結(jié)構(gòu)的Transformer 模型基礎(chǔ)上融入稀疏門控混合專家(MoE)模塊,MoE 是一種條件計算模型,以最小化不相關(guān)語言之間的干擾。此外,文獻[84]提出了針對中國少數(shù)民族語言(維吾爾語、蒙古語、藏語)的生成式預訓練語言模型(CMPT),并將其開源,為中國少數(shù)民族語言的發(fā)展奠定了堅實的基礎(chǔ)。 基于神經(jīng)網(wǎng)絡的維吾爾語機器翻譯發(fā)展早期,其效果不如基于統(tǒng)計的機器翻譯模型[37],為了改善翻譯質(zhì)量,文獻[85-88]介紹了NMT 模型與SMT 模型相結(jié)合的方法,有效提高了維-漢的翻譯質(zhì)量。此外,在模型結(jié)合過程中,引入詞素[89]、詞干詞綴[90]等特征有助于緩解翻譯過程中的數(shù)據(jù)稀疏問題。另外,文獻[91]提出了基于記憶結(jié)構(gòu)的神經(jīng)機器翻譯模型(M-NMT),該模型由基于注意力機制的神經(jīng)網(wǎng)絡和內(nèi)存組件兩部分構(gòu)成,使用了SMT 產(chǎn)生的單詞映射,該方法旨在處理維-漢翻譯過程中的未登錄詞問題。 綜上所述,傳統(tǒng)的維吾爾語機器翻譯研究主要采用了基于規(guī)則和實例、基于統(tǒng)計兩種方法。其中,基于規(guī)則和實例的方法在特定領(lǐng)域和任務中表現(xiàn)出色,例如醫(yī)學、法律、金融等,具有特定術(shù)語和短語。規(guī)則可以針對這些領(lǐng)域中的特殊術(shù)語進行優(yōu)化,以提高翻譯質(zhì)量,但基于規(guī)則和實例方法存在人工編寫成本高、詞典維護困難以及通用領(lǐng)域的適用性差等局限。相比之下,基于統(tǒng)計的方法則對大規(guī)模數(shù)據(jù)有較好的適應性,通過學習大量的雙語平行語料,能夠自動捕捉語言之間的轉(zhuǎn)換規(guī)律。對于較短的句子,基于統(tǒng)計的方法通常能夠提供較好的翻譯質(zhì)量,因為它們能夠更快地學習到句子中的短程依賴關(guān)系。然而,在數(shù)據(jù)稀缺的情況下,這些方法可能會面臨困難,因為它們的性能很大程度上依賴于可用的訓練數(shù)據(jù)。此外,需要強調(diào)的是,大多數(shù)早期研究都是在自行構(gòu)建的語料庫(未公開)上進行訓練與測試的,這在一定程度上限制了傳統(tǒng)方法的推廣和泛化能力。 隨著深度學習技術(shù)的迅猛發(fā)展,神經(jīng)機器翻譯方法逐漸成為機器翻譯任務的核心方法,該方法在大規(guī)模平行語料庫下表現(xiàn)優(yōu)異,能夠從海量數(shù)據(jù)中自動學習語言之間的轉(zhuǎn)換規(guī)律,適用于處理各種語言對和領(lǐng)域,在高資源語言對中表現(xiàn)更優(yōu),但在數(shù)據(jù)稀缺的情況下性能有所下降。然而,在各種數(shù)據(jù)增強以及模型優(yōu)化方法的加成下,神經(jīng)機器翻譯方法逐漸成為維吾爾語機器翻譯任務的核心方法,這種趨勢也得益于更加規(guī)范和客觀的評價標準,如全國機器翻譯大會(CCMT)可以保證評價的客觀性和可比性,為維吾爾語機器翻譯研究奠定了堅實基礎(chǔ),如表3 所示,基于神經(jīng)網(wǎng)絡的維吾爾語機器翻譯研究大多使用CCMT 提供的語料庫進行訓練和評估,不同年份提供的語料不完全相同。近年來興起的預訓練模型憑借其強大的表示學習能力和高質(zhì)量的翻譯輸出受到廣泛關(guān)注,但也需要面對計算資源成本高、模型可解釋性差等挑戰(zhàn)。 表3 基于神經(jīng)網(wǎng)絡的維吾爾語機器翻譯實驗結(jié)果Table 3 Experimental results of Uyghur machine translation based on neural network 總之,任何一項技術(shù)都有其優(yōu)勢和局限,對于維吾爾語機器翻譯而言,并沒有一種絕對最優(yōu)的翻譯方法。當前機器翻譯領(lǐng)域正處于不斷發(fā)展和變革之中,目前已出現(xiàn)具有通用能力的大語言模型(LLM),如ChatGPT、GPT-4[92]等,這些模型在各項NLP 任務中取得了重大突破,同時也為低資源機器翻譯研究提供了新的可能性?;谶@一背景,第3 節(jié)主要分析目前典型的大語言模型ChatGPT 在維-漢機器翻譯任務上的能力。 本世紀以來,國內(nèi)外機構(gòu)針對維吾爾語機器翻譯進行了大量研究,國外主要是ACL、EMNLP、COLING 等國際頂級會議,國內(nèi)有關(guān)維吾爾語機器翻譯的相關(guān)學術(shù)活動,如表4 所示,在國內(nèi)學術(shù)會議中,全國機器翻譯大會(CCMT)在維吾爾語機器翻譯領(lǐng)域作出了巨大貢獻,該會議舉辦了維-漢、蒙-漢等雙語翻譯任務以及其他以中文為核心的翻譯任務,為研究人員提供了實踐平臺。此外,CCMT 免費開源了17 萬左右的語料供學術(shù)界研究,這些語料的共享不僅促進了學術(shù)界的合作與交流,也為維吾爾語機器翻譯技術(shù)的發(fā)展奠定了堅實的基礎(chǔ)。 表4 維吾爾語機器翻譯相關(guān)學術(shù)活動Table 4 Academic activities related to Uyghur machine translation 語料庫是指收集并科學加工后的電子語言材料[93]。維吾爾語作為一種低資源語言,語料稀缺,而神經(jīng)機器翻譯的發(fā)展需要大量語料的支撐。因此,構(gòu)建大規(guī)模、高質(zhì)量的平行語料庫對維吾爾語機器翻譯研究至關(guān)重要。目前維吾爾語平行語料涉及到的語言主要為漢語[94-96]和英語[81,97],也有部分其他低資源語言[98],相關(guān)語料資源具體情況如表5 所示。基于規(guī)則和實例以及統(tǒng)計的維吾爾語機器翻譯研究大多使用自建的語料庫,并沒有公開相關(guān)語料庫,后續(xù)的基于神經(jīng)網(wǎng)絡的維吾爾語機器翻譯大多使用CCMT 提供的語料庫進行維漢機器翻譯研究,不同年份提供的語料不完全相同,具體結(jié)果對比見表3。NLLB 模型中維吾爾語訓練語料使用的是TIL 語料庫,測試語料是FLORES-200,漢-維翻譯的最好結(jié)果ChrF++值為37.3%,spBLEU(spm-200)值為22%,維-漢翻譯的最好結(jié)果ChrF++值為17.7%,spBLEU(spm-200)值為20.4%。 當前大模型技術(shù)發(fā)展迅速,以ChatGPT 為代表的通用型人工智能模型的出現(xiàn)為低資源機器翻譯帶來了新的可能性。ChatGPT 基于GPT-3.5 模型,通過人類反饋強化學習(RLHF)微調(diào)而成。本文實驗主要采用GPT-3.5-turbo 模型進行研究,該模型價格實惠且對話能力較強,適用于大多數(shù)任務。實驗旨在多維度挖掘ChatGPT 模型在維-漢機器翻譯任務上的能力,使用上下文學習(ICL)和思維鏈(CoT)方法對維吾爾語機器翻譯任務進行初步探索。 實驗采用自動評價的方法進行評估,使用scareBLEU 開源的機器雙語互譯評估(BLEU[99])、ChrF++[100]以及COMET 3種評價指標分別從詞級、字符級和語義方面進行綜合評估。 BLEU[99]評估方法是使用最廣泛的機器翻譯評價指標,從單詞級對翻譯結(jié)果進行評估,它使用n-gram 匹配方法對機器翻譯生成的文本與參考譯文之間的相似性進行度量,n-gram 取值通常為4,表示1~4 個連續(xù)單詞組成的單元,BLEU 值分數(shù)越高,翻譯質(zhì)量越好,計算方式如式(3)、式(4)所示: 其中:BBP是短句懲罰因子,防止機器翻譯的文本較短而導致不合理分數(shù),因此對短句進行懲罰;c為機器翻譯的文本長度;r為參考譯文的長度;p n為n-gram 準確率。 CChrF是一種從字符級對機器翻譯的文本質(zhì)量進行評估的方法,計算方式如式(5)所示: 其中:CChrP為精確率(查準率),表示機器翻譯生成的文本和參考譯文相匹配的字符級n-gram 在機器翻譯生成的文本中所占比例;CChrR為召回率(查全率),表示機器翻譯生成的文本和參考譯文相匹配的字符級n-gram 在參考譯文中所占比例,是調(diào)節(jié)查準率和查全率之間的權(quán)重參數(shù)。 ChrF++[100]是ChrF 的一種改進版本,在上述基礎(chǔ)上加入單詞級評估,取平均值,文中提出字符級n-gram 中n取值為6,詞級n-gram 中n取值為2。本文實驗使用ChrF++進行評估。 COMET[101]是一種基于神經(jīng)網(wǎng)絡模型的評價指標,更貼合人類的評測,該方法將機器翻譯生成的譯文、源語言文本和參考譯文的信息三者相結(jié)合進行預測,并且能捕捉翻譯文檔中微弱的差異。實驗使用COMET-22[102](wmt22-comet-da)進行度量。 實驗使用CCMT2021 維-漢驗證數(shù)據(jù)集中的前100 條數(shù)據(jù)進行評估,通過調(diào)用GPT-3.5-turbo 模型的API 完成,溫度參數(shù)設置為0℃,對于ChatGPT 模型而言,溫度參數(shù)越高,生成的句子多樣性越強,溫度參數(shù)越低,生成的句子越準確。在ICL 實驗中,Zeroshot 實驗主要評估不同的模板對維-漢翻譯任務的影響,并選擇其中最好的模板進行Few-shot 實驗,受ChatGPT 模型最大Token 數(shù)限制,ICL 的Few-shot 實驗最大進行20-shot;在CoT 實驗中,Zero-shot 實驗同樣先評估哪種模板效果最好,效果最好的模板進行后續(xù)的Few-shot 實驗,CoT 的Few-shot 實驗最大進行12-shot,實驗代碼將被公開發(fā)布于Github 平臺,以供廣泛查閱與使用。 3.3.1 Zero-shot 在機器翻譯任務中,Prompt 的格式直接影響LLM 對任務的理解能力[103]。為更好地激發(fā)ChatGPT 在低資源語言上的翻譯潛力,本節(jié)探討4 種典型模板,分為任務提示和答案提示兩種類型,如表6 所示。 表6 Prompt 模板Table 6 Prompt templates 任務提示型模板(T1 和T2)在輸入過程中明確指示ChatGPT 模型要對輸入的句子進行翻譯任務。答案提示型模板(T3 和T4)雖不直接提示任務,但通過Prompt 的設計能引導出問題的答案。在表6 中,{input_text}表示輸入文本,{src}表示源語言,{tgt}表示目標語言,T1~T4 表示不同的模板。不同Prompt 模板在維-漢翻譯任務上的實驗結(jié)果如表7 所示(其中加粗數(shù)字表示最優(yōu)值,下同)。 表7 不同Prompt 模板的實驗結(jié)果Table 7 Experimental results of different Prompt templates % 根據(jù)表7 所示結(jié)果,綜合3 種評價指標,T1 取得了最好的翻譯結(jié)果。因此,在后續(xù)Few-shot 的實驗中將選取T1 作為主要的Prompt 模板。 3.3.2 Few-shot 本節(jié)主要探討ICL 方法在Few-shot 情況下對維-漢機器翻譯任務的影響,實驗結(jié)果如表8 所示。 表8 ICL Few-shot 實驗結(jié)果Table 8 Experimental results of ICL Few-shot % 從表8 可以看出,隨著示例數(shù)的增加,翻譯效果呈現(xiàn)先升高后下降的趨勢,在10-shot 情況下達到最佳效果。在Few-shot 翻譯過程中,有時會在輸出翻譯結(jié)果的同時輸出示例句子,因此需要手動刪除多余的示例,確保輸出結(jié)果的準確性。此外,隨著示例數(shù)的增多,模型可能更容易過度擬合,導致在Few-shot 情況下出現(xiàn)性能下降。然而,在10-shot 時模型能夠更好地利用示例信息,獲得更準確的翻譯結(jié)果。因此,找到適當?shù)氖纠龜?shù)量對于實現(xiàn)高質(zhì)量的Few-shot 翻譯至關(guān)重要。 3.4.1 Zero-shot 受文獻[104-106]中CoT Prompting 模板的啟發(fā),本節(jié)選取了3 種典型的CoT 策略,如表9所示。 表9 CoT Prompting 模板Table 9 CoT Prompting templates 從表10 的實驗結(jié)果來看,與ICL 的實驗結(jié)果相比,CoT 并未取得更好的翻譯性能,反而導致了性能下降。這可能是因為CoT 的逐字逐句翻譯方式反而削弱了翻譯模型的表現(xiàn)能力。 表10 不同CoT Prompting 模板實驗結(jié)果Table 10 Experimental results of different CoT Prompting templates % 在翻譯過程中,相較于CoT1,其他兩種模板更容易出現(xiàn)以下問題:1)只翻譯英文而不生成最終的完整譯文;2)一步一步地翻譯出單詞、短語或部分句子的譯文而沒有進行整體翻譯。此外,還可能出現(xiàn)“讓我們逐步思考”等類似語句的輸出,或者直接輸出維吾爾語而不進行翻譯,這些問題導致了翻譯效果的不佳。 3.4.2 Few-shot 本節(jié)主要評估CoT 方法在Few-shot 情況下對維-漢機器翻譯任務的影響。受ChatGPT 模型最大Token 數(shù)限制,本節(jié)最多進行到12-shot 的實驗,分別設定了1、3、5、10、12 共5 種Few-shot 情況,實驗結(jié)果如表11 所示。從表11 可知,10-shot 獲得了最佳結(jié)果,12-shot 出現(xiàn)了下降趨勢,然而并沒有超越ICL 實驗的最佳結(jié)果。與其他NLP 任務不同,在維-漢機器翻譯任務中,CoT 方法沒能更好地挖掘大模型的潛力。這可能是由于維吾爾語在ChatGPT 的訓練語料中相對較為稀缺,同時中文也非ChatGPT 的主要語言。 表11 CoT Few-shot 實驗結(jié)果Table 11 Experimental results of CoT Few-shot % 本文實驗僅是對CoT 方法在維-漢機器翻譯任務上的初步探索,未來的研究將從CoT Prompting 模板的設計入手,并結(jié)合維吾爾語的特性,如詞典、語法規(guī)則等外部知識,進一步深入研究和優(yōu)化翻譯性能。 盡管維吾爾語機器翻譯相關(guān)研究已取得一定進展,但是由于維吾爾語存在構(gòu)詞復雜、詞序和書寫順序特殊以及語料稀缺等問題,其發(fā)展相對滯后,仍面臨著許多挑戰(zhàn)亟待解決。例如:如何進一步緩解維吾爾語機器翻譯中存在的形態(tài)復雜、語料稀缺等問題;如何構(gòu)建融入更多維吾爾語特色的機器翻譯模型等。 此外,隨著LLM 的出現(xiàn),為機器翻譯領(lǐng)域帶來了新的可能性。與以往的NMT 方法不同,LLM 在訓練過程中不再嚴重依賴于大規(guī)模的平行語料庫。相反,LLM 僅需利用小規(guī)模但高質(zhì)量的語料,通過指令微調(diào)和ICL 等技術(shù),便能獲得出色的翻譯效果。然而,在一些類似維吾爾語到漢語這樣的低資源機器翻譯任務中,雖然LLM 在翻譯質(zhì)量上有所表現(xiàn),但仍難以與傳統(tǒng)的NMT 模型相媲美。因此,基于LLM 的低資源機器翻譯仍需進一步深入研究和探索。本節(jié)主要從5 個方面進行展望。 1)構(gòu)建高質(zhì)量維吾爾語平行語料庫 在LLM 時代,機器翻譯已不再過度依賴于龐大的語料庫,而對語料質(zhì)量的要求愈發(fā)突顯。然而,當前公開可用的維吾爾語語料資源仍相對匱乏,在CCMT2023 提供的語料中,藏漢、蒙漢有100 多萬條,而維漢語料僅有17 萬條。此外,目前可供使用的維吾爾語公開語料庫主要集中在新聞領(lǐng)域,缺乏其他領(lǐng)域(如日常生活、醫(yī)學等)的語料庫。因此,構(gòu)建維吾爾語平行語料庫亟需完成,通過自動或半自動的手段構(gòu)建,并邀請相關(guān)語言學專家參與糾錯和提升質(zhì)量的工作。通過提供更加豐富和準確的訓練數(shù)據(jù),幫助改善維吾爾語機器翻譯的質(zhì)量,并推動其在實際應用中的發(fā)展。 2)引入多模態(tài)信息 多模態(tài)翻譯是當前機器翻譯領(lǐng)域的研究熱點之一,支持文字、圖像、語音等多種模態(tài)之間相互翻譯。因此,維吾爾語機器翻譯在未來發(fā)展中可以此為切入點進行研究,通過引入圖像和語音等多種信息,可以豐富翻譯模型的輸入,增強其對上下文的理解和表達能力,從而提高維吾爾語機器翻譯的準確性和流暢性。這種方法可以有效緩解維吾爾語機器翻譯中的語料稀缺問題,并更好地滿足實際生活需求。 3)LLM 融入語法知識 LLM 本身積累了大量的多語言知識,然而,其主要在以英文為中心的語料上進行訓練,包含低資源語言(如維吾爾語、蒙古語等)的數(shù)據(jù)非常有限。因此,在將LLM 應用于低資源機器翻譯任務時,可以考慮在Prompt 設計中引入詞典、句法結(jié)構(gòu)等語言學知識,以幫助模型更好地學習低資源語言的語言學特性,從而提高翻譯性能。 4)構(gòu)建以中文為核心的多語言機器翻譯模型 新疆作為中國“絲綢之路經(jīng)濟帶”核心區(qū),擁有獨特地理位置和資源優(yōu)勢,通過構(gòu)建以中文為核心的多語言機器翻譯模型(涵蓋維吾爾語、中亞語言等低資源語言)可以更好地促進“一帶一路”倡議的實施,并通過深入挖掘漢語與維吾爾語等語言之間的聯(lián)系,優(yōu)化翻譯性能。 5)基于LLM 的機器翻譯 LLM 參數(shù)量巨大,小型研究團隊難以承擔如此龐大的計算資源需求。此外,NMT 蒸餾、剪枝、壓縮等模型小型化技術(shù)在LLM 上同樣適用,因此,探索LLM 的參數(shù)高效微調(diào)方法以及探索大模型的小型化技術(shù),將是未來低資源機器翻譯研究的重要發(fā)展道路。 維吾爾語機器翻譯是一項具有重要價值的研究工作,不僅僅局限于簡單的文本翻譯,而是承載著不同地區(qū)和民族之間文化、生活、經(jīng)濟等交流的重要橋梁。本文回顧了維吾爾語機器翻譯的相關(guān)研究,并匯總了相關(guān)學術(shù)活動和語料庫資源。此外,采用ChatGPT 模型對維-漢機器翻譯任務進行了初步探索,為后續(xù)學者的研究奠定了一定基礎(chǔ)。最后對維吾爾語機器翻譯未來的發(fā)展趨勢進行了展望??傮w而言,神經(jīng)機器翻譯的持續(xù)發(fā)展為維吾爾語機器翻譯帶來了巨大突破。然而,在語料庫構(gòu)建、方法創(chuàng)新、語言特色以及翻譯廣度等方面仍存在欠缺,需要進一步進行創(chuàng)新和研究。1.4 基于統(tǒng)計和基于神經(jīng)網(wǎng)絡的機器翻譯的結(jié)合
1.5 基于統(tǒng)計的維吾爾語機器翻譯總結(jié)
2 維吾爾語機器翻譯相關(guān)資源
2.1 相關(guān)學術(shù)活動
2.2 語料庫
3 基于ChatGPT 的維-漢機器翻譯評估
3.1 評估指標
3.2 實施細節(jié)
3.3 ICL 實驗結(jié)果
3.4 CoT 實驗結(jié)果
4 未來展望
5 結(jié)束語