霍小靜
摘 要:以高精度翻譯多種自然語言的單詞/語句為目標,設計基于人工智能的機器自動翻譯系統(tǒng)。首先設計了機器自動翻譯系統(tǒng)的總體結構,然后重點描述了機器自動翻譯系統(tǒng)的核心模塊,該模塊獲取單詞/語句通過訓練獲取詞向量,初始詞向量并賦予詞性特征,采用對數(shù)線性模型實現(xiàn)多種自然語言的單詞/語句的詞向量多特征融合翻譯,最后進行了實例分析與驗證。結果表明,該系統(tǒng)可高精度翻譯自然語言,在不同句型、不同并發(fā)用戶量、未登錄詞不同字符數(shù)量下,系統(tǒng)翻譯性能較為穩(wěn)定,能夠滿足實際應用需求。
關鍵詞:人工智能;機器自動翻譯;詞向量;低頻詞
中圖分類號:TP391
文獻標志碼:A
文章編號:1007-757X(2020)11-0077-03
Abstract:In order to translate the words/sentences of many natural languages with high precision, a machine automatic translation system based on artificial intelligence is designed. The overall structure of the MT system is designed firstly, and then the core module of the MT system is described. The module obtains the word vector and the initial word vector, and gives the part of speech features through training. The log linear model is used to realize the word vector multi feature fusion translation of multiple natural languages. Finally, an example is analyzed. The results show that the system can translate natural languages with high accuracy. Under different sentence patterns, different concurrent users and different characters of non-login words, the system has stable translation performance and can meet the practical application requirements.
Key words:artificial intelligence;machine automatic translation;word vector;low frequency word
0?引言
機器翻譯將大數(shù)據(jù)技術和計算機系統(tǒng)作為運行基礎,可在確保翻譯正確率和實時性的同時,通過人工智能理論不斷優(yōu)化內(nèi)部結構,提高翻譯質(zhì)量[1]。翻譯并非是語言服務的全部,僅是語言服務的一個細化內(nèi)容。機器翻譯不僅解決了語言服務的初翻譯問題,還可解決語言服務的內(nèi)容管理、項目管理等內(nèi)容。當前計算機技術推動機器自動翻譯系統(tǒng)發(fā)展,機器自動翻譯系統(tǒng)被很多高校與研究機構使用,進入實用化與商品化階段[2-4]。人工智能技術的出現(xiàn),使得機器自動翻譯系統(tǒng)的翻譯效果得以提升[5-7]。
本文圍繞人工智能理論,設計了基于人工智能的機器自動翻譯系統(tǒng),該系統(tǒng)翻譯模塊采用基于多特征融合的神經(jīng)網(wǎng)絡翻譯模型,不單可以去除語義、詞義中差異,還可以實現(xiàn)多特征融合的機器自動翻譯。
1?人工智能的機器自動翻譯系統(tǒng)
1.1?系統(tǒng)架構設計
人工智能的機器自動翻譯系統(tǒng)架構設計圖,如圖1所示。
系統(tǒng)由用戶應用模塊、翻譯模塊與系統(tǒng)管理模塊構成。用戶應用模塊為用戶提供登錄、翻譯服務,翻譯模塊實現(xiàn)多種自然語言間單詞/語句翻譯,將反饋結果呈現(xiàn)至用戶。系統(tǒng)管理員通過管理模塊進行查詢、修改翻譯規(guī)則。
翻譯模塊為人工智能的機器自動翻譯系統(tǒng)的核心,其架構圖如圖2所示。
用戶使用系統(tǒng)時,在翻譯界面輸入翻譯請求后,翻譯模塊將翻譯請求以詞向量的形式傳輸至服務器,服務器使用神經(jīng)網(wǎng)絡翻譯模型翻譯單詞/語句,能夠設定訪問次數(shù)限制,完成并發(fā)請求的分配。
1.2?多特征融合的神經(jīng)網(wǎng)絡翻譯模型
神經(jīng)網(wǎng)絡是人工智能理論技術中的一種,采用多特征構建翻譯模型,將用戶輸入的單詞/語句通過訓練獲取詞向量。對詞向量融入詞性特征,去除語義、詞義中差異。
1.2.1?詞向量訓練
構建基于連續(xù)詞向量學習方法的詞向量訓練模型,詞向量訓練模型,如圖3所示。
1.2.2?低頻詞替換
使用具備詞性特征的詞向量,運算多種自然語言詞和詞之間的近似水平后,把系統(tǒng)知識庫中未登錄詞(低頻詞)通過詞典中和它近似水平最大的詞替換掉,降低未登錄詞的數(shù)目[8]。
(1) 將翻譯語句單詞分成高頻詞和低頻詞。
(2) 計算詞向量運算低頻和高頻詞的相似度。
1.2.3?多特征融合
(1) 使用對數(shù)線性模型融合多種語言的詞性特征。對數(shù)線性模型,如式(5)。
(2) 針對某些語句與其描述內(nèi)容存在詞不表意情況時,使用文本詞干、詞綴序列依次建模的形式,獲取自然語言A特征,如式(6)、式(7)。
式中,ε、μ依次描述詞綴與詞干特征函數(shù)權重;Ω1、Ω2分別為詞綴、詞干序列的特征函數(shù)。
1.2.4?模型構建
通過最大似然估計的方法訓練式(5),設置詞向量特征訓練集為(j,φj),多特征融合的神經(jīng)網(wǎng)絡翻譯結果,如式(8)。
2?實例測試
2.1?語料庫
采用本文系統(tǒng)對CWMT201英漢新聞領域語句進行翻譯,CWMT2017英漢新聞領域語句詳情,如表1所示。
表1中,CWMT2017英漢新聞領域語句訓練集20 000個英漢新聞領域語句,用于訓練本文系統(tǒng)中基于多特征融合的神經(jīng)網(wǎng)絡翻譯模型;開發(fā)集20 000個英漢新聞領域語句,用于優(yōu)化本文系統(tǒng)中基于多特征融合的神經(jīng)網(wǎng)絡翻譯模型參數(shù),測試集20 000個英漢新聞領域語句,用于測試本文系統(tǒng)翻譯效果。
2.2?召回率統(tǒng)計
以召回率為判斷指標,本文系統(tǒng)對英漢語句翻譯效果的召回率,如圖4所示。
分析圖4可知,不同語句數(shù)量下,本文系統(tǒng)翻譯結果召回率高,翻譯結果有效。
2.3?不同句型下的系統(tǒng)翻譯性能測試
設定需要英漢翻譯的句型依次是簡單陳述句、一般疑問句、并列復合句、從屬復合句、特殊用法句。測試本文系統(tǒng)對不同句型翻譯后,單詞翻譯正確的語句數(shù)、結構正確的語句數(shù)、語義正確的語句數(shù),如表2所示。
表2中翻譯結果顯示,本文系統(tǒng)翻譯5種存在差異的句型后,單詞翻譯正確的語句數(shù)、結構正確的語句數(shù)、語義正確的語句數(shù)為19 999個,和原始數(shù)量相比,缺少1個,原因是特殊用法句不存在通用翻譯模式,但本文系統(tǒng)對簡單陳述句、一般疑問句、并列復合句和從屬復合句翻譯后,語句的單詞翻譯、結構和語義全部正確。
2.4?系統(tǒng)的翻譯耗時和BLEU分數(shù)
使用翻譯能力類似的4名學生設成初級翻譯組Q1,使用4名在翻譯單位存在至少4年翻譯經(jīng)驗的翻譯員設成高級翻譯組Q2,分析兩個翻譯組使用本文系統(tǒng)前后的BLEU分數(shù),BLEU分數(shù)是對于一個給定的句子,有標準譯文S1,還有一個本文系統(tǒng)翻譯的結果S2,對于本文系統(tǒng)翻譯S2的所有短語而言,具有多少個短語出現(xiàn)在S1中,此比率即為BLEU的分數(shù)。 初級翻譯組、高級翻譯組使用本文系統(tǒng)前后的翻譯耗時與BLEU分數(shù),如表3所示。
分析表3可知,初級翻譯組、高級翻譯組使用本文系統(tǒng)前后的翻譯耗時與BLEU分數(shù)差異明顯,使用后的BLEU分數(shù)均大于95分,由此可證本文系統(tǒng)能夠提高翻譯速度,優(yōu)化翻譯效果。
2.5?并發(fā)用戶量對本文系統(tǒng)影響
設定并發(fā)用戶量依次是150~550個,測試本文系統(tǒng)響應用戶翻譯指令時,系統(tǒng)的響應耗時,如表4所示。
表4中,伴隨并發(fā)用戶量增多,本文系統(tǒng)對用戶指令的響應耗時低于1 s,最大值僅有609 ms,原因是本文系統(tǒng)翻譯模塊中,使用解碼器提升了系統(tǒng)的并發(fā)處理性能,優(yōu)化了系統(tǒng)響應速度。
2.6?未登錄詞字符對本文系統(tǒng)翻譯性能影響
提取CWMT201英漢新聞領域語句中未登錄詞字符數(shù)分別是50~250個的語句,在此條件下,測試本文系統(tǒng)翻譯結果的BLEU分數(shù),如圖5所示。
當需要翻譯語句的未登錄詞字符數(shù)是100個、200個時,本文系統(tǒng)翻譯結果的BLEU分數(shù)為97分,當需要翻譯語句的未登錄詞字符數(shù)是300個,甚至大于300個時,翻譯結果的BLEU分數(shù)為96分,雖存在小幅度變化,但是分值大于95分,較為理想。未登錄詞字符對本文系統(tǒng)翻譯性能不存在顯著影響。
3?總結
為了獲得理想的機器翻譯結果,設計了基于人工智能的機器自動翻譯系統(tǒng),并以CWMT201英漢新聞領域語句為例,進行翻譯性能測試。結果表明,本文系統(tǒng)翻譯結果,召回率較高,翻譯結果可信;翻譯速度快,具有十分廣泛的應用前景。
參考文獻
[1]?侯強,侯瑞麗.機器翻譯方法研究與發(fā)展綜述[J].計算機工程與應用,2019,55(10):30-35.
[2]?哈里旦木·阿布都克里木,劉洋,孫茂松.神經(jīng)機器自動翻譯系統(tǒng)在維吾爾語-漢語翻譯中的性能對比[J].清華大學學報(自然科學版), 2017, 57(8):878-883.
[3]?蘇依拉,烏尼爾,劉婉婉.基于統(tǒng)計分析的蒙漢自然語言的機器翻譯[J].北京工業(yè)大學學報, 2017, 43(1):36-42.
[4]?李強, 黃輝, 周沁,等. 模板驅(qū)動的神經(jīng)機器翻譯[J]. 計算機學報, 2019, 42(3):116-131.
[5]?李北,王強,肖桐, 等.面向神經(jīng)機器翻譯的集成學習方法分析[J].中文信息學報, 2019, 33(3):42-51.
[6]?葉紹林,郭武.基于句子級BLEU指標挑選數(shù)據(jù)的半監(jiān)督神經(jīng)機器翻譯[J].模式識別與人工智能, 2017,30(10):937-942.
[7]?王亞娟, 李曉, 楊雅婷,等. 基于釋義信息的維漢機器自動翻譯系統(tǒng)融合研究[J]. 計算機工程, 2019, 45(4):294-301.
[8]?朱順樂.融合多特征的漢維神經(jīng)網(wǎng)絡機器翻譯模型[J].計算機工程與設計, 2019, 40(5):1484-1488.
[9]?劉宇鵬,馬春光,張亞楠.深度遞歸的層次化機器翻譯模型[J]. 計算機學報, 2017, 40(4):861-871.
(收稿日期:2020.04.11)