胡廣耀
摘 要: 針對當前英語機器翻譯存在的準確性差,易引起歧義等不足,提出模糊理論的英語機器翻譯語義調(diào)序模型。首先對英語機器翻譯的語義進行分類,構(gòu)建語義選擇模型,然后采用層次分析法確定英語機器翻譯語義順序,對易錯的誤語義進行相應的容錯操作,最后對語義進行加權(quán)操作計算語義之間的最優(yōu)相似度,并引入模糊理論實現(xiàn)對英語機器翻譯英語語義進行排列,最后通過具體應用實驗對模型的性能進行分析。結(jié)果表明機器翻譯選擇排列模型的準確性高,而且時效性均要優(yōu)于其他模型,具有明顯的優(yōu)勢。
關(guān)鍵詞: 模糊理論; 英語語義; 調(diào)序模型; 機器翻譯
中圖分類號: TN911.1?34; TP399 文獻標識碼: A 文章編號: 1004?373X(2017)21?0121?03
Study on fuzzy theory based semanteme ordering of English machine translation
HU Guangyao
(Yangtze University College of Arts and Sciences, Jingzhou 434020, China)
Abstract: Since the current English machine translation has poor accuracy and is easy to cause the ambiguity, a fuzzy theory based semanteme ordering model of English machine translation is put forward. The semanteme of English machine translation is classified to construct the semantic selection model. The AHP is used to determine the semanteme order of English machine translation, and perform the corresponding fault tolerant operation for the semanteme which can be translated erroneously. The semanteme is weighted to calculate the optimal similarity between the semanteme, and the fuzzy theory is introduced to arrange the English semanteme translated by machine. The performance of the model is analyzed with a specific application experiment. The experimental results show that the selection and ordering model of machine translation has high translation accuracy, and its timeliness is better than other models, which has obvious advantage.
Keywords: fuzzy theory; English semanteme; ordering model; machine translation
0 引 言
語義是對數(shù)據(jù)符號的進一步解釋[1],在信息集成領域,往往通過模式(對于模式不存在隱含的非結(jié)構(gòu)化或半結(jié)構(gòu)化數(shù)據(jù),往往需要在集成前定義出它們的模式)進行數(shù)據(jù)組織,數(shù)據(jù)的訪問也是通過作用模式來獲得的,這時語義就可定義為模式元素(例如類、屬性、約束等)[2]。對語義進行準確的調(diào)序有助于更好地去理解復雜概念[3],同時,正確的語義可以保證數(shù)據(jù)的質(zhì)量[4],因此高效地調(diào)序正確的、隱含的、有用的英語語義信息成為該領域亟待解決的問題,受到廣大學者的關(guān)注[5?6]。
傳統(tǒng)的英語語義調(diào)序模型一般使用神經(jīng)網(wǎng)絡法、機器學習法以及查錯法[7?9],大體流程可總結(jié)為從英語語義庫中逐個選擇英語語義,再逐一對應是否為所需英語語義,或者直接調(diào)序提取已經(jīng)存在的顯著語義數(shù)據(jù),再進行歸一化管理,但該調(diào)序模型耗時較長,且準確性較差。本文提出基于模糊理論的英語語義調(diào)序模型,針對不同的英語語義,根據(jù)其特征進行調(diào)序,并運用實驗對所提模型進行驗證。
1 基于模糊理論的英語機器翻譯語義調(diào)序模型
1.1 英語語義分類
基于模糊理論的英語語義調(diào)序模型的重點是對英語語義的分類,選用最大熵訓練算法對英語語義進行分類,最大熵訓練算法實質(zhì)上類似一種詞語解釋過程,該模型可將語義根據(jù)其性能精確地分為層次性與交錯性語義,其中交錯性語義是根據(jù)最大相似度進行調(diào)序,層次性語義包括同類、間隔、遞進類三種。假設,用符號[Bi]表示待調(diào)序語義中的當前調(diào)序英語語義,[Bi]的延伸英語語義為[Bi-1,]與[Bi]處于相同排列方位的目標語義用[Ai]表示,則其分類語義表達式為:
[fAi,Bi=Ai-1,i=1,2,3,…Bi-1,i=1,2,3,…]
當[Bi-1=1+Ai]時,待調(diào)序英語語義為同類語義,用符號[Ai-1]代替[Ai]的前端數(shù)據(jù);當[Ai-1=1+Bi]時,待調(diào)序語義為遞進語義;當待調(diào)序語義既不是同類語義,也不是遞進語義,則視其為間隔語義。
1.2 英語語義最優(yōu)相似度的計算
在對英語語義進行分類的基礎上,采用加權(quán)層次結(jié)構(gòu)分析法對英語語義相似度進行計算。endprint
(1) 構(gòu)建英語語義模型,確定層次性英語語義及交錯性英語語義調(diào)序流程。以兩種典型語義類別為依據(jù),任選一個數(shù)據(jù)構(gòu)建英語語義模型,如圖1所示。
由圖1可知,在進行英語語義調(diào)序時,需考慮兩個方向差異化的調(diào)序結(jié)構(gòu)問題,而層次性英語語義正是利用兩個不同方向的差異性進行語義調(diào)序,其調(diào)序流程框圖如圖2所示。
如圖2所示,層次性英語語義調(diào)序模型利用IBM軟件(一種提供資源整合功能的業(yè)務軟件)對語義進行調(diào)序,進而排除模型中語義幾率小于0.18的英語語義。剩余詞語將被成功調(diào)序,再診斷其是否與原數(shù)據(jù)對應,經(jīng)診斷后的調(diào)序結(jié)果作為最終結(jié)果。
交錯性英語語義與層次性英語語義不同,簡單的調(diào)序模型無法實現(xiàn)待調(diào)序語義與正確目標語義的準確對應。因此,需計算英語語義間的最大相似度來調(diào)序語義。交錯性語義調(diào)序模型工作流程如圖3所示。
交錯性英語語義調(diào)序模型是將英語語義庫中的待調(diào)序英語語義依存原數(shù)據(jù)進行解析,生成待調(diào)序語義依存樹,再依據(jù)模糊選擇的規(guī)則進行最大相似度的計算,以免將語義調(diào)序結(jié)構(gòu)打亂,防止調(diào)序過程中相似語義調(diào)序失誤。在此之后實施調(diào)序,并對調(diào)序的結(jié)果實施二次診斷,之后輸出結(jié)果。
(2) 確定英語語義間的相似度,利用加權(quán)層次結(jié)構(gòu)分析法獲取最優(yōu)相似度。
假設[I1]為待調(diào)序語義中的任意語義,[I2]是[I1]的模糊對應結(jié)果,[d]是[I2]與[I1]的距離,用符號[η]表示依存樹的模糊調(diào)節(jié)參數(shù),由此可獲取[I2]與[I1]的相似度為:
[sim(I1,I2)=ηη+d] (1)
獲取最優(yōu)相似度就是不斷變更模糊調(diào)節(jié)參數(shù)[η]權(quán)重的過程,即利用加權(quán)層次結(jié)構(gòu)分析法對式(1)進行描述,表達式如下:
[sim(s1,s2)=i=14δsim(I1,I2)] (2)
式中:[δ]表示權(quán)重,且[i=14δ=1]。
加權(quán)層次結(jié)構(gòu)分析共進行4次描述,分別是[I1]和[I2]的獨立關(guān)系描述、相同結(jié)構(gòu)描述、相同語義功能描述和相同數(shù)據(jù)中心描述。經(jīng)由加權(quán)層次結(jié)構(gòu)分析后,確定最優(yōu)相似度表達式為:
[Smax=i=1nφ1sim(s1,s2)+φ2sim(I1,I2)n] (3)
式中:[n]為子節(jié)點數(shù)量;[φ1,][φ2]是調(diào)序和加權(quán)層次分析在子節(jié)點中所占的比例,[φ2=1-φ1]。
1.3 英語語義調(diào)序模型的實現(xiàn)
經(jīng)由以上分析后,給出英語語義的兩種模糊參數(shù),分別是當前語義和前端語義對調(diào)序幾率的模糊影響參數(shù),分別用[PoAi]和[PoAi-1]表示,其表達式為:
[PoAi=ξP(o)+ωoAiξ+ω(Ai)] (4)
[PoAi-1=ΣAiωoAiΣoΣAiωoAi] (5)
式中:[o]是相鄰兩數(shù)據(jù)的排列次序;[P(o)]是相鄰兩個數(shù)據(jù)被同時調(diào)序的幾率;[ξ]是數(shù)據(jù)優(yōu)化因數(shù);[ω(Ai)]和[ωoAi]分別表示調(diào)序前后的目標語義解碼數(shù)據(jù)。
基于模糊理論的語義調(diào)序模型,選定一個模糊數(shù)據(jù)塊[A,]再依次賦予同類類別結(jié)構(gòu)和互調(diào)類別結(jié)構(gòu),選定模糊數(shù)據(jù)[A1]和[A2,][A1]和[A2]是用來合并[A]的。在模糊理論中,最大熵訓練算法要求合并成的[A]應擁有最大面積,且與[A1]的結(jié)構(gòu)相同,與[A2]的結(jié)構(gòu)相反,此時需要借助一個約束架構(gòu)[N]來定義模糊數(shù)據(jù)塊[A],[N]的定義式為:
[N=PθoA1,A2] (6)
式中:[P]是分類組合函數(shù);[θ]是權(quán)值。
模糊理論采用似然函數(shù)預測模糊英語語義塊[A]的最大占據(jù)面積,有:
[PoA1,A2=PoAiPoAi-1] (7)
將式(7)代入式(6),得到基于模糊理論的英語語義調(diào)序結(jié)果,其表達式如下:
[N=expΣiθiPoAiexpΣiθiPoAi-1] (8)
綜上所述,在確定英語語義最優(yōu)相似度的基礎上,采用模糊理論對英語語義進行調(diào)序,但需進行實驗對比分析。
2 實驗結(jié)果與分析
2.1 數(shù)據(jù)來源
使用LDC(Linguistic data Consortium,語言數(shù)據(jù)聯(lián)合會)提供的FBIS語料,其中含有接近25萬條不同語義和約800萬個簡單英語語義。使用Moses搜索系統(tǒng)在FBIS語料中隨機抽取共計1 000條英語語義。采用神經(jīng)網(wǎng)絡法、機器學習法、查錯法與改進模型進行對比驗證分析。
2.2 英語語義調(diào)序時間狀態(tài)分析
英語語義調(diào)序時間狀態(tài)指其能夠同時進行調(diào)序的整體反應時間。但直接獲取調(diào)序時的狀態(tài)難度較大,因此實驗通過不斷增加英語語義總量,觀察本文模型、機器學習法、神經(jīng)網(wǎng)絡法和查錯法在單位時間內(nèi)的調(diào)序數(shù)量來驗證時間調(diào)序狀態(tài)。單位時間調(diào)序數(shù)量越大,語義調(diào)序時間狀態(tài)就越好。以調(diào)序單位時間為縱坐標,英語語義總量為橫坐標繪制曲線,如圖4所示。
從圖4中可以看出最高調(diào)序性能的曲線是本文模型,其次是機器學習法。隨著時間的推移,每種模型的單位時間調(diào)序數(shù)量都出現(xiàn)不同程度的下降,這與語義調(diào)序資源調(diào)節(jié)能力有關(guān),可使用軟件控制手段進行優(yōu)化。實驗結(jié)果表明,采用本文模型進行語義調(diào)序時,語義調(diào)序耗時最小,且明顯優(yōu)于其他模型。
2.3 英語語義調(diào)序準確性分析
英語語義準確調(diào)序率表示英語語義調(diào)序中的調(diào)序正確率,正確率越大,則性能越好。在調(diào)序英語語義時,以英語語義的數(shù)量作為橫坐標,調(diào)序準確率作為縱坐標,實驗結(jié)果如圖5所示。由圖5可知,除本文模型以外,其他模型均未能有效優(yōu)化調(diào)序英語語義。
3 結(jié) 語
針對當前英語機器翻譯存在的問題,提出模糊理論的英語機器翻譯語義調(diào)序模型。實驗結(jié)果發(fā)現(xiàn),采用本文模型進行英語語義調(diào)序,其調(diào)序準確性、耗時均要優(yōu)于傳統(tǒng)英語語義調(diào)序模型,具有一定的優(yōu)勢。
參考文獻
[1] 甘麗新,萬常選,劉德喜,等.基于句法語義特征的中文實體關(guān)系抽取[J].計算機研究與發(fā)展,2016,53(2):284?302.
[2] 游妍,徐博藝,謝誠.基于實例相似度的概念語義調(diào)序模型[J].計算機工程,2014,40(10):219?223.
[3] 賈玉祥,王浩石,昝紅英,等.漢語語義選擇限制知識的自動獲取研究[J].中文信息學報,2014,28(5):66?73.
[4] 南潮.非使役化中英語動詞的語義選擇研究[J].安徽農(nóng)業(yè)大學學報(社會科學版),2016,25(4):95?98.
[5] 王海艷,白圓圓.支持二分圖語義匹配的組合服務選擇模型[J].東南大學學報(自然科學版),2014,44(3):510?516.
[6] 姜芳,李國和,岳翔.基于語義的文檔特征提取研究模型[J].計算機科學,2016,43(2):254?258.
[7] 孟祥福,張霄雁,唐延歡,等.結(jié)合語義相似度分析的Web數(shù)據(jù)庫Top?K典型化查詢模型[J].小型微型計算機系統(tǒng),2016,37(8):1692?1696.
[8] 巴志超,李綱,朱世偉.共現(xiàn)分析中的關(guān)鍵詞選擇與語義度量模型研究[J].情報學報,2016,35(2):197?207.
[9] 楊萬春,張晨曦,穆斌.結(jié)合語義與事務屬性的QoS感知的服務優(yōu)化選擇[J].計算機應用,2016,36(8):2207?2212.endprint