陶媛媛,陶 丹
(1.西安交通大學(xué) 城市學(xué)院,西安 710000;2.西安市曲江第一中學(xué),西安 710000)
自然語(yǔ)言處理是計(jì)算機(jī)科學(xué)中一種從人類語(yǔ)言中獲取和分析含義,并以智能的方式與人類進(jìn)行交互的方法[1]。機(jī)器翻譯主要涉及使用計(jì)算機(jī)軟件將文本或語(yǔ)音形式的語(yǔ)言從一種自然語(yǔ)言翻譯為另一種自然語(yǔ)言,同時(shí)保留其含義和解釋。從一種自然語(yǔ)言到另一種語(yǔ)言的簡(jiǎn)單單詞替換是機(jī)器翻譯中使用的基本過(guò)程和方法之一[2]。由于對(duì)整個(gè)短語(yǔ)的識(shí)別和理解,并將其與最接近的短語(yǔ)進(jìn)行匹配需要目標(biāo)語(yǔ)言中的對(duì)應(yīng)語(yǔ)言存在偏差,單獨(dú)使用該方法可能會(huì)導(dǎo)致對(duì)原始文本的誤導(dǎo)性解釋。
在機(jī)器翻譯中主要部分是“翻譯過(guò)程”。這個(gè)過(guò)程可以簡(jiǎn)單地解釋為對(duì)源文本的含義進(jìn)行解碼,然后將其重新編碼為目標(biāo)語(yǔ)言。顯然,此過(guò)程需要復(fù)雜的算法才能成功,因?yàn)槟軌蛲耆獯a示例文本的含義意味著解釋器必須能夠分析文本的所有功能,這就需要深入了解源語(yǔ)言的語(yǔ)法結(jié)構(gòu)、語(yǔ)義、習(xí)語(yǔ)、語(yǔ)法等等涉及語(yǔ)言學(xué)的諸多方面[3],亦不能忽略考慮源語(yǔ)言的文化背景。因此,正如同聲傳譯員或者口譯員需要具備大量語(yǔ)言學(xué)以外的知識(shí),才能將詞匯所表達(dá)的含義重新編碼為目標(biāo)語(yǔ)言,從而避免錯(cuò)誤告知或歪曲源文本[4]。
機(jī)器翻譯訓(xùn)練數(shù)據(jù)從來(lái)都不是完美的,雙語(yǔ)句子對(duì)常常是錯(cuò)誤的逐句排列,或者由于人為錯(cuò)誤,這些句子對(duì)彼此的翻譯不佳。通常,目標(biāo)上下文被建模為SMT的語(yǔ)言模型。當(dāng)前,主要重點(diǎn)工作是從單語(yǔ)上下文轉(zhuǎn)換為雙語(yǔ)上下文[5],例如,雙語(yǔ)語(yǔ)言模型和操作序列模型基于最小翻譯單位。通常,這些方法依賴于傳統(tǒng)n-gram方法,由于數(shù)據(jù)稀疏,其缺點(diǎn)是窗口有限且語(yǔ)義表示效率低下[6]。為了加強(qiáng)上下文的語(yǔ)義表示,國(guó)內(nèi)外許多專家學(xué)者使用神經(jīng)網(wǎng)絡(luò)來(lái)研究相關(guān)問(wèn)題(雙語(yǔ)語(yǔ)境表示的神經(jīng)網(wǎng)絡(luò))。NN聯(lián)合模型(NNJM),其編碼使用前饋NN,以減少目標(biāo)方的重復(fù)發(fā)生;因此,可以集成到翻譯解碼中[7]。盡管如此,由于基于窗口的前饋NN的性質(zhì),NNJM在捕獲源側(cè)上下文之間的長(zhǎng)距離依賴項(xiàng)方面存在缺陷。
互聯(lián)網(wǎng)是人們獲取信息的重要來(lái)源,但是互聯(lián)網(wǎng)上存在的很多錯(cuò)誤的分級(jí)英語(yǔ)機(jī)器翻譯模型極大地阻礙了這一發(fā)展過(guò)程,使人們無(wú)法有效地獲取信息,更無(wú)法有效的翻譯信息。因此,目前對(duì)于如何建立有效的分層的英語(yǔ)機(jī)器翻譯模型已成為迫在眉睫的問(wèn)題。在互聯(lián)網(wǎng)上,大部分的英語(yǔ)機(jī)器翻譯的模型主要以分層英語(yǔ)機(jī)器翻譯的形式呈現(xiàn)[8]。僅當(dāng)信息的語(yǔ)義是真實(shí)的情況下,相應(yīng)英語(yǔ)的機(jī)器翻譯才是分層英語(yǔ)機(jī)器翻譯,反之亦然,英語(yǔ)機(jī)器翻譯在語(yǔ)義上是不正確的?;诜謱佑⒄Z(yǔ)機(jī)器翻譯的特征,肯定存在與任何否定分層英語(yǔ)機(jī)器翻譯平行的確定分層英語(yǔ)機(jī)器翻譯。此外,可以通過(guò)構(gòu)造相應(yīng)的準(zhǔn)確的分級(jí)英語(yǔ)機(jī)器翻譯模型來(lái)構(gòu)建否定的分層英語(yǔ)機(jī)器翻譯模型[9]。
本文提出了一種基于智能模糊決策算法的英語(yǔ)機(jī)器翻譯模型(HEMTM)。通過(guò)搜索有關(guān)英語(yǔ)機(jī)器翻譯的相關(guān)HEMTM模型來(lái)操作該模型;該模型在構(gòu)建機(jī)器翻譯的過(guò)程中,考慮了基于HEMTM與相應(yīng)的英語(yǔ)機(jī)器翻譯支持關(guān)系之間的差異。以期將該模型應(yīng)用于具有多個(gè)答案的英語(yǔ)機(jī)器翻譯的構(gòu)建。
決策樹(shù)(DT,decision tree)是檢索新的有趣知識(shí)的一種廣泛使用方法。決策樹(shù)代表了一種從標(biāo)記實(shí)例中進(jìn)行歸納的簡(jiǎn)單而強(qiáng)大的方法[10]。模糊決策樹(shù)是模糊環(huán)境中決策樹(shù)的推廣。模糊決策樹(shù)所代表的知識(shí)對(duì)于人類的思維方式來(lái)說(shuō)更為自然。經(jīng)典的清晰決策樹(shù)廣泛應(yīng)用于模式識(shí)別,機(jī)器學(xué)習(xí)和數(shù)據(jù)挖掘。引入決策樹(shù)來(lái)歸納分類模型,可通過(guò)沿著從根到葉的路徑傳播樣本來(lái)對(duì)樣本進(jìn)行分類,該路徑包含分類信息。
模糊決策樹(shù)(FDT,fuzzy decision tree)是一種更通用的表示知識(shí)的方法[11]。該方法使我們能夠在學(xué)習(xí)階段(樹(shù)的構(gòu)造)或泛化階段使用數(shù)字值和符號(hào)值來(lái)表示模糊模態(tài)。此外,Bouchon-Meunicr和Marsala等研究人員認(rèn)為模糊決策樹(shù)等效于一組模糊規(guī)則并且可以引入這種歸納規(guī)則來(lái)優(yōu)化數(shù)據(jù)庫(kù)的查詢過(guò)程或從數(shù)據(jù)中推斷決策[12]。
模糊決策樹(shù)的目標(biāo)是具有較高的可理解性,使模糊系統(tǒng)具有漸進(jìn)和優(yōu)美的行為。因此,使用模糊集和近似推理來(lái)擴(kuò)展符號(hào)決策樹(shù),以進(jìn)行樹(shù)的構(gòu)建和推理過(guò)程。同時(shí),借用了豐富的現(xiàn)有決策樹(shù)方法來(lái)處理不完整的知識(shí),并擴(kuò)展為利用模糊表示中可用的新信息[12]。
模糊集的概念由研究人員Zadeh于1965年通過(guò)隸屬函數(shù)提出。為了度量模糊事件,Zadeh于1978年提出了可能性度量的概念。模糊熵是不確定性的一種度量。
特別地,當(dāng)ζ是一個(gè)模糊集,取具有隸屬度的值xi,i=1,2,...,n時(shí),De Luca和Termini分別將其熵定義為如公式(1)所示:
(1)
當(dāng)S(t)=-1lnt-(l-t)ln(l-t)時(shí),很容易驗(yàn)證該函數(shù)S(t)關(guān)于t=0.5對(duì)稱,嚴(yán)格按照間隔[0,0.5]增大,嚴(yán)格按照間隔[0.5,1]減小,并達(dá)到其唯一最大值在t=0.5時(shí)是ln2。
描述熵的不確定性主要是由于語(yǔ)言的模糊性而不是信息的缺乏而引起的,并且當(dāng)模糊變量是一個(gè)可能的變量時(shí)其消失。然而,希望看到當(dāng)模糊變量退化為清晰數(shù)時(shí)熵為0,而當(dāng)模糊變量為等值時(shí)熵最大。
分層英語(yǔ)機(jī)器翻譯的模型(HEMTM)構(gòu)建如圖1所示。輸入是分層英語(yǔ)機(jī)器翻譯,輸出是分層英語(yǔ)機(jī)器翻譯模型構(gòu)建的結(jié)果。
圖1 分級(jí)英語(yǔ)機(jī)器翻譯模型
機(jī)器翻譯將相關(guān)的HEMTM與相應(yīng)的分級(jí)機(jī)器翻譯相結(jié)合,為相關(guān)的HEMTM和相應(yīng)的分級(jí)英語(yǔ)機(jī)器翻譯之間的支持關(guān)系的評(píng)估奠定了基礎(chǔ)。HEMTM智能模糊決策樹(shù)算法中的ri和fs是句子的機(jī)器翻譯,sti和fs是集合機(jī)器翻譯[13]。詞之間的機(jī)器翻譯為生成語(yǔ)義向量和詞序向量奠定了基礎(chǔ)。單詞之間的機(jī)器翻譯的公式如式(2)所示。公式(2)用于計(jì)算單詞的機(jī)器翻譯wi個(gè)和詞w2。l和h分別代表w1和w2在詞網(wǎng)中的最短距離,并且w1和w2兩者都存在于該詞網(wǎng)。單詞之間的機(jī)器翻譯可以以更好的方式,通過(guò)式(2)進(jìn)行評(píng)價(jià),此時(shí)α=0.2和β=0.45。
(2)
在公式(1)中,如果w1=w2,其相關(guān)性可以視為1;此外,因?yàn)樵O(shè)計(jì)的詞網(wǎng)中的信息無(wú)法覆蓋所有單詞。因此,如果w1是個(gè)否則w2無(wú)法被詞網(wǎng)覆蓋,Sw(w1,w2)=0。
假設(shè)s1是句子sti從ri中選擇的,并且s2是對(duì)應(yīng)的ri、fs的分層英語(yǔ)機(jī)器翻譯,接下來(lái),將通過(guò)計(jì)算以下內(nèi)容的機(jī)器翻譯來(lái)演示機(jī)器翻譯的過(guò)程s1和s2。
文獻(xiàn)[14]通過(guò)用NN編碼整個(gè)源句子來(lái)捕獲長(zhǎng)距離依賴。此外,他們都將整個(gè)源句子在不同的翻譯時(shí)間步上表示為固定向量,而不是動(dòng)態(tài)向量,這在機(jī)制中已顯示出了應(yīng)用前景。語(yǔ)義向量相關(guān)性的計(jì)算:通過(guò)生成相應(yīng)的句子語(yǔ)義向量來(lái)計(jì)算語(yǔ)義向量的相關(guān)性句子s1和句子s2以及語(yǔ)義向量之間的余弦機(jī)器翻譯的計(jì)算。假設(shè)結(jié)束詞被分為s1和s2,相應(yīng)的單詞集分別是W1={w11,w12,...,w1n和W2={w21,w22,...,w2n}。假設(shè)W=W1∪W2,且W={w1,w2,...,wk},如果wi∈W1,那么vli=1。在公式(3)中,wi∈W。如果wiW,并且存在最匹配的單詞wbm,那么當(dāng)搜索時(shí)wi(目標(biāo)詞)來(lái)自句子s1,然后vli=Sw(wi,wbm)。否則,如果vli=0,將開(kāi)始獲取最佳匹配詞的過(guò)程。
可以應(yīng)用類似的計(jì)算以獲得對(duì)應(yīng)的語(yǔ)義向量s2,V2。s1和s2的語(yǔ)義向量相關(guān)性可以通過(guò)V1和V2的機(jī)器余弦轉(zhuǎn)換來(lái)計(jì)算。詳細(xì)的計(jì)算可以證明為式(3)所示:
(3)
文獻(xiàn)[15]引入了一種神經(jīng)概率語(yǔ)言模型,該模型在目標(biāo)語(yǔ)言上下文詞而不是離散詞的分布式表示上順序運(yùn)行。將矯正的線性單位和噪聲對(duì)比估計(jì)引入Bengio等人的神經(jīng)概率語(yǔ)言模,并將其應(yīng)用于大型詞匯。詞序向量相關(guān)性的計(jì)算方法:通過(guò)生成相應(yīng)的句子的詞序向量,并用式(4)來(lái)計(jì)算句子的詞序向量相關(guān)性,然后計(jì)算詞序向量的相關(guān)性。在式(4)中,O1和O2分別代表的詞序向量s1和s2。s1生成的詞序向量是O1={o11,o12,...o1k}。結(jié)果可以通過(guò)以下方式計(jì)算:1)wi∈W1,如果wi∈W1,o11的位置是在s1中的wi;2)wi∈W1,如果wiW1,搜索的最匹配詞wi,wbm已經(jīng)完成。如果存在wbm,o1i的位置是位于s1中的wbm,否則o1i=0。在找出詞序向量的過(guò)程中,參數(shù)的最優(yōu)值ζ在算法2中使用的是0.4。
(4)
用智能模糊決策算法計(jì)算,智能模糊決策算法s1和s2可以通過(guò)式(5)基于語(yǔ)義向量相關(guān)性和詞序向量相關(guān)性來(lái)計(jì)算。如果s1是句子sti從中ri選擇,并且s2是相應(yīng)的英語(yǔ)機(jī)制翻譯fs,在式(5)中,sti和fs可以分別代表s1和s2。在式(5)中,參數(shù)的最佳值θ是0.85。
(5)
上式第一個(gè)式子是ri對(duì)fs沒(méi)有傾向趨勢(shì),第二個(gè)式子是代表有傾向趨勢(shì)。ri是否傾向于fs是基于獲取過(guò)程中是否存在否定的語(yǔ)法依存關(guān)系以及否定副詞在ri中,例如hardly、rarely、few、seldom等。
分層英語(yǔ)機(jī)器翻譯模型構(gòu)建的仍是當(dāng)前研究熱點(diǎn)。文獻(xiàn)[16]使用相關(guān)語(yǔ)言之間的詞形相似度或精確的上下文匹配來(lái)推斷可能的翻譯。文獻(xiàn)[17]提出了在ConceptNet上的主題感知傳播方法,以提高語(yǔ)言質(zhì)量。不同的詞在不同的主題下會(huì)有不同的情感。生成的主題感知情感詞典提高了文本分類的性能。他們的系統(tǒng)預(yù)測(cè)了文本的極性以及文本中最可能的主題和概念的情感價(jià)值。文獻(xiàn)[18]使用常識(shí)知識(shí)庫(kù)來(lái)檢測(cè)含義不清楚的單詞。他們利用ConceptNet工具包確定單詞替換,并計(jì)算了任意兩個(gè)給定術(shù)語(yǔ)之間的概念相似度,并定義了平均平均概念相似度(MACS)度量標(biāo)準(zhǔn)來(lái)識(shí)別上下文外的術(shù)語(yǔ)。因此,本文采用的數(shù)據(jù)集是從TREC2007中收集的分級(jí)英語(yǔ)機(jī)器翻譯數(shù)據(jù)集??煽康姆旨?jí)英語(yǔ)機(jī)器翻譯由30種,由真實(shí)語(yǔ)義唯一答案的分級(jí)英語(yǔ)機(jī)器翻譯和20種從TREC2007中隨機(jī)選擇的多答案的真實(shí)語(yǔ)義的分級(jí)英語(yǔ)機(jī)器翻譯組成[19-20]。為了進(jìn)行對(duì)比分析,本實(shí)驗(yàn)建立了模糊算法模型(FQ)和基于模糊決策樹(shù)的算法模型(HEMTM)。FQ模型是通過(guò)搜索與分層英語(yǔ)機(jī)器翻譯未加入特征算法的模型。實(shí)驗(yàn)分析了在FQ和HEMTM兩種模型構(gòu)建下,機(jī)器翻譯的有序分布。圖2和圖3分別顯示了當(dāng)HEMTM數(shù)量為150(n=150)時(shí)以FQ和HEMTM的模型構(gòu)建方式,CBrank,CBGrank,CFrank和CFGrank的分布。橫坐標(biāo)代表信息收集中的HEMTM站點(diǎn),縱坐標(biāo)代表相應(yīng)站點(diǎn)中HEMTM的機(jī)器翻譯平均排名。
圖2 FQ模型的機(jī)器翻譯
從圖2中可以看出,機(jī)器翻譯的順序與HEMTM所在的英語(yǔ)機(jī)器翻譯信息集合的順序沒(méi)有明顯的相關(guān)性。在HEMTM的集合中,HEMTM機(jī)器翻譯排名并不總是比質(zhì)量最高的英語(yǔ)機(jī)器翻譯排名差。究其原因,與CBrank和CFrank相比,排名間隔在CBGrank和CFGrank,CBGrank和CFGrank顯示具有較大的跨度??梢詮膱D3進(jìn)行推斷,機(jī)器翻譯的順序符合圖2趨勢(shì)的HEMTM的翻譯,而在FQ的模型下,HEMTM機(jī)器翻譯的分布更加集中。
圖3 HEMTM模型的機(jī)器翻譯
從上述實(shí)驗(yàn)中可以得出以下結(jié)論,當(dāng)機(jī)器翻譯等級(jí)為CFGrank時(shí),構(gòu)建的模型基本具有較高的準(zhǔn)確性。圖5描述了構(gòu)建模型準(zhǔn)確度,當(dāng)機(jī)器翻譯選用為FG模型等級(jí)為CFGrank時(shí),準(zhǔn)確度是由n和δ的關(guān)系決定。從圖4可以看出,當(dāng)δ是確定的時(shí)候,隨著n的值變大,精度將上升然后下降。原因是當(dāng)n很小時(shí),由于相關(guān)HEMTM的數(shù)量有限,因此分層英語(yǔ)機(jī)器翻譯的某些部分無(wú)法正確構(gòu)建;而當(dāng)n較大時(shí),對(duì)相應(yīng)的分層英語(yǔ)機(jī)器翻譯的貢獻(xiàn)率將高于對(duì)相應(yīng)的分層英語(yǔ)機(jī)器翻譯的貢獻(xiàn)率。因此導(dǎo)致最后的結(jié)果為降低模型構(gòu)建的準(zhǔn)確性。而當(dāng)n是確定的時(shí)候,精度將隨著δ的增加而上升,然后再下降。
圖4 準(zhǔn)確性趨勢(shì)n=60(FQ)
與機(jī)器翻譯的精度不同,從該圖可以看出,當(dāng)n>90時(shí),精度隨著n值的增加先上升然后下降。從圖4和圖5可以看出,當(dāng)采用FQ的方式利用Alexa排名間隔的機(jī)器翻譯時(shí),可以獲得較高的精度;而當(dāng)對(duì)CFGrank進(jìn)行機(jī)器翻譯的排名時(shí),可以獲得更高的精度。
圖5 準(zhǔn)確性趨勢(shì)δ=0.9(HEMTM)
結(jié)合圖4、圖5可以看出,4種相關(guān)HEMTM模型機(jī)器翻譯等級(jí)影響其準(zhǔn)確性的參數(shù)與FQ模型影響準(zhǔn)確性參數(shù)相一致。但是,由于HEMTM模型捕獲的語(yǔ)言信息量質(zhì)量較差,因此準(zhǔn)確性略低于FQ模型。采用HEMTM的CFGrank等級(jí),在n=60,δ=0的情況下,基本模型構(gòu)建的準(zhǔn)確性為68%。
本文提出了一種基于智能模糊決策樹(shù)算法HEMTM的分層英語(yǔ)機(jī)器翻譯方法。通過(guò)捕獲和分析相應(yīng)的分層英語(yǔ)機(jī)器翻譯中相關(guān)特征來(lái)實(shí)現(xiàn)模型構(gòu)建。機(jī)器翻譯的過(guò)程中,考慮了基于HEMTM與相應(yīng)的英語(yǔ)機(jī)器翻譯支持關(guān)系之間的差異。經(jīng)實(shí)際驗(yàn)證,在n=60,δ=0時(shí),模型準(zhǔn)確率可達(dá)到68%。該模型可應(yīng)用于具有多個(gè)答案的英語(yǔ)機(jī)器翻譯。