胡晴云
(甘肅警察職業(yè)學(xué)院 網(wǎng)安教研部,甘肅 蘭州 730000)
對(duì)于自然語(yǔ)言處理過(guò)程來(lái)說(shuō),其關(guān)鍵性內(nèi)容為計(jì)算詞語(yǔ)相似度,在機(jī)器翻譯等方面有重要的應(yīng)用價(jià)值[1].詞語(yǔ)相似度在不同應(yīng)用中用途有所差異,就實(shí)例機(jī)器翻譯過(guò)程來(lái)說(shuō),詞語(yǔ)相似度能夠表現(xiàn)出文本中兩個(gè)詞語(yǔ)的可替換程度,詞語(yǔ)相似度在信息檢索中能夠?qū)⑿畔z索召回率和準(zhǔn)確率提高.在構(gòu)造統(tǒng)計(jì)語(yǔ)言模型的過(guò)程中,由于數(shù)據(jù)稀疏等問(wèn)題導(dǎo)致未登錄詞語(yǔ)統(tǒng)計(jì)信息的計(jì)算過(guò)程遭到阻礙,本文結(jié)合詞語(yǔ)相似度綜合計(jì)算詞語(yǔ)類聚,最終優(yōu)化統(tǒng)計(jì)語(yǔ)言模型,克服其中數(shù)據(jù)稀疏等問(wèn)題,提高語(yǔ)言模型的表現(xiàn)力.
隨著現(xiàn)代交往進(jìn)程的不斷加深,當(dāng)前社會(huì)各界將研究重點(diǎn)著眼于翻譯系統(tǒng),從而生成多元化的在線翻譯系統(tǒng).當(dāng)前,開發(fā)者思考的重點(diǎn)是提高在線翻譯質(zhì)量和翻譯系統(tǒng)使用頻率[2].機(jī)器翻譯方法較多,主要分為基于實(shí)例、基于統(tǒng)計(jì)、基于規(guī)則3種.由于不同詞語(yǔ)的構(gòu)造存在差異,可以將模型分為不同類型,包括基于詞、基于短語(yǔ)、基于句法等.基于短語(yǔ)的翻譯是指以短語(yǔ)為基本單元的模型,這種翻譯方式簡(jiǎn)單且質(zhì)量高,運(yùn)行速度較快,因此成為當(dāng)前階段機(jī)器翻譯研究進(jìn)程中的重點(diǎn).然而,基于短語(yǔ)機(jī)器翻譯過(guò)程中,精確匹配是短語(yǔ)構(gòu)造當(dāng)中最常使用的方法,這種方式會(huì)導(dǎo)致數(shù)據(jù)稀疏.所以,本文以實(shí)例相似度檢測(cè)為基礎(chǔ)展開算法,并進(jìn)行相似度機(jī)器翻譯模型的構(gòu)建,分析其在機(jī)器翻譯中的應(yīng)用,并通過(guò)實(shí)際系統(tǒng)對(duì)其翻譯效果進(jìn)行驗(yàn)證.
一般來(lái)講,可以使用兩種方法計(jì)算詞語(yǔ)語(yǔ)義的相似度:①基于語(yǔ)義知識(shí)的詞語(yǔ)相似度進(jìn)行計(jì)算;②基于統(tǒng)計(jì)的詞語(yǔ)語(yǔ)義相似度進(jìn)行計(jì)算[3],其中后者具有經(jīng)驗(yàn)主義的特征性,并以語(yǔ)言的可觀察性為基礎(chǔ)研究詞語(yǔ)的相似度,在研究過(guò)程中并不完全依靠語(yǔ)言學(xué)家的直覺(jué).以兩個(gè)相似的詞語(yǔ)語(yǔ)義為基礎(chǔ),在上下文環(huán)境中,基于相似度假設(shè),在大規(guī)模語(yǔ)料庫(kù)的基礎(chǔ)上,綜合上下文并參照詞語(yǔ)信息的相關(guān)內(nèi)容,計(jì)算語(yǔ)義相似度.沈潔等[4]針對(duì)中文短語(yǔ)相似度計(jì)算,通過(guò)模式匹配算法,從原始半結(jié)構(gòu)化文本中進(jìn)行中文短語(yǔ)的抽取,并結(jié)合領(lǐng)域依存關(guān)系,對(duì)短語(yǔ)相似度計(jì)算方法進(jìn)行改進(jìn),從而提高短語(yǔ)相似度計(jì)算可靠性.張紹陽(yáng)等[5]基于數(shù)學(xué)中的干擾修正思想,根據(jù)詞素和語(yǔ)素對(duì)相似度值進(jìn)行計(jì)算,通過(guò)相同語(yǔ)素的個(gè)數(shù)修正相似度,從而綜合得出詞語(yǔ)相似度.費(fèi)洪曉等[6]通過(guò)引入樹狀語(yǔ)料庫(kù),對(duì)詞匯相似度進(jìn)行精確定義和計(jì)算,并改進(jìn)了基于抽取關(guān)鍵詞序列的中文短語(yǔ)相似度算法,在提高中文短語(yǔ)相似度計(jì)算準(zhǔn)確率方面,該方法效果良好,符合人的直觀感覺(jué).蘇依拉等[7]針對(duì)內(nèi)蒙古地區(qū)機(jī)器翻譯技術(shù)落后、力量薄弱等現(xiàn)狀,提出一種以實(shí)例為基礎(chǔ)的翻譯方法,通過(guò)不同粒度的對(duì)齊技術(shù),處理蒙漢雙語(yǔ)語(yǔ)料庫(kù),并采用相似度算法進(jìn)行匹配、重組,同時(shí)生成譯文,實(shí)驗(yàn)表明,該方法對(duì)特定領(lǐng)域的蒙古語(yǔ)的翻譯比較有效,能在一定程度上提高翻譯質(zhì)量.張睿[8]根據(jù)計(jì)算短語(yǔ)間的相似度方法,對(duì)傳統(tǒng)精確匹配方式進(jìn)行改變,使用模糊匹配策略,從短語(yǔ)表中查找相似度較高的實(shí)例短語(yǔ),進(jìn)行漢英翻譯句子構(gòu)造,結(jié)果表明翻譯質(zhì)量得到大幅提高.
在計(jì)算相似度的過(guò)程中,衡量方法較多,例如根據(jù)詞語(yǔ)的詞義、信息、結(jié)構(gòu)等信息進(jìn)行衡量[9].一般來(lái)說(shuō),如果兩個(gè)短語(yǔ)中的相同詞概率較高,此時(shí)他們的相似度就越高.因此,本研究在進(jìn)行相似度判定時(shí),引入iDce系數(shù),見公式(1)、(2).
(1)
其中,
(2)
根據(jù)以上步驟構(gòu)造的實(shí)例新短語(yǔ)如表1所列.
表1 實(shí)例新短語(yǔ)構(gòu)造
由表1可知,新短語(yǔ)對(duì)的構(gòu)造充分利用了實(shí)例短語(yǔ)對(duì)齊,保留了已匹配的詞語(yǔ)譯文,通過(guò)對(duì)齊信息實(shí)現(xiàn)單次調(diào)序的過(guò)程.通過(guò)部分替換和比較的方法,構(gòu)建未登錄短語(yǔ)高質(zhì)量譯文,克服數(shù)據(jù)系數(shù)造成的各種問(wèn)題.由于一個(gè)短語(yǔ)可以擁有多個(gè)與之相適應(yīng)的相似實(shí)例短語(yǔ),一個(gè)單詞也可以擁有多個(gè)與之相適應(yīng)的翻譯,所以對(duì)于一個(gè)短語(yǔ)應(yīng)進(jìn)行多個(gè)譯文的構(gòu)造.
(3)
基于實(shí)例的機(jī)器翻譯方法是對(duì)人工翻譯過(guò)程進(jìn)行模仿,根據(jù)預(yù)先設(shè)定規(guī)則,系統(tǒng)切分源語(yǔ)句子,采取有效性比較的方法比對(duì)實(shí)例庫(kù)中的單詞、短語(yǔ)片段,最終得到相似度較高的匹配短語(yǔ),對(duì)這些片段進(jìn)行整合,構(gòu)成相應(yīng)的目標(biāo)端語(yǔ)句,即目標(biāo)譯文.綜合上述,就是在線性結(jié)構(gòu)的基礎(chǔ)上排布實(shí)例機(jī)器翻譯方法,通過(guò)實(shí)例短語(yǔ)和切分短語(yǔ)進(jìn)行匹配計(jì)算,獲得相應(yīng)結(jié)果,找出雙語(yǔ)句子間各詞匯位置關(guān)系,整合計(jì)算獲取的信息,最終得到最高實(shí)例分?jǐn)?shù)的目標(biāo)語(yǔ)句.實(shí)例相似度檢測(cè)機(jī)器翻譯結(jié)構(gòu)如圖1所示.
圖1 基于實(shí)例的機(jī)器翻譯
本研究的運(yùn)行環(huán)境選取Linux平臺(tái),結(jié)合Moses工具開發(fā)英漢機(jī)器翻譯系統(tǒng).通過(guò)GIZA + +展開詞語(yǔ)對(duì)齊訓(xùn)練,語(yǔ)言模型訓(xùn)練通過(guò)SRILM進(jìn)行,選取LDC發(fā)布的Gigaword語(yǔ)料庫(kù)作為訓(xùn)練語(yǔ)料,語(yǔ)料庫(kù)中包含單詞量為195 M.設(shè)定抽取短語(yǔ)長(zhǎng)度為7,選擇BLEU-4作為評(píng)價(jià)指標(biāo).
機(jī)器翻譯系統(tǒng)整體架構(gòu)如圖2所示.
圖2 機(jī)器翻譯整體架構(gòu)
系統(tǒng)包括漢/英文本的輸入、文本預(yù)處理的輸入、解碼器、文本后處理的輸出、英/漢語(yǔ)言文本、英/漢單語(yǔ)語(yǔ)料、語(yǔ)言模型訓(xùn)練、漢語(yǔ)語(yǔ)言模型、訓(xùn)練語(yǔ)料庫(kù)、語(yǔ)料預(yù)處理、詞語(yǔ)對(duì)齊、短語(yǔ)抽取與相似度計(jì)算、短語(yǔ)翻譯概率表等內(nèi)容.
在小規(guī)模語(yǔ)料實(shí)驗(yàn)中,測(cè)試集為NIST2011,基線系統(tǒng)Moses的BLEU-4值為0.2 445,本研究系統(tǒng)Meneius的BLEU-4值為0.2 532,提高了3.56%,具體結(jié)果如圖3所示.
圖3 小規(guī)模實(shí)驗(yàn)所用短語(yǔ)的BLEU-4值對(duì)比
在訓(xùn)練中,從2.95萬(wàn)句對(duì)中抽取短語(yǔ)對(duì)約1 M.Moses的短語(yǔ)采用精確匹配方法進(jìn)行,用于翻譯測(cè)試集和開發(fā)集的短語(yǔ)對(duì)占21%,數(shù)量為0.21 M,說(shuō)明精確匹配方法未能充分運(yùn)用短語(yǔ),存在較為嚴(yán)重的浪費(fèi)現(xiàn)象.對(duì)0.21 M短語(yǔ)進(jìn)行統(tǒng)計(jì),結(jié)果顯示,當(dāng)短語(yǔ)的長(zhǎng)度>3時(shí),其所占比例達(dá)到2.33%,即存在嚴(yán)重的數(shù)據(jù)稀疏問(wèn)題.以短語(yǔ)相似度模型展開模糊匹配,從而在短語(yǔ)對(duì)的基礎(chǔ)上提高比例,達(dá)到0.865 M,占總數(shù)的86.5%,這表明通過(guò)相似度模型,短語(yǔ)利用率可提高,從而使數(shù)據(jù)稀疏問(wèn)題得到緩解.小規(guī)模實(shí)驗(yàn)的NIST2011測(cè)試集短語(yǔ)分布情況如圖4所示.
圖4 小規(guī)模實(shí)驗(yàn)的NIST2011測(cè)試集短語(yǔ)分布
本研究以NIST2011測(cè)試集為基礎(chǔ),分別分析了系統(tǒng)運(yùn)行的兩個(gè)不同結(jié)果,短語(yǔ)分布統(tǒng)計(jì)情況如圖5所示.
圖5 小規(guī)模實(shí)驗(yàn)所用短語(yǔ)的分布情況
Moses中所使用的短語(yǔ)數(shù)量為24 603個(gè),而長(zhǎng)度>3的短語(yǔ)占了0.42%,長(zhǎng)度≤3的短語(yǔ)占了99.58%,這組數(shù)據(jù)說(shuō)明在對(duì)Moses進(jìn)行解碼時(shí),長(zhǎng)短語(yǔ)實(shí)際上很難通過(guò)精確匹配策略來(lái)實(shí)現(xiàn).Mecnins當(dāng)中所適用的短語(yǔ)數(shù)量為21 211,而長(zhǎng)度>3的短語(yǔ)占比為2.36%,長(zhǎng)度≤3的短語(yǔ)占了97.64%,相似實(shí)例短語(yǔ)構(gòu)造出來(lái)的短語(yǔ)在21 211個(gè)短語(yǔ)占14.27%,即模糊匹配.綜合上述內(nèi)容可以看出,以短語(yǔ)相似度模型為基礎(chǔ),可以緩解短語(yǔ)數(shù)據(jù)稀疏問(wèn)題造成的缺陷.
在大規(guī)模語(yǔ)料實(shí)驗(yàn)中,基于NIST2011測(cè)試集,基線系統(tǒng)Moses的BLEU-4值為0.3 047,本研究系統(tǒng)Meneius的BLEU-4值為0.3 098,提高了1.67%,具體見圖6.
圖6 大規(guī)模實(shí)驗(yàn)所用短語(yǔ)的BLEU-4值對(duì)比
通過(guò)將訓(xùn)練語(yǔ)料庫(kù)規(guī)模加大,在一定程度上可使數(shù)據(jù)稀疏問(wèn)題得到緩解,根據(jù)精確匹配策略,當(dāng)短語(yǔ)長(zhǎng)度較長(zhǎng)時(shí)仍很難匹配.大部分短語(yǔ)很難被利用.本研究從245萬(wàn)句對(duì)抽取短語(yǔ)對(duì)約109 M,用于翻譯測(cè)試集和開發(fā)集的短語(yǔ)對(duì)占6.61%,數(shù)量為7.2 M.在短語(yǔ)相似度模型中,可用短語(yǔ)的比例占51.5%,數(shù)量為56.1 M.這說(shuō)明通過(guò)相似度模型,短語(yǔ)利用率可得到極大提高.在模糊匹配策略的基礎(chǔ)上,對(duì)較長(zhǎng)的短語(yǔ)進(jìn)行匹配,可以得到更優(yōu)質(zhì)的譯文.使用Moses和Meneius進(jìn)行翻譯時(shí)所得到的效果差異結(jié)果如表2所列.
表2 Moses和Meneius翻譯對(duì)比
在表2中,短語(yǔ)劃分用“-”表示,由表2知,在測(cè)試語(yǔ)料中,“經(jīng)濟(jì)產(chǎn)出的長(zhǎng)期趨勢(shì)”短語(yǔ)未出現(xiàn),Moses將其進(jìn)行了拆分,形成“經(jīng)濟(jì)的”“產(chǎn)出”“趨勢(shì)”“長(zhǎng)期”4個(gè)短短語(yǔ),并通過(guò)調(diào)序模型做相應(yīng)的調(diào)序,如果調(diào)序不正確,就會(huì)導(dǎo)致譯文發(fā)生錯(cuò)誤.本研究借助相似度模型模糊匹配的方法,在語(yǔ)料庫(kù)中可將實(shí)例短語(yǔ)“經(jīng)濟(jì)發(fā)展的必然趨勢(shì),the inevitable trend of economic development”找到,因此,可構(gòu)造翻譯出“經(jīng)濟(jì)產(chǎn)出的長(zhǎng)期趨勢(shì)”,獲得“the long-term trend of economic output”的正確譯文.這說(shuō)明采用模糊匹配策略,相似度模型可進(jìn)行翻譯得到長(zhǎng)短語(yǔ)構(gòu)造,從而減輕短語(yǔ)調(diào)序模型的負(fù)擔(dān),提高譯文質(zhì)量.
本文提出基于實(shí)例相似度檢測(cè)的算法,并進(jìn)行相似度機(jī)器翻譯模型的構(gòu)建,分析其在機(jī)器翻譯中的應(yīng)用,通過(guò)實(shí)際系統(tǒng)對(duì)其翻譯效果進(jìn)行驗(yàn)證,實(shí)驗(yàn)表明,與傳統(tǒng)的Moses短語(yǔ)系統(tǒng)相比,本研究提出的Meneius機(jī)器翻譯模型,翻譯質(zhì)量得到明顯提高.在今后的研究中,可進(jìn)一步對(duì)英文詞訓(xùn)練語(yǔ)料進(jìn)行擴(kuò)展,并進(jìn)行訓(xùn)練語(yǔ)料的詞形還原,對(duì)訓(xùn)練獲得的常用詞詞表進(jìn)行過(guò)濾,進(jìn)一步提高詞的計(jì)算效率.
蘭州文理學(xué)院學(xué)報(bào)(自然科學(xué)版)2022年5期