李 斌, 梁伍七, 馬 寧, 董露露
(1.安徽廣播電視大學(xué) 安徽成教在線服務(wù)中心,合肥 230041;
2.安徽廣播電視大學(xué) 信息與工程學(xué)院,合肥 230022)
?
基于網(wǎng)絡(luò)的中文未登錄詞譯文挖掘方法研究
李斌1,梁伍七2,馬寧2,董露露1
(1.安徽廣播電視大學(xué) 安徽成教在線服務(wù)中心,合肥 230041;
2.安徽廣播電視大學(xué) 信息與工程學(xué)院,合肥 230022)
摘要:為了獲得較高的譯文質(zhì)量,提出了一種基于網(wǎng)絡(luò)搜索的中文未登錄詞的翻譯方法。該方法首先利用詞典對(duì)未登錄詞進(jìn)行擴(kuò)展,然后將擴(kuò)展查詢?cè)~提交搜索引擎,從獲取的中英文混合摘要中采用頻度變化信息算法抽取譯文候選,最后采用表層模板和頻度右距離模型對(duì)譯文候選進(jìn)行排序。實(shí)驗(yàn)結(jié)果表明通過(guò)本方法進(jìn)行中文未登錄詞譯文挖掘是有效可行的。 對(duì)信息預(yù)處理的工作主要包括以下幾個(gè)方面:剔除返回頁(yè)面中的網(wǎng)頁(yè)標(biāo)識(shí)信息(如,
,等),獲取摘要正文部分內(nèi)容。對(duì)網(wǎng)頁(yè)中的特殊符號(hào)進(jìn)行相關(guān)的替換操作(如“&nbmp”換為空格字符串“”,“"”換為反斜線符號(hào)“”等)。為了獲取一段較完整的英文字符串內(nèi)容,需對(duì)該字符串中的非英文字符進(jìn)行刪除處理。關(guān)鍵詞:未登錄詞翻譯;數(shù)據(jù)挖掘;網(wǎng)絡(luò)搜索;查詢擴(kuò)展
一、引言
中文未登錄詞(Out Of Vocabulary,OOV)一詞的概念最早孫茂松教授最先提出。[1]它通常是指詞典中未收錄的詞,包括各類專有名詞(人名、地名、機(jī)構(gòu)名等)、縮寫詞、各個(gè)領(lǐng)域的術(shù)語(yǔ)等,同時(shí)包括一些隨著社會(huì)的發(fā)展而出現(xiàn)的新詞。對(duì)中文未登錄詞的譯文進(jìn)行挖掘在中文信息處理中有著非常重要的作用,如在跨語(yǔ)言信息檢索、問(wèn)答系統(tǒng)、機(jī)器翻譯系統(tǒng)中,中文未登錄詞譯文翻譯的準(zhǔn)確性將對(duì)應(yīng)用系統(tǒng)的性能產(chǎn)生很大的影響。同時(shí),由于這些詞的譯文無(wú)法從詞典中直接獲得,如采用人工翻譯的方法將費(fèi)時(shí)費(fèi)力。因此,對(duì)中文未登錄詞的譯文進(jìn)行挖掘并提高挖掘的準(zhǔn)確率,是非常重要的研究工作。
隨著互聯(lián)網(wǎng)技術(shù)的高速發(fā)展,研究人員利用網(wǎng)絡(luò)資源提出了多種方法進(jìn)行OOV譯文資源挖掘。根據(jù)所使用的資源不同,主要的翻譯方法可分成基于雙語(yǔ)語(yǔ)料庫(kù)的翻譯方法和基于網(wǎng)絡(luò)搜索引擎的翻譯方法,基于雙語(yǔ)語(yǔ)料庫(kù)的方法是從雙語(yǔ)語(yǔ)料庫(kù)中抽取翻譯對(duì)用于查詢翻譯。根據(jù)使用語(yǔ)料庫(kù)的不同可分為平行網(wǎng)頁(yè)資源和可比較語(yǔ)料資源,在2002年Chang等利用平行語(yǔ)料來(lái)獲取中英文翻譯對(duì)[2]。為了獲得更多的平行語(yǔ)料,Smith和Resnik在2003年利用STAND系統(tǒng)從Web頁(yè)面獲取平行網(wǎng)頁(yè)資源[3], Koehn[4]和Liang[5]等將平行語(yǔ)料庫(kù)用于統(tǒng)計(jì)機(jī)器翻譯的訓(xùn)練語(yǔ)料,并取得非常好的翻譯性能。與平行語(yǔ)料不同,可比較語(yǔ)料是指對(duì)同一事件的多種語(yǔ)言的描述,這些描述并非是完全互譯的,但可用來(lái)進(jìn)行譯文的抽取或其他的自然語(yǔ)言處理方面的工作,Diab等利用可比較語(yǔ)料庫(kù)提出基于字級(jí)別的統(tǒng)計(jì)翻譯模型[6],Alegria等在可比較語(yǔ)料庫(kù)的基礎(chǔ)上對(duì)命名實(shí)體的翻譯進(jìn)行了相關(guān)研究工作[7],Kaji利用可比較語(yǔ)料將日語(yǔ)中專業(yè)術(shù)語(yǔ)翻譯成英語(yǔ)[8]。利用網(wǎng)絡(luò)直接進(jìn)行挖掘譯文的方法是根據(jù)同一個(gè)網(wǎng)頁(yè)上存在著兩種或多種語(yǔ)言,例如在一個(gè)中文網(wǎng)頁(yè)上可能存在一個(gè)術(shù)語(yǔ)后面標(biāo)有原始英文翻譯。再如,學(xué)術(shù)論文中的中文與英文摘要。Cheng利用網(wǎng)絡(luò)來(lái)構(gòu)建多種語(yǔ)言的翻譯詞典[9],Shia采用基于混合網(wǎng)絡(luò)的方法來(lái)對(duì)專有名詞的翻譯進(jìn)行改進(jìn)[10],Huang等從網(wǎng)絡(luò)資源中挖掘關(guān)鍵詞的譯文[11],Lu等根據(jù)網(wǎng)絡(luò)資源對(duì)英漢翻譯候選進(jìn)行了消歧研究[12],Denkowski利用網(wǎng)絡(luò)對(duì)機(jī)器翻譯的結(jié)果進(jìn)行改進(jìn)[13]。
本文提出了一種基于網(wǎng)絡(luò)搜索的中文未登錄詞的翻譯方法。該方法不需要利用平行語(yǔ)料或可對(duì)比語(yǔ)料庫(kù)資源作為訓(xùn)練集,而是直接利用互聯(lián)網(wǎng)上存在的大量多種語(yǔ)言混合的網(wǎng)頁(yè),通過(guò)設(shè)計(jì)相關(guān)挖掘算法來(lái)獲取所需要的譯文。與上述方法有些不同,沒(méi)有直接使用那些網(wǎng)頁(yè),而是通過(guò)搜索引擎的搜索獲得返回的包含雙語(yǔ)信息的摘錄,我們可以從中進(jìn)行相關(guān)的譯文挖掘研究。
二、實(shí)驗(yàn)設(shè)計(jì)與算法
(一)實(shí)驗(yàn)框架
利用網(wǎng)絡(luò)搜索引擎進(jìn)行未登錄詞譯文挖掘流程圖如圖1所示,我們首先利用詞典對(duì)要翻譯的未登錄詞的子序列進(jìn)行翻譯,接著將該子序列的翻譯和未登錄詞一起提交搜索引擎,然后根據(jù)返回的含有中英文的摘要信息采用改進(jìn)的頻度變化信息算法抽取相關(guān)譯文候選,最后通過(guò)頻度-距離模型與表層模板特征相結(jié)合的方法對(duì)譯文候選進(jìn)行排序。
圖1利用網(wǎng)絡(luò)挖掘未登錄詞譯文流程圖
(二)未登錄詞英文擴(kuò)展
利用搜索引擎進(jìn)行搜索時(shí),如果提交的查詢?cè)~是單一語(yǔ)種時(shí),則返回的結(jié)果中包含單一語(yǔ)種的鏈接或頁(yè)面比較多,如果直接將中文未登錄詞作為查詢?cè)~提交到搜索引擎,而返回結(jié)果中可能不包含英文,我們也就無(wú)法從中挖掘出英文譯文。而如果將未登錄詞譯文的一部分連同該詞一起(對(duì)查詢?cè)~進(jìn)行了擴(kuò)展)提交到搜索引擎,則返回的頁(yè)面中既包含該詞以及其英文翻譯的一部分,這樣就為我們挖掘其該未登錄詞的譯文提供了來(lái)源(如圖2)。我們可以從包含該未登錄詞和部分英文翻譯的混合網(wǎng)頁(yè)摘要中,通過(guò)設(shè)計(jì)算法來(lái)獲取對(duì)應(yīng)的譯文。
圖2擴(kuò)展后查詢?cè)~提交搜索引擎返回頁(yè)面圖(2015-11-02)
實(shí)驗(yàn)采用“逆向最大匹配算法”對(duì)輸入的中文未登錄詞進(jìn)行英文擴(kuò)展,具體算法如下:
輸入:中文未登錄詞ChQuery
輸出:擴(kuò)展后的關(guān)鍵詞(中文關(guān)鍵詞+英文擴(kuò)展)ExpQuery
步驟:
SubSeq=ChQuery//SubSeq為ChQuery子序列
while (SubSeq is Not NULL) {
if (漢英詞典中找到SubSeq的譯文EnSubSeq) {
ExpQuery=ChQuery+EnSubSeq
returnExpQuery
}
SubSeq=SubSeq減去第一個(gè)漢字
}
(三)挖掘譯文生成譯文候選
針對(duì)返回結(jié)果進(jìn)行譯文的挖掘需要經(jīng)過(guò)以下三個(gè)步驟的處理,首先需要對(duì)搜索引擎返回的摘要信息進(jìn)行預(yù)處理。然后篩選出含有英文擴(kuò)展的譯文候選,最后將字符串按表層模板特征和頻度-距離模型相結(jié)合的算法進(jìn)行計(jì)算并排序。
1.搜索引擎返回摘要信息預(yù)處理
2.篩選出含有英文擴(kuò)展的譯文候選
相對(duì)于互信息、局部最大值等方法從語(yǔ)料庫(kù)中抽取多詞候選單元,頻度變化信息方法[14]更能有效地從篇幅較短的頁(yè)面摘要信息中抽取相關(guān)信息,該算法主要是基于以下考慮:在一個(gè)合法的譯文候選中,譯文中每個(gè)單詞出現(xiàn)的次數(shù)應(yīng)該是約為相同的。如果一個(gè)合法候選譯文中用的是不正確的譯文擴(kuò)展,那么擴(kuò)展后的單元頻度會(huì)較低。頻度變化信息方法如公式(1)所示:
(1)
3.譯文候選排序
在閱讀科技文獻(xiàn)時(shí),我們經(jīng)常會(huì)看到作者在第一次使用術(shù)語(yǔ)時(shí)會(huì)將其英文翻譯以及縮寫標(biāo)注在括號(hào)中,例如:“未登錄詞(Out Of Vocabulary,OOV)”。在這里“(”可以作為識(shí)別后續(xù)英文字符串即為前面中文字符串譯文的主要特征之一,這些符號(hào)信息我們稱之為表層模板。實(shí)驗(yàn)通過(guò)將不同的中英文詞對(duì)提交搜索引擎獲取摘要信息后,然后從這些摘要中自動(dòng)獲取表層模板,我們將幾種典型的模板按照出現(xiàn)次數(shù)的多少排列如表1。
表1 中文科技文中典型表層模板
表1中L1和L2互為兩種不同的語(yǔ)言(如L1為中文,L2則為英文,反之亦可)。如果一個(gè)譯文候選單元和源查詢?cè)~匹配了較多的表層模板,那么該譯文候選作為正確譯文的概率則較大。具體計(jì)算如公式(2)所示:
(2)
其中,s是源查詢?cè)~,即中文未登錄詞,t為源查詢?cè)~的某譯文候選單元,N為源查詢?cè)~s和候選單元t匹配的模板總數(shù),maxN為源查詢?cè)~s與所有候選中匹配次數(shù)的最大值。
在獲取的所有摘要頁(yè)面中,如果某一譯文候選出現(xiàn)的頻度越高,我們認(rèn)為其為正確譯文的概率越大,同時(shí),如果某一譯文候選出現(xiàn)在中文未登錄詞的右邊,且它們之間的字符距離越近,則它們互為譯文的概率也越大。基于這兩點(diǎn)考慮,我們提出了頻度右距離模型,如公式(3)所示。
(3)
其中,s為源查詢?cè)~,t為源查詢?cè)~的某譯文候選單元,rdi(s,t)為譯文候選t第i次共同出現(xiàn)在源查詢?cè)~s與右邊的距離,k為s與t共同出現(xiàn)的總次數(shù),max(rd)為t出現(xiàn)在s右邊時(shí)的最大距離。
譯文候選排序最終模型綜合考慮表層模板特征和頻度右距離模型,模型如公式(4)所示。
(4)
其中,PE(s,t)表示譯文候選t是中文未登錄詞s的最終概率,λ1,λ2分別表示表層模板模型和頻度右距離模型的參數(shù)。
三、實(shí)驗(yàn)結(jié)果與分析
(一)網(wǎng)絡(luò)查詢?cè)~譯文挖掘
實(shí)驗(yàn)從NTCIR(網(wǎng)址為ttp://research. nii.ac.jp/ntcir/)選取NTCIR4, NTCIR5中未知中英雙語(yǔ)詞典中收錄100的詞條(即未登錄詞)進(jìn)行測(cè)試。采用TOPN包含率作為評(píng)價(jià)標(biāo)準(zhǔn),TOPN的定義如公式(5)所示:
(5)
實(shí)驗(yàn)分別表層模板模型,頻度右距離模型以及兩者結(jié)合的方式最終的譯文候選進(jìn)行了選擇,實(shí)驗(yàn)結(jié)果如圖3所示。
圖3 不同譯文候選方法實(shí)驗(yàn)結(jié)果比較圖
從圖3我們可以看出,利用表層模板模型和頻度右距離模型都取得了較高的包含率,其中TOP1的包含率分別為55%和57%,隨著譯文候選數(shù)量N的增加,包含率不斷提高,其中TOP10的包含率分別達(dá)到了81%和87%。將這兩種模型進(jìn)行有效混合后,正確譯文的包含率有所提高,其中TOP1和TOP10的包含率相對(duì)于頻度右距離模型提高了19%和11%;相對(duì)于表層模板模型提高了7%和4%。雖然仍有部分詞未能在TOP10譯文候選中找到正確的譯文,這主要是由于這些詞在網(wǎng)絡(luò)中使用較少,導(dǎo)致獲取的摘要資源基本為單一中文語(yǔ)種,從而不能獲取有效的英文譯文候選。
(二)命名實(shí)體譯文挖掘
命名實(shí)體作為未登錄詞的一部分,通常包括人名、地名和組織機(jī)構(gòu)名等。實(shí)驗(yàn)過(guò)程中,我們也對(duì)命名實(shí)體中的組織機(jī)構(gòu)名的譯文進(jìn)行了挖掘。實(shí)驗(yàn)的語(yǔ)料是教育部直屬的前100所學(xué)校中文名稱,我們通過(guò)實(shí)驗(yàn)挖掘它們的英文名稱,然后與它們的實(shí)際英文名稱相對(duì)比來(lái)判斷挖掘結(jié)果是否正確。實(shí)驗(yàn)結(jié)果如表2所示。
表2 不同譯文候選對(duì)應(yīng)TOPN包含率表
從表2中我們可以看出,隨著譯文候選數(shù)量的增加,TOPN包含率不斷提高,當(dāng)譯文候選TOPN的個(gè)數(shù)為3時(shí),獲得的TOPN包含率就達(dá)到了90%以上,而當(dāng)TOPN為5時(shí),包含率達(dá)到了96%。對(duì)于結(jié)果中未能正確翻譯的未登錄詞主要原因包括以下幾個(gè)方面:(1)在翻譯過(guò)程中中文名稱與英文名稱不完全對(duì)應(yīng),英文名稱中可能會(huì)增加或減少單詞。(2)在翻譯過(guò)程中部分詞的音譯情況未能很好地解決。(3)網(wǎng)頁(yè)中存在錯(cuò)誤的譯文也可能造成不能未能獲取正確的譯文等。
四、總結(jié)與展望
本文提出了一種基于網(wǎng)絡(luò)的未登錄詞的譯文挖掘方法,實(shí)驗(yàn)利用詞典對(duì)要翻譯的未登錄詞采用“逆向最大匹配法”的方法進(jìn)行英文擴(kuò)展,然后將擴(kuò)展的查詢?cè)~提交搜索引擎,根據(jù)返回的含有中英文的摘要信息采用頻度變化信息算法抽取相關(guān)譯文候選,并結(jié)合表層模塊特征和頻度右距離算法對(duì)譯文候選進(jìn)行排序。從實(shí)驗(yàn)的結(jié)果來(lái)看,本文的譯文挖掘方法取得了較好的效果。
同時(shí),在今后的研究中我們可以從以下幾個(gè)方面對(duì)實(shí)驗(yàn)進(jìn)行改進(jìn):(1)擴(kuò)充本地詞典包含的雙語(yǔ)詞匯數(shù)量,從而使未登錄詞能獲得更好的擴(kuò)展。(2)探索算法解決未登錄中的音譯問(wèn)題。(3)嘗試改進(jìn)算法更有效的獲取譯文候選以及對(duì)譯文的排序。
參考文獻(xiàn):
[1]孫茂松,鄒嘉彥.漢語(yǔ)自動(dòng)分詞研究評(píng)述[J]. 當(dāng)代語(yǔ)言學(xué), 2001(1): 22-32.
[2]CHANH B, DANIELSSON P,TEUBERT W.Extraction of Translation Unit from Chinese-English Parallel Corpora[C]// Proceedings of the first SIGHAN workshop on Chinese language processing, Morristown, NJ, USA:Association for Computational Linguistics, 2002:1-5.
[3]SMITH N A, RESNIK P.The web as a parallel corpus[J]. Computational Linguistics, 2003, 29(3):349-380.
[4]KOEHN P.A parallel corpus for statistical machine translation[J]. Proceedings of the Third Workshop on Statistical Machine Translation, 2004(1):3-4.
[5]TIAN L, WONG D, CHAO L, et al. UM-corpus: A Large English-chinese Parallel Corpus for Statistical Machine Translation[C]// Proceedings of the 9th International Conference on LanguageResources and Evaluation,2014:1837-1842.
[6]DIAB M, FINCH S. A Statistical Word-Level Translation Model for Comparable Corpora[C]// Proceedings of the Conference on Content-based Multimedia Information Access RIAO,2000.
[7]ALEGRIA I,EZEIZA N,FERNANDEZ I.Named Entities Translation Based on Comparable Corpora[C]//Proceedings of the 11th Conference of the European Chapter of the Association for Computational Linguistics,Workshop on Multi-word Expressions in a Multilingual Context,Trento,Italy,2006:1-8.
[8]KAJI H,TSUNAKAWA T,KOMATSUBARA Y.Improving Compositional Translation with Comparable Corpora[C]//Proceedings of the 5th Workshop on Building and Using Comparable Corpora,2012:134-42.
[9]CHENG P J, PAN Y C, LU W H, CHEN L F. Creating Multilingual Translation Lexicons with Regional Variations Using Web Corpora[C]//Proc. Of ACL,2004:535-542.
[10]SHIA M S, LIN J H, YU S, et al. Improving translation of unknown proper names using a hybrid web-based translation extraction method[J]. Rocling,2005.
[11]HUANG F, ZHANG Y, VOGEL S. Mining key phrase translations from web corpora[J]. IEEE Journal on Selected Areas in Communications, 2005:483-490.
[12]LU C, XU Y, GEVA S, et al. Translation disambiguation in web-based translation extraction for English-Chinese CLIR[J]. Clir, 2007:819-823.
[13]DENKOWSKI M, LAVIE A. TransCenter: Web-Based Translation Research Suite. In Workshop on Post-Editing Technology and Practice Demo Session. San Diego, 2012. Retrieved from http://www.cs.cmu.edu/~ mdenkows/transcenter/
[14]葛運(yùn)東.跨語(yǔ)言信息檢索查詢翻譯技術(shù)研究[D].蘇州:蘇州大學(xué),2010:26-41.
[責(zé)任編輯李潛生]
The Translation of Chinese OOV Based on Web
LI Bin1,LIANG Wu-qi2,MA Ning2,DONG Lu-lu1
(1.Center of Anhui Continuing Education Online, Anhui Open University, Hefei 230041, China;2.College of Information Science and Engineering, Anhui Open University, Hefei 230022, China)
Abstract:Translation of Chinese out of vocabulary (OOV) is very important in the research of cross-language information retrieval and machine translation and so on. In order to obtain the high quality of translation, an approach of OOV translation based on the web has proposed. The expanded query terms which has been extended by dictionary should be submit to search engine together, and the candidates of translation would be extracted by frequency change algorithm, the models of surface template and frequency right distance are used to sort those candidates in the end. Experimental results show that the method of translation of OOV by web corpus is feasible.
Key words:translation of OOV; data mining; web search; query expand
中圖分類號(hào):TP391
文獻(xiàn)標(biāo)識(shí)碼:A
文章編號(hào):1008-6021(2016)01-0116-05
作者簡(jiǎn)介:李斌(1983-),男,安徽懷寧人,碩士,講師。研究方向:數(shù)據(jù)挖掘,自然語(yǔ)言處理。
基金項(xiàng)目:安徽省教育廳自然科學(xué)基金重點(diǎn)項(xiàng)目“基于翻譯模型和網(wǎng)絡(luò)挖掘相結(jié)合的命名實(shí)體翻譯方法研究”(項(xiàng)目編號(hào):KJ2014A081);安徽廣播電視大學(xué)優(yōu)秀青年基金項(xiàng)目“基于網(wǎng)絡(luò)的未登錄詞譯文挖掘研究”(項(xiàng)目編號(hào):qn11-19)。
收稿日期:2015-11-03
安徽開(kāi)放大學(xué)學(xué)報(bào)2016年1期