• <tr id="yyy80"></tr>
  • <sup id="yyy80"></sup>
  • <tfoot id="yyy80"><noscript id="yyy80"></noscript></tfoot>
  • 99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看 ?

    基于平行語料庫的雙語術語抽取系統(tǒng)研究

    2016-04-12 00:00:00蔣俊梅
    現(xiàn)代電子技術 2016年15期

    摘 要: 針對雙語術語抽取系統(tǒng)在處理多種語言時大量耗費人力、財力、物力等的局限性問題,提出基于平行語料庫的雙語術語抽取方法,同時,分析此方法的不足,結合多種方法進行改善。在此基礎上開發(fā)了一個雙語術語抽取系統(tǒng),并通過實驗分析了相似度函數(shù)、語料規(guī)模以及改進后方法對術語抽取結果的影響,而且該系統(tǒng)已經作為商品化軟件投入實際應用。

    關鍵詞: 平行語料庫; 詞對齊; 共現(xiàn)矩陣; 相似度函數(shù); 雙語術語抽取

    中圖分類號: TN911?34; TP391.7 文獻標識碼: A 文章編號: 1004?373X(2016)15?0108?04

    Abstract: Since the bilingual terminology extraction system exists the limitation problems of consuming massive manpower, financial resources and material resources while treating with multilingual languages, the bilingual terminology extraction method based on parallel corpus is put forward. The shortcomings of this method are analyzed, and improved with a variety of methods. On the basis of the above, a bilingual terminology extraction system was developed. The similarity function, corpus scale, and the effect of the improved method on terminology extraction results are analyzed with the experiment. The extraction system was put into practical application as a commercial software.

    Keywords: parallel corpus; word alignment; co?occurrence matrix; similarity function; bilingual terminology extraction

    0 引 言

    術語是人類智慧和知識的結晶,包含著豐富的信息,雙語術語自動抽取任務早已引起學術界和工業(yè)界廣泛的關注[1]。同時,隨著全球化進程的推進,各國之間越來越迫切地要求知識和技術的交流,而術語作為知識最核心的載體,其相互翻譯恰恰成為了各國間知識、技術交流的最大障礙之一[2]。所以,實現(xiàn)雙語術語自動抽取,對于雙語術語詞典的構建和跨語言檢索都有重要的意義。

    本文介紹了用基于相似度函數(shù)的方法生成對齊詞典的過程并分析其不足之處,融合了多種方法提高雙語術語抽取的準確率,在此基礎上開發(fā)了一個雙語術語抽取系統(tǒng)并做了三方面的實驗:不同的相似度函數(shù)對最后抽取結果的影響、不同的語料規(guī)模對最后抽取結果的影響以及改進方法對雙語術語抽取準確率的影響。

    1 基于相似度函數(shù)的對齊詞典生成

    1.1 詞典生成的過程

    對齊詞典的生成以雙語平行語料庫為基礎,采用相似度函數(shù)計算雙語中不同詞語之間的關聯(lián)程度,把關聯(lián)程度最強的詞語作為對齊詞典的詞對[3?4]。整個過程主要分為語料預處理、語料編碼、生成對齊矩陣和生成對齊詞典四個步驟。

    1.2 對齊詞典存在的問題及其他對其方式嘗試

    僅僅用源語言中的每個詞(包括抽取出來的候選術語)與目標語言的每個詞(也包括候選術語)進行對齊,取得的效果并不理想,原因主要集中在以下幾個方面:單語術語抽取并不能窮盡所有的術語詞;很多中文多詞術語對應的英文術語只有一個詞;有些中文術語,在英文中根本就沒有固定的翻譯以及通過分析生成的對齊詞典,中文術語與英文單詞的對齊概率總比中文術語與英文多詞術語的對齊概率要高[5?6]。

    基于上述對齊詞典存在的問題,為了讓對齊的效果更好,本文對多種不同的對齊方法進行嘗試,雖然最后的結果不夠理想,不能達到實際應用的目標,但是為找出能夠解決上述問題的方法做了鋪墊。

    基于窗口匹配和相似函數(shù)的方法:經過大量實驗,但結果并不理想,原因包括:共現(xiàn)矩陣太大;處理時間增長;很多正確的但不滿足條件的詞沒能被抽取出來。

    迭代對齊法:該方法通過不斷迭代,直到滿足條件才停止。通過實驗證明結果并不是很好,原因可能是:對齊的方法本身會產生錯誤的結果,而迭代過程對這種誤差也是迭代的,誤差導致錯誤的結果會越來越多,影響下一次需要對齊的詞語。

    2 基于多策略融合的雙語術語抽取方法

    分析導致生成對齊詞典準確率不高的原因,針對不同的問題,提出對應的改進方法。用基于相同原理的統(tǒng)計方法分別抽取單語,最大限度地減少單語術語抽取的不平衡;結合HMM模型的對齊結果和權衡比重的方法增大對齊的準確度。

    2.1 基于Pat Tree的方法分別抽取單語

    Pat Tree是一個特殊的二叉樹結構。它與常規(guī)的二叉樹的主要區(qū)別在于:當某個節(jié)點沒有子節(jié)點時,其左右子樹指針指向自己或者自己的祖先節(jié)點[7]。圖2所示的就是一個Pat Tree。

    Pat Tree是用來高效地表示數(shù)據(jù)的一系列0,1字符串。具體表示為:從根節(jié)點開始遍歷,根據(jù)與字符串中相應的位值選擇下個要遍歷的是當前節(jié)點的左子樹還是右子樹,當對應的位值為“0”時,選擇左子樹;當位值為“1”時,選擇右子樹。在單語術語抽取中,雖然字符串是由漢字或者字母組成,但是任何漢字或者字母在計算機中都是由0,1字符串表示(或者可以說是用十六進制的數(shù)字表示)。所以單語抽取中,漢字或者字母的表示還是用Pat Tree的形式。與基本的Pat Tree工作原理不同的是中間節(jié)點也同樣能夠表示一段文字或者字母。術語抽取的方式主要是根據(jù)詞語出現(xiàn)的頻率來計算的,要滿足這個詞的結合度比有前綴和后綴的結合度都高。統(tǒng)一用該方法分別抽取中文術語和英文術語,從抽取的結果來看,確實降低了不平衡的情況。

    2.2 綜合的術語對齊方法

    GIZA++實現(xiàn)了IBM的5個模型和HMM模型,且其詞對齊有一定的精確度,故使用GIZA++對齊的結果來改善中文多詞術語到單個英語詞上的對齊效果,同時考慮適當提高多詞術語到多詞術語的相似度權重最終完成術語對齊。

    HMM模型的雙向詞對齊結果有兩個比較直觀的文件,分別是中文單詞對應的英文單詞以及對齊概率和英文單詞對應的中文單詞以及對齊概率。把雙向詞對齊結果加入到術語對齊中,由于分詞時中文語料已經完成以源術語為詞典的分詞,只需要考慮源術語與哪一個英文詞的對齊概率最大[8]。設定一個閾值,并把高于閾值的單個英語詞典也抽取出來,作為源術語翻譯的一個候選項。為了用到雙向詞對齊的結果,把中文詞[x]與英文詞[y]的對齊概率定義為:

    3 系統(tǒng)框架及實驗

    雙語術語抽取系統(tǒng)在Windows平臺(Windows 7 Professional)下進行開發(fā),采用標準C++語言。為了改進對齊效果,將開源軟件(GIZA++)生成的actual.ti.final文件作為系統(tǒng)的一個輸入。

    3.1 系統(tǒng)框架

    系統(tǒng)分為4個模塊:語言預處理模塊、單語抽取模塊、對齊詞典生成模塊、術語抽取模塊。

    預處理模塊:對不同的語言是獨立的,輸入是單語語料,輸出是經過預處理之后的語料,主要進行了中文分詞,英文詞形還原,還提供了對語料進行編碼的功能,將原始的用字符表示的語料替換成用數(shù)字表示的語料。

    單語術語抽取模塊:輸入是單語語料,輸出是源語言(中文)術語候選列表或者目標語言(英文)術語候選列表。

    對齊詞典生成模塊:輸入是人工選出的源語言術語、目標語言候選術語、編碼詞典,輸出是對齊詞典,即源語言術語與目標語言候選術語或者目標語言詞語組成的詞對(候選術語對)及它們的相似度值。

    雙語術語抽取模塊:輸入是對齊詞典和HMM模型生成的對齊文件,輸出是最終雙語術語對。

    3.2 仿真實驗

    實驗所用語料是中英雙語平行語料,包括日常交際用語、經濟、政治領域及少量軍事領域的語料,主要集中在經濟和政治領域。一共包含10萬個翻譯句對,不同的中英文詞語共70 855個,其中中文詞語43 924個,英文詞語26 931個。

    4 結 論

    本文詳細介紹了用相似度函數(shù)的方法生成雙語對齊詞典的過程,分析了該方法生成對齊詞典存在的問題。為了提高雙語術語抽取的準確率,融合了多種方法進行改進,以此為基礎開發(fā)了一個雙語術語抽取系統(tǒng),通過實驗對不同因素的影響進行了考察:不同的相似度函數(shù)、不同的語料規(guī)模以及融合了多種方法后對雙語術語抽取準確率的影響。在未來的工作中,可以采取一些啟發(fā)式信息來改善詞對齊,從而進一步提高雙語術語抽取的準確率。

    參考文獻

    [1] 李秀英.基于歷史典籍雙語平行語料庫的術語對齊研究[D].大連:大連理工大學,2010.

    [2] 姚振軍,鄭旭紅,徐鵬濤.基于本體的雙語平行語料庫的構建研究[J].語言教育,2014(1):29?36.

    [3] 孫茂松,李莉,劉知遠.面向中英平行專利的雙語術語自動抽取[J].清華大學學報(自然科學版),2014(10):1339?1343.

    [4] 張莉,劉昱顯.基于語序位置特征的漢英術語對自動抽取研究[J].南京大學學報(自然科學版),2015,51(4):707?713.

    [5] LEFEVER E, MACKEN L, HOSTE V. Language?independent bilingual terminology extraction from a multilingual parallel corpus [C]// Proceedings of 2009 Conference of the European Chapter of the Association for Computational Linguistics. Stroudsburg: ACM, 2009: 496?504.

    [6] LIU F. The construction of China characteristic vocabulary bilingual thesaurus based on parallel corpus [J]. Wireless internet technology, 2015(8): 46?50.

    [7] 湯青,呂學強,李卓,等.領域本體術語抽取研究[J].現(xiàn)代圖書情報技術,2014(1):43?50.

    [8] 李文剛,周杰,楊保群.基于詞典和句長及位置的雙語對齊方法的改進[J].現(xiàn)代電子技術,2011,34(14):25?27.

    徐水县| 司法| 航空| 蓬安县| 武鸣县| 儋州市| 永嘉县| 罗定市| 青河县| 兰州市| 尤溪县| 乳源| 江陵县| 台北市| 宜兴市| 永吉县| 开封县| 同心县| 沧源| 桃江县| 盐源县| 吉木乃县| 富民县| 仙居县| 安康市| 南和县| 香格里拉县| 油尖旺区| 尤溪县| 平度市| 南宁市| 庄浪县| 渝北区| 上高县| 原平市| 凌云县| 莲花县| 章丘市| 淄博市| 桃源县| 手游|