• 
    

    
    

      99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看 ?

      英漢機器翻譯中的短語自動識別算法

      2017-09-04 13:06:25朱麗秋
      現(xiàn)代電子技術 2017年15期

      朱麗秋

      摘 要: 為了準確識別短語,設計了一種英漢機器翻譯短語自動識別新算法。首先構建標記規(guī)模約為58萬個英漢單詞的短語語料庫,為短語賦予基本的可搜索功能,保證翻譯真實度;然后以短語中心點構造短語結構,改進標準GLR算法,在短語語料庫的短語標記上識別短語詞性,得到詞性識別結果;最后通過解析線性表的句法功能校正詞性識別結果中的英漢結構歧義,得到最終的識別結果。實驗組織測評小組以打分方式對所設計的算法進行測評,測評結果證明算法的短語識別精度、識別速度和更新能力均很優(yōu)秀。

      關鍵詞: 英漢機器翻譯; 短語自動識別; GLR算法; 詞性識別

      中圖分類號: TN99?34; TP391.2 文獻標識碼: A 文章編號: 1004?373X(2017)15?0126?03

      Abstract: In order to identify the phrases accurately, a new phrase automatic identification algorithm for English?Chinese machine translation was designed. The phrase corpus with about 580 000 English?Chinese words was constructed to give the basic search function of the phrase, and guarantee the truth translation. The phrase is taken as the center point to construct the phrase structure. The standard GLR algorithm is improved. The phrase speech is recognized on the phrase marker of the phrase corpus to obtain the speech recognition results. The syntax function of the linear list is parsed to correct the English?Chinese structural ambiguity in the speech recognition results, and obtain the final recognition result. The algorithm was evaluated by the experimental group assessment team in the form of scoring. The evaluation results prove that the algorithm has high phrase recognition accuracy, fast recognition speed, and strong update ability.

      Keywords: English?Chinese machine translation; phrase automatic recognition; GLR algorithm; speech recognition

      0 引 言

      短語中蘊含的語義往往是一段語句的重點釋義內容,短語自動識別是語言識別范疇內的一項重要課題,其作用是從語句中采集短語進行翻譯和自動組合,進而得到整段語句的翻譯。短語的自動識別結果在機器翻譯中被廣泛使用,能實現(xiàn)平行語料的精確對齊和翻譯樣本的選調。在英漢機器翻譯中,英語與漢語的語法存在高度歧義,語句分析任務異常艱巨,而短語自動識別對語法歧義具有定向消除能力,可以說,英漢機器翻譯離不開短語自動識別。

      結構歧義是英漢語法歧義中最復雜的一項[1],不可避免地成為目前短語自動識別算法的重要設計內容。在很多短語自動識別算法中,一些在人工翻譯中極為簡單的結構卻無法得到準確識別,測評結果得分高的英漢機器翻譯短語自動識別算法非常少,因此,設計一種新算法,用短語在語句中的句法功能來決定翻譯結果中的位置排列范圍。

      1 英漢機器翻譯中短語自動識別算法

      1.1 短語語料庫的構建

      語料庫是以計算機為載體存放語言材料的數(shù)據(jù)庫,構建短語語料庫的作用是對英漢雙語中的短語詞性進行標記,為短語賦予基礎功能,提升英漢機器翻譯短語自動識別算法對識別任務的搜索精度和效率[2]。短語語料庫的性能直接決定著算法的測評分數(shù),可采取加大標記范圍等方式提高算法測評分數(shù)。表1對算法的短語語料庫信息進行了描述。

      短語語料庫的標記規(guī)模約為58萬個英漢單詞,大致能構造出2萬段語句、1萬個短語,而普通的短語語料庫僅能構造1萬段語句。如表1所示,短語語料庫充分考慮了語料的應用領域和體制,可對日常交際、商務、科技和機械領域的各類溝通進行英漢互譯。語料標記方式依次采用數(shù)據(jù)、層次和加工方式,以文本格式進行短語定義,識別短句詞性以完成語句對齊,使用人機自主溝通進行英漢翻譯語句的去重和校準[2],保證短語語料翻譯的真實程度。下面舉例說明短語預料庫的具體應用。

      原語句:I know you are a machine factory of physics facilities.

      詞性標記:I / Verb know / INC you/ PRP are / NNS a / VBP machine / VBP factory / NNS of / INP physics / JJ facilities / NNS./

      1.2 短語語料庫詞性識別

      詞性識別是英漢機器翻譯短語自動識別算法的一項重要處理步驟,適用于大規(guī)模語句、短語和單詞的語法歧義排除[3]。在短語預料庫的詞性標記下,語句被分成若干個單詞,單詞進行對齊后組成短語,經(jīng)詞性識別后在短語中寫入依存關系,形成句法樹[4],一方面縮減了英漢機器翻譯任務;另一方面有利于提高短語語料庫的處理效率。

      GLR(Generalized maximum likelihood ratio,狹義最大似然比檢測)算法是詞性識別的基礎算法,為一個分辨短語上下文似然性的過程,其基礎識別理論是動態(tài)識別表單和無條件轉移語句。標準GLR算法中的任何一個處理步驟都擁有多種移位指令和精簡操作,步驟的開始和結束以特殊標志表示[5]。在英漢短語翻譯不存在語法歧義時,GLR算法直接進入去重和校準,一旦碰到語法歧義,通過句法的幾何結構線性表調取解析線性表,對短語動作進行識別,給出所有可能正確的動作安置結果,存入不同的識別通道中進行符號識別,由符號識別給出最佳動作安置結果。

      標準GLR算法給出的識別結果數(shù)量是不確定的,不同識別結果中有可能存在數(shù)據(jù)點重合,識別精度普遍偏低。在所設計的英漢機器翻譯短語自動識別算法中,對標準GLR算法進行改進,以短語中心點構造短語結構,提高識別精度。

      改進GLR算法以四元集群表示短語上下文的似然性:

      設是中的任意動作且同時存在于中,有:

      式中:依次表示動作右側符號、中心點符號、約束值和標記方式,和同時位于與中[7],可位于中,也可位于中。

      改進GLR算法要求識別結果線性表最高層出現(xiàn)的符號與始終保持一致,約束值必須為真,中心點符號不能為空值。同時滿足以上三點要求的識別結果為短語詞性識別結果。

      1.3 英漢機器翻譯短語自動識別算法校正流程

      在以往的英漢機器翻譯短語自動識別算法中,短語語料庫的詞性識別結果即為最終結果,但詞性識別并沒有改善英漢語言之間的結構歧義[8],對詞性識別結果進行校正是必不可少的。GLR算法中利用解析線性表對短語動作進行識別,除此之外,解析線性表還具備另一項功能,即句法功能識別,其以推進、歸約、接受、終止、出錯為指針分析詞性識別結果中的錯誤點,通過搜索短語語料庫中的短語標記內容對錯誤點進行校正[9],圖1為英漢機器翻譯短語自動識別算法校正流程圖。

      如圖1所示,歸約與推進指令的作用非常類似,都要求重新替換解析線性表中的終止符位置,但在意義上存在本質區(qū)別。歸約是指重新制定句法功能識別約束條件,表示前一個約束條件無效或循環(huán)過程出現(xiàn)錯誤。推進是指在本次句法功能識別中不存在結構歧義的錯誤點,位于終止符前方的短語詞性識別結果是正確的,應調取接受指針輸出留用。接受指針和推進指針在正常情況下是同時出現(xiàn)的,若算法流程中只存在二者之一,表明循環(huán)出錯或算法設定出錯,應重新調出解析線性表,收回已接受的詞性識別結果。在替換終止符之前,對指針類型進行檢測,如果為歸約指針,檢測指針的約束條件能否在短語語料庫中搜索到,若搜索不到,進入終止指針。

      終止指針產(chǎn)生于有可能存在結構歧義的預備點上,出現(xiàn)終止指針后,算法構造短語結構樹,標記符號棧,分析預備點的中心點符號是否存在且安置在正確的語句結構上,若不存在或安置錯誤,算法立即調取出錯指針校正詞性的識別結果。

      整個算法校正流程存在多個短語識別輸出口,而一個接受指針單次只能輸出一個識別結果,當發(fā)生多個識別結果需要同時輸出的情況時(如兩個短語在語句中的位置是相鄰的),將多個識別結果寫入短語結構樹的同一個節(jié)點中,這時接受指針會自動將其視為一個識別結果。

      2 實驗測評

      2.1 測評方法

      實驗組織了測評小組,對本文設計的英文機器翻譯短語自動識別算法性能進行測評,包括短語識別精度、識別速度和更新能力。測評小組包含3臺英漢機器翻譯、2名英漢翻譯人員和2名打分人員。3臺英漢機器翻譯的規(guī)格相同,初始化后分別裝備本文算法、統(tǒng)計算法和動態(tài)記憶算法。

      測評方法使用封閉測評和開發(fā)測評。封閉測評是指對特定英漢翻譯語句中的短語進行自動識別;開發(fā)測評中的英漢翻譯語句由網(wǎng)絡隨機挑選[10]。通過三種短語自動識別算法識別并給出翻譯結果后,2名英漢翻譯人員以交流方式進行翻譯,打分人員對比機器翻譯與人工翻譯,按照打分規(guī)則為三種算法打分,打分規(guī)則如下:

      (1) 算法的識別精度、識別速度和更新能力的分數(shù)分別占總分的90%,5%,5%。

      (2) 識別精度打分規(guī)則(不考慮錯別字)如下:

      100分:翻譯結構意義表達完全準確,語法結構無需修改;

      80分:整體釋義表述清晰,存在微小的語法結構錯誤,必要時應進行簡單修改;

      60分:整體釋義表述清晰,存在多處語法結構錯誤,必須進行修改,否則意義表述存在歧義;

      40分:部分釋義表述清晰,短語釋義無明顯錯誤,整體釋義不連貫;

      20分:整體和部分釋義均很混亂,短語釋義存在明顯錯誤;

      0分:整體和部分釋義均很混亂,不知所云。

      (3) 識別速度和更新能力的打分規(guī)則使用加權平均值法,即將算法的總識別時間和總更新時間乘以權值后進行求和,再除以短語識別數(shù)量。

      2.2 測評結果

      實驗分別在封閉測評和開發(fā)測評中進行了60個語句的短語識別,三種算法的測評結果見表2~表4,測評結果得分最高的是本文算法,平均為92.3分,最低的是統(tǒng)計算法,為75.1分。動態(tài)記憶算法的測評結果得分為91.2分,與本文算法的得分相差不大,但動態(tài)記憶算法的更新能力嚴重不足,從長遠角度來看,本文算法更具實用價值。

      3 結 論

      基于改進的GLR算法和解析線性表設計的英漢機器翻譯短語自動識別算法改進了標準GLR算法識別結果精度低的缺陷,又以解析線性表對短語的詞性和結構進行識別,給出短語在語句中最為正確的安置位置。整個算法的計算簡便、解析難度低,并且短語識別精度高、識別速度快、更新能力強,同以往設計的短語自動識別算法相比,本文算法的優(yōu)勢突出,實用性強。

      參考文獻

      [1] 李英軍.機器翻譯與翻譯技術研究的現(xiàn)狀與展望:伯納德馬克沙特爾沃思訪談錄[J].中國科技翻譯,2014,27(1):24?27.

      [2] 李強,何燕龍,欒爽,等.統(tǒng)計機器翻譯刪詞問題研究[J].中文信息學報,2014,28(5):125?132.

      [3] 楊憲澤,陳毅紅.漢藏機器翻譯的特點與手寫漢字切分分析研究[J].計算機工程與科學,2014,36(8):1595?1598.

      [4] 蘇晨,張玉潔,郭振,等.使用源語言復述知識改善統(tǒng)計機器翻譯性能[J].北京大學學報(自然科學版),2015,51(2):342?348.

      [5] 李強,李沐,張冬冬,等.統(tǒng)計機器翻譯中實例短語對研究[J].北京大學學報(自然科學版),2016,52(1):113?119.

      [6] 尤勝.基于異構技術的數(shù)字圖書館信息統(tǒng)計平臺[J].現(xiàn)代電子技術,2016,39(7):167?170.

      [7] 孟凡軍,李天偉,徐冠雷,等.基于K均值聚類算法的霧天識別方法研究[J].現(xiàn)代電子技術,2015,38(22):80?83.

      [8] 崔啟亮,李聞.譯后編輯錯誤類型研究:基于科技文本英漢機器翻譯[J].中國科技翻譯,2015,28(4):19?22.

      [9] 應玉龍,項明.局部相位量化特征的織物瑕疵檢測算法[J].西安工程大學學報,2015,29(5):541?545.

      [10] 汪昆,宗成慶,蘇克毅.統(tǒng)計機器翻譯和翻譯記憶的動態(tài)融合方法研究[J].中文信息學報,2015,29(2):87?94.

      依兰县| 樟树市| 新疆| 简阳市| 乌兰县| 东阳市| 双流县| 都兰县| 修文县| 板桥市| 鄂托克旗| 横峰县| 栖霞市| 辉县市| 建昌县| 平陆县| 清苑县| 吐鲁番市| 巴楚县| 灵台县| 水城县| 双辽市| 侯马市| 桃园市| 和平县| 龙口市| 河曲县| 阳原县| 大理市| 洞口县| 五台县| 淅川县| 阿克| 宾阳县| 仪征市| 华阴市| 南昌县| 措美县| 会同县| 行唐县| 武汉市|