• 
    

    
    

      99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看 ?

      人物簡歷漢維機器翻譯系統(tǒng)的設(shè)計與實現(xiàn)

      2018-12-14 09:05:06王路路斯拉吉艾合麥提·如則麥麥提艾山·吾買爾吐爾根·依布拉音買合木提·買買提卡哈爾江·阿比的熱西提
      現(xiàn)代電子技術(shù) 2018年24期

      王路路 斯拉吉艾合麥提·如則麥麥提 艾山·吾買爾 吐爾根·依布拉音 買合木提·買買提 卡哈爾江·阿比的熱西提

      關(guān)鍵詞: 人物簡歷; 漢維機器翻譯; 模板庫; 命名實體; 正則表達式; 句子結(jié)構(gòu)

      中圖分類號: TN912.3?34; TP391 ? ? ? ? ? ? ? ? 文獻標(biāo)識碼: A ? ? ? ? ? ? ? ? ?文章編號: 1004?373X(2018)24?0101?05

      Design and implementation of Chinese?Uyghur machine translation

      system for personage resumes

      WANG Lulu1,2, Silajiaihemaiti Ruzemaimaiti1,2, Aishan Wumaier1,2, Tuergen Yibulayin1,2,

      Maihemuti Maimaiti1,2, Kahaerjiang Abiderexiti1,2

      (1. School of Information Science and Engineering, Xinjiang University, Urumqi 830046, China;

      2. Xinjiang Laboratory of Multi?Language Information Technology, Urumqi 830046, China)

      Abstract: A Chinese?Uyghur machine translation system based on the combination of templates and dictionaries is designed and implemented for personage resumes to resolve the problems of high cost and low efficiency of translating the Chinese personage resume into the Uyghur version. The named entities are generalized, and the Chinese resume templates are automatically created by analyzing the sentence structure characteristics of Chinese resumes. A Chinese?Uyghur template library is established by using regular expressions. The named entities are translated by combining with the method based on rules and dictionaries, so as to obtain the Uyghur personage resumes. The experimental results show that the system uses limited templates and dictionaries in the monolingual situation, its BLUE value can reach 0.38, and in comparison with the machine translation systems that require large?scale bilingual corpora training, the system has a better practical application value.

      Keywords: personage resume; Chinese?Uyghur machine translation; template library; named entity; regular expression; sentence structure

      0 ?引 ?言

      新疆是多民族人民聚居區(qū)域,使用的語言主要有漢語、維吾爾語和哈薩克語等。其中維吾爾語和哈薩克語屬于黏著語,與漢語屬于不同語系?;ヂ?lián)網(wǎng)上的各界人物簡歷頻頻出現(xiàn),林娜等分析研究了簡歷受限漢語使用機器翻譯的重要性,而維吾爾語版本的人物簡歷不能實時地翻譯,如果人工翻譯,將會造成成本高、效率低,所以研究人物簡歷的漢維機器翻譯具有重大的研究意義[1]。機器翻譯是指使用機器自動地將一種自然語言轉(zhuǎn)化為具有完全相同語義的另一種自然語言的過程[2]。機器翻譯可以分為基于規(guī)則的機器翻譯[3]和基于語料庫的機器翻譯,其中基于語料庫的機器翻譯分為基于記憶的機器翻譯[4]、基于實例的機器翻譯[5?6],基于模板的機器翻譯[7?8]、基于統(tǒng)計的機器翻譯[9?10]和基于神經(jīng)網(wǎng)絡(luò)的機器翻譯[11?13]等方法。國內(nèi)外對機器翻譯研究從未止步,機器翻譯在漢語、英語、法語等語料資源龐大的語種上的研究頗多;但是,在維吾爾語等語料資源匱乏的語種中研究仍然相對較少,還沒出現(xiàn)有關(guān)漢語?維吾爾語的人物簡歷翻譯系統(tǒng)的研究報道。本文針對人物簡歷的漢維機器翻譯問題,以體壇人物的簡歷為研究對象,提出了基于詞典與模板相結(jié)合的方法實現(xiàn)了人物簡歷漢維機器翻譯系統(tǒng)。首先采集并分析中文的簡歷信息,并對命名實體進行統(tǒng)計;然后構(gòu)建漢維時間表達式規(guī)則庫和模板庫,采用基于模板的方法實現(xiàn)人物簡歷的機器翻譯。

      1 ?人物簡歷漢維翻譯系統(tǒng)的設(shè)計與實現(xiàn)

      1.1 ?系統(tǒng)開發(fā)與運行環(huán)境

      本文使用3.2 GHz的CPU,10 GB的運行內(nèi)存的硬件環(huán)境;軟件環(huán)境主要是Windows 10操作系統(tǒng)以及其自帶的IIS服務(wù)器、SQL Server 2014數(shù)據(jù)庫管理系統(tǒng),并使用實體框架(Entity Framework,EF)的相關(guān)技術(shù)進行開發(fā),其中EF是一個對象/關(guān)系映射框架,支持3種開發(fā)模式,分別是數(shù)據(jù)庫優(yōu)先、模型優(yōu)先、代碼優(yōu)先。

      1.2 ?系統(tǒng)的功能結(jié)構(gòu)

      人物簡歷漢維機器翻譯系統(tǒng)的功能結(jié)構(gòu)分為數(shù)據(jù)采集與分析模塊、數(shù)據(jù)管理模塊、翻譯模塊三大模塊。數(shù)據(jù)采集與分析模塊主要包含爬蟲、分詞、抽取命名實體、統(tǒng)計等功能;數(shù)據(jù)管理模塊包含后臺用戶管理、詞典管理、詞匯統(tǒng)計、系統(tǒng)日志管理等功能;翻譯模塊包括基于模板的翻譯和基于詞典的翻譯等功能。系統(tǒng)功能結(jié)構(gòu)如圖1所示。

      1.2.1 ?數(shù)據(jù)采集與分析模塊

      數(shù)據(jù)采集與分析主要包括爬蟲、解析及抽取、中文分詞、命名實體識別、構(gòu)建漢維雙語命名實體詞典。本文從百度百科中爬蟲獲取體壇明星的簡歷信息網(wǎng)頁,采用正則表達式解析匹配HTML標(biāo)簽,抽取體壇任務(wù)的姓名、基本情況、重要經(jīng)歷;并使用可加入自定義詞典的開源工具jieba分詞進行中文分詞。

      簡歷存在諸多的命名實體,而這些命名實體部分可能是機器翻譯的未登錄詞,如果直接通過機器自動翻譯成維語,在詞法、句法結(jié)構(gòu)等層面上存在諸多的不利因素,很難實現(xiàn)高質(zhì)量的漢維機器翻譯。若解決上述問題,首先建立特定領(lǐng)域(人物簡歷)中各種命名實體的詞典,然后建立命名實體漢維雙語語料庫。

      為了構(gòu)建漢維雙語命名實體雙語語料庫,本文首先采用玻森中文語義開放平臺(BosonNLP) 以及哈工大的語言技術(shù)平臺(LTP)分別針對人名、地名、組織機構(gòu)名(例如:運動隊)、職業(yè)名(例如:職業(yè)籃球運動員)等實體進行識別并收集。

      1.2.2 ?數(shù)據(jù)管理模塊

      數(shù)據(jù)管理模塊主要包含用戶管理、詞典管理、詞匯統(tǒng)計、日志與反饋。其中詞典管理中包括待翻譯詞的詞典管理和已翻譯詞的詞典管理;詞匯統(tǒng)計主要是針對命名實體中人名、機構(gòu)名、地名等數(shù)據(jù)進行統(tǒng)計并以餅狀圖進行顯示;日志與反饋主要針對系統(tǒng)的日志文件和用戶反饋意見進行管理。

      1.2.3 ?翻譯模塊

      1) 簡歷分析

      本文通過對體壇人物基本簡歷的分析研究,發(fā)現(xiàn)簡歷信息中主要包含個人的基本信息和其運動生涯經(jīng)歷兩個部分。其中個人基本信息主要包括:姓名、性別、出生日期、出生地、職業(yè)、工作單位等基本信息;運動生涯經(jīng)歷主要是何年獲得了何種獎項或者何年入選/加盟哪個運動隊。這些信息是相互獨立的并不需要通過與上下文的語義結(jié)構(gòu)和語境結(jié)合來進行翻譯。

      通過對簡歷的詞按照詞性進行詞頻統(tǒng)計,發(fā)現(xiàn)名詞出現(xiàn)頻率最高,主要包括:人名、地名和職業(yè)名等。除此之外,時間性詞語與動詞也有較高的出現(xiàn)幾率,如:xxx年xx月xx日;參加、入選、奪得、加盟等。因此本文通過結(jié)合領(lǐng)域知識和規(guī)則模板,建立了人物簡歷模板和時間日期模板,通過模板匹配方法實現(xiàn)體壇人物簡歷的漢維機器翻譯。

      2) 時間日期的抽取研究

      簡歷信息中往往包含大量的時間日期信息,如何實現(xiàn)對時間日期的正確翻譯具有重要研究意義。通過對人物簡歷進行分析,發(fā)現(xiàn)規(guī)范的任務(wù)簡歷文本中通常采用絕對時間日期,如“2017年1月15日,獲得2016年CCTV體壇風(fēng)云人物最佳女運動員”。因此,本文采用正則表達式創(chuàng)建漢語?維吾爾語時間表達式,從而構(gòu)建漢維時間表達式規(guī)則庫,漢維時間表達式的實例規(guī)則見表1。

      時間表達式的識別與翻譯流程如圖2所示。

      3) 簡歷模板的抽取及翻譯研究

      所謂的模板可以認(rèn)為是一種顆粒度介于“翻譯規(guī)則”和“翻譯實例”之間的翻譯知識表示形式,基于模板的方法實際上是基于實例翻譯方法的延伸。模板是由變量和常量組成的字符串,兩種語言的翻譯模板中變量存在意義上的對應(yīng)關(guān)系。如簡歷中專有名詞如人名(RM)、地名(DM)、機構(gòu)名(JGM)、職業(yè)名(ZHY)、賽事名(SSH)等可以視作變量。因此本文首先泛化(符號化)專有名詞,自動獲取句子模板;然后針對符號化后的字符串進行相似性對比處理,建立適用于簡歷翻譯的漢維模板庫。

      具有規(guī)則性的漢維模板庫如表2所示。

      首先對待翻譯的簡歷文本進行預(yù)處理,即分句、分詞,采用上文的符號化方法將文本進行泛化,然后對泛化后的字符串進行模板匹配。判斷模板是否匹配成功,如果成功匹配,直接返回翻譯結(jié)果,否則按詞典來翻譯。其中模板匹配使用長度優(yōu)先匹配算法,即模板長度決定匹配優(yōu)先級的高低。翻譯流程如圖3所示。

      2 ?系統(tǒng)數(shù)據(jù)庫設(shè)計

      系統(tǒng)主要包括用戶、詞典、待翻譯詞典、日志、反饋與意見5個表。其中詞典表主要保存已翻譯的命名實體或者其他專有名詞,待翻譯詞典表主要保存使用者翻譯和查詢的過程中系統(tǒng)中沒有翻譯或者查詢不到的專有名詞,如表3、表4所示。

      3 ?實驗結(jié)果與分析

      本文構(gòu)建人物簡歷中使用于主要經(jīng)歷的模板102對,時間日期模板15對,然后按照不同運動項目類型總計隨機抽取了50個運動員的簡歷作為測試集,總計是968條句子,每個測試句子僅有一個參考譯文。為評價人物簡歷的翻譯性能,本文以BLUE值作為評測指標(biāo)。實驗結(jié)果如表5所示。

      由表5可看出,本文的方法BLUE達到0.386 4,說明該系統(tǒng)在中文單語以及沒有訓(xùn)練集的情況下,相比于民族語文翻譯局翻譯系統(tǒng)訓(xùn)練語料規(guī)模在百萬級以上具有一定的可比性。為了充分分析系統(tǒng)的可靠性,本文進一步對翻譯結(jié)果進行分析,在句子與模板匹配時可以對其進行準(zhǔn)確翻譯;然而如果模板庫中不存在與句子匹配的模板,則會丟失部分翻譯結(jié)果。例如:

      待翻譯文本:1957年11月出生于岳普湖縣維吾爾族傳統(tǒng)摔跤繼承人

      泛化結(jié)果:TIME 出生于 DM MZ 傳統(tǒng)摔跤繼承人

      機器翻譯結(jié)果:1957?yili 11?ayda tughulghan uyghur 傳統(tǒng)摔跤繼承人

      正確翻譯結(jié)果:1957?yili 11?ayda tughulghan uyghur eneniwiy chilishish warisi

      由上可知,錯誤原因是模板庫中未存在泛化后的模板,導(dǎo)致無法匹配模板,只能通過詞典翻譯部分內(nèi)容,從而使得翻譯結(jié)果不完整甚至錯誤。

      4 ?結(jié) ?語

      本文研究體壇領(lǐng)域的人物簡歷漢維機器翻譯問題,采用一種基于模板與詞典的機器翻譯方法,建立命名實體翻譯等價對,構(gòu)建翻譯模板庫,最終實現(xiàn)人物簡歷的漢維機器翻譯系統(tǒng)。由于模板庫存在局限性、維吾爾語語料規(guī)模較小以及維吾爾語的黏著性等特征,翻譯結(jié)果尚存在不足,在未來的工作中,會對進一步的研究工作繼續(xù)改進。

      注:本文通訊作者為艾山·吾買爾。

      參考文獻

      [1] 林娜,唐躍勤,黎斌.談受限漢語在機器翻譯中的運用:以中文簡歷英譯為例[J].西南交通大學(xué)學(xué)報(社會科學(xué)版),2012,13(5):49?53.

      LIN N, TANG Yueqin, LI Bin. Machine translation and restricted Chinese: a case study of translating Chinese resume into English [J]. Journal of Southwest Jiaotong University (Social sciences), 2012, 13(5): 49?53.

      [2] 菲利普·科恩.統(tǒng)計機器翻譯[M].宗成慶,張霄軍,譯.北京:電子工業(yè)出版社,2012.

      KOEHN P. Statistical machine translation [M]. ZONG Chengqing, ZHANG Xiaojun, translation. Beijing: Publishing House of Electronics Industry, 2012.

      [3] 如克燕木·吾斯曼江,買熱哈巴·艾力,吐爾根·依布拉音.基于規(guī)則的維吾爾語、哈薩克語機器翻譯[J].新疆大學(xué)學(xué)報(自然科學(xué)版),2016,33(3):338?342.

      Rukeyanmu Wusimanjiang, Maierhaba Aili, Tuergen Yibulayin. The rule?based Uygur Kazak machine translation [J]. Journal of Xinjiang University (Natural science edition), 2016, 33(3): 338?342.

      [4] 解倩倩,艾山·吾買爾,吐爾根·依布拉音,等.混合策略的漢維輔助翻譯系統(tǒng)的設(shè)計與實現(xiàn)[J].現(xiàn)代電子技術(shù),2017,40(20):5?9.

      XIE Qianaian, Aishan Wumaier, Tuergen Yibulayin, et al. Design and implementation of Chinese and Uyghur computer?aided translation system based on hybrid strategy [J]. Modern electronics technique, 2017, 40(20): 5?9.

      [5] ZHOU M, HUANG J X, HUANG C N, et al. Example based machine translation system: 7353165 [P]. 2008?04?01.

      [6] 卡哈爾江·阿比的熱西提.基于實例的漢維?維漢雙向機器翻譯系統(tǒng)的研究[D].上海:上海交通大學(xué),2012.

      Kahaerjiang Abiderexiti. Research on an example?based Chinese?Uyghur and Uyghur?Chinese bidirectional machine translation system [D]. Shanghai: Shanghai Jiao Tong University, 2012.

      [7] 張冬梅,劉小蝶,晉耀紅.基于模板的漢英專利機器翻譯研究[J].計算機應(yīng)用研究,2013,30(7):2044?2046.

      ZHANG Dongmei, LIU Xiaodie, JIN Yaohong. Chinese?English patent machine translation based on templates [J]. Application research of computers, 2013, 30(7): 2044?2046.

      [8] 史建國.基于模板的斯拉夫蒙古文—漢文機器翻譯系統(tǒng)的研究與實現(xiàn)[D].呼和浩特:內(nèi)蒙古大學(xué),2013.

      SHI Jianguo. Research and implementation of Slavic Mongolian?Chinese machine translation system based on template [D]. Hohhot: Inner Mongolia University, 2013.

      [9] 徐春,楊勇,董興華.漢維/維漢統(tǒng)計機器翻譯中若干問題研究[J].計算機工程與應(yīng)用,2011,47(35):150?154.

      XU Chun, YANG Yong, DONG Xinghua. Research on aspects of statistical machine translation between Chinese and Uyghur [J]. Computer engineering and applications, 2011, 47(35): 150?154.

      [10] BROWN P F, COCKE J, PIETRA S A D, et al. A statistical approach to machine translation [J]. Computational linguistics, 2002, 16(2): 79?85.

      [11] CHO K, MERRI?NBOER B V, GULCEHRE C, et al. Learning phrase representations using RNN encoder?decoder for statistical machine translation [J/OL]. [2014?09?03]. https://arxiv.org/pdf/1406.1078.pdf.

      [12] SUTSKEVER I, VINYALS O, LE Q V. Sequence to sequence learning with neural networks [J/OL]. [2014?12?14]. https://arxiv.org/pdf/1409.3215.pdf.

      [13] WU Y, SCHUSTER M, CHEN Z, et al. Google′s neural machine translation system: bridging the gap between human and machine translation [J/OL]. [2016?10?08]. https://arxiv.org/pdf/1609.08144.pdf.

      广河县| 上饶市| 资源县| 濉溪县| 镇坪县| 原平市| 江北区| 新宁县| 股票| 青岛市| 西安市| 巨鹿县| 永靖县| 延吉市| 屏东市| 磐石市| 龙口市| 班玛县| 胶州市| 通河县| 清徐县| 福州市| 光山县| 高平市| 瑞安市| 绥江县| 永善县| 漯河市| 通江县| 长沙县| 阳江市| 福清市| 和林格尔县| 邯郸市| 关岭| 天长市| 毕节市| 南开区| 江口县| 平昌县| 疏勒县|