• 
    

    
    

      99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看 ?

      基于詞向量的句子相似度計(jì)算及其應(yīng)用研究

      2016-04-12 00:00:00郭勝?lài)?guó)邢丹丹
      現(xiàn)代電子技術(shù) 2016年13期

      摘 要: 目前計(jì)算機(jī)輔助翻譯在相似度計(jì)算方面存在很大的局限性,精度較低。針對(duì)特定領(lǐng)域,收集領(lǐng)域相關(guān)的訓(xùn)練語(yǔ)料,采用Google的word2vec進(jìn)行英語(yǔ)和漢語(yǔ)的詞向量模型構(gòu)建,設(shè)計(jì)并實(shí)現(xiàn)漢語(yǔ)句子的相似度計(jì)算方法,提出基于詞向量Jaccard相似度與基于詞向量依存句法相結(jié)合的相似度計(jì)算方法,實(shí)驗(yàn)結(jié)果顯示其效果比傳統(tǒng)方法有較大提升。最后,將相關(guān)英漢句子相似度算法以接口的形式封裝,作為商品化軟件華建IAT系統(tǒng)的相似度計(jì)算模塊投入實(shí)際應(yīng)用。

      關(guān)鍵詞: 計(jì)算機(jī)輔助翻譯; 相似度計(jì)算; 詞向量; IAT系統(tǒng)

      中圖分類(lèi)號(hào): TN711?34; TM417 文獻(xiàn)標(biāo)識(shí)碼: A 文章編號(hào): 1004?373X(2016)13?0099?04

      Abstract: Currently, the computer aided translation has great limitation on similarity calculation, and its accuracy is low. For the specific field, the training corpus about the field was collected, and the word vector model of English and Chinese was constructed by using word2vec developed by Google to design and implement the similarity calculation method of Chinese sentences. The similarity calculation method of combining word vector Jaccard similarity with word vector dependent syntax is proposed. The experiment results show that effect of the proposed method has more improvement than that of the traditional method. The similarity algorithm of relevant English and Chinese sentences is packaged by means of interface form. The similarity calculation module of Huajian IAT system was put into practical application as a commodity software.

      Keywords: computer aided translation; similarity calculation; word vector; IAT system

      近年來(lái),機(jī)器翻譯的需求量越來(lái)越大。從學(xué)術(shù)文獻(xiàn)翻譯到搜索引擎跨語(yǔ)言檢索,機(jī)器翻譯都呈現(xiàn)出巨大的需求空間。但是傳統(tǒng)的機(jī)器翻譯一直都存在較大的問(wèn)題,就是準(zhǔn)確率過(guò)低。通過(guò)前期調(diào)查,現(xiàn)有的機(jī)器翻譯無(wú)法滿(mǎn)足實(shí)際需求,同時(shí)隨著 “大數(shù)據(jù)”時(shí)代的到來(lái),越來(lái)越多的學(xué)者將目光轉(zhuǎn)向了計(jì)算機(jī)輔助翻譯[1?2]。

      計(jì)算機(jī)的翻譯結(jié)果僅僅作為一個(gè)輔助性的參考,最終的結(jié)果由使用者根據(jù)候選結(jié)果的好壞進(jìn)行修改取舍,實(shí)例語(yǔ)料庫(kù)可以結(jié)合具體領(lǐng)域進(jìn)行分門(mén)別類(lèi)的應(yīng)用,使得其翻譯效果進(jìn)一步提升,從而更加契合用戶(hù)的需要。由于領(lǐng)域性的差異,尤其是專(zhuān)業(yè)術(shù)語(yǔ)較多的時(shí)候,這一優(yōu)點(diǎn)在特定領(lǐng)域的翻譯中顯得更加突出[3]。

      1 計(jì)算機(jī)輔助翻譯及句子相似度計(jì)算

      1.1 計(jì)算機(jī)輔助翻譯技術(shù)

      計(jì)算機(jī)輔助翻譯系統(tǒng)涉及到的技術(shù)構(gòu)成如圖1所示。在翻譯系統(tǒng)的整體構(gòu)成上,相似度計(jì)算模塊是計(jì)算機(jī)輔助系統(tǒng)的核心部分[4]。它主要完成輸入句子與翻譯記憶庫(kù)的匹配并為用戶(hù)提供參考功能。而翻譯記憶庫(kù)則是計(jì)算機(jī)輔助翻譯的基礎(chǔ)構(gòu)成,它主要用來(lái)對(duì)已翻譯的句子進(jìn)行存儲(chǔ)和檢索。

      2 基于詞向量的句子相似度計(jì)算算法

      2.1 英語(yǔ)句子相似度計(jì)算算法設(shè)計(jì)

      在進(jìn)行改進(jìn)的華建IAT系統(tǒng)上,英語(yǔ)句子的原相似度計(jì)算算法是基于共現(xiàn)詞匯相似度即Jaccard相似度和編輯距離相結(jié)合的方式設(shè)計(jì)的[6]。將詞向量引入到相似度計(jì)算上,本文設(shè)計(jì)的英語(yǔ)相似度計(jì)算算法由兩部分構(gòu)成:基于詞向量的Jaccard相似度計(jì)算算法;基于詞向量和編輯距離的相似度計(jì)算算法。

      2.1.1 基于詞向量的Jaccard相似度計(jì)算算法

      式(5)中用來(lái)計(jì)算兩個(gè)詞對(duì)應(yīng)的詞向量和的余弦相似度,即為詞向量的維度。式(6)中,分別是用戶(hù)當(dāng)前輸入的句子和系統(tǒng)從翻譯記憶庫(kù)中檢索到的句子。是計(jì)算句子中所有詞對(duì)應(yīng)的詞向量與對(duì)應(yīng)的詞向量的余弦相似度中的最大值。參數(shù)用來(lái)調(diào)整兩個(gè)詞向量之間余弦相似度的放大系數(shù),因?yàn)楦鶕?jù)不同語(yǔ)料訓(xùn)練出來(lái)的詞向量模型是不同的,其計(jì)算結(jié)果也就會(huì)有一定的浮動(dòng),可以根據(jù)得到的詞向量的不同進(jìn)行設(shè)定調(diào)整。為了防止放大系數(shù)的放大效果超出實(shí)際表示范圍[-1,1],所以對(duì)其最大值進(jìn)行了門(mén)限設(shè)置。

      基于詞向量的Jaccard相似度計(jì)算和基于語(yǔ)義詞典的Jaccard相似度計(jì)算有異曲同工之處,但前者表示的語(yǔ)義范圍要遠(yuǎn)超過(guò)語(yǔ)義詞典的表示范圍,比如“worker”和“work”之間在WordNet中是找不到其語(yǔ)義關(guān)系的,但是在詞向量中,其余弦相似度達(dá)到0.452之多,而這在語(yǔ)義詞典中是很少有做到的。其他諸如語(yǔ)義詞典的不可擴(kuò)展性等弊病在詞向量中是不存在的,這也是詞向量的優(yōu)勢(shì)所在。

      2.1.2 基于詞向量和編輯距離的相似度算法

      2.1.3 綜合相似度計(jì)算

      對(duì)于英語(yǔ)相似度計(jì)算主要由以下兩部分構(gòu)成[8?9]:基于詞向量的Jaccard相似度主要考量了相關(guān)詞匯的共現(xiàn)程度,其中既有表層的相似度又有詞義的相似度;而基于詞向量的編輯距離不僅考慮了詞匯本身的語(yǔ)義、語(yǔ)境相關(guān)性,還考量了句子結(jié)構(gòu)的相似性[10]。所以,盡管算法構(gòu)成上比較簡(jiǎn)單,但是包含的相似度計(jì)算因素是多樣的,綜合兩種算法的優(yōu)勢(shì),將其加權(quán)求和構(gòu)成英語(yǔ)句子最終的相似度計(jì)算算法:

      2.2 漢語(yǔ)句子相似度計(jì)算算法設(shè)計(jì)

      (1) 依存句法

      首先對(duì)輸入句子和進(jìn)行句法分析,得到句法分析結(jié)果Ipar和Ppar。將兩個(gè)句法分析結(jié)果中的依存對(duì)提取出來(lái),保存為三元組的依存對(duì)deppair,其中deppair[0]和deppair[2]為依存詞,deppair[1]為依存關(guān)系。在兩個(gè)句子依存對(duì)集合中,依存關(guān)系相同的依存對(duì)進(jìn)行余弦相似度計(jì)算,deppairI[0]和deppairR[0]表示詞匯對(duì)應(yīng)的詞向量。SimilarityThreshold是設(shè)定的詞匯之間語(yǔ)義相似度的閾值,可以根據(jù)模型的精度進(jìn)行調(diào)整。當(dāng)依存對(duì)中的兩個(gè)詞語(yǔ)義相似度都達(dá)到閾值要求時(shí),按照下式進(jìn)行句子的相似度計(jì)算。

      將上述依存對(duì)中的詞分別求余弦相似度,選取相似度最大的一組,對(duì)該組相似度求取算術(shù)平均值并用放大系數(shù)放大作為依存對(duì)的相似度。

      (2) 漢語(yǔ)句子的綜合相似度計(jì)算

      同英語(yǔ)句子的相似度計(jì)算一致,漢語(yǔ)句子的綜合相似度計(jì)算采用兩部分加權(quán)求和的方式進(jìn)行。除了基于詞向量的依存句法,相似度還有基于詞向量的Jaccard相似度,二者共同構(gòu)成本文提出的漢語(yǔ)句子相似度計(jì)算算法。公式如下:

      3 算法實(shí)現(xiàn)和實(shí)驗(yàn)分析

      3.1 詞向量模型訓(xùn)練

      使用的word2vec需要相應(yīng)的語(yǔ)料進(jìn)行詞向量模型的訓(xùn)練。首先是word2vec的訓(xùn)練命令,對(duì)于得到的詞向量模型,需要根據(jù)詞向量的精度進(jìn)行詞匯之間相似度的閾值判定。這里根據(jù)常用同、近義詞的余弦相似度測(cè)試結(jié)果進(jìn)行設(shè)定。最終得到的閾值分別為:

      英語(yǔ):相似度應(yīng)當(dāng)分成幾檔對(duì)待,[0,0.2) 為不相似,[0.2,0.3) 為相似,[0.3,0.4) 為較強(qiáng)相似,[0.4,1]基本相同;

      漢語(yǔ):[0,0.25) 為不相似,[0.25,0.4) 為相似,[0.4,0.5)為非常相似,[0.5,1]基本等同。

      之所以漢語(yǔ)的各檔相似度閾值設(shè)定得比英語(yǔ)高一點(diǎn),是因?yàn)闈h語(yǔ)的訓(xùn)練語(yǔ)料更多,相應(yīng)地,詞匯之間的相似度比英文更加貼近實(shí)際情況。另一方面又可以看出英語(yǔ)和漢語(yǔ)的最低相似度閾值都很低,因?yàn)樵~向量的訓(xùn)練過(guò)程是結(jié)合具體語(yǔ)料進(jìn)行的,語(yǔ)料的質(zhì)量和方法本身的統(tǒng)計(jì)思想決定了方法相比人工判定是比較粗糙的。

      3.2 系統(tǒng)組成結(jié)構(gòu)

      系統(tǒng)的組成結(jié)構(gòu)如圖2所示。翻譯開(kāi)始后,首先選定語(yǔ)言種類(lèi),因?yàn)橐鶕?jù)語(yǔ)言選擇相應(yīng)的詞向量模型,也便于系統(tǒng)更有針對(duì)性地進(jìn)行實(shí)例檢索。選定語(yǔ)言后,針對(duì)語(yǔ)言種類(lèi)分別進(jìn)行詞向量模型的讀取和加載。對(duì)于英語(yǔ),下一步要對(duì)輸入句子和檢索出的TopN的實(shí)例句子進(jìn)行預(yù)處理,包括刪除標(biāo)點(diǎn)、大寫(xiě)還原等。特別要說(shuō)明的是,由于華建IAT系統(tǒng)的商用保密性原因,實(shí)驗(yàn)不能直接在該系統(tǒng)的實(shí)例庫(kù)上進(jìn)行。故本實(shí)驗(yàn)另外單獨(dú)搭建系統(tǒng)進(jìn)行效果測(cè)試,針對(duì)結(jié)果進(jìn)行改進(jìn)并最后將算法運(yùn)用到華建IAT系統(tǒng)上。在實(shí)驗(yàn)系統(tǒng)中,使用基于詞共現(xiàn)的Jaccard相似度(沒(méi)有使用詞向量)進(jìn)行檢索,返回Top50的實(shí)例。漢語(yǔ)的檢索過(guò)程與此相同,只是在輸入句子和檢索的Top50實(shí)例的預(yù)處理上多了分詞。為了使實(shí)驗(yàn)結(jié)果和實(shí)際使用效果盡量保持一致,分詞使用了華建內(nèi)部提供的分詞工具。

      3.3 相似度計(jì)算實(shí)驗(yàn)

      3.3.1 實(shí)驗(yàn)數(shù)據(jù)

      為了盡量讓實(shí)驗(yàn)結(jié)果客觀、可信,本文英語(yǔ)的相似度計(jì)算實(shí)驗(yàn)數(shù)據(jù)來(lái)自LDC2的收費(fèi)語(yǔ)料LDC2013T03。該語(yǔ)料來(lái)自NIST 2012年的機(jī)器翻譯評(píng)測(cè)。本文將這些同義句全部按組抽取排列。為了在長(zhǎng)短句中有所均衡,隨機(jī)從中抽取了100組,得到最后的測(cè)試語(yǔ)料,形式如下所示:

      1. White dragon fruit has a reddish purple peel and white flesh; it has tiny black seeds distributed through the middle and is of so?so quality when eaten fresh.

      2. White pitayas have purple?red skin and white flesh, with tiny black seeds distributed throughout and the quality is okay if eaten uncooked.

      3. White dragon fruit with purple reddish skin and white meat, with tiny black seeds distributed, average quality for eating fresh.

      4. A white pitaya is mauve?skinned with white flesh containing fine black seeds, and of average quality when eaten fresh.

      1. At least they don′t go out of their way to fleece Chinese people.

      2. At least they don′t specifically rip off Chinese people.

      3. At least they don′t exclusively rip off Chinese people.

      4. At least they do not rip off Chinese only.

      選取每組中的第一句作為基準(zhǔn)句,其他三句作為第一句的相似句,用于測(cè)試。所有這400句先與8 336句同樣是NIST 2012的評(píng)測(cè)句子進(jìn)行混合作為一組英文測(cè)試語(yǔ)料,然后又與9 600句華建語(yǔ)料庫(kù)中的句子混合,共計(jì)10 000句,作為第二組英文測(cè)試語(yǔ)料。

      漢語(yǔ)的測(cè)試語(yǔ)料由于沒(méi)找到和英語(yǔ)類(lèi)似的同義或近義句,所以采取了常用的相似度研究方法。從華建公司的語(yǔ)料庫(kù)中隨機(jī)選取100個(gè)句子,并自行構(gòu)建100句對(duì)應(yīng)的相似句子,即100組相似句對(duì)。將這200句相似句和另外來(lái)自華建語(yǔ)料庫(kù)的其他9 800句混合,共計(jì)10 000句作為漢語(yǔ)的測(cè)試語(yǔ)料。

      3.3.2 測(cè)試標(biāo)準(zhǔn)

      3.3.3 實(shí)驗(yàn)結(jié)果及數(shù)據(jù)分析

      在相似度算法中的參數(shù)包括六個(gè):SimilarityThreshold,SimilarityThreshold表示相似度閾值,通過(guò)對(duì)英漢的詞向量模型進(jìn)行分析比較,英語(yǔ)的相似度閾值設(shè)定為0.2,漢語(yǔ)的為0.25。為詞向量之間余弦相似度的放大系數(shù),主要是幫助進(jìn)行誤差修正。通過(guò)對(duì)詞向量的相似度精度進(jìn)行測(cè)試,英語(yǔ)設(shè)定為2.5,漢語(yǔ)為2。其他兩組參數(shù)為英漢句子相似度計(jì)算中Jaccard相似度和另一部分各占的比重。

      通過(guò)分析實(shí)驗(yàn)可以發(fā)現(xiàn),詞向量對(duì)算法效果的提升非常明顯?;谠~的相似度在不同語(yǔ)料庫(kù)之間的表現(xiàn)差異(命中率之差)要比基于詞向量的方法大一些,這表明基于詞向量的方法不僅在性能上更好,同時(shí)其在不同領(lǐng)域語(yǔ)料之間的穩(wěn)定性和適應(yīng)性也更強(qiáng)。

      3.4 方法實(shí)現(xiàn)及應(yīng)用

      本文提出的方法是對(duì)華建IAT系統(tǒng)進(jìn)行針對(duì)性的設(shè)計(jì)和實(shí)現(xiàn)。為了便于后續(xù)的維護(hù),最終以接口的形式將相關(guān)方法整合給輔助翻譯系統(tǒng)進(jìn)行使用。考慮到系統(tǒng)在實(shí)際運(yùn)行中對(duì)時(shí)效性的要求,采用IronPython完成平臺(tái)上接口的實(shí)現(xiàn),以保留Python對(duì)文本處理的優(yōu)勢(shì)。主要函數(shù)構(gòu)成如下:

      W2V_Main(InputSentence,RetrivalSentencePairs,LanguageType,ReturnNum) ;

      EnSimilarityCompute(InputSentence,CompareSentence) ;

      ChSimilarityCompute(InputSentence,CompareSentence) 。

      其中,W2V_Main()是.NET平臺(tái)進(jìn)行調(diào)用的入口函數(shù),參數(shù)含義依次為:InputSentence表示用戶(hù)輸入句子;RetrivalSentencePairs為翻譯記憶庫(kù)檢索出的TopN個(gè)待排序?qū)嵗鋵?duì);LanguageType為輸入句子的語(yǔ)言種類(lèi);ReturnNum表示需要返回的已排序句子的數(shù)目。通過(guò)調(diào)用英漢對(duì)應(yīng)的相似度計(jì)算模塊,其返回結(jié)果為ReturnNum個(gè)已排序譯文構(gòu)成的數(shù)組。

      EnSimilarityCompute()是英文句子相似度計(jì)算模塊的入口,其作用是返回用戶(hù)輸入句子InputSentence和系統(tǒng)檢索到的句子CompareSentence(句對(duì)中的源語(yǔ)言句子)之間的相似度。ChSimilarityCompute()則是漢語(yǔ)句子相似度計(jì)算模塊的入口函數(shù)。這兩個(gè)句子相似度計(jì)算函數(shù)會(huì)調(diào)用英漢對(duì)應(yīng)的預(yù)處理函數(shù)、Jaccard相似度函數(shù)(公用)、編輯距離相似度函數(shù)(英語(yǔ))、依存句法相似度函數(shù)(漢語(yǔ),通過(guò)os.system()進(jìn)行調(diào)用并接收返回的分析結(jié)果),最后返回兩部分加權(quán)求和得到的相似度計(jì)算結(jié)果。

      4 結(jié) 論

      本文采用基于詞向量的相似度計(jì)算算法進(jìn)行英漢雙語(yǔ)的句子相似度計(jì)算,并根據(jù)兩種語(yǔ)言在使用習(xí)慣、句式變化和句子長(zhǎng)度等方面的不同進(jìn)行有針對(duì)性的算法設(shè)計(jì)。詞向量的語(yǔ)境相似度在很大程度上增加了句子相似度計(jì)算的深度和廣度,并且其優(yōu)秀的語(yǔ)義相關(guān)性也可以將同、近義詞的使用納入到相似度考慮的范疇。同時(shí),漢語(yǔ)句子的依存句法很好地規(guī)避了漢語(yǔ)句式多變和句子長(zhǎng)度對(duì)相似度的影響,在句子的整句范圍內(nèi)進(jìn)行更加深入的相似性度量。

      參考文獻(xiàn)

      [1] 侯宏旭,劉群.基于實(shí)例的漢蒙機(jī)器翻譯[J].中文信息學(xué)報(bào),2011,21(4):65?72.

      [2] LI Y N, LI H S, CAI Q, et al. A novel semantic similarity measure within sentences [C]// Proceedings of 2012 2nd International Conference on Computer Science and Network Techno?logy. Changchun, China: IEEE, 2012: 1176?1179.

      [3] 李丹,許霄羽,楊?lèi)?基于語(yǔ)義網(wǎng)技術(shù)的網(wǎng)絡(luò)機(jī)器翻譯研究[J].現(xiàn)代電子技術(shù),2011,34(4):107?109.

      [4] 王榮波,池哲儒.基于詞類(lèi)串的漢語(yǔ)句子結(jié)構(gòu)相似度計(jì)算方法[J].中文信息學(xué)報(bào),2005,19(1):21?29.

      [5] 黃河燕,陳肇雄.基于多策略的交互式智能輔助翻譯平臺(tái)總體設(shè)計(jì)[J].計(jì)算機(jī)研究與發(fā)展,2012,41(7):1266?1272.

      [6] 李素建.基于語(yǔ)義計(jì)算的語(yǔ)句相關(guān)度研究[J].計(jì)算機(jī)工程與應(yīng)用,2012,38(7):75?76.

      [7] 張民,李生,趙鐵軍,等.一種漢語(yǔ)句子間相似度的度量算法和實(shí)現(xiàn)[J].計(jì)算機(jī)語(yǔ)言學(xué)進(jìn)展與應(yīng)用,1995(7):152?158.

      [8] 梁晗,陳群秀,吳平博.基于事件框架的信息抽取系統(tǒng)[J].中文信息學(xué)報(bào),2006,20(2):40?46.

      [9] 秦兵,劉挺,王洋,等.基于常問(wèn)問(wèn)題集的中文問(wèn)答系統(tǒng)研究[J].哈爾濱工業(yè)大學(xué)學(xué)報(bào),2013,35(10):1179?1182.

      [10] 梁紅玉,張平.LEX在ATLAS?C翻譯器設(shè)計(jì)中的應(yīng)用[J].現(xiàn)代電子技術(shù),2004,27(24):102?104.

      凤翔县| 长丰县| 嘉兴市| 平顺县| 岚皋县| 云南省| 富锦市| 保康县| 宿迁市| 合作市| 安化县| 永宁县| 梨树县| 石城县| 同仁县| 石阡县| 吕梁市| 阳西县| 长沙县| 息烽县| 清原| 皮山县| 科尔| 旌德县| 顺义区| 北宁市| 临泉县| 同江市| 新巴尔虎右旗| 恩平市| 敖汉旗| 思茅市| 崇义县| 富宁县| 任丘市| 桃江县| 廊坊市| 青冈县| 改则县| 忻州市| 玛纳斯县|