• <tr id="yyy80"></tr>
  • <sup id="yyy80"></sup>
  • <tfoot id="yyy80"><noscript id="yyy80"></noscript></tfoot>
  • 99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看 ?

    一種基于分類的平行語料選擇方法

    2013-10-15 01:52:16涂兆鵬呂雅娟姚建民
    中文信息學(xué)報 2013年6期
    關(guān)鍵詞:例句語料平行

    王 星,涂兆鵬,謝 軍,呂雅娟,姚建民

    (1.蘇州大學(xué) 計算機(jī)科學(xué)與技術(shù)學(xué)院,江蘇 蘇州215006;2.中國科學(xué)院 計算技術(shù)研究所 智能信息處理重點(diǎn)實(shí)驗室,北京100190;3.加州大學(xué) 戴維斯分校 計算機(jī)科學(xué)系,加州95616)

    1 引言

    平行語料在機(jī)器翻譯系統(tǒng)中起著重要的作用。大部分機(jī)器翻譯系統(tǒng),無論是基于短語的系統(tǒng)[1],還是基于句法的系統(tǒng)[2-4],都是從經(jīng)過詞語對齊的雙語語料中抽取翻譯規(guī)則。Och等人[5]的工作表明詞語對齊的平行語料的質(zhì)量直接決定了翻譯性能。一般來說,平行語料規(guī)模越大,質(zhì)量越高,則詞語對齊的質(zhì)量越高。

    然而,大規(guī)模高質(zhì)量的平行句對并不容易獲取。由于統(tǒng)計機(jī)器翻譯所需要的平行語料通常都是百萬句對級的,人工構(gòu)建顯然是不可能的。隨著網(wǎng)絡(luò)的發(fā)展,大量網(wǎng)絡(luò)雙語語料的存在使得構(gòu)建大規(guī)模平行語料成為了可能。但是網(wǎng)絡(luò)雙語語料中存在著大量的噪聲,質(zhì)量較低,直接使用會使噪聲引入到翻譯系統(tǒng)中,影響系統(tǒng)性能。

    如何從包含噪聲的雙語句對中選擇高質(zhì)量的平行句對受到了越來越多研究者的關(guān)注。例如,陳毅東等人[6]曾研究面向處理平行語料庫的篩選排序模型。姚樹杰等人[7]在組織訓(xùn)練語料時考慮語料覆蓋度問題。但是這些方法都經(jīng)驗性較強(qiáng),需要人工干預(yù),陳毅東等人[6]指出特征權(quán)重和語料選擇的分?jǐn)?shù)閾值一般都是人工經(jīng)驗給出。

    針對該類問題,本文提出一種自動的基于分類的平行語料選擇方法。首先,我們使用少數(shù)特征對平行語料進(jìn)行初步打分,選擇差異較大的少量句對構(gòu)建訓(xùn)練集(如最好的m個句對和最差的n個句對)。然后,在該訓(xùn)練集上我們使用更多的特征(包括詞匯特征,句法特征等)訓(xùn)練一個分類器,從而對其他平行語料進(jìn)行分類,以選擇高質(zhì)量的句對(正例句對)。實(shí)驗表明,過濾后的平行語料規(guī)模僅為原始語料的60%,使用過濾后的語料訓(xùn)練翻譯系統(tǒng),在NIST測試數(shù)據(jù)集合上取得了0.87BLEU點(diǎn)的提高。

    后續(xù)章節(jié)組織如下:第2節(jié)介紹相關(guān)工作,第3節(jié)介紹基于分類的訓(xùn)練語料選擇方法,第4節(jié)給出實(shí)驗和結(jié)果分析,最后一節(jié)給出結(jié)論和未來工作。

    2 相關(guān)工作

    陳毅東等人[6]曾研究面向處理平行語料庫的篩選排序模型,這個模型利用預(yù)先設(shè)定的特征將已有的平行語料進(jìn)行打分排序,之后選取分?jǐn)?shù)靠前的部分組織成為訓(xùn)練語料。姚樹杰等人[7]在組織訓(xùn)練語料時考慮語料覆蓋度問題。但是特征權(quán)重和得分閾值的選擇需要人工經(jīng)驗。

    呂雅娟等人[8,9]曾提出一種基于信息檢索模型的統(tǒng)計機(jī)器翻譯訓(xùn)練數(shù)據(jù)選擇與優(yōu)化方法,選擇現(xiàn)有訓(xùn)練數(shù)據(jù)資源中與待翻譯文本相似的句子組成訓(xùn)練子集,在不增加計算資源的情況下獲得與使用全部數(shù)據(jù)相當(dāng)甚至更好的機(jī)器翻譯結(jié)果。此方法需要提前知道測試文本的內(nèi)容。

    Han等人[10]在基于訓(xùn)練語料句對可以分為字面互譯和意譯的前提下,提出一種基于詞典和詞性的方法判斷句對是否字面互譯,調(diào)整字面互譯和意譯句對在詞對齊階訓(xùn)練段時權(quán)重,達(dá)到翻譯性能的提升。此方法是調(diào)整權(quán)重更好的利用語料,減小意譯句對的影響,此處的權(quán)值也需要人工經(jīng)驗給出。

    Munteanu等人[11,12]給出了大量的平行句對特征,通過利用少量的高質(zhì)量的平行語料構(gòu)建出正反例平行句對,訓(xùn)練分類器從大規(guī)模的非平行語料選擇出平行語料。但是此方法需要用到少量高質(zhì)量句對作為正例句對資源。

    3 基于分類的平行語料選擇方法

    語料可以劃分為完全平行句對、部分平行句對和完全不平行句對(噪聲句對)。我們的任務(wù)是從大規(guī)模訓(xùn)練語料中選擇高質(zhì)量的平行語料,希望獲得的是那些完全平行句對,即高質(zhì)量平行句對。

    通過觀察發(fā)現(xiàn),高質(zhì)量平行句對一般會表現(xiàn)出很多共性:比如源語句和目標(biāo)語句的互譯準(zhǔn)確、句對中源語句和目標(biāo)語句都是比較流暢等?;诖?,我們提出使用句對特征評價平行句對質(zhì)量,利用分類器自動判別句對質(zhì)量的好壞。下面分別介紹分類器的構(gòu)建和特征的選擇。

    3.1 分類器的構(gòu)建

    傳統(tǒng)的監(jiān)督式學(xué)習(xí)需要標(biāo)記樣本數(shù)據(jù)來訓(xùn)練分類器,然而在現(xiàn)實(shí)中很少有標(biāo)注好的平行語料庫。在此我們需要構(gòu)建足夠的正反例句對供分類器學(xué)習(xí)。如何構(gòu)造訓(xùn)練分類器的正反例句對是語料選擇中關(guān)鍵一步。

    文獻(xiàn)[7]給出一種簡單有效的排序模型對平行語料庫句對進(jìn)行排序。在設(shè)定權(quán)重后,句對得分成為衡量句對質(zhì)量的一個重要參考指標(biāo)。句對得分越大,句對被判定為平行句對的可能性越大。雖然對單個句對來看,無法依據(jù)其得分判定句對質(zhì)量好壞,但實(shí)驗證明分?jǐn)?shù)高的句對集合比分?jǐn)?shù)低的句對集合質(zhì)量更好。我們關(guān)心的是什么樣的句對更有可能成為高質(zhì)量平行句對?設(shè)想如果一個句對在各個特征都比另一個句對表現(xiàn)優(yōu)異,是否說明該句對成為高質(zhì)量平行句對有著更大的可能性?答案是肯定的,因為一個句對的綜合表現(xiàn)是由其各個特征所決定。我們可以尋找在各個特征上表現(xiàn)好或者表現(xiàn)不好的句對,使用這些句對構(gòu)造分類器訓(xùn)練的正負(fù)例句對。

    文獻(xiàn)[11]指出句對長度比例特征和基于雙語詞典的翻譯質(zhì)量特征可以簡單高效地評價句對的質(zhì)量。實(shí)驗證明翻譯模型概率也是十分有效的區(qū)分特征。同時,部分特征(比如語言模型得分特征)對高質(zhì)量句對的區(qū)分度不強(qiáng)。所以我們使用上述幾個特征作為訓(xùn)練集正負(fù)例句對的特征。在這幾個特征上全部得分較優(yōu)的句對選為正例句對,全部得分較差的句對選為負(fù)例句對。這樣,分類器訓(xùn)練所需要的正負(fù)例句對被構(gòu)造出來。

    本實(shí)驗采用ZhangLe的最大熵模型工具包MaxEnt** http://homepages.inf.ed.ac.uk/lzhang10/maxent_toolkit.html,該分類器實(shí)現(xiàn)了包含高斯平滑的最大熵算法,采用LBFGS參數(shù)估計方法。

    3.2 句對質(zhì)量評價特征

    基于雙語詞典的翻譯質(zhì)量(式1)

    Length(sen)表示句子sen的長度,即句子sen含有詞的個數(shù)。表示通過查閱雙語詞典,語句sen中所有在對應(yīng)另一端句子中能找到譯文的詞的總數(shù)。對于Translate(w),如果單詞w在對應(yīng)的另一端句子中存在翻譯項則為1,否則為0。

    文獻(xiàn)[7,10-11]都指出基于雙語詞典的翻譯質(zhì)量的特征是一種簡單有效的評價特征。直觀上看,P值大,表明句子中的很多詞能夠翻譯到對應(yīng)的另一端句子上,說明句對成為平行句對的可能性更大。所以,我們分別選取源端句子和目標(biāo)端句子的基于雙語詞典的翻譯質(zhì)量作為句對特征。

    翻譯模型概率

    對齊得分被證明[12]是一個簡單有效并具有辨別力的特征。在此我們用此公式表示源端句子f與目標(biāo)端句子e相互的翻譯概率。其中,arg maxfit(ej|fi)表示尋找單詞fi與另一端句子中單詞ej的最大翻譯概率。在此我們選取源端到目標(biāo)端翻譯概率、目標(biāo)端到源端的翻譯概率作為句對特征。

    語言模型

    Length(sen)表示句子的長度。Language-Model(sen)表示句子sen的語言模型得分。

    語言模型得分能夠衡量句子是否流暢。但是根據(jù)語言模型公式,我們知道一個句子長度對句子模型得分有影響。為了減緩這種影響,利于不同句子間的得分比較,我們對語言模型得分按句子長度進(jìn)行歸一化處理。

    語言模型參數(shù)在大規(guī)模單語語料上訓(xùn)練得到。實(shí)驗中我們分別計算語料中的漢英句子的四元語言模型得分。

    句子長度

    Length(s)表示源端句子的長度,即源端句子含有詞的個數(shù)。Length(t)表示目標(biāo)端句子的長度,即目標(biāo)端句子含有詞的個數(shù)。Ldiff值表示源端句子長度和目標(biāo)端句子長度差值,Lratio值表示源端句子長度和目標(biāo)端句子長度歸一化后的商值。

    文獻(xiàn)[7,11]都指出,句子長度是一個非常重要的特征。文獻(xiàn)[7]指出給定的語言對里的互譯句對長度應(yīng)符合一定的比例。并且給出漢英平行句對長度比的經(jīng)驗范圍0.5-1.2。通過對我們語料庫中語料的統(tǒng)計(圖1),發(fā)現(xiàn)語料庫中大部分漢英平行句對的長度比在該經(jīng)驗范圍內(nèi)。實(shí)驗中我們?nèi)〗?jīng)驗值θ=0.85對漢英長度比進(jìn)行歸一化處理。

    文獻(xiàn)[11]進(jìn)一步指出句子長度的差值也是一個衡量平行句對質(zhì)量好壞的重要標(biāo)志。所以我們分別選取源端句子長度和目標(biāo)端句子長度、兩者的差值以及兩者的歸一化后的商作為句對特征。

    未對齊詞數(shù)量

    文獻(xiàn)[11]指出,在經(jīng)過詞語對齊后平行句對間產(chǎn)生對齊鏈。一般來講,對齊鏈越多,說明句對間互譯的單詞越多,句對成為平行句對的概率也就越大。所以未對齊詞的數(shù)量也能夠說明平行句對質(zhì)量的好壞。在此,我們把源端和目標(biāo)端的未對齊詞數(shù)量和未對齊詞所占百分比作為句對特征。

    圖1 語料庫中漢英句對不同長度比所含句對數(shù)量分布

    最長對齊一致性片段和最長連續(xù)未對齊片段的長度

    文獻(xiàn)[11]指出最長對齊一致性片段的長度和最長連續(xù)未對齊片段的長度對句對是否平行有著很強(qiáng)的提示信息。這也和我們的直觀感覺相符合。所以本文中也將這兩者選擇作為句對特征。

    4 實(shí)驗

    實(shí)驗訓(xùn)練漢英雙語語料含有150萬句對,由實(shí)驗室內(nèi)部語料100萬句對和實(shí)驗室網(wǎng)絡(luò)挖掘語料50萬句對混合構(gòu)成。漢語句子平均句長為15,英語句子平均句長為17。對于訓(xùn)練語料,我們使用GIZA++[13]工具包進(jìn)行雙向?qū)R,然后采用“growdiag-final-and”策略獲得多到多的詞語對齊。使用搜狗新聞?wù)Z料訓(xùn)練漢語語言模型,使用Gigaword語料中新華部分訓(xùn)練英語語言模型,使用SRILM工具[14]訓(xùn)練的四元語言模型,模型使用KN方法進(jìn)行平滑。雙語詞典使用LDC漢英雙語詞典,含有漢語英文互譯詞匯54 170對。

    4.1 語料篩選實(shí)驗

    語料篩選流程:

    1.對所有的句對計算所有(共18個)特征得分。

    2.按基于雙語詞典的翻譯質(zhì)量得分(雙向)由高到低,翻譯模型得分(雙向)由高到低,句子長度商值歸一化得分(單向)由低到高分別對句對進(jìn)行排序,總共得到五個排序結(jié)果。

    3.根據(jù)五個排序,分別取排序的前m%和后n%判別為偽正例句對與偽負(fù)例句對。如果句對在五個排序中都被判別為偽正例句對,我們?nèi)∑錇檎鋵?。類似的,如果句對在五個排序中都被判別為偽負(fù)例句對,我們?nèi)∑錇樨?fù)例句對。其他句對作為待分類句對。(實(shí)驗中取m=30n=30,關(guān)于m,n的討論見后文)

    4.所有正例句對和負(fù)例句對組成訓(xùn)練集,使用所有的特征,訓(xùn)練最大熵分類器。

    5.使用訓(xùn)練好的最大熵分類器對待分類句對進(jìn)行分類。得到分類結(jié)果。

    在本實(shí)驗中,我們在步驟3取得473 249句對作為訓(xùn)練集,其中包括193 445個正例句對,279 804個反例句對。在該訓(xùn)練集上訓(xùn)練分類器,使用該分類器對1 026 751個待分類句對進(jìn)行分類,判別待分類句對中682 145個句對為正例句對。最后,我們使用所有的875 590個正例句對作為我們選出的新訓(xùn)練集進(jìn)行翻譯實(shí)驗。分類過程中訓(xùn)練句對和待分類句對中正負(fù)例句對的數(shù)量如表1所示。

    表1 分類過程中訓(xùn)練句對和待分類句對中正負(fù)例句對的數(shù)量

    4.2 機(jī)器翻譯實(shí)驗

    4.2.1 實(shí)驗設(shè)置

    實(shí)驗評測語料使用NIST2002年的評測語料(NIST02)作為開發(fā)集。NIST2005,2008年的評測語料(NIST05,NIST08)作為測試集。語言模型使用語料篩選試驗中的英語4元語言模型。實(shí)驗使用開源的基于短語的統(tǒng)計機(jī)器翻譯moses系統(tǒng)[15],短語抽取限制長度為7,采用 msd-bidirectional-fe調(diào)序模型。機(jī)器翻譯實(shí)驗中使用最小錯誤訓(xùn)練方法[16]優(yōu)化線性模型的參數(shù),采用大小寫不敏感的IBM BLEU-4[17]作為評測指標(biāo)。為了更合理的評測我們的方法,本文設(shè)置如下7個翻譯系統(tǒng):

    All:使用所有訓(xùn)練句對訓(xùn)練翻譯系統(tǒng)。

    Pos:使用所有正例句對訓(xùn)練翻譯系統(tǒng)。

    Neg:使用所有負(fù)例句對訓(xùn)練翻譯系統(tǒng)。

    Rand1:從所有訓(xùn)練句對中隨機(jī)選取與正例句對數(shù)量相等的句對組成句對集合,訓(xùn)練翻譯系統(tǒng)。

    Rand2:從所有訓(xùn)練句對中隨機(jī)選取與負(fù)例句對數(shù)量相等的句對組成句對集合,訓(xùn)練翻譯系統(tǒng)。

    RandPos:從正例句對集合隨機(jī)選取與負(fù)例句對數(shù)量相等的正例句對組成句對集合,訓(xùn)練翻譯系統(tǒng)。

    Pos+recallNeg:在Pos系統(tǒng)的已有正例句對語料基礎(chǔ)上,對每個負(fù)例句對進(jìn)行檢測,若該負(fù)例句對源端含有Pos系統(tǒng)訓(xùn)練集未覆蓋到的新詞,則將該句對加入到訓(xùn)練集中,否則跳過。使用最終得到的訓(xùn)練集合訓(xùn)練翻譯系統(tǒng)。

    4.2.2 實(shí)驗結(jié)果及分析

    通過表2的實(shí)驗結(jié)果我們可以觀察到各個系統(tǒng)在開發(fā)集和測試集上的譯測結(jié)果。Pos系統(tǒng)對比All系統(tǒng)在兩個測試集合上均取得更好的BLEU值(NIST05:+0.74NIST08:+0.87),測試集平均BLEU值提高了0.80個百分點(diǎn)。Pos系統(tǒng)不僅在BLEU值的取得提高,還減小了訓(xùn)練語料的規(guī)?!?xùn)練句對的數(shù)量減少近40%,縮減短語表規(guī)模,加快翻譯速度。但是在刪掉部分語料后,語料的覆蓋度降低,測試集翻譯結(jié)果中未翻譯詞的數(shù)量對比All系統(tǒng)增加了23%。

    表2 各個系統(tǒng)在開發(fā)集測試集的結(jié)果。*和**分別表示顯著性測試中ρ<0.05和ρ<0.01

    對比Pos系統(tǒng)與Rand1系統(tǒng)的結(jié)果,在訓(xùn)練句對數(shù)量相等的情況下,兩個測試集都取得更好的結(jié)果。這也說明我們選擇的正例句對有著更高的質(zhì)量。現(xiàn)在的疑問是,未被選擇的句對即Pos系統(tǒng)中未使用的負(fù)例句對質(zhì)量如何?我們可以觀察Rand2系統(tǒng)、RandPos系統(tǒng)、Neg系統(tǒng)的結(jié)果,我們可以看出在訓(xùn)練語料句對數(shù)量相等,未翻譯詞數(shù)量相當(dāng)?shù)那闆r下,RandPos系統(tǒng)BLEU 值、Rand2系統(tǒng)BLEU值、Neg系統(tǒng)的BLEU值在兩個測試集上依次遞減。這也和我們的預(yù)期所相符。RandPos系統(tǒng)與Neg系統(tǒng)結(jié)果的差異也表明正負(fù)例句對質(zhì)量的差異較大。

    Rand2系統(tǒng)、Rand1系統(tǒng)、All系統(tǒng)的訓(xùn)練語料的句對數(shù)依次增加,但兩個測試集合的BLEU值并非依次上漲。這與語料的選擇有關(guān),因為我們是隨機(jī)選擇的部分語料,新加入的語料中可能參雜著非平行句對,導(dǎo)致測試結(jié)果的BLEU值沒有增長。

    為了提高語料覆蓋度,針對未翻譯詞處理,我們加入了Pos+recallNeg系統(tǒng)對訓(xùn)練語料進(jìn)行如下處理:檢查每個負(fù)例句對,如果負(fù)例句對的源端含有正例句對源端單詞集合未出現(xiàn)的單詞,我們就將此負(fù)例句對加入訓(xùn)練集合。在略微增大訓(xùn)練集規(guī)模的情況下,減少了未翻譯詞的數(shù)量,進(jìn)一步提高譯文BLEU值。對比Pos系統(tǒng),Pos+recallNeg系統(tǒng)增加了47 765個句對。其翻譯結(jié)果中的未翻譯詞對比Pos系統(tǒng)有所減少,但是仍比All系統(tǒng)多,這與我們預(yù)估有所不同??紤]未翻譯詞出現(xiàn)的原因,一是測試集中存在未登錄詞。二是測試集中存在的某個詞,但是包含該詞翻譯的譯文沒有被選為最優(yōu)譯文而被拋棄。對比All系統(tǒng)與Pos+recallNeg系統(tǒng)的未翻譯詞,發(fā)現(xiàn)All系統(tǒng)未翻譯詞并非Pos+recall-Neg系統(tǒng)的未翻譯的子集,證明是第二點(diǎn)原因?qū)е翽os+recallNeg系統(tǒng)的未翻譯詞數(shù)量很多。在測試集BLEU值方面,對比Pos系統(tǒng),雖然在NIST08測試集提升0.42,但是另外一個測試集NIST05上卻降低(NIST05:-0.23)。其原因是添加負(fù)例句對,雖然在語料覆蓋度問題上有所改善,但是負(fù)例句對的增加導(dǎo)致訓(xùn)練語料的整體質(zhì)量降低,翻譯性能無法取得提升。這也說明在選取語料不僅要保證語料覆蓋度,同時要保證語料質(zhì)量。

    5 結(jié)論和未來工作

    本文提出一種自動的基于分類的平行語料選擇方法。利用少數(shù)特征選取差異較大的少量句對構(gòu)建訓(xùn)練集,在該訓(xùn)練集上我們使用更多的特征訓(xùn)練一個分類器,從而對余下平行語料進(jìn)行分類,以選擇高質(zhì)量的句對。實(shí)驗表明,使用過濾后的平行語料在規(guī)模僅為原始語料的60%的情況下翻譯BLEU值能有所提高。

    值得注意的是,我們所構(gòu)造的分類器訓(xùn)練正負(fù)例句對是通過取交集的方式構(gòu)建得到,我們根據(jù) 對每個特征排序取前m%和后n%構(gòu)造偽正負(fù)例句對,然后取交集得到分類器訓(xùn)練正負(fù)例句對。這里選取的正負(fù)例句對并不是真實(shí)的。在本文中為減少實(shí)驗復(fù)雜度,我們?nèi)=30,n=30進(jìn)行試驗。但我們可以引入已有信息對語料質(zhì)量進(jìn)行判斷,從而幫助我們更加合理地設(shè)置m,n的取值。換言之,m,n取值可以依賴于我們自身對語料質(zhì)量的評估。比如,對從網(wǎng)絡(luò)的獲取的語料,通過設(shè)置m取值小于n,構(gòu)造出數(shù)量少的訓(xùn)練正例句對。對人工構(gòu)造的平行語料,我們可以調(diào)整m大于n從而獲得較多的訓(xùn)練正例句對。引入更多信息,能夠幫助我們更好進(jìn)行語料選擇。

    未來工作從以下方面展開。如何構(gòu)造訓(xùn)練分類器的訓(xùn)練句對是語料選擇關(guān)鍵的一步。我們在將來會進(jìn)一步探索其他句對特征,構(gòu)造更具區(qū)分性的分類器訓(xùn)練句對。

    致謝

    該研究工作是第一作者在中國科學(xué)院計算技術(shù)研究所自然語言處理研究組客座實(shí)習(xí)期間完成的。涂兆鵬的工作是其在計算技術(shù)研究所自然語言處理研究組讀博期間完成。感謝蘇州大學(xué)姚建民教授和中國科學(xué)院計算所自然語言處理組呂雅娟研究員對本研究的支持,感謝謝軍博士和涂兆鵬師兄對本文工作的悉心指導(dǎo)。

    [1]Koehn P,Och F J,Marcu D.Statistical phrase-based translation[C]//Proceedings of the 2003Conference of the North American Chapter of the Association for Computational Linguistics on Human Language Technology-Volume 1.Association for Computational Linguistics,2003:48-54.

    [2]Chiang D.A hierarchical phrase-based model for statistical machine translation[C]//Proceedings of the 43rd Annual Meeting on Association for Computational Linguistics.Association for Computational Linguistics,2005:263-270.

    [3]Yang Liu,Qun Liu,Shouxun Lin.Tree-to-string alignment template for statistical machine translation[C]//Proceedings of the 21st International Conference on Computational Linguistics and the 44th annual meeting of the Association for Computational Linguistics.2006:609-616

    [4]Jun Xie,Haitao Mi,Qun Liu.A novel dependency-tostring model for statistical machine translation[C]//Proceedings of the Conference on Empirical Methods in Natural Language Processing.2011:216-226.

    [5]Och F J,Ney H.The alignment template approach to statistical machine translation[J].Computational linguistics,2004,30(4):417-449.

    [6]陳毅東,史曉東,周昌樂.平行語料庫處理初探:一種排序模型[J].中文信息學(xué)報增刊,2006:66-70.

    [7]姚樹杰,肖桐,朱靖波.基于句對質(zhì)量和覆蓋度的統(tǒng)計機(jī)器翻譯訓(xùn)練語料選?。跩].中文信息學(xué)報,2011,25(002):72-77.

    [8]黃瑾,呂雅娟,劉群.基于信息檢索方法的統(tǒng)計翻譯系統(tǒng)訓(xùn)練數(shù)據(jù)選擇與優(yōu)化[J].中文信息學(xué)報,2008,22(2):40-46.

    [9]LüY,Huang J,Liu Q.Improving statistical machine translation performance by training data selection and optimization[C]//Proceedings of the 2007Joint Conference on Empirical Methods in Natural Language Processing and Computational Natural Language Learning(EMNLP-CoNLL).2007:343-350.

    [10]Han X,Li H,Zhao T.Train the machine with what it can learn:corpus selection for SMT[C]//Proceedings of the 2nd Workshop on Building and Using Comparable Corpora:from Parallel to Non-parallel Corpora.Association for Computational Linguistics,2009:27-33.

    [11]Munteanu D S,Marcu D.Improving machine translation performance by exploiting non-parallel corpora[J].Computational Linguistics,2005,31(4):477-504.

    [12]Munteanu D S,F(xiàn)raser A,Marcu D.Improved machine translation performance via parallel sentence extraction from comparable corpora[C]//Proceedings of HLT-NAACL 2004:Main Proceedings.2004:265-272.

    [13]Franz Josef Och,Hermann Ney.Improved Statistical Alignment Models[C]//Proceedings of the 38th ACL,2000.

    [14]Andreas Stolcke. SRILM-an extensible language modeling toolkit[C]//Proceedings of the 7th International Conference on Spoken Language Processing 2002:901-905.

    [15]Koehn P,Hoang H,Birch A,et al.Moses:Open source toolkit for statistical machine translation[C]//Proceedings of the 45th Annual Meeting of the ACL on Interactive Poster and Demonstration Sessions.Association for Computational Linguistics,2007:177-180.

    [16]Och F J.Minimum error rate training in statistical machine translation[C]//Proceedings of the 41st Annual Meeting on Association for Computational Linguistics-Volume 1.Association for Computational Linguistics,2003:160-167.

    [17]Papineni K,Roukos S,Ward T,et al.BLEU:a method for automatic evaluation of machine translation[C]//Proceedings of the 40th annual meeting on association for computational linguistics.Association for Computational Linguistics,2002:311-318.

    猜你喜歡
    例句語料平行
    向量的平行與垂直
    平行
    逃離平行世界
    英聲細(xì)語
    基于語料調(diào)查的“連……都(也)……”出現(xiàn)的語義背景分析
    好詞好句
    好詞好句
    再頂平行進(jìn)口
    汽車觀察(2016年3期)2016-02-28 13:16:36
    華語電影作為真實(shí)語料在翻譯教學(xué)中的應(yīng)用
    好詞好句
    俄罗斯特黄特色一大片| 一二三四在线观看免费中文在| 欧美+亚洲+日韩+国产| 亚洲视频免费观看视频| 又大又爽又粗| 伦理电影免费视频| 国产成+人综合+亚洲专区| 午夜精品国产一区二区电影| 精品少妇黑人巨大在线播放| 嫁个100分男人电影在线观看| 国产一区二区在线观看av| 国产97色在线日韩免费| bbb黄色大片| 一进一出抽搐动态| 国产成人免费观看mmmm| 国产精品秋霞免费鲁丝片| 十八禁人妻一区二区| 69av精品久久久久久 | 日韩制服丝袜自拍偷拍| 一个人免费看片子| 亚洲国产精品一区二区三区在线| 人妻久久中文字幕网| 精品高清国产在线一区| 成人影院久久| 性色av乱码一区二区三区2| 成在线人永久免费视频| 大陆偷拍与自拍| 亚洲av美国av| 亚洲五月婷婷丁香| 一级毛片精品| 女人被躁到高潮嗷嗷叫费观| av有码第一页| 在线观看免费午夜福利视频| 中文字幕高清在线视频| 亚洲全国av大片| 高清视频免费观看一区二区| 99热国产这里只有精品6| 脱女人内裤的视频| 乱人伦中国视频| 视频区欧美日本亚洲| 免费在线观看黄色视频的| av在线播放精品| 热re99久久精品国产66热6| 久久天堂一区二区三区四区| 久久精品亚洲av国产电影网| 啦啦啦在线免费观看视频4| 丝袜在线中文字幕| 成人亚洲精品一区在线观看| 各种免费的搞黄视频| 亚洲专区字幕在线| av欧美777| 精品福利永久在线观看| 成人影院久久| 悠悠久久av| 男女床上黄色一级片免费看| 欧美日韩福利视频一区二区| 人妻人人澡人人爽人人| 国产日韩欧美亚洲二区| 欧美精品人与动牲交sv欧美| 亚洲欧洲精品一区二区精品久久久| a 毛片基地| 人妻 亚洲 视频| 久久精品成人免费网站| 黄片播放在线免费| 亚洲中文字幕日韩| 青春草亚洲视频在线观看| av免费在线观看网站| 精品人妻在线不人妻| 欧美精品人与动牲交sv欧美| 亚洲欧美日韩高清在线视频 | 丁香六月天网| 亚洲国产精品一区二区三区在线| 久久久精品94久久精品| 美女视频免费永久观看网站| 五月开心婷婷网| 99久久国产精品久久久| 不卡av一区二区三区| 巨乳人妻的诱惑在线观看| 亚洲av日韩在线播放| 91麻豆av在线| a 毛片基地| 欧美变态另类bdsm刘玥| 99香蕉大伊视频| 啦啦啦在线免费观看视频4| 久久久久久久国产电影| 香蕉丝袜av| 中文字幕色久视频| 亚洲欧美日韩另类电影网站| 黄片小视频在线播放| 亚洲美女黄色视频免费看| 50天的宝宝边吃奶边哭怎么回事| 99久久人妻综合| 欧美日韩亚洲综合一区二区三区_| 桃花免费在线播放| 成年人午夜在线观看视频| 国产成人系列免费观看| 超色免费av| 人人妻人人添人人爽欧美一区卜| 成人国产一区最新在线观看| 最近最新中文字幕大全免费视频| 欧美久久黑人一区二区| 亚洲av成人不卡在线观看播放网 | 欧美日韩精品网址| 在线天堂中文资源库| 国产国语露脸激情在线看| 黑人操中国人逼视频| 欧美精品高潮呻吟av久久| 99国产精品一区二区蜜桃av | 免费不卡黄色视频| 国产亚洲欧美精品永久| 人妻 亚洲 视频| 精品亚洲乱码少妇综合久久| 少妇 在线观看| 久久久国产欧美日韩av| 视频区欧美日本亚洲| a在线观看视频网站| 男人操女人黄网站| 各种免费的搞黄视频| 五月天丁香电影| 精品一区二区三卡| 久9热在线精品视频| 真人做人爱边吃奶动态| 欧美在线黄色| 亚洲天堂av无毛| 亚洲成人手机| 午夜免费观看性视频| 桃红色精品国产亚洲av| 中文字幕高清在线视频| 欧美变态另类bdsm刘玥| 国产成人一区二区三区免费视频网站| 亚洲专区字幕在线| 久久毛片免费看一区二区三区| 亚洲av电影在线进入| 男女之事视频高清在线观看| 亚洲精品日韩在线中文字幕| 后天国语完整版免费观看| 国产成人免费观看mmmm| 制服人妻中文乱码| 一级毛片女人18水好多| 欧美人与性动交α欧美软件| 下体分泌物呈黄色| 亚洲国产成人一精品久久久| 久久国产精品男人的天堂亚洲| 国产不卡av网站在线观看| 91精品三级在线观看| 在线看a的网站| bbb黄色大片| 不卡av一区二区三区| 另类亚洲欧美激情| 99精品久久久久人妻精品| 9191精品国产免费久久| 每晚都被弄得嗷嗷叫到高潮| 亚洲av片天天在线观看| 狂野欧美激情性xxxx| 免费久久久久久久精品成人欧美视频| 成人18禁高潮啪啪吃奶动态图| 超碰97精品在线观看| 一个人免费在线观看的高清视频 | av免费在线观看网站| 久久精品熟女亚洲av麻豆精品| 18在线观看网站| 国产成人免费无遮挡视频| 国产亚洲精品第一综合不卡| 欧美精品一区二区免费开放| 岛国在线观看网站| 女性生殖器流出的白浆| 国产片内射在线| 国产欧美日韩一区二区三区在线| 色精品久久人妻99蜜桃| 久久99热这里只频精品6学生| 精品人妻一区二区三区麻豆| 日本av免费视频播放| 王馨瑶露胸无遮挡在线观看| 欧美老熟妇乱子伦牲交| 一区二区av电影网| 一边摸一边做爽爽视频免费| 香蕉丝袜av| 国产精品一区二区在线不卡| 亚洲欧美色中文字幕在线| 免费高清在线观看视频在线观看| 免费在线观看视频国产中文字幕亚洲 | 欧美日韩视频精品一区| 岛国在线观看网站| 午夜福利在线免费观看网站| 中文字幕最新亚洲高清| 国产在线观看jvid| 免费在线观看黄色视频的| 岛国在线观看网站| 免费高清在线观看日韩| 黑人欧美特级aaaaaa片| 无遮挡黄片免费观看| 超色免费av| 欧美日韩国产mv在线观看视频| 人妻 亚洲 视频| 在线观看免费午夜福利视频| 一级片'在线观看视频| 99热全是精品| 在线看a的网站| 亚洲欧美日韩高清在线视频 | 欧美xxⅹ黑人| 91精品国产国语对白视频| 亚洲第一av免费看| 女警被强在线播放| 欧美激情久久久久久爽电影 | 久久香蕉激情| 侵犯人妻中文字幕一二三四区| 亚洲国产日韩一区二区| 欧美国产精品一级二级三级| 精品亚洲成国产av| 亚洲国产欧美一区二区综合| 亚洲欧美一区二区三区久久| 中文字幕人妻丝袜一区二区| 亚洲综合色网址| 亚洲国产成人一精品久久久| 又大又爽又粗| a级毛片黄视频| 亚洲精品美女久久久久99蜜臀| 久久久久久亚洲精品国产蜜桃av| 日韩中文字幕欧美一区二区| 99国产精品一区二区蜜桃av | 欧美精品av麻豆av| 人人妻,人人澡人人爽秒播| 久久免费观看电影| 欧美性长视频在线观看| videosex国产| av天堂久久9| 国产日韩欧美亚洲二区| 99精品久久久久人妻精品| 曰老女人黄片| 精品国产乱码久久久久久男人| 青青草视频在线视频观看| 欧美在线黄色| 色婷婷av一区二区三区视频| 少妇粗大呻吟视频| 丝袜人妻中文字幕| 午夜福利影视在线免费观看| 91成年电影在线观看| 青春草亚洲视频在线观看| 天天躁狠狠躁夜夜躁狠狠躁| 一进一出抽搐动态| 蜜桃国产av成人99| 嫁个100分男人电影在线观看| 日韩免费高清中文字幕av| 深夜精品福利| 一级片'在线观看视频| 欧美+亚洲+日韩+国产| 亚洲精品日韩在线中文字幕| 丝袜脚勾引网站| 久久国产精品大桥未久av| 黄片播放在线免费| 国产一卡二卡三卡精品| 熟女少妇亚洲综合色aaa.| 亚洲精品国产av蜜桃| 又大又爽又粗| 狂野欧美激情性bbbbbb| 亚洲一码二码三码区别大吗| 无限看片的www在线观看| 老汉色av国产亚洲站长工具| 欧美国产精品一级二级三级| 青春草视频在线免费观看| 日本wwww免费看| 啦啦啦啦在线视频资源| 中国美女看黄片| 免费在线观看视频国产中文字幕亚洲 | 国产精品欧美亚洲77777| 亚洲伊人色综图| 欧美精品一区二区免费开放| 国产日韩欧美视频二区| 伊人亚洲综合成人网| 一区二区三区乱码不卡18| 捣出白浆h1v1| 久久久久久久久免费视频了| 国产一卡二卡三卡精品| 精品一区在线观看国产| h视频一区二区三区| 女人精品久久久久毛片| 日本五十路高清| 在线观看免费日韩欧美大片| 人人妻人人添人人爽欧美一区卜| 我要看黄色一级片免费的| 大码成人一级视频| 啦啦啦视频在线资源免费观看| 不卡一级毛片| 19禁男女啪啪无遮挡网站| 国产欧美日韩一区二区精品| 精品一区二区三区av网在线观看 | 国产精品一区二区免费欧美 | 亚洲一卡2卡3卡4卡5卡精品中文| 欧美另类一区| 黄色视频在线播放观看不卡| av在线老鸭窝| 日本黄色日本黄色录像| 亚洲精品一二三| 桃红色精品国产亚洲av| 欧美精品av麻豆av| 久久久久久久大尺度免费视频| 十八禁网站网址无遮挡| 蜜桃国产av成人99| 在线观看免费视频网站a站| 久久99一区二区三区| 成人三级做爰电影| 天堂俺去俺来也www色官网| 国产福利在线免费观看视频| 免费日韩欧美在线观看| 欧美激情高清一区二区三区| 日韩免费高清中文字幕av| 成人免费观看视频高清| 久久国产亚洲av麻豆专区| 国产精品二区激情视频| 黄片播放在线免费| 亚洲久久久国产精品| 正在播放国产对白刺激| 久久久欧美国产精品| 午夜激情久久久久久久| 国产xxxxx性猛交| 极品人妻少妇av视频| 中文字幕制服av| 久久性视频一级片| 动漫黄色视频在线观看| 国产精品成人在线| 亚洲中文字幕日韩| 青草久久国产| 999精品在线视频| 亚洲五月婷婷丁香| 国产无遮挡羞羞视频在线观看| 1024视频免费在线观看| 97精品久久久久久久久久精品| 99国产精品一区二区蜜桃av | 午夜激情久久久久久久| 日韩精品免费视频一区二区三区| 大片电影免费在线观看免费| 美女中出高潮动态图| 中文字幕色久视频| 精品国产一区二区三区四区第35| 2018国产大陆天天弄谢| 日韩精品免费视频一区二区三区| 法律面前人人平等表现在哪些方面 | 免费人妻精品一区二区三区视频| 亚洲中文字幕日韩| 国产一区二区三区av在线| 建设人人有责人人尽责人人享有的| 中国美女看黄片| 亚洲精品一卡2卡三卡4卡5卡 | 亚洲欧美清纯卡通| 国产伦人伦偷精品视频| 岛国在线观看网站| av超薄肉色丝袜交足视频| 男人爽女人下面视频在线观看| 欧美激情高清一区二区三区| 免费日韩欧美在线观看| 精品福利永久在线观看| 一二三四在线观看免费中文在| 亚洲一码二码三码区别大吗| 午夜激情av网站| 亚洲一码二码三码区别大吗| 九色亚洲精品在线播放| 国产黄色免费在线视频| 天堂俺去俺来也www色官网| 汤姆久久久久久久影院中文字幕| 欧美精品亚洲一区二区| 1024视频免费在线观看| 动漫黄色视频在线观看| 午夜精品久久久久久毛片777| 老司机靠b影院| 后天国语完整版免费观看| 亚洲精品中文字幕在线视频| 精品熟女少妇八av免费久了| 每晚都被弄得嗷嗷叫到高潮| 操出白浆在线播放| 久久精品国产a三级三级三级| 热99re8久久精品国产| 伊人久久大香线蕉亚洲五| av福利片在线| 日韩欧美国产一区二区入口| 欧美黄色淫秽网站| 日韩电影二区| 搡老乐熟女国产| 18禁国产床啪视频网站| 久久99热这里只频精品6学生| 日本黄色日本黄色录像| 亚洲成人手机| 国产伦人伦偷精品视频| 老司机在亚洲福利影院| 亚洲av国产av综合av卡| 精品国产超薄肉色丝袜足j| 国产一区二区三区av在线| 999精品在线视频| 美女主播在线视频| 国产在线一区二区三区精| 操美女的视频在线观看| 国产真人三级小视频在线观看| 大片电影免费在线观看免费| 欧美午夜高清在线| 精品国产乱子伦一区二区三区 | av不卡在线播放| 亚洲av日韩在线播放| 成年人午夜在线观看视频| 伊人亚洲综合成人网| 亚洲欧美日韩另类电影网站| 久久性视频一级片| 久久久久久久国产电影| 久久久久久亚洲精品国产蜜桃av| 亚洲欧美色中文字幕在线| 午夜激情久久久久久久| kizo精华| 国产av国产精品国产| 国产免费现黄频在线看| 超碰成人久久| 亚洲黑人精品在线| 一区二区三区激情视频| 麻豆国产av国片精品| 亚洲全国av大片| 少妇人妻久久综合中文| 91字幕亚洲| 夜夜夜夜夜久久久久| 免费黄频网站在线观看国产| 午夜成年电影在线免费观看| 中文字幕人妻丝袜一区二区| 色播在线永久视频| 高清黄色对白视频在线免费看| av免费在线观看网站| 嫁个100分男人电影在线观看| 亚洲精品国产区一区二| 午夜老司机福利片| 亚洲国产毛片av蜜桃av| 欧美中文综合在线视频| 亚洲,欧美精品.| 一级毛片女人18水好多| 俄罗斯特黄特色一大片| 水蜜桃什么品种好| 男人操女人黄网站| 国产日韩欧美亚洲二区| 法律面前人人平等表现在哪些方面 | 各种免费的搞黄视频| 天天影视国产精品| 搡老乐熟女国产| 亚洲精品美女久久av网站| 一级毛片女人18水好多| 丝袜美腿诱惑在线| 亚洲精品一卡2卡三卡4卡5卡 | 亚洲专区国产一区二区| 欧美日韩视频精品一区| 精品人妻一区二区三区麻豆| 欧美中文综合在线视频| 精品少妇黑人巨大在线播放| 天天躁日日躁夜夜躁夜夜| 亚洲av日韩在线播放| 一级黄色大片毛片| 精品国产乱码久久久久久小说| av在线app专区| 熟女少妇亚洲综合色aaa.| 老熟妇仑乱视频hdxx| 精品国产超薄肉色丝袜足j| 国产精品自产拍在线观看55亚洲 | 精品乱码久久久久久99久播| 99久久国产精品久久久| 少妇 在线观看| 亚洲中文av在线| 法律面前人人平等表现在哪些方面 | 久久中文看片网| 精品久久蜜臀av无| 老熟女久久久| 欧美日韩视频精品一区| 美女国产高潮福利片在线看| 最近中文字幕2019免费版| 黄色毛片三级朝国网站| 美女高潮喷水抽搐中文字幕| av片东京热男人的天堂| 久久久久久久大尺度免费视频| 电影成人av| 五月天丁香电影| 精品国产乱码久久久久久男人| 欧美乱码精品一区二区三区| 俄罗斯特黄特色一大片| 97人妻天天添夜夜摸| 国产一区二区三区av在线| 精品亚洲乱码少妇综合久久| 免费av中文字幕在线| 日韩,欧美,国产一区二区三区| 在线观看舔阴道视频| 母亲3免费完整高清在线观看| 国产亚洲一区二区精品| e午夜精品久久久久久久| 午夜免费观看性视频| 脱女人内裤的视频| 成年美女黄网站色视频大全免费| 亚洲熟女毛片儿| 国产麻豆69| 国产真人三级小视频在线观看| 久久热在线av| 国产av精品麻豆| 日韩 亚洲 欧美在线| 99香蕉大伊视频| 国产又爽黄色视频| 黄色怎么调成土黄色| 久久人妻福利社区极品人妻图片| 国产日韩欧美视频二区| 亚洲色图 男人天堂 中文字幕| 不卡一级毛片| av福利片在线| av天堂在线播放| 欧美黄色淫秽网站| tube8黄色片| 国产成人欧美在线观看 | 首页视频小说图片口味搜索| 老熟女久久久| 国产欧美日韩一区二区精品| 啦啦啦啦在线视频资源| 国产精品自产拍在线观看55亚洲 | 中文欧美无线码| 少妇 在线观看| 亚洲精品自拍成人| 亚洲一区中文字幕在线| 亚洲九九香蕉| 免费在线观看日本一区| 欧美黑人欧美精品刺激| 一级片'在线观看视频| h视频一区二区三区| 久久久久国产一级毛片高清牌| 亚洲成人免费av在线播放| 久久久国产一区二区| 久热这里只有精品99| 久久影院123| 亚洲久久久国产精品| 黄色毛片三级朝国网站| 人人妻人人澡人人爽人人夜夜| 亚洲色图综合在线观看| 日韩视频一区二区在线观看| 亚洲精品国产av成人精品| 免费女性裸体啪啪无遮挡网站| 美国免费a级毛片| 久久人妻熟女aⅴ| 久久久久网色| 久久精品国产亚洲av高清一级| 欧美日韩视频精品一区| 黄网站色视频无遮挡免费观看| 一区二区三区精品91| 黑人巨大精品欧美一区二区mp4| 久久免费观看电影| 亚洲欧美日韩另类电影网站| 国产精品成人在线| 999精品在线视频| 久久精品久久久久久噜噜老黄| 亚洲伊人色综图| 少妇的丰满在线观看| 国产xxxxx性猛交| 国产成人啪精品午夜网站| 欧美午夜高清在线| 国产成人免费无遮挡视频| 国产精品久久久久久人妻精品电影 | 午夜精品国产一区二区电影| www.精华液| 91成年电影在线观看| 精品少妇一区二区三区视频日本电影| 99热网站在线观看| 深夜精品福利| 岛国在线观看网站| 黄色片一级片一级黄色片| 在线永久观看黄色视频| 女人爽到高潮嗷嗷叫在线视频| 91国产中文字幕| 天天影视国产精品| 中文字幕av电影在线播放| av网站免费在线观看视频| 成年av动漫网址| 成年女人毛片免费观看观看9 | 欧美国产精品一级二级三级| 人妻一区二区av| 啦啦啦在线免费观看视频4| 成在线人永久免费视频| 亚洲一区中文字幕在线| 国产黄色免费在线视频| 蜜桃国产av成人99| 女警被强在线播放| 在线观看人妻少妇| 国产男人的电影天堂91| 久久久欧美国产精品| 久久久久久久精品精品| 日韩熟女老妇一区二区性免费视频| 午夜福利影视在线免费观看| 99国产精品一区二区蜜桃av | 欧美黄色淫秽网站| 亚洲国产看品久久| 成人18禁高潮啪啪吃奶动态图| 成年人免费黄色播放视频| 丝袜美足系列| 在线看a的网站| 秋霞在线观看毛片| 精品国产乱码久久久久久小说| 男女午夜视频在线观看| 亚洲精品国产一区二区精华液| 久久精品国产亚洲av香蕉五月 | 精品福利永久在线观看| 韩国精品一区二区三区| 精品第一国产精品| 最近最新中文字幕大全免费视频| 欧美+亚洲+日韩+国产| 亚洲情色 制服丝袜| 狠狠狠狠99中文字幕| 亚洲精品国产av蜜桃| 多毛熟女@视频| 久久人妻福利社区极品人妻图片| 欧美亚洲日本最大视频资源| 欧美另类一区| 国产亚洲精品久久久久5区| 纯流量卡能插随身wifi吗| 亚洲精品国产色婷婷电影| 久久人妻熟女aⅴ| 国产欧美日韩一区二区三区在线| 国产高清国产精品国产三级| 狠狠狠狠99中文字幕| 成年av动漫网址| 中国国产av一级| 天天操日日干夜夜撸| 国产亚洲精品第一综合不卡|