• <tr id="yyy80"></tr>
  • <sup id="yyy80"></sup>
  • <tfoot id="yyy80"><noscript id="yyy80"></noscript></tfoot>
  • 99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看 ?

    一種基于分類的平行語料選擇方法

    2013-10-15 01:52:16涂兆鵬呂雅娟姚建民
    中文信息學(xué)報 2013年6期
    關(guān)鍵詞:例句語料平行

    王 星,涂兆鵬,謝 軍,呂雅娟,姚建民

    (1.蘇州大學(xué) 計算機(jī)科學(xué)與技術(shù)學(xué)院,江蘇 蘇州215006;2.中國科學(xué)院 計算技術(shù)研究所 智能信息處理重點(diǎn)實(shí)驗室,北京100190;3.加州大學(xué) 戴維斯分校 計算機(jī)科學(xué)系,加州95616)

    1 引言

    平行語料在機(jī)器翻譯系統(tǒng)中起著重要的作用。大部分機(jī)器翻譯系統(tǒng),無論是基于短語的系統(tǒng)[1],還是基于句法的系統(tǒng)[2-4],都是從經(jīng)過詞語對齊的雙語語料中抽取翻譯規(guī)則。Och等人[5]的工作表明詞語對齊的平行語料的質(zhì)量直接決定了翻譯性能。一般來說,平行語料規(guī)模越大,質(zhì)量越高,則詞語對齊的質(zhì)量越高。

    然而,大規(guī)模高質(zhì)量的平行句對并不容易獲取。由于統(tǒng)計機(jī)器翻譯所需要的平行語料通常都是百萬句對級的,人工構(gòu)建顯然是不可能的。隨著網(wǎng)絡(luò)的發(fā)展,大量網(wǎng)絡(luò)雙語語料的存在使得構(gòu)建大規(guī)模平行語料成為了可能。但是網(wǎng)絡(luò)雙語語料中存在著大量的噪聲,質(zhì)量較低,直接使用會使噪聲引入到翻譯系統(tǒng)中,影響系統(tǒng)性能。

    如何從包含噪聲的雙語句對中選擇高質(zhì)量的平行句對受到了越來越多研究者的關(guān)注。例如,陳毅東等人[6]曾研究面向處理平行語料庫的篩選排序模型。姚樹杰等人[7]在組織訓(xùn)練語料時考慮語料覆蓋度問題。但是這些方法都經(jīng)驗性較強(qiáng),需要人工干預(yù),陳毅東等人[6]指出特征權(quán)重和語料選擇的分?jǐn)?shù)閾值一般都是人工經(jīng)驗給出。

    針對該類問題,本文提出一種自動的基于分類的平行語料選擇方法。首先,我們使用少數(shù)特征對平行語料進(jìn)行初步打分,選擇差異較大的少量句對構(gòu)建訓(xùn)練集(如最好的m個句對和最差的n個句對)。然后,在該訓(xùn)練集上我們使用更多的特征(包括詞匯特征,句法特征等)訓(xùn)練一個分類器,從而對其他平行語料進(jìn)行分類,以選擇高質(zhì)量的句對(正例句對)。實(shí)驗表明,過濾后的平行語料規(guī)模僅為原始語料的60%,使用過濾后的語料訓(xùn)練翻譯系統(tǒng),在NIST測試數(shù)據(jù)集合上取得了0.87BLEU點(diǎn)的提高。

    后續(xù)章節(jié)組織如下:第2節(jié)介紹相關(guān)工作,第3節(jié)介紹基于分類的訓(xùn)練語料選擇方法,第4節(jié)給出實(shí)驗和結(jié)果分析,最后一節(jié)給出結(jié)論和未來工作。

    2 相關(guān)工作

    陳毅東等人[6]曾研究面向處理平行語料庫的篩選排序模型,這個模型利用預(yù)先設(shè)定的特征將已有的平行語料進(jìn)行打分排序,之后選取分?jǐn)?shù)靠前的部分組織成為訓(xùn)練語料。姚樹杰等人[7]在組織訓(xùn)練語料時考慮語料覆蓋度問題。但是特征權(quán)重和得分閾值的選擇需要人工經(jīng)驗。

    呂雅娟等人[8,9]曾提出一種基于信息檢索模型的統(tǒng)計機(jī)器翻譯訓(xùn)練數(shù)據(jù)選擇與優(yōu)化方法,選擇現(xiàn)有訓(xùn)練數(shù)據(jù)資源中與待翻譯文本相似的句子組成訓(xùn)練子集,在不增加計算資源的情況下獲得與使用全部數(shù)據(jù)相當(dāng)甚至更好的機(jī)器翻譯結(jié)果。此方法需要提前知道測試文本的內(nèi)容。

    Han等人[10]在基于訓(xùn)練語料句對可以分為字面互譯和意譯的前提下,提出一種基于詞典和詞性的方法判斷句對是否字面互譯,調(diào)整字面互譯和意譯句對在詞對齊階訓(xùn)練段時權(quán)重,達(dá)到翻譯性能的提升。此方法是調(diào)整權(quán)重更好的利用語料,減小意譯句對的影響,此處的權(quán)值也需要人工經(jīng)驗給出。

    Munteanu等人[11,12]給出了大量的平行句對特征,通過利用少量的高質(zhì)量的平行語料構(gòu)建出正反例平行句對,訓(xùn)練分類器從大規(guī)模的非平行語料選擇出平行語料。但是此方法需要用到少量高質(zhì)量句對作為正例句對資源。

    3 基于分類的平行語料選擇方法

    語料可以劃分為完全平行句對、部分平行句對和完全不平行句對(噪聲句對)。我們的任務(wù)是從大規(guī)模訓(xùn)練語料中選擇高質(zhì)量的平行語料,希望獲得的是那些完全平行句對,即高質(zhì)量平行句對。

    通過觀察發(fā)現(xiàn),高質(zhì)量平行句對一般會表現(xiàn)出很多共性:比如源語句和目標(biāo)語句的互譯準(zhǔn)確、句對中源語句和目標(biāo)語句都是比較流暢等?;诖?,我們提出使用句對特征評價平行句對質(zhì)量,利用分類器自動判別句對質(zhì)量的好壞。下面分別介紹分類器的構(gòu)建和特征的選擇。

    3.1 分類器的構(gòu)建

    傳統(tǒng)的監(jiān)督式學(xué)習(xí)需要標(biāo)記樣本數(shù)據(jù)來訓(xùn)練分類器,然而在現(xiàn)實(shí)中很少有標(biāo)注好的平行語料庫。在此我們需要構(gòu)建足夠的正反例句對供分類器學(xué)習(xí)。如何構(gòu)造訓(xùn)練分類器的正反例句對是語料選擇中關(guān)鍵一步。

    文獻(xiàn)[7]給出一種簡單有效的排序模型對平行語料庫句對進(jìn)行排序。在設(shè)定權(quán)重后,句對得分成為衡量句對質(zhì)量的一個重要參考指標(biāo)。句對得分越大,句對被判定為平行句對的可能性越大。雖然對單個句對來看,無法依據(jù)其得分判定句對質(zhì)量好壞,但實(shí)驗證明分?jǐn)?shù)高的句對集合比分?jǐn)?shù)低的句對集合質(zhì)量更好。我們關(guān)心的是什么樣的句對更有可能成為高質(zhì)量平行句對?設(shè)想如果一個句對在各個特征都比另一個句對表現(xiàn)優(yōu)異,是否說明該句對成為高質(zhì)量平行句對有著更大的可能性?答案是肯定的,因為一個句對的綜合表現(xiàn)是由其各個特征所決定。我們可以尋找在各個特征上表現(xiàn)好或者表現(xiàn)不好的句對,使用這些句對構(gòu)造分類器訓(xùn)練的正負(fù)例句對。

    文獻(xiàn)[11]指出句對長度比例特征和基于雙語詞典的翻譯質(zhì)量特征可以簡單高效地評價句對的質(zhì)量。實(shí)驗證明翻譯模型概率也是十分有效的區(qū)分特征。同時,部分特征(比如語言模型得分特征)對高質(zhì)量句對的區(qū)分度不強(qiáng)。所以我們使用上述幾個特征作為訓(xùn)練集正負(fù)例句對的特征。在這幾個特征上全部得分較優(yōu)的句對選為正例句對,全部得分較差的句對選為負(fù)例句對。這樣,分類器訓(xùn)練所需要的正負(fù)例句對被構(gòu)造出來。

    本實(shí)驗采用ZhangLe的最大熵模型工具包MaxEnt** http://homepages.inf.ed.ac.uk/lzhang10/maxent_toolkit.html,該分類器實(shí)現(xiàn)了包含高斯平滑的最大熵算法,采用LBFGS參數(shù)估計方法。

    3.2 句對質(zhì)量評價特征

    基于雙語詞典的翻譯質(zhì)量(式1)

    Length(sen)表示句子sen的長度,即句子sen含有詞的個數(shù)。表示通過查閱雙語詞典,語句sen中所有在對應(yīng)另一端句子中能找到譯文的詞的總數(shù)。對于Translate(w),如果單詞w在對應(yīng)的另一端句子中存在翻譯項則為1,否則為0。

    文獻(xiàn)[7,10-11]都指出基于雙語詞典的翻譯質(zhì)量的特征是一種簡單有效的評價特征。直觀上看,P值大,表明句子中的很多詞能夠翻譯到對應(yīng)的另一端句子上,說明句對成為平行句對的可能性更大。所以,我們分別選取源端句子和目標(biāo)端句子的基于雙語詞典的翻譯質(zhì)量作為句對特征。

    翻譯模型概率

    對齊得分被證明[12]是一個簡單有效并具有辨別力的特征。在此我們用此公式表示源端句子f與目標(biāo)端句子e相互的翻譯概率。其中,arg maxfit(ej|fi)表示尋找單詞fi與另一端句子中單詞ej的最大翻譯概率。在此我們選取源端到目標(biāo)端翻譯概率、目標(biāo)端到源端的翻譯概率作為句對特征。

    語言模型

    Length(sen)表示句子的長度。Language-Model(sen)表示句子sen的語言模型得分。

    語言模型得分能夠衡量句子是否流暢。但是根據(jù)語言模型公式,我們知道一個句子長度對句子模型得分有影響。為了減緩這種影響,利于不同句子間的得分比較,我們對語言模型得分按句子長度進(jìn)行歸一化處理。

    語言模型參數(shù)在大規(guī)模單語語料上訓(xùn)練得到。實(shí)驗中我們分別計算語料中的漢英句子的四元語言模型得分。

    句子長度

    Length(s)表示源端句子的長度,即源端句子含有詞的個數(shù)。Length(t)表示目標(biāo)端句子的長度,即目標(biāo)端句子含有詞的個數(shù)。Ldiff值表示源端句子長度和目標(biāo)端句子長度差值,Lratio值表示源端句子長度和目標(biāo)端句子長度歸一化后的商值。

    文獻(xiàn)[7,11]都指出,句子長度是一個非常重要的特征。文獻(xiàn)[7]指出給定的語言對里的互譯句對長度應(yīng)符合一定的比例。并且給出漢英平行句對長度比的經(jīng)驗范圍0.5-1.2。通過對我們語料庫中語料的統(tǒng)計(圖1),發(fā)現(xiàn)語料庫中大部分漢英平行句對的長度比在該經(jīng)驗范圍內(nèi)。實(shí)驗中我們?nèi)〗?jīng)驗值θ=0.85對漢英長度比進(jìn)行歸一化處理。

    文獻(xiàn)[11]進(jìn)一步指出句子長度的差值也是一個衡量平行句對質(zhì)量好壞的重要標(biāo)志。所以我們分別選取源端句子長度和目標(biāo)端句子長度、兩者的差值以及兩者的歸一化后的商作為句對特征。

    未對齊詞數(shù)量

    文獻(xiàn)[11]指出,在經(jīng)過詞語對齊后平行句對間產(chǎn)生對齊鏈。一般來講,對齊鏈越多,說明句對間互譯的單詞越多,句對成為平行句對的概率也就越大。所以未對齊詞的數(shù)量也能夠說明平行句對質(zhì)量的好壞。在此,我們把源端和目標(biāo)端的未對齊詞數(shù)量和未對齊詞所占百分比作為句對特征。

    圖1 語料庫中漢英句對不同長度比所含句對數(shù)量分布

    最長對齊一致性片段和最長連續(xù)未對齊片段的長度

    文獻(xiàn)[11]指出最長對齊一致性片段的長度和最長連續(xù)未對齊片段的長度對句對是否平行有著很強(qiáng)的提示信息。這也和我們的直觀感覺相符合。所以本文中也將這兩者選擇作為句對特征。

    4 實(shí)驗

    實(shí)驗訓(xùn)練漢英雙語語料含有150萬句對,由實(shí)驗室內(nèi)部語料100萬句對和實(shí)驗室網(wǎng)絡(luò)挖掘語料50萬句對混合構(gòu)成。漢語句子平均句長為15,英語句子平均句長為17。對于訓(xùn)練語料,我們使用GIZA++[13]工具包進(jìn)行雙向?qū)R,然后采用“growdiag-final-and”策略獲得多到多的詞語對齊。使用搜狗新聞?wù)Z料訓(xùn)練漢語語言模型,使用Gigaword語料中新華部分訓(xùn)練英語語言模型,使用SRILM工具[14]訓(xùn)練的四元語言模型,模型使用KN方法進(jìn)行平滑。雙語詞典使用LDC漢英雙語詞典,含有漢語英文互譯詞匯54 170對。

    4.1 語料篩選實(shí)驗

    語料篩選流程:

    1.對所有的句對計算所有(共18個)特征得分。

    2.按基于雙語詞典的翻譯質(zhì)量得分(雙向)由高到低,翻譯模型得分(雙向)由高到低,句子長度商值歸一化得分(單向)由低到高分別對句對進(jìn)行排序,總共得到五個排序結(jié)果。

    3.根據(jù)五個排序,分別取排序的前m%和后n%判別為偽正例句對與偽負(fù)例句對。如果句對在五個排序中都被判別為偽正例句對,我們?nèi)∑錇檎鋵?。類似的,如果句對在五個排序中都被判別為偽負(fù)例句對,我們?nèi)∑錇樨?fù)例句對。其他句對作為待分類句對。(實(shí)驗中取m=30n=30,關(guān)于m,n的討論見后文)

    4.所有正例句對和負(fù)例句對組成訓(xùn)練集,使用所有的特征,訓(xùn)練最大熵分類器。

    5.使用訓(xùn)練好的最大熵分類器對待分類句對進(jìn)行分類。得到分類結(jié)果。

    在本實(shí)驗中,我們在步驟3取得473 249句對作為訓(xùn)練集,其中包括193 445個正例句對,279 804個反例句對。在該訓(xùn)練集上訓(xùn)練分類器,使用該分類器對1 026 751個待分類句對進(jìn)行分類,判別待分類句對中682 145個句對為正例句對。最后,我們使用所有的875 590個正例句對作為我們選出的新訓(xùn)練集進(jìn)行翻譯實(shí)驗。分類過程中訓(xùn)練句對和待分類句對中正負(fù)例句對的數(shù)量如表1所示。

    表1 分類過程中訓(xùn)練句對和待分類句對中正負(fù)例句對的數(shù)量

    4.2 機(jī)器翻譯實(shí)驗

    4.2.1 實(shí)驗設(shè)置

    實(shí)驗評測語料使用NIST2002年的評測語料(NIST02)作為開發(fā)集。NIST2005,2008年的評測語料(NIST05,NIST08)作為測試集。語言模型使用語料篩選試驗中的英語4元語言模型。實(shí)驗使用開源的基于短語的統(tǒng)計機(jī)器翻譯moses系統(tǒng)[15],短語抽取限制長度為7,采用 msd-bidirectional-fe調(diào)序模型。機(jī)器翻譯實(shí)驗中使用最小錯誤訓(xùn)練方法[16]優(yōu)化線性模型的參數(shù),采用大小寫不敏感的IBM BLEU-4[17]作為評測指標(biāo)。為了更合理的評測我們的方法,本文設(shè)置如下7個翻譯系統(tǒng):

    All:使用所有訓(xùn)練句對訓(xùn)練翻譯系統(tǒng)。

    Pos:使用所有正例句對訓(xùn)練翻譯系統(tǒng)。

    Neg:使用所有負(fù)例句對訓(xùn)練翻譯系統(tǒng)。

    Rand1:從所有訓(xùn)練句對中隨機(jī)選取與正例句對數(shù)量相等的句對組成句對集合,訓(xùn)練翻譯系統(tǒng)。

    Rand2:從所有訓(xùn)練句對中隨機(jī)選取與負(fù)例句對數(shù)量相等的句對組成句對集合,訓(xùn)練翻譯系統(tǒng)。

    RandPos:從正例句對集合隨機(jī)選取與負(fù)例句對數(shù)量相等的正例句對組成句對集合,訓(xùn)練翻譯系統(tǒng)。

    Pos+recallNeg:在Pos系統(tǒng)的已有正例句對語料基礎(chǔ)上,對每個負(fù)例句對進(jìn)行檢測,若該負(fù)例句對源端含有Pos系統(tǒng)訓(xùn)練集未覆蓋到的新詞,則將該句對加入到訓(xùn)練集中,否則跳過。使用最終得到的訓(xùn)練集合訓(xùn)練翻譯系統(tǒng)。

    4.2.2 實(shí)驗結(jié)果及分析

    通過表2的實(shí)驗結(jié)果我們可以觀察到各個系統(tǒng)在開發(fā)集和測試集上的譯測結(jié)果。Pos系統(tǒng)對比All系統(tǒng)在兩個測試集合上均取得更好的BLEU值(NIST05:+0.74NIST08:+0.87),測試集平均BLEU值提高了0.80個百分點(diǎn)。Pos系統(tǒng)不僅在BLEU值的取得提高,還減小了訓(xùn)練語料的規(guī)?!?xùn)練句對的數(shù)量減少近40%,縮減短語表規(guī)模,加快翻譯速度。但是在刪掉部分語料后,語料的覆蓋度降低,測試集翻譯結(jié)果中未翻譯詞的數(shù)量對比All系統(tǒng)增加了23%。

    表2 各個系統(tǒng)在開發(fā)集測試集的結(jié)果。*和**分別表示顯著性測試中ρ<0.05和ρ<0.01

    對比Pos系統(tǒng)與Rand1系統(tǒng)的結(jié)果,在訓(xùn)練句對數(shù)量相等的情況下,兩個測試集都取得更好的結(jié)果。這也說明我們選擇的正例句對有著更高的質(zhì)量。現(xiàn)在的疑問是,未被選擇的句對即Pos系統(tǒng)中未使用的負(fù)例句對質(zhì)量如何?我們可以觀察Rand2系統(tǒng)、RandPos系統(tǒng)、Neg系統(tǒng)的結(jié)果,我們可以看出在訓(xùn)練語料句對數(shù)量相等,未翻譯詞數(shù)量相當(dāng)?shù)那闆r下,RandPos系統(tǒng)BLEU 值、Rand2系統(tǒng)BLEU值、Neg系統(tǒng)的BLEU值在兩個測試集上依次遞減。這也和我們的預(yù)期所相符。RandPos系統(tǒng)與Neg系統(tǒng)結(jié)果的差異也表明正負(fù)例句對質(zhì)量的差異較大。

    Rand2系統(tǒng)、Rand1系統(tǒng)、All系統(tǒng)的訓(xùn)練語料的句對數(shù)依次增加,但兩個測試集合的BLEU值并非依次上漲。這與語料的選擇有關(guān),因為我們是隨機(jī)選擇的部分語料,新加入的語料中可能參雜著非平行句對,導(dǎo)致測試結(jié)果的BLEU值沒有增長。

    為了提高語料覆蓋度,針對未翻譯詞處理,我們加入了Pos+recallNeg系統(tǒng)對訓(xùn)練語料進(jìn)行如下處理:檢查每個負(fù)例句對,如果負(fù)例句對的源端含有正例句對源端單詞集合未出現(xiàn)的單詞,我們就將此負(fù)例句對加入訓(xùn)練集合。在略微增大訓(xùn)練集規(guī)模的情況下,減少了未翻譯詞的數(shù)量,進(jìn)一步提高譯文BLEU值。對比Pos系統(tǒng),Pos+recallNeg系統(tǒng)增加了47 765個句對。其翻譯結(jié)果中的未翻譯詞對比Pos系統(tǒng)有所減少,但是仍比All系統(tǒng)多,這與我們預(yù)估有所不同??紤]未翻譯詞出現(xiàn)的原因,一是測試集中存在未登錄詞。二是測試集中存在的某個詞,但是包含該詞翻譯的譯文沒有被選為最優(yōu)譯文而被拋棄。對比All系統(tǒng)與Pos+recallNeg系統(tǒng)的未翻譯詞,發(fā)現(xiàn)All系統(tǒng)未翻譯詞并非Pos+recall-Neg系統(tǒng)的未翻譯的子集,證明是第二點(diǎn)原因?qū)е翽os+recallNeg系統(tǒng)的未翻譯詞數(shù)量很多。在測試集BLEU值方面,對比Pos系統(tǒng),雖然在NIST08測試集提升0.42,但是另外一個測試集NIST05上卻降低(NIST05:-0.23)。其原因是添加負(fù)例句對,雖然在語料覆蓋度問題上有所改善,但是負(fù)例句對的增加導(dǎo)致訓(xùn)練語料的整體質(zhì)量降低,翻譯性能無法取得提升。這也說明在選取語料不僅要保證語料覆蓋度,同時要保證語料質(zhì)量。

    5 結(jié)論和未來工作

    本文提出一種自動的基于分類的平行語料選擇方法。利用少數(shù)特征選取差異較大的少量句對構(gòu)建訓(xùn)練集,在該訓(xùn)練集上我們使用更多的特征訓(xùn)練一個分類器,從而對余下平行語料進(jìn)行分類,以選擇高質(zhì)量的句對。實(shí)驗表明,使用過濾后的平行語料在規(guī)模僅為原始語料的60%的情況下翻譯BLEU值能有所提高。

    值得注意的是,我們所構(gòu)造的分類器訓(xùn)練正負(fù)例句對是通過取交集的方式構(gòu)建得到,我們根據(jù) 對每個特征排序取前m%和后n%構(gòu)造偽正負(fù)例句對,然后取交集得到分類器訓(xùn)練正負(fù)例句對。這里選取的正負(fù)例句對并不是真實(shí)的。在本文中為減少實(shí)驗復(fù)雜度,我們?nèi)=30,n=30進(jìn)行試驗。但我們可以引入已有信息對語料質(zhì)量進(jìn)行判斷,從而幫助我們更加合理地設(shè)置m,n的取值。換言之,m,n取值可以依賴于我們自身對語料質(zhì)量的評估。比如,對從網(wǎng)絡(luò)的獲取的語料,通過設(shè)置m取值小于n,構(gòu)造出數(shù)量少的訓(xùn)練正例句對。對人工構(gòu)造的平行語料,我們可以調(diào)整m大于n從而獲得較多的訓(xùn)練正例句對。引入更多信息,能夠幫助我們更好進(jìn)行語料選擇。

    未來工作從以下方面展開。如何構(gòu)造訓(xùn)練分類器的訓(xùn)練句對是語料選擇關(guān)鍵的一步。我們在將來會進(jìn)一步探索其他句對特征,構(gòu)造更具區(qū)分性的分類器訓(xùn)練句對。

    致謝

    該研究工作是第一作者在中國科學(xué)院計算技術(shù)研究所自然語言處理研究組客座實(shí)習(xí)期間完成的。涂兆鵬的工作是其在計算技術(shù)研究所自然語言處理研究組讀博期間完成。感謝蘇州大學(xué)姚建民教授和中國科學(xué)院計算所自然語言處理組呂雅娟研究員對本研究的支持,感謝謝軍博士和涂兆鵬師兄對本文工作的悉心指導(dǎo)。

    [1]Koehn P,Och F J,Marcu D.Statistical phrase-based translation[C]//Proceedings of the 2003Conference of the North American Chapter of the Association for Computational Linguistics on Human Language Technology-Volume 1.Association for Computational Linguistics,2003:48-54.

    [2]Chiang D.A hierarchical phrase-based model for statistical machine translation[C]//Proceedings of the 43rd Annual Meeting on Association for Computational Linguistics.Association for Computational Linguistics,2005:263-270.

    [3]Yang Liu,Qun Liu,Shouxun Lin.Tree-to-string alignment template for statistical machine translation[C]//Proceedings of the 21st International Conference on Computational Linguistics and the 44th annual meeting of the Association for Computational Linguistics.2006:609-616

    [4]Jun Xie,Haitao Mi,Qun Liu.A novel dependency-tostring model for statistical machine translation[C]//Proceedings of the Conference on Empirical Methods in Natural Language Processing.2011:216-226.

    [5]Och F J,Ney H.The alignment template approach to statistical machine translation[J].Computational linguistics,2004,30(4):417-449.

    [6]陳毅東,史曉東,周昌樂.平行語料庫處理初探:一種排序模型[J].中文信息學(xué)報增刊,2006:66-70.

    [7]姚樹杰,肖桐,朱靖波.基于句對質(zhì)量和覆蓋度的統(tǒng)計機(jī)器翻譯訓(xùn)練語料選?。跩].中文信息學(xué)報,2011,25(002):72-77.

    [8]黃瑾,呂雅娟,劉群.基于信息檢索方法的統(tǒng)計翻譯系統(tǒng)訓(xùn)練數(shù)據(jù)選擇與優(yōu)化[J].中文信息學(xué)報,2008,22(2):40-46.

    [9]LüY,Huang J,Liu Q.Improving statistical machine translation performance by training data selection and optimization[C]//Proceedings of the 2007Joint Conference on Empirical Methods in Natural Language Processing and Computational Natural Language Learning(EMNLP-CoNLL).2007:343-350.

    [10]Han X,Li H,Zhao T.Train the machine with what it can learn:corpus selection for SMT[C]//Proceedings of the 2nd Workshop on Building and Using Comparable Corpora:from Parallel to Non-parallel Corpora.Association for Computational Linguistics,2009:27-33.

    [11]Munteanu D S,Marcu D.Improving machine translation performance by exploiting non-parallel corpora[J].Computational Linguistics,2005,31(4):477-504.

    [12]Munteanu D S,F(xiàn)raser A,Marcu D.Improved machine translation performance via parallel sentence extraction from comparable corpora[C]//Proceedings of HLT-NAACL 2004:Main Proceedings.2004:265-272.

    [13]Franz Josef Och,Hermann Ney.Improved Statistical Alignment Models[C]//Proceedings of the 38th ACL,2000.

    [14]Andreas Stolcke. SRILM-an extensible language modeling toolkit[C]//Proceedings of the 7th International Conference on Spoken Language Processing 2002:901-905.

    [15]Koehn P,Hoang H,Birch A,et al.Moses:Open source toolkit for statistical machine translation[C]//Proceedings of the 45th Annual Meeting of the ACL on Interactive Poster and Demonstration Sessions.Association for Computational Linguistics,2007:177-180.

    [16]Och F J.Minimum error rate training in statistical machine translation[C]//Proceedings of the 41st Annual Meeting on Association for Computational Linguistics-Volume 1.Association for Computational Linguistics,2003:160-167.

    [17]Papineni K,Roukos S,Ward T,et al.BLEU:a method for automatic evaluation of machine translation[C]//Proceedings of the 40th annual meeting on association for computational linguistics.Association for Computational Linguistics,2002:311-318.

    猜你喜歡
    例句語料平行
    向量的平行與垂直
    平行
    逃離平行世界
    英聲細(xì)語
    基于語料調(diào)查的“連……都(也)……”出現(xiàn)的語義背景分析
    好詞好句
    好詞好句
    再頂平行進(jìn)口
    汽車觀察(2016年3期)2016-02-28 13:16:36
    華語電影作為真實(shí)語料在翻譯教學(xué)中的應(yīng)用
    好詞好句
    国产亚洲av嫩草精品影院| 三级国产精品欧美在线观看| avwww免费| 欧美一区二区亚洲| 狂野欧美白嫩少妇大欣赏| 午夜激情福利司机影院| a级毛色黄片| 狂野欧美激情性xxxx在线观看| 99热网站在线观看| 色吧在线观看| 69av精品久久久久久| 人妻系列 视频| 99久久精品一区二区三区| 欧美日韩一区二区视频在线观看视频在线 | 欧美bdsm另类| 最近视频中文字幕2019在线8| 人妻少妇偷人精品九色| 国产成人精品一,二区 | 99热6这里只有精品| 99热精品在线国产| 日本黄大片高清| 国产精品免费一区二区三区在线| av视频在线观看入口| 国产黄色视频一区二区在线观看 | 中文在线观看免费www的网站| 免费看av在线观看网站| 中文字幕av在线有码专区| 亚洲国产精品久久男人天堂| 成人综合一区亚洲| 亚洲国产精品成人综合色| 国产伦精品一区二区三区视频9| 国产精品一区二区性色av| 九九在线视频观看精品| 你懂的网址亚洲精品在线观看 | 国内精品美女久久久久久| 国产午夜福利久久久久久| 国内精品美女久久久久久| 国产三级中文精品| 欧美日本亚洲视频在线播放| 国产一区二区三区av在线 | 欧美3d第一页| 成人亚洲精品av一区二区| 99久久人妻综合| 免费看光身美女| 日本与韩国留学比较| 日韩强制内射视频| 国产麻豆成人av免费视频| 成人欧美大片| 悠悠久久av| av又黄又爽大尺度在线免费看 | 韩国av在线不卡| 美女被艹到高潮喷水动态| 我的老师免费观看完整版| 久久人人爽人人爽人人片va| 老司机影院成人| 国产日韩欧美在线精品| 欧美三级亚洲精品| 国产成人精品婷婷| 国产精品久久久久久精品电影小说 | 大又大粗又爽又黄少妇毛片口| 亚洲电影在线观看av| 我的女老师完整版在线观看| 春色校园在线视频观看| 亚洲人成网站高清观看| 日本黄色视频三级网站网址| 亚洲一级一片aⅴ在线观看| 能在线免费看毛片的网站| 国产乱人偷精品视频| 欧美最新免费一区二区三区| 国产精品久久久久久精品电影| 国模一区二区三区四区视频| 国产色爽女视频免费观看| 亚洲中文字幕日韩| 97超视频在线观看视频| 久久午夜亚洲精品久久| 啦啦啦观看免费观看视频高清| 精品一区二区三区人妻视频| 国产国拍精品亚洲av在线观看| 亚洲欧美中文字幕日韩二区| 午夜视频国产福利| 神马国产精品三级电影在线观看| 激情 狠狠 欧美| 最近2019中文字幕mv第一页| 免费av观看视频| 2022亚洲国产成人精品| 欧美性感艳星| 亚洲av电影不卡..在线观看| 国产黄片美女视频| 丰满的人妻完整版| 午夜免费激情av| 国内久久婷婷六月综合欲色啪| 一级黄色大片毛片| 国产精品人妻久久久影院| 一本一本综合久久| 天堂av国产一区二区熟女人妻| 波多野结衣高清无吗| 欧美bdsm另类| 边亲边吃奶的免费视频| 中文字幕免费在线视频6| 桃色一区二区三区在线观看| 成年av动漫网址| 久久久精品大字幕| 欧美日本视频| 三级经典国产精品| 日韩一本色道免费dvd| 久久精品国产自在天天线| 亚洲国产欧美在线一区| 美女xxoo啪啪120秒动态图| 一边摸一边抽搐一进一小说| 亚洲欧美日韩高清专用| 内地一区二区视频在线| 人人妻人人澡人人爽人人夜夜 | 免费av观看视频| 久久国产乱子免费精品| 18禁在线无遮挡免费观看视频| 亚洲天堂国产精品一区在线| av在线蜜桃| 国产视频首页在线观看| 老司机福利观看| .国产精品久久| 深夜精品福利| 最近的中文字幕免费完整| 中国美白少妇内射xxxbb| 色噜噜av男人的天堂激情| 亚洲精品久久国产高清桃花| 日韩大尺度精品在线看网址| 2022亚洲国产成人精品| 欧美激情在线99| 尤物成人国产欧美一区二区三区| 午夜福利在线观看免费完整高清在 | 日本黄色片子视频| h日本视频在线播放| 久久中文看片网| 亚洲成人久久爱视频| 赤兔流量卡办理| 91av网一区二区| 国产成人a∨麻豆精品| 老师上课跳d突然被开到最大视频| 女同久久另类99精品国产91| 深夜精品福利| a级毛色黄片| 免费无遮挡裸体视频| 最新中文字幕久久久久| 久久久a久久爽久久v久久| 如何舔出高潮| 亚洲av成人精品一区久久| 最近最新中文字幕大全电影3| 国产欧美日韩精品一区二区| 久久久久久久久久成人| 精品熟女少妇av免费看| 成人三级黄色视频| 天堂√8在线中文| 男女视频在线观看网站免费| 韩国av在线不卡| 国产在线精品亚洲第一网站| 搞女人的毛片| 国内少妇人妻偷人精品xxx网站| 国产精品av视频在线免费观看| 日韩强制内射视频| 国内精品宾馆在线| 久久草成人影院| kizo精华| 91久久精品电影网| 国产精品日韩av在线免费观看| 国产精品一区www在线观看| kizo精华| 99热网站在线观看| 51国产日韩欧美| 欧美日韩国产亚洲二区| 菩萨蛮人人尽说江南好唐韦庄 | 久久久久性生活片| 亚洲色图av天堂| 我的女老师完整版在线观看| 韩国av在线不卡| 国产探花极品一区二区| 国产精品av视频在线免费观看| 久久午夜亚洲精品久久| kizo精华| 久久99热这里只有精品18| 可以在线观看的亚洲视频| 国产探花极品一区二区| 我的女老师完整版在线观看| 午夜激情福利司机影院| 亚洲av二区三区四区| 精品午夜福利在线看| 国产麻豆成人av免费视频| 日韩,欧美,国产一区二区三区 | 一本久久中文字幕| 麻豆一二三区av精品| 亚洲欧美日韩无卡精品| 久久久久九九精品影院| 国产成人一区二区在线| av免费在线看不卡| 99热全是精品| 国产黄片美女视频| 久久久久久国产a免费观看| 亚洲av不卡在线观看| 亚洲第一区二区三区不卡| 91久久精品国产一区二区三区| 蜜桃亚洲精品一区二区三区| 国产成人精品久久久久久| 欧美性感艳星| 晚上一个人看的免费电影| 伊人久久精品亚洲午夜| 久久人人精品亚洲av| 在线观看一区二区三区| 亚洲国产欧洲综合997久久,| 中国美女看黄片| 午夜福利成人在线免费观看| 亚洲欧美成人精品一区二区| 国产精品一区二区性色av| 亚洲av免费在线观看| 久久韩国三级中文字幕| 成人鲁丝片一二三区免费| 亚洲人成网站在线观看播放| 色哟哟哟哟哟哟| 国产精品一区二区三区四区久久| 久久久久九九精品影院| 亚洲天堂国产精品一区在线| 看十八女毛片水多多多| 国产不卡一卡二| 一个人观看的视频www高清免费观看| 校园春色视频在线观看| 不卡视频在线观看欧美| 网址你懂的国产日韩在线| 三级国产精品欧美在线观看| 97人妻精品一区二区三区麻豆| 中文字幕熟女人妻在线| 午夜爱爱视频在线播放| av在线老鸭窝| 免费观看在线日韩| 搡女人真爽免费视频火全软件| 日本免费a在线| 啦啦啦啦在线视频资源| 国产伦理片在线播放av一区 | 一级毛片电影观看 | 亚洲婷婷狠狠爱综合网| 久久精品国产鲁丝片午夜精品| 22中文网久久字幕| 国产精品久久视频播放| 人人妻人人看人人澡| 精品一区二区免费观看| 国产69精品久久久久777片| 美女脱内裤让男人舔精品视频 | 精品国内亚洲2022精品成人| 在线观看一区二区三区| 午夜激情福利司机影院| 国产极品精品免费视频能看的| 少妇裸体淫交视频免费看高清| 亚洲人成网站高清观看| 看非洲黑人一级黄片| 亚洲欧美中文字幕日韩二区| av福利片在线观看| 观看美女的网站| 国产大屁股一区二区在线视频| 最好的美女福利视频网| 禁无遮挡网站| 亚洲经典国产精华液单| 国产精品日韩av在线免费观看| 直男gayav资源| 亚洲av中文av极速乱| 春色校园在线视频观看| 国产毛片a区久久久久| 国产国拍精品亚洲av在线观看| 国产91av在线免费观看| 最好的美女福利视频网| 久久久久网色| 三级男女做爰猛烈吃奶摸视频| 青青草视频在线视频观看| 丝袜喷水一区| 精品久久久久久久久亚洲| 国产人妻一区二区三区在| 婷婷精品国产亚洲av| 青春草亚洲视频在线观看| 国产在线精品亚洲第一网站| avwww免费| 美女 人体艺术 gogo| 国产亚洲精品久久久久久毛片| 欧美日韩乱码在线| 全区人妻精品视频| 久久6这里有精品| 免费一级毛片在线播放高清视频| 亚洲欧洲国产日韩| 蜜桃亚洲精品一区二区三区| 91午夜精品亚洲一区二区三区| 99久久无色码亚洲精品果冻| 国产成人一区二区在线| 亚洲内射少妇av| 最近最新中文字幕大全电影3| 婷婷色综合大香蕉| 国产美女午夜福利| 寂寞人妻少妇视频99o| 亚洲国产精品成人综合色| 欧美日韩国产亚洲二区| 亚洲国产欧美人成| 精品久久久久久久久久免费视频| 久久婷婷人人爽人人干人人爱| 美女高潮的动态| 91久久精品电影网| 给我免费播放毛片高清在线观看| 在线观看免费视频日本深夜| 国产高清有码在线观看视频| 美女被艹到高潮喷水动态| 97超视频在线观看视频| 色尼玛亚洲综合影院| 欧美日韩在线观看h| 乱系列少妇在线播放| 全区人妻精品视频| 在线观看午夜福利视频| 色综合色国产| 校园人妻丝袜中文字幕| 日韩在线高清观看一区二区三区| 欧美精品国产亚洲| 又黄又爽又刺激的免费视频.| 男人舔女人下体高潮全视频| 美女高潮的动态| 大型黄色视频在线免费观看| 亚洲va在线va天堂va国产| 国产精品国产高清国产av| 亚洲无线在线观看| 美女被艹到高潮喷水动态| 国产精品一区二区三区四区久久| 老师上课跳d突然被开到最大视频| 国产一区二区在线观看日韩| 一级av片app| 亚洲精品久久久久久婷婷小说 | 成人二区视频| 日韩av不卡免费在线播放| 国产片特级美女逼逼视频| 变态另类成人亚洲欧美熟女| 日韩av在线大香蕉| 欧美激情久久久久久爽电影| 美女xxoo啪啪120秒动态图| 看片在线看免费视频| 国产亚洲91精品色在线| 99热这里只有是精品50| av免费在线看不卡| 国产乱人偷精品视频| 26uuu在线亚洲综合色| 久久草成人影院| 只有这里有精品99| 韩国av在线不卡| 日韩精品青青久久久久久| 麻豆成人午夜福利视频| 国产熟女欧美一区二区| 日本一二三区视频观看| 在线观看66精品国产| 99国产精品一区二区蜜桃av| 国内精品一区二区在线观看| 天美传媒精品一区二区| 国产免费男女视频| 国产高清有码在线观看视频| 天天一区二区日本电影三级| 一夜夜www| 一个人看视频在线观看www免费| 乱人视频在线观看| 伦精品一区二区三区| 97在线视频观看| 国产精品电影一区二区三区| 97在线视频观看| 欧美潮喷喷水| 国产黄a三级三级三级人| 国产高清三级在线| 国产成年人精品一区二区| 又黄又爽又刺激的免费视频.| 久久久久久伊人网av| 国产精品永久免费网站| 精品一区二区免费观看| 久久久a久久爽久久v久久| 国产成人91sexporn| 亚洲人成网站在线播| 3wmmmm亚洲av在线观看| 日本三级黄在线观看| 欧美bdsm另类| 欧美高清性xxxxhd video| 成人三级黄色视频| 精品日产1卡2卡| 26uuu在线亚洲综合色| 精品日产1卡2卡| 18禁黄网站禁片免费观看直播| 桃色一区二区三区在线观看| 国产午夜精品久久久久久一区二区三区| 欧美丝袜亚洲另类| 亚洲精品乱码久久久久久按摩| 久久久久网色| ponron亚洲| 亚洲国产精品成人久久小说 | 99热这里只有是精品在线观看| 欧美又色又爽又黄视频| 青春草国产在线视频 | 欧美成人a在线观看| 久久久欧美国产精品| 色综合亚洲欧美另类图片| 国产黄色视频一区二区在线观看 | 国产精品国产高清国产av| 亚洲国产欧美在线一区| 一级av片app| 熟女电影av网| 免费观看人在逋| 精品久久久噜噜| 日日啪夜夜撸| 国产精品久久视频播放| 久久这里有精品视频免费| 日产精品乱码卡一卡2卡三| 能在线免费看毛片的网站| 可以在线观看毛片的网站| 少妇被粗大猛烈的视频| 成人无遮挡网站| 日日摸夜夜添夜夜添av毛片| 久久亚洲精品不卡| 男人狂女人下面高潮的视频| 高清午夜精品一区二区三区 | 日本熟妇午夜| 色综合站精品国产| 男女那种视频在线观看| 18禁黄网站禁片免费观看直播| 国产精品美女特级片免费视频播放器| 黄色一级大片看看| 国产激情偷乱视频一区二区| 看黄色毛片网站| 变态另类丝袜制服| 老司机福利观看| 国产精品久久久久久亚洲av鲁大| 精品一区二区三区视频在线| 你懂的网址亚洲精品在线观看 | 国产成人福利小说| 啦啦啦啦在线视频资源| 色哟哟哟哟哟哟| 色播亚洲综合网| 日本撒尿小便嘘嘘汇集6| 亚洲人成网站在线播| 夜夜看夜夜爽夜夜摸| 乱人视频在线观看| 大又大粗又爽又黄少妇毛片口| 少妇丰满av| 免费在线观看成人毛片| 亚洲中文字幕一区二区三区有码在线看| 日日干狠狠操夜夜爽| 成人午夜精彩视频在线观看| 日韩中字成人| 国产精品久久久久久久久免| 日产精品乱码卡一卡2卡三| 亚洲国产色片| 亚洲电影在线观看av| 国产成人影院久久av| 成人高潮视频无遮挡免费网站| 激情 狠狠 欧美| 国产伦精品一区二区三区四那| 国产精品久久久久久精品电影| 亚洲美女视频黄频| 日韩高清综合在线| 国产毛片a区久久久久| 欧美一区二区亚洲| 波多野结衣巨乳人妻| 99在线人妻在线中文字幕| 观看免费一级毛片| 国内揄拍国产精品人妻在线| 干丝袜人妻中文字幕| 午夜视频国产福利| 国产成年人精品一区二区| 成人二区视频| 欧美日韩综合久久久久久| 亚洲aⅴ乱码一区二区在线播放| 尾随美女入室| 国产精品人妻久久久影院| 午夜精品国产一区二区电影 | 国产 一区 欧美 日韩| 蜜臀久久99精品久久宅男| 麻豆国产av国片精品| 午夜免费男女啪啪视频观看| 亚洲内射少妇av| 日韩视频在线欧美| 国产精品国产三级国产av玫瑰| 人妻久久中文字幕网| 国产真实伦视频高清在线观看| 1024手机看黄色片| 欧美激情久久久久久爽电影| 国产一区二区在线av高清观看| 九九爱精品视频在线观看| 国产三级在线视频| 美女高潮的动态| 日本撒尿小便嘘嘘汇集6| 蜜桃久久精品国产亚洲av| 成年女人看的毛片在线观看| 欧美xxxx黑人xx丫x性爽| 麻豆一二三区av精品| 亚洲精品日韩av片在线观看| 国产精品美女特级片免费视频播放器| 亚洲电影在线观看av| av视频在线观看入口| 欧美日韩国产亚洲二区| 舔av片在线| 国产av麻豆久久久久久久| 久久精品久久久久久噜噜老黄 | 午夜福利在线观看吧| 熟妇人妻久久中文字幕3abv| 91久久精品国产一区二区三区| 亚洲三级黄色毛片| 91麻豆精品激情在线观看国产| 晚上一个人看的免费电影| 黄片无遮挡物在线观看| 可以在线观看的亚洲视频| 一区二区三区高清视频在线| 美女内射精品一级片tv| 99久久九九国产精品国产免费| 免费看美女性在线毛片视频| 97超碰精品成人国产| 国产高清视频在线观看网站| 久久人妻av系列| 久久久成人免费电影| 午夜福利成人在线免费观看| 久久久久久久久大av| 国产伦精品一区二区三区四那| 日本爱情动作片www.在线观看| 中文亚洲av片在线观看爽| 韩国av在线不卡| 午夜a级毛片| 男女那种视频在线观看| 中国国产av一级| 国产精品1区2区在线观看.| 在线免费十八禁| 国产真实伦视频高清在线观看| 高清在线视频一区二区三区 | 在线观看美女被高潮喷水网站| 变态另类成人亚洲欧美熟女| 在线免费观看不下载黄p国产| 色噜噜av男人的天堂激情| 精品久久久噜噜| 亚洲av一区综合| 欧美日韩一区二区视频在线观看视频在线 | 亚洲国产精品国产精品| 久久久久久久午夜电影| 人妻制服诱惑在线中文字幕| 校园人妻丝袜中文字幕| 天天一区二区日本电影三级| 搡老妇女老女人老熟妇| 精品欧美国产一区二区三| 欧美人与善性xxx| 哪里可以看免费的av片| 又爽又黄a免费视频| 成人国产麻豆网| 国产91av在线免费观看| avwww免费| 国产久久久一区二区三区| 精品国产三级普通话版| 国产精品久久电影中文字幕| 午夜a级毛片| 日本三级黄在线观看| 精品一区二区免费观看| 级片在线观看| 免费电影在线观看免费观看| 国产乱人偷精品视频| 亚洲av男天堂| 精品久久久久久久久久免费视频| 国产精品人妻久久久影院| 天堂网av新在线| 国产国拍精品亚洲av在线观看| 国产激情偷乱视频一区二区| 国国产精品蜜臀av免费| 亚洲成av人片在线播放无| 色综合站精品国产| 国产亚洲精品av在线| 少妇裸体淫交视频免费看高清| 91狼人影院| а√天堂www在线а√下载| 亚洲最大成人中文| 久久韩国三级中文字幕| 国产老妇女一区| 1024手机看黄色片| 亚洲精品亚洲一区二区| 国产麻豆成人av免费视频| 自拍偷自拍亚洲精品老妇| 国产 一区 欧美 日韩| 18禁在线播放成人免费| 亚洲中文字幕一区二区三区有码在线看| 久久99热6这里只有精品| 高清日韩中文字幕在线| 18+在线观看网站| 一本久久精品| 美女大奶头视频| 国内精品久久久久精免费| 偷拍熟女少妇极品色| 波野结衣二区三区在线| 99热全是精品| 美女国产视频在线观看| 一个人看视频在线观看www免费| 午夜福利视频1000在线观看| 精品人妻视频免费看| av专区在线播放| 99riav亚洲国产免费| 日产精品乱码卡一卡2卡三| 亚洲在线观看片| 99国产精品一区二区蜜桃av| 久久热精品热| 久久久久久久久久久丰满| 免费大片18禁| 中文亚洲av片在线观看爽| 国产单亲对白刺激| 99在线人妻在线中文字幕| 日韩国内少妇激情av| 在线免费十八禁| 色噜噜av男人的天堂激情| 久久久欧美国产精品| 亚洲av免费高清在线观看| 看非洲黑人一级黄片| 久久久欧美国产精品| 亚洲精品久久国产高清桃花| 亚洲真实伦在线观看| 国产在线精品亚洲第一网站| 久久韩国三级中文字幕| 久久久午夜欧美精品| 真实男女啪啪啪动态图| 我要搜黄色片| ponron亚洲| 十八禁国产超污无遮挡网站|