薛征山,張大鯤,王麗娜,郝 杰
(東芝(中國(guó))研究開(kāi)發(fā)中心,北京100600)
改進(jìn)機(jī)器翻譯中的句子切分模型
薛征山,張大鯤,王麗娜,郝 杰
(東芝(中國(guó))研究開(kāi)發(fā)中心,北京100600)
隨著統(tǒng)計(jì)機(jī)器翻譯系統(tǒng)訓(xùn)練語(yǔ)料的不斷增加,長(zhǎng)句子的數(shù)量越來(lái)越多,如何有效地利用長(zhǎng)句子中的信息改進(jìn)翻譯質(zhì)量是統(tǒng)計(jì)機(jī)器翻譯系統(tǒng)面臨的主要問(wèn)題之一。該文基于Xu的句子切分模型,提出了一種在訓(xùn)練階段切分長(zhǎng)句子的方法,該方法利用自動(dòng)獲取的邊界詞概率和切分后子句對(duì)的長(zhǎng)度比例來(lái)指導(dǎo)切分過(guò)程,從而得到更符合語(yǔ)義信息的句子切分結(jié)果。在NIST測(cè)試集上的實(shí)驗(yàn)結(jié)果表明,該方法獲得了最大0.5個(gè)BLEU值的提升。
統(tǒng)計(jì)機(jī)器翻譯;句子切分模型;邊界詞概率
Abstract: Long sentence segmentation is a valid issue in optimizing the quality of machine translation. This paper proposes a new method for long sentence segmentation during the training process. This method automatically decides the boundary words and their probabilities without manual intervention, which results more meaningful segmentation in semantics. Also, the length of segmented sub-sentences are balanced through both source and target languages. Experiments on the NIST test sets show an improvement of up to 0.5 BLEU scores.
Key words: statistical machine translation;sentence segmentation model; word boundary probability
收稿日期: 2015-09-18 定稿日期: 2015-12-18
近年來(lái),統(tǒng)計(jì)機(jī)器翻譯[1-9]逐漸成為自然語(yǔ)言處理領(lǐng)域的研究熱點(diǎn)?;诮y(tǒng)計(jì)的機(jī)器翻譯需要大規(guī)模的雙語(yǔ)平行句對(duì)。雙語(yǔ)平行句對(duì)是非常昂貴的資源,尤其是對(duì)于稀缺的語(yǔ)言對(duì)來(lái)說(shuō)更是如此。在大規(guī)模雙語(yǔ)平行句對(duì)中,不可避免地存在一些長(zhǎng)度很長(zhǎng)的句子(句子既可以指平行句對(duì)中的源語(yǔ)言句子,也可以指句對(duì)中的目標(biāo)端句子)。長(zhǎng)句子的存在,會(huì)增加系統(tǒng)訓(xùn)練的開(kāi)銷(xiāo)(內(nèi)存和時(shí)間),所以大多數(shù)翻譯系統(tǒng)(如Moses[5])通常在訓(xùn)練階段將長(zhǎng)度大于某個(gè)固定值的句子移除。這樣做存在數(shù)據(jù)使用不充分的問(wèn)題,而如果能夠?qū)㈤L(zhǎng)句子切分成長(zhǎng)度適中的較短的句子,就可以充分利用數(shù)據(jù)。數(shù)據(jù)量增大(相對(duì)于移除長(zhǎng)句子),有助于提高翻譯質(zhì)量。由此可見(jiàn),長(zhǎng)句子切分是一項(xiàng)非常有必要的工作。
長(zhǎng)句子的切分方法主要分為兩類(lèi),一類(lèi)是在訓(xùn)練階段對(duì)句子進(jìn)行切分,另一類(lèi)是在解碼階段對(duì)句子進(jìn)行切分。Kim[10]提出了一種在訓(xùn)練階段基于規(guī)則的切分方法,雖然取得了較好的效果,但是這種方法依賴于人工書(shū)寫(xiě)規(guī)則,費(fèi)時(shí)費(fèi)力,難以維護(hù)。Nevado[11]使用詞匯化信息,通過(guò)動(dòng)態(tài)程序算法尋找句子切分點(diǎn),這種方法需要手動(dòng)收集錨文本(anchor words)詞匯,并且句子切分后只允許子句單調(diào)對(duì)齊。Xu[12]提出了一種基于IBM模型1的句子切分方法,該方法允許單調(diào)和非單調(diào)對(duì)齊,同時(shí),通過(guò)加入長(zhǎng)度平衡因子和反向?qū)R模型,在兩個(gè)中英翻譯任務(wù)中,均取得較好的效果。然而,該方法并沒(méi)有考慮切分后的子句是否是有意義的邏輯單位。Meng[13]對(duì)Xu的方法進(jìn)行了改進(jìn),加入了語(yǔ)義指導(dǎo)和泊松分布率。Meng的方法仍然需要人工收集一些邊界詞匯,同時(shí)該方法沒(méi)有考慮同一個(gè)邊界詞既可以作為子句開(kāi)始,也可以作為子句結(jié)束的概率。
其他一些方法關(guān)注于解碼階段的句子切分。Doi[14]提出了使用N-gram和三個(gè)評(píng)測(cè)標(biāo)準(zhǔn)進(jìn)行語(yǔ)音輸出的切分。Furuse[15]提出了一種基于語(yǔ)義距離的語(yǔ)音輸出切分方法。Sudoh[16]使用句法分析器將訓(xùn)練集和測(cè)試集切分成多個(gè)子句,而后引入非終結(jié)符改寫(xiě)句子,同時(shí)提出了基于圖的子句對(duì)齊模型。這個(gè)方法有效地改善了長(zhǎng)句子的調(diào)序問(wèn)題,提高了翻譯系統(tǒng)的質(zhì)量。然而該方法依賴于句法分析結(jié)果的質(zhì)量,同時(shí),當(dāng)一個(gè)長(zhǎng)句子中的多個(gè)子句不存在主從關(guān)系時(shí),該方法的效果不是十分明顯。
由前人的工作可以看出,在訓(xùn)練階段對(duì)訓(xùn)練語(yǔ)料的切分方法[10-13],大多數(shù)都需要人工書(shū)寫(xiě)規(guī)則或者收集錨文本。Xu的方法雖然不需要人工干預(yù),但是切分點(diǎn)比較任意,切分后可能出現(xiàn)無(wú)意義的片段。Meng的方法利用人工定義的邊界詞集合指導(dǎo)句子切分,可以有效地改進(jìn)Xu的句子切分模型。但是該方法要求切分點(diǎn)的詞都包含在邊界詞集合里。
針對(duì)以上問(wèn)題,本文提出了一種在訓(xùn)練階段自動(dòng)進(jìn)行的長(zhǎng)句子切分方法,這種方法不需要人工書(shū)寫(xiě)規(guī)則或者收集錨文本、邊界詞等,因此克服了Meng的方法的不足之處,同時(shí)可以處理Xu的方法引起的切分點(diǎn)任意的問(wèn)題。本方法可以概述為四步: (1)使用GIZA++獲得雙語(yǔ)詞對(duì)齊和詞匯翻譯概率; (2)使用Zhang提出的SRA(shift-reduce-algorithm)方法,獲得雙語(yǔ)句對(duì)的層次型結(jié)構(gòu)樹(shù)。(3)根據(jù)步驟(2)的輸出結(jié)果,收集邊界詞集并使用最大似然方法獲得詞邊界概率; (4)將詞邊界概率集成到Xu的方法當(dāng)中,計(jì)算句子的切分位置。在NIST數(shù)據(jù)集上的實(shí)驗(yàn)表明,這種方法能夠有效地提高翻譯系統(tǒng)的翻譯質(zhì)量。
后續(xù)章節(jié)組織結(jié)構(gòu)如下: 第二節(jié)介紹Xu和Meng的工作,第三節(jié)介紹本文提出的長(zhǎng)句子切分模型,第四節(jié)給出相關(guān)實(shí)驗(yàn)結(jié)果、分析,以及一些切分樣例,最后一節(jié)是結(jié)束語(yǔ)。
給定雙語(yǔ)句對(duì)(f,t),其中f=f1f2…fm-1fm表示包含m個(gè)詞的源語(yǔ)言句子,t=t1t2…tn-1tn表示包含n個(gè)詞的目標(biāo)語(yǔ)言句子。定義句對(duì)片段(f′,t′),其中f′=fj1fj1+1…fj2-1fj2,t′=ti1ti1+1…ti2-1ti2,存在約束0 2.1Xu的切分模型 Xu的方法首先計(jì)算切分后得到的句對(duì)翻譯概率,利用這一概率信息尋找最優(yōu)的切分位置。其句對(duì)(f′,t′)的翻譯概率定義為式(1)。 (1) 其中p(fv|tz)表示由IBM模型1產(chǎn)生的詞匯翻譯概率。在式(1)的基礎(chǔ)上,Xu加入了兩個(gè)改進(jìn)因子。 (1) 長(zhǎng)度因子(length normalization): β是一個(gè)平衡權(quán)重。 (2) 反向?qū)R模型(inverse alignment model): (4) 假設(shè)當(dāng)前需要切分的句對(duì)為(f′,t′),(j,i)是任意切分位置,其中j∈[j1,j2-1],i∈[i1,i2-1]。切分后產(chǎn)生兩個(gè)子句對(duì),子句對(duì)的概率使用式(4)進(jìn)行計(jì)算。 存在兩種對(duì)齊方式: (1) 單調(diào)對(duì)齊pj,i,1: (5) (2) 非單調(diào)對(duì)齊pj,i,0: (6) 目標(biāo)函數(shù): (7) 通過(guò)式(7),可以獲得切分位置和對(duì)齊方式,從而實(shí)現(xiàn)句子切分。 2.2 Meng的切分模型 在Xu的方法中切分位置和對(duì)齊方式依賴于式(7)的計(jì)算,其切分結(jié)果沒(méi)有考慮所得到的切分片段是否具有語(yǔ)言學(xué)意義。Meng通過(guò)研究發(fā)現(xiàn)很多長(zhǎng)句子是包含子句的復(fù)合句,而子句一般是由引導(dǎo)詞引導(dǎo)的,例如英語(yǔ)中的“when”、“which”之類(lèi)的詞。除了引導(dǎo)詞之外,還有連詞、標(biāo)點(diǎn)等,這些詞通常表示一個(gè)完整片段的起始或者結(jié)束,其所在的位置可以作為切分候選。如果從這些詞的位置進(jìn)行切分,那么切分出來(lái)的片段或者子句,將更符合實(shí)際語(yǔ)義。所以,Meng收集了四個(gè)詞匯集合: 作為子句或者片段開(kāi)始的源語(yǔ)言和目標(biāo)語(yǔ)言詞匯列表WLf,s、WLt,s,和作為子句或者片段結(jié)束的源語(yǔ)言和目標(biāo)語(yǔ)言詞匯列表WLf,e、WLt,e。 對(duì)于式(7)中的切分位置(j,i)的詞,如果滿足式(8)。 則 (8) 實(shí)驗(yàn)結(jié)果表明,該方法在Xu的方法基礎(chǔ)上取得了較好的效果。 3.1 自動(dòng)獲取邊界詞集 Xiong[17]使用雙語(yǔ)詞對(duì)齊語(yǔ)料,利用Zhang[18] 提出的SRA方法,獲得雙語(yǔ)句對(duì)的層次型結(jié)構(gòu)樹(shù),樹(shù)中的每個(gè)節(jié)點(diǎn)稱(chēng)為一個(gè)翻譯域(translation zone),通過(guò)給多個(gè)詞組成的翻譯域的首詞和尾詞定義詞類(lèi),獲得了帶有詞類(lèi)標(biāo)簽的訓(xùn)練語(yǔ)料。受Xiong[17]的啟發(fā),我們也用同樣的方法自動(dòng)從長(zhǎng)句子中獲得切分點(diǎn)邊界詞集合。與Xiong的方法的不同之處在于,我們不僅要獲得源語(yǔ)言邊界詞集,同時(shí)也要獲得目標(biāo)語(yǔ)言邊界詞集。下面以Xiong論文中的例句進(jìn)行說(shuō)明。 圖1(a)中是一個(gè)多對(duì)多的對(duì)齊案例,圖1(b)是利用SRA算法獲得的與(a)對(duì)應(yīng)的層次型結(jié)構(gòu)樹(shù)。圖1(b)中的每個(gè)節(jié)點(diǎn)是一個(gè)雙語(yǔ)短語(yǔ)對(duì),所以每個(gè)節(jié)點(diǎn)都包含標(biāo)識(shí)該短語(yǔ)對(duì)源語(yǔ)言端和目標(biāo)語(yǔ)言端的起始和結(jié)束邊界詞。遍歷樹(shù)中長(zhǎng)度大于1的節(jié)點(diǎn)(長(zhǎng)度為1的節(jié)點(diǎn),起始和結(jié)束邊界詞一樣),收集到的邊界詞匯集合如下: WLf,s,WLf,e,WLt,s,WLt,e的定義同上,分別表示源語(yǔ)言端起始邊界詞集合,源語(yǔ)言端結(jié)束邊界詞集合,目標(biāo)語(yǔ)言端起始邊界詞集合和目標(biāo)語(yǔ)言端結(jié)束邊界詞集合。 圖1 雙語(yǔ)詞對(duì)齊及其層次型結(jié)構(gòu)樹(shù)表示 3.2 計(jì)算邊界詞概率 利用SRA算法可以自動(dòng)獲取四個(gè)邊界詞集合。對(duì)于某一個(gè)詞來(lái)說(shuō),在不同的上下文情況下可以既屬于邊界開(kāi)始,也可以屬于邊界結(jié)尾,因此集合WLf,s和WLf,e,WLt,s和WLt,e可能存在交集。我們定義每個(gè)邊界詞的概率如下,用來(lái)表示該詞作為邊界起始和結(jié)尾的可能性。 (9) 其中,f表示源語(yǔ)言端,t表示目標(biāo)語(yǔ)言端,s表示邊界開(kāi)始,e表示邊界結(jié)尾。表1是自動(dòng)抽取的一些邊界詞概率樣例。 表1 邊界詞概率樣例表 3.3 本文的切分方法 在Xu[12]的方法基礎(chǔ)上,我們定義了變量v(f,t,j,i)來(lái)表示切分位置具有語(yǔ)言學(xué)意義的程度,同時(shí)定義r1和r2來(lái)平衡切分后的子句長(zhǎng)度。 本節(jié)符號(hào)系統(tǒng)仍然與第二節(jié)相同。假設(shè)(j,i)是任意切分位置,v(f,t,j,i)定義如下: (10) 句子切分后根據(jù)子句對(duì)的對(duì)齊方式不同,定義r1,r2兩個(gè)變量。 對(duì)于單調(diào)對(duì)齊: 對(duì)于非單調(diào)對(duì)齊: 目標(biāo)函數(shù): 式(15)能夠?qū)τ幸饬x的切分位置給予獎(jiǎng)勵(lì)(v(f,t,j,i)值較大),同時(shí)對(duì)失衡句對(duì)給予懲罰(r1×r2較小)。例如,假設(shè)切分前句對(duì)長(zhǎng)度比是27∶20,切分位置是(24,2),對(duì)于切分后子句單調(diào)對(duì)齊來(lái)說(shuō),r1=1/12,r2=1/6。對(duì)于非單調(diào)對(duì)齊,r1=3/4,r2=2/3。在這種情況下,將更偏向于非單調(diào)對(duì)齊切分。 式(16)的切分算法遞歸進(jìn)行,直到找不到符合條件的切分位置為止。 3.4 動(dòng)態(tài)參數(shù) 在句子切分過(guò)程中,設(shè)置了四個(gè)參數(shù)用于控制切分。 (1) GlobalMaxLen和GlobalMinLen: 這是兩個(gè)靜態(tài)參數(shù),對(duì)于所有句子都保持不變。GlobalMaxLen的主要作用是確定雙語(yǔ)句對(duì)是否需要切分(如果雙語(yǔ)句對(duì)長(zhǎng)度均不超過(guò)GlobalMaxLen,則不進(jìn)行切分,否則就需要切分)。GlobalMinLen用于控制切分后得到的最小子句(片段)長(zhǎng)度。 (2) LocalMaxLen和LocalMinLen: 這兩個(gè)動(dòng)態(tài)參數(shù)是為需要切分的每個(gè)句子設(shè)置的。動(dòng)態(tài)參數(shù)根據(jù)如下方法確定。 Step2: LocalMaxLen= LocalMinLen= Step3: LocalMaxLen=GlobalMaxLen if LocalMaxLen>GlobalMaxLen; LocalMinLen=GlobalMinLen if LocalMinLen 在實(shí)際的切分過(guò)程中,我們使用LocalMinLen代替GlobalMinLen,用LocalMaxLen代替GlobalMaxLen來(lái)控制切分過(guò)程。原因是在實(shí)驗(yàn)的過(guò)程中,我們發(fā)現(xiàn)切分后的子片段或者子句長(zhǎng)度,一般都偏向于GlobalMinLen(GlocalMinLen通常被設(shè)置為1或者2),這將導(dǎo)致碎片化(切分出很多長(zhǎng)度為GlobalMinLen的片段)。通過(guò)LocalMinLen和LocalMaxLen的幫助,可以使切分出的子句更趨于平衡。 我們進(jìn)行了句子切分實(shí)驗(yàn)的有效性驗(yàn)證。實(shí)驗(yàn)中使用開(kāi)源的Moses[5]短語(yǔ)模型系統(tǒng)作為實(shí)驗(yàn)翻譯解碼器,短語(yǔ)抽取長(zhǎng)度設(shè)定為7,語(yǔ)言模型使用五元語(yǔ)言模型。模型訓(xùn)練使用LDC2005T10的中文—英語(yǔ)(Ch-En)語(yǔ)料,語(yǔ)言模型用的是訓(xùn)練數(shù)據(jù)的目標(biāo)端語(yǔ)料,開(kāi)發(fā)集使用NIST2002的測(cè)試集,測(cè)試語(yǔ)料使用NIST2002-NIST2006、NIST2008的測(cè)試集,測(cè)試集的參考譯文均為四個(gè)。句子切分參數(shù)設(shè)置為: GlobalMaxLen=20,GlobalMinLen=1,β=0.9(公式3)。實(shí)驗(yàn)語(yǔ)料信息如表2所示。 表2 實(shí)驗(yàn)語(yǔ)料基本信息 注: LDC2005T10是經(jīng)過(guò)處理后的語(yǔ)料(去除句對(duì)長(zhǎng)度比≥9的句對(duì)及空對(duì)齊句對(duì))。 本文設(shè)計(jì)了三組實(shí)驗(yàn)。(1)基線系統(tǒng)實(shí)驗(yàn),即不對(duì)訓(xùn)練語(yǔ)料進(jìn)行切分。(2)Xu的切分實(shí)驗(yàn),即使用Xu的方法進(jìn)行訓(xùn)練語(yǔ)料的切分。(3)新的切分方法實(shí)驗(yàn),使用本文所提出的方法進(jìn)行訓(xùn)練語(yǔ)料切分。在實(shí)驗(yàn)(2)和(3)中用到的詞匯翻 譯 概 率 表來(lái)自于實(shí)驗(yàn)(1)。實(shí)驗(yàn)(3)中用到的邊界概率表是從基線系統(tǒng)訓(xùn)練語(yǔ)料中自動(dòng)獲得的。因?yàn)镸eng的切分實(shí)驗(yàn)中使用的人工邊界詞集合無(wú)法確定,所以本文沒(méi)有和Meng的方法進(jìn)行比較。實(shí)驗(yàn)結(jié)果如表3所示。 表3 BLEU值試驗(yàn)結(jié)果 從上述實(shí)驗(yàn)結(jié)果中可以看出,在六個(gè)測(cè)試集中,我們的方法相比于基線系統(tǒng),除了NIST2005外,其他測(cè)試集上均有不同程度的提高。而Xu的方法相比于基線系統(tǒng),僅在NIST2002和NIST2006上有所提高。我們的方法和Xu的方法相比,在NIST2005、NIST2006測(cè)試集上基本相同(差異不顯著),在其他測(cè)試集都有提高(0.15、0.51、0.53、0.20 BLEU值)。對(duì)于NIST2005測(cè)試集,我們的方法和Xu的方法在切分后的翻譯質(zhì)量都有所降低,可能的原因是因?yàn)镹IST2005測(cè)試集的平均句子長(zhǎng)度較長(zhǎng),本文的工作中并沒(méi)有在解碼階段對(duì)測(cè)試句子進(jìn)行處理,因此造成翻譯質(zhì)量下降。 我們進(jìn)一步比較了模型規(guī)模方面的差異,我們的方法和Xu的方法相近,與基線系統(tǒng)的模型相比,翻譯模型(短語(yǔ)翻譯表)大約減小13%,調(diào)序模型(短語(yǔ)調(diào)序表)大約減小11%。模型減小的原因是由于在訓(xùn)練階段長(zhǎng)句子被切分成了短句子,不再對(duì)原來(lái)在句子切分點(diǎn)處的短語(yǔ)對(duì)和調(diào)序?qū)M(jìn)行統(tǒng)計(jì)。表4是一些切分和翻譯實(shí)例,其中編號(hào)1為切分實(shí)例,編號(hào)2為翻譯實(shí)例。 表4 一些切分實(shí)例 續(xù)表 本文提出了一種在訓(xùn)練階段集成詞語(yǔ)邊界概率的句子切分方法,該方法不僅能夠自動(dòng)獲取詞語(yǔ)的邊界概率,同時(shí)可以有效指導(dǎo)句子切分。和Xu[12]的方法相比,經(jīng)過(guò)該方法切分后的子句具有更直觀的語(yǔ)義信息,而不是產(chǎn)生任意的切分片段。此外,我們使用平衡因子來(lái)改進(jìn)切分后的子句長(zhǎng)度失衡問(wèn)題。實(shí)驗(yàn)表明,與基準(zhǔn)系統(tǒng)相比,本方法能夠有效地提高翻譯質(zhì)量。和前人工作相比,本方法能夠自動(dòng)獲取切分邊界詞集合及其邊界概率,從而可以對(duì)切分位置進(jìn)行有效指導(dǎo),得到更好的切分效果。 在基于統(tǒng)計(jì)的機(jī)器翻譯方法中,隨著訓(xùn)練語(yǔ)料的不斷增加,長(zhǎng)句子的比重也越來(lái)越大,如何有效地利用長(zhǎng)句子的信息改善翻譯質(zhì)量是必須要處理的問(wèn)題之一。本文提出的在訓(xùn)練階段的句子切分模型獨(dú)立于統(tǒng)計(jì)翻譯方法,所以不僅能夠應(yīng)用于基于短語(yǔ)的機(jī)器翻譯系統(tǒng),也適用于基于句法的翻譯系統(tǒng)。此外,如何改進(jìn)解碼階段的長(zhǎng)句子切分,以及如何合并切分后子句的翻譯結(jié)果,是下一步的工作內(nèi)容之一。 [1] Yamada K, K Knight. A syntax-based statistical translation model[C]//Proceedings of ACL,2001: 523-530. [2] Philipp Koehn, Franz Joseph Och, Daniel Marcu. Statistical phrase-based translation[C]//Procedings of In Human Language Technology Conf. / North American Chapter of the Assoc. for Computational Linguistics Annual Meeting(HLT-NAACL). Edmonton. Canada, May/June,2003: 127-133 [3] 劉群. 統(tǒng)計(jì)機(jī)器翻譯綜述[J]. 中文信息學(xué)報(bào), 2003,17(4): 1-12. [4] Yang Liu, Qun Liu, Shouxun Lin. Tree-to-string alignment template for statistical machine translation.//Proceedings of COLING/ACL 2006, Sydney, Australia, July,2006: 609-616. [5] Philipp Koehn, Hieu Hoang, Alexandra Birch, et al.Moses: Open source toolkit for statistical machine translation[C]//Annual Meeting of the Association for Computational Linguistics(ACL), demonstration session, Prague, Czech Republic, June 2007: 177-180. [6] David Chiang. Hierarchical phrase-based translation[J]. Computational Linguistics, 2007: 201-208. [7] Yanqing He, Jiajun Zhang, Maoxi Li, et al. The casia statistical machine translation system for iwslt 2008[C]//Proceedings of the IWSLT, 2008: 85-91. [8] Maoxi Li, Jiajun Zhang, Yu Zhou, et al. The casia statistical machine translation system for iwslt 2009[C]//Proceedings of the IWSLT, 2009: 83-90. [9] Tong Xiao, Jingbo Zhu, Hao Zhang NiuTrans: An open source toolkit for phrase-based and syntax-based machine translation[C]//Proceedings of ACL 2012 System Demonstrations,2012: 19-24. [10] Yenu-Bae Kim, Terumasa Thara. A method for partitioning of long Japanese sentences with subject resolution in J/E machine translation[C]//Proceedings of International Conference On Computer Processing of Oriental Language,1994: 467-473. [11] Francisco Nevado, Francisco Casacuberta, Enrique Vidal. Parallel corpora segmentation using anchor words[C]//Proceedings of the 7th International EAMT workshop on MT and other Language Technology Tools, Improving MT through other Language technology tools: resources and tools for building MT, 2003: 33-40. [12] J Xu, R Zens. Sentence segmentation using IBM word alignment model 1[C]//Proceedings the 10th Annual Conference of the European Association for Machine Translation, Budapest, Hungary, 2005: 280-287. [13] B Meng, S Huang, X Dai, et al. J.: Segmenting long sentence pairs for statistical machine translation[C]//Proceedings of International Conference on Asian Language Processing, Singapore, 2009: 53-58. [14] Takao Doi, Eiichiro Sumita. input sentence splitting and translating[C]//Processings of the HLT/NAACL: Workshop on Building and Using Parallel Texts.2003: 104-110. [15] Osamu Furuse, Setsuo Yamada, Kazuhide Yamamoto. Splitting long and ill-formed input for robust spoken-language translstion[C]//Processings of COLING-ACL, 1998: 421-460. [16] Sudoh, K, Duh, K, Tsukada, et al, Divide and translate: improving long distance reordering in statistical machine translation[C]//Proceedings of the Joint 5th Workshop on SMT and Metrics MATR, 2010: 418-427. [17] D Xiong, M Zhang, H Li, Learning translation boundaries for phrase-based decoding.//Human Language Technologies: The 2010 Annual Conference of the North American Chapter of the ACL,Los Angeles, California 2010: 136-144. [18] Hao Zhang, Daniel Gildea, David Chiang. Extracting synchronous grammars rules from word level alignments in linear time[C]//Proceeding of COLING 2008: 1081-1088. 薛征山(1982—), 碩士, 高級(jí)研究員,主要研究領(lǐng)域?yàn)樽匀徽Z(yǔ)言處理、機(jī)器翻譯。 E-mail: xzskmust@163.com 張大鯤(1980—),博士,主要研究領(lǐng)域?yàn)樽匀徽Z(yǔ)言處理、統(tǒng)計(jì)機(jī)器翻譯、深度學(xué)習(xí)等。 E-mail: zhangdakun@gmail.com 王麗娜(1983—),研究員,主要研究領(lǐng)域?yàn)樽匀徽Z(yǔ)言處理、問(wèn)答系統(tǒng)。 E-mail: wanglina@toshiba.com.cn An Improved Sentence Segmentation Model for Machine Translation XUE Zhengshan, ZHANG Dakun, WANG Lina, HAO Jie (Toshiba(China)R&D Center, Beijing 100600,China) 1003-0077(2017)04-0050-07 TP391 A3 改進(jìn)的句子切分模型
4 實(shí)驗(yàn)
5 結(jié)束語(yǔ)