謝軍,劉群
(中國(guó)科學(xué)院計(jì)算技術(shù)研究所,北京100190)
依存樹(shù)旨在描述句子中各個(gè)成分之間的語(yǔ)法關(guān)系,兼有句法和語(yǔ)義知識(shí),也被視為語(yǔ)言學(xué)從句法表示向語(yǔ)義表示邁進(jìn)的一種過(guò)渡形式。與成分樹(shù)相比,依存樹(shù)具有以下特點(diǎn):1)完全由詞匯化元素構(gòu)成,更加簡(jiǎn)潔;2)同時(shí)包含了句法和語(yǔ)義知識(shí);3)具有更好的跨語(yǔ)言短語(yǔ)聚合(phrasal cohesion)性質(zhì)[1]。因此,依存樹(shù)是一種非常適合構(gòu)建統(tǒng)計(jì)機(jī)器翻譯模型的知識(shí)源。
不過(guò),依存樹(shù)缺乏類(lèi)似于短語(yǔ)結(jié)構(gòu)文法的生成式文法體系,構(gòu)建基于依存樹(shù)的翻譯模型時(shí),需要首先定義合適的樹(shù)分解方式或形式化文法來(lái)描述依存樹(shù)的生成過(guò)程,這也使得這方面的研究工作相對(duì)更加困難。
在基于源語(yǔ)言依存樹(shù)的模型研究方面,研究人員從不同的角度進(jìn)行嘗試,提出了多種不同的樹(shù)分解方式。Lin[2]以路徑為基本結(jié)構(gòu)單元、合并為基本操作,提出了基于路徑轉(zhuǎn)換的模型。Quirk[3]等人擴(kuò)展了Lin的工作,將基本結(jié)構(gòu)單元由路徑擴(kuò)展為樹(shù)杈(Treelet),提出了依存樹(shù)杈模型;其中,樹(shù)杈指依存樹(shù)中的任意連通子樹(shù),可以捕捉更大范圍的語(yǔ)言學(xué)知識(shí)。熊德意等人[4]提出的依存樹(shù)杈-串(DTSC)對(duì)應(yīng)模型,也以樹(shù)杈作為基本單元,不過(guò)使用了與依存樹(shù)杈模型不同的泛化處理方式,并定義了替換和粘接兩種操作。Xie等人[5]以中心詞及其所有依存節(jié)點(diǎn)組成的樹(shù)片段(簡(jiǎn)稱(chēng)HDR片段)為基本結(jié)構(gòu)單元,以替換為基本操作,提出了一種依存樹(shù)到串模型。相對(duì)于上述模型,該模型更加簡(jiǎn)潔,不再需要啟發(fā)式或調(diào)序模型輔助翻譯過(guò)程。該模型在大規(guī)模實(shí)驗(yàn)上表現(xiàn)出比當(dāng)前主流的成分樹(shù)到串模型[6]和層次短語(yǔ)模型[7]更好的性能和長(zhǎng)距離調(diào)序能力,是第一個(gè)性能超過(guò)主流模型水平的基于源語(yǔ)言依存樹(shù)的翻譯模型。
依存樹(shù)到串模型使用的基于HDR片段的翻譯規(guī)則擅長(zhǎng)捕捉源語(yǔ)言中的句子模式和短語(yǔ)模式(即句子或短語(yǔ)的組成方式),不過(guò)由于依存樹(shù)完全由詞匯化元素構(gòu)成、且結(jié)構(gòu)相對(duì)扁平的特點(diǎn),這種翻譯規(guī)則表示在捕捉語(yǔ)言中的非組合現(xiàn)象(如習(xí)慣用語(yǔ)或固定搭配)方面存在明顯不足(詳見(jiàn)第3節(jié)的說(shuō)明)。而這類(lèi)非組合現(xiàn)象可以很容易被短語(yǔ)捕捉。為了緩解這一問(wèn)題,本文提出了三種引入短語(yǔ)的方法,除了傳統(tǒng)的引入句法短語(yǔ)的方法外,還探索了以下兩種新的方法:對(duì)句法短語(yǔ)進(jìn)行適度泛化以擴(kuò)大具有特定上下文的句法短語(yǔ)的適用性;通過(guò)構(gòu)造新的翻譯規(guī)則以使翻譯規(guī)則更好地兼容非句法短語(yǔ)。實(shí)驗(yàn)結(jié)果表明,同時(shí)引入句法短語(yǔ)、泛化的句法短語(yǔ)和非句法短語(yǔ)時(shí),可以使依存樹(shù)到串模型的性能提升約1.0BLEU。
本文以下內(nèi)容中,首先簡(jiǎn)要介紹依存語(yǔ)言模型,然后說(shuō)明基于HDR片段的翻譯規(guī)則的缺點(diǎn),隨后詳細(xì)說(shuō)明引入句法短語(yǔ)、泛化的句法短語(yǔ)和非句法短語(yǔ)的方法,并給出相應(yīng)的實(shí)驗(yàn)結(jié)果。
Xie等人[5]提出依存樹(shù)到串模型,以HDR片段作為依存樹(shù)的基本結(jié)構(gòu)單元、替換為基本操作來(lái)描述依存樹(shù)的生成過(guò)程,將翻譯規(guī)則表示為:源語(yǔ)言端為適度泛化的HDR片段、目標(biāo)端為目標(biāo)語(yǔ)言詞和變量組成的串。
HDR片段是由中心詞及其所有依存節(jié)點(diǎn)組成的樹(shù)片段,高度為1。每個(gè)HDR片段與源語(yǔ)言中的一個(gè)句子模式或短語(yǔ)模式相對(duì)應(yīng)。因此,該模型使用的基于HDR片段的翻譯規(guī)則可以較好地描述源語(yǔ)言中的句子模式或短語(yǔ)模式的翻譯方式。這種類(lèi)型的翻譯規(guī)則被稱(chēng)為HDR翻譯規(guī)則。
為了保證翻譯的順利進(jìn)行,該模型還使用了另一類(lèi)中心詞翻譯規(guī)則,用于完成單個(gè)節(jié)點(diǎn)的翻譯。
圖1示例了三個(gè)HDR翻譯規(guī)則(a)、(b)、(c)和一個(gè)中心詞翻譯規(guī)則(d)。圖中,“*”指示的節(jié)點(diǎn)為替換節(jié)點(diǎn)。需要說(shuō)明的是,三個(gè)HDR翻譯規(guī)則描述的是同一個(gè)句子模式(名詞短語(yǔ)+介詞短語(yǔ)+副詞+動(dòng)詞”組成的句子模式)的翻譯方式。不同之處是,三條規(guī)則所描述的上下文環(huán)境。規(guī)則(a)清楚地指定了適用的上下文,規(guī)則(b)部分指定了適用的上下文,規(guī)則(c)則未對(duì)上下文做任何約束。
圖1 HDR翻譯規(guī)則和中心詞翻譯規(guī)則示例
該模型的解碼算法基于自底向上的chart-parsing算法。解碼器后序遍歷輸入的依存樹(shù),對(duì)于訪問(wèn)到的每個(gè)節(jié)點(diǎn),使用HDR翻譯規(guī)則和中心詞翻譯規(guī)則,利用Cube Pruning算法[6]為該節(jié)點(diǎn)生成n-best翻譯假設(shè)。重復(fù)此過(guò)程直至處理完依存樹(shù)的根節(jié)點(diǎn),算法結(jié)束。
HDR翻譯規(guī)則可以較好地捕捉源語(yǔ)言的句子和短語(yǔ)模式這類(lèi)組合現(xiàn)象,但在處理習(xí)慣用語(yǔ)或固定搭配這類(lèi)非組合現(xiàn)象時(shí)存在明顯不足。例如,在圖2給出的兩個(gè)示例中,HDR翻譯規(guī)則為陰影指示的習(xí)慣用語(yǔ)或固定搭配難以給出準(zhǔn)確的翻譯。圖2(a)中“發(fā)射 升空”為一個(gè)常見(jiàn)的固定搭配,通常翻譯為“l(fā)auch/lauched/lift up”;圖2(b)中“中華人民共和國(guó)”為一個(gè)命名實(shí)體,有固定的翻譯方式“the People's Republic of China”。
由于依存結(jié)構(gòu)的特點(diǎn),習(xí)慣用語(yǔ)和固定搭配通常作為HDR片段的一部分出現(xiàn),如圖2(a)中的“發(fā)射升空”和圖2(b)中“中華人民共和國(guó)”。對(duì)于這類(lèi)非組合現(xiàn)象,使用HDR翻譯規(guī)則進(jìn)行翻譯時(shí),將會(huì)非常低效(如圖2(b)),甚至完全無(wú)法得到理想的譯文(如圖2(a))。
圖2 HDR翻譯規(guī)則難以捕捉的短語(yǔ)示例
對(duì)于習(xí)慣用語(yǔ)或固定搭配這類(lèi)非組合現(xiàn)象,可以很容易地使用短語(yǔ)來(lái)捕捉。因此,可以通過(guò)引入短語(yǔ)來(lái)彌補(bǔ)HDR翻譯規(guī)則在處理非組合現(xiàn)象方面的不足,從而進(jìn)一步提高依存樹(shù)到串模型的性能。本文嘗試了三種引入短語(yǔ)的方法,除了借鑒成分樹(shù)到串模型,為依存樹(shù)到串模型引入句法短語(yǔ)外,還探索了引入泛化的句法短語(yǔ)和引入非句法短語(yǔ)的方法。
句法短語(yǔ)是指依存樹(shù)中由一棵完整的子樹(shù)所覆蓋的短語(yǔ)。例如,圖2(b)所示的依存樹(shù)片段中,包含兩個(gè)句法短語(yǔ),分別為:“偉大 的”和“偉大 的 中華人民共和國(guó)”。
4.1.1 雙語(yǔ)句法短語(yǔ)的獲取
雙語(yǔ)句法短語(yǔ)的獲取相對(duì)比較簡(jiǎn)單。類(lèi)似于成分樹(shù)到串模型,本文直接利用基于短語(yǔ)的模型[6]的規(guī)則抽取模塊來(lái)獲取雙語(yǔ)短語(yǔ)。
4.1.2 雙語(yǔ)句法短語(yǔ)的使用
在引入雙語(yǔ)句法短語(yǔ)方面,依存樹(shù)到串模型借鑒了成分樹(shù)到串模型[6]的方法。
具體來(lái)說(shuō),解碼過(guò)程中,對(duì)于訪問(wèn)到的每個(gè)內(nèi)部節(jié)點(diǎn)n,翻譯假設(shè)的生成將包含兩個(gè)步驟:
1)查找短語(yǔ)表,獲取與以n為根的子樹(shù)覆蓋的句法短語(yǔ)匹配的雙語(yǔ)短語(yǔ),使用匹配到的雙語(yǔ)短語(yǔ),為節(jié)點(diǎn)n生成翻譯假設(shè);
2)根據(jù)以n為中心詞的HDR片段,生成HDR片段所包含句子模式或短語(yǔ)模式的實(shí)例,查找規(guī)則表,獲取匹配的HDR翻譯規(guī)則及必須的中心詞翻譯規(guī)則,利用Cube Pruing算法為節(jié)點(diǎn)n生成新的翻譯假設(shè)。
泛化句法短語(yǔ)是通過(guò)對(duì)句法短語(yǔ)的某些部分進(jìn)行泛化得到的,用以擴(kuò)大具有特定上下文的句法短語(yǔ)的適用性。本質(zhì)上,泛化的句法短語(yǔ)與HDR翻譯規(guī)則類(lèi)似,不過(guò)泛化的句法短語(yǔ)的對(duì)應(yīng)的樹(shù)片段高度≥1。
4.2.1 泛化句法短語(yǔ)的獲取
由于句法短語(yǔ)涉及樹(shù)高≥1,泛化不像HDR翻譯規(guī)則那樣直接。作為初步嘗試,本文使用了簡(jiǎn)單的啟發(fā)式,僅對(duì)包含時(shí)間詞和數(shù)詞的句法短語(yǔ)做了泛化處理。之所以選擇包含時(shí)間詞或數(shù)詞的句法短語(yǔ)作為處理對(duì)象,是因?yàn)闀r(shí)間詞和數(shù)詞是未登錄詞的主要組成部分。
句法短語(yǔ)的泛化處理中,將滿(mǎn)足下述條件的節(jié)點(diǎn)替換為變量:
·節(jié)點(diǎn)的中心詞跨度(head span)[4]是對(duì)齊一致的;
·節(jié)點(diǎn)的詞性標(biāo)記屬于集合{CD,OD,NT},即該節(jié)點(diǎn)為基數(shù)詞、序數(shù)詞或時(shí)間詞。
為了獲取泛化的句法短語(yǔ),對(duì)于依存樹(shù)中的每個(gè)節(jié)點(diǎn),除了標(biāo)記中心詞跨度和依存跨度(dependency span)[4]外,我們還標(biāo)記一個(gè)新的屬性——短語(yǔ)跨度(phrase span)[2],以說(shuō)明以該節(jié)點(diǎn)為根的子樹(shù)覆蓋的句法短語(yǔ)的對(duì)齊情況。
圖3給出了一個(gè)標(biāo)記有中心詞跨度、依存跨度和短語(yǔ)跨度的依存樹(shù)片段示例。為了清晰起見(jiàn),圖中只顯示了與泛化句法短語(yǔ)相關(guān)的樹(shù)片段,只在相關(guān)節(jié)點(diǎn)標(biāo)記了三個(gè)跨度;不再給出陰影覆蓋的部分詳細(xì)對(duì)齊信息。其中,節(jié)點(diǎn)“占”和“25.5%”上標(biāo)記的三個(gè)集合依次為中心詞跨度、依存跨度和短語(yǔ)跨度。
圖3(b)給出了一個(gè)泛化句法短語(yǔ)的翻譯規(guī)則示例。
圖3 樹(shù)標(biāo)記及泛化句法短語(yǔ)示例
完成依存樹(shù)標(biāo)記后,獲取泛化的句法短語(yǔ)只需要對(duì)依存樹(shù)到串模型的翻譯規(guī)則抽取算法做簡(jiǎn)單修改。具體來(lái)說(shuō),對(duì)于訪問(wèn)到每個(gè)內(nèi)部節(jié)點(diǎn),除了按照原有的規(guī)則抽取過(guò)程生成HDR翻譯規(guī)則和中心詞翻譯規(guī)則外,短語(yǔ)跨度對(duì)齊一致時(shí),且存在滿(mǎn)足上述約束的節(jié)點(diǎn),則可以生成泛化的句法短語(yǔ)。需要說(shuō)明的是,短語(yǔ)跨度的對(duì)齊一致性與基于短語(yǔ)模型的雙語(yǔ)短語(yǔ)對(duì)齊一致性是等價(jià)的,可以直接利用雙語(yǔ)短語(yǔ)的對(duì)齊一致性來(lái)判斷短語(yǔ)跨度的對(duì)齊一致性。
4.2.2 泛化句法短語(yǔ)的使用
解碼過(guò)程中,泛化句法短語(yǔ)的使用與HDR翻譯規(guī)則的使用類(lèi)似。
具體來(lái)說(shuō),在后序遍歷源語(yǔ)言依存樹(shù)的過(guò)程中,對(duì)于訪問(wèn)到的每個(gè)內(nèi)部節(jié)點(diǎn)n,使用兩個(gè)步驟為n生成n-best翻譯假設(shè):
1.根據(jù)以n為根的子樹(shù),生成泛化句法短語(yǔ)的源語(yǔ)言端,查找翻譯規(guī)則表獲取匹配的泛化句法短語(yǔ),利用Cube Pruning算法,為n生成翻譯假設(shè);
2.根據(jù)以n為中心詞的HDR片段,生成HDR片段所包含的句子模式或短語(yǔ)模式實(shí)例,查找規(guī)則表,獲取匹配的HDR翻譯規(guī)則及必須的中心詞翻譯規(guī)則,利用Cube Pruning算法為節(jié)點(diǎn)n生成新的翻譯假設(shè)。
非句法短語(yǔ)是指不能夠被依存樹(shù)中的一棵完整的子樹(shù)所覆蓋的短語(yǔ)。也就是說(shuō),非句法短語(yǔ)涉及的節(jié)點(diǎn)或者是子樹(shù)的一部分,或者跨越多棵子樹(shù)。引入非句法短語(yǔ)的目的是為了進(jìn)一步改善依存樹(shù)到串模型的短語(yǔ)覆蓋度。
4.3.1 非句法短語(yǔ)的獲取
由于基于短語(yǔ)的模型的短語(yǔ)規(guī)則獲取中,不涉及句法樹(shù)的約束,因此可以利用基于短語(yǔ)的模型的短語(yǔ)規(guī)則抽取算法來(lái)獲取非句法短語(yǔ)。
4.3.2 非句法短語(yǔ)的使用
非句法短語(yǔ)的使用是通過(guò)構(gòu)建新的HDR翻譯規(guī)則來(lái)實(shí)現(xiàn)的。
具體來(lái)說(shuō),在后序遍歷源語(yǔ)言依存樹(shù)的過(guò)程中,對(duì)于訪問(wèn)到的每個(gè)內(nèi)部節(jié)點(diǎn)n,將按照以下兩個(gè)步驟來(lái)為n生成n-best翻譯假設(shè):
1.根據(jù)以n為中心詞的HDR片段,生成HDR片段所包含的句子模式或短語(yǔ)模式實(shí)例,查找規(guī)則表,獲取匹配的HDR翻譯規(guī)則及必須的中心詞翻譯規(guī)則,利用Cube Pruning算法為節(jié)點(diǎn)n生成翻譯假設(shè);
2.對(duì)于每個(gè)匹配的HDR翻譯規(guī)則,按照如下過(guò)程生成新的HDR翻譯規(guī)則:
1)查找翻譯規(guī)則中不發(fā)生調(diào)序的、且長(zhǎng)度>1的片段(可能有多個(gè));
2)對(duì)于步驟1)得到的片段,生成片段覆蓋的源語(yǔ)言短語(yǔ),查找規(guī)則表獲取匹配的雙語(yǔ)短語(yǔ);
3)若存在匹配的雙語(yǔ)短語(yǔ),則將該片段設(shè)置為對(duì)應(yīng)的源語(yǔ)言端和目標(biāo)語(yǔ)言端替換為一個(gè)新的變量;
4)按照步驟2)和3)依次處理所有片段,即生成一條新的HDR翻譯規(guī)則,該規(guī)則將使用原HDR翻譯規(guī)則的概率;
根據(jù)新生成的HDR翻譯規(guī)則和雙語(yǔ)短語(yǔ),利用Cube Pruning算法為節(jié)點(diǎn)n生成新的翻譯假設(shè)。
圖4 生成新的HDR翻譯規(guī)則示例
圖4示例說(shuō)明了根據(jù)雙語(yǔ)短語(yǔ)和HDR翻譯規(guī)則生成新的HDR翻譯規(guī)則的過(guò)程。假設(shè)目前訪問(wèn)的節(jié)點(diǎn)為陰影指示的節(jié)點(diǎn)“升空”。
根據(jù)以“升空”為中心詞的HDR片段,生成對(duì)應(yīng)句子模式的所有實(shí)例,如(b)所示;查找翻譯規(guī)則表獲得匹配的HDR翻譯規(guī)則,假設(shè)只有一條匹配的HDR翻譯規(guī)則(c);確定HDR翻譯規(guī)則(c)不發(fā)生調(diào)序的片段“VV3VV4”;根據(jù)“VV3VV4”所覆蓋的源語(yǔ)言短語(yǔ)“發(fā)射 升空”查找短語(yǔ)表,得到匹配的翻譯規(guī)則;將“VV3VV4”及其在目標(biāo)語(yǔ)言端的對(duì)應(yīng)部分分別替換為新的變量“VV3_VV4”和“X34”,從而得到新的HDR翻譯規(guī)則。
為了驗(yàn)證這三種引入短語(yǔ)的方法在改善依存樹(shù)到串模型性能方面的作用,我們以不引入任何短語(yǔ)的依存樹(shù)到串模型作為基準(zhǔn)系統(tǒng)進(jìn)行了漢—英翻譯實(shí)驗(yàn)。
實(shí)驗(yàn)使用的開(kāi)發(fā)集為NIST 2002,測(cè)試集為NIST 2005;訓(xùn)練語(yǔ)料來(lái)自LDC語(yǔ)料,雙語(yǔ)平行語(yǔ)料包括27萬(wàn)句對(duì)①包括LDC2002E18,LDC2003E07,LDC2003E14,LDC2004T07,LDC2005T06.,英語(yǔ)單語(yǔ)語(yǔ)料為L(zhǎng)DC單語(yǔ)語(yǔ)料Gigaword Xinhua部分。
上述語(yǔ)料的漢語(yǔ)部分使用Stanford Word Segmenter[8]②http://nlp.stanford.edu/software/segmenter.shtml進(jìn)行分詞處理。
使用GIZA++[9]對(duì)雙語(yǔ)平行句對(duì)進(jìn)行雙向?qū)R,并借助“grow-diag-and”啟發(fā)式來(lái)優(yōu)化對(duì)齊結(jié)果。
使用Stanford Parser[10]對(duì)雙語(yǔ)平行句對(duì)的中文句子進(jìn)行句法分析得到投射性(projective)的依存句法樹(shù)。其中,依存樹(shù)的每個(gè)節(jié)點(diǎn)都標(biāo)記有詞性標(biāo)記。
使用SRI語(yǔ)言模型工具包[11]在英語(yǔ)單語(yǔ)語(yǔ)料上訓(xùn)練得到三元的語(yǔ)言模型。
使用MERT[12]進(jìn)行調(diào)參以最大化依存樹(shù)到串模型在開(kāi)發(fā)集上的BLEU值。
使用大小寫(xiě)不敏感的BLEU-4指標(biāo)[13]對(duì)于翻譯結(jié)果進(jìn)行評(píng)價(jià),實(shí)驗(yàn)使用腳本為mteval-v11b.pl①ftp://jaguar.ncsl.nist.gov/mt/resources/mteval-v11b.pl。
表1給出了實(shí)驗(yàn)結(jié)果。其中,“dep2str”為不引入任何短語(yǔ)的基準(zhǔn)系統(tǒng),“dep2str+bp”為引入雙語(yǔ)句法短語(yǔ)的系統(tǒng),“dep2str+bp+gbp”為引入雙語(yǔ)句法短語(yǔ)及泛化句法短語(yǔ)的系統(tǒng),“dep2str+bp+gbp+nsbp”為引入雙語(yǔ)句法短語(yǔ)、泛化句法短語(yǔ)和非句法短語(yǔ)的系統(tǒng)。
從表中可以看到,依次引入句法短語(yǔ)、泛化句法短語(yǔ)和非句法短語(yǔ),依存樹(shù)到串模型的性能也逐漸升高。其中,雙語(yǔ)句法短語(yǔ)的引入使系統(tǒng)的性能提升了0.52BLEU,泛化的句法短語(yǔ)的引入使系統(tǒng)性能進(jìn)一步提高0.14BLEU,非句法短語(yǔ)的引入使系統(tǒng)的性能再度提升0.31BLEU。最終,同時(shí)引入句法短語(yǔ)、泛化的句法短語(yǔ)和非句法短語(yǔ)使得依存樹(shù)到串模型的性能比基準(zhǔn)系統(tǒng)提升了0.97BLEU值。
表1 依次引入句法短語(yǔ)、泛化句法短語(yǔ)和非句法短語(yǔ)后的性能比較
Xie等人[4]提出的依存樹(shù)到串模型使用基于HDR片段的翻譯規(guī)則,這種翻譯規(guī)則可以較好地捕捉源語(yǔ)言的句子模式和短語(yǔ)模式等組合現(xiàn)象,但在處理如習(xí)慣用語(yǔ)或固定搭配等非組合現(xiàn)象方面存在不足。為了緩解這一問(wèn)題,改善依存樹(shù)到串模型的性能,本文針對(duì)HDR翻譯規(guī)則的特點(diǎn),提出了三種不同的引入短語(yǔ)的方法,分別為:引入句法短語(yǔ)的方法、引入泛化的句法短語(yǔ)方法和引入非句法短語(yǔ)的方法。實(shí)驗(yàn)結(jié)果表明,同時(shí)引入句法短語(yǔ)、泛化句法短語(yǔ)和非句法短語(yǔ)可以將依存樹(shù)到串模型的性能顯著提高約1.0BLEU。
本文工作是對(duì)依存樹(shù)到串模型引入短語(yǔ)方法的初步探索,還有很多工作需要進(jìn)一步改進(jìn)和優(yōu)化。比如,泛化的句法短語(yǔ)的處理仍比較簡(jiǎn)單,目前僅能處理時(shí)間詞和數(shù)詞等,覆蓋度比較有限。今后的工作中我們將探索更加有效的方法,以提高泛化句法短語(yǔ)的適用性。引入非句法短語(yǔ)方面,本文的方法可以較好地處理HDR翻譯規(guī)則中的不發(fā)生調(diào)序的片段,可以有效處理圖2(a)中“發(fā)射升空”這類(lèi)非句法短語(yǔ)。不過(guò)對(duì)于圖2(b)中“中華人民共護(hù)國(guó)”這類(lèi)非句法短語(yǔ)的翻譯需要調(diào)序的情形仍無(wú)法有效處理,這將是我們今后研究工作的重要內(nèi)容。
[1] Heidi J.Phrasal cohesion and statistical machine translation[C]//Proceedings of EMNLP 2002:304-311.
[2] Dekang Lin.A path-based transfer model for machine translation[C]//Proceedings of COLING 2004:625-630.
[3] Chris Quirk,Arul Menezes,Colin Cherry.Dependency treelet translation:Syntactically informed phrasal smt[C]//Proceedings of ACL 2005:271-279.
[4] Deyi Xiong,Qun Liu,Shouxun Lin.A dependency treelet string correspondence model for statistical machine translation[C]//Proceedings of the second workshop on Statistical Machine Translation.Assocication for Computational Linguistics,2007:40-47.
[5] Jun Xie,Haitao Mi,Qun Liu.A novel dependency-tostring model for statistical machine translation[C]//Proceedings of EMNLP 2011:216-226.
[6] Yang Liu,Qun Liu,Shouxun Lin.Tree-to-string alignment template for statistical machine translation[C]//Proceedings of ACL 2006:609-616.
[7] David Chiang.Hierarchical phrase-based translation[J].Computational Linguistics,2007,33(2):201-228.
[8] Huihsin Tseng,Pichuan Chang,Galen Andrew,et al.A Conditional Random Field Word Segmenter[C]//Proceedings of Fourth SIGHAN Workshop on Chinese Language Processing.
[9] Franz Josef Och,Hermann Ney.A systematic comparison of various statistical alignment models[J].Computational Linguistics,2003,29(1):19-51.
[10] Dan Klein,Christopher D.Manning.Fast exact inference with a factored model for natural language parsing[C]//Proceedings of Advances in Neural Information Processing Systems 15NIPS,2003:3-10.
[11] Andreas Stolcke.Srilm—an extensible language modeling toolkit[C]//Proceedings of ICSLP,2002,30:901-904.
[12] Franz Josef Och.Minimum error rate training instatistical machine translation[C]//Proceedings of ACL 2003:160-167.
[13] Kishore Papineni,SalimRoukos,Todd Ward,Wei Jing Zhu.Bleu:a method for automatic evaluation of machine translation[C]//Proceedings of ACL 2002:311-318.