• <tr id="yyy80"></tr>
  • <sup id="yyy80"></sup>
  • <tfoot id="yyy80"><noscript id="yyy80"></noscript></tfoot>
  • 99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看 ?

    對(duì)話行為信息在口語(yǔ)翻譯中的應(yīng)用

    2010-06-05 07:07:12周可艷宗成慶
    中文信息學(xué)報(bào) 2010年6期
    關(guān)鍵詞:源語(yǔ)言語(yǔ)料短語(yǔ)

    周可艷,宗成慶

    (中國(guó)科學(xué)院 自動(dòng)化研究所 模式識(shí)別國(guó)家重點(diǎn)實(shí)驗(yàn)室,北京 100190)

    1 引言

    對(duì)話行為(Dialog Act)是指對(duì)話語(yǔ)句(Utterance)的言外力(Illocutionary force)[1],屬于淺層話語(yǔ)結(jié)構(gòu)的范疇[2]。具體地講,對(duì)話行為反映了對(duì)話語(yǔ)句及對(duì)話人的意圖,例如陳述、疑問(wèn)、許諾、解釋等。對(duì)話行為為口語(yǔ)對(duì)話的理解提供了語(yǔ)用方面的重要信息,因此在自然語(yǔ)言處理領(lǐng)域有著廣泛的應(yīng)用,如自動(dòng)語(yǔ)音識(shí)別[3],口語(yǔ)對(duì)話系統(tǒng)[4],自動(dòng)摘要[5]和口語(yǔ)翻譯系統(tǒng)[6-10]等。

    從20世紀(jì)90年代以來(lái),陸續(xù)有一些研究人員試圖將對(duì)話行為信息應(yīng)用到口語(yǔ)翻譯系統(tǒng)中,并取得了一定的成果。在語(yǔ)音翻譯系統(tǒng)中,文獻(xiàn)[7]將對(duì)話行為信息應(yīng)用于語(yǔ)音識(shí)別和信息抽取模塊,從而間接地提高了翻譯系統(tǒng)的性能。在基于中間語(yǔ)言的翻譯系統(tǒng)中,源語(yǔ)言首先被解析為抽象的語(yǔ)義概念,繼而被轉(zhuǎn)化為目標(biāo)語(yǔ)言[6]。對(duì)話行為信息作為語(yǔ)義概念的表示形式之一,既參與到口語(yǔ)解析,也涉及到口語(yǔ)句子的生成[8-9]。在目前主流的統(tǒng)計(jì)機(jī)器翻譯中,如何將包括對(duì)話行為在內(nèi)的語(yǔ)義和語(yǔ)用信息與翻譯模型相融合,也一直是研究人員試圖解決的難點(diǎn)之一。Sridha 等人提出了一種基于對(duì)話行為的短語(yǔ)翻譯對(duì)抽取方法[10],將其應(yīng)用到基于短語(yǔ)的統(tǒng)計(jì)翻譯系統(tǒng)中。但是受對(duì)話行為自動(dòng)識(shí)別正確率的限制,Sridha的方法在實(shí)驗(yàn)結(jié)果上只獲得了有限的提高。

    我們認(rèn)為,在口語(yǔ)翻譯系統(tǒng)中,對(duì)話行為信息不僅可以通過(guò)優(yōu)化翻譯引擎來(lái)提高翻譯系統(tǒng)的性能,也可以輔助人來(lái)理解機(jī)器翻譯的結(jié)果。源語(yǔ)言和目標(biāo)語(yǔ)言的對(duì)話行為標(biāo)簽應(yīng)該是一致的。但是在翻譯過(guò)程中,由于翻譯方法本身的局限性,常常造成部分信息的缺失。如表1中所示,如果不能識(shí)別出對(duì)話行為標(biāo)簽為“是非問(wèn)”,而翻譯引擎又未能正確的構(gòu)造疑問(wèn)句式,那么翻譯結(jié)果將成為陳述句,就不能準(zhǔn)確地表達(dá)源語(yǔ)言句子的含義。因此,對(duì)話行為標(biāo)簽所傳遞的信息是對(duì)翻譯結(jié)果的有益補(bǔ)充。

    表1 對(duì)話行為與翻譯結(jié)果

    本文首先對(duì)對(duì)話行為理論進(jìn)行簡(jiǎn)要的介紹,并介紹了一個(gè)中文對(duì)話行為標(biāo)注語(yǔ)料庫(kù)CASIA-CASSIL。然后給出我們利用對(duì)話行為信息提高口語(yǔ)機(jī)器翻譯系統(tǒng)性能的方法。在漢英口語(yǔ)翻譯評(píng)測(cè)數(shù)據(jù)上的實(shí)驗(yàn)證明,對(duì)話行為信息的加入使翻譯系統(tǒng)的性能得到了有效的提高。

    2 對(duì)話行為理論簡(jiǎn)介

    言語(yǔ)行為(Speech Act)理論首先由Austion提出[1],后經(jīng)Searle[11]等人的完善逐漸成熟[12]。言語(yǔ)行為,即話語(yǔ)的言外之力體現(xiàn)了說(shuō)話人的意圖,是人類交際的基本單位。言語(yǔ)行為的分類劃分通常以下面三點(diǎn)為依據(jù):1)言語(yǔ)行為的目的; 2)言語(yǔ)行為帶來(lái)的后果; 3)言語(yǔ)行為所反映的說(shuō)話人的態(tài)度及信息狀態(tài)。例如,Searle給出的基本分類包括“闡述”、“指令”、“承諾”、“表達(dá)”、“宣告”。

    在計(jì)算語(yǔ)用學(xué)的研究中,通常把某些類別的言語(yǔ)行為稱為對(duì)話行為(Dialog Act),例如請(qǐng)求、主張等類別[13]。對(duì)話行為的識(shí)別被認(rèn)為是對(duì)話語(yǔ)句解析的關(guān)鍵問(wèn)題。雖然對(duì)話行為已經(jīng)成功應(yīng)用于多個(gè)系統(tǒng),但是其定義的細(xì)化以及跨領(lǐng)域標(biāo)準(zhǔn)化問(wèn)題一直沒(méi)有得到解決。目前對(duì)話行為的標(biāo)注并沒(méi)有統(tǒng)一的標(biāo)注規(guī)范,而是由標(biāo)注人員根據(jù)對(duì)話語(yǔ)料的領(lǐng)域及研究的目的進(jìn)行制定。表2中給出了一種層次化的對(duì)話行為標(biāo)注形式。其第一層標(biāo)注普通標(biāo)注(是非問(wèn)、陳述等)反映對(duì)話語(yǔ)句的基本形式;第二層標(biāo)注特殊標(biāo)注(詢問(wèn)、肯定答案、請(qǐng)求確認(rèn)等)反映話語(yǔ)的功能或特性,是對(duì)普通標(biāo)注的補(bǔ)充。

    表2 對(duì)話行為標(biāo)注例子

    3 國(guó)內(nèi)外口語(yǔ)語(yǔ)料標(biāo)注現(xiàn)狀

    20世紀(jì)90年代,統(tǒng)計(jì)自然語(yǔ)言處理技術(shù)興起以后,對(duì)話行為理論的研究和應(yīng)用也得到了飛速發(fā)展,帶動(dòng)了大規(guī)模真實(shí)口語(yǔ)對(duì)話語(yǔ)料的收集和標(biāo)注工作。目前國(guó)際上已經(jīng)有若干成熟的英文口語(yǔ)對(duì)話行為標(biāo)注語(yǔ)料庫(kù),如Switchboard-DAMSL電話錄音語(yǔ)料[2]、ICSI-MRDA多人會(huì)議[3]和AMI Meeting Corpus[14]等。

    Switchboard-DAMSL語(yǔ)料由1 115段平均時(shí)長(zhǎng)約5分鐘的電話錄音組成,每段對(duì)話平均有144個(gè)話輪(Turn),271個(gè)語(yǔ)句(Utterance),共包含約205 000個(gè)語(yǔ)句,140萬(wàn)詞匯。其中,共有220個(gè)對(duì)話行為標(biāo)注標(biāo)簽。由于其中多數(shù)標(biāo)注出現(xiàn)次數(shù)較少,因此研究人員通常在前期處理中將其聚類為42種。

    ICSI-MRDA多人會(huì)議語(yǔ)料是由美國(guó)ICSI(The International Computer Science Institute)收錄并標(biāo)注的真實(shí)多人會(huì)議語(yǔ)料,包括75個(gè)會(huì)議,平均每個(gè)會(huì)議有6人參與,平均長(zhǎng)度大約為一小時(shí)。其對(duì)話行為的標(biāo)注信息包括語(yǔ)句邊界的切分、對(duì)話行為和鄰接對(duì)(Adjacency Pairs, APs)的標(biāo)注。ICSI-MRDA將Switchboard-DAMSL的單層標(biāo)注標(biāo)簽擴(kuò)展為多層標(biāo)注標(biāo)簽。即每個(gè)語(yǔ)句對(duì)話行為標(biāo)注的包含且僅包含一個(gè)普通標(biāo)簽,用于描述語(yǔ)句的基本形式;同時(shí)可以包含若干個(gè)特殊標(biāo)簽,作為普通標(biāo)簽的補(bǔ)充,用于描述語(yǔ)句的功能或特性。ICSI-MRDA的標(biāo)注集包括11個(gè)普通標(biāo)簽和40個(gè)特殊標(biāo)簽。

    AMI Meeting Corpus包含約100小時(shí)的多媒體會(huì)議數(shù)據(jù)。其標(biāo)注集不僅包括對(duì)話行為標(biāo)注、命名實(shí)體標(biāo)注、主題切分和摘要提取,也包括基于FeelTrace*http://www.dfki.de/~schroed/feeltrace/標(biāo)注工具所標(biāo)注的二維情感表示,以及對(duì)話人的手勢(shì)、姿態(tài)等信息。

    目前國(guó)際上還沒(méi)有公開(kāi)的中文對(duì)話行為標(biāo)注語(yǔ)料??谡Z(yǔ)語(yǔ)料標(biāo)注的任務(wù)存在很多困難,一方面,口語(yǔ)對(duì)話語(yǔ)料的收集需要消耗大量的人力物力,并且真實(shí)場(chǎng)景下的口語(yǔ)語(yǔ)料往往噪聲很大,更增加了語(yǔ)料挑選和整理工作的難度;另一方面,國(guó)際上沒(méi)有統(tǒng)一的對(duì)話行為標(biāo)注規(guī)范,標(biāo)注規(guī)范的制定要結(jié)合所收集語(yǔ)料的領(lǐng)域特點(diǎn)。

    在對(duì)已有英文口語(yǔ)標(biāo)注語(yǔ)料充分調(diào)研的基礎(chǔ)上,我們創(chuàng)建了中文口語(yǔ)對(duì)話標(biāo)注語(yǔ)料庫(kù)CASIA-CASSIL[16]。CASIA-CASSIL是一個(gè)基于旅游信息領(lǐng)域的大規(guī)模真實(shí)場(chǎng)景電話錄音語(yǔ)料庫(kù),包含語(yǔ)音、情感、對(duì)話行為、口語(yǔ)現(xiàn)象、主題等多層標(biāo)注信息。本文中,我們用到的385段中文口語(yǔ)對(duì)話語(yǔ)料,涵蓋五個(gè)領(lǐng)域,各領(lǐng)域語(yǔ)料的規(guī)模統(tǒng)計(jì)見(jiàn)表3。其中,旅館預(yù)訂領(lǐng)域?yàn)槿斯まD(zhuǎn)寫(xiě)的真實(shí)電話錄音語(yǔ)料,其他領(lǐng)域的語(yǔ)料摘錄自旅游手冊(cè)。在制定對(duì)話行為標(biāo)注規(guī)范的過(guò)程中,我們參考了ICSI-MRDA語(yǔ)料標(biāo)注規(guī)范[3],并針對(duì)所收集的中文語(yǔ)料中的特殊現(xiàn)象進(jìn)行了修改,修改內(nèi)容主要涉及兩方面:1)增加了中文對(duì)話中常用的語(yǔ)句類型,如祈使、感嘆。2)對(duì)口語(yǔ)現(xiàn)象進(jìn)行了歸類處理,如增加了插入語(yǔ)類。最終制定的對(duì)話行為標(biāo)注規(guī)范包括普通標(biāo)注集、中斷標(biāo)注集和特殊標(biāo)注集。普通標(biāo)注集描述話語(yǔ)的基本形式,如陳述、疑問(wèn)、感嘆等,共有10種標(biāo)簽。中斷標(biāo)注集描述口語(yǔ)中的中斷現(xiàn)象,包括話語(yǔ)被打斷或省略,共3種標(biāo)簽。特殊標(biāo)注集描述話語(yǔ)的功能或特性,是對(duì)普通標(biāo)注的補(bǔ)充,如贊同、感謝、命令等,共38種標(biāo)簽。普通標(biāo)注與特殊標(biāo)注以“^”隔開(kāi)。每一個(gè)對(duì)話行為的標(biāo)注包括一個(gè)普通標(biāo)注,可能包括一個(gè)或多個(gè)特殊標(biāo)注,當(dāng)話語(yǔ)不完整時(shí),對(duì)話行為的標(biāo)注包含中斷標(biāo)注。表4給出了CASIA-CASSIL的一段標(biāo)注實(shí)例。表5給出了普通標(biāo)注集和中斷標(biāo)注集在CASIA-CASSIL中的統(tǒng)計(jì)數(shù)據(jù)。

    表3 各領(lǐng)域?qū)υ捳Z(yǔ)料規(guī)模統(tǒng)計(jì)

    表4 CASIA-CASSIL標(biāo)注實(shí)例

    表5 CASIA-CASSIL對(duì)話行為標(biāo)注集統(tǒng)計(jì)數(shù)據(jù)

    4 對(duì)話行為在口語(yǔ)翻譯中的應(yīng)用

    隨著對(duì)話行為理論的發(fā)展和成熟,先后有一些學(xué)者試圖將這種對(duì)對(duì)話意圖的描述應(yīng)用到機(jī)器翻譯中去。相關(guān)的研究工作分別以JANUS系統(tǒng)[6]、Verbmobil系統(tǒng)[7]和Sridhar等的研究[10]為代表。

    JANUS是基于中間語(yǔ)言的翻譯系統(tǒng),用于實(shí)現(xiàn)德語(yǔ)到英語(yǔ)以及德語(yǔ)到日語(yǔ)的翻譯。在基于中間語(yǔ)言的翻譯系統(tǒng)中,源語(yǔ)言的語(yǔ)義首先被解析成獨(dú)立的中間語(yǔ)言,然后再?gòu)闹虚g語(yǔ)言轉(zhuǎn)換成目標(biāo)語(yǔ)言,從而實(shí)現(xiàn)多種語(yǔ)言之間的互譯。JANUS系統(tǒng)采用C-STAR*http://www.c-star.org/(Consortium for Speech Translation Advanced Research international)所定義的中間轉(zhuǎn)換格式(interchange format, IF),而對(duì)話行為正是IF格式的重要組成之一。因此,對(duì)基于中間語(yǔ)言的翻譯系統(tǒng)來(lái)說(shuō),對(duì)話行為作為語(yǔ)義表示之一直接參與到翻譯過(guò)程中。文獻(xiàn)[16-17]也曾進(jìn)行過(guò)面向IF的口語(yǔ)理解工作研究。近年來(lái)隨著統(tǒng)計(jì)翻譯方法的快速發(fā)展,由于IF定義、轉(zhuǎn)換、生成等具體實(shí)現(xiàn)問(wèn)題的復(fù)雜性,基于IF的翻譯方法正在逐漸被冷落[18]。

    Verbmobil是上世紀(jì)90年代德國(guó)聯(lián)邦教育部(BMBF)所資助的語(yǔ)言技術(shù)研究項(xiàng)目。在其研發(fā)的Verbmobil語(yǔ)音翻譯系統(tǒng)中,對(duì)話行為主要應(yīng)用在三個(gè)模塊中:(1)語(yǔ)音識(shí)別模塊,通過(guò)對(duì)話行為的預(yù)測(cè),對(duì)語(yǔ)言模型進(jìn)行動(dòng)態(tài)的過(guò)濾,從而提高詞匯的語(yǔ)音識(shí)別正確率。(2)語(yǔ)義評(píng)價(jià)模塊,通過(guò)已知的對(duì)話行為信息聚焦算法以確定下一語(yǔ)句的對(duì)話行為。(3)上下文信息抽取模塊,用于為Verbmobil各模塊提供上下文信息,以取得更好的翻譯結(jié)果。實(shí)際上在Verbmobil里,對(duì)話行為并未直接應(yīng)用于翻譯模塊本身。

    Sridhar等[10]提出了一種對(duì)話行為與基于短語(yǔ)的統(tǒng)計(jì)翻譯模型相結(jié)合的方法。其基本思路是首先基于源語(yǔ)言的對(duì)話行為將訓(xùn)練語(yǔ)料分為若干類,然后對(duì)每類語(yǔ)料分別訓(xùn)練翻譯模型。出于對(duì)數(shù)據(jù)稀疏問(wèn)題的考慮,Sridhaer等人將基線系統(tǒng)所訓(xùn)練出的短語(yǔ)翻譯概率表也加入到基于對(duì)話行為分類語(yǔ)料訓(xùn)練出的短語(yǔ)翻譯概率表中,并加入?yún)?shù)對(duì)短語(yǔ)概率進(jìn)行數(shù)據(jù)平滑操作。最終的短語(yǔ)對(duì)翻譯概率表即為基于對(duì)話行為的翻譯模型。這種方法通過(guò)對(duì)短語(yǔ)概率表的分類訓(xùn)練,實(shí)現(xiàn)了對(duì)話行為信息在統(tǒng)計(jì)翻譯系統(tǒng)中的應(yīng)用。

    綜上所述,在翻譯系統(tǒng)中,對(duì)話行為信息既可應(yīng)用于語(yǔ)音識(shí)別等模塊以間接提高翻譯系統(tǒng)的性能,也可直接應(yīng)用于基于中間語(yǔ)言和基于短語(yǔ)的統(tǒng)計(jì)翻譯模型。在目前流行的基于短語(yǔ)的統(tǒng)計(jì)翻譯系統(tǒng)中,文獻(xiàn)[10]只給出了一種應(yīng)用形式,其他的應(yīng)用,比如:基于對(duì)話行為的開(kāi)發(fā)集選取、n-best翻譯結(jié)果的重排序等,包括對(duì)話行為分類本身所涉及的諸多問(wèn)題,比如分類器和特征選取等,文獻(xiàn)[10]中沒(méi)有進(jìn)行研究。

    5 本文的思路

    本文的基本思路是通過(guò)對(duì)話行為的分類,使訓(xùn)練語(yǔ)料—測(cè)試語(yǔ)料、開(kāi)發(fā)集—測(cè)試集、源語(yǔ)言—目標(biāo)語(yǔ)言的一致性得到提高,從而提高翻譯系統(tǒng)的性能。

    基于短語(yǔ)的翻譯系統(tǒng)其主要翻譯過(guò)程包括:根據(jù)均勻分布的假設(shè)將源語(yǔ)言句子劃分為短語(yǔ),利用預(yù)先抽取的短語(yǔ)翻譯對(duì)表將每一個(gè)源語(yǔ)言短語(yǔ)翻譯成目標(biāo)語(yǔ)言短語(yǔ),然后利用重排序模型對(duì)目標(biāo)語(yǔ)言短語(yǔ)進(jìn)行重排序得到目標(biāo)語(yǔ)言句子。

    其中,短語(yǔ)翻譯對(duì)表的構(gòu)建關(guān)系到翻譯知識(shí)的獲取,是基于短語(yǔ)的翻譯系統(tǒng)研究的關(guān)鍵技術(shù)。此外,為實(shí)現(xiàn)翻譯結(jié)果的自動(dòng)打分最優(yōu),翻譯系統(tǒng)還引入了最小錯(cuò)誤率訓(xùn)練,以獲得相對(duì)于開(kāi)發(fā)集最優(yōu)的n-best列表。受各種因素的干擾,n-best列表排名第一的結(jié)果并不一定是最優(yōu)結(jié)果,因此翻譯n-best結(jié)果的重排序也是影響翻譯結(jié)果的問(wèn)題之一。

    我們?cè)谝韵氯齻€(gè)階段引入對(duì)話行為信息:A. 短語(yǔ)翻譯概率表及調(diào)序表的獲取,保證訓(xùn)練語(yǔ)料與測(cè)試語(yǔ)料的一致性;B. 基于開(kāi)發(fā)集的最小錯(cuò)誤率參數(shù)訓(xùn)練,保證開(kāi)發(fā)集與測(cè)試集的一致性;C.n-best翻譯候選結(jié)果的重排序,保證源語(yǔ)言與目標(biāo)語(yǔ)言的一致性。參見(jiàn)圖1。

    圖1 對(duì)話行為與基于短語(yǔ)的翻譯過(guò)程

    我們以“DAi”表示經(jīng)過(guò)對(duì)話行為分類后屬于第i類的語(yǔ)料,“ALL”表示未經(jīng)分類的全部語(yǔ)料集合。這三種應(yīng)用形式的具體實(shí)現(xiàn)如下:

    A.對(duì)全部訓(xùn)練集進(jìn)行訓(xùn)練得到短語(yǔ)翻譯概率表P(ALL)和調(diào)序表R(ALL)。對(duì)訓(xùn)練集進(jìn)行對(duì)話行為分類后,分別訓(xùn)練得到短語(yǔ)翻譯概率表P(DAi) 和調(diào)序表R(DAi)。若P(ALL)中存在與P(DAi)相同的短語(yǔ)對(duì),則以P(DAi)中該短語(yǔ)對(duì)的概率替換P(ALL)。同樣地,實(shí)現(xiàn)R(ALL)與R(DAi)的替換。

    B.基于對(duì)話行為的開(kāi)發(fā)集選取。由于開(kāi)發(fā)集與測(cè)試集的一致性可能影響到最小錯(cuò)誤率訓(xùn)練的效果。因此,針對(duì)DAi類別的測(cè)試集,我們采用相應(yīng)類別的開(kāi)發(fā)集為其訓(xùn)練參數(shù)。

    C.n-best翻譯候選結(jié)果的重排序。我們認(rèn)為一對(duì)源語(yǔ)言和目標(biāo)語(yǔ)言其對(duì)話行為標(biāo)簽應(yīng)保持一致。因此對(duì)于n-best翻譯候選結(jié)果我們選取與源語(yǔ)言對(duì)話行為標(biāo)簽最為接近的翻譯結(jié)果。

    6 實(shí)驗(yàn)

    6.1 語(yǔ)料及翻譯系統(tǒng)

    中文對(duì)話行為分類的訓(xùn)練語(yǔ)料采用我們收集標(biāo)注的CASIA-CASSIL對(duì)話行為標(biāo)注語(yǔ)料,英文對(duì)話行為分類的訓(xùn)練語(yǔ)料我們采用Switchboard-DAMSL[2]。

    翻譯系統(tǒng)所采用的語(yǔ)料為IWSLT’07的訓(xùn)練集開(kāi)發(fā)集和測(cè)試集[19]?;诙陶Z(yǔ)的統(tǒng)計(jì)翻譯系統(tǒng)采用Moses工具包*http://www.statmt.org/moses/。翻譯結(jié)果的評(píng)價(jià)采用BLEU打分。

    6.2 對(duì)話行為分類

    對(duì)話行為識(shí)別是典型的分類問(wèn)題,通過(guò)學(xué)習(xí)對(duì)話語(yǔ)句的韻律、詞法、句法及上下文結(jié)構(gòu)信息等知識(shí),采用最大熵、決策樹(shù)、圖模型、支持向量機(jī)(SVM)等方法進(jìn)行自動(dòng)分類。其中SVM的方法易用性強(qiáng),正確率高,是目前最為流行的機(jī)器學(xué)習(xí)方法之一,在對(duì)話行為的識(shí)別中效果也優(yōu)于其他模型[20]。文獻(xiàn)[21]采用SVM方法進(jìn)行對(duì)話行為的分類,而文獻(xiàn)[22]基于SVM分類器從詞匯層、句法層和約束信息的角度探討了各種特征對(duì)對(duì)話行為分類的影響。在本文中,我們采用SVM分類器進(jìn)行對(duì)話行為的分類,SVM分類器采用libsvm工具*http://www.csie.ntu.edu.tw/~cjlin/libsvm。本文采用的特征包括unigram、bigram以及頻率FQ=200的約束條件。采用SVM分類器及五組交叉驗(yàn)證,這一特征在中文對(duì)話行為標(biāo)注語(yǔ)料上的識(shí)別正確率為87.11%,而僅采用unigram特征的識(shí)別正確率僅為77.05%[22]。

    以CASIA-CASSIL部分對(duì)話行為標(biāo)注語(yǔ)料為訓(xùn)練語(yǔ)料,我們分別對(duì)IWSLT07的訓(xùn)練集、開(kāi)發(fā)集和測(cè)試集進(jìn)行了分類。雖然訓(xùn)練標(biāo)注集包括普通標(biāo)注集和中斷標(biāo)注集共計(jì)13類,由于IWSLT’07測(cè)試集上的自動(dòng)分類結(jié)果僅包括其中的5類,所以最終的分類結(jié)果為5類,分別是DA1(陳述),DA2(是非問(wèn)),DA3(特指問(wèn)),DA4(感嘆),DA5(祈使)。分類結(jié)果見(jiàn)表6。在分類過(guò)程中,我們認(rèn)為一對(duì)源語(yǔ)言和目標(biāo)語(yǔ)言共享同一個(gè)對(duì)話行為標(biāo)簽?;诜诸惡蟮腎WSLT訓(xùn)練集,我們分別進(jìn)行了短語(yǔ)對(duì)的抽取,所抽取的短語(yǔ)對(duì)個(gè)數(shù)見(jiàn)表6。

    表6 IWSLT07語(yǔ)料的對(duì)話行為分類結(jié)果

    對(duì)于生成的10-best翻譯候選結(jié)果,我們以Switchboard-DAMSL為訓(xùn)練語(yǔ)料對(duì)齊進(jìn)行對(duì)話行為分類。因CASIA-CASSIL語(yǔ)料與Switchboard-DAMSL語(yǔ)料的對(duì)話行為標(biāo)注規(guī)范存在差異,我們對(duì)于英文的分類結(jié)果,只選取中英文定義一致的DA3類別的數(shù)據(jù)。

    6.3 翻譯系統(tǒng)實(shí)驗(yàn)結(jié)果

    表7給出了對(duì)訓(xùn)練集和開(kāi)發(fā)集進(jìn)行分類并分別訓(xùn)練后,翻譯結(jié)果的BLEU打分。基線系統(tǒng)指采用全部訓(xùn)練集和開(kāi)發(fā)集訓(xùn)練出的翻譯模型。A(短語(yǔ)表)、A(調(diào)序表)分別指對(duì)短語(yǔ)翻譯概率表和調(diào)序表進(jìn)行概率替換。B指對(duì)開(kāi)發(fā)集進(jìn)行對(duì)話行為分類。以對(duì)話行為類別為單位,我們分別給出了每一類測(cè)試集的BLEU得分?!癉Ai”表示屬于第i類對(duì)話行為的測(cè)試集,“ALL”表示全部測(cè)試集集合。

    表7 翻譯結(jié)果的BLEU得分

    由實(shí)驗(yàn)結(jié)果可以看出,A(短語(yǔ)表)對(duì)短語(yǔ)翻譯概率表進(jìn)行替換以后,總測(cè)試集ALL的BLEU得分有所提高。對(duì)每個(gè)類別測(cè)試集的實(shí)驗(yàn)結(jié)果進(jìn)行研究,我們發(fā)現(xiàn)BLEU得分的提高與否和分類后訓(xùn)練集的大小有關(guān)。分類后若訓(xùn)練集規(guī)模過(guò)小,則按類別訓(xùn)練出的短語(yǔ)概率表概率值的可信度降低,從而影響到替換以后的翻譯效果。參照表6,規(guī)模最小的DA2和DA4經(jīng)過(guò)短語(yǔ)概率替換以后,BLEU值有所下降;而規(guī)模較大的DA1、DA3、DA5均得到了不同程度的提高。

    開(kāi)發(fā)集進(jìn)行對(duì)話行為分類(B)以后,對(duì)于DA2~DA5,由于開(kāi)發(fā)集規(guī)模的大幅減小,BLEU得分也明顯下降,從而引起了ALL得分的下降。但是DA1類別分類后開(kāi)發(fā)集規(guī)模變化不大,翻譯結(jié)果得分最終有所提高。這說(shuō)明提高開(kāi)發(fā)集和測(cè)試集的吻合程度,即使開(kāi)發(fā)集規(guī)模略微減小,也會(huì)對(duì)系統(tǒng)的性能有所幫助。

    同時(shí)對(duì)短語(yǔ)表和調(diào)序表的概率進(jìn)行替換,BLEU得分較基線系統(tǒng)有了明顯提高提高,提高較大的為中英文語(yǔ)序差異較大的對(duì)話行為類別,如DA2(是非問(wèn)),DA3(特指問(wèn)),DA4(感嘆)。

    在C(n-best翻譯候選結(jié)果的重排序)的實(shí)驗(yàn)中,只針對(duì)源語(yǔ)言分類為DA3的語(yǔ)句,若10-best翻譯候選的分類結(jié)果中存在類別為DA3的翻譯結(jié)果,則選取DA3概率最大者為最終的翻譯結(jié)果。若10-best翻譯候選分類的分類結(jié)果類別為DAi且i≠3,則按以下兩種情況分別討論:(1)始終選取DA3概率最大者(SVM- DA3);(2)選取DAi概率最大者(SVM-TOP)。

    C的實(shí)驗(yàn)結(jié)果見(jiàn)表8。兩種方法的實(shí)驗(yàn)結(jié)果均較基線系統(tǒng)有大幅提高,SVM-DA3的方法使翻譯結(jié)果與源語(yǔ)言的對(duì)話行為盡量保持一致,而SVM-TOP的方式有助于修正源語(yǔ)言端的分類錯(cuò)誤,使BLEU得分有了進(jìn)一步的提高。如表9所示,源語(yǔ)言的對(duì)話行為原本為DA1,卻被錯(cuò)誤地識(shí)別為DA3,而SVM-TOP的方法成功修正了這一錯(cuò)誤,得到了正確的翻譯結(jié)果。而這兩種方法不能解決的問(wèn)題是當(dāng)存在多個(gè)翻譯結(jié)果對(duì)話行為標(biāo)簽相同時(shí),概率最大者并不一定是最優(yōu)結(jié)果,如果再引入詞性、長(zhǎng)度、詞語(yǔ)對(duì)齊等信息,將會(huì)有助于得到更好的重排序結(jié)果。

    表8 DA3 n-best翻譯結(jié)果的重排序

    表9 不同重排序方法的翻譯結(jié)果

    7 結(jié)束語(yǔ)

    本文介紹對(duì)話行為理論和口語(yǔ)標(biāo)注語(yǔ)料的基礎(chǔ)上,提出了將對(duì)話行為這一語(yǔ)用信息應(yīng)用于統(tǒng)計(jì)機(jī)器翻譯過(guò)程的三種方式。以基于短語(yǔ)的統(tǒng)計(jì)機(jī)器翻譯系統(tǒng)為應(yīng)用對(duì)象,本文提出的方法利用對(duì)話行為的自動(dòng)分類,使訓(xùn)練語(yǔ)料—測(cè)試語(yǔ)料、開(kāi)發(fā)集—測(cè)試集、源語(yǔ)言—目標(biāo)語(yǔ)言的一致性得到提高,提高了系統(tǒng)的性能,使最終的翻譯結(jié)果可以更準(zhǔn)確地反映源語(yǔ)言所要表達(dá)的對(duì)話意圖。

    在訓(xùn)練集和開(kāi)發(fā)集上的實(shí)驗(yàn)結(jié)果表明,通過(guò)對(duì)話行為的分類,使訓(xùn)練語(yǔ)料—測(cè)試語(yǔ)料的一致性得到了提高,從而提高了系統(tǒng)的BLEU值,而分類后的訓(xùn)練集、開(kāi)發(fā)集的規(guī)模大小也與系統(tǒng)的得分有關(guān)。在n-best結(jié)果重排序的實(shí)驗(yàn)上,我們?cè)谑狗g結(jié)果與源語(yǔ)言保持一致的基礎(chǔ)上,也避免了源語(yǔ)言端的分類錯(cuò)誤,使BLEU值得到了較大的提高。

    此外,我們認(rèn)為基于n-gram正確率的BLEU打分并不能完全反映對(duì)話行為對(duì)翻譯結(jié)果的影響。因此,下一步工作中我們將嘗試在真實(shí)口語(yǔ)對(duì)話中,以人工打分的評(píng)價(jià)方式進(jìn)一步研究對(duì)話行為在口語(yǔ)翻譯中的應(yīng)用。

    [1] J. L. Austin. How to do Things with Words[M]. Oxford:Clarendon Press, 1962.

    [2] D. Jurafsky, L. Shriberg, and D. Biasca. Switchboard SWBD-DAMSL Labeling Project Coder’s Manual, Draft 13[R]. Technical Report 97-02, University of Colorado Institute of Cognitive Science. 1997.

    [3] R. Dhillon, S. Bhagat, H. Carvey, et al. Meeting Recorder Project:Dialog-act Labeling Guide[R]. ICSI Technical Report TR-04-002. International Computer Science Insitute. 2004.

    [4] M. Walker, and R. Passonneau. DATE:A Dialog Act Tagging Scheme for Evaluation of Spoken Dialog Systems[C]//Proceedings of HLT 2001, San Diego. 2001.

    [5] A. Stolcke, K. Ries, N. Coccaro, et al. Dialog Act Modeling for Automatic Tagging and Recognition of Conversational Speech[J]. Computational Linguistics, 2000. 26(3):339-373.

    [6] M. Woszczyna, N. Coccaro, A. Eisele, et al. Recent Advances in Janus:A Speech Translation System[C]//Third European Conference on Speech Communication and Technology. 1993.

    [7] N. Reithinger, and E. Maier. Utilizing Statistical Dialog Act Processing in Verbmobil[C]//Proceedings of the 33rdAnnual Meeting of the Association for Computational Linguistics (ACL)MIT, Cambredge, MA. 1995:116-121.

    [8] Wenjie Cao, Chengqing Zong, and Bo Xu. Approach to Interchange-Format Based Chinese Generation[C]//Proceedings of the International Conference on Spoken Language Processing (ICSLP). Jeju, Korea. 2004:4-8.

    [9] Yuncun Zuo, Yu Zhou and Chengqing Zong, Multi-Engine Based Chinese-to-English Translation System[C]//Proceedings of International Workshop on Spoken Language Translation, Japan, 2004:73-76.

    [10] V. K. R. Sridhar, S. Narayanan, et al. Enriching Spoken Language Translation with Dialog Acts[C]//Proceedings of ACL 2008, Short Papers(Companion Volume). Columbus, Ohio, USA, June, 2008:225-228.

    [11] JR Searle. Speech Acts:an Essay in the Philosophy of Language[M]. Cambridge University Press:Cambridge, England. 1969.

    [12] 何兆熊. 新編語(yǔ)用學(xué)概要[M]. 上海:上海外語(yǔ)教育出版社. 2000.

    [13] G. Leech and M. Weisser. Pragmatics and Dialogue. The Oxford Handbook of Computational Linguistics[M]. Oxford University Press. 2003:136-156.

    [14] J. Carletta, S. Ashby, S. Bourban, et al. The AMI Meeting Corpus:A Pre-Announcement. In Steve Renals and Samy Bengio, editors. Machine Learning for Multimodal Interaction II[M]. Springer-Verlag, Berlin/Herdelberg. 2006. LNCS 3869, Pages 28-39.

    [15] Keyan Zhou, Aijun Li, Zhigang Yin, et al. CASIA-CASSIL:a Chinese Telephone Comversation Corpus in Real Scenarios with Multi-leveled Annotation[C]//Proceedings of the seventh International Conference on Language Resources and Evaluation(LREC). May 2010, Malta.

    [16] 解國(guó)棟, 宗成慶, 徐波. 面向中間語(yǔ)義表示格式的漢語(yǔ)口語(yǔ)解析方法[J]. 中文信息學(xué)報(bào). 2002. 17(1):1-6.

    [17] 左云存, 宗成慶. 基于語(yǔ)義分類樹(shù)的漢語(yǔ)口語(yǔ)理解方法[J]. 中文信息學(xué)報(bào). 2005. 20(2):8-15.

    [18] 宗成慶. 統(tǒng)計(jì)自然語(yǔ)言處理[M]. 北京:清華大學(xué)出版社, 2008.5.

    [19] Y. Zhou, Y. He, and C. Zong. The CASIA Phrase-Based Statistical Machine Translation System for IWSLT 2007[C]//Proceedings of the International Workshop on Spoken Language Translation (IWSLT), Trento, Italy. October 15-16, 2007.

    [20] Dinoj Surendran, and Gina-Anne Levow. 2006. DA Tagging with Support Vector Machines and Hidden Markov Models[C]//Proceedings of Interspeech, Pittsburgh, PA.

    [21] K. Zhou, C. Zong, H. Wu, et al. Predicting and Tagging DA with SVM and MDP[C]//Proceedings of ISCSLP 2008. Kunming, China. 2008: 293-296.

    [22] K. Zhou, C, Zong. Dialog-act Recognition Using Discourse and Sentence Structure Information[C]//Proceedings of IALP 2009. Singapore, 2009: 11-16.

    猜你喜歡
    源語(yǔ)言語(yǔ)料短語(yǔ)
    林巍《知識(shí)與智慧》英譯分析
    淺析日語(yǔ)口譯譯員素質(zhì)
    基于語(yǔ)料調(diào)查的“連……都(也)……”出現(xiàn)的語(yǔ)義背景分析
    跨文化視角下對(duì)具有修辭手法諺語(yǔ)英譯漢的研究
    速讀·下旬(2016年7期)2016-07-20 08:50:28
    華語(yǔ)電影作為真實(shí)語(yǔ)料在翻譯教學(xué)中的應(yīng)用
    以口譯實(shí)例談雙語(yǔ)知識(shí)的必要性
    考試周刊(2015年36期)2015-09-10 15:03:38
    《苗防備覽》中的湘西語(yǔ)料
    國(guó)內(nèi)外語(yǔ)用學(xué)實(shí)證研究比較:語(yǔ)料類型與收集方法
    九寨沟县| 武城县| 保亭| 天峻县| 台州市| 蒲江县| 调兵山市| 科技| 平安县| 龙江县| 博兴县| 明光市| 南昌市| 兴国县| 页游| 宝鸡市| 拉孜县| 双城市| 龙海市| 和龙市| 星座| 攀枝花市| 怀来县| 康乐县| 丹巴县| 上蔡县| 张北县| 荣成市| 通辽市| 广安市| 文成县| 波密县| 永胜县| 青阳县| 丁青县| 咸丰县| 甘孜| 马鞍山市| 稻城县| 溆浦县| 崇信县|