• <tr id="yyy80"></tr>
  • <sup id="yyy80"></sup>
  • <tfoot id="yyy80"><noscript id="yyy80"></noscript></tfoot>
  • 99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看 ?

    面向神經(jīng)機(jī)器翻譯系統(tǒng)的多粒度蛻變測(cè)試*

    2021-05-23 06:12:06鐘文康葛季棟李傳藝
    軟件學(xué)報(bào) 2021年4期
    關(guān)鍵詞:粒度短語(yǔ)譯文

    鐘文康 ,葛季棟 ,陳 翔 ,李傳藝 ,唐 澤 ,駱 斌

    1(計(jì)算機(jī)軟件新技術(shù)國(guó)家重點(diǎn)實(shí)驗(yàn)室(南京大學(xué)),江蘇 南京 210023)

    2(南通大學(xué) 信息科學(xué)技術(shù)學(xué)院,江蘇 南通 226019)

    1 引 言

    機(jī)器翻譯研究如何將基于一種自然語(yǔ)言描述的文本自動(dòng)翻譯成基于另一種自然語(yǔ)言描述的文本,是自然語(yǔ)言處理的一個(gè)重要研究問(wèn)題.傳統(tǒng)的機(jī)器翻譯系統(tǒng)主要采用統(tǒng)計(jì)機(jī)器翻譯模型[1].近年來(lái),隨著深度學(xué)習(xí)的發(fā)展和應(yīng)用,基于序列對(duì)序列模型(sequence to sequence model)的神經(jīng)機(jī)器翻譯模型[2]在很多語(yǔ)言對(duì)的機(jī)器翻譯任務(wù)上都超過(guò)了統(tǒng)計(jì)機(jī)器翻譯模型.神經(jīng)機(jī)器翻譯模型不僅有很高的研究?jī)r(jià)值,還有很強(qiáng)的產(chǎn)業(yè)化能力[3],目前主流的翻譯服務(wù)提供商(例如,谷歌翻譯、必應(yīng)翻譯、百度翻譯、騰訊翻譯等)都提供了在線神經(jīng)機(jī)器翻譯服務(wù).

    盡管神經(jīng)機(jī)器翻譯為機(jī)器翻譯任務(wù)帶來(lái)了極大的性能上的提升,但仍存在一些問(wèn)題.例如,對(duì)長(zhǎng)句子和低頻詞語(yǔ)的翻譯效果不佳,翻譯結(jié)果和詞對(duì)齊模型不符等[4],并且,這些錯(cuò)誤出現(xiàn)的規(guī)律和原因往往難以被發(fā)現(xiàn).與統(tǒng)計(jì)機(jī)器翻譯模型相比,神經(jīng)機(jī)器翻譯系統(tǒng)還存在更為顯著的魯棒性問(wèn)題[4].Cheng 等人[5]指出,對(duì)輸入語(yǔ)句做出的極小改變可能會(huì)引起翻譯結(jié)果的劇烈改變,如同“蝴蝶效應(yīng)”.此外,目前商用的神經(jīng)機(jī)器翻譯系統(tǒng)較多,但由于神經(jīng)網(wǎng)絡(luò)模型結(jié)構(gòu)和訓(xùn)練數(shù)據(jù)的差異,各神經(jīng)機(jī)器翻譯系統(tǒng)的穩(wěn)定性并不一樣.圖1 和圖2 分別展示了谷歌和百度的神經(jīng)機(jī)器翻譯系統(tǒng)在翻譯3 個(gè)近似句子時(shí)的不同結(jié)果.3 個(gè)待翻譯英文句子在結(jié)構(gòu)上完全相同,在內(nèi)容上僅句尾單詞含義不同,但是它們經(jīng)過(guò)谷歌和百度的神經(jīng)機(jī)器翻譯系統(tǒng)翻譯得到的翻譯結(jié)果卻出現(xiàn)了較大的差異.谷歌翻譯在第2 個(gè)和第3 個(gè)句子上出現(xiàn)了翻譯錯(cuò)誤,而百度翻譯在第1 個(gè)句子上出現(xiàn)了翻譯錯(cuò)誤.

    Fig.1 Translation errors of Google’s neural machine translation system圖1 谷歌神經(jīng)機(jī)器翻譯系統(tǒng)的翻譯錯(cuò)誤示例

    Fig.2 Translation errors of Baidu’s neural machine translation system圖2 百度神經(jīng)機(jī)器翻譯系統(tǒng)的翻譯錯(cuò)誤示例

    顯然,對(duì)神經(jīng)機(jī)器翻譯系統(tǒng)進(jìn)行翻譯魯棒性評(píng)估具有重要的現(xiàn)實(shí)意義和研究意義.目前在該領(lǐng)域還缺乏相關(guān)研究.傳統(tǒng)的機(jī)器翻譯質(zhì)量評(píng)估通常采用基于參考譯文的方法,側(cè)重翻譯的正確性.而神經(jīng)機(jī)器翻譯系統(tǒng)采用的神經(jīng)網(wǎng)絡(luò)模型導(dǎo)致其與傳統(tǒng)的統(tǒng)計(jì)機(jī)器翻譯模型相比存在更為顯著的翻譯魯棒性問(wèn)題,亟需合理的測(cè)試手段和評(píng)估指標(biāo).如何對(duì)神經(jīng)機(jī)器翻譯系統(tǒng)進(jìn)行測(cè)試和質(zhì)量評(píng)估具有一定的研究挑戰(zhàn)性.目前,這種挑戰(zhàn)性主要體現(xiàn)在兩個(gè)方面.

    神經(jīng)網(wǎng)絡(luò)模型的測(cè)試?yán)щy性.神經(jīng)機(jī)器翻譯系統(tǒng)采用的神經(jīng)網(wǎng)絡(luò)模型缺乏可解釋性和可理解性[6].在進(jìn)行神經(jīng)機(jī)器翻譯時(shí),待翻譯語(yǔ)句在神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)中會(huì)被轉(zhuǎn)換為多維向量,這種轉(zhuǎn)換涉及到的步驟繁雜,參數(shù)眾多,很難理解每一個(gè)步驟的實(shí)際含義.另一方面,神經(jīng)網(wǎng)絡(luò)模型對(duì)訓(xùn)練數(shù)據(jù)具有很強(qiáng)的依賴性,相同的網(wǎng)絡(luò)結(jié)構(gòu)在不同的訓(xùn)練數(shù)據(jù)集下,訓(xùn)練出的參數(shù)取值會(huì)存在較大差異,造成輸出的穩(wěn)定性較低.

    機(jī)器翻譯任務(wù)的評(píng)估困難性.翻譯質(zhì)量通?;趨⒖甲g文進(jìn)行評(píng)估,即給定人工翻譯結(jié)果,與神經(jīng)機(jī)器翻譯系統(tǒng)輸出的翻譯進(jìn)行比較,并通過(guò)相似度指標(biāo)進(jìn)行量化.但這種方法完全依賴于參考譯文的質(zhì)量,而高質(zhì)量的參考譯文獲取的難度較大,成本很高.

    神經(jīng)網(wǎng)絡(luò)模型的測(cè)試?yán)щy性意味著采用白盒測(cè)試方法可行性較低,而機(jī)器翻譯模型的黑盒測(cè)試方法通?;趨⒖甲g文,成本較高.為了解決上述研究挑戰(zhàn),實(shí)現(xiàn)在沒(méi)有參考譯文情況下對(duì)神經(jīng)機(jī)器翻譯系統(tǒng)進(jìn)行有效的翻譯魯棒性評(píng)估,本文基于蛻變測(cè)試思想提出了一個(gè)多粒度的蛻變測(cè)試框架 MGMT(multi-granularity metamorphic test).MGMT 首次采用多粒度的蛻變測(cè)試方法進(jìn)行質(zhì)量評(píng)估,分別在句子、短語(yǔ)和單詞粒度上定義了蛻變關(guān)系以及相似度計(jì)算方法,并基于蛻變關(guān)系對(duì)每一個(gè)句子進(jìn)行3 個(gè)粒度上的蛻變測(cè)試,最后用蛻變關(guān)系滿足率作為神經(jīng)機(jī)器翻譯系統(tǒng)的魯棒性量化指標(biāo).同時(shí),我們基于MGMT 框架開(kāi)展了實(shí)證研究,采用一個(gè)公開(kāi)的中英翻譯數(shù)據(jù)集UM-Corpus[7],選取其中5 個(gè)領(lǐng)域(教育、微博、新聞、口語(yǔ)、字幕)的英文句子集作為源數(shù)據(jù)集,在MGMT 測(cè)試框架下對(duì)現(xiàn)有的、使用廣泛的大型神經(jīng)機(jī)器翻譯系統(tǒng)(包括谷歌翻譯[8]、必應(yīng)翻譯[9]、百度翻譯[10]、阿里巴巴翻譯[11]、騰訊翻譯[12]、搜狗翻譯[13])進(jìn)行質(zhì)量評(píng)估.最后將數(shù)據(jù)集中的中文句子作為參考譯文,以基于參考譯文的方法為基準(zhǔn),與同類型的蛻變測(cè)試方法進(jìn)行比較,以證明MGMT 相比于同類型方法在評(píng)估準(zhǔn)確度上有顯著的優(yōu)越性.

    本文第2 節(jié)對(duì)已有的面向神經(jīng)機(jī)器翻譯系統(tǒng)的質(zhì)量評(píng)估和測(cè)試工作進(jìn)行總結(jié).第3 節(jié)介紹本文提出的多粒度蛻變測(cè)試框架,描述測(cè)試流程、蛻變關(guān)系定義以及相似度計(jì)算方法.第4 節(jié)針對(duì)6 個(gè)主流商用神經(jīng)機(jī)器翻譯系統(tǒng)在一個(gè)多領(lǐng)域的翻譯數(shù)據(jù)集上進(jìn)行實(shí)驗(yàn),并用同類型蛻變測(cè)試工作與基于參考譯文的測(cè)試方法進(jìn)行對(duì)比,以證明本文方法的有效性.第5 節(jié)進(jìn)行總結(jié)與展望,對(duì)本文工作進(jìn)行總結(jié)并闡明未來(lái)可能的工作方向.

    2 相關(guān)工作

    傳統(tǒng)的機(jī)器翻譯系統(tǒng)質(zhì)量評(píng)估并不區(qū)分正確性和魯棒性,通常用翻譯質(zhì)量來(lái)衡量系統(tǒng)質(zhì)量.Eirini[14]總結(jié)了兩類翻譯質(zhì)量評(píng)估方法.一類是人工評(píng)估,即由專業(yè)譯者來(lái)判斷翻譯質(zhì)量的好壞.人工評(píng)估的優(yōu)點(diǎn)是評(píng)估結(jié)果最接近實(shí)際,但是時(shí)間成本和人力成本都較高.另一類方法是基于參考譯文進(jìn)行評(píng)估,即給定翻譯好的參考譯文,將機(jī)器翻譯的輸出結(jié)果與參考譯文進(jìn)行相似度指標(biāo)計(jì)算,最常用的指標(biāo)有BLEU[15]、METEOR[16]、WER[17]等.基于參考譯文的方法相對(duì)于人工方法成本有所降低,但是高質(zhì)量參考譯文的獲取難度較大,成本仍然很高.

    如何在沒(méi)有參考譯文的情況下對(duì)神經(jīng)機(jī)器翻譯系統(tǒng)進(jìn)行質(zhì)量評(píng)估是一項(xiàng)困難的任務(wù).神經(jīng)機(jī)器翻譯系統(tǒng)采用的神經(jīng)網(wǎng)絡(luò)模型具有參數(shù)規(guī)模大、可理解性弱的特點(diǎn),且普遍存在測(cè)試預(yù)言問(wèn)題.測(cè)試預(yù)言問(wèn)題[18]是指在測(cè)試中對(duì)于某個(gè)輸入需要給定預(yù)期的輸出來(lái)判斷系統(tǒng)實(shí)際輸出的正確性.Wang 等人[19]總結(jié)了目前常見(jiàn)的解決深度神經(jīng)網(wǎng)絡(luò)系統(tǒng)測(cè)試預(yù)言的方法,將其分為兩類.第1 類基于差異測(cè)試[20],即通過(guò)檢測(cè)同一輸入在基于相同規(guī)約的實(shí)現(xiàn)下的輸出是否相同來(lái)判斷是否出錯(cuò).另一類基于蛻變測(cè)試[21],即通過(guò)定義蛻變關(guān)系來(lái)描述系統(tǒng)的輸入變化和輸出變化之間的關(guān)系.在以往的神經(jīng)機(jī)器翻譯系統(tǒng)質(zhì)量評(píng)估工作中,基于蛻變測(cè)試的方法較為常見(jiàn),這種方法的關(guān)鍵在于蛻變關(guān)系的定義.

    Milam 等人[22]提出用往返翻譯RTT(round-trip translation)在無(wú)需參考譯文的情況下可以對(duì)機(jī)器翻譯系統(tǒng)進(jìn)行測(cè)試的有效性.基于RTT 構(gòu)造的蛻變關(guān)系是:源語(yǔ)句通過(guò)神經(jīng)機(jī)器翻譯系統(tǒng)翻譯到目標(biāo)語(yǔ)言,再翻譯回源語(yǔ)言得到的翻譯結(jié)果應(yīng)該與源語(yǔ)句相同.

    Daniel 等人[23]提出了一種結(jié)合蒙特卡洛隨機(jī)算法和蛻變測(cè)試的方法 MCMT(Monte Carlo combined metamorphic test),以此來(lái)衡量神經(jīng)機(jī)器翻譯系統(tǒng)的質(zhì)量.它定義了一種類似RTT[22]的蛻變關(guān)系:源語(yǔ)言經(jīng)過(guò)神經(jīng)機(jī)器翻譯系統(tǒng)直接翻譯到目標(biāo)語(yǔ)言,與源語(yǔ)言先使用蒙特卡洛算法隨機(jī)翻譯到一種中間語(yǔ)言,再翻譯到目標(biāo)語(yǔ)言得到的兩個(gè)翻譯結(jié)果應(yīng)該相同.

    Zhou 等人[24]在Daniel 等人[23]工作的基礎(chǔ)上提出了新的神經(jīng)機(jī)器翻譯系統(tǒng)質(zhì)量評(píng)估方法MT4MT.該方法使用基于詞替換的蛻變關(guān)系:替換源語(yǔ)句中的一個(gè)單詞,不會(huì)影響翻譯語(yǔ)句的結(jié)構(gòu).同時(shí),MT4MT 有針對(duì)性地設(shè)計(jì)了一些簡(jiǎn)單的替換規(guī)則.

    此外,有部分工作研究如何在無(wú)需參考譯文的情況下進(jìn)行機(jī)器翻譯系統(tǒng)的翻譯錯(cuò)誤定位.He 等人[25]提出了結(jié)構(gòu)不變性測(cè)試(structure-invariant test,簡(jiǎn)稱SIT)以發(fā)現(xiàn)系統(tǒng)的翻譯錯(cuò)誤.結(jié)構(gòu)不變的含義是指,上下文含義相近的句子在結(jié)構(gòu)上應(yīng)該相同.具體做法是,將源語(yǔ)句中的某個(gè)詞通過(guò)BERT 遮蔽語(yǔ)言模型[26]進(jìn)行替換,生成上下文相似的句子,最后再比較這兩個(gè)句子的結(jié)構(gòu)相似度.Zheng 等人[27]也提出了一種自動(dòng)測(cè)試神經(jīng)機(jī)器翻譯系統(tǒng)的方法,通過(guò)短語(yǔ)識(shí)別和聯(lián)系學(xué)習(xí)可以自動(dòng)發(fā)現(xiàn)神經(jīng)機(jī)器翻譯系統(tǒng)的過(guò)譯(over-translation)和漏譯(undertranslation)錯(cuò)誤.Shashij 等人[28]提出了一種翻譯錯(cuò)誤的自動(dòng)檢測(cè)方法,借助句子的成分句法分析樹(shù)將句子中的短語(yǔ)獨(dú)立出來(lái),通過(guò)比較短語(yǔ)在句子中和獨(dú)立翻譯的結(jié)果來(lái)自動(dòng)發(fā)現(xiàn)系統(tǒng)的翻譯錯(cuò)誤.Sun 等人[29]提出了一個(gè)結(jié)合測(cè)試與修復(fù)的框架TransRepair,在測(cè)試階段也采用了基于詞替換的方法來(lái)生成上下文相似句子.

    但是,上述基于蛻變測(cè)試的工作仍然存在不足之處.MCMT[23]采用隨機(jī)算法來(lái)選擇中間語(yǔ)言,但不同語(yǔ)言的翻譯效果有較大差異,會(huì)對(duì)實(shí)驗(yàn)產(chǎn)生干擾.MT4MT[24]設(shè)計(jì)的替換規(guī)則過(guò)于主觀,能被替換的詞的范圍較小.另外,基于蛻變測(cè)試的已有工作都只采用了一種蛻變關(guān)系來(lái)進(jìn)行蛻變測(cè)試,實(shí)驗(yàn)結(jié)果缺乏說(shuō)服力.

    針對(duì)已有研究工作存在的不足,本文提出了一個(gè)多粒度的蛻變測(cè)試框架MGMT,可以在無(wú)需參考譯文的情況下對(duì)神經(jīng)機(jī)器翻譯系統(tǒng)進(jìn)行魯棒性評(píng)估.MGMT 與已有方法有較大區(qū)別.首先,MGMT 與已有工作的目的不同.已有工作旨在利用蛻變測(cè)試思想對(duì)神經(jīng)機(jī)器翻譯系統(tǒng)的翻譯性能進(jìn)行評(píng)估(例如RTT[22]、MCMT[23])或定位翻譯錯(cuò)誤的樣本(例如SIT[25]、TransRepair[29]),主要關(guān)注翻譯的正確性;而MGMT 的主要目的是借助蛻變測(cè)試對(duì)神經(jīng)機(jī)器翻譯系統(tǒng)的整體魯棒性進(jìn)行評(píng)估,主要關(guān)注翻譯的穩(wěn)定性.具體來(lái)說(shuō),MGMT 與RTT[22]、MCMT[23]、MT4MT[24]都基于蛻變測(cè)試對(duì)神經(jīng)機(jī)器翻譯系統(tǒng)進(jìn)行整體性評(píng)估且不需要參考譯文,RTT[22]、MCMT[23]、MT4MT[24]基于單一蛻變關(guān)系來(lái)評(píng)估翻譯質(zhì)量,但MGMT 旨在以合理的方式評(píng)估翻譯系統(tǒng)魯棒性,因此使用了3 種符合翻譯直覺(jué)的蛻變關(guān)系(具體細(xì)節(jié)可參考第3.2 節(jié)中的蛻變關(guān)系定義).MGMT 中短語(yǔ)和單詞粒度的測(cè)試樣本生成思路受SIT[25]和TransRepair[29]的啟發(fā),用替換的方式生成測(cè)試樣本,但SIT[25]的目的是盡可能地發(fā)現(xiàn)更多的翻譯錯(cuò)誤,因此采用了盡可能多且獨(dú)立于替換方法的相似度計(jì)算方法,而MGMT 為確保魯棒性評(píng)估的合理性,采用了一一對(duì)應(yīng)的替換方法和相似度計(jì)算方法.

    3 多粒度的蛻變測(cè)試框架

    在本節(jié)中,首先介紹框架的整體架構(gòu)和測(cè)試流程(見(jiàn)第3.1 節(jié)).其次介紹框架中的主要模塊設(shè)計(jì),包括句子粒度、短語(yǔ)粒度、單詞粒度上的蛻變關(guān)系定義(見(jiàn)第3.2 節(jié)).之后介紹MGMT 框架中如何選擇待替換成分并進(jìn)行成分替換(見(jiàn)第3.3 節(jié))以及如何進(jìn)行各粒度上的相似度計(jì)算(見(jiàn)第3.4 節(jié)).

    3.1 整體架構(gòu)

    本文提出的面向神經(jīng)機(jī)器翻譯系統(tǒng)的多粒度蛻變測(cè)試框架MGMT 大致可分為3 個(gè)部分.圖3 展示了從源語(yǔ)句輸入到蛻變關(guān)系判定結(jié)果輸出的主要流程.

    (1) 選擇源語(yǔ)句中的待替換成分.根據(jù)MGMT 中定義的蛻變關(guān)系(見(jiàn)第3.2 節(jié)),對(duì)源語(yǔ)句進(jìn)行句子、短語(yǔ)、單詞粒度的替換.因此,首先要在3 個(gè)粒度上選擇源句子中需要替換的成分.在MGMT 的設(shè)計(jì)中,源句子在句子粒度上的待替換成分即為整個(gè)句子.接著進(jìn)行待替換單詞和待替換短語(yǔ)的選擇.我們對(duì)源語(yǔ)句進(jìn)行成分句法分析,得到句子的成分句法分析樹(shù),再使用DeepSelect 算法(見(jiàn)第3.1.1 節(jié))在成分句法分析樹(shù)上進(jìn)行選擇.在圖3 所示的例子中,我們根據(jù)分析樹(shù)選擇了一個(gè)NNP(proper noun,singular)詞性單詞作為待替換單詞和一個(gè)ADJP(adjective phrase)詞性短語(yǔ)作為待替換短語(yǔ).

    (2) 對(duì)源語(yǔ)句進(jìn)行成分替換.句子粒度上的替換基于RTT[22]思想.RTT 包含正譯(forward translation,簡(jiǎn)稱FT)和回譯(backward translation,簡(jiǎn)稱BT),正譯是指將文本從源語(yǔ)言翻譯到目標(biāo)語(yǔ)言,回譯是指將正譯得到的翻譯結(jié)果翻譯回源語(yǔ)言.我們先將源語(yǔ)句正譯到目標(biāo)語(yǔ)言,再回譯到源語(yǔ)言以得到句子粒度的替換結(jié)果.短語(yǔ)粒度和單詞粒度上的替換基于BERT 遮蔽語(yǔ)言模型[26].本文將上面(1)中選中的待替換單詞和短語(yǔ)用遮蔽詞替代,再輸入BERT 遮蔽語(yǔ)言模型中,該模型可以根據(jù)句子的語(yǔ)境預(yù)測(cè)被遮蔽位置的詞.最后用預(yù)測(cè)出的結(jié)果替換源句子中相同位置的單詞和短語(yǔ)以得到短語(yǔ)粒度和單詞粒度的替換結(jié)果.

    (3) 翻譯并對(duì)翻譯結(jié)果進(jìn)行相似度計(jì)算.將源語(yǔ)句連同上面(2)中3 個(gè)粒度的替換語(yǔ)句輸入到神經(jīng)機(jī)器翻譯系統(tǒng)中得到4 個(gè)目標(biāo)語(yǔ)言翻譯結(jié)果,并分別對(duì)3 個(gè)粒度上的替換語(yǔ)句和源語(yǔ)句的翻譯結(jié)果進(jìn)行相似度計(jì)算.在句子粒度上,根據(jù)編輯距離[12]分別計(jì)算源語(yǔ)言句子對(duì)和目標(biāo)語(yǔ)言句子對(duì)的相似度.在短語(yǔ)和單詞粒度上,考慮到選擇待替換成分是基于成分結(jié)構(gòu)分析樹(shù)的,因此在計(jì)算目標(biāo)語(yǔ)言句子對(duì)相似度時(shí)也基于句子的成分結(jié)構(gòu)分析樹(shù).最后根據(jù)相似度計(jì)算結(jié)果判斷是否滿足MGMT 定義的蛻變關(guān)系(見(jiàn)第3.2 節(jié)).

    Fig.3 Process of multi-granularity metamorphic testing framework圖3 多粒度蛻變測(cè)試框架的流程

    3.2 蛻變關(guān)系定義

    為了利用蛻變測(cè)試對(duì)神經(jīng)機(jī)器翻譯系統(tǒng)進(jìn)行合理的翻譯魯棒性評(píng)估,在本節(jié)中我們定義了句子、短語(yǔ)和單詞3 個(gè)粒度的蛻變關(guān)系.這3 個(gè)蛻變關(guān)系的定義基于對(duì)翻譯任務(wù)的常理性推斷.句子粒度的蛻變關(guān)系基于:源語(yǔ)句的直譯結(jié)果與源語(yǔ)句經(jīng)過(guò)多輪翻譯得到的翻譯結(jié)果應(yīng)該接近.短語(yǔ)和單詞粒度的蛻變關(guān)系基于:改變?cè)凑Z(yǔ)句中的一小部分,那么源語(yǔ)句其他部分的翻譯結(jié)果應(yīng)該不變.下文第3.2.1 節(jié)、第3.2.2 節(jié)和第3.2.3 節(jié)分別詳細(xì)介紹句子、短語(yǔ)、單詞粒度的蛻變關(guān)系定義及判定方法.

    3.2.1 句子粒度蛻變關(guān)系

    RTT[22]是在沒(méi)有參考譯文情況下的一種常用機(jī)器翻譯系統(tǒng)測(cè)試手段.其測(cè)試流程是首先將源語(yǔ)言正譯成目標(biāo)語(yǔ)言,再將目標(biāo)語(yǔ)言翻譯結(jié)果回譯到源語(yǔ)言,最后通過(guò)比較兩個(gè)源語(yǔ)言句子來(lái)評(píng)估機(jī)器翻譯系統(tǒng)的質(zhì)量.本文在RTT“正譯-回譯”流程的基礎(chǔ)上添加1 次正譯,由此定義了句子粒度的蛻變關(guān)系MRsl.

    定義1(句子粒度蛻變關(guān)系MRsl).設(shè)源語(yǔ)言句子為S,將S經(jīng)過(guò)神經(jīng)機(jī)器翻譯系統(tǒng)正譯得到目標(biāo)語(yǔ)言翻譯結(jié)果St,再將St通過(guò)神經(jīng)機(jī)器翻譯系統(tǒng)回譯到源語(yǔ)言得到翻譯結(jié)果S1,最后將S1通過(guò)神經(jīng)機(jī)器翻譯系統(tǒng)再一次正譯到目標(biāo)語(yǔ)言得到St1,那么S、S1、St、St1應(yīng)滿足:

    公式(1)的含義是,用目標(biāo)語(yǔ)言句子對(duì)與源語(yǔ)言句子對(duì)相似度的比值來(lái)評(píng)估基于句子粒度的翻譯魯棒性,目的是排除回譯對(duì)實(shí)驗(yàn)的影響.MGMT 框架實(shí)際評(píng)估的是神經(jīng)機(jī)器翻譯系統(tǒng)在源語(yǔ)言到目標(biāo)語(yǔ)言翻譯(正譯)上的翻譯魯棒性,然而句子粒度的替換過(guò)程(如圖3 所示)涉及到一次回譯.回譯采用的神經(jīng)機(jī)器翻譯模型是與正譯采用的神經(jīng)機(jī)器翻譯模型相互獨(dú)立的,因此在回譯階段產(chǎn)生的翻譯錯(cuò)誤會(huì)影響第2 次正譯.例如,在某次測(cè)試過(guò)程中,正譯的翻譯質(zhì)量極高而回譯的翻譯質(zhì)量很低,直接以Similarity(S,S1)或Similarity(St,St1)評(píng)估翻譯質(zhì)量都會(huì)導(dǎo)致評(píng)估值遠(yuǎn)高于真實(shí)值.因此,我們?cè)诠?1)中用Similarity(St,St1)/Similarity(S,S1)作為翻譯質(zhì)量的評(píng)估值,意在為低質(zhì)量的回譯過(guò)程增加一個(gè)補(bǔ)償因子:如果某次回譯過(guò)程翻譯質(zhì)量較差(Similarity(S,S1)較小),那么正譯翻譯質(zhì)量分?jǐn)?shù)應(yīng)得到部分補(bǔ)償(即Similarity(St,St1)/Similarity(S,S1)的值會(huì)增大);若回譯過(guò)程翻譯質(zhì)量較好(即Similarity(S,S1)接近1),那么翻譯魯棒性的真實(shí)值也更接近目標(biāo)語(yǔ)言句子對(duì)的相似度Similarity(St,St1),而此時(shí)公式(1)中的評(píng)估值Similarity(St,St1)/Similarity(S,S1)也更接近Similarity(St,St1).

    3.2.2 短語(yǔ)粒度蛻變關(guān)系

    一個(gè)句子由單詞構(gòu)成,不同的單詞能夠組成不同的短語(yǔ)結(jié)構(gòu).以英文句子為例,短語(yǔ)結(jié)構(gòu)可分為名詞性短語(yǔ)(noun phrase,簡(jiǎn)稱NP)、動(dòng)詞性短語(yǔ)(verb phrase,簡(jiǎn)稱VP)、介詞性短語(yǔ)(prepositional phrase,簡(jiǎn)稱PP)、副詞性短語(yǔ)(adverb phrase)等.將源句子中某個(gè)短語(yǔ)結(jié)構(gòu)替換為另一個(gè)近似的短語(yǔ)結(jié)構(gòu)之后,源句子和替換后句子經(jīng)過(guò)神經(jīng)機(jī)器翻譯系統(tǒng)翻譯得到的翻譯結(jié)果的結(jié)構(gòu)應(yīng)該相同.本文由此定義了短語(yǔ)粒度的蛻變關(guān)系MRpl.

    定義2(短語(yǔ)粒度蛻變關(guān)系MRpl).設(shè)源語(yǔ)句為S,替換S中的某個(gè)短語(yǔ)產(chǎn)生結(jié)構(gòu)相似的替換語(yǔ)句Sp.再將S和Sp通過(guò)神經(jīng)機(jī)器翻譯系統(tǒng)翻譯到目標(biāo)語(yǔ)言得到結(jié)果St和Spt.那么,St和St應(yīng)滿足:

    公式(2)的含義是源語(yǔ)句S和短語(yǔ)替換語(yǔ)句Sp經(jīng)過(guò)神經(jīng)機(jī)器翻譯系統(tǒng)的翻譯結(jié)果St和Spt在結(jié)構(gòu)上應(yīng)該相同.本文用基于成分句法分析樹(shù)的相似度計(jì)算方法(見(jiàn)第3.3.3 節(jié))來(lái)計(jì)算St和Spt的結(jié)構(gòu)相似度.結(jié)構(gòu)相似度的取值范圍在0~1 之間,取值為0 時(shí),說(shuō)明兩個(gè)句子的句法分析樹(shù)結(jié)構(gòu)完全不同,取值為1 時(shí),說(shuō)明兩個(gè)句子的句法分析樹(shù)結(jié)構(gòu)完全相同.

    3.2.3 單詞粒度蛻變關(guān)系

    一個(gè)句子由單詞構(gòu)成,不同的單詞有著不同的詞性,處在不同的句子結(jié)構(gòu)塊中.將源句子中的某個(gè)單詞替換為相同上下文的近似單詞,那么源句子和替換后的句子的翻譯結(jié)果在結(jié)構(gòu)上應(yīng)該相同.本文由此定義了單詞粒度的蛻變關(guān)系MRwl.

    定義3(單詞粒度蛻變關(guān)系MRwl).設(shè)源語(yǔ)句為S,替換S中某個(gè)單詞產(chǎn)生結(jié)構(gòu)相似的替換語(yǔ)句Sw,再將S和Sw通過(guò)神經(jīng)機(jī)器翻譯系統(tǒng)翻譯到目標(biāo)語(yǔ)言得到結(jié)果St和Swt.那么,St和Swt應(yīng)滿足:

    公式(3)的含義是源語(yǔ)句S和單詞替換語(yǔ)句Sw經(jīng)過(guò)神經(jīng)機(jī)器翻譯系統(tǒng)得到的翻譯結(jié)果St和Swt在結(jié)構(gòu)上應(yīng)該相同.同樣,我們用基于成分句法分析樹(shù)的相似度計(jì)算方法(見(jiàn)第3.3.3 節(jié))來(lái)計(jì)算St和Swt的結(jié)構(gòu)相似度.結(jié)構(gòu)相似度的取值范圍為0~1,取值為0 時(shí),說(shuō)明兩個(gè)句子的句法分析樹(shù)結(jié)構(gòu)完全不同,取值為1 時(shí),說(shuō)明兩個(gè)句子的句法分析樹(shù)結(jié)構(gòu)完全相同.

    3.3 替 換

    3.3.1 選擇待替換成分

    根據(jù)MGMT 定義的蛻變關(guān)系(見(jiàn)第3.2 節(jié)),對(duì)于一個(gè)測(cè)試樣本要在3 個(gè)粒度上進(jìn)行基于替換的蛻變測(cè)試,因此首先要在句子、短語(yǔ)、單詞3 個(gè)粒度上選擇源語(yǔ)句中要被替換的成分.

    句子粒度的待替換成分即整個(gè)源句子.短語(yǔ)和單詞粒度的待替換成分是句子中的某個(gè)短語(yǔ)和單詞.在MGMT 中,基于源句子的成分句法分析樹(shù)來(lái)選擇短語(yǔ)和單詞粒度的待替換成分.圖4 展示了一個(gè)英文句子經(jīng)過(guò)BerkeleyParser[30]得到的成分句法分析樹(shù).可以看到,句子根據(jù)單詞詞性和短語(yǔ)詞性被組織成樹(shù)狀結(jié)構(gòu).成分句法分析樹(shù)的節(jié)點(diǎn)都是由句子中的單詞構(gòu)成的,每一棵子樹(shù)都是某幾個(gè)單詞的組合.那么在句子中選擇一個(gè)詞或一個(gè)短語(yǔ),就等價(jià)于在句法分析樹(shù)中選擇到達(dá)某棵子樹(shù)的路徑.基于以上特點(diǎn),本文設(shè)計(jì)了一種基于成分句法分析樹(shù)的選擇算法DeepSelect 來(lái)在短語(yǔ)粒度和單詞粒度上選擇要替換的成分.

    算法1.DeepSelect.

    Fig.4 Example of constituency parse tree圖4 成分句法分析樹(shù)示例

    輸入:源語(yǔ)句Sentence,候選集大小Candidatenum,短語(yǔ)詞性集合PhrasePOS;

    輸出:待替換路徑finalpath.

    DeepSelect 算法旨在選擇句子在短語(yǔ)和單詞粒度下的待替換成分.首先,采用BerkeleyParser[30]句法分析器來(lái)生成句子的成分句法分析樹(shù).由于處在成分句法分析樹(shù)較深路徑的節(jié)點(diǎn)的粒度一般較小,選擇這些節(jié)點(diǎn)更符合MGMT 的蛻變關(guān)系定義(見(jiàn)第3.2 節(jié)),因此我們將句法分析樹(shù)中的路徑按從長(zhǎng)到短排序收集到路徑集合PathSet中.接著,在單詞粒度下,我們直接往候選集中添加Candidatanum條路徑;在短語(yǔ)粒度下還需進(jìn)行一個(gè)額外判斷,要求路徑節(jié)點(diǎn)的詞性必須是短語(yǔ)結(jié)構(gòu)型.最后,為了保證路徑選擇的公平性,算法隨機(jī)從候選集中選擇一條路徑作為最終的待替換路徑.

    3.3.2 成分替換

    句子粒度的成分替換采用的是基于往返翻譯的方法.首先將源句子輸入神經(jīng)機(jī)器翻譯系統(tǒng)得到目標(biāo)語(yǔ)言的直譯結(jié)果,再將直譯結(jié)果輸入翻譯系統(tǒng)翻譯回源語(yǔ)言,這樣就得到了一個(gè)句子粒度的替換語(yǔ)句.

    短語(yǔ)粒度和單詞粒度的成分替換采用的是BERT[26]遮蔽語(yǔ)言模型.BERT 模型是一個(gè)非常成功的自然語(yǔ)言理解模型,在很多自然語(yǔ)言處理任務(wù)中通過(guò)微調(diào)都能達(dá)到SOTA(state of the art)效果.在BERT 中每個(gè)詞的詞向量不是唯一的,而是與詞的上下文相關(guān),因此,通過(guò)BERT 可獲得符合句子語(yǔ)義的詞向量.模型主要通過(guò)遮蔽詞預(yù)測(cè)和下一句預(yù)測(cè)這兩個(gè)任務(wù)來(lái)進(jìn)行訓(xùn)練.其中,遮蔽詞預(yù)測(cè)是指將一個(gè)句子中15%的詞遮蔽,把預(yù)測(cè)這些被遮蔽位置的詞當(dāng)作目標(biāo)任務(wù)來(lái)進(jìn)行損失計(jì)算和模型參數(shù)優(yōu)化.BERT 遮蔽語(yǔ)言模型是BERT 的一部分,用遮蔽詞任務(wù)進(jìn)行訓(xùn)練,可以預(yù)測(cè)出句子中被遮蔽位置的詞.

    本文對(duì)短語(yǔ)粒度和單詞粒度的成分替換采用一個(gè)預(yù)訓(xùn)練好的BERT 遮蔽語(yǔ)言模型來(lái)實(shí)現(xiàn),圖5 展示了預(yù)測(cè)遮蔽詞的原理與流程.

    (1) 將句子中待替換的部分置換為遮蔽詞[MASK].

    (2) 將遮蔽后的句子輸入BERT 遮蔽語(yǔ)言模型.句子經(jīng)過(guò)BERT 中的Transformer 編碼器轉(zhuǎn)換成詞向量,并輸出每個(gè)位置上對(duì)于詞典中每個(gè)詞的預(yù)測(cè)分?jǐn)?shù).

    (3) 對(duì)被遮蔽位置上的預(yù)測(cè)分?jǐn)?shù)進(jìn)行argmax,得到概率最大的詞(需與源句子中的待替換詞不同).

    (4) 將得到的替換詞代替原詞,得到替換后語(yǔ)句.

    Fig.5 Process of predicting mased word by BERT maked language model圖5 BERT 遮蔽語(yǔ)言模型預(yù)測(cè)遮蔽詞的過(guò)程

    3.3.3 句子粒度的相似度計(jì)算

    句子粒度的蛻變測(cè)試涉及3 次翻譯和4 個(gè)句子,需分別計(jì)算源語(yǔ)言和目標(biāo)語(yǔ)言的句子對(duì)的相似度.

    在本文中采用的是編輯距離[31]的方法,編輯距離屬于文本相似度較常見(jiàn)的一種度量指標(biāo).通過(guò)計(jì)算從字符串A轉(zhuǎn)換為字符串B最少需要操作的次數(shù)來(lái)衡量A和B的相似程度.編輯距離值越小,A和B越相似.句子粒度的相似度計(jì)算公式為

    在公式(4)中,S1和S2是需要計(jì)算相似度的兩個(gè)句子.EditDistance計(jì)算的是兩個(gè)句子間的編輯距離,實(shí)驗(yàn)中采用的是NLTK(http://www.nltk.org/)實(shí)現(xiàn)的算法.length函數(shù)計(jì)算的是句子長(zhǎng)度.相似度取值在0~1 之間.

    3.3.4 短語(yǔ)粒度和單詞粒度的相似度計(jì)算

    對(duì)短語(yǔ)粒度和單詞粒度的蛻變測(cè)試是基于源語(yǔ)句的成分句法分析樹(shù)進(jìn)行替換的,因此,這兩個(gè)粒度的結(jié)構(gòu)相似度計(jì)算也基于翻譯結(jié)果的成分句法分析樹(shù).具體定義如下:

    在公式(5)~公式(7)中,S1和S2為要計(jì)算結(jié)構(gòu)相似度的兩個(gè)句子.Tree1和Tree2分別是S1和S2的成分句法分析樹(shù).PathSet是句法分析樹(shù)的所有路徑(包含子路徑)的集合.S1和S2兩個(gè)句子的結(jié)構(gòu)相似度StructureSimilarity在數(shù)值上定義為丟失率LostRate和新增率AddRate的平均值的補(bǔ)數(shù).LostRate計(jì)算的是Tree1相對(duì)于Tree2中的路徑丟失率,AddRate計(jì)算的是Tree2相對(duì)于Tree1的路徑新增率.結(jié)構(gòu)相似度的取值在0~1 之間.

    4 實(shí) 驗(yàn)

    為了驗(yàn)證本文提出的多粒度蛻變測(cè)試框架MGMT 的有效性,我們嘗試回答以下3 個(gè)問(wèn)題.

    問(wèn)題1:MGMT 能否在無(wú)需參考譯文的情況下對(duì)神經(jīng)機(jī)器翻譯系統(tǒng)進(jìn)行質(zhì)量評(píng)估?

    問(wèn)題2:MGMT 質(zhì)量評(píng)估的結(jié)果是否具有合理性和說(shuō)服力?

    問(wèn)題3:MGMT 與其他同類型的蛻變測(cè)試方法相比是否具有優(yōu)越性?

    實(shí)驗(yàn)問(wèn)題1 的目的是檢驗(yàn)MGMT 的可用性,需要基于MGMT 框架在無(wú)參考譯文的情況下對(duì)神經(jīng)機(jī)器翻譯系統(tǒng)進(jìn)行質(zhì)量評(píng)估,并給出量化的評(píng)估結(jié)果.實(shí)驗(yàn)問(wèn)題2 的目的是檢驗(yàn)MGMT 實(shí)驗(yàn)結(jié)果的合理性,需要將MGMT 實(shí)驗(yàn)結(jié)果與基于參考譯文的質(zhì)量評(píng)估結(jié)果進(jìn)行比較.實(shí)驗(yàn)問(wèn)題3 的目的是比較MGMT 與同類型方法的評(píng)估準(zhǔn)確度,需要將MGMT 實(shí)驗(yàn)結(jié)果與同類型的蛻變測(cè)試實(shí)驗(yàn)結(jié)果進(jìn)行比較.

    4.1 實(shí)驗(yàn)設(shè)計(jì)

    為了回答上述3 個(gè)實(shí)驗(yàn)問(wèn)題,本文進(jìn)行了如下實(shí)驗(yàn)設(shè)計(jì).

    首先是數(shù)據(jù)集和實(shí)驗(yàn)對(duì)象選擇.我們選擇一個(gè)公開(kāi)的中英對(duì)照數(shù)據(jù)集UM-Corpus[7]作為數(shù)據(jù)來(lái)源,選取了其中5 個(gè)領(lǐng)域(教育、微博、新聞、口語(yǔ)、字幕),每個(gè)領(lǐng)域數(shù)據(jù)集中的前1 000 個(gè)中英句子對(duì),總共5 000 個(gè)句子對(duì)作為實(shí)驗(yàn)數(shù)據(jù)集.然后,本文選擇了6 個(gè)使用廣泛、多語(yǔ)種覆蓋的產(chǎn)業(yè)界神經(jīng)機(jī)器翻譯系統(tǒng)(阿里翻譯、百度翻譯、必應(yīng)翻譯、谷歌翻譯、騰訊翻譯、搜狗翻譯)作為質(zhì)量評(píng)估對(duì)象.

    針對(duì)問(wèn)題1,本文將實(shí)驗(yàn)數(shù)據(jù)集中的5 000 個(gè)英文句子作為源語(yǔ)句,使用本文提出的多粒度蛻變測(cè)試框架MGMT 對(duì)6 個(gè)神經(jīng)機(jī)器翻譯系統(tǒng)在5 個(gè)領(lǐng)域下的翻譯魯棒性進(jìn)行了評(píng)估,記錄了各神經(jīng)機(jī)器翻譯系統(tǒng)在句子粒度、短語(yǔ)粒度和單詞粒度的蛻變關(guān)系滿足率,將用于評(píng)估的句子集在3 個(gè)粒度上的蛻變關(guān)系滿足率平均值作為神經(jīng)機(jī)器翻譯系統(tǒng)的最終翻譯魯棒性分?jǐn)?shù).由于我們提出的用于短語(yǔ)粒度和單詞粒度蛻變替換的DeepSelect算法(見(jiàn)第3.3.1 節(jié))具有隨機(jī)性,總共進(jìn)行了3 次翻譯魯棒性分?jǐn)?shù)測(cè)定實(shí)驗(yàn),采用3 次實(shí)驗(yàn)數(shù)據(jù)的平均值作為最終實(shí)驗(yàn)結(jié)果,以確保實(shí)驗(yàn)結(jié)果的可靠性.

    針對(duì)問(wèn)題2,需要檢驗(yàn)MGMT 的測(cè)試結(jié)果是否符合實(shí)際.機(jī)器翻譯系統(tǒng)的翻譯魯棒性沒(méi)有專門的評(píng)估指標(biāo),在過(guò)往工作中通常是根據(jù)翻譯質(zhì)量來(lái)加以衡量.基于參考譯文計(jì)算文本相似度是翻譯質(zhì)量評(píng)估的最常見(jiàn)手段,大部分翻譯質(zhì)量評(píng)估任務(wù)采用的都是這種方法.基于參考譯文的方法具有較高的合理性和說(shuō)服力,因此要證明MGMT 的合理性,只需將其實(shí)驗(yàn)結(jié)果與基于參考譯文的文本相似度計(jì)算結(jié)果進(jìn)行比較.由此,本文選擇了3 個(gè)使用廣泛且具有代表性的文本相似度指標(biāo):基于編輯距離的WER[17]、基于精確率的BLEU[15]以及基于召回率的METEOR[16].本文利用這3 個(gè)相似度指標(biāo)設(shè)置了一個(gè)基于參考譯文的參照實(shí)驗(yàn),選擇實(shí)驗(yàn)數(shù)據(jù)集中的5 000 個(gè)中文句子作為參考譯文,與5 000 個(gè)英文語(yǔ)句通過(guò)神經(jīng)機(jī)器翻譯系統(tǒng)得到的直譯結(jié)果作比較,計(jì)算出各神經(jīng)機(jī)器翻譯在各領(lǐng)域數(shù)據(jù)集上翻譯結(jié)果的BLEU、METEOR、WER 數(shù)值,與MGMT 的實(shí)驗(yàn)結(jié)果進(jìn)行比較.

    針對(duì)問(wèn)題3,需要將MGMT 的實(shí)驗(yàn)結(jié)果與同類型方法作比較.用蛻變測(cè)試對(duì)神經(jīng)機(jī)器翻譯系統(tǒng)進(jìn)行質(zhì)量評(píng)估的方法主要有RTT[22]、MCMT[23]及MT4MT[24]這3 種,由于MT4MT 的實(shí)驗(yàn)方法只適用于特定類型的數(shù)據(jù),因此本文選擇了RTT 和MCMT 作為對(duì)比方法進(jìn)行實(shí)驗(yàn),將RTT、MCMT、MGMT 對(duì)各神經(jīng)機(jī)器翻譯系統(tǒng)的評(píng)估結(jié)果與實(shí)驗(yàn)問(wèn)題2 中基于參考譯文的BLEU、METEOR、WER 數(shù)值進(jìn)行比較.與基于參考譯文的評(píng)估結(jié)果越接近,說(shuō)明方法的準(zhǔn)確性更高.但是,各組實(shí)驗(yàn)結(jié)果的量綱不同,對(duì)實(shí)驗(yàn)結(jié)果進(jìn)行絕對(duì)數(shù)值上的比較不具備一定的參考意義,因此,本文選擇皮爾遜相關(guān)系數(shù)(Pearson correlation coefficient,簡(jiǎn)稱PC)[32]和斯皮爾曼等級(jí)相關(guān)系數(shù)(Spearman rank correlation,簡(jiǎn)稱SRC)[33]作為實(shí)驗(yàn)結(jié)果相似度的評(píng)測(cè)指標(biāo).

    4.2 實(shí)驗(yàn)結(jié)果與分析

    4.2.1 針對(duì)問(wèn)題1的結(jié)果分析

    針對(duì)問(wèn)題1,本文基于MGMT 開(kāi)展了大規(guī)模的實(shí)證研究,在5 個(gè)領(lǐng)域的數(shù)據(jù)集上對(duì)6 個(gè)神經(jīng)機(jī)器翻譯系統(tǒng)進(jìn)行了翻譯魯棒性評(píng)估.對(duì)于每個(gè)領(lǐng)域數(shù)據(jù)集中的1 000 個(gè)英文句子,MGMT 生成了句子、短語(yǔ)、單詞3 個(gè)粒度上共3 000 個(gè)替換語(yǔ)句,輸入神經(jīng)機(jī)器翻譯系統(tǒng)得到4 000 個(gè)目標(biāo)語(yǔ)言翻譯結(jié)果,并根據(jù)源語(yǔ)句和翻譯結(jié)果進(jìn)行相似度計(jì)算和蛻變關(guān)系判定.我們用蛻變關(guān)系滿足率作為系統(tǒng)翻譯魯棒性的量化指標(biāo).對(duì)于每個(gè)測(cè)試樣本,MGMT 會(huì)基于第3.2 節(jié)中定義的3 個(gè)蛻變關(guān)系進(jìn)行句子、短語(yǔ)、單詞粒度上的蛻變測(cè)試.當(dāng)測(cè)試樣本滿足某個(gè)粒度的蛻變關(guān)系時(shí),該粒度下的蛻變關(guān)系滿足率記為1,否則,記為0.測(cè)試樣本違背某個(gè)粒度的蛻變關(guān)系,說(shuō)明神經(jīng)機(jī)器翻譯系統(tǒng)對(duì)于測(cè)試樣本在該粒度上的翻譯魯棒性較差.我們用各神經(jīng)機(jī)器翻譯系統(tǒng)在3 個(gè)粒度上的平均蛻變關(guān)系滿足率作為最終的系統(tǒng)質(zhì)量評(píng)估分?jǐn)?shù),分?jǐn)?shù)越高,說(shuō)明該系統(tǒng)的整體翻譯魯棒性越好.

    表1 展示了基于MGMT 框架對(duì)6 個(gè)神經(jīng)機(jī)器翻譯系統(tǒng)(阿里翻譯、百度翻譯、必應(yīng)翻譯、谷歌翻譯、騰訊翻譯、搜狗翻譯)在5 個(gè)領(lǐng)域(教育、微博、新聞、口語(yǔ)、字幕)的中英文翻譯數(shù)據(jù)集上測(cè)得的翻譯魯棒性分?jǐn)?shù).表中加粗?jǐn)?shù)據(jù)代表同一領(lǐng)域不同神經(jīng)機(jī)器翻譯系統(tǒng)的最高質(zhì)量分?jǐn)?shù)或同一神經(jīng)機(jī)器翻譯系統(tǒng)在不同領(lǐng)域中的最高質(zhì)量分?jǐn)?shù).根據(jù)表1,可以分析得到以下結(jié)論.

    (1) 各神經(jīng)機(jī)器翻譯系統(tǒng)存在魯棒性差異.阿里翻譯系統(tǒng)在微博、新聞和字幕3 個(gè)領(lǐng)域數(shù)據(jù)集中的質(zhì)量分?jǐn)?shù)都排名第1,在口語(yǔ)和教育領(lǐng)域排名第2,總體魯棒性最好.必應(yīng)翻譯和谷歌翻譯在5 個(gè)領(lǐng)域數(shù)據(jù)集上的排名都在第5 位和第6 位,與其他神經(jīng)機(jī)器翻譯系統(tǒng)在質(zhì)量上有顯著差異,總體魯棒性最差.百度翻譯、騰訊翻譯、搜狗翻譯在各領(lǐng)域的魯棒性差異不大.

    (2) 不同領(lǐng)域數(shù)據(jù)上系統(tǒng)魯棒性存在差異.在微博領(lǐng)域,各神經(jīng)機(jī)器翻譯系統(tǒng)表現(xiàn)出的魯棒性最好,平均質(zhì)量分?jǐn)?shù)在5 個(gè)領(lǐng)域中最高.而在新聞?lì)I(lǐng)域的質(zhì)量分?jǐn)?shù)較低,質(zhì)量分?jǐn)?shù)平均值沒(méi)有超過(guò)40,說(shuō)明各神經(jīng)機(jī)器翻譯系統(tǒng)在新聞?lì)I(lǐng)域的魯棒性較差.

    綜合各領(lǐng)域數(shù)據(jù)集上的評(píng)估結(jié)果,可以得出在MGMT 方法下各神經(jīng)機(jī)器翻譯系統(tǒng)翻譯魯棒性排名如下:

    以上的實(shí)驗(yàn)結(jié)果和結(jié)論可以回答問(wèn)題1,說(shuō)明本文提出的評(píng)估框架MGMT 無(wú)需參考譯文即可對(duì)神經(jīng)機(jī)器翻譯系統(tǒng)進(jìn)行魯棒性評(píng)估.

    4.2.2 針對(duì)問(wèn)題2的結(jié)果分析

    針對(duì)問(wèn)題2,本文使用實(shí)驗(yàn)數(shù)據(jù)集中的5 000 個(gè)中文句子作為參考譯文,以BLEU[15]、METEOR[16]、WER[17]作為相似度度量指標(biāo),計(jì)算各神經(jīng)機(jī)器翻譯系統(tǒng)的質(zhì)量分?jǐn)?shù).另外,BLEU、METEOR 數(shù)值與句子的翻譯質(zhì)量成正比,而WER 值與翻譯質(zhì)量成反比,因此,為了直觀比較實(shí)驗(yàn)數(shù)據(jù),實(shí)驗(yàn)中用于比較的WER 數(shù)值為實(shí)際WER 數(shù)值的補(bǔ)數(shù).

    為了進(jìn)一步證明MGMT 評(píng)估結(jié)果的合理性,本文對(duì)每個(gè)源語(yǔ)句的評(píng)估結(jié)果進(jìn)行了更加具體的統(tǒng)計(jì).在MGMT 實(shí)驗(yàn)中,對(duì)每個(gè)源語(yǔ)言句子進(jìn)行句子、短語(yǔ)和單詞3 個(gè)粒度上的蛻變測(cè)試,并根據(jù)相似度計(jì)算結(jié)果判定是否滿足3 個(gè)粒度的蛻變關(guān)系.為了分析句子層面的評(píng)估結(jié)果,本文將每個(gè)句子的蛻變關(guān)系滿足率分為4 個(gè)等級(jí).0 代表該句子的翻譯結(jié)果無(wú)法滿足任何粒度的蛻變關(guān)系,1/3 代表滿足1 個(gè)粒度的蛻變關(guān)系,2/3 代表滿足2個(gè)粒度的蛻變關(guān)系,1 代表滿足所有粒度的蛻變關(guān)系.據(jù)此將所有句子按評(píng)估結(jié)果的蛻變關(guān)系滿足率等級(jí)分為4組,并計(jì)算每組句子基于參考譯文的BLEU、METEOR、WER 數(shù)值,與蛻變關(guān)系滿足等級(jí)進(jìn)行比較.比較結(jié)果見(jiàn)表2.由表2 所示數(shù)據(jù)可知,在教育、微博、新聞、口語(yǔ)、字幕這5 個(gè)領(lǐng)域的數(shù)據(jù)集上,中英文句子對(duì)的平均BLEU、METEOR、WER 數(shù)值是隨著句子的蛻變關(guān)系滿足率等級(jí)的提升而逐級(jí)提高的.也就是說(shuō),對(duì)于一個(gè)源語(yǔ)句,在MGMT 下測(cè)得的蛻變關(guān)系滿足率和基于句子參考譯文計(jì)算出來(lái)的BLEU、WER、METEOR 數(shù)值呈正相關(guān)性.真實(shí)翻譯分?jǐn)?shù)越低的句子對(duì),在MGMT 下測(cè)得的蛻變關(guān)系滿足率也就越低.相關(guān)工作——SIT[25]和TransRepair[29]利用蛻變測(cè)試來(lái)發(fā)現(xiàn)翻譯錯(cuò)誤,而MGMT 除了衡量神經(jīng)機(jī)器翻譯系統(tǒng)的整體魯棒性之外,也可用于發(fā)現(xiàn)翻譯錯(cuò)誤的樣本.在實(shí)際操作中可以根據(jù)樣本的蛻變關(guān)系滿足率來(lái)加以判斷,一個(gè)樣本的蛻變關(guān)系滿足率越低,那么它是一個(gè)翻譯錯(cuò)誤的可能性就越大(由于實(shí)驗(yàn)數(shù)據(jù)集過(guò)大,我們將在下一步工作中采用人工驗(yàn)證的方式對(duì)上述操作的可行性進(jìn)行驗(yàn)證).

    Table 1 Quality evaluation results of multi-granularity metamorphic testing framework表1 多粒度測(cè)試框架質(zhì)量評(píng)估結(jié)果

    Table 2 Comparison of evaluation results base on reference translations and evaluation results based on MGMT (group by satisfaction rate of metamorphic relationships)表2 MGMT 評(píng)估結(jié)果(按蛻變關(guān)系滿足率分組)與基于參考譯文的評(píng)估結(jié)果比較

    綜上所述,MGMT 的評(píng)估結(jié)果與基于參考譯文的BLEU、METEOR、WER 的評(píng)估結(jié)果相似度較高,可以證明,MGMT 對(duì)各神經(jīng)機(jī)器翻譯系統(tǒng)的評(píng)估結(jié)果具有合理性和說(shuō)服力.

    4.2.3 針對(duì)問(wèn)題3的結(jié)果分析

    針對(duì)問(wèn)題3,本文用評(píng)測(cè)指標(biāo)PC 和SRC,將基于蛻變測(cè)試的方法RTT[22]、MCMT[23]、MGMT 與基于參考譯文的基準(zhǔn)指標(biāo)BLEU[15]、METEOR[16]、WER[17]進(jìn)行比較.PC 和SRC 衡量的是兩組數(shù)據(jù)在變化方向和數(shù)據(jù)排名上的相關(guān)度,取值均在–1 到1 之間,–1 代表完全負(fù)相關(guān),1 代表完全正相關(guān).實(shí)驗(yàn)中的PC 值和SRC 值通過(guò)Python 語(yǔ)言的Scipy[34]包進(jìn)行計(jì)算.

    在進(jìn)行RTT 實(shí)驗(yàn)時(shí),本文完全參照Milam 等人[22]的方法,先經(jīng)過(guò)FT(forward translation)得到目標(biāo)語(yǔ)言翻譯結(jié)果,再將目標(biāo)語(yǔ)言翻譯結(jié)果通過(guò)BT(backward translation)得到源語(yǔ)言翻譯結(jié)果,最后用BLEU 指標(biāo)計(jì)算源語(yǔ)言翻譯結(jié)果與源語(yǔ)句的相似度,并以此作為各神經(jīng)機(jī)器翻譯系統(tǒng)的質(zhì)量分?jǐn)?shù).在進(jìn)行MCMT 實(shí)驗(yàn)時(shí),我們?cè)贒aniel[23]等人方法的基礎(chǔ)上進(jìn)行了微小變動(dòng).原方法中MCMT 在7 種語(yǔ)言(法語(yǔ)、日語(yǔ)、韓語(yǔ)、西班牙語(yǔ)、俄語(yǔ)、葡萄牙語(yǔ)、瑞典語(yǔ))中隨機(jī)選一個(gè)作為中間語(yǔ)言,但本文實(shí)驗(yàn)中并不是所有神經(jīng)機(jī)器翻譯系統(tǒng)都支持瑞典語(yǔ)的翻譯,所以在本文復(fù)現(xiàn)的MCMT 實(shí)驗(yàn)中,中間語(yǔ)言選擇范圍調(diào)整為6 種語(yǔ)言(法語(yǔ)、日語(yǔ)、韓語(yǔ)、西班牙語(yǔ)、俄語(yǔ)、葡萄牙語(yǔ)).

    我們將基于蛻變測(cè)試的RTT、MCMT、MGMT 這3 種方法測(cè)得的質(zhì)量分?jǐn)?shù)與第4.2.2 節(jié)中實(shí)驗(yàn)得到的基于參考譯文的BLEU、METEOR、WER 數(shù)值按照神經(jīng)機(jī)器翻譯系統(tǒng)進(jìn)行分組,每組數(shù)據(jù)包含該神經(jīng)機(jī)器翻譯系統(tǒng)在5 個(gè)領(lǐng)域上測(cè)得的質(zhì)量分?jǐn)?shù).之后我們計(jì)算基于蛻變測(cè)試方法的每一組數(shù)據(jù)與基于參考譯文的質(zhì)量分?jǐn)?shù)的PC 值和SRC 值.PC 值、SRC 值及相應(yīng)的p值(p-value)的計(jì)算結(jié)果見(jiàn)表3 和表4.

    Table 3 Similarity comparision of evaluation results based on metamorphic testing and reference translations (PC)表3 基于蛻變測(cè)試與基于參考譯文的實(shí)驗(yàn)結(jié)果相似度比較(PC)

    Table 4 Similarity comparision of evaluation results based on metamorphic testing and reference translations (SRC)表4 基于蛻變測(cè)試與基于參考譯文的實(shí)驗(yàn)結(jié)果相似度比較(SRC)

    PC 指標(biāo)反映的是兩組實(shí)驗(yàn)結(jié)果在數(shù)據(jù)變化方向上的相關(guān)程度.從表3 可以看出,在BLEU、METEOR 和WER 這3 個(gè)基準(zhǔn)指標(biāo)上,MGMT 的PC 值在各領(lǐng)域都顯著高于RTT 和MCMT.MGMT 與BLEU 指標(biāo)平均相關(guān)系數(shù)為0.85,p值為0.05;與METEOR 和WER 指標(biāo)的相關(guān)系數(shù)平均值為0.85,p值為0.05.從各領(lǐng)域平均值來(lái)看,MGMT 與3 個(gè)基準(zhǔn)指標(biāo)的PC 值都顯著高于RTT 和MCMT(比RTT 高約83%,比MCMT 高約130%),且p值較低,說(shuō)明PC 值較為可信.以上數(shù)據(jù)說(shuō)明,MGMT 的實(shí)驗(yàn)結(jié)果在數(shù)據(jù)變化方向上與3 個(gè)基準(zhǔn)指標(biāo)的相關(guān)性更高,更接近基于參考譯文的方法.

    SRC 指標(biāo)反映的是兩組實(shí)驗(yàn)結(jié)果數(shù)值在數(shù)據(jù)集中排名的相關(guān)程度.從表4 可以看出,在基準(zhǔn)指標(biāo)BLEU 和WER 上,MGMT 的SRC 值在教育、新聞、口語(yǔ)3 個(gè)領(lǐng)域上最高,在微博領(lǐng)域上低于RTT,在字幕領(lǐng)域上低于MCMT.在基準(zhǔn)指標(biāo)METEOR 上,MGMT 的SRC 值在5 個(gè)領(lǐng)域都達(dá)到最高.從各領(lǐng)域平均值來(lái)看,MGMT 與3個(gè)基準(zhǔn)指標(biāo)的SRC 值都略高于RTT(高約20%),顯著高于MCMT(高約100%),說(shuō)明MGMT 的實(shí)驗(yàn)結(jié)果在數(shù)據(jù)排名相關(guān)性上更接近基于參考譯文的方法.

    綜上所述,MGMT 與RTT、MCMT 相比,在兩個(gè)相關(guān)系數(shù)PC 和SRC 上都更高.從PC 值來(lái)看,MGMT 在5個(gè)領(lǐng)域數(shù)據(jù)集上的PC 值都顯著高于RTT 和MCMT,從SRC 值來(lái)看,MGMT 在微博領(lǐng)域低于RTT,在字幕領(lǐng)域低于MCMT,但5 個(gè)領(lǐng)域上的平均SRC 值為最高.說(shuō)明無(wú)論從數(shù)值角度還是將數(shù)值轉(zhuǎn)化為排名后比較各神經(jīng)機(jī)器翻譯系統(tǒng)的質(zhì)量,MGMT 的評(píng)估結(jié)果都更接近基于參考譯文的方法,評(píng)估準(zhǔn)確度比RTT 和MCMT 更高.

    4.3 擴(kuò)展討論

    4.3.1 蛻變粒度之間的關(guān)系

    首先我們對(duì)蛻變粒度之間是否存在相關(guān)性進(jìn)行研究.從表5 可以看出,子粒度與單詞粒度和短語(yǔ)粒度的SRC 值都很低,分別為0.027 和0.041,說(shuō)明句子粒度的判定結(jié)果與短語(yǔ)、單詞粒度都不具有相關(guān)性.而短語(yǔ)粒度和單詞粒度的SRC 值為0.274,說(shuō)明這兩個(gè)粒度的判定結(jié)果具有一定的相關(guān)性.短語(yǔ)粒度和單詞粒度具有相關(guān)性是由于短語(yǔ)粒度和單詞粒度都基于依存句法分析樹(shù)和BERT 模型進(jìn)行蛻變測(cè)試.而句子粒度的蛻變測(cè)試流程相對(duì)獨(dú)立.

    在第4.2 節(jié)中,我們證明了MGMT 方法能夠在沒(méi)有參考譯文的情況下對(duì)神經(jīng)機(jī)器翻譯系統(tǒng)進(jìn)行質(zhì)量評(píng)估,且優(yōu)于同類型的RTT 和MCMT 方法.MGMT 方法的關(guān)鍵在于單詞、短語(yǔ)和句子3 個(gè)粒度的蛻變關(guān)系.為了探究哪個(gè)粒度的判定結(jié)果更具重要性,我們進(jìn)行了消融實(shí)驗(yàn).首先將句子根據(jù)滿足的蛻變關(guān)系進(jìn)行分類,計(jì)算出每一組句子的真實(shí)BLEU、METEOR、WER 值,并采用控制變量的方式進(jìn)行比較.如表6 所示,不滿足任何一個(gè)蛻變關(guān)系的句子的平均BLEU 值為0.178 9,而只滿足單詞粒度蛻變關(guān)系的句子的平均BLEU 值為0.190 7,相對(duì)質(zhì)量分?jǐn)?shù)提升了0.011 8,看作單詞粒度對(duì)真實(shí)質(zhì)量分?jǐn)?shù)的貢獻(xiàn)值.在BLEU、METEOR 和WER 這3 個(gè)基準(zhǔn)指標(biāo)上,句子粒度帶來(lái)的平均增加值分別為0.118 3、0.150 4、0.196 7,都遠(yuǎn)大于單詞粒度(0.014 8、0.017 8、0.020 2)和短語(yǔ)粒度(0.023 6、0.026 2、0.033),說(shuō)明與單詞粒度和短語(yǔ)粒度的蛻變測(cè)試相比,句子粒度蛻變測(cè)試對(duì)句子真實(shí)翻譯質(zhì)量的影響更大.我們由此得出結(jié)論:在對(duì)真實(shí)質(zhì)量分?jǐn)?shù)的影響程度上,句子粒度的蛻變測(cè)試最高,其次是短語(yǔ)粒度,最后是單詞粒度.

    4.3.2 MGMT準(zhǔn)確性原理分析

    由第4.2.2 節(jié)和第4.2.3 節(jié)我們得出結(jié)論:用MGMT 測(cè)量神經(jīng)機(jī)器翻譯系統(tǒng)魯棒性具有一定的合理性和說(shuō)服力,MGMT 與基于參考譯文的方法正相關(guān)性較高,且顯著優(yōu)于同類型的RTT 和MCMT 方法.我們嘗試分析其中的原因.首先,RTT 中涉及了一次正譯和一次回譯,正議和回譯是獨(dú)立的兩個(gè)翻譯過(guò)程(可以看作兩個(gè)獨(dú)立的神經(jīng)機(jī)器翻譯系統(tǒng)).回譯過(guò)程可能影響機(jī)器翻譯系統(tǒng)質(zhì)量的測(cè)定;在MGMT 的句子粒度蛻變關(guān)系中也涉及回譯,為了降低回譯過(guò)程中的翻譯錯(cuò)誤對(duì)整體魯棒性測(cè)量帶來(lái)的影響,我們?cè)O(shè)計(jì)了基于相對(duì)相似度的蛻變關(guān)系:當(dāng)回譯質(zhì)量過(guò)低時(shí),正譯的質(zhì)量分?jǐn)?shù)應(yīng)該得到一定的補(bǔ)償.而MCMT 通過(guò)中間語(yǔ)言來(lái)構(gòu)造蛻變關(guān)系,但不同語(yǔ)言間的翻譯差距也會(huì)影響機(jī)器翻譯系統(tǒng)質(zhì)量的測(cè)定.MGMT 方法在句子粒度蛻變關(guān)系設(shè)計(jì)過(guò)程中對(duì)非正譯過(guò)程的影響進(jìn)行了補(bǔ)償處理,并結(jié)合單詞粒度和短語(yǔ)粒度進(jìn)一步提高了評(píng)估準(zhǔn)確性,因此優(yōu)于RTT 和MCMT.

    Table 5 Comparison of the results of different metamorphic relationships表5 不同蛻變關(guān)系判定結(jié)果相關(guān)性比較

    Table 6 The contribution of different transformation relations to the quality of authentic translation表6 不同蛻變關(guān)系對(duì)真實(shí)翻譯質(zhì)量的貢獻(xiàn)值

    4.4 有效性影響因素分析

    本節(jié)我們來(lái)分析有可能影響實(shí)驗(yàn)有效性的影響因素.

    (1) 內(nèi)部有效性主要涉及影響實(shí)驗(yàn)結(jié)果正確性的內(nèi)部因素.本文中的內(nèi)部有效性影響因素是句法分析器的性能.我們使用的英文和中文句法分析器是BerkeleyParser,該句法分析器在WSJ 測(cè)試集上的F1 值可達(dá)95.17,在CTB5.1 測(cè)試集上的F1 值可達(dá)91.69.可以將因句法分析錯(cuò)誤導(dǎo)致的實(shí)驗(yàn)影響降到最小.

    (2) 外部有效性主要涉及實(shí)驗(yàn)結(jié)果是否具有一般性.本文選擇了機(jī)器翻譯常用的一個(gè)公開(kāi)中英文數(shù)據(jù)集UM-corpus,并選取了其5 個(gè)領(lǐng)域(包括教育、微博、新聞、口語(yǔ)和字幕)的翻譯數(shù)據(jù),翻譯數(shù)據(jù)覆蓋的領(lǐng)域較為全面,具有代表性.因此,基于該數(shù)據(jù)集的實(shí)驗(yàn)結(jié)果也具有可靠性和代表性.

    (3) 結(jié)論有效性主要涉及評(píng)測(cè)指標(biāo)的選擇是否合理.本文為了評(píng)估基于蛻變測(cè)試和基于參考譯文的實(shí)驗(yàn)結(jié)果的相似度,選擇了兩個(gè)相關(guān)系數(shù)指標(biāo)——PC 和SRC.PC 計(jì)算的是兩組實(shí)驗(yàn)結(jié)果在數(shù)據(jù)變化方向上的相似度,SRC 計(jì)算的是數(shù)據(jù)排名的相似度.由于基于蛻變測(cè)試和基于參考譯文的質(zhì)量分?jǐn)?shù)計(jì)算方法量綱上不同,基于絕對(duì)數(shù)值的比較不具備意義,因此,使用PC 和SRC 作為評(píng)測(cè)指標(biāo)可以保證評(píng)估的合理性.另一個(gè)影響因素是文本相似度度量指標(biāo)的選擇是否合理.在實(shí)驗(yàn)中我們選擇了BLEU、METEOR、WER 作為文本相似度度量指標(biāo),這3 個(gè)度量指標(biāo)都被廣泛使用且評(píng)估原理不同(BLEU 側(cè)重精確率,METEOR 側(cè)重召回率,WER 基于編輯距離),因此可以保證文本相似度度量的合理性.最后,在句子粒度蛻變關(guān)系(見(jiàn)3.2.1 節(jié))定義中涉及到了不同語(yǔ)言的相似度比較.相似度分布可能因不同的語(yǔ)言特性產(chǎn)生差異,這種差異無(wú)法避免.因此,我們對(duì)同一語(yǔ)言使用相同的分詞工具,再將分詞后的句子對(duì)基于編輯距離計(jì)算相似度,從而能夠有效降低相似度分布差異對(duì)實(shí)驗(yàn)帶來(lái)的影響.

    5 總結(jié)與展望

    基于神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)的神經(jīng)機(jī)器翻譯系統(tǒng)應(yīng)用廣泛,許多翻譯服務(wù)提供商的翻譯服務(wù)都基于神經(jīng)機(jī)器翻譯系統(tǒng),對(duì)其所進(jìn)行的測(cè)試和質(zhì)量評(píng)估也具有較高的研究和現(xiàn)實(shí)意義.本文提出了一個(gè)多粒度的蛻變測(cè)試框架MGMT.該測(cè)試框架能夠在沒(méi)有參考譯文的情況下對(duì)神經(jīng)機(jī)器翻譯系統(tǒng)進(jìn)行質(zhì)量評(píng)估.MGMT 首次使用了多粒度的蛻變關(guān)系對(duì)神經(jīng)機(jī)器翻譯系統(tǒng)進(jìn)行整體性的翻譯魯棒性評(píng)估.從實(shí)驗(yàn)結(jié)果來(lái)看,MGMT 與已有的同類型方法相比,與基于參考譯文的BLEU、METEOR、WER 評(píng)估結(jié)果都更接近,評(píng)估準(zhǔn)確度更高.

    未來(lái)工作可以基于如下3 個(gè)方面展開(kāi).首先,研究人員可以繼續(xù)改進(jìn)和優(yōu)化本測(cè)試框架中的各個(gè)流程以達(dá)到更合理的質(zhì)量評(píng)估效果,例如在替換階段可以針對(duì)替換模型的缺陷設(shè)計(jì)有針對(duì)性地替換約束.其次,研究人員可以更改MGMT 的部分設(shè)計(jì),將其與錯(cuò)誤定位任務(wù)結(jié)合起來(lái),用于自動(dòng)判定神經(jīng)機(jī)器翻譯系統(tǒng)的翻譯錯(cuò)誤.最后,我們將對(duì)本文中的實(shí)驗(yàn)數(shù)據(jù)和結(jié)果進(jìn)行清理并共享,以方便研究人員針對(duì)翻譯系統(tǒng)的魯棒性展開(kāi)后續(xù)研究.

    猜你喜歡
    粒度短語(yǔ)譯文
    Stem cell-based 3D brain organoids for mimicking,investigating,and challenging Alzheimer’s diseases
    粉末粒度對(duì)純Re坯顯微組織與力學(xué)性能的影響
    基于矩陣的多粒度粗糙集粒度約簡(jiǎn)方法
    譯文摘要
    I Like Thinking
    基于粒度矩陣的程度多粒度粗糙集粒度約簡(jiǎn)
    多粒度空間中的粗糙隸屬度與知識(shí)粒度
    譯文
    在线观看免费日韩欧美大片| 国产精品永久免费网站| 亚洲av片天天在线观看| www.自偷自拍.com| 成年人免费黄色播放视频| 亚洲精品中文字幕一二三四区| 老司机午夜十八禁免费视频| 热re99久久国产66热| 欧美日韩黄片免| 欧美激情 高清一区二区三区| 亚洲一码二码三码区别大吗| 久久久国产成人精品二区 | 国产有黄有色有爽视频| 性欧美人与动物交配| 色播在线永久视频| 欧美日本亚洲视频在线播放| 性色av乱码一区二区三区2| 亚洲欧美激情综合另类| 91九色精品人成在线观看| 欧美+亚洲+日韩+国产| 精品乱码久久久久久99久播| 亚洲五月婷婷丁香| 亚洲欧美日韩高清在线视频| 亚洲专区中文字幕在线| 国产成人精品在线电影| 久久这里只有精品19| 精品一区二区三区av网在线观看| 12—13女人毛片做爰片一| 人人妻人人爽人人添夜夜欢视频| 亚洲人成电影观看| 黄片播放在线免费| 身体一侧抽搐| 欧美日韩中文字幕国产精品一区二区三区 | 国产在线观看jvid| 天堂中文最新版在线下载| 两人在一起打扑克的视频| 真人做人爱边吃奶动态| 男人舔女人的私密视频| 成在线人永久免费视频| aaaaa片日本免费| 麻豆一二三区av精品| 亚洲精品中文字幕在线视频| 欧美日韩中文字幕国产精品一区二区三区 | 国产成人精品久久二区二区91| 性欧美人与动物交配| 在线观看舔阴道视频| 纯流量卡能插随身wifi吗| 亚洲精品美女久久久久99蜜臀| 超色免费av| 9色porny在线观看| 亚洲成人久久性| 一二三四社区在线视频社区8| 国产精华一区二区三区| 午夜免费鲁丝| 国产深夜福利视频在线观看| 天堂中文最新版在线下载| 成年女人毛片免费观看观看9| 又黄又粗又硬又大视频| 日韩 欧美 亚洲 中文字幕| 91av网站免费观看| 欧美中文综合在线视频| 一边摸一边抽搐一进一出视频| 国产一区在线观看成人免费| 免费看十八禁软件| 脱女人内裤的视频| 乱人伦中国视频| 精品久久久久久久毛片微露脸| 精品久久久久久电影网| 午夜91福利影院| 女人高潮潮喷娇喘18禁视频| 男女下面插进去视频免费观看| 成人亚洲精品av一区二区 | 久久香蕉激情| 国产亚洲精品一区二区www| 亚洲av成人不卡在线观看播放网| 一夜夜www| 成人三级做爰电影| 又紧又爽又黄一区二区| 黄片小视频在线播放| 青草久久国产| 一区二区三区国产精品乱码| 波多野结衣av一区二区av| 日韩欧美免费精品| 夫妻午夜视频| 久久婷婷成人综合色麻豆| 欧美日本中文国产一区发布| 性少妇av在线| 国产免费男女视频| 国产又色又爽无遮挡免费看| 久久久久久久久久久久大奶| 人人澡人人妻人| 亚洲成人久久性| 女性生殖器流出的白浆| 久久草成人影院| a级毛片黄视频| 亚洲片人在线观看| 后天国语完整版免费观看| 久久青草综合色| 日韩免费av在线播放| 欧美日韩中文字幕国产精品一区二区三区 | 亚洲人成电影观看| 中文字幕高清在线视频| 久久久国产欧美日韩av| 中文字幕人妻丝袜制服| 性少妇av在线| 女人爽到高潮嗷嗷叫在线视频| 天天躁狠狠躁夜夜躁狠狠躁| 久久久久九九精品影院| 黄色毛片三级朝国网站| 久久国产精品男人的天堂亚洲| av网站免费在线观看视频| 免费av中文字幕在线| 黄网站色视频无遮挡免费观看| 99精品欧美一区二区三区四区| 久久香蕉激情| 岛国在线观看网站| 99国产精品免费福利视频| 精品熟女少妇八av免费久了| 又黄又爽又免费观看的视频| 精品国产美女av久久久久小说| 成年人黄色毛片网站| 国产精品电影一区二区三区| 天天躁狠狠躁夜夜躁狠狠躁| 两性夫妻黄色片| 99国产精品99久久久久| 亚洲美女黄片视频| 最近最新免费中文字幕在线| 99国产精品99久久久久| 久久亚洲精品不卡| 精品熟女少妇八av免费久了| 激情在线观看视频在线高清| 国产三级黄色录像| 女人被狂操c到高潮| 老熟妇乱子伦视频在线观看| 久久久水蜜桃国产精品网| 三级毛片av免费| 亚洲自偷自拍图片 自拍| 巨乳人妻的诱惑在线观看| 亚洲一区二区三区欧美精品| 国产精品电影一区二区三区| 国产精品综合久久久久久久免费 | 久热这里只有精品99| 这个男人来自地球电影免费观看| 国产99久久九九免费精品| 人人妻,人人澡人人爽秒播| 亚洲欧美一区二区三区黑人| 脱女人内裤的视频| 亚洲国产看品久久| 在线观看日韩欧美| 亚洲av五月六月丁香网| 久久久水蜜桃国产精品网| 桃色一区二区三区在线观看| 久久精品91蜜桃| 欧美日韩中文字幕国产精品一区二区三区 | 国产精品成人在线| 香蕉久久夜色| 国产精品国产av在线观看| 久久九九热精品免费| 免费一级毛片在线播放高清视频 | 国产精品九九99| 国产97色在线日韩免费| 999久久久精品免费观看国产| 亚洲精品国产精品久久久不卡| 桃色一区二区三区在线观看| 亚洲精品一卡2卡三卡4卡5卡| 99国产精品免费福利视频| aaaaa片日本免费| 午夜激情av网站| 亚洲精品美女久久久久99蜜臀| 久久久久久亚洲精品国产蜜桃av| 国产精品98久久久久久宅男小说| 国产成人精品在线电影| 天堂影院成人在线观看| ponron亚洲| 黄频高清免费视频| 国产精品一区二区在线不卡| 神马国产精品三级电影在线观看 | 欧美一区二区精品小视频在线| 51午夜福利影视在线观看| 最新美女视频免费是黄的| ponron亚洲| 日韩三级视频一区二区三区| 99香蕉大伊视频| 欧美 亚洲 国产 日韩一| 精品国产美女av久久久久小说| 一进一出抽搐动态| 黑人巨大精品欧美一区二区mp4| 国产一区二区在线av高清观看| 国产成人欧美在线观看| ponron亚洲| 最近最新中文字幕大全免费视频| 国产成人精品久久二区二区免费| 日韩欧美一区视频在线观看| 日韩一卡2卡3卡4卡2021年| 曰老女人黄片| 日韩视频一区二区在线观看| 人妻丰满熟妇av一区二区三区| 日韩成人在线观看一区二区三区| 亚洲一卡2卡3卡4卡5卡精品中文| 又黄又爽又免费观看的视频| 黑丝袜美女国产一区| √禁漫天堂资源中文www| 亚洲精品国产区一区二| 满18在线观看网站| 亚洲欧美日韩高清在线视频| 男人舔女人下体高潮全视频| 人人妻人人澡人人看| 成年版毛片免费区| 亚洲九九香蕉| 久久午夜综合久久蜜桃| 国产xxxxx性猛交| 如日韩欧美国产精品一区二区三区| 香蕉久久夜色| 日韩欧美三级三区| 最新在线观看一区二区三区| 欧美亚洲日本最大视频资源| 18美女黄网站色大片免费观看| 亚洲中文日韩欧美视频| 久久精品国产亚洲av香蕉五月| 精品国产一区二区久久| 9热在线视频观看99| 亚洲av日韩精品久久久久久密| 夫妻午夜视频| 丁香欧美五月| 亚洲欧美激情综合另类| 精品国产亚洲在线| 最近最新中文字幕大全免费视频| 亚洲欧美一区二区三区久久| 啦啦啦 在线观看视频| 欧美另类亚洲清纯唯美| 精品人妻1区二区| 嫁个100分男人电影在线观看| 国产亚洲精品一区二区www| 亚洲av美国av| 免费久久久久久久精品成人欧美视频| 久久久国产欧美日韩av| bbb黄色大片| 女同久久另类99精品国产91| 亚洲国产精品一区二区三区在线| 女人爽到高潮嗷嗷叫在线视频| 一进一出好大好爽视频| 大码成人一级视频| 欧美日本亚洲视频在线播放| 热99re8久久精品国产| 777久久人妻少妇嫩草av网站| 亚洲精品粉嫩美女一区| 久久人妻av系列| 成人三级黄色视频| 18禁黄网站禁片午夜丰满| 亚洲专区国产一区二区| 少妇裸体淫交视频免费看高清 | 日本 av在线| 国产麻豆69| 精品一区二区三区视频在线观看免费 | 看片在线看免费视频| 久久精品aⅴ一区二区三区四区| 精品久久久久久电影网| 少妇粗大呻吟视频| 超色免费av| 久久久久国产精品人妻aⅴ院| 国产免费现黄频在线看| av国产精品久久久久影院| 精品一品国产午夜福利视频| 日韩一卡2卡3卡4卡2021年| 不卡一级毛片| 嫁个100分男人电影在线观看| 国产精品乱码一区二三区的特点 | 久久午夜亚洲精品久久| 午夜激情av网站| 久久中文字幕人妻熟女| 99久久99久久久精品蜜桃| 欧美激情 高清一区二区三区| 精品午夜福利视频在线观看一区| 日韩成人在线观看一区二区三区| av片东京热男人的天堂| 韩国精品一区二区三区| 在线观看免费午夜福利视频| 亚洲 欧美 日韩 在线 免费| 男女之事视频高清在线观看| av电影中文网址| 国产精品九九99| 最近最新中文字幕大全电影3 | 亚洲专区国产一区二区| av网站免费在线观看视频| 女人爽到高潮嗷嗷叫在线视频| 长腿黑丝高跟| 国产精品一区二区在线不卡| 另类亚洲欧美激情| 日本三级黄在线观看| 亚洲欧美日韩无卡精品| 国产亚洲欧美98| 久久婷婷成人综合色麻豆| 国产精品久久视频播放| 日韩国内少妇激情av| 女性生殖器流出的白浆| 国产精品野战在线观看 | 日日夜夜操网爽| a级片在线免费高清观看视频| 欧美成人免费av一区二区三区| 国产深夜福利视频在线观看| 国产成人一区二区三区免费视频网站| 国产高清视频在线播放一区| 18禁裸乳无遮挡免费网站照片 | 夫妻午夜视频| 精品一品国产午夜福利视频| 亚洲男人的天堂狠狠| 亚洲自拍偷在线| 18禁黄网站禁片午夜丰满| 不卡一级毛片| 波多野结衣一区麻豆| 亚洲五月色婷婷综合| 一夜夜www| 在线观看舔阴道视频| 国产一区二区激情短视频| 黄片播放在线免费| 88av欧美| 黄色怎么调成土黄色| 亚洲视频免费观看视频| av天堂久久9| 国产主播在线观看一区二区| 国产成人啪精品午夜网站| 亚洲自拍偷在线| 色婷婷av一区二区三区视频| 国产av在哪里看| 日本一区二区免费在线视频| 午夜视频精品福利| 欧美人与性动交α欧美精品济南到| 黄网站色视频无遮挡免费观看| 中亚洲国语对白在线视频| 欧美精品啪啪一区二区三区| 99国产精品一区二区蜜桃av| 欧美不卡视频在线免费观看 | 亚洲精品国产区一区二| 国产欧美日韩一区二区精品| 精品国产超薄肉色丝袜足j| 18美女黄网站色大片免费观看| 9热在线视频观看99| 最近最新中文字幕大全免费视频| 一边摸一边抽搐一进一出视频| 18禁美女被吸乳视频| 亚洲一区二区三区不卡视频| 日韩欧美免费精品| 国产精品乱码一区二三区的特点 | 精品欧美一区二区三区在线| 啦啦啦免费观看视频1| 久久精品国产99精品国产亚洲性色 | 久久精品91蜜桃| 又大又爽又粗| 妹子高潮喷水视频| 欧美日韩视频精品一区| 久久婷婷成人综合色麻豆| 国产色视频综合| 成人特级黄色片久久久久久久| 日韩大码丰满熟妇| 亚洲精品国产区一区二| 99香蕉大伊视频| 免费在线观看影片大全网站| 操出白浆在线播放| 日韩精品青青久久久久久| 女警被强在线播放| 国产av在哪里看| 免费不卡黄色视频| 丁香欧美五月| 法律面前人人平等表现在哪些方面| av在线播放免费不卡| 色综合欧美亚洲国产小说| 欧美在线黄色| 久久伊人香网站| 日韩欧美一区视频在线观看| 成人影院久久| 亚洲熟妇中文字幕五十中出 | 国产一区二区三区在线臀色熟女 | 中亚洲国语对白在线视频| 国产精品免费视频内射| 十八禁人妻一区二区| 亚洲欧美激情在线| 成人手机av| 日韩中文字幕欧美一区二区| 99在线视频只有这里精品首页| 亚洲av熟女| 久久久久久久久中文| 午夜福利在线免费观看网站| 欧美人与性动交α欧美软件| 亚洲黑人精品在线| 亚洲欧美激情在线| 午夜精品久久久久久毛片777| 12—13女人毛片做爰片一| av福利片在线| 国产男靠女视频免费网站| 操美女的视频在线观看| 国产又爽黄色视频| 多毛熟女@视频| 他把我摸到了高潮在线观看| 高潮久久久久久久久久久不卡| 天堂√8在线中文| 看免费av毛片| 久久久精品欧美日韩精品| 好看av亚洲va欧美ⅴa在| 叶爱在线成人免费视频播放| a级毛片黄视频| a级毛片在线看网站| 亚洲五月色婷婷综合| 国产精品偷伦视频观看了| 精品国产超薄肉色丝袜足j| 后天国语完整版免费观看| 欧美日韩亚洲高清精品| 久久这里只有精品19| 涩涩av久久男人的天堂| 国产亚洲欧美精品永久| 午夜福利一区二区在线看| 国内久久婷婷六月综合欲色啪| 欧美午夜高清在线| 欧美最黄视频在线播放免费 | 夜夜躁狠狠躁天天躁| 国产黄a三级三级三级人| 国产精品野战在线观看 | 九色亚洲精品在线播放| 国产色视频综合| 久久久久久人人人人人| 国产亚洲欧美98| 美女午夜性视频免费| 夫妻午夜视频| 十八禁网站免费在线| 99国产精品99久久久久| 18禁美女被吸乳视频| 97人妻天天添夜夜摸| 丝袜人妻中文字幕| 欧美一区二区精品小视频在线| 午夜老司机福利片| 午夜福利一区二区在线看| 国产aⅴ精品一区二区三区波| 十八禁网站免费在线| 一级毛片高清免费大全| 中文字幕另类日韩欧美亚洲嫩草| 国产精品98久久久久久宅男小说| tocl精华| 久久欧美精品欧美久久欧美| 久久久久久亚洲精品国产蜜桃av| 欧美日本亚洲视频在线播放| √禁漫天堂资源中文www| 亚洲第一青青草原| xxx96com| 90打野战视频偷拍视频| 国产亚洲精品一区二区www| 亚洲av熟女| 国产精品亚洲一级av第二区| 麻豆国产av国片精品| 91字幕亚洲| 欧美黄色淫秽网站| 另类亚洲欧美激情| 窝窝影院91人妻| 90打野战视频偷拍视频| 亚洲国产欧美网| 中文字幕人妻丝袜制服| 女同久久另类99精品国产91| 国产精品美女特级片免费视频播放器 | 免费少妇av软件| √禁漫天堂资源中文www| 99精品欧美一区二区三区四区| 中文字幕高清在线视频| 大型av网站在线播放| 女同久久另类99精品国产91| 女警被强在线播放| 精品一区二区三卡| 精品一区二区三区av网在线观看| 黄色视频,在线免费观看| 国产精品国产高清国产av| 国产精品偷伦视频观看了| 嫩草影视91久久| 少妇的丰满在线观看| 国产蜜桃级精品一区二区三区| 国产精品一区二区免费欧美| 国产精品自产拍在线观看55亚洲| 欧美精品亚洲一区二区| 后天国语完整版免费观看| 国产av在哪里看| 欧美中文综合在线视频| 啦啦啦 在线观看视频| 欧美人与性动交α欧美软件| 超色免费av| 黑人巨大精品欧美一区二区蜜桃| 精品久久久久久成人av| 免费高清视频大片| 两性午夜刺激爽爽歪歪视频在线观看 | 精品国产国语对白av| 久久99一区二区三区| 黄网站色视频无遮挡免费观看| 国产成人一区二区三区免费视频网站| 一区福利在线观看| 窝窝影院91人妻| 51午夜福利影视在线观看| 亚洲中文字幕日韩| 女人精品久久久久毛片| 国产免费av片在线观看野外av| 国产精品电影一区二区三区| 欧美成人性av电影在线观看| 亚洲中文字幕日韩| e午夜精品久久久久久久| 亚洲精品久久成人aⅴ小说| 亚洲精品久久午夜乱码| 亚洲av第一区精品v没综合| 日韩中文字幕欧美一区二区| 两人在一起打扑克的视频| av视频免费观看在线观看| 看免费av毛片| 亚洲欧美一区二区三区黑人| 亚洲精品中文字幕在线视频| 在线av久久热| 免费在线观看完整版高清| 在线观看舔阴道视频| 视频在线观看一区二区三区| 亚洲av成人不卡在线观看播放网| 午夜成年电影在线免费观看| 国产亚洲欧美在线一区二区| 曰老女人黄片| 女警被强在线播放| 婷婷六月久久综合丁香| 日日摸夜夜添夜夜添小说| 亚洲aⅴ乱码一区二区在线播放 | 成熟少妇高潮喷水视频| 久久精品影院6| 不卡av一区二区三区| 高清毛片免费观看视频网站 | 午夜精品久久久久久毛片777| 国产成人系列免费观看| 91老司机精品| 18禁美女被吸乳视频| 亚洲精品国产区一区二| 久久久久国产一级毛片高清牌| 亚洲成av片中文字幕在线观看| 高清欧美精品videossex| 在线观看免费日韩欧美大片| 亚洲欧美日韩无卡精品| 亚洲欧美日韩高清在线视频| 狠狠狠狠99中文字幕| 丝袜在线中文字幕| 国产亚洲欧美精品永久| 亚洲精品国产精品久久久不卡| 曰老女人黄片| 无人区码免费观看不卡| av视频免费观看在线观看| 久久久久久久久中文| 久久精品成人免费网站| 男女午夜视频在线观看| 久久热在线av| 亚洲精品中文字幕一二三四区| 麻豆久久精品国产亚洲av | 91精品三级在线观看| 免费日韩欧美在线观看| 精品熟女少妇八av免费久了| 久热这里只有精品99| 色综合婷婷激情| 又大又爽又粗| 亚洲成人精品中文字幕电影 | 精品国产美女av久久久久小说| 国产亚洲精品综合一区在线观看 | 乱人伦中国视频| av天堂久久9| 精品国产乱码久久久久久男人| 亚洲 欧美 日韩 在线 免费| 中出人妻视频一区二区| 在线天堂中文资源库| 成年版毛片免费区| 精品久久久久久电影网| 精品乱码久久久久久99久播| 免费在线观看视频国产中文字幕亚洲| 久9热在线精品视频| 亚洲片人在线观看| 精品国产国语对白av| 大香蕉久久成人网| 亚洲国产精品sss在线观看 | 免费在线观看完整版高清| 欧美 亚洲 国产 日韩一| 久久香蕉激情| 两个人免费观看高清视频| 欧美日韩国产mv在线观看视频| 成人手机av| 国产不卡一卡二| 99国产精品99久久久久| 日韩大码丰满熟妇| 搡老岳熟女国产| 麻豆一二三区av精品| a在线观看视频网站| 搡老岳熟女国产| 久久国产亚洲av麻豆专区| www.www免费av| 天天影视国产精品| 真人做人爱边吃奶动态| 超色免费av| 国产一区在线观看成人免费| 亚洲中文日韩欧美视频| 久久精品亚洲av国产电影网| 日韩 欧美 亚洲 中文字幕| 亚洲中文日韩欧美视频| 国产精品偷伦视频观看了| 精品一区二区三卡| 亚洲国产欧美网| 午夜精品在线福利| 久热这里只有精品99| 国产亚洲精品一区二区www| 99在线视频只有这里精品首页| 男女做爰动态图高潮gif福利片 | 亚洲熟女毛片儿| 欧美一级毛片孕妇| 视频区欧美日本亚洲| 亚洲人成网站在线播放欧美日韩| 99久久综合精品五月天人人| 视频区欧美日本亚洲| 精品国产亚洲在线| 午夜久久久在线观看| 免费高清在线观看日韩| 国产一区二区三区视频了| 法律面前人人平等表现在哪些方面| 国产精品av久久久久免费| 老汉色∧v一级毛片|