陳玉娜,史曉東
(廈門大學(xué)信息學(xué)院,福建廈門361005)
(?通信作者電子郵箱mandel@xmu.edu.cn)
近年來(lái),隨著自動(dòng)語(yǔ)音識(shí)別(Automatic Speech Recognition,ASR)[1-3]和 神 經(jīng) 機(jī) 器 翻 譯(Neural Machine Translation,NMT)[4-6]技術(shù)的快速發(fā)展,機(jī)器同傳(Machine Simultaneous Interpretation,MSI)越來(lái)越受到人們的重視。微軟、騰訊、搜狗、科大訊飛等公司為多語(yǔ)種會(huì)議推出MSI系統(tǒng),以方便使用不同母語(yǔ)的參與者從演講者處獲取信息。
目前主流的MSI系統(tǒng)先將源語(yǔ)言語(yǔ)音用ASR系統(tǒng)進(jìn)行識(shí)別,然后將輸出結(jié)果直接輸入到NMT 中,最后得到目標(biāo)語(yǔ)言文本。然而在實(shí)際應(yīng)用中,由于演講過(guò)程中的停頓、重新思考以及話語(yǔ)重組等現(xiàn)象會(huì)影響ASR 系統(tǒng)的性能,ASR 系統(tǒng)可能產(chǎn)生語(yǔ)義不完整的句子和不流暢的句子。同時(shí)目前的ASR系統(tǒng)并不完善,可能會(huì)輸出包含錯(cuò)字的句子。這些問題都會(huì)影響NMT的性能,進(jìn)而導(dǎo)致MSI輸出讓人難以閱讀和理解。
MSI系統(tǒng)的NMT收到的文本中包含的錯(cuò)誤大體可以分為語(yǔ)義不完整、不流利及語(yǔ)音識(shí)別錯(cuò)誤三大類問題,其中語(yǔ)義不完整問題可歸結(jié)為標(biāo)點(diǎn)恢復(fù)任務(wù),即將ASR 系統(tǒng)生成的幾個(gè)文本片段連接,然后恢復(fù)這段話的標(biāo)點(diǎn)。標(biāo)點(diǎn)恢復(fù)方法一般分為三類:基于聲學(xué)特征的、基于詞匯特征的及兩者結(jié)合的。Levy 等[7]采用基于聲學(xué)特征的方法,利用音強(qiáng)、暫停時(shí)間等特征預(yù)測(cè)標(biāo)點(diǎn)符號(hào)。Cho等[8-9]使用序列到序列神經(jīng)網(wǎng)絡(luò)處理基于詞匯特征的標(biāo)點(diǎn)恢復(fù),將不含標(biāo)點(diǎn)文本翻譯為含標(biāo)點(diǎn)的文本。雖然該方法取得一定成效,但是該方法比較復(fù)雜,需要先將文本進(jìn)行編碼再進(jìn)行解碼。Che 等[10]采用基于卷積神經(jīng)網(wǎng)絡(luò)(Convolutional Neural Network,CNN)的序列標(biāo)注模型直接預(yù)測(cè)標(biāo)點(diǎn)符號(hào)。同時(shí)基于循環(huán)神經(jīng)網(wǎng)絡(luò)(Recurrent Neural Network,RNN)的序列標(biāo)注模型也被應(yīng)用到標(biāo)點(diǎn)預(yù)測(cè)任務(wù)中:例如Tikl 等[11]使用了長(zhǎng)短期記憶(Long Short Term Memory,LSTM)網(wǎng)絡(luò);Tikl 等[12]又使用了基于注意力的雙向循環(huán)神經(jīng)網(wǎng)絡(luò);李雅昆等[13]使用了雙向LSTM 同時(shí)訓(xùn)練中文分詞和標(biāo)點(diǎn)恢復(fù)任務(wù)。雖然上述方法都取得了良好效果,但是由于卷積網(wǎng)絡(luò)更注重局部信息,循環(huán)神經(jīng)網(wǎng)絡(luò)存在長(zhǎng)距離依賴問題,而標(biāo)點(diǎn)符號(hào)與上下文聯(lián)系緊密,因此這些方法的預(yù)測(cè)效果都有待進(jìn)一步提高。Tikl等[12]采用了基于兩個(gè)特征結(jié)合的方法進(jìn)行標(biāo)點(diǎn)符號(hào)預(yù)測(cè),該方法可以綜合聲學(xué)特征和文本特征進(jìn)行標(biāo)點(diǎn)預(yù)測(cè),從而提升正確率,但是同時(shí)擁有這兩個(gè)特征的訓(xùn)練語(yǔ)料非常匱乏。對(duì)于不流利問題,Cho 等[14-16]用帶有BIO(Begin,Inside,Outside)標(biāo)簽的序列標(biāo)注方法,并分別使用條件隨機(jī)場(chǎng)、基于RNN的模型和基于CNN的模型進(jìn)行處理。在ASR 識(shí)別錯(cuò)誤方面,Sarma 等[17]構(gòu)建了基于上下文的ASR 檢測(cè)器,并使用共現(xiàn)和基于語(yǔ)音的分析來(lái)糾正錯(cuò)誤,該方法會(huì)產(chǎn)生累積錯(cuò)誤。Guo等[18-19]提出一種基于注意力機(jī)制的編-解碼器循環(huán)神經(jīng)網(wǎng)絡(luò)直接糾正錯(cuò)誤的詞。
為了更好地研究上述問題在MSI 中的影響,本文在實(shí)際的MSI 數(shù)據(jù)上對(duì)比分析了語(yǔ)義不完整、不流利和語(yǔ)音識(shí)別錯(cuò)誤這三個(gè)問題(見第1 章)。實(shí)驗(yàn)結(jié)果表明,語(yǔ)義不完整問題是影響MSI 性能最普遍的問題,約占MSI 總錯(cuò)誤的44.58%。因此,本文將語(yǔ)義不完整問題作為主要研究?jī)?nèi)容。首先緩存由ASR 系統(tǒng)生成的幾個(gè)片段,并將它們組合成一個(gè)詞串;然后使用基于BERT(Bidirectional Encoder Representation from Transformers)[20]的序列標(biāo)注模型恢復(fù)該詞串的標(biāo)點(diǎn)符號(hào),并且使用了Focal Loss[21]作為訓(xùn)練過(guò)程中的損失函數(shù)來(lái)緩解類別不平衡問題,即無(wú)標(biāo)點(diǎn)樣本比有標(biāo)點(diǎn)樣本多的問題;最后將標(biāo)點(diǎn)恢復(fù)后的詞串輸入NMT中。
本文的主要工作為:
1)對(duì)真實(shí)場(chǎng)景下的MSI 數(shù)據(jù)進(jìn)行分析,評(píng)估并論述了MSI 系統(tǒng)所存在的語(yǔ)義不完整、不流利和語(yǔ)音識(shí)別錯(cuò)誤三類問題及這些問題對(duì)MSI 系統(tǒng)性能的影響,其中語(yǔ)義不完整問題是最迫切需要解決的問題。
2)提出了基于BERT 和Focal Loss 的標(biāo)點(diǎn)恢復(fù)方法。通過(guò)BERT 學(xué)習(xí)較強(qiáng)的上下文特征,使用Focal Loss 緩解標(biāo)點(diǎn)恢復(fù)任務(wù)的類別不平衡問題,提高了模型在標(biāo)點(diǎn)恢復(fù)任務(wù)中的準(zhǔn)確性。
3)本文提出的標(biāo)點(diǎn)恢復(fù)模型緩解了MSI系統(tǒng)中的語(yǔ)義不完整問題,比使用基于注意力機(jī)制的雙向循環(huán)神經(jīng)網(wǎng)絡(luò)標(biāo)點(diǎn)恢復(fù)模型的MSI,該模型的翻譯質(zhì)量也有顯著提升。
為了提高M(jìn)SI 流水線系統(tǒng)的性能,本文對(duì)從網(wǎng)頁(yè)抓取的中文音頻片段的ASR 輸出結(jié)果進(jìn)行分析,部分示例如圖1 所示。主要研究將ASR 的輸出直接輸入到NMT 過(guò)程所存在的三類問題,即語(yǔ)義不完整、不流利和語(yǔ)音識(shí)別錯(cuò)誤。該輸出結(jié)果總共包含1 500條數(shù)據(jù),數(shù)據(jù)大小為441 KB。
圖1 包含語(yǔ)義不完整、不流利和ASR錯(cuò)誤問題的例子及其對(duì)應(yīng)的機(jī)器翻譯Fig. 1 Examples containing problems of semantic incompleteness,disfluency and ASR errors and their corresponding machine translations
由于標(biāo)點(diǎn)符號(hào)無(wú)發(fā)聲因素,通常ASR 系統(tǒng)對(duì)聲音識(shí)別只輸出文字,不輸出標(biāo)點(diǎn)符號(hào),因此一般沒有對(duì)輸出內(nèi)容進(jìn)行句子分割,或者只根據(jù)靜音段進(jìn)行簡(jiǎn)要的分割(例如說(shuō)話者停頓時(shí)),ASR 輸出有的是很短的片段,有的是很長(zhǎng)一串文字。這些文本通常未按語(yǔ)義分割成句,導(dǎo)致了明顯的語(yǔ)義不完整問題。如圖1 中的例1 原本屬于一句話,被分割成了兩個(gè)片段,例2 的幾個(gè)句子則被合成一個(gè)片段。由于機(jī)器翻譯的訓(xùn)練數(shù)據(jù)來(lái)自于完整的且含有標(biāo)點(diǎn)符號(hào)的句子,因此該問題會(huì)影響機(jī)器翻譯的質(zhì)量。從圖1 中可以看到,具有語(yǔ)義不完整問題的例子的翻譯結(jié)果不僅不能表達(dá)完整的意思,而且還存在錯(cuò)誤(用下劃線標(biāo)出)。該問題存在于大部分例子中,約占MSI錯(cuò)誤總數(shù)的44.58%,是影響MSI流水線系統(tǒng)性能的最普遍的問題。
通常情況下,由于演講者的重復(fù)、猶豫和語(yǔ)言重組,其演講內(nèi)容會(huì)包含重復(fù)詞、填充詞和話語(yǔ)標(biāo)記語(yǔ),因此ASR 系統(tǒng)可能產(chǎn)生不流利的句子,如圖1的例3所示。由于機(jī)器翻譯的訓(xùn)練數(shù)據(jù)來(lái)自流利的書面文本,因此訓(xùn)練數(shù)據(jù)與ASR 輸出之間的不匹配可能導(dǎo)致翻譯質(zhì)量下降。不流利問題約占總MSI錯(cuò)誤的22.21%。
如圖1中的例4所示,ASR輸出中的一些單詞會(huì)被ASR系統(tǒng)識(shí)別為發(fā)音相似的其他單詞,該錯(cuò)誤會(huì)被傳輸?shù)较掠蜰MT中,產(chǎn)生累積錯(cuò)誤。從例4 可以看出,雖然有些識(shí)別出來(lái)的單詞是錯(cuò)誤的,但在一定程度上可以根據(jù)字的發(fā)音來(lái)猜測(cè)其原義。然而,翻譯后的意義不僅被曲解,而且令讀者難以理解。語(yǔ)音識(shí)別錯(cuò)誤問題約占33.20%,ASR 輸出的字錯(cuò)誤率為4.34%。
從上述的分析可以看出,語(yǔ)義不完整問題是影響MSI 流水線系統(tǒng)性能最普遍的問題,本文主要解決句子中所存在的語(yǔ)義不完整問題。在ASR 和NMT 之間引入標(biāo)點(diǎn)恢復(fù)層,為NMT提供完整的句子單元以提高M(jìn)SI流水線系統(tǒng)的性能。整體框架如圖2所示。
圖2 機(jī)器同傳流水線系統(tǒng)整體框架Fig. 2 Overall framework of MSI pipeline system
本文在標(biāo)點(diǎn)恢復(fù)層使用基于BERT 的序列標(biāo)注模型,并使用Focal Loss 來(lái)緩解模型訓(xùn)練過(guò)程所存在的類別不平衡問題。
本文將標(biāo)點(diǎn)恢復(fù)任務(wù)轉(zhuǎn)化成序列標(biāo)注任務(wù),只考慮最重要和最常見的標(biāo)點(diǎn)符號(hào)類型:逗號(hào)、句號(hào)、問號(hào),因此共有四種類別:“,”類、“?!鳖?、“?”類和“O”類(其中“O”表示無(wú)標(biāo)點(diǎn)符號(hào))。在數(shù)據(jù)處理階段,首先將訓(xùn)練數(shù)據(jù)的感嘆號(hào)和分號(hào)當(dāng)作句號(hào)處理,冒號(hào)則映射到逗號(hào),并將其他標(biāo)點(diǎn)符號(hào)移除。然后將由訓(xùn)練數(shù)據(jù)轉(zhuǎn)化成的不含標(biāo)點(diǎn)的文字作為模型輸入,令每個(gè)文字其后所跟的標(biāo)點(diǎn)符號(hào)作為模型輸出。例如對(duì)于輸入句子:
“是的,他來(lái)了?!?/p>
轉(zhuǎn)化后的模型輸入為:
“是的他來(lái)了”
模型輸出為:
“O,O O?!?/p>
BERT 是一種基于自注意力機(jī)制(self-attention)的預(yù)訓(xùn)練語(yǔ)言模型,使用多層Transformer編碼器框架,并利用屏蔽語(yǔ)言模型(Masked Language Model,MLM)任務(wù)(屏蔽一些詞讓BERT 進(jìn)行預(yù)測(cè))實(shí)現(xiàn)深層雙向,利用下一句預(yù)測(cè)(Next Sentence Prediction,NSP)任務(wù)學(xué)習(xí)句子間關(guān)系,具有較強(qiáng)的表達(dá)能力。
圖3 Transformer編碼器[6]Fig. 3 Encoder of Transformer[6]
BERT包含多層Transformer編碼器組件,如圖3[6]所示,每層由多頭自注意力層和前饋網(wǎng)絡(luò)全連接層組成。Transformer編碼器先將詞轉(zhuǎn)化為詞嵌入,并加入相對(duì)位置信息,然后輸入多頭自注意力層。自注意力機(jī)制可以為:
其中:Q代表查詢;K-V是文本向量鍵值對(duì);dk表示維度。該過(guò)程先將查詢和每個(gè)key 進(jìn)行相似度計(jì)算從而得到權(quán)重,再使用softmax 函數(shù)對(duì)權(quán)重進(jìn)行歸一化;最后將權(quán)重和相應(yīng)的鍵值value進(jìn)行加權(quán)求和。多頭自注意力機(jī)制表示為:
循環(huán)神經(jīng)網(wǎng)絡(luò)被應(yīng)用于序列標(biāo)注任務(wù)與標(biāo)點(diǎn)恢復(fù)任務(wù)中,但該網(wǎng)絡(luò)存在長(zhǎng)距離依賴問題,即在訓(xùn)練過(guò)程中隨著序列長(zhǎng)度的增加會(huì)產(chǎn)生梯度消失,不能保存有效信息的問題。為了解決這一問題,本文采用自注意力網(wǎng)絡(luò)。自注意力網(wǎng)絡(luò)能夠?qū)θ中畔⑦M(jìn)行有效處理,詞間距離縮小為1,更容易獲取文本內(nèi)部依賴關(guān)系,表現(xiàn)出比RNN 更強(qiáng)的表達(dá)能力與效果。基于此,本文提出使用基于BERT 的序列標(biāo)注模型來(lái)解決標(biāo)點(diǎn)恢復(fù)任務(wù),該模型由BERT和Softmax層組成,如圖4所示。
圖4 基于BERT的標(biāo)點(diǎn)恢復(fù)模型Fig. 4 BERT-based model of punctuation recovery
下面給出該標(biāo)點(diǎn)恢復(fù)模型的總體描述。將輸入序列表示為X = x1,x2,…,xT,其中:xt代表第t個(gè)詞的one-hot表示;T 代表輸入序列的長(zhǎng)度。對(duì)于給定的輸入序列X,BERT 首先將其轉(zhuǎn)化成詞嵌入,并加入位置嵌入和分割嵌入,然后再進(jìn)行特征抽取,表示為H = h1,h2,…,hT:
其中:ht表示第t個(gè)詞的特征抽取結(jié)果。最后將H輸入softmax層,并輸出標(biāo)點(diǎn)預(yù)測(cè)概率,第t個(gè)詞標(biāo)點(diǎn)預(yù)測(cè)概率分布為:
其中:Wo和bo為softmax層的參數(shù)。
在深度神經(jīng)網(wǎng)絡(luò)訓(xùn)練任務(wù)中,一般使用交叉熵作為模型訓(xùn)練的損失函數(shù),但是當(dāng)樣本不平衡時(shí),就導(dǎo)致神經(jīng)網(wǎng)絡(luò)的訓(xùn)練容易傾向于樣本數(shù)量多的類別或者傾向于易分的樣本,從而使得神經(jīng)網(wǎng)絡(luò)學(xué)習(xí)不到更多有用的信息。在標(biāo)點(diǎn)恢復(fù)任務(wù)中,由于無(wú)標(biāo)點(diǎn)(“O”)樣本遠(yuǎn)多于其他標(biāo)點(diǎn)樣本,所以模型在訓(xùn)練時(shí)更傾向于輸出無(wú)標(biāo)點(diǎn)類別,網(wǎng)絡(luò)學(xué)習(xí)不到足夠的標(biāo)點(diǎn)特征,從而降低了有標(biāo)點(diǎn)類別的查全率。為了解決該問題,本文采用在交叉熵上改進(jìn)的Focal Loss[21]作為模型的損失函數(shù),它可以在訓(xùn)練過(guò)程中平衡類別,并增加難分樣本的相對(duì)損失。由于它是在二分類的基礎(chǔ)上進(jìn)行改進(jìn),因此本文將其擴(kuò)展為多分類。下面給出Focal Loss的更具體的描述。
二分類的交叉熵為:
因?yàn)轭悇e不平衡,Lin等[21]為類別1引入了一個(gè)系數(shù)α,類別0為1- α。改進(jìn)的交叉熵公式可以表示為:
概率越高,說(shuō)明樣本越容易分類。為了可以平衡類別并且區(qū)分難易樣本,因此Lin 等[21]為交叉熵增加了一個(gè)調(diào)制系數(shù)(1-來(lái)降低簡(jiǎn)單樣本的關(guān)注度,并增加難分樣本的關(guān)注度。它表示為:
最后改進(jìn)的交叉熵公式Focal Loss表示為:
由于本文分類任務(wù)不是二分類,因此將其擴(kuò)展成多分類,表示為:
其中:n代表類別數(shù);αi代表第i個(gè)標(biāo)簽的可調(diào)因子;表第i個(gè)標(biāo)簽的預(yù)測(cè)概率;yi代表真實(shí)標(biāo)簽。
本章首先評(píng)估本文標(biāo)點(diǎn)恢復(fù)模型在中文和英文數(shù)據(jù)集的準(zhǔn)確性;然后將該模型集成到機(jī)器同傳中,以展示本文標(biāo)點(diǎn)恢復(fù)模型對(duì)英-德和漢-英同傳翻譯任務(wù)的影響。
3.1.1 訓(xùn)練細(xì)節(jié)和數(shù)據(jù)集
本文選擇BERT-base 模型,它包含12 層Transformer 編碼器組塊,768個(gè)隱藏單元,12個(gè)自注意頭和110 MB參數(shù)。訓(xùn)練時(shí),將模型的批大小設(shè)置為32,英語(yǔ)端學(xué)習(xí)率為5× 10-5,訓(xùn)練輪數(shù)為5;中文端學(xué)習(xí)率為3× 10-5,訓(xùn)練輪數(shù)為3。對(duì)于Focal Loss,英語(yǔ)端將所有類的α 值設(shè)置為1.0,γ 值設(shè)置為1.5。中文端將逗號(hào)、句號(hào)和問號(hào)類的α值設(shè)置為0.2,將其他類的α 值設(shè)置為0.1,γ 值設(shè)置為0.5。所有超參數(shù)都在開發(fā)集上調(diào)優(yōu)。英語(yǔ)數(shù)據(jù)集來(lái)自國(guó)際口語(yǔ)機(jī)器翻譯評(píng)測(cè)比賽IWSLT (International Workshop on Spoken Language Translation),其數(shù)據(jù)主要來(lái)源于TED 演講語(yǔ)料。本文選擇IWSLT2012 機(jī)器翻譯訓(xùn)練數(shù)據(jù)作為訓(xùn)練集和開發(fā)集,數(shù)據(jù)大小分別為12.8 MB 和1.8 MB。IWSLT2011人工轉(zhuǎn)錄集和ASR輸出測(cè)試集用于測(cè)試,數(shù)據(jù)大小分別為78.1 KB 和76.9 KB。對(duì)于中文數(shù)據(jù)集,本文將網(wǎng)上爬取的中文新聞?wù)Z料進(jìn)行噪聲過(guò)濾后作為訓(xùn)練集,數(shù)據(jù)大小為11.3 MB;開發(fā)集和測(cè)試集為從網(wǎng)頁(yè)抓取的中文音頻片段的ASR 輸出,開發(fā)集數(shù)據(jù)大小為507 KB,測(cè)試集數(shù)據(jù)大小為441 KB。
3.1.2 實(shí)驗(yàn)結(jié)果
標(biāo)點(diǎn)恢復(fù)預(yù)測(cè)效果使用查全率R(Recall)、查準(zhǔn)率P(Precision)和F1 值衡量。表1 是不同模型在英文人工轉(zhuǎn)錄集(Ref.)及ASR輸出(ASR)測(cè)試集的標(biāo)點(diǎn)恢復(fù)結(jié)果,表2是不同模型在中文ASR 輸出測(cè)試集的標(biāo)點(diǎn)恢復(fù)結(jié)果。顯然,本文模型在英漢數(shù)據(jù)集中都顯著優(yōu)于使用基于注意力機(jī)制及預(yù)訓(xùn)練詞向量的雙向循環(huán)神經(jīng)網(wǎng)絡(luò)模型(T-BRNN-pre)[12]。
表1 英文標(biāo)點(diǎn)恢復(fù)效果對(duì)比 單位:%Tab. 1 Comparison of English punctuation recovery performance unit:%
表2 中文標(biāo)點(diǎn)恢復(fù)效果對(duì)比 單位:%Tab. 2 Comparison of Chinese punctuation recovery performance unit:%
在英文測(cè)試集中,與T-BRNN-pre 相比,總體F1 值在英文人工轉(zhuǎn)錄集上提高了14.2個(gè)百分點(diǎn),在英文ASR 輸出上提高了5.2個(gè)百分點(diǎn)。在英文人工轉(zhuǎn)錄集中,相對(duì)于T-BRNN-pre,本文模型在所有標(biāo)點(diǎn)符號(hào)的查準(zhǔn)率、查全率都顯著提升。在英文ASR 輸出中,逗號(hào)以及問號(hào)在提高查全率的同時(shí),也降低了一定的查準(zhǔn)率,但總體F1值都是提升的。
在中文測(cè)試集中,與T-BRNN-pre 相比,總體F1 值在中文ASR 輸出上提高了9.9 個(gè)百分點(diǎn)。句號(hào)和逗號(hào)相對(duì)于T-BRNN-pre,查準(zhǔn)率和查全率都顯著提升,但問號(hào)的查準(zhǔn)率有所降低。
在英文人工轉(zhuǎn)錄集中,本文模型在所有標(biāo)點(diǎn)符號(hào)上查準(zhǔn)率、查全率都顯著提升,但是在英文ASR 輸出及中文ASR 輸出中,逗號(hào)或者問號(hào)的查準(zhǔn)率相對(duì)于T-BRNN-pre模型有所降低,本文認(rèn)為該問題是受訓(xùn)練集與測(cè)試集數(shù)據(jù)域不匹配的影響。在訓(xùn)練時(shí),用于英文和中文標(biāo)點(diǎn)恢復(fù)模型的訓(xùn)練語(yǔ)料是符合正常語(yǔ)法規(guī)范的文本;而測(cè)試時(shí),英文ASR 輸出及中文ASR 輸出則是包含不流利及語(yǔ)音識(shí)別錯(cuò)誤等問題的文本;同時(shí)因?yàn)楸疚哪P驮谡N谋旧蠑M合得更好,因此本文模型的查準(zhǔn)率相對(duì)于T-BRNN-pre模型受到干擾的影響更大。
從實(shí)驗(yàn)結(jié)果也可以看出,在英文人工轉(zhuǎn)錄集、英文ASR輸出及中文ASR輸出中,使用Focal Loss雖然使總體查準(zhǔn)率降低,但是由于總體查全率相對(duì)提升更多,因此總體F1 值也有所提升。由此看來(lái)Focal Loss可以提升標(biāo)點(diǎn)恢復(fù)模型效果。
本節(jié)將上述訓(xùn)練的標(biāo)點(diǎn)恢復(fù)模型應(yīng)用到機(jī)器同傳中。首先將ASR 輸出用提出的標(biāo)點(diǎn)恢復(fù)模型進(jìn)行標(biāo)點(diǎn)恢復(fù),再將標(biāo)點(diǎn)恢復(fù)后的ASR 輸出輸入機(jī)器翻譯中。本文使用的機(jī)器翻譯是線上系統(tǒng),該系統(tǒng)基于Transformer架構(gòu),編碼器和解碼器各包含6 層,隱藏維度為1 024,自注意力頭個(gè)數(shù)為16。本文使用BLEU[22]作為機(jī)器同傳結(jié)果的評(píng)價(jià)指標(biāo)。
對(duì)于英語(yǔ)-德語(yǔ)翻譯,使用英-德IWSLT2015 的口語(yǔ)翻譯(Spoken Language Translation,SLT)任 務(wù) 的 測(cè) 試 集:IWSLT2015 人工轉(zhuǎn)錄集和ASR 輸出,數(shù)據(jù)大小分別為97.6 KB 和109 KB。對(duì)于漢英翻譯,測(cè)試集與上文用于中文標(biāo)點(diǎn)恢復(fù)模型的測(cè)試集相同,但刪除了一些包含不流利和語(yǔ)音識(shí)別錯(cuò)誤的句子,數(shù)據(jù)大小為78.5 KB。
表3 為英-德和漢-英的實(shí)驗(yàn)結(jié)果。第1~4 行表示機(jī)器翻譯的輸入來(lái)自ASR 輸出,第5 行表示來(lái)自人工轉(zhuǎn)錄文本。BasePunc 的標(biāo)點(diǎn)符號(hào)由ASR 系統(tǒng)提供,作為實(shí)驗(yàn)的基線;T-BRNN-pre 表示標(biāo)點(diǎn)符號(hào)來(lái)自使用基于注意力機(jī)制的雙向循環(huán)神經(jīng)網(wǎng)絡(luò)模型;BERT-FL 表示標(biāo)點(diǎn)符號(hào)來(lái)自基于BERT和Focal Loss模型;GoldenPunc的標(biāo)點(diǎn)符號(hào)是人工標(biāo)注的。
表3 英-德和漢-英翻譯效果Tab. 3 Translation performance on English-German and Chinese-English
從英-德的同傳翻譯結(jié)果可以看到,當(dāng)輸入的單詞和標(biāo)點(diǎn)符號(hào)都是人工標(biāo)注時(shí),翻譯質(zhì)量為36.86 BLEU,即為上限。對(duì)ASR 輸出使用本文模型進(jìn)行標(biāo)點(diǎn)恢復(fù):與ASR 系統(tǒng)提供的標(biāo)點(diǎn)符號(hào)基線相比,可以提高8.19 BLEU;與T-BRNN-pre 模型預(yù)測(cè)的標(biāo)點(diǎn)符號(hào)相比,可以提高2.28 BLEU。結(jié)果表明,本文提出的模型可以顯著提高英-德的翻譯質(zhì)量。
從漢-英的同傳翻譯結(jié)果可以觀察到,當(dāng)將本文模型應(yīng)用于中文ASR 輸出時(shí),與ASR 系統(tǒng)提供的標(biāo)點(diǎn)符號(hào)相比BLEU提高了4.24,與T-BRNN-pre模型預(yù)測(cè)的標(biāo)點(diǎn)符號(hào)相比可以提高3.66 BLEU。由此看來(lái)提出模型可以顯著提高漢-英的翻譯質(zhì)量。為了直接展示模型對(duì)翻譯性能的影響,在圖5 展示了從測(cè)試集中采樣的一些翻譯示例。顯然,引入了標(biāo)點(diǎn)恢復(fù)模型的MSI 系統(tǒng)的翻譯不僅傳達(dá)了完整和正確的信息,而且更加流暢,可讀性也更強(qiáng)。此外,本文還進(jìn)行了人工評(píng)估,以驗(yàn)證提出的標(biāo)點(diǎn)符號(hào)恢復(fù)模型對(duì)機(jī)器同傳的影響。本文在測(cè)試集中隨機(jī)選擇200 條數(shù)據(jù)進(jìn)行人工翻譯評(píng)價(jià);得分范圍為1~10(1 是最差,10 是最好)。人工評(píng)估結(jié)果無(wú)標(biāo)點(diǎn)恢復(fù)為7.62分,使用本文標(biāo)點(diǎn)恢復(fù)模型分?jǐn)?shù)為8.37分,可以看出,引入本文的標(biāo)點(diǎn)模型使得MSI系統(tǒng)比基線有更好的得分。
圖5 標(biāo)點(diǎn)恢復(fù)前和后的ASR輸出的翻譯Fig. 5 Translation of ASR outputs before and after punctuation recovery
本文提出了一種基于BERT 和Focal Loss 的標(biāo)點(diǎn)恢復(fù)模型用于MSI 流水線系統(tǒng)中。該模型既能利用BERT 有效提取句子的全局特征,又可以利用Focal Loss緩解標(biāo)點(diǎn)任務(wù)的類別不平衡問題。實(shí)驗(yàn)結(jié)果表明,本文提出的標(biāo)點(diǎn)恢復(fù)模型可以顯著提升MSI 機(jī)器譯文質(zhì)量,且優(yōu)于使用基于注意力機(jī)制的循環(huán)神經(jīng)網(wǎng)絡(luò)標(biāo)點(diǎn)恢復(fù)模型的MSI流水線系統(tǒng)。
在未來(lái)的工作中會(huì)集中解決ASR 輸出中的不流利和語(yǔ)音識(shí)別錯(cuò)誤問題以提高M(jìn)SI的總體性能。