• 
    

    
    

      99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看 ?

      丟棄冗余塊的語(yǔ)音識(shí)別Transformer 解碼加速方法

      2023-10-17 05:49:56趙德春舒洋李玲陳歡張子豪
      計(jì)算機(jī)工程 2023年10期
      關(guān)鍵詞:解碼器聲學(xué)解碼

      趙德春,舒洋,李玲,陳歡,張子豪

      (1.重慶郵電大學(xué) 生物信息學(xué)院,重慶 400065;2.重慶郵電大學(xué) 自動(dòng)化學(xué)院,重慶 400065)

      0 概述

      自動(dòng)語(yǔ)音識(shí)別是最便捷的人機(jī)交互技術(shù)之一,目的是讓機(jī)器自動(dòng)將人類(lèi)語(yǔ)音信號(hào)轉(zhuǎn)變?yōu)閷?duì)應(yīng)的文本信息。當(dāng)前,主流的語(yǔ)音識(shí)別方法是單一神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)組成的端到端模型,主要有3類(lèi),分別為連接時(shí)序分類(lèi)器(Connectionist Temporal Classification,CTC)[1-2]、循環(huán)神經(jīng)網(wǎng)絡(luò)換能器(RNN-Transducer,RNN-T)[3-4]以及基于注意力機(jī)制的編解碼模型(Attention-based Encoder-Decoder,AED)[5-7]。端 到端模型將傳統(tǒng)語(yǔ)音識(shí)別系統(tǒng)中的聲學(xué)、發(fā)音和語(yǔ)言模型整合到一個(gè)網(wǎng)絡(luò)結(jié)構(gòu)中,使得它們可以只針對(duì)一個(gè)目標(biāo)函數(shù)進(jìn)行優(yōu)化,識(shí)別準(zhǔn)確率更高[8]。

      CTC 通過(guò)引入空白符來(lái)實(shí)現(xiàn)語(yǔ)音序列與文本序列的對(duì)齊表達(dá),使用動(dòng)態(tài)規(guī)劃策略高效地尋找所有潛在的對(duì)齊路徑,結(jié)合前饋網(wǎng)絡(luò)層使得模型能快速得到幀級(jí)別的分類(lèi)輸出。然而,模型因未考慮字與字、語(yǔ)句關(guān)系的獨(dú)立性假設(shè),嚴(yán)重限制了模型的性能。RNN-T 在解碼時(shí)以語(yǔ)音編碼結(jié)果和之前的輸出序列共同作為輸入,同時(shí)結(jié)合額外的預(yù)測(cè)網(wǎng)絡(luò)實(shí)現(xiàn)了對(duì)聲學(xué)模型與語(yǔ)言模型的共同優(yōu)化。RNN-T 在流式識(shí)別任務(wù)中相比其他結(jié)構(gòu)更有優(yōu)勢(shì),但是模型不容易訓(xùn)練,即使使用預(yù)訓(xùn)練的方法,其訓(xùn)練過(guò)程也很繁瑣[9]。AED 模型通過(guò)注意力機(jī)制實(shí)現(xiàn)聲學(xué)特征幀與文本信息的軟對(duì)齊,這種方式使得輸入序列與輸出序列可以不嚴(yán)格對(duì)齊,因此,模型具有更強(qiáng)的上下文建模能力。但是,對(duì)于強(qiáng)對(duì)齊特性的語(yǔ)音識(shí)別任務(wù),容易導(dǎo)致模型的訓(xùn)練因盲目對(duì)齊而耗費(fèi)大量時(shí)間。為此,CTC/Attention 混合模型[6,10]將CTC引入AED 模型的編碼器網(wǎng)絡(luò)中,利用CTC 損失函數(shù)計(jì)算時(shí)的嚴(yán)格單調(diào)性加強(qiáng)模型對(duì)編碼器的對(duì)齊約束。這種多任務(wù)學(xué)習(xí)方式既能加快模型的收斂速度,又能提高模型的魯棒性。

      另一種基于自注意力機(jī)制的編解碼器模型Transformer[11]因具有強(qiáng)大的上下文建模能力和高效的訓(xùn)練方式,在語(yǔ)音識(shí)別任務(wù)中也取得了巨大成功。語(yǔ) 音Transformer模型[9,12-13]由編碼器與解碼器2 個(gè)部分構(gòu)成,它們均由自注意力層與前饋網(wǎng)絡(luò)層組成的網(wǎng)絡(luò)塊加殘差的連接方式堆疊而成。Transformer解碼器的工作方式與其他AED 模型一樣,解碼當(dāng)前時(shí)刻時(shí)需要之前解碼結(jié)果與全部編碼器的聲學(xué)特征,這導(dǎo)致解碼時(shí)間較長(zhǎng),限制了模型的應(yīng)用[13]。為此,文獻(xiàn)[14]通過(guò)池化CTC 尖峰序列生成具有分段表示能力的編碼器輸出掩碼序列,使用更多置零的掩碼在Transformer 交叉注意力層實(shí)現(xiàn)編碼特征的壓縮表達(dá),加快該層的計(jì)算過(guò)程,提高解碼速度。雖然置零掩碼加速了部分解碼計(jì)算過(guò)程,但是并沒(méi)有真正減少解碼器的計(jì)算量。針對(duì)編碼聲學(xué)特征的緊湊型表達(dá),文獻(xiàn)[15]使用自動(dòng)編碼器來(lái)產(chǎn)生分段的緊湊型語(yǔ)音表示,但是這顯著增加了語(yǔ)音識(shí)別任務(wù)的建模難度與訓(xùn)練成本。

      為了進(jìn)一步加快語(yǔ)音識(shí)別Transformer 解碼過(guò)程,本文提出一種丟棄冗余塊(Discarding Redundant Blocks,DRB)的Transformer 解碼加速方法。該方法利用CTC 分類(lèi)器產(chǎn)生的尖峰序列去除編碼器輸出特征中連續(xù)冗余的空白幀,減小解碼器所需的特征序列長(zhǎng)度。在CTC/AED 模型結(jié)構(gòu)中為避免盲目對(duì)齊所產(chǎn)生的額外訓(xùn)練開(kāi)銷(xiāo),DRB 使用微調(diào)的方式單獨(dú)訓(xùn)練Transformer 解碼器,以解決訓(xùn)練與識(shí)別不匹配的問(wèn)題。同時(shí),為了減小CTC 對(duì)編碼特征冗余幀判斷的誤差,引入Intermediate CTC 結(jié)構(gòu)提高模型訓(xùn)練時(shí)對(duì)編碼器的約束能力。

      1 相關(guān)理論基礎(chǔ)

      1.1 語(yǔ)音Transformer 解碼器

      語(yǔ)音Transformer 模型[12]是基于自注意力機(jī)制的編解碼網(wǎng)絡(luò),模型結(jié)構(gòu)由多頭自注意力層、前饋網(wǎng)絡(luò)層、提供序列位置信息的位置編碼模塊組成,每層之間使用層歸一化與殘差連接的方式來(lái)增強(qiáng)訓(xùn)練時(shí)的穩(wěn)定性。Transformer 解碼器與編碼器在網(wǎng)絡(luò)結(jié)構(gòu)上相似,不同之處在于解碼器中有一個(gè)自注意力層查詢(xún)矩陣是文本序列,而對(duì)應(yīng)的鍵與值都是編碼器輸出的聲學(xué)特征序列,這也被稱(chēng)為交叉注意力層,它使得解碼器中的語(yǔ)言信息可以與聲學(xué)信息相互融合,模型在解碼時(shí)不僅能夠看到之前解碼的上文語(yǔ)言信息,還能參考聲學(xué)上下文信息,從而更準(zhǔn)確地預(yù)測(cè)下一個(gè)詞。解碼器中主要的網(wǎng)絡(luò)堆疊塊計(jì)算如下:

      其中:Zj、Zj+1分別為第j層的輸入與輸出;Xe是編碼器輸出的聲學(xué)特征;FFN 表示前饋網(wǎng)絡(luò)層;MHSAself與MHSAcross都是多頭注意力層,輸入?yún)?shù)依次為自注意力查詢(xún)、鍵、值矩陣。

      解碼器以編碼器輸出的編碼特征與之前解碼結(jié)果作為輸入,進(jìn)行反復(fù)迭代計(jì)算,直到識(shí)別出特殊的停止字符。解碼計(jì)算過(guò)程如下:

      其中:Yt是長(zhǎng)度為T(mén)的目標(biāo)文本序列YT在t時(shí)刻的解碼輸出;Decoder(·)表示解碼器;Xe表示編碼器輸出的語(yǔ)音特征序列。

      1.2 兩階段重打分的非自回歸解碼方式

      Transformer 模型在解碼時(shí)通過(guò)引入之前時(shí)刻的解碼結(jié)果[見(jiàn)式(2)],為解碼過(guò)程引入了充足的語(yǔ)言信息,從而有效提高了識(shí)別準(zhǔn)確率。但是,這種迭代計(jì)算的解碼方式無(wú)法并行化,給模型解碼帶來(lái)了較高延時(shí)。為實(shí)現(xiàn)快速解碼同時(shí)避免Transformer 解碼器的自回歸解碼過(guò)程,文獻(xiàn)[9]提出兩階段重打分的非自回歸解碼方式。該方式在CTC/Attention 混合模型中使用Transformer 解碼器為CTC 解碼的N個(gè)概率中最高的結(jié)果重新評(píng)分,根據(jù)2 次評(píng)分權(quán)重取最終結(jié)果。對(duì)于每個(gè)需要重打分的結(jié)果,Transformer 解碼器只需進(jìn)行一次前向計(jì)算而無(wú)須迭代計(jì)算,因此,這種非自回歸解碼方式的解碼速度更快。在WeNet[16]中,第一階段解碼使用CTC 前綴波束搜索方式來(lái)獲得N個(gè)結(jié)果,在AISHELL-1 數(shù)據(jù)集[17]中取得了較先進(jìn)的識(shí)別結(jié)果。

      1.3 Intermediate CTC

      CTC 利用高效的動(dòng)態(tài)規(guī)劃算法,通過(guò)計(jì)算所有可能存在的對(duì)齊序列概率來(lái)求取給定目標(biāo)序列的最大后驗(yàn)概率。將CTC 作為神經(jīng)網(wǎng)絡(luò)的損失函數(shù),可以使模型無(wú)須幀級(jí)別的標(biāo)注即可得到幀級(jí)別的分類(lèi)預(yù)測(cè)輸出,這將大幅簡(jiǎn)化語(yǔ)音識(shí)別任務(wù)中的聲學(xué)建模過(guò)程。給定幀數(shù)為T(mén)的語(yǔ)音輸入特征XT,模型輸出正確標(biāo)簽序列YL的后驗(yàn)概率為P(YL|XT),計(jì)算如下:

      其中:QT表示YL的某一個(gè)有效對(duì)齊序列(指通過(guò)合并重復(fù)字與刪除空白符能得到的目標(biāo)序列);B-1(YL)是YL有效序列的集合。

      在模型訓(xùn)練時(shí),最小化給定標(biāo)簽序列的后驗(yàn)概率負(fù)對(duì)數(shù)值即可,損失函數(shù)如下:

      CTC 簡(jiǎn)單有效,成為最早也是最廣泛應(yīng)用的端到端語(yǔ)音識(shí)別技術(shù)。最近有研究表明,CTC 損失函數(shù)不僅能作為ASR 端到端模型的優(yōu)化目標(biāo),還能將其擴(kuò)展到編碼器網(wǎng)絡(luò)的底層,用來(lái)加強(qiáng)對(duì)編碼器前端網(wǎng)絡(luò)的約束,提高模型的收斂速度與魯棒性,達(dá)到正則化的目的[18-19],這種方法被稱(chēng)為Intermediate CTC。在模型訓(xùn)練時(shí)取編碼器的中間層輸出作為額外的CTC 損失值,與編碼器最后層的損失共同優(yōu)化模型,計(jì)算方式如下:

      其中:ω為超參數(shù);Xl、Xl/2分別表示堆疊塊數(shù)為l的編碼器中第l層與第l/2 層的輸出序列。

      2 DRB 方法

      2.1 DRB 方法流程

      CTC 模型的尖峰現(xiàn)象如圖1 所示,橫軸表示語(yǔ)音特征序列,縱軸表示每幀對(duì)應(yīng)每個(gè)字符(建模單元為字)的概率,不同曲線表示不同的字符(類(lèi)別),其中,[空白幀]表示CTC 引入的空白字符。圖1 中語(yǔ)音特征共61幀,對(duì)應(yīng)的文本信息為“加速識(shí)別解碼”。

      圖1 CTC 尖峰現(xiàn)象示意圖Fig.1 Schematic diagram of the CTC spike phenomenon

      CTC 尖峰現(xiàn)象是指模型輸出的后驗(yàn)概率序列中某一幀的后驗(yàn)概率集中在某一個(gè)詞(類(lèi))上,而不是分散在幾個(gè)詞中。根據(jù)CTC 模型最大化給定序列對(duì)應(yīng)后驗(yàn)概率的優(yōu)化準(zhǔn)則,可以將其理解為模型對(duì)尖峰幀比其他幀有更確定的判斷。如果空白幀的概率越大,就表明這一幀的聲學(xué)特征包含的文本信息越不豐富,僅為空白信息,即編碼器輸出特征中的連續(xù)空白幀是不重要的聲學(xué)特征,而非空白幀中會(huì)包含相鄰區(qū)域中更顯著、有用的文本信息。因此,通過(guò)去除這些連續(xù)空白冗余幀,可以實(shí)現(xiàn)對(duì)編碼器輸出聲學(xué)特征序列的有效壓縮,即編碼特征的緊湊型表達(dá)。然而,并不是所有空白幀都是毫無(wú)意義的,根據(jù)CTC的建模假設(shè),它可以作為詞音頻信息片段解碼時(shí)的重要分界標(biāo)志。因此,在去除冗余幀時(shí)應(yīng)適當(dāng)保留部分空白幀。

      本文提出編碼特征的緊湊型表達(dá)處理方式——DRB。DRB 作用于模型的編碼器輸出端,依靠CTC尖峰序列去除編碼輸出特征中的冗余部分,實(shí)現(xiàn)對(duì)解碼聲學(xué)特征的緊湊型表達(dá),進(jìn)而減小解碼器的計(jì)算量,提高解碼效率。DRB 方法流程如圖2 所示。

      2.2 模型結(jié)構(gòu)

      為了確保模型擁有較好的識(shí)別性能以及較快的收斂速度,本文網(wǎng)絡(luò)模型主體使用CTC/AED 多任務(wù)學(xué)習(xí)結(jié)構(gòu)的Conformer[16]。使用DRB 方法的模型結(jié)構(gòu)如圖3所示,由Conformer 編碼器[20]、CTC模塊、DRB 處理層和Transformer 解碼器等4 個(gè)部分組成。

      圖3 使用DRB 方法的Conformer 模型結(jié)構(gòu)Fig.3 Conformer model structure using DRB method

      Conformer 編碼器通過(guò)添加卷積層增強(qiáng)Transformer 編碼器捕獲語(yǔ)音序列局部信息的能力,使它能更適合語(yǔ)音與音頻建模[21]。CTC 模塊主要由全連接層和Softmax 函數(shù)組成的分類(lèi)器構(gòu)成,它與CTC Loss 函數(shù)組合,用于在訓(xùn)練時(shí)計(jì)算編碼器的CTC 損失值,該值以多任務(wù)學(xué)習(xí)的形式輔助模型訓(xùn)練。在模型預(yù)測(cè)時(shí),通過(guò)分類(lèi)器得到編碼器輸出的尖峰序列,用于DRB 層實(shí)現(xiàn)對(duì)編碼器輸出的緊湊型表達(dá),或進(jìn)行模型的CTC 解碼。DRB 方法的計(jì)算過(guò)程如圖2 所示,根據(jù)CTC 分類(lèi)器剔除不包含豐富文本信息的冗余聲學(xué)幀,實(shí)現(xiàn)對(duì)編碼器輸出特征序列去冗余的目的。因?yàn)镈RB 中涉及的神經(jīng)網(wǎng)絡(luò)層運(yùn)算只是復(fù)用CTC 模塊中的全連接層進(jìn)行分類(lèi),所以該方法并沒(méi)有為模型增加額外的可學(xué)習(xí)參數(shù)。DRB沒(méi)有改變模型參數(shù)的復(fù)雜度,用于CTC/AED 結(jié)構(gòu)時(shí)僅需微調(diào)訓(xùn)練即可使用。使用Transformer 解碼器,它由文本詞嵌入層、相對(duì)位置編碼模塊、Transformer解碼塊(見(jiàn)第1.1 節(jié))、Softmax 分類(lèi)器組成。

      2.3 模型訓(xùn)練

      因?yàn)镈RB 方法依賴(lài)于CTC 產(chǎn)生的尖峰序列來(lái)實(shí)現(xiàn)編碼器聲學(xué)特征的緊湊型表達(dá),所以尖峰序列中空白幀判斷是否準(zhǔn)確對(duì)模型最終的識(shí)別結(jié)果至關(guān)重要。為此,通過(guò)預(yù)訓(xùn)練加微調(diào)的方式來(lái)訓(xùn)練使用DRB 方法的Conformer 模型,減少模型的盲目對(duì)齊訓(xùn)練,加快模型收斂速度。同時(shí),為了減小錯(cuò)誤刪除部分聲學(xué)特征幀帶來(lái)的模型識(shí)別精度損失,使用Intermediate CTC 來(lái)增強(qiáng)網(wǎng)絡(luò)對(duì)模型編碼器的約束,提高CTC 尖峰序列的準(zhǔn)確度。模型訓(xùn)練過(guò)程如下:

      1)預(yù)訓(xùn)練。首先不 添加DRB層,Conformer 模型與普通多任務(wù)模型(CTC/Attention)訓(xùn)練方式一樣,損失函數(shù)計(jì)算如下:

      其中:λ是超參數(shù);Lctc是編碼器的CTC 損失值;Latt是解碼器的CE 損失值。

      如果使用Intermediate CTC 來(lái)增強(qiáng)模型對(duì)編碼器的約束,則模型訓(xùn)練損失函數(shù)Lctc應(yīng)改為L(zhǎng)CTC_loss[見(jiàn)式(5)],網(wǎng)絡(luò)結(jié)構(gòu)無(wú)須更改。

      2)微調(diào)。凍結(jié)網(wǎng)絡(luò)中編碼器與CTC 分類(lèi)器模塊的模型參數(shù),使其不參與模型參數(shù)的更新訓(xùn)練。添加DRB 處理層,使用處理后的編碼聲學(xué)特征參與解碼器的計(jì)算。在預(yù)訓(xùn)練模型的基礎(chǔ)上再次訓(xùn)練解碼器,使解碼器適應(yīng)DRB 處理后編碼器輸出的改變,避免出現(xiàn)模型訓(xùn)練不匹配的問(wèn)題。因此,微調(diào)模型只需要使用交叉熵?fù)p失函數(shù)來(lái)優(yōu)化解碼器參數(shù),即將式(6)中的λ參數(shù)賦值為0,即可得到微調(diào)訓(xùn)練的模型損失函數(shù)。

      3 實(shí)驗(yàn)結(jié)果與分析

      3.1 實(shí)驗(yàn)數(shù)據(jù)集

      實(shí)驗(yàn)開(kāi)源數(shù)據(jù)集包括中文語(yǔ)音數(shù)據(jù)集AISHELL-1[17]與英文數(shù)據(jù)集LibriSpeech。前者由150 h 的訓(xùn)練集、10 h 的驗(yàn)證集以及5 h 的測(cè)試集數(shù)據(jù)構(gòu)成,字表由訓(xùn)練集中得到的4 230 個(gè)漢字組成;后者包括960 h 的訓(xùn)練集,驗(yàn)證集與測(cè)試集均是5.4 h,詞表是使用字節(jié)對(duì)編碼算法在訓(xùn)練文本中提取的5 000 個(gè)詞。

      3.2 實(shí)驗(yàn)環(huán)境

      硬件配置:中央處理器AMD?R6930K,運(yùn)行內(nèi)存64 GB;顯卡型號(hào)NVIDIA GeForce GTX 2080。

      軟件環(huán)境:操作系統(tǒng)64 位Ubuntu18.04,深度學(xué)習(xí)框架PyTorch1.10。

      軟件工具包 采用WeNet[16],與Kaldi[22]和ESPnet[23]相比,WeNet 完全基于PyTorch 生態(tài),擁有更簡(jiǎn)潔的語(yǔ)音識(shí)別模型框架,并且對(duì)AED 模型有更好的優(yōu)化效果,有利于開(kāi)展模型的對(duì)比實(shí)驗(yàn)。

      3.3 實(shí)驗(yàn)設(shè)置

      對(duì)于所有實(shí)驗(yàn),語(yǔ)音輸入特征使用80 維的FBank 信號(hào),幀長(zhǎng)為25 ms,幀移為10 ms。在訓(xùn)練過(guò)程中使用2 種常用的數(shù)據(jù)擴(kuò)充手段,即隨機(jī)速度擾動(dòng)和SpecAugment[24],分別是在[0.9,1.1]中隨機(jī)選取速度擾動(dòng)值做時(shí)域信號(hào)處理,以及對(duì)每個(gè)FBank信號(hào)在時(shí)域與頻率方向都做2 個(gè)隨機(jī)掩碼,最大掩碼寬度時(shí)域T=50,頻域F=10。語(yǔ)音特征進(jìn)入編碼器之前,進(jìn)行倒譜均值方差歸一化(CMVN)處理,并通過(guò)由2 層2D 卷積組成的下采樣層降低模型計(jì)算量,卷積核大小為3×3,步長(zhǎng)為2。訓(xùn)練時(shí)使用Adam 優(yōu)化器,學(xué)習(xí)率調(diào)整器的預(yù)熱訓(xùn)練步為25 000。模型的最優(yōu)參數(shù)使用訓(xùn)練收斂后驗(yàn)證集中損失值最低的20 個(gè)輪次的平均值。

      Conformer 編碼器堆疊塊個(gè)數(shù)為12,解碼器堆疊塊個(gè)數(shù)為6,多頭自注意力層頭個(gè)數(shù)為4,注意力編碼維度為256,前饋網(wǎng)絡(luò)隱藏層單元個(gè)數(shù)為2 048,多任務(wù)學(xué)習(xí)的權(quán)重系數(shù)λ=0.3,μ=0.7,Intermediate CTC 共2層,其間隔為4,這2層的權(quán)重分別為0.3、0.7。

      實(shí)驗(yàn)使用2 種不同的解碼方式來(lái)驗(yàn)證所提DRB方法對(duì)Transformer 解碼的加速效果,一種是結(jié)合波束搜索的傳統(tǒng)自回歸解碼方式,另一種是兩階段重打分的非自回歸解碼方式。

      3.4 結(jié)果分析

      在測(cè)試集上對(duì)模型進(jìn)行性能評(píng)估,中文與英文分別使用字錯(cuò)率(Character Error Rate,CER)、詞錯(cuò)率(Word Error Rate,WER)作為識(shí)別準(zhǔn)確率的評(píng)價(jià)指標(biāo),結(jié)果保留2 位小數(shù)。使用Batch_size=1時(shí),將模型推理時(shí)的實(shí)時(shí)率RTF 作為解碼速度的衡量指標(biāo),結(jié)果保留4 位小數(shù)。S-D-I 為計(jì)算CER 的編輯距離時(shí)產(chǎn)生的錯(cuò)誤字個(gè)數(shù),錯(cuò)誤類(lèi)型分別是替換、刪除、插入。CERR、RTFR 分別是DRB 方法對(duì)模型CER 與RTF 改善的相對(duì)百分比值。實(shí)驗(yàn)解碼器的波束搜索參數(shù)Beam_size 默認(rèn)為10。

      為了更好地探究DRB 對(duì)Transformer 自回歸解碼的改善效果,在CPU 與GPU 上分別進(jìn)行測(cè)試,實(shí)驗(yàn)結(jié)果如表1 所示。

      表1 AISHELL-1 中DRB 對(duì)Transformer 自回歸解碼的改善效果Table 1 Improvement effect of DRB on Transformer autoregressive decoding in AISHELL-1

      從表1 可以得出:

      1)觀察RTFR 指標(biāo)可以看出在CPU 上DRB 方法能將解碼速度平均提高20%左右,但是DRB 方法在GPU 設(shè)備上卻沒(méi)有提升效果,RTF 反而有輕微的下降,最差的RTFR 為-1.2%。導(dǎo)致這種結(jié)果的原因可能是DRB 方法通過(guò)壓縮編碼特征序列的長(zhǎng)度,減小解碼器交叉注意力層的矩陣運(yùn)算量,從而加快解碼計(jì)算過(guò)程,這對(duì)沒(méi)有矩陣加速運(yùn)算的CPU 或其他微處理器設(shè)備而言,能在反復(fù)迭代計(jì)算的過(guò)程中提升解碼速度,但是對(duì)于擅長(zhǎng)矩陣運(yùn)算的GPU 而言卻沒(méi)有改善效果,反而會(huì)因?yàn)镈RB 方法導(dǎo)致額外的計(jì)算開(kāi)銷(xiāo),從而使得RTF 輕微變大。

      2)觀察使用DRB 方法后的CER 指標(biāo)可以看出,DRB 方法對(duì)2 組Conformer 模型的CER 值分別提升3.9%與1.8%,模型識(shí)別準(zhǔn)確率有輕微下降。這表明DRB 在提高解碼速度的同時(shí)對(duì)模型識(shí)別精度有一定損失。通過(guò)S-D-I 結(jié)果可以看出,“刪除錯(cuò)誤”為錯(cuò)誤增加的主要類(lèi)型,分析其原因可能是:DRB 是下采樣處理,在剔除缺乏文本信息的冗余幀的同時(shí)也剔除了其中部分帶有文本信息的幀或不正確剔除了有用幀(尖峰序列不準(zhǔn)確),使Transformer 解碼器在解碼時(shí)缺失部分聲學(xué)特征幀信息從而產(chǎn)生額外的刪除錯(cuò)誤,又因?yàn)樽曰貧w解碼的性質(zhì)導(dǎo)致模型在后續(xù)解碼過(guò)程中增加了一些其他類(lèi)型的錯(cuò)誤。

      3)從實(shí)驗(yàn)結(jié)果中還可以看出,使用Intermediate CTC 加強(qiáng)模型對(duì)編碼器的約束,不僅顯著提高了模型的魯棒性,還降低了DRB 給模型精度帶來(lái)的損失,精度損失減小一半。這是因?yàn)镈RB 方法依賴(lài)模型CTC 尖峰序列來(lái)判斷是否去除冗余幀,當(dāng)使用Intermediate CTC 增強(qiáng)對(duì)編碼器的約束后,CTC 尖峰序列準(zhǔn)確性得到提升,DRB 就能更準(zhǔn)確地去除冗余幀,減少識(shí)別精度損失。

      由于兩階段重打分的非自回歸解碼方法在推理時(shí)只進(jìn)行一次Transformer 解碼器的前向計(jì)算,因此只在解碼器交叉注意力層中使用DRB,并不會(huì)給模型帶來(lái)較好的解碼加速收益。因此,在兩階段重打分解碼方式的第一個(gè)解碼步驟中,也使用DRB 處理后得到的壓縮特征作為前綴波束解碼的輸入,在GPU 上的實(shí)驗(yàn)結(jié)果如表2~表4 所示,表4 中Conf 指Conformer+Inter CTC 模型。

      表2 AISHELL-1 中DRB 對(duì)Transformer 非自回歸解碼的改善效果Table 2 Improvement effect of DRB on Transformer non-autoregressive decoding in AISHELL-1

      表3 LibriSpeech 中DRB 對(duì)Transformer 非自回歸解碼的改善效果Table 3 Improvement effect of DRB on Transformer non-autoregressive decoding in LibriSpeech

      表4 AISHELL-1 中DRB 在不同Beam_size 下非自回歸解碼的RTFTable 4 RTF of DRB for non-autoregressive decoding at different Beam_size in AISHELL-1

      結(jié)合表2~表4 的實(shí)驗(yàn)結(jié)果可以看出:

      1)與DRB 對(duì)自回歸解碼方式的改善結(jié)果不同,將DRB 用于重打分非自回歸解碼方式上時(shí),模型在GPU 上的推理速度也能得到顯著提升,2 個(gè)數(shù)據(jù)集中RTF 均提高58%左右。結(jié)合表4 可以看到,這種提升幅度隨著參數(shù)Beam_size 的大小而有所改變,但是整體上是有明顯的解碼加速效果。兩階段重打分的非自回歸方法因?yàn)門(mén)ransformer 解碼器只運(yùn)行一遍,所以解碼的大部分時(shí)間開(kāi)銷(xiāo)在第一階段的CTC 前綴波束搜索解碼過(guò)程中產(chǎn)生。將DRB 處理后的特征序列用于第一階段解碼時(shí),波束法的搜索路徑變短,縮短了這一過(guò)程的耗時(shí),進(jìn)而加快了整個(gè)解碼過(guò)程。Beam_size 越大,解碼搜索的路徑越寬,識(shí)別精度得到改善的同時(shí)解碼耗時(shí)會(huì)顯著增加,此時(shí)DRB 的改善效果就會(huì)越顯著。

      2)非自回歸解碼方式上的識(shí)別準(zhǔn)確率與自回歸解碼中結(jié)果相似,因?yàn)镈RB 使得特征序列中某部分特征幀被刪除,導(dǎo)致重打分的第一階段解碼時(shí)缺少了部分有用幀,模型刪除錯(cuò)誤隨之增加。然而,DRB刪除部分冗余特征幀后,使得重打分階段Transformer 的注意力層能更好地關(guān)注有用幀信息,這在一定程度上降低了模型替換類(lèi)型錯(cuò)誤的產(chǎn)生,使得模型識(shí)別精度得到改善。

      為進(jìn)一步驗(yàn)證DRB 對(duì)Transformer 解碼性能的提升效果,將其與其他端到端模型進(jìn)行對(duì)比,實(shí)驗(yàn)結(jié)果如表5、表6 所示。

      表5 AISHELL-1 上不同Transformer 解碼模型的對(duì)比實(shí)驗(yàn)結(jié)果Table 5 Comparative experimental results of different Transformer decoding models on AISHELL-1

      表6 LibriSpeech 上不同Transformer 解碼模型的對(duì)比實(shí)驗(yàn)結(jié)果Table 6 Comparative experimental results of different Transformer decoding models on LibriSpeech

      表5、表6 是使用DRB 的重打分解碼模型與其他Transformer 解碼模型的對(duì)比實(shí)驗(yàn)結(jié)果。本文使用的NVIDIA GeForce GTX 2080 硬件推理性能略高于Paraformer 與Improved CASS-NAT 模型使用的NVIDIA Tesla V100設(shè)備,低于LASO-BERT使用 的NVIDIA GeForce GTX 2080TI,但是本文使用的方法能取得更優(yōu)的性能。AL-NAT(S)使用NVIDIA Tesla P4 設(shè)備,與本文模型取得的RTF 結(jié)果相近,但是CER 值卻明顯提高。因此,與對(duì)比Transformer 模型相比,使用DRB 加速后的兩階段重打分解碼方法具有更快、更好的識(shí)別性能。

      4 結(jié)束語(yǔ)

      本文提出一種丟棄冗余空白塊的Transformer 解碼加速方法,以CTC/AED 結(jié)構(gòu)為基礎(chǔ),利用CTC 分類(lèi)器的尖峰序列去除編碼器特征中冗余的空白幀,減小解碼器的計(jì)算量,僅通過(guò)微調(diào)訓(xùn)練就可以有效地提高解碼效率。在AISHELL-1 與LibriSpeech 數(shù)據(jù)集上進(jìn)行實(shí)驗(yàn),結(jié)果驗(yàn)證了所提方法在高信噪比數(shù)據(jù)集上的有效性。下一步將針對(duì)額外噪聲環(huán)境下CTC 性能下降導(dǎo)致DRB 方法誤差變大的問(wèn)題進(jìn)行研究,在不損失識(shí)別精度的前提下提高解碼效率。

      猜你喜歡
      解碼器聲學(xué)解碼
      《解碼萬(wàn)噸站》
      科學(xué)解碼器(一)
      科學(xué)解碼器(二)
      科學(xué)解碼器(三)
      愛(ài)的就是這股Hi-Fi味 Davis Acoustics(戴維斯聲學(xué))Balthus 70
      線圣AudioQuest 發(fā)布第三代Dragonfly Cobalt藍(lán)蜻蜓解碼器
      解碼eUCP2.0
      Acoustical Treatment Primer:Diffusion談?wù)劼晫W(xué)處理中的“擴(kuò)散”
      NAD C368解碼/放大器一體機(jī)
      Acoustical Treatment Primer:Absorption談?wù)劼晫W(xué)處理中的“吸聲”(二)
      双桥区| 宝山区| 乌拉特前旗| 武鸣县| 光山县| 双流县| 桦甸市| 通渭县| 凤冈县| 金坛市| 来凤县| 阿坝县| 盐山县| 玉山县| 从江县| 东城区| 鹰潭市| 涪陵区| 浙江省| 遂溪县| 铅山县| 历史| 阿尔山市| 阳信县| 沈阳市| 虹口区| 江孜县| 天全县| 富平县| 永平县| 三亚市| 公主岭市| 苏尼特左旗| 庆安县| 包头市| 涟水县| 塘沽区| 黄龙县| 巴塘县| 天台县| 新竹县|