曹中輝,黃志華,葛文萍,黃 浩
(新疆大學(xué)信息科學(xué)與工程學(xué)院,信號(hào)檢測與處理新疆維吾爾自治區(qū)重點(diǎn)實(shí)驗(yàn)室,新疆烏魯木齊830001)
語音增強(qiáng)[1]是從帶噪信號(hào)中恢復(fù)出原始信號(hào)的一種信號(hào)處理技術(shù)。譜減法、維納濾波等基于統(tǒng)計(jì)模型的方法是語音增強(qiáng)領(lǐng)域中廣泛使用的經(jīng)典方法[2-4],但是傳統(tǒng)語音增強(qiáng)方法對于非平穩(wěn)噪聲的增強(qiáng)效果有限。近些年來,深度學(xué)習(xí)技術(shù)在語音增強(qiáng)領(lǐng)域取得顯著進(jìn)步,基于降噪自編碼器,深度神經(jīng)網(wǎng)絡(luò)(Deep Neural Network, DNN)、卷積神經(jīng)網(wǎng)絡(luò)(Convolutional Neural Network, CNN)、長短時(shí)記憶網(wǎng)絡(luò)(Long Short-Term Memory, LSTM)的語音增強(qiáng)方法先后被提出[5-8],這些基于深度神經(jīng)網(wǎng)絡(luò)的增強(qiáng)模型能有效抑制非平穩(wěn)噪聲。2014 年,Goodfellow 等[9]提出生成對抗網(wǎng)絡(luò)(Generative Adversarial Network, GAN)。2017年,Santiago等[10]將 GAN應(yīng)用在語音增強(qiáng)上,提出一種端到端的GAN語音增強(qiáng)框架(Speech Enhancement GAN,SEGAN),在客觀和主觀測評(píng)指標(biāo)上均優(yōu)于傳統(tǒng)維納濾波方法。Daniel等[11]提出條件GAN (Conditional GAN, cGAN)結(jié)構(gòu)進(jìn)行語音增強(qiáng),測評(píng)結(jié)果在主觀語音質(zhì)量評(píng)估(Perceptual Evaluation of Speech Quality, PESQ)指標(biāo)上優(yōu)于基于最小均方誤差的短時(shí)幅度譜增強(qiáng)方法(Short-time Spectral Amplitude Minimum Mean Square Error, STSA-MMSE)和基于DNN的理想比值掩模(Ideal Ratio Mask, IRM)增強(qiáng)算法。2018年,Li等[12]將GAN應(yīng)用在語音去混響上,與權(quán)重預(yù)測誤差(Weighted Prediction Error,WPE)系統(tǒng)和基于 DNN的去混響方法相比,PESQ和語音混響調(diào)制能量比(Speech to Reverberation Modulation Energy Ratio, SRMR)值更高?,F(xiàn)有增強(qiáng)方法雖然取得有效的增強(qiáng)效果,但均采用單一語言數(shù)據(jù)對增強(qiáng)模型進(jìn)行訓(xùn)練,并未探討單一語言增強(qiáng)模型對新語言語音的增強(qiáng)效果。2014年,Xu等[13]對基于DNN語音增強(qiáng)框架進(jìn)行模型遷移實(shí)現(xiàn)了跨語言語音增強(qiáng),對于低資源新語言語音的增強(qiáng)效果優(yōu)于低資源單語言語音訓(xùn)練出的模型。2017年,Santiago等[14]用SEGAN遷移學(xué)習(xí)模型對新語言帶噪語音進(jìn)行去噪,采用英語單語言增強(qiáng)模型對網(wǎng)絡(luò)進(jìn)行參數(shù)初始化,低資源語音采用韓語和加泰羅尼亞語,以遷移學(xué)習(xí)的方式訓(xùn)練 SEGAN,對低資源帶噪語音的去噪效果與直接用低資源語音數(shù)據(jù)訓(xùn)練的 SEGAN相比,在評(píng)測指標(biāo)分段信噪比(Segmental Signal Noise Ratio, SSNR)上提升了10 dB,PESQ值提升了將近1。
研究表明,在卷積神經(jīng)網(wǎng)絡(luò)中引入注意力機(jī)制可進(jìn)一步提升網(wǎng)絡(luò)的分類準(zhǔn)確性[15-16]。本文提出一種在生成對抗網(wǎng)絡(luò)中引入注意力機(jī)制的遷移學(xué)習(xí)模型(Attention Transfer Learning Generative adversarial Network, ATGAN),有效提高了低資源語言場景下少量語音的去噪效果。
GAN是一種基于生成對抗思想訓(xùn)練的神經(jīng)網(wǎng)絡(luò)模型,由生成模型(Generator)G和判別模型(Discriminator)D兩部分組成。GAN的結(jié)構(gòu)圖如圖1所示。
圖1 生成對抗網(wǎng)絡(luò)(GAN)的結(jié)構(gòu)圖Fig.1 GAN structure diagram
G將隨機(jī)噪聲生成盡可能符合真實(shí)數(shù)據(jù)分布的數(shù)據(jù),D負(fù)責(zé)區(qū)分輸入數(shù)據(jù)是G生成的數(shù)據(jù)還是真實(shí)數(shù)據(jù)。對于給定的真實(shí)數(shù)據(jù)x,D為其打上標(biāo)簽1;對于給定的生成數(shù)據(jù)G(n),D為其打上標(biāo)簽0。在對抗訓(xùn)練過程中,傳給D的生成數(shù)據(jù)G(n),則盡可能讓D為其打上標(biāo)簽1。D將判決結(jié)果誤差傳遞給G模型,直到D對于給定數(shù)據(jù)預(yù)測為真的概率逼近0.5,達(dá)到納什均衡。這一過程可表示為[10]
其中:n表示噪聲,x為真實(shí)數(shù)據(jù)。為了更好地控制生成數(shù)據(jù)的質(zhì)量,常在G和D中加入條件y,此時(shí)目標(biāo)函數(shù)為
GAN語音增強(qiáng)模型中的G即為語音增強(qiáng)部分,可由CNN或者LSTM網(wǎng)絡(luò)構(gòu)成。干凈語音為x,n為帶噪語音,達(dá)到均衡后的G輸出即為增強(qiáng)后的語音。
遷移學(xué)習(xí)是將模型在某一領(lǐng)域?qū)W到的知識(shí)遷移到相近或者不同領(lǐng)域的技術(shù)。遷移學(xué)習(xí)使模型能夠在已有知識(shí)的基礎(chǔ)上快速有效解決新目標(biāo)域的問題,其在機(jī)器學(xué)習(xí)和數(shù)據(jù)挖掘領(lǐng)域具有重要研究價(jià)值[17]。本文提出一種在 GAN網(wǎng)絡(luò)中引入注意力機(jī)制的GAN語音增強(qiáng)遷移學(xué)習(xí)模型(ATGAN),進(jìn)一步提高GAN語音增強(qiáng)遷移學(xué)習(xí)模型對低資源帶噪語音的去噪效果。ATGAN語音增強(qiáng)模型注意力機(jī)制示意圖如圖2所示。
圖2 ATGAN語音增強(qiáng)模型注意力機(jī)制示意圖Fig.2 Attention mechanism in ATGAN speech enhancement model
給定輸入特征圖F,通過通道注意力模塊,得到通道注意力權(quán)重C(F),然后與輸入特征圖相乘,結(jié)果F1送入空間注意力模塊,得到空間注意力權(quán)重S(F1),與中間輸入F1相乘,得到修正后的特征圖F2,數(shù)學(xué)描述為
式(3)、(4)中的?表示點(diǎn)乘。C表示通道注意力模塊映射函數(shù),S表示空間和注意力模塊映射函數(shù)。
生成模型G由22層包含跳躍連接的對稱U型卷積和反卷積層構(gòu)成[18]。網(wǎng)絡(luò)結(jié)構(gòu)如圖3所示。
圖3 ATGAN語音增強(qiáng)模型生成模型G的結(jié)構(gòu)Fig.3 Structure of generator G in ATGAN speech enhancement model
音頻數(shù)據(jù)經(jīng)過預(yù)處理,送入G的維度為16 384×1,卷積操作為一維卷積,激活函數(shù)為Prelu,卷積核寬為31,步長為2。卷積部分結(jié)束輸出維度為 8×1 024,然后從相應(yīng)維度的標(biāo)準(zhǔn)正態(tài)分布中采樣,與卷積結(jié)果拼接,送入與卷積部分對稱的反卷積網(wǎng)絡(luò)。
D的結(jié)構(gòu)如圖4所示,由編碼和注意力模塊組成,編碼部分為9層下采樣卷積層,由一維反卷積和正則化層構(gòu)成,激活函數(shù)為Lrelu,卷積核大小為31,步長為 2。下采樣結(jié)束得到 8×1 024維度的編碼結(jié)果,送入注意力模塊,經(jīng)過最大池化和平均池化以及sigmoid函數(shù)操作,得到經(jīng)通道注意力權(quán)重修正后的特征圖,然后結(jié)果經(jīng)過最大池化和平均池化處理后進(jìn)行拼接,再送入一維卷積,卷積核大小為 7,個(gè)數(shù)為 1,得到經(jīng)空間注意力權(quán)重修正的特征圖,最后得到更為準(zhǔn)確的分類結(jié)果,流程圖如圖5所示。
圖4 ATGAN語音增強(qiáng)模型判別模型D的結(jié)構(gòu)Fig.4 Structure of discriminator D in ATGAN speech enhancement model
圖5 注意力模塊結(jié)構(gòu)流程圖Fig.5 Structure flowchart of attention module
參考文獻(xiàn)[19],損失函數(shù)(loss)設(shè)計(jì)如下:
生成對抗網(wǎng)絡(luò)引入注意力機(jī)制后,通過高資源(文中的資源是指訓(xùn)練模型數(shù)據(jù)資源的豐富程度,高資源指訓(xùn)練數(shù)據(jù)充足的場景,低資源是指訓(xùn)練數(shù)據(jù)非常少的場景,直接采用低資源場景下的訓(xùn)練模型無法達(dá)到較好的增強(qiáng)效果)語音數(shù)據(jù)訓(xùn)練得到網(wǎng)絡(luò)權(quán)重參數(shù)更為合理的預(yù)訓(xùn)練模型,然后采用低資源場景下的少量語音數(shù)據(jù),對預(yù)訓(xùn)練模型進(jìn)行權(quán)重遷移,得到引入注意力機(jī)制的GAN語音增強(qiáng)遷移學(xué)習(xí)模型。
為了評(píng)估和分析本文提出的ATGAN語音增強(qiáng)模型對低資源語音的去噪效果,采用英語數(shù)據(jù)訓(xùn)練的模型遷移到對維吾爾語進(jìn)行增強(qiáng)的ATGAN上。英語數(shù)據(jù)集采用Voice Bank語料庫[20],訓(xùn)練集由28位說話人組成,包括14位男性、14位女性;為了獲得帶噪語音數(shù)據(jù)集,從 Demand數(shù)據(jù)集中選擇kitchen,field,washing,station,river,park,hallway,meeting,restaurant,traffic,metro 11 種噪聲[21],分別以0、5、10、15 dB的信噪比與干凈語音合成,得到帶噪語音訓(xùn)練集,共11 572條。維吾爾語數(shù)據(jù)集采用THUYG-20[22],帶噪語音訓(xùn)練集的合成方法及噪聲條件與英語帶噪語音一致,共300條維吾爾語帶噪語音;測試集從Demand數(shù)據(jù)集中選擇bus,cafeteria,square,living,office 5 種噪聲類型(不在訓(xùn)練集內(nèi)),以2.5、7.5、12.5、17.5 dB的信噪比與干凈語音合成得到。
ATGAN網(wǎng)絡(luò)參數(shù)設(shè)置如下:學(xué)習(xí)率為0.000 2,批大小為 100,迭代期數(shù)(epoch)大小為 340。優(yōu)化算法采用RMSprop算法[23]。
為了評(píng)估ATGAN語音增強(qiáng)模型的去噪效果,我們采用對數(shù)譜距離(Log Spectral Distance, LSD),PESQ、短時(shí)客觀可懂度(Short-Time Objective Intelligibility, STOI) 3種客觀評(píng)價(jià)指標(biāo),LSD越小,表明增強(qiáng)效果越好,PESQ和STOI越大,表明增強(qiáng)效果越好。
為了評(píng)估ATGAN語音增強(qiáng)模型的去噪性能,基線模型采用遷移學(xué)習(xí) SEGAN(TSEGAN)作為對比實(shí)驗(yàn)算法,實(shí)驗(yàn)結(jié)果如表 1~3所示。從表中可看出,ATGAN語音增強(qiáng)模型增強(qiáng)效果均優(yōu)于TSEGAN模型,ATGAN可進(jìn)一步提升對低資源帶噪語音的增強(qiáng)效果,語音的客觀質(zhì)量、感知效果和可懂度均有提高。分析認(rèn)為,在遷移學(xué)習(xí)生成對抗網(wǎng)絡(luò)中引入注意力機(jī)制,經(jīng)語音數(shù)據(jù)訓(xùn)練得到的預(yù)訓(xùn)練模型的權(quán)重參數(shù)更為合理,然后進(jìn)行權(quán)重遷移,注意力機(jī)制有助于生成模型重點(diǎn)關(guān)注和捕獲噪聲與純凈語音之間的關(guān)系,降低語種因素對重建干凈語音的影響。
表1 ATGAN和TSEGAN的LSD指標(biāo)比較Table 1 LSD comparison between ATGAN and TSEGAN
表2 ATGAN和TSEGAN的PESQ指標(biāo)比較Table 2 PESQ comparison between ATGAN and TSEGAN
表3 ATGAN和TSEGAN的STOI指標(biāo)比較Table 3 STOI comparison between ATGAN and TSEGAN
為了驗(yàn)證ATGAN語音增強(qiáng)模型的增強(qiáng)性能對不同類型、不同信噪比噪聲的遷移魯棒性,分析了五種噪聲在四種信噪比下的增強(qiáng)效果,結(jié)果如圖 6所示,圖中實(shí)線表示ATGAN語音增強(qiáng)模型的去噪結(jié)果,圖注中用(at)表示,虛線表示直接采用SEGAN模型訓(xùn)練的得到的去噪結(jié)果,圖注中用(se)表示。從圖6中的LSD和PESQ指標(biāo)可看出,對于bus,office,square噪聲,模型的增強(qiáng)結(jié)果最優(yōu),而cafe噪聲的遷移效果最差。通過頻譜分析,發(fā)現(xiàn)bus噪聲的能量主要分布在0~1 000 Hz頻率段,而cafe噪聲不僅在0~1 000 Hz的頻率段內(nèi)能量較高,在1 000~2 000 Hz內(nèi)也具有較高的能量,而且分布更為均勻,這可能是兩種噪聲遷移去噪效果有差別的原因之一。從測試曲線圖中還可看出,信噪比越低,模型的提升效果越明顯。
圖6 ATGAN語音增強(qiáng)模型對不同噪聲的去噪效果Fig.6 Denoising effects of ATGAN speech enhancement model on different noises
本文提出一種引入注意力機(jī)制的GAN語音增強(qiáng)遷移學(xué)習(xí)模型,利用已有語言語音訓(xùn)練的增強(qiáng)模型,再結(jié)合極少量的新語言語音資源對模型進(jìn)行訓(xùn)練,可以對新語言低信噪比語音進(jìn)行有效增強(qiáng),提高增強(qiáng)后語音的質(zhì)量。同時(shí),訓(xùn)練GAN語音增強(qiáng)模型的時(shí)間和所需數(shù)據(jù)量均大大減少。實(shí)驗(yàn)結(jié)果表明,ATGAN語音增強(qiáng)模型相對于 SEGAN遷移學(xué)習(xí)模型,去噪后語音的感知質(zhì)量和可懂度都有進(jìn)一步提升。本文也討論了ATGAN在不同信噪比下對不同噪聲的遷移增強(qiáng)性能,結(jié)果表明,ATGAN對集外噪聲有更好的去噪效果。本文結(jié)論可為建立低資源新語言場景下的語音增強(qiáng)模型提供參考。在今后的工作中,將進(jìn)一步研究采用生成對抗網(wǎng)絡(luò)不同層進(jìn)行權(quán)重遷移對語音增強(qiáng)效果的影響。