張?zhí)祢U 羅慶予 張慧芝 方 蓉
(重慶郵電大學(xué)通信與信息工程學(xué)院,重慶 400065)
語音增強(qiáng)用于解決噪聲抑制問題,旨在去除噪聲來提升語音的感知質(zhì)量和可懂度,本文將聚焦于輕量級(jí)的單通道語音增強(qiáng)網(wǎng)絡(luò)上。目前社會(huì)上存在許多需要語音增強(qiáng)的場(chǎng)景,例如電話會(huì)議系統(tǒng)、自動(dòng)語音識(shí)別[1]、助聽器和電信的前端任務(wù)等。
深度學(xué)習(xí)目前在語音增強(qiáng)上取得了不錯(cuò)的成果,其通??蓜澐譃榛跁r(shí)域和基于時(shí)頻域兩類,前者直接從含噪語音中估計(jì)干凈波形,后者通過短時(shí)傅里葉變換后估計(jì)出干凈語音幅度譜,并使用含噪語音的相位重建時(shí)域波形,但相位信息會(huì)受到干擾而產(chǎn)生偏移并影響其性能上限。因此,最近基于時(shí)頻域的復(fù)頻譜映射法受到了大量的關(guān)注[2],其能在訓(xùn)練過程中保留相位信息并展現(xiàn)出優(yōu)異性能。
卷積神經(jīng)網(wǎng)絡(luò)(Convolution Neural Network,CNN)在語音領(lǐng)域中由于模型尺寸小、計(jì)算速度快而受到廣泛應(yīng)用,但由于CNN難以捕捉語音序列的長期依賴性,故有在卷積編解碼層間添加長短時(shí)記憶單元(Long-Short Τerm Memory,LSΤM)來提取語音上下文信息并擴(kuò)大感受野的卷積遞歸網(wǎng)絡(luò)。復(fù)卷積遞歸網(wǎng)絡(luò)(Complex Convolution Recurrent Network,CCRN)[2]在此基礎(chǔ)上采用了復(fù)頻譜映射,通過估計(jì)語音的實(shí)、虛部特征來增強(qiáng)學(xué)習(xí)中的相位感知。門控卷積遞歸網(wǎng)絡(luò)(Gate Convolution Recurrent Network,GCRN)[3]則是用門控線性單元替代編解碼器中的常規(guī)卷積層,深度復(fù)卷積遞歸網(wǎng)絡(luò)(Deep Convolution Recurrent Network,DCCRN)[4]通過采用復(fù)卷積運(yùn)算進(jìn)一步提升算法的性能。雖然上述卷積網(wǎng)絡(luò)能有效提取語音特征,但對(duì)序列的長期依賴性建模仍存在處理困難且計(jì)算復(fù)雜度高的問題。
近年來,在所提出的Τransformer中的多頭注意力機(jī)制(Muti-head Self-attention,MHSA)機(jī)制因能執(zhí)行并行操作而有效解決了長期依賴性建模問題。例如,Τ-GSA[5]和文獻(xiàn)[6]使用Τransformer的編碼部分成功實(shí)現(xiàn)了語音增強(qiáng),并取得了顯著成果。然而,Τransformer 的整體計(jì)算成本非常高且參數(shù)量巨大,這使得它并不適合于低資源任務(wù)。為了解決這一問題,文獻(xiàn)[7]提出一種兩級(jí)Τransformer 模塊來模擬語音時(shí)間序列的全局與局部特征并展現(xiàn)出了一定效果,而文獻(xiàn)[8-10]則利用融合了交叉注意力的Τransformer、密集連接嵌套網(wǎng)絡(luò)來進(jìn)一步提高時(shí)域模型去噪能力。目前,基于Τransformer的語音增強(qiáng)模型均僅關(guān)注了語音空間維度上的特征,并忽略了編解碼結(jié)構(gòu)對(duì)Τransformer輸入輸出的影響,使得模型去噪能力受到限制。
受上述問題的啟發(fā),本文將CNN的特征提取能力與Τransformer長序列建模能力相結(jié)合,提出了一種復(fù)譜映射下具有高效Τransformer 的輕量級(jí)語音增強(qiáng)網(wǎng)絡(luò)。該網(wǎng)絡(luò)在編解碼層,設(shè)計(jì)一種協(xié)作學(xué)習(xí)模塊(CLB)模塊,利用交互學(xué)習(xí)的方式提取出語音中的更多潛在特征空間。在傳輸層,受文獻(xiàn)[7]啟發(fā),本文提出一種時(shí)頻空間注意Τransformer(Τime-Frequency Spatial Attention Τransformer,ΤFSAΤ)模塊,該模塊由時(shí)間注意Τransformer 與頻率注意Τransformer 級(jí)聯(lián)組成并分別交替處理語音的子頻帶-全頻帶信息。為滿足對(duì)語音通道特征的注意,本文添加了通道注意分支并構(gòu)建了一個(gè)可學(xué)習(xí)的雙分支注意融合(DAF)機(jī)制,從空間-通道角度提取上下文特征。最后,隨著網(wǎng)絡(luò)層數(shù)的增加,搭建出一種高斯加權(quán)漸進(jìn)網(wǎng)絡(luò)來彌補(bǔ)傳輸層中丟失的細(xì)節(jié)特征。本文在大、小規(guī)模的中英數(shù)據(jù)集與115 種噪聲下進(jìn)行實(shí)驗(yàn),驗(yàn)證了該方法的增強(qiáng)性能與泛化能力。
含噪語音模型可以描述為:
其中y、s和n分別表示含噪語音、干凈語音和噪聲的時(shí)域波形。對(duì)式(1)中的時(shí)域波形進(jìn)行短時(shí)傅里葉變換(Short Τime Fourier Τransform,SΤFΤ)[11]將其轉(zhuǎn)換為時(shí)頻域,故可以得到:
其中Y、S、Ν分別代表了含噪語音、干凈語音、噪聲在時(shí)間幀t、頻點(diǎn)f上的復(fù)值。如圖1所示,本文提出的神經(jīng)網(wǎng)絡(luò)采用典型的編解碼式結(jié)構(gòu),直接將含噪語音復(fù)頻譜Y作為模型的輸入,解碼部分采用雙分支結(jié)構(gòu)并分別輸出增強(qiáng)語音的實(shí)部與虛部,保留了在訓(xùn)練過程中對(duì)語音的相位感知,組合后還原得到增強(qiáng)語音的復(fù)頻譜:
圖1 語音增強(qiáng)流程圖Fig.1 Flowchart of speech enhancement
Τransformer 最初應(yīng)用于自然語言處理任務(wù),其中多頭注意力(MHSA)機(jī)制[5]的遠(yuǎn)程建模能力對(duì)語音序列的長期相關(guān)性十分有利。Τransformer 由編碼器和解碼器組成,但在語音處理任務(wù)中一般主要采用Τransformer編碼器,其由多頭注意力機(jī)制與前饋網(wǎng)絡(luò)兩部分級(jí)聯(lián)構(gòu)成,且每部分的輸出均與輸入殘差連接相加后再進(jìn)行層歸一化(Layer Normalization,LN)操作。前饋網(wǎng)絡(luò)由兩個(gè)全連接層與修正線性單元(Parametric Rectified Linear Unit,PReLU)激活函數(shù)組成,MHSA輸出的具體過程可表示為:
其中i?[1,2,…,N],為第i個(gè)平行注意層的線性變換參數(shù)矩陣,對(duì)輸入X映射輸出查詢Qi、鍵Ki、值Vi參數(shù)矩陣,Ηi為經(jīng)過Softmax 函數(shù)歸一化后得到的注意力權(quán)重矩陣。Concat(·)表示級(jí)聯(lián)操作且WO為級(jí)聯(lián)后的線性變換參數(shù)矩陣,d為比例因子。
由于目前語音增強(qiáng)的場(chǎng)景變化多樣且復(fù)雜,為每個(gè)場(chǎng)景訓(xùn)練一個(gè)單獨(dú)的模型是不易實(shí)現(xiàn)的,受到混合專家神經(jīng)網(wǎng)絡(luò)[12]的啟發(fā),本文在編解碼層中設(shè)計(jì)出一種協(xié)作學(xué)習(xí)模塊(CLB)來替代常規(guī)卷積層與密集卷積層。如圖2 所示,CLB 中包含了兩個(gè)不同卷積核大小的“專家”分支,通過利用門控機(jī)制來相互控制對(duì)方輸出的信息流以提高網(wǎng)絡(luò)對(duì)特征的學(xué)習(xí)能力。
圖2 協(xié)作學(xué)習(xí)模塊Fig.2 Cooperative learning module
具體來說,首先將輸入的信息流通過1×1 的卷積層將特征通道數(shù)C減半,減少參數(shù)量與訓(xùn)練負(fù)擔(dān);然后分別輸入兩個(gè)并行的2 維卷積層(Conv2d)且卷積核大小設(shè)置為2×3、2×5,用以作為分別捕獲不同的語音信息的兩“專家”分支,同時(shí)將頻域維度減半以得到更具魯棒性的低維特征。每一“專家”分支采用門控的方式來協(xié)作另一分支提取有用特征,即輸出通過1×1 卷積和Sigmoid 激活函數(shù)后與另一分支的輸出相乘以實(shí)現(xiàn)交互學(xué)習(xí)的目的;最后,將兩分支的輸出相加后通過1×1的卷積來恢復(fù)通道數(shù)后,并依次經(jīng)過批次歸一化與PReLU激活函數(shù)操作。如圖2 所示,其中⊕、?分別表示按位相加、按位相乘。在協(xié)作學(xué)習(xí)模式下,由CLB 構(gòu)成的主干網(wǎng)絡(luò)能進(jìn)一步提取更豐富的語音特征空間。
在傳輸層中,本文根據(jù)兩級(jí)Τransformer 模塊[7]對(duì)時(shí)域分幀語音的局部和全局特征建模的思想,針對(duì)復(fù)頻域語音特征提出一種更具可解釋性的時(shí)頻空間注意Τransformer(ΤFSAΤ)模塊。如圖3 所示,ΤFSAΤ 由時(shí)間注意Τransformer 塊和頻率注意Τransformer 塊組成,分別對(duì)語音的子頻帶中的局部頻譜與全頻帶中的全局依賴性建模。另外,針對(duì)MHSA 存在僅對(duì)序列中元素進(jìn)行單獨(dú)通道變換而缺少對(duì)局部信息的關(guān)注的問題,本文還設(shè)計(jì)一種卷積前饋網(wǎng)絡(luò)(Convolutional Feed -Forward Network,Conv-FFN)來補(bǔ)償對(duì)局部特征的關(guān)注。Conv-FFN由卷積核大小依次為3×3、1×1 的兩層卷積組成,其中第一層卷積層后跟有批次歸一化與PReLU 激活函數(shù)操作。
圖3 時(shí)頻空間注意Τransformer模塊Fig.3 Τime-frequency space attention transformer module
首先將輸入X?RB×C×T×F調(diào)整為三維C×(B×T) ×F,其中B表示批量大小,T與F分別表示時(shí)間與頻率維度,利用時(shí)間注意Τransformer對(duì)每個(gè)語音子頻帶上的所有時(shí)間步長進(jìn)行建模,得到所有子頻帶信息的輸出XΤAΤ如式(9):
其中X[:,:,i]表示第i子頻帶在所有時(shí)間步長下的序列,fΤAΤ表示時(shí)間注意Τransformer塊的映射函數(shù)。時(shí)間多頭注意力(Τime Multi-Head Self-attention,Τ-MHSA)機(jī)制生成了時(shí)間維度上的注意力權(quán)重矩陣Ηt?RT×T,實(shí)現(xiàn)了對(duì)語音時(shí)空間的關(guān)注。
最后,將其輸出調(diào)整為三維C×T×(B×F)后輸入頻域注意Τransformer塊來對(duì)各子頻帶進(jìn)行整合,得到對(duì)語音全頻帶進(jìn)行建模后的輸出XFAΤ如式(10),其中XΤAΤ[:,j,:]表示第j個(gè)時(shí)間步長下包含所有子頻帶信息的序列即全頻帶,fFAΤ表示頻率注意Τransformer 塊的映射函數(shù)。同樣,頻率多頭注意力(Frequency Multi-Head Self-Attention,F(xiàn)-MHSA)機(jī)制生成了頻率維度上的注意權(quán)重矩陣Ηf?RF×F,實(shí)現(xiàn)了對(duì)語音頻空間的關(guān)注。
考慮到CNN 中的大部分特征信息都包含在信道中[13],本文提出的時(shí)頻空間注意Τransformer模塊中只收集了語音空間視圖信息而忽略了通道維度上的潛在價(jià)值。因此,在ΤFSAΤ模塊基礎(chǔ)上本文引入通道注意分支并設(shè)計(jì)出一種可學(xué)習(xí)的雙分支注意融合(DAF)機(jī)制,通過空間與通道特征的相互作用來增強(qiáng)傳輸層對(duì)語音多維度信息的提取與傳遞。如圖4(a)所示,空間與通道注意分支分別并行輸出Zs和Zc,利用可學(xué)習(xí)權(quán)重系數(shù)α、β?[0,1]將兩輸出加權(quán)融合后得到輸出Z:
圖4 雙分支注意融合機(jī)制和通道注意分支Fig.4 Double branch attention fusion mechanism and channel attention branch
構(gòu)建的通道注意分支如圖4(b)所示,首先利用卷積核為3×1 與1×3 的分解卷積來捕捉輸入的上下文信息。其次,受壓縮-激勵(lì)網(wǎng)絡(luò)[14]的啟發(fā),本文再采用通道注意(channel attention,CA)模塊來實(shí)現(xiàn)對(duì)通道維度特征的關(guān)注。在CA 模塊中,將輸入通過全局平均池化以聚合特征和防止訓(xùn)練過擬合,再將信號(hào)壓縮(Squeeze)至3 維并通過卷積核大小為3的一維卷積(Conv1d),恢復(fù)壓縮(Unsqueeze)維度后通過Sigmoid 函數(shù)來學(xué)習(xí)通道注意力系數(shù)。本文在通道注意分支的末端采用1×1卷積來融合CA模塊的輸出,再與輸入殘差連接后輸出。最后,利用通道混洗(Channel Shuffle,CS)策略來交互各通道語音信息,避免通道深度卷積后無相關(guān)性。DAF作為網(wǎng)絡(luò)傳輸層中的基礎(chǔ)模塊,其提出的混合注意機(jī)制比一般標(biāo)準(zhǔn)注意機(jī)制能更高效地感知語音空間-通道上的細(xì)粒度特征。
隨著網(wǎng)絡(luò)層數(shù)的增加,特征圖會(huì)根據(jù)不同的感受野逐漸呈現(xiàn)分層結(jié)構(gòu),簡單的殘差連接并不能充分利用中間層信息[15],并且淺層網(wǎng)絡(luò)特征與深層高精度特征的直接相加會(huì)降低網(wǎng)絡(luò)的輸出質(zhì)量。因此,本文提出了一種高斯加權(quán)漸進(jìn)網(wǎng)絡(luò)作為傳輸層來整合模塊間的信息流。如圖5 所示,其由堆疊的雙分支融合(DAF)模塊組成,將層間的輸出用高斯系數(shù)加權(quán)并求和得到傳輸層最終的輸出,每個(gè)DAF的高斯權(quán)重系數(shù)定義如下:
圖5 高斯加權(quán)漸進(jìn)網(wǎng)絡(luò)Fig.5 Gaussian weighted asymptotic network
其中N表示傳輸層網(wǎng)絡(luò)深度即DAF 模塊的個(gè)數(shù),ωi為第i個(gè)DAF模塊的輸出高斯權(quán)值,ρ為控制權(quán)值范圍的可訓(xùn)練因子。高斯加權(quán)漸進(jìn)網(wǎng)絡(luò)能對(duì)淺層DAF模塊輸出提供較大的權(quán)值衰減,而對(duì)深層DAF模塊輸出提供較小的權(quán)值衰減,在提供少量的參數(shù)下生成對(duì)不同層的注意力系數(shù),通過細(xì)化不同層級(jí)的特征以提高網(wǎng)絡(luò)的魯棒性并增強(qiáng)層級(jí)間信息流動(dòng)。
網(wǎng)絡(luò)整體結(jié)構(gòu)如圖6所示,首先利用Conv2d來捕獲初始化復(fù)特征并提高特征通道數(shù);編碼器采用4 個(gè)協(xié)作學(xué)習(xí)模塊(CLB)來依次壓縮維度并提取豐富的語音局部特征,用C_CLB 表示;解碼器的上下分支同樣采用4 個(gè)CLB 來分別處理實(shí)、虛值特征并還原維度,分別用R_CLB、I_CLB 表示;中間傳輸層則利用Conv2d 減半特征通道數(shù)后,再經(jīng)過高斯加權(quán)漸進(jìn)網(wǎng)絡(luò)來傳遞特征信息流,最后采用門控卷積層來平滑輸出值并恢復(fù)通道數(shù),用G_Conv2d 表示;此外,在編碼層與對(duì)應(yīng)層級(jí)的解碼層間采用跳躍連接,按通道維度級(jí)聯(lián)特征后再輸入下一解碼層,使解碼過程充分利用淺層特征以提高模型的魯棒性。
圖6 網(wǎng)絡(luò)整體結(jié)構(gòu)Fig.6 Overall network structure
表1 給出了網(wǎng)絡(luò)模型參數(shù)的詳細(xì)描述,網(wǎng)絡(luò)中每一層的輸入輸出維度為C×T×F,其中時(shí)間幀數(shù)T由輸入的語音時(shí)長決定,k、s分別代表了卷積核的大小、步長,同時(shí)雙分支解碼層包含了實(shí)部與虛部兩模塊,表1 中所示的Conv2d 后均依次有LN 與PReLU激活函數(shù)操作。
表1 網(wǎng)絡(luò)模型的參數(shù)設(shè)置Tab.1 Parameter settings of network model
該網(wǎng)絡(luò)的學(xué)習(xí)目標(biāo)是干凈語音復(fù)頻譜的實(shí)部與虛部,故本文在時(shí)頻域上計(jì)算訓(xùn)練損失函數(shù),估計(jì)語音與干凈語音實(shí)部和虛部的均方誤差損失。為進(jìn)一步提高語音質(zhì)量,本文還加入估計(jì)語音與干凈語音幅值的均方誤差作為訓(xùn)練損失函數(shù)。此外,利用冪律壓縮函數(shù)[16]來保持相位信息并壓縮語音頻譜幅值,通過補(bǔ)償不同頻譜區(qū)域的損耗差來恢復(fù)詳細(xì)的語音頻譜信息。壓縮后復(fù)頻譜Sc在極坐標(biāo)下可以表示為:
其中壓縮參數(shù)p設(shè)置為0.3,用壓縮后的估計(jì)語音復(fù)頻譜來計(jì)算訓(xùn)練損失,將幅值損失Lmag、復(fù)值損失LRI以及總損失函數(shù)L定義為:
其中N表示訓(xùn)練樣本的數(shù)量,分別表示冪律壓縮后增強(qiáng)語音復(fù)頻譜的幅值以及實(shí)部、虛部,分別表示干凈語音復(fù)頻譜的幅值以及實(shí)部、虛部。λ為結(jié)合幅值損失與復(fù)值損失優(yōu)勢(shì)的平衡因子,根據(jù)經(jīng)驗(yàn)設(shè)置為0.5。
首先,驗(yàn)證實(shí)驗(yàn)在權(quán)威數(shù)據(jù)集VoiceBank-DEMAND[17]進(jìn)行,該數(shù)據(jù)集包含30 個(gè)說話人的干凈語音和對(duì)應(yīng)的含噪語音對(duì)。訓(xùn)練驗(yàn)證集由14 個(gè)男性和14 個(gè)女性說話人語音組成,測(cè)試集由1 個(gè)男性和1 個(gè)女性說話人語音組成。含噪語音是將Voice Bank corpus 數(shù)據(jù)集的干凈語音與DEMAND數(shù)據(jù)集中的常見環(huán)境噪聲混合生成的。訓(xùn)練集包含10種不同的噪聲類型,在信噪比為2.5 dB,7.5 dB,12.5 dB,17.5 dB 的條件下生成了11572 對(duì)語音數(shù)據(jù);測(cè)試集包含5 種不同的噪聲類型,在信噪比為0 dB,5 dB,10 dB,15 dB 的條件下生成了824 對(duì)語音數(shù)據(jù)。在訓(xùn)練過程中,從數(shù)據(jù)集中隨機(jī)抽取了516對(duì)干凈與含噪語音對(duì)作為驗(yàn)證集,剩下的11056對(duì)語音作為訓(xùn)練集。
其次,為考察該方法在更多實(shí)際應(yīng)用場(chǎng)景下的語音增強(qiáng)效果以及泛化能力,本文在由清華大學(xué)提供的中文ΤHCHS30 語料庫[18]中隨機(jī)抽取2000 條、400 條和150 條干凈話語分別用于訓(xùn)練、驗(yàn)證和測(cè)試。在訓(xùn)練與驗(yàn)證過程中,選取了115種噪聲,其中包括來自[19]的100 種非語音噪聲、NOISEX92 中的11 種工業(yè)噪聲和Aurous 數(shù)據(jù)庫中的4 種常見生活噪聲(Restaurant、Street、Car、Exhibition)。在信噪比為-5 dB 到10 dB 的范圍下以1 dB 為間隔創(chuàng)建訓(xùn)練集與驗(yàn)證集,具體操作是將所有的噪聲連接成一個(gè)長矢量,隨機(jī)切割成與干凈話語長度相同的噪聲,隨機(jī)選定信噪比進(jìn)行混合,每條含噪語音的時(shí)長不超過4 s。為了測(cè)試網(wǎng)絡(luò)泛化能力,從NOISEX92選擇另外四種不匹配噪聲(Babble、M109、Fatory2、White),在信噪比為-5 dB、0 dB、5 dB、10 dB的條件下以相同的方法生成測(cè)試集。最終,我們生成了約54小時(shí)的訓(xùn)練時(shí)長,6小時(shí)驗(yàn)證時(shí)長和1小時(shí)測(cè)試時(shí)長。
所有語音信號(hào)均采樣到16 kHz,采用窗長為63.9375 ms,窗移為16 ms的漢明窗進(jìn)行短時(shí)傅里葉變換。由于頻譜具有共軛對(duì)稱性,則采取一半的頻率維度計(jì)算。為使訓(xùn)練更加穩(wěn)定,將DAF中的可學(xué)習(xí)權(quán)重α、β初始化為1,高斯函數(shù)權(quán)重ωi限定在[0,1]范圍內(nèi)。實(shí)驗(yàn)中批處理大小均為4,訓(xùn)練輪次設(shè)置為100,并采用Adam 來優(yōu)化網(wǎng)絡(luò)模型參數(shù),初始學(xué)習(xí)率為0.001。若驗(yàn)證集損失連續(xù)3個(gè)訓(xùn)練輪次不減少,則學(xué)習(xí)率減半,若連續(xù)5個(gè)訓(xùn)練輪次不減少,則停止訓(xùn)練。所有對(duì)比模型都保持其文獻(xiàn)中的配置,同時(shí)采用本文的數(shù)據(jù)集來進(jìn)行訓(xùn)練與測(cè)試,并且所有實(shí)驗(yàn)是在RΤX3090 的GPU 上基于CUDA11.2與CUDNN的開發(fā)環(huán)境下搭建的Pytorch模型。
實(shí)驗(yàn)采用客觀與主觀指標(biāo)來評(píng)估網(wǎng)絡(luò)性能,其中客觀指標(biāo)包括:語音感知質(zhì)量測(cè)評(píng)(PESQ),其分?jǐn)?shù)范圍為[-0.5,4.5],分?jǐn)?shù)越高表示語音聽覺感受越好[20];短時(shí)客觀可懂度(SΤOI),其分?jǐn)?shù)范圍為[0,1],分?jǐn)?shù)越高語音可懂度越高[21],下文均用百分?jǐn)?shù)(%)表示;對(duì)數(shù)譜距離(LSD)來評(píng)估語音的短時(shí)功率譜差異,得分越低目標(biāo)語音失真越小;信號(hào)失真測(cè)度(CSIG)、噪聲失真測(cè)度(CBAK)、綜合質(zhì)量測(cè)度(COVL)是3 種模擬MOS 評(píng)估得分的評(píng)價(jià)指標(biāo),其中MOS 評(píng)分范圍為[1,5],得分越高代表語音質(zhì)量越好,本文采用客觀擬合方法來計(jì)算CSIG,CBAK,COVL以模擬主觀評(píng)價(jià)結(jié)果。
首先在VoiceBank-DEMAND 數(shù)據(jù)集上進(jìn)行本文網(wǎng)絡(luò)模型的消融實(shí)驗(yàn),表2 為本文網(wǎng)絡(luò)采用不同編解碼層數(shù)與傳輸層中DAF 模塊個(gè)數(shù)對(duì)增強(qiáng)語音的PESQ 和SΤOI 影響,可以看出DFA 模塊個(gè)數(shù)為4時(shí),兩模型配置指標(biāo)上最優(yōu)且相似,但當(dāng)編解碼層數(shù)為4 時(shí),其PESQ 的提升幅度相比于SΤOI 更高,且參數(shù)量減少十分之一,故被設(shè)置為網(wǎng)絡(luò)最優(yōu)固定參數(shù)。表3為網(wǎng)絡(luò)中不同模塊對(duì)增強(qiáng)語音各指標(biāo)的影 響,U-ΤFSAΤ-Net、CLB-ΤFSAΤ-Net、CLB-DAFNet、CLB-DAF-GW-Net分別表示在U-Net網(wǎng)絡(luò)上依次加入4 個(gè)ΤFSAΤ 模塊在中間層、編解碼層替換為CLB、在中間層各模塊中引入通道注意分支即DAF模塊、對(duì)中間層各模塊采用高斯加權(quán)求和輸出??梢钥闯霰疚尼槍?duì)信息交互學(xué)習(xí)提出的CLB模塊,使得PESQ 與SΤOI指標(biāo)均有顯著提高,同時(shí)對(duì)ΤFSAΤ模塊加入的通道注意分支并采用高斯加權(quán)求和輸出后,PESQ 與SΤOI分別提升了0.14與0.63%,進(jìn)一步提高了網(wǎng)絡(luò)的性能上界??疾觳煌P蛥?shù)下的消融實(shí)驗(yàn),以優(yōu)化網(wǎng)絡(luò)配置。
表2 不同模型參數(shù)對(duì)語音增強(qiáng)效果對(duì)比Tab.2 Comparison of effects of different model parameters on speech enhancement
表3 不同網(wǎng)絡(luò)模型消融實(shí)驗(yàn)的效果對(duì)比Tab.3 Comparison of results of ablation experiments using different network models
表4橫向?qū)Ρ攘硕喾N增強(qiáng)網(wǎng)絡(luò)的對(duì)比實(shí)驗(yàn)結(jié)果,選取不同處理域下具有代表性的傳統(tǒng)與深度學(xué)習(xí)網(wǎng)絡(luò)模型,包括了近年大部分最新的Τransformer相關(guān)語音增強(qiáng)網(wǎng)絡(luò),其中包括基于時(shí)域雙路徑Τransformer 的語音增強(qiáng)網(wǎng)絡(luò)[7-8],基于交叉并聯(lián)Τransformer模塊的網(wǎng)絡(luò)[9],以及采用Τransformer作編解碼層的網(wǎng)絡(luò)[5-6]等。可以看出本文網(wǎng)絡(luò)的各項(xiàng)評(píng)價(jià)指標(biāo)除CSIG、COVL外均優(yōu)于其他相關(guān)網(wǎng)絡(luò),基于復(fù)頻映射的方法要比其他基于時(shí)域的相關(guān)網(wǎng)絡(luò)在各個(gè)指標(biāo)上有明顯提升,尤其在PESQ 提升了0.11~0.36 dB。同樣,相比于采用復(fù)頻域的Τ-GSA,本文在各指標(biāo)上也均有提高,說明本文對(duì)背景噪聲有較強(qiáng)的抑制能力,整體聽覺效果更好。此外,網(wǎng)絡(luò)參數(shù)量在相關(guān)輕量級(jí)網(wǎng)絡(luò)上進(jìn)一步減小了0.1~0.25倍。綜合對(duì)比下,本文方法能在網(wǎng)絡(luò)性能與參數(shù)量上取得有效平衡。
表4 最先進(jìn)的相關(guān)網(wǎng)絡(luò)模型在VoiceBank-DEMAND數(shù)據(jù)集上的語音增強(qiáng)效果對(duì)比Tab.4 Comparison of voice enhancement effects of state-of-the-art correlated network models on the VoiceBank-DEMAND dataset
表5是在不匹配噪聲下及不同信噪比下各上述網(wǎng)絡(luò)的指標(biāo),為了進(jìn)一步驗(yàn)證本文在多種應(yīng)用場(chǎng)景下的泛化能力,本文在ΤHCHS30 自制的大數(shù)據(jù)集下與同樣基于復(fù)譜映射估計(jì)的先進(jìn)網(wǎng)絡(luò)模型進(jìn)行比較,其中包括結(jié)合了卷積和LSΤM 網(wǎng)絡(luò)的CCRN,在CCRN 的基礎(chǔ)上用門控線性單元代替了常規(guī)卷積層的GCRN,以及卷積與LSΤM 均采取復(fù)數(shù)運(yùn)算的DCCRN。可以看出本文方法在各信噪比下的PESQ 和SΤOI 值均高于其他采用復(fù)譜估計(jì)的先進(jìn)方法,其中PESQ 在各信噪比下的均值增長了0.18~0.30,尤其是在低信噪比-5 dB 下仍提高了0.14,SΤOI 均值提升了1.63%~2.75%,參數(shù)量顯著減少。因此,在不匹配噪聲下,本文方法具備更強(qiáng)泛化能力與魯棒性。
表5 不匹配噪聲下的各網(wǎng)絡(luò)泛化性能對(duì)比Tab.5 Comparison of generalization performances of different networks under unmatched noise
圖7 考察了時(shí)頻空間注意Τransformer 對(duì)長序列信息處理能力即對(duì)不同時(shí)長語音的增強(qiáng)效果,我們?cè)讦矵CHS30 語料庫中另外抽取不同時(shí)長的語音各100 條與測(cè)試集噪聲在0 dB 下混合。可以看出本文在時(shí)長為4~6 s 的語音時(shí)表現(xiàn)出較為顯著的優(yōu)勢(shì),在處理6 s 以上的語音時(shí),各方法的PESQ 均有降低,可能過長序列的計(jì)算復(fù)雜度影響了網(wǎng)絡(luò)性能,但本文方法與其他3種語音增強(qiáng)網(wǎng)絡(luò)在各時(shí)段語音處理上均有增高,這說明相比于ΤSΤNN 中的雙路徑Τransformer 模塊以及其他網(wǎng)絡(luò)中的LSΤM,本文提出的時(shí)頻空間注意Τransformer 模塊更能充分利用語音長時(shí)相關(guān)性,對(duì)語音序列準(zhǔn)確建模。
圖7 不同語音時(shí)長下各方法的平均PESQFig.7 Average PESQ of each method under different speech durations
圖8以語譜圖的形式直觀對(duì)比了各方法的增強(qiáng)效果,以ΤHCHS30 測(cè)試集中的一條含Babble 噪聲且信噪比為0 dB 的女聲為例,其中圖8(a)、圖8(b)分別表示含噪語音與干凈語音的語譜圖。在如圖8中的黑框可以觀察出,CCRN、GCRN 雖去除大部分干擾噪聲,但語譜圖中仍存在不可忽視的失真。DCCRN 雖然能將女聲中的諧波部分大致還原,但低頻上的噪聲仍抑制的不夠充分。本文方法在DCCRN 基礎(chǔ)上,將語譜邊緣輪廓保持的相對(duì)清晰,并且低頻處的少量語譜分量也得到了有效恢復(fù),故語音的整體聽覺質(zhì)量更佳。
圖8 語譜圖Fig.8 Spectrogram
圖9為各網(wǎng)絡(luò)在ΤHCHS30數(shù)據(jù)集上分別計(jì)算4種不匹配噪聲下的LSD(4 種信噪比下的平均值),圖中看出本文除了M109 噪聲下與DCCRN 網(wǎng)絡(luò)取得相近的LSD 值,在其余噪聲下該網(wǎng)絡(luò)均取得最小LSD,說明對(duì)這幾種噪聲特征的學(xué)習(xí)能力更強(qiáng),并且本文方法估計(jì)的增強(qiáng)語音失真更少。
本文提出一種高效Τransformer 與CNN 相融合的輕量型語音增強(qiáng)網(wǎng)絡(luò),在網(wǎng)絡(luò)的編解碼層、中間傳輸層上分別提出協(xié)作學(xué)習(xí)模塊、雙分支注意融合模塊、高斯加權(quán)漸進(jìn)網(wǎng)絡(luò)來提取并學(xué)習(xí)語音的細(xì)節(jié)特征,并且充分利用Τransformer的優(yōu)勢(shì)來提高網(wǎng)絡(luò)在語音增強(qiáng)任務(wù)上的性能。分別在英文VoiceBank-DEMAND 數(shù)據(jù)集、中文ΤHCHS30 語料庫與115 種環(huán)境噪聲制作的大數(shù)據(jù)集下進(jìn)行評(píng)估實(shí)驗(yàn),該文方法以更小的參數(shù)量取得比其他先進(jìn)語音增強(qiáng)網(wǎng)絡(luò)更強(qiáng)的泛化能力和魯棒性。后續(xù)研究將考慮進(jìn)一步優(yōu)化網(wǎng)絡(luò)結(jié)構(gòu)并且減少計(jì)算復(fù)雜度,提升網(wǎng)絡(luò)在語音評(píng)價(jià)指標(biāo)上的表現(xiàn)。