房慧保,馬建芬+,田玉玲,張朝霞
(1.太原理工大學(xué) 信息與計(jì)算機(jī)學(xué)院,山西 晉中 030600; 2.太原理工大學(xué) 物理與光電工程學(xué)院,山西 晉中 030600)
為了解決傳統(tǒng)單通道語音增強(qiáng)方法存在的語音失真和殘留噪聲過多問題,多名研究者提出了基于深度神經(jīng)網(wǎng)絡(luò)(DNN)的語音增強(qiáng)算法[1-6],但是,這些算法都是通過最小化干凈語音和增強(qiáng)語音之間的均方誤差(MSE)標(biāo)準(zhǔn)來訓(xùn)練網(wǎng)絡(luò)的,而MSE標(biāo)準(zhǔn)并不是基于人耳聽覺感知的標(biāo)準(zhǔn)。針對這一問題,一些研究者提出了在DNN訓(xùn)練期間引入基于人類聽覺感知特性的心理聲學(xué)標(biāo)準(zhǔn)[7,8]。由于在不同頻帶上,相同的MSE可能對語音質(zhì)量及可懂度有不同的影響,一些研究者提出了對MSE代價(jià)函數(shù)進(jìn)行加權(quán)的方法,他們將絕對聽閾、聽覺掩蔽等作為聽覺感知特征,引入代價(jià)函數(shù)的計(jì)算中[9-12]。
除了對MSE進(jìn)行加權(quán)外,一種更為直接的方法是將已有的語音質(zhì)量和語音可懂度客觀評價(jià)標(biāo)準(zhǔn)作為代價(jià)函數(shù)來訓(xùn)練網(wǎng)絡(luò)[13,14]。所以,可以通過將這些評價(jià)標(biāo)準(zhǔn)解讀為合適的損失函數(shù)來建立恰當(dāng)?shù)拇鷥r(jià)函數(shù)用于端到端的語音增強(qiáng)。本文提出了一種基于頻域加權(quán)分段信噪比標(biāo)準(zhǔn)[15]的感知相關(guān)代價(jià)函數(shù)。在此基礎(chǔ)上,將頻域加權(quán)分段信噪比和感知加權(quán)均方誤差結(jié)合,得到一種聯(lián)合優(yōu)化代價(jià)函數(shù)。接下來分別將這兩種代價(jià)函數(shù)用于DNN訓(xùn)練,通過實(shí)驗(yàn)對比,探討感知相關(guān)代價(jià)函數(shù)的應(yīng)用是否可以進(jìn)一步提高深度神經(jīng)網(wǎng)絡(luò)語音增強(qiáng)性能。
語音增強(qiáng)的目標(biāo)是在給定含噪語音信號的情況下,估計(jì)出干凈語音信號。假設(shè)受噪聲干擾的輸入信號y(t) 是由干凈語音信號x(t) 和噪聲d(t) 疊加而成,即
y(t)=x(t)+d(t)
(1)
其中,t表示離散時(shí)間變量。兩邊同時(shí)做K點(diǎn)離散傅里葉變換(DFT)后,就可以得到第l幀上的第k個(gè)頻帶的含噪語音信號頻譜,即
Y(l,k)=X(l,k)+D(l,k),k=1,…,K
(2)
其中,Y(l,k)、X(l,k) 和D(l,k) 分別表示含噪語音頻譜、干凈語音頻譜和噪聲頻譜。l表示幀,k表示頻帶。此外,可以將式(2)以極坐標(biāo)的形式表示,即
|Y(l,k)|ejφy(l,k)=|X(l,k)|ejφx(l,k)+|D(l,k)|ejφd(l,k)
(3)
其中,|Y(l,k)|、|X(l,k)| 和 |D(l,k)| 分別表示含噪語音信號、干凈語音信號和噪聲的幅度譜。φy(l,k)、φx(l,k) 和φd(l,k) 分別表示含噪語音信號、干凈語音信號和噪聲的相位譜。
在傳統(tǒng)的MSE-DNN框架中,DNN的輸入是含噪語音的對數(shù)功率譜(LPS)特征,它包含了2τ+1個(gè)相鄰幀的聲學(xué)上下文信息,訓(xùn)練目標(biāo)是干凈語音的LPS特征,訓(xùn)練階段優(yōu)化的代價(jià)函數(shù)為
(4)
但是,MSE代價(jià)函數(shù)和語音可懂度沒有必要的關(guān)聯(lián)性。MSE不關(guān)注干凈語音幅度譜和網(wǎng)絡(luò)輸出幅度譜之間的正負(fù)差異,正差異表示估計(jì)的幅度譜被衰減了,而負(fù)差異表示估計(jì)的幅度譜被放大了,這兩種失真對人耳聽覺感知的影響不一定相同。也就是說,簡單的通過最小化干凈語音和增強(qiáng)語音之間的MSE,并不能保證增強(qiáng)語音的可懂度一定提高。
為了克服上述MSE代價(jià)函數(shù)的問題,本文提出了感知相關(guān)代價(jià)函數(shù),并將其用于網(wǎng)絡(luò)訓(xùn)練,以提高語音質(zhì)量和語音可懂度?;诟兄嚓P(guān)代價(jià)函數(shù)的深度神經(jīng)網(wǎng)絡(luò)語音增強(qiáng)方法實(shí)驗(yàn)框架如圖1所示。它包括兩個(gè)階段:訓(xùn)練階段和增強(qiáng)階段,本文主要對特征提取、感知相關(guān)代價(jià)函數(shù)的構(gòu)建和DNN訓(xùn)練進(jìn)行介紹。
圖1 所提方法實(shí)驗(yàn)框架
2.2.1 特征提取
在訓(xùn)練階段,通過將語料庫中的干凈語音和噪聲逐幀地相加得到含噪語音信號。由于語音信號的時(shí)間連續(xù)性,我們將相鄰時(shí)間幀的聲學(xué)特征合并為一個(gè)向量作為DNN的輸入。因此輸入特征是含噪語音的當(dāng)前幀、3個(gè)過去幀和3個(gè)未來幀的所有頻帶的幅度譜特征,并將這7個(gè)幀的幅度譜特征合并成一個(gè)向量,即
Y=[y(l-3,1),…,y(l-3,K),…,y(l,1),…,
y(l,K),…,y(l+3,1),…,y(l+3,K)]
(5)
其中,y(l,k) 表示含噪語音信號的第l幀位于頻帶k的幅度譜分量。訓(xùn)練目標(biāo)是干凈語音當(dāng)前幀的每個(gè)頻帶的幅度譜特征,即
X=[x(l,1),…,x(l,K)]
(6)
其中,x(l,K) 表示干凈語音信號的第l幀位于頻帶K的幅度譜分量。得到輸入特征和訓(xùn)練目標(biāo)后,將這些數(shù)據(jù)進(jìn)行標(biāo)準(zhǔn)化,使它們服從均值為0、方差為1的高斯分布。接下來需要構(gòu)建感知相關(guān)代價(jià)函數(shù),將其用于DNN訓(xùn)練。
2.2.2 感知相關(guān)代價(jià)函數(shù)的構(gòu)建
頻域加權(quán)分段信噪比是一種語音可懂度客觀評價(jià)標(biāo)準(zhǔn),它的優(yōu)點(diǎn)主要包括:使用臨界帶頻率間隔可以對聽力正常聽眾的頻率選擇性進(jìn)行恰當(dāng)?shù)慕?,并且可以將感知激?lì)加權(quán)函數(shù)施加于各個(gè)頻帶。頻域加權(quán)分段信噪比的計(jì)算如下
(7)
(8)
具體來講,當(dāng)某個(gè)頻帶的信噪比大于0時(shí),設(shè)為1,反之設(shè)為0,這樣做考慮的是,當(dāng)語音的能量超過噪聲能量一定數(shù)值時(shí),噪聲將被掩蔽,并且不被人耳聽覺感知[16]。因此本文提出了在DNN訓(xùn)練過程中通過最小化以下感知相關(guān)代價(jià)函數(shù)來優(yōu)化網(wǎng)絡(luò)參數(shù)
(9)
在MSE代價(jià)函數(shù)的計(jì)算中,每一幀的均方誤差是通過對所有頻帶的干凈語音和增強(qiáng)語音對數(shù)功率譜之間的誤差平方和取平均值得到的,也就是說不同頻帶對基于梯度的網(wǎng)絡(luò)訓(xùn)練有相同的貢獻(xiàn)。但是,不同頻帶的誤差對人耳聽覺感知的影響是不同的,這些誤差不應(yīng)該被均勻加權(quán),而是應(yīng)該根據(jù)它們對聽覺的影響,對不同的頻帶的均方誤差施加不同的權(quán)重。此外,DNN應(yīng)該更加關(guān)注對人耳聽覺感知更為重要的頻帶。根據(jù)這些理論分析,有研究者提出了一種感知加權(quán)均方誤差代價(jià)函數(shù)[17],即
(10)
其中,Lm表示第m條干凈語音信號的頻帶個(gè)數(shù),W(l,k) 是對不同頻帶施加的權(quán)重,仍然根據(jù)式(8)來動態(tài)選擇,以最小化所有頻帶的誤差之和的幾何平均。
在此基礎(chǔ)上,本文將上述感知加權(quán)誤差和頻域加權(quán)分段信噪比結(jié)合,提出了一種聯(lián)合優(yōu)化代價(jià)函數(shù),即
(11)
其中,感知加權(quán)誤差和頻域加權(quán)分段信噪比這兩項(xiàng)的權(quán)重都設(shè)為固定值1。構(gòu)建出代價(jià)函數(shù)后,接下來通過訓(xùn)練一個(gè)DNN來得到干凈語音的幅度譜估計(jì)。
2.2.3 DNN訓(xùn)練
DNN模型的搭建參考了文獻(xiàn)[3],它的輸入為7×257維的含噪語音幅度譜特征;然后經(jīng)過3個(gè)全連接層(或隱藏層),每個(gè)全連接層有2048個(gè)神經(jīng)元;最后經(jīng)過一個(gè)257維的全連接層,獲得神經(jīng)網(wǎng)絡(luò)的輸出。除了輸出層的激活函數(shù)為線性(linear)函數(shù)以外,其它層的激活函數(shù)均為整流線型單元(relu)。為了防止過擬合,在3個(gè)隱藏層后面添加了0.2的Dropout,網(wǎng)絡(luò)訓(xùn)練過程使用的自適應(yīng)調(diào)整參數(shù)學(xué)習(xí)率的算法為Adam,學(xué)習(xí)率為0.0001。
基于感知相關(guān)代價(jià)函數(shù)的DNN訓(xùn)練如圖2所示。首先對網(wǎng)絡(luò)的權(quán)重ω和偏差單元b進(jìn)行初始化,再利用前饋神經(jīng)網(wǎng)絡(luò)(FNN)得到每個(gè)頻帶的幅度譜估計(jì),即
圖2 基于感知相關(guān)代價(jià)函數(shù)的DNN訓(xùn)練流程
(12)
接下來利用干凈語音的幅度譜xm(l,k),根據(jù)式(9)和式(11),求出感知相關(guān)代價(jià)函數(shù)值。為了最小化MSSNR和wMSE+MSSNR代價(jià)函數(shù)值,通過反向傳播算法對DNN的權(quán)重進(jìn)行訓(xùn)練,由此得到訓(xùn)練好的DNN。
在本研究中,訓(xùn)練語音和測試語音都來自TIMIT數(shù)據(jù)集。TIMIT數(shù)據(jù)集是由630名說話人(男性438名,女性192名)每人說10句所組成的語音集合,它分為訓(xùn)練集和測試集,訓(xùn)練集中有4620句,測試集中有1680句,一共6300條干凈語音。訓(xùn)練噪聲和測試噪聲分別來自Aurora2數(shù)據(jù)庫和NOISEX-92數(shù)據(jù)庫。在6種信噪比(-5 dB、0 dB、5 dB、10 dB、15 dB、20 dB)條件下,通過將 TIMIT 訓(xùn)練集中的所有4620條干凈語音與Aurora2數(shù)據(jù)庫中的100種噪聲類型疊加,可以得到2 772 000(4620×100×6)條含噪語音,這些含噪語音信號和對應(yīng)的干凈語音信號共同形成一個(gè)多條件訓(xùn)練集。在測試階段,為了使實(shí)驗(yàn)條件更接近真實(shí)環(huán)境,使用一些和訓(xùn)練集不匹配的噪聲類型。在上述6種信噪比條件下,將TIMIT測試集中的100條干凈語音信號與2種可見噪聲(汽車噪聲、鈴聲)和NOISEX-92數(shù)據(jù)庫中的8種未見噪聲(比如:exhibition、pink、Factory1等)疊加,得到一個(gè)包含1000(2×100+8×100)條含噪語音信號的測試集。實(shí)驗(yàn)中所有語音波形文件和噪聲的采樣率均為16 KHz。然后對信號進(jìn)行分幀、加漢明窗,其中幀長為32 ms(512個(gè)采樣點(diǎn)),幀移為16 ms(256個(gè)采樣點(diǎn)),再對每一幀做257點(diǎn)DFT,就可以將時(shí)域信號轉(zhuǎn)換為信號的頻譜,由此可以得到257維的幅度譜特征。
為了驗(yàn)證本文提出的兩種代價(jià)函數(shù)可以進(jìn)一步提高語音增強(qiáng)性能,將MSSNR和wMSE+MSSNR代價(jià)函數(shù)分別用于DNN訓(xùn)練,并將這兩種方法與3種對比方法進(jìn)行比較,3種對比方法分別是:傳統(tǒng)的最小均方誤差對數(shù)譜幅度估計(jì)(LogMMSE方法)、基于MSE代價(jià)函數(shù)的深度學(xué)習(xí)語音增強(qiáng)算法(MSE-DNN方法)和基于感知加權(quán)均方誤差代價(jià)函數(shù)的深度神經(jīng)網(wǎng)絡(luò)語音增強(qiáng)算法(wMSE-DNN方法)。為了方便,將這3種對比方法用方法A、方法B和方法C來表示。將本文提出的基于MSSNR代價(jià)函數(shù)的深度神經(jīng)網(wǎng)絡(luò)語音增強(qiáng)算法(MSSNR-DNN方法)和基于wMSE+MSSNR代價(jià)函數(shù)的深度神經(jīng)網(wǎng)絡(luò)語音增強(qiáng)算法(wMSE+MSSNR-DNN方法)用方法D和方法E來表示。為了減少算法的復(fù)雜度,4種深度學(xué)習(xí)方法使用相同的網(wǎng)絡(luò)結(jié)構(gòu)。
本文利用語音質(zhì)量感知評價(jià)(PESQ)和短時(shí)客觀可懂度(STOI)兩種語音評價(jià)方法對增強(qiáng)語音進(jìn)行客觀評價(jià)。PESQ用來對語音信號的感知質(zhì)量進(jìn)行客觀評價(jià),取值范圍是-0.5到4.5。通過比較增強(qiáng)語音和干凈語音,可以計(jì)算出PESQ分?jǐn)?shù)。PESQ越高,語音質(zhì)量越高。STOI用來對增強(qiáng)語音的可懂度進(jìn)行客觀評價(jià),取值范圍是0到1,也是關(guān)于干凈語音和增強(qiáng)語音的函數(shù)。STOI值越高,表明增強(qiáng)語音的可懂度越高。
表1列出了在6種信噪比條件下,含噪語音以及通過傳統(tǒng)的LogMMSE方法、4種基于不同代價(jià)函數(shù)的深度神經(jīng)網(wǎng)絡(luò)語音增強(qiáng)方法得到的增強(qiáng)語音的平均PESQ結(jié)果。從表中可以看出,基于DNN的語音增強(qiáng)方法和傳統(tǒng)方法相比,在PESQ上實(shí)現(xiàn)了顯著的增益。wMSE-DNN方法和MSE-DNN方法相比,增強(qiáng)語音的質(zhì)量提高,表明對均方誤差進(jìn)行感知加權(quán),并將其用于DNN訓(xùn)練,可以進(jìn)一步提高語音質(zhì)量。在大多數(shù)情況下,本文提出的MSSNR-DNN方法得到的PESQ分?jǐn)?shù)都優(yōu)于MSE-DNN方法和wMSE-DNN方法,這表明在DNN的訓(xùn)練過程中最小化基于頻域加權(quán)分段信噪比的感知相關(guān)代價(jià)函數(shù),可以提高增強(qiáng)語音的質(zhì)量。但是當(dāng)SNR=20 dB時(shí),MSSNR-DNN方法得到的PESQ分?jǐn)?shù)略有下降,這表明在輸入信噪比高的情況下,通過這種方法會造成輕微的語音失真問題,但這種失真不會對人耳聽覺造成影響。此外,在6種信噪比環(huán)境下,wMSE+MSSNR-DNN方法可以得到比另外3種深度學(xué)習(xí)方法更好的語音質(zhì)量,這是由于MSE沒有考慮人耳聽覺系統(tǒng)的感知特性,根據(jù)理想二值掩蔽對MSE加權(quán),將其和頻域加權(quán)分段信噪比結(jié)合,作為代價(jià)函數(shù)來優(yōu)化DNN,可以進(jìn)一步提高增強(qiáng)語音的感知質(zhì)量。
表1 不同信噪比下的平均PESQ結(jié)果
表2列出了在6種信噪比條件下,含噪語音以及通過傳統(tǒng)的LogMMSE方法、4種基于不同代價(jià)函數(shù)的深度神經(jīng)網(wǎng)絡(luò)語音增強(qiáng)方法得到的增強(qiáng)語音的平均STOI結(jié)果。從表中很明顯可以看出,4種基于DNN的語音增強(qiáng)方法和傳統(tǒng)方法相比,STOI值顯著提高。在低信噪比條件下,基于感知加權(quán)均方誤差代價(jià)函數(shù)的DNN訓(xùn)練有利于語音可懂度的提高。大多數(shù)信噪比下,經(jīng)過wMSE+MSSNR-DNN方法處理以后的增強(qiáng)語音的STOI值高于其它3種深度學(xué)習(xí)方法,這是由于利用人耳聽覺系統(tǒng)的感知特性,對均方誤差進(jìn)行感知加權(quán),并將其和頻域加權(quán)分段信噪比結(jié)合,可以進(jìn)一步提高增強(qiáng)語音的可懂度。但是,當(dāng)SNR=5 dB時(shí),wMSE+MSSNR-DNN方法得到STOI值下降,這可能是由于該方法通過采用感知加權(quán),在一定程度上造成了語音信息丟失。在大多數(shù)信噪比條件下,MSSNR-DNN方法優(yōu)于MSE-DNN方法和wMSE-DNN方法。但是,在高信噪比環(huán)境中,特別是當(dāng)SNR=20 dB時(shí),雖然通過MSSNR-DNN方法得到的語音質(zhì)量和MSE-DNN方法、wMSE-DNN方法相比略有下降,但是增強(qiáng)語音的可懂度分別提高了0.012和0.003,這是由于頻域加權(quán)分段信噪比和語音可懂度高度相關(guān)。
圖3表示TIMIT語料庫中的一條干凈語音,SNR=-5 dB 的含噪語音,以及通過5種不同的方法得到的增強(qiáng)語音的語譜圖。從圖3(b)可以看出當(dāng)SNR=-5 dB時(shí),語音信息被噪聲掩蓋。從圖3(c)看出傳統(tǒng)的LogMMSE方法存在的殘留噪聲和語音失真問題嚴(yán)重。從圖3(e)可以看出wMSE-DNN方法和其它4種方法相比,殘留噪聲最少,但是語音信息的損失情況最為嚴(yán)重,因此難以提高語音可懂度。通過比較圖3(d)、圖3(e)和圖3(f)可以看出,MSSNR-DNN方法可以有效地恢復(fù)語音信息,從而提高增強(qiáng)語音的可懂度,但是語音段間仍然存在殘留噪聲。從圖3(g)可以看出,利用wMSE+MSSNR-DNN方法,可以進(jìn)一步抑制殘留噪聲,同時(shí)保留更多的語音信息,這表明該方法可以保留更多對人耳聽覺感知有重要作用的語音段,因此語音可懂度進(jìn)一步提高。
圖3 語音信號的語譜圖比較
本文提出了一種基于感知相關(guān)代價(jià)函數(shù)的深度神經(jīng)網(wǎng)絡(luò)語音增強(qiáng)算法。在基于DNN的語音增強(qiáng)回歸問題中,使用基于本文提出的兩種感知相關(guān)代價(jià)函數(shù)進(jìn)行DNN訓(xùn)練,可以保留對人類聽覺感知更為重要的頻帶,并且有效提高增強(qiáng)語音的質(zhì)量和可懂度。
今后可以嘗試將其它能夠表征人類聽覺感知特性的心理聲學(xué)特征引入代價(jià)函數(shù)的計(jì)算中。此外,下一步可以將本文提出的聯(lián)合優(yōu)化代價(jià)函數(shù)中的wMSE和MSSNR進(jìn)行權(quán)重設(shè)置,探究不同權(quán)重因子對語音增強(qiáng)性能的影響。