袁文浩 孫文珠 夏斌 歐世峰
語(yǔ)音增強(qiáng)是噪聲環(huán)境下語(yǔ)音信號(hào)處理的必要環(huán)節(jié)[1].傳統(tǒng)的基于統(tǒng)計(jì)的語(yǔ)音增強(qiáng)方法一般通過(guò)假設(shè)語(yǔ)音和噪聲服從某種分布或者具有某些特性來(lái)從含噪語(yǔ)音中估計(jì)純凈語(yǔ)音,這些方法對(duì)于平穩(wěn)噪聲具有較好的處理效果,但在高度非平穩(wěn)噪聲和低信噪比情況下其處理性能將會(huì)急劇惡化[2?5].
近年來(lái),深度學(xué)習(xí)成為了機(jī)器學(xué)習(xí)領(lǐng)域的研究熱點(diǎn),深度神經(jīng)網(wǎng)絡(luò)(Deep neural network,DNN)在圖像分類和語(yǔ)音識(shí)別領(lǐng)域的成功應(yīng)用為解決復(fù)雜多變?cè)肼暛h(huán)境下的語(yǔ)音增強(qiáng)問(wèn)題提供了思路.與其他機(jī)器學(xué)習(xí)方法相比,深度神經(jīng)網(wǎng)絡(luò)具有更加強(qiáng)大的學(xué)習(xí)能力,通過(guò)使用大量純凈語(yǔ)音和含噪語(yǔ)音樣本數(shù)據(jù)進(jìn)行模型的訓(xùn)練,能夠有效提高語(yǔ)音增強(qiáng)方法對(duì)不同噪聲的適應(yīng)能力,相比傳統(tǒng)有監(jiān)督方法具有更強(qiáng)的泛化能力,對(duì)沒(méi)有經(jīng)過(guò)訓(xùn)練的未知噪聲也有比較好的處理效果.基于深度神經(jīng)網(wǎng)絡(luò)的語(yǔ)音增強(qiáng)方法的有效性已在很多文獻(xiàn)中得到證明,文獻(xiàn)[6]訓(xùn)練DNN作為一個(gè)二值分類器來(lái)估計(jì)含噪語(yǔ)音的IBM(Ideal binary mask),克服了基于核函數(shù)的機(jī)器學(xué)習(xí)方法對(duì)大規(guī)模數(shù)據(jù)存在的計(jì)算復(fù)雜度難題,提高了對(duì)未知噪聲的適應(yīng)能力,取得了優(yōu)于傳統(tǒng)方法的語(yǔ)音增強(qiáng)性能.文獻(xiàn)[7]采用更加有效的IRM(Ideal ratio mask)代替IBM 作為訓(xùn)練目標(biāo),并通過(guò)實(shí)驗(yàn)證明了相比其他方法,基于深度神經(jīng)網(wǎng)絡(luò)的語(yǔ)音增強(qiáng)方法明顯提高了增強(qiáng)語(yǔ)音的質(zhì)量和可懂度.不同于上述方法中使用的基于掩蔽的訓(xùn)練目標(biāo),Xu等將純凈語(yǔ)音的對(duì)數(shù)功率譜(Logarithmic power spectra,LPS)作為訓(xùn)練目標(biāo),以含噪語(yǔ)音的對(duì)數(shù)功率譜作為訓(xùn)練特征,通過(guò)訓(xùn)練DNN得到一個(gè)高度非線性的回歸函數(shù),來(lái)建立含噪語(yǔ)音對(duì)數(shù)功率譜與純凈語(yǔ)音對(duì)數(shù)功率譜之間的映射關(guān)系[8];并在文獻(xiàn)[9]中采用Global variance equalization、Dropout training和Noise-aware training三種策略進(jìn)一步改善該方法,使其在低信噪比、非平穩(wěn)噪聲環(huán)境下的語(yǔ)音增強(qiáng)性能相比傳統(tǒng)方法有了顯著提升.為了在語(yǔ)音增強(qiáng)時(shí)充分考慮相位信息,文獻(xiàn)[10]提出了復(fù)數(shù)域的掩蔽目標(biāo)cIRM(Complex IRM),通過(guò)同時(shí)估計(jì)掩蔽目標(biāo)的實(shí)部和虛部,相比使用其他訓(xùn)練目標(biāo)進(jìn)一步提高了語(yǔ)音增強(qiáng)性能.
除了設(shè)計(jì)不同的訓(xùn)練特征和訓(xùn)練目標(biāo),提高未知噪聲下語(yǔ)音增強(qiáng)性能的另外一種重要思路是提高訓(xùn)練集中噪聲的多樣性.文獻(xiàn)[9,11]分別采用包含104類和115類噪聲的訓(xùn)練集,提高了DNN對(duì)未知噪聲的處理能力;文獻(xiàn)[12?13]更是通過(guò)訓(xùn)練包含10000種不同噪聲的DNN來(lái)提高對(duì)未知噪聲的泛化能力,主客觀實(shí)驗(yàn)結(jié)果表明采用大數(shù)據(jù)量的訓(xùn)練集能顯著提高未知噪聲下的語(yǔ)音可懂度.另外,與直接增加訓(xùn)練集噪聲類型數(shù)量的方法不同,文獻(xiàn)[14]采用對(duì)有限種類的噪聲施加不同的擾動(dòng)項(xiàng)的方式來(lái)提高噪聲特性的多樣性,實(shí)驗(yàn)結(jié)果表明該方法同樣能有效提高DNN的泛化能力.
上述基于深度神經(jīng)網(wǎng)絡(luò)的語(yǔ)音增強(qiáng)方法盡管在訓(xùn)練目標(biāo)的設(shè)計(jì)、訓(xùn)練特征的選擇以及訓(xùn)練集的規(guī)模上各有不同,但是它們所采用的網(wǎng)絡(luò)結(jié)構(gòu)均是全連接的DNN.為了進(jìn)一步提高未知噪聲下的語(yǔ)音增強(qiáng)性能,本文考慮使用深度學(xué)習(xí)的另外一種重要的網(wǎng)絡(luò)結(jié)構(gòu)—深度卷積神經(jīng)網(wǎng)絡(luò)(Deep convolutional neural network,DCNN)來(lái)進(jìn)行語(yǔ)音增強(qiáng).深度卷積神經(jīng)網(wǎng)絡(luò)在圖像識(shí)別等分類任務(wù)上已經(jīng)取得了巨大成功[15],其在二維圖像信號(hào)處理上相比DNN表現(xiàn)出了更好的性能.語(yǔ)音和噪聲信號(hào)在時(shí)域的相鄰幀和頻域的相鄰頻帶之間都具有很強(qiáng)的相關(guān)性,因此在基于深度神經(jīng)網(wǎng)絡(luò)的語(yǔ)音增強(qiáng)方法中,為了充分考慮時(shí)域和頻域的上下文關(guān)系,一般采用相鄰多幀的特征作為網(wǎng)絡(luò)的輸入,這種矩陣形式的輸入在時(shí)間和頻率兩個(gè)維度上的局部相關(guān)性與圖像中相鄰像素之間的相關(guān)性非常類似.如圖1和圖2所示,假設(shè)使用連續(xù)5幀的對(duì)數(shù)功率譜作為網(wǎng)絡(luò)的輸入,當(dāng)網(wǎng)絡(luò)結(jié)構(gòu)為全連接的DNN時(shí),由于其輸入層只有一個(gè)維度,因此要將包含時(shí)頻結(jié)構(gòu)信息的矩陣轉(zhuǎn)換為向量作為輸入;而當(dāng)網(wǎng)絡(luò)結(jié)構(gòu)為DCNN時(shí),則可以直接使用矩陣作為輸入,不破壞時(shí)頻結(jié)構(gòu).可見(jiàn),得益于DCNN在二維平面上的局部連接特性,使其相比DNN能夠更好地表達(dá)網(wǎng)絡(luò)輸入在時(shí)間和頻率兩個(gè)維度的內(nèi)在聯(lián)系,因而在語(yǔ)音增強(qiáng)時(shí)能夠更充分地利用語(yǔ)音和噪聲信號(hào)的時(shí)頻相關(guān)性.另外,DCNN通過(guò)權(quán)值共享極大減少了神經(jīng)網(wǎng)絡(luò)需要訓(xùn)練的參數(shù)的個(gè)數(shù),具有更好的泛化能力,對(duì)未訓(xùn)練噪聲理論上應(yīng)該有更好的處理性能.
圖1 DNN結(jié)構(gòu)示意圖Fig.1 Schematic diagram of DNN
圖2 DCNN結(jié)構(gòu)示意圖Fig.2 Schematic diagram of DCNN
實(shí)際上,對(duì)于語(yǔ)音信號(hào)處理,CNN(Convolutional neural network)以及DCNN已經(jīng)在語(yǔ)音識(shí)別任務(wù)中得到成功應(yīng)用,取得了超越DNN/HMM系統(tǒng)的語(yǔ)音識(shí)別性能,證明了其對(duì)于語(yǔ)音信號(hào)同樣具有較好的特征提取能力[16?18],文獻(xiàn)[19?23]更是采用極深層的卷積神經(jīng)網(wǎng)絡(luò)顯著提高了語(yǔ)音識(shí)別性能.但是在語(yǔ)音識(shí)別任務(wù)中,DCNN的最后一層一般采用Softmax來(lái)預(yù)測(cè)狀態(tài)概率,因此本質(zhì)上也是一個(gè)分類問(wèn)題;而基于深度神經(jīng)網(wǎng)絡(luò)的語(yǔ)音增強(qiáng)方法一般將語(yǔ)音增強(qiáng)歸結(jié)為回歸問(wèn)題進(jìn)行解決,因此傳統(tǒng)的網(wǎng)絡(luò)結(jié)構(gòu)并不適合.文獻(xiàn)[24]以幅度譜向量作為訓(xùn)練特征和訓(xùn)練目標(biāo),采用不包含全連接層的FCNN(Fully convolutional neural network)來(lái)進(jìn)行語(yǔ)音增強(qiáng),雖然大幅度降低了訓(xùn)練參數(shù)的規(guī)模,但是相比DNN并沒(méi)有明顯提高增強(qiáng)后語(yǔ)音的質(zhì)量和可懂度;文獻(xiàn)[25]采用CNN對(duì)LPS特征進(jìn)行建模,通過(guò)同時(shí)學(xué)習(xí)純凈語(yǔ)音和信噪比,研究了SNR?aware算法對(duì)語(yǔ)音增強(qiáng)性能的影響,但是并沒(méi)有對(duì)不同網(wǎng)絡(luò)結(jié)構(gòu)的語(yǔ)音增強(qiáng)性能進(jìn)行深入分析.為了提高語(yǔ)音增強(qiáng)性能,特別是未知噪聲下的語(yǔ)音增強(qiáng)性能,本文通過(guò)對(duì)不同網(wǎng)絡(luò)結(jié)構(gòu)的語(yǔ)音增強(qiáng)性能進(jìn)行對(duì)比與分析,設(shè)計(jì)針對(duì)語(yǔ)音增強(qiáng)問(wèn)題的合理DCNN網(wǎng)絡(luò)結(jié)構(gòu),提出基于深度卷積神經(jīng)網(wǎng)絡(luò)的語(yǔ)音增強(qiáng)方法;最后通過(guò)實(shí)驗(yàn)度量增強(qiáng)語(yǔ)音的質(zhì)量和可懂度,對(duì)方法在未知噪聲下的語(yǔ)音增強(qiáng)性能進(jìn)行客觀評(píng)價(jià).
假設(shè)含噪語(yǔ)音y由純凈語(yǔ)音s和加性噪聲d組成,
語(yǔ)音增強(qiáng)的目的就是在已知y的條件下得到s的估計(jì)值,假設(shè)y,s和在第n幀的短時(shí)傅里葉變換(Short-time Fourier transform,STFT)形式分別為Yn,kexp(jαn,k),Sn,kexp(j?n,k)和其中k=1,2,···,K是頻帶序號(hào),忽略相位信息,對(duì)第n幀的信號(hào)而言,STFT域上的語(yǔ)音增強(qiáng)任務(wù)就是最小化如下的誤差函數(shù)
令Sn和分別表示純凈語(yǔ)音第n幀的幅度譜向量及其估計(jì)值,該誤差函數(shù)可以改寫(xiě)為
基于深度學(xué)習(xí)的語(yǔ)音增強(qiáng)的基本思想可以描述為:通過(guò)訓(xùn)練網(wǎng)絡(luò)參數(shù)集合θ構(gòu)造一個(gè)高度復(fù)雜的非線性函數(shù)fθ,使得誤差函數(shù)
最小,從而得到目標(biāo)輸出
其中
表示第n幀的訓(xùn)練特征,由以第n幀為中心的共(2N+1)幀的含噪語(yǔ)音的幅度譜向量構(gòu)成,(2N+1)即為輸入窗長(zhǎng).
為了構(gòu)造類似于圖像處理DCNN的網(wǎng)絡(luò)輸入,同時(shí)在保證時(shí)域語(yǔ)音信號(hào)重構(gòu)簡(jiǎn)單的前提下提高網(wǎng)絡(luò)性能,我們采用對(duì)數(shù)運(yùn)算對(duì)Xn和Sn的范圍進(jìn)行縮放,設(shè)計(jì)如下的訓(xùn)練特征和訓(xùn)練目標(biāo)
其中,Zn和Tn是幅度譜的變換形式,且其值不小于0,因此稱其為非負(fù)對(duì)數(shù)幅度譜(Nonnegative logarithmic amplitude spectra,NLAS).
DCNN采用小批量梯度下降法進(jìn)行訓(xùn)練,本文使用的損失函數(shù)定義為
其中,M代表網(wǎng)絡(luò)訓(xùn)練所采用的Mini-batch的大小.
網(wǎng)絡(luò)訓(xùn)練完成后,在進(jìn)行語(yǔ)音增強(qiáng)時(shí),對(duì)第n幀的純凈語(yǔ)音sn,使用訓(xùn)練目標(biāo)的估計(jì)值與含噪語(yǔ)音第n幀的相位譜向量αn進(jìn)行時(shí)域信號(hào)的重構(gòu)
n即為增強(qiáng)后的語(yǔ)音信號(hào).
借鑒在圖像識(shí)別中使用的典型DCNN的結(jié)構(gòu),依據(jù)本文所采用的訓(xùn)練特征和訓(xùn)練目標(biāo),構(gòu)造如圖3所示的DCNN.可見(jiàn),本文設(shè)計(jì)的網(wǎng)絡(luò)結(jié)構(gòu)與典型DCNN的最大不同在于最后幾層全連接層的設(shè)計(jì),典型DCNN在全連接層后要經(jīng)過(guò)一個(gè)Softmax層來(lái)計(jì)算分類結(jié)果,而本文網(wǎng)絡(luò)則是直接通過(guò)全連接層計(jì)算目標(biāo)向量.更深的網(wǎng)絡(luò)結(jié)構(gòu)、更多的節(jié)點(diǎn)數(shù)量或?yàn)V波器數(shù)量能夠提高網(wǎng)絡(luò)的性能,但同時(shí)也增加了網(wǎng)絡(luò)的復(fù)雜程度和訓(xùn)練難度,對(duì)于本文實(shí)驗(yàn),依據(jù)訓(xùn)練集的數(shù)據(jù)規(guī)模,通過(guò)權(quán)衡網(wǎng)絡(luò)性能及訓(xùn)練難度之間的關(guān)系,我們采用了包含3個(gè)卷積層和2個(gè)全連接層的網(wǎng)絡(luò)結(jié)構(gòu),其中全連接層的節(jié)點(diǎn)數(shù)量設(shè)為1024,卷積層濾波器的個(gè)數(shù)除第一層為64外,其余設(shè)為128.
具體的網(wǎng)絡(luò)結(jié)構(gòu)設(shè)計(jì)如下:
1)輸入層
網(wǎng)絡(luò)的輸入是多幀非負(fù)對(duì)數(shù)幅度譜向量構(gòu)成的特征矩陣.
2)卷積層
本文網(wǎng)絡(luò)包含3個(gè)卷積層,第一層采用的卷積濾波器大小為7×7,其余兩層的濾波器大小為3×3,步長(zhǎng)均設(shè)為1×1.
3)Batch normalization層
在每個(gè)卷積層和激活函數(shù)層之間都有一個(gè)Batch normalization層.
4)池化層
3個(gè)激活函數(shù)層后是3個(gè)池化層,均采用Maxpooling,濾波器大小3×3,步長(zhǎng)為2×2.
5)全連接層
3個(gè)卷積層之后是2個(gè)全連接層(Fully connected)和2個(gè)激活函數(shù)層.
6)輸出層
網(wǎng)絡(luò)的最后一層是129個(gè)節(jié)點(diǎn)的全連接層,對(duì)應(yīng)129維的目標(biāo)輸出.
圖3 本文DCNN的結(jié)構(gòu)框圖Fig.3 Structure diagram of the proposed DCNN
實(shí)驗(yàn)所用的純凈語(yǔ)音全部來(lái)自TIMIT語(yǔ)音數(shù)據(jù)庫(kù)[26],所用的噪聲包含俄亥俄州立大學(xué)Perception and Neurodynamics實(shí)驗(yàn)室的100類噪聲[27],以及文獻(xiàn)[11]中的15類噪聲.語(yǔ)音和噪聲信號(hào)的采樣頻率均轉(zhuǎn)換為8kHz,短時(shí)傅里葉變換的幀長(zhǎng)為32ms(256點(diǎn)),幀移為16ms(128點(diǎn)),相應(yīng)的非負(fù)對(duì)數(shù)幅度譜特征向量和訓(xùn)練目標(biāo)的維度為129.訓(xùn)練集由100000段含噪語(yǔ)音(約80小時(shí))構(gòu)成,使用TIMIT語(yǔ)音庫(kù)的Training集的4620段純凈語(yǔ)音和115類噪聲按照?5dB、0dB、5dB、10dB和15dB五種不同的信噪比合成得到.每段含噪語(yǔ)音的具體合成方法如下:每次從4620段純凈語(yǔ)音中隨機(jī)選取1段,并從115類噪聲中隨機(jī)選取1類,然后將該類噪聲的隨機(jī)截取片段按照從5種信噪比中隨機(jī)選取的1種混入語(yǔ)音中.測(cè)試集采用TIMIT語(yǔ)音庫(kù)的Core test集的192段語(yǔ)音合成,噪聲數(shù)據(jù)采用來(lái)自Noisex92噪聲庫(kù)的與訓(xùn)練集噪聲完全不同的4類未知噪聲[28],分別是Factory2、Buccaneer1、Destroyer engine、HF channel噪聲.對(duì)于每一類噪聲,將192段語(yǔ)音分別按照?5dB、0dB和5dB的全局信噪比與該類噪聲的隨機(jī)截取片段進(jìn)行混合,4類噪聲合成的測(cè)試集總共包含2304(192×3×4)段含噪語(yǔ)音.
本文通過(guò)對(duì)增強(qiáng)語(yǔ)音進(jìn)行客觀評(píng)價(jià)來(lái)比較不同方法的語(yǔ)音增強(qiáng)性能,主要采用PESQ(Perceptual evaluation of speech quality)作為指標(biāo)來(lái)評(píng)價(jià)增強(qiáng)語(yǔ)音的質(zhì)量[29],并采用STOI(Short time objective intelligibility)作為指標(biāo)來(lái)評(píng)價(jià)增強(qiáng)語(yǔ)音的可懂度[30].PESQ即語(yǔ)音質(zhì)量感知評(píng)估是ITU-T(國(guó)際電信聯(lián)盟電信標(biāo)準(zhǔn)化部)推薦的語(yǔ)音質(zhì)量評(píng)估指標(biāo),其得分范圍為?0.5~4.5,越高的得分表示越高的語(yǔ)音質(zhì)量.STOI即短時(shí)客觀可懂度,則主要衡量語(yǔ)音的可懂度,其得分范圍為0~1,越高的得分表示語(yǔ)音具有越好的可懂度.
下面通過(guò)一系列實(shí)驗(yàn)對(duì)本文提出的DCNN的語(yǔ)音增強(qiáng)性能以及可能影響網(wǎng)絡(luò)性能的關(guān)鍵因素進(jìn)行分析.
為了驗(yàn)證本文所提出的DCNN在語(yǔ)音增強(qiáng)中的有效性,我們將其與DNN進(jìn)行比較.作為對(duì)比的DNN具有5個(gè)隱層,每個(gè)隱層有1024個(gè)節(jié)點(diǎn),激活函數(shù)為ReLU;為了防止過(guò)擬合,提高泛化能力,每個(gè)隱層后面均伴有一個(gè)Dropout層,Dropout的比例為0.2.DNN和DCNN均采用式(7)定義的非負(fù)對(duì)數(shù)幅度譜作為訓(xùn)練目標(biāo),并采用式(8)定義的訓(xùn)練特征作為網(wǎng)絡(luò)的輸入;其中,對(duì)于DCNN,為了適應(yīng)其網(wǎng)絡(luò)結(jié)構(gòu),輸入窗長(zhǎng)設(shè)為15幀;對(duì)于DNN,為了更好地進(jìn)行對(duì)比,其輸入窗長(zhǎng)分別設(shè)為與文獻(xiàn)[9]相同的11幀(DNN_11F),以及與DCNN相同的15幀(DNN_15F).mini-batch的大小均為128,沖量因子均設(shè)為0.9,迭代次數(shù)均為20.本文的所有網(wǎng)絡(luò)均使用微軟的Cognitive Toolkit進(jìn)行訓(xùn)練[31].
首先通過(guò)比較DNN和DCNN的訓(xùn)練誤差和測(cè)試誤差來(lái)分析兩種網(wǎng)絡(luò)的性能,圖4給出了不同訓(xùn)練階段所對(duì)應(yīng)的訓(xùn)練集和測(cè)試集的均方誤差,可見(jiàn),兩種DNN在訓(xùn)練集和測(cè)試集上的均方誤差(MSE)都十分接近,這表明兩種DNN具有相似的語(yǔ)音增強(qiáng)性能;而DCNN在訓(xùn)練集和測(cè)試集上的均方誤差都要明顯小于兩種DNN,表明DCNN具有更好的語(yǔ)音增強(qiáng)性能.
為了進(jìn)一步比較DNN和DCNN的語(yǔ)音增強(qiáng)性能,我們對(duì)測(cè)試集含噪語(yǔ)音通過(guò)三種方法進(jìn)行增強(qiáng)后得到的增強(qiáng)語(yǔ)音的平均語(yǔ)音質(zhì)量和可懂度進(jìn)行比較,表1和表2分別給出了在4類不同噪聲和3種不同信噪比下增強(qiáng)語(yǔ)音的平均PESQ和STOI得分,并給出了未處理的含噪語(yǔ)音的平均PESQ和STOI得分作為對(duì)比.可見(jiàn),通過(guò)采用多類噪聲進(jìn)行訓(xùn)練,對(duì)于4種未經(jīng)訓(xùn)練的噪聲類型,兩種方法均能有效提升語(yǔ)音質(zhì)量和可懂度,并且在兩種不同的指標(biāo)中,DCNN在不同噪聲類型和不同信噪比條件下均取得了優(yōu)于兩種DNN的結(jié)果.
表1 三種方法的平均PESQ得分Table 1 The average PESQ score for three methods
表2 三種方法的平均STOI得分Table 2 The average STOI score for three methods
另外,我們還在表3給出了含噪語(yǔ)音和增強(qiáng)語(yǔ)音的分段信噪比(Segmental SNR,SegSNR),分段信噪比同樣是衡量語(yǔ)音質(zhì)量的重要指標(biāo),它比全局信噪比更接近實(shí)際的語(yǔ)音質(zhì)量;分段信噪比越大,代表主觀的語(yǔ)音質(zhì)量越好.與PESQ和STOI指標(biāo)下的結(jié)果一致,采用DCNN增強(qiáng)后的語(yǔ)音取得了最佳的分段信噪比.值得注意的是,兩種DNN在三種指標(biāo)下都取得了非常相近的結(jié)果,這與文獻(xiàn)[9]的描述是一致的.
表3 三種方法的平均SegSNRTable 3 The average SegSNR for three methods
圖4 兩種網(wǎng)絡(luò)的訓(xùn)練誤差和測(cè)試誤差Fig.4 Training error and testing error of two networks
為了更加直觀地比較兩種方法的語(yǔ)音增強(qiáng)性能,我們分別采用三種方法對(duì)一段含有Factory2噪聲信噪比為?5dB的含噪語(yǔ)音進(jìn)行語(yǔ)音增強(qiáng),然后比較其增強(qiáng)語(yǔ)音的語(yǔ)譜圖.圖5(a)和(b)分別給出了含噪語(yǔ)音與其相應(yīng)的純凈語(yǔ)音的語(yǔ)譜圖,圖5(c)~(e)則分別給出了采用DNN_11F、DNN_15F以及DCNN增強(qiáng)后語(yǔ)音的語(yǔ)譜圖.可以看到,DCNN增強(qiáng)后語(yǔ)音的殘留噪聲成分更少,語(yǔ)音的純凈度更高,其語(yǔ)譜圖與純凈語(yǔ)音的語(yǔ)譜圖更加接近.
圖5 ?5dB的Factory2噪聲下的增強(qiáng)語(yǔ)音語(yǔ)譜圖示例Fig.5 An example of spectrogram of enhanced speech under Factory2 noise at?5dB SNR
對(duì)于圖像和語(yǔ)音這種具有局部強(qiáng)相關(guān)性的信號(hào),卷積層具有很好的特征提取能力,但是由于語(yǔ)音增強(qiáng)是一個(gè)回歸問(wèn)題,網(wǎng)絡(luò)的最后輸出對(duì)應(yīng)的是純凈語(yǔ)音的功率譜,所以還需要通過(guò)全連接層來(lái)進(jìn)行數(shù)據(jù)的擬合.在本文使用的網(wǎng)絡(luò)結(jié)構(gòu)中,不同的卷積層和全連接層的數(shù)量會(huì)帶來(lái)網(wǎng)絡(luò)性能的差別,圖6給出了不同網(wǎng)絡(luò)配置下增強(qiáng)后語(yǔ)音的平均PESQ得分提升和平均STOI得分提升.可見(jiàn),當(dāng)網(wǎng)絡(luò)包含3個(gè)卷積層和2個(gè)全連接層時(shí),在3種不同的信噪比下兩種指標(biāo)都得到了最高的提升值,表明該網(wǎng)絡(luò)結(jié)構(gòu)具有最好的語(yǔ)音增強(qiáng)性能.
Max-pooling的直接作用是通過(guò)選取特征的局部最大值達(dá)到降低特征維度的目的.在含噪語(yǔ)音功率譜的相鄰時(shí)頻單元中,局部最大值一般含有語(yǔ)音成分,而局部最小值一般為噪聲成分,傳統(tǒng)的基于最小統(tǒng)計(jì)的噪聲估計(jì)方法正是基于此原則.因此,池化層的存在將對(duì)時(shí)頻單元起到一定的篩選作用,能夠通過(guò)篩掉局部較小值達(dá)到抑制噪聲成分的目的.
為了檢驗(yàn)池化層對(duì)于網(wǎng)絡(luò)性能的影響,我們將卷積層的步長(zhǎng)設(shè)為2,并去掉池化層,訓(xùn)練得到不含池化層的網(wǎng)絡(luò)模型.圖7給出了不同信噪比下包含池化層(Max-pooling)和不含池化層(No pooling)的網(wǎng)絡(luò)增強(qiáng)后語(yǔ)音的平均PESQ得分提升和平均STOI得分提升,綜合分析兩種指標(biāo)可知,在較低信噪比的?5dB和0dB兩種情況下,包含池化層的網(wǎng)絡(luò)的語(yǔ)音增強(qiáng)性能略好于不含池化層的網(wǎng)絡(luò).
圖6 卷積層數(shù)量對(duì)網(wǎng)絡(luò)性能的影響Fig.6 The in fluence of the number of convolutional layers on the network performance
圖7 池化層對(duì)網(wǎng)絡(luò)性能的影響Fig.7 The in fluence of the pooling layers on the network performance
通過(guò)對(duì)比兩種網(wǎng)絡(luò)增強(qiáng)后語(yǔ)音的語(yǔ)譜圖來(lái)進(jìn)一步觀察池化層的影響,圖8(a)和圖8(b)分別給出了一段含有?5dB的HF channel噪聲的含噪語(yǔ)音與其相應(yīng)的純凈語(yǔ)音的語(yǔ)譜圖,圖8(c)和圖8(d)則分別給出了采用包含池化層和不含池化層的網(wǎng)絡(luò)增強(qiáng)后語(yǔ)音的語(yǔ)譜圖.由圖8可見(jiàn),與上述分析一致,包含池化層的網(wǎng)絡(luò)增強(qiáng)后語(yǔ)音的殘留噪聲明顯少于不含池化層網(wǎng)絡(luò)增強(qiáng)后語(yǔ)音,表明Max-pooling的存在確實(shí)能帶來(lái)更好的噪聲抑制效果.
圖8 ?5dB的HF channel噪聲下的增強(qiáng)語(yǔ)音語(yǔ)譜圖示例Fig.8 An example of spectrogram of enhanced speech under HF channel noise at?5dB SNR
Batch normalization是深度卷積神經(jīng)網(wǎng)絡(luò)中的常用技術(shù),Batch normalization層的引入往往可以加快收斂過(guò)程,提升訓(xùn)練速度,并能防止過(guò)擬合.為了檢驗(yàn)Batch normalization層對(duì)本文網(wǎng)絡(luò)結(jié)構(gòu)的影響,我們?nèi)サ艟W(wǎng)絡(luò)中的Batch normalization層,訓(xùn)練得到不含Batch normalization層的網(wǎng)絡(luò)模型.圖9給出了不同信噪比下包含Batch normalization層(BN)和不含Batch normalization層(No BN)的網(wǎng)絡(luò)增強(qiáng)后語(yǔ)音的平均PESQ得分提升和平均STOI得分提升,在兩種指標(biāo)下,不包含Batch normalization層的網(wǎng)絡(luò)模型都略好于包含Batch normalization層的網(wǎng)絡(luò)模型,表明Batch normalization層的引入并沒(méi)有提升本文網(wǎng)絡(luò)結(jié)構(gòu)的語(yǔ)音增強(qiáng)性能.可見(jiàn),對(duì)于本文相對(duì)簡(jiǎn)單的網(wǎng)絡(luò)結(jié)構(gòu),Batch normalization并沒(méi)有明顯的作用,可以去掉.
下面通過(guò)實(shí)驗(yàn)對(duì)文獻(xiàn)[9]采用的LPS與本文采用的NLAS兩種特征進(jìn)行比較,分別采用DNN和DCNN對(duì)兩種特征進(jìn)行訓(xùn)練.其中,訓(xùn)練LPS的DNN(LPS-DNN)與訓(xùn)練NLAS的DNN(NLASDNN)均為與前文相似的包含5個(gè)隱層的DNN,需要注意的是兩種DNN采用的激活函數(shù)是Sigmoid函數(shù),因?yàn)樵谖覀兊膶?shí)驗(yàn)中,當(dāng)訓(xùn)練特征為L(zhǎng)PS時(shí),如果采用ReLU作為激活函數(shù),會(huì)造成訓(xùn)練過(guò)程不收斂;訓(xùn)練LPS的DCNN(LPS-DCNN)與前文的NLAS-DCNN結(jié)構(gòu)一致.圖10分別給出了4種測(cè)試集噪聲在不同信噪比下采用4種方法增強(qiáng)后語(yǔ)音的平均PESQ和STOI得分.可見(jiàn),在相同特征下,DCNN的語(yǔ)音增強(qiáng)性能明顯好于DNN;在相同的網(wǎng)絡(luò)結(jié)構(gòu)下,采用NLAS特征訓(xùn)練得到的網(wǎng)絡(luò)模型在3種不同信噪比下都取得了較好的語(yǔ)音可懂度,并且在低信噪比(?5dB)下取得了較好的語(yǔ)音質(zhì)量,表明NLAS特征能夠更好地保留含噪語(yǔ)音中的語(yǔ)音成分,更加適用于低信噪比下的語(yǔ)音增強(qiáng).
圖9 Batch normalization層對(duì)網(wǎng)絡(luò)性能的影響Fig.9 The in fluence of the batch normalization layers on the network performance
圖10 兩種特征訓(xùn)練得到的DNN和DCNN的性能比較Fig.10 The performance comparisons for DNN and DCNN trained using two kinds of feature
為了進(jìn)一步驗(yàn)證本文DCNN的語(yǔ)音增強(qiáng)性能,將其與LSTM(Long-short term memory)以及文獻(xiàn)[24]中的FCNN進(jìn)行比較.其中LSTM包含5個(gè)隱層,Cell維度為256;FCNN包含16個(gè)卷積層,每層濾波器的個(gè)數(shù)分別為:10,12,14,15,19,21,23,25,23,21,19,15,14,12,10,1.圖11分別給出了各種方法增強(qiáng)后語(yǔ)音的平均PESQ、平均STOI和平均SegSNR,同時(shí)給出DNN對(duì)應(yīng)的結(jié)果作為對(duì)比.通過(guò)綜合分析3種指標(biāo)可知,DCNN取得了最佳的語(yǔ)音增強(qiáng)性能,LSTM次之,FCNN略好于DNN.
圖11 兩種特征訓(xùn)練得到的DNN和DCNN的性能比較Fig.11 The performance comparisons for DNN and DCNN trained using two kinds of feature
為了進(jìn)一步提高未知噪聲下的語(yǔ)音增強(qiáng)性能,考慮DCNN相比DNN具有更好的局部特征表達(dá)能力,能夠更好地利用語(yǔ)音和噪聲信號(hào)的時(shí)頻相關(guān)性,本文采用深度卷積神經(jīng)網(wǎng)絡(luò)建立回歸模型來(lái)表達(dá)含噪語(yǔ)音和純凈語(yǔ)音之間的復(fù)雜非線性關(guān)系.通過(guò)使用非負(fù)對(duì)數(shù)幅度譜作為訓(xùn)練特征和訓(xùn)練目標(biāo),設(shè)計(jì)與訓(xùn)練了不同結(jié)構(gòu)的DCNN并對(duì)其語(yǔ)音增強(qiáng)性能進(jìn)行了比較,得到了適合于語(yǔ)音增強(qiáng)問(wèn)題的合理網(wǎng)絡(luò)結(jié)構(gòu),提出了基于深度卷積神經(jīng)網(wǎng)絡(luò)的語(yǔ)音增強(qiáng)方法.實(shí)驗(yàn)結(jié)果表明,在與DNN及其他方法的對(duì)比中,本文提出的DCNN在測(cè)試集上取得了更小的誤差,表現(xiàn)出了更好的噪聲抑制能力,在各類噪聲和各種信噪比條件下都顯著提升了增強(qiáng)后語(yǔ)音的語(yǔ)音質(zhì)量和可懂度,進(jìn)一步提高了未知噪聲下的語(yǔ)音增強(qiáng)性能.
References
1 Loizou P C.Speech Enhancement:Theory and Practice.Florida:CRC Press,2013.
2 Ephraim Y,Malah D.Speech enhancement using a minimum mean-square error log-spectral amplitude estimator.IEEE Transactions on Acoustics,Speech,and Signal Processing,1985,33(2):443?445
3 Cohen I.Noise spectrum estimation in adverse environments:Improved minima controlled recursive averaging.IEEE Transactions on speech and audio processing,2003,11(5):466?475
4 Mohammadiha N,Smaragdis P,Leijon A.Supervised and unsupervised speech enhancement using nonnegative matrix factorization.IEEE Transactions on Audio,Speech,and Language Processing,2013,21(10):2140?2151
5 Liu Wen-Ju,Nie Shuai,Liang Shan,Zhang Xue-Liang.Deep learning based speech separation technology and its developments.Acta Automatica Sinica,2016,42(6):819?833(劉文舉,聶帥,梁山,張學(xué)良.基于深度學(xué)習(xí)語(yǔ)音分離技術(shù)的研究現(xiàn)狀與進(jìn)展.自動(dòng)化學(xué)報(bào),2016,42(6):819?833)
6 Wang Y X,Wang D L.Towards scaling up classi ficationbased speech separation.IEEE Transactions on Audio,Speech,and Language Processing,2013,21(7):1381?1390
7 Wang Y X,Narayanan A,Wang D L.On training targets for supervised speech separation.IEEE Transactions on Audio,Speech,and Language Processing,2014,22(12):1849?1858
8 Xu Y,Du J,Dai L R,Lee C H.An experimental study on speech enhancement based on deep neural networks.IEEE Signal Processing Letters,2014,21(1):65?68
9 Xu Y,Du J,Dai L R,Lee C H.A regression approach to speech enhancement based on deep neural networks.IEEE/ACM Transactions on Audio,Speech,and Language Processing,2015,23(1):7?19
10 Williamson D S,Wang Y X,Wang D L.Complex ratio masking for monaural speech separation.IEEE/ACM Transactions on Audio,Speech,and Language Processing,2016,24(3):483?492
11 Xu Y,Du J,Huang Z,Dai L R,Lee C H.Multi-objective learning and mask-based post-processing for deep neural network based speech enhancement.In:Proceedings of the 16th Annual Conference of the International Speech Communication Association.Dresden,Germany:ISCA,2015.1508?1512
12 Wang Y X,Chen J T,Wang D L.Deep Neural Network Based Supervised Speech Segregation Generalizes to Novel Noises Through Large-scale Training,Technical Report OSU-CISRC-3/15-TR02,Department of Computer Science and Engineering,The Ohio State University,Columbus,Ohio,USA,2015
13 Chen J T,Wang Y X,Yoho S E,Wang D L,Healy E W.Large-scale training to increase speech intelligibility for hearing-impaired listeners in novel noises.The Journal of the Acoustical Society of America,2016,139(5):2604?2612
14 Chen J T,Wang Y X,Wang D L.Noise perturbation for supervised speech separation.Speech Communication,2016,78:1?10
15 Krizhevsky A,Sutskever I,Hinton G E.ImageNet classi fication with deep convolutional neural networks.In:Proceedings of the International Conference on Neural Information Processing Systems.Nevada,USA:Curran Associates Inc.2012.1097?1105
16 Abdel-Hamid O,Mohamed A,Jiang H,Penn G.Applying convolutional neural networks concepts to hybrid NN-HMM model for speech recognition.In:Proceedings of the 2012 IEEE International Conference on Acoustics,Speech and Signal Processing.Kyoto,Japan:IEEE,2012.4277?4280
17 Abdel-Hamid O,Deng L,Yu D.Exploring convolutional neural network structures and optimization techniques for speech recognition.In:Proceedings of the 14th Annual Conference of the International Speech Communication Association.Lyon,France:ISCA,2013.3366?3370
18 Sainath T N,Kingsbury B,Saon G,Soltau H,Mohamed A R,Dahl G,Ramabhadran B.Deep convolutional neural networks for large-scale speech tasks.Neural Networks,2015,64:39?48
19 Qian Y M,Bi M X,Tan T,Yu K.Very deep convolutional neural networks for noise robust speech recognition.IEEE/ACM Transactions on Audio,Speech and Language Processing,2016,24(12):2263?2276
20 Bi M X,Qian Y M,Yu K.Very deep convolutional neural networks for LVCSR.In:Proceedings of the 16th Annual Conference of the International Speech Communication Association.Dresden,Germany:ISCA,2015.3259?3263
21 Qian Y,Woodland P C.Very deep convolutional neural networks for robust speech recognition.In:Proceedings of the 2016 IEEE Spoken Language Technology Workshop.San Juan,Puerto Rico:IEEE,2016.481?488
22 Sercu T,Puhrsch C,Kingsbury B,LeCun Y.Very deep multilingual convolutional neural networks for LVCSR.In:Proceedings of the 2016 IEEE International Conference on Acoustics,Speech and Signal Processing.Shanghai,China:IEEE,2016.4955?4959
23 Sercu T,Goel V.Advances in very deep convolutional neural networks for LVCSR.In:Proceedings of the 16th Annual Conference of the International Speech Communication Association.California,USA:ISCA,2016.3429?3433
24 Park S R,Lee J.A fully convolutional neural network for speech enhancement.arXiv:1609.07132,2016.
25 Fu S W,Tsao Y,Lu X.SNR-Aware convolutional neural network modeling for speech enhancement.In:Proceedings of the 17th Annual Conference of the International Speech Communication Association.San Francisco,USA:ISCA,2016.8?12
26 Garofolo J S,Lamel L F,Fisher W M,Fiscus J G,Pallett D S,Dahlgren N L,Zue V.TIMIT acoustic-phonetic continuous speech corpus.Linguistic Data Consortium,Philadelphia,1993.
27 Hu G N.100 nonspeech sounds[online],available:http://web.cse.ohio-state.edu/pnl/corpus/HuNonspeech/HuCorpus.html,April 20,2004
28 Varga A,Steeneken Herman J M.Assessment for automatic speech recognition:II.NOISEX-92:a database and an experiment to study the effect of additive noise on speech recognition systems.Speech Communication,1993,12(3):247?251
29 Beerends J G,Rix A W,Hollier M P,Hekstra A P.Perceptual evaluation of speech quality(PESQ)—a new method for speech quality assessment of telephone networks and codecs.In:Proceedings of the 2001 IEEE International Conference on Acoustics,Speech and Signal Processing.Utah,USA:IEEE,2001.749?752
30 Taal C H,Hendriks R C,Heusdens R,Jensen J.An algorithm for intelligibility prediction of time-frequency weightednoisyspeech.IEEETransactionsonAudio,Speech,and Language Processing,2011,19(7):2125?2136
31 Yu D,Eversole A,Seltzer M L,Yao K S,Huang Z H,Guenter B,Kuchaiev O,Zhang Y,Seide F,Wang H M,Droppo J,Zweig G,Rossbach C,Currey J,Gao J,May A,Peng B L,Stolcke A,Slaney M.An Introduction to Computational Networks and the Computational Network Toolkit,Technical Report,Tech.Rep.MSR,Microsoft Research,2014.