• 
    

    
    

      99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看 ?

      利用深度卷積神經(jīng)網(wǎng)絡(luò)提高未知噪聲下的語(yǔ)音增強(qiáng)性能

      2018-05-15 01:31:53袁文浩孫文珠夏斌歐世峰
      自動(dòng)化學(xué)報(bào) 2018年4期
      關(guān)鍵詞:池化層網(wǎng)絡(luò)結(jié)構(gòu)信噪比

      袁文浩 孫文珠 夏斌 歐世峰

      語(yǔ)音增強(qiáng)是噪聲環(huán)境下語(yǔ)音信號(hào)處理的必要環(huán)節(jié)[1].傳統(tǒng)的基于統(tǒng)計(jì)的語(yǔ)音增強(qiáng)方法一般通過(guò)假設(shè)語(yǔ)音和噪聲服從某種分布或者具有某些特性來(lái)從含噪語(yǔ)音中估計(jì)純凈語(yǔ)音,這些方法對(duì)于平穩(wěn)噪聲具有較好的處理效果,但在高度非平穩(wěn)噪聲和低信噪比情況下其處理性能將會(huì)急劇惡化[2?5].

      近年來(lái),深度學(xué)習(xí)成為了機(jī)器學(xué)習(xí)領(lǐng)域的研究熱點(diǎn),深度神經(jīng)網(wǎng)絡(luò)(Deep neural network,DNN)在圖像分類和語(yǔ)音識(shí)別領(lǐng)域的成功應(yīng)用為解決復(fù)雜多變?cè)肼暛h(huán)境下的語(yǔ)音增強(qiáng)問(wèn)題提供了思路.與其他機(jī)器學(xué)習(xí)方法相比,深度神經(jīng)網(wǎng)絡(luò)具有更加強(qiáng)大的學(xué)習(xí)能力,通過(guò)使用大量純凈語(yǔ)音和含噪語(yǔ)音樣本數(shù)據(jù)進(jìn)行模型的訓(xùn)練,能夠有效提高語(yǔ)音增強(qiáng)方法對(duì)不同噪聲的適應(yīng)能力,相比傳統(tǒng)有監(jiān)督方法具有更強(qiáng)的泛化能力,對(duì)沒(méi)有經(jīng)過(guò)訓(xùn)練的未知噪聲也有比較好的處理效果.基于深度神經(jīng)網(wǎng)絡(luò)的語(yǔ)音增強(qiáng)方法的有效性已在很多文獻(xiàn)中得到證明,文獻(xiàn)[6]訓(xùn)練DNN作為一個(gè)二值分類器來(lái)估計(jì)含噪語(yǔ)音的IBM(Ideal binary mask),克服了基于核函數(shù)的機(jī)器學(xué)習(xí)方法對(duì)大規(guī)模數(shù)據(jù)存在的計(jì)算復(fù)雜度難題,提高了對(duì)未知噪聲的適應(yīng)能力,取得了優(yōu)于傳統(tǒng)方法的語(yǔ)音增強(qiáng)性能.文獻(xiàn)[7]采用更加有效的IRM(Ideal ratio mask)代替IBM 作為訓(xùn)練目標(biāo),并通過(guò)實(shí)驗(yàn)證明了相比其他方法,基于深度神經(jīng)網(wǎng)絡(luò)的語(yǔ)音增強(qiáng)方法明顯提高了增強(qiáng)語(yǔ)音的質(zhì)量和可懂度.不同于上述方法中使用的基于掩蔽的訓(xùn)練目標(biāo),Xu等將純凈語(yǔ)音的對(duì)數(shù)功率譜(Logarithmic power spectra,LPS)作為訓(xùn)練目標(biāo),以含噪語(yǔ)音的對(duì)數(shù)功率譜作為訓(xùn)練特征,通過(guò)訓(xùn)練DNN得到一個(gè)高度非線性的回歸函數(shù),來(lái)建立含噪語(yǔ)音對(duì)數(shù)功率譜與純凈語(yǔ)音對(duì)數(shù)功率譜之間的映射關(guān)系[8];并在文獻(xiàn)[9]中采用Global variance equalization、Dropout training和Noise-aware training三種策略進(jìn)一步改善該方法,使其在低信噪比、非平穩(wěn)噪聲環(huán)境下的語(yǔ)音增強(qiáng)性能相比傳統(tǒng)方法有了顯著提升.為了在語(yǔ)音增強(qiáng)時(shí)充分考慮相位信息,文獻(xiàn)[10]提出了復(fù)數(shù)域的掩蔽目標(biāo)cIRM(Complex IRM),通過(guò)同時(shí)估計(jì)掩蔽目標(biāo)的實(shí)部和虛部,相比使用其他訓(xùn)練目標(biāo)進(jìn)一步提高了語(yǔ)音增強(qiáng)性能.

      除了設(shè)計(jì)不同的訓(xùn)練特征和訓(xùn)練目標(biāo),提高未知噪聲下語(yǔ)音增強(qiáng)性能的另外一種重要思路是提高訓(xùn)練集中噪聲的多樣性.文獻(xiàn)[9,11]分別采用包含104類和115類噪聲的訓(xùn)練集,提高了DNN對(duì)未知噪聲的處理能力;文獻(xiàn)[12?13]更是通過(guò)訓(xùn)練包含10000種不同噪聲的DNN來(lái)提高對(duì)未知噪聲的泛化能力,主客觀實(shí)驗(yàn)結(jié)果表明采用大數(shù)據(jù)量的訓(xùn)練集能顯著提高未知噪聲下的語(yǔ)音可懂度.另外,與直接增加訓(xùn)練集噪聲類型數(shù)量的方法不同,文獻(xiàn)[14]采用對(duì)有限種類的噪聲施加不同的擾動(dòng)項(xiàng)的方式來(lái)提高噪聲特性的多樣性,實(shí)驗(yàn)結(jié)果表明該方法同樣能有效提高DNN的泛化能力.

      上述基于深度神經(jīng)網(wǎng)絡(luò)的語(yǔ)音增強(qiáng)方法盡管在訓(xùn)練目標(biāo)的設(shè)計(jì)、訓(xùn)練特征的選擇以及訓(xùn)練集的規(guī)模上各有不同,但是它們所采用的網(wǎng)絡(luò)結(jié)構(gòu)均是全連接的DNN.為了進(jìn)一步提高未知噪聲下的語(yǔ)音增強(qiáng)性能,本文考慮使用深度學(xué)習(xí)的另外一種重要的網(wǎng)絡(luò)結(jié)構(gòu)—深度卷積神經(jīng)網(wǎng)絡(luò)(Deep convolutional neural network,DCNN)來(lái)進(jìn)行語(yǔ)音增強(qiáng).深度卷積神經(jīng)網(wǎng)絡(luò)在圖像識(shí)別等分類任務(wù)上已經(jīng)取得了巨大成功[15],其在二維圖像信號(hào)處理上相比DNN表現(xiàn)出了更好的性能.語(yǔ)音和噪聲信號(hào)在時(shí)域的相鄰幀和頻域的相鄰頻帶之間都具有很強(qiáng)的相關(guān)性,因此在基于深度神經(jīng)網(wǎng)絡(luò)的語(yǔ)音增強(qiáng)方法中,為了充分考慮時(shí)域和頻域的上下文關(guān)系,一般采用相鄰多幀的特征作為網(wǎng)絡(luò)的輸入,這種矩陣形式的輸入在時(shí)間和頻率兩個(gè)維度上的局部相關(guān)性與圖像中相鄰像素之間的相關(guān)性非常類似.如圖1和圖2所示,假設(shè)使用連續(xù)5幀的對(duì)數(shù)功率譜作為網(wǎng)絡(luò)的輸入,當(dāng)網(wǎng)絡(luò)結(jié)構(gòu)為全連接的DNN時(shí),由于其輸入層只有一個(gè)維度,因此要將包含時(shí)頻結(jié)構(gòu)信息的矩陣轉(zhuǎn)換為向量作為輸入;而當(dāng)網(wǎng)絡(luò)結(jié)構(gòu)為DCNN時(shí),則可以直接使用矩陣作為輸入,不破壞時(shí)頻結(jié)構(gòu).可見(jiàn),得益于DCNN在二維平面上的局部連接特性,使其相比DNN能夠更好地表達(dá)網(wǎng)絡(luò)輸入在時(shí)間和頻率兩個(gè)維度的內(nèi)在聯(lián)系,因而在語(yǔ)音增強(qiáng)時(shí)能夠更充分地利用語(yǔ)音和噪聲信號(hào)的時(shí)頻相關(guān)性.另外,DCNN通過(guò)權(quán)值共享極大減少了神經(jīng)網(wǎng)絡(luò)需要訓(xùn)練的參數(shù)的個(gè)數(shù),具有更好的泛化能力,對(duì)未訓(xùn)練噪聲理論上應(yīng)該有更好的處理性能.

      圖1 DNN結(jié)構(gòu)示意圖Fig.1 Schematic diagram of DNN

      圖2 DCNN結(jié)構(gòu)示意圖Fig.2 Schematic diagram of DCNN

      實(shí)際上,對(duì)于語(yǔ)音信號(hào)處理,CNN(Convolutional neural network)以及DCNN已經(jīng)在語(yǔ)音識(shí)別任務(wù)中得到成功應(yīng)用,取得了超越DNN/HMM系統(tǒng)的語(yǔ)音識(shí)別性能,證明了其對(duì)于語(yǔ)音信號(hào)同樣具有較好的特征提取能力[16?18],文獻(xiàn)[19?23]更是采用極深層的卷積神經(jīng)網(wǎng)絡(luò)顯著提高了語(yǔ)音識(shí)別性能.但是在語(yǔ)音識(shí)別任務(wù)中,DCNN的最后一層一般采用Softmax來(lái)預(yù)測(cè)狀態(tài)概率,因此本質(zhì)上也是一個(gè)分類問(wèn)題;而基于深度神經(jīng)網(wǎng)絡(luò)的語(yǔ)音增強(qiáng)方法一般將語(yǔ)音增強(qiáng)歸結(jié)為回歸問(wèn)題進(jìn)行解決,因此傳統(tǒng)的網(wǎng)絡(luò)結(jié)構(gòu)并不適合.文獻(xiàn)[24]以幅度譜向量作為訓(xùn)練特征和訓(xùn)練目標(biāo),采用不包含全連接層的FCNN(Fully convolutional neural network)來(lái)進(jìn)行語(yǔ)音增強(qiáng),雖然大幅度降低了訓(xùn)練參數(shù)的規(guī)模,但是相比DNN并沒(méi)有明顯提高增強(qiáng)后語(yǔ)音的質(zhì)量和可懂度;文獻(xiàn)[25]采用CNN對(duì)LPS特征進(jìn)行建模,通過(guò)同時(shí)學(xué)習(xí)純凈語(yǔ)音和信噪比,研究了SNR?aware算法對(duì)語(yǔ)音增強(qiáng)性能的影響,但是并沒(méi)有對(duì)不同網(wǎng)絡(luò)結(jié)構(gòu)的語(yǔ)音增強(qiáng)性能進(jìn)行深入分析.為了提高語(yǔ)音增強(qiáng)性能,特別是未知噪聲下的語(yǔ)音增強(qiáng)性能,本文通過(guò)對(duì)不同網(wǎng)絡(luò)結(jié)構(gòu)的語(yǔ)音增強(qiáng)性能進(jìn)行對(duì)比與分析,設(shè)計(jì)針對(duì)語(yǔ)音增強(qiáng)問(wèn)題的合理DCNN網(wǎng)絡(luò)結(jié)構(gòu),提出基于深度卷積神經(jīng)網(wǎng)絡(luò)的語(yǔ)音增強(qiáng)方法;最后通過(guò)實(shí)驗(yàn)度量增強(qiáng)語(yǔ)音的質(zhì)量和可懂度,對(duì)方法在未知噪聲下的語(yǔ)音增強(qiáng)性能進(jìn)行客觀評(píng)價(jià).

      1 訓(xùn)練特征與訓(xùn)練目標(biāo)

      假設(shè)含噪語(yǔ)音y由純凈語(yǔ)音s和加性噪聲d組成,

      語(yǔ)音增強(qiáng)的目的就是在已知y的條件下得到s的估計(jì)值,假設(shè)y,s和在第n幀的短時(shí)傅里葉變換(Short-time Fourier transform,STFT)形式分別為Yn,kexp(jαn,k),Sn,kexp(j?n,k)和其中k=1,2,···,K是頻帶序號(hào),忽略相位信息,對(duì)第n幀的信號(hào)而言,STFT域上的語(yǔ)音增強(qiáng)任務(wù)就是最小化如下的誤差函數(shù)

      令Sn和分別表示純凈語(yǔ)音第n幀的幅度譜向量及其估計(jì)值,該誤差函數(shù)可以改寫(xiě)為

      基于深度學(xué)習(xí)的語(yǔ)音增強(qiáng)的基本思想可以描述為:通過(guò)訓(xùn)練網(wǎng)絡(luò)參數(shù)集合θ構(gòu)造一個(gè)高度復(fù)雜的非線性函數(shù)fθ,使得誤差函數(shù)

      最小,從而得到目標(biāo)輸出

      其中

      表示第n幀的訓(xùn)練特征,由以第n幀為中心的共(2N+1)幀的含噪語(yǔ)音的幅度譜向量構(gòu)成,(2N+1)即為輸入窗長(zhǎng).

      為了構(gòu)造類似于圖像處理DCNN的網(wǎng)絡(luò)輸入,同時(shí)在保證時(shí)域語(yǔ)音信號(hào)重構(gòu)簡(jiǎn)單的前提下提高網(wǎng)絡(luò)性能,我們采用對(duì)數(shù)運(yùn)算對(duì)Xn和Sn的范圍進(jìn)行縮放,設(shè)計(jì)如下的訓(xùn)練特征和訓(xùn)練目標(biāo)

      其中,Zn和Tn是幅度譜的變換形式,且其值不小于0,因此稱其為非負(fù)對(duì)數(shù)幅度譜(Nonnegative logarithmic amplitude spectra,NLAS).

      DCNN采用小批量梯度下降法進(jìn)行訓(xùn)練,本文使用的損失函數(shù)定義為

      其中,M代表網(wǎng)絡(luò)訓(xùn)練所采用的Mini-batch的大小.

      網(wǎng)絡(luò)訓(xùn)練完成后,在進(jìn)行語(yǔ)音增強(qiáng)時(shí),對(duì)第n幀的純凈語(yǔ)音sn,使用訓(xùn)練目標(biāo)的估計(jì)值與含噪語(yǔ)音第n幀的相位譜向量αn進(jìn)行時(shí)域信號(hào)的重構(gòu)

      n即為增強(qiáng)后的語(yǔ)音信號(hào).

      2 網(wǎng)絡(luò)結(jié)構(gòu)

      借鑒在圖像識(shí)別中使用的典型DCNN的結(jié)構(gòu),依據(jù)本文所采用的訓(xùn)練特征和訓(xùn)練目標(biāo),構(gòu)造如圖3所示的DCNN.可見(jiàn),本文設(shè)計(jì)的網(wǎng)絡(luò)結(jié)構(gòu)與典型DCNN的最大不同在于最后幾層全連接層的設(shè)計(jì),典型DCNN在全連接層后要經(jīng)過(guò)一個(gè)Softmax層來(lái)計(jì)算分類結(jié)果,而本文網(wǎng)絡(luò)則是直接通過(guò)全連接層計(jì)算目標(biāo)向量.更深的網(wǎng)絡(luò)結(jié)構(gòu)、更多的節(jié)點(diǎn)數(shù)量或?yàn)V波器數(shù)量能夠提高網(wǎng)絡(luò)的性能,但同時(shí)也增加了網(wǎng)絡(luò)的復(fù)雜程度和訓(xùn)練難度,對(duì)于本文實(shí)驗(yàn),依據(jù)訓(xùn)練集的數(shù)據(jù)規(guī)模,通過(guò)權(quán)衡網(wǎng)絡(luò)性能及訓(xùn)練難度之間的關(guān)系,我們采用了包含3個(gè)卷積層和2個(gè)全連接層的網(wǎng)絡(luò)結(jié)構(gòu),其中全連接層的節(jié)點(diǎn)數(shù)量設(shè)為1024,卷積層濾波器的個(gè)數(shù)除第一層為64外,其余設(shè)為128.

      具體的網(wǎng)絡(luò)結(jié)構(gòu)設(shè)計(jì)如下:

      1)輸入層

      網(wǎng)絡(luò)的輸入是多幀非負(fù)對(duì)數(shù)幅度譜向量構(gòu)成的特征矩陣.

      2)卷積層

      本文網(wǎng)絡(luò)包含3個(gè)卷積層,第一層采用的卷積濾波器大小為7×7,其余兩層的濾波器大小為3×3,步長(zhǎng)均設(shè)為1×1.

      3)Batch normalization層

      在每個(gè)卷積層和激活函數(shù)層之間都有一個(gè)Batch normalization層.

      4)池化層

      3個(gè)激活函數(shù)層后是3個(gè)池化層,均采用Maxpooling,濾波器大小3×3,步長(zhǎng)為2×2.

      5)全連接層

      3個(gè)卷積層之后是2個(gè)全連接層(Fully connected)和2個(gè)激活函數(shù)層.

      6)輸出層

      網(wǎng)絡(luò)的最后一層是129個(gè)節(jié)點(diǎn)的全連接層,對(duì)應(yīng)129維的目標(biāo)輸出.

      圖3 本文DCNN的結(jié)構(gòu)框圖Fig.3 Structure diagram of the proposed DCNN

      3 實(shí)驗(yàn)與結(jié)果分析

      3.1 實(shí)驗(yàn)配置

      實(shí)驗(yàn)所用的純凈語(yǔ)音全部來(lái)自TIMIT語(yǔ)音數(shù)據(jù)庫(kù)[26],所用的噪聲包含俄亥俄州立大學(xué)Perception and Neurodynamics實(shí)驗(yàn)室的100類噪聲[27],以及文獻(xiàn)[11]中的15類噪聲.語(yǔ)音和噪聲信號(hào)的采樣頻率均轉(zhuǎn)換為8kHz,短時(shí)傅里葉變換的幀長(zhǎng)為32ms(256點(diǎn)),幀移為16ms(128點(diǎn)),相應(yīng)的非負(fù)對(duì)數(shù)幅度譜特征向量和訓(xùn)練目標(biāo)的維度為129.訓(xùn)練集由100000段含噪語(yǔ)音(約80小時(shí))構(gòu)成,使用TIMIT語(yǔ)音庫(kù)的Training集的4620段純凈語(yǔ)音和115類噪聲按照?5dB、0dB、5dB、10dB和15dB五種不同的信噪比合成得到.每段含噪語(yǔ)音的具體合成方法如下:每次從4620段純凈語(yǔ)音中隨機(jī)選取1段,并從115類噪聲中隨機(jī)選取1類,然后將該類噪聲的隨機(jī)截取片段按照從5種信噪比中隨機(jī)選取的1種混入語(yǔ)音中.測(cè)試集采用TIMIT語(yǔ)音庫(kù)的Core test集的192段語(yǔ)音合成,噪聲數(shù)據(jù)采用來(lái)自Noisex92噪聲庫(kù)的與訓(xùn)練集噪聲完全不同的4類未知噪聲[28],分別是Factory2、Buccaneer1、Destroyer engine、HF channel噪聲.對(duì)于每一類噪聲,將192段語(yǔ)音分別按照?5dB、0dB和5dB的全局信噪比與該類噪聲的隨機(jī)截取片段進(jìn)行混合,4類噪聲合成的測(cè)試集總共包含2304(192×3×4)段含噪語(yǔ)音.

      本文通過(guò)對(duì)增強(qiáng)語(yǔ)音進(jìn)行客觀評(píng)價(jià)來(lái)比較不同方法的語(yǔ)音增強(qiáng)性能,主要采用PESQ(Perceptual evaluation of speech quality)作為指標(biāo)來(lái)評(píng)價(jià)增強(qiáng)語(yǔ)音的質(zhì)量[29],并采用STOI(Short time objective intelligibility)作為指標(biāo)來(lái)評(píng)價(jià)增強(qiáng)語(yǔ)音的可懂度[30].PESQ即語(yǔ)音質(zhì)量感知評(píng)估是ITU-T(國(guó)際電信聯(lián)盟電信標(biāo)準(zhǔn)化部)推薦的語(yǔ)音質(zhì)量評(píng)估指標(biāo),其得分范圍為?0.5~4.5,越高的得分表示越高的語(yǔ)音質(zhì)量.STOI即短時(shí)客觀可懂度,則主要衡量語(yǔ)音的可懂度,其得分范圍為0~1,越高的得分表示語(yǔ)音具有越好的可懂度.

      下面通過(guò)一系列實(shí)驗(yàn)對(duì)本文提出的DCNN的語(yǔ)音增強(qiáng)性能以及可能影響網(wǎng)絡(luò)性能的關(guān)鍵因素進(jìn)行分析.

      3.2 DNN與DCNN的比較

      為了驗(yàn)證本文所提出的DCNN在語(yǔ)音增強(qiáng)中的有效性,我們將其與DNN進(jìn)行比較.作為對(duì)比的DNN具有5個(gè)隱層,每個(gè)隱層有1024個(gè)節(jié)點(diǎn),激活函數(shù)為ReLU;為了防止過(guò)擬合,提高泛化能力,每個(gè)隱層后面均伴有一個(gè)Dropout層,Dropout的比例為0.2.DNN和DCNN均采用式(7)定義的非負(fù)對(duì)數(shù)幅度譜作為訓(xùn)練目標(biāo),并采用式(8)定義的訓(xùn)練特征作為網(wǎng)絡(luò)的輸入;其中,對(duì)于DCNN,為了適應(yīng)其網(wǎng)絡(luò)結(jié)構(gòu),輸入窗長(zhǎng)設(shè)為15幀;對(duì)于DNN,為了更好地進(jìn)行對(duì)比,其輸入窗長(zhǎng)分別設(shè)為與文獻(xiàn)[9]相同的11幀(DNN_11F),以及與DCNN相同的15幀(DNN_15F).mini-batch的大小均為128,沖量因子均設(shè)為0.9,迭代次數(shù)均為20.本文的所有網(wǎng)絡(luò)均使用微軟的Cognitive Toolkit進(jìn)行訓(xùn)練[31].

      首先通過(guò)比較DNN和DCNN的訓(xùn)練誤差和測(cè)試誤差來(lái)分析兩種網(wǎng)絡(luò)的性能,圖4給出了不同訓(xùn)練階段所對(duì)應(yīng)的訓(xùn)練集和測(cè)試集的均方誤差,可見(jiàn),兩種DNN在訓(xùn)練集和測(cè)試集上的均方誤差(MSE)都十分接近,這表明兩種DNN具有相似的語(yǔ)音增強(qiáng)性能;而DCNN在訓(xùn)練集和測(cè)試集上的均方誤差都要明顯小于兩種DNN,表明DCNN具有更好的語(yǔ)音增強(qiáng)性能.

      為了進(jìn)一步比較DNN和DCNN的語(yǔ)音增強(qiáng)性能,我們對(duì)測(cè)試集含噪語(yǔ)音通過(guò)三種方法進(jìn)行增強(qiáng)后得到的增強(qiáng)語(yǔ)音的平均語(yǔ)音質(zhì)量和可懂度進(jìn)行比較,表1和表2分別給出了在4類不同噪聲和3種不同信噪比下增強(qiáng)語(yǔ)音的平均PESQ和STOI得分,并給出了未處理的含噪語(yǔ)音的平均PESQ和STOI得分作為對(duì)比.可見(jiàn),通過(guò)采用多類噪聲進(jìn)行訓(xùn)練,對(duì)于4種未經(jīng)訓(xùn)練的噪聲類型,兩種方法均能有效提升語(yǔ)音質(zhì)量和可懂度,并且在兩種不同的指標(biāo)中,DCNN在不同噪聲類型和不同信噪比條件下均取得了優(yōu)于兩種DNN的結(jié)果.

      表1 三種方法的平均PESQ得分Table 1 The average PESQ score for three methods

      表2 三種方法的平均STOI得分Table 2 The average STOI score for three methods

      另外,我們還在表3給出了含噪語(yǔ)音和增強(qiáng)語(yǔ)音的分段信噪比(Segmental SNR,SegSNR),分段信噪比同樣是衡量語(yǔ)音質(zhì)量的重要指標(biāo),它比全局信噪比更接近實(shí)際的語(yǔ)音質(zhì)量;分段信噪比越大,代表主觀的語(yǔ)音質(zhì)量越好.與PESQ和STOI指標(biāo)下的結(jié)果一致,采用DCNN增強(qiáng)后的語(yǔ)音取得了最佳的分段信噪比.值得注意的是,兩種DNN在三種指標(biāo)下都取得了非常相近的結(jié)果,這與文獻(xiàn)[9]的描述是一致的.

      表3 三種方法的平均SegSNRTable 3 The average SegSNR for three methods

      圖4 兩種網(wǎng)絡(luò)的訓(xùn)練誤差和測(cè)試誤差Fig.4 Training error and testing error of two networks

      為了更加直觀地比較兩種方法的語(yǔ)音增強(qiáng)性能,我們分別采用三種方法對(duì)一段含有Factory2噪聲信噪比為?5dB的含噪語(yǔ)音進(jìn)行語(yǔ)音增強(qiáng),然后比較其增強(qiáng)語(yǔ)音的語(yǔ)譜圖.圖5(a)和(b)分別給出了含噪語(yǔ)音與其相應(yīng)的純凈語(yǔ)音的語(yǔ)譜圖,圖5(c)~(e)則分別給出了采用DNN_11F、DNN_15F以及DCNN增強(qiáng)后語(yǔ)音的語(yǔ)譜圖.可以看到,DCNN增強(qiáng)后語(yǔ)音的殘留噪聲成分更少,語(yǔ)音的純凈度更高,其語(yǔ)譜圖與純凈語(yǔ)音的語(yǔ)譜圖更加接近.

      圖5 ?5dB的Factory2噪聲下的增強(qiáng)語(yǔ)音語(yǔ)譜圖示例Fig.5 An example of spectrogram of enhanced speech under Factory2 noise at?5dB SNR

      3.3 卷積層數(shù)量的影響

      對(duì)于圖像和語(yǔ)音這種具有局部強(qiáng)相關(guān)性的信號(hào),卷積層具有很好的特征提取能力,但是由于語(yǔ)音增強(qiáng)是一個(gè)回歸問(wèn)題,網(wǎng)絡(luò)的最后輸出對(duì)應(yīng)的是純凈語(yǔ)音的功率譜,所以還需要通過(guò)全連接層來(lái)進(jìn)行數(shù)據(jù)的擬合.在本文使用的網(wǎng)絡(luò)結(jié)構(gòu)中,不同的卷積層和全連接層的數(shù)量會(huì)帶來(lái)網(wǎng)絡(luò)性能的差別,圖6給出了不同網(wǎng)絡(luò)配置下增強(qiáng)后語(yǔ)音的平均PESQ得分提升和平均STOI得分提升.可見(jiàn),當(dāng)網(wǎng)絡(luò)包含3個(gè)卷積層和2個(gè)全連接層時(shí),在3種不同的信噪比下兩種指標(biāo)都得到了最高的提升值,表明該網(wǎng)絡(luò)結(jié)構(gòu)具有最好的語(yǔ)音增強(qiáng)性能.

      3.4 池化層的影響

      Max-pooling的直接作用是通過(guò)選取特征的局部最大值達(dá)到降低特征維度的目的.在含噪語(yǔ)音功率譜的相鄰時(shí)頻單元中,局部最大值一般含有語(yǔ)音成分,而局部最小值一般為噪聲成分,傳統(tǒng)的基于最小統(tǒng)計(jì)的噪聲估計(jì)方法正是基于此原則.因此,池化層的存在將對(duì)時(shí)頻單元起到一定的篩選作用,能夠通過(guò)篩掉局部較小值達(dá)到抑制噪聲成分的目的.

      為了檢驗(yàn)池化層對(duì)于網(wǎng)絡(luò)性能的影響,我們將卷積層的步長(zhǎng)設(shè)為2,并去掉池化層,訓(xùn)練得到不含池化層的網(wǎng)絡(luò)模型.圖7給出了不同信噪比下包含池化層(Max-pooling)和不含池化層(No pooling)的網(wǎng)絡(luò)增強(qiáng)后語(yǔ)音的平均PESQ得分提升和平均STOI得分提升,綜合分析兩種指標(biāo)可知,在較低信噪比的?5dB和0dB兩種情況下,包含池化層的網(wǎng)絡(luò)的語(yǔ)音增強(qiáng)性能略好于不含池化層的網(wǎng)絡(luò).

      圖6 卷積層數(shù)量對(duì)網(wǎng)絡(luò)性能的影響Fig.6 The in fluence of the number of convolutional layers on the network performance

      圖7 池化層對(duì)網(wǎng)絡(luò)性能的影響Fig.7 The in fluence of the pooling layers on the network performance

      通過(guò)對(duì)比兩種網(wǎng)絡(luò)增強(qiáng)后語(yǔ)音的語(yǔ)譜圖來(lái)進(jìn)一步觀察池化層的影響,圖8(a)和圖8(b)分別給出了一段含有?5dB的HF channel噪聲的含噪語(yǔ)音與其相應(yīng)的純凈語(yǔ)音的語(yǔ)譜圖,圖8(c)和圖8(d)則分別給出了采用包含池化層和不含池化層的網(wǎng)絡(luò)增強(qiáng)后語(yǔ)音的語(yǔ)譜圖.由圖8可見(jiàn),與上述分析一致,包含池化層的網(wǎng)絡(luò)增強(qiáng)后語(yǔ)音的殘留噪聲明顯少于不含池化層網(wǎng)絡(luò)增強(qiáng)后語(yǔ)音,表明Max-pooling的存在確實(shí)能帶來(lái)更好的噪聲抑制效果.

      圖8 ?5dB的HF channel噪聲下的增強(qiáng)語(yǔ)音語(yǔ)譜圖示例Fig.8 An example of spectrogram of enhanced speech under HF channel noise at?5dB SNR

      3.5 Batch normalization層的影響

      Batch normalization是深度卷積神經(jīng)網(wǎng)絡(luò)中的常用技術(shù),Batch normalization層的引入往往可以加快收斂過(guò)程,提升訓(xùn)練速度,并能防止過(guò)擬合.為了檢驗(yàn)Batch normalization層對(duì)本文網(wǎng)絡(luò)結(jié)構(gòu)的影響,我們?nèi)サ艟W(wǎng)絡(luò)中的Batch normalization層,訓(xùn)練得到不含Batch normalization層的網(wǎng)絡(luò)模型.圖9給出了不同信噪比下包含Batch normalization層(BN)和不含Batch normalization層(No BN)的網(wǎng)絡(luò)增強(qiáng)后語(yǔ)音的平均PESQ得分提升和平均STOI得分提升,在兩種指標(biāo)下,不包含Batch normalization層的網(wǎng)絡(luò)模型都略好于包含Batch normalization層的網(wǎng)絡(luò)模型,表明Batch normalization層的引入并沒(méi)有提升本文網(wǎng)絡(luò)結(jié)構(gòu)的語(yǔ)音增強(qiáng)性能.可見(jiàn),對(duì)于本文相對(duì)簡(jiǎn)單的網(wǎng)絡(luò)結(jié)構(gòu),Batch normalization并沒(méi)有明顯的作用,可以去掉.

      3.6 LPS與NLAS的比較

      下面通過(guò)實(shí)驗(yàn)對(duì)文獻(xiàn)[9]采用的LPS與本文采用的NLAS兩種特征進(jìn)行比較,分別采用DNN和DCNN對(duì)兩種特征進(jìn)行訓(xùn)練.其中,訓(xùn)練LPS的DNN(LPS-DNN)與訓(xùn)練NLAS的DNN(NLASDNN)均為與前文相似的包含5個(gè)隱層的DNN,需要注意的是兩種DNN采用的激活函數(shù)是Sigmoid函數(shù),因?yàn)樵谖覀兊膶?shí)驗(yàn)中,當(dāng)訓(xùn)練特征為L(zhǎng)PS時(shí),如果采用ReLU作為激活函數(shù),會(huì)造成訓(xùn)練過(guò)程不收斂;訓(xùn)練LPS的DCNN(LPS-DCNN)與前文的NLAS-DCNN結(jié)構(gòu)一致.圖10分別給出了4種測(cè)試集噪聲在不同信噪比下采用4種方法增強(qiáng)后語(yǔ)音的平均PESQ和STOI得分.可見(jiàn),在相同特征下,DCNN的語(yǔ)音增強(qiáng)性能明顯好于DNN;在相同的網(wǎng)絡(luò)結(jié)構(gòu)下,采用NLAS特征訓(xùn)練得到的網(wǎng)絡(luò)模型在3種不同信噪比下都取得了較好的語(yǔ)音可懂度,并且在低信噪比(?5dB)下取得了較好的語(yǔ)音質(zhì)量,表明NLAS特征能夠更好地保留含噪語(yǔ)音中的語(yǔ)音成分,更加適用于低信噪比下的語(yǔ)音增強(qiáng).

      圖9 Batch normalization層對(duì)網(wǎng)絡(luò)性能的影響Fig.9 The in fluence of the batch normalization layers on the network performance

      圖10 兩種特征訓(xùn)練得到的DNN和DCNN的性能比較Fig.10 The performance comparisons for DNN and DCNN trained using two kinds of feature

      3.7 與其他方法的比較

      為了進(jìn)一步驗(yàn)證本文DCNN的語(yǔ)音增強(qiáng)性能,將其與LSTM(Long-short term memory)以及文獻(xiàn)[24]中的FCNN進(jìn)行比較.其中LSTM包含5個(gè)隱層,Cell維度為256;FCNN包含16個(gè)卷積層,每層濾波器的個(gè)數(shù)分別為:10,12,14,15,19,21,23,25,23,21,19,15,14,12,10,1.圖11分別給出了各種方法增強(qiáng)后語(yǔ)音的平均PESQ、平均STOI和平均SegSNR,同時(shí)給出DNN對(duì)應(yīng)的結(jié)果作為對(duì)比.通過(guò)綜合分析3種指標(biāo)可知,DCNN取得了最佳的語(yǔ)音增強(qiáng)性能,LSTM次之,FCNN略好于DNN.

      圖11 兩種特征訓(xùn)練得到的DNN和DCNN的性能比較Fig.11 The performance comparisons for DNN and DCNN trained using two kinds of feature

      4 結(jié)論

      為了進(jìn)一步提高未知噪聲下的語(yǔ)音增強(qiáng)性能,考慮DCNN相比DNN具有更好的局部特征表達(dá)能力,能夠更好地利用語(yǔ)音和噪聲信號(hào)的時(shí)頻相關(guān)性,本文采用深度卷積神經(jīng)網(wǎng)絡(luò)建立回歸模型來(lái)表達(dá)含噪語(yǔ)音和純凈語(yǔ)音之間的復(fù)雜非線性關(guān)系.通過(guò)使用非負(fù)對(duì)數(shù)幅度譜作為訓(xùn)練特征和訓(xùn)練目標(biāo),設(shè)計(jì)與訓(xùn)練了不同結(jié)構(gòu)的DCNN并對(duì)其語(yǔ)音增強(qiáng)性能進(jìn)行了比較,得到了適合于語(yǔ)音增強(qiáng)問(wèn)題的合理網(wǎng)絡(luò)結(jié)構(gòu),提出了基于深度卷積神經(jīng)網(wǎng)絡(luò)的語(yǔ)音增強(qiáng)方法.實(shí)驗(yàn)結(jié)果表明,在與DNN及其他方法的對(duì)比中,本文提出的DCNN在測(cè)試集上取得了更小的誤差,表現(xiàn)出了更好的噪聲抑制能力,在各類噪聲和各種信噪比條件下都顯著提升了增強(qiáng)后語(yǔ)音的語(yǔ)音質(zhì)量和可懂度,進(jìn)一步提高了未知噪聲下的語(yǔ)音增強(qiáng)性能.

      References

      1 Loizou P C.Speech Enhancement:Theory and Practice.Florida:CRC Press,2013.

      2 Ephraim Y,Malah D.Speech enhancement using a minimum mean-square error log-spectral amplitude estimator.IEEE Transactions on Acoustics,Speech,and Signal Processing,1985,33(2):443?445

      3 Cohen I.Noise spectrum estimation in adverse environments:Improved minima controlled recursive averaging.IEEE Transactions on speech and audio processing,2003,11(5):466?475

      4 Mohammadiha N,Smaragdis P,Leijon A.Supervised and unsupervised speech enhancement using nonnegative matrix factorization.IEEE Transactions on Audio,Speech,and Language Processing,2013,21(10):2140?2151

      5 Liu Wen-Ju,Nie Shuai,Liang Shan,Zhang Xue-Liang.Deep learning based speech separation technology and its developments.Acta Automatica Sinica,2016,42(6):819?833(劉文舉,聶帥,梁山,張學(xué)良.基于深度學(xué)習(xí)語(yǔ)音分離技術(shù)的研究現(xiàn)狀與進(jìn)展.自動(dòng)化學(xué)報(bào),2016,42(6):819?833)

      6 Wang Y X,Wang D L.Towards scaling up classi ficationbased speech separation.IEEE Transactions on Audio,Speech,and Language Processing,2013,21(7):1381?1390

      7 Wang Y X,Narayanan A,Wang D L.On training targets for supervised speech separation.IEEE Transactions on Audio,Speech,and Language Processing,2014,22(12):1849?1858

      8 Xu Y,Du J,Dai L R,Lee C H.An experimental study on speech enhancement based on deep neural networks.IEEE Signal Processing Letters,2014,21(1):65?68

      9 Xu Y,Du J,Dai L R,Lee C H.A regression approach to speech enhancement based on deep neural networks.IEEE/ACM Transactions on Audio,Speech,and Language Processing,2015,23(1):7?19

      10 Williamson D S,Wang Y X,Wang D L.Complex ratio masking for monaural speech separation.IEEE/ACM Transactions on Audio,Speech,and Language Processing,2016,24(3):483?492

      11 Xu Y,Du J,Huang Z,Dai L R,Lee C H.Multi-objective learning and mask-based post-processing for deep neural network based speech enhancement.In:Proceedings of the 16th Annual Conference of the International Speech Communication Association.Dresden,Germany:ISCA,2015.1508?1512

      12 Wang Y X,Chen J T,Wang D L.Deep Neural Network Based Supervised Speech Segregation Generalizes to Novel Noises Through Large-scale Training,Technical Report OSU-CISRC-3/15-TR02,Department of Computer Science and Engineering,The Ohio State University,Columbus,Ohio,USA,2015

      13 Chen J T,Wang Y X,Yoho S E,Wang D L,Healy E W.Large-scale training to increase speech intelligibility for hearing-impaired listeners in novel noises.The Journal of the Acoustical Society of America,2016,139(5):2604?2612

      14 Chen J T,Wang Y X,Wang D L.Noise perturbation for supervised speech separation.Speech Communication,2016,78:1?10

      15 Krizhevsky A,Sutskever I,Hinton G E.ImageNet classi fication with deep convolutional neural networks.In:Proceedings of the International Conference on Neural Information Processing Systems.Nevada,USA:Curran Associates Inc.2012.1097?1105

      16 Abdel-Hamid O,Mohamed A,Jiang H,Penn G.Applying convolutional neural networks concepts to hybrid NN-HMM model for speech recognition.In:Proceedings of the 2012 IEEE International Conference on Acoustics,Speech and Signal Processing.Kyoto,Japan:IEEE,2012.4277?4280

      17 Abdel-Hamid O,Deng L,Yu D.Exploring convolutional neural network structures and optimization techniques for speech recognition.In:Proceedings of the 14th Annual Conference of the International Speech Communication Association.Lyon,France:ISCA,2013.3366?3370

      18 Sainath T N,Kingsbury B,Saon G,Soltau H,Mohamed A R,Dahl G,Ramabhadran B.Deep convolutional neural networks for large-scale speech tasks.Neural Networks,2015,64:39?48

      19 Qian Y M,Bi M X,Tan T,Yu K.Very deep convolutional neural networks for noise robust speech recognition.IEEE/ACM Transactions on Audio,Speech and Language Processing,2016,24(12):2263?2276

      20 Bi M X,Qian Y M,Yu K.Very deep convolutional neural networks for LVCSR.In:Proceedings of the 16th Annual Conference of the International Speech Communication Association.Dresden,Germany:ISCA,2015.3259?3263

      21 Qian Y,Woodland P C.Very deep convolutional neural networks for robust speech recognition.In:Proceedings of the 2016 IEEE Spoken Language Technology Workshop.San Juan,Puerto Rico:IEEE,2016.481?488

      22 Sercu T,Puhrsch C,Kingsbury B,LeCun Y.Very deep multilingual convolutional neural networks for LVCSR.In:Proceedings of the 2016 IEEE International Conference on Acoustics,Speech and Signal Processing.Shanghai,China:IEEE,2016.4955?4959

      23 Sercu T,Goel V.Advances in very deep convolutional neural networks for LVCSR.In:Proceedings of the 16th Annual Conference of the International Speech Communication Association.California,USA:ISCA,2016.3429?3433

      24 Park S R,Lee J.A fully convolutional neural network for speech enhancement.arXiv:1609.07132,2016.

      25 Fu S W,Tsao Y,Lu X.SNR-Aware convolutional neural network modeling for speech enhancement.In:Proceedings of the 17th Annual Conference of the International Speech Communication Association.San Francisco,USA:ISCA,2016.8?12

      26 Garofolo J S,Lamel L F,Fisher W M,Fiscus J G,Pallett D S,Dahlgren N L,Zue V.TIMIT acoustic-phonetic continuous speech corpus.Linguistic Data Consortium,Philadelphia,1993.

      27 Hu G N.100 nonspeech sounds[online],available:http://web.cse.ohio-state.edu/pnl/corpus/HuNonspeech/HuCorpus.html,April 20,2004

      28 Varga A,Steeneken Herman J M.Assessment for automatic speech recognition:II.NOISEX-92:a database and an experiment to study the effect of additive noise on speech recognition systems.Speech Communication,1993,12(3):247?251

      29 Beerends J G,Rix A W,Hollier M P,Hekstra A P.Perceptual evaluation of speech quality(PESQ)—a new method for speech quality assessment of telephone networks and codecs.In:Proceedings of the 2001 IEEE International Conference on Acoustics,Speech and Signal Processing.Utah,USA:IEEE,2001.749?752

      30 Taal C H,Hendriks R C,Heusdens R,Jensen J.An algorithm for intelligibility prediction of time-frequency weightednoisyspeech.IEEETransactionsonAudio,Speech,and Language Processing,2011,19(7):2125?2136

      31 Yu D,Eversole A,Seltzer M L,Yao K S,Huang Z H,Guenter B,Kuchaiev O,Zhang Y,Seide F,Wang H M,Droppo J,Zweig G,Rossbach C,Currey J,Gao J,May A,Peng B L,Stolcke A,Slaney M.An Introduction to Computational Networks and the Computational Network Toolkit,Technical Report,Tech.Rep.MSR,Microsoft Research,2014.

      猜你喜歡
      池化層網(wǎng)絡(luò)結(jié)構(gòu)信噪比
      卷積神經(jīng)網(wǎng)絡(luò)模型研究分析*
      基于卷積神經(jīng)網(wǎng)絡(luò)的紙幣分類與點(diǎn)鈔
      基于深度學(xué)習(xí)卷積神經(jīng)網(wǎng)絡(luò)的人體行為識(shí)別研究
      科技傳播(2020年6期)2020-05-25 11:07:46
      基于深度學(xué)習(xí)的無(wú)人機(jī)數(shù)據(jù)鏈信噪比估計(jì)算法
      基于全卷積神經(jīng)網(wǎng)絡(luò)的SAR圖像目標(biāo)分類*
      低信噪比下LFMCW信號(hào)調(diào)頻參數(shù)估計(jì)
      低信噪比下基于Hough變換的前視陣列SAR稀疏三維成像
      基于互信息的貝葉斯網(wǎng)絡(luò)結(jié)構(gòu)學(xué)習(xí)
      知識(shí)網(wǎng)絡(luò)結(jié)構(gòu)維對(duì)于創(chuàng)新績(jī)效的作用機(jī)制——遠(yuǎn)程創(chuàng)新搜尋的中介作用
      滬港通下A+ H股票網(wǎng)絡(luò)結(jié)構(gòu)演化的實(shí)證分析
      沂源县| 左权县| 海盐县| 常山县| 开原市| 马边| 北安市| 吉木萨尔县| 水富县| 新巴尔虎右旗| 贵州省| 瓦房店市| 玉门市| 乐平市| 保亭| 金湖县| 离岛区| 永吉县| 平远县| 江川县| 隆化县| 江永县| 兴海县| 新绛县| 禹城市| 雷州市| 祥云县| 乌拉特后旗| 上杭县| 自贡市| 万盛区| 遵义市| 巩义市| 莱芜市| 上犹县| 恩施市| 舞阳县| 盱眙县| 平定县| 屏东县| 普定县|