褚偉
摘 要:語(yǔ)音交互技術(shù)日益在現(xiàn)實(shí)生活中得到廣泛的應(yīng)用,由于干擾的存在,現(xiàn)實(shí)環(huán)境中的語(yǔ)音交互技術(shù)遠(yuǎn)沒(méi)有達(dá)到令人滿意的程度。為了提高現(xiàn)實(shí)環(huán)境中語(yǔ)音交互性能,本文提出了一種基于條件深度卷積生成對(duì)抗網(wǎng)絡(luò)(C-DCGAN)的語(yǔ)音增強(qiáng)模型,這是在GAN的基礎(chǔ)上加入卷積層和條件信息。C-DCGAN利用卷積層提取語(yǔ)音特征,同時(shí)利用條件信息,生成高質(zhì)量的語(yǔ)音。通過(guò)TIMIT數(shù)據(jù)集、NOISEX-92噪聲庫(kù)、Aurora2噪聲庫(kù)及環(huán)境噪聲數(shù)據(jù)集對(duì)所提出的語(yǔ)音增強(qiáng)模型進(jìn)行驗(yàn)證。結(jié)果表明,與譜減法、DNN等語(yǔ)音增強(qiáng)方法相比,C-DCGAN模型在PESQ和STOI指標(biāo)上均有提高,表明本文提出的模型能取得良好的語(yǔ)音增強(qiáng)效果。
關(guān)鍵詞:語(yǔ)音增強(qiáng);條件卷積生成對(duì)抗網(wǎng)絡(luò);深度學(xué)習(xí);帶噪語(yǔ)音
文章編號(hào):2095-2163(2019)04-0082-05 中圖分類號(hào):TP391 文獻(xiàn)標(biāo)志碼:A
0 引 言
語(yǔ)音增強(qiáng)是從被干擾的語(yǔ)音信號(hào)中提取出純凈的語(yǔ)音信號(hào)或者去除復(fù)雜的背景噪聲,用來(lái)改善受噪聲污染的語(yǔ)音的質(zhì)量,提高語(yǔ)音清晰度和可懂度。語(yǔ)音增強(qiáng)作為信號(hào)處理中的一個(gè)重要研究領(lǐng)域,近些年來(lái)受到國(guó)內(nèi)外研究者的廣泛關(guān)注和重視。
當(dāng)下的各類相關(guān)研究指出,深度神經(jīng)網(wǎng)絡(luò)的隱含層數(shù)目多,可以更好地提取語(yǔ)音信號(hào)中的結(jié)構(gòu)化信息和高維信息。與此同時(shí),這些研究也引發(fā)了學(xué)界對(duì)基于深度學(xué)習(xí)的語(yǔ)音增強(qiáng)技術(shù)的探索熱潮。Xu等人[1]提出了一種基于深度神經(jīng)網(wǎng)絡(luò)的語(yǔ)音增強(qiáng)方法。與基于MMSE的方法相比,該方法的性能得到了顯著的改善,而且能夠很好地抑制非平穩(wěn)噪聲。Koizumi等人[2] 提出了一種基于深度神經(jīng)網(wǎng)絡(luò)的源增強(qiáng)訓(xùn)練方法,實(shí)驗(yàn)表明,該方法可以顯著提高語(yǔ)音質(zhì)量的客觀評(píng)價(jià)指標(biāo)?;谏疃壬窠?jīng)網(wǎng)絡(luò)的方法需要人工提取語(yǔ)音特征,忽略了語(yǔ)音信號(hào)時(shí)域上的相位信息。但是經(jīng)分析可知,相位信息對(duì)于語(yǔ)音的感知質(zhì)量是重要的[3]。
GAN是當(dāng)前人工智能研究的熱點(diǎn),Goodfellow等人[4]提出了生成對(duì)抗性網(wǎng)絡(luò)(GAN),并在MNIST數(shù)據(jù)集、CIFAR-10數(shù)據(jù)集上進(jìn)行了實(shí)驗(yàn),結(jié)果表明,該方法能應(yīng)用于圖像樣本生成。Pascual等人[5]第一次將生成對(duì)抗性網(wǎng)絡(luò)應(yīng)用在語(yǔ)音增強(qiáng)中,對(duì)模型進(jìn)行端到端的訓(xùn)練,并證實(shí)了模型的有效性。Mirza等人[6]引入了生成對(duì)抗性網(wǎng)絡(luò)的條件形式,在生成器和判別器中都添加了條件信息。研究結(jié)果顯示,該模型能夠生成以類標(biāo)簽作為條件的MNIST數(shù)字。
綜合前文論述可知,本文采用條件深度卷積生成對(duì)抗網(wǎng)絡(luò)(C-DCGAN)進(jìn)行語(yǔ)音增強(qiáng),C-DCGAN是在GAN的基礎(chǔ)上加入卷積層和條件信息。本文在TIMIT純凈語(yǔ)音數(shù)據(jù)庫(kù)和3種不同的噪聲庫(kù)中進(jìn)行了實(shí)驗(yàn)。結(jié)果表明,與譜減法、DNN模型相比,C-DCGAN模型能取得良好的語(yǔ)音增強(qiáng)效果。本文擬對(duì)此展開(kāi)研究論述如下。
1 C-DCGAN語(yǔ)音增強(qiáng)模型
本文采用條件深度卷積生成對(duì)抗網(wǎng)絡(luò)(C-DCGAN)模型,將條件信息c加入GAN的生成器中,條件信息將引導(dǎo)樣本數(shù)據(jù)的生成。與原始的條件生成對(duì)抗網(wǎng)絡(luò)(CGAN)不同,本文所用的判別器中不需要連接條件信息c。在判別器和生成器中使用卷積層替換池化層,使判別器和生成器變換為全卷積層,利用卷積層提取特征的能力訓(xùn)練網(wǎng)絡(luò),改善生成樣本的效果。
判別器D和生成器G使用公式(1)中的目標(biāo)函數(shù)V(G,D)來(lái)進(jìn)行極小極大博弈,其數(shù)學(xué)形式具體如下:
C-DCGAN模型采用交替優(yōu)化的方法進(jìn)行訓(xùn)練,對(duì)此可表述為:先固定生成器G,優(yōu)化判別器D,使得判別器D 的判別準(zhǔn)確率最大化,即使D判別訓(xùn)練樣本為1和判別生成樣本為0的概率最大化;然后固定判別器D,優(yōu)化生成器G,使得D的判別準(zhǔn)確率最小化,即log(1-D(G(z|c)))最小化。在訓(xùn)練過(guò)程中,同一輪參數(shù)更新中,每?jī)?yōu)化k次判別器,優(yōu)化1次生成器。算法的研發(fā)設(shè)計(jì)流程詳見(jiàn)如下。
算法1 條件深度卷積生成對(duì)抗網(wǎng)絡(luò)算法流程。用小批量隨機(jī)梯度下降算法訓(xùn)練網(wǎng)絡(luò),用于判別器的步驟k是一個(gè)超參數(shù),文中設(shè)置k=2
C-DCGAN模型的工作原理如圖1所示。由圖1可知,首先,通過(guò)純凈語(yǔ)音數(shù)據(jù)集和噪聲集在多種信噪比下構(gòu)造混合語(yǔ)音數(shù)據(jù)集,然后,在GAN的基礎(chǔ)上加入卷積層,同時(shí)在生成器中加入條件信息,從而得到C-DCGAN模型。最后,混合語(yǔ)音通過(guò)C-DCGAN模型生成增強(qiáng)語(yǔ)音,實(shí)現(xiàn)語(yǔ)音增強(qiáng)。
2 實(shí)驗(yàn)過(guò)程與結(jié)果分析
2.1 數(shù)據(jù)集
本次研究使用TIMIT語(yǔ)音數(shù)據(jù)庫(kù)[7],NOISEX-92噪聲庫(kù)[8]、Aurora2噪聲庫(kù)[9]和環(huán)境噪聲數(shù)據(jù)庫(kù)[10]。其中,TIMIT數(shù)據(jù)集的采樣率為16 kHz,一共包含6 300個(gè)句子,由630個(gè)人分別輪流說(shuō)出給定的13個(gè)句子組成。NOISEX-92噪聲庫(kù)包含15種常見(jiàn)噪聲類型。Aurora2噪聲數(shù)據(jù)庫(kù)由8種噪聲組成。環(huán)境噪聲數(shù)據(jù)庫(kù)是由100種常見(jiàn)的環(huán)境噪聲組成。本文選取TIMIT訓(xùn)練集中所有的句子,選取環(huán)境噪聲庫(kù)中的100種噪聲,從Aurora2噪聲庫(kù)中選取餐廳嘈雜聲(Restaurant)、機(jī)場(chǎng)聲(Airport)、火車聲(Train)、汽車引擎聲(Car)、街道聲(Street)這5種噪聲,按信噪比-5 dB、0 dB、5 dB、10 dB、15 dB、20 dB混合得到帶噪語(yǔ)音,再?gòu)闹须S機(jī)選取100 h混合語(yǔ)音作為訓(xùn)練集。隨機(jī)選取TIMIT測(cè)試集中的200個(gè)句子,選取NOISEX-92噪聲庫(kù)中餐廳內(nèi)嘈雜噪聲(Babble)、坦克內(nèi)部噪聲(Tank)、高頻信道噪聲(HFchannel)、駕駛艙噪聲(Destroyerengine)這4種在訓(xùn)練集中未出現(xiàn)的噪聲,按信噪比-5 dB, 0dB,5 dB,10 dB,15 dB,20 dB混合得到帶噪語(yǔ)音測(cè)試集。
2.2 評(píng)價(jià)指標(biāo)
本次研究使用的評(píng)價(jià)指標(biāo)包括:語(yǔ)音質(zhì)量聽(tīng)覺(jué)評(píng)估(PESQ)[11]和短時(shí)客觀可懂度(STOI)[12]。其中,PESQ用來(lái)衡量語(yǔ)音質(zhì)量,取值范圍為-0.5~4.5,得分越高說(shuō)明語(yǔ)音感知效果越好。STOI主要是為了衡量語(yǔ)音的可懂度,其取值范圍為0~1,得分越高表示語(yǔ)音質(zhì)量具有越好的可懂度。
2.3 實(shí)驗(yàn)環(huán)境
本文實(shí)驗(yàn)的硬件環(huán)境為:TITAN Xp實(shí)驗(yàn)平臺(tái),i7-9700k@3.6 GHz CPU,32 G內(nèi)存,500 G固態(tài)硬盤。軟件環(huán)境為:Ubuntu 16.04操作系統(tǒng)、TensorFlow框架,編程選用Python語(yǔ)言,編輯器為PyCharm。
2.4 模型參數(shù)
為了評(píng)估模型的性能,本文實(shí)驗(yàn)仿真比較了譜減法、DNN、C-DCGAN三種語(yǔ)音增強(qiáng)模型。研究可得闡釋分述如下。
(1)譜減法模型如下:首先,估計(jì)噪聲信號(hào)的幅度譜。然后,將帶噪語(yǔ)音進(jìn)行傅里葉變換,得到帶噪語(yǔ)音的幅度譜。再用帶噪語(yǔ)音的幅度譜減去估計(jì)出來(lái)的噪聲幅度譜,就求得了語(yǔ)音的幅度譜估計(jì)。最后,利用估計(jì)的幅度譜和帶噪語(yǔ)音的相位來(lái)重構(gòu)語(yǔ)音信號(hào),而由重構(gòu)得到的語(yǔ)音信號(hào)就是語(yǔ)音增強(qiáng)的結(jié)果。
(2)DNN模型參數(shù)如下:先對(duì)語(yǔ)音信號(hào)進(jìn)行分幀處理,采用256點(diǎn)的漢明窗進(jìn)行加窗分幀,幀移為128點(diǎn)。然后將分幀處理后的語(yǔ)音進(jìn)行離散傅里葉變換,獲得語(yǔ)音的幅值,對(duì)幅值取自然對(duì)數(shù)得到對(duì)數(shù)能量譜。隱含層數(shù)為3,每個(gè)隱含層有1 024個(gè)神經(jīng)元。在訓(xùn)練過(guò)程中,最初的10次迭代過(guò)程中,學(xué)習(xí)速率為0.1,而在此后的各次迭代時(shí)學(xué)習(xí)速率下降10%。動(dòng)量速率w為0.9,迭代次數(shù)為1 000次。
(3)C-DCGAN模型參數(shù)如下:學(xué)習(xí)率設(shè)為0.000 2,batch_size=128,epochs=1 000,采用隨機(jī)梯度下降算法。在訓(xùn)練過(guò)程中,每500 ms提取約1 s語(yǔ)音(16 384個(gè)樣本)。為避免出現(xiàn)過(guò)擬合,在生成器的全連接層加入Dropout,Dropout率為0.5,判別器的全連接層后加入Dropout,Dropout率為0.8。為了防止梯度消失,除了生成器模型的輸出層及其對(duì)應(yīng)的判別器模型的輸入層外,其它層都使用了批量歸一化。
2.5 結(jié)果分析
譜減法、DNN和C-DCGAN三種模型在含有105種噪聲的訓(xùn)練集中訓(xùn)練,在含有4種不可見(jiàn)噪聲的測(cè)試集中的測(cè)試結(jié)果見(jiàn)表1。由表1可以看出,C-DCGAN模型相對(duì)于譜減法,PESQ和STOI的平均值分別提高0.25和0.05。C-DCGAN模型相對(duì)于DNN模型,PESQ和STOI的平均值分別提高0.13和0.03,表明C-DCGAN模型明顯優(yōu)于譜減法和DNN模型,語(yǔ)音感知效果和語(yǔ)音可懂度得到了提高。
選取TIMIT中訓(xùn)練集的sa1.wav純凈語(yǔ)音文件,其內(nèi)容為“She had your dark suit in greasy wash water all year”,選取NOISEX-92中babble噪聲。將純凈語(yǔ)音和噪聲按信噪比SNR=0的方式生成帶噪語(yǔ)音,再對(duì)模型進(jìn)行測(cè)試。純凈語(yǔ)音和增強(qiáng)語(yǔ)音的波形如圖2所示。從圖2可以看出,經(jīng)過(guò)譜減法增強(qiáng)后的語(yǔ)音能夠減少噪聲信號(hào),但產(chǎn)生了較為明顯的失真,影響了聽(tīng)覺(jué)感受。經(jīng)過(guò)DNN模型增強(qiáng)后的語(yǔ)音能夠在相當(dāng)程度上減少噪聲信號(hào),但還會(huì)殘留一定的噪聲信號(hào)。經(jīng)過(guò)C-DCGAN模型增強(qiáng)后的語(yǔ)音最接近純凈語(yǔ)音信號(hào)。
為了測(cè)試C-DCGAN模型在低信噪比下的語(yǔ)音增強(qiáng)性能,在-10 dB、-5 dB、0 dB等3種不同信噪比條件下進(jìn)行實(shí)驗(yàn)。選取TIMIT中的sa1.wav純凈語(yǔ)音以及NOISEX-92中babble噪聲。將純凈語(yǔ)音和噪聲分別在信噪比-10 dB、-5 dB、0 dB條件下混合,得到帶噪語(yǔ)音。并將帶噪語(yǔ)音在訓(xùn)練好的C-DCGAN模型上進(jìn)行測(cè)試。C-DCGAN模型測(cè)試結(jié)果如圖3所示。圖3(a)表示純凈語(yǔ)音,圖3(b)從左到右分別表示信噪比為-10 dB、-5 dB、0 dB下的混合語(yǔ)音,圖3(c)從左到右分別表示各個(gè)信噪比下C-DCGAN模型的語(yǔ)音增強(qiáng)效果。由圖3可知,C-DCGAN模型能夠在較低信噪比下實(shí)現(xiàn)語(yǔ)音增強(qiáng),并取得良好的效果。
3 結(jié)束語(yǔ)
本文提出了條件深度卷積生成對(duì)抗網(wǎng)絡(luò)(C-DCGAN)模型,利用條件信息以及卷積層提取特征的能力生成高質(zhì)量的純凈語(yǔ)音,從而實(shí)現(xiàn)語(yǔ)音增強(qiáng)。對(duì)于深度學(xué)習(xí)模型,含有大量噪聲的訓(xùn)練集對(duì)于學(xué)習(xí)語(yǔ)音特征至關(guān)重要。本文在TIMIT數(shù)據(jù)集和不同噪聲集中進(jìn)行了實(shí)驗(yàn),結(jié)果表明,相對(duì)于譜減法、DNN模型,C-DCGAN模型的語(yǔ)音聽(tīng)覺(jué)質(zhì)量和語(yǔ)音可懂度都有提高。
參考文獻(xiàn)
[1]XU Yong , DU Jun, DAI Lirong , et al. An experimental study on speech enhancement based on deep neural networks[J]. IEEE Signal Processing Letters, 2014, 21(1):65-68.
[2] KOIZUMI Y , NIWA K , HIOKA Y , et al. DNN-based source enhancement to increase objective sound quality assessment score[J]. IEEE/ACM Transactions on Audio, Speech & Language Processing, 2018,26(10):1780-1792.
[3]PALIWAL K, WJCICKI K, SHANNON B. The importance of phase in speech enhancement[J]. Speech Communication, 2011, 53(4):465-494.
[4] GOODFELLOW I J, POUGET-ABADIE J, MIRZA M, et al. Generative adversarial nets[C]// International Conference on Neural Information Processing Systems. USA:MIT Press, 2014:2672-2680.
[5] PASCUAL S, BONAFONTE A, SERR J. SEGAN:Speech enhancement generative adversarial network[J]. arXiv preprint arXiv:1703.09452,2017.
[6] MIRZA M, OSINDERO S. Conditional generative adversarial nets[J]. arXiv preprint arXiv:1411.1784,2014.
[7] GAROFOLO J S. Getting started with the DARPA TIMIT CD-ROM:An acoustic phonetic continuous speech database[R]. Gaithersburgh, MD:National Institute of Standards and Technology (NIST), 1988.
[8] VARGA A, STEENEKEN H J M. Assessment for automatic speech recognition:II. NOISEX-92:A database and an experiment to study the effect of additive noise on speech recognition systems[J]. Speech Communication, 1993,12(3):247-251.
[9]PEARCE D,HIRSCH H G. The Aurora experimental framework for the performance evaluation of speech recognition systems under noisy conditions[C]//Sixth International Conference on Spoken Language Processing, ICSLP 2000 / INTERSPEECH 2000. Beijing, China:dblp, 2000:1-5.
[10]HU G. 100 nonspeech environmental sounds,2004 [EB/OL].[2017-12-04]. http://web.cse.ohio-state.edu/pnl/corpus/HuNonspeech/HuCorpus.html.
[11]ITU-T Recommendation P.862 . Perceptual evaluation of speech quality (PESQ) :An objective method for end-to-end speech quality assessment of narrow-band telephone networks and speech codecs[S]. Geneva:International Telecommunication Union-Telecommunication Standardisation Sector,2001.
[12]TAAL C H , HENDRIKS R C , HEUSDENS R , et al. A short-time objective intelligibility measure for time-frequency weighted noisy speech[C]// 2010 IEEE International Conference on Acoustics, Speech and Signal Processing (ICASSP).Dallas, TX, USA:IEEE, 2010:4214-4217.