劉鵬
摘 要:針對(duì)基于深度學(xué)習(xí)的語(yǔ)音增強(qiáng)方法展開(kāi)研究,系統(tǒng)闡述了基于深度學(xué)習(xí)的語(yǔ)音增強(qiáng)方法提出的背景、模型原理和實(shí)施過(guò)程。在TensorFlow平臺(tái)上搭建了基于DNN的深度學(xué)習(xí)語(yǔ)音增強(qiáng)模型進(jìn)行了實(shí)驗(yàn),驗(yàn)證了基于DNN的語(yǔ)音增強(qiáng)方法,提高了增強(qiáng)語(yǔ)音的可懂度。
關(guān)鍵詞: 深度學(xué)習(xí);語(yǔ)音增強(qiáng);DNN;語(yǔ)音可懂度
【Abstract】 The background, model principle and implementation process of speech enhancement based on deep learning are systematically expounded. A DNN-based deep learning speech enhancement model is built on the TensorFlow platform to conduct experiments, and it is verified that the speech enhancement method based on DNN improves the intelligibility of enhanced speech.
【Key words】 ?deep learning; speech enhancement; DNN; speech intelligibility
0 引 言
語(yǔ)音是人與人之間溝通交流的主要媒介,然而在現(xiàn)實(shí)生活中語(yǔ)音不可避免地會(huì)受到外界噪聲的干擾,影響人們對(duì)語(yǔ)音的正確理解,特別是對(duì)于那些基于語(yǔ)音技術(shù)的實(shí)際應(yīng)用領(lǐng)域。比如,自動(dòng)語(yǔ)音識(shí)別技術(shù)(Automatic Speech Recognition ,ASR)和人工耳蝸技術(shù)(Cochlear Implant,CI)等,噪聲干擾嚴(yán)重制約了相關(guān)技術(shù)的發(fā)展。因此,研究如何從帶噪語(yǔ)音中估計(jì)出純凈語(yǔ)音即顯得尤為必要。
迄今為止,學(xué)者們提出了很多噪聲去除和語(yǔ)音增強(qiáng)的方法,比如維納濾波法(Wiener Filtering)、譜減法(Spectral Subtraction Method)、信號(hào)子空間方法(Signal Subspace Approach)和最小均方誤差方法(Minimum Mean Square Error ,MMSE)。然而,這些方法主要集中在研究語(yǔ)音與噪聲的統(tǒng)計(jì)特性差異上,需要保證語(yǔ)音和噪聲信號(hào)不存在相關(guān)關(guān)系,而且在降噪過(guò)程中會(huì)出現(xiàn)“音樂(lè)噪音”(music noise),導(dǎo)致語(yǔ)音失真[1]。此外,對(duì)于在語(yǔ)音增強(qiáng)中遇到的快速變化的噪聲(如機(jī)關(guān)槍?zhuān)┖拓?fù)譜估計(jì)等問(wèn)題,傳統(tǒng)的語(yǔ)音增強(qiáng)方法處理效果不佳[2]。
Rumelhart等3位學(xué)者在1988年發(fā)表的創(chuàng)新著作“Learning representations by back-propagating errors”中提出了多層神經(jīng)網(wǎng)絡(luò),不僅可以用相對(duì)簡(jiǎn)單的方法進(jìn)行有效的訓(xùn)練,而且隱藏層可以用來(lái)克服感知器在學(xué)習(xí)復(fù)雜模式時(shí)的弱點(diǎn)[3]。Hinton等學(xué)者[4]在2006年發(fā)表了一篇題為“A Fast Learning Algorithm for Deep Belief Nets”的突破性論文,使得深度學(xué)習(xí)技術(shù)得以興起。這篇論文不僅首次提出了深度學(xué)習(xí)的概念,還展示了采用無(wú)監(jiān)督方法進(jìn)行逐層訓(xùn)練的有效性,并在此基礎(chǔ)上進(jìn)行了監(jiān)督微調(diào)(fine-tuning),實(shí)現(xiàn)了MNIST字符識(shí)別數(shù)據(jù)集的最新結(jié)果。此后,Bengio等學(xué)者[5]隨即發(fā)表了另一篇開(kāi)創(chuàng)性的論文,即:Greedy Layer-wise Training of Deep Networks,揭示了為什么多層深度學(xué)習(xí)網(wǎng)絡(luò)能夠分層學(xué)習(xí)特性,而淺神經(jīng)網(wǎng)絡(luò)或支持向量機(jī)(SVM)則不能。該論文解釋說(shuō)明了使用DBNs、RBMs和自動(dòng)編碼器(AutoEncoder)的無(wú)監(jiān)督方法進(jìn)行預(yù)訓(xùn)練(pre-training)不僅可以初始化權(quán)值以獲得最優(yōu)解,而且提供了良好的可被學(xué)習(xí)的數(shù)據(jù)表示形式。Bengio等人在其論文“Scaling Algorithms Towards AI”中通過(guò)CNN、RBM、DBN等架構(gòu)以及無(wú)監(jiān)督的預(yù)訓(xùn)練和微調(diào)等技術(shù)重申了進(jìn)行深度學(xué)習(xí)的優(yōu)勢(shì),并引發(fā)了新一輪深度學(xué)習(xí)的研發(fā)熱潮[6]。
近年來(lái),隨著基于深度學(xué)習(xí)的語(yǔ)音處理技術(shù)的逐步成功,不斷有學(xué)者提出了基于深度學(xué)習(xí)的語(yǔ)音增強(qiáng)框架,期望從帶噪語(yǔ)音噪聲特征中預(yù)測(cè)出純凈語(yǔ)音特征來(lái)實(shí)現(xiàn)語(yǔ)音的降噪處理[7-11]。
1 語(yǔ)音增強(qiáng)和深度學(xué)習(xí)的概述
1.1 語(yǔ)音增強(qiáng)的過(guò)程和目標(biāo)
語(yǔ)音增強(qiáng)是利用各種算法(包括傳統(tǒng)的音頻信號(hào)處理技術(shù)和現(xiàn)如今的深度學(xué)習(xí)技術(shù))來(lái)提高退化語(yǔ)音信號(hào)(degraded speech signal)的質(zhì)量(語(yǔ)音的聽(tīng)覺(jué)舒適度)或可懂度(語(yǔ)音的可理解性)[1]。其中,降噪語(yǔ)音增強(qiáng)是語(yǔ)音增強(qiáng)領(lǐng)域中最重要的研究方向,被廣泛應(yīng)用于手機(jī)、VoIP、電話會(huì)議系統(tǒng)、語(yǔ)音識(shí)別、助聽(tīng)器等領(lǐng)域。
1.2 語(yǔ)音增強(qiáng)的方法概述
傳統(tǒng)的語(yǔ)音增強(qiáng)降噪算法可分為3類(lèi):濾波技術(shù)(Filtering Techniques)、頻譜恢復(fù)(Spectral Restoration)和基于語(yǔ)音模型(Speech-Model-Based)的方法[1]。其中,濾波技術(shù)主要包括有維納濾波法(WF)、譜減法(SSM)和信號(hào)子空間方法(SSA)。頻譜恢復(fù)技術(shù)主要有最小均方誤差短時(shí)譜振幅估計(jì)器方法(Minimum Mean-Square-Error Short-Time Spectral Amplitude Estimator,MMSE-STSA)。
1.3 深度學(xué)習(xí)的基本概念
深度學(xué)習(xí)是機(jī)器學(xué)習(xí)研究的一種形式,將其引入是為了使機(jī)器學(xué)習(xí)更接近研究的最初目標(biāo)之一:人工智能。深度學(xué)習(xí)使計(jì)算機(jī)能夠從經(jīng)驗(yàn)數(shù)據(jù)中學(xué)習(xí),并根據(jù)概念的層次來(lái)理解世界。由于計(jì)算機(jī)從經(jīng)驗(yàn)數(shù)據(jù)中收集知識(shí),因此不需要人工指定計(jì)算機(jī)所需的所有知識(shí)。概念的層次結(jié)構(gòu)允許計(jì)算機(jī)從簡(jiǎn)單的概念中通過(guò)構(gòu)建復(fù)雜的概念來(lái)學(xué)習(xí),這使得層次結(jié)構(gòu)圖可有許多層。深度學(xué)習(xí)允許由多個(gè)處理層組成的計(jì)算模型中學(xué)習(xí)具有多個(gè)抽象級(jí)別的數(shù)據(jù)表示。這些方法極大地提高了語(yǔ)音識(shí)別、視覺(jué)目標(biāo)識(shí)別、目標(biāo)檢測(cè)以及藥物發(fā)現(xiàn)和基因組學(xué)等許多領(lǐng)域的技術(shù)水平。深度學(xué)習(xí)通過(guò)使用反向傳播算法(Back-propagation algorithm)來(lái)指出計(jì)算機(jī)應(yīng)該如何改變其內(nèi)部參數(shù)來(lái)發(fā)現(xiàn)大數(shù)據(jù)集中復(fù)雜的結(jié)構(gòu),而這些參數(shù)用于從上一層的表示中來(lái)計(jì)算網(wǎng)絡(luò)層次中的每一層表示[12]。
2 基于深度學(xué)習(xí)的語(yǔ)音增強(qiáng)方法
3 基于深度學(xué)習(xí)的語(yǔ)音增強(qiáng)建模實(shí)驗(yàn)
本節(jié)基于深度神經(jīng)網(wǎng)絡(luò)(DNN)建立語(yǔ)音增強(qiáng)模型,并與傳統(tǒng)的語(yǔ)音增強(qiáng)算法(子空間法)在語(yǔ)音增強(qiáng)的可懂度效果上進(jìn)行了實(shí)驗(yàn)對(duì)比。對(duì)此部分可詳述如下。
3.1 實(shí)驗(yàn)步驟
3.1.1 實(shí)驗(yàn)環(huán)境搭建及數(shù)據(jù)準(zhǔn)備
在TensorFlow深度學(xué)習(xí)框架中搭建了基于DNN的語(yǔ)音增強(qiáng)模型。噪聲信號(hào)選取為NOISEX-92標(biāo)準(zhǔn)庫(kù)中的4種噪聲,分別為babble、car、street和train,純凈語(yǔ)音句子來(lái)源于IEEE句子庫(kù),信噪比分別為-15 dB、-10 dB和-5 dB。信號(hào)的量化精度為16 bit,采樣頻率設(shè)置為8 kHz。
DNN模型的訓(xùn)練集由IEEE句子庫(kù)中的前600個(gè)句子,依據(jù)4種類(lèi)型噪聲×3種信噪比、共計(jì)12種加噪條件產(chǎn)生的帶噪語(yǔ)音和其所參考的清晰語(yǔ)音構(gòu)成。因此,實(shí)驗(yàn)中由7 200個(gè)語(yǔ)音樣本對(duì)組成DNN模型的訓(xùn)練數(shù)據(jù)集。
DNN模型的測(cè)試集由IEEE句子庫(kù)中的后120個(gè)句子,依據(jù)4種類(lèi)型噪聲×3種信噪比、共計(jì)12種加噪條件產(chǎn)生的帶噪語(yǔ)音組成。因此,由1 440個(gè)語(yǔ)音樣本組成實(shí)驗(yàn)中DNN模型的測(cè)試數(shù)據(jù)集。
3.1.2 特征提取
在模型訓(xùn)練階段,首先對(duì)訓(xùn)練數(shù)據(jù)集中的帶噪語(yǔ)音和純凈語(yǔ)音信號(hào)樣本對(duì)進(jìn)行短時(shí)傅里葉分析,分別計(jì)算每個(gè)重疊窗口幀的離散傅里葉變換(DFT),然后分別計(jì)算其對(duì)數(shù)功率譜(LPS)來(lái)作為DNN模型訓(xùn)練的特征數(shù)據(jù)。在語(yǔ)音增強(qiáng)階段,將測(cè)試數(shù)據(jù)集中的帶噪語(yǔ)音進(jìn)行短時(shí)傅里葉分析后計(jì)算每個(gè)重疊窗口幀的離散傅里葉變換(DFT),再將其對(duì)數(shù)功率譜(LPS)作為模型的輸入數(shù)據(jù)。
3.1.3 DNN模型建立及參數(shù)配置
實(shí)驗(yàn)中DNN模型由1個(gè)輸入層,3個(gè)隱藏層(每層500個(gè)神經(jīng)元)和1個(gè)輸出層構(gòu)成。每層的預(yù)訓(xùn)練輪數(shù)(epoch)設(shè)置為20,預(yù)訓(xùn)練的學(xué)習(xí)速率設(shè)置為0.000 5。在參數(shù)微調(diào)時(shí),前10輪(epoch)的學(xué)習(xí)速率設(shè)置為0.1,此后每輪學(xué)習(xí)速率都下降10%,總共進(jìn)行50輪訓(xùn)練。采用小批量(mini-batch)隨機(jī)梯度下降(stochastic gradient descent)算法進(jìn)行調(diào)優(yōu)處理,小批量(mini-batch)數(shù)據(jù)集大小設(shè)置為N=128。
3.2 實(shí)驗(yàn)結(jié)果及分析
本文的語(yǔ)音可懂度測(cè)試采用歸一化協(xié)方差法(NCM)。研究表明,子空間法是傳統(tǒng)的語(yǔ)音增強(qiáng)算法中語(yǔ)音可懂度增強(qiáng)效果較好的一種增強(qiáng)算法[14]。故而實(shí)驗(yàn)選用了子空間法和加噪未增強(qiáng)兩種處理方式與本文的增強(qiáng)算法進(jìn)行對(duì)比。實(shí)驗(yàn)中語(yǔ)音可懂度的NCM評(píng)價(jià)結(jié)果見(jiàn)表1~表3。
實(shí)驗(yàn)結(jié)果中的NCM數(shù)值越大,表示其可懂度越高,從表1~表3語(yǔ)音NCM測(cè)試值可以看出:對(duì)比其它2種對(duì)帶噪語(yǔ)音的處理(加噪未增強(qiáng),子空間法增強(qiáng)),基于DNN的語(yǔ)音增強(qiáng)方法提高了增強(qiáng)后帶噪語(yǔ)音的可懂度。
由于噪聲或信噪比估計(jì)誤差會(huì)導(dǎo)致語(yǔ)音增強(qiáng)處理頻譜中出現(xiàn)偽峰,幾乎所有傳統(tǒng)的語(yǔ)音增強(qiáng)方法都出現(xiàn)了音樂(lè)噪聲。與之不同的是,基于深度學(xué)習(xí)的語(yǔ)音增強(qiáng)中沒(méi)有發(fā)現(xiàn)音樂(lè)噪聲。此外,深度學(xué)習(xí)模型可以恢復(fù)被噪聲掩蓋了的語(yǔ)音高頻頻譜[15]。因此,基于深度學(xué)習(xí)的語(yǔ)音增強(qiáng)方法較傳統(tǒng)的語(yǔ)音增強(qiáng)能夠表現(xiàn)出更好的語(yǔ)音可懂度增強(qiáng)效果。
4 結(jié)束語(yǔ)
本文針對(duì)基于深度學(xué)習(xí)的語(yǔ)音增強(qiáng)方法展開(kāi)研究,系統(tǒng)闡述了基于深度學(xué)習(xí)的語(yǔ)音增強(qiáng)方法提出的背景、模型原理和實(shí)施過(guò)程。在TensorFlow平臺(tái)上搭建了基于DNN的深度學(xué)習(xí)語(yǔ)音增強(qiáng)模型,并進(jìn)行了實(shí)驗(yàn),驗(yàn)證后可知基于DNN的語(yǔ)音增強(qiáng)方法提高了增強(qiáng)語(yǔ)音的可懂度。
值得注意的是,基于深度學(xué)習(xí)的語(yǔ)音增強(qiáng)方法需要用到規(guī)模較大的語(yǔ)音訓(xùn)練集樣本對(duì),特別是當(dāng)所構(gòu)建的模型規(guī)模較大而訓(xùn)練集的樣本數(shù)量又極少時(shí),模型極易出現(xiàn)過(guò)擬合現(xiàn)象,這將最終使得模型在語(yǔ)音增強(qiáng)階段失效。
參考文獻(xiàn)
[1]LOIZOU P C. Speech enhancement: Theory and practice[M].2nd ed. Boca Raton, FL, USA: CRC Press, 2013.
[2]XU Yong, DU Jun, DAI Lirong, et al. A regression approach to speech enhancement based on deep neural networks [J]. IEEE/ACM transactions on audio, speech, and language processing, 2015, 23(1):7-19.
[3]RUMELHART D E, HINTON G E, WILLIAMS R J. Learning internal representations by error propagation[M]∥ Neurocomputing: foundations of research.Cambridge, MA, USA: MIT Press, 1988: 696-699.
[4]HINTON G E, OSINDERO S, TEH Y W. A fast learning algorithm for deep belief nets [J]. Neural Computation,2006,18(7):1527-1554.
[5]BENGIO Y, LAMBLIN P, POPOVICI D, et a1. Greedy layer-wise training of deep networks[C]∥ ?Proceedings of the Twentieth Annual Conference on Neural Information Processing Systems. Vancouver, British Columbia, Canada:dblp,2006: 153-160.
[6]BOTTOU L, CHAPELLE O, DECOSTE D, et a1. Large-scale kernel machines[M]. Cambridge, MA, USA: MIT Press, 2007.
[7]KOLBK M, TAN Zhenghua, JENSEN J. Speech intelligibility potential of general and specialized deep neural network based speech enhancement systems [J]. IEEE/ACM Trans Audio, Speech and Language Processing, 2017, 25(1): 153-167.
[8]TU Y H, DU J, LEE C H. DNN training based on classic gain function for single-channel speech enhancement and recognition[C]∥ 2019 IEEE International Conference on Acoustics, Speech and Signal Processing (ICASSP). Bringhton:IEEE, 2019:910-914.
[9]ODELOWO B O, ANDERSON D V. A study of training targets for deep neural network-based speech enhancement using noise prediction[C]∥ 2018 IEEE International Conference on Acoustics, Speech and Signal Processing (ICASSP).Calgary,AB,Canada:IEEE, 2018:5409-5413.
[10]LAI Y H, CHEN F, WANG S S, et al. A deep denoising autoencoder approach to improving the intelligibility of vocoded speech in cochlear implant simulation [J]. IEEE Transactions on Biomedical Engineering, 2017, 64(7): 1568-1578.
[11]LAI Y H, TSAO Y, LU X, et al. Deep learning based noise reduction approach to improve speech intelligibility for cochlear implant recipients [J]. Ear Hear, 2018, 39(4): 795-809.
[12]GOODFELLOW I, BENGIO Y, COURVILLE A. Deep learning [M]. Cambridge, MA, USA: MIT Press, 2016.
[13]LIU Ding, SMARAGDIS P, KIM M. Experiments on deep learning for speech denoising [C]∥15th Annual Conference of the International Speech Communication Association(INTERSPEECH-2014).Singapore:ISCA,2014: 2685-2689.
[14]HU Yi, LOIZOU P C. A comparative intelligibility study of single-microphone noise reduction algorithms[J].The Journal of the Acoustical Society of America,2007,122(3):1777-1786.
[15]XU Yong, DU Jun, DAI Lirong, et al. An experimental study on speech enhancement based on deep neural networks [J]. IEEE Signal Processing Letters, 2014, 21(1):65-68.