孫立輝 曹麗靜 張竟雄
摘 要:步兵戰(zhàn)車強(qiáng)噪聲背景下由于強(qiáng)背景噪聲的存在,既影響了口令識(shí)別的正確率,又降低了指揮所后臺(tái)監(jiān)聽的清晰度,為了提高語音質(zhì)量,本文對(duì)口令數(shù)據(jù)進(jìn)行增強(qiáng)處理。為此,本文提出了一種基于升降編解碼全卷積神經(jīng)網(wǎng)絡(luò)(IncreaseDecreaseEncoderDecodeConvolutionNeuralNetwork,IDEDCNN)的語音增強(qiáng)算法,該算法將輸入語音信號(hào)通過預(yù)處理,獲取其傅里葉幅度譜特征,并將連續(xù)8幀的語音信號(hào)作為網(wǎng)絡(luò)的輸入,通過編碼器來對(duì)相鄰多幀語音信號(hào)建模以提取上下文信息,利用解碼器挖掘當(dāng)前待增強(qiáng)語音幀和上下文信息之間的聯(lián)系,從而實(shí)現(xiàn)語音增強(qiáng)的目的。通過實(shí)驗(yàn)證明了該算法能夠?qū)崿F(xiàn)較好的語音增強(qiáng)效果。
關(guān)鍵詞:噪聲估計(jì);語音增強(qiáng);全卷積神經(jīng)網(wǎng)絡(luò)
【Abstract】Duetothepresenceofstrongbackgroundnoiseinthebackgroundofinfantryfightingvehicles,theaccuracyofpasswordrecognitionisnotonlyaffected,butalsotheclarityofbackgroundmonitoringofcommandpostisreduced.Inordertoimprovethevoicequality,thispapercarriesoutenhancedprocessingofpassworddata.Tothisend,thispaperputsforwardaliftdecodingtheconvolutionalNeuralNetwork(happensDecreaseEncoderDecodeConvolutionNeuralNetwork,IDEDCNN),whichisthespeechenhancementalgorithm.Inthisalgorithm,theinputspeechsignalispreprocessed,theFourieramplitudespectrumfeaturesareobtained,andeightadjacentframesofspeechsignalaretakenasnetworkinput,modelofadjacentframesofvoicesignalismodeledthroughtheuseoftheencodertoextractcontextinformation.Thedecoderisusedtominetheconnectionbetweenthespeechframeandthecontextinformationsoastorealizethepurposeofspeechenhancement.Experimentalresultsshowthatthisalgorithmcanachievebetterspeechenhancementeffect.
【Keywords】noiseestimation;speechenhancement;FCNN
作者簡介:孫立輝(1970-),男,博士,教授,主要研究方向:計(jì)算機(jī)視覺、機(jī)器學(xué)習(xí);曹麗靜(1994-),女,碩士研究生,主要研究方向:語音增強(qiáng)、深度學(xué)習(xí);張竟雄(1996-),男,碩士研究生,主要研究方向:計(jì)算機(jī)視覺、深度學(xué)習(xí)。
0 引 言
隨著軍事化訓(xùn)練的自動(dòng)化,實(shí)現(xiàn)對(duì)綜合采集的戰(zhàn)士口令數(shù)據(jù)的識(shí)別,對(duì)評(píng)估戰(zhàn)士的訓(xùn)練效果具有重要意義。在戰(zhàn)車訓(xùn)練過程中要對(duì)采集的戰(zhàn)士口令數(shù)據(jù)進(jìn)行后臺(tái)監(jiān)聽以及口令識(shí)別操作。但是由于戰(zhàn)車強(qiáng)噪聲背景的存在,導(dǎo)致目前的算法無法實(shí)現(xiàn)較好的口令識(shí)別效果,因此,有必要增強(qiáng)口令數(shù)據(jù),從而提高監(jiān)聽效果和口令識(shí)別準(zhǔn)確率。
神經(jīng)網(wǎng)絡(luò)具有強(qiáng)大的學(xué)習(xí)能力,能夠很好地實(shí)現(xiàn)語音增強(qiáng)的效果。文獻(xiàn)[1]提出利用冗余卷積編碼器解碼器網(wǎng)絡(luò)結(jié)構(gòu)學(xué)習(xí)有噪聲語音光譜和干凈語音光譜之間的映射,解決了助聽器中存在的噪聲問題,提高了語音的清晰度。文獻(xiàn)[2]通過將新的網(wǎng)絡(luò)建立到編碼器和譯碼器上,增加基于卷積的短時(shí)傅里葉變換層(STFT)和逆STFT層來模擬STFT的正逆操作,得到了較好的語音增強(qiáng)效果。文獻(xiàn)[3]并沒有直接對(duì)時(shí)域信號(hào)進(jìn)行處理,而是將信號(hào)轉(zhuǎn)換為頻域上的信號(hào),并且使用增強(qiáng)STFT幅度和干凈STFT之間的平均絕對(duì)誤差損失來訓(xùn)練CNN,該方法避免了無效STFT問題,實(shí)驗(yàn)結(jié)果表明該算法能夠完成增強(qiáng)的目的。
本文提出了一種基于升降編解碼全卷積神經(jīng)網(wǎng)絡(luò)(IncreaseDecreaseEncoderDecodeConvolutionNeuralNetwork,IDEDCNN)的語音增強(qiáng)算法,該算法將輸入語音信號(hào)通過預(yù)處理,獲取其傅里葉幅度譜特征,并將連續(xù)8幀的語音信號(hào)作為網(wǎng)絡(luò)的輸入,通過編碼器來對(duì)相鄰多幀語音信號(hào)建模以提取上下文信息,利用解碼器挖掘當(dāng)前待增強(qiáng)語音幀和上下文信息之間的聯(lián)系,從而實(shí)現(xiàn)語音增強(qiáng)的目的。通過實(shí)驗(yàn)證明了該算法能夠?qū)崿F(xiàn)較好的語音增強(qiáng)效果。
1 步兵戰(zhàn)車環(huán)境下語音增強(qiáng)問題描述
步兵戰(zhàn)車強(qiáng)噪聲背景下的語音數(shù)據(jù)是由戰(zhàn)士的口令數(shù)據(jù)s和發(fā)動(dòng)機(jī)等背景噪聲d組成的帶噪數(shù)據(jù)y,即:
y=s+d,(1)
步兵戰(zhàn)車環(huán)境下的語音增強(qiáng)目標(biāo)就是輸入帶噪語音數(shù)據(jù)y,得到s的較為準(zhǔn)確的估計(jì)值s'。為了完成步兵戰(zhàn)車背景下戰(zhàn)士語音數(shù)據(jù)增強(qiáng)的任務(wù),在網(wǎng)絡(luò)的訓(xùn)練階段使網(wǎng)絡(luò)學(xué)習(xí)含噪語音特征和干凈語音特征之間的映射關(guān)系,即:
s'=f(y),(2)
在增強(qiáng)階段利用訓(xùn)練好的模型獲得估計(jì)的干凈語音信號(hào)。步兵戰(zhàn)車環(huán)境下戰(zhàn)士語音口令數(shù)據(jù)增強(qiáng)系統(tǒng)如圖1所示。
2 升降編解碼全卷積神經(jīng)網(wǎng)絡(luò)
本文通過實(shí)驗(yàn)驗(yàn)證直接利用全卷積神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)實(shí)現(xiàn)步兵戰(zhàn)車環(huán)境下戰(zhàn)士語音口令數(shù)據(jù)的增強(qiáng),無法實(shí)現(xiàn)較大跨度的增強(qiáng)效果,提高語音的質(zhì)量。受Lee等人[1]利用R-CED(R-ConvolutionEncodeDecode)網(wǎng)絡(luò)實(shí)現(xiàn)了助聽器語音數(shù)據(jù)的增強(qiáng),本文提出了另外一種卷積網(wǎng)絡(luò)體系結(jié)構(gòu),即升降編解碼全卷積神經(jīng)網(wǎng)絡(luò)(IncreaseDecreaseEncoderDecodeConvolutionNeuralNetwork,IDEDCNN)來解決步兵戰(zhàn)車環(huán)境下戰(zhàn)士語音口令數(shù)據(jù)增強(qiáng)。升降編解碼全卷積神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)如圖2所示。
步兵戰(zhàn)車背景下戰(zhàn)士語音口令增強(qiáng)網(wǎng)絡(luò)的輸入為129*8的STFT矢量,網(wǎng)絡(luò)是重復(fù)的卷積、歸一化和ReLu激活函數(shù)組成,網(wǎng)絡(luò)深度為15個(gè)卷積層,實(shí)驗(yàn)訓(xùn)練輪數(shù)16輪,學(xué)習(xí)率最初設(shè)置為a=0.0015,并且當(dāng)驗(yàn)證損失在4次訓(xùn)練不變時(shí),學(xué)習(xí)率依次下降為a/2,a/3,a/4來進(jìn)行訓(xùn)練,損失函數(shù)為交叉熵,為了驗(yàn)證本文提出網(wǎng)絡(luò)結(jié)構(gòu)的可行性,與FCN結(jié)構(gòu)進(jìn)行對(duì)比,2種網(wǎng)絡(luò)結(jié)構(gòu)見表1。
3 實(shí)驗(yàn)與結(jié)果分析
3.1 數(shù)據(jù)集
步兵戰(zhàn)車環(huán)境下戰(zhàn)士語音口令數(shù)據(jù)增強(qiáng)分為訓(xùn)練和增強(qiáng)兩個(gè)階段。對(duì)此擬做闡釋分述如下。
(1)訓(xùn)練數(shù)據(jù)集。實(shí)驗(yàn)數(shù)據(jù)集分為訓(xùn)練集、測試集和驗(yàn)證集,干凈數(shù)據(jù)為CommonVoice,噪聲數(shù)據(jù)是步兵訓(xùn)練場上采集的各種戰(zhàn)車的背景噪聲,并且在0dB信噪比時(shí)隨機(jī)添加噪聲來增強(qiáng)魯棒性測試集。訓(xùn)練集共計(jì)5000個(gè)語音數(shù)據(jù)段,測試集200個(gè)語音數(shù)據(jù)段,實(shí)驗(yàn)中1%的數(shù)據(jù)集作為驗(yàn)證集。
(2)增強(qiáng)數(shù)據(jù)集。增強(qiáng)階段輸入含噪語音口令數(shù)據(jù),進(jìn)行特征提取后輸入到預(yù)訓(xùn)練好的模型中,進(jìn)行增強(qiáng)和語音重構(gòu)后,獲得增強(qiáng)后的數(shù)據(jù)集。數(shù)據(jù)集共計(jì)3300條步兵戰(zhàn)車強(qiáng)噪聲背景下戰(zhàn)士語音口令數(shù)據(jù)。
3.2 預(yù)處理和參數(shù)選取
將輸入的音頻數(shù)據(jù)進(jìn)行降采樣操作,降到8kHz,通過256點(diǎn)短時(shí)傅里葉變換(32ms漢明窗口)計(jì)算得到頻譜矢量,窗口移動(dòng)長度為8ms,并且通過對(duì)稱移除信號(hào)操作,將256點(diǎn)的短時(shí)傅里葉(theshort-timeFouriertransform,STFT))向量簡化為129點(diǎn)。
通過預(yù)處理操作,獲得的網(wǎng)絡(luò)輸入特征是由8個(gè)連續(xù)的STFT向量組成,并且輸入特征都進(jìn)行了標(biāo)準(zhǔn)化,使其均值和單位方差均為0。由于語音增強(qiáng)系統(tǒng)是逐幀進(jìn)行語音增強(qiáng),因此文中解碼器最終只輸出當(dāng)前待增強(qiáng)語音的干凈語音特征估計(jì),即只輸出一幀,因此輸出特征為129*1的向量,并且進(jìn)行標(biāo)準(zhǔn)化使其均值和單位方差都為0。
3.3 優(yōu)化
為了提高語音的質(zhì)量,減小噪聲過估計(jì),保證噪聲估計(jì)的魯棒性,進(jìn)行了優(yōu)化,具體如下。
3.4 實(shí)驗(yàn)與分析
在訓(xùn)練階段,通過將戰(zhàn)士語音口令數(shù)據(jù)進(jìn)行特征提取后,輸入到對(duì)應(yīng)的網(wǎng)絡(luò)模型后,通過多次訓(xùn)練得到戰(zhàn)士語音口令增強(qiáng)模型,增強(qiáng)階段將采集的實(shí)彈環(huán)境下戰(zhàn)士口令數(shù)據(jù)輸入到訓(xùn)練模型中進(jìn)行增強(qiáng)并且重構(gòu)后得到增強(qiáng)后的數(shù)據(jù)。通過實(shí)驗(yàn)驗(yàn)證了與FCN網(wǎng)絡(luò)相比,本文提出的網(wǎng)絡(luò)結(jié)構(gòu)能夠?qū)崿F(xiàn)很好的語音增強(qiáng)效果,提高了語音的質(zhì)量和可懂度。圖3為帶噪語音口令數(shù)據(jù)波形,圖4為FCN增強(qiáng)后的語音口令數(shù)據(jù)波形,圖5為IDEDCNN增強(qiáng)后的語音口令數(shù)據(jù)波形。
4 結(jié)束語
本文設(shè)計(jì)了基于升降編解碼卷積神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)實(shí)現(xiàn)步兵戰(zhàn)車環(huán)境下戰(zhàn)士語音口令數(shù)據(jù)增強(qiáng),與傳統(tǒng)的全卷積神經(jīng)網(wǎng)絡(luò)相比,該網(wǎng)絡(luò)結(jié)構(gòu)在編碼階段濾波器數(shù)量逐漸增多,從而獲取數(shù)據(jù)更高維特征,解碼階段壓縮特征,并且為了保持語音數(shù)據(jù)上下文之間的聯(lián)系,網(wǎng)絡(luò)的輸入為相鄰8幀的數(shù)據(jù)。通過與傳統(tǒng)全卷積神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)相比,本文提出的網(wǎng)絡(luò)結(jié)構(gòu)能夠?qū)崿F(xiàn)更好的增強(qiáng)效果。但是由于戰(zhàn)車強(qiáng)噪聲的極其不穩(wěn)定,增強(qiáng)結(jié)果仍然會(huì)存在噪聲殘留,接下來會(huì)繼續(xù)分析如何更好降低戰(zhàn)車強(qiáng)噪聲背景下的語音增強(qiáng),從而實(shí)現(xiàn)更好的識(shí)別工作。
參考文獻(xiàn)
[1] ARKSR,LEEJW.AfullyConvolutionalNeuralNetworkforspeechenhancement[C]//INTERSPEECH2017.Stockholm,Sweden:ISCA,2017:1993-1997.
[2]ZHUYuanyuan,XUXu,YEZhongfu.FLGCNN:Anovelfullyconvolutionalneuralnetworkforend-to-endmonauralspeechenhancementwithutterance-basedobjectivefunctions[J].AppliedAcoustics,2020,170(2):107511.
[3]PANDEYA,WANGDeLiang.AnewframeworkforCNN-basedspeechenhancementinthetimedomain[J].IEEE/ACMTransactionsonAudio,SpeechandLanguageProcessing(TASLP),2019,27(7):1179-1188.
[4]TANKe,CHENJitong,WANGDeLiang.GatedresidualnetworkswithDilatedConvolutionsformonauralspeechenhancement[J].IEEE/ACMTransactionsonAudio,SpeechandLanguageProcessing(TASLP),2019,27(1):189-198.
[5]彭川.基于深度學(xué)習(xí)的語音增強(qiáng)算法研究與實(shí)現(xiàn)[D].成都:電子科技大學(xué),2020.
[6]張明亮,陳雨.基于全卷積神經(jīng)網(wǎng)絡(luò)的語音增強(qiáng)算法[J].計(jì)算機(jī)應(yīng)用研究,2020,37(S1):135-137.
[7]JIAHairong,WANGWeimei,MEIShulin.CombiningadaptivesparseNMFfeatureextractionandsoftmasktooptimizeDNNforspeechenhancement[J].AppliedAcoustics,2021,171:107666.
[8]YUHongjiang,ZHUWeiping,CHAMPAGNEB.SpeechenhancementusingaDNN-augmentedcolored-noiseKalmanfilter[J].SpeechCommunication,2020,125(2):142-151.
[9]王師琦,曾慶寧,龍超,等.語音增強(qiáng)與檢測的多任務(wù)學(xué)習(xí)方法研究[J/OL].計(jì)算機(jī)工程與應(yīng)用:1-8[2020-11-26].https://kns.cnki.net/kcms/detail/11.2127.TP.20201126.0923.004.html.
[10] 房慧保,馬建芬,田玉玲,等.基于感知相關(guān)代價(jià)函數(shù)的深度學(xué)習(xí)語音增強(qiáng)[J].計(jì)算機(jī)工程與設(shè)計(jì),2020,41(11):3212-3217.
[11]鄭展恒,曾慶寧.語音增強(qiáng)算法的研究與改進(jìn)[J].現(xiàn)代電子技術(shù),2020,43(21):27-30.
[12]袁文浩,時(shí)云龍,胡少東,等.一種基于時(shí)頻域特征融合的語音增強(qiáng)方法[J/OL].計(jì)算機(jī)工程:1-10[2020-11-26].https://doi.org/10.19678/j.issn.1000-3428.0059354.
[13]張行,趙馨.基于神經(jīng)網(wǎng)絡(luò)噪聲分類的語音增強(qiáng)算法[J].中國電子科學(xué)研究院學(xué)報(bào),2020,15(9):880-885,893.
[14]范珍艷,莊曉東,李鐘曉.基于變換域稀疏度量的多級(jí)FrFT語音增強(qiáng)[J].計(jì)算機(jī)工程與設(shè)計(jì),2020,41(9):2574-2584.
[15]田玉靜,左紅偉,王超.語音通信降噪研究[J/OL].應(yīng)用聲學(xué):1-11[2020-07-22].http://kns.cnki.net/kcms/detail/11.2121.O4.20200721.1827.008.html.
[16]袁文浩,胡少東,時(shí)云龍,等.一種用于語音增強(qiáng)的卷積門控循環(huán)網(wǎng)絡(luò)[J].電子學(xué)報(bào),2020,48(7):1276-1283.
[17]龔杰,馮海泓,陳友元,等.利用波束形成和神經(jīng)網(wǎng)絡(luò)進(jìn)行語音增強(qiáng)[J].聲學(xué)技術(shù),2020,39(3):323-328.
[18]李勁東.基于深度學(xué)習(xí)的單通道語音增強(qiáng)研究[D].呼和浩特:內(nèi)蒙古大學(xué),2020.
[19]張宇飛.基于深度神經(jīng)網(wǎng)絡(luò)和循環(huán)神經(jīng)網(wǎng)絡(luò)的語音增強(qiáng)方法研究[D].綿陽:中國工程物理研究院,2020.
[20]藍(lán)天,彭川,李森,等.單聲道語音降噪與去混響研究綜述[J].計(jì)算機(jī)研究與發(fā)展,2020,57(5):928-953.
[21]孔德廷.一種改進(jìn)的基于對(duì)數(shù)譜估計(jì)的語音增強(qiáng)算法[J].聲學(xué)技術(shù),2020,39(2):208-213.
[22]高登峰,楊波,劉洪,等.多特征全卷積網(wǎng)絡(luò)的地空通話語音增強(qiáng)方法[J].四川大學(xué)學(xué)報(bào)(自然科學(xué)版),2020,57(2):289-296.
[23]王文益,伊雪.基于改進(jìn)語音存在概率的自適應(yīng)噪聲跟蹤算法[J].信號(hào)處理,2020,36(1):32-41.
[24]吳慶賀,吳海鋒,沈勇,等.工業(yè)噪聲環(huán)境下多麥狀態(tài)空間模型語音增強(qiáng)算法[J].計(jì)算機(jī)應(yīng)用,2020,40(5):1476-1482.
[25]DANIELM,TANZhenghua,SIGURDURS,etal.Deep-learning-basedaudio-visualspeechenhancementinpresenceofLombardeffect[J].CoRRabs/1905.12605,2019.
[26]SALEEMN,KHATTAKMI,PEREZEV.Spectralphaseestimationbasedondeepneuralnetworksforsinglechannelspeechenhancement[J].JournalofCommunicationsTechnologyandElectronics,2019,64(12):1372-1382.
[27]董胡,徐雨明,馬振中,等.基于小波包與自適應(yīng)維納濾波的語音增強(qiáng)算法[J].計(jì)算機(jī)技術(shù)與發(fā)展,2020,30(1):50-53.