邵榕梓 富曉乾 田愛生 蒲俞姣 陳凱
摘? 要:在基于時(shí)頻掩模的深度神經(jīng)網(wǎng)絡(luò)語音增強(qiáng)系統(tǒng)中,學(xué)習(xí)目標(biāo)的選擇對(duì)于整體語音增強(qiáng)性能的影響極大,文章針對(duì)目前最常用的學(xué)習(xí)目標(biāo)——理想二值掩模和理想浮值掩模在語音增強(qiáng)中的效果進(jìn)行了研究,為驗(yàn)證不同時(shí)頻掩消除噪聲模性能的好壞,設(shè)計(jì)了多組對(duì)比實(shí)驗(yàn),為以后深度學(xué)習(xí)訓(xùn)練過程中直接選擇學(xué)習(xí)目標(biāo)提供依據(jù)。仿真結(jié)果表明:在不同信噪比和不同噪聲條件下,理想浮值掩模的性能均好過理想二值掩模。
關(guān)鍵詞:語音增強(qiáng);學(xué)習(xí)目標(biāo);理想二值掩模;理想浮值掩模
中圖分類號(hào):TN912.3? 文獻(xiàn)標(biāo)識(shí)碼:A ? 文章編號(hào):2096-4706(2020)18-0084-03
Abstract:In the deep neural network speech enhancement system based on time-frequency mask,the choice of learning target has a great influence on the overall speech enhancement performance. The article studies the effects of the most commonly used learning goals——ideal binary mask and ideal floating mask in speech enhancement. In order to verify the performance of different time-frequency masks to eliminate noise modes,multiple sets of comparative experiments were designed to provide a basis for direct selection of learning targets in the subsequent deep learning training process. The simulation results show that the performance of the ideal float mask is better than the ideal binary mask under different signal to noise ratio and different noise conditions.
Keywords:speech enhancement;learning goals;ideal binary mask;ideal floating mask
0? 引? 言
在我們的周圍,有這樣一個(gè)特殊人群,他們外表看起來和正常人一樣,但是卻聽不到我們的聲音,無法和人們進(jìn)行正常的交流。此外,隨著我國人口老齡化,老年人口增多,老人們的聽覺也多數(shù)存在著問題,他們選擇佩戴助聽器來提高聽力。這對(duì)于當(dāng)前的醫(yī)學(xué)水平來說,確實(shí)是最直接的方法之一,但是,助聽器也存在著很多的不足,例如當(dāng)人們處于嘈雜的環(huán)境中時(shí),助聽器把噪聲也放大傳入人的耳朵,使得助聽器的性能被嚴(yán)重影響,導(dǎo)致聽力障礙的人們無法聽清。因此,我們迫切需要一種可以彌補(bǔ)這一不足的方法來幫助我們的患者,而基于深度神經(jīng)網(wǎng)絡(luò)的語音增強(qiáng)就是一種比較有價(jià)值的研究方向。
基于深度神經(jīng)網(wǎng)絡(luò)的語音增強(qiáng)技術(shù)作為解決助聽器在嘈雜環(huán)境中性能下降這一缺點(diǎn)的關(guān)鍵技術(shù),在保證語音不失真的條件下,能夠盡可能減少或消除有噪聲語音中的噪聲干擾,以獲得清晰高質(zhì)量的增強(qiáng)語音。語音增強(qiáng)技術(shù)作為一種基本的信號(hào)處理方法得到了廣泛的研究,其還可以應(yīng)用在語音識(shí)別、音視頻會(huì)議以及其他領(lǐng)域,目的就是為了提高語音的質(zhì)量和可懂度。近幾十年來已經(jīng)出現(xiàn)了許多傳統(tǒng)的基于單通道語音增強(qiáng)的算法,其中最具代表性的主要是譜減法[1]、Wiener濾波[2]等,它們通過信號(hào)統(tǒng)計(jì)信息進(jìn)行降噪,但當(dāng)噪聲是非平穩(wěn)信號(hào)時(shí),傳統(tǒng)算法增強(qiáng)效果差。隨著深度學(xué)習(xí)的發(fā)展,人們又提出了幾種在機(jī)器學(xué)習(xí)領(lǐng)域中通過有效訓(xùn)練深層神經(jīng)網(wǎng)絡(luò)的深度學(xué)習(xí)算法[3],這一算法在一定程度上提高了深度神經(jīng)網(wǎng)絡(luò)語音增強(qiáng)的性能。由于語音信號(hào)的時(shí)空結(jié)構(gòu)和非線性關(guān)系十分明顯,傳統(tǒng)的語音增強(qiáng)方法無法有效地挖掘語音譜的非線性結(jié)構(gòu)[4],而深度神經(jīng)網(wǎng)絡(luò)則通過逐層訓(xùn)練和反向微調(diào),自動(dòng)學(xué)習(xí)語音信號(hào)的高階統(tǒng)計(jì)信息,因此,基于深度神經(jīng)網(wǎng)絡(luò)的語音增強(qiáng)技術(shù)成為語音增強(qiáng)技術(shù)新的研究熱點(diǎn)[5]。
在基于深度神經(jīng)網(wǎng)絡(luò)(Deep Neural Network,DNN)的語音增強(qiáng)中,提高人耳對(duì)帶噪語音的可懂度和感知質(zhì)量依賴于學(xué)習(xí)目標(biāo)的選擇。Wang等人提出以理想二值掩蔽(Ideal Binary Mask,IBM)為目標(biāo)的語噪分離方法[6]。隨后,Wang等人在語音分離這一任務(wù)中分析對(duì)比了一系列基于時(shí)頻掩蔽的訓(xùn)練目標(biāo)[7],包括目標(biāo)IBM、理想浮值掩蔽(Ideal Ratio Mask,IRM)等驗(yàn)證其增強(qiáng)效果。
本文通過基于DNN的語音增強(qiáng)算法,提取語音信號(hào)的梅爾頻率倒譜系數(shù)(Mel-Frequency Cepstral Coefficients,MFCC),來探討在不同信噪比條件下,IRM和IBM對(duì)語音增強(qiáng)性能的影響。首先提取帶噪語音的特征參數(shù),在此基礎(chǔ)上,獲得信號(hào)的訓(xùn)練目標(biāo),即IRM和IBM。通過比較不同信噪比條件下主觀語音質(zhì)量(Perceptual Evaluation of Speech Quality,PESQ)和短時(shí)客觀可懂度(Short Term Objective Intelligibility,STOI)值的大小,驗(yàn)證IRM和IBM在不同信噪比條件下性能的差異,以便在不同的環(huán)境下直接使用合適的學(xué)習(xí)目標(biāo),不同的訓(xùn)練目標(biāo)增強(qiáng)效果不同,驗(yàn)證需要花費(fèi)大量的時(shí)間和精力,本研究為以后研究者的工作節(jié)省了時(shí)間。
1? 不同時(shí)頻掩蔽的深度神經(jīng)網(wǎng)絡(luò)的語音增強(qiáng)
1.1? 深度神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)
深度神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)主要包括輸入層、隱含層和輸出層。其中輸入層僅負(fù)責(zé)接收數(shù)據(jù),而隱含層將輸入數(shù)據(jù)從原特征空間經(jīng)過一定轉(zhuǎn)換,轉(zhuǎn)換到適合處理信號(hào)的特征空間,促使模型學(xué)習(xí)數(shù)據(jù)規(guī)律,從而預(yù)測(cè)數(shù)據(jù)更加容易。最后將處理完畢后的數(shù)據(jù)傳遞至輸出層。圖1所示為深度神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)圖。
1.2? 提取MFCC特征
提取的語音特征MFCC,基于人耳聽覺感知縮放原理,將感覺到的純音的頻率或音高與其實(shí)際測(cè)量的頻率相關(guān)聯(lián)。與高頻時(shí)相比,人類在分辨低頻時(shí)音調(diào)的細(xì)微變化方面要好得多,此時(shí)轉(zhuǎn)換成梅爾(Mel)標(biāo)度使人聽到的聲音與實(shí)際語音更加匹配。圖2所示為MFCC特征提取框圖[8]。首先,將信號(hào)進(jìn)行預(yù)處理,傅里葉變換并取絕對(duì)值。然后,將其通過Mel濾波器組映射得到相應(yīng)的Mel頻譜。最后,對(duì)Mel頻譜取對(duì)數(shù)并通過離散余弦變換(Discrete Cosine Transform,DCT)[8],即可獲得MFCC特征。
1.3? 時(shí)頻掩模
在基于時(shí)頻掩模的DNN語音增強(qiáng)系統(tǒng)中,對(duì)于整體語音增強(qiáng)性能的影響較大的是學(xué)習(xí)目標(biāo)的選擇,其直接影響到去除含噪語音中噪聲時(shí)的語音失真程度或者殘留噪聲的數(shù)量。目前最常用的學(xué)習(xí)目標(biāo)包括理想二值掩模和理想浮值掩模等。
1.3.1? 理想二值掩模
IBM是基于DNN語音增強(qiáng)方法中的最早使用的學(xué)習(xí)目標(biāo)。IBM不僅適用于為具有正常聽力的聽眾,而且適用于聽力受損的聽眾。IBM是由預(yù)混語音信號(hào)和噪聲構(gòu)成的時(shí)頻掩模。對(duì)于每個(gè)時(shí)頻單元,將IBM定義為:
式中,S2(t,f)和N2(t,f)分別表示第t幀、第f頻帶的語音能量和噪聲能量。對(duì)于每個(gè)時(shí)頻單元,如果其局部信噪比大于設(shè)置的閾值LC,則將相應(yīng)的掩模值設(shè)置為1,否則將其設(shè)置為0。LC的選擇對(duì)語音清晰度有顯著影響,通常將LC設(shè)置為比帶噪語音信噪比低5 dB,避免丟失語音信息。例如,當(dāng)帶噪語音信噪比為0 dB時(shí),則相應(yīng)的LC設(shè)置為-5 dB。IBM結(jié)果中的非零值代表純凈語音占比重較大的時(shí)頻單元。
1.3.2? 理想浮值掩模
IRM是目前基于時(shí)頻掩模的DNN語音增強(qiáng)中最廣泛應(yīng)用的學(xué)習(xí)目標(biāo),它代表目標(biāo)純凈語音能量在帶噪語音能量中所占的比重,也可看作是一個(gè)自適應(yīng)的IBM,其值在0~1的范圍內(nèi)變化,是一個(gè)軟判決。IRM的計(jì)算表達(dá)式為:
式中,(·)χ表示用于縮放掩模值的可調(diào)參數(shù),χ可調(diào)。
VIRM的取值介于0和1之間,仔細(xì)觀察發(fā)現(xiàn),在公式的計(jì)算形式上IRM與頻域維納濾波器極為相似。當(dāng)取0.5時(shí),形式上與維納濾波器的平方根估計(jì)類似,是功率譜的最優(yōu)估計(jì)。根據(jù)文獻(xiàn)[9]中的多次嘗試,證明其取0.5是最佳的選擇。
2? 實(shí)驗(yàn)與結(jié)果分析
2.1? 實(shí)驗(yàn)數(shù)據(jù)
在實(shí)驗(yàn)中,從IEEE數(shù)據(jù)庫[10]中隨機(jī)選擇20條純凈的語音數(shù)據(jù),選取NoiseX-92噪聲庫[10]中的Babble、White、Pink、Factory四種噪聲,且信噪比從-15 dB到15 dB,步長(zhǎng)間隔為5 dB,合成對(duì)應(yīng)的560條帶噪語音。選取其中280條作為訓(xùn)練語音,其余280條為測(cè)試語音,信號(hào)的采樣率為16 kHz。
2.2? 網(wǎng)絡(luò)參數(shù)
在實(shí)驗(yàn)過程中,我們主要的設(shè)計(jì)思路是保證每次運(yùn)行時(shí)采集的數(shù)字必須是隨機(jī)的,然后在通過采取隨機(jī)初始化的設(shè)計(jì)方法和步驟來進(jìn)行設(shè)定預(yù)訓(xùn)練的模型參數(shù)信息和數(shù)據(jù)。這次設(shè)置學(xué)習(xí)率的數(shù)據(jù)信息為0.004(當(dāng)學(xué)習(xí)率過大就會(huì)導(dǎo)致迭代不收斂,當(dāng)學(xué)習(xí)效率太小則會(huì)造成收斂速度變得過慢);調(diào)優(yōu)階段的迭代次數(shù)信息為30,學(xué)習(xí)動(dòng)量的系數(shù)為0.5,迭代前的5次動(dòng)量設(shè)置都為0.5,之后就會(huì)設(shè)定增到0.9。
2.3? 評(píng)價(jià)語音的標(biāo)準(zhǔn)
文中選用的語音評(píng)價(jià)標(biāo)準(zhǔn)包括:SNR、PESQ和STOI。其中PESQ近似平均主觀意見得分(Mean Opinion Score,MOS),用來評(píng)價(jià)語音的主觀試聽效果,PESQ評(píng)分范圍為0.5~4.5,對(duì)應(yīng)于從低到高的語音質(zhì)量。STOI是一種較新的可懂度評(píng)估方法,STOI的評(píng)價(jià)度會(huì)更加精確、更加客觀,并且與語音的實(shí)際可懂度高度相關(guān),如果STOI數(shù)值越高則表示可懂的程度越高。
2.4? 實(shí)驗(yàn)比對(duì)與結(jié)果分析
為了證明IBM和IRM性能的好壞,表1、表2分別給出在不同信噪比和不同噪聲條件下基于IBM和IRM的神經(jīng)網(wǎng)絡(luò)語音增強(qiáng)算法的PESQ和STOI值,以此分析不同時(shí)域掩模的效果。
從表1和表2可以看出:在MFCC特征下,IBM和IRM均對(duì)語音有增強(qiáng)的效果,增強(qiáng)的程度不同,IRM對(duì)語音增強(qiáng)的效果更好一些;在不同SNR下IRM的STOI值和PESQ值更高,說明經(jīng)過IRM處理的語音可懂度和舒適度更高。
3? 結(jié)? 論
通過實(shí)驗(yàn),我們得出下面結(jié)論:在不同信噪比條件下,基于IRM軟判決的神經(jīng)網(wǎng)絡(luò)的語音增強(qiáng)算法和基于IBM軟判決神經(jīng)網(wǎng)絡(luò)的語音增強(qiáng)相比,前者的方法會(huì)相對(duì)更好一些。之所以IBM的性能較差,其原因主要有兩點(diǎn):第一,IBM對(duì)處理信號(hào)進(jìn)行幅度調(diào)制的力度更大或者能忽略相位的影響;第二,IRM對(duì)參數(shù)的估計(jì)誤差具有魯棒性。以上兩點(diǎn)原因可以歸結(jié)于IRM能夠更好地保留目標(biāo)信號(hào)包絡(luò)線。如果對(duì)參數(shù)的估計(jì)存在誤差,那么IBM就會(huì)完全忽略潛在必要的時(shí)間頻率區(qū)域,而IRM對(duì)這些區(qū)域的處理方式是縮放這些區(qū)域。所以,在以后的相關(guān)研究中,可以首先考慮使用IRM學(xué)習(xí)目標(biāo),或者將兩者結(jié)合使用,這樣可以為深度學(xué)習(xí)語音增強(qiáng)算法的訓(xùn)練節(jié)約時(shí)間。
參考文獻(xiàn):
[1] BOLL S. Suppression of acoustic noise in speech using spectral subtraction [J]. Acoustics,Speech and Signal Processing,IEEE Transactions on,1979,27(2):113-120.
[2] LIM J S,OPPENHEIM A V. All-pole modeling of degraded speech [J]. Acoustics Speech & Signal Processing IEEE Transactions on,1978,26(3):197-210.
[3] HINTON G E,OSINDERO S,TEH Y W. A Fast Learning Algorithm for Deep Belief Nets [J]. Neural Computation,2006,18(7):1527-1554.
[4] 戴禮榮,張仕良.深度語音信號(hào)與信息處理:研究進(jìn)展與展望 [J].數(shù)據(jù)采集與處理,2014,29(2):171-179.
[5] 韓偉,張雄偉,閔剛,等.基于感知掩蔽深度神經(jīng)網(wǎng)絡(luò)的單通道語音增強(qiáng)方法 [J].自動(dòng)化學(xué)報(bào),2017,43(2):248-258.
[6] WANG Y X,WANG D L. Towards Scaling Up Classification-Based Speech Separation [J]. IEEE Transactions on Audio Speech & Language Processing,2013,21(7):1381-1390.
[7] WANG Y X,NARAYANAN A,WANG D L. On Training Targets for Supervised Speech Separation [J]. IEEE/ACM transactions on audio,speech,and language processing,2014,22(12):1849-1858.
[8] KANG T G,SHIN J W,KIM N S. DNN-based monaural speech enhancement with temporal and spectral variations equalization [J]. Digital Signal Processing,2018,74:102-110.
[9] NARAYANAN A,WANG D L. Ideal ratio mask estimation using deep neural networks for robust speech recognition [C]//IEEE International Conference on Acoustics. IEEE,2013:7092-7096.
[10] ROTHAUSER E H ,CHAPMAN W D ,GUTTMAN N,et al. IEEE Recommended Pratice for Speech Quality Measurements [J]. IEEE Transactions on Audio and Electroacoustics,1969,17(3):225-246.
作者簡(jiǎn)介:邵榕梓(1997—),女,漢族,山西太原人,本科,
研究方向:電子信息工程;富曉乾(1996—),男,漢族,山西天
鎮(zhèn)人,本科,研究方向:電子信息工程;田愛生(1973—),男,
漢族,山西榆社人,本科,研究方向:語音信號(hào)處理;蒲俞姣(1998—),女,漢族,山西霍州人,本科,研究方向:通信工程;陳凱(1997—),男,漢族,山西晉中人,本科,研究方向:通信工程。