董 胡,徐雨明,馬振中,李列文,任 可
(1.長(zhǎng)沙師范學(xué)院 信息科學(xué)與工程學(xué)院,湖南 長(zhǎng)沙 410100;2.湖南師范大學(xué) 物理與電子科學(xué)學(xué)院,湖南 長(zhǎng)沙 410181)
語(yǔ)音增強(qiáng)是語(yǔ)音和信號(hào)處理領(lǐng)域的一個(gè)重要問(wèn)題,它對(duì)許多基于計(jì)算機(jī)的語(yǔ)音識(shí)別、編碼和通信應(yīng)用都有一定的影響。語(yǔ)音增強(qiáng)的根本目標(biāo)是提高語(yǔ)音質(zhì)量和清晰度以被人類監(jiān)聽(tīng)者感知到。語(yǔ)音增強(qiáng)算法包含傳統(tǒng)的譜減法[1-3]、維納濾波法[4-6]、小波系數(shù)閾值法[7-9]、子空間法[10-11]及近年來(lái)提出的深度神經(jīng)網(wǎng)絡(luò)法[12]等。這些語(yǔ)音增強(qiáng)算法或是基于統(tǒng)計(jì)模型或基于語(yǔ)音與噪聲的先驗(yàn)信息,在一定程度上改善了含噪語(yǔ)音的質(zhì)量。然而,在復(fù)雜噪聲環(huán)境下,尤其是在非平穩(wěn)噪聲環(huán)境下它們的語(yǔ)音增強(qiáng)性能出現(xiàn)下降。針對(duì)上述問(wèn)題,文中提出了一種基于小波包和自適應(yīng)維納濾波的語(yǔ)音增強(qiáng)算法。
小波包變換是一種直觀且有效的語(yǔ)音增強(qiáng)方法。語(yǔ)音與噪聲的小波包變換所表現(xiàn)的特性截然相反,語(yǔ)音信號(hào)小波包變換的模值隨小波尺度的增加而遞增,但噪聲的模值卻隨小波包尺度的增加而遞減。這樣,接連多次小波包變換后,噪聲對(duì)應(yīng)的小波包系數(shù)基本被去除或者幅值非常小,剩余系數(shù)主要由語(yǔ)音信號(hào)控制。利用較顯著的語(yǔ)音小波包系數(shù)來(lái)重構(gòu)語(yǔ)音信號(hào),進(jìn)而較好地去除噪聲。
小波包由兩組正交小波基濾波器系數(shù)生成。若{hk}k∈z和{gk}k∈z是一組共軛鏡像濾波器(QMF),滿足:
(1)
gk=(-1)kh1-k,l,k∈z
(2)
小波包與小波分解不同,它不僅對(duì)低頻信號(hào)部分作分解,還對(duì)高頻信號(hào)部分作分解,因此小波包是一種比小波更加精細(xì)的分解算法[13]。圖1為小波包對(duì)一維時(shí)間序列分解特性圖,其中A代表低頻,D代表高頻,末尾下標(biāo)序號(hào)代表小波包分解的層數(shù)。三層小波包分解關(guān)系為:
S=AAA3+DAA3+ADA3+DDA3+AAD3+DAD3+ADD3+DDD3
(3)
圖1 小波包時(shí)間序列分解
圖2 自適應(yīng)維納濾波語(yǔ)音增強(qiáng)
(4)
考慮到x(n)中一小段語(yǔ)音信號(hào)是平穩(wěn)的,則x(n)可表達(dá)如下:
x(n)=mx+σxw(n)
(5)
其中,mx和σx分別表示x(n)的局部均值和標(biāo)準(zhǔn)偏差;w(n)表示零均值的單位噪聲變量。
采用“直接判別”算法來(lái)預(yù)估當(dāng)前幀的先驗(yàn)信息[14]。在一小段語(yǔ)音中,維納濾波轉(zhuǎn)換方程可近似作如下表達(dá):
(6)
由式6可得維納濾波脈沖響應(yīng):
(7)
由式7可知,局部增強(qiáng)的語(yǔ)音信號(hào)可表達(dá)如下:
(8)
假設(shè)每一幀語(yǔ)音信號(hào)的mx和σs都得到更新,增強(qiáng)的信號(hào)可表達(dá)如下:
(9)
由式9可得,x(n)的局部均值變量mx為:
(10)
(11)
(12)
小波包變換具有能量集中特性,文中采用db10小波包進(jìn)行多尺度分解。含噪語(yǔ)音信號(hào)經(jīng)過(guò)小波包變換時(shí),噪聲的能量集中在高頻部分且幅值較小的小波包系數(shù)上,而語(yǔ)音信號(hào)的能量則集中分布在低頻部分且幅值較大的小波包系數(shù)上。語(yǔ)音信號(hào)的小波包系數(shù)值大于噪聲的小波包系數(shù)值,因此通過(guò)小波包變換能夠?qū)崿F(xiàn)語(yǔ)音與噪聲的分離。通過(guò)db10小波包的分解將含噪信號(hào)作頻率譜劃分得到不同尺度的小波包系數(shù),然后對(duì)各個(gè)尺度的系數(shù)作自適應(yīng)維納濾波增強(qiáng),最后將增強(qiáng)后的小波包系數(shù)進(jìn)行重構(gòu)即可得增強(qiáng)后的語(yǔ)音信號(hào)。整個(gè)語(yǔ)音增強(qiáng)算法的流程見(jiàn)圖3。
圖3 小波包與自適應(yīng)維納濾波語(yǔ)音增強(qiáng)算法流程
為驗(yàn)證所提算法的增強(qiáng)效果,利用MATLAB軟件開(kāi)展仿真實(shí)驗(yàn)。實(shí)驗(yàn)中使用錄制的語(yǔ)音作為純凈語(yǔ)音樣本。噪聲信號(hào)取自NOISEX-92數(shù)據(jù)庫(kù)中的白噪聲、babble噪聲、pink噪聲和factory噪聲。純凈語(yǔ)音和噪聲的采樣頻率都為16 kHz,16 bit量化,將純凈語(yǔ)音與上述不同類型的噪聲進(jìn)行混合,合成信噪比不同的含噪信號(hào)。每幀信號(hào)幀長(zhǎng)為15 ms,幀移為50%。為突出所提語(yǔ)音增強(qiáng)算法的有效性,分別將其與傳統(tǒng)維納濾波、文獻(xiàn)[15]提出的時(shí)變?cè)肼曇种凭S納濾波進(jìn)行比較,計(jì)算增強(qiáng)后語(yǔ)音的頻域分段信噪比及客觀語(yǔ)音質(zhì)量評(píng)估(PESQ)。3種語(yǔ)音增強(qiáng)算法的頻域分段信噪比如圖4所示,圖4(a)~圖4(d)分別為白噪聲、babble噪聲、pink噪聲和factory噪聲條件下,3種語(yǔ)音增強(qiáng)算法的頻域分段信噪比圖。
(a)白噪聲
(b)babble噪聲
(c)pink噪聲
(d)factory噪聲
從圖4可知,與傳統(tǒng)維納濾波算法比較,所提語(yǔ)音增強(qiáng)算法及文獻(xiàn)[15]提出的時(shí)變?cè)肼曇种凭S納濾波算法頻域分段信噪比較高,在低信噪比情況下尤為明顯。文獻(xiàn)[15]與所提語(yǔ)音增強(qiáng)算法相比,在白噪聲和pink噪聲條件下,其分段信噪比效果較接近,然而在babble和factory的非平穩(wěn)噪聲條件下,所提語(yǔ)音增強(qiáng)算法的分段信噪比較高,平均約高出0.5 dB。
3種不同算法語(yǔ)音增強(qiáng)后的PESQ如表1所示。由于傳統(tǒng)維納濾波在非平穩(wěn)的噪聲(factory、babble噪聲)環(huán)境下會(huì)對(duì)含噪語(yǔ)音產(chǎn)生過(guò)分抑制,容易造成語(yǔ)音失真和產(chǎn)生音樂(lè)噪聲,在表1中也分別給出了其他兩種語(yǔ)音增強(qiáng)算法的PESQ值。經(jīng)主觀聽(tīng)測(cè)表明,采用傳統(tǒng)維納濾波語(yǔ)音增強(qiáng)后有較明顯的音樂(lè)噪聲,而采用文中算法和文獻(xiàn)[15]算法后都能較好地抑制音樂(lè)噪聲,其PESQ均高于傳統(tǒng)的維納濾波。其中,文中的語(yǔ)音增強(qiáng)算法的PESQ亦高于文獻(xiàn)[15]提出的語(yǔ)音增強(qiáng)算法。
表1 3種語(yǔ)音增強(qiáng)算法PSEQ比較
圖5比較了3種語(yǔ)音增強(qiáng)算法的語(yǔ)譜圖。其中,圖5(a)是含pink噪聲(SNR=-5 dB)語(yǔ)譜圖,圖5(b)、圖5(c)和圖5(d)分別為經(jīng)過(guò)傳統(tǒng)維納濾波、文獻(xiàn)[15]算法及文中算法的語(yǔ)音增強(qiáng)語(yǔ)譜圖。
(a)含-5 dB pink噪聲語(yǔ)譜圖
(b)傳統(tǒng)維納濾波算法
(c)文獻(xiàn)[15]算法
(d)文中算法
從圖5可知,與圖5(b)相比較,圖5(c)與圖5(d)在較好地去除背景pink噪聲的同時(shí),更好地保留了語(yǔ)音的諧波成分,而圖5(b)則有較明顯的語(yǔ)音失真。圖5(d)與圖5(c)相比,圖5(d)保留了較弱的語(yǔ)音部分的譜特征,提高了增強(qiáng)后的語(yǔ)音質(zhì)量。
提出的小波包和自適應(yīng)維納濾波算法結(jié)合了小波包和自適應(yīng)維納濾波兩種算法的優(yōu)點(diǎn),利用小波包變換對(duì)非平穩(wěn)的含噪信號(hào)作分解處理從而實(shí)現(xiàn)噪聲和語(yǔ)音的初級(jí)分離,然后利用自適應(yīng)維納濾波作進(jìn)一步降噪處理,在較低信噪比的非平穩(wěn)噪聲環(huán)境下,對(duì)語(yǔ)音的損傷相對(duì)較小,較好地抑制了音樂(lè)噪聲的產(chǎn)生,語(yǔ)音增強(qiáng)效果較明顯。文中算法比傳統(tǒng)維納濾波算法、文獻(xiàn)[15]算法具有更高頻域分段信噪比及PESQ,且主觀試聽(tīng)上也無(wú)明顯的音樂(lè)噪聲。因此,該算法在降低音樂(lè)噪聲的基礎(chǔ)上提升了語(yǔ)音增強(qiáng)效果。