覃愛娜,戴 亮,李 飛,曹衛(wèi)華
(中南大學(xué) 信息科學(xué)與工程學(xué)院,湖南 長沙 410083)
基于改進(jìn)小波閾值函數(shù)的語音增強(qiáng)算法研究*
覃愛娜,戴 亮,李 飛?,曹衛(wèi)華
(中南大學(xué) 信息科學(xué)與工程學(xué)院,湖南 長沙 410083)
針對傳統(tǒng)的小波閾值去噪算法中的閾值函數(shù)不足,提出一種優(yōu)于非負(fù)死區(qū)閾值函數(shù)的改進(jìn)的閾值函數(shù).改進(jìn)閾值函數(shù)不僅具有良好的連續(xù)性、可導(dǎo)性,并且克服了非負(fù)死區(qū)閾值函數(shù)沒有考慮小波變換模值的衰減符合指數(shù)規(guī)律這一特點(diǎn).另外在閾值的選取中,考慮了帶噪語音信號的不同特性,采用譜平坦度函數(shù)修正閾值.仿真實(shí)驗(yàn)表明,與傳統(tǒng)的非負(fù)死區(qū)閾值函數(shù)去噪算法相比,改進(jìn)的閾值函數(shù)能更有效地消除背景噪聲,在提高輸出信噪比的同時,更好地保持語音質(zhì)量和清晰度.
語音增強(qiáng);小波變換;閾值去噪
語音增強(qiáng)是將盡可能純凈的原始語音從帶噪語音信號中提取出來.其主要目的是:消除背景噪音、改進(jìn)語音質(zhì)量、提高語音可懂度、使聽者樂于接受并且不會感覺到疲勞.目前,在平穩(wěn)的噪聲環(huán)境下語音增強(qiáng)效果較好,但在非平穩(wěn)環(huán)境下,尤其在低信噪比情況下對語音增強(qiáng)算法的研究仍是語音信號處理的一個重要方向[1-3].
小波變換屬于一種信號的時間-尺度變換分析方法,可以同時很好地表征出信號在時域和頻域的局部特性.小波變換具有多分辨率分析的特點(diǎn),在信號的低頻部分具有較低的時間分辨率和較高的頻率分辨率,在信號的高頻部分具有較低的頻率分辨率和較高的時間分辨率,是一種適應(yīng)于非平穩(wěn)環(huán)境的信號處理方法[4].文獻(xiàn)[5]首次提出了基于軟硬閾值函數(shù)的小波語音增強(qiáng)算法,隨后Breiman在Donoho的基礎(chǔ)上提出了一種非負(fù)死區(qū)閾值函數(shù)去噪算法[6],其語音增強(qiáng)效果要優(yōu)于傳統(tǒng)的軟硬閾值函數(shù)去噪算法.但通過分析可知:非負(fù)死區(qū)閾值函數(shù)并沒有考慮語音信號的小波變換模值的衰減是符合指數(shù)規(guī)律的這一特點(diǎn),因此其去噪效果有待進(jìn)一步提高[7].本文對軟硬閾值以及非負(fù)死區(qū)閾值函數(shù)進(jìn)行分析,并在此基礎(chǔ)上提出一種改進(jìn)的閾值函數(shù)的小波語音增強(qiáng)算法.改進(jìn)閾值函數(shù)克服了非負(fù)死區(qū)閾值函數(shù)的不足,仿真實(shí)驗(yàn)表明,改進(jìn)閾值函數(shù)去噪效果要明顯優(yōu)于非負(fù)死區(qū)閾值函數(shù),在抑制噪聲的同時很好地保持了語音的可懂度.
信號在某點(diǎn)處出現(xiàn)間斷或者其某階導(dǎo)數(shù)不連續(xù)的性質(zhì)稱為信號的奇異性,通常采用信號的Lipschitz指數(shù)來表征信號的奇異性.文獻(xiàn)[8]建立了信號的Lipschitz指數(shù)與小波系數(shù)的局部模極大值之間的關(guān)系.
對信號f(t)來說,假設(shè)存在正數(shù)T使得不等式(1)成立:
|f(t0+τ)-fn(t0+τ)|≤T|τ|δ,
n<δ≤n+1
(1)
則稱δ為信號f(t)在t0處的Lipschitz指數(shù).其中n為正整數(shù),fn(t)為信號f(t0)的n次多項(xiàng)式,τ為一個充分小的量.
log2|W2jf(2j,b0)|≤log2A+δj.
(2)
由以上信號的分析特性可知,純凈語音信號的Lipschitz指數(shù)δ>0,其極大值是隨分解尺度j的增大而增加;而噪聲信號的Lipschitz指數(shù)δ<0,其極大值是隨分解尺度j的增大而減少.根據(jù)語音信號和噪聲信號所具有的這個特性,可以在運(yùn)用小波系數(shù)進(jìn)行處理時,在不同的分解尺度上設(shè)置一個合適的門限閾值,將小于該閾值的極大模值點(diǎn)認(rèn)為是噪聲的小波變換引起的,因而將其置零.大于該閾值的極大模值點(diǎn)則認(rèn)為是信號小波變換引起的予以保留.然后再通過小波逆變換重構(gòu)信號,達(dá)到增強(qiáng)去噪的目的.
由小波變換的線性特性可知,帶噪語音信號的小波變換系數(shù)等于噪聲信號的小波變換系數(shù)和純凈語音信號的小波變換系數(shù)之和.按照這一性質(zhì),利用小波變換進(jìn)行閾值去噪的基本思路是:首先選擇合適的基小波函數(shù)和分解層數(shù)對帶噪語音信號進(jìn)行多尺度小波分解;然后分別對各尺度的高頻小波系數(shù)采用合適的門限閾值及閾值函數(shù)進(jìn)行處理:最大限度去除噪聲信號的小波系數(shù),保留原始純凈信號的小波系數(shù);最后對保留的各層系數(shù)進(jìn)行小波逆變換,重構(gòu)增強(qiáng)語音信號.圖1為小波閾值去噪算法的基本原理框圖.
圖1 小波閾值去噪算法的基本原理框圖
2.1 改進(jìn)閾值函數(shù)
根據(jù)小波閾值去噪的原理可知,語音信號在經(jīng)過小波分解后,通過閾值函數(shù)處理帶噪語音小波系數(shù)可以去除噪聲.傳統(tǒng)的小波系數(shù)處理算法有軟硬閾值函數(shù)和一些改進(jìn)的閾值函數(shù).
硬閾值函數(shù)
(3)
硬閾值函數(shù)處理方法能夠更多地保留原始語音信號的尖峰特征,但硬閾值函數(shù)在閾值±λ處是間斷不連續(xù)的,從而在重構(gòu)增強(qiáng)語音信號時會出現(xiàn)一定的振蕩現(xiàn)象.
軟閾值函數(shù)
(4)
非負(fù)死區(qū)閾值函數(shù)
(5)
非負(fù)死區(qū)閾值函數(shù)考慮到了隨著有用信號的小波系數(shù)的增大,對噪聲信號的削減力度也有所降低的性質(zhì),保證了函數(shù)在閾值±λ處的連續(xù)性,在軟硬閾值門限值之間取得了一個很好的折衷.仿真實(shí)驗(yàn)證明非負(fù)死區(qū)閾值函數(shù)的去噪效果的確優(yōu)于軟硬閾值函數(shù)去噪.但其并沒有考慮噪聲小波變換模值的衰減是符合指數(shù)規(guī)律的這個特點(diǎn),并且在|wj,k|<λ的區(qū)間,非負(fù)死區(qū)閾值函數(shù)也只是和軟硬閾值一樣做置零處理,這樣必然會損失部分清音信號信息,造成語音失真[8].
考慮到以上因素,本文在非負(fù)死區(qū)閾值函數(shù)的基礎(chǔ)上結(jié)合指數(shù)函數(shù)設(shè)計(jì)了一種改進(jìn)的更為合理有效的閾值函數(shù).改進(jìn)閾值函數(shù)的定義為:
p∈(0,λ).
(6)
圖2為改進(jìn)閾值函數(shù)及與軟硬閾值函數(shù)以及非負(fù)死區(qū)閾值函數(shù)比較曲線.
圖2 改進(jìn)閾值函數(shù)及與軟硬閾值函數(shù)以及非負(fù)死區(qū)閾值函數(shù)比較曲線
2.2 門限閾值選取
在小波閾值去噪處理算法中,門限閾值λ是一個非常重要的參數(shù),閾值選取的大小將直接影響小波去噪的性能.λ選取過大,則小波去噪中剔除了過多的有用信號,會造成信號的失真;λ選取太小,又會在增強(qiáng)語音中殘留有較多的噪聲信號,降低算法的去噪效果.
(7)
自適應(yīng)閾值既考慮了隨著尺度j的增大,λ的值逐漸減小,使其與噪聲在小波變換各尺度上的傳播特性相一致的特性,也考慮了帶噪語音的噪聲和語音特性,使對門限閾值估計(jì)更準(zhǔn)確,其去噪效果更佳.
實(shí)驗(yàn)仿真所采用的純凈語音信號是由VoiceReader軟件合成的采樣率為8kHz,采樣位數(shù)為16bit的“我愛北京天安門”語音信號.噪聲信號則采用在體育館內(nèi)錄制的采樣率為8kHz,采樣位數(shù)為16bit的hubbub噪聲.實(shí)驗(yàn)在信噪比(SNR=0dB)下,對添加hubbub噪聲的純凈語音分別利用非負(fù)死區(qū)閾值函數(shù)和改進(jìn)閾值函數(shù)進(jìn)行小波去噪處理.原始語音及添加hubbub噪聲的帶噪語音如圖3所示,采用兩種方法的實(shí)驗(yàn)仿真結(jié)果如圖4和圖5所示.
時間/s(a) 原始純凈語音
時間/s(b) 添加hubbub噪聲的帶噪語音
時間/s
時間/s
由實(shí)驗(yàn)結(jié)果可以看出,與非負(fù)死區(qū)閾值去噪法相比,在低信噪比的情況下,采用本文改進(jìn)閾值函數(shù)的方法,有效地抑制了背景噪聲,減少了語音的失真度.此外,由于引入了帶噪語音幀頻譜的平坦度來計(jì)算閾值λ,改進(jìn)閾值去噪算法能有效地消除了因音樂噪聲產(chǎn)生的語音失真,很好地保持了語音的自然度和可懂度,主觀試聽效果要明顯優(yōu)于傳統(tǒng)的軟硬閾值和非負(fù)死區(qū)閾值去噪法.
為了進(jìn)一步評價增強(qiáng)語音的質(zhì)量,我們采用語音信號的分段信噪比和分段失真來評價增強(qiáng)語音的質(zhì)量.分段信噪比是以幀為單位先計(jì)算信噪比,然后在整個語音段求其平均值作為最終的輸出信噪比.其計(jì)算公式為[10]:
(8)
其中M表示語音總幀數(shù),SNRframe(i)表示每一幀的信噪比.另外時域形式的增強(qiáng)語音信號失真度D定義為[11]:
D=
(9)
對添加hubbub噪聲的不同信噪比的帶噪語音采用非負(fù)死區(qū)閾值和改進(jìn)閾值去噪算法進(jìn)行去噪處理,其分段信噪比和信號失真度的比較結(jié)果如表1和表2所示.
表1 不同信噪比下語音增強(qiáng)輸出信噪比比較
表2 不同信噪比下語音失真度比較
從表中可以看出,無論是在低信噪比還是高信噪比情況下,改進(jìn)閾值去噪算法的輸出信噪比都要大于非負(fù)死區(qū)閾值去噪算法,而其增強(qiáng)語音失真度都要遠(yuǎn)遠(yuǎn)小于非負(fù)死區(qū)閾值去噪法.說明改進(jìn)閾值去噪算法在保持增強(qiáng)語音較高的輸出信噪比的情況下沒有過多地?fù)p傷語音的原有信息,更好地保持了語音的可懂度.
針對傳統(tǒng)的基于軟硬閾值的小波去噪算法的不足,在非負(fù)死區(qū)閾值函數(shù)去噪算法的基礎(chǔ)上提出了一種改進(jìn)閾值函數(shù)的小波閾值去噪算法.改進(jìn)的閾值函數(shù)克服了硬閾值存在突變、軟閾值存在恒定差值的缺點(diǎn),另外改進(jìn)閾值函數(shù)考慮了小波變換模值按指數(shù)衰減的規(guī)律,其增強(qiáng)語音的小波系數(shù)獲取更接近于原始純凈語音.在閾值λ的選取中,依據(jù)帶噪語音信號的譜平坦度來加權(quán)閾值能獲得隨語音實(shí)時變換的閾值λ.仿真結(jié)果表明,改進(jìn)算法在非平穩(wěn)的低信噪比的情況下能有效消除背景噪聲,減少殘留音樂噪聲和聽覺失真,提高了語音的感知質(zhì)量和清晰度.
[1]KRISHNAMOORTHYP,PRASANNASRM.Enhancementofnoisyspeechbytemporalandspectralprocessing[J].SpeechCommunication,2011, 53(2): 154-174.
[2] 趙歡,王綱金,趙麗霞.一種新的對數(shù)能量譜熵語音端點(diǎn)檢測方法[J]. 湖南大學(xué)學(xué)報(bào):自然科學(xué)版, 2010,37(7):72-77.
ZHAOHuan,WANGGang-jin,ZHAOLi-xia,Aninprovedminimumsearchmethodfornoiseestimation[J].JournalofHunanUniversity:NaturalSciences, 2010,37(7):72-77.(InChinese)
[3] 覃愛娜,戴亮,桂衛(wèi)華. 基于聽覺掩蔽效應(yīng)和最優(yōu)平滑的語音增強(qiáng)算法[J].計(jì)算機(jī)工程,2013,39(8):27-30.
QINAi-na,DAILiang,GUIWei-hua.Speechenhancementalgorithmbasedonauditorymaskingeffectandoptimalsmoothing[J].ComputerEngineering,2013,39(8):27-30.(InChinese)
[4] 胡昌華,李國華,劉濤,等.基于matlab6.x的系統(tǒng)分析與設(shè)計(jì)—小波分析[M].西安:西安電子科技大學(xué)出版社,2004: 5-9.
HUChang-hua,LIGuo-hua,LIUTao,etal. Analysis and design of the system based on matlab6.x-wavelet analysis[M]. Xi'an: Publisher of Xidian University,2004: 5-9.(In Chinese)
[5] LEE B,LEE K,ANN S.An EM-base approach for parameter enhancement with all application to speech signals[J].Signal Processing,1995,46:1-14.
[6] ZHANG Wei-qiang,SONG Guo-xiang.A translation-invariant wavelet denoising method based on a new thresholding function[C]//International Conference on Machine Learning and Cybemetics.2003,2341-2345.
[7] BARRI A, DOOMS A, SCHELKENS P. The near shift-invariance of the dual-tree complex wavelet transform tevisited [J]. Journal of Mathematical Analysis and Applications,2012,389(2): 1303-1314.
[8] 戴亮. 非平穩(wěn)噪聲環(huán)境下的語音增強(qiáng)算法研究[D]. 長沙:中南大學(xué),2012:32-34.
DAI Liang. Research on speech enhancement algorithms in non-stationary noise environment[D]. Changsha:Central South University,2012:32-34.(In Chinese)
[9] 董胡,錢盛友.基于小波變換的語音增強(qiáng)方法研究[J].計(jì)算機(jī)工程與應(yīng)用,2007,43(31) :58-60.
DONG Hu, QIAN Sheng-you. Research on speech enhancement based on wavelet transform[J].Computer Engineering and Applications,2007,43(31):58-60.(In Chinese)
[10]QUACKENBUSH S R, BARNWELL T P,CLEMENTS M A.Objective measures of speech quaintly[M].Englewood Cliffs,NJ:Prentice Hall,1988:88-96.
[11]卜凡亮, 王為民, 戴啟軍,等. 基于噪聲被掩蔽概率的優(yōu)化語音增強(qiáng)方法[J].電子與信息學(xué)報(bào), 2005,27(5):753-757.
BU Fan-liang, WANG Wei-min, DAI Qi-jun,etal. Optimizing speech enhancement based on noise masked probability[J]. Journal of Electronics & Information Technology, 2005,27(5):753-757.(In Chinese)
A Speech Enhancement Algorithm Based on Improved Wavelet Threshold Function
QIN Ai-na, DAI Liang, LI Fei?, CAO Wei-hua
(School of Information Science and Engineering,Central South Univ,Changsha,Hunan 410083,China)
To address the limitations of the traditional wavelet threshold denoising function, an improved wavelet threshold function was proposed. The improved threshold function not only has good continuity but also overcomes the lack of the non-negative dead zone threshold function and considers the characteristic of the attenuation of the noise wavelet modulus values. In addition, the use of spectral flatness function corrects the threshold values adaptively. The simulation results have showed that the improved wavelet threshold can eliminate ground noise effectively, maintain higher speech quality and definition while improving the signal to noise ratio (SNR) of the output.
speech enhancement; wavelet transforms; threshold de-noising
1674-2974(2015)04-0136-05
2013-11-25
國家自然科學(xué)基金資助項(xiàng)目(61202340),National Natural Science Foundation of China(61202340)
覃愛娜(1971-),女,廣西南丹人,中南大學(xué)副教授,博士
?通訊聯(lián)系人,E-mail: lllfcsu@mail.csu.edu.cn
TN912.3
A