孔德廷
一種改進(jìn)的基于對數(shù)譜估計(jì)的語音增強(qiáng)算法
孔德廷
(中國西南電子技術(shù)研究所,四川成都 610036)
提出了一種基于對數(shù)譜估計(jì)的改進(jìn)型語音增強(qiáng)算法。相對于傳統(tǒng)語音增強(qiáng)算法,在語音信號(hào)存在不確定的條件下,利用軟判決增益因子修正技術(shù)調(diào)正帶噪語音信號(hào)的對數(shù)譜幅度,抑制背景噪聲。引入的改進(jìn)型先驗(yàn)信噪比估計(jì)和語音信號(hào)先驗(yàn)不存在概率估計(jì)方法,能夠有效地估計(jì)得出語音信號(hào)的存在概率,進(jìn)而求得語音信號(hào)存在時(shí)的譜增益因子函數(shù),聯(lián)合語音信號(hào)不存在時(shí)設(shè)定的增益因子函數(shù)加權(quán)求得譜增益函數(shù)。計(jì)算機(jī)仿真表明,即使在低信噪比條件下,輸入背景噪聲為高斯白噪聲和粉紅噪聲等加性白噪聲時(shí),所提算法對噪聲的抑制效果非常明顯,且有效地克服了傳統(tǒng)算法中引入的“音樂噪聲”和語音信號(hào)畸變。
短時(shí)傅里葉變換;語音增強(qiáng);幅度譜估計(jì);先驗(yàn)信噪比;先驗(yàn)語音不存在概率
語音增強(qiáng)算法作為語音信號(hào)處理中的一個(gè)重要分支領(lǐng)域,多年來一直吸引著廣大學(xué)者對其進(jìn)行不斷的研究。語音增強(qiáng)算法旨在降低帶噪語音信號(hào)中的背景噪聲,提取純凈的語音信號(hào),同時(shí)盡量減少信號(hào)畸變。語音增強(qiáng)算法不但涉及信號(hào)檢測、波形估計(jì)等傳統(tǒng)信號(hào)處理理論,而且與語音產(chǎn)生的生理特性、人耳的感知特性等生理學(xué)密切相關(guān)。
目前,國內(nèi)外的研究成果一般分為三大類[1-2]:(1) 基于背景噪聲估計(jì)的譜減法,提高輸入帶噪語音信號(hào)的信噪比;(2) 尋找穩(wěn)健的、耐噪聲的語音特征參數(shù);(3) 基于模型參數(shù)適應(yīng)化的噪聲補(bǔ)償算法。目前的補(bǔ)償算法通常只考慮到噪聲環(huán)境是平穩(wěn)的,在低信噪比以及非平穩(wěn)噪聲環(huán)境中的效果并不理想。
語音增強(qiáng)算法一般基于短時(shí)傅里葉分析/修正/綜合(Short-Time Fourier Analysis-Modification- Synthesis, STFT AMS),例如:1979年Boll提出的譜減法[3],1949年Wiener提出的Wiener濾波法,以及1984年Ephraim和Malah提出的MMSE短時(shí)幅度譜估計(jì)(Acoustic Magnitude Estimator, AME)算法[4]。Boll提出的譜減法是直接從帶噪語音信號(hào)頻譜中減去噪聲估計(jì)譜,盡管該方法能夠有效地降低噪聲,但在原始語音中會(huì)引入“音樂噪聲”。為了克服上述問題,Ephraim和Malah提出的MMSE短時(shí)幅度譜估計(jì)算法可有效避免“音樂噪聲”的引入。Cappe[5]、Scalart等[6]先后在1994年和1996年證明了利用先驗(yàn)信噪比的軟判決方法可以得到較好的降噪性能。
近年來,在語音信號(hào)增強(qiáng)算法中,利用軟判決增益因子修改技術(shù)成為了一個(gè)熱門的研究方向[7-10]。相對于使用傳統(tǒng)的語音增強(qiáng)算法,在語音信號(hào)存在不確定(Speech Signal Presence Uncertainty)的假設(shè)條件下,聯(lián)合改進(jìn)的背景噪聲估計(jì)(Optimized Noise Estimator)算法和先驗(yàn)語音不存在概率(Priori Speech Absence Probability, PSAP),給出了比較好的降噪性能。本文提出了一種改進(jìn)的對數(shù)譜幅度估計(jì)(Optimized Log-Spectral Amplitude Estimator, Optimized-LSA)方法,引入了一種新的先驗(yàn)信噪比估計(jì)(Priori Signal-to-Noise Ratio, Priori-SNR)方法以及一種有效的先驗(yàn)語音不存在概率估計(jì)方法。本文首先給出了語音信號(hào)存在或者缺失時(shí)增益因子的估計(jì)方法,然后結(jié)合先驗(yàn)語音不存在概率的估計(jì)值加權(quán)求得最終的譜增益因子。先驗(yàn)語音不存在概率基于軟判決的方式獲得,其在連續(xù)語音信號(hào)的相鄰頻點(diǎn)上呈現(xiàn)出很強(qiáng)的相關(guān)性。與傳統(tǒng)的降噪算法相比,本文算法具有更好的降噪性能,即使在低信噪比條件下,仍然能夠有效地避免“音樂噪聲”的引入和語音信號(hào)的畸變。
當(dāng)語音不存在時(shí),修正因子約束為大于一個(gè)指定閾值,該閾值可以依據(jù)對背景噪聲屬性的主觀經(jīng)驗(yàn)確定,基本準(zhǔn)則是背景噪聲越大,該值越小,反之越大。則在語音缺失的條件下,輸入信號(hào)的語音譜估計(jì)可表示為
代入條件概率密度分布函數(shù),可以得:
代入式(5),可以得到改進(jìn)型對數(shù)譜估計(jì)的譜增益修正因子可以表示為
基于改進(jìn)型對數(shù)譜估計(jì)的語音增強(qiáng)算法原理框圖如圖1所示。
Ephraim等[11]提出的判決導(dǎo)引算法,提供一種有效的估計(jì)先驗(yàn)信噪比的方法,其公式表示為
圖1 語音增強(qiáng)算法原理框圖
通過在頻域加窗求得先驗(yàn)信噪比的均值,根據(jù)窗長的不同得到局部均值和全局均值,公式表示為
為了獲得更好的性能,在使用估計(jì)先驗(yàn)信噪比之前,首先對其進(jìn)行一階遞歸平均,如式(15)所示:
其中:
文中提出的改進(jìn)型對數(shù)幅度譜估計(jì)算法,相對于傳統(tǒng)對數(shù)幅度譜估計(jì)算法,提出了一種新的先驗(yàn)信噪比估計(jì)方法和先驗(yàn)語音不存在概率估計(jì)方法。本節(jié)將在不同的背景噪聲及不同的輸入信噪比下,仿真分析文中所提改進(jìn)算法的降噪性能。
圖2和圖3分別給出了本文算法在0 dB高斯白噪聲條件下,與3GPP2文獻(xiàn)中提出的降噪算法[12]在時(shí)域和頻域的噪聲抑制性能對比圖。由圖可知,本文算法相對于3GPP2文獻(xiàn)中提出的降噪算法對高斯白噪聲的抑制性能較好,并且未引入任何的音樂噪聲及很小的信號(hào)畸變。
圖2 高斯白噪聲條件下兩種降噪算法的噪聲抑制性能對比(時(shí)域信號(hào))
圖3 高斯白噪聲條件下兩種降噪算法的噪聲抑制性能對比(語譜圖)
圖4給出了本文算法與3GPP2文獻(xiàn)中提出的降噪算法以及基于對數(shù)譜估計(jì)的MMSE降噪算法在背景噪聲為高斯白噪聲時(shí),不同輸入信噪比下輸出語音信噪比改進(jìn)曲線對比圖。從圖4中可以看出,本文算法對低信噪比輸入語音的噪聲抑制能力明顯優(yōu)于其它兩種降噪算法。
圖5和圖6分別給出了本文算法在0 dB粉紅噪聲條件下,在時(shí)域和頻域的噪聲抑制性能對比圖。從圖中可以看出,本文算法能夠很好地抑制粉紅噪聲,且有效地克服傳統(tǒng)譜減算法中引入的音樂噪聲。
圖4 高斯白噪聲不同輸入信噪比條件下3種降噪算法性能曲線
圖5 粉紅噪聲條件下兩種降噪算法的噪聲抑制性能對比(時(shí)域信號(hào))
圖7給出了本文算法與3GPP文獻(xiàn)提出的降噪算法以及基于對數(shù)譜估計(jì)的MMSE降噪算法在背景噪聲為粉紅噪聲時(shí),不同輸入信噪比下輸出語音信噪比改進(jìn)曲線對比圖。從圖中可以看出,本文算法對粉紅噪聲的抑制能力明顯優(yōu)于其它兩種降噪算法。
最后,給出在高斯白噪聲和粉紅噪聲背景下不同信噪比時(shí)的主觀語音質(zhì)量評估(Perceptual Evaluation of Speech Quality, PESQ)對比分析表格,如表1所示。從表1中可以看出,本文算法在輸入低信噪比語音信號(hào)時(shí),PESQ得分明顯高于3GPP2中給出的降噪算法以及基于對數(shù)譜估計(jì)的MMSE降噪算法。
圖7 粉紅噪聲不同輸入信噪比條件下3種降噪算法性能曲線
表1 高斯白噪聲和粉紅噪聲條件下3種降噪算法的PESQ得分對比
本文針對語音信號(hào)存在不確定條件下的語音增強(qiáng)問題,通過引入的改進(jìn)型先驗(yàn)信噪比估計(jì)方法和先驗(yàn)語音不存在估計(jì)方法,提出了一種基于軟判決技術(shù)的改進(jìn)型對數(shù)幅度譜估計(jì)算法。仿真結(jié)果表明,即使在低信噪比條件下,本算法仍然能夠有效地抑制帶噪語音信號(hào)的加性白噪聲,且有效地克服了傳統(tǒng)降噪算法引入的“音樂噪聲”及語音信號(hào)畸變。
[1] 趙力, 梁瑞宇, 等. 語音信號(hào)處理[M]. 北京: 機(jī)械工業(yè)出版社, 2017: 104-120.
[2] DEVYANI S, RATNADEEP R, PUKHRAJ P. A review of speech signal enhancement techniques[J]. International Journal of Computer Applications, 2016, 139(14): 23-26.
[3] BOLL S. Suppression of acoustic noise in speech using spectral subtraction[J]. IEEE Transactionson Acoustics Speech and Signal Process, 1979, ASSP-27(2): 113-120.
[4] EPHRAIM Y, MALAH D. Speech enhancement using a minimum-mean square error short-time spectral amplitude estimator[J]. IEEE Transactions on Acoustics Speech and Signal Process, 1984, 32(6): 1109-1121.
[5] CAPPE O. Elimination of the musical noise phenomenon with the Ephraim and malah noise suppressor[J]. IEEE Trans. Speech Audio Process, 1994, 2(2): 345-349.
[6] SCALART P, FILLO J V. Speech enhancement based on a priori signal to noise estimation[C]//IEEE International Conference on Acoustics, Speech and Signal Process, 1996: 629-632.
[7] MALAH D, COX R V, ACCARDI A J. Tracking speech-presence uncertainty to improve speech enhancement non-stationary noise environments[J]. IEEE International Conference on Acoustics Speech and Signal Process, 1999, 10(2): 1102-1105.
[8] COHEN I. Noise spectrum estimation in adverse environments: Improved minima controlled recursive averaging[J]. IEEE Transactions on Acoustics Speech and Signal Process, 2003, 11(5): 466-475.
[9] ABRAMSON A, COHEN I. Simultaneous detection and estimation approach speech enhancement[J]. IEEE Transactions On Audio, Speech, And Language Processing, 2007, 15(8): 327-335.
[10] KIM N S, CHANG J H. Spectral enhancement based on global soft decision[J]. IEEE Signal Processing Letters, 2000, 7(5): 108-110.
[11] EPHRAIM Y, MALAH D. Speech enhancement using a minimum mean-square error log-spectral amplitude estimator[J]. IEEE Trans. Acoust. Speech Signal Processing, 1985: 443-445.
[12] 3GPP2. Enhance variable rate codec, speech service options 3,68,70, and 73 for wideband spread spectrum digital systems[S]. 3GPP2 C.S0014-D, 2009: 83-92.
An improved speech enhancement algorithm based on log-spectral amplitude estimation
KONG Deting
(Southwest China Institute of Electronic Technology, Chengdu 610036, Sichuan, China)
An improved speech enhancement algorithm is proposed for suppressing the background group noise in noisy speech. Compared with the traditional noise suppressor, the proposed method uses the soft-decision modification method to modify the log-spectral amplitude of noisy speech under the condition of uncertainty in speech signal presence. In this paper, an improved estimator for the priori signal-to-noise ratio and an effective estimator for the priori probability of speech absence are proposed, by which the conditional probability of speech presence can be obtained. Simulation results confirm the superiority of this method in noise suppression and speech enhancement under the background of Gaussian white noise and pink noise.
short-time Fourier transform; speech enhancement; acoustic magnitude estimation; priori signal-to-noise ratio; priori speech absence probability
TN912.35
A
1000-3630(2020)-02-0208-06
10.16300/j.cnki.1000-3630.2020.02.014
2019-03-02;
2019-04-04
孔德廷(1986-), 男, 湖北荊門人, 碩士, 工程師, 研究方向?yàn)榛鶐盘?hào)處理,語音信號(hào)處理,智能優(yōu)化算法等。
孔德廷, E-mail: dtkong@126.com