趙改華,周 彬,張雄偉
ZHAO Gaihua,ZHOU Bin,ZHANG Xiongwei
解放軍理工大學(xué) 指揮信息系統(tǒng)學(xué)院,南京 210007
College of Command Information Systems,PLA University of Science and Technology,Nanjing 210007,China
在語音通信過程中,語音信號不可避免地會受到噪聲的干擾,影響通信質(zhì)量和語音信號的后續(xù)處理,語音增強技術(shù)是從含噪語音中盡可能提取原始純凈語音的重要手段,在提高語音可懂度、改善語音通信質(zhì)量等方面有重要的應(yīng)用。在眾多的增強技術(shù)中基于統(tǒng)計模型的短時譜估計法以其復(fù)雜度低和相對有效的特點,長期以來受到了廣大研究者的廣泛關(guān)注。
基于統(tǒng)計模型的短時譜估計語音增強算法,主要是在不同的語音和噪聲先驗分布模型假設(shè)下,依據(jù)一定的準則(如MMSE、MAP等)對語音信號的短時譜進行最優(yōu)估計[1-3]。早期的算法通常假設(shè)語音信號服從高斯分布,例如,文獻[1]首先提出了基于高斯模型的最小均方誤差短時幅度譜估計算法(MMSE-STSA)。文獻[2]考慮人耳的聽覺感知機理,進一步提出了基于高斯模型的最小均方誤差對數(shù)幅度譜估計算法(MMSE-LSA)。近年來對語音信號統(tǒng)計模型的深入研究表明,超高斯分布更符合實際的語音分布[4]。因此,文獻[5-7]提出了基于超高斯語音模型的短時譜估計算法,包括基于超高斯模型的復(fù)頻譜MMSE估計算法、基于超高斯模型的幅度譜最大后驗概率估計算法和基于Gamma模型的DCT域MMSE估計算法,相對于傳統(tǒng)的基于高斯模型的增強算法進一步抑制噪聲并降低了語音失真度。在此基礎(chǔ)上,研究者將上述模型進行一般化推廣,提出了語音信號的廣義Gamma分布模型,據(jù)此文獻[8]首先將廣義Gamma模型應(yīng)用于語音短時譜估計,提出了基于廣義Gamma語音模型的復(fù)頻譜MMSE估計算法,在此基礎(chǔ)上,文獻[9]提出了基于廣義Gamma語音模型的對數(shù)幅度譜估計算法,文獻[10]進一步將廣義Gamma語音模型與語音信號的動態(tài)特性相結(jié)合,增強效果有較大的提高。此外,考慮語音信號在各時間幀和各頻帶存在的不確定性,文獻[3]在基于高斯模型的對數(shù)譜最小均方誤差估計算法的基礎(chǔ)上,提出了以語音存在概率作為修正因子的改進短時譜估計算法,文獻[5]進而將這一方法應(yīng)用于超高斯語音模型,推導(dǎo)了在Laplacian和Gamma模型假設(shè)下的語音存在概率,實驗結(jié)果表明,語音存在概率的引入能夠進一步抑制殘留噪聲,改進增強效果。但是這些算法仍然采用傳統(tǒng)的高斯或超高斯語音模型,因而增強效果有限。
針對上述算法的不足,本文提出一種新的基于廣義Gamma語音模型的短時譜估計算法。在假設(shè)語音和噪聲的幅度譜分別服從廣義Gamma分布和Gaussian分布的基礎(chǔ)上,推導(dǎo)了語音信號對數(shù)譜的MMSE估計式。另外,考慮到語音信號是否存在的不確定性,進一步推導(dǎo)了在廣義Gamma語音模型下的語音存在概率,以此對MMSE估計進行修正。實驗結(jié)果表明,本文提出的算法不僅能進一步提高增強語音的信噪比,而且可以有效地抑制殘留噪聲,提高增強語音的感知質(zhì)量。
假設(shè)s(n)表示純凈語音信號,x(n)表示加性噪聲信號,那么時域帶噪語音信號可表示為 y(n)=s(n)+x(n),對時域帶噪語音信號進行分幀、加窗和STFT變換,可以得到帶噪語音信號在頻域內(nèi)的表示:
l(l=0,1,…)表示幀序號,k(k=0,1,…,k-1)表示頻帶序號,用幅度和相位表示:
一般地,假設(shè)噪聲復(fù)頻域系數(shù)的實部和虛部分別服從高斯分布,則噪聲幅度譜系數(shù)服從瑞利分布[3]:
對語音信號統(tǒng)計模型的深入研究表明,超高斯分布更符合語音信號的統(tǒng)計特性,因此,許多研究者提出了基于超高斯模型的短時譜估計算法,包括基于Gamma語音模型[7]和基于Laplacian語音模型[5]的語音增強算法等。
廣義Gamma模型是近年來新提出的一種語音分布模型,其相對于傳統(tǒng)的高斯或超高斯模型具有更好的普適性和靈活性。本章在假設(shè)語音和噪聲的對數(shù)譜分別服從廣義Gamma分布和Gaussian分布的基礎(chǔ)上,推導(dǎo)語音對數(shù)譜的MMSE估計。
在廣義Gamma語音模型下,純凈語音的先驗概率密度函數(shù)為[8]:
其中Γ(·)表示Gamma函數(shù)。假設(shè)噪聲仍服從高斯分布,如式(3)。語音信號的對數(shù)譜估計式為[2]:
公式(7)可近似表示為:
研究表明,廣義Gamma分布的參數(shù)選取0<ν≤1,δ=1較為符合語音的先驗分布特性[9]。取δ=1,則:
利用ν階拋物柱面函數(shù)Dv對式(9)進行積分化簡[11]:
將式(11)代入式(8)即得到純凈語音的MMSE短時譜估計式:
用增益函數(shù)的形式表示為:
由于語音信號存在無語音幀,并且語音信號的能量主要集中在基音頻帶及其諧波頻帶上,因此語音信號在各時間幀和各頻帶的存在具有不確定性,以語音存在概率作為修正因子的改進短時譜估計算法有效地提高了增強效果[3,5]。本章在廣義Gamma語音模型和Gaussian噪聲模型下,推導(dǎo)出語音存在概率,對第3章MMSE估計進行修正。
假設(shè)H0表示不存在語音信號,H1表示存在語音信號,相應(yīng)的P(H1|R)表示在給定R條件下語音存在的概率,P(H0|R)表示在給定R條件下語音不存在的概率,利用貝葉斯準則得到[3]:
則修正后的增益函數(shù)表示為[1]:
其中Λ(R,q)表示廣義似然比:
其中q表示先驗語音不存在概率,P(R|H0)表示語音不存在條件下R的概率密度函數(shù),在高斯噪聲模型下有:
P(R|H1)表示在語音存在條件下R的概率密度函數(shù),表示為:
其中 f(A)表示語音信號 A的概率密度函數(shù),f(R|A)表示在已知語音信號A的條件下帶噪語音R的條件概率密度函數(shù),在廣義Gamma語音模型和Gaussian噪聲模型下有:
根據(jù)文獻[11]中的公式,將近似式式(22)代入式(21)積分化簡后即可求得語音存在條件下R的概率密度函數(shù):
將所求得的P(R|H0)和P(R|H1)代入式(16)得廣義似然比:
將廣義似然比式(24)代入式(15)即可求得修正后的基于廣義Gamma語音模型的純凈語音的對數(shù)譜MMSE估計,則語音信號的幅度譜估計為:
在MATLAB環(huán)境下進行仿真實驗,研究表明ν=0.75能在低信噪比時更好地抑制噪聲,高信噪比時保留語音信號,本文中選擇ν=0.75[8-9];語音的不存在先驗概率q=0.2;ψ=10-4;噪聲估計采用文獻[12]提出的統(tǒng)計最小量跟蹤算法。原始噪聲信號從標準噪聲庫Noisex92中選取,包括白噪聲、M109坦克噪聲以及F16飛機噪聲,并下采樣為8 kHz。純凈語音信號為標準漢語語音信號,采用8 kHz采樣,時間長度約為8 s,男女聲各8句。利用MATLAB對噪聲信號和純凈語音進行混和,信噪比分別定為?5 dB、0 dB、5 dB和10 dB。
在仿真中,將本文提出的增強算法與以下三種算法進行比較,包括:文獻[1]提出的基于高斯模型的MMSE短時幅度譜估計法;文獻[3]提出的語音存在概率修正的對數(shù)譜MMSE估計法;文獻[9]提出的基于廣義Gamma語音模型的對數(shù)譜MMSE譜估計法。為簡化表示,這三種算法分別表示為Gau、Gau-SPP、GGD。本文提出的算法表示為:GGD-SPP。
采用分段信噪比SegSNR(segmental SNR)、對數(shù)譜距離LSD(log spectral distance)、客觀質(zhì)量評估方法PESQ(Perceptual Evaluation of Speech Quality)對語音增強算法性能進行客觀衡量。分段信噪比SegSNR和對數(shù)頻譜距離LSD計算公式分別表示為:
采用增強后和增強前語音分段信噪比提高量來衡量不同短時譜估計算法的噪聲抑制性能。表1給出了在不同噪聲和信噪比條件下分段信噪比的提高量。從表中可以看出,相較于其他三種短時譜估計算法,在給出的三種環(huán)境噪聲下,本文算法增強語音的分段信噪比提高量均有所提升,說明其具有更好的噪聲抑制效果。
表1 四種算法的分段信噪比提高量
采用對數(shù)頻譜距離LSD衡量增強語音的失真度。圖1給出了在不同噪聲和信噪比條件下的LSD改進曲線,從圖中可以看出,相較于其他三種譜估計算法,本文提出算法的增強語音的失真度更小。比較GGD和GGD-SPP的LSD改進曲線,可以明顯看出,由于語音存在概率修正的引入,本文提出算法的增強語音具有更小的失真度,增強效果有所提高。
圖1 對數(shù)頻譜距離改進曲線
采用客觀質(zhì)量評估方法PESQ衡量增強語音的質(zhì)量。表2給出了在不同噪聲和信噪比條件下的PESQ評估結(jié)果,從表2中可以看出,在給出的三種環(huán)境噪聲下,本文算法增強語音的PESQ得分都明顯高于其他三種譜估計算法,說明其具有更好的感知質(zhì)量。另外,比較Gau-SPP和GGD-SPP兩種譜估計算法,從實驗結(jié)果可以看出,雖然Gau-SPP也引入了語音存在概率修正因子,但是仍基于高斯模型,增強效果有所限制,本文提出的GGD-SPP由于采用了與語音的分布特性更為貼合的廣義Gamma模型,PESQ得分要高于前者,具有更好的增強效果。
表2 四種算法PESQ評估得分
采用平均意見得分(Mean Opinion Score,MOS)對本文提出算法的增強語音的主觀感知質(zhì)量進行評估,語音的失真級別,質(zhì)量等級與對應(yīng)的MOS打分情況如表3所示。
選取實驗室內(nèi)的12名研究生學(xué)員作為參評人員,對本文提出算法的增強語音進行評估,在接聽者聽完被測語音后,從表3中的5個等級中選取一項作為對測聽語音的評價,然后,對全部參選人員的評估結(jié)果取平均值,得到測試語音的最終MOS得分。如表4。
表3 MOS打分等級
表4 本文算法的MOS得分
從表4可以看出本文提出算法的增強語音在三種環(huán)境噪聲下,信噪比較高時增強語音的主觀感知質(zhì)量比較好,幾乎沒有不適感;信噪比較低時增強語音的主觀感知質(zhì)量雖有所下降,但其仍具有較高可懂度。主觀評估結(jié)果與客觀評估結(jié)果基本一致,達到了預(yù)期的增強效果。
圖2分別給出了原始語音,以及信噪比為0 dB的F16戰(zhàn)斗機噪聲環(huán)境下的帶噪語音和四種增強算法的(Gau、Gau-SPP、GGD、GGD-SPP)增強語音的時域波形圖和語譜圖。從圖中可以看出,與其他三種算法相較,本文提出的新的基于廣義Gamma語音模型的短時譜估計算法的增強語音的殘留噪聲較少,并且譜失真度較小,并且能夠更好地抑制音樂噪聲,提高增強語音質(zhì)量。
本文提出了一種新的基于廣義Gamma語音模型的對數(shù)譜估計語音增強算法。在假設(shè)語音信號幅度譜服從廣義Gamma分布的基礎(chǔ)上,不僅推導(dǎo)了語音對數(shù)譜的MMSE估計式,而且進一步推導(dǎo)了在該模型假設(shè)下的語音存在概率對MMSE估計進行修正。與傳統(tǒng)的短時譜估計語音增強算法相比,本文提出的算法不僅能進一步提高增強語音的信噪比,而且可以有效地提高增強語音的感知質(zhì)量,抑制殘留噪聲。另外,本文引入語音存在概率修正因子,實際上相當于對語音信號短時譜估計的一種二狀態(tài)擴展,考慮到不同語音信號頻譜分布特性的差異,可以將其進一步擴展至多種狀態(tài)[13],將在下一步的工作中對此展開研究。
圖2 語譜圖和時域波形圖
[1]Ephraim Y,Malah D.Speech enhancement using a minimum mean-square error short-time spectral amplitude estimator[J].IEEE Trans on Acoust Speech,Signal Process,1984,32(6):1109-1121.
[2]Ephraim Y,Malah D.Speech enhancement using a minimum mean-square error log-spectral amplitude estimator[J].IEEE Trans on Acoust Speech,Signal Process,1985,33(2):443-445.
[3]Cohen I.Optimal speech enhancement under signal presence uncertainty using log-spectral amplitude estimator[J].IEEE Signal Process Lett,2002,9(4).
[4]Gazor S,Zhang W.Speech probability distribution[J].IEEE Signal Process Lett,2003,10(7).
[5]Martin R.Speech enhancement based on minimum meansquare error estimation and super gaussian priors[J].IEEE Trans on Speech Audio Process,2005,13(5):845-856.
[6]Lotter T,Vary P.Speech enhancement by MAP spectral amplitude estimation using a super-Gaussian speech model[J].Eurasip J Signal Process,2005(7):1110-1126.
[7]鄒霞,陳亮,張雄偉.一種基于Gamma語音模型的語音增強算法[J].通信學(xué)報,2006,27(10):118-123.
[8]Erkelens J S,Hendriks R C,Heusdens R,et al.Minimum mean-square error estimation of discrete flourier coefficients with generalized Gamma priors[J].IEEE Trans on Audio,Speech,Language Process,2007,15(6):1741-1752.
[9]Borgstrom B J,Alwan A.Log-spectral amplitude estimation with generalized Gamma distributions for speech enhancement[C]//IEEE Int Conf Acoustic,Speech,Signal Process(ICASSP),Prague,Czech,2011:4756-4759.
[10]Thomas E,Peter V.Model-based speech enhancement using SNR dependent MMSE estimation[C]//IEEE Int Conf Acoustic,Speech,Signal Process(ICASSP),Prague,Czech,2011:4652-4655.
[11]Gradshteyn I S,Ryzhik Z M.Table of integrals,series,and products[M].New York:Academic Press,1980.
[12]Martin R.Noise power spectral density estimation based on optimal smoothing and minimum statistics[J].IEEE Transactions on Speech and Audio Processing,2001,9(5).
[13]Ephraim Y.A Bayesian estimation approach for speech enhancement using Hidden Markov Models[J].IEEE Transactions on Signal Processing,1992,40(4).