張 青 吳 進(jìn)
(西安郵電大學(xué) 陜西 西安 710121)
基于多窗譜估計(jì)的改進(jìn)維納濾波語(yǔ)音增強(qiáng)
張 青 吳 進(jìn)
(西安郵電大學(xué) 陜西 西安 710121)
為減少維納濾波在語(yǔ)音增強(qiáng)中殘留的“音樂(lè)噪聲”,將多窗譜估計(jì)和改進(jìn)的維納濾波方法結(jié)合,并進(jìn)行語(yǔ)音合成。設(shè)計(jì)了基于多窗譜估計(jì)的改進(jìn)維納濾波語(yǔ)音增強(qiáng)方法,該方法采用多窗譜估計(jì)噪聲功率譜,改進(jìn)維納濾波降噪得到增強(qiáng)語(yǔ)音,以及重疊相加語(yǔ)音合成,并給出仿真對(duì)比驗(yàn)證。結(jié)果表明,基于多窗譜估計(jì)的改進(jìn)維納濾波方法在抑制噪聲,減少音樂(lè)噪聲方面優(yōu)于基于維納濾波的增強(qiáng)算法和基于多窗譜估計(jì)的改進(jìn)譜減法的增強(qiáng)算法。
語(yǔ)音增強(qiáng) 多窗譜 改進(jìn)維納濾波 語(yǔ)音合成 重疊相加
語(yǔ)音增強(qiáng)就是減少噪聲干擾,提高語(yǔ)音質(zhì)量的一個(gè)過(guò)程[1-2]。在實(shí)際中,語(yǔ)音在傳輸過(guò)程中很容易受到來(lái)自外界和內(nèi)部噪聲的污染,使得接收端語(yǔ)音質(zhì)量下降[3]。抑制噪聲干擾[4],提高語(yǔ)音質(zhì)量是語(yǔ)音增強(qiáng)的重要問(wèn)題。
到目前為止,一些語(yǔ)音增強(qiáng)的方法,如譜減法[5],帶噪語(yǔ)音功率譜與噪聲做減法得到估計(jì)語(yǔ)音的一種方法,該方法會(huì)使增強(qiáng)后的語(yǔ)音存在殘留“音樂(lè)噪聲”;維納濾波[6],只適用于平穩(wěn)噪聲環(huán)境,不適應(yīng)復(fù)雜多變的噪聲背景;最小均方誤差法[7],該算法是基于統(tǒng)計(jì)模型的,計(jì)算量大復(fù)雜度高。
針對(duì)上述問(wèn)題,本文提出了一種基于多窗譜估計(jì)的改進(jìn)維納濾波語(yǔ)音增強(qiáng)方法。該方法采用多窗譜估計(jì)帶噪語(yǔ)音功率譜得到估計(jì)值,改進(jìn)維納濾波增強(qiáng)法進(jìn)行噪聲抑制,最后采用重疊相加合成語(yǔ)音。
1.1 多窗譜估計(jì)
Thomson在1982年提出了多窗譜估計(jì)[8],該方法對(duì)同意數(shù)據(jù)序列用多個(gè)正交的數(shù)據(jù)窗分別求直接譜,然后求平均得到譜估計(jì),多窗譜是一種更為準(zhǔn)確的譜估計(jì)方法,多窗譜估計(jì)定義如下:
(1)
式中,L為數(shù)據(jù)窗個(gè)數(shù),Smt為第k個(gè)數(shù)據(jù)窗的譜:
(2)
式中,x(n)為數(shù)據(jù)序列,N為序列長(zhǎng)度,ak(n)為第k個(gè)數(shù)據(jù)窗,它滿足多個(gè)數(shù)據(jù)之間相互正交:
(3)
數(shù)據(jù)窗是一組相互正交的離散橢球序列DPSS(DiscreteProlateSpheroidalSequences)。
1.2 維納濾波算法及其改進(jìn)
維納濾波器是一種線性濾波器。當(dāng)輸入帶噪語(yǔ)音y(n)=s(n)+d(n)(n=0,1,2,…),其中s(n)為純語(yǔ)音,d(n)為噪聲。經(jīng)過(guò)系統(tǒng)函數(shù)為h(n)的維納濾波系統(tǒng),輸出估計(jì)語(yǔ)音為[9]:
(4)
根據(jù)正交性原理,系統(tǒng)函數(shù)h(n)對(duì)每個(gè)m滿足[11]。
(5)
(6)
將式(6)的H(k)稍作變形可得改進(jìn)維納濾波器的估計(jì)器[13],即:
(7)
(8)
(9)
其中,ξ(k)是先驗(yàn)信噪比,γ(k)是后驗(yàn)信噪比,定義如下:
(10)
(11)
ξi(k)=aξi-1(k)+(1-a)(γi(k)-1)
(12)
(13)
這便是第i幀語(yǔ)音信號(hào)頻譜的估算值。
本文提出基于多窗譜估計(jì)的改進(jìn)維納濾波語(yǔ)音增強(qiáng)算法,區(qū)別于傳統(tǒng)的維納濾波算法。具體實(shí)現(xiàn)步驟如下:
Step1 帶噪語(yǔ)音信號(hào)為y(n),加窗分幀后為yi(m),相鄰幀之間有重疊;
以i幀為中心前后各取M幀,共有2M+1幀進(jìn)行平均實(shí)際中常取M為1,即在3幀中進(jìn)行平均;
Step3 把分幀后的信號(hào)yi(m)進(jìn)行多窗譜估計(jì),得到多窗譜功率譜密度P(k,i)(i表示第i幀,表示k第k條譜線);
Step4 對(duì)多窗譜功率譜密度估計(jì)值也進(jìn)行相鄰幀之間的平滑處理,計(jì)算平滑功率譜密度Py(k,i):
以i幀為中心前后各取M幀,共有2M+1幀進(jìn)行平均。實(shí)際中常取M為1,即在3幀中進(jìn)行平滑;
實(shí)驗(yàn)中的語(yǔ)音材料為安靜環(huán)境下錄制的純凈語(yǔ)音,噪聲選自Noisex-92數(shù)據(jù)庫(kù)。在不同背景噪聲環(huán)境下,輸入信噪比分別為-5、5dB的情況下,對(duì)比分析基于維納濾波和基于多窗譜估計(jì)的改進(jìn)維納濾波語(yǔ)音增強(qiáng)以及基于多窗譜估計(jì)的改進(jìn)譜減法語(yǔ)音增強(qiáng)的增強(qiáng)效果。結(jié)果如圖1、圖2、表1所示,其中圖1為高斯白噪聲環(huán)境下,輸入信噪比分別為-5、5dB時(shí),基于維納濾波的語(yǔ)音增強(qiáng)與基于多窗譜估計(jì)的改進(jìn)維納濾波語(yǔ)音增強(qiáng)的增強(qiáng)效果對(duì)比;圖2為babble噪聲環(huán)境下,輸入信噪比為-5、5dB時(shí),基于維納濾波的語(yǔ)音增強(qiáng)與基于多窗譜估計(jì)的改進(jìn)維納濾波語(yǔ)音增強(qiáng)的增強(qiáng)效果對(duì)比;表1為分別在babble、Gaussian、pink以及factory噪聲環(huán)境下,當(dāng)輸入信噪比為-5、0、5dB時(shí),對(duì)比基于維納濾波的語(yǔ)音增強(qiáng)和基于多窗譜估計(jì)的改進(jìn)維納濾波語(yǔ)音增強(qiáng)以及基于多窗譜的改進(jìn)譜減法的語(yǔ)音增強(qiáng)的輸入輸出信噪比及其差值。
圖1 增強(qiáng)效果對(duì)比
圖2 增強(qiáng)效果對(duì)比
圖1中(a)、(c)分別為在高斯白噪聲環(huán)境下,輸入信噪比依次為-5、5dB時(shí),基于維納濾波算法的語(yǔ)音增強(qiáng)。圖1中(b)、(d)分別為在高斯白噪聲環(huán)境下,輸入信噪比依次為-5、5dB時(shí),基于多窗譜估計(jì)的改進(jìn)維納濾波算法的語(yǔ)音增強(qiáng)。對(duì)比圖1中(a)和(b)、(c)和(d)可以看出,在高斯白噪聲環(huán)境下,輸入信噪比為-5、5dB時(shí),基于多窗譜估計(jì)的改進(jìn)維納濾波語(yǔ)音增強(qiáng)相對(duì)于基于維納濾波的語(yǔ)音增強(qiáng),在增強(qiáng)效果方面有一定的提高。圖2中(e)、(g)分別為在babble噪聲環(huán)境下,輸入信噪比依次為-5、5dB時(shí),基于維納濾波算法的語(yǔ)音增強(qiáng);圖2中(f)、(h)分別為在babble噪聲環(huán)境下,輸入信噪比分別為-5、5dB時(shí),基于多窗譜估計(jì)的改進(jìn)維納濾波算法的語(yǔ)音增強(qiáng)。對(duì)比圖2中(e)和(f)、(g)和(h)可以看出,在babble噪聲環(huán)境下,輸入信噪比為-5、5dB時(shí),基于多窗譜估計(jì)的改進(jìn)維納濾波語(yǔ)音增強(qiáng)相對(duì)于基于維納濾波的語(yǔ)音增強(qiáng),在增強(qiáng)效果方面也有一定的提高。
表1 不同噪聲環(huán)境下語(yǔ)音增強(qiáng)的輸出SNR比較
從表1可以看出,當(dāng)輸入信噪比分別為-5、0、5 dB時(shí),就輸入輸出信噪比而言,在babble、Gaussian、pink以及factory背景噪聲下,基于多窗譜估計(jì)的改進(jìn)維納濾波算法與基于多窗譜估計(jì)的改進(jìn)譜減法的語(yǔ)音增強(qiáng),其增強(qiáng)效果優(yōu)于基于維納濾波的語(yǔ)音增強(qiáng)算法。當(dāng)輸入信噪比為-5 dB時(shí),在Gaussian噪聲環(huán)境下,基于多窗譜估計(jì)的改進(jìn)譜減法語(yǔ)音增強(qiáng)得到的信噪比差值大于基于多窗譜估計(jì)的改進(jìn)維納濾波語(yǔ)音增強(qiáng)算法得到的信噪比差值,說(shuō)明在Gaussian噪聲環(huán)境下,基于多窗譜估計(jì)的改進(jìn)維納濾波語(yǔ)音增強(qiáng)算法的增強(qiáng)效果相對(duì)基于多窗譜估計(jì)的改進(jìn)譜減法語(yǔ)音增強(qiáng)的增強(qiáng)效果略差。當(dāng)輸入信噪比為5 dB時(shí),在babble、Gaussian以及factory噪聲環(huán)境下,基于多窗譜估計(jì)的改進(jìn)維納濾波語(yǔ)音增強(qiáng)得到的信噪比差值略低于基于多窗譜估計(jì)的改進(jìn)譜減法語(yǔ)音增強(qiáng)得到的信噪比差值。而在其他情況下,基于多窗譜估計(jì)的改進(jìn)維納濾波語(yǔ)音增強(qiáng)的增強(qiáng)效果相對(duì)優(yōu)于基于多窗譜估計(jì)的改進(jìn)譜減法。
為減少在維納濾波增強(qiáng)后,語(yǔ)音中殘留的“音樂(lè)噪聲”,提出了基于多窗譜估計(jì)的改進(jìn)維納濾波語(yǔ)音增強(qiáng)算法,該算法將多窗譜帶噪語(yǔ)音功率譜估計(jì)和改進(jìn)維納濾波算法相結(jié)合,得到增強(qiáng)語(yǔ)音的頻譜,并采用重疊相加法將其合成語(yǔ)音信號(hào)。通過(guò)仿真實(shí)驗(yàn),結(jié)果表明,基于多窗譜估計(jì)的改進(jìn)維納濾波算法相比基于維納濾波的語(yǔ)音增強(qiáng)以及基于多窗譜估計(jì)的改進(jìn)譜減法語(yǔ)音增強(qiáng),在增強(qiáng)效果方面有一定的提高。
[1] 徐巖,王春麗.語(yǔ)音信號(hào)增強(qiáng)技術(shù)及其應(yīng)用[M].北京:科學(xué)出版社,2014.
[2] 王水平,唐振民,陳北京,等.復(fù)雜環(huán)境下語(yǔ)音增強(qiáng)的復(fù)平面譜減法[J].南京理工大學(xué)大學(xué)學(xué)報(bào),2013,37(6):857-862.
[3] 張衛(wèi)強(qiáng),郭璁,張喬,等.一種基于計(jì)算聽(tīng)覺(jué)場(chǎng)景分析的語(yǔ)音增強(qiáng)算法[J].天津大學(xué)學(xué)報(bào):自然科學(xué)與工程技術(shù)版,2015,48(8):663-669.
[4] 李秩男,張雄偉,曾理,等.改進(jìn)的稀疏字典學(xué)習(xí)單通道語(yǔ)音增強(qiáng)算法[J].信號(hào)處理,2014,30(1):44-50.
[5] 王路露,劉光燦,夏旭.一種改進(jìn)型譜減算法的語(yǔ)音增強(qiáng)研究[J].計(jì)算機(jī)工程與應(yīng)用,2014,50(19):210-213.
[6] 容強(qiáng),肖漢.基于MMSE維納濾波語(yǔ)音增強(qiáng)方法研究與Matlab實(shí)現(xiàn)[J].計(jì)算機(jī)應(yīng)用與軟件,2015,32(1):153-156.
[7]YouC,KohS,RahardjaS.Adaptiveb-orderMMSEestimationforspeechenhancement[J].Proc.IEEEInt.Conf.Acoust.,SpeechSignalProcessing,2003(1):900-903.
[8] 武鵬鵬,趙剛,鄒明.基于多窗譜估計(jì)的改進(jìn)譜減法[J].現(xiàn)代電子技術(shù),2008,31(12):150-152.
[9] 張正文,周航麒.基于多窗譜估計(jì)的維納濾波語(yǔ)音增強(qiáng)算法[J].河南理工大學(xué)學(xué)報(bào),2015,34(5):686-690.
[10]FardkhaleghiP,SavojiMH.NewapproachestospeechenhancementusingphasecorrectioninWienerfiltering[C]//InternationalSymposiumonTelecommunications-IST,2010:895-899.
[11]IbrahimA,MilnerB.VisuallyDerivedWienerFiltersforSpeechEnhancement[J].IEEETransactionsonAudio,Speech&LanguageProcessing-TASLP,2011,19(6):1642-1651.
[12]ScalartP,FilhoJ.Speechenhancementbasedonapriorisignaltonoiseestimation[J].Proc.IEEEInt.Conf.Acoust. ,Speech,SignalProcessing,1996:629-632.
[13]PhiliposCLoizou.語(yǔ)音增強(qiáng)理論與實(shí)踐[M].成都:電子科技出版社,2012.
[14] 宋知用.MATLAB在語(yǔ)音信號(hào)分析與合成中的應(yīng)用[M].北京:北京航空航天大學(xué)出版社,2013.
IMPROVED WIENER FILTER SPEECH ENHANCEMENT BASED ONMULTI-TAPER SPECTRUM ESTIMATION
Zhang Qing Wu Jin
(Xi’anUniversityofPostandTelecommunications,Xi’an710121,Shaanxi,China)
In order to reduce the musical residual noise left by the speech enhancement of wiener filter, multi-taper spectrum estimation is combined with the improved wiener filter method while processing speech synthesis. A wiener filter speech enhancement method based on multi-taper spectrum estimation is designed. The method adopts the noise power spectrum of multi-taper spectrum estimation, improves wiener filter to reduce noise and enhance speech, and overlap-adds it to achieve speech synthesis. Then the simulation contrast verification is given. The result shows that the wiener filter speech enhancement method based on multi-taper spectrum estimation performs better in noise suppression and musical noise reduction than speech enhancement algorithm based on wiener filter as well as improved spectral subtraction method based on multi-taper spectrum estimation.
Speech enhancement Multi-taper spectrum Improved wiener filter Speech synthesis Overlap-adding
2016-02-25。國(guó)家自然科學(xué)
61272120)。張青,碩士,主研領(lǐng)域:語(yǔ)音增強(qiáng)。吳進(jìn),教授。
TP912.35
A
10.3969/j.issn.1000-386x.2017.03.011