張正文,湯敏慎,尹 波
(湖北工業(yè)大學(xué) 電氣與電子工程學(xué)院,湖北 武漢 430068)
?
相干濾波與廣義旁瓣相消器結(jié)合的小陣列語音增強(qiáng)算法
張正文,湯敏慎,尹 波
(湖北工業(yè)大學(xué) 電氣與電子工程學(xué)院,湖北 武漢 430068)
相干濾波器與廣義旁瓣相消器(GSC)是常用的陣列語音增強(qiáng)算法,然而,應(yīng)用于小陣列中卻存在消噪能力不足的問題。針對上述問題,本文提出一種相干濾波與廣義旁瓣相消器結(jié)合的小陣列語音增強(qiáng)算法。首先,利用廣義旁瓣相消器對帶噪語音進(jìn)行初步增強(qiáng)。然后,通過改進(jìn)的最小搜索算法估計出信號里殘余噪聲的功率譜密度,從而獲得相干濾波器的傳遞函數(shù)。最后,利用相干濾波器對帶噪語音進(jìn)行再次增強(qiáng)。仿真實(shí)驗(yàn)表明:在多種不同的噪聲環(huán)境下該算法具有較好的噪聲抑制能力。
麥克風(fēng)小陣列;語音增強(qiáng);廣義旁瓣相消器;相干濾波器
二元麥克風(fēng)小陣列因具有結(jié)構(gòu)緊湊、體積小的優(yōu)點(diǎn)而被廣泛應(yīng)用于免提系統(tǒng)[1]、助聽器[2]以及耳蝸植入系統(tǒng)中[3-4],廣義旁瓣相消器(GSC)和相干濾波器是較為常用的小陣列增強(qiáng)算法。GSC算法利用陣元間的時域和空域信息,在保留目標(biāo)聲源方向的信號的同時,能抑制其他方向的干擾信號;然而,麥克風(fēng)小陣列只有兩個陣元,陣元間蘊(yùn)含的時域和空域信息較少,使得GSC算法的消噪能力受到很大的限制。相干濾波器從信號的語譜和相關(guān)性出發(fā),假設(shè)陣元間目標(biāo)語音相關(guān)而噪聲不相關(guān),從而求出相干函數(shù),以抑制陣元間非相關(guān)噪聲的干擾,其不足在于二元麥克風(fēng)小陣列陣元間的噪聲往往是相關(guān)的。盡管后續(xù)改進(jìn)算法可以在一定程度上抑制相關(guān)噪聲,但依然局限于陣元間的語譜和相關(guān)性的角度。文獻(xiàn)[5-6]將GSC與相干濾波結(jié)合,以提高算法抑制噪聲的能力。由于相干濾波處理處于GSC的非自適應(yīng)通道中,所以只能使用基本相干濾波器。如果使用消噪能力更強(qiáng)的改進(jìn)算法,盡管會提升非自適應(yīng)通道局部增強(qiáng)效果,但卻會影響GSC自適應(yīng)與非自適應(yīng)通道間的相關(guān)性,最終效果反而下降。針對上述問題,本文提出一種相干濾波與廣義旁瓣相消器結(jié)合的小陣列語音增強(qiáng)算法,對基于最小搜索的噪聲譜估計算法進(jìn)行改進(jìn),用于相干濾波器中,并將相干濾波器作為GSC的后置濾波器,算法在充分利用陣元間蘊(yùn)含各類信息的同時,也突破了經(jīng)典模式[5-7]下的限制。
圖1為相干濾波與廣義旁瓣相消器結(jié)合算法原理圖。由圖1可知:算法整體結(jié)構(gòu)由GSC和相干濾
圖1 相干濾波與廣義旁瓣相消器結(jié)合算法原理圖
波器兩個模塊組成,帶噪語音信號經(jīng)廣義旁瓣相消器增強(qiáng)后被送入相干濾波器,實(shí)現(xiàn)語音的再次增強(qiáng),獲取最終的目標(biāo)輸出信號。為方便說明,在此假設(shè)目標(biāo)信號由0度角入射,則圖1中兩個麥克風(fēng)接收到的信號可表示為:
(1)
其中:s(n)為聲源信號;h1(n)和h2(n)為聲源到兩個麥克風(fēng)間的沖擊響應(yīng);v1(n)和v2(n)為兩個麥克風(fēng)接收到的環(huán)境噪聲。
圖2 自適應(yīng)干擾抵消器原理框圖
廣義旁瓣相消器(GSC)由固定波束形成器(FBF)、阻塞矩陣(BM)以及自適應(yīng)干擾抵消器(AIC)組成,見圖1。固定波束形成采用延時求和算法,由于上文假設(shè)目標(biāo)信號位于陣列法線方向,兩個麥克風(fēng)之間的目標(biāo)語音保持同步,所以只需進(jìn)行加權(quán)求和便可完成波束形成。自適應(yīng)噪聲干擾抵消器利用噪聲參考信號vBM(n)得出波束形成輸出信號yFBF(n)中的殘余噪聲的估計值v′(n),自適應(yīng)噪聲干擾抵消器選用歸一化量小均方誤差(NLMS)算法。圖2給出了自適應(yīng)噪聲干擾抵消器算法原理圖,其中:yFBF(n)=0.5×(y1(n)+y2(n));vBM(n)=y1(n)-y2(n);W(n)為NLMS算法的傳遞函數(shù),其迭代過程如下:
(2)
e(n)=yGSC(n)=yFBF(n)-vBM(n)×W(n)=yFBF(n)-v′(n)=s(n)+v(n)。
(3)
對GSC輸出信號yGSC(n)做短時傅里葉變換,得其頻域形式為:
YGSC(ω,k)=S(ω,k)+V(ω,k),
(4)
其中:ω為頻率因子;k為幀號。由此可以得出相干濾波器的傳遞函數(shù)為:
(5)
其中:PY(ω,k)、PS(ω,k)、PV(ω,k)分別是帶噪語音yGSC(n)、目標(biāo)語音s(n)以及殘余噪聲v(n)的功率譜密度(PSD)。PY(ω,k)可由下式迭代求得[8]:
(6)
Rprio(ω,k)表示先驗(yàn)信噪比:
(7)
由此可知:求出噪聲的功率譜密度PV(ω,k)是相干濾波器設(shè)計的關(guān)鍵。經(jīng)典的噪聲譜估計方法是基于語音活性判決(VAD)基礎(chǔ)上[9],僅通過語音的無聲段對噪聲功率譜進(jìn)行估計,這使得該方法僅適用于信噪比較高的平穩(wěn)噪聲環(huán)境下。因?yàn)樵诘托旁氡拳h(huán)境下,VAD的準(zhǔn)確率較低,而且該方法僅在無聲段估計噪聲,在非平穩(wěn)噪聲環(huán)境下性能會急劇惡化。文獻(xiàn)[10]在雙通道基礎(chǔ)上提出一種最小跟蹤估計算法(MT),消除了上述的問題,噪聲互功率譜密度(CPSD)通過噪聲CPSD局部極小值搜索求得估計值。其計算如下:
(8)
其中:L為局部搜索的窗長;PV1V2(ω,k)為雙通道模型下噪聲CPSD的平滑估計值。其計算可以參考式(6)。由于算法中使用的是單通道相干濾波器,可在單通道模型下將式(8)變?yōu)椋?/p>
(9)
但是MT算法的噪聲更新依賴于最小搜索窗長度,當(dāng)噪聲突然增加時,噪聲更新時長會大于最小搜索窗的時長。因而,本文提出一種修正算法,通過不斷地同過去的局部極小值比較,使得局部極小值的更新處于一種連續(xù)狀態(tài),從而不再依賴于最小搜索窗長度。其修正式為:
(10)
圖3展示了基于該估計算法的相干濾波器的結(jié)構(gòu)流程。其運(yùn)算步驟以及具體迭代過程如下。
圖3 基于最小跟蹤估計的相干濾波器原理圖
第1幀:
Hcpss(ω,1)=0。
其他幀(k>1):
PV(ω,k)=Bmin·PVmin(ω,k);
其中:λv=0.8;λy=0.7;λ=0.9;λd=0.6;α=0.99;β=0.85;γ=0.01;Bmin=0.55。
仿真實(shí)驗(yàn)中,采樣率為8 kHz,窗函數(shù)采用漢明窗,每幀長度為32 ms,幀移為50%。麥克風(fēng)陣列放置于長6 m、寬4 m、高3 m的房間里,RT60=0.4 s,混響仿真環(huán)境通過基于Allen和Berkley圖像算法[11]的Habets算法實(shí)現(xiàn)。兩個麥克風(fēng)的距離為6 cm,坐標(biāo)分別位于(2∶1∶1)和(2∶1.06∶1),目標(biāo)聲源位于(3∶1.03∶1.7),噪聲源位于(1∶2∶1.5)。目標(biāo)語音為中國科學(xué)院的測試語音庫,噪聲來自于NOIZEUS數(shù)據(jù)庫。選取GSC和GSC+相干[6]算法作為對比算法。
實(shí)驗(yàn)1從信噪比的角度出發(fā),驗(yàn)證算法在babble、機(jī)場噪聲、車站噪聲、展覽館噪聲等不同噪聲環(huán)境下的消噪能力。圖4給出了本文算法以及另外兩種對比算法在上述仿真條件下的測試結(jié)果。從圖4的4幅圖中可以看出:在上述仿真環(huán)境下,本文算法的增強(qiáng)效果更好。
圖4 不同算法和噪聲下的信噪比
由于語音的聽覺質(zhì)量的好壞并不僅僅取決于信噪比的高低,實(shí)驗(yàn)2進(jìn)一步采用語音質(zhì)量客觀評估值(PESQ)[12]和對數(shù)譜距離(LSD)兩個指標(biāo)來評判算法的語音增強(qiáng)性能。PESQ是2001年國際電信聯(lián)盟(ITU-T) 推出的P.862標(biāo)準(zhǔn),是評估語音主觀試聽感受的客觀計算方法,滿分為4.5分,得分越高說明語音質(zhì)量越好。LSD用于測量增強(qiáng)語音與純凈語音之間的對數(shù)譜距離,距離越小說明增強(qiáng)語音與純凈語音之間的對數(shù)距離越小,增強(qiáng)的效果越好。表1給出了0 dB信噪比下,對于babble噪聲、機(jī)場噪聲、車站噪聲、展覽館噪聲、餐廳噪聲、火車噪聲這6種不同類型的噪聲,使用3種增強(qiáng)算法得到的增強(qiáng)語音的PESQ值和LSD值。由表1可看出:本文算法能夠更好地從帶噪語音中將純凈語音恢復(fù)出來。
表1 不同算法下的PESQ和LSD值
本文以麥克風(fēng)小陣列為基礎(chǔ),利用其常用的GSC與相干濾波器算法優(yōu)缺點(diǎn)互補(bǔ)的特性,提出一種基于相干濾波與GSC結(jié)合的小陣列語音增強(qiáng)算法。該算法能夠有效地利用陣元間蘊(yùn)含的信息,可以濾除陣元間的相關(guān)與非相關(guān)噪聲以及非目標(biāo)語音方向的干擾噪聲,增強(qiáng)后的語音具有較高的語音質(zhì)量和可懂度。仿真實(shí)驗(yàn)表明:本文算法對噪聲的類型與能量并不敏感,在各種不同的噪聲環(huán)境中即使是低信噪比的情況下,也能獲得比較理想的增強(qiáng)效果。
[1] Thumchirdchupong H,Tangsangiumvisai N.A Two-Microphone Noise Reduction Scheme for Hands-Free Telephony in a Car Environment[C]//Electrical Engineering/Electronics,Computer,Telecommunications and Information Technology (ECTI-CON),2013 10th International Conference.IEEE,2013:1-6.
[2] Yousefian N,Loizou P C,Hansen J H L.A Coherence-Based Noise Reduction Algorithm for Binaural Hearing Aids[J].Speech Communication,2014,58:101-110.
[3] Kallel F,Ghorbel M,Frikha M,et al.A Noise Cross PSD Estimator Based on Improved Minimum Statistics Method for Two-Microphone Speech Enhancement Dedicated to a Bilateral Cochlear Implant[J].Applied Acoustics,2012,73(3):256-264.
[4] Yousefian N,Loizou P C.A Dual-Microphone Speech Enhancement Algorithm Based on the Coherence Function[J].Audio,Speech,and Language Processing,IEEE Transactions on,2012,20(2):599-609.
[5] Fischer S,Simmer K U.Beamforming Microphone Arrays for Speech Acquisition in Noisy Environments[J].Speech Communication,1996,20(3):215-227.
[6] 楊立春,錢沄濤.面向二元麥克風(fēng)小陣列改進(jìn)的廣義旁瓣抵消器語音增強(qiáng)算法[J].信號處理,2012,28(10):1379-1385.
[7] 李楠,鄧舒.希爾伯特黃改進(jìn)算法在語音增強(qiáng)中的應(yīng)用[J].河南科技大學(xué)學(xué)報:自然科學(xué)版,2013,34(5):50-54.
[8] McCowan I A,Bourlard H.Microphone Array Post-Filter for Diffuse Noise Field[C]//Acoustics,Speech,and Signal Processing (ICASSP),2002 IEEE International Conference.IEEE,2002.
[9] Mohsen R,Ahmad A,Beghdad A,et al.A Modified Coherence Based Method for Dual Microphone Speech Enhancement[C]//IEEE Int Conf Signal Process Commun.Dubai,2007.
[10] Mohsen R,Ahmad A,Beghdad A,et al.A Noise Cross PSD Estimator for Dual-Microphone Speech Enhancement Based on Minimum Statistics[J].Journal of Zhejiang University:Science A,2009(6):805-809.
[11] Allen J B,Berkley D A,Blauert J.Multimicrophone Signal-Processing Technique to Remove Room Reverberation from Speech Signals[J].The Journal of the Acoustical Society of America,1977,62(4):912-915.
[12] ITU-T Recommendation P.862 Perceptual Evaluation of Speech Quality (PESQ):An Objective Method for End-To-End Speech Quality Assessment of Narrowband Telephone Networks and Speech Codecs[S].New York:International Telecommunication Union,2001:862.
國家自然科學(xué)基金項(xiàng)目(51171061);湖北省科技支撐計劃基金項(xiàng)目(2014BAA135)
張正文(1964-),男,湖北黃岡人,副教授,碩士,主要研究方向?yàn)檎Z音信號處理.
2014-11-03
1672-6871(2015)03-0038-05
TN912.35
A