陳長海
(福州瑞芯微電子股份有限公司,福建 福州 350003)
一種結(jié)合直達聲補償策略的混響抑制算法
陳長海
(福州瑞芯微電子股份有限公司,福建 福州350003)
混響是聲音經(jīng)過室內(nèi)墻壁等物體反射、吸收后多徑傳播疊加產(chǎn)生的,是導(dǎo)致語音識別系統(tǒng)性能下降的主要因素之一?;赥F-GSC的混響消除算法在估計混響功率譜時可能會出現(xiàn)過估計的現(xiàn)象,導(dǎo)致輸出語音失真。提出一種直達聲補償策略,并將其應(yīng)用到混響抑制算法中去。實驗結(jié)果表明,直達聲補償策略減小了輸出語音失真,提高了輸出語音質(zhì)量。
混響;TF-GSC;直達聲補償;混響功率譜估計
隨著人工智能技術(shù)研究與應(yīng)用的興起,越來越多的產(chǎn)品可以實現(xiàn)人機交互,人們可以通過語音控制機器執(zhí)行一些操作。例如智能電視,用戶可以通過語音控制換臺、音量的調(diào)整,甚至可以利用智能電視進行一些社交活動[1]。實時語音識別系統(tǒng)是實現(xiàn)人機交互的橋梁[2],隨著人機交互應(yīng)用場景的復(fù)雜化,對語音識別系統(tǒng)性能的要求也越來越高。
室內(nèi)麥克風(fēng)采集到的語音信號通常包含噪聲和混響,使得語音信號的保真度和清晰度下降,從而導(dǎo)致實時語音識別系統(tǒng)性能的降低。其中,混響是聲音經(jīng)過室內(nèi)墻壁等物體反射、吸收后,由多徑傳播產(chǎn)生的。麥克風(fēng)接收到的語音信號在時序上可以分為三個部分:直達聲、早期反射聲、后期混響聲。后期混響會掩蓋弱語音部分,影響語音的清晰度[3-4]。為了提高語音識別系統(tǒng)的性能,必須抑制后期混響?,F(xiàn)有的混響處理算法可以分為兩大類:混響消除和混響抑制[5]?;祉懴乃悸肥菍Ψ块g聲學(xué)系統(tǒng)求逆,因此需要對房間聲學(xué)系統(tǒng)進行估計,計算量較大;混響抑制算法利用譜增強策略來抑制語音中的混響,避免了房間聲學(xué)系統(tǒng)估計這一難題。
本文提出了一種直達聲補償策略,并將其應(yīng)用到基于TF-GSC的混響消除算法中,從而改善算法的性能。
房間混響信號是由聲源信號s(n)和房間聲學(xué)沖激響應(yīng)函數(shù)h(n)卷積產(chǎn)生的。h(n)可分為三個部分:直達路徑、前期反射和后期反射,如圖1所示。
圖1 房間沖激響應(yīng)示意
混響時間為400 ms的某一房間的房間沖激響應(yīng)如圖2所示。
圖2 混響時間為400 ms的房間沖激響應(yīng)
對于第i路麥克風(fēng)在某離散時間n時的混響信號可以表示為:
(1)
因此,第i路麥克風(fēng)接收到的信號可以表示為:
xi(n)=zi(n)+vi(n)
(2)
其中vi(n)表示背景噪聲。
對輸入的陣列語音信號加窗分幀(每幀長度在30 ms以內(nèi))后,通過短時傅里葉變換[6]由時域變換到頻域,式(2)的頻域表示如下:
Xi(m,k)=Zi(m,k)+Vi(m,k)
=Di(m,k)+Ri(m,k)+Vi(m,k)
(3)
其中m表示幀索引,k表示頻率索引,Di和Ri分別表示第i路麥克風(fēng)輸入信號中的直達聲(包括直達聲和早期反射,為了簡化統(tǒng)稱直達聲)和后期混響聲?;祉懴惴ǖ哪康氖潜M可能地去除Ri(m,k)。
HABETS E[7]等人提出了一種基于TF-GSC的噪聲和混響消除算法,算法的原理圖如圖3所示(以4麥克風(fēng)為例)。
圖3 基于TF-GSC的混響抑制算法框圖
由圖3可知,算法主要包含四個部分,分別是TF-GSC、噪聲功率譜估計[8]、混響功率譜估計以及后置單通道濾波器。
基于傳輸函數(shù)的廣義旁瓣抵消器(TF-GSC)是廣義旁瓣抵消器的改進形式,其結(jié)構(gòu)理論上可以處理任何的聲學(xué)傳輸函數(shù),適合混響等復(fù)雜條件下陣列語音信號的處理[9]。其基本結(jié)構(gòu)如圖3虛線框中部分所示。它主要由非自適應(yīng)部分和自適應(yīng)部分組成,非自適應(yīng)部分主要是一個固定波束形成器,自適應(yīng)部分由一個阻塞矩陣和一個自適應(yīng)濾波器組成。
對輸入陣列信號進行時延補償[10],使得各路輸入信號中的期望信號時域同步,加窗分幀后通過短時傅里葉變換由時域轉(zhuǎn)換到頻域。傳輸函數(shù)比(Transfer Function Ratio)矢量如下:
(4)
其中Ai(k)表示聲源到第i路麥克風(fēng)的傳輸函數(shù)的頻域形式。
固定波束形成器的系數(shù)矩陣為:
(5)
阻塞矩陣B相當于一個空域濾波器,目的是阻塞期望方向上的信號,留下非期望方向的干擾信號組合;TF-GSC的阻塞矩陣的頻域形式如下:
(6)
其中*表示共軛。
實際環(huán)境中的Ai(k)是未知的,因此傳輸函數(shù)比也是未知的,需要對其進行估計,通常是利用信號之間互功率譜密度的來進行求解,如式(7)所示。
(7)
其中Φxix1表示第i路麥克風(fēng)的輸入與第1路麥克風(fēng)的輸入之間的互功率譜密度,〈 〉表示幀平均。
自適應(yīng)濾波部分采用的是自適應(yīng)LMS算法,自適應(yīng)濾波器的系數(shù)矩陣G計算如下:
G(m+1,k)=G(m,k)+μU(m,k)Y*(m,k)
(8)
U(k,m)=B?(k)X(m,k)
(9)
其中μ表示LMS算法的步長,U(k,m)表示阻塞矩陣的輸出,?表示共軛轉(zhuǎn)置,*表示共軛,XT(m,k)表示輸入:
XT(m,k)=[X1(m,k),X2(m,k),X2(m,k),X4(m,k)]
(10)
最終的輸出:
Y(m,k)=W?(k)X(m,k)-G?(m,k)U(k,m)
(11)
Habets算法估計后期混響采用的是Polack混響統(tǒng)計模型,這種隨機模型對大部分的聲學(xué)環(huán)境的模擬都是相當精準的。KUTTRUF H[11]認為只有當聲源到麥克風(fēng)的距離大于臨界距離時,Polack混響統(tǒng)計模型才有效,這里的臨界距離是指此距離上的直達聲能量與前期和后期反射的能量相等。這也就意味著當直達聲的能量小于前期和后期反射信號的能量時,Polack模型才有效。實際處理過程中,某些幀的語音信號可能不滿足臨界條件,導(dǎo)致后期混響功率譜出現(xiàn)過估計,造成輸出信號的譜失真,如圖4所示。
圖4 Habets算法輸入輸出語譜圖對比
利用Polack混響模型估計后期混響時可能會出現(xiàn)過估計的現(xiàn)象[7]。輸入陣列語音包含直達聲(包含早期反射)、后期混響以及外界噪聲,假設(shè)噪聲的估計準確,則剩下的直達聲和后期混響的總功率譜密度是定值,后期混響的過估計會導(dǎo)致直達聲的估計出現(xiàn)偏差,導(dǎo)致系統(tǒng)的輸出結(jié)果出現(xiàn)失真現(xiàn)象。本文提出了一種直達聲補償策略,引入動態(tài)變量κi(m)利用下面的式子來估計混響聲(包括直達聲和后期混響,即輸入信號去掉噪聲后的剩余部分):
(12)
其中κi(m)表示第i路麥克風(fēng)的第m幀的直達聲補償系數(shù),這個系數(shù)與直達聲和后期混響的能量有關(guān)。
(13)
直達聲補償系數(shù)κi(m)的更新滿足以下策略:
因此,κi(m)的值的更新可以根據(jù)下面的式子進行自動調(diào)整:
(14)
其中μk表示步長,且滿足0<μk<1。
利用基于TF-GSC的混響抑制算法去除混響時,利用本文提出的直達聲補償策略估計混響功率譜,可以防止混響功率譜出現(xiàn)過估計。
本次仿真實驗采用間距為10 cm的線性麥克風(fēng)陣列,麥克風(fēng)數(shù)目為4,房間大小為4 m×5 m×3.5 m,聲源到麥克風(fēng)陣列的距離設(shè)置成3種情況:1.5 m、2 m和2.5 m,墻壁的吸聲系數(shù)設(shè)置為[0.8,0.8,0.8,0.8,0.7,0.4]。純凈聲源取自TIMIT標準語音庫,采樣頻率為16 kHz,長度為3.5 s,語音信號的內(nèi)容為:She had your dark suit in greasy wash water all year。利用Eric A. Lehmann編寫的Image-source method 工具箱來獲取仿真混響語音信號。
仿真房間沖激響應(yīng)曲線圖和純凈源語音的波形圖以及語譜圖如圖5和圖6所示。
圖5 仿真實驗環(huán)境房間沖激響應(yīng)
圖6 純凈語音的波形圖和語譜圖
混響程度不同的幾組仿真語音波形圖和語譜圖分別如圖7和圖8所示。
圖7 混響時間分別為0.4 s、0.8 s以及1.2 s的混響語音信號與純凈語音信號波形對比
圖8 混響時間分別為0.4 s、0.8 s以及1.2 s的混響語音信號與純凈語音信號語譜圖對比
由圖7和圖8可以發(fā)現(xiàn),混響會導(dǎo)致語音中聲音的間隔變得模糊,導(dǎo)致語音的質(zhì)量嚴重下降。
為了驗證本文提出的直達聲補償策略的有效性,分別用沒有結(jié)合直達聲補償策略的基于TF-GSC的混響消除算法和結(jié)合直達聲補償策略的基于TF-GSC的混響消除算法對混響語音進行處理,混響時間為0.4 s的混響語音經(jīng)過兩種算法處理后的波形圖和語譜圖如圖9和10所示。
圖9 直達聲補償策略應(yīng)用前后波形圖對比
圖10 直達聲補償策略應(yīng)用前后語譜圖對比
觀察圖9和圖10可以發(fā)現(xiàn),基于TF-GSC的混響抑制算法結(jié)合直達聲補償策略后,輸出語音失真減小,圖9虛線方框選中部分十分明顯,由此可以證明本文提出的直達聲補償策略是有效的。
傳統(tǒng)的基于TF-GSC的混響抑制算法需要估計混響的功率譜,有時會出現(xiàn)過估計的現(xiàn)象。本文提出一種直達聲補償策略,并將其應(yīng)用到混響抑制算法中去。經(jīng)實驗驗證,本文提出的直達聲補償策略能夠防止混響功率譜出現(xiàn)過估計,減小算法輸出的失真。該策略適用于語音識別系統(tǒng)的前端處理模塊,能夠很好地對輸入語音進行預(yù)處理。
[1] 袁洪,鄧忠平. 智能電視發(fā)展趨勢與挑戰(zhàn)[J].網(wǎng)絡(luò)新媒體技術(shù),2012,1(1):4-9.
[2] 謝凌云. 實時語音識別系統(tǒng)的快速算法研究[D].北京:中國科學(xué)院聲學(xué)研究所,2004.
[3] 栗曉麗,徐柏齡. 混響聲場中語音識別方法研究[J]. 南京大學(xué)學(xué)報(自然科學(xué)),2003,39(4):525-531.
[4] OMOLOGO M,SVAIZER P,MATASSONI M. Environmental conditions and acoustic transduction in hands-free speech recognition[J]. Speech Communication,1998,25(1-3):75-95.
[5] MCAULAY R,MALPASS M. Speech enhancement using a soft-decision noise suppression filter[J]. IEEE Transactions on Acoustics Speech & Signal Processing,1980,28(2):137-145.
[7] HABETS E. Single and multi-microphone speech dereverberation using spectral enhancement[D]. Technische Universiteitndhoven,2007.
[6] 朱冰蓮,楊磊. 心音信號的短時傅立葉變換分析[J]. 重慶大學(xué)學(xué)報(自然科學(xué)版),2004,27(8):83-85.
[8] COHEN I. Noise spectrum estimation in adverse environments: improved minima controlled recursive averaging[J]. IEEE Transactions on Speech & Audio Processing,2003,11(5):466-475.
[9] EPHRAIM Y,MALAH D. Speech enhancement using a minimum-mean square error short-time spectral amplitude estimator[J]. IEEE Transactions on Acoustics Speech & Signal Processing,1985,33(2):443-445.
[10] 崔瑋瑋,曹志剛,魏建強.聲源定位中的時延估計技術(shù)[J]. 數(shù)據(jù)采集與處理,2007,22(1):90-99.
[11] KUTTRUFF H. Room acoustics[M]. Spon Press,London,Taylor & Francis,2000.
A speech dereverberation algorithm with the combination of direct path strategy
Chen Changhai
(Fuzhou RockChip Electronics Co.,Ltd.,Fuzhou 350003,China)
The reverberation is generated when the speech signal is reflected and absorbed by wall and other objects,and is superimposed by multipath propagation,which is one of the main reasons that degrade the performance of speech recognition systems. The dereverberation algorithm based on TF-GSC may lead to excessive estimation of reverberation power spectrum,resulting in the distortion of output. In this paper,a direct path compensation strategy is proposed and applied to the dereverberation algorithm. The experimental results show that the direct path compensation strategy reduces the output speech distortion and improves the quality of output speech.
reverberation; TF-GSC; direct path compensation; reverberation power spectrum
TP312
A
10.19358/j.issn.1674-7720.2017.24.010
陳長海.一種結(jié)合直達聲補償策略的混響抑制算法J.微型機與應(yīng)用,2017,36(24):32-36.
2017-06-23)
陳長海(1984-),男,碩士研究生,主要研究方向:智能音頻和智能車載產(chǎn)品。