方賽鴻
(福州瑞芯微電子股份有限公司,福建 福州 350003)
隨著人工智能的興起與發(fā)展,語音處理的作用也越來越重要。當(dāng)前比較熱門的語音交互平臺有蘋果的Siri、亞馬遜的Alexa以及科大訊飛的訊飛云,這些軟件可以將說話人的聲音信號轉(zhuǎn)化為文字信息,進(jìn)而控制硬件系統(tǒng)。語音識別率決定語音交互系統(tǒng)的性能,語音信號進(jìn)入語音識別系統(tǒng)之前需要進(jìn)行預(yù)處理。
由于環(huán)境噪聲和墻壁等障礙物的存在,麥克風(fēng)采集的語音信號通常包含噪聲和混響,它們會降低語音的清晰度和可懂度,導(dǎo)致語音識別系統(tǒng)識別率下降。因此,語音信號進(jìn)入語音識別系統(tǒng)之前,需要進(jìn)行噪聲和混響消除。目前,多通道語音增強(qiáng)算法主要分為三類:波束形成[1]、逆濾波[2]以及盲源分離[3]。 HABETS EAP等人提出了一種雙麥克風(fēng)噪聲和混響消除算法[4],該算法輸出存在一定的失真,本文對其進(jìn)行改進(jìn),并利用仿真數(shù)據(jù)驗(yàn)證改進(jìn)算法的有效性。
房間混響信號是由聲源信號s(n)和房間聲學(xué)沖激響應(yīng)函數(shù)h(n)卷積產(chǎn)生的。h(n)可分為三個部分:直達(dá)路徑、前期反射和后期反射,如圖1所示。
圖1 房間沖激響應(yīng)示意
混響時間為400 ms的某一房間的房間沖激響應(yīng)如圖2所示。
對于第i路麥克風(fēng)在某離散時間n時的混響信號可以表示為:
(1)
因此,第i路麥克風(fēng)接收到的信號可以表示為:
Xi(n)=Zi(n)+Vi(n)
(2)
圖2 混響時間為400 ms的房間沖激響應(yīng)
其中Vi(n)表示背景噪聲。
對輸入的陣列語音信號加窗分幀(每幀長度在30 ms以內(nèi))后,通過短時傅里葉變換[5]由時域變換到頻域,式(2)的頻域表示如下:
Xi(m,k) =Zi(m,k)+Vi(m,k)
=Di(m,k)+Ri(m,k)+Vi(m,k)
(3)
其中m表示幀索引,k表示頻率索引;Di和Ri分別表示第i路麥克風(fēng)輸入信號中的直達(dá)聲(包括直達(dá)聲和早期反射,為了簡化統(tǒng)稱直達(dá)聲)和后期混響聲?;祉懴惴ǖ哪康氖潜M可能地去除Ri(m,k)。
Habets雙麥克風(fēng)原理圖如圖3所示。整個結(jié)構(gòu)包含四個部分:固定波束形成器、噪聲功率譜估計、后期混響功率譜估計和單通道后置濾波器。固定波束形成器的系數(shù)固定為[0.5,0.5],輸出為Q(m,k);噪聲功率譜估計是利用優(yōu)化最小控制遞歸平均[6]算法估計Q(m,k)中噪聲功率譜λv(m,k);后期混響功率譜估計是利用Polack模型[5]估計輸入信號中的后期混響功率譜密度λr;單通道后置濾波器采用的是OM-LSA算法[7],根據(jù)前面估計的噪聲和后期混響來計算增益函數(shù)GOM-LSA,最終的輸出為:
Y(m,k)=GOM-LSA(m,k)Q(m,k)
(4)
圖3 Habets雙麥克風(fēng)算法原理圖
后置OM-LSA算法的譜增益函數(shù)如下:
GOM-LSA(m,k)=GLSA(m,k)p(m,k)Gmin(m,k)1-p(m,k)
(5)
其中p(m,k)表示語音存在概率,Gmin表示增益下限,p(m,k)計算表達(dá)式如式(6)所示:
p(m,k)=
(6)
q(m,k)=
(7)
公式(6)中ξ(m,k)表示先驗(yàn)信噪比,v(m,k)的值和ξ(m,k)有關(guān);分析式(7)發(fā)現(xiàn),q(m,k)的取值與閾值γ1和ζ0有關(guān)[6]。實(shí)際這兩個閾值是固定的常數(shù),在某些幀q(m,k)可能會出現(xiàn)較大偏差,會導(dǎo)致增益函數(shù)異常,使得輸出失真。Habets雙麥克風(fēng)算法輸出與純凈語音波形對比如圖4所示。觀察圖中橢圓圈標(biāo)記部分發(fā)現(xiàn),算法的輸出在某些時刻存在失真,這種失真最終導(dǎo)致識別系統(tǒng)識別率的降低。
圖4 Habets雙麥克風(fēng)算法輸出與純凈語音波形對比
針對Habets算法存在的問題,本文的改進(jìn)思路是將Habets算法的后置濾波器用維納濾波進(jìn)行替換。改進(jìn)算法的原理圖如圖5所示。
圖5 改進(jìn)算法框圖
對應(yīng)該系統(tǒng)的維納濾波器的表達(dá)式如下:
(8)
式中:
ξ(m,k)=βH(m-1,k)+ξ(m-1,k)+
(1-β)max{γ(m,k)-1,0}
(9)
(10)
式(9)中的β表示權(quán)重因子,γ(m,k)表示后驗(yàn)信噪比。
(11)
其中,Hmin,R和Hmin,N0是常數(shù),用來控制噪聲和混響消除的最大化。
改進(jìn)算法最終的輸出為:
Y(m,k)=H(m,k)Q(m,k)
(12)
本次仿真實(shí)驗(yàn)采用間距為10 cm的線性麥克風(fēng)陣列。純凈聲源取自TIMIT標(biāo)準(zhǔn)語音庫,噪聲源取自Noise92語音庫。利用MATLAB工具箱[8]生成陣列語音信號。仿真時,房間大小設(shè)置成4.6 m×4.6 m×3.2 m,聲源到麥克風(fēng)陣列的距離設(shè)置成3種情況:1.5 m、2 m和2.5 m,采樣頻率為16 kHz,墻壁的吸聲系數(shù)設(shè)置為[0.8,0.8,0.8,0.8,0.7,0.4],聲源混響時間設(shè)置為400 ms。
仿真房間沖激響應(yīng)曲線圖如圖6所示,純凈源語音的波形圖以及語譜圖如圖7所示。
圖6 仿真實(shí)驗(yàn)環(huán)境房間沖激響應(yīng)
圖7 純凈語音的波形圖和語譜圖
輸入信噪比為10 dB的陣列信號的波形和語譜圖如圖8所示。
圖8 輸入信號波形和語譜
Habets算法和改進(jìn)算法處理后的結(jié)果分別如圖9和圖10所示。
圖9 Habets算法輸出
圖10 改進(jìn)算法輸出
觀察圖9和圖10可以發(fā)現(xiàn),Habets雙麥克風(fēng)算法噪聲消除性能很好,但是輸出存在失真;改進(jìn)算法噪聲消除性能變?nèi)?,但是輸出失真減小。
為了驗(yàn)證改進(jìn)算法輸出識別率是否有所提高,采用科大訊飛四麥克風(fēng)陣列模塊采集語音信號,將采集到的信號通過Habets算法和改進(jìn)算法處理后,將算法的輸出送到語義識別端,比較識別結(jié)果。語義識別算法采用的是訊飛開放平臺的語音聽寫模塊[9]。
10個不同的人分別站在距離麥克風(fēng)1.5 m、2 m、2.5 m的地方說“今天天氣很好,福州天氣,劉德華的電影”,總共16個漢字。假設(shè)某一組采集數(shù)據(jù)經(jīng)過算法處理后通過語義識別算法能識別出的正確字?jǐn)?shù)為N,那么識別率計算如下:
(13)
然后對10組識別率求平均得到最終的識別率結(jié)果。
對未處理、Habets算法輸出以及改進(jìn)算法的輸出通過語義識別端進(jìn)行識別率結(jié)果對比,如表1所示。
表1 不同算法處理結(jié)果識別率的比較 (%)
由表1可知,隨著聲源到麥克風(fēng)距離的增加,三種情況下的識別率都越來越低;未處理的語音信號識別率急劇下降,改進(jìn)算法識別率情況最好。由此可以說明,改進(jìn)算法是有效的。
本文對Habets雙麥克風(fēng)噪聲和混響消除算法進(jìn)行研究,針對其存在的問題,提出了一種改進(jìn)算法。經(jīng)過仿真數(shù)據(jù)和實(shí)錄數(shù)據(jù)的測試發(fā)現(xiàn),改進(jìn)算法與Habets
算法相比,噪聲消除性能有所下降,但是改進(jìn)算法輸出失真更小,最終的識別率也有一定的提升。隨著聲源到麥克風(fēng)距離的增加,改進(jìn)算法輸出的識別率也越來越低,有待后續(xù)進(jìn)一步優(yōu)化。
[1] MCCOWAN I A, MOORE D C, SRIDHARAN S. Near-field adaptive beamformer for robust speech recognition[J]. Digital Signal Processing, 2002, 12(1): 87-106.
[2] Xu Guanghan, Liu Hui, Tong Lang, et al. A least-squares approach to blind channelidentification[J]. IEEE Transactions on Signal Processing, 1996, 43(12): 2982-2993.
[3] ABRARD F, DEVILLE Y. A time frequency blind signal separation method applicable to underdetermined mixtures of dependent sources[J]. Signal Processing, 2005, 85(7): 1389-1403.
[4] HABETS E A P, GANNOT S, COHEN I. Dual-microphone speech dereverberation in a noisy environment[C]//IEEE International Symposium on Signal Processing and Information Technology. IEEE, 2006:651-655.
[5] WOLFE P J,GODSILL S J. Efficient alternatives to the Ephraim and Malah suppression rule for audio signal enhancement[J]. EURASIP Journal on Advances in Signal Processing, 2003, 2003(10):1043-1051.
[6] COHEN I. Noise spectrum estimation in adverseenvironments:improved minima controlled recursive averaging[J]. IEEE Transactions on Speech & Audio Processing,2003,11(5):466-475.
[7] COHEN I,BERDUGO B. Speech enhancement for non-stationary noise environments[J]. Signal Processing,2001,81(11):2403-2418.
[8] LEHMANN E A. Image-source method:Matlab code implementation[EB/OL].(2006-08-01)[2017-03-12]http://www.eric-lehmann.com/
[9] 訊飛開放平臺[EB/OL].(2012-03-22)[2017-02-24]http://www.xfyun.cn/sdk/dispatcher.