張正文,湯敏慎
(湖北工業(yè)大學電氣與電子工程學院,湖北武漢 430068)
隨著通信系統(tǒng)對目標信號質(zhì)量的要求越來越高,語音增強變得越來越重要[1].相較于傳統(tǒng)的語音增強技術,麥克風陣列語音增強技術可以獲更高質(zhì)量的目標語音輸出.但消噪能力往往依賴于麥克風陣列的陣元數(shù).在設備小型化的發(fā)展趨勢下,電子設備的體積、運算能力和成本受到嚴格的限制.二元麥克風陣列以其結(jié)構(gòu)緊湊、符合設備小型化的趨勢被廣泛應用于免提系統(tǒng)[2]、助聽器[3]以及耳蝸植入系統(tǒng)中[4-5].
在諸多二元陣列增強算法中,廣義旁瓣相消器(generalized sidelobe canceller,GSC)和相干濾波器(coherent filter)是較為常用的算法.GSC算法依靠陣元間語音的時域和空域信息抑制噪聲干擾,相干濾波器則利用信號的語譜和相關性對噪聲進行抑制,但均未充分利用陣元間的信息.而二元麥克風陣列陣元數(shù)少、空間區(qū)分度小.要取得更好的語音增強效果,有賴于充分的利用陣元間蘊含的信息.
本文中提出一種基于相干濾波器與廣義旁瓣相消器結(jié)合的二元麥克風陣列語音增強算法.與經(jīng)典的結(jié)合方式[6-7]不同,該算法沒有將相干濾波器放在廣義旁瓣相消器的非自適應支路中,而是將相干濾波器作為廣義旁瓣相消器的后置濾波器.這有兩個好處,第一突破了傳統(tǒng)結(jié)合模式[6-7]下只能使用消噪能力較弱的經(jīng)典相干濾波器的限制,算法對基于迭代噪聲譜估計的相干濾波器[1]進行改進,使之與廣義旁瓣相消器聯(lián)合消噪,第二既利用了陣元間信號相關性和語譜信息進行噪音抑制,也充分利用了陣列空域和時域信息進行噪音抑制,最大限度地濾除噪聲干擾.仿真實驗表明,該算法對各類噪聲有良好的抑制能力.
圖1為GSC與相干濾波器結(jié)合算法原理圖,假設目標信號由00角入射,則圖1中兩個麥克風接收到的信號可表示為:
其中s(n)表示聲源信號,h1(n)和h2(n)表示聲源到兩個麥克風間之間的沖擊響應,v1(n)和v2(n)為兩個麥克風接收到環(huán)境噪聲.由圖1可知,算法整體結(jié)構(gòu)由4部分組成,分別是固定波束形成器(fixed beam former,F(xiàn)BF)、阻塞矩陣(blockingmatrix,BM)、自適應干擾抵消器(adaptive interference canceler,AIC)以及相干濾波器.同廣義旁瓣相消器算法結(jié)構(gòu)相比,改進的算法多了一個相干濾波處理.帶噪語音信號經(jīng)廣義旁瓣相消器增強后被送入相干濾波器,實現(xiàn)語音的再次增強,最終獲取目標信號的估計值s'(n).
圖1 GSC與相干濾波器結(jié)合算法原理圖
1.1 廣義旁瓣相消器算法原理廣義旁瓣相消器(GSC)由圖1中的固定波束形成器(fixed beam former,F(xiàn)BF)、阻塞矩陣(blockingmatrix,BM)以及自適應干擾抵消器(adaptive interference canceler,AIC)組成.
固定波束形成一般采用延時求和算法,由于算法描述中假設目標信號由00角入射,兩個麥克風之間的目標語音保持同步,所以只需進行加權求和便可完成波束形成.加權求和后的信號為:
由于兩個麥克風相聚很近,故兩者間沖擊響應的差距可以忽略不計,上式可以簡化為:
同時阻塞矩陣定義如下:
由此可以得出一個不含目標語音的噪聲參考通道:
自適應噪聲干擾抵消器在此選用變步長NLMS算法[8],利用噪聲參考信號vBM(n)估計出yFBF(n)中的相關噪聲信號v'(n),其原理圖(圖2)及迭代公式如下:
公式(7)中ε為遠小于1的正數(shù),以防止歸一化值過小,μ(n)為步長變換因子,具體迭代步驟詳見文獻[8].
1.2改進的相干濾波器設計對GSC輸出信號yGSC(n)做短時傅立葉變換得其頻域形式:
其中ω表示頻率因子,k表示幀號.由此可以得出相干濾波器的傳遞函數(shù):
圖2 自適應噪聲干擾抵消器算法原理圖
公式(9)中ФYGSC(ω,k)、ФS(ω,k)、ФV(ω,k)分別是帶噪語音yGSC(n)、目標語音s(n)以及殘余噪聲v(n)的功率
譜密度,Rprio(ω,k)表示先驗信噪比:
由此可知求出噪聲的功率譜密度ФV(ω,k),這是相干濾波器設計的關鍵.經(jīng)典的噪聲譜估計方法是在基于語音活性判決(voice activity detectors,VAD)基礎上[9],僅通過語音的無聲段對噪聲功率譜進行估計,僅適用于信噪比較高的平穩(wěn)噪聲環(huán)境.因為在低信噪比環(huán)境下,VAD的準確率較低,僅在無聲段估計噪聲,因此在非平穩(wěn)噪聲環(huán)境下性能會急劇惡化.本文中提出一種單通道噪聲譜迭代估計算法,其迭代估計分為兩步,第一步通過前一幀相干濾波器傳遞函數(shù)估計出本幀的噪聲譜,第二步根據(jù)第一步求出的噪聲譜計算出本幀的相干濾波器傳遞函數(shù).
算法迭代過程如下:
1:第一幀.
以下3個仿真實驗中,采樣率為8 kHz,窗函數(shù)采用hamming窗,每幀長度為32ms,幀移為50%.麥克風陣列放置于長6m、寬4m、高3m的房間里,RT60=0.4 s,混響仿真環(huán)境通過基于Allen和Berkley的圖像算法[10]的Habets算法實現(xiàn).兩個麥克風的距離為6 cm,坐標分別位于(2∶1∶1)和(2.00∶1.06∶1.00),目標聲源位于(3.00∶1.03∶1.70),噪聲源位于(10∶20∶1.5),目標語音為中國科學院的測試語音庫,噪聲來自于noisex-92 數(shù)據(jù)庫.選取 GSC-wiener[7]以及phase-based[11]算法作為對比算法 .
仿真實驗1從語音的時域及頻域的角度檢驗算法的消噪能力.圖3為背景噪聲為white、SNR=0 dB、RT60=0.4s環(huán)境下3類算法處理前后時頻圖.從圖3的時域圖中可以看出,本文中算法增強后的語音殘余噪聲更少,語音信號波形保持的更完整.從圖3的語譜圖中可以看出,本文中算法增強后的信號在高頻段保留了更多信息,對信號信噪比的提升更高.在上述仿真條件下,本文中提出的算法對噪聲有更強的抑制能力.
圖3 背景噪聲為white、SNR=0 dB、RT60=0.4 s環(huán)境下3類算法處理前后的時頻圖
仿真實驗2在不同信噪比下驗證算法的消噪能力,處理結(jié)果如圖4所示,由圖4可知本文中算法對噪聲能量的變換不敏感,各種信噪比下的噪聲抑制能力明顯強于對比算法.
圖4 不同信噪比環(huán)境下處理結(jié)果比較圖
仿真實驗3使用babble、飛機引擎聲、高頻噪聲、音樂噪聲、輪機噪聲、leopard構(gòu)造不同的噪聲場環(huán)境.選取 phase-based[11]算法、GSC-wiener[7]算法以及本文中算法在上述6種不同的噪聲環(huán)境下進行消噪對比實驗,信噪比與PESQ的測試結(jié)果如表1所示.從表1可以看出,無論在哪種噪聲場下,本文中提出的算法對信噪比的提升及語音聽覺質(zhì)量的提升,都取得了更好的測試結(jié)果.
表1 不同類型背景噪聲環(huán)境下信噪比和PESQ測試結(jié)果
本文中以麥克風小陣列為基礎,提出一種基于相干濾波器與廣義旁瓣相消器結(jié)合的二元麥克風陣列語音增強算法.利用基于迭代的單通道相干濾波器作為廣義旁瓣相消器的后置濾波器,進一步濾除殘余噪聲.兩者的結(jié)合,既充分利用了陣元蘊含的信息,又實現(xiàn)了算法的優(yōu)勢互補.仿真實驗表明,本文中的算法對噪聲的類型與能量并不敏感,在6種不同的噪聲環(huán)境中或低信噪比(0dB以下)的情況下,都能獲得比較理想的增強效果.
[1]Rahmani M,Akbari A,Ayad B.An iterative noise cross-PSD estimation for two-microphone speech enhancement[J].Applied Acoustics,2009,70(3):514-521.
[2]Thumchirdchupong H,Tangsangiumvisai N.A two-microphone noise reduction scheme for hands-free telephony in a car environment[C].Electrical Engineering/Electronics,Computer,Telecommunications and Information Technology(ECTICON),Krabi,2013:1-6.
[3]Yousefian N,Loizou PC,Hansen JH L.A coherence-based noise reduction algorithm for binaural hearing aids[J].Speech Communication,2014,58:101-110.
[4]Kallel F,Ghorbel M,F(xiàn)rikha M,etal.A noise cross PSD estimator based on improved minimum statistics method for two microphone speech enhancement dedicated to a bilateral cochlear implant[J].Applied Acoustics,2012,73(3):256-264.
[5]Yousefian N,Loizou PC.A dual-microphone speech enhancement algorithm based on the coherence function[J].Audio,Speech,and Language Processing,IEEE Transactionson,2012,20(2):599-609.
[6] Fischer S,Simmer K U.Beamforming microphone arrays for speech acquisition in noisy environments[J].Speech communication,1996,20(3):215-227.
[7]Comminiello D,Scarpiniti M,Parisi R,et al.Super directive microphone array system for speech enhancement hand-free communication[OL].http://ispacinguniroma1it/scarpiniti/papers/U2pdf.
[8]Huang H C,Lee J.A new variable step-size NLMS algorithm and its performance analysis[J].Signal Processing,IEEE Transactionson,2012,60(4):2055-2060.
[9]Rahmani M,Akbari A,Ayad B,et al.Amodified coherence based method for dual microphone speech enhancement[C].Signal Processingand Communications,Dubai,2007:225-228.
[10]Allen JB,Berkley D A,Blauert J.Multimicrophone signal-processing technique to remove room reverberation from speech signals[J].The Journal of the Acoustical Society of America,1977,62(4):912-915.
[11]Aarabi P,ShiG.Phase-based dual-microphone robust speech enhancement[J].Systems Man and Cybernetics,Part B:Cybernetics,IEEE Transactionson,2004,34(4):1763-1773.