卞金洪高尚尚劉海波周 鋒王如剛
(鹽城工學院信息工程學院,江蘇 鹽城 224051)
在嘈雜的環(huán)境中,音頻設備的效果較差。為了提高數(shù)字音頻的質量和清晰度,近年來研究者提出了多種語音增強算法。其中單通道降噪技術,由于其實現(xiàn)簡單,在過去的50 年里得到了廣泛的應用[1-2]。許多單麥克風語音增強方法被提出,如譜減法[3]、卡爾曼濾波[4-5]和維納濾波[6-7]。然而,由于噪聲估計存在一定的困難,當語音受到非平穩(wěn)噪聲破壞時,這些單通道語音增強算法的性能就會下降。雙麥克風降噪算法在提升語音質量和可理解性方面表現(xiàn)較好,為抑制語音中的平穩(wěn)或非平穩(wěn)噪聲提供了一種解決方案。此外,與麥克風陣列語音增強技術相比,雙通道語音增強算法易于實現(xiàn),計算復雜度更低。
目前已經(jīng)有多種較為流行的雙麥克風降噪算法。在參考文獻[8]中,作者提出了一種利用復譜平面的雙麥克風語音增強方法,該方法適用于免提通信系統(tǒng),比原來的復譜圓質心方法效果更好。Koulal 等人[9]提出了一種基于互功率譜密度的雙通道語音增強算法,該方法采用改進的最小跟蹤(IMT)技術進行噪聲功率譜密度的估計。在參考文獻[10]中,作者描述了兩種基于譜減法的雙麥克風降噪算法,這兩種算法利用了兩路信號的功率譜密度和互功率譜密度。此外,在文獻[11]中提出了一種改進的基于相干函數(shù)的算法。該方法適用于兩個排列緊湊的麥克風,不需要估計噪聲統(tǒng)計特征值。此外,Kim 等在文獻[12]中提出了一種基于雙麥克風差分的噪聲方差估計來進行降噪,該方法利用了信噪比估計,并在不同的噪聲條件下證明了其有效性。最后,Nabi 等人[20]中提出了一種利用卡爾曼濾波的雙麥克風降噪算法,該算法利用了相干函數(shù)和卡爾曼濾波器。
結合前面引用的工作,本文提出了一種基于相干函數(shù)的雙通道降噪算法。該方法對于兩個距離很近的麥克風,仍有較強的降噪能力,并且不需要像文獻[12]中提出的算法那樣進行噪聲統(tǒng)計估計。此外,為了提高語音質量,本文提出了基于相干算法和仿生小波變換相結合的算法。本文的組織結構如下,第1 節(jié)給出了原始相干函數(shù)和估計相干函數(shù)。第2 節(jié)描述了我們所提出的使用卡爾曼濾波的仿生小波算法和所提出的雙通道語音增強方法。第3 節(jié)介紹了在語音質量感知評價(Perceptual Evaluation of Speech Quality,PESQ)、時域波形和譜圖分析方面,與其他方法相比,本文所提出方法的性能有所提升。最后,對本文進行了總結。
本節(jié)介紹兩個輸入信號的相干函數(shù)。假設兩個麥克風放置在噪聲源和語音源互相分離的噪聲環(huán)境中。延時補償后,兩個輸入信號表示如下:
式中:s1(m)和s2(m)分別表示第一個和第二個麥克風的語音信號,類似的,n1(m)和n2(m)則表示噪聲信號。上述兩個信號的傅里葉變換可以表示為:
式中:k表示幀序號,ω表示頻率。ω=2πd/L,L為幀長。相干函數(shù)是通過使用兩個麥克風來估計語音信號的一種準則[13-14]。上述兩個信號之間的相干函數(shù)的計算公式為:
Px1x2表示兩路信號的互功率譜,Px1和Px2分別表示信號的自功率譜。
相干函數(shù)的大小用于收集有關噪聲或語音存在的信息。因此,當幅值趨近于零時,語音占主導地位,當幅值趨近于一時,噪聲占主導地位。本文使用了兩個緊密間隔的麥克風的配置。因此,干擾信號是高度相關的,特別是低頻[22]。在這種情況下,當噪聲擴散時,相干函數(shù)為實值,可解析表示為:
圖1 麥克風位置布局圖
根據(jù)圖中的設計,相干函數(shù)可以表示為:
式中:d為第一個麥克風與第二個麥克風之間的間距,c為聲速,fs為采樣頻率,文中設置為16 kHz,α為入射角。相干函數(shù)一般可以用語音信號和噪聲信號和的形式來表示,所以可以定義為:
式中:Ps1、Ps2、Pn1、Pn2分別表示語音源s1和s2的自功率譜,噪聲源n1和n2的功率譜。
兩路麥克風信號的信噪比(SNR)可以表示如下:
因此,文獻[11]中定義的估計相干函數(shù)可以表示為:
式中:τ=fs(d/c)=SNR1=SNR2,這是因為兩個麥克風距離很近時,信噪比的值幾乎相同。
仿生小波變換(Bionic Wavelet Transform,BWT)是一種融合了主動耳蝸[23]機制的小波變換。此外,仿生小波變換描述了一個良好的能量規(guī)范,在其系數(shù)中表現(xiàn)出良好的語音分離性能。該算法應用于語音增強領域[15-16],優(yōu)于其他單麥克風降噪算法,如:Ephrahim 和Malih 濾波器[17],譜相減[3]和離散小波變換[18]。
由于卡爾曼濾波器能對系統(tǒng)狀態(tài)[4]進行最優(yōu)估計,所以其成為了解決隨機系統(tǒng)中線性MMSE 問題的常用濾波器。如圖2 所示,本問題所提出的降噪算法使用了卡爾曼濾波器,如文獻[19]所示,該降噪算法是受到維納濾波器在仿生小波變換中應用降噪的啟發(fā)。從圖2 中可以看出,卡爾曼濾波器是應用于仿生小波變換系數(shù)對噪聲信號的應用。然后,利用仿生小波變換的逆變換得到增強信號。
圖2 基于仿生小波變換的卡爾曼濾波降噪算法
圖2 中k1,k2,…,k18是輸入信號的18 個仿生小波系數(shù)是經(jīng)過卡爾曼濾波后得到的18個增強信號的仿生小波系數(shù)。
本文提出的雙麥克風降噪算法分為兩步。首先是文獻[11]中提出的基于相干函數(shù)的雙通道語音增強方法。在這一步中,通過在x2(m)上應用了雙麥克風降噪系統(tǒng)均使用過的延遲補償。然后,在每幀內用漢寧窗對兩個噪聲信號進行處理,并對每個信號進行75%的重疊和快速傅立葉變換(FFT)。接下來,計算公式(10)中定義的估計相干函數(shù),從而計算最終的降噪增G(ω,k)。最后通過IFFT 和拼接疊加算法來得到時域增強信號。
第二步是基于小波變換和卡爾曼濾波的降噪算法。將該算法添加到基于相干的方法中,可以提高已經(jīng)增強的語音信號的語音質量。圖3 展示了本文提出的降噪算法的原理框圖,圖中的仿生小波變換卡爾曼濾波即為圖2 中的原理。
圖3 雙麥克分語音增強算法原理框圖
本節(jié)將對提出的算法與其他雙麥克風語音增強算法進行比較。使用語音質量感知評估(Perceptual Evaluation of Speech Quality,PESQ)分數(shù)來評估語音的客觀質量。PESQ 分數(shù)范圍為-0.5 到4.5[21],分數(shù)越高語音的可懂度和質量越好。同時,使用了語譜圖和時域波形對信號進行評估。語譜圖分析能較好地反映殘余噪聲結構和降噪算法產生的語音失真,在信噪比為5 dB 的情況下,兩個麥克風距離為2 cm 時,對所提算法進行了MATLAB 代碼測試。通過在clean HINT 數(shù)據(jù)集中添加不同噪音類型來模仿真實的噪聲環(huán)境,語音數(shù)據(jù)的采樣頻率為16 kHz,幀長為20 ms,幀疊75%,F(xiàn)FT 使用的窗函數(shù)為漢寧窗,將本文所提出方法的增強語音信號與基于相干函數(shù)的方法[11]以及基于相干函數(shù)和卡爾曼濾波算法[20]增強的語音信號進行了比較。
圖4 為在單個135°的噪聲源干擾情況對語音進行降噪時,不同方法下增強信號的PESQ 評分。實驗結果表明,該算法在該種噪聲場景下的PESQ評分都取得了較好的結果。此外,該算法相較對比方法的PESQ 分數(shù)平均提高了0.2。
圖4 單個噪聲源(135°方向,信噪比為0 dB)下增強語音的PESQ 結果對比
圖5 為兩個置于90°和180°的噪聲源對語音干擾的情況下,進行降噪時多種方法的增強信號的PESQ 評分??梢悦黠@看出,該算法在該種噪聲環(huán)境下的性能優(yōu)于其他算法。此外,本文提出的的算法相較于對比方法,PESQ 評分提高了0.3 以上。
圖5 兩個單噪聲源(90°和180°方向,信噪比為0 dB)下增強語音的PESQ 結果對比
噪聲信號和其他增強信號的時域波形如圖6 所示,在信噪比為5 dB 時,語音被噪聲削弱,本文所提出的方法相較基于相干函數(shù)和卡爾曼濾波的方法抑制殘留噪聲的效果更好。
圖6 純凈語音、帶噪語音和不同方法的增強語音時域波形對比圖
圖7 展示了在信噪比為5 dB 時,純凈信號、帶噪信號以及增強信號的語譜圖。實驗結果表明,該方法比基于相干函數(shù)和卡爾曼濾波的方法能更有效地降低殘余噪聲,且語音失真程度較弱,特別是語音的一些低頻區(qū)域。基于以上對不同信號的語譜圖分析和PESQ 評分所得的結果基本一致,證明了本文所提出算法的優(yōu)越性。
圖7 純凈語音、帶噪語音和不同方法的增強語音語譜圖
本文介紹了一種基于相干函數(shù)和仿生小波變換的雙麥克風語音增強算法。通過對輸入信號應用仿生小波變換得到仿生小波系數(shù),然后采用Kalman 濾波,得到增強后的仿生小波系數(shù)。該算法可以在不同的噪聲環(huán)境下利用兩個排列緊湊的麥克風來處理噪聲信號。該方法在PESQ 評分、時域波形和頻譜分析等方面取得了良好的效果。本文提出的方法性能良好,運算復雜度較低,易于實現(xiàn),可用于移動的低功耗音頻設備。