李蓉 李宇
(1.廣東農(nóng)工商職業(yè)技術(shù)學院計算機系 2.廣東藥學院信息工程學院)
語音處理系統(tǒng)一般運行在復(fù)雜的環(huán)境噪聲中。其中語音活動檢測(voice activity detection,VAD)用于語音采集后信號有音與無音的檢測,應(yīng)用非常廣泛,如各種電話終端、IP電話、音視頻會議等。它在移動通話中可以控制射頻模塊、語音編解碼的間斷性工作,以節(jié)省帶寬和降低能耗;在語音識別時,可以為特征提取提供有效的信號區(qū)間;在 GSM/GPRS移動數(shù)據(jù)通信中,文獻[1]利用VAD在無通話時段自適應(yīng)傳輸數(shù)據(jù),節(jié)省帶寬的額外開銷。
近年來,多種方法策略用來改善帶噪語音信號的檢測。Sohn[2]把語音活動檢測可以看作一個二元假設(shè)檢驗問題,提出基于統(tǒng)計模型似然比檢測的VAD方法,其中噪聲和語音的統(tǒng)計分布都需要考慮。Cho[3]對該方法進行了平滑改進。Ramirez[4]考慮幀間相關(guān)性,對該方法擴展到多獨立觀察變量情況。Gazor[5]則先對含噪語音進行DCT去相關(guān)性,并應(yīng)用HMM描述檢測的狀態(tài)轉(zhuǎn)換過程,其與Sohn的最大區(qū)別是采用 Laplacian作為語音的統(tǒng)計分布。利用更佳的語音統(tǒng)計模型可以獲得更好的檢測性能,最近結(jié)合GARCH濾波與Gamma分布[6]有應(yīng)用于VAD。以上基于統(tǒng)計模型類方法需要分別計算每幀信號中語音與噪聲的統(tǒng)計模型參數(shù),因此算法復(fù)雜度高于G.729 Annex B[7]
另一類則由Davis等人[8]提出的基于信噪比測量的自適應(yīng)閾值VAD方法。該方法在非語音時段基于信噪比測量的統(tǒng)計模型更新閾值(供下一幀判決使用),以比較當前幀時輸入信號與判決閾值的大小作為檢測活動語音的依據(jù)。與基于似然比檢測方法相比,該方法考慮無語音時段噪聲信噪比測量的統(tǒng)計分布,而不是考慮語音信號的統(tǒng)計模型。對于該類方法,文獻[9]假設(shè)非平穩(wěn)噪聲(如 Babble噪聲)服從Rayleigh分布,并給出了判決閾值更新表達式。文獻[10]則采用倒譜閾值平滑估計噪聲頻譜取代Welch等方法,由于倒譜可以從語音處理系統(tǒng)內(nèi)的其它模塊復(fù)用獲得,節(jié)省了運算量。本文提出結(jié)合倒譜閾值平滑與瑞利模型的VAD方法,實驗表明該組合方法可以提高非平穩(wěn)噪聲下語音信號有音區(qū)域的檢測效果。
文獻[11]提出一種利用倒譜閾值平滑的非參數(shù)估計方法,可有效地計算平穩(wěn)信號的頻譜估計。
假定語音受到加性噪聲污染,并且語音信號和噪聲相互獨立,則含噪語音幀在短時傅立葉變換域表示如下:
其中S(k,i)與V(k,i)分別是第i幀時刻第k頻段的純潔語音與噪聲信號。假設(shè)輸入信號第k個倒譜kc的服從 ck均值與方差的正態(tài)分布。設(shè)第i幀時刻含噪語音信號的頻譜為 Pz(k,i) >0,?k,用周期圖對當前信號單元估計有
依據(jù)信號倒譜的定義,由周期圖獲得倒譜c(m,i)的一個估計
信號在第i幀時刻第k頻段的倒譜估計服從的高斯分布:
倒譜閾值估計方法就是尋找新的估計量,使得有更好的估計,從而有總方差V更小。可以通過UMPUT方法找到一個合理的閾值實現(xiàn)估計。對倒譜估計設(shè)置閾值:
其中μ起到控制虛警概率的作用。當N小于500時,建議對窄帶信號取2μ=,而對寬帶信號取μ=4;當N大于500時,建議對窄帶信號取μ=3,而對寬帶信號取5μ=。
噪聲信號頻譜的統(tǒng)計分布有明顯的不對稱拖尾特性,用瑞利模型可以近似其功率譜概率密度函數(shù)。利用上節(jié)的倒譜閾值估計方法分別獲得含噪語音的頻譜k, i)與噪聲的頻譜,定義信噪比測量:
信噪比測量實際上是信號的瞬時功率譜密度與噪聲均值的比率。VAD為了判定語音信號存在與否,在每幀信號考慮兩類假設(shè):H0表示當前信號是噪聲,而備用假設(shè)H1則表示當前信號為含噪語音信號。在兩種假設(shè)下,(k,i)φ分別表示為
當信噪比測量的平均值大于閾值的平均值時,初步檢測到的是語音(H1),相反為噪聲(H0)。最終判決需要后接一個時滯判決策略以降低錯誤拒絕率。在檢測過程中,一旦檢測出當前幀信號是噪聲,立即通過式(8)更新η(k,i),供1+i幀信號的比較判決使用。
在 VAD檢測實驗中,分別用倒譜閾值平滑與Welch方法估計噪聲頻譜,并分別用高斯模型與瑞利模型閾值更新準則后接相同時滯策略進行含噪語音信號的狀態(tài)檢測。實驗分別在3種不同噪聲、3種不同信噪比環(huán)境中評估基于倒譜閾值與瑞利模型閾值更新準則的VAD性能指標值。實驗用到的噪聲庫與語音數(shù)據(jù)及其格式設(shè)置與文獻[9]相同。除了用于信噪比測量方差進行時間指數(shù)平均的實驗中Welch方法以及其VAD中參數(shù)設(shè)置與文獻[9]相同。倒譜閾值方法的參數(shù)設(shè)置如表1所示。性能評估采用文獻[9]給出的5個客觀評測指標。
表1 利用倒譜閾值VAD方法的參數(shù)值
4種VAD組合實驗結(jié)果見表2、表3。其中表2是文獻[10]獲得的實驗結(jié)果,表3的組合3實驗結(jié)果引用文獻[9]。本文為了做實驗分析對比,加以引用。高斯白噪聲環(huán)境下,4種組合中組合1的Correct指標最高。采用瑞利模型的組合3與組合4得分都低于采用高斯模型的 VAD,進一步驗證了瑞利模型不適合用于描述高斯信號的統(tǒng)計分布。采用倒譜閾值估計方法組合2與4分別稍低于用Welch方法的組合1與3。在Babble噪聲評估時,組合4(本文方法)超越了前2種組合。其與組合3相比,在5 dB和10 dB下Correct指標都有1%以上的提高,但在15 dB卻有稍微下降。瑞利模型的引入提高了對該類具有拖尾統(tǒng)計特性噪聲的整體檢測正確率,對比組合2有3%以上的提高。對于 factory1噪聲環(huán)境下,組合 4在各個信噪比中Correct值都優(yōu)于前3種組合,有2%以上的優(yōu)勢。
表2 Gaussan準則檢測指標值對比[10]
表3 Rayleigh準則檢測指標值對比
總的來看,組合4倒譜瑞利在非對稱統(tǒng)計分布噪聲環(huán)境下的檢測優(yōu)于前3種組合,并且用倒譜閾值估計頻譜算法復(fù)雜度低[10],但單純從倒譜閾值頻譜估計方法來講,其在高斯噪聲,高信噪比 Babble噪聲環(huán)境下都沒有取得占優(yōu)的檢測效果,說明該方法中的閾值設(shè)置并沒有考慮具體信號的統(tǒng)計特性。
本文提出一種結(jié)合倒譜閾值頻譜估計與瑞利分布模型的VAD方法。該方法可以復(fù)用語音系統(tǒng)的倒譜運算結(jié)果,節(jié)省了計算開銷,采用瑞利模型更適合與非平穩(wěn)噪聲環(huán)境下的判決閾值更新。實驗表明該VAD在非平穩(wěn)噪聲環(huán)境中優(yōu)于基于高斯模型的2種組合,絕多數(shù)非平穩(wěn)噪聲下優(yōu)于Welch-瑞利(組合3),僅在15 dB Babble噪聲略低。實驗也反映出倒譜閾值頻譜估計方法的VAD在某些情況下檢測率差于其它組合的現(xiàn)象。針對該現(xiàn)象,將研究倒譜閾值頻譜估計方法對含噪語音信號、非平穩(wěn)信號頻譜統(tǒng)計特性與該方法中閾值的確定問題。
[1] Huang H J, Su S L, Chen J H. Design and performance analysis for data transmission in GSM/GPRS system with voice activity detection[J]. IEEE Trans. Veh. Technology, 2002, 51(4)∶648-656.
[2] Sohn J, Kim N S, Sung W. A statistical model-based voice activity detection[J]. IEEE Signal Processing Letters, 1999,6(1)∶ 1-3.
[3] Cho Y D, Kondoz A. Analysis and improvement of a statistical model-based voice activity detector[J]. IEEE Signal Processing Letters, 2003,8(10) ∶ 276-278.
[4] Ramírez J, Segura J C, Benítez C, et al. A statistical voice activity detection using a multiple observation likelihood ratio test[J]. IEEE Signal Processing Letters, 12(10)∶ 689-692.
[5] Gazor S, Zhang W. A soft voice activity detector based on a laplacian-gasussian model[J]. IEEE Trans. on Audio, Speech,and Language Processing, 2003, 11(5)∶ 498-505.
[6] Tahmasbi R, Rezaei R, A soft voice activity detection using GARCH filter and variance gamma distribution[J]. IEEE Trans. on Audio, Speech, and Language Processing,2007,15(4)∶1129-1134.
[7] ITU-T Recommendation G.729, Annex B.[R], 1996.
[8] Davis A, Nordholm S, Togneri R. Statistical voice activity detection using low-variance spectrum estimation and an adaptive threshold[J]. IEEE Trans. on Audio, Speech, and Language Processing, 2006, 14(2)∶ 412-424.
[9] 李宇,陳建銘,譚洪舟,等.基于Rayleigh噪聲統(tǒng)計分布的有音區(qū)檢測[J].信號處理,2009,25(11)∶1809-1813.
[10] 李宇,郭雷勇,譚洪舟.基于噪聲倒譜閾值頻譜估計的語音活動檢測[J].計算機工程,2011,37(14)∶140-142.
[11] Stoica P, Sandgren N. Total-variance reduction via thresholding∶ application to cepstral analysis[J]. IEEE Transactions on Signal Processing, 2007, 55(1)∶ 66-72.