張君昌,張 丹,崔 力
(西北工業(yè)大學(xué)電子信息學(xué)院,陜西西安 710129)
一種魯棒自適應(yīng)閾值的語音端點檢測方法
張君昌,張 丹,崔 力
(西北工業(yè)大學(xué)電子信息學(xué)院,陜西西安 710129)
針對基于特征的語音端點檢測方法在低信噪比及非平穩(wěn)噪聲下檢測性能急劇下降的問題,提出了一種魯棒自適應(yīng)閾值的語音端點檢測方法.采用表征較長時段語音譜平坦度的長時段語音譜平坦度特征,并融合Burg譜估計,與其他傳統(tǒng)語音特征相比,提高了語音與噪聲的區(qū)分度;能更準(zhǔn)確地反映背景噪聲特征,克服了固定閾值適應(yīng)性較差的缺陷,從而更大程度上提高了檢測的準(zhǔn)確率.仿真結(jié)果表明,該方法在低信噪比及非平穩(wěn)噪聲下,檢測準(zhǔn)確率更高,說明該方法在低信噪比及非平穩(wěn)噪聲環(huán)境下魯棒性更好.
低信噪比;非平穩(wěn)噪聲;語音端點檢測;長時段信號譜平坦度;Burg譜估計
語音端點檢測是指從一段帶噪語音信號中區(qū)分出語音段和噪聲段,準(zhǔn)確地定位語音的起始點和結(jié)束點.它是語音識別系統(tǒng)的一個關(guān)鍵技術(shù).有效的語音端點檢測技術(shù)不僅能減少系統(tǒng)的處理時間、提高系統(tǒng)的實時性,而且能排除無聲段的干擾,從而使后續(xù)的識別性能得以較大提高.端點檢測的有效性在某種程度上甚至直接決定了整個識別系統(tǒng)的成敗.
目前語音端點檢測方法大致可以分為兩大類:一類是基于模式識別的方法[1],因為其自身復(fù)雜度高,運算量大,因此很難在實時處理系統(tǒng)中使用;另一類是基于特征的方法[2-3],根據(jù)語音與噪聲的不同特征來達到端點檢測的目的,該方法以其簡單、快速的優(yōu)點被廣泛地研究和應(yīng)用.傳統(tǒng)的基于特征的端點檢測方法有很多,但都有其局限性[4],如:基于短時平均幅度的端點檢測方法雖然簡單,但難以區(qū)分弱摩擦音與結(jié)尾時的鼻音;基于短時平均過零率的端點檢測方法雖然對清音的檢測效果較好,但其抗噪聲性能較差;基于譜熵的端點檢測方法由于語譜的固有特征能夠有效地區(qū)分語音和噪聲,但對清音部分的檢測效果較差,尤其是實際應(yīng)用中的“毛刺”問題.后期,有學(xué)者提出了更復(fù)雜的結(jié)合多個特征的語音端點檢測方法,如目前應(yīng)用較廣的基于譜熵、短時過零率與倒譜距離的檢測方法,利用各自特征參數(shù)的優(yōu)點,提高檢測的準(zhǔn)確率.但是,以上提到的語音特征都是在短時幀(20 ms)的基礎(chǔ)上分析的,假定背景噪聲在短時間內(nèi)是穩(wěn)定的,并且語音端點的判決也是在每一幀信號上進行的,這就導(dǎo)致了對應(yīng)的端點檢測方法在低信噪比,尤其是非平穩(wěn)噪聲環(huán)境下較差的檢測性能.
近年來,Prasanta等人提出了基于長時段信號變化率測度(Long-Term Signal Variability measure, LTSV)的語音端點檢測方法[5],該方法在信噪比低于5 d B環(huán)境下的檢測性能有了一定的提高,在信噪比高于5dB環(huán)境下,其檢測性能趨于飽和.為了更好地改善語音端點檢測方法的識別性能,文獻[6]提出了一種基于長時段信號譜平坦度(Long-term Spectral Flatness Measure,LSFM)特征的語音端點檢測方法,該方法在一個長時窗(如30幀)下檢測輸入信號的譜平坦度特征,利用譜的變化特征來區(qū)分語音和噪聲.該方法在低信噪比及非平穩(wěn)噪聲下的檢測性能有了較大提高.然而,進一步的分析發(fā)現(xiàn),文獻[6]采用了經(jīng)典的Welch譜估計法,其頻率分辨率低,偏差較高,會導(dǎo)致語音與噪聲的誤分率提高,因而筆者提出了一種融合Burg譜估計與LSFM特征的語音端點檢測方法,有效地降低了語音與噪聲的誤分率,在低信噪比及復(fù)雜噪聲環(huán)境下檢測性能更好,魯棒性更強.
1.1 LSFM特征
LSFM特征參數(shù)在第m幀的值Lx(m)利用輸入信號x(n)和包括本幀在內(nèi)的前R幀信號的功率譜S(n, ωk)來計算.公式如下:
其中,G(m,ωk)與A(m,ωk)分別為功率譜S(n,ωk)的幾何平均值與算術(shù)平均值,而信號的功率譜S(n,ωk)由譜估計方法得到.
當(dāng)且僅當(dāng)S(n,ωk)一直不變時,它的幾何平均數(shù)G(m,ωk)和算術(shù)平均數(shù)A(m,ωk)才相等;在其他情況下,G(m,ωk)永遠小于A(m,ωk).根據(jù)式(1),Lx(m)的范圍為(-∞,0].
假設(shè)輸入信號x(n)是平穩(wěn)噪聲,即x(n)=N(n),因為N(n)是平穩(wěn)的,理想狀態(tài)下噪聲頻譜不隨時間變化,假定噪聲譜已知SN(n,ωk)=σk,代入式(1),可得LN(m)=0.
如果輸入信號x(n)為含加性平穩(wěn)噪聲語音,即x(n)=S(n)+N(n),假定噪聲與語音是不相關(guān)的,輸入信號的功率譜為SS+N(n,ωk)=Ss(n,ωk)+σk,其中Ss(n,ωk)為語音信號功率譜.由式(1)得
由式(2)知,輸入信號的LSFM特征值與信噪比有緊密聯(lián)系:如果信噪比RSNk(n)?1,即認(rèn)為輸入信號為噪聲情況,在任意頻率點ωk處,則都有LS+N(m)≈0;如果含噪語音信號具有較高的信噪比,語音信號在不同頻率處信噪比相差很大,則信號強度在不同頻點處仍有較大波動,因此,LS+N(m)顯著小于零.
當(dāng)輸入信號是非平穩(wěn)噪聲時,Lx(m)由噪聲信號的類型及其非平穩(wěn)度決定,理論分析變得很困難.然而,實驗仿真表明:如果信號頻譜S(n,ωk)隨n的變化而幅度波動較小,那么Lx(m)趨近于零;如果S(n, ωk)在一些頻點變化較大,在另外一些頻點變化較小,那么Lx(m)會是較小的值;當(dāng)x(n)=S(n)+N(n)時,輸入信號在頻點ωk處的功率譜S(n,ωk)由信噪比RSNk決定;含噪語音信號的LSFM值遠小于噪聲信號的LSFM值.因此基于LSFM特征的端點檢測方法在非平穩(wěn)噪聲情況下同樣具有較好的檢測性能.
2.2 譜估計方法選擇
一種有效的譜估計方法可以很好地估計出信號的功率譜,從而能更好地表征特征參數(shù)的區(qū)分性能.所以,譜估計方法的選擇是影響語音端點檢測結(jié)果的一個重要因素.譜估計方法分為兩大類:經(jīng)典譜估計和現(xiàn)代譜估計.現(xiàn)代譜估計是針對經(jīng)典譜估計的方差性能較差、頻率分辨率較低等缺點提出的,參數(shù)模型法是現(xiàn)代譜估計的主要內(nèi)容,應(yīng)用最廣泛的是自回歸(Auto Regressive,AR)模型,它是人們根據(jù)對過程的先驗知識,建立一個近似實際過程的模型,然后利用觀測數(shù)據(jù)或自相關(guān)函數(shù)來估計假設(shè)的模型參數(shù),最后進行識別或譜估計.因為在這個過程中沒有用到窗函數(shù),所以,可以消除掉窗函數(shù)的畸變影響,得到比經(jīng)典譜估計更高的頻率分辨率.對比其他的AR估計方法,Burg法求出的AR功率譜密度估計非常逼近于真值.另外,它能確保產(chǎn)生一個穩(wěn)定的AR模型,并且能高效計算.因此文中采用Burg算法進行譜估計.
2.3 融合Burg譜估計與LSFM特征語音端點檢測判決
融合Burg譜估計與LSFM特征的語音端點檢測方法的系統(tǒng)框圖如圖1所示.
圖1 語音端點檢測系統(tǒng)框圖
輸入信號首先用漢寧窗加窗分幀,漢寧窗寬度為20 ms,幀移10 ms,然后采用Burg譜估計估計輸入信號的功率譜.在第l幀窗口上,Lx(l)由當(dāng)前幀及前R-1幀信號計算得到,Lx(l)與判決閾值TTHR(l)相比較,初次判決前R幀信號是否為語音段.結(jié)果用Dl來表示,如果Dl=0,則說明結(jié)束于第l幀的前R幀信號是噪聲段;如果Dl=1,則說明是語音段.
語音端點檢測的最終判決如圖2所示,因為幀移為10 ms,所以每10 ms會有一個L值,每10 ms會判決一次,在第l幀窗口上,總共采集R+1次判決Dl,Dl+1,…,Dl+R+1,然后這R+1次判決進行投票表決,如果有80%是語音段,則認(rèn)為10 ms的幀移是語音信號,否則認(rèn)為是噪聲.
圖2 語音端點檢測系統(tǒng)端點判決
2.4 自適應(yīng)閾值選擇
需要說明的是,Lx(m)總是小于等于零,為了方便對比,選擇作為觀測值.
要確定在第m幀的判決閾值TTHR(m),進而來判斷結(jié)束于第m幀的長時窗信號為語音還是噪聲,這是一個統(tǒng)計決策問題.需要兩個緩沖器BN(m)與BS+N(m),BN(m)存儲在過去100個長時窗中初次判決為噪聲的值,BS+N(m)存儲在過去100個長時窗中初次判決為語音段的值.不失一般性,假定BN(m)與BS+N(m)均服從正態(tài)分布.
損失函數(shù)以誤分率為基準(zhǔn),即要選擇最佳的TTHR(m)使損失函數(shù)H取最小值,根據(jù)貝葉斯估計計算得最佳閾值為
在仿真試驗中,取α=0.55時,檢測的準(zhǔn)確率最高.為了初始化閾值,采取如下方法:
得到第1個Lx(m)值需要R幀信息,即0.3 s.在實驗仿真中,通常假設(shè)測試信號最初的1.3 s是背景噪聲,這樣就可以得到100個長時窗下初次判決為噪聲段的值,存為BINL,同樣假定其服從正態(tài)分布,令μN和分別為BINL的均值和方差.初始閾值設(shè)定為(仿真表明p=3性能最佳)
圖3 BN(m)和BS+N(m)示意圖
為了說明該算法的可行性和優(yōu)越性,在MATLAB平臺上做了相應(yīng)的實驗仿真.隨機地從TIMIT語料庫中選擇一段純凈語音,與采自NOISEX-92的5種不同類型的噪聲(白噪聲、pink噪聲、汽車噪聲、坦克噪聲和機槍噪聲)合成多段信噪比不同的含噪語音,然后利用不同方法對其中的語音端點進行檢測.
汽車噪聲環(huán)境下,信噪比為-10dB時,基于Welch譜估計與基于Burg譜估計的LSFM方法檢測結(jié)果如圖4所示.
圖4 -10dB汽車噪聲下基于兩種譜估計的LSFM方法的檢測結(jié)果
從圖4可以看出,基于Welch譜估計的LSFM方法在采樣點為0.84×104~0.90×104段內(nèi)將噪聲誤判為語音,在采樣點為1.64×104~1.68×104段內(nèi)將語音誤判為噪聲,而基于Burg譜估計的LSFM方法則無誤判.相比Welch譜估計,基于Burg譜估計的LSFM方法檢測準(zhǔn)確率明顯提高.
通過實驗仿真,統(tǒng)計出當(dāng)信噪比為-10dB時,雙門限法、LTSV法、基于Welch譜估計的LSFM法與基于Burg譜估計的LSFM法這4種語音端點檢測方法在5種不同噪聲環(huán)境下的檢測準(zhǔn)確率,如表1所示.
表1 4種方法在不同噪聲類型下檢測準(zhǔn)確率(-10dB) %
為了能更好地說明問題,統(tǒng)計了當(dāng)信噪比分別為-10dB,-5dB,0 B,5dB,10dB時,上述4種語音端點檢測方法的檢測準(zhǔn)確率的平均值,如圖5所示.
圖5 不同端點檢測方法對比
從表1與圖5中可以看出,在低信噪比環(huán)境下傳統(tǒng)的雙門限法已經(jīng)失效,LTSV法與基于Welch譜估計的LSFM法的檢測性能有了較大提高,但顯然基于Burg譜估計的LSFM方法更勝一籌,其對低信噪比下平穩(wěn)噪聲(白噪聲)與非平穩(wěn)噪聲(汽車噪聲、坦克噪聲等)均有良好的檢測性能,即使在機槍噪聲環(huán)境下也能體現(xiàn)出其優(yōu)越性,驗證了基于Burg譜估計的LSFM方法在低信噪比及復(fù)雜噪聲環(huán)境下進行語音端點檢測的有效性和魯棒性.
筆者提出了一種融合Burg譜估計與LSFM特征的語音端點檢測方法,該方法采用Burg譜估計,提高了LSFM特征的區(qū)分度;并采用了一種自適應(yīng)閾值,根據(jù)貝葉斯估計來調(diào)整判決段的閾值,進一步提高了檢測的準(zhǔn)確率.大量實驗仿真表明:在低信噪比和非平穩(wěn)噪聲環(huán)境下,該方法的檢測準(zhǔn)確率達到了約88%以上,而傳統(tǒng)基于特征的語音端點檢測方法只有約70%,說明融合Burg譜估計與LSFM特征的語音端點檢測方法在低信噪比及非平穩(wěn)噪聲下具有更好的魯棒性.而值得注意的是,使用長時窗進行信號分析會造成語音端點判決的延時,因此在系統(tǒng)檢測延遲與系統(tǒng)檢測性能方面需要一個良好的折中方案,這也是下一步研究的重點.
[1]Suh Y,Kim H.Multiple Acoustic Model-based Discriminative Likelihood Ratio Weighting for Voice Activity Detection [J].IEEE Signal Processing Letters,2012,19(8):507-510.
[2]Yang X L,Tan B H.Comparative Study on Voice Activity Detection Algorithm[C]//Proceedings of IEEE International Conference on Electrical and Control Engineering.Piscataway:IEEE Computer Society,2010:599-602.
[3]Von Zeddelmann D.A Feature-based Approach to Noise Robust Speech Detection[J].ITG-Fachbericht,2012(236):243-246.
[4]江亮亮,楊付正,任光亮.利用兩級時域聯(lián)合的包層語音質(zhì)量評價模型[J].西安電子科技大學(xué)學(xué)報,2013,40(3):14-19. Liangliang Jiang,Fu Zheng,Guangliang Ren.Packet-layer Model for Voice Quality Assessment Using Two-level Temporal Pooling Scheme[J].Journal of Xidian University,2013,40(3):14-19.
[5]Ghosh P K,Tsiartas A,Narayanan S.Robust Voice Activity Detection Using Long-term Signal Variability[J].IEEE Transactions on Audio,Speech,and Language Processing,2011,19(3):600-612.
[6]Ma Y N,Nishihara A.Efficient Voice Activity Detection Algorithm Using Long-term Spectral Flatness Measure[J]. EURASIP Journal on Audio,Speech,and Music Processing 2013,2013(1):21.
(編輯:王 瑞)
Robust adaptive threshold speech endpoint detection method
ZHANG Junchang,ZH ANG Dan,CUI Li
(School of Electronic Information,Northwestern Polytechnical University,Xi’an 710129,China)
Due to the fact that traditional Speech Endpoint Detection methods’performance degrads greatly in a low signal-to-noise ratio and nonstationary noise,a novel robust adatpive threshold endpoint detection method is proposed.First of all,the LSFM parameter is employed as the distinctive feature and the Burg spectrum estimation is applied to figure out the power spectrum,which can enhance the discriminative ability in classifying speech signals and noise,compared with the traditional speech features.Furthermore, an adaptive threshold based on the Bayes estimation criterion is involved in the final judgment,which overcomes the defect of the fixed threshold in adaptability and improves the detection performance to a greater degree.Simulation results show that compared with the traditional feature-based Speech Endpoint Detection methods,the accuracy of the proposed method has a high accuracy rate,which proves that the new method has a better robust performance in a low SNR and nonstationary noise.
low signal-to-noise ratio;nonstationary noise;speech endpoint detection;long-term spectral flatness measure;Burg spectrum estimation
TN702
A
1001-2400(2015)05-0115-05
2014-04-25< class="emphasis_bold">網(wǎng)絡(luò)出版時間:
時間:2014-12-23
陜西省自然科學(xué)基金資助項目(2011JQ8038)
張君昌(1969-),男,副教授,博士,E-mail:zhangjc@nwpu.edu.cn.
http://www.cnki.net/kcms/detail/61.1076.TN.20141223.0946.020.html
10.3969/j.issn.1001-2400.2015.05.020