趙發(fā)
(安徽工程大學,安徽 蕪湖 241000)
基于多窗譜估計譜減法和能熵比法的語音端點檢測算法
趙發(fā)
(安徽工程大學,安徽 蕪湖 241000)
語音端點檢測是語音處理中非常關鍵的一個環(huán)節(jié),目前主要的語音端點檢測算法都側(cè)重于語音特征參數(shù)的提取而忽略了之前的語音增強。論文提出一種基于多窗譜估計譜減法和能熵比的語音端點檢測復合算法,該算法利用多窗譜估計譜減法將有噪聲環(huán)境下的語音信號減噪,提高性噪比,達到語音增強的效果,再結(jié)合能熵比法進行端點檢測。仿真結(jié)果表明,算法在低信噪比情況下,可以提高語音端點檢測的正確率。
多窗譜估計;譜減法;能熵比;端點檢測
語音端點檢測屬于語音信號處理的范疇[1],是語音識別、語音合成等語音應用方面非常關鍵的一個環(huán)節(jié)[2];它是指從一個連續(xù)的語音流中檢測出有效的語音段,包括檢測出有效語音的起始點和結(jié)束點。
現(xiàn)在的語音端點檢測算法很多,但是主要的方法都是基于特征參數(shù)的提取,如基于短時能量和短時過零率的雙門限法、倒譜法、譜熵法[3-6]等,這些方法在針對實驗室高信噪比語音信號端點檢測時能取得較好的效果,但是當在更真實自然的帶噪聲語音環(huán)境中,由于信噪比的降低,信號的特征參數(shù)提取變得困難,這時端點檢測的性能將急劇下降。針對這種低信噪比的帶噪語音信號,目前又提出一些改進檢測算法,如基于短時能量和過零率相結(jié)合的能零比法,基于頻譜方差與譜減法的語音端點檢測算法,基于短時能量和譜熵相結(jié)合的能熵比法等。但以上算法都側(cè)重于語音特征參數(shù)的提取,而對之前的語音增強工作有所忽視,這對低信噪比下的語音端點檢測性能將會產(chǎn)生一定的影響。
本文提出一種基于多窗譜估計譜減法和能熵比法的語音端點檢測算法改進算法,本算法通過多窗譜估計譜減法將有噪聲環(huán)境下的語音信號減噪,提高性噪比,達到語音增強的效果,之后利用能熵比法進行語音端點檢測。仿真實驗結(jié)果表明基于多窗譜估計的譜減法和能熵比的復合算法比單純的能熵比法在低信噪比的情況下檢測準確率有了很大的提高。
譜減法[7]是利用語音信號的短時平穩(wěn)性,從帶噪語音信號中估算噪聲的短時譜,然后利用帶噪語音短時譜減去噪聲的短時譜,從而提高帶噪語音的信噪比,達到語音信號的增強效果。
設帶噪語音信號的時間序列為x(n),進行加窗分幀后的第i幀帶噪語音信號為xi(m),幀長為N,任何一幀語音信號xi(m)做DFT后為:
對Xi(k)求出每個分量的幅值和相角,幅值是,相角是
在譜減中要把這兩組數(shù)給予保存。
已知前導無話段(噪聲段)時長為IS,對應的幀數(shù)為NIS,可以求出該噪聲段的平均能量值為
譜減算法為
式中,a和b是兩個常數(shù),a稱為過減因子,b稱為增益補償因子。
圖1 譜減法的算法示意圖
多窗譜估計譜減法[8]是在譜減法的基礎上提出的一種改進譜減法,譜減法通過一個窗來求出幅度譜及相位譜,而多窗譜估計譜減法是通過多個相互正交的數(shù)據(jù)窗分別來求直接譜,然后通過求多個直接譜的平均值來得到譜估計,這樣就可以得到比較小的估計方差值。
多窗譜定義如下:
x(n)為數(shù)據(jù)序列;N為序列長度;L為數(shù)據(jù)窗長度;ak(n)為第k個數(shù)據(jù)窗并滿足:
多窗譜估計譜減法的算法示意圖如下:
圖2 多窗譜估計譜減法的算法示意圖
通過圖2與圖1的比較可知多窗譜估計譜減法是在分幀后進行多窗譜功率譜計算的基礎上,分別計算了平滑功率譜和噪聲平均功率譜,從而導出譜減增益因子,利用譜減因子然后再進行譜減計算,這樣可以得到更好的語音增強效果。
3.1 能熵比法
3.1.1 對數(shù)能量[9]計算
設含噪語音信號的時間序列為x(n),加窗分幀后得到的第i幀語音信號為xi(m),幀長為N,則每一幀的能量為,在這里引入改進的能量計算:
式中,AMPi是計算出的每幀的能量;a是一個常數(shù)。由于有a的存在,當a取較大的數(shù)值時,AMPi幅值有劇烈變化時將在LEi中得到緩和,所以適當選擇a,可有助于區(qū)分噪聲和清音。
3.1.2 譜熵[10]計算
設含噪語音信號的時間序列為x(n),加窗分幀后得到的第i幀語音信號為xi(m),則經(jīng)過FFT變換后,設第k條譜線頻率分量fk的能量譜為Yi(m),則每個頻率分量的歸一化譜概率密度函數(shù)為
式中,pi(k)為第i幀第k個頻率分量fk所對應的概率密度。每個語音幀的短時譜熵為
3.1.3 能熵比計算
3.2 算法實現(xiàn)步驟
(1)給帶噪語音x(n)進行加窗分幀,采用漢明窗,相鄰幀有重疊,xi(m)為加窗分幀后的第i幀信號。
(2)對xi(m)進行FFT,并計算出幅度譜以及相位譜,同時在相鄰幀做平滑處理,計算出平均幅度譜
以i幀為中心前后各取M幀,共有2M+1幀進行平均。實際中可取M為1或2。
(3)對xi(n)進行多窗譜估計,計算平滑功率譜和噪聲平均功率譜,并計算出譜減增益因子。
(6)計算增強后信號的對數(shù)能量和譜熵,并由二者計算出能熵比。
(7)根據(jù)雙門限法進行端點檢測。
針對本文提出的復合算法,利用MATALB進行仿真并進行分析。首先在實驗室環(huán)境下錄制一段中文語音“電子信息工程”的純凈語音信號,采樣頻率為8KHz,利用漢明窗對此段語音進行加窗分幀,幀長為240點,幀移為80點,相鄰幀重疊160點;其次對信號進行預加重,提升語音在高頻部分的能量;最后給此語音信號添加加性高斯白噪聲來形成帶噪語音信號。圖3、圖4是基于多窗譜估計譜減法和能熵比法的復合算法在信噪比是0 dB和-5 dB時的端點檢測波形;圖5、圖6是沒有進行多窗譜估計譜減法的單純能熵比法的端點檢測波形。圖中的實線部分是有效語音的起始點,虛線部分是有效語音的結(jié)束點。比較在低信噪比條件下本文算法與單純用能熵比算法的端點檢測的性能。從圖3、圖4可以看出,經(jīng)過多窗譜估計譜減法后,語音信號的信噪比有了很大的提高,SNR=0 dB時,提高到11.01 dB;SNR=-5 dB時,提高到6.79 dB;同時,語音端點檢測效果也很好。而從圖5、圖6可以看出,在SNR=0 dB和-5 dB時,由于信噪比的下降,純能熵比的端點檢測效果受到很大影響,甚至出現(xiàn)了檢測錯誤的情況,如語音“電子信息工程”中的最后一個“程”字完全被漏檢。由以上分析可知,本文基于多窗譜估計譜減法和能熵比法的復合算法在處理低信噪比的帶噪語音信號時,首先通過多窗譜估計譜減法大大提高了信噪比,然后再利用能熵比進行端點檢測。這種復合算法的檢測效果比直接用能熵比法進行端點檢測的效果要好很多。
圖3 SNR=0 dB時的復合算法端點檢測
圖4 SNR=-5 dB時的復合算法端點檢測
圖5 SNR=0 dB時的能熵比算法端點檢測
圖6 SNR=-5 dB時的能熵比算法端點檢測
為了更好地比較本文算法與純能熵比算法的性能,通過端點檢測正確率[11]來進一步比較,端點檢測正確率定義為:
其中總幀數(shù)為語音的分幀后的總幀數(shù),錯誤幀數(shù)為語音誤判為噪聲的幀數(shù)與噪聲被誤判為語音的幀數(shù)之和。通過表1可知,本文基于多窗譜估計譜減法和能熵比的復合算法的端點檢測正確率在低信噪比時要遠遠高于直接用能熵比進行的端點檢測正確率;在高性噪比時要略高于直接用能熵比進行的端點檢測正確率。
表1 端點檢測正確率比較
本文把多窗譜估計譜減法和能熵比法相結(jié)合,提出基于多窗譜估計譜減法和能熵比的端點檢測算法,多窗譜估計譜減法是在多窗譜功率譜計算的基礎上,分別計算了平滑功率譜和噪聲平均功率譜,從而導出譜減增益因子,改善了譜減功能。實驗結(jié)果表明,本文復合算法與直接用能熵比算法相比較,本文算法在低信噪比環(huán)境下檢測效果更好,準確率更高,并能改善信號的抗噪聲性能,該算法結(jié)合了多窗譜估計譜減法和能熵比的優(yōu)點,使得該算法具有更好的端點檢測性能。
參考文獻:
[1]董胡,錢盛友.改進的能量譜熵端點檢測算法[J].測控技術(shù),2016,(6):26-29.
[2]李晉,劉甫,王玲,等.改進的語音端點檢測技術(shù)[J].計算機工程與應用,2009,(24):133-135.
[3]ZEDDELMANN D V.A feature-based approach to noise robust speech detection[J].ITG-Fachbericht,2012,(9):243-246.
[4]王民,孫廣,沈利榮.基于對數(shù)能量倒譜特征的端點檢測算法[J].計算機工程與應用,2014,(16):198-201.
[5]董胡.倒譜距離和短時能量的語音端點檢測方法研究[J].計算機技術(shù)與發(fā)展,2014,(7):77-79.
[6]MA Y N,NISHIHARA A.Efficient voice activity detection algorithm using long-term spectral flatness measure[J].EURASIP Journal on Audio,Speech,and Music Processing,2013,(1):21.
[7]姜占才,孫燕,王得芳.基于譜減和LMS的自適應語音增強[J].計算機工程與應用,2012,(7):142-145.
[8]彭軍,王忠,劉興濤.基于多窗譜相關加權(quán)語音增強[J].計算機仿真,2011,(3):142-145.
[9]徐巖,孟靜.基于粉紅噪聲的語音增強算法性能評價研究[J].鐵道學報,2011,(4):53-58.
[10]張滿,陶亮,周健.基于實值離散Gabor變換的譜減法語音增強[J].計算機工程與應用,2012,(29):109-113.
[11]趙歡,王綱金,趙麗霞.一種新的對數(shù)能量譜熵語音端點檢測方法[J].湖南大學學報(自然科學版),2010,(7):72-77.
A STUDY OF ESTIMATING THE SPEECH ENDPOINT DETECTION AlGORITHM OF SPECTRAL SUBTRACTION AND ENERGY-ENTROPY RATIO BASED ON MULTI-TAPER SPECTRAL METHOD
ZHAO Fa
(Anhui Polytechnic University,Wuhu Anhui 241000)
Speech endpoint detection is a very important part of speech processing.At present,the main endpoint detection algorithms mainly focus on the extraction of phonetic characteristic parameters but ignore the previous speech enhancement.In this paper,a speech endpoint detection composite algorithm based on multi-taper spectral estimation of spectral subtraction and energy entropy ratio is proposed.The algorithm can denoise the speech signal in noisy environment and improve the SNR(signal-noise ratio)to achieve the effect of speech enhancement by using multi-taper spectral estimation of spectral subtraction.Then the energy entropy ratio method is used for endpoint detection.Simulation results show that under the condition of low SNR,the algorithm can improve the accuracy of speech endpoint detection.
Multi-taper spectral estimation;Spectral subtraction;Energy-entropy ratio;Endpoint detection
TN912.3
A
1672-2868(2016)06-0080-06
責任編輯:楊松水 校對:袁宗文
2016-10-15
趙發(fā)(1983-),男,安徽巢湖人。安徽工程大學電氣與工程學院,講師。研究方向:信息處理。