張金榜,尹冬梅(.武警警官學(xué)院 信息工程系,四川 成都 603;.武警江蘇省總隊(duì) 通信站修理所,江蘇 南京 009)
基于統(tǒng)計(jì)模型的語(yǔ)音激活檢測(cè)算法改進(jìn)
張金榜1,尹冬梅2
(1.武警警官學(xué)院信息工程系,四川成都610213;2.武警江蘇省總隊(duì)通信站修理所,江蘇南京210019)
語(yǔ)音激活檢測(cè)技術(shù)是應(yīng)用于語(yǔ)音偵聽(tīng)領(lǐng)域降低節(jié)點(diǎn)能耗的關(guān)鍵技術(shù)之一,其核心是語(yǔ)音激活檢測(cè)算法。針對(duì)基于統(tǒng)計(jì)模型的語(yǔ)音激活檢測(cè)算法僅采用當(dāng)前語(yǔ)音幀的參數(shù)來(lái)判斷有無(wú)語(yǔ)音信號(hào)而帶來(lái)的誤檢率高的問(wèn)題,提出用相鄰語(yǔ)音幀邏輯與運(yùn)算的方法對(duì)其進(jìn)行改進(jìn)。試驗(yàn)表明:改進(jìn)后的算法在誤檢率上明顯低于改進(jìn)前,提高了語(yǔ)音信號(hào)檢測(cè)的準(zhǔn)確性,有效地降低了節(jié)點(diǎn)能耗。
統(tǒng)計(jì)模型;語(yǔ)音激活檢測(cè);檢測(cè)算法
語(yǔ)音激活檢測(cè)技術(shù)是利用語(yǔ)音激活檢測(cè)算法,僅當(dāng)檢測(cè)到語(yǔ)音信號(hào)時(shí)激活節(jié)點(diǎn),使之從休眠狀態(tài)轉(zhuǎn)換到工作狀態(tài),其余時(shí)間處于休眠狀態(tài),是降低節(jié)點(diǎn)能耗的關(guān)鍵技術(shù)之一?;诮y(tǒng)計(jì)模型的語(yǔ)音激活檢測(cè)算法,通過(guò)選取特征參數(shù)建立統(tǒng)計(jì)分布模型,根據(jù)當(dāng)前幀的信息計(jì)算出模型中的未知參數(shù),得出判決準(zhǔn)則,并據(jù)此判斷有無(wú)語(yǔ)音信號(hào)[1]。其優(yōu)點(diǎn)是能夠適應(yīng)時(shí)變?cè)肼暤奶攸c(diǎn),在復(fù)雜環(huán)境下,檢測(cè)的準(zhǔn)確率較高[2-4]。但只根據(jù)當(dāng)前語(yǔ)音幀的參數(shù)來(lái)判斷有無(wú)語(yǔ)音信號(hào)具有一定的局限性,極易出現(xiàn)誤判的情況。因此,對(duì)基于統(tǒng)計(jì)模型的語(yǔ)音激活檢測(cè)算法加以改進(jìn)來(lái)降低誤檢率,對(duì)語(yǔ)音偵聽(tīng)領(lǐng)域具有十分重要的意義。
1.1算法的基本步驟
基于統(tǒng)計(jì)模型的語(yǔ)音激活檢測(cè)算法[2-3,5]以貝葉斯定理和似然比檢驗(yàn)為基礎(chǔ),檢驗(yàn)過(guò)程分提出假設(shè)、分析參數(shù)和檢驗(yàn)判決三步。
1.1.1提出假設(shè)
待測(cè)音信號(hào)X有兩種假設(shè):一是只有噪聲N存在,則原假設(shè)H0為真,判定未檢測(cè)到語(yǔ)音;二是語(yǔ)音S與噪聲N同時(shí)存在(S與N互不相關(guān)),則備選假設(shè)H1為真,判定檢測(cè)到語(yǔ)音,可以描述為:
判定存在語(yǔ)音信號(hào)。
1.1.2分析參數(shù)
首先要根據(jù)其頻率特征進(jìn)行周期性采樣,使波形參數(shù)由連續(xù)時(shí)間序列變?yōu)殡x散時(shí)間序列。然后根據(jù)采樣信號(hào)的振幅絕對(duì)值描繪直方圖,計(jì)算概率密度表達(dá)式,將模擬的語(yǔ)音信號(hào)用數(shù)字參數(shù)表示出來(lái)[1]。第t幀加噪信號(hào)、純語(yǔ)音信號(hào)和噪聲信號(hào)的離散傅里葉變換系數(shù)如下。在X(t)、S(t)、N(t)中,第k個(gè)譜分量的系數(shù)分別為Xk、Sk和Nk。用Xk(R)和Xk(I)分別表示離散傅里葉變換系數(shù)Xk的實(shí)部和虛部,假設(shè)每個(gè)DFT系數(shù)的實(shí)部和虛部都服從拉普拉斯概率密度函數(shù),如果其實(shí)部和虛部的方差相同,則Xk(R)和Xk(I)的概率密度分布如式(6)和式(7)所示。其中,σx是指Xk方差的平方根。因?yàn)閄k的實(shí)部和虛部近似獨(dú)立,其方差可以看作相等,則Xk的概率密度函數(shù)可以表示為[1,6]:其中,λs,k和λn,k分別代表Sk和Nk的方差。
1.1.3檢驗(yàn)判決
圖1 概率密度函數(shù)
1.2算法的流程
基于統(tǒng)計(jì)模型的語(yǔ)音激活檢測(cè)算法流程如圖2所示。
圖2 基于統(tǒng)計(jì)模型語(yǔ)音激活檢測(cè)算法流程
2.1改進(jìn)的思想
算法的改進(jìn)參照邏輯與運(yùn)算的思想,真值表如表1所示。在基于統(tǒng)計(jì)模型算法的基礎(chǔ)上:(1)如果第k幀(k為大于等于1的正整數(shù))信號(hào)檢測(cè)判定結(jié)果是“0”,第k-1幀信號(hào)輸出結(jié)果是“0”,那么經(jīng)過(guò)與運(yùn)算的結(jié)果是“0”,表示無(wú)語(yǔ)音信號(hào);(2)如果第k幀信號(hào)檢測(cè)判定結(jié)果是“0”,第k-1幀信號(hào)檢測(cè)判定結(jié)果是“1”,與運(yùn)算后的結(jié)果是“0”,同樣判斷無(wú)語(yǔ)音信號(hào);(3)如果第k幀信號(hào)檢測(cè)判定的結(jié)果是“1”,第k-1幀信號(hào)檢測(cè)判定結(jié)果是“0”,那么經(jīng)過(guò)與運(yùn)算的結(jié)果還是“0”,依然判為無(wú)語(yǔ)音信號(hào);(4)只有兩次檢測(cè)的結(jié)果均為“1”,與運(yùn)算后的結(jié)果才是“1”,才能證明有語(yǔ)音信號(hào)存在。只有當(dāng)前幀信號(hào)的判決結(jié)果是“1”時(shí),才有可能判斷有語(yǔ)音信號(hào)存在。所以為簡(jiǎn)便判決,只在當(dāng)前幀判決結(jié)果為“1”時(shí)執(zhí)行與運(yùn)算。
表1 相鄰幀邏輯與運(yùn)算真值表
2.2改進(jìn)算法的流程
改進(jìn)算法的工作原理是將一段語(yǔ)音信號(hào)采樣分幀處理后,對(duì)第k幀信號(hào)依據(jù)上節(jié)的檢測(cè)激活算法完成檢驗(yàn)判決,將結(jié)果存于寄存器,若結(jié)果為“0”,返回繼續(xù)完成后續(xù)幀的檢驗(yàn);若結(jié)果為“1”,與上一幀信號(hào)進(jìn)行與運(yùn)算,根據(jù)運(yùn)算結(jié)果完成最后判決。改進(jìn)后的算法流程如圖3所示。
圖3 改進(jìn)后的算法流程
3.1試驗(yàn)步驟和結(jié)果
語(yǔ)音信號(hào)的檢測(cè)仿真選用MATLAB平臺(tái)。仿真主要完成不同噪聲環(huán)境下基于統(tǒng)計(jì)模型的語(yǔ)音激活檢測(cè)算法(用算法1表示)和其改進(jìn)算法(用算法2表示)誤檢率的測(cè)試。
試驗(yàn)步驟如下:(1)在較為安靜的環(huán)境下錄制一段長(zhǎng)約6s的語(yǔ)音片段作為原始樣本,保存為.wav格式;(2)將語(yǔ)音原始樣本分別與車(chē)輛噪聲和人群噪聲混合;(3)將混合信號(hào)在信噪比0~20dB之間應(yīng)用兩種檢測(cè)算法進(jìn)行仿真,得出誤判率。試驗(yàn)結(jié)果如圖4、圖5所示。
圖4 車(chē)輛噪聲環(huán)境兩種算法的誤檢率對(duì)比
圖5 人群噪聲環(huán)境兩種算法的誤檢率對(duì)比
3.2試驗(yàn)結(jié)果分析
在車(chē)輛噪聲環(huán)境下,算法的誤檢率隨信噪比的增加而增加,這是由于車(chē)輛噪聲和語(yǔ)音信號(hào)的差異性導(dǎo)致信噪比增加時(shí)算法的正確率和錯(cuò)誤率同時(shí)增加,而錯(cuò)誤率的增長(zhǎng)幅度大于正確率的增長(zhǎng)幅度。在人群噪聲環(huán)境下,算法的誤檢率隨信噪比的增加而減少。
在兩種噪聲環(huán)境且信噪比相同的情況下,改進(jìn)后的算法在語(yǔ)音信號(hào)的誤檢率上均明顯低于改進(jìn)前的誤檢率,提高了語(yǔ)音信號(hào)檢測(cè)的準(zhǔn)確性;而語(yǔ)音激活檢測(cè)技術(shù)是當(dāng)且僅當(dāng)檢測(cè)到語(yǔ)音信號(hào)時(shí),才激活語(yǔ)音偵聽(tīng)節(jié)點(diǎn)從休眠狀態(tài)轉(zhuǎn)換為工作狀態(tài),因此改進(jìn)后的算法降低了節(jié)點(diǎn)能耗,延長(zhǎng)了節(jié)點(diǎn)的生命周期。
改進(jìn)的基于統(tǒng)計(jì)模型的語(yǔ)音激活檢測(cè)算法是通過(guò)相鄰幀邏輯與的方法來(lái)實(shí)現(xiàn)的。試驗(yàn)結(jié)果表明:算法改進(jìn)后,語(yǔ)音信號(hào)的誤檢率明顯低于改進(jìn)之前,降低了節(jié)點(diǎn)能耗,延長(zhǎng)了節(jié)點(diǎn)壽命,適用于便攜式語(yǔ)音檢測(cè)裝置中。
[1]彭利華.高噪聲環(huán)境下語(yǔ)音激活檢測(cè)技術(shù)的研究[D].武漢:華中科技大學(xué),2007.
[2]SOHN J S,SUNG W Y.A voice activity detector employing soft decision based noise spectrum adaptation[C].Proceeding of the IEEE Speech Coding Workshop,1998:365-368.
[3]CHO Y D,KONDOZ A.Analysis and improvement of a statisticalmodel-based voice activity detector[J].IEEE Signal Processing Letters,2001,8(10):276-278.
[4]戴啟軍,卞正中,陳硯圃,等.基于統(tǒng)計(jì)模型實(shí)現(xiàn)語(yǔ)音信號(hào)有聲/無(wú)聲檢測(cè)的研究[J].西安交通大學(xué)學(xué)報(bào),2002,36(8):839-846.
[5]EPHRAIM Y,MALAH D.Speech enhancement using a minimummean-square error short-time spectral amplitude estimator[J].IEEE Transactions on Acoust Speech and Signal Processing,1984,32(6):1109-1121.
[6]景占榮,羊彥.信號(hào)檢測(cè)與估計(jì)[M].北京:化學(xué)工業(yè)出版社,2004.
An improved voice activity detection algorithm of the statistical model-based
Zhang Jinbang1,Yin Dongmei2
(1.Department of Information Engineering,Officers College of CAPF,Chengdu 610213,China;2.Machine Shop of Traffic Station,Jiangsu Team of CAPF,Nanjing 210019,China)
Voice activity detection algorithm is the core of voice activity detection technique,which is one of key techniques to reduce power of the voice interception node in voice detection field.An improved voice activity detection algorithm of the statistical model-based is proposed aiming at the problem of high inaccurate estimation for adopting the current voice frame to estimate voice occur or not only.It has been improved by the operation of logic‘a(chǎn)nd’between the border upon voice frame.The emulational result shows that the improved algorithm has reduced inaccurate estimation ration than the unimproved and improved the accuracy,which can reduce the power effectively.
statistical model;voice activity detection;detection algorithm
TP274+.4
A
1674-7720(2015)12-0014-03
2015-0-0)
張金榜(1986-),通信作者,男,碩士,主要研究方向:信息處理、電子技術(shù)應(yīng)用。E-mail:zhangjinbang12315@163.com。
尹冬梅(1986-),女,本科,主要研究方向:通信指揮。