騰瀟琦,馮 祥,張翼飛,3
(1.北京市互聯(lián)網(wǎng)信息辦公室,北京 100062; 2.訊飛智元信息科技有限公司,安徽合肥 230088; 3.上海大學(xué)機(jī)電工程與自動(dòng)化學(xué)院,上海 200072)
一種自適應(yīng)建模的VAD方法
騰瀟琦1,馮 祥2,張翼飛2,3
(1.北京市互聯(lián)網(wǎng)信息辦公室,北京 100062; 2.訊飛智元信息科技有限公司,安徽合肥 230088; 3.上海大學(xué)機(jī)電工程與自動(dòng)化學(xué)院,上海 200072)
語音活動(dòng)檢測(Voice Activity Detection,VAD)是語音前端特征處理的一個(gè)重要環(huán)節(jié),它直接影響到后續(xù)處理的效果和效率。主流的模型VAD對(duì)訓(xùn)練數(shù)據(jù)的依賴度過高,在不同場景下需要重新訓(xùn)練不同的模型,這帶來的數(shù)據(jù)標(biāo)注的工作量是非常驚人的。一種自適應(yīng)建模的VAD方法結(jié)合了能量VAD和模型VAD的優(yōu)點(diǎn),成功地解決了這個(gè)問題。它對(duì)每一條語音在線地訓(xùn)練出語音和非語音模型,根據(jù)每一幀在模型上的似然度得分給它們打上標(biāo)簽,經(jīng)過平滑后就可以很好地找到語音的起點(diǎn)和終點(diǎn)。實(shí)驗(yàn)結(jié)果表明,該方法取得了很好的效果,F(xiàn)1指標(biāo)相比傳統(tǒng)能量VAD提升了0.031,說話人分離錯(cuò)誤率下降了0.45%。
語音活動(dòng)檢測;能量VAD;模型VAD;自適應(yīng)建模
端點(diǎn)檢測(Endpoint Detection)又稱語音活動(dòng)檢測(Voice Activity Detection,VAD),是指從一段包含語音的信號(hào)中確定出語音的起止點(diǎn)。它廣泛應(yīng)用于通信系統(tǒng)、語音編碼等領(lǐng)域,在語音識(shí)別中更是不可或缺的環(huán)節(jié)。語音信號(hào)端點(diǎn)的有效檢測不僅能減少語音信號(hào)后期處理的運(yùn)算量,而且對(duì)后續(xù)識(shí)別的效果有極大的促進(jìn)作用[1]。傳統(tǒng)的VAD方法主要有基于短時(shí)能量、過零率、譜熵,基于混合高斯模型以及基于隱馬爾可夫模型等方法,它們大體可分為基于能量的VAD[2-4]和基于模型的VAD[5-7]兩種。
能量VAD是使用能量以及過零率來判斷語音和非語音,該方法優(yōu)點(diǎn)是簡單、速度快,但是由于它無法濾除噪音和一些非語意信息的聲音,所以效果并不是太理想。模型VAD比較復(fù)雜,它是利用語音的統(tǒng)計(jì)特性對(duì)有效語音、靜音、噪音等進(jìn)行建模,比較測試語音在各種模型上的得分實(shí)現(xiàn)分類。這種方法在效果上要優(yōu)于能量VAD,但是需要大量的人工標(biāo)注過的數(shù)據(jù)進(jìn)行訓(xùn)練,并且在測試語音和訓(xùn)練語音信道不匹配時(shí)可能會(huì)引起效果的下降。
文中提出了一種新的自適應(yīng)VAD方法,它結(jié)合了能量VAD和模型VAD的優(yōu)點(diǎn),采用了自適應(yīng)在線建模的方法,解決了測試語音和訓(xùn)練語音信道不匹配的問題,并且不需要離線的訓(xùn)練數(shù)據(jù),簡化了傳統(tǒng)的模型VAD方法,效果上可以達(dá)到模型VAD的水準(zhǔn)。
除去靜音外,任何一段語音都是一段能量脈沖。一般來說,有效語音擁有相對(duì)較高的能量,因此可以采用劃門限的方法來檢測語音段。最經(jīng)典的能量VAD算法如圖1所示。
從語音的開始到結(jié)束階段,會(huì)有一個(gè)能量上升和下降的過程,可以利用這個(gè)過程建立一套檢測語音段的規(guī)則。首先對(duì)待測語音進(jìn)行K-means聚類,得到四個(gè)能量閾值K1、K2、K3和K4。當(dāng)能量脈沖到來時(shí),E上升到大于K1,并且不會(huì)再降低到K1之下而是逐漸增大到大于K2時(shí),語音的起點(diǎn)就定為S1,如果S1到S2的距離過長起點(diǎn)就定為S2;同樣的,在能量下降階段,當(dāng)E小于K2,并且不會(huì)再上升到K2之上而是逐漸減小到小于K3時(shí),語音的終點(diǎn)就為S4,如果S3到S4的距離過長終點(diǎn)就定為S3。當(dāng)峰值能量低于K4時(shí),該段能量脈沖被丟棄,當(dāng)能量脈沖的持續(xù)時(shí)間太短時(shí),能量脈沖也被丟棄[8]。
這種方法在信噪比高的環(huán)境下,可以準(zhǔn)確檢測出語音的起點(diǎn)和終點(diǎn)。但是其固有的缺點(diǎn)還是容易引入較大能量的噪聲,包括一些持續(xù)時(shí)間較長的噪聲能量脈沖,影響了語音段標(biāo)注的準(zhǔn)確率。
2.1 混合高斯模型
一個(gè)混合高斯模型(Gaussian Mixture Model,GMM)由多個(gè)高斯概率密度函數(shù)加權(quán)求和得到,如式(1):
其中,M為高斯混合模型的混合度;x為一個(gè)D維隨機(jī)向量;wi為每個(gè)高斯函數(shù)的混合權(quán)重;Ni(x)為一個(gè)D維的聯(lián)合高斯概率分布,見式(2):其中,μi為均值矢量;Σi為協(xié)方差矩陣。
至此,整個(gè)混合高斯模型λ可由{wi,μi,Σi}來描述。
2.2 模型訓(xùn)練
對(duì)于T個(gè)訓(xùn)練矢量X={xt,t=1,2,…,T},在用K -means聚類確定了初始λ的參數(shù)后,可以通過經(jīng)典的EM(Expectation Maximization)算法迭代出一個(gè)新的混合高斯模型。其中:
在建立模型前需要大量經(jīng)過人工標(biāo)注選出的語音和非語音片段,標(biāo)注完成后用語音片段訓(xùn)練出一個(gè)混合高斯模型λspeech,用非語音片段訓(xùn)練出另一個(gè)混合高斯模型λnonpeech。比較測試幀在這兩種模型上的得分即可實(shí)現(xiàn)語音幀和非語音幀的分類,再加入平滑就可以很容易找到語音的端點(diǎn)。
由于可以將噪聲片段加入非語音片段中訓(xùn)練λnonpeech,模型VAD可以很好地解決能量VAD不能解決的高能量噪聲問題。但是此方法的缺點(diǎn)也是很明顯的,首先是需要大量人工標(biāo)注過的數(shù)據(jù),其次它對(duì)模型的依賴性很高,模型的好壞決定了最終VAD的效果,所以對(duì)于不同的語音背景環(huán)境,需要針對(duì)性地重新訓(xùn)練出相應(yīng)的模型,才能保證結(jié)果的準(zhǔn)確性。最近幾年比較流行的模型VAD是基于DNN(Deep Neural Network)的VAD[10-11],該方法使用DNN來建立模型,相比GMM模型復(fù)雜度更高,效果更佳,但是此方法面臨著和傳統(tǒng)模型VAD一樣的問題。
文中提出了一種自適應(yīng)建模的VAD方法,該方法通過在線訓(xùn)練出語音段和非語音段的混合高斯模型,有效去除了靜音段以及能量較低的噪音段,而且不像傳統(tǒng)模型VAD那樣需要大量的訓(xùn)練數(shù)據(jù),在信噪比高的環(huán)境下取得了較好的效果。流程如圖2所示。
算法具體步驟如下:
(1)將待測語音分幀后計(jì)算能量,能量最高的幀標(biāo)記為A,能量最低的幀標(biāo)記為B,計(jì)算E=(EAEB)/EB,將E與門限值M相比較,若小于M則認(rèn)為此條語音整段都是靜音或者噪音,若大于M則需要進(jìn)行第二步。
(2)如圖3所示,將每一幀按照能量高低排序,抽取能量較低的一部分幀用以訓(xùn)練出初始的λnonpeech,抽取能量較高的一部分幀用以訓(xùn)練初始的λspeech。
(3)將語音的所有幀在 λnonpeech和 λspeech上計(jì)算得分,通過比較兩種模型上的得分高低給每一幀數(shù)據(jù)打上語音或非語音的標(biāo)簽。
(4)用打上非語音標(biāo)簽的所有幀數(shù)據(jù)訓(xùn)練一個(gè)新的λnonpeech,同樣用打上語音標(biāo)簽的所有幀數(shù)據(jù)訓(xùn)練一個(gè)新的λspeech。
(5)重復(fù)步驟(3)、(4)若干次,直到新模型相當(dāng)于上一個(gè)模型的畸變量小于Y時(shí)停止循環(huán)。
(6)再執(zhí)行一次步驟(3),將每一幀數(shù)據(jù)都打上語音或非語音的標(biāo)簽。
(7)使用平滑策略去掉其中的毛刺點(diǎn)。
經(jīng)過以上七步,可以很容易地標(biāo)記出語音起始點(diǎn)與結(jié)束點(diǎn)。該方法的訓(xùn)練是在線進(jìn)行的,雖然在效率上相比傳統(tǒng)模型VAD會(huì)有所下降,但是省去了繁瑣的離線訓(xùn)練過程。實(shí)驗(yàn)結(jié)果表明,該方法在信噪比較高的環(huán)境下效果顯著。
實(shí)驗(yàn)數(shù)據(jù)采用的是電話信道下的移動(dòng)客服數(shù)據(jù),一共3 000條,都為兩人電話中的對(duì)話,信噪比較高。其中陜西移動(dòng)、安徽移動(dòng)、黑龍江移動(dòng)的數(shù)據(jù)各1 000條。將陜西移動(dòng)和安徽移動(dòng)數(shù)據(jù)作為開發(fā)集用作調(diào)參,黑龍江移動(dòng)的數(shù)據(jù)作為測試集使用。
基線系統(tǒng)采用傳統(tǒng)的四門限能量VAD和傳統(tǒng)的GMM模型VAD,新系統(tǒng)采用上文介紹的自適應(yīng)建模VAD。其中,特征選用39維的MFCC特征(經(jīng)過RASTA和二階差分),新系統(tǒng)中在線訓(xùn)練時(shí)所用的畸變量Y取5%,M取10,GMM的混合度在下面的開發(fā)集實(shí)驗(yàn)中選取。
使用的評(píng)測指標(biāo)是F1和VAD后的語音進(jìn)行說話人分離[12-13]的錯(cuò)誤率。其中:
其中,Recall Rate表示語音的召回率;Precision Rate表示語音的正確率。
首先看開發(fā)集中不同高斯混合度下的幾組測試結(jié)果,見表1。
從表1可以看出,128混合度的GMM無論是在F1指標(biāo)還是說話人分離錯(cuò)誤率上都取得了最好的效果,但是相比較64混合度的GMM提升并不明顯,然而128混合度的 GMM在運(yùn)算量上大約是 64混合度GMM的兩倍。為了兼顧效率,實(shí)驗(yàn)后面的測試選用混合度為64的GMM,表2是1 000條測試集在三種不同策略系統(tǒng)上的對(duì)比。
表2的統(tǒng)計(jì)結(jié)果表明,由于結(jié)合了模型VAD的優(yōu)點(diǎn),自適應(yīng)建模VAD系統(tǒng)的F1指標(biāo)要好于采用基于傳統(tǒng)能量VAD方法的系統(tǒng),并且在后續(xù)的降低說話人分離錯(cuò)誤率上有明顯的優(yōu)勢,而在與傳統(tǒng)模型VAD的對(duì)比中效果略有下降。這是因?yàn)樽赃m應(yīng)建模的VAD系統(tǒng)并沒有在自適應(yīng)訓(xùn)練中將高能量的噪音加入到非語音模型的訓(xùn)練中,但是在高能量噪音很少的環(huán)境中,效果上幾乎和傳統(tǒng)模型VAD沒有區(qū)別,而且自適應(yīng)建模VAD的便利性和環(huán)境適應(yīng)性彌補(bǔ)了效果上的不足。
文中提出了一種自適應(yīng)建模的VAD方法,該方法結(jié)合了能量VAD和模型VAD的優(yōu)點(diǎn),采用了在線自適應(yīng)訓(xùn)練GMM的方法,避開了傳統(tǒng)模型VAD中繁雜的人工數(shù)據(jù)標(biāo)注和線下模型訓(xùn)練的工作,并且不用擔(dān)心不同場景下的信道以及背景音不同等問題。該方法在實(shí)驗(yàn)中取得了很好的效果,F(xiàn)1指標(biāo)比傳統(tǒng)能量VAD提高了0.031,說話人分離錯(cuò)誤率也比傳統(tǒng)能量VAD降低了0.45%。但是該方法還存在一些不足,首先它對(duì)高能量噪音的過濾能力并不好,必須在較高的信噪比環(huán)境下才能很好地工作,其次由于是在線的訓(xùn)練模型,所以在運(yùn)算速度上要弱于傳統(tǒng)的能量VAD和傳統(tǒng)的模型VAD,這些都是后續(xù)需要解決的問題。
[1] 孫戰(zhàn)先,儲(chǔ)飛黃,王 江.一種自適應(yīng)語音端點(diǎn)檢測算法[J].計(jì)算機(jī)工程與應(yīng)用,2014,50(1):206-210.
[2] Lamel L,Rabiner L,Rosenberg A,et al.An improved endpoint detector for isolated word recognition[J].IEEE Transactions on Acoustics Speech&Signal Processing,1981,29(4):777-785.
[3] 張仁志,崔慧娟.基于短時(shí)能量的語音端點(diǎn)檢測算法研究[J].電聲技術(shù),2005(7):52-54.
[4] 周明忠,吉立新.基于平均幅度和加權(quán)過零率的VAD算法及其FPGA實(shí)現(xiàn)[J].信息工程大學(xué)學(xué)報(bào),2010,11(6):713 -718.
[5] Wu J,Zhang X L.An efficient voice activity detection algorithm by combining statistical model and energy detection[J]. Journal on Advances in Signal Processing,2011(2):150-154.
[6] 雷建軍,楊 震,劉 剛,等.基于復(fù)高斯混合模型的魯棒VAD算法[J].天津大學(xué)學(xué)報(bào),2009,42(4):353-356.
[7] 朱 杰,韋曉東.噪聲環(huán)境中基于HMM模型的語音信號(hào)端點(diǎn)檢測方法[J].上海交通大學(xué)學(xué)報(bào),1998,32(10):14-16.
[8] 章 釗,郭 武.話者識(shí)別中結(jié)合模型和能量的語音激活檢測算法[J].小型微型計(jì)算機(jī)系統(tǒng),2010,31(9):1914-1917.
[9] 郭 武.復(fù)雜信道下的說話人識(shí)別[D].合肥:中國科學(xué)技術(shù)大學(xué),2007.
[10] Zhang X L,Wu J.Denoising deep neural networks based voice activity detection[C]//Proc of international conference on acoustics,speech,and signal processing.[s.l.]:[s.n.],1988: 853-857.
[11] 黎 林,朱 軍.基于小波分析與神經(jīng)網(wǎng)絡(luò)的語音端點(diǎn)檢測研究[J].電子測量與儀器學(xué)報(bào),2013,27(6):528-534.
[12] Reddy A M,Raj B.Soft mask methods for single-channel speaker separation[J].IEEE Transactions on Audio Speech&Language Processing,2007,15(6):1766-1776.
[13] 張 策.電話信道下說話人分離及識(shí)別研究[D].北京:中國科學(xué)院大學(xué),2013.
An Voice Activity Detection of Adaptive Modeling
TENG Xiao-qi1,F(xiàn)ENG Xiang2,ZHANG Yi-fei2,3
(1.The Office of Internet Information,Beijing 100062,China; 2.Iflytek Intelligent System Co.,Ltd.,Hefei 230088,China; 3.School of Mechatronics Engineering and Automation,Shanghai University,Shanghai 200072,China)
Voice Activity Detection(VAD)is an important part of speech front-end features processing which directly affects the effectiveness and efficiency of subsequent processing.Because of over-dependence on training data,the model VAD must train different model in different scenarios that will bring many tasks of data labeling.A VAD method of adaptive modeling,which combines with the advantages of energy VAD and model VAD,solves the problem successfully.It trains speech model and non-speech model online to each voice and labels each frame according to the likelihood score of different model,then the endpoint of voice can be get.The experiments show that this method has achieved a good result.It makes the F1parameters increased 0.031 and error rate of speaker separation decreased by 0.45%compared with the traditional energy VAD.
voice activity detection;energy VAD;model VAD;adaptive modeling
TP301
A< class="emphasis_bold">文章編號(hào):1
1673-629X(2016)09-0026-04
10.3969/j.issn.1673-629X.2016.09.006
2015-06-02
2015-10-15< class="emphasis_bold">網(wǎng)絡(luò)出版時(shí)間:
時(shí)間:2016-08-23
北京市科技計(jì)劃項(xiàng)目(Z141100006014002)
騰瀟琦(1983-),女,碩士,研究方向?yàn)樾侣剛鞑ァ?/p>
http://www.cnki.net/kcms/detail/61.1450.tp.20160823.1112.010.html