王滿洪 張二華 王明合
(南京理工大學(xué)模式識別與人工智能實(shí)驗(yàn)室 南京 210094)
基于雙門限算法的端點(diǎn)檢測改進(jìn)研究?
王滿洪 張二華 王明合
(南京理工大學(xué)模式識別與人工智能實(shí)驗(yàn)室 南京 210094)
端點(diǎn)檢測技術(shù)是語音識別中的一個(gè)重要步驟,其準(zhǔn)確性直接影響語音信號處理的效率,近年來對語音信號端點(diǎn)檢測技術(shù)的研究一直是語音信號處理的熱點(diǎn)。傳統(tǒng)的雙門限端點(diǎn)算法在實(shí)驗(yàn)室環(huán)境下檢測結(jié)果較為準(zhǔn)確,但在復(fù)雜信道環(huán)境下,正確率大大下降。針對傳統(tǒng)雙門限算法的局限性,論文提出了一種基于二級判決的改進(jìn)方法。該算法采用短時(shí)振幅來構(gòu)造過零“帶”,增強(qiáng)復(fù)雜環(huán)境下過零率的抗干擾性。同時(shí)增設(shè)輔音能量閾值和疑似輔音閾值,解決清輔音丟失以及無聲段混入問題。實(shí)驗(yàn)結(jié)果表明,該方法在復(fù)雜信道條件下端點(diǎn)檢測正確率有較大提高。
端點(diǎn)檢測;雙門限算法;短時(shí)能量;短時(shí)過零率;復(fù)雜信道
一段語音信號通??梢苑譃殪o音段、噪聲段、過渡段和有聲段。有聲段又分為濁音和輔音,說話人個(gè)性特征主要包含在濁音當(dāng)中[1]。在語音信號處理中,要運(yùn)用端點(diǎn)檢測技術(shù)對語音信號進(jìn)行分割,從包含語音的一段信號中確定出語音的起點(diǎn)及結(jié)束點(diǎn),提取有效語音段后,再進(jìn)行特征提取等后續(xù)操作。這樣可以排除靜音或純噪聲段的干擾,減少語音系統(tǒng)的運(yùn)算量并提高正確性。
常用的端點(diǎn)檢測方法有能量閾值、基音檢測、頻譜分析、倒譜分析及LPC預(yù)測等。其中基于能量和過零率的雙門限判決法最為常用[1]。在低信噪比的條件下,傳統(tǒng)的雙門限算法識別率大大下降,特別在復(fù)雜信道下的說話人識別中,識別結(jié)果很不理想。本文針對二級判決進(jìn)行改進(jìn),以提高端點(diǎn)檢測結(jié)果的魯棒性。
2.1 短時(shí)能量
短時(shí)能量是語音信號時(shí)域的一個(gè)重要特征參數(shù),反映能量隨時(shí)間的變化。對于語音信號x(n),第n幀短時(shí)能量定義為
其中h(n)=w(m)2,N為幀長,w(m)為窗函數(shù)。從式(1)可以看出,短時(shí)能量可以看做語音信號的平方經(jīng)過一個(gè)線性濾波器的輸出,濾波器的沖擊響為h(n)。故而窗函數(shù)的選擇決定了短時(shí)能量表示方法的特點(diǎn)。本文選擇主瓣變化較平滑的漢明窗。
由于濁音比清音能量大的多,短時(shí)能量可以用于有效區(qū)分清音和濁音;其次,可以用短時(shí)能量對有聲段和無聲段進(jìn)行判定,對聲母和韻母分界等;也可當(dāng)做一維特征參數(shù)用于語音識別系統(tǒng)中。
短時(shí)能量對高電平非常敏感,實(shí)現(xiàn)時(shí)容易產(chǎn)生溢出[2]。可以采用短時(shí)平均振幅來替代,公式為:
2.2 短時(shí)平均過零率
短時(shí)平均過零率是指每幀內(nèi)信號通過零值的次數(shù)。對于連續(xù)語音信號,可以觀察其時(shí)域波形通過時(shí)間軸的情況;對于離散信號,短時(shí)平均過零率就是信號采樣點(diǎn)符號變化的次數(shù)。短時(shí)平均過零率仍可以在一定程度上反映其頻譜性質(zhì),可以通過短時(shí)平均過零率獲得譜特性的一種粗略估計(jì)。定義語音信號xn(m)的短時(shí)過零率為:
其中,sgn[]是符號函數(shù)。對于語音信號,清音的短時(shí)能量雖然低,易判為無聲段,但它的短時(shí)過零率明顯大于濁音部分,因此可以使用過零率來區(qū)分清音和濁音。
傳統(tǒng)的基于雙門限判決的端點(diǎn)檢測算法主要分為兩大步驟。第一步,設(shè)置兩個(gè)能量閾值:高能量閾值EH和低能量閾值EL。此時(shí),語音信號可以劃分為無聲段、過渡段和語音段,如圖1所示。在無聲段,當(dāng)能量參數(shù)超過低能量閾值EL時(shí),標(biāo)記為進(jìn)入過渡段,過渡段一般為輔音,也就是漢語中的聲母;在過渡段,如果能量參數(shù)回落到低能量閾值EL以下時(shí),標(biāo)記為恢復(fù)到無聲段;若能量參數(shù)超過高能量閾值EH,則表示進(jìn)入了語音段;在語音段,當(dāng)能量參數(shù)回落到低能量閾值EL以下時(shí),則標(biāo)記為結(jié)束點(diǎn)。第二步,利用短時(shí)平均過零率對判決結(jié)果進(jìn)行補(bǔ)充。由于清音的短時(shí)平均過零率要明顯高于濁音和靜音,因而使用短時(shí)平均過零率就可以很好的將清音和無聲段區(qū)分開來。
圖1 語音信號劃分圖
然而傳統(tǒng)的雙門限判決方法僅在高SNR環(huán)境下有較好結(jié)果,而在固定電話信道等復(fù)雜信道條件下識別效果大大降低。研究表明,一些突發(fā)性的隨機(jī)噪聲或背景噪聲往往會引起短時(shí)能量或短時(shí)過零率的數(shù)值很高,造成誤判或找不到語音段的起止端點(diǎn)[7]。下面將針對傳統(tǒng)雙門限的這種局限性作出改進(jìn)。
本章針對傳統(tǒng)雙門限算法的兩大判決閾值,短時(shí)能量和短時(shí)過零率,分別做出改進(jìn)。然后給出改進(jìn)后的雙門限端點(diǎn)檢測算法的判決步驟。
4.1 增設(shè)輔音能量閾值
對傳統(tǒng)雙門限端點(diǎn)檢測算法,實(shí)驗(yàn)測試后發(fā)現(xiàn)其檢測輔音時(shí)僅考慮了短時(shí)過零率,只要滿足條件:過零率參數(shù)Z≥ZH,就判斷為了輔音,忽略了能量的限制,造成大量能量微弱的無聲段混入輔音,如圖2所示。
圖2 “這”字原始語音與時(shí)域特征參數(shù)
從圖2中可以看出,“這”字的前面無聲段部分過零率比較高,容易被判斷為輔音段。因此,增加一個(gè)輔音能量閾值Ec:
其中Eave為語音信號所有幀的平均能量,α1為0到1之間的變量。這樣,判斷一幀為可靠輔音的條件就修改為:當(dāng) EC≤E<EL,且Z≥ZH,即使用短時(shí)能量和短時(shí)過零率雙重檢測輔音。
4.2 增設(shè)疑似輔音閾值
實(shí)驗(yàn)測試發(fā)現(xiàn),清輔音在起始階段能量較強(qiáng),尾部接近元音時(shí)能量反而減弱,或者過零率迅速下降,導(dǎo)致誤判為無聲段,造成輔音與元音中斷,從而導(dǎo)致整個(gè)輔音段丟失,圖3為漢語中“去”字語音的短時(shí)能量與短時(shí)過零率:
圖3 “去”字原始語音與時(shí)域特征參數(shù)
從圖3可以看出,“去”字的聲母為清輔音,在接近元音部分時(shí),能量參數(shù)和過零率參數(shù)極速下降,不利于端點(diǎn)檢測的判斷。因此,增加一個(gè)疑似輔音的能量閾值Es:
當(dāng)滿足條件:ES≤E<EC且 Z≥ZH時(shí),或者EC≤E<EL且 Z≤ZH時(shí),即能量達(dá)標(biāo)或過零率達(dá)標(biāo),則判斷為疑似輔音段。若二者均未達(dá)標(biāo),則作為無聲段予以排除。疑似輔音段在依靠輔音段的條件下可以合并到輔音中去。
4.3 改進(jìn)過零率
在固定電話等噪聲環(huán)境下,信道隨機(jī)噪聲使短時(shí)過零率發(fā)生明顯變化。背景噪聲的短時(shí)過零率增大,容易將無聲段混入輔音段,嚴(yán)重影響檢測效果。
對于過零率不再以過“零”來計(jì)算,而應(yīng)設(shè)置上下門限,將過零率修改為跨過正負(fù)門限的次數(shù)。過零率公式修改為
該公式的含義為:既跨了上門限T,也跨了下門限 -T,計(jì)算為1次過“零”;若只跨了上門限而未跨下門限,只算半次過“零”;同理,若只跨了下門限而未跨上門限,也只算半次過“零”。這樣計(jì)算的短時(shí)平均過零率有一定的抗干擾能力。即使存在較小的信道隨機(jī)噪聲,只要它不超過正負(fù)門限所約束的帶,就不會產(chǎn)生虛假的過零率。
圖4中每個(gè)折點(diǎn)為一個(gè)數(shù)據(jù)點(diǎn),從樣本點(diǎn) X1到X10,只算一次過零率,而不是傳統(tǒng)方法的6次過零率??梢?,過零“帶”能很好地解決信道隨機(jī)噪聲環(huán)境下端點(diǎn)檢測的困擾。
圖4 樣本信號擊穿過零“帶”示意圖
一般情況下,訓(xùn)練語音開始部分存在一小部分無聲段,其中包含的就是背景噪聲信息。因此,可以用語音文件前N幀中振幅值最小的β幀平均值對端點(diǎn)檢測門限T賦初值。
圖5顯示的是固話條件下改進(jìn)過零率前后過零率曲線對比,由于信道噪聲影響,圖5(a)中元音部分的過零率甚至低于靜音段,這就造成大量靜音段誤判為輔音。從圖5(b)可以看到,靜音段的過零率大大降低,無聲段與語音段的區(qū)分更明顯,更有利端點(diǎn)檢測正確的判斷。
圖5 固話條件下改進(jìn)過零率前后過零率結(jié)果對比
4.4 改進(jìn)算法判決準(zhǔn)則
表1給出了雙門限算法改進(jìn)后端點(diǎn)檢測的判決方法,其檢測步驟如下:
1)首先計(jì)算各幀的短時(shí)能量、短時(shí)過零率等時(shí)域特征參數(shù),初始化能量和過零率閾值。
2)第一次幀循環(huán),找出E≥EH的強(qiáng)振幅語音幀,這是能獨(dú)立存在的主音段,是過渡段以及標(biāo)準(zhǔn)輔音段的依賴。
3)第二次幀循環(huán),搜索EL≤E<EH的中振幅語音幀(無論過零率大?。?,主要為臨近主音段的過渡幀或標(biāo)準(zhǔn)輔音幀(這兩種語音幀可相互作為橋梁與主音段連通),將其合并至與其連續(xù)的主音段。
4)第三次幀循環(huán),尋找疑似輔音幀,若疑似輔音幀與右側(cè)中振幅語音幀連續(xù),則合并。
5)再次幀循環(huán),讀取各幀端點(diǎn)標(biāo)記信號,查重補(bǔ)漏,完成整體語音段的端點(diǎn)檢測。
表1 語音段判斷方法
5.1 實(shí)驗(yàn)環(huán)境
實(shí)驗(yàn)數(shù)據(jù)來自南京理工大學(xué)NJUST603語音庫,庫中含有423人錄音,男生210,女生213,每人有三段數(shù)字錄音,四段文本錄音。錄制時(shí)同時(shí)采用麥克風(fēng),固定電話和手機(jī)信道分別錄音。所以,每個(gè)說話人有三種信道下的7段錄音。采樣頻率為1.6kHz,采樣精度為16位,幀長 32ms,512個(gè)數(shù)據(jù)點(diǎn),幀移16ms。在Win7系統(tǒng)VS平臺對三種信道下改進(jìn)的端點(diǎn)檢測算法進(jìn)行實(shí)驗(yàn)。
5.2 結(jié)果分析
實(shí)驗(yàn)抽取語音樣本中的一段“韓紀(jì)慶”作為本次實(shí)驗(yàn)樣本,包括固定電話和麥克風(fēng)兩種信道情況下的實(shí)驗(yàn)測試。實(shí)驗(yàn)結(jié)果圖中,用實(shí)線表示語音段的開始,虛線表示語音段的結(jié)束。實(shí)線到虛線,表示一個(gè)語音段,虛線到實(shí)線,表示靜音段。
圖6表示麥克風(fēng)條件下雙門限端點(diǎn)檢測結(jié)果,從圖6(a)中可以看出,傳統(tǒng)雙門限大致可以檢測出語音端點(diǎn),但并不準(zhǔn)確,“韓”音節(jié)的輔音段前部分和元音段后部分都被丟棄一小部分,“紀(jì)”音節(jié)和“慶”音節(jié)的元音末尾也有一些丟失;但圖6(b)在同樣麥克風(fēng)條件下,使用改進(jìn)的雙門限端點(diǎn)檢測后,圖6(a)中存在的情況得到很好的改善,端點(diǎn)檢測結(jié)果非常理想。由圖6可以看出,改進(jìn)雙門限算法后的優(yōu)勢很明顯,可以完整提取出語音的聲母和韻母。
圖6 麥克風(fēng)條件下改進(jìn)雙門限算法前后端點(diǎn)檢測結(jié)果對比
圖7 測試的是固定電話條件下的錄音信號。從語音信號波形上看,由于固話信道隨機(jī)噪聲的影響,固定電話錄音波形比麥克風(fēng)錄音波形更稀疏,它的振幅更小,靜音部分比較粗糙。可以看到圖7(a)中,傳統(tǒng)雙門限檢測結(jié)果基本失效,這是因?yàn)楣淘捫诺罈l件下,隨機(jī)噪聲的大量增加,導(dǎo)致傳統(tǒng)過零率檢測方法檢測出來的結(jié)果已經(jīng)失去過零率的意義,靜音部分的過零率甚至超過了輔音段,必然會導(dǎo)致檢測結(jié)果的失敗。而圖7(b)中,在改進(jìn)雙門限端點(diǎn)檢測方法后,可以完整識別出每一段語音,結(jié)果非常理想。
圖7 固定電話下改進(jìn)雙門限算法前后端點(diǎn)檢測結(jié)果
圖8 表示的是手機(jī)信道下的雙門限端點(diǎn)檢測算法改進(jìn)前后的實(shí)驗(yàn)結(jié)果對比。從波形上看,特別是在無聲段部分,它比麥克風(fēng)語音要粗糙,但比固話語音要清晰。在圖8(a)中傳統(tǒng)的雙門限算法能成功檢測出兩段語音,但是“紀(jì)”字被丟失。而在改進(jìn)端點(diǎn)檢測算法檢測后,如圖8(b),可以完整并精確地找到每一段語音的起止點(diǎn)。
圖8 手機(jī)信道下改進(jìn)雙門限算法前后端點(diǎn)檢測結(jié)果
為了進(jìn)一步檢驗(yàn)改進(jìn)的雙門限端點(diǎn)檢測算法的性能,對三種信道下的端點(diǎn)檢測結(jié)果正確率進(jìn)行計(jì)算并統(tǒng)計(jì)。端點(diǎn)檢測的正確率計(jì)算公式為:
表2為麥克風(fēng)、固定電話和手機(jī)三種信道下的雙門限端點(diǎn)檢測算法改進(jìn)前后識別率:
表2 不同信道下端點(diǎn)檢測結(jié)果對比 %
在固定電話,手機(jī)和麥克風(fēng)三種信道下,隨機(jī)噪聲的影響逐漸減弱。傳統(tǒng)的雙門限法在麥克風(fēng)條件下的實(shí)驗(yàn)結(jié)果能達(dá)到82.5%,但表2中可以看到,在手機(jī)和固定電話下,識別結(jié)果大大下降。改進(jìn)算法后,同樣可以看到,三種信道下的識別正確率都有很大的提高,魯棒性更強(qiáng)。
復(fù)雜信道下的魯棒性說話人識別技術(shù)一直是語音識別研究的重難點(diǎn)[8~12],說話人的個(gè)性特征主要蘊(yùn)含在濁音中,靜音段和噪聲段會降低識別結(jié)果。而端點(diǎn)檢測可以用來提取有效數(shù)據(jù)幀,所以,復(fù)雜信道下的端點(diǎn)檢測技術(shù)研究是很有必要的。文中通過改進(jìn)傳統(tǒng)雙門限端點(diǎn)檢測技術(shù),經(jīng)大量數(shù)據(jù)測試,實(shí)驗(yàn)效果理想。在實(shí)際應(yīng)用中,需要調(diào)整不同信道下的參數(shù)閾值,以得到最佳實(shí)驗(yàn)效果。把改進(jìn)算法結(jié)合好復(fù)雜信道下的說話人識別將是下一步工作研究的重點(diǎn)[13]。
[1]韓紀(jì)慶,張磊,鄭鐵然.語音信號處理[M].北京:清華大學(xué)出版社,2004:32-50.HAN Jiqing,ZHANG Len,ZHEN Tieran.Speech Signal Processing[M].Beijing:Tsinghua university press,2004:32-50.
[2]胡光銳.語音處理與識別[M].上海:上海科學(xué)技術(shù)文獻(xiàn)出版社,1994:23-29.HU Guangrui.Speech Processing and Recognition[M].Shanghai:Shanghai science and Technology Literature press,1994:23-29.
[3]夏敏磊.語音端點(diǎn)檢測技術(shù)研究[C].杭州:浙江大學(xué),2005:11-20.XIA Minlei.Research on speech endpoint detection technology[C].Hangzhou:Zhejiang university,2005:11-20.
[4]張志仁,崔慧娟.基于短時(shí)能量的語音端點(diǎn)檢測算法研究[J].電聲技術(shù),2005,52(7):51-62.ZHANG Zhiren,CUI Huijuan.Speech Endpoint Detection Algorithm Analyses Based on short-term Energy[J].Audio Engineering,2005:52(7):51-62.
[5]路青起,白燕燕.基于雙門限兩級判決的語音端點(diǎn)檢測方法[J].電子科技,2012,25(1):13-15.LU Qingqi,BAI Yanyan.A Speech Endpoint Detection Algorithm Based on Dual-threshold Two Sentence[J].Electronic Science and Technology,2012,25(1):13-15.
[6]Deller J R,Proakis J G,Hansen J H L.Discrete-Time Processing of Speech Signals[M].New York:Macmillan,1993:20-40.
[7]陳振華,徐波.基于子帶能量特征的最優(yōu)化語音端點(diǎn)檢測算法研究[J].聲學(xué)學(xué)報(bào),2005,30(2):171-176.CHEN Zhenhua,XU Bo.Optimization of Speech endpoint detection base on sub-band energy feature[J].Acta Acustica,2005,30(2):171-176.
[8]WuGinDcr,Lin ChinTeng.Word boundary detection with mel-scale frequency bank in noisy environment[C]//IEEE Transactions on Speech and Audio Processing,2000,8(5):540-553.
[9]Wang HuanLian,Han jiqing,Lihaifeng.Robust endpoint detection based on feature weighted likelihood and dimension reduction[J].Acta Acoustica,2007,32(1):62-68.
[10]林興華,肖熙.基于多子帶能量和基音特征的語音端點(diǎn)檢測方法[D].北京:清華大學(xué),2011,35(9):34-37.LIN Xinhua,XIAO Xi.Speech Endpoints Detection Method Based On Sub-bands Energy and Pitch Characteristics[D].Beijing:Tsinghua university,2011,35(9):34-37.
[11]Canny J.A computational approach to edge detection[C]//IEEE Trans on Pattern Analysis and Machine Intelligence,1986,8:677-695.
[12]冉國敬,夏秀渝,張鳳儀.信道失配環(huán)境下魯棒說話人識別[J].計(jì)算機(jī)系統(tǒng)應(yīng)用,2015,24(3):1-5.RAN Guojing,XIA Xiuyu,ZHANG Fengyi.Robust Speaker Recognition Under Channel Mismatch Environment[J].Computer Systems and Application,2015,24(3):1-5.
[13]G.Suvarna Kumar,K.A.Prasad Raju,et al.Speaker Recognition Using GMM[J].International Journal of Engineering Science and Technology,2010,2 (6) :2428-2436.
Research and Improvement on Endpoint Detection Based on Dual-threshold Algorithm
WANG ManhongZHANG ErhuaWANG Minghe
(Laboratory of Pattern Recognition and Artificial Intelligence,Nanjing University of Science and Technology,Nanjing 210094)
The technology of endpoint detection which has been the focus of speech processing in recent years is an important step of speech recognition,and it has a great influence on speech processing,speech recognition and speaker identification etc.For clear speech,The traditional dual-threshold algorithm is accurate,however,it's greatly reduced while in the complex channel environment.Aiming at the limitations of the traditional dual-threshold algorithm,an improved method based on two sentences is proposed in this paper.In order to enhance the anti interference of zero rate in the complex environment,the short term amplitude is used to construct the zero band.At the same time,the energy thresholds of the consonants and suspected consonants are used to solve the problem of the loss of the voiceless consonants and the mixing of the silent voice segment.Experimental results prove that the proposed method can improve the endpoint accuracy obviously,although in the background of complex channel.
endpoint detection,dual-threshold,short-term energy,short-term zero rate,complex channel
TN912
10.3969/j.issn.1672-9722.2017.11.030
Class Number TN912
2017年5月13日,
2017年6月17日
王滿洪,男,碩士研究生,研究方向:語音信號處理。張二華,男,博士后,副教授,碩士生導(dǎo)師,研究方向:微地震檢測與語音信號處理。王明合,男,博士,研究方向:語音信號處理。