摘 要:文章在研究語音識(shí)別系統(tǒng)中端點(diǎn)檢測(cè)基本算法的基礎(chǔ)上,分別對(duì)利用雙門限的端點(diǎn)檢測(cè)方法、利用小波變換的端點(diǎn)檢測(cè)方法、利用倒譜相關(guān)理論的端點(diǎn)檢測(cè)方法原理進(jìn)行了闡述和說明,并對(duì)幾種端點(diǎn)檢測(cè)方法的特點(diǎn)進(jìn)行了分析。
關(guān)鍵詞:端點(diǎn)檢測(cè);雙門限;小波變換;倒譜
1 概述
就一般情況下來講,在語音通信過程當(dāng)中,大多采用有線電話網(wǎng)的方式來進(jìn)行,但是由于某些地區(qū)環(huán)境及場(chǎng)合需要等因素,則需要通過無線電臺(tái)來作為通信方式。與此同時(shí),在其實(shí)際應(yīng)用過程中,整個(gè)通話過程由語音控制來實(shí)現(xiàn)。具體來講,有線方說話時(shí)本地?zé)o線電臺(tái)則處于發(fā)射狀態(tài),相對(duì)應(yīng)來講遠(yuǎn)端無線電臺(tái)為接收狀態(tài),相反來講,當(dāng)有線方沉默的時(shí)候,無線電臺(tái)工作狀態(tài)發(fā)轉(zhuǎn)。其中,語音端點(diǎn)檢測(cè)方法和技術(shù)是關(guān)鍵,基于從某段語音信號(hào)當(dāng)中來準(zhǔn)確判斷語音位置(起始點(diǎn)與終止點(diǎn)),從而有效地區(qū)分是否為語音信號(hào)這樣的目的。該技術(shù)對(duì)于減少數(shù)據(jù)的采集量、降低或者排除噪聲段的干擾以及提高系統(tǒng)識(shí)別性能等方面具有關(guān)鍵作用。
2 利用雙門限進(jìn)行語音端點(diǎn)檢測(cè)
首先確定短時(shí)能量和短時(shí)過零率符合端點(diǎn)起點(diǎn)判定條件的幀,接著再根據(jù)短時(shí)過零率和短時(shí)能量符合端點(diǎn)終點(diǎn)判定條件的幀。除此之外,對(duì)于一些突發(fā)性噪聲檢測(cè),比如由于門窗開關(guān)所引起的噪聲,相對(duì)應(yīng)來講我們可以通過設(shè)置最短時(shí)間門限來進(jìn)行判斷。具體來講,當(dāng)處于靜音這一語音信號(hào)端點(diǎn)檢測(cè)段時(shí),如數(shù)值比低門限還低,與此同時(shí)最短時(shí)間門限大于計(jì)時(shí)長(zhǎng)度,那么我們基本上可以確定這是一段噪音。
雙門限的檢測(cè)算法結(jié)合了短時(shí)能量和短時(shí)過零率的優(yōu)點(diǎn),在得到的端點(diǎn)檢測(cè)結(jié)果中,其精確度和濁音檢測(cè)都能得到很好的保證?,F(xiàn)在有很多的端點(diǎn)檢測(cè)算法都是根據(jù)雙門限的算法進(jìn)行不同的改進(jìn),能使其各有優(yōu)劣,從而適應(yīng)于不同的情況和環(huán)境。
3 利用小波變換進(jìn)行語音端點(diǎn)檢測(cè)
小波變換屬于時(shí)頻分析的一種,具體來說是空間(時(shí)間)和頻率的局部變換,因而能有效的從信號(hào)中提取信息。小波變換能將信號(hào)在時(shí)域中表現(xiàn)不了的特征在頻域中表現(xiàn)出來。因此,利用小波變換的這一個(gè)特性,根據(jù)有效的說話人的聲音數(shù)據(jù)和背景噪聲數(shù)據(jù)的頻譜存在明顯差異的特征來進(jìn)行端點(diǎn)檢測(cè)。一般有效的說話人的聲音數(shù)據(jù)的頻譜分布范圍很大,而且頻率的值也很大。而背景噪聲的頻譜變化不大,而且值也較小。因此先將語音數(shù)據(jù)分幀,將分幀后的數(shù)據(jù)進(jìn)行一次小波變換,再對(duì)小波變換后的數(shù)據(jù)計(jì)算方差,如果計(jì)算的結(jié)果大于一定的閾值,那么這幀即被記為起始幀,若在起始幀存在的情況下計(jì)算的結(jié)果小于閾值,則被記為結(jié)束幀。
4 利用倒譜系數(shù)和倒譜距離進(jìn)行語音端點(diǎn)檢測(cè)
(1)預(yù)處理:對(duì)8kHz采樣信號(hào)進(jìn)行預(yù)加重處理,然后分幀加窗,幀長(zhǎng)取16ms(128個(gè)采樣點(diǎn)),幀移4ms,對(duì)每一幀信號(hào)加128點(diǎn)的矩形窗。
(2)估計(jì)噪聲倒譜系數(shù)和倒譜距離:階數(shù)p取12,首先假定抽樣信號(hào)起始10幀是背景噪聲,利用這10幀的前5幀倒譜系數(shù)的統(tǒng)計(jì)平均值作為背景噪聲倒譜系數(shù)的估計(jì)值,用向量表示。同時(shí)計(jì)算這10幀的后5幀倒譜距離平均值作為背景噪聲倒譜距離的估計(jì)值,其中表示當(dāng)前幀的倒譜系數(shù),為對(duì)應(yīng)的倒譜系數(shù)。
(3)逐幀計(jì)算值:逐幀計(jì)算倒譜系數(shù),然后由每幀信號(hào)的倒譜系數(shù)和噪聲倒譜系數(shù)的估計(jì)值計(jì)算倒譜距離。
(4)確定判決門限:采用類似于短時(shí)能量檢測(cè)法所使用的動(dòng)態(tài)門限判決準(zhǔn)則。
5 端點(diǎn)檢測(cè)方法的對(duì)比分析結(jié)論
在對(duì)三種算法的算法特性、適用情況、檢測(cè)精度和檢測(cè)速度做一個(gè)總體的統(tǒng)計(jì)分析比較,三種端點(diǎn)檢測(cè)方法的總體比較算法特征適用情況檢測(cè)精度檢測(cè)速度。
(1)雙門限時(shí)域范圍內(nèi)對(duì)聲音數(shù)據(jù)的能量和過零率分析高信噪比的環(huán)境低最快。
(2)小波檢測(cè)頻域范圍內(nèi)對(duì)聲音數(shù)據(jù)進(jìn)行小波變換后,方差分析高或低信噪比的環(huán)境高慢。
(3)倒譜檢測(cè)頻域范圍內(nèi)對(duì)聲音數(shù)據(jù)進(jìn)行倒譜變換后,計(jì)算倒譜距離高或低信噪比的環(huán)境高快。
通過對(duì)三種算法的比較,可以發(fā)現(xiàn)倒譜變換的端點(diǎn)檢測(cè)方法是最具有實(shí)用價(jià)值的。小波方法檢測(cè)的聲音數(shù)據(jù)雖然檢測(cè)的精度很高,但是檢測(cè)的速度很慢,相對(duì)適用于在實(shí)驗(yàn)室的情況下進(jìn)行端點(diǎn)檢測(cè)。
參考文獻(xiàn)
[1]張雄偉,等.現(xiàn)代語音處理技術(shù)及應(yīng)用[M].北京:機(jī)械工業(yè)出版社,2003.
[2]胡光銳.語音處理與識(shí)別[M].上海:上海科學(xué)技術(shù)文獻(xiàn)出版社,1994.
[3]蔡蓮紅,等.現(xiàn)代語音技術(shù)基礎(chǔ)及應(yīng)用[M].北京:清華大學(xué)出版社,2003.
[4]韓紀(jì)慶,等.語音信號(hào)處理[M].北京:清華大學(xué)出版社,2004.
[5]何湘智.語音識(shí)別的研究與發(fā)展[J].計(jì)算機(jī)與現(xiàn)代化,2002,79(3).
[6]趙高峰,張雪英,侯雪梅.一種基于小波系數(shù)方差的語音端點(diǎn)檢測(cè)方法[J].太原理工大學(xué)學(xué)報(bào),2006,37(5).
[7]董力,陳宏欽,馬爭(zhēng)鳴.基于小波變換的語音段起止端點(diǎn)檢測(cè)算法[J].中山大學(xué)學(xué)報(bào)(自然科學(xué)版),2005,44(3).
[8]胡光銳,韋曉東.基于倒譜特征的帶噪語音端點(diǎn)檢測(cè)[J].電子學(xué)報(bào),2000,10(9).
[9]NASSAR AM, KADER N S, Refat AM. End point s detection for noisy speech using a wavelet based algorit hm[M].Buda2 pest Kluwer Academic Publishers,1999:9032906.
[10]Haigh J A,Mason J S. Robust Voice Activity Detection Using Cep stral Features[J].Computer, Communication, Control and Power Engineering. Proceedings of the IEEE Region 10 Conference TENCON,1993,3(3).