方臻成
【摘要】 在語(yǔ)音信號(hào)處理中,端點(diǎn)檢測(cè)是十分重要的一項(xiàng)內(nèi)容。端點(diǎn)檢測(cè),可以在有噪聲的背景中確定語(yǔ)音信號(hào)的起始點(diǎn)和終止點(diǎn),為后續(xù)處理做必要的準(zhǔn)備。而由于背景噪聲的存在,光從波形上判斷始終點(diǎn)會(huì)有一定困難。本文針對(duì)端點(diǎn)檢測(cè),介紹短時(shí)能量法與過(guò)零率法兩種方法,并對(duì)這兩種方法進(jìn)行討論。
【關(guān)鍵詞】 語(yǔ)音信號(hào)處理 端點(diǎn)檢測(cè)
一、背景
在錄制語(yǔ)音時(shí),除了將說(shuō)話人的語(yǔ)音錄進(jìn)計(jì)算機(jī)外,還不可避免地將外界噪聲也錄入計(jì)算機(jī)。因此,在說(shuō)話者沒(méi)有說(shuō)話的時(shí)候,也會(huì)有信號(hào)出現(xiàn)在錄制好的文件中。在這種情況下,就給判斷語(yǔ)音信號(hào)從哪開(kāi)始,在哪結(jié)束帶來(lái)困難。在這種情況下,對(duì)信號(hào)進(jìn)行端點(diǎn)檢測(cè),來(lái)判斷語(yǔ)音的始點(diǎn)與終點(diǎn)是有必要的。下面介紹的是兩種常用方法:短時(shí)能量法與過(guò)零率法。
二、語(yǔ)音的分類
從發(fā)音特點(diǎn)來(lái)分,語(yǔ)音可以分成很多種。最基本的兩種是元音與輔音。當(dāng)我們發(fā)元音時(shí),聲帶發(fā)出的聲音氣流從喉腔、咽腔進(jìn)入口腔從唇腔出去時(shí),這些聲腔完全開(kāi)放,氣流順利通過(guò),如漢語(yǔ)拼音的a、o、e。當(dāng)我們發(fā)輔音時(shí),呼出的聲流,由于通路的某一部分封閉起來(lái)或受到阻礙,氣流被阻,與發(fā)聲器官發(fā)生摩擦從而發(fā)出聲音,如漢語(yǔ)拼音的s、t。
三、短時(shí)能量法
將語(yǔ)音信號(hào)數(shù)字化后,信號(hào)x(n)短時(shí)能量定義如下:
■
其中w(n)是窗函數(shù)。由于語(yǔ)音信號(hào)的短時(shí)能量一般會(huì)比噪聲的要大,因此可以通過(guò)短時(shí)能量對(duì)語(yǔ)音信號(hào)的起點(diǎn)與終點(diǎn)進(jìn)行判斷。
四、短時(shí)過(guò)零率法
如果將時(shí)間作為橫軸,聲音的振幅作為縱軸,那么就可以在坐標(biāo)上記錄聲音的波形圖。過(guò)零率就是單位時(shí)間內(nèi)波形穿越時(shí)間軸的次數(shù)。一般來(lái)說(shuō),噪聲都是頻率高,振幅小的信號(hào),因此噪聲的過(guò)零率極高。為了屏蔽噪聲的過(guò)零率,我們?cè)O(shè)置一個(gè)閾值。比如說(shuō),假設(shè)噪聲的幅度一般不超過(guò)a(a是一個(gè)比較小的數(shù)),那么我們就把正負(fù)a作為一個(gè)閾值,只有波形穿越了正負(fù)a這一區(qū)間,才算一次穿越橫軸。這樣,噪聲就在正負(fù)a區(qū)間震動(dòng),并不會(huì)提高過(guò)零率。這樣,就可以通過(guò)過(guò)零率判斷語(yǔ)音的始終點(diǎn)。信號(hào){x(n)}的短時(shí)平均過(guò)零率定義為:
■
其中sgn是符號(hào)函數(shù):
■
五、兩種方法的比較
錄取“一、二、三”三個(gè)字節(jié)的音頻,將音頻數(shù)字化后進(jìn)行分幀,幀長(zhǎng)為160點(diǎn)。以160點(diǎn)為幀長(zhǎng),80為幀移,分別計(jì)算其短時(shí)能量與過(guò)零率。圖1由上至下三個(gè)圖分別是語(yǔ)音數(shù)字化后的波形圖、短時(shí)能量與過(guò)零率。
在三個(gè)圖中,用豎線劃分出來(lái)的部分就是元音部分。從這三個(gè)圖中可以看到,對(duì)于元音,不管用短時(shí)能量還是過(guò)零率,都能較好地看出元音地起點(diǎn)與終點(diǎn)。但對(duì)于輔音,情況就有點(diǎn)復(fù)雜。以音節(jié)“三”為例,“三”包含一個(gè)輔音“s”和一個(gè)元音“an”,從圖中可看出,發(fā)“s”時(shí),語(yǔ)音的短時(shí)能量非常低,而過(guò)零率卻非常高,這證明,輔音的幅度很?。ǖ仍胍舸螅o音的頻率比元音大得多。因此,如果光用短時(shí)能量,很難判斷出輔音的出現(xiàn)。而對(duì)元音方面,雖然用兩種方法都能判斷元音的始終點(diǎn),但從音節(jié)“三”看出,元音的過(guò)零率比輔音要低,因此光靠過(guò)零率來(lái)識(shí)別元音,會(huì)有誤差。
因此,從圖1可知,輔音過(guò)零率高而短時(shí)能量小,元音過(guò)零率低而短時(shí)能量大。光靠一種方法來(lái)判斷語(yǔ)音的始終會(huì)有誤差的,應(yīng)該將兩者結(jié)合起來(lái)看??偟膩?lái)說(shuō),在噪聲比較小的時(shí)候,用短時(shí)能量判斷會(huì)比較準(zhǔn)確,而在噪聲比較大時(shí),用過(guò)零率來(lái)判斷會(huì)比較準(zhǔn)確。
參 考 文 獻(xiàn)
[1] 趙力. 語(yǔ)音信號(hào)處理[M].機(jī)械工業(yè)出版社