葛艷 白艷萍 胡紅萍
【摘 要】隨著語(yǔ)音技術(shù)的發(fā)展,語(yǔ)音識(shí)別技術(shù)應(yīng)用到各個(gè)領(lǐng)域,而端點(diǎn)檢測(cè)是語(yǔ)音識(shí)別系統(tǒng)中至關(guān)重要的一個(gè)環(huán)節(jié),語(yǔ)音端點(diǎn)檢測(cè)的精確度直接影響語(yǔ)音識(shí)別的準(zhǔn)確度.在噪聲環(huán)境下,語(yǔ)音端點(diǎn)檢測(cè)很困難,信噪比下降,本文就基于短時(shí)能量過零率和基于功率譜熵對(duì)所采集的音頻文件進(jìn)行端點(diǎn)檢測(cè),然后對(duì)處理后的音頻進(jìn)行頻譜分析、對(duì)比,得出基于功率譜熵的端點(diǎn)檢測(cè)的魯棒性比較好,識(shí)別效果比較好。
【關(guān)鍵詞】短時(shí)能量過零率 功率譜熵 端點(diǎn)檢測(cè) 魯棒性
一、引言
語(yǔ)音端點(diǎn)檢測(cè)是指從含噪語(yǔ)音中找到語(yǔ)音段的起始點(diǎn),端點(diǎn)檢測(cè)對(duì)孤立詞識(shí)別非常關(guān)鍵,語(yǔ)音識(shí)別一半以上的錯(cuò)誤是由錯(cuò)誤的端點(diǎn)檢測(cè)導(dǎo)致的.準(zhǔn)確的端點(diǎn)檢測(cè)還可以降低后續(xù)處理時(shí)間和存儲(chǔ)空間,使語(yǔ)音識(shí)別系統(tǒng)性能達(dá)到最佳.
目前,基于能量的方法是目前語(yǔ)音端點(diǎn)檢測(cè)廣泛使用的方法,它在高信噪比條件下效果很好,但是當(dāng)信噪比很低時(shí),純粹的能量參數(shù)效果不再令人滿意。本文就基于短時(shí)能量過零率和基于功率譜熵對(duì)所采集的音頻文件進(jìn)行端點(diǎn)檢測(cè),分析對(duì)比證實(shí)了基于功率譜熵對(duì)語(yǔ)音識(shí)別有比較好的識(shí)別性。
二、理論概述
(一)基于短時(shí)能量和過零率的端點(diǎn)檢測(cè)
1、短時(shí)能量
由于語(yǔ)音信號(hào)的短時(shí)性,因此對(duì)數(shù)字化后的語(yǔ)音信號(hào)一般進(jìn)行分幀處理,并認(rèn)為1幀內(nèi)信號(hào)的頻譜特征和某些物理特征參量近似看做不變。1幀內(nèi)的信號(hào)能量稱為短時(shí)能量。
語(yǔ)音和噪聲的區(qū)別可以體現(xiàn)在它們的能量上,語(yǔ)音段的能量比噪聲段能量大,語(yǔ)音段的能量是噪聲段能量疊加語(yǔ)音聲波能量的和。在信噪比很高時(shí),那么只要計(jì)算輸入信號(hào)的短時(shí)能量或短時(shí)平均幅度就能夠把語(yǔ)音段和噪聲背景區(qū)分開。
設(shè)第n幀語(yǔ)音信號(hào)的短時(shí)能量用En表示,則信號(hào)的短時(shí)能量定義為: 式中,N為信號(hào)幀長(zhǎng)。
2、過零率
短時(shí)過零表示一幀語(yǔ)音信號(hào)波形穿過橫軸(零電平)的次數(shù)。過零分析是語(yǔ)音時(shí)域分析中最簡(jiǎn)單的一種。對(duì)于連續(xù)語(yǔ)音信號(hào),過零意味著時(shí)域波形通過時(shí)間軸;而對(duì)于離散信號(hào),如果相鄰的取樣值的改變符號(hào)稱為過零。過零率就是樣本改變符號(hào)次數(shù)。
定義信號(hào)的短時(shí)平均過零率Zn為:
式中,為符號(hào)函數(shù),即:
3、過零率的修正
為盡可能減少低頻的干擾,在實(shí)際應(yīng)用中往往對(duì)過零率做出簡(jiǎn)單的修正,修正的方法是對(duì)上面的定義做一些修改,即設(shè)定一個(gè)門限T,將過零率的定義修改為穿越該門限的次數(shù)。
于是,有定義:
(二)基于熵函數(shù)的語(yǔ)音端點(diǎn)檢測(cè)
ShenJ L 首先將熵的概念引入到語(yǔ)音信號(hào)處理中,利用幅度譜熵在語(yǔ)音段與非語(yǔ)音段上頻譜的差異達(dá)到檢測(cè)語(yǔ)音端點(diǎn)的目的。在信息論中,用熵來表征信源輸出的平均信息量,假設(shè)信源發(fā)出有限個(gè)符號(hào) ,它們組成的輸出序列前后符號(hào)之間相互統(tǒng)計(jì)獨(dú)立, 分別為 n個(gè)符號(hào)出現(xiàn)的概率,其定義式如下:
信源熵是概率分布的函數(shù),而且概率分布越平坦熵值就越大。熵函數(shù)語(yǔ)音端點(diǎn)檢測(cè)就是通過檢測(cè)語(yǔ)音頻譜的平坦程度來實(shí)現(xiàn)的。對(duì)于非語(yǔ)音段,其能量比較平穩(wěn)的分布在各個(gè)頻率,因而其頻譜熵比較大。而對(duì)于語(yǔ)音段,聲音的能量主要集中在某幾個(gè)頻段上,因而其頻譜熵比較小。于是可以根據(jù)語(yǔ)音段和非語(yǔ)音段在譜熵上的差異來實(shí)現(xiàn)語(yǔ)音端點(diǎn)的檢測(cè)本文中采用功率譜熵的方法,功率譜熵函數(shù)的構(gòu)造構(gòu)成如下:
首先對(duì)語(yǔ)音進(jìn)行分幀加漢明窗,幀成為256,幀移128,對(duì)每幀語(yǔ)音信號(hào)計(jì)算其短時(shí)自相關(guān)序列,對(duì)得到的序列進(jìn)行傅里葉變換即可得到功率譜密度。各頻率分量的歸一化功率譜密度函數(shù)可表示為:
式中表示信號(hào)經(jīng)過FFT變換后的頻譜分量:表示某個(gè)頻率分量i所對(duì)應(yīng)的概率密度函數(shù);N表示FFT變換的長(zhǎng)度(本文取256點(diǎn))??紤]到語(yǔ)音信號(hào)類似于功率信號(hào),同時(shí)根據(jù)功率譜密度的對(duì)稱性,只取FFT一半的點(diǎn)來構(gòu)造以減少計(jì)算量。所以實(shí)際運(yùn)用中采用下式來計(jì)算歸一化功率譜密度函數(shù)
對(duì)應(yīng)的每一幀語(yǔ)音信號(hào)的信息熵定義為
H=
由以上功率譜熵函數(shù)的構(gòu)造過程可以看到熵的大小由功率譜的方差來決定而不是信號(hào)的幅度,幅度的大小不會(huì)影響歸一化功率譜密度函數(shù),語(yǔ)音信號(hào)的譜熵特征分析都是通過檢測(cè)譜的平坦程度,從而達(dá)到語(yǔ)音端點(diǎn)檢測(cè)的目的。對(duì)于無聲段,它的能量在各頻率的分布比較平穩(wěn),反映到信息量上,認(rèn)為其所含的平均信息量即譜熵較大;而對(duì)于語(yǔ)音段,它的能量集中于某幾個(gè)頻段,起伏突變大,那么它所含的平均信息量即譜熵較小,于是可以利用兩者譜熵的差異,進(jìn)行語(yǔ)音段和無聲段的劃分。并且理論上,如果譜的分布保持不變,信號(hào)幅值的大小不會(huì)影響.。因而,功率譜熵對(duì)噪聲有一定的穩(wěn)健性。
三、MATLAB對(duì)采集到的音頻進(jìn)行端點(diǎn)檢測(cè)實(shí)驗(yàn)
在本論文所采集的音頻信號(hào)中,撥號(hào)音相當(dāng)于語(yǔ)音段(有聲段),其他的為靜音段(噪聲段),撥號(hào)音段平均能量最高,靜音段平均能量相對(duì)較低,整個(gè)端點(diǎn)檢測(cè)可分為四段:靜音段、過渡段、撥號(hào)段、結(jié)束。使用一個(gè)變量表示當(dāng)前狀態(tài)。靜音段,如果能量或過零率超過低門限,就開始標(biāo)記起始點(diǎn),進(jìn)入過渡段。過渡段當(dāng)兩個(gè)參數(shù)值都回落到低門限以下,就將當(dāng)前狀態(tài)恢復(fù)到靜音狀態(tài)。而如果過渡段中兩個(gè)參數(shù)中的任一個(gè)超過高門限,即被認(rèn)為進(jìn)入撥號(hào)段。處于撥號(hào)段時(shí),如果兩參數(shù)降低到門限以下,而且總的計(jì)時(shí)長(zhǎng)度小于最短時(shí)間門限,則認(rèn)為是一段噪音,繼續(xù)掃描以后的撥號(hào)音數(shù)據(jù),直至標(biāo)記結(jié)束點(diǎn)。從而達(dá)到分離出單個(gè)撥號(hào)音的效果。
低噪音音頻875417基于短時(shí)能量過零率端點(diǎn)檢測(cè) 低噪音音頻875417基于功率譜熵的端點(diǎn)檢測(cè)。
四、總結(jié)
本文分別利用短時(shí)能量過零率和功率譜熵對(duì)銀行卡密碼,手機(jī)號(hào),銀行卡號(hào)所采集的音頻數(shù)據(jù)進(jìn)行端點(diǎn)檢測(cè)實(shí)驗(yàn),此實(shí)驗(yàn)是在適當(dāng)?shù)驮胍粝虏杉?,結(jié)果顯示功率譜熵的檢測(cè)效果會(huì)好點(diǎn),而且魯棒性比較好,但如果噪聲再高點(diǎn),功率譜熵的結(jié)果也不好,故本文有待于進(jìn)一步研究。
參考文獻(xiàn):
[1]Dean J,Krusienski.Nvestigations Into Using Matlab For Acoustical Adaptive Filtering[J]. REU PENN STATE Annual Research, 2003, 1: 45-53.
[2]陳亞勇.MATLAB 信號(hào)處理詳解[M]. 北京:人民郵電出版社,2000.
[3]程佩青.數(shù)字信號(hào)處理.第三版[M]. 北京:清華大學(xué)出版社,2008.
[4]Navarro-Mesa, J.An improved speech endpoint detection system in noisy environments by means of third-order spectra[J]. IEEE Signal Processing Letters, 1999, 6(9): 224-226.
基金項(xiàng)目:
國(guó)家自然基金(61275120)
作者簡(jiǎn)介:
葛艷(1987—),女,山西呂梁,碩士,研究生,研究方向:語(yǔ)音端點(diǎn)檢測(cè)。