【摘要】將小波變換的多分辨率特性用于改進(jìn)Mel頻率倒譜系數(shù)MFCC的前端處理中,給出了一種新的語音特征參數(shù)——小波MFCC。其特點(diǎn)在于采用小波變換、分層FFT和頻率合成代替原來MFCC中的FFT部分,使頻譜分辨率提高了一倍。試驗(yàn)證明,小波MFCC特征參數(shù)在較大詞匯量情況下,其識(shí)別率優(yōu)于MFCC特征參數(shù)的結(jié)果。
【關(guān)鍵詞】小波分析;語音識(shí)別;MFCC
Abstract:The multi resolution characteristic of wavelet is used to improve the front end processing of MFCC.So,a new feature parameter wavelet MFCC is presented in this paper.It uses wavelet transform,multi degree FFT and frequency synthesis to replace original FFT of MFCC,and increases spectrum resolution by 2.The experiments demonstrate that robustness and recognition rate of wavelet MFCC feature are better than one of MFCCs in large vocabulary.
Key words:wavelet transformation;speech recognition;MFCC
1.引言
在語音識(shí)別和說話人識(shí)別中,基于Mel頻率的倒譜系數(shù)MFCC(mel frequency cepstrum cofficient)是將人耳的聽覺感知特性和語音的產(chǎn)生機(jī)制相結(jié)合,與其他特征參數(shù)相比較,體現(xiàn)了較優(yōu)越的性能,在無噪聲情況下能得到較高的識(shí)別率,因此是目前使用最廣泛的特征參數(shù)。但是,隨著識(shí)別詞匯量的增大,這種參數(shù)的識(shí)別性能急劇地下降。說明這種特征不適合大詞匯量識(shí)別。
近年來,小波變換被廣泛應(yīng)用于語音處理中,主要包括:利用小波變換對(duì)聽覺感知系統(tǒng)進(jìn)行模擬,對(duì)語音信號(hào)去噪,進(jìn)行清、濁音判斷。因?yàn)樾〔ㄗ儞Q的局部化性質(zhì),可以在很小的分幀長下對(duì)語音信號(hào)仍具有較高的頻譜分辨率,本文將小波變換技術(shù)引入到MFCC特征參數(shù)中,來進(jìn)行語音識(shí)別系統(tǒng)的特征提取,可以提高對(duì)輔音區(qū)的識(shí)別效果。因此,用WMFCC特征參數(shù)作為隱馬爾可夫(HMM)識(shí)別網(wǎng)絡(luò)的輸入信號(hào),識(shí)別效果明顯提高。
2.MFCC特征參數(shù)
圖1所示為MFCC特征參數(shù)的計(jì)算流程圖。
圖1 MFCC特征參數(shù)的提取
人類聽覺系統(tǒng)對(duì)聲音高低的感知與實(shí)際頻率是一種非線性映射關(guān)系[1],而與Mel頻率成線性關(guān)系。根據(jù)人的聽覺機(jī)理來進(jìn)行Mel濾波器組的頻帶劃分,模擬不同頻率下人耳對(duì)語音的感知特性。實(shí)際頻率和Mel頻率的轉(zhuǎn)換關(guān)系用公式(1)表示。
其中Fmel是感知頻率,單位美(Mel),F(xiàn)是以HZ為單位的實(shí)際頻率。將語音的實(shí)際頻率變換到感知頻率中,能更好地模擬人的聽覺處理過程。
首先,將輸入語音信號(hào)進(jìn)行預(yù)處理,包括預(yù)加重、加窗分幀,然后作快速傅立葉變換,獲得頻譜分布信息;
其次,將頻域信號(hào)通過按Mel頻率坐標(biāo)分布的三角濾波器組。
每個(gè)Mel三角帶通濾波器的傳遞函數(shù)為:
3.基于小波分析特征參數(shù)提取
3.1 小波理論在語音識(shí)別應(yīng)用基礎(chǔ)
傳統(tǒng)的語音信號(hào)頻譜是采用固定窗的傅立葉變換,在短時(shí)平穩(wěn)的假設(shè)基礎(chǔ)上得到的。
傅立葉變換能夠?qū)Υ皟?nèi)平穩(wěn)信號(hào)(整個(gè)窗長度內(nèi)信號(hào)特性相同)提供精確的頻率分量。由于語音信號(hào)是短時(shí)平穩(wěn)信號(hào),由不確定性原理[2]可知,基于短時(shí)平穩(wěn)假設(shè)的固定窗傅立葉變換將會(huì)模糊語音的細(xì)節(jié)特征,從而引起一些非常重要的信息丟失。小波理論是一種非平穩(wěn)信號(hào)的分析方法,采用多分辨分析的思想,非均勻的劃分時(shí)——頻空間,能夠有效地從信號(hào)中提取信息。具有時(shí)域局部性和頻域局部性,并且其時(shí)頻窗口可以根據(jù)不同頻率自適應(yīng)地調(diào)節(jié),從而能精確地反映非平穩(wěn)信號(hào)的瞬間變化。將小波變換引入語音信號(hào)的特征提取中,系統(tǒng)的識(shí)別性能能夠得到一定的改善。
與傅立葉變換類似,小波變換是將信號(hào)s(t)分解為若干基函數(shù)的線性組合。其基函數(shù)是。如果是正交小波基,那么信號(hào)可分解成小波基的組合:
其中j為不同分辨率下標(biāo),j越大,表示分析的分辨率越低;j0表示最低分辨率;k為時(shí)間局部性下標(biāo);wjk代表信號(hào)在2jk時(shí)刻附近,2-jf0頻率附近的值。尺度系數(shù)uk代表信號(hào)在2j0k附近平均值。隨著分辨率的變化,能夠在不同分辨率上得到小波細(xì)節(jié),也就是高分辨的小波系數(shù)用來表示語音信號(hào)的快變分量,低分辨的小波系數(shù)用來表示語音信號(hào)的慢變分量。
3.2 基于離散小波變換的征參數(shù)提取
要將小波變換應(yīng)用在語音識(shí)別中,關(guān)鍵是將小波系數(shù)歸整成維數(shù)不大的高效特征參數(shù)[3]。本文把傅里葉變換用離散小波變換代替,將小波變換引入到特征參數(shù)提取過程中。WMFCC特征參數(shù)提取框圖如圖2所示。與MFCC相比,其主要不同在其前端處理。WMFCC的特點(diǎn)在于采用小波變換、分層FFT和頻率合成。
圖2 WMFCC特征參數(shù)提取方框圖
具體實(shí)現(xiàn)方法如下:
(1)本文試驗(yàn)中,先把語音信號(hào)用Matlab中的DB3小波進(jìn)行預(yù)處理變換,256個(gè)樣點(diǎn)為一幀,幀移為128個(gè)樣點(diǎn),進(jìn)行6層小波變換,得到的小波系數(shù)為7層。從第1層到第6層,語音信號(hào)的頻段逐次升高,得到個(gè)數(shù)分別為12、12、20、36、67、130、249的6層小波系數(shù)。
(2)將分層后的小波系數(shù)做FFT變換,獲得其頻率響應(yīng)。把上述各層小波系數(shù)補(bǔ)零,得到2的整數(shù)次方,進(jìn)行快速FFT變換。經(jīng)FFT變換后,得到樣點(diǎn)數(shù)分別為:16、16、32、64、128、256、512的7層小波系數(shù)。
(3)頻率合成,按照頻率高低把各層小波系數(shù)頻率響應(yīng)組合成完整的頻譜(頻譜最高位對(duì)應(yīng)第1層小波系數(shù)),最終得到有1024個(gè)樣點(diǎn)的頻譜。因?yàn)橐员氵M(jìn)行快速傅里葉變換,在小波系數(shù)后補(bǔ)零,所以頻譜分辨率和Mel濾波器組的分辨率分別比MFCC提高了一倍。
表1 MFCC和WMFCC特征的識(shí)別結(jié)果比較(%)
4.仿真結(jié)果與分析
本文采用隱馬爾科夫(HMM)網(wǎng)絡(luò)模型對(duì)孤立詞、非特定人語音信號(hào)進(jìn)行模式識(shí)別。系統(tǒng)的字表依次為10詞、20詞、30詞、40詞、50詞,每字采集60次發(fā)音,共15人,每人發(fā)音4次,前10人的發(fā)音作為訓(xùn)練集,其余5人發(fā)音作為測試集。表1是仿真試驗(yàn)結(jié)果。
由表1分析得到:(1)通過對(duì)表中所有識(shí)別率的對(duì)比,兩種特征的識(shí)別率都在90%以上,WMFCC的識(shí)別率基本在95%左右,明顯高于MFCC;(2)從上到下看結(jié)果,隨詞匯量增大,兩種特征參數(shù)的識(shí)別率差值最高達(dá)到2.49,并且WMFCC特征的識(shí)別率下降幅度較小,從而說明了在較大詞匯量識(shí)別中,WMFCC有更好的識(shí)別效果。
本文在MFCC特征參數(shù)提取的基礎(chǔ)上引入了小波分析技術(shù),得到了WMFCC語音識(shí)別特征參數(shù)。通過仿真試驗(yàn)表明,在較大詞匯量情況下,有更好的識(shí)別結(jié)果。
參考文獻(xiàn)
[1]趙力.語音信號(hào)處理[M].北京:機(jī)械工業(yè)出版社,2003.
[2]張震,王化清.語音信號(hào)特征提取中Mel倒譜系MFCC的改進(jìn)算法[J].計(jì)算機(jī)工程與應(yīng)用,2008,44(22).
[3]俸云,景新幸,葉懋.MFCC特征改進(jìn)算法在語音識(shí)別中的應(yīng)用[J].計(jì)算機(jī)工程與科學(xué),2009,31(12):146-148.
[4]趙姝彥,張雪英.基于ZCPA和DHMM的孤立詞語音識(shí)別系統(tǒng)[J].太原理工大學(xué)學(xué)報(bào),2005,3(36):246-249.
[5]Loizou P C.NOIZEUS:a Noisy Speech Corpus for Evaluation of Speech Enhancement Algorithms.www.utdallas.edu/~loizou/speech/noizeus/,2011-4-23.