唐曉進(jìn)
(國(guó)營(yíng)大眾機(jī)械廠(chǎng),山西太原 030024)
語(yǔ)音信號(hào)按Niquest采樣頻率采樣后,得到數(shù)字化表示的語(yǔ)音信號(hào)。由于采樣率一般在8kHz以上,經(jīng)數(shù)字化后的語(yǔ)音信號(hào),數(shù)據(jù)量很大,不便于有效、實(shí)時(shí)地分析處理,故需從中提取對(duì)語(yǔ)音識(shí)別有用的信息。特征提取就是完成這項(xiàng)工作,它對(duì)語(yǔ)音信號(hào)進(jìn)行分析處理,去除無(wú)關(guān)緊要的冗余信息,獲得影響語(yǔ)音識(shí)別的重要信息。在特征提取的眾多方法中,由于倒譜特征所包含的信息比其它參數(shù)多,能較好地表征語(yǔ)音信號(hào),本文選用LPC倒譜系數(shù)(LPCC)作為特征參數(shù)提取。
語(yǔ)音識(shí)別本質(zhì)上是一種模式識(shí)別的過(guò)程,其基本結(jié)構(gòu)原理框圖如圖1所示,主要包括語(yǔ)音信號(hào)預(yù)處理、特征提取、特征建模、相似性度量和后處理等幾個(gè)功能模塊[1]。
圖1 語(yǔ)音識(shí)別基本原理圖
語(yǔ)音識(shí)別系統(tǒng)常用的特征參數(shù)有幅度、能量、過(guò)零率、線(xiàn)性預(yù)測(cè)系數(shù)(LPC)、LPC倒譜系數(shù)(LPCC)、線(xiàn)譜對(duì)參數(shù)(LSP)、短時(shí)頻譜、共振峰頻率、反映人耳聽(tīng)覺(jué)特征的Mel頻率倒譜系數(shù)(MFCC)等。語(yǔ)音識(shí)別一般是語(yǔ)音特征參數(shù)模式的識(shí)別和比較,因此特征參數(shù)的選擇以及提取,對(duì)于語(yǔ)音識(shí)別系統(tǒng)至關(guān)重要,是系統(tǒng)構(gòu)建的基礎(chǔ)[2]。
在語(yǔ)音識(shí)別問(wèn)題中,選擇語(yǔ)音特征參數(shù)的主要依據(jù)是:
(1)該特征能夠充分正確地反映語(yǔ)音聲道譜,以便識(shí)別模型中利用其特征。
(2)語(yǔ)音特征維數(shù)達(dá)到有效地壓縮,將語(yǔ)音幀信號(hào)維數(shù)降低至特征參數(shù)的維數(shù),使后繼處理方便、快捷。
(3)特征參數(shù)的計(jì)算方法簡(jiǎn)便、高效,能在各種實(shí)時(shí)系統(tǒng)中實(shí)現(xiàn)。
依據(jù)語(yǔ)音信號(hào)產(chǎn)生的生理和數(shù)學(xué)模型可知,語(yǔ)音信號(hào)是音源激勵(lì)分量與聲道沖激響應(yīng)、輻射模型三者相乘的產(chǎn)物。因此通過(guò)語(yǔ)音信號(hào)的倒譜分析可有效地分離激勵(lì)成分和聲道成分。
計(jì)算語(yǔ)音信號(hào)的倒譜使用根據(jù)AR模型對(duì)LPC參數(shù)進(jìn)行遞推,形成LPC倒譜的方法。線(xiàn)性預(yù)測(cè)分析方法是一種譜估計(jì)的方法,而且其聲道模型系統(tǒng)函數(shù)H(z)反映了聲道的頻率響應(yīng)和原始信號(hào)的譜包絡(luò),因此用lgH(z)做反Z變換即可求出其LPC倒譜系數(shù)(LPCC)[3]。
通過(guò)線(xiàn)性預(yù)測(cè)分析得到的聲道模型為全極點(diǎn)模型,假設(shè)其系統(tǒng)函數(shù)為:
其中p為L(zhǎng)PC線(xiàn)性預(yù)測(cè)器的階數(shù)。設(shè)其沖激響應(yīng)為h(n),則:
將式(1)代入并將其兩邊對(duì)z-1求偏導(dǎo)數(shù),經(jīng)變換后,可得到和ak之間的遞推關(guān)系,從而由ak求出(n):
需要求h(n)的復(fù)倒譜(n),根據(jù)復(fù)倒譜定義,有:
其中ak為L(zhǎng)PC系數(shù),而p為其階數(shù)。
(n)將變得很小,實(shí)際上沒(méi)有更大的作用,反而使得運(yùn)算量增大。一般取8~32階時(shí)就可以較好地表征聲道特征。
本設(shè)計(jì)先對(duì)語(yǔ)音信號(hào)進(jìn)行預(yù)加重處理,然后進(jìn)行加窗、自相關(guān)分析,最后提取出LPC倒譜系數(shù)[4],具體流程圖如下:
圖2 LPC倒譜系數(shù)提取過(guò)程
(1)預(yù)加重
用于消除輻射的影響和聲門(mén)效應(yīng),進(jìn)行高頻提升,使信號(hào)的頻譜變得平坦,保持在低頻到高頻的整個(gè)頻帶中,能用同樣的信噪比求頻譜,以便于頻譜分析或聲道參數(shù)分析。使用語(yǔ)句“for(j=1;j< Framelen;j++)pre_data[j]=original[j]-0.95*original[j-1]”對(duì)信號(hào)進(jìn)行預(yù)加重處理,F(xiàn)ramelen為定義的幀長(zhǎng)。
(2)分幀
把語(yǔ)音信號(hào)分成幀長(zhǎng)為N的短時(shí)語(yǔ)音幀序列。本設(shè)計(jì)中錄音采樣率為8kHz,N對(duì)應(yīng)的時(shí)間為25ms。程序中用“#define Framelen 256”語(yǔ)句表示。
(3)加窗
對(duì)語(yǔ)音信號(hào)數(shù)字化、分幀處理后,就要進(jìn)行加窗處理。語(yǔ)音信號(hào)分析中最常用的窗函數(shù)是矩形窗、海寧窗和漢明窗。因?yàn)闈h明窗旁瓣最低,可以有效地克服泄漏現(xiàn)象,具有更平滑的低通特性,故本設(shè)計(jì)采用漢明窗來(lái)消除由分幀引起的信號(hào)邊緣蛻變,漢明窗定義如下:
漢明窗
其中L為窗長(zhǎng)。
使用函數(shù) MultiHamming(float*pre_date,float*data),pre_date為預(yù)處理后的信號(hào),data為加窗處理后的數(shù)據(jù)。
(4)自相關(guān)及LPC分析
加窗處理后的各幀信號(hào)之間的自相關(guān)計(jì)算為:
P為L(zhǎng)PC分析的階數(shù)。
信號(hào)經(jīng)過(guò)LPC分析得到P階的LPC系數(shù)。
根據(jù)Durbin遞推算法求解LPC系數(shù):
公式中,上標(biāo)(i)表示第i次迭代,每次迭代都要重新更新 α1,α2…αi,直到i=p時(shí),結(jié)束迭代,p為預(yù)測(cè)系數(shù)的階數(shù)。
定義 AutoCorrelate(int n,float*s1,int m,float*a,int mark)函數(shù)來(lái)計(jì)算LPC系數(shù)(包括自相關(guān)系數(shù)),其中,n為幀長(zhǎng),m為階數(shù),s1為輸入的信號(hào)數(shù)據(jù),a即為L(zhǎng)PC系數(shù);定義 CepCoeffient(int m,int n,float*a,float*cepp)函數(shù)來(lái)計(jì)算LPC倒譜系數(shù)。
(5)LPC系數(shù)轉(zhuǎn)換
由P階的LPC系數(shù)轉(zhuǎn)換得到Q階的Cepstral系數(shù)。
倒譜定義為:
其中K為倒譜的階數(shù)。
對(duì)語(yǔ)音信號(hào)通過(guò)HMM(隱馬爾可夫)識(shí)別網(wǎng)絡(luò)進(jìn)行LPCC特征參數(shù)提取,得出其分別在各個(gè)信噪比下的語(yǔ)音信號(hào)識(shí)別率,見(jiàn)表1。
因?yàn)榈碗A倒譜參數(shù)對(duì)整個(gè)頻譜參數(shù)斜率很敏感,而高階的倒譜參數(shù)對(duì)噪聲很敏感,所以在實(shí)際計(jì)算時(shí),要對(duì)倒譜進(jìn)行加權(quán),或稱(chēng)為倒譜提升。
其定義為:其中wm定義如下:
表1 語(yǔ)音信號(hào)識(shí)別率(識(shí)別網(wǎng)絡(luò):HMM(隱馬爾可夫)神經(jīng)網(wǎng)絡(luò))
本設(shè)計(jì)針對(duì)特征參數(shù)提取的各種方法,選用LPCC進(jìn)行特征提取。通過(guò)對(duì)語(yǔ)音信號(hào)進(jìn)行預(yù)加重、分幀、加窗、自相關(guān)分析,而后提取出的LPC倒譜系數(shù),對(duì)語(yǔ)音信號(hào)的分析處理,去除對(duì)語(yǔ)音識(shí)別無(wú)關(guān)緊要的冗余信息,獲得影響語(yǔ)音識(shí)別的重要信息有重要作用。
[1]張剛,張雪英,馬建芬.語(yǔ)音處理與編碼[M].北京:兵器工業(yè)出版社,2000.
[2]王讓定,柴佩琪.語(yǔ)音倒譜特征的研究[J].計(jì)算機(jī)工程,2003(8):31-33.
[3]葉明,顧利民.LPC倒譜參數(shù)的說(shuō)話(huà)人特征分析[J].南京航空航天大學(xué)學(xué)報(bào),1994,6(12):797-804.
[4]趙力.語(yǔ)音信號(hào)處理[M].北京:機(jī)械工業(yè)出版社,2003.
[5]易克初.語(yǔ)音信號(hào)處理[M].北京:國(guó)防工業(yè)出版社,2000.