曾金芳 徐文濤 黃費貞
(湘潭大學(xué)物理與光電工程學(xué)院 湖南省湘潭市 411105)
說話人識別又叫聲紋識別。說話人識別技術(shù)以其獨特的方便性、經(jīng)濟性、準(zhǔn)確性受到 了世人的矚目,被廣泛應(yīng)用到信息安全領(lǐng)域、通信領(lǐng)域、司法領(lǐng)域和軍事領(lǐng)域[1]。說話人識別就是從說話人的一段語音中提取出說話人的個性特征,通過對這些個性特征的分析和識別,從而達(dá)到對說話人進(jìn)行辨認(rèn)的目的[2]。這些個性特征就是說話人識別重點研究的內(nèi)容。
聲學(xué)特征主要有:線性預(yù)測系數(shù)(Lin- ear prediction cepstral coefficient, LPC C)、梅爾倒譜系數(shù)( Mel frequency cepstral coefficient, MFCC)[3]以及耳蝸倒譜系數(shù)(Cochlear filter cepstral coeffi- cients, CFCC)[4]等。最常用的MFCC 是根據(jù)人耳結(jié)構(gòu)設(shè)計的三角濾波器組進(jìn)行特征提取的,但在噪聲情況下的識別效果急劇下降[5]。CFCC特征提取方法并沒有考慮到人耳聽覺的神經(jīng)元動作電位發(fā)放率與聲音強度的飽和關(guān)系特性,而這種關(guān)系特性推導(dǎo)出非線性冪函數(shù)可以近似于聽覺神經(jīng)元[6]。通過對文獻(xiàn)[6]的算法實驗分析,發(fā)現(xiàn)其非線性冪函數(shù)參數(shù)調(diào)整為1/15 時,在說話人識別方面信噪比較高的情況下有較好的效果。為了提高低信噪比情況下說話人的識別率,本文將語音增強算法的維納濾波[7]加入前端處理。雖然增加了步驟,但總體上容易實現(xiàn)。
筆者在前人研究的基礎(chǔ)上,在說話人識別方面采用能夠模擬人耳聽覺特性的非線性冪函數(shù)提取新的耳蝸倒譜系(New Cochlear filter cepstral coeffici- ents,NCFCC),驗證NCFCC 特征對于CFCC的優(yōu)勢和缺點,然后通過維納濾波來改進(jìn)其缺點。
CFCC 是由貝爾實驗室的Li Q 在2011年首次提出的并應(yīng)用于說話人識別的特征參數(shù)[4]。CFCC 特征參數(shù)提取方法如圖1 所示。
假設(shè)f(t)是一個原始的輸入語音信號,則耳蝸濾波器變換的函數(shù)可以定義為:
式中:a,b 為實數(shù)。
式中:α>0 和β>0,α,β 決定了ψ(t)的頻域形狀和寬度,α 和β的一般取經(jīng)驗值為α=3、β=0.2。θ 為控制沖激響應(yīng)的角度,它的取值應(yīng)該滿足積分表達(dá)式:
μ(t)為單位步進(jìn)函數(shù),b 為隨時間可變的實數(shù),a 為尺度變量,一般情況下可由濾波器的質(zhì)心頻率fc和最低中心頻率fL決定:
圖1:CFCC 特征提取框圖
圖2:本文特征提取過程