茅正沖,王正創(chuàng),王 丹
江南大學(xué) 物聯(lián)網(wǎng)工程學(xué)院,江蘇 無錫 214122
說話人識(shí)別中最關(guān)鍵的問題之一就是提取有效的特征參數(shù),目前常見的特征參數(shù)有線性預(yù)測系數(shù)(LPC)、線譜對參數(shù)(LSP)、Mel頻率倒譜系數(shù)(MFCC)等[1]。然而,在實(shí)際的說話人識(shí)別系統(tǒng)中使用時(shí),容易受到噪聲的干擾,導(dǎo)致識(shí)別率降低[2]。人耳聽覺系統(tǒng)是一個(gè)具有高度復(fù)雜性的系統(tǒng),其研究意義非常重要,尤其是在噪聲的環(huán)境下,人耳聽覺系統(tǒng)比任何自動(dòng)識(shí)別系統(tǒng)更具有可靠性、便捷性。因此,將人耳聽覺模型融入到自動(dòng)識(shí)別系統(tǒng)中,可以大幅提升系統(tǒng)的性能[3-5]。
聲音的感受細(xì)胞在內(nèi)耳的耳蝸部分,而基底膜是耳蝸接收聲音最重要的組織。聲波在外耳腔引起空氣振動(dòng),從而引起行波沿基底膜的傳播?;啄つ軐Σ煌l率的聲音產(chǎn)生共鳴,反映不同頻率的聲音。不同頻率的聲音產(chǎn)生不同的行波,其峰值出現(xiàn)在基底膜的不同位置上[6-7]。
本文給出了一種基于人耳耳蝸聽覺模型的Gammatone濾波器組,該濾波器組能很好地模擬基底膜的分頻特性,并且基于該濾波器組,提出了一種Gammatone頻率倒譜系數(shù)(GFCC)的提取算法,進(jìn)而用于說話人識(shí)別系統(tǒng)中。在有噪聲的背景下,該特征參數(shù)的識(shí)別率及魯棒性優(yōu)于傳統(tǒng)的特征參數(shù)MFCC。
Gammatone濾波器[8-9]最早應(yīng)用于描述聽覺系統(tǒng)脈沖響應(yīng)函數(shù)的形狀,后來應(yīng)用于耳蝸聽覺模型,用來模擬人耳聽覺頻率響應(yīng),其時(shí)域表達(dá)形式如下:
其中,k為濾波器增益,a為濾波器階數(shù),f為中心頻率,?為相位,b是衰減因子,該因子決定相應(yīng)的濾波器的帶寬,它與中心頻率f的關(guān)系為:
由于Gammatone濾波器的時(shí)域表達(dá)式為沖擊響應(yīng)函數(shù),所以將其進(jìn)行傅里葉變換就可以得到其頻率響應(yīng)特性。不同中心頻率的Gammatone濾波器的幅頻響應(yīng)曲線,如圖1所示。
圖1 一組不同中心頻率下Gammatone濾波器的幅頻響應(yīng)曲線
根據(jù)Gammatone濾波器的特性,準(zhǔn)備將該濾波器應(yīng)用到說話人識(shí)別系統(tǒng)中。將輸入的語音信號通過一組Gammatone濾波器,進(jìn)而語音信號由時(shí)域轉(zhuǎn)換到頻域。這里采用的是一組64個(gè)的4階Gammatone濾波器,其中心頻率在50 Hz~8 000 Hz之間。由于濾波器的輸出保留原來的采樣頻率,所以在這沿著時(shí)間維度,取響應(yīng)頻率為100 Hz,通道數(shù)為64的Gammatone濾波器。這樣就產(chǎn)生了相應(yīng)的幀移為10 ms,進(jìn)而可以應(yīng)用到短時(shí)間的語音特征提取中。當(dāng)語音信號通過以上的濾波器時(shí),輸出信號的響應(yīng)Gm(i)的表達(dá)式如下:
其中,N=64是濾波器的通道數(shù),M是采樣之后的幀數(shù)。
這樣Gm(i)構(gòu)成了一個(gè)矩陣,代表著輸入信號在頻域的分布變化,在這采用類耳蝸圖[10]來描述輸入信號在頻域的分布變化。然而,與具有直觀分辨率的語譜圖[11]不同,類耳蝸圖在低頻段的分辨率優(yōu)于在高頻段的分辨率。圖2是一段純凈語音信號的語譜圖和類耳蝸圖;圖3是一段加噪語音信號的語譜圖和類耳蝸圖。從圖中對比可以看出,類耳蝸圖的分辨效果更加清晰,能更好地反映語音信號的能量分布,尤其是在有噪聲背景下,類耳蝸圖的優(yōu)勢更突出,更能反映出語音信號的特性。因此,將對類耳蝸圖進(jìn)行下一步的分析研究。
在這將類耳蝸圖的每一幀稱為Gammatone特征系數(shù)(GF),一個(gè)GF特征矢量由64個(gè)頻率成分組成。但是在實(shí)際的說話人識(shí)別系統(tǒng)中,GF特征矢量的維度比較大,計(jì)算量較大。此外,由于相鄰的濾波器通道有重疊的部分,GF特征矢量相互之間存在相關(guān)性。因此,為了減小GF特征矢量的維度及相關(guān)性,在這對每一個(gè)GF特征矢量進(jìn)行離散余弦變換(DCT),具體的表達(dá)式如下:
圖2 一段純凈語音的語譜圖和類耳蝸圖
圖3 一段加噪語音的語譜圖和類耳蝸圖
這里將系數(shù)Cj(i)稱為GFCCs系數(shù)[12],嚴(yán)格來說,這個(gè)新的特征系數(shù)并不是倒譜系數(shù)。因?yàn)榈棺V系數(shù)的產(chǎn)生一般要取對數(shù)能量,然而在這將GFCCs系數(shù)當(dāng)作倒譜系數(shù),是由于在上面的轉(zhuǎn)換中和MFCC特征參數(shù)的提取轉(zhuǎn)換有功能上的相似性。和MFCC特征參數(shù)類似,在實(shí)際的說話人識(shí)別系統(tǒng)中,并不是取全部維數(shù)的GFCCs系數(shù),經(jīng)過實(shí)驗(yàn)表明最前若干維以及最后若干維的GFCCs系數(shù)對語音的區(qū)分性能較大,在這取前26維的GFCCs系數(shù)[13]。這樣GFCC特征參數(shù)的表達(dá)式如下:
圖4是基于圖2中類耳蝸圖的分析示圖。圖4(a)是GF系數(shù),圖4(b)是基于26維GFCCs合成的GF系數(shù),圖4(c)是基于26維GFCCs合成的類耳蝸圖。
圖4 類耳蝸圖的分析示圖
本文所采用的語音庫是在實(shí)驗(yàn)室環(huán)境下錄制的,語音采用的是單聲道,8 kHz的采樣頻率,16 bit量化。該語音庫由20人錄制的,每個(gè)人錄制10段語音,每段語音時(shí)長約5 s,其中每個(gè)人的4個(gè)語音段作為訓(xùn)練樣本集,另外6個(gè)語音段作為測試樣本集?;烊氲脑肼曔x自NOISEX-92標(biāo)準(zhǔn)噪聲庫[14-15],采用的識(shí)別方法是高斯混合模型(GMM),GMM的混合數(shù)是16。
首先,在大信噪比的背景下,分別提取每個(gè)說話人的特征參數(shù)MFCC和GFCC。MFCC的提取采用26個(gè)Mel頻率濾波器組,經(jīng)DCT變換計(jì)算26維的倒譜系數(shù)。GFCC的提取采用64通道的Gammatone濾波器,經(jīng)DCT變換后取26維的GFCCs系數(shù)。經(jīng)過特征參數(shù)提取后,進(jìn)行說話人識(shí)別實(shí)驗(yàn),實(shí)驗(yàn)結(jié)果如表1。
其次,為了測試噪聲環(huán)境下特征參數(shù)MFCC和GFCC的識(shí)別性能,選取噪聲庫中三種典型噪聲作為測試系統(tǒng)的背景噪音。在這里選用的三種典型噪聲是White噪聲、Babble噪聲、Factory噪聲,信噪比為0 dB、5 dB、10 dB、15 dB,實(shí)驗(yàn)結(jié)果如表1。
表1 特征參數(shù)MFCC和GFCC的識(shí)別率(%)
從表1中可以看出,在大信噪比的背景下,GFCC的識(shí)別率能達(dá)到95%以上。在三種不同的噪聲背景下,特征參數(shù)GFCC的識(shí)別率明顯高于MFCC。隨著SNR的增大,識(shí)別率越來越高,其中在Babble噪聲背景下,由于受到背景中不同說話者之間的相互干擾,以至于系統(tǒng)的平均識(shí)別率略低于其他兩種噪聲。此外,在Factory噪聲背景下,SNR為15 dB時(shí),系統(tǒng)采用特征參數(shù)GFCC的識(shí)別率能達(dá)到80%以上,遠(yuǎn)高于特征參數(shù)MFCC。因此這些可以充分證明,采用Gammatone濾波器組模型對語音進(jìn)行時(shí)域前端濾波是很有效的,這種模型具有很強(qiáng)的抗噪性,也說明了特征參數(shù)GFCC對加性噪聲具有一定的抑制性,進(jìn)一步體現(xiàn)了基于人耳耳蝸聽覺特征的噪聲魯棒性。
本文給出了一種基于人耳耳蝸聽覺模型的Gammatone濾波器組,并且基于該濾波器組,提出了一種GFCC的提取算法。實(shí)驗(yàn)結(jié)果表明,在說話人識(shí)別系統(tǒng)中采用特征參數(shù)GFCC,其識(shí)別率及魯棒性都優(yōu)于傳統(tǒng)的特征參數(shù)MFCC,GFCC能降低加性噪聲的影響,抑制加性噪聲的不穩(wěn)定性。此外,采用特征參數(shù)GFCC的計(jì)算量大,以及在短時(shí)間內(nèi)進(jìn)行說話人識(shí)別時(shí),識(shí)別效果還需進(jìn)一步改進(jìn)。因此,如何減少說話人識(shí)別系統(tǒng)的計(jì)算量,提高系統(tǒng)的識(shí)別效率以及實(shí)現(xiàn)在短時(shí)間內(nèi)識(shí)別將是接下來的研究工作。
[1]屈丹,王波,李弼程.VoIP語音處理與識(shí)別[M].北京:國防工業(yè)出版社,2010.
[2]蔡蓮紅,黃德智,蔡銳.現(xiàn)代語音技術(shù)基礎(chǔ)與應(yīng)用[M].北京:清華大學(xué)出版社,2003.
[3]尹輝,謝湘,匡鏡明.一種基于Gammatone濾波和FrFT的抗噪語音識(shí)別方法[C]//第十屆全國人機(jī)語音通訊學(xué)術(shù)會(huì)議暨國際語音語言處理研討會(huì)論文摘要集.北京:清華大學(xué)出版社,2009:5-8.
[4]牛廷偉.噪聲環(huán)境下的語音識(shí)別關(guān)鍵技術(shù)研究[D].天津:天津理工大學(xué),2011.
[5]金銀燕,于鳳芹.基于Gammatone濾波和PCNN的說話人識(shí)別[J].科學(xué)技術(shù)與工程,2010,10(30):1671-1674.
[6]何朝霞,潘平.基于聽覺模型的說話人語音特征提取[J].微型機(jī)與應(yīng)用,2012,31(1):37-39.
[7]陳世雄,宮琴,金慧君.用Gammatone濾波器組仿真人耳基底膜的特性[J].清華大學(xué)學(xué)報(bào):自然科學(xué)版,2008,48(6):1044-1048.
[8]王玥,錢志鴻,王雪,等.基于伽馬通濾波器組的聽覺特征提取算法研究[J].電子學(xué)報(bào),2010,38(3):525-528.
[9]王玥.說話人識(shí)別中語音特征參數(shù)提取方法的研究[D].長春:吉林大學(xué),2009.
[10]Shao Yang,Wang Deliang.Robust speaker identification using auditory features and computational auditory scene analysis[C]//Proceedings of IEEE International Conference on Acoustics,Speech and Signal Processing(ICASSP2008),March 30-April 4,2008.[S.l.]:IEEE,2008:1589-1592.
[11]張雪英.數(shù)字語音處理及MATLAB仿真[M].北京:電子工業(yè)出版社,2003.
[12]ZhaoXiaojia,Shao Yang,WangDeliang.CASA-based robustspeakeridentification[J].IEEE Transactions on Audio,Speech and Language Processing,2012,20(5):1608-1616.
[13]He Xu,Lin Lin.A new algorithm for auditory feature extraction[C]//Proceedings of InternationalConference on Communication Systems and Network Technologies.Washington,DC,USA:IEEE Computer Society,2012:229-232.
[14]胡峰松,曹孝玉.基于Gammatone濾波器組的聽覺特征提取[J].計(jì)算機(jī)工程,2012,38(21):168-171.
[15]Shao Yang,Jin Zhaozhang,Wang Deliang.An auditorybased feature for robust speech recognition[C]//Proceedins of International Conference on Acoustics,Speech and Signal Processing(ICASSP2009),19-24 April,2009.[S.l.]:IEEE,2009:4625-4628.