緱新科,徐高鵬
(1.蘭州理工大學(xué)電氣工程與信息工程學(xué)院,甘肅 蘭州 730050; 2.甘肅省工業(yè)過(guò)程先進(jìn)控制重點(diǎn)實(shí)驗(yàn)室,甘肅 蘭州 730050;3.蘭州理工大學(xué)電氣與控制工程國(guó)家級(jí)實(shí)驗(yàn)教學(xué)示范中心,甘肅 蘭州 730050)
語(yǔ)音識(shí)別系統(tǒng)的魯棒性一直是語(yǔ)音識(shí)別領(lǐng)域研究的重點(diǎn)問(wèn)題,提高語(yǔ)音識(shí)別魯棒性的方法大致分為2類,一類是基于模型的魯棒性改善,另一類是通過(guò)提取聲學(xué)特征來(lái)提高魯棒性。聲學(xué)特征的優(yōu)劣很大程度上決定了語(yǔ)音識(shí)別系統(tǒng)的魯棒性,因此研究聲學(xué)特征的提取對(duì)提高語(yǔ)音識(shí)別系統(tǒng)的抗噪能力有很大的價(jià)值。語(yǔ)音魯棒特征又可以劃分為基于統(tǒng)計(jì)特性的魯棒特征和基于聽覺(jué)機(jī)理的魯棒特征這2大類。
短時(shí)修正的相干系數(shù)(SMCC)[1]、高斯超向量(GSV)[2]、自相關(guān)梅爾倒譜系數(shù)(AMFCC)[3]以及i-vector[4]為基于統(tǒng)計(jì)特征的幾種常見(jiàn)統(tǒng)計(jì)魯棒特征。SMCC和AMFCC常被用來(lái)抑制寬帶噪音,但它們對(duì)于非平穩(wěn)噪音的抵抗能力不足。GSV是一種基于GMM[5]的語(yǔ)音特征,它繼承了高斯混合模型的魯棒性,而且包含說(shuō)話人發(fā)音個(gè)性統(tǒng)計(jì)信息,然而在信道畸變的環(huán)境噪聲下它的魯棒性不佳。i-vector在GSV的基線上降低了特征的維數(shù),提高了識(shí)別的效率。與統(tǒng)計(jì)特性的特征不同,基于生物機(jī)理的聲學(xué)特征提取嘗試模擬生理器官對(duì)語(yǔ)音的感知來(lái)描述聲學(xué)特征,常見(jiàn)的特征有LPCC[6]、MFCC[7]和GFCC[8]。LPCC是線性預(yù)測(cè)系數(shù)(LPC)的倒譜參數(shù),可以較好反映聲道特性,但對(duì)于頻率特性的反映不符合實(shí)際?;贛EL譜[9]的MFCC特征考慮了人類聽覺(jué)系統(tǒng)的基本聽覺(jué)原理,如頻率分辨率和強(qiáng)度感知,卻對(duì)語(yǔ)音信號(hào)高頻段的特性描述精度不足。GFCC特征,通過(guò)動(dòng)態(tài)地模擬人耳基底膜來(lái)提取特征,很大程度上提升了識(shí)別的魯棒性。毋庸置疑,上述特征的研究對(duì)于語(yǔ)音識(shí)別魯棒性的提升作出了很大貢獻(xiàn),但是它們都基于特定的域進(jìn)行特征提取,這導(dǎo)致局部特征的丟失。
針對(duì)上述工作的不足,本文嘗試通過(guò)聯(lián)合時(shí)域和頻域來(lái)提取聲學(xué)特征,提出一種利用Gabor濾波器[10]跨時(shí)域和頻域提取聲學(xué)特征的方法,并將高維GBFB特征映射到時(shí)域和頻域不同的子空間中,從而消除噪音成分,保留魯棒特征,經(jīng)實(shí)驗(yàn)證明,GBFB特征在噪音環(huán)境下與常見(jiàn)的幾種聲學(xué)特征相比有更好的魯棒性。
Gabor特征提取是在加窗的Fourier[11]變換基礎(chǔ)上實(shí)現(xiàn)的,通過(guò)Gabor變換可以跨時(shí)頻域?qū)μ卣餍畔⑦M(jìn)行提取,因此可以獲取到更多有用的特征信息。
一個(gè)二維Gabor濾波器是由復(fù)平面波和高斯窗函數(shù)的乘積構(gòu)成的,二維Gabor濾波器可以同時(shí)在頻域和時(shí)域提取局部化的特性,利用二維Gabor濾波器可以同時(shí)描述時(shí)域局部信息,其空間域描述如公式(1):
(1)
圖1 二維Gabor函數(shù)時(shí)域?qū)嵅?/p>
其中,n和k分別表示時(shí)域的水平和垂直方向,x=ncos θ+ksin θ,y=kcos θ-nsin θ,δ表示高斯窗函數(shù)的標(biāo)準(zhǔn)差,ω和θ表示中心調(diào)制頻率和方位,exp (-w2σ2/2)表示直流分量,這個(gè)直流分量的存在可以抵抗外部環(huán)境對(duì)濾波的干擾。在時(shí)域中可以通過(guò)調(diào)節(jié)θ的值來(lái)改變方位,從而得到良好的方向特征;同樣,可以通過(guò)改變w的值來(lái)改變頻域的參數(shù),當(dāng)選定固定的w和θ參數(shù)時(shí)就可以構(gòu)造出特定方向和頻率上的模式圖。如圖1所示,w=3π/4、θ=0時(shí),Gabor核函數(shù)在時(shí)域的實(shí)部部分。Gabor濾波器在時(shí)域與頻域中都有很好的辨識(shí)度,通過(guò)選擇不同的方位和頻率就可以構(gòu)造不同的濾波器,在不同的方位和尺度上提取需要的特征。
一個(gè)用于聲學(xué)特征提取的二維Gabor函數(shù)定義如下:
(2)
其中,γ=kveiφ決定了Gabor濾波器的方位和尺度,ε(n,k)表示經(jīng)FFT[12]得到的聲譜樣本點(diǎn),φ=u(π/k),kv=2-((v+2)/2)·π,可以通過(guò)改變u,v調(diào)整Gabor濾波器組的方位和尺度,如圖2所示,本文中尺度和方向均取4,γ可以控制u、v。
圖2 二維Gabor濾波器組
在確定的時(shí)域窗口下聲譜x(n,k)=RNn×Nk可以用向量空間ζ∈RNn×Nk×Nu×Nv來(lái)表示,其中Nn×Nk表示時(shí)域和頻域的坐標(biāo),Nu×Nv表示尺度和方位。通過(guò)將原始信號(hào)的聲譜與4方向、4尺度組成的Gabor濾波器組進(jìn)行卷積,得到16幅局部特征譜,采樣時(shí)將其分為64個(gè)小塊,每塊取8個(gè)量級(jí)進(jìn)行量化,最終形成512維,16幅一共構(gòu)成8192維特征。當(dāng)尺度和方位一定時(shí),卷積過(guò)程可表示為公式(3):
Gu,v(n,k)=|X(n,k)·gu,v(n,k)|
(3)
為了去除冗余,保留對(duì)聲學(xué)感知有用的特征信息,利用mel濾波器對(duì)Gu,v(n,k)進(jìn)行濾波,濾波的表達(dá)式如公式(4):
(4)
其中,MELl(n)表示mel濾波器組,mel濾波器的最低頻率和最高頻率由Lt和Ht表示。
(5)
(6)
Uu,v=[max ((Gjk)ij)]p×q
(7)
對(duì)新的特征矩陣Uu,v進(jìn)行向量化,表示為:
UQ=[Q(U0,0),…,Q(Up,q)]
(8)
利用PCA將UQ投影到低維的子空間:
P(UQ)=AT(UQ-μ)
(9)
其中,μ為UQ的均值,維數(shù)為M×1,M=p×q,AT為低維的映射矩陣,維數(shù)為M×d,d表示主成分個(gè)數(shù),因此最終可以得到d×1維的GBFB特征,本文取d=81。將向量化后的特征投影到時(shí)域和頻域不同的維度上,投影到不同維度上的語(yǔ)音信號(hào)的能量會(huì)集中到少數(shù)的特征分量上,將有用的特征保留到投影矩陣中,當(dāng)噪音摻雜入干凈的語(yǔ)音時(shí),與干凈語(yǔ)音特性一致的成分會(huì)被保留,噪聲的能量會(huì)被削弱,最終得到抑制噪音的GBFB特征。
通過(guò)以上的分析,得到如圖3所示的GBFB特征提取的過(guò)程:
圖3 GBFB特征提取過(guò)程
1)對(duì)原始的語(yǔ)音信號(hào)做預(yù)處理,并通過(guò)FFT得到對(duì)應(yīng)的聲譜圖。
2)利用二維的Gabor濾波器組對(duì)聲譜進(jìn)行卷積。
為了驗(yàn)證算法的有效性,本文通過(guò)2個(gè)實(shí)驗(yàn)進(jìn)行測(cè)試,分別采用TIMIT[14]語(yǔ)音庫(kù)和NOIZEUS[15]語(yǔ)音庫(kù)。語(yǔ)音的采樣率為16 kHz,采樣精度為16 bits,選擇基于3狀態(tài)HMM[16]的上下文相關(guān)音素模型作為聲學(xué)模型,在實(shí)驗(yàn)中先對(duì)語(yǔ)音信號(hào)進(jìn)行預(yù)處理,再對(duì)每一幀語(yǔ)音提取GBFB、MFCC、GFCC、LPCC特征,其中選取GBFB的特征參數(shù)為81維,MFCC、GFCC、LPCC特征參數(shù)均取39維,用GMM作為分類器進(jìn)行識(shí)別,混合度可選8、16、32。
實(shí)驗(yàn)1在純凈語(yǔ)音環(huán)境下,測(cè)試GBFB特征的有效性,采用TIMIT語(yǔ)音庫(kù),該語(yǔ)音庫(kù)共采集了50名說(shuō)話人語(yǔ)音,其中男性說(shuō)話人35名,女性說(shuō)話人15名,從每名說(shuō)話人語(yǔ)音中選擇7句用于實(shí)驗(yàn)訓(xùn)練,3段用于實(shí)驗(yàn)測(cè)試。在GMM混合度不同的情況下,分別用LPCC、MFCC以及GBFB特征測(cè)試在干凈語(yǔ)音環(huán)境下的識(shí)別率。
實(shí)驗(yàn)2首先對(duì)Gabor濾波器提取的原始特征與分塊大小為16×16的GBFB特征在25 dB的噪聲環(huán)境下進(jìn)行識(shí)別率對(duì)比,觀察PCA降維對(duì)GBFB特征的影響,然后在NOIZEUS語(yǔ)音庫(kù)的White noise噪聲環(huán)境下對(duì)分塊為4×4、16×16以及64×64的GBFB特征的識(shí)別率進(jìn)行對(duì)比,最后在Factory noise、White noise和Babble noise噪聲環(huán)境下使用SOX[17]工具加入不同信噪比的噪音,對(duì)MFCC、LPCC、GFCC以及GBFB特征的魯棒性進(jìn)行對(duì)比。
實(shí)驗(yàn)1的識(shí)別結(jié)果如圖4所示。
圖4 純凈語(yǔ)音的識(shí)別結(jié)果
從圖4可以看出,在未加入噪音的環(huán)境下,3種聲學(xué)特征識(shí)別的準(zhǔn)確率隨GMM混合度的增加而增加,隨著混合度的增加,GBFB識(shí)別率的提升最大,綜合來(lái)看GBFB的識(shí)別率比LPCC的識(shí)別率高,與MFCC接近,驗(yàn)證了基于Gabor濾波的GBFB特征的有效性。同時(shí),從實(shí)驗(yàn)1的結(jié)果可以看出,GBFB在純凈語(yǔ)音環(huán)境下的識(shí)別率相較其他幾種特征并沒(méi)有明顯的提升,這是由于Gabor濾波器在提取純凈語(yǔ)音特征時(shí),將純凈語(yǔ)音中絕對(duì)值較小的成分當(dāng)做噪音,在經(jīng)過(guò)PCA投影后部分特征的系數(shù)被削減,因此導(dǎo)致了識(shí)別率的下降。
現(xiàn)在分析實(shí)驗(yàn)2的識(shí)別結(jié)果。如表1所示,經(jīng)PCA降維后的GBFB特征的識(shí)別率高于原始Gabor濾波器提取的特征,說(shuō)明通過(guò)PCA算法在縮減了特征維數(shù)的同時(shí)保留了信息的主要成分,生成了更好的魯棒特征。不同分塊的GBFB的識(shí)別率如圖5所示,其中p、q大小為4×4時(shí)特征識(shí)別率較低,增加到16×16時(shí)識(shí)別率提升了13%,當(dāng)取值增加到64×64時(shí)識(shí)別率再次下降,說(shuō)明不同大小的分塊對(duì)GBFB的識(shí)別率有很大影響,p、q的取值太小會(huì)導(dǎo)致語(yǔ)音信號(hào)主分量被削減,過(guò)大會(huì)導(dǎo)致特征的冗余過(guò)多。
表1 PCA降維對(duì)識(shí)別率的影響 單位:%
圖5 不同分塊PCA下的識(shí)別率
對(duì)GBFB以及其他聲學(xué)特征進(jìn)行抗噪測(cè)試時(shí)選取分塊16×16的GBFB特征,結(jié)果如表2和圖6所示。在低信噪比的環(huán)境下,4種特征識(shí)別的準(zhǔn)確率都較低,隨著信噪比的增加,準(zhǔn)確率都有提升,其中基于GBFB特征在6種不同信噪比語(yǔ)音環(huán)境下的識(shí)別率都高于MFCC、LPCC、GFCC。與魯棒性較好的GFCC相比GBFB特征的準(zhǔn)確率提高了5.35%,與MFCC特征相比提升了7.05%,比LPCC特征識(shí)別的基線低9 dB,說(shuō)明了本文提出的GBFB特征可以增強(qiáng)噪聲環(huán)境下語(yǔ)音識(shí)別的魯棒性。
表2 不同環(huán)境下4種特征的識(shí)別率 單位:%
(b) Babble噪聲下的識(shí)別率
(c) 工廠噪聲下的識(shí)別率圖6 不同噪聲環(huán)境下的識(shí)別率
本文采用Gabor濾波器組來(lái)提取語(yǔ)音信號(hào)的魯棒特征,采用分塊PCA對(duì)特征降維,驗(yàn)證PCA降維對(duì)識(shí)別率的影響,并測(cè)試了不同分塊大小的GBFB特征對(duì)識(shí)別率的影響,最后對(duì)GBFB、MFCC、LPCC、GFCC特征在多個(gè)噪聲噪音環(huán)境下進(jìn)行性能測(cè)試。從實(shí)驗(yàn)結(jié)果可以看出,基于Gabor濾波的GBFB特征在不同信噪比語(yǔ)音環(huán)境下的識(shí)別率都明顯高于MFCC、LPCC和GFCC特征。說(shuō)明了本文提出的GBFB特征可以更準(zhǔn)確地反映語(yǔ)音信號(hào)在噪音環(huán)境下的特征,提升說(shuō)話人識(shí)別在噪聲環(huán)境下的識(shí)別率。
此外,從實(shí)驗(yàn)1的結(jié)果可以看出,由于GBFB特征在提取純凈語(yǔ)音聲學(xué)特征時(shí)會(huì)誤將絕對(duì)值較小的成分當(dāng)做噪音處理,對(duì)干凈語(yǔ)音有一定程度上的損傷,導(dǎo)致GBFB在純凈語(yǔ)音環(huán)境下的識(shí)別率相較其他幾種特征并沒(méi)有明顯的提升,某些情況下甚至低于其他特征,下一步工作將研究GBFB特征在純凈語(yǔ)音環(huán)境下識(shí)別率提升的方法。
參考文獻(xiàn):
[1] 羅仁澤,蔣濤,敬龍江,等. 一種低信噪比SMCC+系統(tǒng)快速同步算法[J]. 信號(hào)處理, 2005,21(3):236-239.
[2] 劉偉偉. 基于GSV-SVM的語(yǔ)種識(shí)別關(guān)鍵技術(shù)研究與實(shí)現(xiàn)[D]. 鄭州:解放軍信息工程大學(xué), 2012.
[3] 趙彥平. 孤立詞小詞匯量抗噪聲語(yǔ)音識(shí)別方法的研究[D]. 長(zhǎng)春:吉林大學(xué), 2006.
[4] Glembek O, Burget L, Matejka P, et al. Simplification and optimization of i-vector extraction[J]. IEEE International Conference on Acoustics, 2011,125(3):4516-4519.
[5] 陳強(qiáng). 基于GMM的說(shuō)話人識(shí)別系統(tǒng)研究與實(shí)現(xiàn)[D]. 武漢:武漢理工大學(xué), 2010.
[6] Zbancioc M, Costin M. Using neural networks and LPCC to improve speech recognition[C]// International Symposium on Signals, Circuits and Systems(Vol 2). 2003:445.
[7] 蔣文建,韋崗. 基于掩蔽的噪聲環(huán)境下語(yǔ)音識(shí)別新特征[J]. 聲學(xué)學(xué)報(bào), 2001(6):516-520.
[8] Islam M A. GFCC-based robust gender detection[C]// IEEE International Conference on Innovations in Science, Engineering and Technology. 2017:1-4.
[9] 王讓定,柴佩琪. 語(yǔ)音倒譜特征的研究[J]. 計(jì)算機(jī)工程, 2003,29(13):31-33.
[10] 曹麗. 基于Gabor濾波器的人臉特征提取算法研究[D]. 沈陽(yáng):東北大學(xué), 2008.
[11] 孫曉兵,保錚. 分?jǐn)?shù)階Fourier變換及其應(yīng)用[J]. 電子學(xué)報(bào), 1996(12):60-65.
[12] Pei Soo-chang, Ding Jian-jiun, Chang Ja-han. Efficient implementation of quaternion Fourier transform, convolution, and correlation by 2-D complex FFT[J]. IEEE Transactions on Signal Processing, 2001,49(11):2783-2797.
[13] Roweis S. EM algorithms for PCA and SPCA[C]// Proceedings of 1997 Conference on Advances in Neural Information Processing Systems. 1997:626-632.
[14] 林海波,王可佳. 一種新的聽覺(jué)特征提取算法研究[J]. 南京郵電大學(xué)學(xué)報(bào)(自然科學(xué)版), 2017,37(2):27-32.
[15] 黃玲,李琳,王薇,等. 基于Sparse K-SVD學(xué)習(xí)字典的語(yǔ)音增強(qiáng)方法[J]. 廈門大學(xué)學(xué)報(bào)(自然科學(xué)版), 2014,53(1):36-40.
[16] Tokuda K, Masuko T, Miyazaki N, et al. Multi-space probability distribution HMM[J]. Ieice Transactions on Information & Systems, 2002,85(3):455-464.
[17] Mathew L R, Anselam A S, Pillai S S. Analysis of LD-CELP coder output with Sound eXchange and Praat software[C]// IEEE International Conference on Advanced Communication Control and Computing Technologies. 2015:1281-1285.