李 聰,葛洪偉+
1.江南大學(xué) 輕工過程先進(jìn)控制教育部重點實驗室,江蘇 無錫 214122
2.江南大學(xué) 物聯(lián)網(wǎng)工程學(xué)院,江蘇 無錫 214122
語音識別相關(guān)系統(tǒng)在其最基本的層次上,是從各種領(lǐng)域和學(xué)科研究得到的不同方法的集合體,其中包括信號處理、模式識別和語音語言學(xué)等多種學(xué)科,這些學(xué)科方法中的每一種都要將語音信號波形轉(zhuǎn)化為某種類型的參數(shù)表示,這也就是所謂的語音特征提取。特征提取是語音信號處理中最基本也是最重要的一個過程,一種好的特征提取算法能夠準(zhǔn)確地提取到符合人耳聽覺特性的音頻特征,并且能夠避免由于日常噪聲環(huán)境所帶來的不利影響。
最為經(jīng)典的語音特征提取方案是以Mel濾波器[1]作為聽覺濾波器的梅爾頻率倒譜系數(shù)(Mel-scale frequency cepstral coefficients,MFCC)[2-3]。Mel濾波器由一組不同頻率的三角濾波器組成,模擬了人耳聽覺頻率的非線性特征,是使用最廣泛的聽覺濾波器,但是由于其對人耳聽覺的研究并不完全,在提取過程中忽略了部分能量信息,因此在噪聲環(huán)境下會表現(xiàn)出一定的缺陷。為了彌補梅爾濾波器的不足,相關(guān)學(xué)者在充分研究人耳耳蝸聽覺特性后提出了Gammatone濾波器[4-5],一定程度上減小了噪聲對特征提取的影響。Irino等人在Gammatone濾波器基礎(chǔ)之上,提出了符合耳蝸基底膜對于頻率響應(yīng)是非線性特性的Gammachirp濾波器[6-8]。該濾波器作為目前較為理想的聽覺濾波器,繼承了Gammatone濾波器的優(yōu)點,并彌補了其在非對稱性上的不足問題。
歸一化功率倒譜系數(shù)(power-normalized cepstral coefficients,PNCC)[9]是基于Gammatone濾波器組提出的語音特征,其中融合了冪函數(shù)變換、噪聲抑制等多種技術(shù),該特征能夠有效提升噪聲環(huán)境下的語音識別和說話人識別性能。雖然該特征有著良好的抗噪性能,但其中的噪聲抑制過程計算量過大,復(fù)雜度過高,并不適用于實時的語音信號處理系統(tǒng)和小容量語音識別系統(tǒng)。本文結(jié)合PNCC的技術(shù)基礎(chǔ),提出了一種低系統(tǒng)開銷的魯棒語音特征提取算法——非線性冪函數(shù)變換伽馬啁啾頻率倒譜系數(shù)(nonlinear power-function Gammachirp frequency cepstral coefficients,NPGFCC)。該語音特征采用了歸一化壓縮Gammachirp濾波器進(jìn)行濾波操作,并在提取過程中,對特征參數(shù)進(jìn)行了分段非線性冪函數(shù)變換處理,避免提取過程中出現(xiàn)的能量幅值波動較大的問題,在噪聲環(huán)境下能夠有更好的識別性能。
Gammachirp濾波器是一種符合人耳聽覺特性的非線性濾波器,其時域表達(dá)式為:
式中,a為幅值;濾波器階數(shù)n和參數(shù)b負(fù)責(zé)調(diào)整伽馬函數(shù)的分布,本文的n和b分別取值4和1.109;fr為濾波器的中心頻率;?為初始相位,一般取?=0;c為啁啾因子,其取值范圍一般為[-3,3],c作為Gammachirp濾波器的頻率調(diào)制參數(shù),使其區(qū)別于Gamma-tone濾波器,當(dāng)c=0時,Gammachirp濾波器也就退化為了Gammatone濾波器。本文中啁啾因子c取值為c=2。
ERB(fr)是頻率為fr時濾波器的等價矩形帶寬,其計算公式為:
原始Gammachirp濾波器對頻率的響應(yīng)權(quán)值分配是平均的,但信號低頻部分的頻域?qū)挾容^高頻部分明顯窄小,這就造成了響應(yīng)過程中對處于不同頻率信號處理的不均衡問題。針對原始Gammachirp濾波器組高低頻權(quán)值平均分配的現(xiàn)象,本文算法通過壓縮歸一化處理方式對濾波器組進(jìn)行了改進(jìn)。這樣增加了每一個濾波器的頻率寬度,并且相應(yīng)提升了濾波器組低頻部分的權(quán)重,使得整個特征參數(shù)具有更好的抗噪性能,以達(dá)到更好的識別效率。以下是Gammachirp濾波器壓縮歸一化的過程[6]:
其中,GC(i,k)是濾波器組中第k個濾波器在第i個頻率處的響應(yīng)幅值,iFFT為傅里葉變換長度。
如圖1和圖2所示的分別是改進(jìn)前原始的32維Gammachirp濾波器組頻率響應(yīng)和壓縮歸一化后的濾波器組頻率響應(yīng)。通過圖像可以看出,經(jīng)過壓縮歸一化優(yōu)化過程后,濾波器的響應(yīng)曲線在不同頻率上分別對應(yīng)不同的響應(yīng)幅值,能夠更好地表征語音信號所傳遞的信息。
Fig.1 Frequency response of original Gammachirp filter bank圖1 原始Gammachirp濾波器組頻率響應(yīng)
Fig.2 Frequency response of compressed and normalized Gammachirp filter bank圖2 壓縮歸一化Gammachirp濾波器組頻率響應(yīng)
為模擬人耳聽覺模型處理信號的非線性,對每個濾波器的輸出做非線性冪函數(shù)變換,得到一組能量譜。
非線性冪函數(shù)變換是對得到的語音響應(yīng)系數(shù)以冪函數(shù)的方式處理[10]。之所以采取這種變換方式,是由于冪函數(shù)的輸出值并不嚴(yán)格依賴于它的輸入值幅度,因此可以很好地模擬各個音強段的特性,有利于改善語音識別的抗噪性能。諸如MFCC等特征提取過程中是利用對數(shù)函數(shù)對能量幅值進(jìn)行變換,這其中存在著一定的不足:當(dāng)輸入的能量較低時,經(jīng)過對數(shù)變換后,輸入能量的微小的幅值變化便會導(dǎo)致輸出能量的較大波動,特別是在輸入的能量接近零時,這種能量的輸入輸出之間巨大的差異就表現(xiàn)得更加明顯。因此對數(shù)變換的最終結(jié)果可能是降低了特征提取后續(xù)的識別效率,而本文采用的非線性冪函數(shù)變換就很好地彌補了這一缺陷。因此,與其他特征提取中使用的對數(shù)函數(shù)不同,這里用非線性冪函數(shù)對濾波結(jié)果進(jìn)行變換。變換公式為:
其中,Gm是語音信號經(jīng)過濾波后的響應(yīng)幅值,Gc是冪函數(shù)變換后的響應(yīng)幅值。這里的指數(shù)α取值是大于0且小于1的數(shù)。若α的取值較大,也就是接近于1時,冪變換后的特征值不能很好地突出幅值的變化,對識別率的提升效果不明顯;若α的取值過小,則會使得原始特征值變化幅度太大,使數(shù)據(jù)值都趨近于1,脫離了原始數(shù)據(jù)的分布情況,也不能充分地發(fā)揮其作用。在PNCC特征提取過程中,α的取值為固定值,但由于語音特征系數(shù)各個分量對識別率的影響有所不同,識別過程中,高階特征分量相對于低階特征分量來說,受到的噪聲干擾影響較小,具有較強的魯棒性。
為了使語音特征參數(shù)更符合耳蝸聽覺特性,提升系統(tǒng)的抗噪魯棒性,本文提出了對每個濾波器的輸出進(jìn)行分段式指數(shù)變換,針對不同頻率部分的濾波器響應(yīng)系數(shù),令α取不同的值進(jìn)行非線性冪函數(shù)變換。這樣一來,在降低魯棒性較差的低階分量值的同時,又將數(shù)值較小的中高階特征分量值進(jìn)行了提升[11],因此能夠在抗噪能力方面提供更佳的性能。
本文采用的Gammachirp濾波器組的頻率響應(yīng)范圍為0~8 000 Hz,針對這一頻率范圍,將每1 000 Hz的頻率分為一段,對每一頻率段分別指定相應(yīng)的一組冪函數(shù)變換指數(shù),全部頻率范圍共分為9段。根據(jù)頻率值f的不同,冪函數(shù)取值及分段方式如式(5)所示。
大多數(shù)的語音特征針對安靜環(huán)境能夠有較好的效果,但在復(fù)雜的噪聲環(huán)境下,這類算法普遍存在抗噪性能不佳的問題。為了滿足現(xiàn)實應(yīng)用環(huán)境的需要,本文通過對人耳聽覺特性的研究來尋求抗噪性能較好的語音特征參數(shù),提出了NPGFCC特征提取算法。該特征基于抗噪性能較好的壓縮歸一化Gammachirp濾波器,并通過結(jié)合和利用分段式非線性冪函數(shù)變換、RASTA(relative spectral)濾波、均值方差歸一化和時間序列濾波等技術(shù)方法,進(jìn)一步提高了語音特征的抗噪魯棒性。
NPGFCC特征提取過程如下:
(1)信號預(yù)處理。對輸入的語音信號x(n)進(jìn)行預(yù)加重處理,經(jīng)過預(yù)加重后的語音信號為:
其中,μ為預(yù)加重系數(shù),一般取0.92~0.98之間,這里取μ=0.97。
(2)RASTA濾波處理。相對譜RASTA濾波處理技術(shù)是信號處理領(lǐng)域中為了抑制波形中變化緩慢的部分而提出的。該處理方法是利用低頻帶通濾波器來補償環(huán)境和聲道的動態(tài)作用,對抑制卷積噪聲有較好的效果,因此該技術(shù)廣泛地應(yīng)用于信號的信道噪聲處理中。本文使用的低頻帶通濾波器頻率響應(yīng)H(Z)可以表示為如下的形式[2]:
式中,參數(shù)G取值為0.1,N取值為5,ρ取值為0.98,Z是輸入的語音信號。
通過RASTA處理后得到濾波后的信號y′(n)。
(3)語音信號分幀、加窗。由于語音信號具有短時平穩(wěn)性,可將信號分為短時的語音幀來方便進(jìn)行后續(xù)操作,并且為了減少語音幀的邊緣效應(yīng)使之平滑過渡,需對分幀后的語音幀進(jìn)行加窗處理。本文選用的窗口為漢明窗,得到加窗后的語音信號S(n)。
(4)短時傅里葉變換。對加窗后的時域語音幀片段進(jìn)行快速傅里葉變換(fastFouriertransform,F(xiàn)FT),將其由時域變換到頻域,得到每一幀語音信號的快速傅里葉變換后的幅度譜Y(t,i)。
(5)歸一化壓縮Gammachirp濾波器濾波。具體流程是將上一步變換得到語音幅度譜,通過k階壓縮歸一化Gammachirp濾波組進(jìn)行濾波處理,也就是將每一幀語音信號的功率譜Y(t,i)分別與Gammachirp濾波器組內(nèi)每一通道的濾波器加權(quán)求和,得到語音信號在不同頻率分量上的響應(yīng)Gm(t,k),它表示第t幀語音信號在第k個濾波器上的響應(yīng)系數(shù)。
本文采用64組不同中心頻率的Gammachirp濾波器構(gòu)成音頻濾波器組,因此k的取值為1~64。
(6)分段非線性冪函數(shù)變換,根據(jù)頻率值確定冪函數(shù)變換系數(shù)α,根據(jù)公式進(jìn)行變換。
(7)離散余弦變換(DCT)。為了減少特征向量的相關(guān)性,降低特征矢量的維度,將每一幀語音在Gammachirp濾波器組的響應(yīng)輸出進(jìn)行離散余弦變換去除其參數(shù)間的相關(guān)性。本文取DCT變換后的前32維特征進(jìn)行后續(xù)處理,DCT變換[5-6]的過程:
其中,Gc(t,k)代表第t幀語音在第k階濾波器上的響應(yīng)輸出,GDct(t,k)表示經(jīng)過離散余弦變換后第t幀語音的特征矢量。DCT(k,m)表示N維離散余弦變換矩陣中第k行m列的值,它的定義是:
(8)倒譜均值方差歸一化[12]。通過對倒譜特征進(jìn)行均值方差歸一化過程能夠一定程度上消除信道對語音特征的影響。倒譜均值歸一化過程是:
倒譜方差歸一化過程是:
(9)時間序列濾波[13]。為了降低基音頻率對聲道特性的影響,對得到的語音特征采用一種平滑濾波的方式來減小基音頻率的影響。選取窗口大小為W=5的滑動濾波器對得到的語音特征進(jìn)行濾波,得出消除基音頻率影響后的32維NPGFCC語音特征。
如圖3所示是整個NPGFCC語音特征的提取流程。
Fig.3 NPGFCC feature extraction process圖3 NPGFCC特征提取流程
目前較為常用的說話人識別模型有高斯混合模型-通用背景模型(Gaussian mixture model-universal background model,GMM-UBM)[14-15]和結(jié)合概率線性判別分析(probabilistic linear discriminant analysis,PLDA)的辨識向量(identity-vector,i-vector)[16-18]模型。
單純的以某一種模型作為說話人識別系統(tǒng)都不免會存在一定誤差,為了提升系統(tǒng)的識別精度,本文以i-vector+PLDA作為說話人識別模型,且對其進(jìn)行了改進(jìn),提出了融合決策i-vector說話人識別模型。與i-vector+PLDA模型不同的是,融合決策i-vector說話人識別模型是在決策環(huán)節(jié)中融合了GMM-UBM似然概率和i-vector的相似度度量,通過將i-vector的相似度度量、PLDA相似度得分和GMM-UBM最大似然概率得分進(jìn)行歸一化加權(quán),最終確定說話人身份。這樣一定程度上減少了識別誤差,在不增加系統(tǒng)計算復(fù)雜度的前提下提升了整體的識別準(zhǔn)確性。
將本文所提的魯棒性NPGFCC特征提取算法用在融合決策i-vector識別模型中,來提高識別系統(tǒng)的整體性能。融合決策i-vector說話人識別模型的識別流程為:
(1)為每一組說話人的訓(xùn)練語音提取NPGFCC特征矢量。
(2)通過對矢量進(jìn)行訓(xùn)練得到通用背景模型UBM。
(4)根據(jù)語音特征,計算說話人對應(yīng)的Baum-Welch統(tǒng)計量,進(jìn)而訓(xùn)練得到全變量空間矩陣T。
(5)由T矩陣和前面得到的UBM模型,計算得出每段語句的i-vector矢量。
(6)將所得i-vector矢量進(jìn)行訓(xùn)練得到高斯PLDA模型。
(7)對需要識別的語音進(jìn)行特征提取,通過UBM自適應(yīng)得到GMM,利用全變量空間矩陣T得出其超均值矢量,并提取i-vector。
(8)將訓(xùn)練說話人語音和測試語音間的i-vector矢量通過余弦距離計算其相似度,同時由PLDA模型對矢量間進(jìn)行打分,并將測試語音特征和訓(xùn)練說話人的GMM模型經(jīng)最大似然計算得出概率值,通過以上三者的得分值分別歸一化處理后進(jìn)行加權(quán)計算,得出融合分值作為最后的決策分,得分最大的說話人作為結(jié)果輸出。
如圖4所示為融合決策i-vector說話人識別模型的整體流程。
本實驗通過利用TIMIT語音庫進(jìn)行文本無關(guān)說話人識別實驗。選用其中共100人的音頻數(shù)據(jù),包括50名男性和50名女性,每人10段發(fā)音數(shù)據(jù),每段數(shù)據(jù)長約為3~5 s,信號采樣頻率為16 kHz。選取每人語音數(shù)據(jù)中的5段用作訓(xùn)練樣本,另5段語音作為測試數(shù)據(jù),并對測試語音分別混合不同強度的噪聲,共計500條測試樣本。實驗中的噪聲數(shù)據(jù)來自NoiseX-92數(shù)據(jù)庫,從中選擇了Babble噪聲、Cafe噪聲、Factory噪聲以及利用該數(shù)據(jù)庫多種噪聲混合而成的Mixed噪聲。高斯混合模型的混合度設(shè)為32,語音幀長和幀移分別為20 ms和10 ms。信噪比SNR分別取-5 dB、0 dB、5 dB、10 dB、15 dB、20 dB。
Fig.4 Process of imporved i-vector speaker recognition system圖4 融合決策i-vector說話人識別系統(tǒng)流程
為了證明算法的有效性,在相同的實驗條件下,分別選取了39維的差分MFCC特征、基于Gammatone濾波器組的26維GFCC(Gammatone frequency cepstral coefficients)特征[12]和26維的PNCC特征進(jìn)行對比實驗。
首先驗證了本文NPGFCC算法在計算復(fù)雜度方面的優(yōu)勢,通過對比不同特征提取算法提取相同500段語音特征所用時間,得到如表1所示的各算法在相同實驗環(huán)境下的平均用時對比表。
Table 1 Time used by different algorithms表1 不同算法所用時間對比
其次利用本文提出的融合決策i-vector模型,得出不同算法在無噪和有噪環(huán)境下的平均識別準(zhǔn)確率,如表2和表3所示。
Table 2 Recognition rate of different algorithms in noise-free state表2 算法在無噪聲狀態(tài)下平均識別率
Table 3 Recognition rate in different noisy cases表3 不同噪聲環(huán)境下識別率
另一方面,為了對比本文提出的融合決策i-vector模型較單一決策模型的優(yōu)勢,使用相同的實驗數(shù)據(jù),在Babble噪聲下利用PNCC和NPGFCC特征分別在GMM-UBM、i-vector、PLDA和決策融合模型下進(jìn)行了實驗對比,得出了如表4所示各個模型下說話人平均識別準(zhǔn)確率數(shù)據(jù)。
通過表1的實驗結(jié)果可以看出,在運算時間方面,NPGFCC和MFCC、GFCC特征同屬一個數(shù)量級,都在可接受范圍之內(nèi)。而PNCC算法中,由于要進(jìn)行噪聲估計等過程,對噪聲的能量進(jìn)行估計并通過噪聲信息對語音進(jìn)行濾波處理,因此對系統(tǒng)開銷較大,時間復(fù)雜度較高,不適用在小容量實時語音處理系統(tǒng)中。本文提出的NPGFCC特征未使用噪聲估計這一過程,而是通過利用抗噪濾波器和分段冪函數(shù)變換等方式對噪聲進(jìn)行抑制,能夠在保證較低時間消耗的前提下提升識別準(zhǔn)確率。
Table 4 Recognition rate in different recognition models表4 不同識別模型下識別率
表2給出的結(jié)果是四種算法在未添加噪聲的純凈語音狀態(tài)下的平均識別準(zhǔn)確率。實驗結(jié)果顯示,除GFCC特征外,這幾種特征算法都達(dá)到了較高的識別水準(zhǔn)。其中MFCC特征給出了近乎全部識別正確的結(jié)果,說明了在無噪聲的純凈環(huán)境下,MFCC特征有其良好的性能。同時PNCC和NPGFCC也都表現(xiàn)出較高的識別水平,兩者識別準(zhǔn)確率均達(dá)到99.2%,證明了本文算法在純凈語音狀態(tài)下同樣有著較優(yōu)異的識別能力。
由表3的實驗數(shù)據(jù)可以得出,噪聲對識別率影響最大的是MFCC特征,其識別準(zhǔn)確率隨著信噪比的不斷降低出現(xiàn)了急劇的下降,說明了該特征對噪聲的異常敏感性。相比之下,GFCC特征較MFCC有一定的改善,主要體現(xiàn)在較低信噪比的時候其識別準(zhǔn)確率較MFCC有大幅度的提升。PNCC和NPGFCC特征整體表現(xiàn)相當(dāng),且相比MFCC和GFCC,這兩種特征表現(xiàn)出了良好的抗噪性能。整體來看,NPGFCC特征的魯棒性是這些算法中表現(xiàn)最佳的,尤其是在低信噪比情況下,NPGFCC特征算法的優(yōu)勢就更為明顯,且在噪聲影響較小的時候,算法依然有著很高的識別準(zhǔn)確率。與此同時,在不同的噪聲環(huán)境以及不同信噪比下,本文算法都得出了較理想和穩(wěn)定的結(jié)果,表明了NPGFCC特征在抗噪能力上的有效性和魯棒性。
表4給出的是PNCC特征和NPGFCC特征分別在GMM-UBM模型、i-vector模型、i-vector+PLDA模型和融合決策i-vector模型下的平均識別準(zhǔn)確率對比。從結(jié)果分析,結(jié)合PLDA的i-vector模型整體識別率要稍好于GMM-UBM和i-vector模型,表明了ivector+PLDA作為目前主流的說話人識別模型在該領(lǐng)域的優(yōu)勢。相比之下,本文提出的融合決策算法的識別準(zhǔn)確率表現(xiàn)最佳,識別能力較單一的模型有較好的改善,特別是使用NPGFCC特征的融合決策ivector說話人識別系統(tǒng),噪聲環(huán)境下的整體識別率較其他算法有明顯的提升,說明了結(jié)合NPGFCC特征的融合決策模型在說話人識別方面的有效性。
由于現(xiàn)實應(yīng)用環(huán)境中噪聲的存在,一定程度上制約了說話人識別技術(shù)的發(fā)展。本文通過結(jié)合人耳聽覺特性,提出了一種抗噪性能良好的語音特征NPGFCC。該特征基于壓縮歸一化Gammachirp濾波器組,可以準(zhǔn)確表征出語音段信號,并通過利用分段非線性冪函數(shù)變換增強其抗噪性能。實驗證明,將本文算法應(yīng)用在說話人身份識別方面,能夠有效提升日常噪聲環(huán)境中的識別準(zhǔn)確率,且相對其他特征算法,NPGFCC有著最優(yōu)的性能表現(xiàn)。另外,在識別模型方面,通過對i-vector+PLDA模型進(jìn)行優(yōu)化改進(jìn),在不增加算法復(fù)雜度的前提下有效降低了識別誤差,改善了說話人識別系統(tǒng)在噪聲環(huán)境下的抗噪魯棒性問題。