劉雨柔,張雪英,陳桂軍,黃麗霞,張 靜
(太原理工大學(xué) 信息與計算機學(xué)院,山西 太原 030024)
語音情感識別是人工智能領(lǐng)域的一個重要分支,主要分為預(yù)處理、特征提取、識別模型3個部分,提取能有效表達(dá)情感信息的特征對識別結(jié)果起著關(guān)鍵的作用。目前應(yīng)用最廣泛的特征是Mel頻率倒譜系數(shù)(Mel-frequency cepstral coefficients,MFCC),研究發(fā)現(xiàn)MFCC提取過程中存在兩個問題,一方面利用三角形濾波器組會出現(xiàn)相鄰頻帶間能量的泄露,不利于反映共振峰特性,另一方面頻帶的劃分是以中心頻率按照Mel尺度均勻分布為前提,與聽覺特性中臨界帶寬概念不完全相符[1]。文獻(xiàn)[2]指出MFCC在用于識別時若無干擾則識別效果很好,但在噪聲干擾條件下識別效果急劇下降。Gammatone濾波器組能有效模擬人耳的頻譜分析與頻率選擇特性,而且具有很強的抗噪性[3]。文獻(xiàn)[4]在說話人識別系統(tǒng)中選用由Gammatone濾波器代替Mel尺度的三角形濾波器組提取的Gammatone頻率倒譜系數(shù)(Gammatone frequency cepstral coefficients,GFCC),結(jié)果表明其識別率與魯棒性均優(yōu)于MFCC。傳統(tǒng)的MFCC、GFCC忽略了信號本身非線性、非穩(wěn)態(tài)特性,不能全面地獲取語音中的情感信息。經(jīng)驗?zāi)J椒纸?empirical mode decomposition,EMD)是一種能有效處理非線性、非平穩(wěn)信號的技術(shù),可以用于解決上述問題。屠彬彬等提出一種基于EMD改進(jìn)MFCC的新特征用于語音情感識別,相比傳統(tǒng)的MFCC識別率提高了3.26%[5],但是EMD會出現(xiàn)波形混疊現(xiàn)象。文獻(xiàn)[6]提出一種能夠有效抑制模態(tài)混疊現(xiàn)象的信號分解方法——變分模態(tài)分解。文獻(xiàn)[7-9]研究結(jié)果表明,與EMD算法的分解結(jié)果相比,VMD不僅去噪效果好,而且可以準(zhǔn)確地分解出不同頻率段的信號。
VMD可以解決語音信號的非線性、非穩(wěn)態(tài)問題,GFCC具有較好的噪聲魯棒性,因此本文將VMD算法與GFCC特征相結(jié)合,得到一種VMD改進(jìn)GFCC的新特征——VGFCC用于語音情感識別,并通過實驗驗證其有效性。
語音情感識別是一項利用計算機提取說話者語音中的特征參數(shù),并將其通過識別模型對說話者的情感狀態(tài)進(jìn)行判別的技術(shù)。本文所提新特征VGFCC的提取識別系統(tǒng)框架如圖1所示。
圖1 VGFCC提取識別系統(tǒng)框架
2014年由K.Dragomiretskiy等提出一種不同于經(jīng)驗?zāi)B(tài)分解、局部均值分解(local mean decomposition,LMD)的信號分解方法——變分模態(tài)分解[6]。VMD算法核心是通過迭代搜索獲取約束變分模型的最優(yōu)解,自動獲取固有模態(tài)函數(shù)的中心頻率及帶寬。信號f的約束變分模型可用式(1)表示
(1)
式中:K代表分解的IMF個數(shù),{uk={u1,u2,…,uK表示IMF分量集;{ωk={ω1,ω2,…,ωK是IMF分量集對應(yīng)的中心頻率集。
為獲取式(1)最優(yōu)解,引入二次懲罰因子α降低噪聲干擾,通過拉格朗日乘子λ保持約束的嚴(yán)格性,約束變分問題轉(zhuǎn)為非約束變分問題[10]
(2)
圖2 VMD迭代運算流程
VMD分解所得的固有模態(tài)函數(shù)分量的中心頻率值從低到高分布,IMF分量個數(shù)K從1開始取值,如最后一個IMF的中心頻率第一次達(dá)到最大值,則代表未出現(xiàn)分解不足的問題,K值逐漸遞增,直至最大的中心頻率保持相對穩(wěn)定,即可認(rèn)定此時的K值為最恰當(dāng)?shù)姆纸鈧€數(shù)[11]。表1是根據(jù)情感語句分解得到的各IMF中心頻率,K=7時頻率最大值最小值基本保持不變,因此確定K的最佳值為7。
表1 各IMF分量的中心頻率/Hz
圖3為EMD、LMD與VMD這3種不同的信號分解方法對EMO-DB中隨機選取語音的分解結(jié)果,觀察可得:3種分解方法都存在不同程度的端點效應(yīng)導(dǎo)致分解信號波形失真的問題,但VMD分解的IMF1與原信號最相似,具有較好的魯棒性,分解效果優(yōu)于其它兩種方法。
通過研究人的聽覺特性發(fā)現(xiàn),耳蝸相當(dāng)于一個濾波器組,很多學(xué)者對此深入研究并取得了一定成果,Lyon提出共振峰濾波器[12],Patterson等提出Roex函數(shù)濾波器[13],但是共振濾波器不具備非線性特性且無法主動反饋,Roex濾波器難以用簡單的沖激響應(yīng)函數(shù)表示。1972年Johannesma提出Gammatone(GT)濾波器模型模擬人耳所需參數(shù)少,具有簡單的沖激響應(yīng)表達(dá)式[2],之后Gammatone濾波器被廣泛應(yīng)用于模擬聽覺的頻響性質(zhì),其時域形式如下
g(f,t)=ctm-1e-2πntcos(2πft+φ),t≥0
(3)
式中:f表示中心頻率,c表示對應(yīng)濾波器的增益,m為濾波器所選階數(shù),φ為相位,衰減因子n與中心頻率f關(guān)系如式(4)
n=24.7(4.37f/1000+1)
(4)
GFCC是基于Gammatone濾波器提取的一種語音參數(shù),語音信號是隨時間改變的信號,傳統(tǒng)的GFCC提取將信號直接經(jīng)過FFT,設(shè)定信號在短時間內(nèi)是近似不變的,沒有體現(xiàn)出信號的非線性、非平穩(wěn)性,忽略了部分信息;VGFCC的提取先通過VMD分解信號再進(jìn)行FFT,準(zhǔn)確地反映了信號的局部特性,可以得到更全面的語音信號情感特征。VGFCC的詳細(xì)計算過程分5步:
(1)預(yù)處理:將語音信號x(n)經(jīng)過預(yù)加重、分幀、加窗(漢明窗)后為x′(n);
(2)VMD分解后進(jìn)行FFT:經(jīng)過VMD分解x′(n)為K個IMF分量{uk={u1,u2,…,uK,對所有IMF分量進(jìn)行FFT
(5)
其中,N是傅里葉變換點數(shù),r表示每幀信號的點數(shù),k=1,2,…,K;
(3)頻率合成:對IMF分量的頻譜幅度Xk(r) 取模平方得到信號的能量譜
圖3 EMD、LMD、VMD分解語音信號對比
(6)
將各個頻段相加
(7)
(4)濾波后求對數(shù)能量:S(r)通過Gammatone濾波器進(jìn)行濾波,最后對頻譜能量取對數(shù)
(8)
式中:m代表濾波器通道號,CH是通道總數(shù),l代表濾波器階數(shù),L一般取12~16;
(5)計算VGFCC:將上一步中的E(m)做離散余弦變換,可得系數(shù)
(9)
對所得系數(shù)求最大值、最小值、平均值、標(biāo)準(zhǔn)差、中值5種統(tǒng)計參數(shù)即為VGFCC。
選取由柏林工業(yè)大學(xué)錄制的德語EMO-DB與太原理工大學(xué)信息與計算機學(xué)院數(shù)字音視頻實驗室錄制的漢語TYUT2.0作為數(shù)據(jù)庫進(jìn)行實驗,詳細(xì)情況見表2和表3。
表2 EMO-DB實驗數(shù)據(jù)庫
表3 TYUT2.0實驗數(shù)據(jù)庫
提取特征VGFCC,EGFCC(基于EMD改進(jìn)GFCC)與LGFCC(基于LMD改進(jìn)GFCC),同時提取傳統(tǒng)的語音特征對比驗證所提改進(jìn)特征的可行性。特征詳細(xì)介紹見表4。
識別網(wǎng)絡(luò)為常見的SVM,其核函數(shù)的選擇對于性能的表現(xiàn)有至關(guān)重要的作用,徑向基核函數(shù)(radial basis func-tion,RBF)是一種局部性強的核函數(shù),可以實現(xiàn)將一個樣本映射到一個更高維的空間內(nèi),應(yīng)用較廣,無論樣本大小都有較好的性能,因此本文選用RBF作為SVM的核函數(shù)。
表4 語音情感特征及其統(tǒng)計參數(shù)
為了說明VGFCC新特征的優(yōu)勢,設(shè)計以下實驗進(jìn)行論證。
2.4.1 對比不同信號分解方法改進(jìn)的GFCC
分別采用EMD、LMD與VMD這3種不同的信號分解方法處理情感語音信號之后提取GFCC,通過SVM分類器分別對兩種語音庫中的不同情感進(jìn)行識別,實驗結(jié)果見表5。
表5 與不同改進(jìn)特征比較的識別結(jié)果
從表5中可以看出:
(1)無論是EMO-DB還是TYUT2.0語音庫,所提新特征VGFCC的識別效果均是最優(yōu)的;相比于傳統(tǒng)的GFCC識別率有了顯著的提高,說明通過信號分解方法可以有效解決傳統(tǒng)信號處理中忽略語音非線性、非平穩(wěn)性的問題,更全面地捕捉語音中所包含的信息;
(2)與EGFCC、LGFCC相比,VGFCC識別效果更好,進(jìn)一步驗證相比于EMD、LMD,VMD可以更有效地處理非線性、非穩(wěn)態(tài)的情感語音信號,分解信號具有更好的自適應(yīng)性。
2.4.2 對比VGFCC與傳統(tǒng)語音特征
提取韻律、非線性幾何、非線性屬性、MFCC這4種傳統(tǒng)的語音特征與改進(jìn)的新特征VGFCC,采用SVM進(jìn)行分類,結(jié)果見表6。
表6 與傳統(tǒng)語音特征比較的識別結(jié)果
由表6可知兩種語音庫中,相比于傳統(tǒng)的語音特征,改進(jìn)的新特征VGFCC總能得到最高的識別率,傳統(tǒng)特征中表達(dá)情感效果最好的是MFCC,在EMO-DB語音庫中,VGFCC比MFCC提高了5.48%,在TYUT2.0語音庫中,VGFCC比MFCC提高了5.06%。
為了充分驗證VGFCC的有效性,圖4和圖5分別是兩種語音庫中每一種情感的識別率,圖中觀察可得:無論是EMO-DB語音庫中的6種情感還是TYUT2.0語音庫中的4種情感,相比于傳統(tǒng)的語音特征,VGFCC對于每一類情感的識別結(jié)果均是最優(yōu)的,與表6的實驗結(jié)果是一致的。
圖4 不同情感在EMO-DB中的識別率
圖5 不同情感在TYUT2.0中的識別率
本文提出一種基于VMD改進(jìn)GFCC——VGFCC情感語音特征的提取方法,通過VMD分解信號可以準(zhǔn)確表現(xiàn)情感語音信號的非線性、非穩(wěn)態(tài)特性。選用EMD-DB與TYUT 2.0兩種語音庫,以常用的支持向量機作為分類器進(jìn)行實驗對比驗證所提新特征的有效性,實驗結(jié)果表明:兩種語音庫中,VGFCC識別效果均優(yōu)于傳統(tǒng)的語音特征、GFCC、EGFCC和LGFCC,是一種有效的情感特征。目前關(guān)于情感語音跨庫識別的效果不好,下一步計劃尋找性能更好的識別算法,結(jié)合本文所提出的識別效果較好的VGFCC特征構(gòu)造一個完整的識別系統(tǒng)以提高跨庫語音的情感識別率。