段俊毅, 趙建峰
(1.中國鐵塔內(nèi)蒙古分公司,內(nèi)蒙古 呼和浩特 010021; 2.北京航空航天大學(xué) 杭州創(chuàng)新研究院,浙江 杭州 310000)
情感是一種特殊、強(qiáng)烈的心理活動(dòng),可通過多種行為、動(dòng)作向外表現(xiàn),如面部表情、語言、肢體動(dòng)作等[1]。語音情感識別是情感識別研究的一個(gè)基本問題。語音信號包含的信息主要有語言信息和副語言信息,語言信息指話語的語境或意義,副語言信息指語音中的情感等隱含信息[2]。為了辨析個(gè)體的真實(shí)情感狀態(tài),可從語音信號中提取合適的副語言特征,進(jìn)行語音情感識別。
利用深度網(wǎng)絡(luò),從語音信號中提取深度情感特征,可形成語音情感特征的層次化表征。通過深度網(wǎng)絡(luò),對信號進(jìn)行特征學(xué)習(xí)及抽象建模,極大變革了語音信號處理領(lǐng)域,從而提升中國鐵塔10096客戶服務(wù)質(zhì)量。這些學(xué)習(xí)到的深度特征一般由多種線性和非線性變換組成,形成原始數(shù)據(jù)的層次化抽象,在實(shí)驗(yàn)中的表現(xiàn)明顯優(yōu)于手工特征。
傳統(tǒng)語音情感特征是典型的低級特征,將其輸入到深度網(wǎng)絡(luò)提取高級情感特征,不僅可識別語音情感,也可簡化深度網(wǎng)絡(luò)的設(shè)計(jì)和訓(xùn)練。本文提出利用卷積神經(jīng)網(wǎng)絡(luò)(CNN)從MFCCs和LFCCs中提取情感特征,實(shí)現(xiàn)對情感信息的高級抽象建模。同時(shí)設(shè)計(jì)了一維CNN從語音片段中提取特征,并進(jìn)行語音情感識別。實(shí)驗(yàn)表明,從手工特征中學(xué)習(xí)深度特征的方法不僅可以獲得更高的識別精度,還可通過簡化網(wǎng)絡(luò)構(gòu)建而減少網(wǎng)絡(luò)參數(shù)。
在傳統(tǒng)語音情感識別領(lǐng)域,Milton等[3]在提取MFCCs特征后,使用三階段支持向量機(jī)分類器實(shí)現(xiàn)了情感分類。Waghmare等[4]利用MFCCs對馬拉松語音數(shù)據(jù)集的語音情感進(jìn)行了分析和識別。Demircan等[5]從EmoDB數(shù)據(jù)集的語音片段中提取MFCCs后,使用,k-NN算法對語音情感進(jìn)行分類。Nalini等[6]利用殘差相位和MFCCs特征,結(jié)合自聯(lián)想神經(jīng)網(wǎng)絡(luò)(AANN),開發(fā)了一種語音情感識別系統(tǒng)。Chen等[7]利用隱馬爾可夫模型(HMM)和支持向量機(jī)(SVM)對LFCCs、MFCCs等語音特征進(jìn)行分類。Nalini等[8]將MFCC和殘余相位(RP)特征分別用于AANN、SVM、RBFNN的音樂情感識別。
DBNs深度網(wǎng)絡(luò)提出后[9],Stuhlsatz等[10]引入了由多個(gè)RBMs疊加的DNNs進(jìn)行語音情感識別,效果顯著改善。Schmidt等[11]采用了基于回歸的深度置信網(wǎng)絡(luò)音樂情感。Duc Le等[12]提出的基于隱馬爾可夫模型和深度置信網(wǎng)絡(luò)的混合分類器,在FAU Aibo上取得了較好結(jié)果。Han等[13]提出利用深度神經(jīng)網(wǎng)絡(luò)從原始數(shù)據(jù)中提取高級特征,實(shí)現(xiàn)了情感識別。Huang等[14]引入了CNN來學(xué)習(xí)語音情感特征,然后輸入線性SVM進(jìn)行語音情感識別。Zheng等[15]構(gòu)建的CNN實(shí)現(xiàn)了標(biāo)注語音數(shù)據(jù)的情感識別。
相對于這些研究,本文試圖將傳統(tǒng)語音情感識別研究和深度網(wǎng)絡(luò)結(jié)合,即從傳統(tǒng)語言情感特征MFCCs和LFCCs中提取層次化特征用于語音情感識別。
語音情感識別是根據(jù)語音情感特征的不同對語音信號進(jìn)行分類的一個(gè)過程。本文通過訓(xùn)練設(shè)計(jì)好的深度網(wǎng)絡(luò)學(xué)習(xí)語音數(shù)據(jù)中的情感特征,來完成特征提取及模型構(gòu)建。
設(shè)計(jì)了一維CNN從原始語音信號中提取情感特征,二維CNN從低級手工特征中學(xué)習(xí)高級情感特征。
2.1.1 數(shù)據(jù)集介紹 利用EmoDB和SAVEE兩個(gè)典型的語音情感數(shù)據(jù)集,評估實(shí)驗(yàn)?zāi)P偷淖R別精度和泛化能力。
(1) EmoDB數(shù)據(jù)集。柏林語音情感數(shù)據(jù)集(Berlin database of emotional speech,Berlin EmoDB)于2005年發(fā)布,提供有標(biāo)簽的語音片段和一些分析結(jié)果。數(shù)據(jù)集中的535個(gè)句子來自日常交流,可以用各種情感表達(dá)。這些語句分別由10名專業(yè)演員分別以憤怒、無聊、厭惡、恐懼、快樂、中性和悲傷等7種情感表達(dá),且進(jìn)行了情感的可識別性及自然度評估[16]。
(2) SAVEE數(shù)據(jù)集。視聽情感表達(dá)數(shù)據(jù)集(surrey audio-visual expressed emotion database,SAVEE)于2011年發(fā)布,提供視聽數(shù)據(jù)和分析數(shù)據(jù)。該數(shù)據(jù)集中的480個(gè)英語語句,由4位英國男演員以憤怒、厭惡、恐懼、快樂、悲傷、驚奇和中性等7種情感表達(dá)。數(shù)據(jù)集在視覺媒體實(shí)驗(yàn)室中記錄、處理和標(biāo)記,并由10名測試者進(jìn)行了評估[17]。
2.1.2 MFCCs和LFCCs 本文實(shí)驗(yàn)數(shù)據(jù)為: 原始語音片段; 語音片段的MFCCs; 語音片段的LFCCs。為減少輸入數(shù)據(jù)量并確保語音片段具有相同的采樣率,實(shí)驗(yàn)時(shí)所有語音片段的采樣率都被轉(zhuǎn)換為16 kHz。然后對語音片段進(jìn)行了零均值歸一化和零值填充等預(yù)處理:零均值歸一化用于將音頻剪輯和頻譜的總音量更改固定量以達(dá)到目標(biāo)水平; 然后將音頻片段長度剪輯為8 s,長度小于8 s的片段用零值填充。采用圖1所示的流程,從處理完的語音信號中提取MFCCs和LFCCs。
圖1 MFCCs和LFCCs的生成過程Fig.1 The generation process of MFCCs and LFCCs
(1) 梅爾頻率倒譜系數(shù)(MFCCs)。梅爾頻率倒譜系數(shù)是一種低級特征,可構(gòu)成梅爾頻譜(Mel-frequency cepstrum,MFC)。通過對幀序列應(yīng)用離散傅里葉變換(DFT)提取聲譜特征(見圖1(a)),之后便可將功率譜轉(zhuǎn)換為梅爾頻譜。
(2) 線性倒譜系數(shù)(LFCCs)。LFCC與MFCC的生成過程相似,只是濾波器組的間距不同(見圖1(b))。在進(jìn)行DFT變換后,利用線性濾波器對功率系數(shù)進(jìn)行濾波可得到LFCC,而利用梅爾濾波器對功率系數(shù)進(jìn)行濾波可得到MFCC。
雖然倒譜系數(shù)的一階和二階導(dǎo)數(shù)的能量特征和delta特征可提供更多的信息,但增加的數(shù)據(jù)量會消耗更多的網(wǎng)絡(luò)訓(xùn)練時(shí)間。因此本文各提取19個(gè)MFCCs和LFCCs用于實(shí)驗(yàn)。
卷積運(yùn)算通過模擬視覺系統(tǒng)的行為,以獲取更多的高級特征[18]。卷積神經(jīng)網(wǎng)絡(luò)(CNNs)利用空間-局部連接和共享權(quán)值等特性[19],實(shí)現(xiàn)傳統(tǒng)算法中特征提取器的功能。與其他深度網(wǎng)絡(luò)相比,CNNs輸入的預(yù)處理相對較少,在圖像處理、目標(biāo)分類、目標(biāo)檢測等領(lǐng)域得到了廣泛應(yīng)用。
2.2.1 CNN架構(gòu)設(shè)計(jì) 實(shí)驗(yàn)中使用的語音片段為一維數(shù)據(jù),MFCCs和LFCCs為二維數(shù)據(jù)。因此,本文使用一維和二維卷積層、池化層等分別構(gòu)造了一維CNN和二維CNN,用于一維聲學(xué)數(shù)據(jù)和二維手工特征的處理。
設(shè)計(jì)的一維和二維CNN具有相似的架構(gòu)(圖2和圖3),并采用相同的方法來選擇網(wǎng)絡(luò)超參數(shù)。其中一維CNN有6個(gè)一維卷積層、6個(gè)一維最大池化層和2個(gè)全連接層; 二維CNN有3個(gè)二維卷積層,2個(gè)二維最大池化層和2個(gè)全連接層。這兩個(gè)網(wǎng)絡(luò)都采用Softmax分類器對學(xué)習(xí)到的特征進(jìn)行分類。從圖2和圖3中可以看出,二維CNN的架構(gòu)比一維CNN的架構(gòu)更簡單,層數(shù)更少,則網(wǎng)絡(luò)參數(shù)更少??梢姸SCNN的訓(xùn)練更容易,消耗的時(shí)間更少。
圖2 一維卷積神經(jīng)網(wǎng)絡(luò)Fig.2 One-dimensional convolutional neural network
圖3 二維卷積神經(jīng)網(wǎng)絡(luò)Fig.3 Two-dimensional convolutional neural network
在深度網(wǎng)絡(luò)的迭代訓(xùn)練過程中,防止過擬合和超參優(yōu)化是獲得較優(yōu)模型的基礎(chǔ)。為了克服過擬合,本文使用了權(quán)重衰減、中途退出、提前停止等[20-22]正則化方法。在網(wǎng)絡(luò)訓(xùn)練過程中,深度網(wǎng)絡(luò)超參數(shù)的選擇對試驗(yàn)結(jié)果有較大的影響。相對于網(wǎng)格搜索和隨機(jī)搜索等網(wǎng)絡(luò)超參選擇方法,貝葉斯優(yōu)化在實(shí)驗(yàn)中的效果更好[23]。為了優(yōu)化目標(biāo)網(wǎng)絡(luò)在獨(dú)立數(shù)據(jù)集的性能,本文采用了貝葉斯優(yōu)化方法。
2.2.2 實(shí)驗(yàn)結(jié)果 對選定數(shù)據(jù)集進(jìn)行多組實(shí)驗(yàn),每組實(shí)驗(yàn)分為三部分。第一部分的輸入為原始波形文件,第二部分的輸入為MFCCs,第三部分的輸入為LFCCs。第一部分實(shí)驗(yàn)中,利用一維CNN從原始語音片段中學(xué)習(xí)深度情感特征; 接著利用二維CNN從MFCCs和LFCCs中學(xué)習(xí)層次化情感特征。
為了評估CNN的泛化程度,本文使用了包括中性情感在內(nèi)的所有情感類別的語音片段進(jìn)行實(shí)驗(yàn)。每一部分實(shí)驗(yàn)中的實(shí)驗(yàn)數(shù)據(jù)隨機(jī)分為兩組,一組是訓(xùn)練集,占整個(gè)數(shù)據(jù)集的80%; 另一組是測試集,由剩下的20%數(shù)據(jù)組成。所有實(shí)驗(yàn)是在GTX 970 GPU(4 GB顯存)上完成。
(1) EmoDB數(shù)據(jù)集實(shí)驗(yàn)結(jié)果。EmoDB數(shù)據(jù)集中的535個(gè)語音片段,以及用這些數(shù)據(jù)計(jì)算出的MFCCs和LFCCs分別用于實(shí)驗(yàn)的三個(gè)部分。實(shí)驗(yàn)的混淆矩陣見表1至表3。
由表1至表3可知,這三部分實(shí)驗(yàn)的情感識別準(zhǔn)確率均超過90%。其中利用MFCCs和LFCCs進(jìn)行情感識別的準(zhǔn)確率均大于利用語音片段進(jìn)行情感識別的準(zhǔn)確率,利用LFCCs進(jìn)行情感識別的準(zhǔn)確率最高。
音頻片段的深層架構(gòu)訓(xùn)練時(shí)長為10 min 45 s,MFCC的深層架構(gòu)訓(xùn)練時(shí)長為5 min 21 s,LFCC的深層架構(gòu)訓(xùn)練時(shí)長為11 min 6 s。
表1 EmoDB數(shù)據(jù)集中語音片段實(shí)驗(yàn)的混淆矩陣Tab.1 Confusion matrix for audio clips of Berlin EmoDB
表2 EmoDB數(shù)據(jù)集中MFCCs實(shí)驗(yàn)的混淆矩陣Tab.2 Confusion matrix for MFCCs of Berlin EmoDB
表3 EmoDB數(shù)據(jù)集中LFCCs實(shí)驗(yàn)的混淆矩陣Tab.3 Confusion matrix for LFCCs of Berlin EmoDB
(2) 基于SAVEE數(shù)據(jù)集的實(shí)驗(yàn)結(jié)果。與EmoDB數(shù)據(jù)集相比,SAVEE數(shù)據(jù)集為驚奇情感。實(shí)驗(yàn)數(shù)據(jù)與EmoDB數(shù)據(jù)集一樣,混淆矩陣見表4至表6。同樣,利用MFCCs和LFCCs進(jìn)行情感識別的準(zhǔn)確率都高于利用語音片段進(jìn)行情感識別的準(zhǔn)確率。
2.2.3 結(jié)果比較 將表1至表6中的識別率進(jìn)行比較,結(jié)果見表7。從表7可以看出,利用MFCCs和LFCCs 進(jìn)行情感識別的精度都高于利用原始語音片段進(jìn)行情感識別的精度。而利用MFCCs和LFCCs進(jìn)行情感識別的識別率比較接近。在EmoDB數(shù)據(jù)集上進(jìn)行的實(shí)驗(yàn),利用LFCCs進(jìn)行情感識別的準(zhǔn)確率要高于利用MFCCs進(jìn)行情感識別的準(zhǔn)確率。而在SAVEE數(shù)據(jù)集上進(jìn)行的實(shí)驗(yàn),利用MFCCs和LFCCs取得的實(shí)驗(yàn)結(jié)果正相反。
表4 SAVEE數(shù)據(jù)集中語音片段實(shí)驗(yàn)的混淆矩陣Tab.4 Confusion matrix for audio clips of SAVEE dataset
表5 SAVEE數(shù)據(jù)集中MFCCs實(shí)驗(yàn)的混淆矩陣Tab.5 Confusion matrix for MFCCs of SAVEE dataset
表6 SAVEE數(shù)據(jù)集中LFCCs實(shí)驗(yàn)的混淆矩陣Tab.6 Confusion matrix for LFCCs of SAVEE dataset
表7 不同輸入的識別精度比較Tab.7 Comparison of recognition accuracy between different inputs %
將本文的實(shí)驗(yàn)結(jié)果與其他算法的實(shí)驗(yàn)結(jié)果比較可知二維CNN具有較大的優(yōu)勢(表8)。本文提出的二維CNN在MFCCs與LFCCs的實(shí)驗(yàn)結(jié)果均好于一維CNN在語音片段的實(shí)驗(yàn)結(jié)果,即二維CNN可學(xué)習(xí)區(qū)分度較大的層次化語音情感特征,可有效識別語音情感,為語音情感的判別和檢測提供有力的技術(shù)支撐。
表8 二維CNN在EmoDB數(shù)據(jù)集和SAVEE數(shù)據(jù)集與其他算法的識別精度比較
通過設(shè)計(jì)兩個(gè)深度CNN分別從原始語音片段、MFCCs和LFCCs中學(xué)習(xí)高級特征并進(jìn)行情感識別。實(shí)驗(yàn)結(jié)果表明,該方法對情感信息進(jìn)行高級抽象建模后,可有效識別語音情感。從以上實(shí)驗(yàn)結(jié)果可知:
(1) 一維和二維CNN可從原始語音片段和低級特征中學(xué)習(xí)到區(qū)分度較大的情感特征,在選定數(shù)據(jù)集上的識別精度超過了傳統(tǒng)識別精度;
(2) 從手工特征中學(xué)習(xí)高級情感特征的方法,不僅可達(dá)到較高的情感識別率,還可簡化深度網(wǎng)絡(luò)構(gòu)建以減少網(wǎng)絡(luò)參數(shù),進(jìn)而減少訓(xùn)練時(shí)間。
因此,將二維CNN運(yùn)用于個(gè)體的情感狀態(tài)檢測,可有效鑒別語音情感。將其應(yīng)用于客服異常情感的實(shí)時(shí)鑒別,并對其服務(wù)態(tài)度進(jìn)行評估,可有效提升客服服務(wù)質(zhì)量。后續(xù)引入10096人機(jī)交互系統(tǒng)中,使企業(yè)業(yè)務(wù)運(yùn)營更精準(zhǔn)地服務(wù)客戶成為可能。
但在揭示卷積神經(jīng)網(wǎng)絡(luò)或其他深度網(wǎng)絡(luò)提取層次化特征的機(jī)制、二維CNN從MFCCs和LFCCs中學(xué)習(xí)到的高級特征可獲得很高的識別精度及這兩種深度特征的相似程度判別研究、設(shè)計(jì)一種可替代CNN從MFCCs或LFCCs中學(xué)習(xí)層次化特征的算法等方面仍有待進(jìn)一步探討和研究。