雷沛之 傅洪亮
摘要:為了更加準(zhǔn)確地進(jìn)行語(yǔ)音情感識(shí)別,提出了一種基于去噪自編碼器的語(yǔ)音情感識(shí)別模型。該模型用Open SMILE提取了語(yǔ)音中的聲學(xué)特征,利用構(gòu)建好的去噪自編碼器獲得更高階的特征,用SVM分類器對(duì)語(yǔ)音中的情感進(jìn)行識(shí)別分類。在EmoDB情感語(yǔ)料庫(kù)上進(jìn)行了實(shí)驗(yàn),結(jié)果表明,與直接使用SVM進(jìn)行分類相比,該模型對(duì)語(yǔ)音情感的識(shí)別準(zhǔn)確率至少提高了2%。
關(guān)鍵詞:情感識(shí)別;語(yǔ)音特征;SVM;去噪自編碼器
中圖分類號(hào):TP391.41文獻(xiàn)標(biāo)志碼:A文章編號(hào):1008-1739(2018)18-67-2
Speech Emotion Recognition Based on Denoising Autoencoder
LEI Peizhi1, FU Hongliang2
(College of Information Science and Engineering, He爺nan University of Technology, Zhengzhou, He爺nan 450001, China)
0引言
語(yǔ)音是人們相互交流情感和信息的最直接方式,語(yǔ)音情感識(shí)別就是機(jī)器根據(jù)語(yǔ)音信號(hào)分辨出這些語(yǔ)音所表達(dá)的各種情感[1]。隨著各種電子產(chǎn)品的更新?lián)Q代,人們?cè)谑褂眠@些電子產(chǎn)品時(shí)都希望它能具有更好的人機(jī)交互功能、更加智能化,所以語(yǔ)音情感識(shí)別逐漸成為了具有廣泛前景的研究方向??茖W(xué)家對(duì)于語(yǔ)音情感識(shí)別的研究,可以追溯到20世紀(jì)80年代左右,那時(shí)科學(xué)家的研究重點(diǎn)是語(yǔ)音中的聲學(xué)統(tǒng)計(jì)特征,例如麻省理工學(xué)院設(shè)計(jì)的可以采集各種情感信息的“情感編輯器”[2],由于實(shí)驗(yàn)條件及語(yǔ)音樣本較少等條件的限制,并沒(méi)有在該領(lǐng)域產(chǎn)生較大的突破。
近些年來(lái),隨著人們逐漸意識(shí)到研究語(yǔ)音情感識(shí)別對(duì)計(jì)算機(jī)科學(xué)、信息科學(xué)及心理學(xué)等諸多學(xué)科的推動(dòng)作用,以及人工智能和深度學(xué)習(xí)等領(lǐng)域的發(fā)展,情感識(shí)別取得了長(zhǎng)足的進(jìn)步[3]。如今,利用語(yǔ)音特征進(jìn)行分類仍然是情感識(shí)別的主流,然而隨著提取的特征維數(shù)不斷增加,特征中的冗余信息也逐漸增加,不利于機(jī)器進(jìn)行情感識(shí)別分類。去噪自編碼器可以把提取好的特征進(jìn)行特征變換,去除其中的無(wú)用冗余信息,并抽象出更高階的特征。
1去噪自編碼器
機(jī)器學(xué)習(xí)能夠順利完成的關(guān)鍵在于能夠輸入好的特征數(shù)據(jù),自編碼器本質(zhì)上是一種神經(jīng)網(wǎng)絡(luò)[4],它有2個(gè)特點(diǎn):①輸入輸出層單元數(shù)一致:就是具有相同的維數(shù);②能夠保留數(shù)據(jù)中更有效的信息。在實(shí)踐中,噪聲和一些特征差異性都會(huì)影響到分類器的性能,需要更深層次的特征,因此研究出了去噪自編碼器(Denoising Autoencoder,DAE),即人為的在輸入信息中加入干擾信息,一般為高斯噪聲,在這種條件下重構(gòu)出輸入信息并力求最小化誤差[5]。因此,更深層次的表達(dá)性的特征就被提取了出來(lái),結(jié)構(gòu)框圖如圖1所示。
去噪自編碼器的任務(wù)就是讓盡可能的小[6],若原始數(shù)據(jù)為,重構(gòu)后的數(shù)據(jù)為,則誤差函數(shù)則可以表示為:
2語(yǔ)音情感識(shí)別的流程
情感識(shí)別具體流程如圖2所示,分為4個(gè)步驟。
2.1特征提取
EmoDB是由柏林工業(yè)大學(xué)錄制的情感語(yǔ)音庫(kù),語(yǔ)言為德語(yǔ),由10名演員對(duì)7種情感進(jìn)行錄音。本文用OpenSMILE軟件提取特征,根據(jù)2009年首次舉辦的國(guó)際語(yǔ)音情感識(shí)別挑戰(zhàn)賽所創(chuàng)建的特征集,提取出的特征有384維,然后將其輸入去噪自編碼器中。
2.2特征重構(gòu)
構(gòu)建的去噪自編碼器如圖3所示,其中各項(xiàng)參數(shù)如表1所示。
3實(shí)驗(yàn)結(jié)果及分析
本文將EmoDB數(shù)據(jù)庫(kù)提取出特征并重構(gòu)后,將特征集按8:2分為訓(xùn)練集和測(cè)試集,在Tensor flow上進(jìn)行實(shí)驗(yàn),其中SVM中的核函數(shù)選線性核函數(shù),C值取為1~5,對(duì)于每個(gè)C值,都進(jìn)行10次實(shí)驗(yàn)最后取平均值,實(shí)驗(yàn)結(jié)果如圖4所示。
從圖4中可以看出,與傳統(tǒng)的SVM分類器相比,本文涉及的情感識(shí)別系統(tǒng)對(duì)于語(yǔ)音情感的識(shí)別正確率最低提升2.01%,最高提升3.02%,因此本文設(shè)計(jì)的分類系統(tǒng)具有更好的分類性能。
4結(jié)束語(yǔ)
針對(duì)傳統(tǒng)SVM對(duì)語(yǔ)音情感識(shí)別的正確率不高的問(wèn)題,本文構(gòu)建了去噪自編碼器重構(gòu)出了更高階的語(yǔ)音特征用于分類,并在EmoDB數(shù)據(jù)庫(kù)上進(jìn)行了實(shí)驗(yàn),結(jié)果表明了該方法具有更好的分類性能,提升了SVM對(duì)語(yǔ)音情感分類的正確率。
參考文獻(xiàn)
[1] Haytham M. F,Margaret L,Lawrence C. Evaluating deep learning architectures for Speech Emotion Recognition[J]. Neural Networks,2017(92):60-68.
[2] Liu Pan,Rigoulot S,Pell M D. Cultural Immersion Alters Emotion Perception: Neurophysiological Evidence fom Chinese Immigrants to Canada.[J]. Social Neuroscience, 2017,12(6):685-700.
[3] Revathi A,Venkataramani Y. Text Independent Speaker and Emotion Independent Speech Recognition in Emotional Environment[M].Springer India:2015.
[4] Yihui Xiong,Renguang Zuo. Recognition of Geochemical AnomaliesUsinga Deep Autoencoder Network[J]. Computers and Geosciences,2016(86):75-82.
[5] Chandra B, Sharma R K.Adaptive Noise Schedule for Denoising Autoencoder[M].Springer International Publishing: 2014.
[6] Zhang Ying, Liu Rui,Zhang Saizheng,et al.Occlusion-Robust Face Recognition Using Iterative Stacked Denoising Autoencoder[M].Springer Berlin Heidelberg,2013.