胡明 崔冉 郭健鵬 吳靜然 翟曉東
摘要:語音信號包含了人類豐富的情感信息,本文從離散情感模型出發(fā),選擇了高興、悲傷、憤怒和害怕4種基本情感作為研究對象,利用螢火蟲算法實現(xiàn)了支持向量機參數(shù)自動尋優(yōu),從而提高了識別的效率。為了使測試數(shù)據(jù)更據(jù)代表性,選取了中文和德文數(shù)兩種據(jù)庫,400個樣本進行訓(xùn)練和測試。實驗表明,對SVM分類器進行優(yōu)化在一定程度上提高了情感識別率。
關(guān)鍵詞:語音信號;螢火蟲算法;改進的支持向量機;情感識別
中圖分類號:TP18 文獻標(biāo)識碼:A 文章編號:1007-9416(2019)06-0109-02
0 前言
機器情感這一研究領(lǐng)域從提出概念伊始,就伴隨著倫理道德的疑慮。而隨著人工智能技術(shù)的發(fā)展,如何設(shè)計并實現(xiàn)一個具有情感識別的智能機器人顯得尤為重要了。而其關(guān)鍵技術(shù)就是研究情感識別核心算法,不斷提高識別的速度和準(zhǔn)確率。
目前情感識別研究領(lǐng)域中,最主要的途徑就是通過對人的生理信息,例如聲音信號、脈搏信號、腦電信號、面部表情、身體形態(tài)等一種信號分析或多種信號的多模分析,利用識別技術(shù)進行訓(xùn)練學(xué)習(xí)和類型識別判斷。本文主要通過對語音信號的拾取、預(yù)處理、特征提取和類型識別,達到情感識別的目的,這一過程的核心是類型識別,也是近幾年研究最多、成果最豐富的環(huán)節(jié)。本文利用改進的支持向量開展語音信號情感識別的研究,研究思路如圖1所示。
1 語音情感的分類
人類的情感是一個復(fù)雜的系統(tǒng),屬于心理學(xué)范疇,目前尚無一個統(tǒng)一的、標(biāo)準(zhǔn)的定義。人類的情感是人類對不同物理、事件體現(xiàn)出的反映,再通過人的語音、表情、動作、生理信號等各種外在的方式表達出來。各個國家心理專家、情感識別專家對情感有不同的分類依據(jù)和方法,主要有離散情感模型和緯度情感模型。離散情感模型,將人類的情感分為基本情感和復(fù)雜情感,且復(fù)雜情感是有基本情感的有機組合產(chǎn)生的,因此研究基本情感就顯得尤為重要了。不同的心理學(xué)家將人類的基本情感進行了不同的分類,有的分為高興和悲傷兩種,而其它各種情感均是這兩種情感的不同比例組合而成。而有的專家則將人的基本情感分為3-9種更加細(xì)膩的情感。緯度情感模型,則認(rèn)為人的感情是連續(xù)的,不是離散的,主要有二緯度情感模型和三維度情感模型,每個緯度分為正向積極方向和反向消極方向。本文主要從離散情感模型出發(fā),重點研究公認(rèn)的幾種基本情感:高興、悲傷、憤怒和害怕。
2 語音情感的數(shù)據(jù)庫樣本選取
語音情感的數(shù)據(jù)庫是分析識別語音情感的前提。因為語言、方言、性別等因素不同,目前尚無公認(rèn)的、統(tǒng)一的、標(biāo)準(zhǔn)語音數(shù)據(jù)庫庫。為了驗證改進型支持向量機的準(zhǔn)確率,本文選取兩種語言的語音情感數(shù)據(jù)庫:EMO-DB數(shù)據(jù)庫和CASIA數(shù)據(jù)庫[1]。
2.1 CASIA數(shù)據(jù)庫
CASIA數(shù)據(jù)庫是一個中文情感數(shù)據(jù)庫,該數(shù)據(jù)庫由中國科學(xué)院錄制,分別錄制了4名人員在6類不同情感(快樂、中性、憤怒、悲傷、害怕、驚訝)下的聲音,采樣頻率16KHz,16位AD采集量化,每種感情保留200句。根據(jù)本文設(shè)計需要,選取其中高興(原數(shù)據(jù)庫中的快樂)、悲傷、憤怒和害怕4類數(shù)據(jù)進行訓(xùn)練和測試,每類選取50句,如表1所示。
2.2 EMO-DB數(shù)據(jù)庫
EMO-DB數(shù)據(jù)庫是一個德語情感數(shù)據(jù)庫,該數(shù)據(jù)庫由柏林工業(yè)大學(xué)建立,是目前國際上相對標(biāo)準(zhǔn)和認(rèn)可的數(shù)據(jù)庫,分別錄制了10名專業(yè)演員在7類不同情感(快樂、中性、憤怒、悲傷、恐懼、無聊、厭惡),共計錄制800句,最終保留535句。根據(jù)本文設(shè)計需要,選取其中高興(原數(shù)據(jù)庫中的快樂)、悲傷、憤怒和害怕(原數(shù)據(jù)庫中的恐懼)4類數(shù)據(jù)進行訓(xùn)練和測試,每類選取50句,如表2所示。
3 語音信號的預(yù)處理
語音信號具有隨著時間變化而變化的特性,而且是不穩(wěn)定的,因此需要對語音信號進行預(yù)處理,從而去除干擾,獲得高質(zhì)量的信號[2]。語音信號的預(yù)處理過程如圖2所示。
考慮到小波變換處理語音信號時存在一定的局限性,本文采取了近期較為常用、不需要事先選定基函數(shù)的EMD算法對語音信號進行預(yù)處理,取得了較好的效果。
4 語音信號情感特征參數(shù)的提取
語音信號中的情感特征參數(shù)是其能表達感情的關(guān)鍵,包含了韻律特征、音質(zhì)特征、基于譜的相關(guān)特征[2]。其中,韻律特征參數(shù)主要有語速、基因頻率及短時能量,而音質(zhì)特征參數(shù)主要有共振峰、聲門參數(shù),基于譜的相關(guān)特征參數(shù)主要有線性譜特征和倒譜特征。我們主要研究了梅爾頻率倒譜系數(shù)(MFCC),基音周期,共振峰參數(shù),短時過零率,短時能量,能量抖動參數(shù),時域及頻域能量,平均功率,語速等參數(shù),并通過對這些參數(shù)的分析,分別計算了它們的統(tǒng)計學(xué)特征,包括平均值、中位值、標(biāo)準(zhǔn)差、最小值、最大值、方差、變化率、一階差分等。
5 改進的支持向量機算法對語音信號情感的分類識別
5.1 螢火蟲算法優(yōu)化支持向量機參數(shù)
螢火蟲算法(Firefly Algorithm,F(xiàn)A)是由Xin-she Yang教授于2008年提出的一種十分新穎的生物群智能優(yōu)化算法,算法的靈感來源于對螢火蟲群體行為的簡化和模擬,一經(jīng)提出就吸引了國內(nèi)外大量學(xué)者的關(guān)注,是優(yōu)化算法研究領(lǐng)域的熱點之一[3]。本文選取FA算法對SVM的關(guān)鍵參數(shù)進行優(yōu)化,建立FA-SVM模型[4],主要流程如圖3所示。
5.2 情感分類結(jié)果分析
本文將從EMO-DB數(shù)據(jù)庫和CASIA數(shù)據(jù)庫中選取關(guān)于高興、憤怒、悲傷、害怕等四類情感各50個,合計400個數(shù)據(jù)分別在SVM和FA-SVM模型中訓(xùn)練和測試,識別結(jié)果統(tǒng)計如表3所示。
通過對表3的橫向和縱向進行分析,可以得出,經(jīng)過改進的支持向量機FA-SVM針對語音信號的情感識別率,比未經(jīng)過優(yōu)化的支持向量機的識別率有明顯的改善,尤其是憤怒的識別最高,提高了11.1%,而高興、 悲傷、害怕分別有4.1%、7.6%、5.6%的效果改善。
參考文獻
[1] 王艷,胡維平.基于BP特征選擇的語音情感識別[J].微電子學(xué)與計算機,2019,36(5):14-18.
[2] 李曉琴.基于支持向量機的語音情感識別[D].吉林:哈爾濱理工大學(xué),2018.
[3] 臧睿,李晶.基于維度加權(quán)的改進螢火蟲算法[J].計算機科學(xué),2017,44(6A):123-125.
[4] 曾建梅.改進的支持向量機用于脈搏信號的情感識別研究[D].吉林:重慶理工大學(xué),2016.