摘 要:探索笑聲的情感分析算法是有意義的研究。本文介紹了笑聲心理特征,笑聲識別的基本原理,特征提取、計算模型和數(shù)據(jù)集情況,提出若干問題及可能的解決方案,并在此基礎(chǔ)上探討了研究應(yīng)用和發(fā)展前景。
關(guān)鍵詞:笑聲音頻檢測;情感分析算法;笑情感測量計
引言:笑聲情感自動識別是指:根據(jù)笑聲的音頻數(shù)據(jù)和其他相關(guān)信息構(gòu)建計算模型,實(shí)現(xiàn)笑聲情感自動判別的過程。笑聲情感識別技術(shù)涉及多個領(lǐng)域,包括認(rèn)知科學(xué)、心理學(xué)、生理學(xué)、聲學(xué)、音頻信號處理、自然語言處理和機(jī)器學(xué)習(xí)等,是一個多學(xué)科交叉的研究領(lǐng)域。音頻信號大致可以分為三類:語音、音樂和環(huán)境聲音。語音、音樂和環(huán)境聲音具有顯著不同的特性,因而通常分為三種不同的情形進(jìn)行處理,不同音頻類型需要不同的檢索和語義分析技術(shù),本文以笑聲(語音)的音頻特征,探索適應(yīng)該特征的處理、檢索和情感分析技術(shù)。
1.笑聲分析
1.1笑聲的心理分析
笑是人的本能反應(yīng),是情緒或者情感變化的一種重要表現(xiàn)形式,笑通常是一種積極快樂的情緒反映,但你遇到高興的事情時,你會以笑來表現(xiàn)內(nèi)心的歡快,或者以笑來表達(dá)自己快樂和滿意的心情。笑通常分為兩種:一種是無聲的微笑,一種是有聲的笑。有聲笑根據(jù)情緒的高低、快樂的程度分為三種:小笑“XiXiXi(嘻嘻嘻),中笑”kekeke(呵呵呵),大笑“hahaha”(哈哈哈)。三種有聲的笑反映人情感的三個維度或者開心的指數(shù),這種情感的維度或者開心指數(shù)是可以通過笑音頻分析計算出來的。
1.2笑聲音頻分析
一次完整的笑聲過程被稱為一個“笑聲事件”,構(gòu)成一次完整笑聲的各個相鄰信號段被稱為一個““音節(jié)幀袋”(bag of frames)或“音節(jié)”,這兩個術(shù)語是分析笑聲的特性,笑聲音節(jié)跟語音音節(jié)一樣,也是由濁音成分和清音成分組成的信號段。笑聲事件即一次完整的笑聲過程,由相鄰的笑聲音節(jié)構(gòu)成。例如,一次完整的笑聲過程通常標(biāo)注為“ha haha”、“kekeke”或者“XiXiXi”。笑聲事件就是指與標(biāo)注“hahaha”“kekeke”或者“XiXiXi”對應(yīng)的波形信號段;笑聲音節(jié)則是指與某個標(biāo)注“ha、ke或者xi”對應(yīng)的波形信號段。單獨(dú)笑聲由相鄰的獨(dú)立笑聲音節(jié)組成,一般是由一個人發(fā)出的,圖1給出了一個單獨(dú)笑聲的波形圖。
1.3笑聲情感識別系統(tǒng)框圖
圖2為笑聲識別系統(tǒng)框圖。和語音識別系統(tǒng)一樣,建立和應(yīng)用這一系統(tǒng)可分為兩個階段:訓(xùn)練階段和識別階段。在訓(xùn)練階段,系統(tǒng)的每個使用者說出若干笑聲,系統(tǒng)據(jù)此建立每個使用者的模板或模型參量參考集;而在識別階段,待識別笑者中導(dǎo)出的參量要與訓(xùn)練中的參考參量或模板加以比較,并且根據(jù)一定的相似性準(zhǔn)則形成判斷。
2.笑聲情感識別
2.1特征提取
笑聲情感識別常用的音頻特征是以“音節(jié)幀袋”方式提取的,但是這種特征提取方法忽略了笑聲的時間結(jié)構(gòu)。然而,笑聲隨時間呈現(xiàn)的變化,對笑聲情感識別來說可能很重要。為了驗證時間信息對預(yù)測音樂表達(dá)的情感的重要性,可以將笑聲變成一個特征向量時間序列。用生成式模型(向量空間模型、馬爾可夫和隱馬爾可夫模型)來表示該時間序列(這些模型都基于特征向量量化結(jié)果),通過使用概率乘積核,將生成式模型用于情感區(qū)分任務(wù),這樣時間信息利用后,情感預(yù)測性能得到提高。
2.2笑聲情感模式的選擇
笑聲情感表示是情感心理學(xué)研究的一個新課題.相關(guān)研究不多,但已經(jīng)有多種方案音樂情感識別和人語言情感識別的方法可供研究人員來選擇。從情感識別的角度看,情感空間可以用離散類別模型或連續(xù)維度模型來表示,這樣情感識別問題就分別對應(yīng)到機(jī)器學(xué)習(xí)的分類問題或回歸問題。
對比其他情感識別方法,笑聲情感模型使用的是通用連續(xù)維度情感模型,因為通用連續(xù)維度模型將人類情感狀態(tài)表示為二維或三維連續(xù)空間中的點(diǎn)。這種維度模型的優(yōu)點(diǎn)在于,它可以描述和刻畫情感狀態(tài)的細(xì)微差別,描述笑聲情感時更準(zhǔn)確、更細(xì)致,與人的笑情感體驗更一致。
被廣泛采用的通用連續(xù)維度模型是環(huán)形(circomlex)模型(也稱為VA模型)和PAD模型。環(huán)形情感模型認(rèn)為情感狀態(tài)是分布在一個包含效價度(快樂基調(diào)程度)(valence)和激活度(arouala)的二維環(huán)形空間上的點(diǎn)(參見圖1).其中縱軸表示激活度,橫軸表示效價度。
針對笑聲識別以及檢測問題,近些年來已有一些人員在不同的方面進(jìn)行了相關(guān)研究。Gouzhen An等考慮到笑聲波形結(jié)構(gòu),提出類基于音節(jié)的笑聲檢測方法。該實(shí)驗首先以幀為單位,提取上述常用特征并使用SVM分類算法得到最初的每幀的分類結(jié)果。然后再基于韻律特征對數(shù)據(jù)進(jìn)行音節(jié)劃分對再對上述基線系統(tǒng)的分類結(jié)果進(jìn)行重新打分以得到優(yōu)化的結(jié)果。該方法充分考慮了笑聲的結(jié)構(gòu)特征,即每個笑聲事件均由數(shù)個相鄰的音節(jié)組成,使得笑聲識別系統(tǒng)的性能有了明顯的提升。
2.3笑聲情感高斯模型
每個人笑聲對情感標(biāo)注經(jīng)常是有所不同的,他們?yōu)楦怕史植?,聲音情感高斯(Acoustic Emotion Gaussians,AEG)模型較好的解決了這一問題,AEG模型的一個好處就是便于針對具體用戶構(gòu)建個性化情感識別模型,采用AEG模型來為VA笑聲情感識別建模,并且提出一個基于線性回歸的調(diào)整方法來對一般模型進(jìn)行個性化調(diào)整。
3.基于笑聲音頻算法的實(shí)驗設(shè)計
3.1算法選擇
搜索了文獻(xiàn)發(fā)現(xiàn),目前尚無針對單個笑事件的笑聲音頻算法,多數(shù)笑情感算法是在連續(xù)語音中的笑聲檢測,或者在環(huán)境聲音笑聲檢測,但這些算法給我們提供了有意義的參考。
本研究以單個笑事件的笑聲音頻“音節(jié)幀袋”的連續(xù)性情感模型和笑聲情感高斯模型為特征,應(yīng)用極限學(xué)習(xí)機(jī)(ELM)算法實(shí)現(xiàn)笑事件的笑聲檢測。
3.2ELM算法特點(diǎn)
ELM是一種新型神經(jīng)網(wǎng)絡(luò)算法,它的特點(diǎn)是簡單易用、有效的單隱層前饋神經(jīng)網(wǎng)絡(luò)SLFNs學(xué)習(xí)算法,相比傳統(tǒng)神經(jīng)網(wǎng)絡(luò),需要人為設(shè)置大量的網(wǎng)絡(luò)訓(xùn)練參數(shù),并且很容易產(chǎn)生局部最優(yōu)解的缺點(diǎn)。ELM的訓(xùn)練速度非常快,需要人工干擾較少,對于異質(zhì)的數(shù)據(jù)集其泛化能力很強(qiáng)。對于單隱層神經(jīng)網(wǎng)絡(luò),ELM可以隨機(jī)初始化輸入的權(quán)重以及偏置從而得到相應(yīng)的輸出權(quán)重,在算法執(zhí)行過程中不需要調(diào)整網(wǎng)絡(luò)的輸入權(quán)值以及隱元的偏置,并且產(chǎn)生唯一的最優(yōu)解,因此具有學(xué)習(xí)速度快且泛化性能好的優(yōu)點(diǎn)。
4.應(yīng)用
笑情感識別研究的最終目的創(chuàng)造一種人“笑情感測量計”,因為笑可以給人類帶來智慧和力量,有助人的身體健康和控制情緒的作用,有一個“笑情感測量計”就像一個溫度計一樣時時刻刻可以客觀評價人的情感維度和開心指數(shù)。開心的情緒和情緒的控制對于我們每個人的健康生活,預(yù)防和治療疾病,幸福感;對于我們和諧家庭的夫妻關(guān)系、親子關(guān)系;對于我們工作的人際關(guān)系等等方面都將起到意想不到的作用。特別是它可以將每時每刻,每分每秒,每日每月,每年的“笑情感”記錄、分析和總結(jié),這樣大大地提高人機(jī)互動的效果。
研究工作展望:人類的笑情緒表現(xiàn)主要有三種:笑聲表情、面部笑表情和身體笑姿態(tài)表情。身體笑姿態(tài)表情(如手勢、運(yùn)動姿勢)變化的規(guī)律性難以獲取,因而笑情感識別的研究目前主要側(cè)重于笑聲情緒和面部笑表情的識別。對笑聲情緒的識別,通常被稱為“笑聲情感識別”;對面部表情的識別,通常被稱為“人臉笑表情識別”。盡管從笑聲情感獲取的音頻信息和面部笑表情獲取的視覺信息在進(jìn)行情感識別時所起的作用都很大,但這二者各有自己的優(yōu)缺點(diǎn),也有著某種程度的互補(bǔ)作用。為了在言語情感和面部表情之間取長補(bǔ)短,因而未來有必要將笑聲情感識別技術(shù)和人臉笑表情識別技術(shù)融合在一起,以便對人類笑情感的類別進(jìn)行更有效地判定。這就是所謂的“多模態(tài)笑情感識別”,即同時融合多種表情(如言語表情和面部表情)的情感識別,形成一種全方位的人笑情感測量計。
參考文獻(xiàn)
[1]孔維民.情感心理學(xué)新論[M].長春:吉林人民出版社,2002.
[2]詹姆斯.薩利.笑得研究-笑得笑聲、起源、發(fā)展和價值[M].北京:中國社會科學(xué)出版社,2011.
[3]徐利強(qiáng),謝湘,黃石磊,李通.連續(xù)語音中的笑聲檢測研究與實(shí)現(xiàn)[J].聲學(xué)技術(shù),2016,35(s6):581-584
[4]孫守遷,王鑫,劉濤,等.音樂情感的語言值計算模型研究[J].北京郵電大學(xué)學(xué)報,2006,29(s2):34-41
[5]陳曉鷗,楊德順音樂情感識別研究進(jìn)展[J].復(fù)旦學(xué)報(自然科學(xué)版) 2017,56(s2):138—142
[6]鄒宇驍(2001--),男,湖南郴州市人,郴州市第一中學(xué)