情緒在人們的生活中扮演著十分重要的角色,及時、準(zhǔn)確地看出同伴或是他人的情緒,能夠幫助我們更好地與他人進(jìn)行交流、溝通。最近,美國北卡羅來納大學(xué)教堂山分校和馬里蘭大學(xué)帕克分校的研究人員研究了一種全新的機器學(xué)習(xí)方法,這種方法可以根據(jù)個體在行走時的姿勢識別出他/她的情緒。目前,這種方法在實驗中取得了良好的性能表現(xiàn)。 感知情緒。給定一個個體行走的RGB視頻,我們提取出他/她的以一系列三維姿態(tài)呈現(xiàn)的步態(tài)。我們的目標(biāo)是利用步態(tài)特征將人類的情緒狀態(tài)分為四種情緒中的一種:快樂、悲傷、憤怒或中性。我們的感知情緒識別方法基于使用通過長短期記憶網(wǎng)絡(luò)(LSTM)在已標(biāo)注的情感數(shù)據(jù)集上學(xué)習(xí)得到的深度特征。此外,我們將這些特征與使用姿勢和運動線索從步態(tài)中計算出的情感特征相結(jié)合。使用隨機森林分類器(Random Forest Classifier)對這些特征進(jìn)行分類。我們的研究結(jié)果表明,我們的組合特征空間和感知情緒狀態(tài)之間的映射在識別感知情緒方面提供了80.07%的準(zhǔn)確性。除了對離散的情緒類別進(jìn)行分類之外,我們的算法還可以根據(jù)步態(tài)預(yù)測感知情緒效價(Valence,表示情緒的正負(fù)程度)和情緒喚醒度(Arousal,表示情緒的平靜和激動程度)的值。除此之外,我們還提供了一個“EWalk(Emotion Walk)”數(shù)據(jù)集,其中包含了關(guān)于個體的行走步態(tài)和已標(biāo)注情緒的視頻。據(jù)我們所知,這是第一個基于步態(tài)的模型,用以識別行走個體視頻中的感知情緒。
介紹
情緒在我們的生活中扮演著十分重要的角色,它定義了我們的經(jīng)歷,塑造了我們看待世界以及與他人進(jìn)行互動的方式。感知社會伙伴的情緒,將有助于我們了解他們的行為并決定我們對待他們的行為與方式。例如,人們與他們認(rèn)為生氣和充滿敵意的人溝通的方式,與他們認(rèn)為冷靜和滿足的人溝通的方式是截然不同的。除此之外,未知個體的情緒也能夠影響我們的行為。例如,道路交叉口上的行人情緒,或者火車站中乘客的情緒等。正是由于感知情緒在人們的日常生活中發(fā)揮著如此大的作用,所以,自動情緒識別是諸如游戲娛樂、安全執(zhí)法、購物、人機交互等許多領(lǐng)域中的一個關(guān)鍵問題。
一般來說,人類使用語言和非語言線索來感知其他人的情緒。對于那些具有語音理解和自然語言處理能力的機器人和AI設(shè)備來說,在與人類進(jìn)行交互時具有更好的性能表現(xiàn)。深度學(xué)習(xí)技術(shù)可用于語音情感識別,并能夠促進(jìn)機器與人類進(jìn)行更好的互動。
可以說,使用非語言線索來理解個體的感知情緒是一個非常具有挑戰(zhàn)性的問題。通常情況下,人類用來感知情緒的非語言線索包括面部表情和身體動作。由于數(shù)據(jù)具有更廣泛的可用性,大量的研究集中在使用面部表情來理解情緒。然而,最近有關(guān)心理學(xué)文獻(xiàn)領(lǐng)域的研究對面部表情的交際目的提出了質(zhì)疑,并對從這些表情中感知情緒的快速、自動過程產(chǎn)生了懷疑。不可否認(rèn)的是,在有些情況下面部表情有可能不太可靠。
研究表明,情緒表達(dá)和感知中的身體表達(dá)也是至關(guān)重要的。例如,當(dāng)看到表達(dá)憤怒或恐懼的身體和面部(彼此正確匹配或是不匹配的復(fù)合圖像)時,觀察者更偏向于注重身體表達(dá)。Aviezer等人對網(wǎng)球運動員正/負(fù)情緒效價的研究結(jié)果表明,單獨的面部表情并不是情緒效價的診斷預(yù)測因子,而單獨的身體或面部和身體相結(jié)合都可以對其進(jìn)行準(zhǔn)確的預(yù)測。
具體而言,有實驗已經(jīng)證明,個體在行走中的身體表達(dá)或步態(tài)有助于感知情緒。在Montepare等人的早期研究中,通過觀察情感特征,例如增加手臂擺動、步幅變大、足部著地力量增強,以及直立姿勢,參與者能夠以顯著的速度識別悲傷、憤怒、快樂和驕傲的情緒。而特定的動作也被歸類為特定的情緒。例如,悲傷動作的特征是上半身塌陷和較低的運動活性,而快樂的動作節(jié)奏更快,并且手臂擺動的頻率更高。
總而言之,我們的主要研究成果就是提供了一種全新的自動情緒識別方法,用以從行走個體的視頻中自動識別出情緒,如圖1所示。我們將視頻中的行走個體歸為4種情緒類別,分別是:快樂、悲傷、憤怒和中性。這些情緒代表了一種持續(xù)較長時間的情緒狀態(tài),并且在行走活動中表現(xiàn)得更為豐富。我們從步行視頻中提取步態(tài)作為三維姿態(tài),使用基于LSTM的方法對這些連續(xù)三維人體姿態(tài)中的長期時間依賴性(long-term temporal dependencies)進(jìn)行建模,從而獲得深度特征。除此之外,我們還提出了時空情感身體特征,用以表示人類在行走過程中的姿態(tài)和運動。我們將這些情感特征與基于LSTM的深度特征相結(jié)合,并使用隨機森林分類器將它們分為四種情緒類別。相較于其他基于步態(tài)的感知情緒分類算法,我們觀察到,該算法將分類準(zhǔn)確率提高了13.85%。
此外,我們還提供了一個新的數(shù)據(jù)集“EWalk”,其中包含了個體在室內(nèi)和室外行走的視頻。我們的數(shù)據(jù)集由1384個步態(tài)和使用Mechanical Turk標(biāo)注的感知情緒組成。
總而言之,我們研究工作的一些主要成果包括以下幾個方面:
1.一個全新的在從步行視頻中提取的情感特征與感知情緒之間的數(shù)據(jù)驅(qū)動映射。
2.一個全新的結(jié)合了情感特征和深度特征的情緒識別算法,其準(zhǔn)確率達(dá)80.07%。
3.一個新的公共域數(shù)據(jù)集——“EWalk”,里面包含了步行視頻、步態(tài)和已標(biāo)注的情緒。
相關(guān)研究
接下來,我們將簡要概述以往關(guān)于情緒建模、使用身體姿態(tài)和運動的情緒表達(dá),以及自動情緒識別方面的相關(guān)研究。
情緒建模
在以前的研究中,情緒往往被建模為離散類別或情感維度連續(xù)空間中的點。在連續(xù)空間表征中,情緒被視為Arousal—Valence維度的二維空間上的點。有時,動作傾向或支配的另一個維度也被用于表征三維空間中的情緒。Mikels等人和Morris研究了連續(xù)模型和離散情緒模型之間的映射。例如,憤怒、快樂、驕傲的離散情緒與高喚醒度有關(guān),而悲傷、放松和滿足與低喚醒度有關(guān),如圖2所示。許多情感計算方法已經(jīng)使用生物特征信號來檢測情感維度的情緒喚醒度和效價。在本文中,我們從步行運動和步態(tài)中識別出4種離散的情緒:快樂、憤怒、悲傷和中性。同時,我們還識別了情緒效價和喚醒度的值。這四種情緒的組合可以用來表征其他情緒。
情緒的身體表達(dá)
研究者通過兩種途徑對人類使用身體關(guān)節(jié)表達(dá)情緒的能力進(jìn)行了研究:姿態(tài)和運動。涉及姿態(tài)和運動中信號的研究表明,姿態(tài)和運動都在情緒感知中發(fā)揮作用。此外,研究者還在諸如敲擊、跳舞、演奏樂器、行走等各種活動中對情緒的表達(dá)進(jìn)行了研究。Kleinsmith等人確定了人類觀察者在區(qū)分姿態(tài)時所使用的情感維度。Roether等人使用一種系統(tǒng)方法,Omlor和Giese確定了特定于步態(tài)中不同情緒的時空特征。我們受到這些研究方法的啟發(fā),提出了一種全新的方法,使用姿態(tài)和運動特征(即情緒特征)的組合來識別步態(tài)中的感知情緒。
自動情緒識別
隨著捕獲身體表達(dá)的技術(shù)日益普及,從身體表達(dá)中自動識別出情緒的研究變得越來越多。
大多數(shù)研究使用基于特征的方法從身體表達(dá)中進(jìn)行自動情緒識別。這些特征的提取,要么是使用純粹的統(tǒng)計技術(shù),要么是使用受到心理學(xué)研究啟發(fā)的技術(shù)。在這些方法中,一些方法側(cè)重于特定的活動,如跳舞、敲門、步行、游戲等,而另外一些方法使用的是更為通用的方法。一些方法將面部和身體表達(dá)結(jié)合在一起,一些方法在中性表達(dá)的幫助下發(fā)現(xiàn)了身體表達(dá)中的情緒。Crenn等人從表情動作中生成了中性運動,然后去識別表達(dá)運動中的情緒。Karg等人使用單個步行步幅中的運動捕捉數(shù)據(jù),研究了依賴于人的步態(tài)信息對識別的影響。Wang等人使用Kinect捕捉步態(tài),并使用4個步行周期來識別個體的情緒是否是生氣、快樂或中性。與大多數(shù)這些技術(shù)的研究情況一樣,我們的方法也基于使用基于心理學(xué)的特征來識別步行運動中的情緒,而無需實時使用中性運動。
識別感知情緒的方法
接下來,我們描述一下用于從RGB視頻中識別感知情緒的算法,如圖3所示。
在我們的方法中,我們展示出一個具有一組16個關(guān)節(jié)的人,如圖4所示。人的姿態(tài)P∈R48是每個關(guān)節(jié)ji,i∈{1,2,...,16}的一組三維位置。對于任意一個RGB視頻V,我們將使用三維姿態(tài)估計提取得到的步態(tài)表示為G,步態(tài)G是一組三維姿態(tài)P1,P2,...,Pτ,其中τ是輸入視頻V中的幀數(shù)。我們將步態(tài)G的提取情感特征表示為F,鑒于步態(tài)特征F,我們通過用e∈{快樂、憤怒、悲傷、中性}來表征預(yù)測的情緒。這4種基本情緒代表一種持續(xù)較長時間的情緒狀態(tài),并且在個體行走期間表現(xiàn)得更為豐富。這4種情緒捕捉到情感空間的光譜,它們的組合可以用來表示其他情緒。
在研究中,我們的實時感知情緒預(yù)測算法是一種基于數(shù)據(jù)驅(qū)動的方法。在圖3中,我們對該方法進(jìn)行了概述。在離線訓(xùn)練階段,我們使用多個步態(tài)數(shù)據(jù)集,提取情感特征,這些情感特征是基于心理表征的,包括姿態(tài)和運動特征。我們還通過對一個LSTM網(wǎng)絡(luò)進(jìn)行訓(xùn)練以提取深度特征。我們將這些深度和情感特征結(jié)合起來,并訓(xùn)練一個隨機森林分類器。在運行時,給定一個個體行走時的RGB視頻,我們使用最先進(jìn)的三維人體姿態(tài)估計技術(shù)提取出他/她的一組三維姿態(tài)的步態(tài)。我們從這個步態(tài)中提取情感和深度特征,并使用經(jīng)過訓(xùn)練的隨機森林分類器識別感知情緒。我們現(xiàn)在詳細(xì)描述算法的每個組件。
在本文中,我們提出了一種基于行走視頻對個體感知情緒進(jìn)行分類的新方法。我們的方法基于學(xué)習(xí)使用LSTM計算得到的深度特征,并且還利用心理特征來計算情感特征。我們將深度和情感特征進(jìn)行連接,并使用隨機森林分類算法對組合特征進(jìn)行分類。我們的算法實現(xiàn)了80.07%的絕對準(zhǔn)確率,相較于僅使用深度特征的vanilla LSTM,準(zhǔn)確率提高了24.60%,并且,與現(xiàn)有最先進(jìn)技術(shù)的情感識別算法相比,準(zhǔn)確率提高了13.85%。我們的方法也是第一種通過利用最先進(jìn)的三維人體姿態(tài)估計技術(shù),為行走視頻中的情緒識別提供實時管道的方法。我們還提供了一個視頻數(shù)據(jù)集,EWalk,其中行走的個體帶有他們自身的感知情緒標(biāo)簽,該數(shù)據(jù)集中的實驗對象具有不同的膚色背景,且是在室內(nèi)和室外環(huán)境中進(jìn)行行走收集得到的。
當(dāng)然,我們的方法目前還存在一定的局限性。我們算法的精度取決于三維人體姿態(tài)估計和步態(tài)提取算法的精度。因此,如果估計的三維人體姿態(tài)或步態(tài)存在噪聲,則情緒預(yù)測的結(jié)果可能不準(zhǔn)確。我們的情感計算需要來自整個身體的關(guān)節(jié)位置,但是在視頻中存在遮擋的情況下可能無法獲得全身姿態(tài)數(shù)據(jù)。而我們的研究是假設(shè)視頻中個體的行走運動是自然的,并且不涉及任何配件,例如,手提箱、移動電話等。作為未來研究的一部分,我們希望收集更多數(shù)據(jù)集并解決這些問題。未來,我們還將繼續(xù)嘗試對本文中提到的方法進(jìn)行拓展,以將更多的運動,如跑步、打手勢等活動考慮在內(nèi)。最后,我們希望將我們的方法與其他使用人類語音和面部表情的情緒識別算法結(jié)合起來,以實現(xiàn)更為豐富、準(zhǔn)確的情緒識別。