魏佳琪,劉華平,王博文,孫富春
(1. 河北工業(yè)大學(xué) 省部共建電工裝備可靠性與智能化國家重點(diǎn)實(shí)驗(yàn)室,天津 300130; 2. 清華大學(xué) 智能技術(shù)與系統(tǒng)國家重點(diǎn)實(shí)驗(yàn)室,北京 100084)
隨著計(jì)算機(jī)技術(shù)的發(fā)展,人機(jī)交互的領(lǐng)域愈加廣泛,機(jī)器人的情感理解能力逐漸成為衡量智能程度的標(biāo)準(zhǔn)。觸覺是最基本交互方式之一,無論是對(duì)人類還是機(jī)器人,觸覺信息都是與周圍環(huán)境進(jìn)行交互的重要媒介[1]。人們逐漸意識(shí)到,觸覺可以用來調(diào)節(jié)情緒,增加人與人之間情感和信任,幫助建立良好的人機(jī)關(guān)系。同時(shí),越來越多的人使用觸摸功能的機(jī)器人完成醫(yī)療以及遠(yuǎn)程數(shù)學(xué)等任務(wù)。
圖像和聲音一直以來是情感狀態(tài)識(shí)別的主流方式,但有些時(shí)候圖像和語音并不能真實(shí)地反映出用戶當(dāng)時(shí)的情感狀態(tài)。圖像識(shí)別在計(jì)算量上特別大,而且非常依賴光照條件。比如在賽車時(shí),由于頭盔限制了圖像的采集,并不能有效地利用圖像識(shí)別出駕駛員的情感信號(hào);語音識(shí)別同時(shí)也存在著缺陷,用戶通過語音來表達(dá)情感時(shí),常常伴隨著語義的理解問題,需要通過語料的內(nèi)容才能正確地判斷說話人的情緒。因此,發(fā)展一種新的情感識(shí)別研究方向成為趨勢(shì)。
觸覺在復(fù)雜的社會(huì)信息中扮演著重要角色,情感識(shí)別正逐步成為人機(jī)交互領(lǐng)域研究的熱點(diǎn)和發(fā)展方向[2]。人機(jī)情感交互讓機(jī)器人更加了解人類的情緒,并做出相應(yīng)的反饋。這也讓觸覺情感識(shí)別走進(jìn)了人類生活。例如:智能家居能夠通過觸摸來識(shí)別出用戶的情感,進(jìn)而做出反應(yīng)調(diào)整燈光或音樂;在線學(xué)習(xí)的用戶通過觸摸屏幕傳遞情感信息,當(dāng)用戶面對(duì)學(xué)習(xí)系統(tǒng)表現(xiàn)出煩躁或者焦慮情緒時(shí),系統(tǒng)能夠及時(shí)地給用戶鼓勵(lì)信息,使用戶的注意力重新轉(zhuǎn)移到學(xué)習(xí)中;在醫(yī)療方面還可以用情感識(shí)別來治療自閉癥患者和對(duì)養(yǎng)老院老人進(jìn)行心理疏導(dǎo)。
Morrison等[3]用實(shí)驗(yàn)證明觸摸是傳遞親密情感的主要方式;Debrot等[4]證實(shí)了情侶之間的積極接觸增強(qiáng)了他們的情感狀態(tài);Park等[5]設(shè)計(jì)了觸覺電話,證實(shí)觸覺在面對(duì)面交流中的作用;Guest等[6]研究觸覺與情感之間的聯(lián)系,并建立了一份英語中最常用的形容詞,用來描述觸摸體驗(yàn);Kim等[7]提出一種基于神經(jīng)網(wǎng)絡(luò)的紡織品-情緒索引方法,研究情感與圖案之間的聯(lián)系;Huang等[8]利用神經(jīng)網(wǎng)絡(luò)得到從圖像特征空間到心理空間的映射函數(shù),確定圖像與情感之間的聯(lián)系;Jung等[9]建立CoST(corpus of social touch)觸覺數(shù)據(jù)集,對(duì)14種觸覺手勢(shì)進(jìn)行識(shí)別分類,準(zhǔn)確率達(dá)到60%;周楠等[10]利用3D卷積神經(jīng)網(wǎng)絡(luò)對(duì)觸覺手勢(shì)識(shí)別進(jìn)行了改進(jìn);Hughes等[11]設(shè)計(jì)了一種新型傳感器,將距離信號(hào)和力信號(hào)用于手勢(shì)識(shí)別,并證明與單獨(dú)的力信號(hào)相比,近距離感知信號(hào)增加了手勢(shì)識(shí)別的準(zhǔn)確性; Maramis等[12]利用安卓手機(jī)設(shè)計(jì)開發(fā)了一款A(yù)PP來引導(dǎo)用戶自然地表達(dá)情感并進(jìn)行觸覺情感識(shí)別;Gao等[13]在ipod上通過游戲探究觸覺行為是否反應(yīng)玩家的情緒,并用機(jī)器學(xué)習(xí)完成4個(gè)情緒狀態(tài)的分類。但是觸摸屏在硬件方面存在一定的局限性,并不能像壓阻式傳感器一樣具有很好的延展性和可彎曲性[14],且僅能通過在觸摸屏上滑動(dòng)來采集數(shù)據(jù),形式較為單一。本文提出了一種基于陣列式觸覺傳感器的情感識(shí)別方式,并在手勢(shì)識(shí)別數(shù)據(jù)集上進(jìn)行了實(shí)驗(yàn),探究不同手勢(shì)下的情感識(shí)別。
基于觸覺手勢(shì)的情感識(shí)別技術(shù)主要分為數(shù)據(jù)采集、數(shù)據(jù)預(yù)處理、特征提取、情感識(shí)別以及結(jié)果分析5個(gè)部分,如圖1所示。數(shù)據(jù)采集通過陣列式觸覺傳感器固定在載體上采集不同參與者的壓力值數(shù)據(jù);數(shù)據(jù)預(yù)處理是將已采集的壓力隨時(shí)間變化的數(shù)據(jù)進(jìn)行處理,比如除掉錯(cuò)誤的幀或者錯(cuò)誤的樣本數(shù)據(jù);特征提取是對(duì)處理后的壓力值數(shù)據(jù)進(jìn)行分析,并提出情感識(shí)別相關(guān)的特征進(jìn)行提取;情感識(shí)別是將提取的情感識(shí)別特征輸入到分類器中進(jìn)行訓(xùn)練;最后將情感識(shí)別的結(jié)果進(jìn)行分析。
圖 1 情感識(shí)別流程圖Fig. 1 The flow chart of emotion recognition
本文研究的基于觸覺手勢(shì)的情感識(shí)別技術(shù)是對(duì)多種手勢(shì)進(jìn)行情感識(shí)別,目的是探究手勢(shì)對(duì)情感識(shí)別結(jié)果產(chǎn)生的影響以及情感之間的聯(lián)系。首先,對(duì)采集到的數(shù)據(jù)進(jìn)行數(shù)據(jù)預(yù)處理,將“不規(guī)則”的幀排除;將預(yù)處理好的數(shù)據(jù)按照手勢(shì)的不同拆分;再對(duì)其中每一幀的數(shù)據(jù)進(jìn)行分析,提出情感識(shí)別相關(guān)的特征;將每個(gè)特征集按照參與者劃分為訓(xùn)練集和測(cè)試集;最后用極限學(xué)習(xí)機(jī)(ELM)分類器測(cè)試實(shí)驗(yàn)結(jié)果,并對(duì)實(shí)驗(yàn)結(jié)果進(jìn)行對(duì)比分析。
ELM是新加坡南洋理工大學(xué)的黃廣斌教授提出來的針對(duì)單個(gè)隱含層的前饋型神經(jīng)網(wǎng)絡(luò)(SLFNs)的監(jiān)督型學(xué)習(xí)算法[15],其主要思想是:輸入層與隱含層之間的權(quán)值參數(shù)以及隱藏層上的偏置向量參數(shù),是不需要像其他基于梯度的學(xué)習(xí)算法一樣通過迭代反復(fù)調(diào)整刷新,而是直接求解一個(gè)最小范數(shù)最小二乘問題,最終化歸成一個(gè)矩陣的廣義逆問題。ELM的原理如圖2所示。
圖 2 ELM的網(wǎng)絡(luò)結(jié)構(gòu)Fig. 2 The model structure of ELM
在以往的研究中,大部分學(xué)者把重心放在手勢(shì)識(shí)別上[16],本文主要對(duì)不同的手勢(shì)進(jìn)行情感識(shí)別。對(duì)數(shù)據(jù)集的處理一般包括3部分:數(shù)據(jù)預(yù)處理、特征提取、特征選擇。因?yàn)樘卣骶S度并不大,所以在本文中并沒有使用常用的隨機(jī)森林模型進(jìn)行特征選擇。
文獻(xiàn)[16]中提出的CoST數(shù)據(jù)集包含31個(gè)參與者,每個(gè)參與者根據(jù)要求分別執(zhí)行14個(gè)手勢(shì),每個(gè)手勢(shì)重復(fù)6次,每個(gè)動(dòng)作分別以3種情感(溫柔、普通、暴躁)來執(zhí)行。也就是說,每個(gè)參與者都會(huì)執(zhí)行252次動(dòng)作。手勢(shì)包括grab、hit 、massage、pat、pinch、poke、press、rub、scratch、slap、squeeze、stroke、tap、tickle。表1是對(duì)14個(gè)手勢(shì)的定義[17]。
表 1 手勢(shì)的定義Table 1 Gesture definition
該數(shù)據(jù)集的采集由安裝在假肢手臂上的8×8陣列式觸覺傳感器以135 f/s的頻率完成。每一個(gè)手勢(shì)均由多個(gè)幀的數(shù)據(jù)構(gòu)成,數(shù)據(jù)集的每一幀都由64個(gè)傳感器通道的壓力值組成,壓力值單位為[18]g/cm2。圖3為傳感器的8×8壓力通道一幀的灰度圖,白色部分對(duì)應(yīng)壓力值最高的通道,黑色部分對(duì)應(yīng)壓力值最低的通道。
圖 3 傳感器的灰度圖Fig. 3 Gray scale image of sensor
首先,對(duì)部分?jǐn)?shù)據(jù)進(jìn)行觀察,畫出CoST數(shù)據(jù)集幀數(shù)與每一幀壓力總和之間的關(guān)系圖,如圖4所示,但手勢(shì)的前半部分(第1個(gè)虛線前)屬于手勢(shì)執(zhí)行前的噪聲,虛線內(nèi)的部分才是手勢(shì)執(zhí)行的過程,所以虛線前并無實(shí)際意義,需要?jiǎng)h除此部分。因此對(duì)整體的CoST數(shù)據(jù)集進(jìn)行分割,以此來刪除掉手勢(shì)中無意義的幀。這樣就能保證計(jì)算的時(shí)間序列特征更有意義。
圖 4 對(duì)“暴躁的massage”的分割圖Fig. 4 Segmentation of a “rough massage”
不同的情感環(huán)境下,最主要的3個(gè)影響因素分別為壓力值、傳感器的接觸面積和觸摸的有效時(shí)間。顯然,不同情感的平均壓力值和最大壓力值是判別情感程度的初步特征,壓力值由小到大分別為:溫柔的動(dòng)作壓力值、正常的動(dòng)作壓力值、暴躁的動(dòng)作壓力值。光有這兩個(gè)特征遠(yuǎn)遠(yuǎn)不夠。情感的準(zhǔn)確辨別,至少需要2種行為特征:觸覺行為的持續(xù)時(shí)間和強(qiáng)度[19]。因此我們對(duì)其他特征進(jìn)行了探究。
首先對(duì)CoST數(shù)據(jù)集的poke手勢(shì)進(jìn)行了分析,如圖5、圖6所示,通過對(duì)手勢(shì)的壓力值大小與時(shí)間關(guān)系的二維圖、三維圖的分析,進(jìn)而推斷出影響情感的因素。
圖 5 3種情感下的二維圖Fig. 5 A two-dimensional comparison of three emotions
1)一幀中陣列傳感器所有通道的平均值。
2)所有幀所有通道的平均值和最大值。
3)該動(dòng)作的所有幀當(dāng)中,無信號(hào)的百分比。如果這一幀的64列的平均壓力值小于60 g/cm2,那么就說明這個(gè)幀是沒有信號(hào)的。
4)所有幀當(dāng)中每一列的平均壓力。5)所有幀當(dāng)中每一行的平均壓力。
6)每一幀的總壓力,然后求幀與幀之間總壓力差的絕對(duì)值。此特征顯示該情感下不同時(shí)刻間力的大小變化。
7)取特征2)中的平均值,計(jì)算達(dá)到平均值的幀數(shù)所占該動(dòng)作總幀數(shù)百分比。
8)求出每一幀中64個(gè)通道的最大值,求當(dāng)前幀下,達(dá)到50%最大值的數(shù)量。
9)接觸面積。
10)壓力峰值的間距。每一幀的壓力值總和隨著幀數(shù)變化,其中極大值之間的時(shí)間差。
11)每一個(gè)動(dòng)作下不同情感的有效接觸時(shí)間。即求出每個(gè)動(dòng)作各個(gè)情感的總有效幀數(shù)。
由此得到數(shù)據(jù)特征集。邊緣檢測(cè)是圖像處理和計(jì)算機(jī)視覺中的常用手段,目的是標(biāo)識(shí)圖像中亮度變化明顯的點(diǎn)[20]。圖像屬性中的顯著變化通常反應(yīng)了屬性的重要事件和變化。用于視頻分類的特征可以用于CoST數(shù)據(jù)集,因?yàn)镃oST數(shù)據(jù)是以固定速率更新的網(wǎng)格形式的壓力值,其類似于低分辨率灰度視頻。利用sobel算子,通過銳化對(duì)比度,構(gòu)建了第2組數(shù)據(jù)幀,使用3.2節(jié)中相同的提取特征程序,獲得一組新的數(shù)據(jù)特征集。將兩組數(shù)據(jù)特征集合整合到一起。
本文采用了3種分類器:支持向量機(jī)(SVM)、極限學(xué)習(xí)機(jī)(ELM)和隨機(jī)森林(RF)。本文的支持向量機(jī)分類器使用了libsvm工具箱的RBF核函數(shù)來訓(xùn)練樣本;本文的ELM分類器對(duì)參數(shù)最優(yōu)值進(jìn)行了研究,如圖7所示,激活函數(shù)設(shè)置為sine,隱含層數(shù)量設(shè)置為100時(shí),ELM的分類效果最好。隨機(jī)森林是一種包含多個(gè)決策樹的分類器,并且其輸出的類別是由個(gè)別樹輸出的類別的眾數(shù)而定,決策樹數(shù)量設(shè)置為300時(shí),隨機(jī)森林的分類效果最好。
圖 7 ELM參數(shù)靈敏圖Fig. 7 Parameter-sensitive map of ELM
將31個(gè)參與者中隨機(jī)抽取的21個(gè)人的所有特征數(shù)據(jù)當(dāng)作訓(xùn)練集,另外10個(gè)人的所有特征數(shù)據(jù)當(dāng)作測(cè)試集。將訓(xùn)練集和測(cè)試集再按照手勢(shì)分成14組,依次進(jìn)行分類識(shí)別。分類結(jié)果如表2所示,從14個(gè)手勢(shì)的整體來看,SVM和隨機(jī)森林的分類準(zhǔn)確率較為相似,ELM無論是從準(zhǔn)確度上還是分類時(shí)間上都要優(yōu)于其他2個(gè)分類器。圖8中,雷達(dá)圖的最外層代表80%的準(zhǔn)確率,最內(nèi)層代表30%。從圖8可以看出,14個(gè)手勢(shì)中stroke手勢(shì)的情感分類效果最好,在3個(gè)分類器的分類結(jié)果中均為最高,在觸覺情感識(shí)別中,ELM的輸入層與隱含層之間的權(quán)值參數(shù)以及隱藏層上的偏置向量參數(shù)是不需要像其他基于梯度的學(xué)習(xí)算法一樣通過迭代反復(fù)調(diào)整刷新,而是直接利用情感特征求解一個(gè)最小范數(shù)最小二乘問題。所以ELM在情感識(shí)別中效果較優(yōu)。其中,ELM分類器對(duì)stroke手勢(shì)的情感識(shí)別分類精度達(dá)到70.95%。圖9為SVM分類器下的混淆矩陣圖,從圖中可以看出stroke手勢(shì)在3種不同的情感狀態(tài)下均有較好的分類效果;手勢(shì)和情感之間存在著某些聯(lián)系,不同的手勢(shì)本身對(duì)應(yīng)著不同情感,會(huì)對(duì)實(shí)驗(yàn)結(jié)果產(chǎn)生影響。比如當(dāng)人們執(zhí)行pinch手勢(shì)時(shí),更傾向于暴躁情緒,同時(shí)暴躁情感的識(shí)別準(zhǔn)確度也最高,也更容易將其他2種情感混為暴躁情緒;而press手勢(shì)則被容易理解為一種溫柔情感下的動(dòng)作,其在執(zhí)行和識(shí)別的過程中更傾向于溫柔情緒。
表 2 情感識(shí)別準(zhǔn)確率Table 2 Accuracy of emotion classification %
圖 8 情感識(shí)別雷達(dá)圖Fig. 8 Radar map of emotion classification
圖 9 手勢(shì)的情感識(shí)別混淆矩陣Fig. 9 Emotion recognition confusion matrix of the gestures
本文提出了基于觸覺手勢(shì)的情感識(shí)別技術(shù),通過對(duì)CoST數(shù)據(jù)集的7 805個(gè)手勢(shì)進(jìn)行分析,對(duì)數(shù)據(jù)集進(jìn)行數(shù)據(jù)預(yù)處理,剔除部分錯(cuò)誤的手勢(shì),使數(shù)據(jù)集更加完善。使用MATLAB等軟件對(duì)數(shù)據(jù)進(jìn)行整理,并通過相關(guān)論文引證,提出一系列情感識(shí)別的特征。使用多種分類器進(jìn)行分類比對(duì),整體來看14種手勢(shì)中SVM和隨機(jī)森林的情感識(shí)別效果不相伯仲。不同分類器下的stroke手勢(shì)的情感識(shí)別效果均為最高,但ELM的stroke手勢(shì)的情感識(shí)別效果要比基于RBF核函數(shù)的SVM分類器的效果好(SVM=70.95%,ELM=72.07%)。并且ELM的識(shí)別時(shí)間要明顯短于SVM(SVM=0.33 s,ELM=0.04 s)。本文針對(duì)CoST數(shù)據(jù)集進(jìn)行了一系列研究實(shí)驗(yàn),得到了3點(diǎn)結(jié)論:stroke手勢(shì)具有最好的情感識(shí)別效果,且分類精度較高;ELM作為觸覺情感識(shí)別的分類器具有較好的表現(xiàn),識(shí)別精度高且識(shí)別速度快;有的手勢(shì)(比如pinch、press)本身對(duì)應(yīng)著某種情感,會(huì)影響情感識(shí)別的結(jié)果。因此,在設(shè)計(jì)觸覺情感識(shí)別傳感器時(shí),可以誘導(dǎo)用戶做出情感識(shí)別率最高的手勢(shì),從而間接地提高分類精度。這為以后的觸覺情感識(shí)別系統(tǒng)的設(shè)計(jì)提供了思路,也為建立新的情感識(shí)別數(shù)據(jù)集奠定了基礎(chǔ)。