時(shí)煜斌,劉 群
(重慶郵電大學(xué) 計(jì)算智能重慶市重點(diǎn)實(shí)驗(yàn)室,重慶 400065)
基于三支決策的觸摸手勢(shì)識(shí)別算法
時(shí)煜斌,劉 群
(重慶郵電大學(xué) 計(jì)算智能重慶市重點(diǎn)實(shí)驗(yàn)室,重慶 400065)
為了提高人與機(jī)器人交互過(guò)程中對(duì)觸摸手勢(shì)的識(shí)別能力,提出一種基于三支決策的觸摸手勢(shì)識(shí)別算法。通過(guò)對(duì)觸摸手勢(shì)數(shù)據(jù)集CoST(corpus of social touch)的分析以及結(jié)合其他領(lǐng)域的研究,提出2種數(shù)據(jù)預(yù)處理方法“截取”和“去背景”,并從6個(gè)不同角度提取了特征,包括基本特征、基于直方圖的特征、序列特征、梯度特征、接觸面積特征和基于每個(gè)傳感器的特征。以隨機(jī)森林為分類(lèi)器采用十折交叉方法進(jìn)行了驗(yàn)證,發(fā)現(xiàn)不同的預(yù)處理對(duì)于不同觸摸手勢(shì)的識(shí)別有不同的效果。為了融合不同預(yù)處理的優(yōu)勢(shì),引入三支決策的思想,將m分類(lèi)問(wèn)題轉(zhuǎn)化為m個(gè)2分類(lèi)問(wèn)題,使用統(tǒng)計(jì)的方法計(jì)算每個(gè)二分類(lèi)的三支決策閾值,按照一定的先后順序和權(quán)重指標(biāo)對(duì)經(jīng)過(guò)不同預(yù)處理的分類(lèi)結(jié)果進(jìn)行決策篩選。仿真實(shí)驗(yàn)結(jié)果表明,基于三支決策的觸摸手勢(shì)識(shí)別算法在一定程度上達(dá)到了融合的效果,并提高了觸摸手勢(shì)的識(shí)別率。
觸摸手勢(shì);數(shù)據(jù)預(yù)處理;三支決策;分類(lèi)識(shí)別
情感是人類(lèi)獨(dú)有的特征,在感知、決策、學(xué)習(xí)和處理人際關(guān)系等方面都有至關(guān)重要的作用。在人與機(jī)器人交互的過(guò)程中,給予機(jī)器人識(shí)別人類(lèi)情感的能力,會(huì)使得機(jī)器人更加的人性化、智能化。未來(lái)情感機(jī)器人可被應(yīng)用到機(jī)器人伙伴、遠(yuǎn)程交互以及機(jī)器人治療[1-2],特別是機(jī)器人治療,有著深遠(yuǎn)的意義[3]。目前對(duì)于情感機(jī)器人交互的研究主要集中在視覺(jué)和聽(tīng)覺(jué)方面,而觸摸行為作為一種重要的非語(yǔ)言的社會(huì)交流方式,卻沒(méi)有引起足夠的關(guān)注。觸摸行為就像面部表情和肢體語(yǔ)言一樣,在人與人的交流過(guò)程中,對(duì)于建立和保持社會(huì)關(guān)系有著重要的作用[4]。對(duì)觸摸行為的研究主要是通過(guò)類(lèi)動(dòng)物或者類(lèi)人的機(jī)器人收集數(shù)據(jù),然后分析數(shù)據(jù)進(jìn)行觸摸行為的分類(lèi)、識(shí)別[5-6]。根據(jù)構(gòu)成機(jī)器人的不同形態(tài),當(dāng)前的研究可以分為3種:模擬人工皮膚[7]、全身覆蓋傳感器的特殊機(jī)器人[8]和其他方式[9]。為了擴(kuò)大研究者們對(duì)觸摸手勢(shì)的研究關(guān)注度以及促進(jìn)研究進(jìn)展,國(guó)際計(jì)算機(jī)學(xué)會(huì)(association for computing machinery,ACM)舉辦了以提高觸摸手勢(shì)識(shí)別率為目標(biāo)的競(jìng)賽the Social Touch Gesture Challenge 2015[10]。競(jìng)賽提供了2個(gè)數(shù)據(jù)集:CoST[11](corpus of social touch)和HARRT[12](human-animal affective robot touch),結(jié)果在the 2015 ACM International Conference on Multi-model Interaction (ICMI)上進(jìn)行了公布。競(jìng)賽中,文獻(xiàn)[13]使用深層神經(jīng)網(wǎng)絡(luò)與隱馬爾可夫模型(DNN-HMMs)、幾何矩以及手勢(shì)級(jí)別的特征來(lái)識(shí)別數(shù)據(jù),其中CoST達(dá)到56%的準(zhǔn)確率,HAART達(dá)到71%的準(zhǔn)確率。文獻(xiàn)[14]中以壓力數(shù)據(jù)圖像特征、赫斯特指數(shù)、Hjorth參數(shù)、autoregressive model系數(shù)作為特征,使用隨機(jī)森林作為分類(lèi)器,CoST識(shí)別率達(dá)到了26%~95%,HAART識(shí)別率為60%~70%。文獻(xiàn)[15]提出了5種特征集,使用隨機(jī)森林和Boosting的組合分類(lèi)器進(jìn)行分類(lèi),CoST達(dá)到59%的識(shí)別率,HAART達(dá)到67%的識(shí)別率。文獻(xiàn)[16]中提取了全局特征(如平均壓力,最大壓力,等)、基于channel的特征、以及sequence特征共273個(gè)特征,經(jīng)過(guò)特征選擇和演化,使用隨機(jī)森林和支持向量機(jī)(support vector machine,SVM)進(jìn)行分類(lèi),CoST達(dá)到60.8%識(shí)別率,HAART達(dá)到70.91%識(shí)別率。
本文的工作目標(biāo)是提高觸摸手勢(shì)的識(shí)別率,通過(guò)對(duì)數(shù)據(jù)的分析,提出了2種數(shù)據(jù)預(yù)處理方法,在此基礎(chǔ)上引入三支決策的思想,提出了一種融合不同預(yù)處理方法優(yōu)勢(shì)的觸摸手勢(shì)識(shí)別算法。三支決策是一種基于符合人類(lèi)認(rèn)知的決策模式,它認(rèn)為人們?cè)趯?shí)際決策過(guò)程中,對(duì)于具有充分把握接受或拒絕的事物能夠立即做出快速的判斷;對(duì)于那些不能立即做出決策的事物,人們往往會(huì)推遲對(duì)事件的判斷,即延遲決策[17]。三支決策的思想在日常生活中是比較常見(jiàn)的,同時(shí)廣泛應(yīng)用于許多領(lǐng)域和學(xué)科,包括醫(yī)學(xué)決策[18-20],社會(huì)判斷理論[21],統(tǒng)計(jì)學(xué)假設(shè)檢驗(yàn)[22],對(duì)等審查[23]以及管理科學(xué)[24-25]。
本文的工作主要針對(duì)于CoST數(shù)據(jù)集,對(duì)數(shù)據(jù)集的具體介紹可以查看文獻(xiàn)[11]。數(shù)據(jù)集中包含14種手勢(shì)如表1所示,由31個(gè)測(cè)試者實(shí)施,其中每種手勢(shì)2種強(qiáng)度,每個(gè)手勢(shì)被實(shí)施6次。每一個(gè)手勢(shì)數(shù)據(jù)由若干個(gè)8×8的壓力矩陣幀組成,類(lèi)似于視頻數(shù)據(jù)。數(shù)據(jù)集分為訓(xùn)練集(3 524個(gè)手勢(shì)數(shù)據(jù))和測(cè)試集(1 769個(gè)手勢(shì)數(shù)據(jù))。
表1 CoST:14種手勢(shì)Tab.1 14 touch gestures in CoST
根據(jù)CoST的實(shí)驗(yàn)過(guò)程和14種手勢(shì)的特性,本文分析了2種噪聲數(shù)據(jù),并針對(duì)這2種噪聲,提出了對(duì)應(yīng)的處理方法:“截取”和“去背景”。
“截取”:由于在數(shù)據(jù)集的收集過(guò)程中,需要人為地進(jìn)行手勢(shì)的前后切分,所以,一些手勢(shì)數(shù)據(jù)開(kāi)始和結(jié)束部分存在無(wú)效的幀。我們以手勢(shì)數(shù)據(jù)每一幀的最大值序列為參照進(jìn)行分析,如圖1所示。圖1中手勢(shì)“hit”的一組數(shù)據(jù),其中有效部分僅為垂直虛線中間的部分,其他部分需要被去除掉。為了找到合適的閾值進(jìn)行數(shù)據(jù)的“截取”,實(shí)驗(yàn)中分別以手勢(shì)數(shù)據(jù)每一幀最大值序列的均值、中位數(shù)、最大值的不同比例值為閾值進(jìn)行測(cè)試,其中均值和中位數(shù)的比例值為10%~150%,最大值的比例值為10%~80%,以5%為步長(zhǎng)。為了驗(yàn)證不同閾值的效果,我們?cè)诮?jīng)過(guò)不同閾值截取的訓(xùn)練數(shù)據(jù)集上提取1.3節(jié)描述的特征,以隨機(jī)森林為分類(lèi)器使用十折交叉驗(yàn)證方法進(jìn)行驗(yàn)證,結(jié)果顯示,取均值的99%左右時(shí),具有較好的表現(xiàn)。因此,我們以手勢(shì)數(shù)據(jù)每一幀最大值序列的均值100%比例作為最終的閾值選擇。圖1中,水平方向虛線代表“截取”的閾值,將數(shù)據(jù)開(kāi)始和結(jié)束部分低于閾值的幀去除掉。
圖1 手勢(shì)“hit”每幀壓力最大值序列Fig.1 Sequences of the maximum pressure value for each frame of gesture “hit”
“去背景”:一些手勢(shì)由于本身的特性過(guò)于輕微或者實(shí)施的過(guò)快,很難捕捉到有效的特征信息。圖2為手勢(shì)“tap”原始數(shù)據(jù)的部分幀,8×8的方框代表數(shù)據(jù)的8×8矩陣,黑色區(qū)域代表壓力敏感的區(qū)域,顏色越深壓力越大。為了將這部分手勢(shì)的有效部分凸顯出來(lái),實(shí)驗(yàn)中參照灰度圖二值化的方法,對(duì)手勢(shì)數(shù)據(jù)的每一幀的壓力矩陣做了“二值化”處理,選取合適的閾值,將小于閾值的壓力點(diǎn)作為“背景”,大于閾值的作為“前景”,保留“前景”去掉“背景”即壓力置為零。實(shí)驗(yàn)中嘗試了最大類(lèi)間方差法,均值以及最大值的50%,同樣在訓(xùn)練集上采用十折交叉進(jìn)行測(cè)試,最終選擇最大類(lèi)間方差法作為“去背景”的閾值計(jì)算方法。圖3為對(duì)應(yīng)幀經(jīng)過(guò)預(yù)處理后的數(shù)據(jù)。
通過(guò)對(duì)數(shù)據(jù)的分析以及參考其他研究者的工作,本文從6個(gè)角度提取了共331個(gè)特征,其中包括基本特征、基于直方圖的特征、序列特征、梯度特征、接觸面積特征以及基于每個(gè)傳感器的特征。
1)基本特征。這部分特征選取自文獻(xiàn)[11],從宏觀的角度對(duì)觸摸手勢(shì)進(jìn)行特征的提取。包括手勢(shì)持續(xù)時(shí)間,手勢(shì)平均壓力值,最大壓力值,行列平均壓力值,壓力變化值以及位移,詳細(xì)描述可以參照文獻(xiàn)[11],共計(jì)24個(gè)特征。
2)基于直方圖的特征。數(shù)據(jù)集CoST中觸摸手勢(shì)的數(shù)據(jù)為若干幀的壓力矩陣,不同手勢(shì)實(shí)施過(guò)程中動(dòng)作、力度大小不同,則必然會(huì)使得壓力的分布有所差異。為了獲取不同手勢(shì)壓力分布的情況,本文采用圖像直方圖的方法來(lái)提取特征。數(shù)據(jù)集中壓力值變化為0~1 023,實(shí)驗(yàn)中將這個(gè)區(qū)間均等劃分為若干塊,以手勢(shì)數(shù)據(jù)中壓力落在不同塊里的個(gè)數(shù)為特征。文獻(xiàn)[26]中測(cè)試了分別將區(qū)間劃分為2到32塊的效果,其中8塊的時(shí)候具有較好的效果。
圖2 手勢(shì)“tap”預(yù)處理前壓力矩陣圖Fig.2 Frames of gesture “tap” before preprocessing
3)序列特征。每一個(gè)手勢(shì)都是一個(gè)連續(xù)的過(guò)程,為了準(zhǔn)確地對(duì)手勢(shì)進(jìn)行識(shí)別,提取針對(duì)手勢(shì)持續(xù)過(guò)程的特征是有必要的。文獻(xiàn)[16]中以每個(gè)手勢(shì)的平均壓力序列為參照,使用快速傅里葉變換(fast Fourier transformation,FFT)和離散余弦變換(discrete cosine transform,DCT)計(jì)算序列的特征,其中FFT取前16個(gè)最大頻率,DCT取前25個(gè)值。本文將這種方法提取的特征和其他特征結(jié)合起來(lái)進(jìn)行測(cè)試,發(fā)現(xiàn)這部分的特征反而會(huì)降低識(shí)別準(zhǔn)確率。因此,我們使用統(tǒng)計(jì)的方法提取手勢(shì)數(shù)據(jù)的序列特征。
圖3 手勢(shì)“tap”預(yù)處理后壓力矩陣圖Fig.3 Frames of gesture “tap” after preprocessing
實(shí)驗(yàn)中,我們分別計(jì)算了由每一幀壓力矩陣的均值、最大值以及求和值組成的序列的統(tǒng)計(jì)指標(biāo)。文中用到的統(tǒng)計(jì)指標(biāo)包括最大值、均值、中位數(shù)、眾數(shù)、極差、中程數(shù)、方差、標(biāo)準(zhǔn)差、變異系數(shù)以及峰值個(gè)數(shù)。峰值個(gè)數(shù)為序列曲線與特定閾值直線的交叉點(diǎn)個(gè)數(shù),我們?nèi)×?個(gè)閾值,分別為最大值的50%、均值、中程數(shù)和中位數(shù)。一共39個(gè)特征。
4)梯度特征。為了獲取手勢(shì)數(shù)據(jù)中點(diǎn)與相鄰點(diǎn)之間的壓力差異情況,我們從壓力梯度的角度進(jìn)行特征的提取,計(jì)算每一幀中每個(gè)點(diǎn)和它相鄰點(diǎn)(前后,上下,對(duì)角線)的壓力差再取絕對(duì)值,共210個(gè)值,作為這一幀的梯度。計(jì)算由每一幀梯度的均值和最大值組成的2個(gè)序列的統(tǒng)計(jì)指標(biāo)。共計(jì)26個(gè)特征。
5)接觸面積特征。手勢(shì)的實(shí)施是在一個(gè)壓力敏感的模擬皮膚上進(jìn)行,不同的手勢(shì)因其自身的社會(huì)特性不同,和模擬皮膚的接觸面積必然會(huì)不同,因此,提取接觸面積特征具有必要性。接觸面積的計(jì)算方法如下:每一幀的接觸面積為這一幀中大于特定閾值的壓力點(diǎn)個(gè)數(shù)。本文中分別使用了每一幀的最大類(lèi)間方差法所得值、壓力均值、最大值的50%作為計(jì)算接觸面積的閾值。最后以由每一幀的接觸面積組成的序列的統(tǒng)計(jì)指標(biāo),以及有著最大求和壓力幀的接觸面積作為手勢(shì)識(shí)別的特征,一共42個(gè)特征。
6)基于每個(gè)傳感器的特征。獲取手勢(shì)壓力數(shù)據(jù)的模擬皮膚包含8×8個(gè)壓力傳感器,手勢(shì)的變化均由這64個(gè)傳感器來(lái)捕獲,從每個(gè)傳感器的角度來(lái)進(jìn)行手勢(shì)特征的提取,可以在一定程度獲取到更細(xì)致全面的信息。提取方法如下:計(jì)算每個(gè)傳感器在整個(gè)手勢(shì)持續(xù)過(guò)程中的壓力的均值、平均壓力的變化值以及壓力值大于所在幀最大類(lèi)間方差法閾值的次數(shù)占總幀數(shù)的比例,共計(jì)192個(gè)特征。
由1.2節(jié)可知,本文一共提出2種數(shù)據(jù)預(yù)處理的方法,由這2種預(yù)處理方法的組合我們可以得到4種預(yù)處理方案。數(shù)據(jù)集經(jīng)過(guò)不同預(yù)處理方案處理可以得到如下4個(gè)數(shù)據(jù)集:原始數(shù)據(jù)集、“截取”后數(shù)據(jù)集、“去背景”數(shù)據(jù)集和“截取”并“去背景”后數(shù)據(jù)集。我們首先在訓(xùn)練集進(jìn)行不同預(yù)處理得到以上4個(gè)數(shù)據(jù)集并分別提取特征,然后以隨機(jī)森林為分類(lèi)器,采用十折交叉的方法分別進(jìn)行驗(yàn)證。其中隨機(jī)森林是利用多棵決策樹(shù)對(duì)樣本進(jìn)行訓(xùn)練并預(yù)測(cè)的分類(lèi)模型,具有可以處理高維度數(shù)據(jù)和訓(xùn)練速度快的優(yōu)勢(shì),同時(shí)在Touch Challenge 2015競(jìng)賽中也有著較好的表現(xiàn),因此文中選擇隨機(jī)森林作為實(shí)驗(yàn)的分類(lèi)器。表2描述了在訓(xùn)練集上使用4種預(yù)處理方案后分類(lèi)的查全率。由表2可以發(fā)現(xiàn),不同的預(yù)處理方案對(duì)于不同手勢(shì)的識(shí)別有著不同的效果,例如其中差別較大的手勢(shì)“squeeze”經(jīng)過(guò)“截取”后有將近5%的提升。為了融合不同預(yù)處理的優(yōu)勢(shì),本文提出了一種基于三支決策的觸摸手勢(shì)識(shí)別算法。
表2 訓(xùn)練集上4種預(yù)處理后十折交叉分類(lèi)的查全率Tab.2 Recall of 10-fold cross validation on train set with 4 different preprocessing %
受啟發(fā)于姚一豫教授序貫性三支決策[27]的思想,本文在4種預(yù)處理方案的基礎(chǔ)上提出了基于三支決策的觸摸手勢(shì)識(shí)別算法。由于三支決策解決的是“2分類(lèi)”問(wèn)題,因此,實(shí)驗(yàn)中需要將本文的“m分類(lèi)”問(wèn)題轉(zhuǎn)換為m個(gè)“2分類(lèi)”問(wèn)題。
圖4描述了三支決策的模型[28]。
圖4 三支決策模型Fig.4 Model of three-way decisions.
根據(jù)閾值(α,β)和概率Pr(X|[x])決策域被劃分為接受域(positive,POS)、邊界域(boundary,BND)和拒絕域(negative,NEG)3個(gè)域,如公式1所示。
POS(α,β)(X)={x∈U|Pr(X|[x])≥α}
BND(α,β)(X)={x∈U|β (1) NEG(α,β)(X)={x∈U|Pr(X|[x])≤β} 在使用三支決策解決現(xiàn)實(shí)的決策問(wèn)題時(shí),選擇合理的α和β閾值是最關(guān)鍵的一步。文獻(xiàn)[29]提出了一種自適應(yīng)求三支決策中決策閾值的算法。本文實(shí)驗(yàn)中嘗試了這種算法,但是無(wú)法得到合理的閾值,總是出現(xiàn)邊界域過(guò)寬或過(guò)窄的情況,根據(jù)文獻(xiàn)[29]的方法調(diào)整參數(shù)后也不能解決,因而,本文使用統(tǒng)計(jì)的方法來(lái)計(jì)算閾值。 首先使用weka平臺(tái)API weka.classifiers.Classifier.distributionForInstance計(jì)算分類(lèi)的條件概率,通過(guò)leave-one-out的方式在訓(xùn)練集上獲取閾值計(jì)算的樣本,進(jìn)而分析樣本中概率的分布情況得出最后的閾值。表3為手勢(shì)“slap”的二分類(lèi)經(jīng)過(guò)4種預(yù)處理的概率分布情況,按照真陽(yáng)性(true positive,TP),真陰性(true negative,TN),假陽(yáng)性(false positive,FP)和假陰性(false negative,FN)進(jìn)行統(tǒng)計(jì)??梢园l(fā)現(xiàn)每個(gè)二分類(lèi)器中TP部分概率值的各項(xiàng)指標(biāo)要大于FP,TN和FN部分,而FN部分概率值的各項(xiàng)指標(biāo)要小于TP,F(xiàn)P和TN部分。實(shí)驗(yàn)中我們分析了其余手勢(shì)的情況,發(fā)現(xiàn)具有相同的規(guī)律。因此,我們認(rèn)為分類(lèi)器在TP部分和FN部分做出的決策分別是有充分把握的接受和有充分把握的拒絕,而在FP和TN部分為不能確定的決策,并在TP部分的統(tǒng)計(jì)指標(biāo)中選取α值,在FN部分的統(tǒng)計(jì)指標(biāo)中選取β值。經(jīng)過(guò)實(shí)驗(yàn)測(cè)試,我們最終以TP部分第一分位數(shù)作為α值,以FN部分的第三分位數(shù)作為β值。 m個(gè)二分類(lèi)融合4種預(yù)處理的決策方法如表4所示,共有m個(gè)二分類(lèi),每個(gè)二分類(lèi)都可通過(guò)4種預(yù)處理方案得到的數(shù)據(jù)集訓(xùn)練出4個(gè)分類(lèi)器,其中水平方向?yàn)閙個(gè)二分類(lèi),垂直方向?yàn)?種預(yù)處理方案。按照文獻(xiàn)[27]中的理論,序貫性決策的順序是基于信息粒度的,本文中無(wú)法得到4種預(yù)處理方案在信息粒度上的指標(biāo),因此,我們參照在訓(xùn)練集上使用4種預(yù)處理后分類(lèi)的F值來(lái)決定決策的順序,“截取”→“原始數(shù)據(jù)集”→“截取”且“去背景”→“去背景”。每個(gè)二分類(lèi)按照表4從左往右進(jìn)行決策,如果當(dāng)前分類(lèi)器無(wú)法得到POS或者NEG的結(jié)果,則使用下一個(gè)分類(lèi)器繼續(xù)進(jìn)行決策過(guò)程,直到結(jié)果不為延遲決策(BND)或者用完4個(gè)分類(lèi)器。 表3 手勢(shì)“slap”的二分類(lèi)經(jīng)過(guò)4種預(yù)處理的分類(lèi)概率分布情況Tab.3 Probability distribution of two-category classification of gesture “slap” under 4 preprocessing % 表4 m個(gè)二分類(lèi)融合4種預(yù)處理的決策方法Tab.4 Decision method of m two-category classification fusion 4 kinds of preprocessing 在m個(gè)二分類(lèi)決策結(jié)果中采取相同決策動(dòng)作的二分類(lèi)可能有多個(gè),要選擇出最終的預(yù)測(cè)值,則需要給每個(gè)二分類(lèi)器的決策一個(gè)可以比較的權(quán)重指標(biāo)。 wij=pij×confij (2) 本文將二分類(lèi)的分類(lèi)條件概率pij和對(duì)應(yīng)二分類(lèi)在每種預(yù)處理后訓(xùn)練集上分類(lèi)的可靠程度confij相結(jié)合,給出了每個(gè)決策的權(quán)重wij,其中i={1,2,3,…,m}表示m個(gè)二分類(lèi),j={1,2,3,4}表示4種不同預(yù)處理,文中confij取對(duì)應(yīng)的分類(lèi)的評(píng)價(jià)指標(biāo)F值。算法過(guò)程詳細(xì)描述如下所示。 算法:基于三支決策的觸摸手勢(shì)識(shí)別算法。 輸入:訓(xùn)練集S、測(cè)試對(duì)象obj和總類(lèi)別數(shù)M 輸出:預(yù)測(cè)結(jié)果 訓(xùn)練過(guò)程: 對(duì)訓(xùn)練集進(jìn)行不同的預(yù)處理并提取特征得到對(duì)應(yīng)的4個(gè)數(shù)據(jù)集{S1,S2,S3,S4}。 以隨機(jī)森林為分類(lèi)器,訓(xùn)練對(duì)應(yīng)的4個(gè)分類(lèi)器{c1,c2,c3,c4}。 采用十折交叉的方法獲取每個(gè)分類(lèi)器對(duì)每種手勢(shì)分類(lèi)的可靠程度,即confij。 根據(jù)4.1節(jié)的方法計(jì)算每個(gè)分類(lèi)器對(duì)每種手勢(shì)的三支決策閾值,即(α,β)ij。 預(yù)測(cè)過(guò)程如下。 對(duì)對(duì)象obj進(jìn)行不同預(yù)處理并提取特征獲取4個(gè)對(duì)應(yīng)的測(cè)試數(shù)據(jù){obj1,obj2,obj3,obj4}。 記錄m個(gè)二分類(lèi)的三支決策狀態(tài),-1,0,1分別代表拒絕,延遲和接受 int[] decision = new int[M] ; 記錄m個(gè)二分類(lèi)最終決策的權(quán)重 double[] weight = new double[M]; 遍歷4個(gè)分類(lèi)器 for i =1 to 4 do 獲取分類(lèi)條件概率 double[] dist=c[i].distributionForInstance(obj[i]); 遍歷m個(gè)二分類(lèi) for j = 1 to M do 延遲決策時(shí)繼續(xù)進(jìn)行決策 if(decision[j] == 0) do 根據(jù)閾值(α,β)[i,j] 作出決策 POS:decision[j]=1; NEG:decision[j]=-1; BND:decision[j] =0; 計(jì)算權(quán)重指標(biāo) w=dist[j]*conf[i][j]; weight[j]=w>weight[j]?w:weight[j]; end if end for end for 遍歷decision[],統(tǒng)計(jì)最終決策為 POS,BND以及NEG的二分類(lèi)候選; if采取 POS的候選不為空則選擇候選中weight最大的作為預(yù)測(cè)結(jié)果; if采取POS的候選為空,相同方式討論采取BND的候選; if采取BND的候選為空,相同方式討論采取NEG的候選; 返回最終的預(yù)測(cè)的類(lèi)別; 算法復(fù)雜度分析。根據(jù)以上的算法流程我們分步對(duì)算法的時(shí)間復(fù)雜度進(jìn)行分析:①預(yù)處理與特征提取過(guò)程為O(N×R),其中N為訓(xùn)練集中3 524個(gè)手勢(shì)數(shù)據(jù)的總幀數(shù),共642 431幀,R為每一幀中壓力數(shù)組長(zhǎng)度64;②訓(xùn)練4個(gè)分類(lèi)器的時(shí)間復(fù)雜度O(v×nlog(n)),v為特征數(shù)331,n為手勢(shì)個(gè)數(shù)3 524;③計(jì)算每個(gè)分類(lèi)器對(duì)每種手勢(shì)分類(lèi)的可靠程度confij的時(shí)間復(fù)雜度為O(v×nlog(n));④計(jì)算每個(gè)分類(lèi)器對(duì)每種手勢(shì)的三支決策閾值(α,β)ij的時(shí)間復(fù)雜度為O(v×n2log(n));⑤預(yù)測(cè)階段的時(shí)間復(fù)雜度為O(np×M),np為4種預(yù)處理,M為總的類(lèi)別數(shù)14。其中最耗時(shí)的是計(jì)算三支決策閾值的階段,之所以如此,是因?yàn)槲覀兪褂昧薼eave-one-out的方式。算法的空間復(fù)雜度為O(v×n)。 將算法和單獨(dú)使用某種預(yù)處理的分類(lèi)效果進(jìn)行對(duì)比,表5為查全率的對(duì)比結(jié)果,其中算法對(duì)于手勢(shì)“grab”,“massage”,“pinch”,“stroke”和“tickle”的識(shí)別有了一定的提升,并且平均查全率高于所有使用單獨(dú)預(yù)處理方法的分類(lèi)效果。表6對(duì)比了查準(zhǔn)率的結(jié)果,識(shí)別率有所提升的手勢(shì)有“pat”,“rub”,“scratch”和“tap”,同時(shí)平均查準(zhǔn)率也高于使用單獨(dú)預(yù)處理方法的分類(lèi)效果。 表5 測(cè)試集上的分類(lèi)查全率Tab.5 Classification recall on test set % 每種預(yù)處理對(duì)手勢(shì)識(shí)別的作用,因手勢(shì)自身特性的不同,并非都是正向的提升效果,部分手勢(shì)經(jīng)過(guò)預(yù)處理后反而降低了識(shí)別率。出于融合不同預(yù)處理方案優(yōu)勢(shì)的目的,本文提出了基于三支決策的觸摸手勢(shì)識(shí)別算法,算法采用序貫性三支決策的思想,將4種預(yù)處理方案按照其在訓(xùn)練集上作用后的識(shí)別率高低進(jìn)行決策順序的排列,由高到低,旨在讓決策過(guò)程層層補(bǔ)充,以達(dá)到融合不同預(yù)處理優(yōu)勢(shì)的效果。通過(guò)以上的實(shí)驗(yàn)結(jié)果可以說(shuō)明,本文算法一定程度上提高了手勢(shì)的分類(lèi)識(shí)別率,具有融合4種預(yù)處理優(yōu)勢(shì)的效果。 表6 測(cè)試集上的分類(lèi)查準(zhǔn)率Tab.6 Classification precession on test set % 表7將本文算法結(jié)果和在CoST數(shù)據(jù)集上進(jìn)行觸摸手勢(shì)研究工作中的其他文獻(xiàn)結(jié)果進(jìn)行了對(duì)比,文獻(xiàn)[16]具有最高的識(shí)別率60.8%,本文的算法效果優(yōu)于文獻(xiàn)[13-15]的結(jié)果,接近于文獻(xiàn)[16]的結(jié)果。與文獻(xiàn)[16]相比,本文算法對(duì)于手勢(shì)“grab”,“hit”,“massage”,“pinch”,“poke”,“press”和“slap”的識(shí)別具有更好的效果。 本文通過(guò)對(duì)觸摸手勢(shì)數(shù)據(jù)的分析,提出了2種數(shù)據(jù)預(yù)處理的方法,組合2種方法得到了4種預(yù)處理的方案。為了融合不同預(yù)處理的效果,本文提出了一種基于三支決策的觸摸手勢(shì)識(shí)別算法,通過(guò)表5和表6的分類(lèi)評(píng)價(jià)指標(biāo)可以說(shuō)明本文的算法在一定程度上融合了不同預(yù)處理的優(yōu)勢(shì),提高了觸摸手勢(shì)的識(shí)別率。 表7 實(shí)驗(yàn)結(jié)果對(duì)比Tab.7 Comparison of experimental results % 在未來(lái)的工作中,本文算法需要改進(jìn)的地方如下:①每個(gè)二分類(lèi)的三支決策閾值計(jì)算需要進(jìn)一步研究提出更合理的方案;②未來(lái)可能會(huì)找到其他有效的數(shù)據(jù)預(yù)處理方法,如何決定每個(gè)二分類(lèi)的決策順序,需要繼續(xù)研究。 [1] CHANG J, MACLEAN K, YOHANAN S. Gesture Recognition in the Haptic Creature[C]//L Naish. Lecture Notes in Computer Science. Berlin: Springer Berlin Heidelberg, 2010: 385-391. [2] SILVERA T D, RYE D, VELONAKI M. Interpretation of Social Touch on an Artificial Arm Covered with an EIT-based Sensitive Skin[J]. International Journal of Social Robotics, 2014, 6(4):489-505. [3] 劉欣.基于表情認(rèn)知的服務(wù)機(jī)器人情感計(jì)算研究[D].北京:北京科技大學(xué),2015. LIU Xin. Service Robot’s Affective Computing based on Facial Expression Cognition [D]. Beijing: University of Science and Technology Beijing, 2015 [4] VINCIARELLI A, PANTIC M, BOURLARD H, et al. Social signals, their function, and automatic analysis: a survey[C]//Proceedings of the 10th international conference on Multimodal interfaces. CHANIA, CRETE, Greece: ACM, 2008: 61-68. [5] HAANS A, IJSSELSTEIJN W. Mediated social touch: a review of current research and future directions[J]. Virtual Reality, 2006, 9(2): 149-159. [6] HERTENSTEIN M J, VERKAMP J M, KERESTES A M, et al. The communicative functions of touch in humans, nonhuman primates, and rats: a review and synthesis of the empirical research.[J]. Genetic Social & General Psychology Monographs, 2006, 132(1):5-94. [7] DAHIYA R S, METTA G, VALLE M, et al. Tactile sensing: from humans to humanoids[J]. IEEE Transactions on Robotics, 2010, 26(1):1-20. [8] STIEHL W D, BREAZEAL C, HAN K H, et al. The huggable: a therapeutic robotic companion for relational, affective touch[C]//ACM SIGGRAPH 2006 emerging technologies.Las Vegas,Nevada,USA:ACM,2006:15. [9] COONEY, M.D, NISHIO S, ISHIGURO H. Recognizing Affection for a Touch-based Interaction with a Humanoid Robot[C] //Intelligent Robots and Systems (IROS), 2012 IEEE/RSJ International Conference on. Vilamoura, Algarve, Portugal: IEEE, 2012: 1420-1427. [10] JUNG M M, CANG X L, POEL M, et al. Touch Challenge '15: Recognizing Social Touch Gestures[C] //ACM on International Conference on Multimodal Interaction. Seattle, Washington, USA: ACM on International Conference on Multimodal Interaction, 2015:387-390. [11] JUNG M M, POPPE R, POEL M, et al. Touching the Void-Introducing CoST: Corpus of Social Touch[C] //Proceedings of the 16th International Conference on Multimodal Interaction. Istanbul, Turkey: ACM, 2014: 120-127. [12] YOHANAN S, MACLEAN K E. The Role of Affective Touch in Human-Robot Interaction: Human Intent and Expectations in Touching the Haptic Creature[J]. International Journal of Social Robotics, 2012, 4(2):163-180. [13] HUGHES D, FARROW N, PROFITA H, et al. Detecting and identifying tactile gestures using deep autoencoders, geometric moments and gesture level features[C] // ACM on Inter national Conference on Multimodal Interaction. Seattle, Washington, USA: ACM, 2015:415-422. [14] ALTUGLU T. B, ALTUN K. Recognizing Touch Gestures for Social Human-Robot Interaction[C]//ACM on International Conference on Multimodal Interaction. Seattle, Washington, USA: ACM, 2015:407-413. [15] GAUS Y F A, OLUGBADE T, JAN A, et al. Social Touch Gesture Recognition using Random Forest and Boosting on Distinct Feature Sets[C]// ACM International Conference on Multimodal Interaction. Seattle, Washington, USA: ACM, 2015:399-406. [16] TA V C, JOHAL W, PORTAZ M. The Grenoble system for the social touch challenge at ICMI 2015[C]// ACM on International Conference on Multimodal Interaction. Seattle, Washington, USA: ACM, 2015:391-398. [17] 劉盾.三支決策與粒計(jì)算[M].北京:科學(xué)出版社, 2013. LIU Dun. Three-Way Decisions and Granular Computing [M]. Beijing: Science Press, 2013. [18] LURIE J D, SOX H C. Principles of medical decision making [J]. Spine, 1999, 24(5): 493-498. [19] PAUKER S G, KASSIRER J P. The threshold approach to clinical decision making [J]. New England Journal of Medicine, 1980, 302(20): 1109-1117. [20] SCHECHTER C B. Sequential analysis in a Bayesian model of diastolic blood pressure measurement[J]. Medical Decision Making, 1988, 8(3): 191-196. [21] SHERIF M, HOVLAND C I. Social judgment: Assimilation and contrast effects in communication and attitude change [M]. London: Yale University Press, 1961. [22] WALD A. Sequential tests of statistical hypotheses [M]. Breakthroughs in Statistics. New York: Springer, 1992. [23] WELLER A C. Editorial peer review: Its strengths and weaknesses [M]. New Jersey: Information Today, Inc, 2001. [24] WOODWARD P W, NAYLOR J C. An application to Bayesian methods in SPC[J]. The Statistician, 1993, 42(4): 461-469. [25] GOUDEY R. Do statistical inferences allowing three alternative decisions give better feedback for environmentally precaution nary decision-making [J]. Journal of Environ mental Management, 2007, 85(2): 338-344. [26] van WINGERDEN S, UEBBING T J, JUNG M M, et al. A neural network based approach to social touch classification[C]// /Proceedings of the 2014 workshop on Emotion Representation and Modelling in Human-Computer-Interaction-Syst ems. Istanbul, Turkey: ACM, 2014: 7-12. [27] YAO Y. Granular Computing and Sequential Three-Way Decisions[C]//International Conference on Rough Sets and Knowledge Technology 2013. Halifax, NS, Canada: Springer Berlin Herdelberg, 2013: 10-27. [28] LIU D, YAO Y Y, LI T R. Three-way decision-theoretic rough sets[J]. Computer Science, 2011, 38(1): 246-250. [29] JIA X Y, LI W W, SHANG L, et al. An adaptive learning parameters algorithm in three-way decision-theoretic rough set model [J]. Acta Electronica Sinica, 2011, 39(11):2520-2525. The Chongqing postgraduate scientific research and innovation projects of China(CYS16161) Algorithmoftouchgesturerecognitionbasedonthree-waydecisions SHI Yubin, LIU Qun Chongqing key laboratory of computational intelligence, Chongqing University of Posts and Telecommunications, Chongqing 400065, P.R. China) In order to improve the recognition ability of the touch gesture in the interaction between human and robot, an algorithm of touch gesture recognition based on three-way decisions is proposed. Through the analysis of touch gesture data set CoST (Corpus of Social Touch) and combining with other fields of study, we put forward two data preprocessing methods, "cutout" and "instant mask", and extract features from six different perspectives including basic features, histogram-based features, sequence features, gradient-based features, contact area features and channel-based features. Using random forest as classifier and validating with 10-fold cross method, it is found that different preprocessing methods have different effects on the recognition of different gestures. In order to combine the advantage of different preprocessing, three-way decisions is introduced, and the m-category classification problems are changed into m two-category classification problems. The three-way decisions’ thresholds for each two-category classification problem are calculated by statistical method. According to a certain order and indicators, the classification results through different preprocessing are screened. The experimental results show that the algorithm achieves a certain degree of fusion effect and improves the recognition rate of the touch gesture. touch gesture; preprocessing; three-way decisions; classification 10.3979/j.issn.1673-825X.2017.06.013 2016-12-08 2017-06-17 時(shí)煜斌 596798506@qq.com 重慶市研究生科研創(chuàng)新項(xiàng)目(CYS16161) TP181 A 1673-825X(2017)06-0792-09 時(shí)煜斌(1991 -),男,陜西漢中人,碩士研究生,主要研究方向?yàn)闄C(jī)器人觸摸手勢(shì)識(shí)別。E-mail:596798506@qq.com。 劉 群(1969 -),女,江西南昌人,教授,博士,研究方向?yàn)閿?shù)據(jù)挖掘、智能信息處理、復(fù)雜網(wǎng)絡(luò)。E-mail: liuqun@cqupt.edu.cn。 (編輯:劉 勇)2.2 m個(gè)二分類(lèi)的決策
2.3 決策結(jié)果選擇
2.4 實(shí)驗(yàn)結(jié)果
3 總 結(jié)