馬欣,李建軍
(內(nèi)蒙古科技大學(xué) 信息工程學(xué)院,內(nèi)蒙古 包頭 014010)
交互行為主要分為人物、雙人和人群交互行為,交互行為的動(dòng)作有復(fù)雜且多變、信息冗余量大、個(gè)體間差異性大等特點(diǎn),很難提取有效特征進(jìn)行識別,是目前交互行為識別率低的主要原因[1,2].
魯棒性主成分分析法(Robust PCA)可以提取圖像中重要的特征信息,即數(shù)據(jù)中的低秩部分,去除數(shù)據(jù)中的冗余信息和噪聲干擾.基于低秩稀疏的算法優(yōu)化在人體行為分析、人臉識別、視頻目標(biāo)檢測等領(lǐng)域有著廣泛的應(yīng)用場景.Zheng等[3]在進(jìn)行人臉識別的研究過程中,將低秩表示融入到字典學(xué)習(xí)中,增強(qiáng)了稀疏表示的魯棒性,提取了數(shù)據(jù)中的有效信息,很大程度上提高了算法的識別效率;陳斌等[4]分別采用特征的主成分稀疏表示和低秩分解的方法對樣本圖像進(jìn)行分割,在人臉匹配實(shí)驗(yàn)中取得了較好的識別效果.葉茂權(quán)[5]利用基于Fisher的稀疏編碼,將提取到的人體行為融合特征進(jìn)行樣本識別,提高了特征描述的語義描述能力.
文章算法流程如圖1所示.
圖1 算法流程
特征融合技術(shù)[6]不僅增加了行為識別率,而且讓系統(tǒng)的魯棒性有所提高,使得研究方法能夠適應(yīng)不同場景.
文章分別對人體行為圖像的靜態(tài)、動(dòng)態(tài)特征進(jìn)行提取,之后將靜態(tài)特征加權(quán)串行融合得到融合特征,最后利用ScSPM模型對靜態(tài)融合特征和動(dòng)態(tài)光流特征進(jìn)行編碼融合.
深度圖像能夠真實(shí)反映出圖像的三維空間和幾何形狀,減少顏色、遮擋等客觀因素的干擾.通過深度圖像獲取的邊緣信息相對于普通彩色圖像更加純粹[7].邊緣特征描述了人物的輪廓,能夠很好地描繪圖像中人物和背景的邊界.與其他常用的邊緣檢測算子相比,Canny算子對邊緣的檢測精度更高[8,9],更加適應(yīng)文章的實(shí)驗(yàn)方法.具體步驟如下:
(1)采用高斯濾波對深度圖像去噪.
I(x,y)=[G(x)G(y)]?f(x,y) ,
(1)
(2)
(3)
式中:?表示卷積運(yùn)算;σ表示高斯卷積的平滑因子,σ越大表示對噪聲越不敏感;f(x,y)為原始圖像;I(x,y)為去噪后的圖像.
(4)
(5)
(3)對上一步得出的幅值進(jìn)行非極大值抑制.將點(diǎn)P(x,y)與鄰域的8個(gè)點(diǎn)進(jìn)行幅值比較,若點(diǎn)P(x,y)小于該方向的2個(gè)鄰接像素的幅值,那么該點(diǎn)不是極大值,將其梯度的幅值置0.
(4)雙閾值法檢測圖像邊緣.由以上步驟處理過的樣本圖像還可能存在其他噪聲或者虛假邊緣,需要進(jìn)一步優(yōu)化.將某一像素的幅值與高閾值Th和Tl低閾值進(jìn)行比較,若小于Tl,則將其去除;若大于Th,則判斷該像素為邊緣像素.采用Canny算子對深度圖提取邊緣如圖2所示.
圖2 深度圖像邊緣特征
1.2.1紋理特征
紋理特征是對圖像灰度空間分布的描述,用來表述圖像整體或像素點(diǎn)與周圍環(huán)境間的聯(lián)系.紋理特征在不同角度的描述方法分類也不同,比如基于結(jié)構(gòu)、模型、變換、統(tǒng)計(jì)的4種范疇[10,11].
LBP特征是對1個(gè)窗口鄰域的二進(jìn)制描述,若檢測窗口的中心像素T的灰度值大于周圍8個(gè)像素的灰度值Ti,則該像素記為二進(jìn)制數(shù)1,反之記為0.二值化后的鄰域的8個(gè)像素點(diǎn)的值與權(quán)值矩陣相乘得到8個(gè)結(jié)果值,相加最終得到該鄰域LBP特征值.但是如果圖像開始旋轉(zhuǎn),中心像素點(diǎn)的鄰近點(diǎn)也會(huì)跟著旋轉(zhuǎn),最終改變圖像的LBP值,影響紋理特征的提取效果.
LBP的旋轉(zhuǎn)不變模式是通過選取鄰域的最小LBP值作為最終值,該算法對人體特征的提取能力很強(qiáng),可以忽略沒有意義的背景信息,同時(shí)保持特征的穩(wěn)定性.基于以上分析,文章采用旋轉(zhuǎn)不變的LBP[12]作為圖像紋理特征的提取方法.
LBP算子和其不變模式下提取到的紋理特征對比如圖3所示.
圖3 原始LBP與其不變模式提取紋理特征(a)原始圖;(b)原始LBP提取到的文理特征;(c)LBP旋轉(zhuǎn)不變模式提取到的紋理特征
1.2.2光流特征
光流特征是通過多幀圖像來提取的動(dòng)態(tài)特征,可以描述交互動(dòng)作的過程,一定程度上可以區(qū)分一些較為相似的動(dòng)作,所以文章采用光流直方圖(HOF)來描述動(dòng)態(tài)特征[13].HOF描述了光流特征維度的變化,具體實(shí)現(xiàn)步驟如下:
(1)將每幀圖像對應(yīng)的光流場進(jìn)行光流計(jì)算.
(2)以坐標(biāo)軸橫向坐標(biāo)為準(zhǔn),把光流矢量的角度值投影到對應(yīng)的直方圖中,將得到的幅值加權(quán)計(jì)算,如下式:
θ=tan-1(y/x) ,
(6)
v=[x,y]T.
(7)
基于深度圖像和RGB圖像的優(yōu)勢,文章將2種靜態(tài)特征,即邊緣特征和紋理特征,加權(quán)融合為靜態(tài)融合特征:
S=ωrgb×Srgb×ωdepth×Sdepth.
(8)
式中:S為靜態(tài)融合特征;Srgb是對RGB圖像提取的紋理特征;Sdepth則為對RGB-D圖像提取到的邊緣特征;ωrgb和ωdepth分別為RGB圖像特征和RGB-D圖像特征對應(yīng)的權(quán)值系數(shù),通過遍歷,保留小數(shù)點(diǎn)后一位小數(shù)得到最優(yōu)權(quán)值為0.3和0.7.
通過特征提取和融合,得到光流特征和靜態(tài)融合人特征.再利用ScSPM模型[14,15]編碼對2個(gè)特征進(jìn)行最大池化處理,最終得到其對應(yīng)的編碼特征,具體步驟如圖4所示.
ScSPM采用稀疏編碼(SC)方法對特征編碼,與詞袋模型的基于K均值的量化編碼方式相比,稀疏編碼加入L1-范數(shù)放寬限制減少了一部分信息的丟失.稀疏編碼公式如下:
?k=1,2,…,K.
(9)
式中:M為特征數(shù)目;X為靜態(tài)融合特征、光流特征再提取Sift特征后的d維向量集合,x=[x1,…,xM]∈RM×D;V=[v1,…,vM]是字典;U=[u1,…,uM]為特征在字典V上的投影系數(shù);λ是正則化參數(shù);對vk進(jìn)行L2-范數(shù)約束.
ScSPM模型采用稀疏優(yōu)化學(xué)習(xí)方法從靜態(tài)融合特征集合、光流特征集合中分別得出1個(gè)超完備的特征詞典,在編碼時(shí)特征可以映射到字典中多個(gè)單詞,具有良好的重建性,得到最小的重構(gòu)誤差.稀疏的特征更具有線性可分性.
圖4 ScSPM模型
靜態(tài)融合特征和光流特征通過稀疏編碼池化后分別得到編碼特征,然后再對編碼特征融合.采用加權(quán)融合方法對每類特征進(jìn)行融合:
F=ω1×S′+ω2×D′ ,
(10)
式中:f為經(jīng)過靜態(tài)融合編碼特征和動(dòng)態(tài)光流編碼特征融合后的交互行為特征;S′為靜態(tài)融合特征完成稀疏編碼并池化后的特征;D′則為光流特征完成稀疏編碼并池化后的特征;ω1,ω2分別為二者的融合權(quán)重,經(jīng)過遍歷得到最優(yōu)權(quán)重分別為0.3,0.7.
采用魯棒主成分分析法(RPCA)對編碼的融合特征進(jìn)行低秩稀疏表示.RPCA的本質(zhì)也是對高維數(shù)據(jù)進(jìn)行降維.RPCA是將原始數(shù)據(jù)矩陣分解為兩部分:含有噪聲的稀疏部分和低秩部分,RPCA可以很好地將高維噪聲數(shù)據(jù)降維[16,17],其原理即:
X=Z+A,
(11)
式中:X為需要處理的數(shù)據(jù)矩陣;Z為含有效信息的低秩矩陣;A為含噪聲的稀疏矩陣.
求解魯棒主成分分析法的算法眾多,其中增廣拉格朗日乘子法[18]是所有算法中運(yùn)行速度和求解精度最佳的算法,因此文章采用此算法解決上述優(yōu)化問題.
ALM函數(shù)算法流程如下:
(12)
式中:Y是線性約束乘子;μ是正的正則化參數(shù).初始化μ和β,使用坐標(biāo)軸下降法,即在每個(gè)迭代周期內(nèi),先沿著1個(gè)坐標(biāo)軸方向(例如:Z)求極值而固定其他的所有坐標(biāo)軸,依次循環(huán),直到找到滿足條件的Z,Y,μ的值.
固定A和Y,求解Z:
(13)
固定Z和Y,求解A:
(14)
更新Y和μ:
(15)
(16)
通過以上算法運(yùn)算,實(shí)驗(yàn)最終將高維圖像數(shù)據(jù)處理成滿足條件的低秩矩陣Z和稀疏矩陣A.
為驗(yàn)證文章的算法識別準(zhǔn)確率,分別在人體行為數(shù)據(jù)集CAD-60和MSR Action Pairs上進(jìn)行實(shí)驗(yàn)驗(yàn)證.實(shí)驗(yàn)分別隨機(jī)抽取數(shù)據(jù)集中的40張圖像進(jìn)行測試,反復(fù)實(shí)驗(yàn)5次得到平均識別率.
CAD-60數(shù)據(jù)集包含了12種人體日常行為動(dòng)作,是由4個(gè)人在不同場景下完成的.文章選取了9個(gè)人物交互動(dòng)作,分別為打開藥瓶蓋子、打電話、刷牙、用電腦工作、切菜、攪拌、喝水、漱口和在白板上寫字.經(jīng)過5次隨機(jī)測試,得到平均識別率為98.5%.混淆矩陣如圖5所示.
由圖5混淆矩陣可知,在此交互動(dòng)作行為分類問題中,一共有9種行為動(dòng)作.
橫坐標(biāo)的刻度標(biāo)簽brushingteeth, chopping…, writing分別代表樣本人物的實(shí)際行為;縱坐標(biāo)的刻度標(biāo)簽brushingteeth, chopping…, writing分別代表分類器識別出的行為動(dòng)作,黑色方框內(nèi)的數(shù)據(jù)代表樣本被正確識別的概率.
圖5 CAD-60數(shù)據(jù)集下的實(shí)驗(yàn)結(jié)果
由結(jié)果分析得知:CAD-60數(shù)據(jù)集中,打電話這個(gè)動(dòng)作容易發(fā)生識別混淆,沒有達(dá)到百分之百的識別率.同一數(shù)據(jù)集下文章算法與其他方法的實(shí)驗(yàn)識別率對比如表1所示.
表1 CAD-60數(shù)據(jù)集下不同方法的識別率對比
由表1可知,文獻(xiàn)19采用的是最大熵馬爾可夫模型(HMM),識別率較低.文獻(xiàn)[20]基于MEMM模型,人體動(dòng)作識別效率不高.文獻(xiàn)[21]從人體運(yùn)動(dòng)的能量角度提取人體局部特征,與人體交互特征進(jìn)行融合構(gòu)成組合特征,最后采用基于RBF核函數(shù)的SVM分類器進(jìn)行人體行為分類識別.文獻(xiàn)[22]中作者利用多層融合方案將Kinect骨骼點(diǎn)、RGB和深度模式特征有效地結(jié)合在一起,建立專門的SVM模型,運(yùn)用多層融合方案將特征結(jié)合在一起,以此提高識別效率.文獻(xiàn)[23]中作者首先提取每個(gè)骨架幀的姿態(tài)特征向量,然后選擇姿態(tài)創(chuàng)建活動(dòng)特征向量,最后利用多類SVM進(jìn)行分類.對比以上的研究結(jié)果,文章提出的方法在CAD-0數(shù)據(jù)集上的識別率和算法性能更佳.
MSR Action Pairs數(shù)據(jù)集包含6組行為動(dòng)作,分別為從桌子上拿起盒子和放下盒子、戴上帽子和摘下帽子、從地上撿起和放下盒子、貼上海報(bào)和撕下海報(bào)、推開和拉起椅子、背上書包和摘下書包.通過查看分析數(shù)據(jù)集圖像,發(fā)現(xiàn)成對動(dòng)作間相似度很大,識別起來具有一定的困難.經(jīng)過5次隨機(jī)測試,得到平均識別率為92.5%.混淆矩陣如圖6所示.
由圖6混淆矩陣可知,在此交互動(dòng)作分類問題中,一共有12種行為動(dòng)作.
橫坐標(biāo)的刻度標(biāo)簽lifbox, pickupbox, …, takeofhat分別代表樣本人物的實(shí)際行為;縱坐標(biāo)的刻度標(biāo)簽lifbox, pickupbox, …, takeofhat分別代表分類器識別出的行為動(dòng)作,黑色方框內(nèi)的數(shù)據(jù)代表樣本被正確識別的概率.
圖6 MSR Action Pairs數(shù)據(jù)集下的實(shí)驗(yàn)結(jié)果
通過實(shí)驗(yàn)結(jié)果分析得知,文章的低秩稀疏優(yōu)化算法在樣本數(shù)量較大的行為數(shù)據(jù)集MSR Action Pairs數(shù)上發(fā)揮了算法識別速度快的優(yōu)點(diǎn),并且在識別準(zhǔn)確率上也有了很大提升.但由于樣本數(shù)據(jù)中動(dòng)作的相似度過高,造成一些成對動(dòng)作的識別發(fā)生混淆,給動(dòng)作識別帶來一定困難,從而導(dǎo)致識別率有所下降.不同方法識別率對比如下表2所示.
表2 MSR Action Pairs數(shù)據(jù)集下不同方法的識別率對比
由表2可知,文獻(xiàn)[25]、文獻(xiàn)[26]的識別率較高,文獻(xiàn)[25]利用直方圖描述關(guān)節(jié)行為運(yùn)動(dòng)視頻的時(shí)間序列及空間序列坐標(biāo),并構(gòu)建四維空間分布,捕捉了深度序列中的關(guān)節(jié)形狀運(yùn)動(dòng)線索.文獻(xiàn)[26]利用MMTW方法對2個(gè)動(dòng)作序列進(jìn)行對齊,并測量它們的匹配分?jǐn)?shù),通過學(xué)習(xí)1個(gè)動(dòng)作模板來表示1個(gè)動(dòng)作類,從而最大限度地區(qū)別于其他類.但這2種算法的時(shí)間和空間復(fù)雜度都相比文章算法高很多,運(yùn)算過程相對繁瑣,影響實(shí)時(shí)性.而文章基于低秩稀疏算法中提取的特征都是運(yùn)算簡單的底層特征,在降低時(shí)間復(fù)雜度的同時(shí),識別的效率也有了提高.
基于低秩稀疏算法可以降低矩陣維數(shù),減少冗余信息的特性,文章提出低秩稀疏優(yōu)化融合特征的識別算法.該算法首先加權(quán)融合提取的RGB圖像的紋理特征和深度圖像的邊緣特征,然后對靜態(tài)融合特征和光流特征采用ScSPM模型編碼融合,之后采用RPCA算法提取出融合特征的低秩矩陣,最后采用SVM算法分類識別.文章針對RGB圖像和深度圖像、動(dòng)態(tài)特征與靜態(tài)特征的互補(bǔ)特性,將特征有效地融合,有助于提高識別率.針對交互動(dòng)作的復(fù)雜性,以及提取特征較多的問題,采用低秩稀疏算法進(jìn)行優(yōu)化,有效地提高了算法的效率,對比文獻(xiàn)中相同數(shù)據(jù)集下的不同方法,而文章基于低秩稀疏算法中提取的特征都是運(yùn)算簡單的底層特征,在降低時(shí)間復(fù)雜度的同時(shí),識別的效率也有了提高.