秦秋雨
(南京郵電大學(xué)通信與信息工程學(xué)院 江蘇 南京 210003)
面對(duì)大量視頻數(shù)據(jù),如何利用自動(dòng)分析視頻中內(nèi)容已儼然成為當(dāng)下一個(gè)熱門的研究課題,并引起計(jì)算機(jī)視覺領(lǐng)域?qū)W者們的廣泛關(guān)注。隨著各種智能設(shè)備的生產(chǎn)和發(fā)展,人類除了對(duì)智能機(jī)器設(shè)備更加關(guān)注外,對(duì)人體動(dòng)作的識(shí)別也越來越重視。目前,人體動(dòng)作識(shí)別的研究,逐漸成為了機(jī)器視覺領(lǐng)域中非常重要的研究課題。隨著科學(xué)技術(shù)的發(fā)展,人臉、手勢(shì)和指紋識(shí)別等視覺技術(shù)已經(jīng)廣泛應(yīng)用于我們生活的方方面面中,這些技術(shù)為人體動(dòng)作識(shí)別帶來了巨大的動(dòng)力。近年來,一些較快的動(dòng)作特征提取方法被提出來并由一些計(jì)算機(jī)視覺領(lǐng)域的學(xué)者不斷地優(yōu)化改進(jìn),比如方向梯度直方圖(HOG)[9],局部二值模式(LBP)[10],Haar-like特征[3],卷積神經(jīng)網(wǎng)絡(luò)(CNN)[1]等等。
現(xiàn)為解決單一特征下進(jìn)行人體動(dòng)作識(shí)別的準(zhǔn)確率較低且容易受到外部環(huán)境影響的問題,提出一種基于HOG和Haar-like特征融合的人體動(dòng)作識(shí)別方法。為了驗(yàn)證本文設(shè)計(jì)方法的有效性,進(jìn)行了對(duì)比測(cè)試。將本文中所涉及的方法與一些傳統(tǒng)特征提取方法進(jìn)行對(duì)比,結(jié)果表明,本文中的方法具有更高的識(shí)別準(zhǔn)確率。
多特征融合的方式既能保留各種特征有效的識(shí)別信息,又可以在一定的程度上去除各種特征冗余無效的部分。之前融合特征的方法大多是直接將兩組特征向量通過串行方式合并成新的特征向量。但是這種方式存在很多弊端,直接合并后的特征向量為數(shù)是未合并之前多種特征向量的維數(shù)之和,由此會(huì)導(dǎo)致特征向量的維數(shù)變多。為了解決這種問題,本文利用離散 K-L 變換的方式,對(duì)開始所提取出來的兩種特征進(jìn)行信息的壓縮,從而實(shí)現(xiàn)特征向量的有效融合,同時(shí)減少特征向量維數(shù)。
方向梯度直方圖特征用于在機(jī)器視覺和圖像識(shí)別及處理中用來進(jìn)行物體檢測(cè)。在視頻中截取出圖像后,它計(jì)算并統(tǒng)計(jì)圖像各個(gè)區(qū)域的方向梯度直方圖以此來形成特征。為了減少光照因素的影響,首先需要將圖像進(jìn)行灰度化?;叶然蟮膱D像,將其進(jìn)行Gamma校正,并做顏色空間歸一化處理。
I(x,y)=I(x,y)gamma
(1)
其中,gamma值取0.5。進(jìn)行公式中的計(jì)算之后,圖像中像素點(diǎn)(x,y)的梯度為:
Gx(x,y)=H(x+1,y)-H(x-1,y)
(2)
Gy(x,y)=H(x,y+1)-H(x,y-1)
(3)
其中,在圖像的像素點(diǎn)(x,y)處,Gx(x,y)為水平方向梯度函數(shù),Gy(x,y)為垂直方向梯度函數(shù),H(x,y)為像素值函數(shù)。然后,將上述圖像劃分為各個(gè)部分區(qū)域,每一個(gè)區(qū)域的尺寸現(xiàn)定為8×8像素。將各個(gè)區(qū)域中的梯度方向按照360度劃分成9個(gè)方向,接著計(jì)算出每一個(gè)方向的九維特征向量值以此得到每個(gè)方向的梯度直方圖。接著我們將各個(gè)區(qū)域組合稱為最終的區(qū)間。最后,我們將每個(gè)區(qū)間中劃分的各個(gè)區(qū)域中的特征向量采用串聯(lián)的方式連接起來就得到了該區(qū)間的HOG特征。
首先,提取圖像中的所有聚合通道的特征。聚合通道特征是指聚合圖像中10個(gè)通道的特征,其中這10個(gè)通道為:LUV顏色的3個(gè)顏色通道、1個(gè)梯度幅度的通道以及6 個(gè)方向梯度直方圖的通道。在計(jì)算得出這10個(gè)通道特征之后,我們分別提取出這10個(gè)特征的Haar-Like 特征[10]。Haar-Like 特征的提取方式如下所示:
1.將各個(gè)通道中的特征圖分割為若干60×60像素的局部圖像區(qū)域塊。
2.使用滑窗方法在Haar-Like 特征的模板基礎(chǔ)上提取上述步驟中每個(gè)區(qū)域塊中各個(gè)位置的Haar-Like 特征。Haar-Like特征圖上位置(x,y)權(quán)重矩陣生成方法如下
W(x,y,w)=Fmodel(m)*C(x,y,m)
(4)
上式中m為Haar-Like特征的尺寸,F(xiàn)model(m) 是尺寸為 m 的特征模板,特征模板Fmodel(m)中,權(quán)重是1的計(jì)算單元為增性算子,權(quán)重是-1的計(jì)算單元為減性算子,權(quán)重是0的計(jì)算單元為中性算子。C(x,y,m) 為聚合通道特征.
圖上起始位置為(x,y) 尺寸為 m 的矩形區(qū)域。?表示的 是兩個(gè)相同尺寸矩陣逐個(gè)元素相乘運(yùn)算,W(x,y,m) 為Fmodel(m) 與C(x,y,m)兩個(gè)矩陣內(nèi)元素逐個(gè)相乘的結(jié)果,即 為特征圖坐標(biāo)為(x,y) 處的權(quán)重矩陣。
3.根據(jù)每一個(gè)位置的權(quán)重矩陣,計(jì)算出整個(gè) Haar-Like 特征圖,特征圖上每一個(gè)位置的特征值的大小與該位置上權(quán)重矩陣的關(guān)系
(5)
式中F(x,y,m) 為 Haar-Like 特征圖上位置為(x,y) 上,尺寸大小為 m 的某一個(gè) Haar-Like 特征值。sum(Wadd(x,y,m))為該 Haar-Like 特征內(nèi)增性算子在W(x,y,m)對(duì)應(yīng)位置 權(quán)重的和。sum(Wdec(x,y,m)) 為該 Haar-Like 特征內(nèi)減性算子在W(x,y,m)對(duì)應(yīng)位置權(quán)重的和。中性算子對(duì)應(yīng)的一階特征值則不做處理。Numadd和Numdec則分別為該Haar-Like 特征內(nèi)增性算子以及減性算子的個(gè)數(shù)。
支持向量機(jī)(SVM)[11-13]是解決小樣本模式識(shí)別問題的有效方法,其基本原理是通過用核函數(shù)將輸入樣本空間非線性變換到一個(gè)高維空間,然后在這個(gè)高維空間求廣義最優(yōu)分類超平面SVM 是針對(duì)兩類問題提出來的,為實(shí)現(xiàn)對(duì)多個(gè)類別的識(shí)別,需要對(duì) SVM 進(jìn)行相應(yīng)的改進(jìn)。目前,已經(jīng)提出多種方法將SVM 推廣到多類分類問題,如用多個(gè)兩類分類器來實(shí)現(xiàn)多類分類,或者用層次型兩類分類器實(shí)現(xiàn)多類分類等。在行為識(shí)別中 SVM 常用核函數(shù)用線性核、直方圖交叉核和χ2核,本文中綜合考慮 SVM 分類的精度和計(jì)算復(fù)雜這兩個(gè)因素,并且通過實(shí)驗(yàn)比較,采用直方圖交叉核作為分類器的 核函數(shù),具體表達(dá)式如下:
(6)
其中:Xi、Xj為兩個(gè)任意的特征向量,an、bn分別為Xi、Xj第 n維的特征值;m 為特征向量的維度。與其他兩個(gè)核函數(shù)相比,直方圖交叉核具有計(jì)算復(fù)雜度低、分類效果好的特點(diǎn)。將最終量化得到的特征向量輸入基于直方圖交叉核的SVM 進(jìn)行訓(xùn)練,得到分類器,采用同樣的方法獲取測(cè)試集特征后用該訓(xùn)練好的分類器進(jìn)行預(yù)測(cè),最終實(shí)現(xiàn)行為識(shí)別。
(1)在人體動(dòng)作數(shù)據(jù)庫集KTH和YouTube中分別選取一段視頻,然后提取出視頻幀圖像,并對(duì)圖像進(jìn)行灰度化及規(guī)范化處理。
(2)將處理過后的圖像分別進(jìn)行HOG特征及Haar-like特征的提取,得到HOG特征及Haar-like特征集,并使用離散K-L變換的方式進(jìn)行特征融合,得到最終的特征集。
(3)使用SVM分類器對(duì)上面得到的特征集進(jìn)行人體動(dòng)作分類識(shí)別。
本文利用 YouTube數(shù)據(jù)庫和KTH數(shù)據(jù)庫進(jìn)行實(shí)驗(yàn)評(píng)估,實(shí)驗(yàn)在Matlab 2019b的環(huán)境中進(jìn)行。Weizmann數(shù)據(jù)庫一共包括90段視頻,這些視頻分別由 9個(gè)人執(zhí)行10個(gè)不同的動(dòng)作,視頻的背景,視角以及攝像頭都是靜止的。實(shí)驗(yàn)采取留一法交叉驗(yàn)證,即依次把每個(gè)人的10種動(dòng)作作為測(cè)試樣本,剩下的所有動(dòng)作作為訓(xùn)練樣本,整個(gè)實(shí)驗(yàn)過程重復(fù)10次。手、拳擊、慢跑、快跑和走。每種動(dòng)作由25個(gè)人在4 個(gè)不同場(chǎng)景中完成,合計(jì)將近600段視頻,是一個(gè)數(shù)據(jù)量相對(duì)較大的數(shù)據(jù)庫,數(shù)據(jù)庫的視頻樣本中包含了尺度變化、光照變化、著裝變化等。本實(shí)驗(yàn)從數(shù)據(jù)庫中隨機(jī)抽取15個(gè)人的視頻作為測(cè)試樣本,剩余的10 個(gè)人作為訓(xùn)練樣本。分別隨機(jī)在上述兩種數(shù)據(jù)庫的每種人體動(dòng)作中選取了50張圖像數(shù)據(jù),隨機(jī)選初40張作為本次實(shí)驗(yàn)的訓(xùn)練集,剩下的 10 張圖像則作為測(cè)試集。
表1 各種人體動(dòng)作識(shí)別方法準(zhǔn)確率對(duì)比
提出了一種基于HOG和Haar-like特征融合的人體動(dòng)作識(shí)別方法。HOG特征是用來計(jì)算局部圖像梯度的方向信息的統(tǒng)計(jì)值,Haar特征是一種反映圖像的灰度變化的,像素分模塊求差值的一種特征。單獨(dú)特征來看,Haar特征識(shí)別準(zhǔn)確度較高。實(shí)驗(yàn)結(jié)果證明,兩種特征融合的動(dòng)作識(shí)別效果比單一特征識(shí)別效果都要好。