吳 峰,王 穎
(北京化工大學(xué) 信息科學(xué)與技術(shù)學(xué)院,北京 100029)
(*通信作者電子郵箱wangying@mail.buct.edu.cn)
基于改進(jìn)信息增益的人體動(dòng)作識(shí)別視覺(jué)詞典建立
吳 峰,王 穎*
(北京化工大學(xué) 信息科學(xué)與技術(shù)學(xué)院,北京 100029)
(*通信作者電子郵箱wangying@mail.buct.edu.cn)
針對(duì)詞袋(BoW)模型方法基于信息增益的視覺(jué)詞典建立方法未考慮詞頻對(duì)動(dòng)作識(shí)別的影響,為提高動(dòng)作識(shí)別準(zhǔn)確率,提出了基于改進(jìn)信息增益建立視覺(jué)詞典的方法。首先,基于3D Harris提取人體動(dòng)作視頻時(shí)空興趣點(diǎn)并利用K均值聚類(lèi)建立初始視覺(jué)詞典;然后引入類(lèi)內(nèi)詞頻集中度和類(lèi)間詞頻分散度改進(jìn)信息增益,計(jì)算初始詞典中詞匯的改進(jìn)信息增益,選擇改進(jìn)信息增益大的視覺(jué)詞匯建立新的視覺(jué)詞典;最后基于支持向量機(jī)(SVM)采用改進(jìn)信息增益建立的視覺(jué)詞典進(jìn)行人體動(dòng)作識(shí)別。采用KTH和Weizmann人體動(dòng)作數(shù)據(jù)庫(kù)進(jìn)行實(shí)驗(yàn)驗(yàn)證。相比傳統(tǒng)信息增益,兩個(gè)數(shù)據(jù)庫(kù)利用改進(jìn)信息增益建立的視覺(jué)詞典動(dòng)作識(shí)別準(zhǔn)確率分別提高了1.67%和3.45%。實(shí)驗(yàn)結(jié)果表明,提出的基于改進(jìn)信息增益的視覺(jué)詞典建立方法能夠選擇動(dòng)作識(shí)別能力強(qiáng)的視覺(jué)詞匯,提高動(dòng)作識(shí)別準(zhǔn)確率。
人體動(dòng)作識(shí)別;詞袋模型;信息增益;詞頻
人體動(dòng)作識(shí)別作為計(jì)算機(jī)視覺(jué)的一個(gè)重要研究方向,廣泛應(yīng)用于智能監(jiān)控、人機(jī)交互、虛擬現(xiàn)實(shí)等領(lǐng)域[1]。詞袋(Bag-of-Words, BoW)模型與局部特征相結(jié)合的人體動(dòng)作識(shí)別方法[2-3]將人體動(dòng)作局部特征表征為文本中的詞匯,不同比例詞匯的組合對(duì)應(yīng)不同的動(dòng)作?;谠~袋模型的動(dòng)作識(shí)別過(guò)程如圖1所示:首先提取人體動(dòng)作局部特征,將局部特征聚類(lèi)映射為不同的視覺(jué)詞匯;所有視覺(jué)詞匯構(gòu)成視覺(jué)詞典;將視覺(jué)詞匯在視頻圖像中出現(xiàn)的概率分布作為描述人體動(dòng)作的特征向量輸入分類(lèi)器進(jìn)行動(dòng)作識(shí)別。該方法將大量局部特征映射為視覺(jué)詞匯,降低了用于動(dòng)作識(shí)別的特征維數(shù),具有良好的抗噪性,近年來(lái)受到廣泛關(guān)注。視覺(jué)詞典將描述人體動(dòng)作的局部特征表示成低維向量,其大小及識(shí)別能力會(huì)影響動(dòng)作識(shí)別的準(zhǔn)確率。視覺(jué)詞典過(guò)小,表征不同動(dòng)作信息的特征被聚類(lèi)成同一視覺(jué)詞匯導(dǎo)致視覺(jué)詞典的識(shí)別力差;視覺(jué)詞典過(guò)大,視頻圖像中的噪聲易被誤聚類(lèi)為表征動(dòng)作的視覺(jué)詞匯導(dǎo)致視覺(jué)詞典對(duì)噪聲敏感。Lazebnik等[4]采用傳統(tǒng)聚類(lèi)方法通過(guò)統(tǒng)計(jì)不同聚類(lèi)數(shù)目建立的視覺(jué)典的動(dòng)作識(shí)別結(jié)果確定視覺(jué)詞典大小。該方法需要大量的實(shí)驗(yàn),且傳統(tǒng)聚類(lèi)方法僅基于特征向量的表觀相似性建立視覺(jué)詞典,導(dǎo)致視覺(jué)詞典中一些詞匯動(dòng)作識(shí)別能力較弱。為提高視覺(jué)詞典中視覺(jué)詞匯的動(dòng)作識(shí)別能力,Liu等[5]提出了基于最大互信息的聚類(lèi)方法,通過(guò)融合傳統(tǒng)聚類(lèi)中心得到互信息最大的視覺(jué)詞匯,但存在融合準(zhǔn)則確定困難及計(jì)算復(fù)雜度高等問(wèn)題。
與基于聚類(lèi)法建立視覺(jué)詞典不同,一些學(xué)者應(yīng)用文本分類(lèi)中信息熵、互信息、期望交叉熵、信息增益等特征選擇方法[6-8]評(píng)價(jià)視覺(jué)詞匯的動(dòng)作識(shí)別能力,從初始視覺(jué)詞典中選擇動(dòng)作識(shí)別能力強(qiáng)的視覺(jué)詞匯建立視覺(jué)詞典以提高動(dòng)作識(shí)別準(zhǔn)確率。Kim等[9]基于信息熵從初始視覺(jué)詞典中選擇對(duì)動(dòng)作識(shí)別最有效的視覺(jué)詞匯建立視覺(jué)詞典。Yang等[10]基于信息增益建立視覺(jué)詞典,提高了動(dòng)作識(shí)別準(zhǔn)確率。但傳統(tǒng)信息增益僅考慮了視覺(jué)詞匯出現(xiàn)與否對(duì)動(dòng)作識(shí)別的作用,忽略了視覺(jué)詞匯出現(xiàn)頻率對(duì)動(dòng)作識(shí)別的影響,不能選擇最能表征人體動(dòng)作的視覺(jué)詞匯建立視覺(jué)詞典。
圖1 局部特征與詞袋模型相結(jié)合的動(dòng)作識(shí)別方法
Fig. 1 Actions recognition method based on local features and BoW model
為克服傳統(tǒng)信息增益未考慮視覺(jué)詞匯出現(xiàn)頻率的不足,本文提出一種基于改進(jìn)信息增益的視覺(jué)詞典建立方法:引入描述視覺(jué)詞匯出現(xiàn)頻率的類(lèi)內(nèi)詞頻集中度、類(lèi)間詞頻分散度兩個(gè)參數(shù)對(duì)傳統(tǒng)信息增益進(jìn)行改進(jìn),以提高視覺(jué)詞典中視覺(jué)詞匯對(duì)動(dòng)作的識(shí)別能力。
時(shí)空興趣點(diǎn)作為描述視頻圖像中表征時(shí)間和空間發(fā)生明顯變化的局部特征點(diǎn),常被用于人體動(dòng)作識(shí)別?;?D Harris[11]的時(shí)空興趣點(diǎn)提取方法是Harris角點(diǎn)檢測(cè)算法在時(shí)空域的擴(kuò)展,具有抗噪性好、不易受到視角變化影響等優(yōu)點(diǎn)。3D Harris時(shí)空興趣點(diǎn)提取過(guò)程如下:
對(duì)于視頻序列f,將其與高斯核函數(shù)作卷積得到圖像序列的尺度空間L:
(1)
其中高斯核函數(shù)
(2)
其中:x、y為圖像的空間二維坐標(biāo),t為幀序,σl和τl為相互獨(dú)立的圖像空間和時(shí)間尺度。對(duì)尺度空間L分別在x、y、t方向求一階導(dǎo)數(shù)Lx、Ly和Lt,利用一階導(dǎo)數(shù)建立時(shí)空二階矩陣μ:
(3)
H=λ1λ2λ3-k(λ1+λ2+λ3)
(4)
式中:λ1、λ2和λ3為μ的特征值; 時(shí)空興趣點(diǎn)為H取得局部極大值的點(diǎn);k通常取值為0.005。
基于詞袋模型進(jìn)行人體動(dòng)作識(shí)別需將提取的時(shí)空興趣點(diǎn)聚類(lèi)建立初始視覺(jué)詞典?;谛畔⒃鲆孢M(jìn)行特征選擇能夠選擇初始視覺(jué)詞典中最能表征人體動(dòng)作的視覺(jué)詞匯,但傳統(tǒng)信息增益未考慮詞頻對(duì)動(dòng)作識(shí)別的影響,本章將引入類(lèi)內(nèi)詞頻集中度和類(lèi)間詞頻分散度改進(jìn)信息增益,并利用改進(jìn)信息增益建立視覺(jué)詞典以進(jìn)一步提高動(dòng)作識(shí)別準(zhǔn)確率。
2.1 傳統(tǒng)視覺(jué)詞匯信息增益
信息增益表征視覺(jué)詞匯對(duì)動(dòng)作識(shí)別所提供的信息量[12]。視覺(jué)詞匯的信息增益越大,對(duì)動(dòng)作識(shí)別提供的信息量越多。設(shè)Ci為某類(lèi)動(dòng)作,m為動(dòng)作類(lèi)別數(shù),則視覺(jué)詞匯t的信息增益IG(t)為:
(5)
由式(5)知傳統(tǒng)信息增益僅考慮了視覺(jué)詞匯在訓(xùn)練樣本中出現(xiàn)與否對(duì)動(dòng)作識(shí)別的影響,當(dāng)視覺(jué)詞匯在訓(xùn)練樣本中出現(xiàn)與不出現(xiàn)的視頻數(shù)相同時(shí),無(wú)論其出現(xiàn)頻率高低,信息增益均相同。實(shí)際上,當(dāng)視覺(jué)詞匯在視頻中出現(xiàn)的頻率不同時(shí),盡管信息增益相同,但其動(dòng)作識(shí)別能力不同,導(dǎo)致傳統(tǒng)信息增益無(wú)法對(duì)不同視覺(jué)詞匯的動(dòng)作識(shí)別能力作出準(zhǔn)確評(píng)價(jià)。
用詞頻表征視覺(jué)詞匯在動(dòng)作視頻中出現(xiàn)的頻率。設(shè)視覺(jué)詞匯t在某一個(gè)動(dòng)作視頻中出現(xiàn)a次,表征該動(dòng)作視頻的視覺(jué)詞匯總數(shù)為b,則視覺(jué)詞匯t在該動(dòng)作視頻中出現(xiàn)的詞頻TF(t)為:
TF(t)=a/b
(6)
表1給出了視覺(jué)詞匯t1、t2和t3在跑步、揮手兩類(lèi)人體動(dòng)作共計(jì)10個(gè)視頻中(每類(lèi)動(dòng)作各有5個(gè)視頻)的詞頻和傳統(tǒng)信息增益。由于t1、t2和t3在訓(xùn)練視頻每類(lèi)動(dòng)作中出現(xiàn)與不出現(xiàn)的視頻數(shù)相同,它們的信息增益值亦相同,均為0.017。
表1 視覺(jué)詞匯詞頻分布表Tab. 1 Term frequency distribution of visual words
但對(duì)比視覺(jué)詞匯t1、t2,t1在跑步視頻中的平均詞頻大于揮手視頻中的平均詞頻,而t2在跑步、揮手兩類(lèi)視頻中的平均詞頻幾乎相同。因此t1相比t2能更好地識(shí)別跑步和揮手。同樣,對(duì)比t1、t3,雖然它們?cè)谂懿?、揮手視頻中的平均詞頻相同,但t1在同一類(lèi)的不同訓(xùn)練視頻中詞頻大小更接近,而t3在跑步類(lèi)的第二個(gè)訓(xùn)練視頻中詞頻突然增大,表明該視覺(jué)詞匯可能表征的是此視頻中出現(xiàn)的噪聲,因此t1相比t3能更好地識(shí)別跑步和揮手。
2.2 改進(jìn)的視覺(jué)詞匯信息增益
引入類(lèi)內(nèi)詞頻集中度、類(lèi)間詞頻分散度這兩個(gè)描述詞頻的參數(shù)改進(jìn)傳統(tǒng)信息增益,以選擇動(dòng)作識(shí)別力更強(qiáng)的視覺(jué)詞匯。
2.2.1 類(lèi)內(nèi)詞頻集中度
類(lèi)內(nèi)詞頻集中度表征視覺(jué)詞匯在相同動(dòng)作類(lèi)所有訓(xùn)練視頻中的詞頻與平均詞頻的差異。視覺(jué)詞匯t對(duì)應(yīng)的類(lèi)內(nèi)詞頻集中度α(t)為:
(7)
2.2.2 類(lèi)間詞頻分散度
類(lèi)間詞頻分散度表征視覺(jué)詞匯在不同類(lèi)人體動(dòng)作訓(xùn)練視頻中的詞頻分布差異。視覺(jué)詞匯t的類(lèi)間詞頻分散度β(t)為:
(8)
2.2.3 改進(jìn)信息增益
為選取動(dòng)作識(shí)別能力最大的視覺(jué)詞匯,引入類(lèi)內(nèi)詞頻集中度、類(lèi)間詞頻分散度改進(jìn)信息增益,改進(jìn)信息增益為:
IG′(t)=IG(t)×(β(t)/α(t))
(9)
由式(9)知,視覺(jué)詞匯類(lèi)內(nèi)詞頻集中度越小,類(lèi)間詞頻分散度越大,其改進(jìn)信息增益值越大,動(dòng)作識(shí)別能力越強(qiáng)。表1中視覺(jué)詞匯t1的改進(jìn)信息增益大于t3、t2,表明其動(dòng)作識(shí)別能力更強(qiáng)。因此將改進(jìn)信息增益作為評(píng)價(jià)指標(biāo),能夠選擇具有更強(qiáng)動(dòng)作識(shí)別能力的視覺(jué)詞匯建立視覺(jué)詞典。
為驗(yàn)證本文提出的視覺(jué)詞典建立方法對(duì)于人體動(dòng)作識(shí)別的有效性,選取KTH和Weizmann單人動(dòng)作數(shù)據(jù)庫(kù)利用CPU 2.0 GHz、4 GB內(nèi)存計(jì)算機(jī)基于Matlab 2014b平臺(tái)進(jìn)行實(shí)驗(yàn)驗(yàn)證。KTH數(shù)據(jù)庫(kù)包含拳擊、鼓掌、跑步、行走、揮手、慢跑6個(gè)常見(jiàn)動(dòng)作,每種動(dòng)作包含25個(gè)人在4個(gè)不同場(chǎng)景中的100個(gè)視頻圖像序列,視頻幀速為25幀/s,每個(gè)動(dòng)作視頻的幀數(shù)為300~1 000不等。Weizmann數(shù)據(jù)庫(kù)包括90段視頻,分別為9個(gè)人的向前跳、向上跳、跑步、推舉、彎腰、雙手揮、單腳跳、橫向動(dòng)、單手揮、走路共10個(gè)動(dòng)作。圖2給出KTH和Weizmann數(shù)據(jù)庫(kù)部分動(dòng)作視頻圖像示例。
基于改進(jìn)信息增益進(jìn)行動(dòng)作識(shí)別的總體流程如下:首先,提取所有訓(xùn)練視頻人體動(dòng)作視頻時(shí)空興趣點(diǎn),采用HOG3D描述器[13]描述時(shí)空興趣點(diǎn);然后對(duì)時(shí)空興趣點(diǎn)聚類(lèi)建立初始視覺(jué)詞典;計(jì)算視覺(jué)詞典中所有視覺(jué)詞匯的改進(jìn)信息增益值并排序,選擇滿(mǎn)足條件的視覺(jué)詞匯建立新的視覺(jué)詞典;提取測(cè)試視頻時(shí)空興趣點(diǎn),基于訓(xùn)練視頻建立的視覺(jué)詞典,得到測(cè)試人體動(dòng)作視頻的視覺(jué)詞匯分布直方圖,基于支持向量機(jī)(Support Vector Machine, SVM)方法進(jìn)行動(dòng)作識(shí)別。
兩個(gè)數(shù)據(jù)庫(kù)的人體動(dòng)作視頻的3D Harris時(shí)空興趣點(diǎn)提取結(jié)果如圖3所示。
圖2 數(shù)據(jù)庫(kù)不同動(dòng)作示例Fig. 2 Different action samples of databases
圖3 時(shí)空興趣點(diǎn)提取結(jié)果Fig. 3 Results of spatio-temporal interest points extraction
KTH數(shù)據(jù)庫(kù)每個(gè)動(dòng)作選取80個(gè)動(dòng)作視頻為訓(xùn)練樣本,其余20個(gè)視頻為測(cè)試樣本進(jìn)行動(dòng)作識(shí)別;Weizmann數(shù)據(jù)庫(kù)則采用留一交叉驗(yàn)證確定訓(xùn)練視頻樣本和測(cè)試視頻樣本。對(duì)提取的訓(xùn)練視頻中的時(shí)空興趣點(diǎn)采用K均值聚類(lèi)方法建立初始詞典,不同初始視覺(jué)詞典大小時(shí)KTH和Weizmann數(shù)據(jù)庫(kù)的動(dòng)作識(shí)別結(jié)果如表2所示。
表2 不同大小初始視覺(jué)詞典動(dòng)作識(shí)別準(zhǔn)確率Tab. 2 Accuracy of human actions recognition with different size of initial visual dictionary
由表2知,對(duì)于KTH和Weizmann數(shù)據(jù)庫(kù),當(dāng)初始視覺(jué)詞典大小為800和200時(shí),人體動(dòng)作識(shí)別準(zhǔn)確率最高,因此選取初始詞典大小分別為800和200。
計(jì)算并選取初始視覺(jué)詞典中改進(jìn)信息增益值大的視覺(jué)詞匯建立新的視覺(jué)詞典。圖4給出了不同視覺(jué)詞典大小時(shí),基于改進(jìn)信息增益、傳統(tǒng)信息增益、期望交叉熵及互信息視覺(jué)詞匯選擇方法建立的視覺(jué)詞典的動(dòng)作識(shí)別結(jié)果。
由圖4可知,采用改進(jìn)信息增益建立視覺(jué)詞典相比采用傳統(tǒng)信息增益及其他特征選擇方法建立的視覺(jué)詞典進(jìn)行動(dòng)作識(shí)別,人體動(dòng)作識(shí)別準(zhǔn)確率得到提高,對(duì)于兩個(gè)數(shù)據(jù)庫(kù),當(dāng)視覺(jué)詞典大小為650和160時(shí)最高動(dòng)作識(shí)別準(zhǔn)確率為89.17%和98.62%。
圖4 不同特征選擇方法及詞典大小動(dòng)作識(shí)別準(zhǔn)確率比較Fig. 4 Comparision of human actions recognition accuracy with different method of feature selection and dictionary size
表3給出兩個(gè)數(shù)據(jù)庫(kù)采用不同動(dòng)作識(shí)別方法得到的動(dòng)作識(shí)別準(zhǔn)確結(jié)果。
以KTH數(shù)據(jù)庫(kù)為例,表4給出基于改進(jìn)信息增益建立的視覺(jué)詞典對(duì)不同類(lèi)動(dòng)作的最終識(shí)別結(jié)果。其中縱向?yàn)檎鎸?shí)動(dòng)作,橫向?yàn)樽R(shí)別動(dòng)作,對(duì)角線為各類(lèi)動(dòng)作的識(shí)別準(zhǔn)確率,其他位置值為動(dòng)作識(shí)別混淆率。
表3 不同動(dòng)作識(shí)別方法的動(dòng)作識(shí)別結(jié)果 %Tab. 3 Action recognition results with different methods %
表4 KTH數(shù)據(jù)庫(kù)各類(lèi)動(dòng)作的識(shí)別準(zhǔn)確率 %Tab. 4 Accuracy of human actions recognition with different kinds of actions with KTH database %
本文提出了一種基于改進(jìn)信息增益建立視覺(jué)詞典的方法。針對(duì)傳統(tǒng)信息增益未考慮詞頻的不足,引入詞頻描述參數(shù)詞頻類(lèi)內(nèi)集中度及詞頻類(lèi)間分散度改進(jìn)信息增益,以提高視覺(jué)詞典中視覺(jué)詞匯對(duì)動(dòng)作的表征能力。實(shí)驗(yàn)結(jié)果表明,相比傳統(tǒng)信息增益及其他特征選擇方法,本文提出的基于改進(jìn)信息增益的視覺(jué)詞典建立方法,能夠選擇更具有動(dòng)作識(shí)別力的詞匯建立視覺(jué)詞典,提高了人體動(dòng)作識(shí)別準(zhǔn)確率。
References)
[1] 石祥濱,劉拴朋,張德園.基于關(guān)鍵幀的人體動(dòng)作識(shí)別方法[J]. 系統(tǒng)仿真學(xué)報(bào),2015,27(10):2401-2408. (SHI X B, LIU S P, ZHANG D Y. Human action recognition method based on key frames [J]. Journal of System Simulation, 2015, 27(10): 2401-2408.)
[2] KHAN R, BARAT C, MUSELET D, et al. Spatial orientations of visual word pairs to improve bag-of-visual-words model [C]// BMVC 2012: Procedings of the 2012 British Machine Vision Conference. Durham, UK: BMVA Press, 2012: 1-11.
[3] FARAKI M, PALHANG M, SANDERSON C. Log-Euclidean bag of words for human action recognition [J]. IET Computer Vision, 2016, 9(3): 331-339.
[4] LAZEBNIK S, SCHMID C, PONCE J. Beyond bags of features: spatial pyramid matching for recognizing natural scene categories [C]// CVPR ’06: Proceedings of the 2013 IEEE Conference on Computer Vision and Pattern Recognition. Washington, DC: IEEE Computer Society, 2006, 2: 2169-2178.
[5] LIU J, SHAH M. Learning human actions via information maximization [C]// CVPR ’08: Proceedings of the 2008 IEEE Conference on Computer Vision and Pattern Recognition. Washington, DC: IEEE Computer Society. Washington, DC: IEEE Computer Society, 2008: 2971-2978.
[6] LI Z, LU W, SUN Z, et al. A parallel feature selection method study for text classification [J]. Neural Computing & Applications, 2016, 27: 1-12.
[7] 賈隆嘉,孫鐵利,楊鳳芹,等.基于類(lèi)空間密度的文本分類(lèi)特征加權(quán)算法[J]. 吉林大學(xué)學(xué)報(bào)(信息科學(xué)版),2017,35(1):92-97. (JIA L J, SUN T L, YANG F Q, et al. Class space density based weighting scheme for automated text categorization[J]. Journal of Jilin University (Information Science Edition), 2017, 35(1): 92-97.)
[8] UYSAL A K. An improved global feature selection scheme for text classification [J]. Expert Systems with Applications, 2016, 43(C):82-92.
[9] KIM S, KWEON I S, LEE C W. Visual categorization robust to large intra-class variations using entropy-guided codebook [C]// Proceedings of the 2007 IEEE International Conference on Robotics and Automation. Piscataway, NJ: IEEE, 2007: 3793-3798.
[10] YANG J, JIANG Y-G, HAUPTMANN A G, et al. Evaluating bag-of-visual-words representations in scene classification [C]// MIR ’07: Proceedings of the International Workshop on Workshop on Multimedia Information Retrieval. New York: ACM, 2007: 197-206.
[11] LAPTEV I. On space-time interest points [J]. International Journal of Computer Vision, 2005, 64(2/3): 107-123.
[12] 李學(xué)明,李海瑞,薛亮,等.基于信息增益與信息熵的TFIDF算法[J].計(jì)算機(jī)工程,2012,38(8):37-40. (LI X M, LI H R, XUE L, et al. TFIDF algorithm based on information gain and information entropy [J]. Computer Engineering, 2012, 38(8): 37-40.)
[14] LAPTEV I, MARSZALEK M, SCHMID C, et al. Learning realistic human actions from movies [C]// CVPR ’08: Proceedings of the 2008 IEEE Conference on Computer Vision and Pattern Recognition. Washington, DC: IEEE Computer Society, 2008: 1-8.
[15] LERTNIPHONPHAN K, ARAMVITH S, CHALIDABHONGSE T H. Human action recognition using direction histograms of optical flow [C]// ISCIT 2011: Proceedings of the 2011 11th International Symposium on Communications and Information Technologies. Piscataway, NJ: IEEE, 2011: 574-579.
This work is partially supported by the National Natural Science Foundation of China (61340056).
WUFeng, born in 1992, M. S. candidate. His research interests include digital image processing, human actions recognition.
WANGYing, born in 1969, Ph. D., assoicate professor. Her research interests include photoelectric inspection, machine vision inspection, artificial intelligence detection.
Visualdictionaryconstructionforhumanactionsrecognitionbasedonimprovedinformationgain
WU Feng, WANG Ying*
(CollegeofInformationScienceandTechnology,BeijingUniversityofChemicalTechnology,Beijing100029)
Since term frequency is not considered by traditional information gain in Bag-of-Words (BoW) model, a new visual dictionary constructing method based on improved information gain was proposed to improve the human actions recognition accuracy. Firstly, spatio-temporal interest points of human action video were extracted by using 3D Harris, then clustered byK-means to construct initial visual dictionary. Secondly, concentration of term frequency within cluster and dispersion of term frequency between clusters were introduced to improve the information gain, which was used to compute the initial dictionary; then the visual words with larger information gain were selected to build a new visual dictionary. Finally, the human actions were recognized based on Support Vector Machine (SVM) using the improved information gain. The proposed method was verified by human actions recognition of KTH and Weizmann databases. Compared with the traditional information gain, the actions recognition accuracy was increased by 1.67% and 3.45% with the dictionary constructed by improved information gain. Experimental results show that the visual dictionary of human actions based on improved information gain increases the accuracy of human actions recognition by selecting more discriminate visual words.
human actions recognition; Bag-of-Words (BoW) model; information gain; term frequency
TP391.4; TN911.73
A
2017- 02- 24;
2017- 04- 12。
國(guó)家自然科學(xué)基金資助項(xiàng)目(61340056)。
吳峰(1992—),男,黑龍江綏化人,碩士研究生,主要研究方向:數(shù)字圖像處理、人體動(dòng)作識(shí)別; 王穎(1969—),女,天津人,副教授,主要研究方向:光電檢測(cè)、機(jī)器視覺(jué)檢測(cè)、人工智能檢測(cè)。
1001- 9081(2017)08- 2240- 04
10.11772/j.issn.1001- 9081.2017.08.2240