徐勤軍 周同馳 周 琳 吳鎮(zhèn)揚(yáng)
(1. 東南大學(xué)信息科學(xué)與工程學(xué)院,江蘇南京 210096; 2. 閩南師范大學(xué)物理與信息工程學(xué)院, 福建漳州 363000;3. 中原工學(xué)院電子信息學(xué)院,河南鄭州 451191)
在過(guò)去十多年里,視頻中的行為識(shí)別研究由于應(yīng)用廣泛得到了越來(lái)越多的關(guān)注。文獻(xiàn)[1-2]對(duì)近年來(lái)的行為識(shí)別研究取得的進(jìn)展做了總結(jié),目前對(duì)于簡(jiǎn)單場(chǎng)景下的單人行為識(shí)別問(wèn)題已經(jīng)基本解決,但仍然存在著許多開(kāi)放課題,譬如復(fù)雜場(chǎng)景下的行為識(shí)別、交互行為的識(shí)別以及群體行為等亟待進(jìn)一步研究[3-5]。
自Sivic等[6]將文本分析中的單詞包模型(Bag of words)引入到目標(biāo)識(shí)別的研究中以后,在計(jì)算機(jī)視覺(jué)領(lǐng)域得到了廣泛的應(yīng)用。單詞包模型雖然簡(jiǎn)單,但在目標(biāo)識(shí)別、跟蹤以及行為識(shí)別和探測(cè)方面均取得了較好的性能。當(dāng)然,其缺陷是很明顯的,由于忽視了視覺(jué)單詞間的空間和時(shí)間關(guān)系,該模型的判別力相應(yīng)受到影響。另一方面,由于普遍采用矢量量化,造成了量化損失,這不可避免地影響到視覺(jué)單詞的判別性。
近來(lái),源自文本分析的主題模型被引入到計(jì)算機(jī)視覺(jué)的研究中,Li等[7]首先將概率隱含語(yǔ)義分析模型(pLSA: probabilistic latent semantic analysis)以及隱含狄利克雷指派模型(LDA: latent Dirichlet allocation)引入到靜態(tài)圖像的場(chǎng)景理解中,在此基礎(chǔ)上Niebles等[8]在視頻的行為識(shí)別中應(yīng)用pLSA模型取得了較好的性能。在此之后,有許多研究者致力于改進(jìn)主題模型,以提升分類(lèi)精度。Shang等[9]擴(kuò)展了LDA模型以建模人臉表情的動(dòng)態(tài)模型。文獻(xiàn)[10]采用動(dòng)態(tài)主題模型以挖掘視頻中的行為模式。上述文獻(xiàn)均在提取底層特征后,采用K均值聚類(lèi)形成碼本,然后采用矢量量化的方法對(duì)特征進(jìn)行編碼,將某一特征賦予與其距離最近的聚類(lèi)中心(一般是歐氏距離)。Chatfield等[11]分析比較了各類(lèi)特征編碼方法以及池化方法(pooling)在靜態(tài)圖像中目標(biāo)識(shí)別的性能,實(shí)驗(yàn)證明軟分配、稀疏編碼等明顯優(yōu)于矢量量化。
主題模型將視頻或者圖片的單詞包表示作為輸入,這使得特征的編碼與歸一化方法影響模型的表示能力。目前,還沒(méi)有文獻(xiàn)討論在主題模型下,各類(lèi)編碼與歸一化方法對(duì)于分類(lèi)性能的影響。
本文考察了歸一化方法和編碼方法對(duì)于概率隱含語(yǔ)義分析模型的分類(lèi)性能的影響,在KTH和UT-interaction數(shù)據(jù)庫(kù)上的實(shí)驗(yàn)結(jié)果表明,分類(lèi)性能一定程度上依賴于合適的編碼和歸一化方法組合。在前期工作的基礎(chǔ)上[12],我們還探討了采用主成份分析方法預(yù)處理原始特征對(duì)于最終分類(lèi)性能的作用。
如圖1所示,我們的評(píng)估方法流程包含以下過(guò)程:首先,從視頻中提取底層特征,采用諸如HOG/HOF等描述符來(lái)表示特征;然后,應(yīng)用k-means算法形成碼本;將所有特征編碼并歸一化,經(jīng)求和池化得到每個(gè)視頻的單詞包表示;通過(guò)EM算法學(xué)習(xí)主題分布模型;最后得到每個(gè)視頻的主題概率分布表示,應(yīng)用SVM進(jìn)行分類(lèi)識(shí)別。
圖1 評(píng)估流程圖Fig.1 The pipeline of our evaluation framework
特征的提取與表示是各類(lèi)識(shí)別任務(wù)的第一步,對(duì)于識(shí)別的性能提升具有關(guān)鍵性的作用。目前在視頻中的行為識(shí)別研究中用得最多的特征提取方法為時(shí)空特征點(diǎn)(STIPs: spatio-temporal interest points)[13]和軌跡特征[14],在多個(gè)數(shù)據(jù)庫(kù)上,這兩類(lèi)方法都取得了優(yōu)越的性能。本文中采用了這兩類(lèi)方法提取視頻的特征,以下給出了簡(jiǎn)短的介紹。
Laptev等[15]把Harris角點(diǎn)探測(cè)器擴(kuò)展到了3維視頻中,首先計(jì)算一個(gè)二階矩矩陣:
(1)
正如Wang等[14]指出的,視頻的2維空間域與時(shí)間域的特性是截然不同的,所以跟蹤時(shí)間域的特征點(diǎn)相比較于探測(cè)時(shí)空興趣點(diǎn)是一個(gè)更好的選擇。受圖像識(shí)別中密集采樣取得的成就所啟發(fā),他們采用了密集采樣的軌跡而不是KLT跟蹤器(Kanade-Lucas-Tomasi Feature Tracker)來(lái)捕捉運(yùn)動(dòng)信息。通過(guò)跟蹤密集采樣的特征點(diǎn),多尺度的密集軌跡被提取了出來(lái)。在光流場(chǎng)ω中,第t幀的采樣點(diǎn)Pt=(xt,yt) 通過(guò)中值濾波器被跟蹤到第t+1幀。
(2)
由于需要跟蹤密集采樣的大量的興趣點(diǎn),密集軌跡方法[14]在計(jì)算和內(nèi)存耗費(fèi)上代價(jià)較高,Peng等[16]提出了基于運(yùn)動(dòng)邊界的采樣策略修正了密集軌跡方法,通過(guò)計(jì)算相鄰兩幀的光流梯度得到運(yùn)動(dòng)邊界圖,去除不在運(yùn)動(dòng)前景中的點(diǎn),在不損害判別性的前提下,大大降低了軌跡的數(shù)量。實(shí)驗(yàn)中我們采用文獻(xiàn)[16]的方法跟蹤軌跡,然后提取5類(lèi)描述符:shape(30維),HOG(96維), HOF(108維), MBH(motion boundary histogram, 192維), HNF(204維)。
在單詞包模型中應(yīng)用最廣的特征編碼方法為矢量量化(Vector quantization),通過(guò)K均值聚類(lèi)等方法得到碼本后,采用最近鄰方法找到與待編碼特征距離最近的碼字作為該特征的編碼。
與矢量量化不同,軟分配編碼[17](Soft Assignment)根據(jù)每個(gè)特征與每一個(gè)聚類(lèi)中心的距離得到一個(gè)表示其歸屬某一聚類(lèi)的程度的因子μij:
(3)
很明顯,上述方法需要計(jì)算特征點(diǎn)與所有聚類(lèi)中心的距離,這無(wú)疑是很耗時(shí)的。為了減少計(jì)算量,文獻(xiàn)[18]提出了局域軟分配編碼方法(LSA: Localized Soft Assignment),只考慮特征點(diǎn)的k個(gè)最近鄰的單詞進(jìn)行編碼,而把特征點(diǎn)與其他單詞的距離設(shè)為無(wú)窮大,其中k經(jīng)驗(yàn)值為5,如果k為1,則退化為矢量量化方法了。
文獻(xiàn)[18]指出,池化方法對(duì)于性能有顯著影響,一般而言,最大池化配合稀疏編碼方法很有效。本文采用主題模型建模視覺(jué)單詞的共現(xiàn)模式,而最大池化后直方圖只能表明該碼字是否出現(xiàn)過(guò),沒(méi)有出現(xiàn)頻率等信息,因而本文不考慮最大池化方法。在實(shí)驗(yàn)中,采用求和池化,將視頻的所有特征的編碼直接相加,得到每個(gè)視頻的特征直方圖表示。
在視頻中行為識(shí)別的研究中,通常歸一化方法對(duì)于性能的影響一直被忽視。Peronnin等[19]采用指數(shù)歸一化和2歸一化結(jié)合Fisher核方法在圖像分類(lèi)中取得了較好的識(shí)別率,說(shuō)明選擇合適的歸一化方法可助益于性能的提升。在本文中,我們比較了5種歸一化方法,設(shè)特征F維數(shù)為K,第k維為fk,
(4)
(5)
指數(shù)歸一化:
fk=sign(fk)|fk|α
(6)
其中α經(jīng)驗(yàn)值為0.5。
圖2 pLSA模型。其中d表示視頻,是視頻中的視覺(jué)單詞,均為觀測(cè)變量。是主題,為隱變量。視頻數(shù)據(jù)集的大小為M,視頻d中的單詞數(shù)目為NdFig.2 pLSA model. Observed random variables are shaded and unobserved ones are unshaded. d represents video, is visual word in d, and is topic among words. The size of videos is M, and the number of words in d is Nd
(7)
(8)
在視頻中的行為識(shí)別中,數(shù)據(jù)庫(kù)中視頻樣本間的差異,包括尺度、光照、拍攝背景以及拍攝視角的不同等,大幅增加了準(zhǔn)確識(shí)別行為類(lèi)別的難度。實(shí)驗(yàn)中我們采用了兩個(gè)數(shù)據(jù)庫(kù):KTH數(shù)據(jù)庫(kù)和UT-interaction數(shù)據(jù)庫(kù)。其中,KTH數(shù)據(jù)庫(kù)是較早提出也是引用最高的數(shù)據(jù)庫(kù)之一,背景相對(duì)比較簡(jiǎn)單,所包含的視頻均為單人行為,在四個(gè)不同場(chǎng)景下25個(gè)人完成的6類(lèi)動(dòng)作共計(jì)599個(gè)視頻樣本,視頻拍攝時(shí)的相機(jī)固定,拍攝視角不變,但視頻樣本中包含了尺度變化、衣著變化和光照變化。UT-interaction 數(shù)據(jù)庫(kù),包含有6類(lèi)人人交互的動(dòng)作:shaking hands, pointing, hugging, pushing, kicking, punching,總共120段樣本,視頻拍攝時(shí)的視角變化較大,尤其是數(shù)據(jù)集2,包含了更多的相機(jī)運(yùn)動(dòng),部分視頻中還有無(wú)干系的行人,這給分類(lèi)識(shí)別帶來(lái)了很大的困難。由于樣本有限且類(lèi)內(nèi)差異大,UT-interaction數(shù)據(jù)庫(kù)中的行為分類(lèi)是個(gè)很困難的任務(wù)[20-21]。
實(shí)驗(yàn)中,采用了時(shí)空興趣點(diǎn)和軌跡特征。為公平起見(jiàn),碼本的大小均設(shè)為1000,采用線性SVM進(jìn)行分類(lèi)識(shí)別。實(shí)驗(yàn)硬件環(huán)境為Intel core(TM)i5,內(nèi)存4G,軟件平臺(tái)采用Matlab2013b。
實(shí)驗(yàn)采用留一組法進(jìn)行,在每一輪實(shí)驗(yàn)中,用24組視頻做訓(xùn)練,利用所得模型測(cè)試最后一組,然后平均25輪實(shí)驗(yàn)的分類(lèi)精度。如表1所示,矢量量化和局域軟分配得到的結(jié)果相差不多。指數(shù)歸一化、指數(shù)加2歸一化加強(qiáng)了矢量量化和局域軟分配的識(shí)別能力,而軟分配則更適合與2歸一化匹配。歸因于密集軌跡的判別力,當(dāng)采用矢量量化和局域軟分配編碼時(shí),軌跡比時(shí)空興趣點(diǎn)的分類(lèi)精度提高了大約6個(gè)百分點(diǎn)。與此相反,當(dāng)采用軟分配編碼時(shí),采用時(shí)空興趣點(diǎn)時(shí)得到的結(jié)果更好一些。對(duì)碼本中的每一個(gè)單詞,軟分配編碼根據(jù)特征與單詞的距離分配因子,這平滑了特征間的差異,從而降低了特征的判別性,尤其是當(dāng)采用MBH描述符時(shí)。我們采用時(shí)空興趣點(diǎn)特征得到的分類(lèi)精度為89.63%,比文獻(xiàn)[8]的結(jié)果提高了6個(gè)百分點(diǎn)??梢院侠淼丶僭O(shè),相似的行為具有相似的特征和主題分布。很明顯,用混合主題概率分布描述行為優(yōu)于把一個(gè)主題對(duì)應(yīng)于一類(lèi)行為的方法。主題模型的一個(gè)優(yōu)勢(shì)是可以把主題視為一個(gè)中層的語(yǔ)義特征,然后用主題來(lái)描述更復(fù)雜的行為。在不同的行為中,不可避免的存在相似的形體動(dòng)作,例如拳擊和拍手都有著類(lèi)似的上肢運(yùn)動(dòng)。因此不同的行為分享相同的主題,每個(gè)特定的行為擁有自己的主題分布,這增強(qiáng)了特征的判別性。
表1 在KTH數(shù)據(jù)庫(kù)中不同編碼和歸一化方法的分類(lèi)結(jié)果(%)
UT-interaction數(shù)據(jù)庫(kù)分為兩個(gè)數(shù)據(jù)集,其中數(shù)據(jù)集1是在停車(chē)場(chǎng)拍攝的,而數(shù)據(jù)集2是在有風(fēng)的草地場(chǎng)景下拍攝的,比較而言,數(shù)據(jù)集2包含有更多的相機(jī)抖動(dòng)。文獻(xiàn)[22]中綜合比較了各類(lèi)方法的性能,其中在數(shù)據(jù)集1上,最好的結(jié)果為88%,數(shù)據(jù)集2上為77%。兩個(gè)數(shù)據(jù)集的結(jié)果相差11%,由此可見(jiàn)由于背景噪聲、拍攝視角和相機(jī)抖動(dòng)的原因使得數(shù)據(jù)集2的識(shí)別要困難的多。實(shí)驗(yàn)中參照文獻(xiàn)[22]中的設(shè)置,采用10折疊的留一組法,平均10輪后的結(jié)果作為最終的識(shí)別結(jié)果。
3.2.1 采用時(shí)空興趣點(diǎn)的實(shí)驗(yàn)結(jié)果
實(shí)驗(yàn)結(jié)果如圖3所示,在三種編碼方法中局域軟分配編碼取得了最高的準(zhǔn)確度。在數(shù)據(jù)集1中,軟分配和矢量量化的結(jié)果類(lèi)似。而在數(shù)據(jù)集2上,軟分配的結(jié)果比矢量量化最大下降了10個(gè)百分點(diǎn),這可能歸因于兩個(gè)數(shù)據(jù)集不同的復(fù)雜度。在兩個(gè)數(shù)據(jù)集上的精確度最高分別為94.24%、83.67%,這比文獻(xiàn)[22]的結(jié)果分別提升了6.24、6.67個(gè)百分點(diǎn)。需要特別指出的是,在數(shù)據(jù)集1上的結(jié)果接近于當(dāng)前最好的結(jié)果。當(dāng)主題數(shù)目大約是行為類(lèi)別數(shù)的10倍時(shí),性能達(dá)到最高,這與數(shù)據(jù)庫(kù)的復(fù)雜度有關(guān)。當(dāng)行為的復(fù)雜度提升時(shí),需要有更多的主題來(lái)描述視頻中行為的細(xì)節(jié)。
圖3 UT-interaction數(shù)據(jù)庫(kù)中不同的編碼和歸一化方法性能比較,采用STIPs特征,描述符為HNF。其中(a)~(c),(d)~(f)是在數(shù)據(jù)集1和數(shù)據(jù)集2上分別采用VQ,LSA, SA得到的結(jié)果Fig.3 Comparison of different encoding and normalization with HNF of STIPs on UT-interaction sets.(a)~(c), (d)~(f) are results on UT-set1 and set2 respectively using VQ, LSA and SA
局域軟分配是軟分配的一個(gè)簡(jiǎn)化,從計(jì)算的角度而言,局域軟分配在矢量量化和軟分配之間取了一個(gè)折衷,只計(jì)算與最近鄰的幾個(gè)中心的距離,卻得到了更好的性能,這說(shuō)明將某個(gè)特征關(guān)聯(lián)到幾個(gè)近鄰中心比關(guān)聯(lián)所有的聚類(lèi)中心更能提升其判別性,這也是與預(yù)期相符的,與某特征距離較遠(yuǎn)的聚類(lèi)中心,與該特征的相關(guān)性可忽略不計(jì),而軟分配編碼卻為其分配了一個(gè)不為零的系數(shù),從而模糊了其特質(zhì)。
3.2.2 采用軌跡特征的實(shí)驗(yàn)結(jié)果
實(shí)驗(yàn)中我們首先比較了軌跡5類(lèi)不同的描述符的性能。其中矢量量化和1歸一化結(jié)合,局域軟分配和指數(shù)加2歸一化相結(jié)合。由表2可以看出,MBH和HNF要優(yōu)于shape,HOG,HOF,這與文獻(xiàn)[14, 16]所得結(jié)論是相符的。一般而言,多個(gè)特征級(jí)聯(lián)會(huì)優(yōu)于單個(gè)特征的性能,HNF將HOG,HOF鏈接起來(lái),聯(lián)合了兩類(lèi)描述符的優(yōu)勢(shì),性能有了較大提升。MBH最初是用于人體探測(cè)的,通過(guò)獨(dú)立的計(jì)算光流在水平和垂直方向上的梯度,可移除局域的相機(jī)運(yùn)動(dòng)而保留了光流場(chǎng)的局部變化信息,因而其對(duì)相機(jī)運(yùn)動(dòng)更具有魯棒性,也更有判別性。接下來(lái)的實(shí)驗(yàn)將只采用HNF和MBH描述符。
表2 軌跡特征不同的描述符間的比較。#1和#2分別表示數(shù)據(jù)集1和數(shù)據(jù)集2上的結(jié)果
表3 UT-interaction數(shù)據(jù)庫(kù)中不同的編碼和歸一化方法的性能比較(%),主題數(shù)為100
在表3中,我們比較了不同編碼方法結(jié)合歸一化方法的性能。當(dāng)采用HNF描述符時(shí),矢量量化和局域軟分配性能相差很小。與此相反,采用MBH描述符時(shí),局域軟分配編碼相比矢量量化而言弱化了特征的判別性,這在數(shù)據(jù)集1上更明顯。需要著重指出的是,歸一化方法對(duì)于分類(lèi)性能有著顯著的影響,最大可相差5個(gè)百分點(diǎn)。
3.2.3 主成份分析預(yù)處理特征對(duì)性能的影響
以上實(shí)驗(yàn)中,所有的特征均未作預(yù)處理。Jegou等[23-24]指出,主成份分析(PCA)通過(guò)選擇子空間的解耦的正交基向量,最小化了降維產(chǎn)生的信息損失,在靜態(tài)圖像識(shí)別的實(shí)驗(yàn)表明,對(duì)原始特征作PCA預(yù)處理,降低了特征的維度的同時(shí),還提高了識(shí)別精度。受此啟發(fā),我們比較了不同的PCA維度下的行為分類(lèi)結(jié)果。
如圖4所示,很明顯,當(dāng)PCA維數(shù)很低,如小于16時(shí),識(shí)別率受到影響較大,但在維數(shù)達(dá)到32以后,識(shí)別率的變化趨緩,也就是說(shuō),當(dāng)PCA降維到32時(shí),保留了原來(lái)特征的大部分信息。大多數(shù)情況下,隨著維數(shù)增大,識(shí)別率在達(dá)到最高值后有下降的趨勢(shì)。
當(dāng)特征為STIPs時(shí),采用LSA編碼所得分類(lèi)精度明顯高于VQ;而當(dāng)特征為DT時(shí),則正好相反,VQ更高一些,但是,LSA和VQ兩者的差距明顯縮小。對(duì)于數(shù)據(jù)集1,采用STIPs和DT得到的最好的結(jié)果分別是93.57%、96.1%,均接近于未作PCA預(yù)處理時(shí)的結(jié)果。值得注意的是,在數(shù)據(jù)集2上,我們分別得到了84.33%、95%的分類(lèi)準(zhǔn)確度,高于未作PCA預(yù)處理時(shí)0.66、1.67個(gè)百分點(diǎn)。由于數(shù)據(jù)集2上的特征包含有更多的噪聲,采用PCA后在一定程度上抑制了噪聲的影響,因此提升了識(shí)別率。而數(shù)據(jù)集1上背景相對(duì)單一,PCA降低了特征的維度,而噪聲的抑制不足以彌補(bǔ)特征的信息損失,性能稍有降低。
在表4中我們與其他文獻(xiàn)的性能做了比較,在數(shù)據(jù)集1和數(shù)據(jù)集2上分別高于當(dāng)前最好的性能1.94、3.3個(gè)百分點(diǎn)。值得指出的是,文獻(xiàn)[21]在數(shù)據(jù)集2上聯(lián)合了HOG,HOF,shape,MBH等四類(lèi)描述符才取得了91.7%的準(zhǔn)確度,而我們的實(shí)驗(yàn)中是獨(dú)立采用了MBH、HNF兩類(lèi)描述符。
表4 與其他文獻(xiàn)的比較結(jié)果(%)。#1和 #2 分別表示數(shù)據(jù)集1和數(shù)據(jù)集2上的結(jié)果
上述實(shí)驗(yàn)結(jié)果表明,在采用時(shí)空特征點(diǎn)的HNF描述符時(shí),局域軟分配可獲得優(yōu)于矢量量化和軟分配的性能。尤其是在UT-interaction數(shù)據(jù)庫(kù)中,效能提升顯著,這說(shuō)明在樣本少,特征點(diǎn)稀疏的情況下,挖掘特征間的共現(xiàn)模式尤為重要。正如上節(jié)所示,密集軌跡相比時(shí)空興趣點(diǎn)描述力更強(qiáng),但我們的方法可以縮小兩者的差距,尤其是在UT-interaction數(shù)據(jù)集1上,兩者精度接近相等。
不同的歸一化方法選擇,對(duì)矢量量化和局域軟分配而言最大可以產(chǎn)生5個(gè)百分點(diǎn)的差距,而對(duì)于軟分配最大可達(dá)到30個(gè)百分點(diǎn)。從實(shí)驗(yàn)結(jié)果看,密集軌跡較之時(shí)空興趣點(diǎn)更易受到歸一化方法的影響。
采用主成份分析方法預(yù)處理原始特征,對(duì)于提升識(shí)別的性能有重要影響。主成份分析將原始特征向特征分量上投影,客觀上可以一定程度的抑制噪聲,但與此同時(shí),不可避免的帶來(lái)信息的損失。這兩方面的影響相互抵消,如果噪聲成分大,抑制噪聲取得的效用大,則帶來(lái)識(shí)別率的上升,而信息損失效應(yīng)大,相應(yīng)的性能有所下降。另一方面,由于密集采樣特征的性能優(yōu)越,需要處理的特征數(shù)越來(lái)越多,尤其是對(duì)于視頻信號(hào)來(lái)講,計(jì)算量尤其大。而如果采用PCA預(yù)處理原始特征,將特征維數(shù)大幅降低而又保留大部分信息致使分類(lèi)性能下降不多,這將大大降低計(jì)算量,提升反應(yīng)速度,對(duì)于需要實(shí)時(shí)處理信號(hào)的應(yīng)用而言,意義重大。
圖4 不同的PCA維度下的分類(lèi)精度對(duì)照?qǐng)D。其中第一、二行為UT-interaction數(shù)據(jù)集1和2采用STIPs時(shí)的結(jié)果,第三、四行為采用軌跡特征時(shí)的結(jié)果。每一列分別對(duì)應(yīng)1歸一化、2歸一化、 指數(shù)歸一化、 指數(shù)加2歸一化(P2-norm)、 指數(shù)加1歸一化(P1-norm)Fig.4 Comparison of different PCA dimension. The first row and second are results of set1 and set2 with STIPs respectively, and the third row and fourth are of set1 and set2 with DT. Each column is corresponding one normalization method, such as 1-norm, 2-norm, power-norm, P2-norm and P1-norm
主題模型能夠挖掘出隱含于眾多特征點(diǎn)間的共現(xiàn)模式,這可以看作是中間層的語(yǔ)義描述符,以此來(lái)表示視頻中的行為,增強(qiáng)了特征的判別性。由于我們采用了標(biāo)準(zhǔn)的單詞包框架,沒(méi)有納入任何特征點(diǎn)的時(shí)空信息,所以我們還不能確定挖掘出的隱主題對(duì)應(yīng)的實(shí)際的元?jiǎng)幼鳎珶o(wú)疑,這類(lèi)高于底層特征的高層語(yǔ)義,有效提升了識(shí)別性能。如何引入特征的時(shí)間以及空間信息到模型中,有待于進(jìn)一步的研究。
為了提升概率隱含語(yǔ)義分析模型在行為識(shí)別中的分類(lèi)精度,本文詳細(xì)考察了編碼和歸一化方法對(duì)于性能的影響,實(shí)驗(yàn)表明合適的編碼和歸一化方法組合將顯著改進(jìn)模型的分類(lèi)性能,在UT-interaction數(shù)據(jù)庫(kù)的兩個(gè)數(shù)據(jù)集上取得了當(dāng)前最好的性能。另外,我們還檢驗(yàn)了主成份分析預(yù)處理原始特征對(duì)于性能的影響,當(dāng)原始特征包含有較多的噪聲時(shí)分類(lèi)性能甚至有所提升。接下來(lái)的研究將放在如何把隱主題和元?jiǎng)幼?,即不同肢體運(yùn)動(dòng)聯(lián)系起來(lái)。