陳昌紅,劉 園
(南京郵電大學(xué) 通信與信息工程學(xué)院,江蘇 南京 210003)
利用信息技術(shù)自動(dòng)地對(duì)視頻中的人體行為進(jìn)行識(shí)別,是近年來計(jì)算機(jī)視覺領(lǐng)域的熱點(diǎn)和重點(diǎn)問題。隨著計(jì)算機(jī)視覺領(lǐng)域相關(guān)技術(shù)的發(fā)展和深度學(xué)習(xí)技術(shù)的興起,對(duì)理想環(huán)境下的人體行為識(shí)別取得了較高的識(shí)別準(zhǔn)確率,且對(duì)較復(fù)雜環(huán)境下人體行為的識(shí)別準(zhǔn)確率也獲得了一定程度的提升。但人體運(yùn)動(dòng)的高復(fù)雜性和多變性使得識(shí)別的精準(zhǔn)性和高效性很難滿足實(shí)際的應(yīng)用要求。
在視頻中提取有效的人體行為特征,以往的傳統(tǒng)特征如基于人體幾何特征[1]、運(yùn)動(dòng)信息特征[2];具有先驗(yàn)信息的多尺度SIFT[3]、HOG[4]特征、稀疏表征[5-6];基于時(shí)空興趣點(diǎn)的視頻序列信息的特征[7-10];在單人行為識(shí)別的基礎(chǔ)上加入語義信息進(jìn)行雙人行為識(shí)別[11-12];也有的文獻(xiàn)將上述特征進(jìn)行加權(quán)融合用于識(shí)別[13]。手工特征常常需要依靠研究者長時(shí)間的工作經(jīng)驗(yàn)來人為設(shè)定,該特征對(duì)于不同視頻的特征提取在一定程度上有局限。在目前的研究中,手工特征無法適用于不同復(fù)雜程度的數(shù)據(jù)庫。在實(shí)際應(yīng)用中,需要提出一個(gè)能從視頻自身的信息中提取有效的、能夠有效表征視頻的特征。近年來,深度學(xué)習(xí)在目標(biāo)識(shí)別方面表現(xiàn)優(yōu)異[14-15],可以從原始視頻或者圖像中直接自動(dòng)學(xué)習(xí)到特征。神經(jīng)網(wǎng)絡(luò)學(xué)習(xí)的特征與傳統(tǒng)的特征不同,神經(jīng)網(wǎng)絡(luò)特征不需要人為手動(dòng)選定,且該特征在自適應(yīng)性、不變性和通用性方面有良好的性能,在檢測、分割和識(shí)別等多個(gè)計(jì)算機(jī)視覺方面應(yīng)用廣泛。獨(dú)立子空間分析[16](independent subspace analysis,ISA)是2011年提出的一種神經(jīng)網(wǎng)絡(luò)特征,ISA結(jié)構(gòu)能從視頻數(shù)據(jù)中自動(dòng)學(xué)習(xí)提取出具有不變性的特征。翟濤等[17]采用ISA構(gòu)建兩層卷積疊加網(wǎng)絡(luò),用于提取深層不變性特征,文中也采用了這種特征提取方法。
行為分類階段訓(xùn)練性能優(yōu)越、分類精準(zhǔn)性高的分類器,能有效快速處理數(shù)據(jù)。圖模型常常用來對(duì)大數(shù)據(jù)建模,對(duì)復(fù)雜的分布圖模型可以很簡潔地表達(dá),但是它的難點(diǎn)在于模型結(jié)構(gòu)的參數(shù)學(xué)習(xí)在一定程度上比較復(fù)雜,模型的推導(dǎo)也具有一定的難度。這是由于圖模型在做歸一化運(yùn)算時(shí),其計(jì)算量會(huì)急劇增大。在實(shí)際應(yīng)用中,圖模型在做推理時(shí),預(yù)估最差情況下的計(jì)算量會(huì)有指數(shù)級(jí)別。深度結(jié)構(gòu)可以看成一個(gè)有著多隱層變量的圖模型,使用深度結(jié)構(gòu)能夠有效表達(dá)大部分的分布,但是非凸似然估計(jì)和高復(fù)雜度的推理使深度網(wǎng)絡(luò)學(xué)習(xí)非常困難。稀疏連接樹、混合模型等圖模型在推理上可行,但是能表示的分布非常有限。Poon和Domingos[18]在2011年提出了和積網(wǎng)絡(luò)結(jié)構(gòu)(sum product networks,SPNs),SPNs屬于深度結(jié)構(gòu),但模型能進(jìn)行有效的推理計(jì)算。SPNs的結(jié)構(gòu)屬于有向無環(huán)圖,主要由葉節(jié)點(diǎn)、sum節(jié)點(diǎn)、product節(jié)點(diǎn)及節(jié)點(diǎn)邊上的權(quán)重值(權(quán)重值均為非負(fù)數(shù))組成。SPNs目前主要應(yīng)用于圖像復(fù)原、圖像分類,并取得了一定的進(jìn)展和成果,但先前的研究都是基于給定了初始的SPNs結(jié)構(gòu)。為了使SPNs不需要預(yù)先定義的結(jié)構(gòu),并且學(xué)習(xí)更加靈活減少結(jié)構(gòu)的冗余度,Gens和Domingos[19]在2013年提出了一種SPNs結(jié)構(gòu)學(xué)習(xí)算法,該算法將實(shí)例集進(jìn)行實(shí)例劃分和變量劃分并學(xué)習(xí)結(jié)構(gòu)權(quán)重參數(shù),得到自主學(xué)習(xí)的SPNs結(jié)構(gòu)。
圖1 雙人行為識(shí)別算法框架
文中提出一種基于改進(jìn)和積網(wǎng)絡(luò)的交互行為分類算法。整個(gè)過程分為特征提取、訓(xùn)練SPN模型和SPN模型分類三個(gè)步驟。首先對(duì)視頻進(jìn)行密集采樣,然后從每一幀中隨機(jī)選取中心點(diǎn)的位置提取出相同大小的視頻塊,得到視頻時(shí)空樣本。使用兩層卷積疊加ISA網(wǎng)絡(luò)提取視頻特征。然后使用K-means方法進(jìn)行特征聚類,映射為視覺單詞。訓(xùn)練視頻樣本通過改進(jìn)后的LearnSPN算法框架學(xué)習(xí)SPN的結(jié)構(gòu)和權(quán)重,在訓(xùn)練過程中對(duì)數(shù)據(jù)集進(jìn)行實(shí)例劃分或者變量劃分直至滿足劃分結(jié)束條件。在改進(jìn)后的LearnSPN算法中,變量劃分使用無向圖結(jié)合并查集結(jié)構(gòu)的IndepGraph UnionFind算法,實(shí)例劃分使用更適合數(shù)據(jù)分布的DBSCAN(density-based spatial clustering of application with noise)聚類算法。
雙人行為識(shí)別算法框架如圖1所示。
獨(dú)立子空間分析(ISA)是一種無監(jiān)督學(xué)習(xí)方法。ISA的網(wǎng)絡(luò)結(jié)構(gòu)是一個(gè)兩層網(wǎng)絡(luò),可以有效模擬人類視覺系統(tǒng)V1區(qū)簡單細(xì)胞與復(fù)雜細(xì)胞感受的層次化響應(yīng)模式。每個(gè)復(fù)雜細(xì)胞都接收一組簡單細(xì)胞的輸入數(shù)據(jù),在此基礎(chǔ)上構(gòu)成子空間。網(wǎng)絡(luò)結(jié)構(gòu)如圖2所示。層1對(duì)人腦視覺皮層簡單細(xì)胞進(jìn)行模擬,也稱為簡單單元。層2對(duì)人腦視覺皮層復(fù)雜細(xì)胞進(jìn)行模擬,又稱為合并單元。
圖2 ISA網(wǎng)絡(luò)結(jié)構(gòu)
對(duì)每一個(gè)輸入樣本xt,ISA獲得特征進(jìn)行變換的公式如下:
(1)
其中,xt是PCA降維后均值為0的白化數(shù)據(jù);W是輸入數(shù)據(jù)和層1之間的權(quán)重,層1對(duì)輸入進(jìn)行加權(quán)平方,輸出是對(duì)應(yīng)的線性特征響應(yīng);V是層2和層1之間的權(quán)重,層2對(duì)層1輸出的加權(quán)開方;pi是同一個(gè)子空間特征的合并輸出。
在訓(xùn)練階段,權(quán)重V被設(shè)置為固定權(quán)重,在ISA的網(wǎng)絡(luò)中只需優(yōu)化權(quán)值參數(shù)W。優(yōu)化目標(biāo)函數(shù)為:
(2)
其中,正交約束WWT=1保證了特征的不相關(guān)性,用于保證提取出的特征多樣化。
在原始的ISA網(wǎng)絡(luò)中,特征的概括能力與輸入樣本的維度大小成正比,當(dāng)樣本維度越大時(shí),提取出的特征表征能力越好。然而原始的ISA網(wǎng)絡(luò)在訓(xùn)練過程所需的時(shí)間和輸入數(shù)據(jù)維度成反比,當(dāng)數(shù)據(jù)維度越大,花費(fèi)的時(shí)間就越多。因?yàn)樵诿恳徊酵队疤荻认陆禃r(shí)都要執(zhí)行正交化,而正交化和輸入維度的計(jì)算復(fù)雜度為O(n3)。在實(shí)際應(yīng)用時(shí),標(biāo)準(zhǔn)的ISA算法是針對(duì)二維圖像數(shù)據(jù)而言的,當(dāng)輸入拓展到3維的視頻數(shù)據(jù)中會(huì)遇到很大的困難。一個(gè)視頻數(shù)據(jù)相當(dāng)于一個(gè)長方體,展開成一個(gè)一維向量的維度非常大,時(shí)間復(fù)雜度呈3次方增加,因此計(jì)算速度非常慢。
為了處理高維數(shù)據(jù),借助于卷積神經(jīng)網(wǎng)絡(luò)的結(jié)構(gòu),用卷積疊加提取視頻的特征。把大的視頻塊拆分成不同的子塊,以減少每次ISA計(jì)算維數(shù),加快訓(xùn)練速度。圖3用包含ISA和PCA的兩層卷積疊加ISA網(wǎng)絡(luò)對(duì)視頻數(shù)據(jù)提取特征。圖層ISA1的輸入為通過密集采樣獲取的小視頻塊,通過訓(xùn)練學(xué)習(xí)得到ISA網(wǎng)絡(luò)的參數(shù),將該ISA網(wǎng)絡(luò)進(jìn)行平移復(fù)制,對(duì)多個(gè)小視頻塊提取出ISA特征,再將該特征通過卷積疊加融合成大視頻塊的表示,并輸入到圖層ISA2中得到視頻的特征表示,在ISA2的輸入前可以通過PCA降低輸入數(shù)據(jù)的維度。把ISA1的輸出通過PCA降維串聯(lián)ISA2的輸出作為最終視頻的特征。
圖3 兩層卷積疊加ISA網(wǎng)絡(luò)
在SPNs的學(xué)習(xí)算法中主要有生成式和判別式學(xué)習(xí)算法,這兩種算法都存在一個(gè)缺點(diǎn),即需要預(yù)先定義SPNs的初始結(jié)構(gòu),再通過不同的學(xué)習(xí)算法學(xué)習(xí)SPNs的權(quán)重參數(shù)從而得到完整的SPNs結(jié)構(gòu)。模型的層數(shù)越深,其表達(dá)能力也就越強(qiáng)。生成式的學(xué)習(xí)算法具有學(xué)習(xí)很深的SPN的能力,但預(yù)先定義的SPNs結(jié)構(gòu)也擁有巨大的節(jié)點(diǎn)數(shù)量,在學(xué)習(xí)中需要較大的計(jì)算量和復(fù)雜的推導(dǎo)。判別式學(xué)習(xí)在分類問題上有最優(yōu)的結(jié)果,但需要在靈活度和學(xué)習(xí)消耗上進(jìn)行平衡。Gens和Domingos[19]充分利用SPNs的表達(dá)能力,在2013年提出了SPNs結(jié)構(gòu)學(xué)習(xí)的第一個(gè)算法LearnSPN。該算法不需要預(yù)先定義SPNs結(jié)構(gòu),根據(jù)輸入的數(shù)據(jù)集使用該算法自動(dòng)生成一個(gè)SPN,生成的結(jié)構(gòu)能夠減少重復(fù)的節(jié)點(diǎn),使計(jì)算和推理都更加靈活。
文中的研究內(nèi)容是結(jié)合SPNs的結(jié)構(gòu)和相關(guān)理論知識(shí),在SPNs結(jié)構(gòu)學(xué)習(xí)算法LearnSPN的基礎(chǔ)上進(jìn)行分析、理解和研究,從而進(jìn)行改進(jìn),設(shè)計(jì)一種新的實(shí)例劃分算法和變量劃分算法,將學(xué)習(xí)到的SPNs在視頻數(shù)據(jù)庫上進(jìn)行分類。
將數(shù)據(jù)集可視化為實(shí)例舉證形式,其中行是實(shí)例列是變量,變量的樣本是獨(dú)立同分布的。根據(jù)算法橫向或者縱向劃分?jǐn)?shù)據(jù)集。如果變量向量是單位長度,該算法返回相應(yīng)的單變量分布,并使用MPA方法評(píng)估相應(yīng)的參數(shù)。算法在劃分行數(shù)或是劃分列數(shù)上遞歸進(jìn)行,直至變量向量的長度小于等于1。數(shù)據(jù)集垂直劃分的規(guī)則是,數(shù)據(jù)集中存在相互獨(dú)立的子集,在數(shù)據(jù)集劃分出多個(gè)互不相干的集合,形成product節(jié)點(diǎn),且節(jié)點(diǎn)的值為并所有子集的乘積。數(shù)據(jù)集水平劃分的規(guī)則是,數(shù)據(jù)集中存在相似的實(shí)例,將其進(jìn)行聚類劃分把相似的實(shí)例劃分到同一子集中,形成sum節(jié)點(diǎn),且節(jié)點(diǎn)的值是在所有子集上的加權(quán)和,每個(gè)SPN的權(quán)值是相應(yīng)子集的比例值。重復(fù)該過程直至達(dá)到遞歸停止條件。
LearnSPN算法可以分為三個(gè)部分。第一部分為檢測變量獨(dú)立和判斷是否劃分變量V來創(chuàng)造新Product節(jié)點(diǎn)。如果它能夠?qū)⒆兞縑拆分為相互獨(dú)立的子集,算法在獨(dú)立子集遞歸,并返回生成SPNs的乘積。第二部分為,如果變量V劃分失敗,必須從數(shù)據(jù)中找到可能聚類。它將實(shí)例聚類到相似的子集合中,算法在獨(dú)立子集遞歸,并返回結(jié)果的SPNs的加權(quán)總和。SPN的權(quán)重是對(duì)應(yīng)相應(yīng)子集中的實(shí)例的比例,也可以使用Dirichlet先驗(yàn)進(jìn)行平滑處理。最后,如果向量范圍是單一變量,LearnSPN返回相應(yīng)的單變量的概率分布。
可以使用不同的算法進(jìn)行變量劃分和實(shí)例劃分。Gens和Domingos提出了使用混合EM算法,通過將實(shí)例劃分到它最后可能的聚類中來學(xué)習(xí)Sum節(jié)點(diǎn);圖模型的結(jié)構(gòu)學(xué)習(xí)Product節(jié)點(diǎn)。
(1)變量劃分。
變量劃分的核心是尋找變量間的獨(dú)立子集,每一個(gè)子集中的元素獨(dú)立于其他子集。假設(shè)給定變量V,尋找到子集合P={P1,P2,…,Pn}當(dāng)Pi∩Pj=?且P1∪P2∪…∪Pn=V。變量兩兩間的關(guān)系采用無向圖來記錄。無向圖G=(V,E)存在若干頂點(diǎn)V和邊E。對(duì)于頂點(diǎn)i,j∈V且i不垂直于j,則i,j間存在一條邊eij。因?yàn)楫?dāng)兩個(gè)變量不獨(dú)立時(shí),圖中兩頂點(diǎn)間存在一條邊,為了找到一個(gè)獨(dú)立子圖,在這個(gè)子圖中的所有頂點(diǎn)沒有路徑到達(dá)另一子圖。無向圖使問題降低到了尋找連接子圖問題。
并查集的數(shù)據(jù)結(jié)構(gòu)常用于解決動(dòng)態(tài)連通性問題。并查集是一種樹型數(shù)據(jù)結(jié)構(gòu),用于處理不相交集合的合并以及查詢。首先讓所有元素獨(dú)立成樹,也就是根節(jié)點(diǎn)的樹;然后根據(jù)需要將關(guān)聯(lián)元素合并;合并方式是將一棵樹最原始的節(jié)點(diǎn)的父親索引指向另一棵樹。使用按秩合并和路徑壓縮結(jié)合的并查集(union-find)結(jié)構(gòu)尋找到連接子圖。
文中使用并查集實(shí)現(xiàn)變量劃分算法。初始化時(shí)每個(gè)頂點(diǎn)都在自己的不相交集合中,等價(jià)于無向圖G的邊是空的。遍歷每個(gè)變量,驗(yàn)證一對(duì)變量X,Y∈V是否在同一集合。若ux=uy,表示X,Y在同一集合,且X,Y間存在邊exy;若ux≠uy,Ω(X,Y)對(duì)變量間的獨(dú)立性判斷,采用的是G-test度量方法:
G(x1,x2)=2∑x1∑x2c(x1,x2)·
(3)
其中和項(xiàng)是取盡每個(gè)變量上的取值,且c(·)表示一對(duì)變量或是單個(gè)變量的某個(gè)設(shè)置的出現(xiàn)次數(shù)。改進(jìn)后的IndepGraphUnionFind變量劃分算法,將通過Union-Find尋找最小獨(dú)立圖替代尋找完全獨(dú)立圖。
(2)實(shí)例劃分。
對(duì)于實(shí)例劃分,希望將相似的實(shí)例劃分到同一子集中。LearnSPN算法中的EM算法詳細(xì)而準(zhǔn)確,但是計(jì)算復(fù)雜、收斂速度慢,不適合大規(guī)模數(shù)據(jù)集和高維數(shù)據(jù)集。實(shí)踐應(yīng)用中,簡單的K-means算法就能夠進(jìn)行實(shí)例劃分。但是K-means算法存在缺陷,必須實(shí)現(xiàn)人工制定聚類的個(gè)數(shù)。DBSCAN是基于密度的聚類算法,簇的個(gè)數(shù)由算法自動(dòng)決定。DBSCAN算法可以發(fā)現(xiàn)任意形狀的聚類簇,并且可以在聚類的同時(shí)找出異常點(diǎn)。
文中對(duì)實(shí)例劃分與變量劃分均使用新的算法,DBSCAN是基于密度聚類的,它擁有可以對(duì)抗噪聲,能處理任意形狀和大小的簇的優(yōu)良特性。IndepGraphUnionFind算法花費(fèi)線性內(nèi)存。
基于雙層卷積疊加ISA的時(shí)空特征和SPNs結(jié)構(gòu)學(xué)習(xí)的視頻分類實(shí)驗(yàn)將在UT-interaction、BIT-interaction、TV Human interaction三個(gè)交互數(shù)據(jù)庫上進(jìn)行。在進(jìn)行實(shí)驗(yàn)時(shí),ISA1網(wǎng)絡(luò)提取的視頻塊大小為16*16*10,子空間步幅為2,提取200維的特征向量。ISA2網(wǎng)絡(luò)的視頻塊大小為20*20*14,子空間步幅為4,提取50維特征。將IAS1的特征進(jìn)行PCA降維,聯(lián)合ISA2的輸出作為最終的150維特征向量。對(duì)三個(gè)數(shù)據(jù)庫,文中的訓(xùn)練測試比為9∶1,從數(shù)據(jù)庫中隨機(jī)抽取0.9的視頻作為訓(xùn)練集,剩下的作為測試集。在給定訓(xùn)練測試數(shù)量比的情況下,隨機(jī)抽取10個(gè)訓(xùn)練集測試集,每次抽取彼此相互獨(dú)立。最后的訓(xùn)練測試數(shù)量比對(duì)應(yīng)的分類準(zhǔn)確率是10次抽取結(jié)果的平均值。
(1)UT-interaction數(shù)據(jù)集。
UT-interaction數(shù)據(jù)集將兩個(gè)集合的視頻序列混合使用增大數(shù)據(jù)集的個(gè)數(shù),以及增強(qiáng)數(shù)據(jù)集的多樣性。數(shù)據(jù)集中包含有20組人的5種行為。從圖4可以看出,文中方法在雙人行為數(shù)據(jù)集UT-interaction上的平均分類準(zhǔn)確率達(dá)到了94%,其中大部分的識(shí)別結(jié)果都是正確的,其中拳擊和握手容易混淆。這是因?yàn)槿瓝艉臀帐謨煞N交互行為模糊性大,當(dāng)握手行為中一人的行為被遮擋就與拳擊具有非常高的相似性。握手和踢打、拳擊之間之所以混淆,是因?yàn)樾袨樵谕庥^特征和動(dòng)作特征上十分相似,因此也會(huì)被錯(cuò)分造成錯(cuò)誤的識(shí)別結(jié)果。
圖4 UT-interaction數(shù)據(jù)集識(shí)別結(jié)果
在表1中,將文中算法與其他三種算法做比較。文獻(xiàn)[20]中Kong Yu等主要考慮雙人行為的交互,捕獲行為各個(gè)部分的相互依賴關(guān)系;文獻(xiàn)[21]中Kong Yu等主要提出一種新型的高層語義描述方法,用交互式短語描述交互行為之間的關(guān)系;文獻(xiàn)[22]中Xu Wanru等對(duì)于復(fù)雜的行為,考慮時(shí)間和空間特性,提出一種層次的時(shí)空模型來提取視頻的高級(jí)特征表征。選取這三種算法是因?yàn)樗鼈兺瑫r(shí)在UT-interaction數(shù)據(jù)集和BIT-interaction數(shù)據(jù)集上進(jìn)行了實(shí)驗(yàn),用于驗(yàn)證算法在不同復(fù)雜程度的雙人交互行為視頻上的識(shí)別結(jié)果。實(shí)驗(yàn)結(jié)果表明,文中方法在UT-interaction數(shù)據(jù)集上取得了不錯(cuò)的識(shí)別結(jié)果。
表1 UT-Interaction數(shù)據(jù)集對(duì)比結(jié)果
(2)BIT-interaction數(shù)據(jù)集。
BIT-interaction數(shù)據(jù)集在實(shí)驗(yàn)中包含8種雙人交互行為,每種交互行為有50組視頻。從圖5中可以看出,平均分類準(zhǔn)確率為96.5%,取得了不錯(cuò)的識(shí)別結(jié)果。握手行為的錯(cuò)分率較高,是因?yàn)楹蛽粽?、推搡以及鞠躬之間有混淆,這是因?yàn)轭愵愋袨橹g的相似性。
圖5 BIT-interaction識(shí)別結(jié)果
在表2中,除了與文獻(xiàn)[20-22]進(jìn)行了比較以外,還與文獻(xiàn)[23]的結(jié)果進(jìn)行了比較。文獻(xiàn)[23]采用的是深度學(xué)習(xí)算法long-term residual recurrent network,結(jié)果表明文中算法有明顯的優(yōu)越性。
表2 BIT-Interaction數(shù)據(jù)集對(duì)比結(jié)果
(3)TV Human interaction數(shù)據(jù)集。
TV Human interaction數(shù)據(jù)集取自23個(gè)不同的電視節(jié)目,包含4種交互行為,每一組有50個(gè)視頻片段。從圖6可以看出,文中方法在TV Human interaction數(shù)據(jù)集上的平均分類準(zhǔn)確率為80%。其中握手行為的識(shí)別率只有78%,容易被錯(cuò)分為擊掌;親吻行為的識(shí)別率只有80%,這是因?yàn)門V Human interaction數(shù)據(jù)集來自電視節(jié)目,視頻中類間行為差異大,背景多樣復(fù)雜。在視頻的雙人交互中會(huì)出現(xiàn)多個(gè)人,對(duì)識(shí)別有一定的干擾。
圖6 TV Human interaction識(shí)別結(jié)果
文中算法與其他三種算法對(duì)比結(jié)果見表3。由于TV Human interaction數(shù)據(jù)集比較復(fù)雜,一般算法都是只在這一個(gè)數(shù)據(jù)集上實(shí)驗(yàn),雖然無法在UT-interaction數(shù)據(jù)集和BIT-interaction數(shù)據(jù)集上對(duì)比算法的性能,但對(duì)驗(yàn)證文中算法的普適性沒有影響。在文獻(xiàn)[24]中,Avgerinakis K等提出一種運(yùn)動(dòng)補(bǔ)償算法,準(zhǔn)確定位活動(dòng)空間;文獻(xiàn)[25]中,Ke Qiuhong 等提出一種結(jié)合時(shí)間與空間信息的交互預(yù)測,在場景變化大的情況下有良好的表現(xiàn);文獻(xiàn)[26] 中通過Hough voting (HV)檢測對(duì)象與動(dòng)作行為,對(duì)校訓(xùn)練樣本也使用的算法。通過文中算法在識(shí)別結(jié)果上有較大的提升。
表3 TV Human interaction數(shù)據(jù)集對(duì)比結(jié)果
綜合以上三個(gè)數(shù)據(jù)集上的實(shí)驗(yàn)結(jié)果表明,文中方法在不同復(fù)雜背景的雙人行為視頻中都取得了較好的識(shí)別結(jié)果。這是由于ISA網(wǎng)絡(luò)提取的特征不僅能夠反映全局的動(dòng)作方向分布,同時(shí)也能探測到動(dòng)作的改變以及檢測移動(dòng)邊緣狀態(tài),這些信息對(duì)于視頻有效信息的提取十分有幫助。SPNs使用自動(dòng)學(xué)習(xí)的改進(jìn)后的LearnSPN算法結(jié)構(gòu),能正確表達(dá)視頻信息,學(xué)習(xí)到的SPNs能很好地表達(dá)該視頻類別。同時(shí)也驗(yàn)證了SPNs結(jié)構(gòu)在視頻分類上的效果,對(duì)SPNs結(jié)構(gòu)學(xué)習(xí)改進(jìn)算法,縮短了訓(xùn)練花費(fèi)時(shí)間,同時(shí)減少了空間復(fù)雜度。
針對(duì)多復(fù)雜度的雙人行為數(shù)據(jù)庫識(shí)別問題,基于ISA特征和SPNs結(jié)構(gòu)提出一種普適性的模型,提高對(duì)行為分類的魯棒性。基于ISA網(wǎng)絡(luò)所學(xué)習(xí)提取出的特征能基于數(shù)據(jù)自動(dòng)提取特征,多層結(jié)構(gòu)學(xué)習(xí)視頻的高層特征,且具備傳統(tǒng)特征不具備的魯棒性。而Sum-Product Networks作為一個(gè)多隱層概率模型,對(duì)SPN學(xué)習(xí)算法進(jìn)行了深入的理解和分析并提出適合文中數(shù)據(jù)庫的改進(jìn),提出了一種LearnSPN學(xué)習(xí)算法,取得了不錯(cuò)的視頻分類結(jié)果。但是學(xué)習(xí)得到的結(jié)構(gòu)中有一些節(jié)點(diǎn)是相同的,整個(gè)SPN結(jié)構(gòu)仍然有點(diǎn)冗雜。目前關(guān)于SPNs的研究較少,但SPNs在圖像處理領(lǐng)域是非常具有價(jià)值的研究課題。