王曉芳,齊春
(1.西安交通大學電子與信息工程學院,710049,西安;2.齊魯工業(yè)大學(山東省科學院)電氣工程與自動化學院,250353,濟南)
行為識別即利用計算機自動提取視頻中的行為特征并判別行為類別,在視頻監(jiān)控、人機交互、虛擬現實等領域具有廣闊的應用前景。稠密軌跡法[1]是近年來一種比較成功的行為識別方法,該方法通過提取視頻稠密采樣點的軌跡來獲取行為的長時段特征。然而,傳統(tǒng)的稠密軌跡法在提取軌跡時不能很好地區(qū)分行為區(qū)域和背景,對包含相機運動的視頻,除行為區(qū)域之外背景區(qū)域也會產生大量的軌跡,這種背景軌跡和感興趣的行為關系不大,其存在限制了行為識別性能。
為了改進傳統(tǒng)的稠密軌跡法,許多文獻提出只獲取行為區(qū)域內的稠密軌跡用于描述行為特征,這類方法目前主要存在2種思路。鑒于背景軌跡通常由相機運動產生,第一種思路先通過估計相機運動校正視頻的光流,再利用校正后的光流消除背景軌跡[2-3]。考慮到行為區(qū)域通常比背景區(qū)域顯著,另一種思路先通過檢測視頻顯著性獲取行為區(qū)域,再提取行為區(qū)域內軌跡[4-5],這種思路的關鍵在于顯著性檢測。文獻[4]將低秩矩陣恢復應用于運動信息檢測視頻的顯著性,但是不能解決行為區(qū)域內部運動一致性的問題;文獻[5]能夠確定視頻中的真實顯著圖,但依賴于觀察者的眼部運動數據;文獻[6]利用字典學習和稀疏編碼獲取視頻顯著性,但是沒有充分利用運動信息;此外,現有文獻中也存在許多其他顯著性檢測方法[7-9],但大多不是面向行為區(qū)域獲取而設計。獲取視頻中行為區(qū)域的關鍵在于如何區(qū)分行為區(qū)域和背景,而不能只考慮一般意義上的顯著性。無論視頻是在靜態(tài)或者動態(tài)場景中獲取,運動信息都是區(qū)分行為區(qū)域和背景的重要依據。對于包含相機運動的視頻,從總體上看,其背景運動的空域分布具有較高的一致性,而行為運動的空域分布具有一定的不規(guī)則性,所以行為區(qū)域相對于背景通常具有較高的運動顯著性,可以通過運動顯著性檢測方法將其從背景中分離。然而,一些大的行為區(qū)域內部也存在局部一致運動,而有些背景區(qū)域也包含局部不規(guī)則運動,此時一般的運動顯著性檢測方法難以將它們很好地區(qū)分。
鑒于此,本文提出一種采用兩階段顯著性檢測獲取視頻中的行為區(qū)域的方法,并將其應用于軌跡法行為識別。本文方法主要包括2個階段:第1階段,將低秩矩陣恢復算法[10]應用于運動信息計算子視頻內每個塊的初始顯著性,并借此將子視頻所有塊劃分為候選前景集合和絕對背景集合;第2階段,利用絕對背景集合中所有塊的運動向量構建字典,通過稀疏表示算法[11]獲取候選前景集合中所有塊的細化顯著性。在此基礎上,對顯著性進行閾值化得到二值顯著圖用于指示行為區(qū)域,最后將其融入稠密跟蹤過程以提取行為區(qū)域軌跡用于行為識別。與其他顯著性檢測方法相比,上述兩階段方法能夠更充分地考慮行為區(qū)域和背景區(qū)域的運動特點,從而以更高的對比度突出視頻中的行為區(qū)域。
設長度為T的視頻V=[I1,I2,…,IT],It表示第t幀,在時域將V分割成長度均為w的K個互不重疊的子視頻,即V=[V1,V2,…,VK],第k個子視頻為Vk=[I(k-1)w+1,I(k-1)w+2,…,Ikw]。在空域將每個子視頻劃分成M×N個大小相等且互不重疊的時空塊,劃分后的Vk可用一個3D分塊矩陣表示
(1)
式中:Pn為第n個時空塊,大小為s×s×w,其中s為空域大小,w為實域長度。下面以Vk為例,利用兩階段顯著性檢測方法獲取子視頻中的行為區(qū)域,其總體流程如圖1所示。
圖1 本文行為區(qū)域檢測流程
本文采用文獻[4]中的方法計算子視頻的初始顯著性。一般來說,由運動相機拍攝的視頻,背景運動空域分布具有一致性,相關性較強,可以認為處于一個低秩的子空間,行為運動空運分布具有隨意性,相關性較弱,可以看作稀疏誤差?;谏鲜鎏攸c,通過低秩矩陣恢復算法將子視頻的運動信息分解成低秩部分和稀疏誤差部分,利用后者計算視頻塊的初始顯著性,并據此劃分子視頻的候選前景和絕對背景。
為了檢測Vk的初始顯著性,需構建其運動矩陣。為此,先獲取每個塊的運動向量,以塊Pn為例,先將其每一幀內所有像素點的光流按照空域位置順序排列得到對應幀的運動向量,其內第l幀的運動向量為
(2)
X=[x1,x2,…,xMN]
(3)
通過求解如下低秩矩陣恢復優(yōu)化問題,可將X分解為一個低秩矩陣B和一個稀疏矩陣F
s.t.X=B+F
(4)
式中:λ是用于平衡低秩和稀疏的參數,其值設置為λ=1.1/[max(2s2w,MN)]1/2。式(4)優(yōu)化問題可通過增廣拉格朗日乘子法(ALM)[12]求解。
按照這種方法,行為區(qū)域塊因包含行為運動可以獲得較高的顯著性值,而背景塊因不包含行為運動獲得較低的顯著性值。然而,對于一些大的行為區(qū)域,其內部某些行為運動因具有局部一致性被沉積到低秩矩陣B中,而對于一些背景區(qū)域,其內部運動因具有局部不規(guī)則性而被包含到稀疏矩陣F中,由此導致行為區(qū)域和背景的顯著性差異較小,所以利用初始顯著性很難將所有行為區(qū)域和背景很好地分離。這里通過選定一個較小的閾值Ts,將所有可能行為區(qū)域塊(顯著性大等于Ts)都劃分到一個候選前景集合Sf中,而將剩余絕對背景塊(顯著性小于Ts)劃分到一個絕對背景集合Sb中。
利用初始顯著性進行集合劃分時,由于Ts較小,一些背景塊也被劃分到集合Sf中。為了將Sf中真正的行為區(qū)域塊分離出來,需要計算其中的每一個塊的細化顯著性,以增加行為區(qū)域和背景的顯著性對比度。一般情況下,對于Sf中真正的行為區(qū)域塊,其運動信息即使和鄰近塊具有相似性,但都明顯不同于絕對背景塊;對于Sf中的背景塊,其運動信息即使含有一定的變化,也和絕對背景塊具有較高的相似性。基于此,本節(jié)利用Sb中所有塊的運動向量構建字典,對Sf中每一個塊的運動向量進行稀疏表示,再利用重構誤差計算塊的細化顯著性。這樣,行為區(qū)域塊因為較難重構而容易獲得較高的顯著性值;相反,背景塊因較易重構而容易獲得較低的顯著性值。
為了計算Sf中每一個塊的細化顯著性,將Sb中所有塊的運動向量按列堆疊,得到Vk的絕對背景運動矩陣Xb,再將Xb作為字典,對Sf中的每個塊的運動向量進行稀疏表示。以Sf中第r個塊為例,可通過求解以下的優(yōu)化問題得到其運動向量xfr的稀疏表示
(5)
式中:αr為稀疏表示系數向量。
考慮到背景塊一般與它的鄰近背景塊相關性更強,為了使Sf中的背景塊獲得更低的重構誤差,利用Sb中的每個塊和當前被重構塊的空域距離作為Xb中對應原子的權重。Xb中第i個原子xbi的權重為
(6)
式中:cr和ci分別為當前被重構塊和Sb中第i個塊的中心;dist(cr,ci)為cr,ci之間的歸一化歐式距離;σ為調節(jié)參數。Xb中所有原子的權重組成一個權重向量wr,將其引入式(5),可以得到加權稀疏表示的目標函數
(7)
利用文獻[13]中的優(yōu)化工具箱可以求解式(7)獲得稀疏表示系數向量αr,由此計算重構誤差sr,將其作為當前被重構塊(Sf中第r個塊)的細化顯著性
sr=‖xfr-Xbαr‖2
(8)
重復上述過程,可以獲取候選前景集合Sf中所有塊的細化顯著性,將其和絕對背景集合Sb中所有塊的初始顯著性按照塊的空域位置進行組合,可以得到子視頻Vk的顯著性矩陣Sk。Sk是一個塊級的顯著性矩陣,利用空域插值法將其調整為視頻幀的原始大小,即獲得Vk的像素級顯著性矩陣,再進行閾值化可以得到Vk的二值顯著圖Mk。Mk中位置為(x,y)的元素mxy用于指示子視頻Vk任意一幀內的點(x,y)是否屬于行為區(qū)域,如果mxy=1,屬于行為區(qū)域,否則屬于背景。
按照上述兩階段法可以計算視頻中所有子視頻的二值顯著圖,從而獲取視頻行為區(qū)域。
和文獻[5]類似,將檢測得到的二值顯著圖和稠密跟蹤相結合來提取行為區(qū)域軌跡。具體來說,在稠密采樣點跟蹤過程中,先通過光流獲取下一幀上的候選軌跡點,再利用二值顯著圖判斷其是否處于行為區(qū)域,如果是則認為是有效軌跡點,否則判其無效并終止當前軌跡。計算識別率時,對每一條軌跡計算4種特征形狀(Shape)、梯度方向直方圖(HOG)、光流方向直方圖(HOF)和運動邊界直方圖(MBH),并利用FV(Fisher vector)對每一種特征進行獨立編碼以獲取視頻級行為特征,最后將4種視頻級行為特征輸入多核學習支撐向量機(SVM)判別行為類別。
為了驗證本文方法的有效性,在Hollywood2[14]和YouTube[15]2個實際場景視頻數據集上進行實驗測試。Hollywood2共包含1 707個視頻,分為12個行為類別;YouTube共包含1 168個視頻,分為11個行為類別,每個類別的視頻又分為25組。檢測顯著性和行為區(qū)域時,設置子視頻長度為5幀,塊的空域大小為5×5像素,第1、第2階段的顯著性閾值分別設置為10和50。提取行為區(qū)域軌跡時,設置空域采樣間隔為5像素。計算行為識別率時,對于Hollywood2數據集,將其中823個視頻用作訓練樣本,剩余884個視頻用作測試樣本;對于YouTube數據集,每次利用一組作為測試樣本,其余各組用作訓練樣本,最終識別率是25組識別率的均值。
圖2 采用本文方法進行行為區(qū)域檢測的各階段結果
采用本文方法對2個數據集中5個行為視頻投籃、騎馬、走出汽車、奔跑和站起的行為區(qū)域進行檢測,各階段的檢測結果如圖2所示。除最后一個外,其余視頻都包含了不同程度、不同類型的相機運動。由圖2可以看出:第1階段檢測到的初始顯著性整體對比度較低,尤其是行為區(qū)域的中間部分,由于運動存在局部一致性,導致其顯著性值更小;第2階段得到的細化顯著性能夠突出大部分行為區(qū)域(包括中間部分),較好地抑制了背景區(qū)域。以上結果表明,本文兩階段檢測方法能夠充分考慮行為區(qū)域和背景區(qū)域的運動的特點,無論視頻是否包含相機運動,都能獲得較好的檢測結果。
為了進一步驗證本文行為區(qū)域檢測方法的優(yōu)越性,圖3將本文檢測結果和現有文獻最新方法進行對比。其中,文獻[8]是一種基于超像素圖和時空生長的一般視頻顯著性檢測方法,文獻[16]采用一種基于加權稀疏表示的顯著性檢測方法獲取視頻中的行為區(qū)域。由圖3可以看出:本文方法檢測的顯著性具有較高的對比度,能夠明顯地區(qū)分行為區(qū)域和背景區(qū)域;文獻[8]方法的顯著性雖然也能夠突出視頻中的行為區(qū)域,但其對比度低于本文方法;文獻[16]方法的顯著性在行為區(qū)域內部較低。
圖3 本文方法和文獻[8,16]方法的檢測結果對比
采用本文方法和傳統(tǒng)稠密跟蹤方法對5個視頻的行為區(qū)域軌跡進行檢測,結果如圖4所示。由圖4可以看出:本文方法提取的軌跡不僅具有較好的連續(xù)性,而且絕大部分位于行為區(qū)域;當視頻中存在相機運動時,傳統(tǒng)的稠密跟蹤方法不僅在行為區(qū)域,而且在背景區(qū)域也會產生大量軌跡。
圖4 本文方法和傳統(tǒng)稠密方法的行為區(qū)域軌跡比較
為了驗證本文方法的識別性能,分別在2個數據集Hollywood2和YouTuber計算本文方法(SDT)、傳統(tǒng)稠密軌跡方法(DT)以及兩者視頻級特征級聯方法(SDT+DT)的總體識別結果,如表1所示。由表1可見,在2個數據集上,SDT的識別結果都明顯優(yōu)于DT,而二者級聯能夠進一步提高識別率。圖5比較了本文方法(SDT)和傳統(tǒng)稠密軌跡跟蹤方法(DT)對2個數據集上的4個特征的識別結果。由圖5不難看出,在2個數據集上,SDT各個特征的識別率都優(yōu)于DT。
表1 采用SDT、DT方法及兩者特征級聯SDT+ DT方法在2個數據集上的總體識別結果
(a)Hollywood2
(b)YouTube圖5 本文方法和傳統(tǒng)稠密軌跡跟蹤方法對2個數據集上的4個特征的識別率比較
為了進一步驗證本文行為識別方法的有效性,將其和現有文獻中的稠密軌跡跟蹤法[1]及其他改進方法[2,3,5,17-19]進行比較。表2列出了本文與文獻[1-3,5,17]在Hollywood2數據集上的最優(yōu)識別結果,通過比較可以看出,本文方法的識別率雖然稍低于文獻[2]中的方法,但明顯高于其他文獻中的方法。本文方法與文獻[1,17-19]方法在YouTube數據集上的最優(yōu)識別結果如表3所示,顯然本文方法獲得了最高的識別率。
表2 本文方法與5種現有文獻方法在Hollywood2 數據集上的識別率比較
表3 本文方法與4種現有文獻方法在YouTube 數據集上的識別率比較
本文針對稠密軌跡行為識別法存在的問題,采用一種兩階段顯著性檢測方法獲取視頻中的行為區(qū)域,并提取行為區(qū)域軌跡用于行為識別。第1階段通過低秩矩陣恢復算法檢測初始顯著性,并據此將子視頻劃分為候選前景和絕對背景;第2階段利用稀疏表示算法獲取候選前景的細化顯著性。這種檢測方法能夠以更高的對比度突出行為區(qū)域,抑制背景區(qū)域。此外,以子視頻和塊為基礎,考慮了顯著性時空相關性,增強了檢測到的行為區(qū)域的時空連續(xù)性,有利于提高軌跡的連續(xù)性和完整性。實驗結果表明,無論視頻是否包含相機運動,本文方法都能較好地檢測其中的行為區(qū)域,獲取的行為識別結果優(yōu)于傳統(tǒng)稠密軌跡法和大部分改進方法。
[1] WANG H, KLASER A, SCHMID C, et al. Dense trajectories and motion boundary descriptors for action recognition [J]. International Journal of Computer Vision, 2013, 103: 60-79.
[2] WANG H, SCHMID C. Action recognition with improved trajectories [C]∥Proceedings of IEEE International Conference on Computer Vision. Piscataway, NJ, USA: IEEE, 2013: 3551-3558.
[3] JAIN M, JEGOU H, BOUTHEMY P. Better exploiting motion for better action recognition [C]∥Proceedings of IEEE Conference on Computer Vision and Pattern Recognition. Piscataway, NJ, USA: IEEE, 2013: 2555-2562.
[4] WANG X, QI C. Saliency-based dense trajectories for action recognition using low-rank matrix decomposition [J]. Journal of Visual Communication & Image Representation, 2016, 47: 361-374.
[5] VIG E, DORR M, COX D. Space-variant descriptor sampling for action recognition based on saliency and eye movements [C]∥Proceedings of 12th European Conference on Computer Vision. Berlin, Germany: Springer, 2012: 84-97.
[6] SOMASUNDARAM G, CHERIAN A, MORELLAS V, et al. Action recognition using global spatio-temporal features derived from sparse representations [J]. Computer Vision and Image Understanding, 2014, 123(7): 1-13.
[7] 方志明, 崔榮一, 金璟璇. 基于生物視覺特征和視覺心理學的視頻顯著性檢測算法 [J]. 物理學報, 2017, 66(10): 319-332. FANG Zhiming, CUI Rongyi, JIN Jingxuan. Video saliency detection algorithm based on biological visual feature and visual psychology theory [J]. Acta Physica Sinica, 2017, 66(10): 319-332.
[8] LIU Z, LI J, YE L, et al. Saliency detection for unconstrained videos using superpixel-level graph and spatiotemporal propagation [J]. IEEE Transactions on Circuits & Systems for Video Technology, 2017, 27(12): 2527-2542.
[9] 陳昶安, 吳曉峰, 王斌, 等. 復雜擾動背景下時空特征動態(tài)融合的視頻顯著性檢測 [J]. 計算機輔助設計與圖形學學報, 2016, 28(5): 802-812. CHEN C A, WU X F, WANG B, et al. Video saliency detection using dynamic fusion of spatial-temporal features in complex background with disturbance [J]. Journal of Computer-Aided Design & Computer Graphics, 2016, 28(5): 802-812.
[10]CANDES E J, LI X, MA Y, et al. Robust principal component analysis? [J]. Journal of the ACM, 2011, 58(3): 11.
[11]WRIGHT J, YANG A Y, GANESH A, et al. Robust face recognition via sparse representation [J]. IEEE Transactions on Pattern Analysis and Machine Intelligence, 2009, 31(2): 210-227.
[12]LIN Z, CHEN M, MA Y. The augmented Lagrange multiplier method for exact recovery of corrupted low-rank matrices [EB/OL]. (2013-10-18) [2015-12-10]. https: ∥arxiv.org/pdf/1009.5055v3.pdf.
[13]MAIRAL J. SPAMS: a sparse modeling software, v2.5 [EB/OL]. (2014-05-25) [2015-12-26]. http: ∥spams-devel. gforge.inria. fr.
[14]MARSZALEK M, LAPTEV I, SCHMID C. Actions in context [C]∥Proceedings of IEEE Conference on Computer Vision and Pattern Recognition. Piscataway, NJ, USA: IEEE, 2009: 2929-2936.
[15]LIU J, LUO J, SHAH M. Recognizing realistic actions from videos in the wild [C]∥Proceedings of IEEE Conference on Computer Vision and Pattern Recognition. Piscataway, NJ, USA: IEEE, 2009: 1996-2003.
[16]WANG Xiaofang, QI Chun. LIN Fei. Combined trajectories for action recognition based on saliency detection and motion boundary [J]. Signal Processing Image Communication, 2017, 57: 91-102.
[17]CHO J, LEE M, CHANG H J, et al. Robust action recognition using local motion and group sparsity [J]. Pattern Recognition, 2014, 47(5): 1813-1825.
[18]PENG X, QIAO Y, PENG Q. Motion boundary based sampling and 3D co-occurrence descriptors for action recognition [J]. Image and Vision Computing, 2014, 32(9): 616-628.
[19]WU J, ZHANG Y, LIN W. Towards good practices for action video encoding [C]∥Proceedings of IEEE Conference on Computer Vision and Pattern Recognition. Piscataway, NJ, USA: IEEE, 2014: 2577-2584.