王智文 蔣聯(lián)源 王宇航 王日鳳 張燦龍 黃鎮(zhèn)謹 王鵬濤
摘要:為提高足球比賽視頻中的多運動員行為識別的準確率,提出一種基于尺度自適應局部時空特征的足球比賽視頻中的多運動員行為表示方法,利用時空興趣點來表示足球比賽視頻中的多運動員行為。首先將足球比賽視頻序列中的多運動員行為看作是三維空間中的時空興趣點的集合,然后采用直方圖量化技術將時空興趣點集合量化為維數(shù)固定的直方圖(即時空單詞),最后采用K-means聚類算法生成時空碼本。在聚類生成碼本之前,對每個時空興趣點都進行了歸一化,以保證其縮放和平移不變性。實驗結果表明,該方法能夠大大減少足球比賽視頻中的多運動員行為識別算法的計算量,顯著提高識別的準確率。
關鍵詞:時空興趣點;多運動員行為表示;行為識別;K-means聚類算法;時空特征檢測操作數(shù)
中圖分類號:TP311; TP391
文獻標志碼:A
0引言
足球比賽視頻中多運動員行為表示的好壞會直接影響行為識別的準確率。在足球比賽中的多運動員行為分析和識別過程中,選取的特征越多,對行為的描述也就越充分;但是選取過多的特征會導致數(shù)據(jù)間的冗余過大,特征向量的維數(shù)過高,數(shù)據(jù)分布的本質(zhì)規(guī)律不容易被發(fā)現(xiàn),訓練行為識別模型所需的數(shù)據(jù)量過大,算法的計算量大,不利于行為識別的實時性處理。因此,足球比賽視頻中的多運動員行為識別研究的關鍵問題是如何有效地描述提取的特征才能夠很好地表征行為。
1相關研究
過去研究者對行為表示進行了廣泛的研究,其中比較典型的研究有:Bobick等[1]利用減背景法推導出時間模板的表示,該行為表示方法簡單,但容易受噪聲影響。Wang等[2]采用自適應多閾值選擇光流特征作為行為的表示來識別足球比賽視頻中的團隊行為,但研究局限于處理三類團隊行為,且易受噪聲干擾。文獻[3]采用時間序列的因果關系來描述成對行為,并利用空間行為軌跡匹配來識別人類行為,但難以被推廣到多運動員的行為識別中來。文獻[4]用一個完整的四維對象實時交互張量來描述團隊行為模式,通過學習并優(yōu)化張量積來減少內(nèi)核,使它凝聚到一個可區(qū)別的時空互動矩陣中。在視覺變化的情況下,用來簡潔描述團隊行為模式的時間互動矩陣被證實是穩(wěn)定的。更重要的是,給定一個黎曼度量,所有時空互動矩陣集形成一個黎曼流形,可用來建立概率框架,特征化團隊行為模式每個類,但實現(xiàn)起來比較困難。文獻[5]提出目標之間結構化的相互作用模型,使用基于目標的原語和低階時空關系集成的概率框架從含噪聲的感知數(shù)據(jù)中識別出結構嚴密、高度結構化的多人行為。基于模型的目標識別和概率計劃識別的表示基于下面四個主要假設:1)在智能體之間從事團隊活動時,單個智能體目標是指定時空關系的天然的原子表示單位;2)在高度結構化的多智能體的行為識別過程中,行為的時間結構的高層次描述使用較少的低階時空關系集和邏輯限制就足以表達智能體之間的關系;3)貝葉斯網(wǎng)絡為不確定的視覺感知特征的多種來源提供了一種適當?shù)娜诤蠙C制;4)可以用自動生成的貝葉斯網(wǎng)絡來融合不確定時態(tài)信息和對象軌跡數(shù)據(jù)集,識別一個特定的多智能體的行為。假設的限制容易引起標記的偏置問題,且難以實現(xiàn)。文獻[6]引入了一個能明確對動態(tài)團隊成員進行編碼和適應計劃識別形式的多智能體計劃表示法。從多智能體計劃表示法中提取的局部時間依賴性能夠有效地修剪潛在的團隊計劃的假設集,但修剪過程比較費時,不能滿足實時足球比賽行為識別的要求。文獻[7]在無監(jiān)督的時間分割過程中提出了一種基于動態(tài)時間序列的高斯混合模型匹配行為的行為識別方法。該方法假定行為數(shù)據(jù)是一個能夠充分描述的多單向標簽,利用了時空特征,通過假設行為的優(yōu)先級順序來識別多人行為;但是在團隊行為識別的特征子集中會出現(xiàn)多個同時事件,而且在特殊情況下,事先設定的優(yōu)先級高的行為可能是不重要的行為,這樣會影響多運動員行為識別的準確性。文獻[8]提出利用濃密軌跡和運動邊界進行行為識別。首先,用軌跡來捕獲視頻的局部運動信息;然后,密集軌跡的表示保證良好地覆蓋前景運動以及周圍的背景;最后,利用一種最先進的光流算法確保提取密集軌跡的魯棒性和有效性。文獻[9]為人的屬性和行為識別提出擴展的部分模型。該模型依賴于收集的部分模板,通過學習區(qū)別地解釋圖像中特定的尺度空間位置(人類為中心的坐標)。它避免了高度結構化的模型限制,提出了用一個自動挖掘算法來學習相應的區(qū)分性模板來識別人類行為。Laptev[10]為視頻數(shù)據(jù)的簡潔表示提出了時空興趣點,并探討了利用時空興趣點來描述人的行為的優(yōu)勢。借鑒Laptev[10]的思想,本文提出基于尺度自適應局部時空特征來表示足球比賽視頻中的多運動員行為。通過提取不隨視頻圖像的縮放和平移而變化的稀疏時空特征來表示多運動員行為,減少多運動員行為識別算法的計算量,提高多運動員行為識別的準確率和實時性。
2尺度自適應局部時空特征檢測操作數(shù)
本文借鑒Lindeberg[11]關于空間中局部尺度特征自適應選擇的方法,將Harris檢測操作數(shù)推廣到足球比賽視頻時空域中,提出了尺度自適應局部時空特征檢測算法(見算法1)。算法的主要思想是在局部時空域中定義一個能同時在時間和空間維上取得極大值的差分操作數(shù)。采用歸一化的Laplace操作數(shù)來估計局部尺度。利用式(1)將Harris時空興趣點檢測操作數(shù)和Laplace操作數(shù)相結合推導出Harris-Laplace時空興趣點檢測操作數(shù)。
2.1局部時空特征描述子
足球比賽視頻中局部區(qū)域的表示是一個開放性的問題。本文利用方向梯度直方圖(Histogram oriented Gradient,HoG)描述子將足球比賽視頻視為“時空”長方體,并將HoG描述子推廣到三維足球比賽視頻圖像中。
對于一個局部時空感興趣區(qū)域,局部描述子用一個特征向量來表示該區(qū)域。圖像或者整個足球比賽視頻序列可表示為一組在不同的尺度和位置下的特征向量集。為了能有效地利用局部特征向量來進行足球比賽視頻中的多運動員行為的識別,客觀上要求這些特征描述子具有比較強的區(qū)分能力,同時又不受光照、輕微形變等干擾因素的影響。將HoG描述子推廣到3D的計算流程如圖1所示,其中涉及到的關鍵計算有:平均梯度計算、方向梯度量化的計算和直方圖計算。
2.2直方圖計算
方向梯度的直方圖需要在一個梯度向量的集合中進行計算。具體計算方法如下:對于一個給定的立方體c=(xc,yc,tc,lc,wc,hc),將其分為S×S×S個子塊bi。對于每個子塊,利用式(8)來計算其平均梯度,然后將bi量化為qbi。對于每個區(qū)域c,通過求和量化后的均值梯度向量來計算其直方圖hc。
4實驗結果分析
本文使用2010年南非世界杯64場比賽、2009—2010年亞洲杯預選賽32場比賽及2010年意甲比賽部分比賽視頻作為數(shù)據(jù)集。為了在不同光線條件和球員穿著不同衣服的情況下測試系統(tǒng),從不同的天氣條件(晴天、陰天、雨天)和不同光照條件(自然或人工照明)下的不同球隊之間的比賽中挑選出12個測試序列。序列時長為3min,每個視角大約5000幀。手動標記圖像序列來疊加每個球員和球,限位框被用作真實值來評價算法的性能。在視頻圖像預處理過程中,利用筆者提出的基于多元統(tǒng)計模型的分形小波自適應圖像去噪算法[13]進行去噪,以便得到具有更好特征結構的圖像。通過檢測H中的正的局部時空極大值來檢測足球比賽視頻圖像序列v中的時空興趣點。檢測結果如圖2所示,可以看出,本文使用尺度自適應局部時空興趣點來表示多運動員行為時, 能夠大大減少識別多運動員行為算法的計算量。
本文利用以下方法進行行為識別:
文獻[1]提出的減背景法推導出時間模板的行為表示,
文獻[2]提出的行為特征的光流表示,
文獻[4]提出的四維對象實時交互張量行為表示方法,
文獻[8]提出利用濃密軌跡和運動邊界法,
文獻[9]提出的擴展的部分模型以及本文提出的基于尺度自適應局部時空特征的行為表示方法。
為了分析這六種算法在足球比賽視頻
行為識別中表現(xiàn)出的性能,分別在開放性數(shù)據(jù)集ucf sports中選取Kicking-Side視頻和上述自采集的視頻進行實驗,并從平均每幀提取的特征向量維數(shù)、算法處理每幀圖像運行的平均時間以及行為識別的準確率三個方面進行比較,結果如表1所示。
由表1可以看出, 對Kicking-Side視頻中行為進行識別時,每種算法需要提取的特征向量維數(shù)及計算機處理時間明顯要小于自采集的足球比賽視頻,行為識別的準確率明顯高于自采集的足球比賽視頻,其原因是由于該視頻中行為的復雜度相對低,行為發(fā)生過程中不存在著運動員之間的相互遮擋及自遮擋。文獻[1]提出的減背景法行為表示方法簡單,但提取的特征維數(shù)最多且容易受噪聲影響;文獻[2]提出的光流表示法局限于只能處理3類多運動員行為,且易受噪聲干擾;文獻[4]提出的四維對象實時交互張量行為表示方法在建立概率框架特征化多運動員行為模式每個類的過程中實現(xiàn)非常困難,處理每幀圖像需要的時間最多。文獻[8-9]使用了低層特征進行行為識別,行為識別準確率較低,而本文提出方法在性能上明顯優(yōu)于對比方法。
5結語
本文借鑒Lindeberg空間中局部尺度特征自適應選擇方法,提出基于尺度自適應局部時空特征的足球比賽視頻中的多運動員行為表示。該方法能有效地提取用于識別多運動員行為的時空特征,減少提取特征向量的維數(shù)及處理每幀視頻圖像的平均運行時間,提高多運動員行為識別的準確率。
參考文獻:
[1]BOBICK A F, DAVIS J W. The recognition of human movement using temporal templates [J]. IEEE Transactions on Pattern Analysis and Machine Intelligence, 2001, 23(3):257-267.
[2]WANG L, YUNG N H C. Extraction of moving objects from their background based on multiple adaptive thresholds and boundary evaluation [J]. IEEE Transactions on Intelligent Transportation Systems, 2010, 11(1): 40-51.
[3]SHAO Z, LI Y. Integral invariants for space motion trajectory matching and recognition [J]. Pattern Recognition, 2015, 48(8): 2418-2432.
[4]PEHLIVAN S, FORSYTH D A. Recognizing activities in multiple views with fusion of frame judgments [J]. Image and Vision Computing, 2014, 32(4): 237-249.
[5]CHO S, KWAK S, BYUN H. Recognizing human-human interaction activities using visual and textual information [J]. Pattern Recognition Letters, 2013, 34(15): 1840-1848.
[6]ALTUN K, MACLEANB K E. Recognizing affect in human touch of a robot [J].Pattern Recognition Letters, 2015, 66(15): 31-40.
[7]FIELDA M, STIRLINGA D, PAN Z, et al. Recognizing human motions through mixture modeling of inertial data [J]. Pattern Recognition, 2015, 48(8): 2394-2406.
[8]WANG H, KLSER A, SCHMID C, et al. Dense trajectories and motion boundary descriptors for action recognition [J]. International Journal of Computer Vision, 2013, 103(1):60-79.
[9]SHARMA G, JURIE F, SCHMID C. Expanded parts model for human attribute and action recognition in still images [C]// CVPR 13: Proceedings of the 2013 IEEE Conference on Computer Vision and Pattern Recognition. Washington, DC: IEEE Computer Society, 2013: 652-659.
[10]LAPTEV I. On space-time interest points [J]. International Journal of Computer Vision, 2005, 64(2): 107-123.
[11]LINDEBERG T. Feature detection with automatic scale selection [J]. International Journal of Computer Vision, 1998, 30(2): 77-116.
[12]VIOLA P, JONES M. Rapid object detection using a boosted cascade of simple features [C]// CVPR 01: Proceedings of the 2001 IEEE Computer Society Conference on Computer Vision and Pattern Recognition. Washington, DC: IEEE Computer Society, 2010: 511-518.
[13]王智文,李紹滋.基于多元統(tǒng)計模型的分形小波自適應圖像去噪[J].計算機學報,2014,37(6):1380-1389. (WANG Z W, LI S Z. Adaptive fractal-wavelet image denoising base on multivariate statistical model [J]. Chinese Journal of Computers, 2014, 37(6): 1380-1389.