劉博,卿粼波,王正勇,劉美,姜雪
基于分塊注意力機(jī)制和交互位置關(guān)系的群組活動識別
劉博,卿粼波,王正勇*,劉美,姜雪
(四川大學(xué) 電子信息學(xué)院,成都 610065)( ? 通信作者電子郵箱690728634@sina.com)
復(fù)雜場景下的群體活動識別是一項(xiàng)具有挑戰(zhàn)性的任務(wù),它涉及一組人在場景中的相互作用和相對空間位置關(guān)系。針對當(dāng)前復(fù)雜場景下群組行為識別方法缺乏精細(xì)化設(shè)計(jì)以及沒有充分利用個(gè)體間交互式特征的問題,提出了基于分塊注意力機(jī)制和交互位置關(guān)系的網(wǎng)絡(luò)框架,進(jìn)一步考慮個(gè)體肢體語義特征,同時(shí)挖掘個(gè)體間交互特征相似性與行為一致性的關(guān)系。首先,采用原始視頻序列和光流圖像序列作為網(wǎng)絡(luò)的輸入,并引入一種分塊注意力模塊來細(xì)化個(gè)體的肢體運(yùn)動特征;然后,將空間位置和交互式距離作為個(gè)體的交互特征;最后,將個(gè)體運(yùn)動特征和空間位置關(guān)系特征融合為群體場景無向圖的節(jié)點(diǎn)特征,并利用圖卷積網(wǎng)絡(luò)(GCN)進(jìn)一步捕獲全局場景下的活動交互,從而識別群體活動。實(shí)驗(yàn)結(jié)果表明,此框架在兩個(gè)群組行為識別數(shù)據(jù)集(CAD和CAE)上分別取得了92.8%和97.7%的識別準(zhǔn)確率,在CAD數(shù)據(jù)集上與成員關(guān)系圖(ARG)和置信度能量循環(huán)網(wǎng)絡(luò)(CERN)相比識別準(zhǔn)確率分別提高了1.8個(gè)百分點(diǎn)和5.6個(gè)百分點(diǎn),同時(shí)結(jié)合消融實(shí)驗(yàn)結(jié)果驗(yàn)證了所提算法有較高的識別精度。
群組活動識別;注意力機(jī)制;交互關(guān)系;視頻理解;圖卷積網(wǎng)絡(luò)
群體活動識別是視頻理解中的一個(gè)重要課題[1-2],視頻理解具有許多實(shí)際應(yīng)用,如視頻監(jiān)控、體育視頻分析和社會行為理解等。為了理解多人場景中發(fā)生了什么,設(shè)計(jì)模型不僅需要描述個(gè)體在場景中的行為活動,還需要對多個(gè)目標(biāo)之間存在的復(fù)雜交互關(guān)系進(jìn)行建模[3-4],因此群組活動需要挖掘如下信息,包括身體區(qū)域、個(gè)體、群體及其相互依賴性,整合3個(gè)層次的信息(身體運(yùn)動區(qū)域、個(gè)體行為和群體活動)以及它們的潛在關(guān)系并構(gòu)建統(tǒng)一的群體活動識別框架。
近來,深度學(xué)習(xí)方法在視頻群組活動識別中顯示出良好的效果[3,5]?,F(xiàn)有的方法[3,6]通常采用卷積神經(jīng)網(wǎng)絡(luò)(Convolutional Neural Network, CNN)提取個(gè)體級別特征,然后設(shè)計(jì)一個(gè)全局模塊來聚合個(gè)體特征以生成場景級特征。但是空間維度上不靈活的層次關(guān)系建模方法和淺層次語義的圖像特征提取方法存在一定的缺陷[3],且還需要預(yù)先指定場景中個(gè)體數(shù)量。時(shí)間維度運(yùn)動特征通常使用遞歸神經(jīng)網(wǎng)絡(luò)(Recurrent Neural Network, RNN)來模擬密集采樣幀的時(shí)間變化[7],這些方法受限于場景中的人數(shù)和場景復(fù)雜多變的情況,而且模型的計(jì)算成本很高,有時(shí)還缺乏處理群體活動變化的靈活性。同時(shí),一些方法[8-9]不僅不能充分利用個(gè)人行為和群體活動特征,而且還打破了個(gè)體和身體區(qū)域之間潛在的時(shí)空依賴關(guān)系。
為此本文采用群組分塊模型捕獲細(xì)粒度的單人肢體運(yùn)動特征,具體地說,可以同時(shí)捕獲:1)空間域內(nèi)上肢與下肢運(yùn)動特征節(jié)點(diǎn)之間的空間依賴關(guān)系;2)時(shí)間域內(nèi)增加了基于融合光流特征的個(gè)體時(shí)間依賴關(guān)系。
除了細(xì)化個(gè)體運(yùn)動特征外,本文引入空間位置交互關(guān)系特征來捕捉個(gè)體之間的空間位置相關(guān)性與行為一致性,進(jìn)而成為群組活動識別的潛在特征。兩個(gè)特征模塊具有較高的可移植性,可加入到現(xiàn)有的框架探索群體的時(shí)空依賴關(guān)系。
最后融合個(gè)體運(yùn)動特征和空間位置關(guān)系,將其作為圖卷積網(wǎng)絡(luò)(Graph Convolutional Network, GCN)的輸入,從而推理復(fù)雜場景中的群體活動。
本文網(wǎng)絡(luò)框架如圖1。第一條分支中,場景特征提取模塊的兩路圖像融合特征作為分塊注意力模塊的輸入,用以捕獲個(gè)體的運(yùn)動細(xì)節(jié);第二條分支為空間交互關(guān)系模塊,基于空間位置處理出交互特征。最后融合兩個(gè)分支特征輸入到圖卷積關(guān)系融合模塊,用以推理視頻序列的群組活動。本文網(wǎng)絡(luò)框架包括的4個(gè)主要模塊如下:
場景特征輸入模塊 本文選取原始視頻序列和預(yù)處理后的光流序列作為系統(tǒng)輸入,每一幀序列中包括個(gè)邊界框。本文采用Inception-v3[10]為每幀圖像提取全局場景特征圖。
分塊注意力特征模塊 采用區(qū)域特征聚集方法(Regions of Interest Align, RoI Align)[11]提取參與者的分塊區(qū)域特征。對分塊區(qū)域特征執(zhí)行全連接層操作,得到每個(gè)參與者分塊區(qū)域的512維外觀特征向量。然后,采用注意力機(jī)制關(guān)注相應(yīng)分塊區(qū)域的重要程度。
空間交互關(guān)系模塊 上述提取到的個(gè)體行為特征不包含情景交互信息,比如個(gè)體與個(gè)體的交互、個(gè)體與群組的交互、個(gè)體的空間信息等。因此,此模塊引入交互式空間位置特征,包括個(gè)體邊界框的位置向量、個(gè)體與場景中其他個(gè)體的相對距離向量。個(gè)體交互式特征向量執(zhí)行全連接層操作得到高維度交互式活動特征。
圖卷積關(guān)系融合模塊 將時(shí)空個(gè)體分塊行為模塊與交互式空間關(guān)系模塊的輸出融合作為無向圖的節(jié)點(diǎn)特征,采用圖卷積神經(jīng)網(wǎng)絡(luò)捕獲個(gè)體之間的深層次交互關(guān)系特征。然后對圖中所有節(jié)點(diǎn)的交互式關(guān)系特征進(jìn)行池化融合,最后通過全連接層決策輸出最終的群組活動識別。
圖1 群組行為識別的網(wǎng)絡(luò)框架
個(gè)體行為大部分來自個(gè)體的肢體細(xì)節(jié)動作特征[12],如圖2,本文根據(jù)肢體語義將個(gè)體的邊界框劃分為兩個(gè)肢體運(yùn)動區(qū)塊(上半身區(qū)域主要包括手臂動作,下半身區(qū)域包括腿部動作),給定每幀序列包含個(gè)參與者的邊界框。通過對個(gè)體劃分區(qū)塊,得到2×個(gè)區(qū)域框。使用RoI Align[11]來提取每個(gè)參與者的運(yùn)動區(qū)塊特征,每個(gè)參與者對應(yīng)2個(gè)運(yùn)動區(qū)塊特征和1個(gè)原始區(qū)域特征,然后對參與者的運(yùn)動特征區(qū)塊分別應(yīng)用注意力機(jī)制,將其作為個(gè)體時(shí)空運(yùn)動的行為特征。
圖2 分塊注意力機(jī)制
注意力機(jī)制為關(guān)注的上下肢體運(yùn)動區(qū)塊特征分配相應(yīng)的注意力權(quán)重,為目標(biāo)行為提供更加重要的細(xì)節(jié)。本文將分割后的肢體運(yùn)動區(qū)塊特征和原始個(gè)體區(qū)域特征傳送到注意力模型中,并將全局的個(gè)體特征用于最終的局部肢體運(yùn)動特征的引導(dǎo)和優(yōu)化。計(jì)算式如下:
結(jié)合文獻(xiàn)[6],圖結(jié)構(gòu)中各個(gè)節(jié)點(diǎn)可以用于模擬空間中個(gè)體狀態(tài),各節(jié)點(diǎn)之間邊的連接和邊上的權(quán)重可以用于模擬個(gè)體之間的交互。圖卷積網(wǎng)絡(luò)通過訓(xùn)練以及節(jié)點(diǎn)間的信息傳遞將個(gè)體的狀態(tài)與其他個(gè)體交互進(jìn)而得到高層次的群體活動特征。
圖3 空間交互關(guān)系特征模塊
對于圖中的目標(biāo)節(jié)點(diǎn)與相鄰節(jié)點(diǎn)通過邊的權(quán)值學(xué)習(xí)特征。形式上,一層GCN可以寫成:
首先介紹兩個(gè)廣泛使用的數(shù)據(jù)集以及實(shí)驗(yàn)參數(shù)等細(xì)節(jié),然后將本文的方法與當(dāng)前比較先進(jìn)方法的準(zhǔn)確率對比。為驗(yàn)證各個(gè)模塊對實(shí)驗(yàn)結(jié)果的貢獻(xiàn)設(shè)計(jì)了幾個(gè)基線網(wǎng)絡(luò),在兩個(gè)群體活動數(shù)據(jù)集進(jìn)行對比研究。最后,實(shí)驗(yàn)結(jié)果表明本文提出兩個(gè)模塊與GCN同時(shí)使用時(shí)在群組行為識別具有一定的優(yōu)越性。
CAD(Collective Activity Dataset)[4]包含44個(gè)短視頻序列(大約2 500幀),共包含6種個(gè)體行為(無效值(NA)、橫穿(Crossing)、等待(Waiting)、排隊(duì)(Queuing)、行走(Walking)和交談(Talking)),其中團(tuán)體活動標(biāo)簽是由大多數(shù)人參與的活動定義的,將其定義為5種群體活動(橫穿、等待、排隊(duì)、行走和交談)。選取1/3的視頻序列進(jìn)行測試,其余的進(jìn)行訓(xùn)練[14]。CAE(Collective Activity Extended)數(shù)據(jù)集[15]在CAD上作了擴(kuò)充,增加了2個(gè)新的群組活動類型(慢跑、跳舞)。由于將比較模糊的Crossing、Walking合并為Moving群組活動,CAE數(shù)據(jù)集的群組行為識別的效果明顯提升。
本實(shí)驗(yàn)在pytorch框架下,使用一塊NVIDIA 2080Ti GPU對網(wǎng)絡(luò)模型進(jìn)行訓(xùn)練,內(nèi)存大小11×109B。采用RoI Align提取個(gè)體的區(qū)塊特征,其維度為1 056×5×5,通過全連接層將區(qū)塊特征維度變?yōu)?12的特征向量,同時(shí)將位置和距離向量通過全連接層變?yōu)?28維。在CAD數(shù)據(jù)集上,訓(xùn)練集和測試集批量大小分別為8和4,第一階段訓(xùn)練集迭代了100次,學(xué)習(xí)率設(shè)置為1E-5;第二階段共迭代了80次,學(xué)習(xí)率設(shè)置為1E-4。在CAE數(shù)據(jù)集上,訓(xùn)練集設(shè)置批量大小為9,測試集為4,兩個(gè)階段學(xué)習(xí)率與CAD數(shù)據(jù)集基本一致,第一階段共迭代60次,初始學(xué)習(xí)率為1E-5;第二階段共迭代50次,學(xué)習(xí)率設(shè)置為1E-4。
本文的方法超越了多數(shù)現(xiàn)有的方法,SBGAR(Semantics Based Group Activity Recognition)[16]采用兩階段的LSTM(Long Short-Term Memory)預(yù)測場景語義描述信息,但此方法不僅需要詞匯標(biāo)簽而且第一階段的預(yù)測詞匯的準(zhǔn)確率影響到第二階段活動識別準(zhǔn)確率;置信度能量循環(huán)網(wǎng)絡(luò) (Confidence Energy Recurrent Network, CERN)[17]采用置信度和能量層增加了活動識別的松弛條件,但是相比本文在精細(xì)化個(gè)體特征提取部分存在缺陷;MMRR(Multiple Modality Relation Representation)[18]考慮了將時(shí)空特征引入GRU(Gate Recurrent Unit)推理模塊,但是本文在交互特征設(shè)計(jì)方面優(yōu)于MMRR,因此使用相同的Inception-v3[5]骨架網(wǎng)絡(luò)情況下,本文群體活動識別的準(zhǔn)確率比MMRR的性能要高1.6個(gè)百分點(diǎn)。同時(shí),本文方法優(yōu)于現(xiàn)有的其他基于個(gè)體的時(shí)間序列[3,14,16]的方法,這主要是因?yàn)楸疚膶ν庥^語義信息和交互位置關(guān)系圖進(jìn)行了有效建模。
與其他先進(jìn)的方法在CAE數(shù)據(jù)集對比結(jié)果如表2所示,本文方法設(shè)計(jì)的高層次語義個(gè)體特征和群組交互特征的網(wǎng)絡(luò)框架在群組活動識別建模中能達(dá)到較好的效果。與采用單一靜態(tài)圖像特征的方法RSTV+MRF(Randomized Spatio-Temporal Volume+ Random Forest)[15]相比,本文考慮了增加時(shí)間維度的特征,而且融合空間交互式模塊挖掘基于位置的個(gè)體關(guān)系特征。Hypergraphs Model[21]引入軌跡跟蹤對群組活動建模,因此需要提取視頻軌跡信息,而本文設(shè)計(jì)的特征模塊方便理解其物理意義且具有較高的可移植性。
表1 不同方法在CAD數(shù)據(jù)集上的準(zhǔn)確率 單位:%
表2 不同方法在CAE數(shù)據(jù)集上的準(zhǔn)確率 單位:%
為了檢驗(yàn)該方法中每個(gè)成分的有效性,本文對各模塊進(jìn)行了消融研究。
Baseline1為RGB圖和光流圖作為輸入,通過CNN提取RGB和光流視頻特征,并采用RoI Align提取個(gè)體特征,最后采用最大池化策略融合場景中所有個(gè)體的特征進(jìn)而識別群組活動。
Baseline2在Baseline1的基礎(chǔ)上將個(gè)體特征放入GCN中提取高層次的交互式特征,最后采用最大池化策略融合場景中所有個(gè)體的特征進(jìn)而識別群組活動。
Baseline3為RGB圖+光流圖+個(gè)體注意力行為模塊+GCN,在Baseline2的基礎(chǔ)之上增加了分塊注意力特征模塊,從而提取精細(xì)化個(gè)體行為特征。
Baseline4在Baseline2的基礎(chǔ)之上增加了空間位置交互特征模塊。
本文方法為RGB圖+光流圖+個(gè)體注意力行為特征模塊+交互式空間位置關(guān)系特征模塊+GCN。
本文設(shè)計(jì)上述Baseline在群體活動數(shù)據(jù)集上進(jìn)行了詳細(xì)的消融研究,以了解所提出的模型組件對群組活動關(guān)系建模的貢獻(xiàn),評估群體活動識別精度。
在基線對比實(shí)驗(yàn)中,使用以下兩個(gè)指標(biāo):1)多類別準(zhǔn)確率(MCA),即正確預(yù)測的百分比;2)每類平均準(zhǔn)確率(MPCA),即每個(gè)類別預(yù)測的平均準(zhǔn)確率。
實(shí)驗(yàn)結(jié)果如表3,可以得出以下結(jié)論:對比Baseline1、Baseline2、Baseline3、Baseline4可以發(fā)現(xiàn),Baseline2相對于Baseline1的MCA沒有太多提升,GCN提取交互式特征的基礎(chǔ)取決于更高層次和更細(xì)微的個(gè)體時(shí)空行為特征;Baseline3增加的分塊注意力模塊可以提取更加細(xì)微的個(gè)體時(shí)空特征,因此比Baseline2的MCA高1.96個(gè)百分點(diǎn);Baseline4增加了空間位置信息和交互式距離信息,在CAD數(shù)據(jù)集中具有明顯的效果,同時(shí)交互式空間位置關(guān)系特征模塊有助于GCN學(xué)習(xí)到更深層次的交互式特征。同時(shí)從交互式空間位置與個(gè)體時(shí)空信息學(xué)習(xí)到的特征存在差異性,交互式空間位置模塊可以比較有效地識別橫穿(Crossing)和等待(Waiting)兩種活動。最后本文方法的多類別MCA和MPCA要比Baseline都高,表明融合兩個(gè)模塊特征有助于提升群組行為識別的準(zhǔn)確率。
表3 本文方法與基線方法在CAD數(shù)據(jù)集上的準(zhǔn)確率對比 單位:%
在CAE數(shù)據(jù)集做消融實(shí)驗(yàn)得到結(jié)果如表4所示,對比Baseline2和Baseline3結(jié)果表明增加個(gè)體注意力行為模塊可以提升2.1個(gè)百分點(diǎn)的準(zhǔn)確率,本文方法與Baseline3對比表明空間位置交互模塊可以顯著提升最終群組活動識別效果。
表4 本文方法與基線方法在CAE數(shù)據(jù)集上的準(zhǔn)確率對比 單位:%
圖4為不同方法在訓(xùn)練過程中的損失函數(shù)變化曲線,僅有圖片特征的基線方法(Baseline1、Baseline2、Baseline3)初始的損失值較小,并且容易發(fā)生過擬合且學(xué)習(xí)不到更多有用的特征;而加入空間位置交互特征模塊(Baseline4)明顯增加了損失初值;同時(shí)本文方法與Baseline4相比收斂曲線更加平緩。最后結(jié)合表3、4結(jié)果,本文方法能有效提取行為和群組關(guān)系特征。
由圖5的混淆矩陣分析可知,排隊(duì)(Queuing)和交談(Talking)行為識別準(zhǔn)確率達(dá)到100%,跳舞(Dancing)和慢跑(Jogging)行為識別的準(zhǔn)確率達(dá)到98%。并結(jié)合圖6,表明本文方法在識別這幾類交互特征明顯的行為時(shí)具有一定的優(yōu)勢。混淆矩陣結(jié)果中靜態(tài)等待(Waiting)行為容易被識別成動態(tài)的移動行為,表明可以進(jìn)一步設(shè)計(jì)運(yùn)動特征提取模塊從而提升動靜態(tài)行為識別的準(zhǔn)確度。圖5(a)中顯示橫穿(Crossing)行為識別率最低,容易被識別成行走(Walking)行為,由于這兩種行為主要區(qū)別為背景是否為街道,導(dǎo)致兩種行為識別過程存在一定的誤判。
圖6展示了本文群組識別方法分別在兩個(gè)數(shù)據(jù)集上的部分結(jié)果。數(shù)據(jù)集中排隊(duì)(Queuing)、交談(Talking)、跳舞(Dancing)等行為具有明顯的群組結(jié)構(gòu)以及交互關(guān)系,但是等待(Waiting)、行走(Walking)和穿行(Crossing)行為多發(fā)生在公園或街道,在場景中具有一定隨機(jī)性,如圖6中等待(Waiting)行為的人周圍會有少數(shù)行走的人經(jīng)過。結(jié)合群組行為識別結(jié)果展示和圖5的混淆矩陣,表明本文方法能高效識別交互特征明顯的行為,同時(shí)在較為復(fù)雜的場景下也能達(dá)到較好的識別準(zhǔn)確率。
圖4 不同方法在兩個(gè)階段的損失函數(shù)演化曲線
圖5 CAD和CAE數(shù)據(jù)集的混淆矩陣
圖6 本文方法的群組行為識別結(jié)果
本文針對淺層個(gè)體和關(guān)系特征不能有效識別群組活動的問題,首先以個(gè)體間的時(shí)空精細(xì)化特征和空間交互關(guān)系為基礎(chǔ),然后將兩種精細(xì)化特征加入圖卷積網(wǎng)絡(luò)中做推理,最后構(gòu)建了群體活動的語義關(guān)系模型。綜合消融實(shí)驗(yàn)表明,該方法能夠?qū)W習(xí)群體活動的關(guān)系信息,并且能夠非常有效地理解公共空間場景中高層次語義活動,對于復(fù)雜場景交互活動也能得到比較好的效果。未來,將融合全局特征并且探索減少特征干擾的方式,并改進(jìn)交互式推理方式作為后續(xù)研究的提升方向。
[1] TRAN D, BOURDEV L, FERGUS R, et al. Learning spatiotemporal features with 3D convolutional networks[C]// Proceedings of the 2015 IEEE International Conference on Computer Vision. Piscataway: IEEE, 2015: 4489-4497.
[2] WANG L M, LI W, LI W, et al. Appearance-and-relation networks for video classification[C]// Proceedings of the 2018 IEEE/CVF Conference on Computer Vision and Pattern Recognition. Piscataway: IEEE, 2018: 1430-1439.
[3] IBRAHIM M S, MURALIDHARAN S, DENG Z W, et al. A hierarchical deep temporal model for group activity recognition[C]// Proceedings of the 2016 IEEE Conference on Computer Vision and Pattern Recognition. Piscataway: IEEE, 2016: 1971-1980.
[4] CHOI W, SHAHID K, SAVARESE S. What are they doing?: collective activity classification using spatio-temporal relationship among people[C]// Proceedings of the IEEE 12th International Conference on Computer Vision Workshops. Piscataway: IEEE, 2009: 1282-1289.
[5] BAGAUTDINOV T, ALAHI A, FLEURET F, et al. Social scene understanding: end-to-end multi-person action localization and collective activity recognition[C]// Proceedings of the 2017 IEEE Conference on Computer Vision and Pattern Recognition. Piscataway: IEEE, 2017: 3425-3434.
[6] WU J C, WANG L M, WANG L, et al. Learning actor relation graphs for group activity recognition[C]// Proceedings of the 2019 IEEE/CVF Conference on Computer Vision and Pattern Recognition. Piscataway: IEEE, 2019: 9956-9966.
[7] YAN R, TANG J H, SHU X B, et al. Participation-contributed temporal dynamic model for group activity recognition[C]// Proceedings of the 26th ACM International Conference on Multimedia. New York: ACM, 2018: 1292-1300.
[8] 楊興明,范樓苗. 基于區(qū)域特征融合網(wǎng)絡(luò)的群組行為識別[J]. 模式識別與人工智能, 2019, 32(12): 1116-1121.(YANG X M, FAN L M. Group activity recognition based on regional feature fusion network[J]. Pattern Recognition and Artificial Intelligence, 2019, 32(12): 1116-1121.)
[9] 龔玉婷. 基于注意力機(jī)制與深度學(xué)習(xí)網(wǎng)絡(luò)的群組行為識別方法研究[D]. 青島:青島科技大學(xué), 2019:28-29.(GONG Y T. Group activity recognition algorithm research based on attention mechanism and deep learning network[D]. Qingdao: Qingdao University of Science and Technology, 2019:28-29.)
[10] SZEGEDY C, VANHOUCKE V, IOFFE S, et al. Rethinking the inception architecture for computer vision[C]// Proceedings of the 2016 IEEE Conference on Computer Vision and Pattern Recognition. Piscataway: IEEE, 2016: 2818-2826.
[11] HE K M, GKIOXARI G, DOLLáR P, et al. Mask R-CNN[C]// Proceedings of the 2017 IEEE International Conference on Computer Vision. Piscataway: IEEE, 2017: 2980-2988.
[12] LU L H, DI H J, LU Y, et al. Spatio-temporal attention mechanisms based model for collective activity recognition[J]. Signal Processing: Image Communication, 2019, 74: 162-174.
[13] KIPF T N, WELLING M. Semi-supervised classification with graph convolutional networks[EB/OL]. (2017-02-22) [2020-11-16].https://arxiv.org/pdf/1609.02907.pdf.
[14] QI M S, QIN J, LI A N, et al. StagNet: an attentive semantic RNN for group activity recognition[C]// Proceedings of the 2018 European Conference on Computer Vision, LNCS 11214. Cham: Springer, 2018: 104-120.
[15] CHOI W, SHAHID K, SAVARESE S. Learning context for collective activity recognition[C]// Proceedings of the 2011 IEEE Conference on Computer Vision and Pattern Recognition. Piscataway: IEEE, 2011: 3273-3280.
[16] LI X, CHUAH M C. SBGAR: semantics based group activity recognition[C]// Proceedings of the 2017 IEEE International Conference on Computer Vision. Piscataway: IEEE, 2017: 2895-2904.
[17] SHU T M, TODOROVIC S, ZHU S C. CERN: confidence-energy recurrent network for group activity recognition[C]// Proceedings of the 2017 IEEE Conference on Computer Vision and Pattern Recognition. Piscataway: IEEE, 2017: 4255-4263.
[18] XU D Z, FU H, WU L F, et al. Group activity recognition by using effective multiple modality relation representation with temporal-spatial attention[J]. IEEE Access, 2020, 8: 65689-65698.
[19] HU G Y, CUI B, HE Y, et al. Progressive relation learning for group activity recognition[C]// Proceedings of the 2020 IEEE/CVF Conference on Computer Vision and Pattern Recognition. Piscataway: IEEE, 2020: 977-986.
[20] DENG Z W, VAHDAT A, HU H X, et al. Structure inference machines: recurrent neural networks for analyzing relations in group activity recognition[C]// Proceedings of the 2016 IEEE Conference on Computer Vision and Pattern Recognition. Piscataway: IEEE, 2016: 4772-4781.
[21] LI W B, CHANG M C, LYU S W. Who did what at where and when: simultaneous multi-person tracking and activity recognition[EB/OL]. (2018-07-03) [2020-10-09].https://arxiv.org/pdf/1807.01253.pdf.
LIU Bo, born in 1997, M. S. candidate. His research interests include computer vision.
QING Linbo, born in 1982, Ph. D., associate professor. His research interests include multimedia communication, information system, artificial intelligence, computer vision.
WANG Zhengyong, born in 1969, Ph. D., associate professor. Her research interests include image processing, pattern recognition, computer vision, intelligent system.
LIU Mei, born in 1996, M. S. Her research interests include computer vision.
JIANG Xue, born in 1998, M. S. candidate. Her research interests include computer vision.
Group activity recognition based on partitioned attention mechanism and interactive position relationship
LIU Bo, QING Linbo, WANG Zhengyong*, LIU Mei, JIANG Xue
(,,610065,)
Group activity recognition is a challenging task in complex scenes, which involves the interaction and the relative spatial position relationship of a group of people in the scene. The current group activity recognition methods either lack the fine design or do not take full advantage of interactive features among individuals. Therefore, a network framework based on partitioned attention mechanism and interactive position relationship was proposed, which further considered individual limbs semantic features and explored the relationship between interaction feature similarity and behavior consistency among individuals. Firstly, the original video sequences and optical flow image sequences were used as the input of the network, and a partitioned attention feature module was introduced to refine the limb motion features of individuals. Secondly, the spatial position and interactive distance were taken as individual interaction features. Finally, the individual motion features and spatial position relation features were fused as the features of the group scene undirected graph nodes, and Graph Convolutional Network (GCN) was adopted to further capture the activity interaction in the global scene, thereby recognizing the group activity. Experimental results show that this framework achieves 92.8% and 97.7% recognition accuracy on two group activity recognition datasets (CAD (Collective Activity Dataset) and CAE (Collective Activity Extended Dataset)). Compared with Actor Relationship Graph (ARG) and Confidence Energy Recurrent Network (CERN) on CAD dataset, this framework has the recognition accuracy improved by 1.8 percentage points and 5.6 percentage points respectively. At the same time, the results of ablation experiment show that the proposed algorithm achieves better recognition performance.
group activity recognition; attention mechanism; interactive relationship; video understanding; Graph Convolutional Network (GCN)
This work is partially supported by National Natural Science Foundation of China (61871278).
TP391.4
A
1001-9081(2022)07-2052-06
10.11772/j.issn.1001-9081.2021060904
2021?06?03;
2021?09?11;
2021?09?24。
國家自然科學(xué)基金資助項(xiàng)目(61871278)。
劉博(1997—),男,河南許昌人,碩士研究生,CCF會員,主要研究方向:計(jì)算機(jī)視覺; 卿粼波(1982—),男,四川成都人,副教授,博士生導(dǎo)師,博士,主要研究方向:多媒體通信、信息系統(tǒng)、人工智能、計(jì)算機(jī)視覺; 王正勇(1969—),女,四川成都人,副教授,博士,主要研究方向:圖像處理、模式識別、計(jì)算機(jī)視覺、智能系統(tǒng); 劉美(1996—),女,江西撫州人,碩士,主要研究方向:計(jì)算機(jī)視覺; 姜雪(1998—),女,山東日照人,碩士研究生,主要研究方向:計(jì)算機(jī)視覺。