白江波,楊陽(yáng),張文生
中國(guó)科學(xué)院 自動(dòng)化研究所,北京 100080
基于遙感圖像的目標(biāo)檢測(cè)是當(dāng)前計(jì)算機(jī)視覺(jué)領(lǐng)域的研究熱點(diǎn)。通過(guò)目標(biāo)檢測(cè)算法對(duì)地面目標(biāo)進(jìn)行精確的識(shí)別,具有重要的社會(huì)和經(jīng)濟(jì)價(jià)值[1]。隨著計(jì)算機(jī)視覺(jué)技術(shù)的持續(xù)發(fā)展,研究者們將視覺(jué)研究領(lǐng)域不斷延伸——從靜態(tài)的目標(biāo)類(lèi)別識(shí)別和精確定位拓展到目標(biāo)動(dòng)態(tài)的行為識(shí)別。受限于遙感圖像的成像方式和成本,目前尚沒(méi)有遙感圖像目標(biāo)動(dòng)態(tài)行為數(shù)據(jù)集。近些年來(lái),大量研究者開(kāi)展了基于游戲數(shù)據(jù)的人機(jī)對(duì)抗研究[2]。因?yàn)樾请H爭(zhēng)霸游戲圖像與遙感圖像具有相似的視角、目標(biāo)和背景,所以利用星際爭(zhēng)霸游戲圖像構(gòu)建群體目標(biāo)行為識(shí)別數(shù)據(jù)集,并開(kāi)展群體目標(biāo)行為識(shí)別可以為后續(xù)遙感圖像目標(biāo)群體行為識(shí)別研究奠定基礎(chǔ),具有重要的研究?jī)r(jià)值。
針對(duì)基于圖像視頻序列的目標(biāo)行為,國(guó)內(nèi)外已有眾多研究成果。根據(jù)圖像中目標(biāo)的個(gè)數(shù),目標(biāo)行為識(shí)別可分為個(gè)體目標(biāo)行為識(shí)別和群體目標(biāo)行為識(shí)別。個(gè)體目標(biāo)行為識(shí)別的數(shù)據(jù)集主要有:UCF101[3],Kinetics[4],AVA[5]等。個(gè)體行為數(shù)據(jù)集的行為類(lèi)別主要包括個(gè)人在日常生活中的常見(jiàn)行為,如唱歌、彈琴、跑步、打球等。個(gè)體行為識(shí)別早期主要通過(guò)密集采樣特征點(diǎn)、特征點(diǎn)軌跡跟蹤,基于軌跡構(gòu)建行為特征的方法進(jìn)行個(gè)體目標(biāo)行為識(shí)別,其代表性算法是改進(jìn)的密集軌跡(improved dense trajectories,IDT)算 法[6]。隨著2012 年深度學(xué)習(xí)方法在圖像領(lǐng)域取得的重大突破,研究者們逐步將研究重點(diǎn)轉(zhuǎn)移到基于深度學(xué)習(xí)的目標(biāo)行為識(shí)別上來(lái)。按照是否提取人體關(guān)鍵點(diǎn),基于深度學(xué)習(xí)的方法可以簡(jiǎn)單劃分為基于圖像視頻的方法和基于人體骨架的方法?;趫D像視頻的深度學(xué)習(xí)方法又可以按模型方法分為基于長(zhǎng)短期記憶網(wǎng)絡(luò)(long short-term memory,LSTM)的方法、基于雙流法(two-stream)的方法和基于時(shí)空間3D 卷積的方法?;贚STM 的方法通常使用卷積神經(jīng)網(wǎng)絡(luò)(convolutional neural networks,CNN)提取空間特征,使用LSTM 提取時(shí)序特征,進(jìn)行行為識(shí)別,其代表方法如長(zhǎng)期循環(huán)卷積網(wǎng)絡(luò)(longterm recurrent convolutional networks,LRCN)[7]等?;陔p流法的方法則通過(guò)空間流處理RGB 圖像,得到形狀信息,通過(guò)時(shí)間流/光流處理光流圖像,得到運(yùn)動(dòng)信息,最后將2 個(gè)流融合。經(jīng)過(guò)分類(lèi),得到目標(biāo)行為,其代表性方法有Two-Stream[8]、時(shí)間段網(wǎng)絡(luò)(TSN)[9]以及時(shí)間移位模塊(TSM)[10]等?;跁r(shí)空間3D 卷積的方法通過(guò)添加時(shí)間維度將2D 卷積核擴(kuò)展到3D,直接提取包含時(shí)間和空間兩方面的特征?;?D 卷積的方法是當(dāng)前研究的熱點(diǎn)方法,代表性方法有C3D[11]、I3D[4]以及最新的Facebook 提出的slowfast[12]等。人體骨架是反映個(gè)人行為的重要表征,隨著圖卷積網(wǎng)絡(luò)的興起,基于人體骨架的行為識(shí)別方法開(kāi)始成為研究熱點(diǎn),其代表性方法包括ST-NBNN[13]、Deformable Pose Traversal Convolution[14]和STGCN[15]。群體行為識(shí)別的公開(kāi)數(shù)據(jù)集主要有collective activity datasets[16]和Volleyball dataset[17],前者主要是針對(duì)人群的排隊(duì)、過(guò)馬路和交談等的群體性為,后者是針對(duì)排球比賽的進(jìn)攻、傳球和防守等的群體行為,并對(duì)每個(gè)個(gè)體進(jìn)行了位置標(biāo)注。群體行為的識(shí)別方法除了前述基于深度學(xué)習(xí)的圖像視頻識(shí)別方法外,還有針對(duì)群體中個(gè)體關(guān)系建模的行為識(shí)別方法[18-20]。從上述介紹中可以看出,目前行為識(shí)別研究主要是以“人”為研究對(duì)象,個(gè)體精細(xì)化行為識(shí)別較多,群體行為識(shí)別較少,針對(duì)車(chē)輛、飛機(jī)等的行為識(shí)別研究不足。
2016 年,隨著AlphaGo 在圍棋人機(jī)對(duì)抗中大放異彩,越來(lái)越多的學(xué)者投入到基于強(qiáng)化學(xué)習(xí)的人機(jī)對(duì)抗研究中。其中,基于星際爭(zhēng)霸的人機(jī)對(duì)抗研究就是熱點(diǎn)之一[21]。為了推進(jìn)星際爭(zhēng)霸的策略分類(lèi)和對(duì)抗學(xué)習(xí)等研究,F(xiàn)acebook發(fā)布了包含65 646個(gè)星際爭(zhēng)霸的比賽記錄[22],開(kāi)發(fā)人員可以直接通過(guò)使用Facebook 提供的TorchCraft 工具包[23]提取和存儲(chǔ)數(shù)據(jù)。同年,中科院自動(dòng)化所也公開(kāi)了星際爭(zhēng)霸2 宏觀運(yùn)營(yíng)研究數(shù)據(jù)集MSC[24],為星際爭(zhēng)霸的任務(wù)全局狀態(tài)評(píng)估和建造順序預(yù)測(cè)提出基線模型和初始基線結(jié)果提供數(shù)據(jù)集。2019 年,Deepmind 團(tuán)隊(duì)在Nature 上發(fā)表文章,展示了其AlphaStar 已經(jīng)超越了戰(zhàn)網(wǎng)上99.8%的活躍玩家[25]。從近些年的文章來(lái)看,研究者們的重點(diǎn)在于如何優(yōu)化多智能體模型[26]和強(qiáng)化學(xué)習(xí)[27]方法提升游戲策略和操作。由于星際爭(zhēng)霸的游戲數(shù)據(jù)可以通過(guò)后臺(tái)獲得目標(biāo)在地圖內(nèi)的精確信息,目前很少有研究者通過(guò)計(jì)算機(jī)視覺(jué)的方法從游戲視頻中獲取目標(biāo)信息。
綜上所述,計(jì)算機(jī)視覺(jué)領(lǐng)域大多以“人”為行為識(shí)別的研究對(duì)象,而游戲?qū)诡I(lǐng)域通常從游戲后臺(tái)獲取目標(biāo),所以計(jì)算機(jī)視覺(jué)研究領(lǐng)域缺少多類(lèi)目標(biāo)的群體行為識(shí)別圖像數(shù)據(jù)集。因此,我們構(gòu)建了基于星數(shù)據(jù)的群體行為識(shí)別圖像數(shù)據(jù)集,并通過(guò)主流目標(biāo)行為識(shí)別算法對(duì)數(shù)據(jù)集進(jìn)行了驗(yàn)證性測(cè)試。數(shù)據(jù)集原始圖像來(lái)源于網(wǎng)絡(luò)星際爭(zhēng)霸錄像,通過(guò)截取錄像中片段的方法獲取表示目標(biāo)行為的連續(xù)圖像序列,數(shù)據(jù)集有450 個(gè)連續(xù)的目標(biāo)行為,包含靜止、運(yùn)動(dòng)和戰(zhàn)斗等行為。視頻中的靜止和運(yùn)動(dòng)行為主要是人類(lèi)種族的圖像,包含地面和空中作戰(zhàn)單元;戰(zhàn)斗行為主要是人類(lèi)與人類(lèi)、蟲(chóng)族和神族的作戰(zhàn)片段。本文主要結(jié)構(gòu)如下:首先對(duì)數(shù)據(jù)集做了詳細(xì)介紹,并對(duì)構(gòu)建方法進(jìn)行了簡(jiǎn)要說(shuō)明;其次介紹了與該數(shù)據(jù)集有關(guān)的一些統(tǒng)計(jì)信息;最后通過(guò)3 種群體行為識(shí)別方法對(duì)數(shù)據(jù)集進(jìn)行了驗(yàn)證并給出了行為識(shí)別結(jié)果。
我們從網(wǎng)絡(luò)上獲取了28 個(gè)星際爭(zhēng)霸比賽集錦錄像,即單個(gè)錄像中包含多場(chǎng)比賽?,F(xiàn)有星際爭(zhēng)霸數(shù)據(jù)集是基于游戲數(shù)據(jù)的回放文件,然而游戲界面中回放數(shù)據(jù)無(wú)法調(diào)整游戲進(jìn)度,不利于我們截取需要的視頻片段??紤]到網(wǎng)絡(luò)獲取比賽視頻的方便性,我們主要通過(guò)視頻網(wǎng)站獲取需要的游戲錄像。由于獲取比賽的錄像質(zhì)量不一致,圖像 分 辨 率(ppi)從1 024×576 到720×576 都 有 分布,且部分視頻包含水印、臺(tái)標(biāo)和人像等干擾因素。因?yàn)樵诒荣愔校瑧?zhàn)斗行為是觀眾關(guān)注的重點(diǎn),而目標(biāo)移動(dòng)和靜止不是觀眾關(guān)注的重點(diǎn),所以,比賽視頻中比較容易獲取戰(zhàn)斗行為的視頻片段,而較難獲取移動(dòng)和靜止行為視頻片段。為了彌補(bǔ)移動(dòng)和靜止行為視頻片段的數(shù)量,我們通過(guò)自己游戲的辦法,采集了若干個(gè)靜止和移動(dòng)行為的視頻片段。為了豐富靜止和移動(dòng)行為的目標(biāo)類(lèi)型和背景,每個(gè)行為視頻的目標(biāo)數(shù)量和種類(lèi)不相同,且包含了游戲中典型的5 類(lèi)游戲背景圖像。
數(shù)據(jù)集構(gòu)建的過(guò)程如圖1 所示。首先,分析比賽過(guò)程,截取比賽錄像中滿足目標(biāo)行為類(lèi)別的視頻片段。第二,考慮到遙感圖像可能獲得的目標(biāo)行為圖像數(shù)量,并結(jié)合星際爭(zhēng)霸中游戲的目標(biāo)行為發(fā)生過(guò)程,我們每個(gè)視頻片段均勻提取10 幀作為群體目標(biāo)行為識(shí)別的圖像序列。第三,為了避免下方地圖目標(biāo)信息和臺(tái)標(biāo)人像等對(duì)群體目標(biāo)行為識(shí)別的干擾,裁剪圖像的中間區(qū)域作為行為識(shí)別的感知范圍,并將裁剪后的圖像分辨率(ppi)轉(zhuǎn)化為256×256。
為了豐富群體目標(biāo)行為的目標(biāo)類(lèi)型和背景,每個(gè)序列圖像均包含不同目標(biāo)種類(lèi)、數(shù)量和背景。表1 給出了數(shù)據(jù)集的相關(guān)參數(shù),圖2 給出了典型的群體目標(biāo)行為識(shí)別的圖像序列實(shí)例??紤]目標(biāo)存在遮擋且種類(lèi)多樣,我們沒(méi)有給出圖像中每個(gè)目標(biāo)的種類(lèi)和位置信息,群體目標(biāo)的行為通過(guò)整體圖像直接獲取。每個(gè)行為識(shí)別圖像序列按照UCF101 數(shù)據(jù)集的要求,被標(biāo)記為“文件路徑+圖像數(shù)量+行為類(lèi)別”,用來(lái)指示行為圖像序列包含多少幀圖像和行為類(lèi)別。最后,將整個(gè)數(shù)據(jù)集隨機(jī)分為訓(xùn)練數(shù)據(jù)集和測(cè)試數(shù)據(jù)集。
表1 星際爭(zhēng)霸群體目標(biāo)行為識(shí)別相關(guān)參數(shù)
影響游戲數(shù)據(jù)行為識(shí)別的主要因素包括目標(biāo)主體的多樣性、目標(biāo)背景的多樣性和目標(biāo)行為的多樣性。
針對(duì)目標(biāo)主體多樣性,我們主要選擇人族作為主體目標(biāo)單位,包含了主要的地面作戰(zhàn)單位,如機(jī)槍兵、噴火兵、醫(yī)療兵、坦克、機(jī)器球等。如圖3(a)所示,為了增加群體行為樣本中目標(biāo)主體的多樣性,每個(gè)行為樣本中目標(biāo)的類(lèi)型混合搭配,不同樣本中的目標(biāo)數(shù)量不同。此外,由于游戲設(shè)置導(dǎo)致的目標(biāo)顏色差異,相同目標(biāo)類(lèi)型在不同樣本中也會(huì)呈現(xiàn)出不同的顏色。考慮到當(dāng)前行為識(shí)別算法的需要和游戲視頻中不同目標(biāo)的相互遮擋的特點(diǎn),我們?cè)跀?shù)據(jù)集中未標(biāo)注每個(gè)目標(biāo)單位的位置和類(lèi)別。
針對(duì)目標(biāo)背景多樣性,如圖3(b)所示,我們選取了空間站、草地、火山地形等多個(gè)地圖場(chǎng)景作為群體目標(biāo)行為的背景,并選擇同一地圖的不同區(qū)域?qū)δ繕?biāo)群體行為進(jìn)行采樣。通過(guò)上述操作,豐富了群體目標(biāo)背景的多樣性??紤]到目標(biāo)行為識(shí)別的特點(diǎn),當(dāng)前數(shù)據(jù)集中目標(biāo)行為主要在野外,較少包含建筑類(lèi)目標(biāo)背景。
針對(duì)目標(biāo)行為多樣性,如圖3(c)所示,靜止行為包含了各類(lèi)目標(biāo)單元的密集靜止和散狀靜止2 種表現(xiàn)形式;移動(dòng)行為包含了各類(lèi)目標(biāo)單元的不同方向的移動(dòng)和不同速度的移動(dòng)行為;戰(zhàn)斗行為包含了不同對(duì)戰(zhàn)種族、不同戰(zhàn)斗武器效果和不同技能效果的戰(zhàn)斗形式。通過(guò)提升群體目標(biāo)行為的多樣性,使數(shù)據(jù)集盡可能覆蓋游戲中的所有行為場(chǎng)景。
如前所述,基于深度學(xué)習(xí)的目標(biāo)行為識(shí)別方法主要有LSTM,Two-Stream 和3D 卷積網(wǎng)絡(luò)??紤]到當(dāng)前后兩者已經(jīng)成為目標(biāo)行為識(shí)別的主流方法,我們選取其中近幾年的4 種代表性方法TSN、C3D、I3D 和TSM 作為星際爭(zhēng)霸圖像數(shù)據(jù)群體行為識(shí)別測(cè)試方法。TSN 算法是一種典型的Two-Stream 類(lèi)目標(biāo)行為識(shí)別方法,通過(guò)同時(shí)提取圖像的RGB 特征和光流特征實(shí)現(xiàn)目標(biāo)的行為識(shí)別。C3D 通過(guò)3D 卷積網(wǎng)絡(luò)同時(shí)對(duì)圖像序列的時(shí)間和空間進(jìn)行特征提取,從而實(shí)現(xiàn)目標(biāo)行為識(shí)別。I3D 汲取了Two-Stream 和3D 卷積的優(yōu)點(diǎn),通過(guò)2 個(gè)3D 卷積網(wǎng)絡(luò)分支,提取圖像的RGB 特征和光流特征,實(shí)現(xiàn)目標(biāo)行為更準(zhǔn)確的識(shí)別。TSM 則在TSN 的基礎(chǔ)上進(jìn)行了改進(jìn),增加了時(shí)序移位模塊,通過(guò)把檢測(cè)幀的特征融入前后幀的特征信息,以增大時(shí)域感受野,提高目標(biāo)行為識(shí)別的準(zhǔn)確率。下面我們將簡(jiǎn)要介紹這3 種行為識(shí)別方法的算法框架。
3.1.1 TSN 算法介紹
經(jīng)典Two-stream CNN[8]算法中需要對(duì)視頻進(jìn)行密集采樣,當(dāng)輸入視頻是一個(gè)長(zhǎng)視頻時(shí),算法的計(jì)算量會(huì)變的很龐大。TSN 算法針對(duì)該問(wèn)題,提出了稀疏時(shí)間采樣策略。如圖4 所示,無(wú)論輸入視頻的長(zhǎng)短,TSN 算法直接分成K個(gè)片段,然后在每個(gè)片段再隨機(jī)找出一個(gè)時(shí)間小片,分別用共享CNN 來(lái)提取空間上的特征,再進(jìn)行特征層的融合,最后進(jìn)行分類(lèi)。
那么TSN 算法的圖像序列行為識(shí)別可用式(1)表示:
式中:TK為 第個(gè)片段,W為共享CNN 網(wǎng)絡(luò)的權(quán)重,函數(shù)F為CNN 網(wǎng)絡(luò)提取得到的圖像片段特征,G為特征融合函數(shù),H為分類(lèi)層Softmax。本文中TSN 模型使用ResNet50 的2D 卷積核的骨干網(wǎng)絡(luò)。
3.1.2 C3D 算法介紹
一個(gè)好的算法通常是一個(gè)簡(jiǎn)單可靠的模型,并且模型具有通用、簡(jiǎn)潔、高效和簡(jiǎn)單易實(shí)現(xiàn)方式。如圖5(a)所示,C3D 算法就具有這樣的特點(diǎn),它直接將2D 卷積擴(kuò)展到3D(添加了時(shí)間維度),同時(shí)提取包含時(shí)間和空間兩方面的特征。給定一段視頻,其大小是c×l×h×w。其中c為圖像的通道數(shù),l為視頻的幀數(shù),h、w分別為每幀視頻的高和寬。3D 卷積的卷積核和池化核也是3D 的,很容易想象得到,就是比2D 擴(kuò)展一個(gè)維度,所以核大小是d×k×k。其中,d為卷積核的時(shí)間深度,k為卷積核的空間大小。本文使用標(biāo)準(zhǔn)C3D 骨干網(wǎng)絡(luò),其中包含8 次卷積操作,5 次池化操作,提取視頻的時(shí)間和空間特征,最后網(wǎng)絡(luò)在經(jīng)過(guò)2 次全連接層和softmax 層后得到最終的輸出結(jié)果。
3.1.3 I3D 算法介紹
I3D 模型吸收了之前模型的優(yōu)點(diǎn),把雙流的思想加到3D 卷積網(wǎng)絡(luò)當(dāng)中來(lái),并充分發(fā)揮預(yù)訓(xùn)練的效果,取得優(yōu)異的效果。如圖5(b)所示,I3D 模型將圖像RGB 數(shù)據(jù)和光流數(shù)據(jù)同時(shí)作為模型的輸入,然后用3D 卷積網(wǎng)絡(luò)分別提取兩路數(shù)據(jù)的特征,再做特征級(jí)的融合,輸入softmax 層后得到的最終的輸出結(jié)果。此外,考慮到充分利用現(xiàn)有2D 卷積網(wǎng)絡(luò)的預(yù)訓(xùn)練參數(shù),I3D 模型通過(guò)把2D 模型中的核參數(shù)在時(shí)間維上不斷復(fù)制,形成3D 核的參數(shù),同時(shí)除以N,保證輸出和2D 一樣;其他非線性層結(jié)構(gòu)都與原來(lái)的2D 模型一樣,來(lái)實(shí)現(xiàn)現(xiàn)有2D 卷積網(wǎng)絡(luò)預(yù)訓(xùn)練參數(shù)的充分利用。本文中I3D 模型使用ResNet50 的3D 卷積核的骨干網(wǎng)絡(luò),并使用ResNet50 的2D 卷積網(wǎng)絡(luò)的預(yù)訓(xùn)練參數(shù)對(duì)骨干網(wǎng)絡(luò)進(jìn)行初始化。
本文選擇的4 種算法模型均使用mmaction2行為識(shí)別框平臺(tái)實(shí)現(xiàn)。模型訓(xùn)練前使用預(yù)訓(xùn)練網(wǎng)絡(luò)參數(shù)對(duì)模型骨干網(wǎng)絡(luò)進(jìn)行權(quán)重參數(shù)初始化,均使用隨機(jī)梯度下降法進(jìn)行參數(shù)優(yōu)化,初始學(xué)習(xí)率為0.001,動(dòng)量參數(shù)設(shè)為0.9,權(quán)重延遲設(shè)為0.000 5。全連接層使用dropout 泛化方法,其值設(shè)置為0.5。模型批處理參數(shù)設(shè)為4,TSN 模型中K取4,C3D 和I3D 模型中圖像序列片段的長(zhǎng)度設(shè)置為10。本文使用NVIDIA GTX2080Ti 顯卡作為模型訓(xùn)練和測(cè)試的硬件平臺(tái)。
游戲圖像序列的測(cè)試結(jié)果如表2 所示。
表2 不同模型的群體行為識(shí)別準(zhǔn)確率
從表2 可以看出:C3D 和I3D 取得了最好得行為識(shí)別結(jié)果;戰(zhàn)斗行為較容易進(jìn)行識(shí)別,靜止和移動(dòng)行為較難進(jìn)行識(shí)別。
就各個(gè)類(lèi)別的群體行為分析如下:4 類(lèi)群體目標(biāo)行為識(shí)別方法均能夠準(zhǔn)確識(shí)別游戲中的戰(zhàn)斗行為。其原因是因?yàn)閼?zhàn)斗行為中,圖像會(huì)出現(xiàn)戰(zhàn)斗引起的火花和光斑等典型戰(zhàn)斗表征。基于這些表征,通過(guò)圖像分類(lèi)方法也能夠很好地區(qū)分戰(zhàn)斗行為與其他行為。對(duì)于靜止行為而言,采用3D 卷積網(wǎng)絡(luò)的模型明顯好于2D 卷積網(wǎng)絡(luò)的Two-stream 模型。其原因是因?yàn)槿后w目標(biāo)處于靜止?fàn)顟B(tài)下,目標(biāo)沒(méi)有移動(dòng),光流輸入沒(méi)有為群體目標(biāo)的行為作出貢獻(xiàn),且3D 卷積網(wǎng)絡(luò)對(duì)于時(shí)空特征捕捉能力強(qiáng)于2D 卷積網(wǎng)絡(luò)。對(duì)于移動(dòng)行為,由于加入了光流輸入,Two-stream 模型的識(shí)別結(jié)果得到了一定的提升。但由于移動(dòng)行為相對(duì)于靜止行為更加復(fù)雜,C3D 和I3D 的行為識(shí)別準(zhǔn)確率產(chǎn)生了一定的下降。
另外我們給出了I3D 模型的混淆矩陣,如表3所示。從表3 中可以發(fā)現(xiàn),由于戰(zhàn)斗行為中存在較明顯的光斑,戰(zhàn)斗行為不會(huì)誤識(shí)別為其他行為。但是由于戰(zhàn)斗行為中,群體目標(biāo)或處在靜止?fàn)顟B(tài)或處在移動(dòng)狀態(tài),導(dǎo)致少量移動(dòng)行為會(huì)誤識(shí)別為戰(zhàn)斗行為。
表3 I3D 模型群體行為識(shí)別混淆矩陣
進(jìn)一步,我們給出了TSN、C3D、I3D 等3 種模型的群體目標(biāo)行為識(shí)別計(jì)算時(shí)間如表4 所示。從表4 中可以看出,采用3D 卷積網(wǎng)絡(luò)模型的計(jì)算時(shí)間明顯小于Two-stream 模型。C3D 模型包含的卷積層數(shù)少于I3D 模型,故其計(jì)算時(shí)間最短。綜合群體目標(biāo)行為識(shí)別的識(shí)別準(zhǔn)確率和計(jì)算時(shí)間,C3D 模型取得了最好得效果。
表4 不同模型的群體行為識(shí)別計(jì)算時(shí)間 ms
本文以星際爭(zhēng)霸游戲圖像數(shù)據(jù)的群體目標(biāo)行為識(shí)別為研究目標(biāo),構(gòu)建了游戲中群體目標(biāo)典型行為的數(shù)據(jù)集,并應(yīng)用當(dāng)前主流的行為識(shí)別方法對(duì)游戲圖像序列進(jìn)行了群體行為識(shí)別。群體目標(biāo)典型行為的數(shù)據(jù)集共包含戰(zhàn)斗、移動(dòng)和靜止3 類(lèi)典型行為,每個(gè)行為樣本中包含不同數(shù)量、不同類(lèi)型和不同背景的目標(biāo)單元,充分保證了數(shù)據(jù)樣本的多樣性。通過(guò)3 種行為識(shí)別方法的對(duì)比,驗(yàn)證了本數(shù)據(jù)集的有效性,為后續(xù)研究遙感圖像的群體目標(biāo)行為識(shí)別方法提供了指導(dǎo)和遷移學(xué)習(xí)的原始數(shù)據(jù)。
為了進(jìn)一步驗(yàn)證游戲數(shù)據(jù)的行為識(shí)別方法,我們還需要進(jìn)一步擴(kuò)充數(shù)據(jù)集數(shù)量,增加神族和蟲(chóng)族的單元目標(biāo),更加精細(xì)化群體目標(biāo)行為類(lèi)別,提升星際爭(zhēng)霸游戲數(shù)據(jù)群體目標(biāo)行為數(shù)據(jù)集的有效性。