吳 偉,劉澤宇
中南大學(xué) 自動(dòng)化學(xué)院,長沙410075
目前,目標(biāo)檢測(cè)[1]、分割[2]以及動(dòng)作識(shí)別[3]等圖像視覺檢測(cè)與識(shí)別技術(shù)已經(jīng)取得了長足的進(jìn)展。這些任務(wù)的發(fā)展為許多相關(guān)領(lǐng)域奠定了堅(jiān)實(shí)的基礎(chǔ),包括醫(yī)療、自助零售、安防等。然而,這些應(yīng)用的成功實(shí)現(xiàn)不僅需要實(shí)例級(jí)的檢測(cè)和識(shí)別,還需要對(duì)圖像內(nèi)容進(jìn)行有效的理解。現(xiàn)有的圖像理解研究主要集中在視覺關(guān)系檢測(cè)[4]領(lǐng)域。人與物體交互作用(Human-Object Interactions,HOIs)的檢測(cè)與識(shí)別便是視覺關(guān)系檢測(cè)的一個(gè)重要分支。其目的是對(duì)給定一幅圖像,在檢測(cè)到一個(gè)人和一個(gè)物體的同時(shí),識(shí)別出二者之間的相互作用(interaction),可以定義為檢測(cè)圖像中人類、交互行為以及物體組成的三元組,形如
早期對(duì)HOIs檢測(cè)與識(shí)別的研究多基于傳統(tǒng)圖像手工特征。受人類感知心理學(xué)研究的推動(dòng),Gupta等人[5]首先提出了一種貝葉斯方法,該方法整合了參與理解人與物體相互作用的各種感知任務(wù),可以同時(shí)對(duì)場景類型、場景對(duì)象、人類動(dòng)作和可操作對(duì)象的概率進(jìn)行估計(jì),在提高人-物體交互作用識(shí)別效果的同時(shí)也促進(jìn)了相關(guān)感知任務(wù)的性能。Yao等人[8]使用名為“grouplet”的全局圖像特征來識(shí)別HOIs,以捕獲HOIs的結(jié)構(gòu)化信息。通過應(yīng)用數(shù)據(jù)挖掘算法找尋出具有判別作用的grouplet 特征,并通過SVM 對(duì)其進(jìn)行識(shí)別。Desai 等人[9]提出了一種基于模擬人體和附近物體之間的上下文相互作用的識(shí)別方法。通過同時(shí)學(xué)習(xí)對(duì)象模板,基于姿勢(shì)的模板及其上下文關(guān)系,生成了一個(gè)簡單而又準(zhǔn)確的HOIs 判別模型。由于上述方法需要對(duì)于訓(xùn)練圖像樣本進(jìn)行細(xì)粒度的標(biāo)注,工作量巨大。因此,Prest 等人[10]提出一個(gè)弱監(jiān)督學(xué)習(xí)方法,通過對(duì)圖像中人的檢測(cè)估計(jì)出人與物體空間關(guān)系的概率分布,大大縮小了交互對(duì)象的搜索范圍。受困于較小的數(shù)據(jù)集規(guī)模,以及手工構(gòu)建的低精度目標(biāo)檢測(cè)器,這些早期工作的識(shí)別效果非常有限。
近年來,由于深度學(xué)習(xí)的成功和大規(guī)模HOIs 數(shù)據(jù)集的出現(xiàn),一些基于深度學(xué)習(xí)的HOIs 檢測(cè)與識(shí)別模型應(yīng)運(yùn)而生[6,11]。Chao等人[6]認(rèn)為人與物體的空間位置會(huì)對(duì)交互作用的識(shí)別提供線索。其使用卷積神經(jīng)網(wǎng)絡(luò)CNN 對(duì)由人與物體的邊框信息bounding boxes 組成的雙通道二值圖像進(jìn)行編碼,取得了不錯(cuò)的效果。受到Prest 等人工作的啟發(fā),Gkioxari 等人[12]基于人類的外觀特征使用混合密度網(wǎng)絡(luò)(Mixture Density Network)來預(yù)測(cè)潛在交互物體對(duì)象的空間位置分布。采用類似于Chao等人的多流網(wǎng)絡(luò)預(yù)測(cè)得分融合方式對(duì)HOI類別進(jìn)行打分。隨著注意力(Attention)機(jī)制在自然語言處理和計(jì)算機(jī)視覺領(lǐng)域的廣泛應(yīng)用,F(xiàn)ang等人[13]將注意機(jī)制引入HOIs 識(shí)別中,提出了一種新的成對(duì)身體注意模型(Pairwise Body-Part Attention),對(duì)與物體交互的身體部位給予更多的關(guān)注。Qi 等人[14]提出了一種完全不同的基于圖解析神經(jīng)網(wǎng)絡(luò)(GPNN)的端到端解析圖推理方法。圖像中的所有HOIs 都可以同時(shí)預(yù)測(cè),無需像以前的方法那樣成對(duì)預(yù)測(cè)。與Prest 等人的思路相似,為了解決樣本不均造成的長尾(long tail)問題,Shen 等人[15]提出了一種弱監(jiān)督模型,將零樣本學(xué)習(xí)(zero-shot learning)擴(kuò)展到HOIs 識(shí)別中,實(shí)現(xiàn)對(duì)數(shù)據(jù)集中未出現(xiàn)過的HOIs類別的識(shí)別。
本文提出了一種基于圖注意力網(wǎng)絡(luò)的HOIs識(shí)別方法。將輸入圖像以HOI 圖(graph)的形式進(jìn)行表示,圖的節(jié)點(diǎn)(nodes)表示圖像中的實(shí)例,圖的邊(edges)表示圖像中人類對(duì)象與物體對(duì)象的交互關(guān)系。圖的節(jié)點(diǎn)特征通過引入注意力機(jī)制的特征處理網(wǎng)絡(luò)(Feature Processing Network,F(xiàn)PNet)聯(lián)合Faster R-CNN[16]生成并嵌入。最后利用圖注意力網(wǎng)絡(luò)(GAT)對(duì)HOI 圖中所含的真實(shí)的人-物交互關(guān)系進(jìn)行推理。本文提出的方法框架如圖1所示。
圖1 本文方法框架示意圖
當(dāng)前主流的方法通常采用獨(dú)立的人與物體對(duì)(human-object pairs)來檢測(cè)與識(shí)別圖像中的HOIs。然而,由于全局信息的缺乏,當(dāng)諸如遮擋等客觀因素存在時(shí),它們的性能常常受到干擾。為了解決這個(gè)問題,試圖找到一種能夠充分表達(dá)圖像中對(duì)象之間交互關(guān)系的數(shù)據(jù)結(jié)構(gòu)。在文獻(xiàn)[17]中,對(duì)于視覺問答(Visual Question Answer,VQA)任務(wù),提出了利用圖對(duì)圖像以及文本問題分別進(jìn)行描述的新思路,并通過實(shí)驗(yàn)證明了圖可以捕獲單詞之間以及圖像中對(duì)象之間的關(guān)系。文獻(xiàn)[18]利用時(shí)空?qǐng)D對(duì)視頻中的人與物體的交互關(guān)系進(jìn)行捕捉,借助循環(huán)神經(jīng)網(wǎng)絡(luò)(RNN)完成幀級(jí)的交互推理。在上述文獻(xiàn)的啟發(fā)下,本文最終采用了圖來對(duì)圖像中的對(duì)象之間的關(guān)系進(jìn)行描述。
在生成圖像的圖結(jié)構(gòu)表示后,還需要利用對(duì)圖中的每個(gè)節(jié)點(diǎn)嵌入一個(gè)特征向量。在本文中為了對(duì)每個(gè)節(jié)點(diǎn)構(gòu)造一個(gè)強(qiáng)有力的特征表示,采用了基于注意力機(jī)制的特征處理網(wǎng)絡(luò)FPNet(如圖3)對(duì)特征圖上的對(duì)象特征進(jìn)行了加工,將其與上下文(context)信息進(jìn)行融合,提高特征的表達(dá)能力。
圖2 HOI圖構(gòu)建過程
圖3 基于注意力機(jī)制的特征處理網(wǎng)絡(luò)
在計(jì)算機(jī)視覺領(lǐng)域,上下文信息已被證實(shí)對(duì)于圖像理解、目標(biāo)檢測(cè)以及動(dòng)作識(shí)別等多個(gè)領(lǐng)域的發(fā)展有著非常明顯的促進(jìn)作用。因此本文在構(gòu)建節(jié)點(diǎn)特征時(shí)考慮將對(duì)象的上下文信息融入以提高其魯棒性。與直接將整個(gè)圖像區(qū)域作為對(duì)象的上下文不同,受到人類視覺系統(tǒng)注意力特性的啟發(fā),且應(yīng)該選擇性地獲取更有意義的上下文信息,盡可能地忽略一些無關(guān)信息。于是在本文FPNet網(wǎng)絡(luò)的結(jié)構(gòu)設(shè)計(jì)時(shí),以Hu等人[19]提出的輕量級(jí)注意力模塊SENet(如圖4)為基礎(chǔ),進(jìn)行了修改。SENet的設(shè)計(jì)思想是以輸入特征張量為條件,通過全局平均池化(Global Average Pooling,GAP)結(jié)合兩個(gè)全連接層(Fully Connected layer,F(xiàn)C)將其映射得到一組特定的通道注意力權(quán)重,將權(quán)重向量與輸入張量進(jìn)行通道乘法得到更有表達(dá)能力的特征。本文借鑒其設(shè)計(jì)思想,選擇以對(duì)象區(qū)域卷積特征為條件,通過與SENet計(jì)算注意力權(quán)重方法類似的結(jié)構(gòu)(如圖3 虛線框部分)計(jì)算得到特定的注意力權(quán)重,接著與經(jīng)過降維得到的特征圖進(jìn)行通道乘法得到以對(duì)象為條件的注意力特征圖,實(shí)現(xiàn)對(duì)對(duì)象所在上下文信息進(jìn)行有選擇地利用。
圖4 注意力模塊SENet框圖
對(duì)圖3 所示整個(gè)FPNet 的網(wǎng)絡(luò)結(jié)構(gòu)可進(jìn)行如下描述。輸入圖像在經(jīng)過Faster R-CNN后得到目標(biāo)對(duì)象的具體位置,接著在backbone 輸出的大小為H×W×512的特征圖上,提取對(duì)應(yīng)區(qū)域特征圖,通過感興趣區(qū)域池化(ROI pooling)操作得到大小為7×7×512 的特征圖。為了在不影響網(wǎng)絡(luò)性能的前提下減少參數(shù)量,降低訓(xùn)練過程中的內(nèi)存消耗,本文在此處采用與SENet 相同的GAP操作將該特征圖轉(zhuǎn)換為512維的特征向量。接著,通過兩個(gè)FC層配合得到一個(gè)128維的注意力權(quán)重向量,以此對(duì)原特征圖進(jìn)行通道加權(quán)(channel-wise attention)操作,這一過程可以有效地提取目標(biāo)對(duì)象的上下文信息。對(duì)得到的引入注意力的特征圖再次執(zhí)行GAP 操作,通過一個(gè)FC 層得到對(duì)象的上下文特征向量xcontext。最后,將目標(biāo)對(duì)象特征xinstance與其上下文的特征向量xcontext進(jìn)行拼接(concatenate),得到256 維的節(jié)點(diǎn)特征向量表示。
圖神經(jīng)網(wǎng)絡(luò)(Graph Neural Network,GNN)的概念最早由Gori等人[20]提出,主要用于處理圖結(jié)構(gòu)數(shù)據(jù)。隨著越來越多的圖形結(jié)構(gòu)數(shù)據(jù)出現(xiàn)在社交網(wǎng)絡(luò)、三維網(wǎng)格、電信網(wǎng)絡(luò)等各個(gè)領(lǐng)域,應(yīng)用于這類不規(guī)則數(shù)據(jù)的GNN 變體層出不窮,在相應(yīng)的任務(wù)中表現(xiàn)出了優(yōu)異的性能。文獻(xiàn)[21]提出了一種多層圖卷積網(wǎng)絡(luò)(Graph Convolutional Network,GCN),將卷積思想引入到了GNN 中。然而,和大多數(shù)GNN 變體一樣,GCN 需要在卷積之前知道圖的結(jié)構(gòu)。這意味著它只能處理固定的圖結(jié)構(gòu)。在人-物交互識(shí)別中,不同訓(xùn)練樣本的圖結(jié)構(gòu)不同。因此需要固定圖結(jié)構(gòu)的網(wǎng)絡(luò)如GCN不適合本文的任務(wù)。Velickovic 等人[22]提出的圖注意力(GAT)網(wǎng)絡(luò)可以更好地解決上述問題,它放松了對(duì)圖結(jié)構(gòu)的要求,可以通過自注意機(jī)制從數(shù)據(jù)中完全學(xué)習(xí)或改進(jìn)。于是在本文中,采用GAT來挖掘圖中的人-物交互作用。
圖注意力網(wǎng)絡(luò)作為圖神經(jīng)網(wǎng)絡(luò)的一個(gè)重要變體,其核心是將注意機(jī)制融入節(jié)點(diǎn)信息的傳播過程中。通過一種自注意力(self-attention)策略對(duì)每個(gè)節(jié)點(diǎn)的鄰居節(jié)點(diǎn)施以不同的注意力權(quán)重來計(jì)算每個(gè)節(jié)點(diǎn)的隱藏狀態(tài)。圖注意力網(wǎng)絡(luò)基本構(gòu)成單元為圖注意層(GAT Layer),可以通過堆疊注意力層來搭建任意的圖注意力網(wǎng)絡(luò)。
圖注意力層是圖注意力網(wǎng)絡(luò)的基石,其輸入是一組節(jié)點(diǎn)特征向量其中N表示節(jié)點(diǎn)的數(shù)量,F(xiàn)是節(jié)點(diǎn)特征的維數(shù)。輸出是一組的新的節(jié)點(diǎn)特征向量為節(jié)點(diǎn)特征的維數(shù)。的映射過程是整個(gè)圖注意力層的核心所在,其工作原理主要由注意力系數(shù)的計(jì)算以及節(jié)點(diǎn)信息的加權(quán)聚合兩部分構(gòu)成。
(1)注意力系數(shù)的計(jì)算。首先,為了獲取更有力的特征表達(dá),需要對(duì)輸入的節(jié)點(diǎn)特征采取至少一次線性變換[22]。本文在此處參考文獻(xiàn)[22]采取一次線性變換,權(quán)重矩陣為接著對(duì)每個(gè)節(jié)點(diǎn)使用一個(gè)共享的注意力機(jī)制計(jì)算其對(duì)鄰居節(jié)點(diǎn)的注意力系數(shù)。a(·)采用的是一個(gè)權(quán)重向量為的單層前饋神經(jīng)網(wǎng)絡(luò),其以經(jīng)過線性變換的節(jié)點(diǎn)特征向量為輸入,輸出每個(gè)節(jié)點(diǎn)對(duì)其鄰居節(jié)點(diǎn)的初始注意力系數(shù)。并對(duì)其結(jié)果利用LeakyReLU 激活函數(shù)進(jìn)行了非線性化。具體公式如下:
為了更好地觀察比較對(duì)鄰居節(jié)點(diǎn)的注意力,利用softmax函數(shù)對(duì)計(jì)算出的注意系數(shù)進(jìn)行標(biāo)準(zhǔn)化處理:
其中,Ni是節(jié)點(diǎn)i的所有鄰居節(jié)點(diǎn)。
(2)節(jié)點(diǎn)信息的加權(quán)聚合。在完成節(jié)點(diǎn)i對(duì)其鄰居節(jié)點(diǎn)Ni的注意力系數(shù)αij的計(jì)算后,對(duì)節(jié)點(diǎn)i的輸出特征可由參數(shù)W與注意力系數(shù)αij根據(jù)式(3)計(jì)算得到:
其中,K表示head的個(gè)數(shù),即獨(dú)立的注意力機(jī)制的個(gè)數(shù);表示第k個(gè)注意力機(jī)制計(jì)算出來的相應(yīng)的注意力系數(shù);Wk表示第k個(gè)注意力機(jī)制中相應(yīng)的線性變換矩陣。
當(dāng)前許多方法主要是對(duì)由目標(biāo)檢測(cè)器得到的所有對(duì)象按照<人,物體>這樣的二元組進(jìn)行組合后,再進(jìn)行交互作用的一一識(shí)別。這樣的做法引入了過多的人為因素,缺乏模型對(duì)<人,物體>匹配的推理能力。而本文以使模型自行推理出真實(shí)交互的人、物雙方并實(shí)現(xiàn)交互作用的識(shí)別為目的,采取以圖的形式對(duì)圖像中的所有對(duì)象進(jìn)行表示,并借助GAT 進(jìn)行圖中人與物體交互關(guān)系的推理。在2.1 節(jié)圖注意力網(wǎng)絡(luò)的介紹中可以發(fā)現(xiàn),GAT的輸出考慮了圖中不同節(jié)點(diǎn)的信息,通過加權(quán)聚合的形式得到表現(xiàn)力更強(qiáng)的節(jié)點(diǎn)特征表示。在本文中,節(jié)點(diǎn)特征來自于通過FPNet 得到的包含有對(duì)象的外觀與相應(yīng)上下文信息的特征向量,其本身已具有很強(qiáng)的表達(dá)能力,再經(jīng)過GAT后會(huì)得到魯棒性更強(qiáng)的特征表示,這對(duì)于最終的分類任務(wù)十分重要。除此而外,GAT的核心是引入了注意力機(jī)制,實(shí)現(xiàn)了圖中某一節(jié)點(diǎn)對(duì)其鄰居節(jié)點(diǎn)信息的選擇性利用。本文借助其這一特質(zhì),利用在模型輸出層得到的人類節(jié)點(diǎn)對(duì)其鄰居節(jié)點(diǎn)的注意力系數(shù)來自動(dòng)推理出交互的雙方。實(shí)驗(yàn)結(jié)果也證明了GAT具備挖掘人-物交互作用的能力。
2.2.1 損失函數(shù)
本文采用兩層GAT模型來對(duì)HOI圖中的人-物交互作用進(jìn)行識(shí)別。在最后的輸出層,利用sigmoid 函數(shù)對(duì)所有更新后節(jié)點(diǎn)特征進(jìn)行處理,得到n維概率向量,其中n是交互動(dòng)作類別的數(shù)量。考慮到一些節(jié)點(diǎn)可能同時(shí)有多個(gè)標(biāo)簽。例如發(fā)生如圖1中的情況,一個(gè)人同時(shí)與兩個(gè)物體都發(fā)生了真實(shí)的交互,則對(duì)應(yīng)人類的圖節(jié)點(diǎn)標(biāo)簽將同時(shí)被標(biāo)記為“carry”和“hold”,鑒于此,本文選擇了多標(biāo)簽軟間隔損失函數(shù),基本公式如下:
其中,C表示交互動(dòng)作的類別數(shù),如HICO-DET 數(shù)據(jù)集中交互動(dòng)作的類別數(shù)為117。為損失函數(shù)的輸入向量的元素。為標(biāo)簽向量的元素。在損失函數(shù)的優(yōu)化上,本文選擇了Adam 算法[23]來最小化模型的損失函數(shù)。
2.2.2 算法流程
本文方法的識(shí)別流程可概述為:
(1)輸入RGB圖像,通過2.1節(jié)進(jìn)行HOI圖的構(gòu)建。
(2)利用FPNet對(duì)HOI圖進(jìn)行節(jié)點(diǎn)特征嵌入。
(3)通過GAT 對(duì)HOI 圖上真實(shí)的人與物體的交互關(guān)系進(jìn)行推理。
(4)通過GAT 輸出層得到節(jié)點(diǎn)分類結(jié)果標(biāo)(actionlabel),同時(shí)通過保留GAT 模型輸出層的高注意力系數(shù)(即公式(2)中的α)來確定發(fā)生交互動(dòng)作的雙方(human,object),即得到對(duì)應(yīng)的HOI 三元組
(5)最終的人-物交互得分是通過human 節(jié)點(diǎn)和交互object節(jié)點(diǎn)的動(dòng)作概率(action label probability)相乘得到。
為了評(píng)估本文方法的有效性,本文在“Human and Common Object Interaction Detection”(HICO-DET)數(shù)據(jù)集[6]和“Verb in COCO”(V-COCO)數(shù)據(jù)集[11]上進(jìn)行了實(shí)驗(yàn)。
3.1.1 實(shí)驗(yàn)數(shù)據(jù)集
HICO-DET 數(shù)據(jù)集是用于HOI 研究的一個(gè)大型基準(zhǔn)數(shù)據(jù)集,它對(duì)圖像中每對(duì)發(fā)生交互的人、物體雙方的空間位置都進(jìn)行了詳細(xì)的標(biāo)注。HICO-DET 數(shù)據(jù)集中有47 776 幅圖像,標(biāo)注了600 種人-物交互類別(如“喂貓”“清洗小刀”),117個(gè)動(dòng)作類別(如“喂”“清洗”)和80個(gè)對(duì)象類別(如“貓”“小刀”)。共有151 276個(gè)實(shí)例注釋(annotation)。整個(gè)數(shù)據(jù)集中有38 118 幅圖像(80%)用于訓(xùn)練,9 558幅圖像(20%)用于測(cè)試。
V-COCO數(shù)據(jù)集是微軟目標(biāo)檢測(cè)數(shù)據(jù)集MS COCO(Microsoft COCO:Common Objects in Context)的一個(gè)子集,共有10 346幅圖像,其中5 400幅圖像用于訓(xùn)練和驗(yàn)證,4 946 幅圖像用于測(cè)試。數(shù)據(jù)集共注釋了26 個(gè)常用的動(dòng)作類,以及人和交互對(duì)象的邊界框。在該數(shù)據(jù)集中,一個(gè)人不僅可以在同一個(gè)物體上執(zhí)行多個(gè)動(dòng)作(例如,邊滑雪邊握滑雪板),還可以在不同類型的物體上執(zhí)行相同的動(dòng)作。數(shù)據(jù)集示例如圖5所示。
3.1.2 評(píng)價(jià)指標(biāo)
本文針對(duì)人-物交互檢測(cè)問題采用了平均精度(mean Average Precision,mAP)作為衡量方法的標(biāo)準(zhǔn),并對(duì)判斷準(zhǔn)則進(jìn)行了適當(dāng)?shù)男薷模赃m應(yīng)本文的研究內(nèi)容。在目標(biāo)檢測(cè)領(lǐng)域,如果算法預(yù)測(cè)的目標(biāo)邊框與真實(shí)邊框(ground truth)的重疊的交并比(Intersection over Union,IoU)大于0.5,就會(huì)被認(rèn)為是真陽性(True Positive,TP)。在具體實(shí)驗(yàn)中,本文對(duì)TP的判斷做了一定的修改,規(guī)定只有滿足以下三個(gè)條件,對(duì)于人-物交互的檢測(cè)才能被認(rèn)為是真陽性:(1)預(yù)測(cè)到人類邊框和其真實(shí)邊框(ground truth)之間的IoU大于或等于0.5;(2)預(yù)測(cè)到的物體邊框與真實(shí)的物體邊框之間的IoU 大于或等于0.5;(3)對(duì)人與交互物體之間交互動(dòng)作的預(yù)測(cè)與真實(shí)發(fā)生的交互動(dòng)作應(yīng)一致。在本文所使用的兩個(gè)數(shù)據(jù)集上對(duì)模型的性能評(píng)估均采用此評(píng)價(jià)標(biāo)準(zhǔn)。
在本文的實(shí)驗(yàn)中,對(duì)于Faster R-CNN 的特征提取網(wǎng)絡(luò)采用牛津大學(xué)提出的VGG16[24]網(wǎng)絡(luò)。因?yàn)镸S COCO 與HICO-DET 和V-COCO 數(shù)據(jù)集具有相同的對(duì)象類別,為了簡化整個(gè)模型的訓(xùn)練過程,縮短訓(xùn)練時(shí)間,直接使用了在MS COCO 數(shù)據(jù)集上訓(xùn)練好的模型。實(shí)驗(yàn)中根據(jù)特定任務(wù),本文對(duì)文獻(xiàn)[22]中提出的GAT模型進(jìn)行了調(diào)整。主要有兩處調(diào)整:(1)與文獻(xiàn)[22]中的模型設(shè)置不同,本文使用的隱藏層神經(jīng)元數(shù)量是1 024。在選用此參數(shù)前,分別將其設(shè)置為256、512 以及2 048進(jìn)行了測(cè)試,發(fā)現(xiàn)隨著數(shù)量的上升,雖然模型效果有一定的提升,但相應(yīng)的內(nèi)存占用巨大,訓(xùn)練十分緩慢。在確保一定的模型效果下,折中選擇了1 024,本文還在圖注意網(wǎng)絡(luò)層的線性變換運(yùn)算之后加入了批處理規(guī)范化(Batch Normalization,BN)層,在提高模型收斂速度的同時(shí)也降低了過擬合的風(fēng)險(xiǎn)。(2)由于本文的目標(biāo)是進(jìn)行人-物交互識(shí)別,在此過程中會(huì)出現(xiàn)一人同時(shí)與多個(gè)物體交互的情況,這時(shí)對(duì)交互動(dòng)作的識(shí)別就是一個(gè)多分類問題,對(duì)應(yīng)到本文的圖模型就是對(duì)圖節(jié)點(diǎn)進(jìn)行多標(biāo)簽分類,所以在圖注意力網(wǎng)絡(luò)輸出時(shí),用Sigmoid函數(shù)來代替原始的Softmax函數(shù)。并將原文獻(xiàn)的交叉熵?fù)p失函數(shù)改為了如式(5)的多標(biāo)簽軟間隔損失函數(shù)。
整個(gè)實(shí)驗(yàn)使用PyTorch 框架實(shí)現(xiàn),并部署在一臺(tái)帶有Nvidia TITAN GPU 的機(jī)器上。設(shè)定的初始學(xué)習(xí)率為1E-3,每6 個(gè)階段學(xué)習(xí)率下降0.7,批處理大小batch size為10,整個(gè)訓(xùn)練過程持續(xù)30 h逐漸收斂。
3.3.1 與其他方法的比較
為了驗(yàn)證所提出的方法的有效性,本文與近年來在HICO-DET 和V-COCO 數(shù)據(jù)集上有較好效果的方法進(jìn)行了比較。對(duì)于HICO-DET 數(shù)據(jù)集,遵循文獻(xiàn)[6]的設(shè)置,將數(shù)據(jù)集劃分為三個(gè)子集:完整(Full)、稀有(Rare)和非稀有(Non-Rare)。Full 表示使用整個(gè)數(shù)據(jù)集樣本,Rare表示包含138類較少出現(xiàn)的人-物交互類別的集合,Non-Rare表示包含462類較常出現(xiàn)的人-物交互類別的集合。對(duì)于HICO-DET與V-COCO數(shù)據(jù)集,都以平均精度mAP為評(píng)價(jià)指標(biāo)。本文方法在兩個(gè)數(shù)據(jù)集的測(cè)試集上的結(jié)果分別呈現(xiàn)在表1與表2中,部分可視化結(jié)果如圖6。
圖5 數(shù)據(jù)集樣本示例
圖6 數(shù)據(jù)集測(cè)試樣本可視化結(jié)果示例
表1 與其他方法在HICO-DET數(shù)據(jù)集上的平均精度均值mAP比較 %
表2 與其他方法在V-COCO數(shù)據(jù)集上的平均精度均值mAP比較%
表1 與表2 的結(jié)果表明,本文方法利用圖結(jié)構(gòu)對(duì)圖像中對(duì)象進(jìn)行表示,在捕捉到人與物體之間關(guān)系的同時(shí)也能很好地利用圖像上下文信息,相對(duì)其他單一地使用對(duì)象外觀信息性能更好。除此而外,本文還對(duì)主要算法在數(shù)據(jù)集上的平均測(cè)試時(shí)間進(jìn)行了比較,如表3。從表3可以看出本文基于圖的方法的平均測(cè)試時(shí)間較低,主要是其他方法采用成對(duì)的人-物組合去預(yù)測(cè),當(dāng)圖像中人、物體數(shù)量較多時(shí),推理時(shí)間會(huì)劇增,且這些方法采用的網(wǎng)絡(luò)較深,參數(shù)量很大,計(jì)算耗時(shí)。
表3 主要方法的計(jì)算復(fù)雜度
3.3.2 模型相關(guān)因素考察
為了進(jìn)一步探究本文方法的有效性,通過實(shí)驗(yàn)對(duì)整個(gè)模型的重要影響因素進(jìn)行了分析。主要考慮四個(gè)方面:(1)本文提出的利用HOI 圖代替全連接圖的觀點(diǎn)的必要性;(2)本文提出的FPNet 中注意力機(jī)制的必要性;(3)FPNet 的必要性;(4)GAT 層數(shù)對(duì)模型性能的影響。實(shí)驗(yàn)結(jié)果如表4,表中“W/o FPNet”表示去除FPNet網(wǎng)絡(luò)后的模型,“W/o Attention”表示模型中FPNet不引入注意力機(jī)制,“FC Graph”表示采用全連接圖的模型,“Single layer”表示使用單層注意力網(wǎng)絡(luò)的模型,“Three layer”表示使用三層注意力網(wǎng)絡(luò)的模型。所用評(píng)價(jià)指標(biāo)同上。
表4 模塊有效性測(cè)試%
從表4 中可看出,(1)使用全連接圖的模型總體性能由于受到過多無關(guān)信息的干擾,性能反而較原模型有所下降。(2)未在FPNet 中引入注意力的模型由于其節(jié)點(diǎn)特征構(gòu)造過程中直接將對(duì)象外觀及背景的特征直接通過拼接,缺少對(duì)重點(diǎn)信息的提取,引入了噪聲,導(dǎo)致節(jié)點(diǎn)特征的魯棒性不好。(3)去除了FPNet 模塊,將對(duì)象ROI pooling 后的特征調(diào)整到256 維后直接送入圖注意力網(wǎng)絡(luò)中。相比于完整模型其性能有了明顯的下降,由此可以看出特征處理網(wǎng)絡(luò)提供的上下文信息對(duì)模型的性能提升有很大的促進(jìn)作用,能夠幫本文的模型提取到更為健壯的特征表示。(4)除此以外還探索了圖注意力層(GAT Layer)對(duì)整個(gè)框架性能的影響。從實(shí)驗(yàn)結(jié)果可以看出,無論層數(shù)是低于兩層還是高于兩層,模型的性能都產(chǎn)生了不同幅度的下降。
本文針對(duì)靜態(tài)圖像中人與物體的交互識(shí)別問題,提出了一種具有雙重注意力的檢測(cè)與識(shí)別框架,利用圖結(jié)構(gòu)對(duì)圖像中潛在的HOIs 進(jìn)行建模,并通過引入注意力機(jī)制的FPNet 將圖像上下文信息融入到圖節(jié)點(diǎn)的特征表示中去,最后聯(lián)合GAT 對(duì)真實(shí)的HOIs 加以推斷。為了驗(yàn)證該方法的性能,本文在HICO-DET與V-COCO數(shù)據(jù)集上與其他方法進(jìn)行了實(shí)驗(yàn)比較,結(jié)果證明了該方法的有效性。在下一步工作中,會(huì)嘗試將知識(shí)圖譜與本文方法進(jìn)行結(jié)合,改進(jìn)模型效果。