侯建華,麻建,王超,項(xiàng)俊
(中南民族大學(xué) 電子信息工程學(xué)院,武漢 430074)
多目標(biāo)跟蹤(Multi-object tracking,MOT)是計(jì)算機(jī)視覺領(lǐng)域的重要研究內(nèi)容,給定視頻序列,其任務(wù)是標(biāo)定多個(gè)感興趣目標(biāo)的運(yùn)動(dòng)軌跡,包括目標(biāo)定位與身份鑒定[1].隨著目標(biāo)檢測器性能的不斷提升,基于檢測的數(shù)據(jù)關(guān)聯(lián)技術(shù)已成為MOT主流框架.此類方法首先利用離線檢測器逐幀標(biāo)定各目標(biāo)位置,再將屬于同一目標(biāo)的檢測響應(yīng)逐一關(guān)聯(lián),最終獲得各目標(biāo)的運(yùn)動(dòng)軌跡.這種跟蹤框架包括兩部分,(1)親密度模型(也稱關(guān)聯(lián)模型):用于計(jì)算檢測響應(yīng)之間的關(guān)聯(lián)代價(jià);(2)狀態(tài)推理:基于優(yōu)化策略的狀態(tài)關(guān)聯(lián)求解.
近年來,借助深度神經(jīng)網(wǎng)絡(luò)強(qiáng)大的特征表達(dá)能力,基于深度學(xué)習(xí)的親密度建模是目前多目標(biāo)跟蹤領(lǐng)域的研究熱點(diǎn)[2].一種常見的策略是將親密度建模轉(zhuǎn)化為基于孿生網(wǎng)絡(luò)的身份驗(yàn)證問題,例如LEAL等[3]采用孿生架構(gòu)的卷積神經(jīng)網(wǎng)絡(luò),從RGB圖像和光流圖像中學(xué)習(xí)用于比較的局部特征;TANG等[4]、XIANG等[5]則將多目標(biāo)跟蹤理解為行人重識(shí)別問題(person re-identification, Re-ID),借鑒Re-ID任務(wù)中的身份類別損失去訓(xùn)練孿生網(wǎng)絡(luò),使提取的外觀特征具有身份鑒別性.然而,上述方法依賴于檢測器性能,檢測器漂移(即定位不準(zhǔn))將對親密度建模造成干擾;同樣的,目標(biāo)遮擋也會(huì)導(dǎo)致同樣的問題.如圖1所示,在Detection B中,黑衣男子被白衣男子遮擋,缺失腿部的外觀結(jié)構(gòu);此時(shí)直接使用遮擋圖片的原始特征是不合適的,合理的方法是對未遮擋的目標(biāo)區(qū)域與被遮擋目標(biāo)區(qū)域的特征加以區(qū)分.
針對此問題,文獻(xiàn)[6-7]嘗試將空域注意力機(jī)制引入到多目標(biāo)跟蹤,其基本思想是通過生成空域注意力掩模(即一層新的權(quán)重)將圖像中的關(guān)鍵特征或關(guān)鍵區(qū)域標(biāo)識(shí)出來.ZHU等[7]提出了基于孿生架構(gòu)的空間注意力網(wǎng)絡(luò)(Spatial Attention Network, SAN)來處理多目標(biāo)跟蹤過程中的檢測不精確和遮擋問題.輸入一對檢測器響應(yīng),文獻(xiàn)[7]首先獲得每幅圖像在空域分布上的相關(guān)性熱圖,將此作為數(shù)據(jù)特征級上的重要性依據(jù),通過與深度特征逐通道相乘后再施加平均池化操作,獲得最具鑒別性的注意力特征;但這種方式在每個(gè)通道輸出1維特征,忽略或者丟失了被跟蹤目標(biāo)在不同通道上的空域結(jié)構(gòu)信息.
為了在形成空間注意力機(jī)制的同時(shí)保留目標(biāo)的空域結(jié)構(gòu)信息,本文對文獻(xiàn)[7]中的空間注意力網(wǎng)絡(luò)進(jìn)行了改進(jìn),以交并比(Intersection over Union, IoU)的方式代替相乘加權(quán)池化.實(shí)驗(yàn)結(jié)果表明,這種改進(jìn)后的網(wǎng)絡(luò)有效提高了關(guān)聯(lián)模型的精度,經(jīng)過匈牙利算法完成關(guān)聯(lián)狀態(tài)推理,最終實(shí)現(xiàn)了性能良好的在線多目標(biāo)跟蹤.
針對多目標(biāo)跟蹤場景下的檢測失準(zhǔn)和遮擋問題,文獻(xiàn)[7]提出了一種基于孿生架構(gòu)的空間注意力神經(jīng)網(wǎng)絡(luò)(SAN),網(wǎng)絡(luò)結(jié)構(gòu)示意圖如圖1所示,此框架主要包括基礎(chǔ)網(wǎng)絡(luò)ResNet-50[8]、余弦層(Cosine Layer)、空間注意力機(jī)制模塊三部分.輸入一對待關(guān)聯(lián)檢測響應(yīng),輸出為輸入圖片對應(yīng)的類別得分,以及判斷圖片對是否為同一目標(biāo)的驗(yàn)證得分;在測試時(shí)將驗(yàn)證得分作為外觀關(guān)聯(lián)代價(jià).
圖1 空間注意力網(wǎng)絡(luò)框架
圖1采用求余弦距離的方式獲得深度特征間的互相似性,并以此生成注意力熱圖,目的是增強(qiáng)相似性特征間作用,抑制不相似性特征間作用.具體說來圖1中ResNet-50為深度特征提取模塊,輸出特征圖記為X∈H×W×C,其中H、W、C分別為特征圖的高度、寬度、通道數(shù),對應(yīng)于圖1中的7*7*2048.進(jìn)一步,將特征圖沿通道進(jìn)行L2正則化,并表示為二維矩陣X={x1,…,xN}∈C×N,其中xi∈C為特征圖第i個(gè)空域位置所對應(yīng)的特征列向量,N=H×W.設(shè)兩個(gè)輸入檢測響應(yīng)所對應(yīng)的特征圖分別為,利用Cosine Layer層計(jì)算Xα相對于Xβ的余弦相似度矩陣S∈N×N:
(1)
將余弦相似度矩陣S∈N×N重新排列成三維,得到特征圖Xα的相似度表示H×W×N,對應(yīng)于圖1中的7*7*49;隨后利用一個(gè)卷積核大小為1×1的卷積層θs∈N和softmax層將轉(zhuǎn)化為空間注意力熱圖Aα∈H×W,對應(yīng)圖1中的7*7.將Aα展開為,則其第i個(gè)元素代表特征圖Xα在第I個(gè)空域位置上的注意力數(shù)值:
(2)
(3)
另一方面,交并比作為保留目標(biāo)空域結(jié)構(gòu)信息的常用方法,被廣泛用于圖像分割[9]、檢測[10]等領(lǐng)域,例如文獻(xiàn)[9]在分割任務(wù)中為了突出目標(biāo)空域結(jié)構(gòu)信息,直接將目標(biāo)區(qū)域與真值GT(ground truth)的IoU得分轉(zhuǎn)化為網(wǎng)絡(luò)的損失函數(shù);文獻(xiàn)[10]為了克服檢測框回歸中的退化問題,以候選框與真值GT的IoU得分作為位置置信度,提出了基于IoU的邊框優(yōu)化以及IoU指導(dǎo)的非極大值抑制(Non-Maximum Suppression,NMS),突出目標(biāo)位置信息,提升了目標(biāo)檢測性能.
受文獻(xiàn)[9,10]啟發(fā),本文提出用交并比的方法代替加權(quán)池化,改進(jìn)文獻(xiàn)[7]的特征空域融合方式,即通過空間注意力熱圖Aα分別與Xα每個(gè)通道上7*7特征圖進(jìn)行IoU操作,得到大小為1*2048的注意力特征.相比于加權(quán)池化操作,求IoU操作能夠銳化特征圖的邊界信息,更多保留了被跟蹤目標(biāo)空域上的結(jié)構(gòu)信息.
(4)
(5)
其中θ為二值化閾值,依經(jīng)驗(yàn)設(shè)定為對應(yīng)特征最大激活值的70%.
親密度建模的目的是度量已跟蹤軌跡片與候選檢測響應(yīng)之間的相似性,目的是確保屬于同一身份的檢測響應(yīng)擁有較高的關(guān)聯(lián)概率,因此,本文損失函數(shù)設(shè)計(jì)中包括驗(yàn)證損失(verification loss)和身份損失(identification loss)兩部分.其中二元驗(yàn)證損失將親密度建模理解為驗(yàn)證問題.然而由于多目標(biāo)數(shù)據(jù)庫有限,僅采用驗(yàn)證損失易導(dǎo)致模型過擬合現(xiàn)象,為此在注意力特征基礎(chǔ)上額外引入身份類別損失,進(jìn)一步約束注意力特征的身份鑒別性,從而緩解過擬合問題.
(6)
其中C為類別總數(shù),B為batch-size,xb,i表示第b個(gè)樣本預(yù)測為類別i的類別得分.
(7)
其中yb∈{0,1}表示第b個(gè)樣本的真實(shí)標(biāo)簽,xb∈[0,1]表示第b個(gè)樣本的網(wǎng)絡(luò)類別預(yù)測概率.
最后,訓(xùn)練過程中完整損失函數(shù)可表示為:
Loss=γ*Lossc+δ*Lossv,
(8)
上式中,γ、δ為常系數(shù),根據(jù)經(jīng)驗(yàn)設(shè)置,用于調(diào)節(jié)身份損失與驗(yàn)證損失在總損失中的權(quán)重.
實(shí)驗(yàn)硬件環(huán)境主要包括CPU為Intel 至強(qiáng)E5-2650 v4、內(nèi)存為128GB、GPU為NVIDIA Titan X 12GB的深度學(xué)習(xí)服務(wù)器;軟件環(huán)境主要包括64位的Ubuntu16.04操作系統(tǒng)以及Pytorch深度學(xué)習(xí)編程平臺(tái).
采用MOT16數(shù)據(jù)庫[11]中的訓(xùn)練集進(jìn)行模型訓(xùn)練.在訓(xùn)練過程中,為了提取目標(biāo)外觀特征,采用已在ImageNet 數(shù)據(jù)集上預(yù)訓(xùn)練的ResNet-50作為基礎(chǔ)網(wǎng)絡(luò).除了ResNet-50外,其他的網(wǎng)絡(luò)參數(shù)的權(quán)重初始化采用高斯分布;所有的輸入圖片大小都被縮放成224*224.使用Adam算法進(jìn)行模型優(yōu)化,激活函數(shù)采用ReLU,Batch-size設(shè)為16,正則化系數(shù)設(shè)為0.01,學(xué)習(xí)率設(shè)為0.0001,θ設(shè)為所輸入特征圖最大值的1/5,γ設(shè)為0.5,δ設(shè)為1.
為了客觀評價(jià)本文方法的性能,采用多目標(biāo)跟蹤領(lǐng)域通用的測評體系,表1是各項(xiàng)指標(biāo)的說明[11,12].
表1 測評指標(biāo)說明
以下從空間注意力機(jī)制、改進(jìn)后網(wǎng)絡(luò)與文獻(xiàn)[7]的SAN對比、與一些其他主流MOT算法對比等三方面給出實(shí)驗(yàn)結(jié)果與分析,最后給出可視化跟蹤結(jié)果.
圖2 驗(yàn)證集特征分布圖
(2)IoU的有效性.以2DMOT2015[12]的訓(xùn)練集和MOT16-02[11]作為驗(yàn)證集,從網(wǎng)絡(luò)輸出的驗(yàn)證得分精度、算法跟蹤性能兩方面來驗(yàn)證IoU的有效性.
(a) 從MOT15訓(xùn)練集中挑選出2萬對檢測響應(yīng),其中正負(fù)樣本各半.利用網(wǎng)絡(luò)的驗(yàn)證得分來判斷輸入檢測響應(yīng)對是否為同一目標(biāo),以此計(jì)算精度.SAN[7]與改進(jìn)后方法的驗(yàn)證集精度如表2所示(表中標(biāo)紅數(shù)字表示某指標(biāo)下的最好結(jié)果,下同),可以看出改進(jìn)后方法比原來SAN方法具有更高的精度,驗(yàn)證了用交并比代替加權(quán)池化的有效性.
表2 驗(yàn)證集精度
(b) 在驗(yàn)證集MOT16-02上對兩種跟蹤算法進(jìn)行測試比較,測試結(jié)果如表3所示,由表3可知改進(jìn)后的方法在多個(gè)測試指標(biāo)上優(yōu)于原始的SAN.進(jìn)一步驗(yàn)證了IoU的有效性.
表3 MOT16-02測試結(jié)果
(3)與主流算法的比較.在MOT16測試集上對本文跟蹤算法進(jìn)行了測試,并與目前一些主流多目標(biāo)跟蹤算法進(jìn)行了比較,如表4所示;表中↑表示該指標(biāo)越大性能越好,↓表示該指標(biāo)越小性能越好.可以看出,本文跟蹤算法具有良好的綜合性能.以下特別針對文獻(xiàn)[7]的DMAN方法進(jìn)行對比說明.第一,本文算法的MOTA比DMAN方法低1.3(44.8對46.1),這是因?yàn)镈MAN不僅考慮了空域注意力機(jī)制,同時(shí)還引入了時(shí)域注意力機(jī)制進(jìn)一步改善特征表達(dá)能力;而本文僅對文獻(xiàn)[7]中的DMAN算法的空間注意力網(wǎng)絡(luò)進(jìn)行改進(jìn),沒有使用時(shí)域注意力機(jī)制,這是也本文后續(xù)可改進(jìn)之處.第二,本文算法的MOTP比DMAN方法高0.8(74.6對73.8),說明了本文算法在進(jìn)行數(shù)據(jù)關(guān)聯(lián)時(shí)選擇了更加接近真值GT的檢測框.第三,本文方法在ML測評指標(biāo)上也優(yōu)于DMAN方法5.9個(gè)百分點(diǎn)(36.8%對42.7%),說明本文算法能關(guān)聯(lián)更多的軌跡片或檢測框,在應(yīng)對檢測器漂移和目標(biāo)遮擋場景具有更好的魯棒性.
表4 MOT16測試集測試結(jié)果
為了更直觀說明本文算法的跟蹤性能,圖3至圖5給出了該算法在MOT16測試集上的部分可視化跟蹤結(jié)果.
圖3 MOT16-01跟蹤結(jié)果(從左到右依次為第116、183、249幀)
圖3為視頻MOT16-01上的一段跟蹤結(jié)果.該視頻拍攝時(shí),光線陰暗,攝像頭固定平拍,背景嘈雜.圖中行人框左上角的數(shù)字為算法所給的行人ID.ID為33的目標(biāo)從第116幀到第249幀的行走過程中,與其他行人發(fā)生多次遮擋,但其ID信息始終保持不變.
圖4為視頻MOT16-03上的一段跟蹤結(jié)果.該視頻拍攝時(shí),局部區(qū)域光線較暗,攝像頭固定俯拍,行人較多且相互遮擋頻繁.ID為139的目標(biāo)從第465幀到第540幀的行走過程中,在穿過與周圍光照環(huán)境差異較大的明亮燈柱時(shí),依然被正確跟蹤.
圖4 MOT16-03跟蹤結(jié)果(從左到右依次為第465、512、540幀)
圖5為視頻MOT16-12上的一段跟蹤結(jié)果.該視頻拍攝時(shí),光線明亮,攝像頭隨行人走動(dòng),鏡頭晃動(dòng)較大,目標(biāo)尺寸變化不斷.但在上述條件下ID為67的目標(biāo)在第94幀到第207幀中依然被正確跟蹤.
圖5 MOT16-12跟蹤結(jié)果(從左到右依次為第94、151、207幀)
在多目標(biāo)跟蹤方法中引入空間注意力機(jī)制,是克服遮擋與檢測器漂移等難點(diǎn)問題的有效手段.本文研究了一種基于孿生架構(gòu)的空間注意力網(wǎng)絡(luò)SAN[7],針對其特征融合階段易丟失不同通道空域結(jié)構(gòu)信息的問題,提出用交并比IoU代替加權(quán)池化的改進(jìn)措施.實(shí)驗(yàn)結(jié)果證明了改進(jìn)后網(wǎng)絡(luò)有效提高了關(guān)聯(lián)模型的精度,最終實(shí)現(xiàn)了性能良好的在線多目標(biāo)跟蹤.