賀愉婷,車 進(jìn),吳金蔓,馬鵬森
1.寧夏大學(xué)物理與電子電氣工程學(xué)院,銀川 750021
2.寧夏沙漠信息智能感知重點(diǎn)實(shí)驗(yàn)室,銀川 750021
多目標(biāo)跟蹤是計(jì)算機(jī)視覺領(lǐng)域的研究熱點(diǎn),旨在估計(jì)視頻序列中某個(gè)或多個(gè)目標(biāo)的位置和尺寸,同時(shí)賦予每個(gè)目標(biāo)唯一的身份標(biāo)識(shí),并在目標(biāo)運(yùn)動(dòng)過程中保證目標(biāo)身份信息穩(wěn)定。它被廣泛應(yīng)用于視頻監(jiān)控、城市安全、無人駕駛等領(lǐng)域。
多目標(biāo)跟蹤按照檢測和特征提取的執(zhí)行步驟,分為“分離式”跟蹤范式和“聯(lián)合式”跟蹤范式。分離式模型(如SORT[1]、DeepSORT[2]等)遵循先檢測后特征提取的步驟,分步執(zhí)行的優(yōu)勢是算法的準(zhǔn)確度相對較高,但是就會(huì)導(dǎo)致實(shí)時(shí)性相對差一些,因此聯(lián)合式跟蹤模型JDE[3]將特征提取部分融合到目標(biāo)檢測網(wǎng)絡(luò)中,同時(shí)輸出檢測和重識(shí)別信息,使得實(shí)時(shí)性大幅提高。與此同時(shí),研究發(fā)現(xiàn)檢測任務(wù)和ReⅠD任務(wù)存在“競爭”問題,這在一定程度上限制了跟蹤的性能,因此,Zhang等人[4]提出FairMOT 算法,著重考慮了兩個(gè)分支任務(wù)的集成問題,采用CenterNet[5]作為目標(biāo)檢測算法,并行輸出ReⅠD分支,并且探究了ReⅠD維度問題,將目標(biāo)檢測和重識(shí)別很好地統(tǒng)一起來。同樣地,基于JDE 模型,Liang 等人[6]提出特征互惠網(wǎng)絡(luò)緩解了JDE 模型中兩個(gè)分支任務(wù)的“矛盾”,同時(shí)提出SAAN 網(wǎng)絡(luò),在特征提取方面進(jìn)一步優(yōu)化?!奥?lián)合型”跟蹤模型相較于“分離式”模型有了極大的改進(jìn),但是仍然存在一定的問題。Liang等人[7]進(jìn)一步研究發(fā)現(xiàn)大部分基于檢測的跟蹤模型完全依賴于檢測模型檢測結(jié)果的正確性,但是這只是理想狀態(tài),實(shí)際應(yīng)用中不會(huì)存在目標(biāo)全部被檢測到的情況,因此提出OMC(one more check)算法,基于CSTrack 跟蹤框架,設(shè)計(jì)了一個(gè)Recheck 網(wǎng)絡(luò),以恢復(fù)由MOT 任務(wù)中不完善的檢測所引起的錯(cuò)誤分類的目標(biāo)。經(jīng)過對OMC算法的深入研究,本文發(fā)現(xiàn)雖然OMC 算法對誤檢的恢復(fù)有著不錯(cuò)的效果,但是并未考慮從源頭上對特征進(jìn)行優(yōu)化,遮擋導(dǎo)致的“漏檢”和“誤檢”問題依然存在,進(jìn)而造成多目標(biāo)跟蹤過程中的“誤跟”和“漏跟”問題仍然嚴(yán)重。因此本文考慮從源頭優(yōu)化目標(biāo)特征的質(zhì)量,主要基于OMC 算法提出五點(diǎn)改進(jìn):(1)首先優(yōu)化特征提取器,在Backbone部分集成全局注意力機(jī)制,獲取跨維度的相互作用信息,強(qiáng)化特征;(2)在Neck部分,采用轉(zhuǎn)置卷積上采樣方法進(jìn)一步增強(qiáng)網(wǎng)絡(luò)推理能力;(3)構(gòu)造遞歸交叉相關(guān)網(wǎng)絡(luò)利用自相關(guān)和互相關(guān)性質(zhì)充分學(xué)習(xí)檢測和ReⅠD 特征的特性和共性,使得模型性能增強(qiáng);(4)優(yōu)化尺度感知注意力網(wǎng)絡(luò),集成新的通道注意力模塊HSCAM,學(xué)習(xí)強(qiáng)鑒別性的特征;(5)更換了檢測分支邊界回歸損失函數(shù),采用EⅠoU作為新的損失函數(shù),回歸更加準(zhǔn)確,有效降低了FN和FP指標(biāo)值。
本文采用OMC算法作為基礎(chǔ)跟蹤框架,OMC模型主要是在CSTrack的基礎(chǔ)上添加了一個(gè)Recheck網(wǎng)絡(luò)恢復(fù)檢測器漏檢的目標(biāo)。本文算法的具體流程:首先,給定一幀x,經(jīng)過一個(gè)特征提取器φ處理,生成特征Ft=φ(x),然后將Ft輸入遞歸交叉相關(guān)網(wǎng)絡(luò)(recursive cross-correlation network,RCCN),將共享特征進(jìn)行解耦如公式(1),并通過二次交叉互相關(guān)性質(zhì)學(xué)習(xí)不同任務(wù)的特性和共性,對特征進(jìn)行增強(qiáng),再分別輸入Head分支(包含檢測分支和ReⅠD分支),輸出檢測結(jié)果和ⅠD嵌入。此處的ReⅠD分支采用尺度感知注意力網(wǎng)絡(luò)(scaleaware attention network,SAAN),集成了空間和通道注意力模塊對特征進(jìn)行進(jìn)一步增強(qiáng),此時(shí)的跟蹤器生成了檢測結(jié)果和重識(shí)別結(jié)果,Recheck網(wǎng)絡(luò)則用于恢復(fù)由檢測器引起的錯(cuò)誤分類。本文算法的具體框架如圖1所示。
圖1 算法架構(gòu)Fig.1 Algorithm architecture
公式(1)表示對共享特征Ft進(jìn)行解耦,得到為檢測結(jié)果(包括∈RH×W×1為前景概率,∈RH×W×4為原始錨框),∈RH×W×C表示ⅠD嵌入(C=512)。Dbase表示經(jīng)過greedy-NMS[8]進(jìn)行處理后的基礎(chǔ)檢測結(jié)果,Dbase中的每個(gè)錨框?qū)?yīng)于Fid中嵌入的(1×1×C)向量,所有目標(biāo)ⅠD 嵌入集合表示為Eid。最后,利用錨框和Dbase的ⅠD嵌入與歷史軌跡進(jìn)行關(guān)聯(lián)。
實(shí)際情況中,檢測器并不能保證檢測的完全正確,當(dāng)CSTrack 基礎(chǔ)檢測器錯(cuò)誤地將目標(biāo)歸類為背景時(shí),Recheck 網(wǎng)絡(luò)用以修復(fù)錯(cuò)誤問題。它是由兩個(gè)模塊組成:轉(zhuǎn)換檢測模塊和過濾假陽性(false positive)的細(xì)化模塊。通過測量和當(dāng)前ⅠD嵌入之間的相似性來轉(zhuǎn)換歷史軌跡。它將特征Ft與相似性圖進(jìn)行融合,得到細(xì)化后的特征圖,在一定程度上緩解了由于目標(biāo)在當(dāng)前框中消失而導(dǎo)致的false positive。Recheck 網(wǎng)絡(luò)的執(zhí)行可以表示為:
其中,Π代表Recheck 網(wǎng)絡(luò),實(shí)現(xiàn)歷史軌跡到當(dāng)前幀的轉(zhuǎn)導(dǎo),輸出轉(zhuǎn)導(dǎo)結(jié)果Mp。Mp與原始錨框一并構(gòu)成修正后的檢測結(jié)果,傳入greedy-NMS 進(jìn)行處理輸出轉(zhuǎn)換檢測結(jié)果Dtrans,再通過ⅠOU 機(jī)制與Dbase相結(jié)合,輸出最終的候選錨框Dfinal,然后與中相應(yīng)的ⅠD 嵌入進(jìn)行關(guān)聯(lián)。
OMC 算法的基礎(chǔ)檢測框架采用YOLOv5 結(jié)構(gòu),為了提高性能,本文在Backbone 部分集成了全局注意力機(jī)制,增強(qiáng)特征輸出,同時(shí)對Neck網(wǎng)絡(luò)部分進(jìn)行優(yōu)化,將原始的最近鄰插值(nearest interpolation)上采樣方法替換為轉(zhuǎn)置卷積(transposed convolution,TC)上采樣。
首先,考慮提升檢測器的性能,在Backbone集成全局注意力(global attention mechanism,GAM)[9],明確網(wǎng)絡(luò)應(yīng)該關(guān)注的目標(biāo)對象和位置。GAM不僅可以減少信息的丟失并且能放大全局維度交互特征。GAM包括兩個(gè)子模塊:通道注意力子模塊和空間注意力子模塊。兩個(gè)模塊的連接同CBAM 注意力機(jī)制[10]。通道注意力子模塊,通過三維排列在三個(gè)維度上保留信息,然后使用一個(gè)多層感知器(MLP)放大跨維通道-空間依賴性;空間注意力子模塊,通過使用兩個(gè)(7×7)卷積進(jìn)行空間信息的融合,其中涉及到的通道縮減比r取值16(同BAM注意力機(jī)制[11]設(shè)置)。GAM 注意力機(jī)制的數(shù)學(xué)過程如公式(3)和公式(4),其整體結(jié)構(gòu)圖及子模塊的結(jié)構(gòu)如圖2所示。
圖2 GAM注意力機(jī)制Fig.2 GAM attention mechanism
其中,F(xiàn)in表示輸入特征,Mc和Ms分別為通道注意力和空間注意力,?代表元素乘法。輸入特征經(jīng)過通道注意力子模塊處理之后得到中間特征Fm,再將中間特征作為輸入傳入空間注意力子模塊處理得到強(qiáng)化后的特征Fout。
針對Neck 部分的優(yōu)化,本文改進(jìn)了原始的上采樣方式(最近鄰上采樣),替換為轉(zhuǎn)置卷積上采樣方式。最近鄰上采樣方式計(jì)算比較簡單,速度快,但是存在圖像失真,特征細(xì)節(jié)丟失等問題;而轉(zhuǎn)置卷積屬于基于深度學(xué)習(xí)的上采樣方式,權(quán)值是可學(xué)習(xí)的,通常可以取得更好的效果。兩種上采樣方式的計(jì)算公式如公式(5)和公式(6),對比圖如圖3所示。
圖3 兩種上采樣方式對比圖Fig.3 Comparison chart of two up-sampling methods
最近鄰上采樣公式:
其中,(Ox,Oy)表示原圖像中像素點(diǎn)的坐標(biāo),(Dx,Dy)表示目標(biāo)圖像中像素點(diǎn)的坐標(biāo),(Ow,Oh)表示原圖像的寬高,(Dw,Dh)表示目標(biāo)圖像的寬高。當(dāng)(Ow/Dw)和(Oh/Dh)小于1時(shí),相當(dāng)于將原圖像進(jìn)行放大;反之縮小。
轉(zhuǎn)置卷積計(jì)算公式:
其中,X表示輸入(n維列向量),Y表示輸出,C表示卷積核轉(zhuǎn)換的稀疏矩陣表示,X′表示通過轉(zhuǎn)置矩陣將輸出矩陣的尺寸同輸入特征尺寸轉(zhuǎn)換一致的新輸出的矩陣。
采用不同的上采樣方式在MOT16各訓(xùn)練子集上進(jìn)行對比實(shí)驗(yàn)如表1,可以驗(yàn)證更換為轉(zhuǎn)置卷積上采樣方式后帶來了性能的增益。
表1 兩種上采樣方式在MOT16不同訓(xùn)練子集上的消融實(shí)驗(yàn)Table 1 Ablation experiments of two upsampling methods on different training subsets of MOT16
本文提出遞歸交叉相關(guān)網(wǎng)絡(luò)(RCCN)替換CSTrack中原始的互惠網(wǎng)絡(luò)(reciprocal network,REN)[6],同樣地學(xué)習(xí)檢測分支特征和重識(shí)別分支特征的特性和共性,通過學(xué)習(xí)反映不同特征通道之間相互關(guān)系的自相關(guān)性來增強(qiáng)每個(gè)任務(wù)的特性;通過交互不同任務(wù)之間的語義信息增強(qiáng)任務(wù)之間的共性。增加二次交叉關(guān)聯(lián)關(guān)系的構(gòu)建,使得各個(gè)任務(wù)的特性和共性更加顯著。
遞歸交叉相關(guān)網(wǎng)絡(luò)的結(jié)構(gòu)如圖4所示,其中輸入特征Fi∈RC×H×W,通過平均池化得到對背景信息更為敏感的特征∈RC×H′×W′,并且通過相同的操作(Conv+reshape)得到代表檢測任務(wù)的張量M1∈RC×H′W′和代表ReⅠD任務(wù)的張量M2∈RC×H′W′,再對張量轉(zhuǎn)置,進(jìn)行自相關(guān)矩陣乘法和互相關(guān)矩陣乘法,并通過Softmax 計(jì)算出偏檢測任務(wù)的自相關(guān)權(quán)重WT1∈RC×C和互相關(guān)權(quán)重WS1∈RC×C,以及偏ReⅠD 任務(wù)的自相關(guān)權(quán)重WT2∈RC×C和互相關(guān)權(quán)重WS2∈RC×C。然后,通過一個(gè)可學(xué)習(xí)參數(shù)λ將自相關(guān)權(quán)重和互相關(guān)權(quán)重進(jìn)行融合,分別得到最終的權(quán)重因子{W1,W2} 。自相關(guān)權(quán)重、互相關(guān)權(quán)重以及最終的權(quán)重因子的數(shù)學(xué)計(jì)算如下:
圖4 遞歸交叉相關(guān)網(wǎng)絡(luò)Fig.4 Recursive cross-correlation networks
得到權(quán)重因子之后,再對原始特征圖進(jìn)行卷積和reshape的處理,將原始的Fi∈RC×H×W變換為Fi∈RC×N(N=H×W),此時(shí),就可以將重塑后的原始特征與權(quán)重因子進(jìn)行矩陣乘法,分別得到兩個(gè)任務(wù)的增強(qiáng)特征再將其reshape 為RC×H×W。同理,本文進(jìn)行二次的特征增強(qiáng)過程,操作過程同上,最終得到進(jìn)一步增強(qiáng)后的特征,并且為了避免處理過程中信息的丟失,將增強(qiáng)特征與原始特征進(jìn)行融合得到與,分別輸入檢測任務(wù)分支和重識(shí)別任務(wù)分支進(jìn)行后續(xù)處理。
關(guān)于ReⅠD網(wǎng)絡(luò)分支的構(gòu)建,OMC框架中采用的尺度感知注意網(wǎng)絡(luò)(SAAN),如圖5所示,首先對輸入的不同尺寸的特征圖(指:原圖尺寸的1/16和1/32倍)進(jìn)行上采樣到原圖尺寸的1/8倍,并通過3×3卷積進(jìn)行編碼[12];接下來,對于三個(gè)分支的處理是分別通過空間注意力(spatial attention module,SAM)抑制背景噪聲,增強(qiáng)目標(biāo)表征。SAM具體的操作是:首先經(jīng)過平均池化和最大池化生成兩個(gè)二維映射Fsavg∈R1×H×W和Fsmax∈R1×H×W,其次經(jīng)過一個(gè)7×7的卷積層提取特征,然后使用Sigmoid激活函數(shù)進(jìn)行歸一化,得到空間注意力圖,將得到的空間注意力權(quán)重與特征相乘得到增強(qiáng)后的特征,并與原始特征進(jìn)行融合輸出特征,最后將處理后的三個(gè)分支上的特征Concat起來傳入通道注意力機(jī)制進(jìn)行后續(xù)處理。
圖5 SAAN網(wǎng)絡(luò)架構(gòu)Fig.5 SAAN network architecture
經(jīng)過空間注意力模塊的處理,網(wǎng)絡(luò)獲悉了更利于產(chǎn)生具有強(qiáng)鑒別性ⅠD 嵌入的特征位置;接下來將引入通道注意力模塊(channel attention module,CAM)重點(diǎn)關(guān)注“什么”特征對提取強(qiáng)鑒別性的特征有利。本文在此處構(gòu)建了新的通道注意力子模塊HS-CAM,具體的操作是:首先對傳入的特征進(jìn)行并行的池化操作(包含最大池化和全局平均池化)獲得不同分辨率特征的統(tǒng)計(jì)信息,然后將最大池化特征和全局平均池化后的特征分別送入一個(gè)共享網(wǎng)絡(luò)(具有一個(gè)隱藏層的多層感知器)進(jìn)行處理生成通道注意圖,原始的共享網(wǎng)絡(luò)采用的激活函數(shù)是LeakyReLU,雖然相比于常用的ReLU 激活函數(shù),LeakyReLU 可以有效解決ReLU 激活函數(shù)在輸入為負(fù)值情況下梯度消失的問題,但是它需要傳入一個(gè)參數(shù)α,該參數(shù)并不能被神經(jīng)元學(xué)習(xí),靈活性低。因此,考慮到性能以及計(jì)算量,本文發(fā)現(xiàn)采用Hard-swish 激活函數(shù)[13]替換之后模型性能更優(yōu),Hard-swish計(jì)算公式如下:
OMC 框架中的Recheck 網(wǎng)絡(luò)用于恢復(fù)由檢測器引起的錯(cuò)誤分類目標(biāo),由轉(zhuǎn)換檢測模塊和細(xì)化模塊構(gòu)成,具體的模塊描述如下:
其中,mi中最大值的位置即為歷史軌跡的預(yù)測狀態(tài)。通過公式可以得到n個(gè)相似性響應(yīng),構(gòu)成集合M={m1,m2,…,mn} ,其中的每個(gè)元素表示歷史軌跡的轉(zhuǎn)換檢測結(jié)果。實(shí)際情況中,會(huì)出現(xiàn)外觀相似度較高的目標(biāo),同樣會(huì)得到高響應(yīng)值,這就會(huì)對預(yù)測造成干擾,影響網(wǎng)絡(luò)判斷,針對此,需要縮小高響應(yīng)范圍,設(shè)置限制條件,加入一個(gè)縮放半徑r,將mi離散化轉(zhuǎn)成二進(jìn)制掩模m?i,見公式(13):
其中,表示m?i在(x,y)處的值,(cx,cy)表示mi中最大值的位置,r是收縮半徑。以r為邊的方框區(qū)域?yàn)橄蓿瑓^(qū)域內(nèi)設(shè)置為1,區(qū)域外設(shè)置為0。然后,將二進(jìn)制掩模m?i與原始相似性響應(yīng)mi相乘以消除干擾性質(zhì)的高響應(yīng)帶來的模糊預(yù)測。最后會(huì)得到n個(gè)處理后的響應(yīng)圖,通過元素加和操作得到最終的相似性圖。
式中,Ms表示總的相似性圖。對當(dāng)前幀中的每個(gè)位置都計(jì)算出一個(gè)相似度得分,得分越高表示歷史軌跡中的目標(biāo)在該位置中出現(xiàn)的概率越大。
經(jīng)過檢測轉(zhuǎn)換模塊,生成了總相似性圖Ms,然后將Ms傳入細(xì)化模塊進(jìn)行處理,目的是緩解當(dāng)前幀中未出現(xiàn)的目標(biāo)在軌跡傳導(dǎo)過程中帶來的假陽性問題。細(xì)化模塊具體處理過程是:首先通過兩個(gè)3×3卷積層,將Ms先映射到高維空間(Channel=256),再降維(Channel=1)得到細(xì)化后的相似度響應(yīng),然后傳入原始特征Ft與逐元素相乘得到新的特征F?∈RH×W×C,F?再通過卷積層得到最后的預(yù)測響應(yīng)Mp。此時(shí)的Mp與構(gòu)成預(yù)測結(jié)果Dtrans。此時(shí)Dtrans作為歷史軌跡在當(dāng)前幀上的預(yù)測框與基礎(chǔ)檢測中的檢測框Dbase進(jìn)行融合作為總的檢測框用于數(shù)據(jù)關(guān)聯(lián),Dtrans和Dbase的融合計(jì)算如公式(15):
式中,首先計(jì)算轉(zhuǎn)換檢測結(jié)果得到的每一個(gè)預(yù)測框bi與基礎(chǔ)檢測框Dbase的ⅠoU,然后基于ⅠoU的最大值計(jì)算出一個(gè)目標(biāo)得分s。當(dāng)s得分高時(shí),表示該錨框在初始檢測的時(shí)候被遺漏。因此,設(shè)定一個(gè)閾值(ε=0.5),當(dāng)s高于閾值的時(shí)候,轉(zhuǎn)換檢測模塊重新訓(xùn)練錨框,將其作為基礎(chǔ)檢測結(jié)果的補(bǔ)充,對基礎(chǔ)檢測進(jìn)行修正,保證軌跡的連續(xù)性。
模型搭建完成之后,引入損失函數(shù)對其進(jìn)行訓(xùn)練,此處主要包括檢測分支的損失、ReⅠD 分支的損失以及針對Recheck網(wǎng)絡(luò)設(shè)計(jì)的損失函數(shù)。
檢測分支損失函數(shù)主要包括分類損失和回歸損失兩部分。公式(16)~(19)分別描述了分類損失計(jì)算公式,邊框回歸損失的計(jì)算以及總的檢測損失計(jì)算公式。
分類損失主要用于前景/背景的區(qū)分,OMC 中采用Focal Loss[14]:
其中,α表示平衡樣本因子(取值0.25),γ是一個(gè)調(diào)制參數(shù)(此處取值0),pt表示真實(shí)標(biāo)簽的概率,公式如下:
式中,p表示前景概率,代表向下取整操作,r表示下采樣率(取值同OMC[7]),該公式反映了處在位置的錨點(diǎn)作為正樣本。
針對邊框回歸損失的計(jì)算,OMC 算法中使用的完全交并比損失(complete intersection over union loss,CⅠoU Loss)[15],但是CⅠoU 忽略了寬高分別與其置信度的真實(shí)差異,對模型的擬合造成困難,阻礙了模型優(yōu)化的有效性[16]。因此本文采用有效交并比損失(efficient intersection over union loss,EⅠOU Loss)[17],兩種ⅠoU損失公式如式(18)和(19),示意圖見圖6。
圖6 兩種ⅠoU示意圖Fig.6 Schematic diagram of two types of ⅠoU
式中,IOU=(A∩B)/(A∪B)計(jì)算的是預(yù)測錨框A與真實(shí)錨框B重合部分覆蓋的面積和二者覆蓋的總面積的比值[18],描述兩個(gè)框之間的重合度。o代表預(yù)測框的中心點(diǎn),ogt代表真實(shí)框的中心點(diǎn),ρ2(o,ogt)表示兩個(gè)框中心點(diǎn)之間的距離,c是兩個(gè)邊框外接最小包圍框的對角線距離,其中,a=v/[(1-IOU)+v]表示寬高比損失系數(shù),(wgt,hgt)表示真實(shí)框的寬高,(w,h)表示預(yù)測框的寬高,為真實(shí)框與預(yù)測框的寬高比損失。但是CⅠoU損失函數(shù)中的v考慮的是預(yù)測框與真實(shí)框?qū)捀弑鹊牟町?,而EⅠoU 損失函數(shù)對其進(jìn)行了改進(jìn),分別計(jì)算了寬、高損失:
EⅠoU損失函數(shù)包含ⅠoU損失,距離損失和寬高損失三部分,(cw,ch)表示預(yù)測框和真實(shí)框最小外接包圍框的寬高。因此,回歸損失計(jì)算如下,其中E 表示EⅠoU 操作,傳入真實(shí)錨框bi以及在(x,y)處的預(yù)測框b?x,y。
綜上,總的檢測損失由分類損失和回歸損失組成,計(jì)算公式如下:
其中,Np表示正樣本數(shù)量,m代表分辨率數(shù),通過加入權(quán)重因子β來確定分類損失和回歸損失在總損失計(jì)算中的占比,設(shè)置為0.05。
從圖6可以直觀看出,CⅠoU損失考慮了目標(biāo)框和預(yù)測框之間的距離以及目標(biāo)框和預(yù)測框的寬高比,而EⅠoU在CⅠoU的基礎(chǔ)上將目標(biāo)框和預(yù)測框的長、寬考慮在內(nèi),可以更好地反映預(yù)測框與目標(biāo)框之間的寬、高差異,加快網(wǎng)絡(luò)收斂,使得回歸更加準(zhǔn)確。
ReⅠD 分支的損失函數(shù)同CSTrack[6],對于外觀特征的學(xué)習(xí),期望得到具有強(qiáng)鑒別性的目標(biāo),即不同的目標(biāo),距離盡可能大,因此采用交叉熵?fù)p失,數(shù)學(xué)公式如下:
式中,N表示當(dāng)前幀中目標(biāo)的數(shù)量,K表示目標(biāo)類別數(shù)。
針對Recheck 網(wǎng)絡(luò)的訓(xùn)練,OMC 引入了一個(gè)監(jiān)督函數(shù),由于相似度圖Mp的真值被定義為多個(gè)高斯分布的組合,因此每個(gè)目標(biāo)的監(jiān)督信號(hào)定義為一個(gè)類高斯掩模,計(jì)算如公式(23):
式中,Mxy和Txy表示Mp及其監(jiān)督信號(hào)T在(x,y)處的值。
因此,總的損失函數(shù)計(jì)算是三個(gè)部分損失函數(shù)的加權(quán),具體的融合公式為:
其中,為了平衡檢測和重識(shí)別任務(wù),增加參數(shù)η(取值0.02)[6]。
(1)數(shù)據(jù)集:
Crowdhuman數(shù)據(jù)集[19]是用于行人檢測的大型數(shù)據(jù)集,包括訓(xùn)練集15 000張,測試集5 000張,驗(yàn)證集4 370張圖片,數(shù)據(jù)集分布見圖7(a)。其中每張圖片中大約包含23 個(gè)人,并存在著各種遮擋情況,Crowdhuman 數(shù)據(jù)集對每個(gè)行人目標(biāo)都分別對其頭部、人體可見區(qū)域和人體全身進(jìn)行邊界框注釋[20]。
圖7 實(shí)驗(yàn)數(shù)據(jù)集Fig.7 Experimental data sets
MOTChallenge數(shù)據(jù)集是用于行人多目標(biāo)跟蹤的大型公開數(shù)據(jù)集,數(shù)據(jù)集分布見圖7(b)。其中,MOT15數(shù)據(jù)集[21]由22個(gè)視頻序列構(gòu)成(11個(gè)用于訓(xùn)練,11個(gè)用于測試);MOT16 數(shù)據(jù)集[22]由28 個(gè)視頻序列構(gòu)成(14 個(gè)用于訓(xùn)練,14個(gè)用于測試);MOT17數(shù)據(jù)集與MOT16數(shù)據(jù)集序列一致,不同之處是為每一個(gè)視頻序列提供3種公開檢測器(DPM、FRCNN、SDP)檢測結(jié)果;MOT20 數(shù)據(jù)集[23]由8 個(gè)視頻序列構(gòu)成(4 個(gè)用于訓(xùn)練,4 個(gè)用于測試),共13 410 幀,采集于密集場景,平均人群密度達(dá)到每幀246個(gè)行人。
(2)評價(jià)指標(biāo)
本文在MOT16 和MOT20 數(shù)據(jù)集上測試算法的有效性,采用多目標(biāo)跟蹤領(lǐng)域通用指標(biāo)[24]來評估模型的性能,具體的評估指標(biāo)及其含義如表2。
表2 多目標(biāo)評估指標(biāo)Table 2 Multi-objective assessment indicators
實(shí)驗(yàn)環(huán)境基于Ubuntu 18.04 操作系統(tǒng),1 塊Tesla V100顯卡,運(yùn)行內(nèi)存為64 GB,顯存32 GB,采用Pytorch 1.7.1深度學(xué)習(xí)框架,Python 3.8的服務(wù)器下實(shí)現(xiàn)。
訓(xùn)練過程分為兩個(gè)階段,第一階段使用Crowdhuman數(shù)據(jù)集、MOT17、MOT15數(shù)據(jù)集3個(gè)數(shù)據(jù)訓(xùn)練基礎(chǔ)跟蹤器,第二階段使用MOT17 數(shù)據(jù)集訓(xùn)練Recheck 網(wǎng)絡(luò),在MOT16訓(xùn)練集上進(jìn)行消融實(shí)驗(yàn)評估對比,在MOT20訓(xùn)練集上進(jìn)行模型改進(jìn)前后的對比實(shí)驗(yàn),在MOT16 測試集上與其他先進(jìn)算法進(jìn)行對比實(shí)驗(yàn),評估改進(jìn)模型的正確性。
本文在MOT16訓(xùn)練集上進(jìn)行消融實(shí)驗(yàn),①是在特征提取器Neck部分采用轉(zhuǎn)置卷積上采樣;②是在特征提取器Backbone 部分集成GAM 注意力機(jī)制;③是構(gòu)建RCCN 網(wǎng)絡(luò);④是重構(gòu)SAAN 網(wǎng)絡(luò)中通道注意力模塊;⑤是采用EⅠoU損失函數(shù)作為邊框回歸損失。①~⑤逐一增加改進(jìn)點(diǎn);⑤代表本文所提算法。實(shí)驗(yàn)結(jié)果如表3 所示(↑表示指標(biāo)值越高越好,↓表示指標(biāo)值越小越好),模型改進(jìn)可視化結(jié)果圖如圖8所示。
表3 模型在MOT16訓(xùn)練集上的消融實(shí)驗(yàn)Table 3 Ablation experiments of model on MOT16 training set
圖8 MOT16訓(xùn)練集評估模型改進(jìn)前后的對比圖Fig.8 Comparison chart of before and after model improvement evaluated by MOT16 training set
由表3可知,通過采用轉(zhuǎn)置卷積上采樣方式使得模型綜合性能指標(biāo)MOTA提升0.7個(gè)百分點(diǎn),F(xiàn)P下降210,F(xiàn)N下降549;通過集成GAM注意力機(jī)制,加強(qiáng)了網(wǎng)絡(luò)對有效信息的關(guān)注,指標(biāo)進(jìn)一步提高;RCCN 網(wǎng)絡(luò)通過學(xué)習(xí)任務(wù)之間的特性和共性,有效緩解了語義混淆問題,使得模型的MOTA 相較于原始模型提升1.7 個(gè)百分點(diǎn),MT指標(biāo)增加19,ML指標(biāo)下降11;對重識(shí)別網(wǎng)絡(luò)的重構(gòu)主要是提出HS-CAM通道注意模塊,較改進(jìn)前各項(xiàng)指標(biāo)都有所優(yōu)化;最后,改進(jìn)檢測分支的回歸損失函數(shù),將原始的CⅠoU損失替換為EⅠoU損失后,加速了預(yù)測框的收斂,MOTA 提升至89.6%,ⅠDF1 提升0.9 個(gè)百分點(diǎn)(④vs.⑤),模型綜合性能得以進(jìn)一步提升。
可視化結(jié)果如圖8,MOT16-04數(shù)據(jù)集中,采用原始模型處理時(shí),在110幀處一位坐著的男士被漏檢;298幀處,出現(xiàn)了一個(gè)框同時(shí)包含兩個(gè)行人并賦予ⅠD的情形,這將會(huì)造成歧義;在435 幀處,出現(xiàn)了由于行人遮擋導(dǎo)致被遮擋行人“掉框”的情況(以上問題在圖中用紅色虛線圈出)。而改進(jìn)模型中并未出現(xiàn)上述問題,直觀反映了改進(jìn)模型的性能。
本文模型與原始OMC 模型在MOT20 數(shù)據(jù)集上的對比結(jié)果如表4,可視化對比圖如圖9所示。
表4 MOT20訓(xùn)練集上進(jìn)行模型改進(jìn)前后的對比實(shí)驗(yàn)Table 4 Comparison experiments before and after model improvement on MOT20 training set
圖9 在MOT20數(shù)據(jù)集上模型改進(jìn)前后對比圖Fig.9 Comparison before and after model improvement on MOT20 dataset
由表4中指標(biāo)數(shù)據(jù)可知,本文改進(jìn)模型MOTA指標(biāo)相比較原始模型提升1.9 個(gè)百分點(diǎn),ⅠDF1 上升1.1 個(gè)百分點(diǎn),ⅠDP 指標(biāo)輕微下降,ⅠDR 指標(biāo)增加1.7 個(gè)百分點(diǎn),MT 增加85,ML 減少17,綜合性能更優(yōu)。可視化圖如圖9,本文任取兩幀(371 幀和404 幀)進(jìn)行對比,本文發(fā)現(xiàn),采用原始模型跟蹤過程中,371 幀中ⅠD 為302 的女士,由于行人的遮擋,在404幀中ⅠD切換為130,造成了身份混亂;而采用本文改進(jìn)模型跟蹤時(shí),該女士在371幀中ⅠD 為397,經(jīng)過遮擋后,在404 幀ⅠD 仍然保持為397,反映出改進(jìn)模型的有效性。
為了進(jìn)一步驗(yàn)證本文算法的優(yōu)勢,在MOT16、MOT20測試集上與部分先進(jìn)多目標(biāo)跟蹤算法進(jìn)行對比實(shí)驗(yàn)。各項(xiàng)多目標(biāo)跟蹤的評價(jià)指標(biāo)如表5和表6,并且在MOT16測試集子集上的可視化跟蹤軌跡如圖10所示。
表5 模型在MOT16測試集上與其他先進(jìn)算法的對比實(shí)驗(yàn)Table 5 Model comparison experiments with other advanced algorithms on MOT16 test set
表6 模型在MOT20測試集上的對比實(shí)驗(yàn)Table 6 Model comparison experiments with other advanced algorithms on MOT16 test set
圖10 可視化跟蹤軌跡展示Fig.10 Visual tracking trajectory display
為了實(shí)驗(yàn)的公平性,本文采用相同的策略訓(xùn)練OMC原始模型并在MOT16、MOT20測試集上進(jìn)行評估得到了各項(xiàng)指標(biāo)。由表5可知,基于MOT16測試集,本文模型的ⅠDF1指標(biāo)相較于OMC算法提升了1.2個(gè)百分點(diǎn),較JDE算法提升了14.6個(gè)百分點(diǎn),F(xiàn)P指標(biāo)較FairMOT算法減少了14 042,MTgt指標(biāo)較OMC算法有所下降,但高于其他所列算法,MLgt較OMC 算法減少1.5 個(gè)百分點(diǎn),但FPS 指標(biāo)有所下降;基于MOT20 測試集,本文算法較OMC 算法MOTA 提升了1.5 個(gè)百分點(diǎn),ⅠDF1 提升了2.3 個(gè)百分點(diǎn),MTgt增加了2.1 個(gè)百分點(diǎn),MLgt減少了9.9 個(gè)百分點(diǎn)。綜上分析,改進(jìn)后的模型性能得以提升。改進(jìn)模型在MOT16測試集上的可視化跟蹤軌跡展示如圖10。
針對多目標(biāo)跟蹤中由于實(shí)際環(huán)境復(fù)雜多變導(dǎo)致的跟蹤性能差的問題,本文基于OMC 多目標(biāo)跟蹤框架展開研究,提出改進(jìn)模型以提升跟蹤性能。首先對特征提取器進(jìn)行重構(gòu),在Backbone 集成了GAM 注意力機(jī)制,強(qiáng)化特征信息,在Neck網(wǎng)絡(luò)中采用轉(zhuǎn)置卷積上采樣;其次構(gòu)建RCCN網(wǎng)絡(luò)加強(qiáng)學(xué)習(xí)檢測和ReⅠD任務(wù)的特性和共性,得到解耦特征;然后對SAAN網(wǎng)絡(luò)進(jìn)行優(yōu)化,構(gòu)建了新的通道注意力機(jī)制HS-CAM 用于集成;最后采用EⅠoU 損失作為邊框回歸損失函數(shù),提升了跟蹤的準(zhǔn)確度。實(shí)驗(yàn)結(jié)果表明,本文模型有效提升了多目標(biāo)跟蹤指標(biāo),在人群密度較大的MOT20數(shù)據(jù)集,MOTA指標(biāo)提升至62.8%;在MOT16測試集上MOTA指標(biāo)較OMC算法提升了2.4個(gè)百分點(diǎn),較JDE算法提升了9.1%。以上指標(biāo)的提升反映了改進(jìn)后跟蹤模型性能的優(yōu)勢。