王詩(shī)言,張青松,雷國(guó)芳,張江山
(重慶郵電大學(xué) 通信與信息工程學(xué)院,重慶 400065)
視頻中運(yùn)動(dòng)目標(biāo)的跟蹤問題是計(jì)算機(jī)視覺領(lǐng)域的基本問題之一,同時(shí)也是計(jì)算機(jī)視覺領(lǐng)域研究的熱點(diǎn)和難點(diǎn)。目標(biāo)跟蹤的基本任務(wù)[1-4]是給定第一幀圖像中的目標(biāo)對(duì)象的初始狀態(tài)(位置和尺度)來預(yù)測(cè)后續(xù)視頻幀中目標(biāo)的狀態(tài)。如何在復(fù)雜場(chǎng)景中識(shí)別并跟蹤不斷變化的目標(biāo)是一項(xiàng)具有挑戰(zhàn)性的任務(wù)[5]。
近年來,得益于深度學(xué)習(xí)技術(shù)的快速發(fā)展,基于深度學(xué)習(xí)的目標(biāo)跟蹤算法不管是精度還是速度都有了較大的提升,但如何對(duì)跟蹤的目標(biāo)進(jìn)行更為精確的狀態(tài)估計(jì)仍然是一個(gè)復(fù)雜的任務(wù)。早期的目標(biāo)跟蹤算法依靠基于坐標(biāo)軸對(duì)稱的矩形框作為標(biāo)記,但隨著跟蹤算法精度的不斷提升,跟蹤數(shù)據(jù)集的難度也在不斷提升?,F(xiàn)有算法在實(shí)現(xiàn)目標(biāo)精確的狀態(tài)估計(jì)這一方向上都取得了一定的成果,但它們未能有效利用目標(biāo)間的長(zhǎng)距離依賴關(guān)系和深度網(wǎng)絡(luò)中各個(gè)特征層的不同特性(深層網(wǎng)絡(luò)對(duì)大目標(biāo)敏感,淺層網(wǎng)絡(luò)對(duì)小目標(biāo)敏感),同時(shí)對(duì)于分割任務(wù)不夠精細(xì),以至于無法達(dá)到更為精確的目標(biāo)狀態(tài)估計(jì)。
本文以D3S[5]為基礎(chǔ),針對(duì)這三個(gè)問題進(jìn)行優(yōu)化。首先,針對(duì)目標(biāo)的多尺度的問題,在骨干特征提取網(wǎng)絡(luò)后設(shè)計(jì)了一個(gè)自適應(yīng)特征融合模塊,可以通過對(duì)神經(jīng)網(wǎng)絡(luò)的訓(xùn)練來自動(dòng)地對(duì)不同的特征層賦值不同的權(quán)重,用于更好地融合不同層級(jí)特征,使特征具有多尺度特性。其次,針對(duì)目標(biāo)間的上下文關(guān)系的利用,選擇在自適應(yīng)特征融合模塊后引入混合域自注意力模塊,采用非局部均值(Non-local)的思想[6],分別在空間域和通道域?qū)θ诤虾蟮玫教卣鲗舆M(jìn)行Non-local操作,然后進(jìn)行堆疊。最后,針對(duì)分割任務(wù)不夠精細(xì)的問題,在分割模塊上面并行增加了一個(gè)目標(biāo)輪廓分割模塊,再與分割模塊的輸出進(jìn)行相加,用于更精確地分割出目標(biāo)幾何狀態(tài)。
整體框架如圖1所示,主要由5個(gè)模塊組成,分別是自適應(yīng)特征融合模塊(Adaptive Feature Fusion,AFF)、上下文信息聚合模塊(Context Information Aggregation Module,CIAM)、定位模塊(Location Module,LOC)、分割模塊(Segmentation Module,SEG)和輪廓掩膜預(yù)測(cè)模塊(Contour Segmentation Module,CSM)。在跟蹤階段,首先將視頻幀序列送入到ResNet-50網(wǎng)絡(luò)中提取特征,然后將提取后的特征送入到AFF模塊中,經(jīng)過AFF模塊將ResNet-50提取出來的Layer 1-4層特征進(jìn)行融合再與Layer 3特征進(jìn)行相加輸入到CIAM模塊中進(jìn)行上下文語(yǔ)義信息的聚合,使用自注意力機(jī)制的思想,在其通道域和空間域進(jìn)行操作之后分成并行三路分別輸入到定位模塊、分割模塊、輪廓掩膜預(yù)測(cè)模塊,得到目標(biāo)的位置信息、分割掩碼和其輪廓信息,最后經(jīng)過堆疊和上采樣融合輸入預(yù)測(cè)結(jié)果。其中定位模塊和分割模塊都是原本D3S的結(jié)構(gòu),本文在上面添加了AFF模塊、CIAM模塊、CSM模塊,下面將詳細(xì)介紹這三個(gè)模塊。
圖1 D3S-AM網(wǎng)絡(luò)結(jié)構(gòu)圖
為了使網(wǎng)絡(luò)充分利用到高層特征的語(yǔ)義信息和低層特征的細(xì)粒度特性,加強(qiáng)網(wǎng)絡(luò)對(duì)不同尺度目標(biāo)的跟蹤效果,在特征提取網(wǎng)絡(luò)ResNet-50后面添加一個(gè)自適應(yīng)的特征融合模塊,用以融合ResNet-50中的Layer1~Layer4特征,具體做法如圖2所示。
如圖2所示,圖中描述了如何進(jìn)行特征融合,其中x1→3、x2→3、x3、x4→3分別來自ResNet-50中的Layer1~Layer4的輸出特征分別進(jìn)行上/下采樣成Layer3的尺寸,然后將這幾個(gè)層的特征分別乘以它們的權(quán)重參數(shù)w1、w2、w3、w4并求和,就可以得到融合后的特征,用y表示。這個(gè)過程可以使用公式來表示:
y=w1·x1→3+w2·x2→3+w3·x3+w4·x4→3。
(1)
由于采用相加的運(yùn)算,所以為了保證不同特征層的特征能夠相加,要保證這些特征層輸出的尺度和維度都相同,因此使用1×1的卷積分別將這些層的輸出特征調(diào)整到統(tǒng)一的1 024通道,以便于計(jì)算。對(duì)于權(quán)重參數(shù)w1、w2、w3、w4是通過采樣成統(tǒng)一尺寸后的Layer1~Layer4特征圖經(jīng)過1×1卷積后得到的,為了降低參數(shù)量統(tǒng)一調(diào)整到8通道,在輸出的最后加了一個(gè)Softmax層,使得權(quán)重參數(shù)的值在[0,1]并且和為1。在網(wǎng)絡(luò)進(jìn)行訓(xùn)練的過程中,權(quán)重參數(shù)w1、w2、w3、w4會(huì)根據(jù)對(duì)應(yīng)特征層的貢獻(xiàn)大小來自動(dòng)調(diào)節(jié)權(quán)重值,以達(dá)到自適應(yīng)特征融合的需求。
引入自注意力機(jī)制的思想[7]來構(gòu)建此模塊,分別從通道域和空間域來進(jìn)行自注意力操作,使得特征通過空間注意力機(jī)制來捕獲豐富的全局語(yǔ)義信息,同時(shí)通過通道注意力機(jī)制來選擇性地增強(qiáng)相互依賴的通道特征。具體操作如圖3所示。
圖3 CIAM網(wǎng)絡(luò)結(jié)構(gòu)圖
模塊分別關(guān)注通道和空間位置兩個(gè)方面。與預(yù)先定義目標(biāo)分類的檢測(cè)[8]和分割任務(wù)不同,視覺目標(biāo)跟蹤主要困難在于只有初始幀的信息可以利用,在后續(xù)跟蹤中目標(biāo)的類別并不固定,而在卷積神經(jīng)網(wǎng)絡(luò)中,每一個(gè)通道的響應(yīng)通常反應(yīng)了某種特定類別的響應(yīng),也就是說大部分通道的響應(yīng)類別與跟蹤目標(biāo)不同,因此,同等地對(duì)待每一個(gè)通道的響應(yīng)會(huì)限制網(wǎng)絡(luò)特征的表達(dá)能力。另一方面,受感受野的限制,網(wǎng)絡(luò)特征中的每一個(gè)空間位置都只能捕捉到附近的局部信息,因此,學(xué)習(xí)到全局上下文信息對(duì)于特征表達(dá)能力也非常重要。自注意力模塊通過計(jì)算出通道的注意力特征圖來自適應(yīng)地對(duì)每一個(gè)通道的響應(yīng)進(jìn)行加權(quán),將不相關(guān)通道的響應(yīng)的影響降低;通過計(jì)算出空間位置的注意力特征圖來捕捉空間每一個(gè)位置的信息,使得每一個(gè)位置的特征都能捕捉到圖像全局的信息。接下來以空間自注意力模塊為例,具體介紹其中的操作。
首先,將輸入的特征圖x∈C×H×W分別使用1×1的卷積核進(jìn)行卷積。接著,對(duì)三個(gè)卷積結(jié)果分別使用三個(gè)變換函數(shù)f(x)、g(x)、h(x)進(jìn)行轉(zhuǎn)化。其中,變換函數(shù)分別為
f(x)=w1·x,
(2)
g(x)=w2·x,
(3)
h(x)=w3·x。
(4)
式中:w1、w2、w3分別表示f(x)、g(x)、h(x)三個(gè)函數(shù)的權(quán)重。將函數(shù)f(x)輸出的結(jié)果進(jìn)行轉(zhuǎn)置后與g(x)輸出的結(jié)果進(jìn)行相乘運(yùn)算,得到的結(jié)果使用Softmax函數(shù)運(yùn)算可以得到空間注意力權(quán)重圖。空間注意力權(quán)重計(jì)算公式為
(5)
式中:b、a表示特征圖上的位置。再將得到的空間注意力權(quán)重圖與函數(shù)h(x)做乘法,得到的結(jié)果與輸入的特征圖x進(jìn)行相加運(yùn)算,就得到了經(jīng)過空間注意力模塊調(diào)整后的特征圖。最終的輸出結(jié)果計(jì)算公式為
(6)
式中:ys為空間注意力模塊的輸出;xb為輸入的特征;β表示權(quán)重參數(shù),初始化為1,隨著網(wǎng)絡(luò)訓(xùn)練自適應(yīng)動(dòng)態(tài)變化。對(duì)于通道注意力的操作,可以使用類似的方式計(jì)算。最終將得到的空間注意力特征和通道注意力特征進(jìn)行堆疊之后通過1×1的卷積進(jìn)行特征融合就完成了這個(gè)模塊的計(jì)算??臻g注意力也是同樣計(jì)算。
為了更好地捕獲目標(biāo)的幾何狀態(tài),選擇引入預(yù)測(cè)目標(biāo)的輪廓掩膜信息,去和D3S原有的分割信息作為互補(bǔ)以提升跟蹤的準(zhǔn)確度。對(duì)于這個(gè)模塊,受到了可變性卷積[9]的啟發(fā),普通的卷積對(duì)大型或未知形狀變換的建模存在固有的缺陷,這種缺陷來源于普通卷積模塊固有的幾何結(jié)構(gòu)——卷積單元對(duì)輸入特征圖的固定位置進(jìn)行采樣。在同一層卷積中,所有的激活單元的感受野是一樣的[9],但由于不同位置可能對(duì)應(yīng)著不同尺度或形狀的物體,因此對(duì)尺度或者感受野大小進(jìn)行自適應(yīng)是進(jìn)行精確定位所需要的。而可變形卷積可以用來提高網(wǎng)絡(luò)對(duì)形變的建模能力。這個(gè)模塊是基于一個(gè)平行網(wǎng)絡(luò)學(xué)習(xí)偏移,使得卷積核在輸入特征的采樣點(diǎn)發(fā)生偏移,集中于網(wǎng)絡(luò)感興趣的區(qū)域或者目標(biāo)。標(biāo)準(zhǔn)卷積中的規(guī)則格點(diǎn)采樣是導(dǎo)致網(wǎng)絡(luò)難以適應(yīng)幾何形變的原因,為了削弱這個(gè)限制,在輪廓預(yù)測(cè)模塊中使用可變形卷積對(duì)卷積核中每個(gè)采樣點(diǎn)的位置都增加了一個(gè)偏移變量,可以實(shí)現(xiàn)在當(dāng)前位置附近隨意采樣而不局限于之前的規(guī)則格點(diǎn)。本模塊結(jié)構(gòu)如圖4所示。
圖4 CSM網(wǎng)絡(luò)結(jié)構(gòu)圖
使用兩個(gè)可變形卷積級(jí)聯(lián)的方式組成此模塊,借助于可變性卷積獲取對(duì)目標(biāo)外觀模型的更強(qiáng)有力的表示,輸出的特征經(jīng)過上采樣融合模塊后與目標(biāo)的真實(shí)輪廓標(biāo)簽進(jìn)行交叉熵函數(shù)損失的計(jì)算[10]。
使用ResNet-50在ImageNet[11]中的預(yù)訓(xùn)練模型作為骨干特征提取網(wǎng)絡(luò),使用YouTube-VOS數(shù)據(jù)集中的3 471個(gè)分割視頻幀對(duì)整個(gè)網(wǎng)絡(luò)進(jìn)行訓(xùn)練,通過對(duì)所有幀序列在80幀的范圍內(nèi)進(jìn)行均勻采樣構(gòu)造出訓(xùn)練樣本。為了提高網(wǎng)絡(luò)對(duì)跟蹤目標(biāo)定位的魯棒性,通過對(duì)真實(shí)標(biāo)簽的位置進(jìn)行擾動(dòng)來增強(qiáng)算法魯棒性。設(shè)置BatchSize為64,訓(xùn)練40個(gè)epoch,采用Adam優(yōu)化器并且使用學(xué)習(xí)率調(diào)整策略,每15個(gè)epoch進(jìn)行一次學(xué)習(xí)率衰減。損失函數(shù)采用預(yù)測(cè)結(jié)果和真實(shí)標(biāo)簽的交叉熵?fù)p失,使用GTX1080GPU進(jìn)行訓(xùn)練,初始學(xué)習(xí)率設(shè)置為10-3。使用pytoch來對(duì)算法進(jìn)行實(shí)現(xiàn),在單塊GTX1080上面需要30 h的訓(xùn)練。使用GOT10K、VOT2016和VOT2018對(duì)所提出的方法進(jìn)行評(píng)估,在輸入跟蹤器前,視頻圖像的大小會(huì)被調(diào)整到384 pixel×384 pixel。
GOT-10k[8]是一個(gè)大型多場(chǎng)景的跟蹤數(shù)據(jù)集,由10 000個(gè)視頻幀序列組成,其中真實(shí)目標(biāo)用軸對(duì)齊的矩形框進(jìn)行標(biāo)注。作為測(cè)試集,所測(cè)試的跟蹤器需要在有84個(gè)不同對(duì)象類別和32個(gè)運(yùn)動(dòng)場(chǎng)景下的180個(gè)測(cè)試視頻序列上進(jìn)行評(píng)估,其余的幀序列形成一個(gè)訓(xùn)練集。設(shè)定跟蹤器在第一幀上使用真實(shí)標(biāo)注進(jìn)行初始化然后一直持續(xù)跟蹤到視頻序列的末尾,數(shù)據(jù)集選擇根據(jù)真實(shí)標(biāo)注的邊界框和預(yù)測(cè)出來的目標(biāo)邊界框的平均重疊率對(duì)跟蹤器進(jìn)行評(píng)價(jià),分別在兩個(gè)重疊閾值0.5和0.75處報(bào)告跟蹤成功率,以便進(jìn)行詳細(xì)分析跟蹤器的效果。
表1給出了GOT-10k的結(jié)果。D3S-AM在所有性能指標(biāo)上都遠(yuǎn)遠(yuǎn)超過了性能最好的跟蹤器,與D3S基準(zhǔn)相比,D3S-AM的平均重疊提升了大約3.3%。如圖5所示,它在平均重疊方面也比最新的ATOM和SiamMask跟蹤器分別高出7.4%和11.6%以上。這證明了所提出的跟蹤算法在不同的目標(biāo)類型集合上有相當(dāng)大的泛化能力。
表1 GOT-10數(shù)據(jù)集結(jié)果分析
圖5 GOT-10k跟蹤結(jié)果對(duì)比圖
VOT數(shù)據(jù)集[9]為世界視覺跟蹤挑戰(zhàn)賽使用的基準(zhǔn)數(shù)據(jù)集,包含60個(gè)視頻序列。它通過旋轉(zhuǎn)矩形框?qū)δ繕?biāo)進(jìn)行標(biāo)注,可以全面地評(píng)估短時(shí)跟蹤器的性能。其評(píng)判指標(biāo)包括準(zhǔn)確率(Accuracy)、魯棒性(Robustness)和期望平均覆蓋度(Expected Average Overlap,EAO)。在目標(biāo)跟蹤測(cè)試時(shí)EAO的值越高,跟蹤算法性能越好。
選用在VOT數(shù)據(jù)集的性能極好的的幾個(gè)跟蹤器(SiamMask、ATOM、SiamRPN)以及基準(zhǔn)算法D3S作為對(duì)比,結(jié)果如表2所示,同樣的本文提出的D3S-AM性能遙遙領(lǐng)先。
表2 VOT2016&VOT2018數(shù)據(jù)集結(jié)果分析
對(duì)提出的三個(gè)模塊在GOT-10k上進(jìn)行了消融實(shí)驗(yàn),如表3所示,AFF、MDA和CSM模塊起著積極的作用。 使用D3S作為基準(zhǔn),設(shè)置相同的超參數(shù)并分別比較每個(gè)模塊,結(jié)果如圖6所示,可見所提的D3S-AM具有最佳性能。
表3 消融性試驗(yàn)結(jié)果
圖6 D3S-AM跟蹤效果圖
本文提出了一個(gè)目標(biāo)跟蹤網(wǎng)絡(luò)的新的跟蹤器——D3S-AM。針對(duì)D3S的不足提出了三點(diǎn)改進(jìn),分別實(shí)現(xiàn)成為了AFF、CIAM和CSM三個(gè)模塊,其中AFF模塊明顯提高了網(wǎng)絡(luò)的多尺度跟蹤能力,CIAM模塊增強(qiáng)了網(wǎng)絡(luò)對(duì)目標(biāo)的識(shí)別能力即魯棒性,CSM模塊增加了網(wǎng)絡(luò)的準(zhǔn)確度。將這三個(gè)模塊應(yīng)用到D3S網(wǎng)絡(luò)中,在當(dāng)前所有主流的數(shù)據(jù)集上都取得了優(yōu)異的成績(jī)。