李生武,張選德
(陜西科技大學(xué)電子信息與人工智能學(xué)院,西安710021)
視覺追蹤在無人駕駛、行人檢測、智能交通等視覺應(yīng)用中扮演著越來越重要的角色?;谙嚓P(guān)濾波的追蹤器可以利用一個循環(huán)矩陣在傅里葉域中完成快速計算,實現(xiàn)快速的目標跟蹤,基于此,出現(xiàn)了很多高速且簡易的追蹤器[1-3]。隨著卷積神經(jīng)網(wǎng)絡(luò)(Convolutional Neural Network,CNN)的不斷發(fā)展,基于其強大的特征表示能力和高效的特征提取方式,CNN 的應(yīng)用領(lǐng)域不斷擴展,各種針對特定問題設(shè)計的CNN 模型不斷被建立并成功地應(yīng)用到各種圖像任務(wù)中。在視覺追蹤領(lǐng)域內(nèi),隨著眾多性能頂尖的以CNN 為基礎(chǔ)的深度視覺追蹤算法的出現(xiàn),它在追蹤任務(wù)中應(yīng)用的有效性已經(jīng)得到了充分的驗證。
一些基于CNN 的模型算法就是利用其優(yōu)秀的特征表示能力,致力于強化目標的表示,例如對抗學(xué)習(xí)跟蹤(Visual Tracking Via Adversarial Learning,VITAL)[4]借鑒了生成對抗網(wǎng)絡(luò)(Generative Adversarial Net,GAN)[5]的思想,在CNN 中引入了對抗特征生成器來獲取更加魯棒的特征表示;結(jié)構(gòu)感知網(wǎng)絡(luò)(Structure-Aware Network,SANet)[6]通過將基于 CNN 的跟蹤器和循環(huán)神經(jīng)網(wǎng)絡(luò)(Recurrent Neural Network,RNN)[7]結(jié)合起來,以獲得目標的獨特結(jié)構(gòu)信息,提升模型對含有相似語義物體的鑒別能力;樹結(jié)構(gòu)卷積神經(jīng)網(wǎng)絡(luò)(CNNs in a Tree structure,TCNN)[8]通過構(gòu)建樹形結(jié)構(gòu)的多個 CNN 來提高跟蹤模型的可靠性,其中模型沿樹中的路徑在線更新,因此可以獲得更魯棒的模型。
多域卷積神經(jīng)網(wǎng)絡(luò)(Multi-Domain CNN,MDNet)[9]是VOT2015[10]的冠軍算法,也是CNN 在深度視覺追蹤中應(yīng)用最成功的代表性算法之一。MDNet的提出是受到用于目標檢測的 R-CNN[11]網(wǎng)絡(luò)啟發(fā),該算法在 ImageNet-Vid[12]數(shù)據(jù)集上離線訓(xùn)練好模型后,利用測試視頻的首幀圖像微調(diào)模型作為初始化,然后生成候選區(qū)域,最后確定預(yù)測框。
盡管基于CNN 框架的MDNet 算法在視覺追蹤領(lǐng)域里取得了巨大的成功,但是受制于CNN 框架內(nèi)部存在的一些問題沒有解決,如在追蹤中的主要目的是在復(fù)雜環(huán)境中聚焦于目標的狀態(tài)信息,而對其他外部信息不感興趣。而一般的基于CNN 框架的模型在處理數(shù)據(jù)時,等價地處理每一個特征圖和特征子空間,沒有重點關(guān)注的區(qū)域,尤其是在目標發(fā)生了劇烈的形態(tài)變化時,缺乏動態(tài)響應(yīng)機制,這就限制了模型的多樣表征能力。此外,針對在多域訓(xùn)練中,其中一個域?qū)?yīng)一個用于訓(xùn)練的視頻序列,會出現(xiàn)當前視頻訓(xùn)練序列中的追蹤目標在其他數(shù)據(jù)集中屬于背景的情況,這種情況會導(dǎo)致網(wǎng)絡(luò)鑒別目標的二義性,影響網(wǎng)絡(luò)的識別精確率。本文通過在MDNet 算法中引入自注意力(self-attention)機制和復(fù)合損失函數(shù)來解決上述問題。自注意力機制是由Vaswani 等[13]首次提出的,通過利用該機制來獲取輸入的全局依賴性并且應(yīng)用于機器翻譯中。與此同時自注意力機制也開始逐漸應(yīng)用到視覺圖像處理領(lǐng)域中,如Zhang 等[14]利用自注意力機制來學(xué)習(xí)一個良好的圖片生成器;Wang等[15]將自注意力機制融入網(wǎng)絡(luò)結(jié)構(gòu)中用于圖像分類,充分驗證了在空間維度上非局部操作在圖像和視頻處理中的有效性。不同于這些工作,本文針對MDNet 算法中存在的問題,通過引入自注意力機制提出了自注意力多域卷積神經(jīng)網(wǎng)絡(luò)(Multi-Domain convolutional neural Network based on Self-Attention,SAMDNet)視覺追蹤算法,配合精心設(shè)計的復(fù)合損失函數(shù),得到了顯著的性能提升,最后通過充分的實驗,驗證了所提模型的有效性,并在多個廣泛使用的測試基準上與數(shù)個先進的算法相比表現(xiàn)出眾。
MDNet算法的目標是訓(xùn)練出一個MDNet使得該網(wǎng)絡(luò)能夠在任意域中也就是任意視頻序列中將目標和背景區(qū)分出來。盡管不同的視頻序列帶有不同的目標和背景標簽,然而在各種場景下目標和背景都存在一些共有的屬性,例如對照明變化的魯棒性、運動模糊、縮放比例變化等。在網(wǎng)絡(luò)模型的離線訓(xùn)練階段,MDNet 通過其多域?qū)W習(xí)結(jié)構(gòu)將不同的訓(xùn)練視頻序列中的通用屬性保留在網(wǎng)絡(luò)的卷積層部分,最后的多分支全連接層對應(yīng)不同的序列,負責(zé)在各自對應(yīng)視頻序列中甄別輸入的候選框?qū)儆谀繕祟愡€是背景類。在測試追蹤階段,新生成的單分支全連接層替換掉原來的多分支,構(gòu)成追蹤網(wǎng)絡(luò),追蹤過程中綜合利用網(wǎng)絡(luò)更新策略、邊界框修正策略和樣本生成策略來完成對目標的分類和定位。
本文提出的自注意力多域卷積神經(jīng)網(wǎng)絡(luò)SAMDNet 結(jié)構(gòu)如圖1 所示,網(wǎng)絡(luò)的輸入為107 × 107 大小的RGB 圖像,整個網(wǎng)絡(luò)主要由兩部分組成。其中一部分為網(wǎng)絡(luò)主體結(jié)構(gòu),由3個卷積層(CONV1~CONV3)和2 個全連接層(FC4、FC5)組成,卷積層和VGG(Visual Geometry Group)網(wǎng)絡(luò)中對應(yīng)的部分完全一樣。此外,網(wǎng)絡(luò)末端還有k個全連接層(FC6[1]~FC6[k])作為對應(yīng)的k 個域,也就是k 個用于網(wǎng)絡(luò)訓(xùn)練的視頻序列,全連接層FC6 中的每一個分支均使用Softmax 交叉熵函數(shù)來計算目標和背景概率,另外也參與在離線訓(xùn)練階段復(fù)合損失的計算。另一部分為引入的自注意力機制,自注意力機制的實現(xiàn)主要由空間注意力模塊(Spatial Attention Module,PAM)和通道注意力模塊(Channel Attention Module,CAM)具體完成,其中 PAM 位于卷積層 CONV1 和卷積層 CONV2 之間,CAM 位于卷積層CONV3和全連接層FC4之間。
圖1 自注意力多域卷積神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)Fig. 1 Network structure of multi-domain convolutional neural network based on self-attention
注意力機制從本質(zhì)上來講類似于人類的視覺注意力機制,當人類在觀察事物時,視覺系統(tǒng)快速掃描捕獲的圖像,獲得了重點關(guān)注的目標區(qū)域,也就是視覺的注意力焦點,之后視覺系統(tǒng)在焦點附近分配更多的資源來獲取更多的細節(jié)信息,同時其他的不相關(guān)或者無用的信息就被抑制了。而自注意力機制是對注意力機制的改進,它減少了對外部信息的影響,更加擅長去捕捉數(shù)據(jù)和特征的內(nèi)部相關(guān)性。本文提出的算法就是利用自注意力機制的特性,動態(tài)地在空間和通道兩個維度上去自學(xué)習(xí)注意力矩陣,而后將注意力融入模型進而驅(qū)動多域卷積神經(jīng)網(wǎng)絡(luò)聚焦于關(guān)注追蹤目標內(nèi)部特征,最后獲得更為魯棒的目標表示。
本文算法中的自注意力機制主要是通過空間注意力模塊和通道注意力模塊實現(xiàn):空間注意力模塊將所有位置上的特征的加權(quán)總和選擇性地聚合到特征圖中的所有位置上,使得相似的特征彼此相關(guān);通道注意力模塊通過整合所有特征圖來使得網(wǎng)絡(luò)重點去關(guān)注那些互相關(guān)聯(lián)的通道特征圖,有選擇地提取重要通道的特征信息。
2.1.1 空間注意力模塊
空間注意力模塊的結(jié)構(gòu)如圖2 所示。網(wǎng)絡(luò)模型的輸入樣本圖像通過第一個卷積層(CONV1)后得到特征圖F ∈ RC×H×W,其中上標C、H、W 分別代表特征圖通道數(shù)、特征圖高度和特征圖寬度,F(xiàn) 即空間注意力模塊的輸入。輸入F分兩次經(jīng)過同一個一維卷積層后生成特征圖A 和B,且{A,B}∈ RC×H×W,特征圖 C 和 F 相同,A 和 B 矩陣重構(gòu)后得到{A*,B*}∈ RN×C,其中N 為特征圖中單個通道的像素個數(shù),即N = H × W,之后將B*和A*的轉(zhuǎn)置矩陣A*T作矩陣乘法,然后將得到的結(jié)果輸入到Softmax 層來計算注意力矩陣Tp∈RN×N,計算方式如式(1)所示。
式中:xji是用來度量位置ith的像素對位置jth像素的影響,xji的值越大,位置為ith和jth的元素之間關(guān)聯(lián)程度越高,越相似。與此同時特征圖C 進行矩陣重構(gòu)得到C*∈ RC×N,將C*和注意力矩陣Tp的轉(zhuǎn)置矩陣TpT 作矩陣乘法后得到的結(jié)果融入原輸入的特征圖F,最后得到空間注意力模塊的輸出E ∈RC×H×W,計算方式如式(2)所示。
α 為自學(xué)習(xí)參數(shù),初始值為0。特征圖E 將作為之后網(wǎng)絡(luò)組件的輸入,此時特征圖E 中的每個位置都是來自原對應(yīng)位置輸入特征值加權(quán)和與來自所有位置的特征之和,因此每個位置的特征值都獲得了一個全局的上下文信息,相似的特征會互相得到增益,有助于跟蹤過程中目標的精確分類和定位。
圖2 空間注意力模塊Fig. 2 Spatial attention module
2.1.2 通道注意力模塊
通道注意力模塊結(jié)構(gòu)如圖3 所示。和空間注意力不同的是,通道注意力 Tc∈ RC×C是從輸入特征圖 F ∈ RC×H×W直接計算出來的,其中上標C 為特征圖的通道數(shù)。首先將F 重構(gòu)為F*∈ RN×N,再將F*與其轉(zhuǎn)置矩陣F*T作矩陣乘法,輸出的結(jié)果送入Softmax 層中計算得到通道注意力矩陣Tc,計算方式如式(3)所示。
其中:yji是用來度量通道ith對通道jth的影響,之后將Tc的轉(zhuǎn)置矩陣TcT 和F*作矩陣乘法后再重構(gòu)使乘積的維數(shù)為RC×H×W。通道注意力模塊的最終輸出 E ∈ RC×H×W的計算方式如下:
其中:β 為自學(xué)習(xí)參數(shù),初始值設(shè)置為0。通過自適應(yīng)的方式,在總體上控制通道注意力對每個通道的影響,最后將得到的通道注意力和原特征圖進行融合得到了輸出E,特征圖E 將作為之后網(wǎng)絡(luò)組件的輸入。
圖3 通道注意力模塊Fig. 3 Channel attention module
在離線訓(xùn)練模型階段,本文采用復(fù)合損失函數(shù)來統(tǒng)計誤差,利用反向傳播更新模型參數(shù)。復(fù)合損失函數(shù)由兩部分損失項構(gòu)成:一個為分類損失項,另一個為實例判別損失項。
離線訓(xùn)練時,多域卷積神經(jīng)網(wǎng)絡(luò)中的輸出分數(shù)Sd定義方式如下所示:
其中:xd表示在第d個視頻序列中的樣本圖片;R為d視頻序列中的目標真實框標記;D 為訓(xùn)練視頻集中序列的總個數(shù);φd(;)表示第d 個序列對應(yīng)的二分類分數(shù)。最后的全連接層(FC61,F(xiàn)C62,…,F(xiàn)C6D)的輸出被同時送入用于二分類的Softmax 函數(shù) σcls和用于實例判別的 Softmax 函數(shù) σins,且完成一次迭代訓(xùn)練后得到S ∈Rp×q的矩陣,p 為單次迭代中參與的樣本數(shù)量,q 為樣本圖片屬于的類別數(shù)量,i 和j 分別是S 的行和列索引。則σcls和σins定義方式如式(6)和式(7)所示:
復(fù)合損失函數(shù)的定義方式如式(8)所示:
其中:Lcls為二分類損失函數(shù),比較目標和背景的分數(shù)來指引分類;Lins為實例判別損失函數(shù),用來提高當前目標在當前序列中屬于目標的正分數(shù),抑制它在其他序列中屬于目標的分數(shù);γ 為一個超參數(shù),作用是平衡兩種損失的權(quán)重,本文根據(jù)多次實驗設(shè)置的理想值為0.15。在離線訓(xùn)練網(wǎng)絡(luò)的過程中,最內(nèi)層的單次迭代只處理一個視頻序列。假設(shè)當前序列為d(k) = k mod K,則第k 次迭代的二分類損失計算方式如式(9)所示:
其中:zn∈ {0,1}D×2為對應(yīng)真實目標的標簽,當d 序列中的預(yù)測框 Ri對應(yīng)的類為 q 時[zn] qd = 1,否則為 0;N 為處理單個序列時循環(huán)迭代的總次數(shù)。實例判別損失定義如下:
和Lcls不同的是,實例判別損失函數(shù)Lins僅計算的是d 序列中預(yù)測框Ri對應(yīng)類為目標的樣本,用符號+表示。該損失函數(shù)會使得目標物體在當前序列中的分數(shù)變得較大,而在其他序列中變得較小,最終使得網(wǎng)絡(luò)模型在多個物體含有相似語義信息但是屬于不同類別的情況下,能夠有效保持其判別能力的魯棒性。
SAMDNet 離線訓(xùn)練時,其離線訓(xùn)練模型的多分支全連接層對應(yīng)不同的視頻序列,卷積層是共享的。離線網(wǎng)絡(luò)模型中卷積層參數(shù)的初始化是直接加載已在ImageNet上預(yù)訓(xùn)練好的VGG-M 網(wǎng)絡(luò)中對應(yīng)卷積層的參數(shù),全連接層中的參數(shù)由標準正態(tài)分布初始化,整個網(wǎng)絡(luò)的所有參數(shù)均是可學(xué)習(xí)的。在離線訓(xùn)練的每次迭代中,訓(xùn)練數(shù)據(jù)來自于每個視頻序列的正負樣本集,樣本集是以目標真實框為中心,以高斯隨機的方式在其周圍選取固定數(shù)目的圖像塊而來的,離線訓(xùn)練的每次迭代只處理單個視頻序列,單次迭代中隨機抽選當前序列中的4幀圖片,每幀圖片提取4個正樣本和12個負樣本,因此網(wǎng)絡(luò)的輸入為16 個正本和48 個負樣本組成的樣本集。圖片網(wǎng)絡(luò)樣本集中每個樣本和目標真實框的重疊率大于0.7 的被標記為正樣本,重疊率小于0.5的樣本被標記為負樣本。
訓(xùn)練數(shù)據(jù)集為ImageNet-Vid,該數(shù)據(jù)集包括3 862 個短時視頻序列作為訓(xùn)練集,555 個作為驗證集,937 個用于測試集。該數(shù)據(jù)集基于目標檢測任務(wù)建立,其中的每個短時視頻序列都是經(jīng)過精心挑選的,全方位地考慮了各種因素,如運動類型、視頻背景干擾、遮擋等。
SAMDNet 中為了預(yù)估目標的位置,預(yù)設(shè)的候選目標集合是由前一幀確定的目標框為中心在位移和尺度兩個方向按照高斯分布生成的N 個候選框 Xi=(xi,yi,si)(i = 1,2,…,N),其中 xi、yi為前一幀目標框中心坐標,si為縮放比例,Xi的協(xié)方差是對角矩陣,對角線值滿足(0.09r2,0.09r2,0.25),其中r 是前一幀的目標框的寬和高的均值,每個候選框的大小為前一幀目標框大小的1.05si倍。當前幀目標框的確定方式如下,記當前為第t幀,{xti}i=1,2,…,N為t幀中按高斯分布生成的N個候選框集合,則當前幀的目標框xt*定義方式如式(11)所示:
其中f+()為候選框圖像經(jīng)過網(wǎng)絡(luò)模型后得到的正分數(shù),分數(shù)最高的候選框作為當前幀的預(yù)測目標框。當選定的目標框分數(shù)f+(xt*)≥0.5時,在下一幀處理前使用邊界框回歸算法[11]來修正當前得到的目標框,使得當前幀更加貼合真實框。同時在負樣本生成過程中使用了負樣本挖掘技術(shù)[16]選取分數(shù)最接近正樣本閾值的負樣本作為在線訓(xùn)練的負樣本,以此來提高模型區(qū)分正樣本和負樣本的能力。
網(wǎng)絡(luò)模型的在線更新方式分為長時更新和短時更新兩種:長時更新是指網(wǎng)絡(luò)以固定處理幀數(shù)為間隔更新網(wǎng)絡(luò),目的是為了保證模型的魯棒性;短時更新發(fā)生在獲得的目標框分數(shù)f+(xt*)<0.5時,使用保存的歷史正負樣本特征立即進行網(wǎng)絡(luò)的更新,目的是為了提高網(wǎng)絡(luò)模型的自適應(yīng)性。
為了驗證本文提出算法的有效性,選擇了近年來數(shù)個先進算法來進行對比實驗。本文所提出的模型是在Pytorch 1.1.0 框架上訓(xùn)練的,實驗平臺為一臺配置了Intel Xeon Bronze 3106 CPU 和一塊 NVIDIA GeForce TITAN XP 顯卡的計算機。
本文算法在兩個公開且被廣泛使用的測試基準集OTB50[17]和 OTB2015[18]上進行測試。OTB2015 包括 100 個視頻序列,該數(shù)據(jù)集中充分包含11 種追蹤過程中可能遇到的挑戰(zhàn)性問題,如平面內(nèi)旋轉(zhuǎn)、遮擋、關(guān)照變化、運動模糊等;OTB50為OTB2015中前50個視頻序列,而且這50個序列幾乎涵蓋了整個測試集中最復(fù)雜的視頻序列。兩個測試基準集有兩個相同的度量標準:成功率和精確率。成功率是指預(yù)測框和標記框交集區(qū)域像素個數(shù)和并集區(qū)域像素個數(shù)之比;精確率是指預(yù)測框和標記框的中心誤差在一個特定的閾值內(nèi)的視頻幀數(shù)占總幀數(shù)的百分比,本文算法評估采用的閾值為20。
本實驗中采用的評估方法為單次通過方式(One-pass Evaluation,OPE),除了和MDNet算法對比外,另選擇了多個性能頂尖的追蹤算法,分別是:高效卷積算法ECO[19],ECO算法不使用 CNN 特征的版本 ECO-HC[19],2016 年視覺目標跟蹤挑戰(zhàn)(VOT2016)的冠軍——連續(xù)域卷積相關(guān)濾波算法C-COT[20],空間約束相關(guān)濾波器(Spatially Regularized Correlation Filter,SRDCF)添加了深度CNN特征的版本DeepSRDCF[21],作為深度視覺追蹤的基準對比算法CNN-SVM[22],全卷積孿生網(wǎng)絡(luò)算法(Fully-Convolutional Siamese network,SiamFC)的多尺度版本SiamFC-3s[23],以 及 判 別 式 相 關(guān) 濾 波 器 網(wǎng) 絡(luò)(Discriminant Correlation Filter Network,DCFNet)[24]。
圖4 為OTB50 數(shù)據(jù)集下的測試結(jié)果,可以看出本文的SAMDNet 算法相較于原算法MDNet 在精確率率指標上提高了2.5個百分點,在成功率指標上提高了1.6個百分點。本文算法在精確率和成功率兩個指標上全面超過了CCOT和ECOHC 算法,在精確率指標上與ECO 算法相比提高了1.4個百分點。圖5 為OTB2015 數(shù)據(jù)集下的測試結(jié)果,可以看出本文的SAMDNet 算法在精確率指標上取得了0.907 的優(yōu)異表現(xiàn),超過MDNet 算法1.8 個百分點,也超過了CCOT 算法接近1 個百分點,此外和CCOT 的改進版本ECO 算法僅僅相差0.3 個百分點,SAMDNet 在成功率指標上也超過了CCOT 和MDNet 等其他算法。
為了進一步驗證本文算法的有效性,選擇了7 個性能先進的算法進行了屬性對比實驗,結(jié)果如表1 所示,選擇的測試基準集為OTB2015。本文選取的對比屬性有背景雜斑(Background Clutter,BC)、尺度變化(Scale Variation,SV)、遮擋(OCclusion,OC)、形變(DEformation,DE)、平面內(nèi)旋轉(zhuǎn)(In-Plane Rotation,IPR)、平面外旋轉(zhuǎn)(Out-of-Plane Rotation,OPR)、超出視野(Out of View,OV)、光照變換(Illumination Variation,IV)、運動模糊(Motion Blur,MB)、快速移動(Fast Motion,F(xiàn)M)、低分辨率(Low Resolution,LR),選取的評價指標為成功率。如表1 所示,加粗的為對比實驗中該列的最大值,可以看出,在11 個屬性中,本文算法SAMDNet 相較于MDNet 算法在8 個屬性上均有不同程度的提升,相較于全部選擇的對比算法SAMDNet在屬性SV、DE、IPR、OPR 上達到了最佳表現(xiàn),其他屬性上也與各自最優(yōu)值極其接近。
基于卷積神經(jīng)網(wǎng)絡(luò)的視覺追蹤中,傳統(tǒng)網(wǎng)絡(luò)模型中池化層的存在是為了壓縮網(wǎng)絡(luò)模型的參數(shù)量和降低過擬合,但同時也導(dǎo)致了大量數(shù)據(jù)損失,而且這種損失會隨著網(wǎng)絡(luò)模型層數(shù)的增加而逐漸疊加,雖然深度特征抽象度高、魯棒性好,但深度特征的空間信息損失也越多,這不利于需要精確空間定位的追蹤任務(wù)?;诖?,本文所提算法中將空間注意力模塊設(shè)置在CONV1 和CONV2 之間,在出現(xiàn)空間信息損失之前,最大限度地使相似的特征彼此相關(guān),突出相似特征的空間信息。對于通道注意力模塊而言,其注意力矩陣的計算方式和空間注意力類似,但是以每個通道的特征圖之間的互相映射的角度來衡量彼此間的依賴關(guān)系,為了有選擇地突出互相關(guān)聯(lián)的通道的重要性的同時最大化通道注意力矩陣信息的豐富性,因此本文算法中通道注意力模塊加載到卷積層通道數(shù)最多的CONV3之后。
圖4 SAMDNet在OTB50的測試結(jié)果Fig.4 Test results of SAMDNet on OTB50
圖5 SAMDNet在OTB2015的測試結(jié)果Fig.5 Test results of SAMDNet on OTB2015
表1 不同追蹤算法的11個屬性的成功率對比Tab. 1 Success rate comparison of 11 attributes of different tracking algorithms
為了進一步驗證本文算法SAMDNet 中各模塊的有效性,設(shè)計了如表2、3 所示的消融實驗:C1p 含義為在卷積層CONV1 之后設(shè)置了空間注意力模塊,C3c 含義是在CONV3 之后設(shè)置了通道注意力模塊;I含義為預(yù)訓(xùn)練模型是采用了包含實例判別函數(shù)的復(fù)合損失函數(shù);15 指的是測試基準集為OTB2015。實驗結(jié)果表明,各個模塊對算法的性能提升都起著積極作用,最佳的表現(xiàn)來自于三個模塊的共同作用。
表2 SAMDNet的子模塊組合實驗的精確率和成功率對比Tab. 2 Comparison of SAMDNet’sub-module combinations on precision and success rate
表3 為注意力模塊的組合實驗,實驗中通道注意力模塊的位置是固定的,空間注意力模塊的位置是變量。實驗結(jié)果表明當空間注意模塊處于CONV1后可以獲得最佳性能,同時也驗證了算法模型設(shè)計的合理性。
表3 不同注意力模塊組合的精確率和成功率對比Tab. 3 Comparison of different attention module combinations on precision and success rate
本文是基于多域卷積神經(jīng)網(wǎng)絡(luò)(MDNet)的算法改進,通過引入自注意力機制來解決原算法中模型漂移問題,此外通過實例判別函數(shù)提升了模型對包含相似語義信息目標的判別能力。由于基于卷積神經(jīng)網(wǎng)絡(luò)的深度追蹤中目標位置信息容易隨著網(wǎng)絡(luò)深度的加深而逐漸損失,最后影響追蹤目標的精確定位,而空間注意力和通道注意力的應(yīng)用使模型獲得了更魯棒的位置表示,目標定位更加準確。本文算法在廣泛使用的測試基準集OTB50 和OTB2015 上取得了優(yōu)秀的表現(xiàn),顯著超越MDNet 算法的同時,也在兩個測試基準集上全面超過了VOT2016 的冠軍算法CCOT,同時在OTB50 精確率指標上也超過了2017年的ECO 算法。但是本文算法也存在一些不足,如實驗過程中發(fā)現(xiàn)該算法在目標出現(xiàn)運動模糊、快速移動和低分辨率等情況時,追蹤效果并不理想,所以未來將進一步研究克服該算法存在的不足。