張志遠,楊 帆
(中國民航大學(xué) 計算機科學(xué)與技術(shù)學(xué)院,天津 300300)
目標跟蹤旨在給定跟蹤目標第一幀初始注釋框的情況下,在連續(xù)的視頻序列中建立所要跟蹤物體的位置關(guān)系,得到目標完整的運動軌跡[1]。由于沒有任何先驗的外觀、形狀模型,僅有跟蹤目標第一幀的標注信息用于模型理解跟蹤目標,且存在光照變化、運動模糊、背景干擾等情況,使得目標跟蹤仍然是計算機視覺領(lǐng)域中的難點問題。
現(xiàn)有的主流跟蹤器大多采用監(jiān)督學(xué)習(xí)的訓(xùn)練方式,在處理數(shù)據(jù)集時需要使用視頻的目標標注信息,對圖像進行以跟蹤目標為中心的裁剪切割處理。隨著互聯(lián)網(wǎng)和信息技術(shù)的快速發(fā)展以及高速移動設(shè)備的普及,網(wǎng)絡(luò)上的信息量呈現(xiàn)幾何級爆炸式增長,如何在無標注信息的情況下利用好互聯(lián)網(wǎng)帶來的海量視頻數(shù)據(jù)是值得研究的問題。受文獻[2]提出的循環(huán)一致性損失啟發(fā),文獻[3]提出了一種自監(jiān)督的學(xué)習(xí)方法,學(xué)習(xí)視頻之間的目標對應(yīng)關(guān)系,其主要思想是將時間的循環(huán)一致性用作免費的監(jiān)督信號,挖掘出視頻在時間上的連貫性。文獻[4]提出了首個無監(jiān)督跟蹤器,作者認為一個魯棒的跟蹤器可以在連續(xù)幀中定位目標對象且可回溯到第一幀的初始位置。不同于現(xiàn)有跟蹤器讀取視頻標注信息進行有監(jiān)督的學(xué)習(xí),文獻[4]提出的跟蹤器以無監(jiān)督的訓(xùn)練方式在大規(guī)模未標記視頻上重復(fù)執(zhí)行前向跟蹤和后向跟蹤來學(xué)習(xí)定位目標,揭示了無監(jiān)督學(xué)習(xí)在視覺跟蹤中的潛力。
本文基于大量互聯(lián)網(wǎng)視頻數(shù)據(jù)具有潛在學(xué)習(xí)價值的假設(shè),提出一種改進的利用未標注的原始視頻圖像進行端到端訓(xùn)練的自監(jiān)督跟蹤模型。模型基于孿生網(wǎng)絡(luò)的相關(guān)濾波框架,通過前向跟蹤和后向跟蹤兩個跟蹤過程,使用初始標簽和預(yù)測響應(yīng)構(gòu)建循環(huán)一致性損失作為監(jiān)督信號,同時使用子空間注意力機制以及通道注意力機制根據(jù)不同的跟蹤目標對特征進行自適應(yīng)調(diào)整。子空間注意力機制突出了目標特征子空間內(nèi)部的重要信息,通道注意力機制在通道維度上對干擾信息進行了抑制,并加強了有效的目標特征。在基準測試集上的實驗結(jié)果表明,提出的自監(jiān)督跟蹤模型達到了監(jiān)督跟蹤器的跟蹤基準,并相比于文獻[4]的無監(jiān)督跟蹤器在跟蹤性能上得到了進一步提升。
相關(guān)濾波(correlation filter,CF)在信號處理中用來進行兩個信號的相關(guān)性計算,信號f和g的相關(guān)性計算為
(1)
式中:f*是f的復(fù)共軛,兩個信號越相似,則相關(guān)性響應(yīng)越高。在圖像處理中,問題則表述為目標越相似,則相關(guān)性響應(yīng)越高。
判別式相關(guān)濾波(discriminative correlation filter,DCF)使用濾波器w將從目標模板提取的特征φ(X)∈RM×N×D回歸到目標模板的高斯標簽Y∈RM×N上進行判別式回歸。濾波器w可以通過解決嶺回歸問題[5]進行求解
(2)
式中:*表示循環(huán)卷積,λ≥0為正則化參數(shù)??梢酝ㄟ^式(3)在頻域中有效地計算式(2)
(3)
(4)
為了使用神經(jīng)網(wǎng)絡(luò)學(xué)習(xí)出更好的目標特征,并且保留相關(guān)濾波在傅里葉頻域的高效計算過程,在近期的工作[6]中,判別式相關(guān)濾波被嵌入了孿生網(wǎng)絡(luò)[7]結(jié)構(gòu)中,神經(jīng)網(wǎng)絡(luò)通過端到端的學(xué)習(xí)方式,得到了與目標跟蹤任務(wù)更加緊密耦合的特征。
本文將嵌入判別式相關(guān)濾波的孿生網(wǎng)絡(luò)作為網(wǎng)絡(luò)模型的一個跟蹤分支,模型由前向跟蹤和后向跟蹤兩個跟蹤過程構(gòu)成。不同于無監(jiān)督跟蹤器UDT[4]僅使用卷積網(wǎng)絡(luò)提取特征,本文提出使用卷積網(wǎng)絡(luò)及多注意力機制構(gòu)建特征提取器ψ。針對不同的跟蹤目標,特征提取器ψ使用多注意力機制對卷積網(wǎng)絡(luò)提取的特征進行自適應(yīng)的調(diào)整,通過提升目標特征的判別性進一步提升了跟蹤精度。網(wǎng)絡(luò)模型架構(gòu)如圖1所示。
圖1 網(wǎng)絡(luò)模型架構(gòu)
網(wǎng)絡(luò)使用連續(xù)的兩幀圖像#1和#2構(gòu)成訓(xùn)練對進行訓(xùn)練,設(shè)定#1的中心區(qū)域塊作為跟蹤目標。在前向跟蹤過程中,將#1作為目標模板T,#2作為搜索區(qū)域S。使用特征提取器ψ對目標模板T和搜索區(qū)域S提取特征,分別得到特征ψ(T)與ψ(S)。將#1響應(yīng)峰值位于中心的初始標簽Y1作為初始模板標簽YT,使用式(5)計算得到濾波器wT
(5)
目標模板T的濾波器wT與搜索區(qū)域S的特征ψ(S)使用式(6)得到目標響應(yīng)圖RS
(6)
由此得到#2的目標響應(yīng)圖R2。在前向跟蹤過程中,R2的響應(yīng)峰值即為以#2為搜索區(qū)域的預(yù)測目標位置。
在后向跟蹤過程中,則將#2作為目標模板T,#1作為搜索區(qū)域S。使用在前向跟蹤中得到的R2響應(yīng)圖作為偽標簽RT。重復(fù)上述式(5)和式(6)的計算過程,計算得到以#1為搜索區(qū)域的預(yù)測目標位置R1。
最后,使用#1的初始標簽Y1與#1的預(yù)測目標響應(yīng)結(jié)果R1利用式(7)構(gòu)建循環(huán)一致性損失進行網(wǎng)絡(luò)訓(xùn)練
(7)
在訓(xùn)練過程中,存在如圖2所示的前向跟蹤過程中目標定位錯誤,卻能夠在后向跟蹤過程中成功回溯到初始位置的情況。為了解決上述問題,訓(xùn)練中添加了第三幀圖像#3,使用#1、#2、#3組成的訓(xùn)練組進行訓(xùn)練。由#1到#2的一次前向跟蹤過程,增加為由#1到#2,再由#2到#3的兩次前向跟蹤過程。通過增加跟蹤過程來累積定位錯誤,來減少上述的錯誤現(xiàn)象。新的訓(xùn)練過程如圖3所示。
圖2 原始跟蹤過程
圖3 增加前向跟蹤過程
(8)
不同于傳統(tǒng)跟蹤器使用手工特征,本文以端到端的訓(xùn)練方式使用神經(jīng)網(wǎng)絡(luò)學(xué)習(xí)出與跟蹤任務(wù)更加緊密耦合的特征,將特征的學(xué)習(xí)融入到網(wǎng)絡(luò)的反向傳播過程中。
如圖4所示,本文的特征提取器ψ由卷積網(wǎng)絡(luò)、子空間注意力模塊和通道注意力模塊構(gòu)成。其中卷積結(jié)構(gòu)提取圖像特征,子空間注意力捕獲特征在不同子空間內(nèi)的特征交互模式,通道注意力針對不同的輸入對通道特征賦予不同的重要性系數(shù),抑制冗余特征的學(xué)習(xí)。針對不同的輸入對象,通過在子空間和通道兩方面對卷積特征進行了自適應(yīng)調(diào)整,有效地提升了目標特征的判別力。
圖4 特征提取器ψ網(wǎng)絡(luò)結(jié)構(gòu)
1.3.1 子空間注意力
在圖像任務(wù)和自然語言任務(wù)中,都需要捕獲特征長范圍的依賴關(guān)系。在圖像處理問題中,如果要捕獲長距離的特征關(guān)系通常需要堆疊多層卷積模塊來擴大輸入圖像的感受野。本文借鑒文獻[8]用于自然語言處理的多頭自注意力結(jié)構(gòu),提出了子空間注意力機制,將其用于捕獲子空間內(nèi)的非局部特征依賴關(guān)系,對子空間內(nèi)部的重要特征信息進行了增強。子空間注意力模塊網(wǎng)絡(luò)結(jié)構(gòu)如圖5所示。
圖5 子空間注意力模塊網(wǎng)絡(luò)結(jié)構(gòu)
卷積網(wǎng)絡(luò)得到的特征X∈Rn×121×121×32,其中n是批尺寸大小。首先將X保留其批尺寸的維度,其余向量展開成一維結(jié)構(gòu),將X重塑成X∈Rn×m。接下來將X重塑為X∈Rn×h×s×v的形狀,其中h是多頭注意力(multi-headed attention)中的頭,在本文中代表在h個子空間內(nèi)進行自注意力的計算。自注意力機制在每個子空間內(nèi)部進行特征的交互計算,最終得到的結(jié)果定義了每一個像素特征在當前位置的表現(xiàn)力。子空間注意力使用式(9)進行計算,可以更好地對圖像不同區(qū)域的關(guān)系進行建模
(9)
經(jīng)過以上計算過程,在h個子空間內(nèi)衡量了卷積特征的相關(guān)性,最后將相關(guān)性進行匯總得到總相關(guān)性關(guān) 系。通過這種方式無視像素特征之間的距離直接計算依賴關(guān)系,更好地捕獲了子空間內(nèi)部特征的關(guān)聯(lián)關(guān)系,對卷積提取的特征進行了優(yōu)化,并且實現(xiàn)了通道信息的交互。
1.3.2 通道注意力
由于訓(xùn)練集采用中心區(qū)域裁剪的圖像塊,并非使用完整的目標對象,使得學(xué)習(xí)的特征混雜著一些干擾信息。這些干擾特征與目標特征在特征通道上混雜,不利于對于目標的準確定位。針對這個問題,本文使用通道注意力網(wǎng)絡(luò)(squeeze-and-excitation networks,SENet)[9]對各通道的重要性進行建模,通過自適應(yīng)的權(quán)重分配對特征進行逐通道的調(diào)整。在跟蹤過程中,對有效的目標特征進行增強,對干擾特征進行削弱,進一步提升了跟蹤精度。通道注意力模塊如圖6所示。
圖6 通道注意力模塊網(wǎng)絡(luò)結(jié)構(gòu)
首先將每個通道的特征進行壓縮,壓縮得到的實數(shù)整合了每個通道的空間信息,具有全局的感受野。采用全局平均池化進行計算
(10)
z∈R1×1×c表示壓縮后的特征向量,H和W表示特征X的特征圖大小。對全局信息進行編碼后,使用式(11)通過學(xué)習(xí)參數(shù)w對特征通道間的相關(guān)性進行建模。參數(shù)w通過兩個全連接層FC1和FC2進行學(xué)習(xí),F(xiàn)C1和FC2之間的隱層激活尺寸大小為c/r×1×1,其中r為放縮參數(shù),通過減少通道個數(shù)從而降低計算量
s=Fex(z,w)=σ(g(z,w))=σ(w2δ(w1z))
(11)
式中:s∈R1×1×c表示求得的各通道自適應(yīng)權(quán)重,w1∈Rc/r×c,w2∈Rc×c/r。δ表示激活函數(shù)ReLU。σ表示激活函數(shù)Sigmoid。最后將通道的自適應(yīng)權(quán)重s與原特征X進行結(jié)合,為每個通道分配新的自適應(yīng)權(quán)重,得到重標定特征Xc
Xc=Fscale(X,s)=X·s
(12)
(13)
將每個樣本組的wdrop和wmove由下式進行歸一化得到wnorm
(14)
式中:n是批尺寸大小。最后的損失函數(shù)計算如下
(15)
本文提出的網(wǎng)絡(luò)在離線階段訓(xùn)練神經(jīng)網(wǎng)絡(luò)以提取具有區(qū)分性的目標特征,在線跟蹤過程中不進行在線微調(diào),以保證跟蹤的高效性。采用式(16)使用學(xué)習(xí)率η來線性更新濾波器w,以在跟蹤過程中適應(yīng)目標的外觀變化
wt=(1-η)wt-1+ηwt
(16)
由響應(yīng)圖進行目標的定位后,需要進行對目標進行尺度估計。以具有比例因子{as|a=1.0265,s={-1.5,-0.5,0.5}}的目標尺度金字塔來在目標中心位置進行多尺度采樣。使用尺度懲罰因子{ps|p=0.9925,s={1.5,0.5,0.5}}根據(jù)尺度的變化相應(yīng)限制其響應(yīng)值。
(1)網(wǎng)絡(luò)參數(shù)及實驗環(huán)境
本文提出的特征提取器包括兩大部分,進行圖像特征提取的卷積部分以及進行特征自適應(yīng)調(diào)整的多注意力機制部分。卷積網(wǎng)絡(luò)結(jié)構(gòu)選取VGG16的部分網(wǎng)絡(luò)結(jié)構(gòu),由兩層3×3的卷積網(wǎng)絡(luò)組成。在每層卷積結(jié)構(gòu)后使用ReLU激活函數(shù),第二層卷積后進行批標準化(batch normalization),并刪除了原有網(wǎng)絡(luò)的池化部分,設(shè)定卷積輸出特征通道維度為32。在多注意力機制部分,子空間注意力機制中h取4,即在4個子空間內(nèi)分別進行自注意力計算,通道注意力機制部分隱藏層的放縮參數(shù)r設(shè)為16。特征提取網(wǎng)絡(luò)結(jié)構(gòu)的最后使用局部響應(yīng)歸一化(local response normalization,LRN)層。建立局部神經(jīng)元的競爭機制,從而增強了模型的泛化能力。
網(wǎng)絡(luò)訓(xùn)練使用隨機梯度下降(stochastic gradient descent,SGD),批尺寸大小設(shè)為32,在線跟蹤過程的濾波器學(xué)習(xí)率η設(shè)為0.009。實驗配置在Ubuntu16.04操作系統(tǒng)的實驗環(huán)境下,在2.50 GHz Intel Xeon E5-2640的處理器和NVIDIA GTX 1080Ti的GPU上進行訓(xùn)練和測試。
(2)訓(xùn)練集處理
目前基于深度學(xué)習(xí)的目標跟蹤模型一般使用目標分類的預(yù)訓(xùn)練模型或者使用目標檢測的數(shù)據(jù)集進行訓(xùn)練。本實驗選擇用于目標檢測任務(wù)的數(shù)據(jù)集ILSVRC 2015作為訓(xùn)練集,每個訓(xùn)練組由在單個視頻連續(xù)10幀內(nèi)隨機選擇的3幀構(gòu)成。圖像組中隨機一幀設(shè)為目標模板,另外兩幀設(shè)為搜索區(qū)域。
圖7 生成訓(xùn)練樣本
2.2.1 評估標準
為驗證提出模型的有效性,本文采用兩個基準跟蹤數(shù)據(jù)集OTB50和OTB100(online object tracking benchmark,OTB)作為測試集進行驗證。其中OTB50包含50個視頻序列,OTB100是OTB50的擴展,共包含100個視頻序列。與OTB50相比,OTB100另外包含的50個視頻序列更具挑戰(zhàn)性。兩個測試集分別在光照變化、比例變化、運動模糊、背景雜波等方面對跟蹤器進行了綜合性的評估。主要的3種評估標準指標為:平均像素誤差(average pixel error,APE)、平均重疊率(average overlap rate,AOR)和平均跟蹤速度(average tracking speed)。
(1)像素誤差(ECLE)以預(yù)測的目標中心坐標與真實的目標中心坐標的偏差作為誤差值,定義式如下
(17)
式中:(xT,yT)表示跟蹤器預(yù)測的目標中心坐標,(xG,yG)表示標注的真實中心坐標。精度圖中的平均精度由ECLE值小于給定閾值的比例計算得到,本文中閾值設(shè)定為20個像素值。
(2)重疊率(Soverlap)用來進行跟蹤準確度的評估,使用IoU(intersection-over-union)的交并比概念,定義式如下
(18)
(3)平均跟蹤速度(v)表示了跟蹤器1 s內(nèi)可以進行多少幀(frame per second,F(xiàn)PS)視頻圖像的處理,計算方式如下式
(19)
Nframe表示一個視頻圖像中的總圖像幀數(shù),T表示對該視頻跟蹤處理的總時長。
2.2.2 整體性能分析
使用2.2.1節(jié)中定義的3個評價指標,將本文提出的跟蹤器與其它5個跟蹤器在平均像素誤差(APE)、平均重疊率(AOR)和平均跟蹤速度3方面進行了整體的性能分析,其中平均重疊率(AOR)為主要評價指標。這些用于對比的跟蹤器涵蓋了兩種主流方法,即使用深度學(xué)習(xí)特征的跟蹤器(TADT[10]、SiamFC[7]、CFNet[11])和使用傳統(tǒng)手工特征的跟蹤器(KCF[5])。在基準測試集OTB50和OTB100上的對比結(jié)果如圖8和圖9所示。
圖8 數(shù)據(jù)集OTB50的距離精度曲線和成功率曲線
圖9 數(shù)據(jù)集OTB100的距離精度曲線和成功率曲線
在對比的跟蹤算法中,TADT[10]使用用于圖像分類的預(yù)訓(xùn)練大型網(wǎng)絡(luò),根據(jù)跟蹤問題的損失函數(shù)指導(dǎo)通道的選擇,去除不必要的冗余特征;SiamFC[7]是第一個將孿生網(wǎng)絡(luò)用于目標跟蹤的經(jīng)典模型,使用深層卷積網(wǎng)絡(luò)特征進行跟蹤,跟蹤過程中不進行目標模板的更新;CFNet[11]和UDT[4]是結(jié)合孿生網(wǎng)絡(luò)和相關(guān)濾波的跟蹤算法,使用淺層卷積網(wǎng)絡(luò)提取目標特征,在線跟蹤過程中使用線性插值函數(shù)在線更新目標模板,其中UDT[4]是首個提出無監(jiān)督訓(xùn)練方式的目標跟蹤算法;KCF[5]無需進行離線訓(xùn)練,使用傳統(tǒng)手工特征構(gòu)建相關(guān)濾波器進行跟蹤。
在上圖的對比結(jié)果中,可以清楚的看到本文提出的跟蹤算法雖然使用未標注的原始視頻圖像進行訓(xùn)練,但已達到了采用有監(jiān)督學(xué)習(xí)方式的跟蹤器基準。其中,本文提出的算法在結(jié)果上優(yōu)于同樣使用未標注視頻數(shù)據(jù)進行訓(xùn)練的UDT[4]算法,驗證了兩個注意力機制模塊通過加強卷積特征的判別性,得到了更加魯棒的跟蹤器。
表1中列出了不同跟蹤算法在OTB100數(shù)據(jù)集上的平均跟蹤速度及成功率的曲線下面積得分(AUC score)。本文提出的算法采用端到端的輕量級網(wǎng)絡(luò),通過構(gòu)建相關(guān)濾波器用于目標的跟蹤,推導(dǎo)過程仍然保留在傅里葉域內(nèi)進行,所以保留了判別式相關(guān)濾波的高效性。由于引入了兩個注意力機制模塊,雖然速度稍有下降,但仍然超過公認的實時跟蹤速度25 FPS,仍能達到實時的標準。
表1 本文算法與主流算法的性能評估對比
定性分析過程在OTB100數(shù)據(jù)集中選擇了6個具有挑戰(zhàn)性的視頻,將提出跟蹤器的跟蹤結(jié)果以矩形標注框的方式進行了直觀的展示,跟蹤結(jié)果如圖10所示。
圖10 跟蹤結(jié)果定性分析
在前3個視頻圖10(a)Surfer、圖10(b)BlurBody、圖10(c)Skating2-2中可以觀察到,在目標發(fā)生運動模糊、快速形變等現(xiàn)象時,本文提出的跟蹤器通過使用兩種注意力機制,對原本的目標特征進行了自適應(yīng)調(diào)整,在一定程度上抑制了干擾信息,對目標特征進行了增強,可以對跟蹤目標進行準確的跟蹤定位;在后3個視頻圖10(d)Shaking、圖10(e)Diving、圖10(f)Matrix中均發(fā)生了跟蹤失敗的情況,是因為自監(jiān)督學(xué)習(xí)本質(zhì)上仍屬于無監(jiān)督,訓(xùn)練時缺少有監(jiān)督的目標信息,導(dǎo)致提取的特征仍然缺乏處理復(fù)雜場景的客觀信息。
近年來基于深度學(xué)習(xí)的目標跟蹤模型取得了巨大成功,但存在神經(jīng)網(wǎng)絡(luò)學(xué)習(xí)能力受到訓(xùn)練集數(shù)量大小限制的問題。本文通過構(gòu)建循環(huán)一致性損失,提出了一個采用自監(jiān)督學(xué)習(xí)的跟蹤模型。通過添加子空間注意力模塊和通道注意力模塊,提高了原有卷積特征的判別性,增強了跟蹤器對不同跟蹤目標的適應(yīng)能力。在公共數(shù)據(jù)集上的實驗結(jié)果表明了提出自監(jiān)督跟蹤器的實時性和有效性,并且可以達到有監(jiān)督訓(xùn)練跟蹤器的基線水平。