陳 威,李決龍,邢建春,周啟臻
(1.陸軍工程大學(xué) 國防工程學(xué)院,江蘇 南京 210007;2.海軍海防工程研究中心,北京 100841)
海上艦船目標(biāo)的跟蹤對于海上交通管理和海防安全等方面都有重大意義,一直是視覺跟蹤領(lǐng)域的研究重點(diǎn)。海上背景復(fù)雜,目標(biāo)難以采樣,易受遮擋、波浪噪聲、光照、尺度變化等因素影響,提高了跟蹤的難度[1]。在本文中,主要解決海上目標(biāo)長時(shí)間跟蹤過程中出現(xiàn)的遮擋、尺度變化問題。
目前針對長時(shí)間的視頻目標(biāo)跟蹤,國外研究人員Zdenek Kalal等人使用跟蹤-學(xué)習(xí)-檢測(Tracking-Learning-Detection,TLD)聯(lián)合方案[2]進(jìn)行了在線跟蹤研究,取得了不錯(cuò)的效果,但是存在運(yùn)行速度較慢的缺點(diǎn)。此外,已有學(xué)者將基于相關(guān)濾波器的方法成功引入到目標(biāo)跟蹤問題當(dāng)中,有效地提升了運(yùn)行速度。Bolme等人提出了一種在灰度圖像上學(xué)習(xí)最小輸出平方誤差和(Minimum Output Sum of Squared Error,MOSSE)相關(guān)濾波器的跟蹤算法[3],只需要一個(gè)目標(biāo)區(qū)域的樣本圖像訓(xùn)練目標(biāo)外觀模型,通過離散傅里葉變換將時(shí)域上的卷積轉(zhuǎn)換為頻域上的點(diǎn)積,從而提高了算法的運(yùn)行速度。Henriques等人提出了循環(huán)結(jié)構(gòu)檢測跟蹤(Circulant Structure of tracking-by-detection with Kernels,CSK)算法[4],通過循環(huán)移位對單幀圖像密集采樣得到大量訓(xùn)練樣本來訓(xùn)練分類器,對候選樣本同樣采用循環(huán)移位,構(gòu)造大量候選區(qū)域用于分類器的檢測。Henriques等人在CSK的基礎(chǔ)上提出核相關(guān)濾波器(Kernelized Correlation Filters,KCF)跟蹤算法[5],使用方向梯度直方圖(HOG)特征[6]替代原算法中的灰度值特征,將相關(guān)濾波器由單通道擴(kuò)展為多通道,提升了跟蹤性能。國內(nèi)研究人員張開華等人基于相關(guān)濾波提出基于時(shí)空上下文(Spatio-temporal Context,STC)的算法[7],主要利用時(shí)空上下文信息將目標(biāo)附近的背景信息加入到濾波器模型的訓(xùn)練中,以減弱部分遮擋對目標(biāo)的影響。
然而以上基于相關(guān)濾波的算法仍然存在以下兩個(gè)問題有待解決:一是估計(jì)尺度變化性能較差;二是當(dāng)出現(xiàn)遮擋或者離開視野時(shí)不能重新檢測目標(biāo)。針對以上問題,本文引入長時(shí)間相關(guān)濾波算法(Long-term Correlation Tracking,LCT)[8]。該方法針對尺度估計(jì),使用方向梯度直方圖作為特征構(gòu)建多尺度目標(biāo)金字塔并且尋找最優(yōu)尺度;針對目標(biāo)再檢測,利用隨機(jī)蕨分類器,當(dāng)其激活時(shí)通過滑動(dòng)窗口遍歷圖像重新檢測目標(biāo),有望取得較好的效果。
本文引入的LCT算法由相關(guān)濾波跟蹤模塊和目標(biāo)再檢測模塊組成,整體的跟蹤流程如圖1所示。跟蹤模塊建立了兩個(gè)基于核相關(guān)濾波器的回歸模型,一個(gè)是時(shí)空上下文模型Rc,通過特征空間估計(jì)目標(biāo)位置的平移;另一個(gè)是由HOG特征構(gòu)建的多尺度金字塔外觀模型Rt,通過尺度空間估計(jì)目標(biāo)尺度的變化。檢測模塊先利用KNN分類器選擇信度最高的跟蹤結(jié)果在線訓(xùn)練隨機(jī)蕨分類器,然后使用隨機(jī)蕨分類器實(shí)現(xiàn)目標(biāo)再檢測。
圖1 LCT跟蹤流程
圖2 LCT中建立的兩種模型
核相關(guān)濾波器KCF的原始模型是線性回歸,即f(t)=wTt, 參數(shù)w需要通過訓(xùn)練得到,t為樣本的特征向量。令i為樣本序號,yi為ti相對應(yīng)的目標(biāo)回歸值,訓(xùn)練的目的是求最小化誤差下的w,即式(1):
(1)
其中,λ為正則化影響因數(shù)。
為了得到核相關(guān)濾波器的濾波器參數(shù)w,首先要對目標(biāo)采樣,傳統(tǒng)的方法是在目標(biāo)附近選取若干圖像塊區(qū)域,而KCF只需采集一張圖片x∈M×N,并將x分別以m、n個(gè)像素為單位進(jìn)行垂直和水平方向循環(huán)移位,從而得到不同樣本xm,n,其中m∈{0,1,…,M-1},n∈{0,1,…,N-1},每個(gè)樣本對應(yīng)的回歸值y(m,n)服從二維高斯分布。訓(xùn)練的目的是求最優(yōu)化的參數(shù)w,即:
(2)
其中,w=∑m,na(m,n)φ(xm,n);φ表示把訓(xùn)練樣本映射到高維特征空間的函數(shù)。
利用快速傅里葉變換和嶺回歸法[9],解式(2)得:
(3)
其中,F(xiàn)、F-1表示離散傅里葉變換及其逆變換;y為M×N的矩陣,對應(yīng)的元素是y(m,n)。
(4)
LCT跟蹤器建立了兩種基于相關(guān)濾波器的模型,如圖2所示。時(shí)空上下文模型Rc包含了目標(biāo)及周圍環(huán)境信息,由于信息能在遮擋時(shí)保持穩(wěn)定,因此Rc能將目標(biāo)與背景區(qū)分出來[8]。為了消除響應(yīng)圖邊界的不連續(xù)性,使用余弦窗對所提取的目標(biāo)及上下文信息的特征通道進(jìn)行加權(quán)處理[3],并且在特征空間中加入空間權(quán)重(spatial weights)。對于Rc模型來說,能夠在目標(biāo)出現(xiàn)遮擋、變形,以及突然運(yùn)動(dòng)時(shí)自適應(yīng)地估計(jì)目標(biāo)平移。如式(5)所示,Rc模型通過學(xué)習(xí)率α實(shí)現(xiàn)連續(xù)幀之間的更新:
(5)
(6)
(7)
在實(shí)現(xiàn)過程中,檢測器使用像素比較作為二元特征訓(xùn)練了一種隨機(jī)蕨分類器。每個(gè)蕨檢測基于掃描窗口機(jī)制。與TLD算法中的PN學(xué)習(xí)不同,本文使用KNN分類器挑選出置信度最高的樣本作為正訓(xùn)練樣本。
為了評估所引入的長時(shí)間相關(guān)濾波算法的性能,本文測試數(shù)據(jù)選用Singapore Maritime Dataset[1]中5段具有代表性的視頻序列,主要存在遮擋、尺度變化等挑戰(zhàn)特性。
實(shí)驗(yàn)平臺基本配置:MATLAB2015b, Intel-i5-6200,2.4 GHz, 8 GB內(nèi)存。式(2)中的正則化影響因數(shù)λ= 10-4,高斯核寬度σ=0.1,式(5)中的學(xué)習(xí)率α=0.01,尺度數(shù)量|S|=21,尺度增量因子a=1.08。設(shè)置Tr=0.15用以激活訓(xùn)練好的隨機(jī)蕨分類器,設(shè)置Tt=0.37用以采用重新檢測的結(jié)果,設(shè)置Ta=0.37用以更新目標(biāo)的外觀模型。對于實(shí)驗(yàn)中的5段測試視頻序列,參數(shù)設(shè)置均保持一致。
使用兩種評估方法作為定量評價(jià)標(biāo)準(zhǔn):距離精確度和成功率。距離精確度是指跟蹤目標(biāo)中心位置的坐標(biāo)與準(zhǔn)確值間的歐式距離小于閾值的幀數(shù)占視頻序列總幀數(shù)的百分比。成功率是指跟蹤目標(biāo)的邊框區(qū)域與人工標(biāo)定的準(zhǔn)確值間的重疊率S大于某個(gè)閾值的幀數(shù)占全部視頻幀數(shù)的百分比。其中重疊率S定義為:S=|Rt∩Ra|/|Rt∪Ra|,其中Rt表示跟蹤結(jié)果區(qū)域,Ra表示目標(biāo)真實(shí)區(qū)域。
2.3.1定量比較
將本文所引入的長時(shí)間相關(guān)濾波方法(LCT)與核相關(guān)濾波算法(KCF)、跟蹤-學(xué)習(xí)-檢測(TLD)、時(shí)空上下文(STC)進(jìn)行對比實(shí)驗(yàn),實(shí)驗(yàn)選用4種跟蹤算法在5組測試視頻中不同閾值下的距離精確度和成功率作為評測標(biāo)準(zhǔn),結(jié)果如圖3、4所示。從圖中可以看出,本文所引入的LCT算法性能明顯優(yōu)于其他幾種算法,距離精確度和成功率均為最高。在圖3中,距離精度在閾值為20個(gè)像素點(diǎn)時(shí)達(dá)到了0.823,分別比KCF和STC高了10和30多個(gè)百分點(diǎn)。在圖4中,成功率在閾值為0.5時(shí)達(dá)到了0.765,分別比KCF和STC高了10和50多個(gè)百分點(diǎn)。從以上結(jié)果可以看出引入再檢測機(jī)制使得跟蹤效果顯著提高。
圖3 4種跟蹤算法在不同閾值下的距離精度
圖4 4種跟蹤算法在不同閾值下的成功率
表1為4種跟蹤算法的運(yùn)行速度對比結(jié)果,實(shí)驗(yàn)結(jié)果表明,本文所引入的LCT算法運(yùn)行速度比KCF和STC慢,這是由于該算法再檢測模塊中的分類器的訓(xùn)練比較費(fèi)時(shí),但是仍能滿足一般的在線跟蹤系統(tǒng)的實(shí)時(shí)性要求。
表1 4種跟蹤算法速度對比
2.3.2定性比較
圖5、圖6給出了在兩種挑戰(zhàn)特性下不同算法的跟蹤結(jié)果,下面結(jié)合圖5、圖6針對視頻不同特性對本文算法的性能進(jìn)行分析。
圖5 局部和全局遮擋時(shí)不同算法的跟蹤效果
圖6 尺度變化時(shí)不同算法的跟蹤效果
(1) 局部和全局遮擋時(shí)跟蹤仿真實(shí)驗(yàn)
當(dāng)目標(biāo)對象遭受嚴(yán)重遮擋時(shí),KCF會(huì)發(fā)生漂移,并且在跟蹤失敗的情況下不會(huì)重新檢測目標(biāo);STC算法在遮擋出現(xiàn)時(shí)依然采用同樣速率更新在線模型, 比KCF算法效果要好,但誤差仍偏大;TLD算法能重新檢測到目標(biāo);而LCT一旦判斷遮擋出現(xiàn)將不再更新時(shí)空上下文模型,在目標(biāo)出現(xiàn)局部和全局遮擋時(shí)也取得了穩(wěn)健的跟蹤效果。
(2)尺度變化時(shí)跟蹤仿真實(shí)驗(yàn)
當(dāng)出現(xiàn)嚴(yán)重尺度變化時(shí),由于KCF采用固定大小窗口的訓(xùn)練樣本圖像訓(xùn)練分類器,導(dǎo)致該算法不能有效處理有尺度變化的運(yùn)動(dòng)目標(biāo),因此跟蹤效果不佳;STC通過時(shí)空上下文模型估計(jì)尺度變化而非目標(biāo)外觀模型,因此性能較差;TLD能夠在跟蹤失敗的情況下重新檢測目標(biāo)對象,但是并沒有充分利用時(shí)空運(yùn)動(dòng)的信息,因此對于尺度變化的目標(biāo)跟蹤效果不是很好。此外,TLD方法每幀都更新其檢測器,易導(dǎo)致漂移和目標(biāo)重新檢測錯(cuò)誤。
總體而言,所引入的LCT方法之所以能很好地確定目標(biāo)位置和估計(jì)目標(biāo)尺度,主要有以下幾點(diǎn)原因:首先,時(shí)空上下文模型Rc所學(xué)習(xí)的特征比單用HOG特征時(shí)更為魯棒;其次,外觀模型Rt緩慢更新模板以避免誤差累積,從而能有效地解決尺度變化問題;最后,訓(xùn)練好的檢測器能在跟蹤失敗的情況下有效地重新檢測目標(biāo)對象,如發(fā)生嚴(yán)重遮擋時(shí)。
針對目標(biāo)遮擋和尺度變化的海上目標(biāo)跟蹤問題,本文引入長時(shí)間相關(guān)濾波算法LCT。通過實(shí)驗(yàn)結(jié)果的定量和定性分析表明,基于LCT的跟蹤算法與其他幾種算法KCF、TLD、STC相比,體現(xiàn)了更高的精度,獲得了更理想的跟蹤效果。本文為解決海上艦船目標(biāo)長時(shí)間跟蹤問題提供了一種新思路。不足之處是LCT算法運(yùn)行速度較慢,這是由于再檢測模塊的訓(xùn)練比較費(fèi)時(shí),所以在下一步工作中將考慮提升檢測器性能問題。
[1] PRASAD D K, RAJAN D, RACHMAWATI L, et al. Video processing from electro-optical sensors for object detection and tracking in a maritime environment: a survey[J]. IEEE Transactions on Intelligent Transportation Systems, 2017, 18(8):1993-2016.
[2] KALAL Z, MIKOLAJCZYK K, MATAS J. Tracking-learning-detection[J]. IEEE Transactions on Pattern Analysis & Machine Intelligence, 2012, 34(7):1409-1422.
[3] BOLME D S, BEVERIDGE J R, DRAPER B A, et al. Visual object tracking using adaptive correlation filters[C]// Computer Vision and Pattern Recognition. Piscataway: IEEE, 2010:2544-2550.
[4] HENRIQUES J F, CASEIRO R, MARTINS P, et al. Exploiting circulant structure of tracking-by-detection with kernels [C]// Proceeding of the 2012 European Conference on Computer Vision. Berlin: Springer, 2012: 702-715.
[5] HENRIQUES J F, RUI C, MARTINS P, et al. High-speed tracking with kernelized correlation filters[J]. IEEE Transactions on Pattern Analysis & Machine Intelligence, 2015, 37(3):583-596.
[6] FELZENSZWALB P F, GIRSHICK R B, MCALLESTER D, et al. Object detection with discriminatively trained part- based models[J]. IEEE Transactions on Pattern Analysis & Machine Intelligence, 2010, 32(9):1627-1645.
[7] ZHANG K H, ZHANG L, LIU Q S, et al. Fast visual tracking via dense spatio-temporal context learning[C]//European Conference on Computer Vision. Berlin: Springer, 2014: 127-141.
[8] MA C, YANG X K, ZHANG C Y, et al. Long-term correlation tracking[C]//Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition, 2015: 5388-5396.
[9] RIFKIN R, YEO G, POGGIO T. Regularized least-squares classification[J]. Acta Electronica Sinica, 2003, 190(1):93-104.
[10] SANTNER J, LEISTNER C, SAFFARI A, et al. PROST: Parallel robust online simple tracking[C]// Computer Vision and Pattern Recognition. Piscataway: IEEE, 2011:723-730.
[11] ZHONG W, LU H, YANG M H. Robust object tracking via sparse collaborative appearance model[J]. IEEE Transactions on Image Processing, 2014, 23(5):2356-2368.