劉芳,王洪娟,黃光偉,路麗霞,王鑫
北京工業(yè)大學(xué) 信息學(xué)部,北京 100124
目標(biāo)跟蹤技術(shù)是無(wú)人機(jī)視覺(jué)領(lǐng)域的重要研究方向之一[1]。在無(wú)人機(jī)視頻中,由于畫(huà)面較大,目標(biāo)在場(chǎng)景中所占面積較小,且目標(biāo)易發(fā)生遮擋、形變、光照變化、相似背景干擾等情況,魯棒的無(wú)人機(jī)視覺(jué)跟蹤系統(tǒng)的設(shè)計(jì)與應(yīng)用仍然面臨著嚴(yán)峻的挑戰(zhàn)。
在視覺(jué)跟蹤問(wèn)題中,基于目標(biāo)特征跟蹤是視覺(jué)跟蹤中最為重要的一類(lèi)方法,通常包括目標(biāo)特征表達(dá)、目標(biāo)狀態(tài)搜索、目標(biāo)定位等幾個(gè)過(guò)程。其中目標(biāo)特征表達(dá)是影響跟蹤性能的重要因素之一,用來(lái)表達(dá)目標(biāo)的特征應(yīng)該能夠適應(yīng)目標(biāo)外觀變化,同時(shí)對(duì)背景具有很好的區(qū)分性[2]。傳統(tǒng)特征(如哈爾特征(HARR)[3],方向梯度直方圖(HOG))等被應(yīng)用于視覺(jué)跟蹤,但是這些特征大都是通過(guò)手工設(shè)計(jì)的底層特征,針對(duì)性較強(qiáng),對(duì)目標(biāo)狀態(tài)變化不魯棒。而無(wú)人機(jī)在很多實(shí)際應(yīng)用中往往要面對(duì)更為復(fù)雜的環(huán)境,且目標(biāo)易受到遮擋、形變、復(fù)雜背景等影響,基于傳統(tǒng)特征提取算法進(jìn)行目標(biāo)跟蹤效果不理想。
近年來(lái),深度學(xué)習(xí)中的卷積神經(jīng)網(wǎng)絡(luò)(Convolutional Neural Network, CNN)[4]得到廣泛的應(yīng)用,對(duì)目標(biāo)外觀變化具有較強(qiáng)的魯棒性,被引入到視頻目標(biāo)跟蹤問(wèn)題的求解中來(lái)。Wang和Yeung[5]基于消噪自編碼器原理,將離線(xiàn)訓(xùn)練與在線(xiàn)微調(diào)相結(jié)合,提出了直接線(xiàn)性變換(DLT)跟蹤算法,提高了跟蹤效果,適應(yīng)性更強(qiáng)。文獻(xiàn)[6]提出一種在CNN的隱含層的頂端添加一個(gè)在線(xiàn)的支持向量機(jī)(SVM)層,用來(lái)學(xué)習(xí)目標(biāo)對(duì)象的外觀,提出了一種CNN-SVM的跟蹤算法,取得了不錯(cuò)的跟蹤效果。Nam和Han[7]提出了一種多域網(wǎng)絡(luò)跟蹤算法,通過(guò)對(duì)卷積神經(jīng)網(wǎng)絡(luò)增加目標(biāo)分類(lèi)層,在跟蹤性能上取得了顯著提升。文獻(xiàn)[8]提出的全卷積網(wǎng)絡(luò)跟蹤(FCNT)模型通過(guò)分析深度網(wǎng)絡(luò)模型不同特征層的特點(diǎn),將不同特征層組合得到一個(gè)新的跟蹤模型實(shí)現(xiàn)視頻跟蹤。趙洲等[9]針對(duì)簡(jiǎn)單背景下的高速高機(jī)動(dòng)目標(biāo),提出一種改進(jìn)時(shí)空上下文跟蹤算法,有效解決不同光照強(qiáng)度下對(duì)高速、高機(jī)動(dòng)目標(biāo)引起的問(wèn)題。因此,針對(duì)無(wú)人機(jī)視頻中的目標(biāo)易發(fā)生遮擋、形變、光照變化、相似背景等問(wèn)題,通過(guò)深度網(wǎng)絡(luò)可以獲得目標(biāo)更深層次的特征表達(dá),為無(wú)人機(jī)視頻目標(biāo)跟蹤算法奠定基礎(chǔ)。
近年來(lái),相關(guān)濾波器在目標(biāo)跟蹤性能和計(jì)算速度上的出色表現(xiàn),使之成為當(dāng)前的研究熱點(diǎn)?;谙嚓P(guān)濾波的跟蹤算法最大的特點(diǎn)是可以利用快速傅里葉變換使得計(jì)算速度加快,且準(zhǔn)確率比較高,相關(guān)跟蹤的算法也層出不窮。Bolme等[10]首次將相關(guān)濾波的算法應(yīng)用到目標(biāo)跟蹤中,并提出了最小化輸出均方誤差和(MOSSE)跟蹤算法。在MOSSE基礎(chǔ)上,Henriques等提出的循環(huán)結(jié)構(gòu)的檢測(cè)(CSK)跟蹤[11]、核相關(guān)濾波(KCF)[12]跟蹤算法,其跟蹤速度也都達(dá)到了100幀/s以上。這些算法僅利用灰度特征進(jìn)行跟蹤,隨后Henriques等[12]將CSK算法從單通道擴(kuò)展至多通道,融合特征取得了不錯(cuò)的跟蹤效果。KCF算法利用梯度方向直方圖特征代替原始灰度特征,使跟蹤精度得到提升。崔乃剛等[13]提出了一種自適應(yīng)高階容積卡爾曼濾波(AHCKF)算法,該算法在系統(tǒng)狀態(tài)發(fā)生突變的情況下表現(xiàn)出良好的濾波性能,具有更強(qiáng)的魯棒性和系統(tǒng)自適應(yīng)能力,但其計(jì)算量較大,算法運(yùn)行時(shí)間較長(zhǎng)。因此,為了更好地滿(mǎn)足無(wú)人機(jī)平臺(tái)下目標(biāo)跟蹤對(duì)算法速度的要求,采用核相關(guān)濾波器作為無(wú)人機(jī)目標(biāo)跟蹤的算法進(jìn)行研究。
綜上所述,本文提出一種基于自適應(yīng)深度網(wǎng)絡(luò)的無(wú)人機(jī)目標(biāo)跟蹤算法。主成分分析(Principal Component Analysis,PCA)與受限隱層節(jié)點(diǎn)自編碼神經(jīng)網(wǎng)絡(luò)的結(jié)果具有相似性[14],同時(shí)根據(jù)無(wú)人機(jī)圖像的特點(diǎn),設(shè)計(jì)了一個(gè)3階自適應(yīng)的多通道PCA卷積神經(jīng)網(wǎng)絡(luò)(Multi-channel PCA Convolutional Neural Network,MPCA-CNN),首先為了降低輸入的冗余性和加快網(wǎng)絡(luò)的學(xué)習(xí)速度,將MPCA作為深度網(wǎng)絡(luò)的第1層;其次在網(wǎng)絡(luò)結(jié)構(gòu)中加入空間金字塔池化層,使網(wǎng)絡(luò)可以輸入任意尺寸的圖像,提取目標(biāo)更多的空間細(xì)節(jié)特征;再次對(duì)目標(biāo)幀進(jìn)行MPCA處理,將得到的特征向量初始化各層卷積核,優(yōu)化了網(wǎng)絡(luò)結(jié)構(gòu),提高了網(wǎng)絡(luò)收斂速度和精度;最后通過(guò)核相關(guān)濾波算法構(gòu)建濾波模板,獲得該特征下的預(yù)測(cè)位置,完成穩(wěn)定的跟蹤目標(biāo)。在模板更新模塊,采用相鄰2幀目標(biāo)圖像的協(xié)方差矩陣之間距離的度量算法計(jì)算相似度,調(diào)整分類(lèi)器學(xué)習(xí)率,改善由于目標(biāo)發(fā)生遮擋導(dǎo)致跟蹤失敗的問(wèn)題。仿真實(shí)驗(yàn)結(jié)果表明,該算法能更好地適應(yīng)目標(biāo)發(fā)生遮擋、形變、光照變化、相似背景干擾等問(wèn)題,有效提高跟蹤算法的精度。
針對(duì)無(wú)人機(jī)視覺(jué)跟蹤中運(yùn)動(dòng)目標(biāo)易受到遮擋、形變、光照變化、相似背景干擾等因素影響,提出一種基于自適應(yīng)深度網(wǎng)絡(luò)的無(wú)人機(jī)目標(biāo)跟蹤算法。該算法首先設(shè)計(jì)一個(gè)3階的自適應(yīng)CNN,利用MPCA降低圖像信息的冗余,實(shí)現(xiàn)數(shù)據(jù)預(yù)處理,將預(yù)處理后的數(shù)據(jù)作為深度網(wǎng)絡(luò)的輸入,并將得到的特征向量組初始化各層卷積核以進(jìn)行端到端的網(wǎng)絡(luò)訓(xùn)練,提取目標(biāo)更深層次的特征,然后通過(guò)核相關(guān)濾波進(jìn)行目標(biāo)跟蹤,提高無(wú)人機(jī)視頻目標(biāo)的跟蹤性能。
近年來(lái),隨著計(jì)算機(jī)性能的大幅度提升,出現(xiàn)了諸多高性能的卷積神經(jīng)網(wǎng)絡(luò)深層架構(gòu),其直接將多維圖像輸入網(wǎng)絡(luò),網(wǎng)絡(luò)自動(dòng)學(xué)習(xí)得到圖像特征,避免手動(dòng)提取圖像特征這一復(fù)雜的過(guò)程,并已在圖像處理領(lǐng)域取得較好的效果。
卷積是CNN的核心。輸入圖像和卷積核進(jìn)行卷積,通過(guò)一個(gè)激勵(lì)函數(shù)后就在卷積層得到了特征圖。計(jì)算過(guò)程為
(1)
ReLU層是通過(guò)ReLU激活函數(shù)給網(wǎng)絡(luò)加入非線(xiàn)性因素,極大地加快收斂速度,其公式為
ReLU(x)=max(0,x)
(2)
池化層是對(duì)卷積后特征進(jìn)行池化的操作。n×n大小的鄰域內(nèi)進(jìn)行求平均運(yùn)算或最大值、最小值等運(yùn)算,再經(jīng)過(guò)一個(gè)激勵(lì)函數(shù)f(x),得到了池化層中的m個(gè)特征圖。計(jì)算公式為
(3)
式中:down( )表示下采樣函數(shù)。
由于傳統(tǒng)CNN中的全連接層需要固定的輸入維度,當(dāng)原始輸入的圖像大小不一致時(shí),網(wǎng)絡(luò)就會(huì)對(duì)輸入圖像進(jìn)行縮放,導(dǎo)致圖像信息的損失。因此,為了使卷積神經(jīng)網(wǎng)絡(luò)自適應(yīng)處理任意大小的輸入圖像,采用空間金字塔池化(Spatial Pyramid Pooling,SPP)[15]層替換最后的池化層,將其輸出的特征圖作為全連接層的輸入。SPP層結(jié)構(gòu)如圖1所示,SPP層增加了網(wǎng)絡(luò)的尺度適應(yīng)性,使得網(wǎng)絡(luò)提取到更多不同尺度的特征信息,圖像特征更豐富,從而提高了網(wǎng)絡(luò)的識(shí)別性能。
圖1 空間金字塔池化網(wǎng)絡(luò)結(jié)構(gòu)Fig.1 Structure of spatial pyramid pooling network
根據(jù)主成分分析與隱層神經(jīng)元數(shù)量受限時(shí)的自編碼神經(jīng)網(wǎng)絡(luò)特征提取結(jié)果之間具有高度的相似性,本文采用PCA求得的特征向量組來(lái)近似代替網(wǎng)絡(luò)的卷積核以獲得目標(biāo)的深度特征。但是PCA學(xué)習(xí)只利用了圖像的灰度信息,丟失了圖像的顏色信息。HSI(Hue Saturation Intensity)模型是適合基于人的視覺(jué)系統(tǒng)對(duì)彩色感知特性進(jìn)行處理分析的模型,可充分發(fā)揮色度的作用,因此使用HSI顏色空間模型作為目標(biāo)顏色特征的描述,圖像在H、S、I通道分別進(jìn)行PCA處理,其主成分能夠最大程度地表示局部特征的主要信息以及特征之間的差異,有效實(shí)現(xiàn)目標(biāo)和背景噪聲的分類(lèi)。以CIFAR-10中Cat1數(shù)據(jù)為例,得到的3層MPCA卷積濾波如圖2所示。
MPCA初始化卷積核的具體過(guò)程為
1) 將原始圖像轉(zhuǎn)化成H、S、I通道的圖像,并對(duì)3個(gè)通道的灰度圖像進(jìn)行取片操作。
Xi=S(Ii)=[x1,x2,…,xs]∈
Rk1k2×(m-k1+1)(n-k2+1)
(4)
3) 對(duì)X進(jìn)行PCA運(yùn)算,可以求得特征向量組Vkk,取Vkk中前L個(gè)特征向量作為主成分特征向量,用于初始化卷積核組V,V可表示為
(5)
圖2 3層MPCA卷積濾波Fig.2 Three-layer MPCA convolution filtering
CNN模型層數(shù)較多、結(jié)構(gòu)復(fù)雜,將高維數(shù)據(jù)直接輸入網(wǎng)絡(luò)中進(jìn)行訓(xùn)練,會(huì)使網(wǎng)絡(luò)的訓(xùn)練時(shí)間較長(zhǎng)。主成分分析利用高維數(shù)據(jù)之間存在的特征,將數(shù)據(jù)映射到正交的低維子空間上,減少輸入數(shù)據(jù)的冗余,縮短網(wǎng)絡(luò)訓(xùn)練時(shí)間,同時(shí)降低數(shù)據(jù)中的噪聲[16],因此將MPCA作為深度網(wǎng)絡(luò)的第1層,并將圖像經(jīng)MPCA處理得到的特征向量組對(duì)各層卷積核進(jìn)行初始化,提取目標(biāo)更深層次的特征,減少計(jì)算量。同時(shí)網(wǎng)絡(luò)中還采用SPP層代替最后一個(gè)池化層,使網(wǎng)絡(luò)對(duì)輸入不同尺寸的圖像自適應(yīng)處理。研究表明,在卷積神經(jīng)網(wǎng)絡(luò)中第3個(gè)卷積層的卷積特征保留目標(biāo)更多的空間細(xì)節(jié),如目標(biāo)的位置信息等。因此,針對(duì)無(wú)人機(jī)目標(biāo)易發(fā)生遮擋、形變、光照變化和相似背景干擾等問(wèn)題,本文設(shè)計(jì)了一個(gè)3階的自適應(yīng)MPCA-CNN用于提取目標(biāo)特征輸入到核相關(guān)濾波系統(tǒng)實(shí)現(xiàn)準(zhǔn)確跟蹤。網(wǎng)絡(luò)的總體結(jié)構(gòu)如圖3所示。
具體地,在第1階段將經(jīng)MPCA降維的圖像數(shù)據(jù)輸入到由32個(gè)大小為5×5的MPCA卷積核組成的卷積層,再將得到的特征圖輸入到ReLU層,相比sigmoid和tanh函數(shù),ReLU函數(shù)可以有效地解決梯度彌散問(wèn)題。然后將得到的32個(gè)特征圖輸入到一個(gè)最大值池化層,使得卷積神經(jīng)網(wǎng)絡(luò)對(duì)于圖像微小的平移具有一定的魯棒性,更適用于目標(biāo)跟蹤。第2階段的實(shí)現(xiàn)與第1階段類(lèi)似,首先將第1階段的輸出與64個(gè)大小為5×5的MPCA卷積核進(jìn)行卷積,然后將得到的64個(gè)特征圖輸入至ReLU函數(shù),之后進(jìn)行最大值池化。
第3階段的實(shí)現(xiàn)與第2階段類(lèi)似,用128個(gè)大小為5×5的MPCA卷積核對(duì)上階段產(chǎn)生的輸出進(jìn)行卷積并進(jìn)行ReLU運(yùn)算。不同的是,將其特征圖輸入到SPP層,SPP層可以分配合適的尺度對(duì)不同大小的特征圖作池化處理,再合并聚集其結(jié)果為一維向量,獲得圖像更豐富的特征。然后通過(guò)全連接層與該層所有節(jié)點(diǎn)相連把局部的卷積特征圖轉(zhuǎn)換為一個(gè)全局的特征向量。
自適應(yīng)MPCA-CNN提供了一種直接從圖像原始像素學(xué)習(xí)特征的模型。網(wǎng)絡(luò)的總體結(jié)構(gòu)如圖3,首先對(duì)輸入圖像進(jìn)行MPCA預(yù)處理,再輸入到3階的深度網(wǎng)絡(luò),其中第1、2階包含卷積層,ReLU層和池化層,第3階包含卷積層,ReLU層和SPP層,采用SPP層代替全連接層前的池化層,使得網(wǎng)絡(luò)可以輸入任意尺寸圖像。其次利用MPCA得到的特征向量組初始化各層卷積核,加快網(wǎng)絡(luò)的學(xué)習(xí)速度,從而構(gòu)建一個(gè)3階的自適應(yīng)MPCA-CNN網(wǎng)絡(luò)提取目標(biāo)的深層次特征。
圖3 自適應(yīng)MPCA-CNN網(wǎng)絡(luò)結(jié)構(gòu)Fig.3 Structure of adaptive MPCA-CNN network
近年來(lái),基于相關(guān)濾波的跟蹤算法將信號(hào)從時(shí)域轉(zhuǎn)換到頻域,利用快速傅里葉變換進(jìn)行濾波模板訓(xùn)練和響應(yīng)圖計(jì)算,提高了目標(biāo)跟蹤的精度和速度。因此本文通過(guò)自適應(yīng)MPCA-CNN提取目標(biāo)的特征訓(xùn)練核相關(guān)濾波器系數(shù),然后根據(jù)連續(xù)幀提取的特征在核相關(guān)濾波器上的最大響應(yīng)位置計(jì)算目標(biāo)位置,較好地提高無(wú)人機(jī)目標(biāo)跟蹤算法的性能。
自適應(yīng)MPCA-CNN中,卷積層輸出的是多通道的特征圖x=[x1,x2,…,xd]∈RM×N×D,M、N和D分別為特征圖的寬、高和通道數(shù)。對(duì)于卷積特征圖,利用核相關(guān)濾波(Kernel Correlation Filter,KCF)算法構(gòu)建濾波模板。KCF跟蹤算法采用核嶺回歸分類(lèi)器,其目標(biāo)是使給定一組圖像樣本經(jīng)過(guò)濾波模板后與回歸目標(biāo)的結(jié)構(gòu)化風(fēng)險(xiǎn)最小,其目標(biāo)函數(shù)為
(6)
式中:h為濾波模塊;y為期望輸出;λ為正則因子。
設(shè)從樣本空間到希爾伯特特征空間的非線(xiàn)性變換為xi→φ(xi),則目標(biāo)函數(shù)的核化形式為
(7)
式中:w為權(quán)重參數(shù);φ(x)為希爾伯特空間;·,·表示點(diǎn)積操作??梢园褀表示為線(xiàn)性組合的形式,即此時(shí)需要優(yōu)化的變量變?yōu)橄禂?shù)向量α。利用樣本找到一個(gè)對(duì)回歸目標(biāo)最小平方誤差的函數(shù)可以表示為
(8)
在非線(xiàn)性希爾伯特特征空間的點(diǎn)乘運(yùn)算可以用核函數(shù)運(yùn)算,即φT(x)φ(x′)=κ(x,x′),其運(yùn)算結(jié)果是一個(gè)n×n的矩陣,稱(chēng)核矩陣K,其元素為
(9)
可以得到核化的嶺回歸問(wèn)題的解為
(10)
在新的一幀圖像中通過(guò)獲取感興趣區(qū)域圖像塊來(lái)完成目標(biāo)位置檢測(cè),分類(lèi)器的響應(yīng)為
(11)
式中:z為預(yù)測(cè)包含目標(biāo)的搜索窗口圖像塊;f(z)為檢測(cè)樣本z的響應(yīng)矩陣,響應(yīng)最大的位置即為目標(biāo)所在的位置。相比于傳統(tǒng)算法計(jì)算回歸解,利用離散傅里葉變換能夠?qū)⑺惴◤?fù)雜度從o(n3)有效降低到接近線(xiàn)性的o(nlgn),大大提高了算法效率。
跟蹤過(guò)程中,目標(biāo)易受遮擋、形變、復(fù)雜背景等影響,使用固定目標(biāo)模板不能穩(wěn)定地跟蹤目標(biāo),需及時(shí)對(duì)其進(jìn)行更新。核相關(guān)濾波器采用的模板更新方案為
αt+1=(1-γ)αt+γα
(12)
Xt+1=(1-γ)Xt+γX
(13)
式中:γ為學(xué)習(xí)率,采用固定值的γ來(lái)更新濾波器,難以處理復(fù)雜的目標(biāo)運(yùn)動(dòng)問(wèn)題。采用協(xié)方差矩陣之間距離的度量算法來(lái)分段調(diào)整學(xué)習(xí)率,該距離描述了兩個(gè)協(xié)方差矩陣之間的相似性,值越小表示兩個(gè)協(xié)方差矩陣越相似,反之,則表示其相似度越小。步驟為
步驟1 計(jì)算相鄰2幀圖像的協(xié)方差矩陣Ck-1和Ck。那么Ck-1和Ck之間的距離可以表示為
(14)
式中:{λi(Ck-1,Ck)}i=1,2,…,d表示Ck-1和Ck組成的特征方程的特征值。
步驟2 更新學(xué)習(xí)率γ。當(dāng)ρ≤3時(shí),表示相鄰2幀目標(biāo)圖像變化較小,可以設(shè)置較小的γ;當(dāng)3<ρ≤7時(shí),表示相鄰2幀目標(biāo)圖像變化適中,可以設(shè)置常規(guī)的γ;當(dāng)ρ>7時(shí),表示相鄰2幀目標(biāo)圖像相似度較小,可能遇到遮擋等情況,設(shè)置較大的γ。其更新學(xué)習(xí)率γ的方法為
(15)
所提算法流程如圖4所示,主要步驟為
1) 構(gòu)建自適應(yīng)深度網(wǎng)絡(luò)結(jié)構(gòu)。根據(jù)無(wú)人機(jī)圖像的特點(diǎn),利用MPCA降低圖像信息的冗余,實(shí)現(xiàn)數(shù)據(jù)預(yù)處理,并將預(yù)處理后的數(shù)據(jù)輸入到3階自適應(yīng)深度網(wǎng)絡(luò)中。
2) 網(wǎng)絡(luò)參數(shù)設(shè)計(jì)。利用對(duì)輸入圖像在H、S、I這3通道上進(jìn)行PCA處理后得到的特征向量組進(jìn)行分層卷積。
3) 網(wǎng)絡(luò)參數(shù)訓(xùn)練。利用跟蹤目標(biāo)的正、負(fù)樣本通過(guò)誤差反向傳播算法進(jìn)行網(wǎng)絡(luò)參數(shù)訓(xùn)練,訓(xùn)練好的網(wǎng)絡(luò)作為深度特征提取網(wǎng)絡(luò)。
圖4 所提算法流程圖Fig.4 Flow chart of proposed algorithm
4) 核相關(guān)濾波。將得到的深度特征輸入到相關(guān)濾波系統(tǒng),通過(guò)核相關(guān)濾波算法構(gòu)建濾波器,將響應(yīng)圖的峰值位置作為目標(biāo)的中心位置。
5) 模板更新。采用自適應(yīng)調(diào)整分類(lèi)器學(xué)習(xí)率進(jìn)行模板更新,適應(yīng)目標(biāo)表面特征的變化。
為驗(yàn)證自適應(yīng)MPCA-CNN的有效性,實(shí)驗(yàn)采用VOC2012數(shù)據(jù)集訓(xùn)練深度網(wǎng)絡(luò),VOC2012數(shù)據(jù)集是國(guó)際權(quán)威的圖像識(shí)別和物體分類(lèi)的數(shù)據(jù)集,包括20個(gè)類(lèi)別共17 125張彩色圖像。隨機(jī)選取該數(shù)據(jù)集中13 700張為訓(xùn)練集,3 425張為測(cè)試集。實(shí)驗(yàn)結(jié)果如表1所示。
仿真實(shí)驗(yàn)結(jié)果證明,通過(guò)MPCA-CNN進(jìn)行目標(biāo)特征提取時(shí),不但分類(lèi)效果好而且訓(xùn)練速度快。從表1中可以看出,該網(wǎng)絡(luò)的所有層卷積核均進(jìn)行MPCA初始化可以減少計(jì)算量,降低了網(wǎng)絡(luò)的訓(xùn)練時(shí)間,并且準(zhǔn)確率比隨機(jī)初始化提高了11.6%,經(jīng)過(guò)MPCA處理可以保留原圖像中的有用特征信息,說(shuō)明恰當(dāng)?shù)木W(wǎng)絡(luò)初始化可以促進(jìn)卷積神經(jīng)網(wǎng)絡(luò)更快地找到全局最優(yōu)解,在訓(xùn)練過(guò)程起到很重要的作用。
表1 MPCA-CNN訓(xùn)練模型效果比較Table 1 Comparison of MPCA-CNN training model effects
為驗(yàn)證本文算法的有效性,選取UAV123[17]數(shù)據(jù)集和UAV視頻數(shù)據(jù)集中的視頻序列作為測(cè)試數(shù)據(jù)集,對(duì)所提算法進(jìn)行測(cè)試,并與文獻(xiàn)中7種主流跟蹤算法進(jìn)行實(shí)驗(yàn)效果對(duì)比,包括Struck[3]、CNN-SVM[6]、FCNT[8]、CSK[11]、KCF[12]、互補(bǔ)跟蹤算法(Staple)[18]、空間正則化判別相關(guān)濾波(SRDCF)[19],其中Staple、SRDCF、KCF、CSK為基于相關(guān)濾波的跟蹤算法,CNN-SVM、FCNT為基于深度學(xué)習(xí)的跟蹤算法。這里使用了Car3、SUV、Bike1、Person15共4組無(wú)人機(jī)視頻序列進(jìn)行實(shí)驗(yàn)結(jié)果展示。
仿真實(shí)驗(yàn)中8種算法的部分跟蹤結(jié)果如圖5所示,其中不同的跟蹤算法用不同的顏色表示,紅色為本文算法,左上角數(shù)字為當(dāng)前圖像幀數(shù)。從以下4個(gè)方面對(duì)本文跟蹤算法進(jìn)行分析:
圖5 部分視頻仿真結(jié)果Fig.5 Partial results of video simulation
1) 目標(biāo)姿態(tài)變化。Car3、SUV和Bike1視頻序列中目標(biāo)發(fā)生了明顯的姿態(tài)變化。Car3的第462幀中,F(xiàn)CNT、Struck算法出現(xiàn)了明顯的偏移,而本文算法利用構(gòu)建的MPCA-CNN提取目標(biāo)深層次特征,提高了目標(biāo)外觀模型的魯棒性和精確性,使得跟蹤算法在無(wú)人機(jī)視頻中始終正確跟蹤目標(biāo)。
2) 目標(biāo)遮擋。Car3和SUV視頻中目標(biāo)在運(yùn)動(dòng)過(guò)程中被不同物體不同程度遮擋。SUV的第517幀遇到遮擋時(shí),SRDCF和FCNT算法發(fā)生了跟蹤漂移,而本文算法采用自適應(yīng)調(diào)整學(xué)習(xí)速率進(jìn)行模板更新,在跟蹤目標(biāo)發(fā)生遮擋時(shí)仍準(zhǔn)確跟蹤目標(biāo)。
3) 相似目標(biāo)。Bike1視頻序列中出現(xiàn)相似目標(biāo)。由于無(wú)人機(jī)目標(biāo)特征不明顯,且當(dāng)跟蹤目標(biāo)周?chē)霈F(xiàn)了相似目標(biāo)時(shí),CNN-SVM算法出現(xiàn)了明顯偏差,由于自適應(yīng)MPCA-CNN網(wǎng)絡(luò)能夠提取到比傳統(tǒng)CNN更深層次的目標(biāo)特征,使得本文跟蹤算法始終能準(zhǔn)確地跟蹤目標(biāo)。
4) 光照變化。Person15無(wú)人機(jī)視頻中目標(biāo)運(yùn)動(dòng)過(guò)程中光線(xiàn)的亮度變化使目標(biāo)的顏色、亮度等特征隨之改變,Staple、SRDCF和KCF算法均出現(xiàn)不同程度的跳動(dòng),由于本文算法使用多通道卷積特征減弱光照變化的影響,實(shí)現(xiàn)更準(zhǔn)確的目標(biāo)表征,實(shí)現(xiàn)穩(wěn)定跟蹤目標(biāo)。
針對(duì)上述4組視頻序列,采用中心位置誤差和覆蓋率2個(gè)評(píng)價(jià)指標(biāo)對(duì)算法進(jìn)行對(duì)比分析。中心位置誤差是指跟蹤結(jié)果中心點(diǎn)與真值中心點(diǎn)之間的歐氏距離。跟蹤結(jié)果的邊界窗口為rt,目標(biāo)窗口為ra,重疊率定義為S=|rt∩ra|/|rt∪ra|,當(dāng)t大于所給的閾值則表示當(dāng)前幀跟蹤成功。圖6為8種跟蹤算法在4組測(cè)試視頻中的中心位置誤差曲線(xiàn)。圖7為8種跟蹤算法在4組測(cè)試視頻中的覆蓋率曲線(xiàn)。
相比其他算法,本文算法的中心位置誤差始終保持在較低水平,在跟蹤過(guò)程中具有較好的跟蹤效果,如圖6所示。由圖7可以看出,本文算法在不同無(wú)人機(jī)視頻中始終保持了較高的覆蓋率,由此表明本文算法在不同的無(wú)人機(jī)測(cè)試視頻中都能保持較高的跟蹤精度,具有較好的跟蹤性能。
為了進(jìn)一步分析本文跟蹤算法的性能,與當(dāng)前主流的跟蹤算法在UAV123數(shù)據(jù)集上進(jìn)行仿真實(shí)驗(yàn)對(duì)比分析。采用跟蹤精確度和跟蹤成功率2個(gè)通用的評(píng)價(jià)指標(biāo)來(lái)進(jìn)行定量分析。跟蹤精確度(Precision)反映跟蹤得到的目標(biāo)中心位置和給定的實(shí)際目標(biāo)中心位置的距離小于給定的某個(gè)閾值的視頻幀數(shù)占總視頻幀數(shù)的比例,因此,隨著閾值的增大,精確度曲線(xiàn)不斷上升。跟蹤成功率(Success)反映跟蹤得到的目標(biāo)框和給定的實(shí)際目標(biāo)框的重疊程度大于給定閾值的視頻幀數(shù)占總視頻幀數(shù)的比例,因此,隨著對(duì)重疊程度的要求越高,即閾值越大,反而成功率曲線(xiàn)不斷下降。
圖6 中心位置誤差曲線(xiàn)Fig.6 Curves of enter position errors
圖7 覆蓋率曲線(xiàn)圖Fig.7 Coverage curves
圖8表示8種跟蹤算法對(duì)于UAV123數(shù)據(jù)集中所有視頻序列的整體跟蹤成功率曲線(xiàn)和精確度曲線(xiàn),其中圖例中括號(hào)中的數(shù)字分別表示中心位置誤差取值為20時(shí)對(duì)應(yīng)的跟蹤精確度和覆蓋率取值為0.5時(shí)對(duì)應(yīng)的跟蹤成功率。由圖8可以看出,本文算法的跟蹤精確度和成功率高于其他算法。在圖8(a)中,跟蹤精確度在中心位置誤差閾值為20像素時(shí),本文算法的跟蹤精確度高于同樣基于卷積特征跟蹤的CNN-SVM算法的4.36%。當(dāng)中心位置誤差小于20像素時(shí),本文算法的精確度值要高于其他算法,這說(shuō)明了在高精度約束條件下,本文算法的魯棒性更好。在圖8(b)中,本文算法比SRDCF跟蹤算法提高了9.79%。當(dāng)覆蓋率閾值處于中間范圍時(shí),本文算法的成功率高于其他對(duì)比算法,尤其是當(dāng)閾值處于0.3~0.6范圍內(nèi)時(shí),本文算法的成功率明顯高于SRDCF算法,在閾值大于0.8時(shí),本文算法的成功率略低,但也達(dá)到了次優(yōu)。由于本文算法能夠提取到目標(biāo)更深層次的特征,提高了跟蹤成功率。綜上所述,本文算法具有較好的跟蹤性能,滿(mǎn)足無(wú)人機(jī)平臺(tái)對(duì)目標(biāo)跟蹤算法的要求。
圖8 在UAV123數(shù)據(jù)集的精確度圖和成功率圖Fig.8 Accuracy maps and success rates in UAV123 data set
本文提出了一種基于自適應(yīng)深度網(wǎng)絡(luò)的無(wú)人機(jī)目標(biāo)跟蹤算法,主要貢獻(xiàn)為
1) 設(shè)計(jì)了一個(gè)3階MPCA-CNN自適應(yīng)卷積神經(jīng)網(wǎng)絡(luò),為了降低輸入的冗余性和加快網(wǎng)絡(luò)的學(xué)習(xí)速度,將MPCA作為深度網(wǎng)絡(luò)的第1層;并對(duì)圖像的H、S、I通道分別進(jìn)行主成分分析學(xué)習(xí),將得到的特征向量初始化各層卷積核,提取到的特征比傳統(tǒng)的卷積神經(jīng)網(wǎng)絡(luò)更有效地反映出目標(biāo)的特征信息,優(yōu)化了網(wǎng)絡(luò)結(jié)構(gòu),提高了網(wǎng)絡(luò)的收斂速度和精度。
2) 提出了一種根據(jù)視頻圖像的變化情況調(diào)整學(xué)習(xí)速率的算法,該算法通過(guò)分析相鄰2幀圖像的變化,采用分段自適應(yīng)調(diào)整學(xué)習(xí)率的算法,進(jìn)行目標(biāo)模板更新,相較于固定學(xué)習(xí)速率的跟蹤算法具有更強(qiáng)的魯棒性,可以有效地解決目標(biāo)遮擋等問(wèn)題。
3) 仿真實(shí)驗(yàn)結(jié)果表明,與7種主流跟蹤算法相比,該跟蹤算法具有較高的跟蹤精確度和跟蹤成功率,并且取得較低的中心位置誤差和較高的覆蓋率。但是該算法對(duì)于跟蹤目標(biāo)出現(xiàn)長(zhǎng)時(shí)間遮擋的情況時(shí),容易發(fā)生跟蹤漂移,若進(jìn)一步與目標(biāo)檢測(cè)算法結(jié)合,將會(huì)更好地解決目標(biāo)長(zhǎng)時(shí)間遮擋等問(wèn)題。