李 斌,李秀紅,艾斯卡爾·艾木都拉
〈圖像處理與仿真〉
基于超分辨率與在線檢測(cè)DSST的紅外小目標(biāo)跟蹤
李 斌,李秀紅,艾斯卡爾·艾木都拉
(新疆大學(xué) 信息科學(xué)與工程學(xué)院,新疆 烏魯木齊 830046)
紅外小目標(biāo)的相關(guān)研究在軍事領(lǐng)域的制導(dǎo)、預(yù)警和邊防間諜無(wú)人機(jī)檢測(cè)中極其重要。針對(duì)紅外小目標(biāo)的跟蹤研究,本文提出了一種基于超分辨率增強(qiáng)與在線檢測(cè)DSST(Discriminative Scale Space Tracker)的小目標(biāo)跟蹤算法。首先,基于融入紅外圖像特征的超分辨率重建算法對(duì)原始圖像進(jìn)行更新,增強(qiáng)了弱小目標(biāo),然后,增強(qiáng)的圖像被用作基于在線檢測(cè)DSST算法的輸入,得到響應(yīng)映射,估計(jì)目標(biāo)位置。實(shí)驗(yàn)結(jié)果表明,與幾種最新算法相比,該算法在準(zhǔn)確性方面表現(xiàn)出色。
小目標(biāo)跟蹤;超分辨率;DSST;在線檢測(cè)
紅外復(fù)雜場(chǎng)景下的小目標(biāo)跟蹤研究的意義極其重要。首先,在軍事領(lǐng)域的導(dǎo)彈防空預(yù)警、導(dǎo)彈精準(zhǔn)制導(dǎo)和海上漂浮地雷偵查中發(fā)揮了非常重要的作用[1]。其次,現(xiàn)如今由于輕量化的小型無(wú)人機(jī)的普遍使用,導(dǎo)致存在邊防間諜無(wú)人機(jī)的威脅與在敏感設(shè)施中未經(jīng)授權(quán)的無(wú)人機(jī)偵查偷拍的威脅,所以遠(yuǎn)距離跟蹤非法無(wú)人機(jī)至關(guān)重要。
傳統(tǒng)的紅外小目標(biāo)跟蹤方法主要可以分為3類:①基于模板匹配。此類算法通過框架之間的設(shè)計(jì)模板來(lái)測(cè)量相似度,以找到最相似的目標(biāo)。文獻(xiàn)[2]提出了聯(lián)合概率數(shù)據(jù)關(guān)聯(lián)法,通過使用聯(lián)合關(guān)聯(lián)概率估計(jì)目標(biāo)的狀態(tài)而獲得的顯著跟蹤改進(jìn)。文獻(xiàn)[3]提出了基于貝葉斯濾波的跟蹤算法,不受高斯或者線性相關(guān)的背景噪聲的限制,可以用于多種狀態(tài)的轉(zhuǎn)換與模型測(cè)量。②基于均值漂移。此類算法利用核加權(quán)灰度直方圖來(lái)表示目標(biāo)并通過均值平移法找到其位置。文獻(xiàn)[4]開發(fā)了一種在混亂環(huán)境中跟蹤多個(gè)目標(biāo)的算法,能夠啟動(dòng)跟蹤,解決虛假或丟失的報(bào)告以及處理相關(guān)報(bào)告集。文獻(xiàn)[5]同時(shí)收集包含目標(biāo)特征和背景噪聲的幀,以一種動(dòng)態(tài)編程算法最佳地檢測(cè)穿過傳感器視場(chǎng)的昏暗移動(dòng)目標(biāo)。③基于粒子濾波器。此類算法通過基于一組粒子計(jì)算后驗(yàn)概率密度來(lái)估計(jì)目標(biāo)狀態(tài)。文獻(xiàn)[6]提出了一種權(quán)重選擇方法,結(jié)合灰度特征和梯度特征建立了基于紅外圖像特征的觀測(cè)模型。文獻(xiàn)[7]提出的粒子濾波跟蹤算法使用了均值漂移方法使粒子向目標(biāo)區(qū)域移動(dòng),但是在稍微復(fù)雜一點(diǎn)的場(chǎng)景中就不穩(wěn)定。
本文提出了一種基于超分辨率增強(qiáng)與在線檢測(cè)DSST的小目標(biāo)跟蹤算法。首先,基于融入紅外圖像特征的超分辨率重建算法對(duì)原始圖像進(jìn)行更新,增強(qiáng)了弱小目標(biāo),隨后,增強(qiáng)的圖像被用作基于在線檢測(cè)DSST算法的輸入,得到響應(yīng)映射,估計(jì)目標(biāo)位置。
本文所提出的紅外小目標(biāo)跟蹤方案流程如圖1所示。
圖1 本文所提的小目標(biāo)跟蹤框架
常用的紅外圖像超分辨率處理可分為單幀與多幀。單幀處理的過程不需要多幀圖像,使用的場(chǎng)景比較多[8]。線性插值法常用于單幀處理中,可在短時(shí)間內(nèi)完成超分辨率處理,但是也會(huì)遺失圖像高頻信號(hào)[9]。不同于單一處理圖像若干特征的稀疏光流,稠密光流可以對(duì)圖像的像素點(diǎn)進(jìn)行逐一匹配,圖像的稠密計(jì)算可以使得圖像中的像素點(diǎn)的偏移量得以計(jì)算而累積為稠密光流場(chǎng)[10-11]。
局部特征描述子(Scale Invariant Feature Transform,SIFT)是一種穩(wěn)定的局部特征[12],其對(duì)于尺度的縮放、圖像的旋轉(zhuǎn)以及圖像亮度的轉(zhuǎn)變等可以維持特征不變。可以通過計(jì)算稠密度,對(duì)全局的像素點(diǎn)進(jìn)行SIFT特征的提取,計(jì)算其稠密度。計(jì)算全局像素點(diǎn)的SIFT特征而得到目標(biāo)軌跡流場(chǎng)=(,)。
設(shè)連續(xù)的前后兩幀的像素坐標(biāo)為,則連續(xù)的前后兩幀的特征可以表示為1()與2(),則位于坐標(biāo)點(diǎn)的流可以表示為()=((),())。其中()表示為水平流場(chǎng),()表示為垂直流場(chǎng)。
在特征匹配過程中,鄰域像素計(jì)算相似度匹配,需按局部特征向量1()與2()進(jìn)行,即需滿足:
而在實(shí)際情況中,流速2()+2()為相鄰幀像素速率,值不應(yīng)太大,即需要滿足:
此外,像素點(diǎn)的鄰近區(qū)域內(nèi)的像素具有類似的流向量,即滿足:
式中:、、為參數(shù)。綜上所述,特征流場(chǎng)的計(jì)算可以總結(jié)為:
()=()+()+() (6)
根據(jù)以上公式計(jì)算,得到對(duì)應(yīng)圖像之間的水平和垂直流場(chǎng)分別定義為H,V。
對(duì)紅外圖像進(jìn)行稠密計(jì)算,其水平流場(chǎng)與垂直流場(chǎng)可以表示相鄰圖像的局部特征的變化,對(duì)比鄰接的圖像幀,進(jìn)行高質(zhì)量、高精確度的匹配。融合圖像幀后可增強(qiáng)紅外圖像的分辨率。圖像融合步驟如下:
1)將連續(xù)3幀序列通過雙立方插值放大倍后輸出:BIR1、BIR2、BIR3;
2)計(jì)算BIR1、BIR2、BIR3的特征流場(chǎng),輸出對(duì)應(yīng)序列間的水平和垂直流場(chǎng):H21、V21、H23、V23
3)將BIR1、BIR3的像素坐標(biāo)映射在BIR2上對(duì)應(yīng)位置,輸出:BIRs1、BIRs3。
4)設(shè)(,)為BIR上的像素坐標(biāo);(,)為H21,V2上的矩陣數(shù)值的坐標(biāo);
計(jì)算:(,)=(+,+)
輸出BIR1的像素映射到BIR2時(shí)對(duì)應(yīng)的新坐標(biāo)(,)。
5)用雙線性插值法,將BIR1像素灰度值映射到新坐標(biāo)(,)上,輸出BIRs3,同理輸出BIRs3。
6)融合BIR2與其相似圖像BIRs1和BIRs3,輸出BIRs2。
7)利用中值法融合BIRs2、BIRs3和BIRs2:對(duì)比BIRs2、BIRs3和BIRs2的每個(gè)像素灰度數(shù)值,取中值輸出為融合結(jié)果圖像。
8)循環(huán)操作:計(jì)算流場(chǎng)、映射與融合,直至圖像收斂:
式中:BIR2(,)表示BIR2的新的像素灰度數(shù)值;BIR2(,)表示上一次迭代生成的BIR2的像素灰度數(shù)值;(>0)表示最大誤差值。
圖2(a1)與圖2(b1)為紅外原始數(shù)據(jù)圖像,圖2(a2)與圖2(b2)為本文的超分辨率方案處理后的效果圖,可以很直觀地看出效果比較好。
(a1) 原始圖像(a2) 處理后圖像 (a1) Original image(a2) Processed image (b1) 原始圖像(b2)處理后圖像 (b1) Original image(b2) Processed image
DSST是在MOSSE(Minimum Output Sum of Squared Error filter)[13]的基礎(chǔ)上衍生而來(lái)的,基于學(xué)習(xí)獲得位置的相關(guān)濾波,然后用此濾波器估計(jì)在下一幀圖像中目標(biāo)的坐標(biāo)。DSST可以分為兩個(gè)濾波器,第一個(gè)是位置濾波器,第二個(gè)是尺度濾波器。DSST利用判別相關(guān)濾波來(lái)估計(jì)坐標(biāo)。
由于相似性和相關(guān)性之間的正相關(guān)關(guān)系,相關(guān)濾波是用于測(cè)量?jī)蓚€(gè)信號(hào)的相似性的模式。將相關(guān)濾波應(yīng)用于跟蹤問題是基于這樣的思想,即當(dāng)將手工特征過濾到高維空間中時(shí),兩個(gè)連續(xù)幀之間的兩個(gè)相似對(duì)象可以高度相關(guān)。在第一幀中給出感興趣區(qū)域作為輸入,并對(duì)其進(jìn)行訓(xùn)練以獲得相應(yīng)的相關(guān)濾波。余弦窗函數(shù)和快速傅里葉變換(Fast Fourier transform,F(xiàn)FT)通過輸入信號(hào)執(zhí)行,然后乘以相關(guān)濾波以定位最大響應(yīng)點(diǎn)。最大響應(yīng)點(diǎn)的獲取過程表示如下:
式中:i是響應(yīng)輸出值;i是輸入圖像;?表示卷積操作;是過濾器模板。
公式(7)是一個(gè)費(fèi)時(shí)的卷積過程。因此,采用FFT將卷積操作更改為點(diǎn)乘法運(yùn)算,可以將其描述為:
()=(?)=()×()*(8)
式中:是傅里葉變換,“×”表示點(diǎn)乘法。公式可簡(jiǎn)單表述為:
=×*(9)
然后轉(zhuǎn)移視覺跟蹤任務(wù)以尋找最佳過濾器*:
*=/(10)
對(duì)于原始DSST,從給定的感興趣區(qū)域(Region of interest,ROI)中提取要跟蹤的特征,并對(duì)其進(jìn)行訓(xùn)練以獲得第一個(gè)輸入幀的相關(guān)濾波。然后,將FFT變換的輸出乘以相關(guān)濾波,以找到最大響應(yīng)點(diǎn)。DSST的最大瓶頸在于,應(yīng)不斷正確更新濾波器模板,以獲取每幀的最大輸出響應(yīng)。在沒有遮擋的情況下,最大化地將位置指向正確的目標(biāo),但是當(dāng)發(fā)生遮擋時(shí),跟蹤結(jié)果通常不理想,因?yàn)轫憫?yīng)圖被困在局部極值中。
文獻(xiàn)[14]提出了PN(P-expert & N-expert)學(xué)習(xí),通過一對(duì)“專家”來(lái)估計(jì)錯(cuò)誤:①P專家估計(jì)錯(cuò)過的檢測(cè),②N專家估計(jì)錯(cuò)誤警報(bào)。PN學(xué)習(xí)分為4個(gè)模塊:P-N experts、訓(xùn)練樣本、學(xué)習(xí)前分類器與監(jiān)督學(xué)習(xí)。PN學(xué)習(xí)在紅外圖像的每一幀中都會(huì)對(duì)檢測(cè)器進(jìn)行評(píng)估。估計(jì)的誤差增加了檢測(cè)器的訓(xùn)練集,并且對(duì)檢測(cè)器進(jìn)行重新訓(xùn)練以避免將來(lái)出現(xiàn)這些誤差。PN專家也自己犯錯(cuò),但如果專家錯(cuò)誤的可能性在一定范圍內(nèi),則錯(cuò)誤會(huì)相互補(bǔ)償,從而達(dá)到學(xué)習(xí)穩(wěn)定。PN學(xué)習(xí)利用有監(jiān)督訓(xùn)練進(jìn)行初始化,對(duì)每一幀紅外圖像都進(jìn)行以下操作:①對(duì)當(dāng)前幀評(píng)估檢測(cè)器;②使用PN專家估計(jì)檢測(cè)器錯(cuò)誤;③通過專家輸出的帶標(biāo)簽示例更新檢測(cè)器。在學(xué)習(xí)結(jié)束時(shí)獲得的檢測(cè)器稱為最終檢測(cè)器。
圖3(a)所示為紅外視頻序列的3個(gè)幀,其被掃描網(wǎng)格覆蓋。網(wǎng)格中的每個(gè)邊界框都定義了一個(gè)圖像塊,其標(biāo)簽在圖3(b)和圖3(c)中用實(shí)心圓點(diǎn)表示。每個(gè)基于掃描窗口的檢測(cè)器都將補(bǔ)丁視為獨(dú)立補(bǔ)丁。因此,有2單個(gè)框架中可能的標(biāo)簽組合,其中是網(wǎng)格中邊界框的數(shù)量。圖3(b)所示為這樣的標(biāo)記。標(biāo)簽表明對(duì)象出現(xiàn)在單個(gè)幀中的多個(gè)位置,并且運(yùn)動(dòng)中沒有時(shí)間上的連續(xù)性。這樣的標(biāo)簽不太可能是正確的。另一方面,如果檢測(cè)器輸出圖3(c)所示的結(jié)果,則標(biāo)記是合理的,因?yàn)閷?duì)象出現(xiàn)在每一幀的一個(gè)位置,并且檢測(cè)到的位置會(huì)及時(shí)建立軌跡。換句話說,補(bǔ)丁的標(biāo)簽是相關(guān)的,這種屬性稱為結(jié)構(gòu)。本文采用思想為利用數(shù)據(jù)中的結(jié)構(gòu)來(lái)識(shí)別檢測(cè)器錯(cuò)誤。
PN學(xué)習(xí)中的P專家使用紅外圖像序列中的時(shí)間信息結(jié)構(gòu),并且假定目標(biāo)沿著軌跡進(jìn)行運(yùn)動(dòng),且會(huì)記錄目標(biāo)在上一幀中的坐標(biāo),使用圖像幀之間的跟蹤器預(yù)測(cè)當(dāng)前圖像幀中小目標(biāo)的位置。如果檢測(cè)結(jié)果否定了當(dāng)前坐標(biāo),即產(chǎn)生錯(cuò)誤的否定錯(cuò)誤,則P專家會(huì)生成肯定的示例。
PN學(xué)習(xí)中的N專家使用紅外圖像序列中的空間信息結(jié)構(gòu),并且估計(jì)目標(biāo)大概率能出現(xiàn)的單個(gè)坐標(biāo)位置。N專家通過計(jì)算將當(dāng)前幀中檢測(cè)器產(chǎn)生的響應(yīng)與跟蹤器產(chǎn)生的響應(yīng)進(jìn)行對(duì)比分析,得出最佳的響應(yīng)。然后與最大置信度色標(biāo)不重疊的色標(biāo)被標(biāo)記為負(fù)色。最可能的像素補(bǔ)丁區(qū)域會(huì)重新初始化為跟蹤器的位置。
(a)序列(b) 標(biāo)簽(c) 軌跡 (a) Sequence(b) Labeling(c) Track
盡管快速DSST可以成功解決視覺跟蹤問題,但在紅外小目標(biāo)圖像中在空間上跟蹤隱蔽目標(biāo)的性能仍然不令人滿意,當(dāng)發(fā)生遮擋時(shí),快速DSST將無(wú)法連續(xù)跟蹤。這是用于估計(jì)二維圖像空間中的三維位置的病態(tài)問題。物體外觀的遮擋和變形通常在動(dòng)態(tài)背景下發(fā)生,在動(dòng)態(tài)背景下,運(yùn)動(dòng)目標(biāo)和相機(jī)之間存在相對(duì)運(yùn)動(dòng),DSST的跟蹤效果在沒有遮擋的情況下令人滿意,而在發(fā)生遮擋時(shí)完全失去了跟蹤目標(biāo)。
魯棒的跟蹤方案需要在跟蹤過程中發(fā)生丟失目標(biāo)的現(xiàn)象時(shí)進(jìn)行重新檢測(cè),不同于一些公開成型的跟蹤器,在每一幀上進(jìn)行重新檢測(cè),本文使用一個(gè)閾值r激活檢測(cè)器,如果max(s)<r則激活。為了提高計(jì)算效率,本文采用PN學(xué)習(xí)作為檢測(cè)器。
采用短期反遮擋策略來(lái)確定目標(biāo)是否通過高斯響應(yīng)圖被遮擋。最大值對(duì)應(yīng)的位置最大限度響應(yīng)圖的目標(biāo)是目標(biāo)的新位置。當(dāng)被遮擋的目標(biāo)出現(xiàn)時(shí),響應(yīng)圖會(huì)劇烈振蕩。當(dāng)前幀的響應(yīng)輸出與響應(yīng)圖的最大值之間的差異可以用作標(biāo)準(zhǔn)。
本文提出的紅外小目標(biāo)跟蹤算法改進(jìn)的地方為:在DSST跟蹤算法的框架加上在線檢測(cè)機(jī)制,SVM(Support Vector Machine)分類器計(jì)算出置信度(響應(yīng)值)最高的圖,SVM可看為閾值組件。然后導(dǎo)入在線PN學(xué)習(xí)進(jìn)行在線訓(xùn)練與學(xué)習(xí),進(jìn)行重檢測(cè)。圖4所示即為融合在線學(xué)習(xí)的DSST的框架。
相關(guān)跟蹤:平移跟蹤(HOG(Histogram of Oriented Gradient)特征)→尺度跟蹤(21個(gè)尺度HOG特征),對(duì)于尺度跟蹤的響應(yīng),如果最大響應(yīng)值小于重檢測(cè)閾值,跟蹤失敗,調(diào)用detector全圖重檢測(cè)。
重檢測(cè)閾值THre_dector從前3幀的目標(biāo)響應(yīng)值中計(jì)算,如式(12)所示:
式中:IR表示第幀所有候選樣本中的最大響應(yīng)值,IR表示相鄰的前3幀最大的目標(biāo)響應(yīng)值的標(biāo)準(zhǔn)差。
在線檢測(cè):將歷次檢測(cè)到的結(jié)果resize到15×15,特征:gray特征成功跟蹤到的樣本為正樣本,跟蹤失敗為負(fù)樣本。全局檢測(cè),當(dāng)最大響應(yīng)值大于重跟蹤閾值,檢測(cè)成功,重新跟蹤。
本文所有實(shí)驗(yàn)均通過Python3.5在配備Intel(R) Core(TM) i7-8700 CPU @ 3.20GHz CPU,NVIDIA GeForce GT 730和16 GB內(nèi)存的計(jì)算機(jī)上執(zhí)行。
本文實(shí)驗(yàn)采用數(shù)據(jù)集為收集于網(wǎng)絡(luò)的視頻進(jìn)行標(biāo)注而獲得,如表1所示。在Seq.1中,云的邊緣非常強(qiáng),以至于昏暗目標(biāo)的SNR(Signal-Noise Ratio)低于1.5。此外,目標(biāo)會(huì)在背景邊緣移動(dòng)數(shù)十幅圖像,序列長(zhǎng)度為429幀。在Seq.2中,目標(biāo)運(yùn)動(dòng)相對(duì)來(lái)說是不穩(wěn)定的,是由固定相機(jī)拍攝的。它的大小從5×5像素到6×6像素變化。在Seq.4中,手動(dòng)添加了一個(gè)小的目標(biāo),其大小設(shè)置為2×2像素。此外,目標(biāo)經(jīng)歷雜亂的背景,并以較大的瞬時(shí)速度(即每幀8個(gè)像素)以曲線形式移動(dòng)。序列包含300幀。在Seq.5中,空間背景下的暗淡目標(biāo)出現(xiàn)在開始時(shí)的右上角,并遵循向下的對(duì)角線路徑。此外,圖像序列中還會(huì)出現(xiàn)一些假物體。該序列總長(zhǎng)349幀。在Seq.6中,昏暗目標(biāo)的性質(zhì)與在Seq.5中相同。唯一的區(qū)別是Seq.4包含移動(dòng)的云,其移動(dòng)速度比Seq.3中的移動(dòng)速度快。
為了評(píng)估本文所提出的跟蹤算法的性能,使用單次通過評(píng)估(One-Pass Evaluation,OPE)作為評(píng)估協(xié)議。OPE有兩個(gè)部分,分別稱為精確率圖和成功率圖。成功率圖(success plot)是標(biāo)注的跟蹤框和跟蹤的跟蹤框之間的重疊程度,如式(13),其中t和0分別為標(biāo)注的目標(biāo)框和跟蹤的目標(biāo)框的矩陣框。
本文對(duì)比實(shí)驗(yàn)是在公開評(píng)測(cè)框架Visual Tracker Benchmark下完成的,本文算法與幾種比較常見的算法進(jìn)行比較:CT(Compressive Tracking)、IVT(Incremental Visual Tracking)、DFT(Distribution Fields for Tracking)、ASLA(AdaptiveStructuralLocalsparseAppearancemodeltracking)、L1APG(L1 tracker using Accelerated Proximal Gradient approach)、ORIA(Online Robust Image Alignment)、DSST(Discriminative Scale Space Tracking)、CSK(Circulant Structure Kernel)、LOT(Locally Orderless Tracking)。本文算法在對(duì)比實(shí)驗(yàn)中標(biāo)注為SRDSST(Super-Resolution DSST)。
圖4 融合在線學(xué)習(xí)的DSST
表1 實(shí)驗(yàn)數(shù)據(jù)集
圖5分別顯示了不同算法在紅外小目標(biāo)數(shù)據(jù)集上檢測(cè)的實(shí)時(shí)結(jié)果,其中正紅色框(箭頭所指示)為本文算法的跟蹤效果。圖6顯示了本文整理的紅外小目標(biāo)運(yùn)動(dòng)數(shù)據(jù)集中所有圖像序列的精確率圖和成功率圖。
可以直觀地從圖5中看出本文所提出的基于超分辨率與在線檢測(cè)DSST的紅外小目標(biāo)跟蹤方案對(duì)于紅外圖像下小目標(biāo)的有效跟蹤,一些常見的算法都表現(xiàn)出目標(biāo)跟蹤丟失的現(xiàn)象。圖5(a)系列與圖5(c)系列直觀看出CSK算法在Seq.1與Seq.6數(shù)據(jù)集中,一開始就表現(xiàn)出尺度估計(jì)錯(cuò)誤且目標(biāo)丟失的情況。
圖5 跟蹤結(jié)果
圖6 精確率和成功率