梁華剛 高冬梅 龐麗琴
(長(zhǎng)安大學(xué)電子與控制工程學(xué)院 西安 710064)
目標(biāo)跟蹤在計(jì)算機(jī)視覺(jué),視頻監(jiān)控等領(lǐng)域都有重要作用。而目標(biāo)的特征對(duì)于目標(biāo)跟蹤來(lái)說(shuō)又至關(guān)重要[10~11]。2013年Naiyan Wang等發(fā)表了Understanding and Diagnosing Visual Tracking Systems[1],作者提出了一個(gè)框架來(lái)判斷跟蹤系統(tǒng)好壞,并得出一個(gè)重要結(jié)論:目標(biāo)提取的特征在追蹤系統(tǒng)中是最重要的。傳統(tǒng)核相關(guān)濾波目標(biāo)跟蹤算法通過(guò)提取圖像一般特征對(duì)目標(biāo)進(jìn)行跟蹤,當(dāng)目標(biāo)發(fā)生遮擋快速等形變時(shí),算法跟蹤性能逐漸降低。近年來(lái),基于深度學(xué)習(xí)的相關(guān)算法通過(guò)提取圖像的深度特征,使算法在圖像處理以及語(yǔ)音識(shí)別等方面有很高的效率。因此,將神經(jīng)網(wǎng)絡(luò)應(yīng)用到核相關(guān)濾波目標(biāo)跟蹤的特征提取中來(lái),進(jìn)而結(jié)合高效的核相關(guān)濾波計(jì)算[6~7],對(duì)于提高目標(biāo)跟蹤算法的精確度和快速性有很大的幫助。
Naiyan Wang在NIPS2013提出的Learning a Deep Compact Image Representation for Visual Tracking(DLT)[2]網(wǎng)絡(luò)第一個(gè)把深度學(xué)習(xí)模型應(yīng)用于目標(biāo)跟蹤之上,作者提出了“離線(xiàn)預(yù)訓(xùn)練+在線(xiàn)微調(diào)”的思路,很大程度地解決了跟蹤中訓(xùn)練樣本不足的問(wèn)題,但是算法雖然使用了4層的深度模型,效果仍低于一些使用人工特征的傳統(tǒng)跟蹤方法如Struck。2015年Martin Danelljan在KCF基礎(chǔ)上用深度卷積網(wǎng)絡(luò)提取特征的Convolutional Features for Correlation Filter Based Visual Tracking(Deep-SRDCF)[3],但 是 速 度 不 到 4fps。 2016 年 David Held提出Learning to Track at 100 FPS with Deep Regression Networks(GOTURN)[4]直接用了離線(xiàn)訓(xùn)練+在線(xiàn)跟蹤的方案,將速度直接提高到了100fps,但是跟蹤準(zhǔn)確度比KCF和相關(guān)濾波等傳統(tǒng)跟蹤模型要差。
針對(duì)上述問(wèn)題,本文將卷積神經(jīng)網(wǎng)絡(luò)與改進(jìn)核相關(guān)濾波目標(biāo)跟蹤算法相結(jié)合,形成一種特征魯棒性的,跟蹤速率也滿(mǎn)足實(shí)時(shí)性要求的目標(biāo)跟蹤算法。
VGGNet由牛津大學(xué)的視覺(jué)幾何組(Visual Geometry Group)提出,是ILSVRC-2014中定位任務(wù)第一名和分類(lèi)任務(wù)第二名。網(wǎng)絡(luò)輸入大小為224*224的RGB圖像,經(jīng)過(guò)一系列卷積層處理。在卷積層中使用了非常小的感受野(receptive field)3*3,甚至有的地方使用1*1的卷積。卷積步長(zhǎng)(stride)設(shè)置為1個(gè)像素,3*3卷積層的填充(padding)設(shè)置為1個(gè)像素。池化層采用max-pooling,共有5層,在一部分卷積層后,max-pooling的窗口是2*2,步長(zhǎng)是2。一系列卷積層之后跟著全連接層。并以此構(gòu)建了深度為11~19層的卷積神經(jīng)網(wǎng)絡(luò)。所有隱藏層都使用ReLu,本文主要采用VGG16來(lái)提取目標(biāo)特征。
相關(guān)濾波通過(guò)引入循環(huán)矩陣解決了樣本不足的問(wèn)題,其次利用核函數(shù)將回歸計(jì)算映射到核空間,把時(shí)域內(nèi)的卷積運(yùn)算變換到頻域內(nèi)乘積運(yùn)算,大大減少了運(yùn)算量[12~13]。
正則化最小二乘分類(lèi)器模型因其具有訓(xùn)練速度較快,實(shí)現(xiàn)簡(jiǎn)單等特點(diǎn),所以常被使用在一些實(shí)際問(wèn)題中。它的訓(xùn)練目標(biāo)就是用樣本x訓(xùn)練出一個(gè)如下 f(x)[5]:
使得正則化風(fēng)險(xiǎn)最小:
λ是正則化項(xiàng)參數(shù),用來(lái)控制過(guò)擬合。
當(dāng)樣本特征在原始空間不可分時(shí),Henriques等通過(guò)引入嶺回歸和循環(huán)矩陣將相關(guān)濾波器通過(guò)核技巧將特征值映射到更高維的空間中,使它在高維空間線(xiàn)性可分。因此基于核的正則化最小二乘法給出嶺回歸的閉式解為
K為核矩陣,I為單位矩陣,向量 y的元素為 yi,向量a的元素為ai。結(jié)合上式可得:
這樣,訓(xùn)練分類(lèi)器的過(guò)程從尋找最優(yōu)的w轉(zhuǎn)化成尋找最優(yōu)的a。
對(duì)于輸入的圖像塊Z,核相關(guān)濾波響應(yīng)為
對(duì)Z同樣進(jìn)行循環(huán)移位得到大量候選樣本集Pi-1Z。KZ為訓(xùn)練樣本和所有候選圖像塊的核,由酉不變核函數(shù)定理可知KZ為循環(huán)矩陣,且
Kxz為Kz矩陣的第一行,因此可計(jì)算出圖像Z在所有候選區(qū)域的目標(biāo)概率分 f(z)。
f(z)的取值表示所有候選區(qū)域成為跟蹤目標(biāo)的概率值,則它的最大值元素所對(duì)應(yīng)的區(qū)域?yàn)槟繕?biāo)區(qū)域。
本文利用VGGNet的卷積層提取目標(biāo)特征,再將提取的特征與核相關(guān)濾波相結(jié)合。我們使用MatConvNet庫(kù)和VLFeat庫(kù)來(lái)實(shí)現(xiàn)VGGNet網(wǎng)絡(luò)特征提取及特征提取可視化過(guò)程。
特征提取部分主要目的是利用VGGNet網(wǎng)絡(luò)提取輸入圖像的特征圖,因?yàn)楸疚闹焕闷溥M(jìn)行特征提取,所以只采用了前面卷積層,不包括池化層POOL5以及其后的三個(gè)全連接層FC6、FC7、FC8。為了直觀展示特征提取網(wǎng)絡(luò)每一層提取到的特征圖,本文用vl_imarraysc函數(shù)特征提取過(guò)程進(jìn)行可視化處理。輸入網(wǎng)絡(luò)的原始圖片以及部分提取出的特征圖如圖1所示。
由圖1可以發(fā)現(xiàn),卷積層提取圖像深度特征時(shí),低層提取的卷積特征具有較多細(xì)節(jié)信息,可以幫助算法對(duì)目標(biāo)進(jìn)行精確定位,越往后卷積層可視化越模糊,雖然越深網(wǎng)絡(luò)輸出卷積特征具有較多的語(yǔ)義信息,但是這并不適用于目標(biāo)精確定位。因此,本文通過(guò)實(shí)驗(yàn)對(duì)比選取前4層卷積特征輸出對(duì)相關(guān)濾波器進(jìn)行訓(xùn)練。
圖1 提取輸入圖像HOG特征、RGB特征、深度特征
通過(guò)4層卷積層特征進(jìn)行訓(xùn)練,會(huì)得到4個(gè)相關(guān)濾波器,本文使用權(quán)重加權(quán)方式結(jié)合不同卷積層特征輸出,在第四層先求得響應(yīng)圖譜中最大值,然后加入回歸權(quán)重,再逐層傳遞到低層的響應(yīng)圖中。
傳統(tǒng)的CF跟蹤算法是用嶺回歸做分類(lèi),A0是所有循環(huán)平移圖像塊后構(gòu)成的循環(huán)矩陣:
改進(jìn)后框架在上式加入了更多的背景信息[8],將上式改為
式(9)中Ai為對(duì)應(yīng)目標(biāo)上下文塊構(gòu)成的循環(huán)矩陣,使它們回歸到0。
在VGG-Net卷積層中,每一卷積層可以提取出目標(biāo)高維特征X,X大小為M×N×L,M和N表示提取特征的寬和高,L表示特征的維度。將X進(jìn)行循環(huán)移位得到大量訓(xùn)練樣本,用高斯分布函數(shù)來(lái)求得每個(gè)訓(xùn)練樣本對(duì)應(yīng)的高斯分布標(biāo)簽y。將訓(xùn)練樣本和標(biāo)簽作為輸入再變換到頻域內(nèi),學(xué)習(xí)得到相關(guān)濾波器W,通過(guò)結(jié)合式(9)可求得W如下:
式中W是回歸參數(shù),上式對(duì)最小二乘求解可得到參數(shù)的目標(biāo)函數(shù),這個(gè)函數(shù)對(duì)應(yīng)著濾波模板。使用卷積層特征訓(xùn)練濾波器,再將其進(jìn)行離散傅立葉處理,之后將濾波器變換到頻域。則濾波器在頻域的表達(dá)式為
使用上式得到濾波器表達(dá)式對(duì)圖像進(jìn)行濾波操作,響應(yīng)值按下式計(jì)算:
實(shí)驗(yàn)通過(guò)下載fast-rcnn-vgg16-pascal07-dagnn.mat模型并在卷積神經(jīng)網(wǎng)絡(luò)工具箱matconvnet下進(jìn)行實(shí)驗(yàn),算法采用Matlab 2014a編程,試驗(yàn)硬件環(huán)境Inter Core i 5-2450M CPU和GTX1070,電腦內(nèi)存配置為4.00GB和32GB。實(shí)驗(yàn)中所有用到的視頻都從 0TB-50[14]和 0TB-100 Sequences[14]里統(tǒng)一下載。
為了定性定量地分析本文算法的性能,文中使用跟蹤速率、精確度作為實(shí)驗(yàn)評(píng)價(jià)標(biāo)準(zhǔn)[9]。
表1 試驗(yàn)所選視頻及其主要挑戰(zhàn)
表2 算法在測(cè)試視頻上的跟蹤速率
表3 算法在測(cè)試視頻上的跟蹤精確度
由上表可以看出,提取目標(biāo)傳統(tǒng)HOG以及RGB顏色特征時(shí),當(dāng)目標(biāo)存在一定光照,尺度影響時(shí),算法的跟蹤準(zhǔn)確率較低,但是當(dāng)提取目標(biāo)深度特征時(shí),算法整體跟蹤精確度較高,準(zhǔn)確度達(dá)到90.5%,并且跟蹤速率也達(dá)到實(shí)時(shí)效果。
圖2 提取RGB、HOG+RGB以及深度特征時(shí)算法精確度圖
圖2 從上至下分別展示提取HOG特征、HOG+RGB特征以及深度特征時(shí),算法整體在選取6組視頻上的精確度對(duì)比圖,由圖中可以看出,提取圖像深度特征對(duì)目標(biāo)進(jìn)行跟蹤時(shí),算法具有較強(qiáng)的魯棒性,跟蹤精確度較高。
本文提出深度學(xué)習(xí)的核相關(guān)濾波目標(biāo)跟蹤算法,通過(guò)VGGNet提取目標(biāo)的深度特征并結(jié)合核相關(guān)濾波檢測(cè)算法,使目標(biāo)發(fā)生遮擋、快速運(yùn)動(dòng)等時(shí),算法魯棒性更強(qiáng),達(dá)到改進(jìn)目的。