沈陽理工大學(xué)信息科學(xué)與工程學(xué)院 中國科學(xué)院沈陽自動(dòng)化研究所機(jī)器人學(xué)國家重點(diǎn)實(shí)驗(yàn)室 秦麗娟
沈陽理工大學(xué)信息科學(xué)與工程學(xué)院 蔣玉玲
在計(jì)算機(jī)視覺的領(lǐng)域中,深度學(xué)習(xí)的技術(shù)應(yīng)用得越來越廣泛,基于深度學(xué)習(xí)行人跟蹤在計(jì)算機(jī)視覺領(lǐng)域中具有重要的研究?jī)r(jià)值。近年來,大量的研究在基于孿生神經(jīng)網(wǎng)絡(luò)在目標(biāo)跟蹤領(lǐng)域的研究成為重點(diǎn)。
在科研領(lǐng)域中,計(jì)算機(jī)視覺是其研究的重點(diǎn)領(lǐng)域,隨著科學(xué)的進(jìn)步,計(jì)算機(jī)視覺追蹤被應(yīng)用非常廣泛,如企業(yè)、軍事和自動(dòng)駕駛等對(duì)目標(biāo)的準(zhǔn)確追蹤有越來越高的要求。近幾年,目標(biāo)跟蹤算法是根據(jù)相關(guān)的濾波框架進(jìn)行應(yīng)用,手動(dòng)提取的目標(biāo)的物體的特點(diǎn)和在頻域中計(jì)算,然后得出相應(yīng)的響應(yīng)圖,得到最大的頻域響應(yīng)值處作為預(yù)測(cè)的目標(biāo)出行人的位置,目標(biāo)跟蹤算法的幀率較高、穩(wěn)定性強(qiáng)。隨著深度學(xué)習(xí)的發(fā)展,手工特征逐漸被相關(guān)濾波代替,有的跟蹤算法使用深度學(xué)習(xí)中端到端的框架進(jìn)行目標(biāo)行人的跟蹤。在對(duì)目標(biāo)進(jìn)行跟蹤的過程中,跟蹤算法能夠提煉出圖像中的完整信息,較大幅度的增加了跟蹤算法的成功率和準(zhǔn)確率。
在對(duì)目標(biāo)行人進(jìn)行跟蹤的過程中,由于光線的變化,被行人或者物體遮擋等影響,所以需要對(duì)目標(biāo)行人的位置進(jìn)行準(zhǔn)確的預(yù)測(cè),來對(duì)目標(biāo)行人進(jìn)行跟蹤。本文采用SiamFc孿生網(wǎng)絡(luò)搭建出的目標(biāo)跟蹤框架,采用相似性判別網(wǎng)絡(luò),并在視頻幀搜索的區(qū)域中找出和目標(biāo)行人最為相符的位置,來對(duì)行人進(jìn)行位置進(jìn)行預(yù)測(cè)跟蹤。
相似性度量,是綜合評(píng)定兩個(gè)事物之間相似程度的一種度量。兩個(gè)事物中的相像程度,作為計(jì)算機(jī)視覺領(lǐng)域中的要點(diǎn),在其他的許多研究中如機(jī)器學(xué)習(xí)的SVM、K鄰近與K均值等算法,都應(yīng)用到了相似性距離。而視覺領(lǐng)域中的很多方面都可以等都應(yīng)用到了相似性度量的問題,例如圖像檢索、行人識(shí)別等。
目前使用最多的距離測(cè)量方法包括閔可夫斯基距離、歐式距離與曼哈頓距離。歐氏距離如式(1)所示,曼哈頓距離如式(2)所示,閔可夫斯基距離如式(3)所示。
孿生網(wǎng)絡(luò)近年頻繁的使用在相似性度量的方法中,特別是當(dāng)物體的種類比較多時(shí),同類別的物體樣本數(shù)量相對(duì)很少的情況下能夠?qū)ξ矬w進(jìn)行較為精確的分辨。孿生網(wǎng)絡(luò)的結(jié)構(gòu)如圖1所示。
圖1 孿生網(wǎng)絡(luò)結(jié)構(gòu)圖
孿生網(wǎng)絡(luò)結(jié)構(gòu)利用一個(gè)函數(shù)把輸入映射到特征空間,在特征空間中使用對(duì)應(yīng)的測(cè)量方法進(jìn)行距離的相似性度量,這里所需的函數(shù)被卷積神經(jīng)網(wǎng)絡(luò)來替代。兩個(gè)卷積神經(jīng)網(wǎng)絡(luò)的結(jié)構(gòu)相同,并且共享權(quán)值W,在訓(xùn)練此網(wǎng)絡(luò)時(shí),將其輸入理解為一個(gè)圖片對(duì),表示為(X1,X2,Y),式中的X1與和X2表示的是一對(duì)圖片,Y表示圖片對(duì)是否為同一個(gè)類別,當(dāng)Y=0表示同類。訓(xùn)練用的損失函數(shù):
其中N表示的是樣本對(duì)的數(shù)量,L+表示相同類別圖片對(duì)的損失函數(shù),L-表示不同類別圖片對(duì)的損失函數(shù)。將L+設(shè)計(jì)成單點(diǎn)遞增函數(shù),L-設(shè)計(jì)成單調(diào)遞減函數(shù),這個(gè)操作就能在最小化損失函數(shù)增加不同圖片對(duì)的能量的同時(shí),也減少相同圖片對(duì)的能量。孿生網(wǎng)絡(luò)淡化了數(shù)據(jù)標(biāo)簽的概念,這樣就讓網(wǎng)絡(luò)有了更高的延展性,可以把訓(xùn)練的數(shù)據(jù)集進(jìn)行分類,這樣就增加了訓(xùn)練的數(shù)據(jù)集的容量,這樣一來,深度神經(jīng)網(wǎng)絡(luò)可以用來訓(xùn)練數(shù)據(jù)量較少的數(shù)據(jù)集。
圖2 孿生網(wǎng)絡(luò)跟蹤框架圖
圖3 注意力機(jī)制跟蹤結(jié)果圖
表1 對(duì)比的實(shí)驗(yàn)數(shù)據(jù)結(jié)果
孿生網(wǎng)絡(luò)是由兩個(gè)組織結(jié)構(gòu)相同的,并且參數(shù)是共享的卷積神經(jīng)網(wǎng)絡(luò)組成,將需要跟蹤目標(biāo)檢測(cè)圖片和模板圖片輸入卷積神經(jīng)網(wǎng)絡(luò)中,這對(duì)圖片里有兩種圖像,分別是跟蹤目標(biāo)的模板和搜索區(qū)域,提取出圖片對(duì)的圖像特點(diǎn)后,通過兩個(gè)注意力機(jī)制來對(duì)提取得到的特征圖進(jìn)行處理,然后結(jié)合注意力機(jī)制的得到的處理結(jié)果,再對(duì)搜索區(qū)域的特征圖進(jìn)行濾波獲得響應(yīng)圖,最大響應(yīng)值會(huì)出現(xiàn)在兩者最相似的地方,當(dāng)前跟蹤的目標(biāo)位置就映射出搜索區(qū)域的坐標(biāo)位置。兩種注意力機(jī)制分別是殘差注意力機(jī)制和通道注意力機(jī)制。如圖2所示。
本文在孿生網(wǎng)絡(luò)跟蹤框架上做實(shí)驗(yàn),測(cè)試用的數(shù)據(jù)集是VOT2015,只加入殘差注意力機(jī)制,只加入通道注意力機(jī)制和加入兩種注意力機(jī)制,實(shí)驗(yàn)結(jié)果對(duì)比如圖3所示。
通過圖3可以得出,將各個(gè)注意力機(jī)制分別加入跟蹤框架中,跟蹤的準(zhǔn)確率與跟蹤的成功率都有所增加,當(dāng)兩種注意力機(jī)制都加入時(shí),不管是成功率還是準(zhǔn)確率都提升最高。本文也與其他的跟蹤算法做了對(duì)比,對(duì)比的實(shí)驗(yàn)數(shù)據(jù)結(jié)果如表1所示。
結(jié)論:深度學(xué)習(xí)在近年來應(yīng)用很廣泛,比如家庭的視頻監(jiān)控,車輛自動(dòng)行駛等領(lǐng)域。由于深度神經(jīng)網(wǎng)絡(luò)的模型具有很強(qiáng)的特征表征能力和泛化能力,在對(duì)目標(biāo)進(jìn)行跟蹤應(yīng)用越來越多。本文中,在孿生網(wǎng)絡(luò)跟蹤框架中加入注意力機(jī)制后,跟蹤的準(zhǔn)確率,成功率都有很大的提高,當(dāng)把兩種注意力機(jī)制一起放入跟蹤框架中時(shí),跟蹤的效果最好。