王玥 李麗 黃政
摘 ?要:在軍事領(lǐng)域和日常生活中存在大量帶有光學(xué)鏡頭的光電制導(dǎo)武器以及光電設(shè)備,激光照射到光學(xué)鏡頭上時會出現(xiàn)“貓眼效應(yīng)”,現(xiàn)有的傳統(tǒng)方法采用經(jīng)典數(shù)字圖像處理過程對“貓眼”目標(biāo)進(jìn)行識別,主要采用主被動圖像相減后得到的差分圖像對其進(jìn)行濾波以及設(shè)定灰度閾值來識別目標(biāo),此類方法對于復(fù)雜環(huán)境以及光強(qiáng)近似的偽目標(biāo)來說傳統(tǒng)方法的虛報警率較高。因此本論文提出一種基于深度學(xué)習(xí)的“貓眼”效應(yīng)目標(biāo)檢測網(wǎng)絡(luò)——CE-SSD,此算法參考了相比于YOLO網(wǎng)絡(luò)對較小目標(biāo)探測的準(zhǔn)確率更高、速度更快的SSD網(wǎng)絡(luò),并對SSD目標(biāo)檢測網(wǎng)絡(luò)的改進(jìn)。首先將淺層特征圖進(jìn)行融合以提高對“貓眼”類小目標(biāo)的識別精度;然后采用K-means聚類方法根據(jù)真實框大小產(chǎn)生預(yù)選框;最后去除對小目標(biāo)檢測作用極小的后三個卷積層并修改不同特征圖中包含的anchor數(shù)量來精簡網(wǎng)絡(luò)算法。為了驗證本文所提出算法的效果,創(chuàng)建了“貓眼”目標(biāo)數(shù)據(jù)集,在此數(shù)據(jù)集上CE-SSD網(wǎng)絡(luò)對于“貓眼”目標(biāo)有較高的準(zhǔn)確率和較低的虛報警率,mAP較SSD提高了2.7%,精確度提高1.1%,召回率提高6%。
關(guān)鍵詞:“貓眼”效應(yīng);卷積神經(jīng)網(wǎng)絡(luò);深度學(xué)習(xí);目標(biāo)檢測
引言
隨著光電偵查、光通信技術(shù)的大力發(fā)展,出現(xiàn)了大量光電制導(dǎo)武器以及光電設(shè)備,越來越多設(shè)備上帶有光學(xué)鏡頭,為了能夠準(zhǔn)確識別這類目標(biāo),產(chǎn)生了多種機(jī)制的光電對抗系統(tǒng),其中較為常用的對抗系統(tǒng)是激光成像探測系統(tǒng)[1],當(dāng)激光照射到光學(xué)鏡頭上時會產(chǎn)生“貓眼”效應(yīng),此對抗系統(tǒng)對狙擊鏡、偷拍設(shè)備等光學(xué)鏡頭產(chǎn)生的“貓眼”效應(yīng)目標(biāo)進(jìn)行識別。
“貓眼”效應(yīng)是指當(dāng)激光照射到狙擊鏡、望遠(yuǎn)鏡、測距儀等光學(xué)鏡頭后,經(jīng)過透鏡的會聚和反射元件的反射,會產(chǎn)生強(qiáng)度比一般漫反射目標(biāo)的光強(qiáng)高2~4個數(shù)量級的反射光。就像黑夜中的貓咪的眼睛一樣炯炯發(fā)亮,因此得名“貓眼”效應(yīng)?,F(xiàn)有的傳統(tǒng)方法包括基于壓縮感知的“貓眼”效應(yīng)目標(biāo)識別算法[2]、基于形狀和頻率雙重判據(jù)的“貓眼”效應(yīng)目標(biāo)識別方法(SFDC)[3]、基于視覺注意機(jī)制的“貓眼”效應(yīng)目標(biāo)識別算法[4],此類方法目標(biāo)識別率低、虛警概率高,在動態(tài)復(fù)雜環(huán)境下不能夠?qū)嚐?、走動的行人等偽目?biāo)進(jìn)行有效的區(qū)分,對于光強(qiáng)近似或較高、形狀對稱的偽目標(biāo)不能很好的排除。
本文針對狙擊頭、望遠(yuǎn)鏡、夜視儀所產(chǎn)生的“貓眼”效應(yīng)目標(biāo),使用深度學(xué)習(xí)目標(biāo)識別的方法進(jìn)行研究。近幾年深度學(xué)習(xí)目標(biāo)檢測算法取得了巨大的突破。其中包括多階段檢測的經(jīng)典算法R-CNN[5],F(xiàn)ast R-CNN[6],F(xiàn)aster R-CNN[7]以及一階段檢測算法YOLO[8]和SSD[9]等。SSD算法吸收了YOLO速度快和RPN定位精準(zhǔn)的優(yōu)點,采用了RPN中產(chǎn)生多種不同比例大小的預(yù)選框的思想,并進(jìn)一步提出在多個分辨率的特征圖上進(jìn)行檢測。
本文參考目前速度、識別準(zhǔn)確率都較高的SSD網(wǎng)絡(luò),提出一種基于SSD的改進(jìn)算法CE-SSD(“Cat-Eye” Effect Object Single Shot Multi Box Detector)作為“貓眼”目標(biāo)的識別算法,針對“貓眼”類目標(biāo)對SSD網(wǎng)絡(luò)結(jié)構(gòu)進(jìn)行優(yōu)化和改進(jìn),首先將用于分類以及位置回歸的特征層進(jìn)行融合以提高對“貓眼”類小目標(biāo)的識別精度,通過SSD的特征圖可視化選擇適合“貓眼”效應(yīng)目標(biāo)感受野的卷積層進(jìn)行融合;然后采用K-means聚類方法根據(jù)標(biāo)注真實框(Ground Truth box)大小產(chǎn)生預(yù)選框的初始大小尺寸,將聚類得到兩組新的Anchor代替SSD中固定的min_size和max_size,從而得到更加貼近真實框的預(yù)選框;最后去除對小目標(biāo)檢測作用極小的后三個卷積層來精簡網(wǎng)絡(luò)算法,在不影響識別準(zhǔn)確率的情況下減少冗余,實驗在自行創(chuàng)建的“貓眼”效應(yīng)目標(biāo)數(shù)據(jù)集上進(jìn)行訓(xùn)練和測試。
1 實驗內(nèi)容
1.1 卷積層融合方法
通過對神經(jīng)網(wǎng)絡(luò)的學(xué)習(xí),可以發(fā)現(xiàn)較低層級的特征語義信息比較少,但是能夠給定目標(biāo)的準(zhǔn)確位置;較高層級的特征語義信息比較豐富,但是對于目標(biāo)位置的判斷比較模糊。由于小尺寸的目標(biāo)多用較低層級的Anchor來訓(xùn)練,但是底層級的特征缺乏語義信息,可是如果只考慮語義信息用較高層級進(jìn)行識別,“貓眼”目標(biāo)尺寸過小與較大的Anchor無法匹配,沒有辦法將其準(zhǔn)確檢測出來,所以本文利用加權(quán)梯度類激活映射(Grad-CAM)[10]方法將SSD中用于分類和回歸的卷積層進(jìn)行可視化來了解網(wǎng)絡(luò)中不同卷積層所關(guān)注的內(nèi)容有何不同。對于小目標(biāo)的識別Con4-3層和Con5_3層是最合適的,選擇Conv4_3和Conv5_3進(jìn)行融合來得到上下文信息,從而同時兼顧語義信息和目標(biāo)位置的精度。
融合流程:首先對Conv5_3采用最近鄰插值方法進(jìn)行上采樣,得到與Con4_3的相同大小的特征圖,然后將Conv4_3和上采樣后的Conv5_3用3×3大小的卷積核提取特征使后續(xù)能夠更好的融合。在將它們沿著通道軸進(jìn)行融合之前,使用BN(Batch Normalization)層進(jìn)行歸一化。最后將Conv5_3橫向拼接在Conv4_3后面,用1×1×512的卷積核對特征重結(jié)合并降維成38×38×512大小的特征層作為最終的融合層。此過程針對小目標(biāo)具有較高的檢測精度。需要說明的是“貓眼”目標(biāo)都是小目標(biāo),較深層級對目標(biāo)檢測作用很小,為了檢測速度,不考慮將后面的卷積層進(jìn)行融合。
1.2 K-means聚類生成預(yù)選框
本文中主要識別目標(biāo)的大小在10-50像素之間,需要針對“貓眼”小目標(biāo)重新計算預(yù)選框,K-means聚類的目的是使預(yù)選框和臨近真實框有更大的IOU,從而得到更好的IOU分?jǐn)?shù),K-means聚類首先需要明確距離的計算公式,一般情況下是使用歐氏距離,由于是以標(biāo)注好的真實框與聚類框(Cluster box)的IOU最大為目地,所以以公式1來計算距離:
公式1中GT_box代表真實框,Cluster_box代表聚類框;每個聚類框與真實框的IOU越大越好,而聚類到簇的距離越小越好,所以使用 最為距離度量公式。需要說明由于Anchor的中心位置是根據(jù)特征圖網(wǎng)格確定的,在計算IOU時將兩者中心點的x,y設(shè)置為相同坐標(biāo),所以使用K-means計算時Cluster_box只需要設(shè)置初始長和寬,不需要設(shè)置目標(biāo)類別和中心坐標(biāo)。
1.3 網(wǎng)絡(luò)簡化
將SSD中用于分類和位置回歸的卷積層減少到三個,去除Conv9_2,Conv10_2,Conv11_2,并對Anchor_ratios進(jìn)行調(diào)整,SSD中預(yù)選框的生成以特征圖網(wǎng)格為中心,通過K-means聚類方法生成的Anchor_size按照Anchor_ratios生成的不同長寬比的預(yù)選框,其中Anchor_ratios={1,2,1/2,3,1/3,1’},將每個卷積層對應(yīng)使用Anchor_ratios的Num={4,6,6,6,4,4} 改為為Num={4,6,4},即將Conv4_3和Conv7層的Anchor_ratios保留,Conv8_2只采用{2,1/2}一種比例生成預(yù)選框。在不減少精確度的情況下去除SSD中對“貓眼”目標(biāo)檢測無用的卷積層從而減少冗余,提高檢測速度,F(xiàn)PS小幅度提高。
1.4 CE-SSD網(wǎng)絡(luò)結(jié)構(gòu)
本文提出CE-SSD網(wǎng)絡(luò)結(jié)構(gòu)“貓眼”目標(biāo)識別算法,網(wǎng)絡(luò)輸入圖像大小為300×300,首先通過VGG-16的Conv1_2,Conv2_2,Conv3_3對圖像進(jìn)行特征提取,然后通過K-means聚類方法生成Anchor,然后將Conv4_3與Conv5_3進(jìn)行融合得到38×38的特征圖、Conv7的19x19特征圖、Conv8_2的10x10特征圖同時進(jìn)行Softmax分類和邊框定位。公式2為Loss函數(shù)數(shù)學(xué)表達(dá)式,其中Loss函數(shù)分為兩部分,一部分是邊框定位的損失函數(shù) ,一部分是置信度得分的損失函數(shù) ?,其中c置信度,l為預(yù)測框,g為真值框。
2 實驗結(jié)果及分析
2.1 數(shù)據(jù)集
由于現(xiàn)在并沒有開源的“貓眼”目標(biāo)數(shù)據(jù)集,所以本實驗室共同創(chuàng)建了“貓眼”目標(biāo)數(shù)據(jù)集,我們使用設(shè)備進(jìn)行視頻拍攝,需要盡可能模擬狙擊、偷拍的真實場景,為了使背景多樣化,拍攝場景包括室內(nèi),灌木從,草地,街道、窗戶、房頂、湖邊等數(shù)十個場景,拍攝時間為從白天到黑天不同時段,拍攝環(huán)境為逆光、順光、庇蔭處等。為了使目標(biāo)大小多樣化,拍攝距離從二十至三百米不等,拍攝共四十段短視頻,通過視頻編輯工具將其中帶有“貓眼”目標(biāo)的視頻幀保存為圖像篩選,圖像大小為480×608,最終選擇600張圖片作為“貓眼”目標(biāo)數(shù)據(jù)集并對其標(biāo)注,標(biāo)注后按照8:2隨機(jī)將數(shù)據(jù)集分為訓(xùn)練集497張和測試集103張。
2.2 模型測試
測試階段首先對于每個預(yù)測框,根據(jù)類別置信度確定其類別與置信度值,并過濾掉屬于背景的預(yù)測框,然后根據(jù)置信度閾值(如0.5)過濾掉閾值較低的預(yù)測框,最后通過非極大值抑制NMS算法,過濾掉那些重疊度較大的預(yù)測框。最后剩余的預(yù)測框為檢測結(jié)果。對測試集103張圖片進(jìn)行檢測,原SSD與CE-SDD進(jìn)行精確度(Precision)與召回率(Recall)的對比,可以發(fā)現(xiàn)虛報警率有0.3%小幅提升,但漏檢大大減少,召回率提高6%,對測試集中大多數(shù)目標(biāo)都能正確檢測。
為了驗證加入融合和K-means聚類方法的有效性,采用平均精度均值mAP指標(biāo)對原本SSD、加入融合后的Fusion_SSD以及CE-SSD進(jìn)行對比,對比結(jié)果如表3,可以看到CE-SSD相比原SSD的mAP增加了2.7%,有顯著提升,可以看到Fusion_SSD的加入是非常必要的, 相比SSD增加了4.2%,mAP增加了1.2%。
3 實驗結(jié)論及貢獻(xiàn)
3.1 實驗結(jié)論
“貓眼”目標(biāo)的檢測在軍事和生活中都有重要意義,本文參考SSD網(wǎng)絡(luò),提出了基于深度學(xué)習(xí)的針對“貓眼”效應(yīng)目標(biāo)的檢測網(wǎng)絡(luò)——CE-SSD,首先探究對SSD網(wǎng)絡(luò)不同卷積層對“貓眼”效應(yīng)目標(biāo)的關(guān)注程度,將適合檢測“貓眼”目標(biāo)的特征層進(jìn)行融合以提高對此類小目標(biāo)的識別精度;然后采用K-means聚類方法根據(jù)真值標(biāo)注框大小產(chǎn)生預(yù)選框的初始尺寸以提高檢測精度;最后去除對小目標(biāo)檢測作用極小的后三個卷積層并修改不層級中包含的Anchor數(shù)量來精簡優(yōu)化網(wǎng)絡(luò)算法。同時創(chuàng)建“貓眼”效應(yīng)目標(biāo)數(shù)據(jù)集,在此數(shù)據(jù)集上進(jìn)行模型訓(xùn)練和檢測,并將CE-SSD網(wǎng)絡(luò)與原版SSD檢測網(wǎng)絡(luò)進(jìn)行對比實驗,mAP提高了2.7%,精確度提高0.3%,召回率提高6%。本文所提出的方法對“貓眼”目標(biāo)檢測效果較好,但是沒有考慮速度,如果要作為實時檢測網(wǎng)絡(luò)還有待提高檢測速度。
參考文獻(xiàn)
[1] ?張超凡.“貓眼效應(yīng)”在激光主動探測中的實現(xiàn)[J]. 計量與測試技術(shù),2007,34(11).
[2] ?黨二升,李麗. 激光探測“貓眼”效應(yīng)目標(biāo)識別算法[J]. 航空科學(xué)技術(shù). 2011,6(59).
[3] ?Ximing Ren,Li Li.Recognizing “cat-eye” targets with dual criterions of shape and modulation frequency [J]. CHINESE OPTICS LETTERS,2011,9(1).
[4] ?Li Li,Jianlin Ren,Xingbin Wang Fast cat-eye effect target recognition based on saliency extraction[J].Optics Communications 350(2015)33–39.
[5] ?Wang X,Shrivastava A,Gupta A.A-Fast-RCNN:Hard positive generation via adversary for object detection[C]// Proceedings of CVPR 2017,2017.
[6] ?GIRSHICK R. Fast R-CNN / / Proc of the IEEE International Conference on Computer Vision. Washington,USA:IEEE,2015:1440-1448.
[7] ?REN S Q,HE K M,Girshick R B,et al. Faster R-CNN:Towards Real-Time Object Detection with Region Proposal Networks. IEEE Transactions on Pattern Analysis and Machine Intelligence,2017,39(6):1137-1149.
[8] ?REDMON J,DIVVALA S,GIRSHICK R,et al. You Only Look Once:Unified,Real-Time Object Detection / / Proc of the IEEE Conference on Computer Vision and Pattern Recognition. Washington,USA:IEEE,2016:779-788.
[9] ?LIU W,ANGUELOV D,ERHAN D,et al. SSD:Single Shot Multibox Detector / / Proc of the 14th European Conference on Computer Vision. New York,USA:Springer,2016,I:21-37.
[10] ?Selvaraju R R,Cogswell M,Das A,et al. Grad-cam:Visual explanations from deep networks via gradient-based localization[C]//Proceedings of the IEEE International Conference on Computer Vision. 2017:618-626.
作者簡介:王玥:女,1995 8 2,北京,漢族,北京航空航天大學(xué),碩士,研究方向:圖像處理。