王 志,陳 平,潘晉孝
(中北大學(xué) 信息探測與處理山西省重點(diǎn)實(shí)驗室, 太原 030051)
自然界的一切圖像都是連續(xù)變化的模擬圖像,通常圖像里某些特定的目標(biāo)才是我們比較關(guān)心的,例如在車水馬龍的大街上,如何在車流中判別是否有你想要找的那個車輛,并且能精準(zhǔn)地找出車輛的位置;又如在軍事行動過程中,某些軍事武器(如坦克、戰(zhàn)斗機(jī)等)的識別和檢測對于軍事信息掌握是十分關(guān)鍵的。因此,在自然圖像中識別出特定的目標(biāo)對于安防監(jiān)控、軍事目標(biāo)定位、航空航天導(dǎo)航都有著重大的意義[1-4]。但是在自然圖像的采集過程中很容易受到自然環(huán)境或人為因素的影響產(chǎn)生較為復(fù)雜的背景,例如光照變化、局部遮擋、目標(biāo)尺度變化等,使得要檢測的目標(biāo)發(fā)生形狀、外觀上的變化,從而加大了檢測難度。因此,復(fù)雜背景下的目標(biāo)檢測成為了近年來理論和應(yīng)用的研究熱點(diǎn),它的目的是將目標(biāo)從連續(xù)變化的模擬圖像中快速、準(zhǔn)確地識別與定位出來。
針對此問題,人們最開始使用淺層圖像特征學(xué)習(xí)方法,如尺度不變特征變換(SIFT)[5]和方向梯度直方圖(HOG)[6]等。通過精巧的設(shè)計以及量化、池化、歸一化等操作,使得這一類特征對于光照、角度、尺度的變化具有了一定的不變性,可以更好地展示一些形狀變化較小的圖像。但是由于手工設(shè)計的特征描述子沒有高層語義的抽象能力,直觀地說就是這種特征的近似性與圖像內(nèi)容在人的理解中的相似性并不吻合。之后,J.R.R.Uijlings等[7]提出基于選擇性搜索算法(selective search)的目標(biāo)檢測方法,將窮舉搜索和分割相結(jié)合,針對圖像中的目標(biāo)具有不同形狀、尺寸、顏色、紋理的多樣化特點(diǎn),采用了區(qū)域(region)合并的方法,得到目標(biāo)的定位區(qū)域,然后采用支持向量機(jī)(support vector machine,SVM)對得到的區(qū)域進(jìn)行分類,從而完成對目標(biāo)的檢測。該方法是基于區(qū)域合并的,區(qū)域包含的信息比像素豐富,更能有效代表目標(biāo)的特征。此后基于區(qū)域合并的檢測方法越來越受到歡迎。2006年Geoffrey Hinton等[8]在《Science》上首次提出了深度學(xué)習(xí)的概念,并且在2012年與Krizhevsky等[9]利用GPU實(shí)現(xiàn)了一個深度神經(jīng)網(wǎng)絡(luò),在ImageNet[10]的比賽中取得了創(chuàng)紀(jì)錄的結(jié)果。近年來,Ross Girshick與何凱明、任少卿等[11-13]將基于區(qū)域合并算法與深度卷積神經(jīng)網(wǎng)絡(luò)相結(jié)合,提出了一系列的目標(biāo)檢測方法,如R-CNN[11]、Fast-RCNN[12]、Faster-RCNN[13],他們通過不斷優(yōu)化和改進(jìn)卷積神經(jīng)網(wǎng)絡(luò)的結(jié)構(gòu)使得檢測精度逐步提高,在VOC2007數(shù)據(jù)集上,其檢測精度從最初的66.0%[11]提高到68.1%[12],最后到73.2%[13]。除了檢測精度的提高之外,在檢測速度上也有了很大的提升。
本文針對傳統(tǒng)模式識別方法對復(fù)雜場景下目標(biāo)檢測精度難以達(dá)到實(shí)際應(yīng)用要求的問題,采用目前較為先進(jìn)的深度卷積神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu),通過其具有的局部連接、權(quán)值共享及池化操作等功能,有效降低了網(wǎng)絡(luò)的復(fù)雜度,減少了訓(xùn)練參數(shù)的數(shù)目,使模型對平移、扭曲、縮放具有一定程度的不變性,并具有強(qiáng)魯棒性和容錯能力,且也易于訓(xùn)練和優(yōu)化網(wǎng)絡(luò)結(jié)構(gòu)。試驗驗證結(jié)果表明:基于深度學(xué)習(xí)算法的CNN結(jié)構(gòu)可以對復(fù)雜背景下的目標(biāo)進(jìn)行較精確的定位和識別,在基于互聯(lián)網(wǎng)數(shù)據(jù)庫上檢測準(zhǔn)確率達(dá)到82.6%。目標(biāo)檢測總體框架如圖1所示。此研究對復(fù)雜場景下的多目標(biāo)檢測技術(shù)具有重要的理論意義和實(shí)際應(yīng)用價值。
構(gòu)建一個深度卷積神經(jīng)網(wǎng)絡(luò)實(shí)現(xiàn)區(qū)域生成,并使得它與檢測網(wǎng)絡(luò)共享卷積層計算。CNN網(wǎng)絡(luò)結(jié)構(gòu)如圖2所示。
圖1 目標(biāo)檢測總體框架
圖2 CNN網(wǎng)絡(luò)結(jié)構(gòu)
對于輸入的任意尺寸的圖像,首先采用區(qū)域生成網(wǎng)絡(luò)(region proposal network,RPN)對輸入圖像進(jìn)行特征提取,并對所有可能的候選窗(candidate window)進(jìn)行篩選。對于每一個提取出的特征圖像,可以看作是一個尺度為51×39的256通道圖像。對于該圖像的每一個位置,采用9種尺度的候選窗:3種面積{128×128,256×256,512×512}×3種比例{1∶1,1∶2,2∶1}。接下來對于已提取的候選窗口進(jìn)行分類和位置精修。分類層(cls_score)輸出每一個位置上9種候選窗屬于前景和背景的概率;窗口回歸層(bbox_pred)輸出每個位置上9種候選窗對應(yīng)的窗口平移縮放的參數(shù)。
在訓(xùn)練RPN時,為每個候選窗指定二值的類標(biāo)記(是目標(biāo)或者不是目標(biāo))。對于滿足以下兩種情況之一的候選窗指定它為正樣本:① 與某個標(biāo)注框有最大重疊比的1個或若干個候選窗;② 與任一標(biāo)注框的交除并重疊比大于0.7。值得注意的是,單一標(biāo)注框可能會被標(biāo)記為多個候選窗的正樣本。為了提高召回率(recall),增加了第1條規(guī)則,因為在某些圖片上,只用第2條規(guī)則不能產(chǎn)生正樣本。與所有標(biāo)記框的交除并重疊比都小于0.3的候選窗被標(biāo)記為負(fù)樣本。既沒有被標(biāo)記為正樣本也沒有被標(biāo)記為負(fù)樣本的在訓(xùn)練過程中不會對目標(biāo)函數(shù)產(chǎn)生影響。
在這些正/負(fù)樣本的定義基礎(chǔ)上,訓(xùn)練模型最小化多任務(wù)損失函數(shù)。對于一張圖片的損失函數(shù)定義為
(1)
(2)
采用4階段交替訓(xùn)練的方法來交替優(yōu)化共享特征。首先訓(xùn)練RPN。這一步為ImageNet數(shù)據(jù)集上預(yù)訓(xùn)練的網(wǎng)絡(luò)初始化,并端到端地微調(diào)區(qū)域生成任務(wù)。然后用構(gòu)建的卷積神經(jīng)網(wǎng)絡(luò)及第1步產(chǎn)生的區(qū)域來獨(dú)立訓(xùn)練檢測網(wǎng)絡(luò)。這一步中,網(wǎng)絡(luò)也由ImageNet預(yù)訓(xùn)練進(jìn)行網(wǎng)絡(luò)初始化。至此,2個網(wǎng)絡(luò)并沒有共享卷積層。第3步利用第2步得到的檢測網(wǎng)絡(luò)初始化RPN的訓(xùn)練,并且固定所有共享的卷積層,只微調(diào)RPN獨(dú)有的參數(shù)層。這樣2個網(wǎng)絡(luò)就可以共享卷積層了。最后保持共享的卷積層不變,微調(diào)檢測網(wǎng)絡(luò)獨(dú)有的層。經(jīng)過這樣4步,2個網(wǎng)絡(luò)就可以共享卷積層,并可以被合并為1個統(tǒng)一的網(wǎng)絡(luò)進(jìn)行測試。
由于在軍事行動中,地面行駛的坦克為了提高其戰(zhàn)場生存能力,會采用迷彩偽裝或者用綠色植被做大量的遮擋,使其與環(huán)境融為一體,并且野外環(huán)境錯綜復(fù)雜,加大了對坦克目標(biāo)的檢測難度,所以實(shí)際軍事行動中的坦克圖像符合復(fù)雜背景要求,因此在百度圖片數(shù)據(jù)庫中下載大量坦克圖片構(gòu)建了復(fù)雜背景圖像數(shù)據(jù)集。數(shù)據(jù)集包括訓(xùn)練圖像和檢測圖像。每幅圖像的分辨率為500像素×375像素。隨機(jī)選取數(shù)據(jù)集中的2/3作為訓(xùn)練圖像、1/3作為檢測圖像。對每一副訓(xùn)練圖像進(jìn)行了人工標(biāo)記,標(biāo)記格式與PASCAL VOC數(shù)據(jù)集[15-19]的格式相同。圖3為數(shù)據(jù)集的部分圖像展示。
數(shù)據(jù)集經(jīng)過CNN網(wǎng)絡(luò)進(jìn)行訓(xùn)練,采用的試驗環(huán)境為64位win7系統(tǒng),并配置Quadro M4000顯卡(8G),使用Matlab軟件編程,調(diào)用Caffe深度學(xué)習(xí)平臺[12]實(shí)現(xiàn)網(wǎng)絡(luò)各層級之前的連接與運(yùn)算。訓(xùn)練完成后將數(shù)據(jù)集中檢測圖像輸入模型,對坦克(tank)、炮筒(paotong)、履帶(lvdai)3類精細(xì)結(jié)構(gòu)進(jìn)行識別與定位,輸出為目標(biāo)的類別、定位框及其置信度。圖4展示了部分圖像檢測結(jié)果。
圖3 數(shù)據(jù)集部分圖像展示
圖4 坦克不同部位(坦克、炮筒、履帶)的檢測結(jié)果
該模型對坦克、炮筒、履帶的檢測精度(mAP)見表1。
表1 目標(biāo)檢測精度
%
類別坦克炮筒履帶平均檢測精度(mAP)檢測精度98.883.565.582.6
為了不與訓(xùn)練圖像重復(fù),使用相機(jī)拍攝的模型坦克圖像作為測試圖像輸入訓(xùn)練CNN后得到的圖像進(jìn)行檢測。首先對單目標(biāo)圖像進(jìn)行檢測,檢測結(jié)果見圖5。
圖5 單目標(biāo)圖像檢測結(jié)果
由圖5可得到:在圖5(a)(b)遮擋較少的情況下,可以將炮筒、履帶檢測出來,并且定位準(zhǔn)確;隨著遮擋范圍逐漸增加,檢測精度不可避免會相應(yīng)下降,但是在遮擋超過70%時(圖5(c)),其置信度高于0.6,并且對目標(biāo)的定位準(zhǔn)確。
媽媽們要記住對癥治療,合理使用抗生素,濫用抗生素沒用的。病毒是蛋白質(zhì)外殼包裹的一段DNA或RNA核酸分子,沒有細(xì)胞結(jié)構(gòu),抗生素對病毒沒有任何作用,抗生素不能解決所有問題,還會造成更多的麻煩。抗生素主要用于細(xì)菌感染,某些品種可用于真菌、支原體、衣原體、立克次體或原蟲等病原微生物感染。單純的病毒感染、非感染所致的發(fā)熱,不應(yīng)選用抗生素。
在實(shí)際軍事行動中,大多情況下需要對多個目標(biāo)進(jìn)行檢測。相比于單目標(biāo)的情況,由于目標(biāo)增多其檢測難度更大,對于檢測精度要求更高,所以在特征提取階段,將RPN網(wǎng)絡(luò)的所有卷積核大小由7×7調(diào)整為3×3,提取更加精細(xì)的特征。與單目標(biāo)檢測相同,對有不同程度遮擋的目標(biāo)進(jìn)行試驗,結(jié)果見圖6。
圖6 多目標(biāo)圖像檢測結(jié)果
由圖6可得:在遮擋較少的情況下(圖6(a)(b)),坦克的各個精細(xì)結(jié)構(gòu)都可檢測并且得到準(zhǔn)確定位,其置信度都在0.8以上,滿足檢測要求;在遮擋超過70%時(圖5(c)),對于人眼幾乎難以分辨的目標(biāo),其置信度也會高于0.6,并且能對目標(biāo)準(zhǔn)確定位??梢奀NN模型有較強(qiáng)的魯棒性。
為了進(jìn)一步對模型的魯棒性進(jìn)行檢測,將目標(biāo)數(shù)量增加,檢測結(jié)果見圖7。
圖7 增加目標(biāo)數(shù)量后的檢測結(jié)果
由圖7可得:對于更多的檢測目標(biāo),該模型同樣能準(zhǔn)確地將目標(biāo)檢測出來,具有強(qiáng)的魯棒性。與目前較先進(jìn)的目標(biāo)檢測方法進(jìn)行比較,結(jié)果見表2。
表2 2種方法檢測精度結(jié)果比較 %
本文提出了一種基于深度學(xué)習(xí)算法的深度卷積神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)對復(fù)雜背景下的目標(biāo)進(jìn)行檢測的方法。針對復(fù)雜背景下的目標(biāo)有不同程度的遮擋和偽裝使其難以識別的問題,應(yīng)用CNN可提取圖像精細(xì)特征、可自主學(xué)習(xí)的特點(diǎn),實(shí)現(xiàn)了對目標(biāo)進(jìn)行準(zhǔn)確定位和識別的功能?;诨ヂ?lián)網(wǎng)數(shù)據(jù)庫進(jìn)行試驗驗證,結(jié)果表明:該方法在目標(biāo)遮擋嚴(yán)重的情況下仍具有較高的有效性和魯棒性,平均檢測精度達(dá)到82.6%,較傳統(tǒng)模式識別方法的檢測精度有了較大提高。隨著計算機(jī)處理器的發(fā)展,深度學(xué)習(xí)在圖像處理和目標(biāo)檢測等領(lǐng)域?qū)@得更為廣闊的應(yīng)用和實(shí)踐。
參考文獻(xiàn):
[1] 吳益紅,許鋼,江娟娟,等.基于LBP和SVM的工件圖像特征識別研究[J].重慶理工大學(xué)學(xué)報(自然科學(xué)),2016,30(1):77-84.
[2] 雍歧衛(wèi),喻言家.基于無人機(jī)巡線圖像的地面油氣管道識別方法[J].兵器裝備工程學(xué)報,2017,38(4):100-104.
[4] 王燕霞,張弓.基于特征參數(shù)稀疏表示的SAR圖像目標(biāo)識別[J].重慶郵電大學(xué)學(xué)報(自然科學(xué)版),2012,24(3):308-313.
[5] 聶海濤,龍科慧,馬軍,等.采用改進(jìn)尺度不變特征變換在多變背景下實(shí)現(xiàn)快速目標(biāo)識別[J].光學(xué)精密工程,2015( 8):2349-2356.
[6] 周柯.基于HOG特征的圖像人體檢測技術(shù)的研究與實(shí)現(xiàn)[D].武漢:華中科技大學(xué),2008.
[7] UIJLINGS J R R,KEAVD S,GEVERS T,et al.Selective Search for Object Recognition[J].International Journal of Computer Vision,2013,104(2):154-171.
[8] HINTON G E,SALAKHUTDINOV R R.Reducing the Dimensionality of Data with Neural Networks [J].Science,2006,313(5786):504-507.
[9] KRIZHEVSKY A,SUTSKEVER I,HINTON G E.ImageNet classification with deep convolutional neural networks[C]//International Conference on Neural Information Processing Systems.Curran Associates Inc.2012:1097-1105.
[10] RUSSAKOVSKY O,DENG J,SU H,et al.ImageNet Large Scale Visual Recognition Challenge[J].International Journal of Computer Vision,2015,115(3):211-252.
[11] GIRSHICK R,DONAHUE J,DARRELL T,et al.Region-Based Convolutional Networks for Accurate Object Detection and Segmentation[J].IEEE Transactions on Pattern Analysis & Machine Intelligence,2016,38(1):142-158.
[12] GIRSHICK R.Fast R-CNN[C]//IEEE International Conference on Computer Vision.USA:IEEE Computer Society,2015:1440-1448.
[13] REN S,HE K,GIRSHICK R,et al.Faster R-CNN:Towards Real-Time Object Detection with Region Proposal Networks[J].IEEE Transactions on Pattern Analysis & Machine Intelligence,2015,39(6):1137-1151.
[14] GIRSHICK R,DONAHUE J,DARREll T,et al.Rich Feature Hierarchies for Accurate Object Detection and Semantic Segmentation[C]//Computer Vision and Pattern Recognition.2014:580-587.
[15] EVERINGHAM M,GOOL L V,WILLIAMS C K I,et al.The Pascal Visual Object Classes (VOC) Challenge[J].International Journal of Computer Vision,2010,88(2):303-338.
[16] JIA,Yangqing.Caffe:Convolutional Architecture for Fast Feature Embedding[J].Eprint Arxiv,2014(6):675-678.