程秋菊, 陳國平, 王 璐, 管 春
(重慶郵電大學(xué)光電工程學(xué)院,重慶 400065)
近年來,機(jī)場(chǎng)和車站等重要公共場(chǎng)所的安全問題變得越來越重要。傳統(tǒng)的檢測(cè)手段存在許多的缺點(diǎn),比如金屬探測(cè)器雖然能夠探測(cè)金屬目標(biāo)的存在,但是不能區(qū)分該金屬物品的名稱;X射線成像系統(tǒng)雖然可以穿透衣物檢測(cè)到隱藏的圖像物品,但是它們的輻射非常高,對(duì)人體有害。然而,毫米波成像技術(shù)既可以穿透衣物來有效檢測(cè)人體身上的隱匿物品,又不會(huì)對(duì)人體產(chǎn)生健康危害[1-4]。因此,毫米波成像系統(tǒng)是目前應(yīng)用最廣泛、安全的安檢手段。由于毫米波圖像因其特殊的成像效果,通常包含了光線暗淡、噪聲干擾大、分辨率低等檢測(cè)問題,所以針對(duì)毫米波圖像的目標(biāo)檢測(cè)研究具有極其重要的現(xiàn)實(shí)意義。
傳統(tǒng)的目標(biāo)檢測(cè)方法[5-9]一般通過人工提取特征之后使用特征分類器來實(shí)現(xiàn)圖像的目標(biāo)檢測(cè)。該類目標(biāo)檢測(cè)方法的步驟一般可歸納為如下三步:①在圖像中利用尺度大小不同的滑動(dòng)窗口進(jìn)行遍歷,通過匹配度的計(jì)算后,根據(jù)閾值判斷來選取粗略的目標(biāo)候選區(qū)域;②利用經(jīng)典的特征提取器從目標(biāo)候選區(qū)域中提取特征,例如,方向梯度直方圖(histogram of oriented gradient, HOG)、局部二值模式(local binary patterns,LBP)、尺度不變特征變換(scale-invariant feature transform,SIFT)等;③將得到的特征輸入訓(xùn)練好的特征分類器中,例如支持向量機(jī)(support vector machine,SVM),從而識(shí)別目標(biāo)的類別。然而,傳統(tǒng)的目標(biāo)檢測(cè)方法存在著非常大的局限性,具有較差的泛化能力。因?yàn)楫?dāng)圖像的背景較為復(fù)雜時(shí),該類目標(biāo)檢測(cè)方法的檢測(cè)效率會(huì)明顯降低,導(dǎo)致檢測(cè)性能變得非常差。為了應(yīng)對(duì)這個(gè)問題,深度學(xué)習(xí)技術(shù)不斷發(fā)展起來,出現(xiàn)了卷積神經(jīng)網(wǎng)絡(luò)[10],該網(wǎng)絡(luò)不僅能替代人工設(shè)計(jì)提取特征,而且具有較好的特征表達(dá)能力和魯棒性,實(shí)現(xiàn)即使在復(fù)雜的環(huán)境條件下也能準(zhǔn)確地識(shí)別不同的目標(biāo)物體。在圖像目標(biāo)檢測(cè)領(lǐng)域,通過對(duì)深度學(xué)習(xí)[11]的深入學(xué)習(xí),基于區(qū)域的卷積神經(jīng)網(wǎng)絡(luò)的從R-CNN[12]誕生開始,逐步發(fā)展,得到了fast R-CNN[13]和Faster R-CNN[14]神經(jīng)網(wǎng)絡(luò)模型。目前,F(xiàn)aster R-CNN深度學(xué)習(xí)網(wǎng)絡(luò)在圖像的目標(biāo)檢測(cè)技術(shù)中表現(xiàn)十分突出,該網(wǎng)絡(luò)成功打破了傳統(tǒng)的目標(biāo)檢測(cè)方法的瓶頸,將區(qū)域建議網(wǎng)絡(luò)(region proposal network, RPN)與深度卷積神經(jīng)網(wǎng)絡(luò)相結(jié)合,實(shí)現(xiàn)了端到端的訓(xùn)練,提升了速度和準(zhǔn)確度,成為了目標(biāo)檢測(cè)領(lǐng)域的主流框架之一。隨后,通過借鑒faster R-CNN深度學(xué)習(xí)網(wǎng)絡(luò),衍生出YOLO[15]、SSD[16]和R-FCN[17]等圖像的目標(biāo)檢測(cè)方法。
上述提到的方法都是針對(duì)在自然光場(chǎng)景下的光學(xué)圖像而設(shè)計(jì)的,其圖像都比較清晰,質(zhì)量也都較高,例PASCALVOC 2007[18]、MS COCO[19]等。然而,毫米波圖像與這些光學(xué)圖像不同,主要原因在于它們的成像機(jī)制不同。毫米波圖像主要反映了物體的電磁特性,這些特征隨著目標(biāo)結(jié)構(gòu)、觀察角度和材料因素而發(fā)生變化。但是,毫米波圖像與光學(xué)圖像也存在著相似的地方,主要因?yàn)楹撩撞ǔ上裣到y(tǒng)有著非常接近光譜的高工作頻率,所以毫米波圖像具有許多與光學(xué)圖像相似的幾何特征。如圖1(a)中左側(cè)為槍的光學(xué)圖像,右側(cè)表示槍從不同角度成像的四個(gè)毫米波圖像,但是它們都顯示了手槍的直角結(jié)構(gòu)。如圖1(b)中左側(cè)為折疊小刀的光學(xué)圖像,右側(cè)為四種不同類型的毫米波小刀圖像,而圖1(c)中左側(cè)為大刀的光學(xué)圖像,右側(cè)為不同類型的毫米波大刀圖像,可見刀具金屬材料都表示為一系列常規(guī)亮塊,特別是大刀具和相應(yīng)背景的輪廓差異非常明顯。所以鑒于光學(xué)圖像與毫米波人體圖像之間的結(jié)構(gòu)相似性,本文主要研究將基于深度學(xué)習(xí)的檢測(cè)方法應(yīng)用于毫米波圖像,旨在實(shí)現(xiàn)毫米波圖像中隱藏物品的快速、高精度檢測(cè)。
圖1 光學(xué)圖像與毫米波圖像的對(duì)比
采用VGG16卷積神經(jīng)網(wǎng)絡(luò)和Faster R-CNN深度學(xué)習(xí)網(wǎng)絡(luò)相結(jié)合,并利用了在線難例挖掘[20](online hard example mining,OHEM)優(yōu)化訓(xùn)練網(wǎng)絡(luò)模型的方法,對(duì)毫米波圖像危險(xiǎn)物品的檢測(cè)進(jìn)行研究。實(shí)驗(yàn)包括了3種典型的危險(xiǎn)物品,它們分別是槍、折疊小刀和大刀,并且在大小為800×600的數(shù)千張毫米波圖像的數(shù)據(jù)集上,采用Caffe深度學(xué)習(xí)框架在GPU上進(jìn)行驗(yàn)證,最后分別與R-CNN結(jié)合VGG16、Fast R-CNN結(jié)合VGG16網(wǎng)絡(luò)進(jìn)行對(duì)比。以期能夠?qū)崿F(xiàn)毫米波圖像中目標(biāo)的快速、高精度檢測(cè)。
Faster R-CNN作為目前主流的深度學(xué)習(xí)網(wǎng)絡(luò)之一,它非常明顯的優(yōu)勢(shì)在于用區(qū)域建議網(wǎng)絡(luò)代替了選擇搜索算法(selective search,SS),大大提高了檢測(cè)速度的同時(shí),還極大地提升了目標(biāo)檢測(cè)的準(zhǔn)確度[21]。Faster R-CNN包含了兩個(gè)部分,分別是RPN和 Fast R-CNN,并且這兩個(gè)部分共享卷積神經(jīng)網(wǎng)絡(luò)提取的特征。RPN主要負(fù)責(zé)提取建議區(qū)域,而Fast R-CNN主要負(fù)責(zé)對(duì)建議區(qū)域進(jìn)行分類和定位。如圖2所示,表示毫米波圖像目標(biāo)檢測(cè)的Faster R-CNN深度網(wǎng)絡(luò)模型。
圖2 Faster R-CNN深度網(wǎng)絡(luò)的結(jié)構(gòu)
區(qū)域建議網(wǎng)絡(luò)RPN是目前表現(xiàn)最突出的區(qū)域建議提取算法,它主要利用3×3的滑動(dòng)窗口在輸入的特征圖上通過卷積實(shí)現(xiàn)建議區(qū)域的提取,既可以減少時(shí)間的消耗,又能夠高效地預(yù)測(cè)出目標(biāo)候選區(qū)域。如圖3所示,為RPN的網(wǎng)絡(luò)結(jié)構(gòu)。實(shí)驗(yàn)以VGG16為例,所提取的特征圖的大小為51×39×256,表示高、寬和通道數(shù)分別為51、39和256。對(duì)該卷積特征再次進(jìn)行卷積計(jì)算,高、寬和通道數(shù)仍然保持不變,又會(huì)得到一個(gè)51×39×256的特征,對(duì)于該卷積特征有51×39個(gè)建議區(qū)域,每一個(gè)建議區(qū)域都在原圖中對(duì)應(yīng)著3種長寬比分別為2:1、1:2、1:1,以及3種尺度分別為1282、2562、5122共9種不同尺寸的檢測(cè)框,即anchor。因此共有51×39×9 個(gè)anchor,檢測(cè)的目標(biāo)是對(duì)每個(gè)anchor是否包含物體進(jìn)行判斷。
圖3 RPN網(wǎng)絡(luò)結(jié)構(gòu)
圖4表明了接下來面對(duì)51×39個(gè)建議區(qū)域和51×39×9個(gè)anchor相關(guān)的計(jì)算步驟。首先,通過一個(gè)3×3的滑動(dòng)窗口將每一個(gè)建議區(qū)域轉(zhuǎn)換為固定的256維的特征,該特征對(duì)應(yīng)了兩個(gè)輸出。一個(gè)輸出的長度為2×9,表示該建議區(qū)域的anchor為物體的概率。另外一個(gè)輸出的長度為4×9,表示該建議區(qū)域的框回歸,每個(gè)anchor對(duì)應(yīng)4個(gè)框回歸參數(shù)。在圖像訓(xùn)練中,通常使用多任務(wù)損失函數(shù)來減少目標(biāo)函數(shù),公式為
(1)
(2)
(3)
式中:x、y、w和h表示框的中心坐標(biāo)及其寬度和高度。變量x、xa和x*分別用于預(yù)測(cè)框、anchor框和標(biāo)簽框。
圖4 anchor與網(wǎng)絡(luò)輸出的對(duì)應(yīng)關(guān)系
使用VGG16作為Faster R-CNN的特征提取網(wǎng)絡(luò),采用的是端到端的訓(xùn)練方式對(duì)VGG16卷積神經(jīng)網(wǎng)絡(luò)模型進(jìn)行訓(xùn)練。原因在于該網(wǎng)絡(luò)模型對(duì)比小型的訓(xùn)練網(wǎng)絡(luò)模型而言,其深度更深,能更好地進(jìn)行特征提取,從而得到更優(yōu)的檢測(cè)效果。如圖5所示為VGG16卷積神經(jīng)網(wǎng)絡(luò)的結(jié)構(gòu)。顯而易見,VGG16網(wǎng)絡(luò)通過具有relu激活函數(shù)的13個(gè)卷積層,以及4個(gè)池化層提取特征映射。為了能夠適應(yīng)毫米波圖像的目標(biāo)檢測(cè),本實(shí)驗(yàn)對(duì)VGG16的參數(shù)進(jìn)行了調(diào)整。輸入大小為800×600的圖像,每個(gè)卷積層的卷積核大小為3×3,步長設(shè)置為1,每個(gè)池化層的池化核大小為2×2,步長為2。雖然該網(wǎng)絡(luò)的圖像的大小不會(huì)因?yàn)榫矸e層和relu層發(fā)生改變,但是圖像輸出長和寬會(huì)因?yàn)槌鼗瘜幼優(yōu)樵瓉淼?/2。所以經(jīng)過4個(gè)池化層后,最后一個(gè)卷積層輸出的是512個(gè)大小為51×39的特征圖,該特征圖能夠被RPN和Fast R-CNN共享。
圖5 VGG16卷積神經(jīng)網(wǎng)絡(luò)的結(jié)構(gòu)
圖6 在線難例挖掘優(yōu)化訓(xùn)練的結(jié)構(gòu)
在線難例挖掘(online hard example mining,OHEM)技術(shù)能高效的解決訓(xùn)練過程中出現(xiàn)的正負(fù)樣本不均衡的問題。OHEM會(huì)先將所有的建議區(qū)域?qū)嵭星跋騻鬟f,接著根據(jù)損失的大小進(jìn)行排序,選取最大的損失值對(duì)應(yīng)的若干個(gè)建議區(qū)域?yàn)殡y例,進(jìn)行反向傳播,從而更新分類回歸網(wǎng)絡(luò)。同時(shí),為了避免建議區(qū)域的冗余問題,會(huì)在OHEM之前對(duì)建議區(qū)域?qū)嵤┓菢O大值抑制的方法來進(jìn)行篩選,選取損失值最大的感興趣區(qū)域,并且抑制預(yù)測(cè)框和標(biāo)簽框的重疊率(IOU)大于0.7的區(qū)域,因此達(dá)到了在網(wǎng)絡(luò)訓(xùn)練的每一步中嵌入難例挖掘的目的,從而實(shí)現(xiàn)了在線難例挖掘優(yōu)化訓(xùn)練。圖6為在線難例挖掘技術(shù)優(yōu)化的網(wǎng)絡(luò)訓(xùn)練過程結(jié)構(gòu)圖,綠色箭頭表示前向傳遞,紅色箭頭表示既能前向傳遞又能反向傳遞。分類回歸網(wǎng)Cls_Reg和分類網(wǎng)絡(luò)Cls_Reg_Copy的結(jié)構(gòu)相同,但是分類回歸網(wǎng)絡(luò)Cls_Reg_Copy只能進(jìn)行前向傳遞,實(shí)現(xiàn)在線難例挖掘并將結(jié)果送入分類回歸網(wǎng)絡(luò)Cls_Reg中進(jìn)行反向傳播,從而更新網(wǎng)絡(luò)的參數(shù)。
實(shí)驗(yàn)主要測(cè)試了在人體身上的不同位置藏匿槍、折疊小刀、大刀這三類典型的危險(xiǎn)物品,將收集的毫米波圖像以JPEG格式保存,每幅圖像的大小為800×600像素。實(shí)驗(yàn)使用了6 000張樣本構(gòu)成訓(xùn)練集(槍、折疊小刀、大刀各2 000張),3 000張樣本構(gòu)成測(cè)試集(槍、小刀、大刀各1 000張)。
實(shí)驗(yàn)在Intel(R)Core(TM)i7-7820X CPU和NVIDIA 1080TI GPU的實(shí)驗(yàn)環(huán)境下進(jìn)行,采用Caffe深度學(xué)習(xí)框架完成的。
單類目標(biāo)的平均精度(average precision,AP)是一種有效的檢測(cè)措施,它結(jié)合了每個(gè)對(duì)象的分類精度和位置精度。如表1所示,F(xiàn)aster R-CNN與VGG16相結(jié)合的深度網(wǎng)絡(luò)的各類目標(biāo)檢測(cè)精度明顯高于R-CNN與VGG16相結(jié)合的深度網(wǎng)絡(luò)和Fast R-CNN與VGG16相結(jié)合的深度網(wǎng)絡(luò),且檢測(cè)結(jié)果較好。然而Faster R-CNN與VGG16相結(jié)合并通過OHEM優(yōu)化訓(xùn)練后的深度網(wǎng)絡(luò)的各類危險(xiǎn)物品的AP精度百分比明顯高于Faster R-CNN與VGG16相結(jié)合的深度網(wǎng)絡(luò),由此可知該優(yōu)化訓(xùn)練后的網(wǎng)絡(luò)的AP檢測(cè)效果更好。此外,從表1所示的檢測(cè)結(jié)果同樣可以看出,它們的共同點(diǎn)是槍這一類型有較高的檢測(cè)精度,大刀次之,而小刀的檢測(cè)精度最低。通過分析,原因在于與小刀相比,槍和大刀的種類都較為單一,面積區(qū)域較寬,形變較??;而小刀種類較多,面積區(qū)域也很小,并且收集樣本的數(shù)量過小等問題導(dǎo)致小刀的檢測(cè)效果明顯較差。
表1 AP的檢測(cè)結(jié)果比較
所有目標(biāo)的平均精度(mean average precision,mAP)表示在同種目標(biāo)檢測(cè)網(wǎng)絡(luò)下,求AP的平均值,同時(shí)觀察毫米波圖像處理的速度FPS也是一種有效的檢測(cè)措施。如表2所示,在圖像大小和檢測(cè)數(shù)量都相同的情況下,與R-CNN結(jié)合VGG16和Fast R-CNN結(jié)合VGG16相比,F(xiàn)aster R-CNN結(jié)合VGG16的深度卷積網(wǎng)絡(luò)的檢測(cè)性能更優(yōu),其mAP達(dá)到近乎94%,并且每秒處理6張毫米波圖像。然而,經(jīng)過OHEM優(yōu)化訓(xùn)練后的Faster R-CNN結(jié)合VGG16的深度網(wǎng)絡(luò)效果更佳,其mAP達(dá)到94.66%,每秒處理近乎6張毫米波圖像,也就是說,該優(yōu)化訓(xùn)練后的網(wǎng)絡(luò)能保持速度差異較小的情況下,檢測(cè)準(zhǔn)確度能得到提升。如圖7所示為未經(jīng)OHEM優(yōu)化訓(xùn)練的毫米波圖像目標(biāo)檢測(cè)的測(cè)試效果。如圖8所示為經(jīng)過OHEM優(yōu)化訓(xùn)練后的毫米波圖像目標(biāo)檢測(cè)的測(cè)試效果。由此可見,實(shí)驗(yàn)不僅證明了毫米波圖像和光學(xué)圖像中的對(duì)象特征是屬于相似的分布,采用深度學(xué)習(xí)的卷積神經(jīng)網(wǎng)絡(luò)用于光學(xué)圖像的目標(biāo)檢測(cè)方法同樣適用于毫米波圖像的危險(xiǎn)物品檢測(cè),而且還證明了經(jīng)過OHEM優(yōu)化后的網(wǎng)絡(luò)對(duì)毫米波圖像的目標(biāo)檢測(cè)精度更高,說明了該方法是有效的。
表2 mAP和FPS的檢測(cè)結(jié)果
圖7 Faster R-CNN+VGG16的測(cè)試效果展示
圖8 OHEM優(yōu)化后的測(cè)試效果展示
采用VGG16卷積神經(jīng)網(wǎng)絡(luò)與RPN相結(jié)合,并利用OHEM優(yōu)化訓(xùn)練該網(wǎng)絡(luò),構(gòu)建了一個(gè)基于Faster R-CNN深度卷積神經(jīng)網(wǎng)絡(luò)的新方法對(duì)毫米波圖像進(jìn)行目標(biāo)檢測(cè),并與RCNN結(jié)合VGG16、Fast R-CNN結(jié)合VGG16、OHEM優(yōu)化前的Faster R-CNN結(jié)合VGG16的深度網(wǎng)絡(luò)進(jìn)行了對(duì)比。實(shí)驗(yàn)結(jié)果表明,OHEM優(yōu)化后的Faster R-CNN結(jié)合VGG16的深度網(wǎng)絡(luò)深度學(xué)習(xí)網(wǎng)絡(luò)的檢測(cè)性能最優(yōu),并且能夠保證穩(wěn)定速度的同時(shí)進(jìn)一步提高目標(biāo)檢測(cè)的精度。然而,根據(jù)深度卷積神經(jīng)網(wǎng)絡(luò)學(xué)習(xí)的特點(diǎn),如何在保證穩(wěn)定精度的同時(shí)進(jìn)一步提高檢測(cè)的速度是一個(gè)值得考慮的問題。因此,下一步考慮用多個(gè)GPU進(jìn)行并行訓(xùn)練深度網(wǎng)絡(luò),提高開發(fā)效率。