師 君 闕鈺佳 周澤南 周遠遠 張曉玲 孫銘芳
(電子科技大學(xué)信息與通信學(xué)院 成都 611731)
近年來,對于人口流動性大以及人員密集區(qū)域,如車站,機場,海關(guān)等,如何有效地預(yù)防恐怖襲擊事件顯得尤其重要。穿透衣物、包裹發(fā)現(xiàn)隱藏的危險物品是安檢成像中的關(guān)鍵因素和難點,包括成像時間、清晰度、識別違規(guī)物品的準確率等都是安檢系統(tǒng)中的重要指標。傳統(tǒng)安檢安防手段,如X射線,存在電離輻射的風(fēng)險,長期暴露在X射線下對于人體有相當大的危害[1]。而手持掃描探測器、安檢門則存在穿透性、準確性的問題。相比之下,高頻微波,如毫米波、太赫茲具備良好的安全性和穿透性,能夠?qū)﹄[匿的可疑危險物品進行較為清晰地成像且對人體健康性危害較小,已經(jīng)逐漸成為最主流的人體安檢成像方式[2]。毫米波成像安檢系統(tǒng)由于具備分辨率適中、成像清晰度和對比度合適、對人體影響較小等特點,成為具有極大潛力的新一代人體安檢系統(tǒng),近些年以近場毫米波3維成像為代表的主動式毫米波安檢成像技術(shù)得到了高速發(fā)展[3–5]。
根據(jù)系統(tǒng)工作模式以及原理上的區(qū)別,毫米波成像又分為主動式毫米波成像和被動式毫米波成像系統(tǒng)。主動式毫米波成像系統(tǒng)通過布置收發(fā)陣元,發(fā)射電磁波信號到目標場景,并接收目標反射的回波信號,最后結(jié)合成像算法對目標場景進行3維重建,進而獲取較高精度的成像場景。主動式成像系統(tǒng)具備受環(huán)境因素影響小、能獲取豐富的3維場景成像信息、成像分辨率高等特點[6],成為安檢成像技術(shù)研究的重要方向。主動式毫米波安檢成像算法主要包括后向投影(Back Projection,BP)算法以及距離多普勒(Range Doppler,RD)算法等。
在刀、槍等異物檢測方面,由于毫米波安檢成像質(zhì)量受到系統(tǒng)指標、隱私等方面的約束,無法或不宜獲得過于高清晰度的圖像,如何從安檢圖像中檢測敏感目標成為毫米波安檢系統(tǒng)的關(guān)鍵問題。傳統(tǒng)檢測方法通過在圖像中提取特征(如,方向梯度直方圖(Histogram of Oriented Gradient,HOG)[7]、局部二值模式(Local Binary Patterns,LBP)[8]、Harr特征[9]等)并結(jié)合Adaboost、支持向量機(Support Vector Machine,SVM)等分類器進行異物檢測[10]。這些技術(shù)需要對毫米波圖像特點有較深的分析,且算法的通用性較差,當成像質(zhì)量較差時尤其明顯。深度卷積神經(jīng)網(wǎng)絡(luò)是目前圖像識別和檢測技術(shù)中的熱點技術(shù),該技術(shù)通過大量樣本訓(xùn)練,自動尋找圖像中的特征,并進行識別,具有算法通用性好、開發(fā)靈活等優(yōu)點。
自從AlexNet[11],VGG[12]等深度卷積神經(jīng)網(wǎng)絡(luò)在圖片識別任務(wù)取得優(yōu)異成績之后,卷積神經(jīng)網(wǎng)絡(luò)開始廣泛應(yīng)用在目標檢測算法中[13–17]。Girshick等人[15]提出了區(qū)域卷積網(wǎng)絡(luò)(Regional Convolutional Neural Network,RCNN)算法,先用選擇性搜索方法(selective search)提取候選區(qū)域,然后使用卷積神經(jīng)網(wǎng)絡(luò)對候選區(qū)域進行特征提取,提取的特征由分類器進行分類,并通過邊框回歸(box regression)得到目標位置。文獻[14]在快速區(qū)域卷積網(wǎng)絡(luò)(Fast RCNN)[13]的基礎(chǔ)上提出了區(qū)域生成網(wǎng)絡(luò)(Region Proposal Network,RPN),通過交替訓(xùn)練的方式,該網(wǎng)絡(luò)可以與Fast RCNN共享網(wǎng)絡(luò)參數(shù),提高了訓(xùn)練效率,節(jié)省了訓(xùn)練成本,檢測準確率也得到了進一步的提升。為了進一步減少提取候選框時間損耗,提高檢測速度,YOLO(You Only Look Once)算法[16]直接對待檢測(大)圖的特征圖進行邊框回歸,用單個神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)同時實現(xiàn)對輸入圖像中目標的位置和分類的預(yù)測。
針對近場毫米波3維成像與異物檢測中存在的問題,本文主要討論了基于BP算法的近場毫米波3維成像系統(tǒng)以及基于深度卷積網(wǎng)絡(luò)的異物檢測技術(shù)。第2節(jié)主要介紹了近場毫米波3維成像系統(tǒng)結(jié)構(gòu)和信號模型,第3節(jié)討論了基于熱圖和YOLO算法的異物檢測方法,最后在第4節(jié)通過實測數(shù)據(jù)處理對本文所使用的方法進行驗證和性能分析。
原理上,近場毫米波安檢系統(tǒng)通過控制線陣運動合成大尺寸天線獲得微波圖像。但在實現(xiàn)過程中,受到成本等方面的制約,具體的系統(tǒng)結(jié)構(gòu)有所不同,主要分為垂直掃描模式和圓周掃描模式如圖1所示。
垂直掃描模式中,其線性陣元沿水平方向布設(shè)并以一定的速度往下掃描,分別經(jīng)歷勻加速,勻速以及勻減速運動的過程,同時發(fā)射陣元通過一定的脈沖重復(fù)頻率發(fā)射線性調(diào)頻信號并由接收陣元負責(zé)接收場景中的人體反射回波信號,經(jīng)過一個完整的合成孔徑時間,也即完成了一次對目標場景回波的采集工作,進而對目標回波信號實現(xiàn)基于3維BP成像算法便可對目標人體進行3維成像。通過在安檢儀的兩面各分別安置帶有線性陣列的掃描架,這樣便可以在一次掃描的過程中分別實現(xiàn)人體前、后兩面的成像圖。
圓柱掃描模式下,線性陣元沿垂直方向布設(shè),通過控制該天線圍繞圓心做水平旋轉(zhuǎn),合成圓柱形的陣列天線面[18]。與垂直掃描模式相比,該模式能夠?qū)崿F(xiàn)對人體水平面內(nèi)360°范圍內(nèi)的等分辨率成像,且不存在人體側(cè)面無法照射的情況,整體性能優(yōu)于垂直掃描模式。但垂直陣列尺寸一般遠長于水平陣列,因此該系統(tǒng)成本也相對較高。為了降低成本,在天線陣列設(shè)計時,可采用多入多出(Multiple-Input Multiple-Output,MIMO)技術(shù),通過MIMO、單發(fā)多收(Single-Input Multiple-Output,SIMO)等設(shè)計降低系統(tǒng)成本。
無論其具體工作模式,近場毫米波3維成像安檢系統(tǒng)信號模型相同,下面以垂直掃描模式為例進行推導(dǎo)。此時,水平布置天線陣列的掃描架平臺沿著x方向分別經(jīng)歷勻加速、勻速以及勻減速運動的方式向下運動并對人體全身進行掃描,天線陣列水平安置在掃描架上且平行于y軸,其中,x為方位向即掃描架運動方向,y為陣列方向即天線布置的水平方向,z為距離向即檢測人體到掃描面陣的垂直距離。
對于近場毫米波3維成像系統(tǒng),一般需要較大的信號帶寬,如3 GHz,采用匹配濾波技術(shù)難以實現(xiàn),一般采用去斜率處理進行距離壓縮。假設(shè)近場毫米波3維成像系統(tǒng)發(fā)射陣元發(fā)射的線性調(diào)頻信號(Linear Frequency Modulation,LFM)為
其中,第1項對應(yīng)運動合成的陣列天線,第2項為距離延遲對應(yīng)的單頻信號,第3項為殘留相位,由于近場成像中距離的數(shù)值遠小于光速的數(shù)值,此項可以忽略(假設(shè)系統(tǒng)工作在Ka波段,最遠作用距離R=0.5 m,調(diào)頻斜率為殘留項產(chǎn)生的最大相位偏差為,遠小于Ka波段波長的1/8,故可忽略)。
從近場毫米波3維成像模型可以看出,與傳統(tǒng)SAR成像相比,近場3維成像系統(tǒng)等效陣列結(jié)構(gòu)更為復(fù)雜,可能為2維平面陣列、圓柱陣列等,增加了信號處理難度。成像過程中,當聚焦深度大于一定值后會導(dǎo)致較嚴重的散焦現(xiàn)象,而安檢成像中人體的厚度較寬,這些因素都會導(dǎo)致回波處理和較高精度成像的困難。從系統(tǒng)角度考慮,還可能存在不同陣元接收回波串擾問題,且回波信號需要補償通道誤差,進一步增加了成像處理難度。
對于近場3維成像而言,成像算法主要分為頻域成像算法和時域成像算法。兩類成像算法都在2維成像基礎(chǔ)上擴展到3維空間,其中典型近場3維成像算法有3維距離-多普勒算法以及3維后向投影算法。
后向投影算法是典型時域成像算法,通過對同一目標場景像素點距離壓縮后的回波進行多普勒相位補償以及相干累加得到該像素點后向散射系數(shù),進而實現(xiàn)聚焦成像,詳細流程可參閱文獻[19]。
對于近場安檢成像應(yīng)用,采用BP算法遍歷3維成像場景,即可得到目標區(qū)域的3維圖像。為了更好地呈現(xiàn)結(jié)果,需要將該3維圖像沿距離方向進行投影,得到符合人眼視覺的2維圖像。最典型的方法為“最大值投影法”。該方法遍歷方位向和陣列向,選擇距離向所有目標像素值中最大的點作為2維投影圖像對應(yīng)點的像素值。如圖2所示為最大值投影后經(jīng)過質(zhì)量優(yōu)化的成像圖,其中成像的垂直和水平方向分別對應(yīng)方位向和陣列方向,且后續(xù)章節(jié)中所有成像結(jié)果橫縱坐標軸含義與該圖相同,所以不再贅述。假設(shè)3維空間每個場景點對應(yīng)像素值函數(shù)為,則最大值投影至2維圖像的公式為
其中,g(x,y)為2維投影圖像,z表示距離向。
圖2 2維成像結(jié)果Fig.2 The 2D imaging result
卷積神經(jīng)網(wǎng)絡(luò)(Convolutional Neural Networks,CNN)屬于前饋神經(jīng)網(wǎng)絡(luò),通過權(quán)值共享和局部感受野的概念,將卷積運算引入到網(wǎng)絡(luò)結(jié)構(gòu)中,在顯著擴展網(wǎng)絡(luò)結(jié)構(gòu)的條件下,很好地控制了網(wǎng)絡(luò)參數(shù)維度,在圖像分類識別、自然語言處理等研究領(lǐng)域獲得了良好效果。
卷積神經(jīng)網(wǎng)絡(luò)一般由交替出現(xiàn)的卷積層、池化層以及最后的全連接層組成,基本結(jié)構(gòu)如圖3所示。
圖3 CNN結(jié)構(gòu)Fig.3 The CNN structure
卷積層由多個特征圖組成,它的每個神經(jīng)元通過卷積核(權(quán)值矩陣)與上一層特征面的局部區(qū)域相連接。卷積層通過卷積操作對輸入進行特征提取。第1層卷積層的輸入即為輸入圖像,提取如邊緣、線條等低級特征。更高層的輸入則為上一層的特征面,從中提取更高級的特征。
池化層緊隨在卷積層之后,是一種非線性的下采樣。它的每個神經(jīng)元對局部接受區(qū)域進行池化操作,具有二次特征提取作用。最大池化(max pooling)、均值池化(mean pooling)以及隨機池化(stochastic pooling)等是常用的池化方法。其中最大池化取局部接受域中最大的點,均值池化取接受域中所有值的平均。
在經(jīng)過多個卷積層和池化層后,連接著一個或者一個以上的全連接層。全連接層中的每個神經(jīng)元與其前一層的所有神經(jīng)元相連接,故而稱為全連接層。該層可以整合卷積層或池化層中具有類別區(qū)分性的局部信息。最后1個全連接層起到分類器作用,根據(jù)前層提取的特征信息對輸入進行分類處理,輸出目標的類別。
卷積網(wǎng)絡(luò)的標準模型主要用于分類任務(wù),其輸入為標準尺寸圖像,輸出為該圖像的類屬編號。但是,在異物檢測任務(wù)中,異物圖像嵌于整幅圖像中,在做出類屬判斷前,還需要從圖像中框選出異物可能出現(xiàn)的區(qū)域。下面介紹基于熱圖的異物檢測方法和基于YOLO網(wǎng)絡(luò)模型的異物檢測方法。
基于熱圖的目標檢測方法的基本策略類似于圖像濾波過程。首先,利用目標圖像(小圖)訓(xùn)練出一個分類卷積網(wǎng)絡(luò),其輸入為小圖,輸出為該圖像的類屬。然后,將該網(wǎng)絡(luò)在待檢測圖像中滑動,每個位置得到一個目標類屬的輸出構(gòu)成了一張類屬/概率的圖像,稱之為熱圖。
圖4 基于熱圖的目標檢測結(jié)構(gòu)Fig.4 The target detection structure based on heat map
基于熱圖的異物檢測過程如圖4所示。標準分類網(wǎng)絡(luò)按照一定的步長在待檢測大圖中滑動,每個位置網(wǎng)絡(luò)運行1次,得到1個概率輸出,遍歷整幅圖像后得到初始熱圖,如圖4(b)所示。
對于最后層以softmax為激活函數(shù)的分類網(wǎng)絡(luò),其輸出在0~1之間。當相鄰小圖中均包含部分異物時,鄰近區(qū)域具有相似大小的概率輸出,所以通過尋找初始熱圖中能量最大值定位異物位置時會引入較大誤差。例如,熱圖4(b)橙色區(qū)域能量大小基本一致,每個點均可能判定為目標中心。為此,本文對原始輸出熱圖進行了后處理。使用值為1,尺寸大小為3×3的模板與熱圖做卷積運算,使能量進一步聚集在異物中心位置,得到一張?zhí)幚砗蟮臒釄D,如圖4(c)??梢钥闯?,只有一個能量最強點,即為待檢測異物中心。
熱圖檢測法原理簡單,但是,由于其需要遍歷整幅待檢測圖像,運算量龐大,且生成的檢測框尺寸固定,無法適應(yīng)異物尺寸變化。為此,需要對熱圖法進行替換,引入更靈活、高效的異物檢測算法。
傳統(tǒng)的目標檢測方法通常分為3個階段。首先通過不同尺寸的滑動窗口在圖像上選擇候選區(qū)域,其次對候選區(qū)域特征進行提取,最后通過分類器進行識別。傳統(tǒng)目標檢測基于滑窗進行區(qū)域選擇,由于缺乏針對性,窗口冗余多,時間復(fù)雜度高,手工選擇的候選框缺乏泛化能力,因此不適用于對實時性、準確率要求高的安檢應(yīng)用。
隨著深度學(xué)習(xí)的高速發(fā)展,目標檢測算法不斷朝著高效率、高性能的方向發(fā)展。當前比較流行的算法主要可以分為兩大類,一類是基于候選區(qū)域(region proposal)的RCNN系算法,主要有RCNN,Fast RCNN和Faster RCNN。RCNN系算法是兩階段(two stage)檢測算法,需要先使用選擇性檢索(selective search)或RPN網(wǎng)絡(luò)產(chǎn)生候選區(qū)域,然后在候選區(qū)域上做分類與回歸。該類算法在生成候選區(qū)域時消耗較多時間,由輸入到檢測需要3 s左右。雖然RCNN系算法對于目標檢測耗時較多,但是在檢測精度上保持領(lǐng)先水平。另一類是YOLO和SSD這類單階段(one stage)算法,即本文使用的檢測算法。YOLO算法是一種端到端的目標檢測算法,每次檢測時將整張圖像輸入網(wǎng)絡(luò),不同于RCNN系算法生成候選區(qū)域的方法,YOLO算法將圖像劃分為的網(wǎng)格,將目標檢測問題作為回歸問題解決,直接對網(wǎng)格中的目標中心點位置及邊框的高寬進行預(yù)測。因此YOLO算法僅僅使用一個CNN網(wǎng)絡(luò)就能直接預(yù)測不同目標的類別與位置。相比于傳統(tǒng)檢測網(wǎng)絡(luò),YOLO算法在檢測精度得到了很大的提升;相對于RCNN系列的檢測網(wǎng)絡(luò),YOLO算法檢測時間更短,效率得到了優(yōu)化。這些特點說明了YOLO算法更適用于人流量多的實時安檢應(yīng)用。
YOLO算法使用單個卷積網(wǎng)絡(luò)即可實現(xiàn)端到端(end to end)的目標檢測,其訓(xùn)練流程如圖5所示。YOLO網(wǎng)絡(luò)使用過程簡單,首先將待檢測圖片(大圖)尺寸插值到合適的大小,然后送入訓(xùn)練好的YOLO網(wǎng)絡(luò),即可得到目標檢測結(jié)果。相比RCNN等常用檢測算法,YOLO速度更快,而且訓(xùn)練過程也直接在包含標簽(ground truth)的待檢測(大)圖像中操作,過程更為簡單。
YOLO網(wǎng)絡(luò)設(shè)計主要包括特征提取、邊框回歸和非極大值抑制3個部分。
特征提取主要靠標準卷積網(wǎng)絡(luò)的卷積層實現(xiàn),一般選擇GooLeNet模型,共包含24個卷積層和全連接神經(jīng)網(wǎng)絡(luò),且輸出為類屬數(shù)目。損失函數(shù)采用最小二乘準則,其公式為
圖5 YOLO的訓(xùn)練流程Fig.5 The training process of YOLO
邊框回歸主要任務(wù)是從特征圖中預(yù)測出目標框的位置和尺寸。為了實現(xiàn)該任務(wù),其在特征圖后串聯(lián)了一個5輸出網(wǎng)絡(luò)(分別為位置坐標、尺寸高寬和置信度),并采用最小二乘準則對該神經(jīng)網(wǎng)絡(luò)的參數(shù)進行訓(xùn)練,代價函數(shù)為
分類和邊框預(yù)測使得該網(wǎng)絡(luò)訓(xùn)練變?yōu)橐粋€多目標最優(yōu)化問題,為了簡化處理,將兩個損失函數(shù)合并寫為
非極大值抑制(Non Maximum Suppression,NMS)[20]主要用于解決同一個目標中出現(xiàn)多個候選框的問題。其基本策略是選擇所有候選框中,目標出現(xiàn)概率最大的一個作為目標框,而丟棄掉其它與該框存在很大重疊,且類屬相同的候選框。為了實現(xiàn)該目標,首先從所有的檢測框中找到置信度最大的框,然后逐個計算其與剩余框的交并比(Intersection Over Union,IOU),如果其值大于一定閾值(重合度過高),那么就將該框剔除;然后對剩余的檢測框重復(fù)上述過程,直到處理完所有的檢測框。如圖6所示,當IOU閾值過高時對knife識別了2次(圖6左),降低閾值后去掉了重復(fù)的檢測框(圖6右)。
由于成像過程中存在不同陣元接收回波之間相互串擾、掃描元器件需要補償?shù)墓潭ㄍǖ勒`差提前預(yù)估不精確等因素將會導(dǎo)致2維成像中出現(xiàn)較多干擾信息,這些因素降低了成像質(zhì)量,并一定程度上影響了安檢識別。因此,需要使用圖像處理方法對圖像進行增強,如進行圖像銳化增加成像對比度,使用中值濾波、圖像平滑減小成像干擾噪聲等。
圖6 非極大值抑制算法去除重復(fù)預(yù)測框Fig.6 Removal of repeated prediction box by NMS algorithms
圖7、圖8為實測垂直掃描模式近場毫米波3維成像處理結(jié)果,系統(tǒng)工作于Ka波段,信號寬帶大于3 GHz,陣列長度大于0.5 m,系統(tǒng)陣列方向分辨率和方位向分辨率約為1 cm,距離向分辨率約為5 cm,但由于采用了最大值投影,所以該方向分辨率未在圖像中體現(xiàn)。
其中圖7為最大值投影后的2維成像結(jié)果,驗證了3維BP算法適用于近場安檢成像且圖像分辨率也較高,并證實了獲得3維成像后用最大值投影方法壓縮到2維平面的方法是有效的。但觀察發(fā)現(xiàn),該成像結(jié)果仍存在較為明顯的柵瓣,影響圖像觀感及后續(xù)識別的有效性。
圖8為經(jīng)過圖像處理方法后的成像效果。對于原始成像圖7首先進行中值濾波處理減小圖像噪聲信息,然后使用圖像平滑抑制原始圖的重影問題并使圖片顯得均勻,最后使用圖像銳化處理增加成像對比度使得異物更為明顯。經(jīng)過以上一系列圖像后處理能夠有效減小干擾信息并增強圖像質(zhì)量,處理后的圖像更為勻稱平滑,噪聲較少,并且成像中的重影問題得到了很好的抑制,對于安檢中識別率的提高起到了較好的作用。
圖7 原始實測成像圖Fig.7 The original measured image
圖8 圖像處理后成像圖Fig.8 The image after processing
圖9 訓(xùn)練分類網(wǎng)絡(luò)的樣本Fig.9 Samples of training classification network
本文需要檢測的異物分別為:槍(gun),手機(phone)和刀(knife),訓(xùn)練集原始圖像大小約為800×300。對基于熱圖的檢測網(wǎng)絡(luò),需要從訓(xùn)練圖像中剪裁包含目標(正樣本:刀、槍、手機)以及非目標(負樣本:噪聲背景以及身體各個部位成像結(jié)果)的小圖用于訓(xùn)練分類網(wǎng)絡(luò),小圖尺寸為128×128,見圖9。訓(xùn)練過程中平均損失以及準確率如圖10所示,可以看出隨著迭代次數(shù)的增加,平均損失逐漸減小并趨近于0,而準確率則逐漸提升并接近于百分百準確預(yù)測。
而對于YOLO網(wǎng)絡(luò),本文在實驗中將輸入網(wǎng)絡(luò)的訓(xùn)練圖片尺寸由800×300插值到608×608。訓(xùn)練過程中損失函數(shù)的變化過程如圖11所示,可以看出20000次訓(xùn)練后已經(jīng)完全收斂,訓(xùn)練模型已經(jīng)能夠擬合訓(xùn)練樣本,此時,訓(xùn)練集樣本準確率趨于平穩(wěn),測試集準確率開始有所下降。為了避免過擬合,本文使用“早?!?early stopping)技術(shù)提前結(jié)束訓(xùn)練。對比兩種網(wǎng)絡(luò)的訓(xùn)練過程可以看出,相比基于熱圖檢測的分類子網(wǎng)絡(luò),由于復(fù)雜性更高,YOLO網(wǎng)絡(luò)的訓(xùn)練過程需要更多的迭代次數(shù)以及更長的訓(xùn)練時間。
圖10 分類網(wǎng)絡(luò)訓(xùn)練過程中平均損失和準確率Fig.10 The average loss and accuracy in classification network training
圖11 YOLO網(wǎng)絡(luò)訓(xùn)練過程中的平均損失Fig.11 The average loss in YOLO network training
在本文安檢成像及異物檢測的實驗過程,本文將異物歸結(jié)為刀、槍和手機3類并訓(xùn)練YOLO網(wǎng)絡(luò)去實現(xiàn)異物分類檢測。為了得到檢測出異物并正確分類所需合適的尺寸大小,文中將幾組測試圖片輸入到訓(xùn)練好的YOLO網(wǎng)絡(luò)檢測之前,對圖片的尺寸做了一次調(diào)整。如圖12所示為其中一組的檢測情況,可以看出隨著尺寸從416×416增加到608×608(從左到右尺寸依次為416×416,480×480,544×544,608×608),檢測準確率也隨之提高并且當尺寸達到608×608時不存在漏檢的情況,驗證了測試圖像尺寸在一定范圍內(nèi)越大則檢測準確率和預(yù)測框精度也隨之改善。而且本文在訓(xùn)練YOLO網(wǎng)絡(luò)時也會將原始訓(xùn)練集每一張圖像的尺寸調(diào)整為608×608,這種情況也說明了將測試圖像輸入訓(xùn)練好的網(wǎng)絡(luò)前,調(diào)整圖像尺寸為訓(xùn)練圖像的尺寸608×608檢測性能最好,因為在同樣像素比例的圖片中,測試圖片中異物形狀更加貼近訓(xùn)練集圖像中對應(yīng)類別的異物,所得到異物檢測準確率也會更高,所以本實驗中異物檢測最合適的尺寸大小為608×608。
圖13為連續(xù)經(jīng)過1000,5000,10000,15000和20000(由左至右)次訓(xùn)練后模型的測試結(jié)果。從圖中可以看出,隨著訓(xùn)練次數(shù)增多,模型的檢測和識別能力逐漸提高,預(yù)測框范圍不斷調(diào)整并逼近目標的真實大小。在訓(xùn)練YOLO網(wǎng)絡(luò)時本文對160張圖像進行了數(shù)據(jù)擴充,包括對圖像隨機旋轉(zhuǎn)、隨機裁剪、隨機調(diào)整亮度和引入不同噪聲等,共生成了3300張圖像,其中70%的圖像作為訓(xùn)練集圖像,30%的圖像作為測試集圖像,經(jīng)過實驗證明20000次訓(xùn)練后檢測平均精確率在90%左右,詳細測試結(jié)果表1。在評測指標中,精確率可以理解為在預(yù)測結(jié)果中,正確被預(yù)測為正樣本的數(shù)量在所有預(yù)測為正樣本中的比例;召回率表示正確被預(yù)測為正樣本的數(shù)量占原始標簽正樣本中的比例。分別求得每個類別的精確率和召回率,利用PR曲線計算積分面積即為每一類的平均準確率(Average Precision,AP),mAP為各個類別AP的均值。
圖12 YOLO網(wǎng)絡(luò)檢測結(jié)果隨圖像尺寸變化情況Fig.12 YOLO network detection results of different image size
圖13 YOLO測試結(jié)果(不同訓(xùn)練次數(shù))Fig.13 YOLO test results (different training numbers)
表1 YOLO網(wǎng)絡(luò)檢測結(jié)果(%)Tab.1 The YOLO network detection results (%)
為了對比兩種方法在檢測過程中的效率,本文使用C程序?qū)Χ哌M行測試,并在Intel core i7-7800、GTX1060計算環(huán)境下完成。對于800×300的輸入圖像,基于熱圖的檢測方法用時約200 ms(主要開銷為卷積網(wǎng)絡(luò)部分,對于800×300輸入圖像,需調(diào)用約300次網(wǎng)絡(luò)),而YOLO所需耗時不足50 ms,可見YOLO網(wǎng)絡(luò)在檢測效率要優(yōu)于熱圖方法。
如圖14所示,從隨機取出兩張圖片的不同網(wǎng)絡(luò)檢測方法試驗結(jié)果來看,在檢測精度上,基于熱圖的檢測方法檢測框大小固定并且檢測范圍很大,相比之下YOLO方法能夠自適應(yīng)調(diào)整檢測框大小并精準地框出刀、槍等異物,說明了檢測精度更高;在檢測的準確率上,從圖14中可以看出熱圖方法存在一定程度上的漏檢情況,準確率不如YOLO檢測方法;在檢測時間上,YOLO網(wǎng)絡(luò)的檢測時間遠小于熱圖方法,檢測效率更高。對于目前安檢應(yīng)用,YOLO網(wǎng)絡(luò)的檢測時間很短,能夠更好地滿足人流量較大區(qū)域安檢實時性的要求,并且該方法較高精度和準確率的優(yōu)點能夠有效地保障安檢區(qū)域的安全性,相比于熱圖方法,這些優(yōu)點使得YOLO網(wǎng)絡(luò)成為更適合安檢的檢測算法。
本文對主動式毫米波陣列3維系統(tǒng)成像及目標檢測問題進行了研究。研究表明,后向投影算法由于其靈活性,可用于近場毫米波3維成像處理?;跓釄D的檢測方法和基于YOLO的檢測方法均可實現(xiàn)成像中的異物檢測?;跓釄D的檢測方法網(wǎng)絡(luò)結(jié)構(gòu)簡單、易訓(xùn)練,但由于需要遍歷整幅待檢測圖像,運算時間長,且生成的檢測框尺寸固定,無法適應(yīng)異物尺寸變化?;赮OLO的檢測算法網(wǎng)絡(luò)結(jié)構(gòu)復(fù)雜、訓(xùn)練耗時長,但該方法在檢測速度與檢測框精度上優(yōu)勢明顯,更利于機場安檢等對實時性要求較高的異物檢測應(yīng)用。
圖14 基于熱圖和YOLO檢測結(jié)果Fig.14 Test results based on heat map and YOLO