劉朋飛,周 海+,馮水春,卞春江
(1.中國(guó)科學(xué)院國(guó)家空間科學(xué)中心 復(fù)雜航天系統(tǒng)綜合電子與信息技術(shù)重點(diǎn)實(shí)驗(yàn)室,北京 100190;2.中國(guó)科學(xué)院大學(xué) 計(jì)算機(jī)科學(xué)與技術(shù)學(xué)院,北京 101408)
目前,針對(duì)無(wú)人機(jī)的檢測(cè)技術(shù)主要分為兩種,以雷達(dá)檢測(cè)技術(shù)[1]、紅外檢測(cè)技術(shù)、聲學(xué)檢測(cè)技術(shù)[2]、激光探測(cè)技術(shù)等為主的基于非視覺(jué)特征的技術(shù)和基于視覺(jué)圖像特征的檢測(cè)技術(shù)?;诜且曈X(jué)特征的技術(shù)在檢測(cè)時(shí),存在諸多問(wèn)題,比如雷達(dá)視野盲區(qū)很多,探測(cè)近距離目標(biāo)能力差;無(wú)人機(jī)多采用無(wú)刷直流電機(jī)作為動(dòng)力裝置,發(fā)熱很少,因此紅外輻射非常低,給紅外探測(cè)帶來(lái)很大的困難。
當(dāng)前,以卷積神經(jīng)網(wǎng)絡(luò)為代表的基于視覺(jué)圖像特征的檢測(cè)技術(shù)發(fā)展迅速,F(xiàn)aster RCNN[3]、YOLO[4]、SSD[5]、Retina-Net[6]等模型相繼被提出,同時(shí),對(duì)低空無(wú)人機(jī)目標(biāo)檢測(cè)大多研究弱慢小目標(biāo),缺少對(duì)無(wú)人機(jī)運(yùn)動(dòng)過(guò)程中尺度變化問(wèn)題的研究[7,8],這導(dǎo)致檢測(cè)網(wǎng)絡(luò)無(wú)法有效學(xué)習(xí)目標(biāo)的多尺度特征,文獻(xiàn)[9]在進(jìn)行無(wú)人機(jī)檢測(cè)時(shí),圖像背景較為單一,沒(méi)有考慮低空中其它干擾目標(biāo)的情況,在低空實(shí)際檢測(cè)場(chǎng)景中具有局限性。
由于當(dāng)前沒(méi)有較為統(tǒng)一的無(wú)人機(jī)圖像數(shù)據(jù)集,所以本文建立了包含多種低空?qǐng)鼍?、多尺度無(wú)人機(jī)目標(biāo)的數(shù)據(jù)集,共20 000張,基于SSD檢測(cè)框架,在VGG16網(wǎng)絡(luò)的基礎(chǔ)上,引入Conv3_3特征圖,構(gòu)建金字塔特征提取網(wǎng)絡(luò),增強(qiáng)對(duì)無(wú)人機(jī)目標(biāo)的特征提取能力,然后,通過(guò)研究卷積特征圖中理論感受野、有效感受野和先驗(yàn)框的關(guān)系,重新設(shè)計(jì)了不同尺寸和長(zhǎng)寬比的先驗(yàn)框,并利用測(cè)試集圖像和視頻進(jìn)行實(shí)驗(yàn)驗(yàn)證,實(shí)驗(yàn)結(jié)果表明,本文提出的改進(jìn)SSD模型提高了對(duì)低空無(wú)人機(jī)的檢測(cè)準(zhǔn)確率,并且對(duì)于視野內(nèi)的其它干擾物,具有較好的魯棒性。
本文的檢測(cè)無(wú)人機(jī)對(duì)象主要是120 m以下飛行空域內(nèi)的無(wú)人機(jī)?,F(xiàn)有的研究工作中還沒(méi)有公開(kāi)、通用的無(wú)人機(jī)數(shù)據(jù)集可以用來(lái)進(jìn)行模型訓(xùn)練,文獻(xiàn)[10]針對(duì)低空弱小無(wú)人機(jī)目標(biāo)檢測(cè)場(chǎng)景,建立了一個(gè)由15 000張無(wú)人機(jī)目標(biāo)圖像組成的訓(xùn)練數(shù)據(jù)庫(kù),但是該數(shù)據(jù)集是從大型網(wǎng)絡(luò)圖像數(shù)據(jù)庫(kù)中搜索和在包含無(wú)人機(jī)目標(biāo)的視頻中截取,并沒(méi)有充分考慮低空目標(biāo)場(chǎng)景。因此,本文通過(guò)研究目標(biāo)檢測(cè)領(lǐng)域主流的數(shù)據(jù)集,針對(duì)當(dāng)前低空無(wú)人機(jī)檢測(cè)領(lǐng)域?qū)崪y(cè)數(shù)據(jù)樣本匱乏的情況,為提高深度神經(jīng)網(wǎng)絡(luò)模型的檢測(cè)精度和泛化能力,建立了一個(gè)低空背景下的旋翼無(wú)人機(jī)目標(biāo)圖像數(shù)據(jù)集,充分考慮了低空?qǐng)鼍跋碌母鞣N背景、目標(biāo)的尺度、姿態(tài)及可能的負(fù)樣本。
利用大疆無(wú)人機(jī)(包括4種型號(hào),DJI Inspire、DJI Phantom4、DJI Marvic Air、DJI Marvic PRO)在中國(guó)科學(xué)院國(guó)家空間科學(xué)中心懷柔園區(qū)附近進(jìn)行試飛,并實(shí)地拍攝無(wú)人機(jī)多尺度照片,由于拍攝場(chǎng)景單一,無(wú)人機(jī)種類少等條件限制,實(shí)地拍攝的圖片較少,僅挑選出500張作為數(shù)據(jù)集圖片,不能滿足神經(jīng)網(wǎng)絡(luò)訓(xùn)練的需要,因此,本文采用借鑒CVPR The 1 st Anti-UAV Workshop & Challenge(CVPR第一屆“反無(wú)人機(jī)”挑戰(zhàn)賽)的數(shù)據(jù)集和合成圖像兩種方式擴(kuò)充無(wú)人機(jī)數(shù)據(jù)集。
(1)CVPR第一屆“反無(wú)人機(jī)”挑戰(zhàn)賽共有160段高質(zhì)量的全高清視頻序列,并且涵蓋了不同的場(chǎng)景和尺寸,包括云霧、樓宇、虛假目標(biāo)、懸停、遮擋、尺度變化等??紤]到視頻序列相鄰幀的相似性,每隔0.5 s取一幀圖片。
(2)對(duì)于合成圖像,遵循以下原則:
目標(biāo)圖像:數(shù)據(jù)集中包括單個(gè)目標(biāo)的圖像和兩個(gè)目標(biāo)的圖像,比例為2∶8。
目標(biāo)尺寸比例:本文考慮了低空?qǐng)鼍跋聼o(wú)人機(jī)的尺度變化問(wèn)題,借鑒COCO數(shù)據(jù)集中對(duì)于目標(biāo)尺度的劃分,小目標(biāo)的尺寸為15×15~32×32像素,中目標(biāo)的尺寸為32×32~96×96像素,大目標(biāo)的尺寸為96×96~256×256像素,由于小目標(biāo)檢測(cè)難度較大,因此小目標(biāo)的樣本數(shù)量更多,具體的目標(biāo)比例關(guān)系為,大、中、小目標(biāo)=2∶3∶4。
具體合成步驟為:
獲取目標(biāo)圖像:首先,在大型圖像數(shù)據(jù)庫(kù)中搜索得到30類無(wú)人機(jī)圖像,然后進(jìn)行背景剔除,考慮到在實(shí)際檢測(cè)過(guò)程中,視野中可能會(huì)出現(xiàn)一些干擾目標(biāo),比如風(fēng)箏、鳥(niǎo)類等,因此,也處理得到了透明背景的鳥(niǎo)類和風(fēng)箏各20類。然后利用opencv圖像處理庫(kù),引入隨機(jī)函數(shù),編寫(xiě)程序?qū)崿F(xiàn)對(duì)無(wú)人機(jī)的尺寸、旋轉(zhuǎn)角度的隨機(jī)設(shè)置,模擬實(shí)際場(chǎng)景下無(wú)人機(jī)在低空中不同的飛行姿態(tài)和拍攝距離。
獲取背景圖像:在實(shí)際拍攝的背景圖像上進(jìn)行分割,步進(jìn)值為200像素,分割成300×300像素大小的圖像,最終選擇包含天空、白云、樹(shù)木、樓房、電線桿、旗桿等背景的圖像1000張。
合成圖像:通過(guò)程序?qū)⒛繕?biāo)隨機(jī)組合在背景圖像上,最后對(duì)整張圖片進(jìn)行高斯噪聲處理,模擬實(shí)際場(chǎng)景中空氣、光線、陰影的影響,并根據(jù)保存的隨機(jī)坐標(biāo)的值,輸出每張圖片的標(biāo)注數(shù)據(jù),然后轉(zhuǎn)換為Pascal VOC數(shù)據(jù)格式。
通過(guò)3種圖像獲取途徑,最終得到包含16 000張訓(xùn)練集、2000張驗(yàn)證集和2000張測(cè)試集的低空無(wú)人機(jī)數(shù)據(jù)集。圖1展示了部分?jǐn)?shù)據(jù)集樣本。
圖1 數(shù)據(jù)集樣本示例
對(duì)低空無(wú)人機(jī)的檢測(cè)不僅要考慮檢測(cè)準(zhǔn)確性,還要考慮檢測(cè)速度,本文基于自建數(shù)據(jù)集,實(shí)驗(yàn)對(duì)比了Faster RCNN、YOLO、SSD等,最后選擇在檢測(cè)準(zhǔn)確性和檢測(cè)速度方面表現(xiàn)較好的SSD網(wǎng)絡(luò)作為本文的改進(jìn)基礎(chǔ)網(wǎng)絡(luò)及baseline。
SSD使用了卷積網(wǎng)絡(luò)的多層特征圖,因?yàn)檫@些特征圖是前向網(wǎng)絡(luò)計(jì)算出來(lái)的,沒(méi)有消耗額外的計(jì)算資源,因此并不影響檢測(cè)速度,但是SSD丟棄了低層的特征圖,直接從VGG16網(wǎng)絡(luò)的Conv4_3層開(kāi)始構(gòu)建特征圖,將VGG16的最后兩個(gè)全連接層變?yōu)榫矸e層Conv6和Conv7,然后利用Conv8_2、Conv9_2、Conv10_2和Conv11_2卷積層,去掉Conv6卷積層,共利用6個(gè)卷積層,特征圖尺寸分別為(38,38),(19,19),(10,10),(5,5),(3,3),(1,1)(單位為像素,后文未注明單位一律為像素),具體結(jié)構(gòu)如圖2所示。
圖2 VGG16結(jié)構(gòu)
可以看到,在VGG16網(wǎng)絡(luò)結(jié)構(gòu)圖中,Conv4_3屬于較高的卷積層,大小為38×38,本文數(shù)據(jù)集圖片大小為300×300,小目標(biāo)無(wú)人機(jī)的尺寸最大在30×30左右,Conv4_3特征圖中,無(wú)人機(jī)目標(biāo)的特征大小為4×4左右,小目標(biāo)的低層細(xì)節(jié)特征表達(dá)不明顯,所以本文在SSD網(wǎng)絡(luò)中添加Conv3_3卷積層,Conv3_3比Conv4_3的特征圖大一倍,30×30無(wú)人機(jī)的特征大小為8×8左右,Conv3_3增強(qiáng)了低層特征圖對(duì)于小目標(biāo)無(wú)人機(jī)的特征表達(dá)。
Conv8_2的特征圖大小為10×10,相比于原圖片,縮小了30倍,30×30的無(wú)人機(jī)目標(biāo)在此特征圖上的特征變成了一個(gè)像素,語(yǔ)義信息豐富(高層特征,比如機(jī)翼、攝像頭等),但是失去了低層特征(比如邊緣、紋理等細(xì)節(jié)信息)的表達(dá)。所以,本文將Conv3_3,Conv4_3,Conv7,Conv8_2這4個(gè)特征圖構(gòu)建為FPN(特征金字塔網(wǎng)絡(luò))[11],將細(xì)節(jié)信息較多的低層特征和語(yǔ)義信息較多的高層特征進(jìn)行融合。
FPN包含兩個(gè)部分:第一部分是自底向上的過(guò)程,第二部分是自頂向下和側(cè)向連接的特征融合過(guò)程。
自底向上的過(guò)程:自底向上的過(guò)程和普通的CNN沒(méi)有區(qū)別。現(xiàn)代的CNN網(wǎng)絡(luò)一般都是按照特征圖大小劃分為不同的階段,每個(gè)階段之間特征圖的尺度比例相差為2。Conv3_3,Conv4_3,Conv7,Conv8_2這4個(gè)特征圖的尺度比例依次降低,相對(duì)于原圖的步長(zhǎng)分別為4、8、16、32。同時(shí),通道數(shù)保持原來(lái)不變。
自頂向下過(guò)程以及側(cè)向連接:自頂向下的過(guò)程通過(guò)上采樣的方式將頂層的小特征圖(例如Conv8_2的尺寸為10×10)放大到上一個(gè)特征圖一樣的大小(例如Conv7的尺寸為19×19)。既利用了高層較強(qiáng)的語(yǔ)義特征(利于分類),又利用了低層的高分辨率信息(利于定位)。上采樣利用最近鄰差值算法。
同時(shí),為了將高層語(yǔ)義特征和低層的精確定位能力結(jié)合,借鑒殘差網(wǎng)絡(luò)的側(cè)向連接結(jié)構(gòu),將上一層經(jīng)過(guò)上采樣后和當(dāng)前層分辨率一致的特征,通過(guò)相加的方法進(jìn)行融合。因?yàn)椴煌卣鲌D的通道數(shù)可能不同,所以為了修正通道數(shù)量,將當(dāng)前特征圖先經(jīng)過(guò)卷積操作,具體結(jié)構(gòu)如圖3所示。
圖3 FPN結(jié)構(gòu)
Conv8_2特征圖先經(jīng)過(guò)卷積,得到M4特征圖。M4通過(guò)上采樣,再加上Conv7特征圖,經(jīng)過(guò)卷積后的特征,得到M3。這個(gè)過(guò)程再做兩次,分別得到M2和M1。M層特征再經(jīng)過(guò)卷積,得到最終的P1、P2、P3、P4層特征。
本文中,所有M層的通道數(shù)設(shè)計(jì)成256。
同時(shí),為保證SSD網(wǎng)絡(luò)對(duì)于大、中尺度無(wú)人機(jī)目標(biāo)檢測(cè)的魯棒性,保留了更高層的特征圖,所以,本文利用了7個(gè)特征圖進(jìn)行檢測(cè)。圖4展示了該檢測(cè)模型的總體結(jié)構(gòu)。從圖4可以看到,用于檢測(cè)的特征圖包括FPN特征提取層(最終輸出為4個(gè)特征圖)和其余3個(gè)更高層次的特征圖。低層特征圖提取的是無(wú)人機(jī)的細(xì)節(jié)信息,例如旋翼的邊緣輪廓、機(jī)身的紋理等,而高層特征圖將細(xì)節(jié)信息進(jìn)行融合,可以提取到旋翼類型、機(jī)身、攝像頭,直至無(wú)人機(jī)類型等高層特征。
圖4 基于FPN的SSD檢測(cè)框架結(jié)構(gòu)
文獻(xiàn)[12]的研究證明,理論感受野區(qū)域內(nèi)的像素對(duì)輸出向量的貢獻(xiàn)不同,對(duì)有效感受野(實(shí)際起作用的感受野)的影響呈高斯分布,有效感受野僅占理論感受野的一部分,且從中心到邊緣快速衰減。有效感受野實(shí)際上是遠(yuǎn)小于理論感受野的,并且由于卷積初始化、激活函數(shù)等不同,感受野的具體形態(tài)也有所區(qū)別。
在設(shè)計(jì)先驗(yàn)框時(shí),其大小應(yīng)該和特征圖的有效感受野相匹配。先驗(yàn)框過(guò)大或過(guò)小都會(huì)導(dǎo)致與檢測(cè)目標(biāo)的IOU過(guò)小,很難回歸到Ground Truth,從而使得召回率較低。
為了設(shè)計(jì)更加符合有效感受野尺寸的先驗(yàn)框,本文計(jì)算了各個(gè)特征圖的理論感受野。以Conv3_3為例,對(duì)于理論感受野的計(jì)算,采用從頂層到淺層的計(jì)算方式,Conv3_3的預(yù)測(cè)層采用尺寸為3×3,stride為1的卷積核,所以預(yù)測(cè)層的一個(gè)點(diǎn)映射到預(yù)測(cè)層的輸入就是3×3的區(qū)域,Conv3_3輸出的3×3的區(qū)域映射到Conv3_3的輸入層,就是5×5的區(qū)域,5×5的區(qū)域映射到Conv3_2的輸入就是7×7的區(qū)域,Conv3_2的輸入是Conv3_1的輸出,因此Conv3_1輸出的7×7區(qū)域映射到Conv3_1層,就是9×9的區(qū)域,相同的計(jì)算方式,映射到Conv1_1的輸入是48×48的區(qū)域,因?yàn)镃onv1_1的輸入就是原始輸入圖像,所以Conv3_3預(yù)測(cè)層的理論感受野是48×48。
利用同樣的計(jì)算方法,可以得到Conv4_3特征圖的理論感受野為108×108。原始SSD中Conv4_3特征圖中設(shè)置的先驗(yàn)框最小尺寸為30×30,最大尺寸為42×42,對(duì)于數(shù)據(jù)集中15×15的小目標(biāo)來(lái)說(shuō),最小先驗(yàn)框的尺寸是小目標(biāo)無(wú)人機(jī)的近兩倍。
從圖5中可以看到,有效感受野的尺寸大于小目標(biāo)的尺寸,先驗(yàn)框的尺寸設(shè)置和無(wú)人機(jī)的尺寸不匹配,在先驗(yàn)框坐標(biāo)回歸時(shí),會(huì)造成先驗(yàn)框和目標(biāo)不能有效匹配。
圖5 Conv4_3特征圖先驗(yàn)框與感受野匹配
因此,鑒于Conv4_3卷積層有效感受野大于目標(biāo)尺寸的情況,本文研究了Conv3_3卷積層的有效感受野,Conv3_3的理論感受野為48×48,借鑒文獻(xiàn)[12]的研究成果,圖6展示了Conv3_3特征圖下最小尺寸15×15的無(wú)人機(jī)、有效感受野、理論感受野的關(guān)系。
圖6 Conv3_3特征圖先驗(yàn)框與感受野
15×15尺寸的無(wú)人機(jī)與Conv3_3層的有效感受野大小基本相同,因此,將Conv3_3卷積層的先驗(yàn)框尺寸設(shè)計(jì)為15×15左右,可有效回歸至小目標(biāo)無(wú)人機(jī)位置,并在后續(xù)的實(shí)驗(yàn)中得以驗(yàn)證。之后的卷積層利用有效感受野依次設(shè)計(jì)先驗(yàn)框。
原始的SSD先驗(yàn)框尺寸和長(zhǎng)寬比設(shè)計(jì)如下:
先驗(yàn)框的尺寸,按照以下公式線性遞增,高層特征圖的先驗(yàn)框尺寸較大
(1)
其中,m指的除了Conv4_3層的特征圖個(gè)數(shù)。sk表示先驗(yàn)框尺寸相對(duì)于圖片的比例,而smax和smin表示比例的最小值與最大值。
對(duì)于之后的特征圖,先驗(yàn)框尺寸線性增加,先將尺寸比例擴(kuò)大100倍,增長(zhǎng)步長(zhǎng)為
(2)
將各個(gè)特征圖的比例除以100,再乘以圖片大小,最終得到各個(gè)特征圖的尺度。
(3)
(4)
圖7 先驗(yàn)框尺寸和長(zhǎng)寬比設(shè)計(jì)
通過(guò)計(jì)算Conv3_3之后各個(gè)卷積層的理論感受野,對(duì)比實(shí)際感受野和按照上述計(jì)算方法得到的先驗(yàn)框尺寸,發(fā)現(xiàn)兩者相對(duì)契合,因此,Conv3_3之后的先驗(yàn)框按照尺寸按照上述方法計(jì)算。
經(jīng)過(guò)計(jì)算,表1展示了檢測(cè)模型中各個(gè)卷積層的先驗(yàn)框尺寸和理論感受野大小。min_size、max_size分別代表每個(gè)卷積層的先驗(yàn)框尺寸,具體的先驗(yàn)框尺寸和數(shù)量由上述公式得出,RF代表每個(gè)卷積層的理論感受野,隨著卷積層的加深,理論感受野逐漸增加,因此先驗(yàn)框的尺寸設(shè)置也越來(lái)越大,檢測(cè)目標(biāo)的尺寸也逐漸增大,這樣的先驗(yàn)框設(shè)置是相對(duì)合理的。
表1 先驗(yàn)框尺寸設(shè)計(jì)和理論感受野大小
先驗(yàn)框的數(shù)量設(shè)計(jì)其實(shí)就是其長(zhǎng)寬比例選擇,因?yàn)閿?shù)據(jù)集中目標(biāo)具有不同的長(zhǎng)寬比例,如果先驗(yàn)框的長(zhǎng)寬比例與目標(biāo)相似,將有助于更快、更準(zhǔn)確地進(jìn)行先驗(yàn)框回歸。
SSD模型共提取了Conv4_3,Conv7,Conv8_2,Conv9_2,Conv10_2,Conv11_2共6個(gè)特征圖,大小為(38,38),(19,19),(10,10),(5,5),(3,3),(1,1),Conv4_3,Conv10_2和Conv11_2層僅使用4個(gè)先驗(yàn)框(兩個(gè)1∶1比例,2、1/2比例),沒(méi)有3、1/3比例的先驗(yàn)框,總的先驗(yàn)框數(shù)量為
38×38×4+19×19×6+10×10×6+5×5×6+
3×3×4+1×1×4=8732
改進(jìn)的基于FPN的SSD檢測(cè)框架增加了Conv3_3的特征圖,因?yàn)樵黾拥奶卣鲌D位于前面的卷積層,尺寸較大,如果每個(gè)位置設(shè)置4或6個(gè)先驗(yàn)框,那么先驗(yàn)框數(shù)量的暴增將帶來(lái)檢測(cè)速度的急劇下降,為了減少計(jì)算的復(fù)雜度,同時(shí)考慮此卷積層主要用于檢測(cè)15~30范圍的小目標(biāo),因此Conv3_3特征圖上每個(gè)單元的先驗(yàn)框只設(shè)置一個(gè),尺寸為先驗(yàn)框最小尺寸,尺度比例為1,最終的先驗(yàn)框數(shù)量為
75×75×1+38×38×4+19×19×6+10×10×6+
5×5×6+3×3×4+1×1×4=14 357
相比于原來(lái)的8732個(gè)先驗(yàn)框,數(shù)量增加了64%,但是增加的都是小先驗(yàn)框,增強(qiáng)了小目標(biāo)檢測(cè)能力。
為了研究不同先驗(yàn)框比例對(duì)檢測(cè)效果的影響,本文設(shè)置了對(duì)比實(shí)驗(yàn)。
(1)去除3、1/3比例的先驗(yàn)框
75×75×1+38×38×4+19×19×4+10×10×4+
5×5×4+3×3×4+1×1×4=13 385
(2)去除2、1/2、3、1/3比例的先驗(yàn)框
75×75×1+38×38×2+19×19×2+10×10×2+
5×5×2+3×3×2+1×1×2=9505
表2顯示了不同先驗(yàn)框數(shù)量對(duì)應(yīng)的先驗(yàn)框長(zhǎng)寬比例情況。
表2 先驗(yàn)框數(shù)量設(shè)計(jì)
以13 385先驗(yàn)框設(shè)計(jì)為例,表3分析了不同卷積層下先驗(yàn)框的數(shù)量情況。
表3 不同卷積層的先驗(yàn)框數(shù)量信息
Conv3_3特征圖的先驗(yàn)框尺寸為20×20左右,數(shù)量為5625,占所有先驗(yàn)框數(shù)量的42%,Conv4_3特征圖先驗(yàn)框尺寸為35×35左右,數(shù)量為5776,占所有先驗(yàn)框數(shù)量的43%,這些較小先驗(yàn)框,占先驗(yàn)框總量的85%左右,數(shù)量多而密集,能夠更加有效地檢測(cè)小目標(biāo),而更深的卷積層先
驗(yàn)框尺寸大,但是少而稀疏,用于檢測(cè)較大目標(biāo),這種設(shè)計(jì)更加科學(xué),適用于多尺度的目標(biāo)檢測(cè)場(chǎng)景。
本文選用PyTorch深度學(xué)習(xí)框架,PyTorch提供易于使用的API,不僅具有強(qiáng)大的GPU加速的張量計(jì)算,同時(shí)還支持自動(dòng)求導(dǎo)動(dòng)態(tài)神經(jīng)網(wǎng)絡(luò),具體的軟硬件開(kāi)發(fā)環(huán)境見(jiàn)表4。
表4 實(shí)驗(yàn)開(kāi)發(fā)環(huán)境
基礎(chǔ)網(wǎng)絡(luò)采用在VOC2007+2012數(shù)據(jù)集上的預(yù)訓(xùn)練模型,并將網(wǎng)絡(luò)的預(yù)測(cè)卷積層權(quán)重進(jìn)行隨機(jī)初始化。訓(xùn)練階段采取10折交叉驗(yàn)證的方法,網(wǎng)絡(luò)批大小(batch size)設(shè)為32,采用Adam優(yōu)化器,將網(wǎng)絡(luò)訓(xùn)練分為兩個(gè)階段。首先固定VGG16卷積部分的權(quán)值,單獨(dú)訓(xùn)練被隨機(jī)初始化的部分,初始學(xué)習(xí)率設(shè)為0.001,學(xué)習(xí)率每個(gè)epoch下降為原來(lái)的0.94;當(dāng)網(wǎng)絡(luò)AP上升并逐漸收斂時(shí),再調(diào)整VGG16卷積部分的權(quán)值,由于網(wǎng)絡(luò)已經(jīng)經(jīng)過(guò)調(diào)整,所以將初始學(xué)習(xí)率下降為0.0001,開(kāi)始對(duì)整個(gè)網(wǎng)絡(luò)進(jìn)行訓(xùn)練,學(xué)習(xí)率下降到0.000 01后不再變化。
目標(biāo)檢測(cè)中常用的指標(biāo)包括真正例(true positive,TP)、假正例(false positive,F(xiàn)P)、假反例(false negative,F(xiàn)N),其中TP表示正確識(shí)別的正樣本數(shù)量,TN表示正確識(shí)別的負(fù)樣本數(shù)量,F(xiàn)P表示錯(cuò)誤識(shí)別的正樣本數(shù)量,F(xiàn)N表示錯(cuò)誤識(shí)別的負(fù)樣本數(shù)量。在此基礎(chǔ)上,精確率(precision)和召回率(recall)可以定義為
(5)
(6)
單一的precision或recall指標(biāo)并不能全面衡量檢測(cè)算法的性能,因此本文選取平均精度(average precision,AP)作為檢測(cè)算法的評(píng)價(jià)指標(biāo),其計(jì)算方法為:將某類目標(biāo)的檢測(cè)結(jié)果按照置信度排序,以置信度為閾值進(jìn)行劃分,根據(jù)不同的Recall (R0,R1,…,Rn) 下對(duì)應(yīng)的最大Precision (P0,P1,…,Pn), 求平均精度AP,計(jì)算公式為
(7)
(1)在SSD檢測(cè)網(wǎng)絡(luò)中加入了改進(jìn)后的特征金字塔提取器,通過(guò)加入Conv3_3卷積層提高小目標(biāo)檢測(cè)能力,為了研究不同尺度比例的先驗(yàn)框的檢測(cè)影響,設(shè)計(jì)3種不同數(shù)量的先驗(yàn)框,并與Faster R-CNN(ResNet101)和YOLOv3(Darknet-53)模型,在無(wú)人機(jī)目標(biāo)和鳥(niǎo)、風(fēng)箏兩類負(fù)樣本上進(jìn)行了對(duì)比實(shí)驗(yàn)。實(shí)驗(yàn)結(jié)果見(jiàn)表5。
表5 不同數(shù)量先驗(yàn)框和模型的檢測(cè)準(zhǔn)確率和速度對(duì)比
baseline是原始SSD檢測(cè)網(wǎng)絡(luò)的檢測(cè)結(jié)果,F(xiàn)aster R-CNN 的mAP最高,但檢測(cè)速度很慢,每秒只能檢測(cè)8張圖片,YOLOv3通過(guò)引入特征金字塔、殘差網(wǎng)絡(luò)等思想,增加了計(jì)算量,檢測(cè)準(zhǔn)確率略高于SSD,但是檢測(cè)速度低于SSD。
由于添加了尺寸較大的Conv3_3特征圖,導(dǎo)致先驗(yàn)框的數(shù)量增加,由表5看出,先驗(yàn)框的數(shù)量為14 357時(shí),無(wú)人機(jī)的檢測(cè)準(zhǔn)確率最高,為87.83%,但是檢測(cè)的速度較慢,為0.04 s/幀。
當(dāng)先驗(yàn)框數(shù)量為13 385時(shí),無(wú)人機(jī)的檢測(cè)準(zhǔn)確率為87.57%,略低于87.83%,但是此時(shí)模型的檢測(cè)速度為0.031 s/幀,相比于0.04 s/幀,下降了28%。改進(jìn)后的模型相比于原始的SSD、YOLOv3和Faster R-CNN,取得了更好的檢測(cè)效果。
從檢測(cè)實(shí)時(shí)性的角度考慮,先驗(yàn)框數(shù)量為13 385(即刪除所有3、1/3比例的先驗(yàn)框)時(shí)表現(xiàn)較優(yōu),具有較好的實(shí)用價(jià)值。
(2)除了在不同種類的目標(biāo)下進(jìn)行不同比例先驗(yàn)框的對(duì)比實(shí)驗(yàn),本文還研究了不同比例先驗(yàn)框?qū)Χ喑叨葻o(wú)人機(jī)目標(biāo)的檢測(cè)影響。
影響表6中baseline檢測(cè)效果的主要是小目標(biāo)無(wú)人機(jī),雖然小目標(biāo)樣本最多,但是檢測(cè)準(zhǔn)確率較低,在加入Conv3_3低層特征圖,融合了低層特征和高層特征,構(gòu)建特征金字塔網(wǎng)絡(luò)后,當(dāng)先驗(yàn)框數(shù)量為14 357時(shí),小目標(biāo)的檢測(cè)AP從71.64%提高到了84.65%,相比于小目標(biāo),對(duì)大、中無(wú)人機(jī)目標(biāo)的檢測(cè)效果并沒(méi)有提高太多,這也符合最初的網(wǎng)絡(luò)設(shè)計(jì)構(gòu)想,低層特征圖先驗(yàn)框小,主要用于檢測(cè)小目標(biāo),實(shí)驗(yàn)結(jié)果表明特征融合提高了小目標(biāo)的檢測(cè)準(zhǔn)確率,并且對(duì)大、中目標(biāo)的語(yǔ)義理解能力也有提高。
表6 不同數(shù)量先驗(yàn)框?qū)Ω鞒叽鐭o(wú)人機(jī)的檢測(cè)結(jié)果
然后,在去除Conv7、Conv8_2、Conv9_2卷積層中3、1/3比例先驗(yàn)框之后,數(shù)量減少為13 385,此時(shí),對(duì)小目標(biāo)無(wú)人機(jī)的檢測(cè)準(zhǔn)確率幾乎沒(méi)有影響,而對(duì)于大、中目標(biāo)的
影響雖然比小目標(biāo)大,但是影響也很小,因?yàn)?、1/3比例的先驗(yàn)框都在較深的卷積層內(nèi),主要預(yù)測(cè)大、中目標(biāo)。
最后,去除了所有2、1/2比例的先驗(yàn)框,因?yàn)楹芏嗄繕?biāo)的尺寸都是這個(gè)比例,并且除了新添加的Conv3_3卷積層外,所有的卷積層都設(shè)置了這個(gè)比例的先驗(yàn)框,因此,檢測(cè)準(zhǔn)確率全部降低,甚至跌到了baseline以下,但是小目標(biāo)的檢測(cè)效果還是比baseline要好,提高了12%左右,這進(jìn)一步說(shuō)明了Conv3_3卷積層對(duì)于小目標(biāo)檢測(cè)的作用,并且由于Conv3_3卷積層原來(lái)也只有1比例的先驗(yàn)框,因此對(duì)于小目標(biāo)的檢測(cè)準(zhǔn)確率幾乎沒(méi)有降低。
考慮到檢測(cè)實(shí)時(shí)性,去除3、1/3比例的先驗(yàn)框?qū)o(wú)人機(jī)的檢測(cè)準(zhǔn)確率并沒(méi)有太大影響,因此在實(shí)際應(yīng)用時(shí),應(yīng)優(yōu)先考慮使用先驗(yàn)框數(shù)量為13 385的檢測(cè)算法。
(3)不同卷積層對(duì)各尺寸無(wú)人機(jī)的檢測(cè)影響。在對(duì)無(wú)人機(jī)的實(shí)際檢測(cè)過(guò)程中,可能會(huì)有不同的檢測(cè)需求,比如某段時(shí)間需要重點(diǎn)關(guān)注大目標(biāo)無(wú)人機(jī),某段時(shí)間需要檢測(cè)小目標(biāo),為了滿足這種模塊化定制需求,同時(shí)為了更加深入了解模型中各個(gè)卷積層對(duì)不同尺寸目標(biāo)的檢測(cè)能力,本文通過(guò)去除不同的卷積層,實(shí)驗(yàn)對(duì)比不同卷積層對(duì)各尺度無(wú)人機(jī)的檢測(cè)效果,表7中的標(biāo)記代表去除該卷積層。
表7 不同卷積層對(duì)各尺寸無(wú)人機(jī)的檢測(cè)影響
分析表7的結(jié)果,Conv3_3卷積層對(duì)小目標(biāo)的檢測(cè)效果影響最大,對(duì)大、中尺寸目標(biāo)的檢測(cè)效果影響較小,去除該卷積層后,小目標(biāo)檢測(cè)AP降低了13.2%,之后的各卷積層對(duì)檢測(cè)效果的影響逐步降低,值得注意的是,更深的卷積層對(duì)小目標(biāo)檢測(cè)結(jié)果依然有影響,說(shuō)明小目標(biāo)的語(yǔ)義信息在深層卷積層中得到了表達(dá)。Conv4_3卷積層對(duì)中目標(biāo)的影響最大,AP降低了17.3%,這說(shuō)明,原來(lái)的SSD檢測(cè)模型最低的卷積層用以預(yù)測(cè)中等尺寸目標(biāo),并沒(méi)有對(duì)小目標(biāo)給予過(guò)多考慮。對(duì)大目標(biāo)影響較大的是Conv7及Conv8_2卷積層,分別為20.3%和14.3%。
另外,由表7可以看到,Conv9_2及更深的卷積層對(duì)大尺寸無(wú)人機(jī)目標(biāo)的影響較小,這可能是因?yàn)楸緮?shù)據(jù)集中無(wú)人機(jī)的尺寸較小,最大的無(wú)人機(jī)尺寸為256×256,而高層卷積層用以檢測(cè)更大尺寸的目標(biāo),因此,在本數(shù)據(jù)集下,出于降低模型復(fù)雜度和檢測(cè)時(shí)間的考慮,可以適當(dāng)?shù)馗鶕?jù)不同的檢測(cè)需求,精簡(jiǎn)對(duì)檢測(cè)效果影響較小的卷積層。
圖8(a)和圖8(b)展示了原始SSD網(wǎng)絡(luò)與改進(jìn)后的模型(先驗(yàn)框數(shù)量為13 385)在實(shí)地拍攝的無(wú)人機(jī)圖像上的檢測(cè)對(duì)比結(jié)果,圖8(a)為改進(jìn)前的檢測(cè)結(jié)果,圖8(b)為改進(jìn)后的檢測(cè)結(jié)果。圖8(c)是在CVPR無(wú)人機(jī)挑戰(zhàn)賽視頻序列上的檢測(cè)結(jié)果??梢钥吹?,在背景單一,目標(biāo)尺寸較大的情況下,無(wú)人機(jī)的檢測(cè)準(zhǔn)確率高,而對(duì)于背景復(fù)雜,目標(biāo)較小且模糊的情況,檢測(cè)準(zhǔn)確率較低。
圖8 檢測(cè)結(jié)果
本文針對(duì)低空無(wú)人機(jī)檢測(cè)的實(shí)際需求,提出了基于SSD模型改進(jìn)的檢測(cè)算法。建立了低空?qǐng)鼍跋碌亩喑叨葻o(wú)人機(jī)數(shù)據(jù)集,通過(guò)引入VGG16特征提取網(wǎng)絡(luò)的低層特征圖Conv3_3,有效改善小目標(biāo)無(wú)人機(jī)的檢測(cè)效果,通過(guò)構(gòu)建特征金字塔,增強(qiáng)了多尺度目標(biāo)檢測(cè)能力。
接著分析理論感受野、有效感受野和SSD先驗(yàn)框的設(shè)計(jì)原理,利用有效感受野技術(shù),重新設(shè)計(jì)了各特征圖的先驗(yàn)框的尺寸和長(zhǎng)寬比,使先驗(yàn)框與無(wú)人機(jī)目標(biāo)相匹配,并進(jìn)行不同先驗(yàn)框數(shù)量的對(duì)比實(shí)驗(yàn)。從檢測(cè)實(shí)時(shí)性的角度考慮,先驗(yàn)框數(shù)量為13 385(即刪除所有3、1/3比例的先驗(yàn)框)時(shí)表現(xiàn)較優(yōu),相比于原始的SSD檢測(cè)網(wǎng)絡(luò),無(wú)人機(jī)的檢測(cè)AP提高了7.32%,小目標(biāo)無(wú)人機(jī)的檢測(cè)AP提高了12.89%。
實(shí)驗(yàn)結(jié)果表明,本文所提出的改進(jìn)SSD檢測(cè)算法在低空無(wú)人機(jī)檢測(cè)場(chǎng)景中具有很好的多尺度目標(biāo)檢測(cè)能力,并且具有較好的實(shí)時(shí)性和抗干擾能力,在工程應(yīng)用上具有一定的參考價(jià)值。
雖然優(yōu)化后的方法相較于原始方法在檢測(cè)性能上有較大提升,但仍存在一些不足:①無(wú)人機(jī)目標(biāo)的類別較少,接下來(lái)的研究工作可獲取更多類別和姿態(tài)的無(wú)人機(jī)圖像;②無(wú)人機(jī)圖像光照條件單一,沒(méi)有考慮傍晚或夜間光照下的檢測(cè)問(wèn)題,使得該檢測(cè)算法應(yīng)用場(chǎng)景受限,之后的研究將完善這些不足。