劉玉雯,吳玲玲,聶 亮,陳 靖
(西安工業(yè)大學(xué) 光電工程學(xué)院,西安 710021)
隨著光學(xué)技術(shù)的飛速發(fā)展,在航空航天、衛(wèi)星遙感、軍事偵察等多領(lǐng)域,高分辨率光學(xué)成像系統(tǒng)得到了廣泛應(yīng)用與重視。目前,大口徑單一光學(xué)鏡片因受成本、工藝、運(yùn)輸?shù)纫蛩叵拗坪透叻直媛实囊?,其生產(chǎn)工藝已達(dá)到極限。因此,突破傳統(tǒng)限制,探索新技術(shù),研制高分辨率合成孔徑成為現(xiàn)代光學(xué)領(lǐng)域的熱點。
2006年洛克希德·馬丁先進(jìn)技術(shù)中心建成九望遠(yuǎn)鏡陣列測試床;哈爾濱工業(yè)大學(xué)進(jìn)行了分片式多鏡面成像系統(tǒng)研究及合成孔徑的地面演示系統(tǒng)研制;西安光機(jī)所研究了合成孔徑的成像理論,并對孔徑優(yōu)化和系統(tǒng)相差等關(guān)鍵問題進(jìn)行分析;解放軍信息工程大學(xué)對光瞳優(yōu)化、活塞誤差和圖像復(fù)原進(jìn)行了研究。
無人機(jī)作為“低小慢”目標(biāo)的典型代表,是低空安全的重點觀測對象。“低小慢”無人機(jī)的誕生,使無人機(jī)具備更好的靈活性、機(jī)動性、易操控等特點,無人機(jī)被航拍愛好者使用的同時也被不法分子所利用,嚴(yán)重威脅到社會公共安全和國家安全。
2016年美國國防部加快推進(jìn)相位高功率微波武器攔截?zé)o人機(jī)實驗,通過蝶形密集天線發(fā)射高功率微波,擊穿無人機(jī)內(nèi)部電子器件。2017年德國萊茵金屬公司將多種探測器與槍炮導(dǎo)彈集成在一套系統(tǒng)上,直接指引槍炮進(jìn)行打擊。2018年北斗實驗室發(fā)布了全新的反無人機(jī)系統(tǒng),是我國首套采用干擾誘騙方式的反無人機(jī)系統(tǒng)。2019年,鈕賽賽等首次將深度學(xué)習(xí)算法引入紅外探測無人機(jī)目標(biāo)中,證明深度學(xué)習(xí)識別效果明顯優(yōu)于傳統(tǒng)的模塊匹配算法。2020年,劉宜成等提出了一種基于軌跡和形態(tài)識別的無人機(jī)檢測方法,模擬鳥類飛行軌跡實現(xiàn)無人機(jī)的檢測和識別。徐融借鑒DenseNet思想,采用密集連接的方式將淺層特征網(wǎng)圖直接傳輸?shù)缴顚油叨染矸e層,并改進(jìn)YOLOv3的損失函數(shù),在小目標(biāo)檢測上具有更低的漏檢率。
將光學(xué)合成孔徑成像系統(tǒng)應(yīng)用于識別探測“低小慢”目標(biāo),是合成孔徑系統(tǒng)在低空領(lǐng)域成像的首次應(yīng)用。基于YOLOv3的小目標(biāo)識別方法,大多為在特征提取網(wǎng)絡(luò)進(jìn)行卷積層的加深或優(yōu)化目標(biāo)識別的損失函數(shù)。本文針對光學(xué)合成孔徑“低小慢”目標(biāo)的成像特點,提出一種改進(jìn)YOLOv3主干網(wǎng)絡(luò)的算法,加強(qiáng)對淺層網(wǎng)絡(luò)的特征提取能力,并根據(jù)數(shù)據(jù)集的標(biāo)注信息進(jìn)行先驗框聚類,得到適合本次研究目標(biāo)的先驗框尺度。本文針對“低小慢”目標(biāo)的底層信息,從輕量化主干網(wǎng)絡(luò)方面優(yōu)化YOLOv3網(wǎng)絡(luò),得到一種收斂迅速、識別準(zhǔn)確率較高的YOLOv3網(wǎng)絡(luò)模型。
光學(xué)合成孔徑是將多個小孔徑光學(xué)系統(tǒng)按照一定的組合規(guī)律排列,組成等效的大型綜合光學(xué)系統(tǒng)。本次研究基于環(huán)形七孔結(jié)構(gòu),分析其光瞳結(jié)構(gòu)及成像規(guī)律。環(huán)型陣列的子孔徑等間隔分布在環(huán)帶上,相鄰子孔徑中心的距離與它們到外接圓圓心距離相同。根據(jù)計算可得七孔徑光瞳相對坐標(biāo),分別是(1,0)、(0.62,0.78)、(-0.22,0.975)(-0.9,0.435)、(-0.9,-0.43)、(-0.22,-0.97)、(0.62,-0.78)。根據(jù)相對坐標(biāo),進(jìn)行系統(tǒng)光瞳排布及系統(tǒng)MTF仿真,有關(guān)情況如圖1所示。
圖1 環(huán)形七孔合成孔徑仿真
根據(jù)圖1可知,系統(tǒng)MTF依規(guī)律分布擴(kuò)展,在中頻部分下降較快,這是光學(xué)合成孔徑圖像細(xì)節(jié)信息丟失、成像模糊的主要原因。
根據(jù)信息光學(xué)的理論,非相干光成像系統(tǒng)具有平移不變性,擴(kuò)展光源上各點所成的像形態(tài)與軸上點一致,該系統(tǒng)對目標(biāo)的成像過程為:
(,)=(,)*(,)+(,)
(1)
式(1)中:(,)為物方函數(shù);(,)為像方函數(shù);(,)為系統(tǒng)點擴(kuò)散函數(shù);*表示卷積運(yùn)算;(,)為噪聲函數(shù)。
選取光學(xué)合成孔徑成像規(guī)律及光瞳排布等特征因子,模擬經(jīng)光學(xué)合成孔徑后的仿真圖像,選取鑒別率板為目標(biāo)圖像進(jìn)行仿真,其結(jié)果如圖2所示。
圖2 合成孔徑仿真成像
采用峰值信噪比(PSNR)和結(jié)構(gòu)相似度(SSIM)對仿真圖像進(jìn)行圖像質(zhì)量評價,PSNR值越大,表示圖像成像質(zhì)量越好,失真程度越??;SSIM值越大,表示與原圖像越接近。仿真圖像評價結(jié)果如表1所示。
表1 仿真圖像質(zhì)量評價結(jié)果
由表1可知,光學(xué)合成孔徑成像系統(tǒng)會因中頻損失而成像模糊,選取不同填充因子會有不同的系統(tǒng)進(jìn)光量。同樣的光瞳結(jié)構(gòu),填充因子越小,系統(tǒng)進(jìn)光量越少,成像質(zhì)量越差,圖像越模糊。根據(jù)系統(tǒng)填充因子的計算結(jié)果及系統(tǒng)加工余量的要求,應(yīng)選取填充因子為0.4的環(huán)形七孔合成孔徑成像系統(tǒng)。
本文實驗所使用的光學(xué)合成孔徑成像系統(tǒng)參數(shù)與仿真結(jié)果一致,系統(tǒng)仿真結(jié)果可應(yīng)用于后續(xù)圖像復(fù)原處理的相關(guān)參數(shù)設(shè)置。
基于深度學(xué)習(xí)的目標(biāo)識別算法主要有2類:第1類為以Faster-RCNN為代表的Two-stage目標(biāo)識別網(wǎng)絡(luò),第2類為以YOLOv3為代表的One-stage目標(biāo)識別網(wǎng)絡(luò)。Faster-RCNN算法需要生成上千個先驗框,并對邊界框進(jìn)行2次篩選,即經(jīng)過RPN網(wǎng)絡(luò),故該網(wǎng)絡(luò)的推理時間較長、模型參數(shù)量大。YOLOv3算法從輸入圖像到目標(biāo)識別輸出,整體網(wǎng)絡(luò)屬于端到端學(xué)習(xí),直接得到目標(biāo)的類別和位置信息,是運(yùn)算速度較快的實時檢測。
對比YOLOv2所使用的Darknet-19網(wǎng)絡(luò),YOLOv3使用Darknet-53作為主干特征提取網(wǎng)絡(luò)。Darknet-53網(wǎng)絡(luò)去除池化層,全部由步長為2的卷積層完成下采樣操作,主干網(wǎng)絡(luò)內(nèi)部使用殘差單元堆疊。殘差網(wǎng)絡(luò)能夠通過增加模型深度來提高準(zhǔn)確率,其內(nèi)部的殘差塊使用了跳接法,緩解在神經(jīng)網(wǎng)絡(luò)中因增加網(wǎng)絡(luò)深度而帶來的梯度消失問題。YOLOv3從主干網(wǎng)絡(luò)輸出3個分支(即3個特征層),用來進(jìn)行多尺度預(yù)測。3個特征層大小分別為(13×13)、(26×26)、(52×52)。13尺度的特征圖對圖像的網(wǎng)格劃分較大,用于識別尺寸較大的目標(biāo);26尺度的特征圖對應(yīng)識別中等尺寸的目標(biāo);52尺度的特征圖對于圖像劃分較細(xì),具有較高的細(xì)粒度特征,故識別小目標(biāo)。YOLOv3的網(wǎng)絡(luò)結(jié)構(gòu)如圖3所示。
圖3 YOLOv3的網(wǎng)絡(luò)結(jié)構(gòu)框圖
YOLOv3借鑒了FPN的思想,從不同尺度提取特征,不僅在每個特征圖上分別做預(yù)測,還將小特征圖進(jìn)行上采樣,與大的特征圖進(jìn)行拼接,做特征融合處理。經(jīng)過特征融合的特征圖,不僅具有較底層的紋理信息,還包含較高層的抽象信息,能夠在不同尺度都具有圖像的多層信息,有利于后續(xù)的圖像識別。
光學(xué)合成孔徑采集的灰度圖像中,“低小慢”目標(biāo)在圖像中所占像素較少,目標(biāo)輪廓較模糊,且與背景的灰度差異較不明顯,增加了目標(biāo)識別的難度。一般的特征提取網(wǎng)絡(luò)是使用卷積層提取圖像特征信息,有的通過增加網(wǎng)絡(luò)深度來豐富圖像特征信息,有的通過增加網(wǎng)絡(luò)寬度得到圖像更多的層次信息,而EfficientNet網(wǎng)絡(luò)則同時調(diào)整網(wǎng)絡(luò)的寬度、深度及網(wǎng)絡(luò)的輸入分辨率來提升網(wǎng)絡(luò)性能,故本文選用EfficientNet網(wǎng)絡(luò)提取圖像特征信息。
本文基于EfficientNetv2網(wǎng)絡(luò)思想,提出一種改進(jìn)的YOLOv3目標(biāo)識別算法,具體改進(jìn)過程如下。
使用EfficientNetv2-S作為YOLOv3主干特征提取網(wǎng)絡(luò)
本文通過改進(jìn)主干網(wǎng)絡(luò)的結(jié)構(gòu),提升網(wǎng)絡(luò)的特征提取能力。改進(jìn)的YOLOv3網(wǎng)絡(luò)使用EfficientNetv2的部分層結(jié)構(gòu)作為模型的主干特征提取網(wǎng)絡(luò),使用Fused-MBConv模塊作淺層網(wǎng)絡(luò)的特征提取,MBConv模塊作為后兩層網(wǎng)絡(luò)的特征提取。Fused-MBConv模塊結(jié)構(gòu)如圖4所示。
圖4 Fused-MBConv模塊結(jié)構(gòu)框圖
Fused-MBConv采用常規(guī)的3×3卷積替代MBConv中的3×3卷積和1×1卷積。在EfficientNetv2網(wǎng)絡(luò)的Stage1-3中,使用Fused_MBConv模塊,對這3個模塊分別設(shè)置了不同的擴(kuò)展因子(即通道數(shù)擴(kuò)展倍率),當(dāng)擴(kuò)展因子不為1時,該模塊需經(jīng)過擴(kuò)展卷積模塊將輸入通道數(shù)進(jìn)行擴(kuò)增。
Fused-MBConv是在MBConv模塊基礎(chǔ)上作卷積層合并,壓縮了模型尺度,提高了淺層網(wǎng)絡(luò)的運(yùn)算速度與特征提取能力。
3.2.2 引入漸進(jìn)式學(xué)習(xí)策略,加快模型訓(xùn)練速度
當(dāng)模型網(wǎng)絡(luò)深度確定時,圖像的特征信息會被卷積核進(jìn)行逐層篩選,模型訓(xùn)練到網(wǎng)絡(luò)高層時可能會變得低效。隨機(jī)失活一部分網(wǎng)絡(luò)層結(jié)構(gòu),使得網(wǎng)絡(luò)高層也能接收到更多的底層信息。這樣的模型設(shè)計可使網(wǎng)絡(luò)得到更加充分的訓(xùn)練,而模型也會有更好的表達(dá)能力。
EfficientNetv2網(wǎng)絡(luò)的Dropout層采用了隨機(jī)深度(Stochastic depth)的思想,隨機(jī)丟棄主分支的某個輸出,將整個網(wǎng)絡(luò)變?yōu)殡S機(jī)深度。在模型訓(xùn)練時將網(wǎng)絡(luò)某層結(jié)構(gòu)進(jìn)行隨機(jī)去除,網(wǎng)絡(luò)的漸進(jìn)式學(xué)習(xí)能夠提升模型的訓(xùn)練速度,小幅提升模型準(zhǔn)確率。Dropout層隨機(jī)深度結(jié)構(gòu)如圖5所示。
圖5 Dropout層隨機(jī)深度結(jié)構(gòu)示意圖
3.2.3 使用-means聚類方法更新模型的先驗框尺寸
在原YOLOv3模型中,使用COCO數(shù)據(jù)集進(jìn)行先驗框尺寸的聚類分析,能滿足大多數(shù)目標(biāo)識別的先驗框尺寸需求,但本文研究的目標(biāo)是小型無人機(jī),屬于“低小慢”目標(biāo)信息,在圖像中所占像素較少,不適合COCO數(shù)據(jù)集的聚類尺寸。
對合成孔徑數(shù)據(jù)集的標(biāo)注框信息使用-means算法,根據(jù)“低小慢”無人機(jī)的不同飛行姿態(tài),得到“低小慢”目標(biāo)先驗框尺寸。保持值為9不變,經(jīng)聚類算法迭代后選取對應(yīng)的先驗框?qū)捀叻謩e為(44,36)、(45,33)、(48,38)、(48,37)、(50,34)、(53,31)、(55,38)、(55,34)、(58,38)。
經(jīng)EfficientNetv2輸出得到3個不同尺度的特征模塊,再經(jīng)過上采樣和深度方向的拼接處理,得到3種尺度的特征圖。改進(jìn)的YOLOv3網(wǎng)絡(luò)結(jié)構(gòu)如圖6所示。
圖6 改進(jìn)的YOLOv3網(wǎng)絡(luò)結(jié)構(gòu)框圖
mAP值越高,代表模型識別效果越好。單獨(dú)計算各個類別的AP(average precision),取平均值得到最終的mAP,所以mAP是每個類別的平均值。
準(zhǔn)確率是真正的正樣本數(shù)除以檢測的總數(shù),即:
(2)
召回率是預(yù)測為正例的樣本中預(yù)測正確的數(shù)量除以真正的正樣本數(shù)量,即:
(3)
IOU表示系統(tǒng)預(yù)測框(Detection Result)與原圖像標(biāo)記框(Ground Truth)的重合程度,即:
(4)
本次網(wǎng)絡(luò)構(gòu)建基于Python3.7和Tensorflow 2.3框架搭建,在Tesla K80顯卡和NVIDIA GeForce GTX 1080Ti GPU的配置環(huán)境下完成訓(xùn)練和測試。
本次識別的“低小慢”目標(biāo)是DJI精靈2四旋翼無人機(jī),使用光學(xué)合成孔徑成像系統(tǒng)采集目標(biāo)的視頻數(shù)據(jù),并根據(jù)視頻數(shù)據(jù),逐幀構(gòu)建識別數(shù)據(jù)集。
由光學(xué)合成孔徑分析可知,光學(xué)合成孔徑成像固有的中低頻損失使得圖像輪廓信息模糊,本文在數(shù)據(jù)集預(yù)處理階段使用SRGAN算法對光學(xué)合成孔徑數(shù)據(jù)集進(jìn)行圖像復(fù)原處理,SRGAN的迭代效果如圖7所示。
經(jīng)過100次迭代,復(fù)原圖像與原圖對比后的峰值信噪比可達(dá)35 dB,結(jié)構(gòu)相似度為0.96。經(jīng)過SRGAN算法處理的光學(xué)合成孔徑圖像輪廓模糊的現(xiàn)象有所改善,但目標(biāo)與背景的灰度較接近。使用數(shù)據(jù)增強(qiáng)處理,改變圖像的亮度,使得網(wǎng)絡(luò)在模型訓(xùn)練階段能夠?qū)W習(xí)到不同灰度差異的圖像特征。
圖7 SRGAN的迭代效果圖
YOLOv3模型將目標(biāo)識別任務(wù)看作目標(biāo)區(qū)域預(yù)測和類別預(yù)測的回歸問題,其損失函數(shù)包含置信度損失、分類損失和定位損失,即:
(,,,,,) =(,) +(,) +(,)=
(5)
置信度損失是讓模型學(xué)習(xí)分辨圖像的前景和背景,當(dāng)某預(yù)測框與真實框的IOU都小于某閾值,那么判定它為背景,否則為前景;分類損失采用二值交叉熵?fù)p失,將所有類別的分類問題看作是否屬于該類別的問題,減少了類別間的互斥性;邊界框損失采用平方和損失,該損失函數(shù)會朝著預(yù)測框與真實框重疊較高的方向優(yōu)化。
采用批梯度下降的方式,對原YOLOv3是算法、主干網(wǎng)絡(luò)是EfficientNetv1的YOLOv3算法和本文改進(jìn)算法分別進(jìn)行訓(xùn)練,加載特征網(wǎng)絡(luò)的預(yù)訓(xùn)練權(quán)重。樣本進(jìn)行1 000次迭代,其中批量大小設(shè)置為64,初始學(xué)習(xí)率為10,當(dāng)有5次迭代的損失值保持一致時,學(xué)習(xí)率衰減0.9倍。對整體樣本進(jìn)行比例為8:2的隨機(jī)劃分,分別為訓(xùn)練集和測試集,再取訓(xùn)練集的10%用于訓(xùn)練完成后的驗證。取3種算法前50次測試迭代效果的損失值作圖,如圖8所示。
由圖8可知,3種不同的YOLOv3算法在10個epochs內(nèi)均收斂,主干網(wǎng)絡(luò)為EfficientNet網(wǎng)絡(luò)的收斂速度快于Darknet-53網(wǎng)絡(luò),EfficientNetv1算法和本文改進(jìn)算法的收斂速度相近。
圖8 3種算法損失值曲線
本文的改進(jìn)算法采用EfficientNetv2對光學(xué)合成孔徑圖像的底層特征進(jìn)行提取。EfficientNetv2網(wǎng)絡(luò)的設(shè)計是使用搜索算法設(shè)計網(wǎng)絡(luò)結(jié)構(gòu),在各層網(wǎng)絡(luò)進(jìn)行有效提取,能夠在壓縮模型尺度的同時,提升網(wǎng)絡(luò)的特征提取能力。本文將根據(jù)實驗結(jié)果從模型參數(shù)大小和目標(biāo)識別效果2個方面,對3種不同算法進(jìn)行對比分析。
本次實驗對比的3種算法分別為:原YOLOv3模型;主干網(wǎng)絡(luò)為EfficientNetv1,模塊為B5的YOLOv3模型,表示為EfficientNetv1(B5)-YOLOv3;本文改進(jìn)算法即主干網(wǎng)絡(luò)為EfficientNetv2,模塊為S的YOLOv3模型,表示為EfficientNetv2(S)-YOLOv3。
經(jīng)過數(shù)據(jù)集的采集與預(yù)處理后,分別對3種算法進(jìn)行相同迭代次數(shù)的訓(xùn)練,3種算法的訓(xùn)練參數(shù)如表2所示。
表2 訓(xùn)練參數(shù)
由表2可知,在相同參數(shù)設(shè)置下,本文的改進(jìn)算法運(yùn)算參數(shù)量最少,模型最為簡潔。EfficientNetv2對于淺層網(wǎng)絡(luò)的改進(jìn)能使運(yùn)算參數(shù)減少32MB,是一種改進(jìn)的輕量化網(wǎng)絡(luò)模型。
將主干網(wǎng)絡(luò)變換為EfficientNet系列模型,是一種輕量化網(wǎng)絡(luò)的改進(jìn)方式,針對光學(xué)合成孔徑的成像特點,需要對“低小慢”目標(biāo)的底層信息進(jìn)行有效提取,而本文算法所使用的卷積模塊正是對淺層網(wǎng)絡(luò)進(jìn)行改進(jìn),本文算法的目標(biāo)識別結(jié)果如圖9所示。
將3種算法的IOU閾值均設(shè)置為0.5,使用目標(biāo)識別評價指標(biāo)對3種算法的目標(biāo)識別效果列表,如表3所示。
圖9 改進(jìn)算法的目標(biāo)識別結(jié)果圖
表3 目標(biāo)識別效果
根據(jù)表3可知,3種算法均能對“低小慢”目標(biāo)進(jìn)行有效識別。原YOLOv3中的Darknet-53網(wǎng)絡(luò)只在深度上堆疊卷積層,對于“低小慢”目標(biāo)的識別效果相對較差。根據(jù)3種算法的時間復(fù)雜度計算可知,EfficientNet系列算法的運(yùn)行速度相比YOLOv3有明顯提升,滿足實時性要求,其中本文所采用的EfficientNetv2(s)網(wǎng)絡(luò)對“低小慢”目標(biāo)的底層特征學(xué)習(xí)效果較好,本文算法的識別準(zhǔn)確率可達(dá)96.67%,將準(zhǔn)確率和召回率3種評價指標(biāo)結(jié)合,繪制了本文算法的PR曲線如圖10。
圖10 本文算法PR曲線
1) 系統(tǒng)的光瞳排布及填充因子等參數(shù)是造成系統(tǒng)MTF中頻損失的主要原因。
2) 使用基于深度學(xué)習(xí)的SRGAN算法對合成孔徑圖像進(jìn)行復(fù)原處理可增強(qiáng)圖像對比度,緩解圖像輪廓模糊問題。
3) 針對“低小慢”目標(biāo)的識別問題,改進(jìn)的YOLOv3算法使用EfficientNetv2網(wǎng)絡(luò)的部分層結(jié)構(gòu)作為YOLOv3的主干特征提取網(wǎng)絡(luò)。
4) 通過對3種YOLOv3算法的實驗對比,本文算法的模型參數(shù)量最少,對目標(biāo)的底層特征學(xué)習(xí)效果較好。與原YOLOv3網(wǎng)絡(luò)相比,本文算法的識別準(zhǔn)確率可達(dá)96.67%,是一種有效的輕量化目標(biāo)識別網(wǎng)絡(luò)。