梁 杰,李 磊,2,周紅麗
(1.北京機(jī)電工程研究所,北京 100074; 2.復(fù)雜系統(tǒng)控制與智能協(xié)同技術(shù)重點實驗室,北京 100074)
海面和港口作為交通樞紐以及重要經(jīng)濟(jì)區(qū)域,在軍事和民用領(lǐng)域具有重要的地位,而艦船作為海上交通運(yùn)輸以及裝備的主要載體,對其進(jìn)行有效的定位和分類在沿海監(jiān)管和防御等領(lǐng)域具有重要意義[1]。因此,在復(fù)雜環(huán)境和弱保障條件下,有必要提高對港口、海面艦船等概略、混雜目標(biāo)選擇性精確識別的能力[2],要求不僅能夠準(zhǔn)確定位艦船位置,給出其朝向信息,還能完成細(xì)粒度分類,實現(xiàn)艦船的類型識別和軍民識別。
針對艦船目標(biāo)的檢測方法,主要可以分為兩類。一類是基于人工特征提取加特征分類器的傳統(tǒng)目標(biāo)檢測方法,它利用一些手工設(shè)計的圖像特征或特征點來表征每一類物體的特點,并將圖像由矩陣信息轉(zhuǎn)化成對應(yīng)的特征向量;然后利用訓(xùn)練好的特征分類器(如支持向量機(jī)(Support Vector Machine, SVM))對特征向量進(jìn)行分類判別,同時通過滑動窗口的方法找到與目標(biāo)特征最相似的位置從而完成目標(biāo)定位[3]。例如,文獻(xiàn)[4]提到了一種基于灰度統(tǒng)計特性的艦船檢測方法,該方法以灰度值作為特征,通過人為設(shè)定的閾值來區(qū)分背景和目標(biāo),僅適用于海面較為平靜且水體灰度較低的情況,對海面噪聲較敏感,識別虛景率較高。針對上述不足,文獻(xiàn)[5]提出了一種基于自適應(yīng)閾值分割的艦船檢測方法,該方法的閾值可由算法根據(jù)圖像特征進(jìn)行調(diào)節(jié),但僅在艦船與背景對比度明顯時效果較好。閾值法的特征較為單一,并不能有效地表征目標(biāo)特點,適用的情況較少。為此,文獻(xiàn)[6]提出了基于鄰域分析的海洋遙感圖像艦船檢測方法;文獻(xiàn)[7]提出了基于結(jié)構(gòu)紋理分解的海面艦船檢測方法,但算法檢測效率低,當(dāng)圖像受到云霧干擾且背景復(fù)雜時,檢測誤差較大。綜上,傳統(tǒng)艦船目標(biāo)檢測方法的特征提取方式對人員經(jīng)驗的依賴性較強(qiáng),僅能完成良好氣象條件下場景內(nèi)目標(biāo)簡單類型的判定,難以實現(xiàn)多類型的細(xì)粒度識別,無法快速生成情報以滿足使用要求。
隨著機(jī)器學(xué)習(xí)的不斷發(fā)展以及硬件水平的不斷提高,另一類基于深度學(xué)習(xí)的目標(biāo)檢測方法被廣泛的研究和應(yīng)用。深度學(xué)習(xí)通過逐層卷積的方式可提取到高層且抽象的語義特征信息,可挖掘隱藏在目標(biāo)內(nèi)部的特性,具有更好的目標(biāo)表征能力。其按照檢測的步驟可分為兩大類:1)雙步(Two-stage)檢測算法,該類方法將目標(biāo)檢測問題劃分為2個階段,首先使用選擇性搜索算法或者區(qū)域提取網(wǎng)絡(luò)(Region Proposal Network,RPN)方法等提取出一系列候選區(qū)域,之后對每個區(qū)域重采像素或特征,并在此基礎(chǔ)上進(jìn)行目標(biāo)分類和矩形框位置調(diào)整,典型代表為:Faster R-CNN[8];2)單步(One-stage)檢測算法,該類算法不需要區(qū)域候選,由原始圖像直接產(chǎn)生物體的類別概率和回歸位置坐標(biāo)值,典型代表為:YOLO[9]和SSD[10]。早期的One-stage算法經(jīng)驗證雖然速度較快,但精度較差,因而近幾年該類算法采用多種優(yōu)化策略來提高精度。例如YOLOv3[11]算法通過引入特征金字塔網(wǎng)絡(luò)[12](Feature Pyramid Networks,F(xiàn)PN)實現(xiàn)了多尺度預(yù)測;RetinaNet[13]算法通過引入焦點損失(Focal loss)來優(yōu)化損失函數(shù);CornerNet[14]算法借鑒了關(guān)鍵點檢測的思想來回歸預(yù)測框角點。這些改進(jìn)算法在精度上基本可以和Two-stage算法媲美??傊?,兩類算法各有所長,需根據(jù)實際應(yīng)用的需求進(jìn)行選取。例如,文獻(xiàn)[15]提出了基于改進(jìn)Faster R-CNN的艦船檢測算法,其在RPN中引入K均值(K-Means)聚類來設(shè)置錨框(anchor)的尺寸,可提高艦船的定位精度;文獻(xiàn)[16]采用標(biāo)記分水嶺分割算法對深度卷積神經(jīng)網(wǎng)絡(luò)(Deep Convolution Neural Network,DCNN)進(jìn)行改進(jìn),可大大縮短對候選區(qū)域的檢測時間,快速準(zhǔn)確地識別紅外艦船目標(biāo);文獻(xiàn)[17]提出了一種基于改進(jìn)RetinaNet的目標(biāo)檢測方法,融合MobileNet[18]架構(gòu)進(jìn)行網(wǎng)絡(luò)加速,可提高檢測速率。綜上,深度學(xué)習(xí)的出現(xiàn)給以艦船為代表的時敏目標(biāo)精確檢測創(chuàng)造了技術(shù)條件。
雖然深度學(xué)習(xí)在目標(biāo)檢測方面較傳統(tǒng)方法具有較好的性能表現(xiàn),但仍有需要改進(jìn)的地方。具體來說,艦船等時敏目標(biāo)的長寬尺寸差別較大,且事先無法獲知目標(biāo)的位置和姿態(tài)信息;同時飛行器往往以傾斜視角捕獲目標(biāo)影像,在該視角下艦船的排列較為密集。因此,直接利用深度學(xué)習(xí)檢測算法得到的矩形框結(jié)果會包含大量的背景冗余信息和重疊區(qū)域,無法滿足對目標(biāo)的精確定位和細(xì)粒度分類需求。為了解決艦船目標(biāo)排列緊湊且方向不一時的識別錯位問題,考慮工程應(yīng)用中的實時性要求,本文選擇在單步檢測模型(Single Shot MultiBox Detector, SSD)的基礎(chǔ)上,引入可變形卷積[19]、可變形池化模塊、旋轉(zhuǎn)矩形框機(jī)制和旋轉(zhuǎn)的非極大值抑制模塊,并借鑒MobileNet架構(gòu)對網(wǎng)絡(luò)加速,最終得到一種具有旋轉(zhuǎn)不變性的艦船目標(biāo)精細(xì)化檢測方法。該方法具備對艦船目標(biāo)的幾何姿態(tài)信息較強(qiáng)的學(xué)習(xí)能力,可以有效預(yù)測目標(biāo)的旋轉(zhuǎn)角度并以旋轉(zhuǎn)矩形框給出目標(biāo)的位置,從而實現(xiàn)了多類軍民艦船目標(biāo)類型區(qū)分和朝向判定的功能,并利用自建數(shù)據(jù)庫驗證了所提算法在檢測艦船目標(biāo)時的準(zhǔn)確性與實時性。
SSD是一種典型的深度學(xué)習(xí)單步檢測類算法,其沿用直接回歸的思想,預(yù)先按照一定方式劃定默認(rèn)框,通過建立預(yù)測框、默認(rèn)框和標(biāo)注框的關(guān)系來指導(dǎo)訓(xùn)練并進(jìn)行檢測。同時,SSD利用難例挖掘策略來平衡正負(fù)樣本,增加多層特征圖預(yù)測模塊來提高小目標(biāo)的識別精度,去掉錨框內(nèi)重采樣來提高速度,因而在整體性能上位居深度學(xué)習(xí)檢測類算法的前列,具有可實時和準(zhǔn)確度高這2個優(yōu)點。
基于SSD進(jìn)行目標(biāo)檢測,常用方法是由ImageNet數(shù)據(jù)集預(yù)訓(xùn)練得到初始模型,利用自建數(shù)據(jù)集對模型進(jìn)行若干次微調(diào),進(jìn)而達(dá)到良好的檢測效果[20]。例如民用領(lǐng)域中行人檢測、車輛檢測和文字檢測等常見任務(wù),只需更改分類網(wǎng)絡(luò)部分的類別輸出就能得到較好的效果。但對于艦船目標(biāo)檢測而言,要求對目標(biāo)進(jìn)行高精度定位和細(xì)粒度分類,只采用上述微調(diào)的方式得到的結(jié)果無法滿足精細(xì)化識別需求,需要對SSD算法在網(wǎng)絡(luò)結(jié)構(gòu)上進(jìn)行重新設(shè)計和優(yōu)化。
SSD算法主要由兩大部分組成:1)基礎(chǔ)特征提取網(wǎng)絡(luò)(backbone);2)特征檢測器(task head)。本文在此框架的基礎(chǔ)上,針對基礎(chǔ)網(wǎng)絡(luò)、anchor機(jī)制、損失函數(shù)等重點組成部分進(jìn)行優(yōu)化改進(jìn),提出了基于改進(jìn)SSD的艦船目標(biāo)精細(xì)化檢測算法。
算法以VGG19模型作為基準(zhǔn)網(wǎng)絡(luò),利用 MobileNet的思想對其進(jìn)行加速,并引入可變形卷積和可變形池化,構(gòu)造出新的卷積神經(jīng)網(wǎng)絡(luò)進(jìn)行特征提取。同時,將旋轉(zhuǎn)矩形框應(yīng)用到目標(biāo)檢測器中,得到具有旋轉(zhuǎn)不變性的艦船目標(biāo)檢測器,該檢測器不僅可以輸出目標(biāo)的位置和大小信息,還能輸出目標(biāo)的角度信息。最后,本文設(shè)計了一種針對旋轉(zhuǎn)矩形框的IoU計算方法來進(jìn)行非極大抑制(Non-Maximum Suppression,NMS)篩選[21],并在原始SSD算法的損失函數(shù)上進(jìn)行拓寬,加入了角度回歸的損失來指導(dǎo)訓(xùn)練。
考慮到backbone在引入可變形卷積和可變形池化后,會增加特征提取時的運(yùn)算量、處理時間以及權(quán)重模型的參數(shù),本文借鑒MobileNet的思想對 VGG19模型進(jìn)行加速和壓縮。MobileNet使用的是深度可分離卷積,其核心思想是把標(biāo)準(zhǔn)卷積操作分解成深度卷積(DConv)和逐點卷積(PConv)操作,DConv起到濾波作用,PConv起到通道轉(zhuǎn)換作用,這樣可減少卷積核的冗余表達(dá),從而大幅降低網(wǎng)絡(luò)參數(shù)量和計算量。
(1)
因此,本文將 VGG19中標(biāo)準(zhǔn) 3×3 卷積操作分為 3×3的DConv模塊和 1×1 的PConv模塊,每個卷積后仍連接歸一化(Batch Normalization,BN)層和 ReLU激活函數(shù)來構(gòu)建網(wǎng)絡(luò),整個架構(gòu)如圖 1 所示。
傳統(tǒng)的卷積操作使用的是方塊核,卷積窗口形狀是固定的,本文算法引入了可變形卷積和可變形池化模塊來增強(qiáng)基礎(chǔ)網(wǎng)絡(luò)對幾何變換的建模能力,提高了輸出特征對目標(biāo)旋轉(zhuǎn)變換的敏感性。2個模塊的基本思想都是用帶偏移的采樣來代替原來的固定位置采樣,增加的偏移量可以通過梯度反向傳播進(jìn)行端到端的學(xué)習(xí)。如圖2和圖3所示,可變形卷積核的大小和位置可以根據(jù)識別目標(biāo)進(jìn)行動態(tài)調(diào)整,不同位置的卷積核采樣點會根據(jù)目標(biāo)內(nèi)容發(fā)生自適應(yīng)的變化,從而適應(yīng)艦船目標(biāo)的幾何形變。
圖1 可分離卷積結(jié)構(gòu)圖Fig.1 Separable convolution structure
(a)傳統(tǒng)的3×3方塊卷積核 (b)加入偏移量后的卷積核1
(c)加入偏移量后的卷積核2 (d)加入偏移量后的卷積核3圖2 方塊卷積核與可變形卷積核Fig.2 Block convolution kernel and deformable convolution kernel
圖3 方塊卷積與可變形卷積實例對比(左圖為傳統(tǒng)方塊卷積,特征采集時納入無用的背景信息;右圖為可變形卷積,有效避免了背景和干擾項的影響)Fig.3 Comparison of block convolution and deformable convolution (the left picture is the traditional block convolution, the use of background information is included in the feature collection; the right picture is the deformable convolution, effectively avoiding the influence of background and interference terms)
一般的卷積操作步驟為:1)使用一個規(guī)則網(wǎng)格R對輸入特征圖X進(jìn)行采樣;2)對每個采樣點乘以權(quán)值W并求和。以一個3×3的卷積為例
R={(-1,-1),(-1,0),…,(0,1),(1,1)}
(2)
對于位置p0,傳統(tǒng)的卷積輸出為
(3)
在可變形卷積中,如方格變形偏移,只需加上其偏移向量Δpn
(4)
Δpn只影響X輸入層像素的抽樣,并不影響權(quán)重W,所以需要訓(xùn)練的參數(shù)有2組:W和Δpn,如圖4所示。
圖4 可變形卷積網(wǎng)絡(luò)結(jié)構(gòu)Fig.4 Deformable convolution network structure
同樣地,傳統(tǒng)的池化為
(5)
要想成為可變形的池化,與可變形卷積類似,只需加上其偏移向量Δpij,即
(6)
網(wǎng)絡(luò)結(jié)構(gòu)如圖5所示。
圖5 可變形的池化網(wǎng)絡(luò)結(jié)構(gòu)Fig.5 Deformable pooled network structure
SSD目標(biāo)檢測方法采用標(biāo)準(zhǔn)的垂直矩形框?qū)δ繕?biāo)進(jìn)行定位,對于艦船等帶有角度信息的細(xì)長型目標(biāo)則具有明顯的局限性,主要體現(xiàn)在以下三點:1)垂直矩形框并不能顯示出艦船目標(biāo)的真實形狀和長寬比;2)當(dāng)目標(biāo)旋轉(zhuǎn)角度接近45°時,垂直矩形框會引入較多的背景信息,復(fù)雜場景下會提高誤檢率和虛檢率;3)難以區(qū)分密集排列時的艦船目標(biāo),一個框可能包含多個目標(biāo),框與框之間重復(fù)部分較大。
針對上述3個問題,本文借鑒場景文字檢測中旋轉(zhuǎn)邊框定位的思想[22],將原始的anchor改造為帶有旋轉(zhuǎn)的anchor,以傾斜角度來量化表示目標(biāo)的傾斜程度,最終的檢測框以(x,y,w,h,θ)給出。其中,θ定義為以矩形形心為起點、船頭連線中心點為終點的向量與x軸的夾角,逆時針方向為正,取值為(-90,270],示意圖如圖6所示。表1比較了兩種檢測框?qū)ε灤繕?biāo)的刻畫效果,可見旋轉(zhuǎn)矩形框更適用于反映目標(biāo)的真實形狀。
圖6 目標(biāo)旋轉(zhuǎn)角度示意圖Fig.6 Schematic diagram of the target rotation angle
表1 標(biāo)準(zhǔn)矩形框與旋轉(zhuǎn)矩形框的比較
學(xué)術(shù)界通常使用IoU作為兩框匹配策略的判定標(biāo)準(zhǔn),對于垂直矩形框,2個框的交集和并集也是垂直矩形框,計算方法較為簡單;但對于旋轉(zhuǎn)矩形框,2個框的交集理論上是一個多邊形(邊數(shù)不多于8),計算方法較為復(fù)雜。本文采取一種簡單的計算R-IoU(Related-IoU)的方法:1)以一個框A作為基準(zhǔn)框,將另一個框B旋轉(zhuǎn)與框A平行,得到框B′;2)以垂直矩形框的方法來計算框A和B′的IoU;3)將2)中所得的IoU乘上框A和B角度差的余弦,即為2個旋轉(zhuǎn)框的R-IoU。R-IoU計算公式如下
(7)
由式(6)可以看出,計算R-IOU時引入了角度信息,2個框的有效角度相差在[0,180]范圍內(nèi)時,差值越大其余弦值越小,即R-IoU的值越小。在訓(xùn)練時利用R-IoU剔除與標(biāo)注框(GroundTruth,GT)角度偏差大的默認(rèn)框,在NMS時可以對R-IoU大(即角度偏差小)的重復(fù)框進(jìn)行有效抑制。
損失函數(shù)的設(shè)計對目標(biāo)檢測網(wǎng)絡(luò)的訓(xùn)練至關(guān)重要,改進(jìn)SSD算法的損失函數(shù)是在原有損失函數(shù)上進(jìn)行拓寬,加入角度回歸的損失,使得模型能夠有效學(xué)習(xí)角度偏差。整個損失函數(shù)計算公式如式(8)所示。
(8)
其中,N為匹配到的旋轉(zhuǎn)anchor個數(shù),c是置信度向量,α為權(quán)值系數(shù),默認(rèn)為1。
該損失函數(shù)是位置損失和類型損失的加權(quán)和,Lconf是類型損失函數(shù),LR-box是位置(回歸)損失函數(shù)。位置損失函數(shù)具體如下
(9)
(10)
(11)
(12)
(13)
邵雍理論基礎(chǔ)是“以物觀物”說?!八^‘以物觀物’是對‘以我觀物’而言的,即排除個人的感情,而去體察萬物,從而達(dá)到所謂‘窮理’‘盡性’‘知命’?!保?9]44陳獻(xiàn)章主張自得,注重個體的參與,故其詩歌中包含著更多自我情感的投入。由此而言,莊昶詩歌更多傾向于繼承邵雍的觀物說。其《雪蓬為盛行之作》末句:“只有區(qū)區(qū)觀物亭,半庭茂叔窗前草”[3]卷一,46即可視為對邵雍學(xué)說的回應(yīng),也是他作詩的一貫主張。這一主張也貫穿于他的題畫之作,如《題通伯先生山水畫》《鐘欽理畫?!贰额}沈石田畫鵝為文元作》《題菜》等。正是陳莊二人的提倡,才使得有明一代,學(xué)擊壤派者“轉(zhuǎn)相模仿”[31]卷一五三,3966。
類型損失函數(shù)是以softmax函數(shù)為主的多分類交叉熵函數(shù),具體見式(14)和式(15)
(14)
(15)
綜上所述,本文構(gòu)建了一個針對艦船目標(biāo)的新檢測器。該檢測器首先利用可變形卷積網(wǎng)絡(luò)對圖像進(jìn)行特征提取,之后在多尺度上進(jìn)行目標(biāo)檢測[12],每個尺度得到K×(1+5+classes)個通道的預(yù)測張量。這里的K指的是在每個特征圖網(wǎng)格里prior R-box的個數(shù),prior R-box指的是旋轉(zhuǎn)anchor的真實選取。對于一個prior R-box,會產(chǎn)生(1+ classes)維的置信預(yù)測向量和5維位置預(yù)測向量。經(jīng)過對預(yù)測張量的解碼,檢測器可以得到修正后的準(zhǔn)確預(yù)測框,之后算法綜合多個尺度上的檢測結(jié)果進(jìn)行NMS處理,可以篩去重復(fù)預(yù)測框。整個流程圖見圖7。
圖7 改進(jìn)SSD的檢測流程圖Fig.7 Flow chart of improved SSD detection
在改進(jìn)的SSD艦船目標(biāo)檢測器中,多角度prior R-box與可變形卷積相輔相成??勺冃尉矸e結(jié)構(gòu)使得特征圖含有目標(biāo)的幾何形狀信息,在prior R-box滑動過程中減少了無效的背景信息對目標(biāo)定位的干擾。同時,prior R-box在滑動到每個位置上時都會按30°遍歷12個旋轉(zhuǎn)角來擬合艦船的朝向信息,這樣只需要確定幾個長寬比的矩形框便可以覆蓋所有目標(biāo)形狀,大大緩解了傳統(tǒng)檢測器因目標(biāo)旋轉(zhuǎn)而引起的先驗框指數(shù)倍增長的問題。
本文通過設(shè)計實驗驗證了改進(jìn)的SSD算法在艦船識別與分類中的有效性,并與其他主流的基于深度學(xué)習(xí)的目標(biāo)檢測算法進(jìn)行了比較。經(jīng)實驗分析,本文所提出的算法在量化指標(biāo)和檢測精度方面均表現(xiàn)良好。
由于網(wǎng)上并沒有完全適合本文應(yīng)用需求的開源艦船數(shù)據(jù)集,因此本文構(gòu)建了一個具有一定規(guī)模的數(shù)據(jù)集。該數(shù)據(jù)集包括紅外圖像和可見光圖像2個部分,具體類型分為8類:航母、驅(qū)逐艦、核潛艇、兩棲攻擊艦、漁船、貨船、巡邏船、油罐船。
本數(shù)據(jù)庫圖像大小主要為640×512和320×256,包括紅外圖像15634張(含19352個實例),可見光圖像3145張(含14873個實例),圖像已通過開源工具完成標(biāo)注,標(biāo)簽格式為:類別代號、旋轉(zhuǎn)矩形中心點橫坐標(biāo)、中心點縱坐標(biāo)、寬、高、旋轉(zhuǎn)角。
算法的訓(xùn)練和驗證均基于Caffe框架,訓(xùn)練階段GPU選擇NVIDIA GeForce TitanX,采用動量項(momentum)為 0.9的異步隨機(jī)梯度下降,權(quán)值的初始學(xué)習(xí)率為0.001,衰減系數(shù)設(shè)為0.0005,最大迭代次數(shù)為500000,在300000和350000次時分別降低10%的學(xué)習(xí)率。為提高算法的魯棒性,對原始圖像進(jìn)行如下增廣處理:增加高斯與椒鹽噪聲,均值、高斯濾波,反色,左右上下翻轉(zhuǎn),亮度對比度變換等操作。
在計算機(jī)視覺領(lǐng)域中,根據(jù)任務(wù)不同,其評測指標(biāo)也各不相同。本文結(jié)合其他任務(wù)中的評價方法,采用識別概率、識別精度和識別速度進(jìn)行評價,具體含義如下:
1)識別概率:
設(shè)DT為識別到的目標(biāo)位置信息,GT為真實目標(biāo)位置信息。在類別標(biāo)簽預(yù)測一致的情況下,根據(jù)DT與GT的IoU結(jié)果來判斷其是否識別正確,如果IoU大于閾值(這里取0.5),則識別正確,反之為識別錯誤。IoU計算方式見式(7)。將識別正確的框個數(shù)除以GT總數(shù)量得到識別概率。
2)識別精度:
設(shè)DC為識別的目標(biāo)中心位置信息,GC為真實目標(biāo)中心位置信息。按上述方法判斷識別到的情況,根據(jù)DC與GC在圖像上的像素距離來計算識別精度。識別精度的計算如下
(16)
3)識別速度:
本文利用學(xué)術(shù)界常用的FPS來表征識別速度。FPS指的是每秒中識別圖像的數(shù)量,即幀/s。它是識別時間的倒數(shù),其值越大說明1s內(nèi)識別的圖像越多,算法運(yùn)行速度越快,反之則越慢。
實驗將預(yù)測層輸出的艦船目標(biāo)類型數(shù)改為訓(xùn)練集對應(yīng)的類型數(shù)量,利用自建的艦船數(shù)據(jù)庫進(jìn)行了3組訓(xùn)練:1)將可見光樣本的4/5作為訓(xùn)練集,1/5作為測試集,驗證模型的同源有效性;2)將全部可見光樣本作為訓(xùn)練集,紅外圖像作為測試集,驗證模型的異源遷移性;3)將整個數(shù)據(jù)集(即兩種源域混合)的4/5作為訓(xùn)練集,1/5作為測試集,驗證模型的多源融合性。由于實用時多為紅外探測體制,本節(jié)將數(shù)據(jù)集中的可見光圖像都進(jìn)行灰度化處理,以使樣本接近紅外圖像。
訓(xùn)練完成后,將得到的權(quán)值模型在對應(yīng)測試集上進(jìn)行批量測試,檢測框的概率閾值設(shè)為0.5。這里選取改進(jìn)SSD算法的部分檢測效果圖,如圖8和圖9所示,并按照3.2節(jié)的評價指標(biāo)對實驗結(jié)果進(jìn)行了統(tǒng)計,見表2。結(jié)果表明:改進(jìn)SSD算法能夠?qū)Χ嗄B(tài)下水面和港口不同姿態(tài)的艦船進(jìn)行有效檢測,能夠?qū)Χ鄠€類型進(jìn)行區(qū)分,并適應(yīng)于多種場景,具有一定的泛化能力和較強(qiáng)的魯棒性。測試時間在TitanX約55ms一幀,在TX2上約200ms一幀,滿足工程應(yīng)用的實時性要求。
圖8 可見光圖像檢測結(jié)果圖Fig.8 Visible image detection results
圖9 紅外圖像檢測結(jié)果圖Fig.9 Infrared image detection results
訓(xùn)練集識別概率/%識別精度/pix識別速度/FPS第1組91.24.815.7第2組89.75.617.0第3組92.44.516.6
對比表2的第1、2組統(tǒng)計結(jié)果可知,算法在同源訓(xùn)測數(shù)據(jù)的性能表現(xiàn)要優(yōu)于異源,這說明由可見光樣本訓(xùn)練出的網(wǎng)絡(luò)模型雖然具有一定的異源遷移能力,但其性能表現(xiàn)仍不如在數(shù)據(jù)分布更接近的同源數(shù)據(jù)上。這一現(xiàn)象符合深度學(xué)習(xí)算法的原理,借鑒到工程應(yīng)用時則需將訓(xùn)練樣本盡可能地接近實際測試樣本。對比第1、3組統(tǒng)計結(jié)果可知,算法在多源訓(xùn)測數(shù)據(jù)的性能表現(xiàn)要優(yōu)于同源,這說明擴(kuò)大數(shù)據(jù)量和提高樣本多樣性對提高算法性能有較大的幫助。借鑒到工程應(yīng)用中,則是對于難獲取的非合作艦船目標(biāo),盡可能地搜集類似的紅外樣本,與可見光仿真樣本混合訓(xùn)練,有助于提高待打擊目標(biāo)的識別性能。
為證明本文算法的優(yōu)越性,實驗在相同配置條件下按照第3組訓(xùn)練方式做了改進(jìn)SSD算法和其他通用深度學(xué)習(xí)檢測算法的性能對比,如表3所示。
表3 不同檢測模型的檢測性能對比
由表3的統(tǒng)計結(jié)果可得,改進(jìn)后的SSD算法較其他流行的深度學(xué)習(xí)算法在本文數(shù)據(jù)集上的性能表現(xiàn)最好,主要原因是其在SSD算法多尺度預(yù)測、默認(rèn)框機(jī)制、難例挖掘等優(yōu)勢基礎(chǔ)上加入了可變形卷積與池化操作、旋轉(zhuǎn)框機(jī)制,并且對損失函數(shù)進(jìn)行了優(yōu)化。以上改進(jìn)彌補(bǔ)了原始SSD算法較其他算法在精度上的不足,同時融合了MobileNet網(wǎng)絡(luò)架構(gòu)使算法基本維持了原有的識別時間。
針對提高對海智能識別的使用需求,本文提出了一種端到端的艦船目標(biāo)精細(xì)化檢測方法。算法分析與實驗表明:
1)算法通過引入可變形卷積與池化模塊,對艦船目標(biāo)的幾何姿態(tài)信息具有較強(qiáng)的學(xué)習(xí)能力,可適應(yīng)復(fù)雜海面和港口環(huán)境下的艦船目標(biāo)檢測;
2)算法通過引入旋轉(zhuǎn)默認(rèn)框機(jī)制,使得檢測框包含了更少的背景信息并能夠給出目標(biāo)朝向信息,對不同姿態(tài)的海面艦船具有較強(qiáng)的魯棒性,分類能力更高;
3)算法借鑒MobileNet的思想對網(wǎng)絡(luò)進(jìn)行優(yōu)化,減少了冗余計算量,平衡了速度與精度,可滿足算法實時性要求;
4)算法對于訓(xùn)練集外的新目標(biāo)類型適應(yīng)能力較弱,對于外形比較接近的不同目標(biāo)或背景容易產(chǎn)生誤檢,對于弱小目標(biāo)容易產(chǎn)生漏檢,這些是有待進(jìn)一步提高的方面。