龐立新, 高 凡, 何大海, 李滿(mǎn)勤, 劉方堯
(1.亞太衛(wèi)星寬帶通信(深圳)有限公司,廣東 深圳518126;2.西北工業(yè)大學(xué),陜西 西安710072;3.中國(guó)航天恒星科技有限公司,北京100086)
遙感影像的目標(biāo)檢測(cè)是提取遙感信息的重要組成部分。隨著遙感影像所攜帶信息的豐富化及多元化,遙感影像在軍事領(lǐng)域、民用領(lǐng)域也凸顯出極為廣泛的應(yīng)用前景。在軍事領(lǐng)域,可利用遙感影像目標(biāo)識(shí)別技術(shù)識(shí)別出飛機(jī)、坦克、艦船等重要軍事目標(biāo),從而獲取其戰(zhàn)地空間分布、地理坐標(biāo)等重要軍事情報(bào),用于精確制導(dǎo)等。在民用領(lǐng)域,可通過(guò)識(shí)別建筑用地、水體、樹(shù)木等目標(biāo),獲取該城市土地利用現(xiàn)狀,輔助政府部門(mén)制定城市建設(shè)和規(guī)劃方案。隨著遙感影像空間分辨率的不斷提高,高空間分辨率遙感影像的應(yīng)用范圍日益擴(kuò)大,遙感目標(biāo)檢測(cè)方法具有很廣闊的應(yīng)用需求[1]。
除了自然圖像外,遙感圖像中小尺寸目標(biāo)檢測(cè)問(wèn)題尤為突出[2]。由于距離遠(yuǎn)、高空遮擋、天氣等不可抗因素,導(dǎo)致遙感影像中用戶(hù)感興趣的目標(biāo)可能是非常小的尺寸,例如小飛機(jī)、小汽車(chē)、小船只等被復(fù)雜的環(huán)境場(chǎng)景淹沒(méi)的小物體。徐逸之等人從精度、速率兩方面比較了基于區(qū)域卷積神經(jīng)網(wǎng)絡(luò)(Region-Convolutional Naural Networks,R-CNN)改進(jìn)的3種算法,提出區(qū)域全卷積神經(jīng)網(wǎng)絡(luò)(Region-based Fully Convolutional Networks,R-FCN)算法在對(duì)飛機(jī)目標(biāo)進(jìn)行檢測(cè)時(shí),具有相對(duì)較高的檢測(cè)精度和較快的檢測(cè)速度[3]。馮小雨等人針對(duì)空中目標(biāo)檢測(cè)的特點(diǎn)和要求,提出了區(qū)域放大、局部標(biāo)記、自適應(yīng)閾值和時(shí)空背景等策略,以彌補(bǔ)甚快區(qū)域卷積神經(jīng)網(wǎng)絡(luò)(Faster R-CNN)對(duì)弱小目標(biāo)檢測(cè)的不足[4]。Tang等人針對(duì)被遮擋目標(biāo)等難以檢測(cè)的問(wèn)題,使用級(jí)聯(lián)的增強(qiáng)分類(lèi)器替換區(qū)域建議網(wǎng)絡(luò)(Region Proposal Networks,RPN)之后的分類(lèi)器,以驗(yàn)證候選區(qū)域,提升檢測(cè)精度[5]?;谏鲜鰞?nèi)容可知,二階段目標(biāo)檢測(cè)算法在遙感影像目標(biāo)檢測(cè)上應(yīng)用較為廣泛,代表性算法為Faster R-CNN。由于遙感影像通常幅面較大,而遙感影像中的中小型目標(biāo)居多。因此,對(duì)遙感影像中小型目標(biāo)的檢測(cè)方法進(jìn)行研究,提升小型目標(biāo)檢測(cè)準(zhǔn)確率,有助于整體改善遙感影像的目標(biāo)檢測(cè)效果。RetinaNet[6]是一個(gè)簡(jiǎn)單而十分強(qiáng)大的目標(biāo)檢測(cè)網(wǎng)絡(luò),與Faster R-CNN相比,具有更快的檢測(cè)速度和更高的檢測(cè)精度。此外,RetinaNet中引入了特征金字塔(Feature Pyramid Networks,FPN)[7]結(jié)構(gòu),對(duì)多尺度特征進(jìn)行融合,并且在不同尺度上進(jìn)行目標(biāo)檢測(cè),在小目標(biāo)的檢測(cè)方面更具有優(yōu)勢(shì)。已有研究表明,RetinaNet網(wǎng)絡(luò)可以在遙感影像小目標(biāo)檢測(cè)任務(wù)中取得很不錯(cuò)的效果[8]。注意力機(jī)制是人類(lèi)利用有限的注意力資源從大量信息中快速篩選出高價(jià)值信息的有效手段,深度學(xué)習(xí)中的注意力機(jī)制借鑒了該思想,通過(guò)一些方法將目標(biāo)特征進(jìn)行增強(qiáng),并抑制背景特征來(lái)達(dá)到類(lèi)似于人類(lèi)“注意”的效果。目前注意力機(jī)制被廣泛地應(yīng)用在自然語(yǔ)言處理、圖像分類(lèi)等深度學(xué)習(xí)任務(wù)中,并取得了顯著的成果。本文研究基于旋轉(zhuǎn)錨點(diǎn)框和注意力機(jī)制的RetinaNet改進(jìn)網(wǎng)絡(luò),用于遙感影像中任意方向小目標(biāo)的檢測(cè)識(shí)別。
人在拍攝圖片時(shí)往往更傾向于將主要目標(biāo)置于圖片中心位置,大都會(huì)忽略背景。但在某些復(fù)雜場(chǎng)景下,諸如中心先驗(yàn)、背景先驗(yàn)等這些先驗(yàn)假設(shè)是不可取的。比如,遙感圖像中存在許多小目標(biāo),由于目標(biāo)密集、遮擋、尺寸小等原因會(huì)被誤認(rèn)為是圖像背景,如圖1所示。圖中包含了船艦、汽車(chē)、飛機(jī)等小目標(biāo),它們有的分布分散、有的分布密集,無(wú)法確切的劃分出前景或背景。若采用上述先驗(yàn)方法,就會(huì)增加小目標(biāo)檢測(cè)難度。
圖1 小目標(biāo)分布情況
本文引入注意力機(jī)制的原因有:(1)遙感圖像中的小目標(biāo)分布于圖像中各個(gè)位置;(2)遙感圖像中的小目標(biāo)易被當(dāng)成背景;(3)不加選擇的尺度融合會(huì)產(chǎn)生背景干擾。
無(wú)論是自然圖像還是遙感圖像,一般情況下圖像中每個(gè)特征對(duì)目標(biāo)檢測(cè)起到的作用是不同的。有的特征有助于檢測(cè)目標(biāo),有的特征會(huì)對(duì)檢測(cè)目標(biāo)造成一定的干擾?,F(xiàn)有的卷積神經(jīng)網(wǎng)絡(luò)(Convolutional Naural Networks,CNN)通過(guò)卷積操作來(lái)獲取特征,并未對(duì)特征做出選擇性提取。而在CNN中的不同通道提取的特征包含不同的語(yǔ)義信息,不同通道的特征對(duì)于目標(biāo)檢測(cè)并非全部具有相同的重要性。因此,本文提出一種具有特征選擇性的算法,能夠有效地對(duì)不同通道的特征進(jìn)行加權(quán)。引入通道注意力機(jī)制,通過(guò)權(quán)值合理分配的方法,分配較大的權(quán)值比重給那些對(duì)目標(biāo)特征響應(yīng)較好的通道,對(duì)目標(biāo)特征響應(yīng)差的通道則分配較小的權(quán)值比重,目的是細(xì)化特征在圖像中所占權(quán)重,優(yōu)化小目標(biāo)的檢測(cè)算法。
在網(wǎng)絡(luò)中輸入一張圖片,通過(guò)卷積操作得到特征圖f,f可表示為f=[f1,f2,…,fC],fi∈RW×H表示特征f中的第i個(gè)通道,C表示通道數(shù),W和H分別表示特征圖的寬度和高度。通過(guò)對(duì)每個(gè)通道特征執(zhí)行平均池化操作,得到每個(gè)通道fi上的平均池化值,從而得到f上對(duì)應(yīng)的特征向量v,如式(1)所示。
采用1×1大小卷積核將所有通道的特征進(jìn)行聚合,聚合公式為
式中:*為卷積操作;ωc為卷積核權(quán)值;bc為偏置參數(shù);u為最終得到的聚合特征。對(duì)聚合特征,利用歸一化指數(shù)函數(shù)(Softmax)進(jìn)行歸一化,得到特征權(quán)重占比,即通道注意力特征權(quán)值,用ac∈RC表示,其計(jì)算公式為
以圖形化的表現(xiàn)形式來(lái)表示通道注意計(jì)算過(guò)程,如圖2所示。
圖2 通道注意機(jī)制
輸入尺寸為W×H×C(W,H和C分別表示特征圖的寬度,高度和通道數(shù))的特征圖,先進(jìn)行特征平均池化,再進(jìn)行Softmax歸一化操作,得到一個(gè)概率分布,最后進(jìn)行逐元素相乘操作得到一個(gè)新的W×H×C的特征圖。權(quán)重不同的通道與原特征圖在逐元素相乘操作后,權(quán)重較大的通道特征會(huì)被增強(qiáng),從而達(dá)到加強(qiáng)通道特征的作用。本文將通道注意力機(jī)制應(yīng)用到Retina Net目標(biāo)檢測(cè)算法中,并和整個(gè)網(wǎng)絡(luò)的其他部分進(jìn)行聯(lián)合訓(xùn)練。
Faster R-CNN中提出了錨點(diǎn)框(Anchor Box)機(jī)制來(lái)預(yù)設(shè)候選框,用于網(wǎng)絡(luò)對(duì)檢測(cè)目標(biāo)位置的回歸,RetinaNet中也使用了錨點(diǎn)框機(jī)制。但是RetinaNet中的預(yù)設(shè)錨點(diǎn)框是平行于坐標(biāo)軸的一組矩形,而遙感圖像中的目標(biāo)大多數(shù)都是任意方向的,平行于坐標(biāo)軸的錨點(diǎn)框在檢測(cè)時(shí)會(huì)含有冗余區(qū)域,因此將SCRDet[9]中的旋轉(zhuǎn)錨點(diǎn)框機(jī)制引入到Retina Net中。在原來(lái)回歸坐標(biāo)時(shí)4個(gè)參數(shù)(x,y,w,h)的基礎(chǔ)上,增加一個(gè)θ參數(shù),用(x,y,w,h,θ)代表任意方向的矩形。其中x和y分別表示錨點(diǎn)框的中心坐標(biāo);w和h分別表示框的寬度、高度;θ為框與x軸所夾銳角,θ∈[-π/2,0)。在軸向?qū)R的邊界框上進(jìn)行交并比(Intersection-over-Union,Io U)計(jì)算,可能會(huì)導(dǎo)致傾斜交互邊界框的IoU不準(zhǔn)確,進(jìn)而影響邊界框預(yù)測(cè)。為了對(duì)任意旋轉(zhuǎn)的物體進(jìn)行更魯棒的處理,通過(guò)使用改進(jìn)的平滑L1損失的方法,增加一個(gè)常數(shù)因子來(lái)解決旋轉(zhuǎn)邊界框回歸的邊界問(wèn)題。在回歸網(wǎng)絡(luò)中增加對(duì)角度偏移量的回歸,旋轉(zhuǎn)邊界框偏移量計(jì)算公式為
式中:x,y,w,h,θ分別表示框的中心坐標(biāo)、寬度、高度、角度;變量x,xa,x'分別表示目標(biāo)真實(shí)地物框(Ground-truth Box)、錨點(diǎn)框(Anchor Box)、預(yù)測(cè)框(Predicted Box)的x軸坐標(biāo),y,w,h,θ也用同樣方式表示;變量(tx,ty)表示真實(shí)標(biāo)注框和錨點(diǎn)框中心坐標(biāo)(x,y)之間的相對(duì)偏移量;(tw,th)則表示真實(shí)標(biāo)注框和錨點(diǎn)框間寬和高的尺度因子偏移量;tθ則表示旋轉(zhuǎn)角度的偏移量;同理(t'x,t'y),(t'w,t'h)和t'θ分別表示預(yù)測(cè)框和錨點(diǎn)框之間中心坐標(biāo)偏移量,寬高尺度因子偏移量和旋轉(zhuǎn)角度偏移量。
本文提出了一種基于注意力機(jī)制的Retina Net(AM-RetinaNet)小目標(biāo)檢測(cè)算法。區(qū)別于RetinaNet有3個(gè)創(chuàng)新點(diǎn):
a)將旋轉(zhuǎn)錨點(diǎn)框機(jī)制引入到RetinaNet中,可實(shí)現(xiàn)遙感圖像中任意方向目標(biāo)的檢測(cè)識(shí)別;
b)在Retina Net金字塔結(jié)構(gòu)的自頂向下的采樣結(jié)構(gòu)后增加了一個(gè)自底向上(Bottom-up)結(jié)構(gòu),提出一種自底向上采樣的金字塔網(wǎng)絡(luò)結(jié)構(gòu);
c)在RetinaNet金字塔結(jié)構(gòu)后增加注意(Attention),提出一種基于注意力機(jī)制的金字塔網(wǎng)絡(luò)。
圖3 基于注意機(jī)制的RetinaNet網(wǎng)絡(luò)結(jié)構(gòu)
基于注意力機(jī)制的RetinaNet的基本框架見(jiàn)圖3。實(shí)例分割網(wǎng)絡(luò)PANet[10]提出了“自底向上”結(jié)構(gòu)來(lái)縮短淺層特征到頂層的傳遞路徑,能夠保留更多的的淺層特征信息。在RetinaNet特征金字塔結(jié)構(gòu)(Feature Pyramid Networks,FPN)后加入“自底向上”結(jié)構(gòu),以保留更多的、有益于小目標(biāo)檢測(cè)的淺層特征信息,并在“自底向上”結(jié)構(gòu)中使用通道注意力機(jī)制,使得對(duì)目標(biāo)特征響應(yīng)較好的通道特征被增強(qiáng)。在“自底向上”結(jié)構(gòu)中,從原始FPN結(jié)構(gòu)最后一層卷積輸出的特征P2出發(fā),先進(jìn)行一次下采樣和P3特征融合得到新的卷積特征,引入通過(guò)通道注意力機(jī)制來(lái)產(chǎn)生新的注意后,得到一個(gè)新的包含注意性特征的特征圖,稱(chēng)為注意性特征(Attention Features),用Att3表示。然后,將Att3表示的注意性特征作為引導(dǎo),依次自底向上,得到較高層的注意性特征,最終得到3個(gè)注意性特征Att3,Att4,Att5,代替原始FPN結(jié)構(gòu)中的P3,P4,P5,送入后續(xù)的分類(lèi)和回歸子網(wǎng)絡(luò)進(jìn)行目標(biāo)位置的回歸和分類(lèi),通過(guò)旋轉(zhuǎn)錨點(diǎn)框機(jī)制實(shí)現(xiàn)對(duì)任意方向目標(biāo)的檢測(cè)。網(wǎng)絡(luò)損失函數(shù)[9]為
其中
式中:N表示錨點(diǎn)框的數(shù)量;t'n為目標(biāo)預(yù)測(cè)標(biāo)簽系數(shù),根據(jù)目標(biāo)標(biāo)簽人為設(shè)置;v'nj為預(yù)測(cè)的偏移量;vnj表示表示Ground-truth的目標(biāo)集合;Lreg(x)為回歸損失函數(shù),既平滑L1損失,x表示v'nj和vnj之間的差值;η為Io U值;tn表示目標(biāo)的真實(shí)標(biāo)簽標(biāo)號(hào);pn表示用Sigmoid函數(shù)計(jì)算出的各種類(lèi)的概率分布;Lcls(pt)為分類(lèi)損失,既焦點(diǎn)損失(Focal Loss)[6],pt表示樣本被正確預(yù)測(cè)的概率,αt,γ分別表示權(quán)重因子和焦點(diǎn)系數(shù),實(shí)驗(yàn)中取值為αt=0.25,γ=2;λ1,λ2為超參數(shù),分別為控制回歸損失Lreg和分類(lèi)損失Lcls比例的權(quán)衡系數(shù),默認(rèn)均設(shè)置為1。
實(shí)驗(yàn)使用NVIDIA GeForce GTX 1080顯卡,基于Tensorflow框架實(shí)現(xiàn)卷積神經(jīng)網(wǎng)絡(luò)。在訓(xùn)練過(guò)程中,初始學(xué)習(xí)率設(shè)置為0.001,學(xué)習(xí)動(dòng)量為0.9,batchsize設(shè)置為1,迭代次數(shù)500k,數(shù)據(jù)集為DOTA遙感數(shù)據(jù)集。本實(shí)驗(yàn)對(duì)RetinaNet模型、AM-RetinaNet模型進(jìn)行試驗(yàn)對(duì)比,驗(yàn)證AM-RetinaNet網(wǎng)絡(luò)模型對(duì)小目標(biāo)的檢測(cè)效果。
目標(biāo)檢測(cè)對(duì)比見(jiàn)圖4。圖4(a)、圖4(c)為采用RetinaNet模型的檢測(cè)效果,圖4(b)、圖4(d)為采用AM-RetinaNet模型的檢測(cè)效果。如圖4(a)、圖4(b)所示,圖片右上角的“小汽車(chē)”目標(biāo)較小,屬于難檢測(cè)目標(biāo),原網(wǎng)絡(luò)沒(méi)有很好地檢測(cè)出,而改進(jìn)后的網(wǎng)絡(luò)模型順利完成了檢測(cè)。圖4(a)、圖4(b)中各有18個(gè)目標(biāo),其中港口目標(biāo)13個(gè),小汽車(chē)目標(biāo)5個(gè)。采用RetinaNet模型,港口目標(biāo)的檢測(cè)率為69.23%,小汽車(chē)目標(biāo)的檢測(cè)率為0%。采用AM-RetinaNet模型,港口目標(biāo)的檢測(cè)率為100%,小汽車(chē)目標(biāo)的檢測(cè)率為60%,改進(jìn)后的網(wǎng)絡(luò)的檢測(cè)效果優(yōu)于原網(wǎng)絡(luò)。圖4(c)、圖4(d)中,公路兩旁為密集停放的小汽車(chē),采用RetinaNet模型小汽車(chē)目標(biāo)的檢測(cè)率為0%;采用AM-Retina Net模型的汽車(chē)小目標(biāo)檢測(cè)率為95%,平均置信度為0.82。由對(duì)比結(jié)果可知,AM-RetinaNet模型改善了原網(wǎng)絡(luò)識(shí)別精度不高、容易漏檢的問(wèn)題。
分別采用RetinaNet及AM-RetinaNet模型對(duì)不同類(lèi)型小目標(biāo)進(jìn)行檢測(cè),檢測(cè)準(zhǔn)確率如表1所示。
表1 在測(cè)試集上的檢測(cè)準(zhǔn)確率對(duì)比
由表1可知,RetinaNet和AM-RetinaNet的平均檢測(cè)精度分別為67.42%和74.92%,AM-Retina Net的平均檢測(cè)精度比Retina Net提高了7.5%。
在RB-RetinaNet網(wǎng)絡(luò)的基礎(chǔ)上,提出一種基于注意力機(jī)制的Retina Net任意方向小目標(biāo)檢測(cè)方法,進(jìn)行遙感圖像中小目標(biāo)檢測(cè)識(shí)別。對(duì)AMRetina Net與RetinaNet進(jìn)行平均檢測(cè)精度對(duì)比實(shí)驗(yàn),結(jié)果表明:AM-RetinaNet的小目標(biāo)平均檢測(cè)精度較Retina Net提高了7.5%,驗(yàn)證了該網(wǎng)絡(luò)對(duì)小目標(biāo)檢測(cè)識(shí)別的有效性和優(yōu)越性。