周華平,張 杰
(安徽理工大學(xué) 計算機科學(xué)與工程學(xué)院,安徽 淮南 232001)
伴隨著深度學(xué)習(xí)的快速發(fā)展,小目標檢測技術(shù)得到了高度認可,在軍事、遙感、城市建設(shè)等領(lǐng)域發(fā)揮出巨大作用[1].小目標由于可辨識度較低,在圖像中占比較少,導(dǎo)致特征信息不能充分利用,容易受背景影響等因素,相對于常規(guī)大中目標檢測任務(wù)來說,現(xiàn)有的模型對小目標的檢測精度一直不夠高.因此如何對小目標進行有效的檢測和識別,成為計算機視覺領(lǐng)域一個重難點.
在深度學(xué)習(xí)領(lǐng)域,目標檢測任務(wù)算法主要分為兩類:一種是以SSD[2]和YOLO[3]系列為代表的單階段檢測算法,這類算法有著速度的優(yōu)勢,但犧牲了精度;另一種是以Faster-RCNN[4]和Mask-RCNN[5]等RCNN系列為代表的雙階段檢測算法,檢測精度得到了較大提升,但網(wǎng)絡(luò)參數(shù)比較大,導(dǎo)致檢測速度劣于單階段算法的檢測速度.
在當前的目標檢測任務(wù)中,由于小目標攜帶信息較少,容易受背景干擾等原因,導(dǎo)致現(xiàn)有的主流模型對于小目標的檢測精度一直不高,由此一些學(xué)者開始關(guān)注于小目標檢測任務(wù),并作出了些許改進.跨層注意力網(wǎng)絡(luò)(CA-Net)[6]改進了一種注意力網(wǎng)絡(luò),添加到模型里面,利用目標的上下文信息來輔助辨識小目標;Zhu等[7]使用大分辨率進行輸入來獲取更多有效信息,從而提升對小目標的檢測效果;李文濤等[8]提出一種改進后的通道注意力融合機制,通過對不同通道小目標權(quán)重分配來增強小目標跟通道信息之間的聯(lián)系,從而提高對小目標物體的檢測結(jié)果;張寅等[9]對底層特征圖當中的感受野進行融合,生成一種新的注意力,從而增加了對遙感小目標信息特征的獲取.
受上述方法的啟發(fā),基于Faster-RCNN算法、ResNet50作為特征提取網(wǎng)絡(luò),引入特征金字塔,提出了一種融合上下文信息和注意力的遙感小目標算法,通過添加多尺度擴張卷積模塊來增強模型的上下文特征,擴充遙感小目標信息,加入通道注意力機制來解決特征融合時帶來的信息混淆問題,從而提升整個模型對遙感小目標的檢測效果.
Faster-RCNN是一種基于候選區(qū)域的端到端的雙階段目標檢測算法,建立在Fast-RCNN的基礎(chǔ)上,加入新的區(qū)域建議網(wǎng)絡(luò)(RPN),使用滑動窗口的方法,將各個特征區(qū)域生成相對應(yīng)寬高比的錨框,然后就是對錨框進行輸出類別分別和預(yù)測邊界框,最后使用非極大抑制算法對預(yù)測的結(jié)果進行選擇,得到所需要的候選區(qū)域.Faster-RCNN算法作為雙階段算法的典型代表,相比較于單階段網(wǎng)絡(luò),檢測效果更加精準,在小物體目標的檢測上有明顯優(yōu)勢,同時Faster-RCNN算法有更廣闊的優(yōu)化空間,其總體框架如圖1所示.
圖1 Faster-RCNN總體框架
Faster-RCNN網(wǎng)絡(luò)模型是由特征提取模塊、區(qū)域提議網(wǎng)絡(luò)、感興趣區(qū)域池(ROI Pooling)層和分類回歸層四部分組成,其算法的主要流程是先輸入待檢測的圖片,獲得所需要的特征圖,然后將特征圖再送到區(qū)域建議網(wǎng)絡(luò)生成預(yù)選框,將得到的預(yù)選框和特征圖都傳到ROI Pooling層,再從預(yù)選框中挑選出最符合特征圖的候選框,最后將候選框送入分類回歸層得到輸出類別和回歸參數(shù).這就是整個算法的檢測流程.
Faster-RCNN訓(xùn)練時的損失函數(shù)為
Faster-RCNN的損失函數(shù)由回歸損失和分類損失兩個函數(shù)構(gòu)成,回歸損失可表達為
分類損失表達為
特征金字塔(feature pyramid network,FPN)在當前主流框架中使用較多,圖2包括自上而下、自下而上和橫向連接操作.自下而上是信息的正向傳導(dǎo)過程,而自上而下過程是對更形象,包含更多語義信息的高層特征圖進行上采樣操作,然后將其與左側(cè)的特征圖進行水平連接,從而增強更多的特征信息.由于每一層預(yù)測的特征圖包含不同的分辨率大小和多種特征強度的語義信息,于是可以在不大幅度增加檢測時間的同時提高小目標的檢測精度.
圖2 特征金字塔結(jié)構(gòu)
改進后模型的主干網(wǎng)絡(luò)使用ResNet50,如圖2左側(cè)所示,通過卷積得到每個層的特征圖,記作C2—C5,自頂向下的意思是采用上采樣的方法將高層特征圖所擁有的特征圖擴大到與下一層相同大小的特征圖,這樣就可以將低層特征圖的信息和高層特征圖的信息相結(jié)合在一起,更加有效地使用特征信息;而橫向連接的可以直接將下采樣后的P5和C4進行相加,最后通過3×3卷積消除上采樣過程帶來的信息混淆的影響,從而得到最后的特征圖.
特征金字塔將高層特征圖所包含的語義信息和低層特征圖所攜帶的位置信息相結(jié)合,其目的仍然是為了提高對小目標信息的檢測效果,但P5僅通過C5得到,而高層特征金字塔主要負責(zé)處理大中型目標,這會讓小目標信息容易被忽略,從而導(dǎo)致對小目標的檢測效果不佳;為更好地解決上面所提出的問題,本文提出了一種新的網(wǎng)絡(luò)模型,該模型結(jié)構(gòu)如圖3所示.多尺度擴張卷積模塊(Multi-scale Dilation Convolution Module,MDCM)融合多條感受野特征信息,從而獲得豐富的上下文特征,以便擴充更多的遙感小目標信息,通道注意力(Channel Attention Guided,CAG)[10]可以有效地減少特征融合過程中帶來的信息混淆等影響,防止遙感小目標信息被信息混淆以及沖突淹沒.
圖3 改進后模型的總體網(wǎng)絡(luò)結(jié)構(gòu)
針對特征金字塔的淺層特征圖含有較少的語義信息以及融合過程中部分信息損失等問題,由于小目標有著攜帶信息較少,容易被忽略等特征,因此對于小目標檢測需要豐富的上下文信息,提出了一種多尺度擴張卷積模塊MDCM,如圖4所示.此模塊一共有5個分支,其中4條分別是由擴張率大小為1、3、5、1的擴張卷積構(gòu)成,其作用是通過擴大感受野從而捕獲更多遙感小目標的語義信息,最后一條是為了與輸入特征圖相融合,保留最初的細節(jié)信息,最后通過特征融合將含有不同感受野的上下文信息注入特征金字塔當中,讓特征信息得到更加充分的利用.
圖4 多尺度擴張卷積模塊結(jié)構(gòu)
多尺度擴張卷積模塊的公式為
Y=Add(X,Y′).
其中:Y表示最后輸出的特征圖;X表示輸入的特征圖;Y′表示經(jīng)過擴張卷積處理過后的特征圖;Add表示按位相加;Y′=Conv[Concat(x1,x2,x3,x4)],其中:x1、x2、x3、x4分別表示經(jīng)過擴張率為1、3、5、1的擴張卷積后生成的特征圖,Concat是將前面經(jīng)過擴張卷積后生成的特征圖進行連接.
不同尺度的特征圖之間有著信息差異,直接對它們進行融合操作或許會造成語義混淆等問題,為了減輕特征融合過程帶來的信息混淆問題,一個最直觀的方法是在特征金字塔當中添加注意力機制,即加入新的注意力機制CAG,如圖5所示.通道注意力機制CAG有兩個分支,第一條對輸入的特征圖形采取最大池化方式處理,另外一條則采取平均池化方式,各自對特征信息進行處理分析,之后繼續(xù)轉(zhuǎn)入到全連接層,最后經(jīng)過逐元素求和跟Sigmoid激活函數(shù)獲得所需要的注意力權(quán)重.CAG對最后輸出的特征圖操作處理,這樣做便于處理特征金字塔特征融合過程中帶來的信息混淆,容易導(dǎo)致錯檢、漏檢,減少復(fù)雜背景以及沖突對檢測的影響,從而使模型更加關(guān)注我們所需要的部分,這對于遙感小目標的檢測能力提升是非常有幫助的.CAG注意力機制的公式可表示為
圖5 CAG注意力模塊結(jié)構(gòu)
CAG(X)=σ(fc1(Avgpool(x))+fc2(Maxpool(x)),
Ri=CAG(I)⊙Pi.
其中:CAG( )代表通道注意力函數(shù);σ表示為Sigmoid函數(shù);fc指的是全連接操作;i表示特征金字塔得到層數(shù);Pi代表特征金字塔的輸出結(jié)果;Ri表示經(jīng)過注意力機制后最終的輸出結(jié)果.
該算法模型采用的是基于深度學(xué)習(xí)框架,初始學(xué)習(xí)率是0.01,batch_size選定是8,其他參數(shù)信息如表1所示.
表1 實驗配置
實驗選用中國科學(xué)院發(fā)布的高分辨率遙感公開數(shù)據(jù)集HRRSD[11],總共有21 761張圖片,13個種類,依次是飛機、棒球場、籃球場、橋梁、十字路口、田徑場、港口、停車場、船、存儲罐、丁字路口、網(wǎng)球場、汽車,其中大部分類別在圖像中以排列密集的小目標分布,非常適用于驗證改進后的算法對小目標檢測結(jié)果的評估;對于數(shù)據(jù)集劃分,選擇25%的圖像進行訓(xùn)練,25%的圖像進行訓(xùn)練期間評估,另外50%用于測試.
改進后算法模型的評價指標是目標檢測領(lǐng)域常用的平均精度均值(Mean Average Precision,MAP),代表所有類別檢測結(jié)果(Average Precision,AP)的平均大小;(Frames Per Second,FPS)表示每秒鐘可以檢測多少張圖片.對于AP的定義通常為
數(shù)據(jù)增強技術(shù)一直廣泛應(yīng)用于各種目標檢測模型當中,其目的是擴充數(shù)據(jù)集,增加訓(xùn)練的樣本,以此來提高模型的泛化能力和魯棒性.針對遙感數(shù)據(jù)集當中物體大小、方向多有不同的原因,對數(shù)據(jù)集進行簡單的水平翻轉(zhuǎn)、垂直翻轉(zhuǎn)操作.為了驗證數(shù)據(jù)增強對實驗結(jié)果的影響,在相同條件下,對垂直翻轉(zhuǎn)、水平翻轉(zhuǎn)兩種方法進行了對比,實驗結(jié)果如表2所示.
表2 數(shù)據(jù)增強對比結(jié)果
從表2結(jié)果發(fā)現(xiàn),水平翻轉(zhuǎn)和垂直翻轉(zhuǎn)這兩種方法都能一定程度上提高模型的檢測性能,而兩種數(shù)據(jù)增強方法共同使用讓模型的檢測效果達到最佳,驗證了數(shù)據(jù)增強的有效性.
3.4.1 特征提取網(wǎng)絡(luò)和FPN對比
特征提取網(wǎng)絡(luò)的優(yōu)越性對于模型檢測性能的好壞和分類結(jié)果有著直接的影響,為了證明改進后模型對于遙感小目標的檢測效果,在參數(shù)相同的情況下做了多組對比實驗,首先驗證了ResNet50特征提取網(wǎng)絡(luò)與傳統(tǒng)VGG16,其次驗證了加入FPN之后的變化,實驗結(jié)果如表3所示.
表3 特征提取網(wǎng)絡(luò)對比和FPN引入結(jié)果
從表3可以看出,兩種特征提取網(wǎng)絡(luò)中,ResNet50表現(xiàn)出來的性能優(yōu)于VGG16,達到82.7%,比VGG16高出1.2%,其中各種類別的檢測精度也有不同大小的提升,表明在Faster-RCNN模型中,ResNet50特征提取網(wǎng)絡(luò)對遙感小目標的檢測效果優(yōu)于VGG16;在引入FPN之后,算法模型的檢測精度值比之前提高了3%,比只更換ResNet50網(wǎng)絡(luò)提高了1.8%,大部分小目標類別的檢測結(jié)果較好,驗證了更換特征提取網(wǎng)絡(luò)和引入FPN的有效性.
3.4.2 注意力機制對比
引入注意力機制的作用是更好地減少特征融合過程當中帶來的信息混淆等影響,減少復(fù)雜背景以及沖突對小目標的影響,增強模型對小目標的檢測能力.本實驗一個選取三種注意力機制,分別為CAG、ECA-Net[12]、SENet[13],在實驗環(huán)境相同的條件下,探討不同注意力機制對模型檢測結(jié)果的影響.實驗結(jié)果如表4所示.
表4 不同注意力機制對比結(jié)果
從表4可以看出,三種注意力機制最后的結(jié)果CAG取得最高的精度,其FPS也達到了19.5,高于另外兩種,源于CAG注意力機制優(yōu)化各層最后的輸出特征,在少量計算負擔的條件下減輕混淆影響.綜合考慮,選用CAG機制來處理特征融合過程中的信息混淆等影響.
3.4.3 不同模型檢測結(jié)果對比
為了驗證改進后的算法模型對遙感小目標的檢測效果,選用Faster-RCNN、RetinaNet[14]、CenterNet[15]、YOLOv5[16]和MSHEMN[17]算法進行對比,數(shù)據(jù)集選用HRRSD,最終結(jié)果如表5所示.
表5 不同模型檢測結(jié)果對比
表6 消融實驗結(jié)果
從表5可以看出,改進后的算法與傳統(tǒng)的Faster-RCNN算法相比,MAP較改進之前提升了5.4%,其中例如汽車、存儲罐、飛機、網(wǎng)球場等等遙感小目標的檢測結(jié)果都有不錯的提高;跟RetinaNet、CenterNet、YOLOv5和MSHEMN算法相比,MAP分別提升了3.5%、1.6%、2.9%、0.8%,其中如飛機、棒球場、港口和車輛等目標種類的檢測效果較好,進一步驗證了改進后算法的優(yōu)越性.
圖6展示了Faster-RCNN算法模型在改進前和改進后對于同一背景下小目標物體的檢測效果,改進前的算法模型存在的漏檢情況比較嚴重,改進后的算法模型對于漏檢情況得到了較大提升,再次證明了改進后算法模型的優(yōu)越性.
圖6 檢測效果對比
3.4.4 消融實驗
為了證明添加的多尺度擴張卷積模塊和通道注意力機制對遙感小目標的檢測效果,在HRRSD數(shù)據(jù)集上完成了消融實驗.選用特征提取網(wǎng)絡(luò)為ResNet50加FPN的Faster-RCNN算法,作為基線網(wǎng)絡(luò),檢測精度值為84.5%;當加入多尺度擴張卷積模塊后,模型可以檢測到更多的遙感小目標信息,從而檢測精度值提高了1.2%,但相應(yīng)處理圖片速度的FPS從21.9降到20.8;而加入通道注意力機制CAG后,原有的特征融合過程帶來的信息混淆得到了緩解,避免了更多的遙感小目標信息在信息混淆以及沖突中被淹沒,最終檢測結(jié)果提升了1.3%,FPS相應(yīng)降低1.4;當兩個模塊同時加入時,模型的檢測效果較好,為86.7%,較基線模型提升了2.2%,FPS為19.5,基本可以滿足實時檢測對速度的要求.
針對Faster-RCNN算法對遙感圖像中小目標檢測存在漏檢、檢測精度不高等問題,提出一種融合上下文信息和注意力的遙感小目標檢測算法.用ResNet50作為特征提取網(wǎng)絡(luò)替換VGG16,來加強模型對小目標信息的提取;引入FPN,添加多尺度擴張卷積模塊來增強對遙感小目標信息的擴充,使用通道注意力機制來減少信息混淆的影響,以防止遙感小目標淹沒在混淆信息中.結(jié)果表明,改進后的模型對遙感小目標漏檢有較好改善,檢測精度也有明顯的提升.在未來的工作中,將繼續(xù)深入對特征網(wǎng)絡(luò)和FPN的研究,從而提高現(xiàn)有的算法模型對遙感小目標的檢測效果.