王 輝, 繆仕城, 于立君, 綦志剛
(哈爾濱工程大學(xué)智能科學(xué)與工程學(xué)院,哈爾濱150001)
檢測是計算機視覺領(lǐng)域的一個重要課題,其主要任務(wù)是對圖像中的目標(biāo)進行分類和定位,使用邊界框包圍感興趣的目標(biāo)并給出目標(biāo)類別[1-2]。近年來,隨著遙感技術(shù)的發(fā)展,遙感圖像的分辨率逐年攀升,這給目標(biāo)檢測帶來了全新的挑戰(zhàn)。目標(biāo)檢測模型無法直接提取和學(xué)習(xí)分辨率較高的圖像的特征;圖像中部分目標(biāo)(如飛機、汽車等)在整幅圖像中所占像素過小,檢測模型難以對其進行檢測[3]。
針對高分辨率遙感圖像目標(biāo)檢測中存在的問題,設(shè)計并實現(xiàn)了基于注意力機制的目標(biāo)檢測模型,采用一定重疊率區(qū)域滑動切割的方法處理高分辨率遙感圖像,實現(xiàn)了對圖像中不同目標(biāo)較為精確的分類和定位功能。
目標(biāo)檢測模型由區(qū)域的檢測框架快速卷積神經(jīng)網(wǎng)絡(luò)特征提取區(qū)域推薦算法(Region-Convolutional Nearal Network,F(xiàn)aster R-CNN)[4]和檢測主干網(wǎng)絡(luò)構(gòu)成。主干網(wǎng)絡(luò)包含特征提取網(wǎng)絡(luò)-殘差網(wǎng)絡(luò)模型(Residual Network Inception,ResNeXt-101)[5]、特征融合網(wǎng)絡(luò)-特征金字塔網(wǎng)絡(luò)(Feature Pyramid Network,F(xiàn)PN)[6]和注意力機制[7](attention)。目標(biāo)檢測模型的整體結(jié)構(gòu)如圖1所示。
圖1 目標(biāo)檢測模型整體結(jié)構(gòu)
在主干網(wǎng)絡(luò)的殘差基本單元中引入注意力機制,借鑒了人類視覺注意力機制通過抑制無用信息來獲得更多關(guān)于目標(biāo)有用信息的思想[8-9]。注意力機制模型可以看作一個組合函數(shù),通過計算注意力的概率分布,突出某個關(guān)鍵輸入對輸出的影響,使網(wǎng)絡(luò)能更加注意輸入的相關(guān)部分,忽略非相關(guān)部分。使用的注意力機制屬于參數(shù)可微的軟注意力機制,包含空間域[10-11]和通道域兩個方面。
特征圖不同空間位置權(quán)值計算方法如下:使用池化方法對輸入特征圖采樣,對采樣后的特征圖進行卷積提取目標(biāo)和源像素點內(nèi)容特征,對卷積得到的特征圖進行張量乘法運算(torch.matmul())得到與像素點內(nèi)容相關(guān)的注意力權(quán)值;對采樣后的特征圖進行水平和豎直方向上的編碼,將目標(biāo)和源像素點空間位置編碼做差后進行正余弦函數(shù)變換,得到位置編碼張量,位置編碼張量與目標(biāo)像素點的特征圖張量進行乘法運算得到與像素點空間相對位置有關(guān)的注意力權(quán)值。輸入特征圖與兩部分權(quán)值逐元素相加后輸出。
加入空間域注意力機制后的殘差基本單元結(jié)構(gòu)如圖2所示。方框中的數(shù)字分別為輸入特征圖的通道數(shù)、卷積核的大小和輸出特征圖的通道數(shù)??臻g域注意力位于卷積后,為卷積提取得到的特征圖賦予空間維度上的權(quán)值。
圖2 加入空間域注意力后的殘差基本單元
引入通道域注意力機制采用“壓縮和激勵”結(jié)構(gòu)[12-13]實現(xiàn),即對輸入特征圖在空間維度上進行壓縮,在通道維度上使用非線性函數(shù)進行激活。與空間域注意力類似,將通道域注意力引入主干網(wǎng)絡(luò)的殘差基本單元中,“壓縮”部分采用全局平均池化,“激勵”部分使用Sigmoid非線性函數(shù)。將空間域和通道域注意力機制引入殘差基本單元后的結(jié)構(gòu)如圖3所示。圖中H為特征圖的高度,W為特征圖的寬度,C為特征圖的長度。
圖3 引入注意力機制后的殘差單元結(jié)構(gòu)
使用的高分辨率遙感圖像數(shù)據(jù)集有光學(xué)遙感圖像中目標(biāo)檢測數(shù)據(jù)庫(object DetectIon in Optical Remote sensing images,DIOR)[14]和航空影像中目標(biāo)檢測數(shù)據(jù)集(Dataset for Object deTection in Aerial images,DOTA)[15]。其中,DIOR數(shù)據(jù)集共包含23 463張大小為800×800的圖像,涵蓋20類目標(biāo)實例,數(shù)據(jù)集標(biāo)簽為xml格式,可以直接用來訓(xùn)練和測試模型;DOTA數(shù)據(jù)集共包含2 806張大小在800×800到4 000×4 000之間的圖像,涵蓋15類目標(biāo)實例,數(shù)據(jù)集標(biāo)簽為txt格式,無法直接用來訓(xùn)練和測試模型,需要先對其預(yù)處理。使用兩個數(shù)據(jù)集的目的在于驗證模型的泛化能力。
采用一定重疊率的區(qū)域滑動切割的方法對DOTA數(shù)據(jù)集進行預(yù)處理,具體步驟如下:
步驟1使用1 000×1 000大小的區(qū)域,以800像素的步長(重疊率為200像素)對原始圖像進行滑動切割,得到一系列分辨率較低的小圖;
步驟2將原始數(shù)據(jù)標(biāo)簽(標(biāo)簽數(shù)據(jù)為圖像中各個目標(biāo)的真實邊框的像素坐標(biāo)值、目標(biāo)類別和檢測難易度信息)按照切割得到的小圖進行分割,即得到每張小圖的標(biāo)簽數(shù)據(jù);
步驟3將每張小圖對應(yīng)的txt格式的標(biāo)簽轉(zhuǎn)換為xml格式。
目標(biāo)檢測的一般過程分為訓(xùn)練和測試2個階段:訓(xùn)練階段使用訓(xùn)練集圖像對檢測模型進行訓(xùn)練,測試階段使用測試集圖像對模型進行測試,對測試結(jié)果進行后處理得到檢測結(jié)果?;趨^(qū)域的目標(biāo)檢測流程如圖4所示。
圖4 基于區(qū)域的目標(biāo)檢測流程
本文使用的檢測環(huán)境為MMdetection[16],使用單張NVIDIA GeForce GTX 1080Ti顯卡訓(xùn)練和測試模型,模型測試完成后對結(jié)果進行處理得到檢測數(shù)值結(jié)果和可視化結(jié)果。數(shù)值結(jié)果為不同類別目標(biāo)的平均精度(Average Precision,AP)及各類別AP的平均值(mean Average Precision,mAP),反映模型的分類性能;可視化結(jié)果使用邊界框包圍目標(biāo),邊框外給出目標(biāo)類別和置信度得分,反映模型的定位性能。
將含有注意力機制和不含注意力機制的模型分別檢測DIOR數(shù)據(jù)集及DOTA數(shù)據(jù)集,并對檢測結(jié)果進行了對比分析。
(1)DIOR數(shù)據(jù)集檢測結(jié)果。DIOR數(shù)據(jù)集檢測對比結(jié)果見表1。其中C1~C20分別為飛機、機場、棒球場、籃球場、橋、煙囪、大壩、高速路服務(wù)區(qū)、高速路收費站、高爾夫球場、地面田徑場、港口、立交橋、船、體育場、存儲罐、網(wǎng)球場、火車站、汽車和風(fēng)車。由對比結(jié)果可見,在主干網(wǎng)絡(luò)中加入注意力機制,能提升主干網(wǎng)絡(luò)的特征提取能力,提高不同類別目標(biāo)的分類精度。模型檢測DIOR數(shù)據(jù)集的部分可視化結(jié)果如圖5(a)~(f)所示。可見,圖像中的大部分目標(biāo)均能被模型準(zhǔn)確定位和識別,模型的整體定位性能較好。
表1 DIOR數(shù)據(jù)集檢測數(shù)值結(jié)果對比 %
圖5 DIOR數(shù)據(jù)集部分可視化結(jié)果
(2)DOTA數(shù)據(jù)集檢測結(jié)果。DOTA數(shù)據(jù)集檢測對比結(jié)果見表2。其中C1~C15分別表示飛機、棒球場、橋、地面田徑場、小型汽車、大型汽車、船、網(wǎng)球場、籃球場、存儲罐、足球場、環(huán)島、港口、游泳池、直升機。從對比結(jié)果可以看出,在主干網(wǎng)絡(luò)中加入注意力機制檢測DOTA數(shù)據(jù)集,能提升主干網(wǎng)絡(luò)的特征提取能力,提高絕大多數(shù)不同類別目標(biāo)的分類精度。模型檢測DOTA數(shù)據(jù)集的部分可視化結(jié)果如圖6(a)~(f)所示。由可視化結(jié)果可見,圖像中的大部分目標(biāo)均能被模型準(zhǔn)確定位和識別,模型的整體定位性能較好。
表2 DOTA數(shù)據(jù)集檢測數(shù)值結(jié)果對比 %
圖6 DOTA數(shù)據(jù)集部分可視化結(jié)果
針對高分辨率遙感圖像目標(biāo)檢測中存在的問題,借鑒人類視覺注意力機制,引入主干網(wǎng)絡(luò)的殘差基本單元,設(shè)計并實現(xiàn)了基于注意力機制的目標(biāo)檢測模型,并采用合適的方法處理高分辨率遙感圖像,實現(xiàn)了對圖像中不同目標(biāo)較為精確的定位和分類功能。由檢測數(shù)值結(jié)果的對比可見,加入注意力機制能提升網(wǎng)絡(luò)特征提取能力,提高檢測分類精度;分析可視化結(jié)果可以看出,模型的定位性能較佳,從模型檢測兩類數(shù)據(jù)集的結(jié)果上可以看出模型的泛化能力較強。