熊振宇,崔亞奇,董凱,李孟洋,熊偉
海軍航空大學(xué) 信息融合研究所,煙臺(tái) 264001
近年來(lái),隨著天基海洋監(jiān)視系統(tǒng)的大力發(fā)展,星載成像技術(shù)作為一種早期預(yù)警探測(cè)的重要手段受到廣泛關(guān)注[1]??紤]到海洋環(huán)境多變,艦船類(lèi)型繁多,圖像背景信息繁雜,想要從大規(guī)模艦船數(shù)據(jù)庫(kù)中找到用戶(hù)感興趣的艦船目標(biāo)圖像十分困難。除此之外,不同傳感器獲取的多源遙感目標(biāo)信息類(lèi)型多樣,如全色遙感圖像空間分辨率高,但光譜信息單一,多光譜遙感圖像光譜分辨率高,但空間分辨率低,同時(shí)利用多源遙感圖像能夠?qū)崿F(xiàn)優(yōu)勢(shì)互補(bǔ)。對(duì)于一張給定的艦船目標(biāo)圖像,多源遙感艦船目標(biāo)關(guān)聯(lián)模型能夠從多源數(shù)據(jù)庫(kù)中找到與其類(lèi)別相同但源于不同類(lèi)型傳感器的圖像,即相關(guān)聯(lián)的異源艦船目標(biāo)圖像。因此構(gòu)建一個(gè)高效的多源遙感艦船目標(biāo)關(guān)聯(lián)模型是當(dāng)前亟需解決的問(wèn)題。
得益于深度神經(jīng)網(wǎng)絡(luò)強(qiáng)大的特征表示能力,許多學(xué)者將深度學(xué)習(xí)用于解決遙感圖像艦船目標(biāo)識(shí)別任務(wù)[2-4]。但是這些算法只能區(qū)分艦船有無(wú)或進(jìn)行粗粒度的識(shí)別。當(dāng)前的衛(wèi)星成像技術(shù)能夠獲取到高分辨率遙感圖像以實(shí)現(xiàn)艦船目標(biāo)的細(xì)粒度識(shí)別[5]。然而關(guān)聯(lián)任務(wù)與識(shí)別任務(wù)不同,網(wǎng)絡(luò)所學(xué)習(xí)到的特征不僅需要有足夠的判別性,還要在度量空間中有很好的可分性。除此之外,現(xiàn)有的算法只是用于解決同源艦船圖像的關(guān)聯(lián)任務(wù),多源圖像間由于特征分布不同,存在“異構(gòu)鴻溝”,使得傳統(tǒng)同源關(guān)聯(lián)算法無(wú)法適用于多源艦船圖像關(guān)聯(lián)任務(wù)。近年來(lái)有許多工作通過(guò)構(gòu)建多源網(wǎng)絡(luò)將多源特征映射到共同的空間中進(jìn)行度量[6-8]。但是這些算法都是用于處理多源遙感場(chǎng)景圖像,難以完成基于艦船目標(biāo)的細(xì)粒度關(guān)聯(lián)任務(wù),其主要挑戰(zhàn)在于構(gòu)建的網(wǎng)絡(luò)需要辨別艦船目標(biāo)的細(xì)微差異。為了讓網(wǎng)絡(luò)聚焦遙感圖像復(fù)雜場(chǎng)景下的顯著性區(qū)域,一些工作通過(guò)利用域自適應(yīng)注意力網(wǎng)絡(luò)[9]、感受野增強(qiáng)模塊[10]、細(xì)粒度生成網(wǎng)絡(luò)[11]和視覺(jué)注意力模型[12]來(lái)提升模型的判別能力。但除了要求模型有足夠判別能力,可解釋性也是衡量模型優(yōu)越性的關(guān)鍵因素。大部分現(xiàn)有深度學(xué)習(xí)算法只是一個(gè)“黑盒模型”,僅讓訓(xùn)練的網(wǎng)絡(luò)能夠無(wú)限逼近或者擬合訓(xùn)練數(shù)據(jù)的特征分布而無(wú)法為最終的輸出結(jié)果給出合理的解釋?zhuān)沟糜脩?hù)難以信任網(wǎng)絡(luò)的輸出結(jié)果,知其然而不知其所以然。如圖1 所示,利用DDN 網(wǎng)絡(luò)[7]對(duì)多光譜和全色艦船圖像進(jìn)行關(guān)聯(lián),并通過(guò)Grad-CAM 算法[13]對(duì)訓(xùn)練好的網(wǎng)絡(luò)模型進(jìn)行特征可視化,從激活圖像看出,網(wǎng)絡(luò)的顯示決策不完全依賴(lài)于目標(biāo)的判別性區(qū)域。因此,對(duì)于關(guān)聯(lián)任務(wù),模型無(wú)法解釋為什么圖1(b)與圖1(a)關(guān)聯(lián)而不與圖1(c)關(guān)聯(lián)。
圖1 輸入圖像和與之對(duì)應(yīng)的激活圖像Fig.1 An input image and its corresponding activation image
為了解決上述問(wèn)題,本文提出了一種基于屬性引導(dǎo)的可解釋融合網(wǎng)絡(luò)用于實(shí)現(xiàn)多光譜和全色艦船目標(biāo)遙感圖像間關(guān)聯(lián)。該網(wǎng)絡(luò)主要分為全局關(guān)聯(lián)模塊和可解釋模塊2 大部分。在全局關(guān)聯(lián)模塊中,首先將利用深度神經(jīng)網(wǎng)絡(luò)提取圖像的高層語(yǔ)義特征,然后設(shè)計(jì)跨模態(tài)度量損失函數(shù)對(duì)不同模態(tài)圖像的特征向量進(jìn)行約束并映射到共同空間中進(jìn)行度量。一方面采用模態(tài)間約束函數(shù)讓不同模態(tài)的同類(lèi)圖像特征在度量空間中距離更近,異類(lèi)圖像距離更遠(yuǎn),從而打破不同模態(tài)的異構(gòu)鴻溝,解決不同模態(tài)特征難度量問(wèn)題;另一方面采用模態(tài)內(nèi)約束函數(shù)讓各自模態(tài)內(nèi)部的同類(lèi)圖像在特征空間中更加聚集,異類(lèi)圖像更加分散,從而保留了各自模態(tài)內(nèi)的判別性語(yǔ)義信息??紤]到諸如夾板、艦首、船尾等艦船目標(biāo)屬性在語(yǔ)義上是人類(lèi)可以理解的,所以在可解釋模塊中,首先采用多頭注意力模型,幫助網(wǎng)絡(luò)關(guān)注于艦船目標(biāo)中多個(gè)顯著性區(qū)域,然后將輸出的多個(gè)注意力特征圖與全局模塊中的特征圖進(jìn)行融合后轉(zhuǎn)換成融合特征,再利用屬性監(jiān)督函數(shù)引導(dǎo)可解釋模塊訓(xùn)練,幫助模型關(guān)注于艦船圖像中的判別性屬性特征,讓模型借助屬性標(biāo)簽以量化的形式計(jì)算出每個(gè)屬性區(qū)域?qū)ψ罱K關(guān)聯(lián)結(jié)果貢獻(xiàn)度,解析模型的關(guān)聯(lián)決策過(guò)程,最后采用知識(shí)蒸餾的思想構(gòu)建蒸餾度量損失函數(shù),減小全局關(guān)聯(lián)模塊和可解釋模塊輸出特征距離的差異,讓網(wǎng)絡(luò)實(shí)現(xiàn)可解釋性的同時(shí)不會(huì)降低關(guān)聯(lián)精度??紤]到當(dāng)前沒(méi)有公開(kāi)的基于艦船目標(biāo)的多源遙感圖像數(shù)據(jù)集,本文構(gòu)建了目前首個(gè)多源遙感圖像艦船目標(biāo)數(shù)據(jù)集,其中包含了6 個(gè)艦船類(lèi)別的全色和可見(jiàn)光遙感圖像。利用該數(shù)據(jù)集對(duì)本文算法模型進(jìn)行有效性驗(yàn)證,實(shí)驗(yàn)結(jié)果表明本文算法在關(guān)聯(lián)準(zhǔn)確率上明顯優(yōu)于現(xiàn)有關(guān)聯(lián)算法,同時(shí)直觀的可視化量化結(jié)果進(jìn)一步體現(xiàn)了模型強(qiáng)大判別力的同時(shí)兼?zhèn)淠P偷目山忉屝浴?/p>
本節(jié)主要介紹了基于屬性引導(dǎo)的可解釋融合關(guān)聯(lián)網(wǎng)絡(luò)的具體結(jié)構(gòu),網(wǎng)絡(luò)主要包括全局關(guān)聯(lián)模塊和可解釋模塊2 部分,全局關(guān)聯(lián)模塊主要通過(guò)深層網(wǎng)絡(luò)提取特征后,利用跨模態(tài)度量損失函數(shù)將不同模態(tài)映射到共同的空間,拉近具有相同語(yǔ)義信息的艦船目標(biāo)圖像在特征空間中的距離。在可解釋模塊中利用多頭注意力機(jī)制讓網(wǎng)絡(luò)關(guān)注艦船目標(biāo)判別性區(qū)域,利用屬性標(biāo)簽作為監(jiān)督信息引導(dǎo)網(wǎng)絡(luò)學(xué)習(xí)具有艦船屬性含義的判別性特征。最后利用知識(shí)蒸餾的思想建立2 個(gè)模塊間的橋梁,使得提出的網(wǎng)絡(luò)模型同時(shí)兼?zhèn)渑袆e能力和模型可解釋性。算法的整體框架如圖2所示。
對(duì)于給定的多源艦船圖像數(shù)據(jù)集D={XP,XM},其中表示N張全色艦船目標(biāo)圖像,表示N張多光譜艦船目標(biāo)圖像。利用卷積神經(jīng)網(wǎng)絡(luò)作為特征提取器分別提取多源圖像特征,最后一層卷積層(Conv5)輸出的特征圖分別表示為FP和FM。利用全局平均池化(Global Average Pooling,GAP)方式分別得到全色和多光譜模態(tài)特征向量為fP和fM。為了增加模型的判別性,本文提出了一種跨模態(tài)度量損失函數(shù),一方面將不同模態(tài)的特征向量映射到共同空間中進(jìn)行度量,另一方面拉近同類(lèi)的艦船目標(biāo)在特征空間中的距離,同時(shí)讓不同類(lèi)別的艦船目標(biāo)在特征空間中的距離更遠(yuǎn)??缒B(tài)度量損失函數(shù)的定義為
式中:Linter(fP,fM)表示模態(tài)間約束函數(shù)。其目的是讓不同模態(tài)的同類(lèi)艦船圖像在特征空間中的距離更近,異類(lèi)圖像距離更遠(yuǎn)。模態(tài)間約束函數(shù)定義為
其中:τPP和τMM分別表示全色和多光譜模態(tài)的相似性系數(shù);分別表示全色和多光譜模態(tài)內(nèi)指示器,當(dāng)與類(lèi)別相同時(shí),=1(i=1,2,…,N;j=1,2,…,N);當(dāng)與類(lèi)別不同時(shí),=0(i=1,2,…,N;j=1,2,…,N)。的取值方式與相同。
當(dāng)艦船目標(biāo)圖像的特征向量在度量空間中距離越近,關(guān)聯(lián)程度越高;距離越遠(yuǎn),關(guān)聯(lián)程度越低。下面計(jì)算全局關(guān)聯(lián)模塊中特征向量在度量空間中的距離為
式中:D表示距離度量,本文采用歐式距離的度量方式。
解釋模塊主要包含多頭注意力模型和屬性監(jiān)督函數(shù)。多頭注意力模型幫助網(wǎng)絡(luò)關(guān)注于艦船目標(biāo)中多個(gè)顯著性區(qū)域,然后將輸出的多個(gè)注意力特征圖與全局模塊中的特征圖進(jìn)行融合后轉(zhuǎn)換成融合特征;屬性監(jiān)督函數(shù)引導(dǎo)可解釋模塊訓(xùn)練,幫助模型關(guān)注于艦船圖像中的判別性屬性特征。具體結(jié)構(gòu)如下:
1)多頭注意力模型
圖3 多頭注意力模型框架Fig.3 A framework of multi-head attention model
式中:M表示特征圖的數(shù)量;ΨM和ΨP分別表示多光譜和全色模態(tài)的二維卷積函數(shù)∈AM和∈AP分別表示網(wǎng)絡(luò)重點(diǎn)關(guān)注到多光譜和全色艦船圖像中的一個(gè)判別性區(qū)域。將特征圖和多頭注意力圖通過(guò)元素相乘的方式進(jìn)行融合以得到細(xì)粒度區(qū)域特征圖
式中:φ表示全局平均池化函數(shù);分別表示多光譜和全色模態(tài)的局部注意力特征。最后利用分類(lèi)器對(duì)多頭注意力模型進(jìn)行約束,分類(lèi)器的損失函數(shù)采用交叉熵?fù)p失表示為L(zhǎng)att。
2)屬性監(jiān)督函數(shù)
通過(guò)多頭注意力模型分別輸出多光譜和全色模態(tài)的M個(gè)局部特征圖。按照對(duì)應(yīng)元素相乘的方式分別將rM與rP和全局關(guān)聯(lián)模塊中輸出的特征圖FP和FM進(jìn)行融合
在多源艦船目標(biāo)數(shù)據(jù)集中,對(duì)每一張艦船圖像添加了屬性標(biāo)簽,屬性標(biāo)簽采用二值編碼的向量表示,第i張圖像xi的屬性標(biāo)簽可表示為向量,其中代表第k個(gè)屬性標(biāo)簽,采用布爾數(shù)值表示,即=0 表示該艦船圖像中不包含該屬性=1 表示該艦船圖像中包含該屬性。R表示艦船目標(biāo)圖像xi中屬性的數(shù)量。構(gòu)建屬性監(jiān)督損失函數(shù),利用屬性標(biāo)簽引導(dǎo)網(wǎng)絡(luò)關(guān)注艦船目標(biāo)顯著性屬性信息,為最終網(wǎng)絡(luò)的關(guān)聯(lián)決策結(jié)果提供可解釋的判別依據(jù)。屬性監(jiān)督損失函數(shù)定義為
式中:dij表示全局模塊中圖像特征向量的距離;表示可解釋模塊中圖像和特征向量的距離。通過(guò)優(yōu)化蒸餾度量損失保證全局模塊和可解釋模塊間度量距離的一致性,讓網(wǎng)絡(luò)有足夠判別能力的同時(shí)具備強(qiáng)大的可解釋能力。
結(jié)合全局關(guān)聯(lián)模塊和可解釋模塊,綜合構(gòu)建基于屬性引導(dǎo)的可解釋融合網(wǎng)絡(luò)總損失函數(shù),其中包括跨模態(tài)度量損失函數(shù)Lmetric,注意力損失函數(shù)Latt,屬性監(jiān)督損失函數(shù)Lattr和蒸餾度量損失函數(shù)Ldis??倱p失函數(shù)定義為
式中:α、β和λ表示超參數(shù),在訓(xùn)練過(guò)程中用于平衡各損失函數(shù)在網(wǎng)絡(luò)中的權(quán)重。通過(guò)優(yōu)化總損失函數(shù),讓網(wǎng)絡(luò)能夠快速關(guān)注到艦船目標(biāo)的顯著性區(qū)域,利用屬性信息對(duì)網(wǎng)絡(luò)進(jìn)行約束,幫助網(wǎng)絡(luò)實(shí)現(xiàn)多源艦船目標(biāo)間精準(zhǔn)關(guān)聯(lián),同時(shí)為關(guān)聯(lián)結(jié)果提供合理的可解釋判別依據(jù)。
隨著衛(wèi)星成像技術(shù)的不斷發(fā)展,星載成像手段不斷進(jìn)步,成像類(lèi)型不斷增多,數(shù)據(jù)量不斷增大。為應(yīng)對(duì)人工智能技術(shù)對(duì)海量數(shù)據(jù)的需求,目前一些研究者開(kāi)源了遙感圖像數(shù)據(jù)集[14-16]。但這些數(shù)據(jù)都單模態(tài)遙感場(chǎng)景圖像數(shù)據(jù),即獲取的圖像都在于相同的傳感器源。為填補(bǔ)多源遙感數(shù)據(jù)空白,Li 等[6]首次提出了面向遙感場(chǎng)景圖像的全色和多光譜數(shù)據(jù)集,Lu 等[17]提出了遙感圖像和文本跨模態(tài)開(kāi)源數(shù)據(jù)集,Gou 等[18]開(kāi)源發(fā)布了光學(xué)圖像和語(yǔ)音跨模態(tài)數(shù)據(jù)集。同時(shí)本團(tuán)隊(duì)近年來(lái)構(gòu)建了可見(jiàn)光和SAR 圖像跨模態(tài)數(shù)據(jù)集[19]。但這些數(shù)據(jù)集都是面向大規(guī)模遙感場(chǎng)景圖像,無(wú)法解決基于目標(biāo)類(lèi)的細(xì)粒度關(guān)聯(lián)問(wèn)題。隨著衛(wèi)星傳感器技術(shù)不斷進(jìn)步,成像質(zhì)量不斷提高,星載傳感器能夠獲取高分辨率遙感圖像,本團(tuán)隊(duì)首次提出了基于屬性信息的可見(jiàn)光艦船目標(biāo)細(xì)粒度識(shí)別遙感圖像數(shù)據(jù)集[20],但該數(shù)據(jù)集僅局限于同一種模態(tài)的艦船目標(biāo)遙感圖像。
為有效應(yīng)對(duì)當(dāng)前日益復(fù)雜的海上戰(zhàn)場(chǎng)環(huán)境,本文結(jié)合現(xiàn)實(shí)需求,構(gòu)建了目前首個(gè)多源艦船圖像數(shù)據(jù)集MRSSID。該數(shù)據(jù)集共有2 632 組圖像切片,每組圖像切片由同一時(shí)刻、同一區(qū)域拍攝的全色和多光譜艦船圖像組成,并且不同模態(tài)的相同艦船圖像是一一對(duì)應(yīng)的。MRSSID 包含了6 個(gè)艦船類(lèi)別,分別是驅(qū)逐艦、瀕海戰(zhàn)斗艦、戰(zhàn)斗艇、散貨船、集裝箱船和油船。如表1 所示,該數(shù)據(jù)集全色圖像的空間分辨率為1 m,多光譜圖像的空間分辨率為4 m,并且包含了紅、綠、藍(lán)和近紅外4 種波段。MRSSID 數(shù)據(jù)集的樣例圖像如圖4 所示。
表1 數(shù)據(jù)集描述Table 1 Description of dataset
圖4 MRSSID 數(shù)據(jù)集樣例Fig.4 Examples from proposed MRSSID
訓(xùn)練階段,將MRSSID 數(shù)據(jù)集的80%圖像對(duì)作為訓(xùn)練數(shù)據(jù)集,余下的20%圖像對(duì)作為測(cè)試集??紤]到訓(xùn)練樣本不均衡,利用圖像翻轉(zhuǎn)、隨機(jī)剪裁和旋轉(zhuǎn)、改變圖像光照等級(jí)等策略對(duì)圖像數(shù)據(jù)樣本進(jìn)行增強(qiáng)。在訓(xùn)練前,采用補(bǔ)零法將所有圖像重新裁剪成224×224 大小。為了驗(yàn)證本文算法的有效性和數(shù)據(jù)集的適用性,在特征提取骨干網(wǎng)絡(luò)選擇上,采用在ImageNet[21]上預(yù)訓(xùn)練后的淺層網(wǎng)絡(luò)Resnet18[22]和深層網(wǎng)絡(luò)Resnet50[22]用于獲取輸入圖像的高級(jí)特征。Resnet 采用了跳躍連接的殘差模塊,有效解決了梯度爆炸和深層網(wǎng)絡(luò)中的退化問(wèn)題,在當(dāng)前眾多計(jì)算機(jī)視覺(jué)任務(wù)中表現(xiàn)出強(qiáng)大的特征提取能力。訓(xùn)練時(shí),首先利用訓(xùn)練數(shù)據(jù)集對(duì)全局關(guān)聯(lián)模塊進(jìn)行訓(xùn)練,然后利用知識(shí)蒸餾的思想將其作參數(shù)固定后作為目標(biāo)模型引導(dǎo)可解釋模塊進(jìn)行訓(xùn)練。對(duì)于訓(xùn)練數(shù)據(jù)集中的圖像,利用其與之對(duì)應(yīng)的屬性向量和全局關(guān)聯(lián)模塊中輸出的特征距離dij作為可解釋模塊訓(xùn)練過(guò)程中的監(jiān)督信息。訓(xùn)練過(guò)程中,采用梯度下降的優(yōu)化方式,初始學(xué)習(xí)率和模型訓(xùn)練周期分別設(shè)置為0.001 和80,多頭注意力參數(shù)M設(shè)置為12,損失函數(shù)中的超參數(shù)α、β和λ分別設(shè)置為0.5,0,1 和1。
式中:sim(q,i)表示圖像有相同的標(biāo)簽的數(shù)量。所有實(shí)驗(yàn)都是在基于PyTorch 的深度學(xué)習(xí)框架上完成,實(shí)驗(yàn)設(shè)備為Ubuntu 16.04,32 GB of RAM,8 Intel(R)Core(TM)i7-6770K CPU,搭載了NVIDIA RTX 2080Ti GPU。
2.3.1 消融實(shí)驗(yàn)結(jié)果
為了驗(yàn)證算法中各個(gè)模塊的有效性,利用Resnet50 作為骨干網(wǎng)絡(luò)提取圖像特征,采用P@k和mAP 這2 種性能度量指標(biāo)計(jì)算關(guān)聯(lián)精度,實(shí)驗(yàn)結(jié)果如表2 所示。其中PAN->MUL 表示利用已有的全色艦船目標(biāo)圖像與數(shù)據(jù)庫(kù)中的多光譜艦船目標(biāo)圖像進(jìn)行關(guān)聯(lián),找到與已有圖像相匹配的多光譜艦船目標(biāo)圖像。MUL->PAN 表示利用已有的多光譜艦船目標(biāo)圖像與數(shù)據(jù)庫(kù)中的全色艦船目標(biāo)圖像進(jìn)行關(guān)聯(lián),找到與已有圖像相匹配的全色艦船目標(biāo)圖像。從實(shí)驗(yàn)結(jié)果可以看出,單純利用可解釋模塊算法精度較低,在加上多頭注意力模型后雖然關(guān)聯(lián)精度有所提升,但關(guān)聯(lián)效果依然不理想,這是因?yàn)槎嘣磮D像模態(tài)異構(gòu),不同模態(tài)擁有不同的特征分布,不同模態(tài)圖像間的類(lèi)間距離小,類(lèi)內(nèi)距離大,直接對(duì)各自模態(tài)提取后的特征進(jìn)行關(guān)聯(lián),關(guān)聯(lián)精度低。全局關(guān)聯(lián)模塊利用跨模態(tài)度量損失函數(shù)將不同模態(tài)的特征映射到共同的空間中進(jìn)行度量,提取更具判別性的跨模態(tài)特征。為了提取更多粒度艦船圖像特征同時(shí)增加關(guān)聯(lián)結(jié)果的可解釋性,本文算法利用知識(shí)蒸餾將全局關(guān)聯(lián)模塊和可解釋模塊相結(jié)合,進(jìn)一步提升了多源遙感艦船目標(biāo)圖像的關(guān)聯(lián)精度。
表2 所提算法中各個(gè)模塊有效性的關(guān)聯(lián)精度Table 2 Evaluation of association accuracy of each module in proposed method
2.3.2 算法判別性驗(yàn)證
為了驗(yàn)證本文算法的有效性,采用P@k和mAP 這2 種性能度量指標(biāo)綜合衡量本文算法的判別能力,實(shí)驗(yàn)結(jié)果如表3 所示。從實(shí)驗(yàn)結(jié)果可以看出,在相同的關(guān)聯(lián)任務(wù)下,ResNet50 比ResNet18 效果更好。這表明特征網(wǎng)絡(luò)層數(shù)越深,關(guān)聯(lián)精度越高。在相同的骨干網(wǎng)絡(luò)和實(shí)驗(yàn)設(shè)置下,PAN->MUL 任務(wù)的關(guān)聯(lián)精度略微高于MUL->PAN。這主要是因?yàn)槿珗D像分辨率高于多光譜圖像,網(wǎng)絡(luò)從全色圖像中捕獲到更多細(xì)節(jié)信息,豐富的特征信息幫助網(wǎng)絡(luò)輸出更具判別性的特征向量。除此之外全局關(guān)聯(lián)模塊和可解釋模塊在各項(xiàng)指標(biāo)下的關(guān)聯(lián)準(zhǔn)確率非常接近,關(guān)聯(lián)精度相差不超過(guò)1%。這意味著本文所采用的蒸餾學(xué)習(xí)方法所造成信息間的損失很小,在追求模型可解釋性的同時(shí),不會(huì)犧牲模型的判別能力。
表3 全局關(guān)聯(lián)模塊和可解釋模塊的關(guān)聯(lián)精度評(píng)估Table 3 Evaluation of association accuracy of global association module and interpretable module
為了更加直觀地表現(xiàn)出可解釋融合網(wǎng)絡(luò)的可分性和判別能力,采用t-分布隨機(jī)領(lǐng)域嵌入[23](t-distributed Stochastic Neighbor Embedding,t-SNE)得到高維特征向量的二維特征表示,其通過(guò)主成分分析法(Principal Component Analysis,PCA)將高維特征壓縮成二維。特征可視化的結(jié)果如圖5 所示,其中圖5(a)表示基線算法的特征可視化結(jié)果,即僅采用ResNet50 對(duì)圖像提取特征后進(jìn)行距離度量,圖5(b)表示本文提出的可解釋融合網(wǎng)絡(luò)的特征可視化結(jié)果。不同顏色分別代表了不同的艦船圖像類(lèi)別,形狀為“×”和“●”分別代表了多光譜和全色圖像。從試驗(yàn)結(jié)果可以看出,相比于基線算法雜亂的特征表示,本文算法表現(xiàn)出良好的可分性和判別性。從全色和多光譜各自模態(tài)的分布中可以看出,同類(lèi)圖像距離更近,異類(lèi)圖像距離更遠(yuǎn),表明了圖像通過(guò)融合網(wǎng)路所輸出的特征表現(xiàn)出精準(zhǔn)的類(lèi)內(nèi)緊致性和類(lèi)間可分性。對(duì)于不同模態(tài)但具有相同類(lèi)別的艦船圖像,其特征分布在度量空間中表現(xiàn)得更加聚集。對(duì)于不同模態(tài)不同類(lèi)別的艦船圖像,其特征在度量空間中相距更遠(yuǎn)。
圖5 特征可視化實(shí)驗(yàn)結(jié)果Fig.5 Experimental results of feature visualization
2.3.3 算法可解釋驗(yàn)證
為了進(jìn)一步驗(yàn)證本文算法的可解釋性,利用屬性引導(dǎo)的類(lèi)激活注意力圖展示模型的可解釋實(shí)驗(yàn)結(jié)果,實(shí)驗(yàn)結(jié)果如圖6 所示。實(shí)驗(yàn)結(jié)果分別展示了4 種不同類(lèi)別關(guān)聯(lián)艦船圖像的可解釋結(jié)果,每個(gè)類(lèi)別的第1 列表示了2 張不同模態(tài)的關(guān)聯(lián)圖像,余下3 列表示了它們各自排名前3 的屬性引導(dǎo)可視化類(lèi)激活注意力圖。從實(shí)驗(yàn)結(jié)果可以看出可解釋融合網(wǎng)絡(luò)能夠精準(zhǔn)關(guān)注到對(duì)應(yīng)的屬性區(qū)域。例如在圖6(a)的集裝箱船關(guān)聯(lián)結(jié)果中,網(wǎng)絡(luò)能夠有效關(guān)注到2 種不同模態(tài)的相同屬性區(qū)域,如屬性1 對(duì)應(yīng)的集裝箱屬性,屬性2 對(duì)應(yīng)的船尾屬性和屬性3 對(duì)應(yīng)的船首屬性。除此之外,對(duì)于一些背景信息繁雜,艦船目標(biāo)小,部分輪廓模糊的情況(圖6(c)),提出的可解釋融合網(wǎng)絡(luò)依然能夠關(guān)注到具有判別性的屬性區(qū)域,進(jìn)一步驗(yàn)證了本文算法優(yōu)越的可解釋性能。
圖6 屬性特征類(lèi)激活圖與量化可視化結(jié)果Fig.6 Attribute guided class activation maps and quantitative visualization results
除此之外,計(jì)算了每組關(guān)聯(lián)圖像的相似性分?jǐn)?shù),以量化的方式展示出排名前三的屬性對(duì)最終關(guān)聯(lián)結(jié)果的影響百分比,同時(shí)以餅圖的形式更加直觀的可視化了屬性對(duì)最終決策結(jié)果的貢獻(xiàn)度。實(shí)驗(yàn)結(jié)果表明,4 個(gè)不同類(lèi)別的量化結(jié)果都對(duì)網(wǎng)絡(luò)的關(guān)聯(lián)結(jié)果提供了清晰準(zhǔn)確的模型解釋。
2.3.4 參數(shù)分析
多頭注意力模型中的參數(shù)M和損失函數(shù)中的超參數(shù)α、β和λ是可解釋融合關(guān)聯(lián)網(wǎng)絡(luò)中的重要參數(shù),為評(píng)估網(wǎng)絡(luò)中設(shè)計(jì)的參數(shù)對(duì)最終關(guān)聯(lián)效果的影響,設(shè)計(jì)參數(shù)分析實(shí)驗(yàn)如圖7 所示。圖7(a)反應(yīng)了多頭注意力中注意力頭的數(shù)量M對(duì)關(guān)聯(lián)精度的影響,從圖中可以看出當(dāng)M取值為12 時(shí),關(guān)聯(lián)精度最高。圖7(b)反應(yīng)了超參數(shù)α對(duì)關(guān)聯(lián)精度的影響,當(dāng)α取值較小時(shí),即多頭注意力模塊在總損失占比較小時(shí),關(guān)聯(lián)精度較低,隨著α不斷增大,關(guān)聯(lián)精度不斷增加,當(dāng)α設(shè)置為0.5 時(shí)達(dá)到最佳關(guān)聯(lián)效果。圖7(c)反映了超參數(shù)β對(duì)關(guān)聯(lián)精度的影響,從圖中可以看出隨著β的增加關(guān)聯(lián)準(zhǔn)確率幾乎不變,即屬性監(jiān)督函數(shù)在總損失函數(shù)中的占比對(duì)關(guān)聯(lián)結(jié)果影響較小,該損失主要引導(dǎo)網(wǎng)絡(luò)輸出可解釋的關(guān)聯(lián)結(jié)果。圖7(d)反映了超參數(shù)λ對(duì)關(guān)聯(lián)精度的影響,當(dāng)λ取值為1 時(shí),關(guān)聯(lián)精度最高。
圖7 參數(shù)不同取值下關(guān)聯(lián)精度的變化曲線Fig.7 Curves of retrieval accuracy with respect to different values of parameters
2.3.5 對(duì)比實(shí)驗(yàn)
為了進(jìn)一步驗(yàn)證本文算法的優(yōu)越性,表4 比較了現(xiàn)有關(guān)聯(lián)算法和本文算法的關(guān)聯(lián)精度。其中DCH[24]和SCM[25]算法為經(jīng)典的多模態(tài)關(guān)聯(lián)算法,他們通過(guò)生成二值哈希編碼來(lái)表示不同模態(tài)數(shù)據(jù)的特征。然而,他們都是基于手工特征表示方法,在PAN->MUL 和MUL->PAN 跨模態(tài)關(guān)聯(lián)任務(wù)中關(guān)聯(lián)精度較差。這主要是因?yàn)榛谑止ぬ卣鞯墓1硎痉椒o(wú)法有效保留不同模態(tài)的語(yǔ)義信息同時(shí)難以生成具有判別性的哈希編碼。表4 中的其他算法都是基于深度特征的關(guān)聯(lián)算法,從實(shí)驗(yàn)結(jié)果可以看出他們的關(guān)聯(lián)精度明顯優(yōu)越基于手工特征的關(guān)聯(lián)算法。然而DCMH[26]和DVSH[27]算法主要通過(guò)提取深度特征以生成哈希編碼來(lái)解決自然圖像和文本間的跨模態(tài)關(guān)聯(lián)任務(wù),遙感圖像內(nèi)容的復(fù)雜性限制了所生成深度哈希編碼的有效性。DCMHN_50[19]通過(guò)構(gòu)建深度跨模態(tài)哈希網(wǎng)絡(luò)實(shí)現(xiàn)SAR 圖像和可見(jiàn)光圖像間的關(guān)聯(lián),SIDHCNNs[6]和Distillation_50[7]通過(guò)構(gòu)建共同語(yǔ)義空間完成了多光譜和全色圖像間的關(guān)聯(lián)。但這些工作主要是解決大規(guī)模遙感場(chǎng)景圖像之間的關(guān)聯(lián)任務(wù),難以有效實(shí)現(xiàn)對(duì)高分辨率艦船目標(biāo)的細(xì)粒度關(guān)聯(lián)。本文算法在2 個(gè)跨模態(tài)關(guān)聯(lián)任務(wù)中達(dá)到最佳關(guān)聯(lián)準(zhǔn)確率,相較于Distillation_50 分別在PAN->MUL和MUL->PAN 這2 個(gè)關(guān)聯(lián)任務(wù)中分別高出了6.71%和5.38%。進(jìn)一步驗(yàn)證了本文算法相較于當(dāng)前算法在艦船目標(biāo)跨模態(tài)關(guān)聯(lián)任務(wù)中的優(yōu)越性,體現(xiàn)了本文算法不僅能夠有很好的特征可解釋性,同時(shí)具備強(qiáng)大的判別能力。除此之外,相較于其他跨模態(tài)關(guān)聯(lián)算法,本文提出的可解釋融合關(guān)聯(lián)網(wǎng)絡(luò)具有很強(qiáng)的泛化能力,網(wǎng)絡(luò)中的可解釋模塊是即插即用模塊,能夠應(yīng)用于圖像與音頻關(guān)聯(lián)、圖像描述和圖文關(guān)聯(lián)等跨模態(tài)任務(wù)中,便于提升模型的可解釋性。
表4 關(guān)聯(lián)精度對(duì)比實(shí)驗(yàn)結(jié)果Table 4 Comparison of association accuracy of different methods
網(wǎng)絡(luò)的計(jì)算效率同樣是關(guān)聯(lián)任務(wù)中重要的度量標(biāo)準(zhǔn),通過(guò)比較不同基線算法的訓(xùn)練時(shí)間和測(cè)試時(shí)間來(lái)評(píng)估本文算法的計(jì)算復(fù)雜度,實(shí)驗(yàn)結(jié)果如表5 所示??紤]到SCM 算法采用人工特征的表示方法,在2 個(gè)關(guān)聯(lián)任務(wù)中的耗費(fèi)時(shí)間最長(zhǎng),效率最低,而其他3 種算法基于深度特征,關(guān)聯(lián)速度得到顯著提升。DVSH 算法采用哈希編碼的表示方法,關(guān)聯(lián)速度最快,但在表4 中,關(guān)聯(lián)精度較低。關(guān)聯(lián)精度提升往往導(dǎo)致更多的計(jì)算損耗,本文算法沒(méi)有復(fù)雜的網(wǎng)絡(luò)結(jié)構(gòu)設(shè)計(jì),能夠在達(dá)到很高的關(guān)聯(lián)準(zhǔn)確率前提下將關(guān)聯(lián)時(shí)間控制在可以接受的范圍。
表5 關(guān)聯(lián)時(shí)間對(duì)比實(shí)驗(yàn)結(jié)果Table 5 Comparison of association time of different methods
本文提出了一種基于屬性引導(dǎo)的可解釋融合網(wǎng)絡(luò)用于實(shí)現(xiàn)多光譜和全色艦船目標(biāo)遙感圖像間關(guān)聯(lián)。該網(wǎng)絡(luò)通過(guò)設(shè)計(jì)跨模態(tài)度量損失函數(shù)對(duì)不同模態(tài)圖像的特征向量進(jìn)行約束并映射到共同空間中進(jìn)行度量;通過(guò)利用多頭注意力模型,幫助網(wǎng)絡(luò)關(guān)注于艦船目標(biāo)中多個(gè)顯著性區(qū)域;利用屬性監(jiān)督函數(shù)引導(dǎo)可解釋模塊訓(xùn)練,幫助模型關(guān)注于艦船圖像中的判別性屬性特征,解析模型的關(guān)聯(lián)決策過(guò)程;構(gòu)建蒸餾度量損失函數(shù),讓網(wǎng)絡(luò)實(shí)現(xiàn)可解釋性的同時(shí)不會(huì)降低關(guān)聯(lián)精度。
實(shí)驗(yàn)中,本文構(gòu)建了目前首個(gè)多源遙感圖像艦船目標(biāo)數(shù)據(jù)集。利用該數(shù)據(jù)集對(duì)本文算法模型進(jìn)行有效性驗(yàn)證,實(shí)驗(yàn)結(jié)果表明本文算法在關(guān)聯(lián)準(zhǔn)確率上明顯優(yōu)于現(xiàn)有關(guān)聯(lián)算法,同時(shí)直觀的可視化量化結(jié)果進(jìn)一步體現(xiàn)了模型強(qiáng)大判別力和可解釋性。在后續(xù)工作中,對(duì)本文提出的多源遙感圖像艦船目標(biāo)數(shù)據(jù)集進(jìn)一步擴(kuò)充,同時(shí)對(duì)當(dāng)前的可解釋關(guān)聯(lián)框架進(jìn)一步優(yōu)化,使其能夠完成2 種以上模態(tài)數(shù)據(jù)之間的可解釋關(guān)聯(lián)任務(wù)。