王嘉怡,陳子洋,袁小晨,趙艮平
1.廣東工業(yè)大學(xué) 計算機學(xué)院,廣州 510006
2.澳門理工大學(xué) 應(yīng)用科學(xué)學(xué)院,澳門 999078
近些年來,跨視角地理定位已成為機器人導(dǎo)航、自主駕駛和三維重建這些領(lǐng)域中的一個主要問題。從廣義上講,跨視角地理定位匹配任務(wù)可以分為兩個子任務(wù):無人機目標(biāo)定位和無人機導(dǎo)航。無人機目標(biāo)定位是指給定無人機視角圖像,可以在衛(wèi)星圖庫集中匹配同一位置的衛(wèi)星視角圖像。無人機導(dǎo)航是指給定一張衛(wèi)星視角圖像,可以在無人機圖庫集合中匹配同一位置的無人機視角圖像。
在早期的研究中,許多算法[1]-5]試圖優(yōu)化特征匹配的精度來改善模型的目標(biāo)定位性能,并在跨視角地理定位方面取得了初步進(jìn)展。例如,Arandjelovic等人[1]提出了NetVLAD 來改進(jìn)特征描述符的表示,這些描述符是對目標(biāo)進(jìn)行檢索的關(guān)鍵。此外,Turner等人[6]利用(scaleinvariant feature Transform,SIFT)探索了多張量和超高分辨率之間的關(guān)系。與SIFT類似,Bansal等人[7]優(yōu)化了尺度選擇性自相似性描述符,以計算不同視角中每個點的特征距離。然而,這些方法很難解決地面和無人機圖像之間視角急劇變化的挑戰(zhàn)。具體來說,它們無法將視角不變的特征與固定模式或局部描述符相匹配。
為了解決上述問題,基于深度學(xué)習(xí)的跨視角地理定位方法[8]-13]即通過嵌入卷積神經(jīng)網(wǎng)絡(luò)(convolutional neural network,CNN)來提高匹配不同視角特征的能力。例如,Qi等人[9]和Vo等人[11]構(gòu)建了混合架構(gòu)來提高大規(guī)模檢索任務(wù)的性能。特別是,他們認(rèn)為探索方向或顏色的全局特征是讓模型適應(yīng)更多視角的關(guān)鍵。此外,Zhai等人[12]對并行網(wǎng)絡(luò)進(jìn)行了優(yōu)化,可同時融合不同的信息視角。這種方式允許模型提取視覺表征和空間特征。盡管如此,上述方法只考慮了通過堆疊幾個卷積塊的多尺度特征,忽略了上下文信息。因此,一些研究者試圖利用細(xì)粒度分類算法來解決多尺度的問題[14-17],旨在提取細(xì)粒度的特征來改善地理定位的上下文特征。比如,Ding 等人[15]揭示了跨視點匹配方法,以探索無人機和衛(wèi)星視角之間的相似性?;谶@種相似性,生成補丁對應(yīng)關(guān)系并用于為全局上下文特征選擇強大的補丁特征。此外,局部模塊網(wǎng)絡(luò)(local pattern network,LPN)[16]可以闡明選擇強大的特征對于跨視角地理定位的重要性??偟膩碚f,優(yōu)化上下文特征已經(jīng)成為提高目標(biāo)匹配精度的主要思路,但上述方法仍然存在以下兩個挑戰(zhàn)。
首先,基于CNN 的網(wǎng)絡(luò)只能挖掘出不同視角的部分特征,容易對目標(biāo)建筑產(chǎn)生位置偏差,這種影響抑制了模型在提取目標(biāo)特征時對目標(biāo)的感知性能。其次,該網(wǎng)絡(luò)對構(gòu)建不同視角下的角度轉(zhuǎn)換的相關(guān)性會有極大的危害性[17]。具體來說,不同視角的圖像很容易讓網(wǎng)絡(luò)在定位目標(biāo)的過程中把一些局部特征當(dāng)成該目標(biāo)的主要特征。
因此,在這項工作中提出了一個新穎的網(wǎng)絡(luò),即面向跨視角地理定位的感知特征融合網(wǎng)絡(luò)(PFFNet),以全面解決上述挑戰(zhàn)。其貢獻(xiàn)可以概括為以下幾點:
(1)為了捕捉極端的變化并在各視角之間建立語義關(guān)聯(lián),提出了面向跨視角地理定位的感知特征融合網(wǎng)絡(luò)(PFFNet),在多個平臺視角(無人機、衛(wèi)星和街景)上進(jìn)行地理位置的互相檢索。
(2)為了解決固定接受野的限制而導(dǎo)致的對目標(biāo)位置特征感知不足的問題,提出了CoA Block,從而實現(xiàn)目標(biāo)尺度的自適應(yīng)感受野。CoA Block 提高了網(wǎng)絡(luò)在單一視角中感知目標(biāo)位置特征的能力。
(3)為了緩解不同視角的局部區(qū)域影響,提出了SST Block 和RSCA Block。SST Block 將Transformer與卷積模塊相結(jié)合,以增強不同位置的相關(guān)性。RSCA Block 通過通道洗牌去增強空間和不同通道的特征,以豐富視覺方向的相關(guān)性。
(4)與現(xiàn)有的跨視角圖像匹配方法相比,提出的方法在University-1652數(shù)據(jù)集上取得了更好的性能,證明了它具有更強的魯棒性和更好的檢索精度。
本章介紹提出的感知特征融合網(wǎng)絡(luò)(PFFNet),其中包括最為關(guān)鍵的分流上下文嵌入網(wǎng)絡(luò)(SCENet)的結(jié)果闡述以及構(gòu)建目標(biāo)損失函數(shù)的過程。PFFNet可以捕捉極端的變化并在各視角之間建立語義關(guān)聯(lián),使得跨視角地理定位有較高的檢索精度。SCENet 作為PFFNet 的骨干網(wǎng)絡(luò)的工作流程,包含上下文聚合塊(CoA Block)、分流語義交互模塊(SST Block)和重組空間通道注意力塊(RSCA Block),其中CoA Block 可以增強感知目標(biāo)位置特征的能力,而SST Block 和RSCA Block 則進(jìn)一步增強不同位置的相關(guān)性,極大地豐富了與目標(biāo)位置的感知性。
所提出的PFFNet 包含三個分支,即分別為無人機視角分支、衛(wèi)星視角分支和街道視角分支,整個網(wǎng)絡(luò)結(jié)構(gòu)如圖1所示。首先,將不同的視角X1、X2和X3分別輸入SCENet,并生成相應(yīng)的中間特征,即FUAV、FSatellite和FStreet。此處,X1代表無人機視角圖像,X2代表衛(wèi)星視角圖像,X3代表街景視角圖像。其次,由LPN[16]將上述特征劃分為若干個斑塊,采用平均池化操作,得到2 048 個維度的特征向量GP,P∈{1,2,3,4}。最后,將三分支網(wǎng)絡(luò)的特征向量傳入分類器,生成701維的特征向量ZP,P∈{1,2,3,4}。此外,網(wǎng)絡(luò)模型使用共享權(quán)重構(gòu)建無人機視角和衛(wèi)星視角分支的共享特征空間,以建立無人機和衛(wèi)星視角之間的關(guān)系。
圖1 PFFNet的架構(gòu)Fig.1 Architecture of PFFNet
所提出的SCENet主要由CoA Block、SST Block和RSCA Block組成,其基礎(chǔ)模型是ResNet50。SCENet的具體流程如圖1 橙色區(qū)域所示,其中CoA Block 貫穿ResNet50的5個階段,而SSTBlock和RSCA Block插在ResNet50的第3~5階段。在ResNet50的Basic Block基礎(chǔ)上,對Bottleneck Module 進(jìn)行改進(jìn),先將CoA Block作為低級特征編碼,主要在每個階段中負(fù)責(zé)低級特征的提取和特征間的承接。其次SST Block和RSCA Block作高級編碼,主要在每個階段中負(fù)責(zé)增強上下文特征信息與語義信息特征的稠密性和豐富度。最后將低級特征編碼和高級特征編碼作進(jìn)一步的特征融合替換了Bottleneck Module,下文將以無人機視角為例進(jìn)行詳細(xì)步驟說明。具體來說,輸入圖像X1通過CoA Block 生成特征圖FU。同時,SST Block接收輸入圖像X1生成特征圖F1和F2。接下來,將特征圖FU、F1和F2整合到RSCA Block,得到輸出特征FO。最后,得到中間特征FUAV。為了詳細(xì)說明SCENet 的具體結(jié)構(gòu),將在1.1.1、1.1.2 和1.1.3 小節(jié)中描述CoA Block、SST Block和RSCA Block的具體細(xì)節(jié)。
1.1.1 上下文聚合塊
搭建上下文聚合塊的目的是通過豐富上下文信息來增強提取目標(biāo)位置的能力,其結(jié)構(gòu)如圖2 所示。首先,輸入圖像X1由卷積模塊以核大小進(jìn)行編碼3×3 生成特征圖X。其次,將1×1卷積模塊平滑后的特征圖映射到64 通道的特征空間,得到特征X∈F(C×H×W)。在這里,將1×1卷積表示為Conv。此時X∈F(C×H×W)產(chǎn)生三個變量FK=Conv(X)、FV=Conv(X)和FQ=Conv(X)。其中,F(xiàn)K可以獲得局部靜態(tài)上下文信息。第三,對FK和FQ進(jìn)行Concat 運算,通過兩次1×1卷積運算生成注意矩陣FR。公式如下所示:
圖2 CoA Block的架構(gòu)Fig.2 Architecture of CoA Block
特別是,每個空間位置都可以響應(yīng)相關(guān)的上下文信息融合FK和FQ。隨后,對這個注意力矩陣FK和FR進(jìn)行逐元素矩陣乘法,得到F*的全局特征。公式如下所示:
其中,?是局部矩陣乘法。接下來,將局部靜態(tài)上下文信息FK與全局特征F*融合并生成輸出F′。公式如下所示:
其中,⊕是逐元素相加。最后,F(xiàn)′通過通道數(shù)為256的1×1卷積,記為FU。
1.1.2 分流語義交互模塊
搭建分流語義交互模塊的思想是將多頭注意力模塊與深度點卷積相結(jié)合,可以構(gòu)建特征空間中的位置相關(guān)性。SST Block的架構(gòu)如圖3所示。首先,將輸入圖像X1分成j個塊,并進(jìn)行線性投影,將每個塊像一維向量一樣展平,得到圖像編碼向量Vj,j∈{1,2,3,4}。其次,在不重疊的塊序列中,創(chuàng)建了可學(xué)習(xí)的塊序列來表示每個補丁的位置。隨后,把它和位置嵌入Vj放在一起,聚合所有位置嵌入的全局上下文,并在嵌入模塊中生成VE。
圖3 SST Block的架構(gòu)Fig.3 Architecture of SST Block
隨后的流程可分為兩部分進(jìn)行介紹。第一部分是獲取相關(guān)特征的語義信息并生成特征嵌入VE。第二部分是探索來自不同通道的上下文信息并輸出特征圖VS。
對于第一部分而言,特征嵌入VE通過歸一化和多頭注意力模塊(multi-head attention),得到對應(yīng)的輸出編碼向量VC。公式如下所示:
其中,Norm表示歸一化,而Att是多頭注意力模塊。多頭注意力模塊是將相對編碼與相對注意力圖整合起來的,公式如下所示:
其中,Q、K和V分別為每組注意力得到的不同矩陣。E為編碼矩陣,每個元素Ei,j表示qi到vj的關(guān)系,(EV)i將所有的向量和對應(yīng)的向量聚合起來。為了防止梯度擴(kuò)散的情況,進(jìn)行了一個殘差積分操作,即把輸出編碼向量VC加到輸入編碼向量VE中,生成輸出特征圖VCE。公式如下所示:
其中,⊕是逐元素相加。
對于第二部分而言,輸出編碼向量VCE分別通過depth-point(DP)模塊和多層感知器(multilayer perceptron,MLP)。在DP 模塊中,對輸入特征VCE進(jìn)分組卷積操作,每個分組只負(fù)責(zé)提取一個通道的特征。由于一個特征圖僅被一個濾波器卷積,無法有效地利用不同通道在相同空間位置上的特征信息,因此加入了逐點卷積以整合每個通道的特征。逐點卷積主要是要1×1 卷積構(gòu)成,負(fù)責(zé)將深度卷積的輸出按通道投影到一個新的特征圖上。此時,還將輸入特征VCE映射到MLP以保留它們的高級表示。最后,在DP模塊和MLP的輸出之間執(zhí)行元素相加操作,生成輸出特征VD。公式如下所示:
此外,它被添加到VCE向量中以輸出向量VS。公式如下所示:
將編碼向量VS輸入到全連接層進(jìn)行非線性映射,最終得到特征圖F1。此外,將SSTBlock設(shè)計為并行結(jié)構(gòu),以便最終輸出表示為特征映射Fi,i∈{1,2}。與傳統(tǒng)模型相比,該模塊逐組提取空間特征,并從這些空間特征中探索每個通道的上下文信息。
1.1.3 重組空間通道注意力塊
基于上述Blocks(CoA Block和SST Block)的輸出結(jié)果進(jìn)行融合,即是先收集CoA Block 的輸出特征圖FU和SST Block的輸出特征圖Fi,i∈{1,2}。然后,對特征圖FU和Fi進(jìn)行融合操作。之后,RSCA Block接收融合后的特征進(jìn)行輸出,具體過程如圖4所示。這里分兩部分描述這個塊。第一部分是通道重組操作,而第二部分是通道壓縮操作。
圖4 RSCA Block的架構(gòu)Fig.4 Architecture of RSCA Block
在第一部分,RSCA Block 接收由SST Block 生成的特征圖Fi,i∈{1,2}。之后,對這些特征進(jìn)行線性投影操作,將它們映射成一維向量。由于不同通道之間的數(shù)據(jù)可以連通,從而完成通道之間的信息融合,并且可以豐富視覺方向的相關(guān)性。因此采用通道重組操作。之后,將這些向量分為K組來表示信息的K個通道。公式如下所示:
其中,ψ是ReLU 函數(shù)。在經(jīng)過幾個線性層的映射后,通過通道重組操作得到不同子組FA和FB的特征,并將它們組合得到特征圖FC。公式如下所示:
在第二部分,RSCA Block 接收了CoA Block 模塊生成的特征圖FU。此外,通過擠壓(Squeeze)操作將大小為C×H×W的特征轉(zhuǎn)換為C×1×1 的特征描述以獲得全局描述。之后,通過兩個全連接層和Sigmoid 激活函數(shù)增強通道特征,并生成映射到[0-1]的權(quán)重,從而融合所有特征FU。公式如下所示:
其中,G是融合操作,F(xiàn)sq是擠壓操作,Wa和Wb是兩個全連接層。此外,其中r是用于減少參數(shù)數(shù)量和網(wǎng)絡(luò)復(fù)雜度的縮放參數(shù)。通過Sigmoid激活映射權(quán)重FU后,通過逐元素相乘將原始特征與相應(yīng)的權(quán)重相結(jié)合。公式如下所示:
其中,⊙是逐元素相乘??偟膩碚f,利用逐元素相加來聚合起第一步FE和第二步FC的結(jié)果,最終得到輸出特征FO。公式如下所示:
對于輸入圖像X1在通過SCENet主干后得到中間特征FUAV。然后,將特征圖FUAV拆分為四個環(huán)狀的特征圖FP。接下來對這些特征圖進(jìn)行平均池化操作,得到2 048維的特征向量GP,P∈{1,2,3,4}。公式如下所示:
多視角位置感知特征GP被輸入分類器FC以獲得目標(biāo)建筑物的預(yù)測向量和預(yù)測地理標(biāo)簽。由于University-1652數(shù)據(jù)集包含701個目標(biāo)建筑物,故將701個建筑物編號為701 個不同的索引,得到一個701 維的特征向量。公式如下:
因為衛(wèi)星視角和無人機視角圖像具有相似的模式,所以在衛(wèi)星視角和無人機視角之間共享權(quán)重,然而對于街景視角而言是不共享權(quán)重的。它們的損失函數(shù)可以表示為:
其中,C是類別數(shù),Wshare是衛(wèi)星視角和無人機視角的共享權(quán)重。
總的來說,提出的網(wǎng)絡(luò)首先是用三個視角聯(lián)合訓(xùn)練的。然后,分別計算三個視角的損失函數(shù)。最后,它們加在一起作為最終Losstotal。網(wǎng)絡(luò)總損失Losstotal提供了更好的權(quán)重初始化,并允許更具區(qū)分性的嵌入。網(wǎng)絡(luò)的總損失函數(shù)可以表示為:
2.1.1 數(shù)據(jù)集
University-1652[14]是悉尼科技大學(xué)提出的一個新的地理定位數(shù)據(jù)集。與傳統(tǒng)的地理定位數(shù)據(jù)集不同,它包含街景圖像和衛(wèi)星圖像,同時添加了大量航拍無人機圖像。與街景圖像和衛(wèi)星圖像相比,無人機圖像和衛(wèi)星圖像的視角更接近,大大降低了相互檢索的難度。University-1652數(shù)據(jù)集主要包含來自72所大學(xué)的1 652座標(biāo)志性建筑,沒有重疊。這里,將訓(xùn)練集和測試集拆分如下,來自33 所大學(xué)的43 253 張圖像作為訓(xùn)練集,而來自39所大學(xué)的96 362張圖像作為測試集。該數(shù)據(jù)集可以評估為兩個任務(wù),即無人機目標(biāo)定位(無人機→衛(wèi)星)在Query_UAV 和Gallery_Satellite 中總共提供了38 556 張圖像,而無人機導(dǎo)航(衛(wèi)星→無人機)包含701 張Query_Satellite 和51 335 張Gallery_UAV,如表1所示。
表1 University-1652數(shù)據(jù)集統(tǒng)計Table 1 Statistics of University-1652 dataset單位:張
2.1.2 評價指標(biāo)
參考相關(guān)方法[14]的評價標(biāo)準(zhǔn),采用Recall@Top1%(R@1),Recall@K(R@K),AveragePrecision(AP)在實驗中評估模型的性能。
2.2.1 模型設(shè)置
在參數(shù)初始化方面,對分流上下文嵌入網(wǎng)絡(luò)(SCENet)的分類器模塊采用了kaiming 初始化[18],具體如表2 所示。此外,受遷移學(xué)習(xí)的啟發(fā),預(yù)訓(xùn)練的權(quán)重被用來初始化骨干的權(quán)重,以提高訓(xùn)練階段的效率。在多頭注意力結(jié)構(gòu)中設(shè)置不同的頭數(shù)來提高特征判別性。最后收集到每個尺度的特征圖,它們的通道分別為64、256 和512。對于CoABlock 的層數(shù)設(shè)置,受ResNet50 的啟發(fā),在卷積層中堆疊了三個包含批量歸一化和ReLU 的卷積模塊。
2.2.2 實驗階段設(shè)置
在訓(xùn)練階段,將圖像大小調(diào)整為256×256,并執(zhí)行圖像增強策略,即隨機填充、隨機裁剪和隨機翻轉(zhuǎn),以提高模型的魯棒性。這些策略可以使模型檢索到不同視角的目標(biāo)。之后,輸入的圖像被分割成16×16的非重疊圖像。此外,這些帶有位置嵌入的圖像斑塊被用來初始化斑塊標(biāo)記的參數(shù)。遵循類似于小樣本學(xué)習(xí)的策略,采用實例損失監(jiān)督。在訓(xùn)練階段,實例損失設(shè)置為0.001。特別是,損失函數(shù)的學(xué)習(xí)率在每20 個epochs 中都適用于降級。對于優(yōu)化器,采用隨機梯度下降法,動量為0.9,權(quán)重衰減為0.000 5。在測試階段,University-1652中的查詢和驗證的圖像被均勻地調(diào)整為256×256,并生成一個特征矩陣。利用歐氏距離來計算查詢圖像和驗證圖像之間的相似度。隨后,根據(jù)它們的分?jǐn)?shù)排名來檢索查詢結(jié)果。提出的模型是基于Pytorch 的框架,所有實驗都是在NvidiaGTX2080TiGPU上進(jìn)行的。
提出的PFFNet 在University-1652 數(shù)據(jù)集上進(jìn)行了評估,與先進(jìn)的方法進(jìn)行比較,包括Contrastive Loss[17]、Triplet Loss[19]、Soft Margin Triplet Loss[20]、Instance Loss[14]、LCM[15]和LPN[16],所有的結(jié)果如表3所示。在表3中,分別比較了兩個任務(wù)的性能,即無人機目標(biāo)定位和無人機導(dǎo)航。第一個任務(wù)的目的是測試提取上下文信息的能力。第二個任務(wù)的目的是測試模型對不同視角的敏感程度。
表3 PFFNet與最先進(jìn)的方法比較Table 3 Comparison of PFFNet with state-of-the-art methods 單位:%
在無人機目標(biāo)定位任務(wù)(無人機→衛(wèi)星)中,提出的方法實現(xiàn)了76.97%的R@1和81.17%的AP。相比之下,采用骨干網(wǎng)ResNet50的LPN[16]只能達(dá)到75.93%的R@1和79.14%的AP。在這里,LPN 是一種塊級別特征提取的策略,構(gòu)建了三個分支網(wǎng)絡(luò)和一個塊級別的集合模塊。從骨干結(jié)構(gòu)的角度來看,與LPN的骨干網(wǎng)絡(luò)不同,提出的SCENet骨干網(wǎng)絡(luò)包含了CoA Block、SST Block和RSCA Block。這些模塊可以提升提取上下文信息的能力,并產(chǎn)生了判別性的特征,可以讓模型挖掘更突出的特征來代表主要目標(biāo)。相比之下,基于ResNet 作為骨干網(wǎng)絡(luò)的LPN僅僅整合局部特征,這很容易將模型的注意力集中在局部區(qū)域,如建筑物的角落等,而忽略了整體的輪廓。因此,提出的模型相對于LPN 而言R@1提高1.04個百分點,AP提高2.03個百分點。
在無人機導(dǎo)航任務(wù)(衛(wèi)星→無人機)中,提出的方法達(dá)到87.94%的R@1和76.64%的AP。此外,LCM[15]達(dá)到79.89%的R@1和65.38%的AP。在這里,對于檢索損失函數(shù)來說,同時考慮數(shù)據(jù)分布的不同觀點比測量每張圖片的相似度更有效。實例損失在每個分支中都嵌入了一個額外的線性層,以探索隱含的數(shù)據(jù)分布,并提供更好的權(quán)重初始化,讓模型產(chǎn)生更多的鑒別性嵌入。因此,Instance Loss的R@1精度比Triplet Loss高約4.91個百分點。
2.4.1 所提出模塊的效果
為了展示提出網(wǎng)絡(luò)每個部分的效果,這里將網(wǎng)絡(luò)的每個部分拆分并構(gòu)建了四組實驗來比較它們的性能。這些部分包括基礎(chǔ)模型、CoA Block、SST Block和RSCA Block,如表4所示。在無人機目標(biāo)定位任務(wù)(無人機→衛(wèi)星)中,嵌入CoA Block 可以比基礎(chǔ)模型的R@1提升4.96個百分點,AP提升5.22個百分點。然后,將SST Block 堆疊到上述結(jié)構(gòu)中,R@1 和AP 分別提升了2.37和3.02個百分點。接下來,將上述提及的三個模塊所輸出的結(jié)果(CoA Block、SST Block 和RSCA Block)聚合到基礎(chǔ)模型并構(gòu)造到SCENet,SCENet 達(dá)到69.55%的R@1 和74.99%的AP,即R@1 高于基礎(chǔ)模型8.62個百分點和AP高于基礎(chǔ)模型9.68個百分點。在無人機導(dǎo)航任務(wù)(衛(wèi)星→無人機)中,提出的方法比基礎(chǔ)模型在R@1 提高了6.36 個百分點和AP 提高了7.62 個百分點。上述實驗結(jié)果證明提出的三個Block是有效可行的,提出的方法可以提高網(wǎng)絡(luò)的性能。
表4 提出模塊的消融效果Table 4 Ablation effect of proposed Blocks 單位:%
2.4.2 不同骨干網(wǎng)絡(luò)的影響
為了驗證骨干網(wǎng)絡(luò)的效果,使用提出的骨干網(wǎng)絡(luò)SCENet替換了其他網(wǎng)絡(luò),如表5所示。從檢索性能的角度來看,ResNet50 的R@1 在無人機目標(biāo)定位任務(wù)中優(yōu)于ResNeXt50。隨后,ResNet50 的R@1 在無人機導(dǎo)航任務(wù)中超過了Wide ResNeXt的R@1。此外,CoTNet50在無人機目標(biāo)定位任務(wù)中的表現(xiàn)比ResNet50的R@1高出5.91個百分點,AP高出5.72個百分點,而在無人機導(dǎo)航任務(wù)中取得76.07%的R@1和67.51%的AP。在這里,CoTNet50 改進(jìn)了ResNet50,并整合了幾個注意力模塊以增強上下文信息。與CoTNet50 相比,提出的方法在無人機→衛(wèi)星任務(wù)中R@1提高了2.9個百分點和AP提高了3.77 個百分點,在衛(wèi)星→無人機任務(wù)中R@1 提高了5.9個百分點和AP提高了1.8個百分點。與CoTNet50不同的是,提出的骨干SECNet 不僅整合了變換器結(jié)構(gòu)來探索位置感知特征,而且還通過嵌入SCENet 的RSCA Block來挖掘潛在的空間特征。
表5 不同骨干網(wǎng)絡(luò)的消融效果Table 5 Ablation effect of different backbone 單位:%
為了更加直觀地對比PFFNet與基礎(chǔ)模型之間的性能差異,利用熱力圖可視化方式來解釋這種差異,具體情況如圖5所示University-1652數(shù)據(jù)集中的衛(wèi)星視角和無人機視角的熱力圖。從圖中可以觀察到,衛(wèi)星視角和無人機視角在基礎(chǔ)模型中,網(wǎng)絡(luò)只感知到了目標(biāo)位置中心的一小部分區(qū)域,無法覆蓋整體的目標(biāo)位置。但是所提出的PFFNet 方法中,比基礎(chǔ)模型方法激活了更多目標(biāo)位置周圍的上下文信息,覆蓋范圍廣,并產(chǎn)生了辨別性的特征。PFFNet 在不同形狀、不同高度的目標(biāo)建筑中均有優(yōu)良的效果。
圖5 基礎(chǔ)模型和PFFNet的熱力圖對比Fig.5 Comparison of heatmaps of base model and PFFNet
此外,還展示了University-1652數(shù)據(jù)集上的無人機目標(biāo)定位和無人機導(dǎo)航任務(wù)的檢索結(jié)果,如圖6(a)所示。對此觀察到,圖6(a)中的第二排位置顯示的目標(biāo)位置在Top-1中沒有正確匹配,這表明檢索是困難的。在無人機導(dǎo)航任務(wù)中,給定一個衛(wèi)星視角圖像,從無人機視角庫中檢索出前五張相似的圖像,圖6(b)所示,所提出的方法可以準(zhǔn)確無誤地找到所有對應(yīng)位置的圖像。綜上所述,驗證提出的方法取得了正確的結(jié)果,并證明模型是有效可行的。
圖6 PFFNet的定性圖像檢索結(jié)果Fig.6 Qualitative image retrieval results from PFFNet
本篇論文提出了面向跨視角地理定位的感知特征融合網(wǎng)絡(luò)(PFFNet),專注于學(xué)習(xí)位置感知的特征并在每個視角之間建立語義關(guān)聯(lián),SCENet 骨干網(wǎng)絡(luò)為特征空間提供了豐富的上下文信息。實驗表明,提出的方法在跨視角地理定位任務(wù)中表現(xiàn)良好,并實現(xiàn)了很好的穩(wěn)健性。特別是,提出的方法比其他CNN 的網(wǎng)絡(luò)產(chǎn)生的位置感知特征更準(zhǔn)確??梢宰C明,感知特征融合網(wǎng)絡(luò)可以在跨視角地理定位的基準(zhǔn)中達(dá)到先進(jìn)的性能。
在未來,將專注于提取更具辨識度的位置感知特征,探索更強大的模型,并將該方法擴(kuò)展到跨視角地理定位中。