• 
    

    
    

      99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看 ?

      基于雙重注意力與精確特征分布匹配的車輛重識別

      2023-12-11 07:11:18潘旭光郭曉燕劉香蘭
      計算機工程與應用 2023年23期
      關鍵詞:全局注意力損失

      徐 巖,潘旭光,郭曉燕,劉香蘭

      山東科技大學 電子信息工程學院,山東 青島 266590

      車輛重識別(vehicle re-identification,Vehicle Re-ID)任務是跨非重疊區(qū)域的指定車輛檢索問題,旨在利用跨區(qū)域的“公安天網”系統對指定的目標車輛進行追蹤和查找。通過車輛重識別技術的加持,不僅能節(jié)省人工查看視頻尋找嫌疑車輛的時間成本,還能為刑偵工作提供可靠的線索和依據,對提高交管人員的工作效率、助力交通數字化轉型以及安防追蹤具有重要意義。車輛重識別系統需要對全網監(jiān)控設備下的車輛進行查找與追蹤,當給定車輛圖像,系統需要將查詢圖像利用表征學習在車輛數據庫中訓練并提取車輛的特征向量,然后將學習的車輛特征和候選圖像庫中的其他攝像頭拍攝的圖像利用度量學習進行相似度判別,從中匹配到最相似的圖像并輸出結果,從而實現車輛的再次識別。

      隨著對車輛實時檢索需求的不斷增加,車輛重識別作為一項富有挑戰(zhàn)性的任務在智能交通研究界受到了越來越多的關注,然而一些客觀因素和主觀因素對其檢索性能產生了一定的影響,主要體現在以下兩個方面。如圖1所示,一是客觀因素,包括光照強度、姿態(tài)與視點變化、部分遮擋、背景雜亂以及分辨率變化,這些因素導致所拍攝車輛圖像的質量和風格因監(jiān)控攝像頭和拍攝的環(huán)境場景的不同而存在著數據分布的嚴重偏差,因此重識別模型的域泛化能力差,即在源域訓練好的模型面對未知分布的目標域時,重識別精度會大幅度降低。二是主觀因素,首先由于各大車企所生產的車輛屬于工業(yè)生產線流水作業(yè)所產出的,其具有相似的視覺外觀,故兩種不同品牌、型號和類型的車輛從背面或正面看起來也會非常相似,即車輛存在類間相似性;其次由于被拍攝的車輛圖像所在的環(huán)境場景和視角不同,同一輛車在監(jiān)視網絡的不同時間和地點看起來也有不同,即車輛存在類內差異性。因此,如何克服域偏移(domain shift)和車輛這種剛性物體本身存在的類間差異小、類內差異大的問題對車輛重識別的研究具有重要意義。

      圖1 真實交通場景下車輛重識別存在的挑戰(zhàn)Fig.1 Challenges of vehicle Re-ID in real traffic scenarios

      為了解決上述問題,本文提出一種基于雙重注意力與精確特征分布匹配的車輛重識別方法,通過設計一個全局分支和逐深度多尺度特征金字塔分支的雙分支框架來融合全局特征和局部特征,并引入Tuplet邊際損失(Tuplet margin loss)[1]以克服現有深度度量損失函數僅依賴于精心挑選的樣本對或三元組來實現快速收斂的不足。其關鍵算法包括雙重注意力機制和精確特征分布匹配,前者從空間和通道兩個域來獲取細粒度注意力信息,而后者從增強源域的域多樣性出發(fā),將精確特征分布匹配的風格遷移策略應用于淺層網絡,有效提升了車輛重識別的跨域性能。本文的主要貢獻如下:

      (1)針對車輛重識別過程中對車輛細粒度特征提取能力不足的問題,設計了一種雙重注意力機制來高效建模全局上下文信息以增強對車輛細粒度特征的提取能力。同時,提出了一種逐深度多尺度特征金字塔結構,整合不同尺度特征層的多層次信息,并將輸出的車輛特征采用特征圖分割的思想來突出局部細粒度信息,進一步提升模型對車輛細粒度信息的敏感度。

      (2)針對目標域和訓練域的數據分布不一致所導致模型性能出現大幅度下降的挑戰(zhàn)因素,利用基于精確特征分布匹配的域泛化方法EFDMix(exact feature distribution mixing)[2]來降低不同數據集之間存在的數據分布差異,減小域偏移,實現數據增廣。

      (3)在公開數據集VeRi-776 及VehicleID 上進行單域和跨域實驗,驗證了提出的基于雙重注意力與精確特征分布匹配方法在車輛重識別問題上的性能優(yōu)于主流算法的性能。

      1 相關工作

      為了使車輛Re-ID 模型可以適應不同數據分布下未知的目標車輛數據庫,一方面,相關研究者利用生成對抗網絡(generative adversarial networks,GAN)技術[3]將源于的圖像樣式遷移到目標域中,從而減小不同數據集之間存在的領域風格差異。如Wei等人[4]最早提出一種用于重識別領域的生成對抗網絡PTGAN,該算法是在CycleGAN[5]的基礎上改進而來,用于學習各數據集之間的風格信息并進行風格轉換,從而能夠大幅度縮小域間風格差異。同年,Deng等人[6]在CycleGAN[5]和孿生網絡的基礎上構建了一種新的風格轉換方法SPGAN,該算法可以保留風格轉換前后圖像的自相似性以及轉換后的源域圖像與目標域圖像的域不相似性,從而有效地增強模型的無監(jiān)督域自適應能力。后來,Peng等人[7]以生成對抗網絡為基礎,設計了一種雙分支對抗網絡來完成圖像與圖像之間的內容和風格轉換,縮小了不同數據集之間的差異,然后利用融入注意力機制的卷積神經網絡進行模型訓練。接著又提出一種新的漸進自適應學習方法,其在源域采用數據適配模塊,生成與未標記目標域具有相似數據分布的圖像作為“偽目標樣本”,并提出一種加權標簽平滑損失來平衡偽標簽的置信度[8]。

      另一方面,利用聚類思想為不同風格的車輛數據集打上高質量的標簽,然后將生成的數據傳送到卷積神經網絡中用于模型訓練,反復迭代,最終使得模型在不同風格的數據集下都具有良好的性能[9]。如Bashir等人[10]提出了一種漸進式無監(jiān)督學習方法來將預訓練的深度表示轉移到未知域,在聚類方法和卷積神經網絡的微調之間迭代,以改進在不相關的標記數據集上訓練的初始化重識別模型。Wang等人[11]利用聚類算法將訓練集劃分成多個域間子集,然后通過每兩個域間子集之間的風格遷移來生成跨領域的數據從而實現數據增強。由此看來,目前的研究工作大多是利用生成對抗網絡生成的圖像實現數據增廣,但由于合成數據與真實場景的數據之間存在著領域差異和特征偏差,簡單地添加合成數據來訓練模型取得的效果非常有限。

      當前存在的車輛Re-ID模型對相同品牌、相同車型的車輛細粒度特征提取能力較弱,因此為進一步地提取車輛豐富的特征信息,提升模型對細粒度特征的表達能力,Wang等人[12]提出了一種方向不變特征嵌入模塊,通過方向不變特征嵌入,可以基于20 個關鍵點位置提取不同方向的車輛局部區(qū)域特征,但實際上并不是所有關鍵點都包含鑒別性信息。He等人[13]提出了一種部分正則化區(qū)分特征的方法,該方法增強了對細微差異的感知能力。Suprem 等人[14]構建了一種適應于車輛重識別的全局和局部注意力模塊,以確保網絡同時對全局和局部特征進行提取,并運用注意力機制和局部關鍵區(qū)域的特征信息進行車輛重識別。盡管上述方法可以捕獲到局部細節(jié)并充分利用,并提高了模型去感知同種型號車輛細微差異的能力,但大多數方法并沒有考慮車輛的多尺度信息。

      2 網絡結構

      本文所設計的網絡是以WideResNet50(WRN50)[15]為骨干網絡的雙分支框架,即由一個全局分支和一個逐深度多尺度特征金字塔分支組成。與車輛重識別領域應用最多的ResNet50相比,WRN50從減少網絡深度、增加網絡寬度的視角改善了ResNet50的模型性能和訓練速度。網絡的整體結構如圖2所示。

      圖2 整體網絡結構圖Fig.2 Overall network structure diagram

      首先,在骨干網絡的第四個殘差塊(Conv5)后構建了全局分支以用于提取目標車輛的全局性信息。為了有效鑒別車輛重識別中相同車型、外觀相似但身份不同的車輛,在骨干網絡的第二個殘差塊(Conv3)之后插入本文所提出的雙重注意力機制;在對骨干網絡的輸出進行全局平均池化操作之后,2 048維的向量被作為全局特征f1進行傳遞,之后利用BNNeck(batch normalization neck)對全局特征f1進行歸一化處理得到歸一化特征f2。在訓練階段將特征f1和f2分別用于優(yōu)化歐氏距離和余弦距離,以避免多種損失同時優(yōu)化一個特征向量時產生損失震蕩的問題。另外,由于前期的卷積層對樣式信息進行編碼,因此將EFDMix[2]模塊嵌入到WRN50的第一個殘差塊(Conv2)和第二個殘差塊(Conv3)后以增強模型的域泛化能力。

      其次,在骨干網絡的第二、第三個殘差塊(Conv3和Conv4)后引出逐深度多尺度特征金字塔分支以獲得車輛圖像的更多局部細節(jié)。該分支主要由一個兩層的多尺度特征提取模塊DBL-BiFPN 和一個基于PCB[16]的橫向三分塊結構組成。DBL-BiFPN的輸出經過一個平均池化操作和降維模塊將1 024的維度信息壓縮到256,從而用于優(yōu)化訓練過程中逐深度多尺度特征金字塔分支的分類損失。

      最后,將全局特征f1和逐深度多尺度特征金字塔分支的輸出特征進行融合形成網絡的全局-局部特征,并在交叉熵損失和難樣本挖掘三元組損失的基礎上,引入Tuplet邊際損失對網絡模型進行聯合優(yōu)化。

      2.1 雙重注意力機制

      注意力機制本質上就是對輸入進行權重分配,即先對圖像中的部分信息進行選擇性地忽略,然后采用自適應的方式對所有信息進行重新加權,使得重要的信息會被賦予相對較大的權重,以廣泛應用于深度學習中[17-19]。目前在車輛重識別領域應用的注意力機制主要分為空間注意力機制和通道注意力機制。然而,空間注意力往往僅考慮局部區(qū)域的信息,無法建立遠距離的依賴。非局部(non-local)注意力[20]根據映射像素之間的相似性生成一個加權掩碼,然后計算一個位置的響應作為所有位置特征的加權和,從而產生全局感受野,但計算成本太高。通道注意力多數只關注通道內部信息的綜合,沒有考慮到全局上下文信息的重要性。CBAM[21]綜合考慮了通道和空間兩路的注意力信息,但獲取注意力信息的方式是獨立的,是依次推斷注意力圖,還是無法有效捕獲長程上下文信息。

      針對以上所述,本文在全局上下文網絡(global context network,GCNet)[22]和通道注意力模塊(channel attention module,CAM)[23]的基礎上設計了一種新的注意力框架——雙重注意力機制(dual attention mechanism,DAM)。如圖3 所示,DAM 通過并行兩路獲取注意力信息,一路是在空間域,另一路是在通道域。

      圖3 DAM注意力機制Fig.3 DAM attention mechanism

      在空間域中,首先執(zhí)行一個全局注意力池化,引入深度可分離卷積[24]和Softmax 函數來獲得注意力權重,通過將注意力權重和輸入特征矩陣進行相乘來獲取全局上下文特征,然后利用瓶頸操作來減少計算量。這里的深度可分離卷積Wv1和Wv2是為了降低參數量并進一步提取特征信息。此外,還將GELU(Gaussian error linear unit)激活函數引入空間域以提升模塊的整體性能。在GELU之前引入層歸一化(LayerNorm)克服了兩層特征轉換帶來的優(yōu)化難度,充當了有助于泛化的正則化器。全局上下文模塊的具體結構如圖3 所示,其中r為縮放因子,公式如下:

      其中,Zi表示模型的輸出;Np(即Np=H×W)是特征映射中的位置數;是全局注意力的權重;Wk、Wv1和Wv2均為深度可分離卷積;δi=Wv2GELU(LN(Wv1(·)))表示瓶頸轉換。

      在通道域中,分別對原始特征矩陣I做Reshape(C×H×W),Reshape 和轉置操作(H×W×C),將得到的兩個特征圖相乘再通過Softmax 得到通道注意力圖X(C×C),然后將X與I做矩陣乘法,再乘以尺度系數β,再Reshape 為原來形狀(C×H×W)得到通道加權矩陣A,將A與I相加得到通道注意力的輸出矩陣B。最后將原始輸入矩陣I、全局上下文模塊的輸出矩陣以及通道注意力輸出矩陣B進行特征聚合得到DAM 的注意力輸出矩陣I*。通道注意力模塊的具體結構如圖3所示,公式表示如下:

      其中,X矩陣指的是通道注意力圖,xji為X矩陣的每一個元素,下標ji表示第i個通道對第j個通道的影響,故通道注意力輸出矩陣B中的每個元素表示為:

      其中,β為尺度系數,初始化為0,并逐漸學習分配到更大的權重。公式(3)顯示每個通道的最終特征是所有通道的特征和原始輸入特征的加權和,其對特征映射之間的長期語義依賴進行建模,有助于增強對車輛特征的辨別能力。綜上,兩個模塊的特征聚合表示公式如下:

      基于上述分析,DAM 不僅具有對全局上下文進行建模的優(yōu)點,而且能夠計算所有通道之間的加權和來捕捉通道間的依賴性,使模型不僅學習車輛的輪廓信息,還能聚焦于車輛的鑒別性特征,抑制雜亂的背景信息,從而能夠增強模型的細粒度特征提取能力。

      2.2 EFDMix風格遷移模塊

      雖然卷積神經網絡在學習判別性特征方面表現出了顯著的能力,但它們對未知領域的泛化能力往往很差。為了克服車輛重識別的跨域性能衰退的問題,本文在模型中引入了EFDMix[2]方法,該方法利用精確特征分布匹配(exact feature distribution matching,EFDM)[2]對高階特征統計量進行有效和隱式的匹配,以增強領域泛化中的交叉分布特征。給定輸入數據X∈RB×C×HW和樣式數據Y∈RB×C×HW,B、C、H、W分別表示批次大小、通道維度、高度和寬度,EFDM是以通道的方式進行應用,故其公式可以定義為:

      其中,o表示排序匹配算法的復雜度,排序匹配是通過匹配兩個排序后的向量來實現的,τi和ki是其索引符號,表示停止梯度操作。

      為了生成更多樣化的混合車輛風格的特征增強,通過EFDM對排序向量進行內插,得到精確的特征分布混合EFDMix為:

      其中,λ表示從實例出發(fā)的混合權重,并從Beta 分布中取樣λ:λ~Beta()α,α;α∈(0,∞)是一個超參數,本文設定α=0.1。值得注意的是,當λ=0時,EFDMix退化為EFDM。

      由于早期的卷積層對車輛的樣式信息進行編碼,而后期則傾向于捕獲語義內容,因此將EFDMix模塊引入到WRN50 的Conv2、Conv3 殘差單元之后,以0.5 的概率來決定是否在訓練階段的前向通道激活EFDMix,并在測試階段將其停用。具體來說,將源域的車輛圖像進行訓練,在給定輸入特征X的情況下,將輸入特征X(源域數據集)沿批次維度隨機洗牌得到混合樣式特征Y(目標域數據集),從而將輸入轉換為輸入域和目標域之間的中間域,減小數據集之間的風格差異。

      2.3 DBL逐深度卷積濾波器

      傳統的CBL 卷積層作為網絡的一個基本組件,一般由卷積層、批量歸一化(batch normalization,BN)層和ReLU(recitified linear unit)激活層組成,但這種結構存在著網絡收斂比較慢的問題。為此設計了一種適合重識別網絡的新型卷積層結構——逐深度卷積濾波器(DO-Conv-BN-LeakyReLU,DBL),其由逐深度過參數化卷積層(depthwise over-parameterized convolution,DO-Conv)[25]、BN 層和LeakyReLU 激活函數組成,結構如圖4所示。

      圖4 CBL和DBL結構對比圖Fig.4 CBL and DBL structure comparison diagram

      DO-Conv 是在傳統卷積操作中加入了額外的深度卷積操作,構成一個過參數化的卷積層,過參數化的優(yōu)勢是其所使用的多層復合線性運算可以在訓練階段之后合并成緊湊的單層表示,使得在推理時只使用一個層,從而將計算量減少到完全等同于傳統卷積層。此外,與傳統卷積相比,DO-Conv具有更快的收斂速度,并且在不增加網絡推理計算量的前提下提高網絡性能。除此之外,網絡還使用了LeakyReLU 激活函數代替原來的ReLU激活函數,以提升網絡的整體性能。

      2.4 DBL-BiFPN逐深度多尺度特征金字塔結構

      加權雙向特征金字塔網絡(bidirectional feature pyramid network,BiFPN)[26]是針對目標檢測任務所提出的,如果直接應用到車輛重識別任務中會存在網絡收斂較慢和模型性能不理想等問題。因此,將DBL 卷積層應用于傳統BiFPN 結構并在原模型的基準上加強了跨層級交互以增強對車輛特征的充分復用。DBLBiFPN的關鍵是一個上下對稱的結構,如圖5所示。由于淺層區(qū)域的特征可以保留圖像中更多的細節(jié),同時維度較低的特征也會減少分支內需要學習的參數量,因此,將WRN50 的第二個殘差塊(Conv3)和第三個殘差塊(Conv4)的淺層特征作為逐深度多尺度特征金字塔分支的輸入P1和P2。

      圖5 DBL-BiFPN結構圖Fig.5 DBL-BiFPN structure diagram

      具體來說,逐深度多尺度特征金字塔分支首先從DBL卷積層開始,將骨干網絡淺層區(qū)域輸入的不同通道數的特征圖維度轉換為統一的256,然后四個DBL卷積層將不同尺度的特征進行自底向上和自頂向下的方式聚合。其中DBL卷積層采用了3×3大小的卷積核,自底向上的連接是通過一條最近點內插來實現以增加特征圖的大?。幌喾?,自頂向下的連接是通過使用2×2 卷積核的最大池化來實現。其次,在每層的第一個DBL 卷積層到輸出節(jié)點之間增加了一條類似于ResNet殘差結構的額外路徑進行下采樣操作,以便在不增加太多代價的情況下融合更多的車輛特征,下采樣操作如圖5中的曲線箭頭所示。同樣地,跨層級連接也增強了對車輛特征的充分利用。另外,這里還使用雙重注意力機制和交叉正交化(cross orthogonality regularization,COR)[27]來減少協同冗余,并進一步促進了模型不同分支之間的多樣性。最后,在全局平均池化之后引入基于PCB[16]的分塊結構,有效抑制了車輛圖像中的背景信息干擾并能夠突出車輛局部信息。其中橫向切割后的三個分塊分別對應于車輛圖像的上、中、下三個區(qū)域,并將全局特征f1和橫向分割模塊的輸出特征進行拼接形成模型的全局-局部特征,再通過損失函數進行相似性判斷。

      2.5 損失函數

      為了使網絡模型具有更好的預測能力,本文在以往Re-ID領域常用的交叉熵(cross entropy,ce)損失和難樣本挖掘三元組(hard mining triplet)損失的基礎上,引入了Tuplet邊際損失[1]對網絡模型進行聯合優(yōu)化。

      與三元組、對比損失函數通過挑選樣本來實現快速收斂的思路不同,Tuplet邊際損失是從輸入的每個小批次中隨機選擇樣本來使用。具體來說,Tuplet邊際損失隱含地提高了困難樣本的權重、降低了簡單樣本的權重,同時在角度空間中引入了一個松弛的余量以緩解最困難樣本的過擬合問題。此外,Tuplet邊際損失還通過分解特定類別的信息來解決對內變化的問題,以提高其普適性,因此本文將其與上述兩種損失函數聯合優(yōu)化訓練模型。假設x∈X表示車輛數據,y∈Y表示其標簽,Tuplet邊際損失的目的是學習一個具有小的類內距離和大的類間距離的判別性特征嵌入f(x),即:

      與三元組損失類似,這里的xa表示基準車輛,xp表示正樣本車輛,xn表示負樣本車輛。Tuplet邊際損失的計算公式如下:

      θap表示f(xa)和f(xp)之間的角度;θani是f(xa)和f(xni)之間的角度;s表示超球體半徑的尺度因子;松弛余量β≥0,本文設置β=0.2。

      最終網絡的總損失Ltotal是由交叉熵損失、難樣本挖掘三元組損失以及Tuplet 邊際損失按照一定的比例疊加而成,其中λ代表Tuplet 邊際損失的權重系數,具體計算如公式(10)所示:

      3 實驗與分析

      3.1 數據集與實驗設置

      為了驗證本文方法的有效性,在車輛重識別的兩個公共基準數據集進行了廣泛的實驗,即VeRi-776[28]、VehicleID[29]。數據集的詳細信息如表1所示。

      表1 數據集信息Table 1 Dataset Information

      在訓練階段,車輛圖像被重新設置為384×128,然后通過隨機翻轉、隨機擦除、隨機裁剪以及隨機補丁來進行數據增強。同時,將Adam 優(yōu)化器用于優(yōu)化模型,初始學習率為0.000 035,學習率衰減步長為[60,90],學習率衰減因子設置為0.1。

      3.2 評價指標

      本文所有實驗均使用Rank-n、平均準確率均值(mean average precision,mAP)和累計匹配(cumulative match characteristic,CMC)曲線作為評價指標。其中Rank-n指的是遵循某種相似度匹配規(guī)則對車輛進行特征匹配后,檢索結果中前n張車輛圖像中存在正樣本車輛的概率,即在第n次以內匹配正確的概率,常使用Rank-1和Rank-5;mAP是平均準確率(average precision,AP)的平均值,通過將查準率和查全率進行結合來度量車輛重識別;CMC 曲線通過計算前n個結果與查詢集中屬于同一車輛的概率來直觀展示出重識別的準確性。

      3.3 消融實驗分析

      3.3.1 雙分支網絡的有效性驗證

      為了驗證全局分支和逐深度多尺度特征金字塔分支對網絡性能的影響,僅使用交叉熵損失對網絡進行優(yōu)化,并在VeRi-776 數據集進行消融實驗,實驗結果如表2所示,其中加粗表示最佳結果。

      表2 不同分支在VeRi-776上的實驗結果Table 2 Experimental results of different branches on VeRi-776 單位:%

      從表2 可以看出,引入以WRN50 作為骨干網絡的全局分支比以經典ResNet50作為骨干網絡的全局分支具有更好的性能,mAP 與Rank-1 分別提升了1.14、0.58個百分點。相較于以ResNet50作為骨干網絡的雙分支網絡,同樣以WRN50 作為骨干網絡的雙分支網絡在mAP和Rank-1指標上具有更優(yōu)秀的表現,mAP與Rank-1 分別提高了0.94、0.54 個百分點。為進一步驗證兩種骨干對模型的影響,利用Grad-CAM++技術對ResNet50和WRN50網絡進行了可視化處理,如圖6所示,可以看出兩種網絡的關注點均在車輛身上,但WRN50 對年檢標志這種局部信息也有所關注,進而使網絡學習到更豐富的車輛細粒度特征。因此,后續(xù)實驗均以WRN50 為骨干的雙分支網絡展開。

      圖6 兩種骨干網絡的熱力圖對比Fig.6 Heat map comparison of two backbone networks

      3.3.2 注意力機制的影響

      如圖7 所示,從VeRi-776 數據集中選擇了4 張不同類型的車輛圖片,利用類激活熱力圖觀察在淺層主干(Conv2)添加DAM后網絡對車輛圖像的關注點。通過對比添加和未添加DAM 后的可視化結果可知,所設計的注意力能較好地關注圖像中信息量豐富的區(qū)域,如第一張圖片添加DAM 后,網絡對年檢標志這種細粒度信息更加關注;第二張是一輛出租車,對出租車的再次識別往往是利用車頂燈牌這類獨有的屬性標志,經觀察可知,添加DAM 后網絡能將以前在護欄上的關注點轉移到車輛頂部區(qū)域,較好地對車輛前景與背景信息進行區(qū)分。第三張和第四張分別是緊挨護欄的皮卡車與側向行駛的黑色轎車,在未添加DAM時,網絡對車輛的關注點較為分散,添加DAM后,網絡的關注分布均集中在車身上,證實了模型對車輛關鍵特征的提取能力。

      圖7 未添加DAM與添加DAM的熱力圖對比Fig.7 Comparison of heat map without DAM and with DAM

      進一步地,針對DAM 注意力機制在模型中的放置位置,以全局分支、逐深度多尺度特征金字塔分支以及交叉熵損失為基礎模型,其實驗結果如表3 所示。其中,實驗1 表示在WRN50 的Conv2 后添加雙重注意力模塊,實驗2 表示在WRN50 的Conv3 后添加雙重注意力模塊,實驗3 表示在WRN50 的Conv4 后添加雙重注意力模塊,實驗4 表示在WRN50 的Conv5 后添加雙重注意力模塊,實驗5表示在逐深度多尺度特征金字塔分支內添加雙重注意力模塊,實驗6 表示在WRN50 的Conv3 后以及逐深度多尺度特征金字塔分支內均添加雙重注意力模塊。從實驗結果可以看出實驗6 的模型性能最優(yōu),因此本文選取實驗6 的DAM 放置位置。另外,在不同位置放置雙重注意力模塊所對應的CMC 對比曲線如圖8所示。

      表3 DAM在模型中不同放置位置的實驗結果Table 3 Experimental results of different placement of DAM in model 單位:%

      圖8 DAM在模型中不同放置位置的CMC曲線Fig.8 CMC curves for different placements of DAM in model

      為了驗證雙重注意力機制的先進性,以表3 實驗6的配置為基礎,對5種注意力機制在VeRi-776數據集上進行了實驗,其對比結果如表4 所示。從表4 的實驗結果可以看出本文提出的雙重注意力機制效果最佳,相較于全局上下文網絡GCNet[22],其mAP提升了1.09個百分點、Rank-1 提高了0.98 個百分點;相較于通道注意力模塊CAM[23],其mAP提升了0.92個百分點,Rank-1提升了0.77 個百分點;相較于非局部注意力機制Non-Local[20]和CBAM[21],注意力機制也有顯著的性能提升。

      表4 5種不同注意力機制的實驗結果Table 4 Experimental results of five different attention mechanisms 單位:%

      3.3.3 DBL-BiFPN分支的影響

      為了驗證DBL-BiFPN的先進性,將BiFPN和DBLBiFPN在VeRi-776數據集上進行了實驗,結果如表5所示。從表中數據可以得出,DBL模塊對BiFPN性能的提升做出了貢獻,其mAP相比于CBL結構提高了0.4個百分點,Rank-1精度提高了0.5個百分點。

      表5 DBL模塊對BiFPN影響的實驗結果Table 5 Experimental results of effect of DBL module on BiFPN 單位:%

      另外,為了確定特征圖橫向分割的次數對模型效果的影響,在VeRi-776 數據集上開展了實驗,實驗結果如表6 所示??梢钥闯觯囕v被等分為3 塊時模型性能最佳,驗證了粗略地分割會導致模型無法捕獲精確的車輛細粒度信息,而分割得越精細會引入一些邊緣毛刺信息,難以有效地對車輛特征進行提取。

      表6 特征圖水平分塊個數的實驗結果Table 6 Experimental results of number of horizontal chunks of feature map單位:%

      3.3.4 風格遷移模塊的影響

      為了驗證EFDMix 風格遷移模塊處在網絡不同深度位置對跨域性能的影響,在VeRi-776 與VehicleID 數據集上進行了跨域消融實驗。在實驗中,兩個數據集分別作為源域和目標域,對于VehicleID數據集,本文選取最有測試難度的Test2400 作為測試集,實驗結果如表7所示。從表7 中可以看出當源域和目標域源自不同數據集時,由于圖像風格的差異,模型性能會急劇衰退,但在網絡較淺的卷積層后遷入基于精確特征分布匹配的風格遷移模塊時跨域性能得到了極大的改善,不僅證實了風格信息是由CNN 的淺層所捕獲的,也驗證了本文利用高階統計量進行特征增強改善了源域的領域多樣性,提高了訓練模型的域泛化能力。

      表7 EFDMix在模型中不同放置位置的跨域實驗Table 7 Cross-domain experiments with different placement of EFDMix in model 單位:%

      3.3.5 損失函數的影響

      為了驗證各損失函數的有效性,本文在基礎網絡之上分別添加了難樣本挖掘三元組損失和Tuplet 邊際損失,在VeRi-776數據集的對比實驗結果如表8所示。從表中可以看出當引入3種損失聯合訓練時mAP和Rank-1評價指標最優(yōu),這是由于Tuplet邊際損失的松弛余量不僅改變了正樣本對和負樣本對中的成對距離的分布,還迫使損失更加關注“適度硬的三元組”。因此,松弛余量通過降低在最難的三元組上過擬合的風險,改善了基于Tuplet的損失函數的性能,驗證了本文在車輛ReID領域引入Tuplet 邊際損失的必要性和有效性。為了驗證不同權重的Tuplet邊際損失對于模型性能的影響,還對權重系數進行消融實驗,如表9 所示,可以看出λ=0.000 125時,模型性能最佳。

      表8 3種不同損失函數的實驗結果Table 8 Experimental results of three loss functions單位:%

      表9 Tuplet邊際損失不同權重系數值的實驗結果Table 9 Experimental results for different weighting factor values of Tuplet’s marginal loss 單位:%

      3.4 對比實驗分析

      3.4.1 單域方法對比實驗

      表10 為本文所提出的方法與已有方法在VeRi-776數據集上進行性能對比,包括DAVR[7]、GLAMOR[14]、MBNA[18]、MSA[30]、MsDeep[31]、VSCR[32]、CFVMNet[33]、PGAN[34]、HPGN[35]、GiT[36]。相比于同樣使用全局和局部特征的GLAMOR[14]模型,本文將不同尺度上的車輛細粒度特征進行整合以提升模型的精度和域泛化性能,而不僅僅是將全局特征和局部特征進行拼接。總的來看,本文所提出算法在VeRi-776數據集上的mAP為80.91%,Rank-1為96.62%,均達到了較高的精度,驗證了模型在單域車輛重識別的有效性。

      表10 單域方法在VeRi-776數據集上的實驗結果Table 10 Experimental results of single-domain approach on VeRi-776 dataset 單位:%

      另外,本文對所提出方法在VeRi-776數據集上的部分測試結果進行了檢索結果可視化,結果如圖9 所示,第一列表示待檢索的車輛圖像,第二列到第六列表示模型檢索正確的前五項,綠框表示檢索正確,紅框表示檢索錯誤,可視化結果表明本文模型具有良好的特征表達能力。

      圖9 本文模型在VeRi-776數據集上的部分推理結果Fig.9 Partial test results of vehicle re-identification model on VeRi-776 dataset

      在VehicleID 數據集上,對比的方法包括DAVR[7]、MSA[30]、QD-DLF[37]、HSS-GCN[38]、LRPT[39]。其中,“—”表示文章未給出此結果。將這些方法在VehicleID的三個測試集Test800、Test1600以及Test2400上進行的對比實驗,結果如表11 所示,可以看出,本文所提算法在三個測試集上的mAP 和Rank-1 均達到了較高的精度,驗證了模型在單域車輛重識別上的有效性。

      表11 單域方法在VehicleID數據集上的實驗結果Table 11 Experimental results of single-domain approach on VehicleID dataset 單位:%

      3.4.2 跨域方法對比實驗

      為了充分檢驗所提方法的域泛化性能,在VeRi-776和VehicleID 數據集進行了跨域對比實驗,實驗結果如表12 所示。從跨域實驗結果中可以看出,本文方法在VeRi-776→VehicleID的測試中,mAP和Rank1分別達到48.52%和38.70%,在VehicleID→VeRi-776的測試中,mAP和Rank-1 分別達到39.13%和70.00%,跨域結果相較CycleGAN[5]、GLCAM-Net[40]及DAVR[7]這類較優(yōu)異的跨域模型,其mAP和Rank-1有顯著提升,證明了所構建模型不僅可以在單域測試時展現良好的性能,而且在跨數據集測試時也表現出了應對未知數據分布時的泛化性能。

      表12 跨域車輛重識別任務的對比實驗Table 12 Comparison experiments of cross-domain vehicle re-identification tasks 單位:%

      4 結束語

      為解決車輛Re-ID模型細粒度特征提取能力弱以及不同數據集之間存在的域間風格差異所導致的車輛重識別效果不佳的問題,本文提出了一種基于雙重注意力與精確特征分布匹配的車輛重識別方法,該方法綜合考慮了車輛的全局特征和局部金字塔特征。使用WRN50骨干網絡和雙重注意力機制以更好地提取車輛的細粒度特征;使用逐深度多尺度特征金字塔結構來應對車輛圖像中不同尺度的復雜信息;加入EFDMix風格遷移模塊以平滑域間風格差異;引入Tuplet邊際損失函數對網絡進行優(yōu)化,緩解了最困難樣本的過擬合問題。本文所提出的算法在兩個大型車輛數據集上的實驗結果表明,該算法能有效提升車輛重識別的單域和跨域性能。

      猜你喜歡
      全局注意力損失
      Cahn-Hilliard-Brinkman系統的全局吸引子
      少問一句,損失千金
      量子Navier-Stokes方程弱解的全局存在性
      讓注意力“飛”回來
      胖胖損失了多少元
      玉米抽穗前倒伏怎么辦?怎么減少損失?
      落子山東,意在全局
      金橋(2018年4期)2018-09-26 02:24:54
      “揚眼”APP:讓注意力“變現”
      傳媒評論(2017年3期)2017-06-13 09:18:10
      A Beautiful Way Of Looking At Things
      一般自由碰撞的最大動能損失
      颍上县| 永定县| 河西区| 孟村| 寻甸| 鄂伦春自治旗| 德格县| 垦利县| 韶山市| 襄汾县| 神农架林区| 株洲县| 班玛县| 德格县| 绿春县| 黄梅县| 黑河市| 安仁县| 鄂托克旗| 大厂| 朝阳区| 沅陵县| 平顶山市| 广宗县| 崇州市| 克什克腾旗| 武宣县| 建平县| 林西县| 达日县| 天柱县| 布拖县| 阿合奇县| 达尔| 福贡县| 常宁市| 翁牛特旗| 同仁县| 肇东市| 文安县| 长葛市|