廖光鍇,張正,宋治國
基于小波特征與注意力機制結合的卷積網絡車輛重識別
廖光鍇1,張正1,宋治國2*
(1.吉首大學 信息科學與工程學院,湖南 吉首 416000; 2.吉首大學 物理與機電工程學院,湖南 吉首 416000)(*通信作者電子郵箱zhiguos@126.com)
針對現(xiàn)有的基于卷積神經網絡(CNN)的車輛重識別方法所提取的特征表達力不足的問題,提出一種基于小波特征與注意力機制相結合的車輛重識別方法。首先,將單層小波模塊嵌入到卷積模塊中代替池化層進行下采樣,減少細粒度特征的丟失;其次,結合通道注意力(CA)機制和像素注意力(PA)機制提出一種新的局部注意力模塊——特征提取模塊(FEM)嵌入到卷積網絡中,對關鍵信息進行加權強化。在VeRi數(shù)據集上與基準殘差網絡ResNet-50、ResNet-101進行對比。實驗結果表明,在ResNet-50中增加小波變換層數(shù)能提高平均精度均值(mAP);在消融實驗中,雖然ResNet-50+離散小波變換(DWT)比ResNet-101的mAP降低了0.25個百分點,但是其參數(shù)量和計算復雜度都比ResNet-101低,且mAP、Rank-1和Rank-5均比單獨的ResNet-50高,說明該模型在車輛重識別中能夠有效提高車輛檢索精度。
車輛重識別;通道注意力;像素注意力;小波變換;卷積神經網絡
近年來,隨著城市智能交通系統(tǒng)與公安系統(tǒng)的快速發(fā)展,視頻監(jiān)控在交通控制和安全方面發(fā)揮著越來越重要的作用。在計算機視覺領域中,車輛分類[1]、車輛跟蹤[2]、車輛檢測[3]已經取得了很大的進展,但關于車輛重識別的研究進展卻相對較慢。車輛重識別可以應用在許多場景,如視頻監(jiān)控、城市交通、目標跟蹤等。車輛重識別的目的是從多個不同位置的攝像機獲取圖像或者視頻序列,從中檢索出特定的車輛,即給定一個查詢車輛的圖像,找到圖庫中由不同的攝像頭在不同場景下拍攝的車輛圖像進行匹配。與其他圖像檢索任務相比,車輛重識別難度更高,主要原因有:首先,由于攝像頭位置不同,導致同一車輛在光照或視角變化影響下的外觀差異較大;其次,由于背景環(huán)境雜亂、遮擋、分辨率低等因素影響,使不同類型的車輛外觀有較大的相似性。
為了解決上述兩個問題,傳統(tǒng)的車輛重識別方法主要通過設計有效的手工特征來表示車輛的外觀,如尺度不變特征變換(Scale-Invariant Feature Transform, SIFT)[4]、局部最大特征表示(Local Maximal Occurrence Representation, LOMO)[5]、詞袋顏色模型(Bag Of Words-Color Name, BOW-CN)[6]和詞袋尺度不變特征變換(Bag Of Words-Scale Invariant Feature Transform, BOW-SIFT)[7]等。但手工設計的特征辨識力有限,無法滿足復雜場景下車輛重識別任務的要求。隨著深度學習技術的發(fā)展及VeRi[8]、VehicleID[9]等大型數(shù)據集的出現(xiàn),推動了基于深度神經網絡的車輛重識別技術的發(fā)展。利用卷積神經網絡(Convolutional Neural Network, CNN)來學習深層特征,能顯著地提高表示目標的能力,從而能有效地建立車輛的外觀模型?,F(xiàn)有的研究大多集中于學習車輛不同屬性的全局外觀特征,包括模型類型、車牌、空間信息、方向等。一些知名的深度卷積神經網絡,如VGGNet[10]、GoogLeNet[11]和ResNet[12],已經表現(xiàn)出了優(yōu)于手工特征方法的性能。
考慮到不同視角的差異性,Wang等[13]提出了一個方向不變性的特征嵌入模塊和一個時空正則化模塊,通過方向不變性的特征嵌入模塊得到20個關鍵點位置來提取不同方向的局部區(qū)域特征,然后根據時空正則化模型來改善查詢結果。Zhou等[14]針對車輛視覺的不確定性,提出了兩種端到端的深度神經網絡模型:長短期記憶卷積神經網絡(Convolutional Neural Network-Long Short Term Memory, CNN-LSTM),將從不同視點獲取的特征融合到一個多視點特征中,以解決不同視點之間視覺模式差異較大的問題。Zhou等[15]利用注意力機制和對抗模型將單視點特征轉化為多視點特征,能獲得輸入視點和目標視點之間的重疊區(qū)域,實現(xiàn)有效的多視角特征推斷。
上述方法主要研究從不同的視覺角度來提取車輛的特征,但當相同類型的車輛出現(xiàn)時,這些特征并不能提供良好的辨別能力,因此,研究者開始關注獲取細節(jié)特征來解決這個問題。為了能夠學習更多細節(jié)的特征,Shen等[16]嘗試使用附加的屬性,如車輛類型、顏色、時空信息等來提取車輛的細節(jié)特征。Liu等[8]提出了一種基于外觀的方法,稱為屬性和顏色融合(Fusion of Attributes and Color feaTures, FACT)模型,它使用基于顏色和紋理的手工特征與深度學習特征進行融合,得到了更多具有辨識力的車輛特征。Liu等[17]提出了一種基于深度孿生網絡的方法,稱為漸進式車輛重識別(PROgressive Vehicle re-IDentification, PROVID)模型。該方法先粗略地提取車輛外觀特征,然后用孿生網絡對車牌號進行驗證,從而準確地判斷車輛;但很多時候由于光線、天氣、視角的原因,并不能準確拍到車輛的車牌。Tang等[18]提出了一種把深度學習特征和手工特征進行融合的多模態(tài)度量學習網絡,為車輛重識別提供了更具有魯棒性和判別性的特征表示。
注意力機制具有仿人的視覺注意力模式,每次關注與當前任務相關的區(qū)域,在數(shù)據特征處理方面有極強的能力,已被成功應用于一些目標重識別任務。例如,Zhao等[19]設計了一個定位局部信息的卷積網絡,然后利用這些局部特征對行人進行重識別;Li等[20]設計了具有新的空間約束的空間變換網絡(Spatial Transformer Network, STN)模型來學習和定位行人的姿態(tài)。這些網絡結構采用的是硬注意力機制,硬注意力是一個隨機的預測過程,更強調動態(tài)變化,它不能微分,也無法進行反向傳播,因此會影響注意力精度。軟注意力對圖像的每個像素點進行加權,高相關性的區(qū)域乘較大權重,低相關就乘較小權重,軟像素級注意力可以抑制噪聲像素,增強關注區(qū)域的像素,并且它能微分。
大多數(shù)基于注意力機制的深度神經網絡模型只片面考慮通道間特征的影響或像素間特征的影響。針對此問題,本文結合這兩類注意力模塊設計了新的局部注意力模塊——特征提取模塊(Feature Extraction Module, FEM),該模塊不僅給每個通道賦予權值,還增強了重點區(qū)域像素,能加強任務相關特征表達能力,減弱背景和噪聲的影響。傳統(tǒng)的CNN模型通常使用池化層擴大感受野,但它同時也會縮小特征圖,從而降低分辨率,導致學習獲得的特征圖往往會丟失細粒度特征信息。為了解決此問題,本文提出一種單層小波模塊來代替池化層,從而減少信息缺失。本文的主要工作有:
1)將注意力模型嵌入到殘差結構(ResNet-50)框架中,進一步挖掘識別特征。實驗結果表明,網絡僅使用單層結構就在VeRi和VehicleID數(shù)據集上取得了性能的提升。
2)將小波模塊嵌入到卷積網絡中,采用二維離散小波變換(Discrete Wavelet Transform, DWT)作為下采樣層,在不改變主架構的情況下代替池化操作,以增強特征的辨識能力。
3)使用交叉熵損失函數(shù)和困難樣本三元損失函數(shù)(TriHard)對特征向量進行聯(lián)合訓練,使卷積網絡能較好地提取同種類型車輛的相似特征,顯著擴大不同類型車輛的特征差異。
本文提出的基于小波特征與注意力機制結合的卷積網絡如圖1所示:將車輛圖片的尺寸調整為224像素×224像素,依次輸入到設計的網絡中,每經過一個階段,特征圖的尺寸就縮小為原來的一半,經過4個特征提取階段后,通過全局平均池化(Global Average Pooling, GAP)得到大小為1×1×2 048的特征向量,最后通過歸一化指數(shù)函數(shù)(softmax)進行分類。為了更好地區(qū)分同類型車輛之間的差異和不同類型車輛之間的差異,本文將交叉熵損失函數(shù)與困難樣本三元損失函數(shù)進行聯(lián)合用于訓練網絡模型。
1.1.1 圖像的小波變換
圖1 網絡整體框架
Fig. 1 Network overall framework
圖2 二維離散小波變換
1.1.2 殘差網絡
CNN在圖像識別中被廣泛應用,它的最大特點是局部感知與全局共享,可以自動提取原始圖像的本質特征進行精確分類,同時降低網絡模型的復雜度,從而縮短模型訓練時間。最近幾年,研究人員提出了大量的CNN,網絡越來越深、越來越復雜,但是效果卻并非越來越好,因為僅簡單地增加網絡深度會出現(xiàn)梯度消失或者梯度爆炸問題。針對這個問題,He等[12]提出了殘差學習框架(如圖3),即使網絡結構加深,依然能有很好的特征表現(xiàn)能力,能抑制梯度消失和梯度爆炸問題。殘差單元每層輸出表示為:
本文基于ResNet-50深度網絡模型學習車輛圖像的表示特征,采用ResNet-50網絡結構stage1、stage2、stage3、stage4階段來提取輸入圖片的特征圖。其中:在stage1階段舍掉最大池化層,因為最大池化層會丟棄掉一部分細節(jié)特征,從而影響后續(xù)卷積層提取車輛特征;其次在每個階段前添加離散小波變換(DWT)模塊,因為DWT作為下采樣層能得到更多的特征圖;為了更好地利用通道信息和每一階段圖片尺度像素信息,加入特征提取模塊(Feature Extraction Module, FEM)對特征圖的通道信息進行聚合,從而凸顯具有辨識度的特征。
圖3 殘差單元
整體網絡最前端是獨立的卷積層Conv1,后面的卷積層則通過殘差塊堆積而成。網絡的基本結構和各模塊對應參數(shù)配置如表1所示。其中,為了提高訓練速度和增強模型的泛化能力,采用批量標準化(Batch Normalization, BN)對批量車輛圖片進行歸一化處理;Conv1和殘差塊用于特征提取,非線性激活單元(Rectified Linear Unit, ReLU)作為激活函數(shù)。
1.2.1 通道注意力模塊
通道注意力(Channel Attention, CA)機制是對每個通道實現(xiàn)差異化處理,可以增大對目標任務有利的特征通道權重,降低無用特征通道權重,有助于生成有效特征,減少無關區(qū)域的干擾。Woo等[22]提出了通道注意力模塊,通過平均池化層來壓縮通道特征和最大池化層來提取難分辨區(qū)域的特征,然后經過多層感知機(Multi-Layer Perceptron, MLP)后對特征求和,進行非線性特征變換,得到通道的注意力權重。該網絡結構如圖4所示。
表1 本文網絡的基本結構和各模塊對應參數(shù)
圖4 CA模塊
1.2.2 像素注意力模塊
在車輛重識別中,由于各種環(huán)境因素的影響,如光線、天氣、投拍攝角度等,通常會導致同類車輛在不同的區(qū)域圖像上像素分布不平衡。受文獻[23]中工作的啟發(fā),像素注意力(Pixel Attention, PA)模塊給圖像的每個像素點賦予相應的權重,能為處理不同類型的信息提供額外的靈活性,改善主網絡的特征提取能力。PA模塊如圖5所示,公式表示為:
1.2.3 特征提取模塊
受注意力機制在行人重識別應用中的啟發(fā),本文基于CA機制和PA機制提出了一種新的局部注意力模塊FEM,如圖6所示。該模塊不僅提取特征圖的通道信息,還融合了特征圖的像素信息,可以自適應地學習每個部分的重要性,從而將更多的注意力放在最具有辨識力的語義和位置信息,抑制信息含量較低的部分,以有效地區(qū)分語義特征的特征表示。通過訓練一個緊湊的注意力模塊來預測目標權重,使卷積網絡提取到更具有代表性的特征。
圖5 PA模塊
圖6 特征提取模塊
由于車輛的屬性(身份、模型、顏色)不是絕對互斥的,多屬性預測本質上就是一個多標簽分類問題。在實驗中基于本文提出的模型,在模型的平均池化層之后,對訓練的圖像進行多標記。為了使本文設計的網絡提取到更具有辨識力的特征,采用交叉熵損失函數(shù)和困難樣本三元損失函數(shù)[24]對模型進行聯(lián)合訓練。其中:交叉熵損失函數(shù)用于多分類任務,困難樣本三元組損失函數(shù)用于度量學習任務。特征層用2 048個神經單元來預測車輛特征,分類層用個神經元單元來預測類。針對車輛的身份標簽分類部分,本文在特征向量后面增加一層全連接層用于得到每個類的預測概率。本文采用基于softmax激活函數(shù)的交叉熵損失訓練分類器,softmax激活函數(shù)表示為:
交叉熵損失函數(shù)公式如下所示:
另外,在車輛模型訓練中,本文采用困難樣本三元損失函數(shù),目的是減小相同類別車輛間的歐氏距離,增大不同類別車輛間的歐氏距離。三元損失函數(shù)由錨框(Anchor)、正樣本(Positive)和負樣本(Negative)組成。在困難樣本三元損失函數(shù)中,從訓練集中隨機選擇一張圖片作為Anchor,然后在相同批次的正樣本中選取與Anchor相似度最遠的樣本作為Positive,同時在相同批次的負樣本中選取與Anchor相似度最近的樣本作為Negative。
VeRi數(shù)據集是大型城市監(jiān)控車輛數(shù)據集,該數(shù)據集由20個攝像頭為776輛汽車拍攝了50 000多張圖片,將其中576輛車的37 781張圖像作為一個訓練集,200輛車的11 579張圖像作為一個測試集,測試集中劃分1 678張圖像作為查詢集。該數(shù)據集中包含了每輛車在不同的視覺角度、光照、遮擋和分辨率下的多張圖片,同時標注每一輛車的顏色、車輛類型、相機拍攝的地理位置、拍攝圖像時間。根據VeRi數(shù)據集設定,采用Rank-1、Rank-5以及mAP作為在VeRi數(shù)據集上的性能評價指標。
VehicleID數(shù)據集采集自中國一個城市道路上監(jiān)控攝像頭白天所拍攝的車輛圖片。整個數(shù)據集中包含了26 267輛車共221 763張圖片,每張車輛圖片根據車牌號標注相應的ID。該數(shù)據集包含訓練集和三種不同大小的測試集:訓練集由13 134輛車的110 178張車輛圖片組成;Test800測試集包含800張查詢車輛圖像庫和6 532候選圖片;Test1600測試集包含1 600張查詢車輛圖像庫和11 395張候選圖片;Test2400測試集包含2 400張查詢車輛圖像庫和17 638張查詢圖片。在后面的實驗中會在三個不同的測試集上進行驗證,利用Rank-1和Rank-5來作為本文方法在VehicleID數(shù)據集上的性能評價指標。
2.3.1 與基線方法對比
從表2的數(shù)據可以看出,在VeRi數(shù)據集上:基線網絡(ResNet-50)的Rank-1和mAP表現(xiàn)得非常出色;本文方法與基線網絡的方法相比,Rank-1提高了5.21個百分點,mAP提高了11.02個百分點。本文提出的小波殘差注意力網絡在基準網絡基礎上僅增加了一個輕量級注意力模塊,效果就得到了提升,表明本文提出的局部注意力模塊FEM可以讓卷積網絡關注到更多細節(jié)特征,取得更好的車輛重識別效果。
表2 在VeRi數(shù)據集上與ResNet-50的比較 單位: %
從表3的數(shù)據可以看出,在VehicleID數(shù)據集上,本文方法在Test800、Test1600、Test2400三個測試數(shù)據集上的Rank-1分別提高了2.03、5.29、8.82個百分點。
表3 在VehicleID數(shù)據集上的Rank-1比較 單位: %
2.3.2 消融實驗
為了進一步驗證本文方法中小波模塊和注意力模塊及損失優(yōu)化帶來的效果,對比了ResNet-50+FEM、ResNet-50+DWT和局部困難樣本三元損失函數(shù)以及本文方法,如表4。可以看出,ResNet-50+DWT是去掉FEM注意力通道層,僅利用了小波變換層(DWT),相比ResNet-50,在mAP上提升了2.62個百分點;此外,困難三元損失函數(shù)加入訓練后,相比僅采用交叉熵損失函數(shù),在mAP指標上提高了1.1個百分點??梢钥闯觯珼WT嵌入到殘差網絡中結果有明顯的提升,困難樣本三元損失函數(shù)加入訓練也有效地提升了精度。
表4 在VeRi數(shù)據集上本文方法的消融實驗結果 單位: %
2.3.3 本文方法與其他方法對比
表5列出了本文方法與近年來性能較優(yōu)的其他算法和模型在VehicleID車輛數(shù)據集上的對比結果,比較對象包括:BOW-SIFT[7]、LOMO[5]、BOW-CN[6]、GoogLeNet[11]、FACT[8]、零空間的顏色和屬性特征融合模型NuFACT(Null space based Fusion of Attributes and Color feaTures)[17]、MLL+MLSR(Multi-Label Learning+Multi-Label Smoothing Regularization)[25]、視點感知和關注的多視圖推理(Viewpoint-aware Attentive Multi-view Inference, VAMI)模型[26]、嵌入對抗的學習網絡(Embedding Adversarial Learning Network, EALN)[27]。
NuFACT采用了多層特征融合,不僅從不同角度學習車輛特征,還能減少特征的冗余,可以顯著提高基于外觀檢索的準確率。MLL+MLSR在同時學習三個標簽的基礎上進行正則化處理,能有效提高車輛重識別的性能。VAMI模型只需要單個視覺信息即可解決多視圖車輛識別問題。EALN是一種新穎的端到端嵌入對抗學習網絡,它能夠生成嵌入空間內的局部樣本,從而避免了在訓練集中選擇大量硬負樣本的困難,可以大幅提高網絡識別相似車輛的能力。
由表5可以看到,本文方法除了在Test800的Rank-5略差于VAMI,其他指標均取得了最好結果。其中:LOMO、BOW-CN和FACT等方法采用的是手工特征方法,準確率不高;深度學習方法VAMI是將每張輸入圖像先提取單視圖特征,再用單個角度特征生成多角度特征,最終得到全局多視圖特征,但是生成的多角度特征與實際特征有較大差異,因此整體效果要比本文方法差。
表5 VehicleID數(shù)據集上不同方法的對比 單位: %
在VeRi數(shù)據集上的對比結果見表6,對比算法包括LOMO[5]、VGGNet[10]、GoogLeNet[11]、FACT[8]、NuFACT+Pate-SNN[17]、PROVID[17]、MLL+MLSR[25]、VAMI[26]、EALN[27]、AAVER(Adaptive Attention VEhicle Re-identifification)[28]和QD-DLF(Quadruple Directional Deep Learning Features)[29]。從表6可以看出,本文方法取得了最好的結果;與AAVER相比,兩者的Rank-1值相等,但本文方法的其余指標均優(yōu)于AAVER,而且AAVER結合了兩個分支的特征(包括全局和局部特征),這樣會導致網絡更加復雜,本文方法僅使用了單層網絡結構就取得了較好的性能。
表6 在VeRi數(shù)據集上不同方法的對比 單位: %
2.3.4 復雜度分析
從表7可以看出,雖然ResNet-50+DWT的參數(shù)量和計算復雜度比ResNet-50要高,但是均比ResNet-101低。從表4可以看出,在數(shù)據集VeRi上,ResNet-50+DWT的mAP比ResNet-50高2.62個百分點,但僅比ResNet-101低0.25個百分點。綜合模型識別率和復雜度兩方面考慮,ResNet-50+DWT具有一定的優(yōu)勢。
表7 復雜度分析
2.3.5 小波層數(shù)分析
從表8可以看出,小波變換層(DWT1~DWT4分別代表1~4層小波變換層)嵌入到卷積網絡中能取得不錯的效果,ResNet50+DWT1效果優(yōu)于ResNet-50,在VeRi數(shù)據集上mAP提升了0.52個百分點。在ResNet-50每個階段都嵌入小波變換層,mAP的準確精度都有一定的提高。
表8 VeRi數(shù)據集上小波變換層數(shù)對性能的影響 單位: %
最后,隨機選取3輛不同的車輛,使用本文方法結合交叉熵損失函數(shù)和困難樣本三元損失函數(shù)進行訓練,對車輛重識別結果根據相似度從高到低進行可視化排序,結果如圖7所示。從圖7可以看出,小車在光照變化和樹葉遮擋的情況下,都能很好地被檢索出來,說明了本文方法的有效性。
圖7 查詢可視化Rank-10結果
現(xiàn)有的車輛重識別方法為了得到更多的細粒度特征,通常采用池化層來擴大感受域,降低了計算復雜度;但是,池化層可能會導致關鍵信息丟失,從而影響特征的提取和分析。因此,本文將二維離散小波層嵌入到CNN中以減少特征信息的丟失。另外,為了更好地挖掘細粒度特征信息,設計了一個新的局部注意力模塊FEM,并嵌入到小波卷積網絡中,結合小波變換層,指導局部特征提取生成,從而使小波卷積網絡更好地提取細粒度特征。在VeRi和VehicleID數(shù)據集上的實驗結果表明,本文方法可以有效改善車輛重識別的性能。
[1] YANG L J, LUO P, LOY C C, et al. A large-scale car dataset for fine-grained categorization and verification[C]// Proceedings of the 2015 IEEE Conference on Computer Vision and Pattern Recognition. Piscataway: IEEE, 2015: 3973-3981.
[2] GUO J M, HSIA C H, WONG K, et al. Nighttime vehicle lamp detection and tracking with adaptive mask training[J]. IEEE Transactions on Vehicular Technology, 2016, 65(6): 4023-4032.
[3] CHEN X Y, XIANG S M, LIU C L, et al. Vehicle detection in satellite images by hybrid deep convolutional neural networks[J]. IEEE Geoscience and Remote Sensing Letters, 2014, 11(10): 1797-1801.
[4] ZHAO R, OUYANG W L, WANG X G. Unsupervised salience learning for person re-identification[C]// Proceedings of the 2013 IEEE Conference on Computer Vision and Pattern Recognition. Piscataway: IEEE, 2013: 3586-3593.
[5] LIAO S C, HU Y, ZHU X Y, et al. Person re-identification by local maximal occurrence representation and metric learning[C]// Proceedings of 2015 IEEE Conference on Computer Vision and Pattern Recognition. Piscataway: IEEE, 2015: 2197-2206.
[6] ZHENG L, SHEN L Y, TIAN L, et al. Scalable person re-identification: a benchmark[C]// Proceedings of the 2015 IEEE International Conference on Computer Vision. Piscataway: IEEE, 2015: 1116-1124.
[7] ZHENG L, WANG S J, ZHOU W G, et al. Bayes merging of multiple vocabularies for scalable image retrieval[C]// Proceedings of 2014 IEEE Conference on Computer Vision and Pattern Recognition. Piscataway: IEEE, 2014: 1963-1970.
[8] LIU X C, LIU W, MA H D, et al. Large-scale vehicle re-identification in urban surveillance videos[C]// Proceedings of the 2016 IEEE International Conference on Multimedia and Expo. Piscataway: IEEE, 2016: 1-6.
[9] LIU H Y, TIAN Y H, WANG Y W, et al. Deep relative distance learning: tell the difference between similar vehicles[C]// Proceedings of the 2016 IEEE Conference on Computer Vision and Pattern Recognition. Piscataway: IEEE, 2016: 2167-2175.
[10] SIMONYAN K, ZISSERMAN A. Very deep convolution networks for large-scale image recognition[EB/OL]. (2015-04-10)[2021-02-20].https://arxiv.org/pdf/1409.1556.pdf.
[11] SZEGEDY C, LIU W, JIA Y Q, et al. Going deeper with convolutions[C]// Proceedings of the 2015 IEEE Conference on Computer Vision and Pattern Recognition. Piscataway: IEEE, 2015: 1-9.
[12] HE K M, ZHANG X Y, REN S Q, et al. Deep residual learning for image recognition[C]// Proceedings of the 2016 IEEE Conference on Computer Vision and Pattern Recognition. Piscataway: IEEE, 2016: 770-778.
[13] WANG Z D, TANG L M, LIU X H, et al. Orientation invariant feature embedding and spatial temporal regularization for vehicle re-identification[C]// Proceedings of the 2017 IEEE International Conference on Computer Vision. Piscataway: IEEE, 2017: 379-387.
[14] ZHOU Y, LIU L, SHAO L. Vehicle re-identification by deep hidden multi-view inference[J]. IEEE Transactions on Image Processing, 2018, 27(7): 3275-3287.
[15] ZHOU Y, SHAO L. Aware attentive multi-view inference for vehicle re-identification[C]// Proceedings of the 2018 IEEE/CVF Conference on Computer Vision and Pattern Recognition. Piscataway: IEEE, 2018: 6489-6498.
[16] SHEN Y T, XIAO T, LI H S, et al. Learning deep neural networks for vehicle re-ID with visual-spatio-temporal path proposals[C]// Proceedings of the 2017 IEEE International Conference on Computer Vision. Piscataway: IEEE, 2017: 1918-1927.
[17] LIU X C, LIU W, MEI T, et al. PROVID: progressive and multimodal vehicle reidentification for large-scale urban surveillance[J]. IEEE Transactions on Multimedia, 2018, 20(3): 645-658.
[18] TANG Y, WU D, JIN Z, et al. Multi-modal metric learning for vehicle re-identification in traffic surveillance environment[C]// Proceedings of the 2017 IEEE International Conference on Image Processing. Piscataway: IEEE, 2017: 2254-2258.
[19] ZHAO L M, LI X, ZHUANG Y T, et al. Deeply-learned part-aligned representations for person re-identification[C]// Proceedings of the 2017 IEEE International Conference on Computer Vision. Piscataway: IEEE, 2017: 3239-3248.
[20] LI D W, CHEN X T, ZHANG Z, et al. Learning deep context-aware features over body and latent parts for person re-identification[C]// Proceedings of the 2017 IEEE Conference on Computer Vision and Pattern Recognition. Piscataway: IEEE, 2017: 7398-7407.
[21] 邱奕敏,周毅. 基于小波變換的霧霾立體圖像增強算法研究[J]. 計算機工程與應用, 2015, 51(9):30-33.(QIU Y M, ZHOU Y. Wavelet transform stereoscopic images enhancement algorithms based on fog and haze[J]. Computer Engineering and Applications, 2015, 51(9):30-33.)
[22] WOO S, PARK J, LEE J Y, et al. CBAM: convolutional block attention module[C]// Proceedings of the 2018 European Conference on Computer Vision, LNIP 11211. Cham: Springer, 2018: 3-19.
[23] QIN X, WANG Z L, BAI Y C, et al. FFA-Net: feature fusion attention network for single image dehazing[C]// Proceedings of the 34th AAAI Conference on Artificial Intelligence. Palo Alto, CA: AAAI Press, 2020:11908-11915.
[24] HERMANS A, BEYER L, LEIBE B. In defense of the triplet loss for person re-identification[EB/OL]. (2017-11-21)[2021-02-20].https://arxiv.org/pdf/1703.07737.pdf.
[25] HOU J H, ZENG H Q, CAI L, et al. Multi-label learning with multi-label smoothing regularization for vehicle re-identification[J]. Neurocomputing, 2019, 345:15-22.
[26] CHU R H, SUN Y F, LI Y D, et al. Vehicle re-identification with viewpoint-aware metric learning[C]// Proceedings of the 2019 IEEE/CVF International Conference on Computer Vision. Piscataway: IEEE, 2019: 8281-8290.
[27] LOU Y H, BAI Y, LIU J, et al. Embedding adversarial learning for vehicle re-identification[J]. IEEE Transactions on Image Processing, 2019, 28(8):3794-3807.
[28] KHORRAMSHAHI P, KUMAR A, PERI N, et al. A dual-path model with adaptive attention for vehicle re-identification[C]// Proceedings of the 2019 IEEE/CVF International Conference on Computer Vision. Piscataway: IEEE, 2019: 6131-6140.
[29] ZHU J Q, ZENG H Q, HUANG J C, et al. Vehicle re-identification using quadruple directional deep learning features[J]. IEEE Transactions on Intelligent Transportation Systems, 2020, 21(1): 410-420.
Convolutional network-based vehicle re-identification combining wavelet features and attention mechanism
LIAO Guangkai1, ZHANG Zheng1, SONG Zhiguo2*
(1,,416000,;2,,416000,)
Aiming at the problem of insufficient representation ability of features extracted by the existing vehicle re-identification methods based on convolution Neural Network (CNN), a vehicle re-identification method based on the combination of wavelet features and attention mechanism was proposed. Firstly, the single-layer wavelet module was embedded in the convolution module to replace the pooling layer for subsampling, thereby reducing the loss of fine-grained features. Secondly, a new local attention module named Feature Extraction Module (FEM) was put forward by combining Channel Attention (CA) mechanism and Pixel Attention (PA) mechanism, which was embedded into CNN to weight and strengthen the key information. Comparison experiments with the benchmark residual convolutional network ResNet-50 and ResNet-101 were conducted on VeRi dataset. Experimental results show that increasing the number of wavelet decomposition layers in ResNet-50 can improve mean Average Precision (mAP). In the ablation experiment, although ResNet-50+Discrete Wavelet Transform (DWT) has the mAP reduced by 0.25 percentage points compared with ResNet-101, it has the number of parameters and computational complexity lower than those of ResNet-101, and has the mAP, Rank-1 and Rank-5 higher than those of ResNet-50 without DWT, verifying that the proposed model can effectively improve the accuracy of vehicle retrieval in vehicle re-identification.
vehicle re-identification; Channel Attention (CA); Pixel Attention (PA); wavelet transform; Convolutional Neural Network (CNN)
This work is partially supported by National Natural Science Foundation (32060238).
LIAO Guangkai, born in 1993, M. S. candidate. His research interests include vehicle re-identification, image retrieval.
ZHANG Zheng, born in 1981, Ph. D., associate professor. His research interests include matrix computation.
SONG Zhiguo, born in 1984, Ph. D., lecturer. His research interests include target detection, tracking and identification.
TP 391.41
A
1001-9081(2022)06-1876-08
10.11772/j.issn.1001-9081.2021040545
2021?04?12;
2021?07?09;
2021?07?09。
國家自然科學基金資助項目(32060238)。
廖光鍇(1993—),男,四川內江人,碩士研究生,主要研究方向:車輛重識別、圖像檢索;張正(1981—),男,湖南吉首人,副教授,博士,主要研究方向:矩陣計算;宋治國(1984—),男,湖南保靖人,講師,博士,主要研究方向:目標檢測、跟蹤和識別。