• 
    

    
    

      99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看 ?

      基于多粒度特征分割的車輛重識別算法

      2022-10-09 00:42:44藍章禮楊晴晴
      關鍵詞:三元組粒度注意力

      藍章禮,王 超,楊晴晴,金 豪

      (重慶交通大學 信息科學與工程學院,重慶 400074)

      0 引 言

      車輛重識別(Re-ID)旨在從多個非重疊攝像機拍攝的圖像中識別出同一車輛,可將其看作圖像檢索的子問題[1]。通過車輛重識別技術可對目標車輛進行快速查找、定位及追蹤。因攝像頭視角變化帶來的類內差異性和類間相似性問題,使得車輛重識別成為一個極具挑戰(zhàn)性的任務,如圖1。

      早期研究者主要基于車輛全局外觀特征進行車輛重識別。X.LIU等[2]提出將紋理特征和顏色特征進行融合作為車輛特征表示,以實現(xiàn)車輛重識別;D.ZAPLETAL等[3]提出了一種結合顏色直方圖、HOG特征并使用SVM作為分類器的車輛重識別方法;H.LIU等[4]提出了一種深度相關距離學習方法,能較好縮小類內差異并擴大類間差異,但存在需消耗大量計算資源的問題;Y.BAI[5]等提出了一種組內敏感的三元組嵌入方法來處理類內方差,并給出了均值三元組損失,以緩解訓練階段三元組采樣不當帶來的負面影響。

      全局特征在識別外觀相似的車輛時存在一定局限性,一些研究學者開始利用局部特征來實現(xiàn)車輛重識別。J.PENG等[6]提出利用空間變換網(wǎng)絡對局部區(qū)域進行定位以學習到判別性特征;H.CHEN等[7]提出將特征圖在不同維度上均等分割成4塊以提取局部特征;J.QIAN等[8]提出將特征圖沿縱向分割成8塊以提取細粒度的局部特征;H.WANG等[9]提出將特征圖沿縱向和橫向均等分割成6塊以得到車輛局部細節(jié)特征。但上述方法忽視了顯著性特征對潛在顯著性特征的掩蓋問題,并且缺乏對通道維度的關注,導致提取的局部特征不夠充分。

      為了使提取的特征更具代表性,常在網(wǎng)絡中嵌入注意力模塊。A.SUPREM等[10]提出聯(lián)合全局和局部注意模塊的車輛重識別方法,全局注意模塊用來降低輸入層的稀疏性,局部注意模塊用來自動提取局部零件的特征;J.YANG等[11]為解決視角變化引起局部特征丟失的問題,利用空間注意力模塊學習全局特征,并從粗到細構建金字塔以學習不同尺度上的局部特征;D.MENG等[12]針對不同視角導致的類內差異大、類間差異小的問題,提出基于解析的視點感知嵌入網(wǎng)絡,以實現(xiàn)視點感知特征對齊和增強,該算法能捕捉到不同視角下車輛的穩(wěn)定性判別信息。

      綜上,筆者提出一種基于多粒度特征分割的車輛重識別算法,以ResNeSt-50[13]為骨干網(wǎng)絡提取初級特征,并將骨干網(wǎng)絡復制成三個獨立的分支,分別在縱向、橫向、通道三個維度上進行多粒度特征分割。又在ResNeSt-50的每個split-attention block中嵌入了空間注意力模塊(spatial attention module,SAM)以挖掘更豐富、更具判別性的特征信息,增強了車輛表征的魯棒性。

      1 多粒度特征學習算法

      1.1 算法網(wǎng)絡結構

      筆者所提出的算法網(wǎng)絡結構如圖2。首先,通過骨干網(wǎng)絡提取圖像初級特征,骨干網(wǎng)絡采用三分支結構,當一張車輛圖像輸入到骨干網(wǎng)絡后會生成三個獨立特征圖;然后,特征圖將沿縱向、橫向、通道方向被分割成不同粒度的分塊,不同分塊可提取到不同的局部信息;接下來,對所有特征圖執(zhí)行池化操作,其中,整體特征圖采用全局平均池化以保留豐富的車身整體外觀信息,分塊特征圖采用全局最大池化以提取區(qū)分性局部特征信息;最后,為統(tǒng)一特征向量的維度和防止過擬合,對池化層輸出的所有特征圖執(zhí)行核大小為1×1的卷積操作及批歸一化處理,并使用全連接層作為分類器。

      1.2 網(wǎng)絡中的關鍵組件

      1.2.1 骨干網(wǎng)絡

      ResNet-50[14]在圖像分類、語義分割上廣泛使用,目前重識別工作大都采用ResNet-50作為骨干網(wǎng)絡提取圖像的初級特征。但其會受到感受野的限制,同時缺乏跨通道間的相互作用。而ResNeSt結合通道注意力(channel attention module, CAM)和特征圖注意力可實現(xiàn)不同特征圖跨通道間的關聯(lián),在圖像分類、對象檢測、語義分割等方面都達到了更先進的水平。

      鑒于車輛圖像本身的復雜性及各部件之間存在相關性,采用去除掉最后的全局平均池化層和全連接層的ResNeSt-50作為骨干網(wǎng)絡,在Conv4_1層之后復制卷積層以便將ResNeSt-50分成三個獨立的分支,將三個分支分別命名為縱向分支、橫向分支、通道分支。為得到更深、更豐富的車輛整體外觀信息,將Conv5_x卷積層的池化操作的步長設置為1。并在ResNeSt-50的每個split-attention block中嵌入了空間注意力模塊,以挖掘更關鍵的特征信息并抑制無關噪聲。

      1.2.2 三分支結構

      筆者主要研究如何充分提取車輛局部細節(jié)信息來提高車輛識別準確率,為得到車輛不同空間維度的細節(jié)特征,將特征圖沿縱向和橫向進行分割,如圖3。

      圖3 縱向分割與橫向分割示意

      具體的說,將骨干網(wǎng)絡輸出的兩個獨立特征圖分別命名為Fh和Fw,即圖2的縱向分支和橫向分支。然后將獨立特征圖分別在縱向和橫向上分割成若干個分塊特征圖,具體表示如式(1):

      (1)

      由于過多分割會降低最終外觀特征中的全局特征權重,過少分割會使得局部特征接近全局特征。且神經(jīng)網(wǎng)絡提取的總是某個區(qū)域內的顯著性特征,即在某個區(qū)域內權值較大的特征信息。那么在對特征圖進行分割以提取局部特征時,局部區(qū)域的大小不同,顯著性特征對潛在顯著性的局部細節(jié)特征的掩蓋程度就不同。因此,采用多粒度的分割方式,結合粗、中、細三種不同級別的分區(qū)粒度可以提取到不同的內容粒度信息,盡量避免潛在顯著性局部特征被掩蓋的問題。其中,將未分割的特征圖定義為“粗粒度”,將分割為兩塊的特征圖定義為“中粒度”,將分割為四塊的特征圖定義為“細粒度”。因此,式(1)中的p1,p2={1,2,4}。

      此外,卷積層中的濾波器會生成通道信息,即使輸入相同,它們也獨立地學習和更新參數(shù),即每個單一通道學習到不同的特征。而每個卷積核進行卷積操作時都會生成一個通道,特征圖的通道是由許多個單一通道組合而成,每個單一通道獨立表達信息,但當它們組合成為一個整體之后即為平時所認知的通道,這個特征信息為全局信息,那么在特征圖的通道維度上執(zhí)行池化操作時就會丟失通道上的局部細節(jié)信息。因此筆者還將特征圖沿通道方向進行分割以提取到不同于全局特征的局部特征,將其作為橫向和縱向上的補充。在通道方向上同樣采用多粒度的分割方式,如圖4,具體的表示如式(2):

      圖4 通道分割示意

      (2)

      1.2.3 注意力機制

      注意力機制最早是用于圖像識別領域,之后廣泛用于自然語言處理領域[15]。研究發(fā)現(xiàn)聯(lián)合通道注意力和空間注意力能更好的提取區(qū)分性特征,因此在ResNeSt-50的每個split-attention block中嵌入了SAM以構成注意力模塊SS-Net,從而達到同時對通道維度及空間維度上的特征圖進行加權處理的目的。SAM采用的是卷積塊注意模型[16](convolutional block attention moudle, CBAM)中的空間注意力模塊。SS-Net的結構如圖5。

      圖5 SS-Net結構

      假設輸入的特征圖(也稱為特征矩陣)為FI∈RW×H×C(H、W、C分別為特征圖的高度、寬度、通道數(shù)目),在SS-Net內部依次沿著通道維度和空間維度推斷出通道權重矩陣Mc∈R1×1×C和空間權重矩陣Ms∈RW×H×1。為了使特征矩陣可以自適應調整,以重點關注更具區(qū)分性的前景信息,首先將通道權重矩陣Mc∈R1×1×C與輸入特征圖FI∈RW×H×C逐元素相乘,生成通道注意力特征圖F′c∈RW×H×C,然后將F′c∈RW×H×C與與空間權重矩陣Ms∈RW×H×1逐元素相乘,可得到同時經(jīng)通道維度及空間維度加權處理后的最終注意力特征圖FO∈RW×H×C,?表示特征矩陣的逐元素相乘,SS-Net的計算過程為:

      F′c=Mc(FI)?FI

      (3)

      FO=Ms(F′c)?F′c

      (4)

      圖6 空間注意力模型結構

      Ms(Fc′)=σ{f7×7{[AP(F′c);MP(F′c)]}}=

      (5)

      式中:AP(·)及MP(·)分別為平均池化和最大池化操作;F′c為經(jīng)過CAM的通道注意力特征圖;σ(·)為sigmoid激活函數(shù);f7×7為核大小為7×7的卷積運算。

      1.3 損失函數(shù)

      車輛重識別任務可以看作是分類任務,并且可視為一次性學習任務,這樣模型訓練很可能過擬合,因此采用經(jīng)過標簽平滑正則化處理的交叉熵損失函數(shù),它利用車輛圖像身份ID標簽進行有監(jiān)督地學習,能使網(wǎng)絡學習到具有身份辨別性的特征。原始交叉熵損失函數(shù)計算如式(6):

      (6)

      式中:N為車輛的總類別數(shù);y為真實樣本標簽;pi為對輸入的圖像預測為類別i的概率值。

      經(jīng)標簽平滑正則化處理后的標簽分布qi變?yōu)閝′i,如式(7):

      (7)

      經(jīng)過標簽平滑正則化處理的交叉熵損失函數(shù)如式(8):

      (8)

      式中:ε為平滑因子,用來防止模型在訓練過程中產(chǎn)生的過擬合問題,ε=0.3。

      車輛重識別本質上是個圖像檢索問題,它通過計算查詢集(query)與圖庫集(gallery)之間的特征相似度進行排序。采用硬三元組損失[17]作為相似性度量的損失函數(shù),在包含P個身份和每個身份K張圖像的小批次中,每張圖像(原樣本a)具有與其相同身份的K-1張圖像(正樣本p)和與其不同身份的(P-1)×K張圖像(負樣本n)。傳統(tǒng)三元組損失通過網(wǎng)絡訓練拉近正樣本對(a,p)圖像的距離,同時拉開負樣本對(a,n)圖像的距離實現(xiàn)正負樣本的分開,從而更好的進行相似度度量學習。而硬三元組損失旨在將更多的權重放在最接近的負對和最遠的正對上以更好的優(yōu)化模型。硬三元組損失的計算如式(9):

      (9)

      式中:ai,pi,nj分別為原樣本、正樣本和負樣本的特征向量;α為約束不同類別樣本距離的閾值。

      但若只采用硬三元組損失進行模型訓練,只進行相似度的度量學習,缺乏車輛ID標簽的監(jiān)督,會導致學習到的具有身份辨別性的特征相對較少,且模型收斂速度緩慢,因此,結合交叉熵損失和硬三元組損失各自的優(yōu)勢對模型進行訓練優(yōu)化。網(wǎng)絡總體損失Ltotal的計算如式(10):

      (10)

      式中,Nc和Nt分別為交叉熵損失和硬三元組損失的數(shù)量;λ為平衡兩種不同損失的權重系數(shù)。

      計算中,網(wǎng)絡全連接層學習到的21個概率分布向量[g′h,g′w,g′c,fh1,…,fh6,fw1,…,fw6,fc1,…,fc6]用于計算交叉熵損失,批歸一化層學習到的三個全局特征向量[gh,gw,gc]用于計算硬三元組損失,因此Nc=21,Nt=3。

      2 實驗設計及結果分析

      2.1 數(shù)據(jù)集和評估指標

      網(wǎng)絡訓練及評估采用的數(shù)據(jù)集是車輛重識別領域中使用最頻繁、關注度最高的VeRi-776[18]和VehicleID[19]數(shù)據(jù)集。

      VeRi-776數(shù)據(jù)集總共包含776輛汽車共近50 000 張圖片。由分布在不同位置的20個攝像機拍攝而成,該數(shù)據(jù)集將其中576輛汽車共37 778張圖片用于構建訓練集,其余的200輛汽車共11 579張圖片用于構建為測試集。在測試期間,使用測試集中的1 678張圖片作為query,其余的圖像作為gallery。根據(jù)VeRi-776數(shù)據(jù)集的設置,使用平均精度均值(mean average precision, mAP)和Rank-1、 Rank-5匹配率作為算法在VeRi-776數(shù)據(jù)集上的性能評價指標。

      VehicleID數(shù)據(jù)集中包含26 267輛汽車共221 763 張圖片,訓練集包含13 164輛汽車共113 346張圖片。該數(shù)據(jù)集提供了3個不同大小的測試集,分別命名為small、medium、large,其中所具有的車輛ID數(shù)量分別為800、1 600、2 400。測試時,在測試集中每個ID的幾張圖片中,隨機抽取一張圖片加在gallery中,其余的圖片加在query中。根據(jù)VehicleID數(shù)據(jù)集的設置,使用Rank-1、Rank-5匹配率作為算法在VehicleID數(shù)據(jù)集上的性能評價指標。

      2.2 實施細節(jié)

      2.2.1 實驗環(huán)境

      采用開源的Pytorch作為深度學習的框架,版本為1.7.0;采用Python編程軟件,版本為3.6.4;主機的CPU為Intel?CoreTM i9-10900K,顯卡為GeForce RTX 3090,內存為32GB,GPU配置為CUDA 11.0及cuDNN 8.0.5;操作系統(tǒng)采用Win10。

      2.2.2 訓練階段

      三分支神經(jīng)網(wǎng)絡采用多任務聯(lián)合訓練方式,共享骨干網(wǎng)絡權重,之后針對每個分支的全局特征和局部特征設計不同的損失函數(shù),以指導特征的生成。

      所有輸入圖像的大小都設為384×384,批次大小設為8×4,并通過概率為0.5的隨機水平翻轉、隨機擦除來增強數(shù)據(jù)集。所有實驗中,使用Adam作為梯度優(yōu)化器,L2正則化的權重衰減因子設為5e-4,Ltriplet中的α設為1.2。訓練輪數(shù)設為500輪,初始學習率設為2e-4,為了使網(wǎng)絡盡快尋找到全局最優(yōu)解,在第300和第400輪時將學習率分別設為2e-5、2e-6。

      2.2.3 評估階段

      在評估時,將批歸一化層的所有特征向量進行串聯(lián)作為車輛圖像的外觀特征向量,如式(11):

      f=concat{gh,gw,gc,lh1,…,lh6,lw1,…,lw6,lc1…lc6}

      (11)

      由于在訓練階段采用了隨機水平翻轉以增強數(shù)據(jù)集,提升模型的泛化性。所以在評估階段將原圖和水平翻轉后的圖像分別輸入到網(wǎng)絡中得到相應特征向量f1及f2,然后將兩個特征向量的平均值f′作為車輛圖像最終外觀特征向量,最后采用歐式距離對不同車輛外觀特征向量進行相似度衡量,并按相似度從大到小進行排序得到檢索結果。

      2.3 消融分析

      為驗證所提出的網(wǎng)絡結構中的關鍵組件的有效性,在VeRi-776數(shù)據(jù)集上做了大量的實驗,比較了不同網(wǎng)絡結構、有無空間注意力模塊、不同損失函數(shù)時的性能,以找到最優(yōu)網(wǎng)絡結構。

      2.3.1 網(wǎng)絡結構

      表1 不同網(wǎng)絡結構的性能對比

      結果表明分割通??梢蕴嵘窠?jīng)網(wǎng)絡的性能,在三種分割類型中,通道分割帶來的改善明顯優(yōu)于橫向和縱向分割。并且不同類型分割的組合比單個分割產(chǎn)生更好的性能,三種類型分割的并行組合能使網(wǎng)絡結構性能最佳。

      2.3.2 空間注意力模塊

      主要比較在ResNeSt-50的每個split-attention block中是否嵌入SAM時網(wǎng)絡結構的性能。實驗結果如表2,結果表明嵌入SAM的網(wǎng)絡結構能顯著提升車輛重識別的性能。這得益于空間注意力模塊可學習車身部件之間的空間位置相關性,增強局部特征的鑒別力。

      表2 空間注意力模塊的消融實驗

      2.3.3 損失函數(shù)

      交叉熵損失主要應用于正常樣本上,而硬三元組損失主要應用在難樣本上。為平衡兩種損失對正常樣本和難樣本的貢獻度,需要確定一個權重參數(shù)λ。對Ltotal設置了幾種可能性,在表3中展示了λ取不同值時的性能,結果顯示硬三元組損失能略微改善模型的性能,將更多的權重放在交叉熵損失上的性能明顯更好。但是隨著λ增大,性能反而下降,并且收斂緩慢。因此,將λ設置為2。

      表3 λ取不同值時的性能比較

      2.4 現(xiàn)有算法對比

      為驗證筆者算法的有效性與優(yōu)勢,將提出的算法與現(xiàn)有先進算法在VeRi-776和VehicleID數(shù)據(jù)集上進行對比,選擇的對比算法包括GS-TRE[5]、MRM[6]、PRN[7]、SAN[8]、TCPM[9]、GLAMOR[10]、PSA[11]、PVEN[12]。算法對比結果如表4、表5。表中的RR代表再排序算法(re-ranking)[20],再排序是一種后處理算法,能提高最終結果的精確度。

      從表4可以看出,筆者算法在VeRi-776數(shù)據(jù)集上的mAP、Rank-1、Rank-5分別達到了85.92%、97.67%、98.53%,當不使用再排序算法時,mAP和Rank-1分別降低了1.71%、0.44%,而Rank-5反而增加了0.05%,幾乎保持不變。當同時去除空間注意力模塊和再排序算法時,mAP、Rank-1、Rank-5分別降低了2.69%、1.01%、0.15%。同樣都使用再排序算法,與性能最好的GLAMOR算法相比,筆者算法在mAP和Rank-1上分別提高了5.58%、1.14%,在Rank-5上也僅僅降低了0.09%。

      表4 在VeRi-776數(shù)據(jù)集上的性能比較

      鑒于VehicleID數(shù)據(jù)集的特殊性,在評估時一般不使用再排序算法。從表5可以看出,與其他算法相比,筆者算法在small、medium、large三個測試集上均取得了最好的識別效果。即使與性能最好的PVEN相比,所提算法在三個測試集上的Rank-1 及Rank-5分別平均提高了2.78%,2.01%。

      表5 在VehicleID數(shù)據(jù)集上的性能比較

      通過對兩個數(shù)據(jù)集的實驗,驗證了筆者算法的有效性,這得益于所提算法采用多粒度的分割方式將特征圖沿縱向、橫向進行分割以提取局部特征,并對通道維度進行關注以作為縱向和橫向上的補充。采用多粒度的分割方式優(yōu)勢在于不只是關注具有固定語義(車窗、車燈等)的特定部分,而是覆蓋了所有可區(qū)分(排氣筒、裝飾物等)的信息,同時還可以盡量避免固定大小的局部區(qū)域對潛在顯著性局部信息的掩蓋問題,使得網(wǎng)絡提取到更充分的局部細節(jié)信息。除此之外,還在骨干網(wǎng)絡中嵌入了SS-Net模塊使得網(wǎng)絡提取到強判別性的特征,能更好的解決類內差異和類間相似問題。

      2.5 可視化分析

      筆者算法的檢索結果可視化如圖7。測試了8張查詢圖像,包含不同車輛類型、不同光照強度、不同遮擋程度、不同背景復雜度幾種情況。檢索結果根據(jù)相似度大小從左到右依次排序,正確檢索用灰色標注,錯誤檢索用黑色標注。

      圖7 筆者算法檢索結果可視化

      從可視化結果可以發(fā)現(xiàn),在圖片清晰、沒有遮擋或有較少遮擋時,筆者算法可精確檢索;在強遮擋、背景復雜、圖片分辨率低時,筆者算法也能較準確檢索。但在檢索相同車型及相同顏色的車輛時會存在較多錯誤檢索,這在于外觀極其相似的車輛本身僅存在細微差異,并且受光照、分辨率、遮擋等因素的影響,這些細微差異很難提取出來,即使人工檢測也會出現(xiàn)錯誤。因此車輛重識別技術仍是一個極具挑戰(zhàn)性的任務。

      3 結 論

      筆者為解決以往算法提取局部特征不充分和潛在顯著性局部特征易被掩蓋的問題,提出基于多粒度特征分割的車輛重識別算法。采用三分支網(wǎng)絡結構,將車輛圖像特征圖沿縱向、橫向、通道方向進行分割以提取多粒度局部特征,并聯(lián)合通道注意力和空間注意力以挖掘更豐富、更具判別性的特征信息,增強了車輛表征的魯棒性。算法在VeRi-776數(shù)據(jù)集上的mAP、Rank-1、Rank-5指標分別達到85.92%、97.67%、98.53%;在VehicleID數(shù)據(jù)集的三個測試集上,Rank-1指標分別達到了88.36%、84.19%、78.89%,優(yōu)于現(xiàn)有大部分主流算法,研究結果表明該算法具有先進性和有效性。

      猜你喜歡
      三元組粒度注意力
      基于語義增強雙編碼器的方面情感三元組提取
      軟件工程(2024年12期)2024-12-28 00:00:00
      基于帶噪聲數(shù)據(jù)集的強魯棒性隱含三元組質檢算法*
      讓注意力“飛”回來
      粉末粒度對純Re坯顯微組織與力學性能的影響
      基于矩陣的多粒度粗糙集粒度約簡方法
      關于余撓三元組的periodic-模
      “揚眼”APP:讓注意力“變現(xiàn)”
      傳媒評論(2017年3期)2017-06-13 09:18:10
      基于粒度矩陣的程度多粒度粗糙集粒度約簡
      A Beautiful Way Of Looking At Things
      三元組輻射場的建模與仿真
      朔州市| 元氏县| 萍乡市| 含山县| 称多县| 建平县| 波密县| 肇庆市| 比如县| 驻马店市| 南郑县| 子长县| 武乡县| 阜平县| 石棉县| 西华县| 久治县| 嘉黎县| 芦山县| 喀喇| 日土县| 金乡县| 平罗县| 新河县| 阿拉尔市| 邵东县| 离岛区| 东乡| 南川市| 游戏| 扎囊县| 沿河| 读书| 绥芬河市| 呼图壁县| 磐安县| 多伦县| 大悟县| 高平市| 开平市| 板桥市|