• 
    

    
    

      99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看 ?

      Transformer框架下面向車輛重識別的特征對齊與判別性增強

      2021-02-14 06:24:36羅慧誠汪淑娟
      電視技術(shù) 2021年12期
      關(guān)鍵詞:關(guān)鍵點語義卷積

      羅慧誠,汪淑娟

      (昆明理工大學(xué) 信息工程與自動化學(xué)院,云南 昆明 650500)

      0 引 言

      當(dāng)前,車牌識別是確定車輛身份的一種有效手段。但在標(biāo)清攝像頭下,當(dāng)車輛距離攝像頭較遠,車牌可能無法清晰成像。此外,有預(yù)謀的犯罪往往會采用一些手段(如遮擋車牌、套牌)來逃避攝像頭的監(jiān)控。在這種情況下,利用車牌識別來追蹤目標(biāo)車輛顯然是不現(xiàn)實的。為彌補車牌識別存在的缺陷,車輛重識別概念被提出。該技術(shù)主要是利用車輛外觀表現(xiàn)出來的特征,從不重疊相機視角識別出與給定車輛身份相同的車輛。由于其在城市安全和公共智能交通等方面具有廣泛的應(yīng)用前景,該技術(shù)受到了計算機視覺和多媒體領(lǐng)域研究者的極大關(guān)注。

      雖然基于特征表示的車輛重識別方法已取得了極大的研究進展,但由于攝像頭視角的差異、光照變化、復(fù)雜背景以及車輛姿態(tài)的影響,導(dǎo)致同一輛車在不同相機視角下表現(xiàn)出了巨大的外觀歧義性。此外,具有相同顏色和相同車型的車輛往往不具有相同的身份,這給車輛的身份匹配帶來了極大困難。為解決這一問題,本文在Transformer框架下提出一種面向車輛重識別的特征語義對齊與判別性特征表示方法。該方法首先使用預(yù)訓(xùn)練后的車輛姿態(tài)估計模型實現(xiàn)對車輛關(guān)鍵點的提取,然后利用關(guān)鍵點所具有的語義信息,根據(jù)不同圖像塊的坐標(biāo),設(shè)計一種特征聚集方法,將Transformer中具有相同語義屬性的token劃歸到同一組內(nèi),這不僅賦予了token語義信息,同時也實現(xiàn)了特征的語義對齊,提升了特征魯棒性與判別性。進行不同車輛圖像的特征匹配,便能實現(xiàn)具有相同語義屬性的部位進行特征的相似性度量,有利于匹配性能的提升。由于描述同一輛車的不同語義特征之間具有較強的關(guān)聯(lián)關(guān)系,如果能有效利用這一關(guān)系,將進一步提升特征的質(zhì)量。為此,將具有相同語義的token經(jīng)過自注意力之后作為圖結(jié)構(gòu)的頂點特征,不同語義的token之間的相似度作為邊,構(gòu)建了圖卷積網(wǎng)絡(luò)來對不同語義屬性的特征進一步優(yōu)化。總結(jié)起來,本文的貢獻包括以下3個方面。

      (1)本文提出利用預(yù)訓(xùn)練的車輛姿態(tài)檢測模型,來引導(dǎo)Transformer中具有相同語義token的特征對齊,實現(xiàn)了具有相同屬性位置車輛特征的相似性度量,解決了車輛由于相機視角變化、姿態(tài)差異、光照改變、復(fù)雜背景而導(dǎo)致的同一車輛外觀不一致的問題。

      (2)提出利用不同屬性特征之間的關(guān)聯(lián)關(guān)系來提升特征的表示能力。為實現(xiàn)此目的,在經(jīng)過自注意力模塊的特征上,構(gòu)建了圖卷積網(wǎng)絡(luò),并以此實現(xiàn)了不同類別token特征的信息傳遞。

      (3)在兩個大型的車輛數(shù)據(jù)集(VeRi-776[1]和VERI-Wild[2])上的實驗結(jié)果表明,所提出方法的性能優(yōu)于大部分最先進的車輛重識別方法的性能。

      1 方 法

      1.1 概 述

      本文提出的方法主要包括關(guān)鍵點引導(dǎo)的特征對齊、基于自注意力的局部特征強化以及屬性特征信息傳遞3個部分。關(guān)鍵點引導(dǎo)的特征對齊以Transformer框架作為基線,解析車輛的關(guān)鍵點信息,得到精確的語義特征?;谧宰⒁饬Φ木植刻卣鲝娀P(guān)注類別相關(guān)信息,對類別相關(guān)的特征賦予更大的權(quán)重。屬性特征信息傳遞利用不同屬性的語義特征之間的相關(guān)性,通過圖卷積網(wǎng)絡(luò)進行信息傳遞,提升特征的表征能力。3個模塊以端到端的方式聯(lián)合優(yōu)化網(wǎng)絡(luò)。本文提出的方法的整體架構(gòu)如圖1所示。

      圖1 Transformer框架下面向車輛重識別的特征對齊與判別性增強的網(wǎng)絡(luò)結(jié)構(gòu)圖

      1.2 關(guān)鍵點引導(dǎo)的特征對齊

      給定一張圖像x∈H×W×C,其中H、W、C分別代表圖像的高度、寬度、通道數(shù)量。VIT框架使用滑動窗口的機制滑動圖像x來劃分為部分像素重疊的patch塊,滑動的步長為S,patch的邊長為P,分辨率為H×W的輸入圖像x被分為N個固定大小的patch塊,過程如下所示:

      式中:NH和NW分別代表圖像x高度和寬度上的patch塊數(shù)量,[·]表示向下取整操作。切分后的patch塊嵌入到網(wǎng)絡(luò)的輸入序列中作為局部特征表示。此外,一個額外的tokenfcls也被嵌入到網(wǎng)絡(luò)的輸入序列中,用于學(xué)習(xí)網(wǎng)絡(luò)的全局特征表示。輸入到Transformer層的輸入序列的表示如式(2)所示:

      式中:Z0表示Transformer層的輸入序列,L是將patch塊映射到D維的線性投影,得到N個token。將輸入序列送入l層Transformer層后,得到特征尺度不變的輸出序列Z1。Z1可表示為:

      本文將N個token表示為作為網(wǎng)絡(luò)的局部特征表示。將得到的fclsl作為網(wǎng)絡(luò)的全局特征表示,使用多頭注意力學(xué)習(xí)局部特征的分類能力。

      在之前的工作[3-4]中,將車輛姿態(tài)估計模型輸出的關(guān)鍵點信息與卷積神經(jīng)網(wǎng)絡(luò)產(chǎn)生的特征圖結(jié)合得到局部特征。然而,Transformer模型不同于卷積神經(jīng)網(wǎng)絡(luò),其特征提取過程不產(chǎn)生特征圖,因此車輛姿態(tài)模型生成的掩膜數(shù)據(jù)無法直接用在Transformer產(chǎn)生的特征向量上。為了解決該問題,本文通過HRNet[5]預(yù)測車輛圖像的關(guān)鍵點,由關(guān)鍵點坐標(biāo)確定關(guān)鍵點對應(yīng)的token。

      具體來說,將x送入車輛姿態(tài)估計網(wǎng)絡(luò)HRNet,能夠得到全局特征圖Fg和K個不同位置的局部特征掩模圖因此可以通過式(4)得到不同位置的局部特征圖。

      式中:表示全局特征圖和一個局部特征掩模圖逐元素相乘的操作,表示K個不同位置的局部特征圖。

      得到局部特征圖后,該特征圖上的最大值所在的像素點的位置坐標(biāo)即為所需的關(guān)鍵點坐標(biāo)。接著,將得到的關(guān)鍵點坐標(biāo)在VIT框架里選擇對應(yīng)的token,即從VIT框架的N個token里挑選出符合關(guān)鍵點坐標(biāo)的K個token,每個關(guān)鍵點對應(yīng)的token編號的計算過程如式(5)所示:

      式中:H和W分別代表圖像x的高度和寬度表示向下取整操作,滑動的步長為S,patch的邊長為P。對于token塊表示它的關(guān)鍵點坐標(biāo),ni代表它在局部特征中 的 編 號。因此本文將K個token表示為

      依據(jù)關(guān)鍵點對應(yīng)的車身區(qū)域,可以將關(guān)鍵點聚合為m個車輛區(qū)域的語義特征,例如和四個token聚合后能夠代表車前身。因此,將車輛相同語義區(qū)域?qū)?yīng)的token進行聚合可以得到車輛的語義特征。其過程如式(6)所示。

      式中:concat(·)代表特征向量按通道concatation操作,F(xiàn)C(·)代表一層完全連接層,代表具有相同語義屬性的token,代表車輛某一區(qū)域的語義特征向量。因此,能得到m個語義特征向量

      1.3 基于自注意力局部特征強化

      將上一個模塊輸出的m個語義特征向量和全局特征向量fclsl作為自注意力模塊的輸入fx。如圖2所示,fx分別經(jīng)過3個結(jié)構(gòu)相同的線性嵌入的映射函數(shù)θ、φ、g,其中線性嵌入的映射函數(shù)θ的定義為:

      式中:Wθ表示可學(xué)習(xí)的權(quán)重矩陣,可通過1×1卷積實現(xiàn)。

      為了突出特征的判別性,需要探索語義特征的重要程度,過程如下所示。

      如式(8)所示,先對θ(fx)和[φ(fx)]T使用矩陣相乘的方式表示特征的相關(guān)性,再經(jīng)過softmax函數(shù)對不同的語義特征分配可學(xué)習(xí)的權(quán)重,最后權(quán)重與g(fx)的積為g(fx)中關(guān)鍵的語義特征賦予更大的關(guān)注。

      為了保留上一個模塊提取語義特征能力的完整性,引入殘差連接,依據(jù)式(9)將殘差信息與fx結(jié)合。

      式中:Wz表示可學(xué)習(xí)的權(quán)重矩陣,可用1×1卷積實現(xiàn)。得到的fz作為屬性特征信息傳遞模塊的輸入。

      1.4 屬性特征信息傳遞

      在現(xiàn)有的方法中,基于關(guān)鍵點或目標(biāo)檢測方法得到的語義特征通常直接按通道concatation操作進行特征融合,忽略了不同屬性語義特征之間的相關(guān)性。不同屬性語義特征之間的相關(guān)性可以提升特征的表達能力,例如車頂和前后擋風(fēng)玻璃,車窗和車身等不同屬性的語義特征間可以相互交互,提高語義特征的質(zhì)量。為了利用車輛不同屬性語義特征之間的關(guān)系,本文構(gòu)建一個圖卷積網(wǎng)絡(luò)來對這些關(guān)系進行建模。如圖1所示,其中,語義特征之間的相鄰關(guān)系可由鄰接矩陣A∈(m+1)×(m+1)表示,其中m+1是節(jié)點的數(shù)量。對于鄰接矩陣A,如果語義特征i和j相鄰,例如車頂和前車窗玻璃位置相鄰,則設(shè)置A(i,j)=1。為了充分利用相鄰關(guān)系,挖掘具有鑒別性的特征,圖卷積模塊通過使用圖中每個節(jié)點向其相鄰節(jié)點進行信息傳播來實現(xiàn)關(guān)系傳遞。在注意力模塊的后面添加兩層的圖卷積,其中每一層r可被描述為:

      式中:A∈(m+1)×(m+1)是特征矩陣的鄰接矩陣,E∈(m+1)×(m+1)是A的度矩陣,是第r-1層輸出的特征矩陣,W(r-1)∈D×D是第L-1層可學(xué)習(xí)的參數(shù),σ(·)是一個Relu激活函數(shù)。將基于自注意力的局部特征強化的輸出置為初始的特征矩陣圖卷積網(wǎng)絡(luò)中節(jié)點L輪信息傳播更新得到圖卷積模塊的輸出

      1.5 損失函數(shù)

      經(jīng)過3個模塊后,得到優(yōu)化后的全局特征fclsz和m個語義特征對于全局特征fclsz,通過構(gòu)建身份損失LIDG和三元組損失LT來優(yōu)化網(wǎng)絡(luò)。其中身份損失LIDG是交叉熵損失,描述如下:

      式中:b代表代表第k個樣本的全局特征,yk代表車輛分類第k個樣本的真實身份標(biāo)簽,代表全局特征分類器,代表分類器預(yù)測出的第k個樣本的身份標(biāo)簽。

      此外,本文還通過帶有軟間隔的三元組損失[6]使相同身份車輛圖像具有高相似性,不同身份的車輛圖像具有低相似性。具體優(yōu)化公式如下:

      式中:b代表代表第k個樣本第p個語義特征,yk代表車輛分類第k個樣本的真實身份標(biāo)簽,代表第p個語義特征的分類器代表分類器預(yù)測出的第k個樣本第p個語義特征的身份標(biāo)簽。

      綜上所述,所提出框架的整體損失函數(shù)L如下所示,通過最小化L以端到端的方式優(yōu)化所提出的網(wǎng)絡(luò)。

      式中:λ表示超參數(shù),表示L中調(diào)整語義特征身份損失項的權(quán)重。

      2 實 驗

      2.1 數(shù)據(jù)集和評估指標(biāo)

      在兩個大型的車輛重識別數(shù)據(jù)集VeRi-776和VERI-Wild上評估所提出的模型。將評估的結(jié)果與近兩年最先進的車輛重識別方法進行比較。

      遵循文獻[2]和文獻[7],本文使用平均精度均值(mAP)、Rank-1精度(R1)及Rank-5精度(R5)作為模型的評估指標(biāo)。

      2.2 實現(xiàn)細節(jié)

      本節(jié)介紹實驗中模型架構(gòu)的詳細信息。

      本文使用基于VIT框架的12個Transformer層作為提取特征的主干。將基于車輛姿態(tài)估計的HRNet網(wǎng)絡(luò)預(yù)測的36個關(guān)鍵點及其坐標(biāo)映射到VIT框架里,得到關(guān)鍵點對應(yīng)的36個帶有不同語義信息的token。通過關(guān)鍵點將車輛圖像劃分為不同的語義區(qū)域,并將具有相同語義信息的token進行聚合,得到13個代表車輛不同區(qū)域的語義特征。之后,將Transformer層得到的全局特征和語義特征送入基于自注意力的局部特征強化模塊和屬性特征信息傳遞模塊,得到魯棒性的特征表示。最后對得到的全局特征和語義特征分別做分類損失。

      2.3 與最先進方法的比較

      本文將提出的方法與現(xiàn)有的車輛重識別方法進行比較,方法分為3類。第一類是基于深度學(xué)習(xí)的全局特征表示方法。研究人員使用深度網(wǎng)絡(luò)從車輛的全局外觀里學(xué)習(xí)視覺特征,代表性方法包括文獻[8]、文獻[9]、文獻[10]、文獻[11]的方法。第二類是多模態(tài)方法,這些方法通常利用車輛背景、車牌、時空上下文等多模態(tài)信息,方法主要是文獻[12]的方法。第三類方法是車輛全局和局部特征的表示方法,由于所提的方法探索車輛的局部信息以此得到細粒度的特征,因此也與同樣使用局部信息的方法進行比較。比較的方法主要包括文獻[3]、文獻[13-22]中的方法。比較結(jié)果如表1和表2所示,其中,“—”表示無可用數(shù)據(jù)。

      在VeRi-776數(shù)據(jù)集上的對比實驗:結(jié)果如表1所示,提出方法的性能在Rank-1/mAP優(yōu)于最好的基于語義分割的車輛重識別方法PVEN[23]1.00%/0.64%,在Rank-1/mAP比最好的基于目標(biāo)檢測的車輛重識別方法Part regular[14]高2.30%/5.84%。此外,所提的方法在Rank-1/mAP上同樣也優(yōu)于最好的基于關(guān)鍵點的車輛重識別方法PAMTRI[3]3.74%/8.26%,并在VeRi-776數(shù)據(jù)集上實現(xiàn)了最好的性能。

      表1 在VeRi-776數(shù)據(jù)集上的對比實驗

      在VERI-Wild數(shù)據(jù)集上的對比實驗:表2列出了本文方法在VERI-Wild數(shù)據(jù)集上與其他方法的比較結(jié)果,本文方法同樣實現(xiàn)了最好的性能,在VERI-Wild數(shù)據(jù)集3個測試子集Test3000、Test5000及Test10000上Rank-1分別優(yōu)于次優(yōu)方法UMTS[13]3.05%、3.77%和4.64%。本文方法在VeRi-776數(shù)據(jù)集和VERI-Wild數(shù)據(jù)集上均實現(xiàn)了良好的性能,這表明了所提方法的有效性和通用性。

      表2 在VERI-Wild數(shù)據(jù)集上的對比實驗

      2.4 消融實驗

      本節(jié)進行一系列的實驗,分別驗證提出的關(guān)鍵點引導(dǎo)的特征對齊(SFET)、基于自注意力的局部特征強化(SAFL)和屬性特征信息傳遞(PGCN)3個模塊的有效性。實驗結(jié)果如表4所示。其中,基準(zhǔn)方法僅用全局特征身份損失LIDG和三元組損失LT約束網(wǎng)絡(luò)。加入任意模塊后,使用全局特征身份損失LIDG、三元組損失LT和語義特征身份損失LIDL共同約束網(wǎng)絡(luò)。在VeRi-776上進行消融實驗,探究每個模塊的作用。

      表4 消融實驗結(jié)果

      2.5 參數(shù)分析

      本文涉及一個超參數(shù)λ,用來控制語義特征損失項。在VeRi-776進行超參數(shù)的分析,結(jié)果如圖3所示,對于兩個數(shù)據(jù)集,當(dāng)λ∈[0,0.1]時,隨著λ的增加,網(wǎng)絡(luò)的識別率在逐步提升,然而,當(dāng)網(wǎng)絡(luò)的性能達到一個最高峰后卻在不停減弱,即λ∈[0.1,1]時,隨著λ的增加,Rank-1/mAP卻在逐步下降,主要的原因是語義特征損失項過大,導(dǎo)致網(wǎng)絡(luò)無法擬合。當(dāng)λ=0.1時,本文的方法在數(shù)據(jù)集上得到最優(yōu)的性能,因此根據(jù)實驗結(jié)果將λ設(shè)置為0.1。

      圖3 超參數(shù)λ的有效性分析

      3 結(jié) 語

      本文提出了一種新穎的車輛重識別方法。該方法主要由關(guān)鍵點引導(dǎo)的特征對齊、基于自注意力的局部特征強化以及屬性特征信息傳遞3個部分組成。其中,關(guān)鍵點引導(dǎo)的特征對齊模塊通過一種新的關(guān)鍵點映射模型和Transformer基線得到細粒度的零部件語義特征,基于自注意力的局部特征強化模塊為更顯著的語義特征賦予更大的關(guān)注,挖掘出更具有判別性質(zhì)的信息,屬性特征信息傳遞模塊為零部件的天然相鄰關(guān)系建模,使語義特征間相互關(guān)聯(lián),促進了多攝像頭下車輛的識別率。本文在兩個基準(zhǔn)車輛數(shù)據(jù)集上的實驗表明了提出的方法在車輛重識別任務(wù)上的有效性以及對比同類方法的優(yōu)越性。

      猜你喜歡
      關(guān)鍵點語義卷積
      聚焦金屬關(guān)鍵點
      肉兔育肥抓好七個關(guān)鍵點
      基于3D-Winograd的快速卷積算法設(shè)計及FPGA實現(xiàn)
      語言與語義
      從濾波器理解卷積
      電子制作(2019年11期)2019-07-04 00:34:38
      基于傅里葉域卷積表示的目標(biāo)跟蹤算法
      “上”與“下”語義的不對稱性及其認知闡釋
      認知范疇模糊與語義模糊
      醫(yī)聯(lián)體要把握三個關(guān)鍵點
      一種基于卷積神經(jīng)網(wǎng)絡(luò)的性別識別方法
      祁连县| 信丰县| 句容市| 乐业县| 通城县| 宜章县| 商水县| 汝阳县| 龙岩市| 洛阳市| 淮滨县| 屏东县| 黄龙县| 西乌珠穆沁旗| 吉林市| 琼结县| 湖州市| 图片| 昌邑市| 景洪市| 西宁市| 通许县| 连山| 江孜县| 南丹县| 灌阳县| 松阳县| 吉林省| 宽城| 新兴县| 通榆县| 武清区| 德昌县| 友谊县| 准格尔旗| 葵青区| 光泽县| 宜昌市| 佛学| 枝江市| 宜宾县|