楊曉強(qiáng),黃加誠
(西安科技大學(xué)計(jì)算機(jī)科學(xué)與技術(shù)學(xué)院,陜西 西安 710000)
對物體進(jìn)行分類是計(jì)算機(jī)視覺領(lǐng)域最為常見的一項(xiàng)任務(wù)。經(jīng)典的貓狗分類旨在對2大類物體進(jìn)行跨物種劃分,即粗粒度分類。而細(xì)粒度分類重點(diǎn)在于對單一大類物體進(jìn)行進(jìn)一步分類,是目前研究熱點(diǎn)之一。
細(xì)粒度分類方法可根據(jù)是否需要額外標(biāo)注信息分為2大類:一是基于強(qiáng)監(jiān)督的細(xì)粒度分類方法,除圖像標(biāo)簽外,該類方法還需要對象標(biāo)定框或關(guān)鍵節(jié)點(diǎn)等標(biāo)注信息輔助分類;二是基于弱監(jiān)督的細(xì)粒度分類方法,該類方法只需圖像標(biāo)簽即可完成分類工作。
基于強(qiáng)監(jiān)督的細(xì)粒度分類方法有以下研究成果。Zhang等[1]設(shè)計(jì)了基于部位的區(qū)域卷積神經(jīng)網(wǎng)絡(luò)Part-based R-CNN(Part-based Region- Convolutional Neural Network),使用自下而上的區(qū)域推薦算法學(xué)習(xí)整個(gè)對象和部位檢測器。Branson等[2]在姿態(tài)歸一化網(wǎng)絡(luò)中使用鳥類原型對部位級別圖像進(jìn)行姿態(tài)對齊操作。Huang等[3]提出部件堆積網(wǎng)絡(luò),該網(wǎng)絡(luò)包含2個(gè)部分:一部分為全卷積網(wǎng)絡(luò),負(fù)責(zé)定位部件;另一部分為雙流分類網(wǎng)絡(luò),負(fù)責(zé)物體以及部件的特征編碼工作。Lin等[4]構(gòu)建了部件定位、對齊和分類網(wǎng)絡(luò),其中閥門連接函數(shù)是對齊子網(wǎng)絡(luò)中的關(guān)鍵模塊,負(fù)責(zé)網(wǎng)絡(luò)的反向傳播,同時(shí)協(xié)調(diào)優(yōu)化分類和定位子網(wǎng)絡(luò)之間的銜接。Wei等[5]在掩膜卷積網(wǎng)絡(luò)Mask-CNN中借助全卷積網(wǎng)絡(luò)來分割頭部和軀干部位。額外的標(biāo)注信息需要專業(yè)人員手工制作,耗時(shí)耗力,因此基于弱監(jiān)督的細(xì)粒度分類逐漸成為研究的主流。
基于弱監(jiān)督的細(xì)粒度分類方法有以下研究成果。Xiao等[6]在兩級注意力模型中借助對象級、部件級區(qū)域特征完成分類。Liu等[7]設(shè)計(jì)了基于強(qiáng)化學(xué)習(xí)的全卷積注意力網(wǎng)絡(luò)來定位部件,首先獲取置信度映射圖,然后選取置信度最高的區(qū)域作為部件區(qū)域。Zhao等[8]借助注意力畫布從輸入圖像中采樣多尺度的子區(qū)域圖像,并使用LSTM(Long Short Term Memory)學(xué)習(xí)子區(qū)域圖像特征的多個(gè)注意力映射。Fu等[9]反復(fù)使用遞歸注意力網(wǎng)絡(luò)裁剪注意力區(qū)域,以得到多個(gè)尺度的注意力圖像。Zheng等[10]設(shè)計(jì)了一種多級注意力網(wǎng)絡(luò),通過對每個(gè)部件進(jìn)行分類促使網(wǎng)絡(luò)學(xué)習(xí)更多的判別性特征。Yang等[11]構(gòu)建了一種自監(jiān)督團(tuán)結(jié)協(xié)作學(xué)習(xí)模型。Zhuang等[12]在成對交互網(wǎng)絡(luò)中通過2幅圖像間的成對交互來捕捉對比線索。Gao等[13]設(shè)計(jì)了一個(gè)通道交互網(wǎng)絡(luò),模擬了圖像內(nèi)部和圖像之間的通道交互。He等[14]提出基于 Transformer 的細(xì)粒度圖像識別網(wǎng)絡(luò)框架,使用部分選擇模塊選取具有判別性的圖像塊。Zhang等[15]通過選擇注意力收集模塊過濾、篩選重要圖像塊。Liu等[16]使用峰值抑制模塊和知識引導(dǎo)模塊來輔助網(wǎng)絡(luò)進(jìn)行識別。Conde等[17]提出了一種多階段的細(xì)粒度圖像識別框架,利用ViT(Vision Transformer)自帶的多頭注意力機(jī)制定位關(guān)鍵圖像區(qū)域。Wang等[18]構(gòu)建了一種特征融合視覺 Transformer框架,使用token選擇模塊有效地引導(dǎo)網(wǎng)絡(luò)選擇具有區(qū)別性的token。
細(xì)粒度識別存在以下識別難點(diǎn):(1)類間差異小,不同類別的目標(biāo)物體外貌十分相似,非專業(yè)人員難以區(qū)分。(2)類內(nèi)差異大,同一類別的目標(biāo)物體受姿態(tài)動(dòng)作、拍攝背景等因素影響而存在較大的差異。這些因素影響了目前相關(guān)方法的識別精度,因此細(xì)粒度識別仍是一項(xiàng)具有挑戰(zhàn)性的研究。
Swin Transformer是Liu等[19]2021年提出的視覺領(lǐng)域Transformer,其在視覺任務(wù)上的綜合表現(xiàn)優(yōu)于ViT和各類CNN網(wǎng)絡(luò),是當(dāng)下一種泛用性較高的特征提取網(wǎng)絡(luò)。本文針對細(xì)粒度識別存在的問題,以Swin Transformer為基礎(chǔ),提出了改進(jìn)的多分支特征融合模型TBformer(Three Branch transformer)。TBformer的創(chuàng)新點(diǎn)有如下幾點(diǎn):(1)使用ECA(Efficient Channel Attention)[20]、Resnet50(Residual network 50)[21]和SCDA(Selective Convolutional Descriptor Aggregation)[22]相結(jié)合的動(dòng)態(tài)定位模塊DLModule(Dynamic Localization Module)消除圖像背景干擾信息并定位目標(biāo)。同時(shí),設(shè)計(jì)了基于DLModule的三分支特征提取模塊,充分提取目標(biāo)關(guān)鍵特征。(2)提出了基于ECA的特征融合方法來融合多特征,融合后特征內(nèi)部的細(xì)粒度信息表征更豐富、更精確。(3)采用對比損失[14]和交叉熵?fù)p失相混合的方法,以一種新穎的多損失訓(xùn)練模型,提升模型整體性能。
Swin Transformer[19]網(wǎng)絡(luò)結(jié)構(gòu)如圖1所示。首先,Patch Partition模塊將三通道原圖像劃分為若干大小為4×4像素的獨(dú)立Patch,將Patch在通道方向上展平,通道數(shù)相應(yīng)地?cái)U(kuò)充至原先的16倍;然后,通過4層Stage網(wǎng)絡(luò)生成不同大小的特征圖;最后通過分類層輸出最終結(jié)果。Stage1網(wǎng)絡(luò)通過Linear Embedding層將每個(gè)Patch維度重新編碼為C。Stage2~Stage4網(wǎng)絡(luò)使用Patch Merging層對Patch進(jìn)行下采樣,將上一層每2×2的像素合并為一個(gè)Patch,Patch經(jīng)過拼接、線性映射后大小減半,深度翻倍。每層Stage中的Swin Transformer Block用于對Patch進(jìn)行自注意力計(jì)算。Swin Transformer Block使用2種不同的改進(jìn)多頭注意力:基于規(guī)則窗口的多頭注意力和基于移動(dòng)窗口的多頭注意力。這2種注意力在網(wǎng)絡(luò)中成對使用。
Figure 1 Structure of Swin Transformer圖1 Swin Transformer結(jié)構(gòu)
TBformer總體結(jié)構(gòu)如圖2所示,圖中Transformer為Swin Transformer骨干層。該模型可概括為3個(gè)部分:三分支特征提取、特征融合和分類3個(gè)模塊,其中特征提取和特征融合2個(gè)模塊為主要部分。三分支特征提取模塊使用DLModule提取用于消除背景信息的定位圖像,并充分提取原始圖像和定位圖像中目標(biāo)判別性特征。特征融合模塊基于ECA對特征進(jìn)行融合,充分挖掘特征深層細(xì)粒度信息,以構(gòu)建更全面和精確的特征表示,提高模型的魯棒性。TBformer首先從原始圖像和定位圖像中提取3個(gè)分支特征,然后對3個(gè)分支特征進(jìn)行特征融合,最后分類模塊處理融合特征并輸出預(yù)測結(jié)果。TBformer采用多損失策略訓(xùn)練模型,使性能得到有效提升。
Figure 2 Structure of TBformer圖2 TBformer結(jié)構(gòu)
三分支特征提取模塊包含2個(gè)部分:一部分為定位特征提取分支,其循環(huán)使用DLModule獲取定位圖像并從定位圖像中提取特征;另一部分為原始特征提取分支,負(fù)責(zé)從原始圖像中提取特征。
首先,將原始圖像輸入至DLModule中,在DLModule第1次作用下,生成去除部分背景的初步定位圖像,并輸出交叉熵?fù)p失loss1。然后,以初步定位圖像作為輸入,在DLModule第2次作用下,生成去除更多無關(guān)背景的深度定位圖像,并輸出交叉熵?fù)p失loss2。最后,將初步定位圖像和深度定位圖像輸入至Transformer1中提取定位特征,將原始圖像輸入至Transformer2中提取原始特征。三分支特征提取模塊最終輸出原始特征、初步定位特征和深度定位特征3個(gè)分支特征。
3.1.1 定位特征提取分支
拍攝的原始圖像含有較多復(fù)雜背景信息,這對模型識別產(chǎn)生了干擾。傳統(tǒng)的物體定位方法有中心裁剪定位、隨機(jī)裁剪定位等,但這些定位方法的定位方式要么不夠靈活,要么隨機(jī)性太強(qiáng),并不能有效地捕獲關(guān)鍵物體。SCDA[22]為一種圖像檢索領(lǐng)域中的局部定位方法,該方法基于特征圖來高效地定位物體并裁剪出帶有關(guān)鍵物體的圖像。文獻(xiàn)[22]中SCDA使用VGG16(Visual Geometry Group 16)[23]作為特征提取網(wǎng)絡(luò),但VGG16參數(shù)較多導(dǎo)致訓(xùn)練時(shí)間過長。本文用嵌入ECA通道注意力的Resnet50(簡稱ERnet)替換VGG16得到動(dòng)態(tài)定位模塊DLModule。DLModule利用參數(shù)可更新的ERnet為SCDA提供特征圖,并以此動(dòng)態(tài)性地提取關(guān)鍵物體圖像。DLModule結(jié)構(gòu)如圖3所示。
Figure 3 Structure of DLModule圖3 DLModule結(jié)構(gòu)
(1)ECA通道注意力。
ECA-Net[20]提出了新型的通道注意力ECA模塊(如圖4所示)。適當(dāng)?shù)目缧诺澜换ハ啾戎苯咏稻S更能促進(jìn)通道注意力的學(xué)習(xí),所以在采用不降維的局部跨信道交互策略和一維卷積核大小自適應(yīng)函數(shù)的基礎(chǔ)上,ECA實(shí)現(xiàn)了更高效的注意力學(xué)習(xí),既提升了模型性能又降低了模型復(fù)雜度。
Figure 4 ECA module圖4 ECA模塊
ECA通道注意力模塊工作原理如圖4所示。首先,對輸入圖像特征進(jìn)行全局平均池化得到池化特征。接著,通過快速一維卷積獲取跨信道交互特征。然后,將跨信道交互特征輸入至激活函數(shù)生成各通道的權(quán)重。最后,對原始特征和通道權(quán)重做元素智能乘法操作,以獲取具有通道注意力的特征。
(2)ERnet結(jié)構(gòu)。
ERnet結(jié)構(gòu)如圖5所示。由于淺層網(wǎng)絡(luò)的低維特征包含更多局部信息,深層網(wǎng)絡(luò)的高維特征包含更多全局信息,而細(xì)粒度識別在已有全局信息條件下需要局部信息輔助分類。故不同于將注意力模塊嵌入Resnet50[21]瓶頸層中的做法,本文在圖像經(jīng)過第1個(gè)卷積層conv1卷積后連接一個(gè)ECA注意力模塊,ECA通過捕捉低維特征有效通道內(nèi)的局部信息,協(xié)助網(wǎng)絡(luò)區(qū)分目標(biāo)與干擾項(xiàng)。
Figure 5 Structure of ERnet圖5 ERnet結(jié)構(gòu)
(3)基于ERnet的SCDA。
ERnet最后一個(gè)卷積層有3個(gè)卷積塊。記F∈RC×H×W為輸入圖像X在某個(gè)卷積塊最后一次卷積后得到的特征圖,其中,C、H、W3個(gè)參數(shù)依次代表圖像的通道數(shù)、高、寬。特征圖F所有通道聚合而成的激活特征圖A如式(1)所示:
(1)
其中,Sn代表第n個(gè)通道的特征圖。
通道對應(yīng)的感興趣區(qū)域呈現(xiàn)不同的分布,有的聚焦頭部或軀干部位,有的則偏向關(guān)注無關(guān)背景。通過激活特征圖A和如式(2)所示的閾值a可進(jìn)一步準(zhǔn)確定位關(guān)鍵物體區(qū)域。
(2)
其中,(x,y)是激活特征圖A中的位置坐標(biāo);A(x,y)為坐標(biāo)值;a為閾值,取值為激活特征圖中所有位置坐標(biāo)值的平均值,用于判斷激活特征圖中的元素是否為物體的一部分。從ERnet最后一個(gè)卷積層的第2個(gè)卷積塊convblock_2和第3個(gè)卷積塊convblock_3的特征圖中按式(3)提取特征,設(shè)得到的初始掩碼分別為Mconvblock_2和Mconvblock_3。
(3)
由于關(guān)鍵物體總是在初始掩碼的最大聯(lián)通區(qū)域內(nèi),故使用最大聯(lián)通區(qū)域的最小外接邊框作為物體對象定位結(jié)果。設(shè)Mconvblock_3的最大聯(lián)通區(qū)域?yàn)镸axconvblock_3,將Mconvblock_2和Maxconvblock_3按式(4)取交集以實(shí)現(xiàn)魯棒性更強(qiáng)的物體對象定位,最終的掩碼記為Mintersection。最后將Mintersection的最小外接邊框映射至圖像對應(yīng)區(qū)域,并對映射區(qū)域進(jìn)行上采樣處理得到最終定位圖像。
Mintersection=Mconvblock_2∩Maxconvblock_3
(4)
定位特征提取分支使用DLModule消除背景信息,并獲取目標(biāo)圖像。提取到的目標(biāo)圖像分為2種:初步定位圖和深度定位圖,如圖6所示。由于首次提取到的圖像仍含有冗余背景信息,故將初步定位圖再次輸入至DLModule,得到關(guān)鍵信息密度更高的深度定位圖。將2類定位圖輸入至定位特征提取分支中的Transformer1提取定位特征。
Figure 6 Examples of original images and positioning images圖6 原始圖和定位圖樣例
3.1.2 原始特征提取分支
除定位特征外,本文還將原始特征納入判別性特征提取范圍內(nèi),原始特征由原始特征提取分支網(wǎng)絡(luò)中的Transformer1從原始圖像中提取。DLModule的原理是提取ERnet感興趣的區(qū)域,由于存在ERnet只關(guān)注目標(biāo)某些部分的可能,導(dǎo)致定位區(qū)域內(nèi)關(guān)鍵物體有時(shí)會丟失某些部位。如圖6所示從上到下分別對應(yīng)3種不同的鳥類,第1行初步定位圖和深度定位圖均缺失了尾部,第2行深度定位圖頭部及尾部均有缺失,第3行深度定位圖缺失了腳部,而這些缺失部位有可能是區(qū)分不同類別的關(guān)鍵部位。故引入原始特征能在一定程度上彌補(bǔ)定位特征潛在的損失。
原始特征、初步定位特征、深度定位特征組成了三分支特征。為了充分挖掘三分支特征包含的細(xì)粒度信息,使用一種基于ECA[20]通道注意力的融合方法來融合特征。
圖7為特征融合流程,初步定位特征和深度定位特征由Transformer1從定位圖像中提取,原始特征由Transformer2從原始圖像中提取。記fswt1為初步定位特征,fswt2為深度定位特征,fswt3為原始特征,3個(gè)特征通道維度均為1 024。首先在通道維度上拼接特征fswt1、fswt2和fswt3,該操作用“”表示,記拼接操作為cat(fswt1,fswt2,fswt3),拼接后特征為fc,其通道維度為3 072。然后由于fc為三維特征,經(jīng)過重塑形狀、轉(zhuǎn)換維度處理后轉(zhuǎn)換為四維拼接特征fc2。fc2隨即在ECA注意力模塊的作用下轉(zhuǎn)化為注意力特征fe,記該操作為E(fc2)。接著在融合特征前注意力特征fe經(jīng)過轉(zhuǎn)換維度、重塑形狀處理后轉(zhuǎn)換為三維注意力特征fe2。最后對拼接特征fc和注意力特征fe2做元素智能加法操作生成融合特征ff,該操作用符號“⊕”表示,記該操作為fc+fe2。
Figure 7 Process of feature fusion圖7 特征融合流程
本文提出了基于ECA通道注意力的特征融合方法處理三分支特征,幫助網(wǎng)絡(luò)更高效地挖掘多特征中的深層細(xì)粒度信息。融合后的特征表示更全面精確、更具有區(qū)分性,模型的魯棒性也得到提升。特征融合操作如算法1所示。
算法1 特征融合輸入:3個(gè)特征fswt1、fswt2、fswt3。輸出:融合特征ff。Step 1 fc=cat(fswt1,fswt2,fswt3);Step 2 B,D,U=fc.size();Step 3 d=sqrtD();Step 4 fc2=fc.view(B,d,d,U).permute(0,3,1,2);Step 5 fe= Efc2();Step 6 fe2=fe.permute(0,2,3,1).view(B,D,U);Step 7 ff=fc+fe2。
由于細(xì)粒度分類存在類間差異小、類內(nèi)差異大的問題,僅使用交叉熵?fù)p失不足以完全監(jiān)督多特征的學(xué)習(xí),為此本文引入對比損失[14]Lcon輔助模型更新參數(shù)。Lcon通過擴(kuò)大類間方差、縮小類內(nèi)方差,形成類間相對比而類內(nèi)相促進(jìn)的學(xué)習(xí)關(guān)系,從而改善網(wǎng)絡(luò)對多特征學(xué)習(xí)的不完全監(jiān)督性,提升網(wǎng)絡(luò)整體性能。不同父類類別間相對子類間的差異較大即方差較大,為了防止Lcon被方差較大的不同父類類別樣本主導(dǎo),設(shè)定一個(gè)閾值k,只有方差小于k的樣本才對Lcon的計(jì)算起作用。Lcon計(jì)算如式(5)所示:
(5)
其中,m為數(shù)據(jù)批次大小,np為實(shí)際標(biāo)簽值,nq為預(yù)測標(biāo)簽值,zp和zq為經(jīng)過L2范數(shù)歸一化預(yù)處理的特征圖矩陣和特征圖轉(zhuǎn)置矩陣,dot(zp,zq)為zp和zq的點(diǎn)積。
本文采用多損失訓(xùn)練模型。圖2中l(wèi)oss1 和loss2為ERnet輸出的交叉熵?fù)p失;loss3為TBformer輸出的交叉熵?fù)p失;Lcon為不經(jīng)過TBformer全連接層的對比損失。最后記本文的總損失為L,如式(6)所示:
L=loss1+loss2+loss3+Lcon
(6)
本文使用了3個(gè)公開的數(shù)據(jù)集CUB-200-2011[24](CUB)、Stanford Dogs[25](DOG)、NABirds[26](NAB)。表1為各數(shù)據(jù)集相關(guān)統(tǒng)計(jì)信息。TBformer不需要邊界框或位置關(guān)鍵點(diǎn)等標(biāo)注信息,僅使用分類標(biāo)簽即可完成端到端的弱監(jiān)督訓(xùn)練及測試。
Table 1 Statistical information of each dataset
實(shí)驗(yàn)采用的顯卡為NVIDIA RTXTMA5000專業(yè)圖形顯卡,CPU為14核Intel?Xeon?Gold 6330 @2.00 GHz,內(nèi)存為30 GB,Python版本為3.8,CUDA版本為11.3。實(shí)驗(yàn)基于版本為1.10.0的PyTorch框架進(jìn)行開發(fā),并在Ubuntu系統(tǒng)環(huán)境下運(yùn)行。實(shí)驗(yàn)采用的Resnet50和Swin Transformer網(wǎng)絡(luò)均從官方權(quán)重進(jìn)行遷移學(xué)習(xí),其中Swin Transformer選擇的版本參數(shù)如下:patch大小為4,window大小為7,其加載的權(quán)重為swin_base_patch4_window7_224_in22k。
本文方法只需分辨率為224×224的圖像進(jìn)行實(shí)驗(yàn)。訓(xùn)練初始學(xué)習(xí)率為0.002,采用SGD(Stochastic Gradient Descent)隨機(jī)梯度下降算法作為優(yōu)化器,動(dòng)量設(shè)置為0.9,每16幅圖像為一個(gè)批次進(jìn)行訓(xùn)練,學(xué)習(xí)率每訓(xùn)練20次衰減為原來的0.1。
4.3.1 對比實(shí)驗(yàn)
為了驗(yàn)證本文方法的有效性,對Part-based R-CNN[1]、API-Net(Attentive Pairwise Interaction Network)[12]、CIN(Channel Interaction Network)[13]、PC-DenseNet-161(Pairwise Confusion Dense convolutional Network 161)[27]、TASN (Trilinear Attention Sampling Network)[28]、BARAN (Bilinear Aggregate Residual Attention Network)[29]、ACNet (Attention Convolutional binary Neural tree)[30]、 MHEM(Moderate Hard Example Modulation)[31]、GCL(Graph-propagation based Correlation Learning)[32]、Grad-CAM(Gradient-weighted Class Activation Mapping)[33]、GAT(Gaze Augmentation Training)[34]、PCA-Net (Progressive Co-Attention Network)[35]、Knowledge Transfer[36]、PAIRS(Pose-AlIgned RepreSentation)[37]、Ding[38]、 GB-HO-RD(Graph-Based High-Order Relation Discovery)[39]、PMG(Progressive Multi-Granularity)[40]、AENet (Alignment Enhancement Network)[41]、PART(PArt-guided Relational Transformers)[42]、Mix+(attribute Mix)[43]、Stacked LSTM[44]、Bilinear-CNN(Bilinear Convolutional Neural Network)[45]、MaxEnt-CNN(Maximum Entropy Convolutional Neural Network)[46]、FCAN (Fully Convolutional Attention Network)[47]、BYOL+CVSA (Bootstrap Your Own Latent+ Cross View Saliency Alignment)[48]和MAMC(Multi-Attention Multi-class Constraint)[49]在CUB、DOG和NAB上進(jìn)行實(shí)驗(yàn)對比,結(jié)果見表2~表4。其中,Method表示對比方法,Resolution表示輸入圖像分辨率,Acc(Accuracy)表示識別準(zhǔn)確率,Baseline指代Swin Transformer。
Table 2 Experimental results on CUB
Table 3 Experimental results on DOG
在CUB上,TBformer的準(zhǔn)確率比Baseline的高3.19%,比MHEM的高2.7%,比Stacked LSTM的高0.5%。在DOG上,TBformer的準(zhǔn)確率比Baseline的高3.47%,比FCAN的高1.78%,比MAMC的高0.78%。在NAB上,TBformer的準(zhǔn)確率比Baseline的高1.09%,比MaxEnt-CNN的高2.31%。表5對比了TBformer和Baseline的復(fù)雜度、參數(shù)量和推理速度。從表5可知,雖然TBformer的復(fù)雜度和參數(shù)量增長較為明顯,但其推理速度相比Baseline的只減弱了25%左右。綜合考慮精度與速度因素,TBformer仍是一種性價(jià)比較高的模型,且其只需輸入低分辨率圖像即可達(dá)到較先進(jìn)的水平,具有一定程度的優(yōu)越性。
Table 5 Comparison results of model complexity,parameter number and inference speed
4.3.2 消融實(shí)驗(yàn)
為了驗(yàn)證本文模型的有效性,在CUB上對三分支特征提取、特征融合和多損失訓(xùn)練進(jìn)行消融實(shí)驗(yàn),實(shí)驗(yàn)結(jié)果如表6所示。
Table 6 CUB ablation results
由表6可知,本文提出的三分支特征提取、特征融合和多損失訓(xùn)練均比Baseline表現(xiàn)更佳。DLModule負(fù)責(zé)消除冗余背景信息的干擾并定位關(guān)鍵目標(biāo)。定位雙分支捕獲了定位圖像中更精細(xì)的特征信息。三分支特征提取引入原始特征作為定位特征的補(bǔ)充,充分提取了目標(biāo)判別性特征。特征融合成功捕捉了多特征中的深層細(xì)粒度信息。多損失訓(xùn)練通過調(diào)整類間、類內(nèi)方差,有效改善了模型對多特征的不完全監(jiān)督性。最終本文方法在CUB上的識別準(zhǔn)確率達(dá)到了90.9%,相比Baseline的提升了3.19%,證明了提出的三分支特征提取、特征融合和多損失訓(xùn)練的有效性和互補(bǔ)性。
4.3.3 輔助對比實(shí)驗(yàn)
為了驗(yàn)證ECA通道注意力的有效性,表7在CUB上對TBformer引入不同注意力機(jī)制進(jìn)行了對比。TBformer通過自注意力計(jì)算像素間的依賴,在特征融合時(shí),CBAM(Convolution Block Attention Module)[50]和GCNet(Global Context Network)[51]由于引入了空間維度信息干擾了網(wǎng)絡(luò)對特征的自注意力建模,導(dǎo)致網(wǎng)絡(luò)識別能力下降。SE(Squeeze-and-Excitation)[52]和ECA通過篩選出有效通道,對計(jì)算像素間依賴起到正向調(diào)節(jié)作用。SE直接降維損失了部分通道信息,ECA避免直接降維保留了更多關(guān)鍵通道信息,因此后者效果好于前者的。分析表明,TBformer中引入ECA通道注意力的確是一種有效的做法。
Table 7 Performance comparison of different attention mechanisms
為了進(jìn)一步驗(yàn)證ERnet中ECA嵌入方式的有效性,表8在CUB上對不同嵌入方式進(jìn)行了對比。特征經(jīng)過4層主干卷積后維度逐層加深。隨著特征維度增加,ECA能捕捉的局部信息減少,影響了ERnet對目標(biāo)的定位,削弱了DLModule提取定位圖像的準(zhǔn)確性,從而導(dǎo)致TBformer的識別能力下降。在ERnet主干卷積層前嵌入ECA對TBformer識別能力的提升最為明顯,是一種有效的嵌入方式。
Table 8 Comparison of ECA embedding methods in ERnet
4.3.4 熱力圖分析
為了直觀地表現(xiàn)出TBformer的先進(jìn)性,本文選取CUB數(shù)據(jù)集中2種不同父類進(jìn)行可視化分析。圖8為Baseline和TBformer對部分圖像的熱力圖,每一部分從上到下依次為原始圖、Baseline熱力圖、TBformer熱力圖。模型重點(diǎn)關(guān)注部分以熱力圖中白色實(shí)線包圍區(qū)域表示,其中黃胸大鶯無兄弟類,靛藍(lán)彩鹀、琉璃彩鹀、麗色彩鹀同屬彩鹀類。TBformer通過多分支特征提取模塊剔除無關(guān)背景和其它干擾因素并充分提取關(guān)鍵特征,且使用特征融合模塊構(gòu)建更精確、更全面的特征,從而相比Baseline其克服復(fù)雜背景、抗干擾、識別能力更強(qiáng)。對于黃胸大鶯類別,在簡單或復(fù)雜背景下,TBformer都能更準(zhǔn)確地捕獲頭部判別性區(qū)域。琉璃彩鹀的判別性區(qū)域?yàn)轭^部,靛藍(lán)彩鹀和麗色彩鹀的判別性區(qū)域?yàn)楦共亢统岵?對于這3類彩鹀,TBformer仍能更準(zhǔn)確地捕獲各類判別性區(qū)域。上述分析表明,在某個(gè)類別有或無子類的情況下,TBformer都比Baseline表現(xiàn)更佳,是一種有效的細(xì)粒度分類方法。
Figure 8 Heat maps of four species of birds based on Baseline and TBformer圖8 Baseline和TBformer對4種鳥類的熱力圖
4.3.5 探討性實(shí)驗(yàn)
考慮到定位圖像仍含有部分背景,對方法性能有一定的影響,因此本節(jié)嘗試對圖像做進(jìn)一步分割處理。由于目前CUB、DOG、NAB數(shù)據(jù)集缺少絕大多數(shù)分割算法需要的相應(yīng)標(biāo)注,如trimap(三元圖,一般用白色表示前景,黑色表示背景,灰色表示待識別的部分)或scribbles(在前景和背景畫幾筆的草圖),導(dǎo)致分割操作難以進(jìn)行。GrabCut[53]是一種只需分割對象的指定邊界框即可完成分割的算法,用在本文中邊界框大小可用圖像的原始大小代替。
GrabCut基于圖割(Graph Cut)實(shí)現(xiàn)圖像分割,通過高斯混合模型GMM(Gaussian Mixture Module)來分離背景和前景。由于部分圖像(包括原始圖像和定位圖像)前景和背景的顏色、紋理較為相似,導(dǎo)致基于GrabCut的分割效果較差,從而影響方法最終性能,故考慮對分割圖像進(jìn)行人工弱篩選處理。而且,模型在訓(xùn)練時(shí)需等待分割完成后才順序處理分割圖像,而基于GrabCut的分割由CPU完成,其速度較為緩慢,故若在TBformer內(nèi)進(jìn)行分割操作將造成GPU資源的浪費(fèi),從而使模型訓(xùn)練時(shí)間大幅度延長。
綜合上述分析,最終本文選擇在對圖像進(jìn)行預(yù)處理時(shí)采用分割操作,并采取圖9所示的預(yù)處理方法完成分割以及弱篩選過程。
預(yù)處理方法具體操作步驟如下:首先,使用GrabCut處理原始圖像生成分割圖像;然后,對分割圖像進(jìn)行如下弱篩選:依次觀察分割圖像每個(gè)類別數(shù)據(jù),一經(jīng)發(fā)現(xiàn)某個(gè)類別下含有丟失較多部位的圖像,則將此類下所有分割圖像復(fù)原為原始圖像,即該類下圖像一律不進(jìn)行分割處理;最后,分割圖像經(jīng)弱篩選后轉(zhuǎn)變?yōu)橛稍紙D像和分割圖像組成的混合圖像。
對原始圖像進(jìn)行預(yù)處理后將混合圖像輸入至TBformer進(jìn)行訓(xùn)練,TBformer在原始數(shù)據(jù)、分割數(shù)據(jù)以及混合數(shù)據(jù)上的結(jié)果對比如表9所示。
Table 9 Results of TBformer on raw data,seg data and mixed data
由表9可知,TBformer在分割數(shù)據(jù)上的性能較原始數(shù)據(jù)上的反而有所下降,而在經(jīng)過弱篩選的混合數(shù)據(jù)上性能較原始數(shù)據(jù)上的則有所提升,在CUB、DOG、NAB數(shù)據(jù)集上的準(zhǔn)確率分別提升了0.52%,0.71%和0.31%,證實(shí)了對分割圖像進(jìn)行弱篩選的有效性。但是,在數(shù)據(jù)標(biāo)注缺失、不對分割圖像做輔助處理的情況下,如何得到高準(zhǔn)確率的分割數(shù)據(jù)仍是一個(gè)挑戰(zhàn)。
在Swin Transformer基礎(chǔ)上,本文提出了一種改進(jìn)的細(xì)粒度識別模型TBformer。該模型使用DLModule提取目標(biāo)定位圖像,有效緩解了背景的干擾。為了彌補(bǔ)定位圖像潛在的損失,設(shè)計(jì)了基于DLModule的三分支特征提取模塊,充分提取了目標(biāo)判別性特征。在提取特征后使用特征融合模塊處理三分支特征,該模塊通過挖掘特征內(nèi)深層細(xì)粒度信息,增強(qiáng)三分支特征的全面性、精確性,提高模型的魯棒性。為了完全監(jiān)督多特征的學(xué)習(xí),混合交叉熵?fù)p失和對比損失得到多種損失,基于多損失訓(xùn)練模型,提升了本文方法整體性能。相較基礎(chǔ)方法,本文方法的性能在CUB、DOG、NAB數(shù)據(jù)集上取得了較為顯著的提升。相較其它方法,本文TBformer在3個(gè)數(shù)據(jù)集上也有不俗的表現(xiàn)。最后,由于定位圖像仍含有的部分背景可能對方法性能造成一定的影響,本文對圖像分割進(jìn)行了探討性實(shí)驗(yàn)。TBformer在經(jīng)過GrabCut處理的分割數(shù)據(jù)上的性能反而不如原始數(shù)據(jù)上的,而對分割數(shù)據(jù)進(jìn)行弱篩選后,TBformer在混合數(shù)據(jù)上的性能較原始數(shù)據(jù)上的則有所提升,表明對分割圖像進(jìn)行弱篩選確實(shí)是一種有效的做法。但是,在目前分割算法所需相應(yīng)標(biāo)注缺失、不對分割圖像做輔助處理的情況下,如何獲得高準(zhǔn)確率的分割數(shù)據(jù)仍是一個(gè)挑戰(zhàn),未來將對該方面工作做進(jìn)一步研究。