中圖分類號:TP391.4 文獻標志碼:A
Fine-grained image recognition based on interventional attention
CHEN Jiankun, WANG Yongxiong, PAN Zhiqun ( , , , )
Abstract: Attention plays a key role in fine-grained image recognition tasks. In order to make the model pay more atention to discriminative regions, a new method based on interventional attention was proposed to provide key clues supervising atention to learn features. Specifically, the interventional attention was added to the training process, the attention mechanism was applied to the process data cuting dropping to guide the model to improve the learning efficiency. At the same time, the fused attention was applied to the feature extraction network to help the network learn more discriminable features. In addition, label smoothing loss function center regularization loss function were introduced into the objective function, which effectively improved classification accuracy.
Experimental results show that the proposed method has excellent permance, achieving 89.8% 95.7% 94.7% classification accuracy on CUB-200-2011, St Cars FGVC Aircraft dataset respectively. In comparison with the other mainstream fine-grained classification algorithms, the proposed method achieves better classification results.
Keywords: fine-grained image recognition; interventional attention; data augmentation; fused attention; label smoothing
近幾年,細粒度圖像識別[1一直是研究熱點和難點之一。細粒度圖像識別是子類的識別,類別間的差異經(jīng)常很小,尤其在圖像中光照、背景、姿態(tài)等因素的干擾下,細粒度識別具有更大的挑戰(zhàn)性。早期方法[2常以部件標注和局部信息區(qū)域為代價獲取關鍵局部信息,但這種方式常需要昂貴的人工與數(shù)據(jù)標注成本。因此,僅利用分類標簽,自動獲取圖像判別性區(qū)域就顯得十分重要。
注意力機制是計算機系統(tǒng)模擬人類的搜索識別方式,找到圖像中的有辨識性區(qū)域,并減少由于不同的視覺外觀而造成的雜亂背景、遮擋、姿勢變化等。盡管目前注意力機制的應用十分廣泛,但是如何學習更加有效的注意力仍然是一個值得研究的問題。傳統(tǒng)的基于概率的方法[3]僅通過損失函數(shù)監(jiān)督最終預測,卻常常忽略預測和注意力之間的因果關系。與此同時,數(shù)據(jù)增強[4-5]是一種常用的增加數(shù)據(jù)量及多樣性的策略。以往的細粒度識別中通常采用隨機數(shù)據(jù)增強的方法對訓練數(shù)據(jù)進行預處理。然而,由于裁剪區(qū)域是隨機采樣且大部分樣本包含大量背景噪聲,這些因素會降低訓練效率并影響提取特征的質量。
基于上述問題,本文研究如何利用注意力學習更加有效的特征提取,并利用注意力機制引導數(shù)據(jù)裁剪和擦除的數(shù)據(jù)增強過程。訓練過程僅依靠類別標簽,就能夠有效提升注意力學習的質量,準確獲取圖像關鍵性區(qū)域并取得較為理想的分類精度。該方法的優(yōu)勢如下:
a.采用干預注意力學習方法加強注意力引導學習的因果推理過程,利用注意力引導數(shù)據(jù)增強。同時,將通道注意力機制與空間注意力機制進行融合,幫助網(wǎng)絡提取關鍵性區(qū)域,有效改善注意力機制性能,計算效率較高。
b.采用標簽平滑方法降低模型過擬合,并利用中心正則化損失矯正注意力區(qū)域的位置,從而增強對關鍵性區(qū)域的關注能力,加強注意力模塊的提取特征能力。
c.在3個經(jīng)典細粒度圖像分類數(shù)據(jù)集CUB200-2011[]、 St Cars[7]和 FGVC Aircraft8]上進行實驗,結果表明本文方法具有較明顯的性能提升。
1相關工作
1.1 細粒度圖像識別
在細粒度識別中,現(xiàn)有大多數(shù)方法都采用帶注意力機制的深度學習網(wǎng)絡。Liu等提出了全卷積注意力網(wǎng)絡,采用強化學習方法獲得視覺注意力,更好地適應了不同細粒度域的局部判別區(qū)域。Lin等[1]提出了雙流架構的B-CNN,有效地將圖像表示為兩個CNN特征的池化外積架構。Wang等[11]進一步提出基于雙線性卷積神經(jīng)網(wǎng)絡的包含自聚焦模塊和稀疏縮放因子的稀疏聚焦框架,其中,每個通道的稀疏縮放因子用來評估特征通道的重要性,并將其用于通道剪枝。譚潤等[2]提出,利用雙線性注意力池化和卷積塊注意模塊構建注意力學習模塊和信息增益模塊,分別獲取目標局部細節(jié)信息和目標重要輪廓的數(shù)據(jù)
Chen 等[13]提出了一種圖像分割操作用于細粒度分類,將圖像分割成局部補丁,隨機混洗重建新圖像進行訓練,從而迫使模型關注局部細節(jié)信息而非全局信息。Li等[14]提出一種多分支通道增強網(wǎng)絡,對原始圖像進行多模式打亂操作,然后將不同混淆程度的圖像組合成3對信息作為輸入,利用打亂操作迫使通道尋找判別性區(qū)域。Du 等[15]進一步應用多尺度拼圖生成器,以漸進式訓練策略捕獲交叉粒度信息。還有Zheng等[和Sun 等[17]也提出基于注意力的細粒度分類方法,并以自下而上的方式設計注意力模型,在細粒度識別任務中取得了較為優(yōu)異的結果。
1.2 數(shù)據(jù)增強
數(shù)據(jù)增強是對輸入圖像的預處理,常用的方式為對圖像進行空間水平的變換。在以往的方法[4-5,18]中,都采用基于圖像裁剪和圖像擦除的數(shù)據(jù)增強方式,包含對圖像進行幾何變換的數(shù)據(jù)增強操作。這對于提升深度學習模型的魯棒性,避免過擬合及提升模型的泛化能力都具有積極作用。
Devries等[5和Singh等[19]的思路都是隨機采用一些方形區(qū)域對原始輸入圖像進行一定掩蔽,以增強卷積神經(jīng)網(wǎng)絡的魯棒性。但是,傳統(tǒng)數(shù)據(jù)裁剪和擦除的區(qū)域具有一定的隨機性,常常會將需要檢測的目標或者關鍵性區(qū)域遮蔽,從而影響增強數(shù)據(jù)的可利用性。同時,隨機的掩碼過程容易產(chǎn)生不受控制的噪聲數(shù)據(jù),影響增強數(shù)據(jù)的區(qū)域分布,降低增強數(shù)據(jù)的質量
基于上述問題,Gong等[2提出不同于隨機選取掩碼的增強方式,該方法先取得圖像的顯著性圖,再從中分析取得圖像區(qū)域的重要程度,從而選取相應區(qū)域進行圖像裁剪或擦除操作。Cubuk等[21]通過設計一個特定的方式,創(chuàng)建數(shù)據(jù)增強方式的搜索空間,以獲得優(yōu)秀的目標數(shù)據(jù)集的精度。但是這類方法相比而言成本大,需要時間比較長,產(chǎn)生的增強數(shù)據(jù)較為復雜。本文采用的注意力引導的數(shù)據(jù)裁剪和擦除方式更為簡單,可生成更優(yōu)質的增強數(shù)據(jù)以提升性能。
1.3 干預推理
以深度學習為基礎的方法在特征提取能力方面有著比較優(yōu)秀的效果,但是深度神經(jīng)網(wǎng)絡在訓練過程中有一定的不確定性。為了能夠揭開黑箱,理解事實的邏輯因果,并獲得真正的因果影響因素,需要將學習到的偽邏輯關系進行解耦合。因此,將因果推理理論應用到深度學習模型中的分析方法就顯得至關重要。該方法有助于揭開黑箱,減少對于偽邏輯關系的錯誤學習,有效提升模型的泛化能力及魯棒性。
在圖像分類任務中,常使用因果關系作為工具降低偏差數(shù)據(jù)的影響。由因果推斷理論得知,混雜因子造成的偽邏輯關系對提升模型在測試集上的準確性具有不利影響。為找到訓練過程中的混雜因子,增強學習穩(wěn)定性,減少訓練集中偽邏輯關系的不利影響,可以利用干預推理方法進行訓練。
干預推理[22]是指通過對某個事件發(fā)生的某一先決條件進行確定性假設,然后通過該假設對事件發(fā)生結果進行重新表征,從而得到以此為先決條件的推理結果。具體而言,干預操作方法通過確定一個變量的值,限制該變量隨其他自然變量變化的自然趨勢。在圖模型中,干預操作會刪除所有指向該變量的邊。以此為依據(jù),得到干預條件下的推理結果,并將其與原推理結果進行對比,得出最后結果?;谝蚬评碇械母深A理論,對網(wǎng)絡學習到的視覺注意力進行干預操作,即為干預注意力學習方法。
2 算法原理
2.1 網(wǎng)絡結構
細粒度圖像分類研究的主要問題是關鍵性區(qū)域的提取與學習能力的加強,所以訓練過程中常需要采取一些方式加強網(wǎng)絡對細節(jié)的關注。一是增強網(wǎng)絡對區(qū)分性特征的提取能力,從而使最終提取特征更加有效;二是利用注意力機制將網(wǎng)絡學習的重點放在更加需要關注的地方,并提升目標關鍵區(qū)域的模型表征能力。網(wǎng)絡訓練流程如圖1所示。
在特征提取階段,首先,利用融合注意力機制對特征提取網(wǎng)絡所得到的特征圖進行通道和空間上的加強,得到相應特征圖。然后,將所得特征圖輸人卷積層獲得自然注意力圖,該注意力圖可以顯示目標的局部顯著特征。同時,采用均勻分布注意力為干預手段,產(chǎn)生與自然注意力圖同一維度的干預注意力圖。最后,將特征圖分別與自然注意力圖及干預注意力圖進行雙線性注意力池化,該操作具體原理如圖2所示。
具體地,將特征圖分別與 n 張自然注意力圖、干預注意力圖進行按位相乘的操作,從而得到特征融合后的特征圖 F1,F(xiàn)2,…,F(xiàn)n 及干預特征圖F1′,F(xiàn)2′,…,F(xiàn)n′ 。然后,對所得特征圖進行全局平均池化,獲得相應特征向量 G1,G2,…,Gn 及相應干預特征向量 。最后,將這些特征進行拼接從而得到相應特征矩陣,再通過線性層得到相應注意力特征輸出向量 pp 與 pp′ 。最終,由自然注意力特征輸出向量 pp 減掉干預注意力特征輸出向量 pp′ 得到預測結果向量
。
同時,通過利用注意力裁剪和注意力擦除方法對圖像進行數(shù)據(jù)增強,并將增強圖像與原始圖像一起輸入網(wǎng)絡中,有效增強模型對于待分類目標局部顯著特征的關注。對于每一幅訓練圖像,注意力增強分支將隨機選擇一張自然注意力圖作為增強圖來指導數(shù)據(jù)增強過程。該分支通過選擇其中顯著特征部分將其擦除得到擦除圖像,同時將相關顯著特征部分剪裁下來得到裁剪圖像,進而幫助后續(xù)網(wǎng)絡提取更加顯著的特征部分。
2.2 融合注意力
傳統(tǒng)通道注意力模塊常采用 SENet[23],該網(wǎng)絡的基本原理是,通過獲取不同特征圖的關鍵程度,為學習特征圖賦予不同權重值,迫使網(wǎng)絡對不同特征圖采用不同的關注程度。但該網(wǎng)絡的全連接層會獲得所有通道的依賴關系,這會增加計算量并對預測結果產(chǎn)生負面影響。本文方法將空間注意力機制與通道注意力機制加以融合。具體地,將通道注意力網(wǎng)絡中的全連接層改為 1×1 卷積層,并通過動態(tài)選取卷積核,保持通道特征維度一致,從而有效減少參數(shù)量。為了提升特征提取網(wǎng)絡對有辨別性區(qū)域的關注,將通道注意力機制中單一的全局平均池化(globalaveragepooling,GAP)改成采用全局最大池化和全局平均池化融合的方式,將所得結果相加并進行激活得到輸出結果,將所得結果通過激活函數(shù)得到通道注意力特征。將該特征輸入空間注意力網(wǎng)絡中:首先,將其沿通道維度進行最大值池化和平均值池化操作;然后,將池化結果進行拼接并進行卷積操作;最后,將所得結果通過激活函數(shù)得到輸出結果。該模塊通過嵌入到總框架中特征提取模塊的骨干網(wǎng)絡中發(fā)揮作用。由于融合注意力模塊具有即插即用的特性,因此,以本文實驗用到的ResNet骨干模型為例,可將該模塊插人到ResNet每一個殘差子網(wǎng)絡的最后輸出位置,從而增強骨干網(wǎng)絡的特征提取效率與質量。融合注意力模型如圖3所示。
2.3 干預注意力
深度學習訓練算法常通過最小化損失函數(shù)進行參數(shù)優(yōu)化,這種方法將訓練過程看作黑箱,忽略網(wǎng)絡內(nèi)部的訓練結果,不利于對內(nèi)部變量進行直觀控制。干預注意力學習將因果推理理論引入到注意力機制中,通過直接控制內(nèi)部變量使模型學習到更加有效的注意力圖,從而實現(xiàn)注意力質量的提升。
在干預注意力學習中,通過引入因果圖的方式,操作內(nèi)部變量的值分析因果關系,并且查看其效果,該操作在常見的因果推理文獻中被稱為干預,用公式可以表示為do。通過一個現(xiàn)實中的干預機制調整各變量的狀態(tài),從而達到干預的目的。利用預先設計的干預方法,觀察自然注意力和干預注意力對預測結果的影響,促使網(wǎng)絡更好地學習有效的注意力分布,并抑制數(shù)據(jù)集中的混雜因素對訓練的負面影響,增強深度模型的可解釋性。同時,干預注意力幫助模型理解不同注意力區(qū)域對預測結果的影響關系,從而更好地學習圖像關鍵區(qū)域的規(guī)律和特征,并揭示圖像中的潛在信息和重要特征。干預注意力學習的原理如圖4所示。
圖4中: X 代表特征圖; A 代表自然注意力圖; 代表干預注意力圖; Y 代表自然注意力預測;Y代表干預注意力預測; Yeffect 代表注意力影響輸出預測。
在實驗過程中,進行干預 do(A=a) ,需先在網(wǎng)絡中生成一個干預注意力圖 ,從而替換學習到的注意力圖。注意力圖選取要具有真實合理性,要在合理的選擇范圍內(nèi),即干預注意力圖的維度大小應該與自然注意力圖 A 保持一致,從而保證干預注意力的真實性。在實際操作中,可應用均勻分布注意力或隨機分布注意力當作干預方式。干預過程需保持特征圖 X 不變,并保證固定干預注意力圖
,目的是斷開從特征圖生成注意力圖的因果推理支路,從而完成干預注意力操作。根據(jù)注意力機制的公式,完成干預后,得到干預注意力預測
,其數(shù)學表達式為
式中: C 表示分類器; 表示 1~n 張注意力干預圖; ? 表示全局平均池化;*表示按位相乘,這就是干預注意力學習的基本思路。學習到的注意力影響輸出預測 Yeffect 可用 Y(A=A,X=X) 和
之差的期望表示,其數(shù)學表達式為
式中, E 表示期望
在細粒度圖像分類任務中,復雜的背景、遮擋以及姿態(tài)變化往往會對網(wǎng)絡的分類結果造成巨大影響。將干預理論引入注意力機制中,可以有效提升干預對象的學習質量,將網(wǎng)絡學習重點放在更加有區(qū)分度的目標上,同時減少網(wǎng)絡學習冗余信息,有助于增強模型訓練的魯棒性,并有效提升模型泛化能力。與現(xiàn)有方法相比,干預注意力有效提升了注意力學習的質量,有助于解決細粒度分類任務中需要更好關注圖像中細微差異的問題,從而提升了網(wǎng)絡對于圖像中關鍵細節(jié)的分辨能力,進而有效提升其在細粒度圖像分類問題上的分類準確率。
2.4 損失函數(shù)
當遇到多類分類問題時,預測正確類別標簽通常為1,其余位置為0。但這種硬標簽的預測策略會使網(wǎng)絡訓練結果過于武斷,不利于訓練過程中對噪聲抵抗能力以及網(wǎng)絡泛化能力的提升。當引入標簽平滑策略時,模型不要求正確類別預測為1,而僅要求正確類別預測為 1-ε ,并將其他類別的預測標簽設為 ε ,其中, ε 表示與1相比極小的正實數(shù)。對于細粒度圖像分類任務而言,區(qū)分與表達類別內(nèi)差異是其要解決的關鍵性問題。因此,在損失函數(shù)中引入中心正則化損失函數(shù)以縮短類內(nèi)距離,使其更多反應和表達類內(nèi)相似性。標簽平滑交叉熵損失函數(shù) Lce(Yeffect,y′) 和中心正則化損失函數(shù) Lcenter 表示為
式中: y′ 表示平滑分類標簽; y 表示分類標簽;Lce(?) 表示標準交叉熵的損失函數(shù); 表示均勻分布; m 表示圖像數(shù)量;
表示第 i 張圖像 Ii 的局部響應特征; cn(yi) 表示第 i 張圖像分類標簽yi 的部位特征中心; K 表示自然注意力圖通道數(shù)量,其取值應兼顧網(wǎng)絡訓練時精度與速度的要求。若 K 取值過小,則難以達到訓練精度要求;相反,若其取值過大,則會過度消耗計算成本,且對訓練精度的提升效果有限。經(jīng)驗證, K 為32時更能滿足相關要求。同時,將注意力質量當作一個監(jiān)督信號,指導注意力的學習過程。所以總的目標函數(shù)為
L=Lce(Yeffect,y′)+αLcenter
式中, α 是兩種損失函數(shù)的線性組合系數(shù)。
通過優(yōu)化新的目標函數(shù),期望注意力發(fā)現(xiàn)最具判別性的區(qū)域,避免次優(yōu)結果。其次,希望利用干預注意力監(jiān)督預測結果,迫使分類器根據(jù)主要線索來作決定,而非偏見信息,降低訓練集當中偏見成分的影響。與現(xiàn)有方法相比,該損失函數(shù)的設計能夠達到更好地修正卷積神經(jīng)網(wǎng)絡參數(shù)權重的目的,使提取的圖像特征得以更有效地進行圖像分類。
3 實驗及結果分析
為了評估模型的有效性,本文將提出的學習方法在幾個常用的細粒度圖像分類數(shù)據(jù)集上進行實驗,通過消融實驗驗證所加模塊對于基線模型準確度的提升效果,并與其他先進的方法進行比較,驗證方法的有效性。下面描述具體實驗數(shù)據(jù)集、實施設置細節(jié)及實驗結果
3.1 數(shù)據(jù)集
實驗采用3個常用的經(jīng)典公開細粒度圖像數(shù)據(jù)集,分別是CUB-200-2011、StCars和FGVCAircraft,3個數(shù)據(jù)集的類別數(shù)量、訓練集和測試集的圖像數(shù)量如表1所示。
3.2 實驗設置
針對每一張訓練圖像,利用本文數(shù)據(jù)增強方法將訓練數(shù)據(jù)集擴充3倍,本文代碼基于Pytorch深度學習框架實現(xiàn),以ResNet系列和VGG19作為骨干模型,同時采用注意力機制加強特征提取能力。注意圖是在 1×1 卷積后得到的。在GPU上使用動量為0.9,epoch數(shù)為160,權重衰減為0.00001,最小批量大小為4的隨機梯度下降(stochasticgradientdescent,SGD)來訓練模型。將初始學習速率設置為0.001,在每2個epoch之后進行0.9的指數(shù)衰減。其中,在CUB-200-2011數(shù)據(jù)集上以VGG19為骨干網(wǎng)絡的對比實驗中采用的最小批量大小為8。為了有效兼顧網(wǎng)絡訓練速度與精度要求,使其更好展現(xiàn)所提方法的有效性及合理性,本文參數(shù)選取考慮了模型的復雜度、數(shù)據(jù)集的大小和分布,并評估了模型的準確性、泛化能力和穩(wěn)定性,同時考慮了可用的計算資源,從而確定此參數(shù)選取策略。本文采用分類準確度檢驗細粒度圖像分類模型的訓練效果,該性能指標可直觀反映模型的分類性能。分類準確率公式為
式中: T 表示所有類別中被正確分類的圖像樣本數(shù)量; W 代表總的樣本數(shù)量。
3.3 對比實驗
在 CUB-200-2011、 St Cars 和 FGVCAircraft數(shù)據(jù)集上,與其他細粒度分類方法進行比較評估,實驗結果如表2所示。本文方法使用相同主干網(wǎng)絡,在3個廣泛使用的數(shù)據(jù)集中進行測試,與同類別先進方法相比,表現(xiàn)出約 1% 的性能提升??梢杂^察到,隨著骨干網(wǎng)絡層數(shù)加深,本文方法的分類準確率在3個數(shù)據(jù)集上都有 1%~ 4% 的提升,說明骨干網(wǎng)絡特征提取能力的優(yōu)劣對于分類準確率有一定影響。同時,比較本文方法與其他方法在應用不同層數(shù)骨干網(wǎng)絡時在3個數(shù)據(jù)集上的分類表現(xiàn),可以發(fā)現(xiàn),本文方法在不同數(shù)據(jù)集上的性能提升程度存在一定區(qū)別,這是由于不同數(shù)據(jù)集的數(shù)據(jù)分布差異導致的。例如,在StCars數(shù)據(jù)集上,本文方法在應用較淺層的ResNet34作為骨干網(wǎng)絡時表現(xiàn)出相對更優(yōu)的性能。這是由于該數(shù)據(jù)集的類內(nèi)差異更小,通過所提出的干預注意力機制等方法可以關注判別性區(qū)域,使網(wǎng)絡在訓練過程中更多學習到有助于分類的特征,從而在該數(shù)據(jù)集上得到更高的分類準確率。
3.4 消融實驗
為檢驗本文方法關鍵組件的有效性,在CUB200-2011數(shù)據(jù)集上利用5組消融實驗,驗證干預推理機制、融合注意力增強和標簽平滑損失函數(shù)的使用對實驗結果的影響。最終結果如表3所示。實驗1中,基線模型采用 ResNet50 作為特征提取網(wǎng)絡,同時應用注意力引導數(shù)據(jù)增強方法,最終預測結果由最后的全連接層獲得。實驗2相比基線模型,在特征提取網(wǎng)絡中加人融合注意力分支,其準確率提升約 0.5% ,證明該分支加強了網(wǎng)絡對特征的提取能力。
實驗3和實驗5分別在實驗1和實驗2的基礎上加入干預注意力分支,其性能分別提升 0.2% 和0.5% ,證明該分支對于提升注意力學習的質量及模型準確率具有一定的效果,且當特征提取網(wǎng)絡的性能提升時,該分支的性能表現(xiàn)越明顯。實驗4在實驗1的基礎上應用標簽平滑方法,其分類準確率相較基線模型提升約 1.6% ,證明該方法的應用對于減少過擬合,提高模型的置信度有積極作用。僅利用標簽平滑對分類準確率的提升效果十分明顯,但并不意味著融合注意力與干預注意力對于模型訓練的重要程度不高,可能僅在特定數(shù)據(jù)集與參數(shù)配置情況下呈現(xiàn)出這樣的現(xiàn)象,也從側面證明所提各方法對訓練都有較好效果。
3.5 損失函數(shù)的參數(shù)評估
為檢驗本文方法的中心正則化損失函數(shù)對模型的性能影響,對式(5中線性組合系數(shù) α 進行參數(shù)評估。實驗在StCars數(shù)據(jù)集上進行,骨干模型采用ResNet50,最終對比結果如圖5所示。通過觀察可得,在中心正則化損失函數(shù)的線性組合系數(shù)加大到2的情況下,分類準確率提升約0.4% ,其原因在于中心正則化損失將目標各個部位的位置誤差計入損失函數(shù),通過矯正各部位的位置信息使得目標定位更精準,加強了提取特征的準確度,從而提升了模型的分類性能。
3.6 數(shù)據(jù)可視化
為直觀展現(xiàn)注意力增強分支的裁剪與擦除圖像的應用效果,并展現(xiàn)提出的干預注意力引導的數(shù)據(jù)增強網(wǎng)絡的圖像注意力關注區(qū)域,對于輸入圖像的自然注意力圖與干預注意力圖及本文方法的裁剪圖像與擦除圖像及其對應的注意力圖采用可視化方法。實驗在CUB-200-2011鳥類公開數(shù)據(jù)集上進行,骨干模型采用ResNet50,可視化熱力圖如圖6所示。
觀察自然注意力圖可知,網(wǎng)絡更多地將關注集中在鳥的頭部和身體等關鍵性識別區(qū)域,這有助于網(wǎng)絡學習到更關鍵的區(qū)分區(qū)域,可以幫助其理解在處理任務時的關注重點,從而使模型的優(yōu)化和改進方向更為明確,有助于提升模型性能。觀察干預注意力圖發(fā)現(xiàn),其關注區(qū)域較為分散,其作用在于幫助模型更好地學習圖像的規(guī)律和特征,去除網(wǎng)絡學習的冗余信息,增強注意力學習質量,提升模型的泛化能力和魯棒性。觀察裁剪圖像及其注意力圖可知,裁剪圖像范圍更多集中在對分類更有效的目標區(qū)域,在注意力圖中可以看到網(wǎng)絡能夠從中找到更重要的特征,將其加入訓練過程,有助于網(wǎng)絡學習更加細微的特征。觀察擦除圖像及其注意力圖,可以發(fā)現(xiàn)擦除圖像將圖像中比較有辨識性的區(qū)域進行擦除,從而促使模型學習到某些更為隱藏性的特征,加強對圖像中區(qū)分性特征學習的全面性。注意力引導的裁剪與擦除技術可以有效地防止模型過度依賴數(shù)據(jù)中的局部特征,促使模型學習更加全局和抽象的特征表示,從而提升模型的性能。
3.7 可視化圖對比
為有效對比本文方法與基線方法,將兩種方法在網(wǎng)絡關注區(qū)域的注意力圖進行可視化,實驗在CUB-200-2011鳥類公開數(shù)據(jù)集上進行,可視化熱力圖對比如圖7所示。本文模型采用以ResNet50為骨干模型結合注意力引導數(shù)據(jù)增強的方法,與基線方法進行比對,可觀察到本文方法的注意力圖將關注區(qū)域更多聚焦到檢測目標中,同時將關注區(qū)域更分散地體現(xiàn)于目標區(qū)域中,可有效降低網(wǎng)絡對某些關鍵性區(qū)域的過分依賴,減少復雜背景對檢測準確度的影響。最終,該方法幫助網(wǎng)絡準確地監(jiān)測目標特征,取得更加有效的細節(jié)區(qū)域,為提升網(wǎng)絡分類精度提供重要的幫助。
4結論
提出了一種新的干預注意力引導的數(shù)據(jù)增強方法,在細粒度圖像分類任務中,干預注意力能夠有效引導網(wǎng)絡學習圖像關鍵判別性特征,挖掘數(shù)據(jù)間關聯(lián)性,提高模型的學習效率和泛化能力,并為人類理解網(wǎng)絡訓練過程提供良好的實驗示例。設計的標簽平滑損失函數(shù)以及中心正則化損失函數(shù)能夠有效提升模型分類精度。最終實驗結果表明,本文方法相較其他細粒度分類方法,在分類準確率上具有一定提升,但本文方法在訓練速度上還存在一定的不足。今后的研究可考慮一些更加輕量化的方法,通過減少參數(shù)量,使訓練速度得到一定程度的提升??蓢L試結合更高級的可解釋性模型,以提高模型解釋的準確性和可信度。另外,該方法可用于增強注意力學習質量,降低數(shù)據(jù)集偏差帶來的影響。將其應用于各種細粒度圖像識別任務,具有良好的泛化性
參考文獻:
[1]白尚旺,王夢瑤,胡靜,等.多區(qū)域注意力的細粒度圖像 分類網(wǎng)絡[J].計算機工程,2024,50(1):271-278.
[2] ZHANG N, DONAHUE J,GIRSHICK R, et al. Part-based R-CNNsfine-grainedcategorydetection[C]/ Procedings the l3th European Conference on Vision. Zurich: Springer, 2014: 834-849.
[3] CHEN G Y, LU J W, YANG M, et al. Learning recurrent 3D attention video-based person re-identification[J]. IEEE Transactionson Image Processing,2020,29: 6963-6976.
[4]PARK S, KWAK N. Analysis on the dropout effect in convolutional neural networks[C]//Proceedings the l3th Asian Conference on Vision. Taipei, : Springer, 2017: 189-204.
[5]DEVRIES T, TAYLOR G W. Improved regularization convolutional neural networks with cutout [DB/OL]. (2017-08-15)[2024-01-08].https://rxiv.org/abs/1708. 04552.
[6] WAH C, BRANSON S, WELINDER P, et al. The CaltechUCSD birds-200-2011 dataset[R]. Pasadena: Calinia Institute , 2011.
[7] KRAUSE J, STARK M, DENG J, et al. 3D object representationsfine-grainedcategorization[C]/ Proceedings 2013 IEEE International Conference on Vision Workshops. Sydney: IEEE,2013: 554-561.
[8]MAJI S, RAHTU E, KANNALA J, et al. Fine-grained visual classification aircraft [DB/OL]. (2013-06-21) [2024-01-08]. https://arxiv.org/abs/1306.5151.
[9]LIU X, XIA T, WANG J,et al. Fully convolutional attention networks fine-grained recognition [DB/OL]. (2016-03-22)[2024-01-08].htps://rxiv.0rg/abs/1603. 06765.
10]LIN T Y, ROYCHOWDHURY A, MAJI S. Bilinear CNN models fine-grained visual recognition[C]/Proceedings 2015 IEEE International Conference on Vision. Santiago: IEEE, 2015: 1449-1457.
11] WANG Y X, LI G J, MA L. A sparse focus framework visual fine-grained classification[J]. Multimedia Tools Applications, 2021, 80(16): 25271-25289.
12]譚潤,葉武劍,劉怡俊.結合雙語義數(shù)據(jù)增強與目標定位 的細粒度圖像分類[JI.計算機工程,2022.48(2): construction learning fine-grained image recognition[C]//Proceedings 2019 IEEE/CVF Conference on Vision Pattern Recognition. Long Beach: IEEE, 2019: 5152-5161.
[14]LI GJ, WANG Y X, ZHUF T.Multi-branch channel-wise enhancement network fine-grained visual recognition[C]//Proceedings the 29th ACM International Conference on Multimedia. New York: ACM, 2021: 5273-5280.
[15] DU R Y, CHANG D L, BHUNIA A K, et al. Fine-grained visual classification via progressive multi-granularity training jigsaw patches[C]//Proceedings the 16th European Conference on Vision. Glasgow: Springer, 2020: 153-168.
[16] ZHENG H L,F(xiàn)U JL,MEI T,et al. Learming multiattention convolutional neural network fine-grained imagerecognition[C]//Proceedings2017IEEE International Conference on Vision. Venice: IEEE,2017: 5219-5227.
[17] SUN M, YUAN Y C, ZHOU F, et al. Multi-attention multiclassconstraint fine-grained image recognition [C]//Proceedings the 15th European Conference on Vision. Munich: Springer, 2018: 834-850.
[18]江雨燕,陶承鳳,李平.數(shù)據(jù)增強和自適應自步學習的深 度子空間聚類算法[J].計算機工程,2023,49(8): 96-103,110.
[19] SINGH K K, LEE Y J. Hide--seek: cing a network to be meticulous weakly-supervised object action localization[C]/Proceedings 2017 IEEE International Conference on Vision. Venice: IEEE,2017: 3544-3553.
[20] GONG C Y, WANG D L, LI M, et al. KeepAugment: a simpleinmation-preservingdata augmentation approach[C]/Proceedings 2021 IEEE/CVF Conference on Vision Pattern Recognition. Nashville: IEEE,2021: 1055-1064.
[21] CUBUK E D, ZOPH B, MANE D, et al. AutoAugment: learning augmentation strategies from data[C]//Proceedings 2019 IEEE/CVF Conference on Vision Pattern Recognition. Long Beach: IEEE, 2019: 113-123.
[22]NAIMI A I. Tyler J VerWeele. Explanation in causal inference: methods mediation interaction[J]. European Journal Epidemiology, 2016,31(10): 1065-1066.
[23]HU J, SHENL, SUN G. Squeeze--excitation networks[C]//Proceedings 2018 IEEE/CVF Conference on Vision Pattern Recognition. Salt Lake City:IEEE,2018:7132-7141.
[24]FUJL,ZHENG HL,MEI T.Look closer to see better: recurrent attention convolutional neural network finegrained image recognition[C]//Proceedings 2017 IEEE Conference on Vision Pattern Recognition Honolulu:IEEE,2017:4476-4484.
[25]王陽,劉立波.面向細粒度圖像分類的雙線性殘差注意 力網(wǎng)絡[J].激光與光電子學進展,2020,57(12):121011.
[26]HUANG S L, WANG X C, TAO D C. SnapMix: semantically proportional mixing augmenting finegrained data[C]//Proceedings the 35th AAAI Conference onArtificial Intelligence. Palo Alto: AAAI, 2021: 1628-1636.
[27] WANG Y M, MORARIU V I, DAVIS L S. Learning a discriminative filter bank within a CNN fine-grained recognition[C]//Proceedings 2018 IEEE/CVF Conference on Vision Pattern Recognition. Salt Lake City:IEEE,2018: 4148-4157.
[28] YANG Z, LUO T G, WANG D, et al. Learning to navigate fine-grained classification[C]//Proceedings the 15th European Conference on Vision. Munich: Springer, 2018: 438-454.
[29] LUO W, YANG X T, MO X J, et al. Cross-X learning fine-grained visual categorization[C]//Proceedings 2019 IEEE/CVF International Conference on Vision. Seoul:IEEE,2019:8241-8250.
[30]DING Y, ZHOU Y Z, ZHU Y,et al. Selective sparse samplingfine-grainedimagerecognition[C]// Proceedings 2019 IEEE/CVF International Conference on Vision. Seoul:IEEE,2019:6598-6607.
[31] SUN G L, CHOLAKKAL H, KHAN S, et al. Fine-grained recognition: accounting subtle differences between similarclasses[C]//Proceedings the 34thAAAI Conference on Artificial Intelligence. Palo Alto: AAAI, 2020:12047-12054.
[32] ZHUANG P Q, WANG Y L, QIAO Y. Learning attentive pairwise interaction fine-grained classification[C]// Proceedings the 34th AAAI Conference on Artificial Intelligence.PaloAlto:AAAI,2020:13130-13137.
(編輯:董偉)