范九丹
摘要:在細粒度識別任務(wù)中,良好標(biāo)注的訓(xùn)練數(shù)據(jù)難于獲取,現(xiàn)有強注釋的數(shù)據(jù)集數(shù)量少,由于細粒度圖像背景復(fù)雜、子類別圖像差異細微等問題,導(dǎo)致現(xiàn)有細粒度識別模型精度不高。為此,使用具有圖像級標(biāo)簽的免費網(wǎng)絡(luò)圖像作為訓(xùn)練數(shù)據(jù),設(shè)計了一種融合注意力機制的網(wǎng)絡(luò)監(jiān)督細粒度識別模型。首先引入瓶頸注意力機制有效提高網(wǎng)絡(luò)的表征能力,準(zhǔn)確聚焦前景識別主體,減少了背景特征的影響。實驗結(jié)果表明,提出的模型在Web-Bird(鳥類數(shù)據(jù)集)、Web-Cars(汽車數(shù)據(jù)集)、Web-Aircraft(飛機數(shù)據(jù)集)三個數(shù)據(jù)集上的ACA指標(biāo)分別達到82.8%、88.1%和83.1%,在同類型算法中處于領(lǐng)先水平。
關(guān)鍵詞:細粒度識別;注意力機制;深度學(xué)習(xí);殘差網(wǎng)絡(luò)
一、前言
細粒度圖像分類(Fine-grained image categorization)屬于圖像分類范疇[1],旨在對粗粒度大的圖像進行更細致的子類別的細分。因其在智慧城市、商品識別、公共安全、生態(tài)保護等領(lǐng)域具有重要的科學(xué)意義和應(yīng)用價值。不同于普通的圖像分類任務(wù),細粒度子類別受到微小的類間差異[2]和較大的類內(nèi)差異以及雜亂背景特征的影響。深度學(xué)習(xí)在圖像中得到的特征具有更強的表達能力,因此在細粒度圖像分類上被廣泛應(yīng)用。當(dāng)前基于深度學(xué)習(xí)的細粒度分類方法可以大致分為三類:強監(jiān)督方法、弱監(jiān)督方法和半監(jiān)督方法。強監(jiān)督方法首先檢測關(guān)鍵零件,然后集成零件特征作為細粒度分類的最終視覺表示。不僅需要圖像級標(biāo)簽,還需要手動注釋的邊界框或零件注釋。由于細粒度類別的手動注釋耗時且需要專家性意見,實用性和擴展性受到限制。弱監(jiān)督方法不再使用邊界框和零件標(biāo)注,只需要在訓(xùn)練期間使用圖像級別的標(biāo)簽。例如,朱陽光等[3]提出一種聯(lián)合殘差網(wǎng)絡(luò)(Residual network,Resnet)和Inception網(wǎng)絡(luò)通過優(yōu)化卷積神經(jīng)網(wǎng)絡(luò)提高捕捉細粒度特征的能力。藍潔等[4]根據(jù)Tensor Sketch算法計算出多組來自不同通道卷積層的雙線性特征向量進行融合學(xué)習(xí)細粒度鳥類的特征信息。盡管如此,弱監(jiān)督組方法仍然需要大量正確的圖像級別標(biāo)簽。半監(jiān)督方法涉及利用網(wǎng)絡(luò)圖像訓(xùn)練細粒度分類模型。例如,Xu等人[5]提出利用詳細的注釋,并將盡可能多的知識從現(xiàn)有的強監(jiān)督數(shù)據(jù)集轉(zhuǎn)移到弱監(jiān)督網(wǎng)絡(luò)圖像,以實現(xiàn)細粒度識別。Niu等人[6]提出了一種新的學(xué)習(xí)場景,該場景只需要專家標(biāo)記一些細粒度的子類別,然后借助網(wǎng)絡(luò)圖像預(yù)測所有剩余的子類別。半監(jiān)督方法涉及各種形式的人工干預(yù),可擴展性相對有限。
本文使用網(wǎng)絡(luò)監(jiān)督方法解決細粒度問題,利用網(wǎng)絡(luò)上的免費數(shù)據(jù)訓(xùn)練細粒度的分類模型。網(wǎng)絡(luò)圖像標(biāo)簽通常源于自動標(biāo)記系統(tǒng)或非專家注釋,存在大量標(biāo)簽噪聲。標(biāo)簽噪聲分為“類內(nèi)噪聲”和“類外噪聲”兩種。類內(nèi)噪聲圖片的真實標(biāo)簽包含在訓(xùn)練數(shù)據(jù)集的已知子類別中(參見圖1中帶有邊界框的圖像)。類外噪聲圖片與訓(xùn)練數(shù)據(jù)集完全無關(guān),它們的真實標(biāo)簽不屬于所在數(shù)據(jù)集中任一子類標(biāo)簽(參見圖1中帶有紫色邊界框的圖像)。為解決樣本圖像中大量標(biāo)簽噪聲、背景特征干擾導(dǎo)致的識別效果不理想等問題,主要進行了如下工作:①在特征提取階段引入瓶頸注意力模塊,解決由背景特征干擾造成的識別能力弱的問題。②采用基于確定性的可重用樣本選擇和校正方法,利用額外的可重復(fù)使用樣本。③在三個流行的基準(zhǔn)細粒度數(shù)據(jù)集Web-Bird(鳥類數(shù)據(jù)集)、Web-Cars(汽車數(shù)據(jù)集)、Web-Aircraft(飛機數(shù)據(jù)集)上進行測試和評估,結(jié)果在同類型算法中處于領(lǐng)先水平。
二、模型框架
本文使用的基于瓶頸注意力機制的網(wǎng)絡(luò)監(jiān)督細粒度識別模型如圖2所示。本文選取ResNet-50[7]作為特征提取網(wǎng)絡(luò),引入瓶頸注意力機制,提高網(wǎng)絡(luò)的表征能力。首先,特征提取網(wǎng)絡(luò)預(yù)測每個圖像的標(biāo)簽,生成標(biāo)簽預(yù)測歷史并計算每個圖像的損失。然后,篩選模塊對圖像損失值排序,選出一部分低損失的圖像。接著,重用模塊對剩下的高損失圖像計算預(yù)測確定性并排序,選擇預(yù)測確定性大的樣本作為可重用樣本,并且利用預(yù)測歷史修改它們的標(biāo)簽。最后,利用以上步驟得到的兩部分訓(xùn)練樣本來優(yōu)化模型。下面將詳細介紹網(wǎng)絡(luò)中的各個部分。
(一)瓶頸注意力機制
1.通道注意力分支
2.空間注意力分支
3.注意力分支合并
(二)樣本選擇及校正
1.基于確定性的可用樣本選擇
2.基于預(yù)測歷史的標(biāo)簽修正
三、實驗結(jié)果及分析
(一)數(shù)據(jù)集
Web-Aircraft(飛機數(shù)據(jù)集)包含100個飛機類型的16,836張圖像:13,503張圖像用于訓(xùn)練,3,333張圖像用于測試。
Web-Bird(鳥類數(shù)據(jù)集)涵蓋了200種不同的鳥類子類別,總共包含24,182張圖像:18,388張用于訓(xùn)練,5794張用于測試。
Web-Cars(汽車數(shù)據(jù)集)包含196個汽車子類別,包括29,489張圖像:21,448張用于訓(xùn)練,8,041張用于測試。
(二)實驗條件
本文所有實驗均是在64位的Ubuntu16.04系統(tǒng)中進行,采用的深度學(xué)習(xí)框架為Pytorch,在訓(xùn)練過程中利用NVIDIA TESLA V100S顯卡進行加速,并且采用Python3.7編程語言完成代碼的編寫。網(wǎng)絡(luò)優(yōu)化過程采用SGD優(yōu)化器,動量為0.9。學(xué)習(xí)率、批量大小和權(quán)重衰減分別設(shè)置為0.01、64和0.0003。迭代訓(xùn)練110次,其中預(yù)熱時期迭代5次。瓶頸注意力中膨脹值d設(shè)為4,衰減率r設(shè)為16。
(三)評價指標(biāo)
本文采用平均分類準(zhǔn)確率(Average Classification Accuracy,ACA)作為評價指標(biāo),分類準(zhǔn)確率表示正確分類的樣本數(shù)量占數(shù)據(jù)集所有樣本數(shù)量的比例,計算得出五次實驗的平均分類準(zhǔn)確率。
(四)模型有效性驗證
為驗證瓶頸注意力模塊在特征提取過程中發(fā)揮的作用,本文在數(shù)據(jù)集上進行了有無瓶頸注意力模塊的實驗對比,如表1所示。由表1可以看出,BAM在Web-Bird、Web-Cars、Web-Aircraft上的平均分類準(zhǔn)確率分別實現(xiàn)了1.3%、0.9%和0.4%的提升,證明BAM模塊可以進一步提高特征提取網(wǎng)絡(luò)的表征能力。
(五)模型先進性驗證
為驗證本文改進算法的先進性,與目前最新的3種算法對比結(jié)果如表2所示。表2為不同方法在Web-Bird、Web-Cars和Web-Aircraft數(shù)據(jù)集上的結(jié)果比較,本文算法的平均分類準(zhǔn)確率ACA指標(biāo)均高于目前先進的對比算法。
綜上所述,通過兩個方面的實驗分析證明,本文改進算法在三個數(shù)據(jù)集取得優(yōu)異的檢測性能,進而證明了本文算法的有效性和先進性。
四、結(jié)語
為應(yīng)對細粒度識別任務(wù)中難以獲取良好標(biāo)記的數(shù)據(jù)集問題,本文使用網(wǎng)絡(luò)監(jiān)督方法解決細粒度識別問題,通過網(wǎng)絡(luò)免費圖像訓(xùn)練細粒度網(wǎng)絡(luò)。為解決網(wǎng)絡(luò)監(jiān)督細粒度識別效果差的問題,本文設(shè)計了一種基于瓶頸注意力機制的網(wǎng)絡(luò)監(jiān)督細粒度模型。針對復(fù)雜背景導(dǎo)致圖像前景特征提取不準(zhǔn)確的問題,引入了瓶頸注意力機制,有效增加特征提取過程中重要特征的權(quán)重,強化網(wǎng)絡(luò)對于有用特征信息的利用。本文提出的改進算法在各個指標(biāo)上的結(jié)果均較為理想,為后續(xù)網(wǎng)絡(luò)監(jiān)督細粒度識別工作奠定了較好的基礎(chǔ)。今后將進一步針對解決數(shù)據(jù)集標(biāo)簽噪聲相關(guān)工作進行研究,提高標(biāo)簽糾錯能力,使算法的識別效果得到進一步提升。
參考文獻
[1]羅建豪,吳建鑫.基于深度卷積特征的細粒度圖像分類研究綜述[J].自動化學(xué)報,2017,43(8):1306-1318.
[2]魏秀參.深度學(xué)習(xí)下細粒度級別圖像的視覺分析研究[D].南京:南京大學(xué),2018.
[3]朱陽光,劉瑞敏,黃瓊桃.基于深度神經(jīng)網(wǎng)絡(luò)的弱監(jiān)督信息細粒度圖像識別[J].電子測量與儀器學(xué)報,2020,34(2):115-122.
[4]藍潔,周欣,何小海,等.基于跨層精簡雙線性網(wǎng)絡(luò)的細粒度鳥類識別[J].科學(xué)技術(shù)與工程,2019,19(36):240-246.
[5]Zhe X,Huang S,Zhang Y,et al.Augmenting Strong Supervision Using Web Data for Fine-Grained Categorization[C]//IEEE International Conference on Computer Vision.IEEE,2015.
[6]Niu L,Veeraraghavan A,Sabharwal A.Fine-grained Classification using Heterogeneous Web Data and Auxiliary Categories:10.48550/arXiv.1811.07567[P].2018.
[7]He K,Zhang XY,Ren SQ,et al.Deep residual learning for image recognition[C]//Proceedings of the IEEE conference on computer vision and pattern recognition. Las Vegas: IEEE,2016.
[8]Park J,Woo S, Lee JY,et al.BAM: Bottleneck Attention Module:10.48550/arXiv.1807.06514[P].2018.
[9]Sun Z,Yao Y,Wei XS,et al.Webly Supervised Fine-Grained Recognition: Benchmark Datasets and An Approach:10.48550/arXiv.2108.02399[P].2021.
[10]Liu H,Zhang C,Yao Y,et al.Exploiting Web Images for Fine-Grained Visual Recognition by Eliminating Open-Set Noise and Utilizing Hard Examples[J].IEEE transactions on multimedia,2022(24):546-557.
[11]Sun Z,Hua XS,Yao Y,et al.Salvage Reusable Samples from Noisy Data for Robust Learning[J].2020.
作者單位:哈爾濱工程大學(xué)信息與通信工程學(xué)院