彭耀葵 呂友成
(1、廣東工業(yè)大學(xué),廣東 廣州510000 2、廣州星海集成電路基地有限公司,廣東 廣州510000)
細(xì)粒度圖像的分類目的在于區(qū)分具有細(xì)微視覺差異的從屬類別,比傳統(tǒng)粗粒度圖像分類更加具有挑戰(zhàn)性。其挑戰(zhàn)主要有以下方面:(1)圖像之間的特征差異較小,判別性的特征更加細(xì)微。例如:需要根據(jù)鳥羽毛的一部分的顏色來確定類別。(2)訓(xùn)練數(shù)據(jù)集信息有限,僅使用其所屬的類別,而沒有人工的標(biāo)注框等信息。
細(xì)粒度圖像分類的關(guān)鍵步驟是從圖片中提取出最顯著的局部特征。如果特征區(qū)域是手動(dòng)標(biāo)記的,則將花費(fèi)額外的時(shí)間和經(jīng)濟(jì)成本,因此可以考慮使用弱監(jiān)督方法。此外,單純的卷積網(wǎng)絡(luò)很難處理細(xì)粒度的分類問題,因此使用想辦法找出需要注意的區(qū)域。數(shù)據(jù)增強(qiáng)是訓(xùn)練常用方法,可用于防止數(shù)據(jù)過擬合和改善模型的性能。許多常用的數(shù)據(jù)增強(qiáng)方法使用隨機(jī)方法,例如隨機(jī)圖像裁剪、旋轉(zhuǎn)、放大,可能使目標(biāo)適合我們的需求,但是會(huì)引入嘈雜的目標(biāo)或背景信息。因此,我們?cè)O(shè)計(jì)了一個(gè)以注意力為導(dǎo)向的數(shù)據(jù)增強(qiáng)模塊,可以實(shí)現(xiàn)更好的分類效果,該方法可實(shí)現(xiàn)比當(dāng)前最新方法好的效果。
弱監(jiān)督學(xué)習(xí)不需要借助附加的人工標(biāo)注信息[1],降低了人工的工作量,同時(shí)在濾去背景等噪聲干擾之后,網(wǎng)絡(luò)可以提取出人類考慮不到的區(qū)域特征,從而提高了網(wǎng)絡(luò)的分類精度。常見的方法有以下幾種:
雙線性CNN 算法[2],該方法依賴于兩個(gè)特征提取器的連接,兩個(gè)特征提取器的輸出在圖像的每個(gè)位置使用外部乘積相乘,然后得到最后的結(jié)果。關(guān)鍵是使用二階統(tǒng)計(jì)信息來融合來自不同渠道的信息,實(shí)現(xiàn)細(xì)粒度分類。
但是,由于原始雙線性池的導(dǎo)致其高維性,Gao 等人提出的CBP 緊湊型雙線性池化的方法,該方法使用Tensor Sketch 投影和Random Maclaurin 投影來極大地減小尺寸而不會(huì)降低精度。
WSDAN[3]的作者從特征圖通道之間的局部特征的交互作用提出了一種雙線性注意力集中機(jī)制(BAP),以提高它們的表示能力。但是,在WSDAN 網(wǎng)絡(luò)中的閾值是人為設(shè)計(jì)的固定值,該值具有很大的隨意性,導(dǎo)致預(yù)測結(jié)果不盡人意。
本文提出新的方法就是基于圖像二值化設(shè)計(jì)了一個(gè)閾值,以便每個(gè)圖片根據(jù)其自身的特征使用相應(yīng)的閾值范圍。下面詳細(xì)介紹所我們提出的網(wǎng)絡(luò)結(jié)構(gòu),包括弱監(jiān)督學(xué)習(xí)的注意力圖,注意力圖指導(dǎo)的圖像數(shù)據(jù)增強(qiáng)和分類的損失函數(shù)設(shè)計(jì)。對(duì)于每個(gè)輸入圖像,設(shè)計(jì)一個(gè)弱監(jiān)督學(xué)習(xí)網(wǎng)絡(luò)以生成相應(yīng)的注意力圖,以表示目標(biāo)的最大區(qū)別特征,然后通過基于注意力圖的數(shù)據(jù)增強(qiáng)方法對(duì)其進(jìn)行裁剪或放大,最后通過網(wǎng)絡(luò)以獲取最終分類結(jié)果。該過程如圖1 所示。
圖1 本文構(gòu)建的模型結(jié)構(gòu)圖
獲取弱監(jiān)督學(xué)習(xí)的注意力圖的方法具體如下:我們使用resnet50 深度卷積神經(jīng)網(wǎng)絡(luò)作為骨干網(wǎng)絡(luò),在為每個(gè)訓(xùn)練圖像提取基本特征圖之后,繼而生成相應(yīng)的注意力圖,以表示圖像的最顯著特征部分。通過使用注意力圖,我們?cè)O(shè)計(jì)出更加靈活的網(wǎng)絡(luò)結(jié)構(gòu),并且可以更輕松地實(shí)現(xiàn)細(xì)粒度分類的端到端訓(xùn)練。
受雙線性池化的網(wǎng)絡(luò)模型的啟發(fā),我們?cè)O(shè)計(jì)了網(wǎng)絡(luò)結(jié)構(gòu)的第二部分。每個(gè)注意力圖代表目標(biāo)圖像的特定部分,將獲得的特征圖和注意圖的元素相乘,然后使用卷積處理局部特征圖,最后結(jié)合每個(gè)局部特征圖以獲得特征矩陣。
傳統(tǒng)隨機(jī)的數(shù)據(jù)增強(qiáng)效率非常低,特別是如果圖像中的可判別性區(qū)域在整個(gè)圖片中所占的比例較小,則會(huì)導(dǎo)致更多的背景噪聲,因此使用注意力圖進(jìn)行圖像增強(qiáng)[4]。除此之外,物體在不同的圖像中占有不同的比例。因此,我們讓圖像本身確定自己的閾值,而不是使用手動(dòng)設(shè)計(jì)的值來調(diào)整閾值。自適應(yīng)二值化閾值算法用于獲取整個(gè)圖像的平均值,并將其用作基準(zhǔn)。這樣,我們可以獲得針對(duì)不同圖像的最合適的圖像增強(qiáng)。裁剪大于基準(zhǔn)的區(qū)域以獲取關(guān)鍵區(qū)域,并在該區(qū)域上使用弱監(jiān)督學(xué)習(xí)來生成注意力圖,以表示目標(biāo)的顯著特征,我們稱之為裁剪注意力。另外,我們添加了一個(gè)輔助分支,丟棄具有更高基準(zhǔn)的區(qū)域并使用左側(cè)的部分,以便網(wǎng)絡(luò)可以學(xué)習(xí)非關(guān)鍵區(qū)域的某些功能,從而生成次要關(guān)注地圖,我們將其稱為掉落注意力。結(jié)合這兩個(gè)分支,我們的圖像增強(qiáng)功能可以有效地提取圖像中最有用的區(qū)域特征。
在圖2 中可以看到聚焦細(xì)節(jié)的圖像。第一張圖片是原始圖片,第二張圖片是經(jīng)過設(shè)計(jì)的蒙版處理后獲得的圖像,可以看出主要部分和背景部分是可區(qū)分的。第三張圖片是在注意力圖指導(dǎo)下進(jìn)行數(shù)據(jù)增強(qiáng)后獲得的圖像,紅色部分是特征信息最明顯的區(qū)域。
圖2 從左到右分別是原始圖像、蒙版生成圖像和細(xì)節(jié)聚焦圖像
受焦點(diǎn)損失的啟發(fā)[5],我們將標(biāo)準(zhǔn)的交叉熵?fù)p失與焦點(diǎn)損失的結(jié)果結(jié)合在一起。通過減少易于分類的樣本的權(quán)重,該模型可以將更多的注意力集中在訓(xùn)練過程中難以分類的樣本上。通過控制兩個(gè)部分的不同比例,網(wǎng)絡(luò)可以適應(yīng)更多的數(shù)據(jù)集。焦點(diǎn)損失函數(shù)的表示如公式(1)所示。
同時(shí),中心損失[6]功能被引入到我們的網(wǎng)絡(luò)中。在特征圖中為訓(xùn)練集的每個(gè)類別維護(hù)一個(gè)班級(jí)中心。在訓(xùn)練過程中,網(wǎng)絡(luò)映射后,特征圖中的樣本與類中心之間的距離約束增加,以達(dá)到更好的分類效果。中心損失函數(shù)的表示如公式(2)所示。
這兩個(gè)損失函數(shù)的比例由超參數(shù)β 控制,本文設(shè)計(jì)調(diào)整不同數(shù)據(jù)集的β 值以獲得最佳結(jié)果,模型整體的損失函數(shù)的表示如公式(3)所示。
在本節(jié)中,我們進(jìn)行了許多實(shí)驗(yàn)和比較,以證明模型的準(zhǔn)確性。分別從實(shí)驗(yàn)數(shù)據(jù)集、實(shí)驗(yàn)環(huán)境和實(shí)驗(yàn)結(jié)果進(jìn)行了分析。
CUB-200-2011 鳥類數(shù)據(jù)集包括200 種鳥類,有5994 個(gè)訓(xùn)練圖像和5794 個(gè)測試圖像。Stanford-Cars 汽車數(shù)據(jù)集有16185張不同型號(hào)的汽車圖片,訓(xùn)練集8144 張、測試集8041 張。FGVC-Aircraft 飛機(jī)數(shù)據(jù)集包含10200 架飛機(jī)圖像,102 個(gè)類別,每類100 幅圖像。
實(shí)驗(yàn)環(huán)境基于Ubuntu16.04 操作系統(tǒng),CPU 為Inteli7-9700,GPU 為NVIDIA RTX2080,運(yùn)行內(nèi)存16G。該模型采用在ImageNet 上經(jīng)過預(yù)訓(xùn)練的Resnet50 模型為基本網(wǎng)絡(luò)。刪除了原始的完全連接層,并添加卷積層、下采樣層和特征提取層以提取感興趣的區(qū)域,使用自定義蒙版生成圖像區(qū)域關(guān)注圖。權(quán)重衰減和動(dòng)量分別設(shè)置為1×10-5和0.9,學(xué)習(xí)速率初始值設(shè)置為0.001,衰減速率為0.9。
本文的方法與上述細(xì)粒度圖像分類數(shù)據(jù)集上的最新方法進(jìn)行比較,結(jié)果如表1 所示??梢钥闯?本文的網(wǎng)絡(luò)體系結(jié)構(gòu)對(duì)這些數(shù)據(jù)集都實(shí)現(xiàn)了最佳分類效果。
表1 實(shí)驗(yàn)結(jié)果在三個(gè)不同的數(shù)據(jù)集上與最新方法的比較
從表1 可看出:(1)本文網(wǎng)絡(luò)結(jié)構(gòu)優(yōu)于許多使用附加圖像注釋的強(qiáng)監(jiān)督方法,模型無需其它人工標(biāo)注信息;(2)本文方法優(yōu)于大多數(shù)其它弱監(jiān)督方法,能更準(zhǔn)確獲得圖像顯著區(qū)域。
本文提出了一種基于注意力機(jī)制下圖像增強(qiáng)的弱監(jiān)督細(xì)粒度圖像分類端到端網(wǎng)絡(luò)。弱監(jiān)督分類網(wǎng)絡(luò)生成注意力圖,注意力機(jī)制能夠引導(dǎo)圖像的增強(qiáng),從而使網(wǎng)絡(luò)獲得更好的分類結(jié)果。這兩個(gè)模塊進(jìn)行交互,以使網(wǎng)絡(luò)模型可以獲得更多的局部顯著性特征信息,并確保分類結(jié)果更高的準(zhǔn)確性。