劉萬軍,趙思琪,曲海成,王宇萍
(遼寧工程技術(shù)大學(xué) 軟件學(xué)院,遼寧 葫蘆島 125105)
如何讓機(jī)器分辨出不同狗的種類?[1]這是一 個(gè)很常見的問題。由于狗的物理結(jié)構(gòu)特征相似,因此要找到每只狗的局部細(xì)微特征才能正確區(qū)分不同狗的種類。在計(jì)算機(jī)視覺研究中的細(xì)粒度圖像分類就是解決識(shí)別不同子類間的類別問題,如分辨鳥的種類[2]和飛機(jī)的型號(hào)[3]。
細(xì)粒度圖像分類的難點(diǎn)歸納為以下幾點(diǎn):1)類間差異小,屬于不同類別的對(duì)象除了一些細(xì)微的差別外,可能非常相似;2)類內(nèi)差異大,屬于同一類別的對(duì)象通常呈現(xiàn)不同的姿態(tài);3)具有多尺度特征。由于拍攝距離、角度以及目標(biāo)不同的姿態(tài),輸入圖像中的目標(biāo)比例會(huì)變化很大。
當(dāng)前針對(duì)細(xì)粒度圖像分類方法包括強(qiáng)監(jiān)督訓(xùn)練和弱監(jiān)督訓(xùn)練。強(qiáng)監(jiān)督細(xì)粒度圖像分類算法是指在訓(xùn)練模型時(shí),不僅使用了類別標(biāo)簽,而且還使用了額外的標(biāo)注信息。早期一些研究工作就是利用額外的人工部件標(biāo)注點(diǎn)和邊界框直接定位對(duì)象的關(guān)鍵語義部分(如鳥類的頭部、尾部和軀干等關(guān)鍵局部特征)。Zhang 等[4]提出的基于部件算法,通過選擇性搜索[5]產(chǎn)生關(guān)鍵部位(整體、頭部和身體區(qū)域)的候選框,利用R-CNN(regions with CNN)[6]完成對(duì)這些部位的檢測(cè),利用約束條件對(duì)提取的關(guān)鍵部位信息進(jìn)行修正,進(jìn)行卷積特征提取,將不同區(qū)域的特征進(jìn)行連接,最后通過支持向量機(jī)(support vector machine,SVM)分類器進(jìn)行分類訓(xùn)練。Branson 等[7]提出了姿態(tài)歸一化算法,對(duì)圖片先局部定位和特征提取,根據(jù)局部定位結(jié)果剪裁圖片,分別提取多層次的卷積特征,送入SVM 分類器進(jìn)行分類。但額外的手工標(biāo)注信息費(fèi)用昂貴,且容易出現(xiàn)局部語義信息的判斷錯(cuò)誤,導(dǎo)致分類性能下降,限制了細(xì)粒度算法應(yīng)用的可擴(kuò)展性[8]。因此在僅利用類別標(biāo)簽的前提下,用弱監(jiān)督的方式訓(xùn)練模型成為近期研究熱點(diǎn)[9]。
弱監(jiān)督細(xì)粒度圖像分類方法是學(xué)習(xí)輸入圖像和輸出標(biāo)簽之間的映射。一部分學(xué)者利用單階段方法直接學(xué)習(xí)對(duì)象的細(xì)粒度特征,Lin 等[10]提出了雙線性模型,使用兩個(gè)獨(dú)立的卷積神經(jīng)網(wǎng)絡(luò)計(jì)算成對(duì)的特征交互來捕獲圖像的局部差異,但是雙線性特征表示通常存在高維問題,增加了計(jì)算量,需要大量的訓(xùn)練樣本進(jìn)行擬合。還有一些學(xué)者關(guān)注如何定位物體的前景或語義部分,提取可區(qū)分性區(qū)域的特征。Zheng 等[11]提出了遞歸注意力卷積神經(jīng)網(wǎng)絡(luò)算法(recurrent attention convolutional neural network,RA-CNN),通過多分支的循環(huán)網(wǎng)絡(luò)逐步定位關(guān)鍵性局部區(qū)域,同時(shí)將該區(qū)域進(jìn)行剪裁放大,然后再在該放大的區(qū)域?qū)ふ遗袆e性特征,即在重點(diǎn)中尋找重點(diǎn)。但是RA-CNN 只學(xué)習(xí)到單一的判別性特征,忽略了其他語義特征。Zheng 等[12]提出了多注意力神經(jīng)網(wǎng)絡(luò)算法,通過通道分組損失函數(shù)產(chǎn)生用于聚類的多個(gè)局部區(qū)域。但局部語義區(qū)域的數(shù)量有限,存在細(xì)微且判別性特征丟失的問題。
弱監(jiān)督細(xì)粒度圖像分類方法已經(jīng)取得很大進(jìn)展,但是仍存在以下問題有待解決:
1)輸入圖片中的物體尺度變化。當(dāng)物體只占據(jù)輸入圖片的一小塊區(qū)域時(shí),在特征學(xué)習(xí)過程中,目標(biāo)特征很容易被背景抹去,降低分類準(zhǔn)確率。
2)細(xì)粒度圖像具有類內(nèi)差異大、類間差異小的特點(diǎn),因此只能借助于微小的局部差異才能區(qū)分出不同的子類別。
為此,本文提出了一種結(jié)合前景特征增強(qiáng)和區(qū)域掩碼自注意力的細(xì)粒度圖像分類方法。本文的主要工作:
1)提出前景特征增強(qiáng)模塊,消除背景噪音干擾和前景目標(biāo)多尺度變化對(duì)前景特征提取的影響,實(shí)現(xiàn)前景目標(biāo)增強(qiáng),有效突出前景;
2)提出區(qū)域掩碼自注意力模塊,利用掩碼機(jī)制的特性,遮擋激活映射圖的高響應(yīng)特征,從而使網(wǎng)絡(luò)關(guān)注局部細(xì)微特征,充分學(xué)習(xí)到不同子類間的局部差異性特征,挖掘出更多有用信息;
3)多分支損失函數(shù)的協(xié)同作用共同約束網(wǎng)絡(luò)的特征學(xué)習(xí)。
圖像中目標(biāo)檢測(cè)和目標(biāo)定位是計(jì)算機(jī)視覺中重要而又具有挑戰(zhàn)性的任務(wù)。目標(biāo)定位大致歸納為3 類:強(qiáng)監(jiān)督方法、弱監(jiān)督方法和無監(jiān)督方法。本文不介紹強(qiáng)監(jiān)督定位方法。
弱監(jiān)督物體定位用類別標(biāo)簽實(shí)現(xiàn)目標(biāo)定位,早期是用類激活映射(class activation mapping,CAM)[13]實(shí)現(xiàn)目標(biāo)定位,CAM 通過全局平均池化生成針對(duì)每一張圖片的激活映射圖,這個(gè)激活映射圖能反應(yīng)出物體的大致位置。但是用交叉熵?fù)p失函數(shù)訓(xùn)練模型時(shí),通常會(huì)使模型關(guān)注高響應(yīng)的局部區(qū)域而非整個(gè)目標(biāo),同時(shí)沒有充分利用淺層特征信息。Wei 等[14]對(duì)淺層和深層特征圖進(jìn)行元素相乘生成CAM,可以濾出背景噪音并同時(shí)生成更清晰的邊界。Sohn 等[15]提出了一種新穎的殘差細(xì)粒度注意方法,此方法通過利用分布在通道和特征圖中的位置信息,結(jié)合殘差操作,自動(dòng)激活對(duì)象的較少激活區(qū)域,生成目標(biāo)邊界框。Pan等[16]則充分利用卷積特性中包含的結(jié)構(gòu)信息,利用高階自相關(guān)提取模型中保留的固有結(jié)構(gòu)信息,聚合多個(gè)模型的高階自相關(guān)點(diǎn)實(shí)現(xiàn)精確定位。Zhang 等[17]提出了通過訓(xùn)練兩個(gè)對(duì)抗互補(bǔ)分類器來發(fā)現(xiàn)整個(gè)目標(biāo)的互補(bǔ)學(xué)習(xí)方法,該分類器可以定位不同目標(biāo)的部分,發(fā)現(xiàn)屬于同一目標(biāo)的互補(bǔ)區(qū)域。
無監(jiān)督目標(biāo)定位更具有挑戰(zhàn)性,因?yàn)樗恍枰粡垐D片實(shí)現(xiàn)前景目標(biāo)定位,不需要任何輔助信息。一些研究表明,卷積激活圖能夠同時(shí)表示空間信息和語義信息,并具有顯著的定位能力。Wei 等[18]提出了一種選擇性卷積描述子聚合方法(selective convolutional descriptor aggregation,SCDA),融合多層卷積特征實(shí)現(xiàn)目標(biāo)定位。然后,采用閾值策略定位細(xì)粒度圖像中的目標(biāo)。但是定位效果不理想,一些重要信息丟失。因此前景特征增強(qiáng)模塊是在SCDA 算法上引入上下文注意力增強(qiáng)像素的空間相關(guān)性,提高前景目標(biāo)的定位能力。
注意力機(jī)制是有選擇的關(guān)注重點(diǎn)數(shù)據(jù),而不是平等對(duì)待全部數(shù)據(jù)。注意力機(jī)制是通過神經(jīng)網(wǎng)絡(luò)自動(dòng)地學(xué)習(xí)特征的權(quán)重分布,并以“動(dòng)態(tài)加權(quán)”的方式施加在特征之上進(jìn)一步強(qiáng)調(diào)感興趣的區(qū)域,并同時(shí)抑制不相關(guān)背景區(qū)域。
掩碼注意力機(jī)制不同于普通的注意力機(jī)制,它是對(duì)被選擇的重點(diǎn)數(shù)據(jù)進(jìn)行遮掩,使網(wǎng)絡(luò)關(guān)注其他數(shù)據(jù)信息。通常來講,首先通過通道池化生成注意力圖,然后對(duì)注意力圖進(jìn)行歸一化操作,接近1 的像素點(diǎn)是判別性特征,反之是細(xì)微特征。掩碼注意力的應(yīng)用范圍很廣,在目標(biāo)定位、行人重識(shí)別、圖像分類、3D 點(diǎn)云上都有所應(yīng)用。
Qiao 等[19]使用掩碼注意力生成注意權(quán)重,分配給文本實(shí)例。它允許一個(gè)圖像中的不同文本實(shí)例被分配到不同的特征映射通道上,這些特征映射進(jìn)一步被分組為一批實(shí)例特征。Wang 等[20]通過預(yù)訓(xùn)練好的語義分割模型產(chǎn)生輔助監(jiān)督信號(hào),即掩碼注意力,實(shí)現(xiàn)了判別表示學(xué)習(xí)。這個(gè)掩碼注意力讓分類器過濾掉圖像中不重要的部分。Sun 等[21]利用掩碼注意力弱化高響應(yīng)區(qū)域的特征值,使模型可以挖掘出圖像中更有價(jià)值的區(qū)域。Li 等[22]通過變形卷積和掩碼注意力,將稀疏的特征映射到目標(biāo)區(qū)域,同時(shí)用掩碼注意力突出復(fù)雜背景下的目標(biāo)像素值。Xie 等[23]通過一個(gè)可見區(qū)域邊界框信息生成一個(gè)空間掩碼,同時(shí)調(diào)節(jié)由RoI(region of interest)層生成的多通道特征。這些掩碼有效地強(qiáng)化可見區(qū)域特征,隱藏模糊區(qū)域特征。Choe 等[24]通過對(duì)高響應(yīng)特征進(jìn)行掩碼遮擋,強(qiáng)化低響應(yīng)特征,有助于網(wǎng)絡(luò)關(guān)注輸出目標(biāo)的輪廓信息。
殘差網(wǎng)絡(luò)解決了網(wǎng)絡(luò)層數(shù)增加引起的梯度彌散或梯度爆炸問題。殘差網(wǎng)絡(luò)由一系列殘差塊組成,殘差塊有兩種,分別是恒等映射塊和卷積塊。其中恒等映射塊不改變維度,卷積塊改變特征維度。本文模型使用的是ResNet50。其中,conv2、conv3、conv4、conv5 分別有3、4、6、3 個(gè)殘差塊,每個(gè)殘差塊有2 個(gè)1×1 卷積和1 個(gè)3×3 卷積,conv2到conv5 有48 個(gè)卷積層,再加上conv1 層的7×7卷積層和3×3 最大池化層,共有50 個(gè)卷積層。
為了解決網(wǎng)絡(luò)在提取特征時(shí),會(huì)摻雜背景信息以及無法提取多樣化的局部區(qū)域特征等問題,本文提出了結(jié)合前景特征增強(qiáng)和區(qū)域掩碼自注意力網(wǎng)絡(luò)模型(foreground feature reinforcement and region mask attention,F(xiàn)FRMA)。FFRMA 整體框架如圖1 所示。
圖1 FFRMA 整體框架Fig.1 Overall framework of method FFRMA
由圖1 可以看出,F(xiàn)FRMA 框架主要由3 部分組成:1)前景特征增強(qiáng)模塊(foreground feature reinforcement,F(xiàn)FR),定位輸入圖片的前景目標(biāo),然后從原圖中剪裁前景目標(biāo)實(shí)現(xiàn)特征增強(qiáng);2)區(qū)域掩碼自注意力模塊(region mask attention,RMA),用來提取更多的多樣化局部細(xì)微且重要的特征;3)多分支損失函數(shù)約束網(wǎng)絡(luò)學(xué)習(xí)特征的能力。
FFRMA 是多分支網(wǎng)絡(luò)結(jié)構(gòu),使用同一個(gè)Res-Net50 作為特征提取網(wǎng)絡(luò),共享ResNet50 網(wǎng)絡(luò)的全部參數(shù)信息(圖1 中畫了兩個(gè)ResNet50 網(wǎng)絡(luò),但其實(shí)用的是同一個(gè)ResNet50)。首先將原圖送入預(yù)訓(xùn)練的ResNet50 提取全局特征,輸出卷積結(jié)果(圖1 分支a);然后將卷積結(jié)果和原圖送入前景特征增強(qiáng)模塊定位前景目標(biāo),將前景目標(biāo)放大到原圖尺寸,生成前景特征增強(qiáng)圖,有效避免背景信息的干擾,接下來把前景特征增強(qiáng)圖送入ResNet50進(jìn)行特征提取,輸出卷積結(jié)果(圖1 分支b);最后將卷積結(jié)果通過區(qū)域掩碼自注意力模塊學(xué)習(xí)到更多的微小但重要的細(xì)粒度特征(圖1 分支c)。整個(gè)過程以多分支損失函數(shù)約束特征學(xué)習(xí)。
在細(xì)粒度圖像分類任務(wù)中,使用邊界框裁剪目標(biāo)對(duì)象可以減少背景噪音,使目標(biāo)對(duì)象特征加強(qiáng)從而提高分類準(zhǔn)確率,但是人工標(biāo)注的邊界框信息代價(jià)過于昂貴。前景特征增強(qiáng)模塊解決的就是在僅有輸入圖片的前提下,利用卷積特征的分布響應(yīng)定位輸入圖片的前景目標(biāo),消除背景噪聲的干擾并同時(shí)對(duì)前景特征進(jìn)行增強(qiáng)。FFR 模型結(jié)構(gòu)如圖2 所示。
圖2 前景特征增強(qiáng)模型結(jié)構(gòu)Fig.2 Architecture of FFR
FFR 模塊在SCDA 算法上引入了上下文注意力(context attention,CA)。因?yàn)榫矸e運(yùn)算會(huì)導(dǎo)致局部感受野,前景目標(biāo)的一些局部細(xì)微特征存在一些差異,這種差異會(huì)造成類內(nèi)不一致性,即屬于前景目標(biāo)的局部細(xì)微特征被歸為背景區(qū)域,直接影響前景目標(biāo)的定位性能。因此CA 主要是在特征間建立全局空間的上下文關(guān)聯(lián),使用注意力機(jī)制捕獲特征圖任意兩個(gè)位置之間的空間依賴關(guān)系,減少類內(nèi)不一致性。CA 結(jié)構(gòu)如圖3 所示。
圖3 上下文注意力Fig.3 Context attention
假設(shè)F∈RC×H×W表示輸入圖像的最后一個(gè)卷積特征圖,其中C表示通道數(shù),空間大小為H×W。然后分別通過3 個(gè)1×1 卷積層得到3 個(gè)特征圖,對(duì)3 個(gè)特征圖進(jìn)行reshape 操作得到{B,C,D}∈RC×N,其中N=H×W,將BT與C進(jìn)行乘積運(yùn)算,利用Softmax 函數(shù)對(duì)結(jié)果進(jìn)行歸一化得到空間相關(guān)性矩陣S∈RN×N,表示為
式中:Sji表示i位置對(duì)j位置的影響,兩個(gè)位置的特征越相似,它們之間的相關(guān)性就越強(qiáng),即屬于同一個(gè)目標(biāo)。
D與空間相關(guān)性矩陣S進(jìn)行乘積運(yùn)算得到中間矩陣,將中間矩陣的空間形狀恢復(fù)到H×W,再與特征圖F∈RC×H×W相加得到上下文注意力矩陣E∈RC×H×W。矩陣E表示了長距離上下文的特征信息,增強(qiáng)了像素點(diǎn)間的空間相關(guān)性。E按通道方向進(jìn)行求和,得到激活圖A,具體為
式中fi表示第i個(gè)通道的激活圖。在不同通道維度上,局部特征具有不同激活響應(yīng)值。每一個(gè)通道對(duì)應(yīng)的激活圖學(xué)習(xí)到的細(xì)粒度局部區(qū)域特征都有所不同,對(duì)應(yīng)的最高響應(yīng)的區(qū)域也不同。因此,通過對(duì)激活圖A沿通道方向進(jìn)行聚合,將目標(biāo)出現(xiàn)的位置進(jìn)行響應(yīng)累加確定目標(biāo)的整體輪廓。為了準(zhǔn)確地定位物體,設(shè)置一個(gè)閾值(A的均值),定義為
不同的卷積特征映射對(duì)目標(biāo)具有不同的激活響應(yīng),因此FFR 將融合不同卷積層的特征值實(shí)現(xiàn)精確定位。假設(shè)layer4_2、layer4_3 分別是Res-Net50 網(wǎng)絡(luò)中的conv5 層的特征圖,通過式(4)獲得相應(yīng)的M(4,2)、M(4,3)。然后對(duì)M(4,2)、M(4,3)進(jìn)行 點(diǎn)乘獲得準(zhǔn)確的M。
細(xì)粒度物體通常處于M中最大的聯(lián)通分量中,因此使用包含最大聯(lián)通區(qū)域的最小邊界框作為定位對(duì)象的結(jié)果,再將結(jié)果調(diào)整為輸入圖像X的大小。
不同于通用圖像分類,細(xì)粒度圖像分類不僅需要關(guān)注全局語義特征還要關(guān)注區(qū)別于其他子類的局部細(xì)微特征,因此設(shè)計(jì)了區(qū)域掩碼自注意力模塊(region mask attention,RMA)。該模塊的整體結(jié)構(gòu)如圖4 所示。
圖4 區(qū)域掩碼自注意力模型結(jié)構(gòu)Fig.4 Structural diagram of RMA
RMA 通過自注意力圖產(chǎn)生兩個(gè)作用不同的特征矩陣,即掩碼矩陣Mmask和判別性矩陣Mdis,Mdis學(xué)習(xí)高響應(yīng)區(qū)域的特征,Mmask通過設(shè)置閾值抑制高響應(yīng)區(qū)域,使網(wǎng)絡(luò)關(guān)注局部細(xì)微特征,然后以均勻分布概率p隨機(jī)選擇特征矩陣,Mmask和Mdis的相互合作,可以讓網(wǎng)絡(luò)學(xué)習(xí)到不同的特征。
RMA 模塊的設(shè)計(jì)理念是為了提取所有對(duì)細(xì)粒度分類有用的特征信息,而不是只提取一些識(shí)別能力強(qiáng)的高響應(yīng)信息。此外,RMA 并沒有引入額外的參數(shù)開銷。
具體來講,RMA 首先通過通道平均池化,將輸入特征圖F∈RC×H×W映射到自注意力圖Matt,自注意力圖中每個(gè)像素的大小可以有效近似出目標(biāo)中判別性特征的空間分布。隨后,從自注意力圖中產(chǎn)生兩個(gè)分支,圖4 中分支a 通過閾值 γ抑制自注意力圖中的高響應(yīng)區(qū)域,得到掩碼特征矩陣Mmask,使網(wǎng)絡(luò)聚焦在除高響應(yīng)區(qū)域之外的局部細(xì)微特征。圖4 中分支b 用Sigmoid 函數(shù)對(duì)自注意力圖進(jìn)行歸一化得到判別特征矩陣Mdis,Mdis中接近1 的像素點(diǎn)代表判別性特征,通過對(duì)分支b 的訓(xùn)練可以讓網(wǎng)絡(luò)關(guān)注高響應(yīng)區(qū)域,學(xué)習(xí)判別性特征。分支a 和分支b 的協(xié)同合作,使得輸入圖像的所有有用特征都可以被模型學(xué)習(xí)。在每次迭代過程中,以均勻概率p隨機(jī)選擇分支a 或分支b,大于0.5 的概率選擇分支a,小于0.5 的概率選擇分支b。最后將隨機(jī)選擇的特征矩陣與輸入特征圖F進(jìn)行點(diǎn)乘得到輸出特征圖。圖4 中隨機(jī)選擇的是掩碼矩陣Mmask。
RMA 中有一個(gè)超參數(shù)是閾值 γ。自注意力圖中超過閾值 γ的區(qū)域視為高響應(yīng)區(qū)域。Mmask中像素值為0 代表高響應(yīng)區(qū)域,像素值為1 代表其他區(qū)域信息,Mmask表示為
為了使FFRMA 模型能夠充分有效地學(xué)習(xí)通過FFR 和RMA 獲得的圖像特征,設(shè)計(jì)了多分支損失函數(shù)。在訓(xùn)練階段,F(xiàn)FRMA 是一個(gè)由3 個(gè)分支組成的網(wǎng)絡(luò)結(jié)構(gòu),不同分支學(xué)習(xí)到的特征不一樣,圖1 中分支a 關(guān)注輸入圖片的整體特征;分支b 借助分支a 中原始圖像的特征映射獲取前景目標(biāo)的邊界框信息,裁剪邊界框并放大到輸入圖片的大小,實(shí)現(xiàn)特征增強(qiáng)。前景特征增強(qiáng)既包括目標(biāo)的結(jié)構(gòu)特征,又包括細(xì)粒度特征;分支c 抑制前景特征圖的判別性特征,使網(wǎng)絡(luò)充分學(xué)習(xí)到不同的局部細(xì)微多樣性特征。3 個(gè)分支使用交叉熵函數(shù)作為分類損失,分別表示為
式中:c表示輸入圖片的類別標(biāo)簽;Pr、Po、Pd分別代表3 個(gè)分支中最后一個(gè)Softmax 層輸出的類別概率??倱p失函數(shù)表示為
總損失函數(shù)是3 個(gè)分支損失函數(shù)之和,用以優(yōu)化模型在反向傳播時(shí)的性能。3 個(gè)分支損失函數(shù)的協(xié)同合作可以加快網(wǎng)絡(luò)模型的收斂速度和提高模型的特征學(xué)習(xí)能力。分支a 輸出原始圖片的粗粒度分類概率;分支b 獲得前景目標(biāo)的邊界框,從原始圖片裁剪相應(yīng)的區(qū)域并放大到原圖尺寸,將其送入網(wǎng)絡(luò)獲得細(xì)粒度預(yù)測(cè)概率。最終分類結(jié)果是對(duì)粗粒度分類結(jié)果和細(xì)粒度分類概率取平均值。
3.1.1 細(xì)粒度圖像數(shù)據(jù)集與預(yù)處理
為了證明本文方法的有效性,F(xiàn)FRMA 在3 個(gè)細(xì)粒度圖像數(shù)據(jù)集CUB-200-2011、FGVC-Aircraft 和Stanford Cars[25]上進(jìn)行評(píng)估。3 個(gè)數(shù)據(jù)集的詳細(xì)信息見表1。由于細(xì)粒度數(shù)據(jù)集中每一類樣本數(shù)量過少,可能在模型訓(xùn)練的時(shí)候出現(xiàn)欠擬合現(xiàn)象。因此,在訓(xùn)練FFRMA 模型之前對(duì)數(shù)據(jù)集進(jìn)行數(shù)據(jù)增強(qiáng)。具體數(shù)據(jù)增強(qiáng)方式如圖5 所示,圖(a)為原始圖片、圖(b)為縮放、圖(c)為水平翻轉(zhuǎn)、圖(d)為垂直翻轉(zhuǎn)、(e)圖為增強(qiáng)圖片顏色和對(duì)比度。其中,圖片的水平翻轉(zhuǎn)和垂直翻轉(zhuǎn)都是以概率0.5 進(jìn)行數(shù)據(jù)擴(kuò)充。
表1 數(shù)據(jù)集信息Table 1 Datasets information
圖5 3 個(gè)數(shù)據(jù)集中訓(xùn)練樣本的數(shù)據(jù)增強(qiáng)Fig.5 Data augmentation of training samples in three datasets
3.1.2 實(shí)驗(yàn)環(huán)境及參數(shù)設(shè)置
FFRMA 模型使用預(yù)訓(xùn)練的ResNet50 作為基礎(chǔ)網(wǎng)絡(luò)。所有的輸入圖片通過雙線性插值調(diào)整到448 ×448 大小,在訓(xùn)練階段對(duì)圖片進(jìn)行水平和垂直翻轉(zhuǎn),測(cè)試階段對(duì)圖片僅做歸一化操作。在訓(xùn)練時(shí)通過圖1 中3 分支完成提取圖像不同的局部特征和定位輸入圖片的前景物體,測(cè)試階段僅由圖1 中分支a 和分支b 完成細(xì)粒度圖像分類。在訓(xùn)練階段使用3 個(gè)分支提高模型的魯棒性,3 個(gè)分支的作用各不相同,彼此缺一不可,共同完成圖像局部細(xì)微且判別性特征的學(xué)習(xí)。而在測(cè)試階段,分支c 主要用于獲得局部細(xì)微特征,但是經(jīng)過訓(xùn)練階段,網(wǎng)絡(luò)能夠很好地學(xué)習(xí)局部細(xì)微特征,因此去除了分支c。分支a 輸出原始圖片的粗粒度分類概率,分支b 獲得前景目標(biāo)的邊界框,從原始圖片裁剪相應(yīng)的區(qū)域并放大到原圖尺寸,將其輸入網(wǎng)絡(luò)獲得細(xì)粒度預(yù)測(cè)概率。最終分類結(jié)果是對(duì)粗粒度分類預(yù)測(cè)概率和細(xì)粒度分類預(yù)測(cè)概率取平均值。
參數(shù)設(shè)置:FFRMA 模型采用隨機(jī)梯度下降法(stochastic gradient descent,SGD)優(yōu)化模型,動(dòng)量為0.9,權(quán)重衰減為0.000 1,epoch 為200,batch 為6,初始學(xué)習(xí)率為0.001,每經(jīng)過60 次epoch 學(xué)習(xí)率乘上0.1[26]。
實(shí)驗(yàn)設(shè)備:實(shí)驗(yàn)環(huán)境為Ubuntu 18.04.5,Ge-Force RTX 2 080 Ti,運(yùn)行內(nèi)存為128 GB,使用1 個(gè)顯卡進(jìn)行訓(xùn)練。模型訓(xùn)練平臺(tái)為基于開源深度學(xué)習(xí)框架PyTorch,版本為PyTorch 1.2.0,Python 版本為Python 3.7。
3.1.3 評(píng)價(jià)指標(biāo)
在細(xì)粒度圖像分類領(lǐng)域中,研究者采用準(zhǔn)確率作為評(píng)價(jià)指標(biāo)[27]。因此本文方法采用分類準(zhǔn)確率作為評(píng)估標(biāo)準(zhǔn),分類準(zhǔn)確率為
式中:R為測(cè)試集的圖片數(shù)量,Ra是測(cè)試實(shí)驗(yàn)中正確分類的樣本數(shù)量。
3.2.1 消融實(shí)驗(yàn)
為了證明本文模型的有效性,以CUB-200-2011 數(shù)據(jù)集為例,驗(yàn)證FFR 和RMA 的有效性。CAM、SCDA 和FFR 的基礎(chǔ)網(wǎng)絡(luò)都為在ImageNet 數(shù)據(jù)集上預(yù)訓(xùn)練的ResNet50,且參數(shù)設(shè)置保持一致,數(shù)據(jù)集中的每一張圖片采用中心裁減,將大小調(diào)整為448 ×448。
為了驗(yàn)證FFR 的定位性能,以目標(biāo)邊界框定位的準(zhǔn)確性(percentage of correctly localized object,PCO)作為評(píng)價(jià)指標(biāo)。PCO 是指預(yù)測(cè)物體邊界框與真值框的交并比值。
FFR 模塊預(yù)測(cè)的是檢測(cè)框與真值框之間的交并比值,將前景目標(biāo)定位的準(zhǔn)確率轉(zhuǎn)化為檢測(cè)框與真值框的交并比大小,更加準(zhǔn)確地驗(yàn)證前景特征放大模塊的定位效果。接下來,從定量的角度分析前景特征放大算法的正確性,在基準(zhǔn)網(wǎng)絡(luò)ResNet50 中,以數(shù)據(jù)集CUB-200-2011 為例,分別與CAM、SCDA 和FFR 進(jìn)行消融對(duì)比實(shí)驗(yàn),以PCO>0.5 作為FFR 模塊的定量分析指標(biāo),實(shí)驗(yàn)結(jié)果見表2。
表2 目標(biāo)定位準(zhǔn)確率Table 2 Accuracy of object localization
為了驗(yàn)證RMA 模塊中掩碼矩陣Mmask和判別性矩陣Mdis對(duì)于網(wǎng)絡(luò)學(xué)習(xí)特征能力的影響,在FFR 的基礎(chǔ)上,對(duì)每一個(gè)特征矩陣進(jìn)行實(shí)驗(yàn)。實(shí)驗(yàn)結(jié)果見表3。
表3 RMA 模塊不同組件的消融實(shí)驗(yàn)對(duì)比Table 3 Ablation experiment of different components of the RMA model
以結(jié)合FFR 模塊的ResNet50 作為基準(zhǔn)網(wǎng)絡(luò),分別測(cè)試掩碼矩陣和判別性矩陣的有效性。通過分析表3 中數(shù)據(jù)可以得知,結(jié)合了判別性矩陣Mdis的FFR 模塊的準(zhǔn)確率比單獨(dú)使用FFR 模塊提高了0.25%,但是結(jié)合了掩碼矩陣Mmask的FFR 模塊的準(zhǔn)確率只有57.35%,因?yàn)檠诖a矩陣掩蓋掉大多數(shù)的高響應(yīng)判別性特征(如鳥頭、鳥喙等判別性特征),此時(shí)網(wǎng)絡(luò)學(xué)習(xí)到的特征是不具有類針對(duì)性,雖然學(xué)習(xí)到了一些細(xì)微特征(如鳥喙的顏色),但是這些細(xì)微特征還是要輔以高響應(yīng)特征才能發(fā)揮作用,因此單獨(dú)使用掩碼矩陣會(huì)導(dǎo)致模型判別能力不足。FFR 和RMA 的結(jié)合,精度提高了0.82%,說明RMA 模塊中兩個(gè)矩陣對(duì)分類精度都做出了貢獻(xiàn)。
3.2.2 RMA 參數(shù)敏感性分析
為了確定閾值 γ對(duì)RMA 的作用,分別在CUB-200-2011、FGVC-Aircraft 和Stanford Cars 數(shù)據(jù)集上進(jìn)行實(shí)驗(yàn),實(shí)驗(yàn)結(jié)果如圖6 所示。
圖6 參數(shù)分析Fig.6 Parameter analysis
CUB-200-2011 數(shù)據(jù)集在閾值 γ=0.9 時(shí)取得最大精度,88.0%;FGVC-Aircraft 數(shù)據(jù)集在閾值 γ=0.8 時(shí)取得最大精度,93.6%;Stanford Cars 數(shù)據(jù)集在閾值 γ=0.8 時(shí)取得最大精度,95.3%。觀察圖6中3 條曲線的波動(dòng)情況,可以得出,閾值 γ對(duì)CUB-200-2011 數(shù)據(jù)集的影響較大,曲線波動(dòng)較為明顯;閾值 γ對(duì)數(shù)據(jù)集FGVC-Aircraft 和Stanford Cars 的影響較小,曲線波動(dòng)不明顯。
CUB-200-2011 對(duì) γ的敏感性比較大,原因是CUB-200-2011 中鳥的種類繁多,每種鳥類都有豐富且多樣性的局部特征,通過控制 γ的取值可以有效學(xué)習(xí)區(qū)別于其他子類的局部細(xì)微且判別性特征。另外,當(dāng)γ=1 時(shí)3 個(gè)數(shù)據(jù)集的精度都有些下降,因?yàn)?γ=1 表示僅抑制特征圖中的峰值,峰值是通用圖像的分類依據(jù)(區(qū)分大類)。對(duì)于細(xì)粒度分類而言,只關(guān)注峰值是不夠的,也需要關(guān)注其他特征區(qū)域,這些區(qū)域包括更多的子類間差異特征。
3.2.3 對(duì)比實(shí)驗(yàn)
為了更進(jìn)一步分析本文方法的分類性能,將本文方法與其他方法進(jìn)行比較,實(shí)驗(yàn)結(jié)果見表4。其中,F(xiàn)FRMA (Coarse)是原始圖像經(jīng)過圖1 中分支a 得到的分類精度,F(xiàn)FRMA (Finer)是原始圖像經(jīng)過圖1 中分支b 得到的分類精度,F(xiàn)FRMA(Ours)是對(duì)分支a 和分支b 分類精度的均值。
表4 不同弱監(jiān)督細(xì)粒度圖像分類方法實(shí)驗(yàn)對(duì)比Table 4 Experimental comparison of different weakly supervised fine-grained image classification methods %
表4 的實(shí)驗(yàn)數(shù)據(jù)說明了在與弱監(jiān)督細(xì)粒度分類的主流方法進(jìn)行對(duì)比時(shí),F(xiàn)FRMA 模型在3 個(gè)數(shù)據(jù)集上均取得不錯(cuò)的分類成績。FFRMA 在Cars數(shù)據(jù)集的精度最高為95.3%,與性能最好的LAFE模型相比,提高了0.5%;其次,在Aircraft 數(shù)據(jù)集取得精度為93.6%,與LAFE 在Aircraft 數(shù)據(jù)集的準(zhǔn)確率相同,但是FFRMA 模型在另兩個(gè)數(shù)據(jù)集上的精度均超過了LAFE;FFRMA 在CUB 數(shù)據(jù)集的精度為88.0%。ELoPE、MBPOL 和本文方法都是基于定位-分類的細(xì)粒度圖像分類,但是FFRMA在3 個(gè)數(shù)據(jù)集的準(zhǔn)確率均優(yōu)于ELoPE、MBPOL。
圖7 給出了FFRMA 模型在CUB-200-2011、FGVC-Aircraft 和Stanford Cars 數(shù)據(jù)集上準(zhǔn)確率和損失率的變化趨勢(shì)。隨著迭代次數(shù)的增多,分類準(zhǔn)確率逐漸上升,在125 次迭代后,模型完全收斂,分類準(zhǔn)確率也達(dá)到最大。網(wǎng)絡(luò)剛進(jìn)行訓(xùn)練時(shí),測(cè)試集隨著訓(xùn)練次數(shù)的增加不斷減少,網(wǎng)絡(luò)模型參數(shù)在不斷更新優(yōu)化,在75 次迭代后,模型基本收斂,在125 次迭代后,優(yōu)化算法找到極值點(diǎn),損失值幾乎不變,F(xiàn)FRMA 模型的參數(shù)基本穩(wěn)定。
圖7 FFRMA 準(zhǔn)確率和損失率的變化趨勢(shì)Fig.7 Accuracy and loss trend of FFRMA
對(duì)SCDA 和FFR 的定位效果進(jìn)行可視化,如圖8 所示。其中圖8(a)是卷積算子增強(qiáng)方法(SCDA)可視化的結(jié)果,圖8(b)是前景特征增強(qiáng)方法可視化的效果。紅色矩形代表真值框,綠色代表網(wǎng)絡(luò)學(xué)習(xí)到的邊界框。通過圖8 的可視化結(jié)果,F(xiàn)FR 模塊的定位性能優(yōu)于SCDA 方法,邊界框更加貼合真值框,消除了更多的背景噪音,獲得了更純粹的前景目標(biāo)特征,進(jìn)一步提高了模型的表征能力。
圖8 目標(biāo)定位可視化效果對(duì)比圖Fig.8 Comparison of object localization visual effect
圖9 給出了3 個(gè)數(shù)據(jù)集經(jīng)過FFRMA 模型處理后的可視化圖。
對(duì)比圖9(a)和圖9(b),圖9(d)和圖9(e),圖9(g)和圖9(h),圖9(b)、(e)、(h)實(shí)現(xiàn)了目標(biāo)增強(qiáng),消除了背景噪音干擾的同時(shí)關(guān)注到更多的微小且重要的局部特征信息。
圖9 3 種數(shù)據(jù)集的可視化圖Fig.9 Visualization of three datasets
從鳥的可視化圖中可以看出,熱力圖深紅色區(qū)域主要集中在鳥頭、鳥身子和鳥腳等關(guān)鍵局部區(qū)域,說明鳥頭、鳥身子和鳥腳對(duì)最后分類結(jié)果貢獻(xiàn)最大;汽車的熱力圖聚焦在車牌、車標(biāo)等顯著特征;從飛機(jī)的熱力圖看出,網(wǎng)絡(luò)關(guān)注的特征是方向舵,飛機(jī)圖標(biāo)和機(jī)翼。通過以上的可視化效果,F(xiàn)FRMA 模型可以有效地定位前景目標(biāo)和學(xué)習(xí)豐富的局部細(xì)微特征。
本文提出了將前景特征增強(qiáng)和區(qū)域掩碼自注意力相結(jié)合的細(xì)粒度圖像分類方法,能夠減少背景噪音干擾,提取豐富多樣化的局部判別性特征信息。首先,前景特征增強(qiáng)模塊可以準(zhǔn)確定位前景目標(biāo),在消除背景噪音干擾的情況下對(duì)前景目標(biāo)進(jìn)行特征加強(qiáng);然后,區(qū)域掩碼自注意力模塊在前景目標(biāo)增強(qiáng)的前提下,捕獲更多豐富的且區(qū)別于其他子類的局部細(xì)微特征。兩個(gè)模塊的協(xié)同合作使得分類精度明顯提高;最后,在CUB-200-2011、Stanford Cars 和FGVC-Aircraft 三個(gè)數(shù)據(jù)集的實(shí)驗(yàn)結(jié)果表明,本文模型均取得了不錯(cuò)的分類精度,分別為88.0%、95.3%和93.6%,性能優(yōu)于其他模型。在未來工作中,將致力于針對(duì)一些局部小區(qū)域的特征提取考慮使用跨層特征融合;將目標(biāo)檢測(cè)算法用在細(xì)粒度圖像分類上,提高模型的定位性能;將語義與空間信息聯(lián)系起來提取更加豐富且多樣化的特征信息,進(jìn)一步提高分類性能。