• 
    

    
    

      99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看 ?

      基于注意力自身線性融合的弱監(jiān)督細粒度圖像分類算法

      2021-07-02 00:35:42陸鑫偉余鵬飛李海燕李紅松丁文謙
      計算機應用 2021年5期
      關鍵詞:細粒度注意力準確率

      陸鑫偉,余鵬飛,李海燕,李紅松,丁文謙

      (云南大學信息學院,昆明 650500)

      (*通信作者電子郵箱lxw3405@163.com)

      0 引言

      近幾年深度學習在計算機視覺領域取得了突破性的成就,被廣泛應用于各種圖像的分類識別任務。其中,細粒度圖像分類是近年來計算機視覺領域一個非常熱門的研究課題。細粒度圖像分類旨在對特定對象類別,例如不同種類的鳥、狗、飛機、汽車等,進行更細致的子類別劃分。與傳統(tǒng)的圖像分類問題相比,細粒度圖像分類由于類間細微差異的區(qū)分甚小,內部變化非常微妙,因此圖像細粒度分類難度更大,更具有挑戰(zhàn)性。細粒度分類的研究算法上主要分為兩大類[1]:一類是基于弱監(jiān)督的算法,另一類是基于強監(jiān)督的算法,后者非常依賴于人工標注的信息。其中最具代表的是Zhang 等[2]提出的Part R-CNN(Region-based Convolutional Neural Network)算法,首先通過Part R-CNN 使用自下而上的區(qū)域算法產(chǎn)生候選區(qū),再利用R-CNN 對對象局部區(qū)域檢測并評分,然后采用幾何約束修正等對象局部區(qū)域定位得到特征表示,最后訓練支持向量機(Support Vector Machine,SVM)分類器。數(shù)據(jù)集中目標對象姿態(tài)的變化會產(chǎn)生較大的類內方差,進而影響分類性能,對于姿態(tài)的干擾,Branson 等[3]提出了姿態(tài)歸一化卷積神經(jīng)網(wǎng)絡(Convolutional Neural Network,CNN),對不同的輸入圖像定位檢測局部區(qū)域后進行裁剪、對齊操作,得到不同層的卷積特征后,再連接成一個特征向量后訓練SVM分類器。

      強監(jiān)督算法在一定程度上提高了分類精度,但其高度依賴于數(shù)據(jù)集本身的標注信息,對數(shù)據(jù)集的要求比較高。為此,有些學者提出了細粒度圖像分類的弱監(jiān)督算法。例如:Lin等[4]提出的雙線性CNN 模型,該模型包括兩個網(wǎng)絡A 和B,其中網(wǎng)絡A 用于定位物體,網(wǎng)絡B 用于對定位物體進行特征提取,計算出不同空間位置的外積并采用平均池化得到雙線性特征。外積捕獲了特征通道的平移不變的成對關系,最后進行端到端的優(yōu)化。Fu 等[5]提出循環(huán)注意卷積神經(jīng)網(wǎng)絡(Recurrent Attention Convolutional Neural Network,RA-CNN),使用APN(Attention Proposal Network)定位待識別對象的區(qū)分性區(qū)域,并在訓練中使用排序損失函數(shù)和多尺度網(wǎng)絡逐步且精確地聚焦到關鍵區(qū)域。Yu等[6]提 出HBP(Hierarchical Bilinear Pooling)模型,用一種可跨層的雙線性池化算法來捕獲層間部分特征的關系,同時集成多個跨層雙線性特征形成分層雙線性池化框架來增強模型的表示能力。Yang等[7]提出了一種自監(jiān)督機制網(wǎng)絡模型NTS-Net(Navigator-Teacher-Scrutinizer Network),采用多代理協(xié)作的學習算法,引入特征金字塔網(wǎng)絡(Feature Pyramid Network,F(xiàn)PN)來強化學習,準確識別細粒度圖像分類任務中的關鍵信息區(qū)域,使用改進的排序一致?lián)p失函數(shù)來提取出更多的信息區(qū)域。Hu 等[8]提出了WS-DAN(Weakly Supervised Data Augmentation Network)的算法,主要采用類中心損失函數(shù)在注意力模塊上引入BAP(Bilinear Attention Pooling)機制,使得引導注意力區(qū)域的方式簡單化,生成網(wǎng)絡訓練更加快捷。

      上述算法主要通過定位到圖像對象中的注意力區(qū)域,減少了圖像背景的干擾,使得模型在執(zhí)行分類任務時更加注意到這些具有判別性的區(qū)域[9-11]。通過對對象的特征提取得到的注意力區(qū)域塊,雖然包含了部分細節(jié)特征,但是類內判別性差異甚微。因此本文通過采用Inception V3 網(wǎng)絡以及深度分離卷積預測出注意力區(qū)域,提出了AABP(Attention-Attention Bilinear Pooling)網(wǎng)絡將注意力定位到更加細微的判別性區(qū)域上,從而改進篩選定位關鍵區(qū)域后的特征提取算法,有效地減少全局特征和局部特征線性融合后,在分類時產(chǎn)生不斷疊加的誤差,有效地提高了分類算法的識別準確率。

      1 基礎網(wǎng)絡

      1.1 本文算法

      本文首先對輸入的原始圖像進行預處理,裁剪到448×448 的像素尺寸,其后經(jīng)過采用Inception V3 作為特征提取網(wǎng)絡的特征映射模塊得到特征區(qū)域,進一步在包含有深度可分卷積的注意映射模塊中預測出一定的注意區(qū)域。生成的注意區(qū)域通過WS-DAN算法反饋回網(wǎng)絡中,以此來增強數(shù)據(jù)。

      第一階段生成的注意區(qū)域和第二階段生成的注意區(qū)域通過AABP 算法進行特征線性融合,最后與Ground Truth 作Loss計算。本文算法的總框圖如圖1所示。

      圖1 本文算法總框圖Fig.1 General block diagram of the proposed algorithm

      1.2 Inception V3

      弱監(jiān)督算法中往往需要定位到圖像對象的局部特征,才能進一步提取注意力區(qū)域作為判別區(qū)域。細粒度分類的痛點在于對象信息位置的差異性,信息分布較為局部[12],因此較大的卷積層不僅消耗計算資源更會產(chǎn)生過擬合的風險。Inception V3 在保證性能的前提下使用更小的核以及非對稱方式減少參數(shù),添加BN(Batch Normalization)層來解決梯度消失的問題。通過加載預訓練的Inception V3網(wǎng)絡,遷移學習到細粒度分類任務的數(shù)據(jù)集上進行訓練。如圖2所示[13]。

      模型使用LSR(Label Smoothing Regularization)算法,訓練時輸出為Softmax層歸一化的概率分布由式(1)表示:

      對于每個訓練輸入的x,模型計算每個標簽k的概率p,其中z是logits 或未歸一化的對數(shù)概率,其單個交叉熵損失函數(shù)由式(2)所示:

      訓練集上單個輸入x標簽的實際概率分布經(jīng)歸一化后,由式(1)、(2)反推整個訓練收斂時Softmax 正確分類的輸入會無窮大,會導致訓練結果的過擬合,為了防止最終的p(k)=1,在輸出p(k)時附加一個參數(shù)ε產(chǎn)生新的q′(k)替換掉式(2)的q(k)計算損失,防止把模型預測值過分集中在概率較大的類別上,對小概率類別增加更多的關注,如下所示:

      以鳥類圖像細粒度分類為例,在Inception V3網(wǎng)絡結構預訓練之前將圖像統(tǒng)一調整為229×229 像素,預訓練的過程[14]如下所述:

      1)首先輸入299×299×3的圖像,經(jīng)過5個卷積和2個最大池化輸出35×35×192 的結構,其次Inception V3 結構含有5 路卷積通道,分別對應InceptionA、B、C、D、E 結構,每種結構中包含一個平均池化或最大池化,其目的是對數(shù)據(jù)進行下采樣。這樣在張量傳遞的過程中不僅能減少計算參數(shù)還能減少數(shù)據(jù)維度避免過擬合;

      2)InceptionA 使用了3 次,分別是Mixed_5b(圖2 中簡寫為M_5b)、Mixed_5c、Mixed_5d將輸入通道從192變?yōu)?88;

      圖2 Inception V3模型結構Fig.2 Model structure of Inception V3

      3)InceptionB使用了1次,在Mixed_6a中將35×35×288結構變?yōu)?7×17×768,通道數(shù)增大到原來的2.7倍且空間維度減半;

      4)InceptionC 使用了4 次,分別為Mixed_6b、Mixed_6c、Mixed_6d、Mixed_6e其輸入和輸出不變均為17×17×768;

      5)InceptionD使用了1次,在Mixed_7a中將輸入17×17×768變?yōu)?×8×1280,通道數(shù)增大到輸入的1.7倍,空間維度減半;

      6)InceptionE 使用了2 次,分別是Mixed_7b、Mixed_7c 中,將輸入8×8×1 280變?yōu)楣潭ㄝ敵?×8×2048;

      7)最后經(jīng)過8×8 的平均池化輸出為1×1×2 048,之后dropout 層用于正則化降低過擬合風險,再經(jīng)過全連接層和Softmax輸出長度為200的特征映射。

      Inception V3 網(wǎng)絡優(yōu)化算法采用RMSProp(Root Mean Square Prop)替代隨機梯度下降(Stochastic Gradient Descent,SGD)對梯度計算了微分平方加權平均數(shù),降低了損失函數(shù)在更新過程的擺動幅度,進一步加快函數(shù)的收斂。在上述流程中Inception V3 網(wǎng)絡采用新的三種結構,即步驟2)、3)、4)所述,深層次的網(wǎng)絡結構使用了較為豐富的卷積特征增加網(wǎng)絡的感受野,融合了更多的尺度特征,使得輸入為低分辨率的情況下同樣能達到近乎高分辨率輸入的準確率,增強網(wǎng)絡的特征提取能力訓練出高質量的網(wǎng)絡。

      Inception V3 網(wǎng)絡特點之一就是分解大尺寸核的卷積:一是將大尺寸卷積核分解為小尺寸卷積核,二是非對稱卷積的空間分解。以InceptionE 的網(wǎng)絡為例,其結構如圖3 所示,模型將一個較大的二維卷積拆成兩個較小的一維卷積,如3×3卷積拆成1×3 和3×1 的兩個卷積,將全連接層和一半卷積轉化為稀疏連接,既節(jié)約了參數(shù)又加速運算減輕了過擬合,在增加網(wǎng)絡深度的同時增加了一層非線性擴展模型表達能力[15],節(jié)省訓練成本。

      圖3 InceptionE網(wǎng)絡結構Fig.3 Network structure of InceptionE

      1.3 WS-DAN

      在大多數(shù)深度學習模型的訓練過程中,可以采用數(shù)據(jù)增強的方式來防止過擬合以改善模型的性能。本文在訓練模型時采用WS-DAN 的數(shù)據(jù)增強算法,如圖4 所示,區(qū)別于傳統(tǒng)的鏡像、翻轉以及隨機裁剪等數(shù)據(jù)增強算法[8],WS-DAN 由生成的注意力區(qū)域兩方面增強圖像數(shù)據(jù):第一部分可以分為注意力裁剪和注意力下沿兩塊內容,被應用到模型的訓練過程中,使得模型更好地看到圖像的細節(jié)特征和更多的主體部件;第二部分則是通過模型得到注意力區(qū)域,定位到目標主體,使得模型可以更近地觀察到目標主體,避免了引入一些不可控的背景噪聲,在模型的測試過程中提升模型的效率和驗證出較高的分類性能。

      圖4 WS-DAN數(shù)據(jù)增強的算法Fig.4 Data augmentation method of WS-DAN

      2 識別網(wǎng)絡

      通過上述算法選取預加載訓練好的Inception V3 網(wǎng)絡模型,遷移學習到細粒度圖像分類任務中[16],通過檢測目標和定位對象的算法,提取出目標中的特征區(qū)域。Inception V3 網(wǎng)絡提取特征圖的過程類似于APN 結構[5]中的尺度網(wǎng)絡,將提取出的特征圖與輸入圖像的尺寸保持一致,不同的是識別出特征區(qū)域之后采用深度可分離卷積對特征區(qū)域操作得到注意力區(qū)域。具體操作如圖5所示。

      圖5 注意力區(qū)域提取過程Fig.5 Process of attention region extraction

      類比于預訓練過程,使用InceptionE 中Mixed_7c 的網(wǎng)絡結構輸出得到j個特征映射F。為了防止在線性整流函數(shù)(Rectified Linear Unit,ReLU)處理之前數(shù)據(jù)過大導致網(wǎng)絡不穩(wěn)定,因此在作為注意力區(qū)域提取的深度可分離卷積過程中在兩個卷積層之后分別添加BN 層,利用BatchNorm2d 函數(shù)進行數(shù)據(jù)歸一化處理。公式如下所示:

      對于輸入的張量(N,C,H,W),輸出保持尺寸不變,其中N表示輸入圖像數(shù)量,C表示通道數(shù),H表示圖像對應的高度,W表示圖像對應的寬度,E[x]和Var(x)為輸入數(shù)據(jù)的均值和方差,γ和β默認分別為1 和0 對輸入進行線性變換,?為防止分母為零的穩(wěn)定性參數(shù),默認為0.001。

      2.1 注意力目標區(qū)域預測

      輸入圖像I通過Inception V3 卷積操作得到特征圖映射F∈Qj×h×w,其中h、w和j分別表示特征區(qū)域的高、寬(與輸入一致)和通道數(shù)。之后通過卷積操作及注意映射得到注意區(qū)域Ai∈Qi×h×w,其中h、w和i分別表示特征區(qū)域的高、寬和通道數(shù)。Ai∈Qh×w表示輸入圖像主體的某一部分,例如鳥的頭部等。注意力區(qū)域提取的過程中,對于Inception V3提取到的j個通道特征F采用尺寸為1×1的卷積核進行深度可分離卷積輸出為i個通道注意力區(qū)域。如式(5)所示:

      深度可分離卷積主要分為兩個部分[17]。

      第一部分為“Depthwise Conv”深度卷積,其卷積過程如圖6 所示。對輸入特征的每個通道單獨做卷積操作,收集到對應每個通道的輸出特征。

      圖6 Depthwise卷積過程Fig.6 Depthwise convolution process

      第二部分為“Pointwise Conv”逐點卷積,其卷積過程如圖7 所示。深度卷積所得到的每個通道的空間特征,通過逐點卷積操作將不同通道的特征區(qū)域結合起來,收集得到的每個特征點達到和標準卷積一樣的效果。

      圖7 Pointwise卷積過程Fig.7 Pointwise convolution process

      通過兩部分的拆分降低了參數(shù)并壓縮了計算量,兩者結合的模型結構如圖8所示。

      圖8 深度分離卷積模型結構Fig.8 Model structure of depthwise separable convolution

      2.2 AABP結構

      弱監(jiān)督學習有兩大難題:一是在沒有標注信息僅有標簽信息的情況下定位到特征區(qū)域[10],上述的Inception V3結構已經(jīng)很好地解決了這個問題;二是如何確定特征融合的方式將有效的信息區(qū)域進行融合,其關鍵在于確定了注意力區(qū)域后,模型網(wǎng)絡能夠將學習的特征更加集中到關鍵性的判別區(qū)域[18]。本文提出的注意力自身線性融合算法,可將模型注意力進一步集中到特征區(qū)域中愈加細微的部分。其模型結構如圖9所示。

      圖9 注意力自身線性融合模型結構Fig.9 Model structure of AABP

      AABP 算法本身是對BAP 算法的改進,BAP 算法采用標準卷積對特征圖所提取出的注意力區(qū)域和特征圖本身進行同位元素相乘,其目的是強化對局部關鍵性區(qū)域的學習,因此采用了全局特征和局部特征的融合方式,將注意力區(qū)域嵌入到全局特征中,最后級聯(lián)得到特征融合矩陣。本文提出的基于注意力自身融合的機制,采用深度可分離卷積對特征圖提取出更為集中的關鍵區(qū)域的注意力區(qū)域,得到的注意力區(qū)域對應自身進行同位元素相乘,得到線性融合后的對應強化后的注意力特征區(qū)域,通過全局平均池化操作得到最后的注意力特征矩陣。其目的是將注意力更加集中到局部區(qū)域的表征對象上來,更加細致地讓模型結構去學習細微特征。通過自身融合的方式,一定程度上減少了網(wǎng)絡模型對干擾信息(如背景)的學習,充分利用局部注意力特征所產(chǎn)生的判別性信息[19],增強注意力與自身的空間聯(lián)系,避免了與其他無關特征的聯(lián)系,有效防止了過擬合的情況。

      同一個輸入對象得到的注意力區(qū)域通過同位元素對應相乘的方式進行自身線性融合。如式(6)所示:

      其次通過全局平均池化的操作p(*)將線性融合后的注意力區(qū)域矩陣降維生成注意力特征向量ti∈Q1×i,如式(7)所示:

      再將計算得到的i個注意力特征向量進行級聯(lián)操作,得到注意力特征矩陣T∈Qi×i,如式(8)所示:

      AABP 算法的特點在于由特征提取網(wǎng)絡得到的注意力區(qū)域,自身進行線性融合,BAP 算法雖然能讓有效信息更加豐富,但是其在特征融合的過程增加了一些不必要的信息干擾。AABP 通過與自身的注意力融合,保證其注意力更加集中到細微特征,通過最后的級聯(lián)得到了一個僅僅包含注意力區(qū)域對象的特征融合矩陣,最終應用到訓練網(wǎng)絡中使得分類性能得到提升。

      3 實驗說明及分析

      3.1 實驗內容及數(shù)據(jù)集說明

      本文實驗選用在細粒度圖像分類領域中最為經(jīng)典和常用的CUB-200-2011 鳥類數(shù)據(jù)集[20]作為實驗對象與其他主流算法進行比較。該數(shù)據(jù)集涵蓋了200 種鳥的類別,包括5 994 張訓練圖像和5 794 張測試圖像,除類別標簽外,每個圖像都會用1 個邊界框、15 個局部位置關鍵點和312 個二進制屬性進行進一步注釋。作為弱監(jiān)督學習的模型只需要用到標簽信息就足夠了。

      同時還選取在細粒度圖像分類領域中另外兩個著名的數(shù)據(jù)集:Stanford Dogs[21]和飛行器細粒度覺分類(Fine-Grained Visual Classification of Aircraft,F(xiàn)GVC-Aircraft)[22]進行實驗。Stanford Dogs 數(shù)據(jù)集包含來自世界各地的120種犬的圖像,共有20 580張圖像,由于大多數(shù)犬類與人類生活相互關聯(lián),導致犬類數(shù)據(jù)比鳥類數(shù)據(jù)集的背景干擾更加復雜,因此本次實驗采用12 000張訓練圖像和8 580張測試圖像。

      FGVC-Aircraft 包含四種類型的標注:按照飛機生產(chǎn)商進行劃分,可分為30個類別;按照系列進行劃分,可分為70個類別;數(shù)據(jù)集的邊界標注信息;按照類型進行劃分,可分為100個類別。本次實驗采用第四種劃分方式進行實驗,其中包含6 667張訓練圖像和3 333張測試圖像。

      實驗采用的服務器硬件配置為i9 7900 的CPU,Geforce GTX 1080ti 11G 的兩塊顯卡,16 GB 的內存。軟件配置為Ubuntu 16.04 的操作系統(tǒng),CUDA 10.1 的驅動,python 3.6 的語言環(huán)境,pytorch 1.4的深度學習框架。

      本次實驗的目的在于驗證AABP 算法的可行性,并在此基礎上訓練出模型的最佳準確率。實驗參數(shù)epochs 設為160,batch_size設為12,初始學習率設為0.001,每次輸入圖像的尺寸統(tǒng)一設定為448×448 像素,所需提取的注意力特征區(qū)域通道數(shù)i設為32。

      3.2 訓練測試結果及分析

      訓練時加載圖像的設為448×448,測試輸出時將圖像尺寸設定為448×448 像素。圖10 熱力圖效果對比展示了本文AABP 算法能夠將注意力更加集中到更具判別力的特征區(qū)域,其中虛線黑框表示熱力圖中目標圖像主體部分,而白色實框表示注意力集中中心的部分。圖10 中分別選取綠紋霸鹟、漂泊信天翁和黑腳信天翁三種鳥類采用WS-DAN和本文算法對比。從圖像的對比結果來看,三種鳥類的目標主體識別上差別不大,都能定位得到主體對象;但是在注意力特征區(qū)域定位上存在一些差異,在圖10 中WS-DAN 會產(chǎn)生一些注意力集中偏差,例如在圖10(a)和圖10(b)中4 個角落上注意力熱點以及圖10(c)中海面上一些較淺的熱力區(qū)域,這些注意力偏差是因為WS-DAN采用局部特征和全局特征融合而引起的。另外本文算法不僅能夠過濾掉這些注意力偏差的影響,還能將注意力進一步集中到判別區(qū)域上來,例如從圖10(a)的頭部到眼睛、圖10(b)的喙到喙的紋路、圖10(c)的背部到頭部。從三類鳥兩算法對比,體現(xiàn)出本文算法強化注意力特征區(qū)域的能力。

      圖10 熱力圖效果對比Fig.10 Effect comparison of heat map

      本文采用高性能的深度可分離卷積替換標準卷積,因此從特征圖中提取出的注意力區(qū)域更加集中于所在區(qū)域的中心位置,其次WS-DAN 中的BAP 算法是對注意力區(qū)域和特征圖進行同位元素相乘。從圖10 可以看出WS-DAN 算法會將熱力區(qū)域定位到一些和分類無關的、不必要的背景信息上,而本文的算法能夠將這些干擾信息去除掉,減少了背景干擾信息對分類的影響。

      然而依然存在個別鳥類識別效果較差情況,本文統(tǒng)計測試集中對應鳥類識別錯誤次數(shù),如圖11 所示,列出誤識別次數(shù)較多的10種鳥類,選取最差的4類進行分析。其中,中賊鷗在測試集中錯誤識別高達6 次,其次是長尾賊鷗和北美安娜蜂鳥錯誤識別為5次,紅喉北蜂鳥也錯誤識別4次。

      以圖11 這個結果作為討論,在這種情況下分析發(fā)現(xiàn),大量的誤識別發(fā)生在同目同科同屬不同種或者同目同科不同屬不同種的鳥類之間。

      圖11 識別錯誤最多的前十種鳥類Fig.11 The first ten species of birds with many incorrect identifications

      中賊鷗(拉丁學名:Stercorarius pomarinus)和長尾賊鷗(拉丁學名:Stercorarius longicaudus),都屬于鷗形目賊鷗科賊鷗屬,中賊鷗屬于中賊鷗科,長尾賊鷗屬于長尾賊鷗科,因此外形相似度較高,如圖12 所示,上面為中賊鷗,下面為長尾賊鷗。通過圖12(b)可以看出注意力中心集中在了中賊鷗的脖頸處,這是因為模型本身隨機確定注意力中心造成的。雖然長尾賊鷗熱力區(qū)域很好地集中在了頭部關鍵位置,但是從圖12(c)注意圖中不難看出,由于圖像中手的干擾使得手也成為注意力圖的一部分,從而影響最終的分類。

      圖12 對比中賊鷗和長尾賊鷗錯誤識別結果Fig.12 Contrast error recognition results of pomarine jaeger and long tailed jaeger

      安娜蜂鳥(拉丁學名:Calypte anna)如圖13所示。兩者同樣包含了上述背景干擾的等問題,雄性安娜蜂鳥在圖13(c)中注意圖中包含了較淺粉色圓盤,而雌性安娜蜂鳥同樣在圖13(c)中分散了一部分注意力到紅色的花卉上。由于蜂鳥的個體嬌小,很容易在其活動中因為一些背景因素的干擾,引起注意力分散。背景因素影響是造成北美安娜蜂鳥分類精度差的次要原因,但究其主要原因則是同類個體之間存在一些明顯差異。北美安娜蜂鳥雄性有明顯的粉紅色冠,而幼鳥和雌鳥頭部卻是綠色。

      圖13 對比北美安娜蜂鳥錯誤識別結果Fig.13 Comparison of error recognition results of Anna’s hummingbird

      紅喉北蜂鳥(拉丁學名:Archilochus colubris)如圖14 所示,紅喉北蜂鳥1,雖然能將注意力集中定位到紅喉這一特征上,但原始圖像本身質量較差,得到注意力圖后影響其整體識別的正確率。其主要特征為:青銅綠背面、淺灰色的腹部和胸部以及綠色的側面。紅喉北蜂鳥2 由于個頭較小,羽色與植物顏色相近,且背景虛化程度較深對其識別定位干擾較大。由于高頻扇翅運動使得拍攝到的軀干模糊不清,雖然注意圖能夠定位到主體部分,但是在熱力圖上對判別區(qū)域的捕捉并不到位。另外北美安娜蜂鳥雌性和紅喉北蜂鳥這兩種鳥類之間存在的一些相似性造成兩種鳥類之間出現(xiàn)錯誤識別的情況。

      圖14 對比紅喉北蜂鳥錯誤識別結果Fig.14 Comparison of error recognition results of ruby throated hummingbird

      進一步的分析發(fā)現(xiàn),識別易受背景的干擾,如果背景干擾相對較少,識別度準確率相對較高。例如:朱紅霸鹟(拉丁學名:Pyrocephalus)為雀形目,屬于霸鹟科。朱紅霸鹟有明亮的紅冠,尾羽呈褐色。如圖15 所示,圖中的朱紅霸鹟圖像本身背景顏色單一,質量較好,且其姿態(tài)大多呈站姿狀態(tài)變化差異不大,同類間差異不明顯,通過注意力集中到喙、眼睛和背羽等關鍵性判別區(qū)域上,因而可以很好地注意到目標主體,進而做出準確的識別。

      圖15 朱紅霸鹟的分類準確率高效果展示Fig.15 High accuracy effect with the classification of vermillion flycatcher

      3.3 常用數(shù)據(jù)庫識別率對比

      表1展現(xiàn)了不同算法在鳥類數(shù)據(jù)集上分類準確率的結果比較。本文提出的注意力自身線性融合的算法能夠有效地將模型的注意力集中到更加細致的判別性特征上,因此在鳥類數(shù)據(jù)上取得了相對較好的88.5%的分類準確率,略高于目前的主流算法,識別率雖然提高不大,但是通過自身融合的方式將計算量降低到WS-DAN原計算量的,有效地減少了計算量。

      表1 不同算法在鳥類數(shù)據(jù)集上的分類準確率對比 單位:%Tab.1 Comparison of classification accuracy between different methods on birds dataset unit:%

      表2展示了本文算法與WS-DAN在鳥類數(shù)據(jù)集上準確率的對比,與WS-DAN相比本文算法top1的準確率(pytorch實現(xiàn))提升了0.23個百分點,top5的準確率提升0.19個百分點。

      表2 本文算法與WS-DAN在鳥類數(shù)據(jù)集上的準確率對比 單位:%Tab.2 Accuracy comparison between the proposed algorithm with WS-DAN on birds dataset unit:%

      表3展示了本文算法與WS-DAN在犬類數(shù)據(jù)集上準確率的對比,與WS-DAN相比本文算法top1的準確率(pytorch實現(xiàn))提升了0.11個百分點,top5的準確率提升了0.05個百分點。

      表3 本文算法與WS-DAN在犬類數(shù)據(jù)集上的準確率對比 單位:%Tab.3 Accuracy comparison between the proposed algorithm with WS-DAN on dogs dataset unit:%

      表4展示了本文算法與WS-DAN在飛機數(shù)據(jù)集上準確率的對比,與WS-DAN相比本文算法top1的準確率(pytorch實現(xiàn))提升了0.24個百分點,top5的準確率提升了0.09個百分點。

      表4 本文算法與WS-DAN在飛機數(shù)據(jù)集上的準確率對比 單位:%Tab.4 Accuracy comparison between the proposed algorithm with WS-DAN on aircrafts dataset unit:%

      4 結語

      本文針對細粒度識別過程中的注意力機制,提出了一種基于注意力自身線性融合的識別網(wǎng)絡。通過Inception V3 提取出的特征圖通過深度可分離卷積操作得到注意力區(qū)域,再通過AABP 的算法將所得的注意力區(qū)域生成注意力特征矩陣放到模型中進行訓練,使得模型將注意力更加集中到更具判別性的細微差異特征上。在細粒度圖像數(shù)據(jù)庫CUB-200-2011 鳥類數(shù)據(jù)集、Stanford Dogs、FGVC-Aircraft 進行了充分的實驗,取得了較好的實驗結果,并對錯誤分類情況進行了詳細的分析,為下一步改進優(yōu)化本文算法奠定了基礎。在本文研究中只選擇了Inception V3網(wǎng)絡進行特征提取,沒有測試其他主流的特征提取網(wǎng)絡,其次在數(shù)據(jù)增強方面只采用了WSDAN 這一種辦法。針對這兩處局限性以及誤識別樣本情況的分析,在接下來的研究工作中,將進一步改進模型結構,使得本文算法更加完善。

      猜你喜歡
      細粒度注意力準確率
      融合判別性與細粒度特征的抗遮擋紅外目標跟蹤算法
      紅外技術(2022年11期)2022-11-25 03:20:40
      讓注意力“飛”回來
      乳腺超聲檢查診斷乳腺腫瘤的特異度及準確率分析
      健康之家(2021年19期)2021-05-23 11:17:39
      不同序列磁共振成像診斷脊柱損傷的臨床準確率比較探討
      細粒度的流計算執(zhí)行效率優(yōu)化方法
      高技術通訊(2021年1期)2021-03-29 02:29:24
      2015—2017 年寧夏各天氣預報參考產(chǎn)品質量檢驗分析
      高速公路車牌識別標識站準確率驗證法
      基于雙線性卷積網(wǎng)絡的細粒度圖像定位
      “揚眼”APP:讓注意力“變現(xiàn)”
      傳媒評論(2017年3期)2017-06-13 09:18:10
      支持細粒度權限控制且可搜索的PHR云服務系統(tǒng)
      本溪| 南投县| 江永县| 尼木县| 二连浩特市| 通许县| 南木林县| 永春县| 赣榆县| 星子县| 津市市| 宜良县| 嘉义市| 准格尔旗| 高阳县| 乐亭县| 和平区| 滦平县| 循化| 壤塘县| 中宁县| 申扎县| 霍山县| 额尔古纳市| 河津市| 湘西| 黄陵县| 福贡县| 自治县| 浮梁县| 莱州市| 房山区| 苍溪县| 大丰市| 罗城| 肥城市| 甘德县| 建始县| 呼伦贝尔市| 瓮安县| 南汇区|