舒振宇,秦昊
(中南民族大學(xué) 電子信息工程學(xué)院,武漢 430074)
飛機(jī)無論是作為民用的出行交通工具還是應(yīng)用在軍事上的打擊作戰(zhàn)武器,都已經(jīng)得到了廣泛的應(yīng)用[1].隨著我國經(jīng)濟(jì)和軍事能力的發(fā)展,高準(zhǔn)確度的飛機(jī)識別系統(tǒng)可以幫助航空中心精準(zhǔn)識別飛機(jī)型號、有效協(xié)助地面航站中心指揮飛機(jī)起降,也可以應(yīng)用于軍隊(duì)監(jiān)測敵情、打擊目標(biāo)等作戰(zhàn)任務(wù).
近年來,飛機(jī)類型識別任務(wù)作為一種復(fù)雜的圖像細(xì)粒度分類任務(wù),已有許多學(xué)者對其進(jìn)行了深入研究.李萍等[2]利用紅外信息和特征融合對飛機(jī)紅外圖像進(jìn)行目標(biāo)識別.邵大培等[3]使用基于主成分分析和模板匹配的方法對飛機(jī)進(jìn)行識別.這些傳統(tǒng)的飛機(jī)識別算法往往需要人工手動對特征進(jìn)行處理或選擇,復(fù)雜度大,準(zhǔn)確率也比較低.
目前通過AlexNet[4]等深度學(xué)習(xí)方法對飛機(jī)類型識別的研究還較少.文獻(xiàn)[5]提出了一種自監(jiān)督機(jī)制網(wǎng)絡(luò),利用導(dǎo)航網(wǎng)絡(luò)等多網(wǎng)絡(luò)合作方法,定位信息豐富的區(qū)域,該網(wǎng)絡(luò)在MAJI等建立的FGVC-Aircraft數(shù)據(jù)集[6]上取得了91.4%的識別準(zhǔn)確率.文獻(xiàn)[7]提出了一個(gè)基于多粒度空間混亂的細(xì)粒度圖像分類算法,提出將輸入圖像進(jìn)行切分、打亂、組合的方法,使模型聚焦于多尺寸下的判別性局部區(qū)域并進(jìn)行分類,在FGVC-Aircraft 數(shù)據(jù)集上取得了92.8%的識別準(zhǔn)確率.文獻(xiàn)[8]通過聯(lián)合損失函數(shù)從低分辨率的飛機(jī)遙感圖像中生成具有判別能力的高分辨率圖像來提高識別能力,建立起面向飛機(jī)遙感圖像的飛機(jī)識別框架SRARNet,在飛機(jī)遙感圖像數(shù)據(jù)集MTARSI[9]上取得了93.4%的識別準(zhǔn)確率.
飛機(jī)類型識別任務(wù)作為一項(xiàng)細(xì)粒度分類任務(wù),面臨“類間差距小、類內(nèi)差異大”這一難題,不同類別飛機(jī)圖像中會因?yàn)槟繕?biāo)姿態(tài)、角度相似而差異較小,而同一類別的飛機(jī)圖像中會因?yàn)楸尘半s亂、部件更換、歷史外觀變化等眾多因素導(dǎo)致差異較大.為解決這一難題,多數(shù)學(xué)者采用注意力機(jī)制[10]學(xué)習(xí)圖像中的顯著局部特征,抑制其他區(qū)域不重要的背景特征.為了有效發(fā)揮注意力機(jī)制在特征提取中的功效,本文以ResNeXt101[11]網(wǎng)絡(luò)為基礎(chǔ)網(wǎng)絡(luò),將改進(jìn)的SKNet注意力[12]嵌入基礎(chǔ)網(wǎng)絡(luò)中以增強(qiáng)網(wǎng)絡(luò)的特征提取能力.此外,對數(shù)據(jù)集中的訓(xùn)練數(shù)據(jù)采取數(shù)據(jù)增廣的方式進(jìn)行處理,讓網(wǎng)絡(luò)在學(xué)習(xí)目標(biāo)特征的過程中兼顧局部特征和整體特征,增強(qiáng)了網(wǎng)絡(luò)在復(fù)雜背景下對目標(biāo)總體信息的表達(dá)能力.
CBAM[13]是基于通道和空間的混合域注意力機(jī)制,本文對其修改后提出了改進(jìn)后的并行通道空間注意力機(jī)制(圖1).CBAM注意力結(jié)構(gòu)如圖1所示.
圖1 CBAM注意力結(jié)構(gòu)Fig.1 CBAM attention structure
CBAM 屬于混合域的注意力機(jī)制,它將特征圖在空間維度和通道維度上的信息重新賦予不同的權(quán)重.在CBAM 注意力模塊中輸入特征圖F首先通過通道注意力機(jī)制加權(quán)得到F1,再將F1作為輸入串行接入空間注意力加權(quán)得到F2,其過程表示如下:
其中MC(F)為F經(jīng)過通道注意力的輸出權(quán)值,MS(F1)為F1經(jīng)過空間注意力的輸出權(quán)值.
由于CBAM注意力機(jī)制中通道注意力和空間注意力屬于一種串聯(lián)的關(guān)系,輸入特征圖會依次經(jīng)過兩次注意力權(quán)重分配的過程.然而,第二次注意力權(quán)重分配部分的輸入是第一次的輸出結(jié)果而非原輸入特征圖,這會導(dǎo)致第二次注意力作用的對象是經(jīng)過第一次注意力權(quán)重分配修改后的特征圖,這會在一定程度上擾亂第二次注意力提取相應(yīng)維度重要特征的過程,致使預(yù)測準(zhǔn)確度不佳.
為解決上述問題,將CBAM 注意力機(jī)制的注意力連接方式由串行改為并行得到PCSA 注意力機(jī)制,使輸入特征圖無需關(guān)注空間注意力和通道注意力順序,由兩條支路并行經(jīng)過通道注意力和空間注意力進(jìn)行權(quán)重分配,將輸出的兩個(gè)權(quán)重特征向量與原特征圖加權(quán)得到輸出特征圖,其網(wǎng)絡(luò)結(jié)構(gòu)如圖2.
圖2 PCSA注意力結(jié)構(gòu)Fig.2 PCSA attention structure
在PCSA注意力模塊中,輸入特征圖F分別經(jīng)過通道、空間注意力得到相應(yīng)權(quán)值,隨后將權(quán)值直接與原特征圖加權(quán)得到輸出特征圖F*,其過程如下:
其中MC(F)為F經(jīng)過通道注意力的輸出權(quán)值,MS(F)為F經(jīng)過空間注意力的輸出權(quán)值.
SKNet 網(wǎng)絡(luò)的設(shè)計(jì)思路是讓網(wǎng)絡(luò)從多個(gè)尺度大小的感受野中提取輸入圖像的特征信息,使圖像經(jīng)過不同尺度的卷積核并生成相同尺度的特征圖,以增強(qiáng)網(wǎng)絡(luò)的類別表征能力.本文將PCSA 注意力機(jī)制與SKNet 網(wǎng)絡(luò)相結(jié)合提出PCSA-SK 注意力機(jī)制,經(jīng)實(shí)驗(yàn)驗(yàn)證,該機(jī)制相比SKNet 取得了更好的效果.
1.2.1 可選擇卷積核網(wǎng)絡(luò)SKNet
SKNet 將注意力機(jī)制思想應(yīng)用到卷積核上,讓網(wǎng)絡(luò)動態(tài)選擇合適的卷積核,通過Split、Fuse、Select操作使網(wǎng)絡(luò)自適應(yīng)地調(diào)節(jié)感受野大小,兼顧多個(gè)尺度的特征信息.其中SKBlock結(jié)構(gòu)如圖3所示.
圖3 SKBlock結(jié)構(gòu)Fig.3 SKBlock structure
1.2.2 PCSA-SK注意力機(jī)制
為了在SKNet 的基礎(chǔ)上進(jìn)一步過濾無用信息,提取重要特征,受文獻(xiàn)[14]中采用方法的啟發(fā),本文提出了PCSA-SK 注意力機(jī)制,其模塊化網(wǎng)絡(luò)結(jié)構(gòu)如圖4 所示.它將分解階段產(chǎn)生的多個(gè)分支特征信息與PCSA 注意力機(jī)制結(jié)合,讓每個(gè)分支的特征圖通過并行的通道-空間注意力機(jī)制,使每個(gè)分支的特征圖都能在原Select 操作前進(jìn)行一次基于通道和空間維度的注意力權(quán)值分配,增強(qiáng)了模型在不同尺度分支上特征提取的能力.
圖4 PCSA-SK注意力結(jié)構(gòu)Fig.4 PCSA-SK attention structure
在PCSA-SK 注意力機(jī)制中,Split 階段與SKNet網(wǎng)絡(luò)相同,生成基于不同尺度卷積核的兩個(gè)分支的特征圖.在Fuse階段每個(gè)分支的特征圖會通過PCSA注意力,得到輸出;兩個(gè)分支特征圖融合相加輸出U經(jīng)過全局平均池化、全連接層和Softmax 操作得到基于原始SKNet網(wǎng)絡(luò)的注意力特征向量a、b,分別與進(jìn)行相乘加權(quán)在Select 階段將結(jié)果進(jìn)行特征相加得到最終特征圖V,其過程如下所示:
其中Fca表示通道注意力機(jī)制,F(xiàn)sa表示空間注意力機(jī)制,分別是分支特征圖經(jīng)過PCSA 模塊后產(chǎn)生的輸出,ac、bc分別表示兩個(gè)注意力權(quán)重a、b的第c個(gè)元素,Vc是最終特征圖V的第c個(gè)通道,分別為2 個(gè)支路產(chǎn)生的輸出特征的第c個(gè)通道.
數(shù)據(jù)增廣是計(jì)算機(jī)視覺領(lǐng)域常使用的一種數(shù)據(jù)正則化方法,可以緩解訓(xùn)練數(shù)據(jù)不足帶來的模型過擬合的問題[15].常用數(shù)據(jù)增廣方法有翻轉(zhuǎn)、裁剪等,主要通過預(yù)先設(shè)置的概率值對原始數(shù)據(jù)進(jìn)行變換,但未考慮到網(wǎng)絡(luò)更關(guān)注于原始數(shù)據(jù)中的目標(biāo)主體信息.以常用的隨機(jī)裁剪為例,裁去的部分可能含有對分類具有判別性作用的關(guān)鍵信息,這樣產(chǎn)生的增廣數(shù)據(jù)很難提升模型的分類性能.
卷積神經(jīng)網(wǎng)絡(luò)如ResNet[16]、VGG-Net[17]等在最后一個(gè)卷積層產(chǎn)生的特征圖中包含圖像豐富的分類信息和定位信息,受文獻(xiàn)[18]的啟發(fā),神經(jīng)網(wǎng)絡(luò)在初始數(shù)據(jù)集上經(jīng)過初次訓(xùn)練后,再次將訓(xùn)練集的圖像輸入網(wǎng)絡(luò),經(jīng)過特征提取階段能夠得到目標(biāo)位置信息豐富的特征圖,將特征提取階段得到的特征圖進(jìn)行通道維度疊加得到目標(biāo)激活圖.在神經(jīng)網(wǎng)絡(luò)訓(xùn)練的過程中,由于反向傳播和特征提取階段的作用,網(wǎng)絡(luò)會增強(qiáng)特征圖中目標(biāo)信息的表達(dá),使得特征圖中目標(biāo)區(qū)域的數(shù)值高于其他區(qū)域,因此經(jīng)過通道維度疊加后得到的目標(biāo)激活圖能夠明顯地反映原圖像中目標(biāo)區(qū)域的位置信息.將目標(biāo)激活圖中目標(biāo)位置明確的區(qū)域映射到原圖像中的對應(yīng)區(qū)域,裁剪原圖像中的對應(yīng)區(qū)域并將得到的圖像加入初始數(shù)據(jù)集的訓(xùn)練集中以實(shí)現(xiàn)數(shù)據(jù)增廣.網(wǎng)絡(luò)能夠在新的數(shù)據(jù)集上充分學(xué)習(xí)全局特征與局部特征信息,從而較精確地提取原始圖像中的目標(biāo)信息,排除背景噪聲干擾.數(shù)據(jù)增廣的流程圖如圖5所示.
圖5 數(shù)據(jù)增廣結(jié)構(gòu)Fig.5 Data augmentation structure
得到原始樣本的目標(biāo)激活圖后,采用合適的裁剪映射算法得到含有目標(biāo)信息的增廣樣本.首先對目標(biāo)激活圖P∈RH×W進(jìn)行均值計(jì)算,過程如下:
P(u,v)表示目標(biāo)激活圖P在第u行第v列的響應(yīng)值,P*(u,v)代表目標(biāo)激活圖中目標(biāo)區(qū)域的判斷依據(jù).
本文算法引入了一個(gè)激活系數(shù)m,當(dāng)P*大于裁剪閾值m時(shí)M(u,v)=1,否則M(u,v)=0.尋找一組最小的邊界框來覆蓋這些位置得到激活圖中含有目標(biāo)信息的區(qū)域[19].將這組邊界框按照目標(biāo)激活圖與原圖像的尺寸比例放大到原圖像中并依據(jù)放大后的邊界框信息對原圖像進(jìn)行裁剪,就得到了細(xì)節(jié)信息更豐富、目標(biāo)信息更準(zhǔn)確的數(shù)據(jù)增廣圖像.讓網(wǎng)絡(luò)同時(shí)訓(xùn)練增廣圖像與原輸入圖像,能夠使網(wǎng)絡(luò)同時(shí)學(xué)習(xí)到圖像的全局和目標(biāo)信息,增強(qiáng)了模型對不同尺度圖像識別過程中的魯棒性和準(zhǔn)確性.
目標(biāo)激活圖中像素值高于均值的區(qū)域是目標(biāo)信息最顯著的區(qū)域,但是某些邊緣區(qū)域的非目標(biāo)位置可能會被誤判為目標(biāo)區(qū)域而導(dǎo)致裁剪效果較差.為了使裁剪產(chǎn)生的增廣數(shù)據(jù)只包含主體的目標(biāo)信息,減少背景信息的干擾,通過調(diào)節(jié)并選擇激活系數(shù)m的最優(yōu)值,來保證通過裁剪產(chǎn)生的增廣數(shù)據(jù)中只含有目標(biāo)信息.如圖6所示,激活系數(shù)過大或過小都會對提取目標(biāo)區(qū)域產(chǎn)生影響,選取合適的激活系數(shù)可以保證生成的增廣數(shù)據(jù)中目標(biāo)主體信息具有最明確的判別性特征.
圖6 m取值效果對比圖Fig.6 Comparison chart of m value effect
本文模型在ResNeXt101 網(wǎng)絡(luò)的基礎(chǔ)上實(shí)現(xiàn)飛機(jī)類型識別,并通過改進(jìn)的可選擇卷積核注意力和數(shù)據(jù)增廣方法提高模型的多類別分類效果,圖7 為本文模型的總體框架,可分為特征提取階段、數(shù)據(jù)增廣階段和分類器階段.
(2)數(shù)據(jù)增廣階段.它屬于特征提取階段的一個(gè)并行分支部分.特征圖經(jīng)過Conv3 得到512 的特征圖之后,將Conv4 和Conv5 階段中下采樣層的步長stride 由1 改為2,使得特征圖通過Conv4和Conv5時(shí)尺寸保持在,進(jìn)行目標(biāo)區(qū)域裁剪,保存為新的增廣數(shù)據(jù)樣本,與原始數(shù)據(jù)樣本一同參與模型訓(xùn)練.
(3)分類器階段.將由特征提取階段所提取到的特征經(jīng)過一個(gè)全局平均池化以及Dropout 減少參數(shù)量,防止出現(xiàn)過擬合;然后經(jīng)過一個(gè)全連接層得到40 個(gè)類別的分?jǐn)?shù)信息;之后經(jīng)過Softmax 函數(shù)對各個(gè)類別的信息映射為0到1的概率值.
Ubuntu18.04系統(tǒng),Python3.8、Cuda11.1、Pytorch1.8.1構(gòu)建框架.CPU Intel i5-3470,內(nèi)存8 GB,顯卡Nvidia GeForce RTX 3060,顯存12 GB.
本文使用的是細(xì)粒度識別挑戰(zhàn)比賽FGComp 2013 中FGVC-Aircraft 飛機(jī)細(xì)粒度視覺分類數(shù)據(jù)集.FGVC-Aircraft 包括客機(jī)、軍用戰(zhàn)斗機(jī)、輕型飛機(jī)等多種構(gòu)型,總共包含了10000張圖片,其中每張圖片都含有對應(yīng)的類別信息.數(shù)據(jù)集中存在多種類別之間相似度高、同一類別中差距較大的情況.這些問題給模型的訓(xùn)練和識別帶來一定的困難.FGVCAircraft數(shù)據(jù)集按飛機(jī)型號分為70個(gè)類別,部分?jǐn)?shù)據(jù)圖像及樣本類別分布如圖8、圖9所示.
圖8 部分?jǐn)?shù)據(jù)圖像Fig.8 Partial data images
圖9 樣本類別分布Fig.9 Sample class distribution
實(shí)驗(yàn)中,將數(shù)據(jù)集按照7∶3 的比例分為訓(xùn)練集和驗(yàn)證集,70%作為訓(xùn)練數(shù)據(jù),30%作為驗(yàn)證數(shù)據(jù),并且兩者之間沒有數(shù)據(jù)交集.該數(shù)據(jù)集存在樣本較少、各個(gè)類別對應(yīng)樣本不均衡、圖片背景混亂以及目標(biāo)姿態(tài)各異等問題,這在一定程度上會影響飛機(jī)分類的性能.為了能夠增強(qiáng)模型的泛化能力以及魯棒性,本文采取了一系列數(shù)據(jù)增強(qiáng)手段,包括等比縮放、隨機(jī)噪聲、隨機(jī)裁剪、Mixup、Cutmix等.
實(shí)驗(yàn)中,將輸入圖像大小調(diào)整為288×288,Batchsize 設(shè)置為16,訓(xùn)練50 個(gè)epoch.為了防止出現(xiàn)過擬合的現(xiàn)象,在最后全連接層添加了dropout,其系數(shù)設(shè)置為0.4.實(shí)驗(yàn)采用SGD 作為優(yōu)化函數(shù),初始學(xué)習(xí)率設(shè)置為0.01,使用ReduceLROnPlateau 進(jìn)行學(xué)習(xí)率調(diào)整優(yōu)化.
本文以Top-1 準(zhǔn)確率作為模型的主要評價(jià)指標(biāo),其計(jì)算方式如下:其含義為識別正確的圖片數(shù)在總的測試的圖片數(shù)中所占的百分比.
本文采用交叉熵?fù)p失函數(shù)(CrossEntropyLoss)對模型進(jìn)行優(yōu)化,其算法如下:
其中class代表相應(yīng)類別.
為了充分驗(yàn)證本模型的綜合性能,從各個(gè)方面進(jìn)行綜合對比實(shí)驗(yàn),具體如下.
(1)基準(zhǔn)網(wǎng)絡(luò)的優(yōu)越性.在該組實(shí)驗(yàn)中,對當(dāng)前熱門的分類網(wǎng)絡(luò)在飛機(jī)分類任務(wù)上的表現(xiàn)進(jìn)行對比實(shí)驗(yàn),其中包括ResNet101[16]、ResNeXt50_32×4 d[11]以及本文采用的基準(zhǔn)網(wǎng)絡(luò)ResNeXt101_32×8 d[11].為了能夠更快擬合出高精度的模型,對各個(gè)網(wǎng)絡(luò)在ImageNet上訓(xùn)練的預(yù)訓(xùn)練模型在飛機(jī)分類數(shù)據(jù)集上進(jìn)行微調(diào),每種網(wǎng)絡(luò)訓(xùn)練30 個(gè)epoch,訓(xùn)練的過程和結(jié)果如圖10所示,準(zhǔn)確率對比見表1.
表1 基準(zhǔn)網(wǎng)絡(luò)分類準(zhǔn)確率對比Tab.1 Comparison of benchmark network classification accuracy
圖10 基準(zhǔn)網(wǎng)絡(luò)對比實(shí)驗(yàn)Fig.10 Benchmark network comparison experiment
當(dāng)模型的訓(xùn)練過程趨于穩(wěn)定后,ResNeXt101_32×8 d 相比于其他兩種網(wǎng)絡(luò)精度要高,并且網(wǎng)絡(luò)的深度和寬度都會影響模型的參數(shù)量和每秒浮點(diǎn)運(yùn)算量.由于分類任務(wù)需要選擇識別效果更好的基準(zhǔn)網(wǎng)絡(luò),在不考慮硬件資源限制的情況下,本文選擇精度最高的ResNeXt101_32×8 d網(wǎng)絡(luò).
(2)PCSA 模塊的有效性.為了證明PCSA 模塊的有效性,本文將基準(zhǔn)網(wǎng)絡(luò)結(jié)合PCSA-SK 注意力機(jī)制的網(wǎng)絡(luò)與把網(wǎng)絡(luò)中PCSA注意力機(jī)制替換為CBAM注意力機(jī)制的網(wǎng)絡(luò)進(jìn)行對比,其他網(wǎng)絡(luò)結(jié)構(gòu)均不發(fā)生改變,訓(xùn)練過程如圖11 所示.ResNeXt101_32×8 d_PCSA-SK 代表基準(zhǔn)網(wǎng)絡(luò)結(jié)合PCSA-SK 注意力機(jī)制的網(wǎng)絡(luò)訓(xùn)練曲線,ResNeXt101_32×8 d_CBAM-SK代表將網(wǎng)絡(luò)中PCSA 注意力機(jī)制替換為CBAM 注意力機(jī)制的網(wǎng)絡(luò)訓(xùn)練曲線.準(zhǔn)確率對比見表2.
表2 模塊有效性準(zhǔn)確率對比Tab.2 Comparison of module effectiveness and accuracy
圖11 模塊有效性對比實(shí)驗(yàn)Fig.11 Module effectiveness comparison experiment
在網(wǎng)絡(luò)中使用PCSA 模塊在整個(gè)訓(xùn)練過程中精度曲線都比較平穩(wěn),而在網(wǎng)絡(luò)中使用CBAM模塊時(shí)會產(chǎn)生震蕩現(xiàn)象.在網(wǎng)絡(luò)中使用PCSA 模塊得到的測試精度高于在相同網(wǎng)絡(luò)結(jié)構(gòu)條件下使用CBAM 模塊,說明在飛機(jī)識別任務(wù)中PCSA 模塊采用并行通道-空間注意力處理信息的方式解決了串行結(jié)構(gòu)中兩種注意力無法在原始特征圖上進(jìn)行學(xué)習(xí)帶來的不穩(wěn)定和干擾,有助于模型學(xué)習(xí)到原始特征圖上最正確的特征信息,提高網(wǎng)絡(luò)對相應(yīng)類別識別的精度.由于PCSA 模塊與CBAM 模塊只在通道、空間注意力的排列方式上不同,所以以上兩種網(wǎng)絡(luò)的參數(shù)量和每秒浮點(diǎn)運(yùn)算量是一致的.
(3)顯著性驗(yàn)證.在該組實(shí)驗(yàn)中,將本文網(wǎng)絡(luò)與其他在ResNeXt101_32×8 d 網(wǎng)絡(luò)中嵌入注意力機(jī)制的網(wǎng)絡(luò)進(jìn)行對比實(shí)驗(yàn),其中包括SKNet、SE block[20]、CBAM block,訓(xùn)練過程如圖12 所示,ResNeXt101_32×8 d_SE代表基準(zhǔn)網(wǎng)絡(luò)中添加SE注意力的訓(xùn)練曲線,ResNeXt101_32×8 d_CBAM代表基準(zhǔn)網(wǎng)絡(luò)中添加CBAM 注意力機(jī)制的網(wǎng)絡(luò)訓(xùn)練曲線,ResNeXt101_32×8 d_SK 代表基準(zhǔn)網(wǎng)絡(luò)中添加SK 注意力機(jī)制的網(wǎng)絡(luò)訓(xùn)練曲線.準(zhǔn)確率對比見表3.
表3 網(wǎng)絡(luò)顯著性準(zhǔn)確率對比Tab.3 Network saliency accuracy comparison
圖12 網(wǎng)絡(luò)顯著性對比實(shí)驗(yàn)Fig.12 Network saliency comparison experiment
通過與其他嵌入注意力機(jī)制的網(wǎng)絡(luò)進(jìn)行對比試驗(yàn)發(fā)現(xiàn),相較于原始網(wǎng)絡(luò),嵌入注意力機(jī)制對模型準(zhǔn)確度的提升有一定的效果,本文采用的注意力結(jié)合數(shù)據(jù)增廣的網(wǎng)絡(luò)架構(gòu)結(jié)合了PCSA、SKNet 注意力機(jī)制,相較于使用其他注意力機(jī)制的網(wǎng)絡(luò)具有較高的參數(shù)量和每秒浮點(diǎn)運(yùn)算量,但在忽略硬件資源限制的條件下對模型準(zhǔn)確率的提升效果更為顯著.
(4)消融實(shí)驗(yàn).對本文提出的網(wǎng)絡(luò)的各部分進(jìn)行消融實(shí)驗(yàn),其中包括基準(zhǔn)網(wǎng)絡(luò)ResNest101_32×8 d、只含PCSA-SK注意力機(jī)制的網(wǎng)絡(luò)、只使用數(shù)據(jù)增廣方法的網(wǎng)絡(luò)以及本文網(wǎng)絡(luò),訓(xùn)練過程如圖13所示.ResNeXt101_32×8 d 代表基準(zhǔn)網(wǎng)絡(luò)訓(xùn)練曲線,ResNeXt101_32×8 d_PCSA-SK 代表基準(zhǔn)網(wǎng)絡(luò)中只添加PCSA-SK 注意力機(jī)制的網(wǎng)絡(luò)訓(xùn)練曲線,ResNeXt101_32×8 d_DA 代表基準(zhǔn)網(wǎng)絡(luò)中只添加數(shù)據(jù)增廣方法的網(wǎng)絡(luò)訓(xùn)練曲線.準(zhǔn)確率對比見表4.
表4 網(wǎng)絡(luò)消融實(shí)驗(yàn)對比Tab.4 Comparison of network ablation experiments
圖13 各模塊消融實(shí)驗(yàn)Fig.13 Ablation experiment of each module
從消融實(shí)驗(yàn)對比結(jié)果可以看出,相較于原始網(wǎng)絡(luò),本文采用的加入PCSA-SK 注意力機(jī)制以及使用數(shù)據(jù)增廣的方法對網(wǎng)絡(luò)的收斂以及精度都有一定的提升效果.由于數(shù)據(jù)增廣的方法是在數(shù)據(jù)集上對網(wǎng)絡(luò)模型準(zhǔn)確率的優(yōu)化,因此在提高準(zhǔn)確率的同時(shí)不會帶來額外的參數(shù)量和每秒浮點(diǎn)運(yùn)算量的提升.本文在模型中將兩者結(jié)合起來同時(shí)使用提升效果更為明顯,在測試集上達(dá)到93.57%的準(zhǔn)確率,優(yōu)于其他方法,進(jìn)一步證明了本文提出網(wǎng)絡(luò)的有效性.
本文提出的基于改進(jìn)SKNet注意力與數(shù)據(jù)增廣的飛機(jī)類型識別網(wǎng)絡(luò)在飛機(jī)類型識別任務(wù)中,總體的識別準(zhǔn)確率相較于其他對比方法有顯著的提升,與其他設(shè)計(jì)了復(fù)雜模塊的方法相比,分類效果更好.
針對當(dāng)前飛機(jī)類型識別作為一種細(xì)粒度分類任務(wù)存在的類間差異小、類內(nèi)差異大、分類精度低等問題,在ResNeXt101 網(wǎng)絡(luò)的基礎(chǔ)上結(jié)合改進(jìn)的SKNet注意力即PCSA-SK 注意力機(jī)制和數(shù)據(jù)增廣的方法,幫助模型學(xué)習(xí)到飛機(jī)不同類別中具有區(qū)分度的關(guān)鍵信息.與其他當(dāng)前具有代表性的模型結(jié)構(gòu)相比,本文采用注意力機(jī)制與數(shù)據(jù)增廣結(jié)合的方法在常用的飛機(jī)類型識別數(shù)據(jù)集FGVC-Aircraft 上取得了較好的識別效果,分類效果提升,可以基本滿足當(dāng)前各領(lǐng)域?qū)︼w機(jī)類型識別任務(wù)的需求.