摘 要:在圖像分類中,有益的語(yǔ)義信息補(bǔ)充可以高效捕捉關(guān)鍵區(qū)域,提高分類性能。為了獲得有益的圖像語(yǔ)義信息,提出了一種SE-CMT(SE-Networks CNN Meet Transformer)模型。該模型依據(jù)簡(jiǎn)單的CNN特征提取理論,輸入圖像通過(guò)SE-CMT Stem重標(biāo)定前面提取到的特征,再通過(guò)SE-CMT Block中的深度卷積層來(lái)增強(qiáng)特征。利用SE-CNN(Squeeze-and-Excitation Networks-CNN)提取低級(jí)特征、加強(qiáng)局部性,并結(jié)合Transformer建立長(zhǎng)程依賴關(guān)系,通過(guò)融合SE-CNN和Transformer結(jié)構(gòu),提高特征提取性能。在ImageNet和CIFAR-10數(shù)據(jù)集上的實(shí)驗(yàn)結(jié)果表明:SE-CMT模型的分類準(zhǔn)確率分別達(dá)到了85.47%和87.16%top-1精度,性能優(yōu)于基線模型CMT和Vision Transformer。因此,本文提出的SE-CMT模型是一種有效的圖像特征提取方法。
關(guān)鍵詞:圖像分類;權(quán)重矩陣;卷積神經(jīng)網(wǎng)絡(luò);Transformer;通道域
DOI:10.15938/j.jhust.2024.06.007
中圖分類號(hào): TP391
文獻(xiàn)標(biāo)志碼: A
文章編號(hào): 1007-2683(2024)06-0074-08
Feature Extraction Model of SE-CMT Semantic Information Supplement
DU Ruishan1,2, ZHOU Changkun1, XIE Hongtao1, LI Hongjie1
(1.School of Computer and Information Technology, Northeast Petroleum School, Daqing 163318, China;
2.Key Laboratory of Oil and Gas Reservoir and Underground Gas Storage Integrity Evaluations,
Northeast Petroleum University, Daqing 163318, China)
Abstract:In image classification, beneficial semantic information supplementation can efficiently capture key regions and improve classification performance. To obtain beneficial image semantic information, an SE-CMT (SE-Networks CNN Meet Transformer) model is proposed. The model is based on the simple CNN feature extraction theory, where the input image is rescaled by the SE-CMT Stem to the previously extracted features, and then the features are enhanced by the deep convolutional layer in the SE-CMT Block. The model uses SE-CNN (Squeeze-and-Excitation Networks-CNN) to extract low-level features, enhance localization, and combine with Transformer to establish long-range dependencies to improve feature extraction performance by fusing SE-CNN and Transformer structures. The experimental results on ImageNet and CIFAR-10 datasets show that the classification accuracy of the SE-CMT model reaches 85.47% and 87.16% top-1 accuracy, respectively, and the experiments show that the method outperforms the baseline models CMT and Vision Transformer. Therefore, the proposed SE-CMT model in this study is an effective method for image feature extraction.
Keywords:image classification; weight matrix; convolutional neural network; transformer; channel domain
收稿日期: 2023-06-29
基金項(xiàng)目: 國(guó)家重點(diǎn)研發(fā)計(jì)劃(2022YFE0206800);黑龍江省自然科學(xué)基金(LH2021F004).
作者簡(jiǎn)介:
周長(zhǎng)坤(1998—),女,碩士研究生;
解紅濤(1977—),男,碩士,副教授.
通信作者:
杜睿山(1977—),男,博士,副教授,E-mail:durs918@163.com.
0 引 言
深度學(xué)習(xí)出現(xiàn)后,卷積神經(jīng)網(wǎng)絡(luò)(CNN)已經(jīng)成為圖像分類、目標(biāo)檢測(cè)和語(yǔ)義分割的主導(dǎo)方法[1]。最近,使用各種注意力機(jī)制的Transformer已經(jīng)成為自然語(yǔ)言處理(NLP)任務(wù)的主流。將Transformer應(yīng)用于視覺(jué)領(lǐng)域包括圖像生成[2]、目標(biāo)檢測(cè)[3] 、視頻問(wèn)答[4],以及語(yǔ)義分割[5]在內(nèi)的多個(gè)任務(wù)中顯示出了出色的結(jié)果[6]。除此之外,已有研究將Transformer與CNN融合應(yīng)用于圖像深度估計(jì)中[7]。
盡管Transformer在遷移到視覺(jué)任務(wù)時(shí)表現(xiàn)出了出色的能力,但它們的性能仍然遠(yuǎn)遠(yuǎn)低于類似大小的卷積神經(jīng)網(wǎng)絡(luò)。本文認(rèn)為造成這種弱點(diǎn)的原因有3個(gè)。第一,在ViT(visual information transformer)、IPT(image processing transformer)和SETR(segmentation transformer with recurrence)等其他基于Transformer的模型中將圖像分割成補(bǔ)丁,并且補(bǔ)丁的序列可以直接輸入到標(biāo)準(zhǔn)的Transformer中,在Transformer中可以很好地捕獲補(bǔ)丁之間的長(zhǎng)程依賴關(guān)系。然而,它忽略了基于序列的NLP任務(wù)和基于圖像的視覺(jué)任務(wù)之間結(jié)構(gòu)和空間局部信息的根本區(qū)別。第二,由于固定的patch大小,Transformer很難顯式地提取低分辨率和多尺度特征,這對(duì)檢測(cè)和分割等密集預(yù)測(cè)任務(wù)提出了很大的挑戰(zhàn)。第三,與基于卷積的CNN的O(NC2)相比,Transformer中自注意力模塊的計(jì)算和內(nèi)存成本是輸入分辨率的二次方(O(N2C))。高分辨率圖像非常普遍和常見(jiàn),用Transformer來(lái)處理這樣的圖像,必然會(huì)造成GPU內(nèi)存不足、計(jì)算效率低下的問(wèn)題。
本文站在SE-CNN和Transformer的交叉點(diǎn)上,提出了一種新的視覺(jué)識(shí)別SE-CMT架構(gòu)。SE-CMT利用SE-CNN的優(yōu)勢(shì)來(lái)彌補(bǔ)單獨(dú)使用Transformer時(shí)的限制。
輸入的圖像首先經(jīng)過(guò)卷積進(jìn)行細(xì)粒度特征提取然后將其輸入到SE-CMT塊中進(jìn)行表示學(xué)習(xí)。具體來(lái)說(shuō),引入的SE-CMT塊是Transformer塊的改進(jìn)變體,其局部信息通過(guò)注意力深度卷積得到增強(qiáng)。與ViT相比,SE-CMT第一階段生成的特征可以保持更高的分辨率,即(H/4)×(W/4)相對(duì)于ViT中的(H/16)×(W/16),這對(duì)于其他密集預(yù)測(cè)任務(wù)至關(guān)重要。此外,本文采用類似CNN的分階段架構(gòu)設(shè)計(jì),通過(guò)使用4個(gè)步幅為2的卷積層,逐步降低分辨率(序列長(zhǎng)度)并靈活增加維度。分階段設(shè)計(jì)有助于提取多尺度特征,減輕高分辨率造成的計(jì)算負(fù)擔(dān)。SE-CMT中的局部感知單元(LPU)和倒殘差前饋網(wǎng)絡(luò)(IRFFN)有助于同時(shí)捕捉中間特征內(nèi)部的局部和全局結(jié)構(gòu)信息提升網(wǎng)絡(luò)的表示能力,SE注意力機(jī)制有助于突出每個(gè)特征通道的重要性,使神經(jīng)網(wǎng)絡(luò)重點(diǎn)關(guān)注某些權(quán)重值大的通道。最后,使用平均池化來(lái)替換ViT中的類token,以獲得更好的分類結(jié)果。除此之外,本文還利用CMT中使用的縮放策略來(lái)獲得一個(gè)SE-CMT變體族。在CIFAR-10和ImageNet數(shù)據(jù)集上的廣泛實(shí)驗(yàn)證明SE-CMT的準(zhǔn)確性和計(jì)算復(fù)雜度方面的優(yōu)越性。
1 相關(guān)工作
CNN在計(jì)算機(jī)視覺(jué)的各種應(yīng)用中已經(jīng)成為主流。它具有深度神經(jīng)網(wǎng)絡(luò)的形式,其中卷積層以串行或并行的方式堆疊。雖然CNN顯示出了出色的結(jié)果,但由于卷積核的尺寸有限,難以提取全局特征。除此之外,通過(guò)CNN提取特征并沒(méi)有被賦予重要性權(quán)值,這會(huì)使后續(xù)的工作量加大。與CNN相比,基于自注意力和交叉注意力的Transformer[8]在提取全局特征方面表現(xiàn)出優(yōu)勢(shì)。
1.1 卷積神經(jīng)網(wǎng)絡(luò)
第一個(gè)標(biāo)準(zhǔn)的CNN是由LeCun等提出的,用于手寫數(shù)字字體的識(shí)別,在過(guò)去幾十年見(jiàn)證了許多強(qiáng)大的CNN網(wǎng)絡(luò)在大規(guī)模圖像分類任務(wù)上取得了前所未有的成功,AlexNet和VGG表明,由卷積層和池化層組成的深度神經(jīng)網(wǎng)絡(luò)可以在識(shí)別中獲得足夠的結(jié)果,GoogleNet和InceptionNet展示了一個(gè)基本塊內(nèi)多條路徑的有效性。一些研究將注意力機(jī)制作為一種操作來(lái)使用模態(tài),提出了在深度殘差網(wǎng)絡(luò)的中間階段之間順序堆疊注意力模塊,SENet和GENet通過(guò)對(duì)通道之間的相互依賴關(guān)系建模,自適應(yīng)地重新校準(zhǔn)通道特征響應(yīng)。NLNet將自注意力機(jī)制整合到神經(jīng)網(wǎng)絡(luò)中,提供所有空間位置的成對(duì)交互以增強(qiáng)遠(yuǎn)程依賴關(guān)系。除了上述架構(gòu)上的進(jìn)步之外,還有一些工作專注于通過(guò)以準(zhǔn)確性換取效率來(lái)改進(jìn)過(guò)度參數(shù)化的神經(jīng)網(wǎng)絡(luò),例如MobileNet和Efficient-Net[9]都利用神經(jīng)網(wǎng)絡(luò)搜索NAS來(lái)設(shè)計(jì)高性能的移動(dòng)設(shè)備網(wǎng)絡(luò),并取得了先進(jìn)的成果。
1.2 Transformer
Transformer在自然語(yǔ)言處理(NLP)[10]方面取得顯著成就之后,許多研究致力于將類Transformer結(jié)構(gòu)引入到各種視覺(jué)任務(wù)并且也有很多研究在特征點(diǎn)配準(zhǔn)率、匹配準(zhǔn)確率和運(yùn)行速度上都有所提升[11]。ViT的開創(chuàng)性工作提出了一種方法,把圖像塊考慮為單詞標(biāo)記。ViT使用了一個(gè)大型私有數(shù)據(jù)集JFT-300M來(lái)訓(xùn)練模型。DeiT提出了一種算法,使用ImageNet-1K以數(shù)據(jù)高效的方式訓(xùn)練ViT。在T2T-ViT中,通過(guò)將相鄰的token遞歸聚合為一個(gè)token來(lái)嵌入視覺(jué)token。TNT(transformer in transformer)[12]使用內(nèi)部和外部的Transformer塊來(lái)表示圖像的塊級(jí)和像素級(jí)特征。
ViT作為一種基于Transformer架構(gòu)的模型,展現(xiàn)出了獨(dú)特的優(yōu)勢(shì)[13]。然而,為了更好地適應(yīng)密集的像素級(jí)預(yù)測(cè)任務(wù),PVT對(duì)ViT進(jìn)行了改進(jìn)。PVT創(chuàng)新性地引入了金字塔結(jié)構(gòu),通過(guò)這種結(jié)構(gòu),模型能夠有效利用多尺度特征圖,為密集的像素級(jí)預(yù)測(cè)任務(wù)提供了更加豐富和全面的特征表達(dá),顯著提升了模型在這類任務(wù)中的性能表現(xiàn)。在CPVT(cross-attention pyramid vision transformer)和CVT(convolutional vision transformer)中,提出了一種使用卷積投影將CNN和Transformer集成到Transformer塊中的算法。CMT[14]通過(guò)研究shortcut函數(shù)和歸一化函數(shù)等,進(jìn)一步擴(kuò)展了CNN和Transformer的集成。
CNN和Transformer的集成專注于模型設(shè)計(jì),本文獨(dú)立地對(duì)待它們,以有效地融合它們。
2 SE-CMT的總體架構(gòu)設(shè)計(jì)
本文利用SE-CNN和Transformer的優(yōu)勢(shì)提出了一種混合網(wǎng)絡(luò)。圖1為SE-CMT實(shí)現(xiàn)圖像分類的總體框架。本文利用步幅為2的3×3卷積和32的輸出通道的Stem架構(gòu)來(lái)減少輸入圖像的大小,然后再使用兩個(gè)步幅為1的3×3卷積來(lái)更好地進(jìn)行局部信息提取。遵循ResNet的設(shè)計(jì),本文提出的模型有4個(gè)階段來(lái)生成不同尺度的特征圖,這些特征圖對(duì)密集預(yù)測(cè)任務(wù)很重要。為了產(chǎn)生分層表示,在每個(gè)階段之前應(yīng)用由卷積層和歸一化(LN)組成的塊嵌入層,以減少中間特征的大小(分辨率的2倍下采樣),并將其投影到更大的維度(維度的2倍放大)。在每個(gè)階段,幾個(gè)SE-CMT塊依次堆疊以進(jìn)行特征轉(zhuǎn)換,同時(shí)保持輸入的相同分辨率。例如,SE-CMT-S的“第三階段”包含16個(gè)CMT塊,如圖1所示。SE-CMT塊能夠捕獲局部和長(zhǎng)程依賴關(guān)系。該模型以一個(gè)全局平均池化層、一個(gè)映射層和一個(gè)帶有softmax的1000路分類層結(jié)束。
給定一個(gè)輸入圖像,本文可以獲得4個(gè)不同分辨率的分層特征圖,類似于典型的CNN,如ResNet和Efficient-Net。通過(guò)上述,相對(duì)于輸入步長(zhǎng)為4、8、16和32的特征圖,本文的SE-CMT可以獲得輸入圖像的多尺度表示,并可以應(yīng)用于圖像分類等下游任務(wù)。
本文提出的SE-CMT由SE-CMT Stem和SE-CMT Block組成,SE-CMT Stem是在傳統(tǒng)的CNN模型中加入SE注意力機(jī)制。而SE-CMT Block是由輕量級(jí)多頭自注意力(LMHSA)模塊和反向殘差前饋網(wǎng)絡(luò)(IRFFN)組成,如圖3所示。下面本文將對(duì)以上提到的兩個(gè)部分進(jìn)行描述。
2.1 SE-CMT Stem
給定一個(gè)輸入x,其特征通道數(shù)為C1,通過(guò)一系列卷積等一般變換后得到一個(gè)特征通道數(shù)為C2的特征。與傳統(tǒng)的CNN不同的是,通過(guò)3個(gè)操作來(lái)重標(biāo)定前面得到的特征,如圖2所示。首先是Squeeze操作,順著空間維度來(lái)進(jìn)行特征壓縮,將每個(gè)二維的特征通道變成一個(gè)實(shí)數(shù),這個(gè)實(shí)數(shù)某種程度上具有全局的感受野,并且輸出的維度和輸入的特征通道數(shù)相匹配。它表征著在特征通道上響應(yīng)的全局分布,而且使得靠近輸入的層也可以獲得全局的感受野,這一點(diǎn)在很多任務(wù)中都是非常有用的。其次是 Excitation操作,它是一個(gè)類似于循環(huán)神經(jīng)網(wǎng)絡(luò)中門的機(jī)制。通過(guò)參數(shù)w來(lái)為每個(gè)特征通道生成權(quán)重,其中參數(shù)w被學(xué)習(xí)用來(lái)顯式地建模特征通道間的相關(guān)性。最后是一個(gè)Reweight操作,將Excitation 的輸出權(quán)重看作是通過(guò)特征選擇后的每個(gè)特征通道的重要性,然后通過(guò)乘法逐通道加權(quán)到先前的特征上,完成在通道維度上對(duì)原始特征的重標(biāo)定。
2.2 SE-CMT Block
SE-CMT Block模塊是由一個(gè)輕量級(jí)多頭自注意力(LMHSA)模塊和一個(gè)反向殘差前饋網(wǎng)絡(luò)(IRFFN)組成,如圖3所示。
2.2.1 輕量級(jí)多頭自注意力(LMHSA)
本文還包括了激活層和最后一層之后的批量歸一化層,其中激活層被省略。深度卷積可以提取局部信息,插入的shortcut的目的類似經(jīng)典的殘差網(wǎng)絡(luò),主要來(lái)提高梯度跨層傳播能力。實(shí)驗(yàn)結(jié)果表明,shortcut有助于網(wǎng)絡(luò)取得更好的結(jié)果。結(jié)合上述3個(gè)組成部分,SE-CMT Block模塊可表示為
Yi=fLPU(Xi-1)(6)
Zi=fLMHSA(LN(Yi))+Yi(7)
Xi=fIRFFN(LN(Zi))+Zi(8)
其中:Yi、Zi分別表示第i個(gè)塊的局部感知單元(LPU)和LMHSA模塊的輸出特征;LN表示層歸一化,在每個(gè)階段堆疊幾個(gè)SE-CMT Block用于特征轉(zhuǎn)換和聚合。
2.3計(jì)算復(fù)雜度分析
在本節(jié)中,主要分析了標(biāo)準(zhǔn)的視覺(jué)Transformer模型和本文提出的SE-CMT模型之間的計(jì)算成本。一個(gè)標(biāo)準(zhǔn)的Transformer塊由一個(gè)多頭自注意力模塊(MHSA)和一個(gè)前饋神經(jīng)網(wǎng)絡(luò)組成(FFN)組成。給定大小為n×d的輸入特征,計(jì)算復(fù)雜度(FLOPs)的計(jì)算公式為
O(MHSA)=2nd(dk+dv)+n2(dk+dv)(9)
O(FFN)=2nd2r(10)
式中:r表示FFN的擴(kuò)展率;dk、dv分別表示key和value的維度,ViT設(shè)置d=dk=dv,r=4可以簡(jiǎn)化為
O(Transformer)=O(MHSA)+O(FFN)=12nd2+2n2d(11)
在上述設(shè)置下,SE-CMT Block的FLOPs如下:
O(LPU)=9nd(12)
O(LMHSA)=2nd2(1+1/k2)+2n2d/k2(13)
O(IRFFN)=8nd2+36nd(14)
O(SE-CMTblock)=O(LPU)+O(LMHSA)+O(IRFFN)=
10nd2(1+0.2/k2)+2n2d/k2+45nd(15)
其中k≥1為L(zhǎng)MHSA中的還原比。與標(biāo)準(zhǔn)Transformer塊相比,SE-CMT Block計(jì)算成本相對(duì)較低,更容易處理更高分辨率(更大n)下的特征圖。
2.4 縮放策略
受CMT模型的啟發(fā),提出了一種適用于基于Transformer的網(wǎng)絡(luò)的復(fù)合縮放策略,該策略使用一個(gè)復(fù)合系數(shù)φ以一種有原則的方式均勻縮放層數(shù)(深度)、維度和輸入分辨率:
αβ1.5γ2≈2.5,α≥1,β≥1,γ≥1(16)
其中α、β、γ是由網(wǎng)格搜索確定的常數(shù),用于決定如何將資源分配給網(wǎng)絡(luò)的深度、維度和輸入分辨率;φ為一個(gè)控制模型擴(kuò)展可用資源數(shù)量的系數(shù)。根據(jù)式(16),所提出的SE-CMT塊的浮點(diǎn)運(yùn)算數(shù)(FLOPs)大約與α,β1.5和γ2成比例。因此,限制αβ1.5γ2≈2.5,總的FLOPs近似增加2.5φ。這將在計(jì)算成本增加和性能提高之間取得平衡。在實(shí)驗(yàn)中,本文經(jīng)驗(yàn)性地設(shè)置α=1.2,β=1.3,γ=1.15。
構(gòu)建的SE-CMT-S與DeiT-S(ViT-S)和EfficientNet-B4具有相似的模型大小和計(jì)算復(fù)雜度,根據(jù)提出的縮放策略還引入了SE-CMT-TI、SE-CMT-XS、SE-CMT-B 3種架構(gòu),所有4種模型的輸入分辨率為1602、1622、2242、2562。詳細(xì)架構(gòu)如表1所示。其中:Hi表示階段i的LMHSA中頭的個(gè)數(shù);Ki為階段i的LMHSA的還原率,C表示每個(gè)Stage的輸出通道數(shù),Ri表示不同特征提取模塊中MLP輸出通道維度的擴(kuò)展倍數(shù)。
3 實(shí)驗(yàn)
3.1 數(shù)據(jù)集介紹
本文用CIFAR10數(shù)據(jù)集和ImageNet數(shù)據(jù)集來(lái)評(píng)估提出的方法。CIFAR10數(shù)據(jù)集共有60 000個(gè)樣本,每個(gè)樣本都是一張32×32像素的RGB圖像(彩色圖像),每個(gè)RGB圖像又必定分為3個(gè)通道。
ImageNet是一個(gè)廣泛使用的大規(guī)模圖像數(shù)據(jù)集,包含超過(guò)1500萬(wàn)個(gè)帶標(biāo)注的高分辨率圖像,涵蓋了超過(guò)2萬(wàn)個(gè)不同的類別。其中涉及的類別比較廣泛,一些類別具有挑戰(zhàn)性,需要對(duì)物體的特殊外形、紋理、顏色等進(jìn)行識(shí)別和分類。
3.2 模型性能比較
3.2.1 在ImageNet數(shù)據(jù)集上模型性能比較
本文將SE-CMT-S的模型性能在ImageNet數(shù)據(jù)集上與先進(jìn)的模型進(jìn)行對(duì)比,如表2所示。相比其他的神經(jīng)網(wǎng)絡(luò)模型,本文提出的模型以更少的參數(shù)和FLOPs實(shí)現(xiàn)更好的精度。相比基線模型CMT-S提高1.97%,表明SE-CMT-S在捕獲局部和全局特征上的優(yōu)勢(shì);相比Efficient Net-37模型準(zhǔn)確率提高3.87%,計(jì)算成本相對(duì)更低,這證明了本文所提出的混合結(jié)構(gòu)的有效性,并顯示出進(jìn)一步改進(jìn)的強(qiáng)大潛力。
3.2.2 在CIFAR10數(shù)據(jù)集上模型性能比較
在CIFAR10 數(shù)據(jù)集上與先進(jìn)的分類模型進(jìn)行對(duì)比,主要是CNN模型、Transformer模型和CNN與Transformer相結(jié)合的模型。通過(guò)圖6可以清晰直觀地看出SE-CMT-S相較于這些網(wǎng)絡(luò)在參數(shù)量及 FLOPs 性能指標(biāo)上都有明顯的優(yōu)勢(shì)。
在模型規(guī)模較小的情況下, 相比于其他的神經(jīng)網(wǎng)絡(luò)模型,本文提出的模型以更少的參數(shù)和計(jì)算復(fù)雜度在訓(xùn)練集和驗(yàn)證集上達(dá)到更高的準(zhǔn)確率和更低的Loss值。SE-CMT-S在訓(xùn)練集上實(shí)現(xiàn)了87.16%的top-1精度,實(shí)現(xiàn)了99.33%的top-5精度,如圖7所示。比基線模型CMT-S的top-1精度高3.65%,比DeiT-S的top-1精度高7.35%,實(shí)驗(yàn)表明本文所提出的SE-CMT-S模型的有效性。根據(jù)實(shí)驗(yàn)結(jié)果可以看出,SE-CMT-S模型始終優(yōu)于其他模型。本文提出的SE-CMT模型中的SE-CMT Stem模型默認(rèn)使用的是C-S-C-C結(jié)構(gòu)。
3.3消融實(shí)驗(yàn)
3.3.1 SE注意力機(jī)制
本文研究了CNN、Transformer和SE注意力機(jī)制組合的單個(gè)計(jì)算單元對(duì)注意力機(jī)制的重要性。在CIFAR10數(shù)據(jù)集上,本文對(duì)有SE注意力機(jī)制和沒(méi)有SE注意力機(jī)制的兩個(gè)SE-CMT-TI模型進(jìn)行實(shí)驗(yàn),并比較它們的準(zhǔn)確率。從實(shí)驗(yàn)表3中可以看出,有SENet注意力機(jī)制的模型表現(xiàn)出更好的泛化能力和更高的準(zhǔn)確率,這表明SE注意力機(jī)制在視覺(jué)處理任務(wù)中具有重要作用。
3.3.2 SE注意力機(jī)制的數(shù)量
本文在SE-CMT Stem中采用了3個(gè)卷積核,針對(duì)SE注意力機(jī)制數(shù)量進(jìn)行了消融實(shí)驗(yàn),如表4所示。主要有兩種情況:C-S-C-C和C-S-C-S-C。通過(guò)在CIFAR10數(shù)據(jù)集上的預(yù)訓(xùn)練實(shí)驗(yàn)可以發(fā)現(xiàn),C-S-C-C這種SE-CMT Stem相對(duì)于基準(zhǔn)模型表現(xiàn)更加優(yōu)異,其top-1準(zhǔn)確率達(dá)到了87.16%。此外實(shí)驗(yàn)還表明,增加SENet注意力機(jī)制的數(shù)量并不能進(jìn)一步提高準(zhǔn)確率。因此,可得出結(jié)論:在SE-CMT Stem中采用3個(gè)卷積核和一定數(shù)量的SENet注意力機(jī)制能夠有效地提高模型的性能。
4 結(jié) 論
本文提出了一種新的網(wǎng)絡(luò)結(jié)構(gòu)SE-CMT,它可以用于圖像分類和其他計(jì)算機(jī)視覺(jué)任務(wù),以彌補(bǔ)長(zhǎng)期使用卷積神經(jīng)網(wǎng)絡(luò)和Transformer所帶來(lái)的局限性和弊端。SE-CMT的架構(gòu)利用SE-CNN和Transformer來(lái)捕獲局部和全局信息,使用SE注意力機(jī)制獲得有益的語(yǔ)義信息,進(jìn)一步優(yōu)化特征提取。此外,還采用了一種擴(kuò)展策略,生成了不同資源約束下的SE-CMT變體家族。但SE-CMT模型相對(duì)于一些先進(jìn)模型,計(jì)算復(fù)雜度有一定的增加。該模型在ImageNet和CIFAR10數(shù)據(jù)集上進(jìn)行了廣泛實(shí)驗(yàn),結(jié)果顯示SE-CMT在圖像特征提取研究中具有很好的有效性和優(yōu)越性。
參 考 文 獻(xiàn):
[1] MINGXING T, LE Q V E N. Rethinking Model Scaling for Convolutional Neural Networks[J]. ICML,2019,97:6105.
[2] CARION N, MASSA F,SYNNAEVE G, et al. End-to-end Object Detection with Transformers[C]//Computer Vision-ECCV 2020: 16th European Conference, Glasgow, UK, 2020: 213.
[3] SANDLER M, HOWARD A, ZHU M, et al.Mobilenetv2: Inverted Residuals and Linear Bottlenecks[C]//Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition (CVPR), Salt Lake City, USA, 2018: 4510.
[4] 梁麗麗,劉昕雨,孫廣路,等.MSAM:針對(duì)視頻問(wèn)答的多階段注意力模型[J].哈爾濱理工大學(xué)學(xué)報(bào),2022,27(4):107.
LIANG Lili, LIU Xinyu, SUN Guanglu, et al. MSAM:Video Question Answering Based on Multi-Stage Attention Model[J]. Journal of Harbin University of Science and Technology, 2022,27(4):107.
[5] ZHENG S, LU J, ZHAO H, et al. Rethinking Semantic Segmentation from a Sequence-to-sequence Perspective with Transformers[C] //Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition (CVPR), Nashville, USA, 2021: 3918.
[6] TOUVRON H, CORD M, DOUZE M, et al. Training Data-efficient Image Transformers amp; Distillation Through Attention[C]//Proceedings of the 34th Conference on Neural Information Processing Systems (NeurIPS), 2021: 10220.
[7] 張濤,張曉利,任彥.Transformer與CNN融合的單目圖像深度估計(jì)[J].哈爾濱理工大學(xué)學(xué)報(bào),2022,27(6):88.
ZHANG Tao, ZHANG Xiaoli, REN Yan, et al. Monocular lmage Depth Estimation Based on the Fusion of Transformer and CNN[J]. Journal of Harbin University of Science and Technology, 2022,27(6):88.
[8] KEONG H C, JIN W K, YAO W, et al.Improved Image Classification with Token Fusion[J]. Journal of Computer Science and Technology,2021,36(3):511.
[9] HOWARD A G, ZHU M, CHEN B, et al.Mobilenets: Efficient Convolutional Neural Networks for Mobile Vision Applications[C]//Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition (CVPR). Honolulu, USA, 2017: 1382.
[10]VASWANI A,SHAZEER N, PARMAR N, et al. Attention is All You Need[C]//Advances in Neural Information Processing Systems. Long Beach, USA, 2017: 5998.
[11]劉明珠,陳瑞,陳俊羽,等.B-Spline-ORB特征點(diǎn)提取算法[J].哈爾濱理工大學(xué)學(xué)報(bào),2022,27(3):97.
LIU Mingzhu, CHEN Rui, CHEN Junyu, et al. B-Spline-ORB Feature Point Extraction Algorithm[J]. Journal of Harbin University of Science and Technology,2022,27(3):97.
[12]HAN K, XIAO A, WU E, et al. Transformer in Transformer[J]. Advances in Neural Information Processing Systems, 2021, 34: 15908.
[13]李翔,張濤,張哲,等.Transformer在計(jì)算機(jī)視覺(jué)領(lǐng)域的研究綜述[J].計(jì)算機(jī)工程與應(yīng)用,2023,59(1):1.
LI Xiang, ZHANG Tao, ZHANG Zhe, et al.Survey of Transformer Research in Computer Vision[J]. Computer Engineering and Applications,2023,59(1):1.
[14]GUO J, HAN K, WU H, et al. Cmt: Convolutional Neural Networks Meet Vision Transformers[C]//Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition, 2022: 12175.
[15]HUGO Touvron, MATTHIEU Cord, MATTHIJS Douze, et al. Training Data-efficient Image Transformers amp; Distillation Through Attention[C]//Proceedings of the 34th Conference on Neural Information Processing Systems (NeurIPS), 2021: 10220.
[16]WANG Wenhai, XIE Enze, LI Xiang, et al. Pyra-mid Vision Transformer: A Versatile Backbone for Dense Prediction Without Convolutions[C]//Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition (CVPR), Nashville, USA, 2021: 2299.
[17]LIU Ze, LIN Yutong, CAO Yue, et al. Swin Transformer: Hierarchical Vision Transformer Using Shifted Windows[C]//Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition (CVPR), Nashville, USA, 2021: 10215.
[18]TAN Mingxing, LE Quoc. Efficientnet: Rethinking Model Scaling for Convolutional Neural Networks[C]//Proceedings of the 36th International Conference on Machine Learning (ICML), Long Beach, USA, 2019: 6105.
[19]DAI Z, LIU H, LE Q V, et al.Coatnet: Marrying Convolution and Attention for All Data Sizes[J].Advances in Neural Information Processing Systems,2021,34:3965.
[20]GUO J, HAN K, WU H, et al.Cmt: Convolutional Neural Networks Meet Vision Transformers[C]//Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition (CVPR), Nashville, USA, 2021: 12960.
(編輯:溫澤宇)