摘 要:在小數(shù)據(jù)集上從零開(kāi)始訓(xùn)練時(shí),視覺(jué)Transformer無(wú)法與同規(guī)模的卷積神經(jīng)網(wǎng)絡(luò)媲美?;趫D像的局部注意力方法,可以顯著提高ViT的數(shù)據(jù)效率,但是會(huì)丟失距離較遠(yuǎn)但相關(guān)的補(bǔ)丁之間的信息。為了解決上述問(wèn)題,提出一種雙向并行局部注意力視覺(jué)Transformer的方法。該方法首先在特征層面上對(duì)補(bǔ)丁進(jìn)行分組,在組內(nèi)執(zhí)行局部注意力,以利用特征空間中補(bǔ)丁之間的關(guān)系彌補(bǔ)信息丟失。其次,為了有效融合補(bǔ)丁之間的信息,將基于語(yǔ)義的局部注意力和基于圖像的局部注意力并行結(jié)合起來(lái),通過(guò)雙向自適應(yīng)學(xué)習(xí)來(lái)增強(qiáng)ViT模型在小數(shù)據(jù)上的性能。實(shí)驗(yàn)結(jié)果表明,該方法在計(jì)算量為15.2 GFLOPs和參數(shù)量為57.2 M的情況下,分別在CIFAR-10和CIFAR-100數(shù)據(jù)集上實(shí)現(xiàn)了97.93%和85.80%的準(zhǔn)確性。相比于其他方法,雙向并行局部注意力視覺(jué)Transformer在增強(qiáng)局部引導(dǎo)能力的同時(shí),保持了局部注意力所需屬性的有效性。
關(guān)鍵詞:深度學(xué)習(xí);圖像分類;Transformer;局部注意力;基于語(yǔ)義的局部注意
中圖分類號(hào):TP391.4"" 文獻(xiàn)標(biāo)志碼:A
文章編號(hào):1001-3695(2025)01-044-0314-07
doi: 10.19734/j.issn.1001-3695.2023.11.0643
Semantics-based local attention visual Transformer method on small datasets
Abstract:When training from scratch on a small data set, visual Transformer cannot be compared with convolutional neural networks of the same scale. Image-based local attention methods can significantly improve the data efficiency of ViT, but will lose information between distant but related patches. To solve the above problems, this paper proposed a bidirectional parallel local attention visual Transformer method. The method first grouped patches at the feature level and performed local attention within the grouped to compensate for the information loss by exploiting the relationships between patches in the feature space. Secondly, in order to effectively fuse information between patches, it combined semantic-based local attention and image-based local attention in parallel to enhance the performance of the ViT model on small data through bidirectional adaptive learning. Experimental results show that this method achieves 97.93% and 85.80% accuracy on the CIFAR-10 and CIFAR-100 data sets respectively with a calculation amount of 15.2 GFLOPs and a parameter amount of 57.2 M. Compared with other methods, the bidirectional parallel local attention visual Transformer maintains the effectiveness of the attributes required for local attention while enhancing local guidance capabi-lities.
Key words:deep learning; image classification; Transformer; local attention; semantics-based local attention
0 引言
卷積神經(jīng)網(wǎng)絡(luò)(convolution neural network, CNN)已經(jīng)成為從圖像數(shù)據(jù)中學(xué)習(xí)視覺(jué)表示的卓越方法,從而徹底改變了計(jì)算機(jī)視覺(jué)(computer vision, CV)領(lǐng)域[1,2]。隨后,由自注意力機(jī)制驅(qū)動(dòng)的Transformer模型在自然語(yǔ)言處理(natural language processing, NLP)領(lǐng)域取得了廣泛認(rèn)可和顯著的成果[3]。研究人員將自注意力機(jī)制與CV領(lǐng)域的CNN集成在一起的一系列成功的實(shí)驗(yàn),證明了Transformer在與圖像相關(guān)的任務(wù)中的適用性。在最近的發(fā)展中,視覺(jué)Transformer(vision Transformers, ViT)[4]在各種任務(wù)中超過(guò)了傳統(tǒng)的基于CNN的模型,包括圖像分類[4~8]、目標(biāo)檢測(cè)[9,10]和分割[11,12]。然而,ViT仍有迫切解決的問(wèn)題:a)對(duì)訓(xùn)練數(shù)據(jù)的高度依賴;b)對(duì)高計(jì)算資源和推理模型的需要。
ViT是第一個(gè)為圖像分類設(shè)計(jì)的Transformer模型,在具有大型訓(xùn)練數(shù)據(jù)集的任務(wù)中優(yōu)于CNN。通常ViT需要在JFT-300M[13]數(shù)據(jù)集上進(jìn)行預(yù)訓(xùn)練,然后在ImageNet-1K[4]數(shù)據(jù)集上進(jìn)行微調(diào),但這需要大量昂貴的計(jì)算資源和極大的訓(xùn)練數(shù)據(jù)(圖1(a))。如果僅在ImageNet-1K上從零開(kāi)始訓(xùn)練ViT,其準(zhǔn)確性將大幅降低[4]。在實(shí)際應(yīng)用中,大多數(shù)數(shù)據(jù)集的規(guī)模遠(yuǎn)遠(yuǎn)小于ImageNet-1K,并且并非所有研究人員都能承擔(dān)在大規(guī)模數(shù)據(jù)集上進(jìn)行預(yù)訓(xùn)練和在特定小型數(shù)據(jù)集上進(jìn)行微調(diào)的負(fù)擔(dān)。因此,需要一種有效的架構(gòu),能夠在小型數(shù)據(jù)集上從零開(kāi)始訓(xùn)練ViT,以滿足實(shí)際應(yīng)用的需求。最近的幾項(xiàng)研究[14~17]探討了在小規(guī)模數(shù)據(jù)集上從零開(kāi)始訓(xùn)練時(shí),ViT和CNN性能差異的原因。這些研究得出的結(jié)論是:缺乏歸納偏置是影響ViT性能的主要因素。例如,Raghu等人[14]指出,在有限的數(shù)據(jù)上訓(xùn)練時(shí),ViT無(wú)法在較早的層次學(xué)習(xí)到局部注意力。而D’Ascoli 等人[15]強(qiáng)調(diào)更強(qiáng)的歸納偏見(jiàn)會(huì)導(dǎo)致更強(qiáng)的表示,大規(guī)模數(shù)據(jù)集可以幫助ViT學(xué)習(xí)到強(qiáng)大的表示。許多近期的研究試圖以各種方式引入局部歸納偏見(jiàn)。一些研究者嘗試將卷積引入ViT[6,7],并將其修改為分層結(jié)構(gòu)[5,18],使ViT更類似于傳統(tǒng)的CNN。例如,Park等人[16]發(fā)現(xiàn)添加卷積約束可以使ViT在小數(shù)據(jù)集上實(shí)現(xiàn)高效訓(xùn)練。而Chen等人[17]提出了一種在訓(xùn)練過(guò)程中通過(guò)在自注意力模塊中引入局部性約束來(lái)提高ViT數(shù)據(jù)效率的方法。還有些研究者試圖通過(guò)在局部窗口內(nèi)進(jìn)行自注意力計(jì)算[5,18]。當(dāng)僅在中等規(guī)模的Image-Net1K數(shù)據(jù)集上從零開(kāi)始訓(xùn)練時(shí),這些方法與強(qiáng)大的CNN性能相當(dāng)。然而,在規(guī)模更小的數(shù)據(jù)集上性能差距仍然存在[19]。
在這里,本文考慮到訓(xùn)練數(shù)據(jù)的稀缺性削弱了ViT的歸納偏置。為了提高數(shù)據(jù)效率,有必要進(jìn)一步增強(qiáng)和更好地利用歸納偏置,即引入局部注意力。基于圖像的局部注意力通過(guò)在圖像平面上劃分網(wǎng)格,并在局部窗口內(nèi)計(jì)算相鄰補(bǔ)丁之間的自注意力,實(shí)現(xiàn)了對(duì)輸入圖像分辨率的線性復(fù)雜度[5]。然而,不同局部窗口中的補(bǔ)丁之間可能存在一些有意義的連接,但由于局部窗口的限制,導(dǎo)致連接丟失。同時(shí)由于訓(xùn)練數(shù)據(jù)較少,注意力層無(wú)法充分學(xué)會(huì)局部注意。在這種情況下,基于語(yǔ)義的局部注意力不僅僅關(guān)注圖像中的局部結(jié)構(gòu),更注重圖像內(nèi)容的語(yǔ)義關(guān)聯(lián)性,能在同樣的線性復(fù)雜度下,有效地彌補(bǔ)基于圖像的局部注意力可能引起的信息損失。這種關(guān)注點(diǎn)轉(zhuǎn)移使得模型能夠更充分地利用有限的數(shù)據(jù),從而提升了模型在小型數(shù)據(jù)集上的性能表現(xiàn)?;谡Z(yǔ)義的局部注意力利用圖像內(nèi)容的局部性,在特征空間而非圖像空間中計(jì)算局部自注意力。該方法的基本原理是:在特征空間中彼此接近的特征向量在計(jì)算自注意力結(jié)果時(shí)相互影響較大。這是因?yàn)閮蓚€(gè)特征向量的接近程度取決于它們之間的相似性?;谡Z(yǔ)義的局部注意力僅保留特征空間中彼此接近的特征向量的自注意力結(jié)果,而忽略遠(yuǎn)離的特征向量的自注意力結(jié)果。實(shí)際上,這是將特征向量分成多個(gè)組,在特征空間中彼此接近的特征向量放入同一組,而相距較遠(yuǎn)的特征向量放入不同的組?;谡Z(yǔ)義的局部注意力可以建立有意義的、非局部補(bǔ)丁之間的連接,彌補(bǔ)了基于圖像的局部注意力在局部窗口限制下對(duì)長(zhǎng)距離依賴性的不足。
依據(jù)上面的思路,本文提出了一種新的雙向并行局部注意力視覺(jué)Transformer(bilateral parallel local attention vision Transformer, BPLAT)方法。該方法是一個(gè)雙向并行局部注意力網(wǎng)絡(luò),包括基于圖像的局部注意力(image-based local attention, IBLA)模塊和基于語(yǔ)義的局部注意力(semantics-based local attention, SBLA)模塊。通過(guò)將這兩個(gè)模塊構(gòu)建為一種雙向并行結(jié)構(gòu),實(shí)現(xiàn)了兩者的雙重優(yōu)勢(shì)。該結(jié)構(gòu)一方面通過(guò)IBLA模塊來(lái)提升視覺(jué)Transformer的數(shù)據(jù)效率。另一方面,通過(guò)SBLA模塊來(lái)彌補(bǔ)信息損失,最后通過(guò)雙向自適應(yīng)學(xué)習(xí)來(lái)有效融合這兩個(gè)模塊。這種設(shè)計(jì)允許兩個(gè)模塊相互補(bǔ)充,共同工作,從而提高有限數(shù)據(jù)的利用效率。本文方法設(shè)計(jì)旨在通過(guò)基于語(yǔ)義的局部注意力機(jī)制,有效地填補(bǔ)基于圖像的局部注意力可能引起的信息損失?;谡Z(yǔ)義的局部注意力著重關(guān)注圖像內(nèi)容的語(yǔ)義關(guān)聯(lián)性,而不僅僅局限于圖像區(qū)域。這種關(guān)注點(diǎn)的轉(zhuǎn)變使得模型能夠更充分地利用有限的數(shù)據(jù),特別是在小型數(shù)據(jù)集情境下。實(shí)現(xiàn)了對(duì)基于圖像的局部信息和基于語(yǔ)義的局部信息的更全面的建模。不同于傳統(tǒng)ViT通過(guò)計(jì)算所有標(biāo)記之間的自注意力 (圖1(a)),基于圖像的局部注意力模塊使用swin[5]方法將圖像劃分為多個(gè)局部窗口,并在每個(gè)窗口內(nèi)計(jì)算自注意力(圖1 (b))。本文提出的基于語(yǔ)義的局部注意力模塊,使用K均值聚類來(lái)將補(bǔ)丁聚合成多個(gè)簇,并在每個(gè)簇內(nèi)計(jì)算自注意力(圖1 (c))。具體而言,首先使用K均值算法為每個(gè)基本補(bǔ)丁找到一組相似的補(bǔ)丁。然后,將基本補(bǔ)丁設(shè)置為查詢,將K個(gè)匹配補(bǔ)丁設(shè)置為鍵和值。最后在簇內(nèi)執(zhí)行成對(duì)自注意力。本文方法能在保持對(duì)特征分辨率的線性復(fù)雜度的同時(shí),將局部注意力應(yīng)用于整個(gè)圖像,增強(qiáng)了ViT的局部特征提取能力。
本文在各種小型數(shù)據(jù)集上進(jìn)行了從零開(kāi)始的訓(xùn)練實(shí)驗(yàn),包括公共數(shù)據(jù)集CIFAR[20]和DomainNet[21]數(shù)據(jù)集。與強(qiáng)大的CNN模型(如ResNeXt、DenseNet和Res2Net)相比,本文方法在CIFAR數(shù)據(jù)集上表現(xiàn)出明顯的性能優(yōu)勢(shì)。因此,本文提供了可以在小型數(shù)據(jù)集上從零開(kāi)始訓(xùn)練的替代方法,其彌合了CNN和VIT之間的性能差距。本文還在ImageNet-1K上從零開(kāi)始訓(xùn)練,評(píng)估其性能,展示了在更大數(shù)據(jù)集上的有效性。本文的貢獻(xiàn)總結(jié)如下:a)本文引入了一種專注于提高小數(shù)據(jù)集上數(shù)據(jù)效率的雙邊并行局部注意力視覺(jué)Transformer方法。通過(guò)采用基于圖像和基于內(nèi)容的局部注意力的并行訓(xùn)練策略,成功增強(qiáng)了ViT模型的歸納能力。b)本文應(yīng)用了基于語(yǔ)義的局部注意力方法,并首次將其與K均值聚類算法相結(jié)合,引入可學(xué)習(xí)的聚類中心對(duì)標(biāo)記進(jìn)行聚類,以彌補(bǔ)僅使用基于圖像的局部注意力可能導(dǎo)致的信息損失。c)本文方法不僅在小數(shù)據(jù)集上表現(xiàn)出色,而且通過(guò)減少參數(shù)和計(jì)算量,顯著提高了ViT模型的計(jì)算效率,使其在小數(shù)據(jù)集的圖像分類任務(wù)中始終領(lǐng)先于其他方法。
1 相關(guān)工作
1.1 視覺(jué)Transformer
Transformer模型主要基于自注意力機(jī)制,最早由Vaswani等人[22]提出。這種架構(gòu)在自然語(yǔ)言處理[23,3]和跨模態(tài)任務(wù)[24]中得到了廣泛應(yīng)用。ViT是首個(gè)專為圖像處理設(shè)計(jì)的基于Transformer的模型。在大型數(shù)據(jù)集上訓(xùn)練時(shí),ViT在圖像分類任務(wù)上的性能優(yōu)于CNN。然而,當(dāng)從頭開(kāi)始在中等規(guī)模數(shù)據(jù)集(如ImageNet-1K)上訓(xùn)練時(shí),ViT的性能無(wú)法與CNN相媲美。許多改進(jìn)的ViT模型,已經(jīng)在中等規(guī)模數(shù)據(jù)集上實(shí)現(xiàn)競(jìng)爭(zhēng)性性能,包括使用層次結(jié)構(gòu)[5,18]、歸納偏置[6,7,25]和局部自注意力[5,17,18]。然而,這些方法在小型數(shù)據(jù)集上表現(xiàn)不佳。1.2 數(shù)據(jù)高效視覺(jué)Transformer
為了提高ViT的數(shù)據(jù)效率,許多后續(xù)工作提出了數(shù)據(jù)高效的ViT架構(gòu)。這些架構(gòu)不需要ViT在大規(guī)模數(shù)據(jù)進(jìn)行預(yù)訓(xùn)練的情況下表現(xiàn)良好。Touvron等人[25]將一系列數(shù)據(jù)增強(qiáng)方法應(yīng)用到輸入數(shù)據(jù)上,并使用知識(shí)蒸餾策略從零開(kāi)始訓(xùn)練小型數(shù)據(jù)。文獻(xiàn)[6,7]將卷積引入到補(bǔ)丁嵌入階段中訓(xùn)練ViT,解決了非重疊補(bǔ)丁嵌入中的不連續(xù)性問(wèn)題。Liu等人[26]通過(guò)提取圖像的空間信息進(jìn)行自我監(jiān)督,以學(xué)習(xí)編碼圖像標(biāo)記的空間位置。當(dāng)在ImageNet-1K上從零開(kāi)始訓(xùn)練時(shí),以上方法通過(guò)引入強(qiáng)大的歸納偏置使得ViT更加數(shù)據(jù)高效。
1.3 小數(shù)據(jù)集上的視覺(jué)Transformer
已經(jīng)有一些研究致力于解決在小數(shù)據(jù)集上從零開(kāi)始訓(xùn)練的問(wèn)題。Chen等人[17]通過(guò)引入多焦點(diǎn)注意力偏見(jiàn),使視覺(jué)轉(zhuǎn)換器具有與卷積神經(jīng)網(wǎng)絡(luò)相同的數(shù)據(jù)效率,提高了ViT在小數(shù)據(jù)集上的性能。Hassani等人[27]通過(guò)引入緊湊的Transformers和卷積標(biāo)記化,成功地在小數(shù)據(jù)集上訓(xùn)練了ViT。Lee等人[28]引入了局部自注意力(locality self-attention, LSA)和位移補(bǔ)丁標(biāo)記化(shift patch tokenization, SPT),使ViT在小數(shù)據(jù)集上也能夠從零開(kāi)始訓(xùn)練。雖然先前的工作已經(jīng)縮小了ViT和CNN之間的性能差距,但它們的性能仍然無(wú)法與強(qiáng)大的CNN競(jìng)爭(zhēng)。本文方法利用了局部特征空間約束,增強(qiáng)了歸納偏置,成功地彌合了ViT和CNN在小數(shù)據(jù)集上的性能差距。
2 方法
2.1 BPLAT概覽
本文提出了一種新的雙向并行局部注意力視覺(jué)Transformer(BPLAT)方法。具體而言,BPLAT是通過(guò)替換 Transformer 模塊中的多頭自注意力(multi-head attention, MHSA)來(lái)構(gòu)建的。一方面,通過(guò)使用基于圖像的局部注意力方法來(lái)引入局部歸納偏置,提升視覺(jué)Transformer的數(shù)據(jù)效率。另一方面,通過(guò)基于語(yǔ)義的局部注意力方法彌補(bǔ)信息損失,最后采用并行結(jié)構(gòu),分利用了兩個(gè)方法之間的互補(bǔ)性,在小型數(shù)據(jù)集上從零開(kāi)始訓(xùn)練,實(shí)現(xiàn)數(shù)據(jù)高效的視覺(jué)Transformer。
如圖2所示,BPLAT模型與ViT模型非常相似,采用了非分層設(shè)計(jì),每個(gè)編碼器塊使用相同的參數(shù)設(shè)置,處理相同維度的特征。然而,與傳統(tǒng)的ViT不同,本文使用全局平均池化(global average pooling, GAP)代替了用于最終分類預(yù)測(cè)的分類標(biāo)記。這是因?yàn)槭褂肎AP而不是分類標(biāo)記可以獲得更好的性能[29]。為了更詳細(xì)地介紹本文方法,首先,簡(jiǎn)要介紹補(bǔ)丁嵌入模塊,然后詳細(xì)介紹提出的雙向并行局部注意力模塊,包括基于圖像的局部注意力(IBLA)模塊和基于語(yǔ)義的局部注意力(SBLA)模塊。最后介紹訓(xùn)練損失。
首先,將輸入圖像分割為多個(gè)補(bǔ)丁。如果輸入圖像的分辨率為H×W,目標(biāo)補(bǔ)丁大小為P,則生成的補(bǔ)丁標(biāo)記序列的長(zhǎng)度為N=HW/P2。本文遵循DHVT[30]的補(bǔ)丁嵌入設(shè)置,該設(shè)置包括一系列帶有步長(zhǎng)s=2的3×3卷積層。使用批標(biāo)準(zhǔn)化(batch normalization, BN)和GeLU激活函數(shù),以及在卷積層之前和之后添加兩個(gè)仿射變換層。卷積層數(shù)量隨著補(bǔ)丁大小的增加而擴(kuò)展,補(bǔ)丁大小為P=2k每個(gè)標(biāo)記的維度為C。
2.2 雙向并行局部注意力
Xin=MHSA(LN(X))(1)
Xin1,Xin2=split(Xin)(2)
XIBLA=IBLA(Xin1)(3)
XCBLA=SBLA(Xin2)(4)
IBLA是直接采用了swin Transformer中具有出色性能的基于窗口的局部注意力模塊。在圖像上劃分窗口后,IBLA計(jì)算同一窗口內(nèi)的標(biāo)記之間的自注意力。顯然,同一局部窗口中的補(bǔ)丁在圖像空間中非常接近,內(nèi)容可能極其相關(guān)。然而,這剝奪了模型捕捉遠(yuǎn)程依賴關(guān)系的能力。因?yàn)樵趫D像空間中,可能存在一些具有相似內(nèi)容但距離相對(duì)較遠(yuǎn)的補(bǔ)丁之間的重要連接。圖像空間中的遠(yuǎn)程補(bǔ)丁可能有助于模型的理解和特征提取,輕易地忽略這些關(guān)聯(lián)可能會(huì)降低模型的性能。
本文提出的基于語(yǔ)義的局部注意力模塊可以有效補(bǔ)償基于圖像的局部注意力丟失的有用連接?;谡Z(yǔ)義的局部注意力模塊在特征空間中計(jì)算相鄰標(biāo)記之間的自注意力,可以補(bǔ)充圖像空間中局部注意力丟失的信息,并且比ViT中的全局自注意力更為有效。同時(shí),本文還向模型中添加了局部增強(qiáng)的相對(duì)位置編碼。為了進(jìn)一步增強(qiáng)網(wǎng)絡(luò)的局部性,本文在前饋網(wǎng)絡(luò)(feed-forward network, FFN)中將多層感知機(jī)(multilayer perceptron, MLP)替換為深度可分離卷積 (depthwise separable convolution, DW)。最后,SBLA模塊和IBLA模塊的輸出被合并后通過(guò)跳躍連接的方式與輸入融合。合并的結(jié)果經(jīng)過(guò)前饋網(wǎng)絡(luò),得到雙向并行局部注意力塊的輸出:
X′in=Xin+concat(XIBLA,XSBLA)(5)
Xout=X′in+LN(FFN(X′in))(6)
其中:FFN(X)=DW(LN(X))。
2.3 基于語(yǔ)義的局部注意力
與直接在圖像上劃分窗口并在窗口內(nèi)計(jì)算基于圖像的局部注意力不同,基于語(yǔ)義的局部注意力是為了在特征空間中找到相對(duì)相似的標(biāo)記進(jìn)行分組,并在分組內(nèi)計(jì)算局部注意力。換句話說(shuō),本文使用標(biāo)記聚類方法將視覺(jué)標(biāo)記分成相應(yīng)數(shù)量的簇,并在這些簇內(nèi)計(jì)算基于語(yǔ)義的局部注意力。
2.3.1 基于K均值聚類的局部注意力
在使用點(diǎn)積進(jìn)行注意力計(jì)算的場(chǎng)景中,一個(gè)特定關(guān)鍵詞Kj對(duì)于查詢Qi的重要性與它們之間的點(diǎn)積成正比。因此,本文可以使用式(8)中的k均值聚類目標(biāo)來(lái)選擇給定查詢Qi的最優(yōu)關(guān)鍵詞Kj。本文在對(duì)查詢和鍵進(jìn)行兩兩匹配并計(jì)算在同一簇內(nèi)進(jìn)行局部自注意力計(jì)算的實(shí)現(xiàn)中,首先對(duì)查詢和鍵進(jìn)行層歸一化,使它們?cè)谟?jì)算前投影到單位球面上。即所有比較的向量長(zhǎng)度都被歸一化為1,因此它們?cè)诜较蛏嫌兴煌?,但在大小上相等。在查詢和鍵層歸一化后,采用點(diǎn)積的方式計(jì)算注意力。將查詢和鍵投影到單位球面上聚類就相當(dāng)于球形K均值聚類算法,這意味著:
‖Qi-Kj‖2=‖Qi‖2+‖Kj‖2-2QTiKj=2-2QTiKj(9)
因此,如果Qi和Kj屬于相同的簇中心,即c=c(Qi)=c(Kj),則QTiKj的結(jié)果接近1,那么就意味著Qi和Kj的注意力權(quán)重QTiKj相對(duì)較高。分析表明,在查詢和鍵的全局注意力中,只保留具有較大注意力權(quán)重的數(shù)值,而那些具有較小注意力權(quán)重的數(shù)值被設(shè)為零?;谡Z(yǔ)義的局部注意力的公式為
這等同于設(shè)置一個(gè)分段函數(shù),將特征向量之間低相似度的數(shù)值設(shè)為零。在訓(xùn)練過(guò)程中,本文使用指數(shù)移動(dòng)平均來(lái)更新每個(gè)簇的質(zhì)心。這是通過(guò)計(jì)算每個(gè)簇中所有分配的查詢Q和鍵K的指數(shù)移動(dòng)平均值來(lái)實(shí)現(xiàn)的:
其中:衰減參數(shù)λ通常設(shè)置為0.999。指數(shù)移動(dòng)平均在逐漸融入歷史信息的同時(shí),更加注重最近的數(shù)據(jù)。
2.3.2 簇內(nèi)局部注意力
每個(gè)簇中包含的標(biāo)記數(shù)量是根據(jù)總標(biāo)記數(shù)N確定的。這種策略可以確保所有簇包含相同數(shù)量的標(biāo)記,在硬件加速中非常重要, 例如:圖形卡的并行計(jì)算。在聚類之后,標(biāo)記集合被分成K個(gè)子集,然后在每個(gè)子集上執(zhí)行自注意力計(jì)算,以實(shí)現(xiàn)基于語(yǔ)義的局部注意力。
其中:dk是查詢的通道數(shù),B是相對(duì)位置偏差[17]。采用配置多頭的方式實(shí)現(xiàn)基于語(yǔ)義的局部注意力,其配置與Transformer中的多頭設(shè)置相同。然后,在每個(gè)頭內(nèi)部獨(dú)立進(jìn)行K均值聚類。這意味著對(duì)于特定的標(biāo)記,在執(zhí)行基于語(yǔ)義的局部注意力時(shí),不同的頭可能會(huì)關(guān)注不同的標(biāo)記。這種方法比swin的方法更靈活,后者在多個(gè)頭之間共享相同的局部窗口。
基于語(yǔ)義的局部注意算法描述如算法1所示。
算法1 基于語(yǔ)義的局部注意算法
2.4 訓(xùn)練損失
本文使用圖像分類損失Lcls和簇中心損失Lkmeans兩個(gè)損失函數(shù)。對(duì)于圖像分類,采用交叉熵?fù)p失Lcls。簇中心損失Lkmeans使用L1損失定義,旨在找到簇中心的全局最優(yōu)解。
3 實(shí)驗(yàn)
3.1 數(shù)據(jù)集和實(shí)現(xiàn)細(xì)節(jié)
3.1.1 數(shù)據(jù)集
為了驗(yàn)證在小數(shù)據(jù)集上從零開(kāi)始訓(xùn)練的模型性能,本文主要選擇了較小的CIFAR數(shù)據(jù)集上進(jìn)行實(shí)驗(yàn)。在小數(shù)據(jù)集的選取上,本文考慮了兩個(gè)主要因素:訓(xùn)練數(shù)據(jù)的總數(shù)和每個(gè)類別的平均數(shù)量。有些數(shù)據(jù)集的總訓(xùn)練數(shù)據(jù)數(shù)量較小,但每個(gè)類別的平均樣本數(shù)較大,而其他數(shù)據(jù)集總數(shù)較大,但每個(gè)類別的平均樣本數(shù)較小。為了驗(yàn)證模型在小數(shù)據(jù)集上的性能,本文綜合考慮了這兩個(gè)方面來(lái)選擇數(shù)據(jù)集。同時(shí),為了驗(yàn)證模型在其他小數(shù)據(jù)集上的性能,文本還添加了來(lái)自DomainNet的六個(gè)小數(shù)據(jù)集以及ImageNet-1K。最后,本文選擇的數(shù)據(jù)集和數(shù)據(jù)類別的統(tǒng)計(jì)信息如表1所示。
3.1.2 實(shí)現(xiàn)細(xì)節(jié)
本文參考先前的工作設(shè)計(jì)了三種不同規(guī)模的模型,即 BPLAT-T、BPLAT-S和BPLAT-B。同時(shí),采取與其他ViT模型相同的訓(xùn)練策略。對(duì)于圖像分辨率為224×224的數(shù)據(jù)集,本文將補(bǔ)丁大小設(shè)置為16;而對(duì)于圖像分辨率為32×32的數(shù)據(jù)集,本文將補(bǔ)丁大小設(shè)置為4。本文采取的數(shù)據(jù)增強(qiáng)策略與DeiT[25]中的數(shù)據(jù)增強(qiáng)設(shè)置完全相同,沒(méi)有添加任何其他數(shù)據(jù)增強(qiáng)策略,也沒(méi)有調(diào)整現(xiàn)有的數(shù)據(jù)增強(qiáng)策略以提高模型性能。本文使用 AdamW 優(yōu)化器,并從隨機(jī)初始化開(kāi)始訓(xùn)練所有模型,共進(jìn)行300個(gè)epoch的訓(xùn)練。本文使用權(quán)重衰減率為0.05,熱身時(shí)間為5,β2為0.99,并將學(xué)習(xí)率調(diào)整為5E-4×batchsize/256,批大小分別為256 (BPLAT-T)、128(BPLAT-S)和64(BPLAT-B),模型注意力頭的數(shù)量設(shè)置為4 (BPLAT-T)、8(BPLAT-S)和12(BPLAT-B)?;诖嗽O(shè)置,模型可以在單個(gè)V100 GPU上開(kāi)展訓(xùn)練。本文模型是使用PyTorch框架實(shí)現(xiàn)的,代碼是基于timm修改的。
3.2 結(jié)果對(duì)比
3.2.1 DomainNet數(shù)據(jù)集結(jié)果
為了評(píng)估模型在小數(shù)據(jù)集上的性能,本文選擇了DomainNet數(shù)據(jù)集中的六個(gè)小數(shù)據(jù)集進(jìn)行實(shí)驗(yàn)。本文與PyTorch代碼中的ResNet-50官方實(shí)現(xiàn)作為基準(zhǔn)線進(jìn)行比較,從頭開(kāi)始訓(xùn)練ResNet-50,并使用了各種數(shù)據(jù)增強(qiáng)技術(shù),例如Mixup、CutMix 和AutoAugment。最后的實(shí)驗(yàn)結(jié)果如表2所示,本文模型表現(xiàn)優(yōu)于ResNet-50,在不同的小型數(shù)據(jù)集上的取得了較好的結(jié)果。
3.2.2 ImageNet-1K數(shù)據(jù)集結(jié)果
本文進(jìn)行了一系列實(shí)驗(yàn),評(píng)估本文模型在中等規(guī)模ImageNet-1K數(shù)據(jù)集上的訓(xùn)練性能。本文采用與DeiT[25]相同的實(shí)驗(yàn)設(shè)置和數(shù)據(jù)增強(qiáng)策略,結(jié)果如表3所示:BPLAT-T的準(zhǔn)確率為76.42%,BPLAT-S的準(zhǔn)確率為79.27%,而BPLAT-B的準(zhǔn)確率為80.03%。這表明,在非層級(jí)化的ViT結(jié)構(gòu)下,本文模型在相同參數(shù)規(guī)模和計(jì)算復(fù)雜度的情況下表現(xiàn)出色,但與層級(jí)結(jié)構(gòu)的ViT模型相比,例如swin Transformer,仍然存在差距。這是因?yàn)锽PLAT所使用的基于語(yǔ)義的局部注意力機(jī)制對(duì)某些依賴關(guān)系進(jìn)行了抑制,一方面減少了信息損失和噪聲干擾,另一方面也削弱了模型的學(xué)習(xí)能力,導(dǎo)致精度下降。而層級(jí)結(jié)構(gòu)的Transformer 架構(gòu)則采用了更優(yōu)化的配置。它們通過(guò)增加網(wǎng)絡(luò)深度和注意力頭的數(shù)量提高了模型的非線性擬合能力。此外,還引入了一些創(chuàng)新的設(shè)計(jì)思想,如多階段表示,使網(wǎng)絡(luò)能夠更好地適應(yīng)不同尺度和場(chǎng)景的圖像數(shù)據(jù)。這些改進(jìn)使它們?cè)趽碛懈賲?shù)的情況下實(shí)現(xiàn)了更高的準(zhǔn)確性。與BPLAT最大的區(qū)別在于,它們沒(méi)有改變注意力機(jī)制本身,而是通過(guò)優(yōu)化網(wǎng)絡(luò)結(jié)構(gòu)來(lái)提高數(shù)據(jù)效率。然而,本文旨在通過(guò)對(duì)比實(shí)驗(yàn)表明 ViT 可以在保持模型更低計(jì)算量和計(jì)算復(fù)雜度的前提下提高數(shù)據(jù)效率,并不是單純地追求網(wǎng)絡(luò)精度??傮w而言,盡管在較大的數(shù)據(jù)集上性能略有下降,但模型的表現(xiàn)仍然可以接受。然而,在小型數(shù)據(jù)集上,它表現(xiàn)出色。
3.2.3 CIFAR數(shù)據(jù)集結(jié)果
本文在CIFAR數(shù)據(jù)集上對(duì)從零開(kāi)始訓(xùn)練的模型進(jìn)行了性能比較。對(duì)于不劃分補(bǔ)丁、使用原始像素輸入的模型,本文將補(bǔ)丁大小設(shè)置為1。所有方法均使用圖像大小為32×32的CIFAR數(shù)據(jù)集從隨機(jī)初始化進(jìn)行訓(xùn)練。本文使用類似ViT的符號(hào)[23]來(lái)表示模型大小和補(bǔ)丁大?。豪?,BPLAT-B/2表示具有2×2輸入補(bǔ)丁大小的“Base”變體。:表示在相同的訓(xùn)練方案下重新實(shí)現(xiàn)該方法。其他結(jié)果均來(lái)自對(duì)相應(yīng)工作的直接引用。從表4中可以看出,所有基于CNN的方法中,在CIFAR100上訓(xùn)練的最佳準(zhǔn)確率為82.82%,而所有基于Transformer的方法中,在CIFAR100上訓(xùn)練的最佳準(zhǔn)確率為82.56%。與基于CNN的模型相比,基于ViT的模型通常具有更低的參數(shù)量和計(jì)算復(fù)雜度。而本文的BPLAT模型是基于ViT的。與其他基于ViT的模型相比,BPLAT不僅具有更少的參數(shù)量和計(jì)算復(fù)雜度,而且在準(zhǔn)確性上更具有優(yōu)勢(shì)。實(shí)驗(yàn)結(jié)果顯示,BPLAT-T模型在CIFAR10和CIFAR100準(zhǔn)確率達(dá)到了96.95%和83.63%,其參數(shù)量為5.8 M,計(jì)算量為1.0 GFLOPs;BPLAT-S模型在CIFAR10和CIFAR100準(zhǔn)確率達(dá)到了97.51%和84.84%,其參數(shù)量為14.4 M,計(jì)算量為3.9 GFLOPs;BPLAT-B模型在CIFAR10和CIFAR100準(zhǔn)確率達(dá)到了97.93%和85.80%,其參數(shù)為57.2 M,計(jì)算量為15.2 GFLOPs。與其他ViT模型和混合模型相比,本文模型在具有更少參數(shù)和計(jì)算復(fù)雜度的情況下實(shí)現(xiàn)了顯著的性能提升。BPLAT通過(guò)在并行訓(xùn)練中使用基于圖像的局部注意力和基于語(yǔ)義的局部注意力增強(qiáng)了模型的歸納偏見(jiàn),這不僅提高了ViT的數(shù)據(jù)效率,也將最先進(jìn)的結(jié)果推向了新的高度。
3.2.4 目標(biāo)檢測(cè)
本文進(jìn)一步評(píng)估了所提出的BPLAT在目標(biāo)檢測(cè)方面的性能。本文使用Mask R-CNN和 DINO框架,首先在ImageNet數(shù)據(jù)集上預(yù)訓(xùn)練骨干網(wǎng),然后在MS-COCO數(shù)據(jù)集上進(jìn)行微調(diào)實(shí)驗(yàn)。本文僅將框架的骨干網(wǎng)替換成了BPLAT-T,并未對(duì)其他地方進(jìn)行改動(dòng)。在Mask R-CNN框架中,本文使用3×學(xué)習(xí)率方案。在DINO框架中,本文使用1×學(xué)習(xí)率方案。如表5所示,該模型表現(xiàn)出相對(duì)較低的參數(shù)數(shù)量,并在不同框架中取得了有競(jìng)爭(zhēng)力的結(jié)果。本次實(shí)驗(yàn)是對(duì)該模型的延伸性實(shí)驗(yàn),在參數(shù)效率和整體性能之間有所權(quán)衡,這對(duì)于推動(dòng)視覺(jué)Transformer 在實(shí)際應(yīng)用中的普及更具意義。
3.3 消融實(shí)驗(yàn)
消融實(shí)驗(yàn)所使用的模型是BPLAT-T,在接下來(lái)的消融實(shí)驗(yàn)中,所有模型均在CIFAR-100上從零開(kāi)始訓(xùn)練。實(shí)驗(yàn)設(shè)置和數(shù)據(jù)增強(qiáng)與3.2節(jié)中相同。
3.3.1 SBLA的有效性分析
本文深入探討了SBLA模塊在BPLAT-T中的有效性,并與IBLA模塊進(jìn)行對(duì)比。如表6所示,當(dāng)僅使用SBLA模塊進(jìn)行訓(xùn)練時(shí),模型實(shí)現(xiàn)了83.06%的準(zhǔn)確率。然而,當(dāng)同時(shí)訓(xùn)練兩個(gè)模塊時(shí),準(zhǔn)確率達(dá)到最佳水平,即83.63%。這證明SBLA模塊在捕捉圖像特征之間的關(guān)系方面發(fā)揮了關(guān)鍵作用,從而提高了模型的分類準(zhǔn)確性。與僅使用SBLA模塊相比,同時(shí)使用SBLA和IBLA模塊的綜合訓(xùn)練表現(xiàn)更佳,顯示了它們?cè)谀P椭械膮f(xié)同效應(yīng)。這表明了SBLA與IBLA模塊之間的互補(bǔ)性。
3.3.2 模塊中的自注意力頭數(shù)分析
在模型的多頭自注意力部分,本文對(duì)SBLA模塊使用的自注意力頭數(shù)進(jìn)行了消融實(shí)驗(yàn)。在BPLAT-T模型中,多頭自注意力總數(shù)設(shè)置為4。本文為SBLA模塊設(shè)置不同數(shù)量的自注意力頭,如表7所示,發(fā)現(xiàn)當(dāng)頭數(shù)設(shè)置為2時(shí),模型的準(zhǔn)確率達(dá)到83.63%。SBLA模塊和IBLA模塊的聯(lián)合訓(xùn)練可以相互補(bǔ)充,因此可以期望獲得更高的準(zhǔn)確性。
3.3.3 SBLA模塊中的每個(gè)簇的標(biāo)記數(shù)量分析
為了評(píng)估SBLA模塊中簇?cái)?shù)對(duì)模型性能的影響,本文嘗試不同數(shù)量的簇進(jìn)行驗(yàn)證。使用了CIFAR數(shù)據(jù)集,其中標(biāo)記的總數(shù)為256。如表8所示,當(dāng)在每個(gè)簇中設(shè)置64個(gè)標(biāo)記時(shí),模型實(shí)現(xiàn)了最高的準(zhǔn)確率,達(dá)到了81.94%。這表明選擇適當(dāng)數(shù)量的簇對(duì)于模型性能至關(guān)重要。當(dāng)每個(gè)簇中的標(biāo)記數(shù)量太少(16個(gè))或太多(128個(gè))時(shí),性能都有所下降。這因?yàn)樵诖刂性O(shè)置過(guò)少的標(biāo)記會(huì)導(dǎo)致信息不足,而設(shè)置過(guò)多的標(biāo)記可能會(huì)引入噪聲或冗余信息。
3.4 注意力圖的可視化
為了更直觀地了解K均值聚類的效果,本文將聚類結(jié)果和相應(yīng)的注意力圖進(jìn)行了可視化。圖4中展示了兩種情景下的聚類效果??梢暬膱?chǎng)景包括輸入圖像中兩個(gè)查詢位置的可視化(左)、不同查詢位置的相應(yīng)聚類結(jié)果(中)以及生成的注意力圖(右)。在每個(gè)情景中,本文從模型的第9層SBLA模塊中提取了聚類結(jié)果和注意力圖。在第一個(gè)戶外場(chǎng)景中,如果聚類對(duì)象是摩托車,那么同一聚類中的補(bǔ)丁都是與摩托車相關(guān)的物體。同樣,在第二個(gè)自然場(chǎng)景中,當(dāng)聚類目標(biāo)放在一個(gè)樹枝上時(shí),聚類的結(jié)果補(bǔ)丁分散在其他樹枝區(qū)域上,這些區(qū)域并不相鄰。這意味著本文的SBLA能夠捕捉遠(yuǎn)程對(duì)象之間的關(guān)系。
4 結(jié)束語(yǔ)
本文介紹了一種新穎的視覺(jué)Transformer架構(gòu),即雙向并行局部注意力視覺(jué)Transformer。BPLAT在特征空間和圖像空間同時(shí)實(shí)現(xiàn)了多頭區(qū)域自注意力。為了在特征空間計(jì)算局部注意力,本文提出了一種基于K均值的平衡聚類方法,將圖像補(bǔ)丁分成多個(gè)均勻大小的簇,并在每個(gè)簇內(nèi)計(jì)算自注意力。實(shí)驗(yàn)結(jié)果證明,BPLAT只需要較小的訓(xùn)練數(shù)據(jù)集即可在性能上優(yōu)于現(xiàn)有的基于圖像局部注意力的視覺(jué)Transformer模型。因此,BPLAT可以成為一種高效且有效的圖像分類架構(gòu)。未來(lái)的研究將致力于模型泛化能力更強(qiáng)、更輕量級(jí)的網(wǎng)絡(luò)以提高模型的實(shí)際應(yīng)用價(jià)值,并拓展到其他圖像檢測(cè)分割等視覺(jué)高級(jí)任務(wù)中。
參考文獻(xiàn):
[1]Tan Mingxing, Le Q. EfficientNet: rethinking model scaling for con-volutional neural networks [C]// Proc of the 36th International Conference on Machine Learning. 2019: 6105-6114.
[2]Huang Gao, Liu Zhuang, Van Der Maaten L, et al. Densely connec-ted convolutional networks [C]// Proc of IEEE Conference on Computer Vision and Pattern Recognition. Piscataway, NJ: IEEE Press, 2017: 4700-4708.
[3]Jacob D, Chang Mingwei, Kenton L,et al. BERT: pre-training of deep bidirectional Transformers for language understanding [C]// Proc of NAACL-HLT. 2019: 4171-4186.
[4]Dosovitskiy A, Beyer L, Kolesnikov A, et al. An image is worth 16x16 words: transformers for image recognition at scale [EB/OL]. (2020-10-22) [2020]. https://arxiv. org/abs/2010. 11929.
[5]Liu Ze, Lin Yutong, Cao Yue,et al. Swin Transformer: hierarchical vision Transformer using shifted windows [C]// Proc of the IEEE/CVF International Conference on Computer Vision. Piscataway, NJ: IEEE Press, 2021: 10012-10022.
[6]Wu Haiping, Xiao Bin, Codella N,et al. CVT: introducing convolutions to vision transformers [C]// Proc of the IEEE/CVF International Confe-rence on Computer Vision. Piscataway, NJ: IEEE Press, 2021: 22-31.
[7]Yuan Kun, GuoShaopeng, Liu Ziwei, et al. Incorporating convolution designs into visual transformers [C]// Proc of IEEE/CVF International Conference on Computer Vision. Piscataway, NJ: IEEE Press, 2021: 579-588.
[8]胡杰, 昌敏杰, 熊宗權(quán), 等. 基于Transformer的圖像分類網(wǎng)絡(luò) MultiFormer [J]. 計(jì)算機(jī)應(yīng)用研究, 2022, 39 (10): 3191-3195. (Hu Jie, Chang Minjie, Xiong Zongquan, et al. Multiformer: an image classification network based on Transformer [J]. Application Research of Computers, 2022, 39 (10): 3191-3195.)
[9]包震偉, 劉丹, 米金鵬. 弱監(jiān)督與少樣本學(xué)習(xí)場(chǎng)景下視頻行為識(shí)別綜述 [J]. 計(jì)算機(jī)應(yīng)用研究, 2023, 40 (6): 1629-1635. (Bao Zhenwei, Liu Dan, Mi Jinpeng. Review of video action recognition under weak supervision and few-shot learning [J]. Application Research of Computers, 2023, 40 (6): 1629-1635.)
[10]楊世偉, 王永雄, 蘭博天. 多尺度 Transformer 與層次化邊界引導(dǎo)的顯著性目標(biāo)檢測(cè) [J]. 計(jì)算機(jī)應(yīng)用研究, 2022, 39 (12): 3820-3824, 3836. (Yang Shiwei, Wang Yongxiong, Lan Botian. Multi-scale Transformer with hierarchical boundary guidance for salient object detection [J]. Application Research of Computers, 2022, 39 (12): 3820-3824, 3836.)
[11]Strudel R, Garcia R, Laptev I,et al. Segmenter: Transformer for semantic segmentation [C]// Proc of IEEE/CVF International Conference on Computer Vision. Piscataway, NJ: IEEE Press, 2021: 7262-7272.
[12]Zhu Xizhou, Su Weijie, Lu Lewei, et al. Deformable DETR: deformable transformers for end-to-end object detection [EB/OL]. (2021-03-18) . https://arxiv. org/pdf/2010. 04159. pdf.
[13]Russakovsky O, Deng Jia, Su Hao, et al. ImageNet large scale visual recognition challenge [J]. International Journal of Computer Vision, 2015, 115 (3): 211-252.
[14]Raghu M,Unterthiner T, Kornblith S, et al. Do vision transformers see like convolutional neural networks? [C]// Advances in Neural Information Processing Systems. 2021: 12116-12128.
[15]D’Ascoli S,Touvron H, Leavitt M, et al. ConViT: improving vision transformers with soft convolutional inductive biases [C]// Proc of the 38th International Conference on Machine Learning. 2021: 2286-2296.
[16]Park N, Kim S. How do vision transformers work? [EB/OL]. (2022-2-14).https://arxiv.org/abs/2202. 06709.
[17]Chen Bin, Wang Ran, Ming Di,et al. ViT-P: rethinking data-efficient vision transformers from locality [EB/OL]. (2022). https://arxiv.org/abs/2203. 02358.
[18]Zhang Zizhao, Zhang Han, Zhao Long, et al. Nested hierarchical Transformer: towards accurate, data-efficient and interpretable visual understanding [C]// Proc of AAAI Conference on Artificial Intelligence. Palo Alto, CA: AAAI Press, 2022: 3417-3425.
[19]Gani H, Naseer M, Yaqub M. How to train vision Transformer on small-scale datasets? [EB/OL]. (2022-11-21) (2022-11-24). https://doi. org/10. 48550/arXiv. 2201. 13027.
[20]Krizhevsky A, Hinton G. Learning multiple layers of features from tiny images [EB/OL]. (2009) (2023-11-15). https://www. researchgate. net/publication/306218037_Learning_multiple_layers_of_features_from_tiny_images.
[21]Peng Xingchao, Bai Qinxun, Xia Xide, et al. Moment matching for multi-source domain adaptation [C]// Proc of IEEE/CVF International Conference on Computer Vision. Piscataway, NJ: IEEE Press, 2019: 1406-1415.
[22]Vaswani A,Shazeer N, Parmar N, et al. Attention is all you need [C]// Advances in Neural Information Processing Systems. 2017.
[23]Brown T, Mann B, Ryder N,et al. Language models are few-shot learners [C]//Advances in Neural Information Processing Systems. 2020: 1877-1901.
[24]Yang Zhengyuan, Lu Yijuan, Wang Jianfeng, et al. Tap: text-aware pre-training for text-VQA and text-caption [C]// Proc of IEEE/CVF Conference on Computer Vision and Pattern Recognition. Piscataway, NJ: IEEE Press, 2021: 8751-8761.
[25]Touvron H, Cord M, Douze M, et al. Training data-efficient image transformers amp; distillation through attention [C]// Proc of the 38th International Conference on Machine Learning. 2021: 10347-10357.
[26]Liu Yahui,Sangineto E, Bi Wei, et al. Efficient training of visual transformers with small datasets [C]//Advances in Neural Information Processing Systems. 2021: 23818-23830.
[27]Hassani A, Walton S, Shah N,et al. Escaping the big data paradigm with compact transformers [EB/OL]. (2021-04-12). https://arxiv.org/abs/2104. 05704.
[28]Lee S, Lee S, Song B. Vision transformer for small-size datasets [EB/OL]. (2021-12-27). https://arxiv.org/abs/2112. 13492.
[29]Chu Xiangxiang, Tian Zhi, Zhang Bo, et al. Conditional positional encodings for vision Transformers [EB/OL]. (2021-05-18) (2022-03-28). https://arxiv. org/pdf/2102. 10882.
[30]Lu Zhiying, Xie Hongtao, Liu Chuanbin, et al. Bridging the gap between vision transformers and convolutional neural networks on small datasets [C]// Advances in Neural Information Processing Systems. 2022: 14663-14677.
[31]Roy A, Saffar M, Vaswani A,et al. Efficient content-based sparse attention with routing transformers [J]. Transactions of the Association for Computational Linguistics, 2021, 9: 53-68.
[32]Krizhevsky A, Sutskever I, Hinton G E. ImageNet classification with deep convolutional neural networks [C]// Proc of the 25th Communication of ACM. New York: ACM Press, 2017: 84-90.
[33]Zagoruyko S, Komodakis N. Wide residual networks [C]// Proc of British Machine Vision Conference. 2016: 87. 1-87. 12.
[34]Xie Saining,Girshick R, Dollar P, et al. Aggregated residual transformations for deep neural networks [C]// Proc of IEEE Conference on Computer Vision and Pattern Recognition. Piscataway, NJ: IEEE Press, 2017: 1492-1500.
[35]Gao Shanghua, Cheng Mingming, Zhao Kai, et al. Res2Net: a new multi-scale backbone architecture [J]. IEEE Trans on Pattern Analysis and Machine Intelligence, 2019, 43 (2): 652-662.