• <tr id="yyy80"></tr>
  • <sup id="yyy80"></sup>
  • <tfoot id="yyy80"><noscript id="yyy80"></noscript></tfoot>
  • 99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看 ?

    小數(shù)據(jù)集上基于語(yǔ)義的局部注意視覺(jué)Transformer方法

    2025-03-09 00:00:00馮欣王俊杰鐘聲方婷婷
    關(guān)鍵詞:圖像分類深度學(xué)習(xí)

    摘 要:在小數(shù)據(jù)集上從零開(kāi)始訓(xùn)練時(shí),視覺(jué)Transformer無(wú)法與同規(guī)模的卷積神經(jīng)網(wǎng)絡(luò)媲美?;趫D像的局部注意力方法,可以顯著提高ViT的數(shù)據(jù)效率,但是會(huì)丟失距離較遠(yuǎn)但相關(guān)的補(bǔ)丁之間的信息。為了解決上述問(wèn)題,提出一種雙向并行局部注意力視覺(jué)Transformer的方法。該方法首先在特征層面上對(duì)補(bǔ)丁進(jìn)行分組,在組內(nèi)執(zhí)行局部注意力,以利用特征空間中補(bǔ)丁之間的關(guān)系彌補(bǔ)信息丟失。其次,為了有效融合補(bǔ)丁之間的信息,將基于語(yǔ)義的局部注意力和基于圖像的局部注意力并行結(jié)合起來(lái),通過(guò)雙向自適應(yīng)學(xué)習(xí)來(lái)增強(qiáng)ViT模型在小數(shù)據(jù)上的性能。實(shí)驗(yàn)結(jié)果表明,該方法在計(jì)算量為15.2 GFLOPs和參數(shù)量為57.2 M的情況下,分別在CIFAR-10和CIFAR-100數(shù)據(jù)集上實(shí)現(xiàn)了97.93%和85.80%的準(zhǔn)確性。相比于其他方法,雙向并行局部注意力視覺(jué)Transformer在增強(qiáng)局部引導(dǎo)能力的同時(shí),保持了局部注意力所需屬性的有效性。

    關(guān)鍵詞:深度學(xué)習(xí);圖像分類;Transformer;局部注意力;基于語(yǔ)義的局部注意

    中圖分類號(hào):TP391.4"" 文獻(xiàn)標(biāo)志碼:A

    文章編號(hào):1001-3695(2025)01-044-0314-07

    doi: 10.19734/j.issn.1001-3695.2023.11.0643

    Semantics-based local attention visual Transformer method on small datasets

    Abstract:When training from scratch on a small data set, visual Transformer cannot be compared with convolutional neural networks of the same scale. Image-based local attention methods can significantly improve the data efficiency of ViT, but will lose information between distant but related patches. To solve the above problems, this paper proposed a bidirectional parallel local attention visual Transformer method. The method first grouped patches at the feature level and performed local attention within the grouped to compensate for the information loss by exploiting the relationships between patches in the feature space. Secondly, in order to effectively fuse information between patches, it combined semantic-based local attention and image-based local attention in parallel to enhance the performance of the ViT model on small data through bidirectional adaptive learning. Experimental results show that this method achieves 97.93% and 85.80% accuracy on the CIFAR-10 and CIFAR-100 data sets respectively with a calculation amount of 15.2 GFLOPs and a parameter amount of 57.2 M. Compared with other methods, the bidirectional parallel local attention visual Transformer maintains the effectiveness of the attributes required for local attention while enhancing local guidance capabi-lities.

    Key words:deep learning; image classification; Transformer; local attention; semantics-based local attention

    0 引言

    卷積神經(jīng)網(wǎng)絡(luò)(convolution neural network, CNN)已經(jīng)成為從圖像數(shù)據(jù)中學(xué)習(xí)視覺(jué)表示的卓越方法,從而徹底改變了計(jì)算機(jī)視覺(jué)(computer vision, CV)領(lǐng)域[1,2]。隨后,由自注意力機(jī)制驅(qū)動(dòng)的Transformer模型在自然語(yǔ)言處理(natural language processing, NLP)領(lǐng)域取得了廣泛認(rèn)可和顯著的成果[3]。研究人員將自注意力機(jī)制與CV領(lǐng)域的CNN集成在一起的一系列成功的實(shí)驗(yàn),證明了Transformer在與圖像相關(guān)的任務(wù)中的適用性。在最近的發(fā)展中,視覺(jué)Transformer(vision Transformers, ViT)[4]在各種任務(wù)中超過(guò)了傳統(tǒng)的基于CNN的模型,包括圖像分類[4~8]、目標(biāo)檢測(cè)[9,10]和分割[11,12]。然而,ViT仍有迫切解決的問(wèn)題:a)對(duì)訓(xùn)練數(shù)據(jù)的高度依賴;b)對(duì)高計(jì)算資源和推理模型的需要。

    ViT是第一個(gè)為圖像分類設(shè)計(jì)的Transformer模型,在具有大型訓(xùn)練數(shù)據(jù)集的任務(wù)中優(yōu)于CNN。通常ViT需要在JFT-300M[13]數(shù)據(jù)集上進(jìn)行預(yù)訓(xùn)練,然后在ImageNet-1K[4]數(shù)據(jù)集上進(jìn)行微調(diào),但這需要大量昂貴的計(jì)算資源和極大的訓(xùn)練數(shù)據(jù)(圖1(a))。如果僅在ImageNet-1K上從零開(kāi)始訓(xùn)練ViT,其準(zhǔn)確性將大幅降低[4]。在實(shí)際應(yīng)用中,大多數(shù)數(shù)據(jù)集的規(guī)模遠(yuǎn)遠(yuǎn)小于ImageNet-1K,并且并非所有研究人員都能承擔(dān)在大規(guī)模數(shù)據(jù)集上進(jìn)行預(yù)訓(xùn)練和在特定小型數(shù)據(jù)集上進(jìn)行微調(diào)的負(fù)擔(dān)。因此,需要一種有效的架構(gòu),能夠在小型數(shù)據(jù)集上從零開(kāi)始訓(xùn)練ViT,以滿足實(shí)際應(yīng)用的需求。最近的幾項(xiàng)研究[14~17]探討了在小規(guī)模數(shù)據(jù)集上從零開(kāi)始訓(xùn)練時(shí),ViT和CNN性能差異的原因。這些研究得出的結(jié)論是:缺乏歸納偏置是影響ViT性能的主要因素。例如,Raghu等人[14]指出,在有限的數(shù)據(jù)上訓(xùn)練時(shí),ViT無(wú)法在較早的層次學(xué)習(xí)到局部注意力。而D’Ascoli 等人[15]強(qiáng)調(diào)更強(qiáng)的歸納偏見(jiàn)會(huì)導(dǎo)致更強(qiáng)的表示,大規(guī)模數(shù)據(jù)集可以幫助ViT學(xué)習(xí)到強(qiáng)大的表示。許多近期的研究試圖以各種方式引入局部歸納偏見(jiàn)。一些研究者嘗試將卷積引入ViT[6,7],并將其修改為分層結(jié)構(gòu)[5,18],使ViT更類似于傳統(tǒng)的CNN。例如,Park等人[16]發(fā)現(xiàn)添加卷積約束可以使ViT在小數(shù)據(jù)集上實(shí)現(xiàn)高效訓(xùn)練。而Chen等人[17]提出了一種在訓(xùn)練過(guò)程中通過(guò)在自注意力模塊中引入局部性約束來(lái)提高ViT數(shù)據(jù)效率的方法。還有些研究者試圖通過(guò)在局部窗口內(nèi)進(jìn)行自注意力計(jì)算[5,18]。當(dāng)僅在中等規(guī)模的Image-Net1K數(shù)據(jù)集上從零開(kāi)始訓(xùn)練時(shí),這些方法與強(qiáng)大的CNN性能相當(dāng)。然而,在規(guī)模更小的數(shù)據(jù)集上性能差距仍然存在[19]。

    在這里,本文考慮到訓(xùn)練數(shù)據(jù)的稀缺性削弱了ViT的歸納偏置。為了提高數(shù)據(jù)效率,有必要進(jìn)一步增強(qiáng)和更好地利用歸納偏置,即引入局部注意力。基于圖像的局部注意力通過(guò)在圖像平面上劃分網(wǎng)格,并在局部窗口內(nèi)計(jì)算相鄰補(bǔ)丁之間的自注意力,實(shí)現(xiàn)了對(duì)輸入圖像分辨率的線性復(fù)雜度[5]。然而,不同局部窗口中的補(bǔ)丁之間可能存在一些有意義的連接,但由于局部窗口的限制,導(dǎo)致連接丟失。同時(shí)由于訓(xùn)練數(shù)據(jù)較少,注意力層無(wú)法充分學(xué)會(huì)局部注意。在這種情況下,基于語(yǔ)義的局部注意力不僅僅關(guān)注圖像中的局部結(jié)構(gòu),更注重圖像內(nèi)容的語(yǔ)義關(guān)聯(lián)性,能在同樣的線性復(fù)雜度下,有效地彌補(bǔ)基于圖像的局部注意力可能引起的信息損失。這種關(guān)注點(diǎn)轉(zhuǎn)移使得模型能夠更充分地利用有限的數(shù)據(jù),從而提升了模型在小型數(shù)據(jù)集上的性能表現(xiàn)?;谡Z(yǔ)義的局部注意力利用圖像內(nèi)容的局部性,在特征空間而非圖像空間中計(jì)算局部自注意力。該方法的基本原理是:在特征空間中彼此接近的特征向量在計(jì)算自注意力結(jié)果時(shí)相互影響較大。這是因?yàn)閮蓚€(gè)特征向量的接近程度取決于它們之間的相似性?;谡Z(yǔ)義的局部注意力僅保留特征空間中彼此接近的特征向量的自注意力結(jié)果,而忽略遠(yuǎn)離的特征向量的自注意力結(jié)果。實(shí)際上,這是將特征向量分成多個(gè)組,在特征空間中彼此接近的特征向量放入同一組,而相距較遠(yuǎn)的特征向量放入不同的組?;谡Z(yǔ)義的局部注意力可以建立有意義的、非局部補(bǔ)丁之間的連接,彌補(bǔ)了基于圖像的局部注意力在局部窗口限制下對(duì)長(zhǎng)距離依賴性的不足。

    依據(jù)上面的思路,本文提出了一種新的雙向并行局部注意力視覺(jué)Transformer(bilateral parallel local attention vision Transformer, BPLAT)方法。該方法是一個(gè)雙向并行局部注意力網(wǎng)絡(luò),包括基于圖像的局部注意力(image-based local attention, IBLA)模塊和基于語(yǔ)義的局部注意力(semantics-based local attention, SBLA)模塊。通過(guò)將這兩個(gè)模塊構(gòu)建為一種雙向并行結(jié)構(gòu),實(shí)現(xiàn)了兩者的雙重優(yōu)勢(shì)。該結(jié)構(gòu)一方面通過(guò)IBLA模塊來(lái)提升視覺(jué)Transformer的數(shù)據(jù)效率。另一方面,通過(guò)SBLA模塊來(lái)彌補(bǔ)信息損失,最后通過(guò)雙向自適應(yīng)學(xué)習(xí)來(lái)有效融合這兩個(gè)模塊。這種設(shè)計(jì)允許兩個(gè)模塊相互補(bǔ)充,共同工作,從而提高有限數(shù)據(jù)的利用效率。本文方法設(shè)計(jì)旨在通過(guò)基于語(yǔ)義的局部注意力機(jī)制,有效地填補(bǔ)基于圖像的局部注意力可能引起的信息損失?;谡Z(yǔ)義的局部注意力著重關(guān)注圖像內(nèi)容的語(yǔ)義關(guān)聯(lián)性,而不僅僅局限于圖像區(qū)域。這種關(guān)注點(diǎn)的轉(zhuǎn)變使得模型能夠更充分地利用有限的數(shù)據(jù),特別是在小型數(shù)據(jù)集情境下。實(shí)現(xiàn)了對(duì)基于圖像的局部信息和基于語(yǔ)義的局部信息的更全面的建模。不同于傳統(tǒng)ViT通過(guò)計(jì)算所有標(biāo)記之間的自注意力 (圖1(a)),基于圖像的局部注意力模塊使用swin[5]方法將圖像劃分為多個(gè)局部窗口,并在每個(gè)窗口內(nèi)計(jì)算自注意力(圖1 (b))。本文提出的基于語(yǔ)義的局部注意力模塊,使用K均值聚類來(lái)將補(bǔ)丁聚合成多個(gè)簇,并在每個(gè)簇內(nèi)計(jì)算自注意力(圖1 (c))。具體而言,首先使用K均值算法為每個(gè)基本補(bǔ)丁找到一組相似的補(bǔ)丁。然后,將基本補(bǔ)丁設(shè)置為查詢,將K個(gè)匹配補(bǔ)丁設(shè)置為鍵和值。最后在簇內(nèi)執(zhí)行成對(duì)自注意力。本文方法能在保持對(duì)特征分辨率的線性復(fù)雜度的同時(shí),將局部注意力應(yīng)用于整個(gè)圖像,增強(qiáng)了ViT的局部特征提取能力。

    本文在各種小型數(shù)據(jù)集上進(jìn)行了從零開(kāi)始的訓(xùn)練實(shí)驗(yàn),包括公共數(shù)據(jù)集CIFAR[20]和DomainNet[21]數(shù)據(jù)集。與強(qiáng)大的CNN模型(如ResNeXt、DenseNet和Res2Net)相比,本文方法在CIFAR數(shù)據(jù)集上表現(xiàn)出明顯的性能優(yōu)勢(shì)。因此,本文提供了可以在小型數(shù)據(jù)集上從零開(kāi)始訓(xùn)練的替代方法,其彌合了CNN和VIT之間的性能差距。本文還在ImageNet-1K上從零開(kāi)始訓(xùn)練,評(píng)估其性能,展示了在更大數(shù)據(jù)集上的有效性。本文的貢獻(xiàn)總結(jié)如下:a)本文引入了一種專注于提高小數(shù)據(jù)集上數(shù)據(jù)效率的雙邊并行局部注意力視覺(jué)Transformer方法。通過(guò)采用基于圖像和基于內(nèi)容的局部注意力的并行訓(xùn)練策略,成功增強(qiáng)了ViT模型的歸納能力。b)本文應(yīng)用了基于語(yǔ)義的局部注意力方法,并首次將其與K均值聚類算法相結(jié)合,引入可學(xué)習(xí)的聚類中心對(duì)標(biāo)記進(jìn)行聚類,以彌補(bǔ)僅使用基于圖像的局部注意力可能導(dǎo)致的信息損失。c)本文方法不僅在小數(shù)據(jù)集上表現(xiàn)出色,而且通過(guò)減少參數(shù)和計(jì)算量,顯著提高了ViT模型的計(jì)算效率,使其在小數(shù)據(jù)集的圖像分類任務(wù)中始終領(lǐng)先于其他方法。

    1 相關(guān)工作

    1.1 視覺(jué)Transformer

    Transformer模型主要基于自注意力機(jī)制,最早由Vaswani等人[22]提出。這種架構(gòu)在自然語(yǔ)言處理[23,3]和跨模態(tài)任務(wù)[24]中得到了廣泛應(yīng)用。ViT是首個(gè)專為圖像處理設(shè)計(jì)的基于Transformer的模型。在大型數(shù)據(jù)集上訓(xùn)練時(shí),ViT在圖像分類任務(wù)上的性能優(yōu)于CNN。然而,當(dāng)從頭開(kāi)始在中等規(guī)模數(shù)據(jù)集(如ImageNet-1K)上訓(xùn)練時(shí),ViT的性能無(wú)法與CNN相媲美。許多改進(jìn)的ViT模型,已經(jīng)在中等規(guī)模數(shù)據(jù)集上實(shí)現(xiàn)競(jìng)爭(zhēng)性性能,包括使用層次結(jié)構(gòu)[5,18]、歸納偏置[6,7,25]和局部自注意力[5,17,18]。然而,這些方法在小型數(shù)據(jù)集上表現(xiàn)不佳。1.2 數(shù)據(jù)高效視覺(jué)Transformer

    為了提高ViT的數(shù)據(jù)效率,許多后續(xù)工作提出了數(shù)據(jù)高效的ViT架構(gòu)。這些架構(gòu)不需要ViT在大規(guī)模數(shù)據(jù)進(jìn)行預(yù)訓(xùn)練的情況下表現(xiàn)良好。Touvron等人[25]將一系列數(shù)據(jù)增強(qiáng)方法應(yīng)用到輸入數(shù)據(jù)上,并使用知識(shí)蒸餾策略從零開(kāi)始訓(xùn)練小型數(shù)據(jù)。文獻(xiàn)[6,7]將卷積引入到補(bǔ)丁嵌入階段中訓(xùn)練ViT,解決了非重疊補(bǔ)丁嵌入中的不連續(xù)性問(wèn)題。Liu等人[26]通過(guò)提取圖像的空間信息進(jìn)行自我監(jiān)督,以學(xué)習(xí)編碼圖像標(biāo)記的空間位置。當(dāng)在ImageNet-1K上從零開(kāi)始訓(xùn)練時(shí),以上方法通過(guò)引入強(qiáng)大的歸納偏置使得ViT更加數(shù)據(jù)高效。

    1.3 小數(shù)據(jù)集上的視覺(jué)Transformer

    已經(jīng)有一些研究致力于解決在小數(shù)據(jù)集上從零開(kāi)始訓(xùn)練的問(wèn)題。Chen等人[17]通過(guò)引入多焦點(diǎn)注意力偏見(jiàn),使視覺(jué)轉(zhuǎn)換器具有與卷積神經(jīng)網(wǎng)絡(luò)相同的數(shù)據(jù)效率,提高了ViT在小數(shù)據(jù)集上的性能。Hassani等人[27]通過(guò)引入緊湊的Transformers和卷積標(biāo)記化,成功地在小數(shù)據(jù)集上訓(xùn)練了ViT。Lee等人[28]引入了局部自注意力(locality self-attention, LSA)和位移補(bǔ)丁標(biāo)記化(shift patch tokenization, SPT),使ViT在小數(shù)據(jù)集上也能夠從零開(kāi)始訓(xùn)練。雖然先前的工作已經(jīng)縮小了ViT和CNN之間的性能差距,但它們的性能仍然無(wú)法與強(qiáng)大的CNN競(jìng)爭(zhēng)。本文方法利用了局部特征空間約束,增強(qiáng)了歸納偏置,成功地彌合了ViT和CNN在小數(shù)據(jù)集上的性能差距。

    2 方法

    2.1 BPLAT概覽

    本文提出了一種新的雙向并行局部注意力視覺(jué)Transformer(BPLAT)方法。具體而言,BPLAT是通過(guò)替換 Transformer 模塊中的多頭自注意力(multi-head attention, MHSA)來(lái)構(gòu)建的。一方面,通過(guò)使用基于圖像的局部注意力方法來(lái)引入局部歸納偏置,提升視覺(jué)Transformer的數(shù)據(jù)效率。另一方面,通過(guò)基于語(yǔ)義的局部注意力方法彌補(bǔ)信息損失,最后采用并行結(jié)構(gòu),分利用了兩個(gè)方法之間的互補(bǔ)性,在小型數(shù)據(jù)集上從零開(kāi)始訓(xùn)練,實(shí)現(xiàn)數(shù)據(jù)高效的視覺(jué)Transformer。

    如圖2所示,BPLAT模型與ViT模型非常相似,采用了非分層設(shè)計(jì),每個(gè)編碼器塊使用相同的參數(shù)設(shè)置,處理相同維度的特征。然而,與傳統(tǒng)的ViT不同,本文使用全局平均池化(global average pooling, GAP)代替了用于最終分類預(yù)測(cè)的分類標(biāo)記。這是因?yàn)槭褂肎AP而不是分類標(biāo)記可以獲得更好的性能[29]。為了更詳細(xì)地介紹本文方法,首先,簡(jiǎn)要介紹補(bǔ)丁嵌入模塊,然后詳細(xì)介紹提出的雙向并行局部注意力模塊,包括基于圖像的局部注意力(IBLA)模塊和基于語(yǔ)義的局部注意力(SBLA)模塊。最后介紹訓(xùn)練損失。

    首先,將輸入圖像分割為多個(gè)補(bǔ)丁。如果輸入圖像的分辨率為H×W,目標(biāo)補(bǔ)丁大小為P,則生成的補(bǔ)丁標(biāo)記序列的長(zhǎng)度為N=HW/P2。本文遵循DHVT[30]的補(bǔ)丁嵌入設(shè)置,該設(shè)置包括一系列帶有步長(zhǎng)s=2的3×3卷積層。使用批標(biāo)準(zhǔn)化(batch normalization, BN)和GeLU激活函數(shù),以及在卷積層之前和之后添加兩個(gè)仿射變換層。卷積層數(shù)量隨著補(bǔ)丁大小的增加而擴(kuò)展,補(bǔ)丁大小為P=2k每個(gè)標(biāo)記的維度為C。

    2.2 雙向并行局部注意力

    Xin=MHSA(LN(X))(1)

    Xin1,Xin2=split(Xin)(2)

    XIBLA=IBLA(Xin1)(3)

    XCBLA=SBLA(Xin2)(4)

    IBLA是直接采用了swin Transformer中具有出色性能的基于窗口的局部注意力模塊。在圖像上劃分窗口后,IBLA計(jì)算同一窗口內(nèi)的標(biāo)記之間的自注意力。顯然,同一局部窗口中的補(bǔ)丁在圖像空間中非常接近,內(nèi)容可能極其相關(guān)。然而,這剝奪了模型捕捉遠(yuǎn)程依賴關(guān)系的能力。因?yàn)樵趫D像空間中,可能存在一些具有相似內(nèi)容但距離相對(duì)較遠(yuǎn)的補(bǔ)丁之間的重要連接。圖像空間中的遠(yuǎn)程補(bǔ)丁可能有助于模型的理解和特征提取,輕易地忽略這些關(guān)聯(lián)可能會(huì)降低模型的性能。

    本文提出的基于語(yǔ)義的局部注意力模塊可以有效補(bǔ)償基于圖像的局部注意力丟失的有用連接?;谡Z(yǔ)義的局部注意力模塊在特征空間中計(jì)算相鄰標(biāo)記之間的自注意力,可以補(bǔ)充圖像空間中局部注意力丟失的信息,并且比ViT中的全局自注意力更為有效。同時(shí),本文還向模型中添加了局部增強(qiáng)的相對(duì)位置編碼。為了進(jìn)一步增強(qiáng)網(wǎng)絡(luò)的局部性,本文在前饋網(wǎng)絡(luò)(feed-forward network, FFN)中將多層感知機(jī)(multilayer perceptron, MLP)替換為深度可分離卷積 (depthwise separable convolution, DW)。最后,SBLA模塊和IBLA模塊的輸出被合并后通過(guò)跳躍連接的方式與輸入融合。合并的結(jié)果經(jīng)過(guò)前饋網(wǎng)絡(luò),得到雙向并行局部注意力塊的輸出:

    X′in=Xin+concat(XIBLA,XSBLA)(5)

    Xout=X′in+LN(FFN(X′in))(6)

    其中:FFN(X)=DW(LN(X))。

    2.3 基于語(yǔ)義的局部注意力

    與直接在圖像上劃分窗口并在窗口內(nèi)計(jì)算基于圖像的局部注意力不同,基于語(yǔ)義的局部注意力是為了在特征空間中找到相對(duì)相似的標(biāo)記進(jìn)行分組,并在分組內(nèi)計(jì)算局部注意力。換句話說(shuō),本文使用標(biāo)記聚類方法將視覺(jué)標(biāo)記分成相應(yīng)數(shù)量的簇,并在這些簇內(nèi)計(jì)算基于語(yǔ)義的局部注意力。

    2.3.1 基于K均值聚類的局部注意力

    在使用點(diǎn)積進(jìn)行注意力計(jì)算的場(chǎng)景中,一個(gè)特定關(guān)鍵詞Kj對(duì)于查詢Qi的重要性與它們之間的點(diǎn)積成正比。因此,本文可以使用式(8)中的k均值聚類目標(biāo)來(lái)選擇給定查詢Qi的最優(yōu)關(guān)鍵詞Kj。本文在對(duì)查詢和鍵進(jìn)行兩兩匹配并計(jì)算在同一簇內(nèi)進(jìn)行局部自注意力計(jì)算的實(shí)現(xiàn)中,首先對(duì)查詢和鍵進(jìn)行層歸一化,使它們?cè)谟?jì)算前投影到單位球面上。即所有比較的向量長(zhǎng)度都被歸一化為1,因此它們?cè)诜较蛏嫌兴煌?,但在大小上相等。在查詢和鍵層歸一化后,采用點(diǎn)積的方式計(jì)算注意力。將查詢和鍵投影到單位球面上聚類就相當(dāng)于球形K均值聚類算法,這意味著:

    ‖Qi-Kj‖2=‖Qi‖2+‖Kj‖2-2QTiKj=2-2QTiKj(9)

    因此,如果Qi和Kj屬于相同的簇中心,即c=c(Qi)=c(Kj),則QTiKj的結(jié)果接近1,那么就意味著Qi和Kj的注意力權(quán)重QTiKj相對(duì)較高。分析表明,在查詢和鍵的全局注意力中,只保留具有較大注意力權(quán)重的數(shù)值,而那些具有較小注意力權(quán)重的數(shù)值被設(shè)為零?;谡Z(yǔ)義的局部注意力的公式為

    這等同于設(shè)置一個(gè)分段函數(shù),將特征向量之間低相似度的數(shù)值設(shè)為零。在訓(xùn)練過(guò)程中,本文使用指數(shù)移動(dòng)平均來(lái)更新每個(gè)簇的質(zhì)心。這是通過(guò)計(jì)算每個(gè)簇中所有分配的查詢Q和鍵K的指數(shù)移動(dòng)平均值來(lái)實(shí)現(xiàn)的:

    其中:衰減參數(shù)λ通常設(shè)置為0.999。指數(shù)移動(dòng)平均在逐漸融入歷史信息的同時(shí),更加注重最近的數(shù)據(jù)。

    2.3.2 簇內(nèi)局部注意力

    每個(gè)簇中包含的標(biāo)記數(shù)量是根據(jù)總標(biāo)記數(shù)N確定的。這種策略可以確保所有簇包含相同數(shù)量的標(biāo)記,在硬件加速中非常重要, 例如:圖形卡的并行計(jì)算。在聚類之后,標(biāo)記集合被分成K個(gè)子集,然后在每個(gè)子集上執(zhí)行自注意力計(jì)算,以實(shí)現(xiàn)基于語(yǔ)義的局部注意力。

    其中:dk是查詢的通道數(shù),B是相對(duì)位置偏差[17]。采用配置多頭的方式實(shí)現(xiàn)基于語(yǔ)義的局部注意力,其配置與Transformer中的多頭設(shè)置相同。然后,在每個(gè)頭內(nèi)部獨(dú)立進(jìn)行K均值聚類。這意味著對(duì)于特定的標(biāo)記,在執(zhí)行基于語(yǔ)義的局部注意力時(shí),不同的頭可能會(huì)關(guān)注不同的標(biāo)記。這種方法比swin的方法更靈活,后者在多個(gè)頭之間共享相同的局部窗口。

    基于語(yǔ)義的局部注意算法描述如算法1所示。

    算法1 基于語(yǔ)義的局部注意算法

    2.4 訓(xùn)練損失

    本文使用圖像分類損失Lcls和簇中心損失Lkmeans兩個(gè)損失函數(shù)。對(duì)于圖像分類,采用交叉熵?fù)p失Lcls。簇中心損失Lkmeans使用L1損失定義,旨在找到簇中心的全局最優(yōu)解。

    3 實(shí)驗(yàn)

    3.1 數(shù)據(jù)集和實(shí)現(xiàn)細(xì)節(jié)

    3.1.1 數(shù)據(jù)集

    為了驗(yàn)證在小數(shù)據(jù)集上從零開(kāi)始訓(xùn)練的模型性能,本文主要選擇了較小的CIFAR數(shù)據(jù)集上進(jìn)行實(shí)驗(yàn)。在小數(shù)據(jù)集的選取上,本文考慮了兩個(gè)主要因素:訓(xùn)練數(shù)據(jù)的總數(shù)和每個(gè)類別的平均數(shù)量。有些數(shù)據(jù)集的總訓(xùn)練數(shù)據(jù)數(shù)量較小,但每個(gè)類別的平均樣本數(shù)較大,而其他數(shù)據(jù)集總數(shù)較大,但每個(gè)類別的平均樣本數(shù)較小。為了驗(yàn)證模型在小數(shù)據(jù)集上的性能,本文綜合考慮了這兩個(gè)方面來(lái)選擇數(shù)據(jù)集。同時(shí),為了驗(yàn)證模型在其他小數(shù)據(jù)集上的性能,文本還添加了來(lái)自DomainNet的六個(gè)小數(shù)據(jù)集以及ImageNet-1K。最后,本文選擇的數(shù)據(jù)集和數(shù)據(jù)類別的統(tǒng)計(jì)信息如表1所示。

    3.1.2 實(shí)現(xiàn)細(xì)節(jié)

    本文參考先前的工作設(shè)計(jì)了三種不同規(guī)模的模型,即 BPLAT-T、BPLAT-S和BPLAT-B。同時(shí),采取與其他ViT模型相同的訓(xùn)練策略。對(duì)于圖像分辨率為224×224的數(shù)據(jù)集,本文將補(bǔ)丁大小設(shè)置為16;而對(duì)于圖像分辨率為32×32的數(shù)據(jù)集,本文將補(bǔ)丁大小設(shè)置為4。本文采取的數(shù)據(jù)增強(qiáng)策略與DeiT[25]中的數(shù)據(jù)增強(qiáng)設(shè)置完全相同,沒(méi)有添加任何其他數(shù)據(jù)增強(qiáng)策略,也沒(méi)有調(diào)整現(xiàn)有的數(shù)據(jù)增強(qiáng)策略以提高模型性能。本文使用 AdamW 優(yōu)化器,并從隨機(jī)初始化開(kāi)始訓(xùn)練所有模型,共進(jìn)行300個(gè)epoch的訓(xùn)練。本文使用權(quán)重衰減率為0.05,熱身時(shí)間為5,β2為0.99,并將學(xué)習(xí)率調(diào)整為5E-4×batchsize/256,批大小分別為256 (BPLAT-T)、128(BPLAT-S)和64(BPLAT-B),模型注意力頭的數(shù)量設(shè)置為4 (BPLAT-T)、8(BPLAT-S)和12(BPLAT-B)?;诖嗽O(shè)置,模型可以在單個(gè)V100 GPU上開(kāi)展訓(xùn)練。本文模型是使用PyTorch框架實(shí)現(xiàn)的,代碼是基于timm修改的。

    3.2 結(jié)果對(duì)比

    3.2.1 DomainNet數(shù)據(jù)集結(jié)果

    為了評(píng)估模型在小數(shù)據(jù)集上的性能,本文選擇了DomainNet數(shù)據(jù)集中的六個(gè)小數(shù)據(jù)集進(jìn)行實(shí)驗(yàn)。本文與PyTorch代碼中的ResNet-50官方實(shí)現(xiàn)作為基準(zhǔn)線進(jìn)行比較,從頭開(kāi)始訓(xùn)練ResNet-50,并使用了各種數(shù)據(jù)增強(qiáng)技術(shù),例如Mixup、CutMix 和AutoAugment。最后的實(shí)驗(yàn)結(jié)果如表2所示,本文模型表現(xiàn)優(yōu)于ResNet-50,在不同的小型數(shù)據(jù)集上的取得了較好的結(jié)果。

    3.2.2 ImageNet-1K數(shù)據(jù)集結(jié)果

    本文進(jìn)行了一系列實(shí)驗(yàn),評(píng)估本文模型在中等規(guī)模ImageNet-1K數(shù)據(jù)集上的訓(xùn)練性能。本文采用與DeiT[25]相同的實(shí)驗(yàn)設(shè)置和數(shù)據(jù)增強(qiáng)策略,結(jié)果如表3所示:BPLAT-T的準(zhǔn)確率為76.42%,BPLAT-S的準(zhǔn)確率為79.27%,而BPLAT-B的準(zhǔn)確率為80.03%。這表明,在非層級(jí)化的ViT結(jié)構(gòu)下,本文模型在相同參數(shù)規(guī)模和計(jì)算復(fù)雜度的情況下表現(xiàn)出色,但與層級(jí)結(jié)構(gòu)的ViT模型相比,例如swin Transformer,仍然存在差距。這是因?yàn)锽PLAT所使用的基于語(yǔ)義的局部注意力機(jī)制對(duì)某些依賴關(guān)系進(jìn)行了抑制,一方面減少了信息損失和噪聲干擾,另一方面也削弱了模型的學(xué)習(xí)能力,導(dǎo)致精度下降。而層級(jí)結(jié)構(gòu)的Transformer 架構(gòu)則采用了更優(yōu)化的配置。它們通過(guò)增加網(wǎng)絡(luò)深度和注意力頭的數(shù)量提高了模型的非線性擬合能力。此外,還引入了一些創(chuàng)新的設(shè)計(jì)思想,如多階段表示,使網(wǎng)絡(luò)能夠更好地適應(yīng)不同尺度和場(chǎng)景的圖像數(shù)據(jù)。這些改進(jìn)使它們?cè)趽碛懈賲?shù)的情況下實(shí)現(xiàn)了更高的準(zhǔn)確性。與BPLAT最大的區(qū)別在于,它們沒(méi)有改變注意力機(jī)制本身,而是通過(guò)優(yōu)化網(wǎng)絡(luò)結(jié)構(gòu)來(lái)提高數(shù)據(jù)效率。然而,本文旨在通過(guò)對(duì)比實(shí)驗(yàn)表明 ViT 可以在保持模型更低計(jì)算量和計(jì)算復(fù)雜度的前提下提高數(shù)據(jù)效率,并不是單純地追求網(wǎng)絡(luò)精度??傮w而言,盡管在較大的數(shù)據(jù)集上性能略有下降,但模型的表現(xiàn)仍然可以接受。然而,在小型數(shù)據(jù)集上,它表現(xiàn)出色。

    3.2.3 CIFAR數(shù)據(jù)集結(jié)果

    本文在CIFAR數(shù)據(jù)集上對(duì)從零開(kāi)始訓(xùn)練的模型進(jìn)行了性能比較。對(duì)于不劃分補(bǔ)丁、使用原始像素輸入的模型,本文將補(bǔ)丁大小設(shè)置為1。所有方法均使用圖像大小為32×32的CIFAR數(shù)據(jù)集從隨機(jī)初始化進(jìn)行訓(xùn)練。本文使用類似ViT的符號(hào)[23]來(lái)表示模型大小和補(bǔ)丁大?。豪?,BPLAT-B/2表示具有2×2輸入補(bǔ)丁大小的“Base”變體。:表示在相同的訓(xùn)練方案下重新實(shí)現(xiàn)該方法。其他結(jié)果均來(lái)自對(duì)相應(yīng)工作的直接引用。從表4中可以看出,所有基于CNN的方法中,在CIFAR100上訓(xùn)練的最佳準(zhǔn)確率為82.82%,而所有基于Transformer的方法中,在CIFAR100上訓(xùn)練的最佳準(zhǔn)確率為82.56%。與基于CNN的模型相比,基于ViT的模型通常具有更低的參數(shù)量和計(jì)算復(fù)雜度。而本文的BPLAT模型是基于ViT的。與其他基于ViT的模型相比,BPLAT不僅具有更少的參數(shù)量和計(jì)算復(fù)雜度,而且在準(zhǔn)確性上更具有優(yōu)勢(shì)。實(shí)驗(yàn)結(jié)果顯示,BPLAT-T模型在CIFAR10和CIFAR100準(zhǔn)確率達(dá)到了96.95%和83.63%,其參數(shù)量為5.8 M,計(jì)算量為1.0 GFLOPs;BPLAT-S模型在CIFAR10和CIFAR100準(zhǔn)確率達(dá)到了97.51%和84.84%,其參數(shù)量為14.4 M,計(jì)算量為3.9 GFLOPs;BPLAT-B模型在CIFAR10和CIFAR100準(zhǔn)確率達(dá)到了97.93%和85.80%,其參數(shù)為57.2 M,計(jì)算量為15.2 GFLOPs。與其他ViT模型和混合模型相比,本文模型在具有更少參數(shù)和計(jì)算復(fù)雜度的情況下實(shí)現(xiàn)了顯著的性能提升。BPLAT通過(guò)在并行訓(xùn)練中使用基于圖像的局部注意力和基于語(yǔ)義的局部注意力增強(qiáng)了模型的歸納偏見(jiàn),這不僅提高了ViT的數(shù)據(jù)效率,也將最先進(jìn)的結(jié)果推向了新的高度。

    3.2.4 目標(biāo)檢測(cè)

    本文進(jìn)一步評(píng)估了所提出的BPLAT在目標(biāo)檢測(cè)方面的性能。本文使用Mask R-CNN和 DINO框架,首先在ImageNet數(shù)據(jù)集上預(yù)訓(xùn)練骨干網(wǎng),然后在MS-COCO數(shù)據(jù)集上進(jìn)行微調(diào)實(shí)驗(yàn)。本文僅將框架的骨干網(wǎng)替換成了BPLAT-T,并未對(duì)其他地方進(jìn)行改動(dòng)。在Mask R-CNN框架中,本文使用3×學(xué)習(xí)率方案。在DINO框架中,本文使用1×學(xué)習(xí)率方案。如表5所示,該模型表現(xiàn)出相對(duì)較低的參數(shù)數(shù)量,并在不同框架中取得了有競(jìng)爭(zhēng)力的結(jié)果。本次實(shí)驗(yàn)是對(duì)該模型的延伸性實(shí)驗(yàn),在參數(shù)效率和整體性能之間有所權(quán)衡,這對(duì)于推動(dòng)視覺(jué)Transformer 在實(shí)際應(yīng)用中的普及更具意義。

    3.3 消融實(shí)驗(yàn)

    消融實(shí)驗(yàn)所使用的模型是BPLAT-T,在接下來(lái)的消融實(shí)驗(yàn)中,所有模型均在CIFAR-100上從零開(kāi)始訓(xùn)練。實(shí)驗(yàn)設(shè)置和數(shù)據(jù)增強(qiáng)與3.2節(jié)中相同。

    3.3.1 SBLA的有效性分析

    本文深入探討了SBLA模塊在BPLAT-T中的有效性,并與IBLA模塊進(jìn)行對(duì)比。如表6所示,當(dāng)僅使用SBLA模塊進(jìn)行訓(xùn)練時(shí),模型實(shí)現(xiàn)了83.06%的準(zhǔn)確率。然而,當(dāng)同時(shí)訓(xùn)練兩個(gè)模塊時(shí),準(zhǔn)確率達(dá)到最佳水平,即83.63%。這證明SBLA模塊在捕捉圖像特征之間的關(guān)系方面發(fā)揮了關(guān)鍵作用,從而提高了模型的分類準(zhǔn)確性。與僅使用SBLA模塊相比,同時(shí)使用SBLA和IBLA模塊的綜合訓(xùn)練表現(xiàn)更佳,顯示了它們?cè)谀P椭械膮f(xié)同效應(yīng)。這表明了SBLA與IBLA模塊之間的互補(bǔ)性。

    3.3.2 模塊中的自注意力頭數(shù)分析

    在模型的多頭自注意力部分,本文對(duì)SBLA模塊使用的自注意力頭數(shù)進(jìn)行了消融實(shí)驗(yàn)。在BPLAT-T模型中,多頭自注意力總數(shù)設(shè)置為4。本文為SBLA模塊設(shè)置不同數(shù)量的自注意力頭,如表7所示,發(fā)現(xiàn)當(dāng)頭數(shù)設(shè)置為2時(shí),模型的準(zhǔn)確率達(dá)到83.63%。SBLA模塊和IBLA模塊的聯(lián)合訓(xùn)練可以相互補(bǔ)充,因此可以期望獲得更高的準(zhǔn)確性。

    3.3.3 SBLA模塊中的每個(gè)簇的標(biāo)記數(shù)量分析

    為了評(píng)估SBLA模塊中簇?cái)?shù)對(duì)模型性能的影響,本文嘗試不同數(shù)量的簇進(jìn)行驗(yàn)證。使用了CIFAR數(shù)據(jù)集,其中標(biāo)記的總數(shù)為256。如表8所示,當(dāng)在每個(gè)簇中設(shè)置64個(gè)標(biāo)記時(shí),模型實(shí)現(xiàn)了最高的準(zhǔn)確率,達(dá)到了81.94%。這表明選擇適當(dāng)數(shù)量的簇對(duì)于模型性能至關(guān)重要。當(dāng)每個(gè)簇中的標(biāo)記數(shù)量太少(16個(gè))或太多(128個(gè))時(shí),性能都有所下降。這因?yàn)樵诖刂性O(shè)置過(guò)少的標(biāo)記會(huì)導(dǎo)致信息不足,而設(shè)置過(guò)多的標(biāo)記可能會(huì)引入噪聲或冗余信息。

    3.4 注意力圖的可視化

    為了更直觀地了解K均值聚類的效果,本文將聚類結(jié)果和相應(yīng)的注意力圖進(jìn)行了可視化。圖4中展示了兩種情景下的聚類效果??梢暬膱?chǎng)景包括輸入圖像中兩個(gè)查詢位置的可視化(左)、不同查詢位置的相應(yīng)聚類結(jié)果(中)以及生成的注意力圖(右)。在每個(gè)情景中,本文從模型的第9層SBLA模塊中提取了聚類結(jié)果和注意力圖。在第一個(gè)戶外場(chǎng)景中,如果聚類對(duì)象是摩托車,那么同一聚類中的補(bǔ)丁都是與摩托車相關(guān)的物體。同樣,在第二個(gè)自然場(chǎng)景中,當(dāng)聚類目標(biāo)放在一個(gè)樹枝上時(shí),聚類的結(jié)果補(bǔ)丁分散在其他樹枝區(qū)域上,這些區(qū)域并不相鄰。這意味著本文的SBLA能夠捕捉遠(yuǎn)程對(duì)象之間的關(guān)系。

    4 結(jié)束語(yǔ)

    本文介紹了一種新穎的視覺(jué)Transformer架構(gòu),即雙向并行局部注意力視覺(jué)Transformer。BPLAT在特征空間和圖像空間同時(shí)實(shí)現(xiàn)了多頭區(qū)域自注意力。為了在特征空間計(jì)算局部注意力,本文提出了一種基于K均值的平衡聚類方法,將圖像補(bǔ)丁分成多個(gè)均勻大小的簇,并在每個(gè)簇內(nèi)計(jì)算自注意力。實(shí)驗(yàn)結(jié)果證明,BPLAT只需要較小的訓(xùn)練數(shù)據(jù)集即可在性能上優(yōu)于現(xiàn)有的基于圖像局部注意力的視覺(jué)Transformer模型。因此,BPLAT可以成為一種高效且有效的圖像分類架構(gòu)。未來(lái)的研究將致力于模型泛化能力更強(qiáng)、更輕量級(jí)的網(wǎng)絡(luò)以提高模型的實(shí)際應(yīng)用價(jià)值,并拓展到其他圖像檢測(cè)分割等視覺(jué)高級(jí)任務(wù)中。

    參考文獻(xiàn):

    [1]Tan Mingxing, Le Q. EfficientNet: rethinking model scaling for con-volutional neural networks [C]// Proc of the 36th International Conference on Machine Learning. 2019: 6105-6114.

    [2]Huang Gao, Liu Zhuang, Van Der Maaten L, et al. Densely connec-ted convolutional networks [C]// Proc of IEEE Conference on Computer Vision and Pattern Recognition. Piscataway, NJ: IEEE Press, 2017: 4700-4708.

    [3]Jacob D, Chang Mingwei, Kenton L,et al. BERT: pre-training of deep bidirectional Transformers for language understanding [C]// Proc of NAACL-HLT. 2019: 4171-4186.

    [4]Dosovitskiy A, Beyer L, Kolesnikov A, et al. An image is worth 16x16 words: transformers for image recognition at scale [EB/OL]. (2020-10-22) [2020]. https://arxiv. org/abs/2010. 11929.

    [5]Liu Ze, Lin Yutong, Cao Yue,et al. Swin Transformer: hierarchical vision Transformer using shifted windows [C]// Proc of the IEEE/CVF International Conference on Computer Vision. Piscataway, NJ: IEEE Press, 2021: 10012-10022.

    [6]Wu Haiping, Xiao Bin, Codella N,et al. CVT: introducing convolutions to vision transformers [C]// Proc of the IEEE/CVF International Confe-rence on Computer Vision. Piscataway, NJ: IEEE Press, 2021: 22-31.

    [7]Yuan Kun, GuoShaopeng, Liu Ziwei, et al. Incorporating convolution designs into visual transformers [C]// Proc of IEEE/CVF International Conference on Computer Vision. Piscataway, NJ: IEEE Press, 2021: 579-588.

    [8]胡杰, 昌敏杰, 熊宗權(quán), 等. 基于Transformer的圖像分類網(wǎng)絡(luò) MultiFormer [J]. 計(jì)算機(jī)應(yīng)用研究, 2022, 39 (10): 3191-3195. (Hu Jie, Chang Minjie, Xiong Zongquan, et al. Multiformer: an image classification network based on Transformer [J]. Application Research of Computers, 2022, 39 (10): 3191-3195.)

    [9]包震偉, 劉丹, 米金鵬. 弱監(jiān)督與少樣本學(xué)習(xí)場(chǎng)景下視頻行為識(shí)別綜述 [J]. 計(jì)算機(jī)應(yīng)用研究, 2023, 40 (6): 1629-1635. (Bao Zhenwei, Liu Dan, Mi Jinpeng. Review of video action recognition under weak supervision and few-shot learning [J]. Application Research of Computers, 2023, 40 (6): 1629-1635.)

    [10]楊世偉, 王永雄, 蘭博天. 多尺度 Transformer 與層次化邊界引導(dǎo)的顯著性目標(biāo)檢測(cè) [J]. 計(jì)算機(jī)應(yīng)用研究, 2022, 39 (12): 3820-3824, 3836. (Yang Shiwei, Wang Yongxiong, Lan Botian. Multi-scale Transformer with hierarchical boundary guidance for salient object detection [J]. Application Research of Computers, 2022, 39 (12): 3820-3824, 3836.)

    [11]Strudel R, Garcia R, Laptev I,et al. Segmenter: Transformer for semantic segmentation [C]// Proc of IEEE/CVF International Conference on Computer Vision. Piscataway, NJ: IEEE Press, 2021: 7262-7272.

    [12]Zhu Xizhou, Su Weijie, Lu Lewei, et al. Deformable DETR: deformable transformers for end-to-end object detection [EB/OL]. (2021-03-18) . https://arxiv. org/pdf/2010. 04159. pdf.

    [13]Russakovsky O, Deng Jia, Su Hao, et al. ImageNet large scale visual recognition challenge [J]. International Journal of Computer Vision, 2015, 115 (3): 211-252.

    [14]Raghu M,Unterthiner T, Kornblith S, et al. Do vision transformers see like convolutional neural networks? [C]// Advances in Neural Information Processing Systems. 2021: 12116-12128.

    [15]D’Ascoli S,Touvron H, Leavitt M, et al. ConViT: improving vision transformers with soft convolutional inductive biases [C]// Proc of the 38th International Conference on Machine Learning. 2021: 2286-2296.

    [16]Park N, Kim S. How do vision transformers work? [EB/OL]. (2022-2-14).https://arxiv.org/abs/2202. 06709.

    [17]Chen Bin, Wang Ran, Ming Di,et al. ViT-P: rethinking data-efficient vision transformers from locality [EB/OL]. (2022). https://arxiv.org/abs/2203. 02358.

    [18]Zhang Zizhao, Zhang Han, Zhao Long, et al. Nested hierarchical Transformer: towards accurate, data-efficient and interpretable visual understanding [C]// Proc of AAAI Conference on Artificial Intelligence. Palo Alto, CA: AAAI Press, 2022: 3417-3425.

    [19]Gani H, Naseer M, Yaqub M. How to train vision Transformer on small-scale datasets? [EB/OL]. (2022-11-21) (2022-11-24). https://doi. org/10. 48550/arXiv. 2201. 13027.

    [20]Krizhevsky A, Hinton G. Learning multiple layers of features from tiny images [EB/OL]. (2009) (2023-11-15). https://www. researchgate. net/publication/306218037_Learning_multiple_layers_of_features_from_tiny_images.

    [21]Peng Xingchao, Bai Qinxun, Xia Xide, et al. Moment matching for multi-source domain adaptation [C]// Proc of IEEE/CVF International Conference on Computer Vision. Piscataway, NJ: IEEE Press, 2019: 1406-1415.

    [22]Vaswani A,Shazeer N, Parmar N, et al. Attention is all you need [C]// Advances in Neural Information Processing Systems. 2017.

    [23]Brown T, Mann B, Ryder N,et al. Language models are few-shot learners [C]//Advances in Neural Information Processing Systems. 2020: 1877-1901.

    [24]Yang Zhengyuan, Lu Yijuan, Wang Jianfeng, et al. Tap: text-aware pre-training for text-VQA and text-caption [C]// Proc of IEEE/CVF Conference on Computer Vision and Pattern Recognition. Piscataway, NJ: IEEE Press, 2021: 8751-8761.

    [25]Touvron H, Cord M, Douze M, et al. Training data-efficient image transformers amp; distillation through attention [C]// Proc of the 38th International Conference on Machine Learning. 2021: 10347-10357.

    [26]Liu Yahui,Sangineto E, Bi Wei, et al. Efficient training of visual transformers with small datasets [C]//Advances in Neural Information Processing Systems. 2021: 23818-23830.

    [27]Hassani A, Walton S, Shah N,et al. Escaping the big data paradigm with compact transformers [EB/OL]. (2021-04-12). https://arxiv.org/abs/2104. 05704.

    [28]Lee S, Lee S, Song B. Vision transformer for small-size datasets [EB/OL]. (2021-12-27). https://arxiv.org/abs/2112. 13492.

    [29]Chu Xiangxiang, Tian Zhi, Zhang Bo, et al. Conditional positional encodings for vision Transformers [EB/OL]. (2021-05-18) (2022-03-28). https://arxiv. org/pdf/2102. 10882.

    [30]Lu Zhiying, Xie Hongtao, Liu Chuanbin, et al. Bridging the gap between vision transformers and convolutional neural networks on small datasets [C]// Advances in Neural Information Processing Systems. 2022: 14663-14677.

    [31]Roy A, Saffar M, Vaswani A,et al. Efficient content-based sparse attention with routing transformers [J]. Transactions of the Association for Computational Linguistics, 2021, 9: 53-68.

    [32]Krizhevsky A, Sutskever I, Hinton G E. ImageNet classification with deep convolutional neural networks [C]// Proc of the 25th Communication of ACM. New York: ACM Press, 2017: 84-90.

    [33]Zagoruyko S, Komodakis N. Wide residual networks [C]// Proc of British Machine Vision Conference. 2016: 87. 1-87. 12.

    [34]Xie Saining,Girshick R, Dollar P, et al. Aggregated residual transformations for deep neural networks [C]// Proc of IEEE Conference on Computer Vision and Pattern Recognition. Piscataway, NJ: IEEE Press, 2017: 1492-1500.

    [35]Gao Shanghua, Cheng Mingming, Zhao Kai, et al. Res2Net: a new multi-scale backbone architecture [J]. IEEE Trans on Pattern Analysis and Machine Intelligence, 2019, 43 (2): 652-662.

    猜你喜歡
    圖像分類深度學(xué)習(xí)
    基于數(shù)據(jù)挖掘的圖像分類算法
    基于云計(jì)算的圖像分類算法
    基于錨點(diǎn)建圖的半監(jiān)督分類在遙感圖像中的應(yīng)用
    有體驗(yàn)的學(xué)習(xí)才是有意義的學(xué)習(xí)
    電子商務(wù)中基于深度學(xué)習(xí)的虛假交易識(shí)別研究
    MOOC與翻轉(zhuǎn)課堂融合的深度學(xué)習(xí)場(chǎng)域建構(gòu)
    大數(shù)據(jù)技術(shù)在反恐怖主義中的應(yīng)用展望
    深度學(xué)習(xí)算法應(yīng)用于巖石圖像處理的可行性研究
    一種基于引導(dǎo)濾波和MNF的高光譜遙感圖像分類方法
    基于深度卷積網(wǎng)絡(luò)的人臉年齡分析算法與實(shí)現(xiàn)
    軟件工程(2016年8期)2016-10-25 15:47:34
    精华霜和精华液先用哪个| 国产久久久一区二区三区| 青春草国产在线视频| 日本一二三区视频观看| 一区二区三区免费毛片| 观看美女的网站| 我的女老师完整版在线观看| av免费观看日本| 91aial.com中文字幕在线观看| 成年女人看的毛片在线观看| 欧美日本视频| 最近最新中文字幕大全电影3| a级毛色黄片| 日韩 亚洲 欧美在线| 国产欧美日韩精品一区二区| 午夜老司机福利剧场| av在线天堂中文字幕| 少妇的逼好多水| 最新中文字幕久久久久| 久久精品久久久久久噜噜老黄| 深夜a级毛片| 纵有疾风起免费观看全集完整版| 成人高潮视频无遮挡免费网站| 一个人观看的视频www高清免费观看| 国产精品99久久久久久久久| 欧美变态另类bdsm刘玥| 国产伦精品一区二区三区四那| 国产色爽女视频免费观看| 尤物成人国产欧美一区二区三区| 国产精品蜜桃在线观看| 欧美成人一区二区免费高清观看| 久久韩国三级中文字幕| 亚洲aⅴ乱码一区二区在线播放| 嫩草影院新地址| 亚洲av一区综合| 久久久久久久午夜电影| av一本久久久久| 在线观看三级黄色| 国产精品秋霞免费鲁丝片| 只有这里有精品99| 天天躁夜夜躁狠狠久久av| 亚洲av中文av极速乱| 国产爱豆传媒在线观看| 一个人看的www免费观看视频| 国产精品.久久久| 国产精品一二三区在线看| 一级黄片播放器| 欧美xxxx性猛交bbbb| 麻豆精品久久久久久蜜桃| 日韩一区二区三区影片| 黄色视频在线播放观看不卡| 一本一本综合久久| 大香蕉97超碰在线| 丰满少妇做爰视频| 欧美成人一区二区免费高清观看| 亚洲国产最新在线播放| 少妇裸体淫交视频免费看高清| 少妇裸体淫交视频免费看高清| 嫩草影院精品99| 18禁在线播放成人免费| 女人十人毛片免费观看3o分钟| 久久99热这里只频精品6学生| 一级毛片久久久久久久久女| av国产精品久久久久影院| 性色avwww在线观看| 一本一本综合久久| 免费观看的影片在线观看| 热99国产精品久久久久久7| 国产在视频线精品| 禁无遮挡网站| 欧美xxxx性猛交bbbb| 亚洲精品中文字幕在线视频 | 男人狂女人下面高潮的视频| 久久精品国产a三级三级三级| av在线app专区| 久久久精品免费免费高清| 亚洲欧美成人精品一区二区| 91精品一卡2卡3卡4卡| 久久国产乱子免费精品| 亚洲精品日韩av片在线观看| 日日撸夜夜添| 自拍欧美九色日韩亚洲蝌蚪91 | 涩涩av久久男人的天堂| 中文在线观看免费www的网站| 一级毛片aaaaaa免费看小| 欧美老熟妇乱子伦牲交| 精品少妇黑人巨大在线播放| 精品国产露脸久久av麻豆| 人人妻人人澡人人爽人人夜夜| 亚洲成色77777| 老司机影院毛片| 人妻制服诱惑在线中文字幕| 夫妻性生交免费视频一级片| 日本-黄色视频高清免费观看| 国产女主播在线喷水免费视频网站| 天天躁夜夜躁狠狠久久av| 日本午夜av视频| 亚洲国产精品专区欧美| 国产精品一及| 中国国产av一级| 国产黄片视频在线免费观看| 一个人观看的视频www高清免费观看| 一级毛片我不卡| 国产亚洲av嫩草精品影院| 亚洲av欧美aⅴ国产| 毛片女人毛片| 欧美xxxx性猛交bbbb| 国产精品久久久久久精品古装| 高清在线视频一区二区三区| 久久精品熟女亚洲av麻豆精品| 内射极品少妇av片p| 伦理电影大哥的女人| 身体一侧抽搐| 国产精品国产三级专区第一集| 欧美日韩精品成人综合77777| 亚洲av男天堂| 色哟哟·www| 美女xxoo啪啪120秒动态图| 在线观看免费高清a一片| 亚洲四区av| 国产亚洲一区二区精品| 亚洲不卡免费看| 久久久久久久亚洲中文字幕| 青春草视频在线免费观看| 欧美日本视频| av天堂中文字幕网| 麻豆久久精品国产亚洲av| 国产一区二区三区av在线| 国产精品一及| 国产黄片视频在线免费观看| 69人妻影院| 一级毛片aaaaaa免费看小| 色5月婷婷丁香| 国产高清不卡午夜福利| 国产免费一级a男人的天堂| 少妇人妻一区二区三区视频| 日韩精品有码人妻一区| 久久99热这里只有精品18| 亚洲欧美成人综合另类久久久| 亚洲伊人久久精品综合| 国产精品一及| 国产男女内射视频| 精品一区在线观看国产| 精品久久久精品久久久| 男人爽女人下面视频在线观看| 免费黄色在线免费观看| 中文字幕制服av| 真实男女啪啪啪动态图| 可以在线观看毛片的网站| 亚洲欧美成人精品一区二区| 美女脱内裤让男人舔精品视频| 日日啪夜夜撸| 亚洲av男天堂| 精品少妇久久久久久888优播| 18禁裸乳无遮挡免费网站照片| 亚洲婷婷狠狠爱综合网| 久久精品久久精品一区二区三区| 免费大片18禁| 深爱激情五月婷婷| 热99国产精品久久久久久7| 国产一级毛片在线| 可以在线观看毛片的网站| 大香蕉久久网| 久久精品人妻少妇| 美女主播在线视频| 又大又黄又爽视频免费| 街头女战士在线观看网站| 久久精品国产a三级三级三级| 国产精品国产av在线观看| 久久久久国产网址| 亚洲欧美一区二区三区黑人 | 自拍欧美九色日韩亚洲蝌蚪91 | av在线蜜桃| 久久精品国产自在天天线| 一级片'在线观看视频| 亚洲欧美日韩卡通动漫| 亚洲人与动物交配视频| 欧美高清性xxxxhd video| 波多野结衣巨乳人妻| 精品酒店卫生间| 蜜臀久久99精品久久宅男| 国产精品国产三级国产av玫瑰| 国产高清有码在线观看视频| 国产精品一区www在线观看| 欧美高清性xxxxhd video| 国产欧美日韩精品一区二区| 岛国毛片在线播放| 纵有疾风起免费观看全集完整版| 国产精品秋霞免费鲁丝片| 免费大片18禁| 乱系列少妇在线播放| 日日啪夜夜爽| 欧美+日韩+精品| 亚洲欧洲日产国产| 久久久欧美国产精品| 一个人看的www免费观看视频| 国产爱豆传媒在线观看| av在线老鸭窝| 国产探花在线观看一区二区| h日本视频在线播放| 亚洲精品日韩在线中文字幕| 国产成人免费观看mmmm| 久久综合国产亚洲精品| 亚洲欧美日韩卡通动漫| 午夜激情福利司机影院| 中文在线观看免费www的网站| 久久精品熟女亚洲av麻豆精品| 波野结衣二区三区在线| 亚洲自拍偷在线| 国产成年人精品一区二区| 搡老乐熟女国产| 18禁裸乳无遮挡免费网站照片| 蜜桃亚洲精品一区二区三区| 成人一区二区视频在线观看| 黄色一级大片看看| 免费看a级黄色片| 高清av免费在线| 一个人观看的视频www高清免费观看| 久久人人爽人人片av| 亚洲av在线观看美女高潮| 国产午夜精品一二区理论片| 欧美区成人在线视频| 日本色播在线视频| 午夜激情久久久久久久| 色播亚洲综合网| 国语对白做爰xxxⅹ性视频网站| 女人十人毛片免费观看3o分钟| 乱系列少妇在线播放| 九九爱精品视频在线观看| 欧美日本视频| 九九在线视频观看精品| 少妇人妻一区二区三区视频| 国产黄a三级三级三级人| 毛片一级片免费看久久久久| 久久久久网色| 国产在线一区二区三区精| 日日摸夜夜添夜夜添av毛片| 国产免费一级a男人的天堂| 亚洲天堂av无毛| 国产国拍精品亚洲av在线观看| 久久午夜福利片| 成人鲁丝片一二三区免费| 秋霞伦理黄片| 少妇高潮的动态图| freevideosex欧美| 午夜激情久久久久久久| 亚洲,一卡二卡三卡| 麻豆乱淫一区二区| 国产精品麻豆人妻色哟哟久久| 国产黄片美女视频| 少妇人妻 视频| 女人十人毛片免费观看3o分钟| 建设人人有责人人尽责人人享有的 | .国产精品久久| 日韩欧美精品v在线| 国产精品精品国产色婷婷| 久久久久性生活片| 欧美日本视频| 纵有疾风起免费观看全集完整版| 97超视频在线观看视频| 欧美日韩国产mv在线观看视频 | 男女下面进入的视频免费午夜| 国产精品精品国产色婷婷| 少妇 在线观看| 午夜精品一区二区三区免费看| 夜夜看夜夜爽夜夜摸| 97超视频在线观看视频| 亚洲精品国产av成人精品| 熟妇人妻不卡中文字幕| 中文资源天堂在线| 久久久午夜欧美精品| 97在线视频观看| 国产乱来视频区| 午夜免费男女啪啪视频观看| 国内少妇人妻偷人精品xxx网站| 男女国产视频网站| 国产乱来视频区| 精品酒店卫生间| av免费在线看不卡| 国语对白做爰xxxⅹ性视频网站| 国产成人a区在线观看| 三级国产精品欧美在线观看| 又粗又硬又长又爽又黄的视频| 老司机影院成人| 国产欧美日韩精品一区二区| 日产精品乱码卡一卡2卡三| 成人漫画全彩无遮挡| 亚洲国产成人一精品久久久| 波野结衣二区三区在线| 国产成人免费观看mmmm| 一区二区三区乱码不卡18| 国产一区有黄有色的免费视频| h日本视频在线播放| 久久热精品热| 免费电影在线观看免费观看| videossex国产| 日日撸夜夜添| 国产亚洲精品久久久com| 丝袜喷水一区| 国产精品国产av在线观看| 高清午夜精品一区二区三区| 日韩av不卡免费在线播放| 九色成人免费人妻av| 久久久色成人| 最近最新中文字幕免费大全7| 日韩强制内射视频| 亚洲va在线va天堂va国产| 97在线人人人人妻| 丝袜喷水一区| 爱豆传媒免费全集在线观看| 91在线精品国自产拍蜜月| 亚洲国产精品成人久久小说| 久久久久久久久久久丰满| 寂寞人妻少妇视频99o| 欧美日韩视频精品一区| 少妇被粗大猛烈的视频| 亚洲,一卡二卡三卡| 亚洲av免费高清在线观看| 免费在线观看成人毛片| 精品亚洲乱码少妇综合久久| 身体一侧抽搐| www.色视频.com| 国精品久久久久久国模美| 内地一区二区视频在线| 免费av观看视频| 亚洲精品aⅴ在线观看| 久久久久久国产a免费观看| 欧美成人a在线观看| 亚洲欧美日韩另类电影网站 | 你懂的网址亚洲精品在线观看| 亚洲精品久久久久久婷婷小说| 97超视频在线观看视频| 97精品久久久久久久久久精品| av在线老鸭窝| 国产爱豆传媒在线观看| 国产高潮美女av| 大片电影免费在线观看免费| 少妇高潮的动态图| 欧美区成人在线视频| 日韩精品有码人妻一区| 国语对白做爰xxxⅹ性视频网站| 特大巨黑吊av在线直播| 夫妻性生交免费视频一级片| 日韩一本色道免费dvd| 亚洲精品乱久久久久久| 最近中文字幕高清免费大全6| 丝瓜视频免费看黄片| 看免费成人av毛片| www.色视频.com| 男女边吃奶边做爰视频| 久久国内精品自在自线图片| 欧美潮喷喷水| 国产高清不卡午夜福利| 2021天堂中文幕一二区在线观| 欧美激情在线99| 亚洲人与动物交配视频| 欧美极品一区二区三区四区| 网址你懂的国产日韩在线| 国产一区二区三区av在线| 免费观看无遮挡的男女| 国产精品蜜桃在线观看| 国产探花极品一区二区| 少妇被粗大猛烈的视频| 青青草视频在线视频观看| 狠狠精品人妻久久久久久综合| 亚洲国产高清在线一区二区三| 成人毛片60女人毛片免费| 97在线人人人人妻| 最近最新中文字幕大全电影3| 精品少妇黑人巨大在线播放| 九九久久精品国产亚洲av麻豆| 国产黄片视频在线免费观看| 免费看日本二区| 全区人妻精品视频| 我的女老师完整版在线观看| 有码 亚洲区| 色婷婷久久久亚洲欧美| 中文字幕人妻熟人妻熟丝袜美| 成人毛片a级毛片在线播放| 自拍欧美九色日韩亚洲蝌蚪91 | 国产精品一二三区在线看| 久久久精品免费免费高清| 亚洲av成人精品一二三区| 久久97久久精品| 国产成人aa在线观看| 91精品一卡2卡3卡4卡| 欧美日韩一区二区视频在线观看视频在线 | 舔av片在线| 久久久久网色| 亚洲欧美成人精品一区二区| 精品一区二区免费观看| 夫妻午夜视频| 国产精品人妻久久久影院| 亚洲av免费高清在线观看| 久久久久久久久久成人| 成人国产麻豆网| 日韩 亚洲 欧美在线| 国产又色又爽无遮挡免| 国产一区亚洲一区在线观看| 成人二区视频| 免费观看av网站的网址| 青青草视频在线视频观看| 亚洲图色成人| av网站免费在线观看视频| 精品少妇久久久久久888优播| 乱码一卡2卡4卡精品| 国产免费福利视频在线观看| 欧美性猛交╳xxx乱大交人| 日韩免费高清中文字幕av| 高清视频免费观看一区二区| 日日啪夜夜撸| 国产亚洲91精品色在线| 久久久欧美国产精品| 精品人妻熟女av久视频| 亚洲,欧美,日韩| 啦啦啦在线观看免费高清www| 国产 精品1| 欧美最新免费一区二区三区| 九色成人免费人妻av| 午夜精品国产一区二区电影 | 伦理电影大哥的女人| a级毛片免费高清观看在线播放| 下体分泌物呈黄色| 网址你懂的国产日韩在线| 国产精品国产三级国产av玫瑰| 狂野欧美白嫩少妇大欣赏| 美女脱内裤让男人舔精品视频| 久久久久久久午夜电影| 乱码一卡2卡4卡精品| 成人毛片a级毛片在线播放| 国产免费一区二区三区四区乱码| 国产日韩欧美亚洲二区| 纵有疾风起免费观看全集完整版| 日韩欧美精品免费久久| 成年女人在线观看亚洲视频 | 国产亚洲av嫩草精品影院| 亚洲国产精品国产精品| 22中文网久久字幕| 超碰av人人做人人爽久久| 精品一区二区三卡| 国产黄色免费在线视频| 欧美少妇被猛烈插入视频| 国产日韩欧美亚洲二区| 女人久久www免费人成看片| 国产精品女同一区二区软件| 99热这里只有精品一区| 日本-黄色视频高清免费观看| 亚洲成人av在线免费| 草草在线视频免费看| 在现免费观看毛片| 久热这里只有精品99| 各种免费的搞黄视频| 简卡轻食公司| 国产高清不卡午夜福利| 男女边吃奶边做爰视频| 麻豆精品久久久久久蜜桃| 中国美白少妇内射xxxbb| 久久久久久伊人网av| 日本av手机在线免费观看| 亚洲人成网站高清观看| 老师上课跳d突然被开到最大视频| 精品人妻偷拍中文字幕| 国产av国产精品国产| 另类亚洲欧美激情| 久久精品国产自在天天线| 一个人观看的视频www高清免费观看| av在线亚洲专区| 国产精品一及| 国产一级毛片在线| 国产高清不卡午夜福利| 亚洲aⅴ乱码一区二区在线播放| 免费少妇av软件| 精品一区二区免费观看| 在线免费观看不下载黄p国产| 免费av不卡在线播放| 男女边吃奶边做爰视频| 真实男女啪啪啪动态图| av在线观看视频网站免费| 国产美女午夜福利| 色5月婷婷丁香| 丰满乱子伦码专区| 欧美高清性xxxxhd video| 国产真实伦视频高清在线观看| 亚洲国产最新在线播放| 亚洲最大成人中文| 久久久久久久久大av| 一级黄片播放器| 男女啪啪激烈高潮av片| 亚洲欧美日韩卡通动漫| 成人高潮视频无遮挡免费网站| 99热网站在线观看| 九九爱精品视频在线观看| 99久久九九国产精品国产免费| 欧美日韩视频高清一区二区三区二| 精品人妻一区二区三区麻豆| 永久网站在线| 男女国产视频网站| 国产又色又爽无遮挡免| 有码 亚洲区| 亚洲人成网站在线播| 国产极品天堂在线| 人妻系列 视频| 特级一级黄色大片| 中国国产av一级| 麻豆精品久久久久久蜜桃| 日韩av在线免费看完整版不卡| 国产精品久久久久久av不卡| 搞女人的毛片| 国产精品久久久久久精品电影| 好男人视频免费观看在线| 精品午夜福利在线看| 简卡轻食公司| 我的老师免费观看完整版| 大香蕉97超碰在线| 成人综合一区亚洲| 午夜精品一区二区三区免费看| 国产精品国产三级国产av玫瑰| 97在线人人人人妻| 边亲边吃奶的免费视频| 亚洲精品影视一区二区三区av| 秋霞伦理黄片| 伊人久久国产一区二区| 国产黄片美女视频| 欧美成人一区二区免费高清观看| 国产精品一区二区三区四区免费观看| www.色视频.com| 久久精品国产鲁丝片午夜精品| 免费高清在线观看视频在线观看| 韩国av在线不卡| 肉色欧美久久久久久久蜜桃 | 一级爰片在线观看| 免费电影在线观看免费观看| 久久6这里有精品| 国产成人午夜福利电影在线观看| 国产精品久久久久久精品电影| 涩涩av久久男人的天堂| 一级毛片 在线播放| 18禁动态无遮挡网站| 男女下面进入的视频免费午夜| 日本欧美国产在线视频| 我的老师免费观看完整版| 欧美激情在线99| 国产毛片a区久久久久| 国产成年人精品一区二区| 亚洲三级黄色毛片| 七月丁香在线播放| 又黄又爽又刺激的免费视频.| 免费观看a级毛片全部| av女优亚洲男人天堂| 亚洲精品日韩在线中文字幕| 国产亚洲av嫩草精品影院| www.av在线官网国产| 欧美另类一区| 一级爰片在线观看| 最近最新中文字幕免费大全7| 国产综合懂色| 国产大屁股一区二区在线视频| 麻豆久久精品国产亚洲av| 国产老妇伦熟女老妇高清| 日韩人妻高清精品专区| 99热6这里只有精品| 成人亚洲精品一区在线观看 | 乱码一卡2卡4卡精品| 免费不卡的大黄色大毛片视频在线观看| 性插视频无遮挡在线免费观看| 亚洲经典国产精华液单| 亚洲av一区综合| 精品少妇黑人巨大在线播放| 男女边吃奶边做爰视频| 国产又色又爽无遮挡免| 亚洲欧美成人综合另类久久久| 高清在线视频一区二区三区| 日本午夜av视频| 嘟嘟电影网在线观看| 国产精品av视频在线免费观看| 日本黄色片子视频| 啦啦啦啦在线视频资源| 日韩av不卡免费在线播放| 久久99热6这里只有精品| 国产高潮美女av| 午夜激情福利司机影院| 在线看a的网站| 免费黄色在线免费观看| av.在线天堂| 美女xxoo啪啪120秒动态图| 国产综合懂色| 少妇的逼好多水| av黄色大香蕉| 一级片'在线观看视频| 国产成人午夜福利电影在线观看| 草草在线视频免费看| 国产一区有黄有色的免费视频| 日韩伦理黄色片| 最近最新中文字幕大全电影3| 亚洲美女视频黄频| 99热这里只有是精品50| 日韩不卡一区二区三区视频在线| 亚洲av成人精品一区久久| 97在线视频观看| 国产探花在线观看一区二区| 青春草亚洲视频在线观看| 人人妻人人看人人澡| 嫩草影院新地址| 欧美人与善性xxx| 男男h啪啪无遮挡| 麻豆成人av视频| 天天躁日日操中文字幕| 一个人看的www免费观看视频| 色婷婷久久久亚洲欧美| 亚洲av日韩在线播放| 人妻系列 视频| 久久久午夜欧美精品| 久热久热在线精品观看| 黄片无遮挡物在线观看| 日本三级黄在线观看|