關(guān)鍵詞:視覺(jué)語(yǔ)言大模型;剪紙分類(lèi);小樣本分類(lèi);模態(tài)融合;提示學(xué)習(xí) 中圖分類(lèi)號(hào):TP391 文獻(xiàn)標(biāo)志碼:A 文章編號(hào):1001-3695(2025)07-010-1994-09 doi:10.19734/j.issn.1001-3695.2024.11.0485
Abstract:Toaddressthechallengesoflarge modalitygaps between textand image featuresand insuficient classprototype representationin paper-cut image clasification,this paper proposed a CLIP-based textfeature enhancement method(CLIP visualtextenhancer,C-VTE).Themethdextractedtext featuresthrough manualprompttemplates,designedavisual-textenhancement module,andemployedCrosssAtentionand proportionalresidualconnections tofuseimageandtextfeatures,therebyreducing modalitydiscrepancyandenhancing the expressiveabilityofcategoryfeatures.Experimentsonapaper-cutdataset andfourpublicdatasets includingCaltech01validatedits efectivenessForbase-classclasificationonthepaper-cutdataset, C-VTE achieved 72.51% average accuracy,outperforming existing methods by 3.14 percentage points. In few-shot classification tasks on public datasets,it attained 84.78% average accuracy with a 2.45 percentage-point improvement.Ablation experimentsdemonstratethatboth themodalityfusion moduleand proportional residual components contribute significantlytoperformanceimprovement.Themethodofersnovelinsightsforeficientadaptationof vision-languagemodelsindownstreamclassification tasks,particularly suited for few-shot learning and base-class dominated scenarios.
Key words:visual language large model;paper-cut classification;few-shotclasification;multimodal fusion;prompt learning
0 引言
在非遺領(lǐng)域中,剪紙主要是以圖片的形式存在,且種類(lèi)復(fù)雜,數(shù)量繁多。然而如今剪紙圖像的采集工作主要是靠人工進(jìn)行分類(lèi)和歸納,造成了大量的人工、時(shí)間以及資金等資源的浪費(fèi)。此外,現(xiàn)有的剪紙數(shù)據(jù)庫(kù)主要是按照作者所屬地來(lái)對(duì)剪紙圖像作分類(lèi),對(duì)剪紙的檢索造成困難。因此,如何利用圖像分類(lèi)技術(shù)高效完成剪紙圖像的分類(lèi)歸納工作是當(dāng)前的研究重點(diǎn)之一。藝術(shù)作品具有數(shù)量零散性和內(nèi)容主觀(guān)性,導(dǎo)致市面上缺乏對(duì)藝術(shù)圖像分類(lèi)的相關(guān)研究,而非遺數(shù)字化的到來(lái),誕生了大量煩瑣的藝術(shù)作品,找到合適的分類(lèi)算法就顯得尤為重要。
在以往的研究中,主要是基于機(jī)器學(xué)習(xí)對(duì)剪紙圖像進(jìn)行分類(lèi),如王曉云等人[1提出了一種基于多分辨Fourier-Mellin的剪紙紋樣識(shí)別算法;許鑫等人[2則是基于機(jī)器學(xué)習(xí),研究剪紙圖像的自動(dòng)分類(lèi)識(shí)別。然而,這些算法存在精度低、準(zhǔn)確率差的情況。而基于深度學(xué)習(xí)的圖像分類(lèi)算法一般需要大量的標(biāo)注數(shù)據(jù)集進(jìn)行訓(xùn)練才能保證模型的性能,在剪紙圖像中,類(lèi)別數(shù)量不均,使用傳統(tǒng)的方法容易帶來(lái)長(zhǎng)尾效應(yīng),因此可使用小樣本學(xué)習(xí)[3]的方法應(yīng)對(duì)此問(wèn)題。隨著Transformer[4]在計(jì)算機(jī)視覺(jué)領(lǐng)域的應(yīng)用,圖像和文本之間的聯(lián)系更加密切,使得在圖像分類(lèi)時(shí)能夠充分利用更多的文本信息,從而更好地完成圖像分類(lèi)工作。在計(jì)算機(jī)視覺(jué)領(lǐng)域\"預(yù)訓(xùn)練-微調(diào)\"范式是最常用的方式之一,不過(guò)這種方法的樣本需求量較大,在實(shí)驗(yàn)樣本不足的情況下難以實(shí)現(xiàn)高效率微調(diào)。因此,如何使預(yù)訓(xùn)練模型利用少量數(shù)據(jù)或者直接適用于下游任務(wù),是當(dāng)前一個(gè)重要的研究問(wèn)題。使用基于視覺(jué)語(yǔ)言大模型的提示學(xué)習(xí)方法則可以很好地解決此問(wèn)題。
例如 CoOp[5] 和 CoCoOp[6] 等提示學(xué)習(xí)方法,過(guò)多地強(qiáng)調(diào)模型在新類(lèi)上的泛化能力,然而在實(shí)際用途中,例如剪紙圖像分類(lèi)任務(wù)中,主要是根據(jù)現(xiàn)有的類(lèi)別對(duì)大量無(wú)標(biāo)簽圖像進(jìn)行分類(lèi)識(shí)別,對(duì)模型在新類(lèi)上的泛化能力并無(wú)要求;此外,由于剪紙圖像的藝術(shù)抽象性和創(chuàng)作主觀(guān)性的影響,導(dǎo)致剪紙數(shù)據(jù)的文本與圖像關(guān)聯(lián)程度不高,類(lèi)原型的表達(dá)能力較弱,致使現(xiàn)有的方法表現(xiàn)較差。此外,由于剪紙圖像的自由創(chuàng)造性強(qiáng),隨著時(shí)間的推移會(huì)出現(xiàn)更多現(xiàn)在不存在的類(lèi)別,出現(xiàn)新類(lèi)別之后對(duì)原模型的微調(diào)又是一個(gè)問(wèn)題。而利用基于 CLIP[7] 視覺(jué)語(yǔ)言大模型的提示學(xué)習(xí)則可以解決此問(wèn)題,模型能夠?qū)π骂?lèi)具有強(qiáng)大的泛化能力,其次由于訓(xùn)練不會(huì)改變CLIP模型本身的參數(shù)信息,所以重新訓(xùn)練的成本也不高。
針對(duì)以上問(wèn)題,本文提出了一種基于CLIP將圖像特征融合到文本特征中的方法,與以往工作不同的是,本文并未對(duì)提示文本的上下文向量進(jìn)行建模,而是對(duì)經(jīng)過(guò)特征提取之后的文本特征進(jìn)行處理。采用類(lèi)似“aphotoofa|class.”的人工提示模板作為類(lèi)別文本信息,通過(guò)文本編碼器得到文本特征。將圖像特征與文本特征進(jìn)行模態(tài)融合,以此增強(qiáng)文本類(lèi)別特征的表達(dá)能力,進(jìn)而增強(qiáng)模型的分類(lèi)能力。本文的主要貢獻(xiàn)有如下三點(diǎn):
a)提出了一種利用多模態(tài)融合來(lái)增強(qiáng)CLIP的文本類(lèi)別特征的表達(dá)能力的方法:CLIPvisualtextenhancer(C-VTE)。該方法將圖像特征整合到提示文本的特征向量中,從而減小剪紙數(shù)據(jù)文本-圖像兩種模態(tài)之間的差異性,提高圖像文本特征之間的關(guān)聯(lián)程度,增強(qiáng)類(lèi)別原型特征的表達(dá)能力,進(jìn)而在分類(lèi)任務(wù)計(jì)算相似度(距離)時(shí),能夠更準(zhǔn)確地判斷其類(lèi)別歸屬。
b)提出了一種比例殘差連接的結(jié)構(gòu),能夠根據(jù)數(shù)據(jù)集的不同自動(dòng)調(diào)整殘差連接比例,在保留人工提示模板的優(yōu)越性能的同時(shí)增強(qiáng)文本類(lèi)別特征的表達(dá)能力。
c)在剪紙數(shù)據(jù)集和4個(gè)公開(kāi)圖像分類(lèi)數(shù)據(jù)集上進(jìn)行了實(shí)驗(yàn)驗(yàn)證,在公開(kāi)數(shù)據(jù)集中進(jìn)行了小樣本分類(lèi)、基類(lèi)到新類(lèi)泛化性的實(shí)驗(yàn),證明了C-VTE在平均性能上的優(yōu)越性,并且在基類(lèi)上表現(xiàn)突出。
1相關(guān)方法
本文方法是一種基于CLIP模型的提示學(xué)習(xí),現(xiàn)有的基于CLIP模型的算法主要以提示學(xué)習(xí)為主要的研究方向。因此,本章首先介紹了視覺(jué)語(yǔ)言大模型的相關(guān)理論知識(shí),其次描述了提示學(xué)習(xí)的相關(guān)概念和現(xiàn)有的一些研究。
1.1視覺(jué)語(yǔ)言大模型
在計(jì)算機(jī)視覺(jué)研究的早期,人們專(zhuān)注于探索特定問(wèn)題的解決方法,如圖像描述[6\~8]、視覺(jué)問(wèn)答[9,10]、圖文匹配[11,12]等。這些任務(wù)都需要模型具備對(duì)圖像內(nèi)容的理解能力和文本生成的能力。隨著研究的深人,人們開(kāi)始研究如何學(xué)習(xí)到圖像和文本的聯(lián)合表示,進(jìn)而捕捉到視覺(jué)和語(yǔ)言的深層相關(guān)關(guān)系。近年來(lái),隨著硬件的突破,人們開(kāi)始訓(xùn)練參數(shù)更大的模型,這些模型在海量的圖像文本數(shù)據(jù)集上進(jìn)行預(yù)訓(xùn)練,能夠捕捉到更加豐富和細(xì)致的圖文之間的內(nèi)在聯(lián)系。這種利用海量數(shù)據(jù)集訓(xùn)練出來(lái)的模型有著強(qiáng)大的泛化能力,被稱(chēng)為視覺(jué)語(yǔ)言大模型,能夠快速地在各種下游任務(wù)中應(yīng)用[13.14]
CLIP作為一個(gè)視覺(jué)語(yǔ)言預(yù)訓(xùn)練大模型,被廣泛應(yīng)用在各項(xiàng)下游任務(wù)上。例如,在圖像生成領(lǐng)域, BLIP[15] 通過(guò)預(yù)訓(xùn)練框架統(tǒng)一了視覺(jué)語(yǔ)言任務(wù)的理解和生成,使其在圖形描述生成和視覺(jué)問(wèn)答方面表現(xiàn)優(yōu)異;StyleCLIP[1]利用CLIP模型作為損失函數(shù),通過(guò)優(yōu)化輸入的潛在向量來(lái)響應(yīng)用戶(hù)提供的文本提示,進(jìn)而引導(dǎo)圖像的生成;CLIPDraw[17]使用預(yù)訓(xùn)練的CLIP模型實(shí)現(xiàn)了文本到繪圖的轉(zhuǎn)換;GLIP[18]和GLIPv2[19]通過(guò)結(jié)合CLIP的特征來(lái)增強(qiáng)圖像生成的質(zhì)量。在語(yǔ)義分割領(lǐng)域,Lseg(lan-guage-drivensemantic segmentation)[20]利用CLIP的文本編碼器來(lái)引導(dǎo)圖像分割任務(wù),實(shí)現(xiàn)了zero-shot的語(yǔ)義分割。在視頻理解領(lǐng)域,CLIP4Clip[21]將CLIP模型的知識(shí)遷移到了視頻語(yǔ)言檢索中,通過(guò)端到端的方式進(jìn)行訓(xùn)練,證明了其在視頻文本檢索任務(wù)重的有效性;ActionCLIP[22]則是一個(gè)基于CLIP的視頻理解動(dòng)作識(shí)別模型,將視頻和標(biāo)簽分別編碼計(jì)算相似度,利用分布的相似度計(jì)算損失,取得了優(yōu)越的結(jié)果。在目標(biāo)檢測(cè)領(lǐng)域,CLIP系列通過(guò)將目標(biāo)檢測(cè)任務(wù)定義為短語(yǔ)定位任務(wù),利用聯(lián)合訓(xùn)練的圖像編碼器和語(yǔ)言編碼器來(lái)預(yù)測(cè)區(qū)域和單詞的正確匹配,提高了模型在目標(biāo)檢測(cè)任務(wù)上的性能[23]。
這些研究足以證明CLIP模型在視覺(jué)語(yǔ)言多模態(tài)領(lǐng)域的重要地位和優(yōu)秀的性能潛力。
1.2 提示學(xué)習(xí)
提示學(xué)習(xí)的概念最早出現(xiàn)在自然語(yǔ)言處理領(lǐng)域,如今在多模態(tài)領(lǐng)域也是一個(gè)重要的研究方法。其主要目的是通過(guò)精心設(shè)計(jì)的提示來(lái)引導(dǎo)預(yù)訓(xùn)練模型解決特定任務(wù)。這種方法的核心是在不顯著改變預(yù)訓(xùn)練模型參數(shù)的情況下,通過(guò)向模型輸入增加“提示信息”來(lái)解決問(wèn)題。這種方法可以減少對(duì)大量標(biāo)注數(shù)據(jù)的依賴(lài),提高模型在小樣本甚至zero-shot情況下的性能。例如徐春等人[24提出了一種充分利用預(yù)訓(xùn)練語(yǔ)言模型的基于提示學(xué)習(xí)的方法,驗(yàn)證了模型在小樣本分類(lèi)任務(wù)中的有效性。何麗等人[25]提出了一種語(yǔ)義調(diào)優(yōu)的提示學(xué)習(xí)的方法,進(jìn)而增強(qiáng)模型在小樣本識(shí)別的準(zhǔn)確性。
在視覺(jué)語(yǔ)言多模態(tài)領(lǐng)域,提示學(xué)習(xí)主要是通過(guò)參數(shù)高效的方法使模型適應(yīng)下游任務(wù),提示學(xué)習(xí)分為文本提示學(xué)習(xí)和視覺(jué)提示學(xué)習(xí)兩種。例如 Coop[5] 就屬于純文本提示學(xué)習(xí),通過(guò)不斷地建模生成文本提示,以此改進(jìn)模型對(duì)圖像和文本的匹配。不過(guò)純文本提示學(xué)習(xí)容易導(dǎo)致模型泛化性差,因此研究人員嘗試將視覺(jué)信息引人到文本空間中作為文本提示學(xué)習(xí)的引導(dǎo),如CoCoOp[6] DPL[26] 和 StyLIP[27]等,通過(guò)將圖像特征整合到文本的提示向量中,增強(qiáng)了模型的泛化性和靈活性。
此外,很多研究人員在CLIP的基礎(chǔ)上進(jìn)行了提示學(xué)習(xí)方法的研究,如 MaPLe[28] 作為一個(gè)微調(diào)CLIP的多模態(tài)提示方法,提出了使用耦合函數(shù),將文本和圖像編碼器中的提示學(xué)習(xí)聯(lián)系起來(lái),作為兩種模式之間的橋梁,允許梯度的相互傳播,以促進(jìn)協(xié)同作用。LASP(language-awaresoftprompting)[29]使用了一種新的圖文匹配的優(yōu)化損失方法,并設(shè)計(jì)了對(duì)應(yīng)的文本與外部知識(shí)的相似度損失,從而保留提示調(diào)優(yōu)的泛化能力。KgCoOp(knowledge-guidedcontextoptimization)[30」提出了一種知識(shí)引導(dǎo)上下文優(yōu)化的微調(diào)方法,通過(guò)減少可學(xué)習(xí)提示和人工提示之間的差異來(lái)緩解對(duì)一般文本知識(shí)的遺忘,以此緩解模型的過(guò)擬合問(wèn)題。PL-UIC(prompt-based learningforunpairedimagecaptioning)[31]利用CLIP模型,通過(guò)不對(duì)齊的視覺(jué)語(yǔ)言樣本學(xué)習(xí)圖像描述,以此強(qiáng)化模型的圖像文本理解能力。UPT(unifiedprompttuning)[32]使用一個(gè)很小的神經(jīng)網(wǎng)絡(luò)對(duì)視覺(jué)和文本模態(tài)的提示詞進(jìn)行了優(yōu)化,在few-shot上展現(xiàn)了較好的性能。TCP(textual-based class-aware prompt)[33]通過(guò)結(jié)合關(guān)于類(lèi)的先驗(yàn)知識(shí),增強(qiáng)其可辨別性。CPL(concept-guidedpromptlearning)34利用CLIP模型,創(chuàng)建了一個(gè)視覺(jué)概念緩存,提高了在不同領(lǐng)域和任務(wù)之間傳遞視覺(jué)概念的能力。
綜上所述,這些研究都證明了CLIP模型強(qiáng)大的潛力,以及基于CLIP模型的提示學(xué)習(xí)的研究重要性。本文基于CLIP模型提出了一種新的提示學(xué)習(xí),相較于CoOp和CoCoOp等基于CLIP模型的相關(guān)算法,C-VTE在基類(lèi)上展現(xiàn)出了明顯的優(yōu)勢(shì)。
2模型
本文模型是一個(gè)基于CLIP模型的提示學(xué)習(xí)方法,整體結(jié)構(gòu)如圖1所示,與CoCoOp相似,它們都是通過(guò)圖像特征整合到文本提示向量中,以此增強(qiáng)類(lèi)原型的表達(dá)能力。
所提出的方法主要由兩個(gè)特征適配器和一個(gè)模態(tài)融合模塊組成。其主要是利用實(shí)例圖像的特征動(dòng)態(tài)與類(lèi)別文本的特征進(jìn)行特征融合,以此提高文本向量的表達(dá)能力。
2.1 理論分析
CLIP模型在zero-shot領(lǐng)域取得了極大的成果,證明了其強(qiáng)大的泛化能力,如何將其快速應(yīng)用到下游任務(wù)中是當(dāng)前的研究重點(diǎn)。針對(duì)此問(wèn)題, CoOp (contextoptimization)[5]使用可以從數(shù)據(jù)端到端學(xué)習(xí)的連續(xù)向量對(duì)每個(gè)上下文令牌建模。具體來(lái)說(shuō), CoOp 并未使用“aphotoofa\"作為提示文本,而是通過(guò) M 個(gè)可學(xué)習(xí)的上下文向量 {v1,v2,…,vM} ,作為提示文本的輸入,每個(gè)向量與單詞具有相同的輸入維度,通過(guò)訓(xùn)練找到最合適的上下文向量作為提示文本的輸入,從而實(shí)現(xiàn)CLIP模型在下游任務(wù)中的高效應(yīng)用。然而研究人員發(fā)現(xiàn), CoOp 在未見(jiàn)類(lèi)上的應(yīng)用效果較差,因此在此基礎(chǔ)上提出了CoCoOp(conditionalcontextoptimization)[6]
CoCoOp的設(shè)計(jì)思路很簡(jiǎn)單,它提出了一個(gè)輕量化的神經(jīng)網(wǎng)絡(luò)Meta-Net,在訓(xùn)練過(guò)程中,為每一個(gè)輸入圖像生成一個(gè)詞牌向量,然后與 CoOp 中提到的上下文向量相結(jié)合,將模型關(guān)注重點(diǎn)從特定類(lèi)別轉(zhuǎn)移到每個(gè)輸入實(shí)例(圖像),從而提高模型對(duì)未見(jiàn)類(lèi)的識(shí)別能力。
而 KgCoOp 發(fā)現(xiàn) CoOp 中可學(xué)習(xí)的文本信息與人工提示模板在嵌入空間的距離越近,效果越好,即學(xué)習(xí)的文本信息是向著人工提示模板的方向進(jìn)行的,提高可學(xué)習(xí)提示與固定的人工提示之間的相似度,可以增強(qiáng)模型的性能。因此,本文認(rèn)為最佳的類(lèi)別文本特征信息在嵌入空間的分布接近人工提示模板的特征向量所處位置,以人工提示模板為基礎(chǔ)中心,不斷優(yōu)化和調(diào)整類(lèi)別文本特征信息,能夠提高其類(lèi)別原型的表達(dá)能力,以提高模型性能。
剪紙圖像的內(nèi)容相較于真實(shí)圖像具有藝術(shù)抽象性和夸張性。受到創(chuàng)作者的主觀(guān)性影響,剪紙數(shù)據(jù)的類(lèi)別文本與圖像之間的差異性較大,因此縮小模態(tài)之間的差異性,提高類(lèi)別文本的表達(dá)能力是提高剪紙圖像分類(lèi)準(zhǔn)確率的重點(diǎn)。
綜上所述,本文提出的CLIP-visualtextenhancer(C-VTE),直接使用人工提示模板作為提示向量,放棄可訓(xùn)練的上下文向量,以保存CLIP優(yōu)秀的zero-shot能力。此外將每個(gè)輸入實(shí)例的特征整合到類(lèi)別文本的特征向量中,以調(diào)整類(lèi)別文本的空間分布情況,增強(qiáng)類(lèi)原型的表達(dá)能力,并提高圖像和文本特征之間的關(guān)聯(lián),減少模態(tài)差異性。
2.2 C-VTE
模型中,輸入被劃分為圖像和文本信息兩部分。將輸入數(shù)據(jù)集記為
其中: Strain 表示模型的訓(xùn)練數(shù)據(jù)集; xi 表示第 χi 張輸人圖像; yi 是與第 i 張圖像相對(duì)應(yīng)的類(lèi)別文本; c 表示所有數(shù)據(jù)集; n 表示參與模型訓(xùn)練的數(shù)據(jù)集數(shù)量。
將CLIP模型利用文本編碼器和圖像編碼器提取特征的過(guò)程分別寫(xiě)成 Te(?) 和 Ie(?) 。對(duì)于文本信息,采用“Aphotoofa {class} .\"作為提示模板,在分類(lèi)任務(wù)中,為每個(gè)類(lèi)別使用提示模板進(jìn)行文本信息的擴(kuò)充得到 t 對(duì)輸人的數(shù)據(jù)進(jìn)行特征提取,可以得到文本嵌入 w=Te(t) 和圖像特征 Ii=Ie(xi) 。對(duì)于CLIP模型,下一步就可以計(jì)算 Ii 和 w 之間的相似度,進(jìn)而完成分類(lèi)任務(wù)。這與度量學(xué)習(xí)相似,在度量學(xué)習(xí)中,是通過(guò)圖像數(shù)據(jù)集求得每個(gè)類(lèi)別的類(lèi)原型,之后計(jì)算輸人圖像與各個(gè)類(lèi)原型之間的相似度(或者距離)關(guān)系,來(lái)判斷其類(lèi)別。類(lèi)似地,CLIP中的文本嵌人可以看作是度量學(xué)習(xí)中的類(lèi)原型。
因此,本文提出了一種多模態(tài)融合的方法,即利用圖像特征,對(duì)文本信息的嵌人向量進(jìn)行自適應(yīng)的調(diào)整。這種方法使得文本嵌入向量,或者說(shuō)“類(lèi)原型”,能夠同時(shí)具備文本信息特征和圖像信息特征,從而提高嵌入向量的表達(dá)能力,增強(qiáng)模型的分類(lèi)能力。設(shè)計(jì)了一種名為visualtextenhancer(VTE)的機(jī)制,通過(guò)融合輸入實(shí)例的圖像特征來(lái)增強(qiáng)文本嵌入向量的表達(dá)能力,使用 E(???) 表示這種變化,如式(2)所示。
其中: w 是 wi 的集合, wi 表示第 i 個(gè)類(lèi)別的文本特征表示; T 是最終的類(lèi)別文本向量; 是進(jìn)行特征調(diào)整之后的圖像特征。通過(guò)最終文本嵌人向量 T 和調(diào)整之后的圖像特征
,計(jì)算相似度關(guān)系,預(yù)測(cè)圖像的類(lèi)別。預(yù)測(cè)類(lèi)別的概率公式如式(3)所示。
其中: Ty 表示類(lèi)別 y 所對(duì)應(yīng)的文本嵌入向量; x 表示輸人的圖像; Nc 表示類(lèi)別總數(shù)量; τ 是一個(gè)溫控變量。
對(duì)于損失函數(shù),通過(guò)圖像真實(shí)標(biāo)簽 y 和預(yù)測(cè)標(biāo)簽 構(gòu)建,通過(guò)最小化 y 和
之間的差值來(lái)優(yōu)化參數(shù)。
的計(jì)算公式如式(4)所示。
其中: Max(?) 是一個(gè)最大值求取函數(shù)。此外,模型通過(guò)交叉熵?fù)p失函數(shù)來(lái)完成參數(shù)更新的過(guò)程。
VTE模塊是本研究的核心,主要由兩大關(guān)鍵部分組成:適配器和模態(tài)融合模塊,分別負(fù)責(zé)模態(tài)融合之前調(diào)整和執(zhí)行模態(tài)融合任務(wù)。
適配器主要是由兩層線(xiàn)性層和激活層組成,并使用殘差結(jié)構(gòu)連接。對(duì)于輸入圖像,利用CLIP的圖像編碼器進(jìn)行特征提取,得到特征 Ii ,表示第 i 張圖像的特征向量,對(duì)其進(jìn)行特征調(diào)整,如式(5)所示。
其中: 表示第 χi 張圖像進(jìn)行特征調(diào)整之后的圖像特征向量;fimg(Ii) 表示通過(guò)一個(gè)輕量級(jí)的網(wǎng)絡(luò)對(duì)原始圖像特征進(jìn)行調(diào)整的過(guò)程; α 和 β 表示殘差的比例系數(shù),兩者的和為1。同樣地,對(duì)于類(lèi)別文本的特征向量,如式(6所示。
其中: w 表示類(lèi)別文本特征向量; W 表示特征調(diào)整之后的類(lèi)別文本特征向量 :ftext(w) 表示對(duì)文本特征進(jìn)行調(diào)整的輕量級(jí)網(wǎng)絡(luò),與fimg(I) 參數(shù)不共享; λ 和 η 表示殘差的比例系數(shù),兩者的和為1。
模態(tài)融合模塊的主要目的是將圖像特征 Ii 整合到類(lèi)別文本特征 W 中,從而得到最終的類(lèi)別文本特征表達(dá)向量 T 模塊采用了crossattention和殘差的思想,如式(7)所示。
其中: CA(?) 表示特征融合的過(guò)程; Q(W),K(Ii),V(Ii) 分別表示 Q,K,V 的輸人; δ 和 ε 表示殘差的比例系數(shù),兩者的和為1;這里采用 w 作為殘差連接的參數(shù),可以緩解梯度消失或梯度爆炸的可能,同時(shí)保留人工提示模板的特征信息。
2.3 實(shí)驗(yàn)過(guò)程
實(shí)驗(yàn)過(guò)程如圖2所示。首先,通過(guò)CLIP預(yù)訓(xùn)練模型將輸入圖像和人工類(lèi)別提示信息分別進(jìn)行特征編碼得到 I 和 w ,利用VTE中的適配器將 I 進(jìn)行調(diào)整得到 ,之后利用VTE的特征融合機(jī)制將 I 的特征信息融合到 w 中,從而得到用于分類(lèi)的類(lèi)別特征原型 T ,并通過(guò)最后的結(jié)果更新VTE的參數(shù)。需要注意的是,每次訓(xùn)練的文本信息的輸人是相同的,都是針對(duì)數(shù)據(jù)集的人工提示模板。
訓(xùn)練過(guò)程中除了調(diào)節(jié)VTE網(wǎng)絡(luò)模型本身的超參數(shù)外,對(duì)殘差比例的調(diào)節(jié)是提高模型性能的重要方向。在模型訓(xùn)練時(shí),將殘差比例設(shè)定為一個(gè)可參與訓(xùn)練的超參數(shù),通過(guò)設(shè)定不同的初始值篩選最合適的殘差比例,這種方法可以使模態(tài)融合更充分,得到的類(lèi)別特征原型 T 的表達(dá)能力更加突出。
3實(shí)驗(yàn)
傳統(tǒng)的提示學(xué)習(xí)方法,例如 CoOp 和 CoCoOp ,往往過(guò)分強(qiáng)調(diào)模型在處理未見(jiàn)類(lèi)別時(shí)的泛化能力。然而,在現(xiàn)實(shí)世界的應(yīng)用場(chǎng)景中,例如對(duì)大量圖像數(shù)據(jù)庫(kù)的分類(lèi)整理,只要求利用現(xiàn)有類(lèi)別對(duì)其進(jìn)行分類(lèi)歸納,這就要求模型對(duì)基類(lèi)(即模型訓(xùn)練時(shí)已見(jiàn)過(guò)的類(lèi)別)的處理能力更為關(guān)鍵。通過(guò)一系列實(shí)驗(yàn),驗(yàn)證了本文方法在處理基類(lèi)時(shí)的性能優(yōu)于現(xiàn)有的基于CLIP模型的提示學(xué)習(xí)方法。
在本章中,首先詳細(xì)介紹了實(shí)驗(yàn)中使用的剪紙數(shù)據(jù)集和四個(gè)公開(kāi)數(shù)據(jù)集,隨后在剪紙數(shù)據(jù)集上進(jìn)行了對(duì)比實(shí)驗(yàn)。之后為了進(jìn)一步評(píng)估模型的泛化能力,利用公開(kāi)數(shù)據(jù)集設(shè)計(jì)了小樣本分類(lèi)實(shí)驗(yàn)和從基類(lèi)到未見(jiàn)類(lèi)的泛化實(shí)驗(yàn)。最終,通過(guò)消融實(shí)驗(yàn),探討了不同模塊對(duì)實(shí)驗(yàn)結(jié)果的具體影響,以分析各個(gè)組件對(duì)整體性能的貢獻(xiàn)。
3.1實(shí)驗(yàn)數(shù)據(jù)集
本文采用的剪紙數(shù)據(jù)集共2500張,分為27個(gè)類(lèi)別,每個(gè)類(lèi)別的數(shù)量分布不均,最多的有188張,最少有25張,部分?jǐn)?shù)據(jù)集如圖3所示。
本文選擇四個(gè)公開(kāi)數(shù)據(jù)集作為實(shí)驗(yàn)對(duì)象:Caltech101、DTD(describingtexturesinthewild)、EuraSAT和UCF1O1。這些數(shù)據(jù)集涵蓋了多個(gè)分類(lèi)任務(wù),如常規(guī)的分類(lèi)任務(wù)數(shù)據(jù)集Caltech101,用于衛(wèi)星圖像分類(lèi)的EuraSAT,用于動(dòng)作識(shí)別的UCF101,以及用于紋理分類(lèi)的DTD數(shù)據(jù)集等。
針對(duì)不同的實(shí)驗(yàn)?zāi)繕?biāo),對(duì)數(shù)據(jù)集進(jìn)行相應(yīng)的劃分。在研究模型處理常規(guī)小樣本圖像分類(lèi)問(wèn)題時(shí),讓所有類(lèi)別參與模型的訓(xùn)練過(guò)程中。而在利用公開(kāi)數(shù)據(jù)集進(jìn)行實(shí)驗(yàn)評(píng)估模型的泛化能力時(shí),將數(shù)據(jù)集細(xì)致地劃分為基類(lèi)(已見(jiàn)類(lèi))和新類(lèi)(未見(jiàn)類(lèi))。使用基類(lèi)進(jìn)行模型的訓(xùn)練,并用新類(lèi)來(lái)測(cè)試模型對(duì)未見(jiàn)數(shù)據(jù)的泛化性能。此外,在進(jìn)行消融實(shí)驗(yàn)以探究各個(gè)模塊的必要性時(shí),選擇了所有類(lèi)別參與模型的訓(xùn)練,以確保實(shí)驗(yàn)結(jié)果的全面性和準(zhǔn)確性。通過(guò)這樣的實(shí)驗(yàn)設(shè)計(jì),能夠全面評(píng)估模型在不同場(chǎng)景下的表現(xiàn),并深入理解各個(gè)組件對(duì)模型性能的具體貢獻(xiàn)。
3.2 實(shí)驗(yàn)細(xì)節(jié)
在實(shí)驗(yàn)階段,統(tǒng)一采用CLIP模型作為所有實(shí)驗(yàn)的特征提取基礎(chǔ),特別選擇了視覺(jué)編碼器為ViT-B16版本的模型。為了減少實(shí)驗(yàn)中隨機(jī)性因素的影響,對(duì)每項(xiàng)實(shí)驗(yàn)重復(fù)進(jìn)行了三次,并采用這些實(shí)驗(yàn)的平均值作為最終結(jié)果。實(shí)驗(yàn)全部在一臺(tái)裝備有RTX4090顯卡的服務(wù)器上進(jìn)行。
在相似度計(jì)算方面,采用了余弦相似度函數(shù)來(lái)衡量不同特征之間的相似性。損失函數(shù)的設(shè)計(jì)則基于交叉熵?fù)p失函數(shù),以?xún)?yōu)化模型的性能。模型的優(yōu)化過(guò)程中,選擇了Adam優(yōu)化器。實(shí)驗(yàn)中,將Epoch數(shù)設(shè)定為200,每批處理的樣本數(shù)(batch-size)設(shè)定為32,殘差比例系數(shù)統(tǒng)一設(shè)置為0.0。在初始學(xué)習(xí)率的設(shè)定上,通過(guò)在剪紙數(shù)據(jù)集上進(jìn)行廣泛的實(shí)驗(yàn)分析,以確定最佳的學(xué)習(xí)率。根據(jù)實(shí)驗(yàn)結(jié)果(詳見(jiàn)表1),當(dāng)學(xué)習(xí)率設(shè)置為0.0001時(shí),模型在分類(lèi)任務(wù)上的表現(xiàn)最為優(yōu)異。因此,選擇了這一學(xué)習(xí)率進(jìn)行后續(xù)的實(shí)驗(yàn)。這些精心設(shè)計(jì)的實(shí)驗(yàn)參數(shù),確保了實(shí)驗(yàn)結(jié)果的可靠性和模型性能的最大化。
選取一系列基于CLIP模型的提示學(xué)習(xí)方法作為對(duì)比模型,包括 CoOp[5] 、 CoCoOp[6] 、 KgCoOp[30] 和 ProGrad[35] ,以及CLIPZero-shot和CLIP-Linear。這些方法代表了當(dāng)前基于提示學(xué)習(xí)的前沿技術(shù)。特別地,公開(kāi)數(shù)據(jù)集中,CLIPZero-shot在實(shí)驗(yàn)中使用了文本提示模塊“Aphotoofa {Class} .”,這一模板旨在引導(dǎo)模型正確識(shí)別和分類(lèi)圖像中的對(duì)象。在剪紙數(shù)據(jù)集中,采用了“This isapaper-cuting imageabout{Class|.\"作為提示模板。在 KgCoOp 方法中,每個(gè)提示符的優(yōu)化是通過(guò)使用6個(gè)令牌來(lái)實(shí)現(xiàn)的。而基于 CoOp 的算法則采用了原論文中的最佳搭配,每個(gè)提示符使用16個(gè)令牌進(jìn)行優(yōu)化,以期達(dá)到更精細(xì)的調(diào)整效果。
3.3 剪紙圖像分類(lèi)
為了更全面比較不同方法在剪紙數(shù)據(jù)集上的表現(xiàn),本文分別在1、2、4、8和 16-shot 以及all(全部數(shù)據(jù))條件下進(jìn)行實(shí)驗(yàn),并使用分類(lèi)準(zhǔn)確率和 F1 作為評(píng)價(jià)標(biāo)準(zhǔn),實(shí)驗(yàn)結(jié)果如表2所示。
通過(guò)深入分析實(shí)驗(yàn)結(jié)果,發(fā)現(xiàn)從整體性能角度來(lái)看,C-VTE在平均分類(lèi)準(zhǔn)確率和平均 F1 分?jǐn)?shù)上分別達(dá)到了72.51% 和 65.58% ,這一成績(jī)顯著優(yōu)于其他模型。進(jìn)一步分析不同樣本數(shù)量條件下的表現(xiàn),C-VTE在1、2、4、8、16-shot以及all條件下均展現(xiàn)出了領(lǐng)先的準(zhǔn)確率和 F1 分?jǐn)?shù)。這不僅證明了本文方法在剪紙圖像分類(lèi)任務(wù)上具有卓越的性能,也凸顯了其在處理小樣本數(shù)據(jù)時(shí)的有效性,且無(wú)論在小樣本學(xué)習(xí)還是傳統(tǒng)分類(lèi)任務(wù)中,都能夠保持穩(wěn)定的高性能。
比較 16-shot 和all條件下的性能表現(xiàn),發(fā)現(xiàn)雖然樣本數(shù)量有著很大的增加,但是準(zhǔn)確率提高的幅度較小,例如CoCoOp的準(zhǔn)確率僅僅提升了 0.7% 的水平,這是因?yàn)榧艏垐D像數(shù)據(jù)集類(lèi)別分布不均造成的結(jié)果,使用全部數(shù)據(jù)集進(jìn)行分類(lèi)實(shí)驗(yàn)時(shí),數(shù)據(jù)會(huì)呈現(xiàn)輕微的長(zhǎng)尾效應(yīng),進(jìn)而影響模型的性能表現(xiàn)。隨著未來(lái)剪紙數(shù)據(jù)庫(kù)的不斷填充,類(lèi)別數(shù)量隨之豐富,可能會(huì)出現(xiàn)更強(qiáng)烈的長(zhǎng)尾效應(yīng),因此,根據(jù)數(shù)據(jù)集的特點(diǎn),使用合適的小樣本學(xué)習(xí),能夠使模型具有高效穩(wěn)定的性能表現(xiàn)。
3.4公開(kāi)數(shù)據(jù)集驗(yàn)證
為了進(jìn)一步驗(yàn)證模型的性能表現(xiàn),選擇在四個(gè)不同領(lǐng)域的公開(kāi)數(shù)據(jù)集進(jìn)行一系列的實(shí)驗(yàn)驗(yàn)證,主要包括Few-shot實(shí)驗(yàn)和Base-to-New泛化實(shí)驗(yàn)。
3.4.1Few-shot實(shí)驗(yàn)
為了探究模型對(duì)已見(jiàn)類(lèi)別的分類(lèi)性能,對(duì)于實(shí)驗(yàn)數(shù)據(jù)集,選擇所有類(lèi)別參與模型的訓(xùn)練和測(cè)試,并采用16-shot的方式測(cè)試模型的性能,實(shí)驗(yàn)結(jié)果如表3所示。
表3中的M-Avg表示各方法在4個(gè)數(shù)據(jù)集上的平均性能,將這一指標(biāo)作為不同模型性能優(yōu)劣的評(píng)判標(biāo)準(zhǔn)。通過(guò)分析實(shí)驗(yàn)數(shù)據(jù),C-VTE展現(xiàn)出了最佳的性能。具體來(lái)說(shuō),在Caltech101數(shù)據(jù)集中相較于表現(xiàn)最好的 ProGrad 有0.67百分點(diǎn)的提升;在DTD數(shù)據(jù)集中相較于表現(xiàn)最好的KgCoop有2.59百分點(diǎn)的提升;在EuroSAT數(shù)據(jù)集中相較于表現(xiàn)最好的 CoOp 有2.3百分點(diǎn)的提升;在UCF101中相較于表現(xiàn)最好的ProGrad有2.45百分點(diǎn)的提升;在四個(gè)數(shù)據(jù)集上的平均性能表現(xiàn)相較于表現(xiàn)最優(yōu)的 CoOp 有2.45百分點(diǎn)的提升。
為了進(jìn)一步明確各模型間的性能差異,在不同的 n -shot條件下進(jìn)行了實(shí)驗(yàn),分別在1-shot、2-shot、4-shot、8-shot和16-shot條件設(shè)置下,在4個(gè)數(shù)據(jù)集中進(jìn)行了實(shí)驗(yàn),并將平均準(zhǔn)確率作為評(píng)判標(biāo)準(zhǔn),結(jié)果以折線(xiàn)圖的形式展示,如圖4所示。分析實(shí)驗(yàn)結(jié)果,折線(xiàn)圖直觀(guān)地展示了在few-shot條件下不同方法的性能對(duì)比,能夠更清晰地觀(guān)察到各種方法在小樣本學(xué)習(xí)環(huán)境下的表現(xiàn)差異,可以看出C-VTE在各種few-shot條件下均表現(xiàn)最優(yōu)。
綜合以上分析,可以得到以下結(jié)論:在基于CLIP模型處理下游任務(wù)的應(yīng)用中,本文提出的C-VTE方法在多個(gè)方面相較于現(xiàn)有技術(shù)實(shí)現(xiàn)了顯著的性能提升。無(wú)論是在1-shot還是更高階的 n -shot學(xué)習(xí)條件下,C-VTE均展現(xiàn)出了卓越的性能。
3.4.2 base-to-new 實(shí)驗(yàn)
參考CoCoOp對(duì)基類(lèi)到新類(lèi)的泛化性實(shí)驗(yàn),將每個(gè)公開(kāi)數(shù)據(jù)集劃分為基類(lèi)和新類(lèi)兩組。所有方法在基礎(chǔ)類(lèi)別上訓(xùn)練,并在基類(lèi)和新類(lèi)上分別進(jìn)行測(cè)試。實(shí)驗(yàn)結(jié)果匯總于表4和5,其中表4展示了四個(gè)數(shù)據(jù)集上的具體性能,而表5提供了這些數(shù)據(jù)集的平均精度。
從表4中可以觀(guān)察到,在基類(lèi)性能 Δbase(%) )方面,本文的C-VTE在所有數(shù)據(jù)集上均表現(xiàn)出卓越的性能,具體來(lái)說(shuō),C-VTE在Caltech1O1DTD、EuraSAT和UCF101數(shù)據(jù)集上的準(zhǔn)確率分別為 98.45% (20 .83.10% 93.07% 和 86.40% ,其中在DTD、EuraSAT和UCF101數(shù)據(jù)集上均取得了最優(yōu)結(jié)果。這些結(jié)果表明,C-VTE在處理訓(xùn)練集中已見(jiàn)過(guò)的類(lèi)別時(shí),具有極高的準(zhǔn)確度和穩(wěn)定性。從表5中的整體性能來(lái)看,C-VTE在基類(lèi)上的平均精度為 90.26% ,要高于其他方法。在新類(lèi)泛化能力(new)方面,C-VTE雖然不是最佳,但仍然展現(xiàn)出了良好的性能。
綜上所述,C-VTE在基類(lèi)性能上的優(yōu)勢(shì)明顯,能夠高效地提高CLIP模型在下游任務(wù)中的應(yīng)用效率,盡管在新類(lèi)泛化能力上略遜于CLIP的zero-shot,但其整體平均性能仍然最為出色。這些結(jié)果表明,C-VTE在處理訓(xùn)練集中已見(jiàn)過(guò)的類(lèi)別時(shí)具有極高的準(zhǔn)確度,同時(shí)在處理未見(jiàn)過(guò)的類(lèi)別時(shí)也展現(xiàn)出了良好的泛化能力和優(yōu)越性。未來(lái)的工作將致力于進(jìn)一步提升C-VTE在新類(lèi)泛化能力上的表現(xiàn),以實(shí)現(xiàn)更全面的優(yōu)化,提高模型的整體性能。
3.5消融實(shí)驗(yàn)
本節(jié)中,主要對(duì)所提出的C-VTE方法進(jìn)行了深入的模塊化分析,以探討不同組件對(duì)模型性能的影響。分析的重點(diǎn)包括主干網(wǎng)絡(luò)的選擇、人工提示模板與 CoOp 的性能對(duì)比、不同人工提示模板的效果差異、不同殘差比例初始化的比較,以及適配器結(jié)構(gòu)的優(yōu)化選擇。為了全面評(píng)估這些因素,本文選用了剪紙圖像數(shù)據(jù)集和四個(gè)數(shù)據(jù)集進(jìn)行實(shí)驗(yàn),并以模型的平均性能作為評(píng)判標(biāo)準(zhǔn)。
實(shí)驗(yàn)在 16-shot 的樣本設(shè)置下進(jìn)行,確保每個(gè)數(shù)據(jù)集中的所有類(lèi)別都參與到訓(xùn)練和測(cè)試過(guò)程中。為了保持實(shí)驗(yàn)的一致性和可比性,所有實(shí)驗(yàn)均采用32的批次大小,并設(shè)定迭代次數(shù)為200。這樣的實(shí)驗(yàn)設(shè)置旨在提供一個(gè)標(biāo)準(zhǔn)化的環(huán)境,可以準(zhǔn)確地衡量不同模塊選擇對(duì)模型性能的具體影響,找到最佳的參數(shù)和模塊搭配。
3.5.1主干網(wǎng)絡(luò)(ViT,ResNet)的選擇
在探究不同視覺(jué)主干網(wǎng)絡(luò)對(duì)C-VTE方法性能影響的實(shí)驗(yàn)中,選用了ResNet系列和visionTransformer(ViT)系列作為圖像特征提取的基礎(chǔ)架構(gòu),并在 16-shot 的實(shí)驗(yàn)設(shè)置下,在剪紙數(shù)據(jù)集和四個(gè)公開(kāi)數(shù)據(jù)集數(shù)據(jù)集上進(jìn)行了全面的對(duì)比實(shí)驗(yàn)。實(shí)驗(yàn)結(jié)果如表6所示,M-Avg表示在所有數(shù)據(jù)集的平均性能,ViT-B-16主干網(wǎng)絡(luò)在各個(gè)數(shù)據(jù)集以及整體平均性能上均表現(xiàn)優(yōu)異。
具體來(lái)看,ViT-B-16在Paper_cuter(剪紙數(shù)據(jù)集)、Caltech101DTD、EuroSAT和UCF101數(shù)據(jù)集上的分類(lèi)準(zhǔn)確率分別為 77.69%.96.87%.70.74%.87.35% 和 82.68% ,這些數(shù)據(jù)反映出其在不同類(lèi)別的圖像識(shí)別任務(wù)中均能保持較高的準(zhǔn)確度。將這些數(shù)據(jù)匯總后,ViT-B-16的主干網(wǎng)絡(luò)在所有數(shù)據(jù)集上的平均分類(lèi)準(zhǔn)確率達(dá)到了 82.87% ,這一結(jié)果明顯優(yōu)于其他所測(cè)試的主干網(wǎng)絡(luò)。因此,得出結(jié)論:ViT-B-16作為視覺(jué)主干網(wǎng)絡(luò),能顯著提升C-VTE方法在小樣本學(xué)習(xí)環(huán)境下的圖像分類(lèi)性能,不過(guò)在實(shí)際應(yīng)用中,應(yīng)根據(jù)數(shù)據(jù)集的特點(diǎn)選擇合適的主干網(wǎng)絡(luò),才能更全面地展現(xiàn)模型的性能。
C-VTE方法主要采用了人工設(shè)計(jì)的提示模板作為模型的文本輸入,這與主流的基于 CoOp 的提示學(xué)習(xí)方法形成對(duì)比,后者通常依賴(lài)于模型自動(dòng)生成的文本向量作為輸人。為了探索最適合C-VTE結(jié)構(gòu)的文本提示組合,本部分選取了三種模型進(jìn)行深入討論: CoOp,CoOp+VTE 和 CoOp+C-VTE 。
如第2章中圖1所示,VTE結(jié)構(gòu)接收兩個(gè)輸入:text和image。在C-VTE模型中, text 輸入采用了一個(gè)固定的提示模板——“Aphotoofa丨class|”,該模板經(jīng)過(guò)CLIP文本編碼器的特征提取過(guò)程,生成了用于模型的文本向量。這種方法利用了人工設(shè)計(jì)的提示模板來(lái)引導(dǎo)模型更好地理解和分類(lèi)圖像。
相較之下, CoOp+VTE 模型采用了一種混合策略:首先通過(guò) CoOp 方法生成文本提示向量,然后將這些向量作為VTE模型的text輸人。這種方法嘗試結(jié)合自動(dòng)生成的提示和VTE結(jié)構(gòu)的優(yōu)勢(shì),讓模型學(xué)習(xí)最合適的提示信息,以期達(dá)到更好的分類(lèi)效果,結(jié)構(gòu)如圖5所示。
進(jìn)一步地, CoOp+C-VTE 模型將基于人工提示模板得到的文本向量與 CoOp 生成的文本向量相結(jié)合,形成了一個(gè)融合的text輸入。這種融合方法旨在匯聚人工設(shè)計(jì)和自動(dòng)生成提示的優(yōu)點(diǎn),以進(jìn)一步提升VTE模型的性能。在兩種情況下,image輸入保持相同的輸人,確保了實(shí)驗(yàn)的公平性和可比性,結(jié)構(gòu)如圖5所示。
C-VTE的實(shí)驗(yàn)結(jié)果如表3所示,基于 CoOp 變形的實(shí)驗(yàn)結(jié)果如表7所示。通過(guò)分析實(shí)驗(yàn)結(jié)果,以M-Avg作為模型的評(píng)判標(biāo)準(zhǔn)可以發(fā)現(xiàn),C-VTE(表3)模型整體表現(xiàn)最為出色,主要是由于人工設(shè)計(jì)的提示模板與VTE模塊的協(xié)同作用。 CoOp+ C-VTE模型,即融合了人工提示模板與 CoOp 生成的文本向量,排名第二,表明混合提示策略同樣能提升模型性能。最后是 CoOp+VTE 模型,它利用 CoOp 生成的文本向量并結(jié)合VTE模塊,性能略低于前兩者,但仍?xún)?yōu)于基礎(chǔ)的 CoOp 模型。Coop模型在這些方法中表現(xiàn)相對(duì)最低,這凸顯了VTE模塊在增強(qiáng)文本特征表達(dá)能力方面的重要性,以及VTE在增強(qiáng)特征表達(dá)能力方面的卓越性能。
最終,得出結(jié)論:人工設(shè)計(jì)的提示模板平均性能優(yōu)于基于CoOp自動(dòng)生成的文本提示方法。此外,VTE模塊的加入顯著提升了文本特征的表達(dá)能力,從而增強(qiáng)了模型的整體性能。這一點(diǎn)通過(guò)比較不同模型變體的性能得到了進(jìn)一步的驗(yàn)證,證明了VTE模塊在提升分類(lèi)準(zhǔn)確率方面的有效性。
3.5.3不同人工提示模板的對(duì)比
不同的文本提示模板會(huì)對(duì)模型的性能產(chǎn)生不同程度的影響,選擇符合圖像類(lèi)別信息的文本提示能夠大幅度增強(qiáng)模型的分類(lèi)效果。
對(duì)于剪紙數(shù)據(jù)集,本文設(shè)計(jì)了一種“Thisisapaper-cuttingimageabout {Class} .\"提示模板。對(duì)于公開(kāi)數(shù)據(jù)集,參考Pro-Grad[35] 中對(duì)每個(gè)數(shù)據(jù)集的提示文本,如表8所示。選擇不同的三個(gè)提示模板所對(duì)應(yīng)的數(shù)據(jù)集:DTD、EuraSAT和UCF101,在16-shot的實(shí)驗(yàn)設(shè)置下,選擇使用不同的提示模板進(jìn)行對(duì)比實(shí)驗(yàn),網(wǎng)絡(luò)模型選擇C-VTE。
實(shí)驗(yàn)結(jié)果如表9所示,顯示出了不同數(shù)據(jù)集對(duì)提示模板的敏感性。在剪紙數(shù)據(jù)集和DTD數(shù)據(jù)集中,特定的提示模板表現(xiàn)較優(yōu),而在EuroSAT和UCF101數(shù)據(jù)集中,統(tǒng)一的提示模板效果更好。從平均性能方面分析,根據(jù)數(shù)據(jù)集特意設(shè)計(jì)的提示模板表現(xiàn)更好。平均性能與特定設(shè)計(jì)的提示模板僅相差0.1% ,表明統(tǒng)一的提示模板和特定設(shè)計(jì)的提示模板性能相差不大,即不同的人工提示模板對(duì)模型性能有一定影響,但這種影響相對(duì)有限。
3.5.4不同殘差比例初始化的比較
本文的適配器和模態(tài)融合時(shí)都用到了一種殘差比例結(jié)構(gòu)連接方式。在訓(xùn)練過(guò)程中,將殘差比例作為一種可參與訓(xùn)練的超參數(shù),用模型來(lái)調(diào)節(jié)殘差比例的大小。然而不同的初始化值對(duì)最終的結(jié)果影響較大,因此本文對(duì)殘差比例的初始值展開(kāi)了討論,并進(jìn)行了實(shí)驗(yàn)分析,本文的模型共有三處使用了這種殘差比例連接的方式(見(jiàn)式(5)\~(7)),將三者的殘差比例初始值設(shè)為相同的數(shù)值,相對(duì)應(yīng)的另一個(gè)殘差比例使用類(lèi)似 1-μ 表示,其中 μ 表示殘差比例,實(shí)驗(yàn)結(jié)果如表10所示。
通過(guò)分析實(shí)驗(yàn)結(jié)果,可以看出不同的殘差比例初始值對(duì)于模型的效果影響較大,對(duì)于剪紙圖像數(shù)據(jù)集,最優(yōu)的殘差比例初始值為0.6,能夠達(dá)到 78.91% 的準(zhǔn)確率。
3.5.5適配器結(jié)構(gòu)的選擇
適配器的輸入和輸出尺寸需要保持一致,除線(xiàn)性層之外,使用自注意力機(jī)制也能達(dá)到此目的,分別采用兩種結(jié)構(gòu)作為模型的適配器,在剪紙數(shù)據(jù)集上進(jìn)行實(shí)驗(yàn)。
實(shí)驗(yàn)結(jié)果如表11所示,清晰地展示了兩種適配器結(jié)構(gòu)在剪紙數(shù)據(jù)集中的準(zhǔn)確率。使用線(xiàn)性層作為適配器的基礎(chǔ)網(wǎng)絡(luò),模型達(dá)到了 77.69% 的準(zhǔn)確率,而采用自注意力機(jī)制的適配器結(jié)構(gòu),其準(zhǔn)確率為 77.58% 。雖然兩種結(jié)構(gòu)的平均準(zhǔn)確率非常接近,但線(xiàn)性層適配器以微弱的優(yōu)勢(shì)勝出。
最終,得出結(jié)論:在適配器的設(shè)計(jì)中,線(xiàn)性層因其簡(jiǎn)潔性和較低的計(jì)算復(fù)雜度,在保持輸入輸出尺寸一致的同時(shí),能夠略微提升模型的整體性能。自注意力機(jī)制雖然在某些情況下能夠捕捉到更復(fù)雜的特征關(guān)系,但在本實(shí)驗(yàn)的設(shè)定下,它并沒(méi)有帶來(lái)預(yù)期的性能提升,反而由于其更高的計(jì)算成本,導(dǎo)致平均準(zhǔn)確率略有下降。
4結(jié)束語(yǔ)
針對(duì)剪紙圖像的分類(lèi)問(wèn)題,提出了一種基于CLIP文本特征增強(qiáng)的提示學(xué)習(xí)方法,具體來(lái)說(shuō),本文利用人工提示模板作為模型的文本類(lèi)別信息輸入,通過(guò)CLIP的文本編碼器進(jìn)行特征提取,得到其在嵌人空間中的特征向量。在模型訓(xùn)練過(guò)程中,通過(guò)CLIP的圖像編碼器得到每個(gè)輸入實(shí)例(圖像)的特征信息,將其與文本信息的特征向量通過(guò)VTE進(jìn)行特征融合,得到的結(jié)果作為進(jìn)行分類(lèi)任務(wù)的文本類(lèi)別特征。這一過(guò)程使得文本類(lèi)別特征中存在相對(duì)應(yīng)的圖像特征信息,減少兩種模態(tài)之間的差異性,提高圖像與文本之間的關(guān)聯(lián)程度,增強(qiáng)類(lèi)原型的表達(dá)能力,進(jìn)而在分類(lèi)任務(wù)計(jì)算相似度(距離)時(shí),能夠更準(zhǔn)確地判斷圖像的類(lèi)別歸屬。
在剪紙數(shù)據(jù)集上進(jìn)行了實(shí)驗(yàn)驗(yàn)證,結(jié)果表明,本文方法相較于同類(lèi)方法具有明顯的性能優(yōu)勢(shì)。此外,為了進(jìn)一步驗(yàn)證模型的性能,本文在四個(gè)公開(kāi)圖像分類(lèi)數(shù)據(jù)集進(jìn)行了小樣本分類(lèi)、base-to-new等實(shí)驗(yàn)驗(yàn)證模型的性能,結(jié)果顯示,C-VTE在4個(gè)數(shù)據(jù)集中的平均性能均優(yōu)于現(xiàn)有的相關(guān)方法。同時(shí)通過(guò)多組消融實(shí)驗(yàn)驗(yàn)證所提方法的有效性,以及分析各個(gè)模塊之間的最佳搭配。進(jìn)一步證明了本文提出的C-VTE方法能夠顯著提升CLIP模型在下游分類(lèi)任務(wù)中的應(yīng)用效率,特別是在基類(lèi)分類(lèi)方面。雖然C-VTE在新類(lèi)的泛化性方面還有待提高,但其在基類(lèi)任務(wù)上的優(yōu)勢(shì)已經(jīng)為相關(guān)領(lǐng)域的研究和應(yīng)用提供了重要的價(jià)值。未來(lái)的工作將考慮如何進(jìn)一步提升模型對(duì)新類(lèi)別的泛化能力,以及探索殘差比例最佳初始值,以增強(qiáng)模型的可遷移性,從而在更廣泛的應(yīng)用場(chǎng)景中發(fā)揮其潛力。
參考文獻(xiàn):
[1]]王曉云,韋月瓊,秦芳遠(yuǎn),等.基于多分辨Fourier-Mellin 變換的剪 紙紋樣識(shí)別算法[J].計(jì)算機(jī)科學(xué),2010,37(5):268-270. (Wang Xiaoyun, Wei Yueqiong,Qin Fangyuan,et al. Algorithm for recognition methods of paper-cutting's patterns based on multiresolution Fourier-Mellin transform[J].Computer Science,2010,37 (5):268-270.)
[2]許鑫,鮑小春.基于機(jī)器學(xué)習(xí)的剪紙圖像自動(dòng)分類(lèi)研究[J].圖書(shū) 館雜志,2018,37(7):88-96.(Xu Xin,Bao Xiaochun.Research on automatic classification of paper cuting images based on machine learming[J]. Library Journal,2018,37(7) :88-96.)
[3]Wang Yikai,Xu Chengming,Liu Chen,et al.Instance credibility inference for few-shot learning[C]//Proc of IEEE/CVF Conference on Computer Vision and Pattrn Recognition.Piscataway,NJ:IEEE Press,2020:12833-12842.
[4]Vasuwani A,Noam S,Niki P,et al. Attention is all you need[C]// Proc of the 31st International Conferenceon Neural Information Processing Systems.Red Hook,NY:Curran Associates Inc.,2017:6000- 6010.
[5]Zhou Kaiyang,Yang Jingkang,Loy C C,et al.Learning to prompt for vision-language models [J]. International Journal of Computer Vision,2022,130(9):2337-2348.
[6]Zhou Kaiyang,Yang Jingkang,Loy C C,et al. Conditional prompt learning for vision-language models [C]//Proc of IEEE/CVF Conference on Computer Vision and Patern Recognition. Piscataway,NJ: IEEEPress,2022:16795-16804.
[7]Radford A,KimJW,HallacyC,etal.Learning transferable visual models from natural language supervision[C]//Proc of the 38th International Conference on Machine Learning.2021:8748-8763.
[8]劉天義,吳祖煊,陳靜靜,等.面向視覺(jué)語(yǔ)言理解與生成的多模態(tài)預(yù) 訓(xùn)練方法[J].軟件學(xué)報(bào),2023,34(5):2024-2034.(Liu Tianyi,Wu Zuxuan,Chen Jingjing,et al. Multimodal pre-training method for visionlanguage understanding and generation[J]. Journal of Software, 2023,34(5) :2024-2034.)
[9]Jin W,Cheng Yu,Shen Yelong,et al.A good prompt is worth millons of parameters :low-resource prompt-based learning for vision-language models[C]//Proc of the 6Oth Annual Meeting of the Association for Computational Linguistics.2022:2763-2775.
[10]Wang Ning,Xie Jiahao, Wu Jihao,et al. Controllble image captioning via prompting[C]//Proc of AAAI Conference on Artificial Intelligence.Palo Alto,CA:AAAI Press,2023:2617-2625.
[11]Tsimpoukelli M,Menick J,Cabi S,et al. Multimodal few-shot learning with frozen language models[EB/OL]. (2021-07-03).htps://arxiv. org/abs/2106.13884.
[12]Guo Jiaxian,Li Junnan,Li Dongxu,etal.From imagesto textual prompts ;zero-shot visual question answering with frozen large language models[C]//Proc of IEEE/CVF Conference on Computer Vision and Pattern Recognition.Piscataway,NJ:IEEE Press,2023:10867-10877.
[13] Liu Tianyi,Wu Zuxuan,Chen Jingjing,et al.Multimodal pre-training method for vision-language understanding and generation[J]. International Journal of Software and Informatics,2023,13(2):143- 155.
[14]He Xuehai,Yang Diji,F(xiàn)eng Weixi,et al. CPL:counterfactual prompt learning for vision and language models[C]//Proc of Conference on Empirical Methods in Natural Language Processing.2O22 :3407-3418.
[15]Li Junnan,Li Dongxu,Xiong Caiming,et al. BLIP:bootstrapping language-image pre-training for unified vision-language understanding and generation[C]//Proc of International Conference on Machine Learning.2022;3407-3418.
[16]Patashnik O,Wu Zongze,Shechtman E,et al. StyleCLIP: text-driven manipulationof StyleGAN imagery[C]//Proc of IEEE/CVF International Conference on Computer Vision.Piscataway,NJ: IEEE Press, 2021:2065-2074.
[17]Frans K,SorosL B,Witkowski O.CLIPDraw:exploring text-to-drawing synthesis through language-image encoders [EB/OL].(2021-06- 29).https://arxiv.org/abs/2106.14843.
[18]Mallik M,GaillotDP,ClavierL.GLIP:electromagnetic field exposure mapcompletionbydeep generativenetworks[C]//Proc of the 35th IEEE International Symposium on Personal,Indoor and Mobile Radio Communications.Piscataway,NJ:IEEE Press,2024:1-5.
[19]Zhang Haotian,Zhang Pengchuan,Hu Xiaowei,et al. GLIPv2:unifying localization and vision-language understanding[EB/OL].(2022-10- 11).https://arxiv.org/abs/2206.05836.
[20]Li B,Weinberger KQ,Belongie SJ,et al. Language-driven semantic segmentation[EB/OL].(2022-01-10).htps://arxiv.org/abs/ 2201. 03546.
[21]Luo Huaishao,JiLei,Zhong Ming,et al.CLIP4Clip:an empirical study of CLIP for end to end video clip retrieval and captioning[J]. Neurocomputing,2022,508:293-304.
[22]Wang Mengmeng,Xing Jiazheng,Mei Jianbiao,et al. ActionCLIP: adaptinglanguage-image pretrained models for video action recognition [J].IEEE Trans on Neural Networks and Learning Systems, 2025,36(1) :625-637.
[23]Shen S,LiLH,TanH,et al.How much can CLIPbenefit vision-andlanguage tasks [EB/OL].(2021-07-13). https://arxiv.org/abs/ 2107.06383.
[24]徐春,吉雙焱,馬志龍.基于提示學(xué)習(xí)和超球原型的小樣本ICD 自 動(dòng)編碼方法[J].計(jì)算機(jī)應(yīng)用研究,2024,41(9):2670-2677.(Xu Chun,Ji Shuangyan,Ma Zhilong. Few-shot ICD automatic coding method based on prompt learning and hypersphere prototypes [J]. Application Research of Computers,2024,41(9) :2670-2677.)
[25]何麗,曾曉勇,劉杰,等.面向小樣本命名實(shí)體識(shí)別的實(shí)體語(yǔ)義優(yōu) 先提示學(xué)習(xí)方法[J].計(jì)算機(jī)應(yīng)用研究,2024,41(12):3622- 3627.(He Li,Zeng Xiaoyong,Liu Jie,et al. Entity semantic-priority prompt learning method for few-shot named entity recognition [J]. ApplicationResearchofComputers,2024,41(12) :3622-3627.)
[26]Hénaff OJ,SrinivaS,F(xiàn)auwJD,etal.Data-efficient imagerecognition with contrastive predictive coding[EB/OL].(2019-05-23). https:// arxiv.org/abs/1905.09272.
[27]BoseS,F(xiàn)iniE,Jha A,etal.StyLIP:multi-scale style-conditioned prompt learning for CLIP-based domain generalization [C]//Proc of IEEE/CVF Winter Conference on Applications of Computer Vision. Piscataway,NJ:IEEE Press,2024:5530-5540.
[28]Khattak MU,Rasheed HA,Maaz M,etal.MaPLe:multi-modal prompt learming[C]//Proc of IEEE/CVF Conference on Computer Visionand Pattern Recognition.Piscataway,NJ:IEEE Press,2023: 19113-19122.
[29]Bulat A,Tzimiropoulos G.LASP:text-to-text optimization for languageaware soft prompting of vision amp; language models [C] //Proc of IEEE/CVF Conference on Computer Vision and Pattern Recognition. Piscataway,NJ:IEEE Press,2023:23232-23241.
[30]Yao Hantao,Zhang Rui,Xu Changsheng.Visual-Language prompt tuning with knowledge-guided context optimization[C]//Proc of IEEE/CVF Conference on Computer Vision and Pattern Recognition. Piscataway,NJ:IEEE Press,2023:6757-6767.
[31]Zhu Peipei,Wang Xiao,Zhu Lin,et al.Prompt-based learning for unpairedimagecaptioning[J].IEEETransonMultimedia,2O22,26: 379-393.
[32]Zang Yuhang,Li Wei,Zhou Kaiyang,et al.Unified visionand language prompt learning [EB/OL]. (2022-10-14). https://arxiv. org/ abs/2210.07225.
[33]Yao Hantao,Zhang Rui,Xu Changsheng,et al. TCP: textual-based class-awareprompt tuning forvisual-language model[C]//Proc of IEEE/CVF Conference on Computer Vision and Pattern Recognition. Piscataway,NJ:IEEE Press,2024:23438-23448.
[34]Zhang Yi,Zhang Ce,Yu Ke,et al. Concept-guided prompt learning for generalization in vision-language models[C]//Proc of AAAI Conferenceon Artificial Intelligence.Palo Alto,CA:AAAI Press,2024: 7377-7386.
[35]Zhu Beier,Niu Yulei,HanYucheng,etal.Prompt-aligned gradient for prompt tuning[C]//Proc of IEEE/CVF International Conference on Computer Vision.Piscataway,NJ:IEEE Press,2023:15613-15623.