doi: 10.19734/j. issn. 1001-3695.2024.10.0446
ProgCoPL: progressive co-prompting learning for vision-language models
Tao Junjie1,Zhang Weifeng1,2+,Wang Yuxia3,Miao Yi1 ,Xu Ling1 (1.Schoolofueceamp;o(lflellgee),ZgSUesit,g;2. Schoolfeeamp;niUitinZ;i Institute,Jiaxing Zhejiang 31400o,China)
Abstract:Thelarge-scalepre-trainedvision-language modelCLIPaligns imagesandtexts inasharedsemanticspace,demonstratingrobust generalizationcapabilitiesacrossdiversedownstream tasks.However,existing promptlearning methodsoftenindependently insert learnable prompt vectors intoeach layerofCLIP's visualand text encoders.This appoach results in limitedcross-modalinteraction,withindependentpromptsacrosslayersfailing toefectivelyguidetheencoders incapturing taskrelevant information.Toaddress these isses,thispaper proposedProgCoPL.This method introduced text-guided promptvectorsintothevisualencoderlayersandvision-guidedpromptvectorsintothetextencoderlayers,therebyenhancingcro-modal interactionandalignment.Furthermore,ProgCoPL incorporated informationtransmissionchannelsbetweenpromptvectors acrosslayers,enablinghierarchicalandprogressiveintegrationof taskspecificinformation.Experimentson11datasetsshow thatProgCoPLeficientlyadaptsCLIPtodownstreamtasks,significantlyimprovingitscros-datasetgeneralizationability. ProgCoPLoutperforms existing methods in multiplegeneralization tests,particularlyachieving notable advancements incrossdataset scenarios.
Key Words:multimodal;prompt learning;vision-language model; Transformer encoder
0 引言
大規(guī)模視覺-語言模型(visual languagemodel,V-L Model)已經(jīng)成為當(dāng)今計算機跨模態(tài)智能領(lǐng)域的核心技術(shù)之一。其中,以CLIP[1]為代表的模型通過圖像和文本的對比學(xué)習(xí),使得模型能夠?qū)W習(xí)魯棒的跨模態(tài)特征表示,并在圖像識別等下游任務(wù)[2]中展現(xiàn)出較好的泛化能力。然而,直接應(yīng)用預(yù)訓(xùn)練的CLIP模型往往無法充分適應(yīng)特定的下游任務(wù)場景。由于CLIP模型的參數(shù)規(guī)模較大,傳統(tǒng)的全參數(shù)微調(diào)方法需要大量的計算開銷和訓(xùn)練樣本,難以高效地將CLIP模型適配到特定的下游任務(wù)。
近年來,參數(shù)高效微調(diào)方法(parameter efficient fine tuning,
PEFT),如提示學(xué)習(xí)(promptlearning),提出了一種在大規(guī)模預(yù)訓(xùn)練模型中適配下游任務(wù)的新范式。提示學(xué)習(xí)只需在模型的輸入層或中間層添加少量可學(xué)習(xí)的提示向量,并訓(xùn)練過程中凍結(jié)預(yù)訓(xùn)練模型參數(shù),使用少量下游任務(wù)訓(xùn)練樣本即可完成預(yù)訓(xùn)練模型的適配。這種全新的適配方法不僅保留了預(yù)訓(xùn)練模型中蘊含的豐富知識,還可以將參數(shù)高效和數(shù)據(jù)高效的方式應(yīng)用到多種類型的相關(guān)下游任務(wù)中。目前,針對CLIP的提示學(xué)習(xí)大致可分為三種類型;a)文本提示學(xué)習(xí),如 CoOp[3] (如圖1(a)所示),通過在輸入文本中插入可學(xué)習(xí)的提示向量,將預(yù)訓(xùn)練CLIP模型適配到下游任務(wù),但其在零樣本分類任務(wù)上出現(xiàn)了較大性能損失;b)視覺提示學(xué)習(xí),如 VPT[4] (如圖1(b)所示),則是通過在視覺編碼器中引入可學(xué)習(xí)的視覺提示,使得模型能夠更好地捕獲視覺特征,該方法僅針對視覺表征進行調(diào)優(yōu),在領(lǐng)域泛化任務(wù)上表現(xiàn)欠佳;c)視覺-文本聯(lián)合提示學(xué)習(xí),如Co-CoOp[5] 、MaPLe[6] UPT[7] (如圖1(c)所示),該類方法可視為文本提示學(xué)習(xí)和視覺提示學(xué)習(xí)的整合,同時在文本分支和視覺分支插入可學(xué)習(xí)的提示向量,并且通過引入文本到視覺提示之間的簡單單通道組合信息,進一步增強了多模態(tài)提示的協(xié)同作用,但這種簡單的聯(lián)合提示無法實現(xiàn)多模態(tài)之間的強交互。
上述幾種方法在跨模態(tài)交互方面依然存在不足。首先,這些方法通常是獨立地對文本或視覺提示進行優(yōu)化,即使是視覺-文本聯(lián)合提示學(xué)習(xí)也缺乏充分的跨模態(tài)信息交互,導(dǎo)致模型在整合視覺和文本信息時存在不一致或不充分的問題。其次,這些提示學(xué)習(xí)方法往往只在編碼器的若干層進行提示優(yōu)化,而沒有在不同層次之間建立有效的連接和協(xié)同。這種層與層之間提示的獨立性,限制了提示信息在模型各層次中的作用,無法有效引導(dǎo)編碼器在獲取特征時的信息連貫性。通過前期研究表明[8],在編碼器層之間添加信息共享機制可增強編碼器的特征學(xué)習(xí)能力和泛化能力,同時通過文本和視覺聯(lián)合提示學(xué)習(xí)能更準確地學(xué)習(xí)到多模態(tài)之間的特征信息。受Ma-PLe[6] 的啟發(fā),本文提出了一種新的視覺-文本聯(lián)合提示學(xué)習(xí)方法,即遞進互提示學(xué)習(xí)方法(progressiveco-prompting leaming,ProgCoPL),如圖1(d)所示。該方法首先分別在文本分支和視覺分支插入隨機初始化的提示向量,為了增強視覺-語言跨模態(tài)交互,ProgCoPL在文本分支和視覺分支之間插入聯(lián)合提示生成(jointprompt generation,JPG)模塊,包括:a)跨模態(tài)交互提示(crossmodal prompt interaction,CMPI),隨機初始化的文本提示向量和視覺提示向量分別輸人至此模塊,獲得與另一模態(tài)相關(guān)的提示向量和,并將兩個向量分別輸入到視覺和文本編碼器中,實現(xiàn)充分的跨模態(tài)信息交互;b)層間遞進提示(inter-layerprogressiveprompting,IPP),將提示向量傳遞至下一層編碼器中,結(jié)合本層的信息共同提示下一層,增強不同層間提示學(xué)習(xí)的協(xié)同能力。在11個數(shù)據(jù)集上的廣泛實驗驗證了ProgCoPL的優(yōu)越性,與當(dāng)前較優(yōu)的MaPLe相比,ProgCoPL在11個數(shù)據(jù)集的分類、識別任務(wù)中均有提高,在域泛化能力和跨數(shù)據(jù)集泛化能力測試上表現(xiàn)良好。
綜上所述,本文主要有以下三點貢獻:
a)提出了一種新穎的提示機制,使視覺編碼器和文本編碼器能夠相互提示。這種雙向提示方法增強了視覺-語言跨模態(tài)交互,從而增強視覺和文本兩種模態(tài)之間的信息對齊。
b)針對傳統(tǒng)提示學(xué)習(xí)中層間提示相互獨立的問題,本文設(shè)計了一種遞進提示機制,使提示在編碼器的不同層級之間逐層傳遞和融合。通過這種層級間的協(xié)同作用,模型能夠更快速精準地捕獲任務(wù)相關(guān)信息,從而提高對下游任務(wù)的適應(yīng)性。
c)本文方法不僅在單一任務(wù)上表現(xiàn)出色,還展示了強大的跨數(shù)據(jù)集泛化能力。通過模塊化設(shè)計和提示機制的優(yōu)化,本文模型在不同類型的數(shù)據(jù)集上均取得了優(yōu)異的性能,表明該框架在處理多樣化任務(wù)時具有廣泛的應(yīng)用潛力。
1相關(guān)工作
1.1視覺-語言預(yù)訓(xùn)練模型
在過去的幾年中,視覺-語言預(yù)訓(xùn)練模型(vision-languagepretrainedmodels,VLP)已成為人工智能研究的前沿領(lǐng)域之一。這類模型一般由文本分支和視覺分支組成,可同時處理視覺和語言兩種模態(tài)數(shù)據(jù),與僅依賴圖像或文本監(jiān)督訓(xùn)練的單模態(tài)模型相比,視覺-語言預(yù)訓(xùn)練模型能夠編碼更為豐富的多模態(tài)表示。在預(yù)訓(xùn)練階段,通過在海量圖像-文本對上進行多種類型的預(yù)訓(xùn)練任務(wù)的學(xué)習(xí),VLP獲得了豐富的語義和視覺知識,使得它們能夠更好地適應(yīng)跨模態(tài)任務(wù),如圖像描述生成[9]、視覺問答[10]和跨模態(tài)檢索[11]等。CLIP(contrastive lan-guage-imagepretraining)、ALIGN(a large-scale imageand noisytextembedding)[12]等代表性模型通過在大規(guī)模圖像-文本對上的對比學(xué)習(xí)訓(xùn)練,展示了在圖像分類、跨模態(tài)檢索等任務(wù)中的強大性能。其中,CLIP是最廣泛應(yīng)用的預(yù)訓(xùn)練模型之一,采用雙塔結(jié)構(gòu),包含視覺編碼器和文本編碼器,對輸人的圖像和文本進行特征編碼和提取。隨后,通過計算這些特征之間的余弦相似度來衡量圖文匹配度。對于匹配的圖文對,其特征向量之間的余弦相似度較高,反之,對于不匹配的圖文對,其相似度則較低。這些模型的成功推動了視覺-語言模型在眾多下游任務(wù)中的廣泛應(yīng)用,但其在各類下游任務(wù)的高效適配仍是一個亟待解決的難題。本文提出了一種遞進式的相互提示學(xué)習(xí)方法,提高模型在多模態(tài)之間的交互能力,更高效地適應(yīng)CLIP在小樣本和零樣本視覺識別任務(wù)中的應(yīng)用。
1.2 提示學(xué)習(xí)
由于CLIP模型的參數(shù)規(guī)模較大,使用傳統(tǒng)的全參數(shù)微調(diào)方法進行CLIP的下游任務(wù)適配需要大量的計算開銷和下游任務(wù)訓(xùn)練樣本,無法高效地將CLIP模型適配到特定的下游任務(wù)。所以,利用提示學(xué)習(xí)[13]將預(yù)訓(xùn)練CLIP模型適配到下游任務(wù)已成為領(lǐng)域內(nèi)的研究熱點,并且在少樣本圖像學(xué)習(xí)[14]、目標檢測[2]等下游任務(wù)中展示出強大的性能。提示學(xué)習(xí)方法首先在自然語言處理領(lǐng)域被提出,用于實現(xiàn)大模型在下游任務(wù)中的高效應(yīng)用,隨后被應(yīng)用到圖像識別等視覺任務(wù)及視覺語言多模態(tài)領(lǐng)域。提示學(xué)習(xí)中的指令通常以句子的形式給出,被稱為文本提示,通常用于視覺-語言模型的語言分支,以幫助其更好地理解任務(wù)。目前常見的模型中, CoOp[3] 通過為每個下游任務(wù)設(shè)計統(tǒng)一的提示向量,并將其添加到預(yù)訓(xùn)練模型中,提升了模型對下游任務(wù)的適應(yīng)性。然而,由于其提示是固定的,導(dǎo)致在面對新類或域泛化數(shù)據(jù)時性能下降。 VPT[4] 通過在模型的視覺輸入端添加可訓(xùn)練的視覺提示信息,充許模型在視覺空間中自主學(xué)習(xí)提示信息,這種方法在特定任務(wù)中表現(xiàn)較好,但在多模態(tài)交互和文本提示利用方面的靈活性有所欠缺。 CoCoOp[5] 學(xué)習(xí)特定于輸入圖像樣本的提示信息,并且整合到純文本的連續(xù)提示向量上,實現(xiàn)靈活且泛化性強的提示學(xué)習(xí)。MaPLe[在文本和視覺分支分別設(shè)計了各自的提示向量并將文本信息通過耦合函數(shù)傳遞到視覺空間,實現(xiàn)了模態(tài)之間的單向交互。本文提出的ProgCoPL,不僅實現(xiàn)了模態(tài)雙向交互,將文本提示和視覺提示通過函數(shù)相互映射到對方的模態(tài)空間中,并且設(shè)計了層間的信息傳遞機制,在多層次上更精準地捕獲任務(wù)相關(guān)信息,從而提高對下游任務(wù)的適應(yīng)性。
2方法
2.1 CLIP模型回顧
CLIP由一個文本編碼器和一個視覺編碼器組成,視覺編碼器用于將高維度的圖像映射到低維度的嵌入空間,文本編碼器用于將自然語言編碼為文本特征表示。
2.1.1 文本編碼器
CLIP文本編碼器TE由 L 層Transformer層構(gòu)成,首先將輸入文本進行截斷或補零處理,使其成為長度為 N 的序列,并通過BPE(bytepairencoding)[15]方法將該序列投影為詞嵌入序列 ,然后將 W0 輸人到文本編碼器。在編碼過程中,第 ξl 層編碼器層 TEl 將輸入的 Wl-1 通過多頭注意力機制輸出 Wι ,并作為下一編碼層的輸入:
[Wl]=TEl(ΨWl-1)l=1,2,…,L
最后一層編碼器層輸出的 wNL 經(jīng)全連接層FC線性投影到dvt 維的公共語義空間中,即可獲得全局文本表示z:
2.1.2 視覺編碼器
視覺編碼器VE同樣由 L 層編碼層組成,它首先將輸入圖像 I 分割為 M 個固定大小的圖像塊,然后將這些圖像塊投影
后獲得嵌人序列 。嵌入序列 El-1 作為視覺編碼器第 l 層 VEl 的輸人,與一個可學(xué)習(xí)的CLS標記cl-1 一起被處理:
[cl,El]=VEl([cl-1,El-1])l=1,2,…,L
將最后一層編碼器 VEL 輸出的類別標記 cL 投影到公共語義空間中即可獲得全局視覺表示 x
2.1.3 零樣本分類
在進行零樣本分類時,將類別標簽 yi 嵌入到提示模板(例如“Aphotoofa[class]\")中生成輸入文本并輸入到文本編碼器提取文本全局表示 ?zyi 。同時使用圖像編碼器獲取圖像 I 的全局表示 x ,則輸人圖像 I 屬于類別 yi 的概率為
其中: cos(.) 表示余弦相似度; c 為類別總數(shù)。
2.2 ProgCoPL
為了更好地微調(diào)CLIP以適應(yīng)下游任務(wù),本文探討了多模態(tài)提示調(diào)優(yōu)的潛力。目前已有的針對CLIP的提示學(xué)習(xí)方法缺乏充分的跨模態(tài)信息交互,并且在編碼器層之間缺乏信息傳遞機制,導(dǎo)致模型在各類下游任務(wù)上的適配性和泛化能力受限。
針對上述問題,本文提出一種新穎的面向CLIP的提示學(xué)習(xí)方法-遞進互提示學(xué)習(xí)方法(progressiveco-prompting lear-ning,ProgCoPL),該方法通過對提示信息的增強,來強化模型的能力。如圖2所示,ProgCoPL模型的核心思想是在視覺和文本分支之間添加聯(lián)合提示生成模塊(joint prompt generation,JPG),在不同模態(tài)的編碼器之間、編碼器不同層之間搭建信息交互橋梁。首先,為了增強提示學(xué)習(xí)的視覺-語言跨模態(tài)交互,設(shè)計了跨模態(tài)提示交互(cross modal prompt interaction,CMPI)機制,文本或視覺提示信息經(jīng)過該模塊生成與另一模態(tài)相關(guān)的提示信息并共同經(jīng)過本層的編碼器處理,增強了提示信息在視覺和語言兩種模態(tài)之間的聯(lián)系。同時在編碼器層間添加層間遞進提示(inter-layerprogressiveprompting,IPP)機制,使提示信息在層級之間傳遞融合,增強學(xué)習(xí)信息的有效性。在訓(xùn)練階段,僅需學(xué)習(xí)JPG模型權(quán)重參數(shù)及插入的提示向量,而CLIP模型本身的模塊和參數(shù)保持凍結(jié)。
2.2.1 聯(lián)合提示生成
在ProgCoPL中,視覺分支側(cè)和文本分支側(cè)采用對稱結(jié)構(gòu),其信息處理流程類似,因此這里以視覺分支為例進行詳細闡述。對于視覺編碼器的第l層,其輸入由視覺向量 El-1∈
、視覺提示
、文本引導(dǎo)的視覺提示 Pl-1tv∈
組成,其中 b 為插入的提示向量個數(shù),視覺提示 Pl-1v 隨機生成,并在訓(xùn)練過程中優(yōu)化。文本引導(dǎo)的視覺提示 Pl-1rv 如下:
文本引導(dǎo)的視覺提示 Pltv 的計算過程包括跨模態(tài)提示交互和層間遞進提示。
1)跨模態(tài)提示交互式(6)中的 CMPI(Pl-1t) 項即為跨模態(tài)提示交互,該運算以文本分支對應(yīng)層的文本提示 Plt 為輸入,通過多頭自注意力運算和線性投影獲取來自文本模態(tài)的指導(dǎo)信息,其計算方法如下:
CMPI(Pl-1t)=MA(Pl-1t)=FC([head1,…,headH]Wo)
其中:MA表示多頭自注意力運算。該運算采用 H 個并行的自注意力機制頭,每個自注意力機制頭的計算方法為
其中 為權(quán)重矩陣;
為輸出權(quán)重矩陣; dH=dv/H 是每個頭輸出的維度特征。圖3展示了多頭注意力機制的過程,最后的矩陣Z 即為式(7)的結(jié)果。上述操作實現(xiàn)了跨模態(tài)提示交互,將文本分支的提示信息引人到視覺分支,有效增強了文本編碼器和視覺編碼器的跨模態(tài)交互。
2)層間遞進提示傳統(tǒng)的針對CLIP的提示學(xué)習(xí)算法中,編碼器各層插入的提示向量相互獨立。而文獻[8]的研究結(jié)果表明,在編碼器層間添加信息傳輸機制有利于提高編碼器的學(xué)習(xí)能力。因此,本文在編碼器不同層的提示向量之間添加了層間遞進提示(IPP)機制。具體地,上一層的提示向量 經(jīng)衰減后,與上述CMPI模塊的輸出融合,最終獲得文本引導(dǎo)的視覺提示
,從而實現(xiàn)了編碼器不同層級之間提示信息的逐層傳遞和融合:
類似地,對于文本編碼器的第 l 層,其輸入由文本向量 、文本提示
、視覺引導(dǎo)的文本提示
組成,其中文本提示 Pl-1t 隨機初始化,而視覺引導(dǎo)的文本提示 Pl-1vt 如下:
Pl-1vt=IPP(CMPI(Pl-1v),Pl-2vt)
特別地, P0tv 和 均為零向量。
2.2.2文本分支提示學(xué)習(xí)
對于編碼層 TEl ,文本提示 Pl-1t 、視覺引導(dǎo)的文本提示 與輸入文本的嵌入序列 Wl-1=[w1l-1,w2l-1,…,wNl-1]∈ (20
拼接構(gòu)成 [Pl-1t,Pl-1vt,Wl-1] 輸入到編碼器層 TEι ,經(jīng)編碼器處理后輸出:
[-,-,Wl]=TEl([Pl-1t,Pl-1vt,Wl-1])l=1,…,K (11)其中:[.,.]表示張量拼接操作。在經(jīng)過 K 層的提示學(xué)習(xí)之后,后續(xù)編碼層對文本特征作進一步處理,并通過全連接層投影獲得文本全局特征z:
2.2.3圖像分支提示學(xué)習(xí)
同樣地,對于編碼層 VEl ,首先插入 b 個可學(xué)習(xí)提示向量
Pl-1v 和文本引導(dǎo)的提示向量 Pl-1tv ,并與上一編碼層輸出的圖像嵌入序列 起構(gòu)成 [cl ,Pl-1v,Pl-1tv,El-1] 。首先經(jīng) K 層編碼器的提示學(xué)習(xí):
[cl,..,.,El]=VEl([cl-1,Pl-1v,Pl-1tv,El-1])
上述在視覺提示之下學(xué)習(xí)到的圖像嵌入序列 Eκ 通過后續(xù)編碼層進一步處理后經(jīng)線性投影,即可獲得全局視覺表示 x
上述文本分支和圖像分支的提示學(xué)習(xí)采用了跨模態(tài)提示交互與層間遞進提示相結(jié)合的方法,能夠逐步增強模型在視覺編碼器和文本編碼器之間的跨模態(tài)交互能力,解決現(xiàn)有方法存在的跨模態(tài)交互不足和提示信息無法實現(xiàn)跨層傳播的問題,從而使模型更好地捕獲下游任務(wù)所需的多模態(tài)信息。
2.3偽代碼流程分析
輸入:文本提示 Pl-1t ,視覺引導(dǎo)的文本提示 Pl-1vt ,文本的嵌入序列Wl-1 ,視覺提示 Pl-1v ,文本引導(dǎo)的提示向量 Pl-1tv ,圖像嵌入序列 El-1 。
輸出:文本側(cè) ,視覺側(cè)
。
1 if( ll-1t) )與視覺提示 (Pl-1v )endif
2跨模態(tài)提示交互CMPI:文本側(cè) Q,K,V=Pl-1tWQ,Pl-1tWK,Pl-1tWV for( h=1 to H ) end for
視覺側(cè): Q,K,V=Pl-1vWQ,Pl-1vWK,Pl-1vWV for( h=1 to H )
end for
3層間遞進提示 IPP 保留提示信息并融合上一層提示信息:
5生成嵌入序列:文本序列 (204號圖像序列
6將文本序列 W 和圖像序列 E 輸人各自編碼器
3實驗結(jié)果與分析
3.1 前置工作
3.1.1 數(shù)據(jù)集簡介
為了驗證本文方法的可行性和先進性,在現(xiàn)有工作常用的11個數(shù)據(jù)集上進行了實驗驗證。這些數(shù)據(jù)集包括ImageNet[16]和Caltech101[17]兩個通用圖像分類數(shù)據(jù)集;OxfordPets[18]StanfordCars[19]、Flowers1O2[20]、Food101[21]和 FGVCAircraft[22]五個細粒度分類數(shù)據(jù)集;一個場景識別數(shù)據(jù)集 SUN397[23];一個動作識別數(shù)據(jù)集UCF101[24];一個紋理數(shù)據(jù)集 DTD[25] ,以及一個衛(wèi)星圖像數(shù)據(jù)集EuroSAT[26]。對于領(lǐng)域泛化,使用Ima-geNet 作為源數(shù)據(jù)集,并將其四個變體(包括ImageNetV2[27]ImageNetSketch[28]、ImageNet-A[29]和 ImageNet ?R[30] )作為目標數(shù)據(jù)集。
3.1.2任務(wù)及評價指標簡介
1)基類到新類的泛化為了評估ProgCoPL模型的泛化能力,將數(shù)據(jù)集劃分為基類和新類,模型僅使用基類中每類 T 個樣本進行訓(xùn)練,然后在基類和新類的測試集上進行測試。
2)跨數(shù)據(jù)集泛化為了驗證本文方法在跨數(shù)據(jù)集泛化中的有效性,使用在ImageNet上訓(xùn)練獲得的模型,不經(jīng)過任何微調(diào),直接在其他數(shù)據(jù)集上進行評估測驗。與其他方法類似[5],本文方法在ImageNet的1000個類別上進行了少樣本訓(xùn)練。
3)領(lǐng)域泛化此外,對本文方法在分布外的數(shù)據(jù)集上的魯棒性進行了測試。與跨數(shù)據(jù)集評估類似,以ImageNet為源域,將在ImageNet上訓(xùn)練好的模型,直接應(yīng)用于目標域數(shù)據(jù)集,包括ImageNetV2[27]、ImageNetSketch[28]、ImageNet-A[29]和ImageNet- ?R[30] ,評估模型在數(shù)據(jù)分布特征不同的目標域數(shù)據(jù)集上的表現(xiàn)。
4)評價指標遵循文獻[3]的做法,采用與 CoOp 、MaPLe等相同的評價標準[5],在11個數(shù)據(jù)集上評估了本文方法的性能。在上述任務(wù)中,均測試得到基類準確率、新類準確率和諧波均值(HM),測試結(jié)果取三次實驗的平均值。其中諧波均值(HM) σ=σ ( 2× 基類準確率 × 新類準確率)/(基類準確率 + 新類
準確率)。
3.1.3 實現(xiàn)細節(jié)
在所有實驗中,使用少樣本訓(xùn)練策略,即每個類別隨機抽樣16個訓(xùn)練樣本,即 T=16 。在預(yù)訓(xùn)練的ViT-B/16CLIP模型上進行提示調(diào)優(yōu),其中 dt=512,dv=768,dvt=512 。傳遞參數(shù)α=0.1 ,編碼器層數(shù) L=12 ,提示層數(shù) K=9 。所有模型均訓(xùn)練5個epoch,批量大小為4,學(xué)習(xí)率固定為0.0035,使用SGD優(yōu)化器在單塊NVIDIA3090GPU上進行訓(xùn)練和測試。
3.2 實驗結(jié)果
3.2.1基類到新類的泛化能力評估
表1展示了ProgCoPL在基類到新類泛化任務(wù)上的表現(xiàn)。將本文提出的 ProgCoPL 與近年提出的CLIP[1] CoOp[3] 、Co-CoOp[5] 、MaPLe[6]、PRO[31]、PLOT[32]、UNIGRAM[33]、 VPT[4] IVLP[34] 等經(jīng)典方法進行了對比,加粗項表示最優(yōu)結(jié)果。
在基類上, ProgCoPL 在9個數(shù)據(jù)集上的結(jié)果均高于當(dāng)前最佳方法MaPLe,基類上的平均準確率從 82.28% 提高到82.78% 。在新類識別上,ProgCoPL在所有11個數(shù)據(jù)集的平均準確率上均高于MaPLe,從75. 14% 提高至 75.6% ,表明本文提出的ProgCoPL通過層間遞進的跨模態(tài)交互提示,有效增強了CLIP模型在下游任務(wù)上的泛化能力。當(dāng)同時考慮基類和新類,即諧波均值時,在11個數(shù)據(jù)集上的平均表現(xiàn)優(yōu)于現(xiàn)有的大部分模型。得益于ProgCoPL的交互提示信息與遞進信息傳遞機制, ProgCoPL 在11個數(shù)據(jù)集上的諧波均值從 78.55% 提高至 79.02% 。
圖4展示了實驗的總體平均結(jié)果,在11個數(shù)據(jù)集上的廣泛實驗驗證了ProgCoPL的優(yōu)越性,與當(dāng)前較優(yōu)的方法MaPLe相比,ProgCoPL在11個數(shù)據(jù)集的分類、識別任務(wù)中平均提高0.47百分點,在域泛化能力上平均提高0.76百分點,在跨數(shù)
根據(jù)表1結(jié)果發(fā)現(xiàn),即使ProgCoPL在平均結(jié)果上表現(xiàn)較好,但仍在FGVCAircraft和DTD數(shù)據(jù)集上表現(xiàn)較差。同時其他現(xiàn)有方法在這兩個數(shù)據(jù)集上的表現(xiàn)也同樣欠佳。這兩個數(shù)據(jù)集屬于細粒度圖像分類,不同類別之間的特征差異較小,基于CLIP的分類框架難以捕捉到類間的細微差異。因此,設(shè)計面向細粒度圖像分類任務(wù)的提示學(xué)習(xí)方法是亟待解決的問題之一。
3.2.2跨數(shù)據(jù)集泛化能力評估
為了測試本文提出的ProgCoPL的跨數(shù)據(jù)集泛化能力,在ImageNet數(shù)據(jù)集上分別訓(xùn)練ProgCoPL、 CoOp 、CoCoOp、MaPLe模型,并在其余10個數(shù)據(jù)集上進行測試,測試結(jié)果如表2所示。實驗結(jié)果表明,ProgCoPL不僅在ImageNet測試集上取得了最高的識別準確率,同時在其他數(shù)據(jù)上也普遍超越了現(xiàn)有方法。MaPLe在其他10個數(shù)據(jù)集上的平均測試結(jié)果為 66.30% ,而ProgCoPL取得了3.41百分點的顯著提升,達到了 69.71% 的準確率,體現(xiàn)出更強的跨數(shù)據(jù)集泛化能力。這表明本文提出的ProgCoPL可以學(xué)習(xí)到更加通用的視覺表征。
3.2.3領(lǐng)域泛化能力評估
領(lǐng)域泛化能力是人工智能模型的重要指標之一。為了驗證ProgCoPL在領(lǐng)域泛化能力上的優(yōu)越性,展示了ProgCoPL在分布外數(shù)據(jù)集上的良好泛化能力。以ImageNet為源域,將在ImageNet上訓(xùn)練好的模型直接應(yīng)用于目標域數(shù)據(jù)集,包括復(fù)雜圖像內(nèi)識別特定物體的ImageNetV2,手繪簡筆圖像集ImageNetS,涵蓋現(xiàn)實圖像、非完整性物體的ImageNet-A以及包括卡通形象、玩偶形象和繪畫圖像的ImageNet-R,具體見表3中數(shù)據(jù)集圖片示例。表3中的實驗結(jié)果表明,ProgCoPL達到了與當(dāng)前最佳模型相當(dāng)?shù)乃?,?個目標域數(shù)據(jù)集上的平均準確率超越了現(xiàn)有的主流方法,達到了 63.12% 。
為驗證跨模態(tài)提示交互和層間遞進提示機制的有效性,本文設(shè)計了多種變體模型,并在11個數(shù)據(jù)集上進行了消融實驗測試:a)如表4第一組實驗所示,去除ProgCoPL中的跨模態(tài)交互提示和層間遞進提示后,模型退化為VPT,其在基類和新類上的準確率僅有 80.56% 和 71.72% ;b)在第二組實驗中,僅使用跨模態(tài)提示交互,可使模型準確率總體提高2.14百分點;c)第三組對比實驗中,僅使用層間遞進提示而去除跨模態(tài)提示交互,最終使模型準確率總體提高1.53百分點。第4組實驗為完整的ProgCoPL,通過跨模態(tài)提示交互機制和層間遞進提示機制的結(jié)合,其在基類和新類上的表現(xiàn)均得到了顯著提升。
圖5進一步直觀地展示了各個模塊的作用。圖5中,對比了上述不同變體模型的視覺編碼器各層學(xué)習(xí)到的注意力圖的區(qū)別,這些注意力圖分別來自第3、6、9、12編碼層。在無層間遞進提示時,視覺編碼器無法快速準確地捕捉到識別“cat”類別需要關(guān)注的關(guān)鍵圖像區(qū)域。去除跨模態(tài)交互提示后,模型的最終結(jié)果更傾向于捕捉顏色梯度劇變的圖像區(qū)域和直觀特征,如貓眼部位的特征,而忽略了貓身體上其他區(qū)域的有效信息。當(dāng)給模型添加上跨模態(tài)交互提示和層間遞進提示后,模型可快速捕獲識別“cat”所需的關(guān)鍵區(qū)域和信息,如貓的眼睛和耳朵區(qū)域。
為了檢測不同提示深度 K 對模型性能的影響,將式(11)和(14)中的參數(shù) K 分別設(shè)置為1、3、6、9、12,重復(fù)3.2節(jié)的實驗,實驗結(jié)果如圖6所示。實驗結(jié)果表明,當(dāng) Klt;9 時,模型在基類和新類上的分類準確率隨提示深度的增大而增大,表明深度提示優(yōu)于淺層提示,這一結(jié)果與文獻[4,6]相同。當(dāng) K=9 時,即在編碼器的1\~9層插入可學(xué)習(xí)的提示向量時,模型取得了最佳效果。
3)傳遞參數(shù) α 對模型性能的影響分析
對于本文在層間遞進提示所使用的參數(shù) α 也同樣進行了消融實驗。如圖7所示,當(dāng) α=0.0 時,即切斷了層間遞進提示學(xué)習(xí)模塊;當(dāng) α=1.0 時,即僅使用了第一層的學(xué)習(xí)結(jié)果。當(dāng)α=0.1 時,模型效果達到最佳。之后,隨著 α 的增大,模型在基類上的準確率逐步下降,而在新類上差異波動較大。
圖8所展示的是參數(shù) α 在不同設(shè)置下跨數(shù)據(jù)集實驗上的表現(xiàn)結(jié)果??鐢?shù)據(jù)集實驗中源數(shù)據(jù)集來源為ImageNet,目標數(shù)據(jù)集為其余10個數(shù)據(jù)集。從圖8中看出, α 在源數(shù)據(jù)集上波動較小,可能是因為ImageNet數(shù)據(jù)集中數(shù)據(jù)較多,涉及種類廣,且跨數(shù)據(jù)集實驗訓(xùn)練輪次較少導(dǎo)致的。但從訓(xùn)練后的模型在其余數(shù)據(jù)集上的實驗?zāi)軌蚩闯觯?dāng) α=0.1 時,跨數(shù)據(jù)集的泛化能力優(yōu)于其他設(shè)置。
3.2.5模型計算復(fù)雜性分析
1)模型收斂速度分析在兩個通用對象數(shù)據(jù)集Caltechl01和ImageNet上進行了模型收斂速度對比實驗,對比的基準模型為 MaPLe 。如圖9和10所示,本文提出的ProgCo-PL在兩個數(shù)據(jù)上的訓(xùn)練收斂速度都明顯快于MaPLe。對比MaPLe模型,ProgCoPL模型在編碼器不同層的提示之間加入了信息傳輸通道,有利于模型訓(xùn)練過程中梯度的反向傳遞,提高了模型收斂速度。
2)模型復(fù)雜度分析表5展示了 ProgCoPL 與其他方法在模型復(fù)雜度上的對比結(jié)果,包括模型參數(shù)量和推理速度。Co0p,CoCoOp 和VPT中可學(xué)習(xí)的參數(shù)只有插人的提示向量,因此參數(shù)量較少。而ProgCoPL和MaPLe需要在編碼器各層插入用于生成提示向量的提示生成模塊,因此需要學(xué)習(xí)的參數(shù)量較大。
3)模型參數(shù)量為了驗證ProgCoPL的性能提示并不是源于模型參數(shù)量的提升,設(shè)計了ProgCoPL*模型,即第1\~9層編碼器共用同一個聯(lián)合提示生成模塊JPG,因此ProgCoPL*的模型參數(shù)只有ProgCoPL的約1/9。實驗發(fā)現(xiàn),只要保持ProgCoPL模型的架構(gòu)不變,即使模型參數(shù)量大幅減少,其在下游圖像分類任務(wù)上的表現(xiàn)并未出現(xiàn)明顯下降,超越了現(xiàn)有主流方法,且其推理速度與現(xiàn)有主流方法相近。
4結(jié)束語
本文針對CLIP模型高效適配下游任務(wù)進行探討,并提出了新的方法ProgCoPL。ProgCoPL在提示信息通路中增加了聯(lián)合提示生成模塊,通過跨模態(tài)交互提示和層間遞進提示兩個部分優(yōu)化編碼器的提示信息??缒B(tài)交互提示通過視覺-文本編碼器間的相互提示,使兩種模態(tài)的信息通過多頭注意力機制實現(xiàn)互相引導(dǎo),打破了單一提示的局限性。此外,層間遞進提示機制讓提示信息在編碼器各層中逐步傳遞與增強,進一步提高了模型在深層次上的適應(yīng)能力。這一機制賦予了模型更強的跨數(shù)據(jù)集泛化能力,特別在處理不同領(lǐng)域的任務(wù)時效果顯著。ProgCoPL通過在各編碼層中協(xié)調(diào)視覺和文本提示,在通用數(shù)據(jù)集上和跨數(shù)據(jù)集上表現(xiàn)優(yōu)異,但在細粒度圖像分類任務(wù)上并未取得顯著進步,這可能是由于CLIP專注于圖像與文本的整體描述,得到全局性特征;細粒度分類需要局部性差異特征,導(dǎo)致正確率較低。在后續(xù)改進中,可以使用提示多樣性的方法(例如在描述鳥類時,使用“birdwitharedtail\"代替“redbird\")來提升模型對細節(jié)的敏感性;或者類別細分嵌入(如描述時分為“大型鳥類”“小型鳥類”等)。因此,設(shè)計合理的提示學(xué)習(xí)方法,挖掘大規(guī)模預(yù)訓(xùn)練跨模態(tài)模型在少樣本細粒度圖像分類任務(wù)上的潛能是具有挑戰(zhàn)和研究價值的。
參考文獻:
[1]RadfordA,KimJW,HallacyC,etal.Learningtransferablevisual models from natural language supervision[C]//Proc of International Conference on MachineLearning.[S.1.]:PMLR,2021:8748-8763.
[2]Feng Chengjian,Zhong Yujie,Jie Zequn,et al.PromptDet:towards open-vocabulary detection using uncurated images[C]//Proc of European Conference on Computer Vision. Cham:Springer,2O22:701-717.
[3]Zhou Kaiyang,Yang Jingkang,Loy C C,et al.Learning to prompt forvision-languagemodels[J]. International Journal of Computer Vision,2022,130(9):2337-2348.
[4]Jia Menglin,Tang Luming,Chen B C,et al. Visual prompt tuning [C]//Proc of European Conference on Computer Vision.Cham: Springer,2022:709-727.
[5]Zhou Kaiyang,Yang Jingkang,Loy C C,et al.Conditional prompt learning for vision-language models [C]// Proc of IEEE/CVF Conference on Computer Vision and Pattern Recognition.Piscataway,NJ: IEEE Press,2022:16795-16804.
[6]Khattak M U,Rasheed H,Maaz M,et al. MaPLe:multi-modal prompt learning[C]// Proc of IEEE/CVF Conference on Computer Vision and Patern Recognition. Piscataway,NJ: IEEE Press,,2023: 19113-19122.
[7]Zang Yuhang,Li Wei, Zhou Kaiyang,et al.Unified vision and language prompt learning [EB/OL]. (2022-10-13). htps://arxiv. org/abs/2210.07225.
[8]Wang Yujing,Yang Yaming,Bai Jiangang,et al.Evolving atention with residual convolutions [C]//Proc of International Conference on Machine Learning.[S.1.]:PMLR,2021:10971-10980.
[9]Yang Linjie,Tang K,Yang Jianchao,et al. Dense captioning with joint inference and visual context[C]//Proc of IEEE Conference on Computer Vision and Patern Recognition. Piscataway,NJ:IEEE Press,2017: 1978-1987.
[10]Anderson P,F(xiàn)ernando B,Johnson M,et al.Botom-up and top-down attention for visual question answering[EB/OL].(2017- 07- 25) [2024-12-10].htps://arxiv.org/abs/1707.07998.
[11]Cho J,Lei Jie,Tan Hao,et al.Unifying vision-and-language tasks via text generation[C]// Proc of International Conference on Machine Learning.[S.1.]:PMLR,2021:1931-1942.
[12]Jia Chao,Yang Yinfei,Xia Ye,etal.Scaling up visual andvisionlanguage representation learning with noisy text supervision[C]// Proc of International Conference on Machine Learning.[S.1.]: PMLR,2021:4904-4916.
[13]Jin W,Cheng Yu,Shen Yelong,et al.A good prompt is worth millions of parameters:low-resource prompt-based learning for visionlanguage models[EB/OL].(2021-10-16)(2024-12-10). https:// arxiv.org/abs/2110.08484.
[14]Kim K,Laskin M,Mordatch I,et al. How to adapt your large-scale vision-and-language model[EB/OL].(2022-01-29).https://openreview. net/forum? id EhwEUbzynla.
[15] Sennrich R,Haddow B,Birch A.Neural machine translation of rare words with subword units[EB/OL].(2015-08-31)[2024-12-10]. https://arxiv.org/abs/1508.07909.
[16]Deng Jia,Dong Wei, Socher R,et al. ImageNet:a large-scale hierarchical image database[C]// Proc of IEEE Conference on Computer Vision and Pattern Recognition. Piscataway,NJ:IEEE Press, 2009:248-255.
[17]Li Feifei,F(xiàn)ergusR,Perona P.Learning generative visual models from few training examples:an incremental Bayesian approach tested on 101 object categories[C]// Proc of Conference on Computer Vision and Pattern Recognition Workshop.Piscataway,NJ: IEEE Press, 2005:178.
[18]ParkhiOM,VedaldiA,ZissermanA,etal.Catsanddogs[C]// Proc of IEEE Conference on Computer Vision and Pattern Recognition.Piscataway,NJ:IEEE Press,2012:3498-3505.
[19] Krause J,Stark M, Jia Deng,et al.3D object representations for fine-grained categorization [C]// Proc of IEEE International Confe2013:554-561.
[20]Nilsback M E,Zisserman A.Automated flower classification over a large number of classes[C]// Proc of the 6th Indian Conference on Computer Vision, Graphics amp; Image Processing. Piscataway,NJ: IEEE Press,2008:722-729.
[21]BossardL,Guillaumin M,Van Gool L.Food-10l-mining discriminative components with random forests[C]//Proc of the 13th European Conference on Computer Vision. Cham:Springer,2014:446-461.
[22]Maji S,RahtuE,Kanade T,etal.Fine-grained visual classification of birds through tree-structured learning[C]//Proc of IEEE Conference on Computer Vision and Pattern Recognition.Piscataway,NJ: IEEE Press,2013:555-562.
[23]Xiao Jianxiong,Hays J,Ehinger K A,et al. SUN database:largescale scene recognition from abbey to zoo[C]//Proc of IEEE Computer Society Conference on Computer Vision and Pattrn Recognition.Piscataway,NJ:IEEE Press,2010: 3485-3492.
[24]Soomro K,Zamir A,Shah M. UCF101:a dataset of 1O1 human actions classes from videos in the wild[EB/OL].(2012-12-03) [2024-12-10].https://arxiv.org/abs/1212.0402.
[25]CimpoiM,Maji S,KokkinosI,et al.Describing textures in the wild [C]//Proc of IEEE Conference on Computer Vision and Pattern Recognition.Piscataway,NJ:IEEE Press,2014:3606-3613.
[26]HelberP,BischkeB,Dengel A,etal.EuroSAT:a novel dataset and deep learning benchmark for land use and land cover classification [J].IEEE Journal of Selected Topics in Applied Earth Observations and Remote Sensing,2019,12(7):2217-2226.
[27]Recht B,RoelofsR,SchmidtL,et al.Do ImageNet classifiers generalize to ImageNet?[C]//Proc of International Conference on Machine Learning.[S.1.]:PMLR,2019: 5389-5400.
[28]Wang Haohan,Ge Songwei,Xing EP,et al.Learning robust global representations by penalizing local predictive power [EB/OL]. (2019-05-29). htps://arxiv.org/abs/1905.13549.
[29]Hendrycks D,Zhao K,Basart S,et al.Natural adversarial examples [C]//Proc of IEEE/CVF Conference on Computer Vision and Pattern Recognition. Piscataway,NJ:IEEE Press,2021:15262-15271.
[30]Hendrycks D,Basart S,Mu N,et al.The many faces of robustness: a critical analysis of out-of-distribution generalization[C]//Proc of IEEE/CVF International Conference on Computer Vision. Piscataway,NJ:IEEE Press,2021:8320-8329.
[31]LeeDongjun,SongS,Suh J,et al.Read-only prompt optimization for vision-language few-shot learning[C]//Proc of IEEE/CVF International Conference on Computer Vision.Piscataway,NJ:IEEE Press,2023:1401-1411.
[32]Chen Guangyi,Yao Weiran,Song Xiangchen,etal.PLOT:prompt learning with optimal transport for vision-language models [EB/OL]. (2022-10-03)[2024-12-10]. https://arxiv.org/abs/2210.01253
[33]LiJuncheng,Gao Minghe,WeiLonghui,etal.Gradient-regulated meta-prompt learning for generalizable vision-language models[C]// Proc of IEEE/CVF International Conference on Computer Vision. Piscataway,NJ: IEEE Press,2023: 2551-2562.
[34]RasheedH,Khattak MU,MaazM,et al.Fine-tuned CLIP models are efficient video learners[C]//Proc of IEEE/CVF Conference on Computer Vision and Pattern Recognition. Piscataway,NJ:IEEE Press,2023:6545-6554.