摘 "要: 當(dāng)測試數(shù)據(jù)與訓(xùn)練數(shù)據(jù)遵循不同的分布時(shí),神經(jīng)網(wǎng)絡(luò)會(huì)經(jīng)歷領(lǐng)域轉(zhuǎn)移。領(lǐng)域泛化(DG)的目標(biāo)是學(xué)習(xí)一個(gè)可處理未知域的通用模型,以此來解決這個(gè)問題。以往的方法通過數(shù)據(jù)增強(qiáng)或者特征空間對齊的方式來提取域不變特征,但在提取的過程中又會(huì)產(chǎn)生新的域特定特征,導(dǎo)致模型泛化的性能較差。針對這些問題,提出一個(gè)簡單而有效的框架——ERCLIP,通過ERCLIP來實(shí)現(xiàn)大規(guī)模預(yù)訓(xùn)練模型CLIP在DG中的應(yīng)用。ERCLIP通過主動(dòng)提取域特定特征,并將其融入文本提示,實(shí)現(xiàn)圖像語義的精準(zhǔn)描述。并且提出一個(gè)文本提示優(yōu)化器,動(dòng)態(tài)地優(yōu)化提示向量。在公開數(shù)據(jù)集OfficeHome、VLCS與PACS上的實(shí)驗(yàn)結(jié)果表明,ERCLIP在OfficeHome上的平均準(zhǔn)確率為83.4%,在VLCS上為83.5%,在PACS上為96.5%,在所有算法里取得最優(yōu)結(jié)果。
關(guān)鍵詞: 域不變特征; ERCLIP; 領(lǐng)域泛化; 神經(jīng)網(wǎng)絡(luò); 特征提?。?文本提示
中圖分類號: TN911.73?34 " " " " " " " " " " " " "文獻(xiàn)標(biāo)識(shí)碼: A " " " " " " " " " " 文章編號: 1004?373X(2024)18?0041?06
CLIP prompt optimization algorithm based on domain?specific feature
ZHANG Yuewen1, 2, WANG Jiuhang1, 2, QIN Ronghua1
(1. Shanghai Institute of Microsystem and Information Technology, Chinese Academy of Sciences, Shanghai 201800;
2. University of Chinese Academy of Sciences, Beijing 100049, China)
Abstract: When the testing data and training data follow different distributions, the neural network can undergo domain shift. The goal of domain generalization (DG) is to solve this problem by learning a general model that can handle unknown domains. Previous methods can extract domain?invariant features by means of data enhancement or feature space alignment, but new domain?specific features can be generated in the process of extraction, resulting in poor model generalization performance. On this basis, a simple and effective framework ERCLIP (extracting and removing domain?specific features for CLIP) is proposed to realize the application of large?scale pre?training model CLIP in DG. ERCLIP can realize precise semantic description of images by actively extracting domain specific features and incorporating them into text prompts. The experimental results on the public datasets OfficeHome, VLCS, and PACS show that ERCLIP can realize the best results among all algorithms, with an average accuracy of 83.4% on OfficeHome, 83.5% on VLCS, and 96.5% on PACS.
Keywords: domain?invariant feature; ERCLIP; domain generalization; neural network; feature extraction; text prompt
0 "引 "言
大型預(yù)訓(xùn)練視覺模型的進(jìn)步顯著提高了模型性能,為各種視覺任務(wù)開辟了新的發(fā)展方向。微調(diào)預(yù)先訓(xùn)練好的模型是許多下游任務(wù)中常用的方法,如ResNet[1]和ViT[2]。然而,由于領(lǐng)域轉(zhuǎn)移(Domain Shift)[3?4],在源域上訓(xùn)練的模型可能無法很好地推廣到不可見的域。在過去的10年中,領(lǐng)域泛化方面的大量研究都致力于尋求一種統(tǒng)一的方法,旨在最小化源域和目標(biāo)域[5?6]之間的分布差異。領(lǐng)域泛化目標(biāo)是增強(qiáng)模型對不同下游任務(wù)的能力。盡管學(xué)術(shù)界對領(lǐng)域轉(zhuǎn)移進(jìn)行了廣泛的研究[7?8],但領(lǐng)域轉(zhuǎn)移仍然是一個(gè)持續(xù)的挑戰(zhàn),特別是在數(shù)據(jù)分布[9]存在顯著差異的情況下。值得注意的是,大型的預(yù)訓(xùn)練模型可以在一定程度上緩解這個(gè)問題[10]。
大型預(yù)訓(xùn)練視覺模型,如CLIP(Contrastive Language?Image Pre?training)[11]和ALIGN[12],通過在數(shù)十億個(gè)圖像?文本對上進(jìn)行訓(xùn)練,不僅能夠捕捉豐富的圖像特征,還能夠理解相關(guān)的文本描述,使得它們在多模態(tài)任務(wù)中表現(xiàn)出色,并且可以提取高度泛化的圖像特征。其核心思想是用圖像的文本提示,通過比較來學(xué)習(xí)圖像表示,比如“一張{類別名稱}的照片”的提示描述。具體來說,可以將圖像和文本的表示嵌入到一個(gè)共同的向量空間中,然后通過比較這些嵌入向量的相似性,并且測量文本和圖像之間的對齊程度,從而對圖像進(jìn)行分類。然而,當(dāng)應(yīng)用于特定任務(wù)時(shí),手動(dòng)設(shè)計(jì)的提示并不能取得令人滿意的性能。設(shè)計(jì)良好的提示對于利用預(yù)訓(xùn)練模型進(jìn)行下游任務(wù)至關(guān)重要。最近的研究集中在提示微調(diào)上,考慮到提示也是模型輸入的一部分,并且可以通過反向傳播進(jìn)行優(yōu)化[13?15]。受到啟發(fā),本文直接在CLIP上對文本提示進(jìn)行微調(diào)。
1 "設(shè)計(jì)思路
如圖1所示,有兩種方法可以利用CLIP進(jìn)行領(lǐng)域泛化。第一種方法是微調(diào)CLIP的圖像編碼器[16]。本文發(fā)現(xiàn),使用CLIP訓(xùn)練的骨干網(wǎng)絡(luò)在性能上優(yōu)于許多專門針對圖像訓(xùn)練的其他網(wǎng)絡(luò),如ViT和ResNet。然而,微調(diào)預(yù)訓(xùn)練模型可能會(huì)扭曲其最初良好的特征表示。其中一個(gè)重要原因是數(shù)據(jù)集規(guī)模放大了特征表示中的差異,而在相對較小的數(shù)據(jù)集上更新整個(gè)CLIP不是一種有效的方法。
另一種方法是提示學(xué)習(xí),它專注于優(yōu)化文本提示以提高性能。這種方法的優(yōu)點(diǎn)在于,相較于更新整個(gè)網(wǎng)絡(luò),只需要微調(diào)文本提示就能保留預(yù)訓(xùn)練模型所學(xué)到的特征表示。這種方法的關(guān)鍵在于文本提示的質(zhì)量,因?yàn)樘崾灸0宓暮脡闹苯佑绊懩P偷男阅?。本文的核心思路是微調(diào)文本提示。與手動(dòng)提示相比,這種方法使網(wǎng)絡(luò)能夠更好地發(fā)現(xiàn)提示,從而提高泛化性能。
但是,領(lǐng)域轉(zhuǎn)移[3]帶來了新的挑戰(zhàn)。例如,卷積神經(jīng)網(wǎng)絡(luò)(CNN)往往從圖像中學(xué)習(xí)紋理特征以區(qū)分對象,而人們可以使用全局信息來識(shí)別對象。CNN在特定領(lǐng)域中學(xué)到的特征可能不適用于其他領(lǐng)域。例如,在素描風(fēng)格數(shù)據(jù)中,圖像僅由線條組成,沒有紋理;而現(xiàn)實(shí)世界的圖像則通常充滿了紋理細(xì)節(jié)。在素描數(shù)據(jù)上訓(xùn)練的模型在現(xiàn)實(shí)世界的圖像上可能表現(xiàn)不佳。
基于前述觀察,本文提出了一個(gè)ERCLIP(Extracting and Removing Domain?specific features for CLIP)方法。該方法能動(dòng)態(tài)調(diào)整測試示例的提示,并學(xué)習(xí)更強(qiáng)的跨領(lǐng)域通用特征表示中的語義信息。對于提示調(diào)整,一個(gè)簡單的方法是通過包含領(lǐng)域特定的文本描述來手動(dòng)設(shè)計(jì)提示模板。然而,由于提示模板的固定性和僵化性,手動(dòng)設(shè)計(jì)可能無法有效地適應(yīng)任務(wù)需求。由于整個(gè)網(wǎng)絡(luò)被凍結(jié),CLIP預(yù)訓(xùn)練模型的核心特征得以最大程度的保留,使得性能穩(wěn)定提升。
具體而言,在訓(xùn)練集上訓(xùn)練一個(gè)提示生成器,在給定每個(gè)分布的輸入圖像和固定長度的文本向量的情況下,保持其他網(wǎng)絡(luò)參數(shù)凍結(jié)的同時(shí)更新提示生成器。在整個(gè)訓(xùn)練過程中,提示生成器從圖像中學(xué)習(xí)領(lǐng)域特定的特征,并將其整合到文本提示中。為實(shí)現(xiàn)這一目標(biāo),首先訓(xùn)練一個(gè)只能識(shí)別特定領(lǐng)域圖像的領(lǐng)域分類器,特定分類器無法對其他領(lǐng)域的圖像進(jìn)行分類;然后訓(xùn)練一個(gè)文本提示器,該文本從原始圖像和圖像特定信息兩方面學(xué)習(xí)語義特征,從而生成更符合圖像的提示表述。
ERCLIP框架包括文本優(yōu)化器和領(lǐng)域不變特征提取器兩個(gè)組件。整個(gè)框架的訓(xùn)練分為兩個(gè)步驟。
1) 訓(xùn)練領(lǐng)域特定的分類器,每個(gè)領(lǐng)域都有自己的分類器,可以識(shí)別來自該特定領(lǐng)域的圖像,但無法識(shí)別來自其他領(lǐng)域的圖像。
2) 文本優(yōu)化器利用先前分離的領(lǐng)域特定信息加上原始圖像特征進(jìn)行訓(xùn)練。在這個(gè)階段,由于加入領(lǐng)域特定特征,文本提示可以包含更好的語義信息。
本文遵循Domainbed[9]的設(shè)置進(jìn)行領(lǐng)域泛化實(shí)驗(yàn),并在3個(gè)公開可用的數(shù)據(jù)集上廣泛評估了ERCLIP的性能。
2 "算法介紹
2.1 "問題定義
在領(lǐng)域泛化設(shè)置中,設(shè)[χ]表示輸入空間,[γ]表示輸出空間[6]。一個(gè)領(lǐng)域由來自特定分布的一組數(shù)據(jù)組成。對于每個(gè)數(shù)據(jù)集,[Di={xij,yij}nij=1~PiXY]。其中:[x∈χ],表示來自輸入分布的圖像;[y∈γ],代表[x]的類標(biāo)簽;[PiXY]表示由來自領(lǐng)域[i]的數(shù)據(jù)樣本和相關(guān)標(biāo)簽組成的分布。這些領(lǐng)域中的數(shù)據(jù)分布是不同的:[PiXY≠PjXY,1≤i≠j≤M]。其中,X和Y是來自分布的隨機(jī)變量。
模型的目標(biāo)是學(xué)習(xí)一個(gè)高效的預(yù)測器,能夠預(yù)測來自未知領(lǐng)域的數(shù)據(jù)。具體來說,通過利用來自多個(gè)給定領(lǐng)域[i∈{1,2,…,N}]的[N]個(gè)數(shù)據(jù)集[Si]來學(xué)習(xí)一個(gè)魯棒的模型[f]。
[minf1Ni=1N1nij=1ni?fxi,j,yi,j] (1)
式中[?](·)是損失函數(shù)。在領(lǐng)域泛化中,各種算法采用不同的正則化方法來防止領(lǐng)域之間的過擬合。例如,利用經(jīng)驗(yàn)風(fēng)險(xiǎn)最小化(ERM)最小化公式(1),其目標(biāo)是學(xué)習(xí)最佳的決策函數(shù)[f]。一般來說,源領(lǐng)域是可訪問和已標(biāo)記的,而目標(biāo)領(lǐng)域是不可訪問的。領(lǐng)域泛化的目標(biāo)是利用來自源領(lǐng)域的數(shù)據(jù)提高模型在目標(biāo)領(lǐng)域上的性能。
2.2 "CLIP在DG中的設(shè)置
CLIP的關(guān)鍵思想是預(yù)先訓(xùn)練一個(gè)神經(jīng)網(wǎng)絡(luò),學(xué)習(xí)圖像及其相關(guān)文本描述的聯(lián)合表示。它從文本中獲得監(jiān)督信號,并利用對比學(xué)習(xí)來創(chuàng)建具有強(qiáng)大性能和可擴(kuò)展的預(yù)訓(xùn)練語言?圖像模型。為了從自然語言中獲得感知,它使用超過4億對數(shù)據(jù)訓(xùn)練了一個(gè)大型模型。
具體來說,CLIP模型由圖像編碼器[fI]和文本編碼器[fT]兩部分組成。CLIP通過計(jì)算文本提示[p]和圖像特征之間的余弦相似度來對圖像進(jìn)行分類。通常,文本提示[p]被轉(zhuǎn)換成句子,例如“一張貓的照片”。給定圖像[x]和相關(guān)的[k]個(gè)類別提示[pk],預(yù)測通過[fI]和[fT]計(jì)算:
[yCLIP=argmaxkfI(x),fTpk] (2)
式中:[k]是類別數(shù)量;[?,?]表示余弦相似度。
本節(jié)采用了零樣本和微調(diào)的方法將CLIP應(yīng)用于領(lǐng)域泛化。首先,在零樣本設(shè)置中評估了CLIP的性能。在這個(gè)設(shè)置中,凍結(jié)了CLIP模型的圖像編碼器和文本編碼器,并使用類標(biāo)簽替換了原始的提示模板p。這一步的目的是測試CLIP在不進(jìn)行額外訓(xùn)練的情況下對不同領(lǐng)域的泛化性能。
其次,將CLIP的圖像編碼器[fI]替換為常見的backbone模型,如ViT和ResNet,以便更好地適應(yīng)領(lǐng)域泛化。在這之后,模型可以使用任何適合DG的算法來針對性地進(jìn)行微調(diào),如ERM和DANN。但是微調(diào)這樣一個(gè)龐大的模型需要大量的計(jì)算資源,并且在這個(gè)過程中CLIP原本良好的泛化性能會(huì)受到一定的扭曲,甚至表現(xiàn)得比zero?shot方法更差。zero?shot可以實(shí)現(xiàn)高效的計(jì)算,但犧牲了一定的精度。相比之下,微調(diào)可以提供更好的性能,但需要更多的計(jì)算成本,并且會(huì)導(dǎo)致過程中的特征被扭曲。本文針對這個(gè)問題提出了ERCLIP,以充分利用CLIP強(qiáng)大的泛化能力。ERCLIP算法框架圖如圖2所示。該方法包括兩個(gè)方面:一是提取領(lǐng)域特定特征,并將其融入文本向量;二是動(dòng)態(tài)優(yōu)化文本提示p,以更好地提高DG的性能。
2.3 "提取域特定特征
為了提取域特定特征,使用N個(gè)領(lǐng)域中的[DiN]訓(xùn)練N個(gè)對應(yīng)領(lǐng)域的分類器[Fi],其中[i∈1,2,…,N],[Fi]僅使用來自[DiN]的域特定特征進(jìn)行訓(xùn)練,而不使用域不變特征進(jìn)行更新。換句話說,[Fi]被訓(xùn)練只能識(shí)別來自領(lǐng)域[DiN]的圖像,而不能識(shí)別來自其他領(lǐng)域[DkN]的圖像,[k≠i]。同時(shí),[DkN]的數(shù)據(jù)被用來反向增加域分類器[Fi]的分類難度。換句話說,當(dāng)[Fi]識(shí)別來自其他領(lǐng)域的圖像時(shí),它的表現(xiàn)應(yīng)該類似于隨機(jī)猜測。域分類器[Fi]通過最小化在領(lǐng)域[DiN]上的分類損失[?D]來實(shí)現(xiàn)訓(xùn)練。
[argminθiEDiN~DNExij,yij~DiN?DFixij;θi,yij](3)
式中:[θi]表示域分類器F的參數(shù);損失函數(shù)[?D]為一個(gè)簡單的交叉熵?fù)p失。
然后,域分類器[Fi]在其他領(lǐng)域[DkN]上最大化損失函數(shù)[?M],[i≠k]。
[argmaxθiEDkN~DN,k≠iExij,yij~DiN?MFixkj;θi] (4)
式中,[?M]要以zero?shot的方式進(jìn)行預(yù)測,因此選用在實(shí)驗(yàn)中表現(xiàn)最好的交叉熵?fù)p失。
在整個(gè)域分類器F的訓(xùn)練過程中,CLIP的文本提示保持不變,只有CLIP的圖像編碼器特征被更新。一旦訓(xùn)練完成,[N]個(gè)域分類器[Fi]的參數(shù)將會(huì)被凍結(jié),以便進(jìn)行后續(xù)處理。這個(gè)設(shè)計(jì)確保了CLIP的語義理解和提示的穩(wěn)定性,同時(shí)在域特定信息的分離方面進(jìn)行微調(diào),以實(shí)現(xiàn)更好的領(lǐng)域泛化性能。
2.4 "域提示優(yōu)化
根據(jù)文獻(xiàn)[17]中的討論,優(yōu)化提示可以極大地提高Transformer模型的性能。由于提示向量具有有限的長度和維度,與[fI]的參數(shù)相比,它們要小得多,因此相對容易訓(xùn)練。給定來自源域[DS]的數(shù)據(jù),可以使用交叉熵?fù)p失來優(yōu)化中綴向量[pin]:
[minpinEx,y~DS?yCLIP*,y] (5)
式中,[pin]由從原始特征[po]衍生的嵌入向量和從領(lǐng)域特定特征[ps]衍生的嵌入向量兩部分組成。[po]和[ps]遵循統(tǒng)一的類型:
[p=[v]1[v]2…[v]M1[class name]k] (6)
式中:[[v]M1]表示一個(gè)嵌入向量,其維度與單詞嵌入相同;[M1]是提示標(biāo)記的數(shù)量。[yCLIP*]為:
[yCLIP*=argmaxkfI(x),fTp*k] (7)
式中[p*k]是通過連接[pk]和[pin]獲得的。值得注意的是,[pk]是一個(gè)超參數(shù),并且由[fTCLIP]轉(zhuǎn)換的單詞嵌入的長度是固定的。
綜合來說,本文提出了一個(gè)提示變換器來優(yōu)化[pin]。具體來說,使用一個(gè)全連接網(wǎng)絡(luò)[F?]來從主干網(wǎng)絡(luò)生成提示[pi]:
[pi=1Nj=1NFfIxij] (8)
式中:[N]表示每個(gè)領(lǐng)域的批量大?。籟xij]表示來自第[i]個(gè)領(lǐng)域的輸入圖像。交叉熵?fù)p失被用來優(yōu)化[F](·)。
[minF1Mi=1M1nij=1ni?yi,yij] (9)
[yi=argmaxkfI(x),fTp*k] (10)
式中[p*k]是[pi]和[pk]的組合。
2.5 "總 "結(jié)
為了清晰起見,給出了ERCLIP的算法流程。
輸入:N個(gè)數(shù)據(jù)集[{Di}Ni=1],一個(gè)預(yù)訓(xùn)練的CLIP圖像編碼器[fI]和一個(gè)文本編碼器[fT]。
輸出:N個(gè)域特定分類器和一個(gè)文本優(yōu)化器[F?]。
步驟1:通過公式(3)和公式(4)來訓(xùn)練域特定分類器[Fi];
步驟2:根據(jù)公式(6)和公式(8),使用全連接網(wǎng)絡(luò)[F?]來從文本編碼器[I*]生成提示向量[pin];
步驟3:根據(jù)公式(9)和公式(10)來更新[F?];
步驟4:重復(fù)步驟1~步驟3直至網(wǎng)絡(luò)收斂。
3 "實(shí)驗(yàn)分析
3.1 "數(shù)據(jù)集介紹
Office?Home:該數(shù)據(jù)集包含來自4個(gè)不同領(lǐng)域的圖像,包括藝術(shù)(Art)、剪貼畫(Clipart)、產(chǎn)品(Product)和真實(shí)世界(Real World),共有65個(gè)圖像類別,包含15 588個(gè)樣本。
VLCS:它是另一個(gè)廣泛使用的公共圖像分類基準(zhǔn),包含Caltech10、LabelMe、SUN09和VOC 20 074個(gè)子數(shù)據(jù)集,共有10 729個(gè)樣本,分為5類。
PACS:它包括藝術(shù)繪畫、卡通、照片和素描4個(gè)領(lǐng)域,包含9 991張圖像,涵蓋狗、大象、長頸鹿、吉他、馬、房子和人7個(gè)類別。
3.2 "超參數(shù)及實(shí)驗(yàn)細(xì)節(jié)
在實(shí)驗(yàn)中,使用以ViT?B/16為骨干網(wǎng)絡(luò)的預(yù)訓(xùn)練模型CLIP來提取文本和圖像特征。對于其他算法,如果沒有給出特殊的說明,使用ViT?B/16作為整體實(shí)驗(yàn)的骨干網(wǎng)絡(luò)。
根據(jù)Gulrajani的方法,基于Domainbed框架構(gòu)建了整個(gè)實(shí)驗(yàn)[9]。該框架提供了一種標(biāo)準(zhǔn)化的方法來評估不同領(lǐng)域泛化算法的性能,使得實(shí)驗(yàn)可以在公平的條件下比較它們。對于每個(gè)算法,在測試域中進(jìn)行了20次隨機(jī)實(shí)驗(yàn),以搜索最佳的超參數(shù)分布。實(shí)驗(yàn)將每個(gè)數(shù)據(jù)集分成兩個(gè)子集,其中80%的數(shù)據(jù)用于模型訓(xùn)練和評估,剩余的20%用于搜索最佳的超參數(shù)。對于所有數(shù)據(jù)集,實(shí)驗(yàn)將一個(gè)領(lǐng)域保留用于測試,其余的領(lǐng)域用于訓(xùn)練。然后,使用不同的隨機(jī)種子重復(fù)整個(gè)實(shí)驗(yàn)3次。最終,對3次實(shí)驗(yàn)的結(jié)果進(jìn)行平均,并且報(bào)告了平均準(zhǔn)確率以及相應(yīng)的標(biāo)準(zhǔn)偏差,以全面評估各個(gè)算法的性能表現(xiàn)。
完全連接的網(wǎng)絡(luò)[F](·)由一個(gè)線性層、Dropout層、tanh激活函數(shù)構(gòu)成。此外,使用一個(gè)簡單的三層MLP作為編碼器?解碼器網(wǎng)絡(luò)M的結(jié)構(gòu),以及ViT?B/16作為域分類器[Fi]的骨干網(wǎng)絡(luò)。在模型訓(xùn)練方面,使用標(biāo)準(zhǔn)的交叉熵?fù)p失和帶有動(dòng)量的SGD作為優(yōu)化器。
3.3 "實(shí)驗(yàn)結(jié)果
將ERCLIP在兩個(gè)方向上與現(xiàn)有的幾種經(jīng)典領(lǐng)域泛化算法進(jìn)行了比較。首先,在DG任務(wù)中將ERCLIP算法與各種高性能算法進(jìn)行了廣泛的比較,從而證明了ERCLIP的強(qiáng)大性能。同時(shí),通過生成兩種獨(dú)特類型的文本提示進(jìn)行了總體實(shí)驗(yàn)比較,包括標(biāo)準(zhǔn)提示“一張{類別名稱}的照片”(a photo of a {class name})和“[v1v2…vm[class name]]”風(fēng)格的提示。
表1顯示了每個(gè)任務(wù)在三個(gè)主要的領(lǐng)域泛化基準(zhǔn)上的泛化結(jié)果。表中“○”代表從Domainbed[9]獲取的結(jié)果;“☆”表示從T3A[14]獲取的結(jié)果;“△”表示從MIRO[18]獲取的結(jié)果。
從這些結(jié)果中得到了以下發(fā)現(xiàn)。
1) ERCLIP在平均泛化性能方面表現(xiàn)出色,與現(xiàn)有算法相比,在VLCS數(shù)據(jù)集上準(zhǔn)確率平均提高了約5%,在PACS數(shù)據(jù)集上準(zhǔn)確率平均提高了約9%,在Office?Home數(shù)據(jù)集上準(zhǔn)確率平均提高了約15%。
2) 與最先進(jìn)的方法相比,ERCLIP在除PACS之外的所有基準(zhǔn)測試中也都取得了最好的性能。在VLCS數(shù)據(jù)集上,ERCLIP相對于MIRO+SWAD準(zhǔn)確率提升1.8%,在Office?Home數(shù)據(jù)集上準(zhǔn)確率提升0.1%。
3) 與以CLIP為骨干網(wǎng)絡(luò)的方法相比,ERCLIP也取得了顯著改進(jìn),這說明ERCLIP可以更好地利用先驗(yàn)知識(shí),并且有效地使CLIP適應(yīng)未見過的領(lǐng)域。
在PACS和Office?Home數(shù)據(jù)集中觀察到,對CLIP進(jìn)行ERM微調(diào)會(huì)導(dǎo)出現(xiàn)能下降的現(xiàn)象。這是因?yàn)楫?dāng)預(yù)訓(xùn)練數(shù)據(jù)集非常龐大并且能夠充分覆蓋測試領(lǐng)域的特征時(shí),微調(diào)操作會(huì)過度調(diào)整模型的參數(shù),導(dǎo)致模型在源領(lǐng)域上過度擬合,從而影響了其在目標(biāo)領(lǐng)域上的泛化能力。這種現(xiàn)象表明微調(diào)并不適用于所有情況,特別是在目標(biāo)領(lǐng)域與源領(lǐng)域之間存在巨大差異的情況下。因此,在應(yīng)用微調(diào)時(shí),需要謹(jǐn)慎考慮預(yù)訓(xùn)練數(shù)據(jù)集的覆蓋范圍以及目標(biāo)領(lǐng)域與源領(lǐng)域之間的相似性。
3.4 "消融實(shí)驗(yàn)
消融實(shí)驗(yàn)在Office?Home上進(jìn)行,采用“{class name}”作為CLIP文本提示,同時(shí)也將其作為消融實(shí)驗(yàn)的baseline。加入域特定信息的統(tǒng)一提示提供帶有域提示信息的文本向量,但不優(yōu)化文本,將其作為比較標(biāo)準(zhǔn)之一。如公式(6)所示,文本提示優(yōu)化“[v1v2…vM1[class name]k]”,具有特定領(lǐng)域的上下文。實(shí)驗(yàn)使用了域特定特征提取器和文本提示優(yōu)化器,并觀察了它們對整體性能的影響。通過消融實(shí)驗(yàn)進(jìn)一步驗(yàn)證了ERCLIP框架的有效性。消融實(shí)驗(yàn)如表2所示。結(jié)果顯示,這兩個(gè)組件都對ERCLIP框架的性能提升做出了貢獻(xiàn)。在CLIP中,手動(dòng)提示是一個(gè)強(qiáng)勁的baseline,但ERCLIP仍然在準(zhǔn)確率方面提升了3.5%。
通過比較統(tǒng)一提示和優(yōu)化提示,實(shí)驗(yàn)發(fā)現(xiàn)利用特定領(lǐng)域信息的優(yōu)化提示要強(qiáng)于不考慮特定領(lǐng)域上下文的統(tǒng)一提示。另外,通過將特定領(lǐng)域信息納入統(tǒng)一上下文,并使用文本優(yōu)化器,準(zhǔn)確率提升了1.1%。這些結(jié)果進(jìn)一步驗(yàn)證了特定領(lǐng)域上下文的重要性,有助于模型獲取更深層次的語義信息。
4 "結(jié) "論
本文提出了一種基于大規(guī)模預(yù)訓(xùn)練模型CLIP的強(qiáng)泛化算法ERCLIP。該算法利用一個(gè)域特定特征提取器和文本提示優(yōu)化器替代更新整個(gè)模型,其增強(qiáng)了同一領(lǐng)域的分布差異的適應(yīng)性,同時(shí)充分利用了CLIP的強(qiáng)大性能。實(shí)驗(yàn)按照Domainbed關(guān)于領(lǐng)域泛化的設(shè)置,在三個(gè)公開可用的基準(zhǔn)數(shù)據(jù)集上對ERCLIP進(jìn)行了全面的性能評估。實(shí)驗(yàn)結(jié)果證明,在Office?Home數(shù)據(jù)集上使用ERCLIP相較于baseline具有更好的性能,將準(zhǔn)確率從79.9%提高到了83.4%。此外,ERCLIP與最先進(jìn)的算法進(jìn)行了比較,平均準(zhǔn)確率為87.8%,在Office?Home上的平均準(zhǔn)確率為83.4%,在VLCS上平均準(zhǔn)確率為83.5%,超越現(xiàn)有算法;并在PACS上平均準(zhǔn)確率為96.5%,接近SOTA方法。在所有公開數(shù)據(jù)集的比較中取得了最好的結(jié)果。這些結(jié)果驗(yàn)證了ERCLIP的有效性,并為類似CLIP這樣的大型預(yù)訓(xùn)練模型在未來領(lǐng)域泛化任務(wù)中的應(yīng)用提供了有益見解。
本文的主要貢獻(xiàn)如下。
1) 通過引入提示學(xué)習(xí),整合了一個(gè)文本優(yōu)化器,提升了CLIP在領(lǐng)域泛化上的性能。
2) 提出了一種域特定特征提取器,能夠有效地分離域特定信息。將其融入到文本提示中可以更好地表征圖像的語義信息。
3) 針對圖像分類任務(wù)進(jìn)行了廣泛的實(shí)驗(yàn),涵蓋了公開數(shù)據(jù)集中的交叉數(shù)據(jù)。ERCLIP從文本的角度對CLIP進(jìn)行了改進(jìn),并取得了巨大的性能提升。
注:本文通訊作者為覃榮華。
參考文獻(xiàn)
[1] HE K, ZHANG X, REN S, et al. Deep residual learning for image recognition [C]// Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition. [S.l.]: IEEE, 2016: 770?778.
[2] DOSOVITSKIY A, BEYER L, KOLESNIKOV A, et al. An image is worth 16x16 words: transformers for image recognition at scale [EB/OL]. [2023?07?18]. https://www.xueshufan.com/publication/3119786062.
[3] TORRALBA A, EFROS A A. Unbiased look at dataset bias [C]// CVPR '11: Proceedings of the 2011 IEEE Conference on Computer Vision and Pattern Recognition. Colorado, CO, USA: IEEE, 2011: 1521?1528.
[4] BEN?DAVID S, BLITZER J, CRAMMER K, et al. A theory of learning from different domains [J]. Machine learning, 2010, 79: 151?175.
[5] ZHOU K, LIU Z, QIAO Y, et al. Domain generalization in "vision: a survey [EB/OL]. [2023?08?07]. https://zhuanlan.zhihu.com/p/613062556.
[6] WANG J D, LAN C L, LIU C, et al. Generalizing to unseen domains: a survey on domain generalization [J]. IEEE transactions on knowledge and data engineering, 2023, 35(8): 8052?8072.
[7] HOU F, ZHANG Y, LIU Y, et al. Learning how to learn domain?invariant parameters for domain generalization [C]// 2023 IEEE International Conference on Acoustics, Speech and Signal Processing. [S.l.]: IEEE, 2023: 1?5.
[8] FAN Q, SEGU M, TAI Y W, et al. Normalization perturbation: a simple domain generalization method for real?world domain shifts [EB/OL]. [2023?11?07]. https://arxiv.org/pdf/2211.04393v1.
[9] GULRAJANI I, LOPEZ?PAZ D. In search of lost domain generalization [EB/OL]. [2023?11?08]. https://www.xueshufan.com/publication/3121432811.
[10] SHEN S, LI L H, TAN H, et al. How much can clip benefit vision?and?language tasks? [EB/OL]. [2023?07?09]. http://arxiv.org/abs/2107.06383.
[11] RADFORD A, KIM J W, HALLACY C, et al. Learning transferable visual models from natural language supervision [C]// International conference on machine learning. [S.l.]: PMLR, 2021: 8748?8763.
[12] JIA C, YANG Y, XIA Y, et al. Scaling up visual and vision?language representation learning with noisy text supervision [C]// International conference on machine learning. [S.l.]: "PMLR, 2021: 4904?4916.
[13] LESTER B, AL?RFOU R, CONSTANT N. The power of scale for parameter?efficient prompt tuning [EB/OL]. [2023?06?04]. https://www.xueshufan.com/publication/3212487317.
[14] SHU M, NIE W, HUANG D A, et al. Test?time prompt tuning for zero?shot generalization in vision?language models [J]. Advances in neural information processing systems, 2022, 35: 14274?14289.
[15] GE C, HUANG R, XIE M, et al. Domain adaptation via prompt learning [J]. IEEE transactions on neural networks and learning systems, 2023(2): 1?11.
[16] LU W, HU X, WANG J D, et al. FedCLIP: fast generalization and personalization for CLIP in federated learning [J]. IEEE data engineering bulletin, 2023, 46(1): 52?66.
[17] ZHOU K, YANG J, LOY C C, et al. Learning to prompt for vision?language models [J]. International journal of computer vision, 2022, 130(9): 2337?2348.
[18] CHA J, LEE K, PARK S, et al. Domain generalization by mutual?information regularization with pre?trained models [C]// European Conference on Computer Vision. [S.l.]: Springer, 2022: 440?457.