摘 要:為解決大規(guī)模參數(shù)調(diào)優(yōu)問(wèn)題,一系列高效微調(diào)方法誕生,但是在整合不同高效微調(diào)方法形成有效統(tǒng)一整體方面還存在挑戰(zhàn)。此外,統(tǒng)一調(diào)優(yōu)思想在視覺(jué)任務(wù)中的應(yīng)用仍然不足。因此,提出統(tǒng)一參數(shù)高效微調(diào)架構(gòu)ETTA(efficient Transformer tuning architecture)。首先通過(guò)適配器與前綴調(diào)優(yōu)工作原理的相似性,得出兩種方法整合形成統(tǒng)一調(diào)優(yōu)架構(gòu)的合理性;其次,在適配器選擇上,選用效果更好的并行適配器,同時(shí)對(duì)前綴調(diào)優(yōu)引入可調(diào)標(biāo)量得到縮放前綴調(diào)優(yōu)變體;然后將兩種方法整合形成統(tǒng)一調(diào)優(yōu)架構(gòu)ETTA,把并行適配器作用于Transformer前饋神經(jīng)網(wǎng)絡(luò)層并設(shè)置較大瓶頸維數(shù),縮放前綴調(diào)優(yōu)作用于多頭注意力層并設(shè)置較小可調(diào)前綴向量數(shù);最后將ETTA用于6個(gè)圖像分類或目標(biāo)檢測(cè)任務(wù),并與三種調(diào)優(yōu)策略進(jìn)行性能比較。結(jié)果表明,采用統(tǒng)一參數(shù)高效調(diào)優(yōu)架構(gòu)后,只對(duì)少量參數(shù)進(jìn)行微調(diào)就可以接近參數(shù)完全微調(diào)的效果同時(shí)性能良好。證明了ETTA用于計(jì)算機(jī)視覺(jué)任務(wù)的有效性及其性能表現(xiàn)。
關(guān)鍵詞:高效調(diào)優(yōu);統(tǒng)一架構(gòu);目標(biāo)檢測(cè);圖像分類
中圖分類號(hào):TP399"" 文獻(xiàn)標(biāo)志碼:A""" 文章編號(hào):1001-3695(2025)03-028-0856-07
doi: 10.19734/j.issn.1001-3695.2024.07.0264
Unified efficient fine-tuning framework based on efficient tuning methods and its applications
Chen Shuailiang, Tian Yanshan, Dong Liming, Duan Xiaoying, Li Jiahui
(School of Mathematics amp; Computer Science, Ningxia Normal University, Guyuan Ningxia 756099, China)
Abstract:To address the issue of large-scale parameter tuning, a series of efficient fine-tuning methods have emerged. However, challenges remain in integrating these different methods into a unified and effective framework. Additionally, the application of unified tuning approach to vision tasks is still limited. Therefore, this paper proposed the unified efficient fine-tuning architecture, ETTA. Firstly, by examining the similarities between the working principles of adapters and prefix tuning, the method derived the rationale for integrating these two methods into a unified tuning architecture. Secondly, in the selection of adapters, it opted for parallel adapters due to their superior performance, while introducing scalable prefixes to create a variant of prefix tuning. Then it integrated these two methods to form the unified tuning architecture ETTA, applied parallel adapters to the Transformer feed-forward neural network layers with a large bottleneck dimension, and made scalable prefix tuning to the multi-head attention layers with a smaller number of tunable prefix vectors. Finally, this paper applied ETTA to six image classification or object detection tasks, and compared it in terms of performance with three tuning strategies. The results indicate that using the unified efficient tuning architecture, fine-tuning only a small number of parameters can achieve results close to full parameter fine-tuning while maintaining good performance." It demonstrates the effectiveness and performance of ETTA for computer vision tasks.
Key words:efficient tuning; unified architecture; object detection; image classification
0 引言
為了使大規(guī)模參數(shù)模型在不同下游任務(wù)的參數(shù)調(diào)優(yōu)變得輕量化且高效化,參數(shù)高效微調(diào)思想應(yīng)運(yùn)而生。目前常見(jiàn)的參數(shù)高效微調(diào)方法有適配器[1]、前綴調(diào)優(yōu)[2]和低秩適配器(low-rank adaptation,LoRA)[3]等,通過(guò)凍結(jié)預(yù)訓(xùn)練模型的大部分參數(shù),引入額外參數(shù)或者降低參數(shù)矩陣的維度來(lái)實(shí)現(xiàn)參數(shù)高效微調(diào)。雖然單獨(dú)應(yīng)用這些調(diào)優(yōu)方法時(shí)效果已經(jīng)不錯(cuò),但它們的聯(lián)合使用潛力卻常被忽視。比如將多種調(diào)優(yōu)方法結(jié)合使用可以發(fā)揮不同方法的優(yōu)勢(shì),文獻(xiàn)[4~6]對(duì)其進(jìn)行了研究,結(jié)合不同調(diào)優(yōu)方法的優(yōu)點(diǎn),在下游任務(wù)中提高模型表現(xiàn)的同時(shí)減少了模型存儲(chǔ)和計(jì)算開銷。但是其結(jié)合方式是把不同方法插入模型,使各種調(diào)優(yōu)方法獨(dú)立運(yùn)作,并沒(méi)有從原理的相似性上分析其嵌入位置和超參數(shù)設(shè)置的合理性,缺乏系統(tǒng)思維,難以形成更為高效的統(tǒng)一調(diào)優(yōu)策略。原始前綴調(diào)優(yōu)[2]可以適用于多種語(yǔ)言任務(wù),但是其任務(wù)泛化能力有限,對(duì)于某些任務(wù),前綴的表達(dá)能力不足。為了解決這一問(wèn)題,文獻(xiàn)[2]提出使用可學(xué)習(xí)的連續(xù)表示作為前綴參數(shù),允許模型在訓(xùn)練時(shí)動(dòng)態(tài)調(diào)整前綴的表達(dá)方式使模型能夠更好地適應(yīng)復(fù)雜的任務(wù)。文獻(xiàn)[7]提出分層前綴,對(duì)模型每層輸入不同前綴,增強(qiáng)了模型對(duì)特定任務(wù)的適應(yīng)性,但是都存在訓(xùn)練難度大且顯著增加了計(jì)算開銷和參數(shù)量的問(wèn)題,不利于參數(shù)高效微調(diào)。
常見(jiàn)的計(jì)算機(jī)視覺(jué)任務(wù),如基于Transformer的圖像分類任務(wù)[8]和目標(biāo)檢測(cè)任務(wù)[9]等,它們的共同特征是基于Transformer架構(gòu),因此完全可以運(yùn)用自然語(yǔ)言處理領(lǐng)域的參數(shù)高效微調(diào)方法對(duì)視覺(jué)模型進(jìn)行參數(shù)高效微調(diào)。最近,在計(jì)算機(jī)視覺(jué)領(lǐng)域這些方法逐漸被廣泛使用,如文獻(xiàn)[10,11]提出了一種視覺(jué)適配器結(jié)構(gòu),在密集預(yù)測(cè)下游任務(wù)中,提高了普通ViT(vision Transformer)模型訓(xùn)練時(shí)的收斂速度。文獻(xiàn)[11]將LoRA與ViT結(jié)合,通過(guò)固定 ViT 模型權(quán)重并添加小型低秩插件,僅對(duì)少量參數(shù)進(jìn)行高效微調(diào),模型就能在不同成像模式和各種診斷任務(wù)上獲得具有競(jìng)爭(zhēng)力的結(jié)果。然而文獻(xiàn)[10,11]只是單獨(dú)把適配器或LoRA與ViT整合在一起,尚未提出一種結(jié)合多種參數(shù)高效微調(diào)方法、適用于計(jì)算機(jī)視覺(jué)任務(wù)的統(tǒng)一調(diào)優(yōu)架構(gòu)。因此針對(duì)以上問(wèn)題,本文提出一種應(yīng)用于圖像分類和目標(biāo)檢測(cè)的統(tǒng)一參數(shù)高效微調(diào)架構(gòu)ETTA。
1 相關(guān)工作
從預(yù)訓(xùn)練語(yǔ)言模型(pretrained language model,PLM)遷移學(xué)習(xí)是目前自然語(yǔ)言處理的流行范式[12],在許多任務(wù)表現(xiàn)出強(qiáng)大性能,使PLM適應(yīng)下游任務(wù)最廣泛和最常用的方法是全量參數(shù)微調(diào)[13,14]。但隨著PLM規(guī)模的不斷擴(kuò)大,全量微調(diào)從計(jì)算資源和訓(xùn)練時(shí)間上花費(fèi)的代價(jià)巨大[15]。為了緩解這一問(wèn)題,Houlsby等人[1]提出了串行適配器,適配器的工作原理是通過(guò)插入到預(yù)訓(xùn)練模型來(lái)引入額外參數(shù),在模型訓(xùn)練中對(duì)大部分預(yù)訓(xùn)練模型參數(shù)保持凍結(jié)狀態(tài),只對(duì)適配器額外參數(shù)進(jìn)行微調(diào)達(dá)到高效微調(diào)的目的。但是其表示能力有限,無(wú)法捕捉復(fù)雜任務(wù)中的高階特征。Zhu等人[16]提出了并行適配器,其可以與主模型部分結(jié)構(gòu)并行工作,不必再像串行適配器那樣串行連接。這提高了調(diào)優(yōu)的效率,同時(shí)可以提升模型在復(fù)雜問(wèn)題上的表現(xiàn)。除了適配器外,Li等人[2]提出前綴調(diào)優(yōu)方法,其原理是在嵌入層引入可學(xué)習(xí)前綴向量,前綴向量直接參與每一層的自注意力計(jì)算,從而影響后續(xù)多層注意力機(jī)制的注意力權(quán)重。但其表達(dá)能力有限,不足以捕獲復(fù)雜的任務(wù)特征。因此Li等人[2]和Liu等人[7]分別提出了連續(xù)可學(xué)習(xí)前綴向量和多層級(jí)前綴向量,前者通過(guò)訓(xùn)練動(dòng)態(tài)調(diào)整,使模型能夠更好地適應(yīng)復(fù)雜的任務(wù)。后者通過(guò)對(duì)每層設(shè)置不同的前綴向量增強(qiáng)了模型對(duì)特定任務(wù)的適應(yīng)性。但是兩者都訓(xùn)練難度大且增加了大量額外參數(shù)量。目前對(duì)于參數(shù)高效微調(diào)的研究已經(jīng)從單一調(diào)優(yōu)方法慢慢向多種聯(lián)合調(diào)優(yōu)方法轉(zhuǎn)變。期望通過(guò)結(jié)合多種方法的優(yōu)點(diǎn)來(lái)實(shí)現(xiàn)更強(qiáng)大的參數(shù)高效調(diào)優(yōu)表現(xiàn)。Bafghi等人[4]提出了CPCTR方法將LoRA與適配器結(jié)合,通過(guò)低秩適配模塊來(lái)減少參數(shù)量,同時(shí)保持較高的性能。Chen等人[5]將前綴調(diào)優(yōu)和適配器結(jié)合起來(lái)用于少樣本學(xué)習(xí)。Karimi等人[6]在預(yù)訓(xùn)練大語(yǔ)言模型中結(jié)合前綴調(diào)優(yōu)和適配器方法,通過(guò)這兩種方法的聯(lián)合使用,可以在不同的自然語(yǔ)言處理任務(wù)中提高模型的表現(xiàn),同時(shí)保持較低的計(jì)算開銷。然而,這些方法的結(jié)合方式是將不同的調(diào)優(yōu)方法直接插入模型中,各方法獨(dú)立運(yùn)行,未從原理上的相似性出發(fā),系統(tǒng)分析其嵌入位置及超參數(shù)設(shè)置的合理性。這種做法缺乏整體性思維,難以形成一種更為高效的統(tǒng)一調(diào)優(yōu)策略。He等人[17]探究了并行適配器和前綴調(diào)優(yōu)的統(tǒng)一調(diào)優(yōu)策略,并在自然語(yǔ)言處理任務(wù)上取得了不錯(cuò)的效果,但是其采用的原始前綴調(diào)優(yōu)方法存在表達(dá)能力不足的問(wèn)題,且沒(méi)有給出對(duì)于計(jì)算機(jī)視覺(jué)任務(wù)的調(diào)優(yōu)策略。
2017年提出的Transformer模型[18],在機(jī)器翻譯任務(wù)上依靠自注意力機(jī)制取得了不錯(cuò)的效果。但Transformer模型只是針對(duì)語(yǔ)言處理任務(wù),在計(jì)算機(jī)視覺(jué)任務(wù)上Transformer還未被應(yīng)用。為了讓自注意力機(jī)制用于計(jì)算機(jī)視覺(jué)任務(wù),文獻(xiàn)[19]探究了自注意力機(jī)制在圖像識(shí)別任務(wù)中的應(yīng)用。之后 ViT[20]模型提出,證明了Transformer架構(gòu)不僅可以用于自然語(yǔ)言處理,也可以用于計(jì)算機(jī)視覺(jué)領(lǐng)域。因此使用自然語(yǔ)言處理領(lǐng)域中的參數(shù)高效微調(diào)方法來(lái)對(duì)計(jì)算機(jī)視覺(jué)下游任務(wù)進(jìn)行參數(shù)微調(diào),這一方法逐漸被廣泛使用。如文獻(xiàn)[10,11]分別把適配器和LoRA與ViT結(jié)合,提升了模型訓(xùn)練時(shí)的收斂速度并僅對(duì)少量參數(shù)進(jìn)行高效微調(diào),模型就能在不同成像模式和各種診斷任務(wù)上獲得具有競(jìng)爭(zhēng)力的結(jié)果。然而,目前在視覺(jué)任務(wù)中應(yīng)用高效調(diào)優(yōu)方法的做法,往往只是將多個(gè)高效調(diào)優(yōu)器中的某一個(gè)或幾個(gè)簡(jiǎn)單嵌入模型,缺乏對(duì)這些方法中關(guān)鍵設(shè)計(jì)元素的深入思考。這些共享的設(shè)計(jì)元素對(duì)調(diào)優(yōu)的有效性至關(guān)重要,然而現(xiàn)有方法尚未形成統(tǒng)一的調(diào)優(yōu)配置策略。
因此基于以上相關(guān)研究成果和針對(duì)上述工作問(wèn)題,本文從適配器與前綴調(diào)優(yōu)的工作原理出發(fā),找到其相似性,為統(tǒng)一調(diào)優(yōu)架構(gòu)的提出提供理論支撐。同時(shí)基于前綴調(diào)優(yōu)提出了縮放前綴調(diào)優(yōu)變體,可同時(shí)滿足調(diào)優(yōu)參數(shù)量少和計(jì)算機(jī)視覺(jué)任務(wù)適用性高的要求。最后將適配器和縮放前綴調(diào)優(yōu)組成的統(tǒng)一調(diào)優(yōu)配置策略與Transformer結(jié)合,提出一種應(yīng)用于圖像分類和目標(biāo)檢測(cè)的統(tǒng)一參數(shù)高效微調(diào)架構(gòu)ETTA。
2 統(tǒng)一參數(shù)高效微調(diào)架構(gòu)
2.1 背景知識(shí)框架
自注意力機(jī)制[18]原理是對(duì)一系列輸入的特征向量先通過(guò)查詢、鍵和值矩陣Wq、Wk、Wv,得到各自的查詢、鍵和值向量。通過(guò)查詢向量和鍵向量做點(diǎn)積運(yùn)算確定注意力權(quán)重分?jǐn)?shù),經(jīng)過(guò)歸一化后,再將得到的所有注意力權(quán)重分?jǐn)?shù)分別與對(duì)應(yīng)的值向量相乘相加得到最后的特征向量。注意力機(jī)制的公式為
2.4 統(tǒng)一參數(shù)高效微調(diào)架構(gòu)的搭建與配置
適配器與前綴調(diào)優(yōu)的原理相似性、整合合理性已在2.2節(jié)中詳細(xì)闡述。文獻(xiàn)[16]基于串行適配器提出一種新型并行適配器。相比串行適配器,并行適配器的參數(shù)調(diào)優(yōu)效率更好,調(diào)優(yōu)參數(shù)量更少。因此,本文選用并行適配器和2.3節(jié)提出的縮放前綴調(diào)優(yōu)作為統(tǒng)一參數(shù)高效微調(diào)架構(gòu)的基礎(chǔ)方法。
在統(tǒng)一架構(gòu)的配置方面,縮放前綴調(diào)優(yōu)作用于Transformer模型多頭注意力子層,并行適配器在Transformer模型中可以作用在兩處,即前饋神經(jīng)網(wǎng)絡(luò)層、多頭注意力層。兩者在下游任務(wù)效果和調(diào)優(yōu)參數(shù)量的表現(xiàn)上有所差異。
由于可調(diào)前綴向量數(shù)l和瓶頸維數(shù)b在參數(shù)調(diào)優(yōu)時(shí)會(huì)影響調(diào)優(yōu)參數(shù)量的規(guī)模,所以對(duì)可調(diào)前綴向量數(shù)l和瓶頸維數(shù)b需合理配置,在實(shí)現(xiàn)下游任務(wù)最優(yōu)效果的條件下,使調(diào)優(yōu)參數(shù)量最少??烧{(diào)前綴向量數(shù)l和瓶頸維數(shù)b的分配策略如下:a)高可調(diào)前綴向量數(shù),高瓶頸維數(shù);b)高可調(diào)前綴向量數(shù),低瓶頸維數(shù);c)低可調(diào)前綴向量數(shù),高瓶頸維數(shù);d)低可調(diào)前綴向量數(shù),低瓶頸維數(shù)。四種分配策略在調(diào)優(yōu)參數(shù)量和下游任務(wù)效果方面有明顯差異。
在統(tǒng)一參數(shù)高效微調(diào)架構(gòu)的配置中,關(guān)于并行適配器的作用地點(diǎn)選擇以及可調(diào)前綴向量數(shù)l和瓶頸維數(shù)b的分配策略,He等人[17]進(jìn)行了探究并找到了最佳策略,但其策略只針對(duì)自然語(yǔ)言處理方面的下游任務(wù),對(duì)于計(jì)算機(jī)視覺(jué)下游任務(wù)的配置策略尚不清楚。關(guān)于視覺(jué)下游任務(wù),將在3.3節(jié)通過(guò)實(shí)驗(yàn)找出最優(yōu)配置策略。在此處先行給出結(jié)論,統(tǒng)一參數(shù)高效微調(diào)架構(gòu)的配置策略為并行適配器作用于前饋神經(jīng)網(wǎng)絡(luò)層并設(shè)置高瓶頸維數(shù)b,瓶頸維數(shù)為400左右??s放前綴調(diào)優(yōu)作用于多頭注意力子層并設(shè)置低可調(diào)前綴向量數(shù)l,可調(diào)前綴向量數(shù)為50左右。由于前饋神經(jīng)網(wǎng)絡(luò)具有全局性特征,更能有效支持較大的參數(shù)量,所以對(duì)于作用于前饋神經(jīng)網(wǎng)絡(luò)層的并行適配器,應(yīng)設(shè)置較高的瓶頸維度以分配更多的調(diào)優(yōu)參數(shù)量。多頭注意力子層具有局部性特征,所以應(yīng)設(shè)置較低的可調(diào)前綴向量數(shù)。將整體調(diào)優(yōu)參數(shù)預(yù)算令為U,則參數(shù)預(yù)算的分配方式為
U=max(U并行適配器)+min(U縮放前綴調(diào)優(yōu))
(9)
基于并行適配器、縮放前綴調(diào)優(yōu)和以上搭建配置策略,本文提出統(tǒng)一參數(shù)高效調(diào)優(yōu)架構(gòu)ETTA,如圖3所示。
2.5 統(tǒng)一參數(shù)高效調(diào)優(yōu)架構(gòu)應(yīng)用于計(jì)算機(jī)視覺(jué)
在本節(jié)中,ETTA用于圖像分類和目標(biāo)檢測(cè)模型,使其僅需訓(xùn)練少量參數(shù)便能達(dá)到完全參數(shù)微調(diào)的效果。
a)ET-ViT:把ETTA用于ViT,如圖4(a)所示,對(duì)ViT模型進(jìn)行改造,讓并行適配器作用于Transformer encoder前饋神經(jīng)網(wǎng)絡(luò)后,瓶頸維度b=400,縮放前綴調(diào)優(yōu)作用于多頭注意力子層K、V鍵值處,可調(diào)前綴向量數(shù)量l=50。
b)ET-DETR:把ETTA用于DETR[21]進(jìn)行模型改造,如圖4(b)所示,使DETR參數(shù)調(diào)優(yōu)變得高效,同時(shí)其訓(xùn)練時(shí)長(zhǎng)大幅減少,更便于計(jì)算資源有限的情況下對(duì)DETR進(jìn)行下游任務(wù)訓(xùn)練。
c)ET-Deformable DETR:Deformable DETR是在DETR的基礎(chǔ)上采用可變形卷積得到的模型[22],因此可以使用和DETR一樣的ETTA架構(gòu),如圖4(b)所示。
以上三個(gè)模型涵蓋了圖像分類和目標(biāo)檢測(cè)任務(wù),本文對(duì)其模型進(jìn)行改造,將ETTA架構(gòu)嵌入到原模型中,使其對(duì)下游任務(wù)參數(shù)微調(diào)時(shí),只用微調(diào)少量參數(shù)就可以達(dá)到很好的效果。具體效果將在3.4節(jié)中通過(guò)實(shí)驗(yàn)證明。
3 實(shí)驗(yàn)結(jié)果與分析
3.1 總體設(shè)置
a)數(shù)據(jù)集。本文針對(duì)不同下游任務(wù)選擇了相應(yīng)數(shù)據(jù)集,對(duì)于圖像分類任務(wù),實(shí)驗(yàn)選用了CIFAR100[23]和ImageNet-1k[24]數(shù)據(jù)集,CIFAR100數(shù)據(jù)集有100個(gè)類,每個(gè)類有600張大小為32 × 32的彩色圖像,其中500張作為訓(xùn)練集,100張作為測(cè)試集。ImageNet-1k是 ISLVRC2012的數(shù)據(jù)集,訓(xùn)練集大約是1 281 167張圖片加標(biāo)簽,驗(yàn)證集是50 000張圖片加標(biāo)簽,最終打分的測(cè)試集是100 000張圖片,一共1 000個(gè)類別。對(duì)于目標(biāo)檢測(cè)任務(wù),實(shí)驗(yàn)選用COCO2017[25]數(shù)據(jù)集,COCO2017數(shù)據(jù)集包括訓(xùn)練集、驗(yàn)證集和測(cè)試集,其中訓(xùn)練集包含118 287張圖片,驗(yàn)證集包含5 000張圖片,測(cè)試集包含40 670張圖片,圖像標(biāo)注信息存儲(chǔ)在JSON文件中,主要包括圖像的標(biāo)注數(shù)據(jù),如邊界框、關(guān)鍵點(diǎn)等信息。同時(shí)選用了亞馬遜的BigDetection數(shù)據(jù)集[26],其包含600個(gè)對(duì)象類別,擁有340萬(wàn)張訓(xùn)練圖像和3 600個(gè)對(duì)象注釋。
b)實(shí)驗(yàn)配置。操作系統(tǒng)版本為Windows 11,CPU型號(hào)為Inter Core i7-12700,GPU型號(hào)為RTX3080 12 GB顯存,實(shí)驗(yàn)環(huán)境為Anaconda,Python解釋器版本為3.11.9,PyTorch版本為2.3.0,CUDA版本為11.8。并行適配器瓶頸超參數(shù)設(shè)置為512,前綴向量數(shù)量超參數(shù)設(shè)置為30,參數(shù)高效微調(diào)訓(xùn)練迭代次數(shù)統(tǒng)一為50輪,學(xué)習(xí)率為0.000 1,batch_size設(shè)置為16。
c)ETTA有效性驗(yàn)證。
(a)相關(guān)設(shè)置:使用ViT-L/16預(yù)訓(xùn)練模型,對(duì)CIFAR100和ImageNet-1k數(shù)據(jù)集,分別采用完全參數(shù)調(diào)優(yōu)和ETTA調(diào)優(yōu)進(jìn)行參數(shù)微調(diào)。使用DETR-R101和Deformable DETR預(yù)訓(xùn)練模型,對(duì)COCO2017和BigDetection數(shù)據(jù)集分別采用完全參數(shù)調(diào)優(yōu)和ETTA調(diào)優(yōu)進(jìn)行參數(shù)微調(diào)。
(b)評(píng)價(jià)指標(biāo):在圖像分類任務(wù)中,ViT-L/16的評(píng)價(jià)指標(biāo)是比較完全參數(shù)調(diào)優(yōu)與ETTA調(diào)優(yōu)的分類準(zhǔn)確率和調(diào)優(yōu)參數(shù)量。在目標(biāo)檢測(cè)任務(wù)中,DETR-R101和Deformable DETR的評(píng)價(jià)指標(biāo)是比較完全參數(shù)調(diào)優(yōu)與ETTA調(diào)優(yōu)的AP50(average precision)和調(diào)優(yōu)參數(shù)量。
d)ETTA性能驗(yàn)證。
(a)相關(guān)設(shè)置:將適配器、LoRA-適配器、前綴調(diào)優(yōu)和ETTA統(tǒng)一調(diào)優(yōu)架構(gòu)分別用于ViT預(yù)訓(xùn)練模型,在CIFAR100上進(jìn)行圖像分類下游任務(wù)。再將上述調(diào)優(yōu)策略分別用于DETR預(yù)訓(xùn)練模型在COCO2017上進(jìn)行目標(biāo)識(shí)別下游任務(wù)。
(b)評(píng)價(jià)指標(biāo):對(duì)于圖像分類任務(wù)比較,四種調(diào)優(yōu)策略在準(zhǔn)確率最高情況下的參數(shù)量、分類準(zhǔn)確率、占用顯存大小和預(yù)訓(xùn)練模型微調(diào)耗時(shí)。對(duì)于目標(biāo)檢測(cè)任務(wù),比較在平均精度最高情況下的參數(shù)量、平均精度AP、占用顯存大小和預(yù)訓(xùn)練模型微調(diào)耗時(shí)。
3.2 縮放前綴調(diào)優(yōu)變體驗(yàn)證
基于預(yù)訓(xùn)練模型ViT-L/16在CIFAR100上的圖像分類任務(wù),驗(yàn)證本文提出的縮放前綴調(diào)優(yōu)變體。實(shí)驗(yàn)結(jié)果如圖5和表1所示。
由實(shí)驗(yàn)可得,縮放前綴調(diào)優(yōu)變體通過(guò)微調(diào)總參數(shù)量的1.1%,圖像分類準(zhǔn)確率就高達(dá)83.2%,而前綴調(diào)優(yōu)則需微調(diào)2%以上的參數(shù)量才能達(dá)到同樣的準(zhǔn)確率。當(dāng)縮放前綴調(diào)優(yōu)微調(diào)7%參數(shù)量時(shí),準(zhǔn)確率可高達(dá)94.8%,而前綴調(diào)優(yōu)則需微調(diào)10%以上的參數(shù)量才能達(dá)到相同效果。實(shí)驗(yàn)結(jié)果表明,本文提出的縮放前綴調(diào)優(yōu)變體相比前綴調(diào)優(yōu),在相同效果下所調(diào)參數(shù)量更少,調(diào)優(yōu)效率更高。
3.3 統(tǒng)一參數(shù)高效微調(diào)架構(gòu)最優(yōu)配置策略
本文基于預(yù)訓(xùn)練模型ViT-L/16和ImageNet-1k數(shù)據(jù)集,對(duì)以下四種策略進(jìn)行實(shí)驗(yàn),探究四種策略在調(diào)優(yōu)參數(shù)量和圖像分類準(zhǔn)確率的不同:
a)并行適配器作用于前饋神經(jīng)網(wǎng)絡(luò)層且瓶頸維數(shù)b為400,縮放前綴調(diào)優(yōu)作用于多頭注意力層且可調(diào)前綴向量數(shù)l為50,由圖6紅色圓點(diǎn)表示(參見(jiàn)電子版)。
b)并行適配器作用于前饋神經(jīng)網(wǎng)絡(luò)層且瓶頸維數(shù)b為400,前綴調(diào)優(yōu)作用于多頭注意力層且可調(diào)前綴向量數(shù)l為50,由圖6綠色正方形表示。
c)并行適配器作用于多頭注意力層且瓶頸維數(shù)b為400,前綴調(diào)優(yōu)作用于多頭注意力層且可調(diào)前綴向量數(shù)l為50,由圖6藍(lán)色三角形表示。
d)并行適配器作用于前饋神經(jīng)網(wǎng)絡(luò)層且瓶頸維數(shù)b為50,前綴調(diào)優(yōu)作用于多頭注意力層且可調(diào)前綴向量數(shù)l為400,由圖6黃色三角形表示。
通過(guò)圖6中綠色正方形和藍(lán)色三角形對(duì)比,得出在瓶頸維數(shù)b和可調(diào)前綴向量數(shù)l相同的條件下,并行適配器作用于前饋神經(jīng)網(wǎng)絡(luò)層的準(zhǔn)確率遠(yuǎn)大于多頭注意力層。結(jié)果表明并行適配器更適合插入前饋神經(jīng)網(wǎng)絡(luò)層后。通過(guò)綠色正方形和黃色三角形對(duì)比,可以發(fā)現(xiàn)在前綴調(diào)優(yōu)作用于多頭注意力層和并行適配器作用于前饋神經(jīng)網(wǎng)絡(luò)層的情況下,設(shè)置較大瓶頸維數(shù)b和較小可調(diào)前綴向量數(shù)l的準(zhǔn)確率更高。
以上實(shí)驗(yàn)結(jié)果證明,將并行適配器插入前饋神經(jīng)網(wǎng)絡(luò)層之后,設(shè)置較大瓶頸維數(shù)b,同時(shí)把前綴調(diào)優(yōu)設(shè)置較小可調(diào)前綴向量,這種配置策略可以最大限度地接近全參數(shù)調(diào)優(yōu)的效果。但在調(diào)優(yōu)參數(shù)量部分還可進(jìn)一步優(yōu)化。為了進(jìn)一步將調(diào)優(yōu)參數(shù)量減小,本文將2.3節(jié)提出的縮放前綴調(diào)優(yōu)替換前綴調(diào)優(yōu),同時(shí)結(jié)合以上實(shí)驗(yàn)證明的參數(shù)高效微調(diào)配置策略,提出ETTA。從圖6實(shí)驗(yàn)結(jié)果表明,采用ETTA統(tǒng)一參數(shù)高效微調(diào)架構(gòu)后,模型在圖像分類的準(zhǔn)確率為87.5%,且調(diào)優(yōu)參數(shù)量?jī)H為全調(diào)優(yōu)參數(shù)量的4.2%,比使用前綴調(diào)優(yōu)的配置策略高出1.6百分點(diǎn)。在保障高準(zhǔn)確率情況下,降低了調(diào)優(yōu)參數(shù)量。
3.4 ETTA架構(gòu)應(yīng)用于計(jì)算機(jī)視覺(jué)任務(wù)
本節(jié)將ETTA應(yīng)用于ViT、DETR-R101和Deformable DETR預(yù)訓(xùn)練模型,在圖像分類和目標(biāo)檢測(cè)等下游任務(wù)與全參數(shù)調(diào)優(yōu)進(jìn)行準(zhǔn)確率和調(diào)參量的比較。
a)實(shí)驗(yàn)1。ViT-L/16全參數(shù)調(diào)優(yōu)模型和ET-ViT-L/16統(tǒng)一參數(shù)高效微調(diào)模型在CIFAR100和ImageNet-1k數(shù)據(jù)集進(jìn)行圖像分類任務(wù),比較兩種模型的調(diào)優(yōu)參數(shù)量和分類準(zhǔn)確率,結(jié)果如圖7所示。在CIFAR100中,如圖7(a)所示,全參數(shù)調(diào)優(yōu)準(zhǔn)確率為84.4%,但采用了ETTA架構(gòu)的ET-ViT模型在調(diào)優(yōu)參數(shù)量?jī)H為全部參數(shù)量1%的情況下,準(zhǔn)確率便可達(dá)到73.3%。在調(diào)優(yōu)參數(shù)量為全部參數(shù)量5.6%時(shí),準(zhǔn)確率超過(guò)全參數(shù)調(diào)優(yōu)準(zhǔn)確率,為84.5%。在ImageNet-1k上也具有同樣結(jié)果,如圖7(b)所示,雖然沒(méi)有超過(guò)全參數(shù)調(diào)優(yōu)87.76%的準(zhǔn)確率,但所調(diào)參數(shù)量相比全參數(shù)調(diào)優(yōu)大幅減少,僅為4%,且準(zhǔn)確率為87.5%,非常接近全參數(shù)調(diào)優(yōu)的準(zhǔn)確率。
b)實(shí)驗(yàn)2。DETR全參數(shù)調(diào)優(yōu)模型和ET-DETR統(tǒng)一參數(shù)高效微調(diào)模型在COCO2017和BigDetection進(jìn)行目標(biāo)檢測(cè)任務(wù),比較兩種模型的平均精度和調(diào)優(yōu)參數(shù)量,結(jié)果如圖8所示。在COCO2017上,如圖8(a)所示,DETR全參數(shù)調(diào)優(yōu)的平均精度為43.5%,使用ETTA高效微調(diào)架構(gòu)后,在所調(diào)參數(shù)量?jī)H為全參數(shù)量6.2%的情況下,平均精度高達(dá)42.9%。在BigDetection上,如圖8(b)所示,DETR全參數(shù)調(diào)優(yōu)的平均精度為31.3%,采用統(tǒng)一架構(gòu)后,僅對(duì)6.7%的參數(shù)進(jìn)行調(diào)優(yōu),平均精度就可高達(dá)31.5%,超過(guò)全參數(shù)調(diào)優(yōu)。
c)實(shí)驗(yàn)3。Deformable-DETR全參數(shù)調(diào)優(yōu)模型和ET-Deformable DETR統(tǒng)一參數(shù)高效微調(diào)模型,在COCO2017和BigDetection數(shù)據(jù)集進(jìn)行目標(biāo)檢測(cè)任務(wù),比較兩種模型的平均精度和調(diào)優(yōu)參數(shù)量,結(jié)果如圖9所示。在COCO2017上,如圖9(a)所示,Deformable-DETR全參數(shù)調(diào)優(yōu)的平均精度為43.8%,ET-Deformable DETR高效微調(diào)的平均精度為43.5%,雖然平均精度不及全參數(shù)調(diào)優(yōu),但其所調(diào)參數(shù)量?jī)H為全參數(shù)量的5.8%,大幅降低參數(shù)開銷。在BigDetection上,如圖9(b)所示,Deformable DETR全參數(shù)調(diào)優(yōu)的平均精度為35.4%,通過(guò)統(tǒng)一架構(gòu)高效微調(diào)后平均精度為35.8%,超過(guò)完全微調(diào)平均精度0.4百分點(diǎn),并且所調(diào)參數(shù)僅為全參數(shù)量的4.7%。
實(shí)驗(yàn)數(shù)據(jù)如表2所示。由表2可以得出:使用ETTA統(tǒng)一架構(gòu)的預(yù)訓(xùn)練模型,僅對(duì)少量參數(shù)進(jìn)行微調(diào)就能達(dá)到接近甚至超越完全參數(shù)微調(diào)的效果。通過(guò)參數(shù)高效微調(diào),不僅可以節(jié)約計(jì)算資源提高調(diào)優(yōu)效率,而且針對(duì)不同下游任務(wù)模型效果也非常不錯(cuò),同時(shí)ETTA架構(gòu)具有非常好的可移植性,可用于不同Transformer預(yù)訓(xùn)練模型。
3.5 ETTA架構(gòu)性能對(duì)比
為了驗(yàn)證ETTA統(tǒng)一調(diào)優(yōu)架構(gòu)的性能,本節(jié)將ETTA與其他三種先進(jìn)高效調(diào)優(yōu)方法進(jìn)行對(duì)比。將它們分別用于預(yù)訓(xùn)練模型ViT-L/16和DETR-R101中,在CIFAR100和COCO2017中進(jìn)行圖像分類和目標(biāo)檢測(cè)下游任務(wù),最后比較其參數(shù)量、準(zhǔn)確率/平均精度AP、占用顯存大小和預(yù)訓(xùn)練模型微調(diào)耗時(shí)。
a)實(shí)驗(yàn)1。四種參數(shù)調(diào)優(yōu)方法用于ViT-L/16預(yù)訓(xùn)練模型,在CIFAR100中進(jìn)行分類下游任務(wù),實(shí)驗(yàn)結(jié)果如圖10所示??梢园l(fā)現(xiàn),ETTA在參數(shù)量為5.6%時(shí),下游任務(wù)準(zhǔn)確率達(dá)到最高84.5%,適配器調(diào)優(yōu)在參數(shù)量為5.2%時(shí)準(zhǔn)確率最高為77.4%,LoRA與適配器聯(lián)合調(diào)優(yōu)在參數(shù)量為6.1%時(shí)準(zhǔn)確率最高為81.3%,前綴調(diào)優(yōu)在參數(shù)量為4.7%時(shí)準(zhǔn)確率最高為75.4%。圖10(b)(c)展示了四種調(diào)優(yōu)方法在最高準(zhǔn)確率下的顯存占用情況和微調(diào)耗時(shí),結(jié)果表明,ETTA因?yàn)檎{(diào)優(yōu)參數(shù)量更多的緣故,雖然比前綴調(diào)優(yōu)和適配器調(diào)優(yōu)的顯存占用多,但是調(diào)優(yōu)效率高,在微調(diào)耗時(shí)上大幅減小,僅在多了0.8 GB的情況下耗時(shí)最少,分類準(zhǔn)確率最高。
b)實(shí)驗(yàn)2。四種參數(shù)調(diào)優(yōu)方法用于DETR-R101預(yù)訓(xùn)練模型,在COCO2017中進(jìn)行檢測(cè)下游任務(wù)。其參數(shù)量、平均精度AP值、占用顯存大小和預(yù)訓(xùn)練模型微調(diào)耗時(shí)實(shí)驗(yàn)結(jié)果如圖11所示。從圖11(a)可以發(fā)現(xiàn),ETTA在參數(shù)量為6.2%時(shí),下游任務(wù)平均精度達(dá)到最高為42.9,適配器調(diào)優(yōu)在參數(shù)量為6.1%時(shí)平均精度最高為36.7,LoRA與適配器聯(lián)合調(diào)優(yōu)在參數(shù)量為7.4%時(shí)平均精度最高為39.8,前綴調(diào)優(yōu)在參數(shù)量為5.5%時(shí)準(zhǔn)確率最高為31.4。同時(shí)結(jié)合圖11(b)和圖11(c)可以看出,ETTA因?yàn)檎{(diào)優(yōu)參數(shù)量更多的緣故,所以顯存占用只稍多一點(diǎn),但其在調(diào)優(yōu)效率和下游任務(wù)平均精度上是最好的。
四種方法的實(shí)驗(yàn)數(shù)據(jù)如表3所示。表3數(shù)據(jù)是每種方法在準(zhǔn)確率或平均精度最高時(shí)的調(diào)優(yōu)參數(shù)大小、顯存占用大小和微調(diào)耗時(shí)。從數(shù)據(jù)可以看見(jiàn),在保證下游任務(wù)準(zhǔn)確率和平均精度最高的前提下,ETTA的調(diào)優(yōu)參數(shù)量最少,同時(shí)ETTA的調(diào)優(yōu)效率最高,充分證明了ETTA統(tǒng)一調(diào)優(yōu)架構(gòu)的性能。
4 結(jié)束語(yǔ)
本文提出統(tǒng)一參數(shù)高效微調(diào)架構(gòu)ETTA。通過(guò)將并行適配器與縮放前綴調(diào)優(yōu)整合,同時(shí)給出最優(yōu)搭建與配置策略,使該高效微調(diào)架構(gòu)在計(jì)算機(jī)視覺(jué)的圖像分類和目標(biāo)檢測(cè)任務(wù)中,通過(guò)較少的參數(shù)調(diào)優(yōu),獲得與全參數(shù)調(diào)優(yōu)相近甚至更優(yōu)的效果。適配器與前綴調(diào)優(yōu)工作原理的相似性為兩者整合和使用統(tǒng)一參數(shù)預(yù)算提供了理論基礎(chǔ)。并行適配器作用于前饋神經(jīng)網(wǎng)絡(luò),設(shè)置較高瓶頸維數(shù)和較低可調(diào)前綴向量數(shù)等搭建配置策略,使ETTA架構(gòu)表現(xiàn)出最佳性能。縮放前綴調(diào)優(yōu)變體的提出使ETTA架構(gòu)的調(diào)優(yōu)參數(shù)量進(jìn)一步減小。最后通過(guò)實(shí)驗(yàn)驗(yàn)證了縮放調(diào)優(yōu)變體和ETTA架構(gòu)的有效性和性能。但是當(dāng)前ETTA架構(gòu)僅在有限預(yù)訓(xùn)練模型上進(jìn)行了實(shí)驗(yàn),在圖像分類和目標(biāo)檢測(cè)任務(wù)上還存在大量基于Transformer的模型,在未來(lái)工作中將進(jìn)一步研究分析,使高效微調(diào)架構(gòu)適用于更多模型。
參考文獻(xiàn):
[1]Houlsby N, Giurgiu A, Jastrzebski S, et al. Parameter-efficient transfer learning for NLP [C]//Proc of International Conference on Machine Learning. [S.l.]:PMLR, 2019: 2790-2799.
[2]Li X L, Liang P. Prefix-tuning: optimizing continuous prompts for generation [C]//Proc of the 59th Annual Meeting of the Association for Computational Linguistics and the 11th International Joint Confe-rence on Natural Language Processing. Stroudsburg, PA: Association for Computational Linguistics, 2021: 4582-4597.
[3]Hu E J, Shen Yelong, Wallis P, et al. LoRA: low-rank adaptation of large language models [EB/OL]. (2021-10-16). https://arxiv.org/abs/2106.09685.
[4]Bafghi R A, Harilal N, Monteleoni C,et al. Parameter efficient fine-tuning of self-supervised ViTs without catastrophic forgetting [C]//Proc of IEEE/CVF Conference on Computer Vision and Pattern Recog-nition Workshops. Piscataway, NJ: IEEE Press, 2024: 3679-3684.
[5]Chen Yifan, Hazarika D, Namazifar M,et al. Inducer-tuning: connecting prefix-tuning and adapter-tuning [C]//Proc of Conference on Empirical Methods in Natural Language Processing. Stroudsburg, PA: Association for Computational Linguistics, 2022: 793-808.
[6]Karimi Mahabadi R, Henderson J, Ruder S. Compacter: efficient low-rank hypercomplex adapter layers [J]. Advances in Neural Information Processing Systems, 2021, 34: 1022-1035.
[7]Liu Xiao, Ji Kaixuan, Fu Yicheng,et al. P-tuning: prompt tuning can be comparable to fine-tuning across scales and tasks [C]//Proc of the 60th Annual Meeting of the Association for Computational Linguistics. Stroudsburg, PA: Association for Computational Linguistics, 2022: 61-68.
[8]胡杰, 昌敏杰, 熊宗權(quán), 等. 基于Transformer的圖像分類網(wǎng)絡(luò)MultiFormer [J]. 計(jì)算機(jī)應(yīng)用研究, 2022, 39(10): 3191-3195. (Hu Jie, Chang Minjie, Xiong Zongquan, et al. MultiFormer: image classification network based on Transformer [J]. Application Research of Computers, 2022, 39(10): 3191-3195.)
[9]楊世偉, 王永雄, 蘭博天. 多尺度Transformer與層次化邊界引導(dǎo)的顯著性目標(biāo)檢測(cè) [J]. 計(jì)算機(jī)應(yīng)用研究, 2022, 39(12): 3820-3824, 3836. (Yang Shiwei, Wang Yongxiong, Lan Botian. Hierarchical boundary guided multi-scale Transformer for salient object detection [J]. Application Research of Computers, 2022, 39(12): 3820-3824, 3836.)
[10]Chen Zhe, Duan Yuchen, Wang Wenhai, et al. Vision Transformer adapter for dense predictions [EB/OL]. (2023-02-13). https://arxiv.org/abs/2205.08534.
[11]Zhu Yitao, Shen Zhenrong, Zhao Zihao,et al. MeLo: low-rank adaptation is better than fine-tuning for medical image diagnosis [C]// Proc of IEEE International Symposium on Biomedical Imaging. Pisca-taway, NJ: IEEE Press, 2024: 1-5.
[12]Devlin J, Chang Mingwei, Lee K, et al. BERT: pre-training of deep bidirectional Transformers for language understanding [C]// Proc of North American Chapter of the Association for Computational Linguistics. Stroudsburg, PA: Association for Computational Linguistics, 2019:4171-4186.
[13]Peters M, Neumann M, Iyyer M, et al. Deep contextualized word representations [C]//Proc of Conference of North American Chapter of the Association for Computational Linguistics: Human LanguageTechnologies. Stroudsburg, PA: Association for Computational Linguistics, 2018: 1833-1848.
[14]Qiu Xipeng, Sun Tianxiang, Xu Yige,et al. Pre-trained models for natural language processing: a survey [J]. Science China Technological Sciences, 2020, 63(10): 1872-1897.
[15]Brown T, Mann B, Ryder N, et al. Language models are few-shot learners [J]. Advances in Neural Information Processing Systems, 2020, 33: 1877-1901.
[16]Zhu Yaoming, Feng Jiangtao, Zhao Chengqi,et al. Counter-interfe-rence adapter for multilingual machine translation [C]//Proc of Fin-dings of the Association for Computational Linguistics. Stroudsburg, PA: Association for Computational Linguistics, 2021: 2812-2823.
[17]He Junxian, Zhou Chunting, Ma Xuezhe, et al. Towards a unified view of parameter-efficient transfer learning" [EB/OL]. (2022-02-02). https://arxiv.org/abs/2110.04366.
[18]Vaswani A, Shazeer N, Parmar N, et al. Attention is all you need [C]//Proc of the 31st International Conference on Neural Information Processing Systems. Red Hook, NY:Curran Associates Inc.,2017: 6000-6010.
[19]Zhao Hengshuang, Jia Jiaya, Koltun V. Exploring self-attention for image recognition [C]// Proc of IEEE/CVF Conference on Computer Vision and Pattern Recognition. Piscataway, NJ: IEEE Press, 2020: 10073-10082.
[20]Dosovitskiy A, Beyer L, Kolesnikov A, et al. An image is worth 16×16 words: Transformers for image recognition at scale [EB/OL]. (2021-06-03). https://arxiv.org/abs/2010.11929.
[21]Carion N, Massa F, Synnaeve G,et al. End-to-end object detection with Transformers [C]// Proc of International Conference on Compu-ter Vision. Cham: Springer International Publishing, 2020: 213-229.
[22]Zhu Xizhou, Su Weijie, Lu Lewei,et al. Deformable DETR: defor-mable Transformers for end-to-end object detection [C]//Proc of International Conference on Learning Representations. 2021.
[23]Krizhevsky A. Learning multiple layers of features from tiny images [EB/OL]. (2009).https://api.semanticscholar.org/CorpusID:18268744.
[24]Deng Jia, Dong Wei, Socher R,et al. ImageNet: a large-scale hierarchical image database [C]//Proc of IEEE Conference on Computer Vision and Pattern Recognition. Piscataway, NJ: IEEE Press, 2009: 248-255.
[25]Lin T Y, Maire M, Belongie S,et al. Microsoft COCO: common objects in context [C]// Proc of International Conference on Computer Vision. Cham: Springer International Publishing, 2014: 740-755.
[26]Cai Likun, Zhang Zhi, Zhu Yi,et al. BigDetection: a large-scale benchmark for improved object detector pre-training [C]//Proc of IEEE/CVF Conference on Computer Vision and Pattern Recognition Workshops. Piscataway, NJ: IEEE Press, 2022: 4776-4786.