關(guān)鍵詞:圖像指代分割;訓(xùn)練后量化;跨模態(tài)融合;深度學(xué)習(xí)
中圖分類號(hào):TP391.41;TP183 文獻(xiàn)標(biāo)志碼:A 文章編號(hào):1001-3695(2025)07-014-2025-07
doi:10.19734/j. issn.1001-3695.2024.10.0437
Abstract:RISaims tosegmentobjectsdescribedbysentencesinanimagebyintegratingvisualandlinguisticinformation. This technique has strong appication prospects ininteractiveimage editingandlanguage-guided human-machine interaction. However,existing solutions tendtoexplore high-performance models,neglecting practicalapplicationsonedgedeviceswith limited esources.ThepaperproposedaneficientPQframework toaddressthischallenge.Specifically,theanalysisdentifiedtherotcauseofperformancecollpsecausedbyusingtheround-to-nearest(RTN)quantization method.Thentheframework proposedatwo-regionbalancedquantizationstrategytosolvethenon-normaldistributionofactivationvaluesaftersoftmax and GELUoperations inthevisual encoder,andintroducedareordered groupingquantization strategytotacklethequantizationproblemscausedbyoutliersinthelinearlayersactivationof the textencoder.Extensiveexperimentsexploringdierent quantization bitwidthsonthreebenchmark datasetsdemonstratetheclearadvantages ofthe proposed methodover existing PTQ methods.AsthefirstquantizationschemespecificallfortheRIStask,itconfirmsthefeasibilityofeficientlydeployingthe RIS model to edge devices using the PTQ method.
Key words: referring image segmentation(RIS); post-training quantization(PTQ);cross-model fusion; deep learning
0引言
深度學(xué)習(xí)極大程度提高了視覺算法在許多圖像分割任務(wù)上的性能,如語(yǔ)義分割[1]實(shí)例分割[2]等。這些任務(wù)需要將圖像像素分組在一組固定的預(yù)定義類別下,主要是分組語(yǔ)義的粒度不同。區(qū)別于這些單模態(tài)的分割任務(wù),圖像指代分割3是一項(xiàng)具有挑戰(zhàn)性的多模態(tài)任務(wù):給定圖像和目標(biāo)對(duì)象的描述語(yǔ)句,輸出所指代對(duì)象的分割掩碼。該任務(wù)需要算法同時(shí)理解細(xì)粒度的自然語(yǔ)言表達(dá),并與指代對(duì)象進(jìn)行正確的像素級(jí)別對(duì)應(yīng),在語(yǔ)言引導(dǎo)的人機(jī)交互[4]和高級(jí)駕駛系統(tǒng)[5]等領(lǐng)域具有巨大的發(fā)展?jié)摿Α?/p>
然而為了提升性能,現(xiàn)有的RIS任務(wù)模型采用了復(fù)雜的多模態(tài)融合機(jī)制以及多尺度圖像信息,使得模型規(guī)模龐大,參數(shù)計(jì)算也相對(duì)復(fù)雜。例如,VLT模型參數(shù)量約為452M,F(xiàn)LOPs為142.6G,使用高性能的NVIDIAA100GPU集群推理時(shí)間大約為 42ms ,這就需要高顯存的硬件來(lái)存儲(chǔ)和處理這些數(shù)據(jù)。而在實(shí)際應(yīng)用,尤其是在需要實(shí)時(shí)響應(yīng)的場(chǎng)景中,長(zhǎng)時(shí)間的推理會(huì)嚴(yán)重影響用戶體驗(yàn)和系統(tǒng)效率。在邊緣設(shè)備、手機(jī)等資源受限的環(huán)境中,這些硬件配置往往難以滿足要求,即便是可以利用強(qiáng)大的計(jì)算資源云端部署,也面臨高昂的成本和數(shù)據(jù)傳輸延遲的問題。因此,RIS的應(yīng)用面臨著巨大的部署挑戰(zhàn)。
作為模型壓縮的一種有效手段,量化技術(shù)將權(quán)重和激活值從32位浮點(diǎn)數(shù)轉(zhuǎn)換為8位或者更低的整數(shù)定點(diǎn)表示,可以顯著減小模型尺寸并提高推理速度,便于在資源受限的邊緣設(shè)備上部署。模型量化技術(shù)主要分為量化感知訓(xùn)練(quantizationaware training,QAT)[8]和訓(xùn)練后量化(post-trainingquanti-zation,PTQ)兩類。QAT需要訪問完整訓(xùn)練數(shù)據(jù)集和大量計(jì)算資源,而PTQ只需要一小部分未標(biāo)記樣本數(shù)據(jù)進(jìn)行校準(zhǔn),避免了使用大量可用標(biāo)記數(shù)據(jù)重新訓(xùn)練網(wǎng)絡(luò)的需要,更適用于快速高效的工業(yè)應(yīng)用場(chǎng)景。因此選擇使用PTQ方式對(duì)現(xiàn)有的圖像指代分割模型進(jìn)行量化以解決部署難題。但目前的先進(jìn)PTQ分別針對(duì)圖像分類任務(wù)和語(yǔ)言理解任務(wù)提出,將其直接應(yīng)用在RIS這類多模態(tài)任務(wù)上會(huì)由于圖像和文本數(shù)據(jù)的分布差異導(dǎo)致性能驟降。
為解決這一難題,本文提出了一種針對(duì)圖像指代分割任務(wù)的定制化訓(xùn)練后量化方案,旨在為端側(cè)部署該類多模態(tài)大模型提供一種可參考的執(zhí)行方案。主要貢獻(xiàn)如下:
a)作為該領(lǐng)域的首次研究,揭示了圖像指代分割模型量化后性能崩潰的根本原因,即視覺編碼器的獨(dú)特激活分布和文本編碼器的線性層激活異常值問題。
b)提出了雙區(qū)域均衡量化和重排序分組量化策略解決上述問題,并基于此構(gòu)建了專門為圖像指代分割任務(wù)設(shè)計(jì)的完整的模塊化后訓(xùn)練量化策略。
c)在三個(gè)基準(zhǔn)數(shù)據(jù)集上設(shè)置8bit、6bit和4bit的權(quán)重和激活量化,與現(xiàn)有的量化方法進(jìn)行廣泛對(duì)比實(shí)驗(yàn),驗(yàn)證了本文方法的有效性與優(yōu)越性,值得一提的是,int8量化后的模型性能在部分?jǐn)?shù)據(jù)集上與全精度模型幾乎持平。
1相關(guān)研究
1.1 圖像指代分割
Hu等人[3從語(yǔ)義分割任務(wù)中得到啟發(fā),提出圖像指代分割任務(wù)并給出CNN-LSTM分別提取特征,以及跨模態(tài)特征簡(jiǎn)單級(jí)聯(lián)的簡(jiǎn)單框架。在此基礎(chǔ)上,文獻(xiàn)[10,11]通過改進(jìn)特征提取的網(wǎng)絡(luò)來(lái)提高分割質(zhì)量,文獻(xiàn)[12,13]設(shè)計(jì)注意力模塊或雙向融合模塊等來(lái)捕獲模態(tài)之間的關(guān)系。隨著Transformer[14]在自然語(yǔ)言處理和計(jì)算機(jī)視覺領(lǐng)域愈發(fā)成熟,最近的研究[15,16]采用編碼器-解碼器結(jié)構(gòu)來(lái)增強(qiáng)全局上下文信息,即使用編碼器提取特征,解碼器中對(duì)齊跨模態(tài)信息的結(jié)構(gòu)。Ding等人提出VLT模型,通過多角度理解文本內(nèi)容生成多個(gè)查詢;Wang 等人[17]利用預(yù)訓(xùn)練模型CLIP[18]提取和融合兩種模態(tài)特征,增強(qiáng)了模態(tài)一致性;Yang等人[19則充分利用編碼器中豐富的多尺度信息,可以有效挖掘多模態(tài)上下文,因此在編碼器階段進(jìn)行跨模態(tài)交互;文獻(xiàn)[20]利用參數(shù)高效微調(diào)技術(shù),使用跨模態(tài)橋連接和凍結(jié)模型,在減少骨干網(wǎng)絡(luò)訓(xùn)練參數(shù)量的同時(shí),保持了強(qiáng)大的性能。RIS任務(wù)研究領(lǐng)域不斷進(jìn)步,但其龐大參數(shù)量和對(duì)計(jì)算資源的高需求仍是實(shí)際落地使用的難題。
1.2 訓(xùn)練后量化技術(shù)
早期的訓(xùn)練后量化技術(shù)如AdaRound[21]、BRECQ[22]QDrop[23] 等方法主要針對(duì)CNN架構(gòu),采用了自適應(yīng)舍人、逐模塊重建和激活值誤差修正等技術(shù)有效改善量化后模型精度下降的問題。然而,這些方法并不適用于Transformer架構(gòu),這促使研究人員將研究重心偏向開發(fā)針對(duì)Transformer架構(gòu)的高效量化策略。對(duì)于視覺Transformer[24], PIQ-ViT[25] 利用注意力圖的核范數(shù)自適應(yīng)調(diào)整位寬,保證量化前后特征映射的相似性;在此基礎(chǔ)上, FQ-ViT[26] 引人了二次冪因子和Log-Int-softmax技術(shù),實(shí)現(xiàn)了模型全量化。 PTQ4ViT[27] 有效解決了由于softmax和GELU后激活值的異常分布導(dǎo)致的量化后模型擬合效果差的問題; RepQ-ViT[28] 則將量化和推理過程解耦合以簡(jiǎn)化操作。此外還有一些專門針對(duì)純文本Transformer設(shè)計(jì)的量化方法,例如I-BERT[29]采用純整數(shù)算法量化整個(gè)推理過程,BiBERT[30]則提出了僅利用一位權(quán)重值和激活值的完全二值化BERT模型,顯著降低了計(jì)算成本和內(nèi)存使用。盡管視覺和文本模態(tài)的量化技術(shù)不斷發(fā)展,但并沒有研究專門針對(duì)多模態(tài)任務(wù)的量化策略,使得像圖像指代分割這一類的任務(wù)無(wú)法通過量化技術(shù)得到有效部署和應(yīng)用。
2 背景知識(shí)
2.1全精度基線模型
圖像指代分割任務(wù)的輸入是圖像 I∈RH×W×3 和描述圖像中對(duì)象的自然語(yǔ)言表達(dá)式 E ,最終需要輸出像素級(jí)別的分割掩碼 M∈RH×W 。該任務(wù)的核心挑戰(zhàn)是模型需要理解視覺和文本兩種模態(tài)的信息,同時(shí)準(zhǔn)確地對(duì)齊視覺和語(yǔ)言特征實(shí)現(xiàn)精確的目標(biāo)定位和分割。由于語(yǔ)言感知的visualTransformer模型(language-awarevisual Transformer,LAVT)[19]結(jié)構(gòu)明確且性能優(yōu)異,所以將其作為圖像指代分割量化工作的全精度基線模型,如圖1所示。
LAVT[19]由以下四個(gè)部分組成:
a)視覺編碼器。對(duì)于輸入的圖像 I∈RH×W×3 ,使用分層視覺Transformer提取多尺度的視覺特征映射,表示為
i∈{1,2,3,4} ,用于在每個(gè)階段與語(yǔ)言特征進(jìn)行特征融合和聯(lián)合編碼。其中 Ci、Hi、Wi 分別為第 i 階段特征圖的通道數(shù)、高度和寬度。
b)文本編碼器。使用深度語(yǔ)言表示模型,將輸入的自然語(yǔ)言表達(dá)式 E 嵌人到高維詞向量中,得到語(yǔ)言特征表示 L∈ ,其中 Ct 和 T 分別表示通道數(shù)和單詞數(shù)。
c)跨模態(tài)融合模塊。由多模態(tài)特征融合注意力機(jī)制和一個(gè)可學(xué)習(xí)的門控單元組成,如圖2所示。在此過程中進(jìn)行跨模態(tài)信息交互,生成和改進(jìn)語(yǔ)言感知的視覺特征。在多模態(tài)特征融合模塊,將視覺特征映射 Vi 和語(yǔ)言特征 L 相結(jié)合,生成一組多模態(tài)特征映射 。然后使用可學(xué)習(xí)門控單元對(duì) Fi 中的每個(gè)元素進(jìn)行加權(quán),再添加到 Vi 中產(chǎn)生一組嵌入語(yǔ)言信息的增強(qiáng)視覺特征,記為
,然后將 Ei 重新送回到下一階段的 Transformer 層中編碼產(chǎn)生新的視覺特征映射 Vi+1 。
d)解碼器。使用輕量級(jí)的掩碼預(yù)測(cè)器得到最終結(jié)果,將多模態(tài)特征映射 Fi 以自上而下的方式結(jié)合起來(lái),利用多尺度語(yǔ)義進(jìn)行最終的分割,解碼過程如下:
其中: i∈{1,2,3,4} 表示解碼器四個(gè)階段的特征圖;[;]表示沿通道維度進(jìn)行特征拼接;表示通過雙線性插值方式進(jìn)行上采樣; ξi 是通過批處理歸一化和ReLU非線性激活函數(shù)連接兩個(gè) 3×3 卷積實(shí)現(xiàn)的投影函數(shù)。最后的特征圖
D1 通過 1×1 的卷積投影為二分類分?jǐn)?shù)圖。
2.2 權(quán)重和激活量化
模型量化是神經(jīng)網(wǎng)絡(luò)壓縮的關(guān)鍵技術(shù)之一,在不改變模型結(jié)構(gòu)的基礎(chǔ)上,通過將權(quán)重值和激活值從float32轉(zhuǎn)換為較低位寬的整數(shù)表示的方式顯著降低內(nèi)存消耗與計(jì)算量。通過以下公式,將浮點(diǎn)張量映射到整數(shù)網(wǎng)絡(luò)。
xq=s?(xint-z)≈x
其中:round函數(shù)將值映射為整數(shù),在量化過程中引人舍入誤差;量化比例因子 s 由張量的最大值和最小值以及位寬 b 決定,反映了浮點(diǎn)數(shù)和整數(shù)之間的比例關(guān)系;clamp函數(shù)將輸出范圍限定為可以由 b 位整數(shù)表示的范圍,裁剪超過范圍的值并引入裁剪誤差; z 定義為零點(diǎn)的偏移量,在對(duì)稱量化中規(guī)定為 0
在訓(xùn)練后量化策略中,權(quán)重量化直接從預(yù)訓(xùn)練模型的權(quán)重文件中獲取數(shù)據(jù)用于待量化層,而激活值量化需要使用少量校準(zhǔn)數(shù)據(jù)收集激活值統(tǒng)計(jì)數(shù)據(jù),優(yōu)化量化方案以有效平衡裁剪誤差和舍人誤差。
3方法設(shè)計(jì)
3.1 整體分析
將現(xiàn)有樸素訓(xùn)練后量化方案直接應(yīng)用于全精度圖像指代分割模型,觀察到量化后模型性能顯著下降,對(duì)每個(gè)模塊分別進(jìn)行深入分析后,總結(jié)原因如下:
a)多模態(tài)的CNN-Transformer混合架構(gòu)?,F(xiàn)有的PTQ方法是針對(duì)單模態(tài)CNN或Transformer架構(gòu)設(shè)計(jì)的,沒有考慮混合架構(gòu)不同層的參數(shù)分布以及跨模態(tài)特征的數(shù)據(jù)分布特性。這種方法與模型結(jié)構(gòu)之間的不匹配,導(dǎo)致了量化后RIS模型精度大幅下降。
b)softmax和GELU后激活值的非正態(tài)分布。單獨(dú)分析發(fā)現(xiàn),視覺編碼器性能下降特別明顯,是由于softmax和GELU后激活值表現(xiàn)出與高斯分布截然不同的分布特性。這些激活值對(duì)于引導(dǎo)自注意機(jī)制中patch之間的相關(guān)性至關(guān)重要,不能簡(jiǎn)單地將其進(jìn)行裁剪與舍棄。
c)文本編碼器中不可忽視的異常激活值。文本編碼器所提取的語(yǔ)義特征作為圖像指代分割任務(wù)的關(guān)鍵輸人,其任何量化錯(cuò)誤都影響下一階段的編碼情況并不斷累積影響整體性能。而這些異常激活值隨著輸人數(shù)據(jù)的不同呈現(xiàn)不規(guī)則變化且對(duì)量化十分敏感,由于其中包含重要的文本信息,將異常值直接剔除的策略并不可行。
為了解決以上問題,本文提出了一種針對(duì)圖像指代分割任務(wù)的訓(xùn)練后量化方案,主要包含針對(duì)視覺編碼器的雙區(qū)域均衡量化策略和針對(duì)文本編碼器的重排序分組量化策略。
3.2 雙區(qū)域均衡量化策略
大多數(shù)的訓(xùn)練后量化方案都是基于高斯分布設(shè)計(jì)的,然而對(duì)視覺編碼器使用常規(guī)均衡量化策略后,量化后的圖像指代分割模型性能下降十分嚴(yán)重,已不能滿足實(shí)際應(yīng)用的精度需求。分析其視覺編碼器可視化后發(fā)現(xiàn),這兩類分布極其特殊,常規(guī)量化策略無(wú)法擬合數(shù)據(jù)分布情況,如圖3所示。
如圖3(a)所示,經(jīng)過softmax后的激活值分布在(0,1),大部分的值聚集在0附近,少量大值接近1。在自注意力機(jī)制中,值越大表示塊之間的相關(guān)性越高,對(duì)結(jié)果影響便越大。常規(guī)方法中,使用同一個(gè)量化比例因子 s 量化整個(gè)層或者張量的方式,無(wú)法準(zhǔn)確建模:使用較大的比例因子可以減少大值的量化誤差,但會(huì)將很大一部分小值直接量化為0,使用小比例因子則會(huì)顯著降低塊之間的相關(guān)性。如圖3(b)所示,經(jīng)過GeLU函數(shù)后激活值的正負(fù)區(qū)間分布具有高度不對(duì)稱性。正值分布范圍非常大,但負(fù)值更多的是聚集在0附近,使得對(duì)稱量化很難擬合這種分布。雖然非均衡量化可以有效解決這一問題,但由于硬件不友好的原因,并不適用于廣泛應(yīng)用部署。
本文針對(duì)上述視覺編碼器的量化難題,提出雙區(qū)域均衡量化策略:
對(duì)于softmax后的激活值,本文定義兩個(gè)區(qū)域分別為
對(duì)于GeLU后的激活值,則定義兩個(gè)區(qū)域分別為
為了覆蓋整個(gè)數(shù)據(jù)范圍,保持 sR2s=1/2b-1 ,以確保所有softmax后的大值都可以被 R2s 覆蓋。同時(shí)固定 sR1g ,使得 R1g 可以覆蓋所有GELU后激活值的負(fù)數(shù)范圍。
在校準(zhǔn)過程中,通過尋找最佳的尺度因子 sR2s 和 sR2g 來(lái)量化激活值。以int8量化為例,最終數(shù)據(jù)格式采用無(wú)符號(hào)整數(shù),其中第一位是區(qū)域索引,用來(lái)劃分校準(zhǔn)數(shù)據(jù)的范圍( R1 是 0,R2 是1),后七位則是量化值。同時(shí),使用 在兩個(gè)區(qū)域之間建立約束,使用移動(dòng) m 位操作代替 2m 乘法,促進(jìn)比例因子的快速對(duì)齊,降低計(jì)算成本。
視覺編碼器的整體量化策略如圖4所示。
自注意力機(jī)制中的矩陣乘法是Transformer架構(gòu)中的關(guān)鍵計(jì)算,主要包括兩個(gè)乘法計(jì)算操作: QKT 和 PV ,其中 P=soft. 新 dk 表示鍵向量維度。為統(tǒng)一標(biāo)準(zhǔn),本文將矩陣乘法統(tǒng)一表示為 K=AB 。將搜索空間線性劃分為 N 個(gè)候選區(qū)域得到比例因子搜索空間,在這兩個(gè)搜索空間內(nèi)交替優(yōu)化搜索最佳比例因子:固定 sA 搜索 sB ;再固定 sB 搜索 sA 。
為了實(shí)現(xiàn)高精度和快速量化,視覺編碼器部分使用分層并行量化模式,在校準(zhǔn)過程中使用Hessian引導(dǎo)度量來(lái)逐層或逐矩陣確定比例因子。通過泰勒級(jí)數(shù)展開來(lái)分析量化對(duì)任務(wù)損失的影響,目標(biāo)是找到使得量化前后輸出差距最小的比例因子,基于文獻(xiàn)[22,27]中逐層重建方法,優(yōu)化可以近似為
其中: E 表示損失的期望; 和 ?ι 分別代表第 l 層量化前后的輸出。建立比例因子的搜索空間,計(jì)算每個(gè)比例因子對(duì)層輸出的影響,然后根據(jù)公式選擇最優(yōu)的比例因子,當(dāng)對(duì)權(quán)重進(jìn)行量化時(shí),輸出的梯度值不會(huì)改變,實(shí)現(xiàn)預(yù)計(jì)算,顯著提高了量化效率。
3.3重排序分組量化策略
文本編碼器線性層的激活分布存在顯著異常值,如圖5所示,使得單個(gè)比例因子 s 實(shí)現(xiàn)量化時(shí)會(huì)引入嚴(yán)重的量化誤差,同時(shí)作為模型輸人的重要語(yǔ)言編碼信息,這部分異常值無(wú)法簡(jiǎn)單剔除。
出于效率和精度的雙重考慮,本文提出了重排序分組量化策略。在校準(zhǔn)過程中迭代選擇離群點(diǎn)進(jìn)行分組并計(jì)算不同組別的量化參數(shù),通過這種分組計(jì)算的方式來(lái)提高量化精度。該策略具體步驟如圖6所示。
首先,統(tǒng)計(jì)激活值絕對(duì)值數(shù)據(jù),根據(jù)經(jīng)驗(yàn)法則使用以下公式計(jì)算閾值 τ ,將離群點(diǎn)劃分出來(lái):
τ=μ+3σ
其中 σ:μ 是數(shù)據(jù)分布的均值; σ 是標(biāo)準(zhǔn)差,表示數(shù)據(jù)與均值的離散度,使用 3σ 捕獲 99.7% 的數(shù)據(jù),使得識(shí)別異常值的過程更加穩(wěn)健。據(jù)此得到根據(jù)閾值劃分的組別:內(nèi)點(diǎn)集合(小于等于閾值的數(shù)據(jù))和離群點(diǎn)集合(大于閾值的數(shù)據(jù))。
然后,采用均勻量化器的網(wǎng)格搜索技術(shù)確定當(dāng)前內(nèi)點(diǎn)集合的最優(yōu)量化參數(shù),并存儲(chǔ)好對(duì)應(yīng)的索引分組和參數(shù)值。再次計(jì)算當(dāng)前離群點(diǎn)集合的閾值進(jìn)行更新,并根據(jù)新的閾值將離群點(diǎn)集合再次分組,對(duì)新的內(nèi)點(diǎn)集合計(jì)算參數(shù)。重復(fù)上述過程直到離群點(diǎn)集合為空或者達(dá)到預(yù)定義的最大迭代次數(shù)。使用該方法可以自適應(yīng)地實(shí)現(xiàn)動(dòng)態(tài)分組,靈活建模激活值的實(shí)際分布,顯著減少文本編碼的量化誤差,進(jìn)而提高量化模型性能。
3.4 整體框架
除使用上述策略外,本文對(duì)整體模型的卷積層、全連接層以及自注意力機(jī)制中矩陣乘法運(yùn)算的所有輸入矩陣都進(jìn)行了權(quán)重和激活值的量化操作(除了第一個(gè)投影層和最后一個(gè)預(yù)測(cè)卷積層)。對(duì)于卷積層和全連接層,使用分層比例因子 sweight 量化權(quán)重,使用 sact 量化激活值;對(duì)于乘法運(yùn)算,分別使用 sA 和sB 進(jìn)行矩陣 A 和 B 的量化。
算法針對(duì)圖像指代分割的訓(xùn)練后量化策略 輸入:全精度基線RIS模型,校準(zhǔn)數(shù)據(jù)。
輸出:量化后模型。
foreachlayer li :if li in visual encoder:forward:compute oι backward: compute 301
for li in visual encoder:if“softmax”or“GELU”in layer_name:定義激活值的兩個(gè)區(qū)域 R1 和 R2 根據(jù)式 (5)~(8) 搜索 sR2s 和 sR2g (2elseif“matmul”in layer_name:初始化尺度因子 sA 和 sB 的搜索空間for r in range (1,#round+1 ):固定 sB ,搜索最優(yōu) sA 固定 sA ,搜索最優(yōu) sB
for li in text encoder:if“l(fā)inear”in layer_name:收集該層激活值并置為絕對(duì)值for i in range(1,11) :使用式(9) ~ (11)計(jì)算閥值 τi ,將數(shù)據(jù)進(jìn)行分組式(2)計(jì)算對(duì)應(yīng)量化參數(shù),得到 (τi,si,zi)
for li in fusion_module + other_encoder_layers:使用式(2)計(jì)算( sweight,zweight, 和 (sact,zact) (2
for li in decoder:將BN層吸收到相鄰線性層中實(shí)現(xiàn)高效計(jì)算,使用channel-wise 的量化器計(jì)算 (sweight,zweight) 和 (sact,zact) (20
4 實(shí)驗(yàn)與分析
4.1數(shù)據(jù)集
為驗(yàn)證所提策略的有效性,在三個(gè)公開的圖像指代分割數(shù)據(jù)集上進(jìn)行了大量實(shí)驗(yàn),分別為 RefCOCO[31] 、 RefCOCO+[31] 和G-Ref[32] 。三個(gè)數(shù)據(jù)集都基于 MSCOCO[33]構(gòu)建,其中,Ref
COcO和 RefCOCO+ 數(shù)據(jù)集采用二人博弈(two-player game)[34]方法構(gòu)造,G-Ref則是在亞馬遜的MechanicalTurk平臺(tái)上由同一個(gè)人同時(shí)完成目標(biāo)描述和像素級(jí)分割任務(wù)。每個(gè)數(shù)據(jù)集都由原始圖像、引用表達(dá)式和像素級(jí)別的標(biāo)注三部分組成,具體的數(shù)據(jù)統(tǒng)計(jì)情況如表1所示。
與RefCOCO相比, RefCOCO+ 的引用表達(dá)式不包括描述目標(biāo)絕對(duì)位置的單詞,只描述目標(biāo)對(duì)象的外觀。而對(duì)于G-Ref數(shù)據(jù)集,由于在非交互情況下收集產(chǎn)生,對(duì)于對(duì)象的描述更為豐富,引用表達(dá)式的平均長(zhǎng)度達(dá)到了8.4,所以也帶來(lái)了更大的挑戰(zhàn)。同時(shí),G-Ref包含UMD和Google兩個(gè)分區(qū)。
4.2實(shí)驗(yàn)環(huán)境及設(shè)置
本文實(shí)驗(yàn)的操作系統(tǒng)為Ubuntu22.04,基于PyTorch深度學(xué)習(xí)框架,使用NVIDIAGeForceRTX3090 GPU(24GB)。
初始圖像尺寸規(guī)定為(3,480,480),引用表達(dá)式規(guī)定單詞長(zhǎng)度上限為20。細(xì)節(jié)設(shè)置:視覺編碼器使用Swin-Transformer,四階段共24個(gè)Transformer層,注意力頭數(shù)量依次為4、8、16、32,不使用絕對(duì)位置編碼且dropout概率為0.3。語(yǔ)言編碼器使用12層BERT,隱藏層尺寸為768。參數(shù)設(shè)置:校準(zhǔn)數(shù)據(jù)集大小設(shè)置為32,雙區(qū)域均衡量化參數(shù)設(shè)置為 alpha=0.01 , beta= 1.2, N=100 ,搜索輪次#Round設(shè)置為3,重排序分組量化的最大迭代次數(shù)設(shè)置為10。
4.3 評(píng)價(jià)指標(biāo)
圖像指代分割常用的評(píng)價(jià)指標(biāo)與圖像語(yǔ)義分割任務(wù)類似,包括全局交并比、平均交并比和精度百分比,具體定義如下:
全局交并比(overallintersectionoverunion,OIoU)是所有測(cè)試樣本的交集區(qū)域與并集區(qū)域之比,每個(gè)測(cè)試樣本包含一個(gè)語(yǔ)言表達(dá)和一個(gè)圖像,適合用于大目標(biāo)對(duì)象。
其中: N 是測(cè)試樣本總數(shù); Pi 表示第 i 個(gè)樣本預(yù)測(cè)結(jié)果; Gi 表示第 i 個(gè)樣本的掩碼標(biāo)注圖。
平均交并比(meanintersectionoverunion,MIoU)是所有測(cè)試樣本中預(yù)測(cè)值和真實(shí)值之間的交并比。
精度百分比( precision@X. )表示在測(cè)試集中預(yù)測(cè)結(jié)果與真實(shí)值的交并比超過閾值 X 的樣本數(shù)目占總樣本數(shù)的百分比。在圖本實(shí)驗(yàn)中,將閾值 X 按照從易到難設(shè)置為{0.5,0.6,0.7,0.8,0.9
4.4定量對(duì)比實(shí)驗(yàn)
由于沒有專門針對(duì)RIS任務(wù)設(shè)置的PTQ方法,且全精度模型是Transformer和CNN的混合架構(gòu),所以本文設(shè)計(jì)了一個(gè)RTN方法,對(duì)標(biāo)混合架構(gòu)。同時(shí),對(duì)比先進(jìn)的圖像分類的PTQ方法進(jìn)行了重新實(shí)現(xiàn),即 PTQ4ViT[27] 、 RepQ-ViT[28] PD-Quant[35]。在三個(gè)基準(zhǔn)數(shù)據(jù)集上進(jìn)行了不同位寬的廣泛實(shí)驗(yàn),實(shí)驗(yàn)結(jié)果如表2所示。
a)RTN。本文根據(jù)RIS任務(wù)的架構(gòu)使用最近鄰舍入(round-to-nearest,RTN)的樸素逐層量化方式進(jìn)行實(shí)現(xiàn)的。round函數(shù)使用簡(jiǎn)單的四舍五入。
b)PTQ4ViT。針對(duì)Transformer架構(gòu)提出的圖像分類任務(wù)量化框架,本文將其在RIS任務(wù)上進(jìn)行重寫,將視覺編碼器和文本編碼器的Transformer和矩陣乘法部分用此法量化。
c) RepQ-ViT 。將量化和推理過程解耦,針對(duì)layernorm激活和softmax后激活使用了分層逐通道量化和 量化策略。本文將這兩種方法應(yīng)用在對(duì)應(yīng)的Transformer層和矩陣量化。
d)PD-Quant。通過考慮全局信息來(lái)解決量化噪聲問題,利用預(yù)測(cè)量化前后的差異信息來(lái)確定量化參數(shù)??紤]該方法僅針對(duì)CNN架構(gòu)設(shè)計(jì),本文使用全局信息思想結(jié)合Transformer
架構(gòu)的改進(jìn)進(jìn)行重實(shí)現(xiàn)。
表2展示了本文方法在RefCOCO、 RefCOCO+ 和G-Ref三個(gè)數(shù)據(jù)集上進(jìn)行不同位寬量化后(如W8A8,表示將權(quán)重值和激活值都從浮點(diǎn) 32bit 量化到8bit)的表現(xiàn),其中FP32對(duì)應(yīng)結(jié)果表示全精度模型 LAVT[19] 在各數(shù)據(jù)集上的基準(zhǔn)實(shí)驗(yàn)結(jié)果。同時(shí)與使用其他四種方式進(jìn)行量化后的模型性能進(jìn)行對(duì)比,通過OIoU評(píng)判量化后效果,性能越接近全精度模型證明,量化策略越優(yōu)良。
通過對(duì)表2進(jìn)行縱向分析不難得出結(jié)論:不論在哪個(gè)數(shù)據(jù)集上,本文方法(Quant-RIS)都優(yōu)于其他方法,尤其是在int4量化情形下,當(dāng)其他方法都面臨性能崩潰的情況下,本文方法性能僅下降了約 4% ,在減少模型尺寸和計(jì)算量的同時(shí),維持了相當(dāng)?shù)哪P托阅堋?/p>
4.5消融實(shí)驗(yàn)
為驗(yàn)證雙區(qū)域均衡量化策略以及重排序分組量化策略對(duì)模型量化后性能損失恢復(fù)的真實(shí)影響,本文在RefCOCO的驗(yàn)證集上進(jìn)行了以下消融實(shí)驗(yàn):
a)使用RTN方法對(duì)全精度模型進(jìn)行int4量化操作得到表3實(shí)驗(yàn)結(jié)果1,發(fā)現(xiàn)模型幾乎喪失性能。然后使用本文提出的完整訓(xùn)練后量化策略得到的結(jié)果進(jìn)行比較,即對(duì)表3中實(shí)驗(yàn)1和6的數(shù)據(jù)作對(duì)比,MIoU提升了63.65百分點(diǎn),OIoU提升了60.53百分點(diǎn)。同時(shí),對(duì)所提各模塊的三個(gè)量化策略進(jìn)行消融,進(jìn)一步驗(yàn)證了本文針對(duì)視覺編碼器提出的雙區(qū)域均衡量化、針對(duì)文本編碼器提出的重排序分組策略以及使用細(xì)粒度量化方式處理融合和解碼器部分,對(duì)模型精度恢復(fù)起到了促進(jìn)作用。
b)針對(duì)重排序分組量化的分組方式進(jìn)行消融實(shí)驗(yàn),首先使用現(xiàn)存的逐張量(per-tensor)和逐通道(per-channel)方法與本文的重排序分組策略進(jìn)行比較,實(shí)驗(yàn)設(shè)置為僅對(duì)文本編碼器進(jìn)行量化,控制唯一變量為線性層量化策略。同時(shí),為探究閥值選取方式的優(yōu)越性,控制唯一變量為閾值計(jì)算方式,包括平均值(meandivision)、中位數(shù)加中位數(shù)絕對(duì)偏差(median + me-dianabsolutedeviation,median +MAD )、置信度水平(confidencelevel)以及均值加三倍標(biāo)準(zhǔn)差(mean + threestandard deviations,mean +3SD )。通過表4實(shí)驗(yàn)結(jié)果可以看出,本文策略優(yōu)于粗粒度量化方式,且 mean+3SD 是目前效果最佳的閾值選擇方式,同時(shí)確保了在降低計(jì)算量和硬件需求的基礎(chǔ)上,重排序分組量化策略的性能略優(yōu)于逐通道量化。
4.6 定性分析
通過應(yīng)用本文方法對(duì)不同位寬下的模型進(jìn)行量化,統(tǒng)計(jì)了量化后的模型尺寸和推理時(shí)間,如圖7所示。圖中結(jié)果表明,隨著量化位寬的降低,模型尺寸和推理時(shí)間均顯著減小,驗(yàn)證了該方法在減小模型尺寸和加快推理速度方面的有效性。
同時(shí),圖8展示了本文實(shí)驗(yàn)中不同量化方法在 RefCOCO+ testA數(shù)據(jù)集上的OIoU對(duì)比結(jié)果。從圖中可以明顯看出,隨著量化位寬的降低,模型性能普遍有所下降。然而,本文方法在4bit量化情況下,OIoU僅下降4.47,仍保持較高的性能,顯示了其在低位寬量化下的優(yōu)越性。
將使用本方法進(jìn)行8bit量化后的模型與全精度模型的結(jié)果可視化進(jìn)行比較,如圖9所示,可以發(fā)現(xiàn)使用本文方法實(shí)現(xiàn)int8量化后模型性能表現(xiàn)良好,能夠準(zhǔn)確分割出語(yǔ)句所指代的對(duì)象。盡管在邊緣細(xì)節(jié)上呈現(xiàn)些許不足,但并沒有出現(xiàn)較為嚴(yán)重的分割錯(cuò)誤。
5結(jié)束語(yǔ)
本文提出了一種專門為圖像指代分割任務(wù)設(shè)計(jì)的新型訓(xùn)練后量化策略,旨在實(shí)現(xiàn)邊緣設(shè)備上部署多模態(tài)大模型。本文首先分析了各個(gè)模塊的數(shù)據(jù)分布和網(wǎng)絡(luò)結(jié)構(gòu),針對(duì)不同模塊量身定制了量化策略。具體而言,提出了用于視覺編碼器的雙區(qū)域均衡量化策略以及用于文本編碼器的重排序分組策略。所提量化策略在int8量化甚至int6和int4設(shè)置下均呈現(xiàn)優(yōu)越性能,在處理多模態(tài)混合模型量化問題上明顯優(yōu)于當(dāng)前一些著名方法。未來(lái)將會(huì)探索更低比特量化方案,進(jìn)一步探索多模態(tài)任務(wù)在端側(cè)設(shè)備的實(shí)際應(yīng)用潛力。
參考文獻(xiàn):
[1]王燕,范向輝,王麗康.預(yù)指導(dǎo)的多階段特征融合的圖像語(yǔ)義分 割網(wǎng)絡(luò)[J].計(jì)算機(jī)應(yīng)用研究,2024,41(3):951-955.(Wang Yan,F(xiàn)an Xianghui,Wang Likang.Segmentation from natural language expressions [J]. Application Research of Computers, 2024,41(3):951-955.)
[2]吳仕科,梁宇琦.基于偽標(biāo)簽自細(xì)化的弱監(jiān)督實(shí)例分割[J].計(jì) 算機(jī)應(yīng)用研究,2023,40(6):1882-1887.(Wu Shike,LiangYuqi.PLSR:weakly super-vised instance segmentation via pseudo-label self-refinement[J].Application Research of Computers,2023, 40(6): 1882-1887.)
[3]Hu Ronghang,Rohrbach M,Darrell T. Segmentation from natural language expressions[C]//Proc of European Conference on Computer Vision.Cham:Springer,2016:108-124.
[4]Guhur PL,Chen S,Pinel RG,et al. Instruction-driven historyaware policies for robotic manipulations [C]// Proc of Conference on Robot Learning.[S.1.]: PMLR,2023:175-187.
[5]An Dong,Qi Yuankai,Li Yangguang,et al.BEVBert:multimodal map pre-training for language-guided navigation[C]//Proc of IEEE/ CVF International Conference on Computer Vision. 2O23:2737- 2748.
[6]Ding Henghui,Liu Chang,Wang Suchen,et al.VLT:visionlanguage Transformer and query generation for referring segmentation [J].iEEE Trans on Pattern Analysis and Machine Intelligence, 2023,45(6):7900-7916.
[7]Jacob B,Kligys S,Chen Bo,et al. Quantization and training of neural networks for eficient integer-arithmetic-only inference [C]//Proc of IEEE/CVF Conference on Computer Vision and Pattern Recognition.Piscataway,NJ:IEEE Press,2018:2704-2713.
[8]Sakr C, Dai S, Venkatesan R,et al. Optimal clipping and magnitude-aware differentiation for improved quantization-aware training [C]//Proc of International Conference on Machine Learning.[S. 1.]:PMLR, 2022: 19123-19138.
[9]Nahshan Y,Chmiel B,Baskin C,et al.Loss aware post-training quantization[J].Machine Learning,2021,110(11):3245- 3262.
[10]Liu Chenxi,Lin Zhe,Shen Xiaohui,et al.Recurent multimodal interaction for referring image segmentation [C]// Proc of IEEE International Conference on Computer Vision.Piscataway,NJ:IEEE Press,2017:1280-1289.
[11]Margffoy-TuayE,Pérez JC,Botero E,et al.Dynamic multimodal instance segmentation guided by natural language queries [C]// Proc of European Conference on Computer Vision. Cham: Springer,2018 : 656-672.
[12]Yu Licheng,Lin Zhe,Shen Xiaohui,et al. MAuNet:modular atention network for referring expression comprehension [C]//Proc of IEEE/CVF Conference on Computer Vision and Pattern Recognition. Piscataway,NJ: IEEE Press,2018:1307-1315.
[13]Hu Zhiwei,F(xiàn)eng Guang,Sun Jiayu,et al.Bi-directional relationship inferring network for referring image segmentation[C]//Proc of IEEE/CVF Conference on Computer Vision and Pattern Recognition. Piscataway,NJ:IEEE Press,2020:4423-4432.
[14]Vaswani A. Attention is all you need[C]// Proc of the 31st International Conference on Neural Information Processing Systems.Red Hook,NY:Curran Associates Inc., 2017:6000-6010.
[15]Yang Zhao,Wang Jiaqi,Tang Yansong,et al. Semantics-aware dynamic localization and refinement for referring image segmentation [C]//Proc of AAAI Conference on Artificial Intelligence. Palo Alto, CA:AAAI Press,2023: 3222-3230.
[16]Tang Jiajin, Zheng Ge, Shi Cheng,et al. Contrastive grouping with transformer for referring image segmentation[C]//Proc of IEEE/ CVF Conference on Computer Vision and Pattern Recognition. Pisca
[17]Wang Zhaoqing,Lu Yu,Li Qiang,et al.CRIS: clip-driven refeing image segmentation[C]//Proc of IEEE/CVF Conference on Computer Vision and Pattern Recognition. Piscataway,NJ: IEEE Press, 2022:11676-11685.
[18]Radford A,Kim JW,Hallacy C,et al.Learning transferable visual models from natural language supervision [C]//Proc of International Conference on Machine Learning. [S.1.]: PMLR,2021:8748- 8763.
[19]Yang Zhao,Wang Jiaqi,Tang Yansong,et al.LAVT: languageaware vision transformer for referring image segmentation [C]// Proc of IEEE/CVF Conference on Computer Vision and Pattern Recognition.Piscataway,NJ:IEEE Press,2022:18134-18144.
[20]Xu Zunnan, Chen Zhihong,Zhang Yong,et al.Bridging vision and language encoders:parameter-efficient tuning for referring image segmentation [C ]//Proc of IEEE/CVF International Conference on Computer Vision.Piscataway,NJ: IEEE Press,2023:17457-17466.
[21]NagelM,AmjadRA,VanBaalenM,etal.Upordown?Adaptive rounding for post-training quantization[C]//Proc of International Conference on Machine Learning.[S.1.]:PMLR,2020:7197- 7206.
[22]Li Yuhang,Gong Ruihao,Tan Xu,et al.BRECQ:pushing the limit ofpost-training quantization by block reconstruction [EB/OL]. (2021-07-25). https://arxiv.org/abs/2102.05426.
[23]Wei Xiuying,Gong Ruihao,Li Yuhang,et al. QDrop:randomly droppingquantization for extremely low-bit post-training quantization [EB/OL].(2023-02-21).https://arxiv.org/abs/2203.05740.
[24]Dosovitskiy A.An image is worth 16×16 words:Transformers for image recognition at scale[EB/OL]. (2021-06-03). https://arxiv. org/abs/2010.11929.
[25]Liu Zhenhua,Wang Yunhe,Han Kai,et al. Post-training quantization for vision Transformer[J].Advances in Neural Information Processing Systems,2021,34: 28092-28103.
[26]Lin Yang,Zhang Tianyu,Sun Peiqin,et al.FQ-ViT:post-training quantization for fully quantized vision transformer[EB/OL]. (2023- 02-17).https://arxiv.org/abs/2111.13824.
[27]Yuan Zhihang,Xue Chenhao,Chen Yiqi,et al. PTQ4ViT:posttraining quantization for vision transformers with twin uniform quantization[C]// Proc of European Conference on Computer Vision. Cham:Springer,2022:191-207.
[28]Li Zhikai, Xiao Junrui, Yang Lianwei,et al. RepQ-ViT:scale reparameterization for post-training quantization of vision Transformers [C]//Proc of IEEE/CVF Intermational Conference on Computer Vision.Piscataway,NJ:IEEE Press,2023:17181-17190.
[29]Kim S, Gholami A, Yao Zhewei,et al. I-BERT: integer-only BERT quantization[C]//Proc of International Conference on Machine Learning.[S.1.]:PMLR,2021: 5506-5518.
[30]Qin Haotong,Ding Yifu,Zhang Mingyuan,et al.BiBERT:accurate fullybinarized BERT[C]//Proc ofInternational Conferenceon Learning Representations. 2022
[31]YuLicheng,Poirson P,Yang Shan,et al.Modeling context inreferring expressions[C]//Proc of European Conference on Computer Vision.Cham:Springer,2016:69-85.
[32]Kazemzadeh S, Ordonez V,Matten M,et al.ReferItGame:referring to objects in photographs of natural scenes[C]//Proc of Conference on Empirical Methods in Natural Language Processing. Stroudsburg, PA:Association for Computational Linguistics,2014:787-798.
[33]Lin TY,Maire M,Belongie S,et al.Microsoft COCO:common objects in context[C]//Proc of European Conference on Computer Vision. Cham: Springer,2014:740-755.
[34]Mao Junhua,Huang J, Toshev A,et al. Generation and comprehension of unambiguous object descriptions [C]// Proc of IEEE Conference on Computer Vision and Pattrn Recognition.Piscataway,NJ: IEEE Press,,2016:11-20.
[35]Liu Jiawei,Niu Lin,Yuan Zhihang,et al.PD-Quant:post-training quantization based on prediction difference metric [C]//Proc of IEEE/CVF Conference on Computer Vision and Pattern Recognition. Piscatawav NI. IEEF Pres2023. 24427-24437