摘 要:近年來,以CLIP為代表的視覺-語言大模型在眾多下游場景中顯示出了出色的零樣本推理能力,然而將CLIP模型遷移至需要像素水平圖-文理解的參考圖像分割中非常困難,其根本原因在于CLIP關(guān)注圖像-文本整體上的對(duì)齊情況,卻丟棄了圖像中像素點(diǎn)的空間位置信息。鑒于此,以CLIP為基礎(chǔ)模型,提出了一種單階段、細(xì)粒度、多層次的零樣本參考圖像分割模型PixelCLIP。具體地,采取了多尺度的圖像特征融合,既聚集CLIP中不同視覺編碼器提取的圖像像素級(jí)特征,同時(shí)又考慮CLIP中固有的圖像整體語義特征。在文本信息表征上,不但依靠CLIP-BERT來保持物體種類信息,還引入LLaVA大語言模型進(jìn)一步注入上下文背景知識(shí)。最后,PixelCLIP通過細(xì)粒度跨模態(tài)關(guān)聯(lián)匹配,實(shí)現(xiàn)像素水平的參考圖像分割。充分的數(shù)值分析結(jié)果驗(yàn)證了該方法的有效性。
關(guān)鍵詞:零樣本;CLIP;像素級(jí);單階段;參考圖像分割
中圖分類號(hào):TP391"" 文獻(xiàn)標(biāo)志碼:A""" 文章編號(hào):1001-3695(2025)04-038-1248-07
doi: 10.19734/j.issn.1001-3695.2024.06.0254
Zero-shot referring image segmentation based on fine-tuning image-text model CLIP
Liu Jie1, 2, Qiao Wensheng1, Zhu Peipei1, Lei Yinjie3, Wang Zixuan3
(1. Southwest China Institute of Electronic Technology, Chengdu 610036, China; 2. School of Resources amp; Environment, University of Electronic Science amp; Technology of China, Chengdu 611731, China; 3. School of Electronics amp; Information Engineering, Sichuan University, Chengdu 610065, China)
Abstract:
In recent years, large vision-language models represented by CLIP have demonstrated excellent zero-shot inference capabilities in numerous downstream scenarios. However, transferring the CLIP model to reference image segmentation, which requires pixel-level image-text understanding, is very challenging. The fundamental reason lies in the fact that CLIP focuses on the overall alignment between images and text while discarding the spatial position information of pixels in the image. In view of this, this paper proposed a single-stage, fine-grained, multi-level zero-shot reference image segmentation model called Pixel-CLIP based on the CLIP model. Specifically, this paper adopted multi-scale image feature fusion, which not only aggregated pixel-level image features extracted by different visual encoders in CLIP, but also considered the inherent overall semantic features of images in CLIP. In terms of textual information representation, this paper relied not only on CLIP-BERT to maintain object category information, but also introduced the LLaVA large language model to further inject contextual background knowledge. Ultimately, PixelCLIP achieves pixel-level reference image segmentation by realizing fine-grained cross-modal associative matching. Extensive experiments indicate the validity of PixelCLIP.
Key words:zero-shot; CLIP; pixel-level; one-stage; referring image segmentation
0 引言
深度學(xué)習(xí)的最新進(jìn)展徹底改變了計(jì)算機(jī)視覺和自然語言處理,并解決了視覺和語言領(lǐng)域的各種任務(wù)[1]。最近多模態(tài)模型(如CLIP[2])取得成功的一個(gè)關(guān)鍵因素是在大量圖像和文本對(duì)上進(jìn)行對(duì)比圖像-文本預(yù)訓(xùn)練。它們在廣泛的任務(wù)上表現(xiàn)出了顯著的零樣本可移植性,如目標(biāo)檢測[3]、語義分割[4]、圖像字幕[5]、視覺問答[6]等。盡管預(yù)訓(xùn)練的多模態(tài)大模型具有良好的可移植性,但在處理諸如參考圖像分割等像素級(jí)密集預(yù)測任務(wù)時(shí)依舊具有挑戰(zhàn)性。參考圖像分割[7]是指在給定一個(gè)描述某區(qū)域的自然語言表達(dá)式的參考下實(shí)現(xiàn)分割圖像特定部分,是眾所周知的具有挑戰(zhàn)性的視覺和語言任務(wù)之一。參考圖像分割通常是零樣本分割任務(wù),由于該任務(wù)不再受預(yù)定義類的限制,所以可以實(shí)現(xiàn)人機(jī)交互式圖像編輯等多種應(yīng)用。然而,參考圖像分割比語義分割等任務(wù)更具挑戰(zhàn)性,因?yàn)樗枰斫鈫蝹€(gè)實(shí)體及其在語言表達(dá)式中表達(dá)的關(guān)系(例如,“一輛車在出租車和建筑后面”),并在分割過程中充分利用這種結(jié)構(gòu)化關(guān)系信息。因此,任務(wù)模型應(yīng)該能夠捕獲圖像和文本兩種模態(tài)語義實(shí)體之間的交互、聯(lián)合推理以及像素級(jí)預(yù)測。
經(jīng)典的零樣本參考圖像分割[8]采取一種“先融合,再分割”的流程:首先通過串聯(lián)-卷積操作進(jìn)行跨模態(tài)特征交互,具體地,它們分別采用卷積神經(jīng)網(wǎng)絡(luò)和循環(huán)神經(jīng)網(wǎng)絡(luò)提取圖像和文本特征,依靠可學(xué)習(xí)的融合算子將高維圖像、文本特征映射至非單一模態(tài)的空間中;接著,將跨模態(tài)特征送至像素水平的語義注釋模塊中以實(shí)現(xiàn)圖像分割,但是它們的魯棒性不高,只能限制在預(yù)定義好且有可學(xué)樣本的閉集中。
目前,已經(jīng)存在少量工作,聚焦于以CLIP為基礎(chǔ),并將參考圖像分割拓展至零樣本的場景中[9],它們的主要工作流程為:a)依靠關(guān)鍵區(qū)域篩選網(wǎng)絡(luò)從自然圖像中提取一系列大小各異的框,以表示潛在的目標(biāo)位置;b)將候選目標(biāo)框送入CLIP框架中,采取圖像-文本匹配的方式,以零樣本范式為各個(gè)框中的像素點(diǎn)賦予語義標(biāo)簽。然而,前述方法為兩階段的架構(gòu),需耗費(fèi)大量的推理時(shí)間。一種可行的能提高效率的方案是基于CLIP框架的單階段的語義分割。但是,CLIP最初是為圖像-文本匹配場景構(gòu)建的,它只是關(guān)注圖像-文本整體上的對(duì)齊情況,而丟棄了圖像中像素點(diǎn)的空間位置信息,故而將CLIP的零樣本能力直接從“圖像域”泛化至“像素域”非常困難,是領(lǐng)域內(nèi)一個(gè)亟待解決的難題。
本文針對(duì)微調(diào)CLIP實(shí)現(xiàn)零樣本參考圖像分割,提出全新框架和模型PixelCLIP。所提框架基于預(yù)訓(xùn)練的CLIP微調(diào),其中視覺和文本編碼器為凍結(jié)狀態(tài),即在微調(diào)的過程中,兩種編碼器的權(quán)重參數(shù)均不更新,從而保證了CLIP零樣本能力的有效保留。模型主要貢獻(xiàn)如下三點(diǎn):
a)充分挖掘CLIP圖像編碼器的潛力。一個(gè)凍結(jié)的CLIP模型可以有效提取視覺和語言特征,保留其對(duì)圖像和文本之間關(guān)系的豐富理解。當(dāng)CLIP得到的圖像特征通過后續(xù)深度神經(jīng)網(wǎng)絡(luò)處理圖像時(shí),直接使用CLIP最終輸出的圖像特征的視覺向量,會(huì)丟失關(guān)于物體相對(duì)位置的精確空間信息;然而,CLIP圖像特征提取采用的圖像編碼器的中間特征映射保留了空間信息和局部圖像語義[10]。本文提出一個(gè)框架多層細(xì)粒度特征融合網(wǎng)絡(luò)。
b)彌補(bǔ)CLIP文本編碼器的不足。CLIP的文本編碼器注重文本的類別信息;然而,在參考圖像分割任務(wù)中,參考文本通常只包含位置、邏輯等信息,因此CLIP的文本編碼器不能有效地利用參考文本。本文提出使用大型語言和視覺助手(large language and vision assistant,LLaVA)[11]的文本編碼器將豐富復(fù)雜的參考文本進(jìn)行特征編碼,最終將CLIP和LLaVA得到的文本特征進(jìn)行1D小波變換后在頻域融合進(jìn)行反變換,從而得到增強(qiáng)后包含類別、位置、復(fù)雜邏輯的高級(jí)文本特征。
c)使用對(duì)比損失來學(xué)習(xí)像素及其相應(yīng)文本的豐富語義聯(lián)合表示空間。CLIP自身將圖像作為一個(gè)整體,也將文本作為一個(gè)整體來獲取相關(guān)表征,依靠最小化相匹配的圖像-文本表征,最大化不相匹配的圖像-文本表征來進(jìn)行訓(xùn)練。但是,本文聚焦的是參考圖像分割,是一個(gè)像素水平的場景,需要得到像素點(diǎn)和文本中單詞的一致關(guān)系。因此,本文提出了一種基于文本-像素的對(duì)比損失作為目標(biāo)函數(shù),以優(yōu)化視覺和語言兩種模態(tài)的跨模態(tài)查詢關(guān)系。
1 相關(guān)工作
1.1 視覺語言預(yù)訓(xùn)練大模型
視覺語言預(yù)訓(xùn)練大模型連接圖像表征和文本嵌入[12],在圖像檢索[13]、密集預(yù)測[14]、視覺表達(dá)[15]、視覺問答[16]等下游任務(wù)上取得了顯著的效果。其大致可以分為兩種主要類型:第一種是將視覺模態(tài)整合到大語言模型(LLMs)中,形成綜合性的LVLMs[17];第二種通過使用兩個(gè)不同的編碼器在潛在空間對(duì)齊大量圖像和原始文本。對(duì)于第一種類型, BLIP-2[18]通過使用輕量級(jí)查詢轉(zhuǎn)換器來彌合模態(tài)差距,并采用強(qiáng)大的LLM模型有效增強(qiáng)LVLM在視覺-文本任務(wù)中的強(qiáng)大能力。最近的LLaVa模型通過純語言 GPT[19]生成多模態(tài)語言圖像指令數(shù)據(jù)進(jìn)行模型微調(diào),展示了令人印象深刻的多模態(tài)聊天能力。在第二種類型的背景下, CLIP作為目前最流行的視覺語言模型之一,通過文本-圖像對(duì)和對(duì)比學(xué)習(xí)對(duì)4億參數(shù)模型進(jìn)行預(yù)訓(xùn)練,將圖像和文本映射到一個(gè)共享的向量空間中,從而使得模型能夠理解圖像和文本之間的語義關(guān)系,該模型展示了圖像級(jí)分類的卓越能力。
1.2 零樣本學(xué)習(xí)
如今,監(jiān)督學(xué)習(xí)在很多任務(wù)上都達(dá)到了讓人驚嘆的結(jié)果,但其限制是:往往需要足夠多的樣本才能訓(xùn)練出足夠好的模型,并且利用特定目標(biāo)訓(xùn)練出來的分類器就只能對(duì)該類目標(biāo)進(jìn)行分類,其他的目標(biāo)都無法識(shí)別。這樣的模型顯然并不符合人們對(duì)人工智能的終極想象,人們希望模型具有通過推理進(jìn)而識(shí)別新類別的能力。廣義的零樣本學(xué)習(xí)旨在通過轉(zhuǎn)換在見過的類上訓(xùn)練的知識(shí)來預(yù)測以前沒有見過的類。早期的研究[20]利用類名或?qū)傩缘念A(yù)訓(xùn)練詞嵌入[21],通過圖像的視覺表示與該詞嵌入之間的映射進(jìn)行零樣本預(yù)測。最近,通過大規(guī)模圖像-文本預(yù)訓(xùn)練對(duì)樣本學(xué)習(xí)有了新的進(jìn)展,如CLIP、ALIGN[22]等。值得一提的是,CLIP展示了通過零樣本學(xué)習(xí)進(jìn)行知識(shí)轉(zhuǎn)移在各種圖像級(jí)下游任務(wù)上的優(yōu)秀結(jié)果,如圖像字幕[23]、視頻動(dòng)作定位[24]等。此外,CLIP處理像素級(jí)任務(wù)的潛力仍有待挖掘,因?yàn)閺腃LIP中解鎖可用性知識(shí)并不簡單,它在全局層面上將圖像表示與文本描述對(duì)齊,卻丟棄了空間信息。這使得它的嵌入不適合根據(jù)文本提示定位特定對(duì)象、細(xì)節(jié)等像素級(jí)任務(wù)。誠然,使用CLIP并進(jìn)行微調(diào)從而實(shí)現(xiàn)處理像素級(jí)預(yù)測任務(wù)也已有非常成功的先例,例如目標(biāo)檢測、語義分割等。
1.3 零樣本參考圖像分割
零樣本參考圖像分割是一種高級(jí)語義分割任務(wù),其目標(biāo)不是預(yù)定義的類,而是根據(jù)自然語言參考來標(biāo)記圖像中表示對(duì)象實(shí)例的像素,由于文本和圖像之間具有不同的數(shù)據(jù)屬性,此常見模型很難很好地對(duì)齊文本和像素級(jí)特征。對(duì)于該任務(wù),已經(jīng)有幾種完全監(jiān)督的方法,傳統(tǒng)的模型[25]首先分別通過CNN和LSTM提取視覺和語言特征,并直接將兩種模態(tài)連接起來,通過FCN以預(yù)測密集的分割蒙版。而后,MCN[26]嘗試設(shè)計(jì)了一個(gè)框架,同時(shí)優(yōu)化兩個(gè)相關(guān)的任務(wù),即參考表達(dá)理解和切分,取得了令人印象深刻的效果。隨著注意力機(jī)制引起越來越多的關(guān)注,人們提出了一系列采用注意力機(jī)制的工作,如EFNet[27]設(shè)計(jì)了一種共注意力機(jī)制,利用文本逐步細(xì)化多模態(tài)特征,可以促進(jìn)跨模態(tài)信息表示的一致性。最近,VLT[28]采用Transformer構(gòu)建具有編碼器-解碼器注意力機(jī)制的網(wǎng)絡(luò),以增強(qiáng)全局上下文信息。然而這些全監(jiān)督參考圖像分割方法總體上表現(xiàn)出良好的性能,但需要對(duì)目標(biāo)蒙版進(jìn)行密集的標(biāo)注和對(duì)目標(biāo)對(duì)象進(jìn)行全面的描述。在零樣本參考圖像分割類的任務(wù)中,CLIP極具潛力,它是一個(gè)強(qiáng)大的預(yù)訓(xùn)練多模態(tài)模型。本文嘗試保留其對(duì)圖像和文本之間關(guān)系的豐富理解,恢復(fù)提煉CLIP的空間、局部圖像語意等信息,精煉其輸出的特征以獲得精確定位的細(xì)粒度空間信息。
2 方法
本文對(duì)CLIP這個(gè)強(qiáng)大的預(yù)訓(xùn)練多模態(tài)模型進(jìn)行潛力挖掘,提出了一種像素級(jí)高特征細(xì)粒度的參考圖像分割模型Pixel CLIP。該框架擯棄了區(qū)域建議的雙階段方案,實(shí)現(xiàn)了單階段的參考圖像分割,具體結(jié)構(gòu)如圖1所示。模型主要包含基于CLIP圖像編碼器的多層次細(xì)粒度特征提取融合模塊、基于LLaVA和CLIP文本編碼器的增強(qiáng)文本特征提取模塊和基于文本-像素對(duì)比學(xué)習(xí)損失三個(gè)部分。
3 實(shí)驗(yàn)與結(jié)果分析
3.1 數(shù)據(jù)集介紹
實(shí)驗(yàn)中雖然凍結(jié)了CLIP的編解碼器,但多層次細(xì)粒度圖像特征提取部分需要通過訓(xùn)練才能夠?qū)LIP的圖像級(jí)推理與像素級(jí)預(yù)測聯(lián)系起來。訓(xùn)練使用到的數(shù)據(jù)集是RefCOCO[30]、RefCOCO+[31]和RefCOCOg[32],這三個(gè)數(shù)據(jù)集是參考圖像分割的重要基準(zhǔn)。
a)RefCOCO數(shù)據(jù)集(referring expressions for COCO)基于Microsoft COCO數(shù)據(jù)集,包含142 210個(gè)目標(biāo)指示表達(dá)(referring expressions),這些表達(dá)用于描述19 994張圖像中的50 000個(gè)對(duì)象。本數(shù)據(jù)集遵循train/validation/test A/test B的拆分,其中test A的圖像包含了多人,test B的圖像包含了所有其他對(duì)象。RefCOCO數(shù)據(jù)集主要用于評(píng)估模型在目標(biāo)檢測和自然語言理解方面的性能,特別是在圖像中準(zhǔn)確定位特定對(duì)象的能力。
b)RefCOCO+數(shù)據(jù)集與RefCOCO類似,但有一個(gè)關(guān)鍵的不同之處:在描述中禁止使用絕對(duì)位置詞(如“左邊的”或“右邊的”)。這使得RefCOCO+數(shù)據(jù)集更具挑戰(zhàn)性,因?yàn)槟P捅仨氁蕾噷?duì)象的屬性和相對(duì)位置來確定目標(biāo)。RefCOCO+包含141 564個(gè)目標(biāo)指示表達(dá),覆蓋19 992張圖像中的49 856個(gè)對(duì)象。這個(gè)數(shù)據(jù)集進(jìn)一步評(píng)估了模型在處理更具描述性和復(fù)雜性的自然語言指示時(shí)的表現(xiàn)。
c)RefCOCOg數(shù)據(jù)集(referring expressions for google)由Google收集,包含85 474個(gè)目標(biāo)指示表達(dá),涵蓋26 711張圖像中的54 822個(gè)對(duì)象。與RefCOCO和RefCOCO+相比,RefCOCOg中的描述更長且更詳細(xì),平均長度為8.4個(gè)單詞,而RefCOCO和RefCOCO+的平均長度分別為3.5和3.6個(gè)單詞。RefCOCOg數(shù)據(jù)集允許使用絕對(duì)位置詞和更復(fù)雜的描述,測試模型在處理更自然且詳細(xì)的語言表達(dá)時(shí)的性能。
這三個(gè)數(shù)據(jù)集各有特點(diǎn),結(jié)合使用可以全面評(píng)估模型在圖像中目標(biāo)指示和自然語言理解方面的能力。RefCOCO提供了基本的目標(biāo)指示任務(wù),RefCOCO+增加了描述性挑戰(zhàn),而RefCOCOg則提供了更詳細(xì)和復(fù)雜的自然語言表達(dá)。
3.3 實(shí)驗(yàn)設(shè)置
本文中依靠加載權(quán)重存儲(chǔ)點(diǎn)的方法,采取預(yù)先訓(xùn)練好的CLIP模型,其中視覺編碼器為ResNet-50和Vit-B,文本編碼器為BERT。本文在RefCoCO、RefCoCo+和RefCoCog三個(gè)數(shù)據(jù)集上微調(diào)模型,并進(jìn)行相關(guān)實(shí)驗(yàn),微調(diào)過程中優(yōu)化器為Adam,訓(xùn)練輪數(shù)為50,學(xué)習(xí)率為0.000 1。本文中,模型的輸入圖像大小為416×416,在RefCoCO和RefCoCo+上文本的長為17字符,而在RefCoCog上文本的長為22字符,其中句子中包括開頭標(biāo)識(shí)符和結(jié)尾標(biāo)識(shí)符[33]。本文采取oIoU和mIoU兩種定量指標(biāo)和結(jié)果可視化來分析模型效果,為模型優(yōu)化提供支撐。本文中實(shí)驗(yàn)的硬件配置為24 GB 3090Ti GPU顯存的。軟件配置為Ubuntu 20.04操作系統(tǒng),PyCharm集成開發(fā)環(huán)境,Python的版本為3.8。數(shù)據(jù)集劃分采用官方常用數(shù)據(jù)集劃分,測試集包含的實(shí)例對(duì)象即分割目標(biāo)類別(例如蘋果)與訓(xùn)練集不完全相同。提出的模型通過訓(xùn)練集訓(xùn)練后,在淺層空間實(shí)現(xiàn)了文本和圖像的對(duì)齊,從而在面對(duì)測試集未見過的分割目標(biāo)類別(例如橘子)也能通過參考文本的引導(dǎo)實(shí)現(xiàn)分割,從而展示其零樣本能力。
3.4 定量性能對(duì)比實(shí)驗(yàn)
將本文方法與其他結(jié)合CLIP編碼器實(shí)現(xiàn)圖像分割的方法進(jìn)行比較。
a)Crad-CAM[34]。該方法依托于Crad-CAM機(jī)制,生成梯度加權(quán)類激活映射。在獲取了圖像與文本匹配的相似度得分后,會(huì)對(duì)所有預(yù)測的掩碼進(jìn)行評(píng)估,并選擇得分最高的那一個(gè)。這種方法提供了一種基于梯度的可視化視角。
b)score map[35]。此方法從MaskCLIP中提取score map。類似MaskCLIP的結(jié)構(gòu),把注意力池化中的線性層和最后一層轉(zhuǎn)變?yōu)閮蓚€(gè)連續(xù)的1×1卷積層后,將ResNet提取的特征直接連接至這兩層,并通過CLIP的文本特征進(jìn)行余弦相似度匹配。在本次實(shí)驗(yàn)中,采取預(yù)測掩碼的平均化方法,選取得分最高的預(yù)測掩碼。
c)region token[36]。此方法基于Grad-CAM生成梯度加權(quán)類激活映射。利用圖像和文本對(duì)的相似度得分獲得激活映射后,會(huì)對(duì)所有預(yù)測的掩碼進(jìn)行評(píng)估,選取得分最高的掩碼。
d)cropping方法[37]。與其他方法不同的是,其進(jìn)行了局部特征的提取。通過使用CLIP的零樣本密集型預(yù)測任務(wù),通常會(huì)用到cropping。本實(shí)驗(yàn)也選擇將其作為零樣本任務(wù)預(yù)測掩碼的對(duì)比方法之一。
e)FDFR方法[38]。該方法在結(jié)合CLIP和NLTK分別提取圖像和文本特征的基礎(chǔ)上,使用了小波變換來進(jìn)一步提取深層特征。
本文PixelCLIP分別使用ResNet-50和Vit-B/32作為CLIP編碼器,在RefCOCO、RefCOCO+和RefCOCOg三個(gè)數(shù)據(jù)集上,通過oIoU、mIoU和Dice指標(biāo)進(jìn)行評(píng)估,PixelCLIP在很大程度上超越了其他方法,對(duì)比結(jié)果如表1~3所示。
3.5 定性可視化分析
為了進(jìn)一步直觀展示本文方法的有效性,圖3展示了將PixelCLIP與之前的對(duì)比模型應(yīng)用于三例待分割圖像和參考文本的情況,并通過可視化的方式展示了這些方法與實(shí)際標(biāo)簽間的對(duì)比??梢悦黠@看出,本文方法在理解參考文本和提取圖像細(xì)節(jié)方面表現(xiàn)得更為出色,實(shí)現(xiàn)了更高細(xì)粒度的圖像分割。
這種改進(jìn)的方法能夠更精確地捕捉到圖像中的關(guān)鍵信息,尤其是在處理包含復(fù)雜細(xì)節(jié)和多對(duì)象場景的圖像時(shí)。此外,這些實(shí)驗(yàn)結(jié)果不僅驗(yàn)證了方法的高效性,也展示了其在實(shí)際應(yīng)用中的潛力,特別是在需要精確圖像解析的應(yīng)用場景中。
為了驗(yàn)證模型中單個(gè)模塊的有效性,本文將分別對(duì)文本編碼器的選擇、小波變換進(jìn)行探討并做消融實(shí)驗(yàn)。CLIP部分本文使用的是ResNet-50圖像編碼器對(duì)圖像進(jìn)行編碼,消融實(shí)驗(yàn)結(jié)果如表4所示。
3.6 消融實(shí)驗(yàn)
對(duì)于一維的小波變換,如果在模型特征融合之前不對(duì)文本編碼結(jié)果作小波變換,在ReFCOCO中消融后,oIoU下降了0.23,mIoU下降了0.68,在其他數(shù)據(jù)集也出現(xiàn)了類似的情況。具體結(jié)果在表4中顯示。
從上面的結(jié)果可以看出來,分別使用CLIP和LLaVA編碼以及CLIP+LLaVA來進(jìn)行文本編碼部分的任務(wù),還有在文本編碼后做一維小波變換這些模塊,系統(tǒng)的性能都會(huì)在添加對(duì)應(yīng)模塊后有所提升。從圖3可以看到,只有CLIP TEXT文本編碼器對(duì)文本類別敏感,其能有效地指導(dǎo)模型分割出圖中的人,而LLaVA TEXT文本編碼器能對(duì)文本的綜合信息(包含復(fù)雜的位置關(guān)系)進(jìn)行有效提取,能有效地指導(dǎo)模型分割出圖像中正確的地方,但存在類別特征不突出導(dǎo)致分割不夠精確的問題。此外,加入了1D小波變換的對(duì)比結(jié)果可以看到,小波變換能有效地在頻域上結(jié)合兩個(gè)文本編碼器的提取,進(jìn)而有效地結(jié)合兩個(gè)編碼器提取的特征。
4 結(jié)束語
本文提出了一種基于CLIP圖像編碼器和小波變換文本特征融合的新方法PixelCLIP,用于零樣本參考圖像分割任務(wù)。首先,利用CLIP圖像編碼器提取圖像的粗特征和中間層細(xì)粒度特征,并通過多層次特征融合網(wǎng)絡(luò)將這些細(xì)粒度特征與圖像粗特征融合,從而保留圖像的空間信息和局部細(xì)節(jié)。其次,使用LLaVA的文本編碼器提取全局文本特征,通過小波變換將類別特征與全局特征融合,得到增強(qiáng)后的高級(jí)文本特征。最后將圖像特征和文本特征在匹配模塊中進(jìn)行對(duì)齊和匹配,生成最終的分割掩碼。
通過實(shí)驗(yàn)驗(yàn)證,PixelCLIP在多個(gè)數(shù)據(jù)集上均表現(xiàn)出色,尤其在處理復(fù)雜的語言描述和長文本時(shí)具有明顯優(yōu)勢。這表明本文提出的網(wǎng)絡(luò)模塊在捕捉圖像和文本的細(xì)粒度信息以及在兩個(gè)模態(tài)之間建立精確的對(duì)應(yīng)關(guān)系方面具有重要的價(jià)值。未來的研究方向可以進(jìn)一步優(yōu)化模型結(jié)構(gòu),提升計(jì)算效率。
參考文獻(xiàn):
[1]劉建偉, 劉媛, 羅雄麟. 深度學(xué)習(xí)研究進(jìn)展 [J]. 計(jì)算機(jī)應(yīng)用研究, 2014, 31(7): 1921-1930, 1942. (Liu Jianwei, Liu Yuan, Luo Xionglin. Research and development on deep learning [J]. Application Research of Computers, 2014, 31(7): 1921-1930, 1942.)
[2]Radford A, Kim J W, Hallacy C, et al. Learning transferable visual models from natural language supervision [C]// Proc of International Conference on Machine Learning. [S.l.]:PMLR, 2021: 8748-8763.
[3]趙永強(qiáng), 饒?jiān)?董世鵬, 等. 深度學(xué)習(xí)目標(biāo)檢測方法綜述 [J]. 中國圖象圖形學(xué)報(bào), 2020, 25(4): 629-654. (Zhao Yongqiang, Rao Yuan, Dong Shipeng, et al. Survey on deep learning object detection [J]. Journal of Image and Graphics, 2020, 25(4): 629-654.)
[4]田萱, 王亮, 丁琪. 基于深度學(xué)習(xí)的圖像語義分割方法綜述 [J]. 軟件學(xué)報(bào), 2019, 30(2): 440-468. (Tian Xuan, Wang Liang, Ding Qi. Review of image semantic segmentation based on deep learning [J]. Journal of Software, 2019, 30(2): 440-468.)
[5]佟國香, 李樂陽. 基于圖神經(jīng)網(wǎng)絡(luò)和引導(dǎo)向量的圖像字幕生成模型 [J]. 數(shù)據(jù)采集與處理, 2023, 38(1): 209-219. (Tong Guo-xiang, Li Yueyang. Image caption generation model based on graph neural network and guidance vector [J]. Journal of Data Acquisition and Processing, 2023, 38(1): 209-219.)
[6]包希港, 周春來, 肖克晶, 等. 視覺問答研究綜述 [J]. 軟件學(xué)報(bào), 2021, 32(8): 2522-2544. (Bao Xigang, Zhou Chunlai, Xiao Kejing, et al. Survey on visual question answering [J]. Journal of Software, 2021, 32(8): 2522-2544.)
[7]羅希平, 田捷, 諸葛嬰, 等. 圖像分割方法綜述 [J]. 模式識(shí)別與人工智能, 1999, 12(3): 300-312. (Luo Xiping, Tian Jie, Zhuge Ying, et al. A survey on image segmentation methods [J]. Pattern Recognition and Artificial Intelligence, 1999, 12(3): 300-312.)
[8]沃焱, 韓國強(qiáng), 張見威. 基于自適應(yīng)預(yù)處理的圖像分割方法 [J]. 電子與信息學(xué)報(bào), 2007, 29(1): 87-91. (Wo Yan, Han Guoqiang, Zhang Jianwei. Image segmentation method based on adaptive preprocessing [J]. Journal of Electronics and Information Technology, 2007, 29(1): 87-91.)
[9]Zhou Ziqin, Lei Yinjie, Zhang Bowen, et al. ZegCLIP: towards adapting CLIP for zero-shot semantic segmentation [C]// Proc of IEEE/CVF Conference on Computer Vision and Pattern Recognition. Piscataway, NJ: IEEE Press, 2023: 11175-11185.
[10]Liang Feng, Wu Bichen, Dai Xiaoliang, et al. Open-vocabulary semantic segmentation with mask-adapted CLIP [C]// Proc of IEEE/CVF Conference on Computer Vision and Pattern Recognition. Piscata-way, NJ: IEEE Press, 2023: 7061-7070.
[11]Liu Haotian, Li Chunyuan, Wu Qingyang, et al. Visual instruction tuning [EB/OL]. (2023-12-11).https://arxiv.org/abs/2304.08485.
[12]Zhang Jingyi, Huang Jiaxing, Jin Sheng, et al. Vision-language mo-dels for vision tasks: a survey [J]. IEEE Trans on Pattern Analysis and Machine Intelligence, 2024, 46(8): 5625-5644.
[13]Desai K, Johnson J. VirTex: learning visual representations from textual annotations [C]// Proc of IEEE/CVF Conference on Computer Vision and Pattern Recognition. Piscataway, NJ: IEEE Press, 2021: 11157-11168.
[14]Carion N, Massa F, Synnaeve G, et al. End-to-end object detection with transformers[C]// Proc of European Conference on Computer Vision. Cham: Springer, 2020: 213-229.
[15]Xu K, Ba J, Kiros R, et al. Show, attend and tell: neural image caption generation with visual attention [C]// Proc of International Conference on Machine Learning. [S.l.]:PMLR, 2015: 2048-2057.
[16]Tan Hao, Bansal M. LXMERT: learning cross-modality encoder representations from Transformers [EB/OL]. (2019-12-03). https://arxiv.org/abs/1908.07490.
[17]Xu Peng, Shao Wenqi, Zhang Kaipeng, et al. LVLM-EHub: a comprehensive evaluation benchmark for large vision-language models [J/OL]. IEEE Trans on Pattern Analysis and Machine Intelligence. (2023-06-15). https://arxiv.org/abs/2306.09265.
[18]Li Junnan, Li Dongxu, Savarese S, et al. BLIP-2: bootstrapping language-image pre-training with frozen image encoders and large language models [C]// Proc of International Conference on Machine Learning. [S.l.]:PMLR, 2023: 19730-19742.
[19]Yenduri G, Ramalingam M, Selvi G C, et al. GPT (generative pre-trained Transformer)—a comprehensive review on enabling technologies, potential applications, emerging challenges, and future directions [J]. IEEE Access, 2024, 12: 54608-54649.
[20]Han Zongyan, Fu Zhenyong, Chen Shuo, et al. Contrastive embedding for generalized zero-shot learning [C]// Proc of IEEE/CVF Conference on Computer Vision and Pattern Recognition. Piscataway, NJ: IEEE Press, 2021: 2371-2381.
[21]Mikolov T, Sutskever I, Chen Kai, et al. Distributed representations of words and phrases and their compositionality [C]// Proc of the 26th International Conference on Neural Information Processing Systems. New York: ACM Press, 2013: 3111-3119.
[22]Jia Chao, Yang Yinfei, Xia Ye, et al. Scaling up visual and vision-language representation learning with noisy text supervision [C]// Proc of International Conference on Machine Learning. [S.l.]:PMLR, 2021: 4904-4916.
[23]Mokady R, Hertz A, Bermano A H. ClipCap: clip prefix for image captioning [EB/OL]. (2021-11-18). https://arxiv.org/abs/2111.09734.
[24]Wang Mengmeng, Xing Jiazheng, Liu Yong. ActionClip: a new paradigm for video action recognition [EB/OL]. (2021-09-17). https://arxiv.org/abs/2109.08472.
[25]Li Ruiyu, Li Kaican, Kuo Yichun, et al. Referring image segmentation via recurrent refinement networks [C]// Proc of IEEE/CVF Conference on Computer Vision and Pattern Recognition. Piscataway, NJ: IEEE Press, 2018: 5745-5753.
[26]Luo Gen, Zhou Yiyi, Sun Xiaoshuai, et al. Multi-task collaborative network for joint referring expression comprehension and segmentation [C]// Proc of IEEE/CVF Conference on Computer Vision and Pattern Recognition. Piscataway, NJ: IEEE Press, 2020: 10031-10040.
[27]Feng Guang, Hu Zhiwei, Zhang Lihe, et al. Encoder fusion network with co-attention embedding for referring image segmentation [C]// Proc of IEEE/CVF Conference on Computer Vision and Pattern Re-cognition. Piscataway, NJ: IEEE Press, 2021: 15501-15510.
[28]Ding Henghui, Liu Chang, Wang Suchen, et al. Vision-language transformer and query generation for referring segmentation [C]// Proc of IEEE/CVF International Conference on Computer Vision. Piscataway, NJ: IEEE Press, 2021: 16301-16310.
[29]Bird S. NLTK: the natural language toolkit[EB/OL]. (2002-05-17). https://arxiv.org/abs/cs/0205028.
[30]Nagaraja V K, Morariu V I, Davis L S. Modeling context between objects for referring expression understanding" [C]// Proc of the 14th European Conference on Computer Vision. Cham: Springer, 2016: 792-807.
[31]Kazemzadeh S, Ordonez V, Matten M, et al. ReferItGame: referring to objects in photographs of natural scenes [C]//Proc of Conference on Empirical Methods in Natural Language Processing. Stroudsburg, PA: Association for Computational Linguistics, 2014: 787-798.
[32]Mao Junhua, Huang J, Toshev A, et al. Generation and comprehension of unambiguous object descriptions [C]// Proc of IEEE Confe-rence on Computer Vision and Pattern Recognition. Piscataway, NJ: IEEE Press, 2016: 11-20.
[33]Yu Licheng, Poirson P, Yang Shan, et al. Modeling context in referring expressions [C]// Proc of the 14th European Conference on Computer Vision. Cham: Springer, 2016: 69-85.
[34]Selvaraju R R, Cogswell M, Das A, et al. Grad-CAM: visual explanations from deep networks via gradient-based localization [C]// Proc of IEEE International Conference on Computer Vision. Piscata-way, NJ: IEEE Press, 2017: 618-626.
[35]Zhou Chong, Loy C C, Dai Bo. Extract free dense labels from CLIP [C]// Proc of European Conference on Computer Vision. Cham: Springer, 2022: 696-712.
[36]Li Jiahao, Shakhnarovich G, Yeh R A. Adapting CLIP for phrase localization without further training [EB/OL]. (2022-04-07). https://arxiv.org/abs/2204.03647.
[37]Ding Jian, Xue Nan, Xia Guisong, et al. Decoupling zero-shot semantic segmentation [C]// Proc of IEEE/CVF Conference on Computer Vision and Pattern Recognition. Piscataway, NJ: IEEE Press, 2022: 11573-11582.
[38]林浩然, 劉春黔, 薛榕融, 等. 基于多模態(tài)特征頻域融合的零樣本指稱圖像分割 [J]. 計(jì)算機(jī)應(yīng)用研究, 2024, 41(5): 1562-1568. (Lin Haoran, Liu Chunqian, Xue Rongrong, et al. Zero-shot referring image segmentation based on multimodal feature frequency domain fusion [J]. Application Research of Computers, 2024, 41(5): 1562-1568.)