林浩然 劉春黔 薛榕融 謝勛偉 雷印杰
摘 要:為了解決語(yǔ)義分割應(yīng)用到現(xiàn)實(shí)世界的下游任務(wù)時(shí)無(wú)法處理未定義類(lèi)別的問(wèn)題,提出了指稱(chēng)圖像分割任務(wù)。該任務(wù)根據(jù)自然語(yǔ)言文本的描述找到圖像中對(duì)應(yīng)的目標(biāo)。現(xiàn)有方法大多使用一個(gè)跨模態(tài)解碼器來(lái)融合從視覺(jué)編碼器和語(yǔ)言編碼器中獨(dú)立提取的特征,但是這種方法無(wú)法有效利用圖像的邊緣特征且訓(xùn)練復(fù)雜。CLIP(contrastive language-image pre-training)是一個(gè)強(qiáng)大的預(yù)訓(xùn)練視覺(jué)語(yǔ)言跨模態(tài)模型,能夠有效提取圖像與文本特征,因此提出一種在頻域融合CLIP編碼后的多模態(tài)特征方法。首先,使用無(wú)監(jiān)督模型對(duì)圖像進(jìn)行粗粒度分割,并提取自然語(yǔ)言文本中的名詞用于后續(xù)任務(wù);接著利用CLIP的圖像編碼器與文本編碼器分別對(duì)圖像與文本進(jìn)行編碼;然后使用小波變換分解圖像與文本特征,可以充分利用圖像的邊緣特征與圖像內(nèi)的位置信息在頻域進(jìn)行分解并融合,并在頻域分別對(duì)圖像特征與文本特征進(jìn)行融合,并將融合后的特征進(jìn)行反變換;最后將文本特征與圖像特征進(jìn)行逐像素匹配,得到分割結(jié)果,并在常用的數(shù)據(jù)集上進(jìn)行了測(cè)試。實(shí)驗(yàn)結(jié)果證明,網(wǎng)絡(luò)在無(wú)訓(xùn)練零樣本的條件下取得了良好的效果,并且具有較好的魯棒性與泛化能力。
關(guān)鍵詞:指稱(chēng)圖像分割; CLIP; 小波變換; 零樣本
中圖分類(lèi)號(hào):TP391 文獻(xiàn)標(biāo)志碼:A?文章編號(hào):1001-3695(2024)05-040-1562-07
doi:10.19734/j.issn.1001-3695.2023.08.0387
Zero-shot referring image segmentation based onmultimodal feature frequency domain fusion
Abstract:In order to solve the problem that semantic segmentation cannot handle undefined categories when applied to downstream tasks in the real world, it proposed referring image segmentation to find the corresponding target in the image according to the description of natural language text. Most of the existing methods use a cross-modal decoder to fuse the features extracted independently from the visual encoder and language encoder, but these methods cannot effectively utilize the edge features of the image and are complicated to train. CLIP is a powerful pre-trained visual language cross-modal model that can effectively extract image and text features. Therefore, this paper proposed a method of multimodal feature fusion in the frequency domain after CLIP encoding. Firstly, it used an unsupervised model to segment images, and extracted nouns in natural language text for follow-up task. Then it used the image encoder and text encoder of CLIP to encode the image and text respectively. Then it used the wavelet transform to decompose the image and text features,and decomposed and fused in the frequency domain which could make full use of the edge features of the image and the position information in the image, fused the image feature and text feature respectively in the frequency domain, then inversed the fused features. Finally, it matched the text features and image features pixel by pixel, and obtained the segmentation results, and tested on commonly used data sets. The experimental results prove that the network has achieved good results without training zero samples, and has good robustness and generalization ability.
Key words:referring image segmentation; CLIP; wavelet transform; zero-shot
0 引言
語(yǔ)義分割(semantic segmentation)是計(jì)算機(jī)視覺(jué)中的基本任務(wù),是按照“語(yǔ)義”給圖像上目標(biāo)類(lèi)別中的每一點(diǎn)打一個(gè)標(biāo)簽,使得不同種類(lèi)的東西在圖像上被區(qū)分開(kāi)來(lái),需要將視覺(jué)輸入分為不同的語(yǔ)義可解釋類(lèi)別。語(yǔ)義分割可以用于醫(yī)學(xué)圖像中檢測(cè)疾病和身體損傷,也可以用于檢測(cè)城市街景。語(yǔ)義分割技術(shù)還可以幫助自動(dòng)駕駛汽車(chē)提高對(duì)道路上物體的識(shí)別能力,從而更好地保障行車(chē)安全。
近年來(lái),以深度學(xué)習(xí)為中心的機(jī)器學(xué)習(xí)技術(shù)引起了人們的關(guān)注。比如汽車(chē)自動(dòng)駕駛已經(jīng)逐漸成為可能,但在整個(gè)深度學(xué)習(xí)過(guò)程,需要算法識(shí)別原始數(shù)據(jù)提供的圖像,在這一過(guò)程中,就需要用到語(yǔ)義分割技術(shù)。
現(xiàn)有的語(yǔ)義分割網(wǎng)絡(luò)能夠在測(cè)試集上有效實(shí)現(xiàn)分割的功能,但是現(xiàn)有網(wǎng)絡(luò)在應(yīng)用到現(xiàn)實(shí)世界的下游任務(wù)時(shí)存在很多局限性,現(xiàn)實(shí)世界中存在著大量訓(xùn)練時(shí)未見(jiàn)過(guò)的類(lèi)別,這些網(wǎng)絡(luò)無(wú)法處理未定義的類(lèi)別,因此實(shí)現(xiàn)這些未定義類(lèi)別的分割具有挑戰(zhàn)性,進(jìn)而提出了指稱(chēng)圖像分割(referring image segmentation,RIF)[1]。這個(gè)任務(wù)能夠在給定描述區(qū)域的自然語(yǔ)言文本的條件下在圖像中找到與自然語(yǔ)言文本匹配的特定區(qū)域,其目標(biāo)是對(duì)自然語(yǔ)言表達(dá)所描述的物體進(jìn)行分割。通過(guò)一段自然語(yǔ)言表述(query)在圖像中分割出對(duì)應(yīng)實(shí)例,在人機(jī)交互、照片編輯等場(chǎng)景有著廣泛應(yīng)用。
解決指稱(chēng)圖像分割問(wèn)題的一個(gè)常用方法是利用一個(gè)強(qiáng)大的視覺(jué)語(yǔ)言(“跨模態(tài)”)解碼器來(lái)融合從視覺(jué)編碼器和語(yǔ)言編碼器中獨(dú)立提取的特征。最近方法利用Transformer[2]作為跨模態(tài)解碼器在多種視覺(jué)語(yǔ)言任務(wù)中獲得了顯著的成功。CLIP(contrastive language-image pre-training)[3]是一個(gè)對(duì)比語(yǔ)言-圖像預(yù)訓(xùn)練模型,具有強(qiáng)大的跨模態(tài)編碼能力,是一種可以同時(shí)處理文本和圖像的預(yù)訓(xùn)練模型。CLIP的核心思想是學(xué)習(xí)圖像和文本之間的匹配關(guān)系來(lái)提高模型的性能。CLIP基于多模態(tài)對(duì)比學(xué)習(xí),與計(jì)算機(jī)視覺(jué)中常用的一些對(duì)比學(xué)習(xí)方法如MoCo[4]和SimCLR[5]不同的是,CLIP的訓(xùn)練數(shù)據(jù)是文本-圖像對(duì),因此本文考慮使用CLIP來(lái)提取文本與圖像的特征。但是CLIP只能提取圖像的粗粒度特征,想要找到文本對(duì)應(yīng)的區(qū)域需要預(yù)先將圖像進(jìn)行分割,將分割后的掩碼進(jìn)行編碼后與文本進(jìn)行匹配。FreeSOLO[6]是一種完全無(wú)監(jiān)督的學(xué)習(xí)方法,可以在沒(méi)有任何注釋的情況下對(duì)實(shí)例進(jìn)行分割。但是直接融合經(jīng)過(guò)CLIP編碼的圖像特征與分割后的圖像特征,無(wú)法充分利用圖像的邊緣信息。小波變換是一種在頻域進(jìn)行信號(hào)處理的方式,當(dāng)用于圖像處理時(shí),小波變換的高通濾波器可以提取圖像的邊緣特征,低通濾波器可以有效利用數(shù)據(jù)之間的信息,因此可以用于細(xì)粒度的特征處理。文獻(xiàn)[7]使用小波變換來(lái)對(duì)丟失的人臉特征進(jìn)行提取,使人臉圖像更加清晰。文獻(xiàn)[8]提出了一種多級(jí)離散小波融合的方法,能夠有效地融合特征。
當(dāng)使用前述方法進(jìn)行指稱(chēng)圖像分割時(shí),都存在著特征與文本難以匹配或者圖像特征提取不充分的問(wèn)題。因此,本文提出了一種使用小波變換在頻域融合通過(guò)CLIP提取圖像與文本特征的方法,用于zero-shot的指稱(chēng)圖像分割。
1 相關(guān)工作
1.1 語(yǔ)義分割
語(yǔ)義分割是將像素按照?qǐng)D像中表達(dá)語(yǔ)義含義的不同進(jìn)行分割,如將原始圖像中不同類(lèi)別的像素分配相應(yīng)的標(biāo)簽。語(yǔ)義分割的目標(biāo)是將語(yǔ)義標(biāo)簽分配給圖像中的每個(gè)像素,其中語(yǔ)義標(biāo)簽通常包括不同范圍的物體類(lèi)別(人、狗、公共汽車(chē)、自行車(chē))和背景成分(天空、道路、建筑物、山)。不同于目標(biāo)檢測(cè)和識(shí)別,語(yǔ)義分割實(shí)現(xiàn)了圖像像素級(jí)的分類(lèi),能夠?qū)⒁粡垐D片或者視頻(視頻以幀來(lái)提取的話其實(shí)就是圖片),按照類(lèi)別的異同,分為多個(gè)塊。
語(yǔ)義分割的開(kāi)山之作FCN[9]第一次將卷積用于語(yǔ)義分割并進(jìn)行了不同尺度的信息融合。U-Net[10]解決了小樣本的分割問(wèn)題并實(shí)現(xiàn)了更加豐富的信息融合。SegNet[11]為了防止信息丟失,提出了一種帶有坐標(biāo)的池化。DeepLab[12]提出了帶孔卷積并引入ASPP(atrous spatial pyramid pooling)結(jié)構(gòu),融合了不同層級(jí)的特征,還添加了一個(gè)簡(jiǎn)單有效的解碼器模塊來(lái)修正分割結(jié)果,并將深度可分離卷積用于ASPP提升網(wǎng)絡(luò)運(yùn)算速度。文獻(xiàn)[13]提出了一種使用空洞卷積融合多級(jí)特征信息的方法,不斷迭代深層特征來(lái)豐富低級(jí)視覺(jué)信息,并與高級(jí)語(yǔ)義特征融合,得到精細(xì)分割結(jié)果的方法。文獻(xiàn)[14]使用了輕量化卷積神經(jīng)網(wǎng)絡(luò),在樣本數(shù)量較少的條件下實(shí)現(xiàn)了SAR圖像的語(yǔ)義分割。
1.2 視覺(jué)與語(yǔ)言編碼
視覺(jué)編碼是指將圖像輸入到神經(jīng)網(wǎng)絡(luò)中,通過(guò)一系列的操作,將圖像轉(zhuǎn)換成一定維度的向量,這個(gè)向量就是圖像的特征向量。視覺(jué)編碼的目的是將圖像信息轉(zhuǎn)換為機(jī)器可以理解和處理的形式,以便于后續(xù)的任務(wù)處理。語(yǔ)言編碼同理,是為了將自然語(yǔ)言文本轉(zhuǎn)換為計(jì)算機(jī)能夠處理的形式。
指稱(chēng)圖像分割的目的是在給定輸入的自然語(yǔ)言表達(dá)的情況下,對(duì)圖像中的目標(biāo)物體進(jìn)行分割。對(duì)于該任務(wù),目前已經(jīng)提出了幾種全監(jiān)督的方法[15~19],其中使用圖像和文本作為輸入,并給出目標(biāo)掩碼進(jìn)行訓(xùn)練。大多數(shù)研究[15,16]的重點(diǎn)是如何融合從獨(dú)立編碼器中提取的不同模態(tài)特征。早期的研究[17,18]通過(guò)簡(jiǎn)單地拼接視覺(jué)和文本特征來(lái)提取多模態(tài)特征,并將其輸入文獻(xiàn)[9]提出的分割網(wǎng)絡(luò),以此預(yù)測(cè)分割mask。文獻(xiàn)[16]提出了基于注意力機(jī)制的編碼器融合多模態(tài)特征,還有使用基于Transformer解碼器的跨模態(tài)解碼器融合多模態(tài)特征[15]方法的文獻(xiàn)。最近,已經(jīng)提出了一種基于CLIP的方法[19],該方法使用對(duì)比預(yù)訓(xùn)練學(xué)習(xí)分離的圖像和文本轉(zhuǎn)換器。這些全監(jiān)督的指稱(chēng)圖像分割方法總體上表現(xiàn)出良好的性能,但需要對(duì)目標(biāo)掩碼進(jìn)行密集的標(biāo)注和對(duì)目標(biāo)對(duì)象進(jìn)行全面描述。為了解決這個(gè)問(wèn)題,Strudel等人[20]提出了一種弱監(jiān)督指稱(chēng)圖像分割方法,該方法使用基于文本的圖像級(jí)監(jiān)督學(xué)習(xí)分割模型。然而,該方法仍然需要對(duì)特定數(shù)據(jù)集的圖像進(jìn)行高級(jí)引用表達(dá)式注釋。Yu等人[21]提出了一種無(wú)訓(xùn)練的方法,使用CLIP對(duì)全局-局部上下文特征進(jìn)行提取實(shí)現(xiàn)了分割,但是在圖像的特征提取方面仍然可以改進(jìn)。因此本文使用CLIP的編碼器提取特征并在頻域進(jìn)行特征融合。
1.3 指稱(chēng)圖像分割
指稱(chēng)圖像分割需要在給定描述區(qū)域的自然語(yǔ)言文本條件下,在圖像中找到與自然語(yǔ)言文本匹配的特定區(qū)域,現(xiàn)有方法中通常有兩個(gè)步驟:a)分別從文本和圖像輸入中提取特征;b)融合多模態(tài)特征來(lái)預(yù)測(cè)分割掩碼。在第一個(gè)過(guò)程中,之前方法采用遞歸神經(jīng)網(wǎng)絡(luò)和Transformer[22]對(duì)文本輸入進(jìn)行編碼。為了對(duì)輸入圖像進(jìn)行編碼,在之前的方法中先后使用了vanilla全卷積網(wǎng)絡(luò)[1]、Deeplab v3[12]和DarkNet[23],目的是學(xué)習(xí)判別表示。多模態(tài)特征融合是現(xiàn)有方法的一個(gè)關(guān)鍵環(huán)節(jié)。文獻(xiàn)[1]提出了第一種串聯(lián)操作的方法;文獻(xiàn)[18]采用循環(huán)策略對(duì)其進(jìn)行了改進(jìn);文獻(xiàn)[24]通過(guò)各種注意機(jī)制對(duì)語(yǔ)言和視覺(jué)特征之間的跨模態(tài)關(guān)系進(jìn)行建模;文獻(xiàn)[25]利用句子結(jié)構(gòu)知識(shí)捕獲多模態(tài)特征中的不同概念(如類(lèi)別、屬性、關(guān)系等);文獻(xiàn)[22]利用詞間的句法結(jié)構(gòu)指導(dǎo)多模態(tài)上下文聚合。本文采用一種使用已有CLIP的編碼器對(duì)圖像和文本進(jìn)行編碼的方法,可以實(shí)現(xiàn)無(wú)訓(xùn)練、零樣本的圖像分割。
2 整體框架
為了解決指稱(chēng)圖像分割任務(wù),首先要學(xué)習(xí)投影到多模態(tài)嵌入空間中的圖像與文本特征。為此,本文提出頻域融合指稱(chēng)圖像分割方法(frequency domain fusion referring-image-segmentation,F(xiàn)DFR),采用CLIP[3]的圖像和文本編碼器來(lái)處理圖像和自然語(yǔ)言的跨模態(tài)特征。網(wǎng)絡(luò)框架由三部分組成,如圖1所示:a)用于圖像特征的CLIP編碼器;b)用于文本特征的CLIP自然語(yǔ)言編碼器;c)用于頻域融合的小波變換特征處理器。給定一組由FreeSOLO[6]生成的預(yù)測(cè)掩碼,本文首先對(duì)每個(gè)預(yù)測(cè)掩碼進(jìn)行裁剪,使用CLIP對(duì)裁剪后的特征以及完整的圖像進(jìn)行編碼,在頻域?qū)煞N編碼特征進(jìn)行分解并將分解后的特征融合,再進(jìn)行反變換得到圖像特征。輸入文本使用NLTK提取到名詞,使用CLIP對(duì)完整的自然語(yǔ)言文本和名詞進(jìn)行編碼,使用1D的小波變換對(duì)文本進(jìn)行處理并在頻域融合后進(jìn)行反變換提取到文本特征,最后將特征進(jìn)行匹配得到分割結(jié)果。
本文會(huì)詳細(xì)介紹模型的各個(gè)模塊。首先展示方法的總體框架,然后給出具體的圖像特征與文本特征的提取方法,提取全局特征與局部特征并進(jìn)行融合的方法,總體框架如圖1所示。
2.1 多模態(tài)特征提取
指稱(chēng)圖像分割任務(wù)需要充分利用圖像特征,因?yàn)镃LIP是為了學(xué)習(xí)粗粒度圖像級(jí)表示設(shè)計(jì)的,不支持細(xì)粒度像素級(jí)的表征,并不能直接適用于完成圖像分割的任務(wù),對(duì)此本文采用一種提取分割后圖像的局部特征的匹配方式。本文首先使用FreeSOLO對(duì)輸入的圖像進(jìn)行分割來(lái)獲取分割后的圖像,后續(xù)使用CLIP的編碼器對(duì)分割后的圖像進(jìn)行處理。
對(duì)于每一個(gè)預(yù)測(cè)掩碼,F(xiàn)DFR首先使用CLIP預(yù)訓(xùn)練模型提取并進(jìn)行編碼。然而,CLIP的原始圖像特征處理器是使用單一的特征向量來(lái)描述整個(gè)圖像。為了解決這個(gè)問(wèn)題,需要對(duì)CLIP中的圖像編碼器進(jìn)行修改,以提取包含被遮擋區(qū)域和周?chē)鷧^(qū)域信息的特征,學(xué)習(xí)多個(gè)對(duì)象之間的特性。
CLIP具有兩種圖像編碼器,分別使用了ResNet和Vision Transformer(ViT)兩種不同的架構(gòu)。本文使用了兩種編碼器對(duì)特征進(jìn)行處理并對(duì)比結(jié)果。
其中:image是輸入的圖像;CLIPresnet-50和CLIPvit-B/32分別代表了使用CLIP的ResNet-50和Vit-B/32兩種不同架構(gòu)的編碼器;fv-res和fv-vit表示的兩種編碼器分別對(duì)圖像的編碼結(jié)果。
上一步本文得到了分割后的圖像,對(duì)分割后的圖像和原本的圖像同時(shí)使用相同的CLIP編碼器處理,得到flocal和fglobal兩種特征,用于后續(xù)在頻域的特征融合。
與圖像的處理相似,CLIP的文本編碼器在訓(xùn)練時(shí)使用的是僅有少量單詞的短句,因此缺乏上下文的語(yǔ)義理解能力,無(wú)法應(yīng)對(duì)復(fù)雜的長(zhǎng)句,所以需要對(duì)自然語(yǔ)言文本中的名詞進(jìn)行提取,并與分割后的圖像進(jìn)行匹配。因此本文輸入完整的文本并使用NLTK提取文本中的名詞,可以表示為
textnoun=NLTK(text)(2)
其中:text是輸入的完整文本;textnoun是使用NLTK提取后的名詞,使用CLIP的文本編碼器分別對(duì)文本和名詞進(jìn)行處理獲得文本特征。
其中:fsentence代表完整文本的特征;fnoun代表名詞特征。后續(xù)將對(duì)得到的完整文本特征與名詞特征進(jìn)行融合。
2.2 頻域特征融合
提取到需要的圖像特征后,此時(shí)的邊緣特征是不完善的,使用這樣的圖像特征與文本特征直接進(jìn)行匹配,無(wú)法有效判斷文本描述的內(nèi)容在圖像中的位置,并且難以辨別圖像中相似的內(nèi)容,導(dǎo)致分割結(jié)果出現(xiàn)誤差。為了有效利用邊緣特征以及判別圖像中的相似內(nèi)容,需要進(jìn)一步對(duì)特征進(jìn)行處理,采取哈爾變換[26]來(lái)實(shí)現(xiàn)并融合。哈爾變換(圖2)包含了一個(gè)高通濾波器(high pass filter)和一個(gè)低通濾波器(low pass filter),其中高通濾波器用于提取邊緣特征,低通濾波器用于圖像近似。
本文將前面得到的圖像特征與分割后的圖像特征均使用哈爾小波進(jìn)行分解,可以得到低頻與高頻的特征,分別對(duì)低頻與高頻的特征進(jìn)行融合(圖2),再進(jìn)行反變換得到用于對(duì)比的圖像特征。
哈爾小波的母小波可以表示為
且對(duì)應(yīng)的尺度函數(shù)可以表示為
其濾波器h[n]被定義為
使用式(8)對(duì)特征進(jìn)行處理。
其中:f是輸入的前面使用CLIP編碼的特征;α和τ代表尺度因子和平移量。
利用小波變換得到flocal和fglobal在頻域的特征fl_wave和fg_wave,在頻域?qū)μ卣鬟M(jìn)行融合:fw=λfl_wave+(1-λ)fg_wave(9)
其中:fw是在頻域融合后的頻域特征;λ是在[0,1]的超參數(shù)。使用小波逆向變換,將頻域特征變換為融合后的圖像特征:
其中:fv是逆變換后得到的圖像特征,這里的小波函數(shù)ξ(t)是一個(gè)滿足正交條件的函數(shù),即
其中:δ(t)是單位沖激函數(shù)。
和上面的圖像特征相似,在頻域進(jìn)行融合并逆變換,因?yàn)槲谋咎卣骶S度的緣故,這里使用1D小波變換。將前面得到的自然語(yǔ)言特征與名詞特征使用1D小波進(jìn)行分解得到高頻與低頻特征,并分別對(duì)高頻與低頻特征進(jìn)行融合(圖3),再進(jìn)行反變換得到用于對(duì)比的文本特征,如圖3所示。
其中:DWT1D代表1D小波變換;fs_wave和fnoun_wave分別是完整文本和名詞文本在頻域的特征。
其中:ft是逆變換后的最終文本特征;IDWT1D代表逆變換。
2.3 文本-圖像匹配
通過(guò)上面的操作,能夠得到融合后的圖像特征fv和文本特征ft。給定圖像和文本特征的輸入,通過(guò)計(jì)算余弦相似度對(duì)比所有的預(yù)測(cè)掩碼與文本特征,在所有預(yù)測(cè)掩碼中找到其圖像特征與文本特征之間相似性最高的掩碼,這個(gè)相似性最高的掩碼即為分割的結(jié)果。
pred=arg max sim(fv,ft)(15)
其中:pred是匹配的預(yù)測(cè)掩碼結(jié)果;fv是融合后的圖像特征;ft是融合后的文本特征;sim是計(jì)算兩種特征的余弦相似度。
余弦相似度計(jì)算公式如下:
通過(guò)余弦相似度的匹配計(jì)算,可以找出和文本特征相似度最高的預(yù)測(cè)掩碼,也就是分割結(jié)果。
3 實(shí)驗(yàn)與分析
3.1 數(shù)據(jù)集介紹
實(shí)驗(yàn)訓(xùn)練使用的數(shù)據(jù)集是RefCOCO、RefCOCO+[27]、RefCOCOg[28],這三個(gè)數(shù)據(jù)集是三個(gè)從MS COCO(Microsoft common objects in context)中選取圖像和參考對(duì)象的可視化接地?cái)?shù)據(jù)集。
a)RefCOCO數(shù)據(jù)集。共有19 994幅圖像,包含142 209個(gè)引用表達(dá)式,包含50 000個(gè)對(duì)象實(shí)例。遵循train/validation/test A/test B的拆分,testA中的圖像包含多人,testB中的圖像包含所有其他對(duì)象。每個(gè)文本表達(dá)式平均3.5個(gè)單詞,平均每張圖像具有1.6個(gè)對(duì)象。
b)RefCOCO+數(shù)據(jù)集。共有19 992幅圖像,包含49 856個(gè)對(duì)象實(shí)例的141 564個(gè)引用表達(dá)式。遵循train/validation/test A/test B的拆分,并且查詢(xún)不包含絕對(duì)的方位詞,如描述對(duì)象在圖像中位置的右邊。每個(gè)文本表達(dá)式平均3.5個(gè)單詞,平均每張圖像具有3.9個(gè)對(duì)象。
c)RefCOCOg數(shù)據(jù)集。共有26 711幅圖像,指稱(chēng)表達(dá)式104 560個(gè),對(duì)象實(shí)例54 822個(gè)。數(shù)據(jù)集在非交互場(chǎng)景中收集。每個(gè)文本表達(dá)式平均包含8.4個(gè)單詞,平均每張圖像具有3.9個(gè)對(duì)象,相比之下更難完成任務(wù)。相比前兩個(gè)數(shù)據(jù)集,RefCOCO+的一個(gè)特點(diǎn)是在文本表達(dá)中禁止使用位置詞,使該數(shù)據(jù)集在指稱(chēng)圖像分割任務(wù)中更具挑戰(zhàn)性,因此該數(shù)據(jù)集可以更好地評(píng)估算法理解實(shí)例級(jí)細(xì)節(jié)的能力。
3.2 數(shù)據(jù)預(yù)處理與實(shí)現(xiàn)細(xì)節(jié)
本文實(shí)驗(yàn)使用的操作系統(tǒng)為Ubuntu 18.04,使用PyTorch 1.10深度學(xué)習(xí)框架,使用顯卡為NVIDIA GeForce RTX 3090,24 GB顯存,使用的CPU為Intel?Xeon?CPU E5-2630 v4 @ 2.20 GHz×40,256 GB RAM。
初始圖像存在研究之外的區(qū)域,導(dǎo)致圖像的質(zhì)量不佳,而將進(jìn)行圖像裁剪可以改善圖像質(zhì)量,消除噪聲,統(tǒng)一圖像灰度值及尺寸。因此本文在對(duì)圖像進(jìn)行預(yù)處理時(shí),需要對(duì)圖像進(jìn)行裁剪,用于后序特征提取。輸入圖像維度是[3, 428, 640],將其裁剪為[3, 224, 224]。同時(shí)為了文本的統(tǒng)一,需要將文本內(nèi)容轉(zhuǎn)換為小寫(xiě)字母。
然后使用FreeSOLO對(duì)圖像進(jìn)行分割,并使用NLTK對(duì)完整的自然語(yǔ)言文本進(jìn)行提取,F(xiàn)reeSOLO分割得到圖像的預(yù)測(cè)掩碼,NLTK提取到輸入文本中的名詞。使用CLIP的圖像編碼器分別對(duì)完整圖像與分割后的圖像進(jìn)行編碼,使用CLIP文本編碼器對(duì)完整文本與名詞進(jìn)行編碼。
接著在頻域融合編碼后的特征,首先使用哈爾小波對(duì)輸入的圖像特征進(jìn)行分解,然后在高頻與低頻進(jìn)行圖像的特征融合,最后進(jìn)行反變換,得到最終的圖像特征。文本特征與圖像特征有一點(diǎn)區(qū)別,文本是一維的信息,因此文本特征使用1D的哈爾小波進(jìn)行分解,然后分別在高頻與低頻融合編碼后的文本特征,再進(jìn)行反變換。文中設(shè)置的頻域融合的超參數(shù)為λ=0.9,=0.6。
最后計(jì)算圖像特征與文本特征的余弦相似度來(lái)找出最合適的預(yù)測(cè)掩碼,也就是分割的結(jié)果,例如圖像特征維度是[88,512],文本特征的維度是[1,512],代表需要從這88個(gè)預(yù)測(cè)掩碼中對(duì)比得到相似度最高的掩碼。
本文在RefCOCO、RefCOCO+、RefCOCOg三個(gè)數(shù)據(jù)集上對(duì)FDFR進(jìn)行測(cè)試,并與其他方法使用相同編碼器得到的分割結(jié)果進(jìn)行對(duì)比。
3.3 評(píng)估標(biāo)準(zhǔn)
交并比(intersection over union,IoU)是目標(biāo)檢測(cè)中使用的一個(gè)概念,IoU計(jì)算的是預(yù)測(cè)邊框和真實(shí)邊框的交疊率,即它們的交集和并集的比值。最理想的情況是完全重疊,即比值為1,IoU的公式為
本文采用oIoU(overall intersection over union)與mIoU(mean intersection over union)[15]來(lái)對(duì)模型進(jìn)行度量,這兩個(gè)指標(biāo)是指稱(chēng)圖像分割任務(wù)的常用指標(biāo)。oIoU是用所有測(cè)試樣本的總相交面積與總結(jié)合面積之比來(lái)衡量的,每個(gè)測(cè)試樣本都是一個(gè)語(yǔ)言表達(dá)和一個(gè)圖像,這個(gè)度量適用于大型對(duì)象。
其中:Ai代表每一個(gè)測(cè)試樣本的預(yù)測(cè)掩碼;Bi代表測(cè)試樣本的標(biāo)簽。
mIoU是所有測(cè)試樣本中預(yù)測(cè)值與真實(shí)值之間的IoU。
其中:pii、pij、pji分別表示預(yù)測(cè)正確、將i預(yù)測(cè)為j、將j預(yù)測(cè)為i的概率;k為預(yù)測(cè)的類(lèi)別數(shù)。
3.4 定量性能對(duì)比實(shí)驗(yàn)
本文將與一些使用CLIP[3]編碼器進(jìn)行編碼的零樣本指稱(chēng)圖像分割的baseline進(jìn)行比較,為了保證對(duì)比的效果,本文在所有的baseline中均使用FreeSOLO生成掩碼提議。
a)Grad-CAM[29]。第一個(gè)baseline是使用基于Grad-CAM生成的梯度加權(quán)類(lèi)激活映射。利用圖像-文本對(duì)的相似度得分獲得激活映射后,對(duì)所有預(yù)測(cè)掩碼進(jìn)行評(píng)分,選擇得分最高的掩碼。
b)score map[30]。這是一種是從MaskCLIP中提取score map的方法。與MaskCLIP一樣,將注意力池化中的一個(gè)線性層和最后一層轉(zhuǎn)換為兩個(gè)連續(xù)的1×1卷積層。將從ResNet中提取的特征直接連接到這兩層,然后與CLIP的文本特征對(duì)比并計(jì)算余弦相似度。在獲得score map后,本文將預(yù)測(cè)掩碼投影到score map。對(duì)不同掩碼的分?jǐn)?shù)取平均值,然后選擇得分最高的預(yù)測(cè)掩碼。
c)region token[31]。這種方法使用了Adapting CLIP,本文對(duì)CLIP視覺(jué)編碼器中所有attention層的每個(gè)預(yù)測(cè)掩碼使用region token,而不是使用超像素。最后,本文計(jì)算每個(gè)預(yù)測(cè)掩碼與CLIP編碼后的文本特征之間的余弦相似度,然后選擇得分最高的掩碼。
d)cropping[32]。最后一個(gè)baseline和本文方法相似,也進(jìn)行了局部特征的提取。在使用CLIP作為編碼器的零樣本密集預(yù)測(cè)任務(wù)中,常常會(huì)用到cropping。因此,本文將裁剪作為零樣本指稱(chēng)圖像分割的baseline之一。
表1、2展示了頻域融合CLIP圖像與文本編碼特征的方法在RefCOCO、RefCOCO+和RefCOCOg三個(gè)數(shù)據(jù)集上的表現(xiàn),本文與其他使用CLIP圖像編碼器的方法,通過(guò)oIoU和mIoU兩種指標(biāo)對(duì)指稱(chēng)圖像分割能力進(jìn)行評(píng)判。本文方法在很大程度上優(yōu)于其他方法。
與其他的baseline對(duì)比oIoU,F(xiàn)DFR使用CLIP的Vit-B/32編碼器進(jìn)行編碼的方法在所有數(shù)據(jù)集中達(dá)到了最佳的效果,同時(shí)使用ResNet-50編碼時(shí),也在不同程度上領(lǐng)先于其他的baseline。
同時(shí),使用FDFR得到的mIoU與其他的baseline相比也具有一定的優(yōu)勢(shì)。在RefCOCO與RefCOCO+這兩個(gè)數(shù)據(jù)集上,本文使用ResNet-50進(jìn)行編碼的方法優(yōu)于所有的baseline,在RefCOCOg數(shù)據(jù)集上,本文使用Vit-B/32進(jìn)行編碼的方法取得了最優(yōu)的效果。
3.5 定性可視化分析
圖4是使用本文方法得到的指稱(chēng)圖像分割與標(biāo)簽之間的對(duì)比,下面給出了三種圖像的示例與可視化對(duì)比。從圖中結(jié)果可以看出本文方法,可以更好地提取圖像的細(xì)節(jié),能夠有效區(qū)分與目標(biāo)相似的掩碼。
3.6 消融實(shí)驗(yàn)
為了證明單個(gè)模塊的有效性,本文分別對(duì)用于圖像預(yù)分割的FreeSOLO網(wǎng)絡(luò)、提取自然語(yǔ)言文本主語(yǔ)的NLTK和頻域融合這三個(gè)模塊進(jìn)行了消融。本文分別使用CLIP的ResNet-50和Vit-B/32兩個(gè)圖像編碼器對(duì)圖像進(jìn)行編碼,消融實(shí)驗(yàn)的結(jié)果如表3所示。
首先對(duì)于ResNet-50圖像編碼器,本文通過(guò)FreeSOLO[6]對(duì)圖像進(jìn)行分割并融合分割后的掩碼特征,消融FreeSOLO后oIoU降低0.87,mIoU降低1.77;消融其他模塊,也出現(xiàn)了類(lèi)似的情況,具體結(jié)果在表格中顯示。
然后對(duì)于Vit-B/32圖像編碼器,與上面的類(lèi)似,對(duì)本文的三個(gè)模塊進(jìn)行消融后性能都有不同程度的下降。從上面的結(jié)果可以看出,在加入了FreeSOLO、NLTK和頻域融合的模塊后,系統(tǒng)性能會(huì)有所提升。
4 結(jié)束語(yǔ)
針對(duì)指稱(chēng)圖像分割中圖像特征提取不充分的問(wèn)題,本文提出了FDFR,即通過(guò)現(xiàn)有的網(wǎng)絡(luò)CLIP[3]與FreeSOLO[6]并在頻域進(jìn)行特征融合來(lái)實(shí)現(xiàn)的指標(biāo)圖像分割算法。利用FreeSOLO提取分割后的圖片,利用NLTK提取自然語(yǔ)言文本中的名詞,再使用CLIP的兩種圖像編碼器對(duì)處理后的圖像編碼,并使用文本編碼器對(duì)自然語(yǔ)言文本和文本名詞進(jìn)行編碼,利用2D小波變換對(duì)圖像特征進(jìn)行分解,1D小波變換對(duì)文本特征進(jìn)行分解,在頻域?qū)崿F(xiàn)特征融合并反變換得到最終的圖像與文本特征,并計(jì)算特征的余弦相似度,得到分割結(jié)果。
本文目的在于利用小波變換的特點(diǎn),使用高通濾波器提取圖像邊緣特征,低通濾波器分析圖像近似性,為指稱(chēng)圖像分割的零樣本研究提供有力支撐。本文的研究證明,小波變化在圖像分割任務(wù)中提取細(xì)粒度特征的有效性,未來(lái)將繼續(xù)在此領(lǐng)域研究,利用更多的方法進(jìn)行更加細(xì)粒度特征的提取。
參考文獻(xiàn):
[1]Hu Ronghang, Rohrbach M, Darrell T. Segmentation from natural language expressions[M]//Leibe B, Matas J, Sebe N, et al. Computer Vision. Cham: Springer International Publishing, 2016: 108-124.
[2]Vaswani A, Shazeer N, Parmar N, et al. Attention is all you need[C]//Proc of the 31st International Conference on Neural Information Processing Systems. Red Hook, NY: Curran Associates Inc., 2017: 6000-6010.
[3]Radford A, Kim J W, Hallacy C, et al. Learning transferable visual models from natural language supervision[C]//Proc of the 38th International Conference on Machine Learning.[S.l.]: PMLR, 2021: 8748-8763.
[4]He Kaiming, Fan Haoqi, Wu Yuxin, et al. Momentum contrast for unsupervised visual representation learning[C]//Proc of IEEE/CVF Conference on Computer Vision and Pattern Recognition. Piscataway, NJ: IEEE Press, 2020: 9729-9738.
[5]Chen Ting, Kornblith S, Norouzi M, et al. A simple framework for contrastive learning of visual representations[C]//Proc of the 37th International Conference on Machine Learning.[S.l.]: PMLR, 2020: 1597-1607.
[6]Wang Xinlong, Yu Zhiding, De Mello S, et al. FreeSOLO: learning to segment objects without annotations[C]//Proc of IEEE/CVF Conference on Computer Vision and Pattern Recognition. Piscataway, NJ: IEEE Press, 2022: 14176-14186.
[7]劉穎, 孫定華, 公衍超. 學(xué)習(xí)小波超分辨率系數(shù)的人臉超分算法[J]. 計(jì)算機(jī)應(yīng)用研究, 2020,37(12): 3830-3835. (Liu Ying, Sun Dinghua, Gong Yanchao. Wavelet based deep learning algorithm for face super resolution[J]. Application Research of Computers, 2020,37(12): 3830-3835.)
[8]王婷, 宣士斌, 周建亭. 融合小波變換和編解碼注意力的異常檢測(cè) [J]. 計(jì)算機(jī)應(yīng)用研究, 2023, 40(7): 2229-2234,2240. (Wang Ting, Xuan Shibing, Zhou Jianting. Anomaly detection fusing wavelet transform and encoder-decoder attention[J]. Application Research of Computers, 2023,40(7): 2229-2234,2240.)
[9]Long J, Shelhamer E, Darrell T. Fully convolutional networks for semantic segmentation[C]//Proc of IEEE Conference on Computer Vision and Pattern Recognition. Piscataway, NJ: IEEE Press, 2015: 3431-3440.
[10]Ronneberger O, Fischer P, Brox T. U-Net: convolutional networks for biomedical image segmentation[C]//Navab N, Hornegger J, Wells W, et al. Medical Image Computing and Computer-Assisted Intervention. Cham: Springer, 2015: 234-241.
[11]Badrinarayanan V, Kendall A, Cipolla R. SegNet: a deep convolutional encoder-decoder architecture for image segmentation[J]. IEEE Trans on Pattern Analysis and Machine Intelligence, 2017,39(12): 2481-2495.
[12]Chen L C, Zhu Yukun, Papandreou G, et al. Encoder-decoder with atrous separable convolution for semantic image segmentation[C]//Proc of European Conference on Computer Vision. Cham: Springer, 2018: 801-818.
[13]馮興杰, 孫少杰. 一種融合多級(jí)特征信息的圖像語(yǔ)義分割方法[J]. 計(jì)算機(jī)應(yīng)用研究, 2020, 37(11): 3512-3515. (Feng Xingjie, Sun Shaojie. Semantic segmentation method integrating multilevel features[J]. Application Research of Computers, 2020,37(11): 3512-3515.)
[14]水文澤, 孫盛, 余旭,等. 輕量化卷積神經(jīng)網(wǎng)絡(luò)在SAR圖像語(yǔ)義分割中的應(yīng)用[J]. 計(jì)算機(jī)應(yīng)用研究, 2021,38(5): 1572-1575,1580. (Shui Wenze, Sun Sheng, Yu Xu. Application of lightweight convolutional neural network in SAR image sematic segmentation[J]. Application Research of Computers, 2021,38(5): 1572-1575,1580.)
[15]Ding Henghui, Liu Chang, Wang Suchen, et al. Vision-language transformer and query generation for referring segmentation[C]//Proc of IEEE/CVF International Conference on Computer Vision. Pisca-taway, NJ: IEEE Press, 2021: 16321-16330.
[16]Feng Guang, Hu Zhiwei, Zhang Lihe, et al. Encoder fusion network with co-attention embedding for referring image segmentation[C]//Proc of IEEE/CVF Conference on Computer Vision and Pattern Re-cognition. Piscataway, NJ: IEEE Press, 2021: 15506-15515.
[17]Li Ruiyu, Li Kaican, Kuo Yichun, et al. Referring image segmentation via recurrent refinement networks[C]//Proc of IEEE Conference on Computer Vision and Pattern Recognition. Piscataway, NJ: IEEE Press, 2018: 5745-5753.
[18]Liu Chenxi, Lin Zhe, Shen Xiaohui, et al. Recurrent multimodal interaction for referring image segmentation[C]//Proc of IEEE International Conference on Computer Vision. Piscataway, NJ: IEEE Press, 2017: 1271-1280.
[19]Wang Zhaoqing, Lu Yu, Li Qiang, et al. CRIS: CLIP-driven referring image segmentation[C]//Proc of IEEE/CVF Conference on Computer Vision and Pattern Recognition. Piscataway, NJ: IEEE Press, 2022: 11686-11695.
[20]Strudel R, Laptev I, Schmid C. Weakly-supervised segmentation of referring expressions [EB/OL]. (2022-05-12). https://arxiv.org/abs/ 2205.04725.
[21]Yu S, Seo P H, Son J. Zero-shot referring image segmentation with global-local context features[C]//Proc of IEEE/CVF Conference on Computer Vision and Pattern Recognition. Piscataway, NJ: IEEE Press, 2023: 19456-19465.
[22]Hui Tianrui, Liu Si, Huang Shaofei, et al. Linguistic structure guided context modeling for referring image segmentation[C]//Proc of the 16th European Conference on Computer Vision. Berlin: Springer-Verlag, 2020: 59-75.
[23]Jing Ya, Kong Tao, Wang Wei, et al. Locate then segment: a strong pipeline for referring image segmentation[C]//Proc of IEEE/CVF Conference on Computer Vision and Pattern Recognition. Piscataway, NJ: IEEE Press, 2021: 9858-9867.
[24]Shi Hengcan, Li Hongliang, Meng Fanman, et al. Key-word-aware network for referring expression image segmentation[C]//Proc of European Conference on Computer Vision. Cham: Springer, 2018: 38-54.
[25]Huang Shaofei, Hui Tianrui, Liu Si, et al. Referring image segmentation via cross-modal progressive comprehension[C]//Proc of IEEE/CVF Conference on Computer Vision and Pattern Recognition. Pisca-taway, NJ: IEEE Press, 2020: 10488-10497.
[26]Chen C F, Hsiao C H. Haar wavelet method for solving lumped and distributed-parameter systems[J]. IEEE Proceedings-Control Theory and Applications, 1997, 144(1): 87-94.
[27]Nagaraja V K, Morariu V I, Davis L S. Modeling context between objects for referring expression understanding[C]//Proc of the 14th European Conference. Cham: Springer, 2016: 792-807.
[28]Kazemzadeh S, Ordonez V, Matten M, et al. ReferitGame: referring to objects in photographs of natural scenes[C]//Proc of Conference on Empirical Methods in Natural Language Processing. Stroudsburg, PA: Association for Computational Linguistics, 2014: 787-798.
[29]Hsia H A, Lin C H, Kung B H, et al. CLIPCAM: a simple baseline for zero-shot text-guided object and action localization[C]//Proc of IEEE International Conference on Acoustics, Speech and Signal Processing. Piscataway, NJ: IEEE Press, 2022: 4453-4457.
[30]Zhou Chong, Loy C C, Dai Bo. Extract free dense labels from CLIP[M]//Avidan S, Brostow G, Cissé M, et al. Computer Vision. Cham: Springer, 2022: 696-712.
[31]Li Jiahao, Shakhnarovich G, Yeh R A. Adapting clip for phrase localization without further training[EB/OL]. (2022-04-07). https://arxiv.org/abs/2204.03647.
[32]Ding Jian, Xue Nan, Xia Guisong, et al. Decoupling zero-shot semantic segmentation[C]//Proc of IEEE/CVF Conference on Computer Vision and Pattern Recognition. Piscataway, NJ: IEEE Press, 2022: 11583-11592.