劉 靜,胡永利,劉秀平,譚紅臣,尹寶才
多尺度模態(tài)感知在文本指代實例分割中的研究與應(yīng)用
劉 靜1,胡永利1,劉秀平2,譚紅臣1,尹寶才1
(1. 北京工業(yè)大學(xué)人工智能與自動化學(xué)院,北京 100124;2. 大連理工大學(xué)數(shù)學(xué)科學(xué)學(xué)院,遼寧 大連 116024)
文本指代實例分割(RIS)任務(wù)是解析文本描述所指代的實例,并在對應(yīng)圖像中分割出該實例,是計算機視覺與媒體領(lǐng)域中熱門的研究課題。當前,大多數(shù)RIS方法基于單尺度文本/圖像模態(tài)信息的融合,以感知指代實例的位置和語義信息。然而,單一尺度模態(tài)信息很難同時涵蓋定位不同大小實例所需的語義和結(jié)構(gòu)上下文信息,阻礙了模型對任意大小指代實例的感知,進而影響模型對不同大小指代實例的分割。對此,設(shè)計多尺度視覺-語言交互感知模塊和多尺度掩膜預(yù)測模塊:前者增強模型對不同尺度實例語義與文本語義之間的融合與感知;后者通過充分捕捉不同尺度實例的所需語義和結(jié)構(gòu)信息提升指代實例分割的表現(xiàn)。由此,提出了多尺度模態(tài)感知的文本指代實例分割模型(MMPN-RIS)。實驗結(jié)果表明,MMPN-RIS模型在RefCOCO, RefCOCO+和RefCOCOg 3個公開數(shù)據(jù)集的oIoU指標上均達到了前沿性能;針對文本指代不同尺度實例的分割,MMPN-RIS模型有著較好的表現(xiàn)。
視覺與語言;文本指代實例分割;異模態(tài)融合與感知;特征金字塔
文本指代實例分割(referring image segmentation,RIS)任務(wù)是一項熱門的視覺媒體任務(wù),廣泛應(yīng)用于人機交互[1]、視覺導(dǎo)航、交互式圖像編輯[2]等智能領(lǐng)域。該任務(wù)目標是解析文本描述所指代的目標實例,并在對應(yīng)圖像中分割出該實例區(qū)域。不同于圖像實例分割任務(wù),RIS不僅需要處理抽象的文本語義,還需要搭建文本與圖像之間語義橋梁,增強模型對模態(tài)語義的感知以定位和分割指代實例等。因此,RIS是一項極具挑戰(zhàn)性的跨模態(tài)識別任務(wù)。近年來,隨著深度學(xué)習(xí)的發(fā)展,一系列杰出方法被提出,大致分為:兩階段RIS方法[3-4]和單階段RIS方法[5-13]。
兩階段RIS方法,首先利用目標檢測或分割算法[14-18]捕獲圖像中所有實例,隨后利用文本/圖像間的語義對齊與感知策略定位或分割出指代實例。基于此思想,文獻[3]提出了一個多階段、多任務(wù)框架,利用Faster-RCNN[14]定位各目標區(qū)域,并選擇與文本表達最接近的區(qū)域送入實例分割分支,以實現(xiàn)指代實例的定位和分割?;诓东@的候選目標實例,文獻[4]構(gòu)建文本語義解析樹,通過反向廣度優(yōu)先搜索算法對樹節(jié)點模態(tài)語義的更新,以提高模型對指代實例的推理和定位能力。該方法雖然可以獲得較高的分割準確率,但分割結(jié)果受第一階段的目標檢測算法可識別類別的限制;此外,第一階段不佳的檢測結(jié)果直接影響后續(xù)分割效果。
為了改善兩階段RIS模型的不足,越來越多的學(xué)者試圖移除目標檢測階段,直接驅(qū)動模型感知文本/圖像模態(tài)以分割指代實例,即單階段RIS方法。
當前,大部分單階段RIS方法利用圖像編碼器和文本編碼器分別提取圖像和文本特征,然后設(shè)計不同的文本/圖像模態(tài)融合與感知機制,進而分割指代實例。其中,在模態(tài)融合機制的設(shè)計中:文獻[5]提出將2種模態(tài)特征與空間坐標特征圖直接拼接,之后直接利用卷積層與反卷積層預(yù)測掩膜;文獻[6]提出了循環(huán)多模態(tài)交互網(wǎng)絡(luò),在對文本中每個單詞編碼時引入視覺信息,進行多模態(tài)信息融合;文獻[7]提出了跨模態(tài)自注意力網(wǎng)絡(luò),通過自注意力方法融合2種模態(tài)的特征,使網(wǎng)絡(luò)模型自適應(yīng)地聚焦于圖像中的重要區(qū)域和語言描述中的關(guān)鍵詞;文獻[9]提出了雙向跨模態(tài)關(guān)系推理網(wǎng)絡(luò),通過構(gòu)建語言與視覺雙向引導(dǎo)的注意力模塊學(xué)習(xí)模態(tài)間的空間依賴關(guān)系。
盡管當前大部分方法在RIS任務(wù)中可以取得較好的分割結(jié)果,但依然不能很好地適應(yīng)任意大小指代實例的分割。這是因為,當前大多數(shù)RIS方法基于單尺度文本/圖像模態(tài)信息的融合來分割指代實例,其很難同時涵蓋定位不同大小實例所需的語義和結(jié)構(gòu)上下文信息;那么,能夠融合或感知文本與圖像的語義很難完全從單一尺度的模態(tài)特征中找到。使得:①模型對文本、圖像模態(tài)的語義感知能力不足,文本特征和圖像特征的對齊出現(xiàn)偏差;②模型對圖像整體的理解能力不足,跨模態(tài)感知時不能有效利用前景特征。語義信息的缺失與錯誤對齊使多模態(tài)特征融合效果不佳,造成對指代物體錯誤地定位以及劣質(zhì)地分割。而解決單尺特征不足的關(guān)鍵是引入多尺度特征,以擴大模態(tài)義融合與感知的特征選擇范圍。那么,對于不足①,本文第一個策略是探究不同尺度的文本-圖像模態(tài)的融合與感知,提升模型對不同大小目標實例的感知能力,以及增強異模態(tài)語義的有效對齊;對于不足②,本文的第二策略則是基于策略一得到的多尺度模態(tài)融合信息,捕捉不同大小的指代實例在分割過程中所需的語義和結(jié)構(gòu)信息,以提高分割的表現(xiàn)。
綜上,本文提出了新的RIS模型,即多尺度模態(tài)感知的RIS模型(multi-scale modality perception network for RIS,MMPN-RIS)。在該模型中,本文提出多尺度視覺-語言交互感知模塊(multi-scale vision-linguistic interaction perception module,MVLIPM),在不同尺度模態(tài)信息引導(dǎo)下增強模型對文本與圖像語義的融合與感知。此外,本文還引入多尺度掩膜預(yù)測模塊(multi-scale mask prediction module,MMPM),促使不同層次多模態(tài)信息的充分融合,進而提高模型對不同大小指代實例的分割表現(xiàn)。本文在RefCOCO[19],RefCOCO+[19]和RefCOCOg[20-21]3個基準數(shù)據(jù)集上進行模型的訓(xùn)練與測試。實驗結(jié)果表明:在3個數(shù)據(jù)集上,本文提出的MMPN-RIS均獲得了較高的指代圖像分割性能。如:在RefCOCO數(shù)據(jù)集上,MMPN-RIS在oIoU指標上達到68.21%,相比基線模型提升7.04%。
作為文本指代分割任務(wù),其核心就是模型需要理解兩模態(tài)的語義,以感知文本指代的實例。在模態(tài)語義的感知和理解過程中,不同大小的實例所需語義是不同的,如:小目標更需要淺層外表特征和上下文結(jié)構(gòu)特征;較大目標則更需要高層語義特征。此外,實例分割階段也需要捕獲不同類型的語義特征以更加精準地定位不同大小尺寸的目標實例。正如引言所述,本文提出了MMPN-RIS來探索不同尺度模態(tài)融合與實例分割策略,以緩解上述問題。
MMPN-RIS網(wǎng)絡(luò)框架如圖1所示,主要包括:視覺和語言特征提取模塊(feature extraction module,F(xiàn)EM),MVLIPM和MMPM。
圖1 MMPN-RIS的網(wǎng)絡(luò)框圖
模型整體信息流:首先,利用視覺編碼模型和文本編碼模型分別提取圖像特征和文本特征;接著,利用多尺度視覺-語言交互感知模塊實現(xiàn)對文本與圖像語義進行多尺度融合;最后,通過多尺度掩膜預(yù)測模塊,將不同尺度的細節(jié)、結(jié)構(gòu)和高層語義信息相結(jié)合,分割指代實例。
圖2 多尺度視覺-語言交互感知模塊
Fig. 2 Multi-scale vision-linguistic interaction perception module
此外,為了獲得高質(zhì)量的文本與圖像模態(tài)融合信息,本文基于多頭注意力機制[26]構(gòu)建視覺-語言交互感知機制(visual-language interaction perception mechanism,VLIPM)。具體步驟如下:
(1) 多尺度圖像與圖像模態(tài)融合模式。為提升模型對圖像整體的理解能力,本文借助圖像上下文信息。通過計算不同尺度圖像各區(qū)域間的相似度來求取圖像各區(qū)域之間的相關(guān)性,找出圖像中需要被關(guān)注的區(qū)域F。以多頭注意力機制的一頭為例,即
綜上,本模塊為提升模型對文本和圖像模態(tài)語義感知能力,對不同尺度的視覺信息進行圖像與圖像、文本與圖像的多尺度模態(tài)融合。這一設(shè)計有效利用了多尺度特征豐富的語義信息以及圖像上下文信息。實現(xiàn)了對不同尺度目標物體的感知,以及對異模態(tài)間語義的融合。
(1) 自下而上的信息融合。不同尺度視覺特征對文本的感知能力以及感知結(jié)果存在差異。為提升模型對淺層特征的利用,本模塊對多尺度視覺-語言交互感知模塊的結(jié)果進行自下而上的信息融合,獲得更新的多模態(tài)融合特征,即
圖3 多尺度掩膜預(yù)測模塊
(2) 自上而下的信息融合。為保證最終用于掩膜預(yù)測的不同層次多模態(tài)特征F(=1,2,3)均具有豐富的語義信息,本文還通過自上而下的融合方式將來自高層的語義信息整合到底層的特征中,即
(3) 多尺度指代實例掩膜融合。不同尺度多模態(tài)融合特征包含的信息并不完全一致,為保證最終預(yù)測掩膜的準確性,在不需要其他復(fù)雜的后處理操作的情況下,本文設(shè)計了多尺度掩膜預(yù)測方案:1經(jīng)4個堆疊的3×3卷積層和一個1×1的卷積層獲得;2經(jīng)3個堆疊的3×3卷積層和一個1×1的卷積層獲得;3經(jīng)2個堆疊的3×3卷積層和一個1×1的卷積層獲得;三者尺寸一致。最后將多尺度指代實例掩膜:1,2和3進行拼接融合,并使用1×1卷積層將通道數(shù)降為1,作為最終分割結(jié)果mask。
綜上,本模塊為獲得有助于準確分割的多模態(tài)融合表示,通過自下而上和自上而下的雙向融合策略,逐步實現(xiàn)文本、圖像異模態(tài)對指代實例信息表征的增強。本設(shè)計充分融合了多尺度信息,幫助模型獲得適用于分割的高質(zhì)量多模態(tài)特征,提高了對指代實例的分割表現(xiàn)。
本文使用真值掩膜mask與預(yù)測掩膜mask的二元交叉熵作為損失函數(shù)指導(dǎo)網(wǎng)絡(luò)的訓(xùn)練,即
其中,g為真值掩膜mask下采樣響應(yīng)圖的元素;為預(yù)測掩膜中的元素。
本文實驗從定量和定性的角度評價MMPN-RIS模型性能。定量評價:計算模型在RefCOCO,RefCOCO+和RefCOCOg等數(shù)據(jù)集上的oIoU等評價指標的數(shù)值結(jié)果;利用數(shù)值結(jié)果對模型進行客觀的評價與分析。定性評價:可視化模型在RefCOCO測試集上的分割圖像,主觀評價MMPN-RIS與消融實驗中對比方法分割圖像的視覺效果。
遵循大部分前沿工作[3,22],本文以Darknet-53作為CNN主干網(wǎng)絡(luò),并在MS COCO[27]上進行預(yù)訓(xùn)練,此時的MS COCO數(shù)據(jù)集已去除與3個數(shù)據(jù)集重合的圖像。輸入圖像的大小調(diào)整為416×416。對于RefCOCO和RefCOCO+,輸入語言表達式的最大長度設(shè)置為15;對于RefCOCOg,最大長度設(shè)置為20。3個尺度的多頭注意力機制均設(shè)置為4頭,維度分別設(shè)置為1 024,512和256。本文使用Adam作為優(yōu)化器來訓(xùn)練MMPN-RIS模型。初始學(xué)習(xí)速率為0.0005,在20個epoch時下降為0.0001。batch size和training epoch分別設(shè)置為8和35。
本文在RefCOCO,RefCOCO+和RefCOCOg等3個標準基準數(shù)據(jù)集上對MMPN-RIS模型性能進行了評估。其圖像均來自MS COCO數(shù)據(jù)集,并使用自然語言表達式進行標注。RefCOCO,RefCOCO+和RefCOCOg分別包含19 994,19 992和26 711張圖像,標注對象分別為50 000,49 856和54 822個,標注表達式分別為142 209,141 564和104 560個。
RefCOCO和RefCOCO+中的表達式經(jīng)交互式雙人游戲獲得,內(nèi)容十分簡潔(平均包含3.5個單詞)。相比之下,RefCOCOg中的表達式更復(fù)雜(平均包含8.4個單詞),更具有描述性,更具挑戰(zhàn)性。另一方面,RefCOCOg的每張圖像上平均有1.6個相同類別對象。相比之下,RefCOCO和RefCOCO+的每張圖像上有平均3.9個相同類別的對象,因此后者可以更好地評估算法編碼實例級細節(jié)的能力。同時,不同于RefCOCO,RefCOCO+在其表達式中禁用了位置詞,這也使其成為一個更具挑戰(zhàn)性的數(shù)據(jù)集。最后,RefCOCOg數(shù)據(jù)集有2個分區(qū),即UMD[21]分區(qū)和谷歌[20]分區(qū)。本文在這2個分區(qū)上均進行了實驗。
本文采用2個通用的度量指標來評估有效性:全局交并比(overall intersection over unio,oIoU)和精度百分比(簡稱Prec@X)。oIoU是對所有測試樣本的預(yù)測掩膜與真實掩膜的總交集區(qū)域與總并集區(qū)域求比值,可以同時考慮每個類別的誤檢值和漏檢值。Prec@X指標則是度量測試過程中預(yù)測掩膜與真實掩膜之間的IoU高于閾值的樣本數(shù)目占全部測試樣本數(shù)目的百分比。本文在實驗中選擇5種不同的閾值,其精度百分比分別表示為Prec@0.5,Prec@0.6,Prec@0.7,Prec@0.8和Prec@0.9。
為了驗證本文策略的有效性,將在RefCOCO數(shù)據(jù)集的val上進行消融實驗的結(jié)果展示與分析。
遵循目前大部分深度網(wǎng)絡(luò)模型消融實驗的設(shè)計方案,本文首先設(shè)計基線模型,即:設(shè)計將句子級語言特征F與視覺特征F1進行單級融合獲得多模態(tài)特征,隨后在多模態(tài)特征上采樣獲得不同尺度的多模態(tài)特征,最后將不同尺度的多模態(tài)特征用于掩膜預(yù)測。并在此基礎(chǔ)上討論特征融合時采用多級融合以及模型中引入的視覺-語言感知模塊和多尺度掩膜預(yù)測模塊的有效性。
表1顯示,6號本文模型及2~5號退化模型的性能皆優(yōu)于1號基線模型。其中,經(jīng)5,6號比較可知多級融合性能優(yōu)于單級融合性能;3,4號比較可驗證VLIPM模塊的有效性,進而通過4,5號比較可證明對不同層次分別進行視覺-語言感知的可行性;通過對比1,2,3結(jié)果可知對不同層次特征通過雙向融合進行信息增強可以進一步提高性能,且2個方向均具有增益。
除此之外,本文通過可視化方式將MMPN-RIS的預(yù)測掩膜與1號基線模型、4號模型進行定性比較。如圖4所示,MMPN-RIS所生成的掩膜在定位準確性和分割完整度上均好于后者。進一步證明了提出的MVLIPM的有效性。同時在對干擾實體較多或目標實體尺寸較小的分割任務(wù)中,本文提出的MMPN-RIS依舊可以準確定位目標物體并對物體的細節(jié)及輪廓進行更有效的感知,從而獲得更精準的分割結(jié)果。
表1 消融實驗
注:加粗數(shù)據(jù)為最優(yōu)值
圖4 消融結(jié)果可視化((a)輸入圖像;(b)基線模型;(c) 4號模型;(d)本文模型;(e)真值掩膜)
為了評價模型的有效性與分割結(jié)果的準確性,表2展示了本文提出的MMPN-RIS和一系列前沿方法在RefCOCO,RefCOCO+和RefCOCOg3個數(shù)據(jù)集的驗證與測試集上的oIoU指標評分。本文提出的MMPN-RIS的oIoU指標在3個數(shù)據(jù)集的實驗結(jié)果均高于大部分前沿算法。在實例數(shù)較多的RefCOCO和RefCOCO+數(shù)據(jù)集上分別獲得了2.56%~3.28%和1.19%~3.40%的增益,證明了本文模型MMPN-RIS對復(fù)雜場景具有較好理解能力;對于表達式長度較長的RefCOCOg數(shù)據(jù)集上,更是獲得了2.00%~7.77%的增益,證明了MMPN-RIS對長文本-圖像任務(wù)具有較好異模態(tài)對齊能力。分析原因包括:①對于實例較多的復(fù)雜場景,MVLIPM中的多頭注意力機制可以從全局理解圖像信息促進視覺語言的語義匹配;②進行多尺度視覺-語言感知有助于異模態(tài)間的融合與感知,可增強異模態(tài)語義的有效對齊。
本文還通過可視化方式將MMPN-RIS的預(yù)測掩膜與對比方法VLT進行定性比較。如圖5所示,在處理顏色、前景/背景、位置以及尺寸等指代文本時,MMPN-RIS所生成的掩膜在面對定位準確性和分割完整度上均好于VLT。這體現(xiàn)了本文MMPN-RIS方法性能的優(yōu)越性。
表2 MMPN-RIS在3個標準基準數(shù)據(jù)集上與對比方法進行比較(U:UMD分區(qū). G:谷歌分區(qū))
注:加粗數(shù)據(jù)為最優(yōu)值
圖5 實驗結(jié)果可視化((a)輸入圖像;(b)真值掩膜;(c)對比方法(VLT);(d)本文模型)
本文提出的MMPN-RIS仍然存在著指代圖像分割失敗的案例。圖6展示了可視化一些具有代表性的失敗案例。失敗原因包括:①真值掩膜標注錯誤;②文本描述指代不明;③本文模型在處理邏輯性強的任務(wù)時存在局限性。這是因為基于多模態(tài)融合的RIS模型雖然具有較強的模態(tài)感知能力,但處理異模態(tài)協(xié)同推理問題時存在不足。
未來的工作:①考慮對模態(tài)間實體關(guān)系的利用,提升模型的推理能力;②在進行特征提取階段考慮模態(tài)間數(shù)據(jù)的相互作用。
圖6 失敗案例((a)輸入圖像;(b)真值掩膜;(c)本文模型)
本文提出了一種新的指代圖像分割模型——多尺度模態(tài)感知的RIS模型(MMPN-RIS)。在MMPN-RIS中,本文引入多尺度視覺-語言交互感知模塊,在有效利用不同層次視覺信息的同時提高模型對語言相關(guān)的圖像區(qū)域的感知能力。此外,本文還引入雙向融合多模態(tài)信息的多尺度掩膜預(yù)測模塊,促使不同層次多模態(tài)信息的充分融合,進而驅(qū)動模型預(yù)測高質(zhì)量分割掩膜。實驗結(jié)果顯示,本文提出的MMPN-RIS在3個基準數(shù)據(jù)集上,均獲得了較高的指代圖像分割性能。
[1] WANG X, HUANG Q Y, CELIKYILMAZ A, et al. Reinforced cross-modal matching and self-supervised imitation learning for vision-language navigation[C]//2019 IEEE/CVF Conference on Computer Vision and Pattern Recognition. New York: IEEE Press, 2019: 6622-6631.
[2] CHEN J B, SHEN Y L, GAO J F, et al. Language-based image editing with recurrent attentive models[C]//2018 IEEE/CVF Conference on Computer Vision and Pattern Recognition. New York: IEEE Press, 2018: 8721-8729.
[3] YU L C, LIN Z, SHEN X H, et al. MAttNet: modular attention network for referring expression comprehension[C]//2018 IEEE/CVF Conference on Computer Vision and Pattern Recognition. New York: IEEE Press, 2018: 1307-1315.
[4] LIU D Q, ZHANG H W, ZHA Z J, et al. Learning to assemble neural module tree networks for visual grounding[C]//2019 IEEE/CVF International Conference on Computer Vision. New York: IEEE Press, 2019: 4672-4681.
[5] HU R H, ROHRBACH M, DARRELL T. Segmentation from natural language expressions[M]//Computer Vision - ECCV 2016. Cham: Springer International Publishing, 2016: 108-124.
[6] LIU C X, LIN Z, SHEN X H, et al. Recurrent multimodal interaction for referring image segmentation[C]//2017 IEEE International Conference on Computer Vision. New York: IEEE Press, 2017: 1280-1289.
[7] YE L W, ROCHAN M, LIU Z, et al. Cross-modal self-attention network for referring image segmentation[C]//2019 IEEE/CVF Conference on Computer Vision and Pattern Recognition. New York: IEEE Press, 2019: 10494-10503.
[8] YE L W, ROCHAN M, LIU Z, et al. Referring segmentation in images and videos with cross-modal self-attention network[J]. IEEE Transactions on Pattern Analysis and Machine Intelligence, 2022, 44(7): 3719-3732.
[9] HU Z W, FENG G, SUN J Y, et al. Bi-directional relationship inferring network for referring image segmentation[C]//2020 IEEE/CVF Conference on Computer Vision and Pattern Recognition. New York: IEEE Press, 2020: 4423-4432.
[10] MARGFFOY-TUAY E, PéREZ J C, BOTERO E, et al. Dynamic multimodal instance segmentation guided by natural language queries[M]//Computer Vision - ECCV 2018. Cham: Springer International Publishing, 2018: 656-672.
[11] YE L W, LIU Z, WANG Y. Dual convolutional LSTM network for referring image segmentation[J]. IEEE Transactions on Multimedia, 2020, 22(12): 3224-3235.
[12] HUI T R, LIU S, HUANG S F, et al. Linguistic structure guided context modeling for referring image segmentation[M]// Computer Vision - ECCV 2020. Cham: Springer International Publishing, 2020: 59-75.
[13] HUANG S F, HUI T R, LIU S, et al. Referring image segmentation via cross-modal progressive comprehension[C]// 2020 IEEE/CVF Conference on Computer Vision and Pattern Recognition. New York: IEEE Press, 2020: 10485-10494.
[14] REN S Q, HE K M, GIRSHICK R, et al. Faster R-CNN: towards real-time object detection with region proposal networks[J]. IEEE Transactions on Pattern Analysis and Machine Intelligence, 2017, 39(6): 1137-1149.
[15] 曹春鍵, 臧強, 王澤嘉, 等. 改進的YOLOv3目標檢測算法[J]. 中國科技論文, 2021, 16(11): 1195-1201.
CAO C J, ZANG Q, WANG Z J, et al. Improved YOLOv3 object detection algorithm[J]. China Sciencepaper, 2021, 16(11): 1195-1201 (in Chinese).
[16] 周薇娜, 孫麗華, 徐志京. 復(fù)雜環(huán)境下多尺度行人實時檢測方法[J]. 電子與信息學(xué)報, 2021, 43(7): 2063-2070.
ZHOU W N, SUN L H, XU Z J. A real-time detection method for multi-scale pedestrians in complex environment[J]. Journal of Electronics & Information Technology, 2021, 43(7): 2063-2070 (in Chinese).
[17] 郭智超, 叢林虎, 劉愛東, 等. 基于SK-YOLOV3的遙感圖像目標檢測方法[J]. 兵器裝備工程學(xué)報, 2021, 42(7): 165-171.
GUO Z C, CONG L H, LIU A D, et al. Remote sensing image target detection method based on SK-YOLOV3[J]. Journal of Ordnance Equipment Engineering, 2021, 42(7): 165-171 (in Chinese).
[18] 李康康, 于振中, 范曉東, 等. 改進多層尺度特征融合的目標檢測算法[J]. 計算機工程與設(shè)計, 2022, 43(1): 157-164.
LI K K, YU Z Z, FAN X D, et al. Improved multi-scale feature fusion target detection algorithm[J]. Computer Engineering and Design, 2022, 43(1): 157-164 (in Chinese).
[19] YU L C, POIRSON P, YANG S, et al. Modeling context in referring expressions[M]//Computer Vision - ECCV 2016. Cham: Springer International Publishing, 2016: 69-85.
[20] MAO J H, HUANG J, TOSHEV A, et al. Generation and comprehension of unambiguous object descriptions[C]//2016 IEEE Conference on Computer Vision and Pattern Recognition. New York: IEEE Press, 2016: 11-20.
[21] NAGARAJA V K, MORARIU V I, DAVIS L S. Modeling context between objects for referring expression understanding[M]// Computer Vision - ECCV 2016. Cham: Springer International Publishing, 2016: 792-807.
[22] REDMON J, FARHADI A. YOLOv3: an incremental improvement[EB/OL]. [2022-06-10]. https://arxiv.org/abs/1804. 02767.
[23] PENNINGTON J, SOCHER R, MANNING C. Glove: global vectors for word representation[C]//2014 Conference on Empirical Methods in Natural Language Processing. Stroudsburg: Association for Computational Linguistics, 2014: 1532-1543.
[24] CHUNG J, GULCEHRE C, CHO K, et al. Empirical evaluation of gated recurrent neural networks on sequence modeling[EB/OL]. [2022-04-29]. https://arxiv.org/abs/1412.3555.
[25] YANG Z C, YANG D Y, DYER C, et al. Hierarchical attention networks for document classification[C]//2016 Conference of the North American Chapter of the Association for Computational Linguistics: Human Language Technologies. Stroudsburg: Association for Computational Linguistics, 2016: 1480-1489.
[26] VASWANI A, SHAZEER N, PARMAR N, et al. Attention is all You need[C]//The 31st International Conference on Neural Information Processing Systems. New York: ACM Press, 2017: 6000-6010.
[27] LIN T Y, MAIRE M, BELONGIE S, et al. Microsoft COCO: common objects in context[M]//Computer Vision - ECCV 2014. Cham: Springer International Publishing, 2014: 740-755.
[28] LI R Y, LI K C, KUO Y C, et al. Referring image segmentation via recurrent refinement networks[C]//2018 IEEE/CVF Conference on Computer Vision and Pattern Recognition. New York: IEEE Press, 2018: 5745-5753.
[29] LUO G, ZHOU Y Y, SUN X S, et al. Multi-task collaborative network for joint referring expression comprehension and segmentation[C]//2020 IEEE/CVF Conference on Computer Vision and Pattern Recognition. New York: IEEE Press, 2020: 10031-10040.
[30] LUO G, ZHOU Y Y, JI R R, et al. Cascade grouped attention network for referring expression segmentation[C]//The 28th ACM International Conference on Multimedia. New York: ACM Press, 2020: 1274-1282.
[31] JING Y, KONG T, WANG W, et al. Locate then segment: a strong pipeline for referring image segmentation[C]//2021 IEEE/CVF Conference on Computer Vision and Pattern Recognition. New York: IEEE Press, 2021: 9853-9862.
[32] DING H H, LIU C, WANG S C, et al. Vision-language transformer and query generation for referring segmentation[C]// 2021 IEEE/CVF International Conference on Computer Vision. New York: IEEE Press, 2021: 16301-16310.
Multi-scale modality perception network for referring image segmentation
LIU Jing1, HU Yong-li1, LIU Xiu-ping2, TAN Hong-chen1, YIN Bao-cai1
(1. School of Artificial Intelligence and Automation, Beijing University of Technology, Beijing 100124, China; 2. School of Mathematical Sciences, Dalian University of Technology, Dalian Liaoning 116024, China)
Referring image segmentation (RIS) is the task of parsing the instance referred to by the text description and segmenting the instance in the corresponding image. It is a popular research topic in computer vision and media. Currently, most RIS methods are based on the fusion of single-scale text/image modality information to perceive the location and semantic information of referential instances. However, it is difficult for single-scale modal information to simultaneously cover both the semantics and structural context information required to locate instances of different sizes. This defect hinders the model from perceiving referent instances of any size, which affects the model’s segmentation of referent instances of different sizes. This paper designed a Multi-scale Visual-Language Interaction Perception Module and a Multi-scale Mask Prediction Module to solve this problem. The former could enhance the model’s ability to perceive instances at different scales and promote effective alignment of semantics between different modalities. The latter could improve the performance of referring instance segmentation by fully capturing the required semantic and structural information of instances at different scales. Therefore, this paper proposed a multi-scale modality perception network for referring image segmentation (MMPN-RIS). The experimental results show that the MMPN-RIS model has achieved cutting-edge performance on the oIoU indicators of the three public datasets RefCOCO, RefCOCO+, and RefCOCOg. For the RIS of different scales, the MMPN-RIS model could also yield good performance.
visual and language; referring image segmentation; multi-modality fusion and perception; feature pyramid network
TP 391
10.11996/JG.j.2095-302X.2022061150
A
2095-302X(2022)06-1150-09
2022-08-02;
:2022-09-30
第7批全國博士后創(chuàng)新人才支持計劃(BX20220025);第70批全國博士后面上資助(2021M700303)
劉 靜(1994-),女,博士研究生。主要研究方向為目標檢測、目標分割、指代分割、多模態(tài)學(xué)習(xí)等。E-mail:jingliu@emails.bjut.edu.cn
譚紅臣(1992-),男,講師,博士。主要研究方向為行人重識別、圖像生成、及目標檢測等。E-mail:tanhongchenphd@bjut.edu.cn
2 August,2022;
The 7th National Postdoctoral Innovative Talent Support Program (BX20220025); The 70th Batch of National Post-Doctoral Research Grants (2021M700303)
LIU Jing (1994-), PhD candidate. Her main research interests cover object detection, object segmentation, referring image segmentation and multimodal learning, etc. E-mail:jingliu@emails.bjut.edu.cn
TAN Hong-chen (1992-), lecturer, Ph.D. His main research interests cover person re-identification, image generation and object detection, etc. E-mail:tanhongchenphd@bjut.edu.cn
30 September,2022