doi:10.19734/j.issn.1001-3695.2024.08.0369
Audio-visual segmentation network with multi-dimensional cross-attention fusion
LiFanfan,Zhang Yuanyuan,Zhang Yonglong,Zhu Junwu? (School of Information Engineering,Yangzhou University,Yangzhou Jiangsu 2251Oo,China)
Abstract:Audio-visual segmentation (AVS)aimsto locateandaccuratelysegmentthesoundingobjects inimagesbasedon both visualandauditoryinformation.Whilemostexistingresearch focusesprimarilyonexploring methods foraudio-visualinformationfusio,thereisinsuicientin-depthexplorationoffine-grinedaudio-visualanalysis,particularlyinaligingcontinuousaudiofeatures withspatialpixel-level information.Therefore,thispaperproposedanaudio-visualsegmentationatention fusion(AVSAF)method basedoncontrastive learning.Firstly,themethodusedmulti-ead crossattentionmechanismand memorytokentoconstructaaudio-visualtokenfusionmodule toreducethelossofmulti-modalinformation.Secondlyitintro ducedcontrastivelearning tominimizethediscrepancybetweenaudioandvisualfeatures,enhancing theiralignment.Aduallayerdecoderwasthenemployedtoaccuratelypredictandsegment thetarget’sposition.Finalyitcarredoutalargeumber of experiments on the S4 and MS3 sub-datasets of the AVSBenge-Object dataset.The J -valueisincreasedby3.O4and4.71 percentage pointsrespectively,and the F valueis increased by 2.4 and3.5percentage points respectively,which fully proves the effectiveness of the proposed method in audio-visual segmentation tasks.
Key words:audio-visual segmentation;multi-modal;contrastive learning;attention mechanism
0引言
人類的感知是多維的,包括視覺、聽覺、觸覺、味覺和嗅覺。其中,視覺和聽覺是日常生活中非常重要的感知方式,兩者的結(jié)合幫人類更全面地了解周圍環(huán)境。在數(shù)據(jù)量爆炸性增長以及智能設(shè)備廣泛應(yīng)用的時代下,視聽融合技術(shù)得到了廣泛的發(fā)展。隨著視聽像素級標(biāo)簽的引入,Zhou等人[]提出了新的視聽融合任務(wù),稱為視聽分割(audio-visualsegmentation,AVS)。AVS旨在根據(jù)視頻和音頻實現(xiàn)對環(huán)境中對象和語義信息的準(zhǔn)確分割,使得模型預(yù)測的像素圖與給定的音頻相匹配。例如,在圖1中,AVS可以識別正在啼哭的嬰兒并分割出對應(yīng)的像素區(qū)域。AVS在多個應(yīng)用領(lǐng)域具有重要意義,如視頻音頻編輯和安全監(jiān)控等。
AVS通過結(jié)合視頻和音頻數(shù)據(jù),從圖像分割的角度挖掘視聽之間的潛在關(guān)系,實現(xiàn)對環(huán)境中對象和語義信息的精確分割。其中,Zhou等人[1提出一種基于時間像素級視聽交互的編碼器解碼器網(wǎng)絡(luò),實現(xiàn)視聽分割的目標(biāo),構(gòu)建了AVSBench-Object數(shù)據(jù)集,不僅提高對環(huán)境信息處理的理解,還為開發(fā)更具智能化的視聽感知系統(tǒng)提供了新的思路和方法。Mao等人[2]提出一種基于對比學(xué)習(xí)的潛在擴散模型用于音視頻分割,進一步提升了音視頻分割任務(wù)的精度,但該模型在融合視覺和聽覺特征時,缺乏對不同模態(tài)間細(xì)微差別的捕捉。Li等人[3]提出了一種視聽組合的時空依賴關(guān)系的融合方法,在捕捉音頻和視覺信號的時間動態(tài)變化和空間布局方面表現(xiàn)出了優(yōu)越性,但在連續(xù)音頻特征與空間像素級信息的對齊上存在挑戰(zhàn)。總之,這些研究在視聽分割領(lǐng)域取得了顯著進展,為更智能的多模態(tài)感知系統(tǒng)發(fā)展奠定了基礎(chǔ)。但是,現(xiàn)有方法仍然面臨著一些挑戰(zhàn),例如在不同維度下不能充分挖掘音頻和視頻線索之間的細(xì)粒度相關(guān)性,并且無法有效對齊連續(xù)音頻特征與空間像素級信息。
為了解決上述問題,本文提出了一種視聽分割注意力融合方法(audio-visual segmentation attention fusion,AVSAF)。首先,AVSAF模型采用了視/聽覺token融合模塊,與僅依賴簡單特征拼接或加權(quán)融合的方法不同,AVSAF通過引入多頭交叉注意機制和記憶token,能夠動態(tài)捕捉并交互不同模態(tài)之間的關(guān)鍵信息。其次,模型通過對比學(xué)習(xí)策略,利用正負(fù)樣本進行對比訓(xùn)練,實現(xiàn)了連續(xù)音頻特征與空間像素級特征的精細(xì)對齊。與傳統(tǒng)方法相比,這種對比學(xué)習(xí)有效解決了多模態(tài)信息對齊不精確的問題,提升對細(xì)粒度特征的匹配能力。最后,AVSAF引入雙層解碼器結(jié)構(gòu),相比于傳統(tǒng)的單層解碼器,雙層解碼器通過逐層的特征提取與信息融合,增強了模型的泛化能力和對多模態(tài)特征的層次化理解。這種結(jié)構(gòu)設(shè)計使得AVSAF在處理復(fù)雜的音視頻分割任務(wù)時表現(xiàn)出更高的精度與魯棒性。
1相關(guān)工作
1.1傳統(tǒng)的視聽融合技術(shù)
傳統(tǒng)的視聽融合技術(shù)包括視聽對應(yīng)(audio-visualcorre-spondence,AVC)[4\~6]、視聽事件定位(audio-visual event locali-zation,AVEL)[7-9]、視聽視頻解析(audio-visual video parsing,AVVP)[10,11]、聲源定位(sound source localization,SSL)[12\~15]等。例如,SSL任務(wù)是估計聲源在視頻序列中的位置,Chen等人[12]利用挖掘策略和對比學(xué)習(xí)機制來區(qū)分具有挑戰(zhàn)性的圖像片段,提高了在復(fù)雜圖像中區(qū)分聲源的能力。 Hu 等人[14]從混合聲音中執(zhí)行類感知的聲音對象定位,最初集中在從單聲道定位中學(xué)習(xí)健壯的對象表示,解決了從混合聲音中定位不同類別聲音對象的問題。Qian等人[13]在無約束的視頻中定位多個聲源,而不需要兩兩配對的聲音對象注釋。這種方法通過兩階段學(xué)習(xí)框架和跨模態(tài)特征對齊,實現(xiàn)了在無標(biāo)簽的情況下定位多個聲源,提高了在視頻中的聲源定位能力。但是,大多數(shù)研究主要集中在區(qū)域級別的利用或圖像分類上,缺乏對像素級信息的捕捉。
1.2 對比學(xué)習(xí)
對比學(xué)習(xí)是一種無監(jiān)督學(xué)習(xí)方法,通過將相似的數(shù)據(jù)樣本在特征空間中拉近、不相似的數(shù)據(jù)樣本推開的方式來學(xué)習(xí)有效的特征表示。這種方法已經(jīng)在計算機視覺、自然語言處理和多模態(tài)數(shù)據(jù)處理等多個領(lǐng)域中取得了顯著的進展。近年來,許多研究者提出了各種基于對比學(xué)習(xí)的方法來解決不同任務(wù)中的多模態(tài)對齊問題。例如,Oord等人[16]首次提出了對比預(yù)測編碼方法(CPC),通過預(yù)測未來時刻的特征表示來學(xué)習(xí)有效的語義表示。這種方法為后續(xù)的對比學(xué)習(xí)研究奠定了基礎(chǔ)。隨后,Chen等人[17]提出了SimCLR方法,這是一種簡單而有效的對比學(xué)習(xí)框架,通過數(shù)據(jù)增強和隨機投影等技術(shù)進一步提升了模型的性能。在視聽分割任務(wù)中,對比學(xué)習(xí)的引人可以有效減少視覺與聽覺特征之間的差異,從而增強模型對多模態(tài)信息的捕捉能力。例如,Mao等人[2將對比學(xué)習(xí)引人到視聽分割中,提出了一種潛在擴散模型,顯著提升了音視頻分割的精度。這些研究為本文提供了寶貴的啟示,并促使本文在模型方面進行創(chuàng)新。
2方法
本文提出的AVSAF主要包含音視頻編碼器、視/聽覺token融合模塊(audio-visualtokenfusion,VATF)和雙層解碼器三個關(guān)鍵模塊,總體框架如圖2所示。其中,音視頻編碼器提取視覺和聽覺特征,視/聽覺token融合模塊利用多頭交叉注意力機制,針對性地學(xué)習(xí)跨模態(tài)信息,生成不同階段的融合特征。然后,通過對比學(xué)習(xí)對齊融合特征與音頻特征,有效地減小它們在特征空間中的距離。最后,通過雙層解碼器增強融合特征的表達能力,輸出分割結(jié)果。
2.1 音視頻編碼器
音視頻編碼器使用VGGish[18]提取音頻特征,通過PVTv2或 ResNet-50 提取視覺特征。具體而言,首先,將音頻重新采樣為 16kHz 的單聲道音頻 ,其中 Ns 與音頻時長相關(guān)。然后,利用短時傅里葉變換獲得 Mel 頻譜。隨后將其作為VGGish模型的輸人以提取音頻特征 A∈RT×128 ,其中 T 表示幀數(shù)。
對于視覺特征,首先,視頻通過預(yù)處理提取幀圖像,將幀圖像表示為 xvisual∈RT×3×H×W ,其中 T 表示幀數(shù)。然后,利用視覺骨干網(wǎng)絡(luò)(PVTv2或ResNet-50)提取不同階段的視覺特征 V 其可以表示為
V={V1,V2,V3,V4}
其中: i∈{1,2,3,4} H 和 W 分別是幀的
高度和寬度; Ci 表示第 i 階段的通道數(shù)。特征提取過程如圖2所示。
2.2視/聽覺token融合模塊
VATF作為AVSAF的關(guān)鍵組件,模塊結(jié)構(gòu)如圖3所示,利用三個多頭交叉注意力模塊,在不同的注意力頭中學(xué)習(xí)來自視覺和聽覺模態(tài)的多種信息表示,并使用記憶token動態(tài)地選擇最相關(guān)的音頻信息。傳統(tǒng)方法[1-3,19]往往無法有效區(qū)分不同模態(tài)信息的重要性,容易導(dǎo)致特征冗余或信息丟失。而VATF引人記憶token動態(tài)存儲關(guān)鍵的多模態(tài)信息,在訓(xùn)練過程中,逐漸學(xué)習(xí)并記憶音視頻特征中的重要信息,從而避免不必要的計算,并有效降低冗余特征的影響。另外,在處理不同任務(wù)時能夠有針對性地選擇最相關(guān)的模態(tài)信息,從而顯著提升信息處理效率和模型表達能力。
給定音頻特征 A 和第 i 階段的視覺特征 Vi 。首先,使用兩個獨立的 1×1 卷積層將它們映射到相同的維度空間 Ci 得到聽覺特征 和視覺特征 νi 。然后,將視覺特征 νi 作為鍵 K 和值 V ,音頻特征
作為查詢
,利用多頭交叉注意力(MHCA)生成具有視覺感知的音頻特征,即
Fiνa=MHCA(νi,a)=concat([Γattn(xv,xa)Γk]k=1h)
其中: ΔWQ,WK,WV 是可訓(xùn)練的參數(shù)矩陣; d=Ci;h 為多頭注意力機制中頭的數(shù)量; concat(?) 表示將來自 h 個頭的輸出進行拼接。
其次,為了增強模型的表達能力,引入一組隨機初始化的向量,稱為記憶token。將記憶 和視覺特征 νi 作為MHCA的輸入,生成具有多模態(tài)信息的條件token Fitva ,即
Fitva=MHCA(MT,F(xiàn)iva)
其中: MT 是記憶token, T 為記憶token的數(shù)量
接著,視覺特征 νi 充當(dāng)查詢,利用MHCA模塊將 νi 和條件token ?Fitva 作進一步處理,得到具有視覺和聽覺信息的融合特征。最后,通過 1×1 卷積得到第 i 階段融合特征 Fi ,公式如下:
Fi=conv(MHCA(νi,F(xiàn)itva))
其中: i={3,4} conv(?) 函數(shù)是卷積函數(shù)。
2.3 音頻特征對齊
AVSAF通過引入對比學(xué)習(xí),在特征空間上捕獲連續(xù)音頻與視覺像素級信息之間的細(xì)粒度差異與相似性,使模型在訓(xùn)練過程中能夠區(qū)分相似數(shù)據(jù)的微小差異,并強化跨模態(tài)特征的對齊,從而顯著提升視聽分割的準(zhǔn)確性,確保分割任務(wù)的精度和魯棒性。
對比學(xué)習(xí)(contrastive learming,CL)[16]面臨的一個主要挑戰(zhàn)是如何構(gòu)建正樣本和負(fù)樣本對,這個過程旨在以無監(jiān)督的方式學(xué)習(xí)一個適合特定任務(wù)的距離函數(shù)。對于AVS任務(wù),
AVSAF目標(biāo)是學(xué)習(xí)一個合適的距離函數(shù),使得配對的視頻和聲音數(shù)據(jù)應(yīng)該比未配對的數(shù)據(jù)更接近。具體來說,給定融合特征 Fi,F(xiàn)i 與對應(yīng)的音頻特征 xa 的預(yù)測分?jǐn)?shù)應(yīng)該比另一個聲音產(chǎn)生者 的分?jǐn)?shù)高。換句話說,將融合特征 Fi 與對應(yīng)的音頻特征 xa 作為正樣本,小批量中除 xa 以外的音頻特征
定義為負(fù)樣本。在這種情況下,融合特征應(yīng)該具有足夠的判別力來區(qū)分音頻特征?;谏鲜稣?負(fù)樣本,得到的對比損失為
最后,將多階段損失函數(shù)進行平均,得到最終的對比學(xué)習(xí)損失函數(shù):
其中: K=2 表示融合特征與音頻特征利用對比學(xué)習(xí)的次數(shù)。
2.4 雙層FPN解碼器
在解碼階段,AVSAF模型使用雙層特征金字塔網(wǎng)絡(luò)(fea-turepyramidnetworks,F(xiàn)PN)作為解碼器來生成最終的掩碼。第一層負(fù)責(zé)融合特征的初步提取,并進行上采樣,生成多尺度的特征表示。其中,將 V1,V2 和 {Fi|i∈{3,4}} 融合后的特征作為輸入, {Si|i∈{1,2,3,4}} 作為輸出,并分別傳遞到 1×1 卷積層,以獲得從粗到細(xì)的分割掩碼。第二層采用Panoptic-FPN,具體而言,在第 j 個階段,即 j={2,3,4},S5-j 和最后 S6-j 作為輸入用于解碼過程。解碼的特征被上采樣到下一個階段,最終通過 sigmoid 激活輸出為 M∈RT×H×W 。公式如下:
M=Δ(P1(S1,P2(S2,P3(S3,P4(S4))))).
其中: ?Pi(?) 表示第 i 個階段的Panoptic-FPN解碼器; Si 為第 i 層解碼器的輸出特征; Δ(?) 為sigmoid激活函數(shù)。
AVSAF通過雙層特征金字塔結(jié)構(gòu),分別在不同階段上提取和融合多尺度特征,顯著增強了模型的特征表達能力和多尺度處理能力,提高了目標(biāo)檢測和分割任務(wù)的精度和魯棒性。
2.5 目標(biāo)函數(shù)
損失函數(shù)包括分割損失 Lseg 和對比損失 Lcon 兩部分。分割損失是利用交叉熵?fù)p失函數(shù)將預(yù)測的分割圖與真實的標(biāo)簽進行比較。總目標(biāo)函數(shù) L 的計算公式如下:
L=Lseg+λLcon
其中: λ 為平衡因子; BCE(?) 為二進制交叉熵?fù)p失函數(shù); M 是預(yù)測的分割圖; Y 是真實的分割圖。
3實驗
3.1 評估指標(biāo)
本文使用 F 分?jǐn)?shù)和Jaccard指數(shù) J 作為評估指標(biāo)。其中, F 分?jǐn)?shù)綜合考慮了查準(zhǔn)率和查全率,用于評估分割結(jié)果的輪廓準(zhǔn)確性;Jaccard指數(shù) J 用于測量區(qū)域相似性,計算預(yù)測分割圖和真實分割圖的交集與并集之比。 F 分?jǐn)?shù)和Jaccard指數(shù) J 的公式如下:
其中:precision是準(zhǔn)確度;recall是召回率; M 是預(yù)測的分割圖; Y
是真實的分割圖。
3.2 數(shù)據(jù)集和實驗設(shè)置
相關(guān)實驗在AVSBench-object數(shù)據(jù)集[1]進行視聽分割,該數(shù)據(jù)集包含半監(jiān)督單聲源分割(semi-supervised single soundsourcesegmentation,S4)和全監(jiān)督多聲源分割(fully-supervisedmultiple sound source segmentation,MS3)兩個子集。S4子集是具有單個目標(biāo)對象的音頻樣本,包含4932個視頻,其中3452個視頻用于訓(xùn)練,740個視頻用于驗證,740個視頻用于測試。目標(biāo)對象涵蓋23個類別,包括人、動物、車輛和樂器等。MS3子集包括424個視頻,其中286個訓(xùn)練視頻,64個驗證用于視頻,64個視頻用于測試,具有與S4相同的類別。
使用NVIDIAL2OGPU訓(xùn)練AVSAF模型,批次大小設(shè)置為16,S4訓(xùn)練周期數(shù)(epoch)為25,MS3訓(xùn)練周期為50,記憶token值為150。ResNet-50 和 pyramidvision Transformer(PVT-Δv2 )作為視覺骨干網(wǎng)絡(luò)。視覺骨干網(wǎng)絡(luò)為PVT-v2時,通道大小C= [64,128,320,512];骨干網(wǎng)絡(luò)為ResNet-50時,通道大小
C=[256,512,1 024,2 048] 。對比損失的溫度系數(shù) τ=0.1 ,總損失函數(shù)的超參數(shù) λ=1 ,評估指標(biāo)的 β2 設(shè)置為0.3。使用Ad-am優(yōu)化器,所有視頻幀的大小都統(tǒng)一為 224×224 。
3.3 實驗結(jié)果
AVSAF與AVSBench的分割結(jié)果如圖4所示,AVSAF能夠準(zhǔn)確地分割出鍵盤上的按鍵以及鋼琴鍵(圖4(a)(b)),且成功地分割出正在唱歌的女生(圖4(c))。這表明AVSAF在聲音定位性能方面具有更精準(zhǔn)的分割結(jié)果。本節(jié)從以下兩個方面去評估模型的性能,首先,將AVSAF與聲音定位(SSL)[12,13]、視頻對象分割(VOS)[20,21]和顯著目標(biāo)檢測(SOD)[22,23]等任務(wù)方法作比較,實驗結(jié)果如表1所示?;赟SL的方法與AVSAF之間存在顯著的性能差距,這主要是由于SSL中缺乏像素級標(biāo)簽。此外,由于VOS和SOD是單模態(tài)任務(wù),它們僅考慮視覺信息而忽略了音頻信息,這導(dǎo)致AVSAF在AVSBench-object數(shù)據(jù)集上明顯優(yōu)于VOS和SOD。總之,與相關(guān)任務(wù)方法的比較證實了模型在AVS中的卓越性能。
噪聲,增加了多模態(tài)信息對齊的難度,且多聲源情況下的音頻特征更為分散,使得模型難以精準(zhǔn)定位各個聲源的發(fā)聲對象。
其次,為了充分體現(xiàn)本文方法的可信性,將AVSAF與其他AVS進行了全面比較,其中AVSBench是AVSBench-Object數(shù)據(jù)集的基線方法。為了確保公平性,采用 ResNet-50 或PVT- ?v2 作為提取視覺特征的骨干網(wǎng)絡(luò)。從表1可以看出,在S4數(shù)據(jù)集上,當(dāng)使用PVT σ?v2 作為骨干網(wǎng)絡(luò)時,AVSAF比AVSBench、AVSC、CCLD和CATR的 J 值分別提高了 3.04.0.49.0.40 和0.38百分點, F 值分別提高 2.4,1.8,0.1 和0.7百分點,這表明AVSAF在單聲源場景中表現(xiàn)出更強的目標(biāo)分割能力。在MS3數(shù)據(jù)集上,AVSAF比AVSBench方法的 J 值提高了4.71百分點, F 值提高3.5百分點。但是相比于CATR,AVSAF的性能略低,主要原因是MS3數(shù)據(jù)集包含更復(fù)雜的音頻和背景
最后,基于PVT- σ?v2 骨干網(wǎng)絡(luò)的模型在不同迭代次數(shù)下的訓(xùn)練結(jié)果曲線如圖5所示,AVSAF相比于AVSBench基線方法 ,Lseg 損失值與 J 值曲線更為平滑。盡管 Lseg 損失值下降程度很接近(圖5(a)),但是整體來看AVSAF方法優(yōu)于基線方法。隨著epoch增大,J值在AVSAF上具有更高的性能。這些結(jié)果表明,AVSAF在視聽分割任務(wù)中具備較強的泛化能力和魯棒性。
3.4 消融實驗
本節(jié)通過消融實驗驗證AVSAF主要模塊的有效性,所有消融實驗的視覺骨干網(wǎng)絡(luò)均采用PVT- σ?v2 。
3.4.1 對比學(xué)習(xí)消融
表2在沒有對比學(xué)習(xí)的情況下直接訓(xùn)練AVSAF。實驗結(jié)果表明,在S4子集上,無對比學(xué)習(xí)的 J 值為 81.11% , F 值為89.8% 。然而,加入對比學(xué)習(xí)的AVSAF的 J 值提升0.67百分點, F 值提升0.5百分點。在MS3集上,加入對比學(xué)習(xí)使得 J 值提高2.28百分點, F 值提高1.9百分點,這表明了對比學(xué)習(xí)在AVSAF框架中的有效性。對比學(xué)習(xí)的加入使模型更能學(xué)習(xí)到音頻和視頻特征之間的細(xì)微差異和聯(lián)系,并準(zhǔn)確地區(qū)分不同類別的特征。此外,對比學(xué)習(xí)在編碼器-解碼器框架下效果一般,尤其是在有限的計算配置下,這是由于無法構(gòu)建足夠大的正樣本和負(fù)樣本,并且訓(xùn)練的數(shù)據(jù)集有限且分布不全面,無法足夠地學(xué)習(xí)到獨特的特征。
3.4.2 VATF模塊消融
為了評估VATF模塊的數(shù)量對模型性能的影響,改變VATF模塊的個數(shù)進行訓(xùn)練,并將結(jié)果顯示在表3中。實驗表明,當(dāng)VATF的數(shù)量為2時,模型性能最佳,一個VATF模塊可能不足以充分融合音頻和視頻特征,而三個VATF模塊可能會導(dǎo)致過度融合,增加模型的復(fù)雜性,進而引入噪聲和冗余信息。這表明了所提多維度融合網(wǎng)絡(luò)在AVSAF任務(wù)中的必要性和有效性。具體來說,在S4數(shù)據(jù)集上,僅使用一個VATF模塊時, J 的性能從 81.78% 下降到 80.90% , F 值從 90.3% 下降到89.7% ;而使用三個VATF模塊時, J 的性能從81. 78% 下降到81.33% F 值從 90.3% 下降到 90.0% 。同時,在MS3數(shù)據(jù)集上,使用兩個VATF模塊的AVSAF性能最好。因此,對于視聽分割任務(wù),使用兩個VATF模塊能夠在特征融合方面取得最佳效果。
3.4.3token參數(shù)分析
記憶token的數(shù)量對模型性能的影響如表4所示,本文對不同記憶token值進行了實驗,其中記憶token數(shù)量為{0,100,150,200}。在VLTF中,隨著記憶token數(shù)量的增加,初始時 J 指標(biāo)會上升,當(dāng)token數(shù)量達到150之后 J 指標(biāo)減少。token數(shù)量設(shè)置為150時,可獲得最佳性能。這是因為相關(guān)的音頻特征在AVSBench-object數(shù)據(jù)集中受到了一定的限制,記憶token數(shù)量的增加在一定范圍內(nèi)有助于捕捉更多的特征信息,提高模型的表達能力。然而,當(dāng)token數(shù)量過多時,模型可能會引入過多的冗余信息和噪聲,導(dǎo)致特征融合過程中的干擾增加,反而降低了分割效果。因此,設(shè)置token數(shù)量為150能夠在信息量和特征精度之間達到最佳平衡,獲得最優(yōu)的分割效果。此外,當(dāng)token數(shù)量為0時,模型性能顯著下降,表明記憶token的引入對于有效捕捉和融合多模態(tài)特征至關(guān)重要,缺少記憶token會導(dǎo)致信息表達不足,從而影響分割效果。
3.5模型參數(shù)和訓(xùn)練時間分析
模型參數(shù)和訓(xùn)練時間如表5所示,其中包括AVSBench、CATR和AVSAF在使用不同骨干網(wǎng)絡(luò)(ResNet-50和PVT- ?v2 )的參數(shù)大小和訓(xùn)練時間。首先,從參數(shù)大小角度來看,AVSAF模型參數(shù)大小介于AVSBench和CATR之間,既不會因參數(shù)過少而犧牲過多性能,也不會因參數(shù)過多而給計算資源帶來沉重負(fù)擔(dān)。其次,在訓(xùn)練時間方面,AVSAF的訓(xùn)練時間同樣處于AVSBench和CATR之間。雖然AVSAF的訓(xùn)練時間比AVS-Bench長,但能獲得更高的準(zhǔn)確度。盡管CATR的 J 值和 F 值比AVSAF略高,然而其需要更多的訓(xùn)練時間??傊?,AVSAF模型在追求精度的同時,訓(xùn)練效率表現(xiàn)良好。盡管相比AVS-Bench,其參數(shù)量和訓(xùn)練時間有所增加,但相比于CATR的大規(guī)模參數(shù)和超長訓(xùn)練時間,AVSAF的參數(shù)量和訓(xùn)練時間都更加具有優(yōu)勢。
4結(jié)束語
為了解決視聽分割中視覺和聽覺特征融合效果不佳的問題,本文提出了基于對比學(xué)習(xí)的視聽分割注意力融合框架。該方法首先使用音視頻編碼器提取視/聽覺特征;其次,利用多個視/聽覺token融合模塊來有效整合像素級的視覺和聽覺特征,不僅提升了特征的表達能力,還加強了跨模態(tài)信息的融合;然后,引入對比學(xué)習(xí)機制進一步增強了視覺和聽覺特征之間的關(guān)聯(lián)性,使得模型能夠更準(zhǔn)確地理解視覺和聽覺信息;隨后,利用雙層FPN解碼器生成特征圖,增強視聽分割任務(wù)的魯棒性,提高模型在不同場景中的性能表現(xiàn);最后,在AVSBench-object數(shù)據(jù)集上進行了模型對比實驗、消融實驗和參數(shù)靈敏性實驗,驗證了AVSAF在視聽分割任務(wù)中的有效性和優(yōu)越性。這些實驗證明了本文框架在處理多模態(tài)數(shù)據(jù)時的準(zhǔn)確性,為視聽融合技術(shù)的進一步發(fā)展提供了有力支持。
在當(dāng)前的視聽融合模型中,當(dāng)具有相似聽覺特征的對象同時存在于一個幀圖像中時,可能會導(dǎo)致視頻分割結(jié)果的混淆和準(zhǔn)確度下降。尤其是在復(fù)雜環(huán)境中,這種混淆不僅影響模型的分割性能,還可能導(dǎo)致對場景和對象的誤解。為了應(yīng)對這一挑戰(zhàn),筆者計劃在未來的研究中可以精細(xì)化音頻特征預(yù)處理。
參考文獻:
[1]Zhou Jinxing,Wang Jianyuan,Zhang Jiayi,et al. Audio-visual segmentation[C]//Proc of European Conference on Computer Vision. Cham:Springer,2022:386-403.
[2]Mao Yuxin,Zhang Jing,Xiang Mochu,et al.Contrastive conditional latent diffusion for audio-visual segmentation [EB/OL]. (2023-07- 31).https://arxiv.org/abs/2307.16579.
[3]LiKexin,Yang Zongxin,Chen Lei,etal.CATR:combinatorialdependence audio-queried Transformer for audio-visual video segmntation[C]//Proc of the31st ACM International Conference on Multimedia.NewYork:ACMPress,2023:1485-1494.
[4]ArandjelovicR,ZissermanA.Look,listen and learn[C]//Proc of IEEEInternational Conferenceon ComputerVision.Piscataway,NJ: IEEEPress,2017:609-617.
[5]ArandjelovicR,Zisserman A.Objects that sound[C]//Proc of European Conference on Computer Vision.Cham:Springer,2018:435-451.
[6]AytarY,Vondrick C,Torralba A. SoundNet:learningsound representations from unlabeled video[EB/OL]. (2016-10-27). https:// arxiv.org/abs/1610.09001.
[7]LinYanbo,LiYJ,WangYF.Dual-modality seq2seq network for audio-visual event localization[C]//Proc of IEEE International Conference on Acoustics,Speech and Signal Processing. Piscataway,NJ: IEEE Press,2019:2002-2006.
[8]Lin Yanbo,Wang YF.Audiovisual transformer with instance attentionfor audio-visual event localization[C]//Proc of Asian Conference on Computer Vision.Cham:Springer,2021:274-290.
[9]Duan Bin,Tang Hao,WangWei,et al.Audio-visual event localizationvia recursive fusion by joint co-attention[C]//Proc of IEEE Winter Conference on Applications of Computer Vision. Piscataway, NJ:IEEE Press,2021:4012-4021.
[10]Lin Yanbo,Tseng HY,LeeHY,et al.Exploring cross-video and cross-modality signals for weakly-supervised audio-visual video parsing [C]//Proc of the 35th International Conference on Neural InformationProcessing Systems. New York:ACM Press,2021:11449-11461.
[11]Wu Yu,Yang Yi.Exploring heterogeneous clues for weaklysupervised audio-visual video parsing[C]//Proc of IEEE/CVF Conference on Computer Vision and Pattern Recognition.Piscataway, NJ:IEEE Press,2021:1326-1335.
[12]ChenHonglie,XieWeidi,AfourasT,etal.Localizingvisual sounds thehard way[C]//Proc of IEEE/CVF Conferenceon ComputerVision and Pattern Recognition.Piscataway,NJ:IEEE Press,2021: 16862-16871.
[13]Qian Rui,Hu Di,Dinkel H,et al. Multiple sound sources localizationfromcoarse tofine[C]//Proc of the16thEuropean Conference on Computer Vision.Cham:Springer,2020:292-308.
[14]Hu Di,QianRui,Jiang Minyue,etal.Discriminativesounding objectslocalizationvia self-supervised audiovisual matching[C]//Proc of the 34th International Conference on Neural Information Processing Systems.New York:ACM Press,2020:10077-10087.
[15]陳國良,徐揚,黃曉琴.基于正四棱錐結(jié)構(gòu)的機器人聲源定位系 統(tǒng)研究[J].計算機應(yīng)用研究,2019,36(4):1088-1092.(Chen Guoliang,Xu Yang,Huang Xiaoqin. Sound source localization systemfor robot based on rectangular pyramid structure[J].Application Research of Computers,2019,36(4):1088-1092.)
[16]Oord A VD,Li Yazhe,Vinyals O.Representation learning with contrastive predictive coding[EB/OL]. (2019-01-22). https://arxiv. org/abs/1807.03748.
[17]Chen Ting,KornblithS,Norouzi M,et al.A simpleframework for contrastive learning of visual representations[C]//Proc of the 37th International Conference on Machine Learning. New York:ACM Press,2020:1597-1607.
[18]Hershey S,Chaudhuri S,Elis DPW,etal.CNNarchitectures for large-scale audio classification[C]//Proc of IEEEInternational Conference on Acoustics, Speech and Signal Processing. Piscataway, NJ:IEEEPress,2017:131-135.
[19]Liu Chen,LiPP,Qi Xingqun,et al.Audio-visual segmentation by exploring cross-modal mutual semantics[C]//Proc of the 31st ACM International Conference on Multimedia. New York:ACM Press, 2023:7590-7598.
[20]Mahadevan S,Athar A,Osep A,et al.Making a case for 3D convolutions for object segmentation in videos[EB/OL].(2020-08-26). https://arxiv.org/abs/2008.11516.
[21]Duke B,Ahmed A,Wolf C,et al. SSTVOS:sparse spatiotemporal transformers for video object segmentation[C]//Proc of IEEE/CVF Conference on Computer Vision and Pattern Recognition.Piscataway, NJ:IEEE Press,2021:5908-5917.
[22]Mao Yuxin,Zhang Jing,Wan Zhexiong,et al.Generative Transformer for accurate and reliable salient object detection[EB/OL].(2021- 04-20).https://arxiv.org/abs/2104.10127.
[23]Zhang Jing,Xie Jianwen,Barnes N,et al.Learning generative vision Transformerwith energy-based latent space for saliency prediction [C]//Proc of the 35th International Conference on Neural Information Processing Systems.New York:ACM Press,2021:15448-15463.