中圖分類號(hào):TP391 文獻(xiàn)標(biāo)志碼:A 文章編號(hào):1001-3695(2025)07-009-1986-08
doi:10.19734/j. issn.1001-3695.2024.11.0492
Abstract:Existingvideocaptioningoftenintroducemultimodal informationtoassistmodelsinextractingcriticalandfinegrained details fromcomplex anddynamic visual content.However,these methods tendtooverlook thesemantic gapscaused by representationaldiferencesamong modalities.Tobridgethesegaps,facilitateefectivecross-modalalignmentandeficientfusion,andenancetheextractionoffine-grainedsmanticinformatio,thispperproposedareverse-focusfingranedultio dal semanticalignmentforvideocaptioning(RM4Cap).Thismodelcombinedanimage-textpaircorpusand facilitatedsemanticalignmentbetweenvideoandimage,indirectlyaligningvideorepresentationswithtextintheimage-textpairs.Anditdesignedareverse attention focusing algorithm to suppress redundant scene informationwhile highlighting inconspicuous objects and their interactions.Experimentsconductedonthe MSVDand MSRVTTdatasetsshow thatthe model significantlyoutperforms existing methods in metricssuch as CIDErand BLEU-4.It efectivelyresolves thealignmentchallenges andredundancy issues in multimodal fusion,further demonstrating its ability to narrow the cross-modal semantic gap.
Key words:video captioning;multimodal; reverse attention;semantic alignment; semantic gap
0 引言
視頻字幕是一個(gè)連接視覺和語(yǔ)言并將視覺內(nèi)容以自然語(yǔ)言描述的跨模態(tài)任務(wù)。視頻字幕在多個(gè)領(lǐng)域都有廣泛的應(yīng)用,尤其是在無障礙輔助系統(tǒng)的設(shè)計(jì)和多媒體教學(xué)任務(wù)[1.2]中具有重要作用。然而,理解視覺內(nèi)容是一項(xiàng)非常具有挑戰(zhàn)性的任務(wù)。與圖像視覺內(nèi)容的固定不變和文本語(yǔ)句主旨的直接表述不同,視頻內(nèi)容由于具有時(shí)序性,其表現(xiàn)形式在不同場(chǎng)景和時(shí)間點(diǎn)上會(huì)有所變化。例如,一只倉(cāng)鼠在不同的鏡頭下可能有不同的姿態(tài)和難以避免的遮擋,而模型往往無法正確識(shí)別其類別,通常會(huì)用籠統(tǒng)的詞語(yǔ),如用“動(dòng)物”來描述。同樣地,對(duì)于細(xì)微的動(dòng)作變化,模型也可能無法察覺,進(jìn)而用簡(jiǎn)化的動(dòng)作描述,如用“isplaying”或“iswith”概括所有的變化。這一局限性不僅妨礙了細(xì)粒度信息的呈現(xiàn),還影響了模型對(duì)關(guān)鍵視覺關(guān)系的準(zhǔn)確推理。因此,如何有效地將學(xué)習(xí)到的這些細(xì)粒度的視覺信息轉(zhuǎn)換為更精確的文本描述成為一大挑戰(zhàn)。
為了應(yīng)對(duì)上述挑戰(zhàn),近期的研究[3\~5]探索了引入額外模態(tài)信息以彌補(bǔ)視覺內(nèi)容表達(dá)的不足,其中最廣泛應(yīng)用的是引人文本模態(tài)。文本不僅能彌合視覺內(nèi)容在變化過快或過慢時(shí)引發(fā)的理解不穩(wěn)定,還能在視覺信息稀缺的情況下提供語(yǔ)義支持,從而幫助模型準(zhǔn)確識(shí)別并表達(dá)關(guān)鍵信息。引入文本模態(tài)的模型常采用圖像-文本匹配方法,或者通過額外構(gòu)建支持集語(yǔ)料庫(kù)[]供模型參考,并引人注意力機(jī)制[89]以實(shí)現(xiàn)視覺與文本的跨模態(tài)融合。注意力機(jī)制能夠融合來自不同特征提取器的信息,并動(dòng)態(tài)地總結(jié)視覺與文本特征,定位視頻中與目標(biāo)文本標(biāo)簽高度相關(guān)的視覺區(qū)域,從而增強(qiáng)對(duì)全局信息的捕捉。然而,這些方法仍然面臨信息冗余的問題,例如,視頻幀序列中可能包含大量不同的對(duì)象或場(chǎng)景,但并非所有的對(duì)象或細(xì)節(jié)都對(duì)字幕生成具有實(shí)質(zhì)性貢獻(xiàn)。模型通常難以有效篩選并聚焦于關(guān)鍵對(duì)象,導(dǎo)致一些不相關(guān)或次要信息被過度關(guān)注,影響了字幕生成的準(zhǔn)確性。此外,現(xiàn)有方法在處理細(xì)粒度目標(biāo)時(shí),往往未能深入捕捉同類對(duì)象之間的微小差異。這種忽視細(xì)節(jié)的做法可能導(dǎo)致生成的描述過于籠統(tǒng),無法充分表達(dá)視頻中的復(fù)雜變化和細(xì)節(jié)。
盡管現(xiàn)有方法在視覺與文本的跨模態(tài)融合上有所嘗試,但依然未能有效解決視覺與文本之間的語(yǔ)義鴻溝問題。具體來說,視覺模態(tài)中包含的細(xì)粒度信息和復(fù)雜的語(yǔ)義關(guān)系在轉(zhuǎn)換為文本描述時(shí),往往未能完全反映或準(zhǔn)確傳達(dá),導(dǎo)致視覺內(nèi)容中的深層次信息無法與文本特征充分對(duì)齊。這種語(yǔ)義鴻溝使得模型難以準(zhǔn)確捕捉視頻中的微小變化和細(xì)節(jié),從而影響字幕生成的精確度與多樣性。雖然現(xiàn)有對(duì)齊方法能夠在一定程度上緩解信息融合的難題,但仍未能徹底消除視覺和文本模態(tài)間的語(yǔ)義差異。為解決上述所說的現(xiàn)有方法中存在的視覺和文本模態(tài)之間的對(duì)齊與融合難題,以及兩種模態(tài)間的語(yǔ)義鴻溝問題,本文提出了一種新穎的跨模態(tài)目標(biāo)語(yǔ)義對(duì)齊方法,并稱之為RM4Cap。
RM4Cap不同于傳統(tǒng)的圖像-文本匹配檢索,而是通過將原始視頻幀特征與圖文對(duì)中提取的圖視覺輔助特征進(jìn)行匹配,結(jié)合語(yǔ)料庫(kù)信息識(shí)別目標(biāo)對(duì)象的最接近類別。這種方法不僅顯著提升了尾部類別的生成能力,還在語(yǔ)義對(duì)齊和視覺關(guān)系推理中展現(xiàn)了更高的細(xì)粒度表現(xiàn)。由于視覺特征間的匹配相比跨模態(tài)的視覺-文本對(duì)齊更加直觀且具可解釋性,此策略有效緩解了視覺與文本語(yǔ)義間的鴻溝問題。此外,本文檳棄了傳統(tǒng)注意力機(jī)制中只關(guān)注幀間顯著目標(biāo)的學(xué)習(xí)方式,創(chuàng)新性地引入反向注意力機(jī)制,以捕捉小類別之間的細(xì)微差異,而非完全不同類別的顯著差異。這種機(jī)制有效緩解了語(yǔ)義簡(jiǎn)化的傾向,從而提升了模型的描述細(xì)粒度和多樣性。本文的貢獻(xiàn)可以總結(jié)如下:
a)提出了一個(gè)新穎的多模態(tài)視頻字幕模型,通過引人額外的圖像-文本對(duì),彌合圖像對(duì)中圖像的距離,實(shí)現(xiàn)圖像與視頻幀的對(duì)齊,間接實(shí)現(xiàn)低級(jí)視覺與跨模態(tài)高級(jí)語(yǔ)義的對(duì)齊,從而解決了語(yǔ)義鴻溝問題,實(shí)現(xiàn)了多模態(tài)信息的高效融合。
b)在引入多模態(tài)信息的基礎(chǔ)上,本文設(shè)計(jì)了反向注意力聚焦算法,在傳統(tǒng)注意力上進(jìn)行改動(dòng),提高模型發(fā)現(xiàn)視覺細(xì)微動(dòng)態(tài)變化的能力,同時(shí)減少視覺冗余以及額外模態(tài)帶來的冗余。
c)在兩個(gè)廣泛使用的公共數(shù)據(jù)集MSVD和MSRVTT上進(jìn)行實(shí)驗(yàn),除了在大數(shù)據(jù)MSRVTT上的BLEU-4指標(biāo),本文模型在所有其他指標(biāo)上都取得了顯著的提升。
1相關(guān)工作
a)視頻字幕。最早的視頻字幕任務(wù)基于SVO三元組[10]該方法不僅需要耗費(fèi)大量的人工設(shè)計(jì)語(yǔ)言規(guī)則,且生成的字幕缺乏豐富性和準(zhǔn)確性,逐漸被深度學(xué)習(xí)的方法所取代,常見的視頻字幕任務(wù)范式是使用兩階段的編碼器解碼器架構(gòu),使用經(jīng)過預(yù)訓(xùn)練的2DCNN[11]以及3DCNN[12]來編碼視頻幀序列的視覺、運(yùn)動(dòng)信息,然后使用RNN或者 LSTM[13~15] 按順序解碼出單詞。如RLHMN[14]提出了一個(gè)層級(jí)式的模塊化網(wǎng)絡(luò),編碼視頻中的對(duì)象、動(dòng)作以及上下文信息配合LSTM解碼生成字幕。MGRMP[16]設(shè)計(jì)了一個(gè)循環(huán)區(qū)域注意模塊,以提取不同的空間特征,并通過使用運(yùn)動(dòng)引導(dǎo)的跨幀消息傳遞,建立不同區(qū)域之間的高階關(guān)系,共同鼓勵(lì)信息交流產(chǎn)生強(qiáng)大的視頻表示。SAAT[15]則是額外地引入了預(yù)訓(xùn)練對(duì)象檢測(cè)器,并設(shè)計(jì)了動(dòng)作引導(dǎo)模塊,通過學(xué)習(xí)注意力分布,動(dòng)態(tài)融合謂詞與先前預(yù)測(cè)單詞的信息,使模型能精準(zhǔn)地描述動(dòng)作。
以上工作都圍繞數(shù)據(jù)集本身開展,外部知識(shí)和構(gòu)建額外的語(yǔ)料庫(kù)的思想被引人到視頻任務(wù)中,如ORG-TRL[17]創(chuàng)新地設(shè)計(jì)了一種教師推薦學(xué)習(xí)方法,將外部知識(shí)集成到字幕模型當(dāng)中,結(jié)合對(duì)象關(guān)系圖編碼器以捕獲更詳細(xì)的交互信息。Open-Book[13]構(gòu)建了可插入的視頻到文本檢索器,從訓(xùn)練語(yǔ)料庫(kù)中檢索句子作為提示,增強(qiáng)模型字幕生成能力。另外,視頻內(nèi)的視覺關(guān)系也是值得關(guān)注的,這關(guān)乎對(duì)視頻內(nèi)容的總結(jié)。
TVRD[18] 提出了一個(gè)傳遞視覺關(guān)系的檢測(cè)模塊,細(xì)化視覺對(duì)象的動(dòng)作,并構(gòu)造對(duì)象-動(dòng)作圖來描述對(duì)象和動(dòng)作之間的淺層關(guān)系,通過動(dòng)作來彌合對(duì)象之間的差距。
視頻字幕任務(wù)是多模態(tài)任務(wù)的先驅(qū),所以近期的視頻字幕研究開始引人多模態(tài)知識(shí)以輔助生成。如MGSA[19]提出了一種利用運(yùn)動(dòng)引導(dǎo)空間注意的新型視頻字幕框架,并結(jié)合了數(shù)據(jù)集的音頻信息來生成更細(xì)致的字幕。 HRNAT[20] 提出了帶有輔助任務(wù)的分層表示網(wǎng)絡(luò),其中跨模態(tài)匹配任務(wù)能夠在語(yǔ)言三級(jí)表示的指導(dǎo)下學(xué)習(xí)視頻的層級(jí)表示,以獲得具有語(yǔ)法感知的視頻字幕。SMRE提出了一種基于支持集的視頻字幕多模態(tài)表示增強(qiáng)模型,在樣本之間共享的語(yǔ)義子空間中構(gòu)建靈活的映射關(guān)系和挖掘信息。
b)語(yǔ)義引導(dǎo)視頻字幕。字幕生成的關(guān)鍵是對(duì)視頻內(nèi)語(yǔ)義信息的準(zhǔn)確把握,所以視覺語(yǔ)義嵌人在視頻字幕任務(wù)中有著至關(guān)重要的作用。研究人員通過構(gòu)建從視覺特征獲取視覺表示向量的視覺模型和把字幕投射到語(yǔ)言表示向量的語(yǔ)言模型兩個(gè)模型,將兩種表示映射到聯(lián)合的空間當(dāng)中以生成字幕。Sib-Net[21] 使用雙分支架構(gòu)對(duì)豐富的視頻信息進(jìn)行編碼,利用了視覺信息的自動(dòng)編碼器和語(yǔ)義信息的視覺語(yǔ)義嵌入。 SGN[22] 提出了一種用于視頻字幕的語(yǔ)義分組網(wǎng)絡(luò)。該網(wǎng)絡(luò)通過將視頻編碼為由部分解碼的標(biāo)題和相關(guān)幀組成的語(yǔ)義組來全面了解字幕上下文。RSFD[23]提出了一種針對(duì)頻率擴(kuò)散的新型細(xì)化語(yǔ)義增強(qiáng)方法,并設(shè)計(jì)了一個(gè)不同的語(yǔ)義監(jiān)督器(DSS)模塊來補(bǔ)償擴(kuò)散過程帶來的高頻標(biāo)記的信息丟失,進(jìn)一步強(qiáng)調(diào)低頻標(biāo)記的語(yǔ)義來緩解長(zhǎng)尾問題。相比之下,本文提出了一種多模態(tài)的方法,通過結(jié)合額外的圖文對(duì)來提供語(yǔ)義信息指導(dǎo),輔助模型準(zhǔn)確地學(xué)習(xí)到視頻內(nèi)容的語(yǔ)義信息。
2方法
本文RM4Cap框架如圖1所示,主要由多模態(tài)特征編碼器、跨模態(tài)目標(biāo)語(yǔ)義關(guān)聯(lián)、字幕生成器三個(gè)模塊組成,充分利用視頻幀圖像與圖像之間的高效對(duì)齊,間接達(dá)到視頻幀與文本的跨模態(tài)的高效融合。
首先,通過多模態(tài)編碼器獲取原始視頻的全局視覺表示,同時(shí)對(duì)額外引入的圖像-文本對(duì)語(yǔ)料庫(kù)中的圖像和文本進(jìn)行編碼,得到圖像輔助特征表示和文本標(biāo)簽語(yǔ)義信息。隨后,在跨模態(tài)目標(biāo)語(yǔ)義關(guān)聯(lián)過程中,本文提出了跨模態(tài)目標(biāo)-語(yǔ)義關(guān)聯(lián)模塊CTSAM,以圖像輔助特征為橋梁,實(shí)現(xiàn)視頻與文本標(biāo)簽?zāi)繕?biāo)語(yǔ)義的對(duì)齊與關(guān)聯(lián),并采用反向注意力聚焦算法對(duì)關(guān)聯(lián)后的新視覺語(yǔ)義進(jìn)行建模,在與不同幀的交互中,學(xué)習(xí)到細(xì)微差異,實(shí)現(xiàn)更加細(xì)粒度的特征表示。最后字幕生成模型將這些表示映射到文本空間,生成相對(duì)應(yīng)的描述。
2.1多模態(tài)特征編碼器
為了更好從視頻中獲取豐富的視覺表示,以及對(duì)圖像-文本對(duì)進(jìn)行特征編碼,本文使用了預(yù)訓(xùn)練的CLIP模型來搭建本文的多模態(tài)特征編碼器,CLIP模型并不是單純的視覺特征提取骨干網(wǎng)絡(luò),如文獻(xiàn)[24]所述,該模型對(duì)大量的Image-Text即圖文對(duì)進(jìn)行訓(xùn)練,通過對(duì)比學(xué)習(xí),使得當(dāng)其在編碼視覺模態(tài)信息時(shí)可以更加趨向文本表示,同樣地,當(dāng)其在編碼文本信息時(shí),同時(shí)向圖像表示空間靠攏。如圖1所示,多模態(tài)編碼器主要由兩部分組成:a)對(duì)輸入的視頻幀序列進(jìn)行處理,采用的是CLIP模型中的視覺編碼器,并選擇 ViT[25] 作為視覺編碼器的特征提取骨干;b)對(duì)輸入的圖文對(duì)進(jìn)行處理,對(duì)于圖像,依舊采用和視頻處理一樣的視覺編碼器,對(duì)于文本,則采用CLIP模型中的文本編碼器來進(jìn)行編碼。編碼視頻特征、圖文對(duì)圖像特征以及文本標(biāo)簽語(yǔ)義特征的具體實(shí)現(xiàn)如下:
a)采用視覺編碼器提取視頻特征。在這一步中,為了確保模型能夠有效捕獲視頻幀細(xì)粒度信息,在采樣階段執(zhí)行均勻采樣來避免過多相似視頻幀被輸入到編碼器。首先,從給定視頻片段提取 L 個(gè)關(guān)鍵幀,組成新的視頻幀序列 Fi(01,x2,…,x1p1} ,通過線性投影將每個(gè)塊展平并映射到 dv 維的向量空間,得到每一個(gè)圖片的塊嵌入表示。
其中: Epos 是所有圖像塊的位置編碼; Z0 是Transformer初始輸入序列;Transformer由 N 層多頭自注意力層和MLP塊交替堆疊而成,負(fù)責(zé)對(duì)這些嵌入表示即初始輸人序列進(jìn)行特征編碼。具體實(shí)現(xiàn)公式如下:
Z'n=MSA(LN(Zn-1))+Zn-1
Zn=MLP(LN(Z'n))+Z'n
其中: Zn 是Transformer重復(fù) n 層的輸出結(jié)果; ZclsN 是最后一層輸出的分類特征,然后對(duì)其進(jìn)行歸一化,得到最終的全局視覺特征 Gi 。需要注意的是,為了節(jié)約計(jì)算成本和訓(xùn)練時(shí)間,該過程的所有參數(shù)都采用凍結(jié)的預(yù)訓(xùn)練參數(shù),不參與模型訓(xùn)練。
b)分別采用視覺編碼器、文本編碼器提取圖像輔助特征和文本標(biāo)簽語(yǔ)義特征。在編碼視瀕幀序列的同時(shí),從圖像-文本對(duì)中采樣的圖像集 {I1,I2,…,IM} 也被輸入到視覺編碼器visionTransformer(ViT-L/14)進(jìn)行處理,以提取輔助圖像特征 Vj
其中: M 為圖像對(duì)中圖像集的總數(shù); Vj 為圖像集中第 j 張圖像對(duì)應(yīng)的圖像視覺輔助特征。
類似地,從圖像-文本對(duì)中采樣的文本標(biāo)簽集 {[token]1 [token]2,…,[token]M} 由CLIP模型中的文本編碼器將其編碼為語(yǔ)義表示。文本編碼器同樣基于Transformer結(jié)構(gòu),由于文本標(biāo)簽是一個(gè)一個(gè)單獨(dú)存在的單詞,并沒有像圖像那樣需要結(jié)合上下文語(yǔ)義信息進(jìn)行編碼,所以Transformer中多頭自注意力層并沒有起什么作用。在這一步中,本文丟棄多頭自注意力層,僅保留MLP塊作為Transformer的關(guān)鍵組件,通過多次疊加,生成類別標(biāo)簽的語(yǔ)義特征。其簡(jiǎn)化的計(jì)算過程如下:
En=MLP(LN(En))+Enn=1,2,…,N
其中: M 為圖文對(duì)中類別標(biāo)簽的總數(shù); Tj 為圖文對(duì)中第 j 個(gè)文本類別標(biāo)簽。
2.2CTSAM跨模態(tài)目標(biāo)-語(yǔ)義關(guān)聯(lián)模塊
為了實(shí)現(xiàn)視覺和語(yǔ)義之間更好的對(duì)齊以及減少視覺冗余的負(fù)面影響,本文提出了CTSAM跨模態(tài)目標(biāo)-語(yǔ)義關(guān)聯(lián)模塊,分別由跨模態(tài)語(yǔ)義對(duì)齊(cross-modal semanticalignment,CMSA)和反向聚焦幀間特征細(xì)化(reverse-focusedframe-levelrefinement,RFFR)兩個(gè)關(guān)鍵組件組成。CMSA引入圖片進(jìn)行對(duì)齊來輔助文本對(duì)齊和融合,與直接對(duì)文本信息進(jìn)行注意力不同,CMSA可以提供更加豐富的包含準(zhǔn)確目標(biāo)的語(yǔ)義信息;同時(shí)結(jié)合使用了反向注意力的RFFR,又可以對(duì)模態(tài)存在的冗余信息進(jìn)行刪減,保留可以反映視覺關(guān)系的動(dòng)態(tài)視覺變化,從而進(jìn)一步增強(qiáng)視頻幀的特征表達(dá)能力。圖2展示了CMSA的跨模態(tài)對(duì)齊融合以及RFFR的反向注意力簡(jiǎn)略對(duì)比圖,各自的性能結(jié)果將在消融實(shí)驗(yàn)3.3節(jié)中的2)進(jìn)行敘述,其中“visual\"代表視覺模態(tài)信息;“text”代表文本模態(tài)信息;“sem”代表語(yǔ)義信息。
2.2.1CMSA跨模態(tài)語(yǔ)義對(duì)齊組件
CMSA組件框架如圖1和圖2(b)所示,與傳統(tǒng)方法直接對(duì)接視頻與文本表示不同,CMSA通過構(gòu)建視頻與圖像-文本對(duì)中圖像的間接橋梁,實(shí)現(xiàn)視頻與文本的對(duì)齊和融合。此方法不僅有效對(duì)齊不同模態(tài),還緩解了因模態(tài)不同步而產(chǎn)生的語(yǔ)義鴻溝問題。CMSA的跨模態(tài)語(yǔ)義對(duì)齊過程具體實(shí)現(xiàn)如下:
在跨模態(tài)語(yǔ)義對(duì)齊之前,多模態(tài)特征編碼器已將全局視覺特征、圖像輔助特征和文本特征映射到共享的語(yǔ)義空間中,并分別用 Gi,Vj 和 Tj 表示經(jīng)過映射后的特征。然后CMSA通過余弦相似度衡量視頻幀 Gi 與語(yǔ)料庫(kù)中圖像特征 Vj 的關(guān)聯(lián)性:
其中: Si,j 表示第 χi 幀視頻幀與第 j 個(gè)輔助圖像特征之間的相似度。得到每一視頻幀與圖像集所有圖像的相似度之后,為進(jìn)一步確定視頻幀與圖像特征之間的語(yǔ)義匹配關(guān)系,使用softmax函數(shù)對(duì)該相似度進(jìn)行歸一化,得到每幀視頻幀對(duì)所有圖像特征的匹配概率分布Pij:
通過匹配概率 Pi,j ,模型能夠量化每幀視頻與圖像標(biāo)簽之間的匹配程度。接下來,選擇與每幀視頻最相關(guān)的前 K 個(gè)圖像對(duì)應(yīng)的文本類別標(biāo)簽,這些類別標(biāo)簽表示為 {Tj,1i,Tj,2i,… ,將這些類別標(biāo)簽與原始視頻幀關(guān)聯(lián)起來,得到新的圖像對(duì)集合:
C(V,T)=(Gi,T(j,1)i,T(j,2)i,…,T(j,K)i)
同時(shí)讓這些類別標(biāo)簽通過加權(quán)的方式串接在一起,生成既
包含初始視覺信息又包含補(bǔ)充的文本類別標(biāo)簽信息的跨模態(tài)全局語(yǔ)義表示:
其中: Pi,jK 是第 i 幀匹配度第 K 高的輔助圖像,即匹配度第 K 高的文本類別的匹配概率; Tj,κi 是對(duì)應(yīng)的文本類別特征。在對(duì)文本類別特征加權(quán)后,利用生成的語(yǔ)義表示對(duì)原始視覺特征進(jìn)行增強(qiáng),得到包含豐富語(yǔ)義信息的增強(qiáng)視覺特征 R(K+1)xdv
2.2.2RFFR反向聚焦幀間特征細(xì)化組件
為進(jìn)一步捕捉視頻幀之間描述對(duì)象的細(xì)微差異,RFFR組件基于跨模態(tài)語(yǔ)義對(duì)齊(CMSA),在不同幀之間執(zhí)行反向注意力操作,以去除冗余背景信息并突出非冗余的細(xì)節(jié)部分,RFFR組件框架如圖3所示。
具體來說,RFFR通過比較幀間特征,將當(dāng)前幀與其他幀進(jìn)行比較,突出當(dāng)前幀與其他幀的不同之處,即當(dāng)前幀中不顯著的特征,例如視頻中呈現(xiàn)的目標(biāo)對(duì)象發(fā)生變化或有新的場(chǎng)景出現(xiàn)時(shí),該方法就可以凸顯視頻幀的動(dòng)態(tài)變化,避免靜態(tài)冗余信息干擾,從而生成更精細(xì)的幀特征表示。RFFR的具體實(shí)現(xiàn)細(xì)節(jié)如下:
首先,RFFR利用CMSA組件生成的增強(qiáng)視覺特征 ,逐幀比較與相鄰幀之間的相似和不相似之處,構(gòu)建幀間的關(guān)系矩陣 Aij
其中 ?Aij∈R(K+1)×(K+1) 表示第 i 幀與第 j 幀關(guān)聯(lián)的文本標(biāo)簽的關(guān)聯(lián)得分,能夠幫助模型區(qū)分哪些幀之間的內(nèi)容相似,哪些幀內(nèi)容變化較大。
接下來,為了強(qiáng)化與當(dāng)前幀內(nèi)容不同的部分,減少冗余信息,并進(jìn)一步精細(xì)化幀間的特征表示,RFFR利用反注意力機(jī)制,使用公式 1-Aij 來量化幀間的差異性:
為進(jìn)一步明確幀間相似關(guān)系,RFFR對(duì)關(guān)系矩陣應(yīng)用soft-max操作對(duì)幀間相似度進(jìn)行歸一化處理,得到歸一化的相似度矩陣。最后,將當(dāng)前幀與其他剩余幀的歸一化矩陣進(jìn)行相加,并讓其作為一個(gè)權(quán)重,返回給當(dāng)前幀:
其中: D 表示第 χi 幀中與其他幀之間需要學(xué)習(xí)的差異化信息; 則是修正后的細(xì)粒度特征; ω 和 b 是可學(xué)習(xí)的參數(shù)。通過加權(quán)的方式調(diào)整學(xué)習(xí)權(quán)重,使得模型能夠在幀間進(jìn)行細(xì)粒度的特征修正。將每一幀修正后的細(xì)粒度特征 Ri 進(jìn)行拼接,得到融合了全局視覺表示和與之高度相關(guān)的文本標(biāo)簽信息的新視頻表示V。
2.3字幕生成器(解碼器)
為了將修正后且融合了多模態(tài)文本標(biāo)簽信息的細(xì)粒度特征編碼為描述性語(yǔ)句,以文字形式展示視覺內(nèi)容,在CTSAM模塊之后,設(shè)計(jì)了一個(gè)字幕生成器。字幕生成器的實(shí)現(xiàn)過程如下:
字幕生成器旨在生成字幕 y={y1,y2,…,yt} ,每個(gè)詞 yt 的生成依賴于視頻表示V和前 χt 個(gè)時(shí)間步生成的單詞 y 。在步驟 χt ,首先計(jì)算前一時(shí)間步生成單詞的嵌入 et ,具體公式如下:
V是結(jié)合了低級(jí)全局視覺特征和細(xì)粒度修正后的視覺特 征,接下來,將 E?t={e1,e2,…,et} 和V輸入到字幕解碼器以生 成詞的隱藏狀態(tài) ht ·
其中: Wq?Wk 和 Wv 是可學(xué)習(xí)矩陣。最后,將 ht 輸入到分類頭以預(yù)測(cè)下一個(gè)單詞 yt
P(yt|Y,w)=ClsHead(ht)=softmax(htWcls)
其中: (yt|Y,w)∈R|w| 表示當(dāng)前單詞在詞匯表 w 上的概率分布; Wcls∈RD×1w! 是可學(xué)習(xí)矩陣。
2.4 訓(xùn)練
通過計(jì)算生成字幕與真實(shí)字幕 Y?={y1?,y2?,…,yT?} 的交叉熵?fù)p失來優(yōu)化整個(gè)視頻字幕生成模型:
其中: T 是預(yù)定義的最大序列長(zhǎng)度; δ(yt*)∈R|w| 是 yt* 的one-hot編碼,這意味著僅在位置 yt* 的值為1,其余為 0 。
3實(shí)驗(yàn)
3.1 實(shí)驗(yàn)設(shè)置及實(shí)現(xiàn)細(xì)節(jié)
a)實(shí)驗(yàn)設(shè)置。關(guān)于視頻字幕任務(wù),目前主流的數(shù)據(jù)集有MSVD[26]、MSR-VTT[27]和VaTeX[28]??紤]到實(shí)驗(yàn)成本及評(píng)估方法的全面性和公平性,本次實(shí)驗(yàn)選擇了MSVD和MSR-VTT作為數(shù)據(jù)集,并采用BLEU-4[29]、ROUGE-L[30]、METEOR[31]和CIDEr[32]四個(gè)常用評(píng)價(jià)指標(biāo)來進(jìn)行評(píng)分。
MSVD數(shù)據(jù)集是最早流行的一個(gè)視頻字幕基準(zhǔn)數(shù)據(jù)集,由來自不同生活領(lǐng)域的1970個(gè)視頻片段組成。每個(gè)視頻片段都配有若干個(gè)長(zhǎng)度不等的句子注釋。與現(xiàn)有工作一致,本實(shí)驗(yàn)選取前1200個(gè)視頻片段作為訓(xùn)練數(shù)據(jù),100個(gè)視頻片段作為驗(yàn)證數(shù)據(jù),剩余670個(gè)視頻片段作為測(cè)試數(shù)據(jù)。MSR-VTT數(shù)據(jù)集是另一個(gè)流行的視頻字幕基準(zhǔn)數(shù)據(jù)集,數(shù)據(jù)集大小是MSVD的五倍多,共由10000個(gè)視頻片段組成,每個(gè)視頻片段配有20個(gè)不同長(zhǎng)度的句子注釋。相較于MSVD,MSR-VTT中的句子注釋更加豐富,內(nèi)容更為多樣。因此,本次實(shí)驗(yàn)選擇MSR-VTT作為主數(shù)據(jù)集,以考察本文模型在生成準(zhǔn)確且多樣的描述性語(yǔ)句方面的能力。與現(xiàn)有工作一致,本實(shí)驗(yàn)選取前6513個(gè)視頻片段作為訓(xùn)練數(shù)據(jù),497個(gè)視頻片段作為驗(yàn)證數(shù)據(jù),剩余2990個(gè)視頻片段作為測(cè)試數(shù)據(jù)。
b)實(shí)現(xiàn)細(xì)節(jié)。在特征提取之前,首先從每個(gè)視頻片段中選擇相同數(shù)量的視頻幀,以構(gòu)成新的輸入序列。在本文中,選取的視頻幀數(shù)量設(shè)置為 L=15 。為了提取每一幀的視頻特征,采用了預(yù)訓(xùn)練的CLIP模型的ViT-L/14網(wǎng)絡(luò)。需要強(qiáng)調(diào)的是,
CLIP模型僅用于特征表示學(xué)習(xí),并不參與本文所提出網(wǎng)絡(luò)的訓(xùn)練過程。同時(shí),圖像-文本對(duì)中的圖像樣本也采用了相同的處理方式,以確保視覺和文本模態(tài)之間的有效對(duì)齊。
在特征提取具體實(shí)現(xiàn)中,視覺模態(tài)的特征維度遵循ViT-L/14 設(shè)置 dv=768 ,即每個(gè)視頻幀的視覺表示被嵌人到一個(gè)768維的空間中,從而保留了足夠的視覺信息,以供后續(xù)的多模態(tài)處理使用。此外,文本模態(tài)的編碼采用了CLIP模型中預(yù)訓(xùn)練的文本編碼器,文本特征維度設(shè)置為 ,以確保文本特征能夠與視覺特征對(duì)齊,并在后續(xù)的跨模態(tài)對(duì)齊與融合中起到關(guān)鍵作用。在CTSAM的實(shí)現(xiàn)中,除非另有說明,否則在跨模態(tài)語(yǔ)義對(duì)齊(CMSA)過程中,選擇與每幀視頻最相關(guān)的文本類別標(biāo)簽的數(shù)量設(shè)置為 K=3 。對(duì)于字幕生成器,詞嵌入的維度設(shè)置為 D=768 ,以保持與視覺特征維度的一致性,整個(gè)詞匯表的大小設(shè)定為 ∣w∣=49408 。
本文基于深度學(xué)習(xí)框架PyTorch來構(gòu)建RM4Cap模型,并使用一塊11GB顯存的GeForceRTX2080TiGPU來加速網(wǎng)絡(luò)模型的訓(xùn)練和測(cè)試。在模型訓(xùn)練過程中,采用Adam優(yōu)化器,初始學(xué)習(xí)率設(shè)置為1E-4,訓(xùn)練批次大小設(shè)定為128,訓(xùn)練周期設(shè)定為20。
3.2 實(shí)驗(yàn)結(jié)果
為了確保實(shí)驗(yàn)的公平性和全面性,將本文模型分別和“只使用單個(gè)模態(tài)信息”的方法、“使用了多模態(tài)信息”的方法進(jìn)行了對(duì)比,實(shí)驗(yàn)結(jié)果如表1(單模態(tài))表2(多模態(tài))所示。
表1展示了僅使用視覺模態(tài)特征的方法,包括2D外觀特征、3D運(yùn)動(dòng)特征以及目標(biāo)檢測(cè)特征等。從結(jié)果中可以看出,不使用目標(biāo)檢測(cè)特征的方法(如MGRMP和TVRD)在性能上往往遜色于使用目標(biāo)檢測(cè)特征的方法(如RLHMN),這一優(yōu)勢(shì)在小數(shù)據(jù)集MSVD上更為明顯。這從側(cè)面表明,豐富的視覺信息類型(包括目標(biāo)檢測(cè)特征)的加入有助于模型生成更高質(zhì)量的字幕。
表1在MSVD、MSR-VTT數(shù)據(jù)集上與單模態(tài)方法的比較結(jié)果
本文模型在提供更豐富的視覺信息的同時(shí),還提供了更加精確的文本模態(tài)信息,從表1最后一行可以看到,剩余其他評(píng)分指標(biāo)都高過目前分?jǐn)?shù)最高的RLHMN,相比于只采用單個(gè)模態(tài)的方法,本文方法有非常明顯的優(yōu)勢(shì)。在表1中最后一行可以看到,除了BLEU-4(B4)評(píng)分指標(biāo),本文模型在METEOR(M)ROUGE(R)和CIDEr(C)等評(píng)分指標(biāo)上均顯著超越其他單模態(tài)方法,尤其是在CIDEr指標(biāo)上,比得分最高的RLHMN方法有大幅提升,展示了多模態(tài)方法比單模態(tài)方法具有更加強(qiáng)大的性能。
表2展示了采用多模態(tài)信息方法的性能表現(xiàn)。這些方法中,有的結(jié)合了視覺和音頻模態(tài)(如RSFD),而有的結(jié)合了視覺和文本模態(tài)(如HRNAT)。本文采用視覺和文本信息的建模方式,與最佳的視覺和音頻結(jié)合方法(如MGSA)相比,除了在BLEU4指標(biāo)上略遜于MGSA,其余指標(biāo)均略勝一籌,尤其是CIDEr指標(biāo),提升了高達(dá)7.2分。使用視覺和音頻結(jié)合方法的CIDEr分?jǐn)?shù)較低、其他指標(biāo)略高的原因在于音頻信息雖然有助于準(zhǔn)確描述內(nèi)容,但其語(yǔ)義信息的多樣性不如文本豐富,而CIDEr分?jǐn)?shù)主要考察字幕生成的多樣性。
HRNAT、RSFD和CAT與本文模型一樣,通過輸人文本信息,來輔助模型訓(xùn)練。從表2的最后一行可以看出,本文模型在MSVD的所有評(píng)估指標(biāo)中獲得了最高分,在MSR-VTT數(shù)據(jù)集上,四個(gè)指標(biāo)中有三個(gè)領(lǐng)先于其他方法。值得注意的是,與小型MSVD數(shù)據(jù)集相比,MSR-VTT大型數(shù)據(jù)集的性能提升更為顯著。盡管本文模型在MSR-VTT數(shù)據(jù)集上的BLEU-4分?jǐn)?shù)并非最高,但在其他評(píng)估指標(biāo)上表現(xiàn)最佳,這些結(jié)果進(jìn)一步驗(yàn)證了本文模型的有效性。
3.3消融實(shí)驗(yàn)
本文CTSAM模塊中包含CMSA跨模態(tài)目標(biāo)語(yǔ)義對(duì)齊和RFFR反向注意力聚焦兩個(gè)核心組件(步驟)。跨模態(tài)目標(biāo)語(yǔ)義對(duì)齊旨在解決多模態(tài)任務(wù)中常見的語(yǔ)義鴻溝問題,即文本信息與視覺信息的不一致。通過精細(xì)對(duì)齊高級(jí)語(yǔ)義和低級(jí)語(yǔ)義,該組件可以有效地提升模型對(duì)多模態(tài)語(yǔ)義信息的融合能力。反向注意力聚焦則專注于通過捕捉幀間的細(xì)微差異,減少冗余的視覺信息,從而更精準(zhǔn)地突出動(dòng)態(tài)變化。為驗(yàn)證這兩個(gè)核心組件對(duì)模型性能的貢獻(xiàn)及其影響,本文設(shè)計(jì)了兩個(gè)消融實(shí)驗(yàn):a)評(píng)估各個(gè)組件在模型中的具體作用;b)評(píng)估各個(gè)組件算法組成對(duì)生成字幕效果的影響(詳情如圖2所示)。
1)CTSAM各個(gè)組件的作用
實(shí)驗(yàn)結(jié)果如表3所示,其中“√”表示使用該模塊,“ x \"表示未使用該模塊。表3的五種設(shè)置分別驗(yàn)證了CMSA跨模態(tài)語(yǔ)義對(duì)齊與RFFR反向注意力聚焦兩種模塊的獨(dú)立作用及其交互效果:第一行既不使用CMSA,也不使用RFFR;第二行僅使用CMSA進(jìn)行多模態(tài)信息融合,未引人RFFR;第三行與第一行相反,只使用RFFR以去除視覺冗余,但未使用CMSA對(duì)齊多模態(tài)信息;第四行則同時(shí)結(jié)合了CMSA與RFFR,是本文模型完整架構(gòu)組成。
表3在MSVD、MSR-VTT數(shù)據(jù)集上CTSAM各個(gè)組件的消融研究
研究CMSA的作用,可以參考第一行和第二行的結(jié)果。從第一行與第二行的對(duì)比可以看出,在使用多模態(tài)信息的情況下,采用跨模態(tài)語(yǔ)義對(duì)齊進(jìn)行融合的方式,能夠有效對(duì)齊不同模態(tài)的信息。如圖4所示,采用CMSA跨模態(tài)語(yǔ)義對(duì)齊進(jìn)行多模態(tài)對(duì)齊比單純視覺信息更具針對(duì)性,從而更有助于視頻內(nèi)容的視覺語(yǔ)義交互。然而,僅依賴跨模態(tài)語(yǔ)義對(duì)齊的方式可能面臨視覺信息本身的冗余問題,或者多模態(tài)信息之間存在冗余的挑戰(zhàn),因此生成字幕的質(zhì)量仍未達(dá)到最佳。當(dāng)引入反向注意力聚焦后,模型的性能得到了顯著提升。
同樣地,研究RFFR的作用,可以通過對(duì)比第一行與第三行的結(jié)果進(jìn)一步研究RFFR的優(yōu)勢(shì)。從第一行與第三行的對(duì)比可以看出,在未使用CMSA的情況下,僅引入RFFR的模型顯著優(yōu)于引入傳統(tǒng)注意力機(jī)制的模型,這說明RFFR通過捕捉幀間細(xì)微差異,能夠有效去除冗余背景信息并保留關(guān)鍵動(dòng)態(tài)特征,從而在沒有跨模態(tài)語(yǔ)義對(duì)齊的情況下仍能提升字幕生成效果。然而,通過對(duì)比第三行和最后一行的結(jié)果可以看出,單獨(dú)使用RFFR的方式也存在一定的局限性。由于缺乏對(duì)多模態(tài)語(yǔ)義信息的全局對(duì)齊,僅依靠反向注意力機(jī)制可能無法充分利用文本模態(tài)中豐富的語(yǔ)義信息,導(dǎo)致在一些場(chǎng)景下生成的字幕缺乏上下文的深度語(yǔ)義關(guān)聯(lián)。
通過最后一行與其他行的對(duì)比可以更直觀地驗(yàn)證兩模塊的協(xié)同效果,圖4展示了單獨(dú)使用CMSA或RFFR時(shí)的可視化結(jié)果,可以發(fā)現(xiàn)CMSA能夠更好地對(duì)齊語(yǔ)義信息,而RFFR則更擅長(zhǎng)于處理視覺冗余和動(dòng)態(tài)變化。這兩個(gè)模塊各有側(cè)重,且作用相輔相成。當(dāng)引入CMSA或RFFR后,相對(duì)于之前單獨(dú)使用某個(gè)模塊,模型的性能都相應(yīng)地得到了顯著提升。這也就說明跨模態(tài)語(yǔ)義對(duì)齊與反向注意力聚焦的結(jié)合能夠顯著提升模型性能,不僅實(shí)現(xiàn)了多模態(tài)信息的精準(zhǔn)對(duì)齊,還有效減少了冗余,進(jìn)一步提升了字幕生成的語(yǔ)義準(zhǔn)確性和多樣性。
2)CMSA、RFFR組件算法組成對(duì)視頻模型的影響
實(shí)驗(yàn)結(jié)果如表4所示,為了便于觀察結(jié)果,除最后一行外,表格的奇數(shù)行來自表3的結(jié)果,并將來自表3的結(jié)果添加下畫線以作區(qū)分。其中:“√”表示該模塊使用了原始模型提出的注意力或跨模態(tài)融合算法;“ × ”表示未使用該模塊;“區(qū)”表示使用傳統(tǒng)注意力機(jī)制替換該模塊原始算法,即使用圖2(a)。
第一行和第二行顯示的是在使用原始CMSA的情況下,RFFR分別采用傳統(tǒng)注意力機(jī)制和反注意力聚焦算法的結(jié)果。通過對(duì)比可以發(fā)現(xiàn),使用傳統(tǒng)注意力機(jī)制生成字幕的效果并沒有很好的性能提升,性能反而還下降。這是由于注意力機(jī)制的作用是聚焦或更多地關(guān)注有用的信息,而視頻有視覺冗余這一局限性存在,不作細(xì)分地對(duì)任何問題都采用注意力機(jī)制并不理想,CIDEr分?jǐn)?shù)下降1.1分這一現(xiàn)象,很好地佐證了本文的觀點(diǎn):當(dāng)處理豐富的視覺內(nèi)容時(shí),模型的工作重點(diǎn)不宜放在看似非常重要的重復(fù)的視覺自標(biāo),而是要學(xué)會(huì)從相同中我不同,從靜態(tài)內(nèi)容中找動(dòng)態(tài)內(nèi)容。
另外,將第二行和最后一行進(jìn)行對(duì)比,可以發(fā)現(xiàn)反注意力聚焦算法可以凸顯特征差異、細(xì)化視覺特征,對(duì)模型有顯著的正向影響。其中CIDEr指標(biāo)分?jǐn)?shù)顯著提高,較使用傳統(tǒng)注意力機(jī)制提升了1.2。實(shí)驗(yàn)結(jié)果說明,本文提出的反注意力聚焦算法能夠在保證學(xué)習(xí)內(nèi)容的準(zhǔn)確性的情況下,聚焦視頻中細(xì)微的動(dòng)態(tài)變化,成功減少額外模態(tài)帶來的信息冗余,保留關(guān)鍵視覺信息。
接下來,通過觀察第三行和第四行的對(duì)比結(jié)果,探討在使用原始RFFR的情況下,在CMSA使用不同的跨模態(tài)融合機(jī)制對(duì)模型的影響。當(dāng)?shù)谒男胁捎脗鹘y(tǒng)注意力直接對(duì)文本和視頻幀進(jìn)行建模時(shí),在大數(shù)據(jù)集MSR-VTT上生成結(jié)果的CIDEr分?jǐn)?shù)有明顯下降的趨勢(shì),而準(zhǔn)確性卻有比較大幅度的提升,這樣的結(jié)果恰好說明了:當(dāng)視頻數(shù)據(jù)內(nèi)容復(fù)雜多變時(shí),模型無法分辨主旨目標(biāo),易將不顯著的其他目標(biāo)當(dāng)成描述主體,故加入多模態(tài)信息去提供更加有指代性的語(yǔ)義信息,有助于模型學(xué)習(xí)到真正的目標(biāo)主體。但又由于文本和視覺之間在表示空間存在語(yǔ)義鴻溝,所以模型會(huì)傾向用籠統(tǒng)的詞語(yǔ)介紹主體,從而降低了生成文本的多樣性,反過來也因?yàn)樯稍~語(yǔ)可描述的內(nèi)容范圍變大,也會(huì)提高模型生成的準(zhǔn)確性。
而通過與最后一行即本文提出的反注意力聚焦算法對(duì)比,更加驗(yàn)證了前文的說法:通過引入額外的圖像-文本對(duì),彌合圖像對(duì)中圖像的距離,實(shí)現(xiàn)圖像與視頻幀的對(duì)齊,間接實(shí)現(xiàn)低級(jí)視覺與跨模態(tài)高級(jí)語(yǔ)義的對(duì)齊,從而解決了語(yǔ)義鴻溝問題,有效實(shí)現(xiàn)多模態(tài)信息的高效融合。
3.4 性能分析
將本文方法與兩個(gè)單模態(tài)方法(SAAT、RLHMN)及三個(gè)多模態(tài)方法(SGN、HRNAT、RSFD)在FLOPs、推理時(shí)間(time)和CIDEr(C)指標(biāo)上進(jìn)行了對(duì)比和排名,具體實(shí)驗(yàn)結(jié)果如表5所示。
在計(jì)算復(fù)雜度方面,RM4Cap的計(jì)算復(fù)雜度為1.02G,在所有對(duì)比方法中排名第二,僅次于RSFD的 1.01G 相比復(fù)雜度更高的RLHMN,RM4Cap在保持較低FLOPs的同時(shí),展現(xiàn)出更優(yōu)的性能。這得益于反向注意力聚焦算法,該算法通過對(duì)輸入視頻的視覺特征進(jìn)行動(dòng)態(tài)篩選,有效剔除了冗余信息,從而大幅減少了計(jì)算開銷。相比之下,RLHMN由于其分層模塊化網(wǎng)絡(luò)需要在句子、謂詞和實(shí)體層面進(jìn)行獨(dú)立監(jiān)督,反而增加了模型的復(fù)雜性。RSFD盡管在計(jì)算復(fù)雜度上表現(xiàn)最佳,但其頻率感知擴(kuò)散模塊主要聚焦于低頻標(biāo)簽語(yǔ)義信息,未能充分利用多模態(tài)特征的全局信息,在一定程度上限制了其CIDEr得分。
在推理速度方面,RM4Cap以 62ms 的推理時(shí)間排名第二,僅次于SAAT的 32ms 。SAAT能夠取得最優(yōu)推理時(shí)間,主要得益于其對(duì)語(yǔ)法成分的顯式定位,從而顯著簡(jiǎn)化了處理流程。然而,SAAT在CIDEr得分上表現(xiàn)較為遜色,表明其簡(jiǎn)化的處理機(jī)制雖然提升了速度,但未能捕捉到更深層次的細(xì)粒度語(yǔ)義信息。相比之下,本文RM4Cap通過引人多模態(tài)語(yǔ)義對(duì)齊機(jī)制,在語(yǔ)義層面實(shí)現(xiàn)了對(duì)視覺特征和語(yǔ)言特征的精準(zhǔn)匹配。這種機(jī)制不僅提升了生成字幕的語(yǔ)義質(zhì)量,同時(shí)在推理效率上也達(dá)到了良好的平衡。而SGN則由于語(yǔ)義組構(gòu)建過程中依賴于復(fù)雜的視覺-文本對(duì)齊計(jì)算,其推理時(shí)間顯著較長(zhǎng),高達(dá) 194ms 是本文模型推理時(shí)間的3倍之多,這表明直接對(duì)視覺-文本進(jìn)行對(duì)比并不能夠在速度和性能之間取得平衡,也從側(cè)面說明RM4Cap提出通過實(shí)現(xiàn)視頻-圖像對(duì)齊來達(dá)到視覺-文本對(duì)齊思想的有效性。
在模型生成性能方面,RM4Cap在CIDEr得分上取得了57.3的最佳成績(jī),高于所有對(duì)比方法。這一優(yōu)勢(shì)可以歸因于RM4Cap提出的反向注意力聚焦機(jī)制和多模態(tài)語(yǔ)義對(duì)齊模塊,它們共同增強(qiáng)了對(duì)視頻中細(xì)粒度動(dòng)作變化的捕捉能力,顯著提升了字幕生成的質(zhì)量。相比之下,RLHMN雖然在分層監(jiān)督下對(duì)語(yǔ)義特征有較強(qiáng)的捕捉能力,但其復(fù)雜的層次化結(jié)構(gòu)導(dǎo)致了信息冗余問題。HRNAT則通過分層學(xué)習(xí)語(yǔ)義和語(yǔ)法特征,提升了語(yǔ)法感知能力,但多級(jí)特征生成過程的復(fù)雜性影響了對(duì)視頻中精細(xì)語(yǔ)義的捕捉能力。RSFD在CIDEr得分上次于RM4Cap,主要原因在于其對(duì)高頻標(biāo)簽的處理能力不足,未能充分展現(xiàn)視頻內(nèi)容的語(yǔ)義豐富性。
綜上所述,RM4Cap在推理時(shí)間、計(jì)算復(fù)雜度和生成質(zhì)量三方面實(shí)現(xiàn)了良好的平衡,并在CIDEr得分和綜合排名上表現(xiàn)出色。這不僅驗(yàn)證了反向注意力聚焦算法在消除冗余信息、提升生成質(zhì)量上的有效性,也表明本文所提的多模態(tài)語(yǔ)義對(duì)齊機(jī)制在細(xì)粒度動(dòng)作捕捉和語(yǔ)義表達(dá)優(yōu)化方面的潛力。
3.5 定性分析
圖5、6展示了本文模型在MSVD和MSR-VTT數(shù)據(jù)集上的生成字幕結(jié)果。為了更直觀地分析模型在生成字幕上的改進(jìn)與性能優(yōu)勢(shì),將本文模型和SAAT模型進(jìn)行定性比較。SAAT模型采用的是額外的目標(biāo)檢測(cè)特征,在同樣的計(jì)算成本下,可視化多模態(tài)相比于單模態(tài)視頻字幕更具優(yōu)勢(shì)。在生成的結(jié)果中,特殊單詞被特別標(biāo)注,這些單詞通常是能夠反映視頻主題的名詞或體現(xiàn)內(nèi)容變化的動(dòng)詞。從這些示例可以看出,本文模型相比使用單個(gè)模態(tài)的情況,生成的字幕更加貼合視頻內(nèi)容,且符合句法規(guī)律。定性分析表明,多模態(tài)信息的有效融合顯著提升了字幕生成的性能和多樣性。同時(shí),得益于反向注意力聚焦模塊,模型能夠更加準(zhǔn)確地捕捉關(guān)鍵細(xì)節(jié),生成更精準(zhǔn)、不籠統(tǒng)的描述結(jié)果。
4結(jié)束語(yǔ)
本文提出了一種基于多模態(tài)信息融合的創(chuàng)新視頻字幕生成方法,名為RM4Cap。該方法提出了CTSAM跨模態(tài)目標(biāo)-語(yǔ)義關(guān)聯(lián)模塊,具體來說通過引人跨模態(tài)語(yǔ)義對(duì)齊組件CMSA,增強(qiáng)了視覺特征與語(yǔ)言特征的協(xié)同表征能力;設(shè)計(jì)了反向注意力聚焦組件RFFR提高了模型對(duì)細(xì)粒度差異的捕捉能力,另外通過這種方式,能夠有效去除冗余背景信息并保留關(guān)鍵動(dòng)態(tài)特征。CTASM模塊的提出有效對(duì)齊了視頻的視覺內(nèi)容與對(duì)應(yīng)的文本語(yǔ)義信息,從而提升了字幕生成的質(zhì)量和多樣性。實(shí)驗(yàn)結(jié)果表明,RM4Cap在多個(gè)標(biāo)準(zhǔn)評(píng)估指標(biāo)上,如CIDEr和BLEU-4,顯著優(yōu)于現(xiàn)有的主流方法,表明該方法在多模態(tài)視頻字幕生成任務(wù)中的有效性和潛力,尤其是在捕捉細(xì)粒度對(duì)象差異和生成字幕的精細(xì)度上,RM4Cap展示出卓越的能力。遺憾的是,該模型并未將多模態(tài)特征編碼模塊一起進(jìn)行端到端訓(xùn)練,若可以進(jìn)行端到端訓(xùn)練,并將CTASM模塊中的CMSA或RFFR放入編碼器中發(fā)揮作用,預(yù)期效果應(yīng)該會(huì)好很多。未來,研究工作會(huì)集中在進(jìn)一步改進(jìn)視覺和語(yǔ)義對(duì)齊的精度方面,并通過更高效的訓(xùn)練方法提升模型的應(yīng)用能力。
參考文獻(xiàn):
[1]趙博程,包蘭天,楊哲森,等.面向慕課視頻的關(guān)鍵信息檢索系統(tǒng) 設(shè)計(jì)[J].計(jì)算機(jī)科學(xué),2024,51(10):79-85.(ZhaoBocheng,Bao Lantian,YangZhesen,etal.Keyinformation retrievalsystemfor MOOCvideos[J].ComputerScience,2024,51(10):79-85.)
[2]祝媚儀,蔣朱翊.多模態(tài)口譯教學(xué)改革探索:視頻字幕的認(rèn)知負(fù)荷 研究[J].現(xiàn)代英語(yǔ),2023(21):13-16.(ZhuMeiyi,JiangZhuyi. Subtitles’effecton the cognitive loadof multimodal interpreting teaching[J].Modern English,2023(21) :13-16.)
[3]Wang Bairui,Ma Lin,Zhang Wei,et al. Controlable video captioning with POS sequence guidance based on gated fusion network [C]/′ Proc of IEEE/CVF International Conference on Computer Vision.Piscataway,NJ: IEEE Press,2019:2641-2650.
[4]Xu Jun, Yao Ting,Zhang Yongdong,et al. Learning multimodal attentionLSTM networks for video captioning[C]//Proc of the 25th ACM International Conference on Multimedia.NewYork:ACMPress,2017: 537-545.
[5]Wu Bofeng,Liu Buyu,Huang Peng,etal.Conept parser with multimodal graph learning for video captioning[J].IEEE Trans on CirCuits and Systems for Video Technology,2023,33(9):4484- 4495.
[6]Sarto S,Barraco M,Cornia M,et al.Positive-augmented contrastive learning for image and video captioning evaluation [C]//Proc of IEEE/CVF Conference on Computer Vision and Pattern Recognition. Piscataway,NJ:IEEE Press,2023:6914-6924.
[7]Chen Xiaoya,Song Jingkuan,Zeng Pengpeng,et al.Support-set based multi-modal representation enhancement for video captioning [C]/′ (204號(hào) Proc of IEEE International Conferenceon Multimedia and Expo.Piscataway,NJ:IEEE Press,2022:1-6.
[8]郭寧寧,蔣林華.基于硬注意力機(jī)制的多模態(tài)視頻字幕的處理 [J].計(jì)算機(jī)應(yīng)用研究,2021,38(3):956-960.(Guo Ningning, Jiang Linhua.Hard attention based multi-modal fusion for video caption generation[J].Application Research of Computers,2021,38 (3) :956-960. )
[9]李銘興,徐成,李學(xué)偉,等.基于多模態(tài)融合的城市道路場(chǎng)景視頻 描述模型研究[J].計(jì)算機(jī)應(yīng)用研究,2023,40(2):607-611,640. (LiMingxing,XuCheng,LiXuewei,etal.Multimodal fusionforvideo captioning on urban road scene[J].Application Research of Computers,2023,40(2) :607-611,640.)
[10]Thomason J,VenugopalanS,Guadarrama S,et al.Integratinglanguage and vision to generate natural language descriptions of videos in the wild[C]//Proc of the 25th International Conference on Computational Linguistics. Stroudsburg,PA: Association for Computational Linguistics,2014:1218-1227.
[11]Szegedy C,Iofe S,VanhouckeV,etal.Inception-v4,inceptionResNet and the impact of residual connections on learning[C]//Proc of the 31st AAAI Conference on Artificial Intelligence.Palo Alto,CA: AAAI Press,2017 :4278 - 4284.
[12] Tran D,BourdevL,F(xiàn)ergus R,et al.Learning spatiotemporal features with 3D convolutional networks[C]//Proc of IEEE International Conference on Computer Vision.Piscataway,NJ:IEEE Press,2015:4489- 4497.
[13]Zhang Ziqi,Qi Zhongang,Yuan Chunfeng,et al. Open-Book video captioning with retrieve-copy-generate network[C]//Proc of IEEE/ CVF Conference on Computer Vision and Pattern Recognition.Piscataway,NJ: IEEE Press,2021 :9832-9841.
[14]Li Guorong,Ye Hanhua,Qi Yuankai,et al.Learning hierarchical modular networks for video captioning[J]. IEEE Trans on Pattern Analysis and Machine Intelligence,2024,46(2):1049-1064.
[15] Zheng Qi,Wang Chaoyue,Tao Dacheng. Syntax-aware action targeting for video captioning[C]//Proc of IEEE/CVF Conference on Computer Vision and Pattern Recognition.Piscataway,NJ:IEEE Press,2020: 13093-13102.
[16]Chen Shaoxiang,Jiang Yugang. Motion guided region message passing for video captioning[C]//Proc of IEEE/CVF International Conference on ComputerVision.Piscataway,NJ: IEEE Press,2O21:1523- 1532.
[17]Zhang Ziqi,Shi Yaya,Yuan Chunfeng,et al.Object relational graph with teacher-recommended learning for video captioning[C]//Proc of IEE/CVF Conference on Computer Vision and Patern Recognition. Piscataway,NJ:IEEE Press,2020:13275-13285.
[18]Wu Bofeng,Niu Guocheng,Yu Jun,etal.Towards knowledge-aware video captioning via transitive visual relationship detection[J].IEEE Trans on Circuits and Systems for Video Technology,2022,32 (10) :6753-6765.
[19]Chen Shaoxiang,Jiang Yugang.Motionguidedspatialatentionforvideo captioning[C]//Proc of AAAI Conference on Artificial Intelligence. Palo Alto,CA : AAAI Press,2019:8191-8198.
[20]Gao Lianli,Lei Yu,Zeng Pengpeng,et al.Hierarchical representation network with auxiliary tasks forvideocaptioningandvideo question answering[J]. IEEE Trans on Image Processing,2022,31:202- 215.
[21]Liu Sheng,Ren Zhou,Yuan Junsong.SibNet:sibling convolutional encoder for video captioning[J].IEEE Trans on Pattern Analysis andMachine Intelligence,2021,43(9) :3259-3272.
[22]Ryu H,Kang S,Kang H,etal.Semantic grouping network for video captioning[C]//Proc of AAAI Conference on Artificial Intelligence. Palo Alto,CA : AAAI Press,2021 :2514-2522.
[23]Zhong Xian,Li Zipeng,Chen Shuqin,et al. Refined semantic enhancement towards frequency diffusion for video captioning[C]//Proc of AAAI Conference on Artificial Intellgence.Palo Alto,CA:AAAI Press,2023 ;3724-3732.
[24]Radford A, Kim J W,Hallacy c,et al. Learning transferable visual models from natural language supervision[C]//Proc of International Conference on MachineLearning.[S.1.]:PMLR,2021:8748-8763.
[25]Alexey D.An image is worth 16× 16 words:Transformers for image recognition at scale[EB/OL].(2021-06-03).https://arxiv.org/abs/ 2010.11929.
[26]Chen D,Dolan W B. Collecting highly parallel data forparaphrase evaluation[C]//Proc of the 49th Annual Meeting of the Association for Computational Linguistics:Human Language Technologies. Stroudsburg,PA:Asociation for Computational Linguistics,2011:190- 200.
[27]Xu Jun,MeiTao,Yao Ting,et al. MSR-VTT:alarge video deseription dataset for bridging video and language[C]//Proc of IEEE Conference on Computer Vision and Pattern Recognition.Piscataway,NJ: IEEE Press,2016 :5288-5296.
[28]Wang Xin,Wu Jiawei,Chen Junkun,et al. VaTeX:a large-scale,highquality multilingual dataset for video-and-language research[C]// Proc of IEEE/CVF International Conference on Computer Vision.Piscataway,NJ:IEEE Press,2019:4580-4590.
[29]Papineni K,Roukos S,Ward T,et al. BLEU:a method for automatic evaluation of machine translation[C]//Proc of the 4Oth Annual Meeting of the Association for Computational Linguistics.Stroudsburg,PA: Association for Computational Linguistics,2Oo2:311-318.
[30]Lin C Y.ROUGE:a package for automatic evaluation of summaries [C]//Text Summarization Branches Out. Stroudsburg,PA: Association for Computational Linguistics,2004:74-81.
[31]BanerjeeS,Lavie A.METEOR:an automatic metric forMT evaluation with improved correlation with human judgments[C]//Proc of ACL Workshop on Intrinsic and Extrinsic Evaluation Measures for Machine Translation and/or Summarization. Stroudsburg,PA:Association for Computational Linguistics,20o5:65-72.
[32] Vedantam R,Zitnick C L,Parikh D.CIDEr: consensus-based image description evaluation[C]//Proc of IEEE Conference on Computer Vision and Patern Recognition.Piscataway,NJ: IEEE Press,2015: 4566-4575.
[33]Li Liang,Gao Xingyu,Deng Jincan,etal.Long short-term relation Transformer with global gating for video captioning[J].IEEETrans on Imaqe Processinq.2022.31:2726-2738.