• <tr id="yyy80"></tr>
  • <sup id="yyy80"></sup>
  • <tfoot id="yyy80"><noscript id="yyy80"></noscript></tfoot>
  • 99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看 ?

    反向聚焦細(xì)粒度多模態(tài)語(yǔ)義對(duì)齊的視頻字幕模型

    2025-07-28 00:00:00蔡霞羅會(huì)蘭萬斯奇
    關(guān)鍵詞:字幕語(yǔ)義模態(tài)

    中圖分類號(hào):TP391 文獻(xiàn)標(biāo)志碼:A 文章編號(hào):1001-3695(2025)07-009-1986-08

    doi:10.19734/j. issn.1001-3695.2024.11.0492

    Abstract:Existingvideocaptioningoftenintroducemultimodal informationtoassistmodelsinextractingcriticalandfinegrained details fromcomplex anddynamic visual content.However,these methods tendtooverlook thesemantic gapscaused by representationaldiferencesamong modalities.Tobridgethesegaps,facilitateefectivecross-modalalignmentandeficientfusion,andenancetheextractionoffine-grainedsmanticinformatio,thispperproposedareverse-focusfingranedultio dal semanticalignmentforvideocaptioning(RM4Cap).Thismodelcombinedanimage-textpaircorpusand facilitatedsemanticalignmentbetweenvideoandimage,indirectlyaligningvideorepresentationswithtextintheimage-textpairs.Anditdesignedareverse attention focusing algorithm to suppress redundant scene informationwhile highlighting inconspicuous objects and their interactions.Experimentsconductedonthe MSVDand MSRVTTdatasetsshow thatthe model significantlyoutperforms existing methods in metricssuch as CIDErand BLEU-4.It efectivelyresolves thealignmentchallenges andredundancy issues in multimodal fusion,further demonstrating its ability to narrow the cross-modal semantic gap.

    Key words:video captioning;multimodal; reverse attention;semantic alignment; semantic gap

    0 引言

    視頻字幕是一個(gè)連接視覺和語(yǔ)言并將視覺內(nèi)容以自然語(yǔ)言描述的跨模態(tài)任務(wù)。視頻字幕在多個(gè)領(lǐng)域都有廣泛的應(yīng)用,尤其是在無障礙輔助系統(tǒng)的設(shè)計(jì)和多媒體教學(xué)任務(wù)[1.2]中具有重要作用。然而,理解視覺內(nèi)容是一項(xiàng)非常具有挑戰(zhàn)性的任務(wù)。與圖像視覺內(nèi)容的固定不變和文本語(yǔ)句主旨的直接表述不同,視頻內(nèi)容由于具有時(shí)序性,其表現(xiàn)形式在不同場(chǎng)景和時(shí)間點(diǎn)上會(huì)有所變化。例如,一只倉(cāng)鼠在不同的鏡頭下可能有不同的姿態(tài)和難以避免的遮擋,而模型往往無法正確識(shí)別其類別,通常會(huì)用籠統(tǒng)的詞語(yǔ),如用“動(dòng)物”來描述。同樣地,對(duì)于細(xì)微的動(dòng)作變化,模型也可能無法察覺,進(jìn)而用簡(jiǎn)化的動(dòng)作描述,如用“isplaying”或“iswith”概括所有的變化。這一局限性不僅妨礙了細(xì)粒度信息的呈現(xiàn),還影響了模型對(duì)關(guān)鍵視覺關(guān)系的準(zhǔn)確推理。因此,如何有效地將學(xué)習(xí)到的這些細(xì)粒度的視覺信息轉(zhuǎn)換為更精確的文本描述成為一大挑戰(zhàn)。

    為了應(yīng)對(duì)上述挑戰(zhàn),近期的研究[3\~5]探索了引入額外模態(tài)信息以彌補(bǔ)視覺內(nèi)容表達(dá)的不足,其中最廣泛應(yīng)用的是引人文本模態(tài)。文本不僅能彌合視覺內(nèi)容在變化過快或過慢時(shí)引發(fā)的理解不穩(wěn)定,還能在視覺信息稀缺的情況下提供語(yǔ)義支持,從而幫助模型準(zhǔn)確識(shí)別并表達(dá)關(guān)鍵信息。引入文本模態(tài)的模型常采用圖像-文本匹配方法,或者通過額外構(gòu)建支持集語(yǔ)料庫(kù)[]供模型參考,并引人注意力機(jī)制[89]以實(shí)現(xiàn)視覺與文本的跨模態(tài)融合。注意力機(jī)制能夠融合來自不同特征提取器的信息,并動(dòng)態(tài)地總結(jié)視覺與文本特征,定位視頻中與目標(biāo)文本標(biāo)簽高度相關(guān)的視覺區(qū)域,從而增強(qiáng)對(duì)全局信息的捕捉。然而,這些方法仍然面臨信息冗余的問題,例如,視頻幀序列中可能包含大量不同的對(duì)象或場(chǎng)景,但并非所有的對(duì)象或細(xì)節(jié)都對(duì)字幕生成具有實(shí)質(zhì)性貢獻(xiàn)。模型通常難以有效篩選并聚焦于關(guān)鍵對(duì)象,導(dǎo)致一些不相關(guān)或次要信息被過度關(guān)注,影響了字幕生成的準(zhǔn)確性。此外,現(xiàn)有方法在處理細(xì)粒度目標(biāo)時(shí),往往未能深入捕捉同類對(duì)象之間的微小差異。這種忽視細(xì)節(jié)的做法可能導(dǎo)致生成的描述過于籠統(tǒng),無法充分表達(dá)視頻中的復(fù)雜變化和細(xì)節(jié)。

    盡管現(xiàn)有方法在視覺與文本的跨模態(tài)融合上有所嘗試,但依然未能有效解決視覺與文本之間的語(yǔ)義鴻溝問題。具體來說,視覺模態(tài)中包含的細(xì)粒度信息和復(fù)雜的語(yǔ)義關(guān)系在轉(zhuǎn)換為文本描述時(shí),往往未能完全反映或準(zhǔn)確傳達(dá),導(dǎo)致視覺內(nèi)容中的深層次信息無法與文本特征充分對(duì)齊。這種語(yǔ)義鴻溝使得模型難以準(zhǔn)確捕捉視頻中的微小變化和細(xì)節(jié),從而影響字幕生成的精確度與多樣性。雖然現(xiàn)有對(duì)齊方法能夠在一定程度上緩解信息融合的難題,但仍未能徹底消除視覺和文本模態(tài)間的語(yǔ)義差異。為解決上述所說的現(xiàn)有方法中存在的視覺和文本模態(tài)之間的對(duì)齊與融合難題,以及兩種模態(tài)間的語(yǔ)義鴻溝問題,本文提出了一種新穎的跨模態(tài)目標(biāo)語(yǔ)義對(duì)齊方法,并稱之為RM4Cap。

    RM4Cap不同于傳統(tǒng)的圖像-文本匹配檢索,而是通過將原始視頻幀特征與圖文對(duì)中提取的圖視覺輔助特征進(jìn)行匹配,結(jié)合語(yǔ)料庫(kù)信息識(shí)別目標(biāo)對(duì)象的最接近類別。這種方法不僅顯著提升了尾部類別的生成能力,還在語(yǔ)義對(duì)齊和視覺關(guān)系推理中展現(xiàn)了更高的細(xì)粒度表現(xiàn)。由于視覺特征間的匹配相比跨模態(tài)的視覺-文本對(duì)齊更加直觀且具可解釋性,此策略有效緩解了視覺與文本語(yǔ)義間的鴻溝問題。此外,本文檳棄了傳統(tǒng)注意力機(jī)制中只關(guān)注幀間顯著目標(biāo)的學(xué)習(xí)方式,創(chuàng)新性地引入反向注意力機(jī)制,以捕捉小類別之間的細(xì)微差異,而非完全不同類別的顯著差異。這種機(jī)制有效緩解了語(yǔ)義簡(jiǎn)化的傾向,從而提升了模型的描述細(xì)粒度和多樣性。本文的貢獻(xiàn)可以總結(jié)如下:

    a)提出了一個(gè)新穎的多模態(tài)視頻字幕模型,通過引人額外的圖像-文本對(duì),彌合圖像對(duì)中圖像的距離,實(shí)現(xiàn)圖像與視頻幀的對(duì)齊,間接實(shí)現(xiàn)低級(jí)視覺與跨模態(tài)高級(jí)語(yǔ)義的對(duì)齊,從而解決了語(yǔ)義鴻溝問題,實(shí)現(xiàn)了多模態(tài)信息的高效融合。

    b)在引入多模態(tài)信息的基礎(chǔ)上,本文設(shè)計(jì)了反向注意力聚焦算法,在傳統(tǒng)注意力上進(jìn)行改動(dòng),提高模型發(fā)現(xiàn)視覺細(xì)微動(dòng)態(tài)變化的能力,同時(shí)減少視覺冗余以及額外模態(tài)帶來的冗余。

    c)在兩個(gè)廣泛使用的公共數(shù)據(jù)集MSVD和MSRVTT上進(jìn)行實(shí)驗(yàn),除了在大數(shù)據(jù)MSRVTT上的BLEU-4指標(biāo),本文模型在所有其他指標(biāo)上都取得了顯著的提升。

    1相關(guān)工作

    a)視頻字幕。最早的視頻字幕任務(wù)基于SVO三元組[10]該方法不僅需要耗費(fèi)大量的人工設(shè)計(jì)語(yǔ)言規(guī)則,且生成的字幕缺乏豐富性和準(zhǔn)確性,逐漸被深度學(xué)習(xí)的方法所取代,常見的視頻字幕任務(wù)范式是使用兩階段的編碼器解碼器架構(gòu),使用經(jīng)過預(yù)訓(xùn)練的2DCNN[11]以及3DCNN[12]來編碼視頻幀序列的視覺、運(yùn)動(dòng)信息,然后使用RNN或者 LSTM[13~15] 按順序解碼出單詞。如RLHMN[14]提出了一個(gè)層級(jí)式的模塊化網(wǎng)絡(luò),編碼視頻中的對(duì)象、動(dòng)作以及上下文信息配合LSTM解碼生成字幕。MGRMP[16]設(shè)計(jì)了一個(gè)循環(huán)區(qū)域注意模塊,以提取不同的空間特征,并通過使用運(yùn)動(dòng)引導(dǎo)的跨幀消息傳遞,建立不同區(qū)域之間的高階關(guān)系,共同鼓勵(lì)信息交流產(chǎn)生強(qiáng)大的視頻表示。SAAT[15]則是額外地引入了預(yù)訓(xùn)練對(duì)象檢測(cè)器,并設(shè)計(jì)了動(dòng)作引導(dǎo)模塊,通過學(xué)習(xí)注意力分布,動(dòng)態(tài)融合謂詞與先前預(yù)測(cè)單詞的信息,使模型能精準(zhǔn)地描述動(dòng)作。

    以上工作都圍繞數(shù)據(jù)集本身開展,外部知識(shí)和構(gòu)建額外的語(yǔ)料庫(kù)的思想被引人到視頻任務(wù)中,如ORG-TRL[17]創(chuàng)新地設(shè)計(jì)了一種教師推薦學(xué)習(xí)方法,將外部知識(shí)集成到字幕模型當(dāng)中,結(jié)合對(duì)象關(guān)系圖編碼器以捕獲更詳細(xì)的交互信息。Open-Book[13]構(gòu)建了可插入的視頻到文本檢索器,從訓(xùn)練語(yǔ)料庫(kù)中檢索句子作為提示,增強(qiáng)模型字幕生成能力。另外,視頻內(nèi)的視覺關(guān)系也是值得關(guān)注的,這關(guān)乎對(duì)視頻內(nèi)容的總結(jié)。

    TVRD[18] 提出了一個(gè)傳遞視覺關(guān)系的檢測(cè)模塊,細(xì)化視覺對(duì)象的動(dòng)作,并構(gòu)造對(duì)象-動(dòng)作圖來描述對(duì)象和動(dòng)作之間的淺層關(guān)系,通過動(dòng)作來彌合對(duì)象之間的差距。

    視頻字幕任務(wù)是多模態(tài)任務(wù)的先驅(qū),所以近期的視頻字幕研究開始引人多模態(tài)知識(shí)以輔助生成。如MGSA[19]提出了一種利用運(yùn)動(dòng)引導(dǎo)空間注意的新型視頻字幕框架,并結(jié)合了數(shù)據(jù)集的音頻信息來生成更細(xì)致的字幕。 HRNAT[20] 提出了帶有輔助任務(wù)的分層表示網(wǎng)絡(luò),其中跨模態(tài)匹配任務(wù)能夠在語(yǔ)言三級(jí)表示的指導(dǎo)下學(xué)習(xí)視頻的層級(jí)表示,以獲得具有語(yǔ)法感知的視頻字幕。SMRE提出了一種基于支持集的視頻字幕多模態(tài)表示增強(qiáng)模型,在樣本之間共享的語(yǔ)義子空間中構(gòu)建靈活的映射關(guān)系和挖掘信息。

    b)語(yǔ)義引導(dǎo)視頻字幕。字幕生成的關(guān)鍵是對(duì)視頻內(nèi)語(yǔ)義信息的準(zhǔn)確把握,所以視覺語(yǔ)義嵌人在視頻字幕任務(wù)中有著至關(guān)重要的作用。研究人員通過構(gòu)建從視覺特征獲取視覺表示向量的視覺模型和把字幕投射到語(yǔ)言表示向量的語(yǔ)言模型兩個(gè)模型,將兩種表示映射到聯(lián)合的空間當(dāng)中以生成字幕。Sib-Net[21] 使用雙分支架構(gòu)對(duì)豐富的視頻信息進(jìn)行編碼,利用了視覺信息的自動(dòng)編碼器和語(yǔ)義信息的視覺語(yǔ)義嵌入。 SGN[22] 提出了一種用于視頻字幕的語(yǔ)義分組網(wǎng)絡(luò)。該網(wǎng)絡(luò)通過將視頻編碼為由部分解碼的標(biāo)題和相關(guān)幀組成的語(yǔ)義組來全面了解字幕上下文。RSFD[23]提出了一種針對(duì)頻率擴(kuò)散的新型細(xì)化語(yǔ)義增強(qiáng)方法,并設(shè)計(jì)了一個(gè)不同的語(yǔ)義監(jiān)督器(DSS)模塊來補(bǔ)償擴(kuò)散過程帶來的高頻標(biāo)記的信息丟失,進(jìn)一步強(qiáng)調(diào)低頻標(biāo)記的語(yǔ)義來緩解長(zhǎng)尾問題。相比之下,本文提出了一種多模態(tài)的方法,通過結(jié)合額外的圖文對(duì)來提供語(yǔ)義信息指導(dǎo),輔助模型準(zhǔn)確地學(xué)習(xí)到視頻內(nèi)容的語(yǔ)義信息。

    2方法

    本文RM4Cap框架如圖1所示,主要由多模態(tài)特征編碼器、跨模態(tài)目標(biāo)語(yǔ)義關(guān)聯(lián)、字幕生成器三個(gè)模塊組成,充分利用視頻幀圖像與圖像之間的高效對(duì)齊,間接達(dá)到視頻幀與文本的跨模態(tài)的高效融合。

    首先,通過多模態(tài)編碼器獲取原始視頻的全局視覺表示,同時(shí)對(duì)額外引入的圖像-文本對(duì)語(yǔ)料庫(kù)中的圖像和文本進(jìn)行編碼,得到圖像輔助特征表示和文本標(biāo)簽語(yǔ)義信息。隨后,在跨模態(tài)目標(biāo)語(yǔ)義關(guān)聯(lián)過程中,本文提出了跨模態(tài)目標(biāo)-語(yǔ)義關(guān)聯(lián)模塊CTSAM,以圖像輔助特征為橋梁,實(shí)現(xiàn)視頻與文本標(biāo)簽?zāi)繕?biāo)語(yǔ)義的對(duì)齊與關(guān)聯(lián),并采用反向注意力聚焦算法對(duì)關(guān)聯(lián)后的新視覺語(yǔ)義進(jìn)行建模,在與不同幀的交互中,學(xué)習(xí)到細(xì)微差異,實(shí)現(xiàn)更加細(xì)粒度的特征表示。最后字幕生成模型將這些表示映射到文本空間,生成相對(duì)應(yīng)的描述。

    2.1多模態(tài)特征編碼器

    為了更好從視頻中獲取豐富的視覺表示,以及對(duì)圖像-文本對(duì)進(jìn)行特征編碼,本文使用了預(yù)訓(xùn)練的CLIP模型來搭建本文的多模態(tài)特征編碼器,CLIP模型并不是單純的視覺特征提取骨干網(wǎng)絡(luò),如文獻(xiàn)[24]所述,該模型對(duì)大量的Image-Text即圖文對(duì)進(jìn)行訓(xùn)練,通過對(duì)比學(xué)習(xí),使得當(dāng)其在編碼視覺模態(tài)信息時(shí)可以更加趨向文本表示,同樣地,當(dāng)其在編碼文本信息時(shí),同時(shí)向圖像表示空間靠攏。如圖1所示,多模態(tài)編碼器主要由兩部分組成:a)對(duì)輸入的視頻幀序列進(jìn)行處理,采用的是CLIP模型中的視覺編碼器,并選擇 ViT[25] 作為視覺編碼器的特征提取骨干;b)對(duì)輸入的圖文對(duì)進(jìn)行處理,對(duì)于圖像,依舊采用和視頻處理一樣的視覺編碼器,對(duì)于文本,則采用CLIP模型中的文本編碼器來進(jìn)行編碼。編碼視頻特征、圖文對(duì)圖像特征以及文本標(biāo)簽語(yǔ)義特征的具體實(shí)現(xiàn)如下:

    a)采用視覺編碼器提取視頻特征。在這一步中,為了確保模型能夠有效捕獲視頻幀細(xì)粒度信息,在采樣階段執(zhí)行均勻采樣來避免過多相似視頻幀被輸入到編碼器。首先,從給定視頻片段提取 L 個(gè)關(guān)鍵幀,組成新的視頻幀序列 Fi(01,x2,…,x1p1} ,通過線性投影將每個(gè)塊展平并映射到 dv 維的向量空間,得到每一個(gè)圖片的塊嵌入表示。

    其中: Epos 是所有圖像塊的位置編碼; Z0 是Transformer初始輸入序列;Transformer由 N 層多頭自注意力層和MLP塊交替堆疊而成,負(fù)責(zé)對(duì)這些嵌入表示即初始輸人序列進(jìn)行特征編碼。具體實(shí)現(xiàn)公式如下:

    Z'n=MSA(LN(Zn-1))+Zn-1

    Zn=MLP(LN(Z'n))+Z'n

    其中: Zn 是Transformer重復(fù) n 層的輸出結(jié)果; ZclsN 是最后一層輸出的分類特征,然后對(duì)其進(jìn)行歸一化,得到最終的全局視覺特征 Gi 。需要注意的是,為了節(jié)約計(jì)算成本和訓(xùn)練時(shí)間,該過程的所有參數(shù)都采用凍結(jié)的預(yù)訓(xùn)練參數(shù),不參與模型訓(xùn)練。

    b)分別采用視覺編碼器、文本編碼器提取圖像輔助特征和文本標(biāo)簽語(yǔ)義特征。在編碼視瀕幀序列的同時(shí),從圖像-文本對(duì)中采樣的圖像集 {I1,I2,…,IM} 也被輸入到視覺編碼器visionTransformer(ViT-L/14)進(jìn)行處理,以提取輔助圖像特征 Vj

    其中: M 為圖像對(duì)中圖像集的總數(shù); Vj 為圖像集中第 j 張圖像對(duì)應(yīng)的圖像視覺輔助特征。

    類似地,從圖像-文本對(duì)中采樣的文本標(biāo)簽集 {[token]1 [token]2,…,[token]M} 由CLIP模型中的文本編碼器將其編碼為語(yǔ)義表示。文本編碼器同樣基于Transformer結(jié)構(gòu),由于文本標(biāo)簽是一個(gè)一個(gè)單獨(dú)存在的單詞,并沒有像圖像那樣需要結(jié)合上下文語(yǔ)義信息進(jìn)行編碼,所以Transformer中多頭自注意力層并沒有起什么作用。在這一步中,本文丟棄多頭自注意力層,僅保留MLP塊作為Transformer的關(guān)鍵組件,通過多次疊加,生成類別標(biāo)簽的語(yǔ)義特征。其簡(jiǎn)化的計(jì)算過程如下:

    En=MLP(LN(En))+Enn=1,2,…,N

    其中: M 為圖文對(duì)中類別標(biāo)簽的總數(shù); Tj 為圖文對(duì)中第 j 個(gè)文本類別標(biāo)簽。

    2.2CTSAM跨模態(tài)目標(biāo)-語(yǔ)義關(guān)聯(lián)模塊

    為了實(shí)現(xiàn)視覺和語(yǔ)義之間更好的對(duì)齊以及減少視覺冗余的負(fù)面影響,本文提出了CTSAM跨模態(tài)目標(biāo)-語(yǔ)義關(guān)聯(lián)模塊,分別由跨模態(tài)語(yǔ)義對(duì)齊(cross-modal semanticalignment,CMSA)和反向聚焦幀間特征細(xì)化(reverse-focusedframe-levelrefinement,RFFR)兩個(gè)關(guān)鍵組件組成。CMSA引入圖片進(jìn)行對(duì)齊來輔助文本對(duì)齊和融合,與直接對(duì)文本信息進(jìn)行注意力不同,CMSA可以提供更加豐富的包含準(zhǔn)確目標(biāo)的語(yǔ)義信息;同時(shí)結(jié)合使用了反向注意力的RFFR,又可以對(duì)模態(tài)存在的冗余信息進(jìn)行刪減,保留可以反映視覺關(guān)系的動(dòng)態(tài)視覺變化,從而進(jìn)一步增強(qiáng)視頻幀的特征表達(dá)能力。圖2展示了CMSA的跨模態(tài)對(duì)齊融合以及RFFR的反向注意力簡(jiǎn)略對(duì)比圖,各自的性能結(jié)果將在消融實(shí)驗(yàn)3.3節(jié)中的2)進(jìn)行敘述,其中“visual\"代表視覺模態(tài)信息;“text”代表文本模態(tài)信息;“sem”代表語(yǔ)義信息。

    圖2不同的融合注意力算法Fig.2Different fusionattentionalgorithms

    2.2.1CMSA跨模態(tài)語(yǔ)義對(duì)齊組件

    CMSA組件框架如圖1和圖2(b)所示,與傳統(tǒng)方法直接對(duì)接視頻與文本表示不同,CMSA通過構(gòu)建視頻與圖像-文本對(duì)中圖像的間接橋梁,實(shí)現(xiàn)視頻與文本的對(duì)齊和融合。此方法不僅有效對(duì)齊不同模態(tài),還緩解了因模態(tài)不同步而產(chǎn)生的語(yǔ)義鴻溝問題。CMSA的跨模態(tài)語(yǔ)義對(duì)齊過程具體實(shí)現(xiàn)如下:

    在跨模態(tài)語(yǔ)義對(duì)齊之前,多模態(tài)特征編碼器已將全局視覺特征、圖像輔助特征和文本特征映射到共享的語(yǔ)義空間中,并分別用 Gi,Vj 和 Tj 表示經(jīng)過映射后的特征。然后CMSA通過余弦相似度衡量視頻幀 Gi 與語(yǔ)料庫(kù)中圖像特征 Vj 的關(guān)聯(lián)性:

    其中: Si,j 表示第 χi 幀視頻幀與第 j 個(gè)輔助圖像特征之間的相似度。得到每一視頻幀與圖像集所有圖像的相似度之后,為進(jìn)一步確定視頻幀與圖像特征之間的語(yǔ)義匹配關(guān)系,使用softmax函數(shù)對(duì)該相似度進(jìn)行歸一化,得到每幀視頻幀對(duì)所有圖像特征的匹配概率分布Pij:

    通過匹配概率 Pi,j ,模型能夠量化每幀視頻與圖像標(biāo)簽之間的匹配程度。接下來,選擇與每幀視頻最相關(guān)的前 K 個(gè)圖像對(duì)應(yīng)的文本類別標(biāo)簽,這些類別標(biāo)簽表示為 {Tj,1i,Tj,2i,… ,將這些類別標(biāo)簽與原始視頻幀關(guān)聯(lián)起來,得到新的圖像對(duì)集合:

    C(V,T)=(Gi,T(j,1)i,T(j,2)i,…,T(j,K)i

    同時(shí)讓這些類別標(biāo)簽通過加權(quán)的方式串接在一起,生成既

    包含初始視覺信息又包含補(bǔ)充的文本類別標(biāo)簽信息的跨模態(tài)全局語(yǔ)義表示:

    其中: Pi,jK 是第 i 幀匹配度第 K 高的輔助圖像,即匹配度第 K 高的文本類別的匹配概率; Tj,κi 是對(duì)應(yīng)的文本類別特征。在對(duì)文本類別特征加權(quán)后,利用生成的語(yǔ)義表示對(duì)原始視覺特征進(jìn)行增強(qiáng),得到包含豐富語(yǔ)義信息的增強(qiáng)視覺特征 R(K+1)xdv

    2.2.2RFFR反向聚焦幀間特征細(xì)化組件

    為進(jìn)一步捕捉視頻幀之間描述對(duì)象的細(xì)微差異,RFFR組件基于跨模態(tài)語(yǔ)義對(duì)齊(CMSA),在不同幀之間執(zhí)行反向注意力操作,以去除冗余背景信息并突出非冗余的細(xì)節(jié)部分,RFFR組件框架如圖3所示。

    圖3RFFR組件結(jié)構(gòu)Fig.3Structure of RFFR component

    具體來說,RFFR通過比較幀間特征,將當(dāng)前幀與其他幀進(jìn)行比較,突出當(dāng)前幀與其他幀的不同之處,即當(dāng)前幀中不顯著的特征,例如視頻中呈現(xiàn)的目標(biāo)對(duì)象發(fā)生變化或有新的場(chǎng)景出現(xiàn)時(shí),該方法就可以凸顯視頻幀的動(dòng)態(tài)變化,避免靜態(tài)冗余信息干擾,從而生成更精細(xì)的幀特征表示。RFFR的具體實(shí)現(xiàn)細(xì)節(jié)如下:

    首先,RFFR利用CMSA組件生成的增強(qiáng)視覺特征 ,逐幀比較與相鄰幀之間的相似和不相似之處,構(gòu)建幀間的關(guān)系矩陣 Aij

    其中 ?Aij∈R(K+1)×(K+1) 表示第 i 幀與第 j 幀關(guān)聯(lián)的文本標(biāo)簽的關(guān)聯(lián)得分,能夠幫助模型區(qū)分哪些幀之間的內(nèi)容相似,哪些幀內(nèi)容變化較大。

    接下來,為了強(qiáng)化與當(dāng)前幀內(nèi)容不同的部分,減少冗余信息,并進(jìn)一步精細(xì)化幀間的特征表示,RFFR利用反注意力機(jī)制,使用公式 1-Aij 來量化幀間的差異性:

    為進(jìn)一步明確幀間相似關(guān)系,RFFR對(duì)關(guān)系矩陣應(yīng)用soft-max操作對(duì)幀間相似度進(jìn)行歸一化處理,得到歸一化的相似度矩陣。最后,將當(dāng)前幀與其他剩余幀的歸一化矩陣進(jìn)行相加,并讓其作為一個(gè)權(quán)重,返回給當(dāng)前幀:

    其中: D 表示第 χi 幀中與其他幀之間需要學(xué)習(xí)的差異化信息; 則是修正后的細(xì)粒度特征; ω 和 b 是可學(xué)習(xí)的參數(shù)。通過加權(quán)的方式調(diào)整學(xué)習(xí)權(quán)重,使得模型能夠在幀間進(jìn)行細(xì)粒度的特征修正。將每一幀修正后的細(xì)粒度特征 Ri 進(jìn)行拼接,得到融合了全局視覺表示和與之高度相關(guān)的文本標(biāo)簽信息的新視頻表示V。

    2.3字幕生成器(解碼器)

    為了將修正后且融合了多模態(tài)文本標(biāo)簽信息的細(xì)粒度特征編碼為描述性語(yǔ)句,以文字形式展示視覺內(nèi)容,在CTSAM模塊之后,設(shè)計(jì)了一個(gè)字幕生成器。字幕生成器的實(shí)現(xiàn)過程如下:

    字幕生成器旨在生成字幕 y={y1,y2,…,yt} ,每個(gè)詞 yt 的生成依賴于視頻表示V和前 χt 個(gè)時(shí)間步生成的單詞 y 。在步驟 χt ,首先計(jì)算前一時(shí)間步生成單詞的嵌入 et ,具體公式如下:

    V是結(jié)合了低級(jí)全局視覺特征和細(xì)粒度修正后的視覺特 征,接下來,將 E?t={e1,e2,…,et} 和V輸入到字幕解碼器以生 成詞的隱藏狀態(tài) ht ·

    其中: Wq?Wk 和 Wv 是可學(xué)習(xí)矩陣。最后,將 ht 輸入到分類頭以預(yù)測(cè)下一個(gè)單詞 yt

    P(yt|Y,w)=ClsHead(ht)=softmax(htWcls

    其中: (yt|Y,w)∈R|w| 表示當(dāng)前單詞在詞匯表 w 上的概率分布; Wcls∈RD×1w! 是可學(xué)習(xí)矩陣。

    2.4 訓(xùn)練

    通過計(jì)算生成字幕與真實(shí)字幕 Y?={y1?,y2?,…,yT?} 的交叉熵?fù)p失來優(yōu)化整個(gè)視頻字幕生成模型:

    其中: T 是預(yù)定義的最大序列長(zhǎng)度; δ(yt*)∈R|w| 是 yt* 的one-hot編碼,這意味著僅在位置 yt* 的值為1,其余為 0 。

    3實(shí)驗(yàn)

    3.1 實(shí)驗(yàn)設(shè)置及實(shí)現(xiàn)細(xì)節(jié)

    a)實(shí)驗(yàn)設(shè)置。關(guān)于視頻字幕任務(wù),目前主流的數(shù)據(jù)集有MSVD[26]、MSR-VTT[27]和VaTeX[28]??紤]到實(shí)驗(yàn)成本及評(píng)估方法的全面性和公平性,本次實(shí)驗(yàn)選擇了MSVD和MSR-VTT作為數(shù)據(jù)集,并采用BLEU-4[29]、ROUGE-L[30]、METEOR[31]和CIDEr[32]四個(gè)常用評(píng)價(jià)指標(biāo)來進(jìn)行評(píng)分。

    MSVD數(shù)據(jù)集是最早流行的一個(gè)視頻字幕基準(zhǔn)數(shù)據(jù)集,由來自不同生活領(lǐng)域的1970個(gè)視頻片段組成。每個(gè)視頻片段都配有若干個(gè)長(zhǎng)度不等的句子注釋。與現(xiàn)有工作一致,本實(shí)驗(yàn)選取前1200個(gè)視頻片段作為訓(xùn)練數(shù)據(jù),100個(gè)視頻片段作為驗(yàn)證數(shù)據(jù),剩余670個(gè)視頻片段作為測(cè)試數(shù)據(jù)。MSR-VTT數(shù)據(jù)集是另一個(gè)流行的視頻字幕基準(zhǔn)數(shù)據(jù)集,數(shù)據(jù)集大小是MSVD的五倍多,共由10000個(gè)視頻片段組成,每個(gè)視頻片段配有20個(gè)不同長(zhǎng)度的句子注釋。相較于MSVD,MSR-VTT中的句子注釋更加豐富,內(nèi)容更為多樣。因此,本次實(shí)驗(yàn)選擇MSR-VTT作為主數(shù)據(jù)集,以考察本文模型在生成準(zhǔn)確且多樣的描述性語(yǔ)句方面的能力。與現(xiàn)有工作一致,本實(shí)驗(yàn)選取前6513個(gè)視頻片段作為訓(xùn)練數(shù)據(jù),497個(gè)視頻片段作為驗(yàn)證數(shù)據(jù),剩余2990個(gè)視頻片段作為測(cè)試數(shù)據(jù)。

    b)實(shí)現(xiàn)細(xì)節(jié)。在特征提取之前,首先從每個(gè)視頻片段中選擇相同數(shù)量的視頻幀,以構(gòu)成新的輸入序列。在本文中,選取的視頻幀數(shù)量設(shè)置為 L=15 。為了提取每一幀的視頻特征,采用了預(yù)訓(xùn)練的CLIP模型的ViT-L/14網(wǎng)絡(luò)。需要強(qiáng)調(diào)的是,

    CLIP模型僅用于特征表示學(xué)習(xí),并不參與本文所提出網(wǎng)絡(luò)的訓(xùn)練過程。同時(shí),圖像-文本對(duì)中的圖像樣本也采用了相同的處理方式,以確保視覺和文本模態(tài)之間的有效對(duì)齊。

    在特征提取具體實(shí)現(xiàn)中,視覺模態(tài)的特征維度遵循ViT-L/14 設(shè)置 dv=768 ,即每個(gè)視頻幀的視覺表示被嵌人到一個(gè)768維的空間中,從而保留了足夠的視覺信息,以供后續(xù)的多模態(tài)處理使用。此外,文本模態(tài)的編碼采用了CLIP模型中預(yù)訓(xùn)練的文本編碼器,文本特征維度設(shè)置為 ,以確保文本特征能夠與視覺特征對(duì)齊,并在后續(xù)的跨模態(tài)對(duì)齊與融合中起到關(guān)鍵作用。在CTSAM的實(shí)現(xiàn)中,除非另有說明,否則在跨模態(tài)語(yǔ)義對(duì)齊(CMSA)過程中,選擇與每幀視頻最相關(guān)的文本類別標(biāo)簽的數(shù)量設(shè)置為 K=3 。對(duì)于字幕生成器,詞嵌入的維度設(shè)置為 D=768 ,以保持與視覺特征維度的一致性,整個(gè)詞匯表的大小設(shè)定為 ∣w∣=49408 。

    本文基于深度學(xué)習(xí)框架PyTorch來構(gòu)建RM4Cap模型,并使用一塊11GB顯存的GeForceRTX2080TiGPU來加速網(wǎng)絡(luò)模型的訓(xùn)練和測(cè)試。在模型訓(xùn)練過程中,采用Adam優(yōu)化器,初始學(xué)習(xí)率設(shè)置為1E-4,訓(xùn)練批次大小設(shè)定為128,訓(xùn)練周期設(shè)定為20。

    3.2 實(shí)驗(yàn)結(jié)果

    為了確保實(shí)驗(yàn)的公平性和全面性,將本文模型分別和“只使用單個(gè)模態(tài)信息”的方法、“使用了多模態(tài)信息”的方法進(jìn)行了對(duì)比,實(shí)驗(yàn)結(jié)果如表1(單模態(tài))表2(多模態(tài))所示。

    表1展示了僅使用視覺模態(tài)特征的方法,包括2D外觀特征、3D運(yùn)動(dòng)特征以及目標(biāo)檢測(cè)特征等。從結(jié)果中可以看出,不使用目標(biāo)檢測(cè)特征的方法(如MGRMP和TVRD)在性能上往往遜色于使用目標(biāo)檢測(cè)特征的方法(如RLHMN),這一優(yōu)勢(shì)在小數(shù)據(jù)集MSVD上更為明顯。這從側(cè)面表明,豐富的視覺信息類型(包括目標(biāo)檢測(cè)特征)的加入有助于模型生成更高質(zhì)量的字幕。

    表1在MSVD、MSR-VTT數(shù)據(jù)集上與單模態(tài)方法的比較結(jié)果

    本文模型在提供更豐富的視覺信息的同時(shí),還提供了更加精確的文本模態(tài)信息,從表1最后一行可以看到,剩余其他評(píng)分指標(biāo)都高過目前分?jǐn)?shù)最高的RLHMN,相比于只采用單個(gè)模態(tài)的方法,本文方法有非常明顯的優(yōu)勢(shì)。在表1中最后一行可以看到,除了BLEU-4(B4)評(píng)分指標(biāo),本文模型在METEOR(M)ROUGE(R)和CIDEr(C)等評(píng)分指標(biāo)上均顯著超越其他單模態(tài)方法,尤其是在CIDEr指標(biāo)上,比得分最高的RLHMN方法有大幅提升,展示了多模態(tài)方法比單模態(tài)方法具有更加強(qiáng)大的性能。

    表2展示了采用多模態(tài)信息方法的性能表現(xiàn)。這些方法中,有的結(jié)合了視覺和音頻模態(tài)(如RSFD),而有的結(jié)合了視覺和文本模態(tài)(如HRNAT)。本文采用視覺和文本信息的建模方式,與最佳的視覺和音頻結(jié)合方法(如MGSA)相比,除了在BLEU4指標(biāo)上略遜于MGSA,其余指標(biāo)均略勝一籌,尤其是CIDEr指標(biāo),提升了高達(dá)7.2分。使用視覺和音頻結(jié)合方法的CIDEr分?jǐn)?shù)較低、其他指標(biāo)略高的原因在于音頻信息雖然有助于準(zhǔn)確描述內(nèi)容,但其語(yǔ)義信息的多樣性不如文本豐富,而CIDEr分?jǐn)?shù)主要考察字幕生成的多樣性。

    表2在MSVD、MSR-VTT數(shù)據(jù)集上與多模態(tài)方法的比較結(jié)果Tab.2 Comparisonresultswith multimodal methodsMSVDandMSR-VTTdatasets

    HRNAT、RSFD和CAT與本文模型一樣,通過輸人文本信息,來輔助模型訓(xùn)練。從表2的最后一行可以看出,本文模型在MSVD的所有評(píng)估指標(biāo)中獲得了最高分,在MSR-VTT數(shù)據(jù)集上,四個(gè)指標(biāo)中有三個(gè)領(lǐng)先于其他方法。值得注意的是,與小型MSVD數(shù)據(jù)集相比,MSR-VTT大型數(shù)據(jù)集的性能提升更為顯著。盡管本文模型在MSR-VTT數(shù)據(jù)集上的BLEU-4分?jǐn)?shù)并非最高,但在其他評(píng)估指標(biāo)上表現(xiàn)最佳,這些結(jié)果進(jìn)一步驗(yàn)證了本文模型的有效性。

    3.3消融實(shí)驗(yàn)

    本文CTSAM模塊中包含CMSA跨模態(tài)目標(biāo)語(yǔ)義對(duì)齊和RFFR反向注意力聚焦兩個(gè)核心組件(步驟)。跨模態(tài)目標(biāo)語(yǔ)義對(duì)齊旨在解決多模態(tài)任務(wù)中常見的語(yǔ)義鴻溝問題,即文本信息與視覺信息的不一致。通過精細(xì)對(duì)齊高級(jí)語(yǔ)義和低級(jí)語(yǔ)義,該組件可以有效地提升模型對(duì)多模態(tài)語(yǔ)義信息的融合能力。反向注意力聚焦則專注于通過捕捉幀間的細(xì)微差異,減少冗余的視覺信息,從而更精準(zhǔn)地突出動(dòng)態(tài)變化。為驗(yàn)證這兩個(gè)核心組件對(duì)模型性能的貢獻(xiàn)及其影響,本文設(shè)計(jì)了兩個(gè)消融實(shí)驗(yàn):a)評(píng)估各個(gè)組件在模型中的具體作用;b)評(píng)估各個(gè)組件算法組成對(duì)生成字幕效果的影響(詳情如圖2所示)。

    1)CTSAM各個(gè)組件的作用

    實(shí)驗(yàn)結(jié)果如表3所示,其中“√”表示使用該模塊,“ x \"表示未使用該模塊。表3的五種設(shè)置分別驗(yàn)證了CMSA跨模態(tài)語(yǔ)義對(duì)齊與RFFR反向注意力聚焦兩種模塊的獨(dú)立作用及其交互效果:第一行既不使用CMSA,也不使用RFFR;第二行僅使用CMSA進(jìn)行多模態(tài)信息融合,未引人RFFR;第三行與第一行相反,只使用RFFR以去除視覺冗余,但未使用CMSA對(duì)齊多模態(tài)信息;第四行則同時(shí)結(jié)合了CMSA與RFFR,是本文模型完整架構(gòu)組成。

    表3在MSVD、MSR-VTT數(shù)據(jù)集上CTSAM各個(gè)組件的消融研究

    研究CMSA的作用,可以參考第一行和第二行的結(jié)果。從第一行與第二行的對(duì)比可以看出,在使用多模態(tài)信息的情況下,采用跨模態(tài)語(yǔ)義對(duì)齊進(jìn)行融合的方式,能夠有效對(duì)齊不同模態(tài)的信息。如圖4所示,采用CMSA跨模態(tài)語(yǔ)義對(duì)齊進(jìn)行多模態(tài)對(duì)齊比單純視覺信息更具針對(duì)性,從而更有助于視頻內(nèi)容的視覺語(yǔ)義交互。然而,僅依賴跨模態(tài)語(yǔ)義對(duì)齊的方式可能面臨視覺信息本身的冗余問題,或者多模態(tài)信息之間存在冗余的挑戰(zhàn),因此生成字幕的質(zhì)量仍未達(dá)到最佳。當(dāng)引入反向注意力聚焦后,模型的性能得到了顯著提升。

    同樣地,研究RFFR的作用,可以通過對(duì)比第一行與第三行的結(jié)果進(jìn)一步研究RFFR的優(yōu)勢(shì)。從第一行與第三行的對(duì)比可以看出,在未使用CMSA的情況下,僅引入RFFR的模型顯著優(yōu)于引入傳統(tǒng)注意力機(jī)制的模型,這說明RFFR通過捕捉幀間細(xì)微差異,能夠有效去除冗余背景信息并保留關(guān)鍵動(dòng)態(tài)特征,從而在沒有跨模態(tài)語(yǔ)義對(duì)齊的情況下仍能提升字幕生成效果。然而,通過對(duì)比第三行和最后一行的結(jié)果可以看出,單獨(dú)使用RFFR的方式也存在一定的局限性。由于缺乏對(duì)多模態(tài)語(yǔ)義信息的全局對(duì)齊,僅依靠反向注意力機(jī)制可能無法充分利用文本模態(tài)中豐富的語(yǔ)義信息,導(dǎo)致在一些場(chǎng)景下生成的字幕缺乏上下文的深度語(yǔ)義關(guān)聯(lián)。

    通過最后一行與其他行的對(duì)比可以更直觀地驗(yàn)證兩模塊的協(xié)同效果,圖4展示了單獨(dú)使用CMSA或RFFR時(shí)的可視化結(jié)果,可以發(fā)現(xiàn)CMSA能夠更好地對(duì)齊語(yǔ)義信息,而RFFR則更擅長(zhǎng)于處理視覺冗余和動(dòng)態(tài)變化。這兩個(gè)模塊各有側(cè)重,且作用相輔相成。當(dāng)引入CMSA或RFFR后,相對(duì)于之前單獨(dú)使用某個(gè)模塊,模型的性能都相應(yīng)地得到了顯著提升。這也就說明跨模態(tài)語(yǔ)義對(duì)齊與反向注意力聚焦的結(jié)合能夠顯著提升模型性能,不僅實(shí)現(xiàn)了多模態(tài)信息的精準(zhǔn)對(duì)齊,還有效減少了冗余,進(jìn)一步提升了字幕生成的語(yǔ)義準(zhǔn)確性和多樣性。

    2)CMSA、RFFR組件算法組成對(duì)視頻模型的影響

    實(shí)驗(yàn)結(jié)果如表4所示,為了便于觀察結(jié)果,除最后一行外,表格的奇數(shù)行來自表3的結(jié)果,并將來自表3的結(jié)果添加下畫線以作區(qū)分。其中:“√”表示該模塊使用了原始模型提出的注意力或跨模態(tài)融合算法;“ × ”表示未使用該模塊;“區(qū)”表示使用傳統(tǒng)注意力機(jī)制替換該模塊原始算法,即使用圖2(a)。

    表4在MSVD、MSR-VTT數(shù)據(jù)集上CMSA和RFFR組件算法組成的消融研究Tab.4Ablation studies of the CMSA and RFFR components ontheMSVDandMSR-VTTdatasets

    第一行和第二行顯示的是在使用原始CMSA的情況下,RFFR分別采用傳統(tǒng)注意力機(jī)制和反注意力聚焦算法的結(jié)果。通過對(duì)比可以發(fā)現(xiàn),使用傳統(tǒng)注意力機(jī)制生成字幕的效果并沒有很好的性能提升,性能反而還下降。這是由于注意力機(jī)制的作用是聚焦或更多地關(guān)注有用的信息,而視頻有視覺冗余這一局限性存在,不作細(xì)分地對(duì)任何問題都采用注意力機(jī)制并不理想,CIDEr分?jǐn)?shù)下降1.1分這一現(xiàn)象,很好地佐證了本文的觀點(diǎn):當(dāng)處理豐富的視覺內(nèi)容時(shí),模型的工作重點(diǎn)不宜放在看似非常重要的重復(fù)的視覺自標(biāo),而是要學(xué)會(huì)從相同中我不同,從靜態(tài)內(nèi)容中找動(dòng)態(tài)內(nèi)容。

    另外,將第二行和最后一行進(jìn)行對(duì)比,可以發(fā)現(xiàn)反注意力聚焦算法可以凸顯特征差異、細(xì)化視覺特征,對(duì)模型有顯著的正向影響。其中CIDEr指標(biāo)分?jǐn)?shù)顯著提高,較使用傳統(tǒng)注意力機(jī)制提升了1.2。實(shí)驗(yàn)結(jié)果說明,本文提出的反注意力聚焦算法能夠在保證學(xué)習(xí)內(nèi)容的準(zhǔn)確性的情況下,聚焦視頻中細(xì)微的動(dòng)態(tài)變化,成功減少額外模態(tài)帶來的信息冗余,保留關(guān)鍵視覺信息。

    接下來,通過觀察第三行和第四行的對(duì)比結(jié)果,探討在使用原始RFFR的情況下,在CMSA使用不同的跨模態(tài)融合機(jī)制對(duì)模型的影響。當(dāng)?shù)谒男胁捎脗鹘y(tǒng)注意力直接對(duì)文本和視頻幀進(jìn)行建模時(shí),在大數(shù)據(jù)集MSR-VTT上生成結(jié)果的CIDEr分?jǐn)?shù)有明顯下降的趨勢(shì),而準(zhǔn)確性卻有比較大幅度的提升,這樣的結(jié)果恰好說明了:當(dāng)視頻數(shù)據(jù)內(nèi)容復(fù)雜多變時(shí),模型無法分辨主旨目標(biāo),易將不顯著的其他目標(biāo)當(dāng)成描述主體,故加入多模態(tài)信息去提供更加有指代性的語(yǔ)義信息,有助于模型學(xué)習(xí)到真正的目標(biāo)主體。但又由于文本和視覺之間在表示空間存在語(yǔ)義鴻溝,所以模型會(huì)傾向用籠統(tǒng)的詞語(yǔ)介紹主體,從而降低了生成文本的多樣性,反過來也因?yàn)樯稍~語(yǔ)可描述的內(nèi)容范圍變大,也會(huì)提高模型生成的準(zhǔn)確性。

    而通過與最后一行即本文提出的反注意力聚焦算法對(duì)比,更加驗(yàn)證了前文的說法:通過引入額外的圖像-文本對(duì),彌合圖像對(duì)中圖像的距離,實(shí)現(xiàn)圖像與視頻幀的對(duì)齊,間接實(shí)現(xiàn)低級(jí)視覺與跨模態(tài)高級(jí)語(yǔ)義的對(duì)齊,從而解決了語(yǔ)義鴻溝問題,有效實(shí)現(xiàn)多模態(tài)信息的高效融合。

    3.4 性能分析

    將本文方法與兩個(gè)單模態(tài)方法(SAAT、RLHMN)及三個(gè)多模態(tài)方法(SGN、HRNAT、RSFD)在FLOPs、推理時(shí)間(time)和CIDEr(C)指標(biāo)上進(jìn)行了對(duì)比和排名,具體實(shí)驗(yàn)結(jié)果如表5所示。

    在計(jì)算復(fù)雜度方面,RM4Cap的計(jì)算復(fù)雜度為1.02G,在所有對(duì)比方法中排名第二,僅次于RSFD的 1.01G 相比復(fù)雜度更高的RLHMN,RM4Cap在保持較低FLOPs的同時(shí),展現(xiàn)出更優(yōu)的性能。這得益于反向注意力聚焦算法,該算法通過對(duì)輸入視頻的視覺特征進(jìn)行動(dòng)態(tài)篩選,有效剔除了冗余信息,從而大幅減少了計(jì)算開銷。相比之下,RLHMN由于其分層模塊化網(wǎng)絡(luò)需要在句子、謂詞和實(shí)體層面進(jìn)行獨(dú)立監(jiān)督,反而增加了模型的復(fù)雜性。RSFD盡管在計(jì)算復(fù)雜度上表現(xiàn)最佳,但其頻率感知擴(kuò)散模塊主要聚焦于低頻標(biāo)簽語(yǔ)義信息,未能充分利用多模態(tài)特征的全局信息,在一定程度上限制了其CIDEr得分。

    表5在MSR-VTT數(shù)據(jù)集上與最先進(jìn)方法的綜合性能比較結(jié)果 Tab.5Comprehensiveperformance comparison resultswith state-ofthe-artmethodsonMSR-VTTdatasets

    在推理速度方面,RM4Cap以 62ms 的推理時(shí)間排名第二,僅次于SAAT的 32ms 。SAAT能夠取得最優(yōu)推理時(shí)間,主要得益于其對(duì)語(yǔ)法成分的顯式定位,從而顯著簡(jiǎn)化了處理流程。然而,SAAT在CIDEr得分上表現(xiàn)較為遜色,表明其簡(jiǎn)化的處理機(jī)制雖然提升了速度,但未能捕捉到更深層次的細(xì)粒度語(yǔ)義信息。相比之下,本文RM4Cap通過引人多模態(tài)語(yǔ)義對(duì)齊機(jī)制,在語(yǔ)義層面實(shí)現(xiàn)了對(duì)視覺特征和語(yǔ)言特征的精準(zhǔn)匹配。這種機(jī)制不僅提升了生成字幕的語(yǔ)義質(zhì)量,同時(shí)在推理效率上也達(dá)到了良好的平衡。而SGN則由于語(yǔ)義組構(gòu)建過程中依賴于復(fù)雜的視覺-文本對(duì)齊計(jì)算,其推理時(shí)間顯著較長(zhǎng),高達(dá) 194ms 是本文模型推理時(shí)間的3倍之多,這表明直接對(duì)視覺-文本進(jìn)行對(duì)比并不能夠在速度和性能之間取得平衡,也從側(cè)面說明RM4Cap提出通過實(shí)現(xiàn)視頻-圖像對(duì)齊來達(dá)到視覺-文本對(duì)齊思想的有效性。

    在模型生成性能方面,RM4Cap在CIDEr得分上取得了57.3的最佳成績(jī),高于所有對(duì)比方法。這一優(yōu)勢(shì)可以歸因于RM4Cap提出的反向注意力聚焦機(jī)制和多模態(tài)語(yǔ)義對(duì)齊模塊,它們共同增強(qiáng)了對(duì)視頻中細(xì)粒度動(dòng)作變化的捕捉能力,顯著提升了字幕生成的質(zhì)量。相比之下,RLHMN雖然在分層監(jiān)督下對(duì)語(yǔ)義特征有較強(qiáng)的捕捉能力,但其復(fù)雜的層次化結(jié)構(gòu)導(dǎo)致了信息冗余問題。HRNAT則通過分層學(xué)習(xí)語(yǔ)義和語(yǔ)法特征,提升了語(yǔ)法感知能力,但多級(jí)特征生成過程的復(fù)雜性影響了對(duì)視頻中精細(xì)語(yǔ)義的捕捉能力。RSFD在CIDEr得分上次于RM4Cap,主要原因在于其對(duì)高頻標(biāo)簽的處理能力不足,未能充分展現(xiàn)視頻內(nèi)容的語(yǔ)義豐富性。

    綜上所述,RM4Cap在推理時(shí)間、計(jì)算復(fù)雜度和生成質(zhì)量三方面實(shí)現(xiàn)了良好的平衡,并在CIDEr得分和綜合排名上表現(xiàn)出色。這不僅驗(yàn)證了反向注意力聚焦算法在消除冗余信息、提升生成質(zhì)量上的有效性,也表明本文所提的多模態(tài)語(yǔ)義對(duì)齊機(jī)制在細(xì)粒度動(dòng)作捕捉和語(yǔ)義表達(dá)優(yōu)化方面的潛力。

    3.5 定性分析

    圖5、6展示了本文模型在MSVD和MSR-VTT數(shù)據(jù)集上的生成字幕結(jié)果。為了更直觀地分析模型在生成字幕上的改進(jìn)與性能優(yōu)勢(shì),將本文模型和SAAT模型進(jìn)行定性比較。SAAT模型采用的是額外的目標(biāo)檢測(cè)特征,在同樣的計(jì)算成本下,可視化多模態(tài)相比于單模態(tài)視頻字幕更具優(yōu)勢(shì)。在生成的結(jié)果中,特殊單詞被特別標(biāo)注,這些單詞通常是能夠反映視頻主題的名詞或體現(xiàn)內(nèi)容變化的動(dòng)詞。從這些示例可以看出,本文模型相比使用單個(gè)模態(tài)的情況,生成的字幕更加貼合視頻內(nèi)容,且符合句法規(guī)律。定性分析表明,多模態(tài)信息的有效融合顯著提升了字幕生成的性能和多樣性。同時(shí),得益于反向注意力聚焦模塊,模型能夠更加準(zhǔn)確地捕捉關(guān)鍵細(xì)節(jié),生成更精準(zhǔn)、不籠統(tǒng)的描述結(jié)果。

    圖5在MSVD數(shù)據(jù)集的定性結(jié)果Fig.5QualitativeresultsontheMSVD dataset
    圖6在MSR-VTT數(shù)據(jù)集的定性結(jié)果Fig.6QualitativeresultsontheMSR-VTTdataset

    4結(jié)束語(yǔ)

    本文提出了一種基于多模態(tài)信息融合的創(chuàng)新視頻字幕生成方法,名為RM4Cap。該方法提出了CTSAM跨模態(tài)目標(biāo)-語(yǔ)義關(guān)聯(lián)模塊,具體來說通過引人跨模態(tài)語(yǔ)義對(duì)齊組件CMSA,增強(qiáng)了視覺特征與語(yǔ)言特征的協(xié)同表征能力;設(shè)計(jì)了反向注意力聚焦組件RFFR提高了模型對(duì)細(xì)粒度差異的捕捉能力,另外通過這種方式,能夠有效去除冗余背景信息并保留關(guān)鍵動(dòng)態(tài)特征。CTASM模塊的提出有效對(duì)齊了視頻的視覺內(nèi)容與對(duì)應(yīng)的文本語(yǔ)義信息,從而提升了字幕生成的質(zhì)量和多樣性。實(shí)驗(yàn)結(jié)果表明,RM4Cap在多個(gè)標(biāo)準(zhǔn)評(píng)估指標(biāo)上,如CIDEr和BLEU-4,顯著優(yōu)于現(xiàn)有的主流方法,表明該方法在多模態(tài)視頻字幕生成任務(wù)中的有效性和潛力,尤其是在捕捉細(xì)粒度對(duì)象差異和生成字幕的精細(xì)度上,RM4Cap展示出卓越的能力。遺憾的是,該模型并未將多模態(tài)特征編碼模塊一起進(jìn)行端到端訓(xùn)練,若可以進(jìn)行端到端訓(xùn)練,并將CTASM模塊中的CMSA或RFFR放入編碼器中發(fā)揮作用,預(yù)期效果應(yīng)該會(huì)好很多。未來,研究工作會(huì)集中在進(jìn)一步改進(jìn)視覺和語(yǔ)義對(duì)齊的精度方面,并通過更高效的訓(xùn)練方法提升模型的應(yīng)用能力。

    參考文獻(xiàn):

    [1]趙博程,包蘭天,楊哲森,等.面向慕課視頻的關(guān)鍵信息檢索系統(tǒng) 設(shè)計(jì)[J].計(jì)算機(jī)科學(xué),2024,51(10):79-85.(ZhaoBocheng,Bao Lantian,YangZhesen,etal.Keyinformation retrievalsystemfor MOOCvideos[J].ComputerScience,2024,51(10):79-85.)

    [2]祝媚儀,蔣朱翊.多模態(tài)口譯教學(xué)改革探索:視頻字幕的認(rèn)知負(fù)荷 研究[J].現(xiàn)代英語(yǔ),2023(21):13-16.(ZhuMeiyi,JiangZhuyi. Subtitles’effecton the cognitive loadof multimodal interpreting teaching[J].Modern English,2023(21) :13-16.)

    [3]Wang Bairui,Ma Lin,Zhang Wei,et al. Controlable video captioning with POS sequence guidance based on gated fusion network [C]/′ Proc of IEEE/CVF International Conference on Computer Vision.Piscataway,NJ: IEEE Press,2019:2641-2650.

    [4]Xu Jun, Yao Ting,Zhang Yongdong,et al. Learning multimodal attentionLSTM networks for video captioning[C]//Proc of the 25th ACM International Conference on Multimedia.NewYork:ACMPress,2017: 537-545.

    [5]Wu Bofeng,Liu Buyu,Huang Peng,etal.Conept parser with multimodal graph learning for video captioning[J].IEEE Trans on CirCuits and Systems for Video Technology,2023,33(9):4484- 4495.

    [6]Sarto S,Barraco M,Cornia M,et al.Positive-augmented contrastive learning for image and video captioning evaluation [C]//Proc of IEEE/CVF Conference on Computer Vision and Pattern Recognition. Piscataway,NJ:IEEE Press,2023:6914-6924.

    [7]Chen Xiaoya,Song Jingkuan,Zeng Pengpeng,et al.Support-set based multi-modal representation enhancement for video captioning [C]/′ (204號(hào) Proc of IEEE International Conferenceon Multimedia and Expo.Piscataway,NJ:IEEE Press,2022:1-6.

    [8]郭寧寧,蔣林華.基于硬注意力機(jī)制的多模態(tài)視頻字幕的處理 [J].計(jì)算機(jī)應(yīng)用研究,2021,38(3):956-960.(Guo Ningning, Jiang Linhua.Hard attention based multi-modal fusion for video caption generation[J].Application Research of Computers,2021,38 (3) :956-960. )

    [9]李銘興,徐成,李學(xué)偉,等.基于多模態(tài)融合的城市道路場(chǎng)景視頻 描述模型研究[J].計(jì)算機(jī)應(yīng)用研究,2023,40(2):607-611,640. (LiMingxing,XuCheng,LiXuewei,etal.Multimodal fusionforvideo captioning on urban road scene[J].Application Research of Computers,2023,40(2) :607-611,640.)

    [10]Thomason J,VenugopalanS,Guadarrama S,et al.Integratinglanguage and vision to generate natural language descriptions of videos in the wild[C]//Proc of the 25th International Conference on Computational Linguistics. Stroudsburg,PA: Association for Computational Linguistics,2014:1218-1227.

    [11]Szegedy C,Iofe S,VanhouckeV,etal.Inception-v4,inceptionResNet and the impact of residual connections on learning[C]//Proc of the 31st AAAI Conference on Artificial Intelligence.Palo Alto,CA: AAAI Press,2017 :4278 - 4284.

    [12] Tran D,BourdevL,F(xiàn)ergus R,et al.Learning spatiotemporal features with 3D convolutional networks[C]//Proc of IEEE International Conference on Computer Vision.Piscataway,NJ:IEEE Press,2015:4489- 4497.

    [13]Zhang Ziqi,Qi Zhongang,Yuan Chunfeng,et al. Open-Book video captioning with retrieve-copy-generate network[C]//Proc of IEEE/ CVF Conference on Computer Vision and Pattern Recognition.Piscataway,NJ: IEEE Press,2021 :9832-9841.

    [14]Li Guorong,Ye Hanhua,Qi Yuankai,et al.Learning hierarchical modular networks for video captioning[J]. IEEE Trans on Pattern Analysis and Machine Intelligence,2024,46(2):1049-1064.

    [15] Zheng Qi,Wang Chaoyue,Tao Dacheng. Syntax-aware action targeting for video captioning[C]//Proc of IEEE/CVF Conference on Computer Vision and Pattern Recognition.Piscataway,NJ:IEEE Press,2020: 13093-13102.

    [16]Chen Shaoxiang,Jiang Yugang. Motion guided region message passing for video captioning[C]//Proc of IEEE/CVF International Conference on ComputerVision.Piscataway,NJ: IEEE Press,2O21:1523- 1532.

    [17]Zhang Ziqi,Shi Yaya,Yuan Chunfeng,et al.Object relational graph with teacher-recommended learning for video captioning[C]//Proc of IEE/CVF Conference on Computer Vision and Patern Recognition. Piscataway,NJ:IEEE Press,2020:13275-13285.

    [18]Wu Bofeng,Niu Guocheng,Yu Jun,etal.Towards knowledge-aware video captioning via transitive visual relationship detection[J].IEEE Trans on Circuits and Systems for Video Technology,2022,32 (10) :6753-6765.

    [19]Chen Shaoxiang,Jiang Yugang.Motionguidedspatialatentionforvideo captioning[C]//Proc of AAAI Conference on Artificial Intelligence. Palo Alto,CA : AAAI Press,2019:8191-8198.

    [20]Gao Lianli,Lei Yu,Zeng Pengpeng,et al.Hierarchical representation network with auxiliary tasks forvideocaptioningandvideo question answering[J]. IEEE Trans on Image Processing,2022,31:202- 215.

    [21]Liu Sheng,Ren Zhou,Yuan Junsong.SibNet:sibling convolutional encoder for video captioning[J].IEEE Trans on Pattern Analysis andMachine Intelligence,2021,43(9) :3259-3272.

    [22]Ryu H,Kang S,Kang H,etal.Semantic grouping network for video captioning[C]//Proc of AAAI Conference on Artificial Intelligence. Palo Alto,CA : AAAI Press,2021 :2514-2522.

    [23]Zhong Xian,Li Zipeng,Chen Shuqin,et al. Refined semantic enhancement towards frequency diffusion for video captioning[C]//Proc of AAAI Conference on Artificial Intellgence.Palo Alto,CA:AAAI Press,2023 ;3724-3732.

    [24]Radford A, Kim J W,Hallacy c,et al. Learning transferable visual models from natural language supervision[C]//Proc of International Conference on MachineLearning.[S.1.]:PMLR,2021:8748-8763.

    [25]Alexey D.An image is worth 16× 16 words:Transformers for image recognition at scale[EB/OL].(2021-06-03).https://arxiv.org/abs/ 2010.11929.

    [26]Chen D,Dolan W B. Collecting highly parallel data forparaphrase evaluation[C]//Proc of the 49th Annual Meeting of the Association for Computational Linguistics:Human Language Technologies. Stroudsburg,PA:Asociation for Computational Linguistics,2011:190- 200.

    [27]Xu Jun,MeiTao,Yao Ting,et al. MSR-VTT:alarge video deseription dataset for bridging video and language[C]//Proc of IEEE Conference on Computer Vision and Pattern Recognition.Piscataway,NJ: IEEE Press,2016 :5288-5296.

    [28]Wang Xin,Wu Jiawei,Chen Junkun,et al. VaTeX:a large-scale,highquality multilingual dataset for video-and-language research[C]// Proc of IEEE/CVF International Conference on Computer Vision.Piscataway,NJ:IEEE Press,2019:4580-4590.

    [29]Papineni K,Roukos S,Ward T,et al. BLEU:a method for automatic evaluation of machine translation[C]//Proc of the 4Oth Annual Meeting of the Association for Computational Linguistics.Stroudsburg,PA: Association for Computational Linguistics,2Oo2:311-318.

    [30]Lin C Y.ROUGE:a package for automatic evaluation of summaries [C]//Text Summarization Branches Out. Stroudsburg,PA: Association for Computational Linguistics,2004:74-81.

    [31]BanerjeeS,Lavie A.METEOR:an automatic metric forMT evaluation with improved correlation with human judgments[C]//Proc of ACL Workshop on Intrinsic and Extrinsic Evaluation Measures for Machine Translation and/or Summarization. Stroudsburg,PA:Association for Computational Linguistics,20o5:65-72.

    [32] Vedantam R,Zitnick C L,Parikh D.CIDEr: consensus-based image description evaluation[C]//Proc of IEEE Conference on Computer Vision and Patern Recognition.Piscataway,NJ: IEEE Press,2015: 4566-4575.

    [33]Li Liang,Gao Xingyu,Deng Jincan,etal.Long short-term relation Transformer with global gating for video captioning[J].IEEETrans on Imaqe Processinq.2022.31:2726-2738.

    猜你喜歡
    字幕語(yǔ)義模態(tài)
    交際翻譯理論視域下的字幕翻譯
    文教資料(2025年14期)2025-08-21 00:00:00
    翻譯熵與生態(tài)翻譯學(xué)視角下《懸崖之上》電影字幕翻譯研究
    跨文化視角下看《戰(zhàn)狼2》漢譯德字幕翻譯
    三角洲(2025年20期)2025-08-05 00:00:00
    時(shí)間消失
    語(yǔ)言與語(yǔ)義
    “上”與“下”語(yǔ)義的不對(duì)稱性及其認(rèn)知闡釋
    國(guó)內(nèi)多模態(tài)教學(xué)研究回顧與展望
    基于HHT和Prony算法的電力系統(tǒng)低頻振蕩模態(tài)識(shí)別
    認(rèn)知范疇模糊與語(yǔ)義模糊
    由單個(gè)模態(tài)構(gòu)造對(duì)稱簡(jiǎn)支梁的抗彎剛度
    啪啪无遮挡十八禁网站| 亚洲精品中文字幕一二三四区 | 美女午夜性视频免费| 夫妻午夜视频| 国产熟女午夜一区二区三区| 久久久久国内视频| 人成视频在线观看免费观看| av视频免费观看在线观看| 韩国精品一区二区三区| 亚洲自偷自拍图片 自拍| 香蕉国产在线看| 欧美日韩中文字幕国产精品一区二区三区 | 咕卡用的链子| av片东京热男人的天堂| 久久亚洲真实| 精品免费久久久久久久清纯 | 999久久久精品免费观看国产| 成人永久免费在线观看视频 | 精品国产一区二区三区四区第35| 999精品在线视频| 丰满少妇做爰视频| 精品国内亚洲2022精品成人 | 母亲3免费完整高清在线观看| 女人被躁到高潮嗷嗷叫费观| 97人妻天天添夜夜摸| 欧美精品亚洲一区二区| 一级毛片女人18水好多| 亚洲成国产人片在线观看| tocl精华| 日韩 欧美 亚洲 中文字幕| 99九九在线精品视频| 亚洲成人手机| 99精品在免费线老司机午夜| 黄色丝袜av网址大全| 多毛熟女@视频| 黑人猛操日本美女一级片| 欧美国产精品一级二级三级| 欧美中文综合在线视频| aaaaa片日本免费| 亚洲国产欧美日韩在线播放| 亚洲中文av在线| 丝袜喷水一区| 美女午夜性视频免费| 国产精品麻豆人妻色哟哟久久| 成人国产一区最新在线观看| 十八禁高潮呻吟视频| kizo精华| 叶爱在线成人免费视频播放| 日韩人妻精品一区2区三区| tocl精华| 美女扒开内裤让男人捅视频| 日日夜夜操网爽| 人妻久久中文字幕网| 国产单亲对白刺激| 精品欧美一区二区三区在线| 一区二区av电影网| 精品久久久久久电影网| 人妻久久中文字幕网| 人人澡人人妻人| 99精品在免费线老司机午夜| 国产aⅴ精品一区二区三区波| 国产男女内射视频| 日韩中文字幕视频在线看片| 后天国语完整版免费观看| 一级,二级,三级黄色视频| 51午夜福利影视在线观看| 老司机影院毛片| 日韩熟女老妇一区二区性免费视频| 国产91精品成人一区二区三区 | 亚洲人成电影观看| 欧美在线一区亚洲| 国产欧美日韩一区二区精品| 一区二区三区乱码不卡18| 9色porny在线观看| 免费久久久久久久精品成人欧美视频| 国产欧美日韩综合在线一区二区| 嫁个100分男人电影在线观看| 性色av乱码一区二区三区2| 午夜福利在线免费观看网站| 老汉色av国产亚洲站长工具| 在线永久观看黄色视频| 久久国产精品男人的天堂亚洲| 啦啦啦 在线观看视频| 男女边摸边吃奶| 男人操女人黄网站| 免费av中文字幕在线| 亚洲国产欧美在线一区| 日本撒尿小便嘘嘘汇集6| 国产成人免费观看mmmm| 99久久国产精品久久久| 汤姆久久久久久久影院中文字幕| 欧美精品人与动牲交sv欧美| 在线看a的网站| 大型av网站在线播放| 男女免费视频国产| 中文字幕人妻丝袜制服| 国产精品自产拍在线观看55亚洲 | 宅男免费午夜| 一进一出好大好爽视频| 国产免费av片在线观看野外av| 久久精品熟女亚洲av麻豆精品| 天天影视国产精品| 国产精品久久久av美女十八| 好男人电影高清在线观看| 每晚都被弄得嗷嗷叫到高潮| 亚洲欧美激情在线| 国产无遮挡羞羞视频在线观看| 亚洲全国av大片| 无遮挡黄片免费观看| 丝袜在线中文字幕| 丰满饥渴人妻一区二区三| 亚洲五月色婷婷综合| 亚洲欧美日韩另类电影网站| 九色亚洲精品在线播放| 欧美精品亚洲一区二区| 变态另类成人亚洲欧美熟女 | 亚洲欧美日韩另类电影网站| 亚洲五月色婷婷综合| 一级黄色大片毛片| 免费观看av网站的网址| 免费在线观看完整版高清| 黄片小视频在线播放| 欧美黑人欧美精品刺激| 亚洲精品美女久久久久99蜜臀| 亚洲av美国av| 十八禁网站网址无遮挡| 日本精品一区二区三区蜜桃| 99在线人妻在线中文字幕 | 国产91精品成人一区二区三区 | 国产精品 欧美亚洲| 国产精品久久电影中文字幕 | 高清黄色对白视频在线免费看| 亚洲av日韩在线播放| 超色免费av| 中文欧美无线码| 国产精品成人在线| tocl精华| 女警被强在线播放| 亚洲伊人久久精品综合| 18禁裸乳无遮挡动漫免费视频| 亚洲成国产人片在线观看| av又黄又爽大尺度在线免费看| 大片电影免费在线观看免费| 午夜成年电影在线免费观看| 国产男女内射视频| 国产高清videossex| 最新美女视频免费是黄的| 久久青草综合色| 一区二区三区国产精品乱码| 午夜91福利影院| 99国产精品一区二区三区| 黄色视频在线播放观看不卡| 97人妻天天添夜夜摸| 日日摸夜夜添夜夜添小说| 精品第一国产精品| 无人区码免费观看不卡 | 日韩中文字幕欧美一区二区| 黄色 视频免费看| 欧美+亚洲+日韩+国产| 新久久久久国产一级毛片| 日韩 欧美 亚洲 中文字幕| kizo精华| 午夜福利免费观看在线| 最近最新中文字幕大全免费视频| 麻豆av在线久日| 无人区码免费观看不卡 | 99久久人妻综合| 精品一区二区三卡| a级片在线免费高清观看视频| 一二三四社区在线视频社区8| 大香蕉久久网| 男女之事视频高清在线观看| 久久精品国产亚洲av高清一级| 夜夜爽天天搞| 久久性视频一级片| 18禁黄网站禁片午夜丰满| 高清在线国产一区| 亚洲色图综合在线观看| 夜夜骑夜夜射夜夜干| 亚洲精品一卡2卡三卡4卡5卡| 丰满饥渴人妻一区二区三| 天天躁夜夜躁狠狠躁躁| 国产精品久久久av美女十八| 他把我摸到了高潮在线观看 | 国产片内射在线| 啦啦啦中文免费视频观看日本| av电影中文网址| 老熟妇乱子伦视频在线观看| 天堂俺去俺来也www色官网| 天天躁夜夜躁狠狠躁躁| 无遮挡黄片免费观看| 蜜桃在线观看..| 国产午夜精品久久久久久| 少妇裸体淫交视频免费看高清 | 欧美激情极品国产一区二区三区| 精品国产一区二区三区久久久樱花| 精品福利永久在线观看| 中文欧美无线码| 久久久久视频综合| 国产精品免费大片| 黄色怎么调成土黄色| 成年版毛片免费区| 久久国产精品男人的天堂亚洲| 宅男免费午夜| 亚洲性夜色夜夜综合| 日韩大码丰满熟妇| 两人在一起打扑克的视频| 亚洲精品国产色婷婷电影| 在线观看免费高清a一片| 五月天丁香电影| 久久久久久免费高清国产稀缺| 精品人妻1区二区| 欧美老熟妇乱子伦牲交| 成人亚洲精品一区在线观看| 久久免费观看电影| 日本wwww免费看| av一本久久久久| 菩萨蛮人人尽说江南好唐韦庄| 自拍欧美九色日韩亚洲蝌蚪91| 青青草视频在线视频观看| 午夜福利影视在线免费观看| 建设人人有责人人尽责人人享有的| 午夜免费成人在线视频| 国产精品久久久人人做人人爽| 五月开心婷婷网| 亚洲av日韩在线播放| 在线观看免费午夜福利视频| 亚洲综合色网址| 亚洲 欧美一区二区三区| 免费在线观看视频国产中文字幕亚洲| 久久国产精品影院| 大型黄色视频在线免费观看| 久久国产精品男人的天堂亚洲| 一本一本久久a久久精品综合妖精| 丝袜美腿诱惑在线| 亚洲五月婷婷丁香| 狂野欧美激情性xxxx| 日本av手机在线免费观看| 成年版毛片免费区| 亚洲av成人不卡在线观看播放网| 黄片小视频在线播放| 精品免费久久久久久久清纯 | 老司机影院毛片| 久久性视频一级片| 久久久国产一区二区| 成人精品一区二区免费| 亚洲专区国产一区二区| 国产深夜福利视频在线观看| 亚洲精品一二三| 国内毛片毛片毛片毛片毛片| 精品福利永久在线观看| 后天国语完整版免费观看| 首页视频小说图片口味搜索| 欧美一级毛片孕妇| 亚洲 欧美一区二区三区| 亚洲色图av天堂| av线在线观看网站| 国产一卡二卡三卡精品| 91av网站免费观看| 国产熟女午夜一区二区三区| 亚洲国产中文字幕在线视频| 香蕉久久夜色| 国产深夜福利视频在线观看| 欧美老熟妇乱子伦牲交| 18禁美女被吸乳视频| 操出白浆在线播放| 久久ye,这里只有精品| 超碰成人久久| 国产精品影院久久| 天堂动漫精品| tocl精华| 久久久久精品国产欧美久久久| 免费在线观看视频国产中文字幕亚洲| 欧美日韩亚洲高清精品| kizo精华| 69av精品久久久久久 | 黑人巨大精品欧美一区二区mp4| 一个人免费看片子| 午夜福利,免费看| 日韩人妻精品一区2区三区| 久久精品国产99精品国产亚洲性色 | 日韩欧美三级三区| 99国产精品一区二区蜜桃av | 夜夜夜夜夜久久久久| 亚洲色图综合在线观看| 黄网站色视频无遮挡免费观看| 成年动漫av网址| 天堂中文最新版在线下载| 亚洲人成伊人成综合网2020| 丁香六月欧美| 另类精品久久| 亚洲视频免费观看视频| 久久久久久久久久久久大奶| 日韩大片免费观看网站| 中文字幕高清在线视频| 丝袜在线中文字幕| 人人妻人人爽人人添夜夜欢视频| 国产一区二区三区综合在线观看| 国产黄色免费在线视频| 免费久久久久久久精品成人欧美视频| 成人永久免费在线观看视频 | 亚洲天堂av无毛| 欧美精品av麻豆av| 国产老妇伦熟女老妇高清| 少妇精品久久久久久久| 精品国产乱码久久久久久男人| 可以免费在线观看a视频的电影网站| 国产精品久久久久久精品电影小说| 久久精品熟女亚洲av麻豆精品| 最近最新中文字幕大全免费视频| 国产成人免费观看mmmm| 国产亚洲精品一区二区www | 精品视频人人做人人爽| 国产成人影院久久av| 男女高潮啪啪啪动态图| 亚洲色图av天堂| h视频一区二区三区| 亚洲黑人精品在线| 国产精品免费大片| www日本在线高清视频| 国产精品久久久av美女十八| 香蕉丝袜av| 亚洲免费av在线视频| 中文字幕精品免费在线观看视频| tube8黄色片| 日韩欧美免费精品| 亚洲精品乱久久久久久| 两性午夜刺激爽爽歪歪视频在线观看 | 色尼玛亚洲综合影院| 亚洲欧美精品综合一区二区三区| 国产真人三级小视频在线观看| 国产亚洲精品久久久久5区| 在线av久久热| 香蕉久久夜色| 精品亚洲成a人片在线观看| 国产一区二区三区在线臀色熟女 | 狠狠精品人妻久久久久久综合| 天堂动漫精品| 国产av又大| 青青草视频在线视频观看| 一区二区三区激情视频| 久久久欧美国产精品| a级毛片在线看网站| 久久久精品94久久精品| 亚洲色图av天堂| 欧美午夜高清在线| 汤姆久久久久久久影院中文字幕| 久久ye,这里只有精品| 又紧又爽又黄一区二区| 国产精品国产av在线观看| 一边摸一边抽搐一进一小说 | 黑人欧美特级aaaaaa片| 999精品在线视频| 欧美日本中文国产一区发布| 国产av又大| 国产精品电影一区二区三区 | 每晚都被弄得嗷嗷叫到高潮| 美女高潮到喷水免费观看| 亚洲人成电影免费在线| 久久国产亚洲av麻豆专区| 亚洲精品在线观看二区| 99精国产麻豆久久婷婷| 亚洲成国产人片在线观看| 久久精品亚洲精品国产色婷小说| 精品亚洲成a人片在线观看| 肉色欧美久久久久久久蜜桃| 老司机午夜福利在线观看视频 | 亚洲成人免费av在线播放| 狠狠婷婷综合久久久久久88av| 欧美一级毛片孕妇| 成年版毛片免费区| 国产精品二区激情视频| 操出白浆在线播放| 一本综合久久免费| 国产不卡一卡二| 亚洲一区二区三区欧美精品| 国产aⅴ精品一区二区三区波| 蜜桃国产av成人99| 精品久久久久久久毛片微露脸| 成人国产av品久久久| 久久久久久久国产电影| 在线观看免费视频网站a站| 久久久久久久久久久久大奶| 最新美女视频免费是黄的| 国产亚洲一区二区精品| 乱人伦中国视频| 90打野战视频偷拍视频| 免费人妻精品一区二区三区视频| 熟女少妇亚洲综合色aaa.| 久久国产精品影院| 十八禁网站网址无遮挡| 久久久精品国产亚洲av高清涩受| 精品国产国语对白av| 巨乳人妻的诱惑在线观看| 电影成人av| 久久热在线av| 女人被躁到高潮嗷嗷叫费观| 国产成人精品在线电影| 亚洲精品乱久久久久久| 97人妻天天添夜夜摸| a级片在线免费高清观看视频| 操出白浆在线播放| 一本久久精品| 久热这里只有精品99| 欧美成狂野欧美在线观看| 亚洲成人手机| 久久国产精品男人的天堂亚洲| 1024视频免费在线观看| 精品国产乱子伦一区二区三区| 老熟女久久久| 欧美精品一区二区大全| 9色porny在线观看| www.自偷自拍.com| 亚洲精品中文字幕一二三四区 | 国产精品久久久av美女十八| 亚洲精华国产精华精| 久久99热这里只频精品6学生| 国产在线一区二区三区精| 在线看a的网站| 国产日韩一区二区三区精品不卡| 欧美日韩亚洲高清精品| 精品国产一区二区三区久久久樱花| 一级片'在线观看视频| 欧美精品亚洲一区二区| 国产午夜精品久久久久久| 久久精品国产99精品国产亚洲性色 | 久久亚洲真实| 免费在线观看日本一区| 极品少妇高潮喷水抽搐| 亚洲人成电影观看| 亚洲午夜理论影院| 考比视频在线观看| 日本一区二区免费在线视频| 不卡av一区二区三区| 亚洲精品粉嫩美女一区| 婷婷丁香在线五月| 日本五十路高清| 久久九九热精品免费| 一区二区三区乱码不卡18| kizo精华| 色婷婷av一区二区三区视频| 亚洲欧美日韩另类电影网站| 日韩熟女老妇一区二区性免费视频| 婷婷丁香在线五月| 亚洲av成人不卡在线观看播放网| 我的亚洲天堂| 人妻久久中文字幕网| 精品少妇一区二区三区视频日本电影| 久久久久精品人妻al黑| 首页视频小说图片口味搜索| 国产精品一区二区精品视频观看| 91精品三级在线观看| 夜夜夜夜夜久久久久| 一边摸一边做爽爽视频免费| 亚洲精品国产精品久久久不卡| 少妇的丰满在线观看| 水蜜桃什么品种好| 女人久久www免费人成看片| 18禁裸乳无遮挡动漫免费视频| 老司机在亚洲福利影院| 19禁男女啪啪无遮挡网站| 精品午夜福利视频在线观看一区 | 国产xxxxx性猛交| 国产黄色免费在线视频| 国产aⅴ精品一区二区三区波| 日本五十路高清| 啪啪无遮挡十八禁网站| 国产99久久九九免费精品| 啦啦啦免费观看视频1| av超薄肉色丝袜交足视频| 日本av手机在线免费观看| 老熟女久久久| 男女边摸边吃奶| 免费在线观看日本一区| 亚洲国产看品久久| 国产欧美日韩综合在线一区二区| 美女国产高潮福利片在线看| 国产欧美亚洲国产| √禁漫天堂资源中文www| 乱人伦中国视频| 国产精品偷伦视频观看了| 亚洲av片天天在线观看| 久久狼人影院| 午夜老司机福利片| 亚洲精品成人av观看孕妇| 俄罗斯特黄特色一大片| 色综合欧美亚洲国产小说| 纯流量卡能插随身wifi吗| 色精品久久人妻99蜜桃| 欧美日韩国产mv在线观看视频| 久久久欧美国产精品| 国产一区二区在线观看av| 欧美国产精品va在线观看不卡| 精品国产一区二区三区四区第35| 久久久国产精品麻豆| 成人三级做爰电影| 99久久人妻综合| 嫁个100分男人电影在线观看| 女性被躁到高潮视频| 黑丝袜美女国产一区| 国产aⅴ精品一区二区三区波| 国产在线观看jvid| 人人妻人人澡人人看| 国产亚洲av高清不卡| 亚洲av日韩在线播放| 久久 成人 亚洲| 欧美激情 高清一区二区三区| 亚洲国产欧美在线一区| 自线自在国产av| 后天国语完整版免费观看| 国产精品一区二区精品视频观看| 久久人妻福利社区极品人妻图片| 啦啦啦中文免费视频观看日本| 久久毛片免费看一区二区三区| 少妇的丰满在线观看| 老熟女久久久| 国产熟女午夜一区二区三区| 亚洲专区国产一区二区| 日韩视频一区二区在线观看| 窝窝影院91人妻| 亚洲男人天堂网一区| 成人18禁在线播放| 国产又色又爽无遮挡免费看| 成人国产av品久久久| 91成年电影在线观看| 脱女人内裤的视频| 国产一卡二卡三卡精品| 国产亚洲午夜精品一区二区久久| 天天躁狠狠躁夜夜躁狠狠躁| 国产精品秋霞免费鲁丝片| 成人av一区二区三区在线看| 一区二区三区精品91| 精品少妇一区二区三区视频日本电影| 大型av网站在线播放| 我要看黄色一级片免费的| 人人妻人人澡人人爽人人夜夜| 脱女人内裤的视频| 久久毛片免费看一区二区三区| 夫妻午夜视频| 午夜福利视频在线观看免费| 老司机福利观看| 久久久精品免费免费高清| 伦理电影免费视频| 国产一卡二卡三卡精品| 亚洲精品久久午夜乱码| 成人亚洲精品一区在线观看| 精品久久久精品久久久| 国产亚洲精品久久久久5区| 激情在线观看视频在线高清 | 国产精品自产拍在线观看55亚洲 | 久久 成人 亚洲| 成年人免费黄色播放视频| 高潮久久久久久久久久久不卡| 久久av网站| 亚洲欧美日韩高清在线视频 | 成人三级做爰电影| 美女午夜性视频免费| 亚洲第一欧美日韩一区二区三区 | 国产成人精品在线电影| 少妇猛男粗大的猛烈进出视频| 99在线人妻在线中文字幕 | 国产在线精品亚洲第一网站| av视频免费观看在线观看| 欧美日韩一级在线毛片| 美女视频免费永久观看网站| 日韩大码丰满熟妇| 啦啦啦在线免费观看视频4| 99精品欧美一区二区三区四区| 老司机福利观看| 国产精品香港三级国产av潘金莲| 久久久久国产一级毛片高清牌| 精品国产一区二区三区四区第35| 国产区一区二久久| 国产精品久久久久久精品电影小说| 91精品三级在线观看| 亚洲国产av新网站| 国产精品久久久久久精品电影小说| 国内毛片毛片毛片毛片毛片| 黄色毛片三级朝国网站| 亚洲精品美女久久久久99蜜臀| 正在播放国产对白刺激| 午夜福利欧美成人| 婷婷成人精品国产| 日韩欧美一区视频在线观看| 国产精品免费大片| 丝袜喷水一区| 久久久久视频综合| 在线观看人妻少妇| 国产精品秋霞免费鲁丝片| 两性午夜刺激爽爽歪歪视频在线观看 | 99国产精品一区二区三区| 亚洲av电影在线进入| 亚洲天堂av无毛| 久久久久久人人人人人| 亚洲国产av新网站| 亚洲少妇的诱惑av| 亚洲免费av在线视频| 国产一区有黄有色的免费视频| 大片电影免费在线观看免费| 久久亚洲精品不卡| 欧美精品av麻豆av| 五月开心婷婷网| 99九九在线精品视频| 久久人妻福利社区极品人妻图片| 亚洲自偷自拍图片 自拍| 久久精品国产亚洲av高清一级| 欧美日韩精品网址| 日韩大码丰满熟妇| 国产日韩欧美视频二区| 久久午夜亚洲精品久久| 亚洲国产欧美日韩在线播放| 无人区码免费观看不卡 | bbb黄色大片| 新久久久久国产一级毛片| 精品午夜福利视频在线观看一区 |