• <tr id="yyy80"></tr>
  • <sup id="yyy80"></sup>
  • <tfoot id="yyy80"><noscript id="yyy80"></noscript></tfoot>
  • 99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看 ?

    基于CLIP的視頻時刻檢索預(yù)訓(xùn)練模型

    2024-12-30 00:00:00繆翌張衛(wèi)鋒徐領(lǐng)
    計算機應(yīng)用研究 2024年12期
    關(guān)鍵詞:多模態(tài)圖像

    摘 要:視頻時刻檢索作為下游任務(wù),依賴預(yù)訓(xùn)練模型提取特征的能力。近年的研究表明,以CLIP為代表的圖像-語言預(yù)訓(xùn)練模型在大規(guī)模數(shù)據(jù)集下能學(xué)習(xí)到有效且通用的語義知識,從而在圖像分類等任務(wù)上表現(xiàn)出強大的遷移能力和零樣本能力。然而其遷移到視頻時刻檢索任務(wù)仍效果不佳。為解決上述難題,提出了視頻時刻檢索網(wǎng)絡(luò)VMRNet,該網(wǎng)絡(luò)以CLIP預(yù)訓(xùn)練模型為骨干,并設(shè)計了用于增強CLIP模型時序建模能力和跨模態(tài)交互能力的視頻時序增強模塊VTEMo。該模塊采用旁路層級結(jié)構(gòu),引入查詢文本引導(dǎo)的視覺提示,引導(dǎo)視覺編碼器學(xué)習(xí)當(dāng)前查詢?nèi)蝿?wù)關(guān)注的視覺信息和時序信息。在QVHighlights、Charades-STA等常用數(shù)據(jù)集上進行了驗證實驗,VMRNet的R1@0.5指標在兩個數(shù)據(jù)集上分別提高0.83和1.27,模型總體性能優(yōu)于其他代表性的模型。實驗結(jié)果充分表明,提出的VTEMo可在查詢文本引導(dǎo)下有效學(xué)習(xí)視頻視覺特征和時序特征,VMRNet結(jié)合VTEMo可在視頻時刻檢索任務(wù)上獲得更為優(yōu)秀的表現(xiàn)。

    關(guān)鍵詞:多模態(tài);視頻時刻檢索;圖像-語言預(yù)訓(xùn)練模型;參數(shù)微調(diào)

    中圖分類號:TP391"" 文獻標志碼:A

    文章編號:1001-3695(2024)12-046-3866-07

    doi: 10.19734/j.issn.1001-3695.2024.01.0065

    Pre-training model for video moment retrieval based on CLIP

    Miao Yi1, Zhang Weifeng1,2, Xu Ling1

    (1.School of Computer Science amp; Technology (School of Artificial Intelligence)," Zhejiang Sci-Tech University," Hangzhou 310000, China; 2. School of Information Science amp; Engineering, Jiaxing University, Jiaxing Zhejiang 314000, China)

    Abstract:Video moment retrieval as a downstream task relies on the ability of pre trained models to extract features. Recent studies have shown that image-language pre-training models represented by CLIP (comparative language-image pre-training) have learned effective and universal semantic knowledge on large-scale datasets, thus demonstrating strong transfer and zero-shot capabilities in tasks such as image classification. However, its transfer to video retrieval tasks still yields poor results. This paper proposed a video moment retrieval network (VMRNet) to solve the above problem’s. It was based on CLIP pre-trained models with a video temporal enhancement module (VTEMo) to enhance the CLIP model’s temporal modeling ability and cross-modal interaction ability. VTEMo adopted a bypass hierarchical structure and introduced visual prompts guided by query text to guide the visual encoder to learn the current query task concerned visual and temporal information. Conducting validation experiments on commonly used datasets such as QVHighlights and Charades STA, VMRNet’s R1@0.5 metric increased by 0.83 and 1.27 on the two datasets respectively, demonstrating its overall performance superiority over other representative models. The experimental results fully demonstrate that the proposed VTEMo can effectively learn video visual and temporal features under the guidance of query text and VMRNet combined with VTEMo can achieve better performance in video temporal retrieval tasks.

    Key words:multimodal; video moment retrieval; image-language pre-training model; efficient parameter fine-tuning

    0 引言

    視頻時刻檢索任務(wù)為視頻領(lǐng)域下的多模態(tài)任務(wù),對其任務(wù)的研究不僅有巨大的學(xué)術(shù)價值,同樣具有巨大的應(yīng)用價值,如視頻推薦、人機交互、監(jiān)控安防[1]。視頻時刻檢索旨在根據(jù)用戶給定的查詢信息,在大規(guī)模的視頻集合中準確地定位和檢索出與查詢相關(guān)的視頻片段,其實現(xiàn)過程可分為特征提取和特征融合兩個階段。其中特征提取通過預(yù)訓(xùn)練模型提取多模態(tài)特征,特征融合階段實現(xiàn)跨模態(tài)特征交互和融合。目前主流的多模態(tài)方法[2~4]注重特征融合階段,通過對不同模態(tài)的特征建模增強跨模態(tài)交互能力與特征融合能力。然而,這種兩階段訓(xùn)練方式僅在下游進行建模,相對端到端訓(xùn)練方式較弱,且依賴預(yù)訓(xùn)練模型提取特征的能力。特征提取階段,主流的預(yù)訓(xùn)練模型側(cè)重圖像-語言特征提取,針對視頻-語言建模能力較弱。相對圖像-語言特征提取,視頻-語言特征提取核心挑戰(zhàn)在于賦予模型對視頻幀之間時序關(guān)系建模的能力,從而提取與查詢文本匹配的關(guān)鍵視覺信息和時序信息。

    圖像-語言預(yù)訓(xùn)練模型是目前跨模態(tài)智能領(lǐng)域的研究熱點和主流方案,得到了廣泛關(guān)注。其中,以CLIP[5]為代表的模型基于大規(guī)模的圖像和文本數(shù)據(jù)集進行預(yù)訓(xùn)練,可以有效學(xué)習(xí)到視覺和語言之間復(fù)雜的交互關(guān)系,且可廣泛適用于其他多模態(tài)任務(wù)。視頻的信息表達方式與視覺相似,同樣需要一種類似的預(yù)訓(xùn)練模型解決下游視頻任務(wù)。然而,受限于海量的視頻-語言對數(shù)據(jù)收集困難、視頻處理所需計算資源巨大等原因,訓(xùn)練一個類似CLIP的視頻-語言預(yù)訓(xùn)練模型非常困難。因此,近年來多項工作[6~8]嘗試將CLIP中的圖像視覺知識遷移到視頻領(lǐng)域,并構(gòu)建一個新的基礎(chǔ)模型以適應(yīng)CLIP的視頻輸出特征。然而,圖像-語言預(yù)訓(xùn)練模型關(guān)注圖像內(nèi)部的語義信息,生成高層次的空間特征無法直接作為視頻特征的輸入。而直接運用預(yù)訓(xùn)練模型的方式受限于預(yù)訓(xùn)練模型原本的特征輸出,難以挖掘視頻的時序特征。

    CLIP不同層之間的特征差異可用于獲取視頻層級之間的特征表示,在進行下游任務(wù)適應(yīng)時,一種早期的方法[9,10]是通過全量訓(xùn)練CLIP模型來實現(xiàn),如圖1(a)所示。然而,這種方法存在兩個主要問題:a)全量訓(xùn)練CLIP模型的代價非常巨大,需要大量的計算資源和時間;b)對CLIP模型內(nèi)部層進行修改可能會破壞模型所具有的先驗知識。因此,在選擇適應(yīng)下游任務(wù)的方法時,需要考慮這些問題以及可能的解決方案。已經(jīng)有研究將 CLIP成功遷移到視頻領(lǐng)域并取得了顯著成果,但這些研究僅僅基于單模態(tài)結(jié)構(gòu)進行了調(diào)整,如圖1(b)所示?;诜种У慕Y(jié)構(gòu)[11],在CLIP視覺層之外引入一個多層分支網(wǎng)絡(luò),在不影響CLIP本身前向傳播的情況下,利用高層和低層知識增強視頻幀的特征。然而這種單模態(tài)方式學(xué)習(xí)的特征有限,無法在其他模態(tài)引導(dǎo)下有效學(xué)習(xí)當(dāng)前任務(wù)所需的視頻特征。

    視頻時刻檢索任務(wù)除視頻模態(tài)外,還存在文本模態(tài)作為查詢方式,將CLIP文本層知識與分支網(wǎng)絡(luò)結(jié)合是更為優(yōu)先且合理的選擇。ALBEF(align before fuse)[12]證明文本只需較小的網(wǎng)絡(luò)結(jié)構(gòu)就能挖掘到有效的特征,而視覺與多模態(tài)的交互需要更復(fù)雜的網(wǎng)絡(luò)挖掘和融合特征?;诖?,本文遷移預(yù)訓(xùn)練模型于視頻時刻檢索任務(wù)并增強多模態(tài)交互能力,提出視頻時序增強模塊(video temporal enhancement module,VTEMo),如圖1(c)所示。VTEMo采用旁路層級結(jié)構(gòu),通過提取CLIP不同層的視頻特征,實現(xiàn)對不同層級的視頻時序特征的獲取,而無須增加網(wǎng)絡(luò)的深度,有效地提升模塊提取時序語義特征的能力。VTEMo與ALBEF的交互方式不同,其側(cè)重于提取視頻分支并將文本作為提示進行引導(dǎo),以提高模塊在視頻特征提取方面的能力。同時,VTEMo凍結(jié)已有的預(yù)訓(xùn)練模型參數(shù),能夠保留CLIP層原有的空間語義特征,只需關(guān)注視頻的時序建模能力,保留模塊性能的同時,其本身結(jié)構(gòu)也相對簡潔。最后, VTEMo模態(tài)間的交互方式通用于其他模態(tài),使其可以遷移到其他多模態(tài)任務(wù)中。

    本文主要有以下三點貢獻:a)審視圖像-語言預(yù)訓(xùn)練模型與視頻時刻檢索任務(wù)的內(nèi)在聯(lián)系,發(fā)現(xiàn)核心挑戰(zhàn)在于引入多模態(tài)特征賦予模型對視頻幀之間的時序關(guān)系建模與多模態(tài)特征匹配的能力;b)提出VTEMo,以有限的計算量為代價,有效提高模型的性能,其通用的架構(gòu)使得預(yù)訓(xùn)練模型可以遷移到其他多模態(tài)任務(wù)中;c)與基線方法相比,所提方法在視頻時刻檢索任務(wù)上取得了具有競爭力的結(jié)果。

    1 相關(guān)工作

    1.1 多模態(tài)預(yù)訓(xùn)練

    主流的多模態(tài)方法[13~16]都可歸類為雙塔模型,通過兩個獨立的神經(jīng)網(wǎng)絡(luò)處理不同的輸入模態(tài),并通過融合這兩個模態(tài)的表示來完成任務(wù)。過去工作以傳統(tǒng)的神經(jīng)網(wǎng)絡(luò)架構(gòu)[17,18]提取視覺特征,這使得模塊復(fù)雜且效果不好。ViT(vision Transformer)[19]將Transformer[20]遷移到視覺領(lǐng)域,簡化模型架構(gòu)的同時增強了視覺特征提取能力。最近工作旨在用大規(guī)模圖像-語言數(shù)據(jù)集參與訓(xùn)練的方式提取特征。CLIP[5]是一項卓越的研究成果,展示了令人驚嘆的零樣本識別和泛化能力,相應(yīng)地推動了預(yù)訓(xùn)練模型遷移圖像領(lǐng)域任務(wù)的發(fā)展。Lseg(language-driven semantic segmentation)[21]、ViLD(vision and language knowledge distillation)[22]和CLIPasso[23]等模型在圖像分割、檢測和生成等領(lǐng)域都取得了顯著的進展。然而,上述模型都屬于圖像-語言模型,視頻-語言模型的研究進展相對較為緩慢。對于視頻和文本之間的關(guān)聯(lián)性建模,仍然存在挑戰(zhàn)和待解決的問題。

    早期遷移CLIP到視頻領(lǐng)域的方法[10,24]是將視頻的每一幀分割成相同大小的小塊,以時間或空間維度串聯(lián)各幀的所有小塊,以實現(xiàn)視頻與圖像輸入維度的一致,但重新預(yù)訓(xùn)練的方式?jīng)]有有效利用圖像-語言預(yù)訓(xùn)練模型的知識,且視頻數(shù)據(jù)量遠遠超過圖像數(shù)據(jù),這極大地增加了預(yù)訓(xùn)練模型的計算負荷,無法適用于其他任務(wù)。CLIP4CLIP[8]以序列化的方式進行大規(guī)模視頻-語言數(shù)據(jù)集的后預(yù)訓(xùn)練,并采用均值池化機制壓縮視頻特征,這種方式?jīng)]有學(xué)習(xí)到視頻幀之間的低層次特征表征,且依賴于圖像-語言預(yù)訓(xùn)練模型原本的知識。參數(shù)高效微調(diào)(parameter-efficient fine-tuning,PEFT)的方法開始被引入到多模態(tài)預(yù)訓(xùn)練模型,時空輔助網(wǎng)絡(luò)(spatial-temporal auxiliary network,STAN)[11]將其作為調(diào)諧適配器(adapter tuning),用于在不干擾主干網(wǎng)絡(luò)的情況下提取時空特征。然而,該模型只關(guān)注視頻特征,將文本作為多模態(tài)特征可以更有效地挖掘視頻的時空特征。本文策略保持了主干網(wǎng)絡(luò)的空間特征,使Adapter專注時序特征的提取,同時引入文本作為調(diào)諧提示(prompt tu-ning),通過多模態(tài)特征提升模型時序特征提取的能力。

    1.2 視頻時刻檢索

    視頻時刻檢索任務(wù)是多模態(tài)領(lǐng)域下的分支課題,為了提高系統(tǒng)的檢索性能,主流方法是先提取多模態(tài)預(yù)訓(xùn)練特征,然后在下游任務(wù)中對這些特征進行建模,以增強多模態(tài)交互的能力。從現(xiàn)有研究中觀察到主要有傳統(tǒng)預(yù)訓(xùn)練和大模型預(yù)訓(xùn)練兩種預(yù)訓(xùn)練方式實現(xiàn)視頻時刻檢索任務(wù)。早期采用傳統(tǒng)預(yù)訓(xùn)練[25~28]的方式,以CNN[17]或RNN[18]為基礎(chǔ)架構(gòu)的網(wǎng)絡(luò)提取特征,訓(xùn)練效果不好。目前流行的方法采用以C3D(convolutional 3D)[29]、I3D(inflated 3D)[30]、SlowFast[31]、Transformer[20]等為基礎(chǔ)架構(gòu)的模型預(yù)訓(xùn)練特征[2~4,32~34],基于已有預(yù)訓(xùn)練知識設(shè)計模型進行多模態(tài)特征融合。由于沒有成熟的視頻-語言預(yù)訓(xùn)練模型,圖像-語言預(yù)訓(xùn)練模型成為通用的替代方式。這種方式存在以下兩個問題:a)視頻模態(tài)的建模相比圖像應(yīng)該更加復(fù)雜,圖像-語言預(yù)訓(xùn)練模型難以提取視頻時序特征;b)采用兩階段訓(xùn)練方式僅在下游模型進行調(diào)整,其效果相對于端到端的訓(xùn)練方式而言較弱。基于圖像-語言多模態(tài)建模的工作[14,16,35]證明圖像模態(tài)需要更復(fù)雜的網(wǎng)絡(luò)才能獲取與文本對齊的特征,便于后續(xù)的模態(tài)融合。本文將該理念引入視頻領(lǐng)域,提出方法注重視頻模態(tài)的建模,在模態(tài)交互前融入其他模態(tài)的特征,增強了視頻模態(tài)提取特征的能力。同時,與前述方法不同,本文關(guān)注點在于預(yù)訓(xùn)練過程,并將傳統(tǒng)的兩階段訓(xùn)練方式轉(zhuǎn)變?yōu)槎说蕉擞?xùn)練方式。

    2 方法

    本文提出的VMRNet主要包括視頻-語言特征提取部分與視頻時刻檢索兩個部分,總體框架如圖2(a)所示。其中,視頻-語言特征提取部分包括CLIP[5]基礎(chǔ)架構(gòu)和所提VTEMo。VTRMo為一種基于Transformer[20]的層級架構(gòu),作為CLIP視覺編碼器的旁路,賦予模塊時序建模的能力,通過文本提示引導(dǎo)模塊提取關(guān)鍵視頻特征。視頻時刻檢索部分以編碼器-解碼器為基礎(chǔ)架構(gòu),時空特征融合模塊融合分離的時空特征,并在視頻-語言特征編碼器對文本進行編碼,編碼后的特征在視頻文本特征編碼器對融合的時空特征進行解碼,得到與文本匹配的視頻幀信息。

    2.1 概述

    視頻時刻檢索任務(wù)根據(jù)用戶輸入的由Nq個詞構(gòu)成的查詢文本Q,從給定的視頻V(該視頻包含Nv個不重疊的視頻片段,每個視頻片段時長為等長的t秒)中自動定位與查詢文本語義匹配的視頻片段。目前主流的方法[2~4,32~34]將該任務(wù)分成特征提取與特征融合兩個階段,其中特征提取對視頻和文本等不同模態(tài)的特征通過編碼器編碼,特征融合對跨模態(tài)的特征進行交互,獲得融合模態(tài)的特征,將其作為后續(xù)預(yù)測的輸入定位視頻片段的開始和結(jié)束時刻。該任務(wù)的核心和難點在于算法模型需要抽取和融合視頻中每一幀的語義信息和視頻幀序列之間的時序信息,并與查詢文本進行跨模態(tài)對齊。目前主流工作廣泛使用預(yù)訓(xùn)練的CLIP圖像編碼器提取視頻特征,在視頻特征抽取階段往往缺乏查詢文本的引導(dǎo),缺乏跨模態(tài)交互能力,無法準確捕獲當(dāng)前任務(wù)所需的視頻特征。

    為了緩解上述問題,本文提出了一種新的視頻時刻檢索模型VMRNet。如圖2(a)所示,該模型主要包括以下兩個階段:

    a)特征提取階段。本文引入CLIP視覺和文本編碼器,其中文本編碼器輸出特征可直接作為文本模態(tài)特征,視覺編碼器輸出作為視頻空間特征,與VTEMo輸出的視頻時序特征拼接,得到視頻模態(tài)特征。

    b)特征融合與解碼預(yù)測階段。本文參考Transformer編碼器-解碼器架構(gòu),將跨模態(tài)特征作為不同的查詢鍵值對。其中時空特征融合模塊為編碼器,通過自注意力計算融合分離的時空特征,得到完整的視頻模態(tài)特征。后續(xù)的編碼器-解碼器架構(gòu)通過視頻特征對文本特征編碼,使得文本特征獲取視頻特征的相關(guān)表示,將獲取的關(guān)聯(lián)性特征對原視頻特征解碼,得到最終預(yù)測特征向量,具體公式如下:

    P=softmax(Z′WQ(AWK)T/D)(AWV)+Z′(1)

    其中:Z′為融合的視頻時空特征向量;A為文本特征向量;D為兩者相同的特征維度;WQ、WK、WV分別為查詢、鍵和值的權(quán)重參數(shù);P為最終的預(yù)測特征向量。

    2.2 視頻-語言特征提取

    2.2.1 CLIP

    CLIP使用兩個編碼器構(gòu)建,一個用于圖像,另一個用于文本。圖像編碼器由12層ViT[19]堆疊組成,用于將圖像轉(zhuǎn)換為圖像特征向量。文本編碼器由12層標準的Transformer堆疊組成,用于將詞嵌入特征轉(zhuǎn)換為文本特征向量。訓(xùn)練過程中采用對比損失學(xué)習(xí)的方式,計算圖像特征向量與文本特征向量的余弦相似度。最大化圖像與匹配文本的余弦相似度,同時最小化圖像與其他不匹配文本的余弦相似度。本文僅提取CLIP編碼器部分,將視覺編碼器與文本編碼器獲得特征作為VTEMo輸入,得到視頻編碼特征。

    2.3 視頻時刻檢索

    2.3.1 時空特征融合模塊

    時序特征{vn}Nvn=1與空間特征{in}Nvn=1拼接后得到融合特征{zn}Nvn=1。拼接后的融合特征時空權(quán)重分布分散,只關(guān)注局部的時空相關(guān)性,而沒有關(guān)注到全局的時空信息,需要融合時空信息以得到更自然的時空特征表示。時空特征融合模塊采用線性映射壓縮時空特征信息,通過單層Transformer編碼器進行特征提取,使每個視頻幀融合時空特征的同時獲取到全局的幀間信息,得到更合理的時空特征融合表示{z′n}Nvn=1,具體公式如下:

    z′=FFN(MSA(z))+z(16)

    2.3.2 視頻-語言特征編碼器

    視頻時刻檢索任務(wù)需要交互視頻-語言特征,與視頻定長的特征維度不同,文本由于其序列長度不定,難以直接與視頻交互計算。視頻-語言特征編碼器通過更改自注意力的輸入,增加序列掩碼將不同序列長度的文本映射到同一維度的特征空間中。通過單層Transformer編碼器,將文本作為鍵和值以對查詢視頻進行編碼,使其關(guān)聯(lián)文本和視頻特征,得到各視頻幀與文本的關(guān)聯(lián)關(guān)系{an}Nvn=1,為后續(xù)的解碼器提供特征,具體公式如下:

    a=FFN(MSA(z′,q))+z′(17)

    2.3.3 視頻-語言特征解碼器

    視頻-語言特征解碼器遵循編碼器-解碼器的結(jié)構(gòu),通過視頻與文本關(guān)聯(lián)特征對原視頻時空特征進行解碼。解碼器采用多層Transformer編碼器堆疊的方式,各層解碼器輸出序列與編碼器輸入序列相同,使其得到與編碼器對齊的視頻特征。通過堆疊的方式,增強解碼器的解碼能力,得到視頻幀信息的解碼特征{pn}Nvn=1,單層解碼器公式如下:

    p=FFN(MSA(a,z′))+a(18)

    2.3.4 預(yù)測頭與損失函數(shù)

    由于所需視頻時刻存在起止點、長度等不同維度的特征,可將其拆分成不同屬性的特征聯(lián)合表示。解碼特征經(jīng)過不同的線性映射得到3份不同維度的特征序列,分別為窗口中心{cn}Nvn=1、中心偏移{on}Nvn=1和窗口大小{wn}Nvn=1。窗口中心為各幀作為窗口中心的置信度,訓(xùn)練過程中,采用局部高斯損失[36],給定每個窗口一個可接受的誤差區(qū)間,使得模型在預(yù)測上具有一定的彈性,同時加速誤差區(qū)間范圍外的窗口中心的收斂速度。給定的高斯損失如下:

    Euclid Math OneLApw=-1Nv∑n(1-c^n)αln c^n+(1-cn)γc^nln(1-c^n)(19)

    在時刻n下,cn為0或1的標簽,表示該時刻是否為真實中心,c^n為預(yù)測中心置信度,α、γ分別為預(yù)測中心和真實值的不同權(quán)重指數(shù)。對于已存在的誤差,結(jié)合下采樣帶來的間隔誤差,提出中心偏移以微調(diào)窗口中心的位置,中心偏移、窗口大小與窗口中心對應(yīng),分別表示對應(yīng)時刻窗口中心的偏移量與窗口大小。兩者均使用L1損失優(yōu)化:

    在時刻n下,on、o^n為該時刻的真實偏移和預(yù)測偏移,wn、w^n為該時刻的真實窗口大小與預(yù)測窗口大小。由預(yù)測參數(shù)得到預(yù)測視頻時刻真實范圍為[c~+o~-w~/2,c~+o~+w~/2]。c~、o~、w~分別為最大中心置信度所在時刻與對應(yīng)的中心偏移和窗口大小。

    3 實驗結(jié)果與分析

    3.1 前置工作

    3.1.1 數(shù)據(jù)集

    本文在QVHighlights[32]和Charades-STA[37]兩個熱門的數(shù)據(jù)集上進行實驗視頻時刻檢索任務(wù)的實驗。本文遵循原始的QVHighlights和Charades-STA數(shù)據(jù)分割方式進行實驗。

    QVHighlights是最近提出的一個數(shù)據(jù)集,其范圍涵蓋了廣泛的主題,包括日常活動和旅行的生活方式視頻,以及社會和政治活動的新聞視頻。該數(shù)據(jù)集由10 148個裁剪后的視頻組成,每個視頻的長度為128~150 s,并被分割成多個不重疊的2 s時刻片段。每個視頻都標注了至少一個描述與其相關(guān)的時刻的文本。每個文本描述對應(yīng)著若干個不相交的時刻片段。整個數(shù)據(jù)集共包含10 310個查詢和18 367個被標記的時刻片段。

    Charades-STA是一個旨在研究日常人類活動的非結(jié)構(gòu)化視頻活動識別和常識推理的數(shù)據(jù)集。該數(shù)據(jù)集包含9 848個室內(nèi)活動的視頻樣本,針對267個不同的用戶進行展示。每個樣本都以句子的形式呈現(xiàn)給用戶,句子中包括了來自固定詞匯表的對象和動作。用戶根據(jù)句子所描述的內(nèi)容,通過演繹相關(guān)視頻內(nèi)容來完成任務(wù)。該數(shù)據(jù)集包含了66 500個時間注釋,涵蓋了157個動作類別,以及41 104個標簽,涵蓋了46個物體類別。此外,數(shù)據(jù)集還提供了27 847個視頻的文本描述。

    3.1.2 評價指標

    本文沿用現(xiàn)有工作使用的評價指標。對于QVHighlights數(shù)據(jù)集,使用交并比(IoU)閾值為0.5和0.7的第一個結(jié)果的召回率(recall@1),IoU閾值為0.5和0.75的平均精度(mean average precision, mAP)和以[0.50.050.95],序列作為IoU閾值所得mAP的平均值(mAP@0.50.95),用于評估實驗結(jié)果。對于Charades-STA數(shù)據(jù)集,以IoU閾值0.5和0.7為界,使用第一個結(jié)果和前五個結(jié)果的召回率(recall@5)。相關(guān)計算公式如下:

    其中:TP、FP、FN分別為預(yù)測正確的正類數(shù)、預(yù)測錯誤的正類數(shù)、預(yù)測錯誤的負類數(shù);P、R分別為精確率和召回率;i為mAP閾值索引;N為IoU閾值到1之間的采樣數(shù);Δi為平均采樣間隔。

    3.1.3 實驗參數(shù)

    CLIP[5]使用ViT-B/32模型,該模型和預(yù)訓(xùn)練參數(shù)來自于Hugging Face官網(wǎng)。在文本方面,設(shè)置了截斷長度為32。VTEMo內(nèi)部MSA層隱藏維度為512,融合模塊和編碼器-解碼器MSA層隱藏維度為256,其中解碼器設(shè)置3層。在訓(xùn)練過程中,采用了學(xué)習(xí)率為1E-3、權(quán)重衰減為1E-4的Adam優(yōu)化器。對于QVHighlights數(shù)據(jù)集,采用2 s一幀的下采樣,設(shè)置32的batch size的和150迭代次數(shù)。對于Charades-STA數(shù)據(jù)集,采用0.2 s一幀的下采樣,設(shè)置8的batch size和100的迭代次數(shù)。

    3.2 實驗結(jié)果

    將本文VMRNet與基線方法結(jié)合,首先在QVHighlights上評估模型,并與現(xiàn)有工作對比,結(jié)果如表1所示,最優(yōu)的識別結(jié)果以粗體標記,其中w/PT表示引入ASR字幕后預(yù)訓(xùn)練結(jié)果。CAL、XML使用傳統(tǒng)預(yù)訓(xùn)練模型提取特征,Moment-DERT、UMT、UniVTG、QD-DETR使用CLIP提取特征。VMRNet大多數(shù)條件下優(yōu)于現(xiàn)有基線模型,在使用ASR字幕預(yù)訓(xùn)練的結(jié)果下,VMRNet在IoU閾值為0.5和0.7的條件下達到了63.23%和46.19%的召回率,IoU閾值為0.75的mAP達到了38.93%。IoU閾值為0.5的mAP表現(xiàn)不佳,可能由于損失函數(shù)更加強調(diào)提高預(yù)測時間與真實時間的重疊程度,而略微忽略時間重疊的覆蓋率。圖3給出了本文方法與UMT在QVHighlights上的對比結(jié)果。相比直接使用CLIP提取特征的模型,VMRNet有較好的時序建模能力,可以過濾視頻幀時序性噪聲,實現(xiàn)更精準的預(yù)測。Charades-STA上與現(xiàn)有工作的對比評估結(jié)果如表2所示,最優(yōu)的識別結(jié)果以粗體標記,其中w/PT表示引入ASR字幕后的預(yù)訓(xùn)練結(jié)果。VTEMo在大多數(shù)情況下優(yōu)于基線模型,對于在IoU閾值為0.5的條件下,VMRNet的第一項結(jié)果達到50.11%的召回率,第五項結(jié)果達到89.46%的召回率,優(yōu)于之前的基線模型?,F(xiàn)有方法直接使用預(yù)訓(xùn)練模型提取特征,無法得到視頻的時序特征,僅使用空間特征難以對齊文本。相比之下,VMRNet通過文本引導(dǎo)模型,可以提取視頻中關(guān)鍵的時序特征,同時得到與文本對齊的特征向量。

    3.3 消融實驗

    為驗證不同組件的有效性,以ASR字幕預(yù)訓(xùn)練為前提進行消融實驗,測試各組件的有效程度。

    3.3.1 VTEMo初始化層數(shù)消融實驗

    VTEMo為CLIP骨干網(wǎng)絡(luò)旁的分支網(wǎng)絡(luò),它將CLIP視覺層不同層的視覺表示作為輸入。為驗證不同層級的視覺特征對時序建模能力的影響,增加文本提示,對VTEMo層數(shù)進行了不同的初始化設(shè)置,并測試其效果,實驗結(jié)果如表3所示。其中a為最原始的模型,不使用VTEMo模塊,b、c、d分別為VTEMo初始化1層、2層、3層的模型。與直觀的結(jié)果不同,模型在1層的時候性能達到峰值,隨著VTEMo初始化層數(shù)增加,模型性能緩慢下降。CLIP高層次的視覺語義特征足夠優(yōu)秀,可以直接遷移到其他下游任務(wù)進行訓(xùn)練,而低層次的視覺特征可能并沒有學(xué)到足夠的視覺知識,將低層次的特征作為VTEMo的輸入可能會干擾模型提取時序特征的能力,但對該任務(wù)而言,增加VTEMo模塊的性能要優(yōu)于原模型。

    3.3.2 文本提示組件消融實驗

    為驗證文本提示的有效性,將VTEMo內(nèi)部層數(shù)設(shè)置為1層,進行了增加文本提示與取消文本提示兩組實驗,實驗結(jié)果如表4所示。其中e為不使用文本提示的模塊,f為使用文本提示的模塊。實驗結(jié)果可知,將文本引入VTEMo并將其作為提示,能有效對齊視頻時序特征與文本特征,增強模塊根據(jù)文本查詢相關(guān)視頻幀的能力,從而獲取與文本關(guān)聯(lián)性更高的視頻幀信息。文本提示的方式能有效增強模塊提取視頻時序特征表示,相比單模態(tài),多模態(tài)的學(xué)習(xí)可以使模塊捕獲更多有用的信息。

    4 結(jié)束語

    本文研究了CLIP預(yù)訓(xùn)練模型遷移到視頻時刻的檢索任務(wù)。首先,發(fā)現(xiàn)目前的單模態(tài)方法不能有效提取視頻的時序性特征,提出了視頻時序增強模塊(VTEMo),將文本提示的理念引入到預(yù)訓(xùn)練模型中,并以此為基礎(chǔ)構(gòu)建視頻時刻檢索網(wǎng)絡(luò)(VMRNet),設(shè)計的網(wǎng)絡(luò)有效融合了多模態(tài)的特征,并提升模型獲取時序特征的能力。其次,將預(yù)訓(xùn)練模型遷移到了視頻時刻檢索任務(wù),將兩階段的訓(xùn)練方式轉(zhuǎn)變?yōu)槎说蕉说挠?xùn)練方式,融合了時空特征的視頻片段,使得模型在視頻時刻檢索任務(wù)上有顯著的提升。最后,提出的網(wǎng)絡(luò)足夠靈活,可以遷移到其他的多模態(tài)任務(wù)中。本文實驗成果如圖3所示,VMRNet可通過原視頻與視頻片段相關(guān)問句,檢索到與真實結(jié)果相近的視頻片段,可促進智能推薦、監(jiān)控安防等相關(guān)產(chǎn)業(yè)發(fā)展。本文就目前方法所得的實驗結(jié)果,觀察到模型對較長的視頻時刻(gt;30 s)預(yù)測能力較強,而對較短的視頻時刻(lt;10 s)預(yù)測能力較弱,得到該模型對短視頻時刻能力的預(yù)測依舊具有一定局限性,后續(xù)將研究如何更改長短視頻時刻的注意力權(quán)重,均值化長短視頻時刻特征,以此提升模型預(yù)測短視頻時刻的能力。

    參考文獻:

    [1]Zhang Hao, Sun Aixin, Jing Wei, et al.Temporal sentence grounding in videos: a survey and future directions[J]. IEEE Trans on Pattern Analysis and Machine Intelligence, 2023, 45(8): 10443-10465.

    [2]Chen Tongbao, Wang Wenmin, Jiang Zhe, et al.Cross-modality knowledge calibration network for video corpus moment retrieval[J]. IEEE Trans on Multimedia, 2023, 26(9): 3799-3813.

    [3]Panta L, Shrestha P, Sapkota B,et al.Cross-modal contrastive lear-ning with asymmetric co-attention network for video moment retrieval[C]// Proc of IEEE/CVF Winter Conference on Applications of Computer Vision. Piscataway, NJ: IEEE Press, 2024: 607-614.

    [4]Shen Xingyu, Zhang Xiang, Yang Xun, et al.Semantics-enriched cross-modal alignment for complex-query video moment retrieval[C]// Proc of the 31st ACM International Conference on Multimedia. New York: ACM Press, 2023: 4109-4118.

    [5]Radford A, Kim J W, Hallacy C,et al.Learning transferable visual models from natural language supervision[C]// Proc of the 38th International Conference on Machine Learning. [S.l.]: PMLR, 2021: 8748-8763.

    [6]Fang Han, Xiong Pengfei, XuLuhui, et al.CLIP2Video: mastering video-text retrieval via image clip[EB/OL]. (2021-06-21). https://arxiv.org/abs/2106.11097.

    [7]Gao Zijian, Liu Jingyu, Chen Sheng, et al.CLIP2TV: an empirical study on transformer-based methods for video-text retrieval[EB/OL]. (2022-07-21). https://arxiv.org/abs/2111.05610.

    [8]Luo Huaishao, Ji Lei, Zhong Ming, et al.CLIP4Clip: an empirical study of clip for end to end video clip retrieval[J]. Neurocompu-ting, 2022, 508: 293-304.

    [9]Lei Jie, Li Linjie, Zhou Luowei, et al.Less is more: CLIPBERT for video-and-language learning via sparse sampling[C]// Proc of IEEE/CVF Conference on Computer Vision and Pattern Recognition. Pisca-taway, NJ: IEEE Press, 2021: 7327-7337.

    [10]Xu Hu, Ghosh G, Huang P Y,et al.VideoCLIP: contrastive pre-training for zero-shot video-text understanding[C]// Proc of Conference on Empirical Methods in Natural Language Processing. Stroudsburg, PA: Association for Computational Linguistics, 2021: 6787-6800.

    [11]Liu Ruyang, Huang Jingjia, Li Ge, et al.Revisiting temporal mode-ling for clip-based image-to-video knowledge transferring [C]// Proc of IEEE/CVF Conference on Computer Vision and Pattern Recognition. Piscataway, NJ: IEEE Press, 2023: 6555-6564.

    [12]Li Junnan, Selvaraju R R, Gotmare A, et al.Align before fuse: vision and language representation learning with momentum distillation[C]// Advances in Neural Information Processing Systems. Red Hook, NY: Curran Associates Inc., 2021: 9694-9705.

    [13]Gabeur V, Sun C, Alahari K, et al.Multi-modal Transformer for video retrieval[C]// Proc of Computer Vision Conference. Cham: Springer, 2020: 214-229.

    [14]Lu Jiasen, Batra D, Parikh D, et al.ViLBERT: pretraining task-agnostic visio linguistic representations for vision-and-language tasks[C]// Proc of the 33rd International Conference on Neural Information Processing Systems. Red Hook, NY: Curran Associates Inc., 2019: 13-23.

    [15]Tan Hao, Bansal M. LXMERT: learning cross-modality encoder representations from transformers [EB/OL]. (2019-12-03). https://arxiv.org/abs/1908.07490.

    [16]Su Weijie, Zhu Xizhou, Cao Yue, et al.VL-BERT: pre-training of generic visual-linguistic representations [EB/OL]. (2020-02-18). https://arxiv.org/abs/1908.08530.

    [17]Kim Y. Convolutional neural networks for sentence classification [C]// Proc of Conference on Empirical Methods in Natural Language Processing. Stroudsburg, PA: Association for Computational Linguistics, 2014: 1746-1751.

    [18]Elman J L. Finding structure in time[J]. Cognitive Science, 1990, 14(2): 179-211.

    [19]Dosovitskiy A, Beyer L, Kolesnikov A, et al.An image is worth 16×16 words: transformers for image recognition at scale[EB/OL]. (2021-06-03). https://arxiv.org/abs/2010.11929.

    [20]Vaswani A,Shazeer N, Parmar N, et al.Attention is all you need[C]// Proc of the 31st International Conference on Neural Information Processing Systems. Red Hook, NY: Curran Associates Inc., 2017: 6000-6010.

    [21]Li Boyi, Weinberger K Q, Belongie S, et al. Language-driven semantic segmentation[EB/OL]. (2022-04-03). https://arxiv.org/abs/2201.03546.

    [22]Gu Xiuye, Lin T Y, Kuo Weicheng, et al.Open-vocabulary object detection via vision and language knowledge distillation[EB/OL]. (2022-05-12). https://arxiv.org/abs/2104.13921.

    [23]Vinker Y, Pajouheshgar E, Bo J Y, et al.CLIPasso: semantically-aware object sketching[J]. ACM Trans on Graphics, 2022, 41(4): 1-11.

    [24]Arnab A, Dehghani M,Heigold G, et al.ViViT: a video vision transformer[C]// Proc of IEEE/CVF International Conference on Computer Vision. Piscataway, NJ: IEEE Press, 2021: 6816-6826.

    [25]Escorcia V, Soldan M, Sivic J,et al.Temporal localization of moments in video collections with natural language[EB/OL]. (2019-07-30). https://arxiv.org/abs/1907.12763.

    [26]Lei Jie, Yu Licheng, Berg T L, et al.TVR: a large-scale dataset for video-subtitle moment retrieval[C]// Proc of Computer Vision Conference. Cham: Springer, 2020: 447-463.

    [27]Hendricks L A, Wang O, Shechtman E, et al.Localizing moments in video with natural language[C]// Proc of IEEE International Confe-rence on Computer Vision. Piscataway, NJ: IEEE Press, 2017: 5804-5813.

    [28]Liu Wu, Mei Tao, Zhang Yongdong, et al.Multi-task deep visual-semantic embedding for video thumbnail selection[C]// Proc of IEEE Conference on Computer Vision and Pattern Recognition. Piscataway, NJ: IEEE Press, 2015: 3707-3715.

    [29]Tran D,Bourdev L, Fergus R, et al.Learning spatiotemporal features with 3D convolutional networks[C]// Proc of IEEE International Conference on Computer Vision. Piscataway, NJ: IEEE Press, 2015: 4489-4497.

    [30]Carreira J, Zisserman A. Quovadis, action recognition? A new model and the kinetics dataset[C]// Proc of IEEE Conference on Computer Vision and Pattern Recognition. Piscataway, NJ: IEEE Press, 2017: 4724-4733.

    [31]Feichtenhofer C, Fan Haoqi, Malik J, et al.SlowFast networks for video recognition[C]// Proc of IEEE/CVF International Conference on Computer Vision. Piscataway, NJ: IEEE Press, 2019: 6201-6210.

    [32]Lei Jie, Berg T L, Bansal M.QVHighlights: detecting moments and highlights in videos via natural language queries[C]// Proc of the 35th International Conference on Neural Information Processing Systems. Red Hook, NY: Curran Associates Inc., 2021: 11846-11858.

    [33]Liu Ye, Li Siyuan, Wu Yang, et al.UMT: unified multi-modal transformers for joint video moment retrieval and highlight detection[C]// Proc of IEEE/CVF Conference on Computer Vision and Pattern Recognition. Piscataway, NJ: IEEE Press, 2022: 3032-3041.

    [34]Lin K Q, Zhang Pengchuan, Chen J, et al.UniVTG: towards unified video-language temporal grounding[C]// Proc of IEEE/CVF International Conference on Computer Vision. Piscataway, NJ: IEEE Press, 2023: 2782-2792.

    [35]Kim W, Son B, Kim I. ViLT: vision-and-language transformer without convolution or region supervision[C]// Proc of the 38th International Conference on Machine Learning. [S.l.]: PMLR, 2021: 5583-5594.

    [36]Wang Jian, Li Fan, Bi Haixia. Gaussian focal loss: learning distribution polarized angle prediction for rotated object detection in aerial images[J]. IEEE Trans on Geoscience and Remote Sensing, 2022, 60: 1-13.

    [37]Sigurdsson G A, Varol G, Wang Xiaolong, et al.Hollywood in homes: crowdsourcing data collection for activity understanding[C]// Proc of Computer Vision Conference. Cham: Springer, 2016: 510-526.

    [38]Moon W, Hyun S, Park S, et al. Query-dependent video representation for moment retrieval and highlight detection[C]// Proc of IEEE/CVF Conference on Computer Vision and Pattern Recognition. Pisca-taway, NJ: IEEE Press, 2023: 23023-23033.

    [39]Zhang Da, Dai Xiyang, Wang Xin, et al.MAN: moment alignment network for natural language moment retrieval via iterative graph adjustment[C]// Proc of IEEE/CVF Conference on Computer Vision and Pattern Recognition. Piscataway, NJ: IEEE Press, 2019: 1247-1257.

    [40]Zhang Songyang, Peng Houwen, Fu Jianlong, et al.Learning 2D temporal adjacent networks for moment localization with natural language[C]// Proc of AAAI Conference on Artificial Intelligence. Palo Alto, CA: AAAI Press, 2020: 12870-12877.

    [41]Gao Junyu, Xu Changsheng. Fast video moment retrieval[C]// Proc of IEEE/CVF International Conference on Computer Vision. Pisca-taway, NJ: IEEE Press, 2021: 1503-1512.

    [42]Ma Yue, Yang Tianyu, Shan Yin, et al.SimVTP: simple video text pre-training with masked autoencoders[EB/OL]. (2022-12-07). https://arxiv. org/abs/2212.03490.

    猜你喜歡
    多模態(tài)圖像
    改進的LapSRN遙感圖像超分辨重建
    基于FPGA的實時圖像去霧系統(tǒng)
    如何由圖像確定y=Asin(ωx+φ)+B的解析式
    淺析p-V圖像中的兩個疑難問題
    有趣的圖像詩
    多模態(tài)話語中的詹姆斯·卡梅隆電影
    英語閱讀教學(xué)中多模態(tài)識讀能力的培養(yǎng)
    網(wǎng)絡(luò)環(huán)境下大學(xué)英語多模態(tài)交互式閱讀教學(xué)模式研究
    戲劇之家(2016年22期)2016-11-30 18:20:43
    多模態(tài)理論視角下大學(xué)英語課堂的構(gòu)建
    新媒體環(huán)境下多模態(tài)商務(wù)英語課堂教師角色定位
    亚洲欧洲日产国产| 极品少妇高潮喷水抽搐| 精品亚洲乱码少妇综合久久| 欧美人与善性xxx| 久久天躁狠狠躁夜夜2o2o | 女人精品久久久久毛片| 亚洲成人手机| 久久人人爽av亚洲精品天堂| 91老司机精品| 亚洲国产av影院在线观看| 蜜桃在线观看..| 日韩中文字幕欧美一区二区 | 男人添女人高潮全过程视频| 熟女av电影| 蜜桃在线观看..| 久久毛片免费看一区二区三区| 日韩一区二区视频免费看| 久久久久久久大尺度免费视频| 亚洲国产精品一区二区三区在线| 一个人免费看片子| 免费黄网站久久成人精品| 中文字幕av电影在线播放| 中文字幕av电影在线播放| 国产无遮挡羞羞视频在线观看| 午夜免费观看性视频| 国产高清不卡午夜福利| 亚洲国产精品一区二区三区在线| 免费观看av网站的网址| 嫩草影视91久久| 成人国语在线视频| 你懂的网址亚洲精品在线观看| 成人免费观看视频高清| 欧美日韩成人在线一区二区| 男女边吃奶边做爰视频| 毛片一级片免费看久久久久| 欧美乱码精品一区二区三区| 久久 成人 亚洲| 亚洲国产欧美在线一区| 久久免费观看电影| 欧美黄色片欧美黄色片| 999久久久国产精品视频| 九九爱精品视频在线观看| 美女中出高潮动态图| 亚洲欧洲国产日韩| 美女中出高潮动态图| 国产 精品1| 欧美精品一区二区大全| 90打野战视频偷拍视频| 久久精品久久久久久噜噜老黄| 观看美女的网站| 亚洲熟女毛片儿| 国产精品香港三级国产av潘金莲 | 777久久人妻少妇嫩草av网站| 多毛熟女@视频| 男女边摸边吃奶| 视频在线观看一区二区三区| 婷婷色麻豆天堂久久| 亚洲精品,欧美精品| 美女主播在线视频| xxxhd国产人妻xxx| 热re99久久精品国产66热6| 1024香蕉在线观看| 中文字幕另类日韩欧美亚洲嫩草| 欧美精品人与动牲交sv欧美| 国产精品偷伦视频观看了| 国产av码专区亚洲av| 人人妻人人澡人人爽人人夜夜| 三上悠亚av全集在线观看| av卡一久久| 国产精品一区二区精品视频观看| 午夜福利,免费看| 亚洲人成电影观看| 久久ye,这里只有精品| 免费黄色在线免费观看| 亚洲国产精品999| 久久99精品国语久久久| av在线播放精品| 国产黄色视频一区二区在线观看| 晚上一个人看的免费电影| 久久久久久人妻| 最近2019中文字幕mv第一页| 国产日韩一区二区三区精品不卡| 国产一区亚洲一区在线观看| 日本wwww免费看| 啦啦啦中文免费视频观看日本| 超碰97精品在线观看| 亚洲成av片中文字幕在线观看| 亚洲av中文av极速乱| 亚洲免费av在线视频| 欧美日韩亚洲国产一区二区在线观看 | 国产成人一区二区在线| 嫩草影视91久久| 蜜桃在线观看..| 成人亚洲欧美一区二区av| 99国产精品免费福利视频| 国产一卡二卡三卡精品 | 亚洲精品久久午夜乱码| 黄色毛片三级朝国网站| 久久久久久久大尺度免费视频| 久热这里只有精品99| 国产精品二区激情视频| 国产精品香港三级国产av潘金莲 | 男女下面插进去视频免费观看| 日韩熟女老妇一区二区性免费视频| 大陆偷拍与自拍| 18在线观看网站| 精品一区二区免费观看| 亚洲一卡2卡3卡4卡5卡精品中文| 中文欧美无线码| 黑丝袜美女国产一区| 日本黄色日本黄色录像| 1024香蕉在线观看| 国产免费现黄频在线看| 性高湖久久久久久久久免费观看| 亚洲av欧美aⅴ国产| www.精华液| 亚洲精品第二区| 黄片小视频在线播放| 午夜av观看不卡| 热re99久久国产66热| videos熟女内射| 51午夜福利影视在线观看| 大片电影免费在线观看免费| 国产精品一区二区精品视频观看| 欧美人与善性xxx| 日本一区二区免费在线视频| 欧美久久黑人一区二区| 亚洲欧美一区二区三区国产| 亚洲国产精品国产精品| av在线老鸭窝| 亚洲国产欧美日韩在线播放| 国产乱来视频区| 国产一级毛片在线| 国产一区有黄有色的免费视频| 亚洲国产看品久久| av在线观看视频网站免费| 天美传媒精品一区二区| 卡戴珊不雅视频在线播放| 亚洲精品国产av成人精品| 丰满迷人的少妇在线观看| 欧美少妇被猛烈插入视频| 岛国毛片在线播放| 日韩,欧美,国产一区二区三区| 国产成人精品在线电影| 在线观看免费日韩欧美大片| 可以免费在线观看a视频的电影网站 | 80岁老熟妇乱子伦牲交| 又大又黄又爽视频免费| 下体分泌物呈黄色| 女性生殖器流出的白浆| 多毛熟女@视频| 亚洲欧美清纯卡通| 欧美成人精品欧美一级黄| videos熟女内射| 男人舔女人的私密视频| 欧美黑人精品巨大| 深夜精品福利| 狠狠婷婷综合久久久久久88av| 街头女战士在线观看网站| 亚洲国产中文字幕在线视频| 亚洲美女搞黄在线观看| 久久久亚洲精品成人影院| 国产片内射在线| 女性被躁到高潮视频| 人人妻,人人澡人人爽秒播 | 欧美人与善性xxx| 久久鲁丝午夜福利片| 黄片小视频在线播放| 亚洲人成77777在线视频| 中文字幕色久视频| 丝袜在线中文字幕| 永久免费av网站大全| 91老司机精品| 久久久国产欧美日韩av| 日韩一本色道免费dvd| 免费观看性生交大片5| av在线老鸭窝| 日韩伦理黄色片| 五月天丁香电影| 欧美激情 高清一区二区三区| 日韩伦理黄色片| www日本在线高清视频| 午夜福利乱码中文字幕| 午夜日本视频在线| 国产97色在线日韩免费| 我的亚洲天堂| 久久久久久久久免费视频了| 久久精品久久久久久噜噜老黄| 久久久国产一区二区| 久久人人爽av亚洲精品天堂| 五月天丁香电影| 午夜福利视频在线观看免费| 婷婷色麻豆天堂久久| 嫩草影院入口| 午夜福利,免费看| av片东京热男人的天堂| 韩国av在线不卡| 免费高清在线观看日韩| 两个人看的免费小视频| 国产免费又黄又爽又色| 国产熟女午夜一区二区三区| 久久久久国产精品人妻一区二区| 免费女性裸体啪啪无遮挡网站| 精品第一国产精品| 日韩精品免费视频一区二区三区| 日韩一卡2卡3卡4卡2021年| 777久久人妻少妇嫩草av网站| 国产成人精品福利久久| 男女高潮啪啪啪动态图| 熟妇人妻不卡中文字幕| 两性夫妻黄色片| 2021少妇久久久久久久久久久| 深夜精品福利| 狂野欧美激情性xxxx| 国产精品一二三区在线看| 国产有黄有色有爽视频| 91精品国产国语对白视频| 欧美黑人精品巨大| 久久久精品国产亚洲av高清涩受| 一区二区三区激情视频| 黑丝袜美女国产一区| 久久午夜综合久久蜜桃| 国产淫语在线视频| 菩萨蛮人人尽说江南好唐韦庄| 一级黄片播放器| 久久亚洲国产成人精品v| 日本色播在线视频| 丰满乱子伦码专区| 久久精品国产综合久久久| xxxhd国产人妻xxx| 一边摸一边抽搐一进一出视频| 妹子高潮喷水视频| 另类亚洲欧美激情| 久久天躁狠狠躁夜夜2o2o | 狠狠婷婷综合久久久久久88av| 国产欧美日韩综合在线一区二区| 王馨瑶露胸无遮挡在线观看| 丝瓜视频免费看黄片| 亚洲男人天堂网一区| 亚洲欧美一区二区三区黑人| 国产极品天堂在线| 国产一区二区在线观看av| 亚洲av福利一区| 国产精品熟女久久久久浪| 国产 精品1| 久久国产精品男人的天堂亚洲| 纵有疾风起免费观看全集完整版| 男男h啪啪无遮挡| 欧美黑人精品巨大| 在线观看三级黄色| 午夜福利视频在线观看免费| 亚洲美女视频黄频| 亚洲成人一二三区av| 亚洲av电影在线进入| 操美女的视频在线观看| av电影中文网址| 亚洲精品一区蜜桃| 亚洲国产成人一精品久久久| 女人高潮潮喷娇喘18禁视频| 日本91视频免费播放| 亚洲精品一区蜜桃| 宅男免费午夜| 丝袜喷水一区| 波多野结衣一区麻豆| 人妻人人澡人人爽人人| 在线天堂中文资源库| 中文精品一卡2卡3卡4更新| 侵犯人妻中文字幕一二三四区| 人妻一区二区av| 亚洲av福利一区| 美女视频免费永久观看网站| 美女大奶头黄色视频| 中文字幕高清在线视频| 国产精品久久久人人做人人爽| 日本av免费视频播放| 亚洲色图综合在线观看| 欧美精品亚洲一区二区| 久久人人97超碰香蕉20202| 亚洲精品日本国产第一区| 一本久久精品| 夜夜骑夜夜射夜夜干| 免费看av在线观看网站| 男女无遮挡免费网站观看| 美女脱内裤让男人舔精品视频| 中国三级夫妇交换| 中文字幕亚洲精品专区| 欧美亚洲 丝袜 人妻 在线| 一级毛片我不卡| 老汉色av国产亚洲站长工具| 久久久久精品国产欧美久久久 | 成人亚洲欧美一区二区av| 国产精品一区二区在线不卡| 日韩电影二区| 中国三级夫妇交换| 成年av动漫网址| 久久99精品国语久久久| 国产 精品1| 欧美最新免费一区二区三区| 成人18禁高潮啪啪吃奶动态图| 国产精品久久久av美女十八| 一本色道久久久久久精品综合| 伊人久久大香线蕉亚洲五| 香蕉国产在线看| a级毛片黄视频| 中文字幕人妻丝袜一区二区 | 亚洲伊人色综图| 看十八女毛片水多多多| av免费观看日本| 亚洲精品乱久久久久久| 亚洲精品久久午夜乱码| 亚洲欧美激情在线| 中文字幕制服av| 国产福利在线免费观看视频| 亚洲精品国产一区二区精华液| 中文字幕制服av| 街头女战士在线观看网站| 久久久久国产精品人妻一区二区| 一级,二级,三级黄色视频| 美国免费a级毛片| 久久精品aⅴ一区二区三区四区| 操出白浆在线播放| 91精品伊人久久大香线蕉| 纯流量卡能插随身wifi吗| 人妻 亚洲 视频| 美女大奶头黄色视频| 欧美日韩亚洲综合一区二区三区_| 欧美日韩福利视频一区二区| e午夜精品久久久久久久| 黄网站色视频无遮挡免费观看| 国产av码专区亚洲av| 黑人欧美特级aaaaaa片| 亚洲男人天堂网一区| 国产视频首页在线观看| 宅男免费午夜| 久久久久久久久免费视频了| 99re6热这里在线精品视频| av天堂久久9| av视频免费观看在线观看| 操美女的视频在线观看| 亚洲精品中文字幕在线视频| 大陆偷拍与自拍| 国产一区二区 视频在线| av线在线观看网站| 国产成人精品在线电影| 久久精品久久久久久噜噜老黄| 国产高清国产精品国产三级| 久久影院123| 亚洲国产最新在线播放| 亚洲少妇的诱惑av| 制服丝袜香蕉在线| 久久久久精品国产欧美久久久 | 青青草视频在线视频观看| 久久精品aⅴ一区二区三区四区| 午夜激情久久久久久久| 午夜免费观看性视频| 国产男女内射视频| 在线观看免费视频网站a站| 777米奇影视久久| 亚洲第一av免费看| 日韩中文字幕视频在线看片| 国产又爽黄色视频| 久久久国产一区二区| 欧美97在线视频| 狂野欧美激情性xxxx| 亚洲伊人色综图| 久久性视频一级片| 99九九在线精品视频| 午夜福利乱码中文字幕| 两性夫妻黄色片| 观看美女的网站| 男人舔女人的私密视频| 五月开心婷婷网| 极品人妻少妇av视频| 国产精品免费视频内射| 免费高清在线观看日韩| www.精华液| 欧美日韩亚洲高清精品| 一级毛片黄色毛片免费观看视频| 一级片'在线观看视频| 亚洲少妇的诱惑av| 国产精品人妻久久久影院| 久久国产精品男人的天堂亚洲| 在线观看三级黄色| 成人午夜精彩视频在线观看| 伦理电影免费视频| 熟女av电影| 91老司机精品| 女性生殖器流出的白浆| 精品久久久精品久久久| 亚洲一码二码三码区别大吗| 午夜激情av网站| 亚洲精品视频女| 少妇人妻精品综合一区二区| 欧美精品一区二区免费开放| 欧美成人精品欧美一级黄| 精品国产乱码久久久久久小说| 久久人人97超碰香蕉20202| 日韩制服骚丝袜av| 天天影视国产精品| 国产激情久久老熟女| 成人午夜精彩视频在线观看| 久久人人爽av亚洲精品天堂| 大香蕉久久网| 午夜福利影视在线免费观看| 欧美在线一区亚洲| 国产老妇伦熟女老妇高清| 久久久久久久久久久久大奶| 久久久精品区二区三区| 日本av免费视频播放| 国产精品蜜桃在线观看| 亚洲欧美成人综合另类久久久| 亚洲精品国产av蜜桃| 精品国产乱码久久久久久小说| www.自偷自拍.com| 日日撸夜夜添| 在线观看免费视频网站a站| 国产片内射在线| 亚洲,欧美,日韩| 午夜免费鲁丝| 国产伦理片在线播放av一区| 欧美中文综合在线视频| 亚洲少妇的诱惑av| avwww免费| 亚洲一区二区三区欧美精品| 青青草视频在线视频观看| 在线观看www视频免费| 成人亚洲欧美一区二区av| 精品一区二区三区av网在线观看 | 精品午夜福利在线看| 婷婷成人精品国产| 观看av在线不卡| 国产欧美日韩一区二区三区在线| 亚洲av男天堂| 午夜福利乱码中文字幕| 我的亚洲天堂| 亚洲成人av在线免费| www日本在线高清视频| 精品福利永久在线观看| 少妇 在线观看| 亚洲美女黄色视频免费看| 国产精品蜜桃在线观看| 中国三级夫妇交换| 亚洲人成网站在线观看播放| 国产99久久九九免费精品| 亚洲人成77777在线视频| 亚洲自偷自拍图片 自拍| 母亲3免费完整高清在线观看| 好男人视频免费观看在线| 岛国毛片在线播放| 男女高潮啪啪啪动态图| 丝瓜视频免费看黄片| 日韩大码丰满熟妇| 国产激情久久老熟女| 婷婷成人精品国产| 成人亚洲欧美一区二区av| 国产亚洲欧美精品永久| 亚洲国产欧美日韩在线播放| 51午夜福利影视在线观看| 国产精品三级大全| 国产日韩欧美亚洲二区| 国产一区二区在线观看av| 巨乳人妻的诱惑在线观看| 多毛熟女@视频| 亚洲久久久国产精品| 精品福利永久在线观看| 丝袜脚勾引网站| 又大又爽又粗| 纯流量卡能插随身wifi吗| 一本—道久久a久久精品蜜桃钙片| 亚洲精品久久成人aⅴ小说| 成人18禁高潮啪啪吃奶动态图| 岛国毛片在线播放| 老司机亚洲免费影院| 国产极品天堂在线| 黑人巨大精品欧美一区二区蜜桃| 久久久久精品久久久久真实原创| 女人被躁到高潮嗷嗷叫费观| 久久精品亚洲av国产电影网| 国产片特级美女逼逼视频| 大陆偷拍与自拍| 两个人看的免费小视频| 亚洲第一av免费看| 精品一区二区免费观看| 日韩中文字幕欧美一区二区 | 国产在线免费精品| 青青草视频在线视频观看| 久久狼人影院| 中文字幕色久视频| 99久久人妻综合| 午夜老司机福利片| 午夜影院在线不卡| 成人18禁高潮啪啪吃奶动态图| 看十八女毛片水多多多| 久久久久精品性色| 国产 一区精品| 嫩草影视91久久| 一区二区av电影网| 亚洲一区中文字幕在线| 九色亚洲精品在线播放| 在线看a的网站| 精品少妇内射三级| 啦啦啦 在线观看视频| xxxhd国产人妻xxx| 久久久久精品人妻al黑| 国产亚洲最大av| 国产一卡二卡三卡精品 | 我要看黄色一级片免费的| 亚洲人成77777在线视频| 亚洲国产最新在线播放| 性高湖久久久久久久久免费观看| 91精品国产国语对白视频| a级片在线免费高清观看视频| 中国国产av一级| 欧美日本中文国产一区发布| 最近中文字幕高清免费大全6| 五月开心婷婷网| 99久久综合免费| 成人亚洲欧美一区二区av| 丁香六月欧美| 国产成人精品在线电影| 国产成人a∨麻豆精品| 国产欧美亚洲国产| 亚洲成人手机| 日韩欧美一区视频在线观看| 七月丁香在线播放| 午夜影院在线不卡| 免费久久久久久久精品成人欧美视频| 80岁老熟妇乱子伦牲交| 中文字幕最新亚洲高清| 午夜福利,免费看| 亚洲情色 制服丝袜| 午夜福利,免费看| 高清不卡的av网站| 久久鲁丝午夜福利片| 高清不卡的av网站| 90打野战视频偷拍视频| 亚洲国产欧美网| 欧美激情高清一区二区三区 | 天天操日日干夜夜撸| 少妇人妻精品综合一区二区| 国产极品天堂在线| 久久久久久人人人人人| 久久这里只有精品19| 精品一区二区三卡| 成人三级做爰电影| 日韩 欧美 亚洲 中文字幕| 大码成人一级视频| 搡老岳熟女国产| 国产精品亚洲av一区麻豆 | 久久久久精品久久久久真实原创| 晚上一个人看的免费电影| 只有这里有精品99| 黄色视频在线播放观看不卡| 国产成人精品久久二区二区91 | 日韩欧美一区视频在线观看| 久久ye,这里只有精品| www.自偷自拍.com| 亚洲精品美女久久久久99蜜臀 | 久久久精品国产亚洲av高清涩受| 亚洲精品国产av蜜桃| 欧美日韩福利视频一区二区| www.自偷自拍.com| 国产精品亚洲av一区麻豆 | 亚洲成国产人片在线观看| 天天影视国产精品| 成人三级做爰电影| 赤兔流量卡办理| 成人漫画全彩无遮挡| videosex国产| 大片电影免费在线观看免费| 精品亚洲成国产av| 亚洲一级一片aⅴ在线观看| 亚洲精品一二三| 一级毛片我不卡| 如日韩欧美国产精品一区二区三区| 巨乳人妻的诱惑在线观看| 日日摸夜夜添夜夜爱| 男女边摸边吃奶| 国产亚洲精品第一综合不卡| 天美传媒精品一区二区| av网站免费在线观看视频| 国产在线一区二区三区精| 久久ye,这里只有精品| 免费女性裸体啪啪无遮挡网站| 国产精品久久久久久久久免| 男女边吃奶边做爰视频| 99国产综合亚洲精品| 国产精品一二三区在线看| 国产男人的电影天堂91| 日韩熟女老妇一区二区性免费视频| 韩国av在线不卡| 精品午夜福利在线看| 国产精品.久久久| 免费黄色在线免费观看| 国产成人欧美在线观看 | 亚洲精品久久久久久婷婷小说| 少妇精品久久久久久久| 看免费av毛片| 亚洲精品视频女| 国产一区有黄有色的免费视频| 久久 成人 亚洲| 欧美亚洲 丝袜 人妻 在线| 久久国产精品男人的天堂亚洲| 美女福利国产在线| 国产黄频视频在线观看| 巨乳人妻的诱惑在线观看| 毛片一级片免费看久久久久| 久久精品亚洲av国产电影网| 亚洲国产看品久久| 国产免费一区二区三区四区乱码| 日本av免费视频播放| 日韩欧美一区视频在线观看| 日韩免费高清中文字幕av| 在线观看免费午夜福利视频| 亚洲欧美成人精品一区二区|