• <tr id="yyy80"></tr>
  • <sup id="yyy80"></sup>
  • <tfoot id="yyy80"><noscript id="yyy80"></noscript></tfoot>
  • 99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看 ?

    基于CLIP的視頻時刻檢索預(yù)訓(xùn)練模型

    2024-12-30 00:00:00繆翌張衛(wèi)鋒徐領(lǐng)
    計算機應(yīng)用研究 2024年12期
    關(guān)鍵詞:多模態(tài)圖像

    摘 要:視頻時刻檢索作為下游任務(wù),依賴預(yù)訓(xùn)練模型提取特征的能力。近年的研究表明,以CLIP為代表的圖像-語言預(yù)訓(xùn)練模型在大規(guī)模數(shù)據(jù)集下能學(xué)習(xí)到有效且通用的語義知識,從而在圖像分類等任務(wù)上表現(xiàn)出強大的遷移能力和零樣本能力。然而其遷移到視頻時刻檢索任務(wù)仍效果不佳。為解決上述難題,提出了視頻時刻檢索網(wǎng)絡(luò)VMRNet,該網(wǎng)絡(luò)以CLIP預(yù)訓(xùn)練模型為骨干,并設(shè)計了用于增強CLIP模型時序建模能力和跨模態(tài)交互能力的視頻時序增強模塊VTEMo。該模塊采用旁路層級結(jié)構(gòu),引入查詢文本引導(dǎo)的視覺提示,引導(dǎo)視覺編碼器學(xué)習(xí)當(dāng)前查詢?nèi)蝿?wù)關(guān)注的視覺信息和時序信息。在QVHighlights、Charades-STA等常用數(shù)據(jù)集上進行了驗證實驗,VMRNet的R1@0.5指標在兩個數(shù)據(jù)集上分別提高0.83和1.27,模型總體性能優(yōu)于其他代表性的模型。實驗結(jié)果充分表明,提出的VTEMo可在查詢文本引導(dǎo)下有效學(xué)習(xí)視頻視覺特征和時序特征,VMRNet結(jié)合VTEMo可在視頻時刻檢索任務(wù)上獲得更為優(yōu)秀的表現(xiàn)。

    關(guān)鍵詞:多模態(tài);視頻時刻檢索;圖像-語言預(yù)訓(xùn)練模型;參數(shù)微調(diào)

    中圖分類號:TP391"" 文獻標志碼:A

    文章編號:1001-3695(2024)12-046-3866-07

    doi: 10.19734/j.issn.1001-3695.2024.01.0065

    Pre-training model for video moment retrieval based on CLIP

    Miao Yi1, Zhang Weifeng1,2, Xu Ling1

    (1.School of Computer Science amp; Technology (School of Artificial Intelligence)," Zhejiang Sci-Tech University," Hangzhou 310000, China; 2. School of Information Science amp; Engineering, Jiaxing University, Jiaxing Zhejiang 314000, China)

    Abstract:Video moment retrieval as a downstream task relies on the ability of pre trained models to extract features. Recent studies have shown that image-language pre-training models represented by CLIP (comparative language-image pre-training) have learned effective and universal semantic knowledge on large-scale datasets, thus demonstrating strong transfer and zero-shot capabilities in tasks such as image classification. However, its transfer to video retrieval tasks still yields poor results. This paper proposed a video moment retrieval network (VMRNet) to solve the above problem’s. It was based on CLIP pre-trained models with a video temporal enhancement module (VTEMo) to enhance the CLIP model’s temporal modeling ability and cross-modal interaction ability. VTEMo adopted a bypass hierarchical structure and introduced visual prompts guided by query text to guide the visual encoder to learn the current query task concerned visual and temporal information. Conducting validation experiments on commonly used datasets such as QVHighlights and Charades STA, VMRNet’s R1@0.5 metric increased by 0.83 and 1.27 on the two datasets respectively, demonstrating its overall performance superiority over other representative models. The experimental results fully demonstrate that the proposed VTEMo can effectively learn video visual and temporal features under the guidance of query text and VMRNet combined with VTEMo can achieve better performance in video temporal retrieval tasks.

    Key words:multimodal; video moment retrieval; image-language pre-training model; efficient parameter fine-tuning

    0 引言

    視頻時刻檢索任務(wù)為視頻領(lǐng)域下的多模態(tài)任務(wù),對其任務(wù)的研究不僅有巨大的學(xué)術(shù)價值,同樣具有巨大的應(yīng)用價值,如視頻推薦、人機交互、監(jiān)控安防[1]。視頻時刻檢索旨在根據(jù)用戶給定的查詢信息,在大規(guī)模的視頻集合中準確地定位和檢索出與查詢相關(guān)的視頻片段,其實現(xiàn)過程可分為特征提取和特征融合兩個階段。其中特征提取通過預(yù)訓(xùn)練模型提取多模態(tài)特征,特征融合階段實現(xiàn)跨模態(tài)特征交互和融合。目前主流的多模態(tài)方法[2~4]注重特征融合階段,通過對不同模態(tài)的特征建模增強跨模態(tài)交互能力與特征融合能力。然而,這種兩階段訓(xùn)練方式僅在下游進行建模,相對端到端訓(xùn)練方式較弱,且依賴預(yù)訓(xùn)練模型提取特征的能力。特征提取階段,主流的預(yù)訓(xùn)練模型側(cè)重圖像-語言特征提取,針對視頻-語言建模能力較弱。相對圖像-語言特征提取,視頻-語言特征提取核心挑戰(zhàn)在于賦予模型對視頻幀之間時序關(guān)系建模的能力,從而提取與查詢文本匹配的關(guān)鍵視覺信息和時序信息。

    圖像-語言預(yù)訓(xùn)練模型是目前跨模態(tài)智能領(lǐng)域的研究熱點和主流方案,得到了廣泛關(guān)注。其中,以CLIP[5]為代表的模型基于大規(guī)模的圖像和文本數(shù)據(jù)集進行預(yù)訓(xùn)練,可以有效學(xué)習(xí)到視覺和語言之間復(fù)雜的交互關(guān)系,且可廣泛適用于其他多模態(tài)任務(wù)。視頻的信息表達方式與視覺相似,同樣需要一種類似的預(yù)訓(xùn)練模型解決下游視頻任務(wù)。然而,受限于海量的視頻-語言對數(shù)據(jù)收集困難、視頻處理所需計算資源巨大等原因,訓(xùn)練一個類似CLIP的視頻-語言預(yù)訓(xùn)練模型非常困難。因此,近年來多項工作[6~8]嘗試將CLIP中的圖像視覺知識遷移到視頻領(lǐng)域,并構(gòu)建一個新的基礎(chǔ)模型以適應(yīng)CLIP的視頻輸出特征。然而,圖像-語言預(yù)訓(xùn)練模型關(guān)注圖像內(nèi)部的語義信息,生成高層次的空間特征無法直接作為視頻特征的輸入。而直接運用預(yù)訓(xùn)練模型的方式受限于預(yù)訓(xùn)練模型原本的特征輸出,難以挖掘視頻的時序特征。

    CLIP不同層之間的特征差異可用于獲取視頻層級之間的特征表示,在進行下游任務(wù)適應(yīng)時,一種早期的方法[9,10]是通過全量訓(xùn)練CLIP模型來實現(xiàn),如圖1(a)所示。然而,這種方法存在兩個主要問題:a)全量訓(xùn)練CLIP模型的代價非常巨大,需要大量的計算資源和時間;b)對CLIP模型內(nèi)部層進行修改可能會破壞模型所具有的先驗知識。因此,在選擇適應(yīng)下游任務(wù)的方法時,需要考慮這些問題以及可能的解決方案。已經(jīng)有研究將 CLIP成功遷移到視頻領(lǐng)域并取得了顯著成果,但這些研究僅僅基于單模態(tài)結(jié)構(gòu)進行了調(diào)整,如圖1(b)所示?;诜种У慕Y(jié)構(gòu)[11],在CLIP視覺層之外引入一個多層分支網(wǎng)絡(luò),在不影響CLIP本身前向傳播的情況下,利用高層和低層知識增強視頻幀的特征。然而這種單模態(tài)方式學(xué)習(xí)的特征有限,無法在其他模態(tài)引導(dǎo)下有效學(xué)習(xí)當(dāng)前任務(wù)所需的視頻特征。

    視頻時刻檢索任務(wù)除視頻模態(tài)外,還存在文本模態(tài)作為查詢方式,將CLIP文本層知識與分支網(wǎng)絡(luò)結(jié)合是更為優(yōu)先且合理的選擇。ALBEF(align before fuse)[12]證明文本只需較小的網(wǎng)絡(luò)結(jié)構(gòu)就能挖掘到有效的特征,而視覺與多模態(tài)的交互需要更復(fù)雜的網(wǎng)絡(luò)挖掘和融合特征?;诖?,本文遷移預(yù)訓(xùn)練模型于視頻時刻檢索任務(wù)并增強多模態(tài)交互能力,提出視頻時序增強模塊(video temporal enhancement module,VTEMo),如圖1(c)所示。VTEMo采用旁路層級結(jié)構(gòu),通過提取CLIP不同層的視頻特征,實現(xiàn)對不同層級的視頻時序特征的獲取,而無須增加網(wǎng)絡(luò)的深度,有效地提升模塊提取時序語義特征的能力。VTEMo與ALBEF的交互方式不同,其側(cè)重于提取視頻分支并將文本作為提示進行引導(dǎo),以提高模塊在視頻特征提取方面的能力。同時,VTEMo凍結(jié)已有的預(yù)訓(xùn)練模型參數(shù),能夠保留CLIP層原有的空間語義特征,只需關(guān)注視頻的時序建模能力,保留模塊性能的同時,其本身結(jié)構(gòu)也相對簡潔。最后, VTEMo模態(tài)間的交互方式通用于其他模態(tài),使其可以遷移到其他多模態(tài)任務(wù)中。

    本文主要有以下三點貢獻:a)審視圖像-語言預(yù)訓(xùn)練模型與視頻時刻檢索任務(wù)的內(nèi)在聯(lián)系,發(fā)現(xiàn)核心挑戰(zhàn)在于引入多模態(tài)特征賦予模型對視頻幀之間的時序關(guān)系建模與多模態(tài)特征匹配的能力;b)提出VTEMo,以有限的計算量為代價,有效提高模型的性能,其通用的架構(gòu)使得預(yù)訓(xùn)練模型可以遷移到其他多模態(tài)任務(wù)中;c)與基線方法相比,所提方法在視頻時刻檢索任務(wù)上取得了具有競爭力的結(jié)果。

    1 相關(guān)工作

    1.1 多模態(tài)預(yù)訓(xùn)練

    主流的多模態(tài)方法[13~16]都可歸類為雙塔模型,通過兩個獨立的神經(jīng)網(wǎng)絡(luò)處理不同的輸入模態(tài),并通過融合這兩個模態(tài)的表示來完成任務(wù)。過去工作以傳統(tǒng)的神經(jīng)網(wǎng)絡(luò)架構(gòu)[17,18]提取視覺特征,這使得模塊復(fù)雜且效果不好。ViT(vision Transformer)[19]將Transformer[20]遷移到視覺領(lǐng)域,簡化模型架構(gòu)的同時增強了視覺特征提取能力。最近工作旨在用大規(guī)模圖像-語言數(shù)據(jù)集參與訓(xùn)練的方式提取特征。CLIP[5]是一項卓越的研究成果,展示了令人驚嘆的零樣本識別和泛化能力,相應(yīng)地推動了預(yù)訓(xùn)練模型遷移圖像領(lǐng)域任務(wù)的發(fā)展。Lseg(language-driven semantic segmentation)[21]、ViLD(vision and language knowledge distillation)[22]和CLIPasso[23]等模型在圖像分割、檢測和生成等領(lǐng)域都取得了顯著的進展。然而,上述模型都屬于圖像-語言模型,視頻-語言模型的研究進展相對較為緩慢。對于視頻和文本之間的關(guān)聯(lián)性建模,仍然存在挑戰(zhàn)和待解決的問題。

    早期遷移CLIP到視頻領(lǐng)域的方法[10,24]是將視頻的每一幀分割成相同大小的小塊,以時間或空間維度串聯(lián)各幀的所有小塊,以實現(xiàn)視頻與圖像輸入維度的一致,但重新預(yù)訓(xùn)練的方式?jīng)]有有效利用圖像-語言預(yù)訓(xùn)練模型的知識,且視頻數(shù)據(jù)量遠遠超過圖像數(shù)據(jù),這極大地增加了預(yù)訓(xùn)練模型的計算負荷,無法適用于其他任務(wù)。CLIP4CLIP[8]以序列化的方式進行大規(guī)模視頻-語言數(shù)據(jù)集的后預(yù)訓(xùn)練,并采用均值池化機制壓縮視頻特征,這種方式?jīng)]有學(xué)習(xí)到視頻幀之間的低層次特征表征,且依賴于圖像-語言預(yù)訓(xùn)練模型原本的知識。參數(shù)高效微調(diào)(parameter-efficient fine-tuning,PEFT)的方法開始被引入到多模態(tài)預(yù)訓(xùn)練模型,時空輔助網(wǎng)絡(luò)(spatial-temporal auxiliary network,STAN)[11]將其作為調(diào)諧適配器(adapter tuning),用于在不干擾主干網(wǎng)絡(luò)的情況下提取時空特征。然而,該模型只關(guān)注視頻特征,將文本作為多模態(tài)特征可以更有效地挖掘視頻的時空特征。本文策略保持了主干網(wǎng)絡(luò)的空間特征,使Adapter專注時序特征的提取,同時引入文本作為調(diào)諧提示(prompt tu-ning),通過多模態(tài)特征提升模型時序特征提取的能力。

    1.2 視頻時刻檢索

    視頻時刻檢索任務(wù)是多模態(tài)領(lǐng)域下的分支課題,為了提高系統(tǒng)的檢索性能,主流方法是先提取多模態(tài)預(yù)訓(xùn)練特征,然后在下游任務(wù)中對這些特征進行建模,以增強多模態(tài)交互的能力。從現(xiàn)有研究中觀察到主要有傳統(tǒng)預(yù)訓(xùn)練和大模型預(yù)訓(xùn)練兩種預(yù)訓(xùn)練方式實現(xiàn)視頻時刻檢索任務(wù)。早期采用傳統(tǒng)預(yù)訓(xùn)練[25~28]的方式,以CNN[17]或RNN[18]為基礎(chǔ)架構(gòu)的網(wǎng)絡(luò)提取特征,訓(xùn)練效果不好。目前流行的方法采用以C3D(convolutional 3D)[29]、I3D(inflated 3D)[30]、SlowFast[31]、Transformer[20]等為基礎(chǔ)架構(gòu)的模型預(yù)訓(xùn)練特征[2~4,32~34],基于已有預(yù)訓(xùn)練知識設(shè)計模型進行多模態(tài)特征融合。由于沒有成熟的視頻-語言預(yù)訓(xùn)練模型,圖像-語言預(yù)訓(xùn)練模型成為通用的替代方式。這種方式存在以下兩個問題:a)視頻模態(tài)的建模相比圖像應(yīng)該更加復(fù)雜,圖像-語言預(yù)訓(xùn)練模型難以提取視頻時序特征;b)采用兩階段訓(xùn)練方式僅在下游模型進行調(diào)整,其效果相對于端到端的訓(xùn)練方式而言較弱。基于圖像-語言多模態(tài)建模的工作[14,16,35]證明圖像模態(tài)需要更復(fù)雜的網(wǎng)絡(luò)才能獲取與文本對齊的特征,便于后續(xù)的模態(tài)融合。本文將該理念引入視頻領(lǐng)域,提出方法注重視頻模態(tài)的建模,在模態(tài)交互前融入其他模態(tài)的特征,增強了視頻模態(tài)提取特征的能力。同時,與前述方法不同,本文關(guān)注點在于預(yù)訓(xùn)練過程,并將傳統(tǒng)的兩階段訓(xùn)練方式轉(zhuǎn)變?yōu)槎说蕉擞?xùn)練方式。

    2 方法

    本文提出的VMRNet主要包括視頻-語言特征提取部分與視頻時刻檢索兩個部分,總體框架如圖2(a)所示。其中,視頻-語言特征提取部分包括CLIP[5]基礎(chǔ)架構(gòu)和所提VTEMo。VTRMo為一種基于Transformer[20]的層級架構(gòu),作為CLIP視覺編碼器的旁路,賦予模塊時序建模的能力,通過文本提示引導(dǎo)模塊提取關(guān)鍵視頻特征。視頻時刻檢索部分以編碼器-解碼器為基礎(chǔ)架構(gòu),時空特征融合模塊融合分離的時空特征,并在視頻-語言特征編碼器對文本進行編碼,編碼后的特征在視頻文本特征編碼器對融合的時空特征進行解碼,得到與文本匹配的視頻幀信息。

    2.1 概述

    視頻時刻檢索任務(wù)根據(jù)用戶輸入的由Nq個詞構(gòu)成的查詢文本Q,從給定的視頻V(該視頻包含Nv個不重疊的視頻片段,每個視頻片段時長為等長的t秒)中自動定位與查詢文本語義匹配的視頻片段。目前主流的方法[2~4,32~34]將該任務(wù)分成特征提取與特征融合兩個階段,其中特征提取對視頻和文本等不同模態(tài)的特征通過編碼器編碼,特征融合對跨模態(tài)的特征進行交互,獲得融合模態(tài)的特征,將其作為后續(xù)預(yù)測的輸入定位視頻片段的開始和結(jié)束時刻。該任務(wù)的核心和難點在于算法模型需要抽取和融合視頻中每一幀的語義信息和視頻幀序列之間的時序信息,并與查詢文本進行跨模態(tài)對齊。目前主流工作廣泛使用預(yù)訓(xùn)練的CLIP圖像編碼器提取視頻特征,在視頻特征抽取階段往往缺乏查詢文本的引導(dǎo),缺乏跨模態(tài)交互能力,無法準確捕獲當(dāng)前任務(wù)所需的視頻特征。

    為了緩解上述問題,本文提出了一種新的視頻時刻檢索模型VMRNet。如圖2(a)所示,該模型主要包括以下兩個階段:

    a)特征提取階段。本文引入CLIP視覺和文本編碼器,其中文本編碼器輸出特征可直接作為文本模態(tài)特征,視覺編碼器輸出作為視頻空間特征,與VTEMo輸出的視頻時序特征拼接,得到視頻模態(tài)特征。

    b)特征融合與解碼預(yù)測階段。本文參考Transformer編碼器-解碼器架構(gòu),將跨模態(tài)特征作為不同的查詢鍵值對。其中時空特征融合模塊為編碼器,通過自注意力計算融合分離的時空特征,得到完整的視頻模態(tài)特征。后續(xù)的編碼器-解碼器架構(gòu)通過視頻特征對文本特征編碼,使得文本特征獲取視頻特征的相關(guān)表示,將獲取的關(guān)聯(lián)性特征對原視頻特征解碼,得到最終預(yù)測特征向量,具體公式如下:

    P=softmax(Z′WQ(AWK)T/D)(AWV)+Z′(1)

    其中:Z′為融合的視頻時空特征向量;A為文本特征向量;D為兩者相同的特征維度;WQ、WK、WV分別為查詢、鍵和值的權(quán)重參數(shù);P為最終的預(yù)測特征向量。

    2.2 視頻-語言特征提取

    2.2.1 CLIP

    CLIP使用兩個編碼器構(gòu)建,一個用于圖像,另一個用于文本。圖像編碼器由12層ViT[19]堆疊組成,用于將圖像轉(zhuǎn)換為圖像特征向量。文本編碼器由12層標準的Transformer堆疊組成,用于將詞嵌入特征轉(zhuǎn)換為文本特征向量。訓(xùn)練過程中采用對比損失學(xué)習(xí)的方式,計算圖像特征向量與文本特征向量的余弦相似度。最大化圖像與匹配文本的余弦相似度,同時最小化圖像與其他不匹配文本的余弦相似度。本文僅提取CLIP編碼器部分,將視覺編碼器與文本編碼器獲得特征作為VTEMo輸入,得到視頻編碼特征。

    2.3 視頻時刻檢索

    2.3.1 時空特征融合模塊

    時序特征{vn}Nvn=1與空間特征{in}Nvn=1拼接后得到融合特征{zn}Nvn=1。拼接后的融合特征時空權(quán)重分布分散,只關(guān)注局部的時空相關(guān)性,而沒有關(guān)注到全局的時空信息,需要融合時空信息以得到更自然的時空特征表示。時空特征融合模塊采用線性映射壓縮時空特征信息,通過單層Transformer編碼器進行特征提取,使每個視頻幀融合時空特征的同時獲取到全局的幀間信息,得到更合理的時空特征融合表示{z′n}Nvn=1,具體公式如下:

    z′=FFN(MSA(z))+z(16)

    2.3.2 視頻-語言特征編碼器

    視頻時刻檢索任務(wù)需要交互視頻-語言特征,與視頻定長的特征維度不同,文本由于其序列長度不定,難以直接與視頻交互計算。視頻-語言特征編碼器通過更改自注意力的輸入,增加序列掩碼將不同序列長度的文本映射到同一維度的特征空間中。通過單層Transformer編碼器,將文本作為鍵和值以對查詢視頻進行編碼,使其關(guān)聯(lián)文本和視頻特征,得到各視頻幀與文本的關(guān)聯(lián)關(guān)系{an}Nvn=1,為后續(xù)的解碼器提供特征,具體公式如下:

    a=FFN(MSA(z′,q))+z′(17)

    2.3.3 視頻-語言特征解碼器

    視頻-語言特征解碼器遵循編碼器-解碼器的結(jié)構(gòu),通過視頻與文本關(guān)聯(lián)特征對原視頻時空特征進行解碼。解碼器采用多層Transformer編碼器堆疊的方式,各層解碼器輸出序列與編碼器輸入序列相同,使其得到與編碼器對齊的視頻特征。通過堆疊的方式,增強解碼器的解碼能力,得到視頻幀信息的解碼特征{pn}Nvn=1,單層解碼器公式如下:

    p=FFN(MSA(a,z′))+a(18)

    2.3.4 預(yù)測頭與損失函數(shù)

    由于所需視頻時刻存在起止點、長度等不同維度的特征,可將其拆分成不同屬性的特征聯(lián)合表示。解碼特征經(jīng)過不同的線性映射得到3份不同維度的特征序列,分別為窗口中心{cn}Nvn=1、中心偏移{on}Nvn=1和窗口大小{wn}Nvn=1。窗口中心為各幀作為窗口中心的置信度,訓(xùn)練過程中,采用局部高斯損失[36],給定每個窗口一個可接受的誤差區(qū)間,使得模型在預(yù)測上具有一定的彈性,同時加速誤差區(qū)間范圍外的窗口中心的收斂速度。給定的高斯損失如下:

    Euclid Math OneLApw=-1Nv∑n(1-c^n)αln c^n+(1-cn)γc^nln(1-c^n)(19)

    在時刻n下,cn為0或1的標簽,表示該時刻是否為真實中心,c^n為預(yù)測中心置信度,α、γ分別為預(yù)測中心和真實值的不同權(quán)重指數(shù)。對于已存在的誤差,結(jié)合下采樣帶來的間隔誤差,提出中心偏移以微調(diào)窗口中心的位置,中心偏移、窗口大小與窗口中心對應(yīng),分別表示對應(yīng)時刻窗口中心的偏移量與窗口大小。兩者均使用L1損失優(yōu)化:

    在時刻n下,on、o^n為該時刻的真實偏移和預(yù)測偏移,wn、w^n為該時刻的真實窗口大小與預(yù)測窗口大小。由預(yù)測參數(shù)得到預(yù)測視頻時刻真實范圍為[c~+o~-w~/2,c~+o~+w~/2]。c~、o~、w~分別為最大中心置信度所在時刻與對應(yīng)的中心偏移和窗口大小。

    3 實驗結(jié)果與分析

    3.1 前置工作

    3.1.1 數(shù)據(jù)集

    本文在QVHighlights[32]和Charades-STA[37]兩個熱門的數(shù)據(jù)集上進行實驗視頻時刻檢索任務(wù)的實驗。本文遵循原始的QVHighlights和Charades-STA數(shù)據(jù)分割方式進行實驗。

    QVHighlights是最近提出的一個數(shù)據(jù)集,其范圍涵蓋了廣泛的主題,包括日常活動和旅行的生活方式視頻,以及社會和政治活動的新聞視頻。該數(shù)據(jù)集由10 148個裁剪后的視頻組成,每個視頻的長度為128~150 s,并被分割成多個不重疊的2 s時刻片段。每個視頻都標注了至少一個描述與其相關(guān)的時刻的文本。每個文本描述對應(yīng)著若干個不相交的時刻片段。整個數(shù)據(jù)集共包含10 310個查詢和18 367個被標記的時刻片段。

    Charades-STA是一個旨在研究日常人類活動的非結(jié)構(gòu)化視頻活動識別和常識推理的數(shù)據(jù)集。該數(shù)據(jù)集包含9 848個室內(nèi)活動的視頻樣本,針對267個不同的用戶進行展示。每個樣本都以句子的形式呈現(xiàn)給用戶,句子中包括了來自固定詞匯表的對象和動作。用戶根據(jù)句子所描述的內(nèi)容,通過演繹相關(guān)視頻內(nèi)容來完成任務(wù)。該數(shù)據(jù)集包含了66 500個時間注釋,涵蓋了157個動作類別,以及41 104個標簽,涵蓋了46個物體類別。此外,數(shù)據(jù)集還提供了27 847個視頻的文本描述。

    3.1.2 評價指標

    本文沿用現(xiàn)有工作使用的評價指標。對于QVHighlights數(shù)據(jù)集,使用交并比(IoU)閾值為0.5和0.7的第一個結(jié)果的召回率(recall@1),IoU閾值為0.5和0.75的平均精度(mean average precision, mAP)和以[0.50.050.95],序列作為IoU閾值所得mAP的平均值(mAP@0.50.95),用于評估實驗結(jié)果。對于Charades-STA數(shù)據(jù)集,以IoU閾值0.5和0.7為界,使用第一個結(jié)果和前五個結(jié)果的召回率(recall@5)。相關(guān)計算公式如下:

    其中:TP、FP、FN分別為預(yù)測正確的正類數(shù)、預(yù)測錯誤的正類數(shù)、預(yù)測錯誤的負類數(shù);P、R分別為精確率和召回率;i為mAP閾值索引;N為IoU閾值到1之間的采樣數(shù);Δi為平均采樣間隔。

    3.1.3 實驗參數(shù)

    CLIP[5]使用ViT-B/32模型,該模型和預(yù)訓(xùn)練參數(shù)來自于Hugging Face官網(wǎng)。在文本方面,設(shè)置了截斷長度為32。VTEMo內(nèi)部MSA層隱藏維度為512,融合模塊和編碼器-解碼器MSA層隱藏維度為256,其中解碼器設(shè)置3層。在訓(xùn)練過程中,采用了學(xué)習(xí)率為1E-3、權(quán)重衰減為1E-4的Adam優(yōu)化器。對于QVHighlights數(shù)據(jù)集,采用2 s一幀的下采樣,設(shè)置32的batch size的和150迭代次數(shù)。對于Charades-STA數(shù)據(jù)集,采用0.2 s一幀的下采樣,設(shè)置8的batch size和100的迭代次數(shù)。

    3.2 實驗結(jié)果

    將本文VMRNet與基線方法結(jié)合,首先在QVHighlights上評估模型,并與現(xiàn)有工作對比,結(jié)果如表1所示,最優(yōu)的識別結(jié)果以粗體標記,其中w/PT表示引入ASR字幕后預(yù)訓(xùn)練結(jié)果。CAL、XML使用傳統(tǒng)預(yù)訓(xùn)練模型提取特征,Moment-DERT、UMT、UniVTG、QD-DETR使用CLIP提取特征。VMRNet大多數(shù)條件下優(yōu)于現(xiàn)有基線模型,在使用ASR字幕預(yù)訓(xùn)練的結(jié)果下,VMRNet在IoU閾值為0.5和0.7的條件下達到了63.23%和46.19%的召回率,IoU閾值為0.75的mAP達到了38.93%。IoU閾值為0.5的mAP表現(xiàn)不佳,可能由于損失函數(shù)更加強調(diào)提高預(yù)測時間與真實時間的重疊程度,而略微忽略時間重疊的覆蓋率。圖3給出了本文方法與UMT在QVHighlights上的對比結(jié)果。相比直接使用CLIP提取特征的模型,VMRNet有較好的時序建模能力,可以過濾視頻幀時序性噪聲,實現(xiàn)更精準的預(yù)測。Charades-STA上與現(xiàn)有工作的對比評估結(jié)果如表2所示,最優(yōu)的識別結(jié)果以粗體標記,其中w/PT表示引入ASR字幕后的預(yù)訓(xùn)練結(jié)果。VTEMo在大多數(shù)情況下優(yōu)于基線模型,對于在IoU閾值為0.5的條件下,VMRNet的第一項結(jié)果達到50.11%的召回率,第五項結(jié)果達到89.46%的召回率,優(yōu)于之前的基線模型?,F(xiàn)有方法直接使用預(yù)訓(xùn)練模型提取特征,無法得到視頻的時序特征,僅使用空間特征難以對齊文本。相比之下,VMRNet通過文本引導(dǎo)模型,可以提取視頻中關(guān)鍵的時序特征,同時得到與文本對齊的特征向量。

    3.3 消融實驗

    為驗證不同組件的有效性,以ASR字幕預(yù)訓(xùn)練為前提進行消融實驗,測試各組件的有效程度。

    3.3.1 VTEMo初始化層數(shù)消融實驗

    VTEMo為CLIP骨干網(wǎng)絡(luò)旁的分支網(wǎng)絡(luò),它將CLIP視覺層不同層的視覺表示作為輸入。為驗證不同層級的視覺特征對時序建模能力的影響,增加文本提示,對VTEMo層數(shù)進行了不同的初始化設(shè)置,并測試其效果,實驗結(jié)果如表3所示。其中a為最原始的模型,不使用VTEMo模塊,b、c、d分別為VTEMo初始化1層、2層、3層的模型。與直觀的結(jié)果不同,模型在1層的時候性能達到峰值,隨著VTEMo初始化層數(shù)增加,模型性能緩慢下降。CLIP高層次的視覺語義特征足夠優(yōu)秀,可以直接遷移到其他下游任務(wù)進行訓(xùn)練,而低層次的視覺特征可能并沒有學(xué)到足夠的視覺知識,將低層次的特征作為VTEMo的輸入可能會干擾模型提取時序特征的能力,但對該任務(wù)而言,增加VTEMo模塊的性能要優(yōu)于原模型。

    3.3.2 文本提示組件消融實驗

    為驗證文本提示的有效性,將VTEMo內(nèi)部層數(shù)設(shè)置為1層,進行了增加文本提示與取消文本提示兩組實驗,實驗結(jié)果如表4所示。其中e為不使用文本提示的模塊,f為使用文本提示的模塊。實驗結(jié)果可知,將文本引入VTEMo并將其作為提示,能有效對齊視頻時序特征與文本特征,增強模塊根據(jù)文本查詢相關(guān)視頻幀的能力,從而獲取與文本關(guān)聯(lián)性更高的視頻幀信息。文本提示的方式能有效增強模塊提取視頻時序特征表示,相比單模態(tài),多模態(tài)的學(xué)習(xí)可以使模塊捕獲更多有用的信息。

    4 結(jié)束語

    本文研究了CLIP預(yù)訓(xùn)練模型遷移到視頻時刻的檢索任務(wù)。首先,發(fā)現(xiàn)目前的單模態(tài)方法不能有效提取視頻的時序性特征,提出了視頻時序增強模塊(VTEMo),將文本提示的理念引入到預(yù)訓(xùn)練模型中,并以此為基礎(chǔ)構(gòu)建視頻時刻檢索網(wǎng)絡(luò)(VMRNet),設(shè)計的網(wǎng)絡(luò)有效融合了多模態(tài)的特征,并提升模型獲取時序特征的能力。其次,將預(yù)訓(xùn)練模型遷移到了視頻時刻檢索任務(wù),將兩階段的訓(xùn)練方式轉(zhuǎn)變?yōu)槎说蕉说挠?xùn)練方式,融合了時空特征的視頻片段,使得模型在視頻時刻檢索任務(wù)上有顯著的提升。最后,提出的網(wǎng)絡(luò)足夠靈活,可以遷移到其他的多模態(tài)任務(wù)中。本文實驗成果如圖3所示,VMRNet可通過原視頻與視頻片段相關(guān)問句,檢索到與真實結(jié)果相近的視頻片段,可促進智能推薦、監(jiān)控安防等相關(guān)產(chǎn)業(yè)發(fā)展。本文就目前方法所得的實驗結(jié)果,觀察到模型對較長的視頻時刻(gt;30 s)預(yù)測能力較強,而對較短的視頻時刻(lt;10 s)預(yù)測能力較弱,得到該模型對短視頻時刻能力的預(yù)測依舊具有一定局限性,后續(xù)將研究如何更改長短視頻時刻的注意力權(quán)重,均值化長短視頻時刻特征,以此提升模型預(yù)測短視頻時刻的能力。

    參考文獻:

    [1]Zhang Hao, Sun Aixin, Jing Wei, et al.Temporal sentence grounding in videos: a survey and future directions[J]. IEEE Trans on Pattern Analysis and Machine Intelligence, 2023, 45(8): 10443-10465.

    [2]Chen Tongbao, Wang Wenmin, Jiang Zhe, et al.Cross-modality knowledge calibration network for video corpus moment retrieval[J]. IEEE Trans on Multimedia, 2023, 26(9): 3799-3813.

    [3]Panta L, Shrestha P, Sapkota B,et al.Cross-modal contrastive lear-ning with asymmetric co-attention network for video moment retrieval[C]// Proc of IEEE/CVF Winter Conference on Applications of Computer Vision. Piscataway, NJ: IEEE Press, 2024: 607-614.

    [4]Shen Xingyu, Zhang Xiang, Yang Xun, et al.Semantics-enriched cross-modal alignment for complex-query video moment retrieval[C]// Proc of the 31st ACM International Conference on Multimedia. New York: ACM Press, 2023: 4109-4118.

    [5]Radford A, Kim J W, Hallacy C,et al.Learning transferable visual models from natural language supervision[C]// Proc of the 38th International Conference on Machine Learning. [S.l.]: PMLR, 2021: 8748-8763.

    [6]Fang Han, Xiong Pengfei, XuLuhui, et al.CLIP2Video: mastering video-text retrieval via image clip[EB/OL]. (2021-06-21). https://arxiv.org/abs/2106.11097.

    [7]Gao Zijian, Liu Jingyu, Chen Sheng, et al.CLIP2TV: an empirical study on transformer-based methods for video-text retrieval[EB/OL]. (2022-07-21). https://arxiv.org/abs/2111.05610.

    [8]Luo Huaishao, Ji Lei, Zhong Ming, et al.CLIP4Clip: an empirical study of clip for end to end video clip retrieval[J]. Neurocompu-ting, 2022, 508: 293-304.

    [9]Lei Jie, Li Linjie, Zhou Luowei, et al.Less is more: CLIPBERT for video-and-language learning via sparse sampling[C]// Proc of IEEE/CVF Conference on Computer Vision and Pattern Recognition. Pisca-taway, NJ: IEEE Press, 2021: 7327-7337.

    [10]Xu Hu, Ghosh G, Huang P Y,et al.VideoCLIP: contrastive pre-training for zero-shot video-text understanding[C]// Proc of Conference on Empirical Methods in Natural Language Processing. Stroudsburg, PA: Association for Computational Linguistics, 2021: 6787-6800.

    [11]Liu Ruyang, Huang Jingjia, Li Ge, et al.Revisiting temporal mode-ling for clip-based image-to-video knowledge transferring [C]// Proc of IEEE/CVF Conference on Computer Vision and Pattern Recognition. Piscataway, NJ: IEEE Press, 2023: 6555-6564.

    [12]Li Junnan, Selvaraju R R, Gotmare A, et al.Align before fuse: vision and language representation learning with momentum distillation[C]// Advances in Neural Information Processing Systems. Red Hook, NY: Curran Associates Inc., 2021: 9694-9705.

    [13]Gabeur V, Sun C, Alahari K, et al.Multi-modal Transformer for video retrieval[C]// Proc of Computer Vision Conference. Cham: Springer, 2020: 214-229.

    [14]Lu Jiasen, Batra D, Parikh D, et al.ViLBERT: pretraining task-agnostic visio linguistic representations for vision-and-language tasks[C]// Proc of the 33rd International Conference on Neural Information Processing Systems. Red Hook, NY: Curran Associates Inc., 2019: 13-23.

    [15]Tan Hao, Bansal M. LXMERT: learning cross-modality encoder representations from transformers [EB/OL]. (2019-12-03). https://arxiv.org/abs/1908.07490.

    [16]Su Weijie, Zhu Xizhou, Cao Yue, et al.VL-BERT: pre-training of generic visual-linguistic representations [EB/OL]. (2020-02-18). https://arxiv.org/abs/1908.08530.

    [17]Kim Y. Convolutional neural networks for sentence classification [C]// Proc of Conference on Empirical Methods in Natural Language Processing. Stroudsburg, PA: Association for Computational Linguistics, 2014: 1746-1751.

    [18]Elman J L. Finding structure in time[J]. Cognitive Science, 1990, 14(2): 179-211.

    [19]Dosovitskiy A, Beyer L, Kolesnikov A, et al.An image is worth 16×16 words: transformers for image recognition at scale[EB/OL]. (2021-06-03). https://arxiv.org/abs/2010.11929.

    [20]Vaswani A,Shazeer N, Parmar N, et al.Attention is all you need[C]// Proc of the 31st International Conference on Neural Information Processing Systems. Red Hook, NY: Curran Associates Inc., 2017: 6000-6010.

    [21]Li Boyi, Weinberger K Q, Belongie S, et al. Language-driven semantic segmentation[EB/OL]. (2022-04-03). https://arxiv.org/abs/2201.03546.

    [22]Gu Xiuye, Lin T Y, Kuo Weicheng, et al.Open-vocabulary object detection via vision and language knowledge distillation[EB/OL]. (2022-05-12). https://arxiv.org/abs/2104.13921.

    [23]Vinker Y, Pajouheshgar E, Bo J Y, et al.CLIPasso: semantically-aware object sketching[J]. ACM Trans on Graphics, 2022, 41(4): 1-11.

    [24]Arnab A, Dehghani M,Heigold G, et al.ViViT: a video vision transformer[C]// Proc of IEEE/CVF International Conference on Computer Vision. Piscataway, NJ: IEEE Press, 2021: 6816-6826.

    [25]Escorcia V, Soldan M, Sivic J,et al.Temporal localization of moments in video collections with natural language[EB/OL]. (2019-07-30). https://arxiv.org/abs/1907.12763.

    [26]Lei Jie, Yu Licheng, Berg T L, et al.TVR: a large-scale dataset for video-subtitle moment retrieval[C]// Proc of Computer Vision Conference. Cham: Springer, 2020: 447-463.

    [27]Hendricks L A, Wang O, Shechtman E, et al.Localizing moments in video with natural language[C]// Proc of IEEE International Confe-rence on Computer Vision. Piscataway, NJ: IEEE Press, 2017: 5804-5813.

    [28]Liu Wu, Mei Tao, Zhang Yongdong, et al.Multi-task deep visual-semantic embedding for video thumbnail selection[C]// Proc of IEEE Conference on Computer Vision and Pattern Recognition. Piscataway, NJ: IEEE Press, 2015: 3707-3715.

    [29]Tran D,Bourdev L, Fergus R, et al.Learning spatiotemporal features with 3D convolutional networks[C]// Proc of IEEE International Conference on Computer Vision. Piscataway, NJ: IEEE Press, 2015: 4489-4497.

    [30]Carreira J, Zisserman A. Quovadis, action recognition? A new model and the kinetics dataset[C]// Proc of IEEE Conference on Computer Vision and Pattern Recognition. Piscataway, NJ: IEEE Press, 2017: 4724-4733.

    [31]Feichtenhofer C, Fan Haoqi, Malik J, et al.SlowFast networks for video recognition[C]// Proc of IEEE/CVF International Conference on Computer Vision. Piscataway, NJ: IEEE Press, 2019: 6201-6210.

    [32]Lei Jie, Berg T L, Bansal M.QVHighlights: detecting moments and highlights in videos via natural language queries[C]// Proc of the 35th International Conference on Neural Information Processing Systems. Red Hook, NY: Curran Associates Inc., 2021: 11846-11858.

    [33]Liu Ye, Li Siyuan, Wu Yang, et al.UMT: unified multi-modal transformers for joint video moment retrieval and highlight detection[C]// Proc of IEEE/CVF Conference on Computer Vision and Pattern Recognition. Piscataway, NJ: IEEE Press, 2022: 3032-3041.

    [34]Lin K Q, Zhang Pengchuan, Chen J, et al.UniVTG: towards unified video-language temporal grounding[C]// Proc of IEEE/CVF International Conference on Computer Vision. Piscataway, NJ: IEEE Press, 2023: 2782-2792.

    [35]Kim W, Son B, Kim I. ViLT: vision-and-language transformer without convolution or region supervision[C]// Proc of the 38th International Conference on Machine Learning. [S.l.]: PMLR, 2021: 5583-5594.

    [36]Wang Jian, Li Fan, Bi Haixia. Gaussian focal loss: learning distribution polarized angle prediction for rotated object detection in aerial images[J]. IEEE Trans on Geoscience and Remote Sensing, 2022, 60: 1-13.

    [37]Sigurdsson G A, Varol G, Wang Xiaolong, et al.Hollywood in homes: crowdsourcing data collection for activity understanding[C]// Proc of Computer Vision Conference. Cham: Springer, 2016: 510-526.

    [38]Moon W, Hyun S, Park S, et al. Query-dependent video representation for moment retrieval and highlight detection[C]// Proc of IEEE/CVF Conference on Computer Vision and Pattern Recognition. Pisca-taway, NJ: IEEE Press, 2023: 23023-23033.

    [39]Zhang Da, Dai Xiyang, Wang Xin, et al.MAN: moment alignment network for natural language moment retrieval via iterative graph adjustment[C]// Proc of IEEE/CVF Conference on Computer Vision and Pattern Recognition. Piscataway, NJ: IEEE Press, 2019: 1247-1257.

    [40]Zhang Songyang, Peng Houwen, Fu Jianlong, et al.Learning 2D temporal adjacent networks for moment localization with natural language[C]// Proc of AAAI Conference on Artificial Intelligence. Palo Alto, CA: AAAI Press, 2020: 12870-12877.

    [41]Gao Junyu, Xu Changsheng. Fast video moment retrieval[C]// Proc of IEEE/CVF International Conference on Computer Vision. Pisca-taway, NJ: IEEE Press, 2021: 1503-1512.

    [42]Ma Yue, Yang Tianyu, Shan Yin, et al.SimVTP: simple video text pre-training with masked autoencoders[EB/OL]. (2022-12-07). https://arxiv. org/abs/2212.03490.

    猜你喜歡
    多模態(tài)圖像
    改進的LapSRN遙感圖像超分辨重建
    基于FPGA的實時圖像去霧系統(tǒng)
    如何由圖像確定y=Asin(ωx+φ)+B的解析式
    淺析p-V圖像中的兩個疑難問題
    有趣的圖像詩
    多模態(tài)話語中的詹姆斯·卡梅隆電影
    英語閱讀教學(xué)中多模態(tài)識讀能力的培養(yǎng)
    網(wǎng)絡(luò)環(huán)境下大學(xué)英語多模態(tài)交互式閱讀教學(xué)模式研究
    戲劇之家(2016年22期)2016-11-30 18:20:43
    多模態(tài)理論視角下大學(xué)英語課堂的構(gòu)建
    新媒體環(huán)境下多模態(tài)商務(wù)英語課堂教師角色定位
    成人av一区二区三区在线看| 亚洲久久久国产精品| 少妇裸体淫交视频免费看高清 | 久久午夜亚洲精品久久| 色尼玛亚洲综合影院| 亚洲成人手机| 久久久精品区二区三区| 色在线成人网| 精品国产一区二区三区久久久樱花| 亚洲一区二区三区欧美精品| 久久精品国产99精品国产亚洲性色 | 亚洲av美国av| 一级,二级,三级黄色视频| 在线av久久热| av国产精品久久久久影院| 午夜日韩欧美国产| 亚洲欧美日韩高清在线视频| 制服人妻中文乱码| 高潮久久久久久久久久久不卡| 高清欧美精品videossex| 三上悠亚av全集在线观看| 在线免费观看的www视频| 男女之事视频高清在线观看| 欧美一级毛片孕妇| 亚洲自偷自拍图片 自拍| 大型黄色视频在线免费观看| 久久精品人人爽人人爽视色| 后天国语完整版免费观看| 久久久久精品国产欧美久久久| 欧美 亚洲 国产 日韩一| 成人国产一区最新在线观看| 精品久久久久久久毛片微露脸| 99riav亚洲国产免费| 熟女少妇亚洲综合色aaa.| 一本大道久久a久久精品| 韩国av一区二区三区四区| 又紧又爽又黄一区二区| 热99久久久久精品小说推荐| 嫁个100分男人电影在线观看| 国产男女内射视频| 侵犯人妻中文字幕一二三四区| 欧美在线黄色| cao死你这个sao货| 欧美中文综合在线视频| 一级黄色大片毛片| 欧美激情 高清一区二区三区| 久久亚洲真实| √禁漫天堂资源中文www| 香蕉久久夜色| 免费少妇av软件| 欧美激情高清一区二区三区| 老司机午夜福利在线观看视频| 9191精品国产免费久久| 国产亚洲精品第一综合不卡| 天堂中文最新版在线下载| 日本vs欧美在线观看视频| 少妇猛男粗大的猛烈进出视频| 在线观看www视频免费| 在线永久观看黄色视频| 十八禁人妻一区二区| 国产精品 欧美亚洲| 99国产精品一区二区三区| 99国产极品粉嫩在线观看| av有码第一页| 日本一区二区免费在线视频| 9191精品国产免费久久| 亚洲国产精品sss在线观看 | 中文字幕人妻丝袜制服| 中文字幕色久视频| 老司机深夜福利视频在线观看| av中文乱码字幕在线| 大香蕉久久网| 欧美日韩福利视频一区二区| 精品国内亚洲2022精品成人 | 亚洲国产欧美一区二区综合| 国产精品一区二区在线不卡| 精品国产超薄肉色丝袜足j| 欧美午夜高清在线| 欧美日韩视频精品一区| 91精品国产国语对白视频| 精品电影一区二区在线| 欧美日韩中文字幕国产精品一区二区三区 | www.自偷自拍.com| 叶爱在线成人免费视频播放| av网站在线播放免费| 亚洲va日本ⅴa欧美va伊人久久| 男女午夜视频在线观看| 交换朋友夫妻互换小说| 久久久久久久久免费视频了| 国产欧美日韩一区二区三区在线| 视频区欧美日本亚洲| 精品熟女少妇八av免费久了| 啦啦啦在线免费观看视频4| 老司机靠b影院| 天堂动漫精品| x7x7x7水蜜桃| 亚洲va日本ⅴa欧美va伊人久久| 久久国产乱子伦精品免费另类| 99精国产麻豆久久婷婷| 久久久国产成人精品二区 | 精品亚洲成国产av| 亚洲av日韩在线播放| 大码成人一级视频| 国产精品1区2区在线观看. | av网站在线播放免费| 岛国在线观看网站| 精品人妻在线不人妻| 日韩人妻精品一区2区三区| svipshipincom国产片| 国产精品免费视频内射| 99热只有精品国产| 国产精品美女特级片免费视频播放器 | 男女之事视频高清在线观看| 老司机福利观看| 亚洲精品一卡2卡三卡4卡5卡| 人妻 亚洲 视频| 最近最新免费中文字幕在线| 看免费av毛片| av天堂在线播放| 黄色视频,在线免费观看| 最新在线观看一区二区三区| 黄色成人免费大全| 91精品三级在线观看| 精品熟女少妇八av免费久了| 国产成+人综合+亚洲专区| 久久久国产欧美日韩av| 中国美女看黄片| 中文字幕最新亚洲高清| 嫩草影视91久久| 极品教师在线免费播放| 国产精品免费大片| 欧美成人午夜精品| 久久久国产精品麻豆| 操美女的视频在线观看| 在线观看66精品国产| 美女高潮喷水抽搐中文字幕| 午夜福利在线观看吧| 少妇的丰满在线观看| xxx96com| 欧美乱码精品一区二区三区| 欧美日韩黄片免| 欧美激情极品国产一区二区三区| 可以免费在线观看a视频的电影网站| 在线十欧美十亚洲十日本专区| 国产又爽黄色视频| 超色免费av| 黄色怎么调成土黄色| 纯流量卡能插随身wifi吗| 国产三级黄色录像| 久久久久国产一级毛片高清牌| 老司机在亚洲福利影院| 成年人免费黄色播放视频| 黄色片一级片一级黄色片| 精品久久久精品久久久| 精品久久久久久,| 51午夜福利影视在线观看| 午夜成年电影在线免费观看| 中文亚洲av片在线观看爽 | 亚洲中文日韩欧美视频| 久久精品熟女亚洲av麻豆精品| 欧美日韩成人在线一区二区| 精品久久久久久久久久免费视频 | av天堂在线播放| 国产精品久久久久久人妻精品电影| 成人18禁高潮啪啪吃奶动态图| 亚洲 国产 在线| 亚洲国产精品一区二区三区在线| xxxhd国产人妻xxx| 日韩精品免费视频一区二区三区| 国产成人一区二区三区免费视频网站| 女人爽到高潮嗷嗷叫在线视频| 在线视频色国产色| 国产色视频综合| 韩国av一区二区三区四区| 日日摸夜夜添夜夜添小说| 国产无遮挡羞羞视频在线观看| 大香蕉久久网| 国内久久婷婷六月综合欲色啪| 国产亚洲av高清不卡| 亚洲精品美女久久av网站| 免费不卡黄色视频| 热re99久久精品国产66热6| 老汉色av国产亚洲站长工具| 午夜久久久在线观看| 身体一侧抽搐| 啪啪无遮挡十八禁网站| 在线观看免费高清a一片| 色在线成人网| av福利片在线| 久久久久国产精品人妻aⅴ院 | 色综合婷婷激情| 精品视频人人做人人爽| 久久这里只有精品19| 九色亚洲精品在线播放| 极品教师在线免费播放| 50天的宝宝边吃奶边哭怎么回事| 午夜福利欧美成人| 日本vs欧美在线观看视频| 国产精品98久久久久久宅男小说| 99国产综合亚洲精品| 欧美国产精品一级二级三级| 国产精品影院久久| 一级,二级,三级黄色视频| 男男h啪啪无遮挡| 久久国产精品男人的天堂亚洲| 亚洲国产欧美一区二区综合| 国产成人av激情在线播放| 国产欧美日韩一区二区三区在线| 欧美日韩亚洲综合一区二区三区_| 黄色片一级片一级黄色片| 91在线观看av| 人妻一区二区av| 亚洲一卡2卡3卡4卡5卡精品中文| av免费在线观看网站| avwww免费| 欧美日韩一级在线毛片| 好看av亚洲va欧美ⅴa在| 亚洲成人国产一区在线观看| 国产极品粉嫩免费观看在线| 精品福利观看| 99国产精品免费福利视频| 国产精品亚洲av一区麻豆| 热99国产精品久久久久久7| 天天躁狠狠躁夜夜躁狠狠躁| 久久久久久久精品吃奶| 99久久99久久久精品蜜桃| 91成人精品电影| 91av网站免费观看| 99精品在免费线老司机午夜| 亚洲国产精品sss在线观看 | 欧美激情 高清一区二区三区| 黄频高清免费视频| 女人被狂操c到高潮| 99精品在免费线老司机午夜| 搡老岳熟女国产| 免费人成视频x8x8入口观看| 亚洲 欧美一区二区三区| 大型黄色视频在线免费观看| 性色av乱码一区二区三区2| 精品欧美一区二区三区在线| 麻豆乱淫一区二区| 一级片免费观看大全| 国产高清国产精品国产三级| 身体一侧抽搐| 国产有黄有色有爽视频| 成人精品一区二区免费| 国产一区在线观看成人免费| 欧美亚洲 丝袜 人妻 在线| 成人18禁在线播放| 午夜免费成人在线视频| 午夜福利免费观看在线| 久久热在线av| 亚洲精品中文字幕在线视频| 久久久国产成人免费| 欧美不卡视频在线免费观看 | 国产精品一区二区在线观看99| 精品久久久久久电影网| 欧美日韩精品网址| videosex国产| 无人区码免费观看不卡| 在线观看免费视频日本深夜| 久久久国产精品麻豆| 久久国产精品人妻蜜桃| 成人av一区二区三区在线看| 欧美精品一区二区免费开放| 精品高清国产在线一区| 国产不卡一卡二| 久久中文字幕人妻熟女| 黑人猛操日本美女一级片| 日本五十路高清| 亚洲av第一区精品v没综合| 亚洲精品乱久久久久久| 久热爱精品视频在线9| 99精品欧美一区二区三区四区| 如日韩欧美国产精品一区二区三区| 日日夜夜操网爽| 亚洲精品成人av观看孕妇| 国产有黄有色有爽视频| 国产精品偷伦视频观看了| 国产欧美日韩一区二区精品| 亚洲国产中文字幕在线视频| 日日夜夜操网爽| 麻豆成人av在线观看| 免费黄频网站在线观看国产| 日本精品一区二区三区蜜桃| 最近最新中文字幕大全免费视频| bbb黄色大片| 国产日韩一区二区三区精品不卡| 亚洲午夜精品一区,二区,三区| 久久精品国产亚洲av香蕉五月 | 国产高清视频在线播放一区| 丝袜美腿诱惑在线| 国产男女内射视频| 亚洲全国av大片| 青草久久国产| 色综合婷婷激情| 国产精品香港三级国产av潘金莲| 亚洲熟女精品中文字幕| 美国免费a级毛片| 美女高潮到喷水免费观看| 狂野欧美激情性xxxx| 亚洲欧美精品综合一区二区三区| 国产欧美亚洲国产| 国产人伦9x9x在线观看| 婷婷精品国产亚洲av在线 | 亚洲成人手机| 中文字幕人妻丝袜一区二区| 热99re8久久精品国产| 欧美 亚洲 国产 日韩一| 一进一出好大好爽视频| 日韩有码中文字幕| 午夜激情av网站| 51午夜福利影视在线观看| 精品久久久久久久久久免费视频 | 国产精品免费视频内射| a级片在线免费高清观看视频| 中文欧美无线码| 99国产精品99久久久久| 欧美激情 高清一区二区三区| 如日韩欧美国产精品一区二区三区| 久久青草综合色| 99国产极品粉嫩在线观看| 精品国产乱码久久久久久男人| 大码成人一级视频| 国产亚洲av高清不卡| 欧美激情极品国产一区二区三区| 黄色丝袜av网址大全| 在线观看www视频免费| 免费高清在线观看日韩| 欧美中文综合在线视频| 村上凉子中文字幕在线| 18在线观看网站| 精品少妇久久久久久888优播| 亚洲精品在线观看二区| 亚洲av第一区精品v没综合| 久久国产亚洲av麻豆专区| 精品久久久久久,| 亚洲黑人精品在线| 国产99久久九九免费精品| 亚洲av成人不卡在线观看播放网| 男人的好看免费观看在线视频 | 日韩制服丝袜自拍偷拍| 亚洲精品中文字幕一二三四区| 国产高清国产精品国产三级| 日韩欧美国产一区二区入口| 一级片免费观看大全| 亚洲在线自拍视频| 午夜免费成人在线视频| 在线观看午夜福利视频| 九色亚洲精品在线播放| 国产av精品麻豆| 熟女少妇亚洲综合色aaa.| 一边摸一边做爽爽视频免费| 男女免费视频国产| 黑人欧美特级aaaaaa片| av中文乱码字幕在线| 1024视频免费在线观看| 看片在线看免费视频| 日韩成人在线观看一区二区三区| 成年人黄色毛片网站| 男男h啪啪无遮挡| 国产91精品成人一区二区三区| 国产精品久久视频播放| 一级毛片精品| 村上凉子中文字幕在线| 亚洲熟女精品中文字幕| 亚洲自偷自拍图片 自拍| 热99久久久久精品小说推荐| 别揉我奶头~嗯~啊~动态视频| 黄色成人免费大全| 19禁男女啪啪无遮挡网站| 十分钟在线观看高清视频www| 欧美成人午夜精品| 久久天躁狠狠躁夜夜2o2o| 国产免费男女视频| 精品人妻熟女毛片av久久网站| 亚洲精品国产色婷婷电影| 美女午夜性视频免费| 桃红色精品国产亚洲av| 看黄色毛片网站| 国产一区在线观看成人免费| 久久性视频一级片| 超碰成人久久| 欧美黑人精品巨大| 极品人妻少妇av视频| 老熟妇乱子伦视频在线观看| 一本一本久久a久久精品综合妖精| 最近最新免费中文字幕在线| 亚洲av成人一区二区三| 亚洲精品粉嫩美女一区| 18禁裸乳无遮挡动漫免费视频| 亚洲欧美日韩另类电影网站| 亚洲中文av在线| 9色porny在线观看| 亚洲第一av免费看| 麻豆国产av国片精品| 国产成人欧美| 18禁裸乳无遮挡免费网站照片 | 在线观看免费视频日本深夜| 亚洲av第一区精品v没综合| 日日摸夜夜添夜夜添小说| 91成年电影在线观看| 亚洲欧洲精品一区二区精品久久久| av线在线观看网站| 午夜亚洲福利在线播放| 免费一级毛片在线播放高清视频 | 曰老女人黄片| 久久中文字幕一级| 精品一区二区三区av网在线观看| 99久久人妻综合| 亚洲熟妇熟女久久| 国产精品 国内视频| 国产精品 欧美亚洲| 九色亚洲精品在线播放| 久久人妻福利社区极品人妻图片| 久久青草综合色| 日韩欧美一区视频在线观看| 精品久久蜜臀av无| 精品视频人人做人人爽| 国产区一区二久久| 亚洲 国产 在线| e午夜精品久久久久久久| 美女视频免费永久观看网站| 身体一侧抽搐| 满18在线观看网站| 亚洲五月色婷婷综合| 51午夜福利影视在线观看| 国产乱人伦免费视频| 欧美日韩亚洲综合一区二区三区_| av不卡在线播放| 亚洲av电影在线进入| 国产在视频线精品| 露出奶头的视频| 香蕉久久夜色| 极品教师在线免费播放| 9热在线视频观看99| 亚洲九九香蕉| 9191精品国产免费久久| 亚洲av熟女| 一本大道久久a久久精品| 国产不卡av网站在线观看| 黄片播放在线免费| a级片在线免费高清观看视频| 亚洲国产中文字幕在线视频| 极品少妇高潮喷水抽搐| 狂野欧美激情性xxxx| 免费看a级黄色片| 久久这里只有精品19| 丁香欧美五月| 成人国语在线视频| 99久久人妻综合| 777米奇影视久久| 免费黄频网站在线观看国产| 老司机午夜十八禁免费视频| 搡老岳熟女国产| aaaaa片日本免费| 国产精品综合久久久久久久免费 | 亚洲欧美激情在线| 国产黄色免费在线视频| 国产乱人伦免费视频| 亚洲精品美女久久久久99蜜臀| 色综合婷婷激情| 成年人免费黄色播放视频| 国产精品永久免费网站| 天堂√8在线中文| 淫妇啪啪啪对白视频| 80岁老熟妇乱子伦牲交| 怎么达到女性高潮| 人妻 亚洲 视频| 国产麻豆69| 国产精品影院久久| 一进一出抽搐动态| 美女视频免费永久观看网站| 操美女的视频在线观看| 精品人妻1区二区| 日韩有码中文字幕| 搡老岳熟女国产| 女人精品久久久久毛片| 99久久人妻综合| 免费久久久久久久精品成人欧美视频| 国产精品香港三级国产av潘金莲| 自拍欧美九色日韩亚洲蝌蚪91| 国产精品久久久人人做人人爽| 成人三级做爰电影| tube8黄色片| 国产片内射在线| 日韩 欧美 亚洲 中文字幕| 中文字幕最新亚洲高清| 一个人免费在线观看的高清视频| 欧美不卡视频在线免费观看 | 国产在线精品亚洲第一网站| 中文字幕高清在线视频| 欧美av亚洲av综合av国产av| 成人国语在线视频| 免费黄频网站在线观看国产| 久久ye,这里只有精品| av视频免费观看在线观看| 成人影院久久| 午夜免费观看网址| 欧美日韩亚洲国产一区二区在线观看 | 日本欧美视频一区| 精品欧美一区二区三区在线| 午夜福利,免费看| 伦理电影免费视频| 欧美黄色片欧美黄色片| 亚洲情色 制服丝袜| 久久亚洲精品不卡| av一本久久久久| 国产精品免费一区二区三区在线 | 亚洲国产欧美网| 国产成人精品在线电影| 亚洲专区国产一区二区| 高清黄色对白视频在线免费看| 动漫黄色视频在线观看| 午夜精品在线福利| 国产精品久久久av美女十八| 少妇的丰满在线观看| 日韩欧美三级三区| 国产在线精品亚洲第一网站| 精品人妻熟女毛片av久久网站| 亚洲自偷自拍图片 自拍| 亚洲性夜色夜夜综合| 日日摸夜夜添夜夜添小说| 国产成人精品在线电影| 欧美日韩精品网址| 最新的欧美精品一区二区| 老汉色∧v一级毛片| 国产极品粉嫩免费观看在线| 国产欧美日韩一区二区三区在线| 亚洲国产中文字幕在线视频| 亚洲精品国产精品久久久不卡| 脱女人内裤的视频| 啦啦啦 在线观看视频| 欧美激情久久久久久爽电影 | 丰满饥渴人妻一区二区三| 久久九九热精品免费| 久久久久久久国产电影| 日本一区二区免费在线视频| 久久人妻av系列| 在线免费观看的www视频| 夜夜躁狠狠躁天天躁| 日韩欧美免费精品| 午夜福利影视在线免费观看| 久久九九热精品免费| 成人av一区二区三区在线看| 俄罗斯特黄特色一大片| 亚洲三区欧美一区| 国产欧美日韩一区二区精品| 欧美在线黄色| 国产精品永久免费网站| 大陆偷拍与自拍| 香蕉久久夜色| 久久人妻福利社区极品人妻图片| 一区二区三区激情视频| 成年人黄色毛片网站| 多毛熟女@视频| 日韩熟女老妇一区二区性免费视频| 最新美女视频免费是黄的| 少妇裸体淫交视频免费看高清 | 最近最新免费中文字幕在线| 亚洲专区国产一区二区| 国产成人免费观看mmmm| 国产精品久久久av美女十八| 国产精品欧美亚洲77777| 国产精品九九99| 色综合婷婷激情| 十八禁网站免费在线| 又黄又粗又硬又大视频| 久久精品国产亚洲av高清一级| 国产欧美日韩一区二区三区在线| 免费在线观看亚洲国产| 日本黄色视频三级网站网址 | 亚洲七黄色美女视频| 欧美色视频一区免费| 欧美性长视频在线观看| 大香蕉久久网| 制服人妻中文乱码| 国产真人三级小视频在线观看| 日本一区二区免费在线视频| 欧美精品亚洲一区二区| 中亚洲国语对白在线视频| netflix在线观看网站| 午夜福利,免费看| 国产亚洲欧美精品永久| 999精品在线视频| 大型av网站在线播放| 一级毛片高清免费大全| 精品人妻熟女毛片av久久网站| 欧美日韩亚洲国产一区二区在线观看 | 大香蕉久久成人网| 757午夜福利合集在线观看| 日韩熟女老妇一区二区性免费视频| 一级毛片女人18水好多| 久久久水蜜桃国产精品网| 欧美激情久久久久久爽电影 | 99久久综合精品五月天人人| 久久精品aⅴ一区二区三区四区| 亚洲成人手机| 久久中文字幕一级| 久久久久国产精品人妻aⅴ院 | 久久人人97超碰香蕉20202| 精品一区二区三区四区五区乱码| 国产精品国产av在线观看| xxxhd国产人妻xxx| 女性生殖器流出的白浆| 天堂俺去俺来也www色官网| 人人妻人人澡人人看| ponron亚洲| 在线播放国产精品三级| 宅男免费午夜| av电影中文网址| 99riav亚洲国产免费| 一区二区三区激情视频| 国产激情久久老熟女| 国产精品久久久人人做人人爽|