• <tr id="yyy80"></tr>
  • <sup id="yyy80"></sup>
  • <tfoot id="yyy80"><noscript id="yyy80"></noscript></tfoot>
  • 99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看 ?

    圖像—文本多模態(tài)指代表達(dá)理解研究綜述

    2023-05-20 07:36:52王麗安繆佩翰蘇偉李璽吉娜燁姜燕冰
    關(guān)鍵詞:表達(dá)式卷積模態(tài)

    王麗安,繆佩翰,蘇偉,李璽,吉娜燁,姜燕冰*

    1.浙江大學(xué)軟件學(xué)院,寧波 315048;2.浙江大學(xué)計(jì)算機(jī)科學(xué)與技術(shù)學(xué)院,杭州 310007;3.浙江傳媒學(xué)院媒體工程學(xué)院,杭州 310018

    0 引 言

    指代表達(dá)理解(referring expression comprehension,REC)要求根據(jù)輸入指代表達(dá)式在圖像中定位目標(biāo)對(duì)象,其中輸入表達(dá)式是一個(gè)完整的關(guān)于目標(biāo)對(duì)象的描述性句子。該任務(wù)成功地構(gòu)建起人類語(yǔ)言、機(jī)器以及現(xiàn)實(shí)場(chǎng)景之間的溝通橋梁,實(shí)現(xiàn)了基于復(fù)雜文本的視覺(jué)定位。因此,REC 在新一代智能設(shè)備的視覺(jué)理解系統(tǒng)和對(duì)話系統(tǒng)中具有廣泛的應(yīng)用前景(王忠民 等,2019),例如導(dǎo)航(Thomason 等,2017)、自動(dòng)駕駛、視頻監(jiān)控、機(jī)器人和早期教育等。其中,在視頻監(jiān)控領(lǐng)域REC 的出現(xiàn)可以代替?zhèn)鹘y(tǒng)監(jiān)控網(wǎng)絡(luò)中的單模態(tài)目標(biāo)定位方法,實(shí)現(xiàn)機(jī)器對(duì)人類復(fù)雜語(yǔ)言指令的響應(yīng)。

    隨著社會(huì)中大規(guī)模多模態(tài)數(shù)據(jù)的產(chǎn)生,與REC類似的利用視覺(jué)和文本兩種模態(tài)的數(shù)據(jù)進(jìn)行視覺(jué)語(yǔ)義理解的相關(guān)任務(wù)吸引了大量關(guān)注,包括視覺(jué)定位(visual grounding,VG)(Kazemzadeh 等,2014;Yu 等,2017)、圖像和視頻描述生成(image and video description generation)(Karpathy 和Li,2015)、視覺(jué)問(wèn)答(visual question answering,VQA)(包 希 港 等,2021)、視覺(jué)文本檢索(image-text retrieval)(尹奇躍等,2021)等。REC 和短語(yǔ)定位(phrase localization)(Plummer等,2017;Wang等,2019a)可以看做是視覺(jué)定位的兩個(gè)子任務(wù)。其關(guān)鍵區(qū)別在于:短語(yǔ)定位需要對(duì)查詢語(yǔ)句中提及的所有對(duì)象進(jìn)行定位,其查詢語(yǔ)句可以是單個(gè)的詞、短語(yǔ)或短從句,甚至可以是完整的句子;而REC 的查詢語(yǔ)句則是一個(gè)描述特定對(duì)象的表達(dá)式,其需要根據(jù)句子中對(duì)象的類別、屬性以及與其他對(duì)象之間的關(guān)系等信息唯一地在圖像中定位目標(biāo)對(duì)象。另外,與REC 任務(wù)相似的還有指代表達(dá)分割任務(wù)(referring expression segmentation,RES)(Hu 等,2016a;Li 等,2018),目的是在圖像中分割出指代表達(dá)式所描述的對(duì)象。

    作為指代表達(dá)理解任務(wù)的基石,目標(biāo)檢測(cè)(object detection)(Ren 等,2017)可以在預(yù)定義了固定類別的數(shù)據(jù)集上實(shí)現(xiàn)對(duì)所有目標(biāo)對(duì)象的定位。在過(guò)去20 多年中,目標(biāo)檢測(cè)作為計(jì)算機(jī)視覺(jué)領(lǐng)域的核心任務(wù)不斷發(fā)展,目前,其性能可以實(shí)現(xiàn)在COCO(common objects in context)數(shù)據(jù)集(Lin 等,2014)上達(dá)到平均精度均值(mean average precision,mAP)63.2%(Zhang 等,2022)。區(qū)別于傳統(tǒng)的目標(biāo)檢測(cè)任務(wù),REC 的目標(biāo)對(duì)象沒(méi)有固定的類別,完全由輸入表達(dá)式?jīng)Q定。因此,相較于目標(biāo)檢測(cè)指代表達(dá)理解任務(wù)更具有挑戰(zhàn)性,其不僅需要理解輸入表達(dá)式的語(yǔ)義信息,包括對(duì)象的屬性和關(guān)系等;還要對(duì)包含多個(gè)對(duì)象的視覺(jué)數(shù)據(jù)進(jìn)行推理,最終定位目標(biāo)對(duì)象。如圖1 所示,輸入的指代表達(dá)式“1)man on middle horse wearing black and red”與“2)man on horse red top”的長(zhǎng)度以及描述的屬性等信息都存在差異,但其指代同一個(gè)目標(biāo)對(duì)象(圖1 中用紅框及藍(lán)框圈出的對(duì)象)。而表達(dá)式“3)man in the blue jacket on the left white horse”與表達(dá)式1)雖然存在很多重復(fù)的詞匯,如“man”、“horse”,但其所指代的目標(biāo)對(duì)象卻不相同(分別在圖1 中用橙框和紅框圈出)。

    圖1 指代表達(dá)理解任務(wù)示例Fig.1 The examples of REC task

    本文將REC 的處理流程劃分成3 個(gè)模塊,并在第1 節(jié)中對(duì)各模塊進(jìn)行詳細(xì)介紹?,F(xiàn)有研究表明視覺(jué)—文本多模態(tài)特征交互融合是整個(gè)流程的關(guān)鍵。此外,很多研究也將關(guān)注點(diǎn)放在視覺(jué)特征提取模塊的設(shè)計(jì)上,將該模塊看做是REC 模型的基礎(chǔ)模塊。因?yàn)橄噍^于文本數(shù)據(jù),視覺(jué)數(shù)據(jù)含有更豐富信息的同時(shí)也存在更多冗余信息的干擾,提取出完整且有效的視覺(jué)特征是后續(xù)定位成功的基礎(chǔ)?;谏鲜龇治?,本文創(chuàng)新性地提出了針對(duì)REC 模型的兩級(jí)分類方法:第1 級(jí)分類著眼于視覺(jué)特征提取模塊,從視覺(jué)表征粒度出發(fā)劃分為3 類;進(jìn)一步,第2 級(jí)分類按照視覺(jué)—文本多模態(tài)特征融合模塊的建模方式進(jìn)行劃分。各種分類方法及其對(duì)應(yīng)模型在第2 節(jié)中進(jìn)行詳細(xì)介紹。

    目前,該領(lǐng)域出現(xiàn)了大量研究性論文,但是綜述性的論文更多關(guān)注于視覺(jué)—語(yǔ)言多模態(tài)任務(wù)的總體概述(杜鵬飛 等,2021;Summaira 等,2021;Zhang 等,2020a;張浩宇 等,2022)。針對(duì)REC 任務(wù),目前僅有1 篇2021 年發(fā)表的英文綜述(Qiao 等,2021),該論文對(duì)當(dāng)時(shí)的REC 方法以及數(shù)據(jù)集進(jìn)行了全面總結(jié),但沒(méi)有對(duì)REC 任務(wù)進(jìn)行深入分析。不同于此,本文從REC 任務(wù)的處理流程出發(fā),深入分析了各模塊的功能以及常用處理方法;基于此,本文創(chuàng)新性地提出了針對(duì)REC模型的兩級(jí)分類架構(gòu)對(duì)當(dāng)前REC方法進(jìn)行總結(jié),其中全面地涵蓋了近兩年流行的基于Transformer(Vaswani 等,2017)的REC 方法;最后,本文總結(jié)了現(xiàn)有REC 方法面臨的挑戰(zhàn),并從模型設(shè)計(jì)以及領(lǐng)域發(fā)展方兩個(gè)方面對(duì)REC的未來(lái)發(fā)展進(jìn)行了全面的展望。

    1 指代表達(dá)理解處理流程

    指代表達(dá)理解任務(wù)的處理流程可以劃分為如圖2所示的3 個(gè)步驟:文本特征提取、視覺(jué)特征提取以及視覺(jué)—文本特征融合推理。文本和視覺(jué)特征提取器分別對(duì)文本、視覺(jué)輸入數(shù)據(jù)進(jìn)行單模態(tài)特征提取,視覺(jué)—文本特征融合模塊進(jìn)行模態(tài)交互。本節(jié)分別對(duì)上述3個(gè)步驟進(jìn)行詳細(xì)介紹。

    圖2 指代表達(dá)理解方法的通用處理流程圖Fig.2 General processing diagram of the REC method

    1.1 文本特征提取

    文本特征提取模塊用于對(duì)輸入的指代表達(dá)式進(jìn)行語(yǔ)義理解以獲取目標(biāo)對(duì)象的相關(guān)信息,進(jìn)而指導(dǎo)后續(xù)的目標(biāo)定位。早期方法普遍采用單個(gè)長(zhǎng)短期記憶網(wǎng)絡(luò)(long short-term memory,LSTM)(Donahue等,2015)直接對(duì)整個(gè)表達(dá)式進(jìn)行編碼,這種方法處理簡(jiǎn)單但忽略了表達(dá)式各部分信息重要程度的差異,對(duì)于較長(zhǎng)表達(dá)式無(wú)法提取其關(guān)鍵特征。之后陸續(xù)出現(xiàn)了對(duì)表達(dá)式進(jìn)行分解建模的方法,包括將表達(dá)式分解為三元組或者利用外部解析器對(duì)表達(dá)式進(jìn)行分解等,在一定程度上實(shí)現(xiàn)了對(duì)文本中有效信息更高的注意力。隨著大規(guī)模預(yù)訓(xùn)練任務(wù)在自然語(yǔ)言處理領(lǐng)域的發(fā)展,大量REC 方法利用預(yù)訓(xùn)練的BERT(bidirectional encoder representations from Transformers)模型(Devlin等,2019)對(duì)表達(dá)式進(jìn)行特征提取。

    1.2 視覺(jué)特征提取

    REC任務(wù)的輸入圖像通常包含多個(gè)同類別以及不同類別的對(duì)象。面對(duì)復(fù)雜的輸入表達(dá)式,例如圖1中的“man on middle horse wearing black and red”,模型需要根據(jù)表達(dá)式的語(yǔ)義對(duì)圖像中的對(duì)象“man”和“horse”進(jìn)行關(guān)系推理從而定位目標(biāo)對(duì)象,因此對(duì)圖像進(jìn)行高級(jí)語(yǔ)義理解是REC 任務(wù)的重要步驟?,F(xiàn)有REC 方法對(duì)圖像的視覺(jué)特征提取存在多種方式,如圖4所示,本文根據(jù)特征粒度的不同將其分為3類:區(qū)域卷積粒度視覺(jué)表征、網(wǎng)格卷積粒度視覺(jué)表征、圖像塊粒度視覺(jué)表征。

    1.2.1 區(qū)域卷積粒度視覺(jué)表征

    區(qū)域(region)卷積粒度視覺(jué)表征方法將圖像輸入預(yù)訓(xùn)練的目標(biāo)檢測(cè)網(wǎng)絡(luò),例如Faster R-CNN(faster region-convolutional neural network)(Ren 等,2017)等,得到一系列對(duì)象邊界框。類比二階段目標(biāo)檢測(cè)模型中的區(qū)域提議(region proposal)方法,視覺(jué)特征提取模塊會(huì)在這些對(duì)象中篩選出一部分作為對(duì)象提議(proposal),并將其對(duì)應(yīng)卷積特征作為輸入圖像的視覺(jué)特征輸入到后續(xù)的視覺(jué)—文本融合模塊中,如圖3(a)所示。區(qū)域卷積粒度視覺(jué)表征方法可以有效避免圖像中無(wú)用背景的干擾,一定程度上有利于最終目標(biāo)對(duì)象的選擇。

    圖3 3種不同粒度的視覺(jué)表征方法比較Fig.3 Comparison of three different granularity visual representation methods((a)regional convolution granularity visual representation;(b)grid convolution granularity visual representation;(c)image patch granularity visual representation)

    1.2.2 網(wǎng)格卷積粒度視覺(jué)表征

    一階段目標(biāo)檢測(cè)器最早提出利用圖像的整層卷積特征代替二階段目標(biāo)檢測(cè)的區(qū)域提議特征:直接將圖像的整層卷積特征劃分為S×S個(gè)網(wǎng)格(grid),每個(gè)網(wǎng)格負(fù)責(zé)檢測(cè)中心位于該網(wǎng)格內(nèi)部的物體。一階段目標(biāo)檢測(cè)器的成功表明網(wǎng)格卷積粒度的視覺(jué)特征可以用于實(shí)現(xiàn)目標(biāo)定位。因此,現(xiàn)有很多REC 方法直接使用ResNet(He 等,2016)等卷積神經(jīng)網(wǎng)絡(luò)輸出的整層卷積特征作為圖像的視覺(jué)表征,如圖3(b)所示。網(wǎng)格卷積粒度特征的引入有效緩解了基于區(qū)域卷積粒度視覺(jué)表征方法使用目標(biāo)檢測(cè)網(wǎng)絡(luò)生成對(duì)象提議導(dǎo)致的推理速度緩慢的問(wèn)題。

    1.2.3 圖像塊粒度視覺(jué)表征

    上述兩類視覺(jué)特征提取方法都依賴于復(fù)雜的視覺(jué)特征提取器,包括區(qū)域提議網(wǎng)絡(luò)以及卷積神經(jīng)網(wǎng)絡(luò)等,因此在視覺(jué)特征提取步驟需要耗費(fèi)很多額外的計(jì)算資源。Dosovitskiy 等人(2021)在ViT(vision Transformer)中提出將輸入圖像直接在空間(spatial)維度上劃分為一個(gè)個(gè)圖像塊(patch),然后將圖像塊映射成1 維序列后直接作為Transformer 的視覺(jué)輸入。此類視覺(jué)特征處理過(guò)程如圖3(c)所示。ViT 在圖像分類任務(wù)上的成功證明了這種無(wú)需卷積計(jì)算的簡(jiǎn)單視覺(jué)表征作為Transformer的視覺(jué)輸入是足夠有效的。此類圖像塊粒度表征方法實(shí)現(xiàn)了更輕量化、更快速視覺(jué)特征提取。

    1.3 視覺(jué)—文本特征融合推理

    視覺(jué)—文本特征融合推理部分需要對(duì)文本特征以及視覺(jué)特征進(jìn)行融合處理從而篩選出圖像中有用的視覺(jué)特征,其是REC 任務(wù)最核心的模塊(Deng 等,2022)?,F(xiàn)有方法對(duì)于該模塊的設(shè)計(jì)非常多樣,包括視覺(jué)—文本特征匹配(Mao 等,2016)、基于注意力機(jī)制的視覺(jué)—文本特征融合(Zhang 等,2018)、基于圖網(wǎng)絡(luò)的特征融合(Yang 等,2019a)、基于濾波的特征融合(Liao 等,2020)以及基于Transformer 的特征融合方法(Deng等,2022)等。

    2 方法分類

    不同于以往直接根據(jù)是否對(duì)圖像預(yù)生成對(duì)象候選框,將現(xiàn)有REC 方法直接分類為一階段方法與二階段方法(Qiao 等,2021)的分類方式。如圖4 所示,本文從REC 任務(wù)的處理流程入手,首先關(guān)注視覺(jué)特征提取模塊的設(shè)計(jì),從視覺(jué)數(shù)據(jù)的表征粒度出發(fā),將REC 方法分成3 類;更進(jìn)一步地,根據(jù)多模態(tài)特征融合模塊的建模方法進(jìn)行了子類別劃分。

    圖4 指代表達(dá)理解現(xiàn)有方法分類總結(jié)圖Fig.4 Classification summary diagram of existing methods of referring expression comprehension

    2.1 基于區(qū)域卷積粒度視覺(jué)表征的方法

    基于區(qū)域卷積粒度視覺(jué)表征的REC 方法以二階段目標(biāo)檢測(cè)思想為參考,在處理流程上將REC 任務(wù)分成了對(duì)象提議、篩選兩大步驟。如第1.2.1 節(jié)所述,此類方法使用圖像的對(duì)象提議卷積特征作為視覺(jué)表征,后續(xù)多模態(tài)融合模塊僅需根據(jù)輸入文本對(duì)多個(gè)對(duì)象進(jìn)行篩選,最終選取得分最高的一個(gè)對(duì)象邊界框即可。根據(jù)視覺(jué)—文本特征融合建模方式,本文將該類方法更細(xì)粒度地劃分為如下5個(gè)子類別。

    2.1.1 早期方法

    指代表達(dá)理解任務(wù)最早直接采用簡(jiǎn)單的CNNLSTM 框架(Mao 等,2016),如圖5 所示,首先對(duì)每個(gè)對(duì)象區(qū)域提議提取卷積視覺(jué)特征,LSTM用于提取文本特征,然后將兩種模態(tài)的特征嵌入到同一特征空間計(jì)算每個(gè)對(duì)象區(qū)域提議與整個(gè)指代表達(dá)式的匹配得分,最終選取匹配得分最高的區(qū)域作為目標(biāo)定位結(jié)果。Mao 等人(2016)首次將CNN-LSTM 框架引入到指代表達(dá)理解和生成任務(wù)中,提出了MMI(maximum mutual information)模型。該模型采用VGGNet(Visual Geometry Group network)(Simonyan 和Zisserman,2015)提取的整體圖像特征、單個(gè)區(qū)域提議特征以及區(qū)域提議的位置信息共同作為L(zhǎng)STM 每個(gè)時(shí)間步的視覺(jué)輸入。Mao 等人(2016)利用最大互信息的思想設(shè)計(jì)損失函數(shù)用于訓(xùn)練,使得模型在除目標(biāo)區(qū)域以外的區(qū)域提議上的匹配得分較低。

    圖5 早期方法模型結(jié)構(gòu)圖Fig.5 Model structure diagram of early fusion method

    在MMI(Mao 等,2016)之后,陸續(xù)出現(xiàn)了一些改進(jìn)區(qū)域提議卷積視覺(jué)表征的方法。Yu 等人(2016)提出Visdif 模型,在視覺(jué)特征中添加了同類區(qū)域提議特征的差值用于表示物體間的視覺(jué)差異。Nagaraja 等人(2016)的MIL(multiple instance learning)模型采用多實(shí)例學(xué)習(xí)思想,LSTM的視覺(jué)輸入采用區(qū)域提議對(duì)的形式,模型最終輸出目標(biāo)邊界框及其相關(guān)對(duì)象邊界框。Hu 等人(2016b)設(shè)計(jì)了空間上下文網(wǎng)絡(luò)(spatial context recurrent ConvNet,SCRC)將區(qū)域提議邊界框的空間信息聚合到區(qū)域提議的視覺(jué)特征中。

    早期方法直接計(jì)算對(duì)象區(qū)域提議與指代表達(dá)式的匹配得分,無(wú)需對(duì)視覺(jué)以及文本特征進(jìn)行融合處理,模型思想簡(jiǎn)單,并且在RefCOCO 數(shù)據(jù)集(Yu 等,2016)上取得了73.33%的準(zhǔn)確率(Zhang 等,2018),如表1 所示。然而,此類方法直接將整個(gè)表達(dá)式編碼為一個(gè)向量,只考慮了整個(gè)輸入語(yǔ)句與區(qū)域提議之間的相似性,忽略了表達(dá)式本身豐富的語(yǔ)義結(jié)構(gòu)信息。因此對(duì)于長(zhǎng)且復(fù)雜的表達(dá)式,上述方法通常無(wú)法準(zhǔn)確定位目標(biāo)對(duì)象。

    2.1.2 基于注意力機(jī)制的融合

    當(dāng)輸入表達(dá)式太長(zhǎng),或者圖像中存在較多的潛在對(duì)象時(shí),上述基于全局表示的早期的方法無(wú)法得到較好的效果。結(jié)合現(xiàn)實(shí)場(chǎng)景中人類的推斷行為,研究人員認(rèn)為指代對(duì)象的定位應(yīng)該是漸進(jìn)的:如圖6所示,注意力模塊通過(guò)指代表達(dá)式的內(nèi)容逐步修改區(qū)域提議的注意力權(quán)重,最終選取注意力得分最高的區(qū)域提議作為目標(biāo)對(duì)象。

    圖6 基于注意力機(jī)制的融合方法模型結(jié)構(gòu)圖Fig.6 Model structure diagram of fusion method based on attention mechanism

    Zhuang 等人(2018)提出了一種平行注意(parallel attention,PLAN)方法將自然語(yǔ)言表達(dá)式的每個(gè)單詞看成一個(gè)單獨(dú)部分(unit),并對(duì)每個(gè)部分分別進(jìn)行編碼。采用圖像級(jí)和區(qū)域級(jí)兩種級(jí)別的注意力機(jī)制:圖像級(jí)注意力機(jī)制不斷調(diào)整圖像全局上下文特征的注意力,區(qū)域級(jí)注意力機(jī)制則不斷根據(jù)輸入的文本特征調(diào)整每個(gè)對(duì)象提議框的注意力得分,最終將圖像全局特征以及區(qū)域提議特征輸入匹配模塊,計(jì)算其匹配概率。這種循環(huán)發(fā)現(xiàn)目標(biāo)對(duì)象的方式令模型朝著可解釋的方向邁出了第1步。Deng等人(2018)則定義了3 個(gè)注意力模型,并提出了一個(gè)累積注意力機(jī)制A-ATT(accumulated attention mechanism)對(duì)目標(biāo)對(duì)象進(jìn)行推理。A-ATT 機(jī)制可以循環(huán)積累對(duì)圖像、表達(dá)式以及區(qū)域提議中有用信息的注意力得分,最終選取注意力得分最高的區(qū)域提議作為最終定位結(jié)果。A-ATT模型可以在視覺(jué)定位的過(guò)程中顯示圖像中高注意力區(qū)域以及表達(dá)式中的關(guān)鍵單詞,進(jìn)一步實(shí)現(xiàn)了模型的可解釋性。

    如表1 所示,基于注意力機(jī)制的融合方法相比早期方法實(shí)現(xiàn)了性能的明顯提升,其中CM-Att-Erase(cross-modal attention-guided erasing)(Liu 等,2019c)在RefCOCO 數(shù)據(jù)集的testA 上性能達(dá)到了83.14%,相比當(dāng)時(shí)最優(yōu)的早期方法VaruContext(variational context)(Zhang 等,2018)模型性能提升了近10 個(gè)百分點(diǎn)。并且此類方法通過(guò)可視化圖像的注意力熱圖可以逐步推斷出輸入文本與圖像中對(duì)象之間的匹配關(guān)系,推動(dòng)了模型可解釋性的發(fā)展。

    表1 在RefCOCO、RefCOCO+、RefCOCOg數(shù)據(jù)集上現(xiàn)有REC方法的性能比較Table 1 Performance comparison of existing REC methods on RefCOCO,RefCOCO+,and RefCOCOg datasets/%

    2.1.3 基于表達(dá)式分解的融合

    早期方法將整個(gè)表達(dá)式直接編碼為一個(gè)向量的方式不僅沒(méi)有考慮表達(dá)式中各部分的重要程度,還忽略了語(yǔ)言本身的語(yǔ)法結(jié)構(gòu)信息。因此,對(duì)表達(dá)式進(jìn)行結(jié)構(gòu)化分解,構(gòu)建細(xì)粒度的文本表征對(duì)定位目標(biāo)對(duì)象也非常重要。如圖7 所示,本類方法首先對(duì)輸入表達(dá)式進(jìn)行分解,然后分別計(jì)算視覺(jué)輸入與分解后的每一部分表達(dá)式對(duì)應(yīng)的注意力得分,最終將所有的注意力得分進(jìn)行加權(quán)獲得最終的視覺(jué)注意力得分,從而定位目標(biāo)對(duì)象。

    圖7 基于表達(dá)式分解的融合方法模型結(jié)構(gòu)圖Fig.7 Model structure diagram of fusion method based on expression decomposition

    Hu 等人(2017)提出了一個(gè)端到端的組合模塊網(wǎng)絡(luò)(compositional modular networks,CMNs),通過(guò)3 個(gè)軟注意(soft attention)將表達(dá)式解析為主語(yǔ)、關(guān)系和賓語(yǔ)3 部分。然后利用定位模塊對(duì)主語(yǔ)、賓語(yǔ)與圖像的區(qū)域提議計(jì)算匹配得分,利用關(guān)系模塊對(duì)關(guān)系與區(qū)域提議對(duì)計(jì)算匹配分?jǐn)?shù)。最后選取兩個(gè)模塊的綜合匹配得分最高的區(qū)域提議作為目標(biāo)對(duì)象。

    上述將表達(dá)式分解為三元組的方式過(guò)分簡(jiǎn)化了語(yǔ)言結(jié)構(gòu),可能會(huì)忽略語(yǔ)言中的其他重要信息。為此,Cirik 等人(2018)引入外部解析器以及語(yǔ)法樹構(gòu)建了GroundNet 模型。首先利用外部解析器構(gòu)建指代表達(dá)式的語(yǔ)法樹,然后將語(yǔ)法樹顯式映射到一個(gè)同結(jié)構(gòu)的由神經(jīng)模塊組成的計(jì)算圖(graph)上,該計(jì)算圖自下而上地定義了目標(biāo)對(duì)象的定位過(guò)程。Liu等人(2019a)則設(shè)計(jì)了一個(gè)神經(jīng)模塊樹(neural module tree,NMTree)網(wǎng)絡(luò),該網(wǎng)絡(luò)在表達(dá)式的依賴解析樹(dependency parsing trees,DPT)(Chen和Manning,2014)中自下而上地積累區(qū)域置信度從而定位目標(biāo)區(qū)域。NMTree 方法的動(dòng)態(tài)組裝以及端到端的訓(xùn)練策略使得模型性能相比GroundNet更加健壯,在Ref-COCOg(Mao等,2016)驗(yàn)證集上高出近10個(gè)百分點(diǎn)。

    相比早期直接對(duì)整個(gè)文本進(jìn)行編碼,加入外部解析器對(duì)指代表達(dá)式進(jìn)行細(xì)粒度解析的方式進(jìn)一步提升了模型可解釋性的同時(shí),使得性能也得到了提升。如表1所示,CMNs 雖然采用弱監(jiān)督的方式進(jìn)行訓(xùn)練但是其性能仍舊優(yōu)于早期的基線方法MMI;此外NMTree 通過(guò)引入外部解析器來(lái)對(duì)文本輸入進(jìn)行更加細(xì)粒度的解析,使模型性能達(dá)到81.21%。

    2.1.4 基于圖網(wǎng)絡(luò)的融合

    REC 任務(wù)的圖像大多包含多個(gè)對(duì)象,此前的方法大多孤立地處理圖像的所有區(qū)域提議,忽略了不同區(qū)域提議中對(duì)象之間的關(guān)系信息。現(xiàn)有很多工作表明通過(guò)提取文本以及圖像中的實(shí)體、概念以及關(guān)系,并以圖結(jié)構(gòu)可視化的表示更有助于發(fā)現(xiàn)各實(shí)體內(nèi)部的關(guān)系(Sheng等,2019,2020;Zhang等,2020b)。因此,在REC 領(lǐng)域也提出利用圖(graph)建模對(duì)象之間的關(guān)系,其中節(jié)點(diǎn)表示對(duì)象,邊表示對(duì)象間的關(guān)系。文本特征則用于計(jì)算各關(guān)系以及對(duì)象的注意力得分從而修正初始graph。最終的目標(biāo)結(jié)果由graph中的對(duì)象視覺(jué)特征以及關(guān)系特征的注意力加權(quán)得分獲得。具體模型結(jié)構(gòu)如圖8 所示,圖中節(jié)點(diǎn)的顏色深淺對(duì)應(yīng)對(duì)象的注意力得分,得分越低顏色越淺,邊同理。

    圖8 基于圖網(wǎng)絡(luò)的融合方法模型結(jié)構(gòu)圖Fig.8 Model structure diagram of fusion method based on graph network

    Wang 等人(2019b)提出了一種語(yǔ)言引導(dǎo)的圖注意 網(wǎng) 絡(luò)(language-guided graph attention network,LGRAN)利用圖結(jié)構(gòu)建模對(duì)象之間的關(guān)系。該網(wǎng)絡(luò)由語(yǔ)言自注意模塊、語(yǔ)言引導(dǎo)圖注意模塊和匹配模塊3 個(gè)模塊組成。語(yǔ)言自注意模塊通過(guò)將表達(dá)式分解為主語(yǔ)、類內(nèi)關(guān)系和類間關(guān)系3 部分構(gòu)建文本表征。然后對(duì)輸入圖像的對(duì)象區(qū)域提議構(gòu)造對(duì)象關(guān)系有向圖,每個(gè)對(duì)象區(qū)域提議由對(duì)象、類間關(guān)系、類內(nèi)關(guān)系3 種特征表示。語(yǔ)言引導(dǎo)圖注意模塊則通過(guò)聯(lián)合視覺(jué)以及語(yǔ)言特征計(jì)算節(jié)點(diǎn)與邊的注意得分。最后的匹配模塊利用上述對(duì)象區(qū)域提議特征對(duì)所有的對(duì)象提議與指代表達(dá)式計(jì)算特征相似度。

    類似地,Yang 等人(2019a)提出了一種動(dòng)態(tài)圖(dynamic graph attention,DGA)注意網(wǎng)絡(luò),通過(guò)對(duì)圖像中對(duì)象之間的關(guān)系和表達(dá)式的語(yǔ)言結(jié)構(gòu)進(jìn)行建模來(lái)執(zhí)行多步迭代推理。Yang 等人(2020b)則提出了一種場(chǎng)景圖引導(dǎo)模塊化網(wǎng)絡(luò)(scene graph guided modular network,SGMN)分別將指代表達(dá)式和輸入圖像的對(duì)象區(qū)域提議都構(gòu)建為圖結(jié)構(gòu),然后在表達(dá)式圖的指導(dǎo)下對(duì)區(qū)域提議圖進(jìn)行推理,計(jì)算各個(gè)節(jié)點(diǎn)的注意力權(quán)重,推理過(guò)程可以通過(guò)圖注意力機(jī)制明確地解釋。Pan 和Huang(2022)則構(gòu)建了一個(gè)多層次交互網(wǎng)絡(luò)SeMBI(semantic-aware multi-branch interaction),分別利用對(duì)象視覺(jué)特征、對(duì)象間關(guān)系信息、對(duì)象屬性信息以三分支并行的方式構(gòu)建了隱式關(guān)系圖、顯式關(guān)系圖以及視覺(jué)屬性圖,從而實(shí)現(xiàn)對(duì)多級(jí)視覺(jué)特征的聯(lián)合建模。

    基于圖網(wǎng)絡(luò)的方法可以依據(jù)復(fù)雜的輸入表達(dá)式對(duì)視覺(jué)特征進(jìn)行推理,從而實(shí)現(xiàn)對(duì)目標(biāo)對(duì)象的逐步定位。如表1 所示,基于圖網(wǎng)絡(luò)的DGA 方法的性能顯著超過(guò)了所有同階段的早期方法。

    2.1.5 基于Transformer的融合

    Transformer 在計(jì)算機(jī)視覺(jué)領(lǐng)域中的成功應(yīng)用,體現(xiàn)了其內(nèi)部注意力機(jī)制對(duì)視覺(jué)特征的強(qiáng)大建模能力(Liu 等,2021b;Chen 等,2020b;Yang 等,2020a;Chen 等,2020c)。此外,以Tokens 序列作為輸入使得Transformer 可以兼容各種模態(tài)數(shù)據(jù)的處理(Xu等,2022)?;谝陨蟽?yōu)勢(shì),近年來(lái)很多REC 方法直接利用Transformer內(nèi)部的注意力機(jī)制實(shí)現(xiàn)視覺(jué)—文本特征的融合,其輸入是視覺(jué)以及文本Tokens 序列,其中視覺(jué)Tokens 的可以由1.2 節(jié)所述3 類視覺(jué)特征分別經(jīng)過(guò)線性映射得到,文本Tokens 一般是輸入文本的單詞嵌入(embedding)。

    現(xiàn)有REC 方法通過(guò)改變注意力層中的Q、K、V的輸入內(nèi)容將Transformer的原有自注意力機(jī)制改進(jìn)為多模態(tài)融合注意力機(jī)制,其具體修改可以分為3類:1)相加融合;2)拼接融合;3)交叉融合。各類注意力機(jī)制如圖9所示,其具體實(shí)現(xiàn)方法在表2中進(jìn)行了總結(jié)。

    圖9 基于Transformer的多模態(tài)融合注意力的分類Fig.9 Classification of Transformer-based multimodal fusion attention mechanisms((a)summation fusion;(b)concatenation fusion;(c)cross fusion)

    表2 基于Transformer的多模態(tài)融合方法總結(jié)Table 2 Summary of Transformer-based multimodal fusion methods

    本類以區(qū)域卷積特征作為視覺(jué)表征的方法的視覺(jué)Tokens 由區(qū)域提議的卷積特征進(jìn)過(guò)線性映射得到。代表方法有ViLBERT(vision and language BERT)(Lu 等,2019)和VL-BERT(visual-linguistic BERT)(Su 等,2020)。其 中,ViLBERT 采 用 雙 流(dual-stream)結(jié)構(gòu):首先使用兩個(gè)獨(dú)立的Transformer 分支分別對(duì)視覺(jué)和文本輸入進(jìn)行特征提??;然后,將視覺(jué)、文本特征經(jīng)過(guò)如圖9(c)的交叉注意力層實(shí)現(xiàn)視覺(jué)—文本特征融合。其中,視覺(jué)分支采用Faster RCNN(Ren 等,2017)獲取對(duì)象候選框的CNN 特征作為視覺(jué)Tokens;文本分支的Tokens 為單詞嵌入。需要注意的是,ViLBERT 的交叉注意力的實(shí)現(xiàn)是將每個(gè)模態(tài)的鍵K 和值V 分別傳給另一個(gè)模態(tài)的Q。該模型在成對(duì)的圖像—文本數(shù)據(jù)上進(jìn)行預(yù)訓(xùn)練后可以遷移到很多下游任務(wù)中,包括視覺(jué)問(wèn)答、指代表達(dá)理解等。區(qū)別于ViLBERT,Su 等人(2020)提出的VL-BERT 方法則是使用一個(gè)單流(singlestream)框架,采用圖9(b)的方法將視覺(jué)以及文本特征進(jìn)行拼接(concatenate)之后共同輸入到Transformer中進(jìn)行多模態(tài)信息融合處理。如表1所示,上述兩個(gè)模型的性能都要優(yōu)于同類別的其他多模態(tài)融合方法,實(shí)現(xiàn)了在RefCOCO+驗(yàn)證集(val)上準(zhǔn)確率達(dá)到72.34%以及72.59%。

    綜上,現(xiàn)有基于區(qū)域提議粒度視覺(jué)輸入的REC方法通過(guò)加入注意力機(jī)制包括表達(dá)式解析器、圖網(wǎng)絡(luò),有效挖掘了多模態(tài)特征之間的關(guān)鍵信息,模型性能提升了近20%,如表1所示。但此類方法仍存在一些問(wèn)題:1)性能受到對(duì)圖像生成的對(duì)象區(qū)域提議質(zhì)量的影響;2)對(duì)于圖像的每個(gè)區(qū)域提議都需要進(jìn)行特征提取和相似度計(jì)算,因此存在大量額外的計(jì)算開(kāi)銷。

    2.2 基于網(wǎng)格卷積粒度視覺(jué)表征的方法

    基于網(wǎng)格卷積粒度視覺(jué)表征的REC 方法利用圖像的整層卷積特征作為后續(xù)多模態(tài)特征融合模塊的視覺(jué)輸入。如圖3(b)所示,此類方法無(wú)需預(yù)先生成圖像的區(qū)域候選框,其直接利用輸入圖像的多層卷積特征分別與文本特征進(jìn)行融合,模型直接輸出目標(biāo)定位結(jié)果。其對(duì)于文本數(shù)據(jù)的處理大多使用BERT 或者LSTM 將指代表達(dá)式直接編碼為一個(gè)向量。此類基于網(wǎng)格卷積粒度特征的方法在獲得與區(qū)域卷積粒度方法相近準(zhǔn)確率的情況下有效實(shí)現(xiàn)了模型推理速度的提升。

    2.2.1 基于濾波的融合

    Yang 等人(2019b)首次提出基于區(qū)域卷積粒度視覺(jué)輸入的方法生成區(qū)域提議需要耗費(fèi)過(guò)多的計(jì)算量,因此其設(shè)計(jì)了一種直接采用圖像的多級(jí)卷積特征作為視覺(jué)輸入的端到端方法FAOA(fast and accurate one-stage approach)。其利用Darknet 網(wǎng)絡(luò)(Redmon 和Farhadi,2018)獲取圖像的多級(jí)卷積特征與BERT 獲取到的文本特征共同輸入融合模塊;融合模塊首先將視覺(jué)文本特征在通道維度進(jìn)行拼接,然后采用1 × 1 卷積核作為濾波器進(jìn)行視覺(jué)文本特征融合;最終定位模塊直接輸出目標(biāo)對(duì)象的邊界框坐標(biāo)。雖然FAOA 的模型性能沒(méi)有超過(guò)同期的基于區(qū)域卷積粒度方法,但是如表3 所示,其推理速度達(dá)到了當(dāng)時(shí)區(qū)域卷積粒度特征方法的10倍。

    現(xiàn)有REC 方法也提出利用相關(guān)濾波(correlation filtering)根據(jù)文本信息對(duì)視覺(jué)特征進(jìn)行過(guò)濾篩選。Liao 等人(2020)提出的實(shí)時(shí)跨模態(tài)相關(guān)濾波(real-time cross-modality correlation filtering,RCCF)方法,將REC 任務(wù)重新定義為跨模態(tài)模板匹配問(wèn)題。RCCF 首先使用文本特征引導(dǎo)的濾波內(nèi)核對(duì)視覺(jué)特征進(jìn)行相關(guān)濾波,在圖像中定位目標(biāo)對(duì)象中心點(diǎn);然后利用回歸模塊對(duì)目標(biāo)對(duì)象的大小和中心點(diǎn)偏移進(jìn)行預(yù)測(cè)。該方法在單個(gè)Titan Xp GPU 上的推理速度達(dá)到了實(shí)時(shí)的效果約為40 幀/s,約為基于區(qū)域卷積特征方法的12~16倍,如表3所示。

    表3 部分REC方法的推理速度比較Table 3 Comparison of inference speed of partial REC methods

    2.2.2 基于Transformer的融合

    Jiang 等人(2020)最早在VQA 任務(wù)中提出將圖像的網(wǎng)格卷積特征在空間維度上劃分成多個(gè)塊,將每個(gè)塊進(jìn)行線性映射后得到1 維特征作為Transformer 的編碼器的輸入。此類方法可以有效避免區(qū)域提議邊界框生成所消耗的時(shí)間以及其產(chǎn)生的推理性能上限。

    Deng等人(2021)設(shè)計(jì)的TransVG 采用類似ViLBERT 的雙流架構(gòu),不同的是TransVG 的視覺(jué)分支的輸入tokens 為圖像網(wǎng)格卷積特征的1 維映射。視覺(jué)—文本特征的融合采用如圖9(b)所示的拼接融合方式,將視覺(jué)和文本Transformer 的輸入以及一個(gè)REG token 直接進(jìn)行拼接作為多模態(tài)融合Transformer 層的輸入。REG Token 對(duì)應(yīng)的輸出用于回歸計(jì)算目標(biāo)對(duì)象的邊界框坐標(biāo)。Du 等人(2022)提出的VGTR(visual grounding with Transformers)模型也采用網(wǎng)格特征劃分Tokens 的方式,利用Transformer中的注意力機(jī)制進(jìn)行跨模態(tài)特征融合。但是,不同于TransVG,VGTR 采用一種文本指導(dǎo)的視覺(jué)編碼器,通過(guò)將文本編碼器的V 傳入到視覺(jué)編碼器的Q中實(shí)現(xiàn),類似圖9(c)所示的交叉注意力結(jié)構(gòu)。

    視覺(jué)—語(yǔ)言聯(lián)合預(yù)訓(xùn)練模型(vision-andlanguage pre-training,VLP)的提出為多模態(tài)理解任務(wù)提供了統(tǒng)一的處理框架,通過(guò)事先從大量對(duì)齊的視覺(jué)—文本數(shù)據(jù)中學(xué)習(xí)通用的多模態(tài)表征,然后在下游任務(wù)中微調(diào)后加以利用(Kamath 等,2021)從而實(shí)現(xiàn)了多模態(tài)理解任務(wù)性能的突破。其中最為代表性的是Wang 等人(2022)提出的多模態(tài)預(yù)訓(xùn)練全能模型OFA(one for all),分別對(duì)圖片、文本和位置等數(shù)據(jù)設(shè)計(jì)了一種統(tǒng)一的離散化方式,將其全部轉(zhuǎn)換為序列輸入,從而利用統(tǒng)一的編碼器—解碼器架構(gòu)實(shí)現(xiàn)對(duì)未知任務(wù)的不同模態(tài)數(shù)據(jù)的處理。OFA 采用Seq2Seq(sequence-to-sequence)方式,對(duì)于統(tǒng)一的輸入,模型利用任務(wù)指令區(qū)分多種不同的任務(wù)。這種采用大規(guī)模數(shù)據(jù)預(yù)訓(xùn)練的方式使得OFA 模型在多個(gè)下游多模態(tài)任務(wù)中都取得了較好的性能,分別在視覺(jué)文本生成任務(wù)(image-to-text generation)以及視覺(jué)定位任務(wù)上達(dá)到了當(dāng)前最優(yōu)。如表1 所示,對(duì)REC 任務(wù)OFA 達(dá)到了RefCOCO 驗(yàn)證集上90.05%的準(zhǔn)確率,并且Wang 等人(2022)還選取了一些與COCO 數(shù)據(jù)集圖像風(fēng)格差別較大的漫畫圖像進(jìn)行實(shí)驗(yàn),發(fā)現(xiàn)模型在此類圖像上依舊可以準(zhǔn)確定位。OFA在下游任務(wù)上的成功進(jìn)一步預(yù)示著大規(guī)模多模態(tài)預(yù)訓(xùn)練模型在處理多模態(tài)任務(wù)上的優(yōu)勢(shì),也成為今后多模態(tài)領(lǐng)域發(fā)展的一大趨勢(shì)。

    綜上,以網(wǎng)格卷積粒度視覺(jué)特征為輸入的方法在推理速度上相比區(qū)域卷積粒度特征方法有了極大提升。如表3 所示,F(xiàn)AOA 方法以及RCCF 方法是VaruContext 等區(qū)域卷積粒度特征的方法10 倍以上。在性能上,摒棄圖像區(qū)域提議網(wǎng)絡(luò)的性能局限,直接使用圖像的全局特征作為視覺(jué)輸入,在Transformer建模方法中相比ViLBERT 以及VL-BERT 模型性能提升了超過(guò)10%,如表1所示。

    2.3 基于圖像塊粒度視覺(jué)表征的方法

    前兩類REC 方法在視覺(jué)特征提取模塊的設(shè)計(jì)上都采用獨(dú)立的預(yù)訓(xùn)練網(wǎng)絡(luò):以區(qū)域卷積粒度特征作為視覺(jué)輸入的REC 方法大多采用在固定類別的數(shù)據(jù)集上預(yù)訓(xùn)練的目標(biāo)檢測(cè)器,例如Faster R-CNN等;網(wǎng)格卷積特征粒度的REC 方法則廣泛采用預(yù)訓(xùn)練的圖像分類網(wǎng)絡(luò),如ResNet(He 等,2016)等。因此,這種預(yù)訓(xùn)練的視覺(jué)特征提取網(wǎng)絡(luò)可能無(wú)法適用于指代表達(dá)理解任務(wù)。ViT 模型的提出證明了:將圖像塊簡(jiǎn)單地進(jìn)行線性映射變?yōu)? 維視覺(jué)向量作為Transformer的輸入在圖像分類任務(wù)中足夠有效。受此啟發(fā),基于圖像塊粒度視覺(jué)表征的REC 方法的視覺(jué)文本融合模塊的視覺(jué)輸入直接采用圖像塊的1 維映射作為輸入,實(shí)現(xiàn)了不依賴卷積網(wǎng)絡(luò)以及目標(biāo)檢測(cè)網(wǎng)絡(luò)的視覺(jué)特征提取。并且此類基于圖像塊粒度的REC 方法,其視覺(jué)—文本融合模塊的都采用Transformer實(shí)現(xiàn)。

    為了解決獨(dú)立視覺(jué)特征處理模塊導(dǎo)致的視覺(jué)特征與REC 任務(wù)不匹配的問(wèn)題,Ye等人(2022)改進(jìn)了原本獨(dú)立的視覺(jué)特征提取模塊,提出了QRNet(query-modulated refinement network)網(wǎng)絡(luò)用于實(shí)現(xiàn)基于本文查詢輸入的視覺(jué)特征提取。QRNet 網(wǎng)絡(luò)中的查詢感知?jiǎng)討B(tài)注意模塊(query-aware dynamic attention)實(shí)現(xiàn)了基于文本特征指導(dǎo)的視覺(jué)特征細(xì)化提取。在視覺(jué)—文本特征融合模塊,QRNet 采用如圖9(b)所示的基于拼接融合注意力的Transformer。QRNet 的設(shè)計(jì)有效地避免了視覺(jué)特征提取與文本輸入分離導(dǎo)致的視覺(jué)特征與REC 任務(wù)不匹配的問(wèn)題。

    同年,Deng 等人(2022)在之前TransVG 模型的基礎(chǔ)上,提出了TransVG++模型用于改進(jìn)TransVG訓(xùn)練難的問(wèn)題。TransVG++刪除了TransVG 中獨(dú)立的多模態(tài)融合模塊,對(duì)原有視覺(jué)編碼器進(jìn)行了改進(jìn),令其在實(shí)現(xiàn)視覺(jué)特征提取的同時(shí)進(jìn)行多模態(tài)特征融合處理。該模型本質(zhì)上是將基于圖像塊輸入的視覺(jué)Transformer的最后一層修改為語(yǔ)言指導(dǎo)的視覺(jué)編碼器。Deng 等人(2022)對(duì)文本—視覺(jué)融合編碼層設(shè)計(jì)了兩種不同的注意力方案,分別為language prompter 和language adapter。Language prompter 的注意力融合方案就是簡(jiǎn)單拼接方法,如圖9(b)所示,將視覺(jué)、文本令牌拼接之后輸入到多頭自注意力層(multi-head self-attention,MHSA)中。Language adapter 則由一個(gè)視覺(jué)多頭自注意層和一個(gè)交叉注意 層(multi-head cross-attention,MHCA)組 成:將MHSA 輸出的視覺(jué)序列傳入到MHCA 中作為Q 與文本特征表示的K、V 進(jìn)行交叉注意力計(jì)算,然后將視覺(jué)以及文本輸出直接相加后作為融合特征輸出,該注意力機(jī)制的實(shí)現(xiàn)可以看成是對(duì)交叉融合以及相加融合的改進(jìn)。Deng 等人(2022)的實(shí)驗(yàn)結(jié)果表明使用language adapter 的效果相比簡(jiǎn)單拼接的方式更優(yōu)。TransVG++相比基于網(wǎng)格卷積視覺(jué)輸入的TransVG 性能實(shí)現(xiàn)了大幅提升:分別在RefCOCO、RefCOCO+以及RefCOCOg 的驗(yàn)證集上提升了5.26%、10.57%和7.51%,如表1所示。

    綜上,基于圖像塊粒度視覺(jué)表征的方法將REC任務(wù)整體模型架構(gòu)的簡(jiǎn)化成了純Transformer 的結(jié)構(gòu),模型無(wú)需依賴預(yù)訓(xùn)練的卷積神經(jīng)網(wǎng)絡(luò)處理視覺(jué)輸入。此類方法實(shí)現(xiàn)了模型架構(gòu)更加簡(jiǎn)潔的同時(shí),在性能上與采用區(qū)域卷積特征以及網(wǎng)格卷積特征作為視覺(jué)tokens 的Transformer 方法實(shí)現(xiàn)了提升,但是仍然以接近4%的差距略落后于多規(guī)模預(yù)訓(xùn)練的方法OFA,如表1所示。

    3 數(shù)據(jù)集及評(píng)估指標(biāo)

    3.1 數(shù)據(jù)集

    隨著REC 研究的發(fā)展,相關(guān)數(shù)據(jù)集不斷完善,本節(jié)列舉了當(dāng)前REC 任務(wù)的4 個(gè)主流數(shù)據(jù)集,并且在表4中對(duì)各數(shù)據(jù)集進(jìn)行了比較。

    ReferItGame(Kazemzadeh 等,2014)數(shù)據(jù)集的圖像來(lái)源于ImageCLEF IAPR 圖像檢索數(shù)據(jù)集(Grubinger 等,2006)的20 000 幅圖像以及SAIAPR TC-12(segmented and annotated IAPR-TC12)擴(kuò)展數(shù)據(jù)集(Escalante 等,2010)的分割相關(guān)圖像。指代表達(dá)式的收集采用Kazemzadeh 等人(2014)設(shè)計(jì)的雙人游戲。由于該數(shù)據(jù)集中的圖像很多只包含給定類別的一個(gè)對(duì)象,玩家普遍使用簡(jiǎn)短的語(yǔ)句進(jìn)行描述,因而如表4 所示該數(shù)據(jù)集表達(dá)式的平均長(zhǎng)度偏短。迄今為止,該游戲已經(jīng)在19 894 幅自然場(chǎng)景照片中生成了一個(gè)包含130 525 個(gè)表達(dá)式的數(shù)據(jù)集,其中涉及96 654個(gè)不同的對(duì)象。

    RefCOCOg(Mao 等,2016)數(shù)據(jù)集是在Amazon Mechanical Turk 的非交互式設(shè)置中收集的。一組工作人員負(fù)責(zé)為MS COCO(Lin 等,2014)圖像中的對(duì)象編寫指代表達(dá)式,另一組工作人員則需要點(diǎn)擊圖像中給定指代表達(dá)式的指代對(duì)象。如表4 所示,該數(shù)據(jù)集包含26 711 幅圖像與85 474 個(gè)指代表達(dá)式,共計(jì)標(biāo)注了54 822 個(gè)對(duì)象。RefCOCOg 中的每幅圖像中都包含2—4 個(gè)同類別的物體,因此如表4 所示其表達(dá)式的平均長(zhǎng)度較長(zhǎng)。RefCOCOg 數(shù)據(jù)集有兩種劃分方式:第1 種將對(duì)象隨機(jī)劃分為訓(xùn)練集和驗(yàn)證集,驗(yàn)證集用于評(píng)估模型的性能,一般將該劃分下的驗(yàn)證集表示為“val*”;第2種根據(jù)圖像將數(shù)據(jù)集劃分為訓(xùn)練集、測(cè)試集以及驗(yàn)證集,分別表示為表1 中的“train”、“test”和“val”。

    表4 指代表達(dá)理解任務(wù)主流數(shù)據(jù)集特點(diǎn)總結(jié)Table 4 Summary of characteristics of mainstream datasets of referring expression comprehension

    RefCOCO 和RefCOCO+(Yu 等,2016)這兩個(gè)數(shù)據(jù)集是使用ReferitGame(Kazemzadeh 等,2014)收集的。如表4 所示,RefCOCO 數(shù)據(jù)集包含19 994 幅圖像和142 209個(gè)指代表達(dá)式,共計(jì)標(biāo)注了50 000個(gè)對(duì)象。RefCOCO+數(shù)據(jù)集不允許在指代表達(dá)式中使用位置詞,指代表達(dá)式的表述純粹基于目標(biāo)對(duì)象的外觀,這種要求使數(shù)據(jù)集的標(biāo)注可以不受觀察者視角的影響。RefCOCO+數(shù)據(jù)集則包含19 992幅圖像,以及49 856 個(gè)對(duì)象的141 564 個(gè)指代表達(dá)式。這兩個(gè)數(shù)據(jù)集被劃分成訓(xùn)練集、驗(yàn)證集以及測(cè)試集A 和測(cè)試集B,分別表示為表1中的“train”、“val”、“testA”和“testB”。測(cè)試集A 由包含多個(gè)人實(shí)例的圖像構(gòu)成,測(cè)試集B 則由包含除人外的多個(gè)物體實(shí)例的圖像組成。并且一張圖像不會(huì)重復(fù)出現(xiàn)在訓(xùn)練集、測(cè)試集以及驗(yàn)證集中。如表4所示,RefCOCO 和RefCOCO+數(shù)據(jù)集中的表達(dá)式相對(duì)比較簡(jiǎn)短。

    3.2 評(píng)估指標(biāo)

    REC 任務(wù)可以理解為一個(gè)特殊的目標(biāo)檢測(cè)任務(wù),其目的是在圖像中定位指代表達(dá)式描述的目標(biāo)對(duì)象,因此該任務(wù)通常采用預(yù)測(cè)邊界框與真實(shí)邊界框的交并比(intersection over union,IoU)來(lái)衡量預(yù)測(cè)結(jié)果的正確性,計(jì)算為

    式中,Rgt表示數(shù)據(jù)集中的人工標(biāo)注框,Rpr表示算法預(yù)測(cè)的目標(biāo)結(jié)果的邊界框,S為兩者的交并比。交并比大于0.5 的預(yù)測(cè)結(jié)果被判定是預(yù)測(cè)正確,否則判為預(yù)測(cè)錯(cuò)誤。

    最終利用交并比計(jì)算準(zhǔn)確率(accuracy)作為衡量模型性能的指標(biāo)。

    4 挑戰(zhàn)及未來(lái)發(fā)展方向

    4.1 挑戰(zhàn)

    指代表達(dá)理解任務(wù)作為溝通自然語(yǔ)言處理以及計(jì)算機(jī)視覺(jué)兩大領(lǐng)域的橋梁,實(shí)現(xiàn)了利用人類文本表述在物理世界的視覺(jué)數(shù)據(jù)中定位目標(biāo)。該任務(wù)近幾年受到越來(lái)越多的關(guān)注,也涌現(xiàn)出了諸多相關(guān)算法。但是,目前該領(lǐng)域的研究還面臨一定的挑戰(zhàn)以及困難,本文對(duì)其進(jìn)行了簡(jiǎn)單總結(jié):

    1)模型的推理速度。REC 領(lǐng)域現(xiàn)有的研究大多關(guān)注如何提升模型的推理性能,但是在實(shí)際應(yīng)用中,推理速度也是模型的一個(gè)非常重要的衡量指標(biāo)。如表3 所示,現(xiàn)有基于區(qū)域卷積粒度視覺(jué)表征的方法因其需要預(yù)先生成圖像的區(qū)域候選框,因此模型的推理速度非常慢。而基于網(wǎng)格卷積粒度視覺(jué)表征的方法則將模型的推理速度提升到了實(shí)時(shí)檢測(cè)的效果。但是,基于網(wǎng)格卷積特征粒度的方法的性能還有待提高,未來(lái)REC 領(lǐng)域的發(fā)展需要在兼顧性能的同時(shí)盡可能地提升模型推理速度。

    2)模型的可解釋性?,F(xiàn)有研究大多關(guān)注于視覺(jué)—文本特征融合模塊的設(shè)計(jì),忽略了模型的可解釋性問(wèn)題(Cirik 等,2018)。模型對(duì)于指代表達(dá)式中目標(biāo)對(duì)象的描述與圖像中的諸多對(duì)象的篩選、匹配過(guò)程是一個(gè)無(wú)法可視化的黑盒過(guò)程。已經(jīng)有研究人員開(kāi)始關(guān)注模型的可解釋性問(wèn)題,Deng 等人(2018)利用注意力模型輸出指代表達(dá)式的各個(gè)部分對(duì)推理過(guò)程的重要程度得分,Cirik 等人(2018)則通過(guò)建立語(yǔ)法樹以及圖像中對(duì)象關(guān)系圖之間節(jié)點(diǎn)的關(guān)聯(lián)實(shí)現(xiàn)表達(dá)式各部分與圖像中對(duì)象之間的一一對(duì)應(yīng),未來(lái)模型的發(fā)展應(yīng)該向可解釋的方向繼續(xù)努力。

    3)模型對(duì)表達(dá)式的推理能力?,F(xiàn)有很多REC方法對(duì)表達(dá)式的理解僅停留在對(duì)象的屬性層次,沒(méi)有實(shí)現(xiàn)真正的推理,因此模型對(duì)長(zhǎng)且復(fù)雜的表達(dá)式的處理結(jié)果不盡人意。此外,當(dāng)前的主流數(shù)據(jù)集由于表達(dá)式通常較短且圖像中的干擾對(duì)象較少而無(wú)法作為模型推理能力的評(píng)估依據(jù)(Chen 等,2020d)。目前已經(jīng)提出了一些更復(fù)雜的數(shù)據(jù)集(Chen 等,2020d;Liu等,2019b)用于對(duì)模型的評(píng)估能力進(jìn)行判定。Chen 等人(2020d)在新的數(shù)據(jù)集Cops-Ref 上對(duì)當(dāng)前最先進(jìn)的REC 模型進(jìn)行了實(shí)驗(yàn)評(píng)估,觀察到與傳統(tǒng)的REC 任務(wù)數(shù)據(jù)集相比,模型的性能在新的數(shù)據(jù)集上顯著下降。這也表明以往的大多數(shù)模型只是實(shí)現(xiàn)了在特定數(shù)據(jù)集上的過(guò)擬合,而沒(méi)有學(xué)會(huì)真正的推理。因此,開(kāi)發(fā)出具有真正的推理能力的REC模型是研究人員目前面臨的重要挑戰(zhàn)。

    4.2 未來(lái)發(fā)展方向

    本文通過(guò)結(jié)合現(xiàn)有的研究以及該任務(wù)目前面臨的挑戰(zhàn),分別從模型設(shè)計(jì)以及領(lǐng)域發(fā)展兩個(gè)層面對(duì)該領(lǐng)域未來(lái)發(fā)展進(jìn)行了如下展望:

    1)構(gòu)建大規(guī)模預(yù)訓(xùn)練通用多模態(tài)模型。隨著社會(huì)中越來(lái)越多的各種模態(tài)數(shù)據(jù)的產(chǎn)生,多模態(tài)任務(wù)相比傳統(tǒng)的計(jì)算機(jī)視覺(jué)或者自然語(yǔ)言處理任務(wù)具有更廣闊的發(fā)展前景。以往單一模態(tài)任務(wù)使用相關(guān)的預(yù)訓(xùn)練模型參數(shù)進(jìn)行初始化已經(jīng)成為了一種標(biāo)準(zhǔn)的操作,在有效節(jié)省模型和訓(xùn)練時(shí)間的同時(shí)也帶來(lái)了更高的性能。因此,使用大規(guī)模視覺(jué)—語(yǔ)言模態(tài)的數(shù)據(jù)對(duì)通用的視覺(jué)—語(yǔ)言模型進(jìn)行預(yù)訓(xùn)練,然后在多種下游任務(wù)中進(jìn)行遷移是一種必然的發(fā)展趨勢(shì)。

    2)優(yōu)化基于Transformer 的多模態(tài)特征融合方法?;赥ransformer的多模態(tài)融合方法將成為一段時(shí)間內(nèi)的主流?;趨^(qū)域卷積粒度視覺(jué)表征的方法以及基于網(wǎng)格卷積粒度視覺(jué)表征的方法都在嘗試使用Transformer中的多個(gè)注意力層實(shí)現(xiàn)兩個(gè)模態(tài)之間的信息融合,實(shí)驗(yàn)效果也要優(yōu)于此前手工設(shè)計(jì)的各種多模態(tài)融合方法。

    3)采用多任務(wù)學(xué)習(xí)的方法提升性能。出現(xiàn)了一些將指代表達(dá)理解與指代表達(dá)分割或指代表達(dá)生成的任務(wù)聯(lián)合學(xué)習(xí)的模型(Luo 等,2020;Sun 等,2022)。Luo 等人(2020)構(gòu)建了一個(gè)REC 和RES 聯(lián)合訓(xùn)練模型,與RES 相比REC 本身在目標(biāo)定位上更有優(yōu)勢(shì);而RES 可以為REC 提供更細(xì)粒度的像素級(jí)監(jiān)督。Sun 等人(2022)則構(gòu)建了一個(gè)統(tǒng)一的模型將REC 和REG(referring expression generation)任務(wù)合并,從而實(shí)現(xiàn)模型在兩個(gè)任務(wù)模型之間的知識(shí)共享。Luo 等人(2020)與Sun 等人(2022)方法的實(shí)現(xiàn)表明這種多任務(wù)學(xué)習(xí)的方式可以有效實(shí)現(xiàn)單一任務(wù)的性能提升。

    4)構(gòu)建弱監(jiān)督模型緩解對(duì)標(biāo)注數(shù)據(jù)的依賴。全監(jiān)督的學(xué)習(xí)方式依賴于輸入指代表達(dá)式—圖像—目標(biāo)邊界框之間的對(duì)應(yīng)標(biāo)注信息,此類數(shù)據(jù)集獲取非常困難。因此,有效的弱監(jiān)督模型通過(guò)輸入未標(biāo)注的指代表達(dá)式和圖像,模型輸出重建表達(dá)式,選取與原表達(dá)式距離最近的對(duì)象作為最終結(jié)果即可緩解模型對(duì)復(fù)雜標(biāo)注數(shù)據(jù)的依賴,同時(shí)避免了因?yàn)槿斯?biāo)注錯(cuò)誤導(dǎo)致的模型效果不理想的情況。

    5)深入視頻領(lǐng)域以及3D 領(lǐng)域的研究。研究人員開(kāi)始將視覺(jué)定位任務(wù)擴(kuò)展到視頻領(lǐng)域(Vasudevan等,2018;Yamaguchi 等,2017)。視頻時(shí)空定位任務(wù)由于缺少相應(yīng)的邊界框注釋只能采用弱監(jiān)督的方法,導(dǎo)致模型的性能不理想。因此,對(duì)于后續(xù)的視頻定位任務(wù)的研究不僅需要完善相關(guān)的數(shù)據(jù)集,還需要探索如何在未對(duì)齊的視頻片段與文本上實(shí)現(xiàn)視覺(jué)—語(yǔ)言的對(duì)應(yīng)。在3D 空間對(duì)機(jī)器實(shí)現(xiàn)語(yǔ)言—視覺(jué)定位是一項(xiàng)非常有現(xiàn)實(shí)意義的任務(wù)。最近的一些工作(Chen等,2020a;Liu等,2021a)實(shí)現(xiàn)了將視覺(jué)定位任務(wù)擴(kuò)展到3D 場(chǎng)景下,可以在3D 場(chǎng)景下定位自然語(yǔ)言表達(dá)式所指的對(duì)象,雖然這些方法取得了一定的成果,但是該領(lǐng)域的研究還需要更加深入,并且3D場(chǎng)景下的相關(guān)數(shù)據(jù)集也需要進(jìn)一步完善。

    5 結(jié) 語(yǔ)

    指代表達(dá)理解作為視覺(jué)定位任務(wù)中的重要分支,通過(guò)在視覺(jué)數(shù)據(jù)中定位表達(dá)式指代的目標(biāo)對(duì)象可以實(shí)現(xiàn)物理世界、機(jī)器與人類語(yǔ)言的有效連接,在現(xiàn)實(shí)世界中具有廣闊的應(yīng)用前景。本文從視覺(jué)數(shù)據(jù)的表征粒度出發(fā)將現(xiàn)有的REC 方法分為3 大類,包括最早出現(xiàn)的基于區(qū)域卷積粒度視覺(jué)表征的方法、基于網(wǎng)格卷積粒度視覺(jué)表征的方法以及基于圖像塊粒度視覺(jué)表征的方法,并且進(jìn)一步按照多模態(tài)融合模塊的設(shè)計(jì)進(jìn)行了子類別劃分。隨著Transformer在計(jì)算機(jī)視覺(jué)任務(wù)中的成功應(yīng)用,基于Transformer 的視覺(jué)—語(yǔ)言大規(guī)模預(yù)訓(xùn)練模型取得了當(dāng)前最優(yōu)的性能。最后對(duì)REC 領(lǐng)域研究目前面臨的主要問(wèn)題進(jìn)行了總結(jié),并且從多個(gè)角度對(duì)REC 未來(lái)的發(fā)展進(jìn)行了展望。希望本文可以對(duì)該領(lǐng)域未來(lái)的模型設(shè)計(jì)和領(lǐng)域發(fā)展起到一定的啟發(fā)。

    猜你喜歡
    表達(dá)式卷積模態(tài)
    基于3D-Winograd的快速卷積算法設(shè)計(jì)及FPGA實(shí)現(xiàn)
    一個(gè)混合核Hilbert型積分不等式及其算子范數(shù)表達(dá)式
    表達(dá)式轉(zhuǎn)換及求值探析
    從濾波器理解卷積
    電子制作(2019年11期)2019-07-04 00:34:38
    淺析C語(yǔ)言運(yùn)算符及表達(dá)式的教學(xué)誤區(qū)
    基于傅里葉域卷積表示的目標(biāo)跟蹤算法
    國(guó)內(nèi)多模態(tài)教學(xué)研究回顧與展望
    基于HHT和Prony算法的電力系統(tǒng)低頻振蕩模態(tài)識(shí)別
    由單個(gè)模態(tài)構(gòu)造對(duì)稱簡(jiǎn)支梁的抗彎剛度
    一種基于卷積神經(jīng)網(wǎng)絡(luò)的性別識(shí)別方法
    一本精品99久久精品77| 青草久久国产| 午夜激情欧美在线| 9191精品国产免费久久| 麻豆久久精品国产亚洲av| 国内揄拍国产精品人妻在线| 精品久久久久久久毛片微露脸| 一本一本综合久久| 中文字幕最新亚洲高清| 亚洲中文字幕日韩| 久久中文看片网| 亚洲aⅴ乱码一区二区在线播放| 99久久精品国产亚洲精品| 国产伦精品一区二区三区四那| 亚洲电影在线观看av| 久久久成人免费电影| а√天堂www在线а√下载| 欧美zozozo另类| 少妇裸体淫交视频免费看高清| 国产伦一二天堂av在线观看| 男女那种视频在线观看| 亚洲国产精品久久男人天堂| 99热这里只有精品一区 | 成人鲁丝片一二三区免费| 欧美国产日韩亚洲一区| 国产亚洲精品一区二区www| 嫩草影视91久久| 长腿黑丝高跟| 麻豆国产av国片精品| 九色国产91popny在线| 亚洲专区国产一区二区| 色吧在线观看| 午夜精品久久久久久毛片777| 精品一区二区三区av网在线观看| 在线观看免费视频日本深夜| 亚洲精品色激情综合| a在线观看视频网站| 丰满人妻熟妇乱又伦精品不卡| 日韩精品中文字幕看吧| 最新中文字幕久久久久 | 亚洲中文日韩欧美视频| 人人妻人人澡欧美一区二区| av在线天堂中文字幕| 日本撒尿小便嘘嘘汇集6| 看黄色毛片网站| 999久久久国产精品视频| 天堂√8在线中文| 十八禁人妻一区二区| 精品久久久久久久久久久久久| 国产精品一区二区精品视频观看| 日韩欧美三级三区| 久久午夜亚洲精品久久| 亚洲在线观看片| 日本黄色视频三级网站网址| 哪里可以看免费的av片| 精品一区二区三区四区五区乱码| 999精品在线视频| 亚洲国产精品sss在线观看| 国产精品精品国产色婷婷| 国产成人一区二区三区免费视频网站| 一本综合久久免费| 美女大奶头视频| 91在线精品国自产拍蜜月 | 欧美精品啪啪一区二区三区| 99久久精品热视频| 成年人黄色毛片网站| 国产在线精品亚洲第一网站| 黄色日韩在线| 亚洲av免费在线观看| 桃红色精品国产亚洲av| 日日摸夜夜添夜夜添小说| 一进一出抽搐gif免费好疼| 日韩三级视频一区二区三区| 日本黄色片子视频| 一本综合久久免费| 免费av毛片视频| 久久亚洲真实| 欧美国产日韩亚洲一区| 女同久久另类99精品国产91| 国产欧美日韩精品亚洲av| 欧美色视频一区免费| 啦啦啦韩国在线观看视频| 欧美一区二区精品小视频在线| 级片在线观看| 757午夜福利合集在线观看| 国内揄拍国产精品人妻在线| 男人的好看免费观看在线视频| 中文在线观看免费www的网站| 亚洲人成网站在线播放欧美日韩| 国产午夜精品久久久久久| 国产真实乱freesex| 真人做人爱边吃奶动态| 国产精品影院久久| 亚洲国产精品成人综合色| 精品久久久久久成人av| 国产一级毛片七仙女欲春2| 欧美日韩亚洲国产一区二区在线观看| 一区二区三区激情视频| 亚洲性夜色夜夜综合| 日本撒尿小便嘘嘘汇集6| 国产精品亚洲美女久久久| 久久欧美精品欧美久久欧美| 久久天堂一区二区三区四区| 精品电影一区二区在线| 在线看三级毛片| 桃色一区二区三区在线观看| 亚洲欧洲精品一区二区精品久久久| 国产亚洲精品综合一区在线观看| 亚洲精品一卡2卡三卡4卡5卡| 人人妻,人人澡人人爽秒播| 美女黄网站色视频| 成人午夜高清在线视频| 18禁黄网站禁片午夜丰满| 午夜成年电影在线免费观看| 中文字幕高清在线视频| 老司机在亚洲福利影院| ponron亚洲| 久久婷婷人人爽人人干人人爱| 亚洲av电影在线进入| 又大又爽又粗| 美女被艹到高潮喷水动态| 变态另类成人亚洲欧美熟女| 欧美zozozo另类| 亚洲黑人精品在线| 精品熟女少妇八av免费久了| 久久精品国产99精品国产亚洲性色| 亚洲成人久久爱视频| 别揉我奶头~嗯~啊~动态视频| 97超级碰碰碰精品色视频在线观看| 亚洲国产中文字幕在线视频| 日日摸夜夜添夜夜添小说| 欧美激情久久久久久爽电影| 国产精品综合久久久久久久免费| 国产男靠女视频免费网站| 无遮挡黄片免费观看| 最新中文字幕久久久久 | or卡值多少钱| 免费观看的影片在线观看| 国产av一区在线观看免费| 日本黄大片高清| 欧美性猛交黑人性爽| 欧美丝袜亚洲另类 | 又大又爽又粗| 国产伦一二天堂av在线观看| 国产高清视频在线观看网站| 久久久国产成人精品二区| 成年版毛片免费区| 色综合站精品国产| www.熟女人妻精品国产| av中文乱码字幕在线| 色播亚洲综合网| 国产综合懂色| 最好的美女福利视频网| a在线观看视频网站| 国产激情偷乱视频一区二区| 久久精品夜夜夜夜夜久久蜜豆| 性色avwww在线观看| 成人一区二区视频在线观看| www日本黄色视频网| 丝袜人妻中文字幕| 日韩欧美在线乱码| 18禁国产床啪视频网站| 国产69精品久久久久777片 | av片东京热男人的天堂| 亚洲人成网站在线播放欧美日韩| 欧美性猛交黑人性爽| 欧美成人免费av一区二区三区| 日本成人三级电影网站| 嫩草影院精品99| 欧美日韩亚洲国产一区二区在线观看| 男人舔女人的私密视频| 这个男人来自地球电影免费观看| 搡老熟女国产l中国老女人| 午夜a级毛片| 老鸭窝网址在线观看| 熟女人妻精品中文字幕| 色噜噜av男人的天堂激情| 男女床上黄色一级片免费看| 我要搜黄色片| 欧美在线一区亚洲| 亚洲国产色片| 一卡2卡三卡四卡精品乱码亚洲| 一本综合久久免费| 亚洲精品在线观看二区| 成年女人永久免费观看视频| av女优亚洲男人天堂 | 日韩欧美精品v在线| 噜噜噜噜噜久久久久久91| 18禁黄网站禁片午夜丰满| 波多野结衣巨乳人妻| 每晚都被弄得嗷嗷叫到高潮| 免费电影在线观看免费观看| 国模一区二区三区四区视频 | 1024香蕉在线观看| 亚洲人成伊人成综合网2020| 亚洲 欧美 日韩 在线 免费| а√天堂www在线а√下载| 亚洲在线自拍视频| 草草在线视频免费看| 亚洲国产色片| 黄色成人免费大全| 黄频高清免费视频| 久久久久久久久中文| 一a级毛片在线观看| 午夜精品久久久久久毛片777| 757午夜福利合集在线观看| 国产av不卡久久| 亚洲精品456在线播放app | 欧美黄色淫秽网站| ponron亚洲| 母亲3免费完整高清在线观看| 成人一区二区视频在线观看| 午夜a级毛片| 女警被强在线播放| 欧美三级亚洲精品| 最近最新免费中文字幕在线| 天天一区二区日本电影三级| 欧美性猛交黑人性爽| 丰满人妻熟妇乱又伦精品不卡| 男人舔奶头视频| 久久久久国内视频| 成人高潮视频无遮挡免费网站| 天堂动漫精品| 亚洲精品一卡2卡三卡4卡5卡| 日本三级黄在线观看| 天堂av国产一区二区熟女人妻| 不卡一级毛片| 日韩欧美三级三区| 亚洲中文av在线| 久久久久久九九精品二区国产| 国产91精品成人一区二区三区| 久久亚洲真实| 欧美一级a爱片免费观看看| 国产成人系列免费观看| 久久这里只有精品19| 变态另类成人亚洲欧美熟女| 制服丝袜大香蕉在线| 亚洲欧美日韩高清在线视频| 免费av毛片视频| 欧美3d第一页| 1000部很黄的大片| 久久亚洲真实| 久久久久国产精品人妻aⅴ院| 亚洲国产欧洲综合997久久,| 欧美国产日韩亚洲一区| 成人三级黄色视频| 亚洲欧美激情综合另类| 亚洲一区二区三区色噜噜| 岛国在线免费视频观看| 国产精品亚洲美女久久久| АⅤ资源中文在线天堂| 天堂影院成人在线观看| 男女做爰动态图高潮gif福利片| 午夜激情欧美在线| 欧美日韩黄片免| 男女之事视频高清在线观看| 亚洲成av人片在线播放无| 亚洲av免费在线观看| 午夜福利成人在线免费观看| 人人妻人人澡欧美一区二区| 麻豆成人午夜福利视频| 动漫黄色视频在线观看| 18禁裸乳无遮挡免费网站照片| 国产伦在线观看视频一区| 亚洲18禁久久av| 午夜成年电影在线免费观看| 国产又色又爽无遮挡免费看| 欧美3d第一页| 国产三级在线视频| 三级毛片av免费| 亚洲电影在线观看av| 日韩av在线大香蕉| 不卡av一区二区三区| 国产三级黄色录像| 99热精品在线国产| 免费高清视频大片| 一本精品99久久精品77| 欧美日本亚洲视频在线播放| 日本撒尿小便嘘嘘汇集6| 99久久久亚洲精品蜜臀av| 母亲3免费完整高清在线观看| 国产伦在线观看视频一区| 国产三级黄色录像| 可以在线观看毛片的网站| 丰满的人妻完整版| 中出人妻视频一区二区| 国产成人系列免费观看| 久久精品国产99精品国产亚洲性色| 大型黄色视频在线免费观看| 美女cb高潮喷水在线观看 | 国产黄片美女视频| 超碰成人久久| 男女那种视频在线观看| 日韩免费av在线播放| 亚洲七黄色美女视频| 黄色丝袜av网址大全| 不卡一级毛片| av视频在线观看入口| 很黄的视频免费| 757午夜福利合集在线观看| 精品乱码久久久久久99久播| 午夜激情福利司机影院| 9191精品国产免费久久| 亚洲乱码一区二区免费版| 毛片女人毛片| 久久久久免费精品人妻一区二区| 国产精品,欧美在线| 欧美丝袜亚洲另类 | 日韩人妻高清精品专区| 久久久久久国产a免费观看| 99久国产av精品| 午夜福利在线观看免费完整高清在 | 中文字幕精品亚洲无线码一区| 午夜日韩欧美国产| 久久人人精品亚洲av| 亚洲五月婷婷丁香| 一本综合久久免费| 亚洲精品色激情综合| 99久久精品国产亚洲精品| 国语自产精品视频在线第100页| 美女高潮喷水抽搐中文字幕| av片东京热男人的天堂| 在线观看66精品国产| 99在线人妻在线中文字幕| e午夜精品久久久久久久| 老司机在亚洲福利影院| 丰满人妻一区二区三区视频av | 国产精品免费一区二区三区在线| 午夜精品在线福利| 可以在线观看毛片的网站| 国产精品久久久久久久电影 | 91麻豆精品激情在线观看国产| 国产成人一区二区三区免费视频网站| 亚洲av五月六月丁香网| 国产私拍福利视频在线观看| 久久久久性生活片| 亚洲欧美精品综合一区二区三区| 亚洲精品美女久久久久99蜜臀| 在线看三级毛片| 小说图片视频综合网站| 国内毛片毛片毛片毛片毛片| 精品久久久久久久久久久久久| 精品久久久久久,| 国产黄色小视频在线观看| 99久久综合精品五月天人人| 免费在线观看影片大全网站| 国产伦人伦偷精品视频| 日本在线视频免费播放| 亚洲专区国产一区二区| 床上黄色一级片| 母亲3免费完整高清在线观看| 亚洲无线观看免费| 日本精品一区二区三区蜜桃| 精品午夜福利视频在线观看一区| 日韩免费av在线播放| 久久性视频一级片| 国产精品乱码一区二三区的特点| 成年女人永久免费观看视频| 观看免费一级毛片| 热99在线观看视频| 国产69精品久久久久777片 | 激情在线观看视频在线高清| 2021天堂中文幕一二区在线观| 国模一区二区三区四区视频 | 男女床上黄色一级片免费看| 日本撒尿小便嘘嘘汇集6| 超碰成人久久| 中文字幕人妻丝袜一区二区| 精品无人区乱码1区二区| 亚洲精品在线美女| 亚洲黑人精品在线| 日韩欧美在线二视频| 日本免费一区二区三区高清不卡| 一个人免费在线观看电影 | 亚洲,欧美精品.| 国产日本99.免费观看| 欧美日韩综合久久久久久 | 宅男免费午夜| 欧美中文日本在线观看视频| 欧美三级亚洲精品| 国产成人精品无人区| 精品久久久久久久人妻蜜臀av| avwww免费| 久久久久性生活片| 三级国产精品欧美在线观看 | 亚洲色图av天堂| 露出奶头的视频| 午夜久久久久精精品| 日韩成人在线观看一区二区三区| 青草久久国产| 又黄又爽又免费观看的视频| 欧美黑人巨大hd| 变态另类成人亚洲欧美熟女| 给我免费播放毛片高清在线观看| 日本免费一区二区三区高清不卡| e午夜精品久久久久久久| 无遮挡黄片免费观看| 欧美一级毛片孕妇| 国产精品久久久久久精品电影| 制服人妻中文乱码| 亚洲熟妇中文字幕五十中出| 久久中文字幕一级| 欧美乱妇无乱码| 亚洲av五月六月丁香网| 黄片大片在线免费观看| 日本黄大片高清| www.www免费av| 亚洲中文字幕一区二区三区有码在线看 | 亚洲av电影不卡..在线观看| 精品国产美女av久久久久小说| 国产 一区 欧美 日韩| 欧美黄色片欧美黄色片| 亚洲av中文字字幕乱码综合| 极品教师在线免费播放| 欧美不卡视频在线免费观看| 一边摸一边抽搐一进一小说| 麻豆久久精品国产亚洲av| 一进一出抽搐动态| 少妇人妻一区二区三区视频| www.精华液| 色综合亚洲欧美另类图片| 九色国产91popny在线| АⅤ资源中文在线天堂| 久久久久免费精品人妻一区二区| 免费人成视频x8x8入口观看| 亚洲精品在线美女| 很黄的视频免费| 97人妻精品一区二区三区麻豆| 亚洲国产中文字幕在线视频| 亚洲18禁久久av| xxx96com| 久久精品国产清高在天天线| 国产麻豆成人av免费视频| 免费看日本二区| 人妻丰满熟妇av一区二区三区| 欧美黑人欧美精品刺激| 国产精品 欧美亚洲| 久久亚洲精品不卡| 成年免费大片在线观看| 神马国产精品三级电影在线观看| 欧美乱妇无乱码| 亚洲中文字幕日韩| 免费看十八禁软件| 国产精品亚洲一级av第二区| 日韩欧美在线乱码| 国产av不卡久久| 亚洲中文日韩欧美视频| 欧美成人性av电影在线观看| 国产视频一区二区在线看| 毛片女人毛片| 女人高潮潮喷娇喘18禁视频| 一卡2卡三卡四卡精品乱码亚洲| 国产精品一及| 一级毛片精品| 在线观看美女被高潮喷水网站 | 最近在线观看免费完整版| 午夜福利高清视频| 欧美中文日本在线观看视频| 国产精品一及| 人人妻人人看人人澡| 日日干狠狠操夜夜爽| 黑人巨大精品欧美一区二区mp4| 午夜免费激情av| 大型黄色视频在线免费观看| 91麻豆av在线| 国产成年人精品一区二区| 国产激情偷乱视频一区二区| 两个人视频免费观看高清| 久久香蕉精品热| 黄色片一级片一级黄色片| 免费看a级黄色片| 人妻久久中文字幕网| 精品乱码久久久久久99久播| 9191精品国产免费久久| a级毛片在线看网站| 人妻夜夜爽99麻豆av| 桃色一区二区三区在线观看| 国产免费av片在线观看野外av| 久久久久精品国产欧美久久久| 变态另类丝袜制服| 亚洲最大成人中文| 欧美成狂野欧美在线观看| 日韩人妻高清精品专区| 午夜福利成人在线免费观看| 国产精品,欧美在线| 久久久久久久久中文| cao死你这个sao货| 99久久久亚洲精品蜜臀av| 久久久国产成人精品二区| 久久天堂一区二区三区四区| 小蜜桃在线观看免费完整版高清| 欧美成人性av电影在线观看| 国内精品美女久久久久久| 两人在一起打扑克的视频| 男女下面进入的视频免费午夜| 日本一本二区三区精品| 偷拍熟女少妇极品色| 国产精品一区二区精品视频观看| 操出白浆在线播放| avwww免费| 99热精品在线国产| 岛国在线免费视频观看| 老汉色∧v一级毛片| 桃色一区二区三区在线观看| 国产私拍福利视频在线观看| netflix在线观看网站| 亚洲精华国产精华精| 国内少妇人妻偷人精品xxx网站 | 亚洲18禁久久av| 国产精品亚洲美女久久久| 国产成人影院久久av| 久久久久亚洲av毛片大全| 一卡2卡三卡四卡精品乱码亚洲| 亚洲18禁久久av| 欧美乱色亚洲激情| 给我免费播放毛片高清在线观看| 村上凉子中文字幕在线| 中文字幕最新亚洲高清| 黄色视频,在线免费观看| 麻豆成人av在线观看| 在线观看免费午夜福利视频| 最新中文字幕久久久久 | 美女黄网站色视频| 欧美日韩国产亚洲二区| 国产精品久久视频播放| av国产免费在线观看| 国产精品自产拍在线观看55亚洲| 在线十欧美十亚洲十日本专区| 午夜精品在线福利| 亚洲成人中文字幕在线播放| 看免费av毛片| 狠狠狠狠99中文字幕| 人妻夜夜爽99麻豆av| 婷婷丁香在线五月| 美女高潮喷水抽搐中文字幕| 免费在线观看视频国产中文字幕亚洲| 男插女下体视频免费在线播放| 日本与韩国留学比较| 99久久综合精品五月天人人| 久久久水蜜桃国产精品网| 免费看光身美女| 最近在线观看免费完整版| 国产一区在线观看成人免费| 欧美最黄视频在线播放免费| 国产精品久久久久久人妻精品电影| 亚洲 欧美 日韩 在线 免费| 狂野欧美激情性xxxx| 亚洲av成人av| 99国产精品一区二区三区| 真人一进一出gif抽搐免费| 巨乳人妻的诱惑在线观看| 欧美最黄视频在线播放免费| 色播亚洲综合网| 成人国产一区最新在线观看| 亚洲精品乱码久久久v下载方式 | 欧美色欧美亚洲另类二区| 18禁国产床啪视频网站| 亚洲自偷自拍图片 自拍| 国产欧美日韩一区二区精品| avwww免费| 人人妻人人看人人澡| 18禁裸乳无遮挡免费网站照片| 亚洲美女黄片视频| 99热这里只有是精品50| 搡老妇女老女人老熟妇| 身体一侧抽搐| 亚洲av电影不卡..在线观看| 久久久久久国产a免费观看| 免费av不卡在线播放| av片东京热男人的天堂| 五月玫瑰六月丁香| 成人国产综合亚洲| 可以在线观看的亚洲视频| 在线永久观看黄色视频| 国产精品亚洲美女久久久| 国产欧美日韩一区二区精品| 热99在线观看视频| 91九色精品人成在线观看| 最近最新免费中文字幕在线| 欧美日本亚洲视频在线播放| 国内精品久久久久精免费| 亚洲国产精品成人综合色| 久久久久亚洲av毛片大全| 两个人看的免费小视频| 男女之事视频高清在线观看| 久久久久久人人人人人| 黄色丝袜av网址大全| 免费观看人在逋| 亚洲一区二区三区色噜噜| 欧美中文综合在线视频| 综合色av麻豆| 精品一区二区三区视频在线观看免费| 精品日产1卡2卡| 露出奶头的视频| 国产99白浆流出| 精品久久久久久成人av| 欧美性猛交╳xxx乱大交人| 成年女人看的毛片在线观看| 精品99又大又爽又粗少妇毛片 | 一级黄色大片毛片| av片东京热男人的天堂| 国产欧美日韩精品亚洲av| 亚洲欧美精品综合一区二区三区| 久久久久性生活片| 国产欧美日韩精品亚洲av| 亚洲专区国产一区二区| 久久久国产成人精品二区| 久久久久久国产a免费观看| 亚洲熟女毛片儿| 成人三级做爰电影| 天天添夜夜摸| 99久久久亚洲精品蜜臀av| 午夜久久久久精精品| 国产成人精品无人区| 人人妻人人澡欧美一区二区|