• <tr id="yyy80"></tr>
  • <sup id="yyy80"></sup>
  • <tfoot id="yyy80"><noscript id="yyy80"></noscript></tfoot>
  • 99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看 ?

    圖像的文本描述方法研究綜述

    2018-05-29 07:45:36馬龍龍韓先培
    中文信息學(xué)報(bào) 2018年4期
    關(guān)鍵詞:評(píng)測(cè)檢索模態(tài)

    馬龍龍,韓先培,孫 樂(lè)

    (中國(guó)科學(xué)院 軟件研究所 中文信息處理實(shí)驗(yàn)室,北京 100190)

    0 引言

    隨著可拍照移動(dòng)智能終端的廣泛使用和互聯(lián)網(wǎng)的快速發(fā)展,融合視覺(jué)和文本信息的多模態(tài)數(shù)據(jù)在急劇增加,例如,帶文本標(biāo)注的照片、報(bào)紙文章中的圖文對(duì)照內(nèi)容、帶標(biāo)題的視頻以及社交媒體出現(xiàn)的多模態(tài)交互數(shù)據(jù)。多模態(tài)機(jī)器學(xué)習(xí)(multi modal machine learning)為機(jī)器提供了處理多模態(tài)數(shù)據(jù)的能力,多模態(tài)學(xué)習(xí)的長(zhǎng)遠(yuǎn)目標(biāo)是使機(jī)器充分感知環(huán)境,更智能地和環(huán)境進(jìn)行交互。當(dāng)前多模態(tài)處理包括圖像/視頻的文本描述、基于視覺(jué)的問(wèn)答和看圖講故事等任務(wù)。本文聚焦于多模態(tài)學(xué)習(xí)中的圖像文本描述(image captioning)[1]方法。使用圖像文本描述方法可以有效組織圖像數(shù)據(jù),結(jié)合文本信息檢索技術(shù)方便地對(duì)海量圖像數(shù)據(jù)進(jìn)行搜索,能夠從幻燈片中的圖片讀懂演講者所講的內(nèi)容。此外,使用圖像文本描述方法可以幫助視覺(jué)障礙者理解圖像。

    圖像的文本描述也是計(jì)算機(jī)視覺(jué)和自然語(yǔ)言處理領(lǐng)域的交叉任務(wù),能夠完成從圖像到文本的多模態(tài)轉(zhuǎn)換,最早由Farhadi[2]等人提出。該任務(wù)可具體形式化描述為: 給定二元組(I,S),其中I表示圖像,S表示圖像的文本描述句子,模型完成從圖像I到描述句子S的多模態(tài)映射I→S。該任務(wù)對(duì)于人類來(lái)說(shuō)非常容易,但是卻給機(jī)器帶來(lái)了巨大挑戰(zhàn),因?yàn)闄C(jī)器不僅要理解圖像的內(nèi)容,還要產(chǎn)生人類可讀的描述性句子。

    圖像的文本描述方法可用來(lái)分析圖像中的視覺(jué)內(nèi)容并產(chǎn)生文本描述。典型任務(wù)是用一句話描述圖像中出現(xiàn)的視覺(jué)對(duì)象、對(duì)象屬性及對(duì)象之間的關(guān)系;給出圖像中描述情境的特征,提供圖像的情境背景知識(shí),如室內(nèi)還是戶外;描述圖像中出現(xiàn)的對(duì)象之間的相互關(guān)系,甚至推理出圖像中未出現(xiàn)的內(nèi)容。例如,圖像內(nèi)容為火車站候車室,人們?cè)诘群蚧疖?,雖然圖像中并未出現(xiàn)火車,但是自動(dòng)生成的文本描述中可能出現(xiàn)火車字樣。而傳統(tǒng)的圖像理解任務(wù)主要集中于發(fā)現(xiàn)并分割出圖像中的對(duì)象、確定對(duì)象的屬性、計(jì)算圖像情境的屬性和識(shí)別出現(xiàn)在圖像中的人與對(duì)象的相互關(guān)系。圖像理解的結(jié)果為無(wú)結(jié)構(gòu)的標(biāo)簽列表,無(wú)法直接用于圖像的文本描述。

    圖1給出了MS COCO[3]數(shù)據(jù)集中圖像的英文文本描述實(shí)例。在該實(shí)例中,要生成圖像的文本描述句子,首先需要模型能夠分析圖像,理解圖像中出現(xiàn)的對(duì)象、動(dòng)作、屬性和場(chǎng)景等信息,通過(guò)選擇并執(zhí)行一定的語(yǔ)義和語(yǔ)法規(guī)則,生成概括性的描述句子。

    圖像的文本描述不但需要理解圖像內(nèi)容,而且需要實(shí)現(xiàn)內(nèi)容選擇、內(nèi)容組織,以及用語(yǔ)言生動(dòng)表現(xiàn)出所要表達(dá)內(nèi)容的自然語(yǔ)言產(chǎn)生過(guò)程,因此圖像的文本描述句子需要滿足以下三個(gè)條件。

    (1) 正確描述圖像內(nèi)容。

    (2) 產(chǎn)生的文本描述必須類似于人類的描述,而且能夠較好地描述個(gè)性化的特征,例如,對(duì)于同一幅圖片,藝術(shù)評(píng)論顯然不同于一般的娛樂(lè)性雜志撰稿。

    (3) 產(chǎn)生的圖像文本描述能夠盡可能地包含不同視角、人類對(duì)圖像各個(gè)層次的理解。

    縱觀國(guó)內(nèi)外研究人員關(guān)于圖像的文本描述方法的研究,根據(jù)所處階段的關(guān)鍵技術(shù)不同及文本描述方法的不同,我們將圖像的文本描述方法分為以下三大類。

    (1) 基于生成的方法(generation-based method)。該方法分為檢測(cè)過(guò)程和生成過(guò)程。檢測(cè)過(guò)程基于圖像特征檢測(cè)圖像中出現(xiàn)的對(duì)象、對(duì)象屬性、圖像表達(dá)內(nèi)容的場(chǎng)景和行為等信息;生成過(guò)程使用這些信息驅(qū)動(dòng)自然語(yǔ)言產(chǎn)生系統(tǒng)輸出圖像的文本描述。

    (2) 基于檢索的方法(retrieval-based method)。為了生成圖像的文本描述,該方法檢索數(shù)據(jù)庫(kù)中與輸入圖像相似的圖像集,基于檢索到的相似圖像集的文本描述,用最相似的檢索結(jié)果合理組織生成圖像的文本描述。

    (3) 基于編碼—解碼的方法(encoder-decoder method)。該方法以深度學(xué)習(xí)為基礎(chǔ),采用編碼—解碼的方式直接生成文本描述。這種方法需要大規(guī)模的訓(xùn)練語(yǔ)料支撐,生成的文本描述形式多種多樣,不受限于固定的語(yǔ)言模板。

    本文其余章節(jié)結(jié)構(gòu)如下: 第一~三節(jié)分別詳細(xì)介紹了基于生成的方法、基于檢索的方法和基于編碼—解碼的方法;第四節(jié)闡述了圖像文本描述的數(shù)據(jù)集和評(píng)測(cè)標(biāo)準(zhǔn);第五節(jié)對(duì)主要開(kāi)源工具包進(jìn)行簡(jiǎn)介;第六節(jié)分析目前圖像的文本描述所要解決的關(guān)鍵問(wèn)題及研究難點(diǎn);第七節(jié)為結(jié)束語(yǔ)。

    1 基于生成的方法

    基于生成的方法用計(jì)算機(jī)視覺(jué)技術(shù)檢測(cè)出圖像中的對(duì)象,預(yù)測(cè)對(duì)象的屬性和相互關(guān)系,識(shí)別圖像中可能發(fā)生的行為,然后用特定的模板、語(yǔ)言模型或句法模型生成圖像的文本描述句子。

    該方法依賴于預(yù)先設(shè)定的場(chǎng)景對(duì)象、對(duì)象屬性以及行為等語(yǔ)義類別,根據(jù)句子生成方法的不同又可分為基于模板的方法、基于句法分析的方法和基于語(yǔ)言模型的方法。

    1.1 基于模板的方法

    基于模板的方法需要預(yù)先設(shè)置包含多個(gè)需要用對(duì)象關(guān)系和屬性標(biāo)簽去填充的模板,這些對(duì)象關(guān)系和屬性標(biāo)簽形成空槽,對(duì)空槽進(jìn)行填充,形成圖像的文本描述句子。

    Kulkarni[4]等人提出Baby Talk模型,該模型使用檢測(cè)器識(shí)別對(duì)象、屬性和相互關(guān)系,采用CRF算法預(yù)測(cè)標(biāo)簽,最后使用模板生成文本描述。Kuznetsova[5]等人學(xué)習(xí)訓(xùn)練集已有的句子描述產(chǎn)生樹(shù)形句子片段,測(cè)試時(shí)與新生成的文本描述再組合,產(chǎn)生最終的圖像文本描述。Yang[6]等人用隱馬爾科夫模型選擇可能的對(duì)象、動(dòng)詞、介詞及場(chǎng)景類型填充句子模板。

    1.2 基于句法分析的方法

    基于句法分析的方法首先檢測(cè)對(duì)象、對(duì)象屬性、對(duì)象之間空間關(guān)系、圖像場(chǎng)景類型、對(duì)象行為等,然后使用依存句法樹(shù)/圖驅(qū)動(dòng)句子的各個(gè)部件逐步生成完整的描述句子。

    Elliott[7]等人提出首個(gè)基于句法分析的方法VDR(visual dependency representation),該方法用依存圖表示對(duì)象之間的關(guān)系,將圖像解析為VDR,然后遍歷VDR并考慮VDR與依存句法樹(shù)的約束關(guān)系填充句子模板的空槽,從而生成圖像的文本描述。Elliott[8]等人進(jìn)一步改進(jìn)了VDR方法,提出了從數(shù)據(jù)自動(dòng)生成依存圖的方法,該方法通過(guò)使用圖像和文本數(shù)據(jù)自動(dòng)學(xué)習(xí)圖像中對(duì)象的顏色、紋理和形狀等屬性,并對(duì)各屬性按打分進(jìn)行排序。該方法的優(yōu)勢(shì)是解決了VDR方法對(duì)大量人工標(biāo)注數(shù)據(jù)的依賴問(wèn)題。Mitchell[9]等人把圖像文本描述問(wèn)題看作是VDR句子對(duì)的機(jī)器翻譯問(wèn)題,執(zhí)行顯式的圖像內(nèi)容選擇和語(yǔ)法約束,用帶約束的整數(shù)規(guī)劃方法得到圖像的文本描述。

    1.3 基于語(yǔ)言模型的方法

    基于語(yǔ)言模型的方法首先生成若干句子中可能出現(xiàn)的短語(yǔ),然后依賴語(yǔ)言模型對(duì)這些短語(yǔ)片段進(jìn)行組織,從而生成圖像的文本描述。

    Kulkarni[4]等人首先確定圖像中的對(duì)象、屬性和介詞等相關(guān)信息,將其表示成元組,然后使用預(yù)先訓(xùn)練好的N-gram語(yǔ)言模型生成流暢的文本描述句子。同樣,Li[10]等人先產(chǎn)生多個(gè)句法合理的句子片段并用維基百科數(shù)據(jù)訓(xùn)練N-gram語(yǔ)言模型,然后組合這些句子片段產(chǎn)生最終的圖像文本描述。Fang[11]等人提出基于最大熵語(yǔ)言模型生成圖像文本描述的方法,該方法首先使用多實(shí)例學(xué)習(xí)的方法生成若干單詞,然后使用最大熵語(yǔ)言模型確定已知若干單詞的條件下最可能產(chǎn)生的文本描述句子。

    最近得益于深度神經(jīng)網(wǎng)絡(luò)的快速發(fā)展,越來(lái)越多的方法采用RNN作為語(yǔ)言模型,RNN是基于時(shí)序的神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu),相比于傳統(tǒng)的N-gram語(yǔ)言模型,RNN能夠捕獲任意長(zhǎng)度的上下文信息,而不僅僅局限于前后n個(gè)上下文單詞。關(guān)于RNN語(yǔ)言模型的方法我們將在第三節(jié)詳細(xì)描述。

    1.4 小結(jié)

    基于生成的方法在檢測(cè)過(guò)程中依賴于概念檢測(cè)的質(zhì)量,在生成過(guò)程中受限于人工設(shè)計(jì)的模板、不完備的語(yǔ)言模型以及有限的句法模型,因而,該方法生成的文本描述句子單一,不具有多樣性。

    2 基于檢索的方法

    基于檢索的方法將圖像的文本描述問(wèn)題看作信息檢索問(wèn)題,即在數(shù)據(jù)集C中尋找查詢圖像Iq的相似子集M=(Im,Sm),其中Im表示圖像集,Sm表示圖像對(duì)應(yīng)的文本描述集,通過(guò)合理地組織Sm輸出查詢圖像Iq的文本描述結(jié)果Sq。

    根據(jù)圖像表示方法和相似度計(jì)算方法,基于檢索的方法進(jìn)一步分為基于視覺(jué)空間的檢索方法和基于多模態(tài)空間的檢索方法。

    2.1 基于視覺(jué)空間的檢索方法

    基于視覺(jué)空間的檢索方法利用圖像視覺(jué)特征的相似性,從訓(xùn)練圖像集中查詢,得到候選圖像集,然后利用候選圖像集中的圖像和文本信息生成圖像的文本描述,具體步驟如下:

    (1) 用特定視覺(jué)特征表示輸入圖像;

    (2) 從訓(xùn)練圖像集中基于視覺(jué)特征空間相似性度量標(biāo)準(zhǔn)檢索得到候選圖像集;

    (3) 利用包含在候選集的圖像和文本信息,根據(jù)一定規(guī)則或方法組合生成圖像的候選文本描述,最后對(duì)圖像的候選文本描述進(jìn)行排序,選取最優(yōu)結(jié)果。

    Torralba[12]等人構(gòu)建了Tiny Image數(shù)據(jù)庫(kù),該數(shù)據(jù)庫(kù)使用WordNet中的單詞為每張圖像建立多個(gè)標(biāo)簽。Kuznetsova[13]等人基于Tiny Image數(shù)據(jù)庫(kù)來(lái)描述查詢圖像,檢索視覺(jué)相似性圖像集。大多數(shù)基于視覺(jué)空間的檢索方法以這個(gè)步驟為基準(zhǔn),然后用對(duì)象行為檢測(cè)及場(chǎng)景分類器對(duì)候選圖像進(jìn)行處理,將視覺(jué)和短語(yǔ)識(shí)別結(jié)果作為特征,根據(jù)排序算法得到最優(yōu)文本描述。

    Verma[14]等人使用RGB、HSV顏色直方圖、Gabor和Haar描述、GIST和SIFT描述作為圖像視覺(jué)特征,利用這些圖像視覺(jué)特征的相似性得到圖像的文本描述信息。候選圖像的文本描述劃分為一定類型的短語(yǔ),如主語(yǔ)、介詞、賓語(yǔ)等,查詢圖像的最優(yōu)描述,由圖像相似性、谷歌搜索計(jì)數(shù)值以及圖像三元組構(gòu)成的聯(lián)合概率分布確定。

    Ordonez[15]等人提出了Im2Text模型,并在規(guī)模為一百萬(wàn)的圖像文本描述數(shù)據(jù)庫(kù)中進(jìn)行檢索。Patterson[16]等人構(gòu)造了大規(guī)模場(chǎng)景屬性數(shù)據(jù)集,在該數(shù)據(jù)集上訓(xùn)練屬性分類器作為圖像文本描述的全局屬性特征,通過(guò)擴(kuò)展Im2Text模型,可產(chǎn)生更好的圖像檢索和文本描述結(jié)果。Mason[17]等人使用該場(chǎng)景屬性描述方法,先從訓(xùn)練集中找出視覺(jué)相似的圖像,基于相似圖像集的文本描述采用概率密度估計(jì)的方法預(yù)測(cè)描述句子中單詞的條件概率。最終查詢圖像的文本描述使用兩種方法得到,一種方法基于SumBasic模型[18],另一種方法由查詢圖像的單詞條件概率分布與候選圖像集描述概率分布的K-L散度最小化得到。

    Yagcioglu[19]等人提出組合分布語(yǔ)義平均查詢擴(kuò)展方法,圖像特征表示由卷積神經(jīng)網(wǎng)絡(luò)VGG-CNN(visual geometry group convolutional neural network)[20]得到,圖像特征為在ImageNet數(shù)據(jù)集上訓(xùn)練的深度神經(jīng)網(wǎng)絡(luò)最后一層計(jì)算激活函數(shù)值得到,查詢圖像的文本描述由相似性檢索得到圖像集的分布式表示得到,權(quán)值為查詢圖像與檢索訓(xùn)練圖像之間的相似性。Devlin[21]等人使用VGG-CNN最后一層激活函數(shù)作為全局圖像描述特征,用K近鄰方法確定查詢圖像的視覺(jué)相似圖像集。計(jì)算相似度時(shí),用訓(xùn)練集中圖像和查詢圖像的N-gram重疊F測(cè)度作為度量距離標(biāo)準(zhǔn),查詢圖像的文本描述由具有最高平均n元重疊F測(cè)度得到,也就是K近鄰中心描述。

    2.2 基于多模態(tài)空間的檢索方法

    基于多模態(tài)空間的檢索方法分為兩步:

    (1) 用訓(xùn)練集上的圖像和對(duì)應(yīng)的文本描述學(xué)習(xí)多模態(tài)空間表示;

    (2) 給定查詢圖像,在圖像和對(duì)應(yīng)文本描述的聯(lián)合表示空間進(jìn)行圖像和文本模態(tài)的交叉檢索,即查詢圖像得到圖像的文本描述和查詢句子可得到對(duì)應(yīng)的圖像內(nèi)容。

    Hodosh[22]等人提出KCCA(kernel canonical correlation analysis)方法學(xué)習(xí)多模態(tài)空間表示,該方法使用核函數(shù)提取高維特征,并將圖像的文本描述問(wèn)題看作檢索問(wèn)題,使用最近鄰方法進(jìn)行檢索,最后對(duì)候選文本綜合排序,產(chǎn)生圖像的文本描述結(jié)果。該方法需要保存核矩陣,只適用于小規(guī)模數(shù)據(jù)集。Socher[23]等人用深度神經(jīng)網(wǎng)絡(luò)學(xué)習(xí)圖像—句子聯(lián)合隱嵌入空間,分別學(xué)習(xí)圖像和文本模態(tài)表示,然后再映射到多模態(tài)空間。Socher[24]等人進(jìn)一步提出一種基于KCCA的半監(jiān)督視覺(jué)語(yǔ)義對(duì)齊模型,該模型能夠使用少量的標(biāo)注數(shù)據(jù)和大量的無(wú)標(biāo)注數(shù)據(jù)訓(xùn)練,完成單詞和圖像區(qū)域的對(duì)齊。單詞和圖像區(qū)域被映射到多模態(tài)空間,根據(jù)EM算法估計(jì)模型參數(shù),多模態(tài)特征相似的單詞和圖像區(qū)域顯式地對(duì)齊。

    Karpathy[25]等人考慮嵌入細(xì)粒度單元,即圖像中對(duì)象對(duì)應(yīng)的依存樹(shù)嵌入共有子空間,最終模型集成了全局圖像—句子特征和對(duì)象—部分句子依存樹(shù)局部特征。Kiros[26]等人基于深度神經(jīng)網(wǎng)絡(luò)產(chǎn)生文本描述,使用LSTM遞歸神經(jīng)網(wǎng)絡(luò)計(jì)算句子特征,用卷積神經(jīng)網(wǎng)絡(luò)提取圖像特征,將圖像特征投影到LSTM隱狀態(tài)空間,神經(jīng)網(wǎng)絡(luò)語(yǔ)言模型從多模態(tài)空間產(chǎn)生查詢圖像的文本描述。

    2.3 小結(jié)

    基于檢索的方法能夠很好地利用訓(xùn)練數(shù)據(jù)集,當(dāng)訓(xùn)練集與測(cè)試集相關(guān)性較高時(shí)效果顯著。該方法依賴于大規(guī)模的訓(xùn)練語(yǔ)料,產(chǎn)生的文本描述局限于訓(xùn)練集的描述文本。

    3 基于編碼—解碼的方法

    近幾年,基于編碼—解碼的方法在計(jì)算機(jī)視覺(jué)和自然語(yǔ)言處理等領(lǐng)域都有廣泛的應(yīng)用。基于編碼—解碼方法的圖像文本描述過(guò)程分為兩步。

    (1) 編碼階段: 用深度卷積神經(jīng)網(wǎng)絡(luò)CNN提取圖像的視覺(jué)特征;

    (2) 解碼階段: 基于提取的圖像視覺(jué)特征作為解碼階段的輸入,利用RNN/LSTM輸出圖像的文本描述句子。

    Vinyals[27]等人提出了谷歌NIC模型,該模型將圖像和單詞投影到多模態(tài)空間,并使用長(zhǎng)短時(shí)記憶LSTM網(wǎng)絡(luò)生成文本描述。Xu[28]等人提出模型gLSTM,該模型使用語(yǔ)義信息引導(dǎo)長(zhǎng)短時(shí)記憶LSTM網(wǎng)絡(luò)生成文本描述。Li[30]等人構(gòu)建了首個(gè)中文圖像文本描述數(shù)據(jù)集Flickr8kCN,并提出中文文本描述生成模型CS-NIC,該方法使用GoogLeNet[19]對(duì)圖像進(jìn)行編碼,并使用長(zhǎng)短時(shí)記憶LSTM網(wǎng)絡(luò)對(duì)圖像生成過(guò)程建模。Donahue[31]等人提出的學(xué)習(xí)模型把靜態(tài)圖像和圖像文本描述單詞輸入到四層LSTM網(wǎng)絡(luò)。Gan[32]等人提出基于語(yǔ)義組合網(wǎng)絡(luò)的圖像文本描述方法,在文本描述生成過(guò)程中引入高層語(yǔ)義概念。Rennie[33]等人提出分兩步生成段落長(zhǎng)度的圖像文本描述方法。第一步,LSTM沿時(shí)間展開(kāi)的每個(gè)時(shí)刻,圖像特征向量都輸入到LSTM,生成表示圖像文本描述句子的單詞向量序列;第二步,將第一步生成的單詞向量序列作為另一個(gè)用來(lái)生成圖像描述句子的LSTM輸入,這個(gè)LSTM通過(guò)在序列模型的輸入中加入句子向量來(lái)預(yù)測(cè)圖像描述句子中的下一個(gè)單詞。

    根據(jù)編碼和解碼方法不同,基于編碼—解碼的圖像文本描述方法又可分為三種: 基于融合的方法、基于注意力的方法以及基于強(qiáng)化學(xué)習(xí)的方法。

    3.1 基于融合的方法

    基于融合的方法主要是將圖像特征向量和文本描述過(guò)程中產(chǎn)生的文本特征向量相融合。融合操作分為三種方式。

    (1) 疊加融合: 將圖像特征向量和圖像文本描述過(guò)程中產(chǎn)生的文本特征向量疊加在一起,形成增廣向量,增廣向量長(zhǎng)度是兩個(gè)向量長(zhǎng)度之和。疊加融合方法直觀、簡(jiǎn)便,易于實(shí)現(xiàn),但是如果深度學(xué)習(xí)的層數(shù)較多的話,疊加融合方法使得神經(jīng)網(wǎng)絡(luò)的參數(shù)個(gè)數(shù)增加。

    (2) 加融合: 假定圖像特征向量和圖像文本描述過(guò)程中產(chǎn)生的文本特征向量的維數(shù)一樣,將這兩種模態(tài)特征向量的相同下標(biāo)的元素相加,產(chǎn)生一個(gè)相同維數(shù)的向量。

    (3) 乘融合: 假定圖像特征向量和圖像文本描述過(guò)程中產(chǎn)生的文本特征向量的維數(shù)一樣,將這兩種模態(tài)特征向量的相同下標(biāo)的元素相乘(element-wise product),產(chǎn)生一個(gè)相同維數(shù)的向量。

    融合過(guò)程把描述圖像的句子用RNN處理,再與CNN計(jì)算得到的圖像特征向量按上述三種融合策略合并,合并后的向量輸入到softmax,最終輸出圖像的文本描述句子。

    Kiros[34]等人通過(guò)求解圖像特征向量和圖像文本描述過(guò)程中產(chǎn)生的文本特征向量最大相似性,把圖像特征向量和圖像文本描述過(guò)程中產(chǎn)生的文本特征向量投影到多模態(tài)共有子空間,將對(duì)數(shù)雙線性語(yǔ)言模型的輸出、圖像特征向量或者文本特征向量進(jìn)行融合,以便預(yù)測(cè)圖像文本描述句子的下一個(gè)單詞。Mao[35]等人提出首個(gè)基于神經(jīng)網(wǎng)絡(luò)的圖像文本描述生成模型m-RNN,該模型使用CNN對(duì)圖像建模,用RNN對(duì)句子建模,并使用多模態(tài)空間為圖像和文本建立關(guān)聯(lián)。Hendricks[36]等人也使用了把圖像特征向量和LSTM生成的文本嵌入向量融合形成多模態(tài)空間向量的方法。Tanti[37]等人提出的圖像文本描述方法采用兩種不同融合方式: (1)圖像特征和文本特征融合后作為RNN的輸入;(2)RNN僅處理文本序列,RNN的輸出與圖像特征融合后送入前饋神經(jīng)網(wǎng)絡(luò)產(chǎn)生輸出結(jié)果。實(shí)驗(yàn)結(jié)果表明RNN僅處理文本序列效果較好。

    3.2 基于注意力的方法

    Xu[38]等人最早將基于注意力的方法引入到圖像的文本描述中,使用卷積層提取基于位置的空間特征,在圖像多個(gè)局部區(qū)域和文本句子之間建立關(guān)聯(lián)。文中介紹了兩種基于注意力的方法: Hard attention和Soft attention注意力機(jī)制。解碼使用整個(gè)圖像特征向量來(lái)初始化LSTM單元。用融合的方式把區(qū)域圖像(指整個(gè)圖像中的一塊區(qū)域)輸入到LSTM,使LSTM產(chǎn)生新的狀態(tài);然后把這個(gè)狀態(tài)和區(qū)域圖像融合在一起,以此來(lái)預(yù)測(cè)圖像文本描述句子中的下一個(gè)單詞。圖像特征向量經(jīng)過(guò)加權(quán)平均被融合到LSTM的解碼過(guò)程中,使得文本描述生成網(wǎng)絡(luò)能夠捕捉圖像的局部信息,提升了圖像文本描述方法的性能。Andrej[39]等人提出對(duì)圖像中的多個(gè)局部區(qū)域和文本描述片段進(jìn)行顯式對(duì)齊,使用RCNN(region convolutional neural network)的方法選取可能的圖像區(qū)域進(jìn)行排序,選擇概率最大的19個(gè)作為候選區(qū)域,經(jīng)過(guò)仿射變換得到圖像區(qū)域特征,與單詞特征進(jìn)行相似度匹配,使用注意力的思想為每個(gè)單詞找到最匹配的圖像區(qū)域。圖像文本描述的生成過(guò)程用RNN完成,首先將第一個(gè)單詞和圖像特征向量一同輸入RNN中,在其后的輸入中,圖像特征被看作是一個(gè)全零向量。

    Zhou[40]等人提出一種基于text-conditional注意力機(jī)制的方法,傳統(tǒng)的注意力機(jī)制方法關(guān)注于圖像的局部區(qū)域,而該方法強(qiáng)調(diào)關(guān)注于文本描述句子的某個(gè)單詞,使用文本信息改善局部注意力。模型采用td-gLSTM(time-dependent gLSTM)方法,該方法對(duì)句子中各單詞的嵌入表示求平均,并與圖像嵌入表示相融合,生成text-conditional guidance信號(hào),該信號(hào)用于引導(dǎo)LSTM產(chǎn)生文本描述序列。

    Yang[41]等人描述了一種通用的基于注意力機(jī)制的編碼—解碼模型,這個(gè)模型可以用來(lái)生成圖像描述句子。該方法在編碼—解碼結(jié)構(gòu)中添加了評(píng)價(jià)網(wǎng)絡(luò)(review network),評(píng)價(jià)網(wǎng)絡(luò)基于注意力機(jī)制設(shè)計(jì),每個(gè)步驟輸出一個(gè)思考向量(thought vector),思考向量用來(lái)作為注意力網(wǎng)絡(luò)的輸入。注意力機(jī)制模型中的圖像子區(qū)域和整個(gè)圖像融合后,參與到圖像文本描述生成過(guò)程中。

    You[42]等人提出一種注意力機(jī)制的圖像文本描述方法,該方法將自底向上和自頂向下的方法相融合?;谡Z(yǔ)義注意(semantic attention)的思想,整個(gè)方法有選擇地聚焦于單詞,分別提取圖像整體特征和若干概念的局部特征,將若干局部特征加權(quán)與圖像的整體特征在單詞級(jí)執(zhí)行融合,并參與到RNN運(yùn)算過(guò)程中。Chen[43]等人基于注意力機(jī)制的編碼-解碼框架提出StructCap模型,通過(guò)聯(lián)合訓(xùn)練視覺(jué)分析樹(shù)、結(jié)構(gòu)語(yǔ)義注意和基于RNN的文本描述生成模塊來(lái)改進(jìn)圖像文本描述的性能。Li[44]等人提出一種全局-局部注意的圖像文本描述方法,通過(guò)注意力機(jī)制集成圖像層的全局表示和對(duì)象層的局部表示。Mun[45]等人提出基于文本引導(dǎo)的注意力模型來(lái)生成圖像的文本描述,采用基于實(shí)例的學(xué)習(xí)方法獲取相似圖像的文本描述句子集,并通過(guò)相似圖像的文本描述句子來(lái)學(xué)習(xí)圖像相關(guān)區(qū)域的注意力。

    3.3 基于強(qiáng)化學(xué)習(xí)的方法

    強(qiáng)化學(xué)習(xí)是近年來(lái)機(jī)器學(xué)習(xí)和智能控制領(lǐng)域的熱點(diǎn)方法,它關(guān)注于智能體如何在環(huán)境中采取一系列行為,從而獲得最大的累積(reward)。

    Zhang[46]等人將強(qiáng)化學(xué)習(xí)應(yīng)用在圖像的文本描述生成中,該過(guò)程被看作有限馬爾科夫決策過(guò)程(Markov decision process, MDP),決策過(guò)程的狀態(tài)值由CNN提取的圖像特征和已經(jīng)生成的文本序列構(gòu)成。訓(xùn)練過(guò)程采用actor-critic方法, 包括策略網(wǎng)絡(luò)(policy network)和值網(wǎng)絡(luò)(value network),策略網(wǎng)絡(luò)根據(jù)狀態(tài)值生成一系列決策,值網(wǎng)絡(luò)根據(jù)當(dāng)前的狀態(tài)給出策略的reward。圖像文本描述模型首先采用最大似然估計(jì)的方法進(jìn)行預(yù)訓(xùn)練,然后使用強(qiáng)化學(xué)習(xí)再優(yōu)化。訓(xùn)練過(guò)程使用蒙特卡洛抽樣,根據(jù)采樣序列的CIDEr或BLEU作為reward更新目標(biāo)函數(shù)。

    Liu[47]等人提出基于強(qiáng)化學(xué)習(xí)的神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)用于圖像的文本描述,訓(xùn)練過(guò)程采用策略梯度(policy gradient)的方法,策略梯度方法根據(jù)值函數(shù)對(duì)策略進(jìn)行改進(jìn),從而選取最優(yōu)策略。實(shí)驗(yàn)結(jié)果表明,使用BLEU-4、METEOR、CIDEr和SPICE評(píng)測(cè)標(biāo)準(zhǔn)組合指導(dǎo)最優(yōu)化過(guò)程,生成的圖像文本描述質(zhì)量?jī)?yōu)于傳統(tǒng)方法。

    Ren[48]等人提出基于決策框架的圖像文本描述方法,利用強(qiáng)化學(xué)習(xí)中的策略網(wǎng)絡(luò)和值網(wǎng)絡(luò)共同來(lái)確定執(zhí)行每次決策的下一個(gè)單詞的輸出。策略網(wǎng)絡(luò)根據(jù)當(dāng)前狀態(tài)預(yù)測(cè)下一個(gè)單詞的概率,值網(wǎng)絡(luò)根據(jù)預(yù)測(cè)值給出reward,reward函數(shù)采用視覺(jué)語(yǔ)義嵌入(visual semantic embedding)的形式,這種形式能夠評(píng)判圖像和句子的相似度,可以作為最終優(yōu)化的全局目標(biāo),這兩種網(wǎng)絡(luò)的參數(shù)通過(guò)基于actor-critic的強(qiáng)化學(xué)習(xí)算法訓(xùn)練得到。

    3.4 小結(jié)

    基于編碼—解碼的方法生成的句子具有多樣性,不依賴于單一的語(yǔ)言模板,有時(shí)甚至可以推理出圖像中未出現(xiàn)的內(nèi)容,例如,火車站候車室中的人們正在等候火車,雖然圖像中并未出現(xiàn)火車,但模型能夠基于圖像的情境信息進(jìn)行推理。

    4 數(shù)據(jù)集和評(píng)測(cè)標(biāo)準(zhǔn)

    公開(kāi)的數(shù)據(jù)集和評(píng)測(cè)標(biāo)準(zhǔn)對(duì)于推動(dòng)圖像的文本描述方法研究起著至關(guān)重要的作用。本節(jié)將對(duì)現(xiàn)有比較有影響力的數(shù)據(jù)集、評(píng)測(cè)標(biāo)準(zhǔn)和評(píng)測(cè)組織進(jìn)行小結(jié)。

    4.1 數(shù)據(jù)集

    當(dāng)前圖像的文本描述數(shù)據(jù)集主要包括英文、德文、日文和中文數(shù)據(jù)集。英文數(shù)據(jù)集包括IAPR-TC12[49]、PASCAL[50]、Flickr8k[22]、SBU[15]、MS COCO[3]、Flickr30k[51]、Visual Genome[52]和Multi30k[53];德文數(shù)據(jù)集包括IAPR-TC12[49]和Multi30k[53];日文數(shù)據(jù)集有STAIR[54];中文數(shù)據(jù)集有Flickr8kCN[29]和AIC-ICC[55]。數(shù)據(jù)集的發(fā)表年份如圖2所示,從發(fā)表年份來(lái)看,首先出現(xiàn)英文數(shù)據(jù)集,然后其他研究者逐漸開(kāi)始構(gòu)建德文數(shù)據(jù)集、日文數(shù)據(jù)集以及中文數(shù)據(jù)集。數(shù)據(jù)集的具體統(tǒng)計(jì)情況如表1所示。

    數(shù)據(jù)集規(guī)模語(yǔ)言標(biāo)準(zhǔn)劃分Flickr8k8000英有Flickr30k30000英有MSCOCO82783英有SBU1000英無(wú)Multi30k31014英、德有PASCAL1000英無(wú)IAPR-TC1220000英、德無(wú)Flickr8kCN8000中有AIC-ICC300000中有STAIR82783日有VisualGenome108077英無(wú)

    4.2 評(píng)測(cè)標(biāo)準(zhǔn)

    面向圖像文本描述方法的評(píng)測(cè)標(biāo)準(zhǔn)主要包括四大類,分別是主流評(píng)測(cè)標(biāo)準(zhǔn)、概率評(píng)測(cè)標(biāo)準(zhǔn)、檢索評(píng)測(cè)標(biāo)準(zhǔn)以及多樣性評(píng)測(cè)標(biāo)準(zhǔn)(圖3)。下面將對(duì)這四種評(píng)測(cè)標(biāo)準(zhǔn)分別進(jìn)行介紹。

    圖3 圖像文本描述的評(píng)測(cè)標(biāo)準(zhǔn)分類

    4.2.1 主流評(píng)測(cè)標(biāo)準(zhǔn)

    目前的研究多采用生成的文本描述句子和參考句子之間的匹配程度來(lái)評(píng)價(jià)圖像文本描述結(jié)果的優(yōu)劣,我們將采用這類方法的評(píng)測(cè)標(biāo)準(zhǔn)歸為主流評(píng)測(cè)標(biāo)準(zhǔn)。包括BLEU(bilingual evaluation understudy)[56]、METEOR(metric for evaluation of translation with explicit ordering)[57]、ROUGE(recall-oriented understudy for gisting evaluation)[58]、CIDEr(consensus-based image description evaluation)[59]和SPICE(semantic propositional image caption evaluation)[60]五種衡量指標(biāo)。其中BLEU和METEOR兩種指標(biāo)來(lái)源于機(jī)器翻譯,ROUGE來(lái)源于文本摘要,而CIDEr和SPICE是依據(jù)圖像文本描述任務(wù)定制的指標(biāo)。

    BLEU是基于N-gram共現(xiàn)統(tǒng)計(jì)的評(píng)測(cè)標(biāo)準(zhǔn)。給定生成的圖像文本描述s和多個(gè)人工標(biāo)注的參考文本描述Ri,圖像—文本描述對(duì)(i,s)的BLEU值是指在n元模型下,圖像文本描述s在參考文本描述Ri上的查準(zhǔn)率。

    ROUGE與BLEU類似,它是基于查全率的相似度衡量方法,根據(jù)計(jì)算方法的不同又可分為ROUGE-N、ROUGE-L、ROUGE-W、ROUGE-S。其中ROUGE-N基于N-gram計(jì)算查全率;ROUGE-L基于最大公共序列(longest common subsequence, LCS)計(jì)算查全率;ROUGE-W與ROUGE-L類似,基于帶權(quán)重的最大公共序列計(jì)算查全率;ROUGE-S基于skip-bigram度量參考文本描述與預(yù)測(cè)文本描述的共現(xiàn)統(tǒng)計(jì)來(lái)計(jì)算查全率。

    CIDEr是基于共識(shí)的評(píng)測(cè)標(biāo)準(zhǔn),計(jì)算n元語(yǔ)言模型(N-gram)在參考描述句子和模型生成待評(píng)測(cè)句子的共現(xiàn)概率。其目標(biāo)是計(jì)算圖像I的生成的測(cè)評(píng)句子ci與m個(gè)參考描述Si={si,1,…,si,m}的一致性。研究證明,CIDEr與人的共識(shí)的匹配度好于其他評(píng)測(cè)標(biāo)準(zhǔn)。

    METEOR用于計(jì)算圖像描述句子和參考描述句子的相似程度,考慮了單詞精確匹配、詞干、同義詞和釋義等因素,其計(jì)算基于單精度加權(quán)調(diào)和平均和單字查全率,相比于基于查全率的BLEU評(píng)測(cè)標(biāo)準(zhǔn),METEOR結(jié)果與人工判別結(jié)果更具有相關(guān)性。

    SPICE考慮語(yǔ)義命題內(nèi)容(semantic propositional content),圖像的文本描述應(yīng)包含圖像中存在的各個(gè)語(yǔ)義命題。SPICE通過(guò)將生成的描述句子和參考句子均轉(zhuǎn)換為基于圖的語(yǔ)義表示,即場(chǎng)景圖,來(lái)評(píng)價(jià)圖像文本描述的質(zhì)量。場(chǎng)景圖提取自然語(yǔ)言中詞法和句法信息,顯式地表示出圖像中包含的對(duì)象、屬性和關(guān)系。場(chǎng)景圖的計(jì)算過(guò)程包含兩個(gè)階段: 使用預(yù)先訓(xùn)練的依存語(yǔ)法器建立依存句法樹(shù);采用基于規(guī)則的方法將依存句法樹(shù)映射為場(chǎng)景圖。

    4.2.2 概率評(píng)測(cè)標(biāo)準(zhǔn)

    概率評(píng)測(cè)標(biāo)準(zhǔn)采用困惑度來(lái)評(píng)價(jià)圖像文本描述的生成質(zhì)量,困惑度也是語(yǔ)言模型常見(jiàn)的評(píng)測(cè)標(biāo)準(zhǔn),計(jì)算困惑度的公式定義如式(1) 所示。

    (1)

    這里,P是已知前n-1個(gè)單詞得到下一單詞的概率,C為包含|C|個(gè)單詞的圖像文本描述句子,I是C所描述的圖像,H是熵函數(shù)。Cn是C中的第n個(gè)單詞,C0,…,n-1是從句子起始標(biāo)識(shí)符開(kāi)始的n-1個(gè)單詞。為了得到整個(gè)測(cè)試集的困惑度,可以取測(cè)試集中所有圖像描述句子的算術(shù)均值、幾何均值和所有圖像描述句子的困惑度的中值。

    4.2.3 多樣性評(píng)測(cè)標(biāo)準(zhǔn)

    生成圖像文本描述時(shí),多樣性評(píng)測(cè)標(biāo)準(zhǔn)使用了詞匯的多樣性。如果圖像文本描述方法每次產(chǎn)生的文本描述都是一樣的,則這個(gè)圖像文本描述方法具有最低多樣性。多樣性評(píng)測(cè)標(biāo)準(zhǔn)定義為式(2)所示。

    (2)

    F是1-gram或2-gram的極大似然概率估計(jì),|F|是1-gram或2-gram的個(gè)數(shù),F(xiàn)n是第n個(gè)1-gram或2-gram的頻率,熵度量頻率分布的均勻程度,熵越高,分布越均勻。分布越均勻,1-gram或2-gram更可能等比例出現(xiàn),而在大多數(shù)時(shí)候不會(huì)只使用很少的幾個(gè)單詞,此時(shí),圖像文本描述中出現(xiàn)的單詞的變化會(huì)更大,從而使得文本描述具有更大的多樣性。

    4.2.4 檢索評(píng)測(cè)標(biāo)準(zhǔn)

    許多模型采用基于檢索的方法生成圖像的文本描述,檢索評(píng)測(cè)標(biāo)準(zhǔn)能夠很好地衡量基于視覺(jué)空間的檢索方法和多模態(tài)空間的檢索方法的性能。檢索評(píng)測(cè)標(biāo)準(zhǔn)常用的指標(biāo)是正確率和召回率。正確率是衡量某一檢索方法信號(hào)噪聲比的指標(biāo),即相關(guān)結(jié)果占全部結(jié)果的比率。召回率是衡量檢索方法檢出相關(guān)結(jié)果成功度的一項(xiàng)指標(biāo),即檢出相關(guān)結(jié)果占所有相關(guān)結(jié)果的百分比。

    4.3 評(píng)測(cè)組織

    圖像的中文文本描述評(píng)測(cè)是“AI challenger全球挑戰(zhàn)賽”的五項(xiàng)評(píng)測(cè)內(nèi)容之一,由創(chuàng)新工場(chǎng)、搜狗、今日頭條三方于2017年聯(lián)合首次主辦*https://challenger.ai/datasets/caption。該評(píng)測(cè)的主要任務(wù)是針對(duì)給定的每一張測(cè)試圖片輸出一句話的描述,要求描述句子符合自然語(yǔ)言習(xí)慣,涵蓋圖像中的重要信息,如主要人物、場(chǎng)景、動(dòng)作等內(nèi)容。對(duì)參加評(píng)測(cè)的系統(tǒng)從客觀指標(biāo)(BLEU, METEOR, ROUGE-L和 CIDEr)和主觀指標(biāo)(Coherence,Relevance,Helpful for Blind)進(jìn)行評(píng)價(jià)。來(lái)自清華大學(xué)的胡曉林團(tuán)隊(duì)獲得2017年該競(jìng)賽任務(wù)的冠軍,在AIC-ICC的測(cè)試數(shù)據(jù)集B上取得BLEU-4、CIDEr、METEOR和ROUGE-L值分別為0.746 57、2.145 95、0.431 9和0.721 72。

    Microsoft COCO Image Captioning Challenge*https://competitions.codalab.org/competitions/3221#results是微軟于2015年推出的圖像英文文本描述評(píng)測(cè),迄今共有103個(gè)隊(duì)伍參加。參加評(píng)測(cè)的系統(tǒng)通過(guò)評(píng)測(cè)API平臺(tái)提交圖像在MS COCO測(cè)試數(shù)據(jù)集的英文文本描述結(jié)果。該平臺(tái)將實(shí)時(shí)展示提交系統(tǒng)的排名。截至2018年2月底,來(lái)自騰訊的TencentAI團(tuán)隊(duì)暫排系統(tǒng)的第一名,在C5數(shù)據(jù)集上取得BLEU-1、BLEU-2、BLEU-3、BLEU-4、METEOR、ROUGE-L和CIDEr-D值分別為0.811、0.657、0.508、0.386、0.286、0.587和1.254。

    5 主要開(kāi)源工具包簡(jiǎn)介

    基于圖像文本描述方法的介紹,對(duì)目前的主要開(kāi)源工具包進(jìn)行簡(jiǎn)介,如表2所示。

    表2 圖像文本描述的主要開(kāi)源工具包簡(jiǎn)介

    續(xù)表

    6 關(guān)鍵問(wèn)題及研究難點(diǎn)

    綜上所述,雖然圖像的文本描述研究已經(jīng)取得顯著效果,但對(duì)于諸如圖像的視覺(jué)概念提取、圖像與文本模態(tài)融合、圖像的跨語(yǔ)言文本描述等子任務(wù)的性能仍有待改進(jìn)。本節(jié)針對(duì)現(xiàn)有的圖像文本描述尚存的關(guān)鍵問(wèn)題和研究難點(diǎn)予以介紹。

    (1) 圖像的視覺(jué)概念提取

    圖像的文本描述是視覺(jué)與語(yǔ)言結(jié)合的新任務(wù),其性能的提升離不開(kāi)視覺(jué)與語(yǔ)言本身的技術(shù)突破。圖像的視覺(jué)概念包括圖像類別、場(chǎng)景信息、檢測(cè)對(duì)象、對(duì)象屬性和對(duì)象關(guān)系等,視覺(jué)概念的提取依賴于計(jì)算機(jī)視覺(jué)技術(shù),目前還不十分成熟。而視覺(jué)概念的提取是生成圖像文本描述的重要基礎(chǔ),直接決定圖像文本描述的性能。因此,圖像的視覺(jué)概念提取是圖像的文本描述中待解決的關(guān)鍵問(wèn)題及研究難點(diǎn)。

    (2) 圖像與文本模態(tài)融合

    圖像的文本描述首先要解決的是語(yǔ)義鴻溝問(wèn)題,即用單純的圖像視覺(jué)特征信息在圖像內(nèi)容的表達(dá)上存在多義性和不確定性問(wèn)題。圖像中常常隱式或顯式包含文本信息,充分利用與圖像數(shù)據(jù)共現(xiàn)的文本信息,進(jìn)行多模態(tài)的語(yǔ)義分析和相似性度量,是克服語(yǔ)義鴻溝的有效方法。目前已有基于深度神經(jīng)網(wǎng)絡(luò)的多種融合方法(見(jiàn)3.1),但并未真正深入到圖像與文本在高層語(yǔ)義的融合問(wèn)題,因此如何對(duì)圖像和文本模態(tài)信息進(jìn)行多模態(tài)高層語(yǔ)義融合是圖像的文本描述中待解決的關(guān)鍵問(wèn)題及研究難點(diǎn)。

    (3) 圖像的跨語(yǔ)言文本描述

    現(xiàn)有的圖像文本描述方法通常采用基于深度學(xué)習(xí)或機(jī)器學(xué)習(xí)的方法,然而,當(dāng)有標(biāo)記的訓(xùn)練樣本非常少時(shí),這種方法的效果往往較差。而在實(shí)際應(yīng)用中,要求針對(duì)圖像能夠給出多種語(yǔ)言文字的文本描述來(lái)滿足不同母語(yǔ)的用戶需求。目前圖像英文和中文文本描述的訓(xùn)練樣本較多,其他語(yǔ)言文本描述對(duì)應(yīng)的標(biāo)記訓(xùn)練樣本較少,若對(duì)圖像的每一種語(yǔ)言文本描述進(jìn)行人工標(biāo)記將需要耗費(fèi)大量的人力和時(shí)間。因此,如何實(shí)現(xiàn)圖像的跨語(yǔ)言文本描述是圖像的文本描述中待解決的關(guān)鍵問(wèn)題及研究難點(diǎn)。

    7 結(jié)束語(yǔ)

    圖像的文本描述近幾年得到研究界和企業(yè)界的廣泛關(guān)注,它借助深度學(xué)習(xí)技術(shù)為視覺(jué)和語(yǔ)言搭建的橋梁獲得了突飛猛進(jìn)的發(fā)展,其跨越了視覺(jué)和語(yǔ)言的領(lǐng)域界限,把直觀上的感知提升到了認(rèn)知的概念范疇。圖像的文本描述能夠提高基于內(nèi)容的圖像檢索效率,擴(kuò)大在醫(yī)學(xué)、安全、軍事等領(lǐng)域的可視化理解應(yīng)用范圍,具有廣闊的應(yīng)用前景。同時(shí),圖像文本描述的理論框架和研究方法可以推動(dòng)圖像標(biāo)注和視覺(jué)問(wèn)答的理論和應(yīng)用的發(fā)展,具有重要的學(xué)術(shù)和實(shí)踐應(yīng)用價(jià)值。

    圖像的文本描述,不僅需要理解視覺(jué),也需要知道如何對(duì)語(yǔ)言進(jìn)行建模。當(dāng)前的主要解決方案是端到端的黑盒子式深度學(xué)習(xí),并未真正深入到視覺(jué)與語(yǔ)言的本質(zhì)問(wèn)題。如何進(jìn)行視覺(jué)與語(yǔ)言的深度語(yǔ)義融合,將有助于提升圖像文本描述的性能,這也是多模態(tài)智能交互的關(guān)鍵步驟,是未來(lái)的主要發(fā)展方向。

    [1] Bernardi R, Cakici R, Elliott D, et al. Automatic description generation from images: A survey of models, datasets, and evaluation measures[J]. J. Artif. Intell. Res.(JAIR), 2016(55): 409-442.

    [2] Farhadi A, Hejrati M, Sadeghi A, et al. Every picture tells a story: Generating sentences from images[C]//Proceedings of Part IV of the 11th European Conference on Computer Vision, 2010:15-29.

    [3] Lin T, Maire M, Belongie S, et al. Microsoft Coco: Common objects in context[C]//Proceedings of European Conference on Computer Vision, 2014: 740-755.

    [4] Kulkarni G, Premraj V, Dhar S, et al. Baby talk: Understanding and generating simple image descriptions[C]//Proceedings of the 24th IEEE Conference on Computer Vision and Pattern Recognition, 2011: 1601-1608.

    [5] Kuznetsova P, Ordonez V, Berg T, et al. TREETALK: Composition and compression of trees for image descriptions [J]. TACL, 2014, (2): 351-362.

    [6] Yang Y, Teo C, Daume III H, et al. Corpus-guided sentence generation of natural images[C]//Proceedings of the Conference on Empirical Methods in Natural Language Processing, 2011: 444-454.

    [7] Elliott D, Vries A. Describing images using inferred visual dependency representations[C]//Proceedings of the 53rd Annual Meeting of the Association for Computational Linguistics and the 7th International Joint Conference on Natural Language Processing of the Asian Federation of Natural Language Processing, 2015: 42-52.

    [8] Elliott D, Keller F. Image description using visual dependency representations[C]//Proceedings of the 2013 Conference on Empirical Methods in Natural Language Processing, 2013: 1292-1302.

    [9] Mitchell M, Dodge J, Goyal A, et al. Midge: Generating image descriptions from computer vision detections[C]//Proceedings of the 13th Conference of the European Chapter of the Association for Computational Linguistics, 2012: 747-756.

    [10] Li S, Kulkarni G, Berg T, et al. Composing simple image descriptions using Web-scale N-grams[C]//Proceedings of the 15th Conference on Computational Natural Language Learning, CfoNLL 2011. Portland, Oregon, USA, 2011: 220-228.

    [11] Fang H, Gupta S, Iandola F, et al. From captions to visual concepts and back[C]//Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition, 2015: 1473-1482.

    [12] Torralba A, Fergus R, Freeman W. 80 million tiny images: A large data set for nonparametric object and scene recognition[J]. IEEE TPAMI, 2008, 30(11): 1958-1970.

    [13] Kuznetsova P, Ordonez V, Berg A, et al. Collective generation of natural image descriptions[C]//Proceedings of the 50th Annual Meeting of the Association for Computational Linguistics. Jeju Island, Korea, 2012: 359-368.

    [14] Verma Y, Gupta A, Mannem P, et al. Generating image descriptions using semantic similarities in the output space[C]//Proceedings of IEEE Conference on Computer Vision and Pattern Recognition, CVPR Workshops 2013. Portland, OR, USA, 2013: 288-293.

    [15] Ordonez V, Kulkarni G, Berg T. Im2Text: Describing images using 1 million captioned photographs[C]//Proceedings of Advances in Neural Information Processing Systems 24: 25th Annual Conference on Neural Information Processing Systems 2011. Granada, Spain: NIPS, 2011: 1143-1151.

    [16] Patterson G, Xu C, Su H, et al. The SUN Attribute Database: Beyond Categories for Deeper Scene Understanding[J]. International Journal of Computer Vision, 2014,108 (1-2): 59-81.

    [17] Mason R, Charniak E. Nonparametric method for 143 image captioning[C]//Proceedings of the 52nd Annual Meeting of the Association for Computational Linguistics, ACL 2014. Baltimore, MD, USA, 2014: 592-598.

    [18] A Nenkova A,L Vanderwende L. The impact of frequency on summarization[R]. Microsoft Research, 2005.

    [19] Yagcioglu S, Erdem E, Erdem A, et al. A distributed representation based query expansion approach for image captioning[C]//Proceedings of the 53rd Annual Meeting of the Association for Computational Linguistics and the 7th International Joint Conference on Natural Language Processing of the Asian Federation of Natural Language Processing, ACL 2015. Beijing, China, 2015: 106-111.

    [20] Simonyan K, Zisserman A. Very deep convolutional networks for large-scale image recognition [J]. arXiv preprint arXiv:1409.1556, 2014.

    [21] Devlin J, Cheng H, Fang H, et al. Language models for image captioning: The quirks and what works[C]//Proceedings of the 53rd Annual Meeting of the Association for Computational Linguistics and the 7th International Joint Conference on Natural Language Processing of the Asian Federation of Natural Language Processing, ACL 2015. 2015: 100-105.

    [22] Hodosh M, Young P, Hockenmaier J. Framing image description as a ranking task: Data, models and evaluation metrics [J]. Journal of Artificial Intelligence Research, 2013, (47): 853-899.

    [23] Socher R, Li F. Connecting modalities: Semi-supervised segmentation and annotation of images using unaligned text corpora[C]//Proceedings of the 23rd IEEE Conference on Computer Vision and Pattern Recognition, CVPR 2010. San Francisco, CA, USA, 2010: 966-973.

    [24] Socher R, Karpathy A, Le Q, et al. Grounded compositional semantics for finding and describing images with sentences [J]. Transactions of the Association for Computational Linguistics, 2014, (2): 207-218.

    [25] Karpathy A, Joulin A, Li F. Deep fragment embeddings for bidirectional image sentence mapping[C]//Proceedings of Advances in Neural Information Processing Systems 27: Annual Conference on Neural Information Processing Systems. Montreal, Quebec, Canada, 2014: 1889-1897.

    [26] Kiros R, Salakhutdinov R, Zemel R. Unifying visual-semantic embeddings with multimodal neural language models[C]//Proceedings of Advances in Neural Information Processing Systems Deep Learning Workshop, 2015.

    [27] Vinyals O, Toshev A, Bengio S, et al. Show and tell: A neural image caption generator[C]//Proceedings of 2015 IEEE Conference on Computer Vision and Pattern Recognition, 2015: 3156-3164.

    [28] Xu J, Gawes E, Fernando B, et al. Guiding the long-short term memory model for image caption generation[C]//Proceedings of 2015 IEEE International Conference on Computer Vision, ICCV 2015. Santiago, Chile, 2015: 2407-2415.

    [29] Li X, Lan W, Dong J, et al. Adding Chinese captions to images [C]//Proceedings of the 2016 ACM on International Conference on Multimedia Retrieval. New York, USA, 2016: 271-275.

    [30] Szegedy C, Liu W, Jia Y, et al. Going deeper with convolutions[C]//Proceedings of IEEE Conference on Computer Vision and Pattern Recognition, CVPR 2015. Boston, MA, USA: IEEE Computer Society, 2015: 1-9.

    [31] Donahue J, Hendricks L, Guadarrama S, et al. Long-term recurrent convolutional networks for visual recognition and description[C]//Proceedings of IEEE Conference on Computer Vision and Pattern Recognition, 2015: 2625-2634.

    [32] Gan Z, Gan C, He X,et al. Semantic compositional networks for visual captioning[C]//Proceedings of 2017 IEEE Conference on Computer Vision and Pattern Recognition. Honolulu, Hawaii, 2017: 5630-5639.

    [33] Rennie S, Cui X, Goel V. Efficient non-linear feature adaptation using maxout networks[C]//Proceedings of 2016 IEEE International Conference on Acoustics, Speech and Signal Processing. Shanghai, China, 2016: 5310-5314.

    [34] Kiros R,Zemel R, Salakhutdinov R. A multiplicative model for learning distributed text-based attribute representations[C]//Proceedings of Advances in Neural Information Processing Systems 27: Annual Conference on Neural Information Processing Systems. Montreal, Quebec, Canada, 2014: 2348-2356.

    [35] Mao J, Xu W, Yang Y, et al. Deep captioning with multimodal recurrent neural networks(m-rnn)[J]. arXiv preprint arXiv:1412.6632, 2014.

    [36] Hendricks L, Venugopalan S, Rohrbach M, et al. Deep compositional captioning: Describing novel object categories without paired training data[C]//Proceedings of 2016 IEEE Conference on Computer Vision and Pattern Recognition. Las Vegas, NV, USA, 2016: 1-10.

    [37] Tanti M, Gatt A, Camilleri K. What is the role of recurrent neural networks(RNNs) in an image caption generator[J]. arXiv preprint arXiv:1708.02043, 2017.

    [38] Xu K, Ba J, Kiros R, et al. Show, attend and tell: Neural image caption generation with visual attention[C]//Proceedings of the 32nd International Conference on Machine Learning, 2015: 2048-2057.

    [39] Andrej K, Li F. Deep visual-semantic alignments for generating image descriptions[C]//Proceedings of 2015 IEEE Conference on Computer Vision and Pattern Recognition. Boston, MA, USA, 2015: 3128-3137.

    [40] Zhou L, Xu C, Koch P, et al. Watch what you just said: Image captioning with text-conditional attention [J]. arXiv preprint arXiv:1606.04621, 2016.

    [41] Yang Z, Yuan Y, Wu Y, et al. Review networks for caption generation[C]//Proceedings of Advances in Neural Information Processing Systems 29: Annual Conference on Neural Information Processing Systems, 2016: 2361-2369.

    [42] You Q, Jin H, Wang Z, et al. Image captioning with semantic attention[C]//Proceedings of 2016 IEEE Conference on Computer Vision and Pattern Recognition. Las Vegas, NV, USA, 2016: 4651-4659.

    [43] Chen F, Ji R, Su J,et al. StructCap: structured semantic embedding for image captioning[C]//Proceedings of the ACM Multimedia, Mountain View, CA USA, 2017: 46-54.

    [44] Li L, Tang S, Deng L, et al. Image caption with global-local attention[C]//Proceedings of the 31st AAAI Conference on Artificial Inteligence. San Francisco, Californial USA, 2017: 4133-4139.

    [45] Mun J, Cho M, Han B. Text-guided attention model for image captioning[C]//Proceedings of the 31st AAAI Conference on Artificial Inteligence. San Francisco, Californial USA, 2017: 4233-4239.

    [46] Zhang L, Sung F, Liu F, et al. Actor-critic sequence training for image captioning[J]. arXiv preprint arXiv:1706.09601, 2017.

    [47] Liu S, Zhu Z, Ye N, et al. Improved image captioning via policy gradient optimization of Spider[C]//Proceedings of the International Conference on Computer Vision, 2017:873-881.

    [48] Ren Z, Wang X, Zhang N. Deep reinforcement learning-based image captioning with embedding reward [J]. arXiv preprint arXiv:1704.03899, 2017.

    [49] Grubinger M, Clough P, et al. The IAPR TC-12 benchmark: A new evaluation resource for visual information systems[C]//Proceedings of the International Conference on Language Resources and Evaluation, 2006: 13-23.

    [50] Rashtchian C, Young P, Hodosh M, et al. Collecting image annotations using amazon’s mechanical turk[C]//Proceedings of the NAACL HLT 2010 Workshop on Creating Speech and Language Data with Amazon’s Mechanical Turk, 2010: 139-147.

    [51] Young P, Lai A, Hodosh M, et al, From image descriptions to visual denotations: New similarity metrics for semantic inference over event descriptions[J].Transactions of the Association for Computational Linguistics, 2014, (2): 67-78.

    [52] Krishna R, Zhu Y, et al. Visual genome: Connecting language and vision using crowdsourced dense image annotations [J]. International Journal of Computer Vision, 2016, 123(1): 32-73.

    [53] Elliott D, Frank S, Sima’an K, Multi30K: Multilingual English-German image descriptions[C]//Proceedings of the 5th Workshop on Vision and Language, 2016: 70-74.

    [54] Yoshikawa Y, Shigeto Y, Takeuchi A, STAIR captions: Constructing a large-scale Japanese image caption dataset[C]//Proceedings of the 55th Annual Meeting of the Association for Computational Linguistics, 2017: 417-421.

    [55] Wu J, Zheng H,et al. AI challenger: A large-scale dataset for going deeper in image understanding. arXiv preprint arXiv:1711.06475, 2017.

    [56] Papineni K, Roukos S, Ward T, et al. BLEU: A method for automatic evaluation of machine translation[C]//Proceedings of the 40th Annual Meeting of the Association for Computational Linguistics, 2002: 311-318.

    [57] Banerjee S, Lavie A. METEOR: An automatic metric for MT evaluation with improved correlation with human judgments[C]//Proceedings of the ACL Workshop on Intrinsic and Extrinsic Evaluation Measures for Machine Translation and/or Summarization, 2005: 65-72.

    [58] Lin C. ROUGE: A package for automatic evaluation of summaries[C]//Proceedings of the ACL Workshop, 2004: 25-26.

    [59] Vedantam R, Zitnick C, Parikh D. CIDEr: Consensus-based image description evaluation[C]//Proceedings of 2015 IEEE Conference on Computer Vision and Pattern Recognition, 2015: 4566-4575.

    [60] Anderson P, Fernando B, Johnson M, et al. SPICE: Semantic propositional image caption evaluation[C]//Proceedings of European Conference on Computer Vision. Springer International Publishing, 2016: 382-398.

    [61] Fu K, Jin J, Cui R, et al. Aligning where to see and what to tell: Image captioning with region-based attention and scene-specific contexts [J]. IEEE TPAMI, 2017, 39(12): 2321-2334.

    [62] Chen L, Zhang H, Xiao J, et al. SCA-CNN: Spatial and channel-wise attention in convolutional networks for image captioning[C]//Proceedings of 2017 IEEE Conference on Computer Vision and Pattern Recognition (CVPR), 2017: 6298-6306.

    馬龍龍(1980-),博士,副研究員,主要研究領(lǐng)域?yàn)槎嗄B(tài)信息處理與自然語(yǔ)言處理。

    E-mail: longlong@iscas.ac.cn

    韓先培(1984-),博士,副研究員,主要研究領(lǐng)域?yàn)樾畔⒊槿?、知識(shí)庫(kù)構(gòu)建以及自然語(yǔ)言處理。

    E-mail: hanxianpei@qq.com

    孫樂(lè)(1971-),博士,研究員,主要研究領(lǐng)域?yàn)樾畔z索與自然語(yǔ)言處理。

    E-mail: lesunle@163.com

    猜你喜歡
    評(píng)測(cè)檢索模態(tài)
    次時(shí)代主機(jī)微軟XSX全方位評(píng)測(cè)(下)
    次時(shí)代主機(jī)微軟XSX全方位評(píng)測(cè)(上)
    2019年第4-6期便捷檢索目錄
    攻坡新利器,TOKEN VENTOUS評(píng)測(cè)
    Canyon Ultimate CF SLX 8.0 DI2評(píng)測(cè)
    專利檢索中“語(yǔ)義”的表現(xiàn)
    專利代理(2016年1期)2016-05-17 06:14:36
    國(guó)內(nèi)多模態(tài)教學(xué)研究回顧與展望
    基于HHT和Prony算法的電力系統(tǒng)低頻振蕩模態(tài)識(shí)別
    由單個(gè)模態(tài)構(gòu)造對(duì)稱簡(jiǎn)支梁的抗彎剛度
    國(guó)際標(biāo)準(zhǔn)檢索
    啦啦啦啦在线视频资源| 网址你懂的国产日韩在线| av视频在线观看入口| 内射极品少妇av片p| 亚洲五月天丁香| 边亲边吃奶的免费视频| 欧美另类亚洲清纯唯美| 成人毛片60女人毛片免费| 国产精品美女特级片免费视频播放器| 欧美日韩一区二区视频在线观看视频在线 | 国产精品蜜桃在线观看| 久久综合国产亚洲精品| 日韩人妻高清精品专区| 国产综合懂色| 淫秽高清视频在线观看| 欧美日韩一区二区视频在线观看视频在线 | 男人的好看免费观看在线视频| 亚洲国产高清在线一区二区三| 女人被狂操c到高潮| 亚洲国产欧美人成| 国产毛片a区久久久久| 欧美激情在线99| 日韩av不卡免费在线播放| 老师上课跳d突然被开到最大视频| 午夜亚洲福利在线播放| 91久久精品电影网| 国产精品麻豆人妻色哟哟久久 | 精品99又大又爽又粗少妇毛片| 五月伊人婷婷丁香| 中文字幕亚洲精品专区| 中文资源天堂在线| 不卡视频在线观看欧美| 亚洲成色77777| 亚洲伊人久久精品综合 | 最近中文字幕高清免费大全6| 日韩在线高清观看一区二区三区| 欧美性感艳星| 午夜日本视频在线| 久久久精品大字幕| 在线免费十八禁| 免费大片18禁| 久久精品影院6| 亚洲欧美日韩无卡精品| 色综合色国产| 国产在视频线在精品| 2021少妇久久久久久久久久久| 美女国产视频在线观看| 女人久久www免费人成看片 | 久久99热6这里只有精品| 国产不卡一卡二| h日本视频在线播放| 免费在线观看成人毛片| 听说在线观看完整版免费高清| 午夜福利网站1000一区二区三区| 青春草视频在线免费观看| 18禁在线无遮挡免费观看视频| 日本黄大片高清| 国产精品久久电影中文字幕| 91精品伊人久久大香线蕉| 国产熟女欧美一区二区| 久久精品国产鲁丝片午夜精品| 亚洲aⅴ乱码一区二区在线播放| 亚洲成人中文字幕在线播放| 两性午夜刺激爽爽歪歪视频在线观看| 国产精品久久久久久精品电影小说 | 免费av不卡在线播放| 亚洲欧美日韩高清专用| .国产精品久久| 直男gayav资源| 久久韩国三级中文字幕| 婷婷色综合大香蕉| 一个人看视频在线观看www免费| 蜜桃亚洲精品一区二区三区| 狂野欧美激情性xxxx在线观看| 亚洲成人中文字幕在线播放| 啦啦啦观看免费观看视频高清| 午夜免费激情av| 七月丁香在线播放| 亚洲精品aⅴ在线观看| av专区在线播放| 一级av片app| 搡老妇女老女人老熟妇| 五月伊人婷婷丁香| .国产精品久久| 欧美成人精品欧美一级黄| 九九热线精品视视频播放| 波多野结衣高清无吗| 日韩欧美在线乱码| 大又大粗又爽又黄少妇毛片口| 蜜桃亚洲精品一区二区三区| 国产精品美女特级片免费视频播放器| 最近中文字幕高清免费大全6| 亚洲精品成人久久久久久| 精品不卡国产一区二区三区| 国产在线一区二区三区精 | 一个人看的www免费观看视频| 亚洲国产精品成人久久小说| 亚洲最大成人av| 91aial.com中文字幕在线观看| av在线亚洲专区| 亚洲图色成人| 日本av手机在线免费观看| 美女黄网站色视频| 国产午夜福利久久久久久| 国产精品电影一区二区三区| 男人和女人高潮做爰伦理| 免费观看的影片在线观看| 亚洲精品日韩av片在线观看| 亚洲欧美日韩东京热| 国产精品永久免费网站| 综合色av麻豆| 日本五十路高清| 成人午夜精彩视频在线观看| 在线免费观看不下载黄p国产| 色综合站精品国产| 人人妻人人澡欧美一区二区| 黄色欧美视频在线观看| 午夜激情福利司机影院| 乱人视频在线观看| 在线观看一区二区三区| .国产精品久久| 高清视频免费观看一区二区 | 国产成人精品一,二区| 国产精品嫩草影院av在线观看| 高清日韩中文字幕在线| 欧美一区二区精品小视频在线| 国产精品电影一区二区三区| 在线免费十八禁| 成人特级av手机在线观看| 美女大奶头视频| 国产毛片a区久久久久| 国产 一区 欧美 日韩| 在现免费观看毛片| 亚州av有码| 看免费成人av毛片| 国产精品久久电影中文字幕| 久久久国产成人免费| 亚洲国产欧美人成| 亚洲国产高清在线一区二区三| 又爽又黄a免费视频| 51国产日韩欧美| 床上黄色一级片| 成人三级黄色视频| 国语自产精品视频在线第100页| 国产av一区在线观看免费| 亚洲欧美清纯卡通| 久久精品久久久久久噜噜老黄 | 伦精品一区二区三区| 老司机福利观看| 插阴视频在线观看视频| 春色校园在线视频观看| 男插女下体视频免费在线播放| 春色校园在线视频观看| 国产淫片久久久久久久久| 在现免费观看毛片| 久久久国产成人免费| 热99re8久久精品国产| 亚洲国产色片| 男人和女人高潮做爰伦理| 国产黄色视频一区二区在线观看 | 国产午夜精品一二区理论片| 九九爱精品视频在线观看| 亚洲精品乱码久久久v下载方式| 高清在线视频一区二区三区 | 久久鲁丝午夜福利片| 亚洲成色77777| 欧美不卡视频在线免费观看| www.av在线官网国产| 小说图片视频综合网站| 成年女人看的毛片在线观看| 国产极品精品免费视频能看的| av在线蜜桃| 日韩av在线免费看完整版不卡| 午夜福利在线在线| 亚洲欧美精品专区久久| 中文欧美无线码| 欧美日韩精品成人综合77777| 五月伊人婷婷丁香| 亚洲欧洲国产日韩| 97超视频在线观看视频| 国产亚洲91精品色在线| 我的女老师完整版在线观看| 国产视频首页在线观看| 免费看美女性在线毛片视频| 综合色丁香网| 精品一区二区三区视频在线| 成人性生交大片免费视频hd| 非洲黑人性xxxx精品又粗又长| 超碰97精品在线观看| 久久草成人影院| 直男gayav资源| 中文字幕久久专区| 亚洲人成网站在线观看播放| 日韩成人伦理影院| 欧美区成人在线视频| 人人妻人人看人人澡| 99久久九九国产精品国产免费| 久久久久久久久久久免费av| 黄色日韩在线| 国产三级中文精品| 国产精品福利在线免费观看| 久久精品国产自在天天线| 国产精品人妻久久久影院| 国产精品日韩av在线免费观看| 中国国产av一级| 一级毛片我不卡| 国产片特级美女逼逼视频| 久久久色成人| 精品人妻熟女av久视频| 免费看日本二区| 国产高清三级在线| 亚洲,欧美,日韩| 在线观看66精品国产| 国产极品精品免费视频能看的| 久久这里只有精品中国| 美女黄网站色视频| 久久久久久国产a免费观看| 观看美女的网站| 嫩草影院入口| 99热全是精品| 国产一级毛片在线| 老师上课跳d突然被开到最大视频| 久久久久久久久久成人| 免费av不卡在线播放| 纵有疾风起免费观看全集完整版 | 国产激情偷乱视频一区二区| av在线亚洲专区| 国产精品人妻久久久久久| 黄色配什么色好看| 亚洲国产高清在线一区二区三| 久久99精品国语久久久| 日韩制服骚丝袜av| 久久人人爽人人爽人人片va| 午夜亚洲福利在线播放| 亚洲四区av| 建设人人有责人人尽责人人享有的 | 美女大奶头视频| 18禁裸乳无遮挡动漫免费视频| 9色porny在线观看| 精品久久久精品久久久| 人妻少妇偷人精品九色| 亚洲成人一二三区av| 日韩制服丝袜自拍偷拍| 午夜影院在线不卡| 亚洲成av片中文字幕在线观看 | 性色avwww在线观看| 秋霞在线观看毛片| 国产精品麻豆人妻色哟哟久久| 99re6热这里在线精品视频| 男人爽女人下面视频在线观看| 精品国产国语对白av| 激情视频va一区二区三区| 日本欧美视频一区| 亚洲精品美女久久久久99蜜臀 | 日本-黄色视频高清免费观看| 寂寞人妻少妇视频99o| 视频在线观看一区二区三区| av卡一久久| 99久国产av精品国产电影| 国产精品国产三级国产专区5o| 国产xxxxx性猛交| 亚洲一区二区三区欧美精品| 女人精品久久久久毛片| 啦啦啦视频在线资源免费观看| 99久久人妻综合| 国产精品一区二区在线观看99| 精品国产一区二区久久| 五月玫瑰六月丁香| 亚洲精品久久午夜乱码| 美国免费a级毛片| 国产日韩欧美视频二区| 国产日韩欧美亚洲二区| 精品少妇黑人巨大在线播放| 亚洲国产精品一区二区三区在线| 成人国产麻豆网| 多毛熟女@视频| 亚洲成人手机| av黄色大香蕉| 性高湖久久久久久久久免费观看| 插逼视频在线观看| av福利片在线| av天堂久久9| 啦啦啦视频在线资源免费观看| 国内精品宾馆在线| 成年av动漫网址| 国产成人一区二区在线| 久久久久久久久久人人人人人人| 亚洲美女黄色视频免费看| 久久久久视频综合| 亚洲 欧美一区二区三区| 亚洲欧美日韩另类电影网站| 亚洲欧美色中文字幕在线| 国产精品一区二区在线观看99| 观看av在线不卡| 男女高潮啪啪啪动态图| 99热全是精品| 日韩在线高清观看一区二区三区| 人成视频在线观看免费观看| 99久久中文字幕三级久久日本| 大片免费播放器 马上看| 如何舔出高潮| 在线观看人妻少妇| 岛国毛片在线播放| 久久99蜜桃精品久久| 美女国产视频在线观看| 久久韩国三级中文字幕| 日韩制服丝袜自拍偷拍| 欧美+日韩+精品| 22中文网久久字幕| 亚洲内射少妇av| 大码成人一级视频| 一区二区av电影网| 一本色道久久久久久精品综合| 精品国产乱码久久久久久小说| 久久这里只有精品19| 亚洲熟女精品中文字幕| 国产欧美日韩综合在线一区二区| 亚洲欧洲国产日韩| 国产成人免费无遮挡视频| 国产精品麻豆人妻色哟哟久久| 国产精品国产三级专区第一集| 国产1区2区3区精品| 极品少妇高潮喷水抽搐| 亚洲精品日韩在线中文字幕| 国产高清国产精品国产三级| 秋霞在线观看毛片| 国产成人一区二区在线| 日韩中字成人| 大片免费播放器 马上看| 丁香六月天网| 高清黄色对白视频在线免费看| 啦啦啦在线观看免费高清www| 青春草国产在线视频| 宅男免费午夜| 黄片无遮挡物在线观看| 91精品伊人久久大香线蕉| 成人综合一区亚洲| 精品人妻偷拍中文字幕| 国产精品女同一区二区软件| 性色av一级| 久久av网站| av在线观看视频网站免费| xxxhd国产人妻xxx| 性色av一级| 人人妻人人爽人人添夜夜欢视频| 大香蕉久久成人网| 成人影院久久| 日韩 亚洲 欧美在线| 精品国产一区二区三区四区第35| 肉色欧美久久久久久久蜜桃| 日本wwww免费看| 久久午夜福利片| av线在线观看网站| 亚洲成色77777| 日本wwww免费看| 美国免费a级毛片| 日本91视频免费播放| 欧美日韩一区二区视频在线观看视频在线| 成人国产麻豆网| 毛片一级片免费看久久久久| 韩国精品一区二区三区 | 极品人妻少妇av视频| 99久久综合免费| 精品99又大又爽又粗少妇毛片| 国产欧美亚洲国产| 搡女人真爽免费视频火全软件| 国产1区2区3区精品| 中文字幕亚洲精品专区| 岛国毛片在线播放| 日韩中字成人| 啦啦啦视频在线资源免费观看| 男人舔女人的私密视频| 国产精品一区二区在线观看99| 一区二区av电影网| 一区二区三区乱码不卡18| 成人综合一区亚洲| 亚洲精品aⅴ在线观看| 黑人猛操日本美女一级片| 午夜激情av网站| 另类亚洲欧美激情| 蜜臀久久99精品久久宅男| 在线观看美女被高潮喷水网站| 婷婷色av中文字幕| 久久鲁丝午夜福利片| 人人妻人人澡人人看| 国产av国产精品国产| 免费黄网站久久成人精品| 免费高清在线观看日韩| 美女主播在线视频| 咕卡用的链子| 欧美精品高潮呻吟av久久| 国产福利在线免费观看视频| 一级a做视频免费观看| 欧美成人午夜精品| 亚洲成av片中文字幕在线观看 | 国产伦理片在线播放av一区| 日本av免费视频播放| 国产精品女同一区二区软件| 蜜桃国产av成人99| 成人亚洲欧美一区二区av| 一本色道久久久久久精品综合| 免费av中文字幕在线| 一二三四在线观看免费中文在 | 91午夜精品亚洲一区二区三区| 视频中文字幕在线观看| 丝瓜视频免费看黄片| 99精国产麻豆久久婷婷| 国产精品国产三级国产av玫瑰| av不卡在线播放| 久久婷婷青草| av播播在线观看一区| 91在线精品国自产拍蜜月| 老女人水多毛片| 国产女主播在线喷水免费视频网站| 国产精品一区二区在线不卡| 狠狠精品人妻久久久久久综合| 狠狠婷婷综合久久久久久88av| 又粗又硬又长又爽又黄的视频| 日韩一区二区三区影片| 亚洲人成77777在线视频| 亚洲一级一片aⅴ在线观看| 欧美精品亚洲一区二区| 十八禁网站网址无遮挡| 亚洲一级一片aⅴ在线观看| 秋霞在线观看毛片| 女性生殖器流出的白浆| 国产视频首页在线观看| 久久久国产欧美日韩av| 亚洲激情五月婷婷啪啪| 中文乱码字字幕精品一区二区三区| kizo精华| 少妇人妻久久综合中文| 51国产日韩欧美| 亚洲精华国产精华液的使用体验| av播播在线观看一区| 亚洲成人手机| 亚洲丝袜综合中文字幕| 制服诱惑二区| 亚洲精品国产av成人精品| 日韩电影二区| 国产成人精品无人区| 黑人猛操日本美女一级片| 久热久热在线精品观看| 国产精品久久久久久久电影| av一本久久久久| 男女午夜视频在线观看 | 亚洲综合精品二区| 午夜免费男女啪啪视频观看| 久久精品国产自在天天线| 一区二区三区乱码不卡18| av视频免费观看在线观看| 欧美人与性动交α欧美精品济南到 | 日韩制服丝袜自拍偷拍| 一级,二级,三级黄色视频| 校园人妻丝袜中文字幕| 午夜福利视频在线观看免费| av线在线观看网站| 亚洲,欧美,日韩| 各种免费的搞黄视频| 99热6这里只有精品| 国产成人一区二区在线| 女人精品久久久久毛片| 亚洲五月色婷婷综合| 久久女婷五月综合色啪小说| 多毛熟女@视频| 香蕉精品网在线| 伦理电影大哥的女人| 亚洲精品乱久久久久久| 99热6这里只有精品| 亚洲人成77777在线视频| 黄色怎么调成土黄色| 高清在线视频一区二区三区| 一级,二级,三级黄色视频| av卡一久久| 国产亚洲av片在线观看秒播厂| 日韩av不卡免费在线播放| 久久99热这里只频精品6学生| 乱码一卡2卡4卡精品| 欧美亚洲 丝袜 人妻 在线| 午夜91福利影院| 亚洲成av片中文字幕在线观看 | 黑丝袜美女国产一区| 人人澡人人妻人| 免费少妇av软件| 婷婷色综合大香蕉| 下体分泌物呈黄色| 国产一区二区激情短视频 | 热99久久久久精品小说推荐| 精品一区二区免费观看| a级毛色黄片| 欧美xxⅹ黑人| 天美传媒精品一区二区| 亚洲第一av免费看| 久久久久久伊人网av| 丰满饥渴人妻一区二区三| 永久网站在线| 精品少妇久久久久久888优播| 亚洲三级黄色毛片| 最黄视频免费看| 少妇熟女欧美另类| 欧美日韩综合久久久久久| 人人澡人人妻人| 少妇被粗大的猛进出69影院 | 国产成人免费无遮挡视频| 少妇被粗大的猛进出69影院 | 国产精品久久久久久av不卡| 欧美激情国产日韩精品一区| 在线观看三级黄色| 日韩制服丝袜自拍偷拍| 亚洲精品,欧美精品| 最近的中文字幕免费完整| 狠狠婷婷综合久久久久久88av| 一区二区三区四区激情视频| 国产不卡av网站在线观看| 中国三级夫妇交换| 久久久久久人人人人人| 日韩人妻精品一区2区三区| 日韩免费高清中文字幕av| 国产欧美亚洲国产| 久久久久人妻精品一区果冻| 成人综合一区亚洲| 亚洲国产日韩一区二区| www.熟女人妻精品国产 | 亚洲伊人久久精品综合| 成人二区视频| 视频在线观看一区二区三区| 国内精品宾馆在线| 亚洲人成77777在线视频| 看免费av毛片| 久久精品aⅴ一区二区三区四区 | 亚洲成人av在线免费| 亚洲 欧美一区二区三区| 亚洲欧美成人精品一区二区| 大片电影免费在线观看免费| videos熟女内射| 国产欧美日韩综合在线一区二区| 久久久久久久大尺度免费视频| 1024视频免费在线观看| www日本在线高清视频| 夫妻性生交免费视频一级片| 黑人欧美特级aaaaaa片| 少妇的逼水好多| 大片电影免费在线观看免费| 在线观看一区二区三区激情| 美女主播在线视频| 国产69精品久久久久777片| 国产免费一级a男人的天堂| 精品久久久精品久久久| 久久久久久久久久久免费av| 久久青草综合色| 亚洲成色77777| 美国免费a级毛片| 国产av码专区亚洲av| 精品少妇内射三级| 在线天堂中文资源库| 欧美日韩视频高清一区二区三区二| 国产精品国产av在线观看| 久久久久视频综合| 极品少妇高潮喷水抽搐| 国产国语露脸激情在线看| 国产精品蜜桃在线观看| 制服诱惑二区| 久久精品久久久久久久性| 天天操日日干夜夜撸| 老司机亚洲免费影院| 国产免费福利视频在线观看| 夜夜骑夜夜射夜夜干| 中文字幕另类日韩欧美亚洲嫩草| videossex国产| 国产高清不卡午夜福利| 精品少妇内射三级| 亚洲经典国产精华液单| 卡戴珊不雅视频在线播放| 久久亚洲国产成人精品v| 丰满乱子伦码专区| 两个人免费观看高清视频| 日韩av免费高清视频| 亚洲三级黄色毛片| 久久久久视频综合| 国产精品麻豆人妻色哟哟久久| 亚洲成国产人片在线观看| 亚洲国产毛片av蜜桃av| 亚洲精品乱久久久久久| 国产日韩欧美在线精品| av又黄又爽大尺度在线免费看| 在线观看人妻少妇| 黑人高潮一二区| 国产免费又黄又爽又色| 日日撸夜夜添| 欧美成人精品欧美一级黄| 最黄视频免费看| 丝瓜视频免费看黄片| www.色视频.com| 欧美精品高潮呻吟av久久| 中文精品一卡2卡3卡4更新| 国产xxxxx性猛交| 日韩av免费高清视频| 人妻 亚洲 视频| 97在线视频观看| 国产又色又爽无遮挡免| 丰满迷人的少妇在线观看| 亚洲欧美成人精品一区二区| 成人漫画全彩无遮挡| 免费看光身美女| 久久国产亚洲av麻豆专区| 国产成人精品在线电影| 一级毛片我不卡| 色5月婷婷丁香| 啦啦啦中文免费视频观看日本| 在线天堂中文资源库| 好男人视频免费观看在线| 国产精品久久久久久久电影| www日本在线高清视频| 精品人妻偷拍中文字幕| 美女国产高潮福利片在线看|