• <tr id="yyy80"></tr>
  • <sup id="yyy80"></sup>
  • <tfoot id="yyy80"><noscript id="yyy80"></noscript></tfoot>
  • 99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看 ?

    多模態(tài)信息處理前沿綜述: 應(yīng)用、融合和預(yù)訓(xùn)練

    2022-06-21 07:46:56吳友政李浩然何曉冬
    中文信息學(xué)報(bào) 2022年5期
    關(guān)鍵詞:注意力模態(tài)文本

    吳友政, 李浩然, 姚 霆, 何曉冬

    (京東人工智能研究院,北京 100101)

    0 引言

    人工智能研究經(jīng)過(guò)70多年的探索,在視覺(jué)、語(yǔ)音與聲學(xué)、語(yǔ)言理解與生成等單模態(tài)(1)模態(tài)是指信息的來(lái)源或者信息表示形式。文本、圖像、視頻、聲音和種類(lèi)繁多的傳感器信號(hào)都可以稱(chēng)為一種模態(tài)。人工智能領(lǐng)域已取得了巨大的突破。特別是視覺(jué)領(lǐng)域的目標(biāo)檢測(cè)與人臉識(shí)別技術(shù)、語(yǔ)音領(lǐng)域的語(yǔ)音識(shí)別與語(yǔ)音合成技術(shù)、自然語(yǔ)言處理領(lǐng)域的機(jī)器翻譯與人機(jī)對(duì)話(huà)技術(shù)在限定場(chǎng)景下已經(jīng)實(shí)現(xiàn)了規(guī)模化的應(yīng)用。然而,人類(lèi)對(duì)周?chē)h(huán)境的感知、對(duì)信息的獲取和對(duì)知識(shí)的學(xué)習(xí)與表達(dá)都是多模態(tài)(Multimodal)的。近些年,如何讓計(jì)算機(jī)擁有更接近人類(lèi)的理解和處理多模態(tài)信息的能力,進(jìn)而實(shí)現(xiàn)高魯棒性的推理決策成為熱點(diǎn)問(wèn)題,受到人工智能研究者的廣泛關(guān)注。另一方面,隨著圖文社交(Facebook、Twitter、微信、微博等)、短視頻(YouTube、抖音、快手)、音頻(Clubhouse等)、視頻會(huì)議(Zoom、騰訊會(huì)議等)、直播(抖音、京東、淘寶等)和數(shù)字人(2D、3D、卡通、寫(xiě)實(shí)、超寫(xiě)實(shí)等)等應(yīng)用的涌現(xiàn),對(duì)多模態(tài)信息處理技術(shù)在用戶(hù)理解、內(nèi)容理解和場(chǎng)景理解上提出了更高的要求,同時(shí)也給多模態(tài)技術(shù)提供了海量的數(shù)據(jù)和豐富的應(yīng)用場(chǎng)景。

    多模態(tài)信息處理技術(shù)打破計(jì)算機(jī)視覺(jué)、語(yǔ)音與聲學(xué)、自然語(yǔ)言處理等學(xué)科間的壁壘,是典型的多學(xué)科交叉技術(shù)。多模態(tài)技術(shù)從20世紀(jì)70年代開(kāi)始發(fā)展,Morency等人[1]將多模態(tài)技術(shù)的發(fā)展劃分為四個(gè)階段,即1970-1980年的行為時(shí)代(Behavioral Era)、1980-2000年的計(jì)算時(shí)代(Computational Era)、2000-2010年的交互時(shí)代(Interaction Era)和2010年起的深度學(xué)習(xí)時(shí)代(Deep Learning Era)。多模態(tài)核心技術(shù)又分為: 多模態(tài)表示(Representation),多模態(tài)融合(Fusion)、多模態(tài)轉(zhuǎn)換(Translation)、多模態(tài)對(duì)齊(Alignment)和模態(tài)協(xié)同學(xué)習(xí)(Co-learning)類(lèi)。

    近些年,研究者從不同的視角對(duì)多模態(tài)信息處理技術(shù)做了很好的總結(jié)回顧。Zhang等人[2]圍繞圖像描述、視覺(jué)-語(yǔ)言生成、視覺(jué)問(wèn)答和視覺(jué)推理四個(gè)應(yīng)用,從計(jì)算機(jī)視覺(jué)的角度總結(jié)了多模態(tài)表示學(xué)習(xí)和多模態(tài)融合的最新進(jìn)展。Summaira等人[3]的綜述覆蓋了更多的多模態(tài)應(yīng)用,并根據(jù)應(yīng)用組織了每一個(gè)多模態(tài)應(yīng)用的技術(shù)進(jìn)展和局限性。

    本文從自然語(yǔ)言處理的視角出發(fā),介紹多模態(tài)信息處理技術(shù)的最新進(jìn)展,組織結(jié)構(gòu)如下: 第1節(jié)介紹NLP領(lǐng)域關(guān)注度較高的多模態(tài)應(yīng)用和相關(guān)的數(shù)據(jù)集。多模態(tài)融合是多模態(tài)信息處理的核心問(wèn)題。第2節(jié)從單模態(tài)信息的表示方法、多模態(tài)信息的融合階段、融合模型的網(wǎng)絡(luò)結(jié)構(gòu)、未對(duì)齊模態(tài)和模態(tài)缺失情況下的多模態(tài)融合等角度介紹主流的多模態(tài)融合方法。第3節(jié)介紹多模態(tài)預(yù)訓(xùn)練技術(shù),并從模型的網(wǎng)絡(luò)結(jié)構(gòu)、模型的輸入、預(yù)訓(xùn)練目標(biāo)、預(yù)訓(xùn)練語(yǔ)料和下游任務(wù)等維度對(duì)比最新提出的多模態(tài)預(yù)訓(xùn)練模型。第4節(jié)介紹多模態(tài)技術(shù)在工業(yè)界的應(yīng)用。最后一節(jié)是總結(jié)和對(duì)未來(lái)工作的展望。

    1 多模態(tài)應(yīng)用

    我們分析了最近兩年在自然語(yǔ)言處理領(lǐng)域國(guó)際學(xué)術(shù)會(huì)議上(ACL、EMNLP、NAACL)發(fā)表的多模態(tài)信息處理的論文,并從應(yīng)用的角度對(duì)論文進(jìn)行了分類(lèi)。關(guān)注度較高的多模態(tài)應(yīng)用如圖1所示。本節(jié)將對(duì)這些應(yīng)用展開(kāi)介紹。除此之外,多模態(tài)應(yīng)用還包括視聽(tīng)語(yǔ)音識(shí)別(Audio-Visual Speech Recognition)、多模態(tài)語(yǔ)言分析(Multimodal LanguageAnalysis)和視覺(jué)輔助的句法分析[4]等。文獻(xiàn)[4]還獲得NAACL 2021的最佳長(zhǎng)文獎(jiǎng)。

    圖1 多模態(tài)信息處理論文的分類(lèi)統(tǒng)計(jì)

    1.1 多模態(tài)情感識(shí)別

    情感是人類(lèi)區(qū)別于機(jī)器的一個(gè)重要維度,而人的情感往往又是通過(guò)語(yǔ)音、語(yǔ)言、手勢(shì)、動(dòng)作表情等多個(gè)模態(tài)表達(dá)的。在交互場(chǎng)景下,多模態(tài)情感識(shí)別研究如何從人的表情和動(dòng)作手勢(shì)、語(yǔ)音音調(diào)、語(yǔ)言等多模態(tài)信息中理解用戶(hù)細(xì)顆粒度的情感表達(dá),進(jìn)而指導(dǎo)人機(jī)交互策略。其主要研究?jī)?nèi)容有: ①基于多模態(tài)信息互補(bǔ)性和異步性的動(dòng)態(tài)融合; ②高噪聲環(huán)境下對(duì)于模態(tài)模糊或模態(tài)缺失問(wèn)題的魯棒性融合; ③客服和營(yíng)銷(xiāo)等自然交互情境下的情感識(shí)別等。

    多模態(tài)情感識(shí)別的常用數(shù)據(jù)集有IEMOCAP[5]、CMU-MOSI[6]、CMU-MOSEI[7]、CH-SIMS[8]和IVD[9]等。數(shù)據(jù)集的多維度比較如表1所示。IEMOCAP數(shù)據(jù)集收錄了10位演員的表演數(shù)據(jù),包含視頻、語(yǔ)音、面部運(yùn)動(dòng)捕捉和文本模態(tài),并標(biāo)注了高興、悲傷、恐懼和驚訝等共9類(lèi)情感。CMU-MOSI數(shù)據(jù)集收錄了89位講述者的2 199條視頻片段,每段視頻標(biāo)注了7類(lèi)情感。CMU-MOSEI數(shù)據(jù)集是CMU-MOSI的擴(kuò)展版,收錄了1 000多名YouTube主播的3 228條視頻,包括23 453個(gè)句子,每個(gè)句子標(biāo)注了7分類(lèi)的情感濃度(高度負(fù)面、負(fù)面、弱負(fù)面、中性、弱正面、正面、高度正面)和6分類(lèi)的情緒(高興、悲傷、生氣、恐懼、厭惡、驚訝)。CH-SIMS數(shù)據(jù)集是一個(gè)中文多模態(tài)情感分析數(shù)據(jù)集,該數(shù)據(jù)集為2 281個(gè)視頻片段標(biāo)注了細(xì)顆粒度的情感標(biāo)簽。IVD是從中文語(yǔ)音助手的真實(shí)用戶(hù)對(duì)話(huà)日志中抽取的語(yǔ)音情感數(shù)據(jù)集,包括500 000條無(wú)標(biāo)注的語(yǔ)音數(shù)據(jù)和2 946條帶6分類(lèi)情感標(biāo)注的語(yǔ)音數(shù)據(jù)。

    表1 常用多模態(tài)情感識(shí)別數(shù)據(jù)集對(duì)比

    隨著圖文和短視頻等新興社交媒體的迅速發(fā)展,人們?cè)谏缃黄脚_(tái)上的表達(dá)方式也變得更加豐富。社交場(chǎng)景下的多模態(tài)情感識(shí)別主要研究基于圖文表達(dá)的情感傾向[10]和方面級(jí)的細(xì)顆粒度情感[11]等。

    1.2 視覺(jué)-語(yǔ)言生成

    視覺(jué)(圖像或視頻)到語(yǔ)言的生成和語(yǔ)言到視覺(jué)(圖像或視頻)的生成打破了計(jì)算機(jī)視覺(jué)和自然語(yǔ)言處理兩個(gè)領(lǐng)域的邊界,成為多模態(tài)交叉學(xué)科中最熱門(mén)的研究課題。2021年初,OpenAI推出的基于GPT-3的語(yǔ)言到視覺(jué)的生成模型DALL-E(2)https: //openai.com/blog/dall-e/可以根據(jù)自然語(yǔ)言的描述生成逼真的圖像,產(chǎn)生了較大的反響。本節(jié)主要介紹視覺(jué)到語(yǔ)言生成的相關(guān)應(yīng)用。

    1.2.1 圖像描述

    圖像描述(Image Captioning)是對(duì)給定的一幅自然圖像生成一句自然語(yǔ)言描述的任務(wù)。2015年以前,圖像描述的主流方法是基于模板的方法。其基本思想是檢測(cè)圖像中的物體、動(dòng)作,并將這些詞作為主語(yǔ)、動(dòng)詞和賓語(yǔ)等填寫(xiě)到預(yù)定義的模板中。從2015年開(kāi)始,基于視覺(jué)編碼器(CNN等)和語(yǔ)言解碼器(RNN/LSTM等)的序列到序列(Sequence-to-Sequence,Seq2Seq)框架廣泛應(yīng)用于這一任務(wù)。通過(guò)從視覺(jué)圖像中解析出屬性(Attribute)、關(guān)系(Relation)和結(jié)構(gòu)(Hierarchy)等高層語(yǔ)義信息,并將這些語(yǔ)義信息融入視覺(jué)編碼和語(yǔ)言解碼中,提高了圖像描述的生成效果。

    圖像描述任務(wù)的常用數(shù)據(jù)集有MSCOCO[12]、Conceptual Captions[13]、Flickr30K[14]、Visual Genome[15]和SBU Captions[16]。MSCOCO數(shù)據(jù)集是微軟發(fā)布的可用于目標(biāo)檢測(cè)(Object Detection)、人體姿勢(shì)識(shí)別(DensePose)、關(guān)鍵點(diǎn)檢測(cè)(Keypoint Detection)、實(shí)例分割(Stuff Segmentation)、全景分割(Panoptic Segmentation)、圖片標(biāo)注(Category Labelling)和圖像描述(Image Captioning)的數(shù)據(jù)集。該數(shù)據(jù)集有91類(lèi)物體(人、貓和卡車(chē)等),共計(jì)32.8萬(wàn)幅圖像,每幅圖像包含5個(gè)英文描述。Conceptual Captions數(shù)據(jù)集收錄了330萬(wàn)幅“圖像,描述”對(duì),是目前最大的多模態(tài)數(shù)據(jù)集,其中的圖像有自然圖像、產(chǎn)品圖像、專(zhuān)業(yè)照片、卡通和繪圖等類(lèi)型,描述取自HTML中的Alt-text屬性字段值。Flickr30K收錄了來(lái)自 Flickr的共計(jì) 31 783 幅日?;顒?dòng)、事件和場(chǎng)景的圖像,每幅圖像通過(guò)眾包方式標(biāo)注了5個(gè)圖像描述。Visual Genome是基于10.8萬(wàn)幅圖像的大規(guī)模多模態(tài)數(shù)據(jù)集,該數(shù)據(jù)集標(biāo)注了380萬(wàn)個(gè)對(duì)象、280萬(wàn)個(gè)屬性、230萬(wàn)個(gè)關(guān)系、170萬(wàn)個(gè)“圖像、問(wèn)題、答案”三元組和540萬(wàn)個(gè)區(qū)域描述。圖像中的對(duì)象、屬性、關(guān)系、區(qū)域描述和視覺(jué)問(wèn)答中的名詞與短語(yǔ)還被歸一化到相應(yīng)的WordNet同義詞集。

    1.2.2 視頻描述

    視頻描述(Video Captioning)是對(duì)給定的一段視頻(通常是幾十秒的短視頻)生成一句準(zhǔn)確、細(xì)致描述的任務(wù)。視頻除了圖像信息外,還包括時(shí)序和聲音等信息。視頻描述可提取的特征更多,技術(shù)挑戰(zhàn)也更大。

    視頻描述任務(wù)的常用數(shù)據(jù)集有MSR-VTT[17]、ActivityNet-Captions[18]、YouCook2[19]和ACTIONS[20]等。MSR-VTT數(shù)據(jù)集由1萬(wàn)個(gè)網(wǎng)絡(luò)視頻剪輯、20萬(wàn)“視頻,描述”對(duì)組成。MSR-VTT數(shù)據(jù)集涵蓋了音樂(lè)、游戲、體育、教育等20多個(gè)類(lèi)別的視覺(jué)內(nèi)容,每個(gè)視頻剪輯時(shí)長(zhǎng)10~20秒,人工為每個(gè)視頻剪輯標(biāo)注了20個(gè)描述句子。YouCook2數(shù)據(jù)集是一個(gè)烹飪教學(xué)視頻數(shù)據(jù)集,包括89個(gè)食譜的2 000個(gè)未經(jīng)剪輯的教學(xué)視頻(最長(zhǎng)10分鐘,平均5分鐘)。ACTIONS是首個(gè)無(wú)需人工標(biāo)注、從數(shù)以?xún)|計(jì)的網(wǎng)頁(yè)內(nèi)容中自動(dòng)提煉“視頻,描述”對(duì)的視頻描述數(shù)據(jù)集,總共包含了163 183個(gè)GIF視頻。

    1.2.3 視覺(jué)敘事

    視覺(jué)敘事(Visual Storytelling)要求模型對(duì)于給定的圖像序列,在深度理解圖像序列的基礎(chǔ)上生成連貫的敘事故事。相比于圖像描述和視頻描述,視覺(jué)敘事更具挑戰(zhàn)性。在視覺(jué)理解上,視覺(jué)敘事的輸入是有時(shí)序關(guān)聯(lián)的圖像序列,需要模型具備根據(jù)歷史視覺(jué)事件推測(cè)當(dāng)前的視覺(jué)事件的能力。在語(yǔ)言生成上,對(duì)比圖像描述和視頻描述中的客觀(guān)文字描述,視覺(jué)敘事的輸出由更多評(píng)價(jià)性、會(huì)話(huà)性和抽象性語(yǔ)言組成。SIND[21]是一個(gè)視覺(jué)敘事數(shù)據(jù)集,該數(shù)據(jù)集收集了81 743幅圖片,以及排列成符合文字描述和故事情節(jié)的20 211個(gè)序列。

    1.3 視覺(jué)問(wèn)答和多模態(tài)對(duì)話(huà)

    1.3.1 視覺(jué)問(wèn)答

    視覺(jué)問(wèn)答(Visual Question Answering, VQA)[22-27]是2015年新提出的任務(wù),簡(jiǎn)單來(lái)說(shuō)就是圖像問(wèn)答。給定一幅圖像和一個(gè)關(guān)于該圖像的開(kāi)放式自然語(yǔ)言問(wèn)題,要求模型準(zhǔn)確回答該問(wèn)題。視覺(jué)問(wèn)答是一個(gè)典型的多模態(tài)問(wèn)題,需要模型具備物體定位、屬性檢測(cè)、事件分類(lèi)、場(chǎng)景理解和推理及數(shù)學(xué)計(jì)算等能力。根據(jù)圖片類(lèi)型的不同,VQA又分為自然圖像理解VQA[22-23]、合成圖像推理VQA[24]和自然圖像推理VQA[25]。表2列舉了這3種VQA的示例。

    表2 三類(lèi)視覺(jué)問(wèn)答的示例

    VQA常用數(shù)據(jù)集有VQAv1/v2[22-23]、CLEVR[24]和GQA[25]。VQAv1/v2是自然圖像理解VQA數(shù)據(jù)集,VQAv2解決了VQAv1中明顯的語(yǔ)言先驗(yàn)(Language Priors)問(wèn)題。CLEVR[24]是合成圖像推理問(wèn)答數(shù)據(jù)集。CLEVER中的圖像由簡(jiǎn)單的幾何形狀的物體組成,旨在測(cè)試模型對(duì)組合式語(yǔ)言的理解能力和對(duì)視覺(jué)場(chǎng)景的推理能力。CLEVR數(shù)據(jù)集中的圖像是程序合成的,其場(chǎng)景的復(fù)雜度與自然場(chǎng)景相去甚遠(yuǎn)。對(duì)此,Hudson等人[25]發(fā)布了基于自然圖像的組合式問(wèn)題視覺(jué)問(wèn)答數(shù)據(jù)集GQA,該數(shù)據(jù)集包括關(guān)于11.3萬(wàn)幅圖像的超過(guò)2 000萬(wàn)的問(wèn)題。每幅圖像都標(biāo)注了一個(gè)場(chǎng)景圖(Scene Graph),表示圖像中的對(duì)象、屬性和關(guān)系。每個(gè)問(wèn)題都對(duì)應(yīng)一個(gè)功能性程序(Functional Program),列出了獲得答案所需執(zhí)行的一系列推理步驟。每個(gè)答案都有與之對(duì)應(yīng)的驗(yàn)證信息,指向圖片中的相關(guān)區(qū)域。

    1.3.2 視覺(jué)對(duì)話(huà)

    視覺(jué)對(duì)話(huà)(Visual Dialog)[28-32]是給定一幅圖像(或視頻等視覺(jué)內(nèi)容)和一個(gè)上下文相關(guān)的問(wèn)題,要求模型根據(jù)圖片(或視頻)內(nèi)容回答該問(wèn)題。與視覺(jué)問(wèn)答相比,視覺(jué)對(duì)話(huà)還要解決對(duì)話(huà)中特有的挑戰(zhàn),如共指(Co-references)和省略(Ellipsis)等。視覺(jué)對(duì)話(huà)也被認(rèn)為是視覺(jué)圖靈測(cè)試。視覺(jué)對(duì)話(huà)常用數(shù)據(jù)集有VisDial[28]、IGC[29]、GuessWhat[30]、Image-Chat[31]和AVSD[32]。VisDial中的問(wèn)題和答案都是形式自由的。GuessWhat是通過(guò)一系列“是/否”問(wèn)題發(fā)現(xiàn)圖像中的物體。IGC是一個(gè)閑聊型的視覺(jué)對(duì)話(huà)數(shù)據(jù)集,但閑聊的話(huà)題受限于給定的圖像。Image-Chat也是一個(gè)閑聊型視覺(jué)對(duì)話(huà)數(shù)據(jù)集。與IGC不同的是,Image-Chat數(shù)據(jù)集還限定了對(duì)話(huà)參與者A和B的風(fēng)格特征。AVSD定義了一個(gè)視聽(tīng)場(chǎng)景的多輪對(duì)話(huà)任務(wù),要求機(jī)器在理解問(wèn)題、對(duì)話(huà)歷史和視頻中的場(chǎng)景等語(yǔ)義信息的基礎(chǔ)上回答用戶(hù)問(wèn)題。

    視覺(jué)對(duì)話(huà)中的用戶(hù)問(wèn)題只與單個(gè)圖像(視頻)相關(guān),且用戶(hù)問(wèn)題和模型回答都是文字的。

    1.3.3 多模態(tài)對(duì)話(huà)

    多模態(tài)對(duì)話(huà)(Multimodal Dialog)關(guān)注更接近人類(lèi)自然對(duì)話(huà)的多模態(tài)人機(jī)對(duì)話(huà)技術(shù)的研究。它與上一節(jié)介紹的視覺(jué)對(duì)話(huà)的主要差異有: ①多模態(tài)對(duì)話(huà)給定的輸入圖像可能是多幅的; ②隨著對(duì)話(huà)的推進(jìn),圖像是不斷更新的; ③用戶(hù)問(wèn)題和模型的回答可以是文本的、圖像的或者圖文結(jié)合的; ④模型可能需要查詢(xún)外部領(lǐng)域知識(shí)庫(kù)才能回答用戶(hù)的問(wèn)題(如購(gòu)物者希望看到更多與特定商品相似的商品,或者要求提供滿(mǎn)足某些特征的商品,或者查詢(xún)特定商品的屬性等); ⑤模型可能需要通過(guò)反問(wèn)等對(duì)話(huà)策略澄清用戶(hù)需求。零售和旅游等限定領(lǐng)域的多模態(tài)對(duì)話(huà)最近受到了越來(lái)越多的關(guān)注。

    常用的面向購(gòu)物場(chǎng)景的多模態(tài)對(duì)話(huà)數(shù)據(jù)集有MMD[33]、SIMMC[34]和JDDC[35]。MMD是在服飾專(zhuān)家的指導(dǎo)下通過(guò)模擬扮演(Wizard-of-Oz,WoZ)的方式收集的時(shí)尚購(gòu)物場(chǎng)景的數(shù)據(jù)集。SIMMC 2.0是時(shí)尚和家具購(gòu)物場(chǎng)景的數(shù)據(jù)集。其中,時(shí)尚和家具雜亂的購(gòu)物場(chǎng)景是通過(guò)逼真的VR場(chǎng)景生成器(VR Scene Generator)生成的。與MMD和SIMMC不同,JDDC 2.0是從電商平臺(tái)客服和消費(fèi)者之間的真實(shí)對(duì)話(huà)數(shù)據(jù)中采樣的(圖2)。JDDC 2.0包括多模態(tài)對(duì)話(huà)24.6萬(wàn),其中,圖片50.7萬(wàn)張,平均對(duì)話(huà) 輪 數(shù)14輪。 此 外,JDDC 2.0 還 提 供 了 30 205個(gè)商品的759種商品屬性關(guān)系,共計(jì)21.9萬(wàn)的<商品ID、屬性、屬性值>三元組。

    圖2 JDDC 2.0中的多模態(tài)對(duì)話(huà)示例圖片引自文獻(xiàn)[35]

    視覺(jué)對(duì)話(huà)和多模態(tài)對(duì)話(huà)常用數(shù)據(jù)集的詳細(xì)對(duì)比如表3所示。

    表3 視覺(jué)對(duì)話(huà)和多模態(tài)對(duì)話(huà)常用數(shù)據(jù)集的對(duì)比表

    1.4 多模態(tài)摘要

    多模態(tài)摘要是基于對(duì)多模態(tài)輸入(文本、語(yǔ)音、圖像和視頻等)的理解,歸納并生成單模態(tài)或者多模態(tài)的概括性總結(jié)(摘要)的任務(wù)。根據(jù)具體任務(wù)類(lèi)型,多模態(tài)摘要又可細(xì)分為視頻會(huì)議摘要[36]、教學(xué)視頻摘要[37]、多模態(tài)新聞?wù)猍38-42]和多模態(tài)商品摘要[43]。

    視頻會(huì)議摘要方面,Li等人[36]提出了一個(gè)從音視頻會(huì)議輸入中提取會(huì)議文本摘要的方法,并在AMI數(shù)據(jù)集上驗(yàn)證了方法的有效性。AMI數(shù)據(jù)集[44]包含137場(chǎng)視頻會(huì)議。每場(chǎng)會(huì)議持續(xù)30分鐘,包含4名參與者和約300字的文本摘要。

    教學(xué)視頻摘要方面,Palaskar等人[37]提出一種融合視覺(jué)信息和文本信息(用戶(hù)生成的和語(yǔ)音識(shí)別系統(tǒng)輸出的)的生成式文本摘要方法,同時(shí)在開(kāi)放域教學(xué)視頻數(shù)據(jù)集How2[45]上驗(yàn)證了方法的有效性。

    多模態(tài)新聞?wù)矫?,Li等人[38]提出一種從異步的多模態(tài)(文本、圖像、音頻和視頻)輸入中抽取文本摘要的方法,并發(fā)布了中文和英文數(shù)據(jù)集MMS。Li等人[39]提出一種為“文本,圖像”對(duì)生成多模態(tài)摘要的模型,同時(shí)發(fā)布了英文數(shù)據(jù)集MMSS。Zhu等人[41]提出了一種從異步的多模態(tài)(文本和多張圖像)輸入中生成多模態(tài)(一段短文和一張圖片)摘要的方法,同時(shí)發(fā)布了英文數(shù)據(jù)集MSMO。

    多模態(tài)商品摘要方面,Li等人[43]提出了一種從異構(gòu)的多模態(tài)輸入(文本、圖像、商品屬性表)中生成商品摘要的方法,同時(shí)發(fā)布了數(shù)據(jù)集CEPSUM(3)http://jd-nlg-rhino.github.io/。CEPSUM數(shù)據(jù)集由140萬(wàn)“商品文本介紹,商品圖片,文本摘要”三元組組成,涉及3個(gè)商品大類(lèi)。

    1.5 多模態(tài)對(duì)齊

    多模態(tài)對(duì)齊研究多個(gè)模態(tài)不同顆粒度元素間的對(duì)齊關(guān)系,具體又分為顯式對(duì)齊和隱式對(duì)齊。視覺(jué)-語(yǔ)言跨模態(tài)的顯式對(duì)齊任務(wù)研究圖像和句子[46-47]、圖像和詞[48]、圖像中的目標(biāo)和句子中的短語(yǔ)[49-50]間的對(duì)齊關(guān)系。多模態(tài)對(duì)齊方法可直接應(yīng)用于多模態(tài)檢索等應(yīng)用,也可作為圖像描述、VQA、多模態(tài)預(yù)訓(xùn)練的訓(xùn)練語(yǔ)料,尤其是在缺乏大規(guī)模多模態(tài)人工標(biāo)注語(yǔ)料的場(chǎng)景。

    圖像和句子(或文檔內(nèi)其他文本單元)間的顯式對(duì)齊通常是不存在的。對(duì)此,Hessel等人[46]提出了一種將同一網(wǎng)頁(yè)內(nèi)的圖像和句子對(duì)齊的無(wú)監(jiān)督方法。該方法在7個(gè)難度不同的數(shù)據(jù)集上獲得了不錯(cuò)的性能。Suhr等人[47]定義了一個(gè)視覺(jué)推理任務(wù)NLVR2,對(duì)于給定的兩幅圖像和一段自然語(yǔ)言的描述,要求模型判斷它們是否存在語(yǔ)義上的對(duì)齊關(guān)系。

    文本預(yù)訓(xùn)練語(yǔ)言模型已經(jīng)取得了巨大的成功,但該方法僅使用文本上下文信息作為監(jiān)督信號(hào),導(dǎo)致詞的上下文表示學(xué)習(xí)嚴(yán)重依賴(lài)詞的共現(xiàn)關(guān)系(Co-occurrence),缺乏外部物理世界的背景知識(shí)。為了給預(yù)訓(xùn)練語(yǔ)言模型提供視覺(jué)監(jiān)督信號(hào),Tan等人[48]提出了Vokenization技術(shù)(圖3),其通過(guò)給文本中的每一個(gè)詞打上一幅圖像的標(biāo)簽,實(shí)現(xiàn)在大規(guī)模文本語(yǔ)料上自動(dòng)構(gòu)建多模態(tài)對(duì)齊語(yǔ)料庫(kù)。在大規(guī)模圖像-詞匯對(duì)齊的多模態(tài)語(yǔ)料庫(kù)上訓(xùn)練的預(yù)訓(xùn)練語(yǔ)言模型可增強(qiáng)其對(duì)自然語(yǔ)言的理解能力。實(shí)驗(yàn)證明,該模型在多個(gè)純文本的任務(wù)上(如GLUE、SQuAD和SWAG等)均獲得了顯著的性能提高。

    圖3 Vokenization技術(shù)示例圖片引自文獻(xiàn)[48]

    圖像中的目標(biāo)和文本中的短語(yǔ)對(duì)齊也被稱(chēng)為圖像短語(yǔ)定位(Phrase Grounding),可用于提高圖像描述、VQA、視覺(jué)導(dǎo)航等視覺(jué)-語(yǔ)言下游任務(wù)的性能。Plummer等人[49]發(fā)布了一個(gè)大規(guī)模的短語(yǔ)定位數(shù)據(jù)集Flickr30k Entities,如圖4所示。Wang等人[50]提出了一種基于細(xì)粒度視覺(jué)和文本表示的多模態(tài)對(duì)齊框架,在Flickr30k Entities數(shù)據(jù)集上顯著提高了短語(yǔ)定位的性能。

    圖4 Flickr30k Entities標(biāo)注示例對(duì)齊的圖像中的目標(biāo)和文本中的短語(yǔ)用相同的顏色標(biāo)記。圖片引自文獻(xiàn)[49]

    視頻定位(Video Grounding)[51]是多模態(tài)對(duì)齊中另一項(xiàng)重要且具有挑戰(zhàn)性的任務(wù)。給定一個(gè)查詢(xún)(Query),它要求模型從視頻中定位出與查詢(xún)語(yǔ)言對(duì)應(yīng)的一個(gè)目標(biāo)視頻片段。該技術(shù)可應(yīng)用于視頻理解、視頻檢索和人機(jī)交互等場(chǎng)景。常用數(shù)據(jù)集有Charades-STA[52]、ActivityNet-Captions[53]和TACoS[54]。Charades-STA數(shù)據(jù)集是基于Charades數(shù)據(jù)集[55]構(gòu)建的,包括6 672個(gè)視頻和16 128個(gè)“查詢(xún),視頻片段”對(duì)。ActivityNet-Captions數(shù)據(jù)集包含兩萬(wàn)個(gè)視頻和10萬(wàn)個(gè)“查詢(xún),視頻片段”對(duì),其覆蓋的視頻類(lèi)型更多樣。TACoS數(shù)據(jù)集包含127個(gè)烹飪視頻和18 818個(gè)“查詢(xún),視頻片段”。

    1.6 多模態(tài)翻譯

    多模態(tài)翻譯是將多模態(tài)輸入(文本、圖像或視頻等)中的源語(yǔ)言文本轉(zhuǎn)換為目標(biāo)語(yǔ)言文本的過(guò)程。多模態(tài)翻譯的目標(biāo)是在視覺(jué)等多模態(tài)信息的輔助下,消除語(yǔ)言的歧義,提高傳統(tǒng)文本機(jī)器翻譯系統(tǒng)的性能。

    Elliott等人[56]于2015年首次提出多模態(tài)翻譯任務(wù)。隨后,在2016年舉辦的第一屆機(jī)器翻譯會(huì)議上成功組織了第一屆多模態(tài)機(jī)器翻譯比賽,并于接下來(lái)的兩年連續(xù)舉辦了兩屆比賽,引發(fā)了研究者們對(duì)多模態(tài)機(jī)器翻譯的關(guān)注熱潮。目前的工作主要集中在Multi30k數(shù)據(jù)集[57]上。該數(shù)據(jù)集是英語(yǔ)圖像描述數(shù)據(jù)集Flickr30k[14]的多語(yǔ)言擴(kuò)展,每幅圖像配有一個(gè)英語(yǔ)描述和一個(gè)德語(yǔ)描述,任務(wù)定義為給定圖像和英語(yǔ)描述,生成德語(yǔ)描述。

    模型方面,Huang等人[58]首先從圖像中提取視覺(jué)全局表示(參見(jiàn)2.1.1節(jié)的介紹)和視覺(jué)目標(biāo)表示(參見(jiàn)2.1.3節(jié)的介紹),提取的視覺(jué)表示被視為源語(yǔ)言中特殊的單詞與文本拼接,再融入編碼器-解碼器神經(jīng)網(wǎng)絡(luò)翻譯模型中的編碼器中。在Calixto等人[59]提出的模型中,視覺(jué)特征被視為源語(yǔ)言中特殊的單詞,或者融入編碼器中,或者融入解碼器中。Calixto等人的模型顯著提高了模型的翻譯效果。文獻(xiàn)[58-59]中的模型依賴(lài)大量的多模態(tài)翻譯對(duì)齊語(yǔ)料(源語(yǔ)言、圖像、目標(biāo)語(yǔ)言)。對(duì)此,Elliott等人[60]將多模態(tài)機(jī)器翻譯分解為兩個(gè)子任務(wù): 文本翻譯和基于視覺(jué)的文本表示(Visually Grounded Representations)。該模型不依賴(lài)昂貴的(源語(yǔ)言、圖像、目標(biāo)語(yǔ)言)對(duì)齊語(yǔ)料。模型可以分別在文本翻譯語(yǔ)料(源語(yǔ)言,目標(biāo)語(yǔ)言)和圖像描述(圖像,源語(yǔ)言)語(yǔ)料上訓(xùn)練。受文獻(xiàn)[60]的啟發(fā),Zhou等人[61]提出了一種機(jī)器翻譯任務(wù)和視覺(jué)-文本共享空間(Vision-Text Shared Space)表示學(xué)習(xí)任務(wù)相結(jié)合的多任務(wù)多模態(tài)機(jī)器翻譯框架(VAG-NMT)。VAG-NMT首先把文獻(xiàn)[60]中的基于視覺(jué)的文本表示(即從文本表示重建圖像)修改為視覺(jué)-文本共享空間表示學(xué)習(xí)。其次,VAG-NMT還提出了一種視覺(jué)文本注意機(jī)制,可以捕獲與圖像語(yǔ)義強(qiáng)相關(guān)的源語(yǔ)言中單詞。多模態(tài)機(jī)器翻譯中的視覺(jué)信息只在非常特殊的情況下(如文本上下文不足以消除歧義詞的歧義)對(duì)翻譯模型有幫助。對(duì)此,Ive等人[62]提出了一種翻譯-優(yōu)化(Translate-and-refine)的兩段式翻譯方法。該方法先翻譯源語(yǔ)言中的文本,再使用視覺(jué)目標(biāo)表示對(duì)第一階段的翻譯文本進(jìn)行調(diào)整。大多數(shù)的多模態(tài)機(jī)器翻譯模型沒(méi)有考慮不同模態(tài)的相對(duì)重要性,但同等對(duì)待文本和視覺(jué)信息可能會(huì)引入一些不必要的噪聲。Yao等人[63]基于Transformer,提出了一種多模態(tài)自注意機(jī)制,探索了如何消除視覺(jué)特征中的噪音信號(hào)。一方面,單層多模態(tài)注意力模型難以有效提取視覺(jué)上下文信息,另一方面,多層多模態(tài)注意力模型容易導(dǎo)致過(guò)擬合,尤其是對(duì)訓(xùn)練數(shù)據(jù)少的多模態(tài)翻譯。對(duì)此,Lin等人[64]提出一種基于動(dòng)態(tài)上下文指導(dǎo)的膠囊網(wǎng)絡(luò)(Dynamic Context-guided Capsule Network,DCCN)提取和利用兩種不同顆粒度(視覺(jué)全局表示和視覺(jué)區(qū)域表示)的視覺(jué)信息。也有研究者對(duì)多模態(tài)翻譯的可解釋性進(jìn)行了探索。Wu等人[65]的研究表明,視覺(jué)特征對(duì)多模態(tài)翻譯的幫助來(lái)自于正則化,視覺(jué)特征的合理選取對(duì)模型性能至關(guān)重要。

    1.7 多模態(tài)信息抽取

    命名實(shí)體識(shí)別(NER)是指識(shí)別自由文本中的具體特定意義的實(shí)體(如人名、地名和組織機(jī)構(gòu)名等)。命名實(shí)體識(shí)別雖然取得了較大的成功,但對(duì)于社交媒體中大量的用戶(hù)生成內(nèi)容(User-Generated Content,UGC),僅根據(jù)文本模態(tài)的信息來(lái)定位和分類(lèi)其中的實(shí)體仍然存在一些挑戰(zhàn)。多模態(tài)命名實(shí)體識(shí)別(MNER)通過(guò)引入視覺(jué)、語(yǔ)音等其他模態(tài)作為文本模態(tài)的補(bǔ)充,識(shí)別社交媒體中高噪聲短文本中的實(shí)體,最近幾年受到了比較多的關(guān)注。

    模型方面,Moon等人[66]首次提出了融合圖像和文本模態(tài)信息的通用多模態(tài)注意力模型。文獻(xiàn)[66]還發(fā)布了SnapCaptions數(shù)據(jù)集,該數(shù)據(jù)集由1萬(wàn)張“圖像,短文本標(biāo)題”對(duì)構(gòu)成,并標(biāo)注了短文本標(biāo)題中的四類(lèi)命名實(shí)體(實(shí)體類(lèi)型: PER、LOC、ORG、MISC)。一方面,文獻(xiàn)[66]中的方法提取的是圖像的視覺(jué)全局表示,這可能把圖像中的噪聲信息也引入到模型中。另一方面,視覺(jué)和文本模態(tài)的特征融合較簡(jiǎn)單。對(duì)此,Zhang等人[67]提出了一種自適應(yīng)的協(xié)同注意力網(wǎng)絡(luò)(Adaptive Co-attention Network,ACN)。ACN首先提取圖像的視覺(jué)區(qū)域表示(參見(jiàn)2.1.2節(jié)的介紹),再通過(guò)文本到視覺(jué)和視覺(jué)到文本的協(xié)同注意力剔除圖像中的噪聲信息,以提高M(jìn)NER的性能。文獻(xiàn)[67]在內(nèi)部數(shù)據(jù)集上驗(yàn)證了該方法的有效性。基于類(lèi)似的出發(fā)點(diǎn),Lu等人[68]提出了一種注意力機(jī)制與門(mén)控機(jī)制相結(jié)合的模型提取視覺(jué)圖像中與文本最相關(guān)的區(qū)域的特征。該模型可忽略不相關(guān)的視覺(jué)信息。文獻(xiàn)[68]基于注意力機(jī)制獲取了單詞感知(word-aware)的視覺(jué)表示,卻忽略了圖像感知(image-aware)的單詞表示。對(duì)此,Yu等人[69]首次將Transformer應(yīng)用于多模態(tài)NER任務(wù)中,并提出了實(shí)體片段檢測(cè)輔助任務(wù),進(jìn)一步消除視覺(jué)偏差,提升了模型效果。

    Sui等人[70]提出了融合語(yǔ)音和文本信息的多模態(tài)NER,并在自建的中文數(shù)據(jù)集CNERTA上驗(yàn)證了方法的有效性。

    多模態(tài)信息抽取領(lǐng)域中另一個(gè)受到較多關(guān)注的研究方向是多模態(tài)商品屬性抽取。多模態(tài)商品屬性抽取是指從給定商品文本描述和商品圖片中抽取商品的屬性信息,例如商品的“顏色”“材料”等屬性值。為了推動(dòng)多模態(tài)商品屬性抽取的研究,IV等人[71]發(fā)布了首個(gè)大規(guī)模多模態(tài)屬性提取英文數(shù)據(jù)集MAE。MAE包含400萬(wàn)圖片和760萬(wàn)“屬性-屬性值”對(duì)。文獻(xiàn)[71]提出的多模態(tài)屬性抽取模型需要對(duì)每一個(gè)屬性識(shí)別其對(duì)應(yīng)的屬性值,且無(wú)法濾除視覺(jué)噪聲。為了提高模型的效率,Zhu等人[72]將屬性預(yù)測(cè)和屬性值抽取建模為一個(gè)層疊化的多任務(wù)學(xué)習(xí)過(guò)程,實(shí)現(xiàn)了多個(gè)屬性及其對(duì)應(yīng)屬性值的一次性識(shí)別,且視覺(jué)全局表示和視覺(jué)區(qū)域表示通過(guò)門(mén)控機(jī)制和文本信息融合,可有效過(guò)濾視覺(jué)噪聲。Zhu等人還發(fā)布了一個(gè)包含9萬(wàn)“屬性-屬性值”對(duì)的多模態(tài)商品屬性抽取中文數(shù)據(jù)集MEPAVE。

    2 多模態(tài)融合

    多模態(tài)融合將多個(gè)單模態(tài)表征整合成為一個(gè)多模態(tài)信息表征,它是多模態(tài)信息處理的核心問(wèn)題。多模態(tài)融合的示例如圖5所示,其中,Ni{i=1,…K}表示單模態(tài)表示學(xué)習(xí)模型的模型深度,M表示K個(gè)多模態(tài)表示的融合模型深度。多模態(tài)融合的研究方向有: 基于多模態(tài)互補(bǔ)性的全模態(tài)融合問(wèn)題、模態(tài)模糊或者模態(tài)缺失下的魯棒性融合問(wèn)題、非對(duì)齊的多模態(tài)融合問(wèn)題等。目前,大部分工作是關(guān)于模態(tài)對(duì)齊且無(wú)模態(tài)缺失情況下的多模態(tài)融合算法研究,這也是多模態(tài)融合中最基礎(chǔ)的挑戰(zhàn)。本節(jié)根據(jù)單模態(tài)的特征表示、多模態(tài)融合的階段、多模態(tài)融合的模型結(jié)構(gòu)等對(duì)多模態(tài)融合方法進(jìn)行分類(lèi)介紹。

    圖5 多模態(tài)融合示例

    2.1 根據(jù)單模態(tài)表示進(jìn)行分類(lèi)

    單模態(tài)的特征表示是多模態(tài)融合的基石。這一類(lèi)方法重點(diǎn)研究如何在多模態(tài)融合之前提取更好的單模態(tài)特征表示。以視覺(jué)-語(yǔ)言-音頻多模態(tài)應(yīng)用為例,如何從視覺(jué)內(nèi)容中解析出高層語(yǔ)義信息以增強(qiáng)視覺(jué)特征表達(dá)是這一類(lèi)方法的主要研究?jī)?nèi)容。例如,從視覺(jué)內(nèi)容中識(shí)別目標(biāo)(Object)、屬性(Attribute)、動(dòng)作(Action)、關(guān)系(Relation)、場(chǎng)景圖(Scene Graph)[73-75]和樹(shù)形語(yǔ)義結(jié)構(gòu)(Hierarchy)[76]等,進(jìn)而實(shí)現(xiàn)對(duì)視覺(jué)內(nèi)容的全局(Global)、區(qū)域(Regional)、目標(biāo)(Object)和關(guān)系(Relation)等顆粒度的視覺(jué)語(yǔ)義建模。語(yǔ)言表示通常使用詞的獨(dú)熱編碼表示、詞的上下文表示(Contextual Representation)[77-78]、句子表示[79-80]、句法依存關(guān)系(Syntactic Dependency)表示[81]、場(chǎng)景圖表示[82]等。音頻表示可使用基于COVAREP[83]提取底層聲學(xué)特征表示[85]、基于預(yù)訓(xùn)練模型wav2vec[84]提取低維特征向量表示[85]等。本節(jié)側(cè)重介紹多模態(tài)融合中的視覺(jué)特征表示方法。

    2.1.1 視覺(jué)全局表示

    視覺(jué)全局表示(Global Representation)是從圖像編碼器的高層網(wǎng)絡(luò)提取一個(gè)D維靜態(tài)向量v表示一幅圖像。相關(guān)工作[43,72]通常使用預(yù)訓(xùn)練的ResNet[86]對(duì)圖像編碼,再提取ResNet的最后一個(gè)池化層作為視覺(jué)全局表示(ResNet152池化層輸出是1×2 048維向量,即D=2 048)。視覺(jué)全局表示可用來(lái)初始化多模態(tài)自動(dòng)摘要模型的解碼器[43],或作為一個(gè)特殊的字符與文本字符拼接,再用遞歸神經(jīng)網(wǎng)絡(luò)對(duì)拼接的字符序列編碼[58],或通過(guò)注意力機(jī)制學(xué)習(xí)與其他模態(tài)特征的聯(lián)合表示[72]等。由于視覺(jué)全局表示將圖像信息壓縮到一個(gè)靜態(tài)的向量中,這可能會(huì)導(dǎo)致大量圖像細(xì)節(jié)信息的丟失。

    2.1.2 視覺(jué)區(qū)域表示

    視覺(jué)區(qū)域表示(Regional Representation)是從圖像編碼器的高層網(wǎng)絡(luò)中提取一組D維向量表示一幅圖像。每個(gè)D維向量表示圖像中特定的大小相同的區(qū)域[87]。具體的,預(yù)訓(xùn)練ResNet先編碼輸入的圖像,再提取Conv5_x層的輸出作為視覺(jué)區(qū)域表示v={v1,…,vK}(ResNet152的Conv5_x層輸出是7×7×2 048的張量,即K=49,vi的維度是2048)。視覺(jué)區(qū)域表示與注意力機(jī)制相結(jié)合,通過(guò)在每一步解碼過(guò)程中關(guān)注不同的圖像區(qū)域可生成內(nèi)容豐富的圖像描述[87]。視覺(jué)區(qū)域表示實(shí)現(xiàn)了圖像的細(xì)顆粒度表示,但是每個(gè)特征的感受野大小和形狀相同,同一個(gè)目標(biāo)(Object)可能被切分到多個(gè)區(qū)域中,它無(wú)法表達(dá)視覺(jué)上完整的語(yǔ)義信息。

    2.1.3 視覺(jué)目標(biāo)表示

    視覺(jué)目標(biāo)表示(Object Representation)也是用一組D維向量表示一幅圖像,但每個(gè)D維向量表示圖像中的一個(gè)目標(biāo)(Object)。具體的,預(yù)訓(xùn)練Faster R-CNN[88]通常被用來(lái)檢測(cè)目標(biāo)所在的區(qū)域,再使用目標(biāo)所在區(qū)域的視覺(jué)特征和邊界框(Bounding-box)特征作為該視覺(jué)目標(biāo)表示[79,81,89-90]。視覺(jué)目標(biāo)表示與注意力機(jī)制等多模態(tài)融合方法相結(jié)合,可進(jìn)一步提高視覺(jué)-語(yǔ)言任務(wù)的性能。例如,受人類(lèi)視覺(jué)系統(tǒng)的啟發(fā),Anderson等人[78]首次提出了一種“自底向上”和“自頂向下”相結(jié)合的注意力機(jī)制(BUTD)。BUTD在2017年CVPR視覺(jué)問(wèn)答比賽中獲得冠軍。視覺(jué)目標(biāo)表示通過(guò)目標(biāo)定位與分類(lèi)實(shí)現(xiàn)視覺(jué)圖像的淺層語(yǔ)義理解,但它無(wú)法刻畫(huà)圖像中多個(gè)目標(biāo)間的語(yǔ)義關(guān)系。

    2.1.4 視覺(jué)場(chǎng)景圖表示

    視覺(jué)場(chǎng)景圖表示(Scene Graph Representation)是用場(chǎng)景圖G=(V,R)表示一幅圖像。場(chǎng)景圖中的節(jié)點(diǎn)V={v1,…,vK}是圖像中的目標(biāo)集合,關(guān)系R={r1,…,rR}是圖像中目標(biāo)和目標(biāo)間的顯式語(yǔ)義關(guān)系(如Wearing、Eating)、空間位置關(guān)系(如Cover、Intersect、In)和隱式語(yǔ)義關(guān)系的集合,如圖6所示。視覺(jué)場(chǎng)景圖表示可實(shí)現(xiàn)模型對(duì)視覺(jué)內(nèi)容的深度理解。Yao等人[75]提出了基于GCN-LSTM的網(wǎng)絡(luò)結(jié)構(gòu),將視覺(jué)場(chǎng)景圖中的顯式語(yǔ)義關(guān)系和空間位置關(guān)系集成到圖像編碼器中。GCN-LSTM網(wǎng)絡(luò)顯著提高了圖像描述任務(wù)的性能。Li等人[79]提出了一種關(guān)系感知的圖注意力網(wǎng)絡(luò)(ReGAT),它通過(guò)圖注意力機(jī)制對(duì)圖像目標(biāo)間的顯示關(guān)系(語(yǔ)義關(guān)系和空間關(guān)系)和隱式關(guān)系進(jìn)行建模,學(xué)習(xí)問(wèn)題自適應(yīng)的多模態(tài)聯(lián)合表示,ReGAT可提高VQA的性能。文獻(xiàn)[75、79]使用Faster R-CNN識(shí)別圖像中目標(biāo),并提取目標(biāo)的視覺(jué)特征表示vi。

    圖6 視覺(jué)場(chǎng)景圖表示

    除了場(chǎng)景圖表示,Yao等人[76]把視覺(jué)內(nèi)容解析成一個(gè)樹(shù)狀結(jié)構(gòu),其根節(jié)點(diǎn)是整個(gè)圖像,中間節(jié)點(diǎn)為一組圖像物體,葉子節(jié)點(diǎn)則是在圖像目標(biāo)的基礎(chǔ)上應(yīng)用圖像分割技術(shù)得到的圖像Instance級(jí)的區(qū)域。

    2.2 根據(jù)融合階段進(jìn)行分類(lèi)

    根據(jù)多模態(tài)融合的階段,多模態(tài)融合方法可分為早期融合[79-82,90]、中期融合[91]和晚期融合[92]。早期融合的特點(diǎn)是單模態(tài)表示學(xué)習(xí)簡(jiǎn)單,而多模態(tài)融合部分的模型深度大,融合策略復(fù)雜。例如,詞的獨(dú)熱編碼表示和視覺(jué)區(qū)域表示直接參與多模態(tài)融合[93]。晚期融合的特點(diǎn)是單模態(tài)表示學(xué)習(xí)模型復(fù)雜,多模態(tài)融合一般采用拼接、按位乘/求平均等簡(jiǎn)單策略[92]。由于晚期融合抑制了模態(tài)之間的交互,目前大部分基于深度學(xué)習(xí)的模型均使用早期或者中期融合。在第3節(jié)介紹的多模態(tài)預(yù)訓(xùn)練模型中,基于單流架構(gòu)(Single-Stream)的預(yù)訓(xùn)練模型把融合操作放在早期階段,如VideoBERT[94]、Unicoder-VL[95]、Oscar[96]、VL-BERT[97]和M3P[98]等?;陔p流架構(gòu)(Two-Stream)的預(yù)訓(xùn)練模型則把融合操作放置在深層模型的中期階段的多個(gè)層中,如ERNIE-ViL[82]、LXMERT[91]、ActBERT[99]和ViLBERT[100]等。

    Alberti 等人[90]通過(guò)實(shí)驗(yàn)證明在視覺(jué)常識(shí)推理(Visual Commonsense Reasoning,VCR)應(yīng)用中,語(yǔ)言與視覺(jué)的早期融合是獲得高準(zhǔn)確率的關(guān)鍵。Shrestha等人[80]也通過(guò)實(shí)驗(yàn)發(fā)現(xiàn)早期融合對(duì)他們提出的模型RAMEN至關(guān)重要,因?yàn)槿サ粼缙谌诤蠒?huì)導(dǎo)致VQA準(zhǔn)確率的絕對(duì)值在視覺(jué)推理數(shù)據(jù)集CLEVR上下降20%,在視覺(jué)理解數(shù)據(jù)集VQAv2上下降4%。

    2.3 根據(jù)融合方式進(jìn)行分類(lèi)

    多模態(tài)融合模型的設(shè)計(jì)是多模態(tài)融合的關(guān)鍵研究點(diǎn)。我們將多模態(tài)融合模型分為簡(jiǎn)單融合、門(mén)控融合(Gating)、注意力融合(Attention)、Transformer融合、圖模型融合(Graph Fusion)和雙線(xiàn)性注意力(Bilinear Attention)融合共六類(lèi)方法。常見(jiàn)簡(jiǎn)單融合方法包括編碼器、解碼器的初始化(參見(jiàn)1.6節(jié)和2.1.1節(jié))、拼接、按位乘/求和/求平均等操作。本節(jié)主要介紹其余的五類(lèi)較復(fù)雜的融合方法。

    2.3.1 門(mén)控融合

    基于自編碼(Auto-encoding)[101]和自回歸(Auto-regression)[102]的大規(guī)模預(yù)訓(xùn)練語(yǔ)言模型和在下游任務(wù)上的微調(diào)相結(jié)合是自然語(yǔ)言處理研究和應(yīng)用的新方法。但文本預(yù)訓(xùn)練語(yǔ)言模型與下游的多模態(tài)任務(wù)相結(jié)合還是一個(gè)尚未充分研究的課題。Rahman等人[103]提出了一種多模態(tài)適應(yīng)門(mén)(Multimodal Adaptation Gate,MAG)的網(wǎng)絡(luò)結(jié)構(gòu)將非語(yǔ)言特征(視覺(jué)和聲學(xué)特征)與文本預(yù)訓(xùn)練語(yǔ)言模型融合,MAG與BERT[101]結(jié)合(MAG-BERT)以及MAG與XLNet[104]結(jié)合(MAG-XLNET)都可以有效融合三個(gè)模態(tài)信息,并在多模態(tài)情感識(shí)別數(shù)據(jù)集CMU-MOSI和CMU-MOSEI上獲得當(dāng)時(shí)最優(yōu)性能。

    2.3.2 注意力融合

    Bahdanau等人[105]在2015年提出的注意力機(jī)制是為了讓神經(jīng)機(jī)器翻譯模型中的解碼器在每一步解碼過(guò)程中,有針對(duì)性地選擇源語(yǔ)言中“對(duì)齊”的詞來(lái)指導(dǎo)目標(biāo)語(yǔ)言的解碼,包括全局注意力和局部注意力兩種方法。2017年Vaswani等人[106]提出了由多頭注意力和自注意力等模塊組成的Transformer。目前Transformer已經(jīng)成為自然語(yǔ)言處理、計(jì)算機(jī)視覺(jué)和語(yǔ)音領(lǐng)域的標(biāo)準(zhǔn)模型之一。在多模態(tài)領(lǐng)域,Yang等人[77]提出了Stacked Attention Networks(SANs),通過(guò)多層視覺(jué)注意力機(jī)制逐步過(guò)濾掉圖像中的噪聲區(qū)域,定位到與答案高度相關(guān)的圖像區(qū)域,從而提高VQA準(zhǔn)確率。Anderson等人[78]提出一種“自底向上”和“自頂向下”相結(jié)合的注意力機(jī)制。具體的,基于Faster R-CNN的“自底向上”的注意力機(jī)制提取圖像中的興趣區(qū)域,“自頂向下”的注意力機(jī)制確定興趣區(qū)域的權(quán)重。

    上述注意力都是單向的視覺(jué)注意力,即基于文本表示選擇性地關(guān)注圖像中的興趣區(qū)域。Lu等人[107]認(rèn)為文本注意力和視覺(jué)注意力同等重要,并提出了協(xié)同注意力機(jī)制(Co-attention)。協(xié)同注意力又根據(jù)文本注意力和視覺(jué)注意力計(jì)算的交替順序分為平行協(xié)同注意力(Parallel Co-attention)和交替協(xié)同注意力(Alternating Co-attention)兩種策略。Nam等人[108]基于類(lèi)似的想法提出了雙重注意力網(wǎng)絡(luò)(Dual Attention Networks)。受Transformer模型的啟發(fā),Yu等人[109]提出了一種類(lèi)Transformer結(jié)構(gòu)的協(xié)同注意力機(jī)制,可實(shí)現(xiàn)文本中的任一詞與圖像中的任一區(qū)域間的完全交互。

    2.3.3 Transformer融合

    BERT憑借著Transformer強(qiáng)大的特征學(xué)習(xí)能力和掩碼語(yǔ)言模型(Masked Language Model)實(shí)現(xiàn)雙向編碼,刷新了多個(gè)NLP任務(wù)的最優(yōu)性能。2019年Transformer開(kāi)始被應(yīng)用到多模態(tài)領(lǐng)域?;赥ransformer的多模態(tài)融合又分為單流模型[95-98]和雙流模型[82,91,110-111]兩大類(lèi)。單流模型使用一個(gè)Transformer在一開(kāi)始便對(duì)多模態(tài)信息進(jìn)行充分的交互。雙流模型則對(duì)不同的模態(tài)使用獨(dú)立的Transformer編碼,再通過(guò)協(xié)同注意力機(jī)制實(shí)現(xiàn)不同模態(tài)間的融合,如圖7所示。雙流模型可以適應(yīng)不同模態(tài)獨(dú)立的處理需求。ViLBERT[100]證明了雙流模型的性能優(yōu)于單流模型,但目前沒(méi)有更多的對(duì)比實(shí)驗(yàn)分析單流模型和雙流模型的優(yōu)點(diǎn)和不足。

    圖7 基于Transformer的雙流多模態(tài)融合

    2.3.4 圖模型融合

    對(duì)比CNN/RNN等神經(jīng)網(wǎng)絡(luò)模型,圖神經(jīng)網(wǎng)絡(luò)模型的優(yōu)勢(shì)是可處理具有復(fù)雜結(jié)構(gòu)的異構(gòu)數(shù)據(jù),并且具備一定的關(guān)系推理能力和可解釋性。圖神經(jīng)網(wǎng)絡(luò)最近一兩年在自然語(yǔ)言處理領(lǐng)域也受到了廣泛的關(guān)注。

    在視覺(jué)-語(yǔ)言任務(wù)中,將圖像進(jìn)行結(jié)構(gòu)化(參見(jiàn)2.1.4節(jié)),再與圖神經(jīng)網(wǎng)絡(luò)結(jié)合,有助于對(duì)圖像的深度理解,進(jìn)而提高圖像描述和視覺(jué)問(wèn)答等視覺(jué)-語(yǔ)言任務(wù)的性能[79]。Huang等人[81]提出一種雙通道圖卷積網(wǎng)絡(luò)(DC-GCN)。DC-GCN通過(guò)I-GCN模塊學(xué)習(xí)圖像中物體間的關(guān)系、通過(guò)Q-GCN模塊學(xué)習(xí)問(wèn)題中詞的依存關(guān)系,再通過(guò)注意力對(duì)齊模塊學(xué)習(xí)多模態(tài)的聯(lián)合表示。Yin等人[112]將基于圖的多模態(tài)融合編碼器應(yīng)用到多模態(tài)神經(jīng)機(jī)器翻譯模型中。不同于DC-GCN對(duì)圖像和文本獨(dú)立建圖,Yin等人[112]把源語(yǔ)言中的詞和圖像中的物體放到了同一個(gè)圖中,再堆疊多個(gè)基于圖神經(jīng)網(wǎng)絡(luò)的多模態(tài)融合層(在每一層順序執(zhí)行模態(tài)內(nèi)融合和模態(tài)間融合)。該方法可以同時(shí)學(xué)習(xí)模態(tài)內(nèi)和模態(tài)間的各種顆粒度的語(yǔ)義關(guān)系,進(jìn)而顯著提高了機(jī)器翻譯的性能。

    最近,基于圖模型的多模態(tài)融合也被廣泛應(yīng)用于多模態(tài)情感識(shí)別任務(wù)。Hu等人[113]提出了一種基于圖卷積網(wǎng)絡(luò)的多模態(tài)融合模型(MMGCN),它可以有效地融合多模態(tài)信息和學(xué)習(xí)長(zhǎng)距離的依賴(lài)關(guān)系,還可以通過(guò)說(shuō)話(huà)人向量(Speaker Embedding)把說(shuō)話(huà)人的音色特征等信息融入情感識(shí)別模型中。

    2.3.5 雙線(xiàn)性注意力融合

    協(xié)同注意力機(jī)制雖然同時(shí)引入了文本和視覺(jué)注意力,實(shí)現(xiàn)了文本和圖像雙向交互。但為了減少計(jì)算量,協(xié)同注意力為每個(gè)模態(tài)建立了獨(dú)立的注意力分布。因此,協(xié)同注意力忽視了問(wèn)題和圖像之間的兩兩交互。對(duì)此,Kim等人[114]提出了雙線(xiàn)性注意力網(wǎng)絡(luò)(BAN)。雙線(xiàn)性注意力網(wǎng)絡(luò)是低秩雙線(xiàn)性池化方法的一般推廣。本文不展開(kāi)介紹BAN模型,有興趣的讀者請(qǐng)參考相關(guān)文獻(xiàn)。

    2.3.6 多模態(tài)融合模型小結(jié)

    門(mén)控融合和注意力融合是早些年提出的基礎(chǔ)的多模態(tài)融合方法。它們的優(yōu)點(diǎn)是能方便地與CNN/LSTM/Transformer等主流的神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)相結(jié)合,也能與2.1節(jié)介紹的多種單模態(tài)表示相結(jié)合。圖模型融合和Transformer融合是近幾年提出的新方法,它們的模型結(jié)構(gòu)較復(fù)雜,且對(duì)單模態(tài)的表示要求較高。如圖模型融合需要跟視覺(jué)場(chǎng)景圖表示(和文本的圖表示)相結(jié)合。雙流Transformer融合視覺(jué)-語(yǔ)言-語(yǔ)音3種模態(tài)信息,需要多個(gè)Transformer[110-111]。圖模型融合和Transformer融合通??色@得更好的性能,如表4所示。門(mén)控機(jī)制和注意力機(jī)制跟預(yù)訓(xùn)練模型結(jié)合,也能取得不錯(cuò)的性能,如門(mén)控機(jī)制跟XLNet相結(jié)合的MAG-XLNet模型在情感識(shí)別上獲得了最佳的性能。

    表4 多模態(tài)融合方法的代表性模型在視覺(jué)問(wèn)答、圖像描述和情感識(shí)別數(shù)據(jù)集上的性能對(duì)比

    2.4 其他融合方法

    融合語(yǔ)言、視覺(jué)和聲學(xué)序列信息的多模態(tài)情感識(shí)別,由于每個(gè)模態(tài)的采樣率不同,多模態(tài)序列通常表現(xiàn)出“未對(duì)齊”特性(也稱(chēng)之為異步性)。早期的多模態(tài)情感識(shí)別工作是在詞對(duì)齊的多模態(tài)序列上展開(kāi)的。最近也有工作提出了基于異步的多模態(tài)序列的建模方法。然而,Tsai等人[110]提出的多模態(tài) Transformer(MulT)一次只能接收兩個(gè)模態(tài)。為了實(shí)現(xiàn)三個(gè)模態(tài)的融合,作者使用了六個(gè)跨模態(tài)Transformer。Yang等人[115]提出了一個(gè)可解釋的基于圖神經(jīng)網(wǎng)絡(luò)的異步多模態(tài)序列融合算法: 模態(tài)-時(shí)間注意力圖(Modal-Temporal Attention Graph,MTAG)算法。MTAG算法首先將多模態(tài)序列轉(zhuǎn)為一個(gè)異構(gòu)圖,再?gòu)亩嗄B(tài)序列中抽取特征作為節(jié)點(diǎn),節(jié)點(diǎn)間通過(guò)多模態(tài)邊(Multimodal Edges)和時(shí)間邊(Temporal Edge)進(jìn)行連接。最后,在圖上進(jìn)行融合操作,實(shí)現(xiàn)每一個(gè)模態(tài)的節(jié)點(diǎn)與其他模態(tài)節(jié)點(diǎn)的交互。

    由于利用了多個(gè)模態(tài)間的互補(bǔ)性,多模態(tài)系統(tǒng)具有較高的預(yù)測(cè)魯棒性。然而,在現(xiàn)實(shí)應(yīng)用場(chǎng)景中,我們經(jīng)常會(huì)遇到模態(tài)缺失的問(wèn)題。例如,由于隱私問(wèn)題關(guān)閉了攝像頭、由于語(yǔ)音識(shí)別錯(cuò)誤帶來(lái)的語(yǔ)言模態(tài)缺失等。模態(tài)缺失問(wèn)題通常會(huì)導(dǎo)致現(xiàn)有基于全模態(tài)的多模態(tài)融合模型失效。對(duì)此,Zhao等人[116]提出了基于缺失模態(tài)想象網(wǎng)絡(luò)(Missing Modality Imagination Network,MMIN)來(lái)處理不確定的模態(tài)缺失問(wèn)題。由于模態(tài)缺失現(xiàn)象的普遍性,該問(wèn)題將會(huì)是多模態(tài)領(lǐng)域接下來(lái)的一個(gè)研究熱點(diǎn)。

    3 多模態(tài)預(yù)訓(xùn)練

    通過(guò)預(yù)訓(xùn)練語(yǔ)言模型從海量無(wú)標(biāo)注數(shù)據(jù)中學(xué)習(xí)通用知識(shí),再在下游任務(wù)上用少量的標(biāo)注數(shù)據(jù)進(jìn)行微調(diào),已經(jīng)成為自然語(yǔ)言處理領(lǐng)域成熟的新范式。從2019年開(kāi)始,預(yù)訓(xùn)練語(yǔ)言模型(BERT[101]、GPT-3[102]、BART[117]和T5[118]等)相繼被擴(kuò)展到多語(yǔ)言和多模態(tài)等場(chǎng)景。

    相對(duì)于文本預(yù)訓(xùn)練語(yǔ)言模型,多模態(tài)預(yù)訓(xùn)練模型可以更好地對(duì)細(xì)顆粒度的多模態(tài)語(yǔ)義單元(詞或者目標(biāo))間的相關(guān)性進(jìn)行建模。例如,基于語(yǔ)言上下文,被掩碼的詞“on top of”可以被預(yù)測(cè)為符合語(yǔ)法規(guī)則的詞“under”或“into”等。但這與關(guān)聯(lián)的圖片場(chǎng)景“貓?jiān)谲?chē)頂”不符。通過(guò)多模態(tài)預(yù)訓(xùn)練,模型從圖像中捕獲“汽車(chē)”“貓”之間的空間關(guān)系,從而可以準(zhǔn)確地預(yù)測(cè)出掩碼詞是“on top of”[82]。大部分的多模態(tài)預(yù)訓(xùn)練模型是在視覺(jué)-語(yǔ)言對(duì)齊數(shù)據(jù)上進(jìn)行的。例如,使用圖像和文本對(duì)齊數(shù)據(jù)集(MSCOCO[12]、Conceptual Captions[13]、Visual Genome[15]和SBU Captions[16]等)訓(xùn)練的跨模態(tài)預(yù)訓(xùn)練模型LXMERT[91]、Oscar[96]、VL-BERT[97]和ViLBERT[100], M3P[98]。使用視頻和文本對(duì)齊數(shù)據(jù)集訓(xùn)練的VideoBERT[94]和ActBERT[99]等[119-120]。Liu等人[85]最近還發(fā)布了視覺(jué)、文本、語(yǔ)音三模態(tài)預(yù)訓(xùn)練模型OPT。

    本文表5中從網(wǎng)絡(luò)結(jié)構(gòu)、模型輸入、預(yù)訓(xùn)練目標(biāo)、預(yù)訓(xùn)練語(yǔ)料和下游任務(wù)等維度對(duì)比了最新的視覺(jué)-語(yǔ)言跨模態(tài)預(yù)訓(xùn)練模型ERNIE-VIL[82]、LXMERT[91]、LightningDOT[92]、E2E-VLP[93]、Unicoder-VL[95]、Oscar[96]、VL-BERT[97]、M3P[98]、ViLBERT[100]、TDEN[121]、UNIMO[122]。表5中的表示“圖像,語(yǔ)言”對(duì),I表示一幅圖像,w=w1,…,wT表示長(zhǎng)度為T(mén)的文本表示。g=g1,…,gG是圖像區(qū)域表示,q=q1,…,qK和v=v1,…,vK分別表示圖像中的目標(biāo)的文本表示和目標(biāo)的視覺(jué)表示。g和v的提取可參考2.1節(jié)的介紹。此外,[SEP]、[IMG]、[CLS]等特殊標(biāo)記用來(lái)分割不同模態(tài)。MLM(Masked Language Model)是根據(jù)未掩碼的詞和圖像區(qū)域預(yù)測(cè)掩碼單詞。MOC(Masked Object Classification)根據(jù)未掩碼的圖像區(qū)域和文本預(yù)測(cè)掩碼區(qū)域的目標(biāo)類(lèi)別。MOR(Masked Object Regression)根據(jù)未掩碼的圖像區(qū)域和文本預(yù)測(cè)掩碼區(qū)域的特征表示。MSG(Masked Sentence Generation)根據(jù)輸入圖像逐字生成句子。VQA根據(jù)輸入的圖像和該圖像相關(guān)問(wèn)題預(yù)測(cè)該問(wèn)題的答案。CMCL是跨模態(tài)對(duì)比學(xué)習(xí)任務(wù)。VLM是預(yù)測(cè)圖像-文本對(duì)是否語(yǔ)義一致。

    表5 視覺(jué)-語(yǔ)言預(yù)訓(xùn)練模型對(duì)比

    從表5中的11個(gè)圖像-語(yǔ)言跨模態(tài)預(yù)訓(xùn)練模型的對(duì)比,我們發(fā)現(xiàn)的跨模態(tài)預(yù)訓(xùn)練模型的特點(diǎn)如下: ①單流模型和雙流模型均被廣泛采用。雖然雙流模型可以適應(yīng)每種模態(tài)的不同處理需求,但目前尚無(wú)完整的實(shí)驗(yàn)證明雙流模型優(yōu)于單流模型。②多模態(tài)預(yù)訓(xùn)練模型從應(yīng)用于多模態(tài)理解任務(wù)或多模態(tài)生成任務(wù)發(fā)展到可兼顧多模態(tài)理解和生成兩大任務(wù)的統(tǒng)一模型。③相對(duì)動(dòng)輒上百G甚至T級(jí)別的單模態(tài)數(shù)據(jù),多模態(tài)對(duì)齊數(shù)據(jù)的規(guī)模有限。最新的多模態(tài)預(yù)訓(xùn)練模型可以利用互聯(lián)網(wǎng)上的大規(guī)模非對(duì)齊的文本數(shù)據(jù)、圖像數(shù)據(jù)、以及文本-圖像對(duì)齊數(shù)據(jù)學(xué)習(xí)更通用的文本和視覺(jué)表示,以提高模型在視覺(jué)和語(yǔ)言的理解和生成能力,如M3P和UNIMO。④多模態(tài)預(yù)訓(xùn)練模型從僅應(yīng)用于多模態(tài)下游任務(wù)發(fā)展到可同時(shí)應(yīng)用于單模態(tài)下游任務(wù)和多模態(tài)下游任務(wù)。

    上述的多模態(tài)預(yù)訓(xùn)練模型需要在大量圖像文本的對(duì)齊語(yǔ)料上進(jìn)行訓(xùn)練。然而,此類(lèi)數(shù)據(jù)的收集成本昂貴,很難擴(kuò)大規(guī)模。受無(wú)監(jiān)督機(jī)器翻譯[123-124]的啟發(fā),Li等人[125]提出了一種不依賴(lài)圖像-文本對(duì)齊語(yǔ)料的預(yù)訓(xùn)練U-VisualBERT,該預(yù)訓(xùn)練模型的輸入是一批文本數(shù)據(jù),或一批圖像數(shù)據(jù),并通過(guò)圖像中物體標(biāo)簽作為錨點(diǎn)(Anchor Points)對(duì)齊兩種模態(tài)。U-VisualBERT在四個(gè)多模態(tài)任務(wù)上取得與使用多模態(tài)對(duì)齊數(shù)據(jù)訓(xùn)練的預(yù)訓(xùn)練模型接近的性能。該方向可能會(huì)是接下來(lái)的一個(gè)研究熱點(diǎn)。

    4 多模態(tài)技術(shù)的產(chǎn)業(yè)應(yīng)用

    本節(jié)介紹多模態(tài)信息處理在商品文案生成、智能客服與營(yíng)銷(xiāo)等場(chǎng)景的應(yīng)用。

    多模態(tài)商品文案生成是基于商品的文本描述和商品的圖片生成賣(mài)點(diǎn)突出的商品介紹文案的任務(wù)。為了生成一段簡(jiǎn)潔凝煉、賣(mài)點(diǎn)突出、流暢、合規(guī)的商品文案,Li等人[43]提出了一種基于商品要素的多模態(tài)商品信息自動(dòng)摘要模型,其可以根據(jù)商品的文本描述、商品圖片信息自動(dòng)生成商品短文。目前文獻(xiàn)[43]中的算法已支持3 000多個(gè)商品品類(lèi),廣泛應(yīng)用于商品導(dǎo)購(gòu)機(jī)器人、搭配購(gòu)、AI直播帶貨等實(shí)際場(chǎng)景中。AI創(chuàng)作的文案人工審核通過(guò)率超過(guò)95%,AI文案曝光點(diǎn)擊率高出專(zhuān)業(yè)寫(xiě)手平均水平40%。表6對(duì)比了文本模型和多模態(tài)模型的生成文案效果。

    表6 文本生成模型vs. 多模態(tài)生成模型

    智能客服場(chǎng)景中,超過(guò)16%的客服與用戶(hù)的對(duì)話(huà)包括一張以上的圖片(截屏圖片和實(shí)拍圖片)。所以,客服機(jī)器人不僅要理解文字內(nèi)容,還要理解圖片等多模態(tài)內(nèi)容,才能準(zhǔn)確回答用戶(hù)咨詢(xún)?;诙嗄B(tài)技術(shù)的用戶(hù)意圖識(shí)別已經(jīng)應(yīng)用于京東智能情感客服系統(tǒng)。多模態(tài)情感識(shí)別也應(yīng)用到語(yǔ)音客服質(zhì)檢(4)語(yǔ)音客服質(zhì)檢是根據(jù)語(yǔ)音和ASR識(shí)別結(jié)果識(shí)別客服和用戶(hù)的情緒變化,提高客服服務(wù)的質(zhì)量。、語(yǔ)音外呼機(jī)器人等產(chǎn)品中。此外,融合語(yǔ)音、計(jì)算機(jī)視覺(jué)和自然語(yǔ)言處理的數(shù)字人已應(yīng)用到智能客服、虛擬主播、數(shù)字人直播帶貨等場(chǎng)景。

    5 結(jié)束語(yǔ)

    多模態(tài)信息處理是一個(gè)典型的多學(xué)科交叉領(lǐng)域。最近幾年,多模態(tài)信息處理受到自然語(yǔ)言處理、計(jì)算機(jī)視覺(jué)和語(yǔ)音與聲學(xué)領(lǐng)域研究者的廣泛關(guān)注。本文從自然語(yǔ)言處理的視角出發(fā),首先介紹了目前熱點(diǎn)的多模態(tài)應(yīng)用,接著介紹了多模態(tài)的三個(gè)重要研究方向及其主流方法: 即視覺(jué)的單模態(tài)表示(視覺(jué)全局表示、視覺(jué)區(qū)域表示、視覺(jué)目標(biāo)表示和視覺(jué)場(chǎng)景圖表示)、多模態(tài)融合(簡(jiǎn)單融合、門(mén)控融合、注意力融合、Transformer融合、圖模型融合和雙線(xiàn)性注意力融合)和通用的多模態(tài)預(yù)訓(xùn)練。最后,本文對(duì)多模態(tài)技術(shù)在產(chǎn)業(yè)界的應(yīng)用進(jìn)行了簡(jiǎn)要的描述。

    多模態(tài)信息處理還有很多亟待進(jìn)一步研究的課題。我們認(rèn)為,以下五個(gè)方向?qū)⑹嵌嗄B(tài)信息處理技術(shù)領(lǐng)域未來(lái)重要的研究?jī)?nèi)容: ①非對(duì)齊語(yǔ)料上的多模態(tài)信息處理。目前,大多數(shù)下游的多模態(tài)任務(wù)和多模態(tài)預(yù)訓(xùn)練模態(tài)都依賴(lài)多模態(tài)對(duì)齊語(yǔ)料。相對(duì)動(dòng)輒上百G甚至T級(jí)別的單模態(tài)語(yǔ)料,多模態(tài)對(duì)齊語(yǔ)料的規(guī)模還是很有限。探索如何在海量非對(duì)齊多模態(tài)語(yǔ)料上訓(xùn)練多模態(tài)模型具有非常實(shí)用的價(jià)值,也是多模態(tài)領(lǐng)域需要重點(diǎn)關(guān)注的課題之一。此方向已經(jīng)有了初步的探索。例如,利用多模態(tài)對(duì)齊技術(shù)將海量的單模態(tài)語(yǔ)料與其他模態(tài)進(jìn)行自動(dòng)對(duì)齊[48,122]。②面向單模態(tài)和多模態(tài)的理解和生成任務(wù)的統(tǒng)一模型。當(dāng)前的主流模型或面向單模態(tài)理解(或生成)或面向多模態(tài)理解(或生成)的模型,構(gòu)建一個(gè)既適用于單模態(tài)理解與生成任務(wù),又適用于多模態(tài)理解與生成任務(wù)的統(tǒng)一模型是未來(lái)非常重要的研究方向。多模態(tài)模型在文本任務(wù)上的性能未來(lái)可能會(huì)超過(guò)單模態(tài)模型[48,122]。③高噪聲環(huán)境下的多模態(tài)魯棒性融合。真實(shí)場(chǎng)景常常有較強(qiáng)的背景噪聲,部分模態(tài)的數(shù)據(jù)通常是模糊或缺失的。因此,探索如何在高噪聲情況下獲得信息缺失的有效表征,提高模型預(yù)測(cè)魯棒性和準(zhǔn)確性是多模態(tài)領(lǐng)域重要的研究課題之一。文獻(xiàn)[116]提出一種基于缺失模態(tài)的想象網(wǎng)絡(luò)(Missing Modality Imagination Network,MMIN)對(duì)該方向進(jìn)行了初步的探索。④多模態(tài)與知識(shí)的融合。2.1節(jié)介紹的從視覺(jué)內(nèi)容中提取視覺(jué)粗粒度特征表示和基于視覺(jué)場(chǎng)景圖的細(xì)顆粒度特征表示,其目的都是增強(qiáng)視覺(jué)特征表示。我們認(rèn)為,如何提取更精細(xì)粒度的視覺(jué)特征表示是多模態(tài)領(lǐng)域重要的基礎(chǔ)研究方向之一。引入知識(shí)圖譜作為圖像實(shí)體信息的補(bǔ)充,從而進(jìn)行知識(shí)增強(qiáng)的視覺(jué)特征表示是該方向一種探索思路[126-127]。⑤復(fù)雜交互情境下的多模態(tài)應(yīng)用。第1節(jié)介紹了多模態(tài)信息處理技術(shù)的多個(gè)應(yīng)用場(chǎng)景。我們認(rèn)為,數(shù)字人、元宇宙(Metaverse)是多模態(tài)信息處理技術(shù)最佳的應(yīng)用場(chǎng)景之一,探索復(fù)雜交互情境下的多模態(tài)信息處理是多模態(tài)領(lǐng)域未來(lái)最重要的研究方向之一。

    猜你喜歡
    注意力模態(tài)文本
    讓注意力“飛”回來(lái)
    在808DA上文本顯示的改善
    基于doc2vec和TF-IDF的相似文本識(shí)別
    電子制作(2018年18期)2018-11-14 01:48:06
    “揚(yáng)眼”APP:讓注意力“變現(xiàn)”
    A Beautiful Way Of Looking At Things
    文本之中·文本之外·文本之上——童話(huà)故事《坐井觀(guān)天》的教學(xué)隱喻
    國(guó)內(nèi)多模態(tài)教學(xué)研究回顧與展望
    基于HHT和Prony算法的電力系統(tǒng)低頻振蕩模態(tài)識(shí)別
    由單個(gè)模態(tài)構(gòu)造對(duì)稱(chēng)簡(jiǎn)支梁的抗彎剛度
    如何快速走進(jìn)文本
    久久国产乱子免费精品| 美女福利国产在线| 久久久久久伊人网av| av又黄又爽大尺度在线免费看| 男女边吃奶边做爰视频| 成人特级av手机在线观看| 七月丁香在线播放| 成人黄色视频免费在线看| av福利片在线| 中文欧美无线码| 国产精品偷伦视频观看了| 久久久午夜欧美精品| 日韩人妻高清精品专区| 欧美亚洲 丝袜 人妻 在线| 国产成人精品无人区| 亚洲精品视频女| 亚洲精品久久久久久婷婷小说| 久久久久久久久久久久大奶| 天天操日日干夜夜撸| 男的添女的下面高潮视频| av免费观看日本| 在线观看三级黄色| 9色porny在线观看| 少妇裸体淫交视频免费看高清| 免费久久久久久久精品成人欧美视频 | 色视频www国产| 免费人成在线观看视频色| 黑丝袜美女国产一区| 3wmmmm亚洲av在线观看| 午夜福利视频精品| 国产日韩欧美亚洲二区| 久久人妻熟女aⅴ| 国产成人免费观看mmmm| 亚洲成人手机| 国产日韩欧美亚洲二区| 亚洲欧美精品自产自拍| 大片电影免费在线观看免费| 欧美xxxx性猛交bbbb| 久久精品熟女亚洲av麻豆精品| 中文字幕人妻丝袜制服| 777米奇影视久久| 国产精品久久久久成人av| 成年av动漫网址| 亚洲国产日韩一区二区| 欧美bdsm另类| 好男人视频免费观看在线| 久久久久久久国产电影| 国产成人freesex在线| 亚洲欧美精品专区久久| 日本av手机在线免费观看| 热re99久久精品国产66热6| 91精品一卡2卡3卡4卡| 婷婷色麻豆天堂久久| 男女国产视频网站| 99热6这里只有精品| 99久久精品一区二区三区| 男的添女的下面高潮视频| 国产男女内射视频| 韩国av在线不卡| 国产精品人妻久久久久久| 一级,二级,三级黄色视频| 一级a做视频免费观看| 亚洲国产精品成人久久小说| 午夜视频国产福利| 欧美日韩在线观看h| 美女xxoo啪啪120秒动态图| 韩国av在线不卡| 中文资源天堂在线| 美女主播在线视频| 国语对白做爰xxxⅹ性视频网站| 99久久人妻综合| 亚洲成色77777| 一区二区av电影网| 午夜福利影视在线免费观看| 午夜免费观看性视频| 亚洲成人av在线免费| 日本-黄色视频高清免费观看| 午夜福利在线观看免费完整高清在| 蜜臀久久99精品久久宅男| 伦精品一区二区三区| 一个人免费看片子| 亚洲性久久影院| 亚洲av二区三区四区| 精品人妻偷拍中文字幕| 中文欧美无线码| 我的女老师完整版在线观看| 国产男女内射视频| 啦啦啦中文免费视频观看日本| 日韩欧美精品免费久久| 少妇人妻精品综合一区二区| 国产亚洲av片在线观看秒播厂| 99热这里只有是精品50| 美女脱内裤让男人舔精品视频| 久久久久久久久大av| 午夜福利影视在线免费观看| 99久久精品一区二区三区| 亚洲精品视频女| 青春草亚洲视频在线观看| 在线免费观看不下载黄p国产| 午夜视频国产福利| 69精品国产乱码久久久| 丰满少妇做爰视频| 成年女人在线观看亚洲视频| 日本与韩国留学比较| 日本爱情动作片www.在线观看| 国产欧美日韩一区二区三区在线 | 街头女战士在线观看网站| 18禁在线播放成人免费| 男人狂女人下面高潮的视频| 波野结衣二区三区在线| 少妇的逼好多水| 中文乱码字字幕精品一区二区三区| 在线观看www视频免费| 亚洲精品国产av蜜桃| 蜜桃久久精品国产亚洲av| av在线老鸭窝| 尾随美女入室| 亚洲第一区二区三区不卡| 国产精品福利在线免费观看| 色吧在线观看| 日本av手机在线免费观看| 国产片特级美女逼逼视频| 晚上一个人看的免费电影| 青春草视频在线免费观看| 大香蕉久久网| 91午夜精品亚洲一区二区三区| 九九久久精品国产亚洲av麻豆| 欧美国产精品一级二级三级 | av女优亚洲男人天堂| 亚洲精品第二区| 久久亚洲国产成人精品v| 日本色播在线视频| 少妇裸体淫交视频免费看高清| 亚洲精品日本国产第一区| 精品久久久噜噜| 岛国毛片在线播放| 日韩三级伦理在线观看| 国产精品国产三级国产专区5o| 久久久久久久久久成人| 久久久久久伊人网av| 国产精品久久久久久精品电影小说| 午夜免费男女啪啪视频观看| 欧美bdsm另类| 中文乱码字字幕精品一区二区三区| 国产成人午夜福利电影在线观看| 日韩伦理黄色片| 丰满少妇做爰视频| 国产伦精品一区二区三区四那| 亚洲美女黄色视频免费看| 美女福利国产在线| 两个人免费观看高清视频 | 在线亚洲精品国产二区图片欧美 | 99久久精品热视频| 日韩 亚洲 欧美在线| 久久av网站| 少妇丰满av| 国产在视频线精品| 在线播放无遮挡| 国内揄拍国产精品人妻在线| 国产成人aa在线观看| 精品人妻熟女毛片av久久网站| 国产欧美日韩综合在线一区二区 | 欧美日本中文国产一区发布| 各种免费的搞黄视频| 国产黄色视频一区二区在线观看| 成人免费观看视频高清| 欧美另类一区| 亚洲精品一区蜜桃| 亚洲精品日韩在线中文字幕| 一二三四中文在线观看免费高清| 国产欧美日韩精品一区二区| 亚洲国产av新网站| 乱系列少妇在线播放| 精品人妻熟女毛片av久久网站| 久久久久久久久大av| 国产美女午夜福利| 欧美日韩综合久久久久久| 自拍欧美九色日韩亚洲蝌蚪91 | 久久久久精品久久久久真实原创| 熟女人妻精品中文字幕| 亚洲成色77777| 国产精品免费大片| 亚洲美女搞黄在线观看| 日韩一本色道免费dvd| 日韩成人av中文字幕在线观看| 高清在线视频一区二区三区| 亚洲精品久久久久久婷婷小说| 在线观看免费高清a一片| 夜夜爽夜夜爽视频| 久久精品国产自在天天线| 春色校园在线视频观看| 国产成人freesex在线| 各种免费的搞黄视频| 99热这里只有是精品在线观看| av福利片在线观看| 国产精品女同一区二区软件| 一个人免费看片子| av播播在线观看一区| av国产久精品久网站免费入址| 久久这里有精品视频免费| 观看av在线不卡| 热99国产精品久久久久久7| 久久av网站| 十分钟在线观看高清视频www | 亚洲av日韩在线播放| 国产精品一区二区在线不卡| 国产精品麻豆人妻色哟哟久久| 永久免费av网站大全| 久久精品久久精品一区二区三区| 久久久久久久亚洲中文字幕| 日韩不卡一区二区三区视频在线| 人妻系列 视频| 欧美最新免费一区二区三区| 一级毛片电影观看| 新久久久久国产一级毛片| 久久久久久久久久久久大奶| 好男人视频免费观看在线| 国产午夜精品一二区理论片| 亚洲综合色惰| 欧美成人精品欧美一级黄| 亚洲欧美一区二区三区黑人 | 国产精品.久久久| 免费久久久久久久精品成人欧美视频 | 日本av免费视频播放| 亚洲精品国产av成人精品| 中国美白少妇内射xxxbb| 女人精品久久久久毛片| 亚洲精品中文字幕在线视频 | 啦啦啦视频在线资源免费观看| 一级毛片aaaaaa免费看小| 日韩中字成人| 免费在线观看成人毛片| 成年美女黄网站色视频大全免费 | 国产精品伦人一区二区| 大话2 男鬼变身卡| 一级毛片我不卡| 国产精品不卡视频一区二区| 国产亚洲91精品色在线| 亚洲精品一区蜜桃| 黄片无遮挡物在线观看| 麻豆成人午夜福利视频| 高清午夜精品一区二区三区| 91精品伊人久久大香线蕉| 国产av一区二区精品久久| 菩萨蛮人人尽说江南好唐韦庄| 青春草国产在线视频| 在线天堂最新版资源| 人人妻人人添人人爽欧美一区卜| a级一级毛片免费在线观看| 极品人妻少妇av视频| 人妻系列 视频| 日本-黄色视频高清免费观看| 久久青草综合色| 国产淫语在线视频| 久久久久久久久大av| 人妻少妇偷人精品九色| 日韩视频在线欧美| 纵有疾风起免费观看全集完整版| 99热网站在线观看| 中文字幕精品免费在线观看视频 | 在线观看免费高清a一片| 久久精品国产鲁丝片午夜精品| 肉色欧美久久久久久久蜜桃| 自拍欧美九色日韩亚洲蝌蚪91 | 亚洲精品自拍成人| 日韩强制内射视频| 超碰97精品在线观看| 亚洲久久久国产精品| 日本av免费视频播放| 高清不卡的av网站| 97在线人人人人妻| 天堂中文最新版在线下载| 亚洲美女黄色视频免费看| 国产高清有码在线观看视频| 乱系列少妇在线播放| 久久久久久久久久成人| 久久精品国产自在天天线| 王馨瑶露胸无遮挡在线观看| 伊人久久国产一区二区| 欧美xxⅹ黑人| 亚洲精品色激情综合| 亚洲四区av| 久热久热在线精品观看| 九九在线视频观看精品| 国产男女超爽视频在线观看| 啦啦啦在线观看免费高清www| 国产精品女同一区二区软件| 亚洲精品国产av蜜桃| 老司机影院毛片| 我的女老师完整版在线观看| 最后的刺客免费高清国语| 精品亚洲成国产av| 免费播放大片免费观看视频在线观看| 韩国av在线不卡| 国产免费一级a男人的天堂| 免费观看性生交大片5| a级一级毛片免费在线观看| 一本色道久久久久久精品综合| 欧美 日韩 精品 国产| 婷婷色麻豆天堂久久| 色婷婷久久久亚洲欧美| 全区人妻精品视频| 国产免费一区二区三区四区乱码| 黄色配什么色好看| 黄色怎么调成土黄色| 欧美高清成人免费视频www| av又黄又爽大尺度在线免费看| 亚洲图色成人| 亚洲怡红院男人天堂| 天堂俺去俺来也www色官网| 欧美精品人与动牲交sv欧美| 简卡轻食公司| 成人毛片a级毛片在线播放| 日韩欧美精品免费久久| 久久国产精品大桥未久av | 高清午夜精品一区二区三区| 精品久久久精品久久久| 99视频精品全部免费 在线| 91久久精品国产一区二区成人| 伦精品一区二区三区| 国产视频首页在线观看| 亚洲人成网站在线观看播放| 国产精品人妻久久久影院| a级毛色黄片| 国产欧美亚洲国产| 亚洲伊人久久精品综合| 一区二区三区乱码不卡18| 亚洲精品乱码久久久v下载方式| 亚洲成色77777| 啦啦啦在线观看免费高清www| 在现免费观看毛片| 人妻 亚洲 视频| 亚洲av中文av极速乱| 人人妻人人添人人爽欧美一区卜| 亚洲国产欧美日韩在线播放 | 日韩成人av中文字幕在线观看| 午夜精品国产一区二区电影| 99视频精品全部免费 在线| 一本—道久久a久久精品蜜桃钙片| 国产亚洲一区二区精品| 亚洲电影在线观看av| 嫩草影院入口| av天堂中文字幕网| 成人无遮挡网站| 成人免费观看视频高清| 大片免费播放器 马上看| 精品酒店卫生间| 午夜免费鲁丝| 国产在线视频一区二区| 免费观看无遮挡的男女| 女性生殖器流出的白浆| 亚洲高清免费不卡视频| 波野结衣二区三区在线| 一区二区三区乱码不卡18| 久久女婷五月综合色啪小说| 欧美日韩国产mv在线观看视频| 人人妻人人澡人人爽人人夜夜| 91久久精品国产一区二区成人| 久久久久国产网址| 高清不卡的av网站| 国产精品一区二区在线观看99| 日日摸夜夜添夜夜爱| 亚洲精品乱久久久久久| 老熟女久久久| 一级毛片 在线播放| av黄色大香蕉| 一本—道久久a久久精品蜜桃钙片| 国产日韩欧美亚洲二区| 五月玫瑰六月丁香| 国产欧美日韩精品一区二区| 激情五月婷婷亚洲| 欧美高清成人免费视频www| 亚洲精品国产色婷婷电影| 少妇的逼水好多| 精品久久国产蜜桃| kizo精华| 日本av手机在线免费观看| 亚洲欧美成人精品一区二区| 久久综合国产亚洲精品| 国产伦在线观看视频一区| 在线观看国产h片| 蜜桃在线观看..| 免费av中文字幕在线| 亚洲人成网站在线观看播放| 欧美性感艳星| 黄色配什么色好看| 国产免费一区二区三区四区乱码| 日本免费在线观看一区| 国产精品嫩草影院av在线观看| 日本-黄色视频高清免费观看| 大香蕉97超碰在线| 日韩欧美 国产精品| 一本大道久久a久久精品| 插逼视频在线观看| 美女cb高潮喷水在线观看| 国产男女超爽视频在线观看| 欧美 亚洲 国产 日韩一| 亚洲电影在线观看av| 亚洲av免费高清在线观看| 国产成人精品无人区| 欧美日韩av久久| 在线观看av片永久免费下载| 少妇 在线观看| 国产极品天堂在线| 国产无遮挡羞羞视频在线观看| 亚洲精品日韩av片在线观看| 中文字幕制服av| 看非洲黑人一级黄片| 纯流量卡能插随身wifi吗| 亚洲欧洲国产日韩| 在线观看人妻少妇| 有码 亚洲区| 国产av一区二区精品久久| 国产高清国产精品国产三级| 十八禁网站网址无遮挡 | 天堂中文最新版在线下载| 国产老妇伦熟女老妇高清| 天天操日日干夜夜撸| 亚洲人与动物交配视频| 一区二区三区精品91| 亚洲精品456在线播放app| 久久精品国产自在天天线| 99久久人妻综合| 亚洲一级一片aⅴ在线观看| 成人综合一区亚洲| 激情五月婷婷亚洲| 国产成人freesex在线| 久久国产亚洲av麻豆专区| 色网站视频免费| 99久国产av精品国产电影| 交换朋友夫妻互换小说| 国产亚洲一区二区精品| 成人国产麻豆网| 中文字幕人妻熟人妻熟丝袜美| 国产精品人妻久久久影院| 精品一品国产午夜福利视频| 偷拍熟女少妇极品色| 免费大片黄手机在线观看| 国产成人a∨麻豆精品| 国产av码专区亚洲av| 在线 av 中文字幕| 日产精品乱码卡一卡2卡三| 啦啦啦啦在线视频资源| 蜜桃久久精品国产亚洲av| 亚洲av二区三区四区| 最近中文字幕高清免费大全6| 午夜视频国产福利| 国产成人免费观看mmmm| 中文字幕制服av| 蜜臀久久99精品久久宅男| 久久99热这里只频精品6学生| 久久久a久久爽久久v久久| 国产精品秋霞免费鲁丝片| 亚洲av电影在线观看一区二区三区| 又黄又爽又刺激的免费视频.| 99久久精品热视频| 高清毛片免费看| 婷婷色综合大香蕉| 日本黄色片子视频| 精品人妻偷拍中文字幕| 国产亚洲精品久久久com| 国产高清不卡午夜福利| 久久97久久精品| 久久久久久久久久成人| 国国产精品蜜臀av免费| 亚洲国产毛片av蜜桃av| 国产伦精品一区二区三区视频9| 久热久热在线精品观看| av在线观看视频网站免费| 狂野欧美激情性bbbbbb| 日韩欧美 国产精品| 在现免费观看毛片| 日本免费在线观看一区| 插阴视频在线观看视频| 亚洲av二区三区四区| 黄色毛片三级朝国网站 | 亚洲国产精品一区三区| 亚洲精华国产精华液的使用体验| 一级a做视频免费观看| 免费人成在线观看视频色| 免费不卡的大黄色大毛片视频在线观看| 国产91av在线免费观看| 观看av在线不卡| 一级av片app| 欧美亚洲 丝袜 人妻 在线| 99热全是精品| 日韩av不卡免费在线播放| 久久久久网色| 欧美三级亚洲精品| 婷婷色综合www| 99视频精品全部免费 在线| 一区二区三区免费毛片| 亚洲中文av在线| 男男h啪啪无遮挡| 精品少妇黑人巨大在线播放| 日韩欧美精品免费久久| 日韩av在线免费看完整版不卡| 欧美日韩亚洲高清精品| 大码成人一级视频| 伦精品一区二区三区| 成人无遮挡网站| 日韩人妻高清精品专区| 亚洲人成网站在线播| 亚洲精品色激情综合| 中文资源天堂在线| 能在线免费看毛片的网站| 91午夜精品亚洲一区二区三区| 91精品国产九色| 爱豆传媒免费全集在线观看| 亚洲无线观看免费| 王馨瑶露胸无遮挡在线观看| 91午夜精品亚洲一区二区三区| 中文字幕制服av| 国产男人的电影天堂91| 一个人看视频在线观看www免费| 王馨瑶露胸无遮挡在线观看| 亚洲精品乱码久久久久久按摩| 国产91av在线免费观看| 日韩av免费高清视频| 伊人久久精品亚洲午夜| 热99国产精品久久久久久7| 国产精品成人在线| 伊人久久国产一区二区| 成人影院久久| 国产av精品麻豆| 久久精品夜色国产| 九九久久精品国产亚洲av麻豆| 日韩一区二区视频免费看| 久久97久久精品| 高清黄色对白视频在线免费看 | 亚洲av.av天堂| 国产在线男女| 热re99久久国产66热| 日韩人妻高清精品专区| 黑人巨大精品欧美一区二区蜜桃 | 亚洲国产av新网站| 国产午夜精品一二区理论片| 好男人视频免费观看在线| 男女边摸边吃奶| 亚洲图色成人| 国产视频首页在线观看| 国产av精品麻豆| 麻豆精品久久久久久蜜桃| 九九久久精品国产亚洲av麻豆| av视频免费观看在线观看| 久久韩国三级中文字幕| 日韩av在线免费看完整版不卡| 亚洲不卡免费看| av一本久久久久| 国产高清不卡午夜福利| a级毛色黄片| 日韩大片免费观看网站| 亚洲,欧美,日韩| 久久国内精品自在自线图片| 久久国产乱子免费精品| 精品一区二区三卡| 久久 成人 亚洲| 欧美精品人与动牲交sv欧美| 九九爱精品视频在线观看| 国产精品三级大全| 国产精品.久久久| 51国产日韩欧美| www.色视频.com| 中文资源天堂在线| 欧美 亚洲 国产 日韩一| 成人黄色视频免费在线看| 青春草视频在线免费观看| 久久 成人 亚洲| 一级,二级,三级黄色视频| av线在线观看网站| 亚洲av电影在线观看一区二区三区| 国产有黄有色有爽视频| 久久精品久久久久久久性| 亚洲精品乱久久久久久| 日韩,欧美,国产一区二区三区| 下体分泌物呈黄色| 99久久精品热视频| 亚洲国产精品999| 国产精品熟女久久久久浪| 国产一区二区在线观看日韩| 久久久精品免费免费高清| 亚洲成人手机| 一区二区三区精品91| 在线观看一区二区三区激情| 精品少妇久久久久久888优播| 亚洲精品aⅴ在线观看| 高清毛片免费看| 国产精品一区二区在线不卡| 免费观看在线日韩| 在线亚洲精品国产二区图片欧美 | 国产精品99久久99久久久不卡 | 高清不卡的av网站| 午夜日本视频在线| 日本91视频免费播放| 青青草视频在线视频观看| 国产免费福利视频在线观看| 亚洲人成网站在线播| 久久久久人妻精品一区果冻| 成年美女黄网站色视频大全免费 | 免费大片黄手机在线观看| 97精品久久久久久久久久精品| 色吧在线观看| 看免费成人av毛片| 国产成人aa在线观看| 99久久中文字幕三级久久日本| 欧美日本中文国产一区发布| 51国产日韩欧美| 一本色道久久久久久精品综合| 黄色配什么色好看| 秋霞在线观看毛片| 精品午夜福利在线看| h日本视频在线播放| 久久精品久久久久久久性| 九色成人免费人妻av| .国产精品久久|