吳友政, 李浩然, 姚 霆, 何曉冬
(京東人工智能研究院,北京 100101)
人工智能研究經(jīng)過(guò)70多年的探索,在視覺(jué)、語(yǔ)音與聲學(xué)、語(yǔ)言理解與生成等單模態(tài)(1)模態(tài)是指信息的來(lái)源或者信息表示形式。文本、圖像、視頻、聲音和種類(lèi)繁多的傳感器信號(hào)都可以稱(chēng)為一種模態(tài)。人工智能領(lǐng)域已取得了巨大的突破。特別是視覺(jué)領(lǐng)域的目標(biāo)檢測(cè)與人臉識(shí)別技術(shù)、語(yǔ)音領(lǐng)域的語(yǔ)音識(shí)別與語(yǔ)音合成技術(shù)、自然語(yǔ)言處理領(lǐng)域的機(jī)器翻譯與人機(jī)對(duì)話(huà)技術(shù)在限定場(chǎng)景下已經(jīng)實(shí)現(xiàn)了規(guī)模化的應(yīng)用。然而,人類(lèi)對(duì)周?chē)h(huán)境的感知、對(duì)信息的獲取和對(duì)知識(shí)的學(xué)習(xí)與表達(dá)都是多模態(tài)(Multimodal)的。近些年,如何讓計(jì)算機(jī)擁有更接近人類(lèi)的理解和處理多模態(tài)信息的能力,進(jìn)而實(shí)現(xiàn)高魯棒性的推理決策成為熱點(diǎn)問(wèn)題,受到人工智能研究者的廣泛關(guān)注。另一方面,隨著圖文社交(Facebook、Twitter、微信、微博等)、短視頻(YouTube、抖音、快手)、音頻(Clubhouse等)、視頻會(huì)議(Zoom、騰訊會(huì)議等)、直播(抖音、京東、淘寶等)和數(shù)字人(2D、3D、卡通、寫(xiě)實(shí)、超寫(xiě)實(shí)等)等應(yīng)用的涌現(xiàn),對(duì)多模態(tài)信息處理技術(shù)在用戶(hù)理解、內(nèi)容理解和場(chǎng)景理解上提出了更高的要求,同時(shí)也給多模態(tài)技術(shù)提供了海量的數(shù)據(jù)和豐富的應(yīng)用場(chǎng)景。
多模態(tài)信息處理技術(shù)打破計(jì)算機(jī)視覺(jué)、語(yǔ)音與聲學(xué)、自然語(yǔ)言處理等學(xué)科間的壁壘,是典型的多學(xué)科交叉技術(shù)。多模態(tài)技術(shù)從20世紀(jì)70年代開(kāi)始發(fā)展,Morency等人[1]將多模態(tài)技術(shù)的發(fā)展劃分為四個(gè)階段,即1970-1980年的行為時(shí)代(Behavioral Era)、1980-2000年的計(jì)算時(shí)代(Computational Era)、2000-2010年的交互時(shí)代(Interaction Era)和2010年起的深度學(xué)習(xí)時(shí)代(Deep Learning Era)。多模態(tài)核心技術(shù)又分為: 多模態(tài)表示(Representation),多模態(tài)融合(Fusion)、多模態(tài)轉(zhuǎn)換(Translation)、多模態(tài)對(duì)齊(Alignment)和模態(tài)協(xié)同學(xué)習(xí)(Co-learning)類(lèi)。
近些年,研究者從不同的視角對(duì)多模態(tài)信息處理技術(shù)做了很好的總結(jié)回顧。Zhang等人[2]圍繞圖像描述、視覺(jué)-語(yǔ)言生成、視覺(jué)問(wèn)答和視覺(jué)推理四個(gè)應(yīng)用,從計(jì)算機(jī)視覺(jué)的角度總結(jié)了多模態(tài)表示學(xué)習(xí)和多模態(tài)融合的最新進(jìn)展。Summaira等人[3]的綜述覆蓋了更多的多模態(tài)應(yīng)用,并根據(jù)應(yīng)用組織了每一個(gè)多模態(tài)應(yīng)用的技術(shù)進(jìn)展和局限性。
本文從自然語(yǔ)言處理的視角出發(fā),介紹多模態(tài)信息處理技術(shù)的最新進(jìn)展,組織結(jié)構(gòu)如下: 第1節(jié)介紹NLP領(lǐng)域關(guān)注度較高的多模態(tài)應(yīng)用和相關(guān)的數(shù)據(jù)集。多模態(tài)融合是多模態(tài)信息處理的核心問(wèn)題。第2節(jié)從單模態(tài)信息的表示方法、多模態(tài)信息的融合階段、融合模型的網(wǎng)絡(luò)結(jié)構(gòu)、未對(duì)齊模態(tài)和模態(tài)缺失情況下的多模態(tài)融合等角度介紹主流的多模態(tài)融合方法。第3節(jié)介紹多模態(tài)預(yù)訓(xùn)練技術(shù),并從模型的網(wǎng)絡(luò)結(jié)構(gòu)、模型的輸入、預(yù)訓(xùn)練目標(biāo)、預(yù)訓(xùn)練語(yǔ)料和下游任務(wù)等維度對(duì)比最新提出的多模態(tài)預(yù)訓(xùn)練模型。第4節(jié)介紹多模態(tài)技術(shù)在工業(yè)界的應(yīng)用。最后一節(jié)是總結(jié)和對(duì)未來(lái)工作的展望。
我們分析了最近兩年在自然語(yǔ)言處理領(lǐng)域國(guó)際學(xué)術(shù)會(huì)議上(ACL、EMNLP、NAACL)發(fā)表的多模態(tài)信息處理的論文,并從應(yīng)用的角度對(duì)論文進(jìn)行了分類(lèi)。關(guān)注度較高的多模態(tài)應(yīng)用如圖1所示。本節(jié)將對(duì)這些應(yīng)用展開(kāi)介紹。除此之外,多模態(tài)應(yīng)用還包括視聽(tīng)語(yǔ)音識(shí)別(Audio-Visual Speech Recognition)、多模態(tài)語(yǔ)言分析(Multimodal LanguageAnalysis)和視覺(jué)輔助的句法分析[4]等。文獻(xiàn)[4]還獲得NAACL 2021的最佳長(zhǎng)文獎(jiǎng)。
圖1 多模態(tài)信息處理論文的分類(lèi)統(tǒng)計(jì)
情感是人類(lèi)區(qū)別于機(jī)器的一個(gè)重要維度,而人的情感往往又是通過(guò)語(yǔ)音、語(yǔ)言、手勢(shì)、動(dòng)作表情等多個(gè)模態(tài)表達(dá)的。在交互場(chǎng)景下,多模態(tài)情感識(shí)別研究如何從人的表情和動(dòng)作手勢(shì)、語(yǔ)音音調(diào)、語(yǔ)言等多模態(tài)信息中理解用戶(hù)細(xì)顆粒度的情感表達(dá),進(jìn)而指導(dǎo)人機(jī)交互策略。其主要研究?jī)?nèi)容有: ①基于多模態(tài)信息互補(bǔ)性和異步性的動(dòng)態(tài)融合; ②高噪聲環(huán)境下對(duì)于模態(tài)模糊或模態(tài)缺失問(wèn)題的魯棒性融合; ③客服和營(yíng)銷(xiāo)等自然交互情境下的情感識(shí)別等。
多模態(tài)情感識(shí)別的常用數(shù)據(jù)集有IEMOCAP[5]、CMU-MOSI[6]、CMU-MOSEI[7]、CH-SIMS[8]和IVD[9]等。數(shù)據(jù)集的多維度比較如表1所示。IEMOCAP數(shù)據(jù)集收錄了10位演員的表演數(shù)據(jù),包含視頻、語(yǔ)音、面部運(yùn)動(dòng)捕捉和文本模態(tài),并標(biāo)注了高興、悲傷、恐懼和驚訝等共9類(lèi)情感。CMU-MOSI數(shù)據(jù)集收錄了89位講述者的2 199條視頻片段,每段視頻標(biāo)注了7類(lèi)情感。CMU-MOSEI數(shù)據(jù)集是CMU-MOSI的擴(kuò)展版,收錄了1 000多名YouTube主播的3 228條視頻,包括23 453個(gè)句子,每個(gè)句子標(biāo)注了7分類(lèi)的情感濃度(高度負(fù)面、負(fù)面、弱負(fù)面、中性、弱正面、正面、高度正面)和6分類(lèi)的情緒(高興、悲傷、生氣、恐懼、厭惡、驚訝)。CH-SIMS數(shù)據(jù)集是一個(gè)中文多模態(tài)情感分析數(shù)據(jù)集,該數(shù)據(jù)集為2 281個(gè)視頻片段標(biāo)注了細(xì)顆粒度的情感標(biāo)簽。IVD是從中文語(yǔ)音助手的真實(shí)用戶(hù)對(duì)話(huà)日志中抽取的語(yǔ)音情感數(shù)據(jù)集,包括500 000條無(wú)標(biāo)注的語(yǔ)音數(shù)據(jù)和2 946條帶6分類(lèi)情感標(biāo)注的語(yǔ)音數(shù)據(jù)。
表1 常用多模態(tài)情感識(shí)別數(shù)據(jù)集對(duì)比
隨著圖文和短視頻等新興社交媒體的迅速發(fā)展,人們?cè)谏缃黄脚_(tái)上的表達(dá)方式也變得更加豐富。社交場(chǎng)景下的多模態(tài)情感識(shí)別主要研究基于圖文表達(dá)的情感傾向[10]和方面級(jí)的細(xì)顆粒度情感[11]等。
視覺(jué)(圖像或視頻)到語(yǔ)言的生成和語(yǔ)言到視覺(jué)(圖像或視頻)的生成打破了計(jì)算機(jī)視覺(jué)和自然語(yǔ)言處理兩個(gè)領(lǐng)域的邊界,成為多模態(tài)交叉學(xué)科中最熱門(mén)的研究課題。2021年初,OpenAI推出的基于GPT-3的語(yǔ)言到視覺(jué)的生成模型DALL-E(2)https: //openai.com/blog/dall-e/可以根據(jù)自然語(yǔ)言的描述生成逼真的圖像,產(chǎn)生了較大的反響。本節(jié)主要介紹視覺(jué)到語(yǔ)言生成的相關(guān)應(yīng)用。
1.2.1 圖像描述
圖像描述(Image Captioning)是對(duì)給定的一幅自然圖像生成一句自然語(yǔ)言描述的任務(wù)。2015年以前,圖像描述的主流方法是基于模板的方法。其基本思想是檢測(cè)圖像中的物體、動(dòng)作,并將這些詞作為主語(yǔ)、動(dòng)詞和賓語(yǔ)等填寫(xiě)到預(yù)定義的模板中。從2015年開(kāi)始,基于視覺(jué)編碼器(CNN等)和語(yǔ)言解碼器(RNN/LSTM等)的序列到序列(Sequence-to-Sequence,Seq2Seq)框架廣泛應(yīng)用于這一任務(wù)。通過(guò)從視覺(jué)圖像中解析出屬性(Attribute)、關(guān)系(Relation)和結(jié)構(gòu)(Hierarchy)等高層語(yǔ)義信息,并將這些語(yǔ)義信息融入視覺(jué)編碼和語(yǔ)言解碼中,提高了圖像描述的生成效果。
圖像描述任務(wù)的常用數(shù)據(jù)集有MSCOCO[12]、Conceptual Captions[13]、Flickr30K[14]、Visual Genome[15]和SBU Captions[16]。MSCOCO數(shù)據(jù)集是微軟發(fā)布的可用于目標(biāo)檢測(cè)(Object Detection)、人體姿勢(shì)識(shí)別(DensePose)、關(guān)鍵點(diǎn)檢測(cè)(Keypoint Detection)、實(shí)例分割(Stuff Segmentation)、全景分割(Panoptic Segmentation)、圖片標(biāo)注(Category Labelling)和圖像描述(Image Captioning)的數(shù)據(jù)集。該數(shù)據(jù)集有91類(lèi)物體(人、貓和卡車(chē)等),共計(jì)32.8萬(wàn)幅圖像,每幅圖像包含5個(gè)英文描述。Conceptual Captions數(shù)據(jù)集收錄了330萬(wàn)幅“圖像,描述”對(duì),是目前最大的多模態(tài)數(shù)據(jù)集,其中的圖像有自然圖像、產(chǎn)品圖像、專(zhuān)業(yè)照片、卡通和繪圖等類(lèi)型,描述取自HTML中的Alt-text屬性字段值。Flickr30K收錄了來(lái)自 Flickr的共計(jì) 31 783 幅日?;顒?dòng)、事件和場(chǎng)景的圖像,每幅圖像通過(guò)眾包方式標(biāo)注了5個(gè)圖像描述。Visual Genome是基于10.8萬(wàn)幅圖像的大規(guī)模多模態(tài)數(shù)據(jù)集,該數(shù)據(jù)集標(biāo)注了380萬(wàn)個(gè)對(duì)象、280萬(wàn)個(gè)屬性、230萬(wàn)個(gè)關(guān)系、170萬(wàn)個(gè)“圖像、問(wèn)題、答案”三元組和540萬(wàn)個(gè)區(qū)域描述。圖像中的對(duì)象、屬性、關(guān)系、區(qū)域描述和視覺(jué)問(wèn)答中的名詞與短語(yǔ)還被歸一化到相應(yīng)的WordNet同義詞集。
1.2.2 視頻描述
視頻描述(Video Captioning)是對(duì)給定的一段視頻(通常是幾十秒的短視頻)生成一句準(zhǔn)確、細(xì)致描述的任務(wù)。視頻除了圖像信息外,還包括時(shí)序和聲音等信息。視頻描述可提取的特征更多,技術(shù)挑戰(zhàn)也更大。
視頻描述任務(wù)的常用數(shù)據(jù)集有MSR-VTT[17]、ActivityNet-Captions[18]、YouCook2[19]和ACTIONS[20]等。MSR-VTT數(shù)據(jù)集由1萬(wàn)個(gè)網(wǎng)絡(luò)視頻剪輯、20萬(wàn)“視頻,描述”對(duì)組成。MSR-VTT數(shù)據(jù)集涵蓋了音樂(lè)、游戲、體育、教育等20多個(gè)類(lèi)別的視覺(jué)內(nèi)容,每個(gè)視頻剪輯時(shí)長(zhǎng)10~20秒,人工為每個(gè)視頻剪輯標(biāo)注了20個(gè)描述句子。YouCook2數(shù)據(jù)集是一個(gè)烹飪教學(xué)視頻數(shù)據(jù)集,包括89個(gè)食譜的2 000個(gè)未經(jīng)剪輯的教學(xué)視頻(最長(zhǎng)10分鐘,平均5分鐘)。ACTIONS是首個(gè)無(wú)需人工標(biāo)注、從數(shù)以?xún)|計(jì)的網(wǎng)頁(yè)內(nèi)容中自動(dòng)提煉“視頻,描述”對(duì)的視頻描述數(shù)據(jù)集,總共包含了163 183個(gè)GIF視頻。
1.2.3 視覺(jué)敘事
視覺(jué)敘事(Visual Storytelling)要求模型對(duì)于給定的圖像序列,在深度理解圖像序列的基礎(chǔ)上生成連貫的敘事故事。相比于圖像描述和視頻描述,視覺(jué)敘事更具挑戰(zhàn)性。在視覺(jué)理解上,視覺(jué)敘事的輸入是有時(shí)序關(guān)聯(lián)的圖像序列,需要模型具備根據(jù)歷史視覺(jué)事件推測(cè)當(dāng)前的視覺(jué)事件的能力。在語(yǔ)言生成上,對(duì)比圖像描述和視頻描述中的客觀(guān)文字描述,視覺(jué)敘事的輸出由更多評(píng)價(jià)性、會(huì)話(huà)性和抽象性語(yǔ)言組成。SIND[21]是一個(gè)視覺(jué)敘事數(shù)據(jù)集,該數(shù)據(jù)集收集了81 743幅圖片,以及排列成符合文字描述和故事情節(jié)的20 211個(gè)序列。
1.3.1 視覺(jué)問(wèn)答
視覺(jué)問(wèn)答(Visual Question Answering, VQA)[22-27]是2015年新提出的任務(wù),簡(jiǎn)單來(lái)說(shuō)就是圖像問(wèn)答。給定一幅圖像和一個(gè)關(guān)于該圖像的開(kāi)放式自然語(yǔ)言問(wèn)題,要求模型準(zhǔn)確回答該問(wèn)題。視覺(jué)問(wèn)答是一個(gè)典型的多模態(tài)問(wèn)題,需要模型具備物體定位、屬性檢測(cè)、事件分類(lèi)、場(chǎng)景理解和推理及數(shù)學(xué)計(jì)算等能力。根據(jù)圖片類(lèi)型的不同,VQA又分為自然圖像理解VQA[22-23]、合成圖像推理VQA[24]和自然圖像推理VQA[25]。表2列舉了這3種VQA的示例。
表2 三類(lèi)視覺(jué)問(wèn)答的示例
VQA常用數(shù)據(jù)集有VQAv1/v2[22-23]、CLEVR[24]和GQA[25]。VQAv1/v2是自然圖像理解VQA數(shù)據(jù)集,VQAv2解決了VQAv1中明顯的語(yǔ)言先驗(yàn)(Language Priors)問(wèn)題。CLEVR[24]是合成圖像推理問(wèn)答數(shù)據(jù)集。CLEVER中的圖像由簡(jiǎn)單的幾何形狀的物體組成,旨在測(cè)試模型對(duì)組合式語(yǔ)言的理解能力和對(duì)視覺(jué)場(chǎng)景的推理能力。CLEVR數(shù)據(jù)集中的圖像是程序合成的,其場(chǎng)景的復(fù)雜度與自然場(chǎng)景相去甚遠(yuǎn)。對(duì)此,Hudson等人[25]發(fā)布了基于自然圖像的組合式問(wèn)題視覺(jué)問(wèn)答數(shù)據(jù)集GQA,該數(shù)據(jù)集包括關(guān)于11.3萬(wàn)幅圖像的超過(guò)2 000萬(wàn)的問(wèn)題。每幅圖像都標(biāo)注了一個(gè)場(chǎng)景圖(Scene Graph),表示圖像中的對(duì)象、屬性和關(guān)系。每個(gè)問(wèn)題都對(duì)應(yīng)一個(gè)功能性程序(Functional Program),列出了獲得答案所需執(zhí)行的一系列推理步驟。每個(gè)答案都有與之對(duì)應(yīng)的驗(yàn)證信息,指向圖片中的相關(guān)區(qū)域。
1.3.2 視覺(jué)對(duì)話(huà)
視覺(jué)對(duì)話(huà)(Visual Dialog)[28-32]是給定一幅圖像(或視頻等視覺(jué)內(nèi)容)和一個(gè)上下文相關(guān)的問(wèn)題,要求模型根據(jù)圖片(或視頻)內(nèi)容回答該問(wèn)題。與視覺(jué)問(wèn)答相比,視覺(jué)對(duì)話(huà)還要解決對(duì)話(huà)中特有的挑戰(zhàn),如共指(Co-references)和省略(Ellipsis)等。視覺(jué)對(duì)話(huà)也被認(rèn)為是視覺(jué)圖靈測(cè)試。視覺(jué)對(duì)話(huà)常用數(shù)據(jù)集有VisDial[28]、IGC[29]、GuessWhat[30]、Image-Chat[31]和AVSD[32]。VisDial中的問(wèn)題和答案都是形式自由的。GuessWhat是通過(guò)一系列“是/否”問(wèn)題發(fā)現(xiàn)圖像中的物體。IGC是一個(gè)閑聊型的視覺(jué)對(duì)話(huà)數(shù)據(jù)集,但閑聊的話(huà)題受限于給定的圖像。Image-Chat也是一個(gè)閑聊型視覺(jué)對(duì)話(huà)數(shù)據(jù)集。與IGC不同的是,Image-Chat數(shù)據(jù)集還限定了對(duì)話(huà)參與者A和B的風(fēng)格特征。AVSD定義了一個(gè)視聽(tīng)場(chǎng)景的多輪對(duì)話(huà)任務(wù),要求機(jī)器在理解問(wèn)題、對(duì)話(huà)歷史和視頻中的場(chǎng)景等語(yǔ)義信息的基礎(chǔ)上回答用戶(hù)問(wèn)題。
視覺(jué)對(duì)話(huà)中的用戶(hù)問(wèn)題只與單個(gè)圖像(視頻)相關(guān),且用戶(hù)問(wèn)題和模型回答都是文字的。
1.3.3 多模態(tài)對(duì)話(huà)
多模態(tài)對(duì)話(huà)(Multimodal Dialog)關(guān)注更接近人類(lèi)自然對(duì)話(huà)的多模態(tài)人機(jī)對(duì)話(huà)技術(shù)的研究。它與上一節(jié)介紹的視覺(jué)對(duì)話(huà)的主要差異有: ①多模態(tài)對(duì)話(huà)給定的輸入圖像可能是多幅的; ②隨著對(duì)話(huà)的推進(jìn),圖像是不斷更新的; ③用戶(hù)問(wèn)題和模型的回答可以是文本的、圖像的或者圖文結(jié)合的; ④模型可能需要查詢(xún)外部領(lǐng)域知識(shí)庫(kù)才能回答用戶(hù)的問(wèn)題(如購(gòu)物者希望看到更多與特定商品相似的商品,或者要求提供滿(mǎn)足某些特征的商品,或者查詢(xún)特定商品的屬性等); ⑤模型可能需要通過(guò)反問(wèn)等對(duì)話(huà)策略澄清用戶(hù)需求。零售和旅游等限定領(lǐng)域的多模態(tài)對(duì)話(huà)最近受到了越來(lái)越多的關(guān)注。
常用的面向購(gòu)物場(chǎng)景的多模態(tài)對(duì)話(huà)數(shù)據(jù)集有MMD[33]、SIMMC[34]和JDDC[35]。MMD是在服飾專(zhuān)家的指導(dǎo)下通過(guò)模擬扮演(Wizard-of-Oz,WoZ)的方式收集的時(shí)尚購(gòu)物場(chǎng)景的數(shù)據(jù)集。SIMMC 2.0是時(shí)尚和家具購(gòu)物場(chǎng)景的數(shù)據(jù)集。其中,時(shí)尚和家具雜亂的購(gòu)物場(chǎng)景是通過(guò)逼真的VR場(chǎng)景生成器(VR Scene Generator)生成的。與MMD和SIMMC不同,JDDC 2.0是從電商平臺(tái)客服和消費(fèi)者之間的真實(shí)對(duì)話(huà)數(shù)據(jù)中采樣的(圖2)。JDDC 2.0包括多模態(tài)對(duì)話(huà)24.6萬(wàn),其中,圖片50.7萬(wàn)張,平均對(duì)話(huà) 輪 數(shù)14輪。 此 外,JDDC 2.0 還 提 供 了 30 205個(gè)商品的759種商品屬性關(guān)系,共計(jì)21.9萬(wàn)的<商品ID、屬性、屬性值>三元組。
圖2 JDDC 2.0中的多模態(tài)對(duì)話(huà)示例圖片引自文獻(xiàn)[35]
視覺(jué)對(duì)話(huà)和多模態(tài)對(duì)話(huà)常用數(shù)據(jù)集的詳細(xì)對(duì)比如表3所示。
表3 視覺(jué)對(duì)話(huà)和多模態(tài)對(duì)話(huà)常用數(shù)據(jù)集的對(duì)比表
多模態(tài)摘要是基于對(duì)多模態(tài)輸入(文本、語(yǔ)音、圖像和視頻等)的理解,歸納并生成單模態(tài)或者多模態(tài)的概括性總結(jié)(摘要)的任務(wù)。根據(jù)具體任務(wù)類(lèi)型,多模態(tài)摘要又可細(xì)分為視頻會(huì)議摘要[36]、教學(xué)視頻摘要[37]、多模態(tài)新聞?wù)猍38-42]和多模態(tài)商品摘要[43]。
視頻會(huì)議摘要方面,Li等人[36]提出了一個(gè)從音視頻會(huì)議輸入中提取會(huì)議文本摘要的方法,并在AMI數(shù)據(jù)集上驗(yàn)證了方法的有效性。AMI數(shù)據(jù)集[44]包含137場(chǎng)視頻會(huì)議。每場(chǎng)會(huì)議持續(xù)30分鐘,包含4名參與者和約300字的文本摘要。
教學(xué)視頻摘要方面,Palaskar等人[37]提出一種融合視覺(jué)信息和文本信息(用戶(hù)生成的和語(yǔ)音識(shí)別系統(tǒng)輸出的)的生成式文本摘要方法,同時(shí)在開(kāi)放域教學(xué)視頻數(shù)據(jù)集How2[45]上驗(yàn)證了方法的有效性。
多模態(tài)新聞?wù)矫?,Li等人[38]提出一種從異步的多模態(tài)(文本、圖像、音頻和視頻)輸入中抽取文本摘要的方法,并發(fā)布了中文和英文數(shù)據(jù)集MMS。Li等人[39]提出一種為“文本,圖像”對(duì)生成多模態(tài)摘要的模型,同時(shí)發(fā)布了英文數(shù)據(jù)集MMSS。Zhu等人[41]提出了一種從異步的多模態(tài)(文本和多張圖像)輸入中生成多模態(tài)(一段短文和一張圖片)摘要的方法,同時(shí)發(fā)布了英文數(shù)據(jù)集MSMO。
多模態(tài)商品摘要方面,Li等人[43]提出了一種從異構(gòu)的多模態(tài)輸入(文本、圖像、商品屬性表)中生成商品摘要的方法,同時(shí)發(fā)布了數(shù)據(jù)集CEPSUM(3)http://jd-nlg-rhino.github.io/。CEPSUM數(shù)據(jù)集由140萬(wàn)“商品文本介紹,商品圖片,文本摘要”三元組組成,涉及3個(gè)商品大類(lèi)。
多模態(tài)對(duì)齊研究多個(gè)模態(tài)不同顆粒度元素間的對(duì)齊關(guān)系,具體又分為顯式對(duì)齊和隱式對(duì)齊。視覺(jué)-語(yǔ)言跨模態(tài)的顯式對(duì)齊任務(wù)研究圖像和句子[46-47]、圖像和詞[48]、圖像中的目標(biāo)和句子中的短語(yǔ)[49-50]間的對(duì)齊關(guān)系。多模態(tài)對(duì)齊方法可直接應(yīng)用于多模態(tài)檢索等應(yīng)用,也可作為圖像描述、VQA、多模態(tài)預(yù)訓(xùn)練的訓(xùn)練語(yǔ)料,尤其是在缺乏大規(guī)模多模態(tài)人工標(biāo)注語(yǔ)料的場(chǎng)景。
圖像和句子(或文檔內(nèi)其他文本單元)間的顯式對(duì)齊通常是不存在的。對(duì)此,Hessel等人[46]提出了一種將同一網(wǎng)頁(yè)內(nèi)的圖像和句子對(duì)齊的無(wú)監(jiān)督方法。該方法在7個(gè)難度不同的數(shù)據(jù)集上獲得了不錯(cuò)的性能。Suhr等人[47]定義了一個(gè)視覺(jué)推理任務(wù)NLVR2,對(duì)于給定的兩幅圖像和一段自然語(yǔ)言的描述,要求模型判斷它們是否存在語(yǔ)義上的對(duì)齊關(guān)系。
文本預(yù)訓(xùn)練語(yǔ)言模型已經(jīng)取得了巨大的成功,但該方法僅使用文本上下文信息作為監(jiān)督信號(hào),導(dǎo)致詞的上下文表示學(xué)習(xí)嚴(yán)重依賴(lài)詞的共現(xiàn)關(guān)系(Co-occurrence),缺乏外部物理世界的背景知識(shí)。為了給預(yù)訓(xùn)練語(yǔ)言模型提供視覺(jué)監(jiān)督信號(hào),Tan等人[48]提出了Vokenization技術(shù)(圖3),其通過(guò)給文本中的每一個(gè)詞打上一幅圖像的標(biāo)簽,實(shí)現(xiàn)在大規(guī)模文本語(yǔ)料上自動(dòng)構(gòu)建多模態(tài)對(duì)齊語(yǔ)料庫(kù)。在大規(guī)模圖像-詞匯對(duì)齊的多模態(tài)語(yǔ)料庫(kù)上訓(xùn)練的預(yù)訓(xùn)練語(yǔ)言模型可增強(qiáng)其對(duì)自然語(yǔ)言的理解能力。實(shí)驗(yàn)證明,該模型在多個(gè)純文本的任務(wù)上(如GLUE、SQuAD和SWAG等)均獲得了顯著的性能提高。
圖3 Vokenization技術(shù)示例圖片引自文獻(xiàn)[48]
圖像中的目標(biāo)和文本中的短語(yǔ)對(duì)齊也被稱(chēng)為圖像短語(yǔ)定位(Phrase Grounding),可用于提高圖像描述、VQA、視覺(jué)導(dǎo)航等視覺(jué)-語(yǔ)言下游任務(wù)的性能。Plummer等人[49]發(fā)布了一個(gè)大規(guī)模的短語(yǔ)定位數(shù)據(jù)集Flickr30k Entities,如圖4所示。Wang等人[50]提出了一種基于細(xì)粒度視覺(jué)和文本表示的多模態(tài)對(duì)齊框架,在Flickr30k Entities數(shù)據(jù)集上顯著提高了短語(yǔ)定位的性能。
圖4 Flickr30k Entities標(biāo)注示例對(duì)齊的圖像中的目標(biāo)和文本中的短語(yǔ)用相同的顏色標(biāo)記。圖片引自文獻(xiàn)[49]
視頻定位(Video Grounding)[51]是多模態(tài)對(duì)齊中另一項(xiàng)重要且具有挑戰(zhàn)性的任務(wù)。給定一個(gè)查詢(xún)(Query),它要求模型從視頻中定位出與查詢(xún)語(yǔ)言對(duì)應(yīng)的一個(gè)目標(biāo)視頻片段。該技術(shù)可應(yīng)用于視頻理解、視頻檢索和人機(jī)交互等場(chǎng)景。常用數(shù)據(jù)集有Charades-STA[52]、ActivityNet-Captions[53]和TACoS[54]。Charades-STA數(shù)據(jù)集是基于Charades數(shù)據(jù)集[55]構(gòu)建的,包括6 672個(gè)視頻和16 128個(gè)“查詢(xún),視頻片段”對(duì)。ActivityNet-Captions數(shù)據(jù)集包含兩萬(wàn)個(gè)視頻和10萬(wàn)個(gè)“查詢(xún),視頻片段”對(duì),其覆蓋的視頻類(lèi)型更多樣。TACoS數(shù)據(jù)集包含127個(gè)烹飪視頻和18 818個(gè)“查詢(xún),視頻片段”。
多模態(tài)翻譯是將多模態(tài)輸入(文本、圖像或視頻等)中的源語(yǔ)言文本轉(zhuǎn)換為目標(biāo)語(yǔ)言文本的過(guò)程。多模態(tài)翻譯的目標(biāo)是在視覺(jué)等多模態(tài)信息的輔助下,消除語(yǔ)言的歧義,提高傳統(tǒng)文本機(jī)器翻譯系統(tǒng)的性能。
Elliott等人[56]于2015年首次提出多模態(tài)翻譯任務(wù)。隨后,在2016年舉辦的第一屆機(jī)器翻譯會(huì)議上成功組織了第一屆多模態(tài)機(jī)器翻譯比賽,并于接下來(lái)的兩年連續(xù)舉辦了兩屆比賽,引發(fā)了研究者們對(duì)多模態(tài)機(jī)器翻譯的關(guān)注熱潮。目前的工作主要集中在Multi30k數(shù)據(jù)集[57]上。該數(shù)據(jù)集是英語(yǔ)圖像描述數(shù)據(jù)集Flickr30k[14]的多語(yǔ)言擴(kuò)展,每幅圖像配有一個(gè)英語(yǔ)描述和一個(gè)德語(yǔ)描述,任務(wù)定義為給定圖像和英語(yǔ)描述,生成德語(yǔ)描述。
模型方面,Huang等人[58]首先從圖像中提取視覺(jué)全局表示(參見(jiàn)2.1.1節(jié)的介紹)和視覺(jué)目標(biāo)表示(參見(jiàn)2.1.3節(jié)的介紹),提取的視覺(jué)表示被視為源語(yǔ)言中特殊的單詞與文本拼接,再融入編碼器-解碼器神經(jīng)網(wǎng)絡(luò)翻譯模型中的編碼器中。在Calixto等人[59]提出的模型中,視覺(jué)特征被視為源語(yǔ)言中特殊的單詞,或者融入編碼器中,或者融入解碼器中。Calixto等人的模型顯著提高了模型的翻譯效果。文獻(xiàn)[58-59]中的模型依賴(lài)大量的多模態(tài)翻譯對(duì)齊語(yǔ)料(源語(yǔ)言、圖像、目標(biāo)語(yǔ)言)。對(duì)此,Elliott等人[60]將多模態(tài)機(jī)器翻譯分解為兩個(gè)子任務(wù): 文本翻譯和基于視覺(jué)的文本表示(Visually Grounded Representations)。該模型不依賴(lài)昂貴的(源語(yǔ)言、圖像、目標(biāo)語(yǔ)言)對(duì)齊語(yǔ)料。模型可以分別在文本翻譯語(yǔ)料(源語(yǔ)言,目標(biāo)語(yǔ)言)和圖像描述(圖像,源語(yǔ)言)語(yǔ)料上訓(xùn)練。受文獻(xiàn)[60]的啟發(fā),Zhou等人[61]提出了一種機(jī)器翻譯任務(wù)和視覺(jué)-文本共享空間(Vision-Text Shared Space)表示學(xué)習(xí)任務(wù)相結(jié)合的多任務(wù)多模態(tài)機(jī)器翻譯框架(VAG-NMT)。VAG-NMT首先把文獻(xiàn)[60]中的基于視覺(jué)的文本表示(即從文本表示重建圖像)修改為視覺(jué)-文本共享空間表示學(xué)習(xí)。其次,VAG-NMT還提出了一種視覺(jué)文本注意機(jī)制,可以捕獲與圖像語(yǔ)義強(qiáng)相關(guān)的源語(yǔ)言中單詞。多模態(tài)機(jī)器翻譯中的視覺(jué)信息只在非常特殊的情況下(如文本上下文不足以消除歧義詞的歧義)對(duì)翻譯模型有幫助。對(duì)此,Ive等人[62]提出了一種翻譯-優(yōu)化(Translate-and-refine)的兩段式翻譯方法。該方法先翻譯源語(yǔ)言中的文本,再使用視覺(jué)目標(biāo)表示對(duì)第一階段的翻譯文本進(jìn)行調(diào)整。大多數(shù)的多模態(tài)機(jī)器翻譯模型沒(méi)有考慮不同模態(tài)的相對(duì)重要性,但同等對(duì)待文本和視覺(jué)信息可能會(huì)引入一些不必要的噪聲。Yao等人[63]基于Transformer,提出了一種多模態(tài)自注意機(jī)制,探索了如何消除視覺(jué)特征中的噪音信號(hào)。一方面,單層多模態(tài)注意力模型難以有效提取視覺(jué)上下文信息,另一方面,多層多模態(tài)注意力模型容易導(dǎo)致過(guò)擬合,尤其是對(duì)訓(xùn)練數(shù)據(jù)少的多模態(tài)翻譯。對(duì)此,Lin等人[64]提出一種基于動(dòng)態(tài)上下文指導(dǎo)的膠囊網(wǎng)絡(luò)(Dynamic Context-guided Capsule Network,DCCN)提取和利用兩種不同顆粒度(視覺(jué)全局表示和視覺(jué)區(qū)域表示)的視覺(jué)信息。也有研究者對(duì)多模態(tài)翻譯的可解釋性進(jìn)行了探索。Wu等人[65]的研究表明,視覺(jué)特征對(duì)多模態(tài)翻譯的幫助來(lái)自于正則化,視覺(jué)特征的合理選取對(duì)模型性能至關(guān)重要。
命名實(shí)體識(shí)別(NER)是指識(shí)別自由文本中的具體特定意義的實(shí)體(如人名、地名和組織機(jī)構(gòu)名等)。命名實(shí)體識(shí)別雖然取得了較大的成功,但對(duì)于社交媒體中大量的用戶(hù)生成內(nèi)容(User-Generated Content,UGC),僅根據(jù)文本模態(tài)的信息來(lái)定位和分類(lèi)其中的實(shí)體仍然存在一些挑戰(zhàn)。多模態(tài)命名實(shí)體識(shí)別(MNER)通過(guò)引入視覺(jué)、語(yǔ)音等其他模態(tài)作為文本模態(tài)的補(bǔ)充,識(shí)別社交媒體中高噪聲短文本中的實(shí)體,最近幾年受到了比較多的關(guān)注。
模型方面,Moon等人[66]首次提出了融合圖像和文本模態(tài)信息的通用多模態(tài)注意力模型。文獻(xiàn)[66]還發(fā)布了SnapCaptions數(shù)據(jù)集,該數(shù)據(jù)集由1萬(wàn)張“圖像,短文本標(biāo)題”對(duì)構(gòu)成,并標(biāo)注了短文本標(biāo)題中的四類(lèi)命名實(shí)體(實(shí)體類(lèi)型: PER、LOC、ORG、MISC)。一方面,文獻(xiàn)[66]中的方法提取的是圖像的視覺(jué)全局表示,這可能把圖像中的噪聲信息也引入到模型中。另一方面,視覺(jué)和文本模態(tài)的特征融合較簡(jiǎn)單。對(duì)此,Zhang等人[67]提出了一種自適應(yīng)的協(xié)同注意力網(wǎng)絡(luò)(Adaptive Co-attention Network,ACN)。ACN首先提取圖像的視覺(jué)區(qū)域表示(參見(jiàn)2.1.2節(jié)的介紹),再通過(guò)文本到視覺(jué)和視覺(jué)到文本的協(xié)同注意力剔除圖像中的噪聲信息,以提高M(jìn)NER的性能。文獻(xiàn)[67]在內(nèi)部數(shù)據(jù)集上驗(yàn)證了該方法的有效性。基于類(lèi)似的出發(fā)點(diǎn),Lu等人[68]提出了一種注意力機(jī)制與門(mén)控機(jī)制相結(jié)合的模型提取視覺(jué)圖像中與文本最相關(guān)的區(qū)域的特征。該模型可忽略不相關(guān)的視覺(jué)信息。文獻(xiàn)[68]基于注意力機(jī)制獲取了單詞感知(word-aware)的視覺(jué)表示,卻忽略了圖像感知(image-aware)的單詞表示。對(duì)此,Yu等人[69]首次將Transformer應(yīng)用于多模態(tài)NER任務(wù)中,并提出了實(shí)體片段檢測(cè)輔助任務(wù),進(jìn)一步消除視覺(jué)偏差,提升了模型效果。
Sui等人[70]提出了融合語(yǔ)音和文本信息的多模態(tài)NER,并在自建的中文數(shù)據(jù)集CNERTA上驗(yàn)證了方法的有效性。
多模態(tài)信息抽取領(lǐng)域中另一個(gè)受到較多關(guān)注的研究方向是多模態(tài)商品屬性抽取。多模態(tài)商品屬性抽取是指從給定商品文本描述和商品圖片中抽取商品的屬性信息,例如商品的“顏色”“材料”等屬性值。為了推動(dòng)多模態(tài)商品屬性抽取的研究,IV等人[71]發(fā)布了首個(gè)大規(guī)模多模態(tài)屬性提取英文數(shù)據(jù)集MAE。MAE包含400萬(wàn)圖片和760萬(wàn)“屬性-屬性值”對(duì)。文獻(xiàn)[71]提出的多模態(tài)屬性抽取模型需要對(duì)每一個(gè)屬性識(shí)別其對(duì)應(yīng)的屬性值,且無(wú)法濾除視覺(jué)噪聲。為了提高模型的效率,Zhu等人[72]將屬性預(yù)測(cè)和屬性值抽取建模為一個(gè)層疊化的多任務(wù)學(xué)習(xí)過(guò)程,實(shí)現(xiàn)了多個(gè)屬性及其對(duì)應(yīng)屬性值的一次性識(shí)別,且視覺(jué)全局表示和視覺(jué)區(qū)域表示通過(guò)門(mén)控機(jī)制和文本信息融合,可有效過(guò)濾視覺(jué)噪聲。Zhu等人還發(fā)布了一個(gè)包含9萬(wàn)“屬性-屬性值”對(duì)的多模態(tài)商品屬性抽取中文數(shù)據(jù)集MEPAVE。
多模態(tài)融合將多個(gè)單模態(tài)表征整合成為一個(gè)多模態(tài)信息表征,它是多模態(tài)信息處理的核心問(wèn)題。多模態(tài)融合的示例如圖5所示,其中,Ni{i=1,…K}表示單模態(tài)表示學(xué)習(xí)模型的模型深度,M表示K個(gè)多模態(tài)表示的融合模型深度。多模態(tài)融合的研究方向有: 基于多模態(tài)互補(bǔ)性的全模態(tài)融合問(wèn)題、模態(tài)模糊或者模態(tài)缺失下的魯棒性融合問(wèn)題、非對(duì)齊的多模態(tài)融合問(wèn)題等。目前,大部分工作是關(guān)于模態(tài)對(duì)齊且無(wú)模態(tài)缺失情況下的多模態(tài)融合算法研究,這也是多模態(tài)融合中最基礎(chǔ)的挑戰(zhàn)。本節(jié)根據(jù)單模態(tài)的特征表示、多模態(tài)融合的階段、多模態(tài)融合的模型結(jié)構(gòu)等對(duì)多模態(tài)融合方法進(jìn)行分類(lèi)介紹。
圖5 多模態(tài)融合示例
單模態(tài)的特征表示是多模態(tài)融合的基石。這一類(lèi)方法重點(diǎn)研究如何在多模態(tài)融合之前提取更好的單模態(tài)特征表示。以視覺(jué)-語(yǔ)言-音頻多模態(tài)應(yīng)用為例,如何從視覺(jué)內(nèi)容中解析出高層語(yǔ)義信息以增強(qiáng)視覺(jué)特征表達(dá)是這一類(lèi)方法的主要研究?jī)?nèi)容。例如,從視覺(jué)內(nèi)容中識(shí)別目標(biāo)(Object)、屬性(Attribute)、動(dòng)作(Action)、關(guān)系(Relation)、場(chǎng)景圖(Scene Graph)[73-75]和樹(shù)形語(yǔ)義結(jié)構(gòu)(Hierarchy)[76]等,進(jìn)而實(shí)現(xiàn)對(duì)視覺(jué)內(nèi)容的全局(Global)、區(qū)域(Regional)、目標(biāo)(Object)和關(guān)系(Relation)等顆粒度的視覺(jué)語(yǔ)義建模。語(yǔ)言表示通常使用詞的獨(dú)熱編碼表示、詞的上下文表示(Contextual Representation)[77-78]、句子表示[79-80]、句法依存關(guān)系(Syntactic Dependency)表示[81]、場(chǎng)景圖表示[82]等。音頻表示可使用基于COVAREP[83]提取底層聲學(xué)特征表示[85]、基于預(yù)訓(xùn)練模型wav2vec[84]提取低維特征向量表示[85]等。本節(jié)側(cè)重介紹多模態(tài)融合中的視覺(jué)特征表示方法。
2.1.1 視覺(jué)全局表示
視覺(jué)全局表示(Global Representation)是從圖像編碼器的高層網(wǎng)絡(luò)提取一個(gè)D維靜態(tài)向量v表示一幅圖像。相關(guān)工作[43,72]通常使用預(yù)訓(xùn)練的ResNet[86]對(duì)圖像編碼,再提取ResNet的最后一個(gè)池化層作為視覺(jué)全局表示(ResNet152池化層輸出是1×2 048維向量,即D=2 048)。視覺(jué)全局表示可用來(lái)初始化多模態(tài)自動(dòng)摘要模型的解碼器[43],或作為一個(gè)特殊的字符與文本字符拼接,再用遞歸神經(jīng)網(wǎng)絡(luò)對(duì)拼接的字符序列編碼[58],或通過(guò)注意力機(jī)制學(xué)習(xí)與其他模態(tài)特征的聯(lián)合表示[72]等。由于視覺(jué)全局表示將圖像信息壓縮到一個(gè)靜態(tài)的向量中,這可能會(huì)導(dǎo)致大量圖像細(xì)節(jié)信息的丟失。
2.1.2 視覺(jué)區(qū)域表示
視覺(jué)區(qū)域表示(Regional Representation)是從圖像編碼器的高層網(wǎng)絡(luò)中提取一組D維向量表示一幅圖像。每個(gè)D維向量表示圖像中特定的大小相同的區(qū)域[87]。具體的,預(yù)訓(xùn)練ResNet先編碼輸入的圖像,再提取Conv5_x層的輸出作為視覺(jué)區(qū)域表示v={v1,…,vK}(ResNet152的Conv5_x層輸出是7×7×2 048的張量,即K=49,vi的維度是2048)。視覺(jué)區(qū)域表示與注意力機(jī)制相結(jié)合,通過(guò)在每一步解碼過(guò)程中關(guān)注不同的圖像區(qū)域可生成內(nèi)容豐富的圖像描述[87]。視覺(jué)區(qū)域表示實(shí)現(xiàn)了圖像的細(xì)顆粒度表示,但是每個(gè)特征的感受野大小和形狀相同,同一個(gè)目標(biāo)(Object)可能被切分到多個(gè)區(qū)域中,它無(wú)法表達(dá)視覺(jué)上完整的語(yǔ)義信息。
2.1.3 視覺(jué)目標(biāo)表示
視覺(jué)目標(biāo)表示(Object Representation)也是用一組D維向量表示一幅圖像,但每個(gè)D維向量表示圖像中的一個(gè)目標(biāo)(Object)。具體的,預(yù)訓(xùn)練Faster R-CNN[88]通常被用來(lái)檢測(cè)目標(biāo)所在的區(qū)域,再使用目標(biāo)所在區(qū)域的視覺(jué)特征和邊界框(Bounding-box)特征作為該視覺(jué)目標(biāo)表示[79,81,89-90]。視覺(jué)目標(biāo)表示與注意力機(jī)制等多模態(tài)融合方法相結(jié)合,可進(jìn)一步提高視覺(jué)-語(yǔ)言任務(wù)的性能。例如,受人類(lèi)視覺(jué)系統(tǒng)的啟發(fā),Anderson等人[78]首次提出了一種“自底向上”和“自頂向下”相結(jié)合的注意力機(jī)制(BUTD)。BUTD在2017年CVPR視覺(jué)問(wèn)答比賽中獲得冠軍。視覺(jué)目標(biāo)表示通過(guò)目標(biāo)定位與分類(lèi)實(shí)現(xiàn)視覺(jué)圖像的淺層語(yǔ)義理解,但它無(wú)法刻畫(huà)圖像中多個(gè)目標(biāo)間的語(yǔ)義關(guān)系。
2.1.4 視覺(jué)場(chǎng)景圖表示
視覺(jué)場(chǎng)景圖表示(Scene Graph Representation)是用場(chǎng)景圖G=(V,R)表示一幅圖像。場(chǎng)景圖中的節(jié)點(diǎn)V={v1,…,vK}是圖像中的目標(biāo)集合,關(guān)系R={r1,…,rR}是圖像中目標(biāo)和目標(biāo)間的顯式語(yǔ)義關(guān)系(如Wearing、Eating)、空間位置關(guān)系(如Cover、Intersect、In)和隱式語(yǔ)義關(guān)系的集合,如圖6所示。視覺(jué)場(chǎng)景圖表示可實(shí)現(xiàn)模型對(duì)視覺(jué)內(nèi)容的深度理解。Yao等人[75]提出了基于GCN-LSTM的網(wǎng)絡(luò)結(jié)構(gòu),將視覺(jué)場(chǎng)景圖中的顯式語(yǔ)義關(guān)系和空間位置關(guān)系集成到圖像編碼器中。GCN-LSTM網(wǎng)絡(luò)顯著提高了圖像描述任務(wù)的性能。Li等人[79]提出了一種關(guān)系感知的圖注意力網(wǎng)絡(luò)(ReGAT),它通過(guò)圖注意力機(jī)制對(duì)圖像目標(biāo)間的顯示關(guān)系(語(yǔ)義關(guān)系和空間關(guān)系)和隱式關(guān)系進(jìn)行建模,學(xué)習(xí)問(wèn)題自適應(yīng)的多模態(tài)聯(lián)合表示,ReGAT可提高VQA的性能。文獻(xiàn)[75、79]使用Faster R-CNN識(shí)別圖像中目標(biāo),并提取目標(biāo)的視覺(jué)特征表示vi。
圖6 視覺(jué)場(chǎng)景圖表示
除了場(chǎng)景圖表示,Yao等人[76]把視覺(jué)內(nèi)容解析成一個(gè)樹(shù)狀結(jié)構(gòu),其根節(jié)點(diǎn)是整個(gè)圖像,中間節(jié)點(diǎn)為一組圖像物體,葉子節(jié)點(diǎn)則是在圖像目標(biāo)的基礎(chǔ)上應(yīng)用圖像分割技術(shù)得到的圖像Instance級(jí)的區(qū)域。
根據(jù)多模態(tài)融合的階段,多模態(tài)融合方法可分為早期融合[79-82,90]、中期融合[91]和晚期融合[92]。早期融合的特點(diǎn)是單模態(tài)表示學(xué)習(xí)簡(jiǎn)單,而多模態(tài)融合部分的模型深度大,融合策略復(fù)雜。例如,詞的獨(dú)熱編碼表示和視覺(jué)區(qū)域表示直接參與多模態(tài)融合[93]。晚期融合的特點(diǎn)是單模態(tài)表示學(xué)習(xí)模型復(fù)雜,多模態(tài)融合一般采用拼接、按位乘/求平均等簡(jiǎn)單策略[92]。由于晚期融合抑制了模態(tài)之間的交互,目前大部分基于深度學(xué)習(xí)的模型均使用早期或者中期融合。在第3節(jié)介紹的多模態(tài)預(yù)訓(xùn)練模型中,基于單流架構(gòu)(Single-Stream)的預(yù)訓(xùn)練模型把融合操作放在早期階段,如VideoBERT[94]、Unicoder-VL[95]、Oscar[96]、VL-BERT[97]和M3P[98]等?;陔p流架構(gòu)(Two-Stream)的預(yù)訓(xùn)練模型則把融合操作放置在深層模型的中期階段的多個(gè)層中,如ERNIE-ViL[82]、LXMERT[91]、ActBERT[99]和ViLBERT[100]等。
Alberti 等人[90]通過(guò)實(shí)驗(yàn)證明在視覺(jué)常識(shí)推理(Visual Commonsense Reasoning,VCR)應(yīng)用中,語(yǔ)言與視覺(jué)的早期融合是獲得高準(zhǔn)確率的關(guān)鍵。Shrestha等人[80]也通過(guò)實(shí)驗(yàn)發(fā)現(xiàn)早期融合對(duì)他們提出的模型RAMEN至關(guān)重要,因?yàn)槿サ粼缙谌诤蠒?huì)導(dǎo)致VQA準(zhǔn)確率的絕對(duì)值在視覺(jué)推理數(shù)據(jù)集CLEVR上下降20%,在視覺(jué)理解數(shù)據(jù)集VQAv2上下降4%。
多模態(tài)融合模型的設(shè)計(jì)是多模態(tài)融合的關(guān)鍵研究點(diǎn)。我們將多模態(tài)融合模型分為簡(jiǎn)單融合、門(mén)控融合(Gating)、注意力融合(Attention)、Transformer融合、圖模型融合(Graph Fusion)和雙線(xiàn)性注意力(Bilinear Attention)融合共六類(lèi)方法。常見(jiàn)簡(jiǎn)單融合方法包括編碼器、解碼器的初始化(參見(jiàn)1.6節(jié)和2.1.1節(jié))、拼接、按位乘/求和/求平均等操作。本節(jié)主要介紹其余的五類(lèi)較復(fù)雜的融合方法。
2.3.1 門(mén)控融合
基于自編碼(Auto-encoding)[101]和自回歸(Auto-regression)[102]的大規(guī)模預(yù)訓(xùn)練語(yǔ)言模型和在下游任務(wù)上的微調(diào)相結(jié)合是自然語(yǔ)言處理研究和應(yīng)用的新方法。但文本預(yù)訓(xùn)練語(yǔ)言模型與下游的多模態(tài)任務(wù)相結(jié)合還是一個(gè)尚未充分研究的課題。Rahman等人[103]提出了一種多模態(tài)適應(yīng)門(mén)(Multimodal Adaptation Gate,MAG)的網(wǎng)絡(luò)結(jié)構(gòu)將非語(yǔ)言特征(視覺(jué)和聲學(xué)特征)與文本預(yù)訓(xùn)練語(yǔ)言模型融合,MAG與BERT[101]結(jié)合(MAG-BERT)以及MAG與XLNet[104]結(jié)合(MAG-XLNET)都可以有效融合三個(gè)模態(tài)信息,并在多模態(tài)情感識(shí)別數(shù)據(jù)集CMU-MOSI和CMU-MOSEI上獲得當(dāng)時(shí)最優(yōu)性能。
2.3.2 注意力融合
Bahdanau等人[105]在2015年提出的注意力機(jī)制是為了讓神經(jīng)機(jī)器翻譯模型中的解碼器在每一步解碼過(guò)程中,有針對(duì)性地選擇源語(yǔ)言中“對(duì)齊”的詞來(lái)指導(dǎo)目標(biāo)語(yǔ)言的解碼,包括全局注意力和局部注意力兩種方法。2017年Vaswani等人[106]提出了由多頭注意力和自注意力等模塊組成的Transformer。目前Transformer已經(jīng)成為自然語(yǔ)言處理、計(jì)算機(jī)視覺(jué)和語(yǔ)音領(lǐng)域的標(biāo)準(zhǔn)模型之一。在多模態(tài)領(lǐng)域,Yang等人[77]提出了Stacked Attention Networks(SANs),通過(guò)多層視覺(jué)注意力機(jī)制逐步過(guò)濾掉圖像中的噪聲區(qū)域,定位到與答案高度相關(guān)的圖像區(qū)域,從而提高VQA準(zhǔn)確率。Anderson等人[78]提出一種“自底向上”和“自頂向下”相結(jié)合的注意力機(jī)制。具體的,基于Faster R-CNN的“自底向上”的注意力機(jī)制提取圖像中的興趣區(qū)域,“自頂向下”的注意力機(jī)制確定興趣區(qū)域的權(quán)重。
上述注意力都是單向的視覺(jué)注意力,即基于文本表示選擇性地關(guān)注圖像中的興趣區(qū)域。Lu等人[107]認(rèn)為文本注意力和視覺(jué)注意力同等重要,并提出了協(xié)同注意力機(jī)制(Co-attention)。協(xié)同注意力又根據(jù)文本注意力和視覺(jué)注意力計(jì)算的交替順序分為平行協(xié)同注意力(Parallel Co-attention)和交替協(xié)同注意力(Alternating Co-attention)兩種策略。Nam等人[108]基于類(lèi)似的想法提出了雙重注意力網(wǎng)絡(luò)(Dual Attention Networks)。受Transformer模型的啟發(fā),Yu等人[109]提出了一種類(lèi)Transformer結(jié)構(gòu)的協(xié)同注意力機(jī)制,可實(shí)現(xiàn)文本中的任一詞與圖像中的任一區(qū)域間的完全交互。
2.3.3 Transformer融合
BERT憑借著Transformer強(qiáng)大的特征學(xué)習(xí)能力和掩碼語(yǔ)言模型(Masked Language Model)實(shí)現(xiàn)雙向編碼,刷新了多個(gè)NLP任務(wù)的最優(yōu)性能。2019年Transformer開(kāi)始被應(yīng)用到多模態(tài)領(lǐng)域?;赥ransformer的多模態(tài)融合又分為單流模型[95-98]和雙流模型[82,91,110-111]兩大類(lèi)。單流模型使用一個(gè)Transformer在一開(kāi)始便對(duì)多模態(tài)信息進(jìn)行充分的交互。雙流模型則對(duì)不同的模態(tài)使用獨(dú)立的Transformer編碼,再通過(guò)協(xié)同注意力機(jī)制實(shí)現(xiàn)不同模態(tài)間的融合,如圖7所示。雙流模型可以適應(yīng)不同模態(tài)獨(dú)立的處理需求。ViLBERT[100]證明了雙流模型的性能優(yōu)于單流模型,但目前沒(méi)有更多的對(duì)比實(shí)驗(yàn)分析單流模型和雙流模型的優(yōu)點(diǎn)和不足。
圖7 基于Transformer的雙流多模態(tài)融合
2.3.4 圖模型融合
對(duì)比CNN/RNN等神經(jīng)網(wǎng)絡(luò)模型,圖神經(jīng)網(wǎng)絡(luò)模型的優(yōu)勢(shì)是可處理具有復(fù)雜結(jié)構(gòu)的異構(gòu)數(shù)據(jù),并且具備一定的關(guān)系推理能力和可解釋性。圖神經(jīng)網(wǎng)絡(luò)最近一兩年在自然語(yǔ)言處理領(lǐng)域也受到了廣泛的關(guān)注。
在視覺(jué)-語(yǔ)言任務(wù)中,將圖像進(jìn)行結(jié)構(gòu)化(參見(jiàn)2.1.4節(jié)),再與圖神經(jīng)網(wǎng)絡(luò)結(jié)合,有助于對(duì)圖像的深度理解,進(jìn)而提高圖像描述和視覺(jué)問(wèn)答等視覺(jué)-語(yǔ)言任務(wù)的性能[79]。Huang等人[81]提出一種雙通道圖卷積網(wǎng)絡(luò)(DC-GCN)。DC-GCN通過(guò)I-GCN模塊學(xué)習(xí)圖像中物體間的關(guān)系、通過(guò)Q-GCN模塊學(xué)習(xí)問(wèn)題中詞的依存關(guān)系,再通過(guò)注意力對(duì)齊模塊學(xué)習(xí)多模態(tài)的聯(lián)合表示。Yin等人[112]將基于圖的多模態(tài)融合編碼器應(yīng)用到多模態(tài)神經(jīng)機(jī)器翻譯模型中。不同于DC-GCN對(duì)圖像和文本獨(dú)立建圖,Yin等人[112]把源語(yǔ)言中的詞和圖像中的物體放到了同一個(gè)圖中,再堆疊多個(gè)基于圖神經(jīng)網(wǎng)絡(luò)的多模態(tài)融合層(在每一層順序執(zhí)行模態(tài)內(nèi)融合和模態(tài)間融合)。該方法可以同時(shí)學(xué)習(xí)模態(tài)內(nèi)和模態(tài)間的各種顆粒度的語(yǔ)義關(guān)系,進(jìn)而顯著提高了機(jī)器翻譯的性能。
最近,基于圖模型的多模態(tài)融合也被廣泛應(yīng)用于多模態(tài)情感識(shí)別任務(wù)。Hu等人[113]提出了一種基于圖卷積網(wǎng)絡(luò)的多模態(tài)融合模型(MMGCN),它可以有效地融合多模態(tài)信息和學(xué)習(xí)長(zhǎng)距離的依賴(lài)關(guān)系,還可以通過(guò)說(shuō)話(huà)人向量(Speaker Embedding)把說(shuō)話(huà)人的音色特征等信息融入情感識(shí)別模型中。
2.3.5 雙線(xiàn)性注意力融合
協(xié)同注意力機(jī)制雖然同時(shí)引入了文本和視覺(jué)注意力,實(shí)現(xiàn)了文本和圖像雙向交互。但為了減少計(jì)算量,協(xié)同注意力為每個(gè)模態(tài)建立了獨(dú)立的注意力分布。因此,協(xié)同注意力忽視了問(wèn)題和圖像之間的兩兩交互。對(duì)此,Kim等人[114]提出了雙線(xiàn)性注意力網(wǎng)絡(luò)(BAN)。雙線(xiàn)性注意力網(wǎng)絡(luò)是低秩雙線(xiàn)性池化方法的一般推廣。本文不展開(kāi)介紹BAN模型,有興趣的讀者請(qǐng)參考相關(guān)文獻(xiàn)。
2.3.6 多模態(tài)融合模型小結(jié)
門(mén)控融合和注意力融合是早些年提出的基礎(chǔ)的多模態(tài)融合方法。它們的優(yōu)點(diǎn)是能方便地與CNN/LSTM/Transformer等主流的神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)相結(jié)合,也能與2.1節(jié)介紹的多種單模態(tài)表示相結(jié)合。圖模型融合和Transformer融合是近幾年提出的新方法,它們的模型結(jié)構(gòu)較復(fù)雜,且對(duì)單模態(tài)的表示要求較高。如圖模型融合需要跟視覺(jué)場(chǎng)景圖表示(和文本的圖表示)相結(jié)合。雙流Transformer融合視覺(jué)-語(yǔ)言-語(yǔ)音3種模態(tài)信息,需要多個(gè)Transformer[110-111]。圖模型融合和Transformer融合通??色@得更好的性能,如表4所示。門(mén)控機(jī)制和注意力機(jī)制跟預(yù)訓(xùn)練模型結(jié)合,也能取得不錯(cuò)的性能,如門(mén)控機(jī)制跟XLNet相結(jié)合的MAG-XLNet模型在情感識(shí)別上獲得了最佳的性能。
表4 多模態(tài)融合方法的代表性模型在視覺(jué)問(wèn)答、圖像描述和情感識(shí)別數(shù)據(jù)集上的性能對(duì)比
融合語(yǔ)言、視覺(jué)和聲學(xué)序列信息的多模態(tài)情感識(shí)別,由于每個(gè)模態(tài)的采樣率不同,多模態(tài)序列通常表現(xiàn)出“未對(duì)齊”特性(也稱(chēng)之為異步性)。早期的多模態(tài)情感識(shí)別工作是在詞對(duì)齊的多模態(tài)序列上展開(kāi)的。最近也有工作提出了基于異步的多模態(tài)序列的建模方法。然而,Tsai等人[110]提出的多模態(tài) Transformer(MulT)一次只能接收兩個(gè)模態(tài)。為了實(shí)現(xiàn)三個(gè)模態(tài)的融合,作者使用了六個(gè)跨模態(tài)Transformer。Yang等人[115]提出了一個(gè)可解釋的基于圖神經(jīng)網(wǎng)絡(luò)的異步多模態(tài)序列融合算法: 模態(tài)-時(shí)間注意力圖(Modal-Temporal Attention Graph,MTAG)算法。MTAG算法首先將多模態(tài)序列轉(zhuǎn)為一個(gè)異構(gòu)圖,再?gòu)亩嗄B(tài)序列中抽取特征作為節(jié)點(diǎn),節(jié)點(diǎn)間通過(guò)多模態(tài)邊(Multimodal Edges)和時(shí)間邊(Temporal Edge)進(jìn)行連接。最后,在圖上進(jìn)行融合操作,實(shí)現(xiàn)每一個(gè)模態(tài)的節(jié)點(diǎn)與其他模態(tài)節(jié)點(diǎn)的交互。
由于利用了多個(gè)模態(tài)間的互補(bǔ)性,多模態(tài)系統(tǒng)具有較高的預(yù)測(cè)魯棒性。然而,在現(xiàn)實(shí)應(yīng)用場(chǎng)景中,我們經(jīng)常會(huì)遇到模態(tài)缺失的問(wèn)題。例如,由于隱私問(wèn)題關(guān)閉了攝像頭、由于語(yǔ)音識(shí)別錯(cuò)誤帶來(lái)的語(yǔ)言模態(tài)缺失等。模態(tài)缺失問(wèn)題通常會(huì)導(dǎo)致現(xiàn)有基于全模態(tài)的多模態(tài)融合模型失效。對(duì)此,Zhao等人[116]提出了基于缺失模態(tài)想象網(wǎng)絡(luò)(Missing Modality Imagination Network,MMIN)來(lái)處理不確定的模態(tài)缺失問(wèn)題。由于模態(tài)缺失現(xiàn)象的普遍性,該問(wèn)題將會(huì)是多模態(tài)領(lǐng)域接下來(lái)的一個(gè)研究熱點(diǎn)。
通過(guò)預(yù)訓(xùn)練語(yǔ)言模型從海量無(wú)標(biāo)注數(shù)據(jù)中學(xué)習(xí)通用知識(shí),再在下游任務(wù)上用少量的標(biāo)注數(shù)據(jù)進(jìn)行微調(diào),已經(jīng)成為自然語(yǔ)言處理領(lǐng)域成熟的新范式。從2019年開(kāi)始,預(yù)訓(xùn)練語(yǔ)言模型(BERT[101]、GPT-3[102]、BART[117]和T5[118]等)相繼被擴(kuò)展到多語(yǔ)言和多模態(tài)等場(chǎng)景。
相對(duì)于文本預(yù)訓(xùn)練語(yǔ)言模型,多模態(tài)預(yù)訓(xùn)練模型可以更好地對(duì)細(xì)顆粒度的多模態(tài)語(yǔ)義單元(詞或者目標(biāo))間的相關(guān)性進(jìn)行建模。例如,基于語(yǔ)言上下文,被掩碼的詞“on top of”可以被預(yù)測(cè)為符合語(yǔ)法規(guī)則的詞“under”或“into”等。但這與關(guān)聯(lián)的圖片場(chǎng)景“貓?jiān)谲?chē)頂”不符。通過(guò)多模態(tài)預(yù)訓(xùn)練,模型從圖像中捕獲“汽車(chē)”“貓”之間的空間關(guān)系,從而可以準(zhǔn)確地預(yù)測(cè)出掩碼詞是“on top of”[82]。大部分的多模態(tài)預(yù)訓(xùn)練模型是在視覺(jué)-語(yǔ)言對(duì)齊數(shù)據(jù)上進(jìn)行的。例如,使用圖像和文本對(duì)齊數(shù)據(jù)集(MSCOCO[12]、Conceptual Captions[13]、Visual Genome[15]和SBU Captions[16]等)訓(xùn)練的跨模態(tài)預(yù)訓(xùn)練模型LXMERT[91]、Oscar[96]、VL-BERT[97]和ViLBERT[100], M3P[98]。使用視頻和文本對(duì)齊數(shù)據(jù)集訓(xùn)練的VideoBERT[94]和ActBERT[99]等[119-120]。Liu等人[85]最近還發(fā)布了視覺(jué)、文本、語(yǔ)音三模態(tài)預(yù)訓(xùn)練模型OPT。
本文表5中從網(wǎng)絡(luò)結(jié)構(gòu)、模型輸入、預(yù)訓(xùn)練目標(biāo)、預(yù)訓(xùn)練語(yǔ)料和下游任務(wù)等維度對(duì)比了最新的視覺(jué)-語(yǔ)言跨模態(tài)預(yù)訓(xùn)練模型ERNIE-VIL[82]、LXMERT[91]、LightningDOT[92]、E2E-VLP[93]、Unicoder-VL[95]、Oscar[96]、VL-BERT[97]、M3P[98]、ViLBERT[100]、TDEN[121]、UNIMO[122]。表5中的表示“圖像,語(yǔ)言”對(duì),I表示一幅圖像,w=w1,…,wT表示長(zhǎng)度為T(mén)的文本表示。g=g1,…,gG是圖像區(qū)域表示,q=q1,…,qK和v=v1,…,vK分別表示圖像中的目標(biāo)的文本表示和目標(biāo)的視覺(jué)表示。g和v的提取可參考2.1節(jié)的介紹。此外,[SEP]、[IMG]、[CLS]等特殊標(biāo)記用來(lái)分割不同模態(tài)。MLM(Masked Language Model)是根據(jù)未掩碼的詞和圖像區(qū)域預(yù)測(cè)掩碼單詞。MOC(Masked Object Classification)根據(jù)未掩碼的圖像區(qū)域和文本預(yù)測(cè)掩碼區(qū)域的目標(biāo)類(lèi)別。MOR(Masked Object Regression)根據(jù)未掩碼的圖像區(qū)域和文本預(yù)測(cè)掩碼區(qū)域的特征表示。MSG(Masked Sentence Generation)根據(jù)輸入圖像逐字生成句子。VQA根據(jù)輸入的圖像和該圖像相關(guān)問(wèn)題預(yù)測(cè)該問(wèn)題的答案。CMCL是跨模態(tài)對(duì)比學(xué)習(xí)任務(wù)。VLM是預(yù)測(cè)圖像-文本對(duì)是否語(yǔ)義一致。
表5 視覺(jué)-語(yǔ)言預(yù)訓(xùn)練模型對(duì)比
從表5中的11個(gè)圖像-語(yǔ)言跨模態(tài)預(yù)訓(xùn)練模型的對(duì)比,我們發(fā)現(xiàn)的跨模態(tài)預(yù)訓(xùn)練模型的特點(diǎn)如下: ①單流模型和雙流模型均被廣泛采用。雖然雙流模型可以適應(yīng)每種模態(tài)的不同處理需求,但目前尚無(wú)完整的實(shí)驗(yàn)證明雙流模型優(yōu)于單流模型。②多模態(tài)預(yù)訓(xùn)練模型從應(yīng)用于多模態(tài)理解任務(wù)或多模態(tài)生成任務(wù)發(fā)展到可兼顧多模態(tài)理解和生成兩大任務(wù)的統(tǒng)一模型。③相對(duì)動(dòng)輒上百G甚至T級(jí)別的單模態(tài)數(shù)據(jù),多模態(tài)對(duì)齊數(shù)據(jù)的規(guī)模有限。最新的多模態(tài)預(yù)訓(xùn)練模型可以利用互聯(lián)網(wǎng)上的大規(guī)模非對(duì)齊的文本數(shù)據(jù)、圖像數(shù)據(jù)、以及文本-圖像對(duì)齊數(shù)據(jù)學(xué)習(xí)更通用的文本和視覺(jué)表示,以提高模型在視覺(jué)和語(yǔ)言的理解和生成能力,如M3P和UNIMO。④多模態(tài)預(yù)訓(xùn)練模型從僅應(yīng)用于多模態(tài)下游任務(wù)發(fā)展到可同時(shí)應(yīng)用于單模態(tài)下游任務(wù)和多模態(tài)下游任務(wù)。
上述的多模態(tài)預(yù)訓(xùn)練模型需要在大量圖像文本的對(duì)齊語(yǔ)料上進(jìn)行訓(xùn)練。然而,此類(lèi)數(shù)據(jù)的收集成本昂貴,很難擴(kuò)大規(guī)模。受無(wú)監(jiān)督機(jī)器翻譯[123-124]的啟發(fā),Li等人[125]提出了一種不依賴(lài)圖像-文本對(duì)齊語(yǔ)料的預(yù)訓(xùn)練U-VisualBERT,該預(yù)訓(xùn)練模型的輸入是一批文本數(shù)據(jù),或一批圖像數(shù)據(jù),并通過(guò)圖像中物體標(biāo)簽作為錨點(diǎn)(Anchor Points)對(duì)齊兩種模態(tài)。U-VisualBERT在四個(gè)多模態(tài)任務(wù)上取得與使用多模態(tài)對(duì)齊數(shù)據(jù)訓(xùn)練的預(yù)訓(xùn)練模型接近的性能。該方向可能會(huì)是接下來(lái)的一個(gè)研究熱點(diǎn)。
本節(jié)介紹多模態(tài)信息處理在商品文案生成、智能客服與營(yíng)銷(xiāo)等場(chǎng)景的應(yīng)用。
多模態(tài)商品文案生成是基于商品的文本描述和商品的圖片生成賣(mài)點(diǎn)突出的商品介紹文案的任務(wù)。為了生成一段簡(jiǎn)潔凝煉、賣(mài)點(diǎn)突出、流暢、合規(guī)的商品文案,Li等人[43]提出了一種基于商品要素的多模態(tài)商品信息自動(dòng)摘要模型,其可以根據(jù)商品的文本描述、商品圖片信息自動(dòng)生成商品短文。目前文獻(xiàn)[43]中的算法已支持3 000多個(gè)商品品類(lèi),廣泛應(yīng)用于商品導(dǎo)購(gòu)機(jī)器人、搭配購(gòu)、AI直播帶貨等實(shí)際場(chǎng)景中。AI創(chuàng)作的文案人工審核通過(guò)率超過(guò)95%,AI文案曝光點(diǎn)擊率高出專(zhuān)業(yè)寫(xiě)手平均水平40%。表6對(duì)比了文本模型和多模態(tài)模型的生成文案效果。
表6 文本生成模型vs. 多模態(tài)生成模型
智能客服場(chǎng)景中,超過(guò)16%的客服與用戶(hù)的對(duì)話(huà)包括一張以上的圖片(截屏圖片和實(shí)拍圖片)。所以,客服機(jī)器人不僅要理解文字內(nèi)容,還要理解圖片等多模態(tài)內(nèi)容,才能準(zhǔn)確回答用戶(hù)咨詢(xún)?;诙嗄B(tài)技術(shù)的用戶(hù)意圖識(shí)別已經(jīng)應(yīng)用于京東智能情感客服系統(tǒng)。多模態(tài)情感識(shí)別也應(yīng)用到語(yǔ)音客服質(zhì)檢(4)語(yǔ)音客服質(zhì)檢是根據(jù)語(yǔ)音和ASR識(shí)別結(jié)果識(shí)別客服和用戶(hù)的情緒變化,提高客服服務(wù)的質(zhì)量。、語(yǔ)音外呼機(jī)器人等產(chǎn)品中。此外,融合語(yǔ)音、計(jì)算機(jī)視覺(jué)和自然語(yǔ)言處理的數(shù)字人已應(yīng)用到智能客服、虛擬主播、數(shù)字人直播帶貨等場(chǎng)景。
多模態(tài)信息處理是一個(gè)典型的多學(xué)科交叉領(lǐng)域。最近幾年,多模態(tài)信息處理受到自然語(yǔ)言處理、計(jì)算機(jī)視覺(jué)和語(yǔ)音與聲學(xué)領(lǐng)域研究者的廣泛關(guān)注。本文從自然語(yǔ)言處理的視角出發(fā),首先介紹了目前熱點(diǎn)的多模態(tài)應(yīng)用,接著介紹了多模態(tài)的三個(gè)重要研究方向及其主流方法: 即視覺(jué)的單模態(tài)表示(視覺(jué)全局表示、視覺(jué)區(qū)域表示、視覺(jué)目標(biāo)表示和視覺(jué)場(chǎng)景圖表示)、多模態(tài)融合(簡(jiǎn)單融合、門(mén)控融合、注意力融合、Transformer融合、圖模型融合和雙線(xiàn)性注意力融合)和通用的多模態(tài)預(yù)訓(xùn)練。最后,本文對(duì)多模態(tài)技術(shù)在產(chǎn)業(yè)界的應(yīng)用進(jìn)行了簡(jiǎn)要的描述。
多模態(tài)信息處理還有很多亟待進(jìn)一步研究的課題。我們認(rèn)為,以下五個(gè)方向?qū)⑹嵌嗄B(tài)信息處理技術(shù)領(lǐng)域未來(lái)重要的研究?jī)?nèi)容: ①非對(duì)齊語(yǔ)料上的多模態(tài)信息處理。目前,大多數(shù)下游的多模態(tài)任務(wù)和多模態(tài)預(yù)訓(xùn)練模態(tài)都依賴(lài)多模態(tài)對(duì)齊語(yǔ)料。相對(duì)動(dòng)輒上百G甚至T級(jí)別的單模態(tài)語(yǔ)料,多模態(tài)對(duì)齊語(yǔ)料的規(guī)模還是很有限。探索如何在海量非對(duì)齊多模態(tài)語(yǔ)料上訓(xùn)練多模態(tài)模型具有非常實(shí)用的價(jià)值,也是多模態(tài)領(lǐng)域需要重點(diǎn)關(guān)注的課題之一。此方向已經(jīng)有了初步的探索。例如,利用多模態(tài)對(duì)齊技術(shù)將海量的單模態(tài)語(yǔ)料與其他模態(tài)進(jìn)行自動(dòng)對(duì)齊[48,122]。②面向單模態(tài)和多模態(tài)的理解和生成任務(wù)的統(tǒng)一模型。當(dāng)前的主流模型或面向單模態(tài)理解(或生成)或面向多模態(tài)理解(或生成)的模型,構(gòu)建一個(gè)既適用于單模態(tài)理解與生成任務(wù),又適用于多模態(tài)理解與生成任務(wù)的統(tǒng)一模型是未來(lái)非常重要的研究方向。多模態(tài)模型在文本任務(wù)上的性能未來(lái)可能會(huì)超過(guò)單模態(tài)模型[48,122]。③高噪聲環(huán)境下的多模態(tài)魯棒性融合。真實(shí)場(chǎng)景常常有較強(qiáng)的背景噪聲,部分模態(tài)的數(shù)據(jù)通常是模糊或缺失的。因此,探索如何在高噪聲情況下獲得信息缺失的有效表征,提高模型預(yù)測(cè)魯棒性和準(zhǔn)確性是多模態(tài)領(lǐng)域重要的研究課題之一。文獻(xiàn)[116]提出一種基于缺失模態(tài)的想象網(wǎng)絡(luò)(Missing Modality Imagination Network,MMIN)對(duì)該方向進(jìn)行了初步的探索。④多模態(tài)與知識(shí)的融合。2.1節(jié)介紹的從視覺(jué)內(nèi)容中提取視覺(jué)粗粒度特征表示和基于視覺(jué)場(chǎng)景圖的細(xì)顆粒度特征表示,其目的都是增強(qiáng)視覺(jué)特征表示。我們認(rèn)為,如何提取更精細(xì)粒度的視覺(jué)特征表示是多模態(tài)領(lǐng)域重要的基礎(chǔ)研究方向之一。引入知識(shí)圖譜作為圖像實(shí)體信息的補(bǔ)充,從而進(jìn)行知識(shí)增強(qiáng)的視覺(jué)特征表示是該方向一種探索思路[126-127]。⑤復(fù)雜交互情境下的多模態(tài)應(yīng)用。第1節(jié)介紹了多模態(tài)信息處理技術(shù)的多個(gè)應(yīng)用場(chǎng)景。我們認(rèn)為,數(shù)字人、元宇宙(Metaverse)是多模態(tài)信息處理技術(shù)最佳的應(yīng)用場(chǎng)景之一,探索復(fù)雜交互情境下的多模態(tài)信息處理是多模態(tài)領(lǐng)域未來(lái)最重要的研究方向之一。