包翠竹 丁 凱 董建峰 楊 勛 謝滿(mǎn)德 王 勛
1 (浙江工商大學(xué)計(jì)算機(jī)科學(xué)與技術(shù)學(xué)院 杭州 310018)
2 (浙江工商大學(xué)信息與電子工程學(xué)院 杭州 310018)
3 (浙江省電子商務(wù)與物流信息技術(shù)研究重點(diǎn)實(shí)驗(yàn)室(浙江工商大學(xué)) 杭州 310018)
4 (中國(guó)科學(xué)技術(shù)大學(xué)信息科學(xué)技術(shù)學(xué)院 合肥 230026)
圖靈測(cè)試至今依然是評(píng)判機(jī)器是否具有人類(lèi)智慧的重要手段,它代表著機(jī)器對(duì)人類(lèi)知識(shí)體系或交互的理解程度,是人工智能的一個(gè)充分條件.近些年來(lái),為了讓機(jī)器像人類(lèi)一樣思考與交互,研究者們一直熱衷于類(lèi)似圖靈測(cè)試相關(guān)人工智能系統(tǒng)的研究,如問(wèn)答系統(tǒng).隨著問(wèn)答系統(tǒng)在自然語(yǔ)言處理的成功,人們開(kāi)始考慮將這種交互式的問(wèn)答方式引入計(jì)算機(jī)視覺(jué)領(lǐng)域,對(duì)視覺(jué)對(duì)象進(jìn)行交互式理解[1].在此背景下,基于圖像的ImageQA 在2015 年被提出[2],并受到廣泛關(guān)注[3-5].而VideoQA 則是ImageQA 的自然擴(kuò)展,即將ImageQA 的單幅圖像延伸為圖像序列,VideoQA任務(wù)應(yīng)運(yùn)而生.VideoQA 可以被認(rèn)為是一種視覺(jué)圖靈測(cè)試,它也需要理解問(wèn)題的能力,但不一定需要更復(fù)雜的自然語(yǔ)言處理.一個(gè)優(yōu)秀的VideoQA 模型能夠解決諸多計(jì)算機(jī)視覺(jué)相關(guān)方面的問(wèn)題,因此它可以作為圖靈測(cè)試的重要組成部分.由于生活中大多數(shù)數(shù)據(jù)均為動(dòng)態(tài)視覺(jué)信息,VideoQA 系統(tǒng)在實(shí)際場(chǎng)景中的應(yīng)用更為廣泛,基于視頻的對(duì)話(huà)問(wèn)答已逐漸成為人機(jī)交互的重要方式.這項(xiàng)技術(shù)的發(fā)展對(duì)智慧教育、智能交通以及視頻取證等方面均有著積極的影響,尤其能極大程度地幫助視障人士在網(wǎng)絡(luò)與現(xiàn)實(shí)世界獲取有用的視覺(jué)信息[6].
據(jù)當(dāng)前調(diào)研所知,國(guó)內(nèi)單純的VideoQA 方向的綜述文章未見(jiàn)發(fā)表,與之相關(guān)的ImageQA 綜述如文獻(xiàn)[1]對(duì)VideoQA 任務(wù)的難點(diǎn)只做了簡(jiǎn)單分析,文獻(xiàn)[7]針對(duì)ImageQA 任務(wù)提出的部分挑戰(zhàn)同樣適用于VideoQA 任務(wù).國(guó)外鮮有報(bào)道,在目前發(fā)表的幾篇綜述論文中,Patel 等人[8]對(duì)目前常用的數(shù)據(jù)集和主流方法進(jìn)行分類(lèi)與介紹,但僅僅是簡(jiǎn)單羅列,并沒(méi)有分析各方法之間的關(guān)系.Khurana 等人[9]對(duì)主流方法的分類(lèi)總結(jié)比文獻(xiàn)[8] 更為全面,然而該文提到的方法與數(shù)據(jù)集不夠完善.Sun 等人[10]對(duì)現(xiàn)有VideoQA 任務(wù)的數(shù)據(jù)集與方法的歸納與總結(jié)相對(duì)完善,對(duì)模型分析比較透徹,但近2 年新出現(xiàn)的方法與數(shù)據(jù)集也有待完善.相對(duì)于國(guó)外的這3 篇綜述,本文除了回顧基于注意力機(jī)制[11]的方法與記憶網(wǎng)絡(luò)(memory networks, MemNN)[12]的方法之外,還將近2 年新出現(xiàn)的基于圖網(wǎng)絡(luò),如圖神經(jīng)網(wǎng)絡(luò)[13](graph neural network,GNN) 與圖卷積神經(jīng)網(wǎng)絡(luò)[14](graph convolutional network,GCN)的方法、基于預(yù)訓(xùn)練的方法以及基于Transformer[15]與BERT[16]的方法進(jìn)行了總結(jié)與分析;同時(shí),將當(dāng)下絕大多數(shù)用于VideoQA數(shù)據(jù)集各項(xiàng)指標(biāo)進(jìn)行了收集,并對(duì)常用數(shù)據(jù)集的模型性能進(jìn)行匯總與分析.通過(guò)表1 進(jìn)行對(duì)比,可以看出本文無(wú)論是數(shù)據(jù)集還是方法介紹均是目前最全面的.
Table 1 Comparison of VideoQA Survey Works表1 VideoQA 綜述工作對(duì)比
除此之外,本文的VideoQA 研究進(jìn)展調(diào)研力求提供一個(gè)全面且系統(tǒng)的綜述工作,收集了計(jì)算機(jī)視覺(jué)、自然語(yǔ)言處理、多媒體和機(jī)器學(xué)習(xí)等諸多領(lǐng)域的知名會(huì)議與期刊論文,如CVPR,ICCV,ECCV,AAAI,NeurIPS,IJCAI,ACM MM,ACL,EMNLP,TPAMI,TIP,IJCV 等.這些論文主要發(fā)表于2017-2021 年,對(duì)于2022 年1~3 月發(fā)表的論文也進(jìn)行了統(tǒng)計(jì),如圖1 所示.本綜述具體行文的組織結(jié)構(gòu)如圖2 所示.
圖1 論文統(tǒng)計(jì)Fig.1 Paper statistics
圖2 本文的概述Fig.2 The overview of our paper
本節(jié)主要介紹VideoQA 問(wèn)題定義、VideoQA 相較與ImageQA 的區(qū)別及挑戰(zhàn)以及近幾年VideoQA 的發(fā)展趨勢(shì).
VideoQA 的目標(biāo)是根據(jù)一個(gè)視頻 V 和與之相關(guān)的問(wèn)題q推斷出問(wèn)題的答案.VideoQA 模型可以表述為:
其中 F為評(píng)分函數(shù), θ為模型參數(shù), A 是一個(gè)可能存在答案的集合.
VideoQA 任務(wù)中的問(wèn)題可以分為開(kāi)放式問(wèn)題、選擇題和填空題3 種類(lèi)型.開(kāi)放式問(wèn)題類(lèi)型如圖3(a)所示,問(wèn)題沒(méi)有候選答案;選擇題類(lèi)型如圖3(b)所示,1 個(gè)問(wèn)題對(duì)應(yīng)多個(gè)候選答案,候選答案中只有1 個(gè)是正確的;填空題類(lèi)型如圖3(c) 所示,1 句話(huà)中缺少1個(gè)詞,需要模型進(jìn)行填充.其中,填空題可以視為一種特殊的開(kāi)放式問(wèn)題,在后文2.3 節(jié)將其視為開(kāi)放式問(wèn)題.
圖3 各類(lèi)型問(wèn)題示例Fig.3 Examples of various types of questions
VideoQA 是一項(xiàng)結(jié)合計(jì)算機(jī)視覺(jué)與自然語(yǔ)言處理的任務(wù),該任務(wù)根據(jù)問(wèn)題來(lái)分析視頻內(nèi)容并得出答案.VideoQA 由ImageQA 發(fā)展而來(lái),ImageQA 任務(wù)中的模型根據(jù)給定的一幅圖片及自然語(yǔ)言的問(wèn)題,以自然語(yǔ)言的形式給出答案,如圖4 所示.相較于ImageQA,VideoQA 將圖片替換成視頻,從靜態(tài)的圖片變成了動(dòng)態(tài)連續(xù)的幀序列.所以,不能簡(jiǎn)單應(yīng)用原有的ImageQA 模型,而是需要在原有的基礎(chǔ)之上對(duì)幀序列進(jìn)行動(dòng)作分析和時(shí)序建模,并同時(shí)考慮到視頻中的多模態(tài)信息,因此VideoQA 相對(duì)而言更具有挑戰(zhàn)性.
圖4 VideoQA 與ImageQA 模型對(duì)比Fig.4 Comparison of VideoQA and ImageQA models
具體來(lái)講,VideoQA 相對(duì)于ImageQA 主要有2方面的區(qū)別:一方面,對(duì)于ImageQA 來(lái)講,圖片是靜態(tài)的,包含的信息(顏色、對(duì)象及其空間位置等)更容易通過(guò)模型進(jìn)行提取與分析,所以模型只需要充分理解單幅圖片上的所有信息,外加少量輔助知識(shí),就能夠在回答針對(duì)單幅圖像的問(wèn)題上取得具有競(jìng)爭(zhēng)性的結(jié)果.相比于ImageQA,VideoQA 模型處理的是連續(xù)變化的動(dòng)態(tài)視頻幀信息,包含更豐富多變的信息(外觀(guān)信息、音頻信息、動(dòng)作與狀態(tài)轉(zhuǎn)換等).另一方面,ImageQA 大多是關(guān)于對(duì)象外觀(guān)的幀級(jí)問(wèn)題,主要關(guān)注圖片的對(duì)象屬性,例如顏色或者空間位置等,推理部分相對(duì)較少.然而VideoQA 中大多是關(guān)于對(duì)象行為與因果關(guān)系的問(wèn)題,此類(lèi)問(wèn)題的回答就需要模型具有更強(qiáng)的對(duì)上下文建模和因果推理的能力.同時(shí),視頻中包含許多時(shí)間線(xiàn)索,大部分問(wèn)題也是關(guān)于視頻的時(shí)序推理,比如狀態(tài)轉(zhuǎn)換、動(dòng)作計(jì)數(shù)等,所以VideoQA 模型又需要良好的時(shí)序建模能力.
從上述VideoQA 與ImageQA 的對(duì)比分析中,可以總結(jié)VideoQA 任務(wù)主要面臨4 方面挑戰(zhàn):
1)基于問(wèn)題的關(guān)鍵幀定位
視頻通常每秒包含多幀圖片,必然存在大量問(wèn)題無(wú)關(guān)的冗余信息,這種冗余會(huì)干擾模型的推理過(guò)程.如何保證從大量復(fù)雜信息中根據(jù)問(wèn)題定位到預(yù)測(cè)答案所需的關(guān)鍵時(shí)刻信息是至關(guān)重要的.突出與問(wèn)題相關(guān)的重要信息是進(jìn)行準(zhǔn)確推理的關(guān)鍵.
2)豐富多樣的信息需要記憶
為了更準(zhǔn)確地回答有關(guān)動(dòng)作、因果等相關(guān)的復(fù)雜問(wèn)題,模型無(wú)論在數(shù)量上還是在多樣性上都需要記憶更長(zhǎng)的信息,而信息的完整性是進(jìn)行推理的前提.
3)基于幀序列的時(shí)空建模
視頻作為圖像序列,不僅包含靜態(tài)屬性,如顏色、位置,還包含更多時(shí)空相關(guān)的動(dòng)態(tài)屬性,如動(dòng)作和狀態(tài)轉(zhuǎn)換.豐富多樣化的信息意味著推理過(guò)程更加復(fù)雜,需要根據(jù)問(wèn)題整合時(shí)空2 個(gè)維度的信息進(jìn)行綜合推理.多維度信息可以互相增強(qiáng),對(duì)于時(shí)空推理的問(wèn)題起到很大幫助.
4)多模態(tài)信息的語(yǔ)義理解
多模態(tài)信息體現(xiàn)在視頻包含多個(gè)類(lèi)型的媒體數(shù)據(jù),如圖像、語(yǔ)音、標(biāo)題和字幕等.這些數(shù)據(jù)的交叉使得視頻具有更復(fù)雜的語(yǔ)義信息,也對(duì)模型獲取更好的多模特征表示提出了更高的要求.
應(yīng)對(duì)這4 個(gè)挑戰(zhàn)的關(guān)鍵在于如何建立視頻和問(wèn)題之間的語(yǔ)義聯(lián)系及其在時(shí)序上的連續(xù)性與關(guān)聯(lián)性,其關(guān)鍵是將視頻特征和文本特征進(jìn)行處理與融合.根據(jù)模型處理方法的不同,本文將VideoQA 模型分為基于注意力的模型、基于記憶網(wǎng)絡(luò)的模型、基于圖網(wǎng)絡(luò)的模型、基于預(yù)訓(xùn)練的模型、基于Transformer 與BERT 的模型及其他模型.
總體來(lái)講,VideoQA 模型由最初的注意力和記憶網(wǎng)絡(luò)發(fā)展到目前流行的圖網(wǎng)絡(luò)、預(yù)訓(xùn)練及Transformer 與BERT,代表性模型的年歷表概覽如圖5 所示.早期的VideoQA 模型(2017-2019)為了去除視頻中大量問(wèn)題無(wú)關(guān)的冗余信息,多數(shù)采用了注意力機(jī)制,此類(lèi)方法根據(jù)問(wèn)題有效地提取視頻的關(guān)鍵信息以用于答案推理.同時(shí),為了保證模型能夠從視頻中更好地挖掘多個(gè)時(shí)間幀信息的關(guān)聯(lián)性,保證信息的完整性,許多模型引入了記憶網(wǎng)絡(luò).2020 至今,鑒于圖神經(jīng)網(wǎng)絡(luò)在關(guān)系建模和推理方面的優(yōu)異表現(xiàn),部分研究者開(kāi)始將其應(yīng)用于VideoQA 任務(wù)中以更好地建模對(duì)象關(guān)系信息,并且挖掘豐富的時(shí)-空相關(guān)的動(dòng)態(tài)屬性.
圖5 主流的VideoQA 模型年歷表概覽Fig.5 Overview of the mainstream VideoQA model almanacs
除此之外,隨著Transformer 與BERT 模型在自然語(yǔ)言處理領(lǐng)域所展現(xiàn)的出色性能,越來(lái)越多的研究者嘗試將其引入自己的VideoQA 模型(包括預(yù)訓(xùn)練模型)中去.Transformer 與BERT 改進(jìn)了循環(huán)神經(jīng)網(wǎng)絡(luò)(recurrent neural network,RNN)訓(xùn)練慢的缺點(diǎn),利用自注意力機(jī)制實(shí)現(xiàn)快速并行,并且可以增加到非常深的深度,充分挖掘深度神經(jīng)網(wǎng)絡(luò)模型的特性,提升模型準(zhǔn)確率.與此同時(shí),視覺(jué)語(yǔ)言預(yù)訓(xùn)練模型在近2 年也展現(xiàn)了在海量互聯(lián)網(wǎng)數(shù)據(jù)中學(xué)習(xí)視覺(jué)-文本聯(lián)合表征的強(qiáng)大能力,這種由數(shù)據(jù)驅(qū)動(dòng)的預(yù)訓(xùn)練模型的性能在下游的VideoQA 任務(wù)中也嶄露頭角.
圖6 為VideoQA 模型的詳細(xì)處理流程.VideoQA模型處理主要分為視頻與文本的特征提取與編碼、多模態(tài)特征處理與融合以及答案生成3 個(gè)部分.特征提取與編碼又分為視頻和文本的特征提取與編碼,主要介紹目前通用的技術(shù),該部分內(nèi)容將在2.1 節(jié)進(jìn)行介紹;對(duì)特征的處理與融合是VideoQA 的核心與關(guān)鍵,也是研究者們圍繞該任務(wù)展開(kāi)研究的主要方面,每一個(gè)方法的不同之處也均體現(xiàn)在這一部分,該內(nèi)容將在2.2 節(jié)進(jìn)行重點(diǎn)介紹;答案生成部分對(duì)于不同的問(wèn)答任務(wù)已經(jīng)形成了相對(duì)固定的答案解碼方式,該部分將在2.3 節(jié)進(jìn)行綜合介紹.
圖6 VideoQA 模型處理流程Fig.6 VideoQA model processing flow
2.1.1 視頻特征
視頻的視覺(jué)特征提取不僅包含靜態(tài)的區(qū)域級(jí)(對(duì)象)特征和幀級(jí)特征提取,還包含動(dòng)態(tài)的片段級(jí)特征提取.區(qū)域級(jí)特征是對(duì)局部信息的細(xì)粒度表示,可以表示為對(duì)象特征及其標(biāo)簽,此類(lèi)特征一般使用目標(biāo)檢測(cè)網(wǎng)絡(luò)進(jìn)行提取,如Faster R-CNN[17].幀級(jí)視頻特征是對(duì)全局視覺(jué)信息的粗粒度表示,較之于區(qū)域級(jí)特征可以獲取更豐富的信息,如場(chǎng)景信息等.目前幀級(jí)特征常直接應(yīng)用ImageQA 模型中的圖片特征提取方法,即在ImageNet[18]上預(yù)訓(xùn)練的2D 卷積神經(jīng)網(wǎng)絡(luò),如VGGNet[19],GoogLeNe[20],ResNet[21].片段級(jí)視頻特征,是順序的和動(dòng)態(tài)的特征表示,如動(dòng)作.片段級(jí)特征早期采用用于動(dòng)作識(shí)別的3D 卷積網(wǎng)絡(luò),從空間和時(shí)間維度中提取特征,從而捕獲在多個(gè)相鄰幀中編碼的動(dòng)作信息.隨著C3D[22]網(wǎng)絡(luò)在動(dòng)作識(shí)別和捕捉視頻動(dòng)態(tài)信息中展現(xiàn)出優(yōu)異性能,C3D 成為主流的動(dòng)作特征提取方法,后續(xù)也有方法在C3D 的基礎(chǔ)上進(jìn)一步地優(yōu)化,如雙流膨脹3D 卷積網(wǎng)絡(luò)I3D[23]等與基于時(shí)域和空間域分離的S3D[24]網(wǎng)絡(luò).除此之外,ResNeXt[25]與SlowFast[26]等也用于3D 動(dòng)作識(shí)別.除了視覺(jué)特征以外,視頻中音頻模態(tài)信息也被用來(lái)作為視覺(jué)特征的補(bǔ)充[27-28].比如對(duì)于唱歌、演講類(lèi)型的視頻,音頻信息對(duì)于視頻中事件的理解可以起到很好的補(bǔ)充作用.針對(duì)VideoQA 中的音頻特征的提取,常見(jiàn)的有手工設(shè)計(jì)的傳統(tǒng)特征梅爾頻譜以及基于深度神經(jīng)網(wǎng)絡(luò)的SoundNet[29]與WALNet[30].此外,視頻中的標(biāo)題和字幕包含了豐富的語(yǔ)義信息,通常也用作為視頻的文本模態(tài)信息的建模.由于標(biāo)題或字幕特征提取與問(wèn)題特征提取類(lèi)似,其特征提取方式將在2.1.2 節(jié)文本特征提取中介紹.
視頻在輸入時(shí)包含視覺(jué)、字幕與音頻多種模態(tài)信息,模型對(duì)其進(jìn)行融合方式也不盡相同.簡(jiǎn)單地操作實(shí)現(xiàn)不同模態(tài)的特征向量的整合,例如部分模型使用點(diǎn)乘、點(diǎn)加、拼接和加權(quán)求和[31],然而簡(jiǎn)單操作使得參數(shù)之間幾乎沒(méi)有聯(lián)系,這種方式的聯(lián)合向量表達(dá)能力明顯不足.所以有模型使用雙線(xiàn)性池化融合視頻多模態(tài)特征向量來(lái)獲得一個(gè)聯(lián)合表征空間[32-33],其方法是計(jì)算兩者的外積,通過(guò)將外積生成的矩陣線(xiàn)性化成一個(gè)向量表示,這意味著該方法更具有表現(xiàn)力.目前,很多模型利用注意力機(jī)制來(lái)融合視頻多模態(tài)信息[34-35],多模態(tài)特征向量通過(guò)注意力操作可以動(dòng)態(tài)產(chǎn)生求和時(shí)要用到的權(quán)重,特征融合時(shí)可以保存額外的權(quán)重信息,起到信息互補(bǔ)的作用.此外,由于Transformer 全自注意力的結(jié)構(gòu)天生就具備處理不同模態(tài)數(shù)據(jù)的能力,逐漸成為主流的多模態(tài)融合的方法.其主要分為單流模型和多流模型,單流模型將視覺(jué)和文本的嵌入拼接到一起,輸入到一個(gè)Transformer中;而多流模型讓視覺(jué)和文本使用2 個(gè)或多個(gè)獨(dú)立的Transformer 分別編碼[36-37],并且可在中間層加入視覺(jué)和文本2 個(gè)模態(tài)之間互注意力來(lái)融合多模態(tài)信息.
2.1.2 文本特征
文本特征提取包括視頻中字幕的文本特征提取與問(wèn)題的文本特征提取,文本特征提取又可以分為單詞級(jí)特征與句子級(jí)特征.對(duì)于單詞級(jí)特征,主要采用包括Word2Vec[38]和GloVe[39]的詞嵌入來(lái)提取單詞級(jí)特征.而對(duì)于句子級(jí)特征,主要采用Skip-Thought[40]和BERT 來(lái)提取句子級(jí)特征.其中BERT 是一種經(jīng)過(guò)微調(diào)的基于Transformer 的語(yǔ)言模型,它能夠捕捉雙向上下文信息,用以在不同的句子級(jí)別任務(wù)中預(yù)測(cè)句子,目前已成為主流的文本處理方案.
視頻中的視覺(jué)和文本都是序列數(shù)據(jù),因此在VideoQA 任務(wù)中,許多研究者使用基于RNN 的模型來(lái)編碼視頻的幀級(jí)特征與文本的單詞級(jí)特征,來(lái)獲取視頻片段級(jí)特征和問(wèn)題級(jí)特征.常被使用的經(jīng)典RNN 結(jié)構(gòu)包括長(zhǎng)短期記憶(long short term memory,LSTM)[41]編碼器和門(mén)控遞歸單元(gated recurrent unit,GRU)[42],雙向LSTM(Bi-LSTM) 和雙向GRU(Bi-GRU)均為前兩者的變體.
2.2.1 基于注意力的模型
注意力機(jī)制廣泛應(yīng)用于自然語(yǔ)言處理和計(jì)算機(jī)視覺(jué)領(lǐng)域,目前已經(jīng)成為神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)的重要組成部分.常見(jiàn)的注意力機(jī)制包括點(diǎn)積模型、雙線(xiàn)性模型以及近幾年流行的自注意力模型和多頭注意力模型等.在VideoQA 任務(wù)中可將問(wèn)題作為查詢(xún),將視頻作為源,那么注意力機(jī)制就是用來(lái)定位視頻中與問(wèn)題相關(guān)的信息.由此,注意力的實(shí)質(zhì)可以看作一個(gè)查詢(xún)到一系列鍵值對(duì)的映射.如圖7 所示,注意力的計(jì)算主要分為3 階段:第1 階段是將查詢(xún)和每個(gè)鍵進(jìn)行相似度計(jì)算得到權(quán)重,常用的相似度函數(shù)有點(diǎn)積、拼接、感知機(jī)等;第2 階段一般是使用一個(gè)softmax 函數(shù)對(duì)這些權(quán)重進(jìn)行歸一化;第3 階段將權(quán)重和相應(yīng)的鍵值進(jìn)行加權(quán)求和得到最終的注意力.
圖7 注意力計(jì)算的3 個(gè)階段Fig.7 Three stages of attention calculation
在VideoQA 任務(wù)中,鍵和值通常是同一個(gè).因此,常見(jiàn)的注意力計(jì)算過(guò)程可以描述為3 種計(jì)算方式:
其中si是計(jì)算的注意力得分,代表查詢(xún)與鍵之間的相似性;ai是si經(jīng)過(guò)歸一化得到的注意力分布,實(shí)質(zhì)為概率分布;c是由權(quán)重與值進(jìn)行加權(quán)求和得到的最終注意力向量.從注意力計(jì)算過(guò)程可以看出,注意力機(jī)制本質(zhì)相當(dāng)于資源再分配機(jī)制,對(duì)原資源根據(jù)對(duì)象重要程度重新分配資源,所分配的資源其實(shí)就是權(quán)重.本文將基于注意力機(jī)制的模型分為:?jiǎn)翁⒁饬43-54]、多跳注意力[33,55-61]和多模態(tài)注意力[62-74].
1)單跳注意力
單跳注意力模型是指以問(wèn)題為查詢(xún),對(duì)視頻的視覺(jué)特征只執(zhí)行1 次注意力計(jì)算,視頻的視覺(jué)特征包含區(qū)域級(jí)、幀級(jí)和片段級(jí)特征.
Zhao 等人[43]提出了雙層注意力網(wǎng)絡(luò)(dual-level attention network,DLAN)模型.該網(wǎng)絡(luò)基于幀級(jí)與片段級(jí)的視頻特征分別利用詞級(jí)與問(wèn)題級(jí)注意力機(jī)制來(lái)學(xué)習(xí)問(wèn)題的聯(lián)合視頻表征.盡管DLAN 利用細(xì)粒度詞級(jí)注意力來(lái)增強(qiáng)視頻表示,然而它忽略了詞級(jí)語(yǔ)義,不同的單詞需要不同程度的注意力,甚至有些詞并不需要注意.Xue 等人[44]提出異構(gòu)樹(shù)型網(wǎng)絡(luò),該網(wǎng)絡(luò)通過(guò)問(wèn)題中的詞來(lái)構(gòu)建語(yǔ)義樹(shù),并根據(jù)單詞詞性對(duì)樹(shù)中的詞進(jìn)行處理,區(qū)分視覺(jué)詞和語(yǔ)言詞,使注意力計(jì)算更為合理.此外,與DLAN 模型分層思想不同,Jang 等人[45]提出的時(shí)空視頻問(wèn)答(spatio-temporal VQA,ST-VQA) 模型基于時(shí)空注意力機(jī)制來(lái)突出重要的區(qū)域與重要的幀,使用2 個(gè)雙層LSTM 來(lái)挖掘視頻視覺(jué)內(nèi)容與問(wèn)答文本內(nèi)容之間的關(guān)系.Falcon 等人[46]對(duì)ST-VQA 模型的幀特征提取做了微調(diào)并設(shè)計(jì)使用了3 種數(shù)據(jù)增強(qiáng)技術(shù),分別為重采樣、鏡像和水平翻轉(zhuǎn).Mazaheri 等人[47]提出基于分層時(shí)空注意的模型更加關(guān)注文本編碼的網(wǎng)絡(luò),使用2 個(gè)獨(dú)立的LSTM 分別對(duì)填空題句子空缺處的左右片段進(jìn)行并行編碼及反編碼.Xu 等人[48]提出利用粗粒度問(wèn)題特征和細(xì)粒度詞特征來(lái)逐步細(xì)化注意力的方法.對(duì)于給定視頻,該模型以問(wèn)題的詞級(jí)特征作為引導(dǎo),在每個(gè)時(shí)間步上通過(guò)設(shè)計(jì)的注意力單元(AMU)對(duì)幀級(jí)外觀(guān)特征與片段級(jí)動(dòng)作特征進(jìn)行關(guān)注.除了利用分層機(jī)制對(duì)視頻與問(wèn)題進(jìn)行建模,Chao 等人[49]認(rèn)為視頻中的對(duì)話(huà)具有多層上下文關(guān)系,從分層注意力角度對(duì)視頻與文本進(jìn)行時(shí)空注意力機(jī)制學(xué)習(xí).而Zhao 等人[50]從自適應(yīng)分層增強(qiáng)編解碼網(wǎng)絡(luò)(AHRN)學(xué)習(xí)的角度來(lái)對(duì)視頻內(nèi)容進(jìn)行建模.自適應(yīng)編碼網(wǎng)絡(luò)根據(jù)其設(shè)計(jì)的二進(jìn)制門(mén)函數(shù)對(duì)視頻進(jìn)行分割,然后利用注意力機(jī)制在問(wèn)題的引導(dǎo)下學(xué)習(xí)相關(guān)幀與片段的聯(lián)合表示,生成問(wèn)題感知視頻表示.
Kim 等人[51]從多任務(wù)學(xué)習(xí)的角度來(lái)解決VideoQA任務(wù),提出問(wèn)題引導(dǎo)下的視頻與字幕匹配任務(wù)和時(shí)間定位任務(wù)作為VideoQA 的輔助任務(wù).與文獻(xiàn)[51]設(shè)計(jì)思想相似,Lei 等人[52]提出基于證據(jù)的時(shí)空答案(spatio-temporal answerer with grounded evidence,STAGE)模型在空間與時(shí)間維度上進(jìn)行監(jiān)督訓(xùn)練,用于輔助主任務(wù).這種額外的輔助監(jiān)督學(xué)習(xí)在一定程度上可以彌補(bǔ)模型在小規(guī)模數(shù)據(jù)集上監(jiān)督學(xué)習(xí)的不足.然而STAGE 模型主要是在時(shí)間維度上提取具有預(yù)設(shè)間隔的網(wǎng)格級(jí)特征.相比之下,為了更好地執(zhí)行多事件時(shí)間推理,Gao 等人[53]提出了時(shí)序分割與事件注意力網(wǎng)絡(luò)模型,該模型利用設(shè)計(jì)的算法將視頻分割成事件級(jí)片段表示,然后利用注意力機(jī)制來(lái)定位給定問(wèn)題的關(guān)鍵事件并輸出答案.事件級(jí)片段表示使得模型在多變環(huán)境中更容易定位到關(guān)鍵事件.
2)多跳注意力
多跳注意力機(jī)制在視頻上進(jìn)行迭代注意力計(jì)算,本次注意力計(jì)算結(jié)果作為下次注意力計(jì)算的輸入.相對(duì)于單跳注意力計(jì)算,多跳注意力計(jì)算可以逐漸細(xì)化問(wèn)題對(duì)于視頻的注意,以逐步引導(dǎo)注意到答案的正確位置.假設(shè)k-1 次的注意力計(jì)算結(jié)果為hzk-1(Q,V),多跳計(jì)算過(guò)程可以表示為
使用問(wèn)題q初始化y0,問(wèn)題與視頻產(chǎn)生的注意力與問(wèn)題級(jí)聯(lián),作為新的問(wèn)題特征與視頻特征再次進(jìn)行注意力計(jì)算,如此迭代計(jì)算以更新yk.使用最終更新后的問(wèn)題特征與視頻特征產(chǎn)生最后的問(wèn)題引導(dǎo)的視頻注意力.
基于對(duì)象屬性在視覺(jué)理解任務(wù)中的有效應(yīng)用,Ye 等人[55]提出了一種基于屬性增強(qiáng)的注意網(wǎng)絡(luò)模型.該模型利用對(duì)象屬性來(lái)增強(qiáng)視頻表示,然后引入多步推理過(guò)程,對(duì)視頻進(jìn)行多跳注意力計(jì)算.在文獻(xiàn)[55]中強(qiáng)調(diào)了對(duì)象屬性對(duì)于VideoQA 任務(wù)的重要性,但沒(méi)有很好地利用問(wèn)題中的每個(gè)詞與視頻每個(gè)部分的關(guān)系.為了能夠根據(jù)問(wèn)題找到視頻不同部分之間的上下文關(guān)系,Chowdhury 等人[56]提出分層關(guān)系注意力模型.該模型在每個(gè)時(shí)間步上以問(wèn)題的每個(gè)詞嵌入和視頻的動(dòng)作與外觀(guān)特征作為注意力模塊的輸入,注意力模塊的輸出與問(wèn)題編碼后的特征一塊傳遞到關(guān)系模塊,其注意力模塊借鑒于文獻(xiàn)[48].Zhao 等人[57]提出了多流分層注意力上下文網(wǎng)絡(luò),和文獻(xiàn)[56]中的問(wèn)題與視頻不同部分具有上下文關(guān)系類(lèi)似,Zhao等人認(rèn)為對(duì)話(huà)具有雙層順序關(guān)系,所以使用層次注意力上下文網(wǎng)絡(luò)對(duì)其進(jìn)行分層建模,與問(wèn)題特征結(jié)合生成上下文感知問(wèn)題表征.
為了同時(shí)利用視頻的空間特征和時(shí)序信息,部分方法采用注意力機(jī)制對(duì)時(shí)-空信息進(jìn)行建模.Zhao等人[58]提出了一個(gè)分層時(shí)空注意網(wǎng)絡(luò)模型r-STAN,該模型根據(jù)目標(biāo)對(duì)象與問(wèn)題分別從空間層次與時(shí)間層次聯(lián)合學(xué)習(xí)關(guān)鍵幀的視覺(jué)特征表示,并且在網(wǎng)絡(luò)中加入了多步推理過(guò)程來(lái)進(jìn)一步提升模型性能.Song等人[59]利用空間注意力完成多重邏輯推理操作,利用時(shí)間注意力捕捉長(zhǎng)時(shí)間依賴(lài)并收集完整的視覺(jué)線(xiàn)索.其中時(shí)間注意力模塊使用的是經(jīng)過(guò)改良的GRU,稱(chēng)為ta-GRU(temporal-attention GRU),將時(shí)間注意力與其隱藏的狀態(tài)轉(zhuǎn)移過(guò)程關(guān)聯(lián)起來(lái),通過(guò)捕捉長(zhǎng)時(shí)間依賴(lài)性,獲取更完整的時(shí)序視覺(jué)線(xiàn)索.此外,Jiang 等人[60]提出問(wèn)題引導(dǎo)時(shí)空上下文注意的網(wǎng)絡(luò)(questionguided spatio-temporal contextual attention network,QueST)模型.該模型從時(shí)間和空間2 個(gè)維度引入視覺(jué)信息對(duì)問(wèn)題信息進(jìn)行協(xié)同建模,然后從2 個(gè)維度挖掘與問(wèn)題相關(guān)的視覺(jué)信息.
區(qū)別于以往文獻(xiàn)[45, 48]中提出的方法,將外觀(guān)與動(dòng)作分別做單獨(dú)處理,Yang 等人[33]提出了問(wèn)題感知管道交換網(wǎng)絡(luò)(tube-switch network,TSN),其注意力模塊是基于多模態(tài)分解雙線(xiàn)性池(multi-modal factorized bilinear pooling,MFB)[62],可以對(duì)外觀(guān)和動(dòng)作進(jìn)行同步注意力機(jī)制,而更新模塊可以逐步細(xì)化多層TSN 中的關(guān)注點(diǎn),交換模塊則根據(jù)問(wèn)題在每個(gè)推理步驟中自適應(yīng)地選擇外觀(guān)或運(yùn)動(dòng)管道作為主特征,另一個(gè)特征作為支撐特征用于豐富主特征,指導(dǎo)多步推理過(guò)程中的注意力細(xì)化.
現(xiàn)有模型對(duì)于VideoQA 任務(wù)只提供答案,并未針對(duì)答案提供可解釋的依據(jù).Liang 等人[61]提出了一種聚焦視覺(jué)與文本注意力(focal visual-text attention,F(xiàn)VTA)模型,該模型可以預(yù)測(cè)答案的同時(shí),給出視覺(jué)和文本證據(jù)以解釋推理過(guò)程.圖8 展示了FVTA 與傳統(tǒng)注意力的區(qū)別,模型從問(wèn)題、文本與視覺(jué)3 個(gè)維度進(jìn)行關(guān)注,應(yīng)用于3 維張量,而一般的注意力模型應(yīng)用于矢量或矩陣.該模型的核心在于視覺(jué)與文本的注意力層,其在每個(gè)時(shí)間步上進(jìn)行多跳注意,跨越多個(gè)序列,充分利用了多時(shí)間步、多序列的特質(zhì).FVTA注意力機(jī)制特有的性質(zhì)使其既考慮了視覺(jué)與文本序列的內(nèi)相關(guān)性,又考慮了交叉序列的相互作用,保留了序列數(shù)據(jù)中的多模態(tài)特征表示而不丟失重要信息.
圖8 FVTA 和傳統(tǒng)注意力的比較[61]Fig.8 Comparison of FVTA and traditional attention[61]
3)多模態(tài)注意力
VideoQA 模型需要處理的數(shù)據(jù)包含多種模態(tài),模態(tài)內(nèi)與模態(tài)間往往存在很多關(guān)聯(lián)信息.對(duì)于模態(tài)內(nèi)的關(guān)系,使用由注意力機(jī)制演變而來(lái)的自注意力來(lái)挖掘自身內(nèi)部信息特征得到相關(guān)性;對(duì)于模態(tài)間的關(guān)系,通常使用共同注意力機(jī)制來(lái)獲取,例如問(wèn)題引導(dǎo)視頻注意力與視頻引導(dǎo)問(wèn)題注意力.此外,對(duì)于包含字幕的視頻,還將存在字幕引導(dǎo)的問(wèn)題注意力與問(wèn)題引導(dǎo)的字幕注意力.模型通常包含但不僅限于這2 種注意力機(jī)制,對(duì)于注意力模塊的輸入可以按需調(diào)整.
Xue 等人[63]提出了一種基于視頻與問(wèn)題共同注意力機(jī)制的方法.該方法提出的注意力機(jī)制分為問(wèn)題引導(dǎo)的視頻注意力與視頻引導(dǎo)的問(wèn)題注意力,以及將兩者進(jìn)行整合的統(tǒng)一注意力.與文獻(xiàn)[63]類(lèi)似,Chu 等人[64]進(jìn)一步提出了重看與重讀機(jī)制,實(shí)質(zhì)上也是視頻與問(wèn)題的共同注意力.兩者組合的遺忘觀(guān)察模型為共同注意力模型,更好地利用了視頻的時(shí)間信息和答案的短語(yǔ)信息.Gao 等人[65]提出了一種結(jié)構(gòu)化雙流注意力網(wǎng)絡(luò)(structured two-stream attention network,STA) 的模型,不同的是該模型由多層共同注意力網(wǎng)絡(luò)組成.
然而由于視頻的復(fù)雜性與時(shí)序性,僅僅將共同注意力機(jī)制應(yīng)用到VideoQA 中往往效果很差.針對(duì)這一問(wèn)題,Li 等人[66]提出具有多樣性學(xué)習(xí)的可學(xué)習(xí)聚合網(wǎng)絡(luò)(learnable aggregating net with diversity learning,LAD-Net),該網(wǎng)絡(luò)使用獨(dú)特的多路徑金字塔式共同注意力機(jī)制.多樣性學(xué)習(xí)是為了處理視頻復(fù)雜的特征,將視頻特征與問(wèn)題特征以不同維度的特征表示進(jìn)行多次共同注意力學(xué)習(xí),再利用懲罰機(jī)制進(jìn)行多樣性學(xué)習(xí).
共同注意力機(jī)制能夠較好地捕獲了模態(tài)之間的關(guān)系,而對(duì)于模態(tài)內(nèi)關(guān)系的內(nèi)部依賴(lài)刻畫(huà)不足.Li 等人[67]將自注意力機(jī)制與共同注意力機(jī)制結(jié)合,提出了位置自注意力和共同注意力(positional self-attention with co-attention,PSAC) 模型,PSAC 模型結(jié)構(gòu)如圖9所示.位置自注意力通過(guò)關(guān)注同一序列中的所有位置,然后添加絕對(duì)位置的表示來(lái)計(jì)算每個(gè)位置的響應(yīng).同時(shí)利用共同注意力機(jī)制以使模型能夠同時(shí)考慮相關(guān)的視頻和文本特征,從而消除了不相關(guān)的視頻和文字信息,確保了正確答案的生成.
圖9 PSAC 模型結(jié)構(gòu)[67]Fig.9 The structure of PSAC model [67]
部分方法不僅限于將注意力機(jī)制應(yīng)用到視頻與問(wèn)題2 種模態(tài),而且考慮了字幕與問(wèn)題之間的注意力.Kim 等人[68]提出了一種多模態(tài)雙重注意力記憶(multimodal dual attention memory,MDAM) 模型.MDAM 中的雙重注意力與多模態(tài)融合是其關(guān)鍵所在.雙重注意力機(jī)制的設(shè)計(jì)思想來(lái)源于Transformer.自注意力模塊用于學(xué)習(xí)預(yù)處理幀與字幕潛在的可變信息.多頭注意模塊在給定問(wèn)題下根據(jù)自注意力模塊的輸出來(lái)找出與問(wèn)題相關(guān)的潛在信息.與文獻(xiàn)[68]相比,Lei 等人[69]提出的網(wǎng)絡(luò)增加了一個(gè)視覺(jué)概念特征.該網(wǎng)絡(luò)分為3 流進(jìn)行獨(dú)立處理,將區(qū)域視覺(jué)特征、視覺(jué)概念特征和字幕特征分別與問(wèn)答對(duì)進(jìn)行基于注意力機(jī)制的特征融合,每個(gè)處理流均使用上下文匹配模塊[75-76]和Bi-LSTM 策略.該方法并沒(méi)有充分地考慮到視頻和字幕之間的交互以及視頻中的對(duì)象關(guān)系,對(duì)于多模態(tài)推理的能力有所欠缺.針對(duì)文獻(xiàn)[69]中的方法不足,Li 等人[70]提出關(guān)系感知分層注意力網(wǎng)絡(luò),在引入視覺(jué)概念的同時(shí)充分考慮了對(duì)象之間的動(dòng)態(tài)關(guān)系和交互理解.該網(wǎng)絡(luò)使用基于GAT[77]編碼器建模對(duì)象之間的空間和語(yǔ)義關(guān)系,并采用問(wèn)題引導(dǎo)的層次注意力模塊捕捉多模態(tài)對(duì)象的靜態(tài)和動(dòng)態(tài)關(guān)系,最后利用自注意力機(jī)制進(jìn)行多模態(tài)融合以突出各模態(tài)本身的重要性.
利用多模態(tài)注意力機(jī)制來(lái)定位問(wèn)題相關(guān)的關(guān)鍵時(shí)刻,然而關(guān)鍵時(shí)刻定位所需的模態(tài)可能與答案預(yù)測(cè)所需要的模態(tài)不同.Kim 等人[71]提出模態(tài)轉(zhuǎn)移注意力網(wǎng)絡(luò)(modality shifting attention network,MSAN),它很好地解決了模態(tài)轉(zhuǎn)換問(wèn)題.MSAN 包含2 個(gè)組件,即時(shí)刻提議網(wǎng)絡(luò)(如圖10 中的②)與異構(gòu)推理網(wǎng)絡(luò)(如圖10 中的③).前者用來(lái)定位具體時(shí)刻,利用注意力機(jī)制對(duì)上下文與假設(shè)進(jìn)行聯(lián)合建模;后者使用多模態(tài)注意力機(jī)制來(lái)預(yù)測(cè)答案,它引入異構(gòu)注意力機(jī)制來(lái)考慮模態(tài)間和模態(tài)內(nèi)的相互作用.同時(shí)也提出了模態(tài)重要性調(diào)制(如圖10 中的①)來(lái)給定2 個(gè)組件中每個(gè)模態(tài)的權(quán)重.
圖10 MSAN 模型的關(guān)鍵模塊[71]Fig.10 Key modules of MSAN model[71]
與傳統(tǒng)的注意力機(jī)制不同,Jin 等人[72]提出了一種新的多交互注意力機(jī)制.多交互在該模型中指的是視覺(jué)信息與文本信息的交互,以及多模態(tài)中多層次交互,即幀級(jí)和片段級(jí)2 種類(lèi)型的交互,其與Transformer 模型結(jié)構(gòu)相似.該模型既考慮了視頻中的動(dòng)態(tài)特征,又考慮了不同級(jí)別的句子表示,這對(duì)模型的推理起到關(guān)鍵作用.
Kim 等人[73]提出雙級(jí)注意力機(jī)制,分別是詞/對(duì)象級(jí)與幀級(jí).然后以自注意力和交叉注意力機(jī)制融合視頻與密集字幕來(lái)進(jìn)一步改進(jìn)模型的時(shí)間定位,最后通過(guò)門(mén)控機(jī)制選擇信息量最大的幀.視頻中密集字幕的引入相比于單個(gè)圖像字幕能夠提供更有用的線(xiàn)索來(lái)回答問(wèn)題.基于文獻(xiàn)[73]提出的模型,Chadha等人[74]在其輸入端加入了常識(shí)知識(shí)庫(kù),從輸入視頻中的幀特征來(lái)生成對(duì)應(yīng)常識(shí)性特征與原視頻特征連接.這些常識(shí)性特征可以幫助模型更好地感知視頻中事件之間的關(guān)系,從而提高模型在常識(shí)推理的視頻任務(wù)中的表現(xiàn).
本節(jié)從單跳注意力、多跳注意力與多模態(tài)注意力3 個(gè)互相獨(dú)立又存在包含關(guān)系的方面對(duì)基于注意力的模型進(jìn)行了詳細(xì)介紹.單跳注意力僅能突出視頻與問(wèn)題的淺層關(guān)系,深層關(guān)系則需要視頻與問(wèn)題的多跳注意力遞進(jìn)挖掘.而多模態(tài)注意力除了關(guān)注視頻與問(wèn)題的交互權(quán)重之外,同時(shí)考慮各模態(tài)的自注意力以及視頻與問(wèn)題,字幕與問(wèn)題之間的共同注意力,充分探索了多模態(tài)中模內(nèi)關(guān)系與模間關(guān)系.整體來(lái)講,基于注意力的模型有著低復(fù)雜度且與時(shí)序無(wú)關(guān)的特點(diǎn),也說(shuō)明該類(lèi)模型無(wú)法捕捉位置信息,即不能學(xué)習(xí)視頻與問(wèn)題序列中的順序關(guān)系.
2.2.2 基于記憶網(wǎng)絡(luò)的模型
在VideoQA 這一長(zhǎng)序列學(xué)習(xí)任務(wù)中,模型需要記憶更多的視頻內(nèi)容,并在答案推理時(shí),根據(jù)問(wèn)題在記憶的多個(gè)時(shí)間幀信息中進(jìn)行準(zhǔn)確定位.現(xiàn)有的大多數(shù)機(jī)器學(xué)習(xí)模型都缺乏能夠與推理無(wú)縫結(jié)合的長(zhǎng)期記憶單元.雖然基于RNN 的方法可以進(jìn)行序列學(xué)習(xí),但受其記憶單元本身的特性影響,不能準(zhǔn)確完整記憶長(zhǎng)序列內(nèi)容.為了解決這一問(wèn)題,研究人員探索使用記憶網(wǎng)絡(luò)來(lái)進(jìn)行長(zhǎng)序列學(xué)習(xí)和推理.本文將基于記憶網(wǎng)絡(luò)的模型分為靜態(tài)記憶網(wǎng)絡(luò)[31-32,78-81]和動(dòng)態(tài)記憶網(wǎng)絡(luò)[34-35,82-86].
1)靜態(tài)記憶網(wǎng)絡(luò)
MemNN 由Weston 等人[12]提出,被用于文本問(wèn)答.該網(wǎng)絡(luò)的核心思想是構(gòu)建一個(gè)可以讀寫(xiě)的記憶組件,同時(shí)建立故事、問(wèn)題與答案之間的關(guān)系模型.MemNN 模型需要支持答案的事實(shí)進(jìn)行監(jiān)督訓(xùn)練,然而現(xiàn)有數(shù)據(jù)集并不包含答案對(duì)應(yīng)的事實(shí)支撐.因此,Sukhbaatar 等人[78]提出了端到端記憶網(wǎng)絡(luò)(end-to-end memory network,MemN2N),同樣用于文本問(wèn)答.與MemNN 不同的是,該網(wǎng)絡(luò)使用輸入輸出對(duì)進(jìn)行端到端的訓(xùn)練,所以MemN2N 僅僅需要弱監(jiān)督訓(xùn)練模式,更普遍地適用于現(xiàn)實(shí)環(huán)境.
受ImageQA 任務(wù)的啟發(fā),Zeng 等人[79]進(jìn)一步對(duì)MemN2N 模型進(jìn)行擴(kuò)展,提出了拓展型端到端記憶網(wǎng)絡(luò)模型E-MN,將其原始輸入修改為由幀序列組成的視頻,使用雙向LSTM 對(duì)幀表示序列進(jìn)行編碼,捕獲連續(xù)幀中動(dòng)作之間的時(shí)序關(guān)系,提高了模型對(duì)時(shí)間信息的感知能力.但是,由于視頻包含了豐富多樣的數(shù)據(jù),簡(jiǎn)單的擴(kuò)展模型并不能很好地利用它們.與文獻(xiàn)[79]類(lèi)似,Tapaswi 等人[80]基于MemN2N 模型進(jìn)行修改.為了應(yīng)用于更大規(guī)模的MovieQA 數(shù)據(jù)集,他們將原模型的詞嵌入替換為Word2Vec 預(yù)訓(xùn)練的詞嵌入來(lái)減少訓(xùn)練參數(shù),并學(xué)習(xí)一個(gè)共享的線(xiàn)性投影層將視頻和問(wèn)題映射到一個(gè)低維的公共空間.
Kim 等人[31]提出了一種深度嵌入記憶網(wǎng)絡(luò)(deep embedded memory network,DEMN) 用來(lái)解決視頻故事問(wèn)答任務(wù),該模型對(duì)記憶網(wǎng)絡(luò)的泛化成分進(jìn)行了優(yōu)化.該網(wǎng)絡(luò)將視頻的場(chǎng)景與對(duì)話(huà)作為重點(diǎn),將兩者組合成視覺(jué)語(yǔ)言特征對(duì),由其學(xué)習(xí)場(chǎng)景嵌入與對(duì)話(huà)嵌入.然后以句子形式將場(chǎng)景和對(duì)話(huà)結(jié)合起來(lái),從視頻場(chǎng)景與對(duì)話(huà)的聯(lián)合流中重新構(gòu)建視頻故事,將其儲(chǔ)存在長(zhǎng)期記憶組件中.
由于DEMN 記憶網(wǎng)絡(luò)模型是將每個(gè)記憶槽視為獨(dú)立的內(nèi)存塊,因此忽略了相鄰記憶塊之間的相關(guān)性.Na 等人[32]提出了一種用于電影故事問(wèn)答的可讀寫(xiě)記憶網(wǎng)絡(luò)(read-write memory network,RWMN),該網(wǎng)絡(luò)的卷積分層網(wǎng)絡(luò)由多個(gè)更高容量和更具靈活性的讀寫(xiě)內(nèi)存構(gòu)成,并采用連續(xù)的方式存儲(chǔ),增強(qiáng)了存儲(chǔ)單元之間的關(guān)聯(lián)性進(jìn)而使得后續(xù)推理更加準(zhǔn)確.RWMN 的輸入與DEMN 相似,推理和回答預(yù)測(cè)部分與MemNN 相似.與其他記憶網(wǎng)絡(luò)的不同之處在于該模型記憶陣列的維數(shù)在處理過(guò)程中減小,而其他模型的維數(shù)是不變的.
以上基于靜態(tài)記憶網(wǎng)絡(luò)的方法將不同模態(tài)信息保存于不同的記憶塊中,并沒(méi)有對(duì)需要記憶的特征做預(yù)處理或增強(qiáng)處理.Cai 等人[81]提出了一種基于遞歸神經(jīng)網(wǎng)絡(luò)和自注意力模塊的模型.其核心是特征增強(qiáng)模塊與注意力機(jī)制.特征增強(qiáng)利用視覺(jué)特征與問(wèn)題特征通過(guò)記憶機(jī)制相互增強(qiáng),兩者進(jìn)行細(xì)粒度的模態(tài)交互后,再記憶到內(nèi)存中.從2 個(gè)記憶模塊輸出問(wèn)題引導(dǎo)的視覺(jué)特征與視覺(jué)引導(dǎo)的問(wèn)題特征,作為自注意力的輸入,來(lái)捕獲序列的全局上下文.然后再使用互注意力機(jī)制進(jìn)行2 種特征的互相關(guān)注.這種跨模態(tài)的特征增強(qiáng)記憶方法,可以實(shí)現(xiàn)在沒(méi)有冗余信息的情況下有效記憶.
2)動(dòng)態(tài)記憶網(wǎng)絡(luò)
為了能夠解決長(zhǎng)序列的動(dòng)態(tài)記憶和推理問(wèn)題,Kumar 等人[82]提出動(dòng)態(tài)記憶網(wǎng)絡(luò)(dynamic memory network, DMN),用于解決基于文本問(wèn)答問(wèn)題.其核心處理模塊為情景記憶模塊,它由注意力模塊與循環(huán)網(wǎng)絡(luò)組成,以問(wèn)題、上一次記憶的內(nèi)容和事實(shí)表征作為當(dāng)前迭代的輸入,用來(lái)更新情景記憶內(nèi)容,并通過(guò)多次迭代更新得到最終的答案預(yù)測(cè).Xiong 等人[83]在DMN 模型之上做了進(jìn)一步優(yōu)化,提出了動(dòng)態(tài)記憶網(wǎng)絡(luò)優(yōu)化模型DMN+.該優(yōu)化模型將DMN 中單向的 GRU換成了雙向GRU,將原來(lái)記憶更新使用的GRU 替換成ReLU,不但簡(jiǎn)化了模型,還提高了模型的準(zhǔn)確率.與靜態(tài)記憶網(wǎng)絡(luò)相比,動(dòng)態(tài)記憶網(wǎng)絡(luò)能夠通過(guò)注意力機(jī)制來(lái)迭代更新記憶內(nèi)容,過(guò)濾掉不相關(guān)的記憶內(nèi)容.
考慮到DMN/DMN+缺乏動(dòng)作分析與時(shí)序建模,Gao 等人[34]提出了一種基于DMN/DMN+的動(dòng)作與外觀(guān)共同記憶網(wǎng)絡(luò)模型.具體來(lái)講,將視頻的動(dòng)作特征和外觀(guān)特征輸入時(shí)間卷積和反卷積神經(jīng)網(wǎng)絡(luò),生成多級(jí)上下文事實(shí).這些上下文事實(shí)被用作記憶網(wǎng)絡(luò)的輸入,共同記憶網(wǎng)絡(luò)擁有2 種獨(dú)立的記憶狀態(tài),一種用于動(dòng)作,另一種用于外觀(guān).最后,使用共同注意力機(jī)制解決動(dòng)作與外觀(guān)信息的交互和聯(lián)合建模.與文獻(xiàn)[34]相同,F(xiàn)an 等人[84]提出的異構(gòu)記憶增強(qiáng)多模態(tài)注意力模型同樣考慮了視頻的動(dòng)作特征與外觀(guān)特征,不同之處在于該模型能充分地利用視覺(jué)特征和問(wèn)題特征與記憶內(nèi)容的相互作用來(lái)學(xué)習(xí)全局上下文感知表征,模型架構(gòu)如圖11 所示.模型第1 部分將外觀(guān)特征和運(yùn)動(dòng)特征融合起來(lái),同時(shí)學(xué)習(xí)時(shí)空注意力,解決了多數(shù)方法未能正確識(shí)別注意力的問(wèn)題.第2 部分設(shè)計(jì)了新的網(wǎng)絡(luò)結(jié)構(gòu),將問(wèn)題編碼器和問(wèn)題記憶網(wǎng)絡(luò)整合起來(lái),主要是為了解決有較為復(fù)雜語(yǔ)義且需要推理的問(wèn)題.最后一部分,設(shè)計(jì)了一個(gè)多模態(tài)融合層,可以有效地將視覺(jué)特征和問(wèn)題特征與注意力權(quán)重結(jié)合起來(lái),并支持多步推理.
圖11 異構(gòu)記憶增強(qiáng)多模態(tài)注意力模型[84]Fig.11 Heterogeneous memory enhanced multimodal attention model[84]
針對(duì)電影類(lèi)的VideoQA 任務(wù),視頻中包含大量的字幕信息,這些字幕對(duì)問(wèn)答尤為重要.Wang 等人[35]提出了一個(gè)由靜態(tài)詞記憶模塊和動(dòng)態(tài)字幕記憶模塊組成的分層記憶網(wǎng)絡(luò)(layered memory network,LMN),能夠?qū)W習(xí)電影內(nèi)容的分級(jí)(幀級(jí)與片段級(jí)) 表示.首先,靜態(tài)詞記憶模塊利用幀區(qū)域視覺(jué)特征映射到單詞空間,得到幀級(jí)語(yǔ)義表示.然后,通過(guò)動(dòng)態(tài)字幕記憶獲得電影片段中特定幀的語(yǔ)義表示,即片段級(jí)表示.片段級(jí)表示是從詞空間到句子空間的轉(zhuǎn)換,從而可獲得大量的語(yǔ)義信息.Wang 等人[35]同時(shí)提出了靜態(tài)詞記憶的多跳機(jī)制、動(dòng)態(tài)字幕記憶的更新機(jī)制以及問(wèn)題引導(dǎo)下的字幕表示機(jī)制,這3 個(gè)機(jī)制對(duì)模型的延伸方法去除無(wú)關(guān)信息起到非常大的作用,也大大提高了模型的推理能力.此外,一般的多模態(tài)融合方法[87-88]只關(guān)注于建模不同模態(tài)的交互特征,這些方法對(duì)問(wèn)題是不知曉的,因?yàn)樵谀B(tài)融合過(guò)程中問(wèn)題與答案是不參與其中的,所以Kim 等人[85]提出了漸進(jìn)注意力記憶網(wǎng)絡(luò)(progressive attention memory network,PAMN).PAMN 包含3 個(gè)主要功能模塊:①遞進(jìn)注意力機(jī)制,找出與回答問(wèn)題有關(guān)的時(shí)間部分;②動(dòng)態(tài)模態(tài)融合,自適應(yīng)地確定每個(gè)模態(tài)的貢獻(xiàn)來(lái)聚合每個(gè)記憶模塊的輸出;③信念修正答案方案,該方案基于已有的問(wèn)題和注意力對(duì)每個(gè)候選答案的預(yù)測(cè)分?jǐn)?shù)進(jìn)行連續(xù)修正.
Yu 等人[86]提出了由2 個(gè)不同的記憶網(wǎng)絡(luò)組成的多模態(tài)分層記憶注意力網(wǎng)絡(luò)框架.該網(wǎng)絡(luò)又可以稱(chēng)為一種粗粒度到細(xì)粒度的記憶體系結(jié)構(gòu),它能完成從粗粒度到細(xì)粒度的推理過(guò)程.第1 層為頂部引導(dǎo)記憶網(wǎng)絡(luò),淺層次上過(guò)濾與問(wèn)題不相關(guān)的信息.第2 層為底部增強(qiáng)的多模態(tài)記憶注意力網(wǎng)絡(luò),該網(wǎng)絡(luò)負(fù)責(zé)進(jìn)行深度推理.雙層記憶網(wǎng)絡(luò)的共同協(xié)作能夠?qū)W習(xí)到視頻幀之間的細(xì)粒度注意力,從而提升問(wèn)答的質(zhì)量.
總的來(lái)看,記憶網(wǎng)絡(luò)的引入主要解決了模型對(duì)視頻長(zhǎng)序列建模的問(wèn)題,在基于注意力突出重要內(nèi)容的基礎(chǔ)之上又保證模型不遺漏其他用于推理的必要信息.靜態(tài)記憶網(wǎng)絡(luò)雖然能夠完成對(duì)長(zhǎng)序列信息的記憶,但并未對(duì)其記憶內(nèi)存2 次或多次加工,即其保存的信息往往是粗粒度的.動(dòng)態(tài)記憶網(wǎng)絡(luò)則是對(duì)靜態(tài)記憶網(wǎng)絡(luò)的優(yōu)化,通過(guò)多次注意力使得記憶內(nèi)容更加精細(xì),更有助于模型推理.但是記憶網(wǎng)絡(luò)需要較大存儲(chǔ)空間與讀寫(xiě)開(kāi)銷(xiāo),因此模型計(jì)算量也相對(duì)很大.同時(shí),該類(lèi)方法建模視頻復(fù)雜的時(shí)空結(jié)構(gòu)的能力較弱,在處理時(shí)空推理的問(wèn)題上表現(xiàn)不佳.
2.2.3 基于圖網(wǎng)絡(luò)的模型
近年來(lái),圖神經(jīng)網(wǎng)絡(luò)在知識(shí)圖譜與社交網(wǎng)絡(luò)等領(lǐng)域取得了重大突破[89-90].圖神經(jīng)網(wǎng)絡(luò)可將數(shù)據(jù)看作圖中節(jié)點(diǎn),節(jié)點(diǎn)與節(jié)點(diǎn)間通過(guò)邊進(jìn)行連接,并通過(guò)消息傳播對(duì)節(jié)點(diǎn)間的依賴(lài)關(guān)系進(jìn)行建模.同時(shí),圖神經(jīng)網(wǎng)絡(luò)不僅能很好地處理結(jié)構(gòu)化數(shù)據(jù),而且能夠處理像視頻這樣的非結(jié)構(gòu)化數(shù)據(jù).視頻包含豐富的時(shí)空相關(guān)的動(dòng)態(tài)屬性,在一個(gè)視頻中,幀級(jí)信息能夠提供視頻的空間結(jié)構(gòu),例如對(duì)象的位置信息與動(dòng)作信息,而片段級(jí)信息能夠提供視頻的時(shí)間結(jié)構(gòu),例如發(fā)生動(dòng)作的序列以及狀態(tài)的轉(zhuǎn)換.為了能夠更進(jìn)一步地提高VideoQA 的性能表現(xiàn),對(duì)視頻時(shí)空結(jié)構(gòu)的聯(lián)合推理十分必要.因此,研究者通過(guò)利用圖神經(jīng)網(wǎng)絡(luò)來(lái)挖掘視頻中的時(shí)空依賴(lài)關(guān)系,更好地建模對(duì)象間的關(guān)系信息.
Huang 等人[91]提出了一個(gè)位置感知圖卷積網(wǎng)絡(luò)(location-aware graph convolutional network,L-GCN)來(lái)建模視頻中被檢測(cè)對(duì)象之間的關(guān)系.視頻編碼流利用對(duì)象位置感知圖來(lái)理解視頻內(nèi)容.基于對(duì)象的位置感知圖既考慮了對(duì)象之間的交互,又考慮了對(duì)象的時(shí)間位置信息.但是該方法比較依賴(lài)于學(xué)習(xí)模態(tài)之間的位置關(guān)系,并沒(méi)有挖掘到問(wèn)題的深層次語(yǔ)義關(guān)系.
與文獻(xiàn)[91]提出的方法不同,Jiang 等人[92]提出了異構(gòu)圖對(duì)齊(heterogeneous graph alignment,HGA)網(wǎng)絡(luò),把問(wèn)題與視頻特征融合形成一個(gè)異構(gòu)圖,再送入GCN 中.該網(wǎng)絡(luò)將多模態(tài)因素視為統(tǒng)一的異構(gòu)圖節(jié)點(diǎn),并通過(guò)對(duì)齊策略來(lái)生成加權(quán)鄰接矩陣,構(gòu)造多層圖卷積網(wǎng)絡(luò)進(jìn)行多模態(tài)交叉推理.HGA 通過(guò)建模多種模態(tài)之間的復(fù)雜相關(guān)性,促進(jìn)了模態(tài)間和模態(tài)內(nèi)的相互作用以及跨模態(tài)推理.
雖然HGA 同時(shí)利用了視頻的外觀(guān)特征與動(dòng)作特征,但是并沒(méi)有充分挖掘兩者分別與問(wèn)題的深層關(guān)系.Seo 等人[93]提出了動(dòng)作-外觀(guān)協(xié)同網(wǎng)絡(luò)(motionappearance synergistic network,MASN),將GCN 與注意力機(jī)制相結(jié)合.前期利用GCN 分別對(duì)外觀(guān)特征與動(dòng)作特征進(jìn)行時(shí)空建模,后期以問(wèn)題為引導(dǎo)的視覺(jué)表示為輸入,利用注意力機(jī)制生成分別以外觀(guān)和動(dòng)作為中心的特征及混合特征,最后通過(guò)融合模塊來(lái)調(diào)節(jié)3 種信息的權(quán)重.
現(xiàn)有模型HGA 與MASN 直接將外觀(guān)特征與動(dòng)作特征進(jìn)行交互,沒(méi)有充分利用異構(gòu)模態(tài)的交互.Park 等人[94]提出了一種稱(chēng)為Bridge2Answer 的方法,Bridge2Answer 模型核心組件如圖12 所示.該方法采用GCN 思想構(gòu)建表觀(guān)圖、運(yùn)動(dòng)圖與問(wèn)題圖,并充分利用它們之間的交叉關(guān)系來(lái)推斷答案.其中以問(wèn)題圖作為外觀(guān)圖到動(dòng)作圖和動(dòng)作圖到外觀(guān)圖的交互橋梁,利用問(wèn)題的合成語(yǔ)義以調(diào)節(jié)外觀(guān)圖與動(dòng)作圖之間的關(guān)系.由于問(wèn)題圖的結(jié)構(gòu)可以反映單詞之間的語(yǔ)義依賴(lài)關(guān)系,因此問(wèn)題條件的視覺(jué)節(jié)點(diǎn)能夠有效地傳遞到問(wèn)題邊緣的相關(guān)視覺(jué)節(jié)點(diǎn).
圖12 Bridge2Answer 方法的圖交互部分[94]Fig.12 The graph interaction part of Bridge2Answer method[94]
此外,為了在執(zhí)行推理時(shí)進(jìn)一步挖掘外觀(guān)特征和動(dòng)作特征關(guān)聯(lián)和互補(bǔ)的關(guān)系,Wang 等人[95]提出了雙視覺(jué)圖推理單元(dual-visual graph reasoning unit,DualVGR),模型以迭代方式堆疊該單元執(zhí)行多步推理.DualVGR 通過(guò)查詢(xún)懲罰模塊過(guò)濾掉不相關(guān)片段的特征,使用多視圖圖網(wǎng)絡(luò)提供上下文感知的特征表示.多視圖圖網(wǎng)絡(luò)分別處理外觀(guān)、動(dòng)作及兩者之間關(guān)系的特征圖,對(duì)于外觀(guān)圖與動(dòng)作圖,通過(guò)自注意力機(jī)制更新其鄰居節(jié)點(diǎn)的表示,對(duì)于兩者關(guān)系圖則基于AM-GCN[96],通過(guò)執(zhí)行圖卷積操作為各自尋求一個(gè)特定的嵌入和一個(gè)公共嵌入.
為了更關(guān)注于視頻中的對(duì)象及其交互,Dang 等人[97]提出以對(duì)象為中心的視頻表示作為構(gòu)建視頻時(shí)空結(jié)構(gòu)基礎(chǔ)的方法,該方法的重點(diǎn)是將視頻抽象為時(shí)空中存在的動(dòng)態(tài)交互對(duì)象.問(wèn)題條件下的對(duì)象特征通過(guò)GCN 與上下文對(duì)象特征進(jìn)行交互,整合動(dòng)態(tài)對(duì)象圖的時(shí)間維度信息,創(chuàng)建一個(gè)由N個(gè)對(duì)象組成的無(wú)序集合.最終,視頻被抽象為一個(gè)時(shí)空?qǐng)D,其空間和時(shí)間依賴(lài)性取決于問(wèn)題.以對(duì)象為中心的視頻表示的輸出用作通用關(guān)系推理引擎的知識(shí)庫(kù),并應(yīng)用于提取問(wèn)題的相關(guān)視覺(jué)信息.
與MASN,HGA,DualVGR 相比,Jiang 等人[98]提出的輕量級(jí)視覺(jué)語(yǔ)言推理(lightweight visual-linguistic reasoning,LiVLR)模型,在同一數(shù)據(jù)集上較大程度地減少了模型參數(shù)的同時(shí)又提升了模型的性能.該模型主要由基于GCN 的視覺(jué)編碼器、語(yǔ)言編碼器與多樣性感知視覺(jué)語(yǔ)言推理模塊(diversity-aware visuallinguistic reasoning module,DaVL)組成.視覺(jué)和語(yǔ)言編碼器最終生成多粒度的視覺(jué)和語(yǔ)言表示,由于模型考慮了視覺(jué)表征和語(yǔ)言表征在不同語(yǔ)義層次上的多樣性,所以使用基于GCN 的DaVL 模塊進(jìn)一步編碼和捕獲節(jié)點(diǎn)之間的關(guān)系,并輸出聯(lián)合問(wèn)題相關(guān)表征.
現(xiàn)有基于GCN 的方法均在相同尺度的視頻片段中尋找答案,然而這些方法往往會(huì)導(dǎo)致獲取的信息不足或冗余的問(wèn)題.Jiao 等人[99]提出了一種多尺度遞進(jìn)注意力網(wǎng)絡(luò)(multi-scale progressive attention network,MSPAN),將GCN 與注意力結(jié)合來(lái)實(shí)現(xiàn)跨尺度視頻信息之間的關(guān)系推理,MSPAN 網(wǎng)絡(luò)結(jié)構(gòu)如圖13 所示.通過(guò)不同核大小的最大池化得到多尺度圖,多尺度圖中的每個(gè)節(jié)點(diǎn)通過(guò)GCN 進(jìn)行節(jié)點(diǎn)更新,再利用逐步注意力機(jī)制來(lái)實(shí)現(xiàn)跨尺度圖交互過(guò)程中多尺度特征的融合.這種跨尺度特征交互能夠挖掘不同尺度視頻片段中對(duì)象之間的深層次關(guān)系.
圖13 MSPAN 網(wǎng)絡(luò)結(jié)構(gòu)[99]Fig.13 MSPAN network structure[99]
以往方法一般只研究對(duì)象間或幀間的單一交互,不足以理解視頻中復(fù)雜的場(chǎng)景.Peng 等人[100]提出了一種遞進(jìn)圖注意網(wǎng)絡(luò)模型(progressive graph attention network,PGAT),它通過(guò)圖注意網(wǎng)絡(luò)以漸進(jìn)方式探索視頻的對(duì)象級(jí)、幀級(jí)和片段級(jí)的多重關(guān)系.這些不同級(jí)別的圖以循序漸進(jìn)的方式連接起來(lái),以理解從低級(jí)到高級(jí)的視覺(jué)關(guān)系.Liu 等人[101]將記憶機(jī)制結(jié)合到圖網(wǎng)絡(luò)中,提出了視覺(jué)圖記憶與語(yǔ)義圖記憶,并認(rèn)為語(yǔ)義關(guān)系與視覺(jué)關(guān)系對(duì)于推理一樣重要.這2 種圖記憶機(jī)制通過(guò)可學(xué)習(xí)的視覺(jué)到語(yǔ)義和語(yǔ)義到視覺(jué)的節(jié)點(diǎn)映射相互協(xié)作和交互.最后,構(gòu)建了從對(duì)象級(jí)到幀級(jí)的層次結(jié)構(gòu),從而實(shí)現(xiàn)了層次的視覺(jué)語(yǔ)義關(guān)系推理.
本節(jié)主要介紹了基于圖網(wǎng)絡(luò)的模型,該類(lèi)模型之所以能夠達(dá)到較好效果的原因在于它能夠直接對(duì)視頻內(nèi)容結(jié)構(gòu)進(jìn)行時(shí)間和空間的統(tǒng)一建模,較容易捕獲到視頻中各對(duì)象之間的關(guān)系,能夠?qū)W習(xí)到更好的節(jié)點(diǎn)表示,對(duì)后續(xù)時(shí)空相關(guān)的推理問(wèn)題起到較大作用.由于GCN 需要將整個(gè)圖放到內(nèi)存和顯存,多層GCN 將會(huì)有很大開(kāi)銷(xiāo),模型訓(xùn)練耗時(shí)也會(huì)很久.
2.2.4 基于Transformer 和BERT 的模型
針對(duì)RNN 等序列模型不適合處理序列的長(zhǎng)期依賴(lài)以及不易于并行化數(shù)據(jù)處理的問(wèn)題,研究人員提出了Transformer[15].Transformer 通過(guò)其內(nèi)部自注意力機(jī)制能以有限的層數(shù)建模長(zhǎng)期依賴(lài)關(guān)系,而且相比于RNN,Transformer 能夠利用分布式GPU 進(jìn)行并行訓(xùn)練,提升模型訓(xùn)練效率.BERT 實(shí)際是Transformer 的復(fù)合體,其最早被應(yīng)用于自然語(yǔ)言處理領(lǐng)域[16].隨著Transformer 與BERT 的流行,越來(lái)越多的模型開(kāi)始將二者引入到各個(gè)領(lǐng)域,并取得了令人驚嘆的結(jié)果.當(dāng)前存在的大部分用于VideoQA 的模型都是基于RNN 的模型,如LSTM,然而類(lèi)似這樣的模型可能無(wú)法捕獲長(zhǎng)序列之間的關(guān)系.因此研究者嘗試將Transformer 和BERT引入到VideoQA 任務(wù)上,并取得了顯著的效果.
Yang 等人[102]提出使用BERT 對(duì)視頻中的視覺(jué)概念與文本內(nèi)容進(jìn)行編碼來(lái)獲得視頻場(chǎng)景的視覺(jué)信息與文本信息.同時(shí),Urooj 等人[103]提出了MMFTBERT 模型,采用BERT 單獨(dú)處理多模態(tài)中的每一個(gè)模態(tài),然后使用一個(gè)新設(shè)計(jì)的基于Transformer 的融合方法進(jìn)行后期融合.該方法考慮到了早期對(duì)不同模態(tài)的單獨(dú)處理,將模態(tài)融合放在后期,這樣處理使得模態(tài)更能友好交互,突出關(guān)鍵信息.并且該方法也是第一個(gè)使用Transformer 進(jìn)行模態(tài)融合的方法.
文獻(xiàn)[104] 提出的ROLL 模型的3 個(gè)獨(dú)立分支read,observe,recall 均是使用Transformer 提取語(yǔ)言特征建模,但是該模型依賴(lài)于知識(shí)庫(kù).與之相比,Engin等人[105]提出的DialogSummary 方法則不需要這些外部知識(shí).該方法視頻描述的生成借鑒于ROLL,其核心思想是從視頻中的原始數(shù)據(jù)提取所需知識(shí),將以往人工生成知識(shí)的過(guò)程替換為從視頻任務(wù)原始對(duì)話(huà)中自動(dòng)生成情節(jié)摘要.模態(tài)處理與MMFT-BERT 類(lèi)似,每個(gè)模態(tài)由BERT 進(jìn)行獨(dú)立編碼,不同的是該方法采用一個(gè)相對(duì)簡(jiǎn)單的模態(tài)融合方法,而MMFT-BERT則采用了一種基于Transformer 的多模態(tài)融合方法.
VideoQA 評(píng)估任務(wù)大多僅限于單個(gè)單詞的開(kāi)放式答案或從多個(gè)短語(yǔ)中選擇一個(gè)短語(yǔ),限制了模型的應(yīng)用場(chǎng)景.Sadhu 等人[106]將VideoQA 任務(wù)作為填充短語(yǔ)任務(wù),為了能夠評(píng)估短語(yǔ)式答案,模型計(jì)算預(yù)測(cè)答案對(duì)比空字符串的相對(duì)改進(jìn).基于此任務(wù),提出了5 個(gè)基準(zhǔn)模型,其中VOG-QAP 與MTX-QAP 綜合表現(xiàn)突出.VOG-QAP 使用了額外的短語(yǔ)編碼器并在多模態(tài)特征上應(yīng)用Transformer.MTX-QAP 與ActBert具有類(lèi)似的架構(gòu),但它用一個(gè)普通的Transformer 替換了ActBert 的TNT,在一個(gè)Transformer 中聯(lián)合編碼語(yǔ)言和視覺(jué)特征.
與文獻(xiàn)[106]動(dòng)機(jī)類(lèi)似,Castro 等人[36]提出的T5+I3D 模型同樣是以生成式答案解決填詞或短語(yǔ)的任務(wù).該模型屬于早期融合模型,模型的編碼與解碼均基于Transformer.此外,Castro 等人[36]使用T5(編解碼Transformer 網(wǎng)絡(luò))對(duì)模型進(jìn)行初始化,并結(jié)合I3D 提取的視頻特征使得模型性能略?xún)?yōu)于后期融合模型.
文獻(xiàn)[107]中基于2D 的場(chǎng)景圖忽略了視頻本質(zhì)是發(fā)生在3D 空間中的事件,Cherian 等人[108]提出基于Transformer 的(2.5+1)D 時(shí)刻場(chǎng)景圖的方法,該方法的處理流程如圖14 所示.他們將視頻幀2D 畫(huà)面轉(zhuǎn)換成2.5D(偽3D)場(chǎng)景圖,然后構(gòu)造一個(gè)包含靜態(tài)與動(dòng)態(tài)子圖的 (2.5+1)D 時(shí)空?qǐng)鼍皥D表示,以更好地捕捉視頻中的時(shí)空信息流.Transformer 將場(chǎng)景圖嵌入到時(shí)空分層潛在空間中,以不同的粒度捕獲子圖及其交互,其核心思想是使用圖節(jié)點(diǎn)的時(shí)空接近度來(lái)定義相似性.
圖14 (2.5+1)D 視頻問(wèn)答推理流程示意圖[108]Fig.14 The schematic illustration of (2.5+1)D VideoQA reasoning pipeline[108]
與文獻(xiàn)[99]的思想有些相似,Peng 等人[109]提出的PTP 同樣利用視頻中的多尺度信息.將視頻按不同級(jí)別構(gòu)建時(shí)間金字塔,高層級(jí)比低層級(jí)具有更豐富的局部信息,低層級(jí)比高層級(jí)具有更完整的全局信息.該模型包括問(wèn)題Transformer 和視覺(jué)推理2 個(gè)模塊,兩者均在Transformer 上進(jìn)行了改進(jìn), 在每個(gè)模塊中引入了一種多模態(tài)注意力機(jī)制來(lái)輔助問(wèn)題與視頻交互,并在不同層次的信息傳遞中采用殘差連接.問(wèn)題Transformer 用來(lái)構(gòu)建從粗粒度到細(xì)粒度的問(wèn)題詞與視覺(jué)內(nèi)容之間的多模態(tài)語(yǔ)義信息,在問(wèn)題特定語(yǔ)義的指導(dǎo)下,視覺(jué)推理模塊從問(wèn)題與視頻之間局部到全局的多級(jí)交互中推斷出視覺(jué)線(xiàn)索.
以上基于Transformer 的部分模型在VideoQA 任務(wù)上實(shí)現(xiàn)了最優(yōu)性能比基于圖網(wǎng)絡(luò)模型更優(yōu)的性能,這歸因于其自注意力結(jié)構(gòu)的設(shè)計(jì).Transformer 主要由多頭注意力機(jī)制組成,且相較于傳統(tǒng)RNN, CNN,Transformer 在大模型和大數(shù)據(jù)方面具有強(qiáng)大的可擴(kuò)展性且架構(gòu)靈活.然而正因其對(duì)大數(shù)據(jù)訓(xùn)練的依賴(lài),使其在小規(guī)模數(shù)據(jù)集上泛化性與自適性較弱.
2.2.5 基于預(yù)訓(xùn)練的模型
預(yù)訓(xùn)練模型最早是在自然語(yǔ)言處理和計(jì)算機(jī)視覺(jué)等單模態(tài)領(lǐng)域嶄露頭角,并在許多下游單模態(tài)任務(wù)中也被證實(shí)它的有效性.后來(lái),研究者們將預(yù)訓(xùn)練模型應(yīng)用于多模態(tài)任務(wù),并取得了重大進(jìn)展[110-111].目前主流的多模態(tài)預(yù)訓(xùn)練模型是視覺(jué)-語(yǔ)言預(yù)訓(xùn)練模型,其通常利用輔助任務(wù)從大規(guī)模未標(biāo)注或弱標(biāo)注數(shù)據(jù)中自動(dòng)挖掘監(jiān)督信號(hào)來(lái)訓(xùn)練模型,從而學(xué)習(xí)通用表示.這些預(yù)訓(xùn)練模型通過(guò)在下游任務(wù)上使用少量人工標(biāo)記數(shù)據(jù)進(jìn)行微調(diào)就能實(shí)現(xiàn)令人驚訝的效果.
最近一些方法使用帶有圖像字幕的數(shù)據(jù)集(如COCO[112]和Visual Genome[113])或視頻字幕的數(shù)據(jù)集(如HowTo100M[114]) 來(lái)預(yù)訓(xùn)練多模態(tài)視覺(jué)語(yǔ)言表示.這些方法絕大部分是基于Transformer 之上在大數(shù)據(jù)集上進(jìn)行預(yù)訓(xùn)練,它們通常使用通用目標(biāo)進(jìn)行優(yōu)化,例如掩碼語(yǔ)言損失、圖像-文本匹配損失以及圖像標(biāo)題生成損失等.以下介紹的預(yù)訓(xùn)練模型部分是針對(duì)于特定VideoQA 任務(wù)的,其余則是與下游任務(wù)無(wú)關(guān)的預(yù)訓(xùn)練模型.
Kim 等人[115]提出了自監(jiān)督預(yù)訓(xùn)練方法,有效地利用了數(shù)據(jù)集的額外優(yōu)勢(shì)以及學(xué)習(xí)更好的特征表示.自監(jiān)督預(yù)訓(xùn)練階段不需要額外的數(shù)據(jù)或注釋?zhuān)诮o定視頻與字幕的條件下來(lái)預(yù)測(cè)相關(guān)問(wèn)題而非預(yù)測(cè)答案,這樣使得模型能夠?qū)W習(xí)到較好的權(quán)重.Yang 等人[116]提出針對(duì)特定任務(wù)的預(yù)訓(xùn)練模型VQA-T(VideoQATransformer),對(duì)于目標(biāo)VideoQA 效果的提升有更大幫助.該模型的2 個(gè)分支均是基于Transformer,可以很容易地對(duì)不同的下游VideoQA 數(shù)據(jù)集進(jìn)行微調(diào),這些數(shù)據(jù)集可能包含訓(xùn)練中沒(méi)有出現(xiàn)的新答案.
相比于特定任務(wù)的預(yù)訓(xùn)練模型,下游無(wú)關(guān)的預(yù)訓(xùn)練模型更加靈活、應(yīng)用更廣.Zhu 等人[37]提出了用于多種視頻和語(yǔ)言任務(wù)的預(yù)訓(xùn)練模型ActBERT,該模型從無(wú)標(biāo)記數(shù)據(jù)中進(jìn)行聯(lián)合視頻與文本表示的自監(jiān)督學(xué)習(xí).ActBERT 模型的核心為T(mén)NT(TaNgled Trans former block),其包含3 個(gè)Transformer 來(lái)編碼3 個(gè)來(lái)源特征,即全局動(dòng)作特征、區(qū)域?qū)ο筇卣骱驼Z(yǔ)言特征.為了增強(qiáng)視覺(jué)特征和語(yǔ)言特征之間的相互作用,ActBERT 在語(yǔ)言Transformer 中注入視覺(jué)信息的同時(shí),在視覺(jué)Transformer 中加入語(yǔ)言信息.通過(guò)跨模態(tài)的交互作用,TNT 可以動(dòng)態(tài)地選擇有用的線(xiàn)索進(jìn)行目標(biāo)預(yù)測(cè).基于此模型,Zhu 等人[37]提出了4 個(gè)預(yù)訓(xùn)練任務(wù):掩碼語(yǔ)言建模、掩碼動(dòng)作分類(lèi)、掩碼目標(biāo)分類(lèi)和跨模態(tài)匹配.
文獻(xiàn)[37]的模型設(shè)計(jì)是對(duì)BERT 的直接改編,簡(jiǎn)單地將視覺(jué)和文本特征拼接作為輸入,而失去了視頻和文本模式之間的時(shí)間對(duì)齊.Li 等人[117]提出的HERO模型以一種分層的方式對(duì)多模態(tài)輸入進(jìn)行編碼,其包含2 層Transformer.第1 層為跨模態(tài)Transformer,用于融合字幕與其對(duì)應(yīng)的局部視頻幀;第2 層為時(shí)序Transformer,用于獲取視頻每一個(gè)片段的全局上下文嵌入.該分層模型首先在幀級(jí)層面挖掘視覺(jué)和文本局部上下文,然后將其轉(zhuǎn)化為全局視頻級(jí)時(shí)間上下文.基于此模型提出了4 個(gè)預(yù)訓(xùn)練任務(wù),相對(duì)于常見(jiàn)的掩碼語(yǔ)言建模與掩碼幀建模增加了視頻與字幕匹配和幀順序建模.
與文獻(xiàn)[117]提出的預(yù)訓(xùn)練任務(wù)相似,Zellers 等人[118]提出了一個(gè)通過(guò)大規(guī)模無(wú)標(biāo)簽的視頻片段以自監(jiān)督方式訓(xùn)練基于Transformer 的預(yù)訓(xùn)模型MERLOT.視覺(jué)與語(yǔ)言特征均加入了位置嵌入,然后由基于RoBERTa[119]結(jié)構(gòu)的Transformer 對(duì)視覺(jué)和語(yǔ)言進(jìn)行聯(lián)合編碼,并設(shè)計(jì)了幀與字幕匹配、掩碼語(yǔ)言建模和幀順序建模3 個(gè)預(yù)訓(xùn)練任務(wù).
現(xiàn)有的部分工作如文獻(xiàn)[37]提出模型離線(xiàn)提取密集的視頻特征和文本特征,然而從視頻幀的全部序列中提取特征會(huì)導(dǎo)致對(duì)內(nèi)存和計(jì)算的過(guò)多需求.Lei 等人[120]提出了一個(gè)通用的預(yù)訓(xùn)練模型CLIPBERT,其核心思想為稀疏采樣與密集推理,圖15 為常見(jiàn)的視頻-語(yǔ)言學(xué)習(xí)方法和 CLIPBERT 的比較.CLIPBERT將來(lái)自同一視頻的不同片段子集用于不同的訓(xùn)練步驟,因而其在一定程度上提高了模型的泛化能力.此外與文獻(xiàn)[37, 117]不同的是,該模型使用的是圖像文本數(shù)據(jù)集進(jìn)行的預(yù)訓(xùn)練,實(shí)驗(yàn)結(jié)果表明圖像文本預(yù)訓(xùn)練同樣有益于視頻-文本任務(wù).
圖15 流行的視頻和語(yǔ)言學(xué)習(xí)范式和 CLIPBERT 之間的比較[120]Fig.15 Comparison between popular video-and-language learning paradigm and CLIPBERT[120]
受文獻(xiàn)[120]中稀疏采樣策略的啟發(fā),Yu 等人[121]提出了基于CLIPBERT 的孿生采樣與推理的方法(siamese sampling and reasoning,SiaSamRea).SiaSamRea的思想為多個(gè)片段應(yīng)該相互依賴(lài),應(yīng)將上下文片段之間的相互依賴(lài)知識(shí)融于網(wǎng)絡(luò)推理中,以在同一視頻中捕獲相似的視覺(jué)和關(guān)鍵語(yǔ)義信息.所以該方法在稀疏采樣的基礎(chǔ)之上進(jìn)一步采樣了多個(gè)相似的片段,來(lái)學(xué)習(xí)片段之間的相互關(guān)系.不同于以往的相關(guān)工作如CLIPBERT,在同一個(gè)視頻中挖掘它們的上下文知識(shí),SiaSamRea 模型中的每個(gè)視頻-文本對(duì)都被獨(dú)立地編碼到網(wǎng)絡(luò)中.充分地利用了片段之間豐富的上下文信息,可以進(jìn)一步提升模型推理的準(zhǔn)確性.
現(xiàn)有多模態(tài)學(xué)習(xí)任務(wù)中,通常會(huì)因存在噪聲而使模型無(wú)法達(dá)到預(yù)期效果.Amrani 等人[122]提出了一種去噪聲的方法,使用自監(jiān)督方式去訓(xùn)練一個(gè)去噪模塊.在多模態(tài)數(shù)據(jù)中,當(dāng)2 個(gè)或多個(gè)模態(tài)不具有相同語(yǔ)義含義時(shí)樣本認(rèn)定包含噪聲.因此,該模型將噪聲估計(jì)簡(jiǎn)化為多模態(tài)密度估計(jì)任務(wù),利用多模態(tài)密度估計(jì),又提出了一種用于多模態(tài)表示學(xué)習(xí)的噪聲估計(jì)組件,該組件嚴(yán)格基于不同模態(tài)之間的內(nèi)在相關(guān)性.該方法從去噪聲的角度,在多模態(tài)任務(wù)中一定程度上提高升了性能.
此外,Luo 等人[123]認(rèn)為掩碼輸入將不可避免地為掩碼建模與跨模態(tài)匹配等任務(wù)引入噪聲,所以提出了對(duì)比跨模態(tài)匹配和去噪的方法CoCo-BERT.該方法包含2 個(gè)耦合的視頻/句子編碼器,同時(shí)利用屏蔽和非屏蔽的多模態(tài)輸入,從多模態(tài)對(duì)比學(xué)習(xí)的角度加強(qiáng)跨模態(tài)關(guān)聯(lián).模型的核心是通過(guò)對(duì)比方式同時(shí)追求模態(tài)間匹配和模態(tài)內(nèi)去噪,并利用掩碼和非掩碼輸入來(lái)加強(qiáng)跨模態(tài)推理.
Seo 等人[124]提出了一個(gè)多任務(wù)的預(yù)訓(xùn)練模型CoMVT,該模型的目標(biāo)主要是基于當(dāng)前的視頻片段和對(duì)應(yīng)字幕來(lái)預(yù)測(cè)下一段話(huà)語(yǔ),微調(diào)后的模型在下游VideoQA 上取得了具有競(jìng)爭(zhēng)性的結(jié)果.CoMVT 有2個(gè)關(guān)鍵點(diǎn):1)雖然該模型沒(méi)有像CLIPBERT 稀疏采樣,但其利用注意力機(jī)制聚合冗余特征,從而構(gòu)造出更緊湊的視覺(jué)特征;2)使用一個(gè)共同注意力Transformer CoTRM[125]進(jìn)行跨模態(tài)融合.CoTRM 由雙流組成,每一個(gè)流由2 個(gè)TRM 組成,其中一個(gè)用于模態(tài)間特征交互,另一個(gè)用于模態(tài)內(nèi)特征交互.2 個(gè)流本質(zhì)上分別處理每個(gè)模態(tài),允許通過(guò)每個(gè)流中TRM 的不同模態(tài)特征進(jìn)行特定的操作和表示.
與先前相關(guān)工作提出的預(yù)訓(xùn)練任務(wù)不同,F(xiàn)u 等人[126]提出了掩碼視覺(jué)標(biāo)識(shí)建模的預(yù)訓(xùn)練任務(wù).視頻幀被“標(biāo)記”為離散的視覺(jué)標(biāo)識(shí),用于重建原始視頻幀.在預(yù)訓(xùn)練期間,沿空間和時(shí)間維度屏蔽了部分視頻輸入,模型學(xué)習(xí)恢復(fù)這些屏蔽部分的離散視覺(jué)標(biāo)記.相對(duì)于掩碼語(yǔ)言/幀建模,模型需要在離散空間上進(jìn)行預(yù)測(cè),這避免了與文獻(xiàn)[117]中類(lèi)似的特征維度的過(guò)度訓(xùn)練問(wèn)題.此外,所提出的VIOLET(videolanguage Transformer)模型并不是簡(jiǎn)單地均值池化或?qū)σ幌盗袉蝹€(gè)幀特征進(jìn)行連接,而是包含Video Swin Transformer[127],它可以顯式地為視頻語(yǔ)言學(xué)習(xí)建模視頻時(shí)間.
如果預(yù)訓(xùn)練數(shù)據(jù)集和下游數(shù)據(jù)集之間存在領(lǐng)域差距,當(dāng)前流行的“先訓(xùn)練后微調(diào)”的視覺(jué)和語(yǔ)言模型泛化能力就會(huì)變?nèi)?Zhou 等人[128]系統(tǒng)地研究了視頻語(yǔ)言預(yù)訓(xùn)練與微調(diào)模型中的領(lǐng)域差距問(wèn)題,并提出了一個(gè)任務(wù)自適應(yīng)的視頻語(yǔ)言預(yù)訓(xùn)練模型,通過(guò)過(guò)濾和調(diào)整源數(shù)據(jù)到目標(biāo)數(shù)據(jù),然后進(jìn)行領(lǐng)域聚焦的預(yù)訓(xùn)練,這有效地縮小了源數(shù)據(jù)(用于預(yù)訓(xùn)練)和目標(biāo)(用于微調(diào))數(shù)據(jù)之間的領(lǐng)域差距.
本節(jié)主要介紹了預(yù)訓(xùn)練模型在VideoQA 任務(wù)中的應(yīng)用,它們主要通過(guò)基于大規(guī)模數(shù)據(jù)進(jìn)行預(yù)訓(xùn)練來(lái)學(xué)習(xí)不同模態(tài)之間的語(yǔ)義對(duì)應(yīng)關(guān)系.目前,基于Transformer 的預(yù)訓(xùn)練模型取得了VideoQA 任務(wù)的最佳性能.這歸因于預(yù)訓(xùn)練模型不僅能夠充分利用廣泛的網(wǎng)絡(luò)資源,而且還能完美地解決人工標(biāo)記數(shù)據(jù)較為復(fù)雜的問(wèn)題.預(yù)訓(xùn)練模型通常是通過(guò)微調(diào)將知識(shí)轉(zhuǎn)移到下游任務(wù),隨著模型規(guī)模的不斷增加,每個(gè)下游任務(wù)均有不同的微調(diào)參數(shù),將導(dǎo)致參數(shù)學(xué)習(xí)效率低下,同時(shí)多種下游任務(wù)也使得預(yù)訓(xùn)練和微調(diào)階段的設(shè)計(jì)變得繁瑣.
2.2.6 其他模型
除2.2.1~2.2.5 節(jié)所述的5 種VideoQA 任務(wù)的解決方法外,還有許多研究者們提出了不同于上述方法的模型來(lái)解決該問(wèn)題,同時(shí)也達(dá)到了具有競(jìng)爭(zhēng)性的表現(xiàn).例如基于基礎(chǔ)構(gòu)建單元的模型、基于神經(jīng)符號(hào)的推理模型、基于強(qiáng)化學(xué)習(xí)的模型、引入外部知識(shí)的模型、引入音頻信息的模型等.
1)基于基礎(chǔ)構(gòu)建單元的模型
當(dāng)前VideoQA 任務(wù)中的問(wèn)題類(lèi)型不受限制,許多模型根據(jù)數(shù)據(jù)集特性來(lái)進(jìn)行設(shè)計(jì),導(dǎo)致其在數(shù)據(jù)形態(tài)改變或視頻長(zhǎng)度改變的數(shù)據(jù)集上的性能表現(xiàn)不升反降.為了緩解這一問(wèn)題,模型需要具備對(duì)視覺(jué)信息與文本信息深厚的建模能力,學(xué)習(xí)時(shí)空中跨模態(tài)信息以對(duì)對(duì)象、關(guān)系和事件進(jìn)行推理.
Le 等人[129]提出了一種分層次條件關(guān)系網(wǎng)絡(luò)(hierarchical conditional relation network,HCRN).條件關(guān)系網(wǎng)絡(luò)(conditional relation network,CRN) 是HCRN的基礎(chǔ)可重用構(gòu)建塊,該單元計(jì)算輸入對(duì)象之間的稀疏高階關(guān)系,然后通過(guò)指定的上下文調(diào)制編碼.然而,CRN 只是專(zhuān)注于單個(gè)對(duì)象動(dòng)作的時(shí)間推理,不能很好地推廣到時(shí)空中多個(gè)物體相互作用的情景.與HCRN 分層推理結(jié)構(gòu)的設(shè)計(jì)理念相似,Dang 等人[130]提出了一種由OSTR 基礎(chǔ)單元構(gòu)建的面向?qū)ο髸r(shí)空推理層次(hierarchical object-oriented spatio-temporal reasoning,HOSTR) 模型.HOSTR 的特點(diǎn)是對(duì)象內(nèi)時(shí)間聚集和對(duì)象間空間相互交互的劃分,從而提高推理過(guò)程的效率.HCRN 與HOSTR 都以通用的可視化推理為目標(biāo),兩者都忽略了問(wèn)題的不同部分可能會(huì)需要不同粒度級(jí)別的視覺(jué)信息.Xiao 等人[131]設(shè)計(jì)了分層問(wèn)題引導(dǎo)圖注意網(wǎng)絡(luò)(HQGA),基于問(wèn)題條件的圖注意力單元(QGA) 通過(guò)圖的聚合和池化將低層次的視覺(jué)信息聚合為高層次的視頻元素,并通過(guò)堆疊QGA 單元在每層注入問(wèn)題,從而實(shí)現(xiàn)多粒度級(jí)別的視覺(jué)-文本匹配.
2)基于神經(jīng)符號(hào)的推理模型
部分模型側(cè)重于對(duì)復(fù)雜的視覺(jué)與語(yǔ)言的模式識(shí)別能力,而忽略了蘊(yùn)含于視頻結(jié)構(gòu)中的時(shí)序與因果關(guān)系.Yi 等人[132]提出了基于碰撞事件的視頻推理數(shù)據(jù)集CLEVRER,同時(shí)又提出針對(duì)于該數(shù)據(jù)集的模型-結(jié)合神經(jīng)網(wǎng)絡(luò)和符號(hào)的動(dòng)態(tài)推理(neuro-symbolic dynamic reasoning, NS-DR)模型,該模型結(jié)合了用于模式識(shí)別和動(dòng)力學(xué)預(yù)測(cè)的神經(jīng)網(wǎng)絡(luò),以及用于因果推理的符號(hào)邏輯.NS-DR 將動(dòng)態(tài)規(guī)劃納入視覺(jué)推理任務(wù)中,能夠直接對(duì)未觀(guān)察到的運(yùn)動(dòng)和事件進(jìn)行預(yù)測(cè),并能夠?qū)︻A(yù)測(cè)性和反事實(shí)性任務(wù)進(jìn)行建模,這將對(duì)VideoQA 任務(wù)有著積極的影響.然而NS-DR 模型需要對(duì)視頻視覺(jué)屬性和物理事件進(jìn)行密集注釋?zhuān)@在真實(shí)場(chǎng)景中是不切實(shí)際的.Chen 等人[133]提出了一個(gè)統(tǒng)一的神經(jīng)符號(hào)框架,即動(dòng)態(tài)概念學(xué)習(xí)器(dynamic concept learner,DCL),它基于對(duì)象追蹤和語(yǔ)言建模來(lái)識(shí)別視頻中的對(duì)象與事件并分析其時(shí)間和因果結(jié)構(gòu),而無(wú)需對(duì)視覺(jué)屬性和物理事件(如訓(xùn)練期間的碰撞)進(jìn)行注釋.
在NS-DR 與DCL 基礎(chǔ)之上,Ding 等人[134]提出了基于可微物理模型的神經(jīng)符號(hào)視覺(jué)推理框架VRDP(visual reasoning with differentiable physics),它通過(guò)從視頻和問(wèn)題對(duì)中學(xué)習(xí)物理模型,并利用顯式的物理模型對(duì)物體動(dòng)力學(xué)進(jìn)行建模,基于準(zhǔn)確的動(dòng)力學(xué)預(yù)測(cè)來(lái)回答長(zhǎng)期和反事實(shí)預(yù)測(cè)問(wèn)題.VRDP 由視覺(jué)感知、概念學(xué)習(xí)器和可微物理模型3 個(gè)模塊組成.視覺(jué)感知模塊用于得到物體及其軌跡;概念學(xué)習(xí)器借鑒于NSCL[135],負(fù)責(zé)從物體的軌跡信息和問(wèn)題對(duì)中學(xué)習(xí)物體的屬性;根據(jù)物體的軌跡和屬性,通過(guò)可微物理模擬學(xué)習(xí)相關(guān)物理參數(shù),得到較為準(zhǔn)確的物理模型.模型的神經(jīng)符號(hào)執(zhí)行器利用了NS-DR 和DCL 中的方案,通過(guò)預(yù)測(cè)出的物體軌跡和碰撞事件進(jìn)行逐步顯式的符號(hào)推理,使得模型具有良好的解釋性.
3)基于強(qiáng)化學(xué)習(xí)的模型
迄今為止,用于VideoQA 的方法在現(xiàn)實(shí)生活中應(yīng)用性非常弱,原因之一就是應(yīng)用性強(qiáng)的數(shù)據(jù)集非常少.Xu 等人[136]提出了應(yīng)用性較強(qiáng)的交通問(wèn)答數(shù)據(jù)集TrafficQA,并基于該數(shù)據(jù)集設(shè)計(jì)了一種基于動(dòng)態(tài)推理的高效一瞥網(wǎng)絡(luò).Xu 等人[136]通過(guò)6 個(gè)具有挑戰(zhàn)性的任務(wù)來(lái)訓(xùn)練該網(wǎng)絡(luò)模型,與現(xiàn)有的VideoQA 模型不同,為了減少視頻幀之間冗余信息的影響,該模型自適應(yīng)地確定每一步跳過(guò)的幀數(shù)和選擇的幀位置,以及對(duì)選擇幀需要分配的計(jì)算粒度.該方法避免了對(duì)視頻中不相關(guān)的片段進(jìn)行特征提取,從而大大降低了整體的計(jì)算成本,實(shí)現(xiàn)了推理的可靠和高效.
4)引入外部知識(shí)的模型
除了利用數(shù)據(jù)集本身信息之外,數(shù)據(jù)集外部的知識(shí)對(duì)問(wèn)答推理也有極大的幫助.Garcia 等人[137]提出的模型ROCK (retrieval over collected knowledge)通過(guò)知識(shí)檢索模塊來(lái)獲取與問(wèn)題最相關(guān)的知識(shí).知識(shí)源來(lái)自于他們自己構(gòu)建的數(shù)據(jù)集,知識(shí)類(lèi)型為人工注釋的句子,知識(shí)檢索模塊通過(guò)計(jì)算問(wèn)題與知識(shí)的相似性分?jǐn)?shù)來(lái)獲取有用的信息.Han 等人[138]提出了一個(gè)利用電影片段、字幕和基于圖像的外部知識(shí)庫(kù)來(lái)回答問(wèn)題模型.圖像的外部知識(shí)庫(kù)是他們?cè)O(shè)計(jì)的一個(gè)PlotGraphs 的數(shù)據(jù)集,該數(shù)據(jù)集以圖像形式提供回答問(wèn)題的額外信息.與文獻(xiàn)[137-138]不同,Garcia等人[104]提出了ROLL 模型,其獲取的外部知識(shí)來(lái)源于在線(xiàn)的外部知識(shí).不同于以往人工手動(dòng)生成場(chǎng)景描述或者故事摘要等,該模型使用無(wú)監(jiān)督方式生成視頻場(chǎng)景描述,并且以弱監(jiān)督方式獲取外部知識(shí).
5)引入音頻信息的模型
以往研究忽略了利用視頻中的音頻信息,雖然有相關(guān)工作利用語(yǔ)音轉(zhuǎn)換字幕系統(tǒng),但僅限于提取其中的文字信息.Le 等人[27]提出的模型VGNMN (videogrounded neural module network)嘗試將音頻模態(tài)加入推理過(guò)程,其分為對(duì)話(huà)理解與視頻理解2 部分.VGNMN 模型由多個(gè)負(fù)責(zé)不同功能的神經(jīng)網(wǎng)絡(luò)塊組成,形成復(fù)合推理結(jié)構(gòu),實(shí)現(xiàn)逐步檢索語(yǔ)言和視覺(jué)信息的顯示推理過(guò)程,這種模塊化方法可以實(shí)現(xiàn)模型更好的性能和透明度.Shah 等人[28]提出了三重注意力網(wǎng)絡(luò)模型,同樣也將音頻信息整合到VideoQA 任務(wù)中.模型利用Mel Spectrograms,SoundNet 與WALNet提取3 種音頻特征,與視頻和字幕形成異構(gòu)信息源,音頻、視頻、字幕三者分別與問(wèn)題使用注意力機(jī)制來(lái)不斷更新內(nèi)存向量.該模型通過(guò)消融實(shí)驗(yàn)證明了音頻信息的加入有利于VideoQA 模型性能提升.
在1.1 節(jié)提到,問(wèn)題大致可以分為開(kāi)放式問(wèn)題與選擇題2 種類(lèi)型.開(kāi)放式問(wèn)題可以分為開(kāi)放式單詞問(wèn)題與開(kāi)放式數(shù)字問(wèn)題,即開(kāi)放式問(wèn)題對(duì)應(yīng)的答案是單詞或者數(shù)字,所以此類(lèi)問(wèn)題需要2 種解碼器.而選擇題則只需要1 種解碼器.
對(duì)于開(kāi)放式單詞問(wèn)題的任務(wù),一般視為多標(biāo)簽分類(lèi)任務(wù),因此使用softmax 回歸函數(shù).定義一個(gè)softmax分類(lèi)器,該分類(lèi)器以多模態(tài)融合表示O為輸入,通過(guò)計(jì)算置信度向量s從詞匯表中選擇答案,計(jì)算形式表述為
其中WT與b是模型參數(shù).一般通過(guò)交叉熵?fù)p失函數(shù)或softmax 損失函數(shù)來(lái)訓(xùn)練該解碼器,通過(guò)a~=得到預(yù)測(cè)答案.
對(duì)于開(kāi)放式數(shù)字問(wèn)題的任務(wù),與選擇題任務(wù)類(lèi)似,將上下文表示O輸入一個(gè)線(xiàn)性回歸函數(shù)中,與之不同的是,通過(guò)舍入函數(shù)(舍入到最近整數(shù))輸出的是一個(gè)整數(shù)值答案.計(jì)算形式表述為
其中WT與b是模型參數(shù).通過(guò)均方差損失函數(shù)來(lái)訓(xùn)練該解碼器.
對(duì)于選擇題任務(wù),1 個(gè)問(wèn)題對(duì)應(yīng)多個(gè)候選答案,只有1 個(gè)選項(xiàng)為正確答案.每一個(gè)候選答案將與給定的問(wèn)題以相同的方式進(jìn)行處理,最后將得到的融合表示O送入一個(gè)定義的線(xiàn)性回歸函數(shù),并為每個(gè)候選答案輸出一個(gè)真實(shí)分?jǐn)?shù).其計(jì)算形式表述為
其中WT與b是模型參數(shù).通常訓(xùn)練模型的方法都是最小化預(yù)測(cè)答案與正確答案之間的損失,所以通過(guò)最小化成對(duì)比較的鉸鏈損失來(lái)訓(xùn)練解碼器max(0,1+sn-sp),其中sn和sp分別是由錯(cuò)誤答案和正確答案計(jì)算的分?jǐn)?shù).
隨著越來(lái)越多的研究者們關(guān)注VideoQA 領(lǐng)域,用于解決此任務(wù)的數(shù)據(jù)集也越來(lái)越豐富.例如以電影與電視劇為視頻源的數(shù)據(jù)集MovieQA[80],TVQA[69],MovieFIB[139],KnowIT VQA[137]等,這些數(shù)據(jù)集更加注重評(píng)測(cè)模型對(duì)視頻與文本的理解能力,以及對(duì)故事情節(jié)的推理能力.基于動(dòng)畫(huà)類(lèi)型的數(shù)據(jù)集SVAQ[59],MarioQA[140],PororoQA[31],Env-QA[53],CLEVRER[132],CRAFT[141]也相繼被提出.該類(lèi)型視頻中的場(chǎng)景相對(duì)簡(jiǎn)單,故事線(xiàn)也較為清晰.此外,以開(kāi)放類(lèi)視頻為視頻源的數(shù)據(jù)集有MSRVTT-QA[48],MSVD-QA[48],YouTube2Text-QA[55],TGIF-QA[45],Activitynet-QA[142]等,它們的數(shù)據(jù)大多來(lái)自于YouTube 或其他在線(xiàn)網(wǎng)絡(luò)視頻.這一類(lèi)數(shù)據(jù)集更注重于生活場(chǎng)景,對(duì)實(shí)際應(yīng)用來(lái)講更具有意義.各數(shù)據(jù)集的詳細(xì)指標(biāo)如表2 所示,部分?jǐn)?shù)據(jù)集示例如圖16 所示,圖16 中僅展示了視頻的1 幀,但是所有的問(wèn)題和答案都屬于視頻中的一個(gè)片段.對(duì)于每個(gè)數(shù)據(jù)集,我們只展示1 個(gè)問(wèn)題和相應(yīng)的正確答案.下面將對(duì)每個(gè)數(shù)據(jù)集進(jìn)行詳細(xì)介紹,同時(shí)統(tǒng)計(jì)了頻繁使用的數(shù)據(jù)集對(duì)應(yīng)的模型實(shí)驗(yàn)結(jié)果,并進(jìn)行了對(duì)比與分析.
圖16 部分?jǐn)?shù)據(jù)集示例Fig.16 Some examples of datasets
Table 2 Comparison of Indicators of Each Data Set表2 各數(shù)據(jù)集指標(biāo)對(duì)比
1)MovieQA[80]
MovieQA 是應(yīng)用廣泛的大規(guī)模數(shù)據(jù)集之一,旨在評(píng)估從視頻和文本中自動(dòng)理解故事的能力.為了更好地理解視頻內(nèi)容,數(shù)據(jù)集還提供了與電影視頻、字幕、描述性視頻服務(wù)、腳本和情節(jié)概要相關(guān)的5 種故事來(lái)源.基于這些來(lái)源的不同組合,該數(shù)據(jù)集包括6 個(gè)子任務(wù):視頻加字幕、僅字幕、僅描述性視頻服務(wù)、僅劇本、僅情節(jié)概要和開(kāi)放式.由于影片片段的長(zhǎng)度、不斷變化的背景和故事情節(jié),MovieQA 更注重用抽象和高層次的信息來(lái)理解故事.
表3 統(tǒng)計(jì)了主流模型在該數(shù)據(jù)集上的性能表現(xiàn),根據(jù)測(cè)試集準(zhǔn)確率對(duì)實(shí)驗(yàn)結(jié)果進(jìn)行了排序.將DEMN作為基準(zhǔn)模型,其在驗(yàn)證集與測(cè)試集的實(shí)驗(yàn)結(jié)果為44.7%和30.0%.RWMN 在測(cè)試集的性能明顯優(yōu)于DEMN,表明相鄰記憶塊關(guān)聯(lián)性在提高電影理解能力方面起著至關(guān)重要的作用.FVTA 測(cè)試集準(zhǔn)確度相對(duì)于RWMN 提升1%,在一定程度上體現(xiàn)了引入多跳注意機(jī)制對(duì)答案推理的必要性.LMN 采用了更新機(jī)制和問(wèn)題引導(dǎo)注意力模型,使字幕記憶與問(wèn)題更加相關(guān),并且LMN 具有良好的可擴(kuò)展性.MDAM 通過(guò)后期融合避免了早期融合的過(guò)擬合現(xiàn)象,并利用自注意力模型使得性能有所提升.與LMN 相比,PAMN模型將多跳注意力與記憶網(wǎng)絡(luò)相結(jié)合來(lái)動(dòng)態(tài)推理,使生成的答案更加準(zhǔn)確可靠.Jasani 等人[153]使用在維基百科上的電影情節(jié)訓(xùn)練的WikiWord Embedding 詞嵌入模型進(jìn)行推理時(shí)僅使用問(wèn)題和答案,而忽略任何參考字幕或視頻.該模型性能之所以最優(yōu),是因?yàn)樵摂?shù)據(jù)集中的問(wèn)題存在語(yǔ)言偏見(jiàn)或問(wèn)題較為簡(jiǎn)單.
Table 3 Performance of Mainstream Models on MovieQA表3 主流模型在MovieQA 上的性能表現(xiàn)%
總的來(lái)講,由于MovieQA 數(shù)據(jù)集本身長(zhǎng)視頻及多模態(tài)特性(包含字幕),使其在VideoQA 這一任務(wù)中更具挑戰(zhàn)性.由表3 可以看出,基于注意力與記憶網(wǎng)絡(luò)的模型更適用于此類(lèi)長(zhǎng)視頻數(shù)據(jù)集,注意力機(jī)制可以從復(fù)雜的故事情節(jié)中尋找關(guān)鍵信息,記憶網(wǎng)絡(luò)則用來(lái)保證電影情節(jié)的完整性.PAMN 模型正是由于巧妙地整合了兩者從而達(dá)到了次優(yōu)的性能.然而諸如此類(lèi)的的模型嚴(yán)重依賴(lài)語(yǔ)言提示,由于未充分利用視覺(jué)特征而更容易出現(xiàn)語(yǔ)言偏見(jiàn),WikiWord Embedding 模型就是通過(guò)使用經(jīng)過(guò)適當(dāng)訓(xùn)練的詞嵌入,利用數(shù)據(jù)集的偏好達(dá)到性能最優(yōu).
2)TVQA[69]
TVQA 數(shù)據(jù)集中的視頻來(lái)源于3 種類(lèi)型的6 部經(jīng)典美劇.數(shù)據(jù)集中的問(wèn)題采用了組合式的設(shè)計(jì),包含問(wèn)答和定位2 個(gè)部分,并且每個(gè)問(wèn)題都帶有時(shí)序定位.也就是說(shuō)問(wèn)題模板首先使用開(kāi)始時(shí)間戳和結(jié)束時(shí)間戳,根據(jù)“when / before / after”來(lái)定位與問(wèn)題相關(guān)的視頻片段中的相關(guān)時(shí)刻,然后構(gòu)成與視頻和問(wèn)題理解相關(guān)的“what / how / where / why”問(wèn)題.回答這樣的問(wèn)題需要模型具有一定的時(shí)序定位、理解對(duì)話(huà)和視頻的能力.
表4 統(tǒng)計(jì)了主流模型在該數(shù)據(jù)集上的性能表現(xiàn),根據(jù)準(zhǔn)確率對(duì)實(shí)驗(yàn)結(jié)果進(jìn)行了排序.作為基準(zhǔn)網(wǎng)絡(luò),文獻(xiàn)[69]中的模型在驗(yàn)證集與測(cè)試集上的實(shí)驗(yàn)結(jié)果分別是65.85%與66.64%.STAGE[52]相對(duì)于原有模型同時(shí)考慮了時(shí)間與空間信息,聯(lián)合定位時(shí)刻與對(duì)象位置,大幅度提升了模型的準(zhǔn)確率,表明時(shí)空信息對(duì)于回答問(wèn)題的重要性.其次,MSAN 模型性能的提升從回答問(wèn)題需要不同模態(tài)的角度證明了模態(tài)轉(zhuǎn)移的必要性.文獻(xiàn)[115]提出使用預(yù)訓(xùn)練模型,將文本進(jìn)行掩碼并與原始文本形成對(duì)比學(xué)習(xí),從而學(xué)習(xí)到更好的特征表示,模型準(zhǔn)確率相對(duì)于基準(zhǔn)模型提升近10%.
Table 4 Performance of Mainstream Models on TVQA表4 主流模型在TVQA 上的性能表現(xiàn)%
與MovieQA 數(shù)據(jù)集相似,TVQA 同為帶有字幕的長(zhǎng)視頻.從性能表現(xiàn)上來(lái)看,STAGE 雖然引入時(shí)空位置信息,但在建模對(duì)象交互上的欠缺導(dǎo)致其性能不佳.文獻(xiàn)[102]提出基于BERT 的模型,結(jié)構(gòu)設(shè)計(jì)較為簡(jiǎn)單也達(dá)到了具有競(jìng)爭(zhēng)性的性能,足以證明此類(lèi)模型在VideoQA 任務(wù)上的巨大潛力.其次文獻(xiàn)[115]提出的預(yù)訓(xùn)練模型實(shí)現(xiàn)了當(dāng)前最優(yōu)性能,但是其只是在已有數(shù)據(jù)集上進(jìn)行自監(jiān)督預(yù)訓(xùn)練,有限的數(shù)據(jù)集導(dǎo)致模型不能學(xué)習(xí)得到更好的權(quán)重.根據(jù)TVQA數(shù)據(jù)集上的對(duì)比結(jié)果可以預(yù)見(jiàn)BERT 與預(yù)訓(xùn)練模型將會(huì)是下一步的發(fā)展趨勢(shì).
3)LSMDC-QA[143]
LSMDC-QA 數(shù)據(jù)集是來(lái)源于大規(guī)模電影描述挑戰(zhàn)LSMDC16[154],該數(shù)據(jù)集由M-VAD 和MPII-MD 數(shù)據(jù)集融合而成.該數(shù)據(jù)集針對(duì)模型對(duì)電影與字幕的理解提出了單項(xiàng)選擇與視頻檢索2 個(gè)任務(wù).單項(xiàng)選擇任務(wù)中的正確答案來(lái)自真實(shí)字幕,而其他候選答案是從其他字幕中隨機(jī)選擇的.與其他數(shù)據(jù)集相比,該數(shù)據(jù)集具有更多的視頻片段,更關(guān)注電影本身.
4)其他
電影與電視劇類(lèi)型數(shù)據(jù)集還包括MovieFIB,TVQA+,KnowIT VQA,DramaQA.MovieFIB 是為視障人士提供的一個(gè)基于描述性視頻注釋的填空問(wèn)答數(shù)據(jù)集,其擁有超過(guò)30 萬(wàn)條的問(wèn)答與視頻對(duì).TVQA+數(shù)據(jù)集是來(lái)源于TVQA 中的一個(gè)電視劇《生活大爆炸》,在此基礎(chǔ)上為問(wèn)題的相關(guān)視頻的幀上添加目標(biāo)邊框注釋?zhuān)蛊渚哂懈嗟臅r(shí)空關(guān)系.KnowIT VQA數(shù)據(jù)集來(lái)自《生活大爆炸》的前9 季,該數(shù)據(jù)集試圖通過(guò)整合外部知識(shí)來(lái)解決之前數(shù)據(jù)集有限的推理能力,是最大的基于知識(shí)的人工生成VideoQA 數(shù)據(jù)集之一.DramaQA 數(shù)據(jù)集來(lái)源于韓劇《又是吳海英》,提供217 308 張以字符為中心的注釋圖像,該數(shù)據(jù)集著重于以角色為中心的表示形式,注釋考慮了角色的行為和情感方面.
1)MarioQA[140]
MarioQA 數(shù)據(jù)集中的視頻源于一款《無(wú)限馬里奧兄弟》的游戲視頻,每個(gè)視頻片段都帶有事件記錄,其基于手工構(gòu)建的模板與不同的事件.事件的類(lèi)型包括吃、舉、敲和扔等.數(shù)據(jù)集由3 個(gè)子集組成,包含不同的時(shí)間關(guān)系特征問(wèn)題:沒(méi)有時(shí)間關(guān)系問(wèn)題、簡(jiǎn)單時(shí)間關(guān)系問(wèn)題與復(fù)雜時(shí)間關(guān)系問(wèn)題.MarioQA 數(shù)據(jù)集的特征是具有時(shí)間依賴(lài)性與多個(gè)事件的大量視頻,視頻中事件的發(fā)生是清晰的,所以很容易在游戲視頻中學(xué)習(xí)完整的語(yǔ)義信息.
2)PororoQA[31]
PororoQA 數(shù)據(jù)集源于兒童卡通視頻.該視頻共有171 集,每集有一個(gè)不同的故事,平均長(zhǎng)度為7.2 min,總時(shí)長(zhǎng)為20.5 h,共16 066 對(duì)場(chǎng)景對(duì)話(huà)和27 328 個(gè)人工生成的細(xì)粒度場(chǎng)景描述語(yǔ)句.卡通視頻相對(duì)于電影、電視劇等其他視頻來(lái)說(shuō),視頻簡(jiǎn)單明了,故事結(jié)構(gòu)連貫,人物和背景的數(shù)量較少.
3)SVQA[59]
SVAQ 數(shù)據(jù)集是由Unity3D 生成的關(guān)于幾何變化的視頻組成.數(shù)據(jù)集中的每個(gè)視頻片段包含了3~8個(gè)靜態(tài)或動(dòng)態(tài)3D 幾何圖形.每個(gè)幾何圖形都有3 個(gè)基本屬性: 形狀、大小和顏色.其中動(dòng)態(tài)幾何圖形具有額外的動(dòng)作類(lèi)型和動(dòng)作方向的屬性.基于這些屬性,可以根據(jù)對(duì)象之間特定的時(shí)空關(guān)系、相對(duì)位置和動(dòng)作順序來(lái)構(gòu)造問(wèn)題.與其他VideoQA 數(shù)據(jù)集相比,合成視頻包含了真實(shí)視頻中難以收集的對(duì)象之間清晰的時(shí)空關(guān)系,這也導(dǎo)致該數(shù)據(jù)集的視頻內(nèi)容不夠豐富,只包含具有對(duì)象之間各種時(shí)空關(guān)系的長(zhǎng)結(jié)構(gòu)化的問(wèn)題.此外,SVQA 中的問(wèn)題需要多步推理,它可以分解為可讀的邏輯樹(shù)或鏈布局,每個(gè)節(jié)點(diǎn)表示需要進(jìn)行比較或算術(shù)等推理操作的子任務(wù).
4)Env-QA[53]
Env-QA 數(shù)據(jù)集的提出旨在評(píng)估模型理解動(dòng)態(tài)環(huán)境的能力.通過(guò)最近發(fā)布的AI2-THOR[155]模擬器生成以自我為中心的關(guān)于在環(huán)境中探索和互動(dòng)的視頻,這些視頻共涉及15 種基本動(dòng)作、115 種物體和120種室內(nèi)模擬環(huán)境.Env-QA 提供了5 種類(lèi)型的問(wèn)題,從不同的方面評(píng)估對(duì)環(huán)境的動(dòng)態(tài)理解,包括查詢(xún)對(duì)象屬性、對(duì)象狀態(tài)、事件、事件的時(shí)間順序、事件或?qū)ο蟮挠?jì)數(shù)數(shù)量.與MovieQA 和TVQA 這類(lèi)影視數(shù)據(jù)集相比,Env-QA 更加關(guān)注于環(huán)境的交互.
5)CLEVRER[132]
CLEVRER 數(shù)據(jù)集中的每個(gè)視頻都展示了一個(gè)簡(jiǎn)單的玩具物體場(chǎng)景,它們模擬物理中的相互碰撞.該數(shù)據(jù)集的任務(wù)設(shè)計(jì)側(cè)重于時(shí)序和因果的邏輯推理,因其有著較好的注釋?zhuān)蔀閺?fù)雜推理任務(wù)的模型提供有效評(píng)估.該數(shù)據(jù)集中的問(wèn)題分為描述性、解釋性、預(yù)測(cè)性和反事實(shí)4 種類(lèi)型,從互補(bǔ)的角度研究了視頻中的時(shí)序和因果推理問(wèn)題.
6)CRAFT[141]
該數(shù)據(jù)集由Box2D 模擬器創(chuàng)建,旨在評(píng)估模型對(duì) 2D 模擬視頻相關(guān)問(wèn)題的時(shí)間和因果推理能力.數(shù)據(jù)集中的視頻包含各種運(yùn)動(dòng)物體,它們彼此和場(chǎng)景相互作用.問(wèn)題類(lèi)別包括以前研究過(guò)的描述性問(wèn)題和反事實(shí)問(wèn)題,同時(shí)引入了一個(gè)新的因果問(wèn)題類(lèi)別,通過(guò)因果、使能、預(yù)防概念來(lái)理解物體之間的因果交互作用.
1)TGIF-QA[45]
TGIF-QA 數(shù)據(jù)集來(lái)源于TGIF 數(shù)據(jù)集(Tumblr GIF)[156],以GIF 動(dòng)態(tài)圖作為視頻源.該數(shù)據(jù)集基于TGIF數(shù)據(jù)集提出了4 種類(lèi)型的任務(wù):重復(fù)計(jì)數(shù)、重復(fù)動(dòng)作、狀態(tài)轉(zhuǎn)換和幀問(wèn)答.重復(fù)計(jì)數(shù)任務(wù)是關(guān)于計(jì)算某一動(dòng)作重復(fù)次數(shù)的開(kāi)放式問(wèn)題.重復(fù)動(dòng)作任務(wù)定義為識(shí)別視頻中重復(fù)動(dòng)作的單項(xiàng)選擇問(wèn)題.狀態(tài)轉(zhuǎn)換任務(wù)也是一個(gè)單項(xiàng)選擇問(wèn)題,是關(guān)于識(shí)別另一種狀態(tài)之前或之后的狀態(tài),包括面部表情(如從悲傷到快樂(lè))、動(dòng)作(如從站立到坐)、位置(如從臥室到客廳)、物體屬性(如從空到滿(mǎn)).幀問(wèn)答任務(wù)是一個(gè)開(kāi)放式問(wèn)題,主要是基于視頻中的某一幀,類(lèi)似于圖像問(wèn)答.與其他數(shù)據(jù)集相比,TGIF-QA 包含了更多的動(dòng)詞形式,理解視頻片段的內(nèi)容需要豐富的時(shí)空推理.
表5 統(tǒng)計(jì)了現(xiàn)有主流模型在該數(shù)據(jù)集上的實(shí)驗(yàn)結(jié)果,對(duì)重復(fù)動(dòng)作、狀態(tài)轉(zhuǎn)換與幀問(wèn)答這3 個(gè)任務(wù)使用準(zhǔn)確率進(jìn)行評(píng)估,對(duì)計(jì)數(shù)任務(wù)使用損失進(jìn)行評(píng)估.一些基于注意力機(jī)制的方法雖然嘗試從時(shí)空角度處理視頻特征,并取得一些成效,但其并未真正理解對(duì)象的空間交互,以至于在時(shí)空問(wèn)題上表現(xiàn)一般.L-GCN 通過(guò)位置感知圖建模對(duì)象位置信息與空間關(guān)系;HGA 則構(gòu)建視頻與問(wèn)題的異構(gòu)圖,側(cè)重于模態(tài)的對(duì)齊與推理過(guò)程.L-GCN 與HGA 的模型性能均高于一般的注意力模型,但是它們沒(méi)有利用或利用視頻幀級(jí)的信息不夠充分,缺乏對(duì)視頻細(xì)粒度的理解.MSPAN 通過(guò)多尺度視頻特征交互來(lái)挖掘視頻中對(duì)象的高層次關(guān)系,由于其限于幀級(jí)與片段級(jí)的單一交互,這不足以處理視頻中的復(fù)雜場(chǎng)景.PGAT 同時(shí)探索了對(duì)象、幀和片段之間的多個(gè)模態(tài)內(nèi)交互,以更全面地理解視覺(jué)內(nèi)容,在圖網(wǎng)絡(luò)模型中達(dá)到最優(yōu)性能.引入音頻信息的VGNMN 模型在各個(gè)任務(wù)上都取得了僅次于預(yù)訓(xùn)練模型的較優(yōu)性能,同時(shí)Le 等人[27]通過(guò)消融實(shí)驗(yàn)證明了音頻模態(tài)在VideoQA 任務(wù)中的重要性.預(yù)訓(xùn)練模型在該數(shù)據(jù)集上表現(xiàn)最為突出,例如MERLOT 與VIOLET 等,它們?cè)趧?dòng)作與狀態(tài)類(lèi)問(wèn)題上的準(zhǔn)確率高達(dá)90%以上.盡管預(yù)訓(xùn)練在各種視頻語(yǔ)言任務(wù)上都有明顯的改善,但Transformer 在視頻語(yǔ)言上的潛力并未得到充分挖掘,一方面是缺少標(biāo)準(zhǔn)的預(yù)訓(xùn)練數(shù)據(jù)集,另一方面則是Transformer的效率問(wèn)題,包括內(nèi)存占用量和計(jì)算量.
Table 5 Performance of Mainstream Models on TGIF-QA表5 主流模型在TGIF-QA 上的性能表現(xiàn)
2)MSRVTT-QA 和MSVD-QA[48]
MSRVTT-QA 和MSVD-QA 數(shù)據(jù)集分別來(lái)源于MSRVTT 和MSVD 視頻數(shù)據(jù)集.MSRVTT-QA 數(shù)據(jù)集更大且具有更復(fù)雜的場(chǎng)景.數(shù)據(jù)集包含約1 萬(wàn)個(gè)視頻片段和約24.3 萬(wàn)個(gè)問(wèn)答對(duì),問(wèn)題有5 種類(lèi)型,包括what,who,how,when,where,該數(shù)據(jù)集中的視頻相對(duì)較長(zhǎng),長(zhǎng)度為10~30s 不等,相當(dāng)于每個(gè)視頻300~900幀.MSVD-QA 數(shù)據(jù)集共有1 970 個(gè)視頻片段和50 505個(gè)問(wèn)題答案對(duì).與 MSRVTT-QA 類(lèi)似,問(wèn)題有5 種類(lèi)型,主要用于視頻字幕實(shí)驗(yàn),但由于其數(shù)據(jù)量較大,因此也用于VideoQA 任務(wù).
表6 統(tǒng)計(jì)了主流模型在該數(shù)據(jù)集上的性能表現(xiàn),表中值均為準(zhǔn)確率,其與表5 如出一轍,性能更優(yōu)的模型都是基于圖網(wǎng)絡(luò)和預(yù)訓(xùn)練模型.基于圖結(jié)構(gòu)的模型LiVLR 在MSRVTT-QA 取得了最佳的實(shí)驗(yàn)結(jié)果,其中GCN 對(duì)視覺(jué)與語(yǔ)言的多粒度信息進(jìn)行時(shí)空建模起到關(guān)鍵性作用.基于大規(guī)模數(shù)據(jù)集的預(yù)訓(xùn)練模型在下游VideoQA 任務(wù)上性能表現(xiàn)出眾,MSRVTT-QA和MSVD-QA 數(shù)據(jù)集上的實(shí)驗(yàn)結(jié)果也印證了這一結(jié)論.但此類(lèi)數(shù)據(jù)驅(qū)動(dòng)的模型,可解釋性相對(duì)較弱.
Table 6 Performance of Mainstream Models on MSRVTT-QA and MSVD-QA表6 主流模型在MSRVTT-QA 和MSVD-QA 上的性能表現(xiàn)%
由TGIF-QA,MSRVTT-QA,MSVD-QA 上統(tǒng)計(jì)的實(shí)驗(yàn)數(shù)據(jù)不難發(fā)現(xiàn),用于VideoQA 上的方法逐漸由常規(guī)注意力和記憶網(wǎng)絡(luò)轉(zhuǎn)向圖神經(jīng)網(wǎng)絡(luò)與基于Transformer 的預(yù)訓(xùn)練模型.此外,也有研究者提出其他的算法模型同樣有著出色的表現(xiàn),如基于基礎(chǔ)構(gòu)建單元的HCRN 與HOSTR,它們?cè)谀撤N程度上為后續(xù)模型設(shè)計(jì)提供了另一種設(shè)計(jì)思路,如HQGA.
3)Activitynet-QA[142]
Activitynet-QA 數(shù)據(jù)集來(lái)源于Activitynet 視頻數(shù)據(jù)集,由YouTube 短片組成.其中問(wèn)題的類(lèi)型分為3 種:基于動(dòng)作的問(wèn)題,檢測(cè)模型對(duì)粗略時(shí)序動(dòng)作的理解;基于空間關(guān)系的問(wèn)題,測(cè)試模型對(duì)靜態(tài)幀的空間推理能力;基于時(shí)序關(guān)系的問(wèn)題,考察模型從一個(gè)序列的幀中推理對(duì)象的時(shí)序關(guān)系的能力.答案類(lèi)型分為6 類(lèi): 是/否、數(shù)字、顏色、對(duì)象、位置和其他.為了確保問(wèn)題的質(zhì)量,數(shù)據(jù)集限制問(wèn)題和答案的長(zhǎng)度,題目最多20 個(gè)詞,答案最多5 個(gè)詞.與其他VideoQA數(shù)據(jù)集相比,Activitynet-QA 具有大規(guī)模、全人工注釋的長(zhǎng)視頻,而且來(lái)源于生活,更加貼合實(shí)際,因此相對(duì)其他數(shù)據(jù)集更有意義.
4)YouTube2Text-QA[55]
YouTube2Text-QA 數(shù)據(jù)集是提出比較早的一個(gè)VideoQA 數(shù)據(jù)集,來(lái)源于YouTube2Text[157]數(shù)據(jù)集.其數(shù)據(jù)取自YouTube 短視頻,對(duì)于每一個(gè)視頻片段,均由人工手動(dòng)生成自然語(yǔ)言描述.問(wèn)題的類(lèi)型為單項(xiàng)選擇與開(kāi)放式,問(wèn)題的提問(wèn)方式分為who、what 和其他.YouTube2Text-QA 數(shù)據(jù)集規(guī)模相對(duì)較大,而且?guī)斯ぷ⑨尩囊曨l描述對(duì)于問(wèn)答對(duì)的產(chǎn)生很方便,對(duì)模型訓(xùn)練也有很好的作用.
5)Video-QA[79]
Video-QA 數(shù)據(jù)集來(lái)源于互聯(lián)網(wǎng)上的在線(xiàn)視頻庫(kù).每個(gè)視頻通常有3~5 個(gè)描述句子,描述性句子由視頻提交者制作.描述包含場(chǎng)景細(xì)節(jié)、演員、動(dòng)作以及可能的非視覺(jué)信息.問(wèn)答類(lèi)型也較為豐富.Video-QA 數(shù)據(jù)集是以最少的人力生成的一個(gè)較大規(guī)模的基于視頻的問(wèn)答數(shù)據(jù)集.
6)AGQA[150]
AGQA 源于Action genome[158],是一種新的組合時(shí)空推理的數(shù)據(jù)集,提供了一個(gè)評(píng)估視覺(jué)模型中各種維度的組合時(shí)空推理的基準(zhǔn).其包含約1.92 億個(gè)不平衡問(wèn)答對(duì),這種不平衡的問(wèn)答對(duì)將引起模型偏見(jiàn),Grunde-McLaughlin 等人[150]通過(guò)平衡答案分布和問(wèn)題結(jié)構(gòu)的類(lèi)型來(lái)最大限度地減少這種偏見(jiàn),將原始不平衡問(wèn)答對(duì)集合減少為390 萬(wàn)個(gè)問(wèn)答對(duì)的平衡子集.該數(shù)據(jù)集的語(yǔ)料庫(kù)純粹是基于視覺(jué)的,比現(xiàn)有的基準(zhǔn)測(cè)試集大3 個(gè)數(shù)量級(jí),適用于評(píng)估模型復(fù)雜的多步推理能力.
7)其他
數(shù)據(jù)源為開(kāi)放類(lèi)型的數(shù)據(jù)集還包括EgoVQA,Social-IQ,LifeQA,Tutorial-VQA,How2QA,TrafficQA,NExT-QA,STAR,F(xiàn)ill-in-the-Blank.EgoVQA 數(shù)據(jù)集是一個(gè)新穎的以自我為中心視角的VideoQA 數(shù)據(jù)集,視頻都是第一人稱(chēng),其視頻源是公共IU Multiview 數(shù)據(jù)集,為多視圖自中心視頻研究而收集的.Social-IQ數(shù)據(jù)集來(lái)自于YouTube 上各種各樣的視頻,視頻中的情景與事件貼近生活,其目標(biāo)是分析由自然互動(dòng)組成的非約定俗成的社交情境,是一個(gè)開(kāi)拓性的真實(shí)世界無(wú)約束數(shù)據(jù)集,旨在評(píng)估現(xiàn)在和未來(lái)人工智能技術(shù)的社交智能.LifeQA 數(shù)據(jù)集來(lái)源于YouTube 上人們?cè)诓煌瑘?chǎng)景下的日常生活視頻,這些視頻均為在自然環(huán)境下帶語(yǔ)音互動(dòng)的視頻;因其問(wèn)答均與生活息息相關(guān),非常有助于真實(shí)的問(wèn)答系統(tǒng).Tutorial-VQA數(shù)據(jù)集由76 個(gè)教程網(wǎng)站上的視頻組成,視頻均經(jīng)過(guò)預(yù)處理,包含文本及每句話(huà)的時(shí)間戳信息,是一種用于在教程視頻中尋找答案范圍的新型數(shù)據(jù)集.How-2QA 數(shù)據(jù)集來(lái)源于HowTo100M 和電視劇,視頻類(lèi)型具有多樣性特點(diǎn).與TVQA 類(lèi)似,該數(shù)據(jù)集也為每個(gè)問(wèn)題提供了相關(guān)時(shí)刻的開(kāi)始點(diǎn)和結(jié)束點(diǎn).TrafficQA數(shù)據(jù)集通過(guò)在線(xiàn)和離線(xiàn)獲取相結(jié)合的方式收集了覆蓋各種真實(shí)的交通場(chǎng)景的視頻,非常有助于交通場(chǎng)景中的輔助駕駛、違章檢測(cè)等應(yīng)用.NExT-QA 中的視頻源于YFCC-100M[159],視頻主要關(guān)注于現(xiàn)實(shí)的生活場(chǎng)景,內(nèi)容具有豐富的對(duì)象交互.該數(shù)據(jù)集的問(wèn)題分為因果關(guān)系問(wèn)題、時(shí)序性問(wèn)題與描述性問(wèn)題3 種類(lèi)型,旨在評(píng)估模型的因果動(dòng)作推理與時(shí)間動(dòng)作推理的能力.STAR[151]源于Charades[160]數(shù)據(jù)集,它與AGQA同為真實(shí)世界場(chǎng)景的數(shù)據(jù)集.AGQA 中的任務(wù)設(shè)計(jì)側(cè)重于時(shí)空關(guān)系,而STAR 更關(guān)注基于現(xiàn)實(shí)情景的推理,側(cè)重于人與對(duì)象交互、時(shí)間序列分析、動(dòng)作預(yù)測(cè)和可行性推理.Fill-in-the-Blank 源于一個(gè)多語(yǔ)言視頻字幕數(shù)據(jù)集VaTeX[161],通過(guò)掩碼視頻英文字幕中的名詞性單詞或短語(yǔ)得到具有多個(gè)正確答案的填空題,其余正確答案均由人工生成.EgoTaskQA[152]在LEMMA[162]數(shù)據(jù)集基礎(chǔ)上進(jìn)行數(shù)據(jù)增強(qiáng),與EgoVQA 類(lèi)似,也是一個(gè)以自我為中心的VideoQA 數(shù)據(jù)集.采用與AGQA同樣的方式平衡答案分布和問(wèn)題結(jié)構(gòu)的類(lèi)型來(lái)減少數(shù)據(jù)偏見(jiàn),其問(wèn)題設(shè)計(jì)借鑒CLEVRER,旨在評(píng)估模型的時(shí)空和因果推理能力.
VideoQA 任務(wù)涉及計(jì)算機(jī)視覺(jué)與自然語(yǔ)言處理2 個(gè)領(lǐng)域,面臨著更為嚴(yán)峻的挑戰(zhàn),相對(duì)于ImageQA而言其應(yīng)用前景更為廣泛.隨著近幾年研究者們?cè)谠撊蝿?wù)上的不斷改進(jìn)與創(chuàng)新,眾多模型被提出并在特定的數(shù)據(jù)集上有著出色表現(xiàn).同時(shí),受到該任務(wù)的啟發(fā),應(yīng)用于各種場(chǎng)景的數(shù)據(jù)集也層出不窮.盡管目前有很多優(yōu)秀的模型與數(shù)據(jù)集,但是能夠真正應(yīng)用于實(shí)際生活中的少之又少.這意味著目前的模型大多只是為了提升對(duì)特定數(shù)據(jù)集的性能,并不能在現(xiàn)實(shí)中實(shí)現(xiàn)人機(jī)互動(dòng),所以該任務(wù)還需要進(jìn)行不斷探索與研究.總之,VideoQA 仍處于一個(gè)發(fā)展階段,也必然存在著諸多問(wèn)題與挑戰(zhàn).
4.1.1 模型的評(píng)估能力不足
目前開(kāi)放式問(wèn)答模型相對(duì)較少,其主要原因是對(duì)于該類(lèi)型的問(wèn)答難以制定合適的評(píng)估標(biāo)準(zhǔn),其次真正意義上的開(kāi)放式問(wèn)答的數(shù)據(jù)集幾乎沒(méi)有.傳統(tǒng)的開(kāi)放式問(wèn)答任務(wù)是預(yù)定義一個(gè)答案集合,從中選擇一個(gè)答案,其被視為一個(gè)多分類(lèi)任務(wù),與選擇題任務(wù)類(lèi)似.即當(dāng)前開(kāi)放式問(wèn)答任務(wù)的答案都屬于一個(gè)潛在的答案集合,這并不符合人工智能的發(fā)展目標(biāo),所以生成式答案更適于人們的邏輯.文獻(xiàn)[36, 63,106] 提出的模型解決開(kāi)放式問(wèn)題,該模型根據(jù)視頻與問(wèn)題來(lái)生成一個(gè)自由形式的答案.這種類(lèi)型的開(kāi)放式問(wèn)答能夠像人一樣回答問(wèn)題,所以其應(yīng)用范圍更廣,更符合實(shí)際需求,但模型的準(zhǔn)確率評(píng)估依然是個(gè)難題.
4.1.2 模型缺乏可解釋性
目前,大多數(shù)模型不能夠?qū)ζ鋯?wèn)答過(guò)程進(jìn)行充分的可視可解釋性分析,因而VideoQA 的結(jié)果一直很難被完全信服.因此,如何利用可視化的工具分析解釋模型的內(nèi)部機(jī)理尤為重要.一旦能夠進(jìn)行可視化的機(jī)理解釋?zhuān)涂梢越o出一個(gè)通用的VideoQA 模型范式,在各種不同類(lèi)型的數(shù)據(jù)源間進(jìn)行遷移學(xué)習(xí).
4.1.3 模型的魯棒性與泛化能力較弱
數(shù)據(jù)集缺陷是導(dǎo)致模型魯棒性與泛化能力不足的重要原因.部分?jǐn)?shù)據(jù)集規(guī)模較小,學(xué)習(xí)樣本不足將導(dǎo)致模型欠擬合,測(cè)試樣本不足也將導(dǎo)致預(yù)測(cè)結(jié)果可靠性較低.幾乎近一半數(shù)據(jù)集中的問(wèn)答對(duì)是通過(guò)固定問(wèn)題模板結(jié)合程序自動(dòng)生成,這使得問(wèn)答類(lèi)型缺乏多樣性,很容易導(dǎo)致模型訓(xùn)練過(guò)擬合.部分?jǐn)?shù)據(jù)集存在偏見(jiàn),這些數(shù)據(jù)集收集的問(wèn)題有的更側(cè)重于視覺(jué)信息,有的更側(cè)重于文本信息,而有的不需要視覺(jué)與文本信息就能夠正確回答.這種數(shù)據(jù)集偏見(jiàn)可能會(huì)使得模型達(dá)到很好的訓(xùn)練效果,但在測(cè)試集表現(xiàn)出很大差異,難以泛化到其他數(shù)據(jù)集.
基于4.1 節(jié)所述的VideoQA 問(wèn)題與挑戰(zhàn),未來(lái)的研究工作可以從以下5 個(gè)方面進(jìn)行開(kāi)展.
4.2.1 構(gòu)建更加完善的數(shù)據(jù)集
好的數(shù)據(jù)集是訓(xùn)練優(yōu)秀模型的前提.首先數(shù)據(jù)集規(guī)模不能太小,可以在必要時(shí)通過(guò)數(shù)據(jù)增強(qiáng)來(lái)擴(kuò)充數(shù)據(jù)集,由此達(dá)到增強(qiáng)模型的魯棒性、提升模型泛化能力的目的.其次可以加入對(duì)抗樣本訓(xùn)練,提升模型在對(duì)抗樣本的魯棒性,但是若模型過(guò)于魯棒,其泛化能力就會(huì)下降.然后,數(shù)據(jù)集中的各種類(lèi)型的問(wèn)題需要均衡,比如根據(jù)單一模態(tài)回答的問(wèn)題與需要根據(jù)融合模態(tài)回答的問(wèn)題比例不要相差太大,只需單一模態(tài)就能回答的問(wèn)題的數(shù)量最好也不要偏向某一模態(tài)信息.對(duì)于具體問(wèn)題,例如涉及到狀態(tài)轉(zhuǎn)移、計(jì)數(shù)等時(shí)序性問(wèn)題的比例也需要提高.只有均衡的數(shù)據(jù)集才能夠正確地評(píng)價(jià)VideoQA 模型的能力.
4.2.2 多模態(tài)協(xié)同學(xué)習(xí)
相比于圖像,視頻具有更加豐富的多模態(tài)信息,包括音頻、字幕、光流等.當(dāng)前絕大多數(shù)VideoQA 模型在處理視頻數(shù)據(jù)時(shí),以視頻的視覺(jué)模態(tài)為主;也有一些方法同時(shí)利用視頻的視覺(jué)模態(tài)和字幕模態(tài),但通常只是對(duì)多模態(tài)特征進(jìn)行簡(jiǎn)單地融合,如簡(jiǎn)單的點(diǎn)乘、拼接或雙線(xiàn)性池化等[31-33],這種融合方式很難充分利用模態(tài)之間的互補(bǔ)信息.為了更加充分地利用視頻的多模態(tài)信息:一方面可以同時(shí)引入更多不同模態(tài)信息而不只是2 種模態(tài);另一方面可以通過(guò)不同模態(tài)之間的協(xié)同學(xué)習(xí)而不只是簡(jiǎn)單的模態(tài)融合來(lái)挖掘多模態(tài)信息的潛力,比如通過(guò)不同模態(tài)分支之間的互學(xué)習(xí)來(lái)提升對(duì)視頻的表示能力.此外,并不是所有視頻都存在各個(gè)模態(tài)的信息,比如某個(gè)視頻可能沒(méi)有音頻信號(hào),如何處理某些模態(tài)丟失的情況是十分有價(jià)值的研究問(wèn)題;同時(shí),對(duì)多模態(tài)信息的建模會(huì)增加模型的復(fù)雜度,如何構(gòu)建更加輕量的多模態(tài)協(xié)同使用的模型也是未來(lái)值得研究的問(wèn)題.
4.2.3 加強(qiáng)因果關(guān)系推理
在ImageQA 中,Wang 等人[163]提出了QA R-CNN的模型,同時(shí)構(gòu)建了EST-VQA 數(shù)據(jù)集.該數(shù)據(jù)集加入了支撐答案的證據(jù),模型在推理答案時(shí)會(huì)提供預(yù)測(cè)該答案的支撐證據(jù).文獻(xiàn)[164-165]也提出了使用顯式知識(shí)進(jìn)行因果推理的方法,可以使模型預(yù)測(cè)的答案更具有可解釋性.與ImageQA 相同,VideoQA 也更加需要使預(yù)測(cè)的答案具有可解釋性,因?yàn)榇蠖鄶?shù)模型依賴(lài)于預(yù)定義的答案池,無(wú)法處理詞匯表之外的問(wèn)題答案.因此這些模型是否真正具有理解和推理問(wèn)題的能力,還是僅僅對(duì)固定答案空間的過(guò)度擬合很難知曉.所以在構(gòu)建視頻數(shù)據(jù)集時(shí)加入支撐答案的證據(jù)也是未來(lái)的必要工作,讓VideoQA 模型進(jìn)行答案推理,并提供支撐證據(jù)保證了推理過(guò)程的因果關(guān)系,也使得預(yù)測(cè)答案更加合理.
4.2.4 外部知識(shí)的引入
目前,大部分VideoQA 模型只關(guān)注數(shù)據(jù)集中可利用的視覺(jué)與文本信息,然而忽略了并不是所有的問(wèn)題都能夠憑借數(shù)據(jù)集提供的信息進(jìn)行回答.由于數(shù)據(jù)集本身提供的信息有限,無(wú)論是在ImageQA 還是在VideoQA 中,僅僅利用給定的視覺(jué)與文本信息來(lái)回答問(wèn)題往往是不充分的,VideoQA 任務(wù)中的部分問(wèn)題更需要結(jié)合先驗(yàn)知識(shí)進(jìn)行推理.這些知識(shí)包括常識(shí)知識(shí)、關(guān)系知識(shí)等,它們一般通過(guò)在線(xiàn)獲取或者手動(dòng)構(gòu)建.將與問(wèn)題相關(guān)的實(shí)體對(duì)象與外部知識(shí)進(jìn)行關(guān)聯(lián),從而提升模型對(duì)視頻和問(wèn)題的理解程度以達(dá)到知識(shí)推理的準(zhǔn)確性.
如圖17 所示,這是一個(gè)涉及視覺(jué)與常識(shí)知識(shí)的問(wèn)題[166].要正確回答“地面上的紅色物體能用來(lái)做什么?”,模型所憑借的不僅源于圖像上所識(shí)別的“消防栓”這單一信息,而且必須依靠來(lái)自外部的常識(shí)知識(shí),即“消防栓能滅火”作為支撐的事實(shí),才能正確給出“滅火”這一答案.這是一個(gè)ImageQA 模型上利用外部知識(shí)的場(chǎng)景,此外文獻(xiàn)[167-172]提出ImageQA的模型均結(jié)合了外部知識(shí)進(jìn)行推理,均取得了優(yōu)異的實(shí)驗(yàn)結(jié)果.同理,VideoQA 包含更豐富的信息,推理過(guò)程中更加需要外部知識(shí)的支撐.目前已有少數(shù)工作如文獻(xiàn)[104, 137-138]在VideoQA 模型推理時(shí)合理地查詢(xún)外部知識(shí),進(jìn)一步提升了模型回答的準(zhǔn)確率.同時(shí),外部知識(shí)也可以解決現(xiàn)有方法在基于特定數(shù)據(jù)集訓(xùn)練的模型泛化能力弱的問(wèn)題,所以,如何將外部知識(shí)與VideoQA 模型結(jié)合起來(lái)也是未來(lái)要討論的重點(diǎn).
4.2.5 預(yù)訓(xùn)練與提示的結(jié)合
近2 年來(lái),視覺(jué)語(yǔ)言預(yù)訓(xùn)練模型在從大規(guī)模數(shù)據(jù)中學(xué)習(xí)聯(lián)合視覺(jué)-文本表示方面取得了巨大成功.預(yù)訓(xùn)練模型能夠流行起來(lái)的一個(gè)重要原因是用于訓(xùn)練這些強(qiáng)大的視覺(jué)語(yǔ)言模型的大規(guī)模數(shù)據(jù)可以很容易地從互聯(lián)網(wǎng)上獲取到,而無(wú)需任何耗時(shí)費(fèi)力的手動(dòng)注釋.因此,有理由相信,隨著數(shù)據(jù)集規(guī)模的不斷增大,在不久的將來(lái)會(huì)訓(xùn)練出用于下游任務(wù)更強(qiáng)大的模型.
將預(yù)訓(xùn)練模型用于特定的下游任務(wù),比較流行的方法是微調(diào)(Fine-tuning).而現(xiàn)在有研究者希望用提示(Prompting)來(lái)代替原來(lái)的Fine-tuning 方法,它不同于Fine-tuning 改造原有模型參數(shù)的方式,Prompting則是將下游任務(wù)的輸入輸出形式改造成預(yù)訓(xùn)練任務(wù)中的形式.Radford 等人[173]提出CLIP 模型,給定其適當(dāng)手工設(shè)計(jì)的Prompting,使模型有效地縮小預(yù)訓(xùn)練和下游任務(wù)之間的差距.Ju 等人[174]在CLIP 基礎(chǔ)上提出通過(guò)學(xué)習(xí)特定任務(wù)的提示向量來(lái)實(shí)現(xiàn)高效和輕量級(jí)的模型適應(yīng),并將CLIP 的圖像理解擴(kuò)展到視頻理解,并增加了對(duì)時(shí)間維度的處理.其在動(dòng)作識(shí)別與文本視頻檢索任務(wù)中的性能均優(yōu)于現(xiàn)有方法,相信未來(lái)將其應(yīng)用到VideoQA 任務(wù)中也將會(huì)取得優(yōu)異的性能表現(xiàn).
本文主要對(duì)該領(lǐng)域的發(fā)展現(xiàn)狀、各種模型框架以及不同的基準(zhǔn)數(shù)據(jù)集進(jìn)行了回顧.對(duì)比分析了VideoQA 任務(wù)與ImageQA 任務(wù)兩者的重要區(qū)別與挑戰(zhàn),主要區(qū)別是視頻相對(duì)于圖片具有更復(fù)雜的語(yǔ)義信息.同時(shí)對(duì)用于該任務(wù)的各種模型進(jìn)行了詳細(xì)的分析與討論:注意力機(jī)制的應(yīng)用能夠像人一樣關(guān)注到視頻與問(wèn)題中的有效信息;記憶機(jī)制加上注意力能夠?qū)﹃P(guān)鍵信息不斷更新與保存;利用圖網(wǎng)絡(luò)建模視頻時(shí)空結(jié)構(gòu)進(jìn)行聯(lián)合推理更能準(zhǔn)確地解決時(shí)空相關(guān)問(wèn)題;利用海量數(shù)據(jù)進(jìn)行預(yù)訓(xùn)練基于Transformer或BERT 的模型具有較好的魯棒性.本文對(duì)用于該任務(wù)的數(shù)據(jù)集也進(jìn)行了細(xì)致介紹,并分析了部分模型在數(shù)據(jù)集上的實(shí)驗(yàn)結(jié)果,最后指出了目前數(shù)據(jù)集與模型存在的一些不足,數(shù)據(jù)集存在的局限性導(dǎo)致模型魯棒性與泛化能力不足,以及模型本身缺乏可解釋性.雖然VideoQA 被提出已有五六年之久,但該領(lǐng)域仍處于發(fā)展階段,很少有實(shí)際落地的應(yīng)用.隨著越來(lái)越多的研究者們的加入,相信在不遠(yuǎn)的將來(lái),VideoQA 技術(shù)一定會(huì)應(yīng)用于現(xiàn)實(shí)生活中.
作者貢獻(xiàn)聲明:包翠竹負(fù)責(zé)課題設(shè)計(jì)、文獻(xiàn)歸納、論文撰寫(xiě)與修改;丁凱負(fù)責(zé)論文撰寫(xiě)、文獻(xiàn)整理與數(shù)據(jù)收集;董建峰負(fù)責(zé)課題構(gòu)思、論文修改與結(jié)構(gòu)設(shè)計(jì);楊勛負(fù)責(zé)論文指導(dǎo)與修改以及提供材料支持;謝滿(mǎn)德負(fù)責(zé)規(guī)劃論文整體結(jié)構(gòu)、提出論文修改意見(jiàn);王勛負(fù)責(zé)論文指導(dǎo)與修改、論文審閱.