蘇振強(qiáng),茍 剛
貴州大學(xué)計(jì)算機(jī)科學(xué)與技術(shù)學(xué)院公共大數(shù)據(jù)國家重點(diǎn)實(shí)驗(yàn)室,貴陽 550025
隨著網(wǎng)絡(luò)的飛速發(fā)展,數(shù)據(jù)的存在形式是多種多樣的,其用途和來源也是十分廣泛。不同存在形式或信息來源都可以稱之為一種模態(tài),往往單模態(tài)信息表達(dá)的內(nèi)容有限,加之文本、語音、圖像等單模態(tài)信息技術(shù)的逐步成熟,多模態(tài)信息挖掘走進(jìn)了人們的視野。本文關(guān)注的是一項(xiàng)結(jié)合計(jì)算機(jī)視覺和自然語言處理的學(xué)習(xí)任務(wù):視覺問答(visual question answering,VQA)[1]。視覺問答需要機(jī)器充分感知、識別、理解圖像信息和問題語義,并推理出正確的答案,是一項(xiàng)極具挑戰(zhàn)性的任務(wù)。換言之,該任務(wù)就是教會機(jī)器如何去“觀察”和“閱讀”。視覺問答在跨模態(tài)人機(jī)交互場景下極具應(yīng)用前景,包括但不限于幫助視障人士感知世界,提高公安系統(tǒng)監(jiān)控視頻檢索效率,優(yōu)化智能系統(tǒng)中人機(jī)交互體驗(yàn)。
視覺問答主要是對圖像和問題分別進(jìn)行特征提取,一方面利用Word2Vec[2]、Glove[3]、Bert[4]等技術(shù)進(jìn)行文本編碼,另一方面采用VGG[5]、ResNet[6]、Faster R-CNN[7]等技術(shù)進(jìn)行圖像編碼,進(jìn)而實(shí)現(xiàn)特征的理解和融合等操作。2014年第一個(gè)視覺問答數(shù)據(jù)集的發(fā)布,拉開了VQA研究的序幕。Malinowski等人[8]提出了一種神經(jīng)圖像視覺問答方法,利用長短期記憶網(wǎng)絡(luò)(long short-term memory,LSTM)[9]處理問題文本和生成答案。Ren 等人[10]不同于前者將視覺問答視為序列生成問題,而是看作分類問題,從預(yù)定義的詞匯表中選出正確的答案。但是他們都采用了雙向LSTM,從前后兩個(gè)方向分析問題,一定程度上解決了遠(yuǎn)距離單詞依賴丟失的問題。
如果依靠圖像和文本的全局特征,往往容易傳遞無關(guān)或嘈雜信息。因此,有學(xué)者引入注意力機(jī)制來有效地避免此類情況的發(fā)生。譬如,Chen等人[11]將問題特征表示從語義空間轉(zhuǎn)化為視覺空間來生成卷積核,從而在空間圖像特征圖中搜尋與問題語義信息最相關(guān)的視覺區(qū)域特征,獲得語義對齊后的視覺注意圖,但忽略從視覺特征出發(fā)的注意力引導(dǎo)。視覺任務(wù)需要同時(shí)理解圖像和問題,F(xiàn)ukui 等人[12]提出了雙線性池化(multimodal compact bilinear pooling,MCBP)方法,將視覺和文本特征進(jìn)行跨模態(tài)融合,在一定程度上有效融合了模態(tài)特征,但是外積的融合方式無法表征復(fù)雜的交互信息。因而,Ben-Younes 等人[13]提出了MUTAN 模型,運(yùn)用張量分解的方式對雙線性模型的參數(shù)張量進(jìn)行分解,以此進(jìn)行復(fù)雜交互。Anderson等人[14]通過“自下而上”和“自上而下”相結(jié)合的視覺注意力機(jī)制,學(xué)習(xí)圖像區(qū)域和文本問題之間的隱含對齊關(guān)系。Kim 等人[15]提出一種雙線性注意力網(wǎng)絡(luò)模型BAN,利用雙線性注意力映射和雙線性池化的方式提取圖像和問題的聯(lián)合表示。Yu 等人[16]提出了一種提出了一種深度模塊化共同注意力網(wǎng)絡(luò)(modular co-attention network,MCAN),注重單模態(tài)的內(nèi)部注意力和跨模態(tài)之間的交互注意力,加強(qiáng)了模態(tài)的內(nèi)部依賴和跨模態(tài)的對齊關(guān)系。以上方法在視覺問答領(lǐng)域都取得了不錯(cuò)的成績,但是對于基于知識的開放性視覺問答,忽略了外部知識,僅僅依靠圖像和問題信息難以推理出正確的答案。
Zhu 等人[17]提出了Mucko 模型,從視覺、語義、知識三個(gè)角度將圖像表示成一個(gè)多層的多模態(tài)異質(zhì)圖,并利用異質(zhì)圖卷積網(wǎng)絡(luò)來從不同層的圖中自適應(yīng)地收集互補(bǔ)線索。王屹超等人[18]結(jié)合圖像描述和知識圖譜作為外部知識用來解決開放性知識問答。以上方法用不同方式結(jié)合問答所需要的知識信息,用單模態(tài)的特征與知識庫進(jìn)行交互,然而在一些問答實(shí)例中需要聯(lián)合圖像和問題語義進(jìn)行知識交互,才能推理出正確的答案。
外部知識的引入可以豐富模型的推理能力,視覺信息也不容忽視。如圖1(a)所示,圖像信息并沒有關(guān)于“這些人是游客還是當(dāng)?shù)厝??”的相關(guān)信息,可以從視覺信息捕捉到“行李包”這一個(gè)信息對象,結(jié)合相關(guān)聯(lián)的外部知識:“旅行包是手提包,用于裝旅行者的衣服和其他個(gè)人物品”和“行李是存放旅客物品的箱子”,可以推理出圖中的人是游客這一答案。圖1(b)中,外部知識僅僅能提供這個(gè)物體是用于表示時(shí)間的相關(guān)概念性信息,而對于問題需要的具體時(shí)間仍需要從視覺信息中進(jìn)行獲取。
圖1 聯(lián)合知識和視覺信息的視覺問答實(shí)例Fig.1 Knowledge-based visual question answering example
因此,本文提出了聯(lián)合知識和視覺信息推理的雙線性推理結(jié)構(gòu),將模型的推理過程分為視覺信息推理和外部知識信息推理,設(shè)計(jì)了圖像特征和文本特征雙引導(dǎo)的注意力機(jī)制,從而與外部知識進(jìn)行充分交互。
本文的主要研究工作如下:
(1)提出雙線性推理結(jié)構(gòu),關(guān)注視覺信息的提取和知識嵌入的方式,充分利用視覺信息和知識信息來進(jìn)行問答推理。
(2)設(shè)計(jì)了雙引導(dǎo)的注意力模塊,使得每一個(gè)問題詞和每一個(gè)圖像區(qū)域都可以實(shí)現(xiàn)與外部知識實(shí)體的密集交互,有助于理解其中的細(xì)粒度關(guān)系,更好地推理出問答所需的知識信息。
目前關(guān)于視覺語言的推理都要求模型能夠正確的理解視覺概念和語言語義,以及兩者之間的關(guān)系,并將它們對齊。LXMERT[19]框架通過三個(gè)編碼器(對象關(guān)系編碼器、語言編碼器和跨模態(tài)編碼器)來學(xué)習(xí)視覺語言之間的關(guān)系。為了使LXMERT能夠?qū)⒁曈X概念和語言語義關(guān)聯(lián)起來,利用掩碼語言建模、掩碼目標(biāo)預(yù)測、跨模態(tài)匹配、圖像問答等預(yù)訓(xùn)練任務(wù),在大量“圖像句子對”數(shù)據(jù)集上對模型進(jìn)行了預(yù)訓(xùn)練。這些任務(wù)有助于模型學(xué)習(xí)模態(tài)內(nèi)部和模態(tài)之間的關(guān)系。因此,該文擬利用LXMERT 在模態(tài)內(nèi)和跨模態(tài)間表現(xiàn)出良好的建模能力的優(yōu)勢,對問題和圖像進(jìn)行編碼,以進(jìn)一步抽取視覺信息和輸入對象的特征表示。
文獻(xiàn)[16]提出的深度模塊化協(xié)同注意網(wǎng)絡(luò),將問題中的關(guān)鍵詞和圖像中的關(guān)鍵區(qū)域進(jìn)行深度的聯(lián)合注意學(xué)習(xí)。這種深度的學(xué)習(xí)方式主要是利用了自注意力(self-attention,SA)[20]機(jī)制對問題和圖像分別進(jìn)行自注意,加強(qiáng)問題和圖像各自的內(nèi)部依賴關(guān)系;利用引導(dǎo)注意力(guide-attention,GA)的機(jī)制實(shí)現(xiàn)跨模態(tài)特征之間的協(xié)同。SA和GA內(nèi)部結(jié)構(gòu)如圖2所示。
圖2 SA和GA的內(nèi)部結(jié)構(gòu)Fig.2 Ⅰnternal structure of SA and GA
自注意力SA 是用于計(jì)算單模態(tài)之間的依賴關(guān)系。它摒棄了模態(tài)信息內(nèi)部的順序關(guān)系,通過相似度計(jì)算去衡量和表征模態(tài)信息。SA 傳入的是三個(gè)相等向量Query、Key、Value,即Q=K=V。首先將Q和K進(jìn)行點(diǎn)積,計(jì)算二者之間的相似度得到權(quán)重,并除以K的維度;然后通過softmax函數(shù)進(jìn)行權(quán)重的歸一化;最后將權(quán)重與V進(jìn)行加權(quán)和得到最終的注意力表征,其表達(dá)式具體如下:
其中,dk為K的維度。
為了進(jìn)一步提高模型的推理能力,采用多頭注意力機(jī)制,其計(jì)算方式為:
其中,、、是第i個(gè)頭的參數(shù)矩陣,n是多頭的數(shù)量,Wm是多頭注意力參數(shù)矩陣。
本文的模型框架如圖3所示,將模型的推理路徑分為視覺信息推理和外部知識信息推理。
圖3 聯(lián)合知識和視覺信息推理的雙線性模型框架Fig.3 Bilinear model framework for joint knowledge and visual information reasoning
視覺推理路徑主要是分析問題和圖像之間的隱含關(guān)系,從圖像信息中發(fā)掘問題所需要的視覺信息。由于視覺-語言模型LXMERT在模態(tài)內(nèi)和跨模態(tài)間表現(xiàn)出良好的建模能力。本文采用LXMERT對問題文本和圖像進(jìn)行編碼,以進(jìn)一步抽取視覺等信息。
2.1.1 特征表示和視覺信息
輸入的圖像Ⅰ本文采用Faster R-CNN,以“自下而上”的方式來提取輸入圖像的目標(biāo)區(qū)域特征,最終每一張圖像可以表示為一個(gè)視覺特征矩陣fv∈RK×d:
其中,K表示圖像區(qū)域框的數(shù)量,d表示區(qū)域框的特征維度。
輸入的問題文本Q運(yùn)用WordPiece 進(jìn)行分詞并獲得長度為D的單詞序列fq:
將視覺特征fv和文本序列fq傳入預(yù)訓(xùn)練模型LXMERT中,獲得視覺編碼LV∈RK×dv、問題文本編碼LQ∈RD×dv和跨模態(tài)輸出“[CLS]”,其中dv表示編碼信息的維度。
考慮到LXMERT 預(yù)訓(xùn)練任務(wù)中對VQA 設(shè)置,本文從[CLS]表征中抽取跨模態(tài)的視覺信息,并喂入多層感知機(jī)(multi-layer perceptron,MLP)中以進(jìn)一步推理出問答所需的視覺信息V∈R1×dr,其中dr是表示學(xué)習(xí)的維度大小。
2.1.2 圖像的語義對齊
一般輸入問題的語義關(guān)注對象只有圖像中的一小塊區(qū)域,而不是整張圖像信息。如圖1中的實(shí)例B,該問題只需要關(guān)注圖像中的時(shí)鐘對象,而其他對象信息實(shí)則為冗余信息。由于LXMERT是針對模態(tài)內(nèi)部所有對象的隱含關(guān)系進(jìn)行建模,所以經(jīng)過編碼的各個(gè)區(qū)域框的特征實(shí)際上也包含了其他區(qū)域框的視覺信息。因此,可以利用LXMERT的輸出特征計(jì)算與問題語義對齊的視覺對象,從而減少噪聲數(shù)據(jù)提升模型的推理能力。
引用文獻(xiàn)[21]中的處理手段,首先將問題表征和圖像中各區(qū)域框的視覺特征通過線性投射層映射到同一維度后進(jìn)行矩陣相乘運(yùn)算,構(gòu)建出相似性矩陣A:
其中,W1和W2表示線性投射層中可學(xué)習(xí)的參數(shù)矩陣;其次利用逐行最大池化的方式從相似性矩陣中計(jì)算各對象區(qū)域框Oi與問題之間的相關(guān)性;然后利用Gumbel-Softmax結(jié)合硬注意力機(jī)制計(jì)算各個(gè)對象區(qū)域的語義相關(guān)性權(quán)重信息:
其中,i表示第i個(gè)區(qū)域框,gi表示Gumbel(0,1)的隨機(jī)采樣,τ表示Gumbel 的溫度;最后將權(quán)重信息轉(zhuǎn)化為one-hot分布從而得出問題語義對齊下圖像區(qū)域塊表征R∈R1×dv,其計(jì)算表達(dá)式如下:
2.2.1 外部知識表示
本文編寫SPARQL語句從Wikidata[22]知識庫中抽取與現(xiàn)實(shí)場景相關(guān)聯(lián)的知識實(shí)體,再過濾描述為空或非英語單詞的知識實(shí)體后,共獲取到187 308 個(gè)實(shí)體及其描述信息。因?yàn)轭A(yù)訓(xùn)練模型CLⅠP[23]突出的圖文配對的能力,所以本研究中圖像采用滑動窗口的對象抽取形式構(gòu)建一批圖像集,并利用CLⅠP 從過濾后的知識實(shí)體中檢索與圖像信息相關(guān)聯(lián)的知識實(shí)體,用于該問答的外部知識信息。
外部知識的嵌入表示分為兩個(gè)并行的視角,每個(gè)視角采取不同方式的知識嵌入手段。視角1利用Glove詞嵌入技術(shù)將文本S轉(zhuǎn)換為詞向量,然后通過平均池化策略獲取該文本的句子向量;視角2 利用預(yù)訓(xùn)練模型Sentence-BERT[24]得到其句向量特征表示Ss:
其中,Sg∈Rdg,Ss∈Rds,dg和ds分別表示Glove詞嵌入和Sentence-BERT句嵌入的維度。
2.2.2 協(xié)同引導(dǎo)
多模態(tài)協(xié)同引導(dǎo)的注意力機(jī)制是挖掘問題、圖像、外部知識三者特征表示之間交互信息的一種結(jié)構(gòu)。受MCAN模型中GA單元的啟發(fā),本文設(shè)計(jì)了圖像和文本特征雙引導(dǎo)的協(xié)同注意力機(jī)制(dual-guided attention,DGA),其單元結(jié)構(gòu)如圖4所示,計(jì)算方式為:
圖4 DGA的內(nèi)部結(jié)構(gòu)Fig.4 Ⅰnternal structure of DGA
其中,X、Y1、Y2分別代表知識表征、圖像特征和文本特征。
基于DGA和SA共同構(gòu)成多模態(tài)協(xié)同注意力SDGA模塊,模塊結(jié)構(gòu)如圖5所示。
圖5 SDGA的內(nèi)部結(jié)構(gòu)Fig.5 Ⅰnternal structure of SDGA
SDGA 的輸入主要有問題文本特征LV、語義對齊的圖像2特征R、外部知識的知識表征Ss。其中經(jīng)LXMERT 處理后的問題文本特征,其重點(diǎn)關(guān)注問題文本中的名詞、代詞、冠詞,這些詞性的單詞常在句子語義上起到重要作用,能夠很好地引導(dǎo)推理過程。首先外部知識表征通過SA進(jìn)行自注意力機(jī)制得出知識之間的關(guān)聯(lián)關(guān)系;然后將其送入DGA中作為查詢向量,與問題特征和圖像特征分別進(jìn)行協(xié)同注意力機(jī)制;最后將二者輸出通過相加運(yùn)算后,利用殘差鏈接送入前饋神經(jīng)網(wǎng)絡(luò)與層正則化得到最終的輸出表示Z∈Rn×dh,其中dh是注意力機(jī)制中的隱藏層大小。
模型通過視覺推理和知識推理得到兩個(gè)輸出:V和Z。為了獲取Z的實(shí)際參與信息減輕問題特征和圖像特征的過度引導(dǎo),首先將Z送入一個(gè)雙層的MLP 得到輸出Z′;其次將Z′利用softmax計(jì)算其權(quán)重信息并進(jìn)行加權(quán)和操作得到Z′;再次將Z′通過線性投射映射到與V同一個(gè)學(xué)習(xí)維度;然后二者利用相加運(yùn)算的融合方式生成一個(gè)融合向量并傳入MLP中得到最終的推理結(jié)果,最后將該推理結(jié)果送入與答案集合長度相同的分類器中,分類得出最終預(yù)測的結(jié)果。
本研究是基于開放性的知識問答,在回答問題的時(shí)候需要借助外部知識信息。考慮到一些數(shù)據(jù)集的局限性,比如FVQA數(shù)據(jù)集[25]和KB-VQA數(shù)據(jù)集[26]均使用指定的知識庫信息,導(dǎo)致了其泛化能力弱的問題。于是本文選用OK-VQA[27]作為實(shí)驗(yàn)的數(shù)據(jù)集。
OK-VQA是一個(gè)指包含外部知識解答的數(shù)據(jù)集,使用來自MS-COCO 數(shù)據(jù)集[28]的圖像,共包含14 031 張圖像和14 055 個(gè)英文問題。該數(shù)據(jù)集中問題的平均長度為6.8個(gè)單詞,答案平均長度為2.0個(gè)單詞。本文依照官方劃分標(biāo)準(zhǔn),將其樣本劃分為9 009 個(gè)樣本的訓(xùn)練集和5 046個(gè)樣本的驗(yàn)證集。
本文實(shí)驗(yàn)的硬件環(huán)境是基于Ubuntu 18.04 操作系統(tǒng),顯存為22 GB,顯卡為兩張NVⅠDⅠA GeForce GTX 2080TⅠ,版本為CUDA11.1,軟件環(huán)境基于Python 3.8,深度學(xué)習(xí)框架為Pytorch 1.8.1。
特征處理:輸入的問題文本采用WordPiece 進(jìn)行分詞,設(shè)定最大長度D=20,得到文本字符映射到詞典id的文本序列;輸入的圖像采用Faster R-CNN 以自下而上的方式提取圖像區(qū)域框特征,設(shè)定區(qū)域框數(shù)量K=36,每個(gè)區(qū)域框的特征維度d=2 048;輸入的外部知識實(shí)體的數(shù)量取值為20 并且使用Sentence-BERT 進(jìn)行句子嵌入,句子表示維度ds=384,隨后將句子表示向量維度映射到512。
多模態(tài)協(xié)同引導(dǎo):SDGA 的層數(shù)設(shè)置為6。多頭注意力機(jī)制中,設(shè)置head=8,隱藏層的大小dh=512,每個(gè)頭的大小為64。
視覺推理:視覺推理信息V的表示學(xué)習(xí)維度為300。
輸出層:本文選用的答案詞典源自于訓(xùn)練集中出現(xiàn)的答案集合,為了提高訓(xùn)練效率和精度,實(shí)驗(yàn)中過濾答案集合中頻率少于2 次的答案對象。實(shí)驗(yàn)的損失函數(shù)采用二分類交叉熵(binary cross entropy,BCE),優(yōu)化器采用AdamW,實(shí)驗(yàn)中的超參數(shù)如表1所示。
表1 實(shí)驗(yàn)中的超參數(shù)Table 1 Hyperparameters in experiments
評價(jià)指標(biāo):利用VQA 中提出的評價(jià)指標(biāo)衡量實(shí)驗(yàn)?zāi)P偷挠行裕?/p>
本文模型以文獻(xiàn)[16]和文獻(xiàn)[19]作為基線方法,并在OK-VQA 數(shù)據(jù)集上與其他主流模型進(jìn)行對比,實(shí)驗(yàn)結(jié)果如表2所示。從實(shí)驗(yàn)結(jié)果中可知,本文與基線方法相比準(zhǔn)確率分別提升1.97個(gè)百分點(diǎn)和4.82個(gè)百分點(diǎn),與其他方法相比準(zhǔn)確率也有不同大小的提升。實(shí)驗(yàn)結(jié)果表明,本文提出的聯(lián)合知識和視覺信息推理的雙線性模型是有效的。
表2 主實(shí)驗(yàn)?zāi)P团c其他模型實(shí)驗(yàn)結(jié)果的比較Table 2 Comparison of experimental results between main experimental model and other models 單位:%
為了分析圖像特征和問題特征對知識推理過程的影響,本文設(shè)計(jì)了將SGA[16]作為協(xié)同注意力單元的3種對比實(shí)驗(yàn),分別從圖像特征引導(dǎo)、問題特征引導(dǎo)、圖像與問題特征雙引導(dǎo)(將二者特征進(jìn)行相加運(yùn)算)策略分析單特征和多特征引導(dǎo)的差異性。三種策略的實(shí)驗(yàn)結(jié)果如表3 和圖6 所示。實(shí)驗(yàn)結(jié)果表明,在單特征引導(dǎo)中基于SGA的圖像特征引導(dǎo)策略比基于SGA的文本特征引導(dǎo)策略更具有推理能力,模型的效果更佳。整體來說,雙特征引導(dǎo)明顯優(yōu)于單特征引導(dǎo)。產(chǎn)生差異的主要原因是:單特征引導(dǎo)在知識推理過程中提供信息引導(dǎo)的能力有限,無法具體理解整體問答語義即單從圖像特征考慮無法理解知識表征應(yīng)該關(guān)注哪一方面的信息,如對象屬性、來源等等,若結(jié)合問題特征則能夠很好地解彌補(bǔ)該不足。同樣的,單從問題特征考慮,缺乏圖像的目標(biāo)對象,增加了模型的推理難度。
表3 不同策略的實(shí)驗(yàn)對比結(jié)果Table 3 Experimental comparison results of different strategies單位:%
圖6 不同策略對準(zhǔn)確率的影響Fig.6 Effect of different strategies on accuracy
為了驗(yàn)證本文提出的SDGA模塊的有效性,本文將基于SGA的雙特征引導(dǎo)和基于SDGA的雙特征引導(dǎo)方式進(jìn)行對比實(shí)驗(yàn)。從圖6 中準(zhǔn)確率的走勢中可以發(fā)現(xiàn)基于SDGA 雙引導(dǎo)更加穩(wěn)定,有明顯的優(yōu)勢,實(shí)驗(yàn)的具體數(shù)據(jù)比較如表3。從表3 中可以知道,基于SDGA 雙特征引導(dǎo)的實(shí)驗(yàn)達(dá)到了34.01%的準(zhǔn)確率,高于基于SGA雙特征引導(dǎo)0.48%,這說明SDGA單元結(jié)構(gòu)是有意義的,在多模態(tài)協(xié)同方面更具合理性,能夠細(xì)粒度地與外部知識進(jìn)行交互融合和推理。
為了分析知識嵌入方式對模型知識表征的影響,本文分別利用Glove 詞嵌入和Sentence-BERT 知識嵌入的方式獲取句向量,隨后將二者的句向量映射到相同維度進(jìn)行實(shí)驗(yàn)對比。采用Glove 詞嵌入之后模型相比Sentence-Bert知識嵌入準(zhǔn)確率下降了1.47%。造成該問題的主要原因是:Sentence-BERT 在大量的語句上進(jìn)行訓(xùn)練,能很好地表征一個(gè)句子語義信息,而采用Glove詞嵌入后,從單個(gè)詞語的語義出發(fā),未經(jīng)歷大規(guī)模的語句訓(xùn)練,編碼信息較為單一,難以有很好的表征能力。
本文對誤差的案例進(jìn)行分析,從圖7(a)可以觀察到,此時(shí)外部知識提供“世界時(shí)鐘是顯示世界各個(gè)城市的時(shí)間”等知識信息,然后結(jié)合圖像和問題信息得出答案,而模型預(yù)測偏差的主要原因是答案詞典的局限性,即本任務(wù)中將視覺問答作為分類問題,而問答詞典的構(gòu)建是基于訓(xùn)練集詞典,所以訓(xùn)練集中的答案集合中不能覆蓋所有驗(yàn)證集中答案字符。在某種程度上來說,模型預(yù)測的“tell time”是該情況下較為符合問題語義一種回答。
圖7 誤差案例分析Fig.7 Error cases analysis
從圖7(b)和(c)中可以發(fā)現(xiàn)模型缺乏細(xì)致化的場景分析,其主要原因歸咎于已構(gòu)建的知識庫內(nèi)容的局限性和模型缺乏細(xì)粒度場景識別能力,才導(dǎo)致模型以外部知識信息為主導(dǎo),缺乏對問題語義的細(xì)致理解。雖然知識庫具備圖像中絕大數(shù)對象的信息,但是多數(shù)對象在現(xiàn)實(shí)生活中存在不同的場景語義,現(xiàn)有的知識庫無法提供更為豐富的信息,模型也無法對場景進(jìn)行區(qū)分和理解,相反地,模型過度依賴檢索到的知識信息。具體如圖7(c),因?yàn)橥獠恐R提供了“長凳用于學(xué)校的教室”的知識信息,所以導(dǎo)致了模型的誤判。
視覺問答領(lǐng)域內(nèi)通用的評判標(biāo)準(zhǔn)在該任務(wù)下缺乏語義性,過于公式化。如圖7(d)中所示問答,以人類角度“Teddy bear”和“bear”在該場景下語義信息是一致的,二者均可作為本題的答案。
綜上所述,模型具有以下幾點(diǎn)局限性:
(1)模型缺乏自主生成答案的能力;模型過度依賴檢索的相關(guān)知識,無法根據(jù)場景關(guān)聯(lián)知識。
(2)知識庫對某些對象場景覆蓋面有限。
(3)評價(jià)標(biāo)準(zhǔn)缺乏該場景下的細(xì)致性理解。
本文提供了視覺問答與知識庫結(jié)合的一種方式,提出一種雙線性推理結(jié)構(gòu),將視覺推理和外部知識推理進(jìn)行有機(jī)融合,有效提升了模型的整體推理能力,模型在OK-VQA 數(shù)據(jù)集上取得較好的效果。視覺推理主要是將問題和圖像進(jìn)行跨模態(tài)的交互分析,從視覺信息中推理出的知識信息(如圖片對象文字、屬性等信息);知識推理是在問題語義特征和圖像對象特征的雙引導(dǎo)下,實(shí)現(xiàn)與外部知識表征的交互融合,從而推理出符合問答語義的關(guān)鍵知識信息。
實(shí)驗(yàn)結(jié)果表明,該模型與前人的工作相比準(zhǔn)確率有著不同程度的提升。在后續(xù)的消融實(shí)驗(yàn)當(dāng)中也驗(yàn)證了模型結(jié)構(gòu)在此任務(wù)上具有一定的有效性。在下一步的研究中,應(yīng)進(jìn)一步拓展知識庫內(nèi)容信息,豐富知識庫表征能力,可考慮與知識圖譜技術(shù)融合增強(qiáng)模型的多級推理能力和場景的細(xì)致化理解。另外,摒棄“分類式”的問題回答,采用詞典組合等自主生成的答案方式更具有靈活性,也更加符合該領(lǐng)域的實(shí)際應(yīng)用場景。