王 茂,彭亞雄,陸安江
(貴州大學(xué) 大數(shù)據(jù)與信息工程學(xué)院,貴州 貴陽 550025)
視覺問答(Visual Question Answering,VQA)旨在將計算機(jī)視覺和自然語言處理結(jié)合起來,研究并拓展這兩個領(lǐng)域,使得機(jī)器能夠理解人類語言。VQA技術(shù)目前被廣泛應(yīng)用于字幕回答、盲人視覺輔助和視聽感知對話等場景。VQA需要同時理解圖像和文本信息,提取和編碼必要的常識及語義知識,通過推理獲得最終的答案。與自然語言處理相比,VQA更為復(fù)雜,常涉及到圖像中所缺失的信息, 包括特定元素知識以及常識信息,因此對VQA進(jìn)行研究可進(jìn)一步推動人工智能的發(fā)展,改善人機(jī)交互,對盲人、兒童和醫(yī)療等領(lǐng)域的發(fā)展具有重要意義。
VQA可回答關(guān)于圖像的自然語言問題,并以自然語言的方式生成答案。文獻(xiàn)[1]利用注意力方案來突出問題中的重要單詞及與問題相關(guān)的圖像區(qū)域。文獻(xiàn)[2]提出了一種深度級聯(lián)的多模態(tài)編碼器-解碼器注意網(wǎng)絡(luò),通過將關(guān)鍵詞與圖像中重要的目標(biāo)區(qū)域相關(guān)聯(lián),可以捕獲更加豐富的問題特征和圖像特征。文獻(xiàn)[3]利用不同的多模態(tài)雙線性池匯集方法,將來自空間網(wǎng)格的圖像特征與來自問題的文本特征相結(jié)合來預(yù)測注意力。文獻(xiàn)[4]提出了一種多級注意模型,即對圖像本身進(jìn)行自下而上的注意和剩余的自我注意,并采用問題引導(dǎo)的自上而下的注意方法提取圖像特征。文獻(xiàn)[5]通過迭代,關(guān)注答案相關(guān)的關(guān)鍵詞來回答問題,而不考慮圖像區(qū)域。文獻(xiàn)[6]建立了共同注意,用于圖像上的視覺注意和問題上的問題注意,但是單步注意網(wǎng)絡(luò)不具備推理能力。文獻(xiàn)[7]將改進(jìn)后的注意力機(jī)制與神經(jīng)網(wǎng)絡(luò)架構(gòu)相結(jié)合,提升了注意力編解碼能力。文獻(xiàn)[8]利用Attention-CTC架構(gòu)實現(xiàn)了對文本序列的解碼,能更加有效地識別文本信息。文獻(xiàn)[9]提出的多通道共注意力網(wǎng)絡(luò)融合了全局到局部的多模態(tài)特征,并且設(shè)計了不同的多通道注意機(jī)制,在不同的集成層次上設(shè)計了文本特征。文獻(xiàn)[10]提出了協(xié)同注意方法,將句子引導(dǎo)詞注意和問題引導(dǎo)圖像注意結(jié)合在統(tǒng)一的框架中。文本注意則依賴于整個問句的語義來計算不同問句對文本表示的貢獻(xiàn)。文獻(xiàn)[11]提出了一個深度模塊化共同注意網(wǎng)絡(luò),由深度級聯(lián)的模塊化共同注意層組成,使用兩個基本注意力單元的模塊化組合對問題和圖像的自注意力以及圖像的問題引導(dǎo)注意力進(jìn)行建模。文獻(xiàn)[12]提出了一種將多模態(tài)特征與模態(tài)內(nèi)和模態(tài)間信息流動態(tài)融合的新方法,該方法可在視覺和語言模態(tài)之間交替?zhèn)鬟f動態(tài)信息。
圖1 VQA 模型框架
上述VQA算法利用圖像特征引導(dǎo)問題注意,并利用問題特征引導(dǎo)視覺注意,從而形成共同注意。然而,共同注意存在弊端:如果目標(biāo)答案與圖像中的一系列細(xì)粒度區(qū)域相關(guān),則當(dāng)前的共同注意較難得到精確的答案。因此本文提出了基于多模態(tài)融合的視覺問答傳輸注意網(wǎng)絡(luò),進(jìn)一步提升了視覺問答任務(wù)的性能。首先利用GloVe詞嵌入[13]和長短期記憶網(wǎng)絡(luò)(Long Short-Term Memory,LSTM)[14]提取問題特征,并利用預(yù)訓(xùn)練好的ResNet-152模型[15]提取圖像特征;然后,將兩個特征傳入傳輸網(wǎng)絡(luò),通過多模態(tài)融合對輸入特征進(jìn)行重新校準(zhǔn),輸出與回答高度相關(guān)的圖像特征和問題特征;隨后,對傳輸網(wǎng)絡(luò)進(jìn)行重疊計算,將圖像從粗粒度部分聚焦到細(xì)粒度部分;最后,根據(jù)得到的聯(lián)合表示來預(yù)測答案。
本文模型框架如圖2所示,模型由以下4個部分組成:問題特征提取、圖像特征提取、視覺問答傳輸模塊和重疊計算傳輸網(wǎng)絡(luò)。
圖2 本文模型框架
fQ(q)=LSTM(GloVe(q))
(1)
圖像特征提取通過特征向量的方式來表示圖像信息。ResNet-152網(wǎng)絡(luò)將輸入信息直接傳到輸出,簡化了網(wǎng)絡(luò)的學(xué)習(xí)目標(biāo)和難度,保護(hù)了信息的完整性。因此本文使用預(yù)先訓(xùn)練的ResNet-152網(wǎng)絡(luò)對圖像進(jìn)行特征提取,得到圖像嵌入fV(v),如式(2)所示。
fV(v)=ResNet-152(v)
(2)
由于圖像的尺寸大小不一樣,因此需將圖像統(tǒng)一壓縮到448×448像素,并將每個圖像分成196個局部區(qū)域。為了避免丟失圖像的空間信息,最后一個池化層Res5c的輸出為目標(biāo)輸出。最大池化層表示為512×14×14維,其中14×14表示將圖像分割成196個局部區(qū)域,512對應(yīng)于每個區(qū)域的向量維度。
傳輸模塊將問題和圖像特征在中間層進(jìn)行融合,充分提取不同特征的信息。多模態(tài)傳輸模塊結(jié)構(gòu)如圖3所示。將圖像特征fV(v)和問題特征fQ(q)作為輸入,通過Squeeze操作將問題和圖像特征進(jìn)行融合,壓縮空間信息得到圖像與問題的聯(lián)合表示,然后通過Excitation操作進(jìn)一步選擇出重要的圖像與問題特征,即為校準(zhǔn)后的特征。
圖3 多模態(tài)傳輸網(wǎng)絡(luò)圖
1.3.1 Squeeze
接收圖像和問題的特征生成一個全局表征,通過Squeeze單元,使得融合操作允許圖像特征和問題特征有不同的空間維度(經(jīng)過全局平均值池化,都變成1×1),從而可以在不同的特征層次進(jìn)行融合,即全局平均值池化操作,計算式如下。
(3)
(4)
為了重新校準(zhǔn)輸入的圖像和問題特征,不同模態(tài)將使用不同的校準(zhǔn)權(quán)重。從Squeeze信號中預(yù)測出一個聯(lián)合表示,本文利用MFB操作對兩個不同模態(tài)進(jìn)行融合,得到融合特征Z。MFB可以將來自兩個不同模態(tài)的特征擴(kuò)展到高維空間,然后進(jìn)行元素積,進(jìn)入池化層和歸一層,將高維特征擠壓成緊湊輸出特征。
(5)
式中,函數(shù)SumPooling(x,k) 表示使用大小為k的一維非重疊窗口對x執(zhí)行SumPooling。
1.3.2 Excitation
通過兩個獨(dú)立的全連接層得到每個模態(tài)的激勵信號,表達(dá)式為
Ev=WVZ1+bV,EQ=WQZ1+bQ
(6)
式中,W∈RCZ×(C+C′),WV∈RCZ1×C,WQ∈RCZ1×C′表示權(quán)重;b∈RCZ1,bQ∈RC,bV∈RC′是全連接層的偏置項。本文使用CZ1=(C+C′ )/4限制模型容量,增加其泛化能力。得到激勵信號后,通過選通機(jī)制重新校準(zhǔn)輸入的圖像和問題特征
(7)
(8)
式中,σ是Sigmoid函數(shù);⊙表示點(diǎn)乘操作,對每個通道進(jìn)行抑制或激活。Excitation操作對問題圖像兩個模態(tài)自適應(yīng)地強(qiáng)調(diào)重要的特征,抑制不重要的特征。
通過上述操作可以得到重新校準(zhǔn)后的圖像特征和問題特征。將校準(zhǔn)后的圖像特征和問題特征進(jìn)行融合操作,即
(9)
其中,Wiq為權(quán)重系數(shù);biq為偏置項。
通過多模態(tài)傳輸模塊可以得到重新校準(zhǔn)后的圖像和問題特征。對兩個特征重新校準(zhǔn)后可得到1個關(guān)注特征。設(shè)計1個多模態(tài)傳輸注意學(xué)習(xí)架構(gòu),通過對傳輸網(wǎng)絡(luò)的重疊計算可得到1個更完備的組合特征。由于單模態(tài)注意不具備推理能力,對傳輸網(wǎng)絡(luò)進(jìn)行重疊計算,建立共同注意,用于引導(dǎo)視覺注意和問題注意。傳輸模塊的輸出特征計算方法如式(10)所示。
(10)
本文使用Softmax歸一化層預(yù)測每個輸入特征的注意權(quán)重。為了進(jìn)一步提高注意力特征的表示能力,本文生成了多個注意力圖來增強(qiáng)學(xué)習(xí)的注意力。對視覺問答傳輸模塊的重疊計算可以更有效地表征圖像和問題特征之間的細(xì)粒度相關(guān)性,進(jìn)一步提升模型的表達(dá)能力。
本文使用VQA v1.0數(shù)據(jù)集來評估模型性能,該數(shù)據(jù)集包含240 000個訓(xùn)練問題、120 000個驗證問題和240 000個測試問題,每張圖片有3個標(biāo)記的問題,每個問題對應(yīng)10個標(biāo)記的答案,有是/否、數(shù)字和其它3種類型問題。本文使用文獻(xiàn)[16]提供的VQA工具來進(jìn)行評估。
在實驗中,提取問題特征網(wǎng)絡(luò)利用了3個卷積核大小分別為256、512和512的卷積濾波器,問題特征是1 024維。由于圖像大小不一致,因此需先將圖像壓縮到448×448像素,并將每個圖像分成196個局部區(qū)域。采用本文模型進(jìn)行實驗時,將學(xué)習(xí)率設(shè)置為0.000 1,每40 000詞迭代衰減一次,并且使用正則化技術(shù),使用β1=0.9,β2=0.99的Adam計算器,在訓(xùn)練集上進(jìn)行訓(xùn)練,在val集上進(jìn)行驗證。
為了評價本文模型的性能,將本文模型與已有的SAN、DMN+、QRU、HieCoAtt和MLAN進(jìn)行比較。從表1可以得出,本文提出的模型優(yōu)于其它模型。采用本文模型獲得的是/否問題的準(zhǔn)確率為87.04%,計數(shù)問題的準(zhǔn)確率為42.47%,其它類型問題的準(zhǔn)確率為59.77%。與SAN模型相比,本文模型的準(zhǔn)確率提高了11.02%,這是由于SAN模型只使用了圖像注意,忽略了問題注意,說明本文提出模型優(yōu)于SAN模型上的視覺注意。與QRU模型相比,本文模型的準(zhǔn)確率提高了9.12%,主要原因是QRU將注意力集中在與回答相關(guān)問題的部分,忽略了圖像注意。MLAN模型將注意力聚焦在圖像區(qū)域相關(guān)的地方來回答問題,忽略了對不同特征之間的深入研究,而本文模型注重于圖像特征和問題特征的研究,得到了高度相關(guān)的多模態(tài)特征,因此相較于MLAN模型,本文模型的準(zhǔn)確率提升了5.29%。
表1 在VQA v1.0數(shù)據(jù)集上的模型比較
在VQA v1.0上對本文提出的模型進(jìn)行消融研究,以驗證本文模型的有效性。此外,通過KLD損失函數(shù)來預(yù)測答案的性能。模型在訓(xùn)練集上進(jìn)行訓(xùn)練,并在驗證集上進(jìn)行評估。
為了衡量各種設(shè)計選擇對結(jié)果的影響,本文設(shè)計了以下4種變體模型來同本文所提出的模型進(jìn)行比較分析:
(1)在模型1中,不利用GloVe函數(shù)優(yōu)化單詞嵌入;
(2)在模型2中,對校準(zhǔn)后的問題和圖像特征直接進(jìn)行融合,不引入傳輸模塊;
(3)在模型3中,問題特征部分不加入自注意,比較問題詞注意對結(jié)果的影響;
(4)在模型4中,在注意模塊中設(shè)置p值的數(shù)量,對p=1,2,3,4進(jìn)行實驗。
表2為不同模型的消融實驗結(jié)果。模型1表明沒有利用GloVe函數(shù)對單詞進(jìn)行優(yōu)化嵌入會降低模型性能,導(dǎo)致準(zhǔn)確率下降0.08%。模型2表明傳輸模塊可以提高VQA的準(zhǔn)確率,其中傳輸網(wǎng)絡(luò)進(jìn)行重疊計算可以充分提取不同特征的信息,提高VQA的準(zhǔn)確率,并且對傳輸網(wǎng)絡(luò)進(jìn)行重疊計算可進(jìn)一步提升對圖像和問題的注意,達(dá)到增強(qiáng)注意力的效果。模型3表明對問題進(jìn)行詞注意進(jìn)一步提升了VQA的性能,詞注意有選擇地關(guān)注疑問詞特征,并且在與圖像進(jìn)行融合時,可以得到相關(guān)性更強(qiáng)的聯(lián)合特征。模型3表明當(dāng)p=3時,模型性能最佳,隨著p的增加,模型的大小和輸出特征的維數(shù)逐漸增長,因此本文實驗使用p=3進(jìn)行模型的構(gòu)造和訓(xùn)練。
表2 不同變體模型比較
使用不同數(shù)量的傳輸層獲得的結(jié)果如表3所示。為了保持特征的空間維度一致,將傳輸層的所有完全連接層更改為內(nèi)核大小為1的卷積層,以確保參數(shù)的數(shù)量保持一致。實驗結(jié)果表明,當(dāng)使用3個傳輸層模塊時,預(yù)測的準(zhǔn)確率最高,比使用其它數(shù)量的傳輸層的準(zhǔn)確率平均提升了0.05%。
表3 不同數(shù)量的傳輸層比較
本文VQA任務(wù)的可視化結(jié)果如圖4所示。圖4中,從左到右展示了5個可視化示例,每列表示1組可視化結(jié)果,第1行為原圖,第2行和第3行黑色方框分別表示圖像的粗粒度聚焦部分和細(xì)粒度聚焦部分,聚焦外的陰影表示實驗時忽略的圖像部分。在每個例子中,有問題、正確答案和預(yù)測答案。從可視化結(jié)果中可以發(fā)現(xiàn),本文提出的模型能夠?qū)D像從粗粒度區(qū)域聚焦到細(xì)粒度區(qū)域,進(jìn)一步說明了對預(yù)測答案而言,問題注意和圖像注意具有同等的重要性。本文模型將圖像特征傳到傳輸模塊進(jìn)行信息交互時,可以選擇出對應(yīng)的圖像特征,并且結(jié)合重疊計算,將圖像聚焦到細(xì)粒度區(qū)域,使圖像和文本建立更高效的關(guān)系,從而取得更好的效果。
圖4 可視化結(jié)果
本文針對VQA任務(wù)提出基于多模態(tài)融合的視覺問答注意網(wǎng)絡(luò)。首先,提出一種傳輸網(wǎng)絡(luò),將問題特征和圖像特征作為中間層進(jìn)行融合,分別得到兩個互補(bǔ)的相關(guān)信息,有效減少了不相關(guān)的特征的影響,為圖像和問題的表示獲得了更多不同的特征;其次,本文模型對傳輸網(wǎng)絡(luò)進(jìn)行重疊計算,逐漸關(guān)注細(xì)粒度圖像區(qū)域,捕捉多模態(tài)特征中更復(fù)雜的相關(guān)性,從而實現(xiàn)了更具區(qū)分性的圖像-問題表征,進(jìn)一步提高了VQA性能。在今后的工作中,計劃嘗試將本文提出的多模態(tài)傳輸注意網(wǎng)絡(luò)應(yīng)用在其它視覺問答任務(wù)上,從而探索出更好的注意力方法。