崔朝陽,江愛文,陳思航,劉長紅,王明文
(江西師范大學 計算機信息工程學院,江西 南昌 330022)
近年來,隨著計算機視覺和自然語言處理技術的深度融合,跨模態(tài)交叉任務諸如圖像描述[1]、視覺問答[2-3]、視覺故事生成[4]、視覺對話[5]等,備受研究者們關注,成為多模態(tài)智能信息處理領域的研究熱點。
本文主要研究視覺對話(Visual Dialogue)任務。該任務是對單輪視覺問答(VQA)的拓展,要求機器人具有模仿人類認知復雜場景的思維方式,具備圖像識別、關系推理與自然語言理解三大能力,能夠為更為復雜的多輪問答進行推理。因此,視覺對話研究可以幫助人工智能邁上新臺階,在未來諸多人機互動場景中有著廣泛的應用潛力。
當前視覺對話任務的形式主要以針對圖像內(nèi)容持續(xù)會話為主,如圖1所示。機器人能夠依據(jù)給定視覺圖像和當前的文本信息進行選擇、判斷、回答,并且經(jīng)過連續(xù)多輪的問答過程形成對話信息。這要求機器人能夠從視覺知識(圖像)和文本知識(對話歷史)中自適應地檢索出有價值的信息來回答當前問題。因此,如何隨著會話情景動態(tài)調(diào)整視覺目標與語義的關聯(lián),充分有效地融合任務所涉及的多模態(tài)信息,便成為當前研究的重點。
圖1 視覺對話示例
當前主流模型在信息融合和推理方面的設計上主要有基于注意力機制的信息交互模型、基于圖結構與圖神經(jīng)網(wǎng)絡的模型,以及基于大規(guī)模預訓練的模型三大類。
在基于注意力機制的信息交互模型中,大部分模型選擇采用GloVe靜態(tài)詞向量作為詞嵌入方法。靜態(tài)詞向量表示的缺點是,不能在詞嵌入時根據(jù)上下文語義信息去自適應地調(diào)整每個單詞的詞嵌入表示信息。同時,大部分的基于注意力機制的信息交互模型,在語義信息融合粒度方面沒有較為全面地兼顧單詞級別和段落級別信息的融合,存在一定的局限性。例如,與本文最相關的LTMI模型[6]基于輕量級的Transformer架構,被廣泛應用于視覺對話任務中,雖然其能夠高效整合視覺對話中的多個特征,在模型答案排序質(zhì)量上具有優(yōu)秀表現(xiàn),但其僅融合了對話歷史的段落(句子)級別的表示,性能有進一步提升空間。
基于圖結構與圖神經(jīng)網(wǎng)絡的模型的語義推理過程有利于多模態(tài)語義關系的學習,但模型的圖節(jié)點數(shù)目會根據(jù)對話歷史的變化動態(tài)增加,節(jié)點隱藏狀態(tài)采用迭代更新方式,算法效率有待提升。
基于大規(guī)模預訓練的模型大大提高了視覺對話任務的性能。但在應用時,下游任務難以修改其模型結構。因此,此類方法在算法靈活性方面稍有欠缺,且模型訓練收斂速度慢,在單一訓練數(shù)據(jù)集的視覺對話任務中的表現(xiàn)往往不如基于注意力機制的信息交互模型。
本文貢獻主要包括以下幾個方面:
(1) 以輕量級模型LTMI為基礎,引入BERT預訓練模型,通過跨模態(tài)注意力堆疊學習機制實現(xiàn)了不同語義粒度信息的層次化深度融合。模型的跨模態(tài)嵌入特征可以隨模型訓練動態(tài)更新,提升了模型的學習靈活性。
(2) 模型借鑒BERT預訓練模型的多任務訓練過程,組織模型訓練的文本序列微調(diào)數(shù)據(jù)集,以自監(jiān)督方式有機結合了BERT預訓練模型和多頭注意力機制的優(yōu)勢,實現(xiàn)跨模態(tài)特征學習。
(3) 模型在視覺對話公開數(shù)據(jù)集VisDial v0.9和VisDial v1.0上與主流先進算法進行了比較。本文模型在保證對話回復預測的精準性的基礎上,提升了算法的泛化能力,取得了較為優(yōu)越的性能。
本文主要側重于回顧主流模型在多模態(tài)信息融合編碼方面的工作。當前主流方法分別有基于注意力機制的信息交互模型、基于圖結構與圖神經(jīng)網(wǎng)絡的模型,以及基于大規(guī)模預訓練的模型等。
早期工作,如Das等人[5]提出的后融合(Late Fusion,LF)、層次化循環(huán)編碼(HRE)、記憶網(wǎng)絡(Memory Network, MN)等基本模型,主要側重實現(xiàn)單模態(tài)基于問題相關度的歷史對話加權聚合。CoAtt[7]使用連續(xù)的協(xié)同注意力,專注于圖像的特定區(qū)域和對話歷史的片段。
為了解決視覺會話過程中的共指消解等問題,CorefNMN[8]顯式地在詞級別上建立細粒度的指代池(Reference Pool)。RVA[9]設計了遞歸視覺注意力算法,通過遞歸檢查歷史對話框來推斷共同指代關系。在回溯查詢的過程中,問題使用詞級別自注意力加權來表示。
隨著技術的深入,研究者們意識到多模態(tài)信息的充分融合以及多步推理過程有利于提升回答的精準性。Chen 等人[10]提出雙通道多步推理模型DMRM來豐富問題表示,以便針對問題,更好地生成高質(zhì)量的回復答案。Agarwal 等人[11]提出的調(diào)制互注意力模型MCA使用Transformer融合問題與視覺、問題與對話歷史的信息。Lin等人[12]認為異構信息融合順序的不同可能會導致源問題關鍵內(nèi)容的混淆,最終會使得答案預測不準確。因此,他們提出了HESNet,以并行和自適應的方式處理異構信息。Jiang等人[13]提出帶有記憶的自適應解碼器來存儲相關的對話歷史和視覺特征的狀態(tài),引入推敲模塊和放棄模塊處理回答的重復詞語,用來減少回復中重復的單詞,并包含更多細節(jié)信息。與本文最為相關的LTMI[6]模型,采用輕量級Transformer結構來處理不同信息之間的交互關系,但該模型僅融合了對話歷史的段落(句子)級別的表示。
隨著圖結構和圖神經(jīng)網(wǎng)絡的發(fā)展,Schwartz 等人[14]提出因子圖注意力模型FGA,將圖像的區(qū)域視覺特征、圖像描述、對話歷史輪次的問答對及候選答案集合作為圖節(jié)點,通過消息傳遞機制,估計候選答案的概率分布。Zheng等人[15]更加注重學習圖像、問題和歷史之間的內(nèi)在關系,提出了一種可微分的圖神經(jīng)網(wǎng)絡模型來學習歷史對話之間的隱藏關系。Jiang 等人[16]提出了雙向編碼模型DualVD,從視覺和語義兩個維度刻畫視覺對話任務。Guo等人[17]提出上下文感知圖CAG,通過上下文感知的關系推理實現(xiàn)了跨模態(tài)語義理解。Jiang等人[18]提出一種基于查詢自適應檢索信息的KBGN模型。該模型用當前問題作為查詢,在視覺和文本知識引導下搜索相關信息,使用圖神經(jīng)網(wǎng)絡對跨模態(tài)關系進行細粒度建模。Chen等人在LTMI模型的基礎上,提出了LTMI-GOG模型[19],學習帶有關系的各模態(tài)特征表示。Zhang 等人[20]發(fā)現(xiàn)圖式知識更注重知識實體之間的關系,但是在獲取語義級信息方面能力有限。語義級或圖級的單一結構知識可能無法滿足可視化對話任務的獨特需求。因此,他們在LTMI的基礎上利用圖神經(jīng)網(wǎng)絡的推理能力對多結構知識進行推理,提出了LTMI-RMK模型,以提高模型預測的可解釋性和性能??偟膩碚f,基于圖模型結構的語義推理過程有利于學習多模態(tài)語義之間的關系,但在連續(xù)對話過程中,圖節(jié)點數(shù)目會根據(jù)對話歷史的變化動態(tài)增加,同時由于圖網(wǎng)絡學習過程采用迭代方式更新節(jié)點隱藏狀態(tài),所以算法效率有待提升。
隨著預訓練模型的興起,研究人員開始利用預訓練模型,例如,BERT[21]探索視覺對話任務。其中,VisualBERT[22]和 VDBERT[23]利用大規(guī)模額外數(shù)據(jù)集通過預訓練模型在視覺對話中進行探索,大大提高了視覺對話任務的性能。UniMM[24]在VisualBERT的基礎上,采用多種微調(diào)方法來生成答案,VD-PCR[25]同樣使用大規(guī)模預訓練模型進行微調(diào),通過利用代詞共指來過濾不相關的歷史信息。隨著大規(guī)模預訓練模型的不斷發(fā)展,在視覺對話任務中表現(xiàn)出了進一步的卓越性,并且給未來的發(fā)展提供了另一種優(yōu)秀的解決思路。
本節(jié)將重點闡述本文所提出的模型。如圖2所示,整個模型使用多任務共同訓練,生成每輪對話問題的答案。模型采用Transformer作為基礎注意力機制對跨模態(tài)特征進行交互注意力操作,通過堆疊多層Transformer使各模態(tài)信息達到充分融合。模型借鑒了預訓練模型任務中經(jīng)典的NSP(Next Sentence Prediction)和MLM(Masked Language Modeling)任務來進行對視覺對話任務的訓練。具體地,首先通過NSP模塊的訓練來判斷上下文句子是否匹配,然后通過MLM模塊的訓練來生成遮蓋的真實信息,根據(jù)句子中單詞的依賴關系對句子進行填充。
圖2 模型整體框架圖
在視覺對話任務中,預處理信息包括視覺內(nèi)容和文本內(nèi)容。其中,文本內(nèi)容包括當前問題和對話歷史。因此,模型首先需要完成視覺內(nèi)容和文本內(nèi)容的嵌入工作。
2.1.1 視覺特征嵌入
給定一張圖像I,采用“自上而下”圖像區(qū)域編碼,提取圖像區(qū)域特征,表示為:
I={Oi|i=1,…,N,Oi∈d}
(1)
其中,Oi表示第i個區(qū)域的圖像特征,N表示所檢測圖像區(qū)域的總個數(shù),d表示每個圖像區(qū)域特征的維度。
本文采取傳統(tǒng)的做法,選用Faster R-CNN作為圖像視覺區(qū)域提取的基礎方法。根據(jù)經(jīng)驗,N=36,d=2 048。
在這里,每個圖像區(qū)域代表了圖像局部語義信息。特別地,為后續(xù)多頭注意力學習過程,引入特殊Token“[IMG]”作為圖像全局綜合語義信息。
2.1.2 文本特征嵌入
基于雙向Transformer編碼器的語言模型(Bidirectional Encoder Representation from Transformers, BERT),可以在詞嵌入時根據(jù)上下文的語義信息自適應地調(diào)整每個單詞的詞嵌入表示信息,從而可以在不同的上下文信息中得到不同詞語的詞嵌入表達,可以更好地捕捉到整個語句中的雙向語義關系信息。因此,本文在提取文本特征時,沒有沿用基于Glove[25]的詞向量嵌入,再通過雙向長短時記憶網(wǎng)絡(Bi-directional Long Short Term Memory Network, BiLSTM)進行編碼的傳統(tǒng)方式,而是采取 BERT模型作為文本特征嵌入的基本方法。如圖3所示,BERT的典型輸入特征由詞嵌入(Token Embeddings)、段落嵌入(Segment Embeddings)和位置嵌入(Position Embeddings)三者相加而成。
圖3 BERT典型的輸入特征嵌入
在處理對話歷史時,本文注意到對話內(nèi)容具有一定的延續(xù)性和局部相關性,即與當前問句所涉及的細節(jié)內(nèi)容最為相關的、最有可能是最近輪次的問答所談到的內(nèi)容。過多地關注比較久遠的對話歷史細節(jié)反而可能會引入噪聲干擾。因此,模型在回答第t輪問題時,僅考慮使用第t-1輪次的問答對內(nèi)容來構建訓練序列。特別地,當模型回答第一個問題時,用文本標題來代替歷史問答對信息。
在本文模型中,多頭注意力機制是跨圖像與文本兩個模態(tài)特征融合的主要結構。多頭注意力機制的基本形式如式(5)~式(8)所示。為了不至于混淆,我們沿用了Transformer模型中自注意力機制的符號Q(Query),K(Key),V(Value)。
(5)
(6)
Multi(Q,K,V)=[head1,head2…,headi]WO
(7)
AM(Q,K,V)=Multi(Q,K,V)
(8)
多頭注意力機制主要實現(xiàn)從源特征X到目標特征Y的相關信息搜索,如式(9)所示。當源特征X和目標特征Y相同時,我們稱之為自注意力機制,進行殘差連接和歸一化操作如式(10)所示。
在本文,模型每完成一次自(互)注意力操作,需對特征進行殘差連接和歸一化操作,如式(11)所示。
Z←LayerNorm(GELU(ZW+1M⊙bT)+X)
(11)
我們將式(9)~式(11)所表達的注意力過程用式(12)統(tǒng)一表示。
Z=Attention(X,Y,Y)
(12)
2.3.1 多層文本特征自注意力階段
我們首先選擇利用多層自注意力機制發(fā)掘文本特征。通過強化文本序列中單詞的重要信息,為下一步跨模態(tài)特征融合提供準備,如式(13)所示。每一層完成文本自注意力操作后,特征需進行殘差連接和歸一化操作。其中,S0為經(jīng)過BERT模型嵌入表示后的文本特征S。
Sl+1=As(Sl)=Attention(Sl,Sl,Sl)
(13)
其中,l=1,…,L。根據(jù)預訓練模型經(jīng)驗,我們選擇本階段的層數(shù)L=6。
2.3.2 多層跨模態(tài)交互注意力階段
當文本特征經(jīng)過L層自注意力操作后,接下來,通過多層交互注意力(Co-attention)來實現(xiàn)與圖像嵌入特征的跨模態(tài)融合。
具體地,為符號表達的統(tǒng)一,跨模態(tài)融合的層次序號延續(xù)文本特征自注意力階段的層數(shù)。因此,在第j={L,L+2,…,L+N}層,交互過程如式(14)、式(15)所示。
其中,跨模態(tài)融合初始輸入為SL和IL。SL為文本自注意力階段的輸出,IL為圖像經(jīng)過FasterR-CNN提取的嵌入特征。根據(jù)預訓練模型經(jīng)驗,本文選擇本階段的層數(shù)N=6。
每當兩種特征經(jīng)過一次交互注意力融合后,再分別進行一次自注意力操作,如式(16)、式(17)所示,加強它們各自所學習得到的重要特征信息。
模型借鑒了預訓練模型中經(jīng)典的NSP(Next Sentence Prediction)和MLM(Masked Language Modeling)任務來對視覺對話任務進行訓練。
與BERT中的MLM相似,我們選擇15%的文本序列單詞被隨機遮蓋,并采用“[MASK]”替換被遮蓋的單詞。被遮蓋的單詞記為“Wm”。模型根據(jù)被遮蓋信息的周圍文本W(wǎng)m和圖像信息I對被遮蓋的單詞進行恢復。在訓練學習時,“Wm”和“Wm”輸出特征對應Sf中相應位置的文本特征。
本模型的MLM任務計算預測詞匯和原始詞匯的交叉熵損失,損失函數(shù)如式(18)所示。
LMLM=-E(S,I)~TlogP(Wm|Wm,If)
(18)
其中,Wm是被遮蓋的詞,T代表訓練數(shù)據(jù)集。
與BERT模型的原始NSP任務訓練出發(fā)點略有不同,在本文模型中,借鑒NSP損失函數(shù)的目的是,基于文本特征“[CLS]”與圖像特征“[IMG]”跨模態(tài)點乘融合后,判斷輸入文本序列中的候選答案是否正確。模型NSP的交叉熵損失函數(shù)如式(19)所示。
LNSP=-E(S,I)~TlogP(y|[CLS],[IMG])
(19)
其中,yi∈{0,1}作為訓練任務的監(jiān)督標簽,對應前述數(shù)據(jù)集輸入序列的劃分(正確答案序列和錯誤答案序列)的標簽。
本文所有的實驗均在RTX 3090 GPU上和基于Pytorch深度學習的框架中實現(xiàn)。
在實驗過程中,選取基于Faster-RCNN提取的置信度得分排名前36的圖像區(qū)域作為視覺信息。圖像區(qū)域的特征維度為2 048。在多頭注意力學習階段,圖像特征的維度線性變換到1 024。
問題和對話歷史問答對的最大單詞長度分別設置為20和40,標題長度設置為40。文本單詞的特征維度設置為768。多頭注意力機制的頭(head)數(shù)設置為8。模型訓練批次大小設置為32。模型采用Adam[26]優(yōu)化器進行優(yōu)化訓練,初始學習率為0.000 01。實驗迭代次數(shù)設置為40。
受項目組計算資源的實驗條件限制,BERT原始預訓練模型只在VQA數(shù)據(jù)集上進行了跨模態(tài)參數(shù)微調(diào),然后再用于本文視覺對話任務的訓練。
本文使用公開數(shù)據(jù)集VisDial v0.9和VisDial v1.0進行實驗,圖片數(shù)據(jù)與COCO數(shù)據(jù)集[27]對應。
VisDial v0.9的訓練集和驗證集分別包含了82 783和40 504張圖片。VisDial v1.0數(shù)據(jù)集包含了123 287張訓練圖片(1),2 064張驗證圖片,8 000張測試集圖片。在兩個數(shù)據(jù)集的訓練集和驗證集中,每幅圖片均包含1個圖片描述,10輪對話過程。其中,每個問題有100個候選答案。
本文所采用的評估指標主要包括以下4種。
(1)歸一化折損累計增益(Normalized Discounted Cumulative Gain, NDCG)在視覺對話任務中,該指標首次運用在VisDial v1.0數(shù)據(jù)集中。
NDCG主要用于度量排序模型在返回結果時的準確性和相關性,不僅考慮了排名靠前的候選答案的質(zhì)量,還考慮了排名的位置和折扣系數(shù)的影響。因此,NDCG能更加全面和準確地評估模型的性能。當NDCG指標高時,表示模型在生成回復時更能夠滿足用戶的信息需求,提供更相關和更有用的回復,更能反映視覺對話的質(zhì)量和效果。NDCG能夠正確有效地處理經(jīng)常發(fā)生的、問題可能都有多個正確答案的情況,例如,“yes,it is.”和“yes”。因此,能更好地反映模型的泛化性。
(2)平均倒數(shù)排名(Mean Reciprocal Rank, MRR)MRR主要評估模型回答的精確性,對答案選擇的準確性進行排序。在判別式視覺對話任務中,適用于評估模型搜索正確答案的性能。MRR指標高,通常意味著模型在生成回復時能夠更準確地預測用戶期望的答案,并將其排在候選答案的前面,反映的是模型答案選取的精準性。
(3)召回率(R@K,K=1,5,10)R@K是指前top-K結果中檢索出的相關結果數(shù)和候選集中所有的相關結果數(shù)的比率。
(4)正確答案的平均排名(Mean)記錄正確答案出現(xiàn)的位置, 并計算平均排名位置。排名值越小,意味著答案出現(xiàn)的位置越靠前。
本文與當前主流先進算法,例如,CoAtt[7],CorefNMN[8],RVA[9],FGA[14],DualVD[16],LTMI[6],HESNet[12],CAG[17],KBGN[18],LTMI-GOG[19],VisualBERT[22],VDBERT[23],LTMI-RMK[20]等進行了比較。各種模型在VisDial v0.9驗證集上的實驗結果如表1所示。其中,“MTMC-BERT”代表本文模型。
表1 在VisDial v0.9 (val)數(shù)據(jù)集的實驗結果
從表1可以看到,本文模型MTMC-BERT在VisDial v0.9數(shù)據(jù)集上取得了更好的結果,超過了所比較的其他模型。特別地,相比較本文的基線模型——LTMI模型,MRR指標從66.41上升到了新的水平68.21,R@K也總體平均上升了約1.8。 正確答案排名Mean則成功地從4.03降到了3.47,說明了本文模型具備較好的答案預測的優(yōu)越性。
本文在最新的VisDial v1.0數(shù)據(jù)集上進一步與基準模型和其改進模型進行了比較。其中,在v1.0驗證集上的比較結果如表2所示。
表2 在VisDial v1.0 (val)中基準模型及其改進模型的實驗結果
在驗證集上,我們首先比較了本文模型MTMC-BERT、基準模型LTMI和基于LTMI改進的兩個模型。不難看出,本文模型依然取得了較為優(yōu)越的性能。在大部分指標上均有大幅性能提升,并且模型的平衡性更加優(yōu)越。
本文繼續(xù)在VisDial v1.0數(shù)據(jù)集的驗證集上與主流基于預訓練模型的方法進行了比較,結果如表3所示。
表3 在VisDial v1.0 (val)中基于預訓練模型的實驗結果
由于VisDialBERT不僅在VQA數(shù)據(jù)集上進行了預訓練,而且還在其他外部大規(guī)模數(shù)據(jù)集上進行了預訓練,如概念字幕(Conceptual Captions)數(shù)據(jù)集。由于該模型并沒有在兩個預訓練數(shù)據(jù)集上開源提供他們的預訓練權重,只在VisDial v1.0數(shù)據(jù)集上發(fā)布了他們的最佳模型。因此,為公平比較,本文只使用了其在VQA數(shù)據(jù)集上實際預訓練的結果。
我們在VisDial v1.0的測試集(Test-std)上與主流模型進行進一步的比較,實驗結果如表4所示。相比基準模型LTMI,本文模型MTMC-BERT在所有指標上均取得大幅上升。相比于其改進版本,如LTMI-GOG模型和最新的LTMI-RMK模型,本文模型MTMC-BERT在大部分指標上也取得了較好的效果。MTMC-BERT◇代表在密集注釋(Dense Annotation)數(shù)據(jù)集中進行模型微調(diào)所得到的效果。
表4 在VisDial v1.0 (test-std)的實驗結果
綜合表3和表4的實驗結果可以看出,對于衡量模型泛化性能的NDCG指標而言,本文模型具備較大的優(yōu)越性。本文模型引入了預訓練模型實現(xiàn)多語義粒度的信息融合,在保證模型預測精準性的基礎上,提升了模型的泛化能力。
為了驗證本文模型的各個主要模塊的有效性,我們在VisDial v1.0的驗證集上進行了多項消融實驗,結果如表5所示。
表5 在VisDial v1.0 (val)的消融實驗
消融實驗一“NSP”: 在訓練MTMC-BERT模型時,不考慮MLM任務,僅采用了單獨的NSP任務。從表5可以看出,模型在精確性(MRR)和泛化性(NDCG)指標上均同步發(fā)生了性能下降。
消融實驗二“MLM+NSP+IMG”: 模型在進行MLM訓練任務時,不僅對文本特征進行遮蓋,同時也按15%對圖像區(qū)域進行遮蓋。從表5可以發(fā)現(xiàn),添加對圖片特征的遮蓋后,模型泛化性大幅下降,甚至其他各個指標均下降較大。
消融實驗三“w/o Pretrain”: BERT模型直接選用原始預訓練模型參數(shù)“bert-base-uncased”,不通過跨模態(tài)數(shù)據(jù)集VQA進行上游跨模態(tài)任務的預訓練參數(shù)微調(diào),直接應用于本文視覺對話任務。從表5發(fā)現(xiàn),對上游任務數(shù)據(jù)集的預訓練可以大幅提高模型在下游任務中的各個指標。
我們注意到近期ChatGPT風靡人工智能領域,但只能理解文字或多或少限制其才華的發(fā)揮。BLIP2[29]是目前最新、性能最優(yōu)的多模態(tài)大模型。為了能夠較為直觀地看到實驗示例,圖4展示了與基準模型LTMI、BLIP2的對比示例,圖5展示了更多實驗結果。其中,斜體代表了預測答案正確,用下劃線標注表示了模型對答案的預測錯誤。需要說明的是,受限于實驗可用的計算資源,我們直接調(diào)用BLIP2公開API(2)https://replicate.com/andreasjansson/blip-2進行對比。
圖4 與基準模型LTMI、大模型BLIP2的對比示例其中,“A*”為數(shù)據(jù)集真實答案,“prediction”為本文模型預測結果。
圖5 部分實驗結果的可視化展示其中,“A*”為數(shù)據(jù)集真實答案,“prediction”為本文模型預測結果。
在圖4和圖5結果中,對于多模態(tài)視覺對話任務,即使是當前最優(yōu)的BLIP2模型也未能表現(xiàn)出明顯的優(yōu)越性。所提模型在大部分判斷性問題中均取得了較好效果。即使在與標準答案不完全對應(即紅色部分)的情況,圖4的第二行第二列示圖的預測答案“no”和標準答案“no,t-shirt”,以及圖5的第二個示例中,預測答案“not sure”和標準答案“can’t tell, not outside”,本文預測的答案和標準答案在語義上是相通的。
當遇到圖像中線索不明確或不存在的情況,本文模型預測的回答也會出現(xiàn)不太符合數(shù)據(jù)集真實答案的現(xiàn)象,如圖4的左上圖中預測回復“it is brown”。但BLIP2模型也沒能正確回答。這說明多模態(tài)視覺任務任重道遠。當前模型對于需要準確理解視覺內(nèi)容再進行限定性回答的任務還有待后續(xù)進一步深入研究。
如何充分有效地融合任務所涉及的多模態(tài)信息是當前視覺對話技術主流研究的重點。本文針對模型的語義信息融合粒度、算法學習靈活性等問題,提出了基于BERT模型的多層語義粒度視覺對話算法。算法以輕量級模型LTMI為基礎,引入BERT預訓練模型,并借鑒其多任務訓練過程,實現(xiàn)跨模態(tài)特征學習。模型的跨模態(tài)動態(tài)嵌入過程提升了模型學習的靈活性。在視覺對話公開數(shù)據(jù)集VisDial v0.9和VisDial v1.0上與主流先進算法,重點與LTMI 及其改進版本進行了比較,結果表明,本文模型在保證對話回復預測精準性的基礎上,進一步提升了算法的泛化能力,取得了較為優(yōu)越的性能。