張豐碩 李豫 李向前 徐金安 陳鈺楓
北京大學(xué)學(xué)報(bào)(自然科學(xué)版) 第60卷 第1期 2024年1月
Acta Scientiarum Naturalium Universitatis Pekinensis, Vol. 60, No. 1 (Jan. 2024)
10.13209/j.0479-8023.2023.072
2023–05–18;
2023–09–26
一種消減多模態(tài)偏見的魯棒視覺問(wèn)答方法
張豐碩 李豫 李向前?徐金安 陳鈺楓
北京交通大學(xué)計(jì)算機(jī)與信息技術(shù)學(xué)院, 北京 100044; ?通信作者, E-mail: xqli@bjtu.edu.cn
為了增強(qiáng)視覺問(wèn)答模型的魯棒性, 提出一種偏見消減方法, 并在此基礎(chǔ)上探究語(yǔ)言與視覺信息對(duì)偏見的影響。進(jìn)一步地, 構(gòu)造兩個(gè)偏見學(xué)習(xí)分支來(lái)分別捕獲語(yǔ)言偏見以及語(yǔ)言和圖片共同導(dǎo)致的偏見, 利用偏見消減方法, 得到魯棒性更強(qiáng)的預(yù)測(cè)結(jié)果。最后, 依據(jù)標(biāo)準(zhǔn)視覺問(wèn)答與偏見分支之間的預(yù)測(cè)概率差異, 對(duì)樣本進(jìn)行動(dòng)態(tài)賦權(quán), 使模型針對(duì)不同偏見程度的樣本動(dòng)態(tài)地調(diào)節(jié)學(xué)習(xí)程度。在 VQA-CP v2.0 等數(shù)據(jù)集上的實(shí)驗(yàn)結(jié)果證明了所提方法的有效性, 緩解了偏見對(duì)模型的影響。
視覺問(wèn)答; 數(shù)據(jù)集偏差; 語(yǔ)言偏見; 深度學(xué)習(xí)
視覺問(wèn)答(visual question answering, VQA)[1]是一項(xiàng)結(jié)合計(jì)算機(jī)視覺與自然語(yǔ)言處理的多模態(tài)任務(wù),其目標(biāo)是根據(jù)圖片來(lái)回答問(wèn)題。近年來(lái), VQA 相關(guān)研究取得長(zhǎng)足的進(jìn)展?,F(xiàn)有的視覺問(wèn)答任務(wù)常用評(píng)測(cè)數(shù)據(jù)集(如 VQA v2.0[2])中, 訓(xùn)練集和測(cè)試集的分布是相近的, 當(dāng)模型較好地?cái)M合此類數(shù)據(jù)的訓(xùn)練集時(shí), 更容易表現(xiàn)出優(yōu)越的測(cè)試性能。然而, 真實(shí)場(chǎng)景中的數(shù)據(jù)集往往呈現(xiàn)不均衡的類別分布, 且難以避免長(zhǎng)尾分布問(wèn)題。因此, 當(dāng)訓(xùn)練集與測(cè)試集存在較大的分布差異(甚至完全相反)時(shí), 數(shù)據(jù)中的分布偏差常常使模型表現(xiàn)出較差的泛化能力。
常用的 VQA 數(shù)據(jù)集存在相同類別問(wèn)題下答案分布不均衡的現(xiàn)象。例如, 在當(dāng)前評(píng)測(cè)視覺問(wèn)答任務(wù)的主流數(shù)據(jù)集 VQA v2.0 中, 以“How many”開頭的問(wèn)題, 大約 70%的答案為“2”; 以“What sport”開頭的問(wèn)題, 以“tennis”作為答案的約占 40%。因此, 模型在訓(xùn)練期間往往只簡(jiǎn)單地學(xué)習(xí)到問(wèn)題與標(biāo)準(zhǔn)答案的表面相關(guān)性(配對(duì)關(guān)系), 從而在沒(méi)有結(jié)合圖片信息進(jìn)行充分推理的情況下, 依據(jù)經(jīng)驗(yàn)得出有偏見的預(yù)測(cè)結(jié)果, 表現(xiàn)出較強(qiáng)的語(yǔ)言偏見。為了探索解決這一語(yǔ)言先驗(yàn)性問(wèn)題的途徑, 前人通過(guò)重新分割和組織原有 VQA 數(shù)據(jù)集的方式, 構(gòu)建訓(xùn)練集和測(cè)試集中相同問(wèn)題類型下答案分布相反的數(shù)據(jù)集(如VQA-CP[3])。值得注意的是, 很多表現(xiàn)良好的 VQA模型在這類數(shù)據(jù)集上的性能大幅度下降。因此, 克服數(shù)據(jù)集分布不均衡導(dǎo)致的偏見問(wèn)題至關(guān)重要。
針對(duì)上述問(wèn)題, 有別于前人的工作[4–13], 本文嘗試直接將標(biāo)準(zhǔn)分支與偏見分支的概率輸出之差作為預(yù)測(cè)結(jié)果。首先, 構(gòu)造兩個(gè)不同的偏見學(xué)習(xí)分支來(lái)分別捕捉語(yǔ)言偏見以及語(yǔ)言和圖片共同導(dǎo)致的偏見。一個(gè)分支通過(guò)對(duì)語(yǔ)言輸入進(jìn)行特征提取來(lái)識(shí)別和理解文本中的偏見, 另一個(gè)分支基于注意力機(jī)制來(lái)分析并捕捉語(yǔ)言和圖片共同導(dǎo)致的偏見。進(jìn)一步地, 在推理階段, 將基礎(chǔ)視覺問(wèn)答模型的預(yù)測(cè)分值減去語(yǔ)言偏見模型的偏見分值, 得到的差值即為去偏后的預(yù)測(cè)概率, 最終取概率最大的預(yù)測(cè)標(biāo)簽作為答案輸出。該方法通過(guò)消減捕捉到的偏見來(lái)降低模型對(duì)偏見的敏感性, 并生成更加無(wú)偏和準(zhǔn)確的預(yù)測(cè)結(jié)果。最后, 根據(jù)標(biāo)準(zhǔn)視覺問(wèn)答與偏見分支之間的預(yù)測(cè)概率差異, 對(duì)樣本進(jìn)行動(dòng)態(tài)賦權(quán)。不同的差異意味著樣本具有不同的偏見程度, 而賦予不同的權(quán)重, 可以調(diào)節(jié)模型對(duì)樣本的學(xué)習(xí)程度。這種動(dòng)態(tài)賦權(quán)的方式可以使模型更加靈活和準(zhǔn)確地應(yīng)對(duì)不同程度的偏見樣本, 從而提高模型的整體性能。通過(guò)基于 VQA-CP v2.0 和 VQA v2.0 數(shù)據(jù)集的實(shí)驗(yàn), 證明本文方法具有比基線模型更高的效能。
近幾年, 處理視覺問(wèn)答任務(wù)偏見問(wèn)題的相關(guān)研究可以分為兩大類: 數(shù)據(jù)增強(qiáng)方法[4–7]和非數(shù)據(jù)增強(qiáng)方法[8–13]。
1)數(shù)據(jù)增強(qiáng)的方法: 通過(guò)自動(dòng)生成問(wèn)題和圖像對(duì)來(lái)擴(kuò)展訓(xùn)練數(shù)據(jù)集, 以便平衡數(shù)據(jù)集存在的偏見。Teney 等[4]和Zhu等[5]通過(guò)從原有的數(shù)據(jù)集中構(gòu)建不相關(guān)的問(wèn)題–圖像對(duì)來(lái)生成額外的數(shù)據(jù), 以此在不引入新樣本的方式下來(lái)平衡數(shù)據(jù)集。Chen 等[6]通過(guò)對(duì)圖像中的關(guān)鍵對(duì)象和問(wèn)題中的關(guān)鍵目標(biāo)進(jìn)行掩蓋, 并分別對(duì)這些樣本分配不同的答案來(lái)生成反事實(shí)的訓(xùn)練樣本, 從而大大提高模型的視覺可解釋性和問(wèn)題敏感能力。Mutant 模型[7]從多個(gè)角度擴(kuò)充訓(xùn)練樣本, 包括去除圖像的關(guān)鍵對(duì)象、反轉(zhuǎn)圖像中關(guān)鍵對(duì)象的顏色、否定問(wèn)題的表達(dá)以及遮蓋問(wèn)題關(guān)鍵詞等。數(shù)據(jù)增強(qiáng)的方法雖然效果很顯著, 但新生成數(shù)據(jù)的質(zhì)量往往難以保證, 同時(shí)還可能引入新的偏見。
2)非數(shù)據(jù)增強(qiáng)的方法主要分為兩類。一類是引入先驗(yàn)知識(shí)來(lái)增強(qiáng)視覺靈敏度: HINT 模型[9]引入人類注意力來(lái)加強(qiáng)模型對(duì)圖像的敏感度; 在 HINT模型的基礎(chǔ)上, SCR 模型[10]提出自我批評(píng)的方法, 懲罰不正確答案對(duì)重要區(qū)域的敏感度, 取得更好的去偏效果。但是, 這類方法效果有限, 并且需要額外的人工標(biāo)注, 成本較高。另一類常見的策略是引入一個(gè)輔助的單模態(tài)分支模型來(lái)檢測(cè)偏見: Ramak-rishnan 等[11]引入僅問(wèn)題分支, 并使用對(duì)抗正則化方法減少數(shù)據(jù)集偏見對(duì)模型的影響; Cadene 等[12]改善了對(duì)抗的做法, 提出融合僅問(wèn)題分支來(lái)改變模型的預(yù)測(cè)結(jié)果, 從而降低有偏樣本的重要性; Clark 等[13]使用問(wèn)題類型和答案訓(xùn)練一個(gè)捕獲偏見的僅問(wèn)題分支, 再將僅問(wèn)題分支的預(yù)測(cè)值嵌入基本模型的預(yù)測(cè)值中進(jìn)行集成訓(xùn)練, 使模型的性能有較高的突破; Wen 等[8]注意到視覺模態(tài)的偏見效應(yīng), 構(gòu)建僅問(wèn)題和僅圖像兩個(gè)分支來(lái)同時(shí)消除兩種偏見。
與上述方法不同的是, 本文的方法引入的輔助分支可以直接作用于任意視覺問(wèn)答基礎(chǔ)模型, 適用范圍更廣; 同時(shí), 我們還依據(jù)標(biāo)準(zhǔn)視覺問(wèn)答分支和偏見分支之間的差異, 構(gòu)造動(dòng)態(tài)調(diào)節(jié)機(jī)制來(lái)作用于損失函數(shù), 從而進(jìn)一步優(yōu)化去偏效能。
本研究中, 我們嘗試直接將標(biāo)準(zhǔn)分支與偏見分支的概率輸出之差作為預(yù)測(cè)結(jié)果。在這種方式下, 針對(duì)語(yǔ)言偏見問(wèn)題, 在模型的訓(xùn)練階段, 我們沿襲前人的方法, 訓(xùn)練一個(gè)語(yǔ)言模態(tài)的問(wèn)答模型來(lái)捕獲語(yǔ)言先驗(yàn)知識(shí); 在推理階段, 我們將基礎(chǔ)視覺問(wèn)答模型的預(yù)測(cè)分值(VQA)減去語(yǔ)言偏見模型的偏見分值(QA), 得到的差值即為去偏后的預(yù)測(cè)概率, 最終取概率最大的預(yù)測(cè)標(biāo)簽作為答案輸出。為了驗(yàn)證該方法的有效性, 我們選用經(jīng)典的視覺問(wèn)答模型Updn[14]作為基礎(chǔ)模型, 并在數(shù)據(jù)集 VQA-CP v2.0 上進(jìn)行初步實(shí)驗(yàn)。表 1 列出的實(shí)驗(yàn)結(jié)果表明, 該方法可以顯著地提高視覺問(wèn)答的準(zhǔn)確率。然而, 只考慮語(yǔ)言偏差而忽略視覺信息帶來(lái)的影響, 不能充分地去除偏見, 視覺信息導(dǎo)致的偏見效應(yīng)[8]仍然未被充分探究。從圖 1 的示例 1~3 中可以觀察到, VQA 模型因受圖片中模型最感興趣的區(qū)域影響而預(yù)測(cè)出錯(cuò)誤的答案“Water”。
表1 直接消減方法在VQA-CP v2.0數(shù)據(jù)集上的去偏效果
為了進(jìn)一步探索上述問(wèn)題, 受前人捕獲語(yǔ)言偏見的工作[11–13]啟發(fā), 我們首先觀測(cè)僅使用圖片來(lái)回答問(wèn)題(VA 分支)的效果。如圖 1 所示, 我們發(fā)現(xiàn)由VA 分支輸出的概率分布中, 分值最高的答案始終為 Yes 或 No。主要原因在于, 通過(guò)圖片信息直接預(yù)測(cè)答案的過(guò)程并不能使模型學(xué)到有效的知識(shí)。具體地說(shuō), 在 VQA-CP v2.0 數(shù)據(jù)集中, 一張圖片往往對(duì)應(yīng)多個(gè)自然語(yǔ)言問(wèn)答實(shí)例, 因此在缺失問(wèn)題引導(dǎo)的情況下, 模型僅僅捕捉到訓(xùn)練集中圖片與答案的映射規(guī)律, 并將對(duì)應(yīng)頻率最高的答案(即 yes 或 no)作為最終的預(yù)測(cè)。因此, 單純使用圖片來(lái)捕獲視覺偏見的做法仍然存在問(wèn)題。我們繼續(xù)對(duì)樣例進(jìn)行分析, 發(fā)現(xiàn)錯(cuò)誤答案“Water”大多出現(xiàn)在“What”問(wèn)題類型的樣例中, 如圖 1 中示例 1~3 所示。所以, 我們推測(cè)部分問(wèn)題信息可能會(huì)與圖片中的某些區(qū)域結(jié)合在一起, 與答案標(biāo)簽形成配對(duì)關(guān)系, 從而被模型在訓(xùn)練階段利用, 即存在一種文本和視覺信息共同導(dǎo)致的混合偏見。
針對(duì)上述問(wèn)題, 本文提出兩個(gè)偏見檢測(cè)分支模型, 即語(yǔ)言偏見檢測(cè)分支和混合偏見檢測(cè)分支, 分別捕獲兩種偏見, 并且將它們?nèi)谌胛覀兲岢龅闹苯酉麥p策略當(dāng)中, 得到去偏結(jié)果??紤]到單純使用圖片信息不能捕獲視覺偏見, 我們?yōu)閳D片提供部分問(wèn)題線索, 并且使用多頭自注意力機(jī)制使它們充分交互, 從而得到融合視覺與文本線索信息的混合偏見特征。同時(shí), 我們還探究不同偏見分支對(duì)不同類型問(wèn)題的影響, 并設(shè)計(jì)基于問(wèn)題類型的分段注意力機(jī)制來(lái)調(diào)節(jié)各類型問(wèn)題的去偏過(guò)程。最后, 我們依據(jù)標(biāo)準(zhǔn)分支和偏見分支預(yù)測(cè)的相似性, 設(shè)計(jì)樣本重賦權(quán)策略, 通過(guò)動(dòng)態(tài)地調(diào)節(jié)損失函數(shù), 進(jìn)一步優(yōu)化去偏過(guò)程。
預(yù)測(cè)輸出中粗體字表示模型預(yù)測(cè)的概率最大的答案, 下同
如圖 2 所示, 本文模型的整體結(jié)構(gòu)包括 3 個(gè)部分: 1)基礎(chǔ)視覺問(wèn)答模型, 例如Updn[14]; 2)偏見檢測(cè)模型, 用于捕獲語(yǔ)言偏見和混合偏見; 3)動(dòng)態(tài)調(diào)節(jié)模塊, 用于依據(jù)標(biāo)準(zhǔn)分支和偏見分支的相似性, 動(dòng)態(tài)地調(diào)節(jié)損失函數(shù)的大小。
目前, 可以將視覺問(wèn)答視為多標(biāo)簽分類任務(wù)。具體地說(shuō), 給定數(shù)據(jù)集, 其中v,q和分別代表第個(gè)樣本(樣本總數(shù)為)中的圖片、問(wèn)題和答案, 任務(wù)的目標(biāo)是根據(jù)自然語(yǔ)言問(wèn)題和對(duì)應(yīng)的視覺信息預(yù)測(cè)出正確的答案。通常, 視覺問(wèn)答模型的預(yù)測(cè)概率分布可以建模為
3.3.1語(yǔ)言偏見檢測(cè)模型
一般將語(yǔ)言偏見視為僅僅根據(jù)問(wèn)題文本得到的答案分布, 通常用如下方式得到:
其中,q表示映射函數(shù), 將問(wèn)題特征直接映射到答案空間。
3.3.2混合偏見檢測(cè)模型
為了捕獲圖片與文本共同導(dǎo)致的偏見, 我們?cè)O(shè)計(jì)一種混合偏見檢測(cè)模型(如圖 3 所示), 分別從底層特征級(jí)別和注意力結(jié)構(gòu)級(jí)別兩方面對(duì)圖片提供問(wèn)題線索的引導(dǎo)。
在前期處理階段, 首先將訓(xùn)練集中的問(wèn)題文本輸入預(yù)訓(xùn)練模型BERT[15]中:
其中,表示問(wèn)句單詞集合{1,2, …,w}經(jīng)過(guò) BERT編碼后的向量。之后, 在特征級(jí)別上使用已標(biāo)記好的問(wèn)題類型的訓(xùn)練數(shù)據(jù)集來(lái)訓(xùn)練意圖分類器。這里, 將問(wèn)題的類型視為問(wèn)題意圖。在分類器的實(shí)現(xiàn)過(guò)程中, 我們從 BERT 編碼后的文本特征中選擇[CLS]標(biāo)記對(duì)應(yīng)的特征輸送到多層感知機(jī)以及 Soft-max 歸一化層中, 取概率分值最高的問(wèn)題類型對(duì)應(yīng)的下角標(biāo)作為問(wèn)題意圖標(biāo)簽。計(jì)算方法如下:
其中,cls表示中[CLS]標(biāo)記對(duì)應(yīng)的向量, idx 表示預(yù)測(cè)概率值最高的意圖對(duì)應(yīng)的下角標(biāo)索引,intent代表預(yù)測(cè)出的問(wèn)題意圖標(biāo)簽。在視覺問(wèn)答訓(xùn)練過(guò)程中, 我們先在特征表示層面將意圖標(biāo)簽投射到向量空間, 并與圖片區(qū)域特征進(jìn)行加和, 后接多頭自注意力機(jī)制, 使它們充分地交互, 從而得到混合意圖的視覺特征序列:
其中,enc表示圖片區(qū)域特征向量,表示當(dāng)前文具對(duì)應(yīng)的問(wèn)題意圖向量, MHSA(·)表示多頭自注意力機(jī)制[16],intent表示混合意圖的視覺特征序列。
除在特征層面引入意圖線索外, 與 Updn 類似, 我們?cè)谧⒁饬C(jī)制層面直接利用問(wèn)句信息來(lái)?yè)袢?wèn)題最有可能關(guān)注到的視覺區(qū)域。具體地說(shuō), 將式(1)中編碼后的問(wèn)題向量enc進(jìn)行平均池化, 得到整體問(wèn)題文本特征:
最后, 引入注意力機(jī)制來(lái)對(duì)混合文本線索的視覺特征進(jìn)行聚合。值得注意的是, 考慮到不同的問(wèn)題受到的偏見影響存在差異, 我們?cè)O(shè)計(jì)分段注意力權(quán)重的計(jì)算方法。具體地說(shuō), 我們依據(jù)答案類型的不同, 采取不同的查詢向量來(lái)計(jì)算權(quán)重。對(duì)于推理難度較大的 Num 類型問(wèn)題, 將完整的問(wèn)題文本特征作為查詢向量; 對(duì)于非 Num 類型的問(wèn)題, 考慮到給予太多的文本線索會(huì)使偏見模型學(xué)習(xí)到正確的知識(shí), 因此訓(xùn)練一個(gè)隨機(jī)向量作為查詢向量來(lái)計(jì)算混合意圖的視覺特征權(quán)重, 加權(quán)求和后, 得到最終的混合偏見特征。這里的隨機(jī)向量近似地代表用戶對(duì)圖片區(qū)域關(guān)注的隨機(jī)傾向性。式(7)和(8)分別表示注意力權(quán)重的計(jì)算和混合偏見特征mix的獲取操作。
LVQA 和LBias 分別表示基礎(chǔ)視覺問(wèn)答模型和偏見檢測(cè)分支模塊的損失函數(shù); Q*表示從問(wèn)句中提取的問(wèn)題類型, 下同
圖3 混合偏見檢測(cè)模型示意圖
(8)
其中,為初始化的隨機(jī)向量,為當(dāng)前問(wèn)題的答案類型,為隱藏層的維度,,,和為訓(xùn)練權(quán)重,為偏置量。
為了進(jìn)一步增強(qiáng)去偏效果, 本文設(shè)計(jì)一種樣本損失動(dòng)態(tài)調(diào)節(jié)機(jī)制。具體地說(shuō), 我們依據(jù)標(biāo)準(zhǔn)視覺問(wèn)答分支與偏見預(yù)測(cè)概率之間的分布差異, 計(jì)算出一個(gè)衡量樣本偏見程度的權(quán)重因子, 用于調(diào)整損失函數(shù)的大小, 從而在模型訓(xùn)練過(guò)程中削弱對(duì)偏見樣本的學(xué)習(xí)強(qiáng)度, 同時(shí)關(guān)注無(wú)偏樣本的學(xué)習(xí)。
然后, 為了衡量樣本的偏見程度, 計(jì)算標(biāo)準(zhǔn)分支輸出概率s與的余弦相似度:
由于s和的取值都大于等于零, 故的取值在 0~1 之間。由余弦相似性可知,值越大, 標(biāo)準(zhǔn)分支和偏見檢測(cè)分支的輸出概率越接近, 樣本存在偏見的可能性越大。
最后, 對(duì)于極有可能存在偏見的樣本(余弦相似度大于當(dāng)前問(wèn)題對(duì)應(yīng)答案類型為時(shí)的臨界值), 賦予較小的權(quán)重系數(shù)來(lái)削弱偏見的影響; 對(duì)于幾乎不存在偏見的樣本(余弦相似度小于臨界值), 通過(guò)增大權(quán)重系數(shù)來(lái)增加模型對(duì)這類樣本的關(guān)注度。權(quán)重系數(shù)ω的計(jì)算公式如下:
其中,是超參數(shù), 表示人工放縮的權(quán)重。
3.5.1模型訓(xùn)練
在模型訓(xùn)練階段, 我們通過(guò)二元交叉熵?fù)p失函數(shù), 分別優(yōu)化基礎(chǔ)視覺問(wèn)答模型和偏見檢測(cè)分支模塊, 計(jì)算公式如下:
其中,是超參數(shù), 用于平衡基礎(chǔ) VQA 模型和偏見檢測(cè)模型;是偏見分支的數(shù)目;是答案標(biāo)簽; bce(·)是二元交叉熵?fù)p失函數(shù);s表示基礎(chǔ) VQA 模型輸出的概率;表示第個(gè)偏見檢測(cè)模型輸出的概率。
3.5.2模型推理
在測(cè)試階段, 某一答案標(biāo)簽的概率分值表示為
其中,是答案類型, 共有 3 種??紤]到不同偏見分支對(duì)各個(gè)類型問(wèn)題的影響可能存在差異, 我們?cè)O(shè)置權(quán)重來(lái)調(diào)節(jié)去偏程度, 并且。
4.1.1數(shù)據(jù)集
針對(duì)視覺問(wèn)答中的偏見問(wèn)題, 目前常用 VQA-CP v2.0 數(shù)據(jù)集[3]來(lái)評(píng)估模型的性能, 在 VQA v2.0數(shù)據(jù)集[2]上測(cè)試模型是否過(guò)度糾偏。VQA v2.0 訓(xùn)練集包含 443757 個(gè)圖像問(wèn)題對(duì), 驗(yàn)證集包含 214354個(gè)圖像問(wèn)題對(duì), 測(cè)試集包含447793 個(gè)圖像問(wèn)題對(duì)。VQA-CP v2.0 數(shù)據(jù)集是對(duì)VQA v2.0 數(shù)據(jù)進(jìn)行重新劃分后得到的, 在同一類型的問(wèn)題下, 該數(shù)據(jù)集的訓(xùn)練集和測(cè)試集答案分布差異較大。VQA-CP v2.0數(shù)據(jù)集的訓(xùn)練集包含 438183 個(gè)圖像問(wèn)題對(duì), 不包含驗(yàn)證集, 測(cè)試集包含 219928 個(gè)圖像問(wèn)題對(duì)。在兩個(gè)數(shù)據(jù)集中, 樣本的問(wèn)題類型分為 3 類: Yes/No, Num和 Other。
4.1.2評(píng)價(jià)方法
評(píng)價(jià)句子的正確性時(shí), 需要考慮句法和句子語(yǔ)義的正確性。為了簡(jiǎn)化問(wèn)題, 視覺問(wèn)答的大多數(shù)數(shù)據(jù)集將生成的答案限制為單詞或短語(yǔ), 長(zhǎng)度為 1~3個(gè)單詞。當(dāng)前通用的評(píng)估方法如式(14)[1]所示:
其中, Acc(ans)表示某樣本下某個(gè)答案的準(zhǔn)確率, #humans provided ans 表示人工給出該答案的次數(shù)。數(shù)據(jù)集會(huì)對(duì)每個(gè)問(wèn)題收集 10 個(gè)人工答案, 如果某個(gè)答案被人工標(biāo)注 3 次或以上, 則得分為 1; 如果某個(gè)答案沒(méi)有被標(biāo)注, 則得分為 0,即錯(cuò)誤答案。在評(píng)估時(shí), 需要將生成的答案與 10 個(gè)人工答案進(jìn)行比較, 從而得到準(zhǔn)確率。
4.1.3測(cè)試基準(zhǔn)模型
我們?cè)?Updn[14]和 LXMERT[17]兩個(gè)視覺問(wèn)答基礎(chǔ)模型上測(cè)試本文提出的方法。Updn 模型是目前主流的視覺問(wèn)答模型, 它使用一種自上而下和自下向上的注意力機(jī)制[16]; LXMERT 是一個(gè)基于 Trans-former[16]架構(gòu)的多模態(tài)預(yù)訓(xùn)練模型。我們按照是否在 LXMERT 框架下加載預(yù)訓(xùn)練權(quán)重, 分兩組進(jìn)行實(shí)驗(yàn)。
4.1.4參數(shù)設(shè)置與實(shí)驗(yàn)環(huán)境
在 Updn 模型的訓(xùn)練過(guò)程中, 設(shè)置初始學(xué)習(xí)率為 5×10?4, 訓(xùn)練 batch 大小為 256, 共迭代 25 輪; 在LXMERT 模型的訓(xùn)練過(guò)程中, 設(shè)定初始學(xué)習(xí)率為5×10?5, 訓(xùn)練 batch 大小為 32, 共迭代 10 輪。我們使用 Pytorch 1.40 框架來(lái)實(shí)現(xiàn)本文提出的模型, 所有的計(jì)算均在 NVIDIA Tesla V100 GPUs 上進(jìn)行。
表 2 對(duì)比本文方法和近年來(lái)提出的其他方法在VQA-CP v2.0 測(cè)試集以及 VQA v2.0 驗(yàn)證集上的性能。公平起見, 我們主要比較非數(shù)據(jù)增強(qiáng)的方法, 包括 SCR[10], AttAlign[9], HINT[9], AReg[11], DLR[18], GRL[19], RUBi[12], LM[13], LMH[13], Unshuffling[20]和Re-scaling[21]。其中, Unshuffling 方法通過(guò)劃分?jǐn)?shù)據(jù)集, 并為每個(gè)子集設(shè)置不同訓(xùn)練環(huán)境的方式來(lái)提高模型的泛化能力; Re-scaling 方法則根據(jù)訓(xùn)練數(shù)據(jù)的統(tǒng)計(jì)特征, 對(duì)樣本進(jìn)行重賦權(quán)來(lái)消減偏見。評(píng)測(cè)實(shí)驗(yàn)結(jié)果表明, 本文方法優(yōu)于其他基線方法, 并可得到以下結(jié)論。
1)與去偏后的模型相比, 未經(jīng)過(guò)去偏處理的視覺問(wèn)答方法(如 SAN[22], GVQA[3]和 Updn)在 VQA-CP v2.0 數(shù)據(jù)集上的效果表現(xiàn)較差。本文提出的去偏策略在 Updn 以及兩組 LXMERT 模型上均具有較明顯的去偏效果。具體地說(shuō), 與基礎(chǔ)的 Updn 模型相比, 本文方法的準(zhǔn)確率提升約 15.45%; 與不加載預(yù)訓(xùn)練權(quán)重的 LXMERT 相比, 提升 15.76%; 與加載預(yù)訓(xùn)練權(quán)重的 LXMERT 相比, 提升 15.42%。從整體上看, 上述結(jié)果證明了本文方法在去偏任務(wù)中具有明顯的有效性。
2)在 VQA-CP v2.0 有偏數(shù)據(jù)集上, 本文中提出的去偏策略在單個(gè)指標(biāo)方面均取得最好的效果。與同樣引入問(wèn)答分支模型的 AReg(+14.31%)、GRL(+13.15%)、LM(+6.70%)、LMH(+3.47%)和 RUBi(+11.25%)相比, 本文方法簡(jiǎn)單, 效果更顯著。從與其他基線模型的對(duì)比來(lái)看, 一方面, 再次體現(xiàn)出本文方法顯著的有效性; 另一方面, 說(shuō)明本文去偏策略盡可能地針對(duì)各個(gè)問(wèn)題類型, 捕獲了更充分的偏見信息。
表2 與已有視覺問(wèn)答去偏模型的性能比較
注: *實(shí)驗(yàn)結(jié)果取自本研究復(fù)現(xiàn)的模型, 其他用于比較的實(shí)驗(yàn)結(jié)果都取自原文獻(xiàn); 粗體數(shù)字表示最優(yōu)結(jié)果, 下同。
3)在 VQA v2.0 數(shù)據(jù)集上, 與 Updn 基礎(chǔ)模型相比, 大部分已有去偏方法的效果均有所下降, 說(shuō)明當(dāng)前的去偏模型存在一定的矯枉過(guò)正現(xiàn)象。本文提出的策略在 VQA v2.0 數(shù)據(jù)集上的測(cè)試準(zhǔn)確率具有明顯的競(jìng)爭(zhēng)力, 在一定程度上證實(shí)本文方法引起的矯枉過(guò)正現(xiàn)象相對(duì)較弱, 模型的魯棒性更強(qiáng)。
我們通過(guò)消融實(shí)驗(yàn)驗(yàn)證模型各部分的有效性, 結(jié)果如表 3 所示。所有模型均在與 4.1.4 節(jié)中相同的設(shè)置下訓(xùn)練。消融實(shí)驗(yàn)結(jié)果表明, 融合偏見檢測(cè)分支與動(dòng)態(tài)調(diào)節(jié)模塊都具有明顯的效果, 可以得到以下結(jié)論。
1)對(duì)于 VQA-CP v2.0 數(shù)據(jù), 使用混合偏見檢測(cè)模型在 Num 類型上的效果提升較為明顯(+2.00%), 推測(cè)其原因可能是 Num 類型的問(wèn)題更容易受到視覺和語(yǔ)言兩種模態(tài)信息的影響。此外, 使用語(yǔ)言偏見檢測(cè)模型在 VQA-CP v2.0 上對(duì) Yes/No 類型問(wèn)題的作用十分顯著(+35.78%), 說(shuō)明 Yes/No 類型問(wèn)題的偏見主要由語(yǔ)言信息引起。
2)僅僅將兩類偏見檢測(cè)分支疊加使用時(shí), 在VQA-CP v2.0 上取得比使用單個(gè)偏見分支更高的整體效果, 說(shuō)明它們共同作用, 捕獲到更充分的偏見特征, 同時(shí)也結(jié)合了兩類偏見分支各自的優(yōu)勢(shì)。此外, 對(duì) VQA v2.0 數(shù)據(jù)而言, 同時(shí)融合兩種分支能夠緩解矯枉過(guò)正的現(xiàn)象(?0.98%)。
3)單獨(dú)使用動(dòng)態(tài)調(diào)節(jié)機(jī)制時(shí), 在 VQA-CP v2.0數(shù)據(jù)集上也取得一定的去偏效果(+1.80%), 在 VQA v2.0 數(shù)據(jù)集上比基礎(chǔ)模型 Updn 有 0.06%的提升, 說(shuō)明在去除偏見的同時(shí), 動(dòng)態(tài)調(diào)節(jié)機(jī)制矯枉過(guò)正的現(xiàn)象并不明顯。
表3 消融實(shí)驗(yàn)結(jié)果
說(shuō)明: ?Gap表示去偏模型與基礎(chǔ)模型的準(zhǔn)確率差值。
表4 分段注意力機(jī)制的有效性
說(shuō)明: E表示使用問(wèn)句向量作為查詢向量, R表示使用隨機(jī)初始化的向量作為查詢向量。
4)將兩類偏見檢測(cè)分支與動(dòng)態(tài)調(diào)節(jié)模塊結(jié)合時(shí), 在 VQA-CP v2.0 數(shù)據(jù)集上的整體去偏效果以及單個(gè)問(wèn)題類型上的去偏效果達(dá)到最佳, 證明了本文提出的方法在視覺問(wèn)答去除偏見任務(wù)中的有效性。
為了直觀地驗(yàn)證問(wèn)句引導(dǎo)的分段注意力機(jī)制的有效性, 針對(duì)在不同問(wèn)題類型的樣本中混合偏見模塊是否使用分段注意力機(jī)制這一問(wèn)題, 我們根據(jù)是否采用動(dòng)態(tài)調(diào)節(jié)機(jī)制, 在 VQA-CP v2.0 數(shù)據(jù)集上分兩組進(jìn)行實(shí)驗(yàn), 結(jié)果如表 4 所示。實(shí)驗(yàn)結(jié)果表明, 當(dāng)單獨(dú)針對(duì) Num 類型的樣本使用問(wèn)句特征作為查詢向量, 并使用隨機(jī)特征表示作用于非 Num 類型問(wèn)題的方式時(shí), 在加入和不加入動(dòng)態(tài)調(diào)節(jié)兩種情況下均取得最明顯的提升。給予 Other 類型問(wèn)題太多的文本線索不利于模型消除 Other 類型樣本的偏見, 推測(cè)是由于過(guò)多的文本線索與視覺信息結(jié)合時(shí), 會(huì)直接得到 Other 類型問(wèn)題的正確答案。另外, 我們發(fā)現(xiàn)當(dāng)為 Num 類型問(wèn)題分配問(wèn)句特征作為查詢向量時(shí), 會(huì)對(duì) Yes/No 類型問(wèn)題起到更明顯的提升作用, 在此情況下, 使用隨機(jī)特征向量來(lái)計(jì)算 Yes/No類型問(wèn)題的注意力權(quán)重, 促進(jìn)了模型對(duì)Num類型和Other 類型問(wèn)題的去偏能力。綜上所述, 本文提出的分段注意力機(jī)制考慮到文本線索信息對(duì)不同類型問(wèn)題的作用差異, 能夠有效地提升去偏效果。
圖4 在VQA-CP v2數(shù)據(jù)集上的去偏效果
為了更好地展示結(jié)果, 擇取在 VQA-CP v2.數(shù)據(jù)集上以 Updn 作為基礎(chǔ)模型的實(shí)驗(yàn)結(jié)果中的一些例子來(lái)進(jìn)行深入的分析, 從而進(jìn)一步證明我們方法的有效性。
圖4中樣例1和2的標(biāo)準(zhǔn)分支與混合偏見分支的預(yù)測(cè)輸出分別為 Train 和 Cows, 說(shuō)明模型受到視覺偏見影響的可能性更大。在此前提下, 僅使用動(dòng)態(tài)調(diào)節(jié)機(jī)制可以使模型直接預(yù)測(cè)出正確答案(Train station 和 Grass), 同時(shí)在后續(xù)的直接消減策略下, 最終的答案也能保持正確性, 說(shuō)明本文方法具備較強(qiáng)的克服視覺偏見能力。此外, 圖 4 中樣例 3~5 表明模型在動(dòng)態(tài)調(diào)節(jié)機(jī)制和直接消減策略的共同作用下, 緩解了 Num 和 Yes/No 類型問(wèn)題中存在的偏見問(wèn)題, 更加充分地說(shuō)明本文提出的去偏策略可以增強(qiáng)視覺問(wèn)答模型的魯棒性??傮w而言, 本文方法在各個(gè)問(wèn)題類型上都可以緩解偏見對(duì)模型的影響。
本文提出一種直接消減的去偏策略, 將基礎(chǔ)視覺問(wèn)答模型的輸出減去偏見檢測(cè)模型的輸出作為最終的去偏結(jié)果。在之前已經(jīng)提出語(yǔ)言偏見和視覺偏見的基礎(chǔ)上, 本研究發(fā)現(xiàn)一種新的混合偏見檢測(cè)分支——圖片和文本共同作用導(dǎo)致的偏見, 并設(shè)計(jì)意圖分類器來(lái)提取問(wèn)題句子的意圖, 引入分段注意力機(jī)制來(lái)將視覺特征與意圖特征有效地結(jié)合, 從而獲取混合偏見。最后, 依據(jù)標(biāo)準(zhǔn)視覺問(wèn)答分支與偏見分支之間的差異性, 構(gòu)造動(dòng)態(tài)調(diào)節(jié)模塊來(lái)控制樣本的學(xué)習(xí)程度。實(shí)驗(yàn)結(jié)果表明, 本文提出的方法提高了現(xiàn)有 VQA 模型的推理分析能力, 減少了偏見對(duì)模型的誤導(dǎo)性。
[1] Antol S, Agrawal A, Lu J S, et al. VQA: visual question answering // Proceedings of the IEEE International Conference on Computer Vision. Santiago, 2015: 2425 –2433
[2] Goyal Y, Khot T, Summers-Stay D, et al. Making the V in VQA matter: elevating the role of image under-standing in visual question answering // Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition. Honolulu, 2017: 6904–6913
[3] Agrawal A, Batra D, Parikh D, et al. Don’t just assume, look and answer: overcoming priors for visual question answering // Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition. Salt Lake City, 2018: 4971–4980
[4] Teney D, Abbasnejad E, Kafle K, et al. On the value of out-of-distribution testing: an example of goodhart’s law. Advances in Neural Information Processing Sys-tems, 2020, 33: 407–417
[5] Zhu X, Mao Z, Liu C, et al. Overcoming language priors with self-supervised learning for visual question answering [EB/OL]. (2020–12–17) [2023–04–10]. https://doi.org/10.48550/arXiv.2012.11528
[6] Chen L, Yan X, Xiao J, et al. Counterfactual samples synthesizing for robust visual question answering // Proceedings of the IEEE/CVF Conference on Com-puter Vision and Pattern Recognition. Seattle, 2020: 10800–10809
[7] Gokhale T, Banerjee P, Baral C, et al. Mutant: a training paradigm for out-of-distribution generaliza-tion in visual question answering [EB/OL]. (2020–10–16) [2023–03–22]. https://doi.org/10.48550/arXiv.2009. 08566
[8] Wen Z, Xu G, Tan M, et al. Debiased visual ques- tion answering from feature and sample perspectives. Advances in Neural Information Processing Systems, 2021, 34: 3784–3796
[9] Selvaraju R R, Lee S, Shen Y, et al. Taking a hint: leveraging explanations to make vision and language models more grounded // Proceedings of the IEEE/CVF International Conference on Computer Vision. Seoul, 2019: 2591–2600
[10] Wu J, Mooney R. Self-critical reasoning for robust visual question answering. Advances in Neural Infor-mation Processing Systems, 2019, 32: 8601–8611
[11] Ramakrishnan S, Agrawal A, Lee S. Overcoming lan-guage priors in visual question answering with adver-sarial regularization. Advances in Neural Information Processing Systems, 2018, 31: 1541–1511
[12] Cadene R, Dancette C, Cord M, et al. Rubi: reducing unimodal biases for visual question answering. Adva-nces in Neural Information Processing Systems, 2019, 32: 839–850
[13] Clark C, Yatskar M, Zettlemoyer L. Don’t take the easy way out: ensemble based methods for avoiding known dataset biases [EB/OL]. (2019–09–09) [2023–04–20]. https://doi.org/10.18653/v1/D19-1418
[14] Anderson P, He X, Buehler C, et al. Bottom-up and top-down attention for image captioning and visual ques-tion answering // Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition. Salt Lake City, 2018: 6077–6086
[15] Devlin J, Chang M W, Lee K, et al. Bert: pre-training of deep bidirectional transformers for language under-standing [EB/OL]. (2018–10–11) [2023–04–12]. https: //doi.org/10.48550/arXiv.1810.04805
[16] Vaswani A, Shazeer N, Parmar N, et al. Attention is all you need. Advances in Neural Information Processing Systems, 2017, 30: 5998–6008
[17] Tan H, Bansal M. LXMERT: Learning cross-modality encoder representations from transformers [EB/OL]. (2019–12–03) [2023–04–20]. https://doi.org/10.48550/ arXiv.1908.07490
[18] Jing C, Wu Y, Zhang X, et al. Overcoming language priors in VQA via decomposed linguistic representations // Proceedings of the AAAI Conference on Artificial Intelligence. New York, 2020, 34: 11181–11188
[19] Grand G, Belinkov Y. Adversarial regularization for visual question answering: strengths, shortcomings, and side effects [EB/OL]. (2019–06–20) [2023–04–11]. https://doi.org/10.48550/arXiv.1906.08430
[20] Teney D, Abbasnejad E, van den Hengel A. Unshuff-ling data for improved generalization in visual ques-tion answering // Proceedings of the IEEE/CVF Inter-national Conference on Computer Vision. Montreal, 2021: 1417–1427
[21] Guo Y, Nie L, Cheng Z, et al. Loss re-scaling VQA: revisiting the language prior problem from a class-imbalance view. IEEE Transactions on Image Proces-sing, 2021, 31: 227–238
[22] Yang Z, He X, Gao J, et al. Stacked attention net- works for image question answering // Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition. Las Vegas, 2016: 21–29
Reducing Multi-model Biases for Robust Visual Question Answering
ZHANG Fengshuo, LI Yu, LI Xiangqian?, XU Jin’an, CHEN Yufeng
School of Computer and Information Technology, Beijing Jiaotong University, Beijing 100044; ? Corresponding author, E-mail: xqli@bjtu.edu.cn
In order to enhance the robustness of the visual question answering model, a bias reduction method is proposed. Based on this, the influence of language and visual information on bias effect is explored. Furthermore, two bias learning branches are constructed to capture the language bias, and the bias caused by both language and images. Then, more robust prediction results are obtained by using the bias reduction method. Finally, based on the difference in prediction probabilities between standard visual question answering and bias branches, samples are dynamically weighted, allowing the model to adjust learning levels for samples with different levels of bias. Experiments on VQA-CP v2.0 and other data sets demonstrate the effectiveness of the proposed method and alleviate the influence of bias on the model.
visual question answering; dataset bias; language bias; deep learning