姜麗梅 李秉龍
摘 要:在深度學習領(lǐng)域,解決實際應(yīng)用問題往往需要結(jié)合多種模態(tài)信息進行推理和決策,其中視覺和語言信息是交互過程中重要的兩種模態(tài)。在諸多應(yīng)用場景中,處理多模態(tài)任務(wù)往往面臨著模型架構(gòu)組織方式龐雜、訓練方法效率低下等問題。綜合以上問題,梳理了在圖像文本多模態(tài)領(lǐng)域近五年的代表性成果。首先,從主流的多模態(tài)任務(wù)出發(fā),介紹了相關(guān)文本和圖像多模態(tài)數(shù)據(jù)集以及預訓練目標。其次,考慮以Transformer為基礎(chǔ)結(jié)構(gòu)的視覺語言模型,結(jié)合特征提取方法,從多模態(tài)組織架構(gòu)、跨模態(tài)融合方法等角度進行分析,總結(jié)比較不同處理策略的共性和差異性。然后從數(shù)據(jù)輸入、結(jié)構(gòu)組件等多角度介紹模型的輕量化方法。最后,對基于圖像文本的多模態(tài)方法未來的研究方向進行了展望。
關(guān)鍵詞:多模態(tài); 架構(gòu); 融合; 輕量化
中圖分類號:TP18?? 文獻標志碼:A?? 文章編號:1001-3695(2024)05-001-1281-10
doi:10.19734/j.issn.1001-3695.2023.08.0398
Comprehensive review of multimodal processing methods for image-text
Abstract:In the field of deep learning, solving problems often requires combining multiple modal information for reasoning and decision-making, among which visual and language information are two important modalities in the interaction process. In many application scenarios, processing multi-modal tasks often faces problems such as complex model architecture organization and inefficient training methods. Based on the above problems, this paper reviewed the representative achievements in the field of multimodal image text in the past five years. This paper first started from the mainstream multi-modal tasks and introduced related text and image multi-modal datasets and pre-training targets. Secondly, considering the visual language model based on Transformer and the feature extraction method, this paper analyzed from the perspectives of multi-modal organization architecture and cross-modal fusion methods, and summarized and compared the commonalities and differences of different processing strategies. Then it introduced the lightweight method of the model from data input, structural components and other aspects. Finally, it prospected the future research direction of multimodal methods based on image text.
Key words:multimodal; architecture; fusion; lightweight
0 引言
隨著互聯(lián)網(wǎng)規(guī)模的逐步擴大,待挖掘的數(shù)據(jù)信息呈爆炸式增長,傳統(tǒng)的機器學習算法無法對大規(guī)模復雜數(shù)據(jù)集進行擬合和運算。另外,隨著高性能和計算設(shè)備(GPU、TPU等)的換代發(fā)展,為深度學習挖掘大規(guī)模數(shù)據(jù)的能力提供了充分的硬件支撐。在多模態(tài)分支領(lǐng)域中,模型需要綜合處理不同模態(tài)的數(shù)據(jù),提升深度學習模型接收多模態(tài)信息和理解多模態(tài)信息的能力,從而進行決策和推理。研究人員提出了一系列的多模態(tài)相關(guān)任務(wù),如視覺問答(visual question answering)[1]、基于圖像的文本描述生成(image captioning)[2]等。針對各項任務(wù),傳統(tǒng)的方式多由相關(guān)領(lǐng)域的專家手動構(gòu)建標準數(shù)據(jù)集再進行訓練和評估。目前,深度學習模型大多是按照預訓練(pre-training)-微調(diào)(fine-tuning)的架構(gòu)實現(xiàn)。通過在大規(guī)模數(shù)據(jù)集上完成預訓練目標來得到一組具有優(yōu)異遷移能力的權(quán)重參數(shù),然后在下游任務(wù)中對預訓練模型參數(shù)進行微調(diào)。預訓練-微調(diào)的架構(gòu)提供了模型初始化方案,使模型無須對每個新的子任務(wù)都重新進行訓練,節(jié)省了訓練資源。因此,這種成熟優(yōu)秀的模型訓練范式也可以很好地應(yīng)用到多模態(tài)任務(wù)中。
2017年,Vaswani等人[3]提出了具有編碼器-解碼器(encoder-decoder)結(jié)構(gòu)的Transformer模型,不僅很好地解決了機器翻譯問題,還為自然語言處理和圖像處理等領(lǐng)域提供了新的思路和方法。目前,預訓練微調(diào)方法大多采用Transformer模型為基礎(chǔ)模塊,其中,GPT[4]以Transformer的解碼器為基礎(chǔ)模型,通過無監(jiān)督的學習方法,在沒有標簽的文本上訓練一個比較大的語言模型,在9個下游任務(wù)中得到最好的性能表現(xiàn)(state of art,SOTA);ViLT[5]同時將文本和圖像的embedding嵌入作為輸入,由Transformer的編碼器進行模態(tài)之間的交互,以Transformer為基礎(chǔ)的預訓練模型和自監(jiān)督學習方式的結(jié)合,擺脫了模型對于大量標注數(shù)據(jù)的依賴和下游任務(wù)應(yīng)用的局限性。當前,多模態(tài)任務(wù)面臨著模型架構(gòu)組織方式龐雜、訓練方法效率低下等問題。本文面向圖像和文本兩種模態(tài),系統(tǒng)地介紹了相關(guān)處理技術(shù)。首先介紹主流的多模態(tài)任務(wù)和多模態(tài)圖像文本數(shù)據(jù)集,分析重要的預訓練目標和方法;其次闡述視覺和文本信息特征各提取方法的優(yōu)略;接著重點比較多模態(tài)架構(gòu)中對于不同處理模塊的設(shè)計策略,從單流架構(gòu)、雙流架構(gòu)以及混合架構(gòu)來分類闡述,并從融合時期的角度對模態(tài)融合方法進一步分析說明;然后從不同角度來分析輕量化構(gòu)建大模型的思路;最后對多模態(tài)模型的研究方向以及發(fā)展趨勢進行了探討。
1 多模態(tài)任務(wù)及相關(guān)工作
1.1 視覺問答
視覺問答(visual question answering,VQA)以圖像和關(guān)于圖像開放式的自然語言問題作為輸入,以生成一個答案作為輸出,簡單來說,VQA任務(wù)就是對給定的圖片作出問答。該任務(wù)在實踐中有著廣泛的應(yīng)用,如幼兒教育、商品搜索等。Gao等人[6]提出了一種將多模態(tài)特征在模態(tài)內(nèi)和模態(tài)之間動態(tài)融合的框架(dynamic fusion with intra- and inter-modality attention flow,DFAF)。DFAF由Inter-MAF和Intra-MAF組成,該工作采用了Faster R-CNN[7]提取目標圖像的視覺特征,門控循環(huán)單元(GRU)[8]來提取圖像對應(yīng)問題的文本特征。相較于Transformer,基于卷積的區(qū)域特征以及基于LSTM的文本解碼器并不能從全局角度對輸入信息進行關(guān)注,無法捕捉全局的依賴關(guān)系,從而無法充分進行跨模態(tài)學習。在第4章中將詳細介紹不同特征提取方式的優(yōu)劣。
1.2 圖像-文本檢索
圖像-文本檢索(image-text retrieval)就是搜尋配對的圖像文本對,圖像文本檢索任務(wù)可以分為圖像查詢文本和文本查詢圖像兩種。不同模態(tài)之間的檢索主要是通過對圖像-文本數(shù)據(jù)進行相似度計算來實現(xiàn),即同時利用單一模態(tài)和跨模態(tài)之間的聯(lián)系來挖掘語義關(guān)系?,F(xiàn)有的大多數(shù)圖像文本檢索方法可以分為兩種:a)將整個圖像和文本嵌入到共享空間中挖掘語義關(guān)系;b)對圖像和文本進行單獨處理之后進行跨模態(tài)融合。目前,多采用第二種方式。ALIGN[9]在超過10億的有噪聲數(shù)據(jù)集上使用了雙編碼器結(jié)構(gòu),將視覺和語言的模態(tài)特征在共享嵌入空間中進行對齊,通過對比學習獲得了具有遷移能力的模型。區(qū)別于對比學習,Ma等人[10]充分利用了圖像和文本信息不同層級的匹配關(guān)系,使模型可以學習圖像與單詞、短語以及句子三個層級的文本信息之間的模態(tài)匹配關(guān)系。但雙編碼器的特征處理結(jié)構(gòu)耗時更長,因此ViLT[5]將視覺特征和文本特征拼接,即將完整的圖像文本對嵌入到共享空間中,采用注意力機制進行跨模態(tài)處理,極大地簡化了網(wǎng)絡(luò)結(jié)構(gòu)。
1.3 圖像字幕
圖像字幕(image captioning)任務(wù)是對目標圖像生成相關(guān)內(nèi)容的文本描述,該任務(wù)的一個重要下游應(yīng)用是以圖像生成字幕獲得低噪聲的圖像文本數(shù)據(jù)集。受機器翻譯任務(wù)的啟發(fā),編碼器-解碼器的架構(gòu)也可以用來解決圖像字幕任務(wù)。Vinyals等人[11]通過CNN提取圖像特征后,使用LSTM結(jié)構(gòu)將其解碼為字幕,但LSTM無法并行處理數(shù)據(jù)的特點導致其不能很好地用于大數(shù)據(jù)背景下的預訓練學習。Huang等人[12]提出了attention on attention(AoA)模塊,該模塊擴展了傳統(tǒng)的注意力機制,在并行計算與全局注意力機制的基礎(chǔ)上進一步挖掘了注意力計算結(jié)果與查詢之間的關(guān)系。Pan等人[13]引入了雙線池化來改進傳統(tǒng)一階交互的注意力機制,即X-linear attention,從而實現(xiàn)了高階特征交互。BLIP[14]綜合以上工作提出一種多模態(tài)編碼器-解碼器混合模型,該結(jié)構(gòu)可以有效地應(yīng)用于多任務(wù)預訓練,其文本解碼器作為字幕生成器,使用語言模型預測目標(language modeling)來進行預訓練;文本編碼器用于去除圖像-文本數(shù)據(jù)集中噪聲(不匹配圖像文本對),實驗結(jié)果在COCO以及Nocaps的表現(xiàn)均達到了SOTA。
1.4 視覺-語言導航
Anderson等人[15]首次提出了視覺-語言導航(vision-and-language navigation,VLN)任務(wù),并公開了基于真實環(huán)境的room-to-room數(shù)據(jù)集。視覺-語言導航任務(wù)要求智能體根據(jù)給定的自然語言指令在3D模擬環(huán)境中導航到目標位置,其大多被定義為一個文本到圖像的順序問題:位于預定義連接圖上的特定節(jié)點處,智能體通過選擇圖像表示和指令之間具有最大對應(yīng)關(guān)系的相鄰節(jié)點來遍歷環(huán)境。因此,圖像文本匹配被認為是解決導航任務(wù)的關(guān)鍵。VLN-BERT方法[16]通過預測指令和視覺軌跡的兼容性來進行預訓練;Air-BERT方法[17]在室內(nèi)圖像-文本對數(shù)據(jù)集上訓練路徑和指令的匹配任務(wù),提出了從指令或者視覺觀察中挖掘時間信息對于預測智能體的動作很重要;HOP[18]提出了歷史感知代理任務(wù)和指令感知代理任務(wù)來幫助智能體理解歷史內(nèi)容和時間順序以作出行為預測。大多數(shù)的VLN工作都集中在離散或者連續(xù)的環(huán)境當中,連續(xù)的空間導航更接近于真實世界,但是訓練的成本要遠超離散空間中的訓練成本,然而離散空間的訓練也很難轉(zhuǎn)換到連續(xù)的導航任務(wù)中。Hong等人[19]為了彌補連續(xù)環(huán)境到離散環(huán)境的差距,提出了在導航過程中使用候選路徑點將智能體轉(zhuǎn)移到連續(xù)環(huán)境中進行訓練的思想,實驗結(jié)果表明該工作極大地降低了離散到連續(xù)的差距,在R2R-CE和RxR-CE數(shù)據(jù)集上達到了SOTA。
其余相關(guān)多模態(tài)任務(wù)如表1所示。
2 多模態(tài)數(shù)據(jù)集
多模態(tài)視覺語言任務(wù)是一個具有極大潛力的發(fā)展方向。VLP大模型常常具有數(shù)據(jù)饑餓(data-thirst)的特性,即當模型具有大量的可學習參數(shù)和網(wǎng)絡(luò)架構(gòu)層數(shù),往往模型的性能和喂入的數(shù)據(jù)量成正相關(guān)趨勢,因此相關(guān)研究人員和學術(shù)組織為特定任務(wù)收集生成了大量的訓練數(shù)據(jù)。主要的圖像文本多模態(tài)任務(wù)的數(shù)據(jù)集如表2所示[1,25~36]。
伊利諾伊大學厄巴納香檳分校計算機系研究團隊認識到,來自于Web的圖像文本對數(shù)據(jù),其中文本的描述可能與圖像并不匹配,甚至完全區(qū)別于人類所能從圖像中得到的信息,這種具有嚴重噪聲的圖像-文本數(shù)據(jù)會影響模型正確的學習能力和下游的泛化能力[25]。該團隊通過使用AmazonsMechanical Turk(MTurk) 來進行標注,而對MTurk標注任務(wù)前的資格測試可保證數(shù)據(jù)集的質(zhì)量。參與標注的MTurk大多為非專業(yè)人員,也保持了相應(yīng)字幕內(nèi)容的豐富性。
Open Images V4[33]用于圖像分類、對象檢測、視覺關(guān)系等任務(wù),該數(shù)據(jù)集擁有9 178 275張圖像,每張圖像具有包含多個對象的復雜場景。Open Images V7[36]提出了一種可以擴展到數(shù)千個類的語義分割注釋策略:從給定的圖像級別標簽開始,注釋者只回答由計算機模型自動生成的對每像素點的二值問題,從而更加高效地將分割注釋擴展到了更多的類。
VQA v1.0 [1]收集了MS COCO數(shù)據(jù)集中包含多個對象和豐富上下文信息的圖像,為了擴充VQA數(shù)據(jù)集對于高級推理的需求,創(chuàng)建了一個包含50 000種場景的抽象場景數(shù)據(jù)集,并且為每個場景都收集了5個標題。VQA中的視覺問題有選擇地針對圖像的不同區(qū)域,包括背景細節(jié)和潛在背景,通過提供準確的自然語言答案來反映真實世界的場景。Goyal等人[31]提出數(shù)據(jù)集的固有結(jié)構(gòu)和語言中的偏見會導致模型忽略視覺信息,因此在VQA v2.0中通過收集互補圖像來平衡VQA數(shù)據(jù)集,從而使新數(shù)據(jù)集中的每個問題不僅與單個圖像相關(guān),還與一對相似的圖像相關(guān),使得問題擁有兩個不同答案。
Conceptual 12M(CC12M)[35]是一個具有1 200萬圖像文本對的數(shù)據(jù)集,專門用于視覺語言預訓練,CC12是由CC3M[37]進一步擴大而來。CC3M的構(gòu)建使用基于圖像、基于文本和基于文本圖像三種基本的過濾類型,CC12M保留圖像文本過濾器,通過調(diào)整圖像過濾器和文本過濾器來達到CC12M的數(shù)據(jù)規(guī)模。
3 多模態(tài)預訓練目標
預訓練目標的選擇對整個訓練過程的成本以及最終模型的性能有著決定性的作用,以下將對匹配式預訓練目標(3.2節(jié))和生成式預訓練目標(3.3~3.5節(jié))兩類預訓練目標進行闡述。
3.1 圖像文本對比學習
在預訓練階段,圖像-文本對比學習(image-text contrastive learning,ITC)[38]用于學習圖像和文本在特征空間中更好的表示方式。對比學習將匹配的圖像文本看作正樣本對,不匹配的圖像文本看作負樣本對,使用余弦相似度來計算圖像特征和文本特征之間的相似度,即不斷優(yōu)化正樣本之間的相似度,減小負樣本對之間的相似度,從而使得模型可以理解不同模態(tài)之間的共性和差異性,在特征空間中可以很好地匹配文字和圖像特征。圖像-文本對比學習的方式可以應(yīng)用于多模態(tài)檢索類型的下游任務(wù)。本文將從一個批量的圖像文本對來介紹對比學習的具體實現(xiàn)方式。
利用式(1)(2)計算圖像文本正樣本對之間的softmax歸一化相似度,得到式(3)(4)。
其中:σ為溫度參數(shù);pi2ti表示圖像到文本的第i個正樣本的相似度;pt2ii表示文本到圖像的第i個正樣本對的相似度。
通過訓練交叉熵損失H來最大化正樣本對之間的相似度以訓練模型,得到最終的期望結(jié)果如式(5)所示。
其中:D為預訓練數(shù)據(jù)集;yi2t、yt2i分別表示文本圖像ground-truth的獨熱相似度向量,相似度最高的圖像文本對概率為1,其余為0。
3.2 圖像文本匹配
圖像文本匹配(image-text matching,ITM)[39]可以看作是二分類問題,其主要目標是為了預測圖像和文本是否匹配。ITM可以讓模型學習視覺和語言模態(tài)之間的細粒度對齊。通常將圖像特征與文本經(jīng)過模態(tài)融合處理后得到的跨模態(tài)Token [CLS]通過一個全連接層和softmax層來得到二分類的結(jié)果,其輸出結(jié)果用pi2m(I,T)表示,通過訓練交叉熵函數(shù)H得到損失公式為
Litm=E(I,T)~D[H(yi2m,pi2m(I,T))](6)
其中:yi2m為ground-truth標簽的獨熱向量;D為預訓練數(shù)據(jù)集。
在實際的訓練過程當中,部分負樣本同樣具有相近的語義信息,只在細粒度上的細節(jié)有所不同,也可以理解成最接近正樣本的負樣本,稱為難負樣本(hard negatives)。ALBEF[40]進行ITM訓練時,通過計算圖像文本之間的相似度來尋找每個批次中的難負樣本,這樣就能提升模型理解不同模態(tài)信息的能力。
3.3 遮罩語言模型預測
其中:ymsk為詞分布的獨熱向量,代表ground-truth的Token概率為1,其余Token的概率為0;D為預訓練數(shù)據(jù)。MLM在大規(guī)模的語料庫中可以高效地從上下文來提取文本中的語義信息,使用MLM預訓練的文本特征提取器可以很好地進行不同子任務(wù)的遷移,MLM無須任何標簽和額外的標注信息,是一種自監(jiān)督的學習方式,降低了數(shù)據(jù)采集和標注的成本。因此,MLM在很多工作中[42~44]都起到了很好的預訓練效果。
3.4 語言模型預測
與VLP中廣泛使用的MLM損失相比,LM預訓練目標使模型泛化能力得到了進一步的增強。LM在stable diffusion[45]中也得到了應(yīng)用,BLIP[14]中文本解碼器的訓練同樣采用LM預訓練目標,Laion COCO 600 million數(shù)據(jù)集的團隊也采用了該bootstrapping方法構(gòu)建數(shù)據(jù)集。
3.5 遮罩數(shù)據(jù)模型預測
遮罩數(shù)據(jù)模型預測(masked data modeling,MDM)將文本和圖像都看作是統(tǒng)一模態(tài)的數(shù)據(jù),同時對單模態(tài)圖像和文本,以及多模態(tài)圖像文本對進行遮蔽操作,即在預訓練期間隨機地遮蔽掉文本Tokens和圖像patches,通過預測遮蔽部分來訓練模型。MDM的訓練方式不僅可以學習到單模態(tài)的特征表達和映射,加入masked image還能使模型在預訓練階段額外學習到不同模態(tài)之間的對齊和聯(lián)合語義。BEiT v3[46]改進BEiT[47],將圖像、文本、圖像文本對不同模態(tài)進行統(tǒng)一的遮蔽與預測恢復,從而利用自監(jiān)督的學習方式來恢復遮蔽Tokens。在VL-BEiT[48]中,分別采取遮罩語言模型預測、遮罩圖像模型預測以及遮罩視覺語言模型預測三種預訓練目標,統(tǒng)一了不同模態(tài)之間的預訓練方式,也證明了生成式預訓練目標的良好效果。
4 特征提取方法
4.1 圖像特征提取
4.1.1 基于目標檢測器的區(qū)域特征
圖文檢索、視覺問答、視覺蘊涵等任務(wù)與圖像的區(qū)域性特征有很高的相關(guān)性,大多數(shù)的VLP模型將圖像區(qū)域性特征的提取設(shè)置為視覺嵌入系統(tǒng)(visual embedding schema)的基本工作[49],采用目標檢測系統(tǒng)得到具有語義和離散化的特征表現(xiàn)形式。VL-BERT[50]、UNITER[51]等相關(guān)工作在進行圖像體征提取時,基于目標檢測得到離散、序列化的具有bounding box的區(qū)域特征。例如:YOLO[52]使用檢測頭和非極大值抑制算法,從圖像中提取出目標物體的位置和類別信息;Faster R-CNN[7]使用區(qū)域候選網(wǎng)絡(luò)(region proposal network,RPN)來生成候選目標區(qū)域。在實驗過程中,為了提升訓練效率,區(qū)域特征通常在訓練時預先緩存,盡管使用目標檢測器可用于檢測精度要求較高的場景,但由于提前緩存的局限性,無法實現(xiàn)子任務(wù)的靈活泛化。
4.1.2 基于卷積的網(wǎng)格特征
目標檢測器模塊給VLP任務(wù)造成了高昂的計算成本,提取基于卷積的網(wǎng)格特征能夠減少計算量。網(wǎng)格卷積網(wǎng)絡(luò)(grid convolutional neural network,Grid-CNN)[53]的核心思想是將圖像劃分為多個網(wǎng)格,然后對每個網(wǎng)格進行特征提取,從而得到整張圖像的特征表示。Grid-CNN通常采用多層網(wǎng)格卷積和池化操作,逐層提取細粒度的局部特征,然后通過全局特征的融合實現(xiàn)對整張圖像的分類。Pixel-BERT[54]選擇直接將圖像像素與文本對齊,其關(guān)注點不再局限于目標檢測器得到的區(qū)域特征,而更注重于更為全面的圖形形狀和空間關(guān)系信息,充分利用了原始圖像的視覺信息。注意力機制和圖像卷積操作的結(jié)合也是較為熱門的研究方向:residual attention network[55]將注意力機制和殘差網(wǎng)絡(luò)進行結(jié)合,提高了網(wǎng)絡(luò)對于圖像中目標物體的關(guān)注;NLNet[56]結(jié)合了卷積神經(jīng)網(wǎng)絡(luò)和自注意力機制,通過學習不同特征圖的權(quán)重,從而自適應(yīng)地選擇最相關(guān)的特征圖。
使用卷積網(wǎng)絡(luò)來提取特征,雖然在一定程度上減輕了使用檢測器提取區(qū)域特征帶來的負擔,但卷積網(wǎng)絡(luò)的計算復雜度同樣不能作為輕量強大的視覺編碼器去使用。
4.1.3 基于Vi-Transformer的圖像patch特征提取
2020年,Dosovitskiy等人[57]基于BERT提出了Vi-Transformer,直接將原大小為224×224的三通道圖片處理為規(guī)格為16×16×3的patch塊,經(jīng)過線性映射(linear projection)層便得到了圖像Token序列,添加位置編碼等輔助Token就可以得到圖像patch特征。
Vi-Transformer簡化了視覺特征的提取過程。VLP模型受Vi-Transformer工作啟發(fā),也采用了類似的方法將圖像扁平化成patch序列,僅僅采用嵌入層的映射處理,從而減少了卷積操作和特征提取器的操作開銷,大大提升了模型在圖像處理的運行時間。Vi-Transformer利用自注意力機制進行全局的建模,可以更好地捕捉目標圖像中不同像素的長程依賴關(guān)系。但是傳統(tǒng)Vi-Transformer的設(shè)計與實現(xiàn)都是基于固定大小的圖像塊進行的,Swing Transformer[58]采取了移動窗口實現(xiàn)了層級式的Transformer處理,從而可以處理不同尺度的圖像。相比于Vi-Transformer窗口內(nèi)的信息交互,由于引入了窗口之間的patch交互,增加了每個圖像patch的感受野,一定程度上避免了信息的丟失。DeiT[59]、LeVi-Transformer[60]都基于Vi-Transformer進行了改進,提升了模型在數(shù)據(jù)集上的表現(xiàn)。
4.2 文本特征提取
4.2.1 基于CNN的文本特征提取
卷積神經(jīng)網(wǎng)絡(luò)除了在圖像處理工作中被廣泛使用,在自然語言處理領(lǐng)域也有著出色表現(xiàn)。Kim等人訓練了一個精簡的CNN,由無監(jiān)督神經(jīng)語言模型得到詞向量矩陣后,使用卷積核對該矩陣進行卷積操作,從而得到文本特征圖[59]?;诰矸e的文本特征提取方法可以很好地處理文本中的局部信息,也可以使用多個卷積核得到不同尺度的特征,并且卷積模型的結(jié)構(gòu)相對簡單,容易進行訓練。但是卷積操作無法處理文本中的序列信息,可能會造成文本的語義丟失,并且全局最大池化操作也存在長文本信息丟失的問題。
4.2.2 基于RNN的文本特征提取
循環(huán)神經(jīng)網(wǎng)絡(luò)(recurrent neural network,RNN)常用于處理序列文本數(shù)據(jù),即結(jié)合歷史信息對當前的輸入進行處理,但傳統(tǒng)的RNN具有梯度消失和梯度爆炸的問題[61],因此模型處理較長序列的文本數(shù)據(jù)會有很大限制。為了解決以上問題,提出了很多變體RNN。長短期記憶網(wǎng)絡(luò)有效解決了RNN在反向傳播的過程中梯度消失和爆炸的問題,能更加高效地處理長序列文本數(shù)據(jù)。Bi-LSTM[62]是長短期記憶網(wǎng)絡(luò)的進一步變體,其從兩個方向來處理文本數(shù)據(jù),可以更好地理解上下文的信息。
SSAE工作將注意力機制和Bi-LSTM結(jié)合,將文本輸入經(jīng)過Bi-LSTM進行雙向運算,在每個詞的兩個方向均進行注意力得分運算,從而得到特征表示[63]。文獻[64~66]均將注意力機制引入文本特征提取過程中。
4.2.3 基于BERT的文本embedding向量
BERT是基于Transformer的雙向編碼器預訓練模型,BERT將特殊的Token [CLS]和[SEP]分別作為輸入文本對(也可以將單個句子作為輸入)的特征表示和分割結(jié)束符。BERT通過對輸入文本進行詞嵌入操作、分句編碼和位置編碼,以此來得到詞序列[41]。預訓練過程中,通過遮罩語言模型預測、next sentence prediction(NSP)兩種預訓練目標進行無監(jiān)督訓練。MLM隨機遮蓋或替換一句話里面的任意字或詞,然后讓模型通過上下文預測被遮蓋或替換的部分;NSP任務(wù)判斷這兩個句子是否是連續(xù)的,并且在判斷時需要考慮上下文信息。這兩個任務(wù)的聯(lián)合訓練可以充分地提取文本特征,從而提升下游任務(wù)的性能。RoBERTa[67]通過改進BERT模型的細節(jié),如數(shù)據(jù)清洗、學習率調(diào)度等因素來提升模型的性能。基于BERT預訓練模型設(shè)計多模態(tài)任務(wù)中文本編碼器可以減少訓練時間和數(shù)據(jù)需求,有效捕捉上下文之間的依賴關(guān)系,進一步提升模態(tài)內(nèi)和模態(tài)之間的理解能力。
5 多模態(tài)架構(gòu)比重策略
將圖像文本多模態(tài)架構(gòu)抽象為三個組成部分,即文本嵌入模塊(textual embed,TE)、視覺嵌入模塊(visual embed,VE)、模態(tài)融合模塊(modality interaction,MI)。其中TE處理文本模態(tài)信息,VE處理圖像模態(tài)信息,MI負責不同模態(tài)間的交互。如圖1所示,不同模塊在整體架構(gòu)的不同比重體現(xiàn)了該模塊在整體架構(gòu)中的模型參數(shù)量和訓練成本,下文以及圖1中的“>”表示模塊具有更高的參數(shù)量和更加復雜的結(jié)構(gòu)。因此,根據(jù)不同的比重分布來介紹以下四種多模態(tài)融合策略。
5.1 VE>TE>MI
如圖1(a)所示,在VSE++[68]模型中,VE使用預訓練好的CNN模型,TE直接使用預訓練的詞嵌入模型將文本序列轉(zhuǎn)換為文本特征,在VSE++使用了難負樣本的訓練技巧來增強視覺語義嵌入模型(VSE)的魯棒性,MI模塊使用余弦相似度計算損失函數(shù),即簡單的直接點積計算來實現(xiàn)。類似的多模態(tài)結(jié)構(gòu)策略工作還有Unicoder-VL[69]、stacked cross attention for image-text matching(SCAN) [70]等,都使用較為魯棒的視覺嵌入模塊來組織多模態(tài)架構(gòu)。
在多模態(tài)任務(wù)中,突出視覺嵌入模塊可以更好地利用視覺信息,但由于視覺模塊自身的復雜性,使得多模態(tài)任務(wù)計算需要較長的訓練時間和更加高昂的計算成本。此外,由于忽略了視覺信息以及模態(tài)之間的交互,導致在場景文本理解類的下游任務(wù)中表現(xiàn)不佳。
5.2 VE=TE>MI
如圖1(b)所示,CLIP[71]模型采用了相同比重的TE和VE模塊。模型的輸入是一組配對的文本對,分別通過TE和VE得到圖像特征和文本特征,MI模塊采用較為簡單的對比學習的方式,最大化正樣本對的相似度以及最小化負樣本對的相似度。相較于模態(tài)MI計算相似性來進行跨模態(tài)對齊,TE和VE都采用了較魯棒的特征提取器。CLIP模型將圖像特征和文本特征映射到統(tǒng)一特征空間來計算相似性得分,使得該模型在圖文檢索任務(wù)上有著很好的表現(xiàn),但是模型的泛化能力相對較差,同時直接遷移到新任務(wù)也存在著性能表現(xiàn)較差的問題。
類似地,ALIGN[9]采用了視覺語言雙編碼器架構(gòu),使用超過10億張圖像替代文本對的噪聲數(shù)據(jù)集,其中將BERT-Large[41]和EfficientNet-L2[72]分別作為文本和圖像編碼器,圖像和文本編碼器通過對比損失函數(shù)進行權(quán)重的更新,使得特征嵌入空間中正樣本對具有相似的嵌入表征。圖1(a)的架構(gòu)策略中,圖像和文本編碼器有著較為復雜的參數(shù)和結(jié)構(gòu),這需要大量的計算資源,并且簡單的模態(tài)交互無法充分地學習到不同模態(tài)之間的共性和差異性。在有限的訓練資源限制下,“頭重腳輕”的結(jié)構(gòu),即單一高性能單模態(tài)嵌入器與簡單的模態(tài)融合并不足以學習復雜的視覺和語言任務(wù),往往無法很好地達到預期性能。
5.3 VE>MI>TE
MI對模態(tài)信息交互和理解有著舉足輕重的作用,是下游任務(wù)性能和模型泛化能力提升的重要因素之一。區(qū)別于圖1(a)(b)兩種淺交互的模型架構(gòu),ALBEF采用了BERT前六層Transformer結(jié)構(gòu)作為TE,后六層作為MI,在適當降低TE的比重的同時VE采用Vi-Transformer[57],綜合權(quán)衡模型的復雜度,提升多模態(tài)的任務(wù)性能,并在各種下游任務(wù)上證明了ALBEF的有效性,包含圖像文本檢索、視覺問答、視覺推理、視覺蘊涵等任務(wù)[40]。VL-BERT[50]從預訓練的對象檢測網(wǎng)絡(luò)中提取邊界框及其視覺特征來生成圖像區(qū)域特征,文本表征采用BERT方法,通過擴展BERT來聯(lián)合表示圖像和文本進行跨模態(tài)的交互。LXMERT[73]對圖像區(qū)域特征和文本嵌入進行自注意力編碼,其MI使用雙向交互模塊來融合文本和圖像的信息,在雙向交互過程中,文本注意力機制將圖像特征投影到文本空間中,用于計算文本-圖像的相似度,而視覺注意力機制則將文本特征投影到圖像空間中,用于計算圖像-文本的相似度,從而更好地捕捉多模態(tài)輸入之間的關(guān)聯(lián)信息。
由上述分析可知,在多模態(tài)任務(wù)中,MI模塊是提升下游任務(wù)性能的重要因素,無論是生成式的任務(wù)還是理解式的任務(wù),都需要以模態(tài)特征之間的對齊和充分融合為前提。
5.4 MI>VE=TE
正如以上工作中,大多數(shù)多模態(tài)框架對于文本的處理多是通過一個嵌入層直接映射到特征空間,圖像的處理往往會先使用一個Backbone網(wǎng)絡(luò)進行特征提取。注意力機制在NLP和CV領(lǐng)域的突破,BERT和Vi-Transformer使得文本和視覺模態(tài)信息的處理有了較為統(tǒng)一的方式,在ViLT模型中,對文本和視覺模態(tài)的信息均使用線性嵌入層將模態(tài)信息映射到特征空間中的方法,直接將圖文特征進行拼接送入注意力層進行模態(tài)的交互和理解。MI>VE=TE的架構(gòu)設(shè)計簡化了模型的結(jié)構(gòu),提升了文本嵌入的性能,并且相對魯棒的MI模塊也保證了對于模態(tài)信息的理解,該模型也首次在多模態(tài)的學習中采用了數(shù)據(jù)增強的方式[5]。ViLT是一個相當輕量級的VLP模型,該模型舍棄了龐大復雜的視覺和文本編碼器,將多模態(tài)任務(wù)的工作重心更多地關(guān)注于MI模塊,在COCO、Flickr 30K以及Visual Genome等數(shù)據(jù)集上均取得了SOTA,也證明了簡化特征提取工作的有效性,使用精簡的網(wǎng)絡(luò)結(jié)構(gòu)實現(xiàn)高效的模態(tài)融合處理是可行的研究思路。
6 多模態(tài)交互架構(gòu)
6.1 單流結(jié)構(gòu)
單流模型是指將多個模態(tài)的輸入通過一個共享的網(wǎng)絡(luò)模型進行編碼,能夠同時處理多種形式的輸入,并且學習不同模態(tài)之間的交互信息,如圖2(a)所示。單流結(jié)構(gòu)對于模態(tài)之間的潛在關(guān)系進行了較為簡單的假設(shè)。MMBT模型 [74]將圖像和文本的特征直接輸入到共享模型參數(shù)的bidirectional Transformer網(wǎng)絡(luò)中,并沒有在模態(tài)融合之前進行單模態(tài)的模態(tài)內(nèi)處理。Unicoder-VL[69]將文本嵌入層和視覺嵌入層輸出的圖像embedding和文本embedding進行拼接,由基于Transformer的交互模塊進行跨模態(tài)處理。單流結(jié)構(gòu)雖然可以充分地將多模態(tài)信息融合進行推理分類,但缺失了模態(tài)對齊的操作,因而不適合進行檢索任務(wù)[5]。
單流模型還可結(jié)合早期融合的角度來分析,不同的模態(tài)通常是在全局的層級進行融合,此融合方式可以充分考慮模態(tài)之間的關(guān)聯(lián)性,但也忽略了模態(tài)內(nèi)部的細節(jié)信息。在一些多模態(tài)的應(yīng)用場景中,一些下游任務(wù)需要更好地從模態(tài)內(nèi)部理解直接出發(fā),例如圖文檢索、視覺推理等。因此,盡管早期融合的方法可以高效地進行特征的聯(lián)合學習,但是模態(tài)內(nèi)部預處理的不足可能導致后續(xù)跨模態(tài)學習時出現(xiàn)信息丟失。OSCAR[75]對VLP任務(wù)中的圖像文本對表示為[輸入信息Token,對象標簽,區(qū)域特征],經(jīng)過嵌入操作后由multi-layers Transformers模塊進行模態(tài)交互。該工作改進了傳統(tǒng)的單流結(jié)構(gòu)的輸入,添加了物體標簽,豐富了公共嵌入空間的語義信息,提高了模型的遷移性,在一定程度上解決了模型早期融合時對模態(tài)內(nèi)部理解不充分的問題。
6.2 雙流結(jié)構(gòu)
雙流模型通常具有兩個獨立的數(shù)據(jù)處理模塊,在不同模態(tài)進行融合交互之前進行模態(tài)內(nèi)學習,如圖2(b)所示。例如CLIP模型中,文本編碼器采用了GPT-2[76]中的12層的Transformer塊,視覺編碼器采用5個ResNet塊和3層的Vi-Transformer塊;ALBEF模型同樣采用了兩個獨立的圖文編碼器進行特征的提取,特征在送入交叉注意力層之前進行了基于MoCo[38]的對比學習,將圖像和文本特征進行對齊,目的是提高特征空間中匹配的正樣本對的相關(guān)度,降低負樣本的相關(guān)性。相較于單流結(jié)構(gòu),雙流結(jié)構(gòu)中每個模態(tài)都有相應(yīng)的組件進行特征提取,能夠充分地捕捉模態(tài)內(nèi)部的特征和細節(jié),并且針對不同模態(tài)的數(shù)據(jù)類型可以有不同的處理方式,可以關(guān)注到不同模態(tài)之間的差異性,因此雙流結(jié)構(gòu)的模型可以很好地完成檢索型任務(wù)。然而,引入單模態(tài)處理過程也會消耗更多計算資源,訓練時間也會變長,并且對不同結(jié)構(gòu)處理后的模態(tài)特征進行對齊和融合也是具有挑戰(zhàn)性的任務(wù)。Miyawaki等人[77]提出了一種改進雙流結(jié)構(gòu)的思路,在圖像特征編碼器中引入了光學字符識別(OCR)系統(tǒng),將Faster R-CNN從圖像中提取的特征與OCR系統(tǒng)提取的圖像場景文本進行聯(lián)合解釋。實驗表明,聯(lián)合場景文本和語義表示提高了雙編碼器的檢索性能。因此在雙編碼器的結(jié)構(gòu)基礎(chǔ)上,可以通過添加對應(yīng)的輔助信息來幫助模型編碼輸入信息,從而更好地理解模態(tài)之間的聯(lián)合語義信息。
晚期融合的思路與雙流結(jié)構(gòu)基本一致,對兩個模態(tài)特征進行全局的融合計算之前會分別對圖像特征和文本特征進行學習,更加關(guān)注于從單模態(tài)內(nèi)部得到更加豐富的原始信息和模態(tài)特征。晚期融合結(jié)構(gòu)可以在視覺和文本模態(tài)融合之前進行充分的特征提取和理解。HERO[78]使用了cross-modal Transformer結(jié)構(gòu)對文本嵌入和視覺序列進行特征處理,然后由共享的temporal Transformer進行模態(tài)交互,實現(xiàn)了視覺特征和文本特征的有效對齊和交互。實驗結(jié)果證明了可以在犧牲部分訓練資源和時間的基礎(chǔ)上,學習模態(tài)內(nèi)部的信息再進行模態(tài)融合能夠很好地完成視覺問答、字幕生成、圖文檢索等任務(wù)。
6.3 單雙流混合結(jié)構(gòu)
從上文的分析中可以得出,雙流結(jié)構(gòu)適合用來完成檢索類任務(wù),單流結(jié)構(gòu)在推理任務(wù)中表現(xiàn)出色。為了提升模型的普適性和泛化性,單雙流混合結(jié)構(gòu)的思想在VLMo[79]得到了實現(xiàn)。VLMo模型是基于一種混合專家網(wǎng)絡(luò)(MOME)實現(xiàn)的。該模型改進了Transformer塊中的前向神經(jīng)網(wǎng)絡(luò),該網(wǎng)絡(luò)被替換為了視覺專家、語言專家和視覺語言專家三個模態(tài)專家網(wǎng)絡(luò),模型根據(jù)不同的輸入選擇對應(yīng)的專家網(wǎng)絡(luò)。當處理檢索任務(wù)時,則采用模型中的雙流架構(gòu),分別得到圖像和視覺的嵌入結(jié)果,計算兩者的相似性得分來完成檢索任務(wù);當處理推理等分類任務(wù)時,則使用視覺專家和語言專家來編碼各自的模態(tài)向量,然后由融合編碼器進行模態(tài)交互??偟膩碚f,模態(tài)混合專家(MOME)基于一個特定模態(tài)的專家池和共享的self-attention層,靈活地對不同的輸入作出不同的處理,可以很好地完成檢索任務(wù)和推理任務(wù)。
同樣地,也可以用早晚期融合的角度來分析單雙流融合結(jié)構(gòu),根據(jù)下游任務(wù)和輸入模態(tài)的特殊性,融合方案能靈活地選擇模態(tài)內(nèi)處理和模態(tài)間融合的前向路徑和網(wǎng)絡(luò)模塊,如圖2(c)所示。綜合早期和晚期的優(yōu)點的同時,也不可避免地帶來了模型結(jié)構(gòu)太過復雜、預訓練模型難以訓練的問題。因此,可以根據(jù)具體的任務(wù)進行結(jié)構(gòu)選擇。
7 輕量化參數(shù)微調(diào)方法
隨著基于Transformer的大語言模型以及視覺處理模型等研究的不斷發(fā)展,為解決多模態(tài)任務(wù)提供了諸多具有強大性能且開箱即用的預訓練模型,如Visual ChatGPT[80]將ChatGPT(InstructGPT[81])與不同的視覺模型進行結(jié)合,使得用戶與ChatGPT之間不單使用語言來進行交流,進而可以提供復雜的視覺問題或視覺編輯指令。但隨著模型越來越大,在常規(guī)的硬件設(shè)備上實現(xiàn)對大模型的微調(diào)變得極為昂貴和耗時。在大模型盛行的趨勢下,如何利用這些龐大參數(shù)量的模塊泛化到一般的實驗或應(yīng)用場景當中是一個值得研究的問題。參數(shù)效率微調(diào)(parameter-efficient fine-tuning,PEFT)旨在減少需要微調(diào)的模型參數(shù)的同時避免災(zāi)難性遺忘問題的出現(xiàn)。本章將從Adapters組件、提示符學習(prompting learning)以及專家集合模型(Prismer)三種方法來展開討論。
7.1 Adapter組件
使用大規(guī)模預訓練模型初始化模型參數(shù)是一種比較高效的遷移方法,但在遷移過程中對模型進行微調(diào)往往需要更新模型的所有參數(shù),這需要相當龐大的計算資源和時間成本。因此,提出了凍結(jié)大部分模型,只更新少量模型參數(shù)的方法。因為不同下游任務(wù)往往關(guān)注于相同模型的不同部分,設(shè)計具有泛化性的局部參數(shù)微調(diào)方法很難實現(xiàn),并且更新預訓練模型的部分參數(shù)也可能導致精度的消失以及災(zāi)難性遺忘的問題。所以,Houlsby等人[82]提出了Adapter結(jié)構(gòu),將其作為訓練模塊插入到Transformer中。圖3為一種簡易的組件微調(diào)方法,凍結(jié)Transformer的網(wǎng)絡(luò)參數(shù),在多頭注意力層之后添加可訓練的Adapter組件,這樣既保留了原始模型的參數(shù)內(nèi)容,又能夠以極小的訓練代價將大模型的能力泛化到子任務(wù)當中。
Adapter有著清晰簡單的結(jié)構(gòu),其輸入首先會通過前向下采樣映射進行輸入特征維度的下采樣操作,再通過非線性層和前向上采樣映射將特征恢復到輸入維度,最終通過跳躍連接將Adapter的原始輸入與輸出相加作為最終的輸出結(jié)構(gòu)。AIM[83]通過凍結(jié)預訓練好的圖像模型,在模型中添加輕量級的Adapter使得模型可以通過更少的可調(diào)參數(shù)來獲得更好的性能,其簡單高效的改進能夠普遍適用不同的圖像預訓練模型,以進一步應(yīng)用到多模態(tài)的圖像特征處理階段。
7.2 提示符學習
除了添加可訓練的輕量化組件,也可以從信息的輸入端來驅(qū)動優(yōu)化模型。例如以提示符學習的方式來提升模型的性能,CLIP[70]在文本編碼器處理文本信息之前會添加文字提示(prompt)。即當圖像標簽的文本為“dog”,則會被處理為“a photo of {dog (object)}”,再對應(yīng)圖像特征進行對齊操作。但每張圖片可能有多種描述,如“a photo of a {object}”“a type of {object}”等,以上在預訓練過程中被固定好的提示符被稱為hard-prompt。但在研究CoOP[84]中,作者發(fā)現(xiàn)不同的提示符對最終的實驗效果有著不可忽視的影響,因而提出了將文本提示符設(shè)置為可學習可優(yōu)化的一組參數(shù),將其成為軟提示符學習方式(soft-prompt)。
如圖4所示,提出了兩種提示符學習思路:一是統(tǒng)一上下文學習,二是特定于預測類的上下文學習。統(tǒng)一上下文學習為所有的類共享相同的learnable context,也就是對某個子任務(wù)數(shù)據(jù)集只訓練一個固定的提示符;特定于預測類的上下文學習對數(shù)據(jù)集中每一個類都會訓練一個不同的learnable context。最終實驗結(jié)果表明,CoOP的性能都超過了作為基線模型的CLIP,并且作者還實驗了{object}在輸入中的位置,發(fā)現(xiàn)在句中或句尾都具有較為平衡的性能,不同的語句結(jié)構(gòu)順序并不會對實驗結(jié)果造成太大的影響。
這種在輸入端的處理技巧很好地提供了優(yōu)化學習參數(shù)的思路,僅通過設(shè)置很輕量的可訓練模塊便強有力地將大模型作為基礎(chǔ)模型來應(yīng)用,既保持了其原有性能,又可以通過輕量化可訓練模塊進一步提升性能,同時可以防止災(zāi)難性遺忘問題的出現(xiàn)。
7.3 專家集合模型
Adapter組件在較為簡單的工作場景中可以起到很好的優(yōu)化效果,但其簡單的結(jié)構(gòu)屬性并不能實現(xiàn)集合復雜的預訓練模型。在此基礎(chǔ)上,為了實現(xiàn)在更復雜場景下對大模型的有力串聯(lián)和組合使用,需要提出更高層級的網(wǎng)絡(luò)組件。Liu等人[85]引入Prismer網(wǎng)絡(luò)來集成預訓練領(lǐng)域的專家模型,即通過單獨的子網(wǎng)絡(luò)來學習技能和領(lǐng)域知識,并且每個專家都可以針對特定的任務(wù)進行獨立優(yōu)化。相較于大多單雙流模型使用多個預訓練目標進行訓練,Prismer 只需要一個單一的自回歸預測文本作為訓練目標,僅專注于微調(diào)性能和參數(shù)效率。這種方法可以充分利用預訓練專家網(wǎng)絡(luò),將可訓練參數(shù)的數(shù)量保持在最低限度,在保持專家模塊完整性的同時防止微調(diào)過程中出現(xiàn)災(zāi)難性遺忘問題。
Prismer主要由兩個可訓練組件構(gòu)成,專家重采樣器在視覺編碼器中用于將可變長度的多模態(tài)信號映射到具有固定長度的多模態(tài)特征序列;輕量級適配器增強了模型的視覺語言推理表達能力。適配器被插入到模型的視覺和語言部分的每個Transformer層中,使預先訓練的專家模塊適應(yīng)新的任務(wù)和模式。區(qū)別于VLMo以及ALBEF混合專家(MoME)結(jié)構(gòu),在Prismer中,“專家”是獨立預訓練的模型。這種通過設(shè)計一個輕量模塊來串聯(lián)強大預訓練模型的思路為實驗資源有限的研究提供了強有力的方向指導。ClipCap[86]引入一個映射網(wǎng)絡(luò),將CLIP的視覺編碼器提取的圖像特征通過映射網(wǎng)絡(luò)得到了與GPT-2的解碼器相同的嵌入Token序列,無須額外對編碼器和解碼器作訓練,很好地利用了在上億文本對訓練的預訓練模型,該方法僅使用GTX1080訓練72 h就能超過基線模型(VLP[87])在V100訓練1 200 h的表現(xiàn)效果。
8 多模態(tài)領(lǐng)域發(fā)展趨勢
在VLP領(lǐng)域,根據(jù)下游任務(wù)構(gòu)建模型結(jié)構(gòu)、設(shè)置預訓練目標、構(gòu)建子任務(wù)數(shù)據(jù)集進行微調(diào)等步驟都是研究人員需要思考的重要問題。綜上所述,模型的結(jié)構(gòu)與下游任務(wù)有著強關(guān)聯(lián)性,單雙流的結(jié)構(gòu)決定了模型主要用于進行檢索或推理任務(wù),解碼器或編碼器的選擇取決于解決理解式或生成式任務(wù);除了模型結(jié)構(gòu)的設(shè)計,公開數(shù)據(jù)集與任務(wù)適配度低、構(gòu)建下游專用任務(wù)數(shù)據(jù)集困難都是在處理多模態(tài)任務(wù)時難以解決的問題;在訓練過程中,往往設(shè)定多個預訓練目標進行聯(lián)合使用,這在大參數(shù)的架構(gòu)中會消耗難以估量的計算成本。因此,多模態(tài)任務(wù)還面臨著很多亟待解決的問題[88]。
綜上,在明確解決子任務(wù)和搭建模型結(jié)構(gòu)的研究過程中,多模態(tài)領(lǐng)域的工作呈現(xiàn)了趨向統(tǒng)一的發(fā)展態(tài)勢,包含且不局限于多模態(tài)。對于單模態(tài)的自然語言處理、計算機視覺領(lǐng)域等模型都可以從三個方面進行分析:一是以Transformers為基本模塊的網(wǎng)絡(luò)的構(gòu)建方式;二是生成式的預訓練目標在預訓練-微調(diào)的范式中成為至關(guān)重要的參數(shù)更新方法;三是大模型大數(shù)據(jù)釋放了模型的能力的同時,高效的組件方法降低了實驗成本。
a)模型架構(gòu)的統(tǒng)一是大一統(tǒng)的重要基礎(chǔ),雙流結(jié)構(gòu)適用于檢索類的任務(wù);單流結(jié)構(gòu)在完成分類推理等任務(wù)具有優(yōu)勢;基于編碼器-解碼器結(jié)構(gòu)的模型可以用于生成任務(wù)。在之前的工作中,大多數(shù)模型必須根據(jù)特定的任務(wù)特性手動調(diào)整不同模型結(jié)構(gòu),并且也無法做到高效地共享模型參數(shù)。BLIP[14]對于不同的任務(wù)共享部分參數(shù),采用多路Transformer作為骨干網(wǎng)絡(luò),類似于VLMo中的共享多頭自注意力層。CoCa[89]融合了單雙流的encoder-decoder模型結(jié)構(gòu),既能生成圖像模態(tài)和文本模態(tài)的表示,又能進行更深層次的圖像、文本信息融合以及文本生成,適用于更加廣泛的任務(wù)。編碼器-解碼器架構(gòu)的融合以及靈活的單雙流架構(gòu)前向選擇過程使得模型從backbone的層面實現(xiàn)了大一統(tǒng)。
b)遮罩數(shù)據(jù)建模(masked data modeling)預訓練目標在多種模態(tài)都取得了的成功應(yīng)用。如第2章中所介紹,目前的VLP的預訓練目標通常包含ITC、ITM等,過多的訓練目標導致數(shù)據(jù)在模型的訓練過程中需要很多次前向計算,增加了運算成本。BEiT v3[44]也將圖像視作一種語言,以相同的方式來處理文本和圖像,從而沒有了基本的建模差異,將圖像文本視為“平行語句對”,以此來學習模態(tài)之間的對齊,這種處理方法在視覺和視覺語言任務(wù)上都達到了先進的性能,并證明了生成式預訓練的優(yōu)越性。綜上,構(gòu)建雙流模型時,往往使用對比學習進行模態(tài)的對齊,以此來解決檢索式的理解任務(wù);在解碼器單流結(jié)構(gòu)的訓練中使用生成式自監(jiān)督目標。清晰簡單的訓練目標可以提高訓練效率,同時保證模型在下游任務(wù)上的優(yōu)秀性能。
c)大模型、大數(shù)據(jù)集的概念已經(jīng)成為了提升模型性能的關(guān)鍵。BEiT[44]系列的工作由40層的多路Transformer組成,整個模型包含近19億個參數(shù),如此龐大的參數(shù)量在訓練過程中使用的訓練數(shù)據(jù)均來自于公開數(shù)據(jù)集,打破了以往模型對高成本構(gòu)建的專業(yè)數(shù)據(jù)集的依賴,僅僅使用了公共數(shù)據(jù)資源便在多個子任務(wù)中達到了SOTA。這一工作在架構(gòu)、建模、泛化能力上實現(xiàn)了真正意義上的統(tǒng)一,對之后的多模態(tài)工作起到了一個規(guī)范化的影響。同時,在海量數(shù)據(jù)以及大模型堆疊的深度學習趨勢下,尋找模型的優(yōu)化方法也是頗具意義的思路之一。在訓練資源有限的情況下,可以從模型輸入端、組件優(yōu)化以及網(wǎng)絡(luò)串聯(lián)來利用預訓練模型的優(yōu)點,以較小的代價實現(xiàn)大模型優(yōu)勢的同時保證整體結(jié)構(gòu)的輕量化。
多模態(tài)領(lǐng)域中通用基礎(chǔ)模型的研究有著廣闊的前景和空間去發(fā)展和完善,設(shè)計子任務(wù)泛化性好以及訓練高效的多模態(tài)范式是多模態(tài)領(lǐng)域發(fā)展的趨勢。并且,在以數(shù)據(jù)為主要驅(qū)動的深度學習背景下,引入知識圖譜等輔助驅(qū)動也是值得思考的研究方向之一[90]。
參考文獻:
[1]Antol S, Agrawal A, Lu Jiasen, et al. VQA: visual question answe-ring[C]//Proc of IEEE International Conference on Computer Vision. Piscataway,NJ:IEEE Press, 2015: 2425-2433.
[2]Vinyals O, Toshev A, Bengio S, et al. Show and tell: lessons lear-ned from the 2015 MSCOCO image captioning challenge[J]. IEEE Trans on Pattern Analysis and Machine Intelligence, 2017,39(4): 652-663.
[3]Vaswani A, Shazeer N, Parmar N, et al. Attention is all you need[C]//Proc of the 31st International Conference on Neural Information Processing Systems. Red Hook,NY:Curran Associates Inc., 2017:6000-6010.
[4]Radford A, Narasimhan K, Salimans T, et al. Improving language understanding by generative pre-training[EB/OL]. (2018). https://cdn.openai.com/research-covers/language-unsupervised/language_understanding_paper.pdf.
[5]Kim W,Son B,Kim I. ViLT:vision-and-language Transformer without convolution or region supervision[C]//Proc of the 38th International Conference on Machine Learning.[S.l.]: PMLR, 2021: 5583-5594.
[6]Gao Peng, Jiang Zhengkai, You Haoxuan, et al. Dynamic fusion with intra-and inter-modality attention flow for visual question answering[C]//Proc of IEEE/CVF Conference on Computer Vision and Pattern Recognition. Piscataway,NJ:IEEE Press, 2019: 6632-6641.
[7]Ren Shaoqing, He Kaiming, Girshick R, et al. Faster R-CNN: towards real-time object detection with region proposal networks[C]//Proc of the 28th International Conference on Neural Information Processing Systems. Cambridge,MA: MIT Press, 2015:91-99.
[8]Cho K, Van Merriёnboer B, Gulcehre C, et al. Learning phrase re-presentations using RNN encoder-decoder for statistical machine translation[EB/OL]. (2014). https://arxiv.org/abs/1406.1078.
[9]Jia Chao, Yang Yinfei, Xia Ye, et al. Scaling up visual and vision-language representation learning with noisy text supervision[C]//Proc of International Conference on Machine Learning.[S.l.]:PMLR, 2021: 4904-4916.
[10]Ma Lin, Lu Zhengdong, Shang Lifeng, et al. Multimodal convolutional neural networks for matching image and sentence[C]//Proc of IEEE International Conference on Computer Vision.Piscataway,NJ:IEEE Press, 2015:2623-2631.
[11]Vinyals O, Toshev A, Bengio S, et al. Show and tell: a neural image caption generator[C]//Proc of IEEE Conference on Computer Vision and Pattern Recognition. Piscataway,NJ:IEEE Press, 2015:3156-3164.
[12]Huang Lun, Wang Wenmin, Chen Jie, et al. Attention on attention for image captioning[C]//Proc of IEEE/CVF International Confe-rence on Computer Vision. 2019: 4634-4643.
[13]Pan Yingwei, Yao Ting, Li Yehao, et al. X-linear attention networks for image captioning[C]//Proc of IEEE/CVF Conference on Compu-ter Vision and Pattern Recognition. 2020: 10971-10980.
[14]Li Junnan, Li Dongxu, Xiong Caiming, et al. BLIP: bootstrapping language-image pre-training for unified vision-language understanding and generation[C]//Proc of International Conference on Machine Learning. 2022: 12888-12900.
[15]Anderson P, Wu Qi, Teney D, et al. Vision-and-language navigation:interpreting visually-grounded navigation instructions in real environments[C]//Proc of IEEE Conference on Computer Vision and Pattern Recognition. Piscataway,NJ:IEEE Press, 2018: 3674-3683.
[16]Hong Yicong, Wu Qi, Qi Yuankai, et al. VLN BERT: a recurrent vision-and-language BERT for navigation[C]//Proc of IEEE/CVF Conference on Computer Vision and Pattern Recognition. 2021: 1643-1653.
[17]Guhur P L, Tapaswi M, Chen Shizhe, et al. AirBERT: in-domain pretraining for vision-and-language navigation[C]//Proc of IEEE/CVF International Conference on Computer Vision. 2021: 1634-1643.
[18]Qiao Yanyuan, Qi Yuankai, Hong Yicong, et al. HOP: history-and-order aware pre-training for vision-and-language navigation[C]//Proc of IEEE/CVF Conference on Computer Vision and Pattern Recognition. 2022: 15418-15427.
[19]Hong Yicong, Wang Zun, Wu Qi, et al. Bridging the gap between learning in discrete and continuous environments for vision-and-language navigation[C]//Proc of IEEE/CVF Conference on Computer Vision and Pattern Recognition. 2022: 15439-15449.
[20]Das A, Kottur S, Gupta K, et al. Visual dialog[C]//Proc of IEEE Conference on Computer Vision and Pattern Recognition. Piscataway,NJ:IEEE Press, 2017: 326-335.
[21]Xie Ning , Lai F , Doran D ,et al.Visual entailment task for visually-grounded language learning[EB/OL].(2018). https://arxiv.org/abs/1811.10582.
[22]Suhr A, Lewis M, Yeh J, et al. A corpus of natural language for visual reasoning[C]//Proc of the 55th Annual Meeting of Association for Computational Linguistics. 2017: 217-223.
[23]Zellers R, Bisk Y, Farhadi A, et al. From recognition to cognition: visual commonsense reasoning[C]//Proc of IEEE/CVF Conference on Computer Vision and Pattern Recognition. 2019: 6720-6731.
[24]王麗安, 繆佩翰, 蘇偉, 等. 圖像-文本多模態(tài)指代表達理解研究綜述[J]. 中國圖象圖形學報, 2023,28(5): 1308-1325. (Wang Lian, Liao Peihan, Su Wei, et al. Multimodal referring expression comprehension based on image and text: a review[J] Journal of Image and Graphics, 2023,28(5):1308-1325.)
[25]Rashtchian C, Young P, Hodosh M, et al. Collecting image annotations using Amazons mechanical Turk[C]//Proc of NAACL HLT Workshop on Creating Speech and Language Data with Amazons Mechanical Turk. 2010: 139-147.
[26]Welinder C, Branson S, Welinder P,et al.The Caltech-UCSD birds-200-2011 dataset[DB/OL]. (2011).https://gwern.net/doc/ai/dataset/2011-wah.pdf.
[27]Lin T Y, Maire M, Belongie S, et al. Microsoft COCO: common objects in context[C]//Proc of the 13th European Conference on Computer.Berlin: Springer, 2014: 740-755.
[28]Krishna R, Zhu Yuke, Groth O, et al. Visual genome: connecting language and vision using crowdsourced dense image annotations[J]. International Journal of Computer Vision, 2017, 123: 32-73.
[29]Zhu Yuke, Groth O, Bernstein M, et al. Visual 7W: grounded question answering in images[C]//Proc of IEEE Conference on Computer Vision and Pattern Recognition. Piscataway,NJ:IEEE Press, 2016: 4995-5004.
[30]Plummer B A, Wang Liwei, Cervantes C M, et al. Flickr30k entities: collecting region-to-phrase correspondences for richer image-to-sentence models[C]//Proc of IEEE International Conference on Computer Vision. Piscataway,NJ:IEEE Press, 2015: 2641-2649.
[31]Goyal Y, Khot T, Summers-Stay D, et al. Making the v in VQA matter: elevating the role of image understanding in visual question answering[C]//Proc of IEEE Conference on Computer Vision and Pattern Recognition. Piscataway,NJ:IEEE Press, 2017: 6904-6913.
[32]Hudson D A, Manning C D. GQA: a new dataset for real-world visual reasoning and compositional question answering[C]//Proc of IEEE/CVF Conference on Computer Vision and Pattern Recognition. 2019: 6700-6709.
[33]Kuznetsova A, Rom H, Alldrin N, et al. The open images dataset v4:unified image classification, object detection, and visual relationship detection at scale[J]. International Journal of Computer Vision, 2020, 128(7): 1956-1981.
[34]Wu Hui, Gao Yupeng, Guo Xiaoxiao, et al. Fashion IQ: a new dataset towards retrieving images by natural language feedback[C]//Proc of IEEE/CVF Conference on Computer Vision and Pattern Recognition. 2021: 11307-11317.
[35]Changpinyo S, Sharma P, Ding N, et al. Conceptual 12M: pushing Web-scale image-text pre-training to recognize long-tail visual concepts[C]//Proc of IEEE/CVF Conference on Computer Vision and Pattern Recognition. 2021: 3558-3568.
[36]Benenson R, Ferrari V. From colouring-in to pointillism: revisiting semantic segmentation supervision[EB/OL]. (2022). https://arxiv.org/abs/2210.14142.
[37]Sharma P,Ding N,Goodman S, et al. Conceptual captions: a cleaned, hypernymed, image alt-text dataset for automatic image captioning[C]//Proc of the 56th Annual Meeting of the Association for Computational Linguistics. 2018: 2556-2565.
[38]He Kaiming, Fan Haoqi, Wu Yuxin, et al. Momentum contrast for unsupervised visual representation learning[C]//Proc of IEEE/CVF Conference on Computer Vision and Pattern Recognition. 2020: 9729-9738.
[39]Lu Jiasen, Batra D, Parikh D, et al. VilBERT: pretraining task-agnostic visiolinguistic representations for vision-and-language tasks[C]//Advances in Neural Information Processing Systems. 2019.
[40]Li Junnan, Selvaraju R, Gotmare A, et al. Align before fuse: vision and language representation learning with momentum distillation[C]//Advances in Neural Information Processing Systems. 2021: 9694-9705.
[41]Kenton J D M W C, Toutanova L K. BERT: pre-training of deep bidirectional Transformers for language understanding[C]//Proc of NAACL-HLT. 2019: 4171-4186.
[42]Lan Zhenzhong, Chen M, Goodman S, et al. ALBERT: ALite BERT for self-supervised learning of language representations[EB/OL]. (2019). https://arxiv.org/abs/1909.11942.
[43]Yang Zhilin, Dai Zihang, Yang Yiming, et al. XLNet: generalized autoregressive pretraining for language understanding[C]//Advances in Neural Information Processing Systems. 2019.
[44]Joshi M, Chen Danqi, Liu Yihan, et al. SpanBERT: improving pre-training by representing and predicting spans[J]. Trans of the Association for Computational Linguistics, 2020,8: 64-77.
[45]Rombach R, Blattmann A, Lorenz D, et al. High-resolution image synthesis with latent diffusion models[C]//Proc of IEEE/CVF Conference on Computer Vision and Pattern Recognition. 2022: 10684-10695.
[46]Wang Wenhui, Bao Hangbo, Dong Li, et al. Image as a foreign language: BEiT pretraining for all vision and vision-language tasks[EB/OL]. (2022). https://arxiv.org/abs/2208.10442.
[47]Bao Hangbo, Dong Li, Piao Songhao, et al. BEiT: BERT pre-training of image transformers[C]//Proc of International Conference on Lear-ning Representations. 2021.
[48]Bao Hangbo, Wang Wenhui, Dong Li, et al. VL-BEiT: generative vision-language pretraining[EB/OL]. (2022). https://arxiv.org/abs/2206.01127.
[49]陳天鵬,胡建文.面向深度學習的遙感圖像旋轉(zhuǎn)目標檢測研究綜述[J].計算機應(yīng)用研究, 2024,41(2):329-340. (Chen Tianpeng, Hu Jianwen. Overview of deep learning for oriented rotating object detection in remote sensing images[J].Application Research of Computers, 2024,41(2):329-340.)
[50]Su Weijie, Zhu Xizhou, Cao Yue, et al. VL-BERT: pre-training of generic visual-linguistic representations[C]//Proc of International Conference on Learning Representations. 2019.
[51]Chen Yenchun, Li Linjie, Yu Licheng, et al. Uniter: universal image text representation learning[C]//Proc of European Conference on Computer Vision. Cham: Springer, 2020: 104-120.
[52]Redmon J, Divvala S, Girshick R, et al. You only look once: unified, real-time object detection[C]//Proc of IEEE Conference on Computer Vision and Pattern Recognition. Piscataway,NJ:IEEE Press, 2016: 779-788.
[53]Lu Qishou, Liu Chonghua, Jiang Zhuqing, et al. G-CNN: object detection via grid convolutional neural network[J]. IEEE Access, 2017, 5: 24023-24031.
[54]Huang Zhicheng, Zeng Zhaoyang, Liu Bei, et al. Pixel-BERT: aligning image pixels with text by deep multi-modal Transformers[EB/OL]. (2020). https://arxiv.org/abs/2004.00849.
[55]Wang Fei, Jiang Mengqing, Qian Chen, et al. Residual attention network for image classification[C]//Proc of IEEE Conference on Computer Vision and Pattern Recognition. Piscataway,NJ:IEEE Press, 2017: 3156-3164.
[56]Wang Xiaolong, Girshick R, Gupta A, et al. Non-local neural networks[C]//Proc of IEEE Conference on Computer Vision and Pattern Recognition. Piscataway,NJ:IEEE Press, 2018: 7794-7803.
[57]Dosovitskiy A, Beyer L, Kolesnikov A, et al. An image is worth 16×16 words: Transformers for image recognition at scale[EB/OL]. (2020).https://arxiv.org/abs/2010.11929.
[58]Liu Ze, Lin Yutong, Cao Yue, et al. Swin transformer: hierarchical vision transformer using shifted windows[C]//Proc of IEEE/CVF International Conference on Computer Vision. 2021: 10012-10022.
[59]Touvron H, Cord M, Douze M, et al. Training data-efficient image Transformers & distillation through attention[C]//Proc of International Conference on Machine Learning. 2021: 10347-10357.
[60]Graham B, El-Nouby A, Touvron H, et al. LeVIT: a vision Transformer in convnets clothing for faster inference[C]//Proc of IEEE/CVF International Conference on Computer Vision. 2021: 12259-12269.
[61]Mikolov T, Karafiát M, Burget L, et al. Recurrent neural network based language model[C]//Proc of InterSpeech. 2010: 1045-1048.
[62]Huang Zhiheng, Xu Wei, Yu Kai. Bidirectional LSTM-CRF models for sequence tagging[EB/OL]. (2015). https://arxiv.org/abs/1508.01991.
[63]Lin Zhouhan, Feng Minwei, Dos Santos C, et al. A structured self-attentive sentence embedding[C]//Proc of International Conference on Learning Representations. 2017.
[64]Hu Yongli, Chen Puman, Liu Tengfei, et al. Hierarchical attention Transformer networks for long document classification[C]//Proc of International Joint Conference on Neural Networks. Piscataway,NJ:IEEE Press, 2021: 1-7.
[65]Wang Wei, Yan Ming, Wu Chen. Multi-granularity hierarchical attention fusion networks for reading comprehension and question answering[C]//Proc of the 56th Annual Meeting of Association for Computational Linguistics. 2018: 1705-1714.
[66]Ma Dehong, Li Sujian, Zhang Xiaodong, et al. Interactive attention networks for aspect-level sentiment classification[C]//Proc of the 26th International Joint Conference on Artificial Intelligence. 2017: 4068-4074.
[67]Liu Yinhan, Ott M, Goyal N, et al. RoBERTa: a robustly optimized BERT pretraining approach[EB/OL]. (2019). https://arxiv.org/abs/1907.11692.
[68]Faghri F, Fleet D J, Kiros J R, et al. Improving visual-semantic embeddings with hard negatives[EB/OL]. (2017). https://arxiv.org/abs/1707.05612.
[69]Li Gen, Duan Nan, Fang Yuejian, et al. Unicoder-VL: a universal encoder for vision and language by cross-modal pre-training[C]//Proc of AAAI Conference on Artificial Intelligence. 2020: 11336-11344.
[70]Lee K H, Chen Xi, Hua Gang, et al. Stacked cross attention for image text matching[C]//Proc of European Conference on Computer Vision. 2018: 201-216.
[71]Radford A, Kim J W, Hallacy C, et al. Learning transferable visual models from natural language supervision[C]//Proc of the 38th International Conference on Machine Learning.[S.l.]:PMLR, 2021: 8748-8763.
[72]Tan Mingxing, Le Q. EfficientNet: rethinking model scaling for con-volutional neural networks[C]//Proc of the 36th International Confe-rence on Machine Learning.[S.l.]:RMLR, 2019: 6105-6114.
[73]Tan Hao, Bansal M. LXMERT: learning cross-modality encoder representations from Transformers[C]//Proc of Conference on Empirical Methods in Natural Language Processing and the 9th International Joint Conference on Natural Language Processing. 2019: 5100-5111.
[74]Kiela D,Bhooshan S,F(xiàn)irooz H,et al. Supervised multimodal bitransformers for classifying images and text[EB/OL]. (2019). https://arxiv.org/abs/1909.02950.
[75]Li Xiujun, Yin Xi, Li Chunyuan, et al. Oscar: object-semantics aligned pre-training for vision-language tasks[C]//Proc of the 16th European Conference Computer Vision.Berlin:Springer,2020:121-137.
[76]Radford A, Wu J, Child R, et al. Language models are unsupervised multitask learners[J]. OpenAI Blog, 2019,1(8): 9.
[77]Miyawaki S, Hasegawa T, Nishida K, et al. Scene-text aware image and text retrieval with dual-encoder[C]//Proc of the 60th Annual Meeting of Association for Computational Linguistics: Student Research Workshop. 2022: 422-433.
[78]Li Linjie, Chen Yenchun, Cheng Yucheng, et al. HERO: hierarchical encoder for video+ language omni-representation pre-training[C]//Proc of Conference on Empirical Methods in Natural Language Processing. 2020: 2046-2065.
[79]Bao Hangbo, Wang Wenhui, Dong Li, et al. VLMo: unified vision-language pre-training with mixture-of-modality-experts[C]//Advances in Neural Information Processing Systems.2021.
[80]Wu Chenfei, Yin Shengming, Qi Weizhen, et al. Visual ChatGPT: talking, drawing and editing with visual foundation models[EB/OL]. (2023). https://arxiv.org/abs/2303.04671.
[81]Ouyang Long, Wu J, Jiang Xu, et al. Training language models to follow instructions with human feedback[J]. Advances in Neural Information Processing Systems, 2022,35: 27730-27744.
[82]Houlsby N, Giurgiu A, Jastrzebski S, et al. Parameter-efficient transfer learning for NLP[C]//Proc of International Conference on Machine Learning. 2019: 2790-2799.
[83]Yang Taojiannan, Zhu Yi, Xie Yusheng, et al. AIM: adapting image models for efficient video action recognition[C]//Proc of the 11th International Conference on Learning Representations.2023.
[84]Zhou Kaiyang, Yang Jingkang, Loy C C, et al. Learning to prompt for vision-language models[J]. International Journal of Computer Vision, 2022,130(9): 2337-2348.
[85]Liu Shikun, Fan Linxi, Johns E, et al. Prismer: a vision-language model with an ensemble of experts[EB/OL]. (2023). https://arxiv.org/abs/2303.02506.
[86]Yu Jiahui, Wang Zirui, Vasudevan V, et al. CoCa: contrastive captioners are image-text foundation models[EB/OL]. (2022-05-04). https://arxiv.org/abs/2205.01917.
[87]Mokady R, Hertz A, Bermano A H. Clipcap: clip prefix for image captioning[EB/OL]. (2021). https://arxiv.org/abs/2111.09734.
[88]Zhou Luowei, Hamid P, Zhang Lei, et al.Unified vision-language pretraining for image captioning and VQA[C]//Proc of AAAI Confe-rence on Artificial Intelligence. Palo Alto, CA: AAAI Press, 2020:13041-13049.
[89]張浩宇,王天保,李孟擇,等. 視覺語言多模態(tài)預訓練綜述[J].中國圖象圖形學報, 2022,27(9):2652-2682. (Zhang Haoyu, Wang Tianbao, Li Mengze, et al. Comprehensive review of visual-language-oriented multimodal pre-training methods[J].Journal of Image and Graphics, 2022,27(9):2652-2682.)
[90]李源,馬新宇,楊國利,等. 面向知識圖譜和大語言模型的因果關(guān)系推斷綜述[J].計算機科學與探索, 2023,17(10):2358-2376. (Li Yuan, Ma Xinyu, Yang Guoli, et al. Survey of causal inference for knowledge graphs and large language models[J].Journal of Frontiers of Computer Science and Technology, 2023,17(10):2358-2376.)