謝亦才 易云
摘要:多模態(tài)表征學(xué)習(xí)旨在縮小不同模態(tài)數(shù)據(jù)之間的異質(zhì)性差距。近年來,基于深度學(xué)習(xí)的多模態(tài)表征學(xué)習(xí)因其強大的多層次抽象表征能力而備受關(guān)注。文章提供了關(guān)于深度多模態(tài)表征學(xué)習(xí)的全面調(diào)查。文章將深度多模態(tài)表示學(xué)習(xí)方法分為三個框架:聯(lián)合表示、協(xié)調(diào)表示和編解碼器。此外,還回顧了該領(lǐng)域的一些典型模型,從傳統(tǒng)模型到新開發(fā)的技術(shù)。重點介紹了新開發(fā)技術(shù)的關(guān)鍵問題,如編碼器-解碼器模型、生成性對抗網(wǎng)絡(luò)等。最后,對今后的工作提出了一些重要的方向。
關(guān)鍵詞:多模態(tài)表征學(xué)習(xí);多模態(tài)深度學(xué)習(xí);深度多模態(tài)融合
中圖分類號:TP311? ? ? ? ?文獻標識碼:A
文章編號:1009-3044(2022)09-0067-03
1引言
多模態(tài)數(shù)據(jù)是指描述同一對象的數(shù)據(jù)記錄在不同類型的媒體中例如文本、圖像、視頻、聲音和圖形。在表征學(xué)習(xí)領(lǐng)域,“模態(tài)”一詞指編碼信息的特定方式或機制。因此,上面列出的不同類型的媒體也指模態(tài),涉及多種模態(tài)的表征學(xué)習(xí)任務(wù)將被描述為多模態(tài)表征學(xué)習(xí)。由于多模態(tài)數(shù)據(jù)從不同的角度描述對象,通常在內(nèi)容上是互補的或補充的,因此它們比單模態(tài)數(shù)據(jù)信息更豐富。例如,學(xué)者們在有關(guān)語音識別的研究中發(fā)現(xiàn),視覺模式能提供嘴唇運動和嘴的關(guān)節(jié)(包括張開和閉合)之間的關(guān)聯(lián)信息,這一視覺模式對提高語音識別性能有幫助。因此,彌合語義鴻溝,綜合利用幾種模臺提供的綜合語義是很有價值的。
為了縮小異質(zhì)性差距,在過去的幾十年中,學(xué)者們用各種方法進行了大量的研究。因此,多模態(tài)表征學(xué)習(xí)的發(fā)展使許多應(yīng)用受益。例如,通過利用來自多通道的融合特征,可以在跨媒體分析任務(wù)中實現(xiàn)性能改進,例如視頻分類、事件檢測和情感分析等。此外,通過利用跨模態(tài)相似性或跨模態(tài)相關(guān),使我們能夠使用句子作為輸入來檢索圖像,反之亦然,即跨模態(tài)檢索。最近,一種新型的多模態(tài)應(yīng)用——跨模態(tài)翻譯在計算機視覺界引起了極大的關(guān)注。顧名思義,它將一種情態(tài)轉(zhuǎn)化為另一種情態(tài)。該類別中的示例性應(yīng)用包括圖像標題、視頻描述和文本到圖像合成。
近年來,由于具有多層次抽象的強大表示能力,深度學(xué)習(xí)在有關(guān)自然語言處理、語音識別和計算機視覺等應(yīng)用中取得了優(yōu)良成果[1]。此外,深度學(xué)習(xí)的另一個關(guān)鍵優(yōu)勢是,可以使用通用學(xué)習(xí)程序直接學(xué)習(xí)層次表示,而無須手工設(shè)計或選擇功能。在這一成功的推動下,深度多模態(tài)表征學(xué)習(xí)獲得了巨大關(guān)注。
2深度多模態(tài)表征學(xué)習(xí)框架
為了便于討論如何縮小異質(zhì)性差距,將深度多模態(tài)表示方法分為三類框架:(1)協(xié)同表示,旨在學(xué)習(xí)協(xié)同子空間中每個模態(tài)的分離和受限表示,包括跨模態(tài)相似模型和典型相關(guān)分析;(2)編碼器-解碼器模型,努力學(xué)習(xí)用于將一種模態(tài)映射到另一種模態(tài)的中間表示。每個框架都有其集成多種模態(tài)的方式,并由一些應(yīng)用程序共享。在應(yīng)用多模態(tài)表征學(xué)習(xí)之前,應(yīng)通過適當(dāng)?shù)姆椒ㄌ崛√囟B(tài)的特征;(3)聯(lián)合表示,它將單模態(tài)特征表示投影到一個共享語義子空間中,以利于融合多模態(tài)特征。因此,在本節(jié)中,首先介紹可能顯著影響性能的單模態(tài)表示方法,然后開始討論三種類型的框架。
2.1特定模態(tài)表征
盡管各種不同的多模態(tài)表示學(xué)習(xí)模型可能共享相似的體系結(jié)構(gòu),但用于提取特定模態(tài)特征的基本組件可能彼此有很大不同。在這里,將介紹適用于不同模式的一些最流行的組件,而不涉及技術(shù)細節(jié)。
用于圖像模態(tài)特征提取的深度學(xué)習(xí)模型有LeNet[2], AlexNet[3], GoogleNet[4], VGGNet[5]和ResNet[6]等。它們可以集成到多模式學(xué)習(xí)模型中,并與其他組件一起進行培訓(xùn)。然而,考慮到對足夠的訓(xùn)練數(shù)據(jù)和計算資源的需求,預(yù)訓(xùn)練好的CNN模型是多模態(tài)表示學(xué)習(xí)的更好選擇。
至于視頻模態(tài),由于每個時間步長的輸入是圖像,因此可以通過用于處理圖像的技術(shù)來提取其特征。除了深層特征外,手工特征仍然廣泛用于視頻和音頻模式。此外,還開發(fā)了一些工具包來提取特征。例如,OpenFace可用于提取面部特征,如面部地標、頭部姿勢和眼睛注視。另一個工具是Opensmile,可用于提取聲學(xué)特征包括Mel頻率倒譜系數(shù)(MFCC)、聲音強度、音調(diào)及其統(tǒng)計信息。在視頻和音頻的幀被編碼之后,可以使用CNN或RNN網(wǎng)絡(luò)將序列匯總為單個向量表示。
用于文本模態(tài)特征提取的深度模型有word2vec[7],Glove[8]等,它將單詞映射到向量空間,在該空間中可以測量單詞之間的相似性。在NLP任務(wù)中,應(yīng)該考慮的一個常見問題是未知單詞問題,也稱為詞匯表外(OOV)單詞,它可能會影響許多系統(tǒng)的性能。
2.2聯(lián)合表征
集成不同類型的特征以提高機器學(xué)習(xí)方法性能的策略長期以來被研究者所采用。這種策略在多模態(tài)環(huán)境中的自然延伸是利用融合的異構(gòu)特征。根據(jù)這一策略,在許多多模態(tài)分類或聚類任務(wù)中,如視頻分類、事件檢測、情感分析和視覺問答等,都展示了應(yīng)用前景。
融合多模態(tài)特征的最簡單方法是直接連接它們。然而,這個子空間大部分是由一個不同的隱藏層實現(xiàn)的,在該隱藏層中,將添加轉(zhuǎn)換的特定模態(tài)向量,從而將來自不同模態(tài)的語義組合起來。
除了在不同的隱藏層中進行融合過程(通常稱為加法方法)之外,一些文獻中還采用了乘法方法。在情感分析任務(wù)中,Zadeh等人[9]提出了基于模態(tài)內(nèi)和模態(tài)間動力學(xué)建模的多模態(tài)情感分析問題,并提出了張量融合網(wǎng)絡(luò)模型,它可以端到端地學(xué)習(xí)這兩種動力學(xué)。這個方法是針對在線視頻中口語的易變性以及伴隨的手勢和聲音而定制的。
與其他框架相比,聯(lián)合表示的優(yōu)點之一是,由于不需要顯式協(xié)同模態(tài),因此可以方便地融合多種模態(tài)。另一個優(yōu)點是共享的公共子空間趨向于模態(tài)不變,這有助于將知識從一個模態(tài)轉(zhuǎn)移到另一個模態(tài)。然而,該框架的缺點之一是它不能用于推斷分離結(jié)果的每種形態(tài)的表征。
2.3編碼解碼器表征
近年來,編解碼框架得到了廣泛的應(yīng)用,用于將一種模態(tài)映射到另一種模態(tài)的多模態(tài)翻譯任務(wù),如圖像標題、視頻描述和圖像合成。通常編碼器-解碼器框架主要由兩部分組成,即編碼器和解碼器。其中編碼器通過多層神經(jīng)網(wǎng)絡(luò)將源模態(tài)降維映射為潛在向量f,然后,解碼器對向量f升維,生成新的目標模態(tài)樣本。
編碼器-解碼器模型有一些變體包含多個編碼器或解碼器。例如,Mor等人[11]提出了一種跨樂器、流派和風(fēng)格的翻譯音樂方法。該方法基于多域wavenet自動編碼器,具有共享編碼器和端到端訓(xùn)練波形的解糾纏潛在空間。其中,共享編碼器負責(zé)提取獨立于域的音樂語義,每個解碼器將在目標域中再現(xiàn)一段音樂。一個包括兩個編碼器的示例包括Huang等人提出的圖像到圖像轉(zhuǎn)換模型。其中一個編碼器負責(zé)對圖像風(fēng)格樣式編碼,另一個編碼器負責(zé)對圖像內(nèi)容編碼。
2.4協(xié)同表征
多模態(tài)學(xué)習(xí)中流行的另一種方法是協(xié)同表示法。協(xié)同表示框架在某些約束條件下學(xué)習(xí)每個模態(tài)的分離但協(xié)同表示,而不是學(xué)習(xí)聯(lián)合子空間中的表示。由于不同模態(tài)中包含的信息是不平等的,學(xué)習(xí)分離表征有助于保持獨有的有用模態(tài)特定特征[10]。通常,在約束類型的條件下,協(xié)同表示方法可分為兩組,基于跨模態(tài)相似性的和基于跨模態(tài)相關(guān)性的。基于跨模態(tài)相似性的方法可以直接測量向量與不同模態(tài)的距離,而基于模態(tài)相關(guān)的方法使來自不同模態(tài)的表征的相關(guān)性最大化。
跨模態(tài)相似方法是學(xué)習(xí)相似性度量約束下的協(xié)同表示。該模型的學(xué)習(xí)目標是保持模態(tài)間和模態(tài)內(nèi)的相似結(jié)構(gòu),期望與相同語義或?qū)ο笙嚓P(guān)的跨模態(tài)相似距離盡可能小,而與不同語義相關(guān)的距離盡可能大。
與其他框架相比,協(xié)同表征傾向于在每種模態(tài)中保持唯一和有用的模態(tài)特定特征。由于不同的模態(tài)編碼在分離的網(wǎng)絡(luò)中,其優(yōu)點之一是每個模態(tài)的表征可以獨立推斷。這一特性也有利于跨模態(tài)知識遷移學(xué)習(xí)。該框架的一個缺點是,在大多數(shù)情況下,很難學(xué)習(xí)兩種以上模態(tài)的表示。
3典型模型
在本節(jié)中,將總結(jié)一些深度多模態(tài)表征學(xué)習(xí)的典型模型。它們的范圍從傳統(tǒng)模型,包括概率圖形模型、多模態(tài)自動編碼器和深度典型相關(guān)分析,與新開發(fā)的技術(shù)相結(jié)合,包括生成對抗網(wǎng)絡(luò)和注意機制。這里描述的典型模型可以分為上面介紹的一個或多個框架,也可以與它們集成。
3.1概率圖模型
在深度表征學(xué)習(xí)領(lǐng)域,概率圖形模型包括深度信念網(wǎng)絡(luò)(DBN)和深度玻爾茲曼機器(DBM)。雖然它們都是從堆疊受限玻爾茲曼機器(RBM)層訓(xùn)練出來的,但它們的結(jié)構(gòu)是不同的。前者是由有向信念網(wǎng)絡(luò)和RBM層組成的部分有向模型,后者是完全無向模型。
概率圖形模型的一個例子是Srivastava和Salakhutdinov[12]提出的多模態(tài)DBN。通過在特定于模態(tài)的DBN上添加共享RBM隱藏層,它可以學(xué)習(xí)跨模態(tài)的聯(lián)合表示。Srivastava和Salakhutdinov的另一個模型是多模深層玻爾茲曼機器,它交替使用DBMs作為處理每個模態(tài)數(shù)據(jù)的基本單元。作為一個完全無向的模型,隱藏單元的狀態(tài)將在各個模式之間相互影響。因此,模態(tài)融合過程是分布式的跨越所有層的所有隱藏單元,如圖1所示。
與通過共享表示層連接不同模式的策略不同,F(xiàn)eng等人[15]傾向于巧妙的最大化模式層之間的對應(yīng)關(guān)系。在每個等效隱藏層,來自不同模態(tài)的兩個RBM分別通過相關(guān)損失函數(shù)連接。通過這種方式,獲取了跨模態(tài)檢索的基本互模型相關(guān)性。
3.2多模態(tài)自動編碼器
自動編碼器因其學(xué)習(xí)表示的能力而廣受歡迎,在無監(jiān)督的情況下,不需要標簽。這個自動編碼器的基本結(jié)構(gòu)包括兩個組件,一個是編碼器,另一個是解碼器。編碼器也可以將輸入轉(zhuǎn)換為壓縮的隱藏向量被稱為潛在表示,而解碼器基于此潛在表示重構(gòu)輸入使重建損失最小化。受去噪自動編碼器的啟發(fā),Ngiam等人[13]將自動編碼器擴展到多模態(tài)。他們訓(xùn)練了一個雙模深度自動編碼器來學(xué)習(xí)音頻和視頻模式的共享表示。在該模型中,兩個分離的自動編碼器組合在公共潛在表示層中,同時保持其編碼器和解碼器獨立。
3.3生成對抗網(wǎng)絡(luò)
生成對抗網(wǎng)絡(luò)(GAN)是一種新興的深度對抗網(wǎng)絡(luò)學(xué)習(xí)技巧。作為一種無監(jiān)督的學(xué)習(xí)方法,它可以在不涉及標簽的情況下學(xué)習(xí)數(shù)據(jù)表示,這將顯著降低對手動注釋的依賴性。此外,作為一種生成方法,它可以根據(jù)訓(xùn)練數(shù)據(jù)的分布生成高質(zhì)量的新樣本。自2014年以來,在Goodfellow等人[14]提出后,生成性對抗學(xué)習(xí)策略已成功應(yīng)用于各種單模態(tài)應(yīng)用。最著名的應(yīng)用之一是圖像合成,它根據(jù)隨機輸入生成高質(zhì)量圖像從正態(tài)分布中提取。其他成功的例子包括圖像到圖像的轉(zhuǎn)換和圖像超分辨率。最近,生成對抗性學(xué)習(xí)策略進一步擴展到多模態(tài)情況,如文本到圖像合成、視覺字幕、跨模態(tài)檢索、多模態(tài)特征融合和多模態(tài)講故事。
一般來說,生成對抗網(wǎng)絡(luò)由兩個部分組成,一個生成網(wǎng)絡(luò)G作為生成器,另一個判別網(wǎng)絡(luò)D作為鑒別器,相互競爭。網(wǎng)絡(luò)G負責(zé)根據(jù)學(xué)習(xí)到的數(shù)據(jù)分布生成新樣本。而網(wǎng)絡(luò)D旨在區(qū)分網(wǎng)絡(luò)G生成的實例與從訓(xùn)練集中采樣的項目之間的差異。通常,G和D這兩個分量都是通過深度神經(jīng)網(wǎng)絡(luò)實現(xiàn)的,如圖2所示。
與經(jīng)典的表示學(xué)習(xí)方法相比,GANs的一個明顯區(qū)別在于數(shù)據(jù)表示的學(xué)習(xí)過程并不簡單。這是一種隱含的范式。與傳統(tǒng)的無監(jiān)督表示方法(如自動編碼器)不同,GANs直接學(xué)習(xí)從數(shù)據(jù)到潛在變量的映射,而GANs學(xué)習(xí)從潛在變量到數(shù)據(jù)樣本的反向映射。具體地說,生成器將隨機向量映射到獨特的樣本中。因此,該隨機信號是對應(yīng)于生成的數(shù)據(jù)的表示。在隨機信號概率很好地擬合真實數(shù)據(jù)概率的條件下,該隨機信號對于真實的訓(xùn)練數(shù)據(jù)是足夠好的表示。
4結(jié)論和未來展望
在本文中,提供了一個全面的調(diào)查,深入研究多模態(tài)表征學(xué)習(xí)。根據(jù)整合不同模態(tài)的底層結(jié)構(gòu)分為三類框架:聯(lián)合表示、編解碼器表示和協(xié)同表示。此外,總結(jié)了該領(lǐng)域的一些典型模型,從傳統(tǒng)模型到新開發(fā)的技術(shù),包括概率圖模型、多模態(tài)自動編碼器、生成對抗網(wǎng)絡(luò)等。
長期以來,雖然注意力機制可以部分解決多模態(tài)表征學(xué)習(xí)的語義沖突、重復(fù)和噪聲等問題,但它們是隱性的,不能有計劃的可度量的主動控制。為此,可以通過推理機制,將能夠主動選擇急需的證據(jù),并在減輕這些問題的影響方面發(fā)揮重要作用??梢灶A(yù)測,表征學(xué)習(xí)及其推理機制的緊密結(jié)合將賦予機器智能認知能力。
參考文獻:
[1] LeCun Y,BengioY,Hinton G.Deep learning[J].Nature,2015,521(7553):436-444.
[2] LeCun Y,Bottou L,Bengio Y,etal.Gradient-based learning applied to document recognition[J].ProceedingsoftheIEEE,1998,86(11):2278-2324.[LinkOut]
[3] A. Krizhevsky,I.Sutskever,and G.E. Hinton,“ImageNet classification with deep convolutional neural networks”[C]//in Proc. Adv. Neural Inf.Process. Syst., 2012:1097–1105.
[4]Szegedy C,LiuW,Jia YQ,et al.Going deeper with convolutions[C]//2015IEEEConferenceonComputerVisionand Pattern Recognition.June7-12,2015,Boston,MA.IEEE,2015:1-9.
[5]K.Simonyanand A.Zisserman,“Very deep convolutional networks for large-scale image recognition”[C]//in Proc. Int. Conf. Learn. Represent.,2015:1-14.
[6] He K M,Zhang X Y,Ren S Q,etal.Deep residual learning for image recognition[C]//2016IEEEConferenceonComputerVisionand Pattern Recognition.June27-30,2016,LasVegas,NV,USA.IEEE,2016:770-778.
[7] T. Mikolov, K. Chen, G. Corrado, and J. Dean. (2013).“Efficient estimation of word representations in vector space.”[Online]. Available:https://arxiv.org/abs/1301.3781.
[8] Pennington J,Socher R,Manning C.Glove:global vectors for word representation[C]//Proceedingsofthe2014 Conference on Empirical Methods in Natural LanguageProcessing (EMNLP).Doha,Qatar.Stroudsburg,PA,USA:AssociationforComputational Linguistics,2014:1532-1543.
[9] Zadeh A,Chen M H,PoriaS,etal.Tensor fusion network for multimodal sentiment analysis[C]//Proceedingsofthe2017 Conference on Empirical Methods in Natural LanguageProcessing.Copenhagen,Denmark.Stroudsburg,PA,USA:AssociationforComputational Linguistics,2017:1103-1114.
[10] Peng Y X,Qi J W,Yuan Y X.Modality-specific cross-modal similarity measurement with recurrent attention network[J].IEEE Transactions on Image Processing,2018,27(11):5585-5599.
[11] Mor N,Wolf L,Polyak A,etal.A universal music translation network[EB/OL].2018:arXiv:1805.07848[cs.SD].https://arxiv.org/abs/1805.07848
[12] N. Srivastava and R. Salakhutdinov.“Learning representations for multimodal data with deep belief nets”[C]//in Proc. Int. Conf. Mach. Learn. Workshop, vol. 79, 2012:1-8.
[13] J. Ngiam, A. Khosla, M. Kim, J,et al.‘‘Multimodal deep learning,’’ in Proc. 28th Int. Conf. Mach. Learn., 2011: 689-696.
[14] I. J. Goodfellow et al., “Generative adversarial nets,” in Proc. 27th Int. Conf. Neural Inf. Process. Syst. (NIPS), vol. 2. Cambridge, MA, USA: MIT Press, 2014:2672-2680.
[15] Feng F X,Li R F,Wang X J.Deep correspondence restricted Boltzmann machine for cross-modal retrieval[J].Neurocomputing,2015,154:50-60.
【通聯(lián)編輯:梁書】