陳 鵬,李 擎?,張德政,楊宇航,蔡 錚,陸子怡
1) 北京科技大學(xué)自動(dòng)化學(xué)院,北京 100083 2) 工業(yè)過(guò)程知識(shí)自動(dòng)化教育部重點(diǎn)實(shí)驗(yàn)室,北京 100083 3) 北京科技大學(xué)計(jì)算機(jī)與通信工程學(xué)院,北京 100083 4) 材料領(lǐng)域知識(shí)工程北京市重點(diǎn)實(shí)驗(yàn)室,北京 100083
早在公元前4世紀(jì),多模態(tài)的相關(guān)概念和理論即被哲學(xué)家和藝術(shù)家所提出,用以定義融合不同內(nèi)容的表達(dá)形式與修辭方法[1-2].20世紀(jì)以來(lái),這一概念被語(yǔ)言學(xué)家更為廣泛地應(yīng)用于教育學(xué)和認(rèn)知科學(xué)領(lǐng)域[3].近年來(lái),描述相同、相關(guān)對(duì)象的多源數(shù)據(jù)在互聯(lián)網(wǎng)場(chǎng)景中呈指數(shù)級(jí)增長(zhǎng),多模態(tài)已成為新時(shí)期信息資源的主要形式.
人類(lèi)的認(rèn)知過(guò)程是多模態(tài)的.個(gè)體對(duì)場(chǎng)景進(jìn)行感知時(shí)往往能快速地接受視覺(jué)、聽(tīng)覺(jué)乃至嗅覺(jué)、觸覺(jué)的信號(hào),進(jìn)而對(duì)其進(jìn)行融合處理和語(yǔ)義理解.多模態(tài)機(jī)器學(xué)習(xí)方法更貼近人類(lèi)認(rèn)識(shí)世界的形式.本文首先介紹了多模態(tài)的概念與基本任務(wù),分析了多模態(tài)認(rèn)知學(xué)習(xí)的起源與發(fā)展.結(jié)合互聯(lián)網(wǎng)大數(shù)據(jù)形態(tài),本文重點(diǎn)綜述了多模態(tài)統(tǒng)計(jì)學(xué)習(xí)方法、深度學(xué)習(xí)方法與對(duì)抗學(xué)習(xí)方法.
本文主要采用了新加坡國(guó)立大學(xué)O′Halloran對(duì)“模態(tài)”的定義,即相較于圖像、語(yǔ)音、文本等多媒體(Multi-media)數(shù)據(jù)劃分形式,“模態(tài)”是一個(gè)更為細(xì)粒度的概念,同一媒介下可存在不同的模態(tài)[4].概括來(lái)說(shuō),“多模態(tài)”可能有以下三種形式.
(1)描述同一對(duì)象的多媒體數(shù)據(jù).如互聯(lián)網(wǎng)環(huán)境下描述某一特定對(duì)象的視頻、圖片、語(yǔ)音、文本等信息.圖1即為典型的多模態(tài)信息形式.
(2)來(lái)自不同傳感器的同一類(lèi)媒體數(shù)據(jù).如醫(yī)學(xué)影像學(xué)中不同的檢查設(shè)備所產(chǎn)生的圖像數(shù)據(jù),包括B超(B-Scan ultrasonography)、計(jì)算機(jī)斷層掃描(CT)、核磁共振等;物聯(lián)網(wǎng)背景下不同傳感器所檢測(cè)到的同一對(duì)象數(shù)據(jù)等.
(3)具有不同的數(shù)據(jù)結(jié)構(gòu)特點(diǎn)、表示形式的表意符號(hào)與信息.如描述同一對(duì)象的結(jié)構(gòu)化、非結(jié)構(gòu)化的數(shù)據(jù)單元;描述同一數(shù)學(xué)概念的公式、邏輯符號(hào)、函數(shù)圖及解釋性文本;描述同一語(yǔ)義的詞向量、詞袋、知識(shí)圖譜以及其它語(yǔ)義符號(hào)單元等[5].
因此,從語(yǔ)義感知的角度切入,多模態(tài)數(shù)據(jù)涉及不同的感知通道如視覺(jué)、聽(tīng)覺(jué)、觸覺(jué)、嗅覺(jué)所接收到的信息;在數(shù)據(jù)層面理解,多模態(tài)數(shù)據(jù)則可被看作多種數(shù)據(jù)類(lèi)型的組合,如圖片、數(shù)值、文本、符號(hào)、音頻、時(shí)間序列,或者集合、樹(shù)、圖等不同數(shù)據(jù)結(jié)構(gòu)所組成的復(fù)合數(shù)據(jù)形式,乃至來(lái)自不同數(shù)據(jù)庫(kù)、不同知識(shí)庫(kù)的各種信息資源的組合.對(duì)多源異構(gòu)數(shù)據(jù)的挖掘分析可被理解為“多模態(tài)學(xué)習(xí)(Multimodal machine learning)”,其相關(guān)概念有“多視角學(xué)習(xí)”和“多傳感器信息融合”.來(lái)自不同數(shù)據(jù)源或由不同特征子集構(gòu)成的數(shù)據(jù)被稱作多視角數(shù)據(jù),每個(gè)數(shù)據(jù)源、每種數(shù)據(jù)類(lèi)型均可被看作一個(gè)視角.卡內(nèi)基梅隆大學(xué)的Morency在ACL2017(The 55th Annual Meeting of the Association for Computational Linguistics,CCF A類(lèi)會(huì)議)的Tutorial報(bào)告[6]中,將大量的多視角學(xué)習(xí)方法歸類(lèi)為多模態(tài)機(jī)器學(xué)習(xí)算法.筆者認(rèn)為,“多視角學(xué)習(xí)”強(qiáng)調(diào)對(duì)數(shù)據(jù)“視角”的歸納和分析,“多模態(tài)學(xué)習(xí)”則側(cè)重“模態(tài)”感知和通道.“視角”和“模態(tài)”的概念是相通的,一個(gè)模態(tài)即可被視作一個(gè)視角.“多傳感器信息融合(Multi-sensor information fusion)”為在物理層面與“多模態(tài)學(xué)習(xí)”相關(guān)的術(shù)語(yǔ),即對(duì)不同傳感器采集的數(shù)據(jù)進(jìn)行綜合利用,其典型應(yīng)用場(chǎng)景有物聯(lián)網(wǎng)、自動(dòng)駕駛等.
圖1 “下雪”場(chǎng)景的多模態(tài)數(shù)據(jù)(圖像、音頻與文本)Fig.1 Multimodal data for a “snow” scene (images, sound and text)
多模態(tài)學(xué)習(xí)的基本任務(wù)可包括以下幾個(gè)方面.
多源數(shù)據(jù)分類(lèi):?jiǎn)文B(tài)的分類(lèi)問(wèn)題只關(guān)注對(duì)一類(lèi)特定數(shù)據(jù)的分析和處理,相較于單一通道,多模態(tài)數(shù)據(jù)更接近大數(shù)據(jù)背景下信息流真實(shí)的形態(tài),具有全面性和復(fù)雜性.
多模態(tài)情感分析:情感分析問(wèn)題的本質(zhì)也是分類(lèi)問(wèn)題,與常規(guī)分類(lèi)問(wèn)題不同,情感分類(lèi)問(wèn)題所提取的特征往往帶有明確的情緒信號(hào);從多模態(tài)的角度分析,網(wǎng)絡(luò)社交場(chǎng)景中所衍生的大量圖片、文本、表情符號(hào)及音頻信息均帶有情感傾向.
多模態(tài)語(yǔ)義計(jì)算:語(yǔ)義分析是對(duì)數(shù)據(jù)更為高層次的處理,理想狀態(tài)下,計(jì)算機(jī)能夠處理一個(gè)特定場(chǎng)景下不同數(shù)據(jù)的概念關(guān)系、邏輯結(jié)構(gòu),進(jìn)而理解不同數(shù)據(jù)中隱含的高層語(yǔ)義;對(duì)這種高層語(yǔ)義的理解是有效進(jìn)行推理決策的前提.
跨模態(tài)樣本匹配:現(xiàn)階段,最常見(jiàn)的跨模態(tài)信息匹配即為圖像、文本的匹配,如Flickr30k[7]數(shù)據(jù)集中的實(shí)例;圖像文本匹配任務(wù)為較為復(fù)雜的機(jī)器學(xué)習(xí)任務(wù),這一任務(wù)的核心在于分別對(duì)圖像、文本的特征進(jìn)行合理表示、編碼,進(jìn)而準(zhǔn)確度量其相似性.
跨模態(tài)檢索:在檢索任務(wù)中,除了實(shí)現(xiàn)匹配外,還要求快速的響應(yīng)速度以及正確的排序;多模態(tài)信息檢索通過(guò)對(duì)異構(gòu)數(shù)據(jù)進(jìn)行加工,如直接對(duì)圖片進(jìn)行語(yǔ)義分析,在有效特征匹配的情況下對(duì)圖片采用基于內(nèi)容的自動(dòng)檢索形式;為適應(yīng)快速檢索的需要,哈希方法被引入多模態(tài)信息檢索任務(wù)中,跨模態(tài)哈希方法將不同模態(tài)的高維數(shù)據(jù)映射到低維的海明空間,有效減小了數(shù)據(jù)存儲(chǔ)空間,提高了計(jì)算速度.
跨模態(tài)樣本生成:跨模態(tài)生成任務(wù)可以有效構(gòu)造多模態(tài)訓(xùn)練數(shù)據(jù),同時(shí)有助于提高跨模態(tài)匹配與翻譯的效果,目前由圖像到文本(如圖像語(yǔ)義自動(dòng)標(biāo)注)、圖像到圖像(如圖片風(fēng)格遷移)的生成任務(wù)發(fā)展較為成熟,由文本到圖像的生成任務(wù)則較為新穎.
多模態(tài)人機(jī)對(duì)話:即在基本對(duì)話(文本模態(tài))生成任務(wù)的基礎(chǔ)上,進(jìn)一步對(duì)人的表情、語(yǔ)調(diào)、姿勢(shì)等多模態(tài)信息進(jìn)行采集,采用模態(tài)融合的方法對(duì)多模態(tài)信號(hào)進(jìn)行分析處理.多模態(tài)人機(jī)對(duì)話的理想狀態(tài)是在有效感知多模態(tài)信號(hào)的前提下給出擬人化的多模態(tài)輸出,構(gòu)建更為智能、溝通更加順暢的人機(jī)交互形式.
多模態(tài)信息融合:多模態(tài)融合要求對(duì)多源數(shù)據(jù)進(jìn)行綜合有效地篩選和利用,實(shí)現(xiàn)集成化感知與決策的目的,常見(jiàn)的信息融合方式有物理層融合、特征層融合、決策層融合幾個(gè)類(lèi)型.物理層融合指在感知的第一階段,在傳感器層級(jí)對(duì)采集到的數(shù)據(jù)進(jìn)行融合處理,這種處理方式可被概括為多傳感器信息融合(Multi-sensor information fusion),是工業(yè)生產(chǎn)場(chǎng)景中極為常見(jiàn)的信息融合方法;特征層融合指在特征抽取和表達(dá)的層級(jí)對(duì)信息進(jìn)行融合,如對(duì)同一場(chǎng)景中不容攝像頭采集到的圖像采用相同的特征表達(dá)形式,進(jìn)而進(jìn)行相應(yīng)的疊加計(jì)算;決策層融合指對(duì)不同模態(tài)的感知模型所輸出的結(jié)果進(jìn)行融合,這種融合方式具有較好的抗干擾性能,對(duì)于傳感器性能和種類(lèi)要求相對(duì)不高,但具有較大的信息損耗.
隨著計(jì)算機(jī)技術(shù)的發(fā)展,多模態(tài)認(rèn)知的概念從傳統(tǒng)的教育學(xué)、心理學(xué)、語(yǔ)言學(xué)的范疇拓展至信息科學(xué)領(lǐng)域.20世紀(jì)60~70年代,科學(xué)家利用符號(hào)和邏輯結(jié)構(gòu)模擬人類(lèi)的思維邏輯,如利用語(yǔ)法樹(shù)分析文本信息[8],利用規(guī)則庫(kù)構(gòu)建專家決策系統(tǒng)[9].由于人類(lèi)認(rèn)知過(guò)程的復(fù)雜性與流動(dòng)性,有效、實(shí)時(shí)地制定邏輯結(jié)構(gòu)和規(guī)則形式成為制約“符號(hào)主義”認(rèn)知智能的主要因素.
20世紀(jì)80年代至21世紀(jì)初,統(tǒng)計(jì)機(jī)器學(xué)習(xí)方法在智能信息處理的各個(gè)領(lǐng)域取得了令人矚目的成就.Cortes和Vapnik提出的支持向量機(jī)模型可以快速、準(zhǔn)確地處理高維、非線性的模式識(shí)別問(wèn)題[10];Pearl所構(gòu)建的概率圖模型賦予了計(jì)算機(jī)依據(jù)概率推理的能力[11];進(jìn)一步地,Jelinek將信息論與隱馬爾科夫模型引入語(yǔ)音識(shí)別與自然語(yǔ)言處理領(lǐng)域,奠定了近代統(tǒng)計(jì)自然語(yǔ)言處理學(xué)派的根基,使自然語(yǔ)言處理的工程化應(yīng)用成為可能[12].
在這一階段,受麥格克效應(yīng)的啟發(fā)[13],許多計(jì)算機(jī)科學(xué)家致力于構(gòu)建基于視覺(jué)信號(hào)和聲音信號(hào)的多模態(tài)語(yǔ)音識(shí)別系統(tǒng),如唇語(yǔ)-聲音語(yǔ)音識(shí)別系統(tǒng)[14],有效提高了識(shí)別準(zhǔn)確率.這一時(shí)期的多模態(tài)信息系統(tǒng)還被應(yīng)用于人機(jī)交互場(chǎng)景,如Fels等提出的Glove-talk框架(1992年)采用5個(gè)多層神經(jīng)網(wǎng)絡(luò)實(shí)現(xiàn)對(duì)手勢(shì)、聲音、語(yǔ)義的機(jī)器感知[15].這一神經(jīng)網(wǎng)絡(luò)模型的結(jié)構(gòu)還比較簡(jiǎn)單,其采用的后向傳播訓(xùn)練方法易出現(xiàn)過(guò)擬合現(xiàn)象,因而無(wú)法對(duì)復(fù)雜的大規(guī)模數(shù)據(jù)進(jìn)行處理.
2010年至今,隨著Dropout訓(xùn)練模式[16]的提出、Relu激活函數(shù)[17]的引入乃至深度殘差結(jié)構(gòu)[18]對(duì)網(wǎng)絡(luò)的調(diào)整,深度神經(jīng)網(wǎng)絡(luò)在許多單一模態(tài)的感知型機(jī)器學(xué)習(xí)任務(wù)中取得了優(yōu)于傳統(tǒng)方法的效果.以AlexNet[19]、ResNet[18]、GoogleNet[20]為代表的改進(jìn)卷積神經(jīng)網(wǎng)絡(luò)(Convolutional neural network,CNN)模型在ImageNet[21]圖像分類(lèi)任務(wù)中甚至取得了超過(guò)人類(lèi)的表現(xiàn);長(zhǎng)短記憶模型(Long short term memory,LSTM)和條件隨機(jī)場(chǎng)(Conditional random field,CRF)的組合結(jié)構(gòu)在自然語(yǔ)言序列標(biāo)注特別是命名實(shí)體識(shí)別任務(wù)中實(shí)現(xiàn)了極為成功的商業(yè)化、工程化應(yīng)用[22].多模態(tài)深度學(xué)習(xí)已成為人工智能領(lǐng)域的熱點(diǎn)問(wèn)題.Ngiam等在ICML2011(28th International Conference on Machine Learning)的大會(huì)論文中對(duì)多模態(tài)深度學(xué)習(xí)進(jìn)行了前瞻性的綜述,而這一階段的深度學(xué)習(xí)主要網(wǎng)絡(luò)結(jié)構(gòu)為深度玻爾茲曼機(jī)(Deep boltzmann machines)[23].卡內(nèi)基梅隆大學(xué)的Baltrusaitis等也開(kāi)展了大量的多模態(tài)深度學(xué)習(xí)研究[24].
在國(guó)內(nèi),北京交通大學(xué)的Zhang等[25],北京郵電大學(xué)的Wang等在跨模態(tài)信息匹配和檢索領(lǐng)域開(kāi)展了許多卓有成效的工作[26];清華大學(xué)的Liu等對(duì)視覺(jué)模態(tài)、觸覺(jué)模態(tài)的數(shù)據(jù)展開(kāi)研究,并將其應(yīng)用于機(jī)器人綜合感知場(chǎng)景[27];清華大學(xué)的Fu等則在圖像語(yǔ)義標(biāo)注領(lǐng)域取得了若干突破[28].
在人工智能技術(shù)突飛猛進(jìn)的今天,開(kāi)展數(shù)據(jù)驅(qū)動(dòng)的多模態(tài)學(xué)習(xí)方法研究,能夠取得更為全面有效的解決方案.對(duì)多模態(tài)數(shù)據(jù)的分析處理可采用機(jī)器學(xué)習(xí)手段來(lái)完成,處理多模態(tài)數(shù)據(jù)的機(jī)器學(xué)習(xí)方法即可被視為多模態(tài)學(xué)習(xí)方法.機(jī)器學(xué)習(xí)是利用數(shù)據(jù)優(yōu)化算法的一種人工智能手段,它涵蓋統(tǒng)計(jì)學(xué)習(xí)與深度學(xué)習(xí)等方法.近幾年,對(duì)抗學(xué)習(xí)技術(shù)被廣泛地應(yīng)用于跨模態(tài)匹配和生成任務(wù)中,并取得了令人矚目的效果.后文將分別對(duì)多模態(tài)統(tǒng)計(jì)學(xué)習(xí)方法、多模態(tài)深度學(xué)習(xí)方法、多模態(tài)對(duì)抗學(xué)習(xí)方法進(jìn)行綜述與分析.
廣義的統(tǒng)計(jì)學(xué)習(xí)(Statistical learning)即采用統(tǒng)計(jì)學(xué)的相關(guān)理論,賦予計(jì)算機(jī)處理數(shù)據(jù)能力的機(jī)器學(xué)習(xí)方法.如統(tǒng)計(jì)學(xué)家和數(shù)學(xué)家Breiman提出的隨機(jī)森林(Random forest)算法[29],Breiman和Friedman等一同提出的分類(lèi)回歸樹(shù)(Classification and regression trees, CART)算法[30],Cortes和Vapnik提出的支持向量機(jī)(Support vector machine, SVM)算法[10]等.統(tǒng)計(jì)學(xué)習(xí)方法和經(jīng)典機(jī)器學(xué)習(xí)方法在概念上是基本重合的.上述統(tǒng)計(jì)學(xué)習(xí)界的領(lǐng)軍學(xué)者分別在不同角度完善了該領(lǐng)域的基本概念和理論體系.如Breiman在數(shù)據(jù)建模和算法建模兩個(gè)角度重新解讀了機(jī)器學(xué)習(xí)的建模方式,即數(shù)據(jù)建模方式往往預(yù)設(shè)數(shù)據(jù)符合某種分布形式,如線性回歸、邏輯回歸等,進(jìn)而進(jìn)行參數(shù)估計(jì)和假設(shè)推斷;而算法建模則試圖通過(guò)算法去直接尋找映射函數(shù)以達(dá)到由輸入預(yù)測(cè)輸出的目的,如決策樹(shù)與神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)[31].Vapnik和Cervonenkis歸納了他的VC(Vapnik-Chervonenkis dimension)維理論,不僅對(duì)典型的分類(lèi)器模型與這些模型所能區(qū)分的集合大小進(jìn)行系統(tǒng)總結(jié),還給出了對(duì)模型最大分類(lèi)能力進(jìn)行分析的有效方法[32].
受計(jì)算資源等因素的制約,統(tǒng)計(jì)學(xué)習(xí)方法的處理樣本往往是中小規(guī)模的數(shù)據(jù)集,在許多任務(wù)(如圖像處理和自然語(yǔ)言處理任務(wù))的處理過(guò)程中,需要人參與的特征處理過(guò)程.多模態(tài)機(jī)器學(xué)習(xí)技術(shù)是伴隨著統(tǒng)計(jì)學(xué)習(xí)理論的完備、大量新穎有效的統(tǒng)計(jì)學(xué)習(xí)方法的提出逐漸發(fā)展的.本節(jié)將結(jié)合多模態(tài)數(shù)據(jù)的特點(diǎn),對(duì)相應(yīng)的統(tǒng)計(jì)學(xué)習(xí)方法進(jìn)行介紹.
核學(xué)習(xí)(Kernel learning)方法是一種將低維不可分樣本通過(guò)核映射的方式映射到高維非線性空間,實(shí)現(xiàn)對(duì)樣本有效分類(lèi)的方法[33],如圖2所示.核學(xué)習(xí)方法是支持向量機(jī)(SVM)算法的有力理論支撐,也隨著支持向量機(jī)的廣泛應(yīng)用被研究者和工程技術(shù)人員所關(guān)注.事實(shí)上,早在1909年,英國(guó)數(shù)學(xué)家Mercer即提出了其重要的Mercer定理,即任何半正定的函數(shù)都可作為核函數(shù),奠定了核學(xué)習(xí)方法的理論基礎(chǔ)[34].在Mercer定理的基礎(chǔ)上,波蘭裔美國(guó)數(shù)學(xué)家Aronszajn進(jìn)一步發(fā)展了再生核希爾伯特空間理論,使其能夠被引入到模式識(shí)別任務(wù)中[35].
圖2 多核學(xué)習(xí)Fig.2 Multi-kernel learning
多核學(xué)習(xí)方法為不同模態(tài)的數(shù)據(jù)和屬性選取不同的核函數(shù),進(jìn)而采用特定方法對(duì)不同核函數(shù)進(jìn)行融合.目前,隨著多核學(xué)習(xí)方法被深入研究并應(yīng)用于不同的場(chǎng)景,不同形式的核函數(shù)及其改進(jìn)形式被提出.如對(duì)于數(shù)值型數(shù)據(jù)的分類(lèi)問(wèn)題,高斯核具有較好的處理效果[36];字符串核對(duì)序列型問(wèn)題的分類(lèi)處理(如文本、音頻、基因表達(dá)等)具有較大的優(yōu)勢(shì)[37];對(duì)于人臉識(shí)別問(wèn)題和行人識(shí)別問(wèn)題,則可以采用直方圖交叉核[38].
多核學(xué)習(xí)方法可以較好地處理異構(gòu)數(shù)據(jù)的分類(lèi)和識(shí)別問(wèn)題.早期的多核數(shù)據(jù)融合方法多采用對(duì)不同核進(jìn)行線性疊加組合的形式,為生物醫(yī)學(xué)工程領(lǐng)域許多問(wèn)題的求解(如基因功能分析、蛋白質(zhì)功能預(yù)測(cè)與定位等)提供了有力的解決方案[39].線性疊加的核融合方式具有機(jī)理簡(jiǎn)單、可解釋性強(qiáng)、計(jì)算速度快等優(yōu)勢(shì),但其疊加系數(shù)往往較難確定,在疊加的同時(shí)可能造成一定的信息損失.文獻(xiàn)[40]提出采用“核組合”的方式解決該問(wèn)題,即將不同的核矩陣組合,構(gòu)成一個(gè)更高維的矩陣作為新的核矩陣完成映射與分類(lèi)的任務(wù).文獻(xiàn)[41]提出了一種改進(jìn)的判別函數(shù),并采用梯度下降法優(yōu)化該表達(dá)式中的核參數(shù).文獻(xiàn)[42]則采用粒子群優(yōu)化算法對(duì)核參數(shù)進(jìn)行優(yōu)化選擇.
典型相關(guān)性分析(Canonical correlation analysis,CCA)是一種用途廣泛的統(tǒng)計(jì)學(xué)分析算法,由Hotelling于1935年提出[43],并由Cooley和Lohnes推動(dòng)其發(fā)展[44].在多模態(tài)領(lǐng)域,CCA被廣泛地應(yīng)用于度量?jī)煞N模態(tài)信息之間的相關(guān)特征,并在計(jì)算中盡可能保持這種相關(guān)性.
CCA算法的本質(zhì)是一種線性映射,采用CCA對(duì)復(fù)雜的非線性多模態(tài)信息進(jìn)行擬合可能造成信息的損耗.在CCA的基礎(chǔ)上,Akaho提出了與核方法結(jié)合的非線性的Kernel CCA算法[45].CCA的其他改進(jìn)形式還有判別典型相關(guān)分析(Discriminant canonical correlation analysis, DCCA)[46]、稀疏典型相關(guān)分析(Sparse discriminant canonical correlation analysis, SCCA)等[47].
在高層語(yǔ)義空間中,多源數(shù)據(jù)具有較強(qiáng)的相關(guān)性.對(duì)于底層的特征表示,不同來(lái)源的數(shù)據(jù)往往具有較大差別.共享子空間學(xué)習(xí)對(duì)多源數(shù)據(jù)的相關(guān)關(guān)系進(jìn)行挖掘,得到多模態(tài)特征的一致性表示,如圖3所示.
共享子空間學(xué)習(xí)可通過(guò)投影的方式實(shí)現(xiàn),最常見(jiàn)的投影方法即2.2節(jié)中給出的CCA方法及其改進(jìn)形式.SVM-2K算法是投影型共享子空間學(xué)習(xí)的典型算法,該算法結(jié)合SVM與Kernel CCA[45]對(duì)兩個(gè)模態(tài)的特征進(jìn)行有效映射、表示和整合[48].張量分析及因子分解也是典型的共享子空間學(xué)習(xí)方法,這種方法的主要思想是將一個(gè)模態(tài)的信息看作一階張量,通過(guò)因子分解、判別式分析等形式實(shí)現(xiàn)降維并對(duì)特征進(jìn)行相關(guān)表示,其典型方法為聯(lián)合共享非負(fù)矩陣分解(Joint shared nnnegative matrix factorization, JSNMF)算法[49].從任務(wù)驅(qū)動(dòng)的角度來(lái)分類(lèi),典型的共享子空間學(xué)習(xí)方法還有基于多任務(wù)學(xué)習(xí)的共享子空間學(xué)習(xí)方法[50]、基于多標(biāo)簽學(xué)習(xí)的共享子空間學(xué)習(xí)方法等[51].
圖3 共享子空間學(xué)習(xí)Fig.3 Common subspace learning
基于統(tǒng)計(jì)學(xué)習(xí)的子空間投影的形式相對(duì)簡(jiǎn)單,難以處理較為復(fù)雜的語(yǔ)義感知任務(wù),對(duì)于相似模態(tài)的數(shù)據(jù)(如不同傳感器的圖像數(shù)據(jù))優(yōu)勢(shì)明顯,但在跨度較大的模態(tài)上表現(xiàn)不佳.近年來(lái),隨著深度學(xué)習(xí)的興起,許多研究者將深度學(xué)習(xí)模型應(yīng)用于多源信息處理領(lǐng)域.從結(jié)果上來(lái)看,絕大多數(shù)的深度學(xué)習(xí)多源信息處理方法將不同模態(tài)的數(shù)據(jù)通過(guò)深度神經(jīng)網(wǎng)絡(luò)特征學(xué)習(xí)映射到了同一個(gè)共享子空間,因此深度學(xué)習(xí)方法也可被視為共享子空間學(xué)習(xí).對(duì)該方法將在第三部分中作進(jìn)一步的介紹.
協(xié)同訓(xùn)練(Co-training)是一種典型的弱監(jiān)督學(xué)習(xí)方法,該方法由Blum和Mitchel于1998年提出[52].在多模態(tài)數(shù)據(jù)處理領(lǐng)域,它的大致思想是分別采用兩個(gè)模態(tài)的有標(biāo)簽數(shù)據(jù)X1、X2訓(xùn)練兩個(gè)分類(lèi)器,進(jìn)而用這兩個(gè)分類(lèi)器對(duì)各自模態(tài)內(nèi)的無(wú)標(biāo)簽數(shù)據(jù)進(jìn)行處理.在此基礎(chǔ)上,將分類(lèi)結(jié)果中達(dá)到一定置信度的樣本作為訓(xùn)練集的補(bǔ)充,擴(kuò)大訓(xùn)練集規(guī)模,進(jìn)一步對(duì)分類(lèi)器進(jìn)行訓(xùn)練.在滿足一定停止條件,如達(dá)到一定迭代代數(shù)后,將兩個(gè)分類(lèi)器的訓(xùn)練數(shù)據(jù)進(jìn)行交換,即采用X1模態(tài)中的數(shù)據(jù)對(duì)分類(lèi)器2(Classifier2)進(jìn)行訓(xùn)練,同時(shí)采用X2中的數(shù)據(jù)對(duì)分類(lèi)器1(Classifier1)進(jìn)行訓(xùn)練.協(xié)同訓(xùn)練的原理圖如圖4所示.這種聯(lián)合訓(xùn)練方法使分類(lèi)器學(xué)習(xí)到不同數(shù)據(jù)源中盡可能多的知識(shí),同時(shí)具備了較好的泛化性能.協(xié)同訓(xùn)練假定數(shù)據(jù)集滿足三個(gè)條件:1)數(shù)據(jù)之間相互獨(dú)立;2)單一模態(tài)內(nèi)的數(shù)據(jù)均能完整地對(duì)對(duì)象進(jìn)行描述;3)存在充分的樣本對(duì)分類(lèi)器進(jìn)行訓(xùn)練.然而在實(shí)際的應(yīng)用場(chǎng)景中,往往很難滿足上述的條件.研究者提出了多種改進(jìn)手段以提升協(xié)同訓(xùn)練的性能.
圖4 協(xié)同訓(xùn)練Fig.4 Co-training
文獻(xiàn)[53]在協(xié)同訓(xùn)練中改進(jìn)了多模態(tài)優(yōu)化函數(shù),從而更為精確地處理拼寫(xiě)與上下文間的一致性信息;文獻(xiàn)[54]將支持向量機(jī)和期望最大算法(Expectation maximization, EM)相結(jié)合提出Co-EM算法,提升多模態(tài)分析性能;文獻(xiàn)[55]在Co-EM的基礎(chǔ)上進(jìn)一步引入主動(dòng)學(xué)習(xí)(Active learning)策略,提高了算法的魯棒性.
基本的神經(jīng)網(wǎng)絡(luò)模型(淺層結(jié)構(gòu))可被歸納為一種特殊的統(tǒng)計(jì)學(xué)習(xí)方法.不同于支持向量機(jī)的核技巧采用核映射轉(zhuǎn)化問(wèn)題,神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)直接采用非線性映射(激活函數(shù))的形式擬合數(shù)據(jù)分布規(guī)律.神經(jīng)網(wǎng)絡(luò)是深度學(xué)習(xí)的起源,后者是對(duì)采用深度神經(jīng)網(wǎng)絡(luò)完成機(jī)器學(xué)習(xí)任務(wù)的各種機(jī)器學(xué)習(xí)方法的概括.近年來(lái),深度學(xué)習(xí)方法已成為推動(dòng)人工智能技術(shù)的主要力量.隱層大于1的神經(jīng)網(wǎng)絡(luò)即可被看作深度神經(jīng)網(wǎng)絡(luò),常見(jiàn)的深度神經(jīng)網(wǎng)絡(luò)模型有卷積神經(jīng)網(wǎng)絡(luò)(Convolutional neural networks,CNN)[56]、循環(huán)神經(jīng)網(wǎng)絡(luò)(Recurrent neural networks,RNN)[57]、深度信念網(wǎng)絡(luò)(Deep belief networks,DBN)[58]等.深度學(xué)習(xí)的發(fā)展建立在統(tǒng)計(jì)學(xué)習(xí)的高度繁榮之上,得益于不斷發(fā)展的互聯(lián)網(wǎng)技術(shù)積累了大量的數(shù)據(jù)資源,以及更為普及的高性能計(jì)算硬件.有別于統(tǒng)計(jì)學(xué)習(xí)依賴于專家知識(shí)來(lái)確定特征的限制,深度學(xué)習(xí)模型可以自動(dòng)地在數(shù)據(jù)中學(xué)習(xí)特征表示,從而能夠?qū)A繑?shù)據(jù)進(jìn)行處理,在一定程度上實(shí)現(xiàn)端到端的機(jī)器學(xué)習(xí)系統(tǒng).
Lécun于1998年提出了經(jīng)典卷積神經(jīng)網(wǎng)絡(luò)的雛形LeNet,并將其應(yīng)用于手寫(xiě)字符識(shí)別[56].針對(duì)CNN訓(xùn)練過(guò)程中的過(guò)擬合問(wèn)題,Srivastava等提出了Dropout方法,即在網(wǎng)絡(luò)結(jié)構(gòu)中以一定概率將某些神經(jīng)元暫時(shí)丟棄[16].這種方法被應(yīng)用于AlexNet[19]中.在AlexNet之后,改進(jìn)了的CNN結(jié)構(gòu)不斷刷新ImageNet圖像分類(lèi)的記錄.如牛津大學(xué)的VGG (Visual geometry group)[59]模型和Google公司的Inception[20]系列模型,在增加CNN網(wǎng)絡(luò)層數(shù)的同時(shí)設(shè)計(jì)了精巧豐富的卷積核結(jié)構(gòu),從而降低參數(shù)數(shù)量,提高訓(xùn)練速度.微軟公司的ResNet[40]模型引入殘差結(jié)構(gòu),有效解決了梯度消失問(wèn)題.在圖像分類(lèi)之外的計(jì)算機(jī)視覺(jué)任務(wù)中,CNN同樣取得了優(yōu)于經(jīng)典圖像處理方法的效果.如目標(biāo)檢測(cè)(Object detection)領(lǐng)域的Yolo(You only look once)模型[60],語(yǔ)義分割(Semantic segmentation)領(lǐng)域的FCNN(Fully convolutional networks)模型[61]等.有理由認(rèn)為,CNN及其改進(jìn)形式能夠較好地對(duì)視覺(jué)模態(tài)特征進(jìn)行表示和處理.
此外,對(duì)于文本數(shù)據(jù),CNN也體現(xiàn)出卓越的性能.文獻(xiàn)[62]采用CNN對(duì)短文本進(jìn)行分類(lèi),在保證可靠精度的同時(shí)提高分類(lèi)速度.文獻(xiàn)[63]提出基于序列的深度卷積語(yǔ)義分析模型,采用卷積結(jié)構(gòu)生成句子的向量化表示,進(jìn)而進(jìn)行深層分析.文獻(xiàn)[64]中也采用CNN對(duì)句子進(jìn)行建模,并將這種建模方法應(yīng)用于句子匹配.
近年來(lái),自然語(yǔ)言處理域的研究熱點(diǎn)正在從經(jīng)典的統(tǒng)計(jì)學(xué)習(xí)方法向深度學(xué)習(xí)方法轉(zhuǎn)變.典型的深度文本處理模型即循環(huán)神經(jīng)網(wǎng)絡(luò)(Recurrent neural network, RNN)結(jié)構(gòu)[57].該結(jié)構(gòu)源于蒙特利爾大學(xué)Bengio等于2003年提出的神經(jīng)語(yǔ)言模型[65].神經(jīng)語(yǔ)言模型實(shí)現(xiàn)了語(yǔ)言最基本的單元——詞的向量化表示.受文獻(xiàn)[65]啟發(fā),C&W詞向量[66]、Word2Vec詞向量[67]等文本表示模型相繼被提出.
神經(jīng)語(yǔ)言模型的提出使文本轉(zhuǎn)化為稠密的向量成為可能,已成為目前處理自然語(yǔ)言任務(wù)的主流算法.值得一提的是,文獻(xiàn)[65]至[67]中的文本表示及學(xué)習(xí)方法均為較為淺層的結(jié)構(gòu),其價(jià)值在于通過(guò)弱監(jiān)督、無(wú)監(jiān)督的手段得到文本的表示形式,進(jìn)而供較為深層的神經(jīng)網(wǎng)絡(luò)機(jī)器學(xué)習(xí)模型進(jìn)行挖掘分析.
在神經(jīng)語(yǔ)言模型的基礎(chǔ)上,大量的深度神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)被改良并進(jìn)一步應(yīng)用于自然語(yǔ)言處理任務(wù),如RNN[57]、LTSM[68]被廣泛地應(yīng)用于文本分類(lèi)[69]、實(shí)體識(shí)別[22]等任務(wù).由于RNN能夠出色地學(xué)習(xí)序列樣本中不同時(shí)刻的信息及其相互關(guān)系,RNN結(jié)構(gòu)在機(jī)器翻譯、對(duì)話生成等序列分析及序列生成任務(wù)中的優(yōu)勢(shì)極為突出[70].RNN的主要改進(jìn)形式為L(zhǎng)STM[68]和GRU(Gated recurrent unit)[71].這些變體在RNN中添加了特殊的“門(mén)”結(jié)構(gòu)來(lái)判斷信息的價(jià)值,進(jìn)而模擬人類(lèi)大腦的記憶和遺忘過(guò)程.在LSTM的基礎(chǔ)上,其雙向形式BiLSTM[72]、基于Attention的BiLSTM[73]相繼被提出.相較于經(jīng)典的RNN[57],LSTM[68]和GRU[71]可以更有效地對(duì)序列進(jìn)行建模,建立更為精確的語(yǔ)義依賴關(guān)系.在合理標(biāo)注的前提下,RNN結(jié)構(gòu)在自然語(yǔ)言實(shí)體識(shí)別任務(wù)中已實(shí)現(xiàn)了極為出色的工程應(yīng)用,其典型算法為L(zhǎng)STM+CRF,即通過(guò)LSTM提取深度特征,用條件隨機(jī)場(chǎng)(Conditional random field,CRF)模型進(jìn)行文本序列標(biāo)注[22].
此外,RNN還能很好地處理時(shí)間序列數(shù)據(jù),即對(duì)數(shù)值模態(tài)進(jìn)行分析預(yù)測(cè)[74].在語(yǔ)音識(shí)別領(lǐng)域,RNN是最為出色的算法之一[75].該模型還能夠出色地處理圖像標(biāo)注[76]、視頻解析[77]任務(wù).
通過(guò)上文分析,可以發(fā)現(xiàn)深度學(xué)習(xí)模型具有更好的跨模態(tài)適應(yīng)性.多模態(tài)深度學(xué)習(xí)始于Ngiam等發(fā)表于ICML 2011的《Multimodal Deep Learning》,文中的數(shù)據(jù)來(lái)源為視覺(jué)模態(tài)(唇語(yǔ))和音頻模態(tài),其構(gòu)建的深度學(xué)習(xí)模型以玻爾茲曼機(jī)(Restricted boltzmann machine,RBM)為基本單元,通過(guò)對(duì)視頻、音頻數(shù)據(jù)進(jìn)行編碼、聯(lián)合表示、學(xué)習(xí)和重構(gòu),實(shí)現(xiàn)對(duì)字母、數(shù)字的識(shí)別[23].
近年來(lái),已有很多卓有成效的多模態(tài)深度學(xué)習(xí)方法被提出.如文獻(xiàn)[76]在學(xué)習(xí)機(jī)制上進(jìn)行改良,即在對(duì)訓(xùn)練集進(jìn)行學(xué)習(xí)時(shí),不再構(gòu)建圖片-句子標(biāo)簽之間的映射關(guān)系,而是將圖片中的對(duì)象和句子中的實(shí)體匹配起來(lái),首先對(duì)圖片采取目標(biāo)檢測(cè)的任務(wù),進(jìn)而學(xué)習(xí)單詞和細(xì)粒度圖像區(qū)域之間的關(guān)系,在此基礎(chǔ)上生成標(biāo)注句子.這一方式簡(jiǎn)化了對(duì)Image-Caption任務(wù)的訓(xùn)練集標(biāo)注需求,即從句子簡(jiǎn)化為單詞.文獻(xiàn)[77]結(jié)合LSTM的特性,構(gòu)建了能夠?qū)Χ喾鶊D像或視頻內(nèi)容進(jìn)行理解和描述的深度神經(jīng)網(wǎng)絡(luò)框架,實(shí)現(xiàn)對(duì)視覺(jué)序列的文本描述.文獻(xiàn)[78]設(shè)計(jì)了CNN-LSTM混合編碼器對(duì)數(shù)據(jù)進(jìn)行編碼,進(jìn)而采用排序損失(Pairwise ranking loss)函數(shù)對(duì)數(shù)據(jù)進(jìn)行訓(xùn)練.文獻(xiàn)[79]借鑒了在基于RNN的機(jī)器翻譯任務(wù)中的研究進(jìn)展,用CNN替代RNN作為圖片的編碼器.在設(shè)計(jì)模型框架的同時(shí),該文還提出了得到相關(guān)細(xì)節(jié)描述的概率公式.文獻(xiàn)[80]設(shè)計(jì)了基于圖片的問(wèn)答模型,該模型能夠根據(jù)CNN編碼的圖片和問(wèn)題句子,生成正確的問(wèn)題答案.文獻(xiàn)[81]重點(diǎn)研究了采用CNN模型的基于內(nèi)容的圖片檢索問(wèn)題,并分析了深度卷積神經(jīng)網(wǎng)絡(luò)對(duì)高維語(yǔ)義特征的有效表達(dá)能力.文獻(xiàn)[82]則采用多模態(tài)深度學(xué)習(xí)框架,通過(guò)構(gòu)建多個(gè)LSTM結(jié)構(gòu)處理情感分類(lèi)問(wèn)題.文獻(xiàn)[83]提出一種多模態(tài)無(wú)監(jiān)督機(jī)器翻譯方法,采用描述同一內(nèi)容的圖片鏈接跨語(yǔ)種語(yǔ)料,實(shí)現(xiàn)語(yǔ)義對(duì)應(yīng)與融合.文獻(xiàn)[84]采用強(qiáng)化學(xué)習(xí)的手段對(duì)文本和視覺(jué)場(chǎng)景進(jìn)行匹配,進(jìn)而對(duì)自動(dòng)駕駛決策進(jìn)行推理.
跨模態(tài)遷移與跨模態(tài)生成是多模態(tài)學(xué)習(xí)的常見(jiàn)任務(wù).針對(duì)多源異構(gòu)的復(fù)雜數(shù)據(jù),遷移學(xué)習(xí)可以在不同模態(tài)間轉(zhuǎn)化知識(shí).近年來(lái),基于對(duì)抗學(xué)習(xí)策略的遷移學(xué)習(xí)方法取得了優(yōu)于經(jīng)典遷移學(xué)習(xí)方法的性能.跨模態(tài)生成任務(wù)有助于構(gòu)造完整的多模態(tài)認(rèn)知場(chǎng)景,同時(shí)能夠提高在不同模態(tài)間進(jìn)行遷移、匹配與翻譯的能力.
生成對(duì)抗網(wǎng)絡(luò)(Generative adversarial networks,GAN)的基本框架由Goodfellow等于2014年提出[85].該框架主要由兩個(gè)互為博弈的結(jié)構(gòu)——生成器G(Generator)和判別器D(Discriminator)構(gòu)成.對(duì)GAN進(jìn)行對(duì)抗式訓(xùn)練的主要目標(biāo)在于得到一組高性能的G與D,使G能夠生成足夠真實(shí)的樣本,而D則能夠?qū)σ约賮y真的樣本進(jìn)行區(qū)分.GAN的性能是在交互式的對(duì)抗學(xué)習(xí)中提高的.
文獻(xiàn)[86]中提出的DCGAN方法將CNN結(jié)構(gòu)和GAN結(jié)合,賦予對(duì)抗學(xué)習(xí)強(qiáng)大的圖片生成能力.在文獻(xiàn)[87]中,Wasserstein距離被引入來(lái)替代經(jīng)典的KL散度(Kullback-Leibler divergence),該方式可有效避免GAN訓(xùn)練過(guò)程中的“模式崩潰”,即只能生成有限模式圖片的問(wèn)題.文獻(xiàn)[88]則提出CGAN模型,在GAN結(jié)構(gòu)中結(jié)合條件變量,這一“條件”可以是類(lèi)別標(biāo)簽,也可以是跨模態(tài)樣本的向量化表示.
遷移學(xué)習(xí)是跨模態(tài)學(xué)習(xí)的有效方法.在遷移學(xué)習(xí)中,常采用源域、目標(biāo)域的概念表述遷移對(duì)象.源域涉及已學(xué)習(xí)到的數(shù)據(jù)源或問(wèn)題,目標(biāo)域則包含需要采用遷移學(xué)習(xí)方法進(jìn)行處理的數(shù)據(jù)或新問(wèn)題.在跨模態(tài)問(wèn)題中,可將數(shù)據(jù)全面、結(jié)果較好的模態(tài)作為源域,將數(shù)據(jù)資源較為有限的模態(tài)作為目標(biāo)域.
采用GAN的對(duì)抗學(xué)習(xí)域適應(yīng)(跨模態(tài)分類(lèi)、匹配)方法在近幾年取得了令人矚目的成績(jī).文獻(xiàn)[89]給出了采用GAN結(jié)構(gòu)處理跨模態(tài)域適應(yīng)問(wèn)題的基本模型ADDA(Adversarial discriminative domain adaptation).在ADDA中,兩個(gè)不同模態(tài)的數(shù)據(jù)分別經(jīng)由CNN編碼.判別器D對(duì)源域和目標(biāo)域進(jìn)行判別,該對(duì)抗學(xué)習(xí)的過(guò)程能夠?qū)R目標(biāo)域、源域的特征,從而能夠?qū)⒃从颍B(tài)A)的分類(lèi)器應(yīng)用于目標(biāo)域(模態(tài)B).在此基礎(chǔ)上,文獻(xiàn)[90]設(shè)計(jì)了雙向GAN結(jié)構(gòu)進(jìn)一步優(yōu)化域適應(yīng)性能.文獻(xiàn)[91]、[92]針對(duì)目標(biāo)域的類(lèi)別,設(shè)計(jì)了多個(gè)生成-判別單元,具有針對(duì)性地進(jìn)行跨模態(tài)遷移.文獻(xiàn)[93]則采用質(zhì)心對(duì)齊的手段,強(qiáng)化對(duì)抗學(xué)習(xí)中跨模態(tài)特征對(duì)齊的效果.
根據(jù)O’Halloran所給出的細(xì)粒度模態(tài)劃分[4],跨模態(tài)生成涉及“圖像—圖像”生成、“圖像—文本”生成及“文本—圖像”生成三個(gè)典型任務(wù).
在由圖像到圖像的樣本生成任務(wù)(如圖像風(fēng)格遷移、圖像高分辨率重構(gòu))中,GAN是最為成功的方法之一.文獻(xiàn)[94]中的LAPGAN算法采用拉普拉斯金字塔結(jié)構(gòu),以串聯(lián)的形式在多個(gè)尺度采用生成—對(duì)抗的學(xué)習(xí)方法生成高質(zhì)量圖片.文獻(xiàn)[95]中的SAGAN將自然語(yǔ)言處理領(lǐng)域的Attention機(jī)制[96]引入GAN模型,有效利用了圖片中的全局信息和局部信息.文獻(xiàn)[97]提出SNGAN,采用譜范數(shù)對(duì)網(wǎng)絡(luò)參數(shù)進(jìn)行歸一化,從而能夠有效調(diào)整梯度,提高GAN的優(yōu)化性能.文獻(xiàn)[98]中提出的BigGAN采用ResNet為特征提取器,以圖片類(lèi)別標(biāo)簽作為條件輸入,經(jīng)過(guò)在ImageNet上的大量訓(xùn)練,能夠取得極為逼真的高質(zhì)量圖片.基于對(duì)抗學(xué)習(xí)的圖片風(fēng)格遷移方法有pix2pix[99]、CycleGAN[100]、StarGAN[101]、MUNIT[102]等.pix2pix[99]以CGAN為基礎(chǔ),將目標(biāo)樣本作為條件變量,輸入給GAN模型,同時(shí)采用了改進(jìn)的CNN特征表示模型(UNet[103]).CycleGAN[100]采用循環(huán)訓(xùn)練方法,首先采用對(duì)抗學(xué)習(xí)在目標(biāo)域生成具有源域內(nèi)容、目標(biāo)域風(fēng)格的圖片,接著將該圖片進(jìn)一步變換至源域,構(gòu)成一個(gè)循環(huán).這種循環(huán)訓(xùn)練方式不依賴于大量的訓(xùn)練樣本,能夠?qū)崿F(xiàn)有效的弱監(jiān)督圖片生成.StarGAN[101]在CycleGAN的基礎(chǔ)上針對(duì)多個(gè)不同的域進(jìn)行編碼,通過(guò)互異的域標(biāo)簽和圖片內(nèi)容的疊加,實(shí)現(xiàn)多個(gè)域(模態(tài))的切換.MUNIT[102]則引入ResNet中的殘差模塊(Residual blocks),設(shè)計(jì)了更為巧妙的編碼器和解碼器,對(duì)圖片內(nèi)容和風(fēng)格分別進(jìn)行編碼和訓(xùn)練,實(shí)現(xiàn)無(wú)監(jiān)督跨模態(tài)樣本生成.
在由圖像生成文本的任務(wù)(如圖像語(yǔ)義標(biāo)注)中,CGAN也是基本的方法.該方法將圖片向量作為GAN的條件,指導(dǎo)對(duì)圖片標(biāo)簽的向量生成[88].由于文本模態(tài)自身的序列特點(diǎn),在目前常見(jiàn)的以生成描述性句子為目標(biāo)的圖像語(yǔ)義標(biāo)注任務(wù)、基于視覺(jué)的問(wèn)答任務(wù)中,RNN、GRU、LSTM等結(jié)構(gòu)常被用作文本編碼/解碼器,并能夠取得優(yōu)于GAN的效果[104-106].部分典型的方法在3.3節(jié)中進(jìn)行了簡(jiǎn)要的介紹.
根據(jù)文本合成圖片是較為新穎的跨模態(tài)生成問(wèn)題,也是最近幾年中對(duì)抗學(xué)習(xí)領(lǐng)域的研究熱點(diǎn).文獻(xiàn)[107]中的GAN-CLS模型是具有開(kāi)創(chuàng)性的工作之一,該文利用細(xì)粒度的標(biāo)簽信息訓(xùn)練圖像編碼器和文本編碼器,提高跨模態(tài)編碼的相關(guān)性,同時(shí)采用流形差值優(yōu)化等策略,生成與描述內(nèi)容較為契合的圖片樣本.文獻(xiàn)[108]、[109]中提出的StackGAN系列模型則采用兩階段的生成方法生成具有更高像素的圖片,先生成與文本描述相一致的包含輪廓、顏色等基本信息的低分辨率圖片,在該圖基礎(chǔ)上進(jìn)一步生成高像素、細(xì)粒度的圖片樣本,兩階段的生成過(guò)程均包含文本描述作為條件輸入.文獻(xiàn)[110]則采用層次化的生成方法,首先根據(jù)文本描述生成對(duì)象的邊界框,進(jìn)而填充圖像細(xì)節(jié)內(nèi)容.文獻(xiàn)[111]中的AttnGAN進(jìn)一步采用注意力機(jī)制(Attention)選取文本模態(tài)中的細(xì)節(jié)信息,經(jīng)由多步的Attention和對(duì)抗學(xué)習(xí),依次生成低像素、高像素的圖片.
大數(shù)據(jù)背景下,多模態(tài)數(shù)據(jù)對(duì)同一對(duì)象的描述存在形式多源異構(gòu)、內(nèi)在語(yǔ)義一致的特點(diǎn).不同的模態(tài)形式分別描述對(duì)象在某一特定角度下的特征.隨著機(jī)器學(xué)習(xí)技術(shù)的發(fā)展,多模態(tài)學(xué)習(xí)領(lǐng)域的研究熱點(diǎn)逐漸從經(jīng)典的統(tǒng)計(jì)學(xué)習(xí)方法轉(zhuǎn)移到深度學(xué)習(xí)方法.對(duì)于視覺(jué)模態(tài),CNN逐漸成為最有效的特征表示方法;對(duì)于文本模態(tài)及相關(guān)、類(lèi)似的序列預(yù)測(cè)任務(wù),LSTM也逐漸取代概率圖模型,取得主導(dǎo)地位.而對(duì)抗學(xué)習(xí)的興起使得跨模態(tài)任務(wù)更為多樣化.
對(duì)于多模態(tài)學(xué)習(xí)方法的研究可以從以下幾個(gè)方向進(jìn)一步展開(kāi):(1)對(duì)不同模態(tài)的樣本進(jìn)行更為精細(xì)化的特征表示,實(shí)現(xiàn)有效的跨模態(tài)匹配,利用模態(tài)互補(bǔ)構(gòu)建更為完整的特征描述體系;(2)克服學(xué)習(xí)樣本數(shù)量的限制,研究弱監(jiān)督、無(wú)監(jiān)督的多模態(tài)學(xué)習(xí)方法;針對(duì)該問(wèn)題,對(duì)抗學(xué)習(xí)方法是可行的解決方案之一;(3)研究有效的模型融合框架,一方面是組合不同的算法以取得高質(zhì)量的數(shù)據(jù)分析結(jié)果,另一方面是用模型融合指導(dǎo)對(duì)多模態(tài)數(shù)據(jù)的融合;(4)研究效果更為真實(shí)、性能更加穩(wěn)定的跨模態(tài)生成方法;(5)應(yīng)用背景從通用領(lǐng)域向垂直領(lǐng)域拓展,針對(duì)特定的應(yīng)用場(chǎng)景(如醫(yī)療場(chǎng)景)實(shí)現(xiàn)可行的解決方案.