王澤深,楊 云,2,向鴻鑫,柳 青
1.云南大學 軟件學院,昆明 650504
2.云南省數(shù)據(jù)科學與智能計算重點實驗室,昆明 650504
近年來,海量數(shù)據(jù)資源的不斷涌現(xiàn)和機器計算能力的不斷提高,給正在興起的機器學習技術(shù)帶來了巨大的發(fā)展機遇與挑戰(zhàn)。隨著大量研究成果已投入實際應用,機器學習技術(shù)催生出人臉識別、智慧醫(yī)療、智慧交通等多個前沿的商業(yè)化應用。機器學習旨在通過計算機來模擬或者實現(xiàn)人類的學習行為,讓計算機具備能夠從海量數(shù)據(jù)中獲取新的知識的能力并不斷地改善自身的性能。這也使得傳統(tǒng)的基于監(jiān)督的機器學習算法在某些識別(人臉識別、物體識別)和分類等方面的性能已接近甚至超過人類。
然而擁有如此高超的性能所需要付出的代價是大量的人工標記數(shù)據(jù)[1],這在實際應用中會消耗大量的財力、物力。因此,為了將機器學習技術(shù)更好地應用于實際問題中,減少大量標記數(shù)據(jù)對機器學習技術(shù)的約束,需要相關(guān)技術(shù)具備有像人類一樣能夠思考、推理的能力[2],而零樣本學習技術(shù)在實現(xiàn)這個能力的過程中具有重要意義。通過這幾年的不斷研究,零樣本學習技術(shù)已經(jīng)具備了較為完整的理論體系。但是,零樣本學習技術(shù)在應用方面卻沒有較好的總結(jié)。所以本文將回顧零樣本學習近些年來在商業(yè)應用上的價值,為零樣本學習技術(shù)構(gòu)建一套比較完善的應用體系。
本文主要綜述了零樣本學習的理論體系和應用體系。第1 章論述零樣本理論體系中的相關(guān)基礎(chǔ)概念。第2章列舉經(jīng)典的零樣本學習模型。第3章構(gòu)建零樣本學習的應用體系。第4 章討論零樣本學習應用中的挑戰(zhàn),并對研究方向進行了展望。
在日常生活中,人類能夠相對容易地根據(jù)已經(jīng)獲取的知識對新出現(xiàn)的對象進行識別[3]。例如:帶一個從未見過老虎的孩子到動物園,在沒見到老虎之前,告訴他老虎長得像貓,但是比貓大得多,身上有跟斑馬一樣的黑色條紋,顏色跟金毛一樣。那么當他見到老虎時,會第一時間認出這種動物。通過已知的貓、金毛、斑馬推理出老虎過程如圖1所示。
圖1 零樣本學習推理過程Fig.1 Reasoning process of zero-shot learning
這種根據(jù)以往獲取的信息對新出現(xiàn)的事物進行推理識別的能力,在2009年被正式提出,并取名為零樣本學習(Zero-Shot Learning,ZSL)[4-5]。正因為零樣本學習具有推理能力,不需要大量的人工標記樣本,對于一些實際問題中(如醫(yī)療影像圖像、瀕危物種識別等)具有極高的商業(yè)價值[3]。同時,零樣本學習技術(shù)也能夠突破現(xiàn)有監(jiān)督學習技術(shù)無法擴展到新出現(xiàn)的分類任務的難題。因此,零樣本學習成為機器學習領(lǐng)域最具挑戰(zhàn)性的研究方向之一[6]。
將上述的推理過程抽象為通過已知信息加上輔助信息進而推斷出新出現(xiàn)對象的類別。因此,推理過程中已知的信息(貓、斑馬、金毛)為訓練集,輔助信息(貓的外形、黑色的條紋、金毛的顏色)為訓練集與測試集相關(guān)聯(lián)的語義信息[7],推測(老虎)為測試集。訓練集中貓對應的貓類、斑馬對應的馬類、金毛對應的狗類,在訓練前就已知,為可見類(seenclass);測試集中虎對應的虎類,在訓練過程中沒見過,為未可見類(unseenclass)。設X為數(shù)據(jù),Y為標簽,S為可見類,U為不可見類,Tr為訓練集類別,Te為測試集類別,則零樣本學習的定義為fzsl:X→YU,即通過訓練可見類數(shù)據(jù)提取出對應的特征,加上輔助知識的嵌入,最終預測出不可見類。其中Te與Tr不相交;Tr為S,Te為U。值得注意的是,預測時如果出現(xiàn)訓練集對應的類別,則無法預測。
由于零樣本學習依賴的已知知識仍是一種帶標簽的數(shù)據(jù),可以得知零樣本學習是一種特殊的監(jiān)督學習技術(shù)。對比傳統(tǒng)的監(jiān)督學習,其定義為f:X→Y,其中Tr包含于Te,Te與Tr均為S,可見與零樣本學習最大的區(qū)別是測試集的類別是否包含于訓練集的類別。對比于廣義零樣本學習,一種特殊的零樣本學習,其定義為fgzsl:X→YU∪YS,其中Te與Tr不相交。Tr為S,Te為S和U??梢娕c零樣本學習最大的區(qū)別是預測時訓練集對應的類別是否能預測出來。三者的區(qū)別如表1所示。
表1 三種學習比較Table 1 Comparison of three kinds of learning
由定義可知,零樣本學習是一種特殊的監(jiān)督學習。其存在的問題除了傳統(tǒng)的監(jiān)督學習中固有的過擬合問題外[8],還有領(lǐng)域漂移、樞紐點、廣義零樣本學習、語義間隔四個關(guān)鍵問題。
1.3.1 領(lǐng)域偏移問題(Domain Shift)
同一事物在不同領(lǐng)域的視覺效果相差太大。2015年,F(xiàn)u 等人[9]提出,當可見類訓練出來的映射應用于不可見類的預測時,由于可見類和不可見類所屬的域不同,可見類與不可見類相關(guān)性不大,不同域在同一事物的視覺特征上可能相差很大,在沒有對不可見類進行任何適配的情況下,會出現(xiàn)領(lǐng)域偏移問題[10]。例如,在現(xiàn)實生活中,知道老虎的尾巴與兔子的尾巴在視覺上相差很遠。如圖2所示。然而當預測的類別為老虎,所給的輔助信息中有尾巴這一屬性,用兔的尾巴訓練出來的效果不符合實際效果。
圖2 老虎尾巴與兔子尾巴Fig.2 Tiger tail and rabbit tail
目前學者們提出的解決辦法主要有:第一種是在訓練過程中加入不可見類數(shù)據(jù)[9,11-35],即建立直推式模型。典型的例子有文獻[9]利用不可見類的流形,提出多視圖嵌入框架緩解領(lǐng)域偏移問題。第二種是對訓練數(shù)據(jù)強制增加約束條件/信息[10,13,36-40],即建立歸納式模型。第三種是生成偽樣本到測試過程中,即建立生成式模型[13,41-60],其本質(zhì)是將零樣本學習轉(zhuǎn)換為傳統(tǒng)的有監(jiān)督學習。最經(jīng)典的例子是SAE[61]模型,在圖像空間嵌入語義空間的過程中添加約束條件,盡可能地保留圖像空間中的信息。
當然,上述的解決方案都是建立在可見類與不可見類的數(shù)據(jù)分布在樣本級別上是一致的。而文獻[62]則直接通過聚類的方法獲取不可見類的數(shù)據(jù)分布。
1.3.2 樞紐點問題(Hubness)
某個點成為大多數(shù)點的最鄰近點。2014 年,Dinu等人[63]提出,從原始空間投影到目標空間的過程中,某個點會成為大多數(shù)節(jié)點最鄰近的點,同時也指出樞紐點問題是高維空間中經(jīng)常會出現(xiàn)的問題。例如,在使用零樣本學習模型進行分類時,采用的算法為最鄰近節(jié)點算法(K-Nearest Neighbor,KNN),則可能會出現(xiàn)一個點有幾個甚至幾十個最鄰近節(jié)點,會產(chǎn)生多種不同的結(jié)果,導致模型的效果不佳。如圖3 所示。但樞紐點問題不僅存在于高維空間,Shigeto等人[64]指出低維空間中也會出現(xiàn)樞紐點問題,維度越高,出現(xiàn)樞紐點問題越嚴重。
圖3 樞紐點問題Fig.3 Hubness problem
目前學者們提出的解決辦法主要有兩種:第一種是使用嶺回歸模型,建立從低維向高維映射,在計算機視覺中則為建立從語義到視覺的映射,這種方法也稱為反向映射[11,13,21,64-67]。其中,文獻[64]直接將圖像的特征空間進行嵌入,建立語義到視覺的映射,有效地緩解了樞紐點問題。第二種是使用生成式模型[11,14,23,55,68-70],生成偽樣本,加入到測試過程中。
此外,非主流方法有文獻[63]提出一種優(yōu)化的近鄰搜索算法,從根本上解決最近鄰搜索問題。文獻[65]則將嶺回歸模型替換為Max-Margin Ranking,來緩解樞紐點問題。
1.3.3 廣義零樣本學習(Generalized Zero-Shot Lear-ning,GZSL)
訓練集類別與測試集類別互斥。本章已經(jīng)對廣義零樣本學習的定義進行描述以及同零樣本和傳統(tǒng)監(jiān)督學習進行比較。零樣本學習的前提條件是測試集與訓練集沒有交集,即可見類等于訓練集,不可見類等于測試集。這意味著測試階段,如果樣本來自訓練集,則無法預測。這在實際生活中是不現(xiàn)實的。因此,2019年,Wang 等人[71]提出廣義零樣本學習,訓練集仍是可見類數(shù)據(jù),測試集則為可見類與不可見類數(shù)據(jù)的混合。零樣本學習與廣義零樣本學習如圖4所示。
圖4 零樣本學習與廣義零樣本學習Fig.4 Zero-shot learning and generalized zero-shot learning
目前學者們提出的解決方法主要有兩種:第一種是先通過分類器,將測試集中可見類與不可見類數(shù)據(jù)進行劃分。如果是可見類數(shù)據(jù),則直接使用分類器進行分類;如果是不可見類數(shù)據(jù),則利用輔助信息進行預測[72]。第二種生成模型,利用生成模型生成不可見類樣本,再將生成的樣本與可見類樣本一起訓練一個分類器,將廣義零樣本學習轉(zhuǎn)化為傳統(tǒng)監(jiān)督學習[37,61,73]。
1.3.4 語義間隔(Semantic Gap)
語義空間與視覺空間流行構(gòu)成不同,相互映射有間隔。零樣本學習預測不可見類數(shù)據(jù)一般的解決方案是構(gòu)建圖像與語義之間的關(guān)系。2017年,Li等人[23]提出視覺特征來源于圖像空間,語義信息來源于語義空間,兩個空間的流行構(gòu)成有差別,直接建立兩者之間的映射,會導致語義間隔。
目前,學者們提出的主要解決方案是將從圖像空間提取的視覺特征與語義空間提取的語義信息映射到公共空間中,并將兩者進行對齊[74-75]。
目前,零樣本學習在不同的領(lǐng)域得到了廣泛應用。本節(jié)根據(jù)應用的不同類型,文本、圖像、視頻,分別介紹其在零樣本學習中常用的數(shù)據(jù)集。
1.4.1 文本常用數(shù)據(jù)集
(1)LASER(Language-Agnostic Sentence Representations)
語言數(shù)據(jù)集。LASER 包括28 種不同字符系統(tǒng)的90多種語言,在零樣本學習任務中主要用于開發(fā)該數(shù)據(jù)庫中未包含的小語種。
(2)WordNet[11]
英文詞語數(shù)據(jù)集。WordNet 包括超過15 萬個詞,20 萬個語義關(guān)系。語義關(guān)系指的是名詞、動詞、形容詞和副詞之間的語義關(guān)系。零樣本學習主要使用的是WordNet的名詞部分。
(3)ConceptNet[76-77]
常識數(shù)據(jù)集。ConceptNet主要由三元組構(gòu)成,包括超過2 100 萬個關(guān)系描述、800 萬個節(jié)點以及21 個關(guān)系。此外,其要素有概念、詞、短語、斷言、關(guān)系,邊等[11]。在零樣本學習任務中主要和知識圖譜結(jié)合。
1.4.2 圖像常用數(shù)據(jù)集
(1)AWA(Animal with Attribute)[78]
動物圖像。AWA 由30 475 張動物圖片構(gòu)成,其中有50 個動物類別,每個類別至少有92 個示例,85 個屬性。此外,AWA 還提供7 種不同的特征。由于AWA 具有版權(quán)保護,所以擴展數(shù)據(jù)集AWA2 應運而生。AWA2包括37 322張圖片,與AWA同樣擁有50個動物類別和85 個屬性。一般將40 類作為訓練數(shù)據(jù)的類別,10 類作為測試數(shù)據(jù)的類別。
(2)CUB(Caltech-UCSD-Birds-200-2011)[79]
鳥類細粒度圖像。CUB由11 788張鳥類圖片構(gòu)成,其中有200類鳥類類別,312個屬性。一般將150類作為訓練數(shù)據(jù)的類別,50類作為測試數(shù)據(jù)的類別。
(3)aPY(aPascal-aYahoo)[80]
混合類別圖像。aPY由15 339張圖片構(gòu)成,其中有32 個類別,64 個屬性。并且明確規(guī)定20 個類共12 695張照片作為訓練數(shù)據(jù)的類別,12 個類共2 644 張照片作為測試數(shù)據(jù)的類別[6]。
(4)SUN(SUN attribute dataset)[81]
場景細粒度圖像。SUN由14 340張場景圖片構(gòu)成,其中包括717個場景類別,每個類別20張示例,102個屬性。一般將645類作為訓練數(shù)據(jù)的類別,72類作為測試數(shù)據(jù)的類別。
(5)ImageNet[37,82-84]
混合類別圖像。ImageNet由超過1 500萬張高分辨率圖片構(gòu)成,其中有22 000 個類別,屬于大數(shù)據(jù)容量數(shù)據(jù)集。因此,一般使用其子數(shù)據(jù)集ILSVRC。IVSVRC由100 萬張圖片構(gòu)成,其中有1 000 個類別,每個類別1 000 張示例。一般將800 類作為訓練數(shù)據(jù)的類別,200類作為測試數(shù)據(jù)的類別。
1.4.3 視頻常用數(shù)據(jù)集
(1)UCF101[85]
主要應用于人類行為識別。UCF101由13 320視頻片段和101 個注釋類組成,總時長為27 個小時。在THUMOS-2014[86]行動識別挑戰(zhàn)賽上,UCF101數(shù)據(jù)集得到擴展。在UCF101的基礎(chǔ)上,收集了來自于互聯(lián)網(wǎng)的其他視頻,其中包括2 500 個背景視頻、1 000 個驗證視頻以及1 574個測試視頻。
(2)ActivityNet[87]
主要用于人類行為識別。ActivityNet 由27 801 個視頻片段剪輯組成,擁有203 個活動類(含注釋),總時長為849 個小時,其主要優(yōu)勢是擁有更細粒度的人類行為。
(3)CCV(Columbia Consumer Video)[88-90]
主要用于社會活動分類。CCV 由9 317 個視頻片段組成,擁有20個活動類(含注釋),歸屬于事件、場景、對象3大類。
(4)USAA(Unstructured Social Activity Attribute)[90]
主要用于社會活動分類。USAA對CCV(Columbia Consumer Video)中8 個語義類各選取100 個視頻進行屬性標注。一共有69個屬性,歸屬于動作、對象、場景、聲音、相機移動5大類。
本章通過介紹零樣本學習在3 個發(fā)展階段的經(jīng)典模型,為第3 章應用體系的構(gòu)建提供理論體系的支撐。這3 個發(fā)展階段分別是:(1)基于屬性的零樣本學習;(2)基于嵌入的零樣本學習;(3)基于生成模型的零樣本學習。
2013 年,文獻[76]提出基于屬性的零樣本學習方法,屬性是一種語義信息。這個方法是零樣本學習的開山之作,也是零樣本學習后續(xù)發(fā)展的基礎(chǔ)。
Direct Attribute Prediction(DAP)模型[78]在PAMI 2013會議上提出,其預測不可見類標簽通過以下兩個步驟。第一,使用支持向量機(Support Vector Machine,SVM)訓練可見類數(shù)據(jù)到公共屬性的映射,為每個可見類數(shù)據(jù)學習一個屬性分類器,這個屬性分類器也是可見類與不可見類之間的共享空間。第二,使用貝葉斯公式對不可見類的屬性進行預測,再通過不可見類與屬性的關(guān)系,推出不可見類所屬的類別。DAP結(jié)構(gòu)如圖5所示。
圖5 DAP模型結(jié)構(gòu)Fig.5 Structure of DAP model
DAP 模型在挑選樣本方面,與AWA 數(shù)據(jù)集根據(jù)抽象名稱指定動物和屬性不同,其更細致的考慮了示例圖像,根據(jù)圖像來指定動物與屬性,并使得示例圖像中動物出現(xiàn)在最突出的位置。在數(shù)據(jù)集配置方面將優(yōu)化后的數(shù)據(jù)集類別分為50%訓練集和50%測試集。最終實驗取得了多類別65.9%的準確率。
通過利用屬性,DAP模型成功地將沒有數(shù)據(jù)的類別進行預測,并且具有較高的精度。但是DAP 有三個明顯的缺點:其一,對于新加入的可見類數(shù)據(jù),屬性分類器需要重新訓練,無法對分類器進行優(yōu)化和改善。其二,對于除了屬性外的其他輔助信息(如網(wǎng)絡結(jié)構(gòu)的數(shù)據(jù)集Wordnet),難以使用。其三,由于使用了屬性作為中間層,對于預測屬性,模型能夠做到最優(yōu)。但對于預測類別,卻不一定是最好的。
與DAP 模型一同出現(xiàn)的還有IAP(Indirect Attribute Prediction)[78]模型。IAP模型在PAMI 2013會議上提出,其預測不可見類標簽通過以下兩個步驟:第一,使用支持向量機(SVM)訓練可見類到屬性的映射以及不可見類到屬性的映射。第二,使用貝葉斯公式得到可見類數(shù)據(jù)與可見類的概率,為每個可見類數(shù)據(jù)學習一個類別分類器,繼而通過類別—屬性的關(guān)系,推出不可見類數(shù)據(jù)所屬的類別。IAP結(jié)構(gòu)如圖6所示。
圖6 IAP模型結(jié)構(gòu)Fig.6 Structure of IAP model
與DAP模型一樣,IAP模型也成功的預測出沒有數(shù)據(jù)的類別,并且比DAP模型更加的靈活、簡單。當有新類別需要進行訓練時,IAP 模型的訓練時間成本較小。但是IAP模型在實驗中的效果并沒有DAP模型的好。
在基于屬性的零樣本學習中,除了經(jīng)典的DAP 和IAP 模型,文獻[91]還提出結(jié)合DAP、IAP 各自的優(yōu)點,通過屬性分類器和相應組合策略進行零樣本學習的BAP(Bimodal Attribute Prediction)模型。文獻[92]提出的HAP(Hypergraph-based Attribute Predictor)更是將屬性這一語義信息用超圖構(gòu)建起來,更好地利用類別之間的關(guān)系。
隨著機器學習的不斷發(fā)展,計算機視覺逐漸成為研究者們的關(guān)注熱點。只有屬性的零樣本學習,遠不能滿足對圖像處理的需求,而且基于屬性的零樣本學習也存在著許多問題。因此,零樣本學習提出基于嵌入的零樣本學習,將語義信息與圖像信息緊密結(jié)合起來。主要的方法有語義信息嵌入圖像空間、圖像信息嵌入語義空間、語義信息與圖像信息嵌入公共空間等。
在圖像信息嵌入到語義空間經(jīng)常使用的訓練函數(shù)有單線性函數(shù)、雙線性函數(shù)、非線性函數(shù)等,損失函數(shù)有排序損失,平方損失等。
(1)Embarrassingly Simple Zero-Shot Learning(ESZSL)
ESZSL模型[93]在ICML 2015會議上提出,其將零樣本學習分為兩個階段,訓練階段以及推理階段。通過SVM學習雙線性函數(shù)。一個在訓練階段利用訓練樣本實例與特征矩陣的相乘,建立特征空間與屬性空間之間的映射;另一個在推理階段利用訓練樣本的描述和特征空間與屬性空間之間的映射獲得最終預測的模型,為每一個類別都學習了一個圖像空間到語義空間的映射。值得注意的是兩個階段均使用一行即可完成,且無需調(diào)用其他函數(shù),十分簡單的完成零樣本學習。ESZSL還建立了對應的正則化方法以及平方損失函數(shù)對模型進行優(yōu)化。ESZSL 模型結(jié)構(gòu)如圖7 所示。最終實驗取得不錯的效果。這是一種圖像信息嵌入語義空間的模型。
圖7 ESZSL模型結(jié)構(gòu)Fig.7 Structure of ESZSL model
ESZSL 模型在挑選樣本方面,直接選擇原始的AWA、aPY、SUN 數(shù)據(jù)集進行訓練以及測試。最終實驗在AWA 數(shù)據(jù)集上獲得多類別49.3%的準確率,比DAP模型多7.8 個百分點;在SUN 數(shù)據(jù)集上則獲得多類別65.75%的準確率,比DAP模型多13個百分點;而在aPY數(shù)據(jù)集由于準確度太低,不具備參考價值。
正因為ESZSL 模型的簡單,使得在處理大規(guī)模數(shù)據(jù)上的表現(xiàn)不佳,并且每新來一個不可見類,就需要為其訓練一個映射。而文獻[94]提出AEZSL(Adaptive Embedding ZSL)以及DAEZSL(Deep Adaptive Embedding ZSL)模型正好解決這些問題。AEZSL 模型在ESZSL基礎(chǔ)上進行改進,利用可見類與不可見類之間的相似性,為每個可見類訓練一個視覺到語義的映射,然后進行漸進式的標注。DAEZSL模型則在AEZSL基礎(chǔ)上進行改進,只需要對可見類訓練一次,即可運用于所有不可見類,解決了大規(guī)模數(shù)據(jù)上ESZSL 需要多次訓練的繁瑣過程。
(2)Deep Visual Semantic Embedding(DeViSE)
DeViSE 模型[95]在NIPS 2013 會議上提出,其進行零樣本學習通過以下3 個步驟。首先,預訓練一個Word2Vec 中的skim-gram 詞向量網(wǎng)絡。網(wǎng)絡的作用是輸入單詞能夠找到其相近的單詞,即查找輸入單詞的上下文。其次,預訓練一個深度神經(jīng)網(wǎng)絡。網(wǎng)絡的作用是對圖像的標簽進行預測。深度神經(jīng)網(wǎng)絡[95]采用的是在2012 年ImageNet 大型視覺識別挑戰(zhàn)賽獲獎的1 000 類別分類器,同時,分類器也可以使用其他預訓練的深度神經(jīng)網(wǎng)絡。最后,將兩個預訓練模型進行預測的softmax層去除,然后合并兩個模型,通過學習雙線性函數(shù)以及相似性度量,對不可見類進行預測。DEVISE模型還使用排序損失進行優(yōu)化。模型結(jié)構(gòu)如圖8 所示。這是一種圖像信息嵌入語義空間的模型。
圖8 DeViSE模型結(jié)構(gòu)Fig.8 Structure of DeViSE model
DeViSE模型由于使用了skim-gram模型,其在語義上具有很強的泛化效果。這也使得它即使預測出來的標簽錯誤了,結(jié)果也是非常接近正確值。但是,其圖像分類器所采用的神經(jīng)網(wǎng)絡并非最佳,可以將其換為目前最好的圖像分類器,例如在WACV 2021 會議上由文獻[96]提出的Intra-class Part Swapping(InPS)模型。
DEViSE模型在挑選數(shù)據(jù)集方面,選擇使用ImageNet的子集ILSVRC。在數(shù)據(jù)集配置方面,將數(shù)據(jù)集分為50%的訓練集以及50%的測試集。但最終實驗由于分類器還不夠成熟,沒有取得很好的精確度。
(3)Attribute Label Embedding(ALE)
ALE 模型[97]在CVPR 2015 會議上提出,對于DAP模型的三個問題:無法增量學習、預測類別差強人意、無法使用其他輔助源,ALE 首先通過SVM 學習雙線性函數(shù),從圖像中提取特征以及將標簽與屬性對應起來。其次借助WSABIE 目標函數(shù)的思路,設計排序損失函數(shù),使得特征空間與語義空間對齊損失最小化,繼而對不可見類預測進行解決。同時,屬性還可以換成其他輔助源,如HLE(Hierarchy Label Embedding)模型的層級,AHLE(Attributes and Hierarchy Label Embedding)模型的層級與屬性結(jié)合。ALE 模型結(jié)構(gòu)如圖9 所示。這是一種圖像信息嵌入語義空間的模型。
圖9 ALE模型結(jié)構(gòu)Fig.9 Structure of ALE model
ALE模型在挑選樣本方面,選擇AWA以及CUB兩個動物數(shù)據(jù)集。在數(shù)據(jù)集配置方面,將AWA 數(shù)據(jù)集分為40 個訓練類和10 個測試類,將CUB 分為150 個訓練類和50個測試類。最終實驗在這兩個數(shù)據(jù)集上能夠取得多類別49.7%和20.1%的精確度。
ALE 模型的缺點也是顯而易見的:其一,標簽所用屬性描述是人為定義的,如果兩個標簽之間共享的屬性基本一致,則會導致它們在屬性空間中難以區(qū)分;其二,從圖像中提取的不同特征可能對于同個屬性。
(4)Structured Joint Embedding(SJE)
SJE 模型[98]在CVPR 2015 會議上提出,其受SVM的啟發(fā),將語義空間一種語義信息(屬性)擴展到了多種語義信息融合的空間。SJE 模型與ALE 模型的訓練過程相似,首先通過SVM學習雙線性函數(shù),從圖像中提取特征以及將每一種語義信息與標簽對應起來。其次設計排序損失函數(shù),使得特征空間與每一種語義空間對齊損失最小化。最后比較每一種組合語義信息的效果,使用最好的效果對不可見類進行預測。SJE 模型的語義空間可以是屬性、Word2Vec 編碼的類別、Glove 編碼的類別、WordNet 編碼的類別。損失函數(shù)選擇二分類損失。SJE模型結(jié)構(gòu)如圖10所示。
圖10 SJE模型結(jié)構(gòu)Fig.10 Structure of SJE model
SJE 模型在挑選樣本方面,選擇AWA、CUB 以及斯坦福大學推出的狗集3 個動物數(shù)據(jù)集。在數(shù)據(jù)集配置方面,將AWA 數(shù)據(jù)集分為40 個訓練類和10 個測試類,將CUB分為150個訓練類和50個測試類。最終實驗在AWA 數(shù)據(jù)集中最高可獲得66.7%的準確率;能在CUB數(shù)據(jù)集中最高獲得50.1%的準確率。
由于SJE 模型計算每一類語義空間與特征空間之間的兼容函數(shù),使得SJE模型能夠進行細粒度識別。但也正因為如此,其必須在所有兼容函數(shù)計算完成后才能進行,這使得它的效率較為低下。
(5)Latent Embeddings(LatEm)
LatEm 模型[99]在CVPR 2016 會議上提出,其是SJE模型的變體。LatEm模型預測標簽由以下步驟完成:第一,將訓練圖像分為多個特征并把每個特征使用線性函數(shù)映射到特征空間。第二,將標簽與每個語義空間進行映射。第三,計算每個特征與每個語義空間的兼容函數(shù)。第四,給定測試圖像,模型選擇一個最為合適的兼容函數(shù)進行預測。LatEm模型將SJE模型中雙線性函數(shù)變更為分段線性函數(shù),是一個線性函數(shù)的集合,其作用是為測試樣本找到最好的線性模型,而選擇的過程可以看成是潛在變量。模型還針對分段函數(shù)無法使用常規(guī)優(yōu)化,提出了改進版的隨機梯度下降(Stochastic Gradient Descent,SGD)與排序損失結(jié)合算法。LatEm 模型結(jié)構(gòu)如圖11所示。
圖11 LatEm模型結(jié)構(gòu)Fig.11 Structure of LatEm model
LatEm模型在挑選樣本方面,選擇AWA、CUB以及斯坦福大學推出的狗集3 個動物數(shù)據(jù)集。最終實驗在AWA 數(shù)據(jù)集中最高可獲得71.9%的準確率;能在CUB數(shù)據(jù)集中最高獲得45.5%的準確率。
由于LatEm模型考慮了圖像的重要信息,使得它在細粒度分類上表現(xiàn)出來的效果在當下依然能夠達到不錯的效果。當然,在語義一致性以及空間對齊方面的問題也使得這個模型有些瑕疵。
(6)Semantic Similarity Embedding(SSE)
SSE模型[74]在ICCV 2015會議上提出,其假設不可見類為按照一定比例的混合的可見類。通過直方圖將所有數(shù)據(jù)(包括可見類和不可見類)表示為多個百分比的可見類。直方圖可以看作是可見類與不可見類之間的公共空間。SSE 模型將多種語義信息進行融合嵌入到公共空間,同時也將圖像信息也嵌入到公共空間,計算兩者的相似度。如果語義空間映射到直方圖與圖像空間映射到直方圖相似,則將兩者歸為一類,繼而完成對不可見類的預測。SSE 模型推理過程如圖12 所示。模型針對僅使用分布對齊時會導致分類錯誤的問題以及僅考慮分類會出現(xiàn)沒有完全對齊的問題,提出優(yōu)化的結(jié)合分布對齊和實例分類的零樣本學習。
圖12 SSE模型推理過程Fig.12 Reasoning process of SSE model
SSE 模型在挑選樣本方面,選擇AWA、CUB、aPY、SUN 這4 個數(shù)據(jù)集。在數(shù)據(jù)集配置上AWA 數(shù)據(jù)集按50%為訓練集,50%為測試集劃分,CUB數(shù)據(jù)集分為150個訓練類和50個測試類,aPY數(shù)據(jù)集與AWA相同,SUN數(shù)據(jù)集中10 類作為測試集。最終實驗在4 個數(shù)據(jù)集上分別最高可獲得76.33%、40.3%、46.23%、82.5%準確率。SSE 模型能夠應用于大規(guī)模數(shù)據(jù)集,文獻[92]的實驗結(jié)果證明了這個優(yōu)點,并且其在SUN 數(shù)據(jù)集上的運行效果穩(wěn)定。但是,由于模型的類別是混合組成的,其對細粒度的分類并不能很好的識別。
(7)Joint Latent Similarity Embedding(JLSE)
JLSE 模型[75]在CVPR 2016 會議上提出,其首先使用SVM,通過雙線性函數(shù)學習語義空間到其子空間以及圖像空間到其子空間的映射。最后計算兩個子空間之間的相似度。而子空間是通過概率模型得到的與原空間概率分布類似的空間。JLSE模型能夠極大地減緩語義間隔的問題。
JLSE模型在挑選樣本方面,選擇AWA、CUB、aPY、SUN 這4 個數(shù)據(jù)集。在數(shù)據(jù)集配置上與SSE 模型相同。最終實驗在4個數(shù)據(jù)集上分別最高可獲得80.46%、42.11%、50.35%、83.83%準確率。
(8)Cross Modal Transfer(CMT)
CMT 模型[72]在NIPS 2013 會議上提出。與LatEm模型使用分段線性函數(shù)不同的是,CMT 模型通過兩層隱藏層的神經(jīng)網(wǎng)絡將從圖像中提取到的特征信息直接映射到50 維詞向量空間中。針對廣義零樣本學習問題,模型對所給的測試樣本先進行分類,屬于可見類還是不可見類。由于是在語義空間中進行分類,模型給出離群點檢查方法。對于可見類,使用傳統(tǒng)的Softmax 分類器進行分類;對于不可見類,則使用混合高斯模型進行預測。
CMT 模型在挑選樣本方面,選擇CIFAR10 數(shù)據(jù)集。最終實驗在不可見類分類上最高可獲得30%的準確率。
(9)Deep Embedding Model(DEM)
DEM 模型[66]在CVPR 2017 會議上提出,其與之前的嵌入到語義空間以及嵌入公共空間模型不同,模型選擇圖像空間進行嵌入。原因是圖像空間的信息遠比語義空間多,并能夠相對的減緩樞紐點問題。DEM 模型與DEVISE模型的架構(gòu)基本一致。第一,將圖像通過卷積神經(jīng)網(wǎng)絡(Convolutional Neural Networks,CNN)提取特征,形成特征空間。第二,語義表示可以有三種形式:一種語義、多種語義以及圖像的文本描述,第三種表示方式需要先通過雙向RNN 進行編碼,最后通過兩個全連接層(FC)以及線性整流函數(shù)(Rectified Linear Unit,ReLU)提取語義信息。第三,這兩個分支通過最小二乘損失函數(shù)進行連接。DEM模型結(jié)構(gòu)如圖13所示。
圖13 DEM模型結(jié)構(gòu)Fig.13 Structure of DEM model
DEM 模型在挑選樣本方面,選擇AWA、CUB 和ImageNet子集ILSVRC這3個數(shù)據(jù)集。在數(shù)據(jù)集配置上AWA、CUB 數(shù)據(jù)集采用SJE 模型配置,ImageNet子集采用360個類作為測試類。最終實驗在3個數(shù)據(jù)集上分別最高可獲得88.1%、59.0%、60.7%準確率。
DEM 模型除了有減緩樞紐點問題的優(yōu)點外,還能夠適用于多個模態(tài),并且提供端到端的優(yōu)化,能夠帶來更好的嵌入空間。但是,模型也只是停留在理論層面的優(yōu)勢,在實踐過程中,對零樣本學習的效果不佳。
以上的模型都是基于嵌入的模型,它們之間的比較如表2所示。
表2 基于嵌入的零樣本學習模型比較Table 2 Comparison of zero-shot learning based on embedding
近年來,生成模型這一發(fā)現(xiàn),引爆了計算機視覺許多領(lǐng)域,眾多具有高實用價值的應用脫穎而出。現(xiàn)階段生成模型有生成對抗網(wǎng)絡(Generative Adversarial Network,GAN)、自動編碼器(AutoEncoder,AE)、生成流(FLOW)。而在零樣本學習領(lǐng)域,將語義信息嵌入到圖像空間經(jīng)常使用生成模型。在獲取已知類視覺信息與語義信息的前提下,通過已知類與不可知類語義的連貫性,生成不可見類的樣本,使得零樣本學習變?yōu)閭鹘y(tǒng)的監(jiān)督學習,將生成模型運用到極致。
(1)Semantic AutoEncoder(SAE)
零樣本學習與AE 的結(jié)合。SAE 模型[61]在CVPR 2017會議上提出,其將語義空間作為隱藏層,通過編碼器將可見類圖像信息映射到語義空間,再通過已知類與不可知類語義的連貫性,使用解碼器將語義信息生成不可見類圖像,繼而將零樣本學習轉(zhuǎn)化為傳統(tǒng)的監(jiān)督學習。SAE 模型的前提條件是圖像信息到語義空間的映射矩陣是語義空間生成圖像的嵌入矩陣的轉(zhuǎn)置,并且加入了有懲罰項的約束,即圖像信息到語義空間的嵌入矩陣與可見類圖像信息表示的乘積等于隱藏層表示。這使得編碼后的圖像能夠盡可能的保留原始圖像的所有信息。SAE模型結(jié)構(gòu)如圖14所示。
圖14 SAE模型結(jié)構(gòu)Fig.14 Structure of SAE model
正是因為如此,SAE模型不僅模型簡單,效果好,還能夠運用于廣義零樣本學習,更能夠解決領(lǐng)域漂移問題。但是SAE 模型所使用的語義信息與圖像信息的嵌入函數(shù)過于簡單且固定,無法生成高質(zhì)量圖片,不能十分精確地預測不可見類樣本。
SAE 模型在挑選樣本方面,選擇AWA、CUB、aPY、SUN 和ImageNet 子集ILSVRC 這5 個數(shù) 據(jù)集。在數(shù)據(jù)集配置上采用1.4節(jié)的一般配置。最終實驗在5個數(shù)據(jù)集上分別最高可獲得84.7%、61.4%、55.4%、91.5%、46.1%準確率。
(2)f-x Generative Adversarial Network(f-xGAN)
零樣本學習與生成對抗網(wǎng)絡(GAN)的結(jié)合。f-xGAN模型在CVPR 2018會議上提出,指的是f-GAN、f-WGAN、f-CLSWGAN模型[48]的總稱,其強調(diào)的是生成特征,而不是生成圖像。首先,將圖片特征通過卷積神經(jīng)網(wǎng)絡提取出來。卷積神經(jīng)網(wǎng)絡可以其他特定任務訓練得出的,例如GoogleNet、ResNet、ImageNet 預訓練模型。其次,結(jié)合隨機噪聲以及語義信息,通過生成網(wǎng)絡得到生成特征。這個生成網(wǎng)絡可以是一般的條件生成對抗網(wǎng)絡GAN,也可以是加上優(yōu)化的Wasserstein距離的WGAN,亦或是在WGAN 基礎(chǔ)上加上分類損失的CLSWGAN。再而將語義信息、圖像特征以及生成特征一并放入判別器。最后產(chǎn)生的不可見類特征放入分類其中,完成對不可見類數(shù)據(jù)的預測。f-xGAN分類過程如圖15所示。
圖15 f-xGAN分類過程Fig.15 Classification process of f-xGAN model
f-xGAN 模型沒有訓練語義與圖像之間的嵌入關(guān)系,而是通過生成特征,將圖像分類轉(zhuǎn)化為圖像特征分類來進行零樣本學習。生成特征方法的好處在于生成特征數(shù)量無限,計算量小,訓練時間少,效果好,還能夠運用于廣泛零樣本學習。但由于f-xGAN模型使用的是生成對抗網(wǎng)絡,生成數(shù)據(jù)的概率分布可能并不在給定數(shù)據(jù)上,會導致出現(xiàn)模型奔潰。
f-xGAN 模型在挑選樣本方面,選擇AWA、CUB、SUN、FLO(Oxford Flowers)這4個數(shù)據(jù)集。在數(shù)據(jù)集配置上采用1.4節(jié)的一般配置。最終實驗在4個數(shù)據(jù)集上分別最高可獲得69.9%、61.5%、62.1%、71.2%準確率。
(3)Invertible Zero-shot Flow(IZF)
零樣本學習與流模型(FLOW)的結(jié)合。IZF模型[73]在ECCV 2020會議上提出,其利用FLOW的思想,通過可逆神經(jīng)網(wǎng)絡將已知類圖像特征映射到語義和非語義空間,再利用可逆神經(jīng)網(wǎng)絡的逆網(wǎng)絡直接生成不可知類樣本,進而將零樣本學習轉(zhuǎn)化為傳統(tǒng)的監(jiān)督學習。IZF結(jié)構(gòu)如圖16所示??赡嫔窠?jīng)網(wǎng)絡的優(yōu)點使得該模型只需要訓練一次網(wǎng)絡,得到參數(shù),就可以直接運用于其逆網(wǎng)絡,無需再次訓練網(wǎng)絡。
圖16 IZF結(jié)構(gòu)Fig.16 Structure of IZF model
IZF 模型通過雙向映射,充分的利用已知類信息,不僅解決了生成對抗網(wǎng)絡在零樣本下學習應用中出現(xiàn)的模式奔潰問題,還解決了自動編碼器在零樣本學習中無法生成高質(zhì)量圖片問題。IZF 模型更是通過擴大已知類與不可知類的分布,解決了零樣本學習固有的領(lǐng)域漂移問題。但是IZF 模型與傳統(tǒng)的流模型NICE[100]、RealNVP[101]、GLOW[102]一樣有明顯的兩個缺點:其一,可逆神經(jīng)網(wǎng)絡很難構(gòu)建;其二,多次變換所需求得的雅可比行列式復雜,計算量龐大,訓練時間長。
IZF模型在挑選樣本方面,選擇AWA1、AWA2、CUB、aPY、SUN 這5 個數(shù)據(jù)集。在數(shù)據(jù)集配置上采用1.4 節(jié)的一般配置。最終實驗在5 個數(shù)據(jù)集上分別最高可獲得80.5%、77.5%、68.0%、60.5%、57%準確率。
綜上所述,在預測不可見類數(shù)據(jù)標簽方面,基于屬性的零樣本學習多采用兩階段式,嵌入零樣本學習多采用轉(zhuǎn)移到能夠比較的空間方式,生成模型零樣本學習多采用生成不可見類樣本方式。在數(shù)據(jù)集方面,小數(shù)據(jù)使用AWA、CUB、aPY、SUN。如需進行細粒度識別,則使用CUB、SUN 數(shù)據(jù)集。大數(shù)據(jù)集使用ImageNet。并且搭配常用的配置進行訓練與測試。在評估指標方面,采用劃分傳統(tǒng)零樣本學習以及廣義零樣本學習的配置,以可見類、不可見類每類準確率為指標,是一個零樣本學習模型最佳的評估方案。在實現(xiàn)效果方面,上述模型中在廣義零樣本配置下,不可見類每類準確率在AWA、CUB、aPY、SUN數(shù)據(jù)集中最高的分別是IZF、IZF、DEM、IZF 模型??梢婎悳蚀_率則是DAP、IZF、SAE、IZF 模型。在局限性方面,基于屬性的模型取決于分類器的準確率,基于嵌入的模型取決于提供的語義信息質(zhì)量,基于生成模型的模型取決于生成圖片的智力。零樣本學習經(jīng)典模型發(fā)展如圖17 所示;零樣本學習模型比較如表3所示。
表3 零樣本學習經(jīng)典模型比較Table 3 Comparison of classic zero-shot learning model
圖17 零樣本學習經(jīng)典模型發(fā)展過程Fig.17 Development of classic zero-shot learning model
本章主要介紹零樣本學習在三個維度的應用。第一維是詞。使用零樣本學習技術(shù)對詞作處理,并應用于多個領(lǐng)域。第二維是圖片。在第一維應用中產(chǎn)生的文本信息可以作為語義信息,嵌入到視覺空間中,推進零樣本學習在圖片處理過程的應用。第三維是視頻。視頻中的每一幀可作為圖片。將視頻切分為圖片,運用第二維的方法,使零樣本學習在視頻方面的應用更進一步。
(1)對話系統(tǒng)
對話是由多個詞組成。在對話系統(tǒng)中,涉及的技術(shù)有語音識別(ASR)、口語理解(SLU)、對話管理(DM)、自然語言生成(NLG)、文本生成語音(TTS)。按照流水線結(jié)構(gòu)組成對話系統(tǒng)如圖18所示。而零樣本學習對對話系統(tǒng)的應用的貢獻也是十分巨大的。例如文獻[103]構(gòu)建了一個統(tǒng)計口語理解模型,將口語理解模型推廣到訓練中從未出現(xiàn)的輸入詞或者訓練中從未出現(xiàn)的輸入類。在一個舊金山餐廳對話數(shù)據(jù)集中,實驗出統(tǒng)計口語理解模型比支持向量機更好的運用于零樣本學習,且這個模型大大減少了人工標注數(shù)據(jù)的數(shù)量。
圖18 流水線型對話系統(tǒng)Fig.18 Pipeline dialogue system
(2)機器翻譯
語言是詞的多種形式。在機器翻譯中,F(xiàn)aceBook開發(fā)了一款包含90多種語言和28種不同字母表編寫的工具包:LASER。該模型的原理是將所有語言使用多層BiLstm進行訓練。LASER所有語言嵌入與傳統(tǒng)單語言嵌入的區(qū)別如圖19 所示。在介紹文本中,LASER 首先通過英語這一語種的數(shù)據(jù)進行訓練,然后應用于中文、俄文、越南語等語言上,最終都取得了很好的結(jié)果。這個模型的成功說明對于一些沒有樣本甚至早已不可考究的生僻語種(如斯瓦西里語),可以通過已知語種的信息對生僻語種進行推理翻譯,進而實現(xiàn)零樣本學習的應用價值。
圖19 語言嵌入對比Fig.19 Comparison of language embedding
(3)文本分類
文本是由多個、多種詞組成的。在文本分類中,文獻[104]采用簡單的單詞嵌入來計算標簽與文本之間的語義相似度,進而預測出不可見類數(shù)據(jù)的標簽。這個模型還能夠解決文本多標簽問題。
(1)圖像檢索
在圖像檢索方面,涉及的技術(shù)有基于文本的圖像檢索技術(shù)以及基于圖像內(nèi)容的圖像檢索技術(shù)。文獻[105]構(gòu)建了一種基于混合對象注意模塊以及通道注意模塊的模型來加強學習度量內(nèi)的區(qū)分和泛化,從而運用于零樣本的基于圖像內(nèi)容的圖像檢索。該模型最終在CUB數(shù)據(jù)集上取得了比當年最好的圖像檢索技術(shù)更好的效果。同時,這也是零樣本學習與注意力機制的重要結(jié)合。
(2)目標識別
在目標識別方面,文獻[106]使用屬性描述來識別新出現(xiàn)的類別。這個模型在AWA 數(shù)據(jù)集上,對動物識別的準確率非常高。文獻[107]提出兩種方法對新出現(xiàn)的人臉在傳統(tǒng)人臉識別上效果不好的問題進行優(yōu)化。第一種方法采用屬性分類器識別人臉圖像可描述屬性的存在與否,并預測出其屬于哪類人。第二種方法使用名為微笑的分類器,旨在計算臉部區(qū)域與特定人之間的相似性,繼而進行人臉識別。這兩種方法的核心思想正是參考零樣本學習屬性以及嵌入的思想。這也是零樣本學習在目標識別的重要應用。文獻[108]構(gòu)建了一種以WordNet 大型社交多媒體語料庫為語義嵌入的對象分類器,實現(xiàn)對沒有出現(xiàn)場景的識別。最終,通過實驗證明該模型在SUN以及Places2兩個大型數(shù)據(jù)集上表現(xiàn)優(yōu)于屬性模型。同時,稀有物種的識別也是零樣本學習在圖像上的重大應用。
(3)語義分割/圖像分割
在語義分割方面,文獻[109]提出一種新的模型ZS3NET。該模型結(jié)合深度視覺分割以及語義信息嵌入生成視覺特征的方法,實現(xiàn)零樣本語義分割任務。最終在PASCAL-VOC和PASCAL-CONTEXT兩個標準分割數(shù)據(jù)集上的實驗,ZS3NET在零樣本語義切分任務中表現(xiàn)出良好的性能,并且解決了廣義零樣本學習問題。
在圖像分割方面,在2021 年的CVPR 會議上,提出零樣本圖像分割的解決方案:基于背景感知的檢測-分割算法;并且文獻定義了零樣本下圖像分割的標準,為數(shù)據(jù)樣本難以獲取的兩個代表性領(lǐng)域:醫(yī)療以及工業(yè)后續(xù)的發(fā)展提供可行性方案。
(1)人體行為識別
人體行為識別領(lǐng)域,由于收集和標注視頻中行為是十分困難且費力的工作,零樣本學習通過文本的描述等信息可實現(xiàn)無樣本識別大受歡迎。文獻[110]通過支持向量機模型學習視頻和語義屬性之間映射,進而實現(xiàn)零樣本人體行為識別。文獻[14]將詞向量作為可見類與不可見類之間的聯(lián)系,通過嵌入視頻以及標簽實現(xiàn)零樣本人體行為識別。文獻[111]通過空間感知嵌入實現(xiàn)零樣本人體行為識別的定位以及分類。
(2)超分辨率
超分辨率領(lǐng)域,零樣本學習概念的引入,使得這個領(lǐng)域有了突破性的進展。超分辨率技術(shù)如圖20 所示。與傳統(tǒng)的超分辨率技術(shù)——提供高分辨率以及其對應的低分辨率樣本進行訓練不同,零樣本超分辨率技術(shù)只需要提供低分辨率樣本,然后通過退化(生成)模型得到更低分辨率的樣本后進行訓練即可。零樣本超分辨率技術(shù)目前應用于多個領(lǐng)域,如在公共安全領(lǐng)域?qū)z像頭抓拍到的視頻進行超分辨率,以便公共安全部門進行識別;在醫(yī)療領(lǐng)域?qū)︶t(yī)生遠程會診的視頻進行超分辨率,恢復重要的局部細節(jié)[112]。
圖20 超分辨率Fig.20 Super resolution
作為新興的研究領(lǐng)域,零樣本學習已經(jīng)具備了較為完整的理論體系和實際應用。根據(jù)嵌入方式的不同,其算法主要分為三大類,包括語義空間到視覺空間嵌入、視覺空間到語義空間嵌入和語義空間/視覺空間到第三公共空間嵌入。語義空間、視覺空間以及第三方空間,在機器學習領(lǐng)域也稱為模態(tài)。由于受到模態(tài)內(nèi)部的數(shù)據(jù)噪聲、跨模態(tài)間數(shù)據(jù)的異構(gòu)性以及跨模態(tài)導致的信息丟失等影響,使得零學習領(lǐng)域的性能仍具有較大的提升空間。目前,零樣本學習領(lǐng)域中面臨的主要挑戰(zhàn)如下:
(1)由于零樣本學習需要進行跨模態(tài)間的數(shù)據(jù)分析,因此,如何有效化解1.3 節(jié)所提到的語義間隔,將不同模態(tài)信息對齊并映射到相同的特征空間成為首要解決的問題。為此,研究人員分別提出了3種嵌入方案進行解決:語義到視覺的嵌入方法將可見類和不可見類的語義特征嵌入到同一個視覺空間進行對比;視覺到語義的嵌入方法將可見類和不可見類的視覺特征嵌入到同一個語義空間進行對比;語義特征/視覺特征到第三方公共空間嵌入將語義特征和視覺特征同時嵌入到同一個第三空間進行比對。這些方法很好地解決了多模態(tài)數(shù)據(jù)在比對時信息不對稱的問題,然而,這些方法僅簡單地對跨模態(tài)數(shù)據(jù)進行對齊,并未考慮數(shù)據(jù)本身存在的噪聲、信息不足等問題在多模態(tài)對齊時造成的影響。此外,這些方法在進行模態(tài)間的信息對齊時,丟失了大量模態(tài)轉(zhuǎn)化前的原始信息,并未綜合考慮不同映射方式之間存在的相互共享和補充的情況。
(2)在零樣本學習中普遍存在一個問題,即第1.3節(jié)提到的領(lǐng)域偏移問題,其問題的本質(zhì)是不同模態(tài)數(shù)據(jù)之間存在較大的鴻溝。針對這個問題,研究人員提出了許多處理方法,例如:采用語義—視覺—語義或視覺—語義—視覺的雙重嵌入方式來保證語義—視覺的強對應關(guān)系。這些方法雖然能夠很好地解決語義—視覺的對應關(guān)系,但是卻以較多置信度低的語義—視覺嵌入關(guān)系為代價。由于多個模態(tài)之間儲存的信息差異較大,在進行雙重嵌入方式構(gòu)造對應關(guān)系時,會由于不同模態(tài)間的數(shù)據(jù)存在差異,影響最終的對齊效果。因此,如何有效地幫助信息儲備較低的模態(tài)引入更多信息是處理該挑戰(zhàn)的關(guān)鍵。
(3)零學習任務中可見類和不可見類的相關(guān)性會直接影響模型在不可見類上的預測性能。當可見類(如動物)與不可見類(如家具)相關(guān)性較小,存在較大的分布差異時,很容易出現(xiàn)領(lǐng)域漂移行為,導致模型在不可見類的識別性能降低甚至是無法識別,即出現(xiàn)遷移學習中的負遷移現(xiàn)象。如何簡單有效地度量可見類與不可見類之間的差異來對模型進行自適應調(diào)整,迄今為止沒有一個通用的方法。
(4)目前,零樣本學習方法的訓練模式較為單一,缺少協(xié)同訓練(co-training)的過程。由于零樣本學習的跨模態(tài)特性,致使其對于模態(tài)噪聲更加敏感,而零樣本學習本身就具備多模態(tài)、多視角的特征,使得在零學習中的協(xié)同訓練更加具有研究意義。文獻[113-116]中已經(jīng)提出使用不同質(zhì)(即不同模態(tài)或不同視角)的多個基礎(chǔ)學習器協(xié)同訓練可以有效提高學習模型的泛化能力。對于不可見類數(shù)據(jù)已知但其標簽未知的情況,如何設計有效的協(xié)同訓練方案,來挑選出可靠的、高置信度的樣本進行進一步挖掘和訓練并有效提高零學習的整體性能,是一個有待深入的問題。
針對以上4個挑戰(zhàn),引入集成學習思想是一個可行的解決方案。集成學習(Ensemble Learning)[117]是指通過構(gòu)建并組合多個分類器(弱分類器)來完成同一個學習任務的機器學習方法,由于其具有比單一學習器更加顯著的泛化性能而被廣泛應用于情感識別[118-119]、文本分類[120-121]、圖像分類[122-123]等多個研究領(lǐng)域,具有廣闊的應用前景。隨著集成學習研究的迅速發(fā)展,目前在零樣本學習研究工作中已經(jīng)出現(xiàn)了大量的引入集成學習思想來提高零樣本學習性能的研究成果[12,124]。相較于傳統(tǒng)的單模型零樣本學習算法,集成零樣本學習模型主要有以下優(yōu)勢:(1)集成樣本零學習方法具有更好的泛化性能;(2)集成零樣本學習通過對多模態(tài)數(shù)據(jù)進行挖掘和集成,可以解決多模態(tài)數(shù)據(jù)在語義對齊(跨模態(tài))時導致的信息丟失問題,盡可能利用不同模態(tài)間的特征信息;(3)集成零樣本學習對每個模態(tài)數(shù)據(jù)進行多視角挖掘,構(gòu)建多視角中樞,解決零樣本學習方法在學習過程中出現(xiàn)的領(lǐng)域偏移問題,增加模型泛化性;(4)集成零學習方法對于復雜的分布環(huán)境,如:噪聲、異構(gòu)數(shù)據(jù)、復雜數(shù)據(jù)分布等,具有很強的抗干擾能力。因此,如何產(chǎn)生差異性更大、泛化能力更強的多個跨模態(tài)語義對齊模型,并基于此構(gòu)建源自不同視角的學習器,進而最終獲得比單一學習器性能更好的集成零學習方法,是4個挑戰(zhàn)的潛在解決思路。
本文通過124 篇文獻對零樣本學習的理論體系進行回顧,綜述不同領(lǐng)域的應用情況。首先,通過零樣本的研究背景推出其具體定義,并與傳統(tǒng)的監(jiān)督學習和廣義零樣本學習進行比較。其次,對零樣本學習研究過程中出現(xiàn)的關(guān)鍵問題以及應用中經(jīng)常使用數(shù)據(jù)集進行介紹。從零樣本學習關(guān)鍵技術(shù)、屬性、嵌入以及生成模型,按照出現(xiàn)的時間順序列舉了13 種經(jīng)典模型,并對模型的過程、優(yōu)點、缺點進行描述。然后,總結(jié)近些年來零樣本學習在詞、圖像、視頻中的應用。最后,根據(jù)關(guān)鍵問題以及實際中應用難題,提出零樣本學習領(lǐng)域的4 個挑戰(zhàn),并引入集成學習來應對這些挑戰(zhàn),為研究者們提供新的研究方向。