• <tr id="yyy80"></tr>
  • <sup id="yyy80"></sup>
  • <tfoot id="yyy80"><noscript id="yyy80"></noscript></tfoot>
  • 99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看 ?

    基于知識的零樣本視覺識別綜述*

    2021-03-06 09:28:52馮耀功桑基韜楊朋波
    軟件學報 2021年2期
    關鍵詞:標簽語義樣本

    馮耀功 ,于 劍 ,桑基韜 ,楊朋波

    1(北京交通大學 計算機與信息技術學院,北京 100044)

    2(北京交通大學 人工智能研究院,北京 100044)

    大數(shù)據(jù)時代的到來,使得深度學習的熱度持續(xù)高漲.但是同時,深度學習的模型也暴露出了很大的問題,其在訓練過程中,特別依賴大規(guī)模、強標記的數(shù)據(jù),往往意味著要耗費極大的人力和物力.針對此問題,有研究者提出了新的學習方式,比如依靠弱標記數(shù)據(jù)訓練模型的弱監(jiān)督學習[1];除此之外,如何通過之前已獲得的知識并用于新的學習任務或者過程,大大減輕數(shù)據(jù)標注的壓力,也成為人們解決這一問題的新出發(fā)點.受這一思想的驅(qū)動,元學習(meta learning)[2]、零樣本學習(zero-shot learning,簡稱ZSL)[3-5]和小樣本學習(few-shot learning,簡稱FSL)[6]等概念變得火熱,并且都有所進展.

    人們往往具備知識遷移的能力;在大多數(shù)情況下,人們可以結(jié)合已有知識,并通過針對未知事物較為具體的文字描述,借助標簽-視覺對應關系來認知這一新事物.例如,通過已有知識“斑馬擁有大熊貓的黑白色彩、老虎的花紋、馬的形態(tài)”這樣的描述,該人即使從未見過斑馬,也能夠大致推斷出斑馬的樣子;這即是零樣本學習最直觀的解釋.零樣本學習最早見于文獻[7],從數(shù)學角度來定義,其具體是指:給定一些有標記的訓練樣本,包含了這些有標記樣本的類別,稱為可見類(seen classes),也稱為源域(source domain),其中,可見類數(shù)據(jù)記為Xtr,標簽記為Ytr;同時還有一些無標記的樣本,包含這些無標記樣本的類,稱為不可見類(unseen classes),也稱為目標域(target domain),數(shù)據(jù)記為Xte,標簽記為Yte.需要指出的是,在零樣本學習中,Ytr∩Yte=?,模型在源域中訓練,在目標域中測試.但是,原始的零樣本學習往往又有兩種基礎擴展:(1) 依據(jù)在訓練過程中是否使用了無標記的Xte,零樣本學習又分為歸納式零樣本學習(inductive zero-shot learning)(使用了Xte)和直推式零樣本學習(transductive zero-shot learning)(未使用Xte);(2) 依據(jù)在測試過程中測試類別是否包含可見類,零樣本學習又分為傳統(tǒng)零樣本學習(zero-shot learning)(不包含可見類)和泛化零樣本學習(general zero-shot learning)(包含可見類).如果在訓練過程中,有少量的不可見類有標記數(shù)據(jù)參與到訓練過程中,那么零樣本學習就轉(zhuǎn)化為小樣本學習;零樣本學習和小樣本學習兩者又合稱少樣本學習(low-shot learning)[8].因此,零樣本學習是小樣本學習的一種更加極端的情況.

    通過上面的定義和所舉例子表明,零樣本學習本質(zhì)上是用遷移學習(transfer learning)[9]的思想來解決問題的.即從一個域/任務/分布中學出一個有效的模型,然后遷移到新的域/任務/分布.這與遷移學習中域適應的思想內(nèi)核是類似的.所以研究者也經(jīng)常將域適應(domain adaptation)任務與零樣本學習任務作比較[3,10,11](文獻[12]提到了域不變性).而這兩者最大的區(qū)別就在于:在零樣本問題中,可見類與不可見類的交集為空集.因此,零樣本學習可以被視作是一個特殊的遷移學習任務.并由于這種遷移性和隨之帶來的空間變換,在本領域長久以來存在著域偏移(domain shift)[13,14]問題和樞紐點(hubness)[15]問題:前者是因為數(shù)據(jù)特征空間的不同所帶來的特征表示內(nèi)容發(fā)生偏移的問題;后者是由于數(shù)據(jù)特征維度的變化所帶來的“某些不相關點會成為大多數(shù)點的最近鄰點”,進而會影響對不可見類數(shù)據(jù)進行認知的問題.詳細內(nèi)容我們將會結(jié)合模型細節(jié)在第4 節(jié)展開闡述.

    文獻[3]中指出:“零樣本認知的關鍵就在于如何挖掘出不可見類與可見類之間語義上相關聯(lián)的知識”.所以從知識遷移的角度出發(fā),零樣本學習的成立也存在一個先驗條件,那就是可見類和不可見類數(shù)據(jù)之間須存在某種形式的知識關聯(lián).直觀理解,這種關聯(lián)性越強,模型效果越好.綜上,零樣本問題中知識的獲取和遷移就是其關鍵核心.基于這樣的認識,本文首先對“知識”的獲取進行了全面的發(fā)掘,將其概念范疇定義了3 個層次:1.初級知識,即從數(shù)據(jù)集中直接可以獲取的知識,比如屬性、類別標簽、視覺特征等;2.抽象知識,即多個數(shù)據(jù)包含的知識,比如數(shù)據(jù)概率、流形分布等;3.外部知識,比如人類已經(jīng)建立的知識庫等.具體內(nèi)容我們將在第1 節(jié)詳細論述.依據(jù)劃分好的知識層次,本文進一步梳理了現(xiàn)有的零樣本學習工作,即知識的遷移方式,具體論述將放在第2 節(jié).

    本文工作相較于文獻[5]中歸納式和直推式的模型分類方法,其基于知識遷移的分類方法能夠幫助人們更好地理解當前“數(shù)據(jù)+知識驅(qū)動”的思想潮流,也更加接近零樣本學習任務的本質(zhì)問題,即“在目標域和源域之間,通過何種形式的知識,才能更好地搭建起兩者之間的橋梁”.在Rohrbach 等人[16]的工作中,將零樣本學習領域基于知識的遷移方式分為3 個方向:(1) 利用類別來構(gòu)建的“從一般到特殊”的層次化的體系結(jié)構(gòu)(例如WordNet知識庫);(2) 基于提取類別之間通用的可視屬性,將不同類的特征視作是屬性激活的不同模式;(3) 基于與相關類的直接相似性,有效使用大多數(shù)相似類的分類器.但是由于技術的快速發(fā)展,這樣的分類方式是遠不夠全面的;并且從本質(zhì)上講,這也是因為對零樣本學習中“知識”本身的定義不甚清晰造成的.因此,本文基于第1 節(jié)中所定義的知識,在第2 節(jié)中對現(xiàn)有的零樣本工作(主要是關于圖像分類任務)進行梳理.相比于文獻[3],本文中對知識的定義也更加全面.本文中除“知識”的表述之外,“語義”也是本文的常用表述.而中文的“語義”一詞相較于英文“semantic”,往往涵蓋內(nèi)容更加廣泛,并且相關文獻并沒有對“語義”做出準確定義.因此在本綜述中,我們結(jié)合國內(nèi)外文獻資料,對其進行了一定程度的狹義化:將“語義”狹義化為僅指向“文本的特征表示(例如標簽或者屬性,這也對應視覺信息經(jīng)過高度抽象化之后的特征表示)”,它們的共性在于維度較低,且更為抽象.

    除了本文主要涉及的圖像分類任務之外,零樣本學習的策略也運用在很多其他任務領域,諸如識別任務[17-36]、語義分割[37]、圖像檢索(image retrieval)[38-40]、視頻理解(video understanding)[41-44]、檢測任務[45-50]等其他視覺任務領域;還有自然語言處理(natural language processing,簡稱NLP)[51,52]等文本領域的任務.但是NLP 領域內(nèi)的工作相對較少,并且我們可以簡單理解為:在現(xiàn)有視覺模型的框架下,對視覺數(shù)據(jù)的處理轉(zhuǎn)向?qū)ξ谋緮?shù)據(jù)的處理.總體來講,零樣本學習正在滲透到實際應用的方方面面.

    本文第1 節(jié)詳細闡述在零樣本視覺識別任務中,知識的層次以及各自的表示形式.第2 節(jié)介紹基于不同層次知識構(gòu)建的零樣本學習模型.第3 節(jié)則重點闡述目前本領域中一直以來存在的兩個主要問題:domain shift 問題和hubness 問題,并基于問題對現(xiàn)有工作進行總結(jié)歸納.第4 節(jié)介紹本領域的通用數(shù)據(jù)集、評估標準(分類任務)和實驗.最后對未來研究趨勢進行一定的展望.

    1 零樣本視覺識別任務中的知識及表示

    零樣本學習的關鍵在于“知識”從可見類到不可見類的有效遷移.傳統(tǒng)來講,人們習慣于從知識的存在形式上對知識進行理解和分類.從這個角度來看,知識總體上可以分為4 種:文本形式、視覺形式、數(shù)據(jù)分布形式和符號形式.這樣劃分有助于人們更好地理解不同存在形式的知識本身具備的優(yōu)缺點,見表1.

    Table 1 Existence form of different knowledge and its advantages and disadvantages表1 知識的存在形式以及優(yōu)缺點

    其中,文本形式的知識,無論是人類對特定數(shù)據(jù)集進行的定義還是通過外部獲取提取,雖然其擁有明確的描述性,但是由于其數(shù)量和維度的限制,以及其中可能存在的噪聲,這類知識并沒有足夠的判別力來對不同類別進行區(qū)分.而視覺信息是數(shù)據(jù)不同類別的真實反映,因此其更具有判別性,但它們中可能包含了更多無法描述的信息(non-robust features)[53],因此無法像文本數(shù)據(jù)(例如屬性)一樣有較明確的描述性.數(shù)據(jù)分布形式的知識,反映了數(shù)據(jù)集中文本特征或視覺特征的內(nèi)在規(guī)律,更為抽象和高級.從本質(zhì)上來講,絕大多數(shù)的零樣本學習模型所尋求的是不同模態(tài)數(shù)據(jù)之間的對應關系,并尋求這種對應關系的泛化.因此,基于這類更高級特征表示來尋求對應關系的建立,能夠使得模型更好地泛化到目標域中.但為了方便地利用這類知識,有的研究者做出了過于嚴格的假設,例如,“源域和目標域的數(shù)據(jù)流形結(jié)構(gòu)是一致的”等.而符號形式的知識,知識圖譜是其代表,其中包含了豐富的先驗信息,例如不同概念層次以及概念之間的顯式關系等,但是其難點在于知識采用何種技術手段才能盡可能多地保留其先驗內(nèi)容,即如何選取知識的合理表示形式,還有與深度網(wǎng)絡(連接主義)的結(jié)合等問題.

    傳統(tǒng)的知識劃分形式無助于人們理解零樣本學習領域“知識遷移”的發(fā)展歷程,因此,本文結(jié)合近幾年工作,將零樣本問題所用數(shù)據(jù)中蘊含的“知識”定義范疇進行了重新梳理.并根據(jù)知識的來源方式,將其劃分為3 個層次:初級知識、抽象知識以及外部知識.采用這樣的分類方式,有助于人們更好地理解研究者們?nèi)绾瓮ㄟ^知識的挖掘來緩解甚至克服領域中存在的問題.接下來我們將進行詳細的介紹.

    1.1 初級知識

    初級知識,是指從原有數(shù)據(jù)集中直接可獲取的數(shù)據(jù)知識,通常包含了類屬性知識、類標簽知識,以及每條數(shù)據(jù)的視覺特征.

    · 屬性(attribute)

    屬性(attribute)是零樣本學習中最廣泛使用的知識之一,獲得了廣泛的關注.在文獻[41]中,對屬性的定義是指描述某個體或某類所擁有的一系列特性.屬性進一步可以分為視覺屬性、局部屬性.以家豬為對象進行舉例,其視覺屬性可以是“肉粉色”“皮毛”和“條紋”;其局部屬性可以是“4 條腿”“蹄子”和“尾巴”.因此,家豬相對應的視覺屬性以及局部屬性的表示分別為[1,1,0],[1,1,1].從上面的例子中可以看出:屬性向量中的數(shù)字均代表了該個體或者類的某一項特性的有無,且數(shù)值均為二值(0/1).這類屬性知識得到研究者最廣泛的使用,被稱為人工定義的屬性(user-defined attributes),0/1 的數(shù)值分布也被稱為二值屬性向量.

    但是,二值屬性有一個明顯的缺陷,0/1 值并不能表示類間對同一特性的不同強度.例如,家豬和馬都有4 條腿,但是這兩個物種二值屬性的對應表示均為1,但視覺上卻差異巨大.因此,Parikh 等人[54]提出了相對屬性(relative attributes)的概念,即向量的值不僅僅判斷特性的有無,并且對應分值的大小還表示該特性的強弱,從而區(qū)分不同類別在同一特性上的差異.在一些數(shù)據(jù)集[17,35]中,分別使用了二值屬性和相對屬性對同一個目標對象進行描述.

    除了二值屬性和相對屬性之外,還有屬性的自動學習[55],即從數(shù)據(jù)中自動挖掘出相應的屬性知識,這排除了人工定義的屬性的局限性和不確定性,也被稱為數(shù)據(jù)驅(qū)動的屬性(data-driven attributes)[3].

    最后還有視頻屬性(video attributes)[23,26,29,48-50],即提取視頻中的概念(concept)作為視頻屬性.

    總體來看,屬性作為底層視覺像素特征和高層語義特征(即代表了用戶對圖像的理解,例如類別標簽)之間的中間描述層,是對底層特征進行一定抽象的結(jié)果,保留了較多信息的同時,也不至于像高層語義特征一樣丟失很多描述性信息.因此,屬性知識表現(xiàn)出較好的描述性,并進一步具備了較好的共享性和可操作性.例如在AWA2數(shù)據(jù)集中,實現(xiàn)了85 個屬性對50 個動物類別的描述.但是屬性知識需要專家級別的標注,相比簡單的類別標注更加復雜和昂貴,這在一定程度上違背了零樣本學習的初衷.雖然有屬性的自動學習,但是也沒有得到很廣泛的應用.近兩年的趨勢表明:更多研究者傾向于其他更加本質(zhì)的數(shù)據(jù)知識,例如數(shù)據(jù)分布等,而非屬性知識本身表示手段的革新.

    · 類標簽(label)

    類標簽(label)也是零樣本學習中最廣泛使用的知識之一.以Mikolov 等人[56]提出詞向量的概念為起始點,并伴隨著詞嵌入技術的普遍使用,這類知識日益受到了研究者們的關注.常用詞嵌入模型有Word2Vec[57]和Glove[58].獲取類標簽的詞嵌入表示,大致需要進行如下的步驟:首先,使用詞嵌入模型在語料中進行訓練,例如Wikipedia Text;然后得到詞向量矩陣;最后,通過查詢找到類標簽對應的詞嵌入表示.

    通過以上方式得到的類標簽知識的優(yōu)勢是巨大的:首先,詞嵌入的表示是低維稠密的;其次,詞嵌入表示有著很好的空間分布特性,即能夠在空間上很好地顯示出不同詞(每個詞代表一個類別)之間的相似性程度.例如,在詞嵌入空間中,“狗”和“貓”之間的距離要遠小于“狗”和“高樓”之間的距離;還能進一步地作類比和推理,比如“Vec(“國王”)-Vec(“男人”)+Vec(“女人”)≈Vec(“王后)”.通過衡量類間的相似性程度,并將其作為一種零樣本問題的先驗知識,也有助于零樣本問題的解決.但區(qū)別于前面的屬性知識,詞向量表示的每一個維度并沒有明確含義,這意味著詞嵌入之后的類標簽表示沒有類似屬性知識一樣明確的描述性,也就失去了知識的共享性這一性質(zhì).但在很多研究工作中的模型已經(jīng)實現(xiàn)了對屬性和類標簽知識的兼容,即兩者的輸入在模型中可以相互替換.需要指出的是,由于詞嵌入表示是通過詞嵌入模型在語料上的訓練來獲取,而非通過數(shù)據(jù)集中的多個數(shù)據(jù),因此將類標簽歸入到“初級知識”的范疇中.

    · 語義空間中的類原型表示

    在屬性知識和標簽知識中,涉及最多的就是關于“類原型(class prototype)”的表述,是指某個類的代表,而這一代表在語義空間中通常是唯一的,可視作前面屬性知識和類標簽知識概念上的延伸.在語義空間中,Fu 等人[59]將這一空間中的類原型表示對應為屬性向量或者基于類名的詞表示,因為在語義空間中,屬性表示或者是類名稱具備唯一性.因此,很多研究者直接將類標簽的詞嵌入[11,14,20,28,60-62]或者類屬性[13,27,53,59,62-67]作為對應類的類原型,甚至是類別所對應的文本描述[68].其實針對這三者而言,根據(jù)數(shù)據(jù)獲取的情況或者是任務的要求,在絕大多數(shù)情況下可以互換[69].除此之外,也有研究者基于這些知識學出了每個類的類原型表示[29,30,41,42,70,71].

    · 圖像特征(image feature)

    圖像特征(image feature)也是零樣本學習中最廣泛使用的知識之一.廣義來講,圖像特征表示既可以是指人工設計的特征,例如SIFT,HOG 等,也可以是圖像底層的像素級別的特征,還可以是通過各種深度網(wǎng)絡提取的高層抽象的圖像特征.近幾年,隨著端到端深度神經(jīng)網(wǎng)絡框架(例如AlexNet[72],VGG[73]等)的成熟,當前零樣本學習范疇內(nèi)的圖像特征通常是指最后一種.

    1.2 抽象知識

    初級知識在構(gòu)建零樣本模型時存在較大問題,例如,基于語義空間的類原型表示,由于其唯一性,并不能很好地代表類內(nèi)方差較大的數(shù)據(jù)類別;基于初級知識構(gòu)建的映射,也很容易帶來Hubness 的問題等.在這種情況下,進一步挖掘數(shù)據(jù)集合所包含的更加高級的知識來減輕或者消除前面存在的問題,就顯得很有必要.在這種情況下,研究者通過多條數(shù)據(jù)甚至整個數(shù)據(jù)集的總結(jié)歸納,挖掘出數(shù)據(jù)集中的隱藏信息.相較于初級知識,這種類型的知識更能反映出數(shù)據(jù)的本質(zhì)特征,我們稱為抽象知識.這一范疇通常包含基于圖像特征的類原型表示、數(shù)據(jù)的流形分布以及數(shù)據(jù)的概率分布.

    · 基于圖像特征的類原型表示

    基于圖像特征的類原型表示是前面圖像特征的概念延伸,但是其不同于之前基于語義空間的類原型表示,它的表示可以是不唯一的.研究者發(fā)現(xiàn):經(jīng)過深層網(wǎng)絡抽取的圖像高級特征,經(jīng)過t-SNE 算法[74]的降維并進行可視化,其每個類的數(shù)據(jù)在空間中呈現(xiàn)簇狀分布.因此,有研究者直接將最終提取到的某類所有圖像特征[75-78]或者部分圖像特征[79]的均值作為該類的視覺類原型表示(前者可以理解為類的質(zhì)心).但是也有研究者指出[80],基于質(zhì)心的類原型表示并不能讓類間保持很好的判別性.因此,也有模型是通過學習得出的類原型表示[53,80-90].例如,Liu 等人[90]首先基于語義信息來學出類原型表示,然后利用基于均值的圖像類原型表示來進行緊致化的結(jié)果修正.但是就總體而言,單個類原型不能很好地表示類內(nèi)方差較大的類別,因此也有工作[83]將基于圖像特征的單個類原型表示擴展為多個,其大致過程是將該類包含的所有圖像特征,先做聚類,然后將聚類結(jié)果的每個簇的均值作為該類的類原型之一,以更好地表示類內(nèi)方差較大的類別.可以看出,基于圖像特征的類原型表示能力遠大于基于語義空間的類原型表示.

    · 數(shù)據(jù)的流形分布(manifold distribution)

    數(shù)據(jù)的流形分布(manifold distribution)是數(shù)據(jù)集中所有(部分)類的整體分布結(jié)構(gòu),由于視覺特征和語義特征之間存在模態(tài)鴻溝,因此,基于不同表示空間獲取的數(shù)據(jù)流形結(jié)構(gòu)可能也是不一致的.為了更方便進行知識的遷移,研究者常常需要一定的假設來對這種情況進行約束,最常見的是假設兩個空間中的數(shù)據(jù)流形分布一致;通過對齊不同空間中的數(shù)據(jù)結(jié)構(gòu),或者保持映射過程中數(shù)據(jù)的結(jié)構(gòu)性,能夠有效緩解Hubness 問題并獲得泛化能力更好的模型.有的研究者通過兩兩類原型之間的歐式距離(Euclidean distance)或者余弦距離(cosine distance)來構(gòu)建數(shù)據(jù)的結(jié)構(gòu)圖[28,29,53,59,76,88,91-95],這雖然能夠直接反映出兩個類別之間的相似程度,但是這樣簡單直接的計算只是基于二維空間分布的前提條件下,一定程度上忽略了數(shù)據(jù)的分布可能存在更為豐富的流形結(jié)構(gòu)(歐式空間只是流形空間的一個特殊情況).例如,某些對象類會組成超類,并位于相同的子流形上,如果此時再用歐式距離或者余弦距離進行度量,就有可能出現(xiàn)如圖1[14]所示的情況(如果使用歐式距離進行度量,那么x將被劃分到z1類;如果考慮數(shù)據(jù)的流形分布結(jié)構(gòu),那么x將被分類到z2類),進一步影響測試集數(shù)據(jù)的正確分類.因此,有的研究者[13,14,60,87,96]基于更加復雜的數(shù)據(jù)流形分布,進一步考慮了類原型之間的流形距離(semantic manifold distance).

    · 數(shù)據(jù)的概率分布(probability distribution)

    相對于數(shù)據(jù)的流形分布是挖掘數(shù)據(jù)集中多個數(shù)據(jù)的分布規(guī)律,數(shù)據(jù)的概率分布指的是單個數(shù)據(jù)的生成規(guī)律,即通過現(xiàn)有的數(shù)據(jù)特征,學出這一類特征存在的規(guī)律.有的研究者通過建立數(shù)據(jù)概率分布之間的映射,來使得模型更加魯棒[30,97-100].伴隨著近兩年生成式模型的廣泛使用,更多的研究者通過生成式的模型來挖掘數(shù)據(jù)的概率分布知識,并將問題轉(zhuǎn)變?yōu)闃藴实谋O(jiān)督學習問題.在基于生成式方法的零樣本模型中,通?;谧兎肿跃幋a器(variational auto-encoder,簡稱 VAE)[39,86,101-104]、生成對抗網(wǎng)絡(generative adversarial network,簡稱GAN)[32,40,44,62,83,99,105-110],或是將兩者結(jié)合[111-113].其中,VAE[114]優(yōu)化的是似然下界而非似然本身,而GAN[115-117]則通過神經(jīng)網(wǎng)絡強大的擬合能力來直接縮小偽數(shù)據(jù)與真實數(shù)據(jù)之間的分布差異(Jensen-Shannon divergence,簡稱JS divergence).由于GAN 中對抗訓練的存在,使得其訓練穩(wěn)定性相比VAE 較差.也正是由于對抗訓練的思想,GAN 最終生成的偽樣本效果整體上要優(yōu)于VAE 的表現(xiàn).但是這類工作均包含了一個隱藏的前提假設:數(shù)據(jù)服從多元高斯分布.

    Fig.1 Manifold distance of data in complex manifold distribution[14]圖1 數(shù)據(jù)在復雜流形分布中的流形距離[14]

    1.3 外部知識

    外部知識,顧名思義,是指獨立于目標數(shù)據(jù)集之外的、來自于相關領域的知識,可以被認為是來自于人類的先驗知識.傳統(tǒng)的深度神經(jīng)網(wǎng)絡得益于大規(guī)模標注數(shù)據(jù),能夠習得有效的層次化特征表示,從而在相關任務領域,尤其是圖像領域取得優(yōu)異的效果.但是也受困于大數(shù)據(jù),伴隨著數(shù)據(jù)標注成本日益高昂,單純依賴大數(shù)據(jù)的模型性能也已經(jīng)觸摸到天花板,體現(xiàn)出其局限性,比如模型訓練過分依賴大數(shù)據(jù)、模型無法有效與人類先驗知識相結(jié)合、模型學習結(jié)果往往與人的認知規(guī)律相沖突(缺乏解釋性)等.因此,將外部知識加入到目前零樣本問題的解決過程中,可以進一步提升模型在目標任務上的性能(例如模型魯棒性或者任務相關指標精度).引入外部知識通常有兩種形式:其一是引入與類別相關的、除屬性和類標簽之外的其他來源的描述,這一過程類似于“數(shù)據(jù)增廣”,即在現(xiàn)有數(shù)據(jù)集基礎上,進一步擴大數(shù)據(jù)來源;其二是直接利用現(xiàn)有大型知識庫,主要存在形式為知識圖譜,是人工智能符號主義的典型代表.

    · 類別文本描述(text-description)

    在數(shù)據(jù)集中,由于圖像對應的文本信息,例如類標簽、屬性等知識包含的信息是有限的,這在某種程度上限制了模型在ZSL 任務上進一步提升性能.因此,有研究者通過擴展數(shù)據(jù)集中文本信息的來源,即增加數(shù)據(jù)量來增加所包含的知識量,從而進一步提升模型處理對應任務的性能.額外數(shù)據(jù)來源有很多,例如,可以用從網(wǎng)站(例如Wikipedia 或Wikipedia articles)的詞條中或者對應的專業(yè)領域網(wǎng)站,獲取到針對該類更多的描述[107,118-120].同樣,也可以通過搜索引擎[47]等其他渠道.在挖掘到額外的文本描述之后,通過一些自然語言處理(natural language processing,簡稱NLP)技術,例如傳統(tǒng)的詞袋模型(bag of words,簡稱BOW)[119]或者提取TF-IDF 特征[118,120],對這些信息低維嵌入進行處理;還可以利用詞嵌入+深度模型等方式,對額外的信息進行編碼,映射到一個低維的表示空間中[107].需要指出的是,在獲取額外知識的同時,也需要過濾掉其中包含的噪聲.如何有效過濾噪聲并同時保留任務相關知識,是目前比較棘手的問題.

    · 知識圖譜(knowledge graph)

    知識圖譜的本質(zhì)是語義網(wǎng)絡,是一種圖結(jié)構(gòu)的數(shù)據(jù),由“節(jié)點-邊-節(jié)點”組成.其中,節(jié)點代表“概念”或“實體”;邊則代表兩個節(jié)點之間的關系,用來描述現(xiàn)實世界中的概念、實體記憶以及他們之間豐富的關聯(lián)關系(知識譜圖發(fā)展報告2018).在零樣本學習領域,常用的知識圖譜有WordNet,ConceptNet[121,122]等.想要利用知識圖譜,首先要解決的問題就是如何對知識圖譜進行合理的表示.由于知識圖譜中的實體、概念以及關系均采用了離散的、顯式的符號化表示,而這種表示形式難以直接應用于基于連續(xù)數(shù)值表示的神經(jīng)網(wǎng)絡中,因此,將其包含的知識盡可能地嵌入表示在一個低維向量空間中,是知識圖譜與深度神經(jīng)網(wǎng)絡相結(jié)合的前提條件.在這方面,有兩類主要方法:以翻譯模型為代表的傳統(tǒng)知識表示技術[123];以圖神經(jīng)網(wǎng)絡(圖神經(jīng)網(wǎng)絡(graph neural network,簡稱GNN)[124]和圖卷積網(wǎng)絡(graph convolutional network,簡稱GCN)[125]是代表性的兩種)為代表的深度知識表示技術.尤其后者的出現(xiàn),使得知識圖譜的表示學習跨入了深度學習的領域,將以知識圖譜為代表的符號主義和以深度學習為代表的連接主義走上協(xié)同并進的道路.其次,還有另一個關鍵的問題在于“符號主義和連接主義,兩者分別包含的人類先驗知識和從數(shù)據(jù)中學出的經(jīng)驗知識,怎樣結(jié)合才能有效提升特定任務性能?”.以WordNet 知識圖譜為例,主要包含了兩方面可用的知識:其一是層次化的概念表示,例如“哺乳動物-貓科動物-東北虎”,有研究者利用這一層次化的知識表示形式來引導判別性特征的生成[40,126-128];其二是包含不同類之間的顯式關系,有的研究者利用這一特性來輔助源域到目標域之間知識的遷移[31,46,62,129-132].需要指出的是,后者還處在起步的階段,也是如今的“數(shù)據(jù)+知識驅(qū)動”思想潮流的主要呈現(xiàn)形式.

    1.4 知識之間的聯(lián)系

    初級、抽象、外部這3 個層次的知識并不是孤立存在的,它們之間也存在千絲萬縷的聯(lián)系.基于第1.1 節(jié)~第1.3 節(jié)的介紹,它們之間的詳細關系如圖2 所示(抽象知識中的數(shù)據(jù)分布包含了數(shù)據(jù)的流形分布和概率分布).

    Fig.2 Knowledge relation framework圖2 知識關系架構(gòu)

    從圖2 中可以看出:初級知識中的文本特征與視覺特征存在對應關系,即某個類的標簽或者類屬性對應該類全體圖像樣本;而基于語義空間的類原型表示則可以看成文本特征在概念層次的進一步延伸.基于初級知識中的文本和視覺特征,我們可以建模它們各自的多個數(shù)據(jù)點之間的流形分布,或者學出他們的特征概率分布;而基于圖像特征的類原型表示也可以看成是視覺特征在概念層面的進一步延伸,多類原型表示也可以在一定程度上反映類內(nèi)方差的信息.外部知識中的外部文本描述,則可視作復雜化的文本特征,因為它在包含更多信息的同時,也包含了更多的噪聲,使得任務相關信息的處理和提取變得更加困難.

    除此之外,我們在原先不同類型知識之間關系的基礎上,新增加了兩個關系.

    (1) Zhou 等人[76]提出了一個假設,即“如果兩個類視覺上相似,那么其分類器的參數(shù)也相似”.因此,我們可以通過這一假設,將分類器參數(shù)加入到語義空間和視覺空間的對應關系構(gòu)建過程中,代表性工作如文獻[76,130,131]中的ZSL 模型.

    (2) 針對視覺特征和知識圖譜之間的關系,Deselaers 等人[133]基于對ImageNet1k 數(shù)據(jù)集的分析得出一個結(jié)論:類中圖像視覺相似性與類標簽的語義相似性在總體上成正比(總體上).即在人類定義范疇內(nèi)的概念之間的相似性,能夠反映在這些概念內(nèi)所包含的圖像之間的視覺相似性上.該文獻類標簽之間的相似性度量使用的是JC 距離(Jiang and Conrath semantic distance,簡稱JC distance),因此更確切地說,視覺之間的相似性和所對應的類標簽在知識圖譜中的顯式距離,在總體上成正比.

    2 基于知識遷移的零樣本視覺識別模型

    在這部分內(nèi)容中,我們將基于本文第1 節(jié)所定義的不同層次的知識,對現(xiàn)有零樣本學習的相關工作進行梳理.為便于讀者理解該層次模型使用知識的方式,本文在每一層次的模型中,進一步進行了相應的合理劃分.需要指出的是,這一過程是向下兼容的,即依據(jù)模型所用到的最高級層次知識進行模型的劃分.例如,模型如果同時使用了初級和抽象層次的知識,就將其歸納到基于抽象知識的模型范疇中.接下來,我們將進行詳細的介紹,介紹的重點將是最具代表性的圖像分類任務領域的模型.

    2.1 基于初級知識的零樣本模型

    在零樣本學習領域,大部分的工作僅僅使用了數(shù)據(jù)集中包含的一些初級知識(屬性、類別標簽、視覺特征等).在這類模型中,屬性作為標簽和視覺特征之間的中間描述,在源域類別和目標域類別之間擁有良好的描述性和遷移性.因此,有很多研究者從概率的角度去進行屬性學習的工作.其中,Lampert 等人[33,63]提出了代表性的屬性學習模型,掀起了屬性學習的熱潮,后面很多工作均是受此啟發(fā).除了屬性學習之外,也有的研究者將文本特征空間和視覺特征空間之間進行映射建模,這樣更接近零樣本學習的本質(zhì).深度學習的興起,其強大的擬合能力極大地提升了模型性能,這也讓很多研究者使用深度模型去重復這些建模思想.下面,我們分別對基于屬性遷移的模型和基于映射的模型兩大類方法進行介紹.

    2.1.1 基于屬性遷移的模型

    如前面第1.1 節(jié)中所述,屬性知識作為一種中間描述,能夠讓可見類和不可見類之間實現(xiàn)信息的共享,具備了良好的遷移性.因此,很多研究者將屬性作為底層特征和高層抽象特征(即標簽)之間的中間表達層,進行零樣本的學習.根據(jù)建模的方法,大致可以分為概率模型和深度模型.

    · 概率模型(屬性學習)

    Lampert 等人[33,63]首先提出了兩個具有影響力的基于屬性的概率模型:直接屬性預測模型(direct attribute prediction model,簡稱DAP)和間接屬性預測模型(indirect attribute prediction model,簡稱IAP).

    DAP 模型的架構(gòu)如圖3 所示.

    Fig.3 DAP model圖3 DAP 模型

    圖3 中,x表示為可見類樣本的圖像底層特征,a1,a2,…,aM表示為可見類與不可見類之間共享的M個屬性,頂層的y tr1,ytr2,...,ytrK和y te1,yte2,...,yteL分別代表可見類的標簽和不可見類的標簽,K和L分別表示可見類和不可見類的類別數(shù).在訓練過程中,首先將可見類樣本的圖像底層特征和二值屬性向量作為輸入,然后利用支持向量機訓練屬性分類器,最終得到樣本和屬性之間的關系p(aM|x).在測試過程中,結(jié)合之前得到的屬性分類器,首先輸入不可見類樣本的圖像底層特征,即可實現(xiàn)對該樣本的屬性預測;然后利用類-屬性矩陣(即類別和屬性之間的先驗知識),最終完成對測試樣本的分類;測試時,對測試樣本的屬性進行預測,再從屬性向量空間里面找到和測試樣本最接近的類別.從公式角度來看,在測試時,首先計算不可見類樣本屬于每個未知類的概率:

    其中,p(yte)為每個未知類的先驗概率.因此,利用了最大后驗估計方法(maximum a posterior,簡稱MAP),其預測最終不可見類標簽的公式如下:

    有研究者基于DAP 模型的思想框架進行了進一步深入的工作.針對屬性本身,區(qū)別于文獻[33,63,64]均是專家標注的屬性,有的研究者進一步地擴展了屬性的來源[20,41,42,134,135],還有的研究者[136,137]在建模時考慮了不同屬性的重要性程度.Jayaraman 等人[138]則注意到了屬性在預測不可見類時的不可靠性(unreliable)問題,并用隨機森林的算法對其進行了處理,通過統(tǒng)計每一個屬性在預測時的錯誤率,來提高屬性預測的魯棒性.Rohrbach 等人[139]則借助了知識庫來降低人工標注屬性的成本.針對模型本身,Huang 等人[64]將屬性學習轉(zhuǎn)化為了超圖分割的問題.在超圖中,每個節(jié)點表示一個樣本,每條超邊表示樣本共享的屬性.文獻[41,42]使用了主題模型來替代SVM.Yu 等人[140]使用了作者-主題模型來建模特征-屬性分布.Wang 等人[141]則使用了統(tǒng)一的概率模型去建模目標獨立屬性和目標依賴屬性之間的關系.此外,在其他類型任務中,Hariharan 等人[142]將DAP 模型進一步擴展到了多標簽分類領域.Cheng 等人[21]將這一原理擴展到了動作識別領域,具體是將動作轉(zhuǎn)化為屬性特征然后加入到零樣本網(wǎng)絡訓練當中.

    IAP 模型的架構(gòu)如圖4 所示.

    Fig.4 IAP model圖4 IAP 模型

    圖中參數(shù)的定義與圖3 一致,最大的不同之處在于:IAP 模型使用已知類的標簽,間接地學習圖像底層特征到屬性的映射.在訓練過程中,首先將可見類樣本的底層特征和其對應標簽作為輸入;然后利用支持向量機訓練出類別-特征模型,得到樣本和每個可見類之間的關系p(ytr|x);接著,根據(jù)類別-屬性關系矩陣獲得屬性-類別模型;最后,將前兩個模型進行結(jié)合,推導出屬性預測模型.在測試過程中,輸入不可見類樣本的圖像底層特征,首先實現(xiàn)對該樣本的屬性預測,然后利用類別-屬性矩陣并結(jié)合貝葉斯定理,實現(xiàn)對該樣本的標簽預測.從公式的角度來看,在測試時,首先計算不可見類樣本屬于不同屬性的概率:

    其中,p(a m|ytrk)為屬性-類別模型.然后結(jié)合屬性-類別模型,進一步預測樣本的類標簽.這一過程同樣利用了MAP 方法,其預測不可見類標簽的公式如下:

    相較于DAP 模型,IAP 模型在實際中使用較少,但也有學者基于IAP 模型進行了深入的研究.Kankuekul 等人[143]考慮到IAP 模型相較于DAP 模型擁有更低的計算成本等優(yōu)勢,因此基于IAP 模型提出了一種在線增量學習算法,能夠動態(tài)地學習新的屬性以及更新現(xiàn)有的屬性.

    · 深度模型

    在基于屬性遷移的模型(屬性學習)中,Morgado 等人[144]使用了深度神經(jīng)網(wǎng)絡,將RIS(recognition using independent semantics)方法和RULE(recognition using semantic embeddings)方法(該文獻中的分類定義)相結(jié)合,即利用兩者的互補性,將Deep-RIS(屬性分類器)加入到Deep-RULE 的過程中,取得更好的效果.Lu 等人[145]則為每個屬性訓練一個單獨的深度屬性分類器,并進一步篩選出置信度高的屬性組合成為不可見類的偽樣本進行訓練,將ZSL 問題轉(zhuǎn)化為了一個有監(jiān)督學習的問題.

    · 針對屬性特性的學習

    除了上述的方法之外,有研究者從屬性本身的角度出發(fā),就“屬性應該具備怎樣的特性”這一問題進行了深入探究.Wang 等人[141]提出了一個統(tǒng)一的貝葉斯概率模型,發(fā)現(xiàn)和捕獲Object-Dependent(例如“條紋”和“白色”依賴于斑馬,互斥于北極熊)和Object Independent(“翅膀”和“爪子”與許多不同的鳥類有關)的屬性關系,這是DAP 和IAP 類的模型所沒有考慮的問題.Jayaraman 等人[146]針對之前模型中存在“屬性的應用依賴于正確相關語義概念”的問題,提出了一種多任務學習方法(每個屬性被視作一個任務).該方法通過將相似的圖像特征與含義相近的屬性對齊,不相似的圖像特征與含義較遠的屬性對齊,并強制結(jié)構(gòu)稀疏,最后為每個屬性學得一個分類器,這個分類器能夠更好地處理經(jīng)常協(xié)同出現(xiàn)的屬性,而非將它們合并為一個屬性.Liang 等人[147]注意到了“同一屬性在不同的視覺空間中變化很大”這一問題,將類別標簽信息和圖像特征共同映射到一個共享潛在表示空間,然后進行進一步的屬性分類器學習,使得最終學出的分類器依賴于特定而非所有類共享的類信息.Gan 等人[148]聚焦于屬性學習中一個最基礎的問題:如何抽取出更具泛化性的屬性?作者認為屬性檢測是一個多源域(該文獻中每個類被當作是一個域)泛化的問題,并利用現(xiàn)有的分類器最終獲取了高質(zhì)量的屬性檢測器.Jiang 等人[71]基于字典學習的方式,將人工定義的屬性進行重新組合,學習了潛在屬性表示.但從另一個角度來看,潛在屬性的描述性沒有人工定義的屬性明確.

    除此之外,Li 等人[149]將DAP 和IAP 方法進行了不同方式的結(jié)合.Zhu 等人[84]認為,在映射過程中應該保留視覺中包含對應語義空間的部分,因此將視覺樣本嵌入到一個低維的概率矩陣中(具體作用是衡量對象中某個屬性的出現(xiàn)概率(語義組件)),在視覺空間、屬性的語義空間和標簽的語義空間之間構(gòu)建了更加精確的關系.在其他類型任務中,Kumar 等人[17]將屬性用于人臉的識別,具體提出了兩種類型的分類器:前者篩選出65 個可描述性的屬性用于分類器的訓練;而后者則不依靠人工標注,轉(zhuǎn)而依靠圖像區(qū)域的相似性來進行人臉的識別.

    2.1.2 基于映射的模型

    基于屬性遷移的模型,其大致構(gòu)建了“圖像特征-屬性-類標簽”這3 個層次的架構(gòu).而基于映射的模型從不同模態(tài)數(shù)據(jù)對齊的角度出發(fā),直接構(gòu)建了“視覺特征-文本特征”兩層次的架構(gòu),即構(gòu)建視覺空間和語義空間之間的映射,并且要求映射是具有泛化性的(從源域可見類到目標域的不可見類).這種映射形式從方向到形式上都是多種多樣的,我們根據(jù)所構(gòu)建映射的方向差異,將這類模型分成以下4 類:從視覺空間到語義空間的映射(正向映射)、從語義空間到視覺空間的映射(反向映射)、視覺空間和語義空間的雙向映射、視覺空間和語義空間中的數(shù)據(jù)共同映射到共享潛在空間(共同映射).下面分別對它們進行介紹.

    · 正向映射

    根據(jù)映射方式的不同,這種映射方式既可以是線性的,也可以是非線性的.其基本形式如下所示:

    其中,f(·)是指正向映射函數(shù),最基本的,它可以只由一個映射參數(shù)W組成;Ytr可以是標簽,也可以是屬性.研究者還進一步地加入了各種類型的正則化項,例如常見的二范式約束.針對映射函數(shù)f(·),有的研究者[61,82,150,151]致力于擴充映射內(nèi)容豐富性,例如Yu 等人[150]增加了類分離性損失、Li 等人[82]增加了潛在屬性空間學習等;而針對映射函數(shù)本身,有的研究者[19,23,81]利用神經(jīng)網(wǎng)絡強大的擬合能力來進行映射、有的研究者[65,152-154]通過使用矩陣分解的技術來構(gòu)建更加細粒度的映射.

    損失函數(shù)min 的方式也分多種,例如有均方誤差的形式,也有基于均方誤差的Triplet Loss[45,65,78,155]的形式.除了嶺回歸形式的損失之外,基于概率的損失(例如深度神經(jīng)網(wǎng)絡模型中常見的交叉熵損失)也可以被認為是存在于正向映射過程中的損失方式.Atzmon 等人[156]基于OOD(out-of-distribution)的思想構(gòu)建了一個概率模型框架,用以區(qū)分來自于可見類和不可見類數(shù)據(jù),并通過softgate 的方式將可見類分類器(expert model for seen classes)和不可見類分類器(ZSL expert)結(jié)合起來,以更好地適用于廣義零樣本任務(GZSL),該框架可以整合任何輸出為類別概率的模型.Zhu 等人[78]通過利用語義信息引導的多注意力機制來定位圖像中最具判別性的部分,并在Softmax Loss 和Triplet Loss 的共同作用下,挖掘出類間分離、類內(nèi)緊致的視覺特征.

    在測試階段,由視覺到語義空間的映射完成后,使用k近鄰分類器來對不可見類樣本進行認知.在其他類型任務中,文獻[19,23,45,157]則分別將正向映射的思想擴展到了零樣本面部欺騙攻擊任務(face anti-spoofing)、零樣本的動作識別、目標檢測等任務當中.其中,Liu 等人[19]引入樹狀的條件CNN 結(jié)構(gòu)來進行零樣本面部欺騙攻擊任務(face anti-spoofing);Jain 等人[23]利用神經(jīng)網(wǎng)絡將視覺內(nèi)容映射為目標概率,并利用詞嵌入技術來建立在目標和動作之間的聯(lián)系;BANSAL 等人[45]將從圖像目標中提取到的圖像特征,通過相似性比較的策略進行類別的認知.

    · 反向映射

    一般來講,視覺空間維度要比語義空間維度大,所以建立從視覺空間到語義空間的映射往往會丟失判別性信息,產(chǎn)生特征空間坍縮.因此相較于正向映射,反向映射能夠保留更多的描述性信息,從而能夠防止特征空間坍縮,進而緩解零樣本學習中存在的Hubness 的問題.其基本形式如下所示:

    其中,g(·)是指反向映射函數(shù),其設定類似于正向映射的函數(shù);Ytr可以是標簽,也可以是屬性.研究者們還進一步地加入了各種類型的正則化項,例如常見的二范式約束.min 的方式也是多種多樣的,例如均方誤差的形式.在這類方法中,目前只有少量的研究[11,68,89,158,159],更多的是針對映射函數(shù)的改進,例如,Kodirov 等人[11]增加了源域和目標域所學字典的相似性約束,使得學得的映射更加具有泛化性;Changpinyo 等人[89]直接建立視覺類原型(簇中心)與語義類原型之間的反向映射.

    在測試階段,由語義空間到視覺空間的映射完成后,使用k近鄰分類器來對不可見類樣本進行認知.

    · 雙向映射

    這種映射方式同樣也是為了解決正向映射過程中產(chǎn)生的信息丟失、特征空間坍縮的問題.為了保留更多的判別性信息,研究者將映射到語義空間中的特征,再重構(gòu)回視覺空間.這樣,學習到的映射就能夠得到保留更多的信息.其基本形式如下所示:

    其中,f(·)和g(·)是指映射函數(shù),這兩個映射函數(shù)同樣可以是線性的,例如只是互為轉(zhuǎn)置的映射參數(shù)W,也可以是非線性的;而Ytr可以是標簽,也可以是屬性.min 的方式一般為均方誤差的形式.

    Kodirov[66]構(gòu)建了基本的自編碼器(auto encoder,簡稱AE)結(jié)構(gòu)來實現(xiàn)雙向的映射,其中,編碼器(encoder)將視覺空間映射到語義空間(屬性),然后再重構(gòu)回去(decoder).基于這樣的思想,許多后續(xù)的研究針對雙向映射函數(shù)進行了改進.Annadani 等人[160]在加映射層數(shù)的基礎上加入了類別之間的關系約束,且映射方向與文獻[66]相反.Wang 等人[101]使用了生成式的模型VAE 來構(gòu)建雙向映射,將語義空間作為隱層(將屬性假設為高斯分布,即屬性經(jīng)過兩個線性映射分為生成均值和方差).這樣能夠更好地揭示數(shù)據(jù)的復雜結(jié)構(gòu),從而學出判別性更強的特征表示.Zhao 等人[12]利用雙向映射來生成域不變的特征.此外,有研究者擴充了映射方式的豐富性.Lu 等人[67]構(gòu)建了競爭性的雙向映射(competitive bidirectional projection),在構(gòu)建雙向映射的基礎上,先利用不可見類與可見類之間的相似性關系來輔助不可見類偽樣本的生成,再通過Competitive Learning 機制,使得偽樣本離最相似不可見類中心(只是將視覺特征空間中,映射過來的語義特征作為類原型)最近,離次優(yōu)的中心較遠,使得生成的模型更加泛化和魯棒.Chen 等人[161]在實現(xiàn)上述過程(重構(gòu))的同時,將語義空間分解成兩個子空間(兩個子空間分別進行分類和重構(gòu)任務,可以認為是兩個互相沖突的任務).通過對這兩個子空間進行對抗學習,使得學出的嵌入表示既能保留細節(jié)又具有判別性.Bin 等人[162]在構(gòu)建雙向映射的同時,將所提取的特征分解為語義(描述性)特征、非語義(非描述性)特征以及非判別性特征.通過這種方式來提取出更加具有判別性和泛化性的特征,從而增加模型的泛化能力.

    這類方法在測試階段對不可見類的認知類似于正向映射.

    · 共同映射

    基于共同映射的模型,其形式更加多樣,我們下面分別進行介紹.其基本形式如下所示:

    其中,f(·)和g(·)分別指語義空間和視覺空間到共享空間之間的映射,這一映射函數(shù)既可以是線性的,也可以是非線性的;Ytr可以是標簽,也可以是屬性;而g(Ytr)既可以是映射,也可以是指類名對應的詞嵌入的表示.

    共同映射形式的多樣性體現(xiàn)在sim(·)的多樣性上,sim(·)主要的存在形式是兼容函數(shù)(compatibility function),兩個向量直接內(nèi)積相乘(f(Xtr)·g(Ytr))的形式是主要模式之一[10,52,159,163-168].其中,Frome 等人[159]提出了著名的DeVise 模型,將CNN 提取的圖像特征和標簽的詞嵌入表示進行內(nèi)積形式的相似度計算,然后使用度量學習的Ranking Loss(triplet loss)將它們學習到一個共享潛在表示空間.文獻[165,166,168]則是這一模式的基本延續(xù).文獻[163,164]則在此基礎上考慮了語義的組合問題.文獻[10,167]采用了集成學習(ensemble strategy)的思想.其中,文獻[10]與字典學習相結(jié)合,構(gòu)建了多個字典,從而能夠更好地重構(gòu)可見類與不可見類所共享的潛在語義字典.文獻[167]則通過最大化可見類標簽矩陣和隨機選取的不可見類標簽子矩陣之間的關聯(lián)性來產(chǎn)生多個標簽映射權重,進而映射出多個標簽子矩陣;同時,相對應的視覺特征提取模塊也產(chǎn)生同等數(shù)量的分支,然后兩個模塊對應分支通過內(nèi)積相乘(對齊的目的)并通過集成的標簽預測方式來為不可見類數(shù)據(jù)進行打上高置信度的偽標簽,迭代地加入到訓練過程中.

    Yazdani 等人[52]將共同映射的思想擴展到了Spoken Language Understanding 任務中,直接構(gòu)建了句子與標簽之間的相似性.

    雙線性兼容函數(shù)(f(Xtr)TWg(Ytr))也是另一種兼容函數(shù)的主要形式,這一形式的目的是學出來自兩個空間表示的最大兼容分數(shù)(maximum compatibility score)[27,95,169-175].其中,Yu 等人[173]為了解決在映射過程中各個樣本可靠性(貢獻)不同的問題以及Domain Shift 問題,提出了ASTE(adaptive structural embedding)和SPASS(selfpased selective strategy)方法,在構(gòu)建映射的同時,前者自適應地調(diào)整松弛變量,以體現(xiàn)訓練實例之間的不同可靠性,使得映射更具辨別性;后者通過迭代地遷移可靠性逐漸減弱的不可見類樣本以緩解Domain Shift 問題,同時極大地縮短了訓練時間(也用了矩陣分解技術).Jiang 等人[174]在訓練過程中采用了自適應的方式,即加入不可見類的文本數(shù)據(jù)來緩解可見類與不可見類之間存在的Domain Gap 問題.Song 等人[175]在構(gòu)建共同映射的過程中,除了將可見類數(shù)據(jù)進行準確的映射約束之外,還將不可見類的數(shù)據(jù)強制映射到其他點,從而緩解了Domain Shift 問題.在其他類型的任務中,Wang 等人[27]將雙線性映射方式擴展到了零樣本動作識別領域,其模型框架類似于文獻[159].

    除此之外,sim(·)也可以是均方誤差[176]或者是余弦相似度等形式,也可以是基于這些基本相似性度量方式進一步構(gòu)建的Triplet Loss 形式.Tsai 等人[177]在視覺分支和文本分支映射的過程中加入了AE 的結(jié)構(gòu),并在隱層施加了分布對齊的約束,然后分別將AE 的隱層映射到共享的潛在表示空間.

    · 其他基于映射的模型(多種映射方法混合)

    這個類型的映射方式,其主要借助判別性損失(例如softmax loss)來完成正向(或者反向)映射,并在此過程中加入對方模態(tài)(除正在進行映射模態(tài)之外的另一種數(shù)據(jù)形式)的信息.我們依據(jù)模型的構(gòu)建思想,可以分為傳統(tǒng)模型和元學習模型.

    在傳統(tǒng)模型中,Liu 等人[69]在映射的過程中,通過溫度校正(temperature calibration)[178]來緩解由于在可見類數(shù)據(jù)上的過擬合導致的對可見類的域偏移現(xiàn)象,最終將兩種模態(tài)的信息映射在同一空間.Jiang 等人[179]定義了可見類的分類損失與不可見類的遷移損失,將知識遷移的過程進行了一定程度的量化,使得提取的特征同時具有判別性和遷移性(正向).Liu 等人[70]之前的模型均是基于空間中可見域和不可見域的數(shù)據(jù)分布在樣本級別具有一致性這一假設,而該假設過于嚴格,因此,Liu 等人提出不尋求在樣本級別上進行映射,轉(zhuǎn)而致力于任務級別的一致性,即,以任務為基本單位來構(gòu)建不同空間之間的映射關系(任務是指對數(shù)據(jù)集的不同劃分).具體來說,對可見類進行不同的劃分,形成N個任務;然后,每個任務中類的屬性值通過非線性的方式轉(zhuǎn)化為類原型,并與該任務中的圖像進行相似性度量(PEC),提升類原型在可見類樣本中的泛化性;最后,將相似性度量的結(jié)果進行歸一化表示之后,完成分類(cross-entropy loss,簡稱CEP),其本質(zhì)上是通過訓練和測試在任務層面的對齊,使得訓練階段盡可能地仿真模型的測試環(huán)境.模型的思想如圖5 所示(每個幾何形狀表示一個樣本,每種顏色表示一個類).

    Fig.5 Core idea of CPL (convolutional prototype learning)[70]圖5 CPL(convolutional prototype learning)核心思想[70]

    元學習模型區(qū)別于傳統(tǒng)的數(shù)據(jù)集劃分方式,對數(shù)據(jù)集作了進一步的劃分,即進一步將訓練集劃分為兩個部分(這一劃分的標簽集情況,不同文獻中,根據(jù)不同的訓練要求有著不同的要求);此外,元學習采用了Episode-Based 的訓練策略,即其每次迭代都會隨機抽取所有類別的子集作為一個訓練任務,這樣的目的均是為了最大程度的追求模型的泛化性能.Sung 等人[180]提出的基于元學習的零樣本學習模型將整體數(shù)據(jù)集分割為訓練集、支持集(support set)和測試集,并且其支持集和測試集共享相同的標簽.該模型的核心思想是,通過比較的方式來認知新的事物.因此,將訓練集的數(shù)據(jù)進一步隨機劃分為樣本集(sample set)和查詢集(query set)(這樣的劃分用于仿真測試階段的support set/test set).具體做法是:將樣本集分別與查詢集中的樣本語義特征作拼接,然后輸入到分類網(wǎng)絡中進行訓練.而Hu 等人[181]提出的模型將訓練集進行了隨機劃分,并要求兩者的標簽集是互斥的.該模型的核心思想是,根據(jù)零樣本學習中兩個域相似性的差異做出不同程度的修正.因此,所提出的模型包含兩個模塊——Task Module(learner)和Correction Module(meta-learner):前者將語義特征作為輸入并輸出初始的預測(視覺特征的質(zhì)心);后者將前一模塊的預測結(jié)果、可見類數(shù)據(jù)、不可見類語義特征作為輸入,輸出修正量,目的是對前一模塊的結(jié)果進行修正.與前一模塊的輸出相加,即為最終的預測結(jié)果.

    除了圖像分類的任務之外,Shen 等人[38]將這一思想用于基于輪廓的圖像檢索任務,除了各自模態(tài)數(shù)據(jù)的編碼網(wǎng)絡之外,還利用了圖卷積網(wǎng)絡和Kronecker 融合來增強兩種模態(tài)數(shù)據(jù)(草圖和真實圖像)的一致性,并最終用于基于輪廓的圖像檢索任務(哈希檢索).

    總體來講,基于初級知識的模型,所使用到的知識范疇包含了類別標簽、視覺特征、屬性這3 種.在這3 類知識中,類標簽雖然包含的信息沒有屬性豐富,但是其詞嵌入的分布式表示特性(該表示形式還具備一定的推理能力,這也是類別標簽的詞嵌入表示形式所隱含的知識)也能較好地完成零樣本學習任務.文獻[170]證明了類標簽詞嵌入的表示形式和屬性在表示能力上基本上是等同的.因此,在基于映射的零樣本學習模型中,其語義空間中的屬性知識和類別標簽知識在大部分時候可以進行互換;同時,也有模型可以兼容多種形式的映射[51,182].但是,基于映射的模型無法很好地反映數(shù)據(jù)類內(nèi)方差的特性[62],并且基于共同映射的方法有兩個局限性:一是不能使用高效的判別分類器,二是不能有效地處理GZSL 任務[99].

    2.2 基于抽象知識的零樣本模型

    在零樣本學習領域,初級知識僅代表可以直接獲取的信息.而隨著研究的深入,研究者進一步借助初級知識挖掘出了基于圖像特征的類原型表示、數(shù)據(jù)流形分布、概率分布等更加高級的抽象知識,這些知識能夠更全面地反映出數(shù)據(jù)的本質(zhì)特征,從而能夠?qū)W出泛化性能更好的模型.因此,接下來我們將從基于視覺類原型的模型、基于數(shù)據(jù)流形分布的模型和基于數(shù)據(jù)概率分布的模型去分別展開闡述.

    2.2.1 基于視覺類原型的模型

    基于視覺類原型的模型,是將所挖掘出的類原型表示作為一個中介,然后去進一步地構(gòu)建模型,如用于推理等,而非直接用于認知不可見類.從這點來看,其用法更加近似于初級知識.

    Zhao 等人[85]使用了基于類內(nèi)均值的視覺類原型表示來構(gòu)建映射模型,并與基于合成視覺類原型表示的模型進行了對比.Wang 等人[80]使用基于交叉熵(cross-entropy loss)的損失學出每個視覺類的類原型表示,這樣學出的類原型相較于基于質(zhì)心的類原型表示,能夠讓類間保持足夠的判別性.Changpinyo 等人[87,89]基于視覺類原型提出了樣本合成模型,具體來說,在其視覺分支,為了獲取每個類的聚類中心表示,為所有樣本做PCA,然后加和求均值(在該文獻中被稱為視覺特征代表),從而將視覺特征從視覺空間變換到語義嵌入空間(該文獻中語義嵌入空間可以理解為共享表示層),最后使用支持向量回歸機SVR(多核回歸模型)來建立從語義空間到語義嵌入空間的映射,并最終基于對模型不同的理解.提出了兩種方式對不可見類的認知手段:首先,通過訓練好的模型得到預測原型(examplars)的表示,如果將預測的原型視作訓練數(shù)據(jù),那么直接利用訓練好的模型,共同映射到語義嵌入空間進行最近鄰的分類;如果將預測原型視作改進后的語義特征表示,則可以整合入任何現(xiàn)有的ZSL框架中,輔助零樣本認知過程.前面的模型均基于“源域和目標域數(shù)據(jù)分布一致”的假設,而這一假設過于嚴格.Wan 等人[77]利用目標域樣本進行聚類得到每個類的類中心,然后同時縮小不可見類樣本與模型訓練得到的類中心和聚類得到的類中心的距離,并利用二部圖匹配對這一機制進行優(yōu)化(兩個虛擬的圖進行一對一對齊,但沒有上升到流形對齊的高度).該模型的反向映射機制和直推式的機制均有利于緩解Domain Shift 現(xiàn)象(該文獻事實上使用了基于視覺的類原型表示,但是沒有Prototype 這一表述).

    如本文第1.4 節(jié)所述,分類器參數(shù)也可以認為是正比于類原型的表示,因此很多模型也是基于分類器進行進一步操作的.Misra 等人[183]利用了分類器組合的思想,認為復雜視覺概念是簡單概念進行組合的結(jié)果,并且進一步的認為:應該用屬性視覺分類器和目標視覺分類器組合得到新的復雜視覺分類器,例如“紅色(屬性)+酒(目標)=紅酒”.具體過程為:通過分類器參數(shù)組合,然后輸入到轉(zhuǎn)化網(wǎng)絡中,計算與真實目標的內(nèi)積,從而進行訓練.

    2.2.2 基于數(shù)據(jù)流形分布的模型

    研究者主要利用數(shù)據(jù)流形來主要達到兩個目的.

    (1) 由于在基于映射的模型中,跨空間的數(shù)據(jù)映射為使重構(gòu)誤差最小化,從而傾向于學習兩個空間數(shù)據(jù)之間的共性,這會導致數(shù)據(jù)的判別性出現(xiàn)不足.鑒于這種情況,有的研究者將流形正則化項加入基于映射的零樣本學習過程中,保持數(shù)據(jù)的結(jié)構(gòu),從而增加映射的泛化性.

    (2) 不同空間進行的映射所產(chǎn)生的Domain Shift 問題,其本質(zhì)上可以視作模態(tài)鴻溝(media gap)的問題,從數(shù)據(jù)分布的角度,將不同空間的數(shù)據(jù)進行流形對齊的操作,實質(zhì)上就是緩解這一問題(文獻[80,94]明確提到這一點).

    下面,我們根據(jù)研究者是否考慮數(shù)據(jù)的復雜流形分布,對相關工作分別進行詳細的介紹.

    在零樣本學習中,模型的泛化性能顯得尤為重要.而在半監(jiān)督學習中,增加流形正則化項(manifold regularizer),能夠增加對測試數(shù)據(jù)的泛化能力[184].其基本形式如下所示:

    · 簡單數(shù)據(jù)流形

    僅考慮簡單數(shù)據(jù)流形結(jié)構(gòu)(pair-wise 級別)時,不同的研究者有著不同的正則化項構(gòu)建方式.Xu 等人[28]在映射模型的基礎上,通過使用訓練數(shù)據(jù)和測試數(shù)據(jù)共同構(gòu)建kNN 圖來添加流形正則化項約束.文獻[88,93]則通過構(gòu)建潛在空間的圖正則化項來保持數(shù)據(jù)的幾何結(jié)構(gòu):前者還將DAP 模型的圖像特征層和屬性層進行了交換,使得模型能夠生成一些不可見類的樣本;后者則將每個樣本被視作可見類的分數(shù)組合.Xu 等人[92]用兩個流形正則化項來分別保持數(shù)據(jù)映射過程中在視覺特征空間和屬性空間中的幾何結(jié)構(gòu).在其他類型任務中,Qin 等人[29]將這一思想運用到了零樣本的動作識別領域,使用了從語料中訓練得出的語義表示而非屬性特征來判別更加細粒度的動作場景,并在此過程中使用類級別的語義相似性矩陣來保持數(shù)據(jù)結(jié)構(gòu),進而維持判別性.

    除了增加流形正則化項來保持映射過程中數(shù)據(jù)的判別性之外,Zhang 等人[91]還提出了結(jié)構(gòu)化的預測方法,即通過最大化后驗估計來獲取目標域數(shù)據(jù)的分布,使得潛在空間中對不可見類數(shù)據(jù)的標簽分配是平滑的.Wang等人[94]簡化了文獻[91]中復雜的結(jié)構(gòu)預測過程,首先建立從視覺空間到潛在空間的映射,相同一批數(shù)據(jù)在潛在表示空間的結(jié)構(gòu)需要與其在語義空間中的結(jié)構(gòu)保持一致,從而得到不可見類在潛在表示空間中的節(jié)點表示.Jiang 等人[53]提出了一種雙字典學習方法,通過視覺空間和語義空間的類原型對齊來使得數(shù)據(jù)的結(jié)構(gòu)對齊,目的是利用視覺空間的判別性來提升語義空間中的判別性.

    有的研究者則直接從特征提取的角度出發(fā),去考慮如何更好地保持特征空間的結(jié)構(gòu).Li 等人[95]考慮到數(shù)據(jù)可能存在的類間方差小以及類內(nèi)方差大的情況,增加了圖像特征結(jié)構(gòu)約束來歸一化類內(nèi)和類間樣本的距離,使得提取的圖像特征能夠保持空間結(jié)構(gòu).這一工作雖然考慮到了所提取特征的空間結(jié)構(gòu)的保持,但是并未上升到數(shù)據(jù)流形的高度.Wang 等人[80]將排序損失和結(jié)構(gòu)優(yōu)化損失相結(jié)合,在學出的共享表示層中,除了保持不同模態(tài)數(shù)據(jù)的對齊之外,同時也能夠確保空間中的視覺特征表示擁有更好的結(jié)構(gòu),使得判別性更好.

    · 復雜數(shù)據(jù)流形

    前面的方法均僅考慮了數(shù)據(jù)的簡單流形結(jié)構(gòu),事實上,數(shù)據(jù)中存在著更為復雜的流形結(jié)構(gòu),不同的研究者也給出不同的改進方式.Fu 等人[13]相較于其之前工作[59]中構(gòu)建的簡單近鄰圖,進一步基于數(shù)據(jù)特征表示構(gòu)建起了超圖,最終在超圖中進行基于隨機游走的標簽傳播過程(該文獻中,多視圖的方式也可以緩解映射過程中的Domain Shift 問題).Fu 等人[14,60]考慮嵌入空間中存在更為豐富的流形結(jié)構(gòu),使用類標簽圖對嵌入空間中的流形進行建模,對空間的距離度量計算采用了吸收馬爾可夫鏈過程(absorbing Markov chain process,簡稱AMP)而非傳統(tǒng)的余弦或者歐式距離.Changpinyo 等人在文獻中[87,96]提出了分類器合成模型,該模型考慮了模型空間(分類器參數(shù)空間)和語義空間的復雜流形分布,并在語義空間和模型空間分別引入一組了偽基類(phantom class)(這些偽基類能構(gòu)成各種真實類),與真實類一起構(gòu)建了加權圖;通過馬氏距離計算圖中邊的權重,進而計算類別之間的條件概率;最后,通過模型空間中節(jié)點對于權重圖的嵌入來進行對齊的操作.測試過程中,通過訓練好的模型直接合成分類器來進行不可見類的識別.Yanan 等人[79]提出了一種多模態(tài)數(shù)據(jù)流形對齊的度量方式,考慮到數(shù)據(jù)可能存在的復雜流形結(jié)構(gòu),將目標節(jié)點的k近鄰節(jié)點取均值作為類原型的表示.

    2.2.3 基于數(shù)據(jù)概率分布的模型

    基于數(shù)據(jù)概率分布的模型,其本質(zhì)上是要模擬數(shù)據(jù)高級特征的生成規(guī)律,主要可以實現(xiàn)兩個目標:其一,使得模型可以通過這一規(guī)律來生成同類型的偽樣本特征,從而將零樣本問題轉(zhuǎn)化為標準的監(jiān)督學習問題;其二,可以讓模型在生成規(guī)律的層次上進行不同模態(tài)數(shù)據(jù)的對齊操作,緩解模態(tài)鴻溝問題,變得更加魯棒.下面我們根據(jù)構(gòu)建模型技術的不同,將相關工作分為非生成式模型和生成式模型,分別進行詳細的介紹.

    · 非生成式模型

    最開始,一些研究者通過非生成式的模型來建模數(shù)據(jù)分布.在這類方法下,不同研究者的思路千差萬別.Mukherjee 等人[97]借助高斯詞嵌入方法[185]將不同模態(tài)的數(shù)據(jù)建模為高斯分布,然后建立不同高斯分布之間映射關系.文獻[30,100]中也是將數(shù)據(jù)建模為高斯分布.Micaelli 等人[186]面對許多數(shù)據(jù)集并不公開的情況,利用符合高斯分布的隨機噪聲來生成偽數(shù)據(jù),并通過依次迭代的最大化和最小化學生網(wǎng)絡(student network)和教師網(wǎng)絡(teacher network)預測之間的KL 散度,最終使得Student Network 在不依靠任何數(shù)據(jù)或元數(shù)據(jù)的情況下,與Teacher Network 的預測相匹配.該文獻還提出了新的度量標準來量化教師網(wǎng)絡與學生網(wǎng)絡在決策邊界附近的信念匹配程度.Guo 等人[98]依據(jù)可見類與不可見類之間的關系,使用線性映射的方法來估計每個不可見類的條件概率,進而生成不可見類的樣本.Bucher 等人[99]基于降噪自編碼器(denoising autoencoder)和對抗自編碼器(adversarial autoencoder)的模型:前者與標準自編碼器的區(qū)別在于在輸入層增加了噪聲輸入,在隱層增加了類別信息的輸入;后者在前者的基礎上,引入對抗訓練來對隱層潛在特征的生成進行約束,使編碼分布與固定的先驗分布相匹配.在這兩個模型中,隱層生成的潛在特征編碼信息可以視作是數(shù)據(jù)的分布信息.在其他類型任務中,文獻[22,30]分別將這一思想用在了活動識別領域、零樣本動作識別領域任務中.其中,Antol 等人[22]將這類模型運用在了活動識別領域,先將模型在草圖上進行訓練,然后在真實的圖像上進行測試,訓練過程中的草圖可以視作由人類定義的、數(shù)據(jù)特征的本質(zhì)分布;Mishra 等人[30]基于雙向映射的思想提出了一個生成式模型框架,將語義空間映射到視覺空間然后再重構(gòu)回去(這一映射可以是線性或者是非線性的),其中,視覺空間的每個類被建模為高斯分布.

    · 生成式模型

    更多研究者通過生成式的模型來完成零樣本學習任務,其中絕大部分研究者通過GAN 來擬合數(shù)據(jù)的特征分布,并生成偽樣本.Tong 等人[105]認為:在映射過程中加入流形的知識雖然可以使得模型更加魯棒,但是數(shù)據(jù)流形本身可能存在著的復雜結(jié)構(gòu)(類分布重疊)也會極大地影響Hinge Loss 或者回歸損失的訓練性能.因此,Tong等人在建立共同映射模型的基礎上,整合了生成對抗網(wǎng)絡來生成兩種類型的樣本,分別用來增加同一類樣本的多樣性和提升存在重疊分布的類之間的判別性.Xian 等人[106]基于WGAN(Wasserstein GAN)來構(gòu)建模型,能夠使得訓練過程更加穩(wěn)定;而且在GMMN(generative moment matching network)模型[99]的基礎上增加了生成偽樣本的分類損失,這些舉措都有助于提升所生成偽樣本特征的判別性.該模型奠定了之后絕大多數(shù)基于GAN 模型的基礎架構(gòu).在此基礎上,針對偽樣本生成的質(zhì)量問題,Li 等人則[83]進一步增加了靈魂樣本(soul sample)的正則化項以及針對偽樣本特征置信度的計算,其中,靈魂樣本是指每個類所包含多個類原型,生成的偽樣本只需靠近其中之一的表示即可.這樣能夠增加生成偽特征的多樣性.Liu 等人[90]則加入類原型進行修正,來提升所生成的不同類偽樣本之間的區(qū)分性.Paul 等人[108]基于GAN 提出了一個直推式的零樣本模型,其在目標域也訓練了一個生成器和判別器,并增加目標域生成器與源域生成器參數(shù)相似的約束,從而緩解ZSL 中的Domain Shift 問題;除此之外,模型中還通過語義判別損失和語義關聯(lián)損失相結(jié)合預訓練了一個特征提取網(wǎng)絡,經(jīng)過該網(wǎng)絡提取的圖像特征在保持類內(nèi)相似性關系的同時也能保持其判別性,從而減輕ZSL 中的Hubness 問題.需要指出的是,因為在目標域的不可見類中并不存在對應的圖像-文本對,因此在直推式部分輸入的數(shù)據(jù)是不存在對應關系的,這樣的處理方式其實包含了“源域和目標域的數(shù)據(jù)服從同一個概率分布”這一隱藏的前提假設.文獻[109,110]則將GAN 與雙向映射模型的思想結(jié)合了起來.在其他類型任務中,文獻[32,37,44]分別將GAN 擴展到了零樣本動作識別、零樣本語義分割和零樣本視頻分類任務中.其中,Mandal 等人[32]在條件WGAN 中加入了數(shù)據(jù)分布檢測器(out-of-distribution detector)來判別源域和目標域的動作類別;Bucher 等人[37]在零樣本語義分割任務中,除了常規(guī)的生成網(wǎng)絡結(jié)構(gòu)之外,還使用了GCN 來融合圖內(nèi)各個語義類別的信息,最終生成融合上下文信息的語義表示;Zhang 等人[44]通過增加多層次信息推斷損失和互信息相關約束措施來最大化地保持不同模態(tài)信息的一致性,從而提升生成的偽樣本質(zhì)量.

    有的研究者基于VAE 來構(gòu)建模型,VAE 相較于GAN,其訓練穩(wěn)定性更好.其中,文獻[86,101-104]利用單個VAE 來學習數(shù)據(jù)的概率分布,文獻[102,104]使用了CVAE 模型.Yu 等人[104]將不可見類的數(shù)據(jù)視作可學習的變量,通過類似于EM 算法的迭代學習策略,即重復生成偽數(shù)據(jù)的過程和參數(shù)學習的過程,來最終完成模型的訓練.在該文獻中也提到了生成的偽樣本特征置信度問題(類似的提法還有文獻[83]),并通過dropout 操作來進行置信度的度量.而Schonfeld 等人[103]將零樣本問題視作多模態(tài)學習問題,通過減小視覺和語義空間中各自VAE 隱層分布的Wasserstein 距離,并增加交叉對齊損失約束,來實現(xiàn)不同空間數(shù)據(jù)概率分布的一致.在其他類型任務中,Yelamarthi 等人[39]將這一思路用于基于輪廓的圖像檢索領域,具體是將經(jīng)過編碼之后的真實圖像特征和草圖特征經(jīng)過拼接輸入到自編碼器結(jié)構(gòu)的網(wǎng)絡中,其中,自編碼器網(wǎng)絡可以是VAE 或者是對抗自編碼器.

    還有的學者將VAE 和GAN 相結(jié)合來處理ZSL 任務.Huang 等人[111]將視覺-文本語義映射、文本語義-視覺映射以及度量學習(metric learning)方法融合在統(tǒng)一的框架下,分別對應到所提出模型的生成器模塊、回歸器模塊和判別器模塊.其中,判別器損失受文本生成圖像工作[187]的啟發(fā),通過文本語義和視覺特征的組合構(gòu)成了多種形式的偽數(shù)據(jù),能夠幫助生成更加魯棒的跨模態(tài)對應關系.Xian 等人[112]通過VAE 解碼模塊和GAN 生成器參數(shù)共享的方式,將兩種模型進行了結(jié)合,這種結(jié)合方式可視作對GAN 的生成器的輸入增加了VAE 的約束;除了零樣本學習任務之外,該工作還從可視化的角度去嘗試對ZSL 的認知過程進行解釋,即利用文獻[188]中Image Caption 任務的網(wǎng)絡輸入偽特征,并經(jīng)過反卷積生成的圖像來生成文本,觀察文本內(nèi)容是否與圖像視覺內(nèi)容相吻合.劉歡等人[113]也是基于與文獻[112]的類似思路,但是為非直推的模型.

    總體上來看,基于抽象知識的模型在工作模式上主要分為兩種:其一是在數(shù)據(jù)映射的過程中保持數(shù)據(jù)的流形結(jié)構(gòu),以增加數(shù)據(jù)的判別性;其二是在該層次知識的基礎上對多模態(tài)數(shù)據(jù)之間進行對齊操作,然后進一步開展后續(xù)的工作.由于抽象知識要比初級知識更加接近數(shù)據(jù)的本質(zhì),因此往往取得更好的效果.這也是近兩三年來比較熱門的研究點.

    2.3 引入外部知識的零樣本模型

    除了挖掘數(shù)據(jù)集本身所包含的知識之外,有研究者考慮引入外部知識來進一步幫助提升模型的性能.其主要包含了兩種形式的外部知識:外部描述和外部知識庫.下面我們將分別進行介紹.

    2.3.1 基于引入外部描述的模型

    在模型輸入中引入有關于類別的外部描述,主要有兩個目的:首先,外部的語義描述往往包含了更多對任務有利的信息,并且有時還可以節(jié)省人工標注的成本;其次,外部引入的數(shù)據(jù)形式更加貼近實際,其中包含的噪聲也能使得最終的模型更加魯棒.

    Lei 等人[118]使用了Wikipedia Article 作為語義空間,提取文本描述的TF-IDF 特征和圖像的CNN 特征,并通過簡單的內(nèi)積形式將兩者學習到一個統(tǒng)一的潛在表示空間.Qiao 等人[119]延續(xù)了文獻[154]中的建模思想,并使用詞袋模型處理Wikipedia Article,用于替代對應類別的屬性表示,這樣能夠減輕人工搜集語義表示的負擔.區(qū)別于文獻[154],考慮到引入的外部描述包含了極大的噪聲,Qiao 等人[119]將映射參數(shù)分解后的結(jié)果進行了更進一步的矩陣分解,分解后的兩個矩陣分別作為圖像的分類器權重參數(shù)和用于抑制外部引入知識(屬性)的噪聲.Elhoseiny 等人[120]也是提取外部文本的TF-IDF 特征,并最終用于細粒度的圖像分類任務.Zhu 等人[107]則基于GAN 強大的特征擬合能力,利用目標域類別的Wikipedia Articles 描述來生成對應類別的視覺特征,并通過全連接層來過濾文本特征輸入所包含的噪聲.在其他類型任務中,Xu 等人[25]在構(gòu)建視覺-語義映射的同時,通過增加額外數(shù)據(jù)來擴展數(shù)據(jù)集,并根據(jù)與目標域的相關性進行加權,從而提升模型的泛化性能,最終用于動作識別任務.Xu 等人[43]利用外部圖像來提取情感詞典以及外部語料中包含的語義關系信息,共同輔助遷移從視頻中提取的深度特征,最終用于視頻情感識別任務.

    2.3.2 基于引入外部知識庫的模型

    外部知識庫是目前大多數(shù)人所理解知識的狹義的概念范疇.通過引入外部大型知識庫并作為任務的先驗信息,主要有3 個目的:其一是進行數(shù)據(jù)挖掘和分析;其二是幫助模型提取更好的特征表示;其三是在當前純數(shù)據(jù)驅(qū)動的模型在遭遇瓶頸時,利用大規(guī)模知識庫中的顯式關系,能提升現(xiàn)有模型對于特定任務的性能或者減輕模型對數(shù)據(jù)的依賴,并可以在一定程度上增加模型的可解釋性.下面我們分別進行介紹.

    · 首先,一些研究者針對外部知識庫進行了一些前沿性的探索.

    Rohrbach 等人[16]使用WordNet 同義詞集的定義去挖掘?qū)傩?Rohrbach 等人[139]通過實驗來分析知識庫取代部分現(xiàn)有數(shù)據(jù)的可能性,實驗證明:在零樣本問題中,用知識庫取代人工標注屬性會導致基于屬性的模型分類精度下降;但在基于分類器相似度方法中,其性能達到了人工監(jiān)督的水平.而且實驗也表明,在語義相似性度量(SR measures)方面,不同的知識庫通常會導致不同的結(jié)果:Yahoo image search 和Wikipedia 表現(xiàn)較好,而Yahoo Web search 和WordNet 表現(xiàn)欠佳.Zeynep 等人[182]鑒于屬性知識獲取代價較大,探討了對外部層次化的知識庫或者外部描述進行編碼,并輔助或者取代屬性知識的可能性.Gan 等人[24]通過實驗分析得出:相較于基于WordNet 關系計算的詞的相似度(JC 距離),基于類名詞嵌入之間余弦相似度構(gòu)建的可見類與不可見類之間的關系,能夠更好地進行知識傳播過程(但僅限于動作識別領域).Kordumova 等人[36]通過引入外部信息以及知識庫(WordNet)去識別圖像中的場景,并不使用任何場景圖像作為訓練數(shù)據(jù),并通過實驗分析得出:來自知識庫中間層次的目標對于場景的識別有較大貢獻,而分別來自頂層和底層的General 目標和Fine-Grained 目標則對場景識別貢獻有限.

    有的研究者受限于現(xiàn)有知識庫對于某些任務的局限性,根據(jù)特定任務特性自己定義知識庫,從而更好地完成相應任務.Deng 等人[34]鑒于多分類問題中標簽相互獨立的假設并不成立的問題,自己定義了一個HEX(hierarchy and exclusion)圖,圖中的語義關系可以分為Mutual Exclusion、Overlap 和Subsumption,然后以該圖作為標簽關系先驗,構(gòu)建了一個基于條件隨機場的概率分類模型.

    · 其次,有的研究者引入知識圖譜,并側(cè)重于使用其層次化的知識表示形式.

    Al-Halah 等人[126]利用了知識庫中層次化的分類信息,在不同層次上進行屬性學習,并進行層次化的屬性遷移.Li 等人[127]沿用了文獻[163]中學習映射的思想,借助WordNet 知識庫進行了層次化的文本語義嵌入,并假定每個標簽在WordNet 中均有對應節(jié)點,從根節(jié)點到特定節(jié)點,越靠近特定節(jié)點的節(jié)點,其貢獻越大,最后將這一思想加入到凸化組合中.Li 等人[128]則利用了知識庫中層次化的分類信息,用于提取更加具有判別性的圖像特征,然后基于提取的源域圖像特征進行域適應和標簽傳播操作,最終進行細粒度的類別認知.DUTTA 等人[40]將自編碼器和GAN 結(jié)合,利用知識庫(WordNet)中層次化的表示并結(jié)合詞嵌入來引導自編碼器生成更加具有判別性的特征表示,從而更好地輔助GAN 進行對抗的訓練,最終進行基于輪廓的圖像檢索任務.

    · 最后,有研究者將“符號主義”和“連結(jié)主義”中的表示方法相結(jié)合,成為當前的主流形式.

    本文根據(jù)對符號知識表示方法的應用,又分為傳統(tǒng)方式和基于深度學習(如圖網(wǎng)絡)的方式.

    有研究者將知識圖譜用傳統(tǒng)的知識表示方法(如翻譯模型)進行表示.這一類模型更多地出現(xiàn)在傳統(tǒng)圖像分類任務之外.Lu 等人[46]將傳統(tǒng)的知識表示與零樣本視覺關系檢測任務相結(jié)合,所構(gòu)建的模型由兩個模塊組成.

    1)Visual Appearance Module:訓練VGG 網(wǎng)絡用于提取圖像中的Object 和Predicate.

    2)Language Module:將兩個Object 拼接為新的向量來表示視覺關系三元組,然后通過映射函數(shù)來使得三元組之間的關系正比于它們所包含的Predicate 對應詞嵌入之間的余弦距離,其值越大,表示對應的視覺三元組成立的概率就越高.

    最后做Triplet Loss(rank loss),并且區(qū)別于之前的數(shù)據(jù)集只包含較少的視覺關系類型,Lu 等人創(chuàng)建了一個新的數(shù)據(jù)集VRD,包含了數(shù)萬種關系.Cui 等人[129]將傳統(tǒng)知識表示用于零樣本圖像的多標簽分類任務中,所提出模型將知識(ConceptNet 知識庫)表示與多標簽的圖像表示結(jié)合在一起,兩者進行協(xié)同的訓練,即將圖像分類分支的分類器權重參數(shù)與知識表示分支的節(jié)點映射參數(shù)進行了共享,在完成圖像多標簽分類的同時,能夠?qū)崿F(xiàn)知識庫中有關系的節(jié)點表示盡可能接近.最終,在標簽預測任務、零樣本標簽推測任務以及基于內(nèi)容的圖像檢索任務中證明了模型的有效性.并且實驗表明:該模型可以在某種程度上提煉知識庫來描述圖像,并使用結(jié)構(gòu)化標記來標記圖像.

    有研究者將現(xiàn)有任務模型與圖網(wǎng)絡相結(jié)合.Wang 等人[130]首先將圖網(wǎng)絡與知識庫結(jié)合并用于零樣本圖像分類任務中.模型分為兩個獨立的部分:CNN 分支和GCN 分支.CNN 分支首先使用預訓練好的CNN 網(wǎng)絡為原始圖像抽取高級特征;其次,GCN 分支(如圖6 所示下方的GCN 網(wǎng)絡,模型示意圖來源:https://github.com/JudyYe/zero-shot-gcn)將數(shù)據(jù)集中的每個類別作為知識圖中的一個節(jié)點,并對其詞嵌入表示作為節(jié)點的初始輸入.模型訓練時,可見類節(jié)點的初始表示經(jīng)過GCN 網(wǎng)絡的信息融合,融入了周圍節(jié)點的信息并形成新的表示,然后知識圖中可見類節(jié)點范圍內(nèi),利用來自CNN 部分的圖像類別對應的分類器權重參數(shù)作為監(jiān)督信息(圖6 所示綠色節(jié)點)來訓練GCN 模型的參數(shù).測試時,將知識圖中的不可見類節(jié)點的輸出視作對應類別的分類器權重參數(shù).需要指出的是,該模型使用的知識圖譜是基于NELL[189]和NEIL[190]構(gòu)造的新知識圖譜.Kampffmeyer 等人[131]則對前面的模型[130]進行了進一步改進,包括:(1) 使用了更少的圖卷積網(wǎng)絡層數(shù)來避免訓練過程中節(jié)點表示的趨同性;(2) 進一步地改進現(xiàn)有WordNet 知識庫,使其節(jié)點之間的連接更加密集,并根據(jù)節(jié)點間的距離加入了注意力機制(attention mechanism,簡稱AM);(3) 在訓練過程中采用輪流優(yōu)化策略,固定GCN 的參數(shù),對預訓練好的CNN進行微調(diào)操作來緩解Domain Shift 問題.這些操作均進一步的提升了模型效果.

    Fig.6 Architecture of GCNZ (GCN for zero-shot learning)[130]圖6 GCNZ(GCN for zero-shot learning)框架[130]

    Zhang 等人[62]指出了之前基于圖網(wǎng)絡模型[130,131]的不足:首先,它們僅基于可見類構(gòu)建損失進行訓練,而不涉及到不可見類,因此域偏移問題仍然存在;其次,該關系僅在類級別層次建模,忽略了實例級關系,導致數(shù)據(jù)的判別能力不足;最后,這些方法對關系的利用仍然是隱式的(指不是直接利用關系進行標簽傳播,而是借助關系將節(jié)點表示轉(zhuǎn)化為分類器參數(shù)),這會導致在最終分類的過程中,被提煉出來的知識被稀釋.針對前面這些問題,Zhang 等人提出了TGG(transferable graph generation)模型.

    TGG 由兩個模塊組成——GraphGeneration 和RelationPropagation.

    · 在GraphGeneration 階段,首先構(gòu)建了Class-Level Prototype 圖,該圖是借助ConceptNet 知識庫包含的顯式關系進行構(gòu)建的,各個節(jié)點的表示為視覺特征,不可見類的節(jié)點由GAN 生成的偽樣本作為輸入;在此基礎上進行Multi-Head Attention+Multi-Level Attention 機制的訓練,修正節(jié)點表示,使得數(shù)據(jù)更加具有判別性;最終經(jīng)過關系核(relation kernel)損失(即生成的新圖需要和對應的原圖結(jié)構(gòu)保持一致,防止第1 階段訓練過擬合)生成了Instance-Level 圖,進入到RelationPropagation 階段.

    · 在RelationPropagation 階段,使用標簽傳播算法(相比隱式嵌入方法,這樣能使知識的傳播更有效率),并構(gòu)建雙向傳播機制(分別將圖的可見類部分和不可見類部分作為初始標簽矩陣),最終使用元學習的訓練策略來訓練模型.

    需要指出的是,注意力機制、雙向標簽傳播以及元學習的訓練機制均是用來緩解域偏移問題的,而該模型可以用于完成ZSL,GZSL 以及FSL 任務,其框架示意圖如圖7 所示(Gc表示類級別的圖,Gl表示樣本級別的圖).

    Fig.7 Architecture of TGG[62]圖7 TGG[62]框架

    除了傳統(tǒng)的圖像分類任務之外,Lee 等人[132]將圖網(wǎng)絡擴展到零樣本多標簽圖像分類領域,利用WordNet 知識庫中的顯式關系為圖像標簽構(gòu)建圖關系表示,然后基于標簽詞嵌入向量之間的相似度來建模關系的權重,最后將圖像特征和標簽表示作為初始的節(jié)點狀態(tài),使用圖門神經(jīng)網(wǎng)絡(graph gated neural networks,簡稱GSNN)[191,192]來進行知識傳遞.Zhang 等人[31]進一步將ConceptNet 5.5 知識庫引入到動作識別領域,設計了一個兩分支的圖卷積網(wǎng)絡:一個分支用于生成分類器參數(shù),另一個分支用于生成實例,從而有效地對動作-屬性、屬性-屬性以及動作-動作之間的關系進行建模.

    總體來看,引入外部知識的模型,其作用更多體現(xiàn)在通過增加人類的知識先驗來進一步減小模型對當前數(shù)據(jù)的依賴,并提升特定任務的性能.但是這同時也意味著需要對外部知識進行噪聲處理,以盡可能消除對任務不利的影響.

    3 存在的問題和模型總結(jié)

    3.1 存在問題

    在視覺領域的零樣本學習任務中,長期以來存在兩個傳統(tǒng)的問題:域偏移問題和樞紐點問題,下面分別進行詳細的介紹.

    · 域偏移問題

    即Domain Shift 問題,該問題由Fu 等人[13]首次提出.該文獻中將問題定義為“由于源域數(shù)據(jù)集和目標域數(shù)據(jù)集包含不同的類,因此這些類所包含數(shù)據(jù)分布也可能不同.在源域數(shù)據(jù)集上學習的從視覺空間到嵌入空間的映射函數(shù),如果沒有針對目標域數(shù)據(jù)集進行任何的調(diào)整,就會產(chǎn)生未知的偏移/偏差”.在Fu 等人[14]的工作中,對這一問題進行了擴展,由原先源域到目標域(projection domain shift)映射偏移的問題擴展到不同模態(tài)映射偏移(visual-semantic domain shift)的問題.從本質(zhì)上看,前者可以簡單理解為域適應問題,后者可以簡單理解為模態(tài)鴻溝(又被稱為語義間隔)問題.

    針對第1 種類型的域偏移問題,Long 等人[88]闡述為“這個問題是因為基于回歸形式的模型無法發(fā)現(xiàn)語義空間固有的幾何結(jié)構(gòu),也不能捕捉到可見類到不可見類之間的關系”.因此針對這個問題,最好的解決方式就是在訓練過程中融入不可見類(目標域)的信息(利用不可見類的流形信息),使得模型更好地捕獲源域與目標域之間的關系,從而增加模型在目標域的域適應性.由這一思想產(chǎn)生了兩種主流的做法:第1 種是建立直推式的模型[10-13,25,28,30,31,42,43,53,59,77,79,85,93,94,100,101,108,112,153,173-175,177],即在訓練過程中加入不可見類的樣本;第2種是通過生成偽樣本(基于GAN[32,40,44,83,90,99,105-113]、非GAN[67,88,98,102,104,145,151]),將零樣本問題轉(zhuǎn)化為標準的監(jiān)督學習問題.這些做法其實均隱含了一個前提假設條件:“目標域與源域的數(shù)據(jù)分布在樣本級別上是一致的”.Liu 等人[70]則放棄尋求樣本級別的一致性,轉(zhuǎn)而尋求任務級別上的一致性.Wan 等人[77]則直接利用目標域的不可見類樣本進行k-means 聚類來獲取目標域的數(shù)據(jù)分布.

    此外,除了在訓練過程中加入目標域的信息的方式之外,也有研究者通過保留源數(shù)據(jù)足夠多的信息來緩解Projection Domain Shift 問題.主要有兩種方式:一種是建立雙向映射[66,67,101,109,160-162],經(jīng)過特征空間的重構(gòu)從而建立更加魯棒的映射模型;另一種是通過增加流形正則化項來保持數(shù)據(jù)的結(jié)構(gòu)[28,29,88,92,93,161].最后,還有Zhang等人[62]在基于所生成偽數(shù)據(jù)的基礎上,通過引入元學習的訓練機制來減輕Projection Domain Shift 問題.

    針對第2 種類型的域偏移問題,比較典型的處理方式是基于數(shù)據(jù)的抽象知識去構(gòu)建模型,并在抽象層次上進行不同模態(tài)數(shù)據(jù)的對齊操作.有以下的兩種方式:第1 種是利用流形對齊的思路,從數(shù)據(jù)分布的本質(zhì)特征角度出發(fā),去進行多模態(tài)空間的流形對齊[53,79,80,87,94,96],但是Wang 等人[151]對“不同空間中的數(shù)據(jù)分布一致”這一假設過于嚴格的問題進行了處理;第2 種是從數(shù)據(jù)概率分布的角度出發(fā),將多模態(tài)數(shù)據(jù)的特征概率分布進行對齊[30,86,97,100,101,103].

    · 樞紐點問題

    即Hubness 問題,其可以闡述為“在特征空間中,某個點會成為大多數(shù)節(jié)點的最近鄰點(即使它們之間無關),這會導致數(shù)據(jù)失去其判別性”,尤其會影響基于最近鄰的零樣本認知方式的最終效果.Dinu 等人[15]通過實驗發(fā)現(xiàn)了Hubness 問題的存在,并將Hubness 問題闡述為“Hubness 問題是高維空間的固有問題”,會極大地影響基于回歸映射的方法.Lazaridou 等人[155]將Hubness 問題具體闡述為“高維空間經(jīng)常受到中心性(hubness)的影響,也就是說,它們包含某些元素(即中心點),這些元素會靠近空間中的許多其他的點,卻并不與后者相似”.這些論述均表明,Hubness 問題是在高維空間中的一個固有現(xiàn)象.接著,在Shigeto 等人[158]的工作中,通過實驗的分析表明:Hubness 問題的出現(xiàn)不僅僅是因為高維空間,而且和Ridge Regression 嶺回歸方法在零樣本問題中的使用方式有關.作者還進一步討論了基于Ridge Regression 的模型受到的Hubness 問題的影響.

    對于Hubness 問題,有3 種主流的解決方式.

    1)其一是更新映射的方式.基于文獻[155]的論述,很多研究者[11,68,77,89,158]革新了映射的方式,建立了反向的映射(從文本到視覺,從低維到高維)來減輕Hubness 問題對結(jié)果的影響;但在文獻[193]中證明了,Hubness 問題在低維空間中也會存在,因此這一解決方式并不徹底.

    2)其二是基于原有模型增加流形正則化項.從上面的論述中可以看出,Hubness 問題更多是基于回歸映射的模型所存在的本質(zhì)問題,即映射會導致數(shù)據(jù)的判別性降低.因此,很多研究者[28,29,88,92,93,161]通過增加流形正則化項來保持數(shù)據(jù)的流形結(jié)構(gòu),進而保持數(shù)據(jù)的判別性.

    3)其三是轉(zhuǎn)換建模思路.有的研究者不使用基于回歸映射的模型,轉(zhuǎn)而通過生成偽樣本,將零樣本類的認知過程轉(zhuǎn)化為一個標準的監(jiān)督學習問題,從而也避免了Hubness 問題對結(jié)果的影響.但是偽樣本也需要進行篩選以保證質(zhì)量.

    此外還有一些非主流的方式,例如,Dinu 等人[15]提出一種基于全局修正的近鄰搜索方法而非最近鄰搜索的零樣本認知形式;在文獻[155]中,Lazaridou 等人將嶺回損失替換為Max-Margin Ranking Loss 來緩解Hubness問題.

    3.2 模型總結(jié)

    本文從數(shù)據(jù)知識的角度出發(fā),依據(jù)知識的來源途徑將知識的定義劃分為“初級知識、抽象知識和外部知識”,并基于這樣的劃分方式將現(xiàn)有相關工作分為“基于初級知識的模型、基于抽象知識的模型以及引入外部知識的模型”.在每部分內(nèi)容中,我們基于模型對該層次知識的利用方式,分別對其進行了梳理和歸納總結(jié).更重要的是,這樣的架構(gòu)也有助于我們理解模型逐漸克服ZSL 中存在的各種問題的過程.基于本文第3.1 節(jié)針對問題的論述,我們對3 類模型進行了總結(jié),并將它們總體表現(xiàn)出的優(yōu)缺點呈現(xiàn)在表2 中,以便更好地看出ZSL 技術發(fā)展的脈絡和趨勢.

    Table 2 Comparison of advantages and disadvantages in different zero-shot learning methods表2 零樣本學習各類方法優(yōu)缺點對比

    Table 2 Comparison of advantages and disadvantages in different zero-shot learning methods (Continued)表2 零樣本學習各類模型優(yōu)缺點對比(續(xù))

    4 數(shù)據(jù)集、評估標準和實驗

    由于在零樣本學習領域,圖像分類任務是主流,因此,本節(jié)將介紹零樣本圖像分類任務中的常用數(shù)據(jù)集,并且基于當前“數(shù)據(jù)+知識驅(qū)動”的背景,進一步介紹了基于外部知識庫的模型中常用的知識圖譜.最后,還介紹了ZSL 和GZSL 兩個分類任務的評估標準.

    4.1 常用數(shù)據(jù)集

    絕大多數(shù)零樣本圖像分類模型所用的數(shù)據(jù)集包含了AWA(animal with attribute)數(shù)據(jù)集[33]、AWA2(animal with attribute 2)數(shù)據(jù)集[4]、CUB(Caltech-UCSD Birds-200-2011)數(shù)據(jù)集[194]、SUN(SUN attributes)數(shù)據(jù)集[195]、FLO(Oxford 102 flowers)數(shù)據(jù)集[196]和aPY(aPascal-aYahoo)數(shù)據(jù)集[134].上述6 個數(shù)據(jù)集屬性見表3.

    Table 3 Introduction of datasets (image classification) properties表3 數(shù)據(jù)集(圖像分類任務領域)屬性介紹

    需要指出的是,AWA2 數(shù)據(jù)集是AWA 數(shù)據(jù)集版權到期之后該數(shù)據(jù)集的替代;CUB 數(shù)據(jù)集中的每幅圖像都用Bounding Boxes 和Part Locations 進行了標注,并被用于細粒度的圖像分類任務;SUN 數(shù)據(jù)集是用于細粒度場景分類的SUN 數(shù)據(jù)庫[197]的一個子集;在FLO 數(shù)據(jù)集中,不同的研究者給出了每個類別不同的對應文本語義描述[166,198];aPY 數(shù)據(jù)集包含來自于PASCAL VOC 2008 數(shù)據(jù)集的20 個類別以及來自于Yahoo 的12 個類別.

    除上述6 個通用的數(shù)據(jù)集外,ImageNet 數(shù)據(jù)集[199]也是目前零樣本圖像分類任務領域越來越廣泛使用的大規(guī)模數(shù)據(jù)集.該數(shù)據(jù)集根據(jù)WordNet 的層次結(jié)構(gòu)進行組織,因此ImageNet 數(shù)據(jù)集中的所有類都能在WordNet 中找到對應節(jié)點.完整的ImageNet數(shù)據(jù)集包含了大約22 000 個類別,超過1 500 萬張標簽高分辨率圖像,由Amazon s Mechanical Turk (AMT)眾包工具進行標記,被稱為ImageNet 21k 數(shù)據(jù)集.該數(shù)據(jù)集存在較大的類別不均衡問題,因而是當前同類任務中最具挑戰(zhàn)性的數(shù)據(jù)集.Xian 等人[4]的工作中,總結(jié)了前面具有代表性的方法在該數(shù)據(jù)集上的實驗效果;最近的一些方法也同樣在ImageNet 21k 數(shù)據(jù)集上進行了驗證[4,103,130,131].其使用情況大致如下:首先,使用ImageNet 1k 進行模型的訓練;然后,測試集分為3 個級別——2-hop,3-hop 和all,其中,2-hop 和3-hop分別是指在WordNet 中,距離ImageNet 1k 類對應節(jié)點2-hop/3-hop 距離的節(jié)點所對應類作為測試類,all 則代表了剩余的20k 的類別;除此之外,還有模型使用除ImageNet 1k 之外的剩余類別中最受歡迎的500/1k/5k 等類別,以及最不受歡迎的500/1k/5k 的類別進行測試.但在基于生成式模型的方法中(尤其是指基于GAN 的模型),由于其生成的偽樣本質(zhì)量不能得到充分的保證,因此向ImageNet 21k 這種大規(guī)模的數(shù)據(jù)集擴展仍具有較大困難.

    由于ImageNet 21k 過于龐大,因此進一步衍生出了ImageNet 1k 數(shù)據(jù)集(ILSVRC),其包含1 000 個類別,每個類別大約有1 000 張圖片.有的研究者使用該數(shù)據(jù)集來測試模型性能,例如,Yanan 等人[79]將ILSVRC 2012 數(shù)據(jù)分為800/200 類用于訓練/測試;文獻[61,86,102]則以ILSVRC 2012 的訓練集為源域數(shù)據(jù),并以ILSVRC 2012的測試部分和ILSVRC 2010 的數(shù)據(jù)(或者不與ILSVRC 2012 重合的ILSVRC 2010 類別)作為目標域數(shù)據(jù)等.但是顯然,ImageNet 21k 是未來工作的主流.

    4.2 常用知識庫

    · WordNet(知識圖譜發(fā)展報告2018)

    WordNet 是最著名的詞典知識庫,主要用于詞義消歧,其表示框架主要定義了名詞、動詞、形容詞和副詞之間的語義關系,例如名詞之間的上下位關系(如“貓科動物”是“貓”的上位詞)、動詞之間的蘊含關系(如“打鼾”蘊含著“睡眠”)等.在WordNet3.0 中,已經(jīng)包含超過15 萬個詞和20 萬個語義關系.在零樣本任務領域,主要使用的是WordNet 知識庫中的名詞部分.在這部分內(nèi)容中,有別于通常意義上的字典,WordNet 知識庫根據(jù)詞條的意義將其分組,每一個具有相同意義的字條組稱為一個Synset(同義詞集合),WordNet 為每一個Synset 提供了簡短、概要的定義,并記錄不同Synset 之間的語義關系.這些語義關系通過一個層次化樹狀結(jié)構(gòu)組織起來,并且圖中節(jié)點之間的距離(JC 距離)大致可以反映出視覺上的相似性程度[133].由于WordNet 與ImageNet 數(shù)據(jù)集的緊密關系,WordNet 知識庫成為視覺任務,尤其是圖像分類任務領域的常用知識庫.

    · ConceptNet[121,122]

    ConceptNet 是常識知識庫,是具有代表性大規(guī)模網(wǎng)絡知識獲取的工作,最早源于MIT 媒體實驗室的Open Mind CommonSense(OMCS)項目.ConceptNet 知識庫以三元組形式的關系型知識構(gòu)成,比較側(cè)重于詞與詞之間的關系.從這個角度看,ConceptNe 更加接近WordNet,但是又比WordNet 所包含的關系類型多.ConceptNet5 的知識表示框架主要包含如下要素:概念Concepts、詞Words、短語Phrases、斷言Assertions、關系Relations、邊Edges.Concepts 由Words 或Phrases 組成,構(gòu)成了圖譜中的節(jié)點.與其他知識圖譜的節(jié)點不同,這些Concepts 通常是從自然語言文本中提取出來的,更加接近于自然語言描述,而不是形式化的命名.Assertions 描述了Concepts之間的關系,類似于RDF 中的Statements.Edges 類似于RDF 中的Property.ConceptNet5.5 中已經(jīng)包含了超過2 100 萬個關系描述和800 萬個節(jié)點(英語部分包含了大約150 萬個節(jié)點),其中包含了21 個預定義的、多語言通用的關系(如IsA、UsedFor 等)和從自然語言文本中抽取的更加接近于自然語言描述的非形式化的關系(如on top of,caused by 等).在文獻[31,129]中,研究者選取其英文表述的概念,并且NUSWIDE 數(shù)據(jù)集和ConceptNet之間存在92 595 個共享標簽(包含words 和phrases 在內(nèi)),因此也能較方便地用于視覺任務.

    · NeLL[189]

    該知識庫由卡內(nèi)基梅隆大學開發(fā),是具有代表性的大規(guī)模網(wǎng)絡知識獲取的工作.和ConceptNet 類似,也是遵循RDF 數(shù)據(jù)模型的形式.其已經(jīng)抽取了大約170 萬種物體實體、240 萬條邊.文獻[130]中,將其和NEIL[190](包含超過1 700 條關系和超過40 萬的視覺個體)一起,構(gòu)建了新的知識圖譜來進行零樣本認知的任務,

    以上介紹的知識庫包含了海量的各種人類先驗知識,但是對于特定任務而言,任務不相關信息屬于噪聲.因此,研究者在構(gòu)建基于這類知識庫的模型時,通常需要根據(jù)具體任務來對初始的知識庫進行適當?shù)暮Y選和改造.

    4.3 常用任務評估標準

    在單標簽的零樣本圖像分類任務中,通常使用Top-1 準確率來進行模型性能的度量.Top-1 準確率的定義為:預測概率最大的標簽與真實標簽相符的準確率(即每個測試類中正確標記的實例的比例).由于測試涉及到多個類的Top-1 準確率,因此要進一步對所有的測試類求平均精確值.其公式定義如下:

    其中,|y|表示類別數(shù).在傳統(tǒng)的ZSL 設定下,|y|的范疇僅包含目標域的類別,但在GZSL 的設定下,|y|的范疇進一步包含了源域的類別.因此在這種設定條件下,通過計算源域類和目標域類的Top-1 精確度的調(diào)和平均值(該均值更加強調(diào)較小的一方的重要性,因為模型最終需要在源域和目標域均取得較高的精確值)來進行模型性能的度量,其公式表示如下:

    其中,accytr表示源域的平均Top-1 精確值,accyte表示目標域的平均Top-1 精確值.

    在多標簽的零樣本圖像分類任務中[132],使用Precision(P),Recall(R)和F1-measure來進行模型性能的度量.接下來,通過一個例子來說明這3 個性能度量標準的含義.假定模型通過預測,給出了某個圖像的最終預測標簽集合,其中有TP(true positive)個確實為圖像的標簽并被正確判定;有FN(false negative)個確實為圖像的標簽,但沒有被正確判定,即在預測集合中沒有出現(xiàn);有FP(false positive)個不屬于圖像的標簽,但被錯誤判定為其標簽,即出現(xiàn)在預測集合中;最后有TN(true negative)個本來不屬于圖像的標簽,也沒有出現(xiàn)在預測標簽集合中.基于上面的統(tǒng)計,這張圖像對應的精確率(precision)和召回率(recall)的計算方式如下:

    從上面的兩個計算結(jié)果中我們可以看出:精確率度量的是給出的標簽預測中有多少是正確的,召回率度量的是模型正確召回了多少個正例.接下來,基于與GZSL 任務中調(diào)和平均數(shù)相同的考慮,計算精確率和召回率的調(diào)和平均數(shù)來得出模型的F1 均值,其公式表示如下:

    這即為多標簽圖像分類任務的評估標準.

    4.4 實 驗

    本節(jié)在前面第2 節(jié)的模型梳理工作基礎上,并結(jié)合文獻[4]中實驗部分的工作,從每個類別的方法中分別抽取了1~2 個較新的模型來展示其實驗結(jié)果,并在部分研究者們公布的源代碼(COSMO[156],https://github.com/yuvalatzmon/COSMO;RKT[151],https://github.com/LiangjunFeng/Implement-of-ZSL-algorithms;文獻[68],https://github.com/lzrobots/DeepEmbeddingModel_ZSL;EXEM[89],https://github.com/pujols/Zero-shot-learning-journal;BMVSc[77],https://github.com/raywzy/VSC;ListGAN[83],https://github.com/lijin118/LisGAN;ADGPM[131],https://github.com/cyvius96/DGP;CADA-VAE[103],https://github.com/edgarschnfld/CADA-VAE-PyTorch;GCNZ[131],https://github.com/JudyYe/zero-shot-gcn)基礎上對相關模型進行了驗證(未公布源碼的模型均根據(jù)作者文中描述進行實現(xiàn)),算法運行平臺為GPU TITAN Xp×2,顯存為12×2GB.在表4 中,從上到下的模型類別依次為基于屬性遷移、正向映射、反向映射、雙向映射、共同映射、其他映射、視覺類原型、數(shù)據(jù)流形分布、數(shù)據(jù)概率分布、引入外部描述、引入外部知識庫的模型,依次對應了表4 中第1、2-3、4-5、6、7、8-10、11、12、13-18、19、20個模型.表5 則為對應模型在GZSL 中的實驗結(jié)果.需要指出的是,表格中帶*號的是直推式的模型,字體加粗的模型則打破了“樣本級別,源域目標域數(shù)據(jù)分布一致”潛在假設.需要注意的是,表4 和表5 中‘SS’和‘PS’的定義與文獻[4]保持一致,分別表示傳統(tǒng)的數(shù)據(jù)集分割標準和新提出的數(shù)據(jù)集分割標準.后者在一定程度上防止了預訓練增益,使得在該標準下的實驗結(jié)果更具科學性.而表5 中ts、tr、H 分別表示模型在GZSL 任務中,目標域類別、源域類別的實驗效果以及前兩者的調(diào)和平均數(shù).

    Table 4 Traditional ZSL experiments of different models on various datasets,measuring top-1 accuracy (%)表4 在不同數(shù)據(jù)集中,各個模型在傳統(tǒng)ZSL 任務中的Top-1 準確率(%)

    Table 5 GZSL experiments of different models on various datasets,measuring top-1 accuracy (%)表5 在不同數(shù)據(jù)集中,各個模型在GZSL 任務中的Top-1 準確率(%)

    Table 5 GZSL experiments of different models on various datasets,measuring top-1 accuracy (%) (Continued)表5 在不同數(shù)據(jù)集中,各個模型在GZSL 任務中的Top-1 準確率(%)(續(xù))

    總體上來看:從初級知識到抽象知識的發(fā)展過程中,各類模型的識別準確率是不斷上升的.這是因為抽象層次的知識相比于初級知識更加接近數(shù)據(jù)分布的本質(zhì).以常用的AWA 數(shù)據(jù)集為例,通過分析表4 和表5,我們能夠印證本文第3 節(jié)得出的一些結(jié)論.

    (1) 從模型本身結(jié)構(gòu)的角度來看,在基于初級知識的模型中,基于映射的模型是已有方法的主流.針對領域內(nèi)問題從而對映射方式所做的改進,使得模型效果也在不斷提升.從表4 中我們可以看出,反向映射、雙向映射和共同映射以及其他方式的映射確實能對模型效果提升帶來較大促進作用,因為他們相對于正向映射建立了更加魯棒的映射關系.這一點我們從表4 的ZSL 任務中(從第2 類方法到第6類方法)可以明顯看出:相對于正向映射,平均提升效果20.3%.而在基于抽象知識的模型中,依賴于生成式模型的強大擬合能力,能夠挖掘出數(shù)據(jù)的內(nèi)在分布規(guī)律,因此,基于數(shù)據(jù)概率分布的模型普遍取得了更好的實驗效果.相較于基于映射的模型,平均提升效果17.0%.從表4 和表5 中可以看出,基于GAN 的模型相比于基于VAE 的模型普遍效果更好(例如ListGAN 和CVAE 相比,提升效果31.9%).這是因為基于GAN 的模型生成偽樣本的能力更強,這類方法將成為今后的主流.

    (2) 從數(shù)據(jù)利用的角度來看,在訓練過程中融入不可見類的數(shù)據(jù),即將模型由歸納式改造為直推式,往往是能夠提升模型識別不可見類精度的最簡單有效的方法,這從表4 同一個模型(例如SABR 和f-VAEGAN-D2)的對比中可以看出.以f-VAEGAN-D2 為例,平均提升效果27.0%.由于直推式模型的參數(shù)更具泛化性,這類模型在GZSL 任務下也取得了不錯的效果,這從表5 對應模型的效果可以看出.仍以f-VAEGAN-D2 為例,平均提升效果34.2%.

    (3) 從打破潛在假設的角度來看,這類模型(表格中字體加粗的模型:RKT,CPL 和BMVSc*)大致保持了已有工作實驗效果,但能夠使得模型的應用場景更加貼近實際.

    在引入外部知識的模型中,表4 中文獻[119]的模型實驗效果表明了:挖掘外部描述來替代人工標注語義的模型,經(jīng)過噪聲抑制等措施的處理,同樣也能實現(xiàn)較好的效果.而引入外部知識庫的模型,借助現(xiàn)有的知識圖譜,其最大的優(yōu)勢在于可以方便地擴展到大規(guī)模的數(shù)據(jù)集中,實驗效果見表6.

    Table 6 Experiments of different models on ImageNet21k,measuring top-1 accuracy (%)表6 各個模型在ImageNet21k 數(shù)據(jù)集中的Top-1 準確率(%)

    表6 中的1K、2H、3H 和ALL 分別表示訓練集包含的1 000 個類別、以訓練集為核心的2-hop 距離的類別(借助相關KG 的顯式關系)、以訓練集為核心的3-hop 距離的類別、除訓練集之外的所有類別.從中我們可以看到:GCNZ 和ADGPM 這種引入了KG 的模型,效果相較于之前的傳統(tǒng)方法(EXEM 模型)均有較大的提升,效果平均提升84.4%,充分說明了引入外部知識的有效性和必要性.

    5 挑戰(zhàn)與展望

    · 預訓練增益

    隨著深度網(wǎng)絡架構(gòu)的成熟,很多模型直接利用預訓練好的CNN 網(wǎng)絡來進行目標數(shù)據(jù)集中樣本視覺特征的提取.但如果預訓練CNN 的數(shù)據(jù)類別與目標數(shù)據(jù)集中不可見類部分有重疊,那么就會給零樣本模型對不可見類數(shù)據(jù)的識別效果帶來某些提升(增益),因此在Xian 等人[4]的工作中,對現(xiàn)有的數(shù)據(jù)集進行了重新劃分(PS 的劃分方法),來避免這種情況的發(fā)生.也可以通過使用目標數(shù)據(jù)集中的可見類對預訓練好的CNN 進行微調(diào)來避免預訓練增益情況的發(fā)生[112].但是,如何更好地防止增益效果對實驗結(jié)果的影響,這是未來研究中需要注意的問題.

    · 大數(shù)據(jù)集的挑戰(zhàn)

    ImageNet 21k 數(shù)據(jù)集,其龐大的數(shù)據(jù)規(guī)模中存在著較大的類別不均衡問題,是當前零樣本圖像分類任務中最具挑戰(zhàn)性的數(shù)據(jù)集.文獻[4]中對之前代表性的方法進行了集中的驗證,近期工作也有少量模型在該數(shù)據(jù)集上進行了驗證[89,103,112,130,131,200].在未來工作中,需要將這個數(shù)據(jù)集作為衡量零樣本圖像分類模型性能的基準.

    · 偽樣本的生成

    利用生成式模型建模,在近兩三年變得火熱.生成更好的偽樣本,有利于使用更少的數(shù)據(jù)來更快地確定準確的分類邊界.但是如何生成質(zhì)量更高的偽樣本,這是生成式的方法面臨的主要問題之一.基于Wang 等人[8]工作中的表述,偽樣本的生成應該有3 個標準:真實性、有效性和多樣性.其中,真實性是指生成的偽樣本在視覺上要盡可能地接近真實的樣本;有效性是指生成的目標類偽樣本需要有利于目標類分類器的訓練;多樣性是指生成的某個類的偽樣本,其類內(nèi)方差要盡可能地大一些,更具有判別性.由于在ZSL 領域,生成式模型是基于樣本的高級特征來進行操作的,因此生成偽樣本的真實性則更加適合于文本生成圖像[187]等任務.而偽樣本有效性方面需要優(yōu)先進行考慮,通過在生成模型中引入條件,然后進行偽樣本置信度篩選[83,104]等操作,偽樣本的有效性有了較大的提升.在此基礎上,增加生成偽樣本的多樣性,以更好地確定分類邊界,是當前該類模型面臨的挑戰(zhàn).文獻[83,90]均通過類原型修正來提升所生成偽樣本的多樣性和區(qū)分性.同時,生成式模型生成偽樣本的能力是有限的,如何將生成式模型進一步擴展到大規(guī)模數(shù)據(jù)集中(如ImageNet21k),也是一個值得思考的問題.

    · 模型的可解釋性

    深度網(wǎng)絡的可解釋性是近期比較熱門的話題,但這里所指的可解釋性是指從視覺角度出發(fā),去闡述模型在進行零樣本認知時的視覺依據(jù),是一種弱可解釋性.Xian 等人[112]的工作已對此進行了嘗試.在未來的工作中,如何進一步擴展視覺可解釋性的功能,甚至利用視覺層面的解釋性來反饋輔助模型的訓練,也是未來面臨的挑戰(zhàn).

    · 多義性

    這一問題特指在詞嵌入過程中發(fā)生的問題,即在詞嵌入過程中,出現(xiàn)的一個詞嵌入對應多個名詞表示的現(xiàn)象.放在知識庫中,即轉(zhuǎn)化為“一個詞嵌入對應多個圖節(jié)點的表示”.在WordNet 知識庫中存在大量的這種現(xiàn)象(例如上下義詞共享詞嵌入表示),這是由于知識庫的粒度和詞嵌入表示的粒度不對等造成的.因此,這一問題更多是與知識表示是否合理有關.而多義性的存在是否會影響引入外部知識庫的零樣本模型性能,這也需要進行深入的探究.

    6 結(jié)束語

    在計算機視覺領域,由于數(shù)據(jù)爆發(fā)式增長帶來信息標注成本高昂的問題,零樣本學習越來越受到人們的重視.而隨著“數(shù)據(jù)+知識驅(qū)動”這一理念深入到深度學習的各個領域,零樣本學習也進入到新的發(fā)展階段.本文針對當前對于“知識”這一概念并無統(tǒng)一表述的問題,對零樣本學習領域所使用的知識進行了總結(jié)和歸納,從模型所使用的不同層次知識的角度出發(fā),梳理了已有視覺相關的零樣本學習工作(主要聚焦于零樣本圖像分類任務);接著闡述了本研究領域的現(xiàn)存挑戰(zhàn),并基于存在挑戰(zhàn)對已有工作進行了優(yōu)缺點歸納;然后介紹了領域內(nèi)常用數(shù)據(jù)、評估標準、實驗分析;最后對未來工作進行了展望.本文的角度有助于人們理解零樣本學習中的3 大關鍵問題:如何更好地挖掘已知類的知識、如何更好地將獲取的知識用于對未知類的認知中以及怎樣合理地使用先驗知識.

    猜你喜歡
    標簽語義樣本
    用樣本估計總體復習點撥
    語言與語義
    無懼標簽 Alfa Romeo Giulia 200HP
    車迷(2018年11期)2018-08-30 03:20:32
    推動醫(yī)改的“直銷樣本”
    不害怕撕掉標簽的人,都活出了真正的漂亮
    海峽姐妹(2018年3期)2018-05-09 08:21:02
    隨機微分方程的樣本Lyapunov二次型估計
    “上”與“下”語義的不對稱性及其認知闡釋
    標簽化傷害了誰
    村企共贏的樣本
    基于多進制查詢樹的多標簽識別方法
    計算機工程(2015年8期)2015-07-03 12:20:27
    在线免费观看的www视频| 黄色片一级片一级黄色片| 欧美色视频一区免费| 禁无遮挡网站| 久久久国产成人精品二区| 国产国拍精品亚洲av在线观看 | 999久久久精品免费观看国产| 婷婷精品国产亚洲av在线| 啦啦啦免费观看视频1| 国产精品香港三级国产av潘金莲| 舔av片在线| 精品久久久久久久末码| 非洲黑人性xxxx精品又粗又长| 欧美丝袜亚洲另类 | 在线视频色国产色| 国产欧美日韩精品亚洲av| а√天堂www在线а√下载| 最近最新免费中文字幕在线| 国产精品亚洲av一区麻豆| 国产精品一区二区三区四区免费观看 | 黄色视频,在线免费观看| 色播亚洲综合网| 精品熟女少妇八av免费久了| 亚洲精品乱码久久久v下载方式 | 人人妻人人澡欧美一区二区| 久久久久久久久久黄片| 嫩草影院入口| 欧美黄色淫秽网站| 国产亚洲欧美98| 亚洲精品久久国产高清桃花| 69av精品久久久久久| 免费大片18禁| 狠狠狠狠99中文字幕| 国产免费av片在线观看野外av| 在线视频色国产色| 日韩中文字幕欧美一区二区| 成人国产综合亚洲| 国产免费男女视频| 99久久精品一区二区三区| 老师上课跳d突然被开到最大视频 久久午夜综合久久蜜桃 | 女人高潮潮喷娇喘18禁视频| 亚洲一区二区三区色噜噜| 午夜福利在线观看免费完整高清在 | 亚洲一区高清亚洲精品| 午夜激情欧美在线| 窝窝影院91人妻| 婷婷亚洲欧美| 波多野结衣高清无吗| 国产精品久久久久久精品电影| or卡值多少钱| 美女 人体艺术 gogo| 久久久久精品国产欧美久久久| 欧美高清成人免费视频www| 欧美三级亚洲精品| 免费av毛片视频| 国产精品女同一区二区软件 | 久久99热这里只有精品18| www.999成人在线观看| 美女高潮喷水抽搐中文字幕| 久久婷婷人人爽人人干人人爱| 午夜免费观看网址| 色综合亚洲欧美另类图片| av天堂在线播放| 亚洲成人中文字幕在线播放| 亚洲精品一区av在线观看| 日韩人妻高清精品专区| 欧美av亚洲av综合av国产av| 久久精品国产清高在天天线| 精品国产三级普通话版| 97超视频在线观看视频| 国产私拍福利视频在线观看| 欧美黑人欧美精品刺激| 久久久精品欧美日韩精品| 母亲3免费完整高清在线观看| a在线观看视频网站| 成人性生交大片免费视频hd| 国产欧美日韩一区二区精品| 别揉我奶头~嗯~啊~动态视频| 美女高潮的动态| 99久国产av精品| 日韩欧美在线二视频| 亚洲精品乱码久久久v下载方式 | 老司机福利观看| 日韩亚洲欧美综合| 最近视频中文字幕2019在线8| а√天堂www在线а√下载| 日韩av在线大香蕉| 久久性视频一级片| 欧美色视频一区免费| 亚洲最大成人手机在线| 日韩欧美免费精品| 久久久精品欧美日韩精品| 深爱激情五月婷婷| bbb黄色大片| 亚洲欧美激情综合另类| 国产精品亚洲av一区麻豆| 亚洲第一欧美日韩一区二区三区| 国产v大片淫在线免费观看| 国产精品久久电影中文字幕| svipshipincom国产片| 男女那种视频在线观看| 成人欧美大片| 国产免费男女视频| 亚洲人成网站在线播放欧美日韩| 久久精品人妻少妇| 午夜免费成人在线视频| 热99在线观看视频| 国产黄a三级三级三级人| 免费看美女性在线毛片视频| 日韩av在线大香蕉| 在线观看免费午夜福利视频| 色av中文字幕| www.www免费av| 内射极品少妇av片p| 国产色爽女视频免费观看| 熟妇人妻久久中文字幕3abv| 国产精品久久久久久久电影 | 久久精品国产自在天天线| 97人妻精品一区二区三区麻豆| 在线天堂最新版资源| 每晚都被弄得嗷嗷叫到高潮| 男女午夜视频在线观看| 91麻豆精品激情在线观看国产| 88av欧美| 亚洲av电影在线进入| 久久久久久久精品吃奶| 在线观看午夜福利视频| 无人区码免费观看不卡| 午夜老司机福利剧场| 国产成人影院久久av| 中文字幕精品亚洲无线码一区| 欧美国产日韩亚洲一区| 中文亚洲av片在线观看爽| 精品国产美女av久久久久小说| 成人午夜高清在线视频| 99热这里只有精品一区| 中文亚洲av片在线观看爽| 久久这里只有精品中国| 免费看十八禁软件| 成人精品一区二区免费| 亚洲国产精品999在线| 日韩欧美免费精品| 熟女少妇亚洲综合色aaa.| 国产精品99久久久久久久久| 精华霜和精华液先用哪个| 亚洲av一区综合| 久久久国产成人精品二区| 香蕉久久夜色| 国产精品香港三级国产av潘金莲| 俺也久久电影网| 中文在线观看免费www的网站| 99视频精品全部免费 在线| 欧美bdsm另类| 久久久久九九精品影院| 成人18禁在线播放| 在线观看免费视频日本深夜| 久久精品影院6| 别揉我奶头~嗯~啊~动态视频| 国产激情欧美一区二区| 亚洲中文字幕一区二区三区有码在线看| 久久精品夜夜夜夜夜久久蜜豆| 国产精品精品国产色婷婷| 日本撒尿小便嘘嘘汇集6| 国产亚洲精品av在线| 久久人人精品亚洲av| 叶爱在线成人免费视频播放| 中出人妻视频一区二区| 三级男女做爰猛烈吃奶摸视频| 99久久精品热视频| 99在线视频只有这里精品首页| 国产色婷婷99| 97碰自拍视频| 91在线精品国自产拍蜜月 | 1000部很黄的大片| 有码 亚洲区| bbb黄色大片| 18+在线观看网站| 午夜影院日韩av| 51午夜福利影视在线观看| 狂野欧美激情性xxxx| 免费看光身美女| www日本黄色视频网| 久久久久久久精品吃奶| 最新美女视频免费是黄的| 中文字幕高清在线视频| av天堂中文字幕网| 美女大奶头视频| 欧美黄色片欧美黄色片| 最近最新免费中文字幕在线| 在线观看免费午夜福利视频| 国产aⅴ精品一区二区三区波| 亚洲av中文字字幕乱码综合| 在线天堂最新版资源| 女人高潮潮喷娇喘18禁视频| 变态另类丝袜制服| 午夜老司机福利剧场| e午夜精品久久久久久久| 亚洲不卡免费看| 免费一级毛片在线播放高清视频| 激情在线观看视频在线高清| 国内揄拍国产精品人妻在线| 老鸭窝网址在线观看| 女人被狂操c到高潮| 99精品在免费线老司机午夜| 亚洲成人久久性| 久久中文看片网| 欧美黑人巨大hd| 欧美成人免费av一区二区三区| 亚洲av中文字字幕乱码综合| 我的老师免费观看完整版| 色吧在线观看| 久久久久久久午夜电影| 久久久国产成人免费| 少妇的逼水好多| 国产成人系列免费观看| 国产成人aa在线观看| 欧美日韩瑟瑟在线播放| 亚洲av日韩精品久久久久久密| 精品久久久久久成人av| av中文乱码字幕在线| 18美女黄网站色大片免费观看| 亚洲天堂国产精品一区在线| 日本黄大片高清| 男女床上黄色一级片免费看| 夜夜夜夜夜久久久久| 啦啦啦韩国在线观看视频| 在线观看av片永久免费下载| 欧美黄色片欧美黄色片| 亚洲人与动物交配视频| 国产精品一区二区三区四区免费观看 | 亚洲中文字幕一区二区三区有码在线看| 女生性感内裤真人,穿戴方法视频| 久9热在线精品视频| 亚洲在线观看片| 精品电影一区二区在线| 精品免费久久久久久久清纯| 级片在线观看| 国产三级中文精品| 日日干狠狠操夜夜爽| 亚洲精品乱码久久久v下载方式 | 亚洲欧美日韩卡通动漫| 国产色爽女视频免费观看| 好男人电影高清在线观看| 亚洲狠狠婷婷综合久久图片| 亚洲avbb在线观看| 老熟妇仑乱视频hdxx| 丰满乱子伦码专区| 首页视频小说图片口味搜索| 久久国产精品影院| 午夜福利免费观看在线| x7x7x7水蜜桃| 国产乱人伦免费视频| 亚洲精品色激情综合| 精品熟女少妇八av免费久了| 又黄又粗又硬又大视频| eeuss影院久久| 午夜福利免费观看在线| 成年人黄色毛片网站| xxx96com| 伊人久久精品亚洲午夜| 91av网一区二区| 中国美女看黄片| 国产成人a区在线观看| 91字幕亚洲| 国产精品女同一区二区软件 | 久久精品国产亚洲av香蕉五月| 久久久久国内视频| 亚洲人成网站高清观看| 国产野战对白在线观看| 嫁个100分男人电影在线观看| 丁香六月欧美| 久久久久久人人人人人| 免费大片18禁| 99热这里只有是精品50| 又粗又爽又猛毛片免费看| 日本 欧美在线| 精品国内亚洲2022精品成人| 精品人妻偷拍中文字幕| 69人妻影院| 蜜桃久久精品国产亚洲av| 一区二区三区激情视频| 有码 亚洲区| 两人在一起打扑克的视频| 激情在线观看视频在线高清| 久久精品影院6| 国产97色在线日韩免费| av福利片在线观看| 最近视频中文字幕2019在线8| 色av中文字幕| 日韩精品青青久久久久久| 欧美zozozo另类| 高潮久久久久久久久久久不卡| 亚洲精品一区av在线观看| 中国美女看黄片| 中文字幕高清在线视频| 久久中文看片网| 国产视频内射| 欧美日韩黄片免| 少妇裸体淫交视频免费看高清| 国产av一区在线观看免费| 久久久久久九九精品二区国产| 天美传媒精品一区二区| 丁香六月欧美| 香蕉av资源在线| 51国产日韩欧美| h日本视频在线播放| 亚洲精品国产精品久久久不卡| 狂野欧美激情性xxxx| 亚洲中文字幕日韩| 国产精品女同一区二区软件 | 亚洲成人久久性| 色播亚洲综合网| 亚洲一区二区三区不卡视频| 十八禁网站免费在线| 国产精品 欧美亚洲| 亚洲欧美日韩无卡精品| 久9热在线精品视频| 国内精品一区二区在线观看| 亚洲激情在线av| xxxwww97欧美| 亚洲人成网站在线播放欧美日韩| 欧美日韩乱码在线| 真实男女啪啪啪动态图| 18禁黄网站禁片免费观看直播| a在线观看视频网站| 久久久久久久亚洲中文字幕 | 午夜a级毛片| a在线观看视频网站| 好看av亚洲va欧美ⅴa在| 美女免费视频网站| 非洲黑人性xxxx精品又粗又长| 一个人看的www免费观看视频| 欧美一区二区国产精品久久精品| 国产在视频线在精品| 精品人妻1区二区| 男女视频在线观看网站免费| 18+在线观看网站| 色综合亚洲欧美另类图片| 三级毛片av免费| 久久国产精品影院| 国产伦人伦偷精品视频| 天堂av国产一区二区熟女人妻| 久久精品国产自在天天线| 1024手机看黄色片| 在线a可以看的网站| 日本免费a在线| 一级毛片高清免费大全| 亚洲精品成人久久久久久| 免费在线观看亚洲国产| 亚洲av成人不卡在线观看播放网| 国产麻豆成人av免费视频| 两个人的视频大全免费| 精品一区二区三区视频在线 | 黄片大片在线免费观看| 国产午夜福利久久久久久| 免费看十八禁软件| 在线天堂最新版资源| 欧美xxxx黑人xx丫x性爽| 日韩精品中文字幕看吧| 成人午夜高清在线视频| 欧美绝顶高潮抽搐喷水| 制服丝袜大香蕉在线| 中文资源天堂在线| 深爱激情五月婷婷| 搡老熟女国产l中国老女人| 国产精品三级大全| 国产精品野战在线观看| 久久精品综合一区二区三区| 小蜜桃在线观看免费完整版高清| 一个人免费在线观看的高清视频| 欧美日本视频| 叶爱在线成人免费视频播放| 亚洲无线观看免费| 精品免费久久久久久久清纯| www日本在线高清视频| 叶爱在线成人免费视频播放| 内射极品少妇av片p| 日韩欧美免费精品| 岛国在线观看网站| 国产精品 国内视频| 成人国产综合亚洲| 最近最新免费中文字幕在线| 午夜两性在线视频| 日本一二三区视频观看| 国产一区二区三区视频了| 日本一二三区视频观看| 三级国产精品欧美在线观看| 99精品久久久久人妻精品| 国产免费一级a男人的天堂| 一本一本综合久久| 在线观看av片永久免费下载| 国内精品久久久久久久电影| 日本与韩国留学比较| 日本黄色片子视频| 国产一区在线观看成人免费| 色av中文字幕| 国产免费av片在线观看野外av| 国产成人啪精品午夜网站| 国产高清激情床上av| 亚洲国产精品久久男人天堂| 久久国产乱子伦精品免费另类| 国产亚洲精品久久久com| 国产午夜福利久久久久久| tocl精华| ponron亚洲| 亚洲人与动物交配视频| 久久人人精品亚洲av| 亚洲一区高清亚洲精品| 久久精品夜夜夜夜夜久久蜜豆| 老司机福利观看| 欧美bdsm另类| 制服人妻中文乱码| 亚洲18禁久久av| 国产探花在线观看一区二区| 亚洲狠狠婷婷综合久久图片| 少妇熟女aⅴ在线视频| 亚洲欧美日韩卡通动漫| 99视频精品全部免费 在线| 久久性视频一级片| 国产高清视频在线播放一区| 在线免费观看不下载黄p国产 | av在线蜜桃| 欧美日韩一级在线毛片| 女人高潮潮喷娇喘18禁视频| 亚洲av不卡在线观看| 99久久精品热视频| 怎么达到女性高潮| 九九热线精品视视频播放| 亚洲一区二区三区不卡视频| 夜夜爽天天搞| 动漫黄色视频在线观看| 亚洲成人久久爱视频| 国产av在哪里看| 99久国产av精品| 在线观看一区二区三区| 九色国产91popny在线| 哪里可以看免费的av片| 欧美高清成人免费视频www| 一个人免费在线观看电影| 日韩精品中文字幕看吧| 嫁个100分男人电影在线观看| 我的老师免费观看完整版| 无人区码免费观看不卡| 亚洲精品成人久久久久久| 国产精品永久免费网站| 亚洲精品美女久久久久99蜜臀| 美女被艹到高潮喷水动态| 中文字幕熟女人妻在线| 欧美+日韩+精品| 丝袜美腿在线中文| 一区二区三区激情视频| 非洲黑人性xxxx精品又粗又长| 亚洲国产精品999在线| 亚洲不卡免费看| 美女黄网站色视频| 亚洲av中文字字幕乱码综合| 国产精品乱码一区二三区的特点| 欧美日韩黄片免| 操出白浆在线播放| 日本与韩国留学比较| 精品久久久久久成人av| 99精品欧美一区二区三区四区| 亚洲男人的天堂狠狠| 国产午夜精品久久久久久一区二区三区 | 精品一区二区三区人妻视频| 69av精品久久久久久| 两性午夜刺激爽爽歪歪视频在线观看| 亚洲狠狠婷婷综合久久图片| 久久久久久久久中文| 亚洲精品国产精品久久久不卡| 欧美大码av| 国产蜜桃级精品一区二区三区| 色av中文字幕| 国产不卡一卡二| 国产亚洲欧美98| 日本免费一区二区三区高清不卡| 好男人在线观看高清免费视频| 夜夜看夜夜爽夜夜摸| 天天躁日日操中文字幕| 欧美精品啪啪一区二区三区| 国内毛片毛片毛片毛片毛片| 亚洲一区二区三区不卡视频| 叶爱在线成人免费视频播放| 亚洲无线观看免费| 叶爱在线成人免费视频播放| 欧美乱码精品一区二区三区| 天天添夜夜摸| 韩国av一区二区三区四区| 丰满乱子伦码专区| 18禁黄网站禁片午夜丰满| 精品国产亚洲在线| 国产亚洲av嫩草精品影院| 午夜两性在线视频| 男插女下体视频免费在线播放| 黄色成人免费大全| 少妇裸体淫交视频免费看高清| 最近最新中文字幕大全电影3| 国产三级在线视频| 美女高潮的动态| 国产真实伦视频高清在线观看 | 精品一区二区三区视频在线 | 午夜久久久久精精品| 亚洲熟妇熟女久久| 国产精品乱码一区二三区的特点| 国产亚洲精品久久久com| 亚洲精品在线观看二区| 法律面前人人平等表现在哪些方面| 99热只有精品国产| 日韩欧美在线乱码| 母亲3免费完整高清在线观看| 午夜福利在线观看免费完整高清在 | 国产精品美女特级片免费视频播放器| 亚洲精品成人久久久久久| 国产高清三级在线| 国内毛片毛片毛片毛片毛片| 熟女电影av网| xxxwww97欧美| 国产免费av片在线观看野外av| 国产精品野战在线观看| 69av精品久久久久久| 人妻夜夜爽99麻豆av| 国产精品亚洲av一区麻豆| 宅男免费午夜| 91在线观看av| 欧美成人一区二区免费高清观看| 此物有八面人人有两片| 欧洲精品卡2卡3卡4卡5卡区| 琪琪午夜伦伦电影理论片6080| 免费看光身美女| 亚洲精品久久国产高清桃花| 亚洲精品在线观看二区| 精品久久久久久久久久久久久| 亚洲国产欧美人成| 国产乱人伦免费视频| 在线观看免费午夜福利视频| av欧美777| 国产av麻豆久久久久久久| 欧美zozozo另类| 日韩欧美 国产精品| 国产成人欧美在线观看| 男女床上黄色一级片免费看| 久久精品国产亚洲av涩爱 | 最近最新中文字幕大全电影3| 乱人视频在线观看| 三级男女做爰猛烈吃奶摸视频| 少妇人妻精品综合一区二区 | 国产精品,欧美在线| 91九色精品人成在线观看| 18美女黄网站色大片免费观看| 又粗又爽又猛毛片免费看| 欧美极品一区二区三区四区| 长腿黑丝高跟| 激情在线观看视频在线高清| 日韩有码中文字幕| 精品国产三级普通话版| 天堂av国产一区二区熟女人妻| 夜夜爽天天搞| 神马国产精品三级电影在线观看| 亚洲精品乱码久久久v下载方式 | 欧美日韩瑟瑟在线播放| 99在线视频只有这里精品首页| 国产一区二区在线观看日韩 | 国产精品久久久人人做人人爽| 99久久精品一区二区三区| 亚洲国产精品成人综合色| 每晚都被弄得嗷嗷叫到高潮| 色av中文字幕| 国产精品三级大全| 黄色成人免费大全| 日本撒尿小便嘘嘘汇集6| 久久精品国产清高在天天线| 亚洲成av人片在线播放无| 日韩高清综合在线| 午夜影院日韩av| 日本一本二区三区精品| 在线观看美女被高潮喷水网站 | 成年女人看的毛片在线观看| 很黄的视频免费| 18禁国产床啪视频网站| 国产伦在线观看视频一区| 18禁裸乳无遮挡免费网站照片| 国产三级在线视频| 国内精品久久久久精免费| 岛国在线免费视频观看| ponron亚洲| 丰满人妻熟妇乱又伦精品不卡| 听说在线观看完整版免费高清| 在线观看免费视频日本深夜| 最新在线观看一区二区三区| 亚洲精品美女久久久久99蜜臀| 欧美不卡视频在线免费观看| 狂野欧美白嫩少妇大欣赏| www.色视频.com| 在线观看舔阴道视频| 免费观看的影片在线观看| 搡老岳熟女国产| 脱女人内裤的视频| 99久久无色码亚洲精品果冻| 精品人妻1区二区| 久久久久久久亚洲中文字幕 | 一卡2卡三卡四卡精品乱码亚洲| 亚洲精品国产精品久久久不卡| av天堂中文字幕网| 女人被狂操c到高潮| 老汉色av国产亚洲站长工具| 一个人看的www免费观看视频| 桃色一区二区三区在线观看| 免费高清视频大片| 黄色日韩在线| 国产亚洲欧美98| 变态另类丝袜制服| 一级黄色大片毛片| 久久草成人影院| 久久久久久国产a免费观看| 国产亚洲精品久久久久久毛片|