歐光金
(西南大學(xué)計(jì)算機(jī)與信息科學(xué)學(xué)院,重慶400715)
近年來(lái)監(jiān)督學(xué)習(xí)取得了顯著進(jìn)步,監(jiān)督學(xué)習(xí)的應(yīng)用也隨處可見。加之得益于深度學(xué)習(xí)的快速發(fā)展,監(jiān)督學(xué)習(xí)的性能也得到很大提升。然而監(jiān)督學(xué)習(xí)存在一些缺陷,需要足夠樣本,且學(xué)到的分類器只包含訓(xùn)練過(guò)程中出現(xiàn)過(guò)的類別,對(duì)從未見過(guò)的類別就無(wú)能為力。然而在實(shí)際應(yīng)用中,許多類沒(méi)有對(duì)應(yīng)的標(biāo)注樣本參與訓(xùn)練,而人們需要確定這些測(cè)試樣本是屬于哪一類別。為了解決這一問(wèn)題,零樣本學(xué)習(xí)應(yīng)運(yùn)而生,其目的是對(duì)不可見類的樣本進(jìn)行識(shí)別和分類[1]。
定義1(零樣本學(xué)習(xí))給定屬于可見類S的訓(xùn)練樣本Dtr,零樣本學(xué)習(xí)旨在學(xué)得一個(gè)分類器f(.):X→U,即可以預(yù)測(cè)測(cè)試樣本Xte屬于不可見類集合U的哪一類。
從定義1可以看出,零樣本學(xué)習(xí)的思路是將可見類中學(xué)到的知識(shí)轉(zhuǎn)移到不可見類中,以此實(shí)現(xiàn)分類任務(wù),因此零樣本學(xué)習(xí)是一種特殊的遷移學(xué)習(xí)[2]。遷移學(xué)習(xí)將源域的知識(shí)轉(zhuǎn)移到目標(biāo)域,而輔助信息是不可見類和可見類之間的橋梁。輔助信息通常具有辨別性,能保留每個(gè)類別的特性,且與樣本相關(guān)聯(lián),保證輔助信息是有效的。受人類認(rèn)識(shí)世界的模式啟發(fā),例如通過(guò)“斑馬像馬且有條紋”的描述,幼童可以識(shí)別出斑馬,即使他們以前從來(lái)沒(méi)見過(guò)??梢婎惡筒豢梢婎惖恼Z(yǔ)義信息組成語(yǔ)義空間,該空間為實(shí)數(shù)空間。在語(yǔ)義空間中,每個(gè)類都由一個(gè)特定的向量表示,該表示稱為類別原型。根據(jù)零樣本學(xué)習(xí)中使用數(shù)據(jù)的不同,可以將零樣本學(xué)習(xí)分為直推式和歸納式兩類。
定義2(直推式零樣本學(xué)習(xí))只利用帶標(biāo)記的可見類樣本進(jìn)行模型訓(xùn)練。
定義3(歸納式零樣本學(xué)習(xí))利用帶標(biāo)記的可見類樣本以及不帶標(biāo)記的不可見類的樣本進(jìn)行模型訓(xùn)練。
語(yǔ)義空間作為零樣本學(xué)習(xí)的關(guān)鍵,有助于知識(shí)從可見類到不可見類的遷移。根據(jù)語(yǔ)義空間的構(gòu)造方式,可以將已有工作中使用的語(yǔ)義空間分為人為語(yǔ)義空間和學(xué)習(xí)語(yǔ)義空間兩種。
人為語(yǔ)義空間中的每個(gè)維度都是人工定義的。接下來(lái),對(duì)幾種典型的人為語(yǔ)義空間進(jìn)行介紹。
屬性空間:屬性空間由屬性構(gòu)成,在零樣本學(xué)習(xí)任務(wù)中使用最多。在屬性空間中,每個(gè)屬性是與類的一個(gè)特性相對(duì)應(yīng)的單詞或短語(yǔ)。所有類的所有屬性形成語(yǔ)義空間。類原型的每個(gè)維度用二進(jìn)制值或?qū)崝?shù)值來(lái)表示該類是否含有對(duì)應(yīng)的屬性。例如我們有屬性集{“四條腿”、“有尾巴”和“哺乳動(dòng)物”},那么“青蛙”對(duì)應(yīng)的屬性為[1,0,0],而馬對(duì)應(yīng)的屬性為[1,1,1]。
詞空間:詞空間由一組詞組成,該空間利用類和數(shù)據(jù)集的標(biāo)記來(lái)提供語(yǔ)義信息。數(shù)據(jù)庫(kù)是結(jié)構(gòu)化的詞數(shù)據(jù)庫(kù)(如WordNet),將其作為數(shù)據(jù)源或者利用其中的層次關(guān)系可以構(gòu)建不同的語(yǔ)義空間。另外,詞數(shù)據(jù)庫(kù)中類之間的距離(如Jiang-Conrath距離、Lin距離)或相似度也可以用來(lái)構(gòu)建語(yǔ)義空間。
文本-關(guān)鍵字空間:通過(guò)每個(gè)類的文本描述中的關(guān)鍵字組成。文本描述可以從預(yù)定義的網(wǎng)站(例如Wiki?pedia)獲得,也可以從搜索引擎描述每個(gè)類的Web頁(yè)面獲得。
人為語(yǔ)義空間能夠靈活地使用領(lǐng)域知識(shí),但語(yǔ)義空間和類原型十分耗費(fèi)人力。
學(xué)習(xí)語(yǔ)義空間中的維度不是人工定義的,每個(gè)類別原型都是以機(jī)器學(xué)習(xí)的方式獲取的。這些機(jī)器學(xué)習(xí)模型通常是從其他任務(wù)中預(yù)訓(xùn)練得到或從零樣本學(xué)習(xí)中專門訓(xùn)練得到。下面介紹幾種常見的學(xué)習(xí)語(yǔ)義空間。
標(biāo)記嵌入空間:類別原型的語(yǔ)義空間是通過(guò)標(biāo)記嵌入得到的。隨著詞嵌入技術(shù)在NLP領(lǐng)域的發(fā)展,引入標(biāo)記嵌入空間。詞向量在嵌入過(guò)程中被映射到實(shí)數(shù)空間中成為類別原型,該實(shí)數(shù)空間中包含著類別的語(yǔ)義信息。語(yǔ)義相近的詞在遷入后距離相近,反之較遠(yuǎn)。
文本嵌入空間:類別原型的語(yǔ)義空間是從類別的文本嵌入得到的,即該空間語(yǔ)義信息從文本描述中獲取。通過(guò)將類的文本描述輸入到預(yù)訓(xùn)練模型,而模型輸出即為類別的原型。
圖片特征空間:類別原型的語(yǔ)義空間是從樣本中提取的。通常將屬于同一類別的圖像輸入到一個(gè)預(yù)訓(xùn)練的模型,將模型輸出組合為一個(gè)向量表示作為該類的原型。
學(xué)習(xí)語(yǔ)義空間的原型的生成不需要人力參與且能夠包含更多的信息,但通常需要借助一些機(jī)器學(xué)習(xí)模型得到。另外,獲取到的類別原型的每個(gè)維度沒(méi)有明顯含義。
根據(jù)類別原型嵌入方式的區(qū)別,我們將已有的零樣本學(xué)習(xí)方法分為四類。
通過(guò)該推理框架,給定一個(gè)測(cè)試圖片特征,可以通過(guò)上面的乘法得到每個(gè)樣本屬于某不可見類的概率。在這項(xiàng)開創(chuàng)性的工作之后,很多工作在DAP的基礎(chǔ)上做了改進(jìn)。一些方法側(cè)重于提高屬性分類器的分類能力,而另一些則側(cè)重于修改推理框架。
語(yǔ)義嵌入是尋找視覺空間到語(yǔ)義空間的映射。例如,屬性標(biāo)簽嵌入(ALE)[4]提出了一種雙線性得分函數(shù)去連接視覺特征和語(yǔ)義特征,如式(2)所示。
其中θ(x)和φ(y)分別是圖片特征和類別語(yǔ)義特征,W是所學(xué)的參數(shù)矩陣。通過(guò)最小化標(biāo)簽和圖像嵌入之間的損失函數(shù),將零樣本學(xué)習(xí)問(wèn)題轉(zhuǎn)化為標(biāo)簽嵌入問(wèn)題。給定輸入圖片,兼容性得分函數(shù)可以預(yù)測(cè)與圖片得分最高的類作為預(yù)測(cè)標(biāo)記。Kodirov等人提出了基于語(yǔ)義自編碼器的方法(SAE)[5],通過(guò)在視覺特征表示上添加重構(gòu)約束,可以有效解決投影漂移問(wèn)題。
與上述語(yǔ)義嵌入方法不同,公共空間嵌入尋找一個(gè)公共的空間來(lái)學(xué)習(xí)視覺特征和語(yǔ)義空間之間的關(guān)系。結(jié)構(gòu)化聯(lián)合映射(SJE)[6]學(xué)習(xí)了一個(gè)包含多種語(yǔ)義(文本、屬性和層次關(guān)系等)的公共空間,其損失函數(shù)受到結(jié)構(gòu)化SVM的啟發(fā),將全部權(quán)重賦予排名靠前的列表,如式(3)所示。Romera和Li等人也提出了基于公共空間嵌入的方法。
可以通過(guò)深度方式學(xué)習(xí)非線性嵌入解決零樣本學(xué)習(xí)問(wèn)題。Frome等人提出的DeViSE方法,首次通過(guò)預(yù)先訓(xùn)練深層語(yǔ)言和視覺模型來(lái)解決零樣本問(wèn)題,其損失函數(shù)受到無(wú)正則化的排序SVM影響,如式(4)所示。
隨后越來(lái)越多的深度學(xué)習(xí)方法(Norouzi、Wu等人)被提出用于解決零樣本學(xué)習(xí)任務(wù)。
隨著零樣本學(xué)習(xí)方法的性能的提高,其在實(shí)際場(chǎng)景中的應(yīng)用逐漸增多。
(1)計(jì)算機(jī)視覺。零樣本學(xué)習(xí)最大的應(yīng)用在于圖像和視頻的研究。零樣本學(xué)習(xí)不僅可以完成分類任務(wù),解決鳥類、花類等細(xì)粒度分類問(wèn)題,還可以用于圖像分割、圖像檢索和領(lǐng)域適應(yīng)等問(wèn)題。零樣本學(xué)習(xí)也被用于研究視頻相關(guān)的問(wèn)題,它可以被用來(lái)識(shí)別未知?jiǎng)幼骱臀粗楦袠?biāo)簽的視頻。另外,零樣本學(xué)習(xí)還用于動(dòng)作定位、事件敘述和生成描述(文本)等任務(wù)。
(2)自然語(yǔ)言處理。近年來(lái)零樣本學(xué)習(xí)在自然語(yǔ)言處理領(lǐng)域中也有一席之地。在罕見稀有語(yǔ)言的學(xué)習(xí)中,零樣本學(xué)習(xí)有助于構(gòu)建雙語(yǔ)詞典;在機(jī)器翻譯問(wèn)題中,零樣本學(xué)習(xí)用于沒(méi)有平行語(yǔ)料庫(kù)的語(yǔ)言對(duì)中進(jìn)行零樣本翻譯。此外零樣本學(xué)習(xí)還被用于口語(yǔ)理解、語(yǔ)義話語(yǔ)分類。除以上之外,零樣本學(xué)習(xí)還可以被用于網(wǎng)頁(yè)實(shí)體抽取、細(xì)粒度命名實(shí)體類型、跨語(yǔ)言文檔檢索和關(guān)系抽取等自然語(yǔ)言處理相關(guān)問(wèn)題。
(3)其他。除上述領(lǐng)域外,借助傳感器,零樣本學(xué)習(xí)可用來(lái)識(shí)別人類的活動(dòng);在計(jì)算生物學(xué)領(lǐng)域,零樣本學(xué)習(xí)可以分析分子化合物的組成;在安全和隱私領(lǐng)域,零樣本學(xué)習(xí)可以幫助發(fā)射機(jī)識(shí)別。
目前零樣本學(xué)習(xí)已應(yīng)用在多個(gè)領(lǐng)域,我們對(duì)未來(lái)的研究方向進(jìn)行了考慮:
(1)輸入特征?,F(xiàn)有的關(guān)于零樣本學(xué)習(xí)的工作是適用于各個(gè)場(chǎng)景下的通用方法,并沒(méi)有針對(duì)數(shù)據(jù)在不同應(yīng)用中的特性進(jìn)行建模。例如在圖像識(shí)別中,除了考慮圖像全局特征之外,一些局部的具有辨別性的特征可能會(huì)有助分類;再例如動(dòng)作檢測(cè)中的輸入數(shù)據(jù)是多模態(tài)的,可以利用多模態(tài)方法進(jìn)行建模。因此在未來(lái)的研究中,根據(jù)不同應(yīng)用場(chǎng)景的輸入數(shù)據(jù)的特征進(jìn)行研究是大有益處的。
(2)訓(xùn)練數(shù)據(jù)的主動(dòng)選擇。現(xiàn)有的零樣本學(xué)習(xí)方法大多處于可見類和不可見類相關(guān)聯(lián)這一假設(shè)下,例如訓(xùn)練數(shù)據(jù)和測(cè)試數(shù)據(jù)都是關(guān)于動(dòng)物的圖像。而現(xiàn)實(shí)生活中數(shù)據(jù)的來(lái)源可能多種多樣,存在一些噪聲數(shù)據(jù),應(yīng)該考慮數(shù)據(jù)清洗的方法以處理實(shí)際情況中的復(fù)雜環(huán)境,主動(dòng)學(xué)習(xí)可能是一個(gè)好的選擇。
(3)開放設(shè)定。與傳統(tǒng)零樣本學(xué)習(xí)相比,在廣義的零樣本學(xué)習(xí)中,測(cè)試實(shí)例可以來(lái)自于可見類和不可見類。盡管這個(gè)設(shè)置更為實(shí)際,但仍不能滿足實(shí)際生活中的復(fù)雜情況,例如訓(xùn)練過(guò)程中不斷增加新的類別,以及少量可見類別和大量不可見類別的場(chǎng)景。我們需要在更為開放的設(shè)定下討論零樣本學(xué)習(xí)方法。