許 鵬,鄧趙紅,王 駿,王士同
江南大學(xué) 人工智能和計(jì)算機(jī)學(xué)院,江蘇 無錫214122
領(lǐng)域自適應(yīng)通過使用含有大量標(biāo)簽的源域數(shù)據(jù)幫助來自不同分布的目標(biāo)域數(shù)據(jù)實(shí)現(xiàn)更高效的學(xué)習(xí)任務(wù)[1-2]。根據(jù)兩個(gè)領(lǐng)域特征空間的異同,領(lǐng)域自適應(yīng)可以分為同構(gòu)領(lǐng)域自適應(yīng)和異構(gòu)領(lǐng)域自適應(yīng)。而根據(jù)目標(biāo)域是否存在標(biāo)簽,又可以分為無監(jiān)督領(lǐng)域自適應(yīng)和半監(jiān)督領(lǐng)域自適應(yīng)[3-4]。本文主要關(guān)注半監(jiān)督異構(gòu)領(lǐng)域自適應(yīng)場景。
常用的領(lǐng)域自適應(yīng)方法主要有三種,分別是基于樣本選擇的方法[5-6]、基于模型參數(shù)關(guān)系的方法[7-8]和基于特征變換的方法[9-10]。本文關(guān)注基于特征變換的方法。一般來說,此類方法的基本思路由兩方面構(gòu)成:一方面是令兩個(gè)領(lǐng)域的數(shù)據(jù)在共享子空間中距離最小化;另一方面是在特征變換過程中對(duì)原始數(shù)據(jù)進(jìn)行信息保持。則不同方法的差異可以總結(jié)為三方面,分別是共享子空間的構(gòu)造方式,源域和目標(biāo)域數(shù)據(jù)在共享子空間中的距離度量方式和原始數(shù)據(jù)信息的保持方式。
在共享子空間的構(gòu)造方面,有對(duì)稱特征變換[11]和非對(duì)稱特征變換兩種方式[12-13]。為了實(shí)現(xiàn)特征非線性變換,核方法[14]、多核學(xué)習(xí)[15]和其他非線性方法[16-17]也被引入到領(lǐng)域自適應(yīng)中。在距離度量方面,已有最大均值差異(maximum mean discrepancy,MMD)[18]、Bregmann 距離[19]、KL 距離[20]和Wasserstein 距離[21]被用來度量兩個(gè)領(lǐng)域在共享子空間的距離。在數(shù)據(jù)信息保持方面,已有算法主要通過流形學(xué)習(xí)來保持結(jié)構(gòu)信息,比如主成分分析(principal component analysis,PCA)[22]、局部保持投影(locality preserving projection,LPP)[23]和判別局部對(duì)齊[19]等。
大量已有異構(gòu)領(lǐng)域自適應(yīng)算法雖然取得了不錯(cuò)的效果,但是它們有兩點(diǎn)共同的不足:(1)在很多場景下,源域和目標(biāo)域之間存在配對(duì)樣本。比如在使用圖片數(shù)據(jù)輔助文本分類時(shí),圖片和文本不僅具有異構(gòu)性,而且存在大量的圖片文本配對(duì)信息。而已有算法幾乎沒有利用這種配對(duì)信息。最近已有個(gè)別研究在嘗試?yán)眠@種信息進(jìn)行領(lǐng)域自適應(yīng)[24-26],但是都未能充分考慮兩個(gè)領(lǐng)域的分布差異,使得共享子空間的構(gòu)造完全依賴配對(duì)樣本,算法無法靈活地使用配對(duì)數(shù)據(jù),擴(kuò)展性較差。(2)已有算法在保持?jǐn)?shù)據(jù)的結(jié)構(gòu)信息時(shí),一方面,它們一般通過單獨(dú)采用局部的或者全局的流形方法對(duì)數(shù)據(jù)進(jìn)行結(jié)構(gòu)信息保持,未能充分考慮多層次的結(jié)構(gòu)信息;另一方面,已有方法也未能充分利用源域和目標(biāo)域的所有標(biāo)簽信息。而充分考慮這些信息能夠有效提升算法的效果。
為了克服上述挑戰(zhàn),本文提出了一種聯(lián)合信息保持算法(joint information preservation,JIP),所提算法可以解決半監(jiān)督異構(gòu)領(lǐng)域自適應(yīng)任務(wù)。算法假設(shè)源域和目標(biāo)域具有部分配對(duì)樣本,源域均為有標(biāo)簽數(shù)據(jù),與之配對(duì)的目標(biāo)域數(shù)據(jù)也被認(rèn)為是有標(biāo)簽數(shù)據(jù),其他目標(biāo)域數(shù)據(jù)則為無標(biāo)簽數(shù)據(jù)。JIP 以一種靈活可擴(kuò)展的方式將配對(duì)信息和結(jié)構(gòu)信息保持整合到一個(gè)領(lǐng)域自適應(yīng)框架中。針對(duì)源域數(shù)據(jù)和目標(biāo)域數(shù)據(jù),JIP采用對(duì)稱特征變化方式構(gòu)造共享子空間,而后通過三部分來約束共享子空間的構(gòu)造,分別是域間分布匹配、域間樣本配對(duì)信息保持和多層次判別結(jié)構(gòu)信息保持。
更具體的,第一部分域間分布匹配,采用常用的MMD距離,令源域和目標(biāo)域數(shù)據(jù)在共享子空間中的MMD最小化。第二部分域間配對(duì)信息保持,采用典型相關(guān)性分析(canonical correlation analysis,CCA),令源域和目標(biāo)域的配對(duì)樣本在共享子空間中相關(guān)性最大化,從而使得共享子空間的學(xué)習(xí)既不完全依賴于配對(duì)樣本,又能以一種靈活可擴(kuò)展的方式對(duì)其加以利用。第三部分多層次判別結(jié)構(gòu)信息保持,這里采用線性判別分析對(duì)數(shù)據(jù)進(jìn)行全局結(jié)構(gòu)信息保持,采用有監(jiān)督局部保持投影對(duì)數(shù)據(jù)進(jìn)行局部結(jié)構(gòu)信息保持。整合上述三部分,最終特征變換的優(yōu)化問題可以簡化成為一個(gè)廣義特征值分解問題。
本文的主要貢獻(xiàn)可以歸納如下:
(1)在基于特征的異構(gòu)領(lǐng)域自適應(yīng)框架中引入了配對(duì)信息保持以解決信息損失問題,充分利用了源域和目標(biāo)域之間的配對(duì)樣本信息來提升域間自適應(yīng)特征的學(xué)習(xí)能力。
(2)較之于傳統(tǒng)算法中單一的結(jié)構(gòu)信息保持,提出了判別多層次結(jié)構(gòu)信息保持,即在充分利用數(shù)據(jù)標(biāo)簽信息的基礎(chǔ)上,同時(shí)進(jìn)行了局部結(jié)構(gòu)信息保持和全局結(jié)構(gòu)信息保持。
(3)整合上述兩部分,提出了一個(gè)聯(lián)合配對(duì)信息與結(jié)構(gòu)信息保持的異構(gòu)領(lǐng)域自適應(yīng)算法,從而充分挖掘了信息保持策略對(duì)于提升領(lǐng)域自適應(yīng)效果的價(jià)值。
(4)在圖片分類、動(dòng)作識(shí)別和多媒體數(shù)據(jù)上大量的實(shí)驗(yàn)驗(yàn)證了所提算法的有效性,超越或者至少競爭于當(dāng)前最先進(jìn)的異構(gòu)領(lǐng)域自適應(yīng)算法。
本文主要關(guān)注適用范圍更廣泛也更具有挑戰(zhàn)性的異構(gòu)領(lǐng)域自適應(yīng)(heterogeneous domain adaptation,HDA)。在基于特征變換的HDA中,HeMap[27](heterogeneous spectral mapping)是一種較早提出的經(jīng)典框架,其對(duì)源域和目標(biāo)域數(shù)據(jù)進(jìn)行對(duì)稱特征變換,一方面令源域和目標(biāo)域的投影數(shù)據(jù)與原始數(shù)據(jù)差異最小化,另一方面使源域和目標(biāo)域的投影數(shù)據(jù)差異最小化。算法DAMA[23](domain adaptation and manifold alignment)將流行對(duì)齊引入了HDA,一方面保持了每個(gè)領(lǐng)域的流形拓?fù)浣Y(jié)構(gòu),另一方面進(jìn)行了標(biāo)簽流形對(duì)齊,即同類樣本在新特征空間內(nèi)保持鄰近關(guān)系,而非同類樣本在新特征空間內(nèi)保持非鄰近關(guān)系。不同于HeMap 和DAMA,ARC-t[28](asymmetric regularized cross-domain transforms)將非對(duì)稱特征變換引入HDA,并且核化變換矩陣使其具有更靈活的參數(shù)正則化方式。在基于模型參數(shù)關(guān)系的HDA 算法中,MMDT[29](max-margin domain transforms)同樣采用非對(duì)稱特征變換,而與ARC-t 不同的是MMDT 整合了大間隔模型求解,最終得到一個(gè)自適應(yīng)SVM(support vector machine)。和MMDT的研究范式類似,SHFA[30](semisupervised heterogeneous feature agumentation)也是基于模型的HDA 算法,其創(chuàng)新在于對(duì)數(shù)據(jù)進(jìn)行了特征增強(qiáng),然后使用增強(qiáng)特征進(jìn)行域適配學(xué)習(xí)。這里特征增強(qiáng)可以使得同一個(gè)領(lǐng)域內(nèi)的數(shù)據(jù)具有更好的相似性,從而使得來自不同領(lǐng)域的數(shù)據(jù)適配效果會(huì)更好。不同于大部分算法是對(duì)原始數(shù)據(jù)進(jìn)行特征變換,SHFR[31](sparse heterogeneous feature representation)首先離線對(duì)各領(lǐng)域數(shù)據(jù)預(yù)訓(xùn)練一組線性SVM,得到每個(gè)域分類器的模型參數(shù),之后采用類似ARC-t中的非對(duì)稱變換方式對(duì)分類器參數(shù)進(jìn)行差異最小化。對(duì)于目標(biāo)域測試樣本,最后可通過整合多個(gè)被適配的源域分類器進(jìn)行預(yù)測。另外一類比較重要的就是基于樣本選擇的算法,LCDS[32](learning cross-domain landmarks)采用了landmark 技術(shù)即在域適應(yīng)過程中為源域和目標(biāo)域的每個(gè)樣本都添加一個(gè)權(quán)重進(jìn)行優(yōu)化,最終所有包含非零權(quán)重的樣本都稱為landmarks。TIT[18](together independent transfer)是一個(gè)領(lǐng)域自適應(yīng)框架,其整合了領(lǐng)域分布差異最小化、流形結(jié)構(gòu)保持、樣本權(quán)重和特征選擇,表現(xiàn)出了較之前算法都好的異構(gòu)領(lǐng)域自適應(yīng)性能?;谏疃葘W(xué)習(xí)的算法[33-34]中均使用神經(jīng)網(wǎng)絡(luò)完成了HDA任務(wù)。有關(guān)異構(gòu)領(lǐng)域自適應(yīng)更加系統(tǒng)全面的文獻(xiàn)回顧可以參考綜述文章[1,3]。
已有一些與本文研究相關(guān)的工作,即在領(lǐng)域自適應(yīng)過程中考慮多視角配對(duì)信息。這些已有的工作主要可以分為兩類:一類是多視角遷移學(xué)習(xí)[35-37],這類工作假設(shè)源域是具有多個(gè)視角的有標(biāo)簽數(shù)據(jù),目標(biāo)域是只有一個(gè)視角的無標(biāo)簽數(shù)據(jù),其主要目的是通過利用源域的大量標(biāo)簽信息和多視角信息來輔助目標(biāo)域數(shù)據(jù)的建模。雖然這類工作也在領(lǐng)域自適應(yīng)過程中涉及多視角信息,但不同于本文所關(guān)心的場景。第二類即本文所關(guān)注的研究范式,源域和目標(biāo)域都是單視角數(shù)據(jù),但是源域和目標(biāo)域數(shù)據(jù)之間存在多視角配對(duì)樣本。Yeh 等人[24]首先關(guān)注到這類數(shù)據(jù),并利用CCA學(xué)習(xí)到一個(gè)相關(guān)子空間用作自適應(yīng)特征空間并整合分類器優(yōu)化過程提出了CTSVM(correlated transfer support vector machine)。Yan等人[25]提出的DCA(discriminative correlation analysis)也使用CCA 學(xué)習(xí)一個(gè)相關(guān)子空間進(jìn)行領(lǐng)域自適應(yīng),不同的是其采用了ADMM(alternating direction method of multipliers)算法來優(yōu)化目標(biāo)函數(shù)。Mehrkanoon等人[26]提出的RSP-KCCA(regularized semi-paired kernel CCA)首次正式地考慮了領(lǐng)域自適應(yīng)場景中的配對(duì)樣本信息,并把問題形式化成最小二乘支持向量機(jī)的形式來求解。雖然這三個(gè)方法都考慮了源域和目標(biāo)域之間的配對(duì)樣本,但是它們特征空間的學(xué)習(xí)完全依賴于配對(duì)數(shù)據(jù)。實(shí)際應(yīng)用中只有少量配對(duì)樣本,很難構(gòu)造出一個(gè)理想的特征子空間。本文所提算法正是針對(duì)此種情況的挑戰(zhàn),使得算法可以靈活地利用源域和目標(biāo)域之間的配對(duì)樣本信息,在只有少量配對(duì)樣本的情況下,也可以達(dá)到較好的領(lǐng)域自適應(yīng)效果。
在異構(gòu)領(lǐng)域自適應(yīng)場景下,給定一個(gè)源域和一個(gè)目標(biāo)域,并且它們屬于不同的特征空間。源域包含大量有標(biāo)簽數(shù)據(jù),而目標(biāo)域只包含一部分有標(biāo)簽數(shù)據(jù)和大量的無標(biāo)簽數(shù)據(jù),并且源域和目標(biāo)域包含一部分配對(duì)樣本。算法的目的就是利用大量源域有標(biāo)簽數(shù)據(jù)和部分配對(duì)樣本來提高目標(biāo)域數(shù)據(jù)的分類性能。
給定源域數(shù)據(jù)XS=和對(duì)應(yīng)的標(biāo)簽YS=,目標(biāo)域數(shù)據(jù)XT=和對(duì)應(yīng)的偽標(biāo)簽。其中,ds和dt分別表示源域和目標(biāo)域數(shù)據(jù)的特征維度,ns和nt分別表示源域和目標(biāo)域樣本的個(gè)數(shù)。假設(shè)其中源域和目標(biāo)域的配對(duì)樣本數(shù)為np并且np≤min{ns,nt},則源域和目標(biāo)域的配對(duì)樣本分別可以表示為。由于兩個(gè)領(lǐng)域的配對(duì)樣本的標(biāo)簽共享,則配對(duì)樣本的標(biāo)簽可以分別表示為。根據(jù)基于特征的領(lǐng)域自適應(yīng)算法的基本思想,即一方面要進(jìn)行基本的分布匹配,另一方面要最小化信息損失,則本文所提算法可以形式化成如下形式。
其中,φ表示在構(gòu)造共享子空間時(shí)對(duì)原始數(shù)據(jù)進(jìn)行的特征變化,也是最終需要求解的部分。式中第一項(xiàng)表示最小化源域和目標(biāo)域在經(jīng)過φ變換后在新特征空間中的分布距離。第二項(xiàng)表示聯(lián)合保持原始數(shù)據(jù)的配對(duì)信息和結(jié)構(gòu)信息。它們的具體實(shí)現(xiàn)在3.2節(jié)~3.4節(jié)中詳細(xì)呈現(xiàn)。
基于特征的異構(gòu)領(lǐng)域自適應(yīng)第一步就是對(duì)兩個(gè)領(lǐng)域的數(shù)據(jù)進(jìn)行分布匹配,即最小化它們在共享子空間中投影數(shù)據(jù)之間的分布距離。本文采用了同構(gòu)領(lǐng)域自適應(yīng)算法[38]中的聯(lián)合分布匹配策略(joint distribution adaptation,JDA)。然而,和JDA中采用的共享變換矩陣不同,本文采用了兩個(gè)不同的變換矩陣A和B來溝通異構(gòu)特征空間。這里,m表示共享子空間的維度。JDA 采用MMD 同時(shí)對(duì)兩個(gè)領(lǐng)域的邊緣概率和條件概率進(jìn)行了分布匹配。則在異構(gòu)領(lǐng)域自適應(yīng)場景下,JDA的優(yōu)化目標(biāo)可以重新表達(dá)為如下形式。
這里,式(2a)代表邊緣概率分布匹配,式(2b)代表?xiàng)l件概率分布匹配,C代表類別個(gè)數(shù),分別表示源域和目標(biāo)域中屬于類別c的樣本個(gè)數(shù)。本文也采用了類似于JDA的偽標(biāo)簽迭代更新策略進(jìn)行優(yōu)化求解,詳細(xì)步驟參考算法1。令WT=[AT,BT],則可通過整合式(2a)和式(2b)得到以下目標(biāo)函數(shù)。
為了保持配對(duì)信息,本文采用CCA[39]來最大化兩個(gè)領(lǐng)域之間配對(duì)樣本的相關(guān)性。此處CCA的目的是為了尋找一組投影向量來最大化源域投影數(shù)據(jù)aTXSP和目標(biāo)域投影數(shù)據(jù)bTXTP之間的相關(guān)性。CCA的目標(biāo)函數(shù)如下:
這里,HP表示中心化矩陣,它可以簡化式(4)中方差和協(xié)方差的計(jì)算過程。將單位矩陣表示為,只含1的列向量為,則HP=IP-。通過優(yōu)化式(4),可以得到一組投影向量并且投影子空間為1維空間。為了將投影數(shù)據(jù)擴(kuò)展到高維空間,可以聯(lián)合一組相關(guān)系數(shù),則可以得到多組投影向量A=[a1,a2,…,am]和B=[b1,b2,…,bm],同時(shí)優(yōu)化一組相關(guān)系數(shù)的目標(biāo)函數(shù)如下:
因?yàn)橥队跋蛄康目s放并不會(huì)影響式(4)的最優(yōu)解,所以才能導(dǎo)出式(5)的有約束優(yōu)化問題。求解式(5)最常用的方法是拉格朗日乘子法,采用此方法求解,投影矩陣A和B可以依次按順序得到求解。
在所提算法中,要將配對(duì)信息保持整合到分布匹配的框架中。因此,投影矩陣需要同時(shí)得到求解而非依次求解。給定兩個(gè)領(lǐng)域的配對(duì)樣本,則均為固定值。因此式(5)中等式約束的主要作用是限制投影向量的大小,從而可以只優(yōu)化其方向。為了對(duì)兩個(gè)投影矩陣同時(shí)進(jìn)行優(yōu)化,式(5)可以重新整理成如下形式:
因?yàn)橥队跋蛄康拇笮〔⒉粫?huì)影響最終的優(yōu)化結(jié)果,只需要有個(gè)約束就可以,所以此處對(duì)于A和B大小的約束條件被暫時(shí)丟棄了,這個(gè)約束條件將在3.5節(jié)繼續(xù)討論。令WT=[AT,BT],則式(6)可以重新表達(dá)為如下形式:
這里,C被叫作相關(guān)矩陣,則配對(duì)信息保持最終被形式化成式(7)。
為了更有效地保持原始數(shù)據(jù)的結(jié)構(gòu)信息,所提算法同時(shí)采用了局部和全局的流形方法。同時(shí)為了充分利用源域數(shù)據(jù)的標(biāo)簽和目標(biāo)域數(shù)據(jù)的偽標(biāo)簽,本文采用判別式流形方法。
3.4.1 局部結(jié)構(gòu)保持
為了保持?jǐn)?shù)據(jù)的局部流形結(jié)構(gòu),本文采用LPP算法[40]。LPP 算法是拉普拉斯特征映射[41]的一種線性近似,它能夠在線性變化條件仍然保持原始樣本的近鄰結(jié)構(gòu)關(guān)系。LPP的目標(biāo)函數(shù)如下所示。
這里,l=1,2,…,(ns+nt)表示投影樣本的索引,WL是鄰接矩陣,它可以度量每兩個(gè)樣本xi和xj之間的距離。定義D為一個(gè)對(duì)角矩陣Dii=,則拉普拉斯矩陣可以定義為L=D-WL。式(8)同樣可以轉(zhuǎn)化成如下矩陣跡的形式來優(yōu)化。
此處鄰接矩陣WL可以計(jì)算每兩個(gè)樣本之間的距離來構(gòu)造。有很多種方式可以用來構(gòu)造樣本間的距離,比如歐幾里德距離、余弦距離、局部近鄰關(guān)系和標(biāo)簽信息。為了有效地利用標(biāo)簽信息,本文中鄰接矩陣WL通過判別式的余弦距離來構(gòu)造[18]。
3.4.2 全局結(jié)構(gòu)保持
對(duì)于未知結(jié)構(gòu)的數(shù)據(jù),除了保持局部結(jié)構(gòu)信息外,全局結(jié)構(gòu)信息的保持也很重要,而已有的算法往往只保持了它們其中的一種。本文采用了線性判別分析[42]結(jié)構(gòu)信息,也就是最小化類內(nèi)散度,最大化類間散度,目標(biāo)函數(shù)如下:
這里,Sb和Sw分別表示類間散度矩陣和類內(nèi)散度矩陣,Ssb和Ssw代表源域數(shù)據(jù)的散度矩陣,而Stb和Stw代表目標(biāo)域數(shù)據(jù)的散度矩陣。它們的計(jì)算公式如下所示:
這里的下標(biāo)S、s 和T、t 分別表示屬于源域和目標(biāo)域的數(shù)據(jù)。表示屬于第i類的數(shù)據(jù)矩陣;表示屬于第i類的樣本個(gè)數(shù)。表示第i類樣本的中心化矩陣,它們的計(jì)算和式(4)中的HP類似,唯一的不同是將np替換為表示屬于第i類樣本的樣本均值;μs和μt分別表示源域和目標(biāo)域數(shù)據(jù)所有樣本的樣本均值。
通過整合式(3)、式(7)、式(9)和式(10),并引入正則化參數(shù)α、β和λ來分別控制局部結(jié)構(gòu)保持、配對(duì)信息保持和全局結(jié)構(gòu)保持之間的平衡關(guān)系,則可得到最終的目標(biāo)函數(shù)如下:
由于W的縮放并不會(huì)影響式(12)的求解,因此通過縮放W將式(12)的分母看作是一個(gè)約束條件,從而使得式(12)只有唯一解。這樣就相當(dāng)于為投影向量添加了約束,解決了式(6)中的遺留的無約束優(yōu)化問題。最終需要優(yōu)化的目標(biāo)函數(shù)如下:
使用拉格朗日乘子法,式(13)可以轉(zhuǎn)化成如式(14)所示的優(yōu)化形式:
這里,Φ=diag(φ1,φ2,…,φm)代表拉格朗日乘子,m代表共享子空間維度,令=0,可得如下等式:
最終,式(12)的優(yōu)化問題轉(zhuǎn)化成了式(15)的廣義特征值分解問題。則求解最優(yōu)的W變成了求解式(15)中最小的m個(gè)特征值以及對(duì)應(yīng)的特征向量所組成的映射矩陣W。詳細(xì)的算法流程如算法1所示。
算法1聯(lián)合信息保持
本文分別在3個(gè)數(shù)據(jù)集上驗(yàn)證了所提算法的實(shí)驗(yàn)效果,它們分別是圖片識(shí)別數(shù)據(jù)集Caltech-Office[32]、動(dòng)作識(shí)別數(shù)據(jù)集IXMAS[24]和內(nèi)容檢索數(shù)據(jù)集WIKI[26]。
Caltech-Office 是一個(gè)由Caltech 數(shù)據(jù)集和Office數(shù)據(jù)集組成的圖片分類數(shù)據(jù)集。Office 數(shù)據(jù)集包含31 類,采集自3 種不同的來源,分別是AMAZON(A)、Webcam(W)和DSLR(D)。Caltech(C)數(shù)據(jù)集包含256類。在實(shí)驗(yàn)中,4種不同的來源被當(dāng)作4個(gè)小數(shù)據(jù)集,這4個(gè)小數(shù)據(jù)集共有的10類被選出來用于實(shí)驗(yàn)。之后對(duì)所有圖片提取兩種特征,分別是SURF(speed up robust feature)特征和DeCAF(deep convolutional activation feature)特征。這兩種提取出來的特征就被當(dāng)作圖片的兩個(gè)視角,為了構(gòu)造異構(gòu)領(lǐng)域自適應(yīng)任務(wù),每個(gè)視角都被當(dāng)作領(lǐng)域自適應(yīng)中的源域或者目標(biāo)域。通過上述構(gòu)造,在領(lǐng)域自適應(yīng)任務(wù)中兩個(gè)域正好同時(shí)也代表兩個(gè)視角,因此可以很方便地構(gòu)造配對(duì)樣本。構(gòu)造的8 個(gè)具有配對(duì)樣本的異構(gòu)領(lǐng)域自適應(yīng)任務(wù)如表1 所示,以A-D2S 為例,它表示在A 數(shù)據(jù)集上,由源域的DeCAF 特征向目標(biāo)域的SURF特征的遷移。
Table 1 Accuracy of algorithms on Caltech-Office datasets表1 在Caltech-Office 數(shù)據(jù)集上各算法的分類精度 %
IXMAS 是一個(gè)動(dòng)作識(shí)別數(shù)據(jù)集,它一共包含11類,每類動(dòng)作包含36 個(gè)樣本。這個(gè)數(shù)據(jù)集中的動(dòng)作圖片都是由5個(gè)攝像機(jī)拍攝的,因此每個(gè)攝像機(jī)拍的圖片被當(dāng)作是一個(gè)視角或者是一個(gè)域。之后采用文獻(xiàn)[26]中的預(yù)處理方式,將圖片轉(zhuǎn)化成1 000 維的向量。實(shí)驗(yàn)中,采用來自任意兩個(gè)相機(jī)的圖片來構(gòu)造具有配對(duì)樣本的異構(gòu)領(lǐng)域自適應(yīng)任務(wù)。由于每個(gè)相機(jī)都可以被當(dāng)作是源域或者目標(biāo)域,因此在5個(gè)相機(jī)上一共可以構(gòu)造20個(gè)任務(wù)。
WIKI 是一個(gè)從網(wǎng)頁上構(gòu)造的數(shù)據(jù)集,每個(gè)樣本都包含網(wǎng)頁的一張圖片和其對(duì)應(yīng)的文本描述。按文獻(xiàn)[26]的方式,其中圖片使用SIFT(scale invariant feature transform)特征被處理成了128 維的向量,其中的文本使用性判別分析方式被處理成了10維的向量。在實(shí)驗(yàn)中,本文選擇了5 類,每類包含100 個(gè)樣本。同樣的,這里WIKI數(shù)據(jù)集包含的圖片的文本視角同時(shí)也可以被當(dāng)作是源域或者目標(biāo)域。從而,可以構(gòu)造兩個(gè)異構(gòu)領(lǐng)域自適應(yīng)任務(wù),分別是img2txt 和txt2img,其中img2txt 表示從圖像到文本的遷移,txt2img表示從文本到圖像的遷移。
在實(shí)驗(yàn)部分,本文采用了7 個(gè)算法作為對(duì)比算法。其中將SVMt 作為基線對(duì)比算法,SVMt 算法只使用目標(biāo)域的有標(biāo)簽樣本訓(xùn)練一個(gè)SVM(support vector machine)分類器,不借用任何源域數(shù)據(jù)的幫助。另外6 個(gè)對(duì)比算法都是較先進(jìn)的HDA 算法,它們分別是MMDT[29]、CTSVM[24]、SHFA[30]、LCDS[32]、TNT(transfer neural trees)[33],它們的詳細(xì)介紹請(qǐng)參考第2章相關(guān)工作。對(duì)于所有算法,涉及到迭代策略的算法迭代次數(shù)都設(shè)置為5;共享子空間維度都設(shè)置為100;所有最優(yōu)正則化參數(shù)都通過網(wǎng)格搜索的方式從區(qū)間{0,0.01,0.1,1,10,100}中搜索。
對(duì)于在Caltech-Office 和IXMAS 數(shù)據(jù)集上的實(shí)驗(yàn),本文選擇每個(gè)域30%的樣本作為配對(duì)樣本。對(duì)于WIKI 數(shù)據(jù)集,分別選擇每個(gè)域10%、20%、30%和40%的樣本作為配對(duì)樣本,來評(píng)估算法在不同比例的配對(duì)樣本上的表現(xiàn)。在所有算法的目標(biāo)域數(shù)據(jù)中,只有配對(duì)樣本是有標(biāo)簽的,其余樣本均為無標(biāo)簽樣本。
在Caltech-Office 數(shù)據(jù)集上的實(shí)驗(yàn)結(jié)果如表1 所示。由表1可知,所提算法在Caltech-Office數(shù)據(jù)集的8 個(gè)任務(wù)上有5 個(gè)任務(wù)都排名第一,在其他3 個(gè)任務(wù)上也取得了僅次于最優(yōu)算法的效果,而且所提算法的平均精度在所有對(duì)比算法中排名第一。較之于沒有采用任何遷移策略的基礎(chǔ)對(duì)比算法SVMt,所提算法提升了大約8個(gè)百分點(diǎn)的精度,從而驗(yàn)證了本文遷移策略的有效性。對(duì)于算法MMDT、SHFA 和TIT,它們都包含和所提算法類似的特征變換過程而且容易產(chǎn)生信息損失,但是它們的信息保持策略都較為單一,因此信息損失問題嚴(yán)重影響了它們的算法效果。對(duì)于算法CTSVM,其僅僅采用了配對(duì)樣本學(xué)習(xí)共享子空間,未能充分利用非配對(duì)樣本信息,因此算法效果低于所提算法。所提算法甚至優(yōu)于基于神經(jīng)網(wǎng)絡(luò)的TNT 算法,充分驗(yàn)證了聯(lián)合信息保持對(duì)于提升算法效果的作用。
在IXMAS 數(shù)據(jù)集上的實(shí)驗(yàn)結(jié)果如圖1 所示,顯然所提算法在20個(gè)任務(wù)上的平均性能好于所有對(duì)比算法,并且在目標(biāo)域數(shù)據(jù)上取得了高達(dá)80.38%的分類精度。
Fig.1 Accuracy of algorithms on IXMAS dataset圖1 在IXMAS數(shù)據(jù)集上各算法的分類精度
在WIKI 數(shù)據(jù)集上的實(shí)驗(yàn)結(jié)果如表2 所示,在WIKI數(shù)據(jù)集上一共有4種不同配對(duì)樣本比例的實(shí)驗(yàn)設(shè)置。由表2 可以看出,隨著配對(duì)樣本比例的上升,算法的效果整體上處于上升趨勢。對(duì)于txt2img 任務(wù),隨著配對(duì)樣本比例的上升,效果提升較為明顯,由最初的配對(duì)樣本比例10%的精度47.56%提升到配對(duì)樣本比例30%的精度54.57%。由表可知當(dāng)配對(duì)樣本增加到40%后,兩個(gè)任務(wù)上分類精度都沒有太大的變化,這也說明了在一定范圍內(nèi)配對(duì)樣本的比例會(huì)影響模型的效果,隨著配對(duì)樣本比例的增加,模型效果會(huì)由最開始的逐步提升到后來的趨于平穩(wěn)??紤]在不同配對(duì)樣本比例設(shè)置下,兩個(gè)不同任務(wù)上的平均性能,所提算法較之于其他對(duì)比算法也取得了最優(yōu)效果。
Table 2 Accuracy of algorithms on WIKI datasets表2 在WIKI數(shù)據(jù)集上各算法的分類精度
本節(jié)將分析算法的收斂性和模型的共享子空間維度對(duì)于異構(gòu)領(lǐng)域自適應(yīng)效果的影響。同時(shí)也會(huì)通過分析配對(duì)信息保持項(xiàng)和結(jié)構(gòu)信息保持項(xiàng)的正則化參數(shù)來分析它們的有效性,從而驗(yàn)證聯(lián)合信息保持對(duì)于算法的意義。
4.4.1 收斂性和維度分析
影響所提算法效果的兩個(gè)重要參數(shù),一個(gè)是算法迭代的次數(shù),一個(gè)是共享子空間的維度。圖2(a)和圖2(b)分別展示了在Caltech-Office數(shù)據(jù)集上隨著迭代次數(shù)和樣本維度的變化算法精度的變化效果。為了簡化表示,圖中的每個(gè)任務(wù)的精度都被整體做了上移或者下移的調(diào)整,這并不會(huì)影響趨勢分析的結(jié)果。由圖2(a)可知,算法具有良好的收斂性,在絕大部分任務(wù)上算法完成第3 次迭代以后基本就已經(jīng)達(dá)到了收斂。由圖2(b)可知,對(duì)于不同的異構(gòu)領(lǐng)域自適應(yīng)任務(wù),算法效果隨著維度變化而產(chǎn)生的變化趨勢也不同,并且最高精度也不一定在最高維度處取得。如果固定其他所有參數(shù),讓算法只對(duì)共享子空間維度從10 到100 以10 為間隔進(jìn)行尋優(yōu),那么所提算法在Caltech-Office 的8 個(gè)任務(wù)上最優(yōu)精度的平均值為82.30%。
Fig.2 Parameter analysis圖2 參數(shù)分析
4.4.2 信息保持有效性分析
本文從以下四方面分析了信息保持的有效性,從而驗(yàn)證了所提算法的合理性。在圖3(a)~圖3(c)中,固定其他所有參數(shù),令式(12)中各項(xiàng)的正則化參數(shù)α、β和λ分別被設(shè)置為0或者是最優(yōu)參數(shù)。由圖可以看出,對(duì)于絕大部分任務(wù)當(dāng)參數(shù)設(shè)置為最優(yōu)參數(shù)時(shí)總比設(shè)置為0時(shí)效果要好,這就說明了這一項(xiàng)信息保持的有效性。圖3(a)中的柱狀圖分別表示包含配對(duì)信息保持項(xiàng)和不包含配對(duì)信息保持項(xiàng)時(shí)算法的效果,由圖可以看出,除了第4個(gè)任務(wù)C-S2D,在其他7個(gè)任務(wù)上算法效果均有較大幅度提升,這就驗(yàn)證了配對(duì)信息保持的有效性。同理圖3(b)和圖3(c)分別將局部信息和全局信息保持項(xiàng)設(shè)置為0 或者最優(yōu)參數(shù),結(jié)果中算法效果的提升也驗(yàn)證了其信息保持的有效性。在圖3(d)中,局部結(jié)構(gòu)信息和全局結(jié)構(gòu)信息項(xiàng)的正則化參數(shù)同時(shí)設(shè)置為0,從圖中可知,圖3(d)的精度提升高于圖3(b)和圖3(c),則驗(yàn)證了較之于單一的局部結(jié)構(gòu)信息保持或者全局結(jié)構(gòu)信息保持,層次結(jié)構(gòu)信息保持能更有效地提升領(lǐng)域自適應(yīng)的效果。
Fig.3 Effectiveness analysis of information preservation圖3 信息保持有效性分析
為了充分考慮領(lǐng)域自適應(yīng)場景中存在的配對(duì)樣本,本文提出了一個(gè)新的異構(gòu)領(lǐng)域自適應(yīng)算法。所提算法將聯(lián)合信息保持和分布匹配整合到一起,有效地減弱了分布匹配過程中信息損失的問題。不同于以往算法在分布匹配過程中只采用局部的或者全局的結(jié)構(gòu)信息保持策略,所提算法既保持了兩個(gè)領(lǐng)域之間的配對(duì)信息,又保持了數(shù)據(jù)的層次結(jié)構(gòu)信息,通過有效減輕信息損失提高了算法的領(lǐng)域自適應(yīng)能力。在三個(gè)數(shù)據(jù)集上的實(shí)驗(yàn)效果顯示了所提算法的優(yōu)越性。算法的一個(gè)不足之處就是正則化參數(shù)的確定依賴于網(wǎng)格搜索,在大型數(shù)據(jù)集上較為費(fèi)時(shí)。未來的工作將側(cè)重于發(fā)明一些自適應(yīng)的策略算法來確定參數(shù)的取值。