覃姜維,唐德玉
廣東藥科大學(xué) 醫(yī)藥信息工程學(xué)院,廣州 510006
信息技術(shù)的快速發(fā)展促使新領(lǐng)域的數(shù)據(jù)不斷產(chǎn)生,同時(shí)也帶來(lái)了針對(duì)新領(lǐng)域數(shù)據(jù)的分析需求。然而,新領(lǐng)域數(shù)據(jù)往往具有維度高、類(lèi)別多、標(biāo)記數(shù)量缺失的特點(diǎn),由于傳統(tǒng)機(jī)器學(xué)習(xí)嚴(yán)格的數(shù)據(jù)同分布假設(shè)要求,無(wú)法直接利用領(lǐng)域外存在的大量標(biāo)記數(shù)據(jù)輔助模型訓(xùn)練,容易導(dǎo)致在新領(lǐng)域上學(xué)習(xí)到的模型判別表征能力不足。而人工準(zhǔn)備大量標(biāo)記數(shù)據(jù)費(fèi)時(shí)費(fèi)力,這使得新領(lǐng)域知識(shí)的學(xué)習(xí)變得十分困難。近年來(lái)提出的遷移學(xué)習(xí)[1]可以在訓(xùn)練數(shù)據(jù)和測(cè)試數(shù)據(jù)分布不同的情況下,將知識(shí)從源領(lǐng)域遷移到目標(biāo)領(lǐng)域。
領(lǐng)域適應(yīng)[2]是遷移學(xué)習(xí)的一個(gè)重要分支,其目標(biāo)是在帶標(biāo)記數(shù)據(jù)的源領(lǐng)域上學(xué)習(xí)一個(gè)分類(lèi)或者回歸模型并將其適配到無(wú)標(biāo)記數(shù)據(jù)且數(shù)據(jù)分布不一致的目標(biāo)領(lǐng)域。領(lǐng)域適應(yīng)的首要任務(wù)是進(jìn)行域間分布適配,常通過(guò)能夠縮減領(lǐng)域間分布差異的特征變換實(shí)現(xiàn)。常用的領(lǐng)域分布差異度量方法有最大均值差異(MMD)[3],Wasserstein距離[4],基于熵的KL 散度[5]和正交距離(orthogonal discrepancy)[6]等?;贛MD 及其變種,文獻(xiàn)[7-9]利用特征變換對(duì)源和目標(biāo)域進(jìn)行分布適配,學(xué)習(xí)到不同領(lǐng)域間共同的特征嵌入表示以減小數(shù)據(jù)總體分布差異。近年來(lái),深度學(xué)習(xí)由于其良好的特征表示性能被廣泛研究,文獻(xiàn)[10-13]在深度學(xué)習(xí)的基礎(chǔ)上結(jié)合MMD約束及特征對(duì)齊或者對(duì)抗機(jī)制來(lái)重構(gòu)源和目標(biāo)域的特征,目的同樣是學(xué)習(xí)到領(lǐng)域間不變的特征表示。為了更好地利用已有的判別信息提升目標(biāo)領(lǐng)域分類(lèi)任務(wù)性能,類(lèi)結(jié)構(gòu)刻畫(huà)和保持被利用到特征映射過(guò)程中,基于類(lèi)散度[14-16]和圖嵌入[17-18]的判別設(shè)計(jì)是常用的方法。實(shí)際上,基于均值差異度量的領(lǐng)域適應(yīng)方法從整體上實(shí)施不同域的數(shù)據(jù)中心對(duì)齊,是一種全局方法。然而,基于全局約束的特征變換過(guò)程往往忽略了樣本的局部結(jié)構(gòu)保持,為此,相關(guān)研究[19-22]將局部結(jié)構(gòu)的保持作為求解域不變特征過(guò)程中的重要約束條件。
研究表明,領(lǐng)域適應(yīng)在進(jìn)行域間分布適配所進(jìn)行的特征變換會(huì)破壞原始空間的類(lèi)別特征和數(shù)據(jù)的局部特征,這些特征對(duì)目標(biāo)分類(lèi)任務(wù)的精度提升十分重要。然而,現(xiàn)有工作對(duì)類(lèi)別判別保持和局部保持的優(yōu)化并不充分,如LPJT[19]未考慮已有判別信息在領(lǐng)域適應(yīng)過(guò)程中的使用,JGSA[23]僅考慮了源域上的判別結(jié)構(gòu)而忽略了目標(biāo)域的判別結(jié)構(gòu),JCDFA[15]強(qiáng)調(diào)域分布偏移優(yōu)化和判別保持但忽略了樣本的局部結(jié)構(gòu)保持。針對(duì)以上不足,本文在跨域分布全局適配的基礎(chǔ)上,聯(lián)合能夠避免原始空間信息損失的判別保持和局部保持,提出一種結(jié)合判別分析和分布差異約束的領(lǐng)域適應(yīng)方法(domain adaptation method combined with discriminant analysis and distribution discrepancy constraints,DADD)?;谧赃m應(yīng)特征變換,將低維嵌入、域分布差異優(yōu)化、類(lèi)別散度最優(yōu)化和局部結(jié)構(gòu)保持納入同一框架。首先,構(gòu)造領(lǐng)域分布差異度量,用于縮減領(lǐng)域間邊緣分布和條件分布差異;其次,構(gòu)造類(lèi)內(nèi)散度和類(lèi)間散度度量,用于保持類(lèi)別判別結(jié)構(gòu);同時(shí),基于數(shù)據(jù)分布結(jié)構(gòu)信息構(gòu)造不同類(lèi)型的差異權(quán)重,分別用于約束分布距離度量和類(lèi)散度度量,實(shí)現(xiàn)判別保持和局部保持的聯(lián)合優(yōu)化;最后,基于上述度量最優(yōu)化的特征變換,將源域數(shù)據(jù)和目標(biāo)域數(shù)據(jù)通過(guò)相應(yīng)的轉(zhuǎn)換矩陣投影到低維子空間執(zhí)行分類(lèi)任務(wù)。目標(biāo)問(wèn)題可以通過(guò)求解一個(gè)帶約束的二次規(guī)劃問(wèn)題獲得最優(yōu)值。圖1 展示了算法DADD 的整體框架。DADD 結(jié)合樣本的全局和局部分布信息、類(lèi)別判別信息,構(gòu)造了具有幾何意義的領(lǐng)域分布差異度量和類(lèi)散度度量,在領(lǐng)域適應(yīng)過(guò)程中不但能夠縮減領(lǐng)域分布差異,最小化同標(biāo)記嵌入樣本的距離和最大化不同標(biāo)記嵌入樣本的距離,同時(shí)形成緊致的類(lèi)內(nèi)結(jié)構(gòu)和明確的類(lèi)邊界,整體上兼顧了域分布適配、類(lèi)別判別保持和數(shù)據(jù)局部結(jié)構(gòu)保持。
圖1 DADD框架Fig.1 Framework of DADD
本文的主要貢獻(xiàn)如下:
(1)針對(duì)基于全局分布適配的域適應(yīng)算法容易導(dǎo)致特征結(jié)構(gòu)損失的問(wèn)題,提出使用判別分析和分布差異約束來(lái)進(jìn)行域適應(yīng)過(guò)程中的判別保持和局部保持,同時(shí)提出判別分析和分布差異約束兩者聯(lián)合優(yōu)化的具體形式,構(gòu)造了具有幾何意義的域差異度量和散度度量,能夠提升域適應(yīng)性能。
(2)為了進(jìn)一步加強(qiáng)領(lǐng)域適應(yīng)過(guò)程中的判別保持和局部保持,對(duì)源域和目標(biāo)域數(shù)據(jù)分別實(shí)施了不同的特征轉(zhuǎn)換,提出了結(jié)合分布適配、判別保持、局部結(jié)構(gòu)保持和子空間差異優(yōu)化相融合的域適應(yīng)框架。
(3)通過(guò)在多個(gè)公開(kāi)數(shù)據(jù)集上構(gòu)造的跨領(lǐng)域分類(lèi)任務(wù)的實(shí)驗(yàn)結(jié)果表明,DADD在跨領(lǐng)域數(shù)據(jù)分類(lèi)的精度上要優(yōu)于對(duì)比的其他算法。
本文的工作主要圍繞基于特征學(xué)習(xí)的領(lǐng)域適應(yīng)方法展開(kāi)。領(lǐng)域適應(yīng)的特征表示學(xué)習(xí)方法可分為淺層學(xué)習(xí)方法和深度學(xué)習(xí)方法。淺層學(xué)習(xí)常通過(guò)帶約束的特征變換來(lái)學(xué)習(xí)到領(lǐng)域間不變的共享特征。文獻(xiàn)[12,18]利用MMD約束特征變換過(guò)程,學(xué)習(xí)到源域和目標(biāo)域共同的特征嵌入表示。文獻(xiàn)[8-9]利用核方法在再生希爾伯特空間中學(xué)習(xí)到領(lǐng)域無(wú)關(guān)的特征核表示。近年來(lái),深度學(xué)習(xí)由于其良好的特征表示性能被應(yīng)用到領(lǐng)域適應(yīng)問(wèn)題中。深度方法中方法通常通過(guò)特征對(duì)齊和對(duì)抗學(xué)習(xí)機(jī)制來(lái)重建源和目標(biāo)域的特征表示。文獻(xiàn)[10,24]在深度網(wǎng)絡(luò)中加入MMD 差異結(jié)構(gòu)或者高階統(tǒng)計(jì)結(jié)構(gòu)消除領(lǐng)域間特征差異,實(shí)現(xiàn)不同域之間的特征對(duì)齊。利用對(duì)抗策略可以生成混淆鑒別器和生成器的特征[11-13],消除域間數(shù)據(jù)分布差異,同時(shí)得到域無(wú)關(guān)的特征表示以提高信息遷移的性能。
領(lǐng)域適應(yīng)過(guò)程中的特征變換可能會(huì)引發(fā)特征空間的拉伸或擠壓,從而導(dǎo)致判別信息的損失。為了保留源和目標(biāo)域中的類(lèi)別判別信息,文獻(xiàn)[14,16]引入類(lèi)散度度量來(lái)提升投影空間中同類(lèi)樣本的類(lèi)內(nèi)緊致度和類(lèi)別邊界的分離度。文獻(xiàn)[15]首先在源和目標(biāo)領(lǐng)域分別通過(guò)監(jiān)督方法和無(wú)監(jiān)督方法學(xué)習(xí)到各自的判別表征,然后實(shí)施類(lèi)別對(duì)齊以求解域不變特征表示。文獻(xiàn)[17-18]利用圖嵌入建立判別遷移特征并進(jìn)行跨域特征對(duì)齊,使相同類(lèi)別的樣本在重構(gòu)后的結(jié)構(gòu)表達(dá)上更緊湊。文獻(xiàn)[25]設(shè)計(jì)了一種放射狀的結(jié)構(gòu)將特征按類(lèi)別在不同的方向進(jìn)行展開(kāi),通過(guò)迭代更新讓特征變得具有判別性。
另一類(lèi)方法[19-22]在領(lǐng)域適應(yīng)過(guò)程中對(duì)數(shù)據(jù)局部特征進(jìn)行了保持。文獻(xiàn)[19]利用樣本的K近鄰刻畫(huà)局部結(jié)構(gòu),在目標(biāo)優(yōu)化公式中對(duì)局部流形的一致性進(jìn)行保持。文獻(xiàn)[20]利用流行嵌入同時(shí)在幾何上和統(tǒng)計(jì)上進(jìn)行域?qū)R,同時(shí)保留樣本的局部結(jié)構(gòu)信息。文獻(xiàn)[21]通過(guò)圖模型在多個(gè)源數(shù)據(jù)上學(xué)習(xí)到本地化的結(jié)構(gòu)信息并學(xué)習(xí)目標(biāo)域的低維嵌入。文獻(xiàn)[22]在對(duì)抗網(wǎng)絡(luò)中設(shè)計(jì)了樣本間的結(jié)構(gòu)信息,學(xué)習(xí)到域無(wú)關(guān)且具有局部結(jié)構(gòu)保持的特征表示。
不同于現(xiàn)有方法,本文將領(lǐng)域全局分布適配、判別保持和局部結(jié)構(gòu)保持納入到同一特征學(xué)習(xí)框架中進(jìn)行聯(lián)合優(yōu)化,同時(shí)對(duì)類(lèi)別保持和局部保持進(jìn)行加強(qiáng),以實(shí)現(xiàn)有效的領(lǐng)域知識(shí)遷移。
領(lǐng)域適應(yīng)方法常被用來(lái)解決分布不一致的分類(lèi)學(xué)習(xí)問(wèn)題,其目標(biāo)是學(xué)習(xí)領(lǐng)域間共同的一個(gè)低維特征嵌入表示Ah∈?m×k,得到Xs和Xt的低維嵌入表示,其中z=Ahx∈?k(k?m)。一般來(lái)說(shuō),通過(guò)對(duì)嵌入過(guò)程實(shí)施MMD約束,使得嵌入空間中的Zs和Zt的邊緣分布與條件分布趨于一致,進(jìn)而能夠利用傳統(tǒng)分類(lèi)器進(jìn)行分類(lèi)任務(wù)的學(xué)習(xí)。
由于源域和目標(biāo)域數(shù)據(jù)分布不同,領(lǐng)域適配的首要任務(wù)是進(jìn)行分布差異縮減。為避免對(duì)分布參數(shù)進(jìn)行估計(jì),文獻(xiàn)[26-27]利用使用經(jīng)典的最大均值差異方法對(duì)領(lǐng)域分布距離進(jìn)行度量。
公式(1)將原始空間中的樣本Xs和Xt投影到公共空間中進(jìn)行均值對(duì)齊,從而消除邊緣分布偏差。顯然,公式(1)通過(guò)全局分布刻畫(huà)域間差異度量,認(rèn)為所有樣本對(duì)領(lǐng)域分布差異度量的貢獻(xiàn)度一致。但全局方法具有局限性,無(wú)法揭示數(shù)據(jù)的內(nèi)在局部流行。為了反映樣本分布的局部差異對(duì)領(lǐng)域適應(yīng)的影響,設(shè)計(jì)分布差異權(quán)重wa(i)用于描述樣本xi對(duì)領(lǐng)域差異的貢獻(xiàn)度,wa(i)定義為:
結(jié)合分布差異權(quán)重wa(i),本文設(shè)計(jì)新的領(lǐng)域邊緣分布差異度量為:
其中,was(i)和wat(j)分別是源域和目標(biāo)域的樣本差異權(quán)重。為了更好地保留各域內(nèi)樣本的內(nèi)在結(jié)構(gòu),使用獨(dú)立的轉(zhuǎn)換矩陣As∈?m×k和At∈?m×k將源域和目標(biāo)域數(shù)據(jù)進(jìn)行投影轉(zhuǎn)換。
將源域和目標(biāo)域的分布差異權(quán)重矩陣分別擴(kuò)展如下:
M0中,1s和1t分別是長(zhǎng)度為ns和nt的全1向量。
為了進(jìn)一步消除領(lǐng)域分布差異,除了縮小領(lǐng)域邊緣分布的距離,還需考慮縮小領(lǐng)域間條件分布的距離。引入樣本分布差異權(quán)重來(lái)描述類(lèi)別c中樣本xi對(duì)領(lǐng)域間條件分布差異的影響,定義如下:
其中,Mc為類(lèi)別條件分布MMD矩陣,定義為:
聯(lián)合公式(6)和(12),構(gòu)造基于領(lǐng)域分布差異度量為:
為實(shí)現(xiàn)領(lǐng)域間分布對(duì)齊而進(jìn)行的特征變換可能會(huì)扭曲類(lèi)別結(jié)構(gòu)和數(shù)據(jù)結(jié)構(gòu),從而影響目標(biāo)分類(lèi)器的判別表征。為此,對(duì)嵌入過(guò)程進(jìn)行判別信息的約束,引入類(lèi)內(nèi)散度和類(lèi)間散度來(lái)提升領(lǐng)域適應(yīng)效果。此外,對(duì)數(shù)據(jù)的局部結(jié)構(gòu)進(jìn)行保持,也是一個(gè)重要的任務(wù)。不同于一般領(lǐng)域適應(yīng)方法中將局部結(jié)構(gòu)作為獨(dú)立的正則化項(xiàng)進(jìn)行優(yōu)化的過(guò)程,本文將類(lèi)別判別結(jié)構(gòu)和樣本局部分布結(jié)構(gòu)結(jié)合起來(lái)。受文獻(xiàn)[29]的啟發(fā),設(shè)計(jì)了適用于領(lǐng)域適應(yīng)的基于差異權(quán)重的類(lèi)內(nèi)散度和類(lèi)間散度。差異權(quán)重的構(gòu)造來(lái)自于樣本的局部分布結(jié)構(gòu),采用成對(duì)點(diǎn)距的指數(shù)距離來(lái)進(jìn)行計(jì)算,類(lèi)內(nèi)散度和類(lèi)間散度則用于描述類(lèi)別的內(nèi)外結(jié)構(gòu)信息。這種設(shè)計(jì)結(jié)合了線性判別分析(LDA)和局部結(jié)構(gòu)嵌入(LLE)的特點(diǎn),在領(lǐng)域適應(yīng)的特征變換過(guò)程中能夠同時(shí)進(jìn)行判別信息的保持和數(shù)據(jù)局部特征的保持。
2.3.1 類(lèi)內(nèi)散度
源域內(nèi)類(lèi)別c的類(lèi)內(nèi)散度可以重寫(xiě)為:
源域總體類(lèi)內(nèi)散度定義為:
同樣,目標(biāo)域類(lèi)內(nèi)散度可定義為:
綜上,總體類(lèi)內(nèi)散度可定義為:
其中,Sw=diag(Ss,w,St,w) 為總體類(lèi)內(nèi)散度矩陣。
2.3.2 類(lèi)間散度
令Qcs,b為源域中類(lèi)別c的類(lèi)間散度度量,定義為:
對(duì)公式(23)的直觀理解為,類(lèi)別c在原始空間中與樣本中心的距離越大,越小,通過(guò)最大化公式(23)可以使得嵌入空間中對(duì)應(yīng)的類(lèi)別數(shù)據(jù)遠(yuǎn)離中心,類(lèi)別之間形成更加明顯的界限。
進(jìn)一步將散度矩陣(23)重寫(xiě)為:
源域的總體類(lèi)間散度定義為:
同樣,定義目標(biāo)域的類(lèi)間散度為:
令Sb=diag(Ss,b,St,b),總體類(lèi)間散度定義為:
DADD 利用不同的轉(zhuǎn)換矩陣As和At對(duì)源域和目標(biāo)域數(shù)據(jù)進(jìn)行獨(dú)立的投影變換,因而還存在投影子空間的差異,與文獻(xiàn)[23]類(lèi)似,定義子空間差異為:
綜合上述分析,為了獲取最優(yōu)的特征變換,需要同時(shí)最小化領(lǐng)域數(shù)據(jù)分布距離、最小化類(lèi)內(nèi)散度、最小化嵌入空間距離和最大化類(lèi)間散度,聯(lián)合公式(14)、(22)、(29)和(30)可得總體優(yōu)化函數(shù)為:
其中,α,β和λ是正則化參數(shù),用于控制模型的復(fù)雜度。注意到優(yōu)化目標(biāo)與A的尺度縮放無(wú)關(guān),可將公式(31)重寫(xiě)為(32):
公式(32)是一個(gè)帶約束的二次規(guī)劃問(wèn)題,顯然,可以通過(guò)拉格朗日乘數(shù)法求解。定義拉格朗日乘子Φ=diag(θ1,θ2,…,θn),得到公式(32)的拉格朗日函數(shù)為:
令?L(A)/?A=0,得到方程(33):
對(duì)方程(34)進(jìn)行廣義特征值分解,由前k個(gè)最小特征值對(duì)應(yīng)的特征向量構(gòu)成轉(zhuǎn)換矩陣A。最后得到源和目標(biāo)域的轉(zhuǎn)換矩陣分別為As=A(:,1:k)和At=A(:,k+1:end)。
DADD算法:
輸入:源域數(shù)據(jù){Xs,Ys};目標(biāo)域數(shù)據(jù)Xt;迭代次數(shù)T;嵌入空間維度k;尺度參數(shù)t;正則化參數(shù)α,β和λ。
輸出:目標(biāo)域數(shù)據(jù)標(biāo)簽Yt。
(1)構(gòu)建矩陣M,Sw,Sb和N;
(2)令n=1;
(3)對(duì)公式(34)進(jìn)行特征值分解,由前k個(gè)最小特征值對(duì)應(yīng)的特征向量構(gòu)造轉(zhuǎn)換矩陣A。計(jì)算As=A(:,1:k)和At=A(:,k+1:end);
(4)將Xs和Xt分別通過(guò)As和At進(jìn)行投影轉(zhuǎn)換,得到Zs和Zt;
(5)在數(shù)據(jù)集{Zs,Ys}上訓(xùn)練分類(lèi)器f,利用f對(duì)Zt進(jìn)行分類(lèi)并更新目標(biāo)數(shù)據(jù)的標(biāo)記;
(6)根據(jù){Xs,Ys}和{Xt,}更新矩陣M,Sw和Sb;
(7)n=n+1,當(dāng)n (8)返回目標(biāo)數(shù)據(jù)的標(biāo)記Ys。 對(duì)DADD進(jìn)行算法復(fù)雜度分析。步驟1和步驟6中構(gòu)建矩陣Sw和Sb的時(shí)間復(fù)雜度均為O(TC(ns+nt)2),構(gòu)建矩陣M的時(shí)間復(fù)雜度為O(T(C+1)(ns+nt)2);步驟3中特征值分解的時(shí)間復(fù)雜度為O(Tkm2);其他步驟的時(shí)間復(fù)雜度為O(Tm(ns+nt))。綜上,算法DADD的總體時(shí)間復(fù)雜度為O(T(3C+1)(ns+nt)2+Tkm2+Tm(ns+nt))。 本文將在4 個(gè)公開(kāi)數(shù)據(jù)集上構(gòu)造遷移任務(wù)并展開(kāi)實(shí)驗(yàn)對(duì)比分析。 Office+Caltech256數(shù)據(jù)集。Office數(shù)據(jù)集包含了三種不同途徑收集的真實(shí)圖像,分別為Webcam(使用低分辨率攝像頭拍攝的圖像),DSLR(使用高分辨率攝像頭拍攝的圖像)以及Amazon(從在線交易網(wǎng)站下載的圖像)。Office 數(shù)據(jù)集包含31 個(gè)類(lèi)別共4 652 幅圖像。Caltech是另外一個(gè)真實(shí)物體圖像數(shù)據(jù),共包含256個(gè)類(lèi)別和30 607 幅圖像數(shù)據(jù)。實(shí)驗(yàn)中使用了兩種不同的特征處理方式(SURF和Decaf)對(duì)圖像進(jìn)行特征抽取,形成兩組不同的數(shù)據(jù)集,基于每組數(shù)據(jù)集可分別構(gòu)造出12個(gè)遷移學(xué)習(xí)任務(wù),A →W,A →D,A →C,…,D →W。 MNIST+USPS數(shù)據(jù)集。MNIST是一個(gè)手寫(xiě)體數(shù)字的圖片數(shù)據(jù)集,包含了250 個(gè)不同人手寫(xiě)的數(shù)字圖片,共10 類(lèi)字符,圖像大小為28×28,訓(xùn)練集和測(cè)試集大小分別為60 000和10 000。USPS是另外一個(gè)手寫(xiě)體數(shù)據(jù)集,共10類(lèi)字符,圖像大小為16×16,訓(xùn)練集和測(cè)試集大小分別為7 291和2 007。與文獻(xiàn)[10]類(lèi)似,從MNIST和USPS 中分別隨機(jī)抽取2 000 幅和1 800 幅圖像,構(gòu)造MNIST →USPS和USPS →MNIST兩個(gè)遷移學(xué)習(xí)任務(wù)。 COIL20 數(shù)據(jù)集。數(shù)據(jù)集包含20 類(lèi)物體共1 440 張灰度圖像。每一類(lèi)物體按照旋轉(zhuǎn)角度每隔5°拍攝一幅圖像,共拍攝72 張圖像。圖像分辨率為32×32,灰度值為0~256。數(shù)據(jù)集包含兩個(gè)子集,第一個(gè)子數(shù)據(jù)集COIL1包含了角度[0,85]以及[180,265]的圖片,第二個(gè)子數(shù)據(jù)集COIL2 包含了角度[90,175]以及[270,355]的圖片。因此,COIL1和COIL2具有不同的數(shù)據(jù)分布?;贑OIL20數(shù)據(jù)集構(gòu)造兩個(gè)遷移任務(wù),分別為CO1 →CO2和CO2 →CO1。 各數(shù)據(jù)集的樣本統(tǒng)計(jì)數(shù)據(jù)如表1所示。 表1 實(shí)驗(yàn)數(shù)據(jù)集Table 1 Experiment dataset 為分析DADD算法性能,將1NN、SVM、TCA[30]、JDA[27]、GFK[31]、CORAL[32]、DICD[14]、JGSA[23]和SPDA[33]作為對(duì)比算法。1NN 和SVM 是傳統(tǒng)分類(lèi)算法,其余為領(lǐng)域適應(yīng)學(xué)習(xí)算法。 實(shí)驗(yàn)中,算法1NN 和SVM 首先在源數(shù)據(jù)上進(jìn)行模型訓(xùn)練,然后將學(xué)習(xí)到的分類(lèi)模型應(yīng)用到目標(biāo)數(shù)據(jù)中執(zhí)行分類(lèi)任務(wù)。TCA、JDA、GFK、CORAL、DICD、JGSA和SPDA等方法首先特征變換空間,然后在目標(biāo)空間中使用分類(lèi)器學(xué)習(xí)模型并對(duì)目標(biāo)數(shù)據(jù)進(jìn)行分類(lèi)。公平起見(jiàn),基礎(chǔ)分類(lèi)器均采用1NN算法。算法TCA、JDA、GFK、CORAL、DICD、JGSA 和SPDA 算法的參數(shù)采用對(duì)應(yīng)論文中的最佳參數(shù)來(lái)進(jìn)行設(shè)置。實(shí)驗(yàn)對(duì)比環(huán)節(jié)發(fā)現(xiàn),算法DADD 可以在一個(gè)較廣泛的參數(shù)范圍內(nèi)取得穩(wěn)定分類(lèi)精度效果,最終可將參數(shù)設(shè)置為:T=10,t=300,β=0.1,λ=0.1;針對(duì)四個(gè)不同的數(shù)據(jù)集Office+Caltech(SURF)、COIL20、MNIST+USPS、Office+Caltech(Decaf),k分別設(shè)置為20、10、10 和20,α分別設(shè)置為0.5、0.1、0.05 和0.1。采用分類(lèi)精度作為目標(biāo)領(lǐng)域數(shù)據(jù)分類(lèi)結(jié)果的評(píng)價(jià)指標(biāo),定義分類(lèi)精度為: 其中,f(x)為目標(biāo)分類(lèi)器預(yù)測(cè)未標(biāo)記目標(biāo)領(lǐng)域數(shù)據(jù)的結(jié)果,y(x)為樣本的真實(shí)標(biāo)記。 表2 至表5 為DADD 與對(duì)比算法在4 組數(shù)據(jù)集Office+Caltech(SURF)、COIL20、MNIST+USPS和Office+Caltech(DeCaf)共28 個(gè)遷移任務(wù)上的分類(lèi)精度對(duì)比結(jié)果,分類(lèi)結(jié)果數(shù)值越高效果越好。由表2 至表5 的結(jié)果分析可得出以下結(jié)論: 表2 數(shù)據(jù)集Office+Caltech(SURF)上的分類(lèi)精度對(duì)比Table 2 Classification accuracy comparison on dataset Office+Caltech(SURF) 單位:% 表3 數(shù)據(jù)集COIL20上的分類(lèi)精度對(duì)比Table 3 Classification accuracy comparison on dataset COIL20 單位:% 表4 數(shù)據(jù)集MNIST+USPS上的分類(lèi)精度對(duì)比Table 4 Classification accuracy comparison on dataset MNIST+USPS 單位:% 表5 數(shù)據(jù)集Office+Caltech(DeCaf)上的分類(lèi)精度對(duì)比Table 5 Classification accuracy comparison on dataset Office+Caltech(DeCaf) 單位:% (1)從整體上看,DADD 在Office+Caltech(SURF)、COIL20、USPS+MNIST、Office+Caltech(DeCaf)4 個(gè)數(shù)據(jù)集大部分跨領(lǐng)域分類(lèi)任務(wù)的精度上均優(yōu)于其他對(duì)比的算法。DADD 在所有任務(wù)上的平均分類(lèi)精度為73.66%,取得了所有對(duì)比算法中最好的平均分類(lèi)性能。 (2)傳統(tǒng)算法1NN 和SVM 在所有數(shù)據(jù)集上的總體平均分類(lèi)精度分別為53.19%和57.12%,DADD 相對(duì)于1NN和SVM分別提升了38%和29%。算法1NN和SVM由于沒(méi)有考慮領(lǐng)域間分布差異的問(wèn)題,因而在跨領(lǐng)域數(shù)據(jù)分類(lèi)中取得較差的效果,而領(lǐng)域適應(yīng)算法更適合于數(shù)據(jù)分布不一致的跨領(lǐng)域分類(lèi)任務(wù)。 (3)領(lǐng)域適應(yīng)算法TCA、JDA和GFK求解域間公共特征變換來(lái)縮減領(lǐng)域差異。TCA和JDA將源數(shù)據(jù)和目標(biāo)數(shù)據(jù)映射到公共的特征空間并對(duì)齊數(shù)據(jù)中心,GFK求解基于核方法的子空間對(duì)齊,但三者僅考慮了全局結(jié)構(gòu)的對(duì)齊,由此產(chǎn)生的特征變換會(huì)損壞原始空間的結(jié)構(gòu),因而它們都未能在所有分類(lèi)任務(wù)上取得最佳效果。 (4)值得注意的是,在部分跨領(lǐng)域分類(lèi)任務(wù)上,如算法CORAL 在任務(wù)C→A(SURF)上、算法DICD 在任務(wù)D→C(SURF)上、算法JGSA 在任務(wù)W→D(SURF)上都取得了相應(yīng)任務(wù)中的最好結(jié)果,這表明領(lǐng)域適應(yīng)過(guò)程中融入判別保持或者局部保持能夠提升知識(shí)遷移性能。但單一的判別保持或者局部保持并不足夠。由于CORAL保留了數(shù)據(jù)的局部特征但忽略了判別信息的保持,而DICD和JGSA在特征變換中融入了判別表征約束但忽略了數(shù)據(jù)的局部幾何結(jié)構(gòu)保持,因而未能在整體分類(lèi)任務(wù)的性能上取得最佳效果。 (5)SPDA 在4 個(gè)數(shù)據(jù)集上的總體平均分類(lèi)精度為72.40%,獲得了總體平均第二的分類(lèi)性能。DADD在所有任務(wù)上的平均分類(lèi)精度相比SPDA提升了2%。SPDA和DADD 相對(duì)于CORAL、DICD 和JGSA 等方法,在分類(lèi)精度上有了進(jìn)一步提升,這表明領(lǐng)域適應(yīng)過(guò)程中的結(jié)構(gòu)保持,特別是判別結(jié)構(gòu)和局部結(jié)構(gòu)的保持十分關(guān)鍵。然而,SPDA對(duì)源和目標(biāo)域數(shù)據(jù)使用相同的特征變換矩陣,因而在判別保持和局部保持上并不充分。不同的是,DADD 實(shí)施了局部分布差異和判別分析的聯(lián)合優(yōu)化,同時(shí)針對(duì)源和目標(biāo)域使用不同的轉(zhuǎn)換矩陣,加強(qiáng)模型在映射子空間中形成同類(lèi)相近異類(lèi)遠(yuǎn)離的趨勢(shì),有利于生成對(duì)目標(biāo)域數(shù)據(jù)的清晰判別結(jié)構(gòu),提升從源到目標(biāo)域的判別遷移效果。 此外,注意到在部分?jǐn)?shù)據(jù)集上,DADD相較于SPDA的提升有限,如在數(shù)據(jù)集Office+Caltech(DeCaf)上DADD的平均分類(lèi)性能與SPDA幾乎一致。由于Office+Caltech(DeCaf)數(shù)據(jù)集的特征表示是一種較為魯棒的深度特征表達(dá),這使得源和目標(biāo)域的特征空間差異較少,獨(dú)立特征轉(zhuǎn)換矩陣的發(fā)揮的作用較小。盡管如此,DADD 在Office+Caltech(DeCaf)上的12 個(gè)任務(wù)中仍有超過(guò)一半的任務(wù)的分類(lèi)性能超越了SPDA,這表明DADD相對(duì)于SPDA仍然具有優(yōu)勢(shì)。 (6)上述分析表明,整體分布適配是域適應(yīng)的基礎(chǔ),這是由域間數(shù)據(jù)分布差異決定的。然而整體分布適配破壞了類(lèi)別結(jié)構(gòu)和數(shù)據(jù)結(jié)構(gòu),這使得在領(lǐng)域適應(yīng)過(guò)程中關(guān)注判別保持和局部保持尤為重要。DADD 在所比較的任務(wù)上取得優(yōu)于其他方法結(jié)果的原因在于綜合性地考慮了領(lǐng)域數(shù)據(jù)分布的全局差異、數(shù)據(jù)分布的局部差異、類(lèi)別判別的先驗(yàn)信息以及轉(zhuǎn)換子空間的差異,從而能夠有效進(jìn)行領(lǐng)域適配,實(shí)現(xiàn)源到目標(biāo)域的信息遷移。 為了進(jìn)一步分析判別保持、局部保持及獨(dú)立的特征轉(zhuǎn)換矩陣對(duì)DADD的影響,本節(jié)在幾組跨領(lǐng)域分類(lèi)任務(wù)上進(jìn)行了消融實(shí)驗(yàn)。 (1)算法V1,令wa、wd、ww和wb表示的相關(guān)參數(shù)取值為1,且As=At,忽略樣本分布差異及各域特征轉(zhuǎn)換空間的差異,用于驗(yàn)證使用判別信息是否能對(duì)領(lǐng)域適應(yīng)產(chǎn)生正面的影響; (2)算法V2,令A(yù)s=At,使用判別分析和分布差異約束進(jìn)行領(lǐng)域適應(yīng)過(guò)程的判別保持和局部保持,用于驗(yàn)證判別保持和局部保持的聯(lián)合優(yōu)化是否能提升領(lǐng)域適應(yīng)的效果; (3)算法V3,在聯(lián)合判別分析和局部分布差異的基礎(chǔ)上,使用獨(dú)立的異構(gòu)特征轉(zhuǎn)換矩陣As和At分別對(duì)源和目標(biāo)域進(jìn)行特征變換,用于驗(yàn)證異構(gòu)特征轉(zhuǎn)換矩陣是否能夠進(jìn)一步加強(qiáng)領(lǐng)域適應(yīng)效果。 表6 展示了變種算法與經(jīng)典領(lǐng)域適應(yīng)算法JDA 在6 組跨域分類(lèi)任務(wù)上的分類(lèi)精度結(jié)果對(duì)比。算法JDA將源和目標(biāo)域的數(shù)據(jù)映射到公共的特征空間并對(duì)齊數(shù)據(jù)中心,是典型的基于全局結(jié)構(gòu)對(duì)齊的方法。算法V1和算法JDA的結(jié)果對(duì)比顯示,融合判別分析與分布適配的結(jié)果要優(yōu)于僅進(jìn)行分布適配的領(lǐng)域適應(yīng)結(jié)果,這表明判別保持有利于提升領(lǐng)域適應(yīng)的效果。此外,算法V2的結(jié)果整體上優(yōu)于V1,這表明聯(lián)合判別保持和局部保持對(duì)領(lǐng)域適應(yīng)能進(jìn)一步產(chǎn)生積極的影響。進(jìn)一步,算法V3,即本文提出的DADD,在聯(lián)合判別分析和局部結(jié)構(gòu)保持的基礎(chǔ)上,使用異構(gòu)特征轉(zhuǎn)換矩陣對(duì)判別分析和局部保持進(jìn)行加強(qiáng),其結(jié)果優(yōu)于或等于算法V1和V2的結(jié)果。分析顯示,在領(lǐng)域適應(yīng)過(guò)程中進(jìn)行判別保持、局部結(jié)構(gòu)保持尤其是針對(duì)兩者的聯(lián)合優(yōu)化和加強(qiáng)能夠促進(jìn)領(lǐng)域適應(yīng)效果,本文提出的聯(lián)合優(yōu)化方法能有效提升這一性能。總體來(lái)說(shuō),判別保持、局部保持和獨(dú)立的特征轉(zhuǎn)換矩陣都是DADD的重要組成部分。 表6 DADD變種算法的分類(lèi)精度比較Table 6 Classification accuracy comparison of different variants of DADD 單位:% 為了考察DADD 與迭代次數(shù)、嵌入空間維度、伸縮參數(shù)的關(guān)系以及對(duì)正則化參數(shù)的敏感性,隨機(jī)選擇了4組遷移任務(wù)并繪制了DADD 使用不同參數(shù)情況下在這些任務(wù)上運(yùn)行的結(jié)果。 (1)DADD 采用迭代的方式求解目標(biāo)特征轉(zhuǎn)換矩陣,在求解過(guò)程中將迭代次數(shù)范圍設(shè)置為[0,20]。圖2為迭代次數(shù)和DADD精度的關(guān)系。由圖2可見(jiàn),隨著迭代次數(shù)的增加,算法精度總體不斷提升并趨于穩(wěn)定,最終可以將迭代次數(shù)設(shè)置為T(mén)=10。 圖2 DADD分類(lèi)精度與迭代次數(shù)的關(guān)系Fig.2 Classification accuracy of DADD w.r.t iteration steps (2)圖3 繪制了嵌入空間維度與DADD 精度的關(guān)系,根據(jù)繪制的精度曲線可將實(shí)驗(yàn)中的嵌入空間維度范圍設(shè)置為k∈[8,60]。 圖3 DADD分類(lèi)精度與嵌入空間維度的關(guān)系Fig.3 Classification accuracy of DADD w.r.t dimension of embeded space (3)圖4繪制了參數(shù)t與DADD精度的關(guān)系,由圖4可見(jiàn)DADD對(duì)t的取值較為不敏感。 圖4 DADD分類(lèi)精度與t 的關(guān)系Fig.4 Classification accuracy of DADD w.r.t parameter t (4)圖5(a)~(c)繪制了正則化參數(shù)與DADD 精度的關(guān)系,可見(jiàn)DADD敏感于參數(shù)α、β和λ,但在一定范圍內(nèi),DADD具有較優(yōu)的精度值且受參數(shù)α、β和λ變化的影響較小。根據(jù)圖5所示,可確定正則化參數(shù)最佳取值范圍分別為α∈[0.000 5,0.1],β∈[0.05,0.5],λ∈[0.001,0.1]。 圖5 DADD分類(lèi)精度與正則化參數(shù)的關(guān)系Fig.5 Classification accuracy of DADD w.r.t regularization paramters 本節(jié)對(duì)算法DADD的運(yùn)行時(shí)間進(jìn)行實(shí)驗(yàn)分析,并分別選取綜合平均分類(lèi)性能第二和第三的算法DICD 和算法SPDA進(jìn)行比較。實(shí)驗(yàn)環(huán)境的硬件設(shè)置為CPU Intel Core i5 2.0 GHz,內(nèi)存16 GB。從表7中可以看出,相對(duì)來(lái)說(shuō),DICD具有較高的計(jì)算效率,這是由于DICD僅考慮了部分領(lǐng)域適應(yīng)相關(guān)的約束及其計(jì)算。SPDA 使用EM方式在每次迭代中對(duì)多個(gè)參數(shù)進(jìn)行交互優(yōu)化,具有較高的計(jì)算時(shí)間復(fù)雜度??傮w來(lái)說(shuō),DADD在獲得最優(yōu)分類(lèi)性能的同時(shí)具備可以接受的計(jì)算時(shí)間復(fù)雜度。 表7 DICD、SPDA和DADD運(yùn)行時(shí)間比較Table 7 Running time comparison of DICD,SPDA and DADD 單位:s 本文提出一種領(lǐng)域適應(yīng)學(xué)習(xí)方法DADD,通過(guò)設(shè)計(jì)新的分布差異度量和類(lèi)結(jié)構(gòu)判別度量,將域全局差異信息、局部差異信息、類(lèi)別判別信息及子空間差異信息納入到同一個(gè)框架中。所提出的方法能夠在特征變換過(guò)程中實(shí)現(xiàn)領(lǐng)域的整體分布適配,同時(shí)避免類(lèi)別結(jié)構(gòu)和樣本局部結(jié)構(gòu)遭到破壞,從而能夠?qū)⒃从驍?shù)據(jù)更有效的用于目標(biāo)域數(shù)據(jù)的分類(lèi)任務(wù)中。在多個(gè)跨領(lǐng)域的分類(lèi)任務(wù)上的實(shí)驗(yàn)結(jié)果表明,所提出的方法較對(duì)比的方法具有一定的優(yōu)越性。DADD方法還存在一定的不足,一是算法的運(yùn)行效率不夠高,存在進(jìn)一步優(yōu)化的空間,二是存在多個(gè)敏感參數(shù),如何自動(dòng)尋找最佳的參數(shù)設(shè)置也是下一步的主要工作。2.6 算法復(fù)雜度分析
3 實(shí)驗(yàn)結(jié)果及分析
3.1 數(shù)據(jù)集
3.2 實(shí)驗(yàn)設(shè)置
3.3 實(shí)驗(yàn)結(jié)果分析
3.4 有效性分析
3.5 參數(shù)分析
3.6 運(yùn)行時(shí)間分析
4 結(jié)束語(yǔ)