劉雪鋒 李京忠
(許昌市數(shù)字化學(xué)習(xí)工程技術(shù)研究中心 河南 許昌 461000) 2(許昌學(xué)院城市與環(huán)境學(xué)院 河南 許昌 461000)
深度神經(jīng)網(wǎng)絡(luò)在圖像分類、目標(biāo)檢測(cè)、圖像檢索、人體姿勢(shì)識(shí)別等多種計(jì)算機(jī)視覺任務(wù)中取得了巨大成功[1-2]。然而,為每個(gè)新任務(wù)收集足夠的標(biāo)記數(shù)據(jù)是一個(gè)非常昂貴和耗時(shí)的過程,缺乏帶注釋的訓(xùn)練數(shù)據(jù)會(huì)顯著降低深度學(xué)習(xí)模型的性能[3]。為了解決標(biāo)簽隨機(jī)性問題,有人提出了一種稱為域自適應(yīng)的方法,其目的是通過轉(zhuǎn)移從相關(guān)標(biāo)記好的源域中學(xué)習(xí)到的知識(shí)來提高無監(jiān)督目標(biāo)任務(wù)的性能[4]。
域自適應(yīng)的主要問題是最小化源域和目標(biāo)域之間的域差異,最廣泛使用的解決方案是對(duì)訓(xùn)練數(shù)據(jù)重新采樣或?qū)W習(xí)域公共特征[5]。但是,基于度量的算法在無監(jiān)督自適應(yīng)任務(wù)的情況下無法適應(yīng)域條件分布,這種缺點(diǎn)會(huì)導(dǎo)致模式不匹配或模式崩潰問題。一些方法試圖通過匹配聯(lián)合分布或條件分布來提高無監(jiān)督自適應(yīng)性能。文獻(xiàn)[6]用最大平均差進(jìn)行了邊緣和條件適應(yīng)(MMD)度量和偽目標(biāo)標(biāo)簽。文獻(xiàn)[7]提出了標(biāo)簽結(jié)構(gòu)一致性方法來探索未知目標(biāo)信息,并實(shí)現(xiàn)了條件分布自適應(yīng)。此外,文獻(xiàn)[8]嘗試使用加權(quán)MMD度量來解決類先驗(yàn)分布偏差問題,其中偽標(biāo)簽被用來減少類權(quán)重偏差。最近的一些研究表明,深層神經(jīng)網(wǎng)絡(luò)的底層學(xué)習(xí)域不變表示和結(jié)合學(xué)習(xí)的域自適應(yīng)算法正在被提出[9-10]。深度適應(yīng)算法最有前途的方法之一是基于域差異度量,這些算法利用域距離度量顯式地減少了域分布的差異,并在許多應(yīng)用中取得了成功。但是,上述無監(jiān)督傳輸方法直接使用源分類器的預(yù)測(cè)作為偽目標(biāo)標(biāo)簽,直接預(yù)測(cè)只基于輸出向量的最大值,所以對(duì)噪聲和域偏移非常敏感,降低了域的自適應(yīng)性能。
針對(duì)上述問題,提出一種基于深度條件適應(yīng)網(wǎng)絡(luò)和標(biāo)簽相關(guān)傳輸算法的無監(jiān)督域自適應(yīng)方法,通過實(shí)驗(yàn)對(duì)比驗(yàn)證了本文算法的有效性。
為了更有效地評(píng)估分布差異,使用Wasserstein距離來獲得更穩(wěn)定的梯度。給定一個(gè)度量空間(M,ρ),兩個(gè)Borel概率之間的第ρ個(gè)Wasserstein距離定義為:
(1)
圖1 二維空間
Wasserstein距離相比KL散度、JS散度的優(yōu)越性在于,即便兩個(gè)分布沒有重疊,Wasserstein距離仍然能夠反映它們的遠(yuǎn)近??紤]如下二維空間中的兩個(gè)分布P和Q,P在線段AB上均勻分布,Q在線段CD上均勻分布,參數(shù)θ代表兩個(gè)分布之間的距離。通過控制參數(shù)θ可以控制著兩個(gè)分布的距離遠(yuǎn)近。三個(gè)散度可以定義為:
(2)
(3)
W(P,Q)=|θ|
(4)
從式(2)-式(4)可知KL散度和JS散度是突變的,要么最大要么最小,Wasserstein距離卻是平滑的,如果我們要用梯度下降法優(yōu)化θ這個(gè)參數(shù),前兩者根本提供不了梯度,Wasserstein距離卻可以。類似的,在高維空間中如果兩個(gè)分布不重疊或者重疊部分可忽略,則KL和JS既反映不了遠(yuǎn)近,也提供不了梯度,但是Wasserstein卻可以提供有意義的梯度。
DCAN的框圖如圖2所示。主要有三個(gè)組成部分:特征提取網(wǎng)絡(luò)fφ、Wasser-stein距離網(wǎng)絡(luò)fw和分類器網(wǎng)絡(luò)fc。此外,構(gòu)造了一個(gè)重加權(quán)源域,并進(jìn)行了條件自適應(yīng),使目標(biāo)域和重加權(quán)源之間的分布差異最小化。正如前面幾節(jié)所強(qiáng)調(diào)的,本文工作的主要目標(biāo)是匹配不同域之間的條件分布。在本文中,確定一個(gè)特征變換Φ來將跨域數(shù)據(jù)X傳輸?shù)教卣骺臻gΦ(X),從而存在ps(φ(Xs)|Ys)≈pt(φ(Xt)|Yt)和ps(φ(Ys))≈pt(φ(Yt)),然后通過最小化條件域分布差異來執(zhí)行條件域自適應(yīng)。
圖2 DCAN的框圖
構(gòu)造了兩個(gè)深度神經(jīng)網(wǎng)絡(luò)fφ(X)和fw(h),分別實(shí)現(xiàn)了特征傳輸和Wasserstein距離估計(jì)。特征網(wǎng)絡(luò)fφ(X)有五個(gè)卷積層,每層后面由一個(gè)匯集層和一個(gè)完全連接的層組成。隱藏特征h=Φ(X)=fφ(X):Rm→Rd由fφ(X)生成,其中m和d分別是數(shù)據(jù)空間和特征空間的維數(shù)。Wasserstein網(wǎng)絡(luò)fw(h)是一個(gè)多層全連通神經(jīng)網(wǎng)絡(luò),將Wasserstein距離W1(ps,pt)近似為:
(5)
(6)
(7)
式中:Wcls表示滿足Lipschitz約束的Wasserstein距離;μ為梯度懲罰系數(shù);lgrad表示梯度懲罰因子。最后,構(gòu)造了一個(gè)分類器網(wǎng)絡(luò)fc(h)來實(shí)現(xiàn)圖像分類任務(wù)。fc的輸出是一個(gè)典型的Softmax函數(shù),它預(yù)測(cè)每個(gè)輸入樣本的概率。采用監(jiān)督學(xué)習(xí)中廣泛使用的交叉熵函數(shù)作為分類損失函數(shù):
(8)
結(jié)合式(8)和式(9),可以得到DCAN的整個(gè)損耗函數(shù):
lDCAN(xs,xt)=lc(xs)+λclassifylc(xt)+
λadapladap(xs,xt)
(9)
式中:u∈{s,t};λclassify和λadap分別是分類和適應(yīng)平衡系數(shù)。DCAN的詳細(xì)網(wǎng)絡(luò)架構(gòu)設(shè)置如表1所示。
表1 深度條件適應(yīng)網(wǎng)絡(luò)的參數(shù)
現(xiàn)在考慮類先驗(yàn)偏差問題。首先,構(gòu)造了一個(gè)重加權(quán)源分布ps,α(xs),以平衡源域和目標(biāo)域之間的類偏差。平衡的原理主要根據(jù)目標(biāo)域和學(xué)得的源分類器,近似地估計(jì)出目標(biāo)域無標(biāo)簽數(shù)據(jù)的條件分布,并設(shè)定與目標(biāo)域條件分布相近的源域賦予較大的權(quán)值。實(shí)例權(quán)重法通過調(diào)整已知領(lǐng)域中的實(shí)例樣本的權(quán)重提升目標(biāo)域中輔助域的實(shí)例權(quán)值,從而更好地適配目標(biāo)域的數(shù)據(jù);該方法著力于如何估算目標(biāo)領(lǐng)域和輔助領(lǐng)域的概率密度比值。具體的重加權(quán)推導(dǎo)可以參考文獻(xiàn)[12]。
(10)
式中:αy=c=pt(yt=c)/ps(ys=c)。顯然,重加權(quán)源分布與目標(biāo)域具有相同的類先驗(yàn)分布,并保持與源域相同的條件分布。
然后利用Wasserstein距離來計(jì)算ps,α和pt之間的差異,得到
(11)
式中:ns和nt分別是源域和目標(biāo)域的數(shù)目。目標(biāo)域是未標(biāo)記的,因此直接計(jì)算ladap和lc是DCAN的一大挑戰(zhàn)。
為了解決無監(jiān)督的問題,提出標(biāo)簽相關(guān)傳輸算法。如前幾節(jié)所討論的,類別之間的關(guān)系從源域到目標(biāo)域是一致的,可以用來預(yù)測(cè)偽目標(biāo)標(biāo)簽。
(12)
(a) 源樣本和目標(biāo)樣本的平均輸出分布
當(dāng)整個(gè)優(yōu)化完成后,分離出最優(yōu)的fφ-fc網(wǎng)絡(luò)流,在測(cè)試階段對(duì)目標(biāo)圖像進(jìn)行分類。算法1總結(jié)了優(yōu)化過程。
算法1優(yōu)化過程算法
輸入:源數(shù)據(jù){Xs,Ys}和目標(biāo)數(shù)據(jù){Xt}。
輸出:優(yōu)化DCAN模型。
1.通過AlexNet預(yù)訓(xùn)練初始化參數(shù)fc、fΦ和fw、θw和θc;
2.重復(fù)
3.從Xs和Xt采集數(shù)據(jù)批次Bs和Bt,將Bs和Bt輸入fΦ,學(xué)習(xí)相應(yīng)的hs和ht;
5.更新θw和θΦ:
6.更新θc和θΦ:
7.直到θw、θΦ和θc收斂。
與傳統(tǒng)的域自適應(yīng)方法相比,DCAN采用了基于Wasserstein距離的域分布差異評(píng)估、類先驗(yàn)偏差求解策略和標(biāo)簽相關(guān)轉(zhuǎn)移算法來解決域自適應(yīng)問題?,F(xiàn)在將討論每種技術(shù)的計(jì)算復(fù)雜性。首先,對(duì)于用多層神經(jīng)網(wǎng)絡(luò)實(shí)現(xiàn)的Wasserstein距離,利用乘法累加運(yùn)算次數(shù)(MACC)來評(píng)估時(shí)間復(fù)雜度。由表1計(jì)算可得,Wasserstein網(wǎng)絡(luò)的MACC為1 024×256+256×1≈2.6×105。這比大多數(shù)深度學(xué)習(xí)域自適應(yīng)方法廣泛采用的特征提取網(wǎng)絡(luò)小三個(gè)數(shù)量級(jí)。因此,可以忽略Wasserstein距離實(shí)現(xiàn)的時(shí)間復(fù)雜性。其次,對(duì)于類先驗(yàn)偏差求解策略,只計(jì)算與輸入數(shù)據(jù)個(gè)數(shù)呈線性關(guān)系的重加權(quán)參數(shù)αy=c。因此,對(duì)于大規(guī)模數(shù)據(jù)集,類先驗(yàn)偏差求解策略的時(shí)間復(fù)雜度是可以接受和實(shí)用的。最后,對(duì)于標(biāo)簽相關(guān)傳輸算法,計(jì)算復(fù)雜度為O(n×C2),這對(duì)于大規(guī)模數(shù)據(jù)集來說是不切實(shí)際的。然而,并不是每次迭代都執(zhí)行標(biāo)簽相關(guān)傳遞算法。在本文實(shí)驗(yàn)中,每十次迭代執(zhí)行一次該算法,從而大大降低了計(jì)算復(fù)雜度??傮w而言,DCAN的計(jì)算復(fù)雜度比傳統(tǒng)的域自適應(yīng)方法要大,但這種方法在許多應(yīng)用中仍然是可行的和實(shí)用的。
在一組實(shí)驗(yàn)的基礎(chǔ)上使用標(biāo)準(zhǔn)的域自適應(yīng)基準(zhǔn)數(shù)據(jù)集對(duì)DCAN進(jìn)行了驗(yàn)證。從標(biāo)簽相關(guān)性評(píng)價(jià)、特征可視化和參數(shù)敏感性三個(gè)方面研究了DCAN的性能。
實(shí)驗(yàn)使用四個(gè)數(shù)據(jù)集:Office-Caltech、ImageCLEF-DA、數(shù)字識(shí)別和虹膜熱量/可見人臉數(shù)據(jù)庫(kù)。
Office-Caltech是域適應(yīng)的標(biāo)準(zhǔn)基準(zhǔn)。數(shù)據(jù)集是Office-31和Caltech-256的組合,包括兩個(gè)數(shù)據(jù)集之間共享的10個(gè)類別。Office-Caltech包含四個(gè)域,即A(亞馬遜)、W(網(wǎng)絡(luò)攝像頭)、D(DSLR)和C(加州理工)。按照DAN的設(shè)置,設(shè)置了14個(gè)適應(yīng)任務(wù),A→W,D→W,W→D,A→D,D→A,W→A,A→C,W→C,D→C,C→A,C→W,C→A,C→W,C→D,并采用標(biāo)準(zhǔn)的無監(jiān)督傳輸協(xié)議。
對(duì)于源域,使用所有標(biāo)記的樣本。對(duì)于目標(biāo)域,使用50%的未標(biāo)記圖像進(jìn)行訓(xùn)練,其余的用于測(cè)試。
ImageCrep-DA是為ImageCrep 2014領(lǐng)域適應(yīng)挑戰(zhàn)而開發(fā)的。該數(shù)據(jù)集由五個(gè)廣泛使用的圖像基準(zhǔn)(Caltech-256、ImageNet 2012、Pascal VOC 2012、Bing和SUN)之間共享的11個(gè)常見類別。使用ImageCLEF的一個(gè)子集,包括C(Caltech-256)、I(ImageNet 2012)、P(Pascal VOC 2012)和B(Bing)四個(gè)域,然后執(zhí)行11個(gè)轉(zhuǎn)移任務(wù):C→I,C→P,C→B,I→C,I→B,I→B,P→C,P→I,P→B,B→C,B→B,利用所有標(biāo)記圖像進(jìn)行源域自適應(yīng)實(shí)驗(yàn)。與所有領(lǐng)域相似的Office-Caltech數(shù)據(jù)集相比,ImageCLEF數(shù)據(jù)集包含不同分辨率和不同比例的圖像,因此可以生成更全面的實(shí)驗(yàn)結(jié)果。對(duì)于Office-Caltech和ImageCLEF-DA數(shù)據(jù)集,通過將圖像裁剪為227×227像素并減去總平均值來對(duì)圖像進(jìn)行預(yù)處理。
數(shù)字識(shí)別是一個(gè)混合數(shù)據(jù)集,包含三個(gè)子數(shù)據(jù)集:MNIST、USPS和SVHN。其中,MNIST數(shù)據(jù)集是由60 000個(gè)訓(xùn)練樣本和10 000個(gè)測(cè)試樣本組成的手寫數(shù)字集。每個(gè)樣品的尺寸為28×28。USPS是一個(gè)小規(guī)模的數(shù)字?jǐn)?shù)據(jù)集,共有7 291幅訓(xùn)練圖像和2 007幅測(cè)試圖像,所有圖像的大小為16×16。SVHN是一個(gè)真實(shí)世界的數(shù)字?jǐn)?shù)據(jù)集,包括73 257個(gè)訓(xùn)練數(shù)字和26 032個(gè)測(cè)試數(shù)字,圖像大小為32×32。建立了M(MNIST)、U(USPS)、S(SVHN)三個(gè)域,以及M→U、U→S、S→M、M→S四個(gè)傳輸任務(wù),對(duì)數(shù)字?jǐn)?shù)據(jù)集進(jìn)行數(shù)據(jù)預(yù)處理:將所有圖像整形到16×16,并將像素值重新調(diào)整到[0,1]范圍內(nèi)。由于數(shù)字識(shí)別數(shù)據(jù)集中的圖像尺寸很小,特征提取網(wǎng)絡(luò)的結(jié)構(gòu)也相對(duì)簡(jiǎn)單。構(gòu)建了一個(gè)兩層全連接網(wǎng)絡(luò),將圖像投影到1 024維的特征向量上。
虹膜熱量/可見光面部數(shù)據(jù)庫(kù)包含了從30個(gè)人采集的4 228對(duì)熱圖像和可見光圖像。每個(gè)個(gè)體的圖像都是在不同的光照、面部表情和姿勢(shì)下獲得的。根據(jù)圖像形態(tài)將數(shù)據(jù)分為可見域(V)和熱域(T),然后根據(jù)獲取條件將每個(gè)域劃分為三個(gè)子域。總的來說,有六個(gè)不同的領(lǐng)域,即可見光(VI)、可見表情(VE)、可見姿勢(shì)(VP)、熱照明(TI)、熱表情(TE)和熱姿勢(shì)(TP)。然后設(shè)置了12個(gè)轉(zhuǎn)移任務(wù):VI→VE,VE→VP,VP→VI,TI→TE,TE→TP,TP→TI,VI→TE,TE→VP,VP→TI,TI→VE,VE→TP,TP→VI,前6個(gè)任務(wù)設(shè)置在相同的模式和不同的獲得條件下,后6個(gè)任務(wù)包含不同的模式和獲得條件。將人臉識(shí)別任務(wù)視為一個(gè)多類分類問題,以一個(gè)秩為1的識(shí)別率作為分類得分。
為了評(píng)估性能,將DCAN與一些廣泛使用的域自適應(yīng)算法進(jìn)行比較,包括傳輸分量分析(TCA)[13]、聯(lián)合分布自適應(yīng)(JDA)[14],以及幾種最先進(jìn)的深度傳輸方法:深度自適應(yīng)網(wǎng)絡(luò)(DAN)[15]、標(biāo)簽和結(jié)構(gòu)一致性(LSC)[8]和加權(quán)最大平均值差異(WMMD)[9]。為了確保比較的有效性,將DeCAF特性[10]應(yīng)用于兩種非深度學(xué)習(xí)算法TCA和JDA。選擇系數(shù)λclassify和λadap分別為0.7和0.4。此外,學(xué)習(xí)速率初始化為0.003,當(dāng)損失穩(wěn)定時(shí)乘以0.5。動(dòng)量參數(shù)最初為0.5,在兩次迭代循環(huán)后增加到0.95,以幫助逃離鞍點(diǎn)。
實(shí)驗(yàn)結(jié)果見表2-表4。總的來說,很明顯,所提出的DCAN在大多數(shù)自適應(yīng)任務(wù)上都取得了更好的性能。從結(jié)果中得出了幾個(gè)主要結(jié)論。
表2 Office Caltech和ImageCrip數(shù)據(jù)集的標(biāo)準(zhǔn)適配協(xié)議的準(zhǔn)確率(%)
表3 使用標(biāo)準(zhǔn)自適應(yīng)協(xié)議的數(shù)字識(shí)別數(shù)據(jù)集的準(zhǔn)確率(%)
表4 虹膜熱量/可見光面部數(shù)據(jù)庫(kù)的準(zhǔn)確率(%)
1) 與非深度學(xué)習(xí)方法(如TCA)相比,DCAN的性能明顯優(yōu)越。由于非深度學(xué)習(xí)方法簡(jiǎn)單地使用現(xiàn)成的深層特征,無法有效地減少域分布差異。DCAN利用所提出的自適應(yīng)算法對(duì)深部網(wǎng)絡(luò)進(jìn)行優(yōu)化,使DCAN學(xué)習(xí)到的特征具有更明顯的域不變性。這種深度自適應(yīng)策略有助于提高性能。
2) 與其他深度自適應(yīng)方法相比,DCAN具有更好的傳輸能力。這些優(yōu)勢(shì)可以歸結(jié)為兩個(gè)方面。由于DCAN采用了標(biāo)簽相關(guān)傳遞算法來預(yù)測(cè)目標(biāo)域的偽標(biāo)簽,因此可以更有效地解決域失配問題,實(shí)現(xiàn)條件自適應(yīng)。此外,DCAN還解決了類先驗(yàn)偏差問題,進(jìn)一步提高了跨域分類性能。因此,對(duì)于Office Caltech任務(wù),DCAN優(yōu)于WMMD 1百分點(diǎn)和LSC 1.8百分點(diǎn),在ImageCrip-DA任務(wù)中分別優(yōu)于WMMD和LSC 1百分點(diǎn)和1.5百分點(diǎn)。特別是對(duì)于D→C等困難任務(wù),DCAN比WMMD提高了6百分點(diǎn),充分證明了DCAN的有效性。
3) 在多模態(tài)實(shí)驗(yàn)中,DCAN在所有任務(wù)上都優(yōu)于其他方法。這表明了DCAN在解決跨模態(tài)問題中的有效性。此外,將前6個(gè)任務(wù)與后6個(gè)任務(wù)進(jìn)行了相應(yīng)的比較,發(fā)現(xiàn)一些跨情態(tài)任務(wù)的表現(xiàn)優(yōu)于相同情態(tài)的任務(wù),如VI→TE任務(wù)。這是因?yàn)椴煌问降膱D像可以提供補(bǔ)充信息。DCAN在跨模態(tài)任務(wù)上獲得了1.6百分點(diǎn)的提升,這是所有比較方法中最高的。結(jié)果表明,所提出的DCAN能夠從不同的模式中學(xué)習(xí)可靠信息,并能很好地解決跨模式問題。
2.3.1標(biāo)簽相關(guān)傳遞研究
在這一部分中,將進(jìn)一步研究所提出的DCAN,以探索和證明該方法的有效性。本文進(jìn)行了一系列實(shí)驗(yàn)來驗(yàn)證所提出的標(biāo)簽相關(guān)傳輸算法。首先,研究了輸出分布的源樣本和目標(biāo)樣本之間的關(guān)系。在實(shí)驗(yàn)中,利用高溫訓(xùn)練了一個(gè)Softmax分類器。分類器的輸出可以看作每個(gè)樣本的輸出概率分布。給出了輸出的總體平均值,并計(jì)算了這些分布的KL距離,如圖3所示。確定了同一類別的目標(biāo)樣本和具有相似分布的樣本,這個(gè)觀察結(jié)果證實(shí)了提出的標(biāo)簽相關(guān)傳遞算法的有效性。
然后通過實(shí)驗(yàn)研究了標(biāo)簽相關(guān)傳遞算法如何提高分類性能。目前大多數(shù)的無監(jiān)督傳輸方法直接使用源分類器的預(yù)測(cè)作為偽目標(biāo)標(biāo)簽。直接預(yù)測(cè)只基于輸出向量的最大值,所以對(duì)噪聲和域偏移非常敏感。相反,標(biāo)簽相關(guān)傳輸算法考慮了輸出的整體分布,因此,它對(duì)噪聲和域偏移更具魯棒性。做了一個(gè)比較實(shí)驗(yàn)來證明這個(gè)直覺假設(shè)。DCAN的一個(gè)變體版本可以通過用直接目標(biāo)標(biāo)簽預(yù)測(cè)代替標(biāo)簽相關(guān)傳輸過程來實(shí)現(xiàn)。根據(jù)從加州理工學(xué)院辦公室數(shù)據(jù)集中隨機(jī)選擇的四項(xiàng)轉(zhuǎn)移任務(wù),比較自適應(yīng)表現(xiàn),結(jié)果如表5所示。可以看出原始DCAN的性能優(yōu)于改善DCAN,證明了提出的標(biāo)簽相關(guān)轉(zhuǎn)移的有效性。
表5 改進(jìn)后的與原始DCAN的比較結(jié)果
2.3.2評(píng)價(jià)Wasserstein距離的有效性
在本節(jié)中,將評(píng)估Wasserstein距離在域適應(yīng)任務(wù)中的有效性。當(dāng)學(xué)習(xí)不同域之間的差異時(shí),Wasserstein距離比傳統(tǒng)距離提供更可靠的梯度。因此,可以更有效地執(zhí)行域自適應(yīng)。通過兩個(gè)實(shí)驗(yàn)來證明Wasserstein距離的優(yōu)越性。首先,評(píng)估了一個(gè)包含兩個(gè)具有不同均值和相同方差的高斯分布的合成數(shù)據(jù)集上的分布差異度量性能。然后使用Wasserstein和MMD方法估計(jì)兩個(gè)高斯分布之間的距離。結(jié)果如圖4所示。很明顯,Wasserstein距離與實(shí)際分布距離呈線性關(guān)系。然而,當(dāng)分布相互分離時(shí),MMD距離趨于飽和。這一結(jié)果證明了Wasserstein距離用于測(cè)量差異較大的區(qū)域分布的有效性。
圖4 MMD和Wasserstein距離的比較
然后,對(duì)Wasserstein距離法在現(xiàn)實(shí)世界的遷移任務(wù)中的應(yīng)用進(jìn)行了評(píng)價(jià)。用MMD距離代替Wasserstein距離構(gòu)造了一個(gè)變異DCAN,并比較了兩種DCAN在四種轉(zhuǎn)移任務(wù)上的適應(yīng)性能,結(jié)果見表6。結(jié)果表明,基于Wasserstein的DCAN模型優(yōu)于基于MMD的DCAN模型,特別是對(duì)于D→C和C→W等不平衡和困難的轉(zhuǎn)移任務(wù),這一結(jié)果表明了用Wasserstein距離來度量域差異的優(yōu)越性。
表6 Wasserstein的DCAN和基于MMD的DCAN的比較結(jié)果
2.3.3特征可視化
使用t-SNE可視化方法來分析DCAN和DAN學(xué)習(xí)的特征映射的適應(yīng)能力。在D→C任務(wù)上執(zhí)行可視化,并在圖5中的嵌入特征中示出。可以觀察到DCAN的特征比DAN的特征更具鑒別性。特別是圓圈中,DCAN保留了類的距離,避免了DAN中出現(xiàn)的模式崩潰。其根本原因是DCAN執(zhí)行無監(jiān)督的條件適應(yīng)策略。
(a) 任務(wù)D→C的DCAN的t-SNE嵌入特征
(b) 任務(wù)D→C的DAN的t-SNE嵌入特征圖5 DCAN和DAN的特征可視化
2.3.4參數(shù)靈敏度
通過改變?chǔ)薱lassify∈{0.2,0.3,0.4,0.5,0.6,0.7,0.8,1.0,1.2}和λadap∈{0.1,0.2,0.3,0.4,0.5,0.6,0.7,0.8,0.9,1}來研究平衡系數(shù)λclassify和λadap的影響。從三個(gè)實(shí)驗(yàn)中選擇六個(gè)遷移任務(wù)來評(píng)估參數(shù)敏感性,結(jié)果如圖6所示。
(a) 不同λclassify的分類精度
圖6(a)顯示了不同參數(shù)λclassify下的六個(gè)轉(zhuǎn)移任務(wù)的分類精度。性能逐漸提高,在0.7左右達(dá)到最佳,然后隨著λ分類的增加略有下降。這表明,當(dāng)目標(biāo)分類損失的比例限制在一定范圍內(nèi)時(shí),目標(biāo)分類損失有助于提高系統(tǒng)的整體性能。
圖6(b)顯示了不同λadap的精度。通常情況下,最佳折中參數(shù)λadap約為0.4,在極值點(diǎn)(過大或過小)下性能會(huì)顯著下降。這種鐘形曲線表明,分類和適應(yīng)之間的適當(dāng)平衡是重要和必要的。
2.3.5收斂性
在實(shí)驗(yàn)的基礎(chǔ)上分析了所提出的DCAN算法的收斂性。選取了四個(gè)跨域任務(wù),報(bào)告了域距離和精度隨訓(xùn)練迭代的變化,結(jié)果如圖7所示??梢钥闯?精度在大約50次迭代時(shí)變得穩(wěn)定,并在200~250次迭代中收斂。具體地說,確定域距離與精度呈負(fù)相關(guān)。這表明減小域差異可以提高跨域識(shí)別性能。這一結(jié)果再次證明了所提出的條件域自適應(yīng)策略的重要性。
圖7 四個(gè)跨域任務(wù)的收斂性評(píng)估
針對(duì)目前無監(jiān)督域自適應(yīng)方法對(duì)噪聲和域偏移非常敏感,提出一種基于深度條件適應(yīng)網(wǎng)絡(luò)的標(biāo)簽轉(zhuǎn)移算法。通過數(shù)據(jù)集實(shí)例結(jié)果分析可得如下結(jié)論:
1) 域距離與精度呈負(fù)相關(guān),減小域差異可以提高跨域識(shí)別性能。Wasserstein距離可以有效度量區(qū)域分布差異,有效解決了當(dāng)鄰域差異較大時(shí)梯度消失問題,從而獲得更好的域適應(yīng)性能。
2) Wasserstein距離可以有效度量區(qū)域分布差異,有效解決了當(dāng)鄰域差異較大時(shí)梯度消失問題,從而獲得更好的域適應(yīng)性能。
3) 提出的基于深度條件適應(yīng)網(wǎng)絡(luò)和標(biāo)簽相關(guān)傳輸算法的無監(jiān)督域自適應(yīng)方法考慮了輸出的整體分布,因此,它對(duì)噪聲和域偏移更具魯棒性,并且提升了算法的準(zhǔn)確性和實(shí)用性。