王姍姍,汪夢(mèng)竹,駱志剛
(1.安徽大學(xué)計(jì)算智能與信號(hào)處理教育部重點(diǎn)實(shí)驗(yàn)室,安徽 合肥 230039; 2.國(guó)防科技大學(xué)計(jì)算機(jī)學(xué)院并行與分布計(jì)算重點(diǎn)實(shí)驗(yàn)室,湖南 長(zhǎng)沙 410073)
在計(jì)算機(jī)視覺(jué)領(lǐng)域,模型的成功依賴(lài)于是否有足夠多的標(biāo)簽數(shù)據(jù)進(jìn)行訓(xùn)練。然而,收集數(shù)據(jù)往往需要耗費(fèi)巨大的精力和時(shí)間,在現(xiàn)實(shí)場(chǎng)景中并不具有可實(shí)現(xiàn)性。無(wú)監(jiān)督域適應(yīng)[1-5]是針對(duì)該特定問(wèn)題提出的一種解決方案,旨在利用來(lái)自不同領(lǐng)域但有相關(guān)性的源域知識(shí)輔助學(xué)習(xí)目標(biāo)領(lǐng)域的信息,從而提升分類(lèi)的精度。然而,領(lǐng)域之間的差異仍然是制約無(wú)監(jiān)督域適應(yīng)方法得以大規(guī)模應(yīng)用的瓶頸,目前的域適應(yīng)方法主要用于減小領(lǐng)域之間的分布差異。
Figure 1 Motivation of the proposed method圖1 本文方法動(dòng)機(jī)
為了降低域間分布差異帶來(lái)的負(fù)面影響,一系列方法[6-8]應(yīng)運(yùn)而生,其中大部分方法通過(guò)對(duì)齊域間分布來(lái)學(xué)習(xí)領(lǐng)域不變特征或分類(lèi)器,如最大平均差異MMD(Maximum Mean Discrepancy)[9]和對(duì)抗學(xué)習(xí)[10,11]。但是,由于分布對(duì)齊是全局結(jié)構(gòu)的邊緣對(duì)齊,模型易忽略細(xì)粒度的類(lèi)級(jí)別條件分布信息,無(wú)法保證學(xué)習(xí)到的特征或分類(lèi)器在目標(biāo)領(lǐng)域內(nèi)具有理想的判別能力。
因此,一個(gè)代表性的MMD變種——類(lèi)級(jí)別MMD[12]被提出且廣泛用于量化領(lǐng)域間的條件分布差異,通過(guò)同時(shí)匹配全局結(jié)構(gòu)的域級(jí)別信息和局部結(jié)構(gòu)的類(lèi)級(jí)別信息,從而實(shí)現(xiàn)邊緣分布和條件分布的聯(lián)合分布對(duì)齊。另外,文獻(xiàn)[13]從理論層面上重新審視了類(lèi)級(jí)別的MMD方法,揭示實(shí)現(xiàn)最小化類(lèi)級(jí)別的MMD等同于最大化源域和目標(biāo)域的類(lèi)內(nèi)緊湊性,但如圖1所示(圖中無(wú)填充形狀表示源域,有填充形狀表示目標(biāo)域),其忽略了特征的類(lèi)間判別性,因此類(lèi)級(jí)別的MMD方法可能會(huì)導(dǎo)致不同類(lèi)別間的重疊。
受文獻(xiàn)[12,13]工作的啟發(fā),本文擬從2個(gè)方面改進(jìn)MMD的可判別性。一方面,為解決類(lèi)別間的不平衡性問(wèn)題,在對(duì)齊邊緣分布的基礎(chǔ)上,考慮對(duì)條件分布進(jìn)行對(duì)齊。由于條件分布對(duì)齊需要利用標(biāo)簽信息,而域適應(yīng)中的目標(biāo)域樣本不含標(biāo)簽,因此首先需要為目標(biāo)域樣本分配偽標(biāo)簽。然后基于偽標(biāo)簽,計(jì)算2個(gè)域中類(lèi)級(jí)別MMD的權(quán)重,從而使難分類(lèi)的類(lèi)別與易分類(lèi)的類(lèi)別在域間分布中保持一致。另一方面,如圖1所示,盡管加權(quán)的類(lèi)級(jí)別MMD方法考慮到每個(gè)類(lèi)別的細(xì)粒度信息,但其忽略了類(lèi)間的可判別性,容易導(dǎo)致類(lèi)間樣本的不可分離性。因此,考慮到加權(quán)類(lèi)級(jí)別MMD方法的缺陷,如圖1c所示,本文提出利用樣本特征建立一個(gè)富含更多信息的結(jié)構(gòu),用來(lái)學(xué)習(xí)具有判別性的特征。
在錨點(diǎn)樣本的升序列表中,將所有正樣本排列在負(fù)樣本之前,對(duì)樣本對(duì)進(jìn)行局部對(duì)比損失的排序優(yōu)化,并在不同類(lèi)別的樣本之間設(shè)置一個(gè)強(qiáng)制邊界。盡可能為每一個(gè)樣本學(xué)習(xí)一個(gè)超球面,使正樣本對(duì)之間的距離小于閾值,從而既保持樣本之間的相似結(jié)構(gòu),又能實(shí)現(xiàn)類(lèi)內(nèi)緊致性和類(lèi)間可分離性。
同時(shí),為了捕獲長(zhǎng)期依賴(lài)的精確位置信息,本文采用一種新的輕量級(jí)注意力機(jī)制,稱(chēng)為協(xié)調(diào)注意力機(jī)制,協(xié)調(diào)注意力機(jī)制繼承了通道注意力機(jī)制的優(yōu)點(diǎn),可以模擬通道間的關(guān)系,有效提升模型的泛化性能。在5個(gè)數(shù)據(jù)集上進(jìn)行實(shí)驗(yàn),本文的方法展現(xiàn)出了良好的效果。
本文工作是文獻(xiàn)[14]會(huì)議論文的擴(kuò)展版本。與會(huì)議論文相比,本文進(jìn)行了以下改進(jìn):將本文所提的方法擴(kuò)展至注意力網(wǎng)絡(luò)結(jié)構(gòu)中,具備了即插即用的效果;此外,在更多的數(shù)據(jù)集上驗(yàn)證了本文方法的有效性。
本文主要工作總結(jié)如下:
(1)考慮了加權(quán)的類(lèi)級(jí)別 MMD 方法和局部對(duì)比損失,提出了一種改進(jìn)最大平均差異的無(wú)監(jiān)督域自適應(yīng)方法——局部判別損失域適應(yīng)。
(2)從理論上分析加權(quán)的類(lèi)級(jí)別 MMD 方法存在的問(wèn)題,并闡述特征判別能力下降的原因。
(3)提出一種簡(jiǎn)單有效、即插即用的域適應(yīng)方法,提高了特征的可判別性,并將該方法擴(kuò)展至注意力機(jī)制的網(wǎng)絡(luò)中,證明了其即插即用的泛化能力。
針對(duì)無(wú)監(jiān)督域適應(yīng)問(wèn)題,學(xué)術(shù)界曾提出了一系列縮小域間分布差異的方法。最大平均差異MMD[9]是其中的一種主流方法,通常用來(lái)對(duì)齊2個(gè)域之間的高維特征。條件 MMD方法[12]度量源域和目標(biāo)域中經(jīng)驗(yàn)條件的希爾伯特-施密特核范數(shù)均值嵌入,最小化域間的均值差異,縮小域間分布差異。加權(quán)最大均值差異WMMD (Weighted Mean Maximum Discrepancy)[15]在原始的 MMD 方法的基礎(chǔ)上,利用源域和目標(biāo)域的類(lèi)別先驗(yàn)概率,引入特定類(lèi)級(jí)別的輔助權(quán)重。Long等人[12]提出的聯(lián)合分布適應(yīng)JDA (Joint Distribution Adaptation)方法聯(lián)合了邊緣分布和條件分布,但該方法忽略了類(lèi)別不平衡問(wèn)題中類(lèi)別權(quán)重的重要性。
另一類(lèi)主流方法是借助對(duì)抗學(xué)習(xí)的思想縮小無(wú)監(jiān)督域適應(yīng)的域間分布差異。Wang等人[16]提出利用對(duì)抗學(xué)習(xí)的優(yōu)化方法對(duì)齊特征,準(zhǔn)確地遷移特征從而使域差異最小化。Wang等人[17]提出了一種自適應(yīng)重加權(quán)的對(duì)抗域適應(yīng)方法,但考慮的是遷移過(guò)程中樣本重要性的不同。Long 等人[18]提出了一種條件對(duì)抗方法,利用基于分類(lèi)器預(yù)測(cè)獲得的判別信息構(gòu)造對(duì)抗適應(yīng)模型。 Li 等人[19]提出了一種距離損失,并將其應(yīng)用至對(duì)抗域適應(yīng)中,以應(yīng)對(duì)平衡問(wèn)題的挑戰(zhàn)。
與以上方法不同,本文方法旨在顯式地減少類(lèi)級(jí)別的錯(cuò)誤匹配,從而學(xué)習(xí)到具有判別性的領(lǐng)域不變特征。之前也有一些方法[20,21]從提高判別力的角度出發(fā)構(gòu)造模型。Li等人[21]提出了領(lǐng)域不變表示和類(lèi)判別表示DICD (Domain Invariant and Class Discriminative representations)方法,試圖同時(shí)最大化類(lèi)間離散,最小化類(lèi)內(nèi)分散,改善類(lèi)別的判別性特征。Satio等人[20]提出最大化分類(lèi)差異MCD (Maximum Classifier Discrepancy)的方法,通過(guò)利用特定任務(wù)的決策邊界來(lái)調(diào)整源域和目標(biāo)域的分布。
雖然使用 MMD 策略可以縮小2個(gè)域之間的分布差異,但僅用它還遠(yuǎn)遠(yuǎn)不夠,該策略依然受到2個(gè)方面的影響。一方面 MMD 方法未考慮類(lèi)別間的不平衡性問(wèn)題,易導(dǎo)致對(duì)齊過(guò)程中出現(xiàn)類(lèi)間差異。另一方面,從文獻(xiàn)[13]中可知,最小化 MMD 方法等同于最大化源域和目標(biāo)域之間的類(lèi)內(nèi)距離,由于類(lèi)內(nèi)距離和類(lèi)間距離之間的關(guān)系互斥,類(lèi)間距離無(wú)法得到約束,容易造成類(lèi)間的重疊。為了解決這一問(wèn)題,本文提出了一種判別策略來(lái)抑制 MMD 方法的不利影響,如圖2所示,其損失函數(shù)包括源域分類(lèi)損失、局部對(duì)比損失和加權(quán)類(lèi)級(jí)別MMD損失。
Figure 2 Unsupervised domain adaptation method圖2 無(wú)監(jiān)督域適應(yīng)方法
為解決類(lèi)別間的不平衡性問(wèn)題,本文首先提出采用加權(quán)類(lèi)級(jí)別 MMD 的方法,但是基于權(quán)重分類(lèi)的 MMD 方法忽略了特征的類(lèi)間可分辨性,容易降低域的自適應(yīng)性能。為提升判別性,在加權(quán)類(lèi)級(jí)別MMD 的基礎(chǔ)上,本文擬為每一個(gè)類(lèi)別設(shè)置一個(gè)保證邊界的策略,如圖 1c所示。同時(shí),強(qiáng)行拉近正樣本對(duì)的距離,使其小于某個(gè)閾值。本文采用使每個(gè)樣本的超球面直徑小于某個(gè)閾值的方式代替簡(jiǎn)單的拉近同類(lèi)樣本的約束。在這2方面的作用下,本文能夠保持每個(gè)類(lèi)別內(nèi)樣本之間的相似性結(jié)構(gòu),并通過(guò)改進(jìn)權(quán)重分類(lèi)的 MMD 方法使其具有判別性。
為了度量2個(gè)域之間的距離,本文采用域適應(yīng)中常用的非參數(shù)度量方法:最大平均差異MMD方法[12]。它可以計(jì)算k維嵌入的源域特征均值與目標(biāo)域特征均值之間的距離,計(jì)算公式如式(1)所示:
tr(ATSbA)=tr(ATSvA)-tr(ATSwA)
(1)
根據(jù)式(1),將加權(quán)的類(lèi)級(jí)別MMD方法改寫(xiě)如式(2)所示:
(2)
經(jīng)過(guò)化簡(jiǎn)之后,再次改寫(xiě)式(2)可得式(3):
(3)
將式(3)代入式(2)后,可得式(4):
(4)
根據(jù)式(4)可以得出,加權(quán)類(lèi)級(jí)別MMD方法的目標(biāo)是最大化源域和目標(biāo)域的類(lèi)間距離,最小化源域和目標(biāo)域的類(lèi)內(nèi)距離。但是,由于整個(gè)數(shù)據(jù)的方差為一個(gè)固定值,使用MMD使類(lèi)內(nèi)距離擴(kuò)大時(shí)[13],類(lèi)間的距離會(huì)越來(lái)越小。這樣不同的類(lèi)別之間就會(huì)出現(xiàn)不同程度的混沌重疊,特征的可判別性就會(huì)大大降低。為了解決可判別性問(wèn)題,本文設(shè)計(jì)了一個(gè)判別性策略,以提高類(lèi)別的可判別特性。
與調(diào)和平均線性判別分析不同[22],本文的判別性策略為:給定一個(gè)選定的圖像樣本xi,盡可能將不同類(lèi)別的樣本推至距離邊界β更遠(yuǎn)的位置,將與其相同類(lèi)別的樣本拉近至比邊界β-g更靠近的位置,因此2個(gè)邊界之間的邊界距離為g,如圖3所示。判別性策略的使用可以使任意的類(lèi)別之間都具有一定的保證邊界。樣本對(duì)的損失函數(shù)的數(shù)學(xué)表達(dá)式如式(5)所示:
Ls(xi,xj,f(·))=(1-yij)·max(0,β-dij)+
yij·max(0,dij-(β-g))
(5)
其中,當(dāng)yi=yj,即樣本標(biāo)簽一致時(shí),yij=1,表示樣本對(duì)為正樣本對(duì);當(dāng)yi≠yj時(shí),yij=0,表示樣本對(duì)為負(fù)樣本對(duì);dij=|f(xi)-f(xj)|2表示樣本對(duì)特征間的歐氏距離;xi和xj表示樣本;Ls表示樣本對(duì)的損失函數(shù);f(xi)和f(xj)表示樣本特征。
Figure 3 Discriminative strategy圖3 判別性策略
對(duì)于所選樣本xi來(lái)說(shuō),由于不同的樣本到所選樣本的距離不同,為了充分平衡這層關(guān)系,本文根據(jù)它們與所選樣本的對(duì)應(yīng)距離對(duì)樣本進(jìn)行加權(quán)。在設(shè)計(jì)判別性策略的時(shí)候,本文考慮到每個(gè)樣本的可遷移性不同,從而給予每個(gè)樣本對(duì)不同的權(quán)重。為防止使用了加權(quán)的類(lèi)級(jí)別MMD方法之后的模型過(guò)擬合,需減小易遷移樣本的權(quán)重,加大難遷移樣本的權(quán)重,所以權(quán)重策略表示如式(6)所示:
(6)
為了拉近所有正樣本的距離,并設(shè)置一個(gè)邊距來(lái)學(xué)習(xí)類(lèi)別的超球面,本文將正樣本對(duì)的損失LP最小化為式(7):
(7)
其中f()表示訓(xùn)練提取樣本特征的函數(shù)。
同樣地,為了使負(fù)樣本集Nc,i遠(yuǎn)離邊界β之外,本文將負(fù)樣本損失LN最小化為式(8):
(8)
綜上,判別策略損失可以表示為式(9):
(9)
在通道注意力中,研究人員通常使用ResNet[23]網(wǎng)絡(luò)中的全局池化對(duì)空間信息進(jìn)行全局編碼,但它將全局空間信息壓縮到通道描述符中,因此很難保留位置信息,而位置信息對(duì)于在視覺(jué)任務(wù)中捕獲空間結(jié)構(gòu)至關(guān)重要。為了鼓勵(lì)注意模塊通過(guò)精確的位置信息在空間上捕捉遠(yuǎn)程交互,本文將全局池化轉(zhuǎn)換為一對(duì)一維特征編碼操作。具體來(lái)說(shuō),給定輸入X,使用2個(gè)空間范圍的池核(H;1)或(1;W)分別沿水平方向坐標(biāo)和垂直方向坐標(biāo)對(duì)每個(gè)通道進(jìn)行編碼。因此,第c個(gè)通道在高度h(0≤h (10) 類(lèi)似地,第c個(gè)通道在寬度為w處的輸出表示為式(11): (11) 以上2種變換沿著2個(gè)空間方向進(jìn)行特征聚合,返回一對(duì)方向感知注意力圖。這和擠壓激發(fā)SE模塊產(chǎn)生一個(gè)特征向量的方法截然不同,這2種變換允許注意力模塊捕捉到沿著一個(gè)空間方向的長(zhǎng)程依賴(lài),并保存沿著另一個(gè)空間方向的精確位置信息,這有助于網(wǎng)絡(luò)更準(zhǔn)確地定位感興趣的目標(biāo)。 具體來(lái)說(shuō),首先將式(10)和式(11)生成的聚合特征連接起來(lái),接著將其輸入共享的1×1卷積變換函數(shù)F1(·),得到式(12): f=δ(F1([zh,zw])) (12) 其中,[·,·]表示沿空間維度的串聯(lián)操作,δ(·)是非線性激活函數(shù),f∈RC/r×(H+W)是在水平方向和垂直方向上編碼空間信息的中間特征,zh表示經(jīng)過(guò)編碼后的水平方向輸出特征,zw表示經(jīng)過(guò)編碼后的垂直方向輸出特征。r用于控制卷積塊大小的縮小比。然后將f沿空間維度拆分為2個(gè)獨(dú)立的張量fh∈RC/r×H和fw∈RC/r×W,利用另外2個(gè)卷積變換Fh(·)和Fw(·),將fh和fw分別變換成具有相同通道數(shù)的張量,如式(13)所示: gh=σ(Fh(fh)), gw=σ(Fw(fw)) (13) 最后將輸出的gh和gw分別展開(kāi)并用作注意力權(quán)重。協(xié)調(diào)注意模塊Y的輸出如式(14)所示: (14) 本文方法的目標(biāo)是縮小域間差異,提高加權(quán)類(lèi)級(jí)別MMD的可判別性。所以,本文所提模型通過(guò)注意力機(jī)制提取特征,在基本損失的基礎(chǔ)之上,加入了加權(quán)類(lèi)級(jí)別MMD損失和判別性損失。總的損失函數(shù)Ltotal如式(15)所示: (15) 其中,Lc表示在源域樣本上的標(biāo)準(zhǔn)分類(lèi)損失,p和q表示不同類(lèi)別的樣本。 初始網(wǎng)絡(luò)模型采用在ImageNet2012數(shù)據(jù)集上預(yù)訓(xùn)練得到的CNN模型,并對(duì)其進(jìn)行微調(diào)。模型的訓(xùn)練方式主要遵循標(biāo)準(zhǔn)的小批量隨機(jī)梯度下降算法。 本文在5個(gè)常用基準(zhǔn)數(shù)據(jù)集上進(jìn)行實(shí)驗(yàn),并將本文方法與域適應(yīng)中的其他先進(jìn)方法進(jìn)行對(duì)比,從而驗(yàn)證本文方法的有效性(方法的代碼已在https://github.com/dreamkily/A3N開(kāi)源)。為了驗(yàn)證本文方法的泛化性,數(shù)據(jù)集不僅包括 Office-31[24]、ImageCLEF-DA等小規(guī)模數(shù)據(jù)集,還包括 Office-Home[25]、VisDA-2017[26]和 DomainNet[27]大規(guī)模數(shù)據(jù)集。 (1)Office-31。Office-31是域適配領(lǐng)域的一個(gè)基準(zhǔn)數(shù)據(jù)集。Office-31包含來(lái)自Amazon(A)、Webcam(W)和Dslr(D)3個(gè)領(lǐng)域的一共31種類(lèi)別樣本,共4 652 幅圖像,可組成6項(xiàng)域適應(yīng)任務(wù),分別是A→W,W→A,W→D,D→W,A→D 和 D→A。 (2)ImageCLEF-DA。ImageCLEF-DA是域適應(yīng)挑戰(zhàn)賽中的基準(zhǔn)測(cè)試數(shù)據(jù)集。它包含3個(gè)域:Caltech-256(C)、ImageNet ILSVRC 2012(I)和Pascal VOC 2012(P)。每個(gè)域由12個(gè)類(lèi)別組成,每個(gè)類(lèi)別有50幅圖像樣本,共600幅圖像樣本。本文在所有6項(xiàng)挑戰(zhàn)性任務(wù)上進(jìn)行方法評(píng)估,分別是 C→I,C→P,I→P,I→C,P→C,P→I。 (3)Office-Home。Office-Home是一個(gè)具有挑戰(zhàn)性的大規(guī)模數(shù)據(jù)集,包含65個(gè)類(lèi)別共15 500幅圖像。它具有4個(gè)顯著不同的領(lǐng)域:Artistic (Ar),Clipart (Cl),Product (Pr)和Real-World (Rw)。本文在所有的12項(xiàng)挑戰(zhàn)性任務(wù)中進(jìn)行方法評(píng)估。 (4)VisDA-2017。VisDA是一個(gè)非常大且具有挑戰(zhàn)性的域適應(yīng)數(shù)據(jù)集,包含來(lái)自3個(gè)不同領(lǐng)域的12個(gè)類(lèi)別,一共有超過(guò)280 000幅圖像。3個(gè)領(lǐng)域分別是訓(xùn)練領(lǐng)域(Synthetic)、驗(yàn)證領(lǐng)域(Real)和測(cè)試領(lǐng)域。 (5)DomainNet。DomainNet是迄今為止最大且最具挑戰(zhàn)性的域適應(yīng)數(shù)據(jù)集。它包含來(lái)自6個(gè)不同領(lǐng)域的345個(gè)類(lèi)別的圖像,共計(jì)約60萬(wàn)幅。6個(gè)領(lǐng)域分別是Clipart(clp),Infograph(inf),Painting(pnt),Quickdraw(qdr),Real(rel)和Sketch(skt)。每個(gè)領(lǐng)域分別作為源域和目標(biāo)域,共可以構(gòu)建出30項(xiàng)域適應(yīng)任務(wù):clp→inf,…,skt→rel。 采用PyTorch平臺(tái)實(shí)現(xiàn)本文提出的方法,通過(guò)加權(quán)衰減為5×10-4、動(dòng)量為0.9的小批量隨機(jī)梯度下降優(yōu)化模型。使用以下方式調(diào)整,其中θ在訓(xùn)練過(guò)程中從0到1線性變化,參數(shù)ηθ=η0/(1+αθ)β,參數(shù)α=10,β=0.75,用參數(shù)θ改變?chǔ)?,設(shè)λ1=2e-10θ-1,λ2=0.01,設(shè)置批數(shù)為32。 為了與其他域自適應(yīng)方法進(jìn)行比較,本文選擇了一些經(jīng)典的和最新的高性能深度學(xué)習(xí)方法,包括遷移成分分析TCA (Transfer Component Analysis)[29]、測(cè)地線流核GFK (Geodesic Flow Kernel)[30]、深度域混淆DDC (Deep Domain Confusion)[31]、深度適應(yīng)網(wǎng)絡(luò)DAN (Deep Adaptation Network),[32]、 域?qū)股窠?jīng)網(wǎng)絡(luò)DANN (Domain Adversarial Neural Network)[10]、聯(lián)合對(duì)抗網(wǎng)絡(luò)JAN (Joint Adversarial Network)[12]、殘差遷移網(wǎng)絡(luò)RTN (Residual Transfer Network)[33]、條件領(lǐng)域?qū)惯m應(yīng)網(wǎng)絡(luò)CDAN (Conditional Domain Adversarial Network)[18]、對(duì)稱(chēng)網(wǎng)絡(luò)SymNet (Symmetric Network)[34]、對(duì)抗性判別領(lǐng)域適應(yīng)ADDA (Adversarial Discriminative Domain Adaptation)[28]、增強(qiáng)版協(xié)作對(duì)抗網(wǎng)絡(luò)iCAN (incremental Collaborative and Adversarial Network)[35]、域適應(yīng)的可遷移注意力TADA (Transferable Attention for Domain Adaptation)[16]、多對(duì)抗領(lǐng)域適應(yīng)MADA (Multi-Adversarial Domain Adaptation)[36]、深度子域自適應(yīng)網(wǎng)絡(luò)DSAN (Deep Subdomain Adaptation Network)[37]、批量核范數(shù)最大化BNM (Batch Nuclear-norm Maximization)[38]、逐步自適應(yīng)特征范數(shù)SAFN (Stepwise Adaptive Feature Norm)[39]、切片沃瑟斯坦差異SWD (Sliced Wasserstein Discrepancy)[40]和跨域梯度差異最小化CGDM (Cross-domain Gradient Discrepancy Minimization)[41]。 (1)Office-31上的實(shí)驗(yàn)結(jié)果。Office-31是領(lǐng)域自適應(yīng)研究方法中應(yīng)用最廣泛的數(shù)據(jù)集之一,各方法在該數(shù)據(jù)集上的實(shí)驗(yàn)結(jié)果如表1所示,其中,*代表無(wú)注意力機(jī)制,結(jié)果出自會(huì)議論文。 可以看出,本文提出的方法在現(xiàn)有的遷移學(xué)習(xí)任務(wù)中優(yōu)于大多數(shù)對(duì)比方法。值得注意的是,本文通過(guò)加大難遷移樣本權(quán)重,降低容易遷移樣本權(quán)重的方法,大大提高了難遷移任務(wù)的分類(lèi)精度,如D→A 任務(wù)中源域和目標(biāo)域的分布差異顯著不同,而 W→A任務(wù)中源域數(shù)據(jù)集的規(guī)模比目標(biāo)域規(guī)模小,但在這2個(gè)遷移任務(wù)中,本文方法表現(xiàn)出了相當(dāng)高的性能。從表1可以看出,本文方法非常接近全監(jiān)督設(shè)置結(jié)果的上界。 Table 1 Recognition accuracies on Office-31 dataset表1 Office-31數(shù)據(jù)集上的識(shí)別精度 % (2)ImageCLEF-DA上的實(shí)驗(yàn)結(jié)果。Office-31數(shù)據(jù)集中的對(duì)象都來(lái)自辦公場(chǎng)景,與之不同,ImageCLEF-DA數(shù)據(jù)集中的對(duì)象資源更加多樣化。在ImageCLEF-DA數(shù)據(jù)集上對(duì)本文提出的方法進(jìn)行了評(píng)估,以驗(yàn)證其在不同場(chǎng)景下的有效性。在ImageCLEF-DA上使用ResNet-50作為本文方法的骨干網(wǎng)絡(luò)。從表2可以看到,本文方法優(yōu)于對(duì)比方法,盡管任務(wù)變得更具有挑戰(zhàn)性,但該方法的識(shí)別精度基本都有提高。除Pascal數(shù)據(jù)集外,在其他數(shù)據(jù)集上的評(píng)估中,本文方法的識(shí)別精度均在90%以上。這表明,本文所提方法不僅適用于廣泛應(yīng)用于辦公場(chǎng)景,而且還適用于更加多樣化的場(chǎng)景。 (3)Office-Home上的實(shí)驗(yàn)結(jié)果。本文在Office-Home數(shù)據(jù)集上驗(yàn)證本文方法在大規(guī)模數(shù)據(jù)場(chǎng)景下的泛化性。實(shí)驗(yàn)依然采用ResNet-50作為本文方法的骨干網(wǎng)絡(luò),結(jié)果如表3所示。從表3中可以看出,與最近報(bào)道的幾個(gè)著名的深度域自適應(yīng)方法相比,本文方法的平均分類(lèi)精度最優(yōu)。 Table 2 Recognition accuracies on ImageCLEF-DA dataset表2 ImageCLEF-DA數(shù)據(jù)集上的識(shí)別精度 % (4)VisDA-2017和DomainNet上的實(shí)驗(yàn)結(jié)果。本文遵循與CDAN[18]相同的實(shí)驗(yàn)協(xié)議,并與最近在VisDA-2017和DomainNet數(shù)據(jù)集上報(bào)道的幾種深度方法的結(jié)果進(jìn)行了比較,結(jié)果如表4和表5所示。從2個(gè)表可以看出,本文方法在平均分類(lèi)精度方面取得了有競(jìng)爭(zhēng)力的結(jié)果。 4.2.1 消融實(shí)驗(yàn) 為了驗(yàn)證本文方法各個(gè)部分所起的作用,本節(jié)在Office-31數(shù)據(jù)集上對(duì)不同策略下本文方法的不同變種進(jìn)行消融實(shí)驗(yàn),結(jié)果如表6所示。ResNet-50的基線結(jié)果表示只使用源域分類(lèi)器,且沒(méi)有MMD策略參與。ResNet+類(lèi)級(jí)別MMD表示考慮類(lèi)級(jí)別 MMD,識(shí)別性能從76.1%提高到了84.3%。ResNet-50+加權(quán)類(lèi)級(jí)別MMD代表本文方法,即加權(quán)的類(lèi)級(jí)別對(duì)齊方法,識(shí)別性能提高到了88.3%,加上注意力機(jī)制后,識(shí)別性能達(dá)到了88.6%。 Table 3 Recognition accuracies on Office-Home dataset 表3 Office-Home數(shù)據(jù)集上的識(shí)別精度 % Table 4 Recognition accuracies on VisDA-2017 dataset 表4 VisDA-2017數(shù)據(jù)集上的識(shí)別精度 % Table 5 Recognition accuracies on DomainNet dataset表5 DomainNet數(shù)據(jù)集上的識(shí)別精度 % Table 6 Ablation experiments on Office-31 dataset表6 Office-31數(shù)據(jù)集上的消融實(shí)驗(yàn) % 從表6可以看出,本文方法既得益于加權(quán)類(lèi)級(jí)別的權(quán)重MMD,也受益于判別策略,注意力機(jī)制也對(duì)其性能的提升起到了作用。 4.2.2 特征可視化 本文在圖4a和圖4b中展示了任務(wù)A→W的可視化結(jié)果。特征分別由ResNet-50和本文方法進(jìn)行提取,然后使用t-隨機(jī)鄰近嵌入t-SNE (t- distributed Stochastic Neighbor Embedding)嵌入特征[42]并進(jìn)行特征可視化。圖4a容易造成一些難對(duì)齊樣本點(diǎn)分類(lèi)錯(cuò)誤。與之相比,圖4b顯示相同的類(lèi)別非常接近,具有良好的對(duì)齊特性,這驗(yàn)證了本文方法的有效性。結(jié)果表明,該方法學(xué)習(xí)到的特征在2個(gè)域之間可以很好地對(duì)齊,且保留了更多的類(lèi)間判別性。 Figure 4 t-SNE figure圖4 t-SNE圖 4.2.3 域適應(yīng)分布差異的量化 圖5給出了ResNet-50、CDAN和本文方法的A距離。A距離被廣泛用來(lái)度量分布散度,而且距離越小代表分布對(duì)齊越好。從圖5可以看出,本文方法能夠?qū)崿F(xiàn)比CDAN更小的A距離,這意味著本文方法能夠更好地對(duì)齊2個(gè)域。 Figure 5 A-distance to quantitative distribution discrepancy圖5 A-distance量化域間分布差異 本文提出了一種新的無(wú)監(jiān)督域適應(yīng)方法,采用改進(jìn)的加權(quán) MMD 方法提升本文方法的判別性。具體地說(shuō),該方法包括3個(gè)主要部分:樣本判別構(gòu)造模塊、加權(quán)的類(lèi)級(jí)別MMD模塊和偽標(biāo)簽分配模塊。其中,樣本判別構(gòu)造模塊用于構(gòu)造一個(gè)類(lèi)間判別性損失,以衡量不同類(lèi)別之間的差異;加權(quán)的類(lèi)級(jí)別MMD模塊用于對(duì)齊不同域之間的特征分布;偽標(biāo)簽分配模塊用于為每個(gè)樣本分配一個(gè)偽標(biāo)簽,以幫助更好地學(xué)習(xí)。與以往的度量學(xué)習(xí)[43]、解耦表示學(xué)習(xí)[44]和對(duì)抗域適應(yīng)方法訓(xùn)練困難、收斂緩慢相比,本文方法實(shí)現(xiàn)簡(jiǎn)單、收斂速度快且即插即用,在域適應(yīng)數(shù)據(jù)集上的綜合實(shí)驗(yàn)驗(yàn)證了該方法的有效性。在未來(lái)的工作中,計(jì)劃基于此方法構(gòu)建更有效的具有判別性的加權(quán)類(lèi)級(jí)別 MMD,并將本文方法擴(kuò)展到其他深度無(wú)監(jiān)督域適應(yīng)研究上,如跨域行人重識(shí)別,單目標(biāo)、多目標(biāo)跟蹤和視頻時(shí)刻檢索場(chǎng)景。3.5 本文模型網(wǎng)絡(luò)結(jié)構(gòu)
4 實(shí)驗(yàn)與結(jié)果分析
4.1 數(shù)據(jù)集與實(shí)驗(yàn)設(shè)置
4.2 與當(dāng)前先進(jìn)方法的對(duì)比分析
5 結(jié)束語(yǔ)