王賽男 鄭雄風(fēng)
1(江蘇聯(lián)合職業(yè)技術(shù)學(xué)院南京工程分院 江蘇 南京 211135) 2(南京郵電大學(xué)計(jì)算機(jī)學(xué)院 江蘇 南京 210023)
遷移學(xué)習(xí)同人類的學(xué)習(xí)思想一樣,利用以往學(xué)習(xí)過的相關(guān)經(jīng)驗(yàn),遷移到目標(biāo)領(lǐng)域或任務(wù)的學(xué)習(xí)當(dāng)中。遷移學(xué)習(xí)的主要學(xué)習(xí)形式是利用相關(guān)的源域知識(shí)輔助目標(biāo)域?qū)W習(xí),以解決目標(biāo)域數(shù)據(jù)或數(shù)據(jù)標(biāo)簽稀缺的問題。人類對(duì)于遷移學(xué)習(xí)的能力則是與生俱來的,一些成語如“舉一反三”“照貓畫虎”和“依葫蘆畫瓢”等也俱能反映出人類的遷移學(xué)習(xí)能力很強(qiáng)。但是,這種遷移能力往往體現(xiàn)在兩種相同的事物中,如學(xué)會(huì)自行車的騎行可以較好地幫助學(xué)習(xí)騎電動(dòng)自行車,自行車和電動(dòng)自行車在大體結(jié)構(gòu)上是相同的。學(xué)會(huì)象棋的人也能較為容易地學(xué)會(huì)國際象棋,因?yàn)閮煞N棋類有很多的共通知識(shí)。因此,遷移學(xué)習(xí)的主要方法就是尋找源領(lǐng)域和目標(biāo)領(lǐng)域中有相同或相近知識(shí)的部分,完成知識(shí)的遷移。
對(duì)于不同的遷移學(xué)習(xí)場景,有不同的遷移學(xué)習(xí)方法[1],大致可分為四種基于特征[2-4]的遷移學(xué)習(xí)、基于樣本[5-6]的遷移學(xué)習(xí)、基于參數(shù)[7-9]的遷移學(xué)習(xí)、基于關(guān)系[10-11]的遷移學(xué)習(xí)。Pan等[5]提出遷移成分分析方法(Transfer Component Analysis,TCA),利用MMD來計(jì)算源域和目標(biāo)域的邊緣分布差異,然后在再生核Hilbert空間中學(xué)習(xí)其潛在特征,在保持源域數(shù)據(jù)結(jié)構(gòu)的同時(shí),找出兩個(gè)域之間具有相同分布的潛在特征。最終利用其他傳統(tǒng)的機(jī)器學(xué)習(xí)方法訓(xùn)練目標(biāo)分類模型。
Pan等[5]提出了核均值匹配(Kernel Mean Matching,KMM)的方法,在再生核希爾伯特空間(Reproducing Kernel Hilbert Space,RKHS)中對(duì)源域和目標(biāo)域中的樣本的概率分布進(jìn)行估計(jì),通過對(duì)樣本進(jìn)行均值差異匹配,獲得源域樣本的權(quán)值,使得加權(quán)后源域樣本的概率分布與目標(biāo)域樣本盡可能接近。Yang等[7]提出一種自適應(yīng)支持向量機(jī)(Adaptive Support Vector Machine,A-SVM)方法用于目標(biāo)域分類器的訓(xùn)練,ASVM假設(shè)源域分類器和目標(biāo)域分類器之間存在一個(gè)偏差,隨后將這個(gè)偏差加入到源域分類器上,從而得到一個(gè)新的分類器,并應(yīng)用在目標(biāo)域的分類任務(wù)上。Mihalkova等[10]基于馬爾可夫邏輯網(wǎng)絡(luò)提出一種對(duì)相關(guān)聯(lián)知識(shí)的自主映射和修正遷移學(xué)習(xí)方法。
為了找到與目標(biāo)域相關(guān)的源域知識(shí),部分研究方法通過創(chuàng)建中間表示信息來拉近源域和目標(biāo)域的樣本分布,但這些表示信息不能完全地重構(gòu)出源數(shù)據(jù)和目標(biāo)數(shù)據(jù)的概率分布,此類方法常用于解決源域和目標(biāo)域之間分布差異較大的場景,如異構(gòu)遷移學(xué)習(xí),因此無法取得最佳分類性能?;跇颖具x擇或樣本加權(quán)的域適應(yīng)方法通過找到與目標(biāo)域數(shù)據(jù)最相關(guān)的源域樣本,使得改變后的源域樣本分布和目標(biāo)域樣本分布匹配。但是,這類方法不能解決以下場景:圖像特征本身可能已因域偏差而失真,并且某些圖像特征可能特定于某一個(gè)域,因此與另一域的分類無關(guān)。
針對(duì)上述問題,提出一種基于稀疏字典表示的無監(jiān)督學(xué)習(xí)框架。算法共分為兩個(gè)階段,第一階段通過字典學(xué)習(xí)分別對(duì)源域樣本和目標(biāo)域樣本進(jìn)行重構(gòu),在真實(shí)還原源域和目標(biāo)域樣本的同時(shí),約束源域和目標(biāo)域的樣本在稀疏表示空間上盡可能接近;第二階段通過對(duì)源域的樣本表示空間進(jìn)行學(xué)習(xí)得到分類器參數(shù),再對(duì)目標(biāo)域進(jìn)行分類。SRDA利用字典學(xué)習(xí)拉近了兩個(gè)域樣本的稀疏表示,使得源域和目標(biāo)域在稀疏表示空間可以共享同一個(gè)分類器,完成知識(shí)遷移。SRDA完全忽略目標(biāo)域的標(biāo)簽信息,因此也是一種無監(jiān)督的域適應(yīng)學(xué)習(xí)框架。
字典學(xué)習(xí)方法廣泛應(yīng)用于解決各種計(jì)算機(jī)視覺和圖像分析的問題,如圖像去噪、圖像分類和圖像恢復(fù)等。稀疏表示與字典學(xué)習(xí)通常是一個(gè)相互交替的過程,首先是為輸入的樣本找到一個(gè)合適的稀疏表示,然后再通過樣本的稀疏表示來優(yōu)化字典。字典學(xué)習(xí)旨在為輸入數(shù)據(jù)找到合適的字典,將其轉(zhuǎn)化為稀疏表達(dá)形式,從而可以挖掘數(shù)據(jù)的有用特征,在簡化學(xué)習(xí)任務(wù)的同時(shí),降低模型的復(fù)雜度。對(duì)于一個(gè)原始的訓(xùn)練樣本集合X={x1,x2,…,xm}∈Rd×m,其中:m代表樣本的數(shù)量;xi∈Rd代表第i個(gè)d維樣本。字典學(xué)習(xí)損失函數(shù)可概括為如下公式:
(1)
式中:D=(d1,d2,…,dk)是含有k個(gè)原子的字典矩陣;A是X的稀疏表示;第一項(xiàng)使得稀疏矩陣A能夠通過字典D更好地重構(gòu)樣本矩陣X;第二項(xiàng)則是讓稀疏矩陣A更好地保持稀疏性;λ表示正則參數(shù)。因此,通過對(duì)字典中的原子進(jìn)行簡單的線性組合來表示原先的樣本,可以使得重構(gòu)后的樣本的分類性能有效提升。
在機(jī)器學(xué)習(xí)中,對(duì)于通用的分類器參數(shù)W∈Rm×K,損失函數(shù)定義如下:
(2)
式中:m是類別數(shù)量;L是分類損失函數(shù),如平方損失或者鉸鏈損失等。
在學(xué)習(xí)分類器參數(shù)時(shí),如果將字典學(xué)習(xí)的過程和分類器的學(xué)習(xí)過程分開,那么學(xué)習(xí)得到的分類器的分類性能有可能達(dá)不到最好的效果,所以一部分研究專注于將字典與分類參數(shù)聯(lián)合在一起,在完成分類任務(wù)的同時(shí)對(duì)字典進(jìn)行優(yōu)化,其公式定義如下:
s.t.?i,‖xi‖0≤T
(3)
在實(shí)際實(shí)驗(yàn)中,這些方法往往要求學(xué)習(xí)一個(gè)相對(duì)較大的詞典才能實(shí)現(xiàn)良好的分類性能,但是這樣將會(huì)導(dǎo)致較高的計(jì)算成本。在某些只能使用基于多個(gè)成對(duì)的分類器或“一對(duì)一”分類器的分類架構(gòu)才能獲得良好分類結(jié)果的場景時(shí),這種問題帶來的影響會(huì)更加嚴(yán)重。
為了解決以上問題,Jiang等[12]提出一種基于標(biāo)簽一致性的K-SVD(Label Consistent K-SVD,LC-KSVD)算法,將字典學(xué)習(xí)方法用于圖像識(shí)別當(dāng)中,LC-KSVD認(rèn)為樣本的稀疏編碼也可以看作是一種可以分類的特征。損失函數(shù)如式(4)所示。
式中:字典D是在稀疏編碼階段隱式求解。同樣,可以通過梯度下降法對(duì)字典D求解。本文的實(shí)驗(yàn)表明,單獨(dú)使用字典和一個(gè)多分類分類器能有效提升樣本的分類性能。
首先,與其他無監(jiān)督域適應(yīng)算法不同,SRDA算法通過對(duì)源域樣本的特征進(jìn)行重構(gòu),然后學(xué)習(xí)在樣本重構(gòu)的稀疏表示空間上的分類參數(shù),在源域和目標(biāo)域的公共樣本重構(gòu)空間上對(duì)目標(biāo)域的分類。SRDA在源域和目標(biāo)域的重構(gòu)后的稀疏表示空間上添加約束,使得在源域樣本的稀疏表示空間上學(xué)習(xí)得到的分類器可以在目標(biāo)域樣本的稀疏表示空間上取得較好的性能。圖1給出了SRDA的模型框架。
圖1 基于稀疏字典表示的無監(jiān)督域適應(yīng)學(xué)習(xí)模型框架
SRDA算法與LC-KSVD算法一樣,都希望可以從源域樣本的稀疏表示空間中學(xué)習(xí)得到合適的分類器參數(shù),而LC-KSVD僅僅是基于一個(gè)監(jiān)督學(xué)習(xí)的字典學(xué)習(xí)方法,SRDA則將其擴(kuò)展到了無監(jiān)督域適應(yīng)學(xué)習(xí)中?;谠从驑颖镜膶W(xué)習(xí)框架可概括為如下公式:
(5)
式中:Xs={x1,x2,…,xns},表示源域的樣本空間;Vs是源域樣本的稀疏編碼。Ds={d1,d2,…,dk} 為從源域中學(xué)習(xí)到的字典;Ys=[y1,y2,…,yns]∈Rm×ns為源域樣本Xs對(duì)應(yīng)的類標(biāo)簽,yi=[0,…,1,…,0];W是從源域的稀疏表示空間中學(xué)習(xí)到的分類器參數(shù)。式(5)中:第一項(xiàng)為控制分類器模型復(fù)雜度,防止模型出現(xiàn)過擬合現(xiàn)象;第二項(xiàng)為源域樣本在稀疏空間中的分類損失;第三項(xiàng)為字典學(xué)習(xí)項(xiàng),學(xué)習(xí)源域樣本的字典與稀疏表示;第四項(xiàng)控制源域樣本在稀疏空間中盡可能稀疏。α、β和λs為正則化參數(shù)。
為了更好地利用源域的知識(shí),使得從源域中學(xué)習(xí)得到的分類器能夠適用于目標(biāo)域分類器,首先對(duì)于目標(biāo)域進(jìn)行字典學(xué)習(xí)和稀疏表示。
(6)
式中:Xt={x1,x2,…,xnt},表示目標(biāo)域樣本空間;Dt為從目標(biāo)域樣本的特征中學(xué)習(xí)到的字典;Vt是目標(biāo)域樣本的稀疏表示?;谀繕?biāo)域的字典學(xué)習(xí)同普通的字典學(xué)習(xí)一致,可通過交替優(yōu)化方法優(yōu)化字典項(xiàng)Dt和系數(shù)項(xiàng)Vt。
聯(lián)合式(5)和式(6),結(jié)合源域的字典學(xué)習(xí)與目標(biāo)域的字典學(xué)習(xí),有如下公式:
λs‖Vs‖2,1+λt‖Vt‖2,1
(7)
此外,在字典學(xué)習(xí)的框架內(nèi),希望可以通過一個(gè)約束項(xiàng)使源域和目標(biāo)域之間的分布差異減小,從而使得在源域中學(xué)習(xí)到的分類器參數(shù)可以應(yīng)用于目標(biāo)域分類任務(wù)。文獻(xiàn)[13]中提出,通過拉近稀疏表示空間Vs與Vt的距離,等同于在一個(gè)潛在的公共稀疏表示空間中,源域樣本和目標(biāo)域樣本的分布基本一致。盡管此時(shí)的源域和目標(biāo)域樣本分布相近,但是仍然存在少許差異。因此,在式(7)中加入一個(gè)源域與目標(biāo)域之間的約束項(xiàng),最終基于稀疏字典表示的無監(jiān)督域適應(yīng)學(xué)習(xí)算法可表示為:
(8)
與文獻(xiàn)[12]類似,通過最小化‖Vs-Vt‖F(xiàn)來刻畫源域樣本與目標(biāo)域樣本在公共稀疏表示空間的距離。α、β、γ、λs、λt為正則化參數(shù)。
式(8)的優(yōu)化是一個(gè)雙凸問題,根據(jù)文獻(xiàn)[14]中的理論,可以將其分解為兩個(gè)凸優(yōu)化問題,隨后通過交替迭代方法進(jìn)行求解。實(shí)驗(yàn)中,每個(gè)參數(shù)都進(jìn)行隨機(jī)初始化。接下來將展示每個(gè)參數(shù)的求解方法。
(1) 固定Vs,更新W。式(8)可簡化為:
(9)
式中:J表示式(8)。
令W偏導(dǎo)為0,可得:
(10)
(2) 固定Vs、Vt,更新Ds、Dt。式(8)可簡化為:
(11)
(12)
分別令Ds、Dt偏導(dǎo)為0,可得:
(13)
(14)
(3) 固定Ds、Dt,更新Vs、Vt。
分別令Vs、Vt偏導(dǎo)為0,可得:
2λ1MsVs+γ(Vs-Vt)=0
(17)
γ(Vs-Vt)=0
(18)
最終,算法中關(guān)于W、Ds、Dt、Vs、Vt的閉式解如下:
(19)
具體算法流程如算法1所示。
算法1SRDA算法
輸入:源域和目標(biāo)域數(shù)據(jù)集Xs、Xt,正則化參數(shù)α、β、γ、λ1、λ2,字典大小r迭代停止閾值ε。
輸出:源域和目標(biāo)域共享分類器參數(shù)W。
1. 初始化W,Ds,Dt,Vs,Vt;
2.初始化迭代次數(shù)k=1,目標(biāo)函數(shù)初始值為J0=INF;
3. Repeat:
4. 根據(jù)式(19)更新W;
5.根據(jù)式(19)更新Ds;
6.根據(jù)式(19)更新Dt;
7.更新Vs,Vt;
9. Repeat:
13. Until收斂:
14. 更新目標(biāo)函數(shù)Jk;
15. 若|Jk-Jk-1|<ε;
16. Break;
17. 結(jié)束,輸出W。
為了評(píng)估SRDA的性能,將SRDA與目前一些常見的經(jīng)典的分類方法進(jìn)行比較,其中包括SVM、GFK、TCA,以及一些其他新穎的算法,如ARTL。每個(gè)算法都在多個(gè)數(shù)據(jù)集上進(jìn)行了多次實(shí)驗(yàn)。
如圖2所示,在實(shí)驗(yàn)中,采用USPS、MNIST、MSRC、VOC2007、Office和Caltech256等數(shù)據(jù)集,這些數(shù)據(jù)集均是用于評(píng)估計(jì)算機(jī)視覺與模式識(shí)別等領(lǐng)域的算法的常用數(shù)據(jù)集。
(a) USPS(b) MNIST (c) MSRC(d) VOC2007
(1) USPS數(shù)據(jù)集中共有7 291幅訓(xùn)練樣本圖像和2 007幅測試樣本圖像,大小是16×16。
(2) MNIST數(shù)據(jù)集中共有60 000個(gè)訓(xùn)練樣本圖像和10 000個(gè)測試樣本圖像,大小都是28×28。
從圖2中可以看出,USPS和MNIST的數(shù)據(jù)分布是不一樣的,但是它們共享10個(gè)類別的數(shù)字圖像,因MNIST數(shù)據(jù)集圖片數(shù)量過大,所以每次實(shí)驗(yàn)都隨機(jī)抽取一些樣本,在USPS to MNIST實(shí)驗(yàn)中,從USPS數(shù)據(jù)集中隨機(jī)選取1 200個(gè)樣本作為源域數(shù)據(jù),從MNIST數(shù)據(jù)集中隨機(jī)選取1 500個(gè)樣本作為目標(biāo)域數(shù)據(jù),MNIS to SPS也做同樣操作。同時(shí)實(shí)驗(yàn)中將所有樣本圖像統(tǒng)一縮放為16×16大小,并通過對(duì)灰度像素值重新編碼得到表示每個(gè)圖像特征向量。如此,源數(shù)據(jù)和目標(biāo)數(shù)據(jù)就可以共享相同的特征空間。
(3) MSRC數(shù)據(jù)集由Microsoft Research Cambridge提供,其中包含18個(gè)類別共4 323幅標(biāo)記的圖像。
(4) VOC2007數(shù)據(jù)集共包含20個(gè)類別共5 011幅圖像。
圖2(c)和圖(d)的分布明顯不同,因?yàn)镸SRC都是基于評(píng)估而采集的標(biāo)準(zhǔn)數(shù)據(jù)圖像,而VOC2007的圖片采集較為隨意。MSRC與VOC2007共享6個(gè)類別:“飛機(jī)”“自行車”“鳥”“汽車”“?!焙汀把颉?。同樣,在MSRC to VOC2007的實(shí)驗(yàn)中,分別從MSRC中選取1 269幅圖像作為源域數(shù)據(jù)、VOC2007中選取1 530幅圖像作為目標(biāo)域數(shù)據(jù)構(gòu)成數(shù)據(jù)集,在VOC2007 to MSRC的實(shí)驗(yàn)中交換數(shù)據(jù)構(gòu)成數(shù)據(jù)集即可。為方便實(shí)驗(yàn)進(jìn)行,所有圖像均被縮放至256個(gè)像素,提取其128維的SIFT特征。
(5) Office數(shù)據(jù)集中共有4 652幅圖片數(shù)據(jù),包含了31個(gè)類別,也是計(jì)算機(jī)視覺領(lǐng)域較為流行的基準(zhǔn)評(píng)估數(shù)據(jù)集。
(6) Caltech-256一般用于目標(biāo)識(shí)別實(shí)驗(yàn),由30 607幅數(shù)據(jù)圖像和256個(gè)類別組成。
本文的實(shí)驗(yàn)采用一個(gè)較小的Office to Caltech數(shù)據(jù)集,該數(shù)據(jù)集共享10個(gè)類別,所有的圖片都進(jìn)行特征提取并量化為帶有碼本計(jì)算的800-bin直方圖。實(shí)驗(yàn)一共包含四個(gè)數(shù)據(jù)域:C(Caltech-256)、A(Amazon)、W(Webcam)和D(DSLR),每次實(shí)驗(yàn)隨機(jī)選擇兩個(gè)不同的域作為源域和目標(biāo)域,一共可以構(gòu)建出12個(gè)跨域?qū)ο笞R(shí)別數(shù)據(jù)集:C to W,C to A,C to D,…,D to W。
本實(shí)驗(yàn)為基于稀疏字典表示的無監(jiān)督域適應(yīng)學(xué)習(xí),即在源域中所有的數(shù)據(jù)都是有標(biāo)簽數(shù)據(jù),而目標(biāo)域所有數(shù)據(jù)都沒有標(biāo)簽。實(shí)驗(yàn)中共涉及到5個(gè)超參數(shù):α、β、γ、λs、λt,以及字典大小r。對(duì)于參數(shù)優(yōu)化,實(shí)驗(yàn)中采取網(wǎng)格搜索方式,具體如表1所示。
表1 各超參數(shù)搜索范圍表
本實(shí)驗(yàn)采用測試數(shù)據(jù)(目標(biāo)域無標(biāo)簽樣本)的分類準(zhǔn)確率作為算法評(píng)價(jià)指標(biāo),這種評(píng)價(jià)標(biāo)準(zhǔn)在很多算法中都有使用。
(20)
式中:yT(x)表示測試樣本(目標(biāo)域無標(biāo)簽樣本)x的真實(shí)標(biāo)簽;fT(x)是最終應(yīng)用在目標(biāo)域樣本x的預(yù)測函數(shù);fT(x)的值則是對(duì)樣本x預(yù)測標(biāo)簽;|x:x∈DTu∧fT(x)=yT(x)|表示預(yù)測正確的樣本數(shù)量;|x:x∈DTu|代表總的測試樣本數(shù)量。
為保證實(shí)驗(yàn)結(jié)果的穩(wěn)定性及有效性,對(duì)于本文算法以及其他對(duì)比實(shí)驗(yàn)方法,在實(shí)驗(yàn)中將每種組合的數(shù)據(jù)集實(shí)驗(yàn)運(yùn)行10次,取平均值作為最終的算法評(píng)價(jià)準(zhǔn)確率。
本文將所提出的SRDA方法與其他4種對(duì)比方法進(jìn)行比較,實(shí)驗(yàn)共在16組數(shù)據(jù)集上進(jìn)行,實(shí)驗(yàn)結(jié)果如表2所示?;趯?shí)驗(yàn)結(jié)果,可得出以下結(jié)論:
表2 真實(shí)數(shù)據(jù)集的性能比較
(1) 在所有數(shù)據(jù)子集組合的實(shí)驗(yàn)中,除了SVM算法,其他幾種算法均是基于遷移的分類學(xué)習(xí)方法,這表明了遷移學(xué)習(xí)對(duì)于目標(biāo)域數(shù)據(jù)分類是有幫助的,源域中的分類知識(shí)可以有效地遷移到目標(biāo)域,幫助目標(biāo)域?qū)崿F(xiàn)更好的分類結(jié)果。
(2) 在USPS to MNIST手寫體數(shù)據(jù)集和MSRC to VOC圖像數(shù)據(jù)集上,本文提出的SRDA明顯優(yōu)于其他無監(jiān)督域適應(yīng)方法,這表明字典學(xué)習(xí)可以真實(shí)地還原出源域和目標(biāo)與圖像,同時(shí)在樣本的稀疏表示空間拉近源域和目標(biāo)域樣本,達(dá)到減小域之間的分布差異的目的。
(3) 在Office to Caltech 圖像數(shù)據(jù)集中,本文提出的SRDA框架性能在大部分實(shí)驗(yàn)組合里表現(xiàn)也優(yōu)于其他算法,這表明相對(duì)于其他基于特征遷移的域適應(yīng)方法,SRDA可以有效地利用源域樣本的特征,減少負(fù)遷移的產(chǎn)生。
本文提出的SRDA是一個(gè)迭代算法,通過不斷迭代求解參數(shù)W、Ds,Dt、Vs、Vt,從圖3中可以看出,在A to W、MSRC to VOC、USPS to MINST實(shí)驗(yàn)數(shù)據(jù)組中,隨著迭代次數(shù)的增加,SRDA模型的目標(biāo)函數(shù)值快速地下降,在迭代4次之后目標(biāo)函數(shù)值收斂,得到局部最優(yōu)解。這表明運(yùn)行SRDA模型所耗時(shí)間很短,模型效率較高。
圖3 目標(biāo)函數(shù)值隨迭代次數(shù)的變化
實(shí)驗(yàn)采用了16組數(shù)據(jù)集組合和5種算法進(jìn)行對(duì)比,分類準(zhǔn)確率對(duì)比結(jié)果如表3所示,其中SRDA列準(zhǔn)確率下標(biāo)代表10次測試結(jié)果的標(biāo)準(zhǔn)差,用于表示結(jié)果誤差。本節(jié)針對(duì)USPS to MNIST數(shù)據(jù)集組合對(duì)SRDA算法中的各個(gè)參數(shù)進(jìn)行分析。首先是字典大小r,SRDA方法中目標(biāo)域的分類使用從源域的稀疏表示空間學(xué)習(xí)的分類器,因此源域字典與目標(biāo)域字典大小相同。參數(shù)r表示字典的詞匯量,從圖4中可知,詞匯量的大小與目標(biāo)域的分類精度密切相關(guān),對(duì)于參數(shù)r,其搜索范圍為[10,15,25,50,75,100],當(dāng)r=25時(shí),目標(biāo)域準(zhǔn)確率最高,當(dāng)r>25時(shí),分類精度有所下降并趨于穩(wěn)定,這表明了過完備的字典包含了更多的無用信息(即基于源域稀疏表示的字典特征空間存在特征冗余),這些特征也會(huì)影響目標(biāo)域的分類準(zhǔn)確率。
圖4 字典大小分析圖
在圖5中,分別從USPS to MNIST和MNIST to USPS兩個(gè)數(shù)據(jù)組合分析了源域與目標(biāo)域的稀疏參數(shù)λs、λt、正則化參數(shù)γ對(duì)目標(biāo)域分類性能的影響。圖5(a)和圖5(b)是固定正則化參數(shù),僅對(duì)λs和λt進(jìn)行分析,圖5(c)和圖5(d)是對(duì)λs和γ的分析,圖5(e)和圖5(f)是對(duì)λt和γ的分析。從中可以得到如下結(jié)論:
(a)
(1)λs=0.01、λt=0.01,目標(biāo)域可以取得最好的分類性能,此時(shí)從源域和目標(biāo)域?qū)W習(xí)到的樣本的稀疏表示均能較為完美地重構(gòu)原樣本。
(2)γ=1 000時(shí),目標(biāo)域分類性能達(dá)到最佳,這表明在SRDA算法中,對(duì)于源域和目標(biāo)域樣本的稀疏表示進(jìn)行約束,能夠有效拉近樣本之間的距離,減少源域和目標(biāo)域之間的差異,從而使得從源域稀疏表示空間學(xué)習(xí)得到的分類器可以應(yīng)用于目標(biāo)域稀疏表示空間的分類。
本文提出一種基于稀疏字典表示的無監(jiān)督域適應(yīng)學(xué)習(xí)算法SRDA,本文算法與其他基于特征的遷移學(xué)習(xí)算法不同,SRDA通過引入字典學(xué)習(xí)方法,通過相似性約束挖掘源域和目標(biāo)域樣本之間的內(nèi)在聯(lián)系,以此提升目標(biāo)域的分類性能。大多數(shù)特征遷移算法主要學(xué)習(xí)一種映射函數(shù),通過映射后的特征來最小化源域和目標(biāo)域的分布差異。在分類器的學(xué)習(xí)過程中,大部分域適應(yīng)研究都是針對(duì)源域樣本進(jìn)行學(xué)習(xí)得到分類器參數(shù),SRDA則借鑒稀疏表示學(xué)習(xí)中的一些技巧,即在樣本的稀疏表示空間學(xué)習(xí)分類器參數(shù),而在樣本的稀疏表示空間學(xué)習(xí)到的分類器參數(shù)也能有效地完成源域和目標(biāo)域的分類任務(wù),相比在樣本空間上進(jìn)行分類,其性能會(huì)有很大的提升。