但雨芳,陶劍文,趙 悅,潘 婕,趙寶奇
1.寧波職業(yè)技術(shù)學(xué)院 電子信息工程學(xué)院,浙江 寧波315800
2.哈爾濱工業(yè)大學(xué) 航天學(xué)院,哈爾濱150001
在統(tǒng)計(jì)學(xué)中,評估一個(gè)參數(shù)模型需要大量的訓(xùn)練樣本。在現(xiàn)實(shí)的某些視覺應(yīng)用中,可以輕松、廉價(jià)地收集未標(biāo)記數(shù)據(jù),獲取大量已標(biāo)記數(shù)據(jù)則需耗費(fèi)大量的人力和物力[1]。為此,一種常見的策略是將有限標(biāo)記數(shù)據(jù)和大量未標(biāo)記數(shù)據(jù)都利用起來,以學(xué)習(xí)更有效的學(xué)習(xí)模型,稱為半監(jiān)督學(xué)習(xí)(semi-supervised learning,SSL)[2]?;趫D的SSL(graph SSL,GSSL)[3]具有優(yōu)雅的數(shù)學(xué)表示和出色性能,已發(fā)展成為SSL領(lǐng)域最熱門的研究主題之一。調(diào)和函數(shù)方法[2]和局部與全局一致性方法[4]是兩種代表性的GSSL 方法,這些方法屬于GSSL轉(zhuǎn)導(dǎo)式推理;而流形正則化[5-7]是一種有效的GSSL歸納式推理,通過添加基于幾何的正則化項(xiàng),實(shí)現(xiàn)將支持向量機(jī)(support vector machine,SVM)的回歸和分類都擴(kuò)展到半監(jiān)督形式。通常情況下,采用GSSL 推理方式都需要采用某種假設(shè),比較常見的聚類假設(shè)為:“類似的實(shí)例應(yīng)具有相同的類別”[8-9]。該假設(shè)還具有一個(gè)隱含條件就是每個(gè)實(shí)例都只屬于一個(gè)類別,即,硬分類。然而,在實(shí)際視覺應(yīng)用中無法滿足該條件。為了解決該類聚類假設(shè)的硬分類問題,Wang等人[10]提出了一種新的基于聚類假設(shè)半監(jiān)督分類方法(semi-supervised classification based on class membership,SSCCM),是聚類假設(shè)的一種軟分類方法,其旨在“類似實(shí)例應(yīng)共享相同的標(biāo)簽隸屬度”,每個(gè)實(shí)例可以隸屬于多個(gè)類別和相應(yīng)的隸屬度值,很好地利用了模糊性聚類假設(shè)[11],其約束條件是每個(gè)實(shí)例對于不同標(biāo)簽的隸屬度值之和總為1,可能會(huì)導(dǎo)致屬于某個(gè)類別的某些噪聲數(shù)據(jù)標(biāo)簽隸屬度值與正常數(shù)據(jù)的標(biāo)簽隸屬度值相近,甚至某些噪聲數(shù)據(jù)標(biāo)簽隸屬度值會(huì)更大,最后導(dǎo)致錯(cuò)誤分類。
針對SSCCM 方法存在的問題,但雨芳等人[12]提出基于可能性聚類假設(shè)的半監(jiān)督分類方法(semisupervised classification method of possibilistic clustering assumption,SSPCA),方法放寬了SSCCM 中隸屬度和為1的約束條件,并通過模糊熵正則化項(xiàng)來增加樣本判別信息量,使得隸屬度函數(shù)具有更好的泛化性,從而克服噪聲、異常數(shù)據(jù)對分類方法的干擾,更進(jìn)一步提高魯棒有效性。Wang等人[13]提出具有安全意識的半監(jiān)督分類(safety-aware semi-supervised classification,SA-SSCCM)方法,通過對未標(biāo)記數(shù)據(jù)是否有利于模型訓(xùn)練分別指定了SSCCM 方法為上界和最小二乘SVM(least-square support vector machine,LSSVM)方法為下界,即,如果未標(biāo)記數(shù)據(jù)有利于模型訓(xùn)練,那么SA-SSCCM 的性能與SSCCM 接近;如果未標(biāo)記數(shù)據(jù)對模型訓(xùn)練起到反作用,那么,SASSCCM 的性能就接近LS-SVM 方法,也避免了噪聲數(shù)據(jù)干擾SA-SSCCM 模型的訓(xùn)練。SSPCA 方法和SA-SSCCM方法均要求訓(xùn)練數(shù)據(jù)和測試數(shù)據(jù)為獨(dú)立同分布,而在現(xiàn)實(shí)應(yīng)用中,較難保證二者數(shù)據(jù)獨(dú)立同分布,導(dǎo)致識別準(zhǔn)確率也會(huì)有一定的影響;比如,車牌識別中,訓(xùn)練圖像數(shù)據(jù)都是晴天拍攝的,卻在雨天識別車牌;人臉識別,訓(xùn)練圖像數(shù)據(jù)都是正臉采集的,由于人臉識別器的攝像頭與需識別的人高度不一致,采集到的人臉圖片有可能不是正臉等,都可能導(dǎo)致數(shù)據(jù)分布不同。
為了解決訓(xùn)練數(shù)據(jù)和測試數(shù)據(jù)分布不同導(dǎo)致識別準(zhǔn)確率降低問題,本文借鑒了有關(guān)計(jì)算機(jī)視覺和機(jī)器學(xué)習(xí)[14-15]的領(lǐng)域適應(yīng)學(xué)習(xí)方法(domain adaptation learning,DAL)[16-18],DAL 的常見劃分有基于實(shí)例的DAL、基于特征的DAL 和基于模型的DAL[1]?;趯?shí)例的DAL 和基于特征的DAL 均需在訓(xùn)練階段訪問源數(shù)據(jù)集,當(dāng)源數(shù)據(jù)集相對較大時(shí),訓(xùn)練效率會(huì)降低;基于模型的DAL 是利用基于某些源數(shù)據(jù)集上預(yù)訓(xùn)練好的源分類器模型來學(xué)習(xí)有效的目標(biāo)分類器模型,其具有較好的分類有效性和高效率。有興趣了解有關(guān)DAL類別的更多詳細(xì)信息的讀者可以參考文獻(xiàn)[1]。故本文提出一種基于可能性聚類的多模型適應(yīng)學(xué)習(xí)方法(multi-model adaptation method of possibilistic clustering assumption,MA-PCA)。該方法的主要思路是:首先,根據(jù)流形學(xué)習(xí)假設(shè)[5-7],局部結(jié)構(gòu)內(nèi)樣本之間具有判別相似性,根據(jù)文獻(xiàn)[12]中的式(1),局部加權(quán)均值點(diǎn)由k-近鄰樣本集凸包組合而成,其代表了局部結(jié)構(gòu)均值,因此,該局部結(jié)構(gòu)內(nèi)的樣本應(yīng)與該均值具有判別一致性,即局部結(jié)構(gòu)內(nèi)各樣本與其對應(yīng)局部均值點(diǎn)的標(biāo)簽理應(yīng)是相似(或一致)的。故此,假設(shè)每個(gè)樣本點(diǎn)與其對應(yīng)的局部加權(quán)均值點(diǎn)(local weighted mean,LWM)[19-21]的標(biāo)簽隸屬度相似,然后,通過決策函數(shù)和隸屬度函數(shù)將各自得到的分類預(yù)測結(jié)果進(jìn)行相互驗(yàn)證來提高分類可靠性,再通過模糊熵正則項(xiàng)來增大樣本判別信息量,得到一個(gè)泛化能力更強(qiáng)的隸屬度函數(shù),從而克服噪聲和異常數(shù)據(jù)對分類結(jié)果的干擾,提高該分類方法的魯棒性。最后,通過加入多模型適應(yīng)正則項(xiàng),針對訓(xùn)練數(shù)據(jù)與測試數(shù)據(jù)分布相同與不同來獲得泛化性能更好的分類模型。本文的主要貢獻(xiàn)在于:(1)提出了一種基于可能性聚類的多模型適應(yīng)學(xué)習(xí)方法;(2)在多個(gè)輔助判別模型可以幫助少量標(biāo)簽樣本進(jìn)行半監(jiān)督學(xué)習(xí)的假設(shè)下,引入了局部一致性拉普拉斯正則項(xiàng)和多模型適應(yīng)的貢獻(xiàn)度約束正則項(xiàng),其目的是擴(kuò)大目標(biāo)域的判別空間和保證源域與目標(biāo)域內(nèi)部數(shù)據(jù)間的幾何結(jié)構(gòu)一致性,并解決了訓(xùn)練數(shù)據(jù)與測試數(shù)據(jù)分布不一致問題;(3)最后在實(shí)際數(shù)據(jù)集上做了大量的實(shí)驗(yàn),證明了該方法具有更好的魯棒有效性和泛化性。
本章將詳細(xì)介紹MA-PCA 的構(gòu)思,其主要是利用從現(xiàn)有相關(guān)源數(shù)據(jù)集中獲得多個(gè)源模型(利用從某些不同源域的不同分布中訓(xùn)練得到的模型)來學(xué)習(xí)具有魯棒半監(jiān)督分類模型。為此,將兩個(gè)核心組件有機(jī)地統(tǒng)一到MA-PCA中:(1)任意一個(gè)實(shí)例應(yīng)與其對應(yīng)的局部加權(quán)均值點(diǎn)具有相似的標(biāo)簽隸屬度;且通過模糊熵[22]正則項(xiàng)的加入來增大數(shù)據(jù)的判別信息量,提高模型的分類準(zhǔn)確率和對噪聲數(shù)據(jù)的魯棒性。(2)假設(shè)多個(gè)源模型可以幫助從少量標(biāo)記樣本進(jìn)行半監(jiān)督學(xué)習(xí),則利用現(xiàn)有多源模型進(jìn)行多源領(lǐng)域適應(yīng)學(xué)習(xí)建立魯棒目標(biāo)域分類模型,并同時(shí)考慮相同與不同分布的數(shù)據(jù),通過約束多源模型的貢獻(xiàn)度參數(shù)來尋找最佳源模型,對目標(biāo)域進(jìn)行模型訓(xùn)練。
其中,Ne(xi)定義為xi的k個(gè)最近鄰實(shí)例的集合,xj∈Ne(xi)。G=(X,D)定義為無向權(quán)值圖,其中,D∈Rn×n為權(quán)重,Dji=Dij≥0。其中元素值的計(jì)算方法為:
由于SSPCA 方法與SA-SSCCM 方法均需要訓(xùn)練數(shù)據(jù)與測試數(shù)據(jù)屬于同分布,那么,本文將SSPCA方法與多模型適應(yīng)學(xué)習(xí)方法合理結(jié)合,即為具有更好泛化性的魯棒多模型適應(yīng)學(xué)習(xí)的SSPCA 方法(MA-PCA),既提高了對噪聲的魯棒性,又解決了由標(biāo)簽數(shù)據(jù)不足且有帶噪聲數(shù)據(jù)影響模型性能的問題以及訓(xùn)練數(shù)據(jù)與測試數(shù)據(jù)分布不同的問題。因此,MA-PCA的基礎(chǔ)公式可為:
其中,ΩB(W,vm(xj)) 是SSPCA 方法中的目標(biāo)函數(shù),ΩM(W,γ)是多模型適應(yīng)正則化函數(shù),ΩB(W,vm(xj))公式描述為:
其中,λs、λ、C均為平衡參數(shù),可以通過調(diào)節(jié)平衡參數(shù)來避免模型過擬合訓(xùn)練,公式中其余參數(shù)請查看文獻(xiàn)[15]。
散度矩陣在將源分類器橋接到目標(biāo)分類器中起重要作用,其將推動(dòng)目標(biāo)分類模型的學(xué)習(xí)導(dǎo)向目標(biāo)數(shù)據(jù)的真實(shí)分布方向,進(jìn)而提升適應(yīng)學(xué)習(xí)的泛化性能,這與其他基于DAL 模型的領(lǐng)域適應(yīng)正則項(xiàng)[20]具有本質(zhì)上不同。為了更貼合模型思想,本文將式(4)稱為散度約束多模型適應(yīng)正則化項(xiàng)的構(gòu)建。
通過將SSPCA方法和多源分類器模型進(jìn)行結(jié)合來獲得更好的模型分類結(jié)果,故將式(3)和式(4)結(jié)合起來得到一個(gè)統(tǒng)一框架MA-PCA,聯(lián)合學(xué)習(xí)W、vm(xj)、γ,MA-PCA的優(yōu)化問題可描述為:
其中,γ=[γ1,γ2,…,γq]T,γ∈Rq×1,γT1q=1,q為源域模型的個(gè)數(shù);當(dāng)β=0 時(shí),MA-PCA就退化到SSPCA;當(dāng)β>0 時(shí),β作為一個(gè)平衡參數(shù);當(dāng)γi為常量1時(shí),表明只有單一源域,且與目標(biāo)域分布相同,此時(shí)的MA-PCA近似SA-SSCCM方法;當(dāng)0 ≤γi<1,則MAPCA 是基于可能性聚類假設(shè)的多模型適應(yīng)學(xué)習(xí)方法,其源域與目標(biāo)域分布可以相同,也可以不同。
MA-PCA 的優(yōu)化問題是一個(gè)關(guān)于(W,vm(xj),γ)非凸問題,本文是采取交替迭代優(yōu)化的策略來分別實(shí)現(xiàn)決策模型W、標(biāo)簽隸屬度模型vm(xj)和源域模型的貢獻(xiàn)度系數(shù)γ的優(yōu)化求解,且每一步迭代均有一個(gè)閉環(huán)解。
然后,固定W和γ求解vm(xj),目標(biāo)函數(shù)(即式(5))的原始優(yōu)化問題可描述為:
定理1[24]式(11)的優(yōu)化解可由如下公式得出:
定理1 表明,最優(yōu)γ只有ζ個(gè)非零項(xiàng),那么該優(yōu)化方法可依據(jù)γ自動(dòng)選擇相對重要的源域,忽略不相關(guān)源域或噪聲源來進(jìn)行判別區(qū)分。由于可以通過給定最優(yōu)ζ來計(jì)算最優(yōu)γ,Masayuki等人[24]進(jìn)一步提出了一種尋找最優(yōu)ζ的算法,如果給定源域數(shù)量保持在中等大小,則可以證明該算法足夠有效。
本文采用基于坐標(biāo)下降的算法來求解式(11),類似于文獻(xiàn)[25]中的方法。每次迭代循環(huán)中,在其他項(xiàng)都固定的情況下選擇兩項(xiàng)進(jìn)行更新,且每次迭代結(jié)束均需滿足約束條件γT1q=1。例如,在某次迭代循環(huán)中,對第i和第j項(xiàng)進(jìn)行更新,可得出如下迭代公式:
迭代遍歷γ中的所有配對項(xiàng),并使用式(12)優(yōu)化γ中的任何兩個(gè)項(xiàng),直到優(yōu)化函數(shù)(5)收斂為止。直觀來看,式(12)中的更新標(biāo)準(zhǔn)傾向于分配給γi的值越大,Ai就越小。由于Ai衡量第i個(gè)源模型對目標(biāo)域的分布距離,Ai越小,第i個(gè)源域模型與目標(biāo)域的相關(guān)性越高。
在求得最優(yōu)解W和vm(xj)后,目標(biāo)域樣本的標(biāo)簽矩陣亦可得出,噪聲影響可以得到有效抑制。而對于新樣本的標(biāo)簽和隸屬度可通過W和vm(xj)推算出來。最后,W分類的性能依賴于所習(xí)得圖G=(X,D)的質(zhì)量以及多源域模型的域適應(yīng)。
由于目標(biāo)函數(shù)式(5)是多目標(biāo)優(yōu)化函數(shù),難以保證整體最優(yōu)解,本文算法實(shí)現(xiàn)采取交替迭代優(yōu)化策略,其針對單個(gè)優(yōu)化變量的目標(biāo)函數(shù)(即,式(6)、式(8)和式(11))是凸函數(shù),其迭代解析式為合式(closed form),因而能獲得迭代最優(yōu)解。在此,本文僅依據(jù)目標(biāo)函數(shù)的迭代目標(biāo)值進(jìn)行算法的漸進(jìn)收斂性推導(dǎo),推導(dǎo)過程見式(13):
其中,Witr、vitr、γitr分別為第itr輪迭代的參數(shù)最優(yōu)值,ε是一個(gè)非常小的常量,因此,目標(biāo)函數(shù)將收斂于一個(gè)局部最優(yōu)。推導(dǎo)的過程證明了算法迭代目標(biāo)值呈下降趨勢,當(dāng)?shù)繕?biāo)值下降到一定閾值(至少大于常數(shù)ε>0)時(shí)停止算法迭代過程,目標(biāo)函數(shù)將收斂于各單個(gè)優(yōu)化變量的局部目標(biāo)值最優(yōu)。
MA-PCA 是采用交替迭代的優(yōu)化策略,大多數(shù)半監(jiān)督學(xué)習(xí)方法常用迭代式學(xué)習(xí)進(jìn)行優(yōu)化。另外,初始化未帶標(biāo)簽的實(shí)例隸屬度值能通過以下任一種方法獲得:某種模糊聚類方法(如FCM(fuzzy C-means)等)、隨機(jī)化策略或全部初始化為0。因此,MA-PCA方法的學(xué)習(xí)一開始就是帶標(biāo)簽學(xué)習(xí)來初始化決策模型W,當(dāng)目標(biāo)函數(shù)收斂時(shí),迭代終止。具體來說,本文算法采用了基于窗口的停止準(zhǔn)則來更好地控制算法收斂:給定一個(gè)窗口大小?,在第itr次迭代中計(jì)算?=|maxΘitr-minΘitr|/maxΘitr,其 中Θitr={Objitr-?+1,Objitr-?+2,…,Objitr}表示由該窗口中的歷史目標(biāo)值組成的集合,當(dāng)?小于某個(gè)閾值ε時(shí),即?<ε,算法將停止迭代。該算法描述如算法1所示。
算法1MA-PCA算法
本章將通過實(shí)驗(yàn)證明所提MA-PCA方法在目標(biāo)識別、Web圖像標(biāo)注和視頻概念識別三種多源域適應(yīng)學(xué)習(xí)任務(wù)上的魯棒性和泛化性。為了評估MA-PCA方法的多源域適應(yīng)學(xué)習(xí)性能,利用多個(gè)真實(shí)圖像數(shù)據(jù)集,例如通用目標(biāo)集(Caltech-256[26]和Office[27])、圖像集(NUS-WIDE[28])和視頻語料庫(TRECVID 2005)[29],本章將總結(jié)分析在交叉域的視覺識別任務(wù)上關(guān)于域自適應(yīng)學(xué)習(xí)的結(jié)果。
Caltech-256 數(shù)據(jù)集:該數(shù)據(jù)集最初是為了評估視覺域自適應(yīng)學(xué)習(xí)方法而被廣泛應(yīng)用,包含256個(gè)目標(biāo)類別,其中一個(gè)類別在目標(biāo)識別任務(wù)中為負(fù)類,該數(shù)據(jù)集中所有目標(biāo)以層級形式進(jìn)行管理,從而可輕松識別相關(guān)和不相關(guān)類別。本文下載了預(yù)計(jì)算的特征(http://files.is.tue.mpg.de/pgehler/projects/iccv09/)[30],并為圖像特征選擇了尺度不變特征變換(scale invariant feature transform,SIFT)描述語[31],其均在空間金字塔中進(jìn)行計(jì)算,本實(shí)驗(yàn)只考慮第一層(即從整個(gè)圖像中提取的信息),且對該數(shù)據(jù)集采用留一交叉驗(yàn)證策略(即輪流將一個(gè)類別作為目標(biāo)域,其余類作為源域)進(jìn)行實(shí)驗(yàn)。
擴(kuò)展Office 數(shù)據(jù)集:該數(shù)據(jù)集包含4 個(gè)視覺源Amazon(A)、DSLR(D)、Webcam(W)和Caltech-256(C)。每兩個(gè)視覺源之間有10個(gè)共同類別,總共包含2 533個(gè)圖像。根據(jù)實(shí)驗(yàn)設(shè)置[32],通過多源域適應(yīng)學(xué)習(xí)來評估本文MA-PCA方法,將設(shè)定一個(gè)視覺源為目標(biāo)域,且其他都為源域,在目標(biāo)域的31個(gè)類別上進(jìn)行測試。在本實(shí)驗(yàn)中,所有圖像尺寸按照比例縮放為150×150以內(nèi)大小并轉(zhuǎn)換為灰度圖。在源域中,Amazon和Caltech中每個(gè)類別分別選擇20個(gè)訓(xùn)練樣本,DSLR和Webcam中每個(gè)類別分別選擇10個(gè)訓(xùn)練樣本。
NUS-WIDE 數(shù)據(jù)集:本文在該數(shù)據(jù)集上為交叉域圖像標(biāo)注任務(wù)做了一系列實(shí)驗(yàn),此數(shù)據(jù)集包含81個(gè)概念的269 648個(gè)帶標(biāo)簽的Web圖像,本實(shí)驗(yàn)使用的特征是500 維視覺詞袋。為了模擬有意義的自適應(yīng)環(huán)境,本文實(shí)驗(yàn)從數(shù)據(jù)庫中選擇了12種動(dòng)物概念,包括熊貓、猴子、貓、斑馬、老虎、鳥、狗、青蛙、馬、蝴蝶、蛇和長頸鹿。這些動(dòng)物被認(rèn)為具有一些共同特征,可以利用這些特征來進(jìn)行領(lǐng)域自適應(yīng)學(xué)習(xí)。在實(shí)驗(yàn)中通過7 種劃分方式分別隨機(jī)抽取多個(gè)概念作為源域,剩余定義都作為目標(biāo)域。詳細(xì)劃分信息在表1中顯示。
表1 NUS-WIDE數(shù)據(jù)集的域設(shè)置Table 1 Domain setting of NUS-WIDE dataset
TRECVID 2005 視頻語料庫(http://www-nlpir.nist.gov/projects/trecvid):該數(shù)據(jù)集是以研究為目的的最大帶標(biāo)簽視頻數(shù)據(jù)集之一,包含從6個(gè)不同廣播頻道(包括3 個(gè)英語頻道CNN、MSNBC、NBC,兩個(gè)中文頻道CCTV、NTDTV 和一個(gè)阿拉伯語頻道LBC)共108 h視頻節(jié)目中提取的61 901個(gè)關(guān)鍵幀。每個(gè)頻道關(guān)鍵幀總數(shù)量列在表2中。從LSCOM精簡詞典中選擇了36 個(gè)語義概念[33],其涵蓋了廣播新聞視頻中出現(xiàn)的36個(gè)主流視覺概念,包括目標(biāo)、位置、人物、事件和節(jié)目,且這36 個(gè)概念已經(jīng)手動(dòng)標(biāo)注來描述TRECVID 2005 數(shù)據(jù)集中關(guān)鍵幀的視覺內(nèi)容。從中可知,這6 個(gè)頻道的數(shù)據(jù)分布完全不同,其更適于評估域自適應(yīng)學(xué)習(xí)方法。本文在測試數(shù)據(jù)上使用分類文獻(xiàn)[33]精度作為評估指標(biāo)[34],如下所示:
表2 TRECVID 2005數(shù)據(jù)集的描述Table 2 Description of TRECVID 2005 dataset
其中,f(x)為分類算法的預(yù)測標(biāo)簽,yx為x的真標(biāo)簽,整體精度Acc為分類度量的參照。具體而言,在視頻概念檢測問題中,為了進(jìn)行性能評估,本文使用非插值平均精度(average precision,AP)[33],該精度自2001 年以來一直作為TRECVID 的官方性能指標(biāo)。AP與召回率曲線的多點(diǎn)平均精度值相關(guān),在計(jì)算AP時(shí)包含召回對整個(gè)分類結(jié)果的影響。
該實(shí)驗(yàn)將以多源視覺識別任務(wù)比較本文所提MA-PCA方法與以下最新相關(guān)基準(zhǔn)方法:
(1)沒有領(lǐng)域適應(yīng)的方法:SSPCA[15]。
(2)多核適應(yīng)方法:FastDAM[35]。該代碼可以在線獲 取(http://vc.sce.ntu.edu.sg/transfer_learning_domain_adaptation_data/DAM-TNNLS2012.html)。
(3)多模型知識遷移:Multi-KT[32]。該代碼可以在線獲?。╤ttp://homes.esat.kuleuven.be/~ttommasi/source_code_CVPR10.html)。
(4)自適應(yīng)SVM:A-SVM[29]。MATLAB代碼可以在線獲?。╤ttp://www.robots.ox.ac.uk/~vgg/software/tabularasa/)。
(5)域選擇機(jī)制:DSM[36]。
由于帶標(biāo)簽和無標(biāo)簽數(shù)據(jù)是從不同分布中抽樣得到的,對于使用交叉驗(yàn)證的源分類器不可能進(jìn)行參數(shù)自動(dòng)調(diào)優(yōu),本文在數(shù)據(jù)集上評估所有方法都是通過經(jīng)驗(yàn)搜索參數(shù)空間來進(jìn)行優(yōu)化參數(shù)設(shè)置,以此獲得每個(gè)方法最好的結(jié)果。所有方法的參數(shù)調(diào)整都是為了得到最好結(jié)果,特殊指定的參數(shù)除外。
對于沒有領(lǐng)域適應(yīng)的方法SSPCA 而言,本實(shí)驗(yàn)將融合從每個(gè)源域與目標(biāo)域中帶標(biāo)簽樣本獨(dú)立訓(xùn)練得到所有分類器的決策值,DSM、Multi-KT、A-SVM和FastDAM 能處理來自多源域的訓(xùn)練樣本,對于ASVM,本實(shí)驗(yàn)也將對所有基本分類器的決策值進(jìn)行融合,且每個(gè)分類器都是由一個(gè)源域中帶標(biāo)簽樣本而習(xí)得,對于每個(gè)源域,均通過帶標(biāo)簽樣本進(jìn)行訓(xùn)練SVM 的,對于每個(gè)測試樣例x,通過采用sigmoid 函數(shù)(即g(t)=1/(1+exp(-t)))。將p個(gè)SVM 分類器獲得的決策值轉(zhuǎn)換成概率值,最后,將p個(gè)概率值的平均值作為測試樣例x的最終預(yù)測值。
在式(5)中有一些超參數(shù)需要提前設(shè)置,首先,該實(shí)驗(yàn)在迭代優(yōu)化過程中確定了最重要的參數(shù)(例如γi)當(dāng)作優(yōu)化變量,僅有幾個(gè)至關(guān)重要的參數(shù)在本文所提模型中需要預(yù)定義(例如λ、λs、C、η、β),考慮到在機(jī)器學(xué)習(xí)領(lǐng)域中參數(shù)確定是一個(gè)還未得到解決的開放問題,在過去的工作中均根據(jù)經(jīng)驗(yàn)確定參數(shù)。由于γi的指數(shù)在優(yōu)化的γi過程中都是扮演著避免平凡解的角色,根據(jù)文獻(xiàn)[37]中所證明的,γi的指數(shù)越大,所有權(quán)重值就更接近一致。為了體現(xiàn)出不同源域間的差異性,根據(jù)經(jīng)驗(yàn),本實(shí)驗(yàn)將設(shè)置γi的指數(shù)為2。下一節(jié)實(shí)驗(yàn)結(jié)果中會(huì)驗(yàn)證該選擇的有效性。超參數(shù)λ、λs、C、η、β是在{10-4,10-3,…,103,104}范圍內(nèi)進(jìn)行調(diào)整。此外,為了在MA-PCA(同樣也在SSPCA)中構(gòu)建最近鄰圖,本實(shí)驗(yàn)在網(wǎng)格{3,5,10,15,17}范圍內(nèi)搜索最優(yōu)最近鄰數(shù)量并從最優(yōu)參數(shù)配置中獲取排名第一的識別準(zhǔn)確率。
對于非線性學(xué)習(xí)方法MA-PCA、FastDAM 和Multi-KT,高斯核Ki,j=exp(-σ||xi-xj||2)作為默認(rèn)的核函數(shù),其中σ=1/d(d為特征維數(shù))。在FastDAM中,設(shè)置了每個(gè)源的權(quán)重γi=2,…,S),其中δ=100。對于基準(zhǔn)方法SSPCA,在沒有任何域適應(yīng)的情況下直接將目標(biāo)域樣本映射到源域,均等地融合從每個(gè)源域與目標(biāo)域中帶標(biāo)簽樣本獨(dú)立訓(xùn)練得到所有分類器的決策值。
4.3.1 在Caltech-256數(shù)據(jù)集上的結(jié)果
首先考慮從Caltech-256中隨機(jī)抽取分別有10類別和有20類別的兩個(gè)數(shù)據(jù)集,每類由80個(gè)目標(biāo)和80個(gè)背景的圖像組合而成,其中,第二個(gè)數(shù)據(jù)集是在第一個(gè)數(shù)據(jù)集中隨機(jī)添加10 個(gè)類別所組成。圖1 為MA-PCA 方法和所有基準(zhǔn)方法在兩個(gè)具有不同類別數(shù)量的數(shù)據(jù)集上的實(shí)驗(yàn)結(jié)果,主要是針對具有代表性的6個(gè)目標(biāo)類別進(jìn)行識別性能比較。從該圖中可獲得3 個(gè)有價(jià)值的信息:(1)沒有領(lǐng)域適應(yīng)的SSPCA 方法僅通過源域的標(biāo)簽數(shù)據(jù)進(jìn)行訓(xùn)練,在目標(biāo)任務(wù)上執(zhí)行效果差,且其在所有情形下與其余方法相比性能最差,證明了在不同類別間存在分布差異;(2)在大部分情況下,MA-PCA的性能都比其他方法更好,歸因于在多源域適應(yīng)中,MA-PCA 方法能挖掘出更多相關(guān)知識以及判別信息;(3)對于領(lǐng)域適應(yīng)而言,對于目標(biāo)域更有用的先驗(yàn)知識的概率會(huì)隨著先驗(yàn)源域有用信息的增加而增大,因此,在同等情況下,20 個(gè)類別的識別精度肯定要高于10個(gè)類別的識別精度。
圖1 6個(gè)具有代表性目標(biāo)類別的識別率Fig. 1 Recognition rate on 6 representative target classes
尤其在DA應(yīng)用領(lǐng)域,人們期望先驗(yàn)源域的有效數(shù)據(jù)量能及時(shí)增長。針對該問題,對于具體任務(wù)有必要探討每個(gè)先驗(yàn)源域的可靠性[38]。因此,在Caltech-256 數(shù)據(jù)集中通過分別連續(xù)改變目標(biāo)域帶標(biāo)簽樣本數(shù)為150 和256 個(gè)對象類別來進(jìn)行幾個(gè)實(shí)驗(yàn)。在該情況下,實(shí)際執(zhí)行的MA-PCA具有半監(jiān)督學(xué)習(xí)特點(diǎn),MA-PCA、DSM、Multi-KT、FastDAM和具有平均先驗(yàn)?zāi)P偷腁-SVM的識別精確度如圖2所示。
圖2 對于不同源域數(shù)據(jù)量的識別性能Fig. 2 Recognition performance for different number of source sets
此外,從圖2 可以得出,除了DSM 方法,其余方法對于帶標(biāo)簽數(shù)據(jù)是敏感的,并顯示一致上升趨勢,表明了使用有限帶標(biāo)簽的目標(biāo)域數(shù)據(jù)有利于學(xué)習(xí)性能的改善;值得注意的是,隨著目標(biāo)域帶標(biāo)簽樣本的增加,MA-PCA的性能平滑穩(wěn)定提升,而FastDAM和Multi-KT只有在目標(biāo)域帶標(biāo)簽樣本相對較大時(shí),其性能才令人滿意。另外,在目標(biāo)域訓(xùn)練樣本相對大時(shí),F(xiàn)astDAM優(yōu)于Multi-KT和A-SVM,而MA-PCA卻比FastDAM 具有更好的效果;在目標(biāo)域帶標(biāo)簽樣本相對少的情況下,F(xiàn)astDAM 的性能最差,導(dǎo)致該情形的原因可能是除了使用源間的相關(guān)信息外,MA-PCA還能通過多源適應(yīng)正則化選擇最相關(guān)源域的最佳權(quán)重。此外,F(xiàn)astDAM是基于MMD方法將權(quán)重分配給所有源域,可能會(huì)引起負(fù)遷移問題,導(dǎo)致其性能退化。
4.3.2 在Office-Caltech數(shù)據(jù)集上的結(jié)果
本實(shí)驗(yàn)中,旨在評估本文所提MA-PCA 方法對Office-Caltech 數(shù)據(jù)集上所有31 個(gè)類別的識別性能,圖3 為6 種可能數(shù)據(jù)集組合成不同源域和目標(biāo)域的識別精度。
圖3 在擴(kuò)展Office數(shù)據(jù)集上的對象識別率Fig. 3 Object recognition rate on extended Office dataset
從實(shí)驗(yàn)結(jié)果可以得出,盡管MA-PCA 方法與其他方法比較沒有明顯優(yōu)勢,但是MA-PCA 在所有組合中依然獲得更高分類精度,甚至優(yōu)于在其他5種情況中的FastDAM 和Multi-KT 方法,其證明了MAPCA方法挖掘多源間和特征間相關(guān)性的多源共同適應(yīng)的有效性。從圖3 中可知,F(xiàn)astDAM 和Multi-KT具有不穩(wěn)定性,其可能是由于在這些核方法中核函數(shù)選擇不合適。SSPCA 在所有任務(wù)中的性能都最差,這是由于數(shù)據(jù)本質(zhì)分布差導(dǎo)致的,對于不具備遷移學(xué)習(xí)能力的方法,源域訓(xùn)練數(shù)據(jù)得到的模型在目標(biāo)域上較難具備令人滿意的性能。最后,在大部分情況下,A-SVM與其他DA方法相比普遍較差,主要原因是,A-SVM不能考慮多個(gè)源域散度的分布度量。
4.3.3 在圖像標(biāo)注上的結(jié)果
不同算法的圖像標(biāo)注精度如圖4所示,且從圖中易看出,MA-PCA 方法在不同設(shè)置下均獲得相對較好性能,說明該算法在目標(biāo)域中能有效改進(jìn)圖像標(biāo)注性能。另外,SSPCA 算法依然性能最差。還可以得出,A-SVM 相較于大部分的DA 方法獲得較差標(biāo)準(zhǔn)精度,其可能原因?yàn)椋谟虿钶^大時(shí)難以評估出最小化的域分布。最后,所有域適應(yīng)方法都展示了隨著源域數(shù)增加其具有相同的上升趨勢。而在源域數(shù)逐漸增加時(shí),MA-PCA方法具有更明顯的性能提升。
圖4 具有不同數(shù)據(jù)分割的圖像識別率Fig. 4 Image recognition rate with different dataset split
4.3.4 在視頻識別上的結(jié)果
在視頻數(shù)據(jù)集上不同方法的識別精度如圖5 所示,在大部分情形下,MA-PCA方法的性能明顯優(yōu)于其他方法,由于MA-PCA 方法利用了源間相關(guān)信息進(jìn)行特征選擇的判別多源域適應(yīng),能成功縮減域間分布差以及發(fā)現(xiàn)域間內(nèi)部判別依據(jù)[39]。從圖5(a)中易知,F(xiàn)astDAM和Multi-KT在36種不同的MAP概念上實(shí)現(xiàn)了類似的性能,A-SVM 和Multi-KT 在所有頻道上達(dá)到了相似性能。除了MA-PCA 方法,DSM 獲得了在所有頻道的最好性能,其可能原因是,DSM可以通過在復(fù)雜的多源自適應(yīng)場景中有判別地選擇一組預(yù)先學(xué)習(xí)的基分類器來學(xué)習(xí)更魯棒的目標(biāo)分類器進(jìn)行領(lǐng)域自適應(yīng)。
圖5 在36個(gè)定義上所有算法的識別性能Fig. 5 Recognition performance of all algorithms over 36 concepts
接下來進(jìn)一步評估MA-PCA方法在每個(gè)源域使用不同核函數(shù)(簡稱為MKMA-PCA)的有效性。首先,值得說明的是,在基于核的機(jī)器學(xué)習(xí)方法(如SVM)中,核函數(shù)的選擇對于模型的泛化能力提升尤為關(guān)鍵。然而,核函數(shù)的優(yōu)化選擇是一個(gè)開放性問題,即,核函數(shù)的有效性有賴于訓(xùn)練數(shù)據(jù)的分布結(jié)構(gòu),如,線性核函數(shù)適用于線性分布結(jié)構(gòu)數(shù)據(jù),高斯核函數(shù)適用于非線性或球狀結(jié)構(gòu)數(shù)據(jù)等。為了解決核函數(shù)的優(yōu)化選擇問題,現(xiàn)有相關(guān)研究多采用多核函數(shù)組合技術(shù)來實(shí)現(xiàn)非線性模型學(xué)習(xí)[39],多核模型學(xué)習(xí)實(shí)際上是采用多個(gè)不同核函數(shù)來進(jìn)行加權(quán)集成學(xué)習(xí),以克服單一函數(shù)功能局限性所帶來的負(fù)面效應(yīng),該技術(shù)在一定程度上緩解了核函數(shù)的選擇難題。故此,MKMA-PCA方法采用多核組合技術(shù)來提升模型學(xué)習(xí)性能,除了采用上面提到的高斯核,還采用其他三種類型的核:拉普拉斯核、距離平方倒數(shù)核Kij=1/(1+σ||xi-xj||2)以及距離倒數(shù)核假設(shè)經(jīng)驗(yàn)核映射集合為,將每個(gè)Xi映射到不同核空間,本實(shí)驗(yàn)通過串行方式將映射后的所有子空間都正交地整合到最后空間,例如,xj∈Xi,且Xi為第i個(gè)源的數(shù)據(jù),ni為第i個(gè)源中樣本數(shù)量,在新空間中的最終核矩陣被定義為Knew=,其中,是第i個(gè)特征空間的核矩陣。本實(shí)驗(yàn)將所有源域均領(lǐng)域適應(yīng)到目標(biāo)域,在[1,10]范圍內(nèi)的隨機(jī)數(shù)為目標(biāo)域帶標(biāo)簽樣本數(shù),從實(shí)驗(yàn)結(jié)果圖5(b)易知,MKMA-PCA 的MAP 性能顯然比MA-PCA 方法更好,這表明采用多核函數(shù)組合技術(shù)能一定程度上提升MA-PCA方法的泛化性能。
本節(jié)進(jìn)一步評估本文所提多模適應(yīng)回歸框架在Caltech-256 數(shù)據(jù)集上的魯棒性。本文通過源和目標(biāo)在背景知識不同相關(guān)性的兩組數(shù)據(jù)中進(jìn)行實(shí)驗(yàn)結(jié)果對比,從Caltech-256數(shù)據(jù)集中抽取指定的6個(gè)不相關(guān)類別(豎琴、微波爐、消防車、牛仔帽、蛇、盆景)和6個(gè)相關(guān)類別(都是車輛:推土機(jī)、消防車、摩托車、校車、雪地車、小汽車),并對Bing 文本搜索而收集到的每個(gè)類別web 圖像進(jìn)行圖像增廣,允許噪聲范圍是{1,5,10,15,20,25,30},依次將每個(gè)類當(dāng)作目標(biāo)域,抽取20 個(gè)訓(xùn)練樣本和100 個(gè)測試樣本,其中一半正樣本和一半負(fù)樣本。由于web 圖像是從網(wǎng)絡(luò)上隨機(jī)獲取,不可避免地在目標(biāo)域訓(xùn)練數(shù)據(jù)中出現(xiàn)大量的噪聲和異常數(shù)據(jù)[40-41]。
上述數(shù)據(jù)集的實(shí)驗(yàn)結(jié)果如圖6,每個(gè)結(jié)果對應(yīng)每個(gè)算法10次實(shí)驗(yàn)的平均分類精度。從圖6中可以看出,由于MA-PCA方法采用了源模型選擇,有效利用了相關(guān)性較強(qiáng)的源模型,有助于提高目標(biāo)域分類模型的訓(xùn)練精度,MA-PCA方法在噪聲增加的情況下具有較好的穩(wěn)定性和魯棒性。隨著噪聲的增加,所有方法的分類精度都有一定程度的降低,而MA-PCA方法相較于其他方法下降更慢。圖6(a)和圖6(b)的結(jié)果相似,這表明MA-PCA 方法對不相關(guān)類和相關(guān)類的噪聲都有較強(qiáng)的魯棒性,在這種情況下,目標(biāo)分類器的魯棒性對于提高其泛化性能非常重要。
圖6 在具有不同噪聲大小時(shí)不同算法的識別率Fig. 6 Recognition rate for different algorithms with different sizes of noise
當(dāng)多源設(shè)置有效時(shí),鄰域適應(yīng)學(xué)習(xí)(DAL)可考慮3種主要策略:(1)對于目標(biāo)問題,僅選擇一個(gè)被評估為最佳的源;(2)假設(shè)所有源都是同樣重要的,對所有的源進(jìn)行平均;(3)不同源具有不同程度的重要性,為每個(gè)源分配適當(dāng)?shù)臋?quán)重來體現(xiàn)不同源的貢獻(xiàn)度,其中(1)和(2)為兩種極端的策略。本實(shí)驗(yàn)重點(diǎn)研究第三種策略,分析源選擇對MA-PCA性能的影響。
值得注意的是,MA-PCA方法能找出權(quán)重向量γ中每個(gè)元素的最優(yōu)值,即,每個(gè)源域?qū)δ繕?biāo)域貢獻(xiàn)度大小的值,并根據(jù)散度約束的多模適應(yīng)學(xué)習(xí)來決定領(lǐng)域適應(yīng)的方向和程度。為了便于對比,本文設(shè)計(jì)兩個(gè)計(jì)算權(quán)重向量γ的基準(zhǔn)方案作為對比:(1)平均先驗(yàn)知識(average prior knowledge,APK)[42],該方案對先驗(yàn)知識的可靠性不做任何假設(shè),先驗(yàn)知識通常指所有已知源的平均值;(2)距離權(quán)重知識(distanceweighted knowledge,DWK),該方案已經(jīng)在FastDAM和DTMKL[8]中采用,其在目標(biāo)域和第i(i=1,2,…,q)個(gè)源域使用了最大均值差(MMD)來定義適應(yīng)權(quán)重γi且,其中,為目標(biāo)域與第i個(gè)源域的距離。本節(jié)評估了MA-PCA 在Caltech-256 數(shù)據(jù)集上的源選擇和散度約束的正面效果,從Caltech-256 數(shù)據(jù)集中分別隨機(jī)抽取10 個(gè)類別和20 個(gè)類別的兩個(gè)數(shù)據(jù)集,并比較了兩個(gè)數(shù)據(jù)集上所獲得的結(jié)果。為了進(jìn)行區(qū)分,MA-PCA_NSC 表示沒有散度約束(即S=Id×d)的MA-PCA。MA-PCA算法使用總散度約束來自定義每個(gè)源模型與目標(biāo)任務(wù)的相關(guān)性,此處分析獲得的權(quán)重向量γ作為領(lǐng)域適應(yīng)過程的一個(gè)附加項(xiàng),以此來驗(yàn)證其元素在目標(biāo)模型與每個(gè)源模型間是否有對應(yīng)關(guān)系。本節(jié)將分析4個(gè)比較結(jié)果,即,MA-PCA 通過采用以下3種方案計(jì)算源模型的權(quán)重系數(shù),例如APK、DWK以及判別選擇方案分別命名為MA-PCA_AVG、MA-PCA_MMD 和MA-PCA,和沒有散度約束的MA-PCA被命名為MAPCA_NSC。
最后,所有的結(jié)果如圖7 所示,從圖中得到以下比較有意義的觀察結(jié)果:
圖7 源域不相關(guān)類別和源域相關(guān)類別在6種有代表性目標(biāo)類別上的識別率Fig. 7 Recognition rates of unrelated classes and related classes from source domain on 6 representative target classes
圖8 在具有10個(gè)類別的斑馬對象識別上η的變化路徑(γ ∈R10)Fig. 8 Regularization path for η on zebra object recognition with 10 classes(γ ∈R10)
(1)從圖7(a)中易發(fā)現(xiàn),MA-PCA優(yōu)于其他方法,歸因于在MA-PCA方法中源模型選擇策略的有效性。
(2)MA-PCA和MA-PCA_MMD方法適當(dāng)?shù)貫槊恳粋€(gè)先驗(yàn)源模型賦予權(quán)重值比MA-PCA_AVG方法對所有已知模型進(jìn)行平均更好。從圖7(a)中可發(fā)現(xiàn),在所有情況下,MA-PCA_NSC依然優(yōu)于MA-PCA_AVG,這可能是由于MA-PCA有效利用了相關(guān)性較強(qiáng)的源模型。然而,MA-PCA_NSC的性能比MA-PCA稍差,該現(xiàn)象證明了散度矩陣S保留了數(shù)據(jù)的整體幾何結(jié)構(gòu)信息,更進(jìn)一步提高了模型分類可靠性。
(3)在圖7(b)中,關(guān)于γ的權(quán)重?zé)釄D表明了MA-PCA 并不是以一種固定不變的方式使用源模型,而是適時(shí)選擇部分可用知識進(jìn)行重用。從整體結(jié)果來看,γ向量在對象類別間的語義關(guān)系中包含有意義的值。換言之,對應(yīng)于目標(biāo)對象的類別斑馬,相似度不同的源域所對應(yīng)的權(quán)重不同,不相關(guān)類別(比如側(cè)面汽車、戰(zhàn)斗機(jī)、直升飛機(jī)、摩托車等)具有較低權(quán)重,而相關(guān)類別(比如,狗)則具有相對較高權(quán)重。
本文為了解決MA-PCA的優(yōu)化問題而開發(fā)了一個(gè)迭代更新規(guī)則,這個(gè)規(guī)則的收斂性已經(jīng)在本文2.4節(jié)中證明,這個(gè)收斂過程采用該更新規(guī)則,在目標(biāo)識別上是{A,C,D}到W的設(shè)置,在圖像標(biāo)注中采用表1中的劃分4 設(shè)置,在視頻識別上采用多源的設(shè)置,該更新規(guī)則的實(shí)驗(yàn)結(jié)果在圖9中顯示。
圖9 MA-PCA的收斂性Fig. 9 Convergence of MA-PCA
從圖9中可知,所提更新規(guī)則收斂速度快。該實(shí)驗(yàn)也表明了在這3個(gè)數(shù)據(jù)集上進(jìn)行20次以內(nèi)迭代的MA-PCA收斂速度快,從而表明更新規(guī)則是有效的。
對于基于圖的半監(jiān)督學(xué)習(xí)(GSSL)問題,解決訓(xùn)練數(shù)據(jù)和測試數(shù)據(jù)必須同分布的局限以及噪聲、異常數(shù)據(jù)對分類準(zhǔn)確性能的影響成為GSSL 成功的關(guān)鍵之一,而現(xiàn)有的GSSL方法僅考慮了訓(xùn)練數(shù)據(jù)和測試數(shù)據(jù)同分布時(shí)的模型學(xué)習(xí),使得其在具體應(yīng)用上存在一定的局限性。對此,本文從解封訓(xùn)練數(shù)據(jù)和測試數(shù)據(jù)必須同分布的新穎視角,提出一種有效的可能性聚類假設(shè)的多模型適應(yīng)學(xué)習(xí)方法,即MAPCA。該方法采用了模糊熵正則項(xiàng)來減弱噪聲、異常數(shù)據(jù)對分類所帶來的影響,經(jīng)過分析指出所提方法中采用的多模適應(yīng)學(xué)習(xí)方法在訓(xùn)練數(shù)據(jù)和測試數(shù)據(jù)同分布和不同分布問題上具有較好的泛化性能,從而使得所提方法在GSSL的分類問題上的分類性能得到一定程度的提高。需要進(jìn)一步研究的問題:(1)如何提高多核模型的學(xué)習(xí)效率;(2)如何更高效地提升所提算法的整體運(yùn)行效率。