董愛美 畢安琪 王士同
1(江南大學(xué)數(shù)字媒體學(xué)院 江蘇無錫 214122)
2 (齊魯工業(yè)大學(xué)信息學(xué)院 濟南 250353)
(amdong@163.com)
?
基于遷移共享空間的分類新算法
董愛美1,2畢安琪1王士同1
1(江南大學(xué)數(shù)字媒體學(xué)院江蘇無錫214122)
2(齊魯工業(yè)大學(xué)信息學(xué)院濟南250353)
(amdong@163.com)
A Classification Method Using Transferring Shared Subspace
Dong Aimei1,2, Bi Anqi1, and Wang Shitong1
1(SchoolofDigitalMedia,JiangnanUniversity,Wuxi,Jiangsu214122)
2(SchoolofInformation,QiluUniversityofTechnology,Jinan250353)
AbstractTransfer learning algorithms have been proved efficiently in pattern classification filed. The characteristic of transfer learning is to better use one domain information to improve the classification performance in different but related domains. In order to effectively solve the classification problems with a few labeled and abundant unlabeled data coming from different but related domains, a new algorithm named transferring shared subspace support vector machine (TS3VM) is proposed in this paper. Firstly a shared subspace used as the common knowledge between source domain and target domain is built and then classical support vector machine method is introduced to the subspace for the labeled data, therefore the resulting classification model has the ability of transfer learning. Specifically, using the theory of transfer learning and the principal of large margin classifier, the proposed algorithm constructs a shared subspace between two domains by maximizing the joint probability distribution of the labeled and unlabeled data. Meanwhile, in order to fully consider the distribution of the few labeled data, the classification model is trained in the augmented feature space consisting of the original space and the shared subspace. Experimental results confirm the efficiency of the proposed method.
Key wordsshared subspace; transfer learning; support vector machine; joint probability distribution; large margin classifier
摘要為解決來自不同但相關(guān)領(lǐng)域的大量無標簽數(shù)據(jù)和少量帶標簽數(shù)據(jù)的分類問題,首先構(gòu)造一個聯(lián)系源域到目標域的共享特征空間,并將該空間引入經(jīng)典的支持向量機算法使其獲得遷移能力,最終得到一種新的基于支持向量機的遷移共享空間的分類新算法,即遷移共享空間支持向量機.具體地,該方法以遷移學(xué)習(xí)理論為基礎(chǔ),結(jié)合分類器最大間隔原理,通過最大化無標簽數(shù)據(jù)和帶標簽數(shù)據(jù)的聯(lián)合概率分布來構(gòu)建無標簽數(shù)據(jù)和帶標簽數(shù)據(jù)的共享空間;為充分考慮少量帶標簽數(shù)據(jù)之數(shù)據(jù)分布,在其原始特征空間和共享空間組成的擴展空間中訓(xùn)練分類模型.相關(guān)實驗結(jié)果驗證了該遷移學(xué)習(xí)分類器的有效性.
關(guān)鍵詞共享空間;遷移學(xué)習(xí);支持向量機;聯(lián)合概率分布;大間隔分類器
隨著信息技術(shù)的快速發(fā)展和互聯(lián)網(wǎng)的日益普及,人們獲得的信息呈現(xiàn)出越來越復(fù)雜的變化,例如絕大部分信息不帶有標簽,而少部分信息帶有標簽;并且大量的無標簽信息和少量的帶標簽信息又來自不同但又有一定關(guān)系的問題領(lǐng)域.而傳統(tǒng)半監(jiān)督學(xué)習(xí)方法研究對象的特點是大量無標簽數(shù)據(jù)和少量帶標簽數(shù)據(jù)來自相同的問題領(lǐng)域并且數(shù)據(jù)分布相同,那么如何充分利用這些來自不同但相關(guān)問題領(lǐng)域的大量無標簽數(shù)據(jù)和少量帶標簽數(shù)據(jù)來訓(xùn)練模式分類模型是機器學(xué)習(xí)重點研究的問題之一.
為了解決上述問題,遷移學(xué)習(xí)得以提出,其旨在解決2個不同但相關(guān)領(lǐng)域的機器學(xué)習(xí)問題,且放松了訓(xùn)練數(shù)據(jù)和測試數(shù)據(jù)獨立同分布之要求[1].遷移學(xué)習(xí)的關(guān)鍵是盡最大可能縮小源域和目標域數(shù)據(jù)間的差異,來尋找源域和目標域數(shù)據(jù)之間的“共同點”作為2者間的“橋梁”,從而實現(xiàn)從源域到目標域的知識遷移.近年來,不同的學(xué)者主要從2個角度來尋找源域和目標域間的“共同知識”[2-11]:數(shù)據(jù)樣本和數(shù)據(jù)特征.前者通過樣本加權(quán)方法從源域?qū)ふ遗c目標域樣本相似度最大的樣本來作為遷移的知識,后者通過各種不同方式學(xué)習(xí)源域和目標域的共享特征表示來作為遷移的知識.學(xué)習(xí)源域和目標域的共享特征表示的方法主要有: Pan等人[2]在2008年通過降維方式學(xué)習(xí)得到領(lǐng)域間共享的特征表示從而實現(xiàn)遷移分類:首先通過最大均值差異嵌入(maximum mean discrepancy embedding, MMDE)進行降維得到一個低維的映射空間,并在此空間中使得源域數(shù)據(jù)和目標域數(shù)據(jù)的均值中心對齊,以減小2個領(lǐng)域的差異,經(jīng)過這種處理后的數(shù)據(jù)可以直接利用傳統(tǒng)分類器對數(shù)據(jù)進行訓(xùn)練和泛化; Xie等人[3]在2009年同樣也是通過降維的方法研究了特征缺失下的遷移問題,先通過填補缺失值將領(lǐng)域間的條件分布變得一致,然后利用降維的方法將領(lǐng)域間的邊緣分布變得一致,最后利用一些傳統(tǒng)分類器實現(xiàn)了利用源域判別信息對目標域數(shù)據(jù)的分類;Quanz等人[4]在2009年以正則風(fēng)險最小化思想為基礎(chǔ),結(jié)合最大均值差(maximum mean discrepancy, MMD)方法,提出一種基于特征空間的大間隔直推式遷移學(xué)習(xí)方法(large margin projected transductive support vector machine, LMPROJ),該方法是以經(jīng)驗風(fēng)險正則化分類為框架,通過尋求一個特征變換來縮小源域和目標域之間的差異達到遷移分類之目的;Pan等人[5]在2010年提出將不同問題領(lǐng)域中的特征分為領(lǐng)域相關(guān)特征和領(lǐng)域獨立特征,通過領(lǐng)域相關(guān)特征建立領(lǐng)域間聯(lián)系實現(xiàn)領(lǐng)域間的遷移,再基于譜圖劃分對數(shù)據(jù)進行分類;Pan等人[6]在2011年進一步基于降維的思想,提出了快速特征提取算法TCA來學(xué)習(xí)一個低維的映射空間,對MMDE算法在計算復(fù)雜度方面進行了可觀的改善;Zhuang等人[8]在2012年針對跨領(lǐng)域文本分類問題特有的共性和個性特征提出了CD-PLSA遷移學(xué)習(xí)算法,并且應(yīng)用到多源域和多目標域問題中;Shao等人[9]在2012年使用低秩表示學(xué)習(xí)低維共享子空間技術(shù),并提出了低秩遷移子空間學(xué)習(xí)算法; Gupta等人[10]在2013年采用非負矩陣分解思想提出了正則化的共享空間遷移學(xué)習(xí)框架,在一定程度上提高了模型的學(xué)習(xí)性能.
Fig. 1 The principal of TS3VM.圖1 TS3VM原理圖
縱觀基于尋找源域和目標域的共享特征表示的遷移學(xué)習(xí)分類方法,盡管其取得了一定效果,但也存在不足之處:1)共享特征表示是在少量帶標簽數(shù)據(jù)原始空間基礎(chǔ)上得到的,那么如果這些少量帶標簽數(shù)據(jù)受到噪聲干擾,則會直接影響其分布情況,從而導(dǎo)致學(xué)習(xí)到的共享特征表示有誤,最終使得遷移學(xué)習(xí)分類模型的性能降低;2)現(xiàn)有的基于共享特征表示的遷移學(xué)習(xí)分類方法僅僅考慮了領(lǐng)域間的共同特征表示,沒有考慮目標域數(shù)據(jù)的分布情況,由于源域不帶標簽數(shù)據(jù)數(shù)量極大從而對共享特征表示的學(xué)習(xí)起著決定性的作用,這就導(dǎo)致僅僅在共享特征空間學(xué)習(xí)到的分類模型對于目標域數(shù)據(jù)來說是不完善的.結(jié)合這2方面的考慮,本文提出了遷移共享空間支持向量機算法:以分類器最大間隔原理為指導(dǎo)思想,通過最大化源域大量無標簽數(shù)據(jù)和目標域少量帶標簽數(shù)據(jù)的聯(lián)合概率分布來構(gòu)建源域和目標域間的共享特征空間;為充分考慮少量帶標簽數(shù)據(jù)的分布情況及帶標簽數(shù)據(jù)類標可能受到攻擊情況,在其原始特征空間和共享特征空間組成的擴展特征空間中訓(xùn)練分類模型.因為分類模型的訓(xùn)練既不僅僅是在原始特征空間也不僅僅是在共享特征空間中,從而既避免了原始類標受到噪聲干擾又充分考慮了少量帶標簽數(shù)據(jù)的數(shù)據(jù)分布.遷移共享特征空間支持向量機算法(transferring shared subspace support vector machine, TS3VM)原理如圖1所示.
1遷移共享空間支持向量機算法TS3VM
1.1問題描述
1.2TS3VM算法原理和目標函數(shù)
對于源域和目標域數(shù)據(jù),根據(jù)Parzen窗法分別得到其概率分布的核密度估計函數(shù)如下:
(1)
(2)
(3)
(4)
假設(shè)源域和目標域數(shù)據(jù)相互獨立,那么在通過正交變換參數(shù)Θ投影后在r維的特征空間中亦最大可能滿足聯(lián)合分布獨立性假設(shè),所以由式(3)(4)得到在r維的特征空間中源域和目標域數(shù)據(jù)的聯(lián)合概率分布為
(5)
令:
(6)
(7)
因為
所以有:
(8)
對于式(8)直接求解比較困難,利用泰勒展開定理進行近似變形得到:
(9)
結(jié)合式(8)(9)得到目標函數(shù):
(10)
假設(shè)目標域數(shù)據(jù)在擴展后的總特征空間中分類超平面形式為
(11)
根據(jù)支持向量機最大間隔分類原則,同時要求源域和目標域數(shù)據(jù)在擴展的r維空間中聯(lián)合概率分布最大,且對目標域數(shù)據(jù)在擴展后的特征空間中施加分類誤差約束,得到TS3VM目標函數(shù):
(12)
針對式(12),作如下說明:
1) 式(12)中第1項和第2項是結(jié)構(gòu)風(fēng)險項;第3項是經(jīng)驗風(fēng)險項;第4項表示源域和目標域數(shù)據(jù)在擴展的r維的特征空間中的聯(lián)合概率分布;通過對這4項的平衡期望達到最小的結(jié)構(gòu)化風(fēng)險.
2) 由式(12)可以看出,目標域數(shù)據(jù)的類標簽僅僅用來維數(shù)擴展,從而避免了誤標對最終分類模型的影響,使得最終分類模型有較強的抗噪性.
3) 由式(12)可以看出,在擴展后的特征空間中對目標域數(shù)據(jù)施加分類誤差約束,既充分利用源域和目標域間的共性“知識”來獲得正遷移效果,又充分考慮了目標域數(shù)據(jù)的數(shù)據(jù)分布,使得最終分類模型在目標域數(shù)據(jù)上性能最優(yōu),這也是本文采用擴維思想而不是采用傳統(tǒng)降維思想來進行遷移分類的動機之一.
4) 從目標函數(shù)的構(gòu)造過程可以看出,TS3VM方法在目標域數(shù)據(jù)數(shù)量遠遠小于源域數(shù)據(jù)數(shù)量且目標域數(shù)據(jù)類標受到攻擊而產(chǎn)生誤標情況下,具有很好的魯棒性.
1.3TS3VM算法目標函數(shù)參數(shù)學(xué)習(xí)規(guī)則
(13)
其中有3個變量h,v,Θ需要同時優(yōu)化.直接對這些參數(shù)優(yōu)化是比較困難的.本文采用模糊聚類、模糊神經(jīng)網(wǎng)絡(luò)等技術(shù)中經(jīng)常采用的交替迭代策略[12-15]對式(13)進行參數(shù)優(yōu)化.在該迭代過程中包含3個主要步驟:
1) 固定({Θ,v}),優(yōu)化式(13)學(xué)習(xí)得到{h};
2) 固定({Θ,h}),優(yōu)化式(13)學(xué)習(xí)得到{v};
3) 固定({v,h}),優(yōu)化式(13)學(xué)習(xí)得到{Θ}.
下面通過3個定理給出目標函數(shù)中的3個變量的學(xué)習(xí)規(guī)則:
定理1. 假設(shè)變量v,Θ固定,則式(13)中變量h的最優(yōu)值可以通過對一個線性方程組求解得到.
證明. 假設(shè)變量v,Θ固定,當優(yōu)化變量h時,式(13)可寫為
(14)
構(gòu)造目標函數(shù)J5的拉格朗日函數(shù):
(15)
其中,αj為拉格朗日乘子且αj>0,j=1,2,…,nt,式(14)取得極值的必要條件為式(15)對h和ξj(j=1,2,…,nt)的偏導(dǎo)數(shù)為0,于是得到:
(16)
式(16)寫成線性方程組的形式為
(17)
證畢.
定理2. 假設(shè)變量h,Θ固定,則式(13)中變量v是一個解析解,具體形式為
(18)
證明. 假設(shè)變量h,Θ固定,式(13)變?yōu)?/p>
(19)
目標函數(shù)J7取最小值的必要條件是其對v的偏導(dǎo)數(shù)為0r×1,即:
從而有:
此時v是一個解析解.
證畢.
定理3. 假設(shè)變量h,v固定,則式(13)中變量Θ的求解可以用梯度下降法求解得到,并且梯度下降法中的步長具有解析解的形式.
證明. 假設(shè)變量h,v固定,式(13)變?yōu)?/p>
(20)
假設(shè)隱變量的域記為Ω⊥,則Ω⊥={Θ?r×d}∩{Θ ΘT=Ir×r},因為Ω⊥中的約束條件Θ ΘT=Ir×r和正則化項具有相似的作用,所以可以把式(20)中的約束條件去掉而得到一個形式簡單的優(yōu)化問題.目標函數(shù)式J8對變量ΘT求偏導(dǎo)數(shù)為
(21)
則變量ΘT可以用梯度下降法求解得到,梯度下降規(guī)則為
(22)
為得到變量ΘT的步長γ的解析解,把式(21)代入到式(22)中,得到:
(23)
從而有:
(24)
進一步,令:
(25)
則有:
(26)
(27)
把式(26)(27)代回式 (20),得到關(guān)于γ的函數(shù):
(28)
記:
t2=Mv,
則式(28)變?yōu)?/p>
(29)
證畢.
1.4TS3VM算法描述
根據(jù)1.1~1.3節(jié)分析和推導(dǎo),給出TS3VM算法描述.
算法1. TS3VM算法.
參數(shù):源域和目標域數(shù)據(jù)特征擴展的維數(shù)r、參數(shù)C,λ1,λ2;
初始化:參數(shù)h0,Θ0,其中h0∈d,Θ0∈r×d,當前迭代值iter=0,設(shè)置最大迭代次數(shù)itermax和誤差閾值ε1.
Repeat
Step1. 根據(jù)定理2計算viter;
Step2.iter=iter+1;
Step3. 根據(jù)定理3采用梯度下降法計算Θiter∈
Step4. 根據(jù)定理1計算hiter;
1.5TS3VM算法收斂問題說明
對于TS3VM算法,以步驟iter+1的迭代學(xué)習(xí)為例對其收斂性作如下分析:
1) 在步驟iter+1,固定viter,Θiter不變,由定理1可知hiter+1是線性方程組的解,從而可以確保變量hiter+1在步驟iter+1取得全局最優(yōu)解.
3) 在步驟iter+1,固定hiter,viter不變,對式(20)進行迭代優(yōu)化,根據(jù)梯度下降算法的性質(zhì)可知所得到的解Θiter是式(20)的某個局部最優(yōu)解的近似解,即J8(Θiter+1)≤J8(Θiter).
據(jù)上述分析可知,TS3VM算法并不能保證嚴格的收斂.交替迭代優(yōu)化技術(shù)在智能模型學(xué)習(xí)方法中[9-12]經(jīng)常被使用,如經(jīng)典的FCM等聚類算法,其通常能收斂于某個局部最優(yōu)解或鞍點.雖然此類算法目前在理論上不能保證是嚴格收斂的或是有條件收斂的,但已有的采用交替迭代優(yōu)化技術(shù)的迭代算法表明此優(yōu)化技術(shù)在大多數(shù)場合是非常簡單而有效的[9-12].
正如文獻[12]指出的: 此類交替迭代的優(yōu)化方法其收斂性仍是一個有待進一步深入探討的開放性問題,保證該類方法的嚴格收斂是一個值得深入研究的課題.另外,由于初始化等不同因素的影響,目前許多交叉迭代算法多次執(zhí)行后最終可能收斂于不同的局部最優(yōu)解.針對此問題一個可行的解決方案是探討新的優(yōu)化算法來求解給定的優(yōu)化目標函數(shù).例如,近年來具有更好尋優(yōu)能力的進化計算優(yōu)化技術(shù)(遺傳算法、粒子群算法等)已受到較多關(guān)注并被嘗試應(yīng)用于優(yōu)化不同的建模模型.
對TS3VM算法的說明有2點:
1) 在變量初始化階段,變量h,Θ隨機初始化,因此在實驗部分進行多次實驗取平均值作為最終實驗結(jié)果,盡量減少隨機初始化帶來的不確定性.
2) 對于迭代過程中的收斂條件,在算法設(shè)計中一方面通過閾值來控制,即當連續(xù)多次(比如10次)更新迭代相應(yīng)的變量不再發(fā)生變化時,達到收斂;另一方面為保險起見,設(shè)置了最大迭代次數(shù),對算法能夠進行的最大迭代次數(shù)進行限制,幾個收斂條件滿足一個即停止迭代.
2實驗分析
為驗證TS3VM算法的有效性,在人造數(shù)據(jù)集(2-moons)和3個文本數(shù)據(jù)集上(20NewsGroup[16],Reuters-21578[13],Email Spam[17])進行了實驗.采用比較算法有:SVM,TSVM[18],LMPROJ[4],TCA[6]. 采用SVM算法的目的是為了驗證目標域中帶標簽數(shù)據(jù)數(shù)量非常少不足以訓(xùn)練一個高性能的分類器;算法TSVM是綜合利用帶標簽數(shù)據(jù)和無標簽數(shù)據(jù)的傳統(tǒng)模式分類方法,采用其目的是為了驗證在訓(xùn)練分類模型過程中引入遷移學(xué)習(xí)思想來綜合利用帶標簽數(shù)據(jù)和無標簽數(shù)據(jù)較傳統(tǒng)模式分類方法優(yōu)越;算法LMPROJ為遷移類算法,采用其目的是為了驗證半監(jiān)督的遷移學(xué)習(xí)方法和無監(jiān)督的遷移學(xué)習(xí)方法的性能優(yōu)劣;算法TCA為遷移類算法,采用其目的是為了驗證在相同場景設(shè)置下,針對基于降維思想的遷移分類算法來說,本文所提的基于擴維的遷移分類算法表現(xiàn)出可比較的性能.對于SVM,由libsvm[19]軟件實現(xiàn),參數(shù)C取值范圍為{0.1,0.2,0.5,1,2,5,10,20,50,100},采取5重交叉驗證法來選取最優(yōu)值.其他算法都在Matlab(R2009a)環(huán)境下實現(xiàn)且均通過網(wǎng)格搜索的方式來確定優(yōu)化的模型參數(shù).
具體來說,對于算法TSVM,參數(shù)C1和C2的取值范圍為{10-5,10-4,10-3,10-2,10-1,1,10,102,103,104,105};對于算法LMPROJ,參數(shù)λ的取值范圍為{210,211,212,213,214,215,216,217,218,219,220},參數(shù)λ2的取值范圍為{2-5,2-4,2-3,2-2,2-1,1,2,22,23,24,25},參數(shù)C的取值范圍為{2-6,2-5,2-4,2-3,2-2,2-1,1,2,22,23,24,25,26}; 對于算法TCA,參數(shù)μ的取值范圍為{10-3,10-2,10-1,1,10,102,103}.對于TS3VM方法中的共享空間維數(shù)r需要人工確定,在當前主流的基于空間的分類方法中一般采用網(wǎng)格尋優(yōu)或?qū)嶒烌炞C的方法確定,例如Ando[20]方法、Zheng[21]方法和Ji[22]方法.對于文本數(shù)據(jù)集,本文借鑒Ando方法的思想,只關(guān)心共享特征空間維數(shù)r在10~100之間的范圍{5,10,15,20,25,30,35,40,45,50,55,60,65,70,75,80,85,90,95,100};對于人造數(shù)據(jù)集,擴展維數(shù)固定為1.參數(shù)C取值范圍為{10-5,10-4,10-3,10-2,10-1,1,10,102,103,104,105}.參數(shù)λ1,λ2的取值范圍為{2-6,2-5,2-4,2-3,2-2,2-1,1,2,22,23,24,25,26}. 所有參數(shù)r,C,λ1,λ2均通過網(wǎng)格搜索的方式確定最優(yōu)值.詳細參數(shù)敏感性實驗參見2.3節(jié)
2.1數(shù)據(jù)集描述與設(shè)置
1) 2-moons數(shù)據(jù)集: 人工生成1個包含 600個樣本的雙月形2維樣本集作為源域數(shù)據(jù)集,正負類樣本各為300個;將源域數(shù)據(jù)按逆時針方向分別旋轉(zhuǎn)30°,45°,60°,得到目標域數(shù)據(jù)集.另外,把目標域帶標簽數(shù)據(jù)的標簽部分弄錯,得到部分數(shù)據(jù)誤標的目標域數(shù)據(jù)集,如圖2所示.為了適應(yīng)TS3VM算法之研究場景,對源域和目標域樣本作如下處理:對于源域樣本,去掉所有的標簽信息;對于目標域樣本,隨機選擇正負樣本各30個作為訓(xùn)練樣本.另外為了驗證TS3VM算法對類標攻擊的魯棒性,把目標域中的部分訓(xùn)練樣本類標弄錯(誤標樣本比例設(shè)為20%).
2)文本數(shù)據(jù)集: 20NewsGroup數(shù)據(jù)集包含近20 000新聞組的英文文檔,大約分成20類,包含6個頂層類別,每個頂層類別下分別包含若干個子類別. Reuter-21578包含近21 000個文檔集,分為orgs,people,places三個大類,每個類別下面包含了相應(yīng)的子類別.為了適應(yīng)本文研究場景,對于20News-Group數(shù)據(jù)集:分別從頂層大類中抽取 4個大類以構(gòu)建學(xué)習(xí)數(shù)據(jù)集;對于Reuter-21578數(shù)據(jù)集:數(shù)據(jù)基于子類進行分割,分別從頂層大類中抽取3個大類以構(gòu)建學(xué)習(xí)數(shù)據(jù)集,其中每2個大類分別選作正類和負類不同的子類認為不同的領(lǐng)域.Email Spam數(shù)據(jù)集包含User1,User2,User3這3個子集代表3個不同用戶.學(xué)習(xí)任務(wù)是劃分出spam郵件和非spam郵件.由于數(shù)據(jù)集中不同用戶的spam郵件和非spam郵件是不同的,因此3個email數(shù)據(jù)集的數(shù)據(jù)分布是不同但相關(guān)的.為適應(yīng)本文研究場景設(shè)置,構(gòu)造了3個遷移數(shù)據(jù)集.詳細信息見表1和表2所示.
Fig. 2Four 2-moon datasets with different rotation degrees.
圖2旋轉(zhuǎn)不同角度的雙月型數(shù)據(jù)集
Table 1 Transfer Learning Text Classification Datasets 20NewsGroup
Continued (Table 1)
Table 2Transfer Learning Text Classification Datasets Reuter-21578 and Email Spam
表2 遷移學(xué)習(xí)文本分類數(shù)據(jù)Reuter-21578和Email Spam
2.2實驗結(jié)果與討論
人造數(shù)據(jù)集的實驗結(jié)果如表3所示,3個文本數(shù)據(jù)集的實驗結(jié)果如表4~5所示.需要說明的是,本文對所有方法對參數(shù)均使用交叉驗證法進行學(xué)習(xí),并取最優(yōu)結(jié)果進行記錄.
由表3~5所示結(jié)果可以看出:
1) 基線方法 SVM 的訓(xùn)練集是目標域中少量的帶標簽數(shù)據(jù),不足以訓(xùn)練一個高性能的分類器,故在所有數(shù)據(jù)集上的分類性能均低于其他學(xué)習(xí)方法;
2) 另外一個基線方法 TSVM雖然其訓(xùn)練集包括源域中大量不帶標簽數(shù)據(jù),但是由于源域和目標域數(shù)據(jù)的數(shù)據(jù)分布不同,故在大部分數(shù)據(jù)集上分類性能低于其他遷移學(xué)習(xí)類方法,這也進一步說明了使用傳統(tǒng)的半監(jiān)督模式分類算法不能很好地解決數(shù)據(jù)分布不同之下的數(shù)據(jù)分類問題;
3) 遷移分類算法LMPROJ在大部分數(shù)據(jù)集上的分類性能高于傳統(tǒng)半監(jiān)督模式分類方法而低于其他2個遷移分類算法,因為LMPROJ算法中目標域數(shù)據(jù)不帶有類標信息,屬于無監(jiān)督遷移分類;
4) 本文所提算法TS3VM在3個遷移分類算法中表現(xiàn)出魯棒的分類性能,這進一步說明在遷移分類學(xué)習(xí)中采用擴維的思想較TCA算法采用降維的思想,對最終模式分類器來說效果更好,因為擴維的思想既考慮了源域和目標域領(lǐng)域間的共性知識又充分考慮了目標域數(shù)據(jù)的特有數(shù)據(jù)分布情況;
Table 3 Classification Accuracy Comparison on 2-moon with Different Rotation Angle
Table 4 Classification Accuracy Comparison on 20NewsGroup
Table 5 Classification Accuracy Comparison on Reuter-21578 and Email Spam
5) 盡管在部分數(shù)據(jù)集上(比如Spam2數(shù)據(jù)集)本文所提算法沒有表現(xiàn)出最佳的均值精度,但是在方差中表現(xiàn)出了優(yōu)勢.
6) 更重要的是,從表3可以看出,在目標域數(shù)據(jù)類標受到攻擊產(chǎn)生誤標的情況下,本文所提算法表現(xiàn)出較強的魯棒性,對最終分類器的影響甚微.這也進一步表現(xiàn)出本算法的相對于傳統(tǒng)半監(jiān)督分類算法和遷移分類算法的優(yōu)點:在一定程度上擺脫了對已知類標數(shù)據(jù)類標的依賴性.
2.3參數(shù)敏感性實驗
在評價某個參數(shù)的性能影響時,先固定其他3個參數(shù)的最優(yōu)值.采用數(shù)據(jù)集NG1和Spam2作為實驗數(shù)據(jù),圖3~6分別顯示了上述4個參數(shù)對所提方法的性能影響.由此可得如下結(jié)論:
1) 由圖3可以看出,所提方法是基于特征擴維的共享特征空間分類學(xué)習(xí)模型,因此對擴展的共享特征空間維數(shù)r具有較大程度的敏感性.即對于不同的數(shù)據(jù)集r的取值明顯影響所提方法的最終性能,這也進一步說明了針對不同的數(shù)據(jù)集擴展的共享特征空間維數(shù)r協(xié)調(diào)的重要性,同時這也是本文作者下一步要深入研究的方向之一.
2) 由圖4可以看出,在本文所考慮C的所有取值范圍內(nèi),分類精度變化幅度較大.這進一步說明了,
Fig. 3 Influence of parameter r on accuracy.圖3 參數(shù)r對分類精度的影響
Fig. 4 Influence of parameter C on accuracy.圖4 參數(shù)C對分類精度的影響
Fig.5 Influence of parameter λ1 on accuracy.圖5 參數(shù)λ1對分類精度的影響
Fig. 6 Influence of parameter λ2 on accuracy.圖6 參數(shù)λ2對分類精度的影響
基于結(jié)構(gòu)風(fēng)險最小化學(xué)習(xí)模型對參數(shù)C具有較大程度上的敏感性,即C在一定范圍內(nèi)的不同取值明顯影響所提方法的泛化性能.
3) 由圖5可以看出,由于本文所提方法基于最大間隔原則,故對平衡參數(shù)λ1具有較大程度的敏感性,即λ1在一定范圍內(nèi)的不同取值明顯影響分類器最終性能.
3結(jié)論
綜合利用相關(guān)領(lǐng)域的大量無標簽數(shù)據(jù)來指導(dǎo)目標領(lǐng)域少量帶標簽數(shù)據(jù)來訓(xùn)練學(xué)習(xí)分類器是機器學(xué)習(xí)研究的熱點之一.本文在半監(jiān)督學(xué)習(xí)中引入遷移思想,根據(jù)分類超平面最大間隔和聯(lián)合概率分布最大原則來充分挖掘無標簽和帶標簽數(shù)據(jù)間的“共同”知識,在“共同”知識基礎(chǔ)之上又結(jié)合少量帶標簽數(shù)據(jù)的數(shù)據(jù)分布,提出了基于遷移共享特征空間的模式分類算法.本文所提算法具有兩大優(yōu)點:1)從數(shù)據(jù)特征空間擴維的角度出發(fā),既考慮帶標簽數(shù)據(jù)和無標簽數(shù)據(jù)的“共同”知識,又考慮了少量帶標簽數(shù)據(jù)的數(shù)據(jù)分布;2)對目標域施加分類誤差約束是在擴展后的特征空間而不是在原始特征空間,因此最終分類器在一定程度上擺脫了對帶標簽數(shù)據(jù)類標的依賴性.在大量相關(guān)數(shù)據(jù)集上的實驗也驗證了本文所提方法的有效性.
目前來看,本文所提方法的一個不盡人意之處是擴展的特征空間維數(shù)的確定還沒有一個理論性的結(jié)論,而是采用傳統(tǒng)的實驗驗證及網(wǎng)格尋優(yōu)的方法確定,因此如何理論性地給出共享特征空間維數(shù)的確定方法是一項具有挑戰(zhàn)性的研究話題,這是我們今后研究的重點之一.
參考文獻
[1]Pan S J L, Yang Q. A survey on transfer learning[J]. IEEE Trans on Knowledge and Data Engineering, 2010, 22(10): 1345-1359
[2]Pan S J, Kwok J T, Yang Q. Transfer learning via dimensionality reduction[C]Proc of the 23rd Int Conf on Artificial Intelligence. Menlo Park, CA: AAAI, 2008: 677-682
[3]Xie S, Fan W, Peng J, et al. Latent space domain Transfer between High Dimensional overleaping distributions[C]Proc of the 18th Int Conf on World Wide Web. New York: ACM, 2009: 91-100
[4]Quanz B, Huan J. Large margin transductive transfer learning[C]Proc of the 18th ACM Conf on Information and Knowledge Management. New York: ACM, 2009: 1327-1336
[5]Pan S J, Ni X S J, et al. Cross-domain sentiment classification via spectral feature alignment[C]Proc of the 19th Int Conf on World Wide Web. New York: ACM, 2010: 751-760
[6]Pan S J, Tsang I W, Kwok J T, et al. Domain adaptation via transfer component analysis[J]. IEEE Trans on Neural Network, 2011, 22(2): 199-210
[7]Hong Jiaming, Yin Jian, Huang Yun, et al. TrSVM: A transfer learning algorithm using domain similarity[J]. Journal of Computer Research and Development, 2011, 48(10): 1823-1830 (in Chinese)(洪佳明, 印鑒, 黃云, 等. TrSVM: 一種基于領(lǐng)域相似性的遷移學(xué)習(xí)算法[J]. 計算機研究與發(fā)展, 2011, 48(10): 1823-1830)
[8]Zhuang Fuzhen, Luo Ping, Shen Zhiyong, et al. Mining distinction and commonality across multiple domains using generative model for text classification[J]. IEEE Trans on Knowledge and Data Engineering, 2012, 24(11): 2025-2039
[9]Shao M, Castillo C, Gu Z H, et al. Low-rank transfer subspace learning[C]Proc of the 12th Int Conf on Data Mining. Piscataway, NJ: IEEE, 2012: 1104-1109
[10]Gupta S K, Phung D, Adams B, et al. Regularized nonnegative shared subspace learning[J]. Data Mining and Knowledge Discovery, 2013, 26(1): 57-97
[11]Gu Xin, Wang Shitong. Fast cross-domain classification method for large multisourcessmall target domains[J]. Journal of Computer Research and Development, 2014, 51(3): 519-535 (in Chinese)(顧鑫, 王士同. 大樣本多源域與小目標域的跨領(lǐng)域快速分類學(xué)習(xí)[J]. 計算機研究與發(fā)展, 2014, 51(3): 519-535)
[12]Deng Z H, Choi K S, Chung F L, et al. Enhanced soft subspace clustering integrating within-cluster and between-cluster information[J]. Pattern Recognition, 2010, 43(3): 767-781
[13]Yu J, Cheng Q S, Huang H K. Analysis of the weighting exponent in the FCM[J]. IEEE Trans on Systems, Man, and Cybernetics-Part B: Cybernetics, 2004, 34(1): 164-176
[14]Yang S, Yan S, Zhang C, et al. Bilinear analysis for kernel selection and nonlinear feature extraction[J]. IEEE Trans on Neural Networks, 2007, 18(5): 1442-1452
[15]Jiang Yizhang, Deng Zhaohong, Wang Shitong. Mamdani-larsen type transfer learning fuzzy system[J]. Acta Automatica Sinica, 2012, 38(9): 1393-1409 (in Chinese)(蔣亦樟, 鄧趙紅, 王士同. ML型遷移學(xué)習(xí)模糊系統(tǒng)[J]. 自動化學(xué)報, 2012, 38(9): 1393-1409)
[16]Gao J, Fan W, Jiang J, et al. Knowledge transfer via multiple model local structure mapping[C]Proc of the 14th
中圖法分類號TP391.4
基金項目:國家自然科學(xué)基金項目(61202014,61472222);山東省自然科學(xué)基金項目(ZR2012FQ008);中國博士后科學(xué)基金項目(2011M5001133,2012T50614) 國家自然科學(xué)基金項目(61170122,61202311);山東省高等學(xué)??萍加媱澔痦椖?J14LN05)
收稿日期:2014-11-17;修回日期:2015-01-27 2014-11-17;修回日期:2015-06-03
This work was supported by the National Natural Science Foundation of China (61202014,61472222), the Natural Science Foundation of Shandong Province of China (ZR2012FQ008), and the China Postdoctoral Science Foundation (2011M5001133,2012T50614).
This work was supported by the National Natural Science Foundation of China (61170122,61202311) and the Project of Shandong Province Higher Educational Science and Technology Program (J14LN05).