劉建偉,孫正康,劉澤宇,羅雄麟
(1.中國石油大學(北京)自動化系,北京 102249;2.中國科學院軟件研究所基礎軟件國家工程研究中心,北京 100190)
核典型關(guān)聯(lián)性分析相關(guān)特征提取與核邏輯斯蒂回歸域自適應學習
劉建偉1,孫正康1,劉澤宇2,羅雄麟1
(1.中國石油大學(北京)自動化系,北京 102249;2.中國科學院軟件研究所基礎軟件國家工程研究中心,北京 100190)
本文提出了一種利用核典型關(guān)聯(lián)性分析提取源域目標域最大相關(guān)特征,使用核邏輯斯蒂回歸模型進行域自適應學習的算法,該算法稱為KCCA-DAML(Kernel Canonical Correlation Analysis for Domain Adaptation Learning).該算法基于特征集關(guān)聯(lián)性分析,有效的減小源域和目標域的概率分布差異性,利用提取的最大相關(guān)特征通過核邏輯斯蒂回歸模型實現(xiàn)源域到目標域的跨域?qū)W習.實驗比較源域數(shù)據(jù)上核邏輯斯蒂學習模型、目標域上核邏輯斯蒂學習模型 、源域和目標域上核邏輯斯蒂學習模型和KCCA-DAML模型,結(jié)果顯示KCCA-DAML在真實數(shù)據(jù)集上成功的實現(xiàn)了跨域?qū)W習.
域自適應;概率分布差異;相關(guān)分析;核邏輯斯蒂回歸;正則化模型
機器學習任務中,假定訓練樣例-標簽對組成的樣本集和測試樣例-標簽對組成的樣本集通常來自同一概率分布,這是保證良好學習性能的基本假設.但在現(xiàn)實應用中,這種假設過于“嚴苛”,具有很大的局限性.我們經(jīng)常遇到訓練樣例-標簽對組成的樣本集與測試樣例-標簽對組成的樣本集概率分布不一致的情況,例如命名實體識別(Named Entity Recognition,NER)中的文本標注問題就是一種經(jīng)典的域自適應學習問題.
遷移學習中,假定源域與目標域輸入樣例的概率分布是一樣的,存在多個標簽輸出預測函數(shù),而域自適應學習做相反的假設,即假定源域與目標域樣例標簽預測函數(shù)相同,源域與目標域輸入樣例的概率分布不一樣.域自適應學習通過已知源域信息對于未知目標域進行信息處理和挖掘.目前關(guān)于域自適應學習產(chǎn)生了大量的理論研究成果,例如文獻[1]對統(tǒng)計分類中的域自適應學習進行了綜述;文獻[2~4]對域自適應學習的各種誤差界理論進行了討論;文獻[5~7]圍繞域自適應核學習方法進行了研究和改進;文獻[8~12]對多源域自適應學習問題進行了分析和討論.
域自適應學習算法形式多樣[13~15],如核映射函數(shù)法、結(jié)構(gòu)對應學習、維數(shù)約簡與協(xié)同聚類和遷移分量分析.其中核映射函數(shù)法應用更為普遍,與域自適應學習正則化技術(shù)關(guān)聯(lián)緊密.找到合適的域自適應學習特征表示需要引入跨域數(shù)據(jù)依賴正則化項對新的特征空間進行約束.域自適應學習研究的重點和熱點是提出全新的域分布偏差度量判據(jù)和高效的域自適應學習算法.基于特征表示的域自適應學習是當前使用最為廣泛的域自適應學習方法,通過將源域和目標域數(shù)據(jù)映射到新的特征空間中,使源域與目標域的概率分布在新的特征空間下足夠接近.
本文提出的核典型關(guān)聯(lián)性分析域自適應學習 (Kernel Canonical Correlation Analysis for Domain Adaptation Learning,KCCA-DAML)的主要觀點是將源域和目標域的樣本映射到再生核希爾伯特空間(Reproducing Kernel Hilbert Space,RKHS)中,保證源域和目標域在新的特征空間下線性可分,同時引入KCCA約束,使核空間下源域分布和目標域分布的相關(guān)性最大化,域自適應學習場景下,若兩領域相關(guān),則兩域分布足夠靠近,進而實現(xiàn)源域?qū)W習模型適應于目標域?qū)W習模型.
在Reuters 20 Newsgroups數(shù)據(jù)集、MNIST手寫數(shù)字識別數(shù)據(jù)集和UCI Dermatology數(shù)據(jù)集上進行了實驗.針對四種不同分類模型,比較分析了影響域自適應學習任務有效實現(xiàn)的各種因素和參數(shù)選擇問題.實驗結(jié)果表明KCCA-DAML通過對源域?qū)W習模型進行分布偏差修正,使源域?qū)W習模型逐漸遷移為目標域?qū)W習模型,能夠通過最大化源域和目標域的特征相關(guān)性,保證了源域概率分布和目標域概率分布的差異性足夠小,實現(xiàn)跨域?qū)W習.
源域樣本集DS={(xS,1,yS,1),…,(xS,n,yS,n)},由源域樣例集XS={xS,1,…,xS,n}?Rn×d和源域類標簽集YS={yS,1,…,yS,n}?Rn×1組成,其中每個樣例包含d維特征xS,i∈Rd,對應類標簽yS,i∈{+1,-1}.目標域樣本集分為少量已標識樣本DLT={(xT,1,yT,1),…,(xT,m,yT,m)}和大量未標識樣例DUT={(xT,m+1,?),…,(xT,n,?)},其中每個樣例包含d維特征xT,i∈Rd,對應未知類標簽為yT,i∈{+1,-1}.
域自適應分類任務的目的是利用源域已標識樣本DS,目標域少量已標識樣本DLT和大量未標識樣例XUT,學習一個模型能夠準確地對目標域未標識樣例集DUT分配類標簽.即學習判別函數(shù)f=sign(wTxi):X→Y,預測每個目標域未標識樣例XUT的類標簽YUT,其中非線性映射函數(shù)φ:X→H將樣例映射到特定特征空間,增廣權(quán)向量w=(w1,…,wd)T∈Rd是確定分類平面的特征空間向量.
邏輯斯蒂模型為機器學習中常用的分類模型,邏輯斯蒂分類模型為如下無約束優(yōu)化問題:
(1)
其中σ(z)=ln(1+exp(-z)),對于給定的樣例xi∈Rd,使用相應的邏輯斯蒂模型,能夠得到如下的邏輯斯蒂分類器:
yi=sign(wTxi)
(2)
其中定義符號函數(shù):
(3)
邏輯斯蒂模型置信度為:
(4)
域自適應學習的基本觀點在于充分利用源域大量先驗信息,并通過源域和目標域的偏差度量判據(jù)約束解空間,使學習得到的分類判別函數(shù)f(x,y;w)由源域判別函數(shù)fS(x,y;wS)逐步轉(zhuǎn)變?yōu)槟繕擞蚺袆e函數(shù)fT(x,y;w).
定義核矩陣:
(5)
核映射:
φ:XS={xS,1,…,xS,n}→φ(XS)=[φ(xS,1),…,φ(xS,n)]
(6)
學習判別函數(shù):
f=sign(wTφ(xi)):X→Y
(7)
源域核邏輯斯蒂分類模型為:
(8)
其中kS,i=[k(xS,i,xS,1),…,k(xS,i,xS,n)]=[kS,i,1,…,kS,i,n].
目標域核邏輯斯蒂分類模型為:
(9)
其中kT,i=[k(xT,i,xT,1),…,k(xT,i,xT,n)]=[kT,i,1,…,kT,i,n].
源域和目標域之間存在差異性導致源域邏輯斯蒂分類模型并不能很好的適用于目標域?qū)W習任務.需要引入跨域數(shù)據(jù)依賴正則化項約束邏輯斯蒂分類模型的解空間,將數(shù)據(jù)嵌入到再生核希爾伯特核空間中,通過最小化源域和目標域的最大分布偏差,保證源域和目標域足夠鄰近,使源域和目標域在RKHS中具有相近的概率分布,解決跨領域?qū)W習問題.
當前域自適應學習常用的分布偏差度量為基于均值的偏差度量判據(jù)(Maximum Mean Discrepancy,MMD),是一種較為簡單直觀的度量判據(jù).但是,僅從均值特征來描述變量差異性并不能充分挖掘特征變量的差異性.典型相關(guān)分析(Canonical Correlation Analysis,CCA)是一種分析多變量相關(guān)性的有效方法.典型相關(guān)分析由Hotelling首次提出[16],并研究了兩組變量之間的相關(guān)系數(shù).用單變量Pearson系數(shù)難以從整體描述兩組多變量之間的關(guān)聯(lián)程度,而CCA很好的解決了這一問題.
(10)
(11)
KCCA數(shù)據(jù)依賴正則化項為:
(12)
得到KCCA-DMAL學習模型:
(13)
經(jīng)過核映射后源域判別函數(shù)fS=φ(wS)Tφ(XS)和目標域判別函數(shù)fT=φ(wT)Tφ(XT)相關(guān)性較高,則能實現(xiàn)源域到目標域的遷移學習,fS與fT相關(guān)性越高,遷移學習效果越好.
使用標準CCA[16]對源域和目標域進行關(guān)聯(lián)性分析,對域的樣本進行歸一化,其中源域樣本:
DS={(xS,1,yS,1),…,(xS,n,yS,n)}
(14)
目標域樣本:
DT=({xT,1,yT,1),…,(xT,m,yT,m),(xT,m+1,?),…,(xT,n,?)}
(15)
定義如下向量運算:
(16)
(17)
最大化源域和目標域關(guān)聯(lián)性:
(18)
其中,w1,w2為d×1維列向量,XS,XT分別為源域和目標域的d×n維樣例矩陣,〈xS,xT〉表示向量內(nèi)積運算,CST表示源域樣例xS與目標域樣例xT的協(xié)方差矩陣,CSS為源域樣例xS的方差矩陣,CTT為目標域樣例xT的方差矩陣.
定義核函數(shù):K(xS,xT)=〈φ(xS),φ(xT)〉,則式(18)變?yōu)?
(19)
其中KS為源域樣本數(shù)據(jù)核矩陣,KT為目標域樣本數(shù)據(jù)核矩陣.
通過求解式(8)得到核空間下源域分類向量wS,故域自適應的KCCA求解與普通KCCA求解稍有不同,即wS已知.
(20)
引入a≥0,式(20)表示為無約束形式:
(21)
KCCA-DAML模型的優(yōu)化問題為:
(22)
該問題為帶正則化的L2范數(shù)邏輯斯蒂分類問題,優(yōu)化求解如下:
令
更新迭代公式:
w(t+1)=w(t)+a(t)d(t)
(23)
其中a(t)為第t次迭代的步長,d(t)為第t次迭代的搜索方向,▽L(w)為L(w)關(guān)于w的導數(shù):
(24)
其中:
(25)
由于:
σ(a)=ln(1+exp(-a))
(26)
(27)
故:
(28)
其中A=[y1x1,…,ynxn]T∈Rn×d,p(Y|X;w) =[p(y1|x1;w),…,p(yn|xn;w)]T∈Rn.
由等式(25)、式(28)可以確定搜索方向,式(23)中的步長可以通過如下優(yōu)化問題得到:
(29)
式(29)為單變量優(yōu)化問題,使用Carl Edward Rasmussen軟件包minFun求解.通過逐步迭代更新,可以求解上述問題.最后給出基于關(guān)聯(lián)性分析的域自適應學習算法.
算法1 KCCA-DAML域自適應學習算法
計算d(t)=-▽L(w(t))+g(t-1)w(t-1);
輸出:目標域權(quán)向量w.
本節(jié)通過實驗對KCCA-DAML在分類方面的性能進行研究.目前廣泛使用的域自適應數(shù)據(jù)集有Reuters 20 Newsgroups數(shù)據(jù)集、Amazon reviews benchmark數(shù)據(jù)集和Wall Street Journal語料庫數(shù)據(jù)集等,這些數(shù)據(jù)集最先應用于自然語言處理方面的研究,隨后被廣泛用于跨域?qū)W習問題的研究當中,此外數(shù)據(jù)特征“飄移”導致的數(shù)據(jù)分布差異也是目前常見的域自適應學習問題.本文選擇以下三種廣泛使用的真實數(shù)據(jù)集進行實驗:Reuters 20 Newsgroups數(shù)據(jù)集(http://kdd.ics.uci.edu/databases/20newsgroups);MNIST手寫數(shù)字識別數(shù)據(jù)集(http://yann.lecun.com/exdb/mnist);UCI Dermatology數(shù)據(jù)集(http://archive.ics.uci.edu/ml/datasets.html);為討論跨域?qū)W習的影響因素,實驗按源域數(shù)據(jù)邏輯斯蒂學習模型(S-KLLM,Source-Kernel Logistic Model)、目標域邏輯斯蒂學習模型(T-KLLM,Target-Kernel Logistic Model)、源域+目標域邏輯斯蒂學習模型(ST-KLLM,Source and Target-Kernel Logistic Model)、KCCA-DAML模型進行訓練與測試,并給出KCCA-DAML在三種數(shù)據(jù)集上的實驗結(jié)果和參數(shù)選擇方案.
待調(diào)節(jié)參數(shù)設定為λ∈[2-4,…,2-1,1,2,…,210]和p∈[0.5,0.6,0.7,…,1.4,1.5],為簡化計算復雜度,實驗中使用網(wǎng)格搜索過程確定每組數(shù)據(jù)集參數(shù).對于每組參數(shù)取值,執(zhí)行算法1中的過程.
6.1 Reuters 20 Newsgroups數(shù)據(jù)集
Reuters 20 Newsgroups報文數(shù)據(jù)集具有層次結(jié)構(gòu),包含7個大類:共20個小類,實驗選擇comp和rec兩大類數(shù)據(jù),使用comp的4個小類:comp.windows.x、comp.os.ms-windows、comp.sys.ibm.pc.hardware和comp.sys.mac.hardware.路透社報文數(shù)據(jù)集的基本信息如表1所示.
表1 Reuters 20 Newsgroups報文數(shù)據(jù)集
按照如下方式構(gòu)造源域和目標域數(shù)據(jù).包含comp域遷移學習rec域的兩類任務.
任務1:comp.windows.x作為源域中的正類、rec.autos作為源域中的負類;comp.os.ms-windows作為目標域中的正類、rec.motorcycles作為目標域中的負類.
任務2:comp.sys.ibm.pc.hardware作為源域中的正
mac.hardware作為目標域中的正類、rec.sport.hockey作為目標域中的負類.源域和目標域數(shù)據(jù)構(gòu)成如圖1所示.
20Newsgroups數(shù)據(jù)集為18774×61188的詞頻矩陣,選用comp和rec詞頻數(shù)據(jù)大于30次的特征作為樣本特征,并使用TI-IDF軟件對數(shù)據(jù)進行處理,得到數(shù)據(jù)信息如表2所示:
表2 源域數(shù)據(jù)集和目標域數(shù)據(jù)集構(gòu)成
表3是跨域?qū)W習任務Task1和Task2上的分類誤差率.從表中跨域?qū)W習任務Task1上的分類誤差率結(jié)果可以看出,在a=1.1處得到了最小分類誤差率8.31,此時參數(shù)λ=4,wKCCA與wT的相關(guān)性較大.說明在兩個域相關(guān)性較高的情況下,源域數(shù)據(jù)對目標域數(shù)據(jù)具有較好的遷移效果.此外當源域數(shù)據(jù)的遷移效果較好時,即當已知源域和目標域關(guān)聯(lián)性較高時,參數(shù)a的值可在0.8~1.2范圍內(nèi)選擇.從表中Task2上的分類誤差率結(jié)果可以看出,在a=1.1處得到了最小分類誤差率9.07,此時參數(shù)λ=2,此時兩個域相關(guān)性較不高,源域數(shù)據(jù)對目標域數(shù)據(jù)具有較弱的遷移效果,如果過多考慮源域信息,會產(chǎn)生負遷移,使遷移學習退化為源域的學習.
表3 Task1和Task2上的誤差率
表4是模型S-KLLM,T-KLLM,ST-KLLM及KCCA-DAML在跨域?qū)W習任務Task1和Task2上的分類誤差率,其中T-KLLM訓練樣本數(shù)目為150.從表中結(jié)果可以看出,任務Task1的源域與目標域的相關(guān)性高于Task2,對應的KCCA-DAML的Task1分類誤差率也小于Task2.此外樣本的遷移學習效果越差,源域的跨域?qū)W習性能越受限,跨域?qū)W習機的學習效果也會受到影響.當源域和目標域分布偏差足夠大,甚至源域和目標域無顯著關(guān)聯(lián)時,實現(xiàn)跨域?qū)W習仍是十分困難的.
表4 不同模型下任務1和任務2的誤差率
目標域訓練樣本不足導致T-KLLM學習誤差較大,此外ST-KLLM的分類誤差與S-KLLM的分類誤差相接近,即將源域與目標域合并訓練,跨域?qū)W習誤差不一定減小,原因在于混合訓練樣本中源域樣本在數(shù)量上占優(yōu),起到了主導作用.只有在充分考慮源域信息和域關(guān)聯(lián)信息的前提下,域自適應學習機才能實現(xiàn)良好的跨域?qū)W習.6.2 MNIST手寫數(shù)字識別數(shù)據(jù)集
MNIST手寫數(shù)字識別數(shù)據(jù)集由500個訓練樣本和300個測試樣例組成,每個樣例的維數(shù)是784,采用構(gòu)造特征偏差(feature bias)數(shù)據(jù)集的方法構(gòu)造源域和目標域數(shù)據(jù)集,使源域和目標域分布不同,方法為:隨機選擇訓練樣本的375個屬性列,按數(shù)值大小選各屬性值最大的375個訓練樣本作為源域訓練樣本,剩余樣本為目標域樣本集,從中隨機選擇100個訓練樣本構(gòu)成目標域訓練樣本集,剩余樣例作為目標域測試.由于源域樣本偏差特征值為各樣本最大值,不能準確反映目標域特征的真實情況,導致源域判別函數(shù)不能準確預測目標域.同時,目標域數(shù)已標識樣本數(shù)據(jù)樣本數(shù)目太少,包含目標域信息不完全,也不能準確預測目標域真實分布.
表5是MNIST數(shù)據(jù)集的分類誤差率.從表中結(jié)果可以看出,參數(shù)a在范圍0.6~1.4范圍內(nèi)變化時,對分類誤差率沒有產(chǎn)生明顯影響,但跨域數(shù)據(jù)依賴正則化項的引入能夠保證跨域?qū)W習分類誤差得以改善并不產(chǎn)生惡化.
表5 MNIST數(shù)據(jù)集誤差率
表6是模型S-KLLM,T-KLLM,ST-KLLM及KCCA-DAML在MNIST數(shù)據(jù)集上的分類誤差率.
表6 不同模型下MNIST數(shù)據(jù)集誤差率
MNIST數(shù)據(jù)集實驗中,將源域與目標域合并訓練,跨域?qū)W習誤差減小,這受益于數(shù)據(jù)集特性以及構(gòu)造源域和目標域的方法.和Reuters 20 Newsgroups數(shù)據(jù)集實驗相比較,構(gòu)造特征偏差數(shù)據(jù)集的方法引起的域分布差異性要小于Reuters 20 Newsgroups數(shù)據(jù)集子類差異.
6.3 UCI Dermatology數(shù)據(jù)集
本節(jié)使用UCI Dermatology據(jù)集進行實驗,數(shù)據(jù)集由366個樣本數(shù)據(jù),每個樣例的維數(shù)是33,同MNIST數(shù)據(jù)一樣,采用構(gòu)造特征偏差數(shù)據(jù)集的方法對源域和目標域數(shù)據(jù)進行構(gòu)造,使源域和目標域分布不同.
選擇acanthosis,hyperkeratosis,parakeratosis,clubbing of the rete ridges,elongation of the rete ridges,exocytosis,PNL infiltrate,spongiosis,follicular horn plug這9個特征作為偏差特征.選擇每個偏差特征值中最大的十個樣本(樣本大小為9×10)作為源域訓練樣本,剩余樣本為目標域樣本集,從中隨機選擇30個樣本構(gòu)成目標域訓練樣本集,選擇剩余240個樣例作為目標域測試.
KCCA-DAML在Dermatology數(shù)據(jù)集上的類誤差率如表7所示.
表7 UCI Dermatology數(shù)據(jù)集誤差率
UCI Dermatology數(shù)據(jù)集實驗在a=1.1處得到了最小分類誤差率5.42,此時參數(shù)λ=0.0625.表8是模型S-KLLM,T-KLLM,ST-KLLM及KCCA-DAML在UCI Dermatology數(shù)據(jù)集上進行跨域?qū)W習的分類誤差率.
表8 不同模型下UCI Dermatology數(shù)據(jù)集誤差率
本文提出的域自適應學習算法KCCA-DAML及KCCA域自適應度量判據(jù)能夠有效的揭示源域特征與目標域特征變的潛在關(guān)聯(lián)性,從而對不同領域的差異性進行度量.通過對源域模型進行增量修正,使源域模型逐漸遷移至目標域模型,實現(xiàn)跨域?qū)W習.KCCA-DAML模型在跨域?qū)W習任務中具有可行性且學習性能良好.此外利用跨域?qū)W習中的已知先驗信息,合適的選擇模型參數(shù),可使KCCA-DAML獲得更好的遷移效果,實現(xiàn)更為精確的跨域?qū)W習任務.邏輯斯蒂模型適用于多類學習,因而KCCA-DAML可應用于多域自適應學習場景,這是我們下一步要做的工作.
[1]劉建偉,孫正康,羅雄麟.域自適應學習研究進展[J].自動化學報,2014,40(8):1576-1600. Liu Jianwei,SUN Zhengkang,LUO Xionglin.Review and research development on domain adaptation learning[J].Acta Automatica Sinica,2014,40(8):1576-1600.(in Chinese)
[2]Mansour Y,Mohri M,Rostamizadeh A.Multiple source adaptation and the Rényi divergence[A].Proceedings of the Twenty-Fifth Conference on Uncertainty in Artificial Intelligence[C].Montreal,Canada:AUAI Press,2009.367-374.
[3]Blitzer J,Crammer K,Kulesza.A.Learning bounds for domain adaptation[A].Proceedings of the Twenty-First Annual Conference on Neural Information Processing Systems[C].Vancouver,British Columbia,Canada:Curran Associates,2007.129-136.
[4]Cortes C,Mansour Y,Mohri M.Learning bounds for importance weighting[A].Proceedings of the Twenty-Four Annual Conference on Neural Information Processing Systems[C].Vancouver,Canada:Curran Associates,2010.442-450.
[5]Tao Jianwen,Chung Fulai,Wang Shitong.A kernel learning framework for domain adaptation learning[J].Science China Information Sciences,2012,55(9):1983-2007.
[6]Malandrakis N,Potamianos A,Iosif E.Kernel models for affective lexicon creation[A].12th Annual Conference of the International Speech Communication Association[C].Florence,Italy:International Speech Communication Association,2011.2977-2980.
[7]Kulis B,Saenko K,Darrell T.What you saw is not what you get:Domain adaptation using asymmetric kernel transforms[A].Proceedings of IEEE Conference on Computer Vision and Pattern Recognition (CVPR)[C].Colorado,USA:Springs,2011.1785-1792.
[8]Ben-David S,Blitzer J,Crammer K.A theory of learning from different domains[J].Machine Learning,2010,79(1-2):151-175.
[9]Joshi M,Cohen W W,Dredze M.Multi-domain learning:when do domains matter?[A].Proceedings of the 2012 Joint Conference on Empirical Methods in Natural Language Processing and Computational Natural Language Learning[C].Jeju,Island,Korea:Association for Computational Linguistics,2012.1302-1312.
[10]Joshi M,Dredze M,Cohen W W.What’s in a domain? Multi-domain learning for multi-attribute data[A].Proceedings of the NAACL-HLT[C].Atlanta,Georgia,USA:Association for Computational Linguistics,2013.685-690.
[11]Mansour Y,Mohri M,Rostamizadeh A.Domain adaptation with multiple sources[A].Proceedings of the Twenty-Second Annual Conference on Neural Information Processing Systems[C].Vancouver,British Columbia,Canada:Curran Associates,2008.1041-1048.
[12]Chapelle O,Shivaswamy P,Vadrevu S.Boosted multi-task learning[J].Machine Learning,2011,85(1-2):149-173.
[13]Duan L,Xu D,Tsang I W.Domain adaptation from multiple sources:A domain-dependent regularization approach[J].IEEE Transactions on Neural Networks and Learning Systems,2012,23(3):504-518
[14]Sch?lkopf B,Smola A J,Williamson R C.New support vector algorithms[J].Neural Computation,2000,12(5):1207-1245.
[15]Joachims T.Transductive inference for text classification using support vector machines[A].Proceedings of the Sixteenth International Conference on Machine Learning[C].Bled,Slovenia:Morgan Kaufmann,1999.200-209.
[16]H Hotelling.Relations between two sets of variates[J].Biometrika,1936,28(3):312-377.
劉建偉(通信作者) 男,1966年出生.博士,中國石油大學(北京)副研究員,主要研究方向包括智能信息處理,機器學習,非線性分析與控制,算法分析與設計等.
E-mail:liujw@cup.edu.cn
孫正康 男,碩士,1990 年出生.中國石油大學(北京)地球物理與信息工程學院碩士研究生,研究方向為機器學習.
E-mail:sunzhengkang@126.com
Domain Adaptation Learning with Kernel Logistic Regression and Kernel Canonical Correlation Analysis
LIU Jian-wei1,SUN Zheng-kang1,LIU Ze-yu2,LUO Xiong-lin1
(1.DepartmentofAutomation,ChinaUniversityofPetroleum,Beijing102249,China; 2.NationalEngineeringResearchCenterforFundamentalSoftware,InstituteofSoftware,ChineseAcademyofSciences,Beijing100190,China)
The domain adaptive learning algorithm using kernel logistic regression model is proposed.The proposed approach use kernel canonical correlation analysis to extract the maximum relevant features of the source and target domain.We dub it as KCCA-DAML(Kernel Canonical Correlation Analysis for Domain Adaptation Learning,KCCA-DAML).Our algorithm is based on canonical correlation analysis,which simultaneously minimizes the incompatibility among source features,target features and instance labels,extract maximum relevant features from source features,target features and instance labels,and use kernel logistic regression domain adaptation learning.In experimental comparison of the kernel logistic model and KCCA-DAML model on source domain data,the target domain data,source and the target domain data,we demonstrate the power of our techniques with the following real-world data sets:Reuters 20 Newsgroups,MNIST handwritten-digits and UCI Dermatology.
domain adaptation;distribution discrepancy;correlation analysis;kernel logistic regression;regularization model
2015-05-25;
2015-11-18;責任編輯:覃懷銀
國家重點基礎研究發(fā)展規(guī)劃(973計劃)項目(No.2012CB720500)
TP181
A
0372-2112 (2016)12-2908-08
??學報URL:http://www.ejournal.org.cn
10.3969/j.issn.0372-2112.2016.12.014