王莉莉 馮其帥 陳德運 楊海陸
摘 要:針對大多數(shù)基于實例的遷移學習方法容易產(chǎn)生分布參數(shù)估計困難和泛化效果差的問題,提出一種正則化判別遷移學習算法。依據(jù)判別分析和半監(jiān)督學習理論,采用核方法和正則化方法,研究了基于正則化的高斯核半監(jiān)督判別分析方法,以構(gòu)造修正嵌入空間的方式進行樣本遷移。一方面,在映射空間中篩選樣本可克服估計分布參數(shù)的困難;另一方面,引入偽標記數(shù)據(jù)和定義距離函數(shù)可避免過擬合問題。文本和非文本數(shù)據(jù)集上的實驗結(jié)果驗證了所提算法能夠有效提高遷移的正確率及學習模型的泛化能力。
關(guān)鍵詞:遷移學習;判別分析;正則化;半監(jiān)督學習
DOI:10.15938/j.jhust.2019.02.013
中圖分類號: TP181
文獻標志碼: A
文章編號: 1007-2683(2019)02-0089-07
Abstract:Aiming at the problem that most instancebased transfer learning methods are difficult to estimate the distribution parameters and having poor generalization ability, a regularized discriminant transfer learning algorithm is proposed. Based on the discriminant analysis and semisupervised learning theory, the semisupervised Gauss kernel discriminant analysis method is studied by kernel method and regularization method, and the reusable samples are transferred by constructing the revised embedding space. On the one hand, screening samples in the mapping space can solve the difficulty of estimating the parameters of domain distribution; on the other hand, introducing pseudolabeled data and defining the distance function can avoid overfitting problems. The experimental results on text and nontext datasets validate that the proposed algorithm can effectively improve the accuracy and generalization ability of transferring.
Keywords:transfer learning; discriminant analysis; regularization; semisupervised learning
收稿日期: 2017-03-30
基金項目: 黑龍江省自然科學基金(F2016024).
作者簡介:
馮其帥(1991—),男,碩士研究生;
陳德運(1962—),男,博士,教授,博士研究生導(dǎo)師.
通信作者:
王莉莉(1980—),女,博士,副教授,碩士研究生導(dǎo)師,Email :wanglili@hrbust.edu.cn.
0 引 言
近年來,受到人類學習過程的啟發(fā),“遷移”的概念被引入到機器學習當中[1]。遷移學習是一種適用于數(shù)據(jù)具有不同分布的新機器學習方法,放寬了傳統(tǒng)機器學習過程中對訓練數(shù)據(jù)和測試數(shù)據(jù)作同分布假設(shè)的要求,其思想是把已學習到的知識應(yīng)用到相關(guān)領(lǐng)域來幫助目標任務(wù)的完成。
在基于實例的遷移學習方法中,盡管源領(lǐng)域和目標領(lǐng)域的數(shù)據(jù)分布不同,但是源領(lǐng)域中仍會存在一部分數(shù)據(jù)可以和目標領(lǐng)域數(shù)據(jù)一起使用來訓練學習模型。大多數(shù)實例遷移的方法是對數(shù)據(jù)間的樣本選擇偏差和協(xié)方差偏差進行修正,使得源領(lǐng)域中的部分數(shù)據(jù)可用。文[2-3]等對源領(lǐng)域和目標領(lǐng)域中數(shù)據(jù)的分布進行估計,以修正源領(lǐng)域相對于目標領(lǐng)域的樣本選擇偏差。文[4]等通過分布參數(shù)的學習,對源領(lǐng)域中的數(shù)據(jù)進行評估加權(quán),找出與目標領(lǐng)域中的數(shù)據(jù)分布最相近或?qū)δ繕巳蝿?wù)最有幫助的樣本。然而,這些方法都需要對分布參數(shù)進行估算。在數(shù)據(jù)量較少的情況下,參數(shù)估計往往會出現(xiàn)偏差。
針對上述實例遷移的不足,本文提出一種正則化判別遷移學習算法。首先,在線性判別分析的基礎(chǔ)上引入高斯核,使其適用于現(xiàn)實非線性問題,并通過正則化的方式得到一種半監(jiān)督的高斯核判別分析方法。其次,基于該正則化判別分析并通過定義距離度量來構(gòu)造修正嵌入空間,在不直接估算分布參數(shù)的情況下對源領(lǐng)域中的可重用數(shù)據(jù)進行遷移。在遷移時通過添加偽標記的方式引入目標領(lǐng)域中的未標記數(shù)據(jù),進一步提高遷移學習下分類器的分類精度和泛化能力。
1 正則化的半監(jiān)督判別分析
1.1 判別分析理論
判別分析[5]的目的是學習一個從原始特征空間到新特征空間的映射,該映射可以是線性的,也可以是非線性的。線性判別分析的基本思想是不考慮類條件概率密度的分布,其原理是使用投影矩陣將原始數(shù)據(jù)投影到維度更低的空間中,使得投影后的數(shù)據(jù)會按類別區(qū)分,具有相同類別的數(shù)據(jù)在投影后的空間中更緊密而不同類別的則盡量分開[6]。通常定義一個判據(jù)來度量不同子空間中保留的判別信息,通過求得該判據(jù)的最優(yōu)目標函數(shù)從而得到最優(yōu)的子空間。該過程可以形式化為:
其中,判據(jù)J(W)是關(guān)于投影矩陣W的函數(shù),該函數(shù)通常用映射空間中的類間與類內(nèi)的距離之比來表示,使得在投影空間中同類樣本分布密集而不同類樣本相隔較遠。通常使用歐式距離來計算類間距離和類內(nèi)距離,類間距離即每一類的中心到所有樣本中心的距離,類內(nèi)距離即每一類的樣本到該類樣本中心的距離。從而,判據(jù)J(W)可以表示為
1.2 高斯核判別分析
1.3 基于高斯核的正則化判別分析
為了利用現(xiàn)實中越來越多的無標記數(shù)據(jù),判別分析方法也借鑒半監(jiān)督學習的思想,形成了半監(jiān)督判別分析方法[9]。半監(jiān)督判別分析方法將傳統(tǒng)的判別分析技術(shù)應(yīng)用在半監(jiān)督環(huán)境下,同時利用有標記的數(shù)據(jù)和無標記的數(shù)據(jù)進行學習,目的是找到一種對分類最有效的投影空間,即嵌入空間。根據(jù)利用無標記數(shù)據(jù)學習方法的不同,半監(jiān)督判別分析方法大致可歸納為兩類。第一類是基于正則化的方法,同時利用無標記數(shù)據(jù)和有標記數(shù)據(jù)來保持樣本的局部或全局幾何結(jié)構(gòu)分布,使得投影變換方向保持了樣本的流形分布。第二類是有標記數(shù)據(jù)樣本擴充的方法,根據(jù)無標記數(shù)據(jù)和有標記數(shù)據(jù)樣本的分布特性,將監(jiān)督信號從有標記的數(shù)據(jù)傳遞到無標記的數(shù)據(jù)上。
半監(jiān)督學習常用的假設(shè)是“流形假設(shè)”[10],即假設(shè)數(shù)據(jù)分布在一個流形結(jié)構(gòu)上,鄰近的樣本擁有相似的輸出值。而圖正則化[11]的一般假設(shè)為:若數(shù)據(jù)點在原空間是鄰近點,則對應(yīng)到新的空間中也是鄰近點,圖正則化能夠很好地保持數(shù)據(jù)的內(nèi)在幾何結(jié)構(gòu)。
正則化可理解為一種“罰函數(shù)法”,即對不希望得到的結(jié)果施以懲罰,從而使得優(yōu)化過程趨向于希望目標。正則項用于保持參數(shù)值較小,有助于削減假設(shè)空間,從而能夠降低最小化訓練誤差的過擬合風險。本文采用正則化思想,在投影后的空間中保持樣本的流形結(jié)構(gòu)。在高斯核判別分析的基礎(chǔ)上引入樣本數(shù)據(jù)局部與非局部散度之差作為正則項,得到一種新的基于正則化的半監(jiān)督判別分析方法。該方法能夠使數(shù)據(jù)在投影后的空間中具有最大的類間距離和非局部散度,以及最小的類內(nèi)距離和局部散度,得到更佳的分類效果。該基于正則化的半監(jiān)督判別分析方法的目標函數(shù)可表示為
2 正則化判別遷移學習算法
2.1 算法思想
首先,選取一個分類算法分別在源領(lǐng)域數(shù)據(jù)集上、目標領(lǐng)域的有標記數(shù)據(jù)集上和由這兩個數(shù)據(jù)集組成的新數(shù)據(jù)集上訓練分類器。用這3個分類器分別標注目標領(lǐng)域中的未標記數(shù)據(jù),并對標注結(jié)果進行不加權(quán)投票,使用偽標記數(shù)據(jù)輔助遷移。
其次,使用上節(jié)提出的基于正則化的高斯核半監(jiān)督判別分析方法得到投影矩陣W*,并用其將源領(lǐng)域數(shù)據(jù)、目標領(lǐng)域的有標記數(shù)據(jù)和目標領(lǐng)域的偽標記數(shù)據(jù)投射到嵌入空間τ1中,對源領(lǐng)域數(shù)據(jù)進行篩選。
。
2.2 算法描述
3.選
3 實驗結(jié)果與分析
3.1 實驗數(shù)據(jù)
為了評估本文算法性能,在文本數(shù)據(jù)集20Newsgroups和Reuters-21758,以及非文本UCI數(shù)據(jù)集mushroom上進行實驗驗證。
20Newsgroups是一個包含近20000個新聞組的文檔集,包含了7個大類,大類包含20個子類。Reuters-21758是一個包含近21000個英文文檔的文檔集,它包含5個大類,在這些類別中,orgs、people和places是3個最大的類別。為了使這兩個文本數(shù)據(jù)集適用于遷移學習,需要在預(yù)處理之后對它們進行重構(gòu),使源領(lǐng)域與目標領(lǐng)域內(nèi)的數(shù)據(jù)分布符合不同分布但同時又具有一定相似性。文[13]詳細介紹了文本數(shù)據(jù)的預(yù)處理過程。將頂層類標作為分類標號,將頂層類別下的不同子類別數(shù)據(jù)進行重新組合。以20Newsgroups數(shù)據(jù)集中的rec vs talk為例,可以將rec.autos,rec.motorcycles,talk.politics.gun,talk.politics.misc作為源領(lǐng)域中的樣本,將rec.sport.baseball,rec.sport.hockey,talk.politics.mideast,talk.religion.mise作為目標領(lǐng)域中的樣本。Reuters-21758數(shù)據(jù)集用相似方法進行重構(gòu)。本文選用20Newsgroups數(shù)據(jù)集中的comp、sci、talk、rec四大類以及Reuters-21758中的orgs、people、places 3個大類進行實驗。
UCI數(shù)據(jù)集mushroom包含對8124個蘑菇的特征描述,其中每個樣本被標記為有毒的或者是可食用的。按文[14]對mushroom數(shù)據(jù)集進行如下處理:基于stalkshape屬性將數(shù)據(jù)集分為兩部分,源領(lǐng)域包含所有該屬性值為enlarging的樣本,目標領(lǐng)域包含所有該屬性值為tapering的樣本,使兩域分布不同。
3.2 結(jié)果與分析
本文以目標領(lǐng)域數(shù)據(jù)分類的精度為評價算法分類效果的基準,采用余弦距離來衡量文檔間的相似度。精度計算公式和余弦距離計算公式分別為
。
表2 各方法實驗結(jié)果比較(%)
觀察表2可知,在各個數(shù)據(jù)集上的分類精度通常是最低的。表明了當源領(lǐng)域和目標領(lǐng)域的數(shù)據(jù)分布不一致時,在非遷移學習的環(huán)境下直接訓練得到的分類器,其分類效果往往是很差的。
比較表2的最后兩列可以看出,本文算法在這8個數(shù)據(jù)集上的分類精度相較于都有提升。表明了遷移時引入偽標記數(shù)據(jù)可以進一步提高遷移效果和泛化能力。這是因為偽標記數(shù)據(jù)不僅包含標記數(shù)據(jù)的類別信息,還具有未標記數(shù)據(jù)的分布信息。
圖1依次標出了ACTL、TrAdBoost以及本文算法在各個實驗數(shù)據(jù)集上的分類精度??梢钥闯鲈诖蟛糠智闆r下,本文算法都取得了較好的分類正確率,比TrAdaBoost和ACTL這兩個遷移算法的分類精度還高。
本文算法使用基于正則化的高斯核半監(jiān)督判別分析方法,并定義距離度量和指示矩陣來構(gòu)建修正嵌入空間,從中選出可重用的源領(lǐng)域數(shù)據(jù)樣本,這樣就避免了估計分布參數(shù)而造成的偏差。又因本文算法在遷移的過程中通過偽標記方式引入了目標領(lǐng)域中的無標記數(shù)據(jù),提高了遷移正確率及泛化性能,所以從圖1可觀察出,在rec vs talk、comp vs sci、comp vs talk、sci vs talk、orgs vs places、orgs vs people這6個數(shù)據(jù)集上,本文算法的分類精度較其他兩個算法有明顯的提升。此外,文[21]已經(jīng)驗證了TrAdaBoost遷移學習算法比半監(jiān)督算法分類精度更高,因此本文算法也優(yōu)于半監(jiān)督算法。
圖2依次標出了SVMτT、ACTL和SVMτST在各個實驗數(shù)據(jù)集上的分類精度。這3個算法雖都處在遷移環(huán)境下,但是SVMτT沒有進行樣本選擇,ACTL是結(jié)合主動學習進行的樣本選擇,而SVMτST是在沒有引入偽標記數(shù)據(jù)時在嵌入修正空間中進行樣本選擇。
觀察可知,即使在遷移環(huán)境下,如果不進行樣本選擇,仍然會導(dǎo)致判別結(jié)果產(chǎn)生較大偏差;而使用本文算法所提出的構(gòu)建嵌入空間循環(huán)輔助選擇樣本,大多數(shù)情況下比ACTL的結(jié)合主動學習進行樣本選擇的遷移效果更好。
考慮到循環(huán)次數(shù)的選取可能會對算法的性能產(chǎn)生影響,從文本數(shù)據(jù)集和非文本數(shù)據(jù)集中各選取一組數(shù)據(jù)集,設(shè)置循環(huán)次數(shù)j從1開始取值。將本文算法對應(yīng)不同的循環(huán)次數(shù)各進行5次重復(fù)實驗,并取其平均值作為參考。實驗結(jié)果如圖3所示。
觀察可知,循環(huán)次數(shù)j對本文算法的分類精度有一定程度的影響:整體上,隨著循環(huán)次數(shù)的增加,算法的分類精度增高;當循環(huán)次數(shù)增加到8次以后,算法的分類精度保持在較高水準并穩(wěn)定下來。
最后,實驗比較了隨著目標領(lǐng)域中有標記數(shù)據(jù)的增加,本文算法和傳統(tǒng)SVM算法在comp vs sci和people vs places這兩個數(shù)據(jù)集上的分類效果。將其中的標記數(shù)據(jù)比例范圍設(shè)定為0.01至0.1,實驗結(jié)果圖4所示。
觀察圖4可知,隨著目標領(lǐng)域標記樣本數(shù)量的增加,本文算法和傳統(tǒng)SVM算法在數(shù)據(jù)集上的分類效果都會提升。SVM算法提升幅度很大,這說明很大程度上,制約有監(jiān)督分類算法性能的就是有標記數(shù)據(jù)的不足;本文算法提升幅度不大,說明本文算法通過添加偽標記數(shù)據(jù)輔助遷移學習,在一定程度上解決了目標數(shù)據(jù)不足對算法性能的影響。此外可觀察到,當有標記數(shù)據(jù)不足時,本文算法優(yōu)于SVM很多,這說明在有標記訓練樣本不足時,能夠通過遷移學習來提高訓練效果。
4 結(jié) 論
針對實例遷移學習方法估計分布參數(shù)困難和泛化效果差的問題,本文提出了一種正則化判別遷移學習算法。在對數(shù)據(jù)內(nèi)在結(jié)構(gòu)的認識基礎(chǔ)上,通過構(gòu)造修正嵌入空間對源領(lǐng)域數(shù)據(jù)進行篩選和再利用,并使用不加權(quán)投票的方式引入偽標記數(shù)據(jù)進行輔助遷移。不僅避免了直接對領(lǐng)域分布參數(shù)進行估計,還解決了目標數(shù)據(jù)不足可能造成過擬合和泛化效果差的問題,進一步提高了遷移的正確率。通過對不同的數(shù)據(jù)集進行遷移分類,驗證了該算法具有更好的分類效果和泛化性能。下一步將研究該算法在大數(shù)據(jù)環(huán)境下的有效性。
參 考 文 獻:
[1] PAN S J, YANG Q. A Survey on Transfer Learning[J].IEEE Transaction on Knowledge and Data Engineering,2010,22(10):1345.
[2] BHATT H, SINGH R, VATSA M, et al. Improving Crossresolution Face Matching Using Ensemble Based CoTransfer Learning[J].IEEE Transactions on Image Processing A Publication of the IEEE Signal Processing Society,2014,23(12):5654.
[3] MCGAUGHEY G, WALTERS W P, GOLDMAN B. Understanding Covariate Shift in Model Performance[J].F1000 Research,2016,11(5):597.
[4] SUGIYAMA M, NAKAJIMA S, KASHIMA H. Direct Importance Estimation with Model Selection and Its Application to Covariate Shift Adaptation[J].Advances in Neural Information Processing Systems,2007,13(6):1433.
[5] TIAN Y, QI Z, JU X, et al. Nonparallel Support Vector Machines for Pattern Classification[J].IEEE Transactions on Cybernetics,2014,44(7):1067.
[6] SIDDIQI M H, ALI R, IDRIS M, et al. Human Facial Expression Recognition Using Curvelet Feature Extraction and Normalized Mutual Information Feature Selection[J]. Multimedia Tools and Applications,2016,75(2):935.
[7] 王萬良, 邱紅, 黃瓊芳, 等. 核判別隨機近鄰嵌入分析方法[J].計算機輔助設(shè)計與圖形學學報,2014,25(4):623.
[8] 汪廷華, 陳峻婷. 核函數(shù)的選擇研究綜述[J].計算機工程與設(shè)計,2012,33(3):1181.
[9] 姜偉, 李健芳, 楊炳儒. 黎曼流形框架上半監(jiān)督判別分析[J].計算機輔助設(shè)計與圖形學學報,2014,26(7):1099.
[10]周志華. 半監(jiān)督學習中的協(xié)同訓練算法[M].北京,清華大學出版社,2007:259.
[11]YANG Y, HUANG Z. Local Image Tagging via Graph Regularized Joint Group Sparsity[J]. Pattern Recognition,2013,46(5):1358.
[12]張戰(zhàn)成, 王士同, 鄧趙紅. 支持向量機的一種快速分類算法[J].電子與信息學報,2011,33(9):2181.
[13]王駿, 王士同, 王曉明. 基于特征加權(quán)距離的雙指數(shù)模糊子空間聚類算法[J].控制與決策,2010,25(8):1207.
[14]許敏, 王士同, 顧鑫. TLSVM:一種遷移學習算法[J].控制與決策,2014,29(1):141.
[15]張變蘭, 路永鋼, 張海濤. 基于KL散度和近鄰點間距離的球面嵌入算法[J].計算機應(yīng)用,2017,37(3):680.
[16]MEHTA A K, BHATTACHARYA K, RAY D. Application of Support Vector Network for Power System Static Security Evaluation[J].International Journal of Energy Optimization & Engineering,2015,4(1):55.
[17]TAN Q, DENG H, YANG P. Knowledge Transfer Across Different Domain Data with Multiple Views[J].Neural Computing and Applications,2014,25(1):15.
[18]DAI W Y, YANG Q, XUE G, et al. Boosting for Transfer Learning[C]//Proceedings of the 24th International Conference on Machine Learning.New York:Academic Press,2007:193.
[19]WU J, HAO Y. Linear Regressionbased Efficient SVM Learning for Largescale Classification[J]. IEEE Transactions on Neural Networks & Learning Systems,2015,26(10):2357.
[20]JIANG L, WANG D, CAI Z, et al. Survey of Improving Naive Bayes for Classification[J]. Lecture Notes in Computer Science,2007,46(32):134.
[21]洪佳明, 陳炳超, 印鑒. 一種結(jié)合半監(jiān)督Boosting方法的遷移學習算法[J].小型微型計算機系統(tǒng),2011,32(11):2169.
(編輯:溫澤宇)