汪廷華,陳峻婷
(1.贛南師范學(xué)院 數(shù)學(xué)與計算機科學(xué)學(xué)院,江西 贛州341000;2.贛南師范學(xué)院 現(xiàn)代教育技術(shù)中心,江西 贛州341000)
支持向量機 (support vector machine,SVM)由Vapnik及其合作者[1]在1992年的計算學(xué)習(xí)理論會議上介紹進機器學(xué)習(xí)領(lǐng)域,之后的十幾年中受到了廣泛的關(guān)注并得到了全面深入的發(fā)展,現(xiàn)已成為機器學(xué)習(xí)和數(shù)據(jù)挖掘領(lǐng)域的標(biāo)準(zhǔn)工具。支持向量機是若干機器學(xué)習(xí)標(biāo)準(zhǔn)技術(shù)的集大成者,它集成了最大間隔超平面、Mercer核、凸二次優(yōu)化、稀疏解和松弛變量等多項技術(shù),主要用于模式分類和回歸估計。支持向量機是結(jié)構(gòu)風(fēng)險最小化 (structural risk minimization,SRM)原則的具體體現(xiàn),它根據(jù)有限的樣本信息在機器的學(xué)習(xí)能力和復(fù)雜性之間尋求最佳折衷。與傳統(tǒng)的神經(jīng)網(wǎng)絡(luò)學(xué)習(xí)算法相比,支持向量機克服了局部極小和維數(shù)災(zāi)難等問題,泛化能力明顯提高[2]。
用于模式分類的支持向量機工作的原理是:在非線性可分的情況下,使用一個非線性變換Φ,把輸入空間X映射到一個高維特征空間F,然后在特征空間中使用線性分類算法進行分類。非線性變換Φ通過所謂的核函數(shù)k(x,z)隱式定義,它能在特征空間中高效地計算內(nèi)積,即k(x,z)=<Φ (x)·Φ (z)>。通常 Φ (·)比k(·)更為復(fù)雜,因此核函數(shù)的引入可以大大降低非線性變換的計算量。通過核映射將原空間線性不可分的問題轉(zhuǎn)化成某高維特征空間線性可分問題,而且不增加計算的復(fù)雜度,這就是所謂的核技巧??梢赃@么說,在支持向量機所獲得的巨大成功中,核技巧扮演了非常重要的角色。進一步地,通過把核函數(shù)引入到一些傳統(tǒng)的學(xué)習(xí)算法,可以方便地把線性算法轉(zhuǎn)換為非線性算法[3],例如:核Fisher判別分析(Kernel FDA)、核主成分分析 (Kernel PCA)、核獨立成分分析 (Kernel ICA)、核聚類分析、核等距映射 (Kernel Isomap)等等,這些算法和支持向量機一起即是所謂的基于核的學(xué)習(xí)方法,簡稱核方法。核方法為我們提供了一種解決非線性問題的非常巧妙的方法;簡單地說,我們可以把核方法推廣至任何包含內(nèi)積運算的算法中。
各種核方法的共同策略是:把數(shù)據(jù)嵌入到一個可以發(fā)現(xiàn)線性關(guān)系的空間。從模塊化的角度來看,核方法由兩個組件構(gòu)成:初始映射和模式分析算法,前者由所謂的核函數(shù)隱式定義,它依賴于具體的數(shù)據(jù)類型和關(guān)于模式的領(lǐng)域知識,該組件由輸入數(shù)據(jù)構(gòu)造一個核矩陣 (Gram矩陣);后者是從核矩陣中檢測具體的模式函數(shù)。這一觀測表明模式分析算法能夠收集到的關(guān)于訓(xùn)練數(shù)據(jù)和選定的特征空間的所有信息,都包含在由核函數(shù)構(gòu)造的核矩陣中。從這個意義上說,可以把核函數(shù) (核矩陣)看作核方法的信息瓶頸;核函數(shù)的選擇是核方法取得成功的一個關(guān)鍵問題,同時也是一個難點問題。本文以支持向量機作為核函數(shù)的載體系統(tǒng)綜述了核函數(shù)的構(gòu)造與學(xué)習(xí)方法,在總結(jié)該領(lǐng)域研究現(xiàn)狀與應(yīng)用的基礎(chǔ)上,凝練了其進一步研究的方向。
支持向量機方法是從線性可分情況下的最優(yōu)分類面發(fā)展而來的。對于一組訓(xùn)練樣本集 (xi,yi),xi∈Rn,yi∈{+1,-1},i=1,…,l,如果分類面<w·x>+b=0能將訓(xùn)練樣本正確地分為兩類,那么應(yīng)使得兩類樣本到最優(yōu)分類面最小距離之和最大。通過求解下面的優(yōu)化問題可以到得最優(yōu)分類面
式中:C——懲罰系數(shù) (目的是在模型復(fù)雜性與學(xué)習(xí)能力之間進行折),ξi——誤差項。采用拉格朗日乘子法求解上述具有線性約束的二次規(guī)劃問題,可以得到Wolfe對偶問題
式中:αi——拉格朗日乘子。顯然,這是一個具有線性約束的凸二次優(yōu)化問題,具有唯一解。解中αi≠0所對應(yīng)的樣本稱為支持向量,也就是對最優(yōu)分類面有貢獻的樣本。解上述優(yōu)化問題可以得到?jīng)Q策函數(shù)
對非線性問題,設(shè)有一個非線性映射Φ:X→F將輸入空間的樣本映射到一個高維 (可能是無窮維)的特征空間F中,在F中實現(xiàn)線性分類。引入核函數(shù)k(x,z)=<Φ(x)·Φ (z)>,對偶問題 (2)變?yōu)?/p>
相應(yīng)的決策函數(shù)也變?yōu)?/p>
在實際應(yīng)用中,常用的核函數(shù)有線性核、多項式核、Gaussian核、Sigmoid核等[2-3]。
核函數(shù)的理論最早可以追溯到20世紀(jì)初期。1909年,Mercer發(fā)現(xiàn)在積分方程的所有連續(xù)核中,核可以表征為正定積分算子的一個二元函數(shù),并從數(shù)學(xué)上給出了有關(guān)正定核函數(shù)存在和判定的充分必要條件,這就是著名的Mercer定理。另一方面,Aronszajn在20世紀(jì)40年代發(fā)展了再生核Hilbert空間的理論。在該理論中,通過核函數(shù)的再生性質(zhì)對核函數(shù)的定義進行了統(tǒng)一,從而使得很多復(fù)雜的證明被大大簡化。而運用Mercer定理把核解釋成一個Hilbert空間中的內(nèi)積這一思想,則首先是在1964年由Aizerman,Braverman和Rozonoer在勢函數(shù)方法的研究工作中引入機器學(xué)習(xí)領(lǐng)域的;但是它的應(yīng)用潛力直到Boser,Guyon和Vapnik[1]在介紹支持向量機時才首次得到充分理解。
根據(jù)Mercer定理,確認(rèn)一個新的對稱函數(shù)是否是一個核的關(guān)鍵是要檢查該函數(shù)在任意有限點集上定義的矩陣是否是半正定的。確切地說,只要我們能保證一個或多個核上的運算結(jié)果總是一個半正定對稱矩陣,就認(rèn)為該運算結(jié)果是一個核,并稱核函數(shù)在這些運算下是封閉的。由此,我們可以得到一種簡單的核函數(shù)構(gòu)造方法,即利用簡單的核函數(shù)構(gòu)造復(fù)雜的核函數(shù)[3]。在核方法研究的早期,人們只考慮這種封閉形式的核函數(shù),它們的處理數(shù)據(jù)一般定義在向量空間。例如任雙橋等人[4]根據(jù)特征空間完全可分的條件,提出了一種自適應(yīng)的多項式核函數(shù)和B-樣條核函數(shù)的構(gòu)造方法,其本質(zhì)上也是利用了核函數(shù)運算的封閉性質(zhì)。
ANOVA核的引入給出了第一個根據(jù)遞歸關(guān)系定義的核,可以利用動態(tài)規(guī)劃高效地求出這個核[5]。同時人們也認(rèn)識到,核并不一定必須定義在向量型的輸入上。1999年,根據(jù)遞歸關(guān)系定義的串核開始出現(xiàn)[6]。這些開創(chuàng)性的工作極大地擴展了核的應(yīng)用,顯示了輸入空間可以是向量、字符串、生物序列、文本、圖像等結(jié)構(gòu)化數(shù)據(jù)。定義在結(jié)構(gòu)化數(shù)據(jù)上的核,如卷積核、字符串核、樹核、圖核等,被稱為結(jié)構(gòu)化數(shù)據(jù)核函數(shù)[7]。這些核一般通過直接定義特征空間的內(nèi)積構(gòu)造,無需檢查半正定性,這就是所謂的從特征中構(gòu)造核函數(shù)的方法[3]。在結(jié)構(gòu)化數(shù)據(jù)核函數(shù)中,從輸入空間到特征空間的映射較為復(fù)雜,直接通過這種映射去計算核函數(shù)不太現(xiàn)實,因為計算量太大,無法在實際的應(yīng)用中使用。因此,在提出這些核函數(shù)的同時,研究者們都會提出一些快速實現(xiàn)算法,以便將這些結(jié)構(gòu)化數(shù)據(jù)核函數(shù)應(yīng)用于實際問題中[3,8-10]。對于結(jié)構(gòu)化數(shù)據(jù),另一個有趣的構(gòu)造核的方法是從數(shù)據(jù)的生成信息中求得核,Jaakkola和Haussler[11]最早研究了這個主題。這種方法要求首先按照數(shù)據(jù)生成的方式建立一個被稱為生成模型的模型,該模型可以是確定的或者是概率的,也可以是簡單函數(shù)或者復(fù)雜的圖結(jié)構(gòu),例如有限狀態(tài)自動機或者隱Markov模型;然后利用這些模型為嵌入函數(shù)提供特征并設(shè)計可以高效計算的核。
另外,在核方法中參與實際運算的是核矩陣,因而可以不需要知道核函數(shù)的具體形式,直接推斷出核矩陣就足夠了?;谶@種考慮,一些研究人員研究了直接核矩陣學(xué)習(xí)與構(gòu)造的方法,例如Lanckriet等人[12]利用半正定規(guī)劃(Semidefinite programming,SDP)技術(shù)進行最優(yōu)核矩陣的學(xué)習(xí);吳濤等人[13]提出利用散亂數(shù)據(jù)插值的辦法確定特征空間中感興趣點的內(nèi)積值以代替?zhèn)鹘y(tǒng)核函數(shù)的一般表達式所起的作用。這種方法的本質(zhì)是直接從數(shù)據(jù)中構(gòu)造核矩陣,為研究人員提供了一種新的有潛力的思路。
最后,Ong等人[14]通過定義在一種核空間上的再生核Hilbert空間,即超再生核Hilbert空間,引入了超核的概念。超核的構(gòu)造與學(xué)習(xí)可以通過定義一個 “品質(zhì)函數(shù)(quality functional)”的量來實現(xiàn)。超核是一種更廣義的核理論,在核函數(shù)的構(gòu)造方面是一種新的嘗試。
核函數(shù)的構(gòu)造對于核方法固然重要,但當(dāng)核函數(shù)構(gòu)造完畢 (核函數(shù)的類型固定)后,如何確定核函數(shù)中待定參數(shù) (簡稱核參數(shù))的最優(yōu)值同樣重要。研究表明,針對同一個核函數(shù),選擇不同的核參數(shù),核方法的性能可能會相差很大。這主要是因為不同的參數(shù)所對應(yīng)的特征空間的結(jié)構(gòu)具有差異性,而特征空間的性質(zhì)直接決定著核方法的性能。從SVM模型選擇的角度來看,一般地,判斷算法中的參數(shù)值是否最優(yōu),本質(zhì)上就是選取適當(dāng)?shù)膮?shù)值以使得算法相應(yīng)的錯誤率最小。目前關(guān)于核函數(shù)中參數(shù)選擇問題的解決思路主要有3種:①交叉驗證技術(shù);②最小化學(xué)習(xí)算法錯誤率的上界;③優(yōu)化核函數(shù) (核矩陣)度量標(biāo)準(zhǔn)。
交叉驗證技術(shù)的基本思想通過測試非訓(xùn)練樣本在某固定參數(shù)值上的分類錯誤率,然后不斷地修正參數(shù),以便使測試錯誤率最?。?5]。該方法本質(zhì)上是參數(shù)空間窮盡搜索法,即用參數(shù)空間中每一組可能的參數(shù)組合去訓(xùn)練和測試SVM,找出效果最好的參數(shù)組合。經(jīng)典方法有k-折交叉驗證 (k-fold cross-validation) 和 留 一 法 (leave-one-out,LOO)。以泛化誤差估計定理為理論基礎(chǔ)的留一法在理論上已被證明是關(guān)于真實錯誤率的無偏估計;k-折交叉驗證法是留一法的推廣,計算精度較高而且計算量相對留一法來說減少很多。交叉驗證技術(shù)的明顯缺陷是不僅需要極大的計算量,并且當(dāng)參數(shù)超過兩個時,將難于實現(xiàn)。
為了解決交叉驗證技術(shù)在大樣本、多參數(shù)計算上的困難,許多學(xué)者提出了最小化留一法誤差上界的方法,這些誤差界包括 Xi-Alpha bound、GACV、Span bound、VC-bound、Radius-margin bound(RM)等。其中RM 界是較常用的一種誤差界[16],Duan等人[15]指出該界是連續(xù)且容易計算的一種風(fēng)險上界,但只適用于硬間隔SVM和二范數(shù)軟間隔SVM。為了使RM界適用于一范數(shù)軟間隔SVM,Chung等人[17]對該界進行了推廣,得到了一個新的RM界,并利用這個新的界去選擇Gaussian核的寬度參數(shù),取得了很好的效果。常群等人[18]則利用這個新的RM界把Gaussian核參數(shù)的選擇從單個推廣到多個。另外,考慮到上述這些界只適用于二分類SVM的缺陷,Wang等人[19]將RM界推廣到了多分類SVM的情形?;诮绲姆椒ㄍǔ2捎没谔荻鹊膬?yōu)化算法去求得較優(yōu)的參數(shù)值。和交叉驗證技術(shù)相比,這種最小化學(xué)習(xí)算法風(fēng)險上界的方法大大減少了計算量,從而適合于多參數(shù)的選擇問題;但該方法有一個明顯的缺陷,即每一次迭代均需訓(xùn)練SVM和求解一個額外的二次規(guī)劃問題去得到特征空間中包含所有訓(xùn)練樣本的最小超球半徑,這無疑是一個可觀的計算開銷。
核參數(shù)選擇的第三種思路是優(yōu)化相關(guān)的核度量標(biāo)準(zhǔn),其主要出發(fā)點是如何衡量核函數(shù)和學(xué)習(xí)任務(wù) (分類)的一致性。核度量是兩個核函數(shù)之間或核函數(shù)與目標(biāo)函數(shù)間的一個相似性度量,其概念最早由Cristianini等人[20]提出。Cristianini等人提出的核度量標(biāo)準(zhǔn)稱為核排列 (kernel-target alignment,KTA),它已經(jīng)廣泛地應(yīng)用于核函數(shù)的選擇之中[21]。Baram[22]提出的核極化 (kernel Polarization)標(biāo)準(zhǔn)可以看作是未歸一化的核排列,實驗表明采用核極化標(biāo)準(zhǔn)和采用交叉驗證技術(shù)選擇Gaussian核的寬度參數(shù),SVM獲得了相似的分類性能。Wang等人[23]則進一步研究了核極化的幾何意義,指出高的核極化值意味著同類的數(shù)據(jù)點相互靠近而異類的數(shù)據(jù)點則相互遠(yuǎn)離,并提出了一種基于優(yōu)化核極化的廣義Gaussian核的參數(shù)選擇算法。Nguyen和Ho兩人[24]則分析了核排列標(biāo)準(zhǔn)的一些嚴(yán)重缺陷,指出擁有較大的核排列值是一個好核函數(shù)的充分而非必要條件(即使KTA值很小的核函數(shù)完全有可能獲得很好的性能),并提出了一個替代標(biāo)準(zhǔn),即基于特征空間的核矩陣度量標(biāo)準(zhǔn) (feature space-based kernel matrix evaluation measure,F(xiàn)SM)。從特征空間中數(shù)據(jù)點的分布趨勢來看,核排列 (包括核極化)與基于特征空間的核矩陣度量標(biāo)準(zhǔn)的目標(biāo)是基本一致的,即盡量使得同類數(shù)據(jù)點盡量靠近,而異類數(shù)據(jù)點盡量遠(yuǎn)離。然而,不同的地方在于,對于同類數(shù)據(jù),前者是在所有的方向上考慮數(shù)據(jù)的偏差,而后者只是在正負(fù)類中心所確定的方向上考慮數(shù)據(jù)的偏差;換句話說,數(shù)據(jù)沿著平行于分類超平面的方向移動并不影響分類的性能。Wang等人[25]對上述3種核度量標(biāo)準(zhǔn)進行了深入的分析,指出它們只考慮了異類樣本數(shù)據(jù)之間的分離性,而沒有考慮同類樣本數(shù)據(jù)的局部結(jié)構(gòu)信息的保持性;這種 “全局性”的度量標(biāo)準(zhǔn)有可能會限制增強數(shù)據(jù)可分性的自由度。針對這個缺陷,提出了一個局部化的核度量標(biāo)準(zhǔn),即局部核極化 (local kernel polarization,LKP)。局部核極化通過引入親和系數(shù) (affinity coefficient)在一定程度上保持了同類樣本數(shù)據(jù)的局部結(jié)構(gòu)信息,從而進一步增強了異類樣本數(shù)據(jù)之間的可分性。最近,考慮到數(shù)據(jù)點在特征空間中的位置不當(dāng) (例如數(shù)據(jù)點的凸包遠(yuǎn)離坐標(biāo)原點)會導(dǎo)致核排列標(biāo)準(zhǔn)的失效,Cortes等人[26]提出了一種基于中心化核的排列標(biāo)準(zhǔn),并給出了該標(biāo)準(zhǔn)的理論結(jié)果及在核優(yōu)化中的應(yīng)用。和最小化學(xué)習(xí)算法錯誤率 (風(fēng)險)上界的方法相比,優(yōu)化核函數(shù) (核矩陣)度量標(biāo)準(zhǔn)的方法的優(yōu)點是不需要多遍訓(xùn)練SVM和計算特征空間中包含所有訓(xùn)練樣本的最小超球半徑;另外,優(yōu)化核函數(shù) (核矩陣)度量標(biāo)準(zhǔn)的方法可以獨立于具體的核學(xué)習(xí)算法。
核參數(shù)選擇的其它方法包括核路徑算法[27]、基于計算特征空間中簇間距的算法[28]、基于核相似性差異最大化的高斯核參數(shù)選擇算法[29]等。另外,從所采用的優(yōu)化方法的角度看,除了常用的基于梯度的迭代算法之外,許多學(xué)者也采用了隨機算法來選擇核函數(shù)中的參數(shù)。
現(xiàn)實世界中往往存在大量的來自多個數(shù)據(jù)源或異構(gòu)的數(shù)據(jù)集,例如基因組數(shù)據(jù)庫就往往由多種類型的數(shù)據(jù)構(gòu)成:變長度的氨基酸串、實值的基因表達數(shù)據(jù)以及蛋白質(zhì)之間的交感作用圖等?;诓捎脝蝹€核函數(shù)的形式處理類似數(shù)據(jù)的效果不是很理想的事實,2004年Lanckriet和Bach等人[12,30-31]提出了一種新的學(xué)習(xí)框架,即多核學(xué)習(xí) (multiple kernel learning,MKL)。多核學(xué)習(xí)采用了多個基核 (basis kernel)的組合形式,其中每個基核可以使用描述樣例的所有特征,也可以只使用來自某個特定數(shù)據(jù)源 (或觀察樣例的某個特定視角)的特征。由于采用多核學(xué)習(xí)的SVM具有一系列單核SVM所不具備的優(yōu)點,例如決策函數(shù)的可解釋性、核函數(shù)的自動選擇、預(yù)測性能的提升等,多核學(xué)習(xí)一經(jīng)提出就得到了廣泛的關(guān)注,是近年來核方法研究的一個非常熱點的問題[12,30-40]。多核學(xué)習(xí)能夠自動評估各個基核對于目標(biāo)問題的重要性,從而為我們提供了一條選擇最優(yōu)核函數(shù)的較佳途徑。目前,多核學(xué)習(xí)的研究主要集中在如何提高學(xué)習(xí)的效率 (efficiency)和準(zhǔn)確率 (accuracy)兩個方面。
從學(xué)習(xí)的效率方面來看,Lanckriet等人[12]首先指出以SVM的結(jié)構(gòu)風(fēng)險為優(yōu)化目標(biāo)函數(shù)的多核學(xué)習(xí)等價于求解一個半正定規(guī)劃 (semi-definite programming,SDP)問題,或更特殊地是一個二次約束的二次規(guī)劃 (quadratically constrained quadratic programming,QCQP)問題[30],為多核模型提供了一種功能強大的漸近直推式算法。SDP與QCQP屬于凸規(guī)劃問題,理論上可以保證得到全局最優(yōu)解,但只適合于求解小規(guī)模 (基核數(shù)目與數(shù)據(jù)規(guī)模均較?。┑膯栴}。隨后Bach等人[31]又提出了QCQP的一種新的對偶形式,即 二 階 錐 規(guī) 劃 (second order cone programming,SOCP),并將其寫成SMO算法適用的形式,可以求解中等規(guī)模的問題。為了適用于大規(guī)模問題,近年來許多研究者提出了交替優(yōu)化的方法,如基于半無限線性規(guī)劃 (semi-infinite linear programming,SILP)的方法[32]、簡單多核學(xué)習(xí) (SimpleMKL)方法[33]、基于分組 Lasso的方法[34]等。這類方法在基核的權(quán)系數(shù)優(yōu)化與SVM訓(xùn)練之間交替進行直至算法收斂,即算法的每一次循均包含兩個步驟:①給定當(dāng)前步的權(quán)系數(shù)值,求解一個經(jīng)典的SVM問題;②采用某種特定的過程更新權(quán)系數(shù)。這類方法的優(yōu)點是可以利用成熟的SVM工具包進行快速求解,不同的地方主要在于更新權(quán)系數(shù)方法的不同。
從分類的準(zhǔn)確率方面來看,主要考慮的是什么樣的基核組合形式能夠獲得更高的分類準(zhǔn)確率。多核模型最簡單也是最常見的一種構(gòu)造形式就是多個基核的凸組合。凸組合形式中權(quán)系數(shù)的L1范數(shù)也稱為單純形約束,采用這種組合形式的多核學(xué)習(xí)稱為L1-MKL。L1-MKL的優(yōu)點是它會得到稀疏的解,即只有一部分權(quán)系數(shù)不為零。稀疏性的提高在某些情況下可以減少冗余,提高運算效率;但當(dāng)問題的特征編碼之間具有正交性的時候,稀疏性可能導(dǎo)致有用信息的丟失和泛化能力的減弱,基于這種情況,Kloft等人[35]提出了非稀疏多核學(xué)習(xí)方法,即L2-MKL。L2-MKL在特征集冗余和抗噪聲方面具有較強的魯棒性。隨后Kloft等人[36]又將L2范數(shù)推廣到任意的Lp(P>1)范數(shù),即Lp-MKL,進一步增強了算法的魯棒性和通用性。此外,考慮到基核集中可能存在主成分結(jié)構(gòu),一些研究者也提出了基于權(quán)系數(shù)的混合范數(shù) (mixed-norm)的組合形式[37],為多核學(xué)習(xí)提供了一種基于混合范數(shù)正則化的新思路。與上述多核模型基于基核的線性組合形式不同,一些研究人員討論了基核的非線性組合的可行性[38]。雖然非線性組合擴大了問題的解空間,但高昂的計算開銷和結(jié)果的難以解釋性等問題是不容忽視的。
最后,許多研究者也根據(jù)具體應(yīng)用問題的實際,對多核學(xué)習(xí)的框架進行了相應(yīng)的擴展 (或修正),例如提出了多分類多核學(xué)習(xí)、多標(biāo)簽多核學(xué)習(xí)、局部多核學(xué)習(xí)、基于間隔和半徑的多核學(xué)習(xí)等模型及其求解算法。
核函數(shù)的選擇是核方法研究中的一個關(guān)鍵問題,同時也是一個難點問題。本文從以SVM作為核函數(shù)的載體,從核函數(shù)的構(gòu)造、核函數(shù)中參數(shù)的選擇、多核學(xué)習(xí)3個方面對核函數(shù)的選擇作了比較全面的評述。從目前的情況看,作者認(rèn)為該領(lǐng)域的以下一些問題值得進一步研究:
(1)根據(jù)特定的應(yīng)用領(lǐng)域選擇核函數(shù)。SVM是一種在特征空間實施線性判決的學(xué)習(xí)算法,其中特征空間由核函數(shù)隱式定義。事實上,盡管在理論上核函數(shù)有很大的選擇余地,但在現(xiàn)實世界中如何根據(jù)特定的應(yīng)用領(lǐng)域選擇使用特定的核函數(shù)是卻是一個公開的難題。一般而言,使用一些通用的核函數(shù) (例如Gaussian核函數(shù))可以解決一部分問題;然而,眾多的研究已經(jīng)表明核函數(shù)的選擇與數(shù)據(jù)的性質(zhì) (領(lǐng)域)有著密切的關(guān)系。多核學(xué)習(xí)通過多個基核的組合,從另一個角度解決了特定核函數(shù)的選擇問題,通過多個權(quán)系數(shù)的調(diào)節(jié)與優(yōu)化,使組合的核函數(shù)盡可能滿足實際的需求。由于多核學(xué)習(xí)需要對多個基核的權(quán)系數(shù)及其它參數(shù)進行優(yōu)化,因而研究高效的學(xué)習(xí)算法是必需的。另外,根據(jù)具體問題的不同,對多核學(xué)習(xí)的框架進行相應(yīng)的擴展(或修正)也是一個需要進行深入研究的課題。
(2)設(shè)計有效的核函數(shù)度量標(biāo)準(zhǔn)。為了選擇恰當(dāng)?shù)暮撕瘮?shù),一個好的核度量標(biāo)準(zhǔn)是必要的。Nguyen和Ho兩人[24]在提出基于特征空間的核矩陣度量標(biāo)準(zhǔn)的時候曾經(jīng)指出,當(dāng)數(shù)據(jù)集中存在局部結(jié)構(gòu)信息的時候,簡單地減小同類內(nèi)的數(shù)據(jù)偏差是沒有什么意義的,但是他們并沒有給出在設(shè)計核度量標(biāo)準(zhǔn)的時候如何消除這種影響的方法。Wang等人[25]提出的局部核極化應(yīng)該是一種有益的嘗試和可行的選擇。然而,這個工作還是略顯粗糙,還有諸如如何針對具體問題確定親和系數(shù)、如何將局部核極化推廣到一般的核函數(shù)等問題需要進一步的研究和探討。通過采用與Wang等人[25]相同的分析方法,我們很容易發(fā)現(xiàn)核排列和基于特征空間的核矩陣度量標(biāo)準(zhǔn)也沒有考慮數(shù)據(jù)集中的局部結(jié)構(gòu)信息對算法性能的影響,因而也是一種 “全局性”的核度量標(biāo)準(zhǔn)。雖然如此,但要提出它們的 “局部化”版本卻比局部核極化復(fù)雜得多。這顯然是未來研究的一個令人感興趣的方向。此外,設(shè)計核度量標(biāo)準(zhǔn)的目的是為了通過優(yōu)化該標(biāo)準(zhǔn)來增強異類樣本數(shù)據(jù)之間的可分性,這和機器學(xué)習(xí)中的其它標(biāo)準(zhǔn)非常類似,如最小最大概率機器 (Minmax probability machine,MPM)中的最差誤分概率、距離度量學(xué)習(xí) (distance metric learning)中的有關(guān)優(yōu)化準(zhǔn)則、類別可分離性標(biāo)準(zhǔn)等。深入研究這些標(biāo)準(zhǔn)之間的關(guān)系,可以使我們從這些標(biāo)準(zhǔn)中得到啟發(fā),進而設(shè)計出更有效的核度量標(biāo)準(zhǔn)。
(3)拓寬核函數(shù)選擇的研究范圍。目前,核函數(shù)的選擇研究主要集中在模式分類領(lǐng)域,在回歸、聚類、時間序列分析等領(lǐng)域的研究則較少,在這些方面的研究對于拓寬核函數(shù)選擇研究的范圍,開辟核方法應(yīng)用的新領(lǐng)域具有十分重要的意義。
[1]Boser B,Guyon I,Vapnik V.A training algorithm for optimal margin classifiers[C].Pittsburgh,USA:Proc of the 5th Annual ACM Conference on Computational Learning Theory,1992:144-152.
[2]Vapnik V.The nature of statistical learning theory[M].New York:Springer,1995.
[3]Shawe-Taylor J,Cristianini N.Kernel methods for pattern analysis[M].Cambridge:Cambridge University Press,2004.
[4]REN Shuang-qiao,WEI Xi-zhang,LI Xiang,et al.Adaptive construction for kernel function based on the feature discriminability [J].Chinese Journal of Computers,2008,31(5):803-809 (in Chinese). [任雙橋,魏璽章,黎湘,等.基于特征可分性的核函數(shù)自適應(yīng)構(gòu)造 [J].計算機學(xué)報,2008,31 (5):803-809.]
[5]Burges C J C,Vapnik V.A new method for constructing artificial neural networks [R].Interim Technical Report,ONR Contract N00014-94-C-0186.Technical Report,AT&T Bell Laboratories,1995.
[6]Haussler D.Convolution kernels on discrete structures [R].Technical Report UCSC-CRL-99-10,Department of Computer Science,University of California in Santa Cruz,1999.
[7]G rtner T.A survey of kernels for structured data [J].ACM SIGKDD Explorations Newsletter,2003,5 (1):49-58.
[8]Viswanathan S V N,Borgwardt K M,Schraudolph N N.Fast computation of graph kernels [C].Advances in Neural Information Processing Systems 19,2006.
[9]YIN Chuan-h(huán)uan,TIAN Sheng-feng,MU Shao-min.A fast algorithm for gapped kernels [J].Acta Electronica Sinica,2007,35 (5):875-881 (in Chinese). [尹傳環(huán),田盛豐,牟少敏.一種面向間隙核函數(shù)的快速算法 [J].電子學(xué)報,2007,35 (5):875-881.]
[10]YIN C,TIAN S,MU S,et al.Efficient computations of gapped string kernels based on suffix kernel[J].Neurocomputing,2008,71 (4-6):944-962.
[11]Jaakkola T S,Haussler D.Exploiting generative models in discriminative classifiers [C].Advances in Neural Information Processing Systems 11,1998.
[12]Lanckriet G R G,Cristianini N,Bartlett P,et al.Learning the kernel matrix with semidefinite programming [J].Journal of Machine Learning Research,2004,5:27-72.
[13]WU Tao,HE Han-gen,HE Ming-ke.Interpolation based kernel function’s construction [J].Chinese Journal of Computers,2003,26 (8):990-996 (in Chinese). [吳濤,賀漢根,賀明科.基于插值的核函數(shù)構(gòu)造 [J].計算機學(xué)報,2003,26 (8):990-996.]
[14]Ong C S,Smola A J,Williamson R C.Learning the kernel with hyperkernels [J].Journal of Machine Learning Research,2005,6:1043-1071.
[15]Duan K,Keerthi S S,Poo A N.Evaluation of simple performance measures for tuning SVM hyperparameters [J].Neurocomputing,2003,51:41-59.
[16]Chapelle O,Vapnik V,Mukherjee S.Choosing multiple parameters for support vector machines [J].Machine Learning,2002,46 (1):131-159.
[17]Chung K M,Kao W C,Sun C L,et al.Radius margin bounds for support vector machines with the RBF kernel[J].Neural Computation,2003,15 (11):2463-2681.
[18]CHANG Qun,WANG Xiao-long,LIN Yi-meng,et al.Support vector classification and Gaussian kernel with multiple widths [J].Acta Electronica Sinica,2007,35 (3):484-487(in Chinese).[常群,王曉龍,林沂蒙,等.支持向量分類和多寬度高斯核 [J].電子學(xué)報,2007,35 (3):484-487.]
[19]WANG L,XUE P,CHAN K L.Two criteria for model selection in multiclass support vector machines [J].IEEE Transactions on System,Man,and Cybernetics-Part B:Cybernetics,2008,38 (6):1432-1448.
[20]Cristianini N,Shawe-Taylor J,Elisseeff A,et al.On kernel-target alignment [C].Advances in Neural Information Processing Systems 14,2001:367-373.
[21]Igel C,Glasmachers T,Mersch B,et al.Gradient-based optimization of kernel-target alignment for sequence kernels applied to bacterial gene start detection [J].IEEE/ACM Transactions on Computational Biology and Bioinformatics,2007,4 (2):216-226.
[22]Baram Y.Learning by kernel polarization [J].Neural Computation,2005,17 (6):1264-1275.
[23]WANG T,HUANG H,TIAN S,et al.Learning general Gaussian kernels by optimizing kernel polarization [J].Chinese Journal of Electronics,2009,18 (2):265-269.
[24]Nguyen C H,Ho T B.Kernel matrix evaluation [C].Hyderabad,India:Proc of the 20th International Joint Conference on Artificial Intelligence,2007:987-992.
[25]WANG T,TIAN S,HUANG H,et al.Learning by local kernel polarization [J].Neurocomputing,2009,72 (13-15):3077-3084.
[26]Cortes C,Mohri M,Rostamizadeh A.Two-stage learning kernel algorithms[C].Haifa,Israel:Proc of the 27th International Conference on Machine Learning,2010:239-246.
[27]Wang G,Yeung D Y,Lochovsky F H.A kernel path algorithm for support vector machines [C].Corvalis,USA:Proc of the 24th International Conference on Machine Learning,2007:951-958.
[28]WU K P,WANG S D.Choosing the kernel parameters for support vector machines by inter-cluster distance in the feature space [J].Pattern Recognition,2009,42 (5):710-717.
[29]TANG Yao-h(huán)ua,GUO Wei-min,GAO Jing-h(huán)uai.SVM parameter selection algorithm based on maximum kernel similarity diversity[J].Pattern Recognition and Artificial Intelligence,2010,23(2):210-215 (in Chinese). [唐耀華,郭為民,高靜懷.基于核相似性差異最大化的支持向量機參數(shù)選擇算法 [J].模式識別與人工智能,2010,23 (2):210-215.]
[30]Lanckriet G R G,Bie T D,Cristianini N,et al.A statistical framework for genomic data fusion [J].Bioinformatics,2004,20 (16):2626-2635.
[31]Bach F R,Lanckriet G R G,Jordan M I.Multiple kernel learning,conic duality,and the SMO algorithm [C].Banff,Canada:Proc of the 21st International Conference on Machine Learning,2004:41-48.
[32]Sonnenburg S,R tsch G,Sch fer C,et al.Large scale multiple kernel learning [J].Journal of Machine Learning Research,2006,7 (1):1531-1565.
[33]Rakotomamonjy A,Bach F,Canu S,et al.SimpleMKL[J].Journal of Machine Learning Research,2008,9:2491-2521.
[34]XU Z,JIN R,YANG H,et al.Simple and efficient multiple kernel learning by group lasso [C].Haifa,Israel:Proc of the 27th International Conference on Machine Learning,2010:1175-1182.
[35]Kloft M,Brefeld U,Laskov P,et al.Non-sparse multiple kernel learning [C].Proc of the NIPS Workshop on Kernel Learning:Automatic Selection of Optimal Kernels,2008.
[36]Kloft M,Brefeld U,Sonnenburg S,et al.Efficient and accurateLp-norm multiple kernel learning [C].Advances in Neural Information Processing Systems 22,2009:997-1005.
[37]Nath J S,Dinesh G,Raman S,et al.On the algorithmics and applications of a mixed-norm based kernel learning formulation [C].Advances in Neural Information Processing Systems 22,2009:844-852.
[38]Cortes C,Mohri M,Rostamizadeh A.Learning non-linear combinations of kernels [C].Advances in Neural Information Processing Systems 22,2009:396-404.
[39]MU Shao-min,TIAN Sheng-feng,YIN Chuan-h(huán)uan.Multiple kernel learning based on cooperative clustering [J].Journal of Beijing Jiaotong University,2008,32 (2):10-13 (in Chinese).[牟少敏,田盛豐,尹傳環(huán).基于協(xié)同聚類的多核學(xué)習(xí) [J].北京交通大學(xué)學(xué)報,2008,32 (2):10-13.]
[40]WANG Hong-qiao,SUN Fu-chun,CAI Yan-ning,et al.On multiple kernel learning methods [J].Acta Automatica Sinica,2010,36 (8):1037-1050 (in Chinese). [汪洪橋,孫富春,蔡艷寧,等.多核學(xué)習(xí)方法 [J].自動化學(xué)報,2010,36 (8):1037-1050.]