倪成功 陸 扣 袁 旭 黃昌彬 徐兆瑞
(江蘇大學(xué)計(jì)算機(jī)科學(xué)與通信工程學(xué)院 鎮(zhèn)江 212013)
支持向量機(jī)及其擴(kuò)展的研究可以說是最成功的機(jī)器學(xué)習(xí)方法之一[1]。并且該算法已被廣泛應(yīng)用于各種應(yīng)用領(lǐng)域。在支持向量機(jī)算法中,將數(shù)據(jù)映射到一個較高維的輸入空間,然后在該空間中構(gòu)造一個最佳的分離超平面。而避免在高維運(yùn)算,則通過支持向量機(jī)的第二個重要應(yīng)用—核函數(shù)。它使我們能夠?qū)Ω呔S非線性模型進(jìn)行建模。在非線性問題中,可以使用核函數(shù)將原始數(shù)據(jù)映射到更高維空間,從而在所得的高維空間中使其成為線性可分問題(如圖2 所示)。簡而言之,核函數(shù)可以幫助更快地進(jìn)行某些計(jì)算,否則就需要在高維空間進(jìn)行計(jì)算。
核函數(shù)定義如下:其中,K是核函數(shù),x,y是N維輸入。F函數(shù)將輸入從N維映射到維空間。x,y是點(diǎn)積運(yùn)算。利用核函數(shù),我們可以計(jì)算高維空間中兩個數(shù)據(jù)點(diǎn)之間的標(biāo)量積,而不必顯式地計(jì)算從輸入空間到高維空間的映射。在很多情況下,計(jì)算核函數(shù)要比在高維空間中計(jì)算兩個特征向量的內(nèi)積容易。甚至簡單內(nèi)核的特征向量也可能維度上爆炸,對于如徑向基核對應(yīng)的特征向量是無限維的,但是,計(jì)算核函數(shù)卻不會有這樣的問題。
正是由于核函數(shù)的效果突出,不僅是對于回歸還是分類都有很好的效果。我們將核函數(shù)應(yīng)用到我們的算法中。為了增進(jìn)核函數(shù)的效果,我們也結(jié)合集成學(xué)習(xí)。
集成學(xué)習(xí)[2]是提高性能的另一種方法,它在經(jīng)驗(yàn)和理論上都比最佳單一回歸器具有更好的回歸性能。例如,Thongkam[3]等提出了一種結(jié)合Adaboost 和隨機(jī)森林算法構(gòu)建預(yù)測模型的方法。實(shí)驗(yàn)結(jié)果表明,該方法優(yōu)于單一分類器和其他組合分類器。
根據(jù)上面的討論,在集成學(xué)習(xí)的思想下,提出了一種新的基于核的回歸方法,該方法是將多個弱回歸器根據(jù)某種策略組合起來,構(gòu)成一個單一的并且統(tǒng)一的回歸函數(shù)。在集成學(xué)習(xí)中結(jié)合核函數(shù)的的最優(yōu)點(diǎn)就是通過引入多個再生核希爾伯特空間,在每個希爾伯特空間中,核函數(shù)是獨(dú)立的,不會受到其他空間的影響。這樣可以完全保證所用的核函數(shù)的效果可以保持高效。同時為了能夠選取出效果不錯的核函數(shù),我們采用的根據(jù)閾值選取核函數(shù)。通過根據(jù)一種通用基礎(chǔ)模型預(yù)測出一個結(jié)果,在所有核函數(shù)池對每個核函數(shù)效果與基礎(chǔ)模型的結(jié)果進(jìn)行比較,挑選出比基礎(chǔ)模型優(yōu)秀的結(jié)果。這樣我們再在這些相對優(yōu)越的核函數(shù)中進(jìn)行排序,我們挑選了前50核函數(shù)進(jìn)行模型訓(xùn)練。
對于本論文,第二個重大創(chuàng)新就是,對于原本非凸模型,我們通過引入L1 范數(shù)和L2 范數(shù),將模型進(jìn)行解耦,從而可以實(shí)現(xiàn)對模型中的各參數(shù)進(jìn)行求解。
綜上所述,本論文的主要創(chuàng)新點(diǎn)如下:
1)我們將巧妙地將集成學(xué)習(xí)與核函數(shù)相結(jié)合。通過構(gòu)造出多個再生希爾伯特空間,可以構(gòu)造出互不干擾地核函數(shù)。
2)通過L1 范數(shù)和L2 范數(shù)結(jié)合,使用增廣拉格朗日求解,這樣使得原本非凸問題轉(zhuǎn)變成可求解問題。
支持向量機(jī)[4]是一種強(qiáng)大的分類器構(gòu)建方法。它的目標(biāo)是在兩個類之間創(chuàng)建一個決策邊界,以便能夠從一個或多個特征向量預(yù)測標(biāo)簽。該決策邊界(稱為超平面)的定向方式應(yīng)使其盡可能遠(yuǎn)離每個類的最近數(shù)據(jù)點(diǎn)。這些最近的點(diǎn)被叫做支持向量[5]。
給定標(biāo)記的訓(xùn)練數(shù)據(jù)集:
其中,xi是一個特征向量表示,yi是正負(fù)標(biāo)簽。
然后可以將最優(yōu)超平面定義為
其中,w是權(quán)重向量,x 是輸入的特征向量,b 是偏置。
對于訓(xùn)練集的所有元素,w和b將滿足以下不等式:
通過訓(xùn)練SVM 模型的目的就是找到w 和b,以使超平面分離數(shù)據(jù)并且最大化邊界1 ‖w‖2。
將 |yi|(w+b)=1 的向量xi稱為支持向量,如圖1所示。
圖1 線性SVM模型,分為兩類(菱形和圓形)
支持向量機(jī)的另一種用途是核函數(shù),它使我們能夠?qū)Ω呔S非線性模型進(jìn)行建模。在非線性問題中,可以使用核函數(shù)將原始數(shù)據(jù)映射到更高維空間,從而在所得的高維空間中使其成為線性可分問題(如圖2 所示)。簡而言之,核函數(shù)[6]可以幫助更快地進(jìn)行某些計(jì)算,否則就需要在高維空間進(jìn)行計(jì)算。
圖2 核函數(shù)(不能通過線性SVM分離的數(shù)據(jù)卻可以通過內(nèi)核函數(shù)進(jìn)行轉(zhuǎn)換和分離)
核函數(shù)的選擇是影響支持向量機(jī)模型性能的重要因素之一。但是,沒有辦法確定哪個核函數(shù)是對特定的模式識別問題最有效。選擇最合適的核函數(shù)的唯一方法是通過試驗(yàn)。我們可以從一個簡單的SVM 開始,然后嘗試各種“標(biāo)準(zhǔn)”核函數(shù)。根據(jù)不同問題的特性,一個核函數(shù)可能要比其他核函數(shù)的效果更好??梢允褂媒徊骝?yàn)證以統(tǒng)計(jì)學(xué)上嚴(yán)格的方式從一組固定的核函數(shù)中選擇最優(yōu)核函數(shù)。
集成學(xué)習(xí)是一種經(jīng)典的機(jī)器學(xué)習(xí)算法,它綜合了多個模型的輸出進(jìn)行預(yù)測。多個集成學(xué)習(xí)模型可以集成在一起,以提高對單個模型的準(zhǔn)確性和魯棒性。bagging 算法和boosting 算法都是集成學(xué)習(xí)中不同策略,它們的效果都要比單一分類器更精確、抗噪聲能力更強(qiáng)而受到越來越多的關(guān)注。
布雷曼[7]在2001 年提出了一種非常獨(dú)特的新分類器,稱為隨機(jī)森林(RF)。它是Bagging 算法的一種擴(kuò)展算法,RF 可以在不刪除變量的情況下處理數(shù)千個輸入變量,并估計(jì)變量在分類中的重要性。
隨機(jī)森林[8]是一個分類樹的集合,其中每棵樹貢獻(xiàn)一個投票權(quán),將最頻繁的類分配給輸入數(shù)據(jù)。RF 在每個節(jié)點(diǎn)的劃分中使用輸入特征或預(yù)測變量的隨機(jī)子集,而不是使用最好的變量,這樣可以減少泛化誤差。此外,為了增加樹的多樣性,RF 使用bagging 或bootstrap 聚合來使樹從不同的訓(xùn)練數(shù)據(jù)中得到子集。Bagging 是一種用于訓(xùn)練數(shù)據(jù)創(chuàng)建的技術(shù),通過隨機(jī)重新采樣原始數(shù)據(jù)集并替換(沒有刪除從輸入樣本中選擇的數(shù)據(jù)以生成下一個子集)。使用裝袋法選擇的使每個個體得到的每個子集都包含一定比例的訓(xùn)練數(shù)據(jù)集。訓(xùn)練子集中不存在的樣本作為另一個子集的一部分被稱為“袋外”(out-of-bag)。值得注意的是,通過引導(dǎo)過程,從未選擇的元素中為集合的每個樹形成一個不同的袋外子集。這些袋外元素不考慮用于樹的訓(xùn)練,可以按樹進(jìn)行分類以評估性能。錯誤分類與袋外元素總數(shù)之間的比例有助于對可用于特征選擇的泛化誤差進(jìn)行無偏估計(jì)。
在這一節(jié)中,我們介紹了一種新的核集合回歸方法,它可以幫助找到合適的核類型和基核回歸中的參數(shù)?;嘶貧w器通過在多個再生核希爾伯特空間(RKHSs)中構(gòu)造不同的核函數(shù),再根據(jù)我們制定的標(biāo)準(zhǔn)進(jìn)行核函數(shù)的類型及其對應(yīng)的參數(shù)。
再生核希爾伯特空間[10]是一種與核函數(shù)相關(guān)的特殊的希爾伯特空間,因?yàn)樗ㄍㄟ^內(nèi)積運(yùn)算)重構(gòu)該空間中的每個函數(shù)。它在機(jī)器學(xué)習(xí)中具有廣泛的應(yīng)用,例如SVR和徑向基函數(shù)。
這些映射的集合可以通過包括所有可能的有限組合,鄰近極限并根據(jù)所選核函數(shù)構(gòu)造內(nèi)積來擴(kuò)展。
其中,K有K(xi,x)=K(x,xi)這樣的對稱屬性。
接下來,列舉下常用的核函數(shù):
1)多項(xiàng)式核
2)徑向基核
其中,a,b,c,μ∈?。同時,K表示根據(jù)樣本獲得的Gram 矩陣。它是一個對稱半正定矩陣,如下顯示:
由此得到的RKHS具有HK中任何元素的每個求值算子和范數(shù)都有界的性質(zhì)。對于Mercer 核:K:x×x→?,函數(shù)x→? 有一個與相應(yīng)范數(shù)‖ ‖K相關(guān)的RKHSHK。標(biāo)準(zhǔn)框架通過最小化來估計(jì)未知功能:
因此,該問題被簡化為在有限維空間或系數(shù)αi上進(jìn)行優(yōu)化,這是支持向量機(jī)和其他核方法的算法基礎(chǔ)。
在本小節(jié)中,我們介紹了我們提出的核集成方法。不同的核函數(shù)的種類及其參數(shù)用于構(gòu)建基回歸器。并提出了我們提出的核集合方法。
其中,前一部分‖Kα+b1-Y‖是平方損失,用作預(yù)測基核回歸模型質(zhì)量的標(biāo)準(zhǔn)。K是式(11)中所提到的Gram 矩陣。α是式(11)中的權(quán)重列向量,b是對于特定K的偏差項(xiàng),1 是元素均為1 的列向量。Y是標(biāo)簽值。第二部分λαT Kα是平滑項(xiàng),λ是控制第一項(xiàng)和第二項(xiàng)之間平衡的參數(shù)。
但是,不同的核函數(shù)的類型及其參數(shù)選擇會導(dǎo)致不同的回歸結(jié)果。為了獲得更好的回歸集成模型,在我們提出的核集成框架中結(jié)合了基核回歸器。在以下部分中,對那些基本回歸變量進(jìn)行了優(yōu)化和加權(quán)。
最小化目標(biāo)函數(shù),式(15)由兩部分組成:第一個加號之前的是所有樣本上回歸量的總偏差,第二個是正則項(xiàng),目的是限制回歸系數(shù)的變化。引入懲罰參數(shù)以平衡它們。
但是,由于式(15)是非凸問題,是無法求偏導(dǎo)來解決該問題,所以引入L1 范數(shù)和L2 范數(shù),來將參數(shù)w解耦。解耦出的式(16)如下:由于式(16)中同時存在多個優(yōu)化參數(shù),因此采用增廣拉格朗日乘數(shù)法[11]來解決它。首先,我們引入拉格朗日乘子μ,ξ,λ,η,τ,可以將這個約束問題轉(zhuǎn)換為一個不受約束的問題,如下所示:
我們對式(17)中的αi,bi,w,Hi這些參數(shù)分別求偏導(dǎo)得到它們對應(yīng)的更新式,如下所示:
1)對αi求偏導(dǎo)得:
2)對bi求偏導(dǎo)得:
3)對w求偏導(dǎo)得:
4)對Hi求偏導(dǎo)得:
5)對于e求偏導(dǎo)得:
最后,我們需要采用梯度下降法依次去更新拉格朗日乘子,它們的更新式子如下:
在本節(jié)中,我們在公用回歸數(shù)據(jù)集上測試多核集成模型。UCI 回歸用于驗(yàn)證我們提出的方法的性能。
同多項(xiàng)式核函數(shù)選取方式一樣,我們需要對一個參數(shù)(μ)進(jìn)行選取,對參數(shù)(μ)的取值范圍是:μ∈{1*1e-6,1*1e-5…1e3} 。這樣構(gòu)造出來的核函數(shù),再按照多項(xiàng)式核函數(shù)的方法一樣進(jìn)行選取。對于其他類型的核函數(shù)及其對應(yīng)的參數(shù)取值也一樣的方法進(jìn)行選取。通過此類方法的選取,我們可以得到多個多種類型的核函數(shù)及其對應(yīng)的參數(shù)的取值,這樣就形成了如同池子一樣的核函數(shù)池,我們隨機(jī)選取50個核函數(shù),進(jìn)行模型的訓(xùn)練。
而對于包括RF,XGBoost和Adaboost這三個集成方法,實(shí)驗(yàn)參數(shù)與葉節(jié)點(diǎn)的數(shù)量有關(guān)。為了實(shí)驗(yàn)公平起見,我們在我們的方法中設(shè)置葉節(jié)點(diǎn)的數(shù)量以匹配內(nèi)核的數(shù)量。對于SAFER,我們對其self-KNN半監(jiān)督回歸器使用三個最近的鄰居設(shè)置。
我們使用八個UCI 數(shù)據(jù)集測試了我們提出的模型在回歸上的性能。 選擇均方誤差(MSE)和均方根絕對誤差(MAE)作為評估標(biāo)準(zhǔn)[14]。
其中,nsample是測試集數(shù)據(jù)的個數(shù)。y^i是第i 個預(yù)測值,yi是測試集中標(biāo)簽。
我們在UCI 上使用八個回歸數(shù)據(jù)集,包括Triazines,Mpg,F(xiàn)orest,Mg,RedWine,Space,Abalone 和WhiteWine。表1 列出了這些數(shù)據(jù)集的描述性信息。
表1 測試集上MSE的平均與標(biāo)準(zhǔn)偏差
均方誤差(MSE)是與均方誤差或損失的期望值相對應(yīng)的風(fēng)險度量。根據(jù)表2 中的結(jié)果,我們提出的方法顯示出強(qiáng)大的魯棒性。
例如,在Space 數(shù)據(jù)集中,其中XGBoost 的回歸效果最差,但我們的方法的回歸性能最好,比第二最佳方法(SVR)高了0.0021。在RedWine 數(shù)據(jù)集中,SVR 方法獲得的結(jié)果為0.5205,這使其成為最差的結(jié)果。與WhiteWine 數(shù)據(jù)集中第二好的方法(XGBoost)相比,比我們的方法低了3.7%??偠灾?,我們提出的方法的結(jié)果具有比比較方法小的MSE。由于集成方法的優(yōu)點(diǎn),所提出的方法可以使用核方法來處理非線性數(shù)據(jù)集并獲得更魯棒的回歸性能。
表2列出了MAE的結(jié)果,它是一種與絕對誤差損失的預(yù)期值相對應(yīng)的風(fēng)險度量。從該表中,我們提出的方法在Abalone數(shù)據(jù)集中獲得的最佳結(jié)果為1.5124,而XGBoost的結(jié)果為1.5412,略有落后。在Mg數(shù)據(jù)集中,我們的方法再次獲得最佳性能,結(jié)果為0.0857。因此,從表2 的結(jié)果可以看出,我們的方法在所有數(shù)據(jù)集中均具有穩(wěn)定且最佳的回歸性能。證明了我們提出的方法利用了核方法和集成方法的結(jié)合優(yōu)點(diǎn)。
表2 測試集上MAE的平均與標(biāo)準(zhǔn)偏差
因此,可以得出結(jié)論,我們的方法可以找到合適的內(nèi)核及其參數(shù),這有助于提高回歸性能。
本文提出了一種創(chuàng)新的多核集合集成回歸方法。我們的回歸模型可以通過集成學(xué)習(xí)思想改進(jìn)單一核回歸方法,以在基本核回歸器中找到合適的核類型及其參數(shù)。在算法中,從每個RKHS 空間并行優(yōu)化基礎(chǔ)核回歸器并對其進(jìn)行加權(quán),以構(gòu)建多核集成回歸器。為了解決原始模型非凸問題,引入L1 和L2 范數(shù),這樣可以解耦參數(shù),以達(dá)到可以求解。在UCI數(shù)據(jù)集上進(jìn)行回歸實(shí)驗(yàn),足以證明我們的方法在保持其他同類比較回歸方法(如隨機(jī)森林,支持向量機(jī)和XGBoost)中的最低回歸損失和最高分類精度方面的有效性。
將來,我們可以通過將目標(biāo)函數(shù)更改為其他函數(shù)(例如折頁損失函數(shù))來研究我們提出的框架,以探索其在提議的集合框架中對數(shù)據(jù)集進(jìn)行分類的適用性。此外,我們將把方法擴(kuò)展到深度學(xué)習(xí)。