房立超,王 鈺,楊杏麗,李濟(jì)洪
1.山西大學(xué) 數(shù)學(xué)科學(xué)學(xué)院,太原 030006
2.山西大學(xué) 現(xiàn)代教育技術(shù)學(xué)院,太原 030006
3.山西大學(xué) 軟件學(xué)院,太原 030006
所謂機(jī)器學(xué)習(xí)就是基于數(shù)據(jù)來建立合適的模型,并運用建立的模型對新數(shù)據(jù)進(jìn)行預(yù)測與分析,其主要目的是獲取具有較好泛化能力的模型,因此模型選擇在機(jī)器學(xué)習(xí)中顯得尤為重要。在進(jìn)行模型選擇時為了防止模型發(fā)生過擬合的現(xiàn)象,學(xué)者們通常使用正則化的思想來解決,即在損失函數(shù)中加入懲罰項,也就是說,假設(shè)J(θ)為刻畫模型在訓(xùn)練集上的表現(xiàn)的損失函數(shù),那么在進(jìn)行模型選擇時不是用J(θ)來評價,而是以J(θ)+λR(θ)的好壞來選擇模型,其中R(θ)用來描述對參數(shù)θ的懲罰,λ>0 為調(diào)節(jié)參數(shù),λ越大表示對參數(shù)θ的懲罰越大。20世紀(jì)以來,大量討論模型選擇準(zhǔn)則的文獻(xiàn)相繼問世,并以1973年日本學(xué)者Akaike[1]提出的著名的AIC信息準(zhǔn)則(Akaike information criterion)為標(biāo)志,從此拉開模型選擇研究的序幕,隨后Schwarz[2]于1978年提出與AIC準(zhǔn)則相似的貝葉斯信息準(zhǔn)則(Bayesian information criterion,BIC)。AIC和BIC都在目標(biāo)式中引入了關(guān)于模型參數(shù)個數(shù)的懲罰項,且這兩種經(jīng)典的基于正則化的模型選擇準(zhǔn)則一直沿用至今;1996年Tibshirani提出了經(jīng)典的LASSO(least absolute shrinkage and selection operator)算法[3],此算法可以同時實現(xiàn)參數(shù)估計和顯著性變量的選擇,隨后由此方法衍生出了grouped LASSO、adaptive LASSO和SCAD(smoothly clipped absolute deviation)等算法[4-6];Hwang 等[7]基于 MSC(multi-class signomial classification)思想,提出了L1范數(shù)正則化函數(shù)和基于此函數(shù)進(jìn)行多分類問題變量選擇的方法,對于具有大量變量的數(shù)據(jù)集,所提出的方法減少了變量的數(shù)量,同時提高了分類準(zhǔn)確性;另外Wang等提出了組塊3×2交叉驗證t檢驗[8]方法,并通過實驗驗證了其在低維數(shù)據(jù)上模型對照方面的優(yōu)良性質(zhì);Reenen等[9]使用最小分類錯誤率作為檢驗統(tǒng)計量,通過非參數(shù)假設(shè)檢驗找到統(tǒng)計上顯著變化的變量,作為最終模型中入選的變量;Lever等[10]討論了模型選擇的過擬合問題,認(rèn)為在一個數(shù)據(jù)集上得到具有適當(dāng)復(fù)雜性的模型需要在偏差和方差之間找到平衡點,并通過實驗證明了交叉驗證方法可以幫助避免過擬合的發(fā)生并生成一個能夠很好地處理新數(shù)據(jù)的模型。
本研究主要關(guān)注分類情形的模型選擇問題,即對于給定的某個數(shù)據(jù)集,基于某個性能度量指標(biāo)構(gòu)造模型選擇準(zhǔn)則,并基于此準(zhǔn)則選出多個分類器(算法)中性能最好的一個。其中,泛化誤差是最常用的性能度量指標(biāo)之一,而理論的泛化誤差度量由于其分布的復(fù)雜性或未知性往往無法得到,實際中?;谒墓烙媮磉M(jìn)行模型的選擇。關(guān)于泛化誤差的估計文獻(xiàn)中提出了很多的方法,如廣泛使用的交叉驗證估計方法,包括留一交叉驗證(leave one out crossvalidation,LOOCV)、留P交叉驗證、K折交叉驗證、RLT交叉驗證(repeated learning-test cross-validation)、蒙特卡洛交叉驗證、5×2交叉驗證、組塊3×2交叉驗證(block 3×2 cross-validation)等[11-21]。
然而注意到,基于泛化誤差估計的方法在選擇模型過程中只使用了估計本身(均值的信息)而沒有考慮估計的方差的信息,較大的方差會使得該性能指標(biāo)產(chǎn)生較大的波動,有可能選擇較復(fù)雜的模型作為最優(yōu)模型,導(dǎo)致該模型的泛化性能較差,如圖1(文獻(xiàn)[22])所示。另外,對于上述提到的交叉驗證估計,Arlot和Celisse[23]也通過實驗驗證了當(dāng)這些估計方法的偏差相同時,它們的表現(xiàn)卻可以截然不同,實際上這是由這些估計的方差差異導(dǎo)致,即估計的方差對模型選擇有很大的影響。于是,在進(jìn)行模型選擇時不僅需要考慮性能度量的估計本身,還要考慮它的方差。如果能在上述性能度量指標(biāo)下提出融合方差信息的模型選擇準(zhǔn)則或方法,將為模型選擇相關(guān)研究提供新的思路與方法。
Fig.1 Effect of bias and variance on total error and model complexity圖1 偏差與方差對總誤差和模型復(fù)雜度的影響
綜上所述,由于估計的方差對模型選擇有較大的影響,借鑒了線性模型中加入?yún)?shù)懲罰項的正則化思想,在求泛化誤差估計最小化的同時加入一個正則化項,該正則化項用來表示對泛化誤差估計的方差的懲罰,求取使得泛化誤差估計和該估計的方差懲罰項同時達(dá)到最小時的模型作為最終的模型選擇結(jié)果。即本研究所使用的模型選擇準(zhǔn)則由“泛化誤差估計+泛化誤差估計的方差的懲罰項”組成。在線性模型中的變量選擇準(zhǔn)則和這里的模型選擇準(zhǔn)則有異曲同工之處,如傳統(tǒng)使用的AIC準(zhǔn)則為“-log似然+模型參數(shù)個數(shù)的懲罰”,“-log似然”可以看成是對模型擬合度的評價,即和泛化誤差的估計的作用相同;另外,由于在線性模型中模型的參數(shù)個數(shù)與參數(shù)估計的方差存在正比例關(guān)系,線性模型中包含的參數(shù)個數(shù)越多,該模型的參數(shù)估計的方差越大,于是AIC準(zhǔn)則中的“模型參數(shù)個數(shù)的懲罰”和“泛化誤差估計的方差懲罰項”起著相同的作用。本文把加入泛化誤差估計的方差正則化的思想引入到了分類模型選擇的問題中,構(gòu)造了一個可以廣泛使用的方差正則化分類模型選擇準(zhǔn)則。
在機(jī)器學(xué)習(xí)中,泛化誤差是用于模型選擇的通用性能度量指標(biāo),它指的是所選模型在獨立測試樣本上的期望預(yù)測誤差。具體地,如果令數(shù)據(jù)集,其中 xi是輸入變量,yi是輸出變量,f(x)為預(yù)測模型,為0-1損失函數(shù),則泛化誤差可表示為如下形式:
由式(1)可知,泛化誤差的計算依賴于數(shù)據(jù)的分布,然而現(xiàn)實中數(shù)據(jù)的分布往往無法獲得或者數(shù)據(jù)的分布非常復(fù)雜,因此理論泛化誤差的計算非常困難,以至于直接基于它進(jìn)行算法性能的評價更無從談起,于是現(xiàn)實中常常基于泛化誤差的估計進(jìn)行模型的選擇。
鑒于文獻(xiàn)[20-21]中提出的泛化誤差的組塊3×2交叉驗證估計方法的優(yōu)良性能,本研究中考慮使用此交叉驗證法來估計泛化誤差。具體地,組塊3×2交叉驗證方法是將數(shù)據(jù)集Dn劃分為大小相等且互不相交的4個子集Pj,j=1,2,3,4,然后任取其中兩個子集作為訓(xùn)練集,剩余兩子集作為測試集,做一次2折交叉驗證,于是根據(jù)不同的組合總共可以得到3次2折交叉驗證的預(yù)測誤差估計(具體數(shù)據(jù)劃分見表1),那么基于3組估計結(jié)果進(jìn)行平均的泛化誤差的組塊3×2交叉驗證估計可表示為如下形式:
Table 1 Data partitions of block 3×2 cross-validation表1 組塊3×2交叉驗證的數(shù)據(jù)切分
其中,M為候選模型集。
在提出方差正則化的分類模型選擇準(zhǔn)則之前,先給出組塊3×2交叉驗證泛化誤差估計的方差以及該方差的估計。該泛化誤差估計的方差和方差的估計已在文獻(xiàn)[8]中有詳細(xì)描述,這里給出其簡要過程。
引理1[17]令U1,U2,…,Uk為隨機(jī)變量,且具有公共的均值β,方差δ=Var[Uk],?k和協(xié)方差,分別表示樣本方差和樣本均值,則有:
于是發(fā)現(xiàn)該真實方差由方差、組內(nèi)協(xié)方差和組間協(xié)方差三部分組成。因此如果直接使用傳統(tǒng)的樣本方差進(jìn)行方差估計將導(dǎo)致激進(jìn)的結(jié)果。故文獻(xiàn)[8]將組內(nèi)和組間的協(xié)方差同時考慮到方差估計中后,得出了的一個較為保守的估計形式:
后面將使用式(5)作為泛化誤差的組塊3×2交叉驗證估計的方差估計。
在式(3)定義的模型選擇準(zhǔn)則中,它只考慮了基于泛化誤差估計本身來進(jìn)行模型的選擇,沒有考慮估計的好壞(方差),這顯然是不合適的,因為較大的方差使得泛化誤差的性能波動較大,可能選擇到較復(fù)雜的模型,從而導(dǎo)致較低的泛化性(見圖1)。為此,構(gòu)造了一種添加方差正則化項的新的模型選擇方法(準(zhǔn)則),即在式(3)的基礎(chǔ)上,將泛化誤差估計的方差估計加入,準(zhǔn)則形式如下:
本節(jié)給出接下來的實驗部分評價不同模型選擇準(zhǔn)則性能時所使用的指標(biāo)。本文關(guān)注于分類問題下的最優(yōu)分類器選擇問題,即在相同數(shù)據(jù)設(shè)置下,根據(jù)不同的模型選擇準(zhǔn)則,在所給分類器中選出各準(zhǔn)則對應(yīng)的最優(yōu)分類器。由于數(shù)據(jù)的隨機(jī)性,把實驗重復(fù)N次(第3章實驗中N=1 000),觀察給定的每個分類器作為最優(yōu)分類器被選中的次數(shù)。N次實驗中選中次數(shù)最多的分類器可以認(rèn)為是更符合該數(shù)據(jù)集的分類器,記該分類器為目標(biāo)分類器,不同的模型選擇準(zhǔn)則的評價標(biāo)準(zhǔn),就以選中目標(biāo)分類器的次數(shù)作為評價指標(biāo),選中A的次數(shù)越多說明該準(zhǔn)則越好。
本章首先通過模擬實驗驗證了文獻(xiàn)[8]中提出的方差估計的合理性,然后分別在兩個模擬數(shù)據(jù)和3個真實數(shù)據(jù)上(Letter數(shù)據(jù)集、MAGIC Gamma Telescope數(shù)據(jù)集和Abalone數(shù)據(jù)集[24])驗證了提出的新的分類模型選擇準(zhǔn)則相對于傳統(tǒng)模型選擇方法的優(yōu)越性。
對于泛化誤差的組塊3×2交叉驗證估計的方差,需要驗證式(5)是否可以作為它的一個合理估計,考慮一個二分類問題,數(shù)據(jù)集Z=(X,Y),其中X為預(yù)測變量,Y為類別響應(yīng)變量,且滿足P(Y=0)=P(Y=1)=0.5,X|Y=0~N(05,I5),X|Y=1~N(15,2I5),05和15分別表示元素全部為0和1的5維向量,I5表示5階單位矩陣,總樣本量n=200。在此數(shù)據(jù)集上,給出了6個分類器(見表2)的真實方差,由式(5)得到的方差估計和一般意義上的樣本方差。
Table 2 Results of variance simulations表2 方差模擬結(jié)果
觀察表2可以看出,6個分類器中只有在使用最小二乘作為分類器時得到的樣本方差估計大于真實方差(這可能是由于最小二乘方法從嚴(yán)格意義上來說并不是一個真正的分類器),其他分類器上均低估了真實方差,有的分類器低估的程度還比較嚴(yán)重,如支持向量機(jī)的真實方差為0.000 823 145 9,而樣本方差僅為0.000 411 350 0,只有真實方差的一半,嚴(yán)重低估了真實方差,這說明用樣本方差來估計真實方差是激進(jìn)的;另一方面,比較真實方差和式(5)得到的方差估計兩列,可以看出方差估計均大于真實方差,即式(5)得到的方差估計是真實方差的保守估計,于是在基于方差正則化準(zhǔn)則式(6)做模型選擇時使用此方差估計較之樣本方差更保守,得到的模型選擇結(jié)果更值得信賴。因此,在下面的實驗中,采用式(5)的方差估計進(jìn)行模型選擇。
為了體現(xiàn)方差正則化模型選擇準(zhǔn)則的性能,在二分類的兩個模擬數(shù)據(jù)和兩個真實數(shù)據(jù)上分別給出傳統(tǒng)的泛化誤差估計準(zhǔn)則和方差正則化準(zhǔn)則的模型選擇結(jié)果。先考慮了兩種方差正則化項的具體形式,見下面的準(zhǔn)則2和準(zhǔn)則3,準(zhǔn)則1即為傳統(tǒng)的基于泛化誤差估計的準(zhǔn)則。
3.2.1 實驗設(shè)置
數(shù)據(jù)1(模擬數(shù)據(jù))數(shù)據(jù)集Z=(X,Y),X~N(15,2I5),ln(Y/(1-Y))=Xβ+ε,其中 β=(15)T,ε~N(0,2),總樣本量n=200。用于模型選擇的分類算法為神經(jīng)網(wǎng)絡(luò)、樸素貝葉斯和支持向量機(jī)(support vector machine,SVM)。
數(shù)據(jù)2(模擬數(shù)據(jù))數(shù)據(jù)集Z=(X,Y),總樣本量n為100,其中Y=1的樣本個數(shù)為40,Y=0的樣本個數(shù)為 60,且Xi|Y=1~N(0,1),X1|Y=0~N(0.4,1),X2|Y=0~N(0.3,1),X3|Y=0~N(0,1),Xi之間相互獨立,i=1,2,3。用于模型選擇的分類算法為分類樹、神經(jīng)網(wǎng)絡(luò)、樸素貝葉斯和SVM。
數(shù)據(jù)3(真實數(shù)據(jù))UCI數(shù)據(jù)庫的Letter數(shù)據(jù)集[24],自變量16個,原始樣本量為20 000,是一個多分類問題。為構(gòu)造一個二分類問題,將類別標(biāo)簽為A~M的看成第一類,N~Z的看成第二類,隨機(jī)抽取樣本量n=200的樣本作為實驗數(shù)據(jù)集。選擇分類樹、神經(jīng)網(wǎng)絡(luò)和SVM作為分類算法。
數(shù)據(jù)4(真實數(shù)據(jù))來自UCI數(shù)據(jù)庫的MAGIC Gamma Telescope數(shù)據(jù)集[24](大氣切倫科夫望遠(yuǎn)鏡項目伽馬成像數(shù)據(jù)集),特征變量10個,總的樣本量19 020,為二分類數(shù)據(jù)集。從中隨機(jī)抽取樣本量n=200的樣本為實驗數(shù)據(jù),分類算法選擇神經(jīng)網(wǎng)絡(luò)、樸素貝葉斯和SVM。
3.2.2 實驗結(jié)果及分析
根據(jù)數(shù)據(jù)1設(shè)置,隨機(jī)生成1 000組數(shù)據(jù),針對每一組數(shù)據(jù),根據(jù)3.2節(jié)給出的3個準(zhǔn)則,在給出的分類器中分別選出使得性能度量指標(biāo)最小的分類器,最后統(tǒng)計出在1 000次結(jié)果中每個分類器在每個準(zhǔn)則下被選中的次數(shù)。同理在數(shù)據(jù)2~數(shù)據(jù)4上進(jìn)行實驗。3個準(zhǔn)則的實驗結(jié)果見表3。
Table 3 Comparison of results of model selection simulations on data sets 1~4表3 數(shù)據(jù)1~4模型選擇模擬結(jié)果的比較
由表3可以看出在數(shù)據(jù)1上,3個準(zhǔn)則選中的目標(biāo)分類器均是SVM,準(zhǔn)則1共選中699次,準(zhǔn)則2在λ=10.0時選中目標(biāo)分類器的次數(shù)相比準(zhǔn)則1增加了5.58%,準(zhǔn)則3(λ=0.8)選中SVM的次數(shù)有744次,此時比準(zhǔn)則1高出6.44%。數(shù)據(jù)2的表現(xiàn)與數(shù)據(jù)1類似,準(zhǔn)則1選中的目標(biāo)分類器為SVM(391次),準(zhǔn)則2(λ=4.0時)和準(zhǔn)則3(λ=0.6時)在1 000次模擬中選中SVM的次數(shù)均為422,比準(zhǔn)則1高出7.93%。與前兩個模擬數(shù)據(jù)相比,在真實數(shù)據(jù)3上本文的新準(zhǔn)則相比傳統(tǒng)準(zhǔn)則表現(xiàn)得更突出,傳統(tǒng)準(zhǔn)則選中目標(biāo)分類器SVM的次數(shù)為473,而準(zhǔn)則3(λ=5.0時)選中SVM次數(shù)為630,比準(zhǔn)則1高出了33.19%。同時,在真實數(shù)據(jù)4上也可觀察得出以上類似的結(jié)論,與準(zhǔn)則1選中目標(biāo)分類器SVM的次數(shù)為589相比,準(zhǔn)則2(λ=9.0時)選中SVM的次數(shù)最高為628,高出了6.62%。
另一方面,對比了每一組數(shù)據(jù)下的分類器所產(chǎn)生的泛化誤差的方差大小之間的差異,結(jié)果見表4,在數(shù)據(jù)1的1 000次模擬中,每一次將3個分類器產(chǎn)生的泛化誤差的方差中相比最小的選出,則3個分類器下泛化誤差的方差最小的次數(shù)分別有190、322和488,而此時本文的目標(biāo)分類器就是次數(shù)最多的SVM;同樣在數(shù)據(jù)2~4上,SVM產(chǎn)生的泛化誤差的方差小于其他分類器產(chǎn)生的泛化誤差的方差的次數(shù)均最多。發(fā)現(xiàn),在數(shù)據(jù)3上希望被選擇的目標(biāo)分類器的泛化誤差的方差小于其他分類器的次數(shù)是最多的,而此時使用本文構(gòu)造的新準(zhǔn)則能夠很大程度地提高選中該目標(biāo)分類器的次數(shù),也就是說,因為此時目標(biāo)分類器產(chǎn)生的泛化誤差的方差更小,所以使用新準(zhǔn)則提高了模型選中該分類器的概率,然而如果忽略方差信息,即僅根據(jù)泛化誤差進(jìn)行判別,就可能導(dǎo)致選中并不合適的分類器或者說降低了目標(biāo)分類器被選的概率。
Table 4 Comparison of variances of generalization errors表4 泛化誤差的方差的比較
在本文所提出的方差正則化分類模型選擇準(zhǔn)則式(6)的框架下,最優(yōu)模型的選擇可以通過最小化的值來獲得,但是其中的調(diào)節(jié)參數(shù)λ是未知的,且λ的不同取值也會產(chǎn)生不同的結(jié)果,因此參數(shù)λ的選取同樣重要。本節(jié)給出前面四組數(shù)據(jù)在準(zhǔn)則2和準(zhǔn)則3上隨λ變化的結(jié)果,這里λ取值為從0到10,且λ=0時所對應(yīng)的就是準(zhǔn)則1的情況,即僅僅依據(jù)泛化誤差的組塊3×2交叉驗證估計來進(jìn)行模型選擇的一般準(zhǔn)則。結(jié)果見表5和表6。
Table 5 Results of model selection simulations of criterion 2 with change of λ表5 準(zhǔn)則2隨λ變化的模型選擇模擬結(jié)果
Table 6 Results of model selection simulations of criterion 3 with change of λ表6 準(zhǔn)則3隨λ變化的模型選擇模擬結(jié)果
可以看出,加入方差正則化項之后的模型選擇準(zhǔn)則在使用方差估計(準(zhǔn)則2)作為正則化項時,比傳統(tǒng)的模型選擇準(zhǔn)則有更好的穩(wěn)定性;而加入標(biāo)準(zhǔn)差估計(準(zhǔn)則3)為正則化項的模型選擇準(zhǔn)則,選擇到目標(biāo)分類的次數(shù)隨著λ的增加一開始上升隨后下降,但總體說來只要調(diào)節(jié)參數(shù)λ取得合適,加入標(biāo)準(zhǔn)差估計的正則化模型選擇準(zhǔn)則性能更有優(yōu)勢;從表中還可以看到,不同的調(diào)節(jié)參數(shù)對模型選擇的結(jié)果影響很大,這說明,同線性模型變量選擇方法相似,方差正則化的模型選擇研究中,調(diào)節(jié)參數(shù)的選擇也是一個不可避免的問題,在進(jìn)一步的工作中,應(yīng)考慮使用什么具體的策略來選擇調(diào)節(jié)參數(shù)更合適(如通常使用的交叉驗證類的調(diào)節(jié)參數(shù)選擇方法)。
在前邊提出的方差正則化的分類模型選擇準(zhǔn)則中,關(guān)于泛化誤差估計的方差估計的函數(shù)同樣需要預(yù)先確定,一般認(rèn)為該懲罰函數(shù)是方差的增函數(shù)即可,但函數(shù)的具體形式在不同的數(shù)據(jù)集上性能是不同的。如對比表5和表6的結(jié)果,準(zhǔn)則3比準(zhǔn)則2更快地達(dá)到模型選擇的最優(yōu),這可能和這些分類器自身的方差大小有關(guān)系(見表2),這些分類器的方差都遠(yuǎn)小于1,開根號之后的標(biāo)準(zhǔn)差估計使得對于相同的調(diào)節(jié)參數(shù)值,在模型選擇時更側(cè)重于正則化項,從而可以很快達(dá)到最好的模型選擇性能。這從一個側(cè)面反映,針對具體的實際問題,正則化項函數(shù)的具體形式(如線性函數(shù)、指數(shù)函數(shù))需要進(jìn)行慎重選擇。本節(jié)給出方差正則化項的函數(shù)為方差估計的指數(shù)函數(shù)時的實驗結(jié)果和分析。
以3.2節(jié)中的數(shù)據(jù)2和數(shù)據(jù)4為例,實驗設(shè)置及實驗過程同前,方差的指數(shù)函數(shù)作為懲罰項時的準(zhǔn)則的模型選擇模擬結(jié)果見表7,兩個數(shù)據(jù)下選擇的最優(yōu)分類器與3.2節(jié)中一致,且以關(guān)于方差估計的指數(shù)函數(shù)作為正則化項的準(zhǔn)則依舊能夠提高目標(biāo)分類器被選中的次數(shù),說明此準(zhǔn)則同樣有效。
前述實驗結(jié)果均是在二分類數(shù)據(jù)集上得來的,本節(jié)將模型選擇準(zhǔn)則應(yīng)用到多分類數(shù)據(jù)集進(jìn)行模擬實驗,以驗證在多分類數(shù)據(jù)集上本文方法的效果。
3.5.1 實驗設(shè)置
數(shù)據(jù)5(真實數(shù)據(jù))來自UCI數(shù)據(jù)庫的Avila數(shù)據(jù)集[24],為多分類數(shù)據(jù)集。此數(shù)據(jù)集是從“Avila圣經(jīng)”的800張圖片中提取的拉丁文數(shù)據(jù),經(jīng)分析由12名抄寫員完成,總樣本量20 867,特征變量10個,輸出結(jié)果為12個抄寫員之一。從中隨機(jī)抽取樣本量n=200的樣本進(jìn)行實驗,分類算法選擇神經(jīng)網(wǎng)絡(luò)、樸素貝葉斯、最小二乘和K近鄰(K=5)算法。
Table 7 Simulation results of criterion with exponential function of variance as penalty表7 方差的指數(shù)函數(shù)作為懲罰項的準(zhǔn)則模擬結(jié)果
3.5.2 實驗結(jié)果及分析
同3.2節(jié)的實驗過程相似,從數(shù)據(jù)5中隨機(jī)生成N(N=1 000)組樣本量為200的數(shù)據(jù)集,在每一個數(shù)據(jù)集上,根據(jù)3.2節(jié)的3個準(zhǔn)則選出最優(yōu)分類器,最終結(jié)果為1 000次模擬中每個分類器在各個準(zhǔn)則下被選中的次數(shù)。結(jié)果見表8。
Table 8 Results of model selection simulations on data 5表8 數(shù)據(jù)5模型選擇模擬結(jié)果
與前面4個數(shù)據(jù)不同,數(shù)據(jù)5是一個多分類數(shù)據(jù),在此數(shù)據(jù)集上,當(dāng)抽取的樣本量為n=200時,根據(jù)3個準(zhǔn)則選出的最優(yōu)分類器均是K近鄰(K=5)(分別選中860、887、882次),且準(zhǔn)則2和準(zhǔn)則3相比準(zhǔn)則1選中目標(biāo)分類器的次數(shù)均有所提高,也就是說,方差正則化的分類模型選擇準(zhǔn)則在多分類數(shù)據(jù)上依然有效。
另外,該節(jié)的實驗結(jié)果都是在數(shù)據(jù)集的樣本量有限時所做的實驗(n=200,實際中所能得到的數(shù)據(jù)集總是有限樣本),當(dāng)樣本量無限增大時,加入方差正則化項的模型選擇的性能如何,樣本量有限時得到的結(jié)論在樣本量增加時是否成立,這一問題仍待解決,將在下一章討論。
上一章的實驗驗證了在有限的樣本量下,方差正則化的分類模型選擇準(zhǔn)則能更穩(wěn)定地選擇較優(yōu)的模型,接下來將在理論上進(jìn)一步說明此模型選擇方法在樣本量趨于無窮時同樣能夠選擇到該較優(yōu)的模型,即具有模型選擇的保序性。下面先給出一些記號。
數(shù)據(jù)集Z=(X,Y)且樣本之間獨立同分布,樣本量為n,X為自變量,Y為類別變量,取值為0或1,記第i個測試樣本的真值為yi。兩個分類器為δA和δB,第i個測試樣本在 δA和 δB上的預(yù)測值分別為。在0-1損失下,兩個分類器的測試誤差為和表示 δB分錯的概率與δA分錯的概率之差,,其中表示兩個分類器的預(yù)測值不一致的概率。兩個分類器的泛化誤差的組塊3×2交叉驗證估計記為它們的方差估計為下面先給出文獻(xiàn)[25]中的結(jié)論作為理論證明的基礎(chǔ)。
引理2[25]對有限的樣本量n,如果基于組塊3×2交叉驗證泛化誤差的模型選擇方法判別出分類器δA的性能優(yōu)于分類器δB,那么隨著樣本量的增加,此結(jié)論仍然成立。即當(dāng)n→∞,nΔRn→∞時,成立。
定理1在有限的樣本量n下,如果基于組塊3×2交叉驗證的加入方差估計正則化項的模型選擇方法判別出分類器δA的性能優(yōu)于分類器δB,那么隨著樣本量的增加,此結(jié)論仍然成立。具體地,當(dāng)n→∞,nΔRn→∞ 時 ,成立。
模型的泛化性能是機(jī)器學(xué)習(xí)中度量一個模型優(yōu)劣的最重要指標(biāo),傳統(tǒng)的模型選擇方法或者只對比模型的泛化誤差估計,或者使用統(tǒng)計顯著性檢驗引入泛化誤差估計的方差信息,但由于具有較小的泛化誤差估計的模型往往方差較大,統(tǒng)計顯著性檢驗依賴于數(shù)據(jù)的分布假設(shè)(這一假設(shè)往往不成立),且對多個模型兩兩進(jìn)行對照檢驗時計算復(fù)雜度很大,基于此,將泛化誤差的方差估計添加到模型選擇準(zhǔn)則中,構(gòu)造了一種基于泛化誤差的組塊3×2交叉驗證估計的方差正則化的模型選擇準(zhǔn)則,并通過實驗驗證了在模擬和真實數(shù)據(jù)上,所提方法相比傳統(tǒng)的只包含泛化誤差信息的模型選擇方法具有更好的性能。進(jìn)一步,在理論上證明了考慮方差估計之后的模型選擇準(zhǔn)則,有限樣本上得到的結(jié)論在樣本量趨于無窮時同樣成立。
同時,應(yīng)看到加入方差正則化項的模型選擇準(zhǔn)則雖然在一定程度上緩解了傳統(tǒng)模型選擇準(zhǔn)則選擇到較差模型的概率,但是并沒有使得選擇到較差模型的概率降到0;另外,本文提出的新準(zhǔn)則在具體實現(xiàn)時,需要給出正則化懲罰項函數(shù)的具體形式,對實際問題而言,這是個重要的研究問題;最后,與傳統(tǒng)的以泛化誤差估計作為模型選擇度量指標(biāo)的準(zhǔn)則相比,新準(zhǔn)則引入了一個調(diào)節(jié)參數(shù)λ,不同的調(diào)節(jié)參數(shù)的模型選擇結(jié)果是不同的,勢必就要考慮新準(zhǔn)則的調(diào)節(jié)參數(shù)選擇問題。將來的研究中,將在更多的數(shù)據(jù)和分類器上進(jìn)一步測試所提方法的性能,并試圖分析加入方差正則化項的模型選擇準(zhǔn)則的調(diào)節(jié)參數(shù)選擇方法和正則化項的函數(shù)形式。