家會(huì)臣 靳竹萱 李濟(jì)洪
(1.山西大學(xué) 數(shù)學(xué)科學(xué)學(xué)院,山西 太原 030006;2.北京大學(xué) 數(shù)學(xué)科學(xué)學(xué)院,北京 100871;3.山西大學(xué) 計(jì)算中心,山西 太原 030006)
Logistic模型選擇中三種交叉驗(yàn)證策略的比較*
家會(huì)臣1靳竹萱2李濟(jì)洪3
(1.山西大學(xué) 數(shù)學(xué)科學(xué)學(xué)院,山西 太原 030006;2.北京大學(xué) 數(shù)學(xué)科學(xué)學(xué)院,北京 100871;3.山西大學(xué) 計(jì)算中心,山西 太原 030006)
在模型選擇中,常用5折、10折交叉驗(yàn)證方法.文章給出一種基于3×2交叉驗(yàn)證的模型選擇方法,并通過(guò)模擬實(shí)驗(yàn)證明了在Logistic模型中,3×2交叉驗(yàn)證要比5折和10折交叉驗(yàn)證選到真模型的概率更大.
交叉驗(yàn)證;模型選擇;logistic回歸;R軟件
模型選擇是統(tǒng)計(jì)機(jī)器學(xué)習(xí)建模的重要環(huán)節(jié).一般來(lái)說(shuō),模型選擇是根據(jù)某種評(píng)價(jià)標(biāo)準(zhǔn),在所有候選模型集合中選出使得該評(píng)價(jià)標(biāo)準(zhǔn)最優(yōu)的特定模型.模型選擇的主要目的之一是選到真模型,描述如下:
給定樣本量為N的訓(xùn)練數(shù)據(jù)D N,若候選模型集合記為SDN,真模型記為S0.從SDN中選出使得某指標(biāo)最小的模型S*,即
這里crit(S:D N)=crit(S)∈R是對(duì)模型S性能的某種評(píng)價(jià)標(biāo)準(zhǔn),比如風(fēng)險(xiǎn)函數(shù).評(píng)價(jià)一個(gè)模型選擇方法好壞的標(biāo)準(zhǔn)是其S*是真模型S0的概率P.常用的模型選擇方法有AIC、BIC、交叉驗(yàn)證等.其中,由于交叉驗(yàn)證算法的簡(jiǎn)單性,使其在模型選擇任務(wù)中得到了廣泛的應(yīng)用.特別是在自然語(yǔ)言處理(NLP,Nature Language Processing)的很多分類問(wèn)題中,常使用交叉驗(yàn)證來(lái)做最優(yōu)模型的選擇.但對(duì)于交叉驗(yàn)證折數(shù)的選擇,相關(guān)的文獻(xiàn)只是經(jīng)驗(yàn)的建議用5折或10折,至于5折或10折在模型選擇中是否相比其他折數(shù)具有優(yōu)良性質(zhì),文獻(xiàn)中研究并不多.已有的研究成果大都集中在預(yù)測(cè)誤差的交叉驗(yàn)證估計(jì)的偏差、方差及一致性的研究上,例如Arlot S[1]對(duì)交叉驗(yàn)證在模型選擇中的性能進(jìn)行了綜述性的描述,Claude N[2],Bengio Y[3],Markatou H[4]等對(duì)預(yù)測(cè)誤差估計(jì)的偏差和方差就行了研究,Yang Y[5]針對(duì)模型選擇的一致性進(jìn)行了研究.李濟(jì)洪等[6]在漢語(yǔ)框架語(yǔ)義角色標(biāo)注任務(wù)中使用了3×2交叉驗(yàn)證來(lái)做模型選擇.他認(rèn)為,3×2交叉驗(yàn)證的數(shù)據(jù)集切分方式可以使訓(xùn)練集的分布與測(cè)試集的分布更為接近,緩解特征稀疏對(duì)模型選擇的影響,有利于選出真模型.因此,本文將針對(duì)自然語(yǔ)言處理中常用的分類模型logistic模型,通過(guò)模擬實(shí)驗(yàn)證明3×2交叉驗(yàn)證比5折和10折交叉驗(yàn)證選到真模型的概率更大.因此,在模型選擇階段應(yīng)采用3×2交叉驗(yàn)證方法.
K折交叉驗(yàn)證常用于模型平均預(yù)測(cè)誤差(風(fēng)險(xiǎn)函數(shù))的估計(jì),記L(y,f(x))為損失函數(shù),則K折交叉驗(yàn)證(CV)估計(jì)定義如下:
首先將數(shù)據(jù)集隨機(jī)分成容量相同的K份,依次拿出第k(k=1,2,…,K)份數(shù)據(jù)作為測(cè)試集,將剩余的K-1份作為訓(xùn)練集,最后合并所有K份上的測(cè)試結(jié)果,便得到了K折交叉驗(yàn)證的CV值,用公式表示為:其中N表示樣本量,y i表示第i個(gè)樣本的觀測(cè)值,k(i)表示第i個(gè)樣本所在的份數(shù),︵f-k(i)表示去掉第k(i)份,在其余K-1份上擬合得到的模型,CVk表示用除第k份之外的樣本做擬合之后,再在第k份上做預(yù)測(cè)得到的預(yù)測(cè)誤差估計(jì)值.5折和10折交叉驗(yàn)證即分別取K為5和10.
K折交叉驗(yàn)證的模型選擇方法是:在候選模型中選擇使得CV值最小的模型.
與傳統(tǒng)的K折交叉驗(yàn)證略有不同,對(duì)于3×2交叉驗(yàn)證(即3組2折交叉驗(yàn)證),首先將數(shù)據(jù)集隨機(jī)分成4份,用其中任意2份作為訓(xùn)練集,其余2份作為測(cè)試集,這樣便可做3組2折交叉驗(yàn)證,得到表1中的6個(gè)試驗(yàn)結(jié)果.
表1 3×2交叉驗(yàn)證實(shí)驗(yàn)
3×2交叉驗(yàn)證的模型選擇方法是:在候選模型中選擇使得3×2CV值最小的模型.
下面以選到真模型的概率來(lái)比較5折、10折、3×2交叉驗(yàn)證的模型選擇方法.
本文實(shí)驗(yàn)中我們假定共有10個(gè)特征,則系數(shù)取值非0的特征組成了真模型,不失一般性,假定前5個(gè)系數(shù)非0,β=(β1,β2,β3,β4,β5,0,0,0,0,0),由此得真模型S0:
對(duì)于β中的非0項(xiàng),本文借鑒了文獻(xiàn)[7]模擬實(shí)驗(yàn)中的方法,從(-1)u(a+|z|)中隨機(jī)產(chǎn)生,其中a=.這樣的設(shè)置非常重要,因?yàn)樗鼙WC真模型中的特征對(duì)響應(yīng)變量的影響是顯著的,使得模型有比較合適的信噪比.由于a由N決定,因此當(dāng)給定N時(shí),便可為真模型S0隨機(jī)產(chǎn)生一組系數(shù)值,并將其固定下來(lái).
候選模型的設(shè)定,本文共選擇了包含真模型在內(nèi)的6個(gè)模型作為候選模型,S0:前5個(gè)特征(即真模型);S1:前6個(gè)特征;S2:前7個(gè)特征;S3:前8個(gè)特征;S4:前9個(gè)特征;S5:前10個(gè)特征(見(jiàn)表3).
訓(xùn)練數(shù)據(jù)的獲取,本文假定10個(gè)特征獨(dú)立同分布且都服從正態(tài)N(0,1),則可隨機(jī)產(chǎn)生N個(gè)獨(dú)立同分布的訓(xùn)練樣本,即得到一個(gè)N×10的特征矩陣X.將X帶入真模型S0中便可求出相應(yīng)的p,再根據(jù)b(1,p)產(chǎn)生一組響應(yīng)變量的真值Y.以(X,Y)為觀測(cè)數(shù)據(jù)集,分別計(jì)算表2中6個(gè)候選模型的3種交叉驗(yàn)證的CV值,選出各自的最優(yōu)模型.重復(fù)1 000次實(shí)驗(yàn),計(jì)算每個(gè)候選模型被選為真模型的頻次,用于比較3種交叉驗(yàn)證的模型選擇方法.
另外應(yīng)當(dāng)注意的是,每個(gè)候選模型所對(duì)應(yīng)的特征矩陣是不同的,例如:候選模型S1只含有前6個(gè)特征,則其特征矩陣應(yīng)為X的前6列(見(jiàn)表2).
依照上述實(shí)驗(yàn)設(shè)置,對(duì)于樣本N的不同取值(500,800,1 000,1 500,2 000),均做1 000次模型選擇實(shí)驗(yàn),得到5組實(shí)驗(yàn)結(jié)果(見(jiàn)表3).
表2 候選模型的設(shè)定及其特征矩陣
從表3中的五組實(shí)驗(yàn)結(jié)果可總結(jié)出如下結(jié)論:
1)3×2交叉驗(yàn)證比5折和10折交叉驗(yàn)證選到真模型的概率更大(見(jiàn)圖1).且不受樣本量N的影響.該結(jié)論是經(jīng)過(guò)大量模擬實(shí)驗(yàn)得到的,其理論原因還有待進(jìn)一步研究.我們猜想是由于3×2交叉驗(yàn)證比5折和10折交叉驗(yàn)證的方差要小,穩(wěn)定的CV值使得3×2交叉驗(yàn)證選到真模型的概率更大.
表3 5組實(shí)驗(yàn)結(jié)果
圖1 3種交叉驗(yàn)證所提頻率的對(duì)比
2)交叉驗(yàn)證可能更適用于小樣本情形下的模型選擇任務(wù).在圖1中的3條曲線上,N為500時(shí)頻率的值最大.這是由于樣本有限的情況下學(xué)習(xí)精度和推廣性是一對(duì)不可調(diào)和的矛盾,復(fù)雜的模型能使學(xué)習(xí)誤差更小,但卻喪失了推廣性,為此要采取方法控制模型的復(fù)雜度,通過(guò)交叉驗(yàn)證進(jìn)行模型選擇便是控制模型復(fù)雜度的一種好方法.因此在本文實(shí)驗(yàn)中,小樣本情形下交叉驗(yàn)證能選到相對(duì)更小的模型,即選到真模型的概率更大.
另一方面,3×2交叉驗(yàn)證需要做6次交叉驗(yàn)證,5折交叉驗(yàn)證則需要做5次,而10折交叉驗(yàn)證需做10次,3×2與5折交叉驗(yàn)證計(jì)算復(fù)雜度相差不大,而比10折交叉驗(yàn)證計(jì)算復(fù)雜度小很多,所以,在針對(duì)分類問(wèn)題的模型選擇任務(wù)中,3×2交叉驗(yàn)證比5折和10折交叉驗(yàn)證更適用.
本文通過(guò)模擬實(shí)驗(yàn)驗(yàn)證了在Logistic模型選擇任務(wù)中,3×2交叉驗(yàn)證比5折和10折交叉驗(yàn)證選到真模型的概率更大;交叉驗(yàn)證在小樣本時(shí)選到真模型的概率更大.因此,在logistic模型選擇任務(wù)中,3×2交叉驗(yàn)證更適用.
[1]Arlot S,Celisse A.A survey of cross-validation procedures for model selection[J].Statistics Surveys,2010,4:40-79
[2]Claude N,Gengio Y.Inference for the generalization error[J].Machine Learning,2003,52:239-281
[3]Bengio Y,Grandvalet Y.No unbiased esimator of the variance ofK-Fold Cross-validation[J].Journal of Machine Learning Research,2004,5:1 089-1 105
[4]Markatou H,Tian H,Biswas S,et al.Analysis of Variance of Cross-validation Estimators of the generalization error[J].Jour-nal of Machine Learning Research,2005,6:1 127-1 168
[5]Yang Yuhong.Consistency of cross validation for Comparing regression procedures[J].Annals of Statistics,2007,35:2 450-2 473
[6]李濟(jì)洪,王瑞波,王蔚林,等.漢語(yǔ)框架語(yǔ)義角色的自動(dòng)標(biāo)注研究[J].軟件學(xué)報(bào),2010,4:597-611
[7]Fan Jianqing,Lv Jinchi.Sure independence screening for ultra-high dimensional feature space[J].Journal of Royal Statistical Society,2008,70:849-911
The Comparison of Three Cross-Validation Strategy for Logistic Model Identification
Jia Huichen1Jin Zhuxuan2Li Jihong3
(1.School of Mathematical Sciences,Shanxi University,Taiyuan 030006;2.School of Mathematical Sciences,Peking University,Beijing 100871;3.Computer Center of Shanxi University,Taiyuan 030006,China)
The 5 fold and 10 fold cross validation methods are often employed in the model identification task.The 3×2 cross validation methods are introduced to identify the true model.The experimental results demonstrated that in the logistic regression framework,the probability of true model identification based on 3×2 cross validation is higher than that of 5 fold and 10 fold cross validation methods.
cross-validation;model selection;Logistic regression;R software
王映苗】
1672-2027(2012)01-0087-04
TP391
A
2011-11-30
國(guó)家自然科學(xué)基金(60873128).
家會(huì)臣(1987-),男,山西臨汾人,山西大學(xué)數(shù)學(xué)科學(xué)學(xué)院在讀碩士研究生,主要從事:統(tǒng)計(jì)機(jī)器學(xué)習(xí)和統(tǒng)計(jì)自然語(yǔ)言處理.