張 哲,梁馮珍
(天津大學(xué) 理學(xué)院數(shù)學(xué)系,天津300072)
回歸分析是數(shù)理統(tǒng)計中的一類重要研究課題.近幾十年來,回歸分析技術(shù)已被廣泛應(yīng)用于工農(nóng)業(yè)、水文氣象、經(jīng)濟管理、醫(yī)藥衛(wèi)生等領(lǐng)域.然而,隨著現(xiàn)代科學(xué)技術(shù)的不斷進步,數(shù)據(jù)收集技術(shù)也得到了很大程度的提高.所以,對于某些特定類型的數(shù)據(jù),原始的線性回歸方法已不再適用,這就需要學(xué)者們研究更多其他可行的方法.
在傳統(tǒng)的線性回歸模型中,最小二乘估計(LS)應(yīng)用最為廣泛,這是因為在所有線性無偏估計類中,LS估計的方差最小.然而,由于近年數(shù)據(jù)收集技術(shù)的提高,使得數(shù)據(jù)擁有大量的預(yù)測變量,而預(yù)測變量之間常常存在某些線性關(guān)系,導(dǎo)致設(shè)計矩陣呈病態(tài).若仍采用LS估計,盡管它在線性無偏估計類中方差最小,但其估計不穩(wěn)定且精度較差.近年來,基于最小二乘估計,許多學(xué)者提出了多種改進方法,其中很重要的一部分就是有偏估計,即以很小的偏倚為代價,降低估計值的方差,使得總體的期望預(yù)測誤差大幅度減少,從而提高估計的精度與穩(wěn)定性.
早期對LS估計的改進方法有嶺回歸估計、子集選擇等.其中,嶺回歸估計是指通過對LS估計中的殘差平方和加二次罰,達到收縮估計系數(shù)的目的.嶺回歸的估計結(jié)果包含了所有的變量,且變量的系數(shù)均小于LS的估計值.1996年,Tibshirani提出了一種新的回歸方法——Lasso(Least absolute shrinkage and selection operator)[1].這種方法看似簡單的將嶺回歸的二次罰修改為一次罰,但在用二次規(guī)劃求解Lasso的過程中,一些變量的系數(shù)會自動收縮到0,從而達到變量選擇的目的,且估計具有一定的穩(wěn)定性.近年來,在Lasso的基礎(chǔ)上,很多統(tǒng)計學(xué)家提出了更多的改進方法,如文獻[2-6],Elastic Net方法[7]同時具有嶺回歸和Lasso回歸的性質(zhì),特別對具有群組性的預(yù)測變量,估計效果更好.
居民消費價格指數(shù)是國民經(jīng)濟中的重要指標,其變動率在一定程度上反映了國家通貨膨脹(或緊縮)的程度以及對職工實際工資的影響,即職工工資保持不變的情況下,居民價格消費指數(shù)提高意味著實際工資減少.因此,本文對居民價格消費指數(shù)與行業(yè)物價指數(shù)建模并分析,有很強的實際意義.
本文首先介紹并討論了嶺回歸、Lasso回歸、E-lastic Net回歸三種方法,然后分別用這三種方法對中國統(tǒng)計年鑒中2001~2010年的居民消費指數(shù)和行業(yè)物價指數(shù)數(shù)據(jù)進行分析、建模,結(jié)果表明,E-lastic Net回歸的效果最好.
線性回歸是回歸分析中最基本的一類回歸問題.對于一般的線性模型來說,假設(shè)預(yù)測變量的個數(shù)為p,樣本容量為N,則
若記 Y=(y1,y2,…,yN)T,β =(β0,β1,…,βp)T,Xi=(x1i,x2i,…,xNi)T,i=1,2,…,N,X=(1,X1,X2,…,Xp),ε =(ε1,ε2,…,εN)T,T 代表轉(zhuǎn)置,則模型(1)用矩陣表示為
故回歸系數(shù)的最小二乘估計為βLS=(XTX)-1XTY.對任意給定 x0=(x01,x02,…,x0p)T其擬合值
對于給定的x=x0,擬合值^Y=^f(x0)的期望誤差分解如下:
其中:E(y)=f(x0),σ2為目標值圍繞真實值的一個擾動,無論模型估計的有多好,這一項都不可避免的出現(xiàn),Bias2(^f(x0))為偏倚,即為估計值偏離真實值的一個度量,Var(^f(x0))為估計值的方差.
對于模型(1),嶺回歸估計的定義為:
其中:λ≥0為罰參數(shù),λ取值越大,回歸系數(shù)收縮越大.特別地,當λ=0時,嶺回歸退化為LS回歸.值得注意的是,在懲罰項中,并沒有對常數(shù)項β0進行懲罰.事實上,對每一個響應(yīng)加上一個常數(shù),不會對回歸系數(shù)造成影響.從而,嶺回歸的解式(3),可以分為兩部分,一部分是對響應(yīng)變量Y中心化,得到常數(shù)項β0的估計值為,另一部分是用嶺回歸定義估計其他預(yù)測變量的系數(shù).
將響應(yīng)變量中心化后,式(3)等價為
解優(yōu)化問題minRSS(λ)得嶺回歸的解為
由式(5)可以看出,嶺回歸的解是在LS回歸解的基礎(chǔ)上,加了一個正的懲罰參數(shù)λ.故當矩陣X的某些列向量近似線性相關(guān)時,矩陣XTX+λΙ的奇異性要比XTX低,從而降低了估計值的方差,提高了估計精度.然而,嶺回歸也有一定的局限性,它的回歸結(jié)果中包含所有的預(yù)測變量,沒有進行變量選擇,因此會影響模型的準確性.
針對嶺回歸中沒有變量選擇的問題,Tibshirani在1996年提出了Lasso回歸,對其進行了改進.Lasso估計的定義為
下面分別采用嶺回歸和Lasso回歸對R軟件包ElemStatLearn中的prostate數(shù)據(jù)進行分析,該數(shù)據(jù)樣本數(shù)量為97,包含一個響應(yīng)變量(lpsa)和8個預(yù)測變量(lcavol,lweight,age,lbph,svi,lcp,gleason,pgg45).嶺回歸和Lasso回歸的求解途徑如圖1所示.
圖1 嶺回歸與Lasso回歸的求解路
其中圖1左為嶺回歸的求解路徑,橫坐標為自由度(即回歸變量個數(shù)),縱坐標為預(yù)測變量系數(shù).圖1右為Lasso回歸的求解路徑,橫坐標為變換后的收縮因子|,其中 s∈[0,1],t為式(6)中回歸系數(shù)之和的限制值.顯然,嶺回歸沒有達到變量選擇的目的,Lasso回歸隨著收縮因子s的不斷增大,逐漸有預(yù)測變量系數(shù)變?yōu)?,故具有變量選擇的功能.
Lasso回歸與LS回歸相比雖然大大降低了預(yù)測方差,達到了系數(shù)收縮和變量選擇的目的,但是也有一定的局限性 I[9-12],譬如
1)在Lasso回歸求解路徑中,對于N×p的設(shè)計矩陣來說,最多只能選出 min(N,p)個變量[2].當p>N的時候,最多只能選出N個預(yù)測變量.因此,對于p~N的情況,Lasso方法不能夠很好的選出真實的模型.
2)如果預(yù)測變量具有群組效應(yīng),則用Lasso回歸時,只能選出其中的一個預(yù)測變量.
3)對于通常的N>p的情形,如果預(yù)測變量中存在很強的共線性,Lasso的預(yù)測表現(xiàn)受控于嶺回歸.
基于以上幾點Lasso回歸的局限性,Zou和Hastie在2005年提出了彈性網(wǎng)回歸方法,回歸系數(shù)表達式為
下面將分別采用嶺回歸、Lasso回歸和彈性網(wǎng)回歸三種方法對中國統(tǒng)計年鑒中從2001年到2010年近10年來中國的居民價格消費指數(shù)(CPI指數(shù))[10]和46種行業(yè)物價指數(shù)進行分析,并通過建立模型,來研究各種物價指數(shù)對居民價格消費指數(shù)的影響.變量內(nèi)容詳見參考文獻[13].所有的計算均采用R和Matlab軟件計算.
首先,給出嶺回歸、Lasso回歸和彈性網(wǎng)回歸3種方法的求解路徑,如圖2所示.
由圖2知,嶺回歸的預(yù)測變量回歸系數(shù)隨著罰系數(shù)λ的增大逐漸減小,且所有回歸系數(shù)均不為0,甚至許多預(yù)測變量系數(shù)為負數(shù),這不符合經(jīng)濟學(xué)規(guī)律;對于某一特定罰系數(shù)λ,Lasso回歸把某些預(yù)測變量回歸系數(shù)收縮為0,從而達到了變量選擇的目的.因此Lasso回歸比嶺回歸更優(yōu)越.
其次,給出λ取不同值時,預(yù)測變量的回歸系數(shù)如表1、2所示(因為嶺回歸的回歸系數(shù)都不等于零,所以略去預(yù)測變量的回歸系數(shù)表示,從圖2中可大致看出估計結(jié)果).
圖2 三種回歸方法的求解路徑圖
表1 罰系數(shù)不斷增大時Lasso方法的回歸系數(shù),其他變量系數(shù)為0
表2 罰系數(shù)不斷增大時Elastic net方法預(yù)測變量回歸系數(shù)
罰值行業(yè) 煙草 酒 衣著材料 鞋襪帽 衣著加工服務(wù)費 床上用品 家庭日用雜品0.05 0.380 445 0.035 408 0.063 03 -0.027 73 0.033 033 437 -0.012 66 0.083 926 419 1 0.277 951 0.033 073 0.072 323 -0.031 58 0.038 181 244 -0.023 05 0.054 202 845 2 0.247 318 0.029 706 0.060 728 -0.032 72 0.036 373 75 -0.031 88 0.042 130 396 3 0.223 49 0.027 145 0.050 822 -0.032 94 0.034 065 691 -0.035 29 0.033 060 926 4 0.202 251 0.024 756 0.042 033 -0.031 82 0.031 483 967 -0.034 96 0.025 631 649 5 0.183 43 0.022 461 0.034 037 -0.029 87 0.029 876 903 -0.032 57 0.019 239 875 6 0.166 594 0.02 031 0.026 738 -0.027 53 0.026 131 43 -0.029 08 0.013 559 273 7 0.150 744 0.018 232 0.019 928 -0.024 87 0.023 496 748 -0.024 82 0.008 410 18 8 0.135 638 0.016 222 0.013 536 -0.021 9 0.020 872 292 -0.019 77 0.003 671 798罰值行業(yè) 城市間交通費 通信服務(wù) 建房及裝修材料 租房 自有住房 水電燃料0.05 0.024 573 509 -0.380 71 0.046 295 685 0.011624 0.063 642 0.014 66 1 0.028 794 056 -0.166 42 0.037 564 709 0.019 916 0.024 478 0.014 22 2 0.027 392 28 -0.138 17 0.033 160 038 0.019 733 0.005 623 0.013 09 3 0.025 124 917 -0.126 09 0.023 859 125 0.018 848 0 0.011 873 4 0.022 908 276 -0.115 92 0.026 456 018 0.017 722 0 0.010 716 5 0.020 902 54 -0.103 84 0.023 859 125 0.016 481 0 0.009 671 6 0.018 991 367 -0.090 01 0.021 531 139 0.015 187 0 0.008 699 7 0.017 206 347 -0.075 73 0.019 411 45 0.013 875 0 0.007 771 8 0.015 461 082 -0.060 76 0.017 447 73 0.012 559 00.006 878
從表2中可以看出,彈性網(wǎng)選出的變量個數(shù)介于Lasso回歸和嶺回歸之間,既達到了很好的變量選擇效果,又保留了原有數(shù)據(jù)的群組效應(yīng).即某些相關(guān)性很強且很有價值的變量(如糧食、肉禽、水產(chǎn)品、蛋類等)的系數(shù)均不為0,而某些相關(guān)性很強但不是很有價值的變量(化妝美容用品、清潔化妝用品以及保健器具及用品、醫(yī)療保健服務(wù)等)的系數(shù)均為0.Lasso回歸至多選出7個預(yù)測變量,小于樣本量個數(shù),而彈性網(wǎng)回歸選出了更多的變量,不僅具有群組性,而且保證了模型的真實性.
最后,彈性網(wǎng)回歸對于不同的取值所表現(xiàn)出的不同性質(zhì),見圖3.
圖3 L 1罰和L2罰不同比例Elastic Net路徑圖
從圖3可以看出α的取值影響彈性網(wǎng)回歸的求解路徑,當α的取值偏小時,彈性網(wǎng)回歸表現(xiàn)出類似嶺回歸的性質(zhì),當α的取值偏大時,表現(xiàn)出類似Lasso回歸的性質(zhì).
嶺回歸結(jié)果表明,2001~2010年國內(nèi)影響CPI指數(shù)的主要行業(yè)物價指數(shù)有食用類(糧食、肉脂、肉禽及其制品、蛋、水產(chǎn)品)和住房類(建房及裝修材料、租房、自有住房、水電燃料),其他行業(yè)物價指數(shù)均有影響,但所占比重不大.嶺回歸雖然一定程度上刻畫了國內(nèi)近十年來的真實情況,即居民消費主要集中在吃住,但并沒有刪除其他影響不大的行業(yè)價格指數(shù),回歸結(jié)果失真;根據(jù)表1,Lasso回歸結(jié)果表明,影響居民消費價格指數(shù)的主要物價指數(shù)是建房及裝修材料、肉禽及其制品、水產(chǎn)品,其中建房及裝修材料最為突出.這反映了影響CPI指數(shù)的主要行業(yè)物價指數(shù),符合實際情況,但是去掉了大部分其他的行業(yè)物價指數(shù),使模型過于簡潔,顯然不符合實際情況.根據(jù)表2,彈性網(wǎng)回歸結(jié)果表明,該方法一方面達到了嶺回歸對重要種類(衣、食、住、行、用)中幾種具有代表性的行業(yè)價格指數(shù)選擇的目的,另一方面又像Lasso回歸一樣,刪除了其他影響很小的行業(yè)物價指數(shù),取得了最好的效果.由此可知,衣食住行用這幾大產(chǎn)業(yè),支撐著中國國民經(jīng)濟,與人們的生活息息相關(guān),在各行各業(yè)當中占有重要地位.
[1]TIBSHIRANIR.Regression shrinkage and selection via the lasso[J].Journal of the Royal Statistical Society,Series B,1996,58(1):267-288.
[2]FAN J,LIR Z.Variable selection via penalized likelihood[J].Journal of American Statistical Association,2001,96(4):1348-1360.
[3]SAUNDERS M.Sparsity and smoothness via the fused lasso[J].Journal of the Royal Statistical Society,Series B,2005,67(l):91-108.
[4]HUANG J,MA S,ZHANGCH.Adaptive Lasso for sparse high-dimensional regression models[R].Iowa:University of Iowa Department of Statistics and Actuarial Science,2006,Technical Report No.374.
[5]YUAN M,LIN Y.Model selection and estimation in regression with Grouped variables[J].Journal of the Royal Statistical Society,Series B,2006,68(l):49-67.
[6]MEINSHAUSEN N.Relaxed Lasso[J].Computational Statistics and Data Analysis,2007,52(1):374 -393.
[7]ZOU H,HASTIE T.Regularization and variable selection viathe elastic net[J].Journal of the Royal Statistical Society,2005,Series B,67(l):301- 320.
[8]HASTIE T,TIBSHIRANI R,F(xiàn)RIEDMAN J.The Elements of Statistical Learning:Data Mining,Inference and Prediction[M].NEW YORK:Springer,2008.
[9]HESTERBERG T,NAM H C,LUKAS M,etal.Least angle and penalized regression:A review [J].Statistics Surveys,2008,2(2008):61–93.
[10]ZOU H.Adaptive Lasso and its Oracle Properties[J].Journal of American Statistical Association,2006,101(3):1418 -1429.
[11]熊 英.基于Lasso的人臉識別算法[D].北京:清華大學(xué),2010.
[12]龔建朝.Lasso及其相關(guān)方法在廣義線性模型選擇中的應(yīng)用[D].長沙:中南大學(xué),2008.
[13]中華人民共和國國家統(tǒng)計局.中國統(tǒng)計年鑒-2011[M].北京:中國統(tǒng)計出版社,2011.