摘 要:在對因變量為定性變量的的回歸分析中,傳統(tǒng)的方法包括Logistic回歸模型、Probit模型等廣義線性模型,同時,在機器學(xué)習(xí)法中也產(chǎn)生了諸如決策樹回歸、支持向量機等方法,此類方法的優(yōu)點在于可以處理任意類型的數(shù)據(jù)以及在短時間類處理大型數(shù)據(jù)源。本文的目的在于面對定性變量的回歸分析中,比較傳統(tǒng)模型(以Logistic模型為例)與機器學(xué)習(xí)法(以決策樹為例)兩者的優(yōu)劣。
關(guān)鍵詞:Logistic回歸模型;機器學(xué)習(xí)法;決策樹回歸;R軟件
一、Logistic模型
Logistic回歸(logistic regression)是研究因變量為二分類觀測結(jié)果與影響因素(自變量)之間關(guān)系的一種多變量分析方法,屬概率型非線性回歸。一般Logistic模型為:
其中p為事件發(fā)生的概率。
Logistic回歸參數(shù)的估計通常采用最大似然法。最大似然法的基本思想是先建立似然函數(shù)與對數(shù)似然函數(shù),再通過使對數(shù)似然函數(shù)最大求解相應(yīng)的參數(shù)值,所得到的估計值為參數(shù)的最大似然估計值。最大似然估計具有的一致性、有效性和正態(tài)性都是一些很好的統(tǒng)計性質(zhì),樣本數(shù)據(jù)越大時其估計值就越準(zhǔn)確。
由于Logistic回歸模型就是基于二項分布族的廣義線性模型,因此在R軟件中,Logistic回歸分析可以通過調(diào)用廣義線性回歸模型函數(shù)glm()來實現(xiàn)。
二、決策樹回歸模型
機器學(xué)習(xí)中,決策樹是一個預(yù)測模型;它代表的是對象屬性與對象值之間的一種映射關(guān)系。樹中每個節(jié)點表示某個對象,而每個分叉路徑則代表的某個可能的屬性值,而每個葉結(jié)點則對應(yīng)從根節(jié)點到該葉節(jié)點所經(jīng)歷的路徑所表示的對象的值。決策樹僅有單一輸出,若欲有復(fù)數(shù)輸出,可以建立獨立的決策樹以處理不同輸出。 數(shù)據(jù)挖掘中決策樹是一種經(jīng)常要用到的技術(shù),可以用于分析數(shù)據(jù),同樣也可以用來作預(yù)測。
決策樹分析主要有兩種,一種為分類樹分析,它是當(dāng)預(yù)計結(jié)果可能為離散類型(例如三個種類的花,輸贏等)使用的概念;另一種為回歸樹分析,它是是當(dāng)預(yù)計結(jié)果可能為實數(shù)(例如房價,患者住院時間等)使用的概念。
三、兩種模型效果比較的實證分析
下面采用愛爾蘭教育水平數(shù)據(jù)來檢測logistic模型與決策樹模型在對含有名義變量的回歸中的效果,本數(shù)據(jù)來自http://lib.stat.cmu.edu/datasets/irish.ed
(一)數(shù)據(jù)說明
該數(shù)據(jù)包括500個樣本,六個變量,變量分別為:
變量1為性別,以V1表示;變量2為一項測試的得分,以V2表示;變量3為獲得的教育水平,以V3表示;變量4表示是否獲得畢業(yè)證書,其中1表示否,2表示是,以V4表示;變量5表示被調(diào)查者的職業(yè)社會地位得分,以V5表示;變量6表示學(xué)校類型,以V6表示。
其中變量2、變量5為定量變量,而變量1、變量3、變量4、變量6為定性變量,這里對變量4作回歸分析,即建立是否獲得畢業(yè)證書的回歸模型,顯然,這里的變量4即V4為二元變量,回歸模型適合用logistic模型以及決策樹來建立。下面分別用R軟件建立logistic模型與決策樹模型。
(二)數(shù)據(jù)預(yù)處理
這里的預(yù)處理包括對數(shù)據(jù)缺失值的處理以及對某些變量的合并。
可以看到在V3及V5中出現(xiàn)了最小值0,顯然V3與V5數(shù)據(jù)中出現(xiàn)了缺失值。對數(shù)據(jù)缺失采用R軟件中的missForest進行處理。
對missForest處理后的數(shù)據(jù)作缺失值檢測,顯示缺失值為0,缺失值處理成功。
下面對處理后的新數(shù)據(jù)檢測是否有做合并處理的必要,數(shù)據(jù)合并是對某些對因變量相關(guān)性很強的變量內(nèi)部值作合并處理,這一點在作logistic回歸中影響不大,但在作決策樹回歸時會由于變量相關(guān)性太強容易導(dǎo)致數(shù)據(jù)不能充分利用。下面嘗試對V4作決策樹:
顯然,以V3作決策變量時,對V4的判定相當(dāng)完美,可以說V3與V4是等同的,意味著在作決策樹回歸時產(chǎn)生了“過擬合”現(xiàn)象,即在樣本內(nèi)擬合相當(dāng)完美,但在樣本外擬合效果會很差。在盡量不刪除變量的原則下,對V3中的11個水平數(shù)作一些合并,具體合并原則為:將未完成當(dāng)前學(xué)制的(原類2、類3、類6、類7、類10)歸為類2,完成當(dāng)前學(xué)制的(原類4、類5、類8、類9、類11)歸為類3,原類1任為類1,這樣合并以后的V3只有3個水平。
(三)建立Logistic回歸模型
R軟件中通過glm函數(shù)直接建立logistic回歸模型,另外這里采用逐步回歸,回歸結(jié)果如下
其中,V1在逐步回歸中被淘汰,由于V4的水平數(shù)分別為1和2,在進行回歸時,使之變?yōu)?-1變量,最后納入回歸模型的因變量為V4-1,得到的回歸模型為
這里對的擬合結(jié)果給每一個觀測值一個概率值,這里以0.5為分類界限,并檢驗錯判概率。
一共有83個觀測值被錯分,誤判率為0.166。
(四)決策樹回歸
同樣的,R軟件中可以用rpart函數(shù)直接給出決策樹回歸結(jié)果,運行結(jié)果及決策樹如下
同時,也可以得到?jīng)Q策樹效果圖
下面檢測決策分類法的錯分概率
一共有74個觀測值錯分,錯分概率為0.148。
四、結(jié)論
由以上分析可看出,在對含有定性變量的回歸分析中,同時因變量為二元變量時,logistic回歸模型仍然是一個好的選擇,錯判概率在一個很低的水平。而決策樹作為分類模型是個更好的選擇,錯判率比logistic回歸模型的效果更好,即上圖所示logistic回歸模型的錯判率為0.166而決策樹分類模型的錯判率為0.148。
參考文獻:
[1]王濟川,郭志剛.Logistic回歸模型——方法與應(yīng)用[M].高等教育出版社,2001.
[2]湯銀才.R語言與統(tǒng)計分析[M].高等教育出版社,2008.
[3]呂曉玲,謝邦昌.數(shù)據(jù)挖掘:方法與應(yīng)用[M].中國人民大學(xué)出版社,2009.
[4]吳喜之,復(fù)雜數(shù)據(jù)統(tǒng)計方法——基于R的應(yīng)用[M].中國人民大學(xué)出版社,2012.