余云彩
(湖北師范大學(xué)數(shù)學(xué)與統(tǒng)計(jì)學(xué)院,湖北黃石 435002)
穩(wěn)健方法在線性回歸模型中的應(yīng)用
余云彩
(湖北師范大學(xué)數(shù)學(xué)與統(tǒng)計(jì)學(xué)院,湖北黃石 435002)
從影響函數(shù)和崩潰點(diǎn)角度分析了線性回歸模型中最小二乘估計(jì)的不穩(wěn)健性,進(jìn)而引出M估計(jì)這類穩(wěn)健估計(jì),從理論上分析穩(wěn)健估計(jì)的抗差性,并用R軟件對(duì)實(shí)際數(shù)據(jù)進(jìn)行實(shí)證研究.結(jié)果表明,在處理含有異常點(diǎn)的數(shù)據(jù)過程中,穩(wěn)健估計(jì)優(yōu)于最小二乘估計(jì).
線性回歸模;M估計(jì);穩(wěn)健性
考慮線性回歸模型:
寫成向量形式為:
其中,Y=(Y1,…,Yn)T是n×1的觀測(cè)向量,β=(β1,…,βn)T是p×1未知參數(shù)向量,e=(e1,…,en)T是n×1誤差向量.
為估計(jì)向量β,最常用的方法是最小二乘法,即
其中x'i=(x1i,x2i…,xni).在X滿秩的條件下求得β的最小二乘估計(jì):
最小二乘估計(jì)雖然有許多優(yōu)良性質(zhì),如在Gauss-Markov假設(shè)下,最小二乘估計(jì)βLS具有很好的漸近效率,并且βLS是β估計(jì)的最佳線性無偏估計(jì)(簡(jiǎn)稱BLUE),這一事實(shí)奠定了它在線性回歸估計(jì)中的重要地位.然而它并不是一個(gè)穩(wěn)健的估計(jì),下面我們將從估計(jì)量穩(wěn)健性的兩個(gè)基本指標(biāo)影響函數(shù)和崩潰點(diǎn)來說明βLS的不穩(wěn)健性.
假設(shè)樣本X1,…,Xn獨(dú)立同分布,X1~H(x),樣本協(xié)方差陣正定且有界,誤差e1,…,en,獨(dú)立同分布,e1~F(x).
在模型(1)下,(x1,y1),(x2,y2),…(xn,yn)獨(dú)立同分布,其聯(lián)合分布為:
最小二乘估計(jì)βLS的統(tǒng)計(jì)泛函(記為βLS)是下列方程的解
它的影響函數(shù)為:
其中B=∫xxTd H(x)是正定矩陣.顯然βLS的影響函數(shù)無界,無論是響應(yīng)變量y還是x的觀測(cè)數(shù)據(jù)受到污染,都可能對(duì)βLS的估計(jì)有很大的影響,并且βLS的漸近崩潰點(diǎn)為:
一個(gè)非常穩(wěn)健的估計(jì)應(yīng)該具有受限制的影響和高崩潰點(diǎn),顯然最小二乘估計(jì)表現(xiàn)出非常不穩(wěn)健的特性.為克服這一缺點(diǎn),我們引入穩(wěn)健統(tǒng)計(jì)中一類常用的M估計(jì).
設(shè)X1,…,Xn是來自某總體的一個(gè)樣本,ρ(x;θ)為非負(fù)函數(shù),若θ =θ (X)滿足
M估計(jì)包括很多估計(jì)方法,如那些分類為M估計(jì),GM估計(jì),S估計(jì)及MM估計(jì)的方法,它們都是將最大似然的思想推廣用于尺度和位置的穩(wěn)健測(cè)度(Huber[1])M估計(jì)的性質(zhì)取決于選取的ρ(·),或者與之等價(jià)的ψ.如果選取ρ(x;θ)=-logf(y;θ),得到的是普通最大似然估計(jì).如果ψ無界,漸近崩潰點(diǎn)則為0.為了產(chǎn)生一個(gè)能抵抗特異值干擾的估計(jì),我們應(yīng)該對(duì)分布尾部靠外的觀察值給予較小的權(quán)重,如Huber估計(jì),雙權(quán)數(shù)估計(jì).
Huber估計(jì)由Huber函數(shù)決定:
對(duì)(4)式求導(dǎo),得到影響函數(shù):
其中c是一個(gè)常數(shù),由上述Huber權(quán)重的函數(shù)可以看出M估計(jì)非常穩(wěn)健,并且與其他用于大樣本的穩(wěn)健測(cè)量相比,M估計(jì)具有較高的漸進(jìn)效率,并且隨著樣本量的增大而具有更高的效率(參考Hogg[2]).下面我們將定義線性回歸模型中的M估計(jì):
其中Q(β)為目標(biāo)函數(shù),β=(β1,β2,…,βp)是p維向量.
將目標(biāo)函數(shù)Q(β)限定為帶有非降的導(dǎo)數(shù)ψ(·),即ρ為凸函數(shù),則(5)可等價(jià)地寫成
回歸的M估計(jì)是位置M估計(jì)的一種擴(kuò)展,從形式上看,它是將殘差的某種函數(shù)進(jìn)行最小化,其穩(wěn)健性也取決于函數(shù)ρ和ψ的選擇.
求解回歸M估計(jì)的過程是一個(gè)復(fù)雜過程,因?yàn)闅埐钤谀P臀唇⑵饋碇笆且粋€(gè)未知量,而估計(jì)結(jié)果在殘差未知的情況下也無法直接求出來,所以必須用迭代程序.主要做法是開始給一個(gè)好的初始估計(jì)β(0),然后在式(5)中應(yīng)用一步牛頓法,一般地,把最小二乘估計(jì)作為初始估計(jì)β(0)(盡管最小二乘估計(jì)具有比較差的穩(wěn)健性質(zhì)).
M估計(jì)對(duì)重尾誤差和不定誤差具有很好的耐抗性,通常也有很高的漸近效率和崩潰點(diǎn),然而它不能處理杠桿效應(yīng),對(duì)異常變化的隨機(jī)量X沒有很好的抵抗性.通常情況下可以用改進(jìn)的M估計(jì),利用M-S算法得到MM估計(jì)來處理杠桿效應(yīng),詳細(xì)過程可參考Rousseeuw[3].
下列是來源于Rousseeuw[3](p.27,table 3)的天鵝座方向郝-羅素圖數(shù)據(jù),變量log.Te表示的是恒星表面的實(shí)際溫度(取對(duì)數(shù)),變量log.light表示的是光密度(取對(duì)數(shù)).
表1 天鵝座方向郝-羅素圖數(shù)據(jù)
考察星座光密度與星座表面的實(shí)際溫度的關(guān)系,可以模擬一元線性回歸模型:
用最小二乘法得到回歸直線:
我們將這條直線與星座光密度對(duì)星座表面的實(shí)際溫度的散點(diǎn)圖共同繪制在圖1中.
圖1 光密度對(duì)星座表面的實(shí)際溫度的散點(diǎn)圖和擬合的最小二乘回歸直線
從散點(diǎn)圖看,光密度與星座表面的實(shí)際溫度應(yīng)該是正相關(guān),而我們擬合的最小二乘回歸線的斜率為負(fù),意味著負(fù)相關(guān),與實(shí)際情況不同.從圖1可以發(fā)現(xiàn),回歸線被拉向第11,20,30,34這4個(gè)點(diǎn),說明這四個(gè)點(diǎn)嚴(yán)重影響了我們建立的回歸模型,我們稱這4個(gè)點(diǎn)為異常點(diǎn),也可以叫杠桿效應(yīng)點(diǎn).為了處理異常點(diǎn),下面采取穩(wěn)健的方法來模擬模型(7).
1)用M估計(jì)(用Huber函數(shù))得到穩(wěn)健回歸直線:
2)用MM估計(jì)得到穩(wěn)健回歸直線:
為了方便比較,我們把散點(diǎn)圖和所有模擬的回歸直線共同繪制在圖2中.
圖2 光密度對(duì)星座表面的實(shí)際溫度的散點(diǎn)圖和擬合的最小二乘和穩(wěn)健回歸直線
圖2表明,M估計(jì)(Huber函數(shù))雖然降低了異常點(diǎn)的權(quán)重,但是斜率仍然是負(fù)值,甚至其模擬結(jié)果比最小二乘還要差,可見Huber估計(jì)還是會(huì)受杠桿效應(yīng)的影響,而改進(jìn)后的MM估計(jì)能很好地抵抗異常的干擾.
參考文獻(xiàn):
[1]Yohai V J.Robust estimation in the linear model[J].Ann Statist,1974,2:562~567.
[2]Hogg R V.Adaptive robust procedures[J].Amer Statist Associ,1974,69:909~927.
[3]Rousseeuw P J,Leroy A M.Robust regression and outlier detection[M].New York:Wiley,1987.
[4]陳希孺,趙林城.線性模型中的M方法[M].上海:上海科學(xué)技術(shù)出版社,1996.
[5]Huber P J.Robust statistics[M].New York:Wiley,1981.
[6]Yohai V J,Maronna R A.Asymptotic behavior of M-estimates for the linear model[J].Ann Statist,1979,7:258 ~268.
[7]Zhao L C.Strong consistency of M-estimates in linear models[J].Sci China Ser A,2002,45:1420~1427.
[8]Wu L,Qiu J.Applied multivariate statistical analysis and related topics with R[M].Beijing:Science Press,2013.
[9]Chatterjee S,Hadi A S.Regression analysis by example,5th edn[M].Beijing:China Machine Press,2013.
[10]Yohai V J.High Breakdown-Point and high efficiency robust estimates for regression[J].Ann Statist,1987,15:642~656.
[11]Chatterjee S,Price B.Regression analysis by example[M].New York:Wiley,1977.
Robust methods applied in linear regression models
YU Yun-cai
(College of Mathematics and Statistics,Hubei Normal University,Huangshi 435002,China)
This paper considers some estimators in linear regression model,least-squares estimator is Confirmed the lack of robustness by analyzing their influence function and breakdown point,robust estimators such as M-estimator is investigated.In addition,the resistant of the robust estimators are analyzed theoretically and empirical application to the actual data by R software illustrates that robust estimators are significantly superior to least squares estimate when data contain outliers.
linear regression model;M-estimator;robustness
O212.1
A
1009-2714(2016)04-0035-05
10.3969/j.issn.1009-2714.2016.04.009
2016—02—18
余云彩(1990— ),男,湖北陽(yáng)新人,碩士,研究方向?yàn)榛貧w分析.
湖北師范大學(xué)學(xué)報(bào)(自然科學(xué)版)2016年4期