摘要:利用波士頓房?jī)r(jià)數(shù)據(jù),通過(guò)比較lm、lmrob、LMS和tau四種方法,重點(diǎn)是對(duì)經(jīng)典估計(jì)方法和三種穩(wěn)健估計(jì)方法進(jìn)行分析,研究四種方法的差異及優(yōu)劣,探討在統(tǒng)計(jì)模型中,當(dāng)實(shí)際觀測(cè)數(shù)據(jù)偏離假設(shè),在異常值不可避免的情況下,究竟是選擇建立在某種理想分布基礎(chǔ)上的經(jīng)典估計(jì)理論模型,還是選擇建立在符合數(shù)據(jù)實(shí)際分布基礎(chǔ)上的穩(wěn)健估計(jì)方法。
關(guān)鍵詞:穩(wěn)健估計(jì);最小二乘法;M估計(jì);MM估計(jì);LMS估計(jì)
中圖分類號(hào):F222.1文獻(xiàn)標(biāo)識(shí)碼:A文章編號(hào):1008-4428(2019)03-0040-04
一、 引言
(一)研究目的
線性回歸模型(Linear regression model)是統(tǒng)計(jì)中用來(lái)確定變量間相互依賴關(guān)系的基本模型,應(yīng)用十分廣泛。求解線性回歸模型的經(jīng)典方法是最小二乘法OLS(Ordinary Least sum of Squares),而最小二乘法的幾個(gè)基礎(chǔ)假設(shè)條件,其中之一為:隨機(jī)變量服從正態(tài)分布。當(dāng)觀測(cè)數(shù)據(jù)不滿足這些條件時(shí),比如含有異常值(Outliers),估計(jì)結(jié)果會(huì)有很大偏差,甚至得出錯(cuò)誤的結(jié)論。但是在實(shí)際觀測(cè)中,異常值不可避免,觀測(cè)數(shù)據(jù)大多來(lái)自中心分布的污染數(shù)據(jù),這使得最小二乘法很不穩(wěn)健。一般而言,這種情況下有兩種選擇:一是模型適合大部分?jǐn)?shù)據(jù),但是分布兩端極不符合,二是模型適合全部數(shù)據(jù),但整體擬合結(jié)果一般。簡(jiǎn)單地說(shuō),污染數(shù)據(jù)讓準(zhǔn)確估計(jì)完整模型非常困難,如果估計(jì)完整的模型是不可行的,退而求其次,尋求一個(gè)能準(zhǔn)確擬合中心數(shù)據(jù)的模型,反而變得更可行。
更具體地說(shuō),鑒于一些觀測(cè)值被污染,穩(wěn)健估計(jì)方法試圖估計(jì)參數(shù)的中心分布,利用接近中心的大多數(shù)觀測(cè)來(lái)分析數(shù)據(jù),不再試圖估計(jì)所有數(shù)據(jù)的混合分布。本文最主要的實(shí)踐是線性回歸方程的估計(jì)。穩(wěn)健估計(jì)是適應(yīng)大多數(shù)情況的方法,比經(jīng)典的方法受極端情況的影響要小。
本文數(shù)據(jù)來(lái)自波士頓住房?jī)r(jià)格數(shù)據(jù),比較經(jīng)典的方法與穩(wěn)健估計(jì)方法對(duì)這一數(shù)據(jù)的擬合效果。首先,對(duì)極大似然估計(jì)法和M 估計(jì)(Maximum Likelihood Type Estimates)的位置參數(shù)及分布進(jìn)行比較。其次,一些線性回歸模型將采用經(jīng)典的最小二乘估計(jì)(OLS)方法和穩(wěn)健估計(jì)方法包括 MM 估計(jì)、最小中值平方估計(jì)(LMS)和 tau 估計(jì)。
(二)數(shù)據(jù)說(shuō)明
本文所用的數(shù)據(jù)來(lái)自波士頓住房?jī)r(jià)格數(shù)據(jù)集,為1970年波士頓人口普查時(shí)506個(gè)人口調(diào)查區(qū)域的房屋數(shù)據(jù),共12個(gè)變量。
二、 文獻(xiàn)綜述
(一)穩(wěn)健估計(jì)發(fā)展
線性回歸模型在科學(xué)研究和實(shí)踐中應(yīng)用非常廣泛,并且取得了豐碩成果。它是許多模型的基礎(chǔ)模型,它的理論成果以及實(shí)踐應(yīng)用會(huì)影響到其他一些復(fù)雜模型,因此,在統(tǒng)計(jì)模型中占有重要的地位。估計(jì)回歸系數(shù)的經(jīng)典方法是最小二乘法(OLS),然而最小二乘法很容易受到異常值的影響,是不穩(wěn)健的。真實(shí)觀測(cè)數(shù)據(jù)中,異常值很難避免,這時(shí)候利用最小二乘法進(jìn)行估計(jì),結(jié)果會(huì)比較差,進(jìn)而使得預(yù)測(cè)結(jié)果也比較差,在一定程度上限制了線性模型的應(yīng)用。因此探討研究線性模型的穩(wěn)健估計(jì)方法很有必要。
1953年,G. E. P. Box 首先提出 Robustness 概念。隨后,J. W. Tukey, P. J. Huber 等人對(duì)參數(shù)穩(wěn)健估計(jì)進(jìn)行了有成效的研究。J. W. Tukey 反復(fù)研究傳統(tǒng)統(tǒng)計(jì)方法的不穩(wěn)健性,并確定了切尾均值及平均絕對(duì)離差等估計(jì)方法的優(yōu)良穩(wěn)健性。P. J. Huber 提出了一類未知參數(shù)的穩(wěn)健估計(jì)方法——M 估計(jì),并解決了相應(yīng)的漸進(jìn)極大極小問(wèn)題。Huber 于 1973 年又將穩(wěn)健估計(jì)方法推廣到多維參數(shù)回歸模型的參數(shù)估計(jì)問(wèn)題。20 世紀(jì) 80 年代以來(lái),Huber、F. R. Hampel 和 Rousseeuw 等人先后發(fā)表了很有影響的論著,為穩(wěn)健估計(jì)理論奠定了基礎(chǔ)。Huber 于 1981 年正式給出穩(wěn)健估計(jì)定義,穩(wěn)健統(tǒng)計(jì)學(xué)至此趨于成熟。截至今天,穩(wěn)健統(tǒng)計(jì)已經(jīng)取得了許多進(jìn)展。在國(guó)內(nèi),許多學(xué)者比如陳希孺、趙林城等,在線性、非線性、部分線性模型以及穩(wěn)健投影尋蹤的 M 估計(jì)大樣本特性方面取得了一系列成果。
在統(tǒng)計(jì)建模中,統(tǒng)計(jì)的結(jié)果既依賴于觀測(cè)數(shù)據(jù),又依賴于我們對(duì)所研究總體的一些特定的假設(shè),比如分布形式、獨(dú)立性等。穩(wěn)健估計(jì)旨在克服當(dāng)觀測(cè)數(shù)據(jù)顯著偏離假設(shè)時(shí),經(jīng)典統(tǒng)計(jì)學(xué)所面臨的一些困難。穩(wěn)健估計(jì)是在異常值不可避免的情況下,通過(guò)選擇適當(dāng)?shù)墓烙?jì)方法,盡可能減免未知量估計(jì)值受異常值的影響,得出正常模式下的最佳估計(jì)。穩(wěn)健估計(jì)的目標(biāo)如下:在假設(shè)的觀測(cè)分布模型下,估計(jì)值應(yīng)該是最優(yōu)的或接近最優(yōu)的;假設(shè)的分布模型與實(shí)際的分布模型差異較小時(shí),估計(jì)值受異常值的影響較??;假設(shè)的分布模型與實(shí)際的分布模型偏離較大時(shí),估計(jì)值也不會(huì)受到破壞性影響。
在實(shí)際應(yīng)用中,觀測(cè)數(shù)據(jù)往往會(huì)偏離假設(shè)。經(jīng)典估計(jì)理論是建立在某種理想的分布基礎(chǔ)上,而穩(wěn)健估計(jì)方法是建立在符合數(shù)據(jù)實(shí)際分布的基礎(chǔ)上。這是經(jīng)典估計(jì)和穩(wěn)健估計(jì)理論的根本區(qū)別。在經(jīng)典估計(jì)方法中,當(dāng)觀測(cè)數(shù)據(jù)不滿足假設(shè)條件,比如含有異常值時(shí),估計(jì)結(jié)果就會(huì)受到壞的影響,甚至得出完全錯(cuò)誤的結(jié)論,而在實(shí)際觀測(cè)數(shù)據(jù)中,異常值是不可避免的,這就說(shuō)明經(jīng)典的估計(jì)方法不穩(wěn)健,適應(yīng)性不好。所以,在實(shí)際統(tǒng)計(jì)分析問(wèn)題中,研究者就要做出權(quán)衡,是選擇一個(gè)理想狀態(tài)的模型,適合所有的數(shù)據(jù),但是不穩(wěn)定,易受異常值的影響;或選擇能夠很好的擬合大多數(shù)數(shù)據(jù),受異常值影響較小的模型。
實(shí)踐表明,嚴(yán)格服從于某一特定分布的觀測(cè)數(shù)據(jù)是不存在的。穩(wěn)健估計(jì)理論假定數(shù)據(jù)來(lái)自污染分布,即大多數(shù)的數(shù)據(jù)是來(lái)自于所謂的中心分布,而小部分?jǐn)?shù)據(jù)來(lái)自某些污染分布。穩(wěn)健估計(jì)對(duì)所研究的對(duì)象假定一個(gè)模型,這由中心分布來(lái)表示:同時(shí),穩(wěn)健估計(jì)又允許實(shí)際問(wèn)題僅僅是近似服從此模型。穩(wěn)健估計(jì)要求在假定模型下,估計(jì)性能良好,同時(shí),在模型附近,估計(jì)值性能穩(wěn)定?;谏鲜鰞?yōu)點(diǎn),穩(wěn)健估計(jì)方法已經(jīng)在實(shí)際數(shù)據(jù)分析中有了廣泛的應(yīng)用。更具體地來(lái)說(shuō),穩(wěn)健估計(jì)根據(jù)實(shí)際觀測(cè)數(shù)據(jù),估計(jì)前面我們所介紹的中心分布中的參數(shù)。在線性回歸方程估計(jì)問(wèn)題中,我們利用穩(wěn)健估計(jì)方法得到的結(jié)果與經(jīng)典估計(jì)得到的結(jié)果相比,受異常值的影響更小。
以往的住房數(shù)據(jù)研究,一般采用經(jīng)典的統(tǒng)計(jì)方法,例如最小二乘法。但是由于住房數(shù)據(jù)價(jià)格的區(qū)間比較大,易出現(xiàn)極端值,如果用經(jīng)典估計(jì)方法,得到的分析結(jié)果不穩(wěn)定,易受異常值的影響。為了克服這一缺陷,本文用穩(wěn)健估計(jì)方法對(duì)其進(jìn)行研究,得到的研究結(jié)果與經(jīng)典估計(jì)得到的結(jié)果相比,更加穩(wěn)定。
本文基于波士頓住房數(shù)據(jù),分別用經(jīng)典估計(jì)方法和穩(wěn)健估計(jì)方法對(duì)其分析,比較兩種方法的區(qū)別以及優(yōu)劣。首先,分別用極大似然估計(jì)和 M 估計(jì)對(duì)波士頓住房位置和分散程度進(jìn)行分析,并比較二者區(qū)別。然后,用經(jīng)典最小二乘法和穩(wěn)健估計(jì)方法(包括 MM 估計(jì)、LMS 等)對(duì)線性回歸方程進(jìn)行擬合,比較經(jīng)典估計(jì)和穩(wěn)健估計(jì)的區(qū)別,并將二者的差異用不同的圖形和表格呈現(xiàn)。
(二)模型簡(jiǎn)介
假設(shè)一個(gè)回歸模型中包含有p個(gè)解釋變量和一個(gè)截距項(xiàng),我們可以將其表示成:
可以看出,MEDV的密度函數(shù)是厚尾的,同時(shí)從箱線圖中可以看出,有相當(dāng)多的取值極大的異常值。顯然,ML估計(jì)受到異常值的影響是遠(yuǎn)大于M估計(jì)的。
四、 MEDV 的線性回歸模型
(一)兩個(gè)簡(jiǎn)單的回歸模型
在這一部分中,我們將前面所討論的4種方法應(yīng)用到兩個(gè)簡(jiǎn)單回歸模型的擬合回歸中。這里所說(shuō)的簡(jiǎn)單回歸模型,是指只包含一個(gè)解釋變量和一個(gè)截距項(xiàng)的模型。為了更加形象化,我們?cè)诙S坐標(biāo)軸中畫出回歸直線。這種方法可以直觀地看到,穩(wěn)健估計(jì)法試圖很好的擬合大多數(shù)的數(shù)據(jù),而不是試圖擬合所有的數(shù)據(jù)。這兩個(gè)模型如下所示:
(二)多元回歸模型
現(xiàn)在考慮對(duì)全模型使用以上四種不同的估計(jì)方法。表1中的兩個(gè)變量INDUS 和CHAS未使用,是因?yàn)檫\(yùn)行結(jié)果顯示這兩個(gè)變量的系數(shù)不顯著。因此,這里的全模型是指:
圖5顯示穩(wěn)健估計(jì)方法在殘差中有更多的異常值,同時(shí)在標(biāo)準(zhǔn)化殘差下,穩(wěn)健估計(jì)方法的殘差明顯比最小二乘法的殘差集中,這表明可以通過(guò)改變一些變量或增加更多的變量來(lái)改善模型。顯然,數(shù)據(jù)集有很多的異常值,這導(dǎo)致經(jīng)典最小二乘法和穩(wěn)健估計(jì)方法的估計(jì)結(jié)果相差很大。這意味著我們應(yīng)該努力建立一個(gè)有用的模型來(lái)預(yù)測(cè)響應(yīng)變量。例如,如果首要目的是預(yù)測(cè)未來(lái)的情況,而不考慮極端的情況,那么用穩(wěn)健估計(jì)會(huì)更合適。
2. 多發(fā)事件預(yù)測(cè)
用棄一法交叉驗(yàn)證估計(jì)每個(gè)模型的絕對(duì)預(yù)測(cè)誤差(Absolute PredictionError,APE)。圖6為四種方法的絕對(duì)預(yù)測(cè)誤差的密度分布??梢钥闯觯€(wěn)健估計(jì)方法的絕對(duì)預(yù)測(cè)誤差密度分布在尾端比最小二乘法的絕對(duì)預(yù)測(cè)誤差密度分布更長(zhǎng)、更厚。此外,穩(wěn)健估計(jì)方法的密度分布更向右傾斜,換句話說(shuō),更集中在較低的值。從這次比較來(lái)看,穩(wěn)健估計(jì)方法在預(yù)測(cè)多發(fā)數(shù)據(jù)時(shí)表現(xiàn)得比最小二乘法好,但是當(dāng)有極端情況存在,穩(wěn)健估計(jì)方法表現(xiàn)得不太理想。
如上所述,如果預(yù)測(cè)多發(fā)事件是目標(biāo),穩(wěn)健估計(jì)方法應(yīng)該會(huì)更好。因此,可以找出會(huì)導(dǎo)致穩(wěn)健模型的殘差出現(xiàn)異常值的事件,并將它們看作污染的數(shù)據(jù)。
在交叉驗(yàn)證中,利用四個(gè)模型僅對(duì)多發(fā)事件進(jìn)行回歸的絕對(duì)預(yù)測(cè)誤差來(lái)評(píng)價(jià)模型的預(yù)測(cè)結(jié)果。因?yàn)槎际欠菢颖窘^對(duì)預(yù)測(cè)誤差,所以這等價(jià)于一個(gè)模擬過(guò)程,其中數(shù)據(jù)是被污染的,目標(biāo)是利用這些數(shù)據(jù)建立一個(gè)模型來(lái)盡量準(zhǔn)確的預(yù)測(cè)未來(lái)的多發(fā)事件。結(jié)果如表4:
五、 總結(jié)
樣本均值通常是一個(gè)有著欺騙性的統(tǒng)計(jì)數(shù)據(jù),因?yàn)榧词故呛苌俚臉O端值也會(huì)對(duì)它產(chǎn)生很大的影響。標(biāo)準(zhǔn)差也是如此。另一方面,用M估計(jì)來(lái)估計(jì)位置,用MAD來(lái)估計(jì)分布是穩(wěn)健的。這不由得使我們想起在新聞和報(bào)紙中提到的平均工資、平均住房率等數(shù)據(jù),顯然,對(duì)一個(gè)變量,平均不是最可靠、最有代表性的信息。
毫無(wú)疑問(wèn),穩(wěn)健估計(jì)方法不局限在估計(jì)位置和規(guī)模上。這個(gè)項(xiàng)目比較了三種線性回歸的穩(wěn)健估計(jì)方法和經(jīng)典最小二乘法。在簡(jiǎn)單回歸實(shí)驗(yàn)中,三種穩(wěn)健估計(jì)方法回歸線的斜率都比最小二乘法的要小,這表明穩(wěn)健回歸線更適合多發(fā)數(shù)據(jù),而最小二乘回歸更適合包含極端值的全部數(shù)據(jù)。在多元回歸實(shí)驗(yàn)中已經(jīng)證明,雖然穩(wěn)健估計(jì)方法的絕對(duì)預(yù)測(cè)誤差可能比最小二乘法的大,但是在只估計(jì)中心數(shù)據(jù)時(shí),穩(wěn)健估計(jì)方法一般完成得更加出色。
參考文獻(xiàn):
[1]D. Harrison, Jr. et D. L. Rubinfeld: Hedonic housing prices and the demand for clean air[J]. Journal of Environmental Economics Management,1978,5(6):81-102.
[2]P. J. Huber: Robust Estimation of a Location Parameter[M]. New York Springer,1992.
[3]P. J. Huber: Robust statistics[M]. Wiley,2009.
[4]M. Salibian-Barrera, G. Willems et R. Zamar: The fast-tau estimator for regression[J]. Journal of Computational Graphical Statistics,2008,17(3):659-682.
[5]V. J. Yohai: High breakdown-point and high efficiency robust estimates for regression[J]. Annals of Statistics,1987,15(2):642-656.
[6]R. H. Zamar: Robust regression.
[7]茆詩(shī)松.高等數(shù)理統(tǒng)計(jì)[M].北京:高等教育出版社,1998.
作者簡(jiǎn)介:
王園園,女,河北衡水人,中央財(cái)經(jīng)大學(xué)碩士研究生,研究方向:數(shù)理統(tǒng)計(jì)。