周蘭萍,夏海峰
(1.江蘇省揚(yáng)州中學(xué)教育集團(tuán)樹人學(xué)校,江蘇 揚(yáng)州 225000;2.江蘇省揚(yáng)州市邗江區(qū)公道中學(xué),江蘇 揚(yáng)州 225119)
本文考慮如下線性回歸模型
y=Xβ+e,E(e)=0,Cov(e)=σ2In
(1)
其中y是n×1的觀測(cè)向量,X為n×p的已知設(shè)計(jì)矩陣,β為n×p未知參數(shù)向量,e為隨機(jī)誤差向量。并假設(shè)
Aβ=b
(2)
是一個(gè)相容線性方程組,其中A為k×p的已知矩陣,且秩為k,b為k×1維已知向量.
由于線性回歸模型(1)是統(tǒng)計(jì)學(xué)中最重要的模型之一,所以眾多的學(xué)者對(duì)其進(jìn)行大量而深入的研究(如文獻(xiàn)[1~4]) 。影響分析(即探查對(duì)估計(jì)或預(yù)測(cè)有異常大影響的數(shù)據(jù))是回歸診斷的重要內(nèi)容,盡管可以使用很多種統(tǒng)計(jì)量來進(jìn)行影響分析,但我們常常采用Cook統(tǒng)計(jì)量進(jìn)行度量(參見文獻(xiàn)[5-8])。本文仍采用Cook統(tǒng)計(jì)量對(duì)約束線性回歸模型進(jìn)行影響分析。
用Y(i),X(i),e(i)分別表示從Y,X,e剔除第i行所得的向量或矩陣。從線性回歸模型(1)剔除第i組數(shù)據(jù)后,剩余的n-1組數(shù)據(jù)的線性回歸模型為
Y(i)=X(i)β+e(i),Ee(i)=0,Cov(e(i))=σ2In-1
(3)
我們知道,模型(1)在約束條件(2)下的最小二乘估計(jì)為
(4)
下面用Lagrange乘子法可以求模型(3)滿足線性約束(2)的最小二乘估計(jì)。記
(5)
則線性約束(2)可以改寫為
(6)
問題轉(zhuǎn)化為在(6)的k個(gè)條件下,求β使Q(β)=‖y(i)-X(i)β‖2達(dá)到最小值。為此構(gòu)造輔助函數(shù)
‖y(i)-X(i)β‖2+2λ′(Aβ-b)=
(y(i)-X(i)β)′(y(i)-X(i)β)+2λ′(Aβ-b)
其中λ=(λ1,…,λk)′為L(zhǎng)angrange乘子。對(duì)函數(shù)F(β,λ)求對(duì)β0,β1,…,βp-1的偏導(dǎo)數(shù),整理并令它們等于零,得到
(7)
聯(lián)立(7)式和線性約束(2)式,得到λ的估計(jì)和約束最小二乘估計(jì)分別為
(8)
(9)
(10)
證明 注意到(參見文獻(xiàn)[9])
(11)
可以得到
(12)
其中
由(4)(9)(12)式得
(13)
其中
(14)
(15)
又容易得到(參見文獻(xiàn)[9])
(16)
由(10)(15)(16)式即可得到定理1.至此定理證明完畢。
注2.定理1在形式上與基于其它估計(jì)的Cook距離相同(如:文獻(xiàn)[9]基于最小二乘估計(jì),文獻(xiàn)[10]基于穩(wěn)健估計(jì)等),因而在一定程度上說明了我們的結(jié)論是合理的。
注3. 定理1是采用Cook距離進(jìn)行數(shù)據(jù)的影響分析,還可以用其它距離,如:Welsch-Kuh距離、Hadi測(cè)度、Pena距離、似然距離等[10~12]等)。
某科學(xué)基金會(huì)的管理人員欲了解從事研究工作的中、高水平的數(shù)學(xué)家的年工資額Y與他們的研究成果的質(zhì)量指標(biāo)X1、從事研究工作的時(shí)間X2以及能成功獲得資助的指標(biāo)X3之間的關(guān)系。為此按一定的設(shè)計(jì)方案調(diào)查了24位數(shù)學(xué)家,得到數(shù)據(jù)如表1所示。
經(jīng)計(jì)算和檢驗(yàn),我們可以得到如下合理的回歸方程為
另外,通過檢驗(yàn)可以認(rèn)為X1與X3的系數(shù)相等,因此我們可以將本例改為:求在條件β1=β3下的回歸方程。此時(shí)得到如下回歸方程:
經(jīng)計(jì)算,精確和近似Cook距離均表明沒有強(qiáng)影響數(shù)據(jù)。為了說明我們方法的有效性,將19號(hào)數(shù)學(xué)家的年工資額從38.0改為138.0,得到精確Cook距離為D19=1.05564和近似Cook距離為D19≈1.05045,二者相差較小,均遠(yuǎn)遠(yuǎn)大于其它點(diǎn),二者均說明19號(hào)數(shù)據(jù)是強(qiáng)影響點(diǎn),進(jìn)而說明本文方法的有效性。
表1 24位數(shù)學(xué)家的數(shù)據(jù)
參考文獻(xiàn):
[1]Guil GR, Engela B, Norberto C, et al.Least squares estimation of linear regression models for convex compact random sets[J].Advances in Data Analysis and Classification,2007, 1: 67~81.
[2]Hampel F R, Ronchetti E M, Rousseeuw P J, et al.Robust Statistics[M].New York:John Wiley & Sons, 1986.
[3]Li Y, Yang H.A new stochastic mixed ridge estimator in linear regression model[J].Statistical papers,2010, 51(2):315~323.
[4]Sakallioglu S, Kaciranlar S.A new biased esimator based on ridge estimation[J].Statistical Papers, 2008, 49: 669~689.
[5]Cook R D.Detection of influential observations in linear regression[J].Technometrics, 1977, 19:15~18.
[6]Vens M, Ziegler A.Generalized estimating equations and regression diagnostics for longitudinal controlled clinical trials: A case study[J].Computational Statistics and Data Analysis, 2012, 56(5):1232~1242.
[7]Venezuela M K, Sandoval M C, Botter D A.Local influence in estimating equations[J].Computational Statistics and Data Analysis, 2011, 55: 1867~1883.
[8]Diaz-Garcia JA, Gonzalez-Farias G.A note on the Cook's distance[J].Journal of Statistical Planning and Inference, 2004, 120:119~136.
[9]王松桂,陳 敏,陳立萍.線性統(tǒng)計(jì)模型:線性回歸與方差分析[M].北京:高等教育出版社,1999.
[10]Türkan S, Cetin MC, Toktamis O.Outlier detection by regression diagnostics based on robust parameter estimates[J].Hacettepe Journal of Mathematics and Statistics, 2012,41(1):147~155.
[11]Belsley D A, Kuh E, Welsch R E.Regression Diagnostics: Identifying Influential Data and Sources of Collinearity[M].New York: John Wiley & Sons, 1980.
[12]孟麗麗,盧志義.基于Pena距離的加權(quán)最小二乘估計(jì)的影響分析[J].數(shù)理統(tǒng)計(jì)與管理,2009,28(2):252~257.