朱寧,嚴(yán)冠東,劉慶華
(桂林電子科技大學(xué)數(shù)學(xué)與計(jì)算科學(xué)學(xué)院,廣西桂林541004)
Stein嶺型主成分估計(jì)下多個(gè)數(shù)據(jù)刪除模型的強(qiáng)影響分析
朱寧,嚴(yán)冠東,劉慶華
(桂林電子科技大學(xué)數(shù)學(xué)與計(jì)算科學(xué)學(xué)院,廣西桂林541004)
基于Stein嶺型主成分估計(jì)下研究多個(gè)數(shù)據(jù)刪除模型,探討數(shù)據(jù)刪除模型估計(jì)量的有關(guān)性質(zhì),并給出了多個(gè)數(shù)據(jù)刪除模型的CRi統(tǒng)計(jì)量、APi統(tǒng)計(jì)量、Di統(tǒng)計(jì)量的新表達(dá)式.
Stein嶺型主成分估計(jì);多個(gè)數(shù)據(jù)刪除模型;多個(gè)強(qiáng)影響點(diǎn);診斷統(tǒng)計(jì)量
考慮一般線性模型:
其中,y為n×1階觀測(cè)向量,X為n×p階列滿秩設(shè)計(jì)陣,β為p×q階未知參數(shù)向量,ε為n×1階隨機(jī)誤差,I為n階單位矩陣.
在統(tǒng)計(jì)診斷中,通常需要尋找和判斷對(duì)回歸系數(shù)影響較大的數(shù)據(jù)點(diǎn),如果刪除這些強(qiáng)影響點(diǎn),回歸模型的系數(shù)會(huì)受到很大影響,數(shù)值會(huì)發(fā)生較大變化.這時(shí)候需要檢驗(yàn)是人為因素造成還是數(shù)據(jù)集本身造成的.解決這類問題的方法,在統(tǒng)計(jì)診斷學(xué)中稱為影響分析.為了研究數(shù)據(jù)集每組數(shù)據(jù)點(diǎn)對(duì)模型的影響程度大小,為此通常采用數(shù)據(jù)刪除模型.
記i的m個(gè)指標(biāo)集為J={i1,i2,…,im},對(duì)于模型(1)中,把J中的指標(biāo)對(duì)應(yīng)的數(shù)據(jù)刪除以后,與模型(1)相對(duì)應(yīng)的數(shù)據(jù)刪除模型的各個(gè)量分別記為X(J),y(J)和ε(J),其中y(J)和ε(J)為(n-m)維向量,X(J)為(n-m)×p階矩陣,則此時(shí)的數(shù)據(jù)刪除模型表示為
此時(shí)的最小二乘估計(jì)為
文獻(xiàn)[1]在最小二乘估計(jì)下討論數(shù)據(jù)刪除模型的影響度量矩陣和高杠桿點(diǎn)度量;文獻(xiàn)
[2]在廣義嶺估計(jì)下討論刪除單個(gè)點(diǎn)數(shù)據(jù)刪除模型的影響度量和高杠桿點(diǎn)度量;文獻(xiàn)[3]在廣義嶺估計(jì)下討論刪除單個(gè)點(diǎn)數(shù)據(jù)刪除模型的影響度量和高杠桿點(diǎn)度量.本文在前人基礎(chǔ)上,推廣到刪除多個(gè)數(shù)據(jù)點(diǎn)數(shù)據(jù)刪除模型,定義新的影響度量矩陣HJ和數(shù)據(jù)刪除模型高杠桿點(diǎn)度量意義,同時(shí)把文獻(xiàn)的結(jié)論推廣到一般形式.
考慮模型(1)和(2)定義新的影響度量矩陣為
其中XJ為刪除數(shù)據(jù)矩陣.顯然HJ為m×m階矩陣,它的元素為
當(dāng)i,k埸J時(shí),所有的hik正好構(gòu)成了模型(2)的帽子矩陣,即
可得
首先給出引理1.
引理1[4]在模型(1)下提出了未知參數(shù)β的Stein嶺型主成分估計(jì),即在嶺-壓縮組合估計(jì)的基礎(chǔ)上再進(jìn)行Stein估計(jì),叫做Stein嶺型主成分估計(jì)(有偏嶺-壓縮組合估計(jì)),記作:,
其中,
證明:
性質(zhì)2在線性模型y=Xβ+ε,ε~N(0,σ2I),刪除數(shù)據(jù)集J={i1,i2,…,im}得到模型y(J)=X(J)β(J)+ε(J),由Stein嶺型主成分估計(jì),則y贊J可以表示為和yJ的線性組合.
證明:
性質(zhì)3在線性模型y=Xβ+ε,ε~N(0,σ2I),刪除數(shù)據(jù)集J={i1,i2,…,im}得到模型y(J)=X(J)β(J)+ε(J),由表示數(shù)據(jù)刪除模型未知參數(shù)β的Stein嶺型主成分估計(jì),則刪除數(shù)據(jù)集J={i1,i2,…,im}的預(yù)測(cè)殘差和普通殘差的關(guān)系有:
性質(zhì)4線性模型y=Xβ+ε,ε~N(0,σ2I),刪除數(shù)據(jù)集J={i1,i2,…,im}得到模型y(J)=
當(dāng)刪除了數(shù)據(jù)集J中m個(gè)點(diǎn)時(shí),相對(duì)應(yīng)的HJ就是一個(gè)高杠桿點(diǎn)度量,HJ越大,刪除后的數(shù)據(jù)對(duì)原模型的影響就越大.
在多個(gè)數(shù)據(jù)刪除模型中,為了研究數(shù)據(jù)集與模型的擬合程度,下面對(duì)Hii(J)進(jìn)行探討,當(dāng)矩陣X有一列為常數(shù)1時(shí),考慮
其中1為所有元素為1的相應(yīng)維數(shù)的列向量.
從上述內(nèi)容可以看出,若刪除m個(gè)數(shù)據(jù)點(diǎn)后,其他樣本點(diǎn)中心的距離越遠(yuǎn),Hii(J)越大,因而Hii(J)是一個(gè)度量m個(gè)數(shù)據(jù)點(diǎn)對(duì)模型影響大小的統(tǒng)計(jì)量,我們定義為高杠桿值.
所以,性質(zhì)5是把單個(gè)數(shù)據(jù)刪除模型推廣到m個(gè)數(shù)據(jù)刪除模型的高杠桿度量的一般情況.
2.1 PRESS統(tǒng)計(jì)量
Allen[5](1971)提出PRESS統(tǒng)計(jì)量,用來(lái)度量模型擬合的好壞.
2.2 協(xié)方差比統(tǒng)計(jì)量
性質(zhì)4在Stein嶺型主成分估計(jì)下,協(xié)方差比統(tǒng)計(jì)量
引理2[7]模型Y(J)=X(J)β(J)+ε(J)中β和σ2的最小二乘估計(jì)與模型(1)的相應(yīng)估計(jì)有如下關(guān)系:,其中.
由于
2.3 AP統(tǒng)計(jì)量
AP統(tǒng)計(jì)量是由Andrew,D.F.和Pregibon,D.[8]提出的,在協(xié)方差比的基礎(chǔ)上進(jìn)一步考慮對(duì)的影響.Drape和John[9]對(duì)AP統(tǒng)計(jì)量進(jìn)行分解,提出探測(cè)異常點(diǎn)的統(tǒng)計(jì)量新形式.
引理3[7]模型y(J)=X(J)β(J)+ε(J)中β和σ2的最小二乘估計(jì)與模型(1)的相應(yīng)估計(jì)有如下關(guān)系:.
證明:
結(jié)論得證.
定理2設(shè)X**=(X*,Y),X*=(X,Y),則AP統(tǒng)計(jì)量可以表示為
2.4 Cook統(tǒng)計(jì)量
Cook統(tǒng)計(jì)量是Cook[10](1977)提出Cook統(tǒng)計(jì)量作為度量第i個(gè)數(shù)據(jù)點(diǎn)影響大小的數(shù)量指標(biāo).
引理4[7]廣義Cook統(tǒng)計(jì)量為.
定義3在Stein嶺型主成分估計(jì)下,定義Cook統(tǒng)計(jì)量為
定理3在Stein嶺型主成分估計(jì)下,Cook統(tǒng)計(jì)量可表示為.
證明:
推論在Stein嶺型主成分估計(jì)下,Cook統(tǒng)計(jì)量可表示為
證明:由引理和定理3可得,
[1]楊虎,邵華.線性回歸診斷中的高杠桿點(diǎn)度量[J].工程數(shù)學(xué)學(xué)報(bào),2009,26(1):123-132.
[2]錢峰,石麗娟.數(shù)據(jù)刪除模型對(duì)于廣義嶺估計(jì)的影響[J].南通大學(xué)學(xué)報(bào):自然科學(xué)版,2008,7(1):75-78.
[3]朱寧,黃黎平,李紹波,等.數(shù)據(jù)刪除模型下的高杠桿點(diǎn)度量[J].統(tǒng)計(jì)與決策,2012(5):32-34.
[4]朱寧,李建軍,李兵.一種有偏嶺-壓縮組合估計(jì)的新形式[C]//曾玲,劉克.第八屆中國(guó)青年運(yùn)籌信息管理學(xué)者大會(huì)論文集.桂林:桂林電子科技大學(xué),2006:287-290.
[5]Allen D M.Mean square error of prediction as a criterion for selecting variables[J].Technometrics,1971,13(3):469-475.
[6]張堯庭,方開泰.多元統(tǒng)計(jì)分析引論[M].北京:科學(xué)出版社,1982.
[7]韋博成.統(tǒng)計(jì)診斷引論[M].南京:東南大學(xué)出版社,1991.
[8]Andrews D F,Pregibon D.Finding the outliers that matter[J].J R Statist Soc B,1978,40:87-93.
[9]Draper N R,John J A.Influence observations and outliers in regression[J].Technometrics,1981,23(1):21-26.
[10]Cook R D.Detection of influential observations in linear regression[J].Technometrics,1977,42(1):65-68.
Strong Im pact Analysis of M ultip le Data Delete M odel Based on Stein Ridge and Principal Com ponents Estimator
ZHU Ning,YAN Guandong,LIU Qinghua
(School of Mathematics and Computing Science,Guilin University of Electronic Technology, Guilin 541004,Guangxi,China)
Strong impact analysis of multiple data delete model based on stein ridge and principal components estimator is studied.A strong impact on the analysis model under biased estimator is proposed.The property of estimators of the data deletion model is also discussed.Besides,the new expressions of CRi,APiand Dibased on multiple data delete model,are given.
stein ridge and principal components estimate;multiple data deletion model;multiple influential point;diagnostic statistics
O 212.1
A
1001-4217(2015)02-0020-08
2014-10-13
朱寧(1957-),男,湖南寧鄉(xiāng)人,教授,研究方向:線性統(tǒng)計(jì)模型.E-mail:znqx@guet.edu.cn
桂林電子科技大學(xué)研究生創(chuàng)新項(xiàng)目(GDYCSZ201471)