朱 寧,黃黎平
(桂林電子科技大學(xué)數(shù)學(xué)與計(jì)算科學(xué)學(xué)院,廣西桂林541004)
考慮一般線性模型:
其中Y為n×1觀測向量,X為n×p列滿秩設(shè)計(jì)陣,β為p×1未知參數(shù)向量,ε為n×1隨機(jī)誤差,I為n階單位矩陣。在一切線性模型的無偏估計(jì)中,最小二乘估計(jì)[2~7]具有最小方差但這并不代表在整個線性估計(jì)類中是最好的估計(jì)。當(dāng)設(shè)計(jì)矩陣X含有多重共線性或近似的多重共線性時,X′X接近奇異,它的某些特征根非常接近于0,于是總存在 r<p,使得 X′X的特征根有 λ1≥…≥λr≥1≥λr+1…≥λp>0此時最小二乘估計(jì)就變得很差,于是人們就提出了一系列的有偏估計(jì)(以下均作這樣的假設(shè))1984年M.R.Baye和D.F.Parker結(jié)合主成分估計(jì)[8]和嶺型估計(jì)[9],提出了嶺型主成分估計(jì)估計(jì),文獻(xiàn)[4-6]討論了嶺型主成分估計(jì)的部分優(yōu)良性,文獻(xiàn)[1]討論了嶺型主成分估計(jì)在數(shù)據(jù)刪除模型下的影響函數(shù),本文在以上的基礎(chǔ)上首先考慮嶺型主成分估計(jì)下數(shù)據(jù)刪除模型的強(qiáng)影響問題作了進(jìn)一步的研究,證明了嶺型主成分估計(jì)下和最小二乘估計(jì)下相關(guān)統(tǒng)計(jì)量的關(guān)系并獲得了一系列的結(jié)論,其次利用W-K統(tǒng)計(jì)量的思想提出了兩種度量,并通過實(shí)例驗(yàn)證了這兩種度量方法的有效性。
引理1[1]在模型(1)下提出了未知參數(shù)β的嶺型主成分估計(jì),即在主成分的基礎(chǔ)上再進(jìn)行嶺估計(jì)叫做嶺型主成分估計(jì),記作:
其中:
在處理實(shí)際問題時,我們主要考慮數(shù)據(jù)與模型的擬合程度,如果數(shù)據(jù)與模型擬合較好,則去掉一、二個點(diǎn)后參數(shù)的估計(jì)量不應(yīng)有太大的改變,如果有太大的改變則說明數(shù)據(jù)其中有異常點(diǎn)或強(qiáng)影響點(diǎn)。下面在嶺型主成分估計(jì)下研究數(shù)據(jù)刪除模型下的前后估計(jì)量之間的關(guān)系。
引理2[1]在刪除一組數(shù)據(jù)的模型下,由嶺型主成分估計(jì),則有:
證明:
所以:得證。
證明 由帽子矩陣的定義知:
證明由引理2[1]可得:
推論1在嶺型主成分估計(jì)下,則:
由以上討論可知,當(dāng)統(tǒng)計(jì)量RRESS*較小時,模型在總體上擬合的比較好,因此它在回歸變量的選擇方面也有重要的作用。
推論2在嶺型主成分估計(jì)下,對于刪除一組數(shù)據(jù)(yi,xi′)的模型,則有:
證明:
對于無偏估計(jì)下的影響度量已有了廣泛的研究,例如:COOK距離,W-K統(tǒng)計(jì)量,A-P統(tǒng)計(jì)量等。當(dāng)設(shè)計(jì)矩陣是病態(tài)時,有偏估計(jì)的度量方法更加實(shí)用。
運(yùn)用W-K統(tǒng)計(jì)量思想,我們用全部n組數(shù)據(jù)在第i個數(shù)據(jù)點(diǎn)處的預(yù)測值與剔除第i組數(shù)據(jù)后其余(n-1)組數(shù)據(jù)得到的第i個數(shù)據(jù)點(diǎn)處的預(yù)測值之間的差來度量第i組數(shù)據(jù)對回歸模型的影響。
定義1
定義2
推論3基于嶺型組合主成分估計(jì)下,數(shù)據(jù)刪除模型的影響統(tǒng)計(jì)量的和分別為:
證明:由引理2[1]可直接推出:得證。
本實(shí)例的具體數(shù)據(jù)引自文[1],這組數(shù)據(jù)存在著共線性,為了避免共線性對估計(jì)量帶來的不準(zhǔn)確性,因此這里引入嶺型主成分估計(jì)是很必要的。分別取K=0.01,K= 0.03,K=0.1,K=0.3計(jì)算上述兩個影響度量結(jié)果如表1:
表1 影響統(tǒng)計(jì)量
結(jié)果分析:通過實(shí)例可以看出,第9號點(diǎn)的Wi和Mi相對于其他點(diǎn)來說都是最大的,這一結(jié)果與文[1]的結(jié)果相符合,而有推論3可知,第9號點(diǎn)在其意義下都可能是強(qiáng)影響點(diǎn)。由表1可知Wi和Mi在度量數(shù)據(jù)的影響方面總體效果相差不大,都可以用來判定強(qiáng)影響點(diǎn),所以這兩個度量方法對于診斷數(shù)據(jù)點(diǎn)是否為強(qiáng)影響點(diǎn)是有統(tǒng)計(jì)意義的。
[1]徐海霞,楊虎.基于嶺型組合主成分估計(jì)的影響函數(shù)[J].數(shù)理統(tǒng)計(jì)與管理,2005,(24).
[2]楊蓮,楊虎.橢球約束下線性模型的強(qiáng)影響分析[J].工程數(shù)學(xué)學(xué)報(bào), 2007,(24).
[3]王松桂.線性回歸診斷[J].數(shù)理統(tǒng)計(jì)與管理,1985,(6),1986,(1).
[4]李兵,陳國華,段復(fù)建.嶺型主成分估計(jì)的優(yōu)良性質(zhì)[J].桂林電子科技大學(xué)學(xué)報(bào),2009,(2).
[5]楊婷,楊虎.橢球約束與廣義嶺型估計(jì)[J].應(yīng)用概率統(tǒng)計(jì),2003,(3).
[6]隋立芬.嶺型組合主成分估計(jì)及誤差影響[J].解放軍測繪學(xué)院學(xué)報(bào), 1997,(14).
[7]韋博成.統(tǒng)計(jì)診斷引論[M].南京:東南大學(xué)出版社,1990.
[8]Bayemr,Fparker D.Combining Nidge and Principal Component Egression[J].Common Statist Theory Math,1984,13(1).
[9]Alesandro Bortuzzi,Aebarto Gandocfi Ridge Regression Versus OLS by Pitman’s Closeness under Puadratic and Fisher’s Loss[J].Com?man Statist-Theory Math,1991,20(11).