程鵬鵬,曹連英
(東北林業(yè)大學(xué),哈爾濱150040)
線性模型是一類統(tǒng)計(jì)模型的總稱,它包括線性回歸模型、方差分析模型、協(xié)方差分析模型和線性混合效應(yīng)模型等.線性模型在許多生物、醫(yī)學(xué)、經(jīng)濟(jì)、管理、地質(zhì)、氣象、農(nóng)業(yè)、工業(yè)、工程技術(shù)等領(lǐng)域都普遍使用.因此線性模型成為現(xiàn)代統(tǒng)計(jì)學(xué)中應(yīng)用最為廣泛的模型之一[1].
經(jīng)典最小二乘方法假設(shè)自變量的觀測(cè)是精確的,僅僅因變量存在測(cè)量誤差.事實(shí)上,這種假設(shè)是不現(xiàn)實(shí)的,自變量在取樣、人為、儀器誤差的影響下同樣存在誤差擾動(dòng).因此需要含誤差變量的線性模型,我們把自變量帶有誤差的模型簡(jiǎn)稱EIV模型.近幾年EIV模型以及關(guān)于模型的深入探索Fekri and Ruiz - Gazen[2]和 He Xuming and Liang Hua[3]等都對(duì)這一模型進(jìn)行了進(jìn)一步的研究.
本文基于矩陣擾動(dòng)分析理論,給出線性模型在擾動(dòng)下仍然可估的充分條件,并進(jìn)一步討論了線性模型數(shù)據(jù)擾動(dòng)對(duì)模型參數(shù)的影響,給出參數(shù)的擾動(dòng)估計(jì)式.
設(shè)線性模型
其中y為n×1觀測(cè)向量,X為n×p的設(shè)計(jì)矩陣,β為p×1未知參數(shù)向量,e為隨機(jī)誤差,σ2為誤差方差 σ2>0.
若 rank(Xn×p)=p,則 X'X 可逆,這時(shí)=X'X-1X'y,且有),即是β的無偏估計(jì),這時(shí)我們稱=X'X-1X'y為β的最小二乘估計(jì).
若 rank(Xn×p)< p,則不是β的無偏估計(jì),表明β沒有線性無偏估計(jì),此時(shí)我們稱 β 是不可估的[4].
引理1[5]A是Hermite陣并且是滿秩矩陣,其特征值為λ1≥λ2≥…≥λn;A+E為Hermite陣其特征值為1≥2≥ … ≥n,如果 η = ‖A-1/2EA-1/2‖2≤1,其中 A1/2為 A 的 Hermite平方根,那么有
實(shí)驗(yàn)中得到的數(shù)據(jù)與實(shí)際數(shù)據(jù)之間會(huì)有誤差,這就會(huì)出現(xiàn)數(shù)據(jù)的擾動(dòng)問題,進(jìn)而會(huì)影響線性模型的參數(shù)估計(jì)結(jié)果,定理1給出了設(shè)計(jì)矩陣擾動(dòng)范圍的大小,從而解決了擾動(dòng)后設(shè)計(jì)矩陣的虧秩問題.
定理1:設(shè)X為n×p的實(shí)的設(shè)計(jì)矩陣,且rank(Xn×p)=p;記 A=X'X,A 的特征值為 λ1≥λ2≥…≥λp,設(shè)計(jì)矩陣 X的擾動(dòng)為 ΔX,A+ΔA=(X+ΔX)'(X+ΔX),則當(dāng)設(shè)計(jì)矩陣ΔX滿足:時(shí),其中0<ρ<1為常數(shù),則擾動(dòng)后模型y=(X+ΔX)β+e仍可估.
證明:A=X'X為實(shí)對(duì)稱陣,是Hermite陣,其特征值為 λ1≥λ2≥…≥λp>0,A+ΔA(X+ΔX)'(X+ΔX)也是 Hermite陣,記其特征值為也是 Hermite 矩陣.
令
η = ‖A-1/2ΔAA-1/2‖2
又 ΔA=ΔX'X+X'ΔX+ΔX'ΔX 是 Hermite陣,于是
2‖(ΔX‖2‖X‖2+‖(ΔX‖22≤ρλmin(A)
則
這里
由引理1,可得
在定理1的條件下,擾動(dòng)后線性模型參數(shù)仍是可估的.接下來給出在此條件下,擾動(dòng)對(duì)線性模型參數(shù)的影響.
定理1解決了設(shè)計(jì)矩陣出現(xiàn)擾動(dòng)可能出現(xiàn)的虧秩問題,下面討論在矩陣擾動(dòng)前后秩不變的情況下,擾動(dòng)ΔX、Δy對(duì)的影響.
引理 2[6]設(shè) A∈Cn×n是非奇異陣,b∈Cn,x 是方程AX=b的解,又設(shè)B=A+ΔA,滿足條件‖A-1‖2‖ΔX‖2<1,則方程(A+ΔA)(x+Δx)=b+Δb有惟一解x+Δx,并且滿足不等式,其中 k=‖A‖2‖A-1‖2,r=1 -k‖ΔA‖2./‖A‖2>0.
定理2:設(shè)X為n×p實(shí)的設(shè)計(jì)矩陣,且rank(Xn×p)=p,是線性模型(1)的最小二乘無偏估計(jì);ΔX,Δy分別為設(shè)計(jì)矩陣X和y的擾動(dòng)矩陣,=X+ΔX~=y+Δy,線性模型(1)擾動(dòng)后的線性模型為=,其最小二乘估計(jì)為 若記 A=X'X,則當(dāng)
時(shí),其中0<ρ<1,則有
其中k=‖A‖2‖‖A-12.
證明:線性模型(1)的最小二乘解為正規(guī)方程X'Xβ=X'y的解,而線性模型=的最小二乘解為正規(guī)方程=的解.記 A=X'X,A+ΔA=(X+ ΔX)'(X+ ΔX),ΔA= ΔX'X+X'ΔX+ΔX'ΔX,則線性模型=的正規(guī)方程為
(A+ΔA)β=X'y+Δb
其中 Δb= ΔX'·y+X'Δy+ΔX'Δy.注意到
因此
其中 k= ‖A‖2‖A-1‖2.于是
又
其中
所以
因此線性回歸模型的相對(duì)擾動(dòng)的一個(gè)上界為
結(jié)論得證.
對(duì)帶有擾動(dòng)的設(shè)計(jì)矩陣線性模型進(jìn)行探討,是擾動(dòng)問題研究的一種擴(kuò)展.實(shí)驗(yàn)中由于取樣、人為、儀器誤差所產(chǎn)生的數(shù)據(jù)有時(shí)擾動(dòng)很大,為了擾動(dòng)后線性模型的可估性設(shè)定了擾動(dòng)數(shù)據(jù)的范圍.本文在特征值擾動(dòng)的基礎(chǔ)上,從線性模型設(shè)計(jì)矩陣擾動(dòng)的角度探討了擾動(dòng)后的模型可估的充分條件,給出了可估的擾動(dòng)數(shù)據(jù)范圍并在此基礎(chǔ)上進(jìn)一步分析了擾動(dòng)數(shù)據(jù)對(duì)模型參數(shù)的影響.本文結(jié)果為優(yōu)化線性模型的實(shí)驗(yàn)設(shè)計(jì)提供理論依據(jù).
[1]王松桂.線性統(tǒng)計(jì)模型:線性回歸與方差分析[M].北京:高等教育出版社,1999.
[2]FEKRI M,RUIZ-GAZEN A.Robust estimation in the simple errors- in - variables model[J].Statistics&Probability Letters,2006,76:1741-1747.
[3]HE X,LIANG H.Quantile regression estimates for a class of linear and partially linear errors-in-variables models[J].Statist.Sinica,2000,10:129 -140.
[4]王松桂.線性模型引論[M].北京:科學(xué)出版社,2004.
[5]DOPICO F M,MORO J,MOLERA J M.Weyl- type relative perturbation bounds for eigensystems of Hermitian matrices[J].Linear Algebra and Its Applications,2000,309:3 -18.
[6]孫繼廣.矩陣擾動(dòng)分析[M].北京:科學(xué)出版社,1987.