殷立爽,范永輝
(天津師范大學數(shù)學科學學院,天津 300387)
研究線性回歸模型
其中:y 為n×1 的隨機觀測向量;X 為n×p 的設計陣,其秩為p;β 為p×1 的未知回歸系數(shù)向量;e 為n×1的隨機誤差向量;σ 為未知參數(shù).
對于回歸自變量較多的大型回歸問題,回歸自變量之間往往存在著近似線性關系,稱為復共線性.當設計陣X 存在復共線性時,會使β 的均方誤差變得很大,從而使最小二乘(LS)估計的性能變壞,因此有必要對β 進行修正.一個理想的改進方法是在降低均方誤差的同時使得均方殘差不能增加的太多,為此相關學者做了許多研究[1-7].文獻[2]針對最小二乘估計的不足,提出了回歸系數(shù)的廣義根方估計(K),其中K為對角陣,并給出了其顯式解.文獻[3]針對特征根很小而接近于零的部分,運用壓縮最小二乘估計長度的思想提出了嶺型組合主成分估計.文獻[4]提出了廣義嶺型組合主成分估計,改變了文獻[3]中矩陣對角元素中的嶺參數(shù),并給出了嶺參數(shù)的選取方法.文獻[5]針對線性模型中回歸系數(shù)的估計給出一個估計類:廣義壓縮最小二乘估計.文獻[6]給出了Gamma 回歸模型中嶺估計的幾種改進嶺參數(shù).文獻[7]提出了logistic 回歸模型的限制性嶺估計.本文結合嶺估計和主成分估計提出了一種廣義嶺估計的改進方法,在均方誤差意義下,證明了改進的嶺估計優(yōu)于最小二乘估計、 普通嶺估計和主成分估計.
為方便,引入線性回歸模型(1)的典則形式.X′X為正定矩陣, 故可設 λ1≥…≥λp≥0 為 X′X 的特征值,φ1,…,φp為對應的標準正交化特征向量,記Φ=(φ1,…,φp),Φ 為 p×p 的標準正交陣,令 Λ=diag{λ1,…,λp},于是 X′X= ΦΛΦ′.模型(1)的典則形式為
其中: Z = XΦ, α = Φ′β.Z′Z = Φ′X′XΦ = Λ =diag{λ1,…,λp}, α 的 LS 估計為
λ1、λ2的貢獻率為因此確定r=2.采用k1,k2,r 型嶺估計來估計回歸系數(shù),其迭代法過程如下:
步驟 1: 計算出 α1、α2、 α3的值,作為初始值;
步驟 2: 由式(9)計算 k1和 k2, 利用 k1、 k2, 采用R 語言計算新的 α1、 α2、 α3;
步驟 3: 重復步驟 2, 直至 α1、 α2、 α3的值均趨于穩(wěn)定時,確定k1和k2.
經計算確定k1=2.80,k2=6.70,進而得到對應的k1,k2,r 型嶺估計為
各變量的平均值為
相應地有
從而得到 k1,k2,r 型嶺估計回歸方程為
為與其他估計進行比較,表1 給出了LS 估計、嶺估計、主成分估計和k1,k2,r 型嶺估計回歸方程的各項系數(shù).由表 1 可見, k1,k2,r 型嶺估計與普通嶺估計和主成分估計都比較接近,而與LS 估計相比, x1和x3的系數(shù)變化較大,并且x1系數(shù)的符號也發(fā)生了變化.
表1 算例問題4 種估計的回歸方程系數(shù)Tab.1 Coefficients of regression equations for 4 kinds of estimator