程海港
(華北理工大學,河北 唐山 063210)
最小二乘估計在回歸分析中應(yīng)用較為廣泛,但當自變量自身之間存在某種復共線性關(guān)系,使得最小二乘估計的法方程系數(shù)矩陣N奇異,最終的參數(shù)估計與真實值相差很大,使得建立的模型很不穩(wěn)定,最小二乘估計法在這類問題應(yīng)用中無法得到較為準確的結(jié)果[1,2]。而嶺估計是針對處理復共線性數(shù)據(jù)分析的有偏估計手段,其是以犧牲最小二乘法的無偏性和局部精確度為代價,從而找到效果略次于此但更加接近實際情況的回歸過程,最終得到較為準確的模型結(jié)果[3]。
嶺估計方法于1962由A E Hoerl首次提出,后來通過R W Kennard在1970年進行系統(tǒng)完善發(fā)展,該方法可以在很大程度上降低設(shè)計矩陣列復共線時最小二乘估計量的均方誤差,增強估計的穩(wěn)定性。嶺估計的研究和應(yīng)用得到廣泛的重視是自1970年開始的,此后嶺估計便在有偏估計這一領(lǐng)域占有了一席之地。嶺估計之所以區(qū)別于常態(tài)的最小二乘估計是因其帶有約束條件線性模型回歸系數(shù),屬于嶺估計理論的內(nèi)容。模型回歸系數(shù)的最小二乘估計的分量有偏大的趨勢的原因是設(shè)計陣呈病態(tài)而導致其性質(zhì)變差,故通過對其千分量加以約束的方法而獲得的估計來改善這一不足。嶺估計相對于非約束病態(tài)模型的最小二乘估計確實有所改進,但并不能改變其不唯一性這一特性。
嶺估計作為對最小二乘估計的一種改進的有偏估計,參數(shù)X的嶺估計為:
(1)
嶺估計的中心思想是一種改良的最小二乘估計法,嶺估計方法的目的主要是在減少均方誤差的同時盡可能提高估計量的穩(wěn)定性,但其缺點是估計量是有偏的。估計量的方差與k值的大小呈反比,同時,k的引入也導致偏性發(fā)生變化使其成為有偏估計量,偏誤趨勢的大小與k值呈正比。一個優(yōu)質(zhì)的估計量雖然應(yīng)同時具備無偏性、方差最小這2個標準,但是由于這2個標準是相互矛盾的,因此選k的值擇成了一個難點。雖然許多專家學者已提出多種確定k值的方法,但是,還沒有一種大家公認的、最優(yōu)的確定k值的方法。
方程的各回歸系數(shù)的嶺估計大概率呈平穩(wěn)狀態(tài);進行一般最小二乘法估計時,正負號的出現(xiàn)使回歸系數(shù)出現(xiàn)病態(tài),嶺估計可以使其符號變得合理,即嶺估計方法的使用改善了回歸方程參數(shù)估計的效果,嶺估計相對于非約束病態(tài)模型的最小二乘估計確實有所改進,但并不能改變其不唯一性這一特性;回歸系數(shù)的符號全部合理;估計量沒有損失太多的精度,即殘差項的平方和增量很小。
一種確定隨機嶺參數(shù)的公式稱為雙h公式,可簡化h1=t,h2=0。
(2)
式中,A>0為已知矩陣,此公式因含有h1,h22個可自定義的參數(shù),故有“雙h公式”之名。其是由Vinod和UIIah等歸納總結(jié)一系列結(jié)果而提出的一種方法。若使用式(2)來確定嶺參數(shù),一般稱相對的嶺估計為雙h類嶺估計(Double h-class ridge estimate),若取A=I,h1=p,h2=0,式(2)即為Hoerl-Kennard- Baldwin迭k公式。
(3)
若取A=X′X,h1=p,h2=0,則式(2)即為Lawless-Wang迭k公式。
(4)
在式(2)中,若Q′AQ為對角陣,h1,h2滿足:
(5)
則對一切β,σ2,雙h類嶺估計比LS估計有較小的均方誤差。這里ηp為式(2)中A的最小特征根。證明考慮β的任雙h類嶺估計:
(6)
(7)
(8)
由式(7)、式(8)可得:
(9)
(10)
(11)
這里ηi為W的對角元,欲
(12)
一個充分條件為h1>0,且式(11)的第2項均值部分小于0。假設(shè)h1>0,h2≥0,則
△g>0
(13)
于是式(12)成立的一個充分條件為:
(14)
將式(11)對i求和,從式(14)可知:
(15)
此外,還可以根據(jù)Hoerl、Kernard和Baldwin提出的方法取k的固定值。具體確定方法如下。標準化的回歸模型為:
(16)
k的計算公式:
(17)
迭代法是將上面計算的k的固定取值作為k的初始值,記為k0,然后建立回歸方程,估計回歸方程的參數(shù),并計算新的k:
(18)
按同樣的方法,用k計算k2,重復這一過程,直到k的前后2個估計值之間的差異不是很明顯為止。
為了對監(jiān)測網(wǎng)的變形分析更加深入地了解驗證方法的可行性,選取某區(qū)域地面沉降水準測量基準網(wǎng)作為試驗網(wǎng)形,對4個點位其進行10個周期的觀測,得到各個點位的觀測值并通過計算得到其沉降量。數(shù)據(jù)來源于呂棟的《基于秩虧自由網(wǎng)平差的變形分析與C#程序設(shè)計》。原始數(shù)據(jù)如表1所示。在MATLAB中使用雙h法,選取h1=4,h2=0,計算結(jié)果如表2所示。
表1 原始數(shù)據(jù)
表2 ABCD 4點高程的最小二乘估值
表3 ABCD 4點高程嶺估計估計值
圖1 嶺估計結(jié)果
由圖1可知,嶺估計在k取得最大值時效果最優(yōu),即k=10時。圖2直觀地描述出了最小二乘估計與嶺估計值的差值(相同顏色的實線虛線為同一點的估計值,實線表示的是最小二乘估計值,虛線表示嶺估計值),可以看出最小二乘估計值略高于嶺估計值。
由表1、表2可知,最小二乘估計的殘差較大,原因是法方程出現(xiàn)病態(tài),從而歪曲了參數(shù)求解的穩(wěn)定性,導致轉(zhuǎn)換結(jié)果不穩(wěn)定。為此,本文利用嶺估計平差方法進行多項式曲面擬合,消除法方程病態(tài)以后,轉(zhuǎn)換結(jié)果得到了有效的改善。因此,利用嶺估計法進行沉降數(shù)據(jù)處理,能有效克服法方程的病態(tài)性,提高數(shù)據(jù)處理的穩(wěn)定性。
圖2 不同方法計算結(jié)果對比
通過計算可得二者均方誤差,最小二乘的MSE=73.2382 ,嶺估計的MSE=0.1463,對比均方誤差可以看到,由于數(shù)據(jù)存在共線性,最小二乘回歸得到的均方誤差大于嶺估計方法,說明計算結(jié)果存在一定的偏差,說明嶺估計確實在均方誤差意義下改進了LS估計。本文通過實例計算驗證了嶺估計方法在二次曲面模型在高程擬合中的優(yōu)越性,表明雙h公式法求嶺參數(shù)是可行的,而且效果顯著??梢钥闯?,嶺估計法不僅可以解決變形監(jiān)測計算點位高程時出現(xiàn)的法方程病態(tài)情況,而且擬合精度也有所提高。