王苗苗, 李博峰,2, 沈云中
(1.同濟(jì)大學(xué) 測(cè)繪與地理信息學(xué)院,上海 200092; 2.國(guó)家地理信息工程國(guó)家重點(diǎn)實(shí)驗(yàn)室,西安 710054)
?
顧及自變量與因變量誤差及相關(guān)性的線性回歸
王苗苗1, 李博峰1,2, 沈云中1
(1.同濟(jì)大學(xué) 測(cè)繪與地理信息學(xué)院,上海 200092; 2.國(guó)家地理信息工程國(guó)家重點(diǎn)實(shí)驗(yàn)室,西安 710054)
摘要:提出一種顧及自變量和因變量觀測(cè)誤差及誤差相關(guān)性的線性回歸新方法,并導(dǎo)出了求解線性回歸系數(shù)的迭代公式.以一元線性回歸為例,導(dǎo)出了與最小二乘回歸系數(shù)表達(dá)形式類(lèi)似的解析解,并揭示了新方法與最小二乘方法的本質(zhì)區(qū)別.此外,對(duì)于含有多個(gè)自變量的多元線性回歸,給出了相應(yīng)的同時(shí)考慮自變量和因變量觀測(cè)誤差及誤差相關(guān)性的回歸系數(shù)求解方法.試驗(yàn)表明,當(dāng)自變量是非隨機(jī)變量時(shí),新方法與最小二乘方法的回歸效果相同;當(dāng)因變量和自變量都是隨機(jī)變量(自變量與因變量的觀測(cè)誤差相關(guān)或不相關(guān))時(shí),新方法的回歸系數(shù)比最小二乘方法的回歸系數(shù)更加接近實(shí)際值.
關(guān)鍵詞:回歸分析; 一元線性回歸; 相關(guān)系數(shù); 自變量誤差
1引言
變量之間的關(guān)系包括確定性的函數(shù)關(guān)系與非確定性的相關(guān)關(guān)系[1].回歸分析是處理隨機(jī)變量之間相關(guān)關(guān)系的數(shù)學(xué)工具[2-3],其目的是找出因變量與自變量之間的統(tǒng)計(jì)關(guān)系,然后利用這種統(tǒng)計(jì)關(guān)系預(yù)測(cè)自變量值對(duì)應(yīng)的因變量值,或者由給定的因變量值來(lái)控制自變量值的變化范圍.因此,回歸分析的關(guān)鍵是根據(jù)自變量和因變量觀測(cè)值及某些合理假設(shè)建立它們之間的(線性或者非線性)函數(shù)模型,即求解相應(yīng)的回歸系數(shù)[4].由于變量之間的非線性關(guān)系往往可通過(guò)一定的方法,例如變量變換轉(zhuǎn)化為線性關(guān)系,因而線性回歸是回歸分析中最簡(jiǎn)單常用的回歸模型.
線性回歸中最簡(jiǎn)單的,最具代表性的是只有一個(gè)自變量的一元線性回歸模型,為了敘述方便,記模型自變量和因變量分別為x和y.不失一般性,假設(shè)x和y的觀測(cè)精度分別為σx=1,σy=3,且觀測(cè)誤差的相關(guān)系數(shù)為ρ=-0.8,則實(shí)際觀測(cè)值的點(diǎn)位誤差橢圓如圖1a所示,即需要嚴(yán)格考慮自變量和因變量的誤差特性,才能獲得合理的回歸系數(shù).目前計(jì)算回歸系數(shù)的方法都未能充分考慮自變量與因變量的觀測(cè)誤差以及它們的相關(guān)性.文獻(xiàn)[5-9]給出了同時(shí)考慮自變量誤差εx與因變量誤差εy的回歸分析方法,但都忽略了εx與εy的相關(guān)性,即將原本按傾斜誤差橢圓分布的誤差(圖1a)按照與主軸平行的誤差橢圓分布的誤差處理,如圖1b所示.然而,傳統(tǒng)的回歸分析方法,如最小二乘方法不僅忽略了自變量與因變量觀測(cè)誤差的相關(guān)性,更甚至忽略了自變量的誤差εx,只考慮因變量的誤差εy,即用圖1c的誤差分布代替圖1a的點(diǎn)位誤差橢圓,顯然這樣的處理方式是不合理的.
a 實(shí)際誤差分布
b 忽略變量誤差相關(guān)性的誤差分布
c 只考慮因變量誤差的誤差分布
綜上所述,回歸分析中的自變量和因變量觀測(cè)值都來(lái)自實(shí)際觀測(cè),不可避免地存在觀測(cè)誤差,甚至是具有相關(guān)性的觀測(cè)誤差.回歸分析時(shí)如果按照只考慮因變量誤差,或者只考慮自變量和因變量誤差但忽略誤差相關(guān)性的方式處理觀測(cè)數(shù)據(jù),都必然導(dǎo)致獲得的回歸系數(shù)不合理,即建立的回歸模型不合理,影響回歸分析的效果及其應(yīng)用.文獻(xiàn)[10-11]中的變量隨機(jī)模型可以用來(lái)描述自變量與因變量的觀測(cè)誤差及誤差之間的相關(guān)關(guān)系.本文從線性回歸分析的角度,以一元線性回歸為例,分析自變量和因變量觀測(cè)誤差以及誤差相關(guān)性對(duì)回歸系數(shù)求解的影響.不同于文獻(xiàn)[5-9],本文給出了回歸系數(shù)的解析解形式,并指出不同的回歸分析方法都采用誤差改正的“新觀測(cè)值”代替原始觀測(cè)值求解回歸系數(shù).
提出一種同時(shí)顧及自變量和因變量觀測(cè)誤差及誤差相關(guān)性的線性回歸新方法,并研究了新方法求解回歸系數(shù)的迭代方式,導(dǎo)出了新方法獲得的回歸系數(shù)的解析形式,揭示了回歸分析新方法的廣泛性及其與最小二乘方法的區(qū)別,最后,采用實(shí)例驗(yàn)證了新方法的回歸效果.
2傳統(tǒng)一元線性回歸
一元線性回歸方程為
(1)它描述了因變量y隨自變量x的總體變化情況.通常采用m>2組觀測(cè)數(shù)據(jù)確定回歸模型系數(shù)β0和β1,對(duì)應(yīng)的回歸模型為
(4a)
(5)
3顧及自變量與因變量誤差及誤差相關(guān)性的線性回歸
自變量和因變量觀測(cè)值通常都來(lái)源于實(shí)際觀測(cè),都不可避免地被觀測(cè)誤差εy和εx污染,上述一元線性回歸模型的傳統(tǒng)最小二乘解法只考慮了因變量y的觀測(cè)誤差而忽略了自變量x的觀測(cè)誤差.當(dāng)εy和εx之間存在相關(guān)性,即σxy≠0,如圖1a所示,除了考慮εy和εx,還應(yīng)該考慮誤差的相關(guān)性σxy.因而,需要一種充分考慮變量觀測(cè)誤差及誤差相關(guān)性的線性回歸方法.將一元線性回歸模型(2)改為
(6)誤差εx與εy之間的相關(guān)程度為ρ=σxy/(σx·σy).假設(shè)自變量與因變量各自等精度觀測(cè),則類(lèi)似于文獻(xiàn)[10-11],模型(6)對(duì)應(yīng)的隨機(jī)模型為
(7)其中,?表示克羅內(nèi)克積[15-16].當(dāng)ρ=0時(shí),隨機(jī)模型(7)與文獻(xiàn)[6-9]中考慮自變量觀測(cè)誤差的加權(quán)總體最小二乘的隨機(jī)模型一致;當(dāng)εx=0時(shí),模型(6)等價(jià)于模型(2),即傳統(tǒng)的最小二乘方法與加權(quán)總體最小二乘方法是新方法的一種特例.因此,為了說(shuō)明自變量和因變量觀測(cè)誤差以及誤差相關(guān)性對(duì)回歸分析效果的影響,下文只分析傳統(tǒng)的最小二乘方法與新方法的差異之處與共同之處.
(8)式中,拉格朗日乘常數(shù)λ是m×1的未知向量.對(duì)各未知量求偏導(dǎo)數(shù)并令其等于零有
(9a)
(9b)
(9c)
易證該Hessian矩陣是非負(fù)定矩陣.因此方程9a—9d的解即是滿足目標(biāo)方程(8)的最優(yōu)解[10].聯(lián)合求解方程9a—9d,得:
(10)
(11a)
(11b)
(12)
(13)
(14)
即
(15)
(16)
(17a)
(17b)
(18)
(19a)
(19b)
對(duì)于含有多個(gè)自變量的多元線性回歸模型,類(lèi)似于模型(6),有
(20)
(21)
其中A=[em,X],EA=[0,EX],H=[0n×1,In].模型(20)對(duì)應(yīng)的隨機(jī)模型為
(22)
(23)
(24)
(25)
(26a)
(26b)
若回歸模型只有一個(gè)自變量,模型(20)等價(jià)于模型(6),相應(yīng)的法方程(24)等價(jià)于法方程(14),回歸系數(shù)的估值式(25)等價(jià)于式(16),自變量和因變量觀測(cè)誤差的估值式(26)等價(jià)于式(19).因此,同時(shí)考慮自變量和因變量觀測(cè)誤差及誤差相關(guān)性的線性回歸思想在一元線性回歸和多元線性回歸中都是適用的,即本文對(duì)觀測(cè)誤差及其特性的處理方法具有廣泛性.
4回歸方法比較
對(duì)于回歸方程y=β0+β1x,分別等精度觀測(cè)自變量和因變量.傳統(tǒng)最小二乘方法求解的回歸系數(shù)為
新方法求解的回歸系數(shù)為
為了比較顧及變量誤差及誤差相關(guān)性的新回歸方法與傳統(tǒng)最小二乘回歸方法在一元線性回歸分析中的效果,以及兩個(gè)方法之間的差異與共性,設(shè)計(jì)模擬實(shí)驗(yàn):假設(shè)自變量和因變量各自按照給定的精度σx和σy進(jìn)行等精度觀測(cè),給變量觀測(cè)誤差不同的相關(guān)性,即改變?chǔ)襵y,按照直線y=2x+5分別模擬m組觀測(cè)數(shù)據(jù)[xi,yi].按照以下2種情形進(jìn)行討論:
如圖2所示,相對(duì)于傳統(tǒng)的最小二乘方法,顧及自變量與因變量觀測(cè)誤差及誤差相關(guān)性的新方法獲得的回歸直線更加接近真實(shí)的直線.如回歸系數(shù)解(17)與(4)所示,兩種方法進(jìn)行回歸分析時(shí)實(shí)際采用的觀測(cè)數(shù)據(jù)(觀測(cè)點(diǎn))是不同的,傳統(tǒng)的最小二乘方法采用原始觀測(cè)點(diǎn),而新方法將原始觀測(cè)點(diǎn)的誤差進(jìn)行改正,然后利用改正后的“觀測(cè)數(shù)據(jù)”,采用最小二乘方法求解回歸直線.
a ρ=-0.9
b ρ=-0.5
c ρ=0.5
d ρ=0.9
correlationcoefficientρ=0.8.
a 0
correlation coefficientρ=-0.8.
表1幾種線性回歸方法獲得的回歸系數(shù)
Tab.1The regression coefficients from different linear regression methods
σxρ最小二乘加權(quán)總體最小二乘新方法β^0β^1β^0β^1β^0β^11-0.85.00801.60225.00851.90015.00862.0007 05.00361.81755.00351.99895.00351.9989 0.84.99922.03584.99922.08424.99921.999305.00151.99995.00151.99995.00151.9999
從表1以及圖3,圖4可以看出,各組試驗(yàn)獲得的回歸直線的截距基本是一致的,說(shuō)明回歸分析中常數(shù)項(xiàng)的求解結(jié)果基本不受自變量觀測(cè)誤差的影響.雖然回歸直線的斜率受自變量觀測(cè)誤差及其與因變量觀測(cè)誤差的相關(guān)性影響較大,但是新方法綜合考慮了變量的觀測(cè)誤差以及誤差之間的相關(guān)性,其獲得的回歸直線與真實(shí)的直線更加接近.
由于加權(quán)總體最小二乘方法是新方法的特殊情形,因此本文只比較了最小二乘方法與新方法.兩種方法的共同點(diǎn)在于:
(1) 兩種方法獲得的回歸系數(shù)的解析形式相同,如式(4)與(17)所示.回歸系數(shù)都可以用觀測(cè)數(shù)據(jù)x和y的方差s以及相應(yīng)的相關(guān)系數(shù)γ表示.
兩種回歸分析方法的差異在于:
(1) 傳統(tǒng)最小二乘方法只考慮了因變量的觀測(cè)誤差而忽略了自變量的觀測(cè)誤差;新方法不但同時(shí)考慮了自變量和因變量的觀測(cè)誤差εx和εy,還考慮了觀測(cè)誤差之間的相關(guān)性ρ.
5結(jié)論
在實(shí)際回歸分析應(yīng)用中,例如自回歸模型,自變量和因變量觀測(cè)誤差的相關(guān)性通常難以準(zhǔn)確獲得,可以根據(jù)經(jīng)驗(yàn)判斷誤差的相關(guān)性.
參考文獻(xiàn):
[1]鄧勃. 分析測(cè)試數(shù)據(jù)的統(tǒng)計(jì)處理方法[M]. 北京:清華大學(xué)出版社, 1994.
DENG Bo. Statistical processing method for data of analytic and test[M]. Beijing: Tsinghua university press, 1994.
[2]Ryan A G, Montgomery D C, Peck E A,etal. Introduction to linear regression analysis, solutions manual to accompany [M]. 5th ed. Hoboken: Wiley, 2013.
[3]Chambers J M, Cleveland W S, Kleiner B, Tukey P A. Graphical methods for data analysis[M]. Belmont: Duxbury Press, 1983.
[4]Sykes A O. An introduction to regression analysis[M]. Chicago: The Inaugural Coase Lecture, Law School, University of Chicago, 1993.
[5]魯鐵定,陶本藻,周世健. 基于整體最小二乘法的線性回歸建模和解法[J]. 武漢大學(xué)學(xué)報(bào):信息科學(xué)版, 2008, 33(5): 504.
LU Tieding, TAO Benzao, ZHOU Shijian. Modeling and algorithm of linear regression based on total least squares[J]. Geomatics and Information Science of Wuhan University, 2008, 33(5):504.
[6]Schaffrin B, Wieser A. On weighted total least-squares adjustment for linear regression[J]. Journal of Geodesy, 2008, 82(7):415.
[7]Shen Y Z, Li B F, Chen Y. An iterative Solution of weighted total least-squares adjustment[J]. Journal of Geodesy, 2011, 85(10):229.
[8]Li B F, Shen Y Z, Li W X. The seamless model for three-dimensional datum transformation[J]. Science China: Earth Science, 2012, 55(12):2099.
[9]Xu P L, Liu J N, Shi C. Total least squares adjustment in partial errors-in-variables models: algorithm and statistical analysis[J]. Journal of Geodesy, 2012, 86(8): 661.
[10]Snow K. Topics in total least-squares adjustment within the errors-in-variables model: singular cofactor matrices and priori information[D]. Columbus: School of Earth Sciences, the Ohio State University, 2012.
[11]Fang X. Weighted total least squares: necessary and sufficient conditions, fixed and random parameters[J]. Journal of Geodesy, 2013, 87(8): 733.
[12]張堯庭,方開(kāi)泰. 多元統(tǒng)計(jì)分析引論[M]. 武漢:武漢大學(xué)出版社, 2013.
ZHANG Yaoting, FANG Kaitai. An introduction to multivariate statistical analysis[M]. Wuhan: Wuhan University Press, 2013.
[13]Edwards A L. An introduction to linear regression and correlation[M]. New York: William H. Freeman and Company, 1976.
[14]Gideon R A. The correlation coefficients[J]. Journal of Modern Applied Statistical Methods, 2007, 6(2):517.
[15]Koch K R. Least-squares adjustment and collocation[J]. Bulletin géodésique, 1977, 51(2):127.
[16]Koch K R. Parameter estimation and hypothesis testing in linear models[M]. 2nd ed. Berlin/Heidelberg/New York: Springer, 1999.
[17]Li B F, Wang M M, Yang Y X. Multiple linear regression with correlated explanatory variables and responses[J]. Survey Review, 2015. DOI: http://dx.doi.org/10.1179/1752270615Y.0000000006.
[18]Xu P L, Liu J N, Zeng W X,etal. Effects of errors-in-variables on weighted least squares estimation[J]. Journal of geodesy, 2014, 88(7): 705.
Linear Regression with Corrected Errors of Independent and Dependent Variables
WANG Miaomiao1, LI Bofeng1,2, SHEN Yunzhong1
(1. College of Surveying and Geo-Informatics, Tongji University, Shanghai, 200092, China; 2. State Key Laboratory of Geo-information Engineering, Xi’an, 710054, China)
Abstract:This paper presented a new linear regression method where the errors of dependent and independent variables and correlations of errors were adequately captured. The iteration formulae for calculating the regression parameters were derived at the same time. Taking univariate linear regression problem as an example, analytical formulas for linear regression parameters that similar to those from least-squares method were derived, with which the essential difference between least-squares method and new method were demonstrated. In addition, for the multiple linear regression that with multiple independent variables, the corresponding method, which considers the errors of both independent and dependent variables and the correlations of errors, for calculating the linear regression parameters were also shown. The experiment results shown that the new method and least-squares method were equivalent to each other when independent variables were non-random; whereas, the regressive parameters from new method were more closer to the true values than those from the least-squares method when both independent and dependent variables were all random (no matter their errors were correlated or not).
Key words:regression analysis; univariate linear regression; correlation coefficient; errors of independent variables
文獻(xiàn)標(biāo)志碼:A
中圖分類(lèi)號(hào):P207.1
基金項(xiàng)目:國(guó)家自然科學(xué)基金(41374031;41574023);國(guó)家地理信息工程國(guó)家重點(diǎn)實(shí)驗(yàn)室開(kāi)放研究基金(SKLGIE2013-M-2-2);測(cè)繪地理信息公益性行業(yè)科研專項(xiàng)經(jīng)費(fèi)資助(HY14122136);中央高校基本科研業(yè)務(wù)費(fèi)專項(xiàng)資金資助(20133080;20151225)
收稿日期:2015-04-28
第一作者: 王苗苗(1989—),女,博士生,主要研究方向?yàn)闇y(cè)量數(shù)據(jù)處理和衛(wèi)星導(dǎo)航系統(tǒng)理論與應(yīng)用.E-mail:5wmmgps@#edu.cn