劉成友 丁 勇
相對誤差直線回歸模型兩種參數(shù)估計方法的比較
劉成友1丁 勇2△
1.南京醫(yī)科大學(xué)生物醫(yī)學(xué)工程系(210029)
2.南京醫(yī)科大學(xué)數(shù)學(xué)與計算機教研室(210029)
△通訊作者:丁勇,E-mail:yding@njmu.edu.cn
最小二乘法的原理是觀察值與擬合值的絕對誤差平方和最小,其評價依據(jù)是針對等精度數(shù)據(jù)而言的,即觀測數(shù)據(jù)具有大體相同的絕對誤差,這些誤差服從均值為0的正態(tài)分布。然而大量的科學(xué)研究的觀測數(shù)據(jù)的誤差往往是相對誤差,即被觀測量愈大,允許的實際觀測誤差也愈大。例如,醫(yī)學(xué)應(yīng)用中,濃度測定的標準曲線,樣品測定的準確度和精度是以相對誤差為依據(jù)的,這樣的數(shù)據(jù)用通常的最小二乘法將導(dǎo)致參數(shù)估計的不準確,因此,以相對誤差最小為原理的直線回歸的方法應(yīng)運而生〔1-8〕。
目前有兩種以相對誤差平方和最小為原理的求直線回歸的方法〔2-7〕,本文對這兩種方法進行比較和評價,為實際應(yīng)用選擇較好的方法提供依據(jù)。
實際計算時,要先估計a、b的一個初始值、,再用上述公式進行迭代。當前后兩次的迭代值小于給定的精度ε時,即ε、|<ε時,停止迭代。將最后一次的計算結(jié)果作為a、b的估計值,即取a=a2、b=b2。
用哪一種方法估計a、b較好呢?這是本文要討論的問題。
絕對誤差服從正態(tài)分布的回歸模型為〔9〕:
我們將這種模型稱為絕對誤差回歸模型。
相對誤差服從正態(tài)分布的回歸模型可表示為:
我們將這種模型稱為相對誤差回歸模型。
即用相對殘差平方和對總體方差進行估計。
再來推導(dǎo)觀察數(shù)據(jù)相對誤差限與正態(tài)分布方差的關(guān)系。設(shè)X~N(μ,σ2),由正態(tài)分布的 3σ 原則〔9〕可知,P{|X-μ|≤3σ}=0.9973,這里我們可將3σ 視為絕對誤差限。
上式給出了相對誤差模型中標準差與觀察數(shù)據(jù)的相對誤差限的關(guān)系。
在此基礎(chǔ)上,可用計算機進行模擬計算。通過模擬計算,對兩種方法進行比較、評價。
取a=5,b=10,自變量x=1,2,…,10,用計算機產(chǎn)生ε~N(0,0.03332)隨機數(shù)作為相對誤差,按公式(3)得到對應(yīng)的因變量y,分別用如下兩種方法估計各參數(shù),共進行了1萬次模擬,計算結(jié)果的均值見表1。
方法2:將用方法1求出的a1、b1作為初值、,再用公式(2)進行迭代,當前后兩次參數(shù)值的差小于 ε=0.00001時,停止迭代。再用計算a2、b2的相對誤差,再用(6)式求出S=
再分別取a=5、b=5 和a=10、b=5,用上述類似的方法,求出各參數(shù),結(jié)果列于表1。
所有模擬和計算,用MATLAB 7.0編程完成。
表1 兩種方法參數(shù)估計的比較(ˉx±s,10000次模擬結(jié)果)
在實際應(yīng)用中,大量數(shù)據(jù)的相對誤差服從正態(tài)分布,這樣的數(shù)據(jù)不宜用通常的最小二乘法估計參數(shù),而應(yīng)該用以相對誤差最小為原理的方法估計參數(shù)。
本文揭示了正態(tài)總體方差與相對殘差平方和、觀察數(shù)據(jù)相對誤差限之間的關(guān)系,推導(dǎo)了公式(5)~(7),從而為計算機模擬和σ2的估計提供了方法。
我們針對a<b、a=b和a>b,設(shè)計了表1中3種不同情況的模擬。由表1可知,隨著相對誤差(對應(yīng)于σ)的增大,參數(shù)估計的誤差也增大。無論哪種情況,a(截距)的誤差要比b(斜率)的誤差大些。在實際問題中,要求觀察數(shù)據(jù)的相對誤差不能太大,否則失去應(yīng)用價值。在我們的模擬過程中,設(shè)計了3種相對誤差限,來考察計算方法的穩(wěn)健性,由表1可知,即使相對誤差較大(20%,對應(yīng)于σ=0.0667),兩種方法計算的結(jié)果還都是可靠的。
圖1 參數(shù)分布圖(σ=0.0377,a=5,b=10)
本文用模擬數(shù)據(jù)進行了統(tǒng)計分析:圖1為σ=0.0377、a=5和b=10時,兩種不同算法a、b估計值的4幅分布直方圖。表1的9種情況,共有36幅分布直方圖,絕大多數(shù)都服從正態(tài)分布(用Lilliefors正態(tài)檢驗法〔10〕,有5幅不服從正態(tài)分布;用Jarque-Bera正態(tài)檢驗法〔11〕,有4幅不服從正態(tài)分布);比較表1的σ和S可知,用公式(5)或(6)對總體方差σ2進行估計還是比較準確的。
1.Narvla SC,Wellington JF.Prediction,linear regression and the minimum sum of relative errors.Technometrics,1977,19(2):185-191.
2.成軍,孫關(guān)忠,李早榮,等.相對殘差法線性回歸與相關(guān)的理論研究:回歸模型的建立及實驗分析.中國衛(wèi)生統(tǒng)計,1996,13(3):37-39.
3.成軍,孫關(guān)忠.相對殘差法線性回歸與相關(guān)的理論研究:回歸分析、相關(guān)模型及其假設(shè)檢驗.數(shù)理醫(yī)藥學(xué)雜志,1999,12(3):200-201.
4.成軍,孫關(guān)忠,李早榮.現(xiàn)行線性回歸理論的局限性及相對殘差線性回歸法在醫(yī)學(xué)檢驗中的應(yīng)用價值.陜西醫(yī)學(xué)檢驗,2000,15(1):62-64.
5.李成思.基于相對誤差意義下的最小二乘法.數(shù)理統(tǒng)計與管理,2003,22(4):36-40.
6.Arnold B,Stahlecker P.Relative squared error prediction in the generalized linear regression model.Statistical Papers,2003,44(1):107-115.
7.云連英,曹勃.基于優(yōu)化的相對誤差意義下的數(shù)據(jù)擬合.統(tǒng)計與決策,2007,21:15-16.
8.Tong TJ,Liu AN,Wang YD.Relative errors of difference-based variance estimators in nonparametric regression.Communications in Statistics:Theory and Methods,2008,37(18):2890-2902.
9.祝國強.醫(yī)藥數(shù)理統(tǒng)計方法.第2版.北京:高等教育出版社,2009,228-230,97,39-42.
10.Conover WJ.Practical nonparametric statistics.New York,Wiley,1980.
11.Judge GG,Hill RC,Griffiths WE,et al.Introduction to the theory and practice of econometrics.New York,Wiley,1988.