摘 要: 回歸分析方法是多元統(tǒng)計(jì)分析的各方法中應(yīng)用最廣泛的一種,也是數(shù)理統(tǒng)計(jì)中最成熟最常用的方法,主要是研究變量間的相互依賴關(guān)系。本文對(duì)多元線形回歸模型的逐步回歸,最優(yōu)模型的檢驗(yàn)、評(píng)價(jià)及預(yù)測作出了討論。
關(guān)鍵詞: 多元線形回歸模型 逐步回歸 最優(yōu)模型
回歸分析是一種古典又充滿生機(jī)的模型,是數(shù)理統(tǒng)計(jì)中最成熟、最常用的方法。它可廣泛應(yīng)用于社會(huì)、經(jīng)濟(jì)、科技各個(gè)領(lǐng)域的數(shù)據(jù)分析,建立經(jīng)驗(yàn)公式,作定理預(yù)測預(yù)報(bào)等,如氣象預(yù)報(bào)、地震預(yù)報(bào)、病蟲預(yù)報(bào)、股市行情分析,等等。
建立逐步回歸多因子回歸方程是基于最小二乘法原理,通過逐步回歸剔除對(duì)因變量不起作用或作用極小的因子,挑選出顯著性因子,最終得出最優(yōu)回歸模型,但最優(yōu)模型是否適用于預(yù)測,還得根據(jù)實(shí)際情況和要求進(jìn)行模型的假設(shè)性檢驗(yàn)才能作出評(píng)價(jià)。另外,對(duì)模型的預(yù)測精度也應(yīng)有一個(gè)比較正確的認(rèn)識(shí),不能要求過高。現(xiàn)就多元線形回歸模型的逐步回歸,最優(yōu)模型的檢驗(yàn)、評(píng)價(jià)及預(yù)測作些討論。
1.多元線形回歸的數(shù)學(xué)模型
設(shè)隨機(jī)變量y隨著m個(gè)自變量x,x,…,x變化,且有如下的線形關(guān)系式:
y=β+βx+…+βx+ε
此式稱為回歸方程。其中β,β,…,β稱為回歸系數(shù),是m+1個(gè)待估計(jì)的參數(shù),ε是隨機(jī)變量(剩余參數(shù))。
回歸分析的主要問題是根據(jù)x,x,…,x,y的n組觀測數(shù)據(jù)(x,x…,x,y),k=1,2,…,n給出各回歸系數(shù)β的估計(jì)值β,同時(shí)對(duì)β(i=0,1,2,…,m)各作統(tǒng)計(jì)檢驗(yàn),以便說明估計(jì)值的可靠性。將觀測值代入回歸方程可得:
y=β+βx+…+βx+ε……y=β+βx+…+βx+ε
其中ε,…,ε是n個(gè)相互獨(dú)立且服從同一正態(tài)分布N(0,σ)的隨機(jī)變量。
假設(shè)Y=yy,X=1 x…x1 xx,β=ββ,ε=εε,
則可得對(duì)應(yīng)的矩陣方程:Y=Xβ+ε。
2.回歸系數(shù)的最小二乘估計(jì)
設(shè)β,β,…,β分別是參數(shù)β,β,…,β的最小二乘估計(jì),則y的觀測值可表示為:y=β+βx+…+βx+e,其中k=1,2,…,n,e是誤差ε的估計(jì)值。又令y為y的估計(jì)值,有:y=β+βx+…+βx,e=y-y。根據(jù)最小二乘法,β,β,…,β應(yīng)使得全部觀測值y與回歸值y的誤差平方和達(dá)到最小,即:Q=[y-(β+βx+…+βx)]有最小值。
由于Q是β,β,…,β的非負(fù)二次式,最小值一定存在。根據(jù)數(shù)學(xué)分析的極值原理,β,β,…,β應(yīng)滿足下面的方程組:=-2(y-y)=0=-2(y-y)x=0=-2(y-y)x=0,稱為正規(guī)方程組。
通過整理可知正規(guī)方程組的系數(shù)矩陣是對(duì)稱矩陣。將其寫為矩陣形式的方程為:(X′X)=X′Y,若系數(shù)矩陣X′X滿秩,求解上述矩陣方程得:=(X′X)X′Y。
3.逐步回歸建立最優(yōu)回歸模型
多元逐步回歸分析的基本步驟可歸納如下:
(1)對(duì)已知數(shù)據(jù)進(jìn)行中心化處理,得A陣:A=[(X-)(X-)],=,=(i,j=1,2,…,m+1)。
(2)計(jì)算偏回歸平方和P并求出其中最大值。各自變量(未引入的)偏回歸平方和按①計(jì)算,其中偏回歸平方和最大值按②選出。①P=A×A/A,②P=max(P),i=1,2,…,m。
(3)檢驗(yàn)是否引入第h個(gè)自變量因子。采用F檢驗(yàn)進(jìn)行檢驗(yàn):F=。根據(jù)給定的顯著性水平α,查F分布分位數(shù)表,可查出F(1,n-r-2)的值。r為已引入自變量的個(gè)數(shù),初值為0,當(dāng)引入一個(gè)自變量因子時(shí)r加1,當(dāng)剔除一個(gè)自變量因子時(shí)r減1,n為記錄數(shù)。如果F≤F(1,n-r-2),說明所選的自變量因子均不合適,需另選自變量因子,重新分析該問題;反之,則引入該自變量因子,進(jìn)入下一步驟。
(4)對(duì)A陣按下面各式施行消元變換,得一新A陣。其中:A=(i=h,j=h);A=(i≠h,j=h);A=AA(i=h,j≠h);A=A-(i≠h,j≠h)。
(5)從新的A陣出發(fā),計(jì)算偏回歸平方和,并從中選出未引入的自變量因子中對(duì)應(yīng)的最大值。計(jì)算公式與前面相同只是值不同。
(6)檢驗(yàn)是否引入第h個(gè)自變量因子,同樣應(yīng)用F檢驗(yàn)進(jìn)行檢驗(yàn)。若F≤F(1,n-r-2),不引入該自變量因子,篩選完畢;若F>F(1,n-r-2),則引入該自變量因子,進(jìn)入下一步驟。
(7)重復(fù)步驟(4)和(5),只是在計(jì)算出偏回歸平方和P時(shí),從中選出已引入自變量因子中對(duì)應(yīng)的最小值:P=min(P)。
(8)檢驗(yàn)是否可剔除自變量因子。采用F檢驗(yàn)進(jìn)行檢驗(yàn):
F=。
根據(jù)給定的顯著性水平α,查F分布分位數(shù)表,可查出F(1,n-r-1)的值。r為已引入自變量的個(gè)數(shù),n為記錄數(shù)。若F≤F(1,n-r-1),剔除該自變量因子,然后返回步驟(7);若F>F(1,n-r-1),不剔除該自變量因子,然后返回步驟(5)。
重復(fù)循環(huán)步驟(5)—(8),直到篩選完畢,則最優(yōu)回歸模型建立。最終所確定的回歸系數(shù)可根據(jù)下式計(jì)算:β=Aβ=-(β#8226;)。應(yīng)當(dāng)注意的是,上式中的i均在1,2,…,m中取值,但并非所有值,只取引入的自變量的因子對(duì)應(yīng)的序號(hào)值。
4.預(yù)測模型的檢驗(yàn)
回歸模型建立后,當(dāng)前回歸系數(shù)反映了自變量和因變量的結(jié)構(gòu)關(guān)系,這種變動(dòng)關(guān)系是否可預(yù)測未來還需進(jìn)行檢驗(yàn)。對(duì)預(yù)測模型的檢驗(yàn)一般包括下面5個(gè)方面。
(1)t檢驗(yàn):t檢驗(yàn)是對(duì)回歸系數(shù)的顯著性檢驗(yàn)。
(2)F檢驗(yàn):F檢驗(yàn)是對(duì)回歸方程的顯著性檢驗(yàn)。
(3)D.W檢驗(yàn):D.W檢驗(yàn)是對(duì)回歸余項(xiàng)服從正態(tài)分布的假設(shè)檢驗(yàn)。
(4)回歸標(biāo)準(zhǔn)差的檢驗(yàn):回歸標(biāo)準(zhǔn)差越接近于0,說明模型對(duì)樣本數(shù)據(jù)的偏差越小,預(yù)測的可靠性越高。但實(shí)際上S往往較大,因此一般采用相對(duì)指標(biāo)來評(píng)價(jià)。
(5)擬合優(yōu)度的檢驗(yàn):擬合優(yōu)度R越接近1則說明擬合得越好。一般認(rèn)為當(dāng)R在0.8以上可認(rèn)為擬合優(yōu)度較高。
5.模型預(yù)測
模型的預(yù)測可分為點(diǎn)預(yù)測和區(qū)間預(yù)測。
(1)點(diǎn)預(yù)測:給定未來某時(shí)刻t的自變量X值(x,…,x),代入回歸方程,得到因變量Y的Y,稱為點(diǎn)預(yù)測。
(2)區(qū)間預(yù)測:以一定的概率1-α(或給定的顯著性水平α下)預(yù)測因變量在點(diǎn)預(yù)測值附近的變動(dòng)范圍,稱為區(qū)間預(yù)測。
以上各步,我們都可通過SAS軟件來實(shí)現(xiàn),只要編制出適當(dāng)?shù)腟AS程序,把觀測數(shù)據(jù)輸入到程序中,就可以得出我們想要的結(jié)果。
參考文獻(xiàn):
[1]易丹輝.統(tǒng)計(jì)預(yù)測——方法與應(yīng)用[M].北京:中國統(tǒng)計(jì)出版社,2001.
[2]朱凱等.逐步回歸多元統(tǒng)計(jì)預(yù)測模型研究及其程序設(shè)計(jì)[J].統(tǒng)計(jì)與決策,2005.
[3]劉嚴(yán).多元線形回歸的數(shù)學(xué)模型[J].沈陽工程學(xué)院學(xué)報(bào),2005.
(作者系山西大學(xué)數(shù)學(xué)科學(xué)學(xué)院2007級(jí)碩士)