劉 明
(蘭州商學(xué)院 統(tǒng)計學(xué)院,甘肅 蘭州 730020)
線性回歸模型設(shè)定的兩個常見錯誤分析
劉 明
(蘭州商學(xué)院 統(tǒng)計學(xué)院,甘肅 蘭州 730020)
刪除截距項和遺漏解釋變量是線性回歸模型估計中的兩個常見錯誤,刪除截距項錯誤發(fā)生的原因是檢驗過程中發(fā)現(xiàn)其不顯著而將其剔除,這會造成模型參數(shù)估計和假設(shè)檢驗的失真;遺漏解釋變量的錯誤發(fā)生原因是人們錯誤認為只要變量存在相關(guān)性且存在因果聯(lián)系就可以進行回歸分析,以至于不考慮其它重要的解釋變量,此時建立的模型不能用于經(jīng)濟結(jié)構(gòu)分析和政策評價,最多只能用于預(yù)測目的。
設(shè)定錯誤;截距項;解釋變量
線性回歸模型是最基本的計量經(jīng)濟學(xué)模型,也是研究經(jīng)濟變量關(guān)系最常用的模型,它是經(jīng)典計量經(jīng)濟學(xué)的主體內(nèi)容,經(jīng)典計量經(jīng)濟學(xué)就是圍繞線性回歸模型的設(shè)定、估計、檢驗和應(yīng)用展開的。線性回歸模型的參數(shù)估計、假設(shè)檢驗(包括統(tǒng)計檢驗和計量經(jīng)濟學(xué)檢驗)有著一套較為完備的統(tǒng)計學(xué)方法體系,只要對這一體系有所把握,在實際應(yīng)用中就不會出現(xiàn)失誤。根據(jù)研究對象和研究目的來構(gòu)造回歸模型并加以應(yīng)用,事實證明,模型是否得到正確的應(yīng)用往往取決于是否構(gòu)造了一個良好的、正確的模型。對于線性回歸模型的設(shè)定,是最容易出現(xiàn)錯誤、而且是最難以發(fā)現(xiàn)錯誤的環(huán)節(jié),模型設(shè)定的正確與否,直接關(guān)系到建模的成敗,一個設(shè)定錯誤,會使整個研究過程和研究結(jié)論都變得毫無意義和價值,因此需要仔細的斟酌研究。線性回歸模型設(shè)定的常見錯誤主要包括:增加錯誤的解釋變量,錯誤的模型數(shù)學(xué)關(guān)系式,刪除截距項,遺漏重要的解釋變量。增加了錯誤的解釋變量可以通過t檢驗、F檢驗來診斷并發(fā)現(xiàn)該錯誤的變量,對于變量間數(shù)學(xué)關(guān)系式的選擇,可以通過研究分析變量間的散點圖來發(fā)現(xiàn)它們之間的關(guān)系,并通過擬合誤差(例如均方誤差、平均絕對誤差等)來比較分析,選擇正確的數(shù)學(xué)關(guān)系式的模型。本文的主要任務(wù)就是研究討論刪除截距項、遺漏重要解釋變量這兩類設(shè)定錯誤,分析它們的發(fā)生原因及后果,提出相應(yīng)的解決辦法,并討論例外的情形。
構(gòu)建線性回歸模型時可能出現(xiàn)這類情況:截距項的顯著性t檢驗未能通過,即截距項的t檢驗結(jié)果支持其等于零的假定。此時截距項因為不顯著而可能被刪除。線性回歸模型中的截距項通常不做經(jīng)濟意義解釋,但這并不意味著截距項可有可無。如果在總體回歸模型中應(yīng)該包含截距項,刪除后則會產(chǎn)生一系列不良后果。為簡單起見,這里以一元線性回歸模型為例對刪除截距項所產(chǎn)生的后果進行討論。
設(shè)正確的總體線性回歸模型為:μi為隨機干擾項,其滿足高斯假定,設(shè)其方差為σ2。未刪除截距項的樣本回歸模型表示為:
刪除截距項的樣本回歸模型表示為:
ei為樣本模型的殘差。設(shè)樣本容量為n,則運用普通最小二乘法可得模型參數(shù)估計量:
首先分析該估計量的無偏性。
將此等式兩邊取期望,并根據(jù)高斯假定可得:再分析的方差。根據(jù)前述分析結(jié)果的方差為:
不難證明,未刪除截距項的樣本回歸模型回歸系數(shù)β1的普通最小二乘估計量為:
綜上所述,當(dāng)珚x≠0時,即便滿足高斯假定,也無法保證估計量珓β的無偏性和最小方差性。
刪除截距項的樣本回歸模型的殘差之和為:
綜合以上分析結(jié)論可以看出,在估計線性回歸模型時一般需要包含截距項,即使t檢驗結(jié)論顯示它是不顯著的,剔除截距項仍須謹慎。事實上,線性回歸模型中是否包含截距項是由總體特征決定的,即在設(shè)計、估計回歸模型時要根據(jù)所研究總體的特征并結(jié)合經(jīng)濟理論來確定模型中是否應(yīng)該包含截距項,如果沒有理由表明模型不含有截距項,則在模型設(shè)定時須將其包含進來。
截距項的本質(zhì)是線性回歸模型的解釋變量均值與被解釋變量均值的線性組合:
當(dāng)理論上要求β0=0時,則模型無須包含截距項?,F(xiàn)實中存在不含有截距項的回歸模型,在估計此類回歸模型時便不能加入截距項了。常見的無截距項的線性回歸模型有如下兩類:
一類是解釋變量和被解釋變量的均值均為零的模型。例如使用標(biāo)準(zhǔn)化變量構(gòu)建的線性回顧模型,標(biāo)準(zhǔn)化變量的均值為零,因此在構(gòu)建回歸模型時無須包含截距項;再如無水平趨勢的平穩(wěn)時間序列數(shù)據(jù)所構(gòu)建的自回歸模型,無論模型中的當(dāng)前變量還是滯后變量,其均值都為零,因此也無須包含截距項。
另一類是差分模型??紤]回歸模型(*)及其一期滯后模型:
構(gòu)造出差分模型為:
從理論上來說,反映變量之間關(guān)系的計量經(jīng)濟學(xué)模型是唯一的。對于線性回歸模型而言,針對某個被解釋變量,模型中應(yīng)包含的解釋變量是唯一確定的。具體說,在構(gòu)建線性回歸模型時,確定了被解釋變量以后,模型中應(yīng)該包含所有對該被解釋變量有重要影響的解釋變量,同時不能包含對該解釋變量無重要影響的解釋變量。在現(xiàn)實應(yīng)用中,對于解釋變量重要性的判斷,不能僅依靠統(tǒng)計檢驗,也要結(jié)合經(jīng)濟理論和現(xiàn)實意義。對于模型中遺漏重要解釋變量和包含不重要的解釋變量所引起的后果[1]159-166,可參見文獻[1],本文不再做出討論。
在線性回歸模型的諸多設(shè)定錯誤類型中,遺漏重要解釋變量是一個最常見的錯誤。長期以來,人們在研究變量之間關(guān)系的時候總是認為,只要變量之間具有相關(guān)性和某種經(jīng)濟聯(lián)系(例如影響和被影響的因果關(guān)系),就可以利用這些變量構(gòu)建回歸模型,進行回歸分析,這是片面的。依此思想建立的回歸模型的解釋變量和別解釋變量雖然存在著相關(guān)性和影響作用,但模型中未必包含了所有的影響被解釋變量的因素,此時的回歸模型很可能是謬誤回歸?,F(xiàn)舉一例來說明這一問題。
筆者在研究中國經(jīng)濟增長問題時,選擇了多個宏觀經(jīng)濟指標(biāo),運用1990-2009年的數(shù)據(jù),通過分析研究發(fā)現(xiàn)影響國內(nèi)生產(chǎn)總值(GDP)的主要變量包括居民消費支出(REC)、政府財政支出(GC)、固定資產(chǎn)投資(INV)、進出口總額(TR),構(gòu)建了如下的對數(shù)回歸模型:
為節(jié)省篇幅,模型的檢驗指標(biāo)數(shù)據(jù)未給出。由該模型可以看出,在其它條件不變的情況下,進出口總額每增加1個百分點,GDP平均增加0.04個百分點。
通過簡單的分析就可以發(fā)現(xiàn),這里GDP和進出口具有顯著的相關(guān)性,而且進出口對GDP存在顯著的影響,構(gòu)造兩者的對數(shù)回歸模型:
ln(G^D(zhuǎn)P)=3.12+0.79ln(TR)
按此模型的表述,當(dāng)進出口總額每增加1個百分點,GDP平均增加0.79個百分點。這顯然是不符合現(xiàn)實的,這個結(jié)論沒有價值。
如何解決這類問題,以使得模型應(yīng)包含所有的重要解釋變量?這就要求在建模時遵循“由一般到簡單”的原則,并堅持“唯一性”[2]。由一般到簡單,即在建模型過程中考慮研究對象的一般性特征,充分考量研究對象系統(tǒng)內(nèi)各經(jīng)濟因素的普遍聯(lián)系,設(shè)計出盡可能反映出全面特征的一般性的回歸模型,在此基礎(chǔ)上進一步使用樣本對研究對象進行考察。在經(jīng)濟理論和統(tǒng)計意義允許的情形下,可以將模型簡化,用以反映研究對象的主要特征。唯一性,就是指反映經(jīng)濟變量間、經(jīng)濟系統(tǒng)特征的模型在理論上只有一個,不可能在同一時間、同一空間內(nèi)并存多個正確的模型。堅持唯一性,本質(zhì)上就是要求所建模型是最優(yōu)模型。
利用線性回歸模型進行經(jīng)濟結(jié)構(gòu)分析和政策評價時,必須要求所建立的模型包含所有重要的解釋變量、反映研究對象的一般性特征,否則可能會得出錯誤甚至荒謬的結(jié)論。而如果所構(gòu)建的線性回歸模型僅用于預(yù)測的目的,則上述要求可適當(dāng)放寬。為說明這一問題,首先分析利用回歸模型進行預(yù)測的條件。只要滿足下述條件即可進行回歸預(yù)測:(1)事物的發(fā)展變化過程是連貫式的,而非跳躍式的;(2)影響事物過去和現(xiàn)在發(fā)展變化的因素同樣會影響到未來,且這些因素不會發(fā)生質(zhì)的變化[3]5-6,67;(3)所涉及的變量之間具有顯著的相關(guān)性,可以直接或進行變換后間接的建立線性回歸模型。在滿足這些條件時,可以建立變量間的線性回歸模型,通過已知的解釋變量預(yù)測未知的被解釋變量。通過上述回歸預(yù)測的條件可以看出,模型若僅用于預(yù)測目的,只需考察研究對象(預(yù)測目標(biāo))的某一個或一部分重要的影響因素,而不用全面的考察所有的影響因素以構(gòu)建最優(yōu)模型。原因有兩點,一是研究對象的變動規(guī)律可以由某一個或一部分影響因素進行描述和解釋,研究對象隨著此類因素的變化而變化;二是可以將未包含在模型之內(nèi)的其它變量看作是“影響事物發(fā)展變化的因素”,它支配著事物發(fā)展的過去和現(xiàn)在,依據(jù)預(yù)測條件,它同樣支配著事物發(fā)展的未來,且不會發(fā)生質(zhì)的變化。當(dāng)然,為保證預(yù)測的精確性,要求所建立的回歸模型通過各類統(tǒng)計檢驗和計量經(jīng)濟學(xué)檢驗。用于預(yù)測目的的時間序列變量的自回歸模型就屬于此類,它無需分析其它的影響因素,而只是根據(jù)自身的變動規(guī)律和特征構(gòu)造回歸模型,依此對未來進行預(yù)測;趨勢外推模型亦屬此類,它將研究對象對時間構(gòu)造回歸模型,而不考慮其它的影響因素。顯然,這類模型只能用于預(yù)測,而不能進行經(jīng)濟結(jié)構(gòu)分析和政策評價。
線性回歸模型的設(shè)定錯誤包括多種情形,本文研究分析了兩類常見錯誤:刪除截距項和遺漏重要的解釋變量。
通過分析發(fā)現(xiàn),當(dāng)總體回歸模型要求含有截距項而在設(shè)定模型時刪除了截距項時,會產(chǎn)生一系列的嚴(yán)重后果,導(dǎo)致模型的估計結(jié)果和假設(shè)檢驗結(jié)論均失去可靠性。因此,一般情況下模型中應(yīng)包含截距項,以使得回歸模型符合參數(shù)估計和假設(shè)檢驗的要求。當(dāng)然,不是任何回歸模型都包含有截距項,現(xiàn)實中也存在不包含截距項的模型,差分模型和所有變量均值均為零的模型不應(yīng)包含截距項。
正確反映變量間關(guān)系的模型在理論上只有一個,為能構(gòu)建出最優(yōu)模型,設(shè)計線性回歸模型時要遵循“由一般到簡單”原則和“唯一性”原則。總體回歸模型的設(shè)定不能僅依據(jù)相關(guān)關(guān)系和因果關(guān)系,更要充分考慮影響研究對象的一般性因素,做到不遺漏解釋變量。在線性回歸模型設(shè)定過程中,如果僅用于預(yù)測目的,根據(jù)預(yù)測實現(xiàn)的前提條件,可以允許簡化模型,選擇少部分影響因素,將其余影響因素歸于“支配事務(wù)發(fā)展變化的因素”,只要這些因素不發(fā)生質(zhì)的變化,預(yù)測就可以順利進行,只是此時的模型不能用于結(jié)構(gòu)分析和政策評價的目的。
[1] 李子奈.計量經(jīng)濟學(xué)[M].北京:高等教育出版社,2000.
[2] 李子奈.計量經(jīng)濟學(xué)應(yīng)用研究的總體回歸模型設(shè)定[J].經(jīng)濟研究,2008(8).
[3] 徐國祥.統(tǒng)計預(yù)測和決策[M].上海:上海財經(jīng)大學(xué)出版社,2008.
Analysis on Two Common Errors Concerning Linear Regression Model Setting
LIU Ming
(School of Statistics,Lanzhou University of Finance and Economics,Lanzhou 730020,China)
Drop intercept and explanatory variables is two common errors in linear regression model setting.The cause of the former error is due to the inspection of the insignificance of the intercept and this will cause the model parameter estimation and hypothesis testing distortion;the cause of the latter error is that as long as the correlation between the variables exists,the regression analysis can be conducted without taking into account other important explanatory variables.Then the establishment of model cannot be used for economic structures analysis and policy evaluation,most can only be used for prediction purposes.
setting error;intercept;explanatory variables
(責(zé)任編輯:王南豐)
0212
A
1007-3116(2011)08-0011-04
2010-12-05
劉明,男,安徽霍邱人,講師,經(jīng)濟學(xué)碩士,研究方向:經(jīng)濟計量分析。
【統(tǒng)計應(yīng)用研究】