曹玉茹
(上海對外經(jīng)貿(mào)大學(xué) 統(tǒng)計(jì)與信息學(xué)院,上海 201620)
在計(jì)量經(jīng)濟(jì)學(xué)的分析中,利用回歸模型來尋找經(jīng)濟(jì)變量間的關(guān)系是廣泛應(yīng)用的一種數(shù)量分析方法。通常情況下,回歸分析中變量都是定量數(shù)據(jù),原因是模擬回歸需要樣本數(shù)據(jù)。然而在實(shí)際的操作中,模型中只考慮定量變量是不全面的。因?yàn)楹芏嘟?jīng)濟(jì)現(xiàn)象不僅受一些定量數(shù)據(jù)的影響,還會受到一些定性數(shù)據(jù)的影響。比如自然災(zāi)害、戰(zhàn)爭等特殊時期對經(jīng)濟(jì)的影響,特殊政策的頒布對經(jīng)濟(jì)產(chǎn)生的影響等。如果能確定某一研究結(jié)果存在這種定性影響,那么僅僅用定量數(shù)據(jù)對被解釋變量進(jìn)行解釋顯然是不夠嚴(yán)謹(jǐn)?shù)模芸赡軐δP偷念A(yù)測結(jié)果產(chǎn)生很大偏差。但由于定性數(shù)據(jù)是不等距的,不符合回歸分析中對自變量要求,如果直接把定性數(shù)據(jù)直接引入線性回歸模型,結(jié)果很難解釋,且容易存在很大偏差,此時可以考慮將虛擬變量引入回歸模型來解決此類問題。而關(guān)于虛擬變量回歸在軟件中的實(shí)現(xiàn)卻不是非常方便,尤其對于各種加法和乘法規(guī)則的實(shí)現(xiàn),相應(yīng)的研究也不多,本文利用虛擬回歸模型與方差分析及協(xié)方差之間的關(guān)系,提出了一種基于SPSS軟件的虛擬變量回歸模型軟件實(shí)現(xiàn)的新方法,通過實(shí)際案例得到了較好的驗(yàn)證。
虛擬變量本質(zhì)上算不上一種變量類型(如連續(xù)性變量分類型變量),虛擬變量技術(shù)就是把多分類型變量轉(zhuǎn)換成二分類型變量,即虛擬化,再把其作為解釋變量納入到回歸模型中的一種方法。如果多分類變量有k個類別,則可以轉(zhuǎn)化為k-1個二分變量。每個二分變量用0,1賦值,1表示受到某種因素影響,0表示沒有受某種因素影響。一般將基礎(chǔ)類、肯定類設(shè)置為1;比較類、否定類設(shè)置為0的原則。虛擬化后的變量將可以直接納入回歸模型進(jìn)行分析和預(yù)測。
在實(shí)際數(shù)據(jù)分析中,如果不去考慮具體的模型結(jié)構(gòu)和預(yù)測問題,關(guān)于影響因素的顯著性問題可以使用協(xié)方差分析來解釋,其中把定性因素作為固定因素,定量因素作為協(xié)因素考慮,其結(jié)論主要解釋定量變量的影響效果。但如果進(jìn)一步想了解定性因素對結(jié)果影響程度的大小,一種解決方法是分組進(jìn)行兩類情況的回歸,檢驗(yàn)參數(shù)是否顯著不同,這種方法一方面計(jì)算比較繁瑣,最重要的是它割裂了變量之間具有交互影響的情況,所以不全面;還有一種方法就是用全部變量作單一回歸,其中包含定量數(shù)據(jù)也包含定類數(shù)據(jù),從應(yīng)用的角度出發(fā),如何將這種轉(zhuǎn)換的理論利用統(tǒng)計(jì)軟件實(shí)現(xiàn)驗(yàn)證,這正是本文討論的問題。
鑒于虛擬變量回歸和方差分析的密切關(guān)系[1],本文將方差與協(xié)方差分析的結(jié)果應(yīng)用到虛擬變量回歸中,反推出虛擬變量回歸模型的具體形式,并提取出更多的信息。設(shè)因素有k個總體或水平,檢驗(yàn)k個總體的均值是否相等,提出如下假設(shè):
假設(shè)有三個總體A B C,虛擬變量設(shè)置如下:
虛擬變量模型為:
對模型(2)求期望:
當(dāng)X1t=X2t=0時,E(y)=β0即總體C的均值E(C)。
當(dāng) X2t=0時,E(y)=β0+β1即總體 A 的均值 E(C)'β1為總體A與C的均值差。
當(dāng) X1t=0時,E(y)=β0+β2即總體B的均值 E(C)'β2為總體B與C的均值差。
則單因素方差分析的假設(shè)(1)等價于:
H1:β1'β2至少有一個不等于0,即虛擬變量模型中的總體顯著性F檢驗(yàn)。
關(guān)于單因素方差分析中的多重比較指的是通過對總體均值之間的配對比較來進(jìn)一步檢驗(yàn)到底哪些均值之間存在差異,常用最小二乘法(LSD)來解釋。
從上面的分析可以看出:虛擬自變量回歸分析中的線性關(guān)系是否顯著問題與單因素方差分析中的因素的顯著性描述是完全一致的,也就是說單因素方差分析問題可以用回歸分析方法解決,反之自變量都是0-1型虛擬變量的回歸分析問題也可以用方差分析的思路來解決問題。
在文獻(xiàn)[2]中作者已經(jīng)證明了行列因素分別為雙水平的雙因素?zé)o重復(fù)試驗(yàn)方差分析問題在判斷行列因素是否有影響的F檢驗(yàn)中等價于回歸分析問題中的系數(shù)顯著性的t檢驗(yàn)。
一種情況是:回歸模型中只包含虛擬變量作為解釋變量。比如要分析A校的本科畢業(yè)生與B校的本科畢業(yè)生在收入上是否存在顯著差異,則可以設(shè)模型為:
其中Y1為收入變量,Dt為畢業(yè)學(xué)校的虛擬變量,當(dāng)數(shù)據(jù)來源是A校畢業(yè)生時Dt為1,反之為0,當(dāng)選擇工作年數(shù)相同的樣本分析,在滿足各種檢驗(yàn)的條件下參數(shù)B2的估計(jì)值就是兩種畢業(yè)生收入的平均差異。如果解釋變量是多分類的(假設(shè)有N類),以某一個特征為參考可以設(shè)置N-1個虛擬變量。在SPSS數(shù)據(jù)分析模塊中,此模型實(shí)質(zhì)等同于單因素方差分析模型或者均值比較模型,即可以使用方差分析給出是否存在差異性的解決方案,但如果要對兩校畢業(yè)生的收入作預(yù)測則最好使用回歸分析模型。
如果模型中想要同時分析多個定性變量的影響,比如在上述分析中加入性別因素的影響,此時可以用兩個虛擬變量。對于每個虛擬變量的取值仍然是0或1,如果是男生虛擬變量D2t取值為1,否則為0。模型為:
此模型說明相同性別中A校比B校畢業(yè)生的收入高B2,相同學(xué)校,性別男的收入比性別女的收入高B3。
但上面的模型隱含了一個假設(shè)條件就是:兩校畢業(yè)生之間性別的級差效應(yīng)保持不變,在兩種性別之間學(xué)校的級差效應(yīng)保持不變。這種假設(shè)顯然是有問題的,A校的男性和女性在收入方面的差距和B校的男女生收入差距可能不一樣,這就存在所謂的交互效應(yīng),簡單來講,就是說不同學(xué)校和性別這兩個因素對于收入的影響不是獨(dú)立的,而是互相影響,也即有交互效應(yīng)。所以模型應(yīng)該修改為:
至于模型的選擇取決于模型檢驗(yàn)的結(jié)果,如擬合優(yōu)度,標(biāo)準(zhǔn)誤差大小,自變量的顯著性以及考慮自變量之間的共線性問題是否影響模型精度。
假如定量變量X和定量變量Y存在顯著的相關(guān)關(guān)系,同時發(fā)現(xiàn)還有一個定性因素對Y的變動產(chǎn)生影響,此時可以建立一個如下的回歸模型:
此模型采用加法方式引入虛擬變量,主要描述截距的變換,模型表明:在不考慮定性因素影響的情況下,常數(shù)項(xiàng)即模型的截距為B1,在考慮定性因素的情況下,模型的截距為B1+B2。但此模型僅考慮了定性變量的單獨(dú)影響,而實(shí)際中由于定性變量不同相應(yīng)的定量變量對應(yīng)變量的影響有所不同,即可能存在交互影響,因此模型可修改為:
下面通過實(shí)例驗(yàn)證說明虛擬自變量回歸在統(tǒng)計(jì)軟件SPSS中實(shí)現(xiàn)的新方法:
利用spss自帶的數(shù)據(jù)文件Employee.sav研究企業(yè)的當(dāng)前工資水平與哪些因素相關(guān),及其具體的的影響程度問題為例,分析基于虛擬變量的回歸模型的spss實(shí)現(xiàn)方法研究。基于虛擬變量回歸模型的spss代碼實(shí)現(xiàn):
RECODE jobcat(1=1)(ELSE=0)INTO cat1.
RECODE jobcat(3=1)(ELSE=0)INTO cat2.
REGRESSION
/MISSING LISTWISE
/STATISTICS COEFF OUTS R ANOVA
/CRITERIA=PIN(0.05)POUT(0.10)
/NOORIGIN
/DEPENDENT salary
/METHOD=STEPWISE educ jobcat salbegin jobtime prevexp minority cat1 cat2
/SAVE ZRESID.
EXECUTE.
注:cat1和cat2是jobcat變量的兩個虛擬自變量,其中cat1表示是否為Clerical(辦事員),cat2為是否為Maneger(經(jīng)理)。模型指標(biāo)結(jié)果如表1。
表1 模型綜述表g
模型擬合優(yōu)度0.839,估計(jì)誤差6850.294,DW參數(shù)為1.832。
基于協(xié)方差分析的SPSS實(shí)現(xiàn)及其結(jié)果(表2):
表2 模型綜述表
UNIANOVA salary BY jobcat minority WITH edu csalbegin jobtime prevexp
/METHOD=SSTYPE(3)
/INTERCEPT=INCLUDE
/CRITERIA=ALPHA(0.05)
/DESIGN=educ salbegin jobtime prevexp jobcat minority jobcat*minority.
EXECUTE.
在前面的無交互虛擬變量模型中minority對因變量不存在顯著影響,但是這里顯然可以看出jobcat與minority之間存在對結(jié)果影響的交互作用,這點(diǎn)啟發(fā)我們對于原來的虛擬變量回歸模型做進(jìn)一步修改,添加交互效應(yīng)到模型中。
進(jìn)一步通過虛擬自變量完成協(xié)方差分析及相應(yīng)結(jié)果(表3):
表3 自定義模型綜述表(含交互)
UNIANOVA salary BY minority cat1 cat2 WITH educsalbegin jobtime prevexp
/METHOD=SSTYPE(3)
/INTERCEPT=INCLUDE
/CRITERIA=ALPHA(0.05)
/DESIGN=educ salbegin jobtime prevexp minority cat1 cat2 minority*cat1 minority*cat2 cat1*cat2 minority*cat1*cat2.
EXECUTE.
即cat2與minority之間存在對結(jié)果影響的交互作用,這點(diǎn)啟發(fā)我們對于原來的虛擬變量回歸模型做進(jìn)一步修改,添加交互效應(yīng)到模型中。根據(jù)上述分析可以考慮利用虛擬變量模型公式(5)進(jìn)行分析,具體操作如下,首先得到交互項(xiàng)cat2m。
COMPUTE cat2m=cat2*minority
然后利用非參數(shù)檢驗(yàn)證明虛擬變量的乘積cat2m是對因變量顯著影響的,方法結(jié)果(表4和表5):
NPAR TESTS
/M-W=salary BY cat2m(0 1)
/K-S=salary BY cat2m(0 1)
/MISSING ANALYSIS.
EXECUTE.
表4 非參數(shù)檢驗(yàn)結(jié)果a
表5 非參數(shù)檢驗(yàn)結(jié)果a
再利用公式(5)及回歸分析模型得到如下結(jié)果(下頁表6):
REGRESSION
/MISSING LISTWISE
/STATISTICS COEFF OUTS R ANOVA
/CRITERIA=PIN(.05)POUT(.10)
/NOORIGIN
/DEPENDENT salary
/METHOD=STEPWISE educ salbegin jobtime prevexp minority cat1 cat2 cat2m
/RESIDUALS DURBIN
/SAVE ZRESID.
EXECUTE.
同時得到具體的虛擬變量回歸模型為:
Y=0.646*salbegin-0.145*prevexp+0.096*jobtime-0.237*cat1+0.113*educ+0.053*cat2m
結(jié)果得到模型擬合優(yōu)度0.841,估計(jì)誤差6808.709,DW參數(shù)為1.830,模型參數(shù)得到改善。且通過模型得知辦事員的當(dāng)前工資水平較其他類別員工要低一些,這也符合實(shí)際情況。
表6 模型綜述表i
進(jìn)一步利用繪圖程序如下完成標(biāo)準(zhǔn)化殘差震動情況對比。其中,虛線表示無交互虛擬變量回歸模型標(biāo)準(zhǔn)化殘差的震動情況,實(shí)線表示新方法得到的虛擬變量回歸模型的標(biāo)準(zhǔn)化殘差震動情況,得到明顯改善。見圖1。
*Sequence Charts.
TSPLOT VARIABLES=ZRE_1 ZRE_2
/NOLOG.
圖1 兩種模型序列圖對比
因此,從表7中可以看出無論是模型的擬合優(yōu)度、估計(jì)誤差還是從模型殘差的震動情況來看,經(jīng)過改良后的虛擬變量交互回歸模型的效果更好,更適宜于預(yù)測估計(jì)。相比較協(xié)方差分析的參數(shù)情況,雖然擬合度更高,殘差標(biāo)準(zhǔn)差也更小,但在SPSS中方差分析只給出因素重要性指標(biāo),不能直接給出模型的具體公式,對于利用模型進(jìn)一步預(yù)測來說很不方便,因此實(shí)用性并不如虛擬變量回歸模型好。
表7 三種模型估計(jì)指標(biāo)匯總對比
綜上所述,在虛擬變量回歸模型分析中,可以結(jié)合方差協(xié)方差分析結(jié)果,對虛擬回歸模型的實(shí)現(xiàn)方法進(jìn)行改進(jìn),從而得到更優(yōu)化的模型參數(shù)和估計(jì)效果。
考慮到經(jīng)濟(jì)現(xiàn)象的復(fù)雜性,定性因素的影響非常多,其影響的程度也有所不同,因此要判斷模型中何時要加入虛擬變量,采用何種方式加入,首先必須根據(jù)實(shí)際的經(jīng)濟(jì)背景并運(yùn)用正確的經(jīng)濟(jì)理論進(jìn)行分析,其次在引入虛擬變量的前后模型的模擬結(jié)果進(jìn)行比較,如果回歸的擬合優(yōu)度或估計(jì)標(biāo)準(zhǔn)誤差等效果更好,則可考慮增加虛擬變量;最后如果能結(jié)合方差、協(xié)方差分析模型并利用SPSS軟件來分析考慮交互因素的作用,將會得到更好的回歸結(jié)果。本文通過具體的示例展示了這種研究方法的優(yōu)點(diǎn)。
[1]甘倫知.虛擬變量回歸和方差分析的聯(lián)系[J].統(tǒng)計(jì)與決策,2011,(8).
[2]陳凌宇,王桂明.虛擬變量在方差分析中的應(yīng)用[J].統(tǒng)計(jì)與決策,2009,(11).
[3]章曉英.虛擬變量在線性回歸模型中的應(yīng)用[J].重慶工業(yè)管理學(xué)院學(xué)報(bào),1998,(4).
[4]劉振亞.計(jì)量經(jīng)濟(jì)學(xué)教程[M].北京:中國人民大學(xué)出版社,1997.
[5]龐皓.計(jì)量經(jīng)濟(jì)學(xué)[M].成都:西南財(cái)經(jīng)大學(xué)出版社,2004.
[6]賈俊平.統(tǒng)計(jì)學(xué)[M].北京:中國人民大學(xué)出版社,2007.