王云多
(黑龍江大學 經(jīng)濟與工商管理學院,黑龍江 哈爾濱150080)
近年來,國內(nèi)外一些學者使用一些參數(shù)化或非參數(shù)化方法考察收入方程優(yōu)化問題和估算人力資本收益率。例如,Heckman and Polachek率先從實證角度考察了收入方程中收入和教育水平之間的函數(shù)形式,認為二者之間存在非線性關系,而Horowitz指出半?yún)?shù)法是使用因變量未特指收入方程估算人力資本收益率的最佳方法,Chen等進一步研究參數(shù)化收入方程,考察秩估計在收入方程中的應用,Klein and Sherman認為半?yún)?shù)法是考察收入方程的最佳方法,Abrevaya and.Hausman綜合上述學者的研究思想,考察了參數(shù)化博克斯考克斯收入方程和非參數(shù)收入方程的應用條件。近年來,我國學者開始關注參數(shù)化收入方程,如王明進、岳昌君運用半?yún)?shù)方法,研究了工齡對教育收益率的影響。趙西亮、朱喜使用Probit模型,運用傾向指數(shù)匹配方法研究了家庭背景及地區(qū)對個人上大學的概率和教育收益率的影響。
上述學者在實證研究中所用的數(shù)據(jù)多為由政府的專業(yè)調(diào)查機構(gòu)提供,數(shù)據(jù)可靠可直接用于收入方程估計??墒?,收入方程經(jīng)驗研究中,問卷調(diào)查數(shù)據(jù)難以滿足這一要求,由于問卷調(diào)查面臨調(diào)查對象不合作以及代理人作答等原因,調(diào)查獲得的數(shù)據(jù)不一定準確,存在一定回應誤差。如何消除回應誤差成為準確估算人力資本收益率的難題。本文在上述學者的研究基礎上,深入研究標準化數(shù)據(jù)不可得情況下收入方程的回應誤差問題,并以此為依據(jù)考察估算人力資本收益率的最佳方法。
本文將收入方程設定如下(見式(1))。
h
代表未特指的收入方程,y
代表因變量,x'
代表協(xié)變量,ε代表與協(xié)變量x'
不相關且服從零均值和同方差正態(tài)分布的隨機變量,在x'
給定條件下,ε的條件均值為0。為了在收入方程中包括回應誤差,假定可觀測到y
存在服從零均值和同方差正態(tài)分布的回應誤差(η)。E
(ηx'
,ε)=
0,如果h
代表線性收入方程,由于x'
給定條件下y
的條件期望不受回應誤差影響,即E
(y
x'
)=E
(y
x'
),普通最小二乘回歸估計值與實際值一致。這是國內(nèi)外學者利用明瑟收入方程使用普通最小二乘估算人力資本收益率的理論基礎。如果h
不是線性函數(shù),E
(h
(y
)x'
)和E
(h
(y
)x'
)的條將期望不一定相同,h
(y
)對x'
的最小二乘回歸估計值與實際值不一致。如果h
連續(xù)可微,合并式(1)和式(2)可得:x'
給定時逼近y
的條件均值和進行非線性最小二乘估算的理論基礎。為了闡明這一觀點,本文首先考慮收入方程為對數(shù)轉(zhuǎn)換情況,選擇對數(shù)收入方程作為分析的起點是由于明瑟收入方程的對數(shù)轉(zhuǎn)換有著其他收入方程所沒有的優(yōu)點:首先,明瑟收入方程的對數(shù)轉(zhuǎn)換具有代表性,它是基于個人理性的最優(yōu)市場行為,代表了市場機制發(fā)揮作用的結(jié)果;其次,對數(shù)轉(zhuǎn)換的明瑟收入方程將難以估算的變量轉(zhuǎn)變成為可估算的變量,可以對教育水平和工齡對個人收入的影響進行定量分析,即將人力資本投資的貨幣投入成本變?yōu)榻逃胶蛣趧恿κ袌鼋?jīng)驗(工齡)等可估算的機會成本;再次,對數(shù)轉(zhuǎn)換的收入方程中可以包括其他影響收入的變量,可以考慮機會、能力等因素對收入的影響;第四,對數(shù)轉(zhuǎn)換的明瑟收入方程中相關變量的系數(shù)估計值能夠解釋教育水平和工齡的經(jīng)濟意義,這些系數(shù)估計值和系數(shù)的標準誤差估計值允許隨著時間和空間的變化作比較;第五,盡管收入分布服從正偏態(tài)、收入不平等隨著教育程度和工齡的增加而增加,但是,通過將收入取自然對數(shù)后作為因變量,收入的殘差接近標準正態(tài)分布;最后,對數(shù)轉(zhuǎn)換的明瑟收入方程能夠用于估算收入的相對不平等,收入的對數(shù)方差,有利于收入和收入不平等在不同時間和空間的比較。假定ε的分布獨立于x'
,在對數(shù)收入方程下,普通最小二乘和非線性最小二乘回歸仍可用于估計人力資本收益率。令h
(y
)=
lny
,式(5)變?yōu)?p>由于η服從零均值和同方差的正態(tài)分布,對式(6)取數(shù)學期望,可將式(6)轉(zhuǎn)換為
令
式(7)可轉(zhuǎn)換為
E
(y
x
)=Ce
,由于ε服從零均值和同方差的正態(tài)分布,式(8)可以轉(zhuǎn)化為x'
給定時逼近y
的條件均值和進行非線性最小二乘估算和極大似然估計的理論基礎。本文將博克斯考克斯收入方程寫作h
(y
)=h
(y
,λ).
如果h
已知,可忽略λ。為了簡化,令g
(ν,λ)代表收入方程的反函數(shù)(即定義g
(ν,λ)=y
,?h
(y
,λ)=v
),g
(v
,λ)代表g
(v
,λ)對v
的第j
次導數(shù)。式(5)的數(shù)學期望為g
代表(d
+1)次連續(xù)微分,基于泰勒展開式可知存在一個函數(shù)t
(ε),t
(ε)滿足j
),[ε]=
0,以至于每隔一項,在式(11)和(14)的展開式中去掉一項,由于ε~N
(0,σ),表明對于偶數(shù)項(j
),E
(ε)=
σ(j-
1)(j-
3)…3·1,強化正態(tài)假定特別有幫助。式(14)展開式中的矩數(shù)是參數(shù)σ的函數(shù),附加多余的參數(shù)不需要附加展開項。在正態(tài)假定下,可將式(14)續(xù)寫為:這一部分的余項集中在博克斯考克斯收入方程中,λ位于(0,1)之間
g
(v
,λ)的推導結(jié)果是為了對博克斯考克斯收入方程進行極大似然估計,正態(tài)假定是最好的估計方法,結(jié)合式(15)和式(18)可得
E
(y
x
)。其次,考察泰勒逼近非線性最小二乘估計值(展開式項數(shù)不同)的作用和博克斯考克斯極大似然估計值的關系。博克斯考克斯收入方程(λ≠0)可續(xù)寫為:
+x'
β,條件期望是:式(15)中泰勒逼近是否與式(18)逼近,取決于υ,σ(ε的方差)和λ(非線性參數(shù))。就模擬而言,本文考察與λ=0.2、λ=0.5和λ=0.8相應的三個不同博克斯考克斯收入方程設定。結(jié)合三個博克斯考克斯收入方程設定,在假定三個博克斯考克斯收入方程設定都存在回應誤差的情況下,使用2008年黑龍江省哈爾濱、齊齊哈爾、牡丹江、佳木斯和大慶5城市的樣本做了200個模擬,每一模擬使用四個不同的估計量,即一個極大似然估計量和三個泰勒逼近非線性最小二乘估計量(分別是泰勒一階、二階和三階展開式)。
表1列出模擬結(jié)果和每一設定^
λ的均值和均方根誤差。此外,由于本文研究的重點是估計條件期望,因此列出基于x
五個不同點(x
取值分別為5,10,15,20,25)的條件期望估計值均方根誤差比。均方根誤差比被定義為一個既定估計量的均方根誤差除以極大似然估計量的均方根誤差。令極大似然估計量的均方根誤差比都等于1。均方根誤差比低于(高于)1說明估計量比極大似然估計量(使用均方根誤差標準)有更多(更少)精確的預測值。表1 博克斯考克斯模擬結(jié)果
對于三個博克斯考克斯設定,由表1歸納如下:
(1)極大似然估計法是估算人力資本收益率的最佳方法。由表1可知,與博克斯考克斯泰勒逼近一階(BCT1)、二階(BCT2)和三階(BCT2)非線性最小二乘估計相比,極大似然估計(MLE)具有較低的既與λ又與不同的條件期望有一定聯(lián)系的均方根誤差估計值。例如,λ=0.2時,極大似然估計均方根誤差估計值為0.005,而泰勒逼近一階(BCT1)、二階(BCT2)和三階(BCT2)非線性最小二乘估計均方根誤差估計值分別為0.023,0.019和0.013。λ=0.5時,極大似然估計均方根誤差估計值為0.020,而泰勒逼近一階(BCT1)、二階(BCT2)和三階(BCT2)非線性最小二乘估計均方根誤差估計值分別為0.026,0.022和0.022。λ=0.8時,極大似然估計均方根誤差估計值為0.039,而泰勒逼近一階(BCT1)、二階(BCT2)和三階(BCT2)非線性最小二乘估計均方根誤差估計值分別為0.078,0.071和0.060。因此,極大似然估計可能比博克斯考克斯泰勒逼近非線性最小二乘估計更有效。
(2)泰勒逼近三階展開式是估算人力資本收益率的最佳收入方程。隨著泰勒逼近展開式項數(shù)逐漸增加,均方根誤差估計值逐漸減小,這是由于博克斯考克斯泰勒展開式估計量被明確定義為最小化非線性最小二乘估計,在回歸函數(shù)中增加項數(shù)會改善樣本內(nèi)預測效果。表1中均方根誤差與樣本外預測有關(例如估計量估計的實際條件期望程度如何)。通??紤]估計量存在方差偏差權(quán)衡問題(這一估計量在回歸函數(shù)中有效地增加了展開項)。在此,隨著展開式項數(shù)增加,方差逐漸減少,但是偏差會增加。
(3)在模型的非線性特征方面,極大似然估計優(yōu)于泰勒逼近非線性最小二乘估計。由表1可知,x
取值不同,估計量的效果也不同。例如,λ=0.2時,極大似然估計在每一個x
值(除了x
等于25)上都優(yōu)于博克斯考克斯泰勒逼近非線性最小二乘估計值,在x
=25時,估計量幾乎等于展開式項數(shù)。本文使用的數(shù)據(jù)來自對黑龍江省內(nèi)5城市的問卷調(diào)查,調(diào)查時間為2008年7月至9月,以在校大學生為調(diào)查者,利用暑期在校大學生回鄉(xiāng)時間,組織在校大學生深入到各地市做問卷調(diào)查,采取簡單隨機抽樣方法,隨機走訪當?shù)鼐用瘢{(diào)查對象是處于就業(yè)狀態(tài)的城鄉(xiāng)勞動力。調(diào)查信息包括年齡、教育水平(受教育年限)、工齡、個人收入等指標。本文選取了哈爾濱、齊齊哈爾、牡丹江、佳木斯、大慶5個地級單位的調(diào)查數(shù)據(jù),在上述5個城市共發(fā)放問卷38000份,回收38000份,其中有效問卷37580份,占回收問卷總數(shù)的98.87%,男性樣本20574份,占樣本總數(shù)的52.55%,女性樣本17006份,占樣本總數(shù)的47.45%,樣本月平均收入1447.65元,平均年齡38.64歲,平均受教育年限12.24年。
在每一教育水平內(nèi)部,根據(jù)樣本年齡分布情況,將工齡界定在1年至40年之間?!皞€人收入”被定義為一個連續(xù)變量,測算中由月工資收入代表。根據(jù)問卷反饋信息,按照地區(qū)和工齡分組,計算每一地區(qū)中每一工齡的不同教育水平樣本平均收入,將數(shù)據(jù)壓縮成800個單元(5個城市乘以40個工齡再乘以4個教育水平)。在800個單元中,共有37580個個體觀測值,哈爾濱的個體觀測值最多(9856個),大慶市的個體觀測值最少(4542個)。在每一單元中,個體觀測值最少為11個(大慶市工齡為34年的小學樣本觀測值為11個),個體觀測值最多為324個(哈爾濱工齡為15年的高中樣本觀測值為324個),表2給出本次問卷調(diào)查樣本基本情況。
從總體上看,收入較低,其中,月收入低于800元的樣本占樣本總數(shù)的11.24%,月收入介于800~1200元之間的樣本占樣本總數(shù)的25.46%,月收入介于1200~2000元之間的樣本占樣本總數(shù)的36.45%,月收入高于2000元的占樣本總數(shù)的26.85%。根據(jù)不同教育水平樣本統(tǒng)計,高中學歷樣本數(shù)較多,占樣本總數(shù)的35.86%,其次為大學學歷樣本(33.89%)和初中學歷樣本(19.74%),小學學歷的樣本數(shù)最少,占樣本總數(shù)的10.48%。在每一教育水平內(nèi)部,按照不同工齡劃分,將樣本分為0至10年工齡、10至25年工齡和25至40年工齡三個時間段。小學學歷、初中學歷和高中學歷的樣本中工齡介于25至40年的偏多,分別占相應教育水平樣本數(shù)的5.97%(該教育水平樣本占樣本總數(shù)的10.48%)、9.31%(該教育水平樣本占樣本總數(shù)的19.74%)和14.82%(該教育水平樣本占樣本總數(shù)的35.86%),而大學學歷樣本中,工齡介于0至10年的樣本偏多,占相應教育水平樣本數(shù)的11.05%(該教育水平樣本占樣本總數(shù)的33.89%)。
表2 5城市問卷調(diào)查樣本基本情況描述性統(tǒng)計%
在標準明瑟收入方程中,月收入對數(shù)被設定為受教育年限、工齡和工齡平方項的線性函數(shù)。
Y
代表收入方程(1)中的因變量y
,S
、EX
、EX
代表協(xié)變量x'
,S
、EX
、EX
、u
分別代表收入的自然對數(shù)、受教育年限、工齡、工齡平方項和誤差項,α代表常數(shù)項,α、α和α分別代表受教育年限、工齡和工齡平方項的系數(shù)估計值。最早從理論和實證角度對明瑟收入方程中工齡變量二次設定提出置疑的是墨菲和韋爾奇(Murphy,Kevin M,and Welch,F(xiàn)inis),他們在實證研究中發(fā)現(xiàn),明瑟收入方程對于工齡與收入之間關系二次設定的描述不準確,低估了個人職業(yè)生涯早期大約30%至50%的收入增長,高估了職業(yè)生涯中期大約20%至50%的收入增長。在闡述由工齡變量二次設定引起的偏差時,墨菲和韋爾奇指出,在收入方程中加入工齡變量的高階項是解決工齡變量二次設定引起的偏差的有效方法,經(jīng)驗研究發(fā)現(xiàn),加入工齡三次設定后,收入方程的殘差顯著減少。王云多使用問卷調(diào)查獲得的截面數(shù)據(jù)研究工齡二次設定引起的偏差,通過在工齡二次函數(shù)中加入工齡高階多項式消除偏差,實證分析結(jié)果表明,工齡三次函數(shù)是測量收入剖面的最優(yōu)選擇。消除了幾乎所有由工齡二次函數(shù)產(chǎn)生的殘差,近似反映實際收入剖面。
基于上述學者的理論及實證研究,以及本文在考察博克斯考克斯展開式估計時得出的泰勒三階展開式是估算人力資本收益率的最佳方程,本文在標準明瑟收入方程中加入了工齡三次項和一個工齡乘以受教育年限的交互項,設定如下。
EX
3和S
*EX
分別代表工齡三次項和受教育年限與工齡交互項,α、α、α、α和α分別代表相應變量的系數(shù)估計值。為了比較本文研究的不同替代方法,本文考察了二個不同的被用于工資變量的收入方程(h
)處理。第一個處理假定收入方程為對數(shù)轉(zhuǎn)換(h
(·)≡ln(·)),適用于普通最小二乘和非線性最小二乘估計量。第二個處理假定收入方程屬于博克斯考克斯轉(zhuǎn)換,適用于博克斯考克斯極大似然估計。表3列出對數(shù)線性和博克斯考克斯收入方程的參數(shù)估計值,括號中數(shù)值為標準誤??傻玫綄?shù)工資的普通最小二乘和非線性最小二乘估計值,以及博克斯考克斯收入方程極大似然估計值。非線性最小二乘估計值把基于式(7)的一個最小二乘目標函數(shù)減少到最低程度,估算結(jié)果表明:
表3 參數(shù)估計
(1)極大似然估計是估算人力資本收益率的最佳方法。由表3可知,無論是使用式(21)還是式(22),博克斯考克斯極大似然估計的λ參數(shù)統(tǒng)計上都顯著,意味著統(tǒng)計上拒絕了對數(shù)線性模型。
(2)使用標準明瑟收入方程低估了教育收益率和工齡收益率。由表3可知,與式(21)相比,基于使用加入工齡三次項和教育年限與工齡交互項的式(22),采用極大似然估計法估計的教育收益率(0.1323)和工齡收益率(0.0726)高于基于式(21)的教育收益率(0.1090)和工齡收益率(0.0325)極大似然估計值。
(3)普通最小二乘估計和非線性最小二乘估計低估了教育收益率和工齡收益率。由表3可知,無論是使用式(21)還是式(22),采用極大似然估計法估計的教育收益率和工齡收益率都要高于使用普通最小二乘和非線性最小二乘估計的教育收益率和工齡收益率。
本文研究了處理收入方程因變量回應誤差的方法,直接根據(jù)因變量續(xù)寫了收入方程,使用黑龍江省5城市問卷調(diào)查數(shù)據(jù)估算了因變量存在回應誤差情況下的條件期望,研究結(jié)論如下:
(1)泰勒三階展開式是估算人力資本收益率的最佳轉(zhuǎn)換形式。研究表明,隨著泰勒逼近展開式項數(shù)逐漸增加,均方根誤差估計值逐漸減小,這是由于博克斯考克斯泰勒展開式估計量被明確定義為最小化非線性最小二乘估計,在回歸函數(shù)中增加項數(shù)會改善樣本內(nèi)預測效果。
(2)存在因變量回應誤差時,極大似然估計是最有效的估計方法,普通最小二乘和非線性最小二乘估計無效。與博克斯考克斯泰勒逼近一階(BCT1)、二階(BCT2)和三階(BCT2)非線性最小二乘估計相比,極大似然估計(MLE)具有較低的既與λ又與不同的條件期望有一定聯(lián)系的均方根誤差估計值。
(3)普通最小二乘估計低估了教育收益率和工齡收益率。實證檢驗中,加入工齡高階項后收入方程擬合度有顯著提高,而教育收益率和工齡收益率有所提高。
[1]Heckman,J,Jand Polachek,S..Empirical evidence on the function form of the earnings-schooling relationship[J].Journal of the American Statistical Association,1974,(69).
[2]Horowitz,J.L..Semiparametric estimation of a regression model with an unknown transformation of the dependent cariable[J].Econometrica,1996,(64).
[3]Chen,S.,Lockhart,R.A.and Sherman,M.A..Box-Cox transformation in linear models:Large smple theory and tests of normality[J].Canadian Journal of Statistics,2002,(30).
[4]Chen,S..Rank estimation of transformation models[J].Econometrica,2002,(70).
[5]Klein,R.W.and Sherman,R.P..Shift restrictions and semiparametric estimation in a generalized transformation model[J].Econometrica,2002,(70).
[6]Abrevaya Jason and Hausman.Jerry A.Response error in a transformation model with an application to earning-equation estimation[J].Econometrics Journal,2004,(7).
[7]王明進,岳昌君.個人教育收益率的估計與比較:一個半?yún)?shù)方法[J].統(tǒng)計研究,2009,(6).
[8]趙西亮,朱喜.城鎮(zhèn)居民的大學教育收益率估計:傾向指數(shù)匹配方法[J].南方經(jīng)濟,2009,(10).
[9]Wooldridge,J.M..Some altermative to the Box-Cox regression model[J].International Economic Review,1992,(33).
[10]Murphy,Kevin M,and Welch,F(xiàn)inis..Empirical Age-Earning Profiles[J].Journal of Labor Economics,1990,(18).
[11]王云多.試析地區(qū)、行業(yè)和性別因素對人力資本收益率的影響[J].人口與經(jīng)濟,2009,(6).