陳建東,戴 岱,馮 瑛
(1.西南財(cái)經(jīng)大學(xué) 財(cái)稅學(xué)院,成都 611130;2.西南財(cái)經(jīng)大學(xué) 工商管理學(xué)院,成都 611130;3.成都電子機(jī)械高等??茖W(xué)校,成都, 610031)
衡量收入不平等的標(biāo)準(zhǔn)有很多,如泰爾-L指數(shù)、變異系數(shù)、平均離方差(又稱庫茨涅茨指數(shù))和基尼系數(shù)等。不過兩個(gè)最常用的標(biāo)準(zhǔn)是洛倫茨曲線和基尼系數(shù)(Sloman,2000)。而基尼系數(shù)是最重要的衡量收入不平等程度的指標(biāo)(Sen,1997;Champernowne 和Cowell,1998)。意大利統(tǒng)計(jì)學(xué)家 Corrado Gini在1912年發(fā)表的Variability and Mutability一文中,首次提出了一種衡量不均等的指數(shù)及其計(jì)算方法。該方法后來便逐漸演變?yōu)榇蠹沂熘幕嵯禂?shù)(李實(shí),2002)。
測(cè)算基尼系數(shù)最理想的數(shù)據(jù)源就是原始的住戶調(diào)查數(shù)據(jù),根據(jù)(1)式,利用相關(guān)的軟件1就能迅速準(zhǔn)確地計(jì)算居民收入的基尼系數(shù)。(1)式中n代表人口總數(shù)(或家庭戶數(shù));u為平均收入;yi和yj分別代表第i和j居民(或家庭)的收入。
目前公開出版的相關(guān)統(tǒng)計(jì)年鑒有:《中國(guó)統(tǒng)計(jì)年鑒》、《中國(guó)城市(鎮(zhèn))生活與價(jià)格年鑒》、《農(nóng)村住戶調(diào)查年鑒》和《中國(guó)價(jià)格及城鎮(zhèn)居民家庭收支調(diào)查統(tǒng)計(jì)年鑒》,后兩者居民收入的分組數(shù)據(jù)和《中國(guó)統(tǒng)計(jì)年鑒》類似。雖然《中國(guó)城市(鎮(zhèn))生活與價(jià)格年鑒》提供的城鎮(zhèn)居民分組數(shù)多于《中國(guó)統(tǒng)計(jì)年鑒》。但是《中國(guó)城市(鎮(zhèn))生活與價(jià)格年鑒》從2006年才正式出版。然而,目前公開出版的居民收入數(shù)據(jù)都是在原始住戶調(diào)查數(shù)據(jù)的基礎(chǔ)上重新按收入進(jìn)行分組而得到的數(shù)據(jù)。
《中國(guó)統(tǒng)計(jì)年鑒》是估計(jì)我國(guó)居民收入基尼系數(shù)最主要的數(shù)據(jù)源,特別是在2000年以前沒有住戶調(diào)查年鑒的情況下。例如陳宗勝和周云波(陳宗勝,1999;陳宗勝和周云波,2002)就是以《中國(guó)統(tǒng)計(jì)年鑒》為基礎(chǔ)并對(duì)其重新加工。但是《中國(guó)統(tǒng)計(jì)年鑒》中有關(guān)居民收入的數(shù)據(jù)遭到了廣泛的質(zhì)疑。Khan和Riskin(2001)認(rèn)為《中國(guó)統(tǒng)計(jì)年鑒》提供的收入數(shù)據(jù)過于集中,從而影響了對(duì)收入不平等的深入分析。Fang、Zhang和Fan(2002)也認(rèn)為過于集中的分組數(shù)據(jù)忽略了組內(nèi)數(shù)據(jù)的差異,因此不夠精確。如1996年《中國(guó)統(tǒng)計(jì)年鑒》提供的農(nóng)村住戶收入數(shù)據(jù),人均年純收入超過2000元的農(nóng)村家庭占樣本總數(shù)的38.4%,統(tǒng)計(jì)年鑒沒有對(duì)這些農(nóng)村中高收入家庭的收入進(jìn)一步分組;2007年《中國(guó)統(tǒng)計(jì)年鑒》提供的農(nóng)村住戶收入數(shù)據(jù),人均年純收入超過5000元的農(nóng)村家庭占樣本總數(shù)的30.94%,統(tǒng)計(jì)年鑒也沒有對(duì)這些農(nóng)村中高收入家庭的收入進(jìn)一步分組。所以,根據(jù)《中國(guó)統(tǒng)計(jì)年鑒》提供的數(shù)據(jù)我們只能計(jì)算出組間的收入差距,而組內(nèi)的收入差距沒辦法計(jì)算,所以最終的結(jié)果必定被低估。
由于需要大量和復(fù)雜的統(tǒng)計(jì)調(diào)查,個(gè)人或非統(tǒng)計(jì)部門很難得到連續(xù)的有關(guān)我國(guó)居民收入的第一手?jǐn)?shù)據(jù)。如果可以進(jìn)入原始的住戶調(diào)查數(shù)據(jù)源,利用(1)式就可以迅速準(zhǔn)確地計(jì)算出我國(guó)居民收入的基尼系數(shù)。而在目前數(shù)據(jù)源的條件下,準(zhǔn)確地計(jì)算中國(guó)基尼系數(shù)還需要克服很多技術(shù)問題。雖然大家都清楚目前居民收入的分組數(shù)據(jù)會(huì)導(dǎo)致基尼系數(shù)被低估,但是尚未發(fā)現(xiàn)相關(guān)文獻(xiàn)對(duì)此給予實(shí)證的分析。另外,我們知道統(tǒng)計(jì)年鑒不可能提供原始的住戶收入數(shù)據(jù),但是分組數(shù)據(jù)太少如目前的5分組或7分組又不利于分析居民的收入差距。所以本文關(guān)注的是:樣本收入分組數(shù)與準(zhǔn)確測(cè)算基尼系數(shù)的關(guān)系,與此問題相聯(lián)系的另一個(gè)問題是分組數(shù)多少才能比較準(zhǔn)確地估計(jì)基尼系數(shù)。
這里表示不同群體之間的基尼系數(shù);Gi表示第i個(gè)群體內(nèi)部的基尼系數(shù);第i個(gè)群體的收入占總收入的比重為Ii,第i個(gè)群體的人口占全體人口的比重為Pi;G(f)大小取決于各個(gè)分組之間收入分布的重疊程度,只有當(dāng)分組之間的收入分布完全不重疊時(shí),該項(xiàng)才會(huì)等于零(Mookherjee和Shorrocks,1982;Shorrocks和 Wan,2005)。(2)式可以解釋為什么運(yùn)用統(tǒng)計(jì)年鑒的數(shù)據(jù)會(huì)低估基尼系數(shù)?!吨袊?guó)統(tǒng)計(jì)年鑒》提供的城鎮(zhèn)和農(nóng)村居民收入分組是按從低到高排序的,因此在計(jì)算城鎮(zhèn)內(nèi)部和農(nóng)村內(nèi)部的基尼系數(shù)時(shí)G(f)為零,但是利用《中國(guó)統(tǒng)計(jì)年鑒》測(cè)算城鎮(zhèn)內(nèi)部和農(nóng)村內(nèi)部的基尼系數(shù)時(shí),沒有辦法計(jì)算各收入分組的組內(nèi)收入差距,相當(dāng)于省略了(2)式中的
本文利用分解基尼系數(shù)的方法來解釋分組數(shù)據(jù)對(duì)基尼系數(shù)測(cè)算的影響。從不同的收入來源來分解基尼系數(shù)已為大家所熟知,而從不同的收入組來分解基尼系數(shù)相對(duì)來說則比較困難。最早從事該領(lǐng)域研究的是Bhattacharya和Mahalanobis(1967)。簡(jiǎn)言之,全體居民的基尼系數(shù)可以分解為:所以最終的結(jié)果必定被低估。
如果所有居民的收入按從低到高排列,則(2)式中G(f)=0,那么全體居民收入的基尼系數(shù)為:
如果所有居民的收入按從低到高排列,并且按人口平均分為兩組,那么兩組間居民收入的基尼系數(shù)為:
如果按人口平均分為四組,組間居民收入的基尼系數(shù)為:
(5)式中與(4)式中相同,(5)式相當(dāng)于首先把全體居民按人口平均分成兩組計(jì)算出兩組間的基尼系數(shù)(),然后再分別計(jì)算兩組組內(nèi)的基尼系數(shù)
如果按人口平均分為八組,組間居民收入的基尼系數(shù)為:
如果按人口平均分為2n(n為正的偶數(shù))組,組間居民收入的基尼系數(shù)為:
(8)式表明如果按人口平均分組,分組數(shù)每增加一倍引起的全體居民基尼系數(shù)的增加數(shù)至少以2的負(fù)1次方衰減,即隨分組數(shù)的增加全體居民基尼系數(shù)也會(huì)增加,但是增幅呈收斂態(tài)勢(shì)。
如果我們?cè)O(shè)定可接受的測(cè)算誤差,我們就可以確定分組數(shù)的下限,如:如果樣本為16等分組,基尼系數(shù)的計(jì)算誤差一定小于7%(即1 24);32等分組,計(jì)算誤差一定小于4%;64等分組,計(jì)算誤差一定小于2%;128等分組,計(jì)算誤差一定小于1%。這些誤差結(jié)果都是理論上極限值,實(shí)際的誤差會(huì)大大小于這些誤差的上限。
為了研究分組數(shù)對(duì)最終測(cè)算結(jié)果的影響,我們通過擬合2004~2006年年我國(guó)城鎮(zhèn)和農(nóng)村居民的收入分布來觀察來分組數(shù)的影響。在擬合居民收入分布之前,需要知道居民收入服從何種類型的分布函數(shù)。Slevn(1959)認(rèn)為同類的群體,如農(nóng)村居民,他們的收入分布可以很好地由對(duì)數(shù)正態(tài)分布(log-normal)來描述。Balintfy和Goodman(1973)強(qiáng)調(diào)收入分布是由一種特殊的隨機(jī)過程產(chǎn)生的,對(duì)數(shù)正態(tài)分布可以很好地解釋它。從實(shí)證的結(jié)果來看,世界銀行在2006年的研究中(Lopez和Servén,2006)利用近40年包括發(fā)達(dá)國(guó)家和發(fā)展中國(guó)家的收入數(shù)據(jù)證明了收入分布服從對(duì)數(shù)正態(tài)分布。Souma(2000)通過對(duì)日本居民從1887年至1998年收入的研究,指出對(duì)數(shù)正態(tài)分布是居民收入分布的普遍結(jié)構(gòu)(universal structure)。由于我國(guó)是一個(gè)典型的二元社會(huì),城鄉(xiāng)收入差距巨大,因此全體居民的收入分布與“啞鈴型”類似。但是如果我們分別來考察城鎮(zhèn)居民和農(nóng)村居民的收入分布,我們不難發(fā)現(xiàn)它們?nèi)苑姆膶?duì)數(shù)正態(tài)分布。
假設(shè)城鎮(zhèn)居民收入xi(i=12,…,n)為獨(dú)立同分布隨機(jī)變量,服從參數(shù)為μ和δ的對(duì)數(shù)正態(tài)分布,其密度函數(shù)為:
設(shè)μ和δ分別是對(duì)數(shù)正態(tài)分布的均值與方差(參見上式),洪興建、李金昌(2006)已證明對(duì)收入變量x而言,若Lnx~N(μ,δ2),則基尼系數(shù)
根據(jù)(10)式,對(duì)任意δ,通過標(biāo)準(zhǔn)正態(tài)分布函數(shù)表能方便地計(jì)算出基尼系數(shù)。這里我們反其道而行之,利用國(guó)家統(tǒng)計(jì)局提供的城鎮(zhèn)內(nèi)部和農(nóng)村內(nèi)部的基尼系數(shù)和城鄉(xiāng)居民的人均收入去找對(duì)應(yīng)的μ和δ。由于Y=exp(μ+δ22),這里Y為已知的城鎮(zhèn)或農(nóng)村居民的平均收入,可以得到(11)式:
國(guó)家統(tǒng)計(jì)局城市社會(huì)經(jīng)濟(jì)調(diào)查總隊(duì)和農(nóng)村社會(huì)經(jīng)濟(jì)調(diào)查司提供了2004年到2006年城市內(nèi)部和農(nóng)村內(nèi)部的基尼系數(shù)。我們利用Matlab編寫的軟件能在輸入城鎮(zhèn)內(nèi)部和農(nóng)村內(nèi)部基尼系數(shù)后,直接計(jì)算出對(duì)應(yīng)的δ值并且精確到小數(shù)點(diǎn)后4位。有了δ值和已知的城鎮(zhèn)和農(nóng)村居民平均收入(Y),根據(jù)(11)式可測(cè)算出μ。這樣就可以得到從2004年到2006年農(nóng)村居民和城鎮(zhèn)居民收入的分布函數(shù)。接下來利用Matlab生成服從參數(shù)為μ和δ的對(duì)數(shù)正態(tài)分布的隨機(jī)數(shù),這些隨機(jī)數(shù)就代表了單個(gè)居民的收入,可以近似地?cái)M合真實(shí)的居民收入數(shù)據(jù)。在我們的實(shí)際計(jì)算中,運(yùn)用Matlab生成的服從對(duì)數(shù)正態(tài)分布的隨機(jī)數(shù)共計(jì)10000個(gè),根據(jù)(1)式我們計(jì)算了在各種分組條件下城鎮(zhèn)居民和農(nóng)村居民收入的基尼系數(shù)。
在計(jì)算全國(guó)居民的基尼系數(shù)時(shí),我們按城鄉(xiāng)實(shí)際的人口數(shù)量來控制隨機(jī)數(shù)的比率,隨機(jī)數(shù)也是10000個(gè)。由于我們的目的不是為了準(zhǔn)確測(cè)算全國(guó)居民的基尼系數(shù),而是為了得到服從一定分布規(guī)律的隨機(jī)數(shù),我們只利用一次計(jì)算所生成的隨機(jī)數(shù)。在另一項(xiàng)測(cè)算全國(guó)居民收入的基尼系數(shù)研究中,我們采用的是模擬100次結(jié)果的平均數(shù)。
除了上述方法,還可以通過“EM兩步法”來估計(jì)參數(shù)μ和δ(鄧明、楊藝,2004)。利用(11)式來測(cè)算μ和δ必須知道樣本的平均收入和基尼系數(shù),而運(yùn)用“EM兩步法”的前提是必須知道樣本的分組數(shù)據(jù),并且分組數(shù)不能太少,否則會(huì)影響最終結(jié)果?!癊M兩步法”是一種迭代方法,該方法主要用來求后驗(yàn)分布的眾數(shù)(即最大似然估計(jì)),它的每次迭代由兩步組成:E步(求期望)和M步(極大化)。記θ為未知參數(shù),將上述E步和M步進(jìn)行迭代直至‖θi+1-θi‖充分小時(shí)停止。該算法的最大優(yōu)點(diǎn)是簡(jiǎn)單和穩(wěn)定。
根據(jù)(11)式,我們利用國(guó)家統(tǒng)計(jì)局城市社會(huì)經(jīng)濟(jì)調(diào)查總隊(duì)和農(nóng)村社會(huì)經(jīng)濟(jì)調(diào)查司提供了2004年到2006年城市內(nèi)部和農(nóng)村內(nèi)部的基尼系數(shù),得到了2004年至2006年我國(guó)城鎮(zhèn)人口和農(nóng)村居民收入分布的主要參數(shù)(見表1)。
表1 2004年至2006年城鄉(xiāng)居民收入的主要參數(shù)
表2 不同分組數(shù)的城鄉(xiāng)居民收入的基尼系數(shù)
根據(jù)表1,利用生成隨即數(shù)的辦法得到各有10000個(gè)樣本的城鎮(zhèn)居民和農(nóng)村居民的收入數(shù)據(jù),然后分別把樣本等分成2組、4組、8組、16組、20組、40組、80組、200組和1000組,利用我們編制的程序分別計(jì)算了不同分組的組間基尼系數(shù)。表2是的計(jì)算結(jié)果。
式(8)表明基尼系數(shù)收斂速度與分組數(shù)之間的關(guān)系,我們列出了由于分組數(shù)增加導(dǎo)致的基尼系數(shù)增加的上限,而實(shí)際基尼系數(shù)的增幅應(yīng)比較小。表2顯示從2004年至2006年隨分組數(shù)的增加,城鎮(zhèn)居民和農(nóng)村居民收入的基尼系數(shù)也在增加,但是收斂的速度更快。兩分組得到的基尼系數(shù)占全體居民基尼系數(shù)的比重為2/3強(qiáng);16分組得到的基尼系數(shù)占全體居民基尼系數(shù)的比重為99%;20分組得到的基尼系數(shù)占全體居民基尼系數(shù)的比重超過99%。如果以1%的誤差為標(biāo)準(zhǔn),16等分組或20等分組得到的基尼系數(shù)基本上能夠反映全體城鎮(zhèn)居民或農(nóng)村居民收入的基尼系數(shù)。
測(cè)算全國(guó)居民的基尼系數(shù)的方法,不同于測(cè)算城鎮(zhèn)居民或農(nóng)村居民收入的基尼系數(shù)。以計(jì)算2006年全國(guó)居民收入基尼系數(shù)為例,2006年我國(guó)城鎮(zhèn)居民人口比重為43.9%,根據(jù)表1中2006年城鎮(zhèn)居民收入分布函數(shù)的參數(shù),生成4390個(gè)隨機(jī)數(shù);同樣根據(jù)表1中2006年農(nóng)村居民收入分布函數(shù)的參數(shù),生成5610個(gè)隨機(jī)數(shù)。合并上述兩部分隨機(jī)數(shù),我們就得到了2006年全國(guó)居民收入樣本,根據(jù)該樣本我們計(jì)算了各種分組情況下的基尼系數(shù)。通過表3,我們發(fā)現(xiàn)全國(guó)居民收入基尼系數(shù)與分組數(shù)的關(guān)系和城鄉(xiāng)居民收入基尼系數(shù)與分組數(shù)的關(guān)系相同。如果城鎮(zhèn)居民和農(nóng)村居民的分組數(shù)都為16組或20組,則最終測(cè)算的全國(guó)基尼系數(shù)的誤差小于1%。不過上述的分析都是基于服從特定參數(shù)的隨即數(shù),那么真實(shí)的情況是否也支持我們上面的分析?這里我們以2008年12月份四川省城鎮(zhèn)居民的統(tǒng)計(jì)樣本數(shù)據(jù)來檢驗(yàn)分組數(shù)與基尼系數(shù)的關(guān)系,該統(tǒng)計(jì)樣本超過10000戶城鎮(zhèn)家庭。計(jì)算結(jié)果表明2008年12月份四川省城鎮(zhèn)居民收入的基尼系數(shù)為0.3421。在按收入從低到高排列四川省城鎮(zhèn)居民收入數(shù)據(jù)后,我們?nèi)匀话褬颖景慈丝诘确殖?組、4組、8組、16組、20組、40組、80組、200組和1000組來分別計(jì)算相應(yīng)的基尼系數(shù)。計(jì)算結(jié)果和基于服從特定參數(shù)的隨即數(shù)得到的基尼系數(shù)基本一致,兩分組得到的基尼系數(shù)占全體居民基尼系數(shù)的比重大約為2/3;16分組得到的基尼系數(shù)占全體居民基尼系數(shù)的比重大約為99%;20分組得到的基尼系數(shù)占全體居民基尼系數(shù)的比重超過99%。
表3 不同分組數(shù)的全國(guó)居民收入的基尼系數(shù)以及四川居民收入的基尼系數(shù)
綜上所述,如果統(tǒng)計(jì)年鑒能夠提供按人口等分的16組或20組居民收入的數(shù)據(jù),那么較為準(zhǔn)確地估計(jì)相應(yīng)樣本總體的基尼系數(shù)就不再是一個(gè)難題。
我們認(rèn)為目前的數(shù)據(jù)源是困擾計(jì)算我國(guó)居民收入基尼系數(shù)的根本原因。進(jìn)一步,目前年鑒提供的城鎮(zhèn)居民和農(nóng)村居民分組數(shù)據(jù)太少影響了對(duì)基尼系數(shù)的準(zhǔn)確估計(jì)。研究表明,雖然分組的增加可以提高測(cè)算基尼系數(shù)的精度,但是基尼系數(shù)的增加幅度隨分組數(shù)的不斷提高呈快速收斂趨勢(shì)。通過實(shí)證分析,我們認(rèn)為如果能夠提供16或20按人口等分組的收入數(shù)據(jù),就可以比較準(zhǔn)確地測(cè)算樣本總體的基尼系數(shù)。因此建議統(tǒng)計(jì)部門提供更為詳細(xì)的居民收入分組數(shù)據(jù)。同時(shí)我們建議為了克服數(shù)據(jù)源的限制,目前還需要從測(cè)算手段上進(jìn)行突破。本文通過反推城鎮(zhèn)居民和農(nóng)村居民收入分布函數(shù)的方法嘗試提出了測(cè)算全國(guó)居民收入基尼系數(shù)的新方法。
[1]陳宗勝.改革、發(fā)展與收入分配[M].上海:復(fù)旦大學(xué)出版社,1999.
[2]陳宗勝,周云波.再論改革與發(fā)展中的收入分配-中國(guó)發(fā)生兩極分化了嗎?[M].北京:經(jīng)濟(jì)科學(xué)出版社,2002.
[3]鄧明,楊藝.基于分組數(shù)據(jù)的對(duì)數(shù)正態(tài)分布的參數(shù)估計(jì)[J].系統(tǒng)工程理論方法應(yīng)用,2004,(6).
[4]國(guó)家統(tǒng)計(jì)局.中國(guó)統(tǒng)計(jì)年鑒[M].北京:中國(guó)統(tǒng)計(jì)出版社,2005~2007.
[5]國(guó)家統(tǒng)計(jì)局城市社會(huì)經(jīng)濟(jì)調(diào)查總隊(duì).中國(guó)城市(鎮(zhèn))生活與價(jià)格年鑒[M].北京:中國(guó)統(tǒng)計(jì)出版社,2006~2007.
[6]洪興建,李金昌.關(guān)于基尼系數(shù)若干問題的再研究—與部分學(xué)者商榷[J].數(shù)量經(jīng)濟(jì)技術(shù)經(jīng)濟(jì)研究,2006,(2).
[7]李實(shí).對(duì)基尼系數(shù)估算與分解的進(jìn)一步說明[J].經(jīng)濟(jì)研究,2002,(5).
[8]Balintfy,L,Goodman,S.Socio-Economic Factors in Income Inequality:A Log-Normal Hypothesis[J].Zeitschrift fiir Nationalokonomie,1973,(33).
[9]Bhattacharya,N.,Mahalanobis,B.Regional Disparities in Household Consumption in India[J].Journal of the American Statistical Association,1967,(62).
[10]Champernowne,D.,Cowell,F.Economic Inequality and Income Distribution[M].Cambridge:Cambridge University Press,1998.
[11]Khan,A.,Riskin,C.Inequality and Poverty in China in the Age of Globalisation[M].Oxford:Oxford University Press,2001.
[12]Lambert,P,Aronson,R.Inequality Decomposition Analysis and the Gini Coefficient Revisited[J].The Economic Journal,1993,(103).