□文/鄭 冰
(首都經(jīng)濟(jì)貿(mào)易大學(xué)統(tǒng)計(jì)學(xué)院 北京)
近年來,社會各方面越來越關(guān)注北京市居民收入的貧富差距日益擴(kuò)大,忽視了居民收入的變化情況,普遍默認(rèn)為居民收入水平一直處于增長的狀態(tài)。北京市居民收入水平真的一直在增加嗎?為什么公布的數(shù)據(jù)和居民的感受不一致呢?原因很簡單,目前對于居民收入水平公布或分析的時(shí)候,一般就只是用人均可支配收入這一個(gè)指標(biāo)來衡量。但實(shí)際上,單個(gè)指標(biāo)反映居民收入水平是片面的,我們應(yīng)該考慮到就業(yè)的情況、物價(jià)水平和生活成本以及政策性補(bǔ)貼等方面因素的影響。
如果僅僅分析某一時(shí)期或者時(shí)點(diǎn)的數(shù)據(jù),我們可以采用主成分分析方法。通過主成分分析的方法,可以把大量的原始變量綜合成幾個(gè)少數(shù)的變量。但是要分析某一段時(shí)期居民收入水平各個(gè)指標(biāo)的變化,針對這樣的面板數(shù)據(jù),縱向數(shù)據(jù)模型主要是以線性結(jié)構(gòu)描述變量之間的因果關(guān)系,而且模型太過于依賴諸多的假設(shè)條件,具有一定的局限性。但是函數(shù)性主成分分析方法僅僅假設(shè)觀測數(shù)據(jù)背后存在著相應(yīng)的連續(xù)函數(shù),具有自身的優(yōu)越性,較少的依賴假設(shè)條件和較弱的結(jié)構(gòu)約束。
1991年,J.O.Ramsay和C.J.Dalzel在《Some Tools for Function Data Analysis》最先提出函數(shù)性主成分方法。近幾年來,函數(shù)性主成分分析已經(jīng)引起了國外學(xué)術(shù)界的關(guān)注,如Brumback和 Rice、James et al.、Girard、Cardot和 He et al.通過不同的方法對函數(shù)性主成分的算法進(jìn)行研究。2005年,Salvatore和Damiana已經(jīng)將函數(shù)性主成分分析方法用于實(shí)際的運(yùn)用中。與國外相比,國內(nèi)關(guān)于函數(shù)性主成分分析還處于起步階段,目前只有極少數(shù)的學(xué)者對此方面進(jìn)行研究。而且在對函數(shù)性主成分?jǐn)?shù)據(jù)進(jìn)行平滑時(shí),均采用B樣條基函數(shù)來平滑,如岳敏和朱建平、靳劉蕊等都是采用3次B樣條的光滑技術(shù)。但是,J.O.Ramsay和 B.W.Silverman在《Function Data Analysis》指出:“傅立葉基和B樣條基是至今最為重要的兩個(gè)基函數(shù),大多數(shù)實(shí)際問題的數(shù)據(jù)可用它們進(jìn)行處理,前者適應(yīng)于周期性函數(shù)數(shù)據(jù),后者適應(yīng)于非周期性函數(shù)數(shù)據(jù)?!眹?yán)明義在《函數(shù)性數(shù)據(jù)的統(tǒng)計(jì)分析:思想、方法和應(yīng)用》中也指出對于周期性函數(shù),傅立葉基更合適。一般來說,經(jīng)濟(jì)問題都具有周期性,本文涉及到十幾年的居民收入水平也存在一定的周期性,用傅立葉基更為合適。
本文從就業(yè)情況、物價(jià)水平和生活成本以及政策性補(bǔ)貼等方面來反映北京市居民收入水平,用傅立葉基函數(shù)來建立函數(shù)性主成分(FPCA)模型,分析1999~2010年動態(tài)變化情況。在具體運(yùn)用過程中,由于涉及到經(jīng)濟(jì)數(shù)據(jù)的周期性,對原有的模型進(jìn)行了改進(jìn),采用傅立葉基函數(shù)來精心光滑。
(一)函數(shù)性數(shù)據(jù)分析。函數(shù)性數(shù)據(jù)分析(FDA)是從函數(shù)的角度對數(shù)據(jù)進(jìn)行分析,即假設(shè)數(shù)據(jù)具有函數(shù)性。它把數(shù)據(jù)看作一個(gè)整體,用光滑的曲線ui(t)來表示數(shù)據(jù),其中i=1,…,N表示觀測對象;t既可以表示時(shí)間,也可以表示其他的變量。與傳統(tǒng)的分析方法相比較,函數(shù)性數(shù)據(jù)分析有以下幾個(gè)優(yōu)點(diǎn):較少的假設(shè)條件和結(jié)構(gòu)約束;不需要對于觀測對象i=1,…,N的觀測點(diǎn)和觀測次數(shù)相同;通過導(dǎo)數(shù)曲線挖掘出更多的信息等。
(二)傅立葉基函數(shù)。傅立葉變換在物理學(xué)、聲學(xué)、光學(xué)、結(jié)構(gòu)動力學(xué)、數(shù)論、組合數(shù)學(xué)、概率論、統(tǒng)計(jì)學(xué)、信號處理、密碼學(xué)、海洋學(xué)、通訊等領(lǐng)域都有著廣泛的應(yīng)用。例如,在信號處理中,傅立葉變換的典型用途是將信號分解成振幅分量和頻率分量。在函數(shù)性數(shù)據(jù)分析中,傅立葉變換作為一種平滑技術(shù),一般稱作傅立葉基函數(shù),具體形式如下:
傅立葉基的周期為2π/w。
傅立葉基函數(shù)對于穩(wěn)定的函數(shù)有非常好的效果,而且數(shù)據(jù)的周期性也可以用傅立葉基函數(shù)顯示出來。所以,對于周期性數(shù)據(jù),非常適合用傅立葉基函數(shù)。
(三)函數(shù)性主成分分析。對于函數(shù)性數(shù)據(jù)表示為xi(s)(s∈T),與傳統(tǒng)的主成分分析數(shù)據(jù)xij相比,S是連續(xù)的而j是離散的,其中i=1,…,N。將區(qū)間T上的x(s)綜合為一個(gè)綜合變量:
其中,β(s)為權(quán)重函數(shù)。
函數(shù)性主成分的求解和多元主成分求解的基本思想非常相似,第一主成分的求解就是滿足下面條件:
第k個(gè)主成分的求解就是滿足下面條件:
在具體的函數(shù)性主成分求解過程中,通過前面提到的傅立葉基函數(shù)展開來實(shí)現(xiàn)。當(dāng)然,在此之前,還需要先對觀測到的曲線進(jìn)行曲線套準(zhǔn)、標(biāo)準(zhǔn)化等初步處理。
(一)指標(biāo)的選取。本文采用1999~2010年的11個(gè)指標(biāo)反映北京市居民收入水平的數(shù)據(jù)。
關(guān)于11個(gè)指標(biāo)的選取,主要從分配制度、就業(yè)狀況、物價(jià)及成本因素和政策性補(bǔ)貼這4個(gè)角度來考慮。在分配制度方面,用分配方式和收入差異來衡量;在就業(yè)狀況,用就業(yè)增長性、就業(yè)貢獻(xiàn)率、就業(yè)水平和就業(yè)結(jié)構(gòu)來衡量;物價(jià)及成本因素方面,用消費(fèi)價(jià)格、消費(fèi)支出和生活成本來衡量;在政策性補(bǔ)貼方面,用保障標(biāo)準(zhǔn)和保證規(guī)模來衡量。各個(gè)指標(biāo)具體指標(biāo)含義,可以參見表1。(表1)
收入差異和生活成本對于居民收入水平來說是逆指標(biāo),本文采用其負(fù)數(shù)來衡量;城鎮(zhèn)單位在崗職工平均工資增速、居民人均消費(fèi)支出增速、個(gè)人所得稅稅收增速、地方財(cái)政中社會保障和就業(yè)支出增速這4個(gè)指標(biāo)的數(shù)據(jù)都經(jīng)過了價(jià)格縮減,為實(shí)際增速。
(二)總體收入水平。為了能更好地應(yīng)用函數(shù)性數(shù)據(jù)的分析方法,使得計(jì)算過程更為簡便,所以我們先進(jìn)行中心化。針對中心化后的數(shù)據(jù),運(yùn)用R語言編程,對北京市各居民收入水平指標(biāo)的均值進(jìn)行平滑。在用傅立葉基函數(shù)平滑的過程中,還與粗糙懲罰法結(jié)合起來,經(jīng)過粗糙懲罰后得到的函數(shù)更加光滑細(xì)致,使得下一步分析有更好的結(jié)果。
從圖1中可以看出,12年來北京市居民收入水平雖然一直小幅度波動,但是總體上保持平穩(wěn)的發(fā)展。2004年居民收入水平最高,2008年以后大致處于上升的趨勢。(圖1)雖然近年來北京市居民人均可支配收入一直處于增長的過程,但是綜合考慮就業(yè)的情況、物價(jià)水平和生活成本以及政策性補(bǔ)貼等方面因素的影響后,我們發(fā)現(xiàn)北京市居民收入水平實(shí)際上保持平穩(wěn)發(fā)展。
表1 居民收入水平指標(biāo)體系
圖1 北京市居民收入水平指標(biāo)均值平滑曲線
圖2 11個(gè)中心化后指標(biāo)的函數(shù)圖像
(三)函數(shù)性主成分分析。為了能更好地應(yīng)用函數(shù)性主成分分析方法,所以我們先對11個(gè)指標(biāo)也采用傅立葉基函數(shù)進(jìn)行光滑。在光滑的過程中,還是與粗糙懲罰法結(jié)合起來,具體內(nèi)容,如圖2所示。(圖2)可以看出,由于涉及指標(biāo)較多,不能清晰地看出從1999年到2010年北京市居民收入水平變化的情況,需要把這11個(gè)指標(biāo)綜合為少數(shù)幾個(gè)綜合指標(biāo)。
得到平滑函數(shù)以后,對11個(gè)標(biāo)準(zhǔn)化后指標(biāo)的函數(shù)進(jìn)行主成分分析。圖3、圖4和圖5顯示了前3個(gè)主成分偏離均值的情形。其中,第一主成分的方差貢獻(xiàn)率為37.8%;第二主成分的方差貢獻(xiàn)率為29.6%;第三主成分的方差貢獻(xiàn)率為13.9%。為了清晰顯示各主成分所代表的變化模式,分別在均值曲線上加上或者減去各主成分權(quán)重函數(shù)合適的倍數(shù)后得到的兩條曲線繪制在一個(gè)坐標(biāo)圖中,其中實(shí)線(—)表示均值曲線、正號(+++)表示加上權(quán)重函數(shù)、負(fù)號(---)表示減去權(quán)重函數(shù)。(圖 3、圖 4、圖 5)
從圖3中可以看出,表示均值的實(shí)線處以一直比較平穩(wěn)的發(fā)展,尤其是從2005以后,實(shí)線的波動變小。說明北京市居民收入水平一直處于較為平穩(wěn)發(fā)展的狀態(tài),而且近幾年的穩(wěn)定性有所提高。
從圖中還可以看出,第一主成分從2000年到2005年一直為正效應(yīng),而在2005年有一個(gè)轉(zhuǎn)折點(diǎn),從此變?yōu)樨?fù)效應(yīng),一直到2010年。實(shí)際上,從1991年至2004年是北京市外來人口大量增加階段。經(jīng)濟(jì)快速增長導(dǎo)致中心城市強(qiáng)大的引力效應(yīng),人口資金迅速集中,并有逐年遞增之勢。例如,2004年全市增加的人口中,外來人口占到63%。由于人口的快速增長,導(dǎo)致就業(yè)增長率等反映居民收入水平情況的指標(biāo)較快提高,所以表現(xiàn)為正效應(yīng)。但從2005年北京就開始控制人口,如2005年《北京城市總體規(guī)劃(2004年-2020年)》,就明確提出到2020年北京市總?cè)丝谝?guī)模規(guī)劃控制在1,800萬人左右。近幾年來,北京市人口規(guī)模一直處于控制狀態(tài),卻也在進(jìn)行人才引進(jìn),所以負(fù)效應(yīng)在不斷減少。可以認(rèn)為,第一主成分基本上反映了北京市人口控制的影響效應(yīng)。
圖3 第一主成分偏離均值函數(shù)的效應(yīng)圖(方差貢獻(xiàn)率37.8%)
圖4 第二主成分偏離均值函數(shù)的效應(yīng)圖(方差貢獻(xiàn)率29.6%)
圖5 第三主成分偏離均值函數(shù)的效應(yīng)圖(方差貢獻(xiàn)率13.9%)
從圖4中可以看出,表示均值的實(shí)線也是比較平穩(wěn)的發(fā)展。從圖中可以看出,第二主成分的正負(fù)效應(yīng)一直處以交替作用中,但是2008年的負(fù)效應(yīng)特別大。我們可以理解為奧運(yùn)會的影響效應(yīng)?;I辦奧運(yùn)會期間,北京市財(cái)政收入加大了對奧運(yùn)場館和環(huán)境建設(shè),減少了對社會保障和就業(yè)的支持。例如,地方財(cái)政中社會保障和就業(yè)支出增速從2006年的47.76下降到2007年的17.33,至2008年的最低點(diǎn)11.09,2008年以后增速就不斷變大。
從圖5中可以看出,第三主成分與第二主成分類似,表示均值的實(shí)線也是比較平穩(wěn)的發(fā)展。第三主成分的正負(fù)效應(yīng)一直處以交替作用中,但是存在兩個(gè)極值點(diǎn)。
第一個(gè)極值點(diǎn)是2001年的負(fù)效應(yīng)特別大,主要是受到新個(gè)人所得稅法的影響。雖然個(gè)人所得稅起征點(diǎn)增加,但是2011年北京市個(gè)人所得稅較2000年增加了17%。第二個(gè)極值點(diǎn)是2004年的正效應(yīng)。由于2004年前北京快速發(fā)展,人口不斷增加,不僅就業(yè)狀況提高,政府也加大了財(cái)政性補(bǔ)貼,導(dǎo)致較大的正效應(yīng)。
從模型的角度來說,通過傅立葉基函數(shù)來建立函數(shù)性主成分(FPCA) 模型,分析1999~2010年北京市居民收入水平??梢钥闯鲈摲椒軌蜉^為準(zhǔn)確的捕捉到北京市居民收入水平的時(shí)間波動特征。
從應(yīng)用的角度來說,綜合考慮就業(yè)的情況、物價(jià)水平和生活成本以及政策性補(bǔ)貼等方面因素的影響后,北京市居民收入水平實(shí)際上保持平穩(wěn)發(fā)展,而不是持續(xù)增長狀態(tài)。北京市居民收入水平主要受人口規(guī)??刂频挠绊?,其次受到奧運(yùn)會和新個(gè)人所得稅的影響。總之,我們不僅僅關(guān)注北京市居民收入的貧富差距,同時(shí)也要提高居民的收入水平。
[1]劉強(qiáng).縱向數(shù)據(jù)下半?yún)?shù)混合效應(yīng)模型的估計(jì).應(yīng)用概率統(tǒng)計(jì),2010.26.4.
[2]Ramsay J O,Dalzell C J.Some tools for functional data analysis[J].Journal of the Royal Statistical Society.Series B (Methodological),1991,53.3.
[3]Brumback B A,Rice J A.Smoothing spline models for the analysis of nested and crossed samples of curves[J].Journal of The American Statistical Association,1998.93.
[4]James G M,Hastie T J,Sugar C A.Principal component models for sparse functional data[J].Biometrika,2000.87.
[5]Girard S.A nonlinear PCA based on manifold approximation [J].Computational Statistics,2000.15.
[6]Cardot H.Nonparametric estimation of smoothed principal components analysis of sampled noisy functions[J].Journal of Nonparameter Statistics,2000.12.
[7]He G Z,Muller H G,Wang J L.Functional data analysis for sparse longitudinal data[J].Journal ofthe American StatisticalAssociation,2005.100.
[8]Ingrassia S,Costanzo G D.In studies in classification,data analysis,and knowledge organization[C].Studies in Classification,Data Analysis,and Know ledge Organization Ed.Eds.;Berlin:Springer Berlin Heidelberg,2005.
[9]岳敏,朱建平.基于函數(shù)型主成分的中國股市波動研究.2009.24.3.
[10]靳劉蕊.函數(shù)性主成分分析的思想、方法和應(yīng)用.2010.301.1.
[11]Ramsay J O,Silverman B W.Functional data analysis[M].New York:SpringerVerlag,Inc.1997.
[12]嚴(yán)明義.函數(shù)性數(shù)據(jù)的統(tǒng)計(jì)分析:思想、方法和應(yīng)用.統(tǒng)計(jì)研究,2007.24.2.