何雪平+李興緒
[摘要]文章以1994—2015年為樣本區(qū)間,選取《云南省統(tǒng)計年鑒》和《中國統(tǒng)計年鑒》中的17個相關(guān)經(jīng)濟指標數(shù)據(jù)作為研究對象。運用SCAD方法選擇出云南省財政收入的主要影響因素,并與逐步回歸方法的結(jié)果進行對比。結(jié)果表明:①由10折交叉驗證的均方誤差值可知,SCAD方法的預測精度優(yōu)于逐步回歸方法;②在處理多重共線性的問題時,SCAD方法比逐步回歸更有優(yōu)勢;③在SCAD方法下,對云南省財政收入有影響的經(jīng)濟指標有:財政支出、進出口總額、旅游業(yè)總收入、卷煙產(chǎn)值、年末總?cè)丝凇?/p>
[關(guān)鍵詞]財政收入;逐步回歸;SCAD;變量選擇
[DOI]1013939/jcnkizgsc201719047
1引言
十八屆三中全會提出,財政是國家治理的基礎(chǔ)和重要支柱,科學的財稅體制是優(yōu)化資源配置、維護市場統(tǒng)一、促進社會公平、實現(xiàn)國家長治久安的制度保障。財政收入不僅是衡量政府財力的指標,而且是政府履行公共職能的資金來源。1994年我國開始實行分稅制財政管理制度,地方政府可以因地制宜、因時制宜地決定立法、開征、停征、減稅、免稅,確定稅率和征收范圍。因此,地方財政收入的影響因素不盡相同,研究不同地域的財政收入影響因素是促進各地方經(jīng)濟長期平穩(wěn)的增長的基礎(chǔ)。
對于現(xiàn)階段已有的財政收入影響因素的研究,學者們從不同的角度出發(fā),研究出了很多豐富的成果。楊蕾(2012)[1]通過逐步回歸方法得出我國稅收高增長的主要影響因素有財政支出總額、貨物進出口總額以及零售商品價格指數(shù);張恩銓(2015)[2]通過回歸分析得到影響新疆地區(qū)財政收入的主要因素為稅收和固定資產(chǎn)投資;余力(2015)[3]在模型自變量中加入人口自然增長率,運用多元統(tǒng)計分析方法確定影響中國財政收入的主要因素有GDP、稅收和人口自然增長率;闞躍(2013)[4]通過建立降維后的主成分與江蘇省財政收入之間的線性模型,得到重要的影響因素是工業(yè)總產(chǎn)值和進出口總額;何鄧嬌(2014)[5]應用VAR模型分析出影響廣州市財政收入的主要因素是GDP和稅收收入。
以上文章均是通過分析財政收入的經(jīng)濟理論或者總結(jié)已有研究并結(jié)合地區(qū)實際情況來選取4~5個變量,然后構(gòu)建財政收入與各待定影響因素間的多元線性回歸模型,確定顯著變量作為財政收入的主要影響因素。[6]第一,在通過理論或文獻選取模型變量的時候,可能存在學者的主觀影響和考慮不全面的情況,如果變量選擇得太少、不恰當或者是加入了對財政收入影響很小甚至是沒有影響的變量,會使得構(gòu)建的回歸模型效果不好或者計算量大且估計精度降低,對實際政策的制定也沒有指導意義了。第二,多元線性回歸模型是通過普通最小二乘方法來估計回歸系數(shù),而普通最小二乘估計求得的解往往是局部最優(yōu)解。[6]第三,對于財政收入與各待定影響因素間的多元線性回歸模型,可能存在多重共線性的問題,而用逐步回歸方法來解決多重共線性問題時去掉一些變量后也會失去部分數(shù)據(jù)信息,必定會使模型的預測精度受損。[7]因此,需要找到一種更加科學、更加客觀的變量選擇模型。
針對以上方法的缺陷,Tibshirani(1996)[8]提出了一種全新的變量選擇方法—Lasso方法,其思想是在最小二乘方法的基礎(chǔ)上,增加了L1懲罰項,這樣就同時實現(xiàn)了變量篩選和參數(shù)估計;Efron(2004)[9]提出了最小角回歸算法,解決了Lasso方法的計算問題;Lasso方法的優(yōu)勢在于計算過程是有順序且連續(xù)的且能處理變量間的多重共線性問題,劣勢在于對所有的變量施加相同的懲罰,估計量是有偏的,不滿足Oracle性質(zhì)(變量選擇的稀疏性、連續(xù)性和無偏性)。為了彌補Lasso方法的缺陷,Zou(2006)[10]提出了適應性Lasso(Adaptive Lasso)方法,即加入了懲罰權(quán)重;Fan和Li(2011)[11]針對Lasso過程中系數(shù)過度壓縮的問題提出了SCAD(smoothly clipped absolute deviation)懲罰方法。
從理論上來說,Adaptive Lasso方法和SCAD方法是相對較科學的變量選擇方法,且均滿足Oracle性質(zhì)。本文基于云南省1994—2015年的相關(guān)統(tǒng)計數(shù)據(jù),在模型中加入所有可能的影響因素作為解釋變量,運用SCAD方法選擇出云南省財政收入的主要影響因素,并與逐步回歸方法的結(jié)果進行對比。
2研究方法介紹
21逐步回歸方法簡介
逐步回歸方法的主要目的是在自變量很多時,選取一個自變量的子集,使得最終的模型既簡單且對樣本數(shù)據(jù)的擬合較好。[7]其方法為逐步放入和移出變量,直到?jīng)]有合適的理由繼續(xù)下去為止,有“向前”“向后”和“雙向”的逐步回歸選項。向前逐步回歸是從只有截距項的模型開始,逐個增加變量;向后逐步回歸是從具有全部自變量的模型開始,逐個減少變量;雙向逐步回歸是不斷增減變量。各軟件的默認方法不同,準則也不同,有些軟件根據(jù)自變量的t檢驗的p值來決定是否取舍,有些軟件則使用AIC準則來決定。本文使用R軟件中的step()函數(shù),其默認值為“雙向”及利用AIC準則來選擇模型。
22Lasso族方法簡介
3數(shù)據(jù)來源、經(jīng)濟指標選擇及說明
31數(shù)據(jù)來源說明
由于1994年我國開始實行分稅制財政管理制度,因此,本文以1994—2015年為樣本區(qū)間,選取《云南省統(tǒng)計年鑒》和《中國統(tǒng)計年鑒》中的相關(guān)經(jīng)濟指標數(shù)據(jù)作為研究對象。
32經(jīng)濟指標選擇
早期的研究主要停留在財政收入與國內(nèi)生產(chǎn)總值(GDP)的關(guān)系研究上,但是從實際數(shù)據(jù)來看,云南省財政收入的增長速度波動很大,其與云南省GDP的增長速度變化并不是完全同步的。在2005年前后,云南省財政收入的增長速度是先上升后下降的趨勢,而云南省GDP增長速度是先下降后上升。因此,僅僅將GDP作為財政收入的主要影響因素是不符合實際的。如圖1所示。
文章基于科學、客觀的原則來選擇構(gòu)建模型的變量。被解釋變量為云南省財政收入(Y,單位:億元),即一般預算財政收入,包括稅收收入和納入一般預算管理的非稅收收入。在對現(xiàn)有的研究和相關(guān)理論分析的基礎(chǔ)上,本文選取的解釋變量盡可能包括所有對云南省財政收入有影響的統(tǒng)計指標,具體有:GDP、稅收收入、財政支出、固定資產(chǎn)投資額、社會消費品零售總額、進出口總額、年末總?cè)丝?、人口自然增長率、社會就業(yè)人數(shù)、居民消費價格指數(shù)、在崗職工工資總額、第一產(chǎn)業(yè)增加值、第二產(chǎn)業(yè)增加值、第三產(chǎn)業(yè)增加值、卷煙產(chǎn)值、旅游業(yè)總收入、煤炭消費總量。
33經(jīng)濟指標說明
331經(jīng)濟指標選擇的依據(jù)
GDP(X1):國內(nèi)生產(chǎn)總值,表示經(jīng)濟發(fā)展水平,對地方財政收入有影響。單位:億元。
稅收收入(X2):是地方財政收入的重要來源。單位:億元。
財政支出(X3):能帶動地方經(jīng)濟增長,而地方財政收入離不開經(jīng)濟增長。[2]單位:億元。
固定資產(chǎn)投資額(X4):政府主要通過投資來拉動經(jīng)濟增長,從而帶動財政收入增加。[2]單位:億元。
社會消費品零售總額(X5):代表社會的整體消費情況,消費增長時,會引起經(jīng)濟系統(tǒng)中某些方面的變動,最終導致財政收入的增長。[6]單位:億元。
進出口總額(X6):該因素帶來的影響主要是來自關(guān)稅收入,其是政府稅收的重要組成部分,從而影響財政收入。[1]單位:億元。
年末總?cè)丝冢╔7):在地方經(jīng)濟發(fā)展水平既定的條件下,人均地方財政收入與地方人口總數(shù)呈反比例變化。[6]單位:萬人。
人口自然增長率(X8):據(jù)統(tǒng)計,越是落后的地區(qū),人口自然增長率越高,越是阻礙社會經(jīng)濟的發(fā)展,從而影響財政收入。[6]云南省位于我國西南地區(qū),屬于欠發(fā)達地區(qū),因此,需要考慮人口自然增長率對財政收入的影響。單位:‰。
社會就業(yè)人數(shù)(X9):社會就業(yè)人數(shù)越多,地方經(jīng)濟發(fā)展水平越高,從而促進地方財政收入增加。單位:萬人。
居民消費價格指數(shù)(X10):英文縮寫為CPI,是根據(jù)與居民生活有關(guān)的產(chǎn)品及勞務(wù)價格統(tǒng)計出來的物價變動指標。由于價格變動是財政收入變化的影響因素之一,因此選取居民消費價格指數(shù)作為模型變量。[12]
在崗職工工資總額(X11):指某一國家或地區(qū)在一定時期內(nèi),以貨幣或?qū)嵨镄问街苯又Ц督o全部在崗職工的勞動報酬總額。在崗職工工資總額中的一部分會作為稅收,組成財政收入的一部分。單位:億元。
第一、二、三產(chǎn)業(yè)增加值(X12、X13、X14):三次產(chǎn)業(yè)的增加值都代表著國民經(jīng)濟水平,產(chǎn)業(yè)結(jié)構(gòu)的變化會對財政收入產(chǎn)生影響。單位:億元。
卷煙產(chǎn)值、旅游業(yè)總收入、煤炭消費總量(X15、X16、X17):卷煙、旅游、礦產(chǎn)作為云南省特有的支柱產(chǎn)業(yè),是政府稅收收入的主要來源,對財政收入有一定的影響。[13]旅游業(yè)總收入單位為:億元。煤炭消費總量單位為:萬噸標準煤。
332特殊經(jīng)濟指標的計算
根據(jù)有關(guān)規(guī)定,卷煙實行從價、從量雙重征稅標準,即對卷煙征稅既與卷煙的產(chǎn)量有關(guān),又與卷煙的產(chǎn)值有關(guān)。但在《云南省統(tǒng)計年鑒》上只有卷煙的產(chǎn)量,沒有具體產(chǎn)值。因此,本文中卷煙產(chǎn)值的計算公式為:卷煙產(chǎn)值=產(chǎn)量×商品零售價格總指數(shù)。同時,為了數(shù)據(jù)的統(tǒng)一,保證數(shù)值的可比性,把商品零售價格總指數(shù)均換算為以1994年為基期。[13]
煤炭征收從量稅,且以實際的銷售數(shù)量和自用數(shù)量為征稅依據(jù),不是指生產(chǎn)數(shù)量,故選取煤炭消費總量為計稅依據(jù)。[13]結(jié)合《云南省統(tǒng)計年鑒》中數(shù)據(jù)的可得性,煤炭消費總量計算公式為:煤炭消費總量=能源消費總量×煤炭所占比例。
4模型建立
41多重共線性檢驗
411經(jīng)濟指標間的相關(guān)性檢驗
在實踐中,若某些解釋變量間的相關(guān)系數(shù)高(絕對值高于08或09),則表明多重共線性存在。多重共線性的存在,可能導致各共線變量參數(shù)的OLS估計值方差很大,即估計值的精度很低;由于若干個解釋變量共線,則單個解釋變量對被解釋變量的影響無法確定;各共線變量系數(shù)估計量的t值低,使得犯第(2)類錯誤的可能性增加,容易將本應保留在模型中的解釋變量舍棄。[15]
圖2各變量的相關(guān)系數(shù)矩陣
注:矩陣圖左下半部分表示各變量間的相關(guān)系數(shù);右上半部分圖示表示變量間的相關(guān)性及t檢驗的P值,其中,“×”表示P值大于005,“○”的形狀和顏色表示參數(shù)間相關(guān)性的大小,下同。
由圖2可知,除了居民消費價格指數(shù)(X10)外,其他解釋變量間的相關(guān)性t檢驗的P值均小于005。說明在5%的顯著性水平下,除居民消費價格指數(shù)外,其余解釋變量間存在顯著相關(guān)關(guān)系。此外,其余解釋變量間相關(guān)系數(shù)絕對值絕大多數(shù)大于08,表明可能存在多重共線性。
412多重共線性檢驗
通過R軟件中的kappa()函數(shù)可以得到條件數(shù)k為224×105,遠遠大于1000,則模型存在嚴重的多重共線性。因此,不能通過建立簡單的多元回歸模型進行財政收入影響因素分析。常用的處理多重共線性問題的經(jīng)典方法有:逐步回歸、嶺回歸、Lasso回歸等。[7]
42模型分析
421指標及數(shù)據(jù)處理
各經(jīng)濟指標單位不盡相同,為了消除不同變量間由量綱差異帶來的影響,對數(shù)據(jù)進行中心化和標準化處理。由圖2所示,居民消費價格指數(shù)(X10)與財政收入(Y)的相關(guān)性不顯著,在后續(xù)建模分析中不考慮該經(jīng)濟指標。
422變量選擇結(jié)果對比
本文采用逐步回歸方法和SCAD方法分別對可能對云南省財政收入有影響的經(jīng)濟指標進行變量選擇,篩選出對財政收入影響較大的經(jīng)濟指標,所得經(jīng)濟指標的系數(shù)估計值如表1所示:
由表1可知,運用逐步回歸方法和SCAD方法篩選對財政收入影響較大的經(jīng)濟指標的結(jié)果有很大差異。SCAD方法回歸系數(shù)隨相應調(diào)整參數(shù)變化的軌跡圖如圖3所示。樣本數(shù)據(jù)經(jīng)過標準化處理后,逐步回歸法和SCAD方法(滿足Oracle性質(zhì):變量選擇的稀疏性、連續(xù)性和無偏性)均可通過系數(shù)估計值的絕對值大小對重要參數(shù)進行排序。逐步回歸方法下,選擇的顯著性經(jīng)濟指標按重要性排序為:第三產(chǎn)業(yè)增加值(X14)、稅收收入(X2)、社會消費品零售總額(X5)、第二產(chǎn)業(yè)增加值(X13)、固定資產(chǎn)投資額(X4)、人口自然增長率(X8);SCAD方法選擇的經(jīng)濟指標按重要性排序為:財政支出(X3)、進出口總額(X6)、旅游業(yè)總收入(X16)、卷煙產(chǎn)值(X15)、年末總?cè)丝冢╔7)。
423模型預測精度對比
針對兩種模型結(jié)果差異較大的情況,分別運用10折交叉驗證方法比較模型的預測精度。將數(shù)據(jù)觀測值大致分為10等份,然后輪流以其中的所有可能的9份為訓練集,用來擬合數(shù)據(jù),剩下1份為測試集,一共計算10次,得到擬合測試集時的均方誤差(NMSE)的10個指標,再做平均。兩種模型的均方誤差值見表2。
表2說明在對財政收入的影響因素進行研究時,對于存在多重共線性的情況,SCAD方法的預測精度明顯優(yōu)于逐步回歸法。
424SCAD方法變量選擇結(jié)果分析
由模型結(jié)果可知,SCAD方法選擇的經(jīng)濟指標按重要性排序為:財政支出、進出口總額、旅游業(yè)總收入、卷煙產(chǎn)值、年末總?cè)丝?。云南省屬于欠發(fā)達區(qū)域,投資是政府財政支出的重要部分,通過投資拉動地區(qū)經(jīng)濟增長和居民消費,同時使政府增加稅收來源,從而增加財政收入;進出口總額與云南省財政收入呈正相關(guān),進出口總額的增加會帶來財政收入的增加;旅游業(yè)和卷煙作為云南省特有的支柱產(chǎn)業(yè),對財政收入具有正向影響;云南省年末總?cè)丝趯ω斦杖氘a(chǎn)生正向影響。
5結(jié)論
文章基于1994年至2015年的宏觀經(jīng)濟數(shù)據(jù),運用逐步回歸方法、SCAD方法分別對影響云南省財政收入的經(jīng)濟指標進行建模分析,結(jié)果如下:①由10折交叉驗證的均方誤差值可知,SCAD方法的預測精度優(yōu)于逐步回歸方法;②在處理多重共線性的問題時,SCAD方法比逐步回歸更有優(yōu)勢;③在SCAD方法下,對云南省財政收入有影響的經(jīng)濟指標有:財政支出、進出口總額、旅游業(yè)總收入、卷煙產(chǎn)值、年末總?cè)丝凇?/p>
參考文獻:
[1]楊蕾我國財政收入高增長的影響因素分析——基于1978—2011年的經(jīng)濟數(shù)據(jù)[D].廈門:廈門大學,2012(5).
[2]張恩銓新疆地區(qū)財政收入影響因素的實證分析[J].經(jīng)濟論壇,2015(5):26-30
[3]余力中國財政收入影響因素的統(tǒng)計分析[J].青海大學學報,2015,33(3):90-100
[4]闞躍影響江蘇省財政收入因素的主成分分析[J].江蘇經(jīng)貿(mào)職業(yè)技術(shù)學院學報,2013(5):9-12
[5]何鄧嬌廣州市財政收入影響因素的實證研究——基于VAR模型分析[J].經(jīng)濟研究導刊,2014(15):104-106
[6]陳庚,盧丹丹,萬浩文,等廣州市財政收入分析及預測模型[J].統(tǒng)計學與應用,2015,4(3):187-195
[7]吳喜之應用回歸及分類——基于R[M].北京:中國人民大學出版社,2016
[8]Tibishirani RRegression Shrinkage and Selection via the lasso[J].Journal of the Royal Statistical Society:Sedes B,1996,58(1):267-288
[9]Efron B,Hastie T,Johnstonl,et alLeast angle regression[J].Annals of Statistics,2004,32(2):407-409
[10]Zou HThe Adaptive lasso and its oracle properties[J].Journal of the American Statistical Association,2006,101(476):1418-1429
[11]Fan J,Li RVariable selection via Nonconcave penalized likelihood and its Oracle properties[J].Journal of the American Statistical Association,2011,96(458):1348-1360
[12]張玉琴地區(qū)財政收入影響因素的實證分析——以淮南市為例[J].銅陵學院學報,2013(4):41-44
[13]李嫦珍云南省稅收影響因素的實證分析[D].北京:對外經(jīng)濟貿(mào)易大學,2009(5).
[14]吳喜之復雜數(shù)據(jù)統(tǒng)計方法——基于R的應用[M].北京:中國人民大學出版社,2012
[15]潘省初計量經(jīng)濟學中級教程[M].北京:清華大學出版社,2013
[基金項目]西部民族地區(qū)農(nóng)村勞動力轉(zhuǎn)移培訓效應及政策優(yōu)化研究——以云南民族地區(qū)為例(項目編號:71263055)。
[作者簡介]何雪平(1991—),女,云南財經(jīng)大學數(shù)量經(jīng)濟學專業(yè)研究生。研究方向:統(tǒng)計建模、數(shù)據(jù)分析;李興緒,男,云南財經(jīng)大學云南省經(jīng)濟社會大數(shù)據(jù)研究院院長,博士生導師。研究方向:經(jīng)濟統(tǒng)計。