劉 怡, 徐平峰
(長(zhǎng)春工業(yè)大學(xué) 數(shù)學(xué)與統(tǒng)計(jì)學(xué)院, 吉林 長(zhǎng)春 130012)
財(cái)政是實(shí)行宏觀經(jīng)濟(jì)調(diào)控的重要杠桿,探究地方財(cái)政收入發(fā)展變化情況,對(duì)政府而言,能夠幫助其進(jìn)行合理的財(cái)政收支計(jì)劃安排和統(tǒng)籌相應(yīng)的預(yù)算,更好地服務(wù)經(jīng)濟(jì)發(fā)展;對(duì)社會(huì)而言,能夠促進(jìn)社會(huì)公平、穩(wěn)定社會(huì)經(jīng)濟(jì),并提高人民生活幸福程度。因此,對(duì)財(cái)政收入的研究具有十分重要的意義。
一些學(xué)者使用回歸方法對(duì)財(cái)政收入的影響因素進(jìn)行研究,李波等[1]針對(duì)我國(guó)財(cái)政收入可能存在的影響因素,基于LS多元線性回歸模型預(yù)測(cè)中國(guó)財(cái)政收入未來(lái)增長(zhǎng)趨勢(shì)。楊涵等[2]通過(guò)多元線性回歸方法分析了河北省財(cái)政收入影響因素。江星等[3]通過(guò)計(jì)量經(jīng)濟(jì)學(xué)相關(guān)知識(shí),就安徽省財(cái)政收入及其相關(guān)經(jīng)濟(jì)數(shù)據(jù)使用Eviews軟件建立多元回歸模型進(jìn)行計(jì)量經(jīng)濟(jì)學(xué)分析,并提出相關(guān)建議。更多的學(xué)者使用機(jī)器學(xué)習(xí)的方法建立模型,進(jìn)而對(duì)影響因素進(jìn)行探究。倪杰[4]首先利用統(tǒng)計(jì)學(xué)中的變量篩選方法與機(jī)器學(xué)習(xí)中的變量篩選方法分別對(duì)初步選擇的21個(gè)自變量進(jìn)行篩選,然后利用自適應(yīng)Lasso-半?yún)?shù)模型進(jìn)行后續(xù)的預(yù)測(cè)。劉倩[5]為實(shí)現(xiàn)江浙滬財(cái)政收入的預(yù)測(cè),用神經(jīng)網(wǎng)絡(luò)模型來(lái)擬合財(cái)政收入與影響因子之間復(fù)雜的非線性關(guān)系,建立LASSO-RBF、嶺回歸-RBF、彈性網(wǎng)-RBF三個(gè)組合預(yù)測(cè)模型,為江浙滬未來(lái)的經(jīng)濟(jì)發(fā)展提供了重要啟示。連強(qiáng)[6]建立了兼具灰色GM(1,1)模型和多元線性回歸模型優(yōu)點(diǎn)的河南省財(cái)政收入多因素灰色模型,模型預(yù)測(cè)結(jié)果顯示,河南省未來(lái)幾年財(cái)政收入將持續(xù)大幅增加。盧榮偉等[7]利用Adaptive-Lasso變量選擇方法識(shí)別影響財(cái)政收入的關(guān)鍵因素,在此基礎(chǔ)上,建立改進(jìn)的灰色神經(jīng)網(wǎng)絡(luò)預(yù)測(cè)模型,對(duì)南寧市財(cái)政收入值進(jìn)行預(yù)測(cè)。
為預(yù)測(cè)河南省財(cái)政收入變化趨勢(shì),選取1998-2020年間的數(shù)據(jù),根據(jù)相關(guān)資料,選取15個(gè)影響財(cái)政收入(Y)的主要因素:X1為就業(yè)人員數(shù);X2為城鎮(zhèn)非私營(yíng)單位就業(yè)人員年平均工資;X3為社會(huì)消費(fèi)品零售總額;X4為城鎮(zhèn)居民人均可支配收入;X5為城鎮(zhèn)居民人均消費(fèi)性支出;X6為年末總?cè)丝?X7為全社會(huì)固定資產(chǎn)投資增速;X8為地區(qū)生產(chǎn)總值;X9為第一產(chǎn)業(yè)增加值,第一產(chǎn)業(yè)是我國(guó)的基礎(chǔ)產(chǎn)業(yè);X10為第二產(chǎn)業(yè)增加值,第二產(chǎn)業(yè)是指工業(yè)和建筑業(yè);X11為第三產(chǎn)業(yè)增加值,第三產(chǎn)業(yè)是指流通和服務(wù)行業(yè);X12為稅收收入;X13為進(jìn)出口總額;X14為居民消費(fèi)水平總指數(shù);X15為居民消費(fèi)水平。
相關(guān)數(shù)據(jù)來(lái)源于河南省統(tǒng)計(jì)年鑒[8]。
首先對(duì)河南省地方財(cái)政收入及影響因素的原始數(shù)據(jù)進(jìn)行描述性分析,給出了變量數(shù)據(jù)的最小值、最大值、25%臨界值、中位數(shù)、75%臨界值和均值6個(gè)主要統(tǒng)計(jì)量結(jié)果,見表1。
表1 描述性統(tǒng)計(jì)分析結(jié)果
由描述性統(tǒng)計(jì)分析結(jié)果可以看出,從1998-2020年,河南省財(cái)政收入翻了20多倍,從1998年河南發(fā)生特大洪水,經(jīng)濟(jì)遭受重創(chuàng),到2021年河南在全國(guó)率先開展大規(guī)模高標(biāo)準(zhǔn)農(nóng)田建設(shè),黨的十八大以來(lái),河南瞄準(zhǔn)高質(zhì)量發(fā)展主攻方向,三大產(chǎn)業(yè)協(xié)同向中高端邁進(jìn),推進(jìn)河南產(chǎn)業(yè)體系加速形成,再到最后的財(cái)政收入飛速上升,這中間既離不開國(guó)家層面的有效引導(dǎo)和支持,也離不開地方政府的統(tǒng)籌規(guī)劃。除此之外,在眾多影響因素中,城鎮(zhèn)非私營(yíng)單位就業(yè)人員年平均工資(X2),社會(huì)消費(fèi)品零售總額(X3),地區(qū)生產(chǎn)總值(X8),第二產(chǎn)業(yè)增加值(X10),第三產(chǎn)業(yè)增加值(X11),稅收收入(X12),進(jìn)出口總額(X13),居民消費(fèi)水平(X15)也均翻了10倍以上,財(cái)政收入激增的背后是人民生活水平的提高,地方產(chǎn)業(yè)水平的提升,以及消費(fèi)投資的不斷增長(zhǎng),各個(gè)環(huán)節(jié)之間相輔相成,共同促進(jìn)了河南省朝著更富、更強(qiáng)、更美的方向邁進(jìn)。
通過(guò)定性分析對(duì)影響河南省地方財(cái)政收入的因素進(jìn)行了初步探討,但仍然需要對(duì)數(shù)據(jù)進(jìn)行定量的相關(guān)分析,主要利用簡(jiǎn)單的相關(guān)系數(shù)作初步分析,繪制相互兩個(gè)變量之間的熱力圖,如圖1所示。
圖1 兩個(gè)變量之間的熱力圖
由圖1結(jié)果可以得出,全社會(huì)固定資產(chǎn)投資增速(X7)與財(cái)政收入以及其余變量之間的相關(guān)系數(shù)均在[-0.4,0]之間,任意兩個(gè)變量間的相關(guān)性也很小,且變量之間是負(fù)相關(guān)關(guān)系。居民消費(fèi)水平總指數(shù)(X14)與財(cái)政收入以及其余變量之間的相關(guān)系數(shù)也均在[-0.4,0]之間,任意兩個(gè)變量間的相關(guān)性很小,同樣,變量之間是負(fù)相關(guān)關(guān)系。這說(shuō)明二者變量與河南省地方財(cái)政收入之間的關(guān)系不夠強(qiáng),而其余因素變量的相關(guān)系數(shù)較高,與河南省地方財(cái)政收入都表現(xiàn)出高度的相關(guān)關(guān)系。
在最開始進(jìn)行變量選擇時(shí),往往選擇盡可能多的變量,以使得模型預(yù)測(cè)更加準(zhǔn)確,預(yù)測(cè)結(jié)果更具有可靠性與準(zhǔn)確性。但若變量選擇得過(guò)多或者不合理,也會(huì)增加預(yù)測(cè)成本,而變量之間也可能存在多重共線性,導(dǎo)致預(yù)測(cè)結(jié)果不盡如人意,所以,變量的選取至關(guān)重要,需要采用適合的方法進(jìn)行變量的篩選。
作為經(jīng)典的統(tǒng)計(jì)方法之一,多元線性回歸是將兩個(gè)或兩個(gè)以上變量的集合聯(lián)系起來(lái)的最常用的統(tǒng)計(jì)技術(shù)。引入多元線性回歸模型探究因變量(Y)和各個(gè)自變量之間的關(guān)系,由于選取的15個(gè)自變量之間一定存在著高度的多重共線性問題,若直接進(jìn)行擬合,則無(wú)法選出相關(guān)性較強(qiáng)的變量,模型方程也會(huì)因?yàn)榇嬖诟叨鹊亩嘀毓簿€性而存在問題,因此選用逐步回歸的方法先進(jìn)行變量選擇,再使用最小二乘估計(jì)來(lái)求得回歸系數(shù),得出預(yù)測(cè)模型。逐步回歸選取的變量結(jié)果及對(duì)應(yīng)的回歸系數(shù)和檢驗(yàn)P值見表2。
表2 逐步回歸變量選擇結(jié)果
由表2可以看出,逐步回歸選擇出來(lái)的變量是:城鎮(zhèn)居民人均可支配收入(X4)、第二產(chǎn)業(yè)增加值(X10)、第三產(chǎn)業(yè)增加值(X11)、稅收收入(X12)、進(jìn)出口總額(X13)。其中,城鎮(zhèn)居民人均可支配收入(X4)所對(duì)應(yīng)的回歸系數(shù)為-0.034 470,且檢驗(yàn)P值大于0.01,沒有通過(guò)檢驗(yàn);除此之外,其余4個(gè)變量均為正值,且P值檢驗(yàn)的結(jié)果都小于0.01,通過(guò)了顯著性檢驗(yàn)。
回歸診斷結(jié)果如圖2所示。
圖2 回歸診斷結(jié)果
圖2(a)用于驗(yàn)證因變量與自變量是否線性相關(guān),所有的點(diǎn)應(yīng)該均勻地落在[-2,2]之間,而圖中的點(diǎn)落在了[-40,40]之間,遠(yuǎn)超合理范圍,所以認(rèn)為該模型不滿足線性假設(shè)。圖2(b)用于判斷因變量是否呈正態(tài)分布,當(dāng)自變量值固定時(shí),若因變量滿足正態(tài)假設(shè),則殘差值也應(yīng)該是一個(gè)均值為0的正態(tài)分布,正態(tài)Q-Q圖是在正態(tài)分布情況下的標(biāo)準(zhǔn)化殘差概率圖,可以看出圖上的點(diǎn)基本都落在呈45°角的直線上,滿足正態(tài)假設(shè)。圖2(c)用于驗(yàn)證同方差性,可以看出水平線周圍的點(diǎn)在前半部分更密集,在后半部分更稀疏,并沒有十分均勻地隨機(jī)分布,所以認(rèn)為該模型不滿足同方差假設(shè)。圖2(d)用于判斷是否存在離群點(diǎn)、高杠桿點(diǎn)和強(qiáng)影響點(diǎn),通過(guò)Cook可以看出,存在Cook距離大于0.3的點(diǎn),即有強(qiáng)影響點(diǎn)。
綜上所述,在建立多元線性回歸模型中,篩選出來(lái)的變量X4不通過(guò)顯著性檢驗(yàn),整個(gè)模型不通過(guò)線性檢驗(yàn)和同方差檢驗(yàn),并且存在強(qiáng)影響點(diǎn),所以認(rèn)為該模型的建立不合理,接下來(lái)將使用其他方法來(lái)建立新的模型。
嶺回歸分析法是通過(guò)犧牲估計(jì)的無(wú)偏性來(lái)?yè)Q取估計(jì)方差的大幅減小,以修正最小二乘法在多重共線情況下的估計(jì)效果[9]。嶺回歸與多元線性回歸的最大不同是,多元線性回歸對(duì)變量使用最小二乘估計(jì)的方法求得回歸系數(shù),而嶺回歸是在最小二乘估計(jì)的基礎(chǔ)上加了一個(gè)L2懲罰項(xiàng),其中包括一個(gè)嶺回歸參數(shù)k。
建立嶺回歸模型的關(guān)鍵點(diǎn)在于確定好嶺回歸參數(shù),這個(gè)嶺回歸參數(shù)稱為最佳嶺回歸參數(shù),它是通過(guò)嶺跡圖來(lái)判斷的。首先,對(duì)樣本數(shù)據(jù)進(jìn)行標(biāo)準(zhǔn)化處理,然后畫出嶺跡圖,根據(jù)跡圖確定最佳嶺回歸參數(shù)k,結(jié)果如圖3所示。
圖3 嶺跡圖
圖3中橫軸表示嶺參數(shù)k,縱軸表示嶺回歸系數(shù),取不同的k值,對(duì)應(yīng)不同的嶺回歸系數(shù),一般k的取值范圍是0到1,當(dāng)k取0時(shí),對(duì)應(yīng)的嶺回歸系數(shù)就是普通線性回歸中通過(guò)最小二乘估計(jì)得到的回歸系數(shù),隨著k的增大,模型對(duì)共線性處理的效果越來(lái)越好,但是擬合精度會(huì)有所下降,因此必須找好平衡點(diǎn),確定出最佳嶺回歸參數(shù)。
綜上所述,根據(jù)最佳嶺回歸參數(shù)的選取原則,即在嶺軌跡變化趨于穩(wěn)定時(shí)選取其最小值,最終決定選擇最佳嶺回歸參數(shù)的取值為0.1。
通過(guò)R軟件得出在最佳嶺回歸參數(shù)確定下的模型方程的各自變量對(duì)應(yīng)的嶺回歸系數(shù),見表3。
表3 嶺回歸變量的回歸系數(shù)
由于將數(shù)據(jù)進(jìn)行了標(biāo)準(zhǔn)化,所以模型中不含截距項(xiàng)。
得到模型方程后,將數(shù)據(jù)代入得到每一年份河南省財(cái)政收入的估計(jì)值,然后與真實(shí)值作對(duì)比,得到的真實(shí)值與擬合值如圖4所示。
圖4 真實(shí)值與擬合值(嶺回歸)
通過(guò)圖4可以發(fā)現(xiàn),估計(jì)值與真實(shí)值之間的擬合效果還是不錯(cuò)的,這表明通過(guò)嶺回歸建立的模型方程可以用于實(shí)際預(yù)測(cè),當(dāng)給出新一年自變量的取值后,可以拿來(lái)預(yù)測(cè)該年份對(duì)應(yīng)的河南省財(cái)政收入的值。
Lasso是一種常用的同時(shí)估計(jì)和變量選擇的技術(shù),相對(duì)于嶺回歸方法的優(yōu)點(diǎn)在于可以做變量選擇,Adaptive-Lasso方法是在進(jìn)行運(yùn)算的過(guò)程中將不同的懲罰給予不同的變量,變量不重要,懲罰就大;變量越重要,懲罰越小[10]。因此可以很容易地選擇重要的變量,而不重要的變量就會(huì)被剔除,從而達(dá)到變量選擇的目的,而同時(shí)也能對(duì)變量進(jìn)行參數(shù)估計(jì),這就在根本上改進(jìn)了Lasso方法,Adaptive-Lasso 方法在彌補(bǔ)其不足的基礎(chǔ)上具有更廣泛的應(yīng)用前景[11]。
通過(guò)R軟件調(diào)用Lasso包,得到的選擇變量結(jié)果及系數(shù)見表4。
表4 自適應(yīng)Lasso的變量選擇結(jié)果
由表4可以發(fā)現(xiàn),某些自變量的系數(shù)被壓縮成0,可以將這些被壓縮成0的系數(shù)所對(duì)應(yīng)的自變量從模型中剔除出去,將剩余的變量納入到模型中。地區(qū)生產(chǎn)總值與第一產(chǎn)業(yè)、第二產(chǎn)業(yè)、第三產(chǎn)業(yè)齊頭并進(jìn),共同決定和衡量河南省地區(qū)的財(cái)政收入水平。
灰色預(yù)測(cè)檢驗(yàn)一般有殘差檢驗(yàn)、關(guān)聯(lián)度檢驗(yàn)和后驗(yàn)差檢驗(yàn)。這里采用后驗(yàn)差檢驗(yàn),根據(jù)后驗(yàn)差檢驗(yàn)判別標(biāo)準(zhǔn)表檢驗(yàn)各變量預(yù)測(cè)好壞。當(dāng)計(jì)算結(jié)果C<0.35時(shí),表示模型精度好;當(dāng)0.35
由表5結(jié)果發(fā)現(xiàn),通過(guò)自適應(yīng)Lasso選取的4個(gè)變量中,針對(duì)X8(地區(qū)生產(chǎn)總值),X9(第一產(chǎn)業(yè)增加值),X11(第三產(chǎn)業(yè)增加值)計(jì)算出的C值均小于0.35,所以對(duì)預(yù)測(cè)模型的精度是好的,只有變量X10(第二產(chǎn)業(yè)增加值)計(jì)算出的C值是0.469,大于0.35,但是依舊小于0.50,可以判斷是合格的。
綜上所述,通過(guò)灰色模型檢驗(yàn)判斷,可以將通過(guò)自適應(yīng)Lasso篩選出來(lái)的變量全部放到模型中。
通過(guò)自適應(yīng)Lasso模型得出每一年的河南省財(cái)政收入分析的估計(jì)值,同樣將其與真實(shí)值作對(duì)比,得到擬合結(jié)果如圖5所示。
圖5 真實(shí)值與擬合值(自適應(yīng)Lasso)
從圖5可以看出,通過(guò)神經(jīng)預(yù)測(cè)模型得到各期的估計(jì)值與真實(shí)值之間很接近,兩條直線幾乎重疊,表明擬合效果較好。
單從兩條曲線的擬合度來(lái)看,自適應(yīng)Lasso擬合的結(jié)果會(huì)比嶺回歸擬合的結(jié)果更好,但為了進(jìn)一步說(shuō)明,文中通過(guò)RMSE準(zhǔn)則來(lái)判斷,即計(jì)算兩個(gè)模型的均方根誤差,結(jié)果見表6。
表6 模型比較
通過(guò)計(jì)算結(jié)果發(fā)現(xiàn),使用自適應(yīng)Lasso進(jìn)行變量選取來(lái)建立模型,得到模型結(jié)果的均方根誤差要小得多。
綜上所述,在針對(duì)河南省財(cái)政收入的分析所建立的模型中,最終選擇了后者。