◎文/張雨乾
財(cái)政是國(guó)家治理的基礎(chǔ)和重要支柱,財(cái)政收入作為財(cái)政管理的重要內(nèi)容,地區(qū)財(cái)政收入的增加或減少對(duì)于財(cái)政支出有極其重要的影響,穩(wěn)定的、可預(yù)期的財(cái)政收入對(duì)于政府機(jī)構(gòu)運(yùn)轉(zhuǎn)、教育醫(yī)療養(yǎng)老等社會(huì)民生領(lǐng)域有著極其重要的作用。2015年國(guó)務(wù)院就印發(fā) 《關(guān)于實(shí)行中期財(cái)政規(guī)劃管理的意見》,要求加快建立現(xiàn)代財(cái)政制度、改進(jìn)預(yù)算管理和控制,全面推進(jìn)中期財(cái)政規(guī)劃管理,研究未來三年涉及財(cái)政收支的重大改革和政策事項(xiàng),并測(cè)算收支數(shù)額??茖W(xué)合理地對(duì)財(cái)政收入進(jìn)行預(yù)測(cè),有助于準(zhǔn)確把握未來的財(cái)政收入,建立合理的預(yù)期,可以更加合理、有效地安排財(cái)政支出計(jì)劃,實(shí)現(xiàn)財(cái)政業(yè)務(wù)的精細(xì)化管理,有效促進(jìn)跨年度的預(yù)算平衡。
鑒于財(cái)政收入對(duì)于國(guó)計(jì)民生的重要性,不少學(xué)者都對(duì)此進(jìn)行了研究,取得了不少成果。謝珊、汪盧?。?015)將當(dāng)前財(cái)政收入預(yù)測(cè)方法歸納為三類:一是利用宏觀經(jīng)濟(jì)數(shù)據(jù)與財(cái)政收入數(shù)據(jù)構(gòu)建的線性回歸模型。二是采用當(dāng)前先進(jìn)的灰色關(guān)聯(lián)模型、BP神經(jīng)網(wǎng)絡(luò)、支持向量機(jī)等模型進(jìn)行預(yù)測(cè)。三是利用財(cái)政收入數(shù)據(jù)進(jìn)行預(yù)測(cè)的時(shí)間序列模型。除此之外,還指出對(duì)中期預(yù)算框架下我國(guó)財(cái)政收入預(yù)測(cè)應(yīng)充分考慮可能存在的非線性模型。王華春、劉清杰(2017)運(yùn)用格蘭杰因果檢驗(yàn)發(fā)現(xiàn)中國(guó)的財(cái)政收支存在長(zhǎng)期均衡并且收入引起支出,符合以收定支的預(yù)算編制原則,利用ARIMA模型對(duì)中國(guó)財(cái)政收入進(jìn)行了預(yù)測(cè)。安秀梅、肖堯(2017)采用主成分分析、時(shí)間序列、組合預(yù)測(cè)模型等模型對(duì)北京市的財(cái)政收入進(jìn)行了預(yù)測(cè)。蔣鋒、張婷、 周琰玲 (2018) 運(yùn)用Lasso-GRNN神經(jīng)網(wǎng)絡(luò)模型對(duì)青海省海西州的財(cái)政收入進(jìn)行實(shí)證分析,首先運(yùn)用Lasso選取自變量,之后運(yùn)用GRNN神經(jīng)網(wǎng)絡(luò)模型進(jìn)行預(yù)測(cè),取得了較好的預(yù)測(cè)效果。
綜合上述文獻(xiàn),本文通過Lasso方法選取影響天津市財(cái)政收入的主要變量,采用XGBboost模型進(jìn)行財(cái)政收入預(yù)測(cè)。
本文使用數(shù)據(jù)來源于國(guó)家統(tǒng)計(jì)局主要城市年度數(shù)據(jù)以及2021年天津統(tǒng)計(jì)年鑒,其中地方一般公共預(yù)算收入(income)數(shù)據(jù)時(shí)間范圍為2002—2021年,其他變量的時(shí)間范圍為2001—2020年。表1為變量統(tǒng)計(jì)性描述。
表1 變量統(tǒng)計(jì)性描述
Lasso方法是一種壓縮估計(jì),Lasso回歸可以使得一些變量系數(shù)變小,甚至一些絕對(duì)值較小的系數(shù)變?yōu)?,可以較好地解決變量間的多重共線性,特別適合變量篩選。因此本文采用Lasso回歸方法來選擇自變量,減少變量個(gè)數(shù),解決變量間的多重共線性問題。
表2為L(zhǎng)asso回歸的結(jié)果,去除Lasso回歸系數(shù)小于等于0.01的變量,選取其中13個(gè)變量作為影響天津市財(cái)政收入的主要影響因素,分別是國(guó)內(nèi)生產(chǎn)總值、常住年末總?cè)丝?、在崗職工平均工資、房地產(chǎn)開發(fā)投資額、地方一般公共預(yù)算支出、城鄉(xiāng)居民儲(chǔ)蓄年末余額、郵政局(所)數(shù)、固定電話用戶數(shù)、社會(huì)商品零售總額、貨物進(jìn)出口總額、普通本??茖W(xué)生、居民消費(fèi)價(jià)格指數(shù)、R&D經(jīng)費(fèi)支出。
表2 Lasso回歸系數(shù)
XGBoost基于梯度提升決策樹,是一個(gè)優(yōu)化的分布式梯度增強(qiáng)庫,可以快速準(zhǔn)確地解決許多數(shù)據(jù)科學(xué)問題,主要是用來解決監(jiān)督學(xué)習(xí)問題,目前已經(jīng)在眾多機(jī)器學(xué)習(xí)和數(shù)據(jù)挖掘比賽中得到廣泛認(rèn)可(ChenT,Guestrin C,2016)。
XGBoost的目標(biāo)函數(shù):
目標(biāo)函數(shù)包含兩個(gè)部分:訓(xùn)練誤差和正則化。第一部分訓(xùn)練誤差 l是一個(gè)可導(dǎo)的凸損失函數(shù),測(cè)量預(yù)測(cè)值與實(shí)際值yi之間的差。為模型對(duì)訓(xùn)練樣本的預(yù)測(cè)值,yi為訓(xùn)練樣本的真實(shí)值。第二部分Ω為正則化項(xiàng),定義了模型的復(fù)雜程度。其中,γ和λ為人工設(shè)置的參數(shù),ω為決策樹所有葉子節(jié)點(diǎn)值形成的向量,T為葉子節(jié)點(diǎn)數(shù)。
首先將樣本數(shù)據(jù)分為兩部分,一部分為訓(xùn)練數(shù)據(jù),一部分為測(cè)試數(shù)據(jù)。之所以將樣本數(shù)據(jù)分為兩部分,原因在于防止出現(xiàn)過度擬合現(xiàn)象。如果將全部樣本都用XGBoost算法進(jìn)行迭代訓(xùn)練,得出的預(yù)測(cè)模型對(duì)于樣本數(shù)據(jù)當(dāng)然是最優(yōu)的預(yù)測(cè)也是最準(zhǔn)確的,但是如果將樣本之外新的數(shù)據(jù)代入這一預(yù)測(cè)模型,得到的財(cái)政收入預(yù)測(cè)值是否接近真實(shí)數(shù)據(jù),則是值得懷疑的。因此通過提取一部分樣本作為訓(xùn)練數(shù)據(jù),經(jīng)過算法迭代得到最佳的財(cái)政收入預(yù)測(cè)模型,再通過測(cè)試數(shù)據(jù)代入模型來驗(yàn)證財(cái)政收入預(yù)測(cè)模型的有效性,可以極大地提高財(cái)政收入預(yù)測(cè)模型的可信性和適用性。
訓(xùn)練數(shù)據(jù)主要目的是通過XGBoost算法進(jìn)行迭代訓(xùn)練得到財(cái)政收入預(yù)測(cè)模型。選取2001—2017年自變量數(shù)據(jù)以及 2002—2018年財(cái)政收入數(shù)據(jù)作為訓(xùn)練數(shù)據(jù),通過訓(xùn)練得到財(cái)政收入的預(yù)測(cè)模型。由于模型主要目標(biāo)是財(cái)政收入預(yù)測(cè),如果同時(shí)使用同一年的自變量和因變量進(jìn)行模型訓(xùn)練,無法實(shí)現(xiàn)預(yù)測(cè)下一年財(cái)政收入的作用,除此之外部分自變量還缺少2021年數(shù)據(jù),因此對(duì)財(cái)政收入變量采取滯后一期進(jìn)行分析。比如使用2018年財(cái)政收入代替原來樣本中的2017年財(cái)政收入數(shù)據(jù)作為因變量,而自變量還是使用2017年數(shù)據(jù);2017年財(cái)政數(shù)據(jù)代替2016年財(cái)政收入數(shù)據(jù),以此類推,這樣通過訓(xùn)練得到的模型可以進(jìn)行下一年度的財(cái)政收入預(yù)測(cè)。
訓(xùn)練數(shù)據(jù)使用XGBoost算法進(jìn)行迭代訓(xùn)練,訓(xùn)練目標(biāo)是使得模型預(yù)測(cè)值最接近實(shí)際的財(cái)政收入。
表3為當(dāng)財(cái)政收入的預(yù)測(cè)模型為最優(yōu)時(shí),XGBoost算法得到的模型預(yù)測(cè)值和財(cái)政收入的實(shí)際值,可以看出實(shí)際值與預(yù)測(cè)值兩者之間已經(jīng)十分接近,說明訓(xùn)練結(jié)果比較準(zhǔn)確可靠。
表3 2002—2018年財(cái)政收入的模型訓(xùn)練結(jié)果
測(cè)試數(shù)據(jù)用來模擬在真實(shí)環(huán)境下,財(cái)政收入預(yù)測(cè)模型的準(zhǔn)確性、可靠性。將2018—2020年自變量數(shù)據(jù)測(cè)試數(shù)據(jù)代入預(yù)測(cè)模型中,得到模型的收入預(yù)測(cè)值,再通過比較模型收入預(yù)測(cè)值與真實(shí)收入數(shù)據(jù)差別,可以驗(yàn)證在真實(shí)環(huán)境下財(cái)政收入預(yù)測(cè)模型的有效性,如果預(yù)測(cè)值和真實(shí)值差別越小,則說明模型的預(yù)測(cè)值越準(zhǔn)確,模型越可靠。
從表4中可以看出,使用XGBoost模型得到的2019—2021年之間的財(cái)政收入預(yù)測(cè)值與真實(shí)值比較接近,尤其是考慮到近年來在疫情影響下天津市財(cái)政收入波動(dòng)明顯,但2019—2021年的財(cái)政收入預(yù)測(cè)值還能比較接近真實(shí)值的數(shù)據(jù)。這充分說明了基于Lasso-XGBoost的財(cái)政收入預(yù)測(cè)模型可以在實(shí)際應(yīng)用中取得良好的效果。
除此之外,使用Sequential模型(Keras中的一種神經(jīng)網(wǎng)絡(luò)框架)進(jìn)行財(cái)政收入的預(yù)測(cè),得到的預(yù)測(cè)結(jié)果詳見表4。通過分別比較Sequential模型和XGBoost模型的預(yù)測(cè)結(jié)果與真實(shí)值之間的差別,可以明顯看出XGBoost模型得到的預(yù)測(cè)結(jié)果更加精準(zhǔn),誤差更小。
表4 2019—2021年財(cái)政收入預(yù)測(cè)值
在實(shí)際經(jīng)濟(jì)生活中影響地方財(cái)政收入的因素較多,并且可能存在變量之間的多重共線性問題以及變量的非線性關(guān)系。本文通過Lasso回歸方法得到變量的系數(shù),從眾多變量中選取影響財(cái)政收入的主要變量,在此基礎(chǔ)之上使用XGBoost模型得到財(cái)政收入的預(yù)測(cè)值,之后通過比較XGBoost模型和Sequencial模型與真實(shí)值的差別,發(fā)現(xiàn)XGBoost模型可以比較可靠的、精準(zhǔn)的實(shí)現(xiàn)對(duì)天津市財(cái)政收入的預(yù)測(cè)。
通過分析Lasso回歸變量的系數(shù)(表2)可以看出常住年末總?cè)丝趯?duì)于天津市財(cái)政收入具有最重要的影響。常住人口數(shù)量的增加,往往代表著有更多的人來該地定居、工作和生活,促進(jìn)消費(fèi)增長(zhǎng),同時(shí)人口的增加也意味著勞動(dòng)力資源更加豐富,可以促進(jìn)當(dāng)?shù)亟?jīng)濟(jì)發(fā)展和財(cái)政收入的增長(zhǎng)。因此吸引更多外來人口來天津,增加本地常住人口數(shù)量可能會(huì)對(duì)天津市財(cái)政收入增長(zhǎng)產(chǎn)生比較好的正向作用。
固定電話用戶數(shù)這一變量對(duì)于天津市財(cái)政收入也有比較重要的正向作用,這一點(diǎn)初看可能有些出人意料,因?yàn)榫蛡€(gè)體日常生活中的體驗(yàn)可以發(fā)現(xiàn)個(gè)人及家庭用戶已經(jīng)很少使用固定電話,造成這一現(xiàn)象的深層原因可能在于固定電話數(shù)量在一定程度上代表了企業(yè)的數(shù)量。當(dāng)固定電話數(shù)量越多,一定程度上意味著企業(yè)數(shù)量越多,說明經(jīng)濟(jì)越具有活力,也會(huì)產(chǎn)生更多的稅收等財(cái)政收入,當(dāng)然會(huì)對(duì)地方財(cái)政收入有重要的正向影響。
本文采用 Lasso-XGBoost組合方法開展財(cái)政收入預(yù)測(cè),具有較高的實(shí)用性和精準(zhǔn)性,可以為以后財(cái)政部門開展財(cái)政收入預(yù)測(cè)以及編制中期財(cái)政規(guī)劃管理提供一定的幫助,也可以為今后的財(cái)政收入預(yù)測(cè)相關(guān)研究提供一定的參考。