陳 卓 周彥秋 寧紅梅 鄧皓云 鳳 強(qiáng)
(1.廣西科技大學(xué) 理學(xué)院,廣西 柳州 545000;2.大慶市大同區(qū)統(tǒng)計(jì)局,黑龍江 大慶 163000)
稅收是國(guó)家調(diào)控經(jīng)濟(jì)最有效又最常用的手段之一,稅收收入在保障財(cái)政收入、配置基礎(chǔ)資源、調(diào)整產(chǎn)業(yè)結(jié)構(gòu)等方面扮演著重要角色。稅收收入預(yù)測(cè)是以經(jīng)濟(jì)的客觀規(guī)律和相關(guān)政策為依據(jù),分析歷史稅收收入數(shù)據(jù)和影響稅收收入的因素,運(yùn)用經(jīng)濟(jì)學(xué)知識(shí)和相關(guān)預(yù)測(cè)方法,估計(jì)未來特定時(shí)期的稅收收入,并加以分析[1]。當(dāng)前,稅收收入預(yù)測(cè)方向的研究文獻(xiàn)較少,且集中在使用單一歷史數(shù)據(jù)對(duì)未來進(jìn)行預(yù)測(cè),忽視了影響稅收收入的重要因素。因此,對(duì)影響稅收收入的因素進(jìn)行分析并預(yù)測(cè)稅收收入具有重大意義。
本文結(jié)合已有文獻(xiàn)研究,選取廣東省作為研究對(duì)象,以廣東省2012—2021年的年度稅收收入數(shù)據(jù)為基準(zhǔn),對(duì)影響稅收收入的因素進(jìn)行分析,使用LASSO算法以及隨機(jī)森林算法對(duì)收集到的6個(gè)指標(biāo)進(jìn)行篩選,通過組合方式將篩選算法分別與支持向量回歸、BP神經(jīng)網(wǎng)絡(luò)進(jìn)行結(jié)合,建立四種稅收收入預(yù)測(cè)模型,在不同模型的預(yù)測(cè)效果中展開比對(duì)研究,以預(yù)測(cè)結(jié)果的誤差為判斷依據(jù)對(duì)模型進(jìn)行評(píng)價(jià)。
本文的創(chuàng)新點(diǎn)在于,在研究方法方面,通過查閱相關(guān)文獻(xiàn),以往研究者使用的方法不外乎是ARIMA模型和GM(1,1)模型等傳統(tǒng)時(shí)間序列預(yù)測(cè)模型。本文結(jié)合經(jīng)典統(tǒng)計(jì)學(xué)和機(jī)器學(xué)習(xí)兩個(gè)方面,以廣東省年度稅收收入為研究對(duì)象,分析影響稅收收入的諸多因素,建立LASSO-SVR、LASSO-BPNN、RF-SVR和RF-BPNN四種多變量稅收收入預(yù)測(cè)模型。
稅收收入數(shù)據(jù)具有時(shí)序性,加之受到國(guó)家經(jīng)濟(jì)和政策等因素影響,呈現(xiàn)非線性特點(diǎn)。傳統(tǒng)的稅收收入預(yù)測(cè)方法主要有多元回歸預(yù)測(cè)、時(shí)間序列模型、指數(shù)平滑法、灰色理論法等[2-4]。孫楊(2019)[5]以重慶市民營(yíng)經(jīng)濟(jì)為研究對(duì)象,分析影響稅收收入的因素,對(duì)變量進(jìn)行主成分篩選,按不同的稅種構(gòu)建主成分回歸的指數(shù)平滑模型,采用三次指數(shù)平滑對(duì)不同稅種的數(shù)值進(jìn)行預(yù)測(cè)分析。隨著計(jì)算機(jī)技術(shù)的大放異彩,稅收收入預(yù)測(cè)研究方面出現(xiàn)了很多機(jī)器學(xué)習(xí)的分析預(yù)測(cè)方法,例如SVM[6]、BP神經(jīng)網(wǎng)絡(luò)[7]、LSTM[8]等。田永青和楊斌等(2002)[9]分析影響稅收收入的各種因素,通過多次多元線性擬合,剔除對(duì)稅收收入影響較小的指標(biāo)。針對(duì)BP神經(jīng)網(wǎng)絡(luò)存在的局部最優(yōu)、訓(xùn)練慢效率低等問題,構(gòu)建基于RBF神經(jīng)網(wǎng)絡(luò)的稅收收入預(yù)測(cè)模型,對(duì)山東省真實(shí)數(shù)據(jù)進(jìn)行實(shí)證分析,證明了該模型的有效性。張吉?jiǎng)偤土耗龋?007)[10]在總結(jié)傳統(tǒng)計(jì)量和代數(shù)方法的基礎(chǔ)上,采用新型Elman神經(jīng)網(wǎng)絡(luò),建立反映國(guó)內(nèi)生產(chǎn)總值與稅收之間非線性映射關(guān)系的稅收收入預(yù)測(cè)模型,以某經(jīng)濟(jì)特區(qū)的實(shí)際數(shù)據(jù)進(jìn)行仿真訓(xùn)練,結(jié)果表明Elman神經(jīng)網(wǎng)絡(luò)較傳統(tǒng)計(jì)量方法的預(yù)測(cè)誤差精度提高了4%。張淑娟和鄧秀勤等(2017)[11]考慮影響稅收收入的各種線性和非線性因素,使用更為穩(wěn)定的LS-SVM模型對(duì)稅收收入進(jìn)行預(yù)測(cè),并使用PSO算法對(duì)LS-SVM預(yù)測(cè)模型的參數(shù)C和γ進(jìn)行超參數(shù)尋優(yōu),經(jīng)過與網(wǎng)格搜索、遺傳算法等方法優(yōu)化的SVM相比,證明基于PSO算法的LS-SVM模型在稅收預(yù)測(cè)上的精確性和穩(wěn)定性更優(yōu)。
1.地區(qū)生產(chǎn)總值。地區(qū)生產(chǎn)總值是指地區(qū)內(nèi)全部常住單位在一定時(shí)期的生產(chǎn)生活的最終成果[12]。收入法公式為:地區(qū)生產(chǎn)總值=L+S+G+Y,其中L是勞動(dòng)報(bào)酬;S是生產(chǎn)稅凈額;G是固定資產(chǎn)折舊;Y是營(yíng)業(yè)盈余。從公式可以看出,稅收收入與地區(qū)生產(chǎn)總值之間是正相關(guān),稅收收入和地區(qū)生產(chǎn)總值相互影響。
2.規(guī)模以上工業(yè)增加值。規(guī)模以上工業(yè)增加值是從事工業(yè)活動(dòng)的企業(yè)在一定時(shí)期內(nèi)進(jìn)行生產(chǎn)得到的總值,剔除了生產(chǎn)過程中的消耗與價(jià)值轉(zhuǎn)移額,包含增值稅部分。收入法公式為:工業(yè)增加值=L+S+G+Y,其中L是勞動(dòng)報(bào)酬;S是生產(chǎn)稅凈額;G是固定資產(chǎn)折舊;Y是營(yíng)業(yè)盈余。從公式可以看出,稅收收入與規(guī)模以上工業(yè)增加值之間是正相關(guān),稅收收入和規(guī)模以上工業(yè)增加值相互影響。
3.金融機(jī)構(gòu)(含外資)本外幣存款余額。金融機(jī)構(gòu)本外幣存款余額是指截至特定時(shí)間點(diǎn)金融機(jī)構(gòu)在人民幣和外幣商的持有額度。一般來說,存款余額越高,居民用于消費(fèi)的部分就越少,增值稅隨之降低,存款余額與稅收收入之間呈負(fù)相關(guān)。
4.地方一般公共預(yù)算收入。地方一般公共預(yù)算收入是指一個(gè)地區(qū)的財(cái)政收入上交完省級(jí)和中央財(cái)政之后,剩余的收入。公式為:地方一般公共預(yù)算收入=T+F,其中T為各類稅收,包括增值稅、消費(fèi)稅、進(jìn)出口稅、企業(yè)所得稅和個(gè)人所得稅等;F為非稅收收入,包括專項(xiàng)收入、行政事業(yè)性收費(fèi)收入等。該指標(biāo)和稅收性質(zhì)較為相似,有密切的關(guān)系。
5.居民消費(fèi)價(jià)格指數(shù)。居民消費(fèi)價(jià)格指數(shù)是指一定時(shí)期內(nèi)該地區(qū)居民在生活中消費(fèi)和服務(wù)支出價(jià)格的變動(dòng)趨勢(shì)和程度的相對(duì)數(shù)。公式為:居民消費(fèi)價(jià)格指數(shù)=(當(dāng)前期價(jià)格/基期價(jià)格)*100%,該指標(biāo)反映地區(qū)的消費(fèi)水平,消費(fèi)會(huì)產(chǎn)生增值稅和消費(fèi)稅。居民消費(fèi)價(jià)格指數(shù)上漲,增值稅隨之增加,兩者之間為正相關(guān)。
6.財(cái)政支出。財(cái)政支出指對(duì)籌集而來的資金進(jìn)行經(jīng)濟(jì)建設(shè)和其他事項(xiàng)的使用。財(cái)政支出源于財(cái)政收入,而稅收收入作為財(cái)政收入的一部分,稅收收入會(huì)影響到財(cái)政支出。反之,財(cái)政支出對(duì)稅收收入也有反作用,倘若財(cái)政支出較大,出現(xiàn)財(cái)政赤字,會(huì)通過增加稅收的形式進(jìn)行財(cái)政收入與支出的平衡。
LASSO算法是統(tǒng)計(jì)學(xué)中一種可以實(shí)現(xiàn)變量精簡(jiǎn)的估計(jì)算法。Robert Tibshirani[13]在1996年首次提出LASSO算法。該算法是改良的最小二乘法,通過最小化殘差的平方和,從而產(chǎn)生系數(shù)為0的變量并將其剔除,實(shí)現(xiàn)降維。
假設(shè)存在數(shù)據(jù)(X,Y),其中X=(X1,X2,…Xi)是i個(gè)指標(biāo)的值,對(duì)應(yīng)的Y=(Y1,Y2,…,Yj)是j個(gè)響應(yīng)變量,將X中的數(shù)據(jù)標(biāo)準(zhǔn)化處理。
式中,Bj為最小二乘估計(jì);t為調(diào)整參數(shù),通過控制調(diào)整參數(shù)t可以實(shí)現(xiàn)對(duì)總體回歸系數(shù)的壓縮,t值通過交叉驗(yàn)證法來估計(jì)。
上述表達(dá)式等價(jià)于:
式中,a是L1正則化參數(shù),a越大,壓縮力度越大。
隨機(jī)森林(Random Forest,RF)[14]于2001年提出,一般用于數(shù)據(jù)分類或回歸,其主要思想是從原始數(shù)據(jù)中采取自助法有放回的采樣獲得k個(gè)子集,對(duì)每個(gè)子集訓(xùn)練出不同的決策樹,得到k個(gè)回歸結(jié)果,最后對(duì)所有組合的結(jié)果取平均值。
鑒于隨機(jī)森林采取有放回采樣方式,因此存在部分?jǐn)?shù)據(jù)無法參與訓(xùn)練而被浪費(fèi),這部分?jǐn)?shù)據(jù)被稱為袋外數(shù)據(jù)(Out of Bag,OOB)。隨機(jī)森林對(duì)特征進(jìn)行評(píng)估的步驟如下:
1.對(duì)每一顆決策樹,選擇相應(yīng)的袋外數(shù)據(jù),計(jì)算袋外數(shù)據(jù)誤差,記為eOOB1。
2.隨機(jī)對(duì)袋外數(shù)據(jù)中所有樣本的特征xi加入噪聲干擾,再次計(jì)算袋外數(shù)據(jù)誤差,記為eOOB2。
3.假設(shè)森林中有N棵樹,則特征xi的重要性=∑(eOOB2-eOOB1)/N。
綜上,當(dāng)特征xi加入隨機(jī)噪聲后,袋外數(shù)據(jù)的準(zhǔn)確率大幅度下降,即eOOB2增大,說明特征xi對(duì)于最終的預(yù)測(cè)結(jié)果有很大影響,進(jìn)而說明特征xi重要。通過計(jì)算每個(gè)特征的重要性并排序,得到一個(gè)新的特征集,對(duì)新的特征集重復(fù)上述過程,直到剩下目標(biāo)特征個(gè)數(shù),最后得到各個(gè)特征集并計(jì)算對(duì)應(yīng)的袋外誤差率,選擇袋外誤差率最低的特征集。
支持向量回歸(Support Vector Regression,SVR)建立在SVM算法基礎(chǔ)之上,其不依賴輸入數(shù)據(jù)維度的性質(zhì),使其擁有較高的預(yù)測(cè)精度。通過核函數(shù)進(jìn)行非線性變換,把數(shù)據(jù)xi映射到高維特征空間,繼而在高維特征空間里進(jìn)行線性回歸,尋找能夠準(zhǔn)確表明xi與y存在關(guān)系的函數(shù)f(xi)[15],即SVR函數(shù):
對(duì)于所有落入間隔帶(2ε)內(nèi)的數(shù)據(jù),不計(jì)其誤差,不敏感損失函數(shù)ε的表達(dá)式為:
式中,yi為原始數(shù)據(jù)xi映射到高維特征空間中的代表值。
根據(jù)結(jié)構(gòu)風(fēng)險(xiǎn)最小化原則,并引入松弛變量ξi和得到如下公式:
式中,C為懲罰參數(shù)。
通過引入拉格朗日乘子a和a*,將上述問題轉(zhuǎn)化為對(duì)偶問題:
式中,當(dāng)ai-非零時(shí),對(duì)應(yīng)的訓(xùn)練樣本為支持向量。求解此二次規(guī)劃問題可求出a的值,同時(shí)求得w的值:
滿足KKT條件計(jì)算出偏差b:
最后得到回歸函數(shù)f(x)的表達(dá)式:
式中,K(xi,x)為滿足Mercer條件的核函數(shù),負(fù)責(zé)對(duì)輸入數(shù)據(jù)進(jìn)行非線性變換。
SVR核函數(shù)中使用最多的是帶有寬度為σ的徑向基核函數(shù)(RBF)。RBF函數(shù)為:
BP神經(jīng)網(wǎng)絡(luò)一般由輸入層、隱藏層和輸出層構(gòu)成。其中輸入層輸入xi,隱藏層輸出zi,輸出層輸出y,層與層之間為全連接形式,層內(nèi)的節(jié)點(diǎn)互不相連。
BP神經(jīng)網(wǎng)絡(luò)的訓(xùn)練實(shí)質(zhì)是不斷調(diào)整層與層之間的權(quán)值與閾值。首先從輸入到輸出進(jìn)行正向傳播,計(jì)算預(yù)測(cè)值與實(shí)際值的誤差;然后進(jìn)行反向傳播,目的是調(diào)整權(quán)值與閾值,通過多次迭代實(shí)現(xiàn)降低誤差。其數(shù)學(xué)形式為:
給定訓(xùn)練集D={(x1,y1),(x2,y2),…,(xi,yi)},其中xi∈Rn,表示具有n個(gè)指標(biāo)的輸入,yi∈Rm表示m維的輸出。
設(shè)置BP神經(jīng)網(wǎng)絡(luò)的輸入層、隱藏層和輸出層分別有n、q、m個(gè)節(jié)點(diǎn),隱藏層中第h個(gè)節(jié)點(diǎn)的閾值為yh,則有:
式中,αh是隱藏層第h個(gè)節(jié)點(diǎn)接收的輸入;vih是輸入層第i個(gè)節(jié)點(diǎn)與隱藏層第h個(gè)節(jié)點(diǎn)的連接權(quán)重;βj是隱藏層第j個(gè)節(jié)點(diǎn)接收的輸入;bh是隱藏層中第h個(gè)節(jié)點(diǎn)的輸出;whj是隱藏層第h個(gè)節(jié)點(diǎn)與輸出層第j個(gè)節(jié)點(diǎn)的連接權(quán)重。
以激活函數(shù)Sigmoid為例,對(duì)(xk,yk),設(shè)為網(wǎng)絡(luò)的實(shí)際輸出,則有:
式中,θj表示輸出層第j個(gè)神經(jīng)元的閾值。
則(xk,yk)上的均方差Ek可以表示為:
BP神經(jīng)網(wǎng)絡(luò)在學(xué)習(xí)過程中,每一次迭代會(huì)更新參數(shù),其任意參數(shù)v的更新式可以表示為:
設(shè)神經(jīng)網(wǎng)絡(luò)學(xué)習(xí)率為η(0<η<1),再由一系列的推導(dǎo)公式可得:
最后可得新的權(quán)值更新公式:
通過查閱相關(guān)文獻(xiàn)和資料,本文選取了稅收收入預(yù)測(cè)中常用的6個(gè)自變量指標(biāo)。所有指標(biāo)的數(shù)據(jù)來源于《廣東統(tǒng)計(jì)年鑒》,選取2012—2021年共10年的數(shù)據(jù)。表1展示了本文選取的對(duì)稅收收入有影響的6個(gè)指標(biāo)和年度稅收收入數(shù)據(jù)的描述性統(tǒng)計(jì)。
表1 各指標(biāo)描述表
表1中,x1為地區(qū)生產(chǎn)總值(億元),x2為規(guī)模以上工業(yè)增加值(億元),x3為金融機(jī)構(gòu)(含外資)本外幣存款余額(億元),x4為地方一般公共預(yù)算收入(億元),x5為居民消費(fèi)價(jià)格指數(shù),x6為財(cái)政支出(億元),y為稅收收入(億元)。
通過觀察表1中各指標(biāo)的情況,各指標(biāo)的單位和數(shù)量級(jí)并不完全一致,為了方便變量篩選和模型建立,規(guī)避數(shù)據(jù)量綱不一致帶來的其他影響,將自變量數(shù)據(jù)歸一化。公式為:
式中,xi'是歸一化后的指標(biāo)數(shù)據(jù);xi是影響稅收收入的指標(biāo);xi,min是指標(biāo)的最小值;xi,max是指標(biāo)的最大值。
由于因變量的數(shù)量級(jí)過大,本文對(duì)因變量數(shù)據(jù)進(jìn)行對(duì)數(shù)處理。公式為:
式中,y→是對(duì)數(shù)化后的稅收收入數(shù)據(jù)。
為了評(píng)價(jià)預(yù)測(cè)模型的擬合效果,需要選擇合適的評(píng)價(jià)指標(biāo)來衡量模型。本文的評(píng)估指標(biāo)為MAPE、RMSE和R2,其公式如式(19)、式(20)和式(21)所示:
1.LASSO特征篩選。利用R軟件對(duì)各個(gè)變量因子進(jìn)行LASSO降維,選出對(duì)因變量稅收收入影響較大的一些因素,篩選結(jié)果如表2所示。
表2 各特征相關(guān)系數(shù)表
通過相關(guān)系數(shù)的大小排序,選取x2、x3、x4、x5、x6幾個(gè)指標(biāo),由于x5和x6相關(guān)系數(shù)較小,故將其剔除,最后保留了x2規(guī)模以上工業(yè)增加值、x3金融機(jī)構(gòu)(含外資)本外幣存款余額和x4地方一般公共預(yù)算收入3個(gè)指標(biāo)作為預(yù)測(cè)模型的解釋變量。
2.隨機(jī)森林特征篩選。利用Python的Scikit-learn庫(kù)對(duì)影響稅收收入的6個(gè)因素進(jìn)行特征降維,依據(jù)重要性排序結(jié)果篩選出3個(gè)特征。經(jīng)過多次訓(xùn)練,各特征重要性排序結(jié)果如圖1所示。
圖1 影響稅收收入特征重要性排序
從圖1可以看出,x6的重要程度與前4個(gè)變量存在較大差異,為了和LASSO算法進(jìn)行對(duì)比,選擇重要程度排序前3的x2規(guī)模以上工業(yè)增加值、x4地方一般公共預(yù)算收入和x1地區(qū)生產(chǎn)總值這3個(gè)指標(biāo)作為預(yù)測(cè)模型的解釋變量。
通過LASSO算法以及隨機(jī)森林算法對(duì)變量進(jìn)行篩選,分別將x2、x3、x4以及x1、x2、x4的數(shù)據(jù)作為SVR的輸入分別進(jìn)行訓(xùn)練。設(shè)置核函數(shù)為徑向基核函數(shù),其表達(dá)式如式(10)所示。設(shè)置懲罰系數(shù)C為1,當(dāng)殘差小于0.001時(shí)停止訓(xùn)練。采取五折交叉檢驗(yàn)的方式,將數(shù)據(jù)集劃分為5個(gè)規(guī)模一致的互斥子集,每次使用4個(gè)子集作為訓(xùn)練集,剩下的1個(gè)子集作為測(cè)試集,進(jìn)行5次輪換訓(xùn)練,最后將5次訓(xùn)練的誤差結(jié)果取均值作為整個(gè)訓(xùn)練過程的誤差。
從圖2可以看出,結(jié)合LASSO算法和隨機(jī)森林算法的SVR模型在2014—2017年表現(xiàn)優(yōu)異,重合率較高,但2012年、2013年、2020年、2021年與實(shí)際值差異較大。相對(duì)來說,RF-SVR的預(yù)測(cè)值較LASSO-SVR的預(yù)測(cè)值與實(shí)際值更貼近,說明其預(yù)測(cè)效果略優(yōu)于LASSO-SVR。進(jìn)一步通過評(píng)價(jià)指標(biāo)來量化模型的預(yù)測(cè)精度,支持向量回歸的評(píng)價(jià)指標(biāo)如表3所示。
圖2 支持向量回歸擬合結(jié)果圖
表3 支持向量回歸評(píng)價(jià)指標(biāo)
從表3可知,LASSO-SVR和RF-SVR的MAPE都比較小,說明兩個(gè)模型在稅收收入預(yù)測(cè)上表現(xiàn)都很好。LASSO-SVR在RMSE和MAPE上都優(yōu)于RF-SVR,但是在擬合優(yōu)度R2上都略遜于RF-SVR,綜合說明RF-SVR的預(yù)測(cè)誤差更小,精度更高。
通過LASSO算法以及隨機(jī)森林算法對(duì)變量進(jìn)行篩選,分別將x2、x3和x4以及x1、x2和x4的數(shù)據(jù)作為BP神經(jīng)網(wǎng)絡(luò)的輸入進(jìn)行分別訓(xùn)練。設(shè)置輸入層神經(jīng)元為3個(gè),輸出層神經(jīng)元為1個(gè);根據(jù)隱藏層計(jì)算公式設(shè)置隱藏層神經(jīng)元為8個(gè),學(xué)習(xí)效率為0.1%,激活函數(shù)選擇Sigmoid,對(duì)數(shù)據(jù)進(jìn)行擬合。圖3為選取不同特征篩選方法時(shí),BP神經(jīng)網(wǎng)絡(luò)的擬合效果。
圖3 BP神經(jīng)網(wǎng)絡(luò)擬合結(jié)果圖
從圖3可以看出,結(jié)合兩種特征篩選算法的BP神經(jīng)網(wǎng)絡(luò)的擬合效果均較好,僅在2018年出現(xiàn)了較大的預(yù)測(cè)誤差。其中RF-BPNN的預(yù)測(cè)值較LASSO-BPNN的預(yù)測(cè)值與實(shí)際值更貼近,說明其預(yù)測(cè)效果略優(yōu)于LASSO-BPNN。進(jìn)一步通過評(píng)價(jià)指標(biāo)量化模型的預(yù)測(cè)精度,BP神經(jīng)網(wǎng)絡(luò)的評(píng)價(jià)指標(biāo)見表4。
表4 BP神經(jīng)網(wǎng)絡(luò)評(píng)價(jià)指標(biāo)
從表4可知,LASSO-BPNN和RF-BPNN的MAPE都非常小,說明兩個(gè)模型在稅收收入預(yù)測(cè)上表現(xiàn)都很好。RF-BPNN無論是在RMSE和MAPE上,還是在擬合優(yōu)度R2上都略優(yōu)于LASSO-BPNN,說明RF-BPNN在稅收收入預(yù)測(cè)中的表現(xiàn)更好。
本文在稅收收入預(yù)測(cè)方面選擇了多種模型進(jìn)行預(yù)測(cè),為了實(shí)現(xiàn)對(duì)稅收收入的精準(zhǔn)預(yù)測(cè),將不同模型的擬合效果進(jìn)行對(duì)比,選擇效果更好的模型對(duì)廣東省未來三年的年稅收收入進(jìn)行預(yù)測(cè)。圖4是不同預(yù)測(cè)模型的擬合效果。
圖4 不同模型擬合效果對(duì)比圖
從圖4可以看出,相對(duì)SVR來說,BP神經(jīng)網(wǎng)絡(luò)在首尾年份的預(yù)測(cè)上也表現(xiàn)出較高的精度。在所有擬合曲線中與稅收收入實(shí)際值曲線貼合最緊密的是RF-BPNN,該曲線多次與實(shí)際值曲線相交,在2012—2017年時(shí)幾乎處處重合,說明RF-BPNN組合模型的擬合效果優(yōu)于其他組合模型。進(jìn)一步通過評(píng)價(jià)指標(biāo)度量模型的預(yù)測(cè)效果,結(jié)果見表5。
表5 不同模型的評(píng)價(jià)指標(biāo)
從表5可以看出,RF-SVR模型的MAPE為2.655%,在所有模型中最大,說明其預(yù)測(cè)精度最低。RF-BPNN模型的MAPE為1.097%,在所有模型中最小,說明其預(yù)測(cè)精度最高。不同特征篩選算法的組合模型存在差異,但總體來說BP神經(jīng)網(wǎng)絡(luò)在稅收收入預(yù)測(cè)方面的表現(xiàn)要優(yōu)于SVR,且在本文中機(jī)器學(xué)習(xí)中的隨機(jī)森林算法略優(yōu)于傳統(tǒng)的LASSO算法。
稅收與人們的生產(chǎn)生活息息相關(guān),對(duì)稅收收入進(jìn)行預(yù)測(cè)和分析,有利于為相關(guān)部門提供調(diào)整稅收政策的理論依據(jù)。本文從傳統(tǒng)統(tǒng)計(jì)學(xué)方法和機(jī)器學(xué)習(xí)方法入手,采取特征篩選算法對(duì)預(yù)測(cè)模型進(jìn)行優(yōu)化,提出四種組合模型對(duì)廣東省稅收收入進(jìn)行年度預(yù)測(cè)。結(jié)論如下:
1.本文提出的四種組合模型融入了影響稅收收入的多種指標(biāo),結(jié)合線性和非線性特征來進(jìn)行稅收收入的趨勢(shì)預(yù)測(cè)。通過LASSO算法和隨機(jī)森林算法對(duì)指標(biāo)進(jìn)行篩選,簡(jiǎn)化模型結(jié)構(gòu)的同時(shí)提高了訓(xùn)練速度和泛化能力。
2.不同特征篩選算法的組合模型存在差異,但總體來說BP神經(jīng)網(wǎng)絡(luò)在稅收收入預(yù)測(cè)方面的表現(xiàn)優(yōu)于SVR,且機(jī)器學(xué)習(xí)中的隨機(jī)森林算法略優(yōu)于傳統(tǒng)的LASSO算法。
3.在稅收收入預(yù)測(cè)的相關(guān)文獻(xiàn)中,使用不同特征篩選算法進(jìn)行組合,進(jìn)而對(duì)稅收收入進(jìn)行預(yù)測(cè)的較少,本文具有一定的參考意義?!?/p>