任爽,崔海波
(1.湖北大學(xué)計算機(jī)與信息工程學(xué)院, 湖北 武漢 430062; 2.湖北省高等學(xué)校人文社科重點(diǎn)研究基地(績效評價信息管理研究中心), 湖北 武漢 430062)
近年來,貴州省稅收收入一路突飛猛進(jìn),在2017年就早已突破了1 000億大關(guān),而在2019年僅上半年就完成稅收收入高達(dá)1 434億,增長率遠(yuǎn)大于其他周邊的省份.稅收是地方政府財政收入的重要來源,也是宏觀調(diào)控的重要手段.稅收收入的提高不僅表現(xiàn)出經(jīng)濟(jì)發(fā)展的進(jìn)步,也表現(xiàn)出城市發(fā)展的無限潛力.而如今貴州省的稅收收入進(jìn)入到新的發(fā)展階段,如何預(yù)測其未來的發(fā)展趨勢,從而為稅務(wù)部門提供合理的參考數(shù)據(jù),是本研究的探討目的.
此前,貴州省地方稅務(wù)局課題組使用1996—1999年的地方稅源數(shù)據(jù)進(jìn)行稅收年增長率的預(yù)測[1].王時繪采用了多種數(shù)學(xué)模型對貴州省稅務(wù)收入建立預(yù)測模型并調(diào)優(yōu)[2].劉迪采用了BP神經(jīng)網(wǎng)絡(luò)算法對吉林省稅收經(jīng)濟(jì)進(jìn)行了分析與預(yù)測[3].田昭采用了多元回歸分析對稅收收入進(jìn)行了預(yù)測[4],為制定稅收政策提供了參考數(shù)據(jù).
本研究在前人研究基礎(chǔ)上,加入了對季節(jié)因素的分析和處理,采用季節(jié)性自回歸移動平均模型(SARIMA模型)對貴州省2016—2019年的稅收月度收入進(jìn)行預(yù)測研究.該模型以貴州省月度稅收收入為因變量,稅收收入時間為自變量建立預(yù)測模型,對稅收收入進(jìn)行了擬合與預(yù)測.
1.1 數(shù)據(jù)來源本研究采集了2016年1月至2020年2月貴州省稅收收入數(shù)據(jù).數(shù)據(jù)來源于2016—2020各年的貴州省宏觀經(jīng)濟(jì)數(shù)據(jù)庫.
1.2 數(shù)據(jù)處理
1.2.1 稅收收入的平穩(wěn)性判斷 建立時間序列預(yù)測模型前,要求序列是平穩(wěn)序列,即一個序列的均值、方差和協(xié)方差不隨時間推移產(chǎn)生變化[5].實(shí)際上,大部分序列都不平穩(wěn),首先可以通過時序圖對序列平穩(wěn)性進(jìn)行判定.進(jìn)一步采用單位根檢驗(yàn)法確定序列的平穩(wěn)性[6],如果數(shù)據(jù)不平穩(wěn)可以采用取對數(shù)和差分來使其滿足平穩(wěn)性條件[7].本研究將2016年1月至2019年9月的數(shù)據(jù)作為訓(xùn)練集,2019年10月至2020年2月的數(shù)據(jù)作為測試集.
將近4年的稅收收入數(shù)據(jù)繪制成折線圖(如圖1)可以看出,稅收收入的金額是非平穩(wěn)的,其滾動均值具有增長趨勢.進(jìn)一步,通過統(tǒng)計方法“ADF檢驗(yàn)”來判斷序列的平穩(wěn)性.
圖1 2016—2019稅收收入時序圖
ADF檢驗(yàn):一種常用的單位根檢驗(yàn),用于檢查數(shù)據(jù)穩(wěn)定性.其方法是假設(shè)序列具有單位根,是非平穩(wěn)的.在給定顯著水平(1%,5%,10%)下進(jìn)行t檢驗(yàn).其原假設(shè)如為“時間序列是非平穩(wěn)的”,測試結(jié)果由測試統(tǒng)計量及其臨界值組成.如果“測試統(tǒng)計量”小于“臨界值”,可以拒絕原假設(shè),并認(rèn)為序列是平穩(wěn)的.
對稅收收入樣本數(shù)據(jù)進(jìn)行ADF檢驗(yàn),其結(jié)果見表1.
表1 月度稅收收入時間序列的ADF檢驗(yàn)
此時的P值為0.339 890,在0.05的顯著性水平下,不能拒絕原假設(shè).所以該月度稅收收入序列是不平穩(wěn)的,需要對序列進(jìn)行平穩(wěn)性處理.
1.2.2 稅收收入的季節(jié)性 本研究將2016年、2017年、2018年和2019年4個整年的數(shù)據(jù)繪制在一張折線圖上,如圖2所示.
圖2 近3年稅收收入趨勢圖(按月份繪制)
可以看出,每年的稅收收入有明顯的季節(jié)性:1月偏高,8月偏低,3年的月度數(shù)據(jù)變化趨勢較吻合.
使用季節(jié)指數(shù)來判斷,稅收收入季節(jié)性是否具有統(tǒng)計顯著性.所謂季節(jié)指數(shù)就是用簡單平均法計算的周期內(nèi)各時期季節(jié)性影響的相對數(shù).季節(jié)指數(shù)反映了該月度與年度平均值之間的一種比較穩(wěn)定的關(guān)系:
如果比值大于1,說明該月度的值往往會高于年度平均值;如果比值小于1,說明該月度的值往往會低于年度平均值;如果比值近似為1,就說明月度的值沒有明顯的季節(jié)性.
本研究計算的近3年稅收收入的季節(jié)指數(shù)如表2.可以看出,除了5月、7月以及9月的季節(jié)指數(shù)接近1外,其他月份的季節(jié)指數(shù)均與1有明顯差距.故可以得出,稅收收入序列具有季節(jié)性,應(yīng)采用去除季節(jié)性的序列進(jìn)行時間序列建模.
1.2.3 季節(jié)性差分 在建立時間序列模型時,需要使用季節(jié)調(diào)整以消除季節(jié)性的影響[8],其中季節(jié)性差分是一種常用的方式,對于周期為s的序列,其季節(jié)差分形式為:
Δsxt=xt-xt-s.
在python中,使用“ts_diff=ts - ts.shift(12)”對序列進(jìn)行周期為12的季節(jié)性差分后,進(jìn)行ADF檢驗(yàn),并繪制自相關(guān)(ACF)和偏自相關(guān)圖(PACF),如圖3所示.
圖3 季節(jié)性差分后的序列檢驗(yàn)圖
ADF檢驗(yàn)的P值為0.000 54,遠(yuǎn)小于0.05的顯著性水平,季節(jié)性差分后的時間序列是平穩(wěn)的.自相關(guān)圖不存在滯后點(diǎn),序列可建模.
對于一些既有季節(jié)效應(yīng)又有長期趨勢的時間序列,簡單的自回歸差分移動平均(auto-regressive integrated moving average,ARIMA)模型不足以提取其中的季節(jié)信息,應(yīng)使用SARIMA模型[9].
SARIMA模型(seasonal auto-regression integrated moving average model,SARIMA)的全稱是季節(jié)性自回歸移動平均模型,綜合d階差分和以S為步長的季節(jié)差分運(yùn)算,基于季節(jié)性差分后的序列進(jìn)行ARIMA研究,稱為SARIMA模型[10],記為SARIMA(p,d,q)(P,D,Q)s:
式中:BS為季節(jié)后移算子;S為季節(jié)周期;Φ(BS)為回歸系數(shù)多項(xiàng)式;Θ(BS)為移動平均系數(shù)多項(xiàng)式;P為季節(jié)性的自回歸階數(shù);Q為移動平均階數(shù);D為季節(jié)差分階數(shù).
2.1 模型參數(shù)的計算根據(jù)SARIMA模型描述可知,需要對參數(shù)范圍進(jìn)行確定,通過設(shè)置參數(shù)搜索區(qū)間,根據(jù)AIC信息準(zhǔn)則確定最優(yōu)的SARIMA模型參數(shù).
AIC信息準(zhǔn)則(akaike information criterion)是衡量統(tǒng)計模型擬合優(yōu)良性的一種標(biāo)準(zhǔn),由日本統(tǒng)計學(xué)家赤池弘次在1974年提出[11],它建立在熵的概念上,提供了權(quán)衡估計模型復(fù)雜度和擬合數(shù)據(jù)優(yōu)良性的標(biāo)準(zhǔn).其定義為:
AIC=2k-2ln(L),
式中k為模型參數(shù)個數(shù),L為似然函數(shù).從一組可供選擇的模型中選取最優(yōu)時,應(yīng)選取AIC值最小的模型.
由圖3,觀察季節(jié)差分后的PACF和ACF圖,可以確定各參數(shù)搜索范圍是:(p,d,q)為(1,1,0),(P,D,Q)為(1,0,1),S為12.
通過使用python的itertools包中的product函數(shù),構(gòu)造出觀察值范圍內(nèi)的各種參數(shù)組合,并將各參數(shù)組合作為迭代值分別計算各參數(shù)生成模型的AIC值,選取AIC值最小的為最優(yōu)模型,其生成的搜索表及AIC值如表3所示.計算后的最優(yōu)模型為:SARIMAX(0, 1, 1)(1, 1, 0, 12).
表3 不同模型參數(shù)對應(yīng)的AIC值
2.2 建立SARIMA模型使用SARIMAX(0, 1, 1)(1, 1, 0, 12)模型對時間序列進(jìn)行擬合.并對擬合后的殘差進(jìn)行ADF檢驗(yàn),繪制其ACF和PACF圖,結(jié)果如圖4所示.
圖4 SARIMA模型擬合檢查圖
殘差的ADF檢驗(yàn)的P值幾乎為0,遠(yuǎn)小于顯著性水平0.05,故擬合后的殘差是平穩(wěn)的,且沒有自相關(guān)性,該SARIMA模型是有效的.
3.1 模型的預(yù)測將SARIMAX(0, 1, 1)(1, 1, 0, 12)模型的預(yù)測值與真實(shí)值繪制在同一坐標(biāo)系中,并計算其平均絕對百分比誤差,如圖5所示.
圖5 SARIMA模型預(yù)測值與真實(shí)值曲線
由圖5可以得出,模型在2017年1月至2019年9月的訓(xùn)練集預(yù)測曲線可以較好地反映稅收收入的發(fā)展趨勢,2019年10月至2020年2月的測試集數(shù)據(jù)擬合度較好.測試集數(shù)據(jù)顯示的稅收趨勢較往年同期水平有增長,且趨勢符合往年稅收收入表現(xiàn).
3.2 模型的評估由圖5可得,模型的平均絕對百分比誤差為13.29%,擬合程度良好.
使用SARIMA模型進(jìn)行預(yù)測,抽取2019年10至2020年2月的真實(shí)值與模型的擬合值,計算其誤差,如表4所示.可以看出,除2019年10月和2020年2月外,其他月份的誤差均在5%左右,預(yù)測效果較好.受新冠疫情影響,2月份的稅收收入較往年大幅下降,導(dǎo)致該月誤差較大.
表4 2019年10月至2020年2月的真實(shí)值與預(yù)測值比較
再使用均方誤差(MSE)、均方根誤差(RMSE)對模型進(jìn)行評估.
均方誤差(MSE):是回歸分析常用的性能度量指標(biāo).其中:pre表示預(yù)測值,real表示真實(shí)值.
均方根誤差(RSME):
將總數(shù)據(jù)使用上述兩個指標(biāo)進(jìn)行評估,其得到的結(jié)果如表5所示.可以看出模型可以有效的擬合稅收收入時間序列.
表5 模型的統(tǒng)計評估表
本研究使用貴州省2016—2019年的稅收收入為樣本,建立了季節(jié)性自回歸移動平均模型.該模型的平均絕對百分比誤差較低,均方根誤差在合理范圍中,可以作為稅收收入預(yù)測的一個參考模型.但是可以看出隨著時間的推移,一方面隨著稅收制度的全面深化改革和推進(jìn),對各行各業(yè)的影響顯著,使得模型的預(yù)測準(zhǔn)確性受到影響;另外一方面,由于SARIMA比較適用于短期預(yù)測,也導(dǎo)致后續(xù)預(yù)測準(zhǔn)確度稍有下降.因此在稅收政策平穩(wěn)時期,模型的預(yù)測效果較好.