引言
加強(qiáng)經(jīng)濟(jì)監(jiān)測預(yù)測分析工作,并及時(shí)準(zhǔn)確研判未來經(jīng)濟(jì)走勢,是提高宏觀經(jīng)濟(jì)施策精準(zhǔn)性、有效性的重要手段,也是防范化解重點(diǎn)領(lǐng)域風(fēng)險(xiǎn)、確保經(jīng)濟(jì)平穩(wěn)健康運(yùn)行的重要抓手,更是促進(jìn)經(jīng)濟(jì)高質(zhì)量發(fā)展的重要保障。當(dāng)前,宏觀經(jīng)濟(jì)預(yù)測領(lǐng)域面臨新變化,主要表現(xiàn)為高維、高頻數(shù)據(jù)可獲得性大幅提升,以及大數(shù)據(jù)技術(shù)應(yīng)用于宏觀經(jīng)濟(jì)預(yù)測等方面。新變化不僅拓展了宏觀經(jīng)濟(jì)預(yù)測的研究邊界,而且也為預(yù)測提供了新的研究視角。隨著大數(shù)據(jù)等新研究范式的興起,提高宏觀經(jīng)濟(jì)預(yù)測的時(shí)效性和準(zhǔn)確性,對于制定宏觀經(jīng)濟(jì)政策、提升治理能力現(xiàn)代化具有重要意義。
作為分析高維、高頻數(shù)據(jù)的重要方法,以因子分析為基礎(chǔ)的混頻模型是實(shí)現(xiàn)宏觀經(jīng)濟(jì)預(yù)測的有力工具。該類模型兼具因子模型和混頻模型的特征,不僅通過降維的方式將豐富的信息集濃縮成少量因子,在不過度損失信息量的情況下較好地刻畫宏觀經(jīng)濟(jì)運(yùn)行情況,能夠?qū)崿F(xiàn)對高維數(shù)據(jù)的深度挖掘,有助于提升預(yù)測的準(zhǔn)確性。而且混頻模型在高頻變量和低頻變量之間建立聯(lián)系,能夠?qū)崿F(xiàn)高頻變量對低頻變量的預(yù)測,進(jìn)而提高預(yù)測的時(shí)效性。
近年來,基于因子分析的混頻模型在我國宏觀經(jīng)濟(jì)預(yù)測領(lǐng)域的探索不斷豐富完善。秦磊等(2019)提出了混頻時(shí)間序列潛在因子方法(MIDAS-LF)和混頻時(shí)間序列潛在因子迭代算法(EM-LF),模擬和實(shí)際數(shù)據(jù)的分析均表明,MIDAS-LF方法具有更低的擬合誤差和預(yù)測誤差。費(fèi)兆奇和劉康(2019)利用混頻動態(tài)因子(MF-DFM)模型構(gòu)建日度先行指數(shù),實(shí)證結(jié)果表明,所構(gòu)建的日度先行指數(shù)不僅能夠及時(shí)捕捉到經(jīng)濟(jì)運(yùn)行的波動情形,而且還具有較好的樣本外預(yù)測能力。張偉等(2020)通過MF-DFM模型構(gòu)建高頻輿情指數(shù),用以反映宏觀經(jīng)濟(jì)各維度發(fā)展?fàn)顩r,研究發(fā)現(xiàn),高頻輿情指數(shù)對國內(nèi)生產(chǎn)總值(GDP)增長率有較強(qiáng)的解釋能力,有助于提高GDP預(yù)測的精度。王霞等(2021)認(rèn)為,不斷更新的月度數(shù)據(jù)信息在季度GDP的預(yù)測中具有重要作用,特別是隨著可利用信息的逐漸增多,MF-DFM模型的預(yù)測精度進(jìn)一步提升。劉漢等(2023)利用單調(diào)性檢驗(yàn)方法驗(yàn)證了實(shí)時(shí)預(yù)報(bào)的誤差會隨著更新數(shù)據(jù)信息的增加而單調(diào)遞減,并認(rèn)為合理的建模技術(shù)可從眾多高頻高維指標(biāo)中獲取有價(jià)值的信息,從而提升實(shí)時(shí)預(yù)測模型的精確性。郭瓊(2024)在對我國季度GDP預(yù)測時(shí)發(fā)現(xiàn),因子混頻數(shù)據(jù)抽樣(FA-MIDAS)模型在時(shí)效性和精確性方面具有比較優(yōu)勢,而且相較于傳統(tǒng)模型而言,外部沖擊對FA-MIDAS模型造成的負(fù)面影響相對較小。張延群等(2024)利用MF-DFM模型構(gòu)建月度數(shù)字經(jīng)濟(jì)狀態(tài)指數(shù),能夠?yàn)閷?shí)時(shí)預(yù)測季度數(shù)字經(jīng)濟(jì)狀態(tài)指數(shù)提供有用的信息。
盡管得益于豐富的數(shù)據(jù)來源以及數(shù)據(jù)獲取速度的提升,基于因子分析的混頻模型在預(yù)測時(shí)具有較好的時(shí)效性和準(zhǔn)確性。但該類模型的潛在假定是被預(yù)測變量與潛在因子具有共同的驅(qū)動因素,從而確保所構(gòu)建的潛在因子對被預(yù)測變量具有較好的預(yù)測效果。如果潛在因子和被預(yù)測變量之間的驅(qū)動因素存在較大差異,那么由此構(gòu)建的預(yù)測模型將存在較大預(yù)測偏差。特別是在大數(shù)據(jù)中,不僅包含有價(jià)值的信息,而且也會夾雜著眾多低效甚至是無效信息,由此產(chǎn)生噪聲大、信息密度低等問題。因此,如果事前不對變量進(jìn)行篩選而直接利用因子分析等方法對大數(shù)據(jù)進(jìn)行降維,則會導(dǎo)致部分與被解釋變量無關(guān)的信息納入因子中,從而降低模型預(yù)測效果。
通過對相關(guān)文獻(xiàn)的梳理發(fā)現(xiàn),僅有少部分學(xué)者關(guān)注到上述問題。例如,何強(qiáng)和董志勇(2020)在利用互聯(lián)網(wǎng)大數(shù)據(jù)對季度GDP增速進(jìn)行預(yù)測時(shí)發(fā)現(xiàn),經(jīng)廣義交叉驗(yàn)證方法(GCV)篩選后得到的最優(yōu)解釋變量集有助于提高機(jī)器學(xué)習(xí)模型的預(yù)測精度,任由模型通過大量數(shù)據(jù)機(jī)械的學(xué)習(xí)并不總會帶來模型預(yù)測精度的改善。閆政旭等(2021)提出了基于Pearson相關(guān)系數(shù)的隨機(jī)森林算法,先是利用Pearson相關(guān)系數(shù)對變量進(jìn)行篩選,隨后根據(jù)隨機(jī)森林回歸模型對篩選后的變量進(jìn)行建模。實(shí)證結(jié)果表明,改進(jìn)后的隨機(jī)森林算法在股票短期預(yù)測精度方面有較好的提升。唐曉彬等(2022)發(fā)現(xiàn),在經(jīng)濟(jì)平穩(wěn)運(yùn)行時(shí)期,更多的變量以及合理的預(yù)測模型能夠提升預(yù)測的準(zhǔn)確性。而當(dāng)經(jīng)濟(jì)受到較大沖擊時(shí),利用模型置信集檢驗(yàn)(MCS)和最小角回歸方法篩選出的變量能夠及時(shí)捕捉到GDP的核心變化,進(jìn)而做出較為準(zhǔn)確的現(xiàn)時(shí)預(yù)測。鄭陽陽等(2023)利用二元?jiǎng)討B(tài)單因子模型的均方預(yù)測誤差對高維變量進(jìn)行篩選,研究發(fā)現(xiàn),基于二元模型變量選擇的MF-DFM 模型具有較好的預(yù)測效果。易艷萍等(2024)利用LASSO方法對混頻動態(tài)多因子模型中的因子變量進(jìn)行選擇,實(shí)證結(jié)果表明,與傳統(tǒng)的混頻動態(tài)多因子模型相比,經(jīng)LASSO方法壓縮后的模型具有更高的預(yù)測精度。
大數(shù)據(jù)時(shí)代的到來推動了機(jī)器學(xué)習(xí)等眾多研究方法的發(fā)展。洪永淼和汪壽陽(2021a;2021b)認(rèn)為,大數(shù)據(jù)革命不僅帶來了經(jīng)濟(jì)學(xué)研究范式的變革,而且還促進(jìn)了研究方法的創(chuàng)新。面對高維解釋變量時(shí),機(jī)器學(xué)習(xí)方法可以通過相關(guān)算法快速篩選出所有合適的解釋變量子集,從而得到一個(gè)低維的重要解釋變量合集,以此來實(shí)現(xiàn)最佳預(yù)測。當(dāng)前國內(nèi)鮮有文獻(xiàn)將機(jī)器學(xué)習(xí)方法用于混頻模型框架下的實(shí)時(shí)預(yù)測。因此,本文嘗試?yán)脵C(jī)器學(xué)習(xí)方法對高維變量進(jìn)行篩選,并將篩選后的變量用于以因子分析為基礎(chǔ)的混頻預(yù)測模型中,進(jìn)而實(shí)現(xiàn)機(jī)器學(xué)習(xí)方法與混頻預(yù)測模型的融合,同時(shí)也為相關(guān)部門提供決策參考依據(jù)。
一、理論分析
(一)基于FA-MIDAS模型的預(yù)測方法
由于FA-MIDAS 模型同時(shí)具有混頻數(shù)據(jù)抽樣模型和動態(tài)因子模型的優(yōu)勢,既能同時(shí)包含季度、月度、周度以及日度等混頻數(shù)據(jù),有助于提高模型預(yù)測的時(shí)效性,又能通過因子分析實(shí)現(xiàn)高維數(shù)據(jù)的降維處理,有效解決變量過多帶來的“維數(shù)災(zāi)難”問題。因此,本文在FA-MIDAS 模型框架下,分析不同機(jī)器學(xué)習(xí)方法的變量篩選對我國季度GDP預(yù)測的影響。
一個(gè)向前 h 步的FA-MIDAS模型可表示成如下形式:
其中, yt 為低頻被解釋變量, r 為因子個(gè)數(shù), β 為待估參數(shù), L 為滯后算子, 為高瀕因子, Wi (
, θi )為權(quán)重多項(xiàng)式函數(shù),且有 Wi (
, θi )=∑2=b;(k; θi )
, mi 為第i個(gè)高頻因子與被解釋變量的頻率之比, dimi 為第i個(gè)高頻因子的滯后階數(shù), bi(k;θi) )為權(quán)重函數(shù)。根據(jù)Ghysels等(2007)的研究可將 bi (k;θi) )選取為Beta權(quán)重函數(shù)、指數(shù)型Almon權(quán)重函數(shù)和分段權(quán)重函數(shù)等。式(1)中的高頻因子具有動態(tài)因子形式 xt=Λft+ξt ,
。其中, xt 為 N×1 維的高頻解釋變量, Λ 為 N×r 維的因子載荷矩陣, ft 為 r×1 維的潛在因子, B ( L )為滯后多項(xiàng)式, ξt 和 ηt 均為白噪聲向量。當(dāng) Wi 2 \lef amp; = 1時(shí),式(1)為無約束的因子混頻數(shù)據(jù)抽樣(FA-U-MIDAS)模型。
由于式(1)中同時(shí)具有混頻數(shù)據(jù)抽樣模型和動態(tài)因子模型的特征,因此可借鑒Marcellino 和Schumacher(2010)提出的“兩步法”對潛在因子和相關(guān)參數(shù)進(jìn)行估計(jì)。第一步,先從高頻變量中提取公共因子。本文進(jìn)一步利用Doz等(2011)提出的方法估計(jì)潛在因子。首先將動態(tài)因子模型表示成狀態(tài)空間形式,有
其中,式(2)為觀測方程,式(3)為狀態(tài)方程。然后利用主成分分析法得到潛在因子和因子載荷的估計(jì)值 和
, B1 , B2 ,……, Bp 的參數(shù)估計(jì)值由VAR(p)模型求得。潛在因子個(gè)數(shù)r可根據(jù)Bai和 Ng (2002;2007)的方法求得,滯后階數(shù) p 則根據(jù)AIC準(zhǔn)則或BIC準(zhǔn)則求得。最后利用卡爾曼濾波法對
進(jìn)行更新,以此來提高潛在因子的估計(jì)精度。
第二步,將更新后的因子 作為自變量帶人式(1),然后估計(jì)相關(guān)參數(shù)。本文將Chen和Tsay(2011)提出的廣義自回歸分布滯后模型(GADL)作為 bi (k; θi )的權(quán)重函數(shù)。與Beta權(quán)重函數(shù)和兩參數(shù)指數(shù)型Almon權(quán)重函數(shù)相比,GADL權(quán)重函數(shù)具有諸多優(yōu)點(diǎn)。一方面,GADL權(quán)重函數(shù)計(jì)算簡便,通過OLS方法就能求得參數(shù)估計(jì),特別是當(dāng)模型中存在多個(gè)頻率以及有眾多參數(shù)需要估計(jì)時(shí),OLS 方法的計(jì)算量較小。另一方面,GADL權(quán)重函數(shù)具有較高的靈活性,對參數(shù)施加的約束條件較少,不需要施加權(quán)重之和等于1以及權(quán)重為正等約束條件。而且GADL權(quán)重函數(shù)能夠在包含更高滯后階數(shù)的同時(shí),又不增加計(jì)算的復(fù)雜性。基于GADL權(quán)重函數(shù),可將式(1)變換成如下形式:
Y=β0+X1V1γ1+X2V2γ2+……+XrVrγr+ε
在給定 di 、 mi 和 vi 的情況下,式(4)中的參數(shù)可通過OLS方法估計(jì)。 di 和 vi 的值可根據(jù)AIC準(zhǔn)則或BIC 準(zhǔn)則求得。
(二)基于機(jī)器學(xué)習(xí)方法的變量篩選
雖然FA-MIDAS模型通過從眾多變量中提取少數(shù)公共因子的方式實(shí)現(xiàn)降維處理,所提取的因子不僅包含豐富的信息,而且能夠刻畫宏觀經(jīng)濟(jì)的大部分波動情形。但在眾多變量中可能僅有小部分變量對目標(biāo)變量較為重要,其余變量對目標(biāo)變量的影響較小,甚至是無效信息以及噪音項(xiàng)。如果將這些質(zhì)量相對較低的數(shù)據(jù)集納入模型中,則會得到豐富但非有效的信息集,進(jìn)而降低模型預(yù)測準(zhǔn)確度。為降低低效和無效信息對預(yù)測效果的影響,可通過特征選擇方法對原始數(shù)據(jù)集進(jìn)行篩選,在得到與目標(biāo)變量最相關(guān)以及包含最多有效信息量的特征子集基礎(chǔ)上,進(jìn)一步利用FA-MIDAS 模型做出預(yù)測。由于每種特征選擇方法從不同的角度實(shí)現(xiàn)對變量的篩選,均具有各自的優(yōu)勢。為更加全面分析不同特征選擇方法對預(yù)測效果的影響,本文主要選取隨機(jī)森林(RF)方法、極端梯度提升(XGBoost)方法、Boruta 方法、LASSO方法以及遞歸特征消除(RFE)方法等5種機(jī)器學(xué)習(xí)方法展開研究。
1.RF方法
Breiman(2001)提出的RF方法是一種基于決策樹的集成學(xué)習(xí)方法,并在決策樹的基礎(chǔ)上進(jìn)一步引入隨機(jī)性。其隨機(jī)性主要體現(xiàn)在樣本的隨機(jī)選擇和特征的隨機(jī)選擇兩方面。具體而言,先是通過自助法(bootstrap)有放回地從訓(xùn)練集中隨機(jī)抽取 n 個(gè)樣本作為新的訓(xùn)練集。然后用新的訓(xùn)練集生成一棵決策樹,在對決策樹的節(jié)點(diǎn)進(jìn)行分裂時(shí),從樣本的所有特征中隨機(jī)抽取 k 個(gè)特征,根據(jù)信息增益或基尼系數(shù)等特征選擇原則劃分樣本集。重復(fù)上述步驟m次,并生成 m 棵決策樹,從而形成隨機(jī)森林。最后對所有決策樹的結(jié)果進(jìn)行匯總,通過投票或加權(quán)平均的方法獲得最終結(jié)果。RF方法具有性能強(qiáng)大和易于應(yīng)用等特征,不僅能夠有效解決模型的過擬合問題,而且有助于提高模型的泛化能力與預(yù)測效果,在處理高維數(shù)據(jù)以及非線性關(guān)系等方面具有比較優(yōu)勢,RF方法一經(jīng)提出便得到廣泛應(yīng)用。
特征選擇是RF方法中的重要一環(huán),通過計(jì)算每個(gè)特征在隨機(jī)森林模型中的貢獻(xiàn)來判斷特征的重要性。可將平均精度下降法(Mean Decrease Accuracy)作為特征重要性的評估指標(biāo)。其基本思想是,在建立RF模型進(jìn)行有放回抽樣時(shí)還有一部分尚未被抽到的數(shù)據(jù),即袋外數(shù)據(jù)(out-of-bag,OOB),利用袋外數(shù)據(jù)作為測試集對特征重要性進(jìn)行評判。將變量的第j個(gè)特征在袋外數(shù)據(jù)中隨機(jī)置換,置換后可得到新的袋外樣本均方誤差,并將其與置換前的袋外樣本均方誤差進(jìn)行比較,如果置換后的準(zhǔn)確性下降較多,則該特征較為重要。如果準(zhǔn)確性下降較小,則該特征相對次要。具體計(jì)算公式為:
其中, m 為隨機(jī)樹的數(shù)量,MSE( 0OBl' )和MSE( OOBι )分別表示為第 l 棵樹的袋外數(shù)據(jù)中對變量X的第j個(gè)特征進(jìn)行隨機(jī)置換后得到的均方誤差和未置換的均方誤差。通過對比MDA的大小來判斷變量的重要程度,進(jìn)而實(shí)現(xiàn)變量篩選。
2.XGBoost方法
XGBoost方法同樣是基于決策樹的集成學(xué)習(xí)方法。其中,RF方法將決策樹并聯(lián)構(gòu)建,每棵決策樹之間相互獨(dú)立。而XGBoost 方法則將決策樹串聯(lián)構(gòu)建,每棵決策樹是基于前一棵決策樹的殘差生成的,由此導(dǎo)致每棵決策樹之間存在依賴關(guān)系。由于每次迭代均對上次的誤差進(jìn)行糾正,因此迭代優(yōu)化后的模型具有較好的擬合及預(yù)測效果。同時(shí),在目標(biāo)函數(shù)中加入正則化,不僅避免了過擬合問,而且也提高了模型的泛化能力。此外,XGBoost方法還可通過并行計(jì)算等提高模型訓(xùn)練速度和計(jì)算效率,適用于處理大規(guī)模數(shù)據(jù)和高維空間的情況。
第 i 個(gè)樣本第t棵樹的預(yù)測值可表示成如下形式:
其中, 為樣本i在循環(huán)迭代t次后的預(yù)測結(jié)果, fk ( xi )為第 k 棵決策樹的預(yù)測結(jié)果,且有 F
為映射函數(shù),用于把樣本映射到某個(gè)葉子節(jié)點(diǎn),wq(x) 為葉子節(jié)點(diǎn)的權(quán)重,T為葉子節(jié)點(diǎn)的數(shù)量。由式(6)的遞歸形式可得:
XGBoost方法的損失函數(shù)為:
其中, (fj? )為正則項(xiàng),用于控制樹的復(fù)雜程度,防止模型過擬合??蓪⑹剑?)中的正則項(xiàng)進(jìn)一步表示為:
將式(7)和式(9)帶入式(8),可得:
由泰勒公式可知,式(10)可近似表示成如下形式:
其中, gi 和 hi 分別為 )的一階導(dǎo)數(shù)和二階導(dǎo)數(shù)。
由于在 t 期時(shí)t-1期的值均為確定項(xiàng),因此損失函數(shù)可簡化為:
j Ω
式(12)表示成:
由于 gi 和 hi 在第t期時(shí)為已知,因此需求解最優(yōu)的 wj 使式(13)最小。令 ,
,wj 的最優(yōu)值及其對應(yīng)的目標(biāo)函數(shù)分別為:
葉子節(jié)點(diǎn)可通過貪心算法進(jìn)行分裂,在每個(gè)葉子節(jié)點(diǎn)列舉所有可用特征,然后將每個(gè)特征進(jìn)行升序排列,遍歷每個(gè)特征并計(jì)算該特征對應(yīng)的分裂增益,增益最大的特征即為最優(yōu)分裂點(diǎn)。某一節(jié)點(diǎn)特征分裂前和分裂后的目標(biāo)函數(shù)分別為:
其中, L 和R分別表示在該節(jié)點(diǎn)分裂的左右兩個(gè)新節(jié)點(diǎn)。分裂后的增益為:
當(dāng)樹達(dá)到最大深度、葉子節(jié)點(diǎn)數(shù)量小于特定閾值或者分裂帶來的增益小于 γ 時(shí),則停止分裂。每個(gè)特征對應(yīng)的增益同時(shí)也是評判特征重要性的依據(jù),如果某個(gè)特征在所有樹中的平均增益越大,則其對最終預(yù)測結(jié)果的貢獻(xiàn)也就越大,表明該特征的相對重要性越高。
此外,為進(jìn)一步避免過擬合,可根據(jù)Friedman(2002)提出的收縮方法將每棵樹的輸出結(jié)果乘以一個(gè)收縮系數(shù),從而降低每棵樹的影響并提升模型的泛化能力。即:
3.Boruta方法
由于RF方法和XGBoost方法在進(jìn)行特征篩選時(shí)需要人為的確定閾值,根據(jù)該閾值來決定特征的相對重要性,因此RF方法和XGBoost方法均存在一定的主觀性。同時(shí),根據(jù)損失函數(shù)最小化排除的特征僅表明該特征對降低損失函數(shù)沒有幫助,但并不能證明該特征與因變量無關(guān)。Boruta方法能夠從給定的數(shù)據(jù)集中篩選出與因變量相關(guān)的集合,而非特征重要性的排序,從而更為有效的過濾掉不重要的特征。而且在變量篩選過程中并不需要設(shè)定閾值來判斷特征是否重要,篩選結(jié)果更具客觀性。
不同于在特征之間進(jìn)行重要性對比,Boruta方法將影子特征作為比較基準(zhǔn),用于從隨機(jī)波動中識別出真正重要的特征。首先,將所有特征隨機(jī)打亂,由此生成的特征即為影子特征,然后將影子特征加人原有特征中形成新的特征集,在新特征集上計(jì)算特征的Z值。其中,Z值為特征重要性的均值與其標(biāo)準(zhǔn)差之比,特征重要性可由RF方法求得。在影子特征中找到最大的Z值并標(biāo)記為MZSA,標(biāo)記 Z值大于MZSA的特征,對未確定重要性的特征進(jìn)行原假設(shè)為Z值等于MZSA的雙邊檢驗(yàn)。將Z值顯著低于MZSA的特征標(biāo)記為不重要,并將其從特征集中剔除,將Z值顯著高于MZSA的特征標(biāo)記為重要。隨后移除所有影子特征并重復(fù)上述步驟,直至所有特征均被標(biāo)記或者達(dá)到事先設(shè)置的運(yùn)行次數(shù),由此可篩選出與因變量有關(guān)的相對重要的特征。
4.LASSO 方法
在大數(shù)據(jù)背景下,雖然能夠收集大量特征數(shù)據(jù)進(jìn)行建模,但存在有利用價(jià)值的信息相對有限的情形,導(dǎo)致僅有小部分自變量對因變量起決定性作用,其余自變量對因變量的影響可以忽略不計(jì)。如果利用全部變量進(jìn)行分析時(shí)不僅會產(chǎn)生過擬合現(xiàn)象,進(jìn)而降低模型的泛化能力,而且當(dāng)變量個(gè)數(shù)大于樣本個(gè)數(shù)時(shí),還會導(dǎo)致傳統(tǒng)線性回歸模型參數(shù)估計(jì)難的問題。Tibshirani(1996)提出的LASSO模型通過在目標(biāo)函數(shù)中施加懲罰項(xiàng),可將不重要的自變量系數(shù)稀疏化為0,從而能夠在眾多自變量中剔除不重要的變量,由此識別出重要的自變量。LASSO模型在降低模型復(fù)雜程度、提高模型泛化能力以及增強(qiáng)模型可解釋性等方面具有優(yōu)勢,是高維數(shù)據(jù)分析中實(shí)現(xiàn)降維及變量篩選的重要工具。
LASSO模型的損失函數(shù)為:
其中, 為正則項(xiàng)(L1范數(shù)),用于控制模型的復(fù)雜程度并將某些變量的系數(shù)壓縮至0,從而實(shí)現(xiàn)模型的稀疏性。 λ 為正則化參數(shù),可由交叉驗(yàn)證法求得, λ 越大則自變量系數(shù)為0的個(gè)數(shù)越多。β 可由坐標(biāo)下降法求得,先將參數(shù)初始化,然后在每次迭代過程中保持 βj ( j≠k )固定不變,求 βk 使最小化,則第 k 個(gè)坐標(biāo)軸方向?qū)?yīng)的最優(yōu)值為:
。隨后選取下一個(gè)坐標(biāo)軸方向進(jìn)行優(yōu)化,重復(fù)上述過程可得到每次迭代所有系數(shù)的更新值。當(dāng)更新后的系數(shù)變化較小或者達(dá)到預(yù)設(shè)的迭代次數(shù)時(shí)停止對系數(shù)更新。
5.RFE方法
RFE 方法是一種貪心的特征選擇方法,通過反復(fù)構(gòu)建模型并不斷刪除不重要的特征,從而篩選出最優(yōu)特征子集,所選擇的特征對目標(biāo)變量具有最大的預(yù)測能力。首先選擇線性回歸或者隨機(jī)森林等模型作為基礎(chǔ)的學(xué)習(xí)模型;其次將所有特征納人到學(xué)習(xí)模型中并計(jì)算特征的系數(shù)或特征重要性;再次將系數(shù)或特征重要性進(jìn)行排序并剔除系數(shù)或特征重要性較低的特征;最后用剩余特征重新建立模型并進(jìn)行反復(fù)迭代,直至達(dá)到預(yù)定的特征子集數(shù)量。特征子集數(shù)量可利用交叉驗(yàn)證法選擇令均方根誤差(RMSE)最小時(shí)對應(yīng)的特征子集。RFE方法能夠從原始特征集合中篩選出相對重要的特征子集,在實(shí)現(xiàn)降維的同時(shí)也能夠降低過擬合風(fēng)險(xiǎn),有助于減少冗余和噪音特征的十?dāng)_并提高模型的預(yù)測效果。
二、實(shí)證分析
(一)變量選取及數(shù)據(jù)處理
選取季度GDP增長率作為因變量,同時(shí)根據(jù)數(shù)據(jù)可得性,選取生產(chǎn)類、需求類、價(jià)格類、金融類以及景氣指數(shù)類等在內(nèi)的123維月度指標(biāo)作為宏觀數(shù)據(jù)集。其中,生產(chǎn)類指標(biāo)包括工業(yè)增加值、工業(yè)企業(yè)利潤、工業(yè)企業(yè)資產(chǎn)負(fù)債率、房屋施工面積、貨運(yùn)量、全社會用電量等。需求類指標(biāo)包括社會消費(fèi)品零售總額、限額以上企業(yè)商品零售額、固定資產(chǎn)投資完成額、進(jìn)出口金額、實(shí)際使用外資金額、商品房銷售面積、公共財(cái)政收入和支出等。價(jià)格類指標(biāo)包括居民消費(fèi)價(jià)格指數(shù)(CPI)、工業(yè)生產(chǎn)者出廠價(jià)格指數(shù)(PPI)和工業(yè)企業(yè)原料燃料動力購進(jìn)價(jià)格指數(shù)(PPIRM)細(xì)分指標(biāo)。金融類指標(biāo)包括貨幣供應(yīng)量、金融機(jī)構(gòu)新增人民幣貸款、貨幣當(dāng)局總資產(chǎn)、外匯儲備規(guī)模、社會融資規(guī)模、銀行間同業(yè)拆借加權(quán)平均利率、美元兌人民幣匯率、歐元兌人民幣匯率、日元兌人民幣匯率、股票總市值等。景氣指數(shù)類指標(biāo)包括中國制造業(yè)采購經(jīng)理指數(shù)(PMI)、美國制造業(yè)和非制造業(yè)PMI、歐元區(qū)制造業(yè)和服務(wù)業(yè)PMI、美國密歇根大學(xué)消費(fèi)者信心指數(shù)、歐元區(qū)經(jīng)濟(jì)景氣指數(shù)、歐元區(qū)消費(fèi)者信心指數(shù)、日本消費(fèi)者信心指數(shù)、日本經(jīng)濟(jì)觀察家現(xiàn)況指數(shù)以及日本景氣動向綜合指數(shù)等。樣本時(shí)間維度為2005年1月至2024年12月。季度GDP增速和月度指標(biāo)以累計(jì)同比為主,數(shù)據(jù)經(jīng)過標(biāo)準(zhǔn)化和平穩(wěn)化處理。在進(jìn)行變量篩選時(shí)由于自變量和因變量的頻率不同,需將數(shù)據(jù)進(jìn)行同頻化處理,月度非累計(jì)數(shù)據(jù)通過季度平均轉(zhuǎn)化為季度數(shù)據(jù),月度累計(jì)數(shù)據(jù)選取每個(gè)季度月末的數(shù)據(jù)與季度數(shù)據(jù)相匹配,月度存量數(shù)據(jù)選取每個(gè)季度月末的同比數(shù)據(jù)作為季度數(shù)據(jù)。
(二)變量篩選
在對變量進(jìn)行篩選時(shí),需確定各種篩選方法的相關(guān)參數(shù)。其中,利用5折交叉驗(yàn)證法確定RF方法樹的棵數(shù)ntree 和每棵樹的節(jié)點(diǎn)個(gè)數(shù) mtry,二者分別為227和123 時(shí)對應(yīng)的RMSE 最小,選取 MDA大于2的變量作為特征子集,最終選取52個(gè)變量。利用網(wǎng)格搜索法與5折交叉驗(yàn)證法確定XGBoost的相關(guān)參數(shù),樹的數(shù)量為100,每棵樹的最大深度為3, η=0.1 , γ=0.01 , λ=0.01 ,最終選取49個(gè)變量。在利用 Boruta方法進(jìn)行變量篩選時(shí),將最大的迭代次數(shù)設(shè)為30000 次,可篩選出與因變量有關(guān)的64個(gè)重要變量。利用5折交叉驗(yàn)證法確定LASSO模型中的正則化參數(shù) λ 為0.0095,由此篩選出22個(gè)變量。利用5折交叉驗(yàn)證法確定的RFE 模型最優(yōu)變量個(gè)數(shù)為34。此外,將向前逐步回歸法和Pearson相關(guān)系數(shù)法加入變量篩選方法的對比分析中,Pearson相關(guān)系數(shù)法選取的閾值為0.8,即選取自變量和因變量相關(guān)系數(shù)大于0.8時(shí)的變量。向前逐步回歸法和Pearson相關(guān)系數(shù)法分別選取55和23個(gè)變量作為特征子集。
研究結(jié)果發(fā)現(xiàn),不同篩選方法得到的特征子集存在相似之處。一方面,不同篩選方法均對原始數(shù)據(jù)集中的變量進(jìn)行大幅剔除,RF方法、XGBoost 方法、Boruta 方法、LASSO 方法、RFE 方法、向前逐步回歸法和相關(guān)系數(shù)法分別剔除了 57.7% 、 60.2% 、 48% 、 82.1% 、 72.4% 、 55.3% 和 81.3% 的變量。其中,Boruta方法對變量保留最多,LASSO 方法對變量保留的最少。另一方面,所有方法均將鮮果價(jià)格、衣著價(jià)格、歐元兌人民幣匯率、通訊器材類零售額、石油及制品類零售額、來源于利用外資的固定資產(chǎn)投資以及第一產(chǎn)業(yè)用電量剔除。所有方法均對外商及港澳臺投資企業(yè)的工業(yè)增加值進(jìn)行保留。在所有變量中,工業(yè)增加值、國有及國有控股企業(yè)的增加值、股份制企業(yè)的工業(yè)增加值、私營企業(yè)工業(yè)增加值、CPI、PPI、紡織原料類價(jià)格、美國制造業(yè)PMI、中國從業(yè)人員 PMI、化妝品類零售額、商品房銷售額、來源于國內(nèi)貸款的固定資產(chǎn)投資以及第二產(chǎn)業(yè)用電量被不同方法選中的次數(shù)較多,表明上述變量對GDP的預(yù)測較為重要。
與此同時(shí),每種方法得到的篩選結(jié)果存在一定差異。如Boruta方法將糧食價(jià)格、生活用品及服務(wù)價(jià)格、黑色金屬材料類價(jià)格、木材及紙漿類價(jià)格、流通中的貨幣(M0)、貨幣當(dāng)局總資產(chǎn)、社會融資規(guī)模、美國非制造業(yè)PMI、中國采購量PMI、工業(yè)企業(yè)利潤總額、固定資產(chǎn)投資本年施工項(xiàng)目計(jì)劃總投資額等指標(biāo)納人特征子集,而其余方法均將這些變量排除在外。RF方法對全部工業(yè)品價(jià)格、化工原料類價(jià)格、美元兌人民幣匯率、中國消費(fèi)者信心指數(shù)、日本消費(fèi)者信心指數(shù)、公路貨運(yùn)量、房屋施工面積、房屋新開工面積等指標(biāo)進(jìn)行保留,但這些指標(biāo)并未包含在其余方法中。即便LASSO方法和相關(guān)系數(shù)法均保留較少的變量,但二者之間的篩選結(jié)果也存在差異。如LASSO方法在CPI、鮮菜、水產(chǎn)品以及蛋類等價(jià)格方面的數(shù)據(jù)保留較多,而相關(guān)系數(shù)方法將價(jià)格類數(shù)據(jù)全部剔除。相關(guān)系數(shù)法保留了社會消費(fèi)品零售總額、公共財(cái)政收入、貨運(yùn)量增速、日用品類零售額、家具類零售額、第二產(chǎn)業(yè)和第三產(chǎn)業(yè)固定資產(chǎn)投資完成額、全社會用電量等指標(biāo),但LASSO方法卻未包含上述指標(biāo)。
(三)預(yù)測結(jié)果分析
將 2005年1月至2016年12月的數(shù)據(jù)作為訓(xùn)練集,進(jìn)行向前多步滾動預(yù)測,分析實(shí)時(shí)預(yù)測、向前1步預(yù)測和向前2步預(yù)測的預(yù)測效果,將 2017年1月至2024年12月的數(shù)據(jù)作為測試集。將均方預(yù)測誤差(MSFE)作為模型的評價(jià)標(biāo)準(zhǔn),其中, 。同時(shí),將全樣本數(shù)據(jù)作為模型比較的基準(zhǔn),如果經(jīng)變量篩選后的模型與全樣本數(shù)據(jù)模型的MSFE之比小于1,表明經(jīng)變量篩選后的預(yù)測效果優(yōu)于全樣本數(shù)據(jù)模型。FA-MIDAS 模型分別選取GADL權(quán)重函數(shù)模型、無約束模型(U-MIDAS)以及在 0ilt;1 時(shí)的當(dāng)期預(yù)測模型進(jìn)行分析。令式(1)中的h分別為1和2,當(dāng) h=2 時(shí)表明當(dāng)季數(shù)據(jù)僅發(fā)布前1個(gè)月的數(shù)據(jù),當(dāng) h=1 時(shí)表明當(dāng)季數(shù)據(jù)已發(fā)布前2個(gè)月的數(shù)據(jù),所得結(jié)果如表1所示。
由表1可知,與全樣本數(shù)據(jù)相比,經(jīng)RF方法篩選后的預(yù)測精度僅在實(shí)時(shí)預(yù)測情景中表現(xiàn)出一定改善,特別是對 h=2 時(shí)的U-MIDAS模型具有較為明顯提升,預(yù)測精度改進(jìn)幅度為 50.1% 。而在進(jìn)行向前1步預(yù)測和向前2步預(yù)測時(shí),經(jīng)RF方法篩選后的模型預(yù)測精度不但沒有提升,反而出現(xiàn)不同程度的下降。經(jīng)XGBoost方法篩選后的預(yù)測精度在向前1步預(yù)測情景中表現(xiàn)較好,僅在 h=2 時(shí)的當(dāng)期預(yù)測模型表現(xiàn)欠佳,其余模型均存在不同程度的改善。而且在 h=2 時(shí),GADL權(quán)重函數(shù)模型和U-MIDAS模型均具有較好的預(yù)測效果,預(yù)測精度的改善幅度普遍在 15% 以上,特別是在實(shí)時(shí)預(yù)測方面,GADL權(quán)重函數(shù)模型和U-MIDAS模型預(yù)測精度改進(jìn)幅度分別高達(dá) 35% 和 55% 。經(jīng)Boruta方法篩選后,U-MIDAS模型預(yù)測精度的改進(jìn)幅度較其他模型更為明顯,在 h=1 時(shí)的實(shí)時(shí)預(yù)測、向前1步預(yù)測和向前2步預(yù)測改進(jìn)幅度分別為 42.9% 、 14.3% 和 7.3% ,在 h=2 時(shí)的實(shí)時(shí)預(yù)測、向前1步預(yù)測和向前2步預(yù)測改進(jìn)幅度分別為 36.5% 、 29.6% 和 6.2% 。經(jīng)LASSO方法篩選后,各個(gè)模型的預(yù)測精度普遍提高。其中,在 h=1 時(shí)的實(shí)時(shí)預(yù)測、向前1步預(yù)測情景中,GADL權(quán)重函數(shù)模型的預(yù)測精度改進(jìn)幅度分別為 33.5% 和 11.9% ,U-MIDAS模型分別為 12.1% 和 20.2% ,當(dāng)期預(yù)測模型分別為 34.5% 和8.5% 。在 h=2 時(shí)的實(shí)時(shí)預(yù)測、向前1步預(yù)測情景中,GADL權(quán)重函數(shù)模型的預(yù)測精度改進(jìn)幅度分別為 48.7% 和 10.3% ,U-MIDAS模型的分別為 50.4% 和 25.7% 。經(jīng)RFE方法篩選后,當(dāng)期預(yù)測模型的預(yù)測效果較其他模型改善更好,在 h=1 時(shí)的實(shí)時(shí)預(yù)測、向前1步預(yù)測和向前2步預(yù)測改進(jìn)幅度分別為 8.3% 、 8.2% 和 9.2% ,在 h=2 時(shí)的向前1步預(yù)測和向前2步預(yù)測改進(jìn)幅度均在 10% 以上。經(jīng)逐步回歸方法篩選后的預(yù)測效果欠佳,僅在個(gè)別情景中存在改善,改善情景最好的為 h=1 時(shí)U-MIDAS模型做出的向前1步預(yù)測,其改進(jìn)幅度為 24.4% ,其余情景的預(yù)測精度均出現(xiàn)不同程度的降低。經(jīng)相關(guān)系數(shù)方法篩選后,模型普遍在實(shí)時(shí)預(yù)測情景中表現(xiàn)較好,預(yù)測精度改進(jìn)幅度最大的情景發(fā)生在 h=2 時(shí)的U-MIDAS 模型,改進(jìn)幅度高達(dá) 72.5% 。模型在向前1步預(yù)測中存在一定程度的改善,但普遍在向前2步預(yù)測中表現(xiàn)欠佳。
總體而言,在不同模型對應(yīng)的各種情景中,經(jīng)LASSO方法篩選后得到的預(yù)測效果較好,出現(xiàn)預(yù)測精度改善的情景占比為 77.8% 。其次為Boruta方法和RFE方法,二者預(yù)測精度改善的情景占比均為66.7% 。XGBoost方法有超過 50% 的情景出現(xiàn)改善,情景改善占比為 55.6% 。相關(guān)系數(shù)方法的情景改善占比為 50% 。逐步回歸方法和RF方法表現(xiàn)不佳,大部分情景中的預(yù)測精度低于全樣本數(shù)據(jù),僅分別有 27.8% 和 16.7% 的情景出現(xiàn)改善。
三、結(jié)論及展望
針對眾多變量可能包含低效甚至無效信息的情況,本文利用RF方法、XGBoost方法、Boruta 方法、LASSO方法和RFE方法等5種機(jī)器學(xué)習(xí)方法對變量進(jìn)行篩選,同時(shí)加入逐步回歸方法和相關(guān)系數(shù)方法2種常用的篩選方法進(jìn)行對比分析,在此基礎(chǔ)上建立FA-MIDAS 模型對我國季度GDP增速進(jìn)行預(yù)測。實(shí)證結(jié)果表明,盡管包含全部指標(biāo)的數(shù)據(jù)集具有最豐富的信息,但并非所有指標(biāo)均是有效的,部分與因變量無關(guān)指標(biāo)的加人反而會降低模型的預(yù)測精度。通過恰當(dāng)?shù)闹笜?biāo)篩選方法得到的特征子集,不僅能夠進(jìn)一步提升數(shù)據(jù)集的有效性,而且還能帶來預(yù)測精度的改進(jìn)。也應(yīng)注意到,部分指標(biāo)篩選方法不但沒有帶來預(yù)測效果的增益,其預(yù)測精度反而低于全樣本模型。因此,在進(jìn)行指標(biāo)篩選時(shí)需嘗試不同的方法,以此來提高篩選方法與預(yù)測模型的適配性。在本文比較分析的7種指標(biāo)篩選方法中,LASSO方法是一種有益的嘗試。
本文嘗試將機(jī)器學(xué)習(xí)方法與混頻模型進(jìn)行融合,并用于季度GDP增速預(yù)測的研究中,但在實(shí)踐過程中發(fā)現(xiàn)仍有以下幾點(diǎn)改進(jìn)空間:首先,本文發(fā)現(xiàn)RF方法和XGBoost方法所得的預(yù)測效果欠佳,一種可能的原因是RF方法和 XGBoost方法能夠準(zhǔn)確的捕捉到變量間的非線性關(guān)系,但所建立的FA-MIDAS 模型屬于線性模型,并不能對非線性關(guān)系進(jìn)行有效刻畫,從而降低了RF方法和XGBoost方法的適用性。因此,將FA-MIDAS 模型擴(kuò)展至非線性模型可能會進(jìn)一步提高預(yù)測的準(zhǔn)確性。其次,本文僅將機(jī)器學(xué)習(xí)方法前置化,用于變量篩選過程。但機(jī)器學(xué)習(xí)方法在經(jīng)濟(jì)預(yù)測中具有廣泛的應(yīng)用,例如可以將機(jī)器學(xué)習(xí)方法后置化,對不同模型的預(yù)測結(jié)果進(jìn)行集成學(xué)習(xí),進(jìn)而提高預(yù)測結(jié)果的準(zhǔn)確度與穩(wěn)健性。此外,在進(jìn)行變量篩選前的數(shù)據(jù)處理過程中,為得到同頻化數(shù)據(jù),本文僅將月度數(shù)據(jù)進(jìn)行季度算數(shù)平均,或取單月累計(jì)值處理,并沒有考慮每個(gè)月發(fā)布的月度數(shù)據(jù)指標(biāo)與季度指標(biāo)的內(nèi)在聯(lián)系。為提高指標(biāo)篩選的靈活性,可根據(jù)每個(gè)月發(fā)布的月度指標(biāo)進(jìn)行動態(tài)篩選。
參考文獻(xiàn):
1.秦磊、郁靜、孫強(qiáng):《混頻時(shí)間序列的潛在因子分析及其應(yīng)用》,《統(tǒng)計(jì)研究》,2019年第9期。
2.費(fèi)兆奇、劉康:《中國宏觀經(jīng)濟(jì)波動的高頻監(jiān)測研究——基于混頻模型對日度經(jīng)濟(jì)先行指數(shù)的構(gòu)建和分析》,《管理世界》,2019年第6期。
3.張偉、田金方、曹燦:《基于混頻大數(shù)據(jù)的宏觀經(jīng)濟(jì)總量實(shí)時(shí)預(yù)測研究》,《宏觀經(jīng)濟(jì)研究》,2020 年第2期。4.王霞、司諾、宋濤:《中國季度GDP的即時(shí)預(yù)測與混頻分析》,《金融研究》,2021年第8期。5.劉漢、劉營、王永晶:《季度實(shí)際GDP增長率混頻預(yù)報(bào)單調(diào)性的統(tǒng)計(jì)檢驗(yàn)》,《統(tǒng)計(jì)研究》,2023年第2期。6.鄔瓊:《混頻模型在我國宏觀經(jīng)濟(jì)預(yù)測中的應(yīng)用研究》,《價(jià)格理論與實(shí)踐》,2024年第2期。7.張延群、尹建兵、王妍艷等:《基于混頻動態(tài)因子模型的數(shù)字經(jīng)濟(jì)狀態(tài)指數(shù)構(gòu)建與預(yù)測研究——以杭州市為例》,《調(diào)研世界》,2024年第7期。8.何強(qiáng)、董志勇:《利用互聯(lián)網(wǎng)大數(shù)據(jù)預(yù)測季度GDP增速的方法研究》,《統(tǒng)計(jì)研究》,2020年第12期。9.閆政旭、秦超、宋剛:《基于Pearson特征選擇的隨機(jī)森林模型股票價(jià)格預(yù)測》,《算機(jī)工程與應(yīng)用》,2021年第15期。10.唐曉彬、劉博、劉江寧:《大維變量選擇、混頻因子模型與新冠肺炎疫情沖擊下的GDP現(xiàn)時(shí)預(yù)測》,《統(tǒng)計(jì)研究》,2022年第1期。11.鄭陽陽、鮑勤、汪壽陽:《基于大規(guī)模數(shù)據(jù)的中國經(jīng)濟(jì)增速實(shí)時(shí)預(yù)測》,《計(jì)量經(jīng)濟(jì)學(xué)報(bào)》,2023年第4期。12.易艷萍、黃德金、王熙:《基于宏觀大數(shù)據(jù)的GDP即時(shí)預(yù)測》,《經(jīng)濟(jì)學(xué)(季刊)》,2024年第3期。13.洪永森、汪壽陽:《大數(shù)據(jù)如何改變經(jīng)濟(jì)學(xué)研究范式?》,《管理世界》,2021年第10期。14.洪永淼、汪壽陽:《大數(shù)據(jù)、機(jī)器學(xué)習(xí)與統(tǒng)計(jì)學(xué):挑戰(zhàn)與機(jī)遇》,《計(jì)量經(jīng)濟(jì)學(xué)報(bào)》,2021年第1期。15.Ghysels,E.,Sinko,A.,amp; Valkanov,R. MIDAS Regressions: Further Results and New Directions. Econometric Re-views,Vol.26,2007.16.Marcelino,M.,amp; Schumacher,C.Factor MIDAS for Nowcasting and Forecasting with Ragged-Edge Data:A modelComparison for German GDP Oxford Bulletin of Economicsand Statistics,Vol. 72,2010.17.Doz,C.,Giannone,D.,amp; Reichlin,L.A Two-Step Estimator for Large Approximate Dynamic Factor Models BasedonKalman Filtering.Journal of Econometrics,Vol. 164,2011.18.Bai,J.,amp;Ng,S.Determining the NumberofFactors in ApproximateFactor Models.Econometrica,Vol.27,2002.19.Bai,J.,amp;Ng,S. Determining the Numberof Primitive Shocks inFactor Models.Journal of Business amp; Economic Sta-tistics,Vol.25,2007.20.Chen,Y.C.,amp; Tsay,W.J.Forecasting Commodity Prices with Mixed-Frequency Data:An OLS-Based General-ized ADL Approach.IEASWorking Paper,2011.21.Breiman,L. Random Forests. Machine Learning,Vol. 45,2001.22.Tibshirani,R.Regresion Shrinkageand SelectionViatheLasso.Journal of theRoyal StatisticalSociety:SeriesB(Methodological),Vol.58,1996.23.Friedman,J.H.Stochastic Gradient Boosting. Computational Statisticsamp; Data Analysis,Vol.38,2002.
責(zé)任編輯:郭霞