王文勝?吳娜
近年來(lái),互聯(lián)網(wǎng)大數(shù)據(jù)的快速發(fā)展對(duì)整個(gè)社會(huì)和經(jīng)濟(jì)的發(fā)展都產(chǎn)生了深遠(yuǎn)影響。研究學(xué)者發(fā)現(xiàn),互聯(lián)網(wǎng)搜索數(shù)據(jù)信息能夠幫助我們預(yù)測(cè)宏觀經(jīng)濟(jì)。選取百度搜索指數(shù)作為高頻解釋變量,采用不同權(quán)重函數(shù)形式的混頻數(shù)據(jù)模型(MIDAS)以及多變量組合預(yù)測(cè)模型預(yù)測(cè)分析其與我國(guó)季度GDP增長(zhǎng)率之間的關(guān)系。結(jié)果表明:對(duì)比同頻的傳統(tǒng)計(jì)量經(jīng)濟(jì)模型,MIDAS模型可以顯著降低預(yù)測(cè)誤差。在多變量組合預(yù)測(cè)模型中,在傳統(tǒng)政府統(tǒng)計(jì)指標(biāo)基礎(chǔ)上加入互聯(lián)網(wǎng)搜索行為數(shù)據(jù)信息作為補(bǔ)充,可以顯著提高對(duì)GDP增長(zhǎng)率的預(yù)測(cè)精度。其中,基于MFSE為權(quán)重函數(shù)形式的組合預(yù)測(cè)的效果最優(yōu)。因此,互聯(lián)網(wǎng)搜索行為數(shù)據(jù)可以作為GDP預(yù)測(cè)指標(biāo)體系的有效補(bǔ)充。
一、引言
宏觀經(jīng)濟(jì)的發(fā)展走向?qū)τ谡?jīng)濟(jì)政策的制定和企業(yè)的經(jīng)營(yíng)戰(zhàn)略的確定都有著極其重要的作用。如何科學(xué)有效地預(yù)測(cè)宏觀經(jīng)濟(jì)的發(fā)展是國(guó)內(nèi)外學(xué)者關(guān)注的重要課題。在宏觀經(jīng)濟(jì)中,GDP被視為最具概括性的宏觀經(jīng)濟(jì)指標(biāo)。因?yàn)樗o緊圍繞著生產(chǎn)創(chuàng)造的價(jià)值,衡量了整體經(jīng)濟(jì)的發(fā)展。但是傳統(tǒng)預(yù)測(cè)模型的局限性和經(jīng)濟(jì)數(shù)據(jù)的滯后性影響了GDP預(yù)測(cè)的精確度和時(shí)效性。
就現(xiàn)有的文獻(xiàn)來(lái)看,預(yù)測(cè)宏觀經(jīng)濟(jì)發(fā)展研究方法主要有傳統(tǒng)的計(jì)量經(jīng)濟(jì)模型、機(jī)器學(xué)習(xí)法、投入產(chǎn)出法等。近年來(lái)基于混頻數(shù)據(jù)模型處理宏觀經(jīng)濟(jì)的短期預(yù)測(cè)問(wèn)題的方法較為突出。許多宏觀經(jīng)濟(jì)數(shù)據(jù)頻率并不相同,例如GDP增長(zhǎng)率是按季度發(fā)布,但固定資產(chǎn)投資額同比增長(zhǎng)率等數(shù)據(jù)是按月度發(fā)布。因此傳統(tǒng)的計(jì)量經(jīng)濟(jì)模型同頻的要求就無(wú)法滿足。Ghysels, Santa-Clara, and Valkanov(2004)提出混頻數(shù)據(jù)模型,根據(jù)變量的特征、權(quán)重多項(xiàng)式函數(shù)和滯后階數(shù),綜合計(jì)算出該模型參數(shù)的最優(yōu)估計(jì)值,解決傳統(tǒng)計(jì)量模型中無(wú)法利用不同頻率數(shù)據(jù)的問(wèn)題。Pan等(2018)運(yùn)用時(shí)變參數(shù)MIDAS模型(TVP-MIDAS)研究原油價(jià)格的漲跌對(duì)美國(guó)實(shí)際增長(zhǎng)率的預(yù)測(cè)分析,研究表明該模型的預(yù)測(cè)效果相較于傳統(tǒng)預(yù)測(cè)模型更優(yōu)。在國(guó)內(nèi)有關(guān)MIDAS模型的研究中,徐劍剛、張曉蓉等(2007)將MIDAS模型應(yīng)用在金融領(lǐng)域。劉金全等(2010)結(jié)合MIDAS模型,證明該模型在研究宏觀經(jīng)濟(jì)發(fā)展中對(duì)混頻數(shù)據(jù)處理方面具有明顯的優(yōu)勢(shì)。劉漢等(2011)構(gòu)建了預(yù)測(cè)我國(guó)季度GDP的混頻數(shù)據(jù)模型,實(shí)證結(jié)果顯示:有關(guān)我國(guó)季度GDP增長(zhǎng)率的預(yù)測(cè),MIDAS模型具有即時(shí)性、可行性和精準(zhǔn)性等特點(diǎn)。
與此同時(shí),國(guó)內(nèi)外學(xué)者選取預(yù)測(cè)GDP的指標(biāo)從傳統(tǒng)的政府統(tǒng)計(jì)指標(biāo)轉(zhuǎn)向新興的微觀高頻數(shù)據(jù)。楊東偉(2013)選取我國(guó)電力消費(fèi)彈性指數(shù),研究分析宏觀經(jīng)濟(jì)增長(zhǎng)與電力消費(fèi)之間的規(guī)律與趨勢(shì)。盧秀等(2020)基于夜間燈光數(shù)據(jù)和土地利用數(shù)據(jù),對(duì)云南沿邊地區(qū)GDP進(jìn)行空間化和預(yù)測(cè)。近年來(lái),不同頻率數(shù)據(jù)的大量涌現(xiàn),海量的數(shù)據(jù)信息對(duì)整個(gè)社會(huì)和經(jīng)濟(jì)的發(fā)展有著深遠(yuǎn)影響。因此如何利用大數(shù)據(jù)對(duì)宏觀經(jīng)濟(jì)進(jìn)行分析預(yù)測(cè)是一個(gè)新領(lǐng)域。Schlegel(2014)研究如何用大數(shù)據(jù)信息進(jìn)行預(yù)測(cè)。劉濤雄和徐曉飛(2015)利用“兩步法”確定最優(yōu)模型,研究表明互聯(lián)網(wǎng)在線搜索行為數(shù)據(jù)能幫助預(yù)測(cè)宏觀經(jīng)濟(jì)。因此,作為互聯(lián)網(wǎng)搜索行為中的代表性數(shù)據(jù),百度搜索指數(shù)在一定程度上能夠反映經(jīng)濟(jì)的發(fā)展,成為預(yù)測(cè)宏觀經(jīng)濟(jì)的有效指標(biāo)。
基于以往的文獻(xiàn),文章使用百度搜索指數(shù)專業(yè)版數(shù)據(jù)庫(kù),利用傳統(tǒng)同頻計(jì)量模型、MIDAS模型和組合預(yù)測(cè)模型,對(duì)季度GDP增長(zhǎng)率預(yù)測(cè)進(jìn)行研究。文章可能存在以下的創(chuàng)新點(diǎn):一是根據(jù)我國(guó)的宏觀經(jīng)濟(jì)的發(fā)展特點(diǎn),從關(guān)于消費(fèi)、投資、進(jìn)出口、勞動(dòng)力、資本和技術(shù)創(chuàng)新六個(gè)方面選擇相應(yīng)的搜索關(guān)鍵詞。結(jié)合互聯(lián)網(wǎng)搜索行為信息數(shù)據(jù)和傳統(tǒng)政府統(tǒng)計(jì)指標(biāo)對(duì)季度GDP增長(zhǎng)率進(jìn)行預(yù)測(cè),有效提升預(yù)測(cè)的合理性。二是在構(gòu)建模型的過(guò)程中,不僅包括MIDAS模型,也通過(guò)不同權(quán)重函數(shù)構(gòu)建組合預(yù)測(cè)模型并找到其中最優(yōu)的模型。
二、模型構(gòu)建
(一)同頻預(yù)測(cè)模型
對(duì)于樣本數(shù)據(jù)中變量頻率不一致的問(wèn)題,最簡(jiǎn)單的解決方法是通過(guò)計(jì)算平均值將高頻數(shù)據(jù)轉(zhuǎn)化為與低頻數(shù)據(jù)相同的頻率。接著再對(duì)變量進(jìn)行簡(jiǎn)單回歸,構(gòu)建時(shí)間平均模型。
其中,和yt屬于同一時(shí)間域內(nèi)并且數(shù)據(jù)頻率相同,rj是時(shí)間平均x上的斜率系數(shù)。
時(shí)間平均模型是假設(shè)x的每個(gè)單獨(dú)觀測(cè)的斜率系數(shù)相等,步進(jìn)加權(quán)模型則是假設(shè)每個(gè)單獨(dú)觀測(cè)的斜率系數(shù)是不相等。
(二)混頻預(yù)測(cè)模型
時(shí)間平均模型存在很大局限性,會(huì)損失高頻數(shù)據(jù)中的潛在信息。步進(jìn)加權(quán)模型雖然保留了高頻數(shù)據(jù)的時(shí)間信息,但是需要估計(jì)大量的潛在參數(shù)。為了解決以上信息丟失和參數(shù)擴(kuò)散的問(wèn)題,Ghysels et al.(2004)提出了MIDAS模型:
其中,函數(shù)Φ(k;θ)是高頻變量的權(quán)重多項(xiàng)式。權(quán)函數(shù)Φ(k;θ)可以是任意數(shù)量的函數(shù)形式,文章采用四種函數(shù)形式,分別為Beta公式、Beta Non-Zero公式、Almon公式和Exp Almon公式,以此來(lái)保證參數(shù)節(jié)儉和模型的靈活性。
(三)多變量組合模型
組合預(yù)測(cè)模型是t時(shí)刻的預(yù)測(cè)組合,即n個(gè)h步向前預(yù)測(cè)的加權(quán)值。具體形式如下:
其中,M為解釋變量的個(gè)數(shù)。
文章選用四種不同的加權(quán)方案,分別為等權(quán)函數(shù)、AIC權(quán)函數(shù)、BIC權(quán)函數(shù)和MSFE-related權(quán)函數(shù)。
三、互聯(lián)網(wǎng)搜索行為數(shù)據(jù)對(duì)中國(guó)季度GDP增速預(yù)測(cè)的實(shí)證研究
(一)指標(biāo)選取與數(shù)據(jù)處理
百度搜索指數(shù)是用來(lái)衡量互聯(lián)網(wǎng)搜索行為的指標(biāo),其表示某關(guān)鍵詞在百度網(wǎng)頁(yè)搜索中搜索頻次的加權(quán)。根據(jù)何強(qiáng)、董志勇等人(2020)的研究,選取與宏觀經(jīng)濟(jì)增長(zhǎng)相關(guān)性較強(qiáng)的代表性關(guān)鍵詞并收集對(duì)應(yīng)的百度搜索指數(shù)。文章將搜索關(guān)鍵詞分為消費(fèi)、投資、進(jìn)出口、勞動(dòng)力、資本和技術(shù)進(jìn)步六大類。基于橫截面平均的思想,利用主成分分析對(duì)選取的30個(gè)搜索關(guān)鍵詞所對(duì)應(yīng)的百度搜索指數(shù)數(shù)據(jù)進(jìn)行降維。根據(jù)主成分選擇準(zhǔn)則確定六個(gè)關(guān)于百度搜索指數(shù)的主成分。根據(jù)成分矩陣對(duì)六個(gè)主成分進(jìn)行命名,分別為消費(fèi)類代表(PC1)、投資類代表(PC2)、進(jìn)出口類代表(PC3)、勞動(dòng)力類代表(PC4)、資本類代表(PC5)、技術(shù)進(jìn)步類代表(PC6)。
參照王國(guó)維和于揚(yáng)(2016)的研究,選取進(jìn)出口總額增速、社會(huì)消費(fèi)品零售總額增速、固定資產(chǎn)投資完成額增速這三個(gè)政府統(tǒng)計(jì)指標(biāo)作為控制變量,加入百度搜索指數(shù)作為補(bǔ)充進(jìn)行實(shí)證分析。文章選取的數(shù)據(jù)均為同比增長(zhǎng)率,樣本數(shù)據(jù)區(qū)間為2012年1月至2021年10月。在數(shù)據(jù)預(yù)處理方面,所有樣本數(shù)據(jù)進(jìn)行季節(jié)性調(diào)整和對(duì)數(shù)化差分處理。
(二)傳統(tǒng)預(yù)測(cè)模型與MIDAS模型的參數(shù)估計(jì)結(jié)果與對(duì)比分析
文章基于MIDAS模型通過(guò)百度搜索指數(shù)對(duì)我國(guó)季度GDP預(yù)測(cè)分析,采用估計(jì)方法分別為固定窗口估計(jì)和滾動(dòng)窗口估計(jì)。鑒于百度搜索指數(shù)(從2012年開始)樣本量較少,模型估計(jì)時(shí)只考慮最大的滯后階數(shù)為15。表2給出了不同權(quán)函數(shù)下MIDAS模型的預(yù)測(cè)效果。
比較分析不同估計(jì)預(yù)測(cè)窗口以及不同權(quán)函數(shù)下的MIDAS模型預(yù)測(cè)的MSFE值可以得出如下的結(jié)論:第一,所有MIDAS模型預(yù)測(cè)的MFSE值幾乎都小于簡(jiǎn)單時(shí)間平均模型和步進(jìn)加權(quán)模型,這就意味著基于MIDAS模型進(jìn)行的預(yù)測(cè)效果更好。第二,在四種權(quán)函數(shù)的MIDAS模型中,屬于Exp Almon和Almon形式的權(quán)函數(shù)的預(yù)測(cè)精準(zhǔn)度要更優(yōu)。
采用前文所述方法確定估計(jì)窗口和最優(yōu)權(quán)函數(shù),下圖展示了在滾動(dòng)窗口下各高頻解釋變量的最優(yōu)權(quán)函數(shù)的權(quán)重估計(jì)結(jié)果。
上圖展示了MIDAS模型中六個(gè)高頻解釋變量在最優(yōu)權(quán)函數(shù)下的權(quán)重估計(jì)結(jié)果。由于篇幅限制,文章只分析由滾動(dòng)窗口預(yù)測(cè)的輸出圖。其中,在代表技術(shù)進(jìn)步類(PC1)、資本類(PC4)和勞動(dòng)力類(PC5)的百度搜索指數(shù)對(duì)季度GDP增長(zhǎng)率預(yù)測(cè)中,模型中各滯后項(xiàng)前面的系數(shù)為正并在十階后趨向于零。這表明代表技術(shù)進(jìn)步類、資本類和勞動(dòng)力類的百度搜索指數(shù)對(duì)下一個(gè)季度GDP增速的影響效果為正。代表進(jìn)出口類(PC2)的百度搜索指數(shù)在前五階之前為負(fù),表明進(jìn)出口類代表的百度搜索指數(shù)對(duì)于下一個(gè)季度的GDP的影響效應(yīng)為負(fù),并且在五階滯后趨于零。代表投資類(PC3)的百度搜索指數(shù)在七階滯后之后對(duì)下一個(gè)季度GDP的影響效應(yīng)持續(xù)為正,即對(duì)投資領(lǐng)域關(guān)注度越高對(duì)經(jīng)濟(jì)增長(zhǎng)越有益。代表消費(fèi)類(PC6)的百度搜索指數(shù)在滯后三階至八階對(duì)下一個(gè)季度GDP增長(zhǎng)率的影響效應(yīng)為正。
(三)多變量組合模型預(yù)測(cè)分析
單變量MIDAS模型的預(yù)測(cè)效果會(huì)隨著樣本量和預(yù)測(cè)區(qū)間而發(fā)生改變。為了得到更有效、更精準(zhǔn)的季度GDP增速的預(yù)測(cè)結(jié)果,文章進(jìn)一步構(gòu)建多變量組合預(yù)測(cè)模型。文章采用等權(quán)重、AIC、MSFE、DMSFE這四種權(quán)重形式的組合預(yù)測(cè)方法進(jìn)行季度GDP增速的預(yù)測(cè)。與此同時(shí),設(shè)定兩種組合預(yù)測(cè)模型進(jìn)行對(duì)比:組合一為根據(jù)月度宏觀政府統(tǒng)計(jì)指標(biāo)對(duì)季度GDP增速進(jìn)行預(yù)測(cè);組合二為在組合一的基礎(chǔ)之上加入互聯(lián)網(wǎng)搜索行為指標(biāo)作為補(bǔ)充,對(duì)季度GDP增速進(jìn)行預(yù)測(cè)。通過(guò)組合一、二的對(duì)比分析來(lái)探究互聯(lián)網(wǎng)搜索行為是否可以預(yù)測(cè)季度GDP增速以及能否顯著提升模型的預(yù)測(cè)精度。根據(jù)Yu等(2018)的研究,本文采用MSFE、RMSE、MAE這三種指標(biāo)來(lái)衡量各組合預(yù)測(cè)模型的最終預(yù)測(cè)效果。結(jié)果如表2所示。
根據(jù)表2的結(jié)果可得到如下結(jié)論:第一,傳統(tǒng)政府統(tǒng)計(jì)指標(biāo)并加入互聯(lián)網(wǎng)搜索行為指標(biāo)進(jìn)行補(bǔ)充的組合預(yù)測(cè)模型(組合二)在AIC、MSFE、DMSFE的權(quán)函數(shù)形式下的組合預(yù)測(cè)誤差均顯著小于只有政府統(tǒng)計(jì)指標(biāo)的組合預(yù)測(cè)模型(組合一),證明百度搜索指數(shù)作為新的預(yù)測(cè)指標(biāo)加入對(duì)季度GDP增速的預(yù)測(cè)中可以顯著提升預(yù)測(cè)效果。這是因?yàn)榘俣人阉髦笖?shù)作為非結(jié)構(gòu)性數(shù)據(jù)可以提供除了傳統(tǒng)政府統(tǒng)計(jì)指標(biāo)之外有效的、潛在的增量信息從而提升模型的預(yù)測(cè)效果。第二,對(duì)于不同權(quán)函數(shù)形式的組合預(yù)測(cè),在MSFE、RMSE、MAE這三種損失函數(shù)下,基于MSFE權(quán)函數(shù)模型的預(yù)測(cè)誤差最小,即預(yù)測(cè)效果最優(yōu)。其也說(shuō)明該權(quán)重選擇方法對(duì)比等權(quán)重、AIC、DMSFE權(quán)函數(shù)形式在預(yù)測(cè)季度GDP方面具有較好的穩(wěn)健性。
四、結(jié)論與啟示
混頻數(shù)據(jù)模型相較于傳統(tǒng)計(jì)量經(jīng)濟(jì)模型更具靈活性和精準(zhǔn)性,在短期預(yù)測(cè)方面有著顯著優(yōu)勢(shì)。特別是在當(dāng)今大數(shù)據(jù)時(shí)代,隨著不同頻率數(shù)據(jù)的大量涌現(xiàn),MIDAS模型已成為宏觀經(jīng)濟(jì)分析和短期預(yù)測(cè)相關(guān)領(lǐng)域的重要工具。文章運(yùn)用不同權(quán)函數(shù)下的MIDAS模型對(duì)互聯(lián)網(wǎng)搜索行為指標(biāo)與季度GDP增速的關(guān)系進(jìn)行實(shí)證分析,結(jié)果表明以百度搜索指數(shù)為代表的互聯(lián)網(wǎng)搜索行為指標(biāo)是能夠?qū)暧^經(jīng)濟(jì)進(jìn)行預(yù)測(cè)的。不同權(quán)函數(shù)下的MIDAS模型的預(yù)測(cè)效果是不同的,其中基于Exp Almon和Almon的權(quán)函數(shù)的模型預(yù)測(cè)效果更優(yōu)。
在傳統(tǒng)政府統(tǒng)計(jì)的經(jīng)濟(jì)指標(biāo)中,加入互聯(lián)網(wǎng)搜索行為指標(biāo)能夠顯著提高模型對(duì)季度GDP增速的預(yù)測(cè)精準(zhǔn)度,從而幫助改進(jìn)模型的預(yù)測(cè)效果。其中,傳統(tǒng)政府統(tǒng)計(jì)指標(biāo)屬于結(jié)構(gòu)化數(shù)據(jù),其數(shù)據(jù)規(guī)范、噪音小,但是數(shù)據(jù)往往存在一定時(shí)間上的滯后。然而,互聯(lián)網(wǎng)搜索行為指標(biāo)屬于數(shù)據(jù)更新快、實(shí)時(shí)可得的非結(jié)構(gòu)性數(shù)據(jù),但有著數(shù)據(jù)信息噪音大、數(shù)據(jù)來(lái)源和形式多樣化的缺點(diǎn)。互聯(lián)網(wǎng)搜索行為指標(biāo)往往包含著傳統(tǒng)政府統(tǒng)計(jì)指標(biāo)所沒(méi)有的數(shù)據(jù)信息,因此其是對(duì)傳統(tǒng)宏觀經(jīng)濟(jì)指標(biāo)一定程度上的補(bǔ)充。兩種數(shù)據(jù)信息各有優(yōu)劣,在對(duì)宏觀經(jīng)濟(jì)進(jìn)行預(yù)測(cè)時(shí),合理應(yīng)用結(jié)構(gòu)和非結(jié)構(gòu)的數(shù)據(jù)信息兩種指標(biāo)可以有效降低預(yù)測(cè)誤差。
文章的實(shí)證結(jié)果還表明,對(duì)比單變量MIDAS模型,多變量組合的預(yù)測(cè)模型能夠顯著提高模型的預(yù)測(cè)精度,其中以MFSE為權(quán)重的組合模型的預(yù)測(cè)效果最優(yōu)。其背后的機(jī)理是將幾個(gè)預(yù)測(cè)精度較高的單變量MIDAS模型通過(guò)不同的權(quán)重組合起來(lái)進(jìn)行預(yù)測(cè),預(yù)測(cè)精度會(huì)得到顯著提升。對(duì)比傳統(tǒng)同頻計(jì)量經(jīng)濟(jì)模型,混頻數(shù)據(jù)模型可以深度攫取高頻數(shù)據(jù)中潛在的信息,充分利用樣本數(shù)據(jù)對(duì)我國(guó)宏觀經(jīng)濟(jì)波動(dòng)做出更精準(zhǔn)的預(yù)測(cè),對(duì)未來(lái)的經(jīng)濟(jì)趨勢(shì)做出合理的判斷和分析。文章的研究還存在很多的不足之處,比如互聯(lián)網(wǎng)在線搜索數(shù)據(jù)只選取百度搜索指數(shù),沒(méi)有充分利用其他的互聯(lián)網(wǎng)大數(shù)據(jù)的在線信息,存在一定程度上的局限性。
(作者單位:杭州電子科技大學(xué) 經(jīng)濟(jì)學(xué)院)
作者簡(jiǎn)介:王文勝,男,浙江武義人,博士,教授,博導(dǎo)。研究方向:統(tǒng)計(jì)理論與應(yīng)用研究
基金項(xiàng)目:國(guó)家自然科學(xué)基金項(xiàng)目(11671115)。