陽(yáng)向軍,謝金蕓,梁宗經(jīng),楊 昕
(1.廣西師范大學(xué)經(jīng)濟(jì)管理學(xué)院,廣西桂林 541004;2.桂林航天工業(yè)學(xué)院理學(xué)院,廣西桂林 541004)
在以往關(guān)于宏觀經(jīng)濟(jì)預(yù)警的研究中,我們通常需要通過(guò)觀測(cè)一組反映經(jīng)濟(jì)發(fā)展?fàn)顩r的敏感性指標(biāo)的變動(dòng)情況來(lái)判斷經(jīng)濟(jì)系統(tǒng)當(dāng)前的運(yùn)動(dòng)狀況和未來(lái)的發(fā)展趨勢(shì)[1-3]。但由于宏觀經(jīng)濟(jì)系統(tǒng)的非線性和不確定性問(wèn)題,傳統(tǒng)的預(yù)測(cè)和預(yù)警模型與實(shí)際系統(tǒng)存在較大的誤差[3]。近年來(lái)國(guó)內(nèi)學(xué)者在非線性宏觀經(jīng)濟(jì)預(yù)測(cè)模型方面進(jìn)行了許多大膽創(chuàng)新和嘗試,包括神經(jīng)網(wǎng)絡(luò)(賀京同等,2000)[3]、模糊數(shù)學(xué)(陳又星和徐輝,2010)[4]、行為經(jīng)濟(jì)學(xué)理論(肖爭(zhēng)艷和陳彥斌,2006)[5]等。當(dāng)前各文獻(xiàn)的預(yù)測(cè)方法所用數(shù)據(jù)主要來(lái)源于各級(jí)政府部門、行業(yè)協(xié)會(huì)的統(tǒng)計(jì)數(shù)據(jù),其具有滯后性特征,根據(jù)這些滯后數(shù)據(jù)所建立的預(yù)測(cè)不具時(shí)效性,不能實(shí)現(xiàn)實(shí)時(shí)預(yù)測(cè)監(jiān)測(cè)。因此,尋找質(zhì)量更高的數(shù)據(jù)資源對(duì)預(yù)測(cè)結(jié)果的改善具有重要意義。
近年來(lái),網(wǎng)絡(luò)搜索引擎查詢數(shù)據(jù)的出現(xiàn)使宏觀經(jīng)濟(jì)的實(shí)時(shí)預(yù)測(cè)預(yù)警成為可能。隨著社會(huì)信息化的不斷發(fā)展,網(wǎng)絡(luò)已成為日常生活、企業(yè)發(fā)展、政府管理必不可少的信息來(lái)源,搜索引擎則是查詢信息的主要工具。搜索引擎查詢數(shù)據(jù)是用戶使用搜索引擎查詢信息后所記錄下來(lái)的歷史數(shù)據(jù),包含了用戶的豐富信息。網(wǎng)絡(luò)用戶的搜索行為通過(guò)關(guān)鍵詞搜索來(lái)實(shí)現(xiàn)。搜索查詢關(guān)鍵詞的選取與外部的經(jīng)濟(jì)環(huán)境、社會(huì)環(huán)境和個(gè)人情況等密切相關(guān),這種相關(guān)性近年來(lái)引起了國(guó)外學(xué)者的關(guān)注。Jeremy Ginsberg 等(2009)[6]通過(guò)分析發(fā)現(xiàn)Google 中與流感相關(guān)的部分關(guān)鍵詞搜索量與美國(guó)疾病控制和防治中心發(fā)布的流感看診量數(shù)據(jù)有很強(qiáng)的相關(guān)性,并指出監(jiān)測(cè)每天全世界數(shù)百萬(wàn)用戶在搜索引擎上提交的關(guān)于求醫(yī)行為的查詢是一種可以改進(jìn)疾病早期檢測(cè)的手段。國(guó)外隨后興起了相關(guān)研究,研究成果表明網(wǎng)絡(luò)搜索數(shù)據(jù)與經(jīng)濟(jì)周期(Suhoy,2009)[7]、失業(yè)率(Askitas 和Zimmermann,2009)[8]、個(gè)人消費(fèi)者指數(shù)(Konstantin 等,2009)[9]、零售業(yè)銷售(Choi 和Varian,2009)[10]、房地產(chǎn)行業(yè)銷售(Wu 和Erik,2014)[11]、股票價(jià)格波動(dòng)(Zhi 和Joseph,2009)[12]等相關(guān)。國(guó)內(nèi)學(xué)者近年來(lái)也對(duì)網(wǎng)絡(luò)搜索數(shù)據(jù)應(yīng)用進(jìn)行了探討:在金融領(lǐng)域,研究了網(wǎng)絡(luò)搜索數(shù)據(jù)與金融市場(chǎng)的量化交易行為之間的相關(guān)性,從不同角度驗(yàn)證了基于網(wǎng)絡(luò)搜索來(lái)預(yù)測(cè)股票市場(chǎng)是可行的(劉穎等,2011[13];俞慶進(jìn)和張兵,2012[14];趙龍凱等,2013[15];楊欣等,2013[16];張誼浩等,2014[17]);在經(jīng)濟(jì)領(lǐng)域,從宏觀層面研究了網(wǎng)絡(luò)搜索數(shù)據(jù)與國(guó)內(nèi)CPI(張崇等,2012)[18]、失業(yè)率(彭賡等,2013)[19]、通貨膨脹(孫毅等,2014)[20]之間的關(guān)系;在行業(yè)層面,探討了網(wǎng)絡(luò)搜索數(shù)據(jù)在汽車銷售量預(yù)測(cè)(袁慶玉等,2011)[21]、房地產(chǎn)價(jià)格預(yù)測(cè)(董倩等,2014)[22]、旅游客流量預(yù)測(cè)(任樂(lè)和崔東佳,2014)[23]和消費(fèi)者信心指數(shù)構(gòu)建(孫毅等,2014)[24]的應(yīng)用。各項(xiàng)實(shí)證研究均顯示引入網(wǎng)絡(luò)搜索數(shù)據(jù)的預(yù)測(cè)模型具有較強(qiáng)的實(shí)效性和良好的預(yù)測(cè)效果。
綜上國(guó)內(nèi)外文獻(xiàn)可知,網(wǎng)絡(luò)搜索數(shù)據(jù)研究已逐步成為指標(biāo)預(yù)測(cè)領(lǐng)域的一個(gè)新的重要的研究方向。但現(xiàn)有國(guó)內(nèi)的相關(guān)研究大部分是針對(duì)宏觀層面或者行業(yè)層面的指標(biāo)預(yù)測(cè),鮮見(jiàn)針對(duì)區(qū)域經(jīng)濟(jì)預(yù)測(cè)的成果。李方一等(2016)[25]基于百度搜索指數(shù)與經(jīng)濟(jì)指標(biāo)之間的相關(guān)關(guān)系,運(yùn)用多元回歸方法構(gòu)建了安徽省區(qū)域經(jīng)濟(jì)預(yù)測(cè)模型,但該文獻(xiàn)并未充分考慮網(wǎng)絡(luò)搜索數(shù)據(jù)的特點(diǎn)去構(gòu)建多種模型進(jìn)行比較選擇。本文借鑒文獻(xiàn)[26]的研究思路,采用不同的方法構(gòu)建廣西區(qū)域經(jīng)濟(jì)預(yù)測(cè)模型。文章選取工業(yè)總產(chǎn)值和居民消費(fèi)價(jià)格指數(shù)作為預(yù)測(cè)的基準(zhǔn)指標(biāo),若干個(gè)百度搜索關(guān)鍵詞和與經(jīng)濟(jì)波動(dòng)相關(guān)的政府統(tǒng)計(jì)指標(biāo)作為分析的備選指標(biāo),利用從備選指標(biāo)中選出的先行指標(biāo)分別構(gòu)建自回歸差分移動(dòng)平均(Autoregressive Integrated Moving Average,ARIMA)和自回歸分布滯后(Autoregressive Distributed Lag Model,ARDL)兩個(gè)系列的多個(gè)模型進(jìn)行實(shí)證分析。研究將即時(shí)的網(wǎng)絡(luò)搜索數(shù)據(jù)納入?yún)^(qū)域經(jīng)濟(jì)的預(yù)測(cè)系統(tǒng),擬通過(guò)構(gòu)建和對(duì)比多種模型去探究網(wǎng)絡(luò)搜索數(shù)據(jù)能否優(yōu)化僅使用政府統(tǒng)計(jì)指標(biāo)的區(qū)域經(jīng)濟(jì)預(yù)測(cè)模型。
1.指標(biāo)選取
(1)預(yù)測(cè)的基準(zhǔn)指標(biāo)。本研究選取能反映區(qū)域經(jīng)濟(jì)狀況的5 類指標(biāo)表征區(qū)域經(jīng)濟(jì)發(fā)展變化,包括經(jīng)濟(jì)發(fā)展指標(biāo)(工業(yè)總產(chǎn)值)、價(jià)格指標(biāo)(居民消費(fèi)價(jià)格指數(shù))、外貿(mào)指標(biāo)(出口總額)、金融指標(biāo)(金融機(jī)構(gòu)各項(xiàng)貸款總額)和人力資本指標(biāo)(失業(yè)率)。后3項(xiàng)指標(biāo)后續(xù)擬另文探討,本文只將工業(yè)總產(chǎn)值和居民消費(fèi)價(jià)格指數(shù)作為基準(zhǔn)指標(biāo)納入預(yù)測(cè)機(jī)制,從生產(chǎn)和消費(fèi)兩個(gè)不同的角度預(yù)測(cè)廣西區(qū)域經(jīng)濟(jì)的增長(zhǎng)。工業(yè)總產(chǎn)值是工業(yè)企業(yè)在一定時(shí)期內(nèi)生產(chǎn)的以貨幣形式表現(xiàn)的工業(yè)最終產(chǎn)品和提供工業(yè)性勞務(wù)活動(dòng)的總價(jià)值量①該定義取自國(guó)家統(tǒng)計(jì)局官網(wǎng)http://data.stats.gov.cn/.,可反映一定時(shí)期內(nèi)工業(yè)生產(chǎn)的總規(guī)模和總水平;居民消費(fèi)價(jià)格指數(shù)是反映一定時(shí)期內(nèi)居民所消費(fèi)商品及服務(wù)項(xiàng)目的價(jià)格水平變動(dòng)趨勢(shì)和變動(dòng)程度的指標(biāo)②該定義取自國(guó)家統(tǒng)計(jì)局官網(wǎng)http://data.stats.gov.cn/.,是衡量通貨膨脹或者通貨緊縮最重要的價(jià)格指數(shù)。
(2)分析的備選指標(biāo)。研究中考慮到網(wǎng)絡(luò)搜索數(shù)據(jù)具有高維性、結(jié)構(gòu)復(fù)雜性和較大噪音的特點(diǎn),而政府統(tǒng)計(jì)數(shù)據(jù)則相對(duì)嚴(yán)謹(jǐn)和噪音小,故建模過(guò)程中我們區(qū)別使用兩類數(shù)據(jù),將分析的備選指標(biāo)分為政府統(tǒng)計(jì)數(shù)據(jù)和網(wǎng)絡(luò)搜索數(shù)據(jù)兩類考慮:①根據(jù)全面性、可靠性、穩(wěn)定性、時(shí)效性、不可替代性的指標(biāo)選取原則,結(jié)合廣西經(jīng)濟(jì)發(fā)展綜合情況,并參考相關(guān)文獻(xiàn)(晏露蓉和吳偉,2005[27];高鐵梅等,2006[28];陳可嘉和劉思峰,2010[29]),本文選取投資、消費(fèi)、工業(yè)、財(cái)政、生產(chǎn)指數(shù)、貨幣、物流、外貿(mào)、工業(yè)企業(yè)和金融十大類47 個(gè)經(jīng)濟(jì)指標(biāo)作為分析的備選指標(biāo),其中廣西區(qū)域經(jīng)濟(jì)指標(biāo)35 個(gè),國(guó)家經(jīng)濟(jì)指標(biāo)12 個(gè);②借助百度指數(shù)推薦功能以及關(guān)鍵詞搜索網(wǎng)站站長(zhǎng)工具,并借鑒相關(guān)文獻(xiàn)(董倩等,2014[22];樊國(guó)虎,2014[30];吳英明,2018[31]),篩選了涉及經(jīng)濟(jì)、就業(yè)、生活、物價(jià)、購(gòu)房、投資、旅游等方面的75 個(gè)高頻率搜索詞匯也作為備選指標(biāo)。備選指標(biāo)共計(jì)122 個(gè)。
2.樣本選取和數(shù)據(jù)來(lái)源
選取廣西2012 年1 月—2017 年12 月相關(guān)指標(biāo)的月度數(shù)據(jù)為研究樣本,其中2012 年1 月—2017年9 月的數(shù)據(jù)作為訓(xùn)練集用于構(gòu)建模型,2017 年10月—2017 年12 月的數(shù)據(jù)作為測(cè)試集用于檢驗(yàn)預(yù)測(cè)效果。目前百度搜索是國(guó)內(nèi)最主要的搜索引擎工具,本文使用百度搜索指數(shù)代表網(wǎng)絡(luò)搜索數(shù)據(jù)。各數(shù)據(jù)來(lái)源于國(guó)家統(tǒng)計(jì)局、廣西壯族自治區(qū)統(tǒng)計(jì)局、中國(guó)經(jīng)濟(jì)與社會(huì)發(fā)展統(tǒng)計(jì)數(shù)據(jù)庫(kù)和百度搜索引擎③百度公司沒(méi)有提供可以直接下載的百度指數(shù)數(shù)據(jù),作者利用軟件手工整理完成了相關(guān)指標(biāo)百度指數(shù)原始數(shù)據(jù)的收集。,其中百度搜索指數(shù)為廣西的PC 搜索指數(shù)。
1.理論模型。本文的被解釋變量為2 個(gè)區(qū)域經(jīng)濟(jì)指標(biāo):工業(yè)總產(chǎn)值和居民消費(fèi)價(jià)格指數(shù)。為方便起見(jiàn),我們使用yt表示被解釋變量,t=1,2,…,T 表示時(shí)期,yt-i表示被解釋變量滯后i 期的值;解釋變量為從各分析備選指標(biāo)中選出來(lái)的符合條件的先行指標(biāo),分為政府統(tǒng)計(jì)指標(biāo)和網(wǎng)絡(luò)搜索指標(biāo)兩類,分別用Xmt和Znt表示,其中Xmt=(x1t,x2t,…,xmt)是m×1 的向量,每一個(gè)分量xkt代表一個(gè)政府統(tǒng)計(jì)指標(biāo),共有m 個(gè)指標(biāo);Znt=(z1t,z2t,…,znt)是n×1 的向量,每一個(gè)分量zjt代表一個(gè)網(wǎng)絡(luò)搜索指標(biāo),共有n個(gè)指標(biāo)。研究中為了減少波動(dòng)性和異方差對(duì)計(jì)量結(jié)果的影響,我們對(duì)上述變量取自然對(duì)數(shù)后再依次構(gòu)建ARMA 和ARDL 兩個(gè)系列的5 個(gè)不同的模型。
首先,我們考慮利用被解釋變量t 期之前的信息去預(yù)測(cè)t 期的值,構(gòu)建yi的自回歸差分移動(dòng)平均模型ARIMA(p,d,q),如式(1)。當(dāng)差分階數(shù)d=0,即時(shí)間序列為平穩(wěn)序列時(shí),ARIMA(p,d,q)變?yōu)锳RMA(p,q)模型,如式(2)。
其次,我們將lnxkt、lnzjt和它們的不同組合納入解釋變量,構(gòu)建ARDL 系列模型,其中模型(3)包含yi自身的信息和政府統(tǒng)計(jì)指標(biāo)Xmt,記為ARDL+X;模型(4)包含yi自身信息和網(wǎng)絡(luò)搜索指標(biāo)Znt,記為ARDL+Z;模型(5)包含yi自身信息、政府統(tǒng)計(jì)指標(biāo)Xmt和網(wǎng)絡(luò)搜索數(shù)據(jù)Znt,記為ARDL+X+Z。
式(1)~式(5)中,yt、xkt、zjt、t、d 的含義如上所述,p 為解釋變量的自回歸階數(shù),q1、q2為解釋變量的滯后階數(shù),εit為被解釋變量在t 時(shí)期的誤差項(xiàng),ui為常數(shù)項(xiàng),αi、βi、γi是各解釋變量的估計(jì)系數(shù),Δ 表示差分方程,即Δlnyit=lnyt-lnyt-1。
2.模型參數(shù)的挑選。上文我們構(gòu)建了5 個(gè)包含被解釋變量自身信息、政府統(tǒng)計(jì)數(shù)據(jù)、網(wǎng)絡(luò)搜索數(shù)據(jù)或它們的不同組合做解釋變量的模型,期望從中選出最佳預(yù)測(cè)模型。在遴選最優(yōu)模型的過(guò)程中,如果解釋變量中包含指標(biāo)太多,容易導(dǎo)致過(guò)度參數(shù)化,而包含指標(biāo)太少則會(huì)遺漏掉重要信息導(dǎo)致預(yù)測(cè)出現(xiàn)偏差。如何從眾多的解釋變量中挑選出少數(shù)重要變量是研究中一個(gè)關(guān)鍵步驟。我們的做法是先通過(guò)時(shí)差相關(guān)分析法選出符合一定標(biāo)準(zhǔn)的先行指標(biāo),然后通過(guò)單位根檢驗(yàn)和格蘭杰因果檢驗(yàn)等方法篩選符合建模條件的指標(biāo)作為解釋變量,采用AIC、BC 準(zhǔn)則等方法確定各解釋變量的滯后階數(shù),并運(yùn)用一些統(tǒng)計(jì)檢驗(yàn)方法(如t 檢驗(yàn)檢驗(yàn)?zāi)P拖禂?shù)的顯著性,DW檢驗(yàn)自相關(guān)等)逐步剔除變量,最終將與被解釋變量相關(guān)性較強(qiáng)且通過(guò)顯著性檢驗(yàn)的先行指標(biāo)納入模型,經(jīng)過(guò)多次運(yùn)行不同變量的組合確定最優(yōu)模型。
1.數(shù)據(jù)預(yù)處理
本文建模前先對(duì)原始數(shù)據(jù)進(jìn)行如下預(yù)處理:(1)文中所有指標(biāo)均采用月度數(shù)據(jù),所獲取的關(guān)鍵詞百度指數(shù)數(shù)據(jù)頻度為日度,我們已將百度指數(shù)日度數(shù)據(jù)合成為月度數(shù)據(jù)。(2)因國(guó)家統(tǒng)計(jì)部門從2012年起不再對(duì)一月份的統(tǒng)計(jì)數(shù)據(jù)單獨(dú)調(diào)查,故本文部分經(jīng)濟(jì)指標(biāo)的數(shù)據(jù)存在缺失值,我們采用SPSS 軟件相應(yīng)功能替換和補(bǔ)全數(shù)據(jù)缺失值。(3)為了消除數(shù)據(jù)季節(jié)性、周期性、趨勢(shì)性的影響,我們運(yùn)用乘法模型對(duì)除居民消費(fèi)價(jià)格指數(shù)、商品零售價(jià)格指數(shù)以外的經(jīng)濟(jì)指標(biāo)和搜索指數(shù)關(guān)鍵詞進(jìn)行季節(jié)調(diào)整。
2.篩選先行指標(biāo)
我們將預(yù)處理后的基準(zhǔn)指標(biāo)與備選指標(biāo)進(jìn)行時(shí)差相關(guān)分析,篩選出各個(gè)指標(biāo)在相關(guān)系數(shù)絕對(duì)值最大時(shí)的超前或滯后階數(shù),并通過(guò)每個(gè)指標(biāo)的超前或滯后階數(shù)去判斷各個(gè)基準(zhǔn)指標(biāo)與備選指標(biāo)在時(shí)間上的對(duì)應(yīng)關(guān)系是先行、一致或者滯后。由于研究的主要目的是進(jìn)行經(jīng)濟(jì)預(yù)測(cè),所以我們?cè)谌愔笜?biāo)中僅選取先行指標(biāo)建模。通過(guò)對(duì)各先行指標(biāo)與廣西工業(yè)總產(chǎn)值和居民消費(fèi)價(jià)格指數(shù)進(jìn)行相關(guān)性檢驗(yàn),剔除相關(guān)性較弱的指標(biāo)(本文選定弱相關(guān)的臨界值為0.325)①指標(biāo)選取臨界值為0.325 的理由:本研究建模樣本數(shù)n 為67,根據(jù)兩變量之間線性關(guān)系的r 檢驗(yàn)法[32]查相關(guān)系數(shù)檢驗(yàn)臨界值表可知,在1%的顯著水平下,只要兩個(gè)變量的相關(guān)系數(shù)的觀察值|r|大于臨界值ra(n-2)=0.325,就認(rèn)為兩個(gè)變量之間有顯著的線性關(guān)系。。以基準(zhǔn)指標(biāo)“工業(yè)總產(chǎn)值”與備選指標(biāo)“金融危機(jī)-廣西百度指數(shù)”為例,我們先計(jì)算了備選指標(biāo)從-12 階到+12 階與基準(zhǔn)指標(biāo)的相關(guān)系數(shù),然后取相關(guān)系數(shù)絕對(duì)值最大時(shí)對(duì)應(yīng)的階數(shù)作為備選指標(biāo)的最終時(shí)差,各相關(guān)系數(shù)的計(jì)算結(jié)果如表1 所示,從表1 可確定備選指標(biāo)“金融危機(jī)-廣西百度指數(shù)”的滯后階數(shù)為-6。
表1 “工業(yè)總產(chǎn)值”與“金融危機(jī)-廣西百度指數(shù)”的時(shí)差相關(guān)分析結(jié)果
運(yùn)用上述方法,我們對(duì)其余121 個(gè)備選指標(biāo)與基準(zhǔn)指標(biāo)“工業(yè)總產(chǎn)值”和“居民消費(fèi)價(jià)格指數(shù)”分別進(jìn)行了時(shí)差相關(guān)分析,其中相關(guān)系數(shù)絕對(duì)值大于0.325 的指標(biāo)分別為110 個(gè)和108 個(gè)??紤]到模型中解釋變量不宜太多且本研究?jī)H需要先行指標(biāo)進(jìn)行預(yù)測(cè),我們?cè)谄渲羞x取了與基準(zhǔn)指標(biāo)最密切關(guān)聯(lián)(按照相關(guān)系數(shù)絕對(duì)值的大小選?。┣視r(shí)差或延遲數(shù)L<-3 的先行指標(biāo)作為建模的備選指標(biāo),每個(gè)基準(zhǔn)指標(biāo)包含10 個(gè)政府統(tǒng)計(jì)指標(biāo)和10 個(gè)百度搜索指標(biāo)。擬選用先行指標(biāo)的時(shí)差相關(guān)分析結(jié)果如表2 所示。
表2 時(shí)差相關(guān)分析篩選出的先行指標(biāo)
根據(jù)上述選取的先行指標(biāo)對(duì)應(yīng)的最佳滯后階數(shù)對(duì)數(shù)據(jù)進(jìn)行月度平移調(diào)整得到新的數(shù)據(jù)集,對(duì)新數(shù)據(jù)集進(jìn)行自變量和因變量的相關(guān)性分析,結(jié)果顯示調(diào)整后的指標(biāo)通過(guò)相關(guān)性檢驗(yàn),可以用來(lái)建立預(yù)測(cè)模型。
3.預(yù)測(cè)模型構(gòu)建
(1)單位根檢驗(yàn)。本文以工業(yè)總產(chǎn)值(y1)和居民消費(fèi)價(jià)格指數(shù)(y2)為被解釋變量,以上文篩選出來(lái)的表2 中的先行指標(biāo)按照其最佳滯后階數(shù)變換后的數(shù)值為解釋變量建模。為了減少波動(dòng)性和異方差對(duì)計(jì)量結(jié)果的影響,我們先對(duì)各序列取對(duì)數(shù)再進(jìn)行ADF 單位根檢驗(yàn)。ARDL 模型要求建模數(shù)據(jù)序列必須為0 階單整(即I(0))或1 階單整(I(1)),但不要求同時(shí)同階穩(wěn)定。工業(yè)總產(chǎn)值(y1)及相關(guān)序列的檢驗(yàn)結(jié)果為:lny1為I(1),lna1、lna2、lna3、lna4、lna6、lna8、lna9、lna11、lna12、lna13、lna14、lna16、lna17、lna18 共14 個(gè)序列為I(1),符合ARDL 建模標(biāo)準(zhǔn),lna5、lna7、lna10、lna15、lna19、lna20 共6 個(gè)序列為I(2),不符合ARDL 建模標(biāo)準(zhǔn)。居民消費(fèi)價(jià)格指數(shù)(y2)及相關(guān)序列的檢驗(yàn)結(jié)果:lny2為I(0),lna23、lna24、lna27、lna28、lna30、lna32、lna38、lna39、lna40 共9 個(gè)序列為I(0),lna26、lna29、lna31、lna33、lna36、lna37 共7 個(gè)序列為I(1),這16 個(gè)序列符合ARDL 建模標(biāo)準(zhǔn);lna21、lna22、lna25、lna34 共4 個(gè)序列為I(2),不符合ARDL建模標(biāo)準(zhǔn)。我們對(duì)符合建模標(biāo)準(zhǔn)的變量進(jìn)行了格蘭杰因果檢驗(yàn),共8 個(gè)變量是工業(yè)總產(chǎn)值的格蘭杰原因,7 個(gè)變量是居民消費(fèi)價(jià)格指數(shù)的格蘭杰原因,結(jié)果如表3、表4 所示。根據(jù)單位根檢驗(yàn)和格蘭杰因果檢驗(yàn)的結(jié)果并通過(guò)經(jīng)濟(jì)分析,我們最后在工業(yè)總產(chǎn)值(y1)預(yù)測(cè)模型中選擇了lna1(固定資產(chǎn)投資當(dāng)期值)、lna4(對(duì)東盟地區(qū)出口總額當(dāng)期值)、lna6(發(fā)電量當(dāng)月值)、lna11(GDP-廣西百度指數(shù))、lna12(貨幣政策-廣西百度指數(shù))和lna18(房貸-廣西百度指數(shù))作為自變量;在居民消費(fèi)價(jià)格指數(shù)(y2)模型中選擇了lna26(郵電業(yè)務(wù)總量)、lna29(地方財(cái)政預(yù)算收入)、lna30(汽油產(chǎn)量當(dāng)期值)、lna36(房產(chǎn)稅-廣西百度指數(shù))、lna38(金融-廣西百度指數(shù))、lna39(食品安全-廣西百度指數(shù))作為自變量。
(2)模型的計(jì)量結(jié)果及分析。我們將篩選出來(lái)的自變量納入模型進(jìn)行估計(jì),工業(yè)總產(chǎn)值模型中用x1、x2、x3 和z1、z2、z3 分別表示a1t-4、a4t-4、a6t-4和a11t-4、a12t-4、a18t-5,居民消費(fèi)價(jià)格指數(shù)模型中用x4、x5、x6 和z4、z5、z6 分別表示a26t-6、a29t-4、a30t-5和a36t-4、a38t-5、a39t-5①變量的滯后階數(shù)如表2 所示。。根據(jù)方程(1)~(5)構(gòu)建ARIMA和ARDL 系列模型,其計(jì)量結(jié)果如表5、表6 所示。
表3 工業(yè)總產(chǎn)值的格蘭杰因果檢驗(yàn)結(jié)果
表4 居民消費(fèi)價(jià)格指數(shù)的格蘭杰因果檢驗(yàn)結(jié)果
從表5、表6 可知:(1)確定各個(gè)估計(jì)模型的具體形式。由于工業(yè)總產(chǎn)值序列為1 階單整,故采用ARIMA(p,d,q)和ARDL 系列模型;居民消費(fèi)價(jià)格指數(shù)為0 階單整,故采用ARMA(p,q)和ARDL 系列模型。各模型中,ARIMA(p,d,q)、ARMA(p,q)和ARDL+X 不包含百度搜索指數(shù),ARDL+Z 和ARDL+X+Z 包含百度搜索指數(shù)。ARIMA 的p、d、q 參數(shù)采用BIC 準(zhǔn)則確定,ARDL 模型的p、q 參數(shù)采用SC 準(zhǔn)則確定,最終工業(yè)總產(chǎn)值的估計(jì)模型分別為ARIMA(6,1,1)、ARDL+X(4,3,0,0)、ARDL+Z(4,4,1,0)、ARDL+X+Z(3,2,0,0,2,0,4),居民消費(fèi)價(jià)格指數(shù)的估計(jì)模型分別為ARMA(3,2)、ARDL+X(1,0,0,1)、ARDL+Z(1,0,0,0)、ARDL+X+Z(4,2,1,2,0,0,1)。(2)比較各模型的擬合程度。在工業(yè)總產(chǎn)值的4 個(gè)估計(jì)模型中,擬合參數(shù)R2分別為0.890 4、0.969 9、0.999 6、0.999 8,各模型均具有很好的擬合效果,其中ARDL+X+Z 模型的擬合程度最高,該模型F 統(tǒng)計(jì)量顯著,DW 大于2;在居民消費(fèi)價(jià)格指數(shù)的4 個(gè)估計(jì)模型中,R2分別為0.644 9、0.676 6、0.669 8、0.872 9,ARDL+X+Z 的擬合程度最高,該模型F 統(tǒng)計(jì)量顯著,DW 大于2。(3)推斷各變量間的關(guān)系。計(jì)量結(jié)果顯示:ARDL 系列模型的被解釋變量y1、y2均受到其前期數(shù)值的影響,但影響程度存在差異;不同模型包含不同的解釋變量,反映著變量間不同的內(nèi)在關(guān)系。通過(guò)模型的擬合系數(shù),可以推斷變量間的關(guān)系,如:在工業(yè)總產(chǎn)值的ARDL+X+Z 模型中,lny1與lnx1、lnx3、lnz1、lnz2、lnz3(或其滯后項(xiàng))均在10%的顯著性水平上存在相關(guān)關(guān)系,與lnx2 的系數(shù)在統(tǒng)計(jì)意義不顯著;在居民消費(fèi)價(jià)格指數(shù)的ARDL+X+Z 模型中,lny2除了與lnz4 統(tǒng)計(jì)意義不顯著之外,與lnx4、lnx5、lnx6、lnz5、lnz6(或其滯后項(xiàng))均在10%的顯著性水平上存在相關(guān)關(guān)系。模型的計(jì)量結(jié)果表明區(qū)域經(jīng)濟(jì)預(yù)測(cè)指標(biāo)與網(wǎng)絡(luò)搜索數(shù)據(jù)和政府統(tǒng)計(jì)指標(biāo)之間存在比較穩(wěn)定的關(guān)系。
表5 各估計(jì)模型的計(jì)量結(jié)果(工業(yè)總產(chǎn)值)
(3)邊界檢驗(yàn)和穩(wěn)定性檢驗(yàn)。由于ARDL 模型的估計(jì)必須在因果變量存在協(xié)整關(guān)系的前提下才能進(jìn)行,因此必須檢驗(yàn)自變量之間是否存在協(xié)整關(guān)系。我們利用Pesaran 邊界檢驗(yàn)進(jìn)行判斷,表5、表6中工業(yè)總產(chǎn)值和居民消費(fèi)價(jià)格指數(shù)的ARDL 系列模型的邊界檢驗(yàn)結(jié)果如表7 所示。各模型邊界檢驗(yàn)的F 統(tǒng)計(jì)量結(jié)果表明,各模型均在5%顯著性水平下存在協(xié)整關(guān)系,說(shuō)明我們構(gòu)建的模型的系數(shù)估計(jì)在統(tǒng)計(jì)意義上成立。
表6 各估計(jì)模型的計(jì)量結(jié)果(居民消費(fèi)價(jià)格指數(shù))
表7 F 邊界檢驗(yàn)結(jié)果
進(jìn)一步,我們通過(guò)遞歸殘差積累和(CUSUM)與遞歸殘差平方積累和(CUSUMSQ)檢驗(yàn)所構(gòu)建的ARDL 模型的穩(wěn)定性。檢驗(yàn)結(jié)果顯示各模型的CUSUM、CUSUMSQ 檢驗(yàn)的殘差值均在5%的誤差內(nèi),表明構(gòu)建的模型穩(wěn)定,可以用于實(shí)際數(shù)的預(yù)測(cè)分析。圖1 和圖2 分別顯示了工業(yè)總產(chǎn)值A(chǔ)RDL+X+Z 模型和居民消費(fèi)價(jià)格指數(shù)ARDL+X+Z 模型的穩(wěn)健性檢驗(yàn)結(jié)果,圖中粗線為5%誤差范圍,細(xì)線為殘差值。
首先,我們使用不同模型對(duì)樣本數(shù)據(jù)進(jìn)行預(yù)測(cè),并采用平均絕對(duì)百分比誤差(MAPE)、平均絕對(duì)誤差(MAE)、希爾不等系數(shù)(Theil IC)和均方根誤差(RMSE)4 個(gè)指標(biāo)作為預(yù)測(cè)精度的衡量標(biāo)準(zhǔn)。各模型的預(yù)測(cè)結(jié)果如表8 所示。由表8 可見(jiàn),以工業(yè)總產(chǎn)值為基準(zhǔn)指標(biāo)的預(yù)測(cè)結(jié)果中,ARDL+X+Z 模型在MAPE、MAE、Theil IC 和RMSE 方面均表現(xiàn)最好,其次是ARDL+Z 和ARDL+X 模型,ARIMA 模型預(yù)測(cè)精度最低;以居民消費(fèi)價(jià)格指數(shù)為基準(zhǔn)指標(biāo)的各預(yù)測(cè)結(jié)果中,ARDL+X+Z 模型的各項(xiàng)預(yù)測(cè)誤差值最小,隨后依次為ARDL+Z、ARDL+X、ARMA。兩個(gè)基準(zhǔn)指標(biāo)的各項(xiàng)預(yù)測(cè)結(jié)果顯示,ARDL 系列模型比ARIMA 系列模型預(yù)測(cè)效果更好,包含網(wǎng)絡(luò)搜索數(shù)據(jù)的模型(ARDL+Z 和ARDL+X+Z)比僅使用政府統(tǒng)計(jì)指標(biāo)的傳統(tǒng)模型(ARMA、ARIMA、ARDL+X)預(yù)測(cè)精度更高。綜合表5、表6、表8 的結(jié)果,本文采用ARDL+X+Z 模型為工業(yè)總產(chǎn)值和居民消費(fèi)價(jià)格指數(shù)的預(yù)測(cè)模型。
圖1 ARDL+X+Z 模型的穩(wěn)健性檢驗(yàn)結(jié)果(工業(yè)總產(chǎn)值)
圖2 ARDL+X+Z 模型的穩(wěn)健性檢驗(yàn)結(jié)果(居民消費(fèi)價(jià)格指數(shù))
表8 預(yù)測(cè)模型對(duì)比結(jié)果
其次,運(yùn)用ARDL+X+Z 模型計(jì)算出建模期間(2012 年1 月—2017 年9 月)廣西工業(yè)總產(chǎn)值和居民消費(fèi)價(jià)格指數(shù)的擬合值,將其與實(shí)際值對(duì)比來(lái)評(píng)估模型擬合度,對(duì)比結(jié)果如圖3 所示。從圖3 可知,我們構(gòu)建的廣西工業(yè)總產(chǎn)值模型在樣本期間的擬合值與實(shí)際觀測(cè)值擬合結(jié)果理想;構(gòu)建的居民消費(fèi)價(jià)格指數(shù)多元回歸模型的擬合值雖與實(shí)際值在波峰與波谷處出現(xiàn)一些偏差,但也能比較準(zhǔn)確地反映其大致的波動(dòng)和趨勢(shì)。
最后,運(yùn)用ARDL+X+Z 模型計(jì)算檢驗(yàn)期間(2017年10 月—2017 年12 月)的廣西工業(yè)總產(chǎn)值和居民消費(fèi)價(jià)格指數(shù)的擬合值,將其與實(shí)際值對(duì)比來(lái)檢測(cè)模型的預(yù)測(cè)效果,對(duì)比結(jié)果如表9 所示。從表9 可知,工業(yè)總產(chǎn)值的預(yù)測(cè)誤差率和居民消費(fèi)價(jià)格指數(shù)預(yù)測(cè)模型的誤差率均小于0.2%,說(shuō)明所構(gòu)建模型的預(yù)測(cè)效果很好。
圖3 模型擬合值與實(shí)際值的對(duì)比結(jié)果
表9 ARDL+X+Z 模型預(yù)測(cè)結(jié)果及誤差率
綜上分析可見(jiàn),本文構(gòu)建的包含政府統(tǒng)計(jì)指標(biāo)和百度搜索指標(biāo)的兩個(gè)ARDL+X+Z 模型有效地減小了預(yù)測(cè)誤差,能夠很好地對(duì)區(qū)域經(jīng)濟(jì)指標(biāo)進(jìn)行預(yù)測(cè)。由于工業(yè)總產(chǎn)值模型中的自變量滯后4~5 期,居民消費(fèi)價(jià)格指數(shù)模型的自變量滯后4~6 期,所以我們構(gòu)建的模型能利用這些數(shù)據(jù)比官方統(tǒng)計(jì)數(shù)據(jù)公布前給出預(yù)測(cè)結(jié)果。
本文將網(wǎng)絡(luò)搜索數(shù)據(jù)納入?yún)^(qū)域經(jīng)濟(jì)指標(biāo)的實(shí)時(shí)預(yù)測(cè)體系,將網(wǎng)絡(luò)搜索指標(biāo)與政府統(tǒng)計(jì)指標(biāo)相結(jié)合,從生產(chǎn)和消費(fèi)兩個(gè)不同的角度預(yù)測(cè)廣西經(jīng)濟(jì)增長(zhǎng)。首先,選取工業(yè)總產(chǎn)值和居民消費(fèi)價(jià)格指數(shù)作為預(yù)測(cè)的基準(zhǔn)指標(biāo),若干個(gè)百度搜索關(guān)鍵詞和與經(jīng)濟(jì)波動(dòng)相關(guān)的政府統(tǒng)計(jì)指標(biāo)作為分析的備選指標(biāo),基于廣西2012 年1 月—2017 年12 月間的相關(guān)數(shù)據(jù)運(yùn)用時(shí)差相關(guān)分析法從備選指標(biāo)中篩選出擬作為解釋變量的先行指標(biāo);其次,在對(duì)各指標(biāo)時(shí)間序列進(jìn)行平穩(wěn)性檢驗(yàn)、協(xié)整檢驗(yàn)的基礎(chǔ)上,根據(jù)網(wǎng)絡(luò)搜索數(shù)據(jù)的計(jì)量特性和指標(biāo)間的內(nèi)在關(guān)聯(lián)性,采用ARMA 和ARDL 兩個(gè)系列的5 個(gè)不同模型分別構(gòu)建廣西工業(yè)總產(chǎn)值預(yù)測(cè)模型和廣西居民消費(fèi)價(jià)格指數(shù)預(yù)測(cè)模型,其中,ARMA 系列和ARDL+X 為不包含網(wǎng)絡(luò)搜索數(shù)據(jù)的模型,ARDL+Z 和ARDL+X+Z 為包含網(wǎng)絡(luò)搜索數(shù)據(jù)的模型;最后,對(duì)所構(gòu)建的模型進(jìn)行實(shí)證擬合檢驗(yàn)和對(duì)比分析得出最優(yōu)預(yù)測(cè)模型,并利用最優(yōu)模型評(píng)估預(yù)測(cè)效果。研究結(jié)果表明:(1)網(wǎng)絡(luò)搜索行為與區(qū)域經(jīng)濟(jì)波動(dòng)存在一定相關(guān)性,反映時(shí)滯的差異使得網(wǎng)絡(luò)搜索指標(biāo)與經(jīng)濟(jì)指標(biāo)之間存在先行-滯后關(guān)系,采用科學(xué)的方法可以從眾多網(wǎng)絡(luò)搜索指標(biāo)中識(shí)別出能優(yōu)化區(qū)域經(jīng)濟(jì)預(yù)測(cè)模型的關(guān)鍵性先行指標(biāo)。(2)本文構(gòu)建的廣西工業(yè)總產(chǎn)值和居民消費(fèi)價(jià)格指數(shù)的ARDL+X+Z 模型,充分考慮了網(wǎng)絡(luò)搜索數(shù)據(jù)和政府統(tǒng)計(jì)指標(biāo)之間的內(nèi)在關(guān)聯(lián)性、網(wǎng)絡(luò)搜索數(shù)據(jù)的計(jì)量特性,有效地進(jìn)行了區(qū)域經(jīng)濟(jì)指標(biāo)的預(yù)測(cè),表明搜索數(shù)據(jù)與區(qū)域經(jīng)濟(jì)指標(biāo)存在穩(wěn)定的關(guān)系,合適關(guān)鍵詞的百度搜索指數(shù)是區(qū)域經(jīng)濟(jì)預(yù)測(cè)的有效度量指標(biāo)。(3)引入網(wǎng)絡(luò)搜索數(shù)據(jù)的模型比僅使用政府統(tǒng)計(jì)指標(biāo)的傳統(tǒng)模型能夠更及時(shí)更精確地進(jìn)行區(qū)域經(jīng)濟(jì)預(yù)測(cè)預(yù)警分析。
借鑒國(guó)內(nèi)外學(xué)者的研究,我們?yōu)榫W(wǎng)絡(luò)搜索指標(biāo)在區(qū)域經(jīng)濟(jì)預(yù)測(cè)預(yù)警領(lǐng)域的研究和應(yīng)用在以下方面做了有益探索:(1)綜合使用了時(shí)差相關(guān)分析、單位根檢驗(yàn)和格蘭杰因果檢驗(yàn)相結(jié)合的方法從眾多網(wǎng)絡(luò)搜索指標(biāo)中識(shí)別出能優(yōu)化區(qū)域經(jīng)濟(jì)預(yù)測(cè)模型的關(guān)鍵性先行指標(biāo);(2)考慮指標(biāo)間的內(nèi)在關(guān)聯(lián)和不同特性,將網(wǎng)絡(luò)搜索指標(biāo)與政府統(tǒng)計(jì)指標(biāo)相結(jié)合構(gòu)建多個(gè)不同的預(yù)測(cè)模型。由于使用網(wǎng)絡(luò)搜索指標(biāo)進(jìn)行區(qū)域經(jīng)濟(jì)預(yù)測(cè)具有數(shù)據(jù)獲取及時(shí)方便、預(yù)測(cè)精度高、樣本統(tǒng)計(jì)意義明顯等優(yōu)勢(shì),本文的研究思路和方法可拓展到其他官方統(tǒng)計(jì)的月度公布數(shù)據(jù)的預(yù)測(cè),也可為其他省份乃至全國(guó)的經(jīng)濟(jì)預(yù)測(cè)提供參考。但本文也存在一些局限性:(1)僅從百度搜索指數(shù)來(lái)考慮網(wǎng)絡(luò)搜索行為與經(jīng)濟(jì)的關(guān)聯(lián),忽略了搜狗、360 等其他搜索引擎和微博、論壇等社交媒體的指標(biāo)的影響;(2)在百度推薦功能和參考相關(guān)文獻(xiàn)的基礎(chǔ)上選擇初始關(guān)鍵詞樣本庫(kù),未運(yùn)用該研究領(lǐng)域的前沿方法。后續(xù)研究其他指標(biāo)的預(yù)測(cè)時(shí),我們將探討LASSO、隨機(jī)森林、支持向量基等機(jī)器學(xué)習(xí)方法來(lái)篩選初始關(guān)鍵詞,并將網(wǎng)絡(luò)搜索數(shù)據(jù)和互聯(lián)網(wǎng)其他指標(biāo)結(jié)合(如論壇評(píng)論、網(wǎng)絡(luò)瀏覽等),進(jìn)行數(shù)據(jù)的深入挖掘和整合,更準(zhǔn)確地把握網(wǎng)絡(luò)大數(shù)據(jù)與經(jīng)濟(jì)預(yù)測(cè)的關(guān)聯(lián)。