文/賀享悅 路子彤(中國地質(zhì)大學[北京])
1.全國乘用車銷量
本文以月為單位,選取2017 年2 月-2021 年2 月間全國乘用車的實際銷售量,來研究大數(shù)據(jù)搜索趨勢與我國乘用車銷售量之間的關(guān)系。所采集數(shù)據(jù)來源于NE 時代網(wǎng)站。
2.搜索指數(shù)
本文使用的搜索指數(shù)以“新能源汽車”關(guān)鍵詞在搜索平臺的搜索量為數(shù)據(jù)基礎(chǔ),計算關(guān)鍵詞的搜索頻次的加權(quán)和。由于搜索指數(shù)與全國乘用車銷售量的單位不同,可比性不強,所以本文通過Z-Score 標準化:,其中。
將數(shù)據(jù)轉(zhuǎn)化為無單位的Z-Score分值,使得數(shù)據(jù)標準統(tǒng)一化。
本文通過使用斯皮爾曼相關(guān)系數(shù)對各平臺關(guān)于“新能源汽車”關(guān)鍵字的發(fā)展趨勢指數(shù)和全國乘用車銷售量進行相關(guān)性分析,定量評估兩者之間的關(guān)聯(lián)性。本文選取了“360搜索指數(shù)”和“搜狗指數(shù)”兩個指數(shù)與全國乘用車銷售量進行相關(guān)性分析。由表1 和表2 可知,360 關(guān)注趨勢指數(shù)與全國乘用車銷售量顯著相關(guān);搜狗指數(shù)與之不存在相關(guān)性。因此,將針對360 搜索指數(shù)進行研究。
表1 “新能源汽車”關(guān)鍵詞搜索指數(shù)和全國乘用車銷售量的相關(guān)性檢驗
表2 單根檢驗結(jié)果
本文選取了2017 年2 月-2021年2 月間全國乘用車實際銷售量和“新能源汽車”搜索指數(shù)進行研究,由于兩組數(shù)據(jù)都是以月度為時間序列數(shù)據(jù),所以對數(shù)據(jù)進行季節(jié)性分解處理,使之更適用于長期趨勢的研究。
本文采用ADF 檢驗法來檢驗時間序列的平穩(wěn)性。首先對時間序列進行對數(shù)化處理,再對時間序列進行單根檢驗。由表3、表4 可知,360 搜索指數(shù)時間序列與全國乘用車銷售量時間序列皆為1 階平穩(wěn),為同階平穩(wěn),符合協(xié)整檢驗的前提。
經(jīng)ADF 單位根檢驗可知全國乘用車銷售量序列和“新能源汽車”360搜索指數(shù)序列雖自身非平穩(wěn),但是存在相似的趨勢和增長變化,因此兩者之間可能存在長期穩(wěn)定的比例關(guān)系,并且兩者均為一節(jié)單證序列,可以進行協(xié)整檢驗。
協(xié)整檢驗采用EG 兩步法,首先對全國乘用車銷售量序列和“新能源汽車”360 搜索指數(shù)序列進OLS 回歸。設(shè)置“新能源汽車”360搜索指數(shù)為自變量ZHISHU,全國乘用車銷量為因變量XIAOLIANG,進行OLS 推導,協(xié)整回歸方程式如下:
其中ε 為殘差項。
對ε 殘差序列進行ADF 單位根檢驗,結(jié)果如表3 所示。
表3 對ε 殘差序列進行ADF 單位根檢驗
由此可知,殘差序列不存在單位根,表明該序列平穩(wěn)。因此可以判斷全國乘用車銷售量和“新能源汽車”360 搜索指數(shù)之間存在長期均衡的協(xié)整關(guān)系。
因為兩組時間序列具有協(xié)整關(guān)系,所以本文使用格蘭杰因果檢驗模型來檢驗預測能力。
首先對var 模型的穩(wěn)定性進行檢驗。如圖1 所示,點均落在單位圓內(nèi),對應的特征方程的特征根的絕對值小于1,模型穩(wěn)定。
圖1 VAR穩(wěn)定性檢驗
如表4,根據(jù)赤池信息量準則(AIC)、施瓦茨準則(SC)及漢南-奎因準則(HQ)結(jié)果選取了最佳滯后階段為2。
表4 確定VAR 模型滯后期
最后,進行格蘭杰因果檢驗。由表5 可知,在5%的顯著水平下,滯后二期的360 搜索指數(shù)是全國乘用車銷售量的格蘭杰原因?!靶履茉雌嚒标P(guān)鍵詞的360 搜索指數(shù)對全國乘用車銷售量的格蘭杰原因的概率為99.01%,因此關(guān)鍵詞“新能源汽車”的360 搜索指數(shù)可以作為一個有效的預測因子。
表5 格蘭杰因果分析結(jié)果
為了進一步驗證“新能源汽車”360 搜索指數(shù)對全國乘用車銷量的預測能力,本文先以全國乘用車銷量作為單一變量建立ARMA 模型,然后再加入搜索指數(shù)變量,建立多變量的VAR 模型,并對兩種模型的預測結(jié)果進行對比。模型都以2017 年3 月-2020 年2 月的數(shù)據(jù)為樣本期數(shù)據(jù),2020 年3-9 月樣本期外的數(shù)據(jù)為驗證數(shù)據(jù)。
通過觀察對數(shù)化后的全國乘用車銷量的自相關(guān)和偏自相關(guān)情況,本文建立并比較了幾個不同的模型,最終選擇擬合優(yōu)度較高且AIC 與SC較小的ARMA(1,1)模型。得到預測結(jié)果如下:
銷量(t)=1221497.8816+AR(1)*銷量(t-1)+時間(t)+MA(1)*時間(t-1)
模型預測銷售量和實際銷售量的對比如圖2 所示。
由圖2 可以得出,該預測模型擬合程度相對較高。計算該預測模型的相關(guān)系數(shù)為0.89938145,擬合優(yōu)度較高。
圖2 2020年3-9月全國乘用車實際銷量與基于ARMA模型的預測銷量的對比
構(gòu)建VAR 模型要確定VAR 模型的滯后階段。本文通過比較,選擇滯后階數(shù)2 作為最佳滯后期建立VAR 模型。預測結(jié)果如下:
指數(shù)=0.862917095143* 指數(shù)(-1)-0.00323399781677* 銷量(-1)+8147.97046981
銷量=7.76447838425* 指數(shù)(-1)+0.303998512277* 銷量(-1)+1133702.05388
預測2020 年3-9 月全國乘用車汽車月度銷量數(shù)據(jù)對比,如圖3所示。
圖3 2020年3-9月全國乘用車實際銷量與基于VAR模型的預測銷售量的對比
由表4 可知,VAR 模型對全國乘用車月度銷量的平均預測誤差為2.8635625%,預測精度比較高,計算預測數(shù)據(jù)與實際數(shù)據(jù)的擬合優(yōu)度相關(guān)系數(shù)為0.918020769,比ARMA預測模型的相關(guān)系數(shù)高,由此表明運用VAR 模型預測全國乘用車月度銷量的可行性和可靠性,具有更好的預測能力。
“新能源汽車”360 搜索指數(shù)與全國乘用車銷售量存在正相關(guān),且存在長期均衡關(guān)系,因此可以使用“新能源汽車”360 搜索指數(shù)預測全國乘用車銷售量。本文還選取了以“新能源汽車”作為關(guān)鍵詞的搜狗指數(shù),經(jīng)過相關(guān)性分析可知,“新能源汽車”搜狗指數(shù)與全國乘用車銷售量無相關(guān)性。說明盡管隨著互聯(lián)網(wǎng)的發(fā)展,各搜索指數(shù)反映網(wǎng)民關(guān)注趨勢,但其數(shù)據(jù)價值有所差異。
加入搜索指數(shù)的VAR 模型相較于傳統(tǒng)預測模型在樣本期間內(nèi)和樣本期間外的預測精度均有較大提升。反映了“新能源汽車”360 搜索指數(shù)是一個有效的預測因子。該模型可以利用全國乘用車銷售量前2 月的實際銷售數(shù)據(jù)和搜索指數(shù)來預測一個月后對乘用車的需求,提高了預測的準確度和及時性,降低了對歷史數(shù)據(jù)量的要求。
由研究表明,人們對新能源汽車的關(guān)注對汽車市場的發(fā)展有著重要的影響,說明新能源汽車是當前汽車市場的重要發(fā)展方向,具有重要地位。