顧艷文,劉媛華
(上海理工大學(xué) 管理學(xué)院,上海 200093)
中國的消費(fèi)結(jié)構(gòu)不斷升級,消費(fèi)亮點紛紛涌現(xiàn),使得消費(fèi)逐漸成為中國經(jīng)濟(jì)增長的主引擎。為了應(yīng)對國內(nèi)外動蕩的經(jīng)濟(jì)形勢,構(gòu)建以國內(nèi)大循環(huán)為主體的新發(fā)展格局,需要進(jìn)一步加強(qiáng)消費(fèi)對經(jīng)濟(jì)的拉動作用[1]。消費(fèi)與消費(fèi)者信心息息相關(guān),增強(qiáng)消費(fèi)的重要舉措就是增強(qiáng)消費(fèi)者信心。消費(fèi)者信心指數(shù)是用來衡量消費(fèi)者信心的指標(biāo),其反映了消費(fèi)者對當(dāng)前經(jīng)濟(jì)發(fā)展?fàn)顩r和未來經(jīng)濟(jì)發(fā)展預(yù)期的內(nèi)心想法,科學(xué)有效的把握消費(fèi)者信心指數(shù)的發(fā)展趨勢,有助于了解消費(fèi)者內(nèi)心的真實感受,對有關(guān)部門制定宏觀政策,促進(jìn)經(jīng)濟(jì)健康發(fā)展具有重要意義。
消費(fèi)者信心指數(shù)的獲取通常是通過調(diào)查問卷的形式,但傳統(tǒng)調(diào)查問卷的方法存在工作量大,時效性差,覆蓋不全面等問題,所以國內(nèi)外學(xué)者紛紛針對消費(fèi)者信心指數(shù)進(jìn)行預(yù)測研究。一些學(xué)者采用傳統(tǒng)計量經(jīng)濟(jì)學(xué)模型,如楊娜、王靜雅利用ARIMA模型預(yù)測消費(fèi)者信心指數(shù)[2];董現(xiàn)壘、Bollen Johan、胡蓓蓓利用谷歌趨勢建立計量經(jīng)濟(jì)學(xué)模型,對消費(fèi)者信心指數(shù)進(jìn)行預(yù)測[3];劉偉江、李映橋以網(wǎng)絡(luò)搜索數(shù)據(jù)為基礎(chǔ),利用主成分分析法合成搜索指數(shù),建立回歸模型,預(yù)測臺灣地區(qū)的消費(fèi)者信心指數(shù)[4]。由于傳統(tǒng)計量經(jīng)濟(jì)學(xué)模型通常適用于線性關(guān)系的情況,而消費(fèi)者信心指數(shù)與變量之間的關(guān)系復(fù)雜多樣,因此一些學(xué)者提出采用機(jī)器學(xué)習(xí)模型或者深度學(xué)習(xí)模型對其進(jìn)行預(yù)測,如鄒鴻飛、王建州建立了CEEMD-DEGWO-BPNN模型預(yù)測消費(fèi)者信心指數(shù)[5];唐曉彬、董曼茹、張瑞引入百度指數(shù)數(shù)據(jù),建立長短時間記憶神經(jīng)網(wǎng)絡(luò)模型進(jìn)行消費(fèi)者信心指數(shù)的預(yù)測[6]。
Hanjo Odendaal、Monique Reid、Johann F.Kirsten認(rèn)為在線情感指數(shù)對消費(fèi)者信心指數(shù)具有預(yù)測作用,可為消費(fèi)者信心指數(shù)的預(yù)測提供思路[7]。在以往的研究中,預(yù)測消費(fèi)者信心指數(shù)所使用的影響因素也常為非結(jié)構(gòu)化數(shù)據(jù),然而非結(jié)構(gòu)化數(shù)據(jù)的數(shù)據(jù)量較大,不能全部放入預(yù)測模型中建模,需要對變量進(jìn)行篩選。本文采用對數(shù)據(jù)類型沒有太多限制,且可以彌補(bǔ)最小二乘法和逐步回歸法局部最優(yōu)估計不足的Lasso回歸對變量進(jìn)行處理,同時采用既可以解決線性關(guān)系問題又可以解決非線性關(guān)系問題的機(jī)器學(xué)習(xí)模型——支持向量機(jī)回歸,對消費(fèi)者信心指數(shù)進(jìn)行預(yù)測。
當(dāng)數(shù)據(jù)特征較多時,為了防止模型的過擬合,常常需要對數(shù)據(jù)進(jìn)行篩選降維。1996年國外學(xué)者Robert Tibshirani提出了Lasso回歸。Lasso回歸是一種縮減性估計,在回歸過程中,可以將一些不重要的回歸系數(shù)直接縮減為0,以此實現(xiàn)變量篩選的功能。Lasso回歸可以降低模型訓(xùn)練時的計算量,因此在高維數(shù)據(jù)中得到廣泛應(yīng)用。Lasso回歸的目標(biāo)函數(shù)為式(1):
(1)
其中,λ是懲罰項系數(shù),控制著模型的復(fù)雜程度,λ越大對特征較多的模型懲罰力度越大,通過調(diào)整λ,最終可以獲得特征較少的模型,以達(dá)到降維的目的。
SVR模型又稱支持向量回歸模型,其采用支持向量的思想,可將低維數(shù)據(jù)非線性映射到高維空間,從而在高維空間中對數(shù)據(jù)進(jìn)行回歸分析。支持向量回歸模型的優(yōu)點在于模型對數(shù)據(jù)的分布沒有限制,可以有效解決小樣本、非線性、高維度問題。SVR模型的目標(biāo)函數(shù)為式(2):
(2)
支持向量回歸允許預(yù)測值和實際值之間存在一個合理的誤差,即|yi-f(xi)|≤ε。根據(jù)拉格朗日函數(shù)的對偶性和極小值求解的方法,可以得到f(xi)中參數(shù)w與b的值,式(3):
(3)
為了使模型能夠解決非線性回歸問題,引入核函數(shù)K(xi,xj)替換高維空間的內(nèi)積,此時函數(shù)f(xi)可以表示為式(4):
(4)
SVR模型對核函數(shù)的選擇比較敏感,不同的核函數(shù)會使模型產(chǎn)生不同的結(jié)果。常用的核函數(shù)有多項式核函數(shù)(ploy核函數(shù))、高斯核函數(shù)(rbf核函數(shù))、Sigmoid核函數(shù)等,通過網(wǎng)格搜索的方法可以確定核函數(shù)的參數(shù),從而使模型達(dá)到最好的效果。
由于Lasso回歸的降維能力和SVR模型的優(yōu)點,本文結(jié)合兩個模型對消費(fèi)者信心指數(shù)進(jìn)行預(yù)測。首先,對數(shù)據(jù)進(jìn)行預(yù)處理,提高數(shù)據(jù)質(zhì)量;其次,對變量進(jìn)行領(lǐng)先期數(shù)的確定,使選取的變量具有預(yù)測能力;然后利用相關(guān)系數(shù)選取與消費(fèi)者信心指數(shù)相關(guān)的變量,再將新得到的數(shù)據(jù)集輸入Lasso回歸模型中降維,從而得到最終的預(yù)測變量;最后,把變量放入SVR模型中進(jìn)行消費(fèi)者信心指數(shù)的預(yù)測,并比較使用不同核函數(shù)模型的預(yù)測效果,從而確定最終的預(yù)測模型。消費(fèi)者信心指數(shù)預(yù)測模型的構(gòu)建思路如圖1所示。
圖1 消費(fèi)者信心指數(shù)預(yù)測模型構(gòu)建思路
近年來,互聯(lián)網(wǎng)快速發(fā)展,出現(xiàn)大量的非結(jié)構(gòu)化數(shù)據(jù),這些非結(jié)構(gòu)化數(shù)據(jù)往往與經(jīng)濟(jì)現(xiàn)象之間存在某種聯(lián)系,或多或少反映著真實的經(jīng)濟(jì)生活。因此,本文采用非結(jié)構(gòu)化數(shù)據(jù)中的百度指數(shù)數(shù)據(jù)作為預(yù)測消費(fèi)者信心指數(shù)的數(shù)據(jù)支撐,并通過文獻(xiàn)參考和需求圖譜的關(guān)鍵詞推薦,選取了133個百度關(guān)鍵詞,部分關(guān)鍵詞見表1。百度指數(shù)數(shù)據(jù)分為移動端和PC端,而移動端的百度指數(shù)數(shù)據(jù)從2011年開始收錄,故本文的數(shù)據(jù)從2011年開始收集,通過爬蟲技術(shù)獲取2011~2019年的PC端和移動端的百度指數(shù)。本文的研究對象為消費(fèi)者信心指數(shù),為保持?jǐn)?shù)據(jù)的一致,選取了2011~2019年的月度數(shù)據(jù)作為本文的樣本,其數(shù)據(jù)來源于中經(jīng)網(wǎng)統(tǒng)計數(shù)據(jù)庫。
表1 部分關(guān)鍵詞
百度指數(shù)數(shù)據(jù)是非結(jié)構(gòu)化數(shù)據(jù),可能會受到各種各樣的干擾,存在噪聲較大的問題,需要對其進(jìn)行預(yù)處理。
第一步:異常值處理。百度指數(shù)數(shù)據(jù)會受到特殊事件的影響,導(dǎo)致出現(xiàn)異常值,而異常值會影響模型的預(yù)測效果,故需要對異常值進(jìn)行處理。本文采用箱線圖法對異常值進(jìn)行判斷,將篩選出的異常值用前后兩期的均值進(jìn)行替換。
第二步:去除長期趨勢。隨著近些年來互聯(lián)網(wǎng)的高速發(fā)展,搜索引擎的使用頻率也會隨著時間的增加而增加,為了消除由于互聯(lián)網(wǎng)發(fā)展導(dǎo)致搜索量的增加,需要尋找與本文研究對象相關(guān)性不大,且能代表互聯(lián)網(wǎng)發(fā)展趨勢的關(guān)鍵詞[8]。因此計算選取的133個關(guān)鍵詞與其百度指數(shù)的比值,以消除互聯(lián)網(wǎng)長期發(fā)展趨勢。通過參考相關(guān)文獻(xiàn),本文選取的關(guān)鍵詞為百度。
第三步:合并數(shù)據(jù)。由于消費(fèi)者信心指數(shù)為月度數(shù)據(jù),故將百度指數(shù)的日度數(shù)據(jù)轉(zhuǎn)為月度數(shù)據(jù)。
2.3.1 基于Lasso回歸模型的變量的降維
本文選取的133個百度關(guān)鍵詞并非都適合放入模型中作為變量進(jìn)行預(yù)測,需要對其進(jìn)行篩選。首先,通過K-L信息量法確定每個關(guān)鍵詞的最佳階數(shù),將關(guān)鍵詞領(lǐng)先階數(shù)設(shè)為1~12階,計算每個關(guān)鍵詞領(lǐng)先1~12階的K-L信息量,并從中選取K-L信息量最小值所對應(yīng)的階數(shù)作為該關(guān)鍵詞的最佳階數(shù),根據(jù)最佳階數(shù)將原始數(shù)據(jù)錯位補(bǔ)齊;其次,計算錯位補(bǔ)齊后的每個關(guān)鍵詞和消費(fèi)者信心指數(shù)之間的斯皮爾曼相關(guān)系數(shù),并將閾值設(shè)為0.5,以此獲得43個與消費(fèi)者信心指數(shù)相關(guān)的關(guān)鍵詞;最后,為了進(jìn)一步減少模型的輸入變量,提高模型的預(yù)測效果,建立Lasso回歸模型對43個百度關(guān)鍵詞進(jìn)行篩選。
Lasso回歸模型中的λ值是未知的,可以通過可視化方法大致確定λ的取值范圍,然后通過交叉驗證法確定最終的λ值。
λ和回歸系數(shù)之間的關(guān)系如圖2所示,每條折線圖代表了每個變量。從圖2可知,當(dāng)λ的值大概在0.02~0.76之間時,絕大多數(shù)變量的回歸系數(shù)趨于穩(wěn)定。為確定準(zhǔn)確的λ值,利用sklearn模塊中的LassoCV類進(jìn)行交叉驗證,對每一個λ值,進(jìn)行10重交叉驗證,從而確定λ的值為0.141。以最佳λ值重新建立Lasso回歸模型,最終篩選出6個百度關(guān)鍵詞,分別為股票、趕集網(wǎng)、58同城、民宿、大眾點評和個人所得稅。表2是最終百度關(guān)鍵詞的滯后階數(shù)及斯皮爾曼相關(guān)系數(shù)。
表2 最終百度關(guān)鍵詞
圖2 λ與回歸系數(shù)的關(guān)系
2.3.2 SVR預(yù)測模型
經(jīng)過上述處理和變量篩選后,還剩余96期數(shù)據(jù)。將數(shù)據(jù)集按照7:3的比例劃分訓(xùn)練集和測試集,并對其進(jìn)行歸一化處理,以消除不同數(shù)量級造成的影響。由于SVR模型的預(yù)測效果受核函數(shù)的影響較大,所以本文選取常用的多項式核函數(shù)高斯核函數(shù),Sigmoid核函數(shù)進(jìn)行建模,并采用網(wǎng)格搜索的方法對核函數(shù)參數(shù)、懲罰系數(shù)、損失函數(shù)參數(shù)進(jìn)行尋優(yōu)。SVR模型使用不同核函數(shù)的最終參數(shù)值見表3。
表3 模型參數(shù)值
根據(jù)網(wǎng)格搜索法得到的參數(shù)值,分別建立SVR模型,并對測試集進(jìn)行預(yù)測,不同核函數(shù)預(yù)測結(jié)果如圖3所示。
由圖3可知,無論使用多項式核函數(shù),高斯核函數(shù)還是Sigmoid核函數(shù)都可以對消費(fèi)者信心指數(shù)進(jìn)行大致的刻畫,說明SVR模型對消費(fèi)者信心指數(shù)具有一定的預(yù)測能力。但不同的核函數(shù)之間還存在一定的差異,為了選擇更好的模型,對3種核函數(shù)的預(yù)測結(jié)果進(jìn)行定量分析,采用均方根誤差和平均絕對誤差對其進(jìn)行評價,評價結(jié)果見表4。
(a)多項式核函數(shù)
表4 不同核函數(shù)預(yù)測結(jié)果
由表4可知,多項式核函數(shù)和Sigmoid核函數(shù)的預(yù)測效果不如高斯核函數(shù),當(dāng)模型使用高斯核函數(shù)時,模型的均方根誤差和平均絕對誤差最小,分別為3.441和2.756;其次是多項式核函數(shù),均方根誤差為3.460,平均絕對誤差為2.776;預(yù)測結(jié)果最差的是sigmoid核函數(shù),均方根誤差為3.573,平均絕對誤差為2.88。
本文以非結(jié)構(gòu)化數(shù)據(jù)中的百度關(guān)鍵詞作為消費(fèi)者信心指數(shù)的影響因素,將Lasso回歸和SVR模型相結(jié)合,對消費(fèi)者信心指數(shù)進(jìn)行預(yù)測。同時,通過對比不同的核函數(shù),認(rèn)為在使用高斯核函數(shù)時,可以使消費(fèi)者信心指數(shù)的預(yù)測效果達(dá)到最好。該方法有效預(yù)測了消費(fèi)者信心指數(shù),可以將其應(yīng)用到其它經(jīng)濟(jì)指標(biāo)的預(yù)測,從而更好的掌握經(jīng)濟(jì)指標(biāo)的變化趨勢。