當(dāng)今社會科技發(fā)達,信息流通,大數(shù)據(jù)作為這個高科技時代的產(chǎn)物已經(jīng)滲透入各行各業(yè),成為重要的生產(chǎn)因素。如任守航基于瓦斯?jié)舛葦?shù)據(jù),提出了適用于煤礦企業(yè)的瓦斯?jié)舛阮A(yù)測預(yù)警方法,為煤礦企業(yè)在實際生產(chǎn)中防控瓦斯災(zāi)害事故提供了良好的技術(shù)手段。張昊然匯總了醫(yī)療行業(yè)的海量數(shù)據(jù),通過對各項醫(yī)療指標的監(jiān)控與分析,對醫(yī)療機構(gòu)進行多維度畫像,從而為管理者制訂提升醫(yī)療服務(wù)水平的具體策略提供參考。眾多案例均表明人們利用大數(shù)據(jù)可以很好地將多源信息進行融合,從而對某些領(lǐng)域展開預(yù)測。而能夠間接反映多源信息的一個重要指標便是搜索指數(shù)。搜索指數(shù)是以用戶的搜索量為數(shù)據(jù)基礎(chǔ)、以關(guān)鍵詞優(yōu)化為統(tǒng)計對象,科學(xué)分析并計算出各個關(guān)鍵詞在網(wǎng)頁中搜索頻次的加權(quán)和。隨著互聯(lián)網(wǎng)普及率的顯著提高,互聯(lián)網(wǎng)技術(shù)日趨成熟,搜索引擎服務(wù)也逐漸完善,人們愈發(fā)傾向于借助互聯(lián)網(wǎng)來獲取自己所需的信息。鑒于此,近年來學(xué)者們常基于在我國有較高影響力的百度搜索平臺,利用其百度指數(shù)對某些行業(yè)的發(fā)展趨勢進行研究。鄧于佳針對股票價格復(fù)雜無規(guī)律的漲跌預(yù)測問題,將有效關(guān)鍵詞的百度指數(shù)作為股票投資者關(guān)注度的衡量標準,在不考慮宏觀因素的情況下,結(jié)合神經(jīng)網(wǎng)絡(luò)模型,較為準確地預(yù)測出了股票的價格趨勢,能夠為投資者提供一定的決策依據(jù)。黃錦波從互聯(lián)網(wǎng)的角度出發(fā),考慮消費者的網(wǎng)絡(luò)互動行為,選擇BP神經(jīng)網(wǎng)絡(luò)作為模型,同百度指數(shù)結(jié)合對人身險保費進行預(yù)測,證明了引入百度指數(shù)的模型有助于提高人身險保費收入的預(yù)測精準度。馬隆對用戶的搜索行為與P2P行業(yè)成交量之間的關(guān)系進行分析,并通過用戶的搜索行為對P2P行業(yè)成交量的發(fā)展趨勢進行預(yù)測。同時還將傳統(tǒng)預(yù)測模型的預(yù)測結(jié)果與加入搜索指數(shù)的預(yù)測模型的預(yù)測結(jié)果進行對比,發(fā)現(xiàn)后者的預(yù)測精度明顯高于前者。周恬恬提出了基于百度指數(shù)和隨機森林模型的上證綜指走勢預(yù)測方法,建立了上證綜指收盤值的回歸預(yù)測模型和上證綜指收盤值漲跌分類預(yù)測模型,并且通過與無百度指數(shù)的隨機森林回歸預(yù)測模型實驗對比,發(fā)現(xiàn)該模型具有更高的精確度和更好的擬合效果,證明了百度指數(shù)對于該模型預(yù)測的高度有效性。綜上,本文將對碳價格進行預(yù)測:首先選取多個與碳價格相關(guān)關(guān)鍵詞,爬取其百度指數(shù),并利用MDS算法降維;然后基于歷史數(shù)據(jù)與百度指數(shù)建立LSTM預(yù)測模型,對碳價格進行預(yù)測;最終對不同輸入層的預(yù)測結(jié)果進行有效性檢驗及對比分析。
本文首先查閱大量文獻,選擇了9個能夠反映民眾對碳交易關(guān)注熱度的關(guān)鍵詞,再利用MDS算法將其縮減至3維矩陣,然后將3維碳熱度矩陣和歷史碳價格作為LSTM模型和LSSVM模型的輸入層,進而得到預(yù)測結(jié)果,最后,利用RMSE對預(yù)測結(jié)果進行誤差分析和有效性評價,具體思路如圖1。
圖1 基于多源信息融合的碳價格預(yù)測模型的基本思路
1.2.1 基于多關(guān)鍵詞的MDS降維模型 選取并收集與碳價格相關(guān)的關(guān)鍵詞百度指數(shù),鑒于關(guān)鍵詞較多,且各關(guān)鍵詞之間有較高的相似性,故建立MDS模型對所得數(shù)據(jù)進行降維處理,并且在盡可能保持各關(guān)鍵詞相似性的前提下,將其在低維空間中進行表示。首先將選取的9個關(guān)鍵詞實例及其百度指數(shù)進行向量化表示,可以得到9維空間中的距離矩陣D,D是一個(9×9)的矩陣,其中第i行j列的元素表示第i個關(guān)鍵詞實例和第j個關(guān)鍵詞實例之間的距離,現(xiàn)將其降維值3維空間Z中,Z表 示第i個關(guān)鍵詞實例。因任意兩個關(guān)鍵詞實例在Z中的距離與原始空間的距離相同,故有
對(1)左右兩邊求和:
再對(3)兩邊求和:
定義內(nèi)積矩陣Z=ZZ,將(2)(3)(4)代入(1)中,得
由于B是對稱矩陣,因此對B特征分解可得
Λ為特征值矩陣,V為特征向量矩陣,欲將數(shù)據(jù)降維至3維空間,故選擇前3個最大得特征值以及特征向量,降維之后得數(shù)據(jù)點表示為
1.2.2 基于歷史信息的LSTM預(yù)測模型 碳價格的波動不僅會受到近期的影響,而且過去任意時期都有可能對未來的變化造成沖擊,只是隨著時間推移,過去的時間節(jié)點對現(xiàn)在的影響可能呈現(xiàn)遞減趨勢。因此本文選擇借助LSTM神經(jīng)網(wǎng)絡(luò)的門控機制,過濾冗余信息并篩選出有效歷史信息對碳價格進行預(yù)測。每一個LSTM的神經(jīng)單元是由細胞狀態(tài)以及輸入門、遺忘門和輸出門三個門組成。首先由遺忘門根據(jù)下式來決定當(dāng)前狀態(tài)需要丟棄哪些歷史信息:
此時引發(fā)細胞狀態(tài)的第一次改變,即
然后向輸入門中輸入前一期的細胞狀態(tài)C,前一期的輸出值S,以及該期的數(shù)據(jù)X,由輸入門對所有輸入信息進行處理,并根據(jù):
引發(fā)細胞狀態(tài)的第二次改變:
最終由輸出門得到輸出結(jié)果O(t)與輸出值S:
1.2.3 基于歷史信息的LSTM預(yù)測模型LSSVM在SVM的基礎(chǔ)上進行改進,采用最小二乘線性方程作為損失函數(shù),將SVM的不等式約束轉(zhuǎn)化為了等式約束,從而將復(fù)雜的二次規(guī)劃問題轉(zhuǎn)化為相對較簡單的求解線性方程組問題,有助于基于歷史信息對具有非線性特性的碳價格進行有效擬合。設(shè)給定一組訓(xùn)練樣本集:
其中x為第i個輸入向量,y為第i個輸出向量,n為輸入向量的維數(shù),N為訓(xùn)練樣本的大小。LSSVM的核心是將訓(xùn)練樣本非線性映射到高維特征空間,在高維空間中進行線性回歸?;貧w函數(shù)為
其中ω為權(quán)重向量,φ(x)為LSSVM的核函數(shù),反映低維特征空間到高維特征空間的映射關(guān)系,b為偏差。依據(jù)結(jié)構(gòu)風(fēng)險最小化原則,LSSVM優(yōu)化問題可轉(zhuǎn)化為:
其中e為擬合誤差,y為懲罰因子,用于控制誤差的懲罰程度。引入拉格朗日乘子λ求解該優(yōu)化問題:
然后根據(jù)KKT條件對上式求解推導(dǎo):
求解消除方程中的棕和e,得到最終預(yù)測模型函數(shù):
其中K(x,x)為核函數(shù),反映輸入空間到高維特征空間的非線性映射。本文采用具有徑向?qū)ΨQ且泛化能力強的徑向基核函數(shù)作為該預(yù)測模型的核函數(shù)
其中滓為核函數(shù)的寬度因子。
本文選取從2019/10/29至2022/03/07共314個數(shù)據(jù),其中前284天為訓(xùn)練集,后30天為測試集。查閱文獻后,本文選取了低碳經(jīng)濟、碳交易、碳達峰、碳中和、碳足跡、碳排放、碳關(guān)稅、減排、碳稅九個關(guān)鍵詞,以這些關(guān)鍵詞的百度指數(shù)作為人們對碳價格的關(guān)注熱度。利用MDS算法降維后的結(jié)果如圖2。
圖2 搜索熱度降維結(jié)果
將降維后的搜索熱度和歷史碳交易價格分別作為LSTM模型和LSSVM模型的輸入層,建立LSTM碳價格預(yù)測模型和LSSVM碳價格預(yù)測模型,具體輸入如表1。
表1 三種模型的輸入輸出參數(shù)
此時,我們可以得到基于多源信息融合的碳價格預(yù)測模型的結(jié)果,如圖3。
圖3 碳價格預(yù)測結(jié)果
本文選取誤差平方和(SSE)、平均絕對百分比誤差(MAPE)、均方根差(RMSE)和平均絕對誤差(MAE),用于評估以上三種碳價格預(yù)測模型的優(yōu)劣。計算公式如下:
根據(jù)公式(22)-(25)計算各碳價格預(yù)測模型的評價結(jié)果如表2。
表2 各模型預(yù)測效果對比
通過表2可以看出,無論是SSE、MAPE、RMSE、MAE,模型3的預(yù)測效果都顯著優(yōu)于模型1,這表明LSSVM模型比LSTM更適合預(yù)測碳價格的波動??紤]民眾關(guān)注熱度的模型3預(yù)測效果明顯優(yōu)于模型2,表明民眾關(guān)注對碳價格的波動有一定影響。實踐證明,引入多源信息的預(yù)測模型能顯著提高預(yù)測精度,考慮多方面影響因素在實際預(yù)測中是有必要的。
針對本文所研究的問題,通過對比同等條件下LSTM和LSSVM的預(yù)測性能,最終基于LSSVM構(gòu)造兩類預(yù)測模型,一類僅考慮歷史價格對碳價格的影響,另一類則同時考慮歷史價格和關(guān)鍵詞百度指數(shù),研究其對碳價格的共同影響。實驗結(jié)果顯示,加入關(guān)鍵詞百度指數(shù)后的模型,其預(yù)測性能有了顯著提升。由此可見網(wǎng)絡(luò)搜索指數(shù)對于某些問題的預(yù)測研究有著較為重要的正面影響,因此在未來的研究中會繼續(xù)將搜索指數(shù)置于較為重要的位置,以提高模型的精確性與合理性。