李慧玲
(國網(wǎng)河北省電力有限公司 信息通信分公司,河北 石家莊 050020)
時(shí)間序列數(shù)據(jù)的分類和預(yù)測在不同的領(lǐng)域得到了廣泛的研究[1-2],現(xiàn)已廣泛應(yīng)用于自然語言處理、醫(yī)學(xué)數(shù)據(jù)分析、氣象學(xué)、金融等領(lǐng)域[3-6]。金融市場因其復(fù)雜動態(tài)特點(diǎn),觀測數(shù)據(jù)具有高度的非平穩(wěn)性和噪聲性,使得金融時(shí)間序列預(yù)測成為時(shí)間序列預(yù)測中最困難的任務(wù)之一。
在過去的幾十年中,人們提出了許多數(shù)學(xué)模型,從噪聲、非平穩(wěn)的金融時(shí)間序列中提取金融特征。張勁帆等[7]提出了基于貝葉斯估計(jì)的混合頻率向量自回歸模型,并對該模型預(yù)測中國宏觀經(jīng)濟(jì)運(yùn)行情況的效果進(jìn)行了檢驗(yàn)。宋玉平等[8]通過自適應(yīng)過濾法優(yōu)化對以滬深300指數(shù)對數(shù)收益率及個(gè)股三一重工的收盤價(jià)為代表的五分鐘高頻金融時(shí)間序列進(jìn)行預(yù)測。為確保數(shù)據(jù)的可處理性,這些模型通常假設(shè)基礎(chǔ)數(shù)據(jù)分布是一定的,這導(dǎo)致對未來觀測數(shù)據(jù)的泛化能力較差。近年來,隨著機(jī)器學(xué)習(xí)技術(shù)的發(fā)展,有學(xué)者將其引入金融時(shí)間序列預(yù)測問題,從而減輕對數(shù)據(jù)分布假設(shè)的依賴。曹楊麗等[9]提出了基于支持向量回歸的窗口平均預(yù)測方法,并將其應(yīng)用于預(yù)測我國股指期貨與股票市場相關(guān)性的影響。閆政旭等[10]提出了一種基于Pearson系數(shù)的隨機(jī)森林新的組合模型方法,預(yù)測股票的走向趨勢,解決了在大量特征和大數(shù)據(jù)下預(yù)測精度低的問題。陳學(xué)彬等[11]基于深度學(xué)習(xí)方法對信用債個(gè)體違約風(fēng)險(xiǎn)進(jìn)行及時(shí)跟蹤和預(yù)測。劉翀等[12]提出了基于深度LSTM和注意力機(jī)制的金融數(shù)據(jù)預(yù)測模型,解決了數(shù)據(jù)間長依賴的問題,并能學(xué)習(xí)更加復(fù)雜的市場動態(tài)特征。盡管機(jī)器學(xué)習(xí)模型推動了金融領(lǐng)域預(yù)測及分析技術(shù)的發(fā)展,但這些模型并不是為捕獲時(shí)間序列數(shù)據(jù)中的時(shí)間信息而專門設(shè)計(jì)的。此外,部分深度學(xué)習(xí)模型通過引入注意機(jī)制提高了模型的性能和可理解性,但使模型更加復(fù)雜,從而帶來更高的計(jì)算開銷,阻礙了深度學(xué)習(xí)模型在金融領(lǐng)域的推廣及實(shí)際應(yīng)用,因此提出一種運(yùn)算速度快,能夠?qū)B續(xù)的大量輸入數(shù)據(jù)進(jìn)行有效預(yù)測的模型具有重要的現(xiàn)實(shí)意義。
為提高網(wǎng)絡(luò)模型訓(xùn)練效率,提出了一種結(jié)合雙線性投影思想的神經(jīng)網(wǎng)絡(luò)層來學(xué)習(xí)多元時(shí)間序列數(shù)據(jù)。此外,在網(wǎng)絡(luò)中引入注意增強(qiáng)雙線性層(bilinear layer,BL)模型,使得模型可以用任何小批量梯度下降學(xué)習(xí)算法進(jìn)行訓(xùn)練。
矩陣X∈RD×T為一個(gè)二階張量,D和T分別是維數(shù)。Xi∈RD×T,i=1,2,…,N,為由N個(gè)樣本組成的集合,每個(gè)樣本包含與其T列相對應(yīng)的T個(gè)過去觀測序列。過去值(T)的時(shí)間跨度稱為歷史,而想要預(yù)測的未來值(H)的時(shí)間跨度稱為預(yù)測視界。例如,假設(shè)股票價(jià)格每秒鐘和每周一次抽樣Xi∈R10×100包含上一個(gè)T=100 s的不同限價(jià)指令簿(limit order book,LOB)水平的股票價(jià)格,預(yù)測范圍H=10對應(yīng)于預(yù)測下一個(gè)10 s的未來價(jià)值,即中間價(jià)。
(1)
(2)
(3)
(4)
式中:Wout為參數(shù),bout為偏置。
基于雙線性映射的回歸模型描述如下:
f(X)=W1XW2
(5)
式中:X∈RD×T為一個(gè)包含T個(gè)時(shí)間步長的多元時(shí)間序列;W1∈R3×D和W2∈RT×1為要估計(jì)的參數(shù)。
通過學(xué)習(xí)將輸入LOB狀態(tài)轉(zhuǎn)換為類成員向量的兩個(gè)獨(dú)立映射(大小為3×1,分別對應(yīng)于中間價(jià)的3種類型的變動)。
令X=[x1,x2,…,xT]∈RD×T表示雙線性層BL的輸入。根據(jù)雙線性映射回歸模型,BL層將通過應(yīng)用以下映射將大小為D×T的輸入轉(zhuǎn)換到大小為D′×T′的矩陣:
Y=φ(W1XW2+B)
(6)
式中:W1∈RD×D′,W2∈RT×T′,B∈RD′×T′為要估計(jì)的參數(shù),φ(·)為元素非線性變換函數(shù),如ReLU或sigmoid函數(shù)。
對于多層感知器[14](multilayer perceptron,MLP)層,將D×T大小的輸入轉(zhuǎn)換為D′×T′需要估計(jì)(DT+1)D′T′個(gè)參數(shù)(包括偏置項(xiàng)),這遠(yuǎn)高于BL的參數(shù)數(shù)目(DD′+TT′+D′T′)。同時(shí),為了將映射應(yīng)用于時(shí)間序列數(shù)據(jù),將X的每一列和每一行分別表示為xct∈RD(t=1,2,…,T)和xrd∈RD,(d=1,2,…,D)。給定輸入時(shí)間序列X,第t列表示在時(shí)間實(shí)例t處觀察到的D個(gè)不同特征,第d行包含在過去t個(gè)步驟期間第d個(gè)特征的時(shí)間變化。在時(shí)間實(shí)例t=1,2,…,T時(shí)不同特征之間的相互作用由W1反映:
W1X=[W1xc1,W1xc2,…,W1xcT]
(7)
(8)
其中:W2反映第d個(gè)特征的時(shí)間進(jìn)程。例如,假設(shè)X包含歷史T期間D個(gè)不同LOB水平的股票價(jià)格,則BL通過W1確定不同股票價(jià)格在特定時(shí)間如何相互作用,以及通過W2確定特定指數(shù)的價(jià)格如何隨時(shí)間推移。因此,利用LOB中存在的空間結(jié)構(gòu),可以更好地聯(lián)合分配未來最佳買賣價(jià)格。
盡管BL根據(jù)每個(gè)特征學(xué)習(xí)獨(dú)立的依賴關(guān)系,但是不清楚一個(gè)時(shí)間實(shí)例的表示如何與其他時(shí)間實(shí)例交互,或者哪些時(shí)間實(shí)例對視界T′處的預(yù)測是重要的。通過將位置信息納入注意力計(jì)算方案,學(xué)習(xí)模型僅使用過去序列中的特定時(shí)間實(shí)例來預(yù)測給定視界下的未來值,以便進(jìn)行序列間學(xué)習(xí)。提出了映射輸入X∈RD×T到輸出Y∈RD′×T′的時(shí)間注意增強(qiáng)BL模型,具體如下所示:
(9)
(10)
(11)
(12)
(13)
式中:αij和eij分別為A和E位置(i,j)處的元素;為元素級多重復(fù)制算子;φ(·)為一個(gè)預(yù)定義的非線性映射;W1∈RD′×D,W∈RT×T,W2∈RT×T′,B∈RD′×T′及λ為所提注意增強(qiáng)BL模型的參數(shù)。與前面提到的基礎(chǔ)BL模型類似注意增強(qiáng)BL模型通過W1和W2建立了獨(dú)立的依賴模型,且通過W和λ學(xué)習(xí)中間注意過程。注意增強(qiáng)BL模型流程圖,如圖1所示:
圖1 注意增強(qiáng)BL模型流程圖
具體可分為5個(gè)步驟:
(1)結(jié)合式(9),W1用于將X(每列)的每個(gè)時(shí)間實(shí)例xct,t=1,2,…,T,表示轉(zhuǎn)換為新的特征空間RD′。該模型沿著X的第一個(gè)模式建立依賴關(guān)系,同時(shí)保持時(shí)間順序不變。
(3)結(jié)合式(11)中的softmax函數(shù)對E中的重要值進(jìn)行歸一化處理。該層將許多元素推向接近零的位置,同時(shí)將其中少數(shù)元素的值保持為正。該過程將產(chǎn)生注意力掩碼A。
(4)從步驟(3)可得注意掩碼A以消除RD′中不重要元素的影響。式(12)中的λ允許模型學(xué)習(xí)一種軟注意機(jī)制,而非傳統(tǒng)的硬注意機(jī)制??紤]到在學(xué)習(xí)過程的早期階段,從前一層提取的學(xué)習(xí)特征可能是有噪聲,并且可能不具有辨別性,硬注意機(jī)制可能會將模型誤導(dǎo)到不重要的信息,而軟注意可能會使模型在早期即在選擇最重要的特征之前學(xué)習(xí)辨別特征。需注意,λ的范圍為[0,1]之間;
(5)與BL模型類似,估計(jì)時(shí)間映射W2,并在偏置和非線性變換之后提取更高級別的特征。
輸入為一個(gè)大小為40×10的矩陣,表示買賣雙方前10個(gè)訂單的價(jià)格和數(shù)量(40個(gè)值)。120×5-BL表示輸出大小為120×5。網(wǎng)絡(luò)結(jié)構(gòu)如圖2所示。
圖2 網(wǎng)絡(luò)結(jié)構(gòu)
雖然注意機(jī)制可以放在任何一層,但網(wǎng)絡(luò)參與高級表征更為有利,該過程類似于應(yīng)用多個(gè)卷積層后應(yīng)用的視覺注意機(jī)制。此外,考慮到評估的網(wǎng)絡(luò)結(jié)構(gòu)輸出為隸屬度概率向量,因此使用加權(quán)熵?fù)p失函數(shù)對結(jié)果進(jìn)行評估:
(14)
BL模型的空間復(fù)雜度為O(DD′+TT′+D′T′),所提時(shí)間注意增強(qiáng)BL模型空間復(fù)雜度為O(T2)。BL模型的計(jì)算復(fù)雜度包括兩個(gè)環(huán)節(jié):①矩陣乘法W1XW2,計(jì)算復(fù)雜度為O(DD′T+D′TT′);②偏置移位和非線性激活,計(jì)算復(fù)雜度為O(2D′T′)。因此,BL模型的總體計(jì)算復(fù)雜度OBL為:
OBL=O(DD′T+D′TT′+2D′T′)
(15)
所提時(shí)間注意增強(qiáng)BL模型具有與BL模型中相同的計(jì)算步驟以及對注意步驟的額外計(jì)算,因此總計(jì)算復(fù)雜度OBL′為:
OBL′=O(DD′T+D′TT′+2D′T′+D′T2+3D′T)
(16)
式中:D′T2和3D′T來自注意掩碼A。
仿真所用數(shù)據(jù)集為FI-2010數(shù)據(jù)集。該數(shù)據(jù)是從納斯達(dá)克北歐證券交易所收集的不同股票中獲取,收集期為2010年6月1日—6月14日,產(chǎn)生10個(gè)工作日的訂單數(shù)據(jù)。數(shù)據(jù)集相關(guān)信息如表1所示。對于每個(gè)特征向量,F(xiàn)I-2010數(shù)據(jù)集包括與未來10、20、30、50、100個(gè)事件中的未來運(yùn)動相對應(yīng)的5個(gè)不同水平(H=10、20、30、50、100)中的中間價(jià)(平穩(wěn)、增加和減少)的標(biāo)簽。
表1 實(shí)FI-2010數(shù)據(jù)集相關(guān)信息
將數(shù)據(jù)集分為訓(xùn)練集、驗(yàn)證集和測試集3部分,比例為8∶1∶1。網(wǎng)絡(luò)訓(xùn)練時(shí)部分參數(shù)如表2所示。
表2 網(wǎng)絡(luò)訓(xùn)練參數(shù)
3.2.1 實(shí)驗(yàn)過程
首先,將歷史數(shù)據(jù)整合并進(jìn)行插值,從而使得歷史數(shù)據(jù)時(shí)間戳特征。然后,執(zhí)行數(shù)據(jù)縮放操作,從而將所有數(shù)據(jù)轉(zhuǎn)換為統(tǒng)一尺度。再次,對數(shù)據(jù)進(jìn)行切片以生成數(shù)據(jù)鏈。最終,將生成的數(shù)據(jù)鏈帶入所提模型,從而對未來數(shù)據(jù)進(jìn)行預(yù)測。數(shù)據(jù)縮放計(jì)算公式如下:
(17)
(18)
3.2.2 訓(xùn)練性能評估
所提模型在訓(xùn)練集中的性能曲線如圖3所示,該模型使用損失函數(shù)和傳統(tǒng)交叉熵?fù)p失函數(shù)進(jìn)行訓(xùn)練,并在訓(xùn)練階段進(jìn)行迭代。
圖3 不同損失函數(shù)仿真對比結(jié)果
由圖3可知,損失函數(shù)訓(xùn)練的模型在28真步長時(shí)基本達(dá)到最優(yōu)迭代,而傳統(tǒng)交叉熵?fù)p失在95次仿真步長時(shí)才獲得最優(yōu)迭代。由此可見,所提的損失函數(shù)使得訓(xùn)練模型的收斂速度更快,且模型性能更優(yōu)。
3.2.3 測試性能評估
改進(jìn)方法與LSTM、GRU方法的在測試集中準(zhǔn)確率對比結(jié)果如圖4所示??芍倪M(jìn)方法性能有明顯提升,準(zhǔn)確率達(dá)到84.3%,而傳統(tǒng)LSTM和GRU方法分別為82.6%和82.1%。
圖4 不同方法準(zhǔn)確率對比結(jié)果
(1)基于注意機(jī)制對財(cái)務(wù)時(shí)間序列數(shù)據(jù)進(jìn)行了研究與分析,提出了一種基于注意機(jī)制的深度學(xué)習(xí)模型。利用雙線性層學(xué)習(xí)時(shí)間序列數(shù)據(jù)相關(guān)關(guān)系,并根據(jù)多元時(shí)間序列回歸模型對結(jié)果進(jìn)行預(yù)測。建立數(shù)學(xué)模型分析了股票數(shù)據(jù)序列數(shù)據(jù)特征提取以及特征學(xué)習(xí)過程,為股票時(shí)間序列數(shù)據(jù)分析及預(yù)測提供了理論參考價(jià)值。
(2)以FI-2010數(shù)據(jù)集為例,實(shí)驗(yàn)結(jié)果驗(yàn)證了所提模型能夠加快時(shí)間序列數(shù)據(jù)訓(xùn)練效率。仿真結(jié)果進(jìn)一步驗(yàn)證了所提模型的實(shí)踐價(jià)值,對金融時(shí)間序列數(shù)據(jù)預(yù)測方面具有一定指導(dǎo)意義。
(3)進(jìn)一步,考慮到不同金融時(shí)間序列數(shù)據(jù)可能存在顯著差異,可將改進(jìn)的模型作為基礎(chǔ)模型,對其他金融數(shù)據(jù)預(yù)測時(shí)利用遷移模型并通過微調(diào)(fine-tuning)到另一個(gè)數(shù)據(jù)集。未來工作可對遷移模型進(jìn)行研究,從而進(jìn)一步提升模型泛化能力,拓展模型應(yīng)用場景。