高世樂,王 瀅,李海林,2*,萬?;?/p>
(1.華僑大學工商管理學院,福建泉州 362021;2.華僑大學應用統(tǒng)計與大數(shù)據(jù)研究中心,福建廈門 361021)
機構投資使股市環(huán)境產(chǎn)生了多元化的投資者結構,對股市具有一定的沖擊影響,同時也可以幫助穩(wěn)定金融市場。目前大部分股票交易都有機構投資者的參與,其行為對股價波動的影響較大。研究機構交易行為對股價波動的影響有利于幫助散戶進行股票投資,本文將從股票總體市場出發(fā)找出機構交易行為,分析機構交易行為對個股價格波動的影響,預測個股股價波動趨勢,識別機構投資者操縱股票的行為,進而降低散戶投資風險和提高投資回報。
機構投資者的交易行為對股價波動是否具有一定的影響,部分學者對其進行了研究。何佳等[1]對機構投資者能否穩(wěn)定股市進行了實證研究,得出了機構投資者對股價波動的影響并不是確定的;王詠梅等[2]從機構投資者與市場信息效率的關系出發(fā),對深市A股的上市公司數(shù)據(jù)進行實證研究,得出機構投資者的過度交易行為會損害信息效率,加劇股市的不穩(wěn)定性,造成股價波動;劉京軍等[3]根據(jù)換手率特點將機構投資者分為長期投資者與短期機會主義者,經(jīng)過實證分析得出較長期機構投資者而言,短期機構投資者的交易行為加劇了股市的不穩(wěn)定性,加劇了市場波動,長期機構投資者在穩(wěn)定市場方面具有一定的作用;史永東等[4]通過得分匹配模型驗證了機構投資者的頻繁交易會加劇市場的不穩(wěn)定性,產(chǎn)生股價波動。因此,機構投資者的短期交易行為會加劇市場的不穩(wěn)定性,進而導致股價波動,以機構投資者的短期交易行為為出發(fā)點,研究個股價格波動趨勢是可行的。
在股票價格和趨勢等預測方面,學者們也進行了大量研究[5-12],提出了各種不同且有效的預測方法,例如自回歸滑動平均(Auto-Regressive Moving Average,ARMA)模型、支持向量機和神經(jīng)網(wǎng)絡等。許多學者又在傳統(tǒng)方法的基礎上進行了改進,以取得更好的預測效果。張貴生等[6]在ARMA-GARCH(Auto-Regressive Moving Average-Generalized Auto-Regressive Conditional Heteroskedasticity)模型的基礎上引入因變量滯后項的微分信息,提出了ARMAD-GARCH 模型,較之原模型取得了更準確的預測結果。吳少聰[7]通過對具有代表性的13支A 股股票建立混合模型進行股票趨勢預測,并據(jù)此建立了股票信息服務平臺,且驗證了它比長短時記憶(Long Short Term Memory,LSTM)網(wǎng)絡模型和差分整合移動平均自回歸(Auto-Regressive Integrated Moving Average,ARIMA)模型的預測準確率高。宋剛等[8]提出了基于自適應粒子群優(yōu)化的LSTM 股票價格預測模型,對LSTM 模型進行了改進,提高了準確率且具有普適性。石浩[9]通過建立基于遞歸神經(jīng)網(wǎng)絡的股票預測模型,并與傳統(tǒng)的神經(jīng)網(wǎng)絡模型進行比較,突出其所建模型的價值。謝琪等[10]建立了一種基于長短記憶神經(jīng)網(wǎng)絡集成學習的金融時間序列預測模型,并使用準確率、精確率、召回率、F1值與曲線下面積(Area Under Curve,AUC)這5 個評價分類算法的指標對傳統(tǒng)神經(jīng)網(wǎng)絡模型與該模型的預測結果進行評價,從而驗證該模型優(yōu)于其他傳統(tǒng)神經(jīng)網(wǎng)絡模型。Nakagawa等[11]對股票價格波動模式進行了k-medoids 聚類,并利用索引動態(tài)時間規(guī)整法[12]提取了代表性波動模式作為預測的特征值,并據(jù)此對股價進行預測。
目前在機構交易行為對于個股趨勢影響以及通過機構交易行為來預測股價波動等方面的研究甚少,學者們更多的是從股票市場的總體范圍來研究機構投資行為對股市穩(wěn)定性以及股價波動的影響,在預測股價波動方面更多的是基于收盤價序列數(shù)據(jù)進行預測。相對而言,機構對股票的操縱行為通常是間斷性的且時間持續(xù)性不長,使得股票時間序列數(shù)據(jù)的局部性信息顯得更為重要。然而,傳統(tǒng)的時間序列預測方法是基于數(shù)據(jù)的整體信息考慮,缺乏對局部性數(shù)據(jù)的重視。鑒于傳統(tǒng)模型和方法對數(shù)據(jù)具有研究假設前提的要求以及局部性時間片段的重要性,使用時間序列數(shù)據(jù)挖掘的相關技術和方法對其進行研究顯得尤為重要。且矩陣畫像算法在時間序列的局部性研究上具有一定的優(yōu)越性。因此,本文借助時間序列矩陣畫像算法對深市A股主要股票歷史換手率數(shù)據(jù)建立基于機構交易行為的序列片段知識庫codeDB,利用知識庫codeDB 可從單支股票出發(fā)對個股價格波動趨勢進行預測。與傳統(tǒng)ARMA 回歸模型和LSTM 網(wǎng)絡等預測方法相比,新方法不僅從新的視角對股票時間序列數(shù)據(jù)進行預測,還對個股價格波動分析具有更好的預測效果。
矩陣畫像(Matrix Profile,MP)[13-24]是一種用于時間序列數(shù)據(jù)挖掘的數(shù)據(jù)結構,可用于主題發(fā)現(xiàn)、密度估計、異常檢測、規(guī)則發(fā)現(xiàn)、分割和聚類等。
定義1時間序列數(shù)據(jù)是按時間順序排列的實數(shù)值數(shù)據(jù),用序列T表示,且T=t1,t2,…,tn,其中n是T的長度。
定義2子序列表示在原始序列T中截取長度為m的一段序列,用Ti,m表示,即是從T中第i個位置開始的長度為m的連續(xù)子集。形式上表示為Ti,m=ti,ti+1,…,ti+m-1,其中1 ≤i≤n-m+1。
定義3距離畫像D是時間序列T中不同的子序列間的距離矩陣。給定一個時間序列T,子序列長度為m,從Ti,m(i=1,2,…)開始計算其與其他子序列片段的距離,得到一個距離矩陣D,即Di是給定查詢子序列與時間序列中的每個子序列之間的距離向量。
形式上表現(xiàn)為Di=[di,1,di,2,…,di,n-m+1],其中di,j是Ti,m和Tj,m之間的距離,計算子序列片段間的距離公式為:
其中:m表示子序列長度,μi表示子序列Ti,m的均值,σi表示子序列Ti,m的標準差,QTi,j表示子序列Ti,m與子序列Tj,m的點積[14]。特別地,當子序列數(shù)據(jù)經(jīng)過zscore標準化后,即μ=0,σ=1時,式(1)轉變成:
即標準化后的序列在計算距離畫像時,只要計算好子序列間的點積便可快速得到該序列的距離畫像。
定義4時間序列數(shù)據(jù)A=[a1,a2,…,an] 和B=[b1,b2,…,bn],則A與B之間的點積QT計算公式為:
點積是在實現(xiàn)矩陣畫像算法過程中會用到的重要公式,是用于計算矩陣畫像中距離畫像的重要部分。一個子序列與一條時間序列中所有子序列的點積的具體算法見文獻[15],該算法時間復雜度為O(nlogn),與傳統(tǒng)的計算過程相比,計算效率顯著提高。
定義5矩陣畫像MP是時間序列T中每個子序列Ti,m與其最相似片段(即距離最小值)之間的距離值組成的向量。距離畫像相當于是每個子序列片段與其他所有子序列片段中的距離最小值。形式上,MP=[min(D1),min(D2),…,min(Dn-m+1)],其中Di(1 ≤i≤n-m+1)是由子序列Ti,m與其他所有子序列片段之間的距離所構成的向量。
定義6興趣模式(motif)是指一條或多條時間序列中最相似的子序列片段,即在每個子序列片段所對應的已是其最近距離值(即子序列的MP值)的情況下,再尋找MP中的極小值。在尋找興趣模式之前,需先計算出要尋找模式的MP值,再從MP中獲得極小值對應的模式,進而找到興趣模式。
定義7矩陣畫像索引是用來記錄每個子序列片段的最近子序列片段所在位置的,記為MPI,其為整數(shù)向量,即表示距離向量Di中的第j個距離元素。
當子序列片段的MP值相同時,通過MPI可以快速簡便地定位到MP相同的值,從而快速尋找序列的興趣模式。計算矩陣畫像的算法目前有stamp[14]、stomp[15]和scrimp[21]等。本文使用的算法是stomp,其具體過程見文獻[15]。它與stamp 最主要的區(qū)別在于子序列片段間點積的計算效率上。stomp 算法在點積處理上,遵循了以下思路,降低了算法的時間復雜度,使算法更加高效。由于
因此可得下面公式:
使用式(4)可在時間復雜度為O(n)的情況下完成QT的更新,提高了算法的計算效率,使矩陣畫像算法更加高效。
矩陣畫像的演算過程如圖1 所示,該示意圖體現(xiàn)了求解一條長度為n時間序列T的MP值的過程。圖中Δ指的是計算子序列片段Ti,m與時間序列中其他所有長度為m的子序列片段的距離向量Di,接著對每個距離向量Di求最小值,即MPi=,便可得到所有子序列片段的距離畫像MP=[MP1,MP2,…,MPn-m+1]。需要說明的是,由于相鄰兩條子序列片段重疊太多,會造成時間相近的序列片段互為最相似片段,不利于興趣模式的發(fā)現(xiàn)。故在排除與Ti,m重復長度超過m/2 的子序列的距離后,取距離向量Di的最小值作為Ti,m的MP值。
圖1 矩陣畫像演算過程Fig.1 Calculation process of matrix profile
首先,使用矩陣畫像方法,以金融股票的換手率數(shù)據(jù)為切入點,分別構建不同興趣模式長度下的基于機構交易行為影響的換手率波動知識庫;其次,確定待預測股票在興趣模式長度取何值時,預測結果精確度高;最后,基于該興趣模式長度下的知識庫,預測在機構交易行為影響下的單支股票價格波動趨勢。
換手率也稱“周轉率”,指在一定時間內股票市場中股票轉手交易的頻率,體現(xiàn)了股票的流通性強弱。換手率公式為:
其中:H表示換手率,V表示成交量,TN表示發(fā)行總股數(shù)。
選擇使用換手率數(shù)據(jù)代替使用成交量的主要原因是,在表示機構交易行為時,換手率數(shù)據(jù)能夠反映交易的頻率和交易情況,相對更能說明機構和股民在一定時期內的交易行為。一般情況下,在股票市場中針對某一支股票的散戶交易量并不大,若沒有機構投資者的介入,其換手率一般不高。就一般經(jīng)驗來說,換手率具有以下特征:1)H<3%表示股票交易行為主要是散戶參與;2)H>7%表示股票交易行為主要是機構投資者參與。因此,本文主要根據(jù)換手率的高低來定義機構交易行為(Institutional Trading Behavior,ITB),且將存在換手率大于8%的股票序列片段定義為存在機構交易行為。
2.1.1 構建知識庫
根據(jù)交易數(shù)據(jù),可以構建反映機構主要交易行為的知識庫,其為包含了具有典型代表意義的機構交易行為的數(shù)據(jù)庫,為散戶們提供有關機構交易行為的相關信息和知識,構建知識庫的算法如算法1所示。
算法1 BuildDB(TS,m)。
輸入 股票換手率序列集合TS,興趣模式長度m。
輸出 知識庫codeDB。
算法1中1)~2)行是將處理好的股票數(shù)據(jù)用Matrix Profile算法找出motif;3)~7)行是剔除不存在機構交易行為的motif,并將剩余的motif前期片段、motif片段與motif后續(xù)片段分別存入知識庫中。
2.1.2 補充庫
由于在預測過程中有可能會出現(xiàn)一些情況,即此時的股票數(shù)據(jù)序列是存在機構交易行為的,但其與知識庫中的興趣模式的匹配度并不高。若強行進行預測,預測結果有極大的概率會偏離實際結果,因此這種情況是不進行預測的。然而,存在機構交易行為的片段是值得注意的,其處理方式是先將該片段暫保存在其他數(shù)據(jù)庫中,稱該數(shù)據(jù)庫為補充庫(supDB)。補充庫是將當前存在機構交易行為但與知識庫中的興趣模式匹配度不高的子序列片段進行保存,以備在完備知識庫中使用。具體算法如算法2所示。
算法2 BuildsupDB(QS,codeDB,ε)。
輸入 70 支股票中新出現(xiàn)且codeDB未包含的換手率序列集QS,知識庫codeDB,匹配程度的閾值ε。
輸出 補充庫supDB。
算法2 中2)~8)行表示將存在機構交易行為且其與知識庫中所有motif 序列的相似性程度都不高的序列片段存入補充庫中。
2.1.3 完備知識庫
補充庫中的子序列片段即是知識庫的完備項。當能在補充庫找到興趣模式時,說明該片段具有一定的代表性,則將該興趣模式所對應的片段擴充到知識庫中,具體算法如算法3所示。
算法3 perfectDB(supDB,m)。
輸入 補充庫supDB,子序列長度m。
輸出 知識庫codeDB。
算法3 中:第1)~2)行中是從supDB中的序列集合中尋找到興趣模式;第3)行便是將找到的興趣模式存入知識庫codeDB中。
對某支股票進行預測時,興趣模式的長度不同,擬合的效果也會不同。確定興趣模式長度與預測天數(shù)二者滿足何種關系時預測效果較好是提高預測效果的手段之一,即尋找興趣模式長度與預測天數(shù)的最佳模式匹配。本文采取的方法主要是使用歷史數(shù)據(jù)進行多次訓練,找出已知預測天數(shù)下擬合效果好的興趣模式長度。首先,提出已知預測天數(shù)和興趣模式長度下的趨勢預測算法,如算法4所示。
算法4 PredictTrend(Q,TP,m,t,TS,ε)。
輸入 待預測片段Q,對應的股票收盤價TP,興趣模式長度m,預測天數(shù)t,70支股票換手率序列集合TS,匹配程度的閾值ε。
輸出 預測出的價格趨勢PT。
算法4 中第1)行是構建知識庫的過程,2)~12)行表示待預測片段存在機構交易行為時的具體做法,第2)~4)行是選取知識庫中與待預測片段相似度最高的興趣模式對應片段,第5)~7)行對二者是否相似度高進行判斷。若相似度高則獲取未來股價波動趨勢;反之,將待預測片段存入補充庫中。第13)~23)行表示待預測片段不存在機構交易行為時的具體做法;第14)~15)行是選取知識庫中與待預測片段相似度最高的興趣模式前序對應的片段。若相似度高,則獲取未來股價波動趨勢;反之,則不可預測。
其次,尋找興趣模式長度與預測天數(shù)最佳模式匹配的算法,如算法5所示。
算法5 DeterLen(T,TP,t,num,TS,ε)。
輸入 待預測片段所在股票的換手率序列T,對應的股票收盤價TP,預測天數(shù)t,實驗次數(shù)num,70 支股票換手率序列集合TS,匹配程度的閾值ε。
輸出 預測效果最佳的子序列片段長度m。
算法5 的目的是在已知預測天數(shù)的情況下獲取基于歷史數(shù)據(jù)訓練下的最佳興趣模式長度,其前提在于已知待預測片段及其所在的股票序列。第2)行定義的是訓練時興趣模式的取值范圍,本文使用實驗驗證的方法來確定最佳興趣模式長度,故在訓練實驗中會盡量擴大長度的取值范圍;第3)~5)行是隨機選取一定長度的待預測片段所在股票歷史數(shù)據(jù),進行預測訓練,并計算RMSE 值來判斷預測擬合程度的好壞;第8)~9)行是對之前做過的多次實驗進行整理計算,綜合選出最優(yōu)的興趣模式長度與預測天數(shù)的匹配模式。
本文主要研究的是在機構交易行為影響下的個股價格波動,但這并不是意味著在沒有存在機構交易行為的情況下,新方法就不能進行預測。由圖2 即可看出若待預測片段不具有機構行為,可以與知識庫中保存的興趣模式前期序列進行匹配。若匹配度高,則有很大概率認為待預測片段可能即將迎來機構交易行為;若匹配度不高時,則表示無法預測。若存在機構交易行為,則與知識庫中的興趣模式(motif)進行匹配,匹配度高則返回未來可能的股價波動,匹配度不高則將該預測片段存入補充庫中。其具體過程如圖2所示。
在機構交易行為的影響下對股價波動進行預測(MP based Prediction,MPP)的具體算法如算法6所示。
算法6 MPP(Q,T,TP,t,TS,ε)。
輸入 待預測片段Q,Q所在股票的換手率序列T,對應的股票收盤價TP,預測天數(shù)t,70 支股票換手率序列集合TS,匹配程度的閾值ε。
輸出 預測出的價格趨勢PT。
算法6 中:第1)行是對Q所在的股票序列的歷史數(shù)據(jù)進行訓練,找出預測效果最佳的興趣模式長度;第2)行是在確定的興趣模式長度下對Q的后續(xù)股價趨勢進行預測。
圖2 基于矩陣畫像的預測過程Fig.2 Prediction process based on matrix profile
選取2014—2018 年我國深市A 股股票作為研究對象,并對這些數(shù)據(jù)進行整理:1)剔除已經(jīng)停市的股票;2)剔除2014—2018 年連續(xù)5 天停止交易的股票;3)剔除2014—2018 年每年交易日期不足180 的股票。整理得到70 支股票樣本數(shù)據(jù),具體股票代碼如表1。
表1 70只深市A股股票代碼表Tab.1 Stock code table of 70 A-shares in Shenzhen stock exchange
實驗主要任務是將70 支股票從2014 年1 月2 日到2018年2 月1 日為止共70 萬條換手率數(shù)據(jù)用于創(chuàng)建知識庫codeDB,預測這70支股票2018年4月10日以后的股價趨勢波動。在興趣模式長度與預測天數(shù)的模式匹配中,模擬預測用到的訓練數(shù)據(jù)均從對應待預測股票中隨機選取。所使用的數(shù)據(jù)主要是股票的換手率數(shù)據(jù)與收盤價數(shù)據(jù),實驗之前要對股票的收盤價數(shù)據(jù)根據(jù)以下公式進行標準化處理:
其中:TPi指的是第i個收盤價,μTP指的是整條收盤價序列的均值,σTP指的是整條收盤價序列的標準差。
為了對不同方法的預測結果進行比較,引入了均方根誤差與平均絕對百分比誤差來對預測結果進行評估,從而比較不同預測方法之間的優(yōu)劣性。
1)均方根誤差(Root-Mean-Square Error,RMSE)。
均方根誤差是用來衡量實際值與預測值之間的偏差。具體公式為:
其中:xpredict,i指的是第i個預測值,xreal,i指的是第i個真實值,n指的是預測值或真實值的個數(shù)。RMSE 的值越小,說明預測效果越好,預測值與實際值之間的偏差越小。
2)平均絕對百分誤差(Mean Absolute Percentage Error,MAPE)。
平均絕對百分誤差可以用來衡量一個模型預測結果的好壞,通過比較不同方法的MAPE 值才能知道對應模型和方法預測的準確性或者優(yōu)劣性,MAPE 值越小,說明模型預測的準確性較高。具體公式為:
其中:xpredict,i指的是第i個預測值,xreal,i指的是第i個真實值,n指的是預測值或真實值的個數(shù)。
在使用MPP 方法時,需先確定興趣模式motif 的長度,即m值。由于不同的m值會造成不同的預測結果,其擬合效果差異性較大,故選好合適的m值有利于得出擬合效果好的預測結果。為了確定興趣模式的長度,根據(jù)不同motif 長度設定對待預測片段所在股票的歷史數(shù)據(jù)進行訓練,選擇對應預測效果最佳的長度為興趣模式的長度。如圖3 所示,在不同m值下進行多次訓練得到的RMSE值所構成的盒圖。
根據(jù)算法5 來確定motif 長度,以股票代碼為000027、000419、000637 和000702 的換手率和收盤價數(shù)據(jù)為例,通過預測得到了如圖3所示的RMSE值分布,通過誤差分析可以獲得對應股票片段進行MPP 預測時可選取的合適的興趣模式長度。為驗證本文提出方法MPP 的性能,將MPP 與ARMA 模型和LSTM 網(wǎng)絡預測方法作對比,同時預測70 支股票自2018年4 月10 日起未來5 個交易日的股價趨勢波動。根據(jù)代碼為000027、000419、000637 和000702 的股票的換手率數(shù)據(jù)和收盤價數(shù)據(jù),由圖3中盒圖的中位數(shù)可選得4只股票較好的興趣模式長度分別為20、31、33和21。使用算法4預測自2018年4月10 日起未來5 個交易日的趨勢波動,預測所得的價格波動與實際價格波動的擬合情況具體如圖4所示。
圖4 MPP預測效果Fig.4 Prediction effect of MPP
圖4 中帶*的點線部分表示實際的價格波動,帶×的虛線部分表示預測的價格波動,從圖4 可以看出這4 支股票未來5個交易日的股價波動漲幅趨勢基本相同,且漲幅程度差異不大,預測的效果較好。
自回歸滑動平均(ARMA)模型是研究時間序列的重要方法,是目前常用的用于擬合平穩(wěn)序列的模型。它可以細分為自回歸(Auto-Regressive,AR)模型、移動平均(Moving Average,MA)模型和ARMA 模型。在ARMA 模型進行對時間序列數(shù)據(jù)進行建模分析時,通常用AIC(Akaike Information Criterion)與BIC(Bayesian Information Criterion)信息準則對模型的優(yōu)劣進行評估。AIC 與BIC 的具體公式如下:AIC=-2 ln(MLV)+2NUP和BIC=-2 ln(MLV)+ln(n) ×NUP,其中:MLV表示模型的極大似然函數(shù)值,n表示時間序列的長度,NUP表示模型中未知參數(shù)的個數(shù)。當AIC 與BIC 的值最小時,認為此時的模型達到最優(yōu)。
使用AIC 與BIC 確定ARMA 模型中的參數(shù),構建好模型后,通過實驗可以得到四支股票000027、000419、000637 和000702 從2018 年4 月10 日起未來5 個交易日的價格趨勢波動預測與實際的個股價格波動趨勢的擬合效果,如圖5所示。
圖5 中帶*的點線部分表示實際的價格波動,帶×的虛線部分表示預測的價格波動,由圖5中4幅圖可以看出ARMA模型的預測效果不太理想,預測結果的擬合效果并不好。
長短時記憶(LSTM)網(wǎng)絡是一種特殊的循環(huán)網(wǎng)絡(Recurrent Neural Network,RNN)類型,解決了RNN 存在的長期依賴問題,對傳統(tǒng)的RNN 進行了隱層中結構上的改進,具有長期記憶能力,LSTM引入“門”的結構來去除或者增加信息到細胞狀態(tài)的能力,LSTM網(wǎng)絡中有輸入門、輸出門和遺忘門。通過利用LSTM 模型預測相同股票的價格趨勢波動,其價格趨勢波動預測與實際的個股價格波動趨勢的擬合效果程度如圖6所示。
圖5 ARMA預測效果Fig.5 Prediction effect of ARMA
圖6 LSTM網(wǎng)絡預測效果Fig.6 Prediction effect of LSTM network
圖6(a)~(c)三幅圖的漲幅趨勢的預測效果不太理想,從(d)中可看出預測到的漲幅趨勢與實際的漲幅趨勢大致相同,只是漲幅程度差異較大。
使用ARMA 模型和LSTM 網(wǎng)絡以及基于機構交易行為下的趨勢預測MPP 這三種方法對70支深圳A 股進行預測分析,即預測自2018年4月10日起未來5天(A 時間段)的股價趨勢波動,且使用RMSE 和MAPE 這兩種評價指標對三種方法的預測結果進行評價。
在使用基于機構交易行為下的趨勢預測方法MPP 進行價格波動預測,所定的匹配程度的閾值ε=1.2,在預測過程中000014(沙河股份)和000554(泰山石油)這兩支股票的匹配程度不夠,將其剔除,終預測數(shù)據(jù)是68 支股票。由于000632(三木集團)、000767(漳澤電力)和000809(鐵嶺新城)這三支股票在2018年4月10日至4月16日中5個交易日的收盤價經(jīng)過標準化處理后存在0 值,MAPE 值無法計算。因此,進行預測結果RMSE 評價指標比較的股票總數(shù)為68 支,MAPE 評價指標比較的股票總數(shù)為65 支,3 種方法對不同股票A 時段的預測誤差如表2 所示(所有數(shù)據(jù)均保留小數(shù)點后兩位)。表2中黑體的數(shù)值表示股票在RMSE 與MAPE 評價下的預測誤差最小值,可以得出共有62支股票的RMSE 最小值與56支股票MAPE 最小值來自基于機構交易行為下的趨勢預測方法MPP,且RMSE與MAPE評價下的均值最小值和標準差小值均來自MPP,由此可知MPP 方法的擬合結果優(yōu)于其他兩種方法。
表2 3種方法的預測誤差Tab.2 Prediction error of three methods
續(xù)表
圖7是將表2數(shù)據(jù)可視化后的結果,圖7(a)表示基于機構交易行為下的趨勢預測方法MPP 與ARMA 模型的RMSE 值比較,其中縱軸表示ARMA方法的RMSE值且記為Ra,橫軸表示MPP 方法的RMSE 值且記為Rm。由散點圖易知只有3 個點在下三角區(qū)域,即Ra<Rm,說明ARMA 模型只有3支股票的預測結果優(yōu)于MPP。相反,MPP 方法在65 支股票數(shù)據(jù)中取得比ARMA 更好的預測結果。圖7(b)表示MPP 與ARMA 模型的MAPE 值比較,由于MAPE 值是百分后的數(shù)值,為了使圖像直觀好看且坐標軸不用設置太大,故將MAPE 值均除以100后再將其可視化,其中縱軸表示ARMA 方法的MAPE 值且記為Ma,橫軸表示MPP 方法的MAPE 值且記為Mm。圖7(b)中共有8 個點在下三角區(qū)域,即Ma<Mm,說明ARMA 模型在8支股票數(shù)據(jù)中的MAPE 指標優(yōu)于MPP,而MPP 在57 支股票中取得比ARMA 更好的預測結果。圖7(c)和(d)分別表示了MPP 與LSTM 網(wǎng)絡RMSE 值和MAPE 值的比較。圖7(c)中表示通過RMSE 評價指標得出MPP 的趨勢預測方法共有65 支股票的預測結果優(yōu)于LSTM 網(wǎng)絡。圖7(d)中表示通過MAPE評價指標得出MPP 的趨勢預測方法共有59 支股票的預測結果優(yōu)于LSTM網(wǎng)絡。
圖7 3種方法對A時間段的預測結果比較Fig.7 Comparison of results predicted by three methods in time period A
為保證上述比較時間段不具有偶然性,另選取了B 時間段(預測自2018年4月24日起未來5個交易日的股價波動)進行相同的實驗步驟,同樣使用RMSE 和MAPE 這兩種評價指標評價MPP、ARMA、LSTM 這三種方法擬合結果。如圖8所示。
由于在預測過程中000014(沙河股份)、000151(中成股份)、000532(華金資本)、000789(萬年青)、000819(岳陽興長)、000830(魯西化工)和000886(海南高速)這7支股票的匹配程度不夠導致不可以預測,故最終進行預測結果比較的總共是63 支股票。圖8(a)中表示通過RMSE 評價指標得出基于MPP 方法獲得的預測結果優(yōu)于ARMA 模型的股票共有58支;圖8(b)中表示通過MAPE 評價指標得出基于MPP 方法獲得的預測結果優(yōu)于ARMA 模型的共有59支。同理,圖8(c)中MPP的趨勢預測方法共有59支股票的預測結果優(yōu)于LSTM 網(wǎng)絡;圖8(d)中MPP的趨勢預測方法共有58支股票的預測結果優(yōu)于LSTM網(wǎng)絡。
圖8 3種方法對B時間段的預測結果比較Fig.8 Comparison of results predicted by three methods in time period B
根據(jù)深市A股股票的換手率數(shù)據(jù),使用stomp算法獲取具有機構交易行為的興趣模式片段,構建完備知識庫,進而提出基于知識庫中興趣模式的單支股票的金融股票價格趨勢波動預測方法。針對某支股票,根據(jù)股票的歷史換手率數(shù)據(jù),收盤價數(shù)據(jù)以及待預測天數(shù),篩選出基于歷史數(shù)據(jù)具有最佳預測效果的興趣模式長度,從而進行未來幾天的股價趨勢預測。在時間效率方面,由于前期要對70 支股票數(shù)據(jù)使用Matrix Profile 算法建立不同興趣模式長度的知識庫,數(shù)據(jù)量大,算法的時間復雜度也不低,且后期預測時需進行多次的模擬訓練,故耗費時間較長。在應用方面,在已構建好知識庫的情況下,對在構建知識庫的過程中應用到的所有股票都可使用MPP方法進行股價趨勢預測,說明該方法具有相對的普遍應用價值。新方法MPP 與ARMA 模型和LSTM 網(wǎng)絡的預測結果相比較,實驗結果表明,基于矩陣畫像的金融股價波動預測效果較好。本研究中獲得的貢獻性表現(xiàn)為:1)使用了矩陣畫像算法與股票預測相結合,利用矩陣畫像算法,構建了基于機構交易行為下的知識庫,并根據(jù)該知識庫可對股票的未來趨勢進行較為準確的預測。2)將待預測股票的歷史數(shù)據(jù)作為訓練集,測試在確定預測時間內興趣模式序列長度為何值時最佳,進一步優(yōu)化了預測模型,提高了預測方法的擬合效果。另外,通過研究獲得的信息和知識可以降低機構交易行為對散戶的影響,幫助散戶們在市場中獲取較穩(wěn)定的收益。同時,幫助金融市場監(jiān)管部門對股價進行監(jiān)控預測,防范可能出現(xiàn)的股價波動異常。此外,在確定興趣模式的最佳長度時,主要通過進行多次模擬預測實驗,取多次預測結果擬合值的最小均值所對應的興趣模式長度。該過程并不能保證每次所取的興趣模式長度是最佳的,故針對興趣模式長度的分析是未來值得研究的問題。