陳 賽,劉文杰,黃國耀,盧凌峰,李華康,孫國梓*
(1.南京郵電大學 計算機學院,江蘇 南京 210023;2.西交利物浦大學 人工智能與高級計算學院(太倉),江蘇 蘇州 215123)
易經是中國古代人類文明智慧的結晶,其包含了宇宙間萬事萬物的規(guī)律,能引導人類社會的正向發(fā)展,易經作為一種高維序列數(shù)據的降維方法,降維后能夠幫助人們做出合理的預測,趨利避害。如今,有的周易研究者利用這種高維序列數(shù)據降維方法來預測股票未來的發(fā)展趨勢。陳永偉[1]通過研究易經中的四個卦象來指導企業(yè)如何面對困境;郭儀等人[2]通過易經中的象數(shù)模型來預測股市未來的行情變化。目前利用高維序列數(shù)據降維方法實現(xiàn)股市預測的研究存在以下問題:
(1)研究所使用的股票數(shù)據不夠全面,只研究一個經濟指標如收盤價,容易忽略其他重要的經濟指標。
(2)由于采用的數(shù)據太少,不具有統(tǒng)計意義,實驗結果缺少說服力。
(3)高維序列數(shù)據降維方法中的重要概念在預測過程中沒有很好的進行抽象和應用。
針對以上問題,論文結合大數(shù)據和機器學習算法從《易經》中抽取出一套基于高維序列數(shù)據降維方法的宏觀預測模型來預測股票的發(fā)展趨勢。高維序列數(shù)據降維方法通過卦象和爻的變化,并通過相應的規(guī)則結合卦象和爻的解釋對股票未來的發(fā)展進行一定范圍內的預測,引導人們做出正確判斷并指導公司進行相應的政策調整。特征選擇是構建宏觀預測模型的重要一步,特征選擇主要是使用機器學習算法從大量的特征中選取出對標簽重要的特征。過往的學者用高維序列數(shù)據降維方法預測股市行情時都是人為選擇經濟指標進行預測,這種方法經實驗證明效果較差。而論文提出的特征選擇方法可以從大量復雜的特征中找到重要性排名較高的一些特征。目前,特征選擇方法有很多研究,大都是傳統(tǒng)的機器學習算法。黃新等人[3]提出基于變量重要性的偏最小二乘特征篩選法來選擇對紅外光譜變量起重要作用的指標。劉云翔等人[4]使用隨機森林算法篩選出造成肝癌原因的重要因子,實驗證明隨機森林算法的效果好于決策樹。因此如何利用數(shù)學思想抽象易經,結合機器學習算法來構建易經宏觀模型是論文的核心。
論文首先使用機器學習算法進行特征重要性排名,再借助高維序列數(shù)據降維方法中的天地人思想,將眾多的特征進行重要性排序并選擇最重要的6個特征。之后根據動態(tài)時間滑動窗口將特征對應的數(shù)值轉化成四象值,下一步根據高維序列數(shù)據降維方法中的陰陽爻的變化規(guī)則將四象值進行轉化形成本卦和變卦。最后根據高維序列數(shù)據降維方法中解卦原則綜合本卦和變卦的卦辭得到最終的解卦結果,使用解卦結果和標簽值進行對比得到最后的預測結果。
傳統(tǒng)機器學習受限于數(shù)據集本身特性,普適性較差。而基于高維序列數(shù)據降維方法的模型能夠根據天地人、四象等思想,并通過卦象和爻的變化來構建出不同場景下的宏觀預測模型,并將股價漲跌的預測結果展示給公司。實驗結果表明,論文提出的預測模型在股票未來發(fā)展的預測效果上要好于對比實驗中的其他機器學習方法。因此,基于高維序列數(shù)據降維方法構建的宏觀模型有實際的研究意義和應用價值。
證券數(shù)據預測是近年來的研究熱點,很多學者使用不同的算法對證券進行預測。例如,文獻[5]使用不同機器學習方法預測股票未來趨勢,實驗表明Adaboost和貝葉斯網絡效果相對較好。文獻[6]提出一種基于財務指標和數(shù)據挖掘相結合的模型來對股票未來進行預測,實驗結果顯示,各行業(yè)的準確率在60%左右。Kannan K S和Sekar P S[7]等提出使用五種方法來挖掘歷史交易數(shù)據中隱藏的信息并對股票未來發(fā)展趨勢進行預測,結果表明,該方法的預測準確率大于50%。Ou P和Wang H[8]等使用十種不同的數(shù)據挖掘技術來預測香港股市恒生指數(shù)的價格走勢,最終表明SVM和LS-SVM算法具有更好的預測性能。綜上可見,很多算法在證券領域預測趨勢任務中表現(xiàn)一般。因此,論文結合數(shù)據挖掘技術和高維序列數(shù)據降維方法構建一套預測模型。高維序列數(shù)據降維方法能夠通過卦象實現(xiàn)對證券數(shù)據的宏觀預測。該方法中的天地人思想結合數(shù)據挖掘技術能夠篩選出重要的6個特征,并通過四象思想將6個特征轉化成6位序列,形成本卦,接著通過變爻思想形成變卦,最后綜合本卦和變卦得到最終的卦象結果,實現(xiàn)預測。
隨機森林(Random Forest,RF)是Breiman等人于2001年提出的[9],至今為止RF已經被普遍應用到數(shù)據挖掘等領域。RF具有較高的預測準確率,對于離異值和噪聲較多的數(shù)據有著非常強的容忍度,可以處理高維數(shù)據,能夠在分析高維數(shù)據的同時,給出不同變量的重要性評分。這些優(yōu)勢讓RF非常適用于高維數(shù)據的研究,在數(shù)據挖掘領域有著較高的使用價值。楊明悅和毛獻忠[10]通過隨機森林算法對水環(huán)境中的各個影響因子進行特征重要性評分,最終選取重要的5個水質指標用于水環(huán)境的評估。肖美麗、晏春麗等人[11]采用隨機森林算法通過變量重要性評分對產后抑郁影響因素進行重要程度排序,最終獲取排名前10的影響因子,并針對影響因子進行定量分析,有效進行產后預診工作。
由于RF在處理高維特征數(shù)據時能夠很好地對各變量進行重要程度排序,因此論文通過RF進行變量篩選工作。
線性回歸分析主要用于研究因變量與自變量間的線性關系,通過適當?shù)臄?shù)學模型將變量間的關系準確表達,進而通過自變量的取值來預測因變量的取值。很多研究中都把線性回歸方法用于股票價格預測,通過線性回歸方法建立一個預測新股上市第一天開盤價的模型,該模型能夠較好地擬合股票價格曲線。蘇晴[12]通過線性回歸并結合循環(huán)神經網絡構建融合模型對股票價格進行預測,實驗結果表明預測未來10天的股價準確率能達到70%,預測未來20天準確率能達到60%,但隨著預測時間的增長,模型準確率越來越低。
論文通過線性回歸擬合股票價格,從而得到股票未來的發(fā)展趨勢并最終根據趨勢構建標簽數(shù)據。
高維序列數(shù)據降維方法的預測理論探析的文章中提到,在高維序列數(shù)據降維方法的六十四卦中,每個卦象的初爻、二爻對應著地位,三爻、四爻對應著人位、五爻、上爻對應著天位,從卦象中也可以看出人處在天地之中,受限于天地,作用于天地。在一個研究證券市場上的天、地、人的文章中,提出了如下觀點:在證券市場的場景下,天時指的是一種經濟周期性的波動規(guī)律以及國家政策的宏觀因素,若該證券所屬公司順著國家政策走,則該證券符合天時;地利指的是當下證券所屬公司的基本情況,若該證券的市場流動性很高,則該證券符合人和;從而得出結論,在證券市場的場景下天對應著國家政策調控(經濟運行規(guī)律),地對應著公司基本面,人對應著市場流動性,且在證券市場的場景下,天地人的重要性等級如下:天>地>人[13]。文獻[14]提到易經中有少陽、老陽、少陰和老陰,股票市場當中對應的則是小陽線、大陽線、小陰線和大陰線,大陰線到達一定程度股票價格就會上升,對應易經中的陰極必陽,與易經時刻變化相同,社會經濟一直在不停的發(fā)展著,有時這種發(fā)展還十分顯著和迅速,忽起忽落,一盛一衰,成為一種波浪起伏的動蕩狀態(tài)。郭儀等人使用高維序列數(shù)據降維方法中的象數(shù)模型對股市行情進行預測,其通過收盤價進行起卦,收盤價整數(shù)相加除八為上卦,一收盤價小數(shù)相加除八為下卦,以整數(shù)和小數(shù)相加除八為變爻。最終預測股票走勢實驗發(fā)現(xiàn)效果一般。
文獻[15-16]等提出使用證券市場中的一些因子作為特征并使用機器學習算法進行證券預測,實驗表明算法準確率在60%上下浮動。文獻[17-18]等提出使用融合Attention機制的LSTM模型對證券歷史數(shù)據進行建模和預測,實驗結果表明該模型效果好于傳統(tǒng)的機器學習。
高維序列數(shù)據降維方法能夠通過卦象進行預測,并通過卦象的千變萬化適應證券市場的變化,從而能夠較好地預測證券市場的未來發(fā)展趨勢。
論文提出基于高維序列數(shù)據降維的方法,首先通過隨機森林算法將大量經濟指標進行重要性排名,之后根據天地人思想最終選取6個指標。之后通過動態(tài)時間窗口和四象映射算法將數(shù)據轉化成四象值,最后通過四象值得到本卦和變卦,綜合本卦和變卦得到最終的卦象結果,實現(xiàn)預測功能,并通過與標簽進行對比統(tǒng)計得到預測準確率等相關評價指標的結果。該模型的整體架構如圖1所示。
圖1 模型整體架構
如圖1所示,本模型主要有三大模塊,標簽構造模塊、卦象生成模塊和卦象解釋模塊。標簽構造模塊主要是通過線性回歸的方法將股票價格進行擬合,得到股票未來一段時間內的漲跌趨勢;卦象生成模塊主要有以下幾個步驟,通過隨機森林算法和天地人思想選取特征,并通過滑動窗口將特征對應的值轉化為四象值,最終得到本卦;卦象解釋模塊主要有兩個步驟,首先由本卦生成變卦,之后綜合本卦和變卦以及對應的爻辭和卦辭得到預測的結果。
由于在股票數(shù)據中,存在較多的噪聲數(shù)據,而huber regression具有很好的魯棒性,對異常的y的魯棒性較強,能夠很好地解決數(shù)據中的噪聲點。論文主要通過huber regression擬合收盤價得到收盤價的變化趨勢。采用的是一元線性回歸,表達式為:y=ax+b。y表示因變量的預測值,x表示單個自變量,a、b是回歸模型的待定參數(shù),其中a又稱為回歸系數(shù)。
huber regression 的損失函數(shù)為huber loss,其計算公式如下:
Lδ(y,f(x))=
(1)
其中,δ為需要調整的超參數(shù)。
通過不斷的迭代,使得損失值達到最小得到最優(yōu)擬合函數(shù),獲取函數(shù)中的回歸系數(shù)a以及偏移量b。
提出的標簽構造算法的具體描述如算法1所示:
算法1:標簽構造算法。
輸入:每只股票在所選時間段內的所有收盤價數(shù)據price_list。每只股票一個月的收盤價列表price_listi。
輸出:股票各個月的漲跌趨勢對應的標簽集month_label_list。
1. for price_listiin price_list
2. 構建一元線性函數(shù)y=ai*x+bi
3.ai,bi=huber regression(price_listi)
4. a.append(ai)
5. end for
6. 將a中的數(shù)據按正態(tài)分布劃分,設均值x,方差為μ
7. foraiina
8. ifai∈(-∞,x-μ)
9.ai= 0 //表示股價這個月呈下降趨勢
10. month_label_list.append(ai)
11. else ifai∈(x-μ,x+μ)
12.ai= 1 //表示股價這個月呈平穩(wěn)趨勢
13. month_label_list.append(ai)
14. else ifai∈(x+μ,+∞)
15.ai= 2 //表示股價這個月呈上漲趨勢
16. month_label_list.append(ai)
17. end if
18. end for
19. return month_label_list
算法1描述的是:首先根據線性回歸算法擬合每個月的股票價格并計算出一元線性函數(shù)中的變量ai,循環(huán)計算出所選時間段內所有月份的ai,之后根據a的分布判斷每個月漲跌趨勢所對應的標簽。
可以比較每個特征在隨機森林中每棵分類樹上的貢獻大小并計算基尼指數(shù),以此判斷每個特征的重要程度。節(jié)點的基尼指數(shù)表示節(jié)點的不純度。以指標的平均基尼減小值占所有指標平均基尼減小值總和的百分比來評估每個風險指標對總風險的貢獻程度。
基尼指數(shù)計算公式如下:
(2)
(3)
變量Xj在節(jié)點n的重要性,即節(jié)點n分枝前后Gini指數(shù)變化量的計算公式如下:
(4)
其中,GIl和GIr分別表示由節(jié)點n分裂而成的兩個新節(jié)點的Gini指數(shù)。
如果變量Xj在第i棵數(shù)中出現(xiàn)M次,則變量Xj在第i棵樹的重要性為:
(5)
變量Xj在隨機森林中的Gini重要性定義為:
(6)
其中,m為隨機森林中分類樹的數(shù)量。
通過將每個特征對標簽的Gini指數(shù)的重要性進行排序,最終選取Gini指數(shù)重要性排名前30的特征。
將股票特征的物理含義與地人天思想進行映射和歸類,將所有的特征分為地人天3類。通過隨機森林算法篩選出30個特征后,根據特征與地人天類別的對應表,將30個特征映射到地人天3個類別中。選取每類中重要性排名靠前的2個特征,一共篩選出6個特征,將篩選后的特征按照地人天的順序依次排列。
得到6個特征之后,按照高維序列數(shù)據降維方法的相關理論,需將6個特征對應的數(shù)值轉化成四象對應的值。論文通過動態(tài)時間窗的方法實現(xiàn)四象值的計算。
論文提出的四象生成算法的具體描述如算法2所示:
算法2:四象生成算法。
輸入:窗口大小k,四象比例值old_rate=1/8,young_rate=3/8,時序數(shù)據列表vec={v1,v2,…,vn},已排好序的列表sortedvec,最早添加進列表的元素對應的下標m。
輸出:時序數(shù)據列表對應的四象值列sixiang_list。
1. fori=0→k-1 do
2. inivec[i]=vec[i]
3. end for
4. 定義四象對應數(shù)值,老陰:6,少陰:8,少陽:7,老陽:9
5. forj=kton-1 do
6. 排序,sortedvec=sort(inivec)
7. maxv=max(sortedvec),minv= min(sortedvec)
8. cha=maxv-minv
9. A=old_rate*cha, B=young_rate*cha
10. laoyin=[minv,minv+A),shaoyin=[minv+A,min+A+B),shaoyang=[min+A+B,min+A+2B),laoyang=[min+A+2B,maxv)
11. if vec[j]∈ laoyin
12. sixiang_list[j-k]=6
13. else if vec[j]∈ shaoyin
14. sixiang_list[j-k]=8
15. else if vec[j]∈shaoyang
16. sixiang_list[j-k] = 7
17. else
18. sixiang_list[j-k] = 9
19. del sortedvec[m],sortedvec[k]=vec[j]
20. end if
21. end for
22. returnsixiang_list
卦由爻組成,根據高維序列數(shù)據降維方法的思想,定義陽爻為1,陰爻為0。得到四象值后,將四象值與1和0進行映射,數(shù)值6和8代表陰爻,7和9為陽爻,隨著時間窗口的不斷滑動,得到每只股票在每個季度點對應的6個特征組成的6位0和1的序列,將此6位0和1的序列按照地人天的排序得到本卦。
根據陽極必陰和陰極必陽的思想,此高維序列數(shù)據降維方法中存在變卦現(xiàn)象,當一個卦象的6個爻中存在老陽爻和老陰爻時會發(fā)生變化,即老陽爻轉化而成的1會變成0,老陰爻則相反。最終根據本卦中存在的變爻形成變卦。
定義高維序列數(shù)據降維方法中64個卦象對應的類別以及每個卦象中每個爻對應的類別。
《易經》有六十四卦及每個卦對應的卦辭,三百八十四爻及每個爻對應的爻辭,每個卦辭都與該卦的卦象緊密關聯(lián);每一卦的爻辭也都與其對應的陰爻或陽爻在其卦中所處的位置有關系。在形成本卦和變卦之后需要對卦象進行解卦,論文解卦方法由此高維序列數(shù)據降維方法中解卦思想抽象而來。
提出的解卦算法的具體描述如算法3所示。
算法3:解卦算法。
輸入:本卦Origi,變卦Changei,變量flagi=0,爻變個數(shù)YbNumi,64個卦象和卦辭映射字典Gua_dict以及384個爻和爻辭映射字典Yao_dict,Origi中的變爻StaY,Origi中處于高位的變爻Hp_StaY,Origi中處于低位的不變爻Lp_UstaY,Origi中的不變爻UstaY。
輸出:本卦和變卦對應的解卦結果列表resi。
1.fork=0→5 do
2. if Origi[k]!=Changei[k]
3. flagi=1,YbNumi=YbNumi+1
4. end if
5. end for
6. if flagi=0
7. resi=Gua_dicti[Origi]
8. end if
9. else
10. if YbNumi=1
11. resi=Yao_dict[StaY]
12. else if YbNumi=2
13. resi=Yao_dict[Hp_StaY]
14. else if YbNumi=3
15. resi=Gua_dict[Origi]
16. else if YbNumi=4
17. resi=Yao_dict[Lp_UstaY]
18. else if YbNumi=5
19. resi=Yao_dict[UstaY]
20. else
21. resi=Gua_dict[Changei]
22. end if
23. return resi
地人天內部的爻位排序不確定,需要分別在地人天對應的兩個爻進行排列,共2*2*2=8種排列組合。訓練模型,每次選擇8種排列中的1種六位序列,將對應的卦的解卦結果作為預測值,與真實標簽值做比較,得到每種排列下的準確率和F1值,通過8種情況下的比對結果,找到F1值最高的那種排序作為最后排序進而構建出最后的宏觀預測模型。
實驗所使用的證券數(shù)據是網易財經網站上爬取的3 000只股票2010年3月至2020年3月這10年內的歷史交易數(shù)據集。該數(shù)據集包含如下兩部分:(1)財務數(shù)據集;(2)資金流向數(shù)據集。其中財務數(shù)據集是以季度為單位的數(shù)據集,記錄了每個季度的公司凈利潤率、負債率等反映公司業(yè)績的數(shù)據,資金流向數(shù)據集是以天為單位的數(shù)據,記錄了每天的公司開盤價、收盤價、換手率等資金流向的數(shù)據。所有的股票分為10個行業(yè)。實驗根據近一個季度的歷史數(shù)據來預測未來一年內的發(fā)展趨勢。
論文使用的主要參數(shù)有時間滑動窗口win_len,由于論文所述的高維序列數(shù)據降維方法中四象的分布比例為1∶3∶3∶1,所以此處將win_len 設置為 8。
論文研究的分類問題常用的評價指標包括結果的精確率(Precision)、召回率(Recall)和F1值。
精確率P指所有預測正確的數(shù)量占總量的比例,計算公式如下:
(7)
召回率R指正確預測為正的占全部實際為正的比例,計算公式如下:
(8)
F1值是一個綜合了P和R的指標,是基于P和R的加權調和平均,計算公式如下:
(9)
其中,TP表示被模型預測為正類的正樣本,FP表示被模型預測為正類的負樣本,FN表示被模型預測為負類的正樣本。使用F1值來評價分類器性能時,其值越高,說明分類器的性能越好。
為驗證模型的優(yōu)越性,主要進行了兩組對比實驗,第一組是未分行業(yè)模型的各評價指標與其他算法進行對比驗證本模型的優(yōu)越性。以下介紹對比模型的輸入和輸出。
SVM:輸入數(shù)據為易經模型選取的6個特征對應的數(shù)據。輸出是分類的準確率、召回率和F1值。
XGBoost:輸入數(shù)據為易經模型從原始特征中選取的6個特征對應的每個季度的數(shù)據。輸出是分類的準確率、召回率和F1值。
RF:輸入為易經模型從原始特征中選取的6個特征對應的每個季度的數(shù)據。輸出是分類的準確率、召回率和F1值。
KNN:輸入數(shù)據為易經模型從原始特征中選取的6個特征對應的每個季度的數(shù)據。輸出是分類的準確率、召回率和F1值。
GRU:序列數(shù)據通常使用循環(huán)神經網絡建模,由于GRU參數(shù)少、速度快,能在一定程度上避免出現(xiàn)過擬合,因此本實驗采用其作為對比模型。輸入數(shù)據與機器學習算法一致。
Lstm-Att:在LSTM基礎上加入Attention機制,對于重要特征基于更高權重。輸入數(shù)據與機器學習算法一致。
第二組是分行業(yè)建模后本模型與其他模型的對比以及與未分行業(yè)的結果對比。結果如表1所示。
表1 各模型股票預測的性能對比
從表1中可以看出,在本數(shù)據集中,論文提出的方法要優(yōu)于其他算法。在傳統(tǒng)的機器學習算法中,XGBoost和隨機森林算法的F1要稍優(yōu)于SVM和KNN算法。KNN算法的準確率要優(yōu)于其他三個機器學習算法。兩個循環(huán)神經網絡模型的效果要優(yōu)于傳統(tǒng)機器學習算法,表明在證券數(shù)據此種序列數(shù)據上循環(huán)神經網絡效果較好。原因在于循環(huán)神經網絡能夠捕捉到不同時刻數(shù)據之間的依賴信息,能夠提取到上一時刻的重要信息,因此GRU和Lstm-Att模型效果好于傳統(tǒng)的機器學習,除此之外,Lstm-Att模型的F1值稍高于GRU,因為在加入Attention機制后,模型能夠加權學習,對于重要信息給予更大權重,從而提高預測效果。
論文提出的基于易經的宏觀預測方法在3 000只股票數(shù)據集上除recall外各評價指標都要高于其他方法,P值比SVM高20百分點,比RF高19百分點,比KNN高13.4百分點,論文提出方法的F1值均高于其他模型且本模型各評價指標之間相差較小,相對SVM、XGBoost和RF模型各指標要更加穩(wěn)定。
因此,基于高維序列數(shù)據降維方法和數(shù)據挖掘技術的證券預測模型的效果要好于其他算法。在宏觀預測方面,本模型比傳統(tǒng)的機器學習方法效果更好,主要在于高維序列數(shù)據降維方法能夠根據每個公司不同的經營狀況以及市場流動性進行降維并選取不同的指標作為基礎來進行預測,能夠很好地適應證券市場的變化,因此在預測未來發(fā)展趨勢方面有很大優(yōu)勢。
由于不同行業(yè)的公司發(fā)展速度和行業(yè)規(guī)律不同,接下來將分行業(yè)建模,驗證分行業(yè)后的模型和不分行業(yè)的模型的性能對比。結果如表2和表3所示。
從表2可以看出,在分行業(yè)建模后,大多數(shù)行業(yè)的P值都比總體建模的P值高,且每個行業(yè)P值的提升幅度不穩(wěn)定,比如提升幅度較低的行業(yè)如化學制品行業(yè)的P值比總體的P值高4.7百分點,提升較高的行業(yè)如交通物流行業(yè)比總體的P值高13.4百分點,最高的如水電燃氣行業(yè)P為84.56,比總體建模F1高了將近20百分點。另外,從表中還可看出,9個行業(yè)中有7
表2 本模型分行業(yè)和總體建模的實驗結果
個行業(yè)的各評價標準都比總體建模高,只有兩個行業(yè):專用設備制造行業(yè)和通信設備行業(yè)的效果比總體建模效果差。從表3中可得出,提出的模型的F1值要優(yōu)于其他對比模型。
分析表2和表3的數(shù)據可得出如下結論:每個行業(yè)的行業(yè)規(guī)律和特點是不同的,而高維序列數(shù)據降維方法能夠根據每個行業(yè)不同的特點選取對該行業(yè)重要的指標作為構建易經卦象的爻,因此得到的卦象結果也就更加準確。而有兩個行業(yè)效果差于總體建模的原因則是因為參數(shù)win_len設置的值不是最優(yōu)值,因為信息技術行業(yè)發(fā)展速度較快,在短短幾個月內該行業(yè)的發(fā)展情況就會有大變化,并且作為現(xiàn)在備受關注的行業(yè),會受到國家政策和新聞導向等更多不確定的宏觀因素影響,因此在預測該行業(yè)幾個月后的發(fā)展趨勢時不確定性高,導致最終的預測準確率較低。
圖2、圖4直觀地顯示了表1和分行業(yè)后各模型對于不同行業(yè)的F1值的實驗對比結果,圖3顯示了本模型在整體建模下模型預測時長與模型預測準確率的變化關系。
圖4 各行業(yè)實驗結果F1值對比
從圖2中可看出,論文所提出模型的效果明顯優(yōu)于所列出的其他傳統(tǒng)機器學習算法,精確率和F1值比其他算法均高。因此,論文提出的算法在證券市場宏觀預測上表現(xiàn)出了較好的效果,除此之外,從圖3中可看出,論文提出的模型在整體建模下,模型預測時長在一年內隨著時長的增加準確率不斷提升,當預測時長為12個月即一年時,準確率不再提升,模型收斂,此時預測準確率最高為62%。
圖2 各模型預測結果的性能對比 圖3 不同預測時長的準確率
從圖4中可看出,論文提出的模型在分行業(yè)后大多數(shù)行業(yè)預測的F1值均大于未分行業(yè)時的性能,然而其他機器學習算法則不然,大部分行業(yè)與總體建模時的指標結果相比無明顯提高。因此本模型對于不同行業(yè)的證券的宏觀調控具有很好的指導性和實用性。
此高維序列數(shù)據降維方法中的六十四卦的理論在股市技術分析中雖已有不少的體現(xiàn),但都沒有結合大數(shù)據和數(shù)據挖掘技術對股票各方面的經濟指標進行分析和建模。論文結合機器學習算法針對股票數(shù)據構建了一套基于高維序列數(shù)據降維方法的宏觀預測模型,該模型將陰陽、四象、爻、卦象等概念進行提取和抽象,首先根據天地人思想并結合機器學習算法篩選得到6個特征,之后使用動態(tài)滑動窗口計算得到四象值,然后根據四象值得到本卦和變卦,最后結合本卦和變卦得到解卦值并與標簽進行對比,從而得到最終的預測結果。實驗表明,本模型比SVM、XGBoost、RF、KNN、GRU和Lstm-Att等模型效果更好。另外,由于不同的行業(yè)其發(fā)展周期和指標的重要性不同,因此論文還對股票數(shù)據進行分行業(yè)建模,實驗證明,論文提出的模型在分行業(yè)建模后的效果比總體建模效果好。
但是,論文提出的模型中也存在一些問題:(1)論文在形成四象值時采用的動態(tài)時間窗口大小是固定的,然而不同行業(yè)的公司有不同的發(fā)展周期,因此在形成四象值時,應該采取不同的時間窗口大小;(2)論文沒有使用證券新聞等文本數(shù)據,現(xiàn)實中,新聞信息能側面看出證券公司的經營狀況以及公司和國家出臺的經濟政策,而這些信息對于證券的未來發(fā)展趨勢具有一定的影響;(3)論文只研究了證券未來漲跌趨勢,而沒有研究證券未來漲跌的原因。因此,下一步的研究方向在于:針對不同的行業(yè)采取的時間窗口大小應設置不同的值;使用文本數(shù)據作為預測的輔助工具;當預測到證券未來發(fā)展情況不利時,要能根據模型判斷出導致證券發(fā)展不利的原因,并根據原因指導公司調整經營策略,避免危機,從而使本模型達到診斷和預警的作用。