左 川 王 宇 李 振
(1.上海立信會計金融學(xué)院 財稅與公共管理學(xué)院,上海 201620;2.澳門城市大學(xué) 金融學(xué)院,澳門 999078;3.復(fù)旦大學(xué) 大數(shù)據(jù)學(xué)院,上海200433;4.珠海復(fù)旦創(chuàng)新研究院 金融創(chuàng)新發(fā)展中心,廣東 珠海519000)
深度學(xué)習(xí)是人工智能領(lǐng)域的一個分支,是基于多層神經(jīng)網(wǎng)絡(luò)的一種機器學(xué)習(xí)方法,其能夠從原始數(shù)據(jù)中學(xué)習(xí)出易于分類識別的特征,并且能夠使用較少參數(shù)描述各種特征而不依賴先驗數(shù)據(jù)或知識。近年來深度學(xué)習(xí)在金融市場中得到廣泛應(yīng)用,與股票市場直接相關(guān)的領(lǐng)域包括文本及圖像信息識別、股票價格預(yù)測、投資組合管理、投資交易等,幾乎涵蓋了股票投資的各個環(huán)節(jié)。在股票投資領(lǐng)域可利用深度學(xué)習(xí)在文本處理上的優(yōu)勢,廣泛挖掘新聞、微博以及論壇上的留言信息,并將數(shù)字和文本數(shù)據(jù)進行整合,打造出可量化的輿情數(shù)據(jù)。在股價預(yù)測上,雖然仍可以借鑒傳統(tǒng)金融時間序列思路使用LSTM模型進行分析,但也可以針對金融市場分形、易變的結(jié)構(gòu),創(chuàng)新性地將一維時間序列數(shù)據(jù)轉(zhuǎn)化為二維平穩(wěn)的圖像數(shù)據(jù),并利用CNN模型進行分析。
本文在借鑒國內(nèi)外研究的基礎(chǔ)上,從投資信息獲取、股票價格預(yù)測、投資策略完善及交易系統(tǒng)改進四個方面來分析深度學(xué)習(xí)在股票投資中的應(yīng)用領(lǐng)域及其未來發(fā)展方向。
傳統(tǒng)股票投資信息的獲取多來自結(jié)構(gòu)化數(shù)據(jù),如市場交易數(shù)據(jù)、財務(wù)報表數(shù)據(jù)等。即使有投資者關(guān)注政府政策和公司公告等,也僅作為輔助工具。人工智能技術(shù)的進步,使利用計算機分析新聞媒體、社交網(wǎng)絡(luò)等自然語言的多樣化非結(jié)構(gòu)化數(shù)據(jù)成為可能。目前關(guān)于非結(jié)構(gòu)化信息的獲取主要有兩類,一類是文本信息挖掘,另一類是圖像信息識別。
1.文本信息挖掘。利用深度學(xué)習(xí)進行文本信息挖掘,按其對象可分為財經(jīng)媒體和社交網(wǎng)絡(luò)文本挖掘、公司公告和財務(wù)信息等。
第一類是財經(jīng)媒體和社交網(wǎng)絡(luò)文本挖掘。最早進行這一工作主要是根據(jù)財經(jīng)媒體報道和社交網(wǎng)絡(luò)留言的態(tài)度傾向進行分析,以此判斷其對股票市場的影響。例如,利用RNN-RBM模型以媒體報道詞匯作為輸入變量預(yù)測次日股票價格,方法是先將媒體報道分類,然后將其用標(biāo)準(zhǔn)詞袋模型代表,將結(jié)果詞匯向量作為本文輸入變量。其中,詞匯向量元素為1或0,代表一個單詞是否存在于文本中。接下來,根據(jù)模型輸出的相應(yīng)結(jié)果,即價格上漲或下跌。以y代表輸出結(jié)果,有:
y=f(σ(Woh2+bo))
(1-1-1)
(1-1-2)
其中,h2代表DBN(Deep Belief Network)即深度信念網(wǎng)絡(luò)的頂層輸出,Wo和bo是隱藏層的參數(shù)。輸出結(jié)果“1”和“0”代表上升或下降趨勢。
較有代表性的是Yoshihara et al.(2014)的做法[1],他們以《日經(jīng)早報》1999-2008年的報道為樣本,設(shè)定訓(xùn)練集為1999-2006年的834882篇文章,驗證集為2007年的98667篇文章,測試集為2008年的99728篇文章,驗證對象為日經(jīng)指數(shù)和10家最常出現(xiàn)的日本上市公司。結(jié)果顯示,該方法與SVM和DBN預(yù)測相比,誤差率從42.60%和47.30%降到40.05%,且結(jié)果統(tǒng)計性顯著(p<0.01)。該方法還能夠考慮重大事件的影響,如以雷曼破產(chǎn)為例,如果驗證區(qū)間包含該事件,則RNN-RBM方法較DBN模型有較大改善,表明該模型能充分考慮過去重大事件對股價的長期影響。
相較媒體報道,社交網(wǎng)絡(luò)信息能夠更好地捕捉大眾情緒。如Frank and Sanati(2018)使用標(biāo)普500企業(yè)的綜合新聞集[2],結(jié)合Google Trends作為個人投資者情緒代理變量,驗證沖擊事件對股票價格的影響,并進一步考察個人投資者和套利機構(gòu)對新聞事件的反應(yīng),取得了一些創(chuàng)新性發(fā)現(xiàn):(1)市場對于正面和負面新聞沖擊的反應(yīng)有顯著差異。對于特定股票的新聞發(fā)布日,市場通常對好消息反應(yīng)過度,而對壞消息反應(yīng)不足。這在一定程度上解釋了此前研究認為投資者對新聞事件反應(yīng)各異的現(xiàn)象。(2)股價沖擊對市場的影響基于市場自身特征而非信息內(nèi)容,這意味著對市場結(jié)構(gòu)和投資者行為的研究相比信息內(nèi)容可能更加重要。(3)個人交易行為存在明顯的反應(yīng)過度,導(dǎo)致市場對正面信息和負面信息存在非對稱反應(yīng),且只有在套利資本稀缺的情況下才會出現(xiàn)對正面消息反應(yīng)過度和負面消息反應(yīng)不足。這表明套利者會基于所有沖擊進行交易,但其消除錯誤定價的能力依賴于套利資本的稀缺程度??傮w來看,基于輿情信息構(gòu)建投資者情緒指數(shù),將非結(jié)構(gòu)化的文本信息轉(zhuǎn)化為結(jié)構(gòu)化數(shù)據(jù),能夠更好地將自然語言信息用于分析股票價格走勢。
第二類是公司公告和財務(wù)信息。傳統(tǒng)財務(wù)信息研究主要聚焦于可量化的財務(wù)信息,如收入、盈利、分析師推薦等。與傳統(tǒng)財務(wù)信息分析不同,深度學(xué)習(xí)能夠?qū)矩攧?wù)報告和公告文本中的非財務(wù)信息進行深入挖掘,如通過對上市公司業(yè)績說明會的文本進行人工標(biāo)注并構(gòu)建語料庫,利用LSTM模型讀取語料庫信息并分析管理層語意特征,可以用來識別管理層語意,其指標(biāo)構(gòu)建如下:
MEANINGpos=POSNUM/(POSNUM+NEGNUM)
(1-2-1)
MEANINGneg=-NEGNUM/(POSNUM+NEGNUM)
(1-2-2)
其中,當(dāng)POSNUM>NEGNUM時使用MEANINGpos,代表上市公司管理層呈正向語意;當(dāng)POSNUM 通過該方法,楊七中和馬蓓麗(2019)獲取并分析了2010-2014年上市公司年度業(yè)績說明會上管理層和投資者的問答文本[3],發(fā)現(xiàn)投資者對管理層語意能夠做出顯著正向反應(yīng),但對好消息的反應(yīng)存在一定滯后性,總預(yù)測準(zhǔn)確率約為86.25%。 2.圖像信息識別。傳統(tǒng)股票技術(shù)分析通過尋找價格圖表中的規(guī)律進行預(yù)測,深度學(xué)習(xí)則通過對股票價格和其他特征的圖形模式進行分析,發(fā)現(xiàn)可以利用的規(guī)律。二者區(qū)別在于技術(shù)分析主要基于直觀的經(jīng)驗總結(jié),而深度學(xué)習(xí)基于對圖像模式的統(tǒng)計識別。 Sezer and Ozbayoglu(2019)曾提出一種CNN-BI 模型通過股票圖像信息來預(yù)測股票價格[4],主要包括以下幾個步驟: (1)圖像構(gòu)建。對每只股票,將30日收盤價和日期整理成為標(biāo)準(zhǔn)化的30×30時間序列圖像,分別取1997-2006年約2500個日數(shù)據(jù)和1997-2012年約3750個日數(shù)據(jù)樣本作為訓(xùn)練集,并取2007-2017年約2500個日數(shù)據(jù)和2012-2017年約1250個日數(shù)據(jù)作為訓(xùn)練集。 該階段將每個圖像斜率(即股票收益)作為標(biāo)簽,并分別標(biāo)記為“買入”“賣出”和“持有”。將數(shù)據(jù)標(biāo)簽和對應(yīng)的圖像數(shù)據(jù)并入一個文件,并將其用于訓(xùn)練數(shù)據(jù)集。 (1-3-1) (1-3-2) (1-3-3) (2)圖像標(biāo)記。通過比較圖像遠期斜率和平均斜率來給圖像進行標(biāo)記。該步驟可以通過多種不同方式實現(xiàn),以增強CNN模型的學(xué)習(xí)能力。訓(xùn)練集中,第34日股價和第30日股價的差用于計算平均斜率(slopeRef)。所有相關(guān)的斜率在標(biāo)記階段分類儲存于一個列表中([1..n]表明含有n個斜率數(shù)據(jù))。訓(xùn)練集中的相關(guān)斜率服從高斯分布。將第45日價格和第30日價格作差求得即期斜率(slopeCurrent)。隨后,將即期斜率(slopeCurrent)與平均斜率進行比較,并根據(jù)結(jié)果分別為數(shù)據(jù)標(biāo)記對應(yīng)的策略。 (3)模型訓(xùn)練。經(jīng)過參數(shù)調(diào)教,開始訓(xùn)練模型,式(1-3-4)展示了對時間軸的卷積操作。而整個模型訓(xùn)練需要使用二維數(shù)據(jù)進行卷積操作,式(1-3-5)表示對二維圖像的卷積操作,其中,I是輸入圖像,K是卷積核。式(1-3-6)解釋了神經(jīng)網(wǎng)絡(luò)的結(jié)構(gòu),W代表權(quán)重,x代表輸入,b代表偏差。最終根據(jù)式(1-3-7)softmax函數(shù)求得輸出結(jié)果,y是輸出。 (1-3-4) (1-3-5) (1-3-6) y=softmax(e) (1-3-7) (4)股價預(yù)測。通過買入-賣出交易結(jié)果評估模型表現(xiàn),根據(jù)模型訓(xùn)練結(jié)果,對每只股票進行買入、持有、賣出操作,式(1-3-8)是模型評估的依據(jù),其中,S代表金融評估場景,tMoney代表總金額,NOfStocks代表股票數(shù)量。 (1-3-8) 如果模型預(yù)測為“買入”,則直接用所有可用資金在當(dāng)前價格買入該股票。如果模型預(yù)測為“賣出”,則在當(dāng)前價格賣出。如果預(yù)測為“持有”,則不進行操作。同時,在整個場景中如果連續(xù)出現(xiàn)相同標(biāo)簽,則只執(zhí)行第一個標(biāo)簽的動作。初始資金為10000元,交易費用為每筆交易1元。 通過對道瓊斯指數(shù)30只成分股不同時期(2007-2012和2012-2017)的訓(xùn)練,在前一時期,該策略能夠?qū)崿F(xiàn)約7.2%的年化收益(基準(zhǔn)為5.8%),而在后一時期,該策略表現(xiàn)(5.8%)低于買入持有策略(13.3%)。這也許和牛市條件下缺少顯著的賣出信號有關(guān)。 股票價格預(yù)測一直是股票投資研究中的核心問題。傳統(tǒng)方法如ARIMA、GARCH模型等都屬于線性回歸模型,其優(yōu)點是使股票預(yù)測能夠在統(tǒng)一的框架內(nèi)進行標(biāo)準(zhǔn)化分析,但依賴股價分布、預(yù)測精度不理想以及無法考慮變量間非線性特征等缺點也限制了線性模型的進一步應(yīng)用。近年來CNN、RNN、LSTM等深度學(xué)習(xí)模型的發(fā)展與應(yīng)用能夠有效突破上述線性模型的局限,在不需要預(yù)設(shè)股價數(shù)據(jù)分布的前提下,較好地刻畫了輸入變量的非線性關(guān)系。 在股票價格預(yù)測上,根據(jù)其目標(biāo)和問題性質(zhì)可分為兩類:一類是股價點預(yù)測,另一類是股價方向預(yù)測。 股價點預(yù)測的一個特殊領(lǐng)域是高頻交易,其利用的數(shù)據(jù)頻率可以達到分鐘級甚至秒級。雖然從深度學(xué)習(xí)方法的運行原理來看,高頻與低頻交易并無顯著區(qū)別,但二者的經(jīng)濟學(xué)含義完全不同。低頻交易通?;诠善必攧?wù)指標(biāo)、經(jīng)營狀況等基本面變化(月頻及以上),或是突然事件、政策變動等市場情緒變化(周頻及以下),能夠被多數(shù)人觀察并反應(yīng),但高頻交易的時間頻率往往在5分鐘以下,能夠達到秒或毫秒級別,這類交易無法以傳統(tǒng)金融學(xué)理論進行解釋,受信息識別、網(wǎng)絡(luò)帶寬等因素的影響較大,其依據(jù)通常是短期價格運動的數(shù)學(xué)規(guī)律、市場結(jié)構(gòu)及交易限制,如指令簿信息等。Borovkova and Tsiamas(2019)提出了一個LSTM神經(jīng)網(wǎng)絡(luò)整體框架以進行日內(nèi)股票價格預(yù)測[6]。該框架基于一個穩(wěn)健的、根據(jù)表現(xiàn)加權(quán)的多LSTM模型組合,通過將價格信息與大量技術(shù)指標(biāo)相結(jié)合,用于分析股市高頻數(shù)據(jù)。首先將股票逐筆信息加總為5分鐘為單位的交易信息,并將所得數(shù)據(jù)進一步按行業(yè)進行分類。然后利用分類信息訓(xùn)練LSTM模型,并進一步將模型整合。對22只大盤股的價格分析表明,根據(jù)業(yè)績加權(quán)的LSTM模型集表現(xiàn)優(yōu)于等權(quán)重或只包括最優(yōu)表現(xiàn)的模型集,也優(yōu)于Lasso或脊回歸模型。考慮到其運算復(fù)雜性和計算成本,與Lasso或脊回歸相比,該方法目前仍不具備經(jīng)濟性。未來可以通過網(wǎng)格搜索或進化算法對參數(shù)進行優(yōu)化,以實現(xiàn)更高效的預(yù)測。 股價方向預(yù)測也叫股價趨勢預(yù)測,其輸出結(jié)果并非精確的價格或收益率,而是上漲、下跌(也有些會加入持平)類別,這就將股價預(yù)測轉(zhuǎn)換為分類問題。由于不再專注于股價精確預(yù)測,其結(jié)果精確度有所提升。如Sezer and Ozbayoglu(2018)利用CNN-TA模型分析股票價格運動趨勢[7],通過將股票15種技術(shù)指標(biāo)及15日量價及相應(yīng)技術(shù)指標(biāo)數(shù)據(jù)轉(zhuǎn)換為15×15的二維圖像,并通過數(shù)據(jù)標(biāo)記、模型訓(xùn)練等過程預(yù)測股價上漲、持平和下跌趨勢。對2007-2012年以及2012-2017年多只ETF和道瓊斯30只成分股價格及對應(yīng)技術(shù)指標(biāo)的綜合分析表明,對于ETF指數(shù)CNN-TA模型能夠?qū)崿F(xiàn)約13%的年化收益和71%的預(yù)測準(zhǔn)確率,遠超買入持有策略、RSI、SMA、LSTM和MLP模型,對于道瓊斯30只成分股CNN-TA模型能夠?qū)崿F(xiàn)約12.6%的年化收益和71%的預(yù)測準(zhǔn)確率,同樣超過買入持有策略和其他策略和模型的預(yù)測表現(xiàn)。 投資策略是通過分配、調(diào)整投資組合中不同資產(chǎn)的比例和買賣時機來實現(xiàn)提高收益、控制風(fēng)險。利用深度學(xué)習(xí)完善投資策略有兩種基本思路:一是對現(xiàn)有投資策略進行優(yōu)化和改善,二是構(gòu)建新的投資策略。 傳統(tǒng)金融理論在投資組合構(gòu)建中已有許多應(yīng)用,如均值-方差模型、CAPM模型及因子模型等。一個自然的思路是利用深度學(xué)習(xí)對已有模型進行優(yōu)化,以取得更好的配置效果。如李斌等(2017)設(shè)計一套基于機器學(xué)習(xí)和技術(shù)指標(biāo)的量化投資算法ML-TEA[8],利用技術(shù)指標(biāo)作為輸入信號,通過SVM、NN和Ada三種算法輸出交易策略,均獲得超過25%的年化收益率,且從夏普比率、特雷納比率和詹森績效三個角度評價,均優(yōu)于大盤基準(zhǔn)和買入持有策略。Almahdi and Yang(2019)提出一種結(jié)合循環(huán)強化學(xué)習(xí)和粒子群算法的基于Calmar比率的資產(chǎn)配置約束優(yōu)化方法[9],將其應(yīng)用于標(biāo)普100成分股,發(fā)現(xiàn)基于Calmar比率的目標(biāo)函數(shù)系統(tǒng)比基于夏普比率和均值-方差投資組合產(chǎn)生更好的有效邊界,并以此為基礎(chǔ)構(gòu)建具有自適應(yīng)特征的交易系統(tǒng)。Chen et al.(2019)根據(jù)無套利假設(shè)設(shè)置隨機貼現(xiàn)因子[10],通過組合三種不同的深度神經(jīng)網(wǎng)絡(luò)分析驅(qū)動資產(chǎn)價格變動的關(guān)鍵因子,其方法能夠?qū)崿F(xiàn)2.1的夏普比率,并能夠解釋股票收益變動的8%及異常收益部分的90%。 由于深度學(xué)習(xí)在挖掘數(shù)據(jù)統(tǒng)計關(guān)聯(lián)性方面的優(yōu)勢,也有研究者選擇繞開傳統(tǒng)投資理論,僅基于數(shù)據(jù)統(tǒng)計關(guān)系挖掘新的投資組合配置方法。如Tsang and Wong(2020)通過引入DNN模型來跨期配置多維資產(chǎn)[11]。該網(wǎng)絡(luò)由代表決策步驟數(shù)量的K個子網(wǎng)構(gòu)成,通過由網(wǎng)絡(luò)參數(shù)決定的反饋控制函數(shù)將動態(tài)資產(chǎn)收益預(yù)測問題和多周期資產(chǎn)組合優(yōu)化問題轉(zhuǎn)化為DNN模型訓(xùn)練問題,并進行數(shù)值求解。通過對100只股票進行數(shù)值模擬和對24只股票進行實證分析,證明該模型能夠在有頭寸約束和多空限制的條件下實現(xiàn)有效的多維資產(chǎn)組合配置。Hirchoua et al.(2021)以504個風(fēng)險數(shù)據(jù)集為對象訓(xùn)練代理,根據(jù)近端策略優(yōu)化原理,針對狀態(tài)不確定性調(diào)整行為選擇,提高自身決策能力[12]。該方法以風(fēng)險好奇心驅(qū)動的學(xué)習(xí)作為一種內(nèi)在獎勵函數(shù),通過大量信號發(fā)現(xiàn)行為和市場間的顯著關(guān)系,并能穩(wěn)步提高行為質(zhì)量。將該方法運用于8只真實股票上,驗證了自學(xué)習(xí)規(guī)則的適用性和有效性,能夠使用更少的交易實現(xiàn)更好的交易。 股票市場是一個高度復(fù)雜的動態(tài)系統(tǒng),同時存在大量主體進行交易,并導(dǎo)致市場價格出現(xiàn)大量隨機擾動。投資者最初開發(fā)自動化交易代替人工進行下單等操作,一方面是希望能夠避免人的過度自信、沖動等情緒弱點,另一方面也期待機器能夠捕捉人工無法捕捉的投資機會。從市場表現(xiàn)看,自動化交易是一把雙刃劍,運用得當(dāng)可以幫助人節(jié)約大量決策成本并獲得超額收益,運用失誤(尤其是在股災(zāi)等極端行情下)也可能造成巨額虧損。因此,如何提升自動化交易的適應(yīng)性和穩(wěn)定性以及開發(fā)新的有效交易系統(tǒng)成為投資者關(guān)注的核心議題。 目前股票交易系統(tǒng)設(shè)計的基本思路是考慮一個包括現(xiàn)金和風(fēng)險資產(chǎn)的投資組合,通過DRL模型尋找適當(dāng)?shù)慕灰撞呗?。給定初始資金和投資約束,則交易系統(tǒng)每一步行動都擁有有限的狀態(tài)空間和行動空間,由此可以將整個交易系統(tǒng)轉(zhuǎn)換為一個馬爾可夫決策過程(MDP): wt=(wt,0,wt,1,wt,2,…,wt,l)T (1-4-1) (1-4-2) (1-4-3) (1-4-4) 馬爾可夫決策過程可以通過DQN算法求解,即一種基于值函數(shù)的深度強化學(xué)習(xí)方法,可以在代理缺少環(huán)境知識的情況下,通過重復(fù)實驗進行學(xué)習(xí)。Park et al.(2020)曾在DQN模型中添加一個映射函數(shù)將最初不可行的動作轉(zhuǎn)換為類似的可行動作[13],以模擬多資產(chǎn)投資組合中各標(biāo)的的可行動作空間,進而推導(dǎo)出合適的多資產(chǎn)交易策略。利用該模型檢驗兩個投資組合,分別包括標(biāo)普500指數(shù)ETF、羅素1000指數(shù)ETF、羅素小盤指數(shù)ETF以及韓國KOSPI100指數(shù)、KOSPI中盤指數(shù)、KOSPI小盤指數(shù),通過模型預(yù)測比較CR、SR、SterR和AT四項指標(biāo)表現(xiàn),結(jié)果表明,根據(jù)有映射函數(shù)的DQN模型進行交易,在美國投資組合中可以取得約12%收益,較基準(zhǔn)策略高16%-114%,在韓國投資組合中可以取得約10%收益,較基準(zhǔn)策略高13%-248%,且由于增加了映射函數(shù),能夠減少非必要交易,降低交易成本,進一步提高組合收益。雖然該研究仍存在一些缺陷,如只適用于少量資產(chǎn),MDP模型收益只針對收益而不是風(fēng)險進行優(yōu)化,但其使用創(chuàng)新技術(shù)進行交易系統(tǒng)改進仍具有廣泛前景。 卷積神經(jīng)網(wǎng)絡(luò)(Convolutional Neural Networks, CNN)是一種獨特的多層感知機模型,通過采用局部連接和權(quán)值共享模式,避免傳統(tǒng)識別算法中復(fù)雜的特征提取和數(shù)據(jù)重建過程,并使其可以直接處理圖像數(shù)據(jù)。因其在自然語言處理和圖像識別領(lǐng)域的優(yōu)勢,在股票投資中CNN被廣泛用于文本和圖像投資信息的獲取。 CNN的訓(xùn)練過程包括前向傳播和后向傳播兩個階段。前向傳播是根據(jù)樣本及初始參數(shù)經(jīng)過逐級計算得到相應(yīng)的實際輸出。假設(shè)神經(jīng)網(wǎng)絡(luò)以xi表示輸入層,以zi表示輸出層,以li表示隱藏層,則一般通過對輸入變量卷積和激活得到初步的輸出: (2-1-1) 其中,p*q是卷積核的大小,wi是卷積核的權(quán)重,vi是亮度值,b是偏置,h是激活函數(shù)。根據(jù)計算復(fù)雜程度,也可通過池化降低特征圖的特征空間,從而降低參數(shù),減小分辨率,降低計算難度。 后向傳播是根據(jù)預(yù)期輸出與目標(biāo)函數(shù)的差通過求導(dǎo)反向更新權(quán)重wi。該階段首先根據(jù)一定方法(如MSE或K-L散度法)求得目標(biāo)函數(shù),然后根據(jù)下式: Δj(L)=h'(zj(L))[aj(L)-rj] (2-1-2) 計算Δj(L),后向傳播,并進一步根據(jù): (2-1-3) 計算其他所有層的Δj(l)。最后依次計算各權(quán)值調(diào)整量和閾值的調(diào)整量并進行調(diào)整。 從股票信息來源上看,傳統(tǒng)分析主要依賴于價格、成交量等時間序列數(shù)據(jù),這些數(shù)據(jù)通常包含大量噪音,從而難以識別真正的趨勢。此外,這些時間序列數(shù)據(jù)高度依賴時間變量。為解決這些問題,一種思路是擴展數(shù)據(jù)分析的信息來源,圖像信息的獲取能夠在一定程度上緩解上述問題。由于利用CNN模型能夠直接識別股票二維圖像,最終獲得高度非線性的投資信息,并且通過越多層數(shù)的數(shù)據(jù)構(gòu)建,所獲得的非線性信息結(jié)構(gòu)就越復(fù)雜,過濾掉的噪音也越多,這種轉(zhuǎn)化有利于揭示股票價格變動的內(nèi)在關(guān)聯(lián)。 長短期記憶網(wǎng)絡(luò)(Long Short-Term Memory networks, LSTM)是一種擅長處理時間序列數(shù)據(jù)的遞歸神經(jīng)網(wǎng)絡(luò)。與傳統(tǒng)遞歸神經(jīng)網(wǎng)絡(luò)相比,LSTM通過引入門機制,能夠有效分析和預(yù)測時間序列數(shù)據(jù)中間隔較長的重要事件的影響。在股票投資中,LSTM模型常用于股價預(yù)測和投資組合調(diào)整。 結(jié)構(gòu)上,LSTM模型每個時刻的隱藏層都包含了若干記憶區(qū)塊(Memory Blocks),每個區(qū)塊包含若干記憶細胞(Memory Cells),而每個記憶細胞由一個細胞和三個門部件(輸入門Input Gate、輸出門Output Gate和遺忘門Forget Gate)構(gòu)成。 (2-2-1) (2-2-2) 遺忘門(φ)輸出表示如下: (2-2-3) (2-2-4) 細胞接受兩個輸入:輸入門和細胞輸入的乘積,遺忘門和上一時刻細胞輸出的乘積。因此細胞(c)輸出表示為: (2-2-5) (2-2-6) 輸出門(ι)的輸出表示為: (2-2-7) (2-2-8) 應(yīng)注意輸出門接受的輸入是“當(dāng)前時刻細胞輸出”而非“上一時刻細胞輸出”。最終整個記憶細胞的輸出為: (2-2-9) 三個門部件的激活函數(shù)為f,細胞輸入的激活函數(shù)為g,細胞輸出的激活函數(shù)為h。 對于后向傳播,利用損失函數(shù)和鏈?zhǔn)角髮?dǎo)即可求解LSTM模型中每個權(quán)重的梯度,然后再利用梯度更新權(quán)重: (2-2-10) 由于價格信息包含噪音導(dǎo)致對其進行趨勢分析存在困難,LSTM采用了另一種思路克服這一困難。與CNN相比,LSTM僅使用時間序列信息,但通過對信息的全局化處理,并利用記憶細胞保留每一步信息動態(tài)調(diào)整下一步,避免丟失信息導(dǎo)致的建模失效,且能夠勝任一些非因果系統(tǒng)下的數(shù)據(jù)預(yù)測。由于股價既非隨機游走,也不能用單一趨勢來進行概括,在某些極端情況下,投資者情緒的互相傳染導(dǎo)致短期股價具有較強的記憶性,因此LSTM模型在股價預(yù)測上尤其是在預(yù)測精度、泛化能力及穩(wěn)定性上均具有較好表現(xiàn)。 自編碼器(Autoencoders,AE)是一種能夠通過無監(jiān)督學(xué)習(xí)學(xué)到輸入數(shù)據(jù)高效表示的人工神經(jīng)網(wǎng)絡(luò)。由于該方法對輸入數(shù)據(jù)降維得到的結(jié)果維度一般遠小于輸入數(shù)據(jù)本身,使得到的低維特征更具有代表性,可用于進一步分類或特征學(xué)習(xí),因此自編碼器常用于降維或特征提取。在股票投資中,自編碼器在資產(chǎn)定價和投資組合管理中都有廣泛應(yīng)用。 通常,自編碼器包括編碼器(EC)和解碼器(DC)兩個組件。輸入數(shù)據(jù)x∈[0,1]經(jīng)sigmoid激活函數(shù)轉(zhuǎn)換為編碼h。與之對稱,編碼h會再經(jīng)過一次解碼過程轉(zhuǎn)換為r。同時,定義均方根誤差為損失函數(shù)。如下所示: h=f(x)=σ1(W1x+b1) (2-3-1) r=g(h)=σ2(W2h+b2) (2-3-2) (2-3-3) 其中,W1和W2是權(quán)重矩陣,b1和b2是偏置向量,σ1和σ2是激活函數(shù),f和g分別代表了編碼和解碼過程。自編碼器中的函數(shù)映射f和g通過神經(jīng)網(wǎng)絡(luò)實現(xiàn),模型網(wǎng)絡(luò)層數(shù)越多,可探索的數(shù)據(jù)空間就越大,信息壓縮和特征提取能力就越強。 此外,還有兩種自編碼器模型,一種是基于因子暴露的資產(chǎn)定價模型,它考慮線性Fama-French模型及IPCA模型中被忽略收益的非線性動力特征,從而學(xué)習(xí)一些不可觀測因子的收益。該模型成功解釋和預(yù)測了資產(chǎn)回報,并在應(yīng)用到多空價差策略時得到十分具有吸引力的夏普比率值。一種是利用AE模型構(gòu)建神經(jīng)網(wǎng)絡(luò),根據(jù)某些特征將股票分為不同組,并不斷將表現(xiàn)良好的股票納入組合,以取得較高收益。 總之,自編碼器的作用在于高效提取數(shù)據(jù)特征,進一步篩選出符合標(biāo)準(zhǔn)的股票標(biāo)的并構(gòu)建投資組合。與LSTM模型不同,自編碼器的應(yīng)用場景更偏向于橫向分類,而非針對時間序列數(shù)據(jù)進行縱向分析,實際應(yīng)用會綜合采取各種方法進行股票篩選和組合構(gòu)建,以取得最優(yōu)的組合收益。 深度強化學(xué)習(xí)是深度學(xué)習(xí)和強化學(xué)習(xí)結(jié)合的一種算法,它將深度學(xué)習(xí)的信息收集分析能力賦予強化學(xué)習(xí),從而實現(xiàn)更優(yōu)的實時決策。強化學(xué)習(xí)理論很早就已經(jīng)出現(xiàn),直觀上RL通過強化正反饋訓(xùn)練代理與環(huán)境進行互動,并隨時間累積優(yōu)化行為。與其他深度學(xué)習(xí)方法相比,RL特點包括:不依賴特定數(shù)據(jù),只有特定獎勵信號,且獎勵信號不一定實時;主要研究時間序列數(shù)據(jù),而非獨立同分布數(shù)據(jù);當(dāng)前行為影響后續(xù)數(shù)據(jù)。傳統(tǒng)強化學(xué)習(xí)動作空間和樣本空間都很小,且主要應(yīng)用于離散數(shù)據(jù),因此在股票交易等實際任務(wù)中應(yīng)用有限。深度強化學(xué)習(xí)模型出現(xiàn)后,實現(xiàn)了端到端學(xué)習(xí),無需人工提取狀態(tài)和特征,并整合了深度學(xué)習(xí)和強化學(xué)習(xí),使得強化學(xué)習(xí)能夠解決復(fù)雜環(huán)境下的決策問題。 強化學(xué)習(xí)主體稱為代理,其基本結(jié)構(gòu)是一個(A,S,R,P)四元模型。模型中A(Action)是代理的動作,S(State)是所處的狀態(tài),R(Reward)代表代理得到的獎勵或懲罰,P(Perception)是交互空間?;谠撃P陀幸恍┲匾拍?,政策函數(shù)(π)是指代理在某狀態(tài)下做出選擇的依據(jù),可以是確定性的(π(s))或隨機性的(π(a|s))。價值函數(shù)(Vπ(s)或Qπ(s,a))衡量了采取特定策略的長期期望收益。過程如下圖所示: 圖1 強化學(xué)習(xí)(RL)基本結(jié)構(gòu) 由此,一個強化學(xué)習(xí)過程可以表示為求解Bellman方程: (2-4-1) (2-4-2) 其基本思路就是先評估每個動作的Q值,再根據(jù)Q值求解最優(yōu)策略π(a|s)。傳統(tǒng)強化學(xué)習(xí)在擬合Q函數(shù)時普遍采用人工特征和線性模型進行擬合,這就導(dǎo)致其適用的狀態(tài)空間和動作空間非常小,實用性不強。2013年,Deepmind公司開發(fā)的DQN模型采取端到端學(xué)習(xí),無需人工提取特狀態(tài)和特征,而是通過不停執(zhí)行動作動態(tài)生成訓(xùn)練樣本,一旦訓(xùn)練出神經(jīng)網(wǎng)絡(luò),便可以得到最優(yōu)解。 在DQN基礎(chǔ)上,又發(fā)展出一系列新的DRL模型,如DDQN。它利用兩組不同參數(shù)分別評估最大Q值對應(yīng)的動作和最優(yōu)動作對應(yīng)的Q值,通過將動作選擇和策略評估分離,降低了過高估計Q值的風(fēng)險,從而更準(zhǔn)確地估計Q值。Hausknecht(2015)還提出了一種整合循環(huán)神經(jīng)網(wǎng)絡(luò)的DRQN算法[14],即在CNN卷積層之后加入LSTM單元,使模型具有長時間的記憶能力。 在交易層面,利用深度強化學(xué)習(xí)算法改進交易系統(tǒng)與人工學(xué)習(xí)股票交易的思路類似,都是通過不斷試錯實現(xiàn)更優(yōu)的交易結(jié)果。雖然目前還沒有證據(jù)證明機器自動化交易結(jié)果能夠戰(zhàn)勝人工交易,但從近年來深度學(xué)習(xí)在棋類游戲、電子競技和無人駕駛領(lǐng)域取得的進展來看,未來這一領(lǐng)域仍具有相當(dāng)大的發(fā)展空間。 深度學(xué)習(xí)為股票投資帶來以下變化:第一,傳統(tǒng)實證分析往往采用標(biāo)準(zhǔn)化、結(jié)構(gòu)化的數(shù)據(jù),而深度學(xué)習(xí)方法對實證數(shù)據(jù)來源有較大拓展,既能捕捉大量非結(jié)構(gòu)化自然語言文本,如網(wǎng)絡(luò)論壇、新聞媒體等,也能從全新視角利用已有數(shù)據(jù),如股價圖像數(shù)據(jù)等。第二,基于現(xiàn)有金融理論或投資經(jīng)驗的股價預(yù)測往往準(zhǔn)確率較低,如隨機游走理論認為股價是隨機變化因而不具有可預(yù)測性,而基于機器學(xué)習(xí)和深度學(xué)習(xí)的股價預(yù)測模型往往能實現(xiàn)80%以上的預(yù)測準(zhǔn)確性,如果能夠證明這一預(yù)測結(jié)果具有普遍可靠性和穩(wěn)定性,將改變現(xiàn)有投資策略,顯著改善投資績效。第三,深度學(xué)習(xí)能夠改進現(xiàn)有交易系統(tǒng),一是能夠改善現(xiàn)有策略執(zhí)行的準(zhǔn)確性和穩(wěn)定性,二是能夠捕捉人工無法利用的微小、短暫價差,拓展股票投資盈利來源。第四,深度學(xué)習(xí)方法對人員要求進一步提高,需要相關(guān)人員不僅擁有豐富的金融理論及實踐經(jīng)驗,更要能夠把握各種深度學(xué)習(xí)模型的特點及適用性。 未來深度學(xué)習(xí)方法在股票投資中仍然具有廣闊的應(yīng)用空間:一是挖掘更豐富的數(shù)據(jù)來源。目前可以利用的數(shù)據(jù)主要還是結(jié)構(gòu)化的價格、財務(wù)信息等,也有一些根據(jù)網(wǎng)絡(luò)論壇和財經(jīng)媒體信息編制的投資者情緒指數(shù)等,利用深度學(xué)習(xí)方法既可以利用現(xiàn)有數(shù)據(jù)構(gòu)建綜合指標(biāo),進行深入對比分析,也可以進一步挖掘書籍、檔案、專利、衛(wèi)星圖像等非標(biāo)準(zhǔn)化數(shù)據(jù),豐富股票投資可以利用的信息來源。二是與傳統(tǒng)金融預(yù)測模型相結(jié)合,提升預(yù)測精度。雖然有效市場、隨機游走等理論認為股票市場本質(zhì)上不可預(yù)測,但因子模型、行為金融等新觀點的出現(xiàn)也為股價預(yù)測提供了理論空間,將其與深度學(xué)習(xí)工具相結(jié)合進行股價預(yù)測,已逐漸成為目前的熱點。三是改進現(xiàn)有交易系統(tǒng)。目前美國市場上大量基金公司已經(jīng)采用計算機進行交易,以其高效精準(zhǔn)的執(zhí)行完成很多人工無法實現(xiàn)的交易,在此背景下,利用深度學(xué)習(xí)改進交易系統(tǒng),優(yōu)化交易執(zhí)行將越來越受到關(guān)注。四是注重深度學(xué)習(xí)方法的理論解釋。缺乏金融學(xué)理論基礎(chǔ)的應(yīng)用研究正如沙灘閣樓,其適用性和穩(wěn)定性都存在疑問。隨著對深度學(xué)習(xí)機制的挖掘,未來有望進一步夯實深度學(xué)習(xí)在股票投資應(yīng)用上的理論基礎(chǔ)。(二)股票價格預(yù)測
(三)投資策略完善
(四)交易系統(tǒng)改進
三、深度學(xué)習(xí)在股票投資中的方法比較
(一)卷積神經(jīng)網(wǎng)絡(luò)
(二)長短期記憶網(wǎng)絡(luò)
(三)自編碼器
(四)深度強化學(xué)習(xí)
四、總結(jié)和展望
鄭州大學(xué)學(xué)報(哲學(xué)社會科學(xué)版)2022年2期