馬 超,徐瑾輝,侯天誠(chéng),藍(lán) 斌
(廣東外語(yǔ)外貿(mào)大學(xué) 金融學(xué)院,廣東 廣州 510006)
深度學(xué)習(xí)是一類新興的多層神經(jīng)網(wǎng)絡(luò)學(xué)習(xí)算法,因其緩解了傳統(tǒng)訓(xùn)練算法的局部最小性,引起機(jī)器學(xué)習(xí)領(lǐng)域的廣泛關(guān)注.深度學(xué)習(xí)的特點(diǎn)是,通過(guò)一系列邏輯回歸的堆棧作為運(yùn)算單元,對(duì)低層數(shù)據(jù)特征進(jìn)行無(wú)監(jiān)督的再表示(該過(guò)程稱為預(yù)學(xué)習(xí)),形成更加抽象的高層表示 (屬性類別或特征),以發(fā)現(xiàn)數(shù)據(jù)的分布式特征表示.深度學(xué)習(xí)的這種特性由于與腦神經(jīng)科學(xué)理論相一致,因此被廣泛應(yīng)用于語(yǔ)音識(shí)別、自然語(yǔ)言處理和計(jì)算機(jī)視覺(jué)等領(lǐng)域.
生物學(xué)研究表明[1]:在生物神經(jīng)元突觸的輸出變化與輸入脈沖的持續(xù)時(shí)間有關(guān),即依賴于持續(xù)一定時(shí)間的輸入過(guò)程,輸出信號(hào)既依賴于輸入信號(hào)的空間效應(yīng)和閾值作用,也依賴于時(shí)間總和效應(yīng).
傳統(tǒng)的深度學(xué)習(xí)方法雖然較好地模擬了生物神經(jīng)元的一個(gè)重要特性——空間總和效應(yīng)上的深度,卻忽視了生物神經(jīng)元的另一個(gè)重要特性——時(shí)間總和效應(yīng)上的寬度[2].因此,對(duì)于連續(xù)的時(shí)間變量問(wèn)題(如語(yǔ)音識(shí)別),傳統(tǒng)深度學(xué)習(xí)方法只能將連續(xù)的時(shí)間函數(shù)關(guān)系轉(zhuǎn)化為空間關(guān)系,即離散化為時(shí)間序列進(jìn)行處理.這樣做有幾個(gè)弊端:
(1)可能造成深度學(xué)習(xí)算法對(duì)時(shí)間采樣頻率的十分敏感,魯棒性較差.這使得,不同時(shí)間尺度下,需要使用不同的數(shù)據(jù)和算法.這無(wú)疑是十分不方便的;
(2)導(dǎo)致深度網(wǎng)絡(luò)規(guī)模過(guò)大,使得計(jì)算開(kāi)銷增大、學(xué)習(xí)效果變差、泛化性能降低;
(3)難以滿足實(shí)際應(yīng)用對(duì)算法的實(shí)時(shí)性的要求,更難以體現(xiàn)連續(xù)輸入信息的累積效應(yīng),大大降低深度學(xué)習(xí)算法的實(shí)用性.
因此,對(duì)傳統(tǒng)的深度學(xué)習(xí)算法進(jìn)行改進(jìn),使其不但具有“深度”,亦能具有“寬度”,能夠?qū)B續(xù)時(shí)變數(shù)據(jù)進(jìn)行更好的特征提取、提高算法效率和實(shí)用性,顯得勢(shì)在必行.基于這個(gè)切入點(diǎn),本項(xiàng)目借鑒時(shí)頻分析與小波分析中的方法,結(jié)合數(shù)學(xué)分析領(lǐng)域中的泛函分析技術(shù),與堆棧自編碼神經(jīng)網(wǎng)絡(luò)相結(jié)合,提出一種新的深度學(xué)習(xí)算法——深度泛函網(wǎng)絡(luò).為了驗(yàn)證算法的有效性及優(yōu)越性,本項(xiàng)目將把新算法應(yīng)用于金融時(shí)間序列的領(lǐng)域.
在目前國(guó)內(nèi)外對(duì)于深度學(xué)習(xí)的研究中,幾乎沒(méi)有任何將深度學(xué)習(xí)技術(shù)運(yùn)用于金融數(shù)據(jù)的研究.通過(guò)提出并運(yùn)用得當(dāng)?shù)纳疃刃蛄袑W(xué)習(xí)方法,我們期望從金融數(shù)據(jù)中抽取更高級(jí)的、具有經(jīng)濟(jì)學(xué)意義或預(yù)測(cè)性意義的高級(jí)特征(與人工設(shè)計(jì)的“技術(shù)指標(biāo)”相對(duì)應(yīng)),并開(kāi)發(fā)相應(yīng)的量化交易策略,并與其它傳統(tǒng)算法進(jìn)行對(duì)比,以說(shuō)明所提算法的可行性和優(yōu)越性.
人類感知系統(tǒng)具有的層次結(jié)構(gòu),能夠提取高級(jí)感官特征來(lái)識(shí)別物體(聲音),因而大大降低了視覺(jué)系統(tǒng)處理的數(shù)據(jù)量,并保留了物體有用的結(jié)構(gòu)信息.對(duì)于要提取具有潛在復(fù)雜結(jié)構(gòu)規(guī)則的自然圖像、視頻、語(yǔ)音和音樂(lè)等結(jié)構(gòu)豐富數(shù)據(jù),人腦獨(dú)有的結(jié)構(gòu)能夠獲取其本質(zhì)特征[3].受大腦結(jié)構(gòu)分層次啟發(fā),神經(jīng)網(wǎng)絡(luò)研究人員一直致力于多層神經(jīng)網(wǎng)絡(luò)的研究.訓(xùn)練多層網(wǎng)絡(luò)的算法以BP算法為代表,其由于局部極值、權(quán)重衰減等問(wèn)題,對(duì)于多于2個(gè)隱含層的網(wǎng)絡(luò)的訓(xùn)練就已較為困難[4],這使得實(shí)際應(yīng)用中多以使用單隱含層神經(jīng)網(wǎng)絡(luò)居多.
該問(wèn)題由Hinton[5]所引入的逐層無(wú)監(jiān)督訓(xùn)練方法所解決.具體地,該法對(duì)深度神經(jīng)網(wǎng)絡(luò)中的每一層貪婪地分別進(jìn)行訓(xùn)練:當(dāng)前一層被訓(xùn)練完畢后,下一層網(wǎng)絡(luò)的權(quán)值通過(guò)對(duì)該層的輸入(即前一層的輸出)進(jìn)行編碼(Encoding,詳見(jiàn)下文)而得到.當(dāng)所有隱含層都訓(xùn)練完畢后,最后將使用有監(jiān)督的方法對(duì)整個(gè)神經(jīng)網(wǎng)絡(luò)的權(quán)值再進(jìn)行精確微調(diào).在Hinton的原始論文中,逐層貪婪訓(xùn)練是通過(guò)受限波茲曼機(jī)(Restricted Boltzmann Machine,RBM)以及相對(duì)應(yīng)的對(duì)比散度方法(Contrastive Divergence)完成的.與通常的神經(jīng)元不同,RBM是一種概率生成模型,通常被設(shè)計(jì)為具有二元輸入-輸出(稱為Bernoulli-Bernoulli RBM).通過(guò)對(duì)每一層的受限波茲曼機(jī)進(jìn)行自底向上的堆棧(如圖1),可以得到深度信念網(wǎng)(Deep Belief Network,DBN).
圖1 堆棧RBM結(jié)構(gòu)示意圖
除了生成式的RBM,還有其他的深度學(xué)習(xí)結(jié)構(gòu)被廣泛使用和研究.如堆棧自編碼神經(jīng)網(wǎng)絡(luò)(Stacked Auto-Encoder Network,SAEN)[6],以及深度卷積神經(jīng)網(wǎng)絡(luò)(Deep Convolutional Network)[7]等.前者的優(yōu)勢(shì)在于可以簡(jiǎn)單地采用通常的BP算法進(jìn)行逐層預(yù)訓(xùn)練,并且引入隨機(jī)化過(guò)程的抗噪聲自編碼網(wǎng)絡(luò)(Denoising SAEN)泛化性能甚至超過(guò)DBN[8];而后者則通過(guò)權(quán)值共享結(jié)構(gòu)減少了權(quán)值的數(shù)量,使圖像可以直接作為輸入,對(duì)平移、伸縮、傾斜等的變形具有高度不變性,因此在圖像識(shí)別領(lǐng)域有著廣泛應(yīng)用.
圖2 自編碼網(wǎng)絡(luò)示意圖
圖3 卷積神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)示意圖:通過(guò)局部感知、權(quán)值共享以及池化,產(chǎn)生對(duì)圖像平移、伸縮等變形的高度不變性
近年來(lái),稀疏編碼(Sparse Encoding)和特征學(xué)習(xí)(Feature Learning)成為了深度學(xué)習(xí)領(lǐng)域較為熱門(mén)的研究方向.B.A.Olshausen[9]等針對(duì)人腦的視覺(jué)感知特性,提出稀疏編碼的概念.稀疏編碼算法是一種無(wú)監(jiān)督學(xué)習(xí)方法,它用來(lái)尋找一組“過(guò)完備”的基向量來(lái)更高效地表示輸入數(shù)據(jù)的特征,更有效地挖掘隱含在輸入數(shù)據(jù)內(nèi)部的特征與模式.針對(duì)稀疏編碼的求解問(wèn)題,H.Lee等在2007年提出了一種高效的求解算法[10],該算法通過(guò)迭代地求解兩個(gè)不同的凸規(guī)劃問(wèn)題以提高效率.同年,H.Lee等發(fā)現(xiàn),當(dāng)訓(xùn)練樣本為圖像時(shí),對(duì)DBN的訓(xùn)練進(jìn)行稀疏性的約束有利于算法學(xué)習(xí)到更高級(jí)的特征[11].例如,對(duì)手寫(xiě)識(shí)別數(shù)據(jù)集進(jìn)行訓(xùn)練時(shí),稀疏性約束下的DBN算法自主學(xué)習(xí)到了“筆畫(huà)”的概念.
基于[10,11]的研究成果,R.Raina等[12]提出了“自導(dǎo)師學(xué)習(xí)(Self-Taught Learning)”的概念.與無(wú)監(jiān)督學(xué)習(xí)(Unsupervised Learning)和半監(jiān)督學(xué)習(xí)(Semi-supervised Learning)不同,自導(dǎo)師學(xué)習(xí)利用大量易獲得的無(wú)標(biāo)簽數(shù)據(jù)(可以來(lái)自不同類別甚至是未知類別),通過(guò)稀疏編碼算法來(lái)構(gòu)建特征的高級(jí)結(jié)構(gòu),并通過(guò)支持向量機(jī)(Support Vector Machine,SVM)作為最終層分類器對(duì)少數(shù)有標(biāo)簽數(shù)據(jù)進(jìn)行分類.這種更接近人類學(xué)習(xí)方式的模式極大提高了有標(biāo)簽數(shù)據(jù)的分類準(zhǔn)確度.與之類似,H.Lee,R.Grosse等[13]提出了一種具有層次結(jié)構(gòu)的特征學(xué)習(xí)算法.該算法將卷積神經(jīng)網(wǎng)絡(luò)與DBN結(jié)合,并通過(guò)稀疏正則化(Sparsity Regularization)的手段無(wú)監(jiān)督地學(xué)習(xí)層次化的特征表征.圖像識(shí)別實(shí)驗(yàn)表明,該算法能夠自主學(xué)習(xí)得出“物體(Object Parts)”的概念,較好體現(xiàn)了人腦視覺(jué)感知的層次性和抽象性.
圖4 層次稀疏編碼在人臉識(shí)別和車(chē)輛識(shí)別中學(xué)習(xí)到的層次高級(jí)特征
由于信號(hào)處理、語(yǔ)音識(shí)別、金融時(shí)間序列分析、視頻分析等領(lǐng)域的實(shí)時(shí)應(yīng)用需求,研究能夠處理連續(xù)時(shí)變變量、自然體現(xiàn)時(shí)間聯(lián)系結(jié)構(gòu)的深度學(xué)習(xí)算法(即深度序列學(xué)習(xí),Deep Sequence Learning)成為了新的研究熱點(diǎn).G.W.Taylor,G.E.Hinton等[14]提出時(shí)間受限波茲曼機(jī)(Temporal RBM,TRBM).該模型使用二值隱含元和實(shí)值可視元,并且其隱含元和可視元可以與過(guò)去一段歷史的可視元之間可以有向地被相連.同時(shí),該模型被用于人類動(dòng)作識(shí)別,并展現(xiàn)出了優(yōu)秀的性能.針對(duì)TRBM的一些不足,一些改進(jìn)算法也不斷涌現(xiàn),如[15,16].然而,該類深度學(xué)習(xí)模型雖然考慮了動(dòng)態(tài)的時(shí)間變量之間的聯(lián)系,但依然只能處理離散時(shí)間問(wèn)題,本質(zhì)上還是屬于轉(zhuǎn)化為空間變量的化歸法.同時(shí),在自編碼網(wǎng)絡(luò)框架下,依然缺乏較好解決時(shí)間過(guò)程(序列)問(wèn)題的方案.
傳統(tǒng)金融理論認(rèn)為,金融市場(chǎng)中的證券價(jià)格滿足伊藤過(guò)程,投資者無(wú)法通過(guò)對(duì)歷史數(shù)據(jù)的分析獲得超額利潤(rùn).然而,大量實(shí)證研究卻表明,中國(guó)股票價(jià)格波動(dòng)具有長(zhǎng)期記憶性,拒絕隨機(jī)性假設(shè),在各種時(shí)間尺度上都存在的可以預(yù)測(cè)的空間.因此,如何建立預(yù)測(cè)模型,對(duì)于揭示金融市場(chǎng)的內(nèi)在規(guī)律,這無(wú)論是對(duì)于理論研究,還是對(duì)于國(guó)家的經(jīng)濟(jì)發(fā)展和廣大投資者,都具有重要的意義.
股票市場(chǎng)是一個(gè)高度復(fù)雜的非線性系統(tǒng),其變化既有內(nèi)在的規(guī)律性,同時(shí)也受到市場(chǎng),宏觀經(jīng)濟(jì)環(huán)境,以及非經(jīng)濟(jì)原因等諸多因素的影響.目前國(guó)內(nèi)外對(duì)證券價(jià)格進(jìn)行預(yù)測(cè)的模型大致分為兩類:一是以時(shí)間序列為代表的統(tǒng)計(jì)預(yù)測(cè)模型;該類方法具有堅(jiān)實(shí)的統(tǒng)計(jì)學(xué)基礎(chǔ),但由于金融價(jià)格數(shù)據(jù)存在高噪聲、波動(dòng)大、高度非線性等特征,使得該類傳統(tǒng)方法無(wú)法提供有效的工具.另一類是以神經(jīng)網(wǎng)絡(luò)、支持向量機(jī)等模型為代表的數(shù)據(jù)挖掘模型.該類模型能夠處理高度非線性的數(shù)據(jù),基本上從擬合的角度建模.雖然擬合精度較高,但擬合精度的微小誤差往往和市場(chǎng)波動(dòng)互相抵消,導(dǎo)致無(wú)法捕捉獲利空間甚至導(dǎo)致?lián)p失,外推預(yù)測(cè)效果無(wú)法令人滿意.因此,建立即能夠處理非線性價(jià)格數(shù)據(jù),又有良好泛化能力的預(yù)測(cè)模型勢(shì)在必行.
〔1〕Zhang L I,Tao H W,Holt C E,et al.A critical window for cooperation and competition among developing retinotectal synapses[J].Nature,1998,395(6697).
〔2〕37-44.歐陽(yáng)楷,鄒睿.基于生物的神經(jīng)網(wǎng)絡(luò)的理論框架——神經(jīng)元模型[J].北京生物醫(yī)學(xué)工程,1997,16(2):93-101.
〔3〕Rossi A F,Desimone R,Ungerleider L G.Contextual modulation in primary visual cortex of macaques[J].the Journal of Neuroscience,2001,21(5):1698-1709.
〔4〕Bengio Y.Learning deep architectures for AI[J].Foundations and trends?in Machine Learning,2009,2(1):1-127.
〔5〕Hinton G E,Osindero S,Teh Y W.A fast learning algorithm for deep belief nets[J].Neural computation,2006,18(7):1527-1554.
〔6〕Vincent P,Larochelle H,Bengio Y,et al.Extracting and composing robust features with denoising autoencoders[C]//Proceedings of the 25th international conference on Machine learning.ACM,2008:1096-1103.
〔7〕Lee H,Grosse R,Ranganath R,et al.Convolutional deep belief networks for scalable unsupervised learning of hierarchical representations[C]//Proceedings of the 26th Annual International Conference on Machine Learning.ACM,2009:609-616.
〔8〕Vincent P,Larochelle H,Lajoie I,et al.Stacked denoising autoencoders:Learning useful representations in a deep network with a local denoising criterion[J].The Journal of Machine Learning Research,2010,9999:3371-3408.
〔9〕Olshausen B A,Field D J.Sparse coding with an overcomplete basis set:A strategy employed by V1?[J].Vision research,1997,37(23):3311-3325.
〔10〕Lee H,Battle A,Raina R,et al.Efficient sparse coding algorithms[J].Advances in neural information processing systems,2007,19:801.
〔11〕Lee H,Ekanadham C,Ng A Y.Sparse deep belief net model for visual area V2[C]//NIPS.2007,7:873-880.
〔12〕Raina R,Battle A,Lee H,et al.Self-taught learning:transfer learning from unlabeled data[C]//Proceedings of the 24th international conference on Machine learning.ACM,2007:759-766.
〔13〕Lee H,Grosse R,Ranganath R,et al.Convolutional deep belief networks for scalable unsupervised learning of hierarchical representations[C]//Proceedings of the 26th Annual International Conference on Machine Learning.ACM,2009:609-616.
〔14〕Taylor G W,Hinton G E,Roweis S T.Modeling human motion using binary latent variables[J].Advances in neural information processing systems,2007,19:1345.
〔15〕Sutskever I,Hinton G E,Taylor G W.The Recurrent Temporal Restricted Boltzmann Machine[C]//NIPS.2008,21:2008.
〔16〕Lockett A J,Miikkulainen R.Temporal convolution machines for sequence learning[J].To Appear,2009:1-8.