朱文莉 于智超
(陜西科技大學(xué)經(jīng)濟(jì)與管理學(xué)院,陜西 西安 710021)
量化投資是一種以數(shù)據(jù)為基礎(chǔ)、以模型為核心、以程序化交易為手段的交易方式。伴隨實(shí)踐的發(fā)展,國內(nèi)關(guān)于量化投資的研究文獻(xiàn)不斷增加,本文以中國知網(wǎng)數(shù)據(jù)庫(CNKI)期刊、碩博學(xué)位論文為樣本,用Citespace可視化分析工具對國內(nèi)量化投資研究文獻(xiàn)進(jìn)行系統(tǒng)分析,力求直觀展現(xiàn)我國量化投資領(lǐng)域的研究進(jìn)展、熱點(diǎn)和趨勢,同時為學(xué)者的進(jìn)一步研究提供參考。
本文整理了2010—2020年CNKI中國學(xué)術(shù)期刊和碩博學(xué)位論文中的關(guān)于量化投資領(lǐng)域的文獻(xiàn)數(shù)量,并對其進(jìn)行可視化。根據(jù)圖1可以清楚地發(fā)現(xiàn),關(guān)于量化投資的相關(guān)文獻(xiàn)總體上呈現(xiàn)出較為穩(wěn)定的態(tài)勢,但在2011和2015年出現(xiàn)小幅下滑,且在2019-2020年間出現(xiàn)極為明顯的滑落,幅度達(dá)到40%。將其分為三個階段,第一階段為2010-2015年,在此階段增長速度相對緩慢,且文獻(xiàn)數(shù)量總和整體在100篇以下;第二個階段為2015-2019年,文獻(xiàn)數(shù)量呈現(xiàn)快速上升趨勢,并于2019年文獻(xiàn)數(shù)量達(dá)到261篇;第三階段是2019-2020年,此階段學(xué)術(shù)期刊
圖1 總文獻(xiàn)數(shù)量統(tǒng)計(jì)圖
勾選CNKI的中國學(xué)術(shù)期刊和碩博學(xué)位論文(網(wǎng)絡(luò)版) ,以”量化投資”或“Quantitative trading”為檢索詞,依次進(jìn)行主題、篇名、關(guān)鍵詞檢索,發(fā)現(xiàn)我國2010年量化投資研究出現(xiàn)爆發(fā)式的增長?;诖?,本文選取檢索日期為2010年1月1日至2020年12月31日,數(shù)據(jù)采集時間為2021年5月1日。手工剔除了期刊文獻(xiàn)中的學(xué)術(shù)會議通知、會議綜述、書評等非學(xué)術(shù)研究性論文,得到1315篇樣本文獻(xiàn),其中期刊論文568篇,學(xué)位論文747篇(碩士論文727篇,博士論文20篇)。
Citespace是美國德雷塞爾大學(xué)終身教授陳超美先生及其團(tuán)隊(duì)根據(jù)Java語言開發(fā)的軟件,其主要應(yīng)用于信息分析領(lǐng)域。該軟件可以對文獻(xiàn)的作者、研究機(jī)構(gòu)、關(guān)鍵詞等信息進(jìn)行抓取,通過可視化的圖譜將這些信息直觀展現(xiàn)出來,進(jìn)一步對信息分析,發(fā)現(xiàn)該領(lǐng)域的研究熱點(diǎn)和趨勢。本文采用的是Citespace的5.7.R5W版本。
以及學(xué)位論文數(shù)量均出現(xiàn)顯著下降。由圖2可以看出,核心期刊的發(fā)文數(shù)量上下波動較大,趨勢較不穩(wěn)定,說明關(guān)于量化投資領(lǐng)域研究總體質(zhì)量有待提高。
圖2 核心期刊文獻(xiàn)數(shù)統(tǒng)計(jì)圖
在將CNKI數(shù)據(jù)轉(zhuǎn)換后,將其導(dǎo)入Citespace分析,首先對研究作者之間的合作網(wǎng)絡(luò)進(jìn)行分析。設(shè)置時間段為2010-2020,時間切片為1年,節(jié)點(diǎn)類型選擇“作者”,同時閾值“提取標(biāo)準(zhǔn)”設(shè)置為“Top N=50”,得到了1422個節(jié)點(diǎn),529條連線,網(wǎng)絡(luò)密度為0.0005的合作網(wǎng)絡(luò)圖。每個節(jié)點(diǎn)代表一個作者,連接線代表作者間存在合作,網(wǎng)絡(luò)密度0.0005表示作者間合作密切程度很低,說明大多學(xué)者處于相互獨(dú)立研究的狀態(tài)。再用普賴斯定律計(jì)算量化投資領(lǐng)域核心作者的數(shù)量,計(jì)算方法為:n=0.749·,,其中最大發(fā)文量量Nmax=11,計(jì)算得得n≈3,,即發(fā)文量3篇以上的作者可作為量化投資領(lǐng)域的核心作者。結(jié)果表明,發(fā)文量為3篇及以上的作者共有35名,總計(jì)163篇(表1,中間省略),約占量化投資領(lǐng)域研究總論文量的13%,遠(yuǎn)不及普賴斯定律所提的核心作者群體發(fā)文量應(yīng)占總發(fā)文量50%的標(biāo)準(zhǔn)。這也說明了目前量化投資領(lǐng)域尚未形成核心作者群體,缺乏研究的主力軍和骨干。
表1 2010—2020年量化投資領(lǐng)域核心作者及發(fā)文量情況
關(guān)鍵詞共現(xiàn)分析是對文獻(xiàn)的關(guān)鍵詞進(jìn)行提取,研究關(guān)鍵詞出現(xiàn)的頻率及其之間的關(guān)系。在Citespace上進(jìn)行設(shè)置,將時間切片設(shè)置為1年,分析節(jié)點(diǎn)設(shè)置為“keyword”,設(shè)置閾值插值(2,2,12),分別代表一個單位的時間切片內(nèi)關(guān)鍵詞出現(xiàn)頻次最低為2次、共現(xiàn)頻次最低為2次,以及關(guān)鍵詞之間出現(xiàn)的共現(xiàn)率為12%。首次分析得到239個節(jié)點(diǎn)和510條連線,但出現(xiàn)一些相似的關(guān)鍵詞,需對這些類似的關(guān)鍵詞進(jìn)行合并,如將“量化投資”“量化交易”及“程序化交易”合并為“量化投資”;將“量化投資策略”“量化策略”“交易策略”及“量化交易策略”合并為“量化投資策略”;“多因子選股模型”“多因子選股”“多因子”及“多因子模型”合并為“多因子選股模型”等等。合并之后再對圖譜進(jìn)行調(diào)整,最終得到圖3所示的關(guān)鍵詞共現(xiàn)圖譜,圖譜共有213個節(jié)點(diǎn),400條連線,分別代表了出現(xiàn)2次以上的關(guān)鍵詞個數(shù)以及它們之間的連線。
圖3 2010-2020年量化投資研究領(lǐng)域關(guān)鍵詞共現(xiàn)圖譜
表2列出了出現(xiàn)頻次大于等于20次的關(guān)鍵詞,一共有18個。中介中心性大于0.10的關(guān)鍵詞,可以視為具有高中介中心性的關(guān)鍵節(jié)點(diǎn)[1]。
表2 2010-2020年我國量化投資熱點(diǎn)主要關(guān)鍵詞
結(jié)合表2和圖3,可以看出,關(guān)鍵詞“量化投資”出現(xiàn)的頻次最高(701次),其次是關(guān)鍵詞“多因子選股模型”(116次),但它們的中心性都不高,分別為0.02和0.03,屬于高頻低中心性的關(guān)鍵詞。接下來是關(guān)鍵詞“量化投資策略”和“量化選股”,這兩個關(guān)鍵詞出現(xiàn)頻次分別為101次和51次,同時中心性也較高,分別為0.26和0.5,屬于高頻高中心性的關(guān)鍵詞,這四個關(guān)鍵詞可以將其歸入量化投資領(lǐng)域研究熱點(diǎn)的第一梯隊(duì)。
頻次出現(xiàn)在20至50之間的關(guān)鍵詞有“支持向量機(jī)”“投資者”“量化基金”,這些關(guān)鍵詞雖然出現(xiàn)頻次都不算太高(分別為43,39,33),但中心性都比較強(qiáng)(分別為0.16,0.25,0.33),可以將它們歸入為量化投資領(lǐng)域研究熱點(diǎn)的第二梯隊(duì)。
除了以上所列的關(guān)鍵詞,還有一些低頻高中心性的關(guān)鍵詞,如“技術(shù)分析”的頻次和中心性分別為16和0.27,“大數(shù)據(jù)”的頻次和中心性分別為14和0.2,這些關(guān)鍵詞出現(xiàn)的頻次較低,但中心性較高,也是量化投資領(lǐng)域研究的熱點(diǎn)詞匯。
最終,結(jié)合文獻(xiàn)內(nèi)容,將我國量化投資領(lǐng)域研究關(guān)鍵主題歸納為以下四個方面:
1.對量化投資的基本原理及其在我國的發(fā)展探討。有的學(xué)者認(rèn)為我國量化投資還處于初級階段,但隨著中國的金融市場不斷成熟,運(yùn)用量化投資的機(jī)理和方法將是未來國內(nèi)市場投資策略的發(fā)展趨勢;有的認(rèn)為量化投資對金融大數(shù)據(jù)情報(bào)分析的研究亟待加強(qiáng)??偟膩碚f,這部分學(xué)者從量化投資原理出發(fā),認(rèn)為隨著我國金融業(yè)的發(fā)展,量化投資的研究將不斷趨于成熟。
2.基于計(jì)算機(jī)技術(shù)對量化投資的策略研究。主要是利用計(jì)算機(jī)技術(shù),通過計(jì)算機(jī)的算法,構(gòu)建量化投資策略,然后利用歷史數(shù)據(jù)對策略進(jìn)行檢驗(yàn)。在這些研究中,有學(xué)者利用Random Forest和Adaboost算法與因子庫結(jié)合,構(gòu)建的集成學(xué)習(xí)算法選股模型跑贏了大盤指數(shù)并取得了較好收益;也有學(xué)者利用 LSTM為基礎(chǔ)提出了C-LSTM模型,并基于此構(gòu)建了指數(shù)擇時策略,大幅提升了擇時信號的準(zhǔn)確度??偟膩碚f,利用計(jì)算機(jī)技術(shù)研究量化投資,其重點(diǎn)都是在計(jì)算機(jī)技術(shù)的應(yīng)用上,通過計(jì)算機(jī)算法找到合適的選股因子,不斷優(yōu)化量化投資模型,構(gòu)建跑贏大盤指數(shù)的投資組合。
3.基于行為金融學(xué)對量化投資的策略研究。主要是從行為金融學(xué)的視角出發(fā),研究行為金融學(xué)中的各種因素對量化投資的影響。例如有學(xué)者構(gòu)建了動量交易強(qiáng)度指標(biāo),通過實(shí)證發(fā)現(xiàn)了中國的開放式基金普遍存在動量交易行為;也有學(xué)者發(fā)現(xiàn)羊群效應(yīng)和動量效應(yīng)都是有情緒因素和信息傳播引起的,短中期(60天內(nèi))將這兩種效應(yīng)結(jié)合構(gòu)建組合,可以獲得超額收益??偟膩碚f,研究者大都將行為金融的中的指標(biāo)進(jìn)行量化,通過市場實(shí)證指標(biāo)的影響,并以此為依據(jù),構(gòu)建投資收益超過大盤的資產(chǎn)組合。
4.對量化投資存在風(fēng)險(xiǎn)的關(guān)注。例如有學(xué)者提出量化投資在應(yīng)用的過程中,減少傳統(tǒng)道德風(fēng)險(xiǎn)的同時可能產(chǎn)生新型道德風(fēng)險(xiǎn),建議規(guī)制和監(jiān)管不斷更新,與其發(fā)展相適應(yīng);再如有學(xué)者提出主成分吸收率對股市重大波動有預(yù)測能力,以此構(gòu)建穩(wěn)健的投資策略,能有效降低投資風(fēng)險(xiǎn)??偟膩碚f,這部分學(xué)者從風(fēng)險(xiǎn)的角度出發(fā),以降低量化投資的風(fēng)險(xiǎn)為目的。
新生主題詞的突顯代表了研究前沿與研究的新穎度,對2010-2020年所有文獻(xiàn)樣本的關(guān)鍵詞進(jìn)行突變分析,得出了突變強(qiáng)度排名前34位的突變詞,如圖4所示。圖中顯示了關(guān)鍵詞、查詢的起始年份、關(guān)鍵詞突變強(qiáng)度、關(guān)鍵詞首次出現(xiàn)的起始時間及結(jié)束時間,而紅色的線條由關(guān)鍵詞的起止時間決定線條越長,關(guān)鍵詞突變持續(xù)時間越長,如關(guān)鍵詞“投資者”(圖4),分析的起始年限為2010年,突變強(qiáng)度為3.81,該詞在確定的分析期間,首次出現(xiàn)的時間也是2010年,結(jié)束于2015年,說明其在2010年至2015年間為量化投資領(lǐng)域研究前沿。
圖4 2010-2020年量化投資研究的突變詞
由圖4看到,在持續(xù)時間上,“投資者”“量化基金”“分級基金”“統(tǒng)計(jì)套利”作為前沿?zé)狳c(diǎn)持續(xù)時間較長,均到達(dá)或超過4年,但2017年之后都不再成為前沿?zé)狳c(diǎn)。在突變強(qiáng)度上,“量化投資”“股指期貨”“隨機(jī)森林”這些詞的突變強(qiáng)度較大,說明在這些詞在出現(xiàn)的年份具有較強(qiáng)的新穎性,適合在這些年份作為研究對象。在研究時間推進(jìn)看,持續(xù)到2020年的突變詞有“金融科技”“人工智能”“強(qiáng)化學(xué)習(xí)”“深度學(xué)習(xí)”“集成學(xué)習(xí)”“配對交易”,說明量化投資領(lǐng)域研究的前沿?zé)狳c(diǎn)多與計(jì)算機(jī)相關(guān)。總的來說,量化投資的發(fā)展得益于大數(shù)據(jù)、人工智能、機(jī)器學(xué)習(xí)等與計(jì)算機(jī)領(lǐng)域相關(guān)研究的發(fā)展,量化投資需要的數(shù)學(xué)模型、完善的數(shù)據(jù)體系、程序化的交易手段等條件,這些都通過計(jì)算機(jī)技術(shù)的發(fā)展得到了很好的應(yīng)用,未來關(guān)于量化投資的研究,也一定是圍繞著計(jì)算機(jī)技術(shù)而展開的。
1.近年來,量化投資研究文獻(xiàn)數(shù)量在不斷增加,但研究的質(zhì)量并不穩(wěn)定。目前該領(lǐng)域尚未形成核心作者群體,缺乏研究骨干。
2.在研究熱點(diǎn)和研究主題方面,量化投資從以“量化選股”“量化投資策略”為主要關(guān)鍵詞,擴(kuò)展到“機(jī)器學(xué)習(xí)”“支持向量機(jī)”“股指期貨”等關(guān)鍵詞,主要形成了四個方面的主題研究,分別是對量化投資的基本原理及其在我國的發(fā)展的探討、基于計(jì)算機(jī)技術(shù)對量化投資的研究、基于行為金融學(xué)對量化投資的研究、對量化投資發(fā)展中風(fēng)險(xiǎn)的關(guān)注。
3.在研究前沿方面,持續(xù)到2020年的突變詞有“金融科技”“人工智能”“強(qiáng)化學(xué)習(xí)”“深度學(xué)習(xí)”“集成學(xué)習(xí)”“配對交易”,說明量化投資領(lǐng)域研究的前沿?zé)狳c(diǎn)多與計(jì)算機(jī)相關(guān),未來關(guān)于量化投資的研究,也一定是圍繞著計(jì)算機(jī)技術(shù)而展開的。
隨著我國金融市場的不斷發(fā)展壯大,量化投資技術(shù)逐漸趨于成熟并被大家所接受,伴隨實(shí)踐的發(fā)展,量化投資將會更加受到研究者關(guān)注。根據(jù)Citespace文獻(xiàn)計(jì)量分析結(jié)論和量化投資發(fā)展趨勢,進(jìn)一步研究應(yīng)注重以下幾個方面。
1.注重合作研究,在合作中形成更多高水平研究成果,提升研究質(zhì)量,逐步形成核心作者群體。
2.加強(qiáng)本土化研究。與國外的成熟資本市場相比,我國資本市場開放時間較短,資本市場的政策和規(guī)則變動頻繁,量化和對沖工具相對較少。基于中國資本市場的特征,可以更多關(guān)注政策和規(guī)則的調(diào)整、投資者的非理性行為,探索符合國內(nèi)市場的量化投資理念和方法。
3.充分利用大數(shù)據(jù)技術(shù)獲取數(shù)據(jù),探索更為優(yōu)化的量化投資模型。未來的研究,充分利用大數(shù)據(jù)深度挖掘信息數(shù)據(jù),不斷更新信息數(shù)據(jù)的同時,提煉有價(jià)值的信息數(shù)據(jù),保證所收集信息的有效性和及時性,同時將計(jì)算機(jī)技術(shù)和數(shù)理統(tǒng)計(jì)有效結(jié)合起來,科學(xué)地利用人工智能、機(jī)器學(xué)習(xí)等方法,進(jìn)一步去尋找更多更好的模型,不斷更新完善量化投資模型。