石喆瑞
股票市場是當前最重要的金融市場之一,股票價格的變動及預測是投資者在股票市場關(guān)注的焦點。本文基于另類數(shù)據(jù)的角度對股票預測的影響做出闡述,首先明確本文主要從另類數(shù)據(jù)的三個來源:個人數(shù)據(jù)、商業(yè)數(shù)據(jù)、檢測工具獲取的數(shù)據(jù),進而闡述另類數(shù)據(jù)對股票預測的影響。現(xiàn)有國內(nèi)外研究表明三類數(shù)據(jù)在不同程度上對股票預測都有影響,個人數(shù)據(jù)對股票預測的影響更顯著,其中投資者情緒對股票預測有直接影響;商業(yè)數(shù)據(jù)可提供銷售數(shù)據(jù)、信用數(shù)據(jù)等對股票市場有間接預測作用;檢測工具數(shù)據(jù)更側(cè)重對企業(yè)運營情況做分析來影響股價變動。但另類數(shù)據(jù)存在噪音大、顯著性不足及由于另類數(shù)據(jù)在我國仍處于發(fā)展階段,缺少相關(guān)法律監(jiān)管等問題。
股票價格一直都是股票市場關(guān)注的焦點,能夠精準預測股價或者變動趨勢一直都是量化投資研究的熱門方向。任何理性投資者都希望在購買股票時做出最佳決策,以達到自身利潤的最大化。股票預測可以幫助投資者做出最優(yōu)決策,降低風險,從而獲得投資收益。較為精準地獲取實時數(shù)據(jù)掌握股價變動趨勢、準確地預測出股價對股票投資者尤為重要。目前股票預測的研究多數(shù)集中在如何提高模型的精準度上,常采用股票市場的歷史數(shù)據(jù)預測股價的運動趨勢。例如傳統(tǒng)時間序列模型往往基于日度、周度或月度歷史數(shù)據(jù)對股價走勢進行預測,但是預測效果一般。同時傳統(tǒng)的股票數(shù)據(jù)具有數(shù)據(jù)量大、非線性、復雜性等特征,因此傳統(tǒng)的預測方法具有局限性,并不能適應(yīng)股票市場的復雜變化。
科技的進步以及大數(shù)據(jù)技術(shù)在金融領(lǐng)域的使用促使傳統(tǒng)金融機構(gòu)紛紛投入到新技術(shù)改革與新模式探究當中,這為另類數(shù)據(jù)的出現(xiàn)和使用營造了良好的環(huán)境條件。同時現(xiàn)階段新技術(shù)的發(fā)展能提供更多有效信息且區(qū)別于傳統(tǒng)數(shù)據(jù)的另類數(shù)據(jù)逐漸引起人們重視。目前相關(guān)研究表明,另類數(shù)據(jù)對股票預測有影響。行為金融學理論及其發(fā)展證明了情感傾向會影響股市波動。普遍采用的傳統(tǒng)數(shù)據(jù)廣泛應(yīng)用于金融領(lǐng)域,但很難出現(xiàn)新的優(yōu)勢。另類數(shù)據(jù)提供的信息往往能更好地被投資者所接受,作為傳統(tǒng)數(shù)據(jù)的補充對股票預測的影響有重大意義。
本文對另類數(shù)據(jù)對股票預測的影響進行綜述,主要從個人數(shù)據(jù)、商業(yè)數(shù)據(jù)、檢測工具獲取的數(shù)據(jù)三種不同角度的另類數(shù)據(jù),分別對股票預測的影響來展開論述。但由于另類數(shù)據(jù)發(fā)展較晚,在應(yīng)用與探索方面仍處于起步狀態(tài),因此對股票預測的影響方面的實證研究較少,所以在相關(guān)另類數(shù)據(jù)的的闡述中略顯不足。
一、另類數(shù)據(jù)概述
(一)另類數(shù)據(jù)的定義
另類數(shù)據(jù)又稱代替數(shù)據(jù),最早出現(xiàn)在美國征信行業(yè),是指區(qū)分于傳統(tǒng)金融數(shù)據(jù)對投資者實施投資有價值、有益的信息數(shù)據(jù)。傳統(tǒng)金融數(shù)據(jù)有公司的財務(wù)報表、政府披露的宏觀經(jīng)濟指標等。隨著科技的發(fā)展,一些非傳統(tǒng)數(shù)據(jù),例如某區(qū)域的天氣情況、某消費者的消費記錄、某投資者在社交媒體公開發(fā)表的言論等也逐漸引起人們的關(guān)注。
另類數(shù)據(jù)的特點是體積大、流動速度快、種類多。體積大體現(xiàn)為規(guī)模和數(shù)據(jù)傳輸量。另類數(shù)據(jù)產(chǎn)生的速度驚人,導致另類數(shù)據(jù)的規(guī)模和傳輸量很大;流動速度體現(xiàn)在獲取數(shù)據(jù)的速度上。通常傳統(tǒng)數(shù)據(jù)因有披露的過程導致時間周期較長,獲得的信息也相對滯后。相比之下,實時或接近實時獲取和傳輸?shù)牧眍悢?shù)據(jù)有著更強的即時性。所以在不考慮準確性的前提下,獲取另類數(shù)據(jù)的速度是相當快速的,種類多體現(xiàn)在數(shù)據(jù)結(jié)構(gòu)多樣性。例如另類數(shù)據(jù)有圖片、音頻、數(shù)值、視頻以及文本數(shù)據(jù)等多種式。
(二)另類數(shù)據(jù)的分類
目前金融領(lǐng)域應(yīng)用的另類數(shù)據(jù)尚未有統(tǒng)一的標準,本文將另類數(shù)據(jù)按來源分成三類,分別是個人活動產(chǎn)生的數(shù)據(jù)、商業(yè)活動產(chǎn)生的數(shù)據(jù)、檢測工具獲取的數(shù)據(jù)。個人數(shù)據(jù)泛指個人與外界發(fā)生聯(lián)系的過程中產(chǎn)生的數(shù)據(jù),例如社交網(wǎng)絡(luò)信息、產(chǎn)品信息、搜索記錄、購物喜好等。商業(yè)活動產(chǎn)生的數(shù)據(jù)泛指在進行商業(yè)活動過程中產(chǎn)生的數(shù)據(jù),例如物流數(shù)據(jù)、支付數(shù)據(jù)。也有另類數(shù)據(jù)公司采集的傳統(tǒng)商業(yè)數(shù)據(jù),如百貨公司客流量、游樂場客流量等數(shù)據(jù)。檢測工具獲取的數(shù)據(jù)泛指通過衛(wèi)星、燈光、天氣等物理設(shè)備或方法采集的數(shù)據(jù),例如利用衛(wèi)星數(shù)據(jù)通過光感和熱感采集工廠的開工、采集、運輸情況。此外還有來自衛(wèi)星定位、車輛軌跡采集的另類數(shù)據(jù)。
二、另類數(shù)據(jù)對股票預測的影響
(一)個人數(shù)據(jù)對股票預測的影響
情感分析對于股票預測的影響可以從宏觀與微觀兩個方向進行研究,宏觀多數(shù)指新聞層面的報道等,微觀多數(shù)指個體在相關(guān)論壇發(fā)表的言論以及各種演講等。個人數(shù)據(jù)可以幫助測算投資者情緒,即在微觀層面對股票預測的影響,例如基于投資者交流帖子是通過文本數(shù)據(jù)中情感詞匯進行識別和掃描提取了投資者情感;基于東方財富論壇的評論信息經(jīng)過分詞、去停用詞等操作,利用RoBERTa 模型對文本數(shù)據(jù)進行特征提取,得出每日情感特征;基于新浪股吧等股票論壇的數(shù)據(jù),結(jié)合文本分析及機器學習算法,構(gòu)建互聯(lián)網(wǎng)投資者情緒指標。此外,利用在線評論信息反映公司口碑來預測股價。Huang等人利用亞馬遜網(wǎng)站的2004~2015年的640萬消費者的1450多萬條消費者評價信息進行研究,結(jié)果表明這些評價包含與公司未來現(xiàn)金流和股票收益相關(guān)的信息,能夠為股票預測提供有價值的信息。
個人數(shù)據(jù)結(jié)合機器學習模型預測股價,提高了股票預測的效率。趙帥斌等人研究發(fā)現(xiàn)通過交流帖子得到的投資者情緒,使用投資者情緒增加模型輸入新特征,實證表明引入投資者情緒的股價預測模型可以更好地預測股票市場走勢。嚴冬梅等人的研究表明融合情感特征的預測模型可以提高股票預測的效果。Kanavos等人通過處理Twitter中的每日交流帖子獲得公眾情緒,結(jié)合卷積長短期記憶人工神經(jīng)網(wǎng)絡(luò)(Convolutional LSTM,Cnov-LSTM),研究發(fā)現(xiàn)在Twitter獲得的情緒數(shù)據(jù)能預測特定股票價格的走勢。許天陽基于新浪股吧的在線股評信息利用VAR模型、Granger因果檢驗以及FF四因子模型等方法得出短期內(nèi)投資者情緒對股市有一定的預測作用。
利用個人數(shù)據(jù)測算的投資者情緒具有一定的時效性,同時情感特征具有一定的時間性?,F(xiàn)有研究表明在一定時間內(nèi)較長時間的情感均值可以更好地預測股票價格走勢,一旦超過區(qū)間預測結(jié)果就會有所下降,并非使用更長時間的情感均值對股價的預測效果有正面效應(yīng)。有相關(guān)研究表明,利用測算的交易日天數(shù)不易太長,通常使用前5~10個交易日情感均值預測效果較好。同時現(xiàn)有研究表明,雖然在短期內(nèi)投資者情緒對股市有一定的預測作用,但證券市場走勢很快便會反轉(zhuǎn)回落。
(二)商業(yè)活動產(chǎn)生的數(shù)據(jù)對股票預測的影響
商業(yè)活動產(chǎn)生的數(shù)據(jù)通過公司銷售情況對股票預測產(chǎn)生影響。Sumit Agarwa等人利用美國上市公司的信用卡消費記錄數(shù)據(jù)研究表明分類銷售提供了客戶需求,同時與一個公司的股票定價相關(guān)。研究者對來自高FICO(美國個人信用評級)得分、高流動性和忠誠客戶的支出有更強的回報反應(yīng)。分類銷售信息的傳輸速度比收益信息的傳輸速度要慢,而小公司或遠離其終端客戶的公司表現(xiàn)出更延遲的價格反應(yīng),調(diào)整后的客戶支出的回報影響延伸到生產(chǎn)鏈上的公司。王正位等人研究表明,我國A股市場的線上銷售數(shù)據(jù)具有投資價值。股票價格不能對線上銷售數(shù)據(jù)中信息作出迅速反應(yīng),該信息沒有及時納入股票價格中。實時獲取線上銷售數(shù)據(jù)并利用其信息可預測未來股價收益并取得超額收益。廖理等人基于電商銷售數(shù)據(jù)研究表明,財務(wù)信息透明度更高和投資者關(guān)注度更低的公司,往往對股價具有更強預測能力。
(三)檢測工具獲取的數(shù)據(jù)
衛(wèi)星數(shù)據(jù)通過反應(yīng)公司運營情況間接影響股票預測。相關(guān)科技公司為獲取企業(yè)開工的真實情況,通過衛(wèi)星遙感技術(shù)獲取夜光數(shù)據(jù)和溫度數(shù)據(jù),掌握企業(yè)開工實時數(shù)據(jù),顯著降低造假風險;遙感衛(wèi)星技術(shù)獲取地面可見光數(shù)據(jù)以此分析地面人類活動情況,夜晚照明情況的夜光數(shù)據(jù)可以輔助追蹤企業(yè)的經(jīng)營活動。Katona等人利用美國零售店停車場的衛(wèi)星圖像數(shù)據(jù),發(fā)現(xiàn)停車廠的汽車數(shù)量能反映公司運營狀況進而能夠預測公司基本面和股價。目前我國檢測工具獲取的數(shù)據(jù)還可以應(yīng)用在測算出庫存情況,例如礦石庫存情況等進而為股票市場提供有效的信息。
天氣數(shù)據(jù)通過間接影響投資者情緒從而影響股票預測。早在1998年我國學者就曾研究過天氣與股價的關(guān)系,例如林建生研究表明天氣不錯是會影響股價的,但影響效果相對微弱。有研究者利用沙塵暴數(shù)據(jù)研究表明,沙塵天氣的發(fā)生通過影響投資者情緒從而對股價產(chǎn)生影響,對于防沙治沙環(huán)保型企業(yè)產(chǎn)生正向影響,對污染型企業(yè)產(chǎn)生負面影響。Nana等人基于股票交易城市日AQI和雪球網(wǎng)站用戶評論情緒數(shù)據(jù)利用GARCH模型進行實證分析,研究表明空氣質(zhì)量可以通過影響投資者情緒來影響股市。Donadelli等人利用風暴事件數(shù)據(jù)庫的龍卷風地理參考數(shù)據(jù)結(jié)合VAR模型研究表明,龍卷風對當?shù)鼐用袷杖胗杏绊?,同時股票收益有滯后的負面影響,但只是部分部門會受此影響。
此外,仍有其他檢測工具獲取的數(shù)據(jù)對股票預測的影響。例如Thasos公司曾監(jiān)控特斯拉工廠員工手機實時位置數(shù)據(jù)分析特斯拉的股票情況,該企業(yè)將獲得的手機信號數(shù)量預測特斯拉量產(chǎn),并通過量產(chǎn)與銷售狀況等數(shù)據(jù)預測特拉斯的股票價格。
三、另類數(shù)據(jù)的不足之處
盡管目前相關(guān)方向的實證研究大部分都是顯著的,但仍有不足之處。關(guān)于另類數(shù)據(jù)的不足之處主要體現(xiàn)在噪音大和顯著性不足兩個方面。噪音是指在事后證實是錯誤的信息。噪音大體現(xiàn)在有研究者在利用另類數(shù)據(jù)進行研究時發(fā)現(xiàn),即使應(yīng)用更先進的算法,但文本分析后仍有較大的噪音;社交媒體中個人發(fā)布的信息往往帶有更強烈的主觀色彩,容易造成較低的信噪比。顯著性問題與定價因子相關(guān),顯著性水平是否顯著與新定價因子與以往的定價因子是否相關(guān)有關(guān),相關(guān)性越低,所使用的相關(guān)定價因子越顯著。
另類數(shù)據(jù)的監(jiān)管問題目前被人們廣泛關(guān)注。由于監(jiān)管體制的不完善,數(shù)據(jù)的獲取、加工、使用等環(huán)節(jié)缺少相關(guān)法律的約束,數(shù)據(jù)泄露和不當使用的案例也時有發(fā)生。如果數(shù)據(jù)經(jīng)不當獲取或非法使用,將對個人隱私以及商業(yè)信息的安全問題產(chǎn)生威脅,甚至對國家層面安全產(chǎn)生威脅。未來對另類數(shù)據(jù)的獲取、使用等環(huán)節(jié)進行立法規(guī)制是相當有必要的。
結(jié)語:
文本主要基于另類數(shù)據(jù)對股票預測的影響進行闡述。主要從另類數(shù)據(jù)來源的三個方面,個人數(shù)據(jù)、商業(yè)活動獲取的數(shù)據(jù)以及檢測工具獲取的數(shù)據(jù)來綜述另類數(shù)據(jù)對股票預測的影響。相關(guān)研究顯示個人數(shù)據(jù)對股票價格預測有更顯著的影響,投資者情緒尤其可能是解釋股票價格波動的重要因素之一。融合情感特征的股價預測模型比傳統(tǒng)預測模型更有效,采用個人數(shù)據(jù)作為傳統(tǒng)數(shù)據(jù)的補充對股票市場有更顯著的預測能力;商業(yè)活動數(shù)據(jù)可提供交易的信用水平、經(jīng)濟指數(shù)、實時獲取的銷售數(shù)據(jù)等對股票市場具有預測作用;檢測工具獲取的數(shù)據(jù)可提供遙感衛(wèi)星紅外成像輻射儀數(shù)據(jù)、夜光數(shù)據(jù)、溫度數(shù)據(jù)掌握企業(yè)運營情況,進而對股票市場做出預測。但另類數(shù)據(jù)仍存在噪音大、顯著性不足,以及由于我國另類數(shù)據(jù)還處于發(fā)展階段缺少相關(guān)法律約束等問題,這是我們未來需要解決的問題。
另類數(shù)據(jù)逐漸走入大眾視野,成為新時代經(jīng)濟活動中新的生產(chǎn)要素、支柱產(chǎn)業(yè)。高科技監(jiān)測手段也面臨各種挑戰(zhàn),比如衛(wèi)星監(jiān)測中不同地點的云層覆蓋對圖像精確度的影響。這些圖像和信息往往需要經(jīng)過復雜的加工步驟。除了衛(wèi)星圖像以外,其他監(jiān)測工具如無人機、熱像儀、手機地理定位等,也可能獲取對投資決策、股票預測有用的信息,另類數(shù)據(jù)對股票預測的影響仍可以從這個角度進行分析。
在目前大數(shù)據(jù)迅速發(fā)展的背景下,另類數(shù)據(jù)在金融領(lǐng)域表現(xiàn)出獨特的信息價值,受到越來越多從業(yè)者的重視。目前有些企業(yè)已經(jīng)開始率先使用另類數(shù)據(jù),這將對信息不對稱有所影響。但由于目前另類數(shù)據(jù)發(fā)展較晚,在應(yīng)用與探索方面仍處于起步狀態(tài),對股票預測的影響方面的實證研究較少,所以在相關(guān)另類數(shù)據(jù)對股票預測影響的闡述中略顯不足。