徐雨迪
(南京審計(jì)大學(xué),江蘇 南京 211815)
波動(dòng)率是衡量股市風(fēng)險(xiǎn)的重要指標(biāo),國(guó)內(nèi)外學(xué)者一直致力于研究如何刻畫及預(yù)測(cè)市場(chǎng)波動(dòng)率。 有大量文獻(xiàn)基于股票市場(chǎng)的歷史數(shù)據(jù)或金融市場(chǎng)現(xiàn)有的指數(shù)來預(yù)測(cè)股市波動(dòng),雖然研究取得了一定的成果,但預(yù)測(cè)能力一直得不到很大的提升,而互聯(lián)網(wǎng)的出現(xiàn)和興起,為股市波動(dòng)預(yù)測(cè)領(lǐng)域的研究提供了新的方向。 在網(wǎng)絡(luò)時(shí)代,社交媒體既是信息傳播的重要媒介,也是投資者的重要信息來源渠道。 越來越多的投資者在社交媒體平臺(tái)上發(fā)表自己對(duì)當(dāng)前股市的看法、通過網(wǎng)絡(luò)搜索獲取信息等,產(chǎn)生了大量具有極大研究?jī)r(jià)值的網(wǎng)絡(luò)信息。 這些信息中往往包含投資者對(duì)股市的看法和未來投資計(jì)劃,由此通過這一類型的社交媒體信息來了解投資者的未來的投資行為,進(jìn)而對(duì)股票波動(dòng)進(jìn)行預(yù)測(cè)是一條行之有效的路徑。 這一方面能夠引導(dǎo)投資者客觀認(rèn)識(shí)自身存在的認(rèn)知偏差,避免盲目跟風(fēng)的同時(shí),做好風(fēng)險(xiǎn)管理;另一方面,能夠?yàn)橥晟乒善笔袌?chǎng)的運(yùn)行機(jī)制、制定監(jiān)管政策提供思路。
過去市場(chǎng)波動(dòng)率的研究大多基于GARCH 族和SV 族模型。 但GARCH 模型和SV 提供的是低頻波動(dòng)率,這種估計(jì)往往不夠精確,會(huì)包含大量的噪聲。為了解決這種估計(jì)的偏差,Andersen 等首次在高頻數(shù)據(jù)的基礎(chǔ)上提出了已實(shí)現(xiàn)波動(dòng)率,是對(duì)日高頻收益率的某種范式的直接加總。 在對(duì)已實(shí)現(xiàn)波動(dòng)的研究中,波動(dòng)率的預(yù)測(cè)占據(jù)著核心的位置。 Blair等、Koopman 等將已實(shí)現(xiàn)波動(dòng)率引入 GARCH模型和SV 模型中發(fā)現(xiàn),新構(gòu)建的模型能顯著提高對(duì)波動(dòng)率的預(yù)測(cè)能力。 Corsi基于異質(zhì)市場(chǎng)假說,定義短、中、長(zhǎng)期波動(dòng),構(gòu)建異質(zhì)自回歸已實(shí)現(xiàn)波動(dòng)率模型,實(shí)證結(jié)果表明HAR-RV 模型對(duì)未來波動(dòng)的預(yù)測(cè)能力明顯優(yōu)于GARCH、SV 等波動(dòng)率模型。 在HAR-RV 模型之后,許多學(xué)者在此基礎(chǔ)上提出了擴(kuò)展模型。 如Andersen 等基于多種跳躍統(tǒng)計(jì)檢驗(yàn)方法,建立了 HAR-RV-J 和 HAR-RV-CJ 模型,證實(shí)了分離已實(shí)現(xiàn)波動(dòng)可以提高HAR-RV 模型的預(yù)測(cè)表現(xiàn)。 還有學(xué)者基于股票市場(chǎng)的歷史交易數(shù)據(jù)或金融市場(chǎng)現(xiàn)有的指數(shù),對(duì)HAR 模型進(jìn)行改進(jìn)。 如馬鋒等引入隔夜收益、劉曉倩等引入中國(guó)波指,有效提升了HAR 類模型的預(yù)測(cè)能力。
國(guó)內(nèi)外學(xué)者關(guān)于市場(chǎng)波動(dòng)率模型的研究已十分豐富,但均是基于市場(chǎng)交易的歷史數(shù)據(jù)來研究和預(yù)測(cè)未來市場(chǎng)波動(dòng)率。 隨著行為金融學(xué)的興起,定量化研究社交媒體信息,并進(jìn)一步研究其對(duì)市場(chǎng)的影響成為新的研究熱點(diǎn)。 互聯(lián)網(wǎng)的普及,使得微博、Twitter、股吧等社交媒體成為用戶發(fā)表觀點(diǎn)和交流互動(dòng)的主要平臺(tái),這從根本上改變了股票市場(chǎng)的信息結(jié)構(gòu)。 這些平臺(tái)上的網(wǎng)絡(luò)信息一般不會(huì)在股市交易數(shù)據(jù)中得到反映,卻蘊(yùn)含著對(duì)股市運(yùn)行有顯著解釋力的有效信息。 基于此,大量學(xué)者運(yùn)用社交媒體信息構(gòu)建在線情緒代理,從而對(duì)股票波動(dòng)進(jìn)行研究。
Da 等首次運(yùn)用Google 股票代碼的搜索量,發(fā)現(xiàn)搜索量會(huì)對(duì)股價(jià)產(chǎn)生影響。 同樣,Dimpfl 等和Kim 等引入Google 搜索量,發(fā)現(xiàn)搜索量與波動(dòng)率之間的走勢(shì)方向具有一定的一致性,搜索量對(duì)未來股市波動(dòng)性有一定的預(yù)測(cè)能力。 歐陽(yáng)資生等運(yùn)用百度搜索量,揭示了搜索量與滬深兩股市波動(dòng)性之間存在很強(qiáng)的相關(guān)性,歷史搜索量將有助于提升模型的波動(dòng)率預(yù)測(cè)效果。 除了搜索引擎,還有投資者能夠自由發(fā)表觀點(diǎn)、交流互動(dòng)的各種股票論壇,論壇上的帖子能夠非常直接地反映投資者的看法和情緒。 Li 等運(yùn)用Twitter 上的帖子信息構(gòu)建在線情緒,研究發(fā)現(xiàn)當(dāng)日的在線情緒對(duì)三天后的股市具有更好的預(yù)測(cè)性能。 尹海員和吳興穎發(fā)現(xiàn)金融界論壇發(fā)帖信息中的投資者情緒能正向預(yù)測(cè)股票市場(chǎng)運(yùn)行。 Audrino 等使用來自 Twitter 和Stock Twits 的文本信息構(gòu)建在線情緒,發(fā)現(xiàn)情緒變量能夠顯著提高波動(dòng)性預(yù)測(cè)準(zhǔn)確度。 還有學(xué)者發(fā)現(xiàn)投資者主要借助新聞媒體來幫助他們處理信息并決定信息的重要程度。 Moussa 等采用Factiva 數(shù)據(jù)庫(kù)的新聞標(biāo)題構(gòu)建在線情緒,發(fā)現(xiàn)公司特有市場(chǎng)信息會(huì)對(duì)股票波動(dòng)產(chǎn)生影響。 Atkins 等發(fā)現(xiàn),當(dāng)使用財(cái)務(wù)新聞作為機(jī)器學(xué)習(xí)算法的輸入時(shí),能提高波動(dòng)性的預(yù)測(cè)。 王曉丹等發(fā)現(xiàn)從互聯(lián)網(wǎng)新聞媒體發(fā)布的信息中提取的關(guān)注和情感指標(biāo)對(duì)我國(guó)市場(chǎng)運(yùn)行有一定的影響。
綜上所述,目前國(guó)內(nèi)外學(xué)者的研究已經(jīng)證實(shí)由社交媒體信息構(gòu)建的在線情緒代理包含股票市場(chǎng)運(yùn)行的相關(guān)信息,但以往的研究基本上使用單一的數(shù)據(jù)源構(gòu)建在線情緒代理,鮮有學(xué)者深入探討不同社交媒體源構(gòu)建的在線情緒代理在對(duì)股票市場(chǎng)的影響上,以及對(duì)未來市場(chǎng)波動(dòng)預(yù)測(cè)包含的信息上是否存在差異。 此外,股市周末休市期間,社交媒體仍然在產(chǎn)生新的信息,較少學(xué)者將周末在線情緒納入研究當(dāng)中。 只有進(jìn)一步解決上述問題,才能更好地進(jìn)行股票波動(dòng)預(yù)測(cè)的研究,這也會(huì)使得本研究更具實(shí)踐意義。 基于此,本文選取上海和深圳證券交易所的A 股作為研究對(duì)象,通過收集社交媒體的數(shù)據(jù)構(gòu)建不同類別的在線情緒代理,然后構(gòu)建控制周一效應(yīng)的HAR_M 模型,并將在線情緒代理引入構(gòu)建擴(kuò)展HAR_M 模型,通過比較新舊模型預(yù)測(cè)精度的差異研究在線情緒代理對(duì)股票波動(dòng)額外的預(yù)測(cè)能力。
本文從上海和深圳證券交易所A 股市場(chǎng)中隨機(jī)選取了300 只股票,以2011 年1 月1 日至 2019年12 月31 日所選股票5 分鐘高頻數(shù)據(jù)作為研究樣本。 選擇上述研究樣本基于以下考慮:①2011 年至2019 年跨越了較長(zhǎng)樣本期,涵蓋了中國(guó)股票市場(chǎng)相對(duì)完整的牛熊市波動(dòng)周期;②上交所和深交所A 股市場(chǎng)存在大量的散戶投資者,其行為更可能受到在線情緒的影響。 股票數(shù)據(jù)來源于Wind 數(shù)據(jù)庫(kù),社交媒體數(shù)據(jù)來源于中國(guó)研究數(shù)據(jù)服務(wù)平臺(tái)(CNRDS),包括報(bào)刊財(cái)經(jīng)新聞相關(guān)數(shù)據(jù)、網(wǎng)絡(luò)新聞相關(guān)數(shù)據(jù)、上市公司股票代碼網(wǎng)絡(luò)搜索指數(shù)和股吧相關(guān)數(shù)據(jù)。 使用R 作為數(shù)據(jù)分析工具。
考慮到周末股市停盤而社交媒體仍然在產(chǎn)生新的信息,這些信息也是投資者做出決策的重要參考,從而會(huì)對(duì)未來股市波動(dòng)產(chǎn)生影響,造成股市的周一效應(yīng),為此本文在處理數(shù)據(jù)時(shí),將周末的社交媒體信息累加到周五的信息上,使得周末的在線信息能夠被充分利用。
1. 已實(shí)現(xiàn)波動(dòng)率
根據(jù)Andersen 和Bollerslev 對(duì)已實(shí)現(xiàn)波動(dòng)率的計(jì)算方法,將交易日t
分割為N
段,P
為交易日t
中第i
個(gè)股價(jià),i
=1,…,N
。 令r
為交易日t
內(nèi)第i
時(shí)段的對(duì)數(shù)收益率,r
=100×(lnP
-lnP
)。 上交所和深交所上午的交易時(shí)間為 9∶30 ~11∶30,下午的交易時(shí)間為 13∶00~15∶00,在 5 分鐘的采樣頻率下,每個(gè)交易日共有48 個(gè)樣本點(diǎn)(不含開盤價(jià)),因此通過求解48 個(gè)5 分鐘收益的平方和來計(jì)算已實(shí)現(xiàn)波動(dòng)率。 已實(shí)現(xiàn)波動(dòng)率(RV)可以表示為:2. 在線情緒代理
(1)新聞。 新聞相關(guān)數(shù)據(jù)包括與股票相關(guān)的每日積極和消極的報(bào)刊財(cái)經(jīng)新聞數(shù)量,其中報(bào)刊財(cái)經(jīng)新聞來源于國(guó)內(nèi)400 多個(gè)主要金融媒體,基本上能覆蓋投資者瀏覽和關(guān)注的大部分新聞。 本文借鑒Lin 等的研究,根據(jù)新聞的情感分類,構(gòu)建新聞情緒(NBI):
再根據(jù)每日與股票相關(guān)的新聞總數(shù)量構(gòu)建新聞關(guān)注(NAT):
i
在t
時(shí)新聞總數(shù)量。(2)股吧。 股吧是投資者分享股市相關(guān)信息、發(fā)表觀點(diǎn)和看法并交換投資經(jīng)驗(yàn)的互動(dòng)平臺(tái),其中的帖子反映了股市中大部分投資者的心理。 本文根據(jù)股吧帖子的情感分類,匯總每日每只股票的積極和消極股吧帖子數(shù),構(gòu)建股吧情緒(PBI):
再根據(jù)每日的股吧帖子數(shù)量構(gòu)建股吧關(guān)注:
i
在t
時(shí)帖子數(shù)。(3)搜索引擎。 本文選取上市公司股票代碼網(wǎng)絡(luò)搜索量構(gòu)建投資者關(guān)注(SVI)。 為了避免出現(xiàn)異方差的問題,對(duì)其進(jìn)行對(duì)數(shù)處理:
i
在t
時(shí)的股票代碼搜索量。3. 周一效應(yīng)
由于周末的信息會(huì)對(duì)周一股市產(chǎn)生影響,為此本文構(gòu)建周一虛擬變量Monday,用以控制股市波動(dòng)中的周一效應(yīng),即交易日為周一取1,其他取值為0。收集相關(guān)變量數(shù)據(jù)后,本文對(duì)數(shù)據(jù)進(jìn)行描述性統(tǒng)計(jì)分析,具體結(jié)果見表1。
從表1 可知,股吧情緒和新聞情緒的描述性統(tǒng)計(jì)類似,在樣本期內(nèi),均值約為0.2,內(nèi)部標(biāo)準(zhǔn)差都大于股票之間標(biāo)準(zhǔn)差。 對(duì)關(guān)注在線關(guān)注指數(shù)(股吧關(guān)注、新聞關(guān)注和投資者關(guān)注),均值差異較大。 這說明不同社交媒體的情緒類似,關(guān)注差異大。
表1 主要變量描述性統(tǒng)計(jì)
表2 為樣本中每只股票的相關(guān)變量之間的成對(duì)同期Pearson 相關(guān)性,可以看出各變量之間均存在一定的相關(guān)性。
表2 主要變量的相關(guān)系數(shù)
根據(jù)波動(dòng)率所具有的長(zhǎng)記憶性,本文使用異質(zhì)自回歸(HAR)模型作為預(yù)測(cè)模型。 基準(zhǔn)HAR 模型由下式給出:
p
值均小于0.05,說明隨機(jī)效應(yīng)模型的假設(shè)無(wú)法滿足,個(gè)體效應(yīng)與回歸變量是相關(guān)的,所以采用固定效應(yīng)模型比較合適。 因此,本文對(duì)模型(1)和(2)進(jìn)行控制個(gè)體固定效應(yīng)的面板數(shù)據(jù)回歸,回歸結(jié)果見表3。表3 基準(zhǔn)模型回歸結(jié)果
續(xù)表
從表3 可以發(fā)現(xiàn):①M(fèi)onday 變量的系數(shù)顯著為正,股市波動(dòng)存在顯著的周一效應(yīng),這是由周末各種信息積累造成的;②綜合模型的擬合優(yōu)度R
可知,控制周一效應(yīng)的HAR_M 模型的擬合能力要優(yōu)于HAR 模型。 綜上可知,控制周一效應(yīng)的HAR_M 模型要優(yōu)于傳統(tǒng)的HAR 模型。考慮日和周平均的在線情緒對(duì)未來一日股市波動(dòng)的影響,本文將在線情緒代理分別引入HAR_M_media 模型:
表4 樣本內(nèi)回歸結(jié)果
從表4 可以發(fā)現(xiàn),在線情緒代理均會(huì)對(duì)股票波動(dòng)產(chǎn)生顯著影響,具體來看除了周平均新聞、股吧和投資者關(guān)注對(duì)股票波動(dòng)的影響存在反轉(zhuǎn)效應(yīng)外,在線情緒均對(duì)股市波動(dòng)產(chǎn)生顯著的正向影響,這可能是由于過度關(guān)注引起的。 綜合模型的擬合優(yōu)度R
可知,在線情緒代理變量的引入均在不同程度上提高了模型預(yù)測(cè)的準(zhǔn)確度,說明在線情緒的引入有助于改善對(duì)未來波動(dòng)率的預(yù)測(cè)效果。上文驗(yàn)證了在線情緒變量的引入有助于改善對(duì)未來波動(dòng)的預(yù)測(cè)效果,本節(jié)進(jìn)一步研究在線情緒代理對(duì)股票波動(dòng)的樣本外預(yù)測(cè)能力及差異。 基于此,本文在HAR_M 模型的基礎(chǔ)上分別引入來自新聞、股吧和搜索引擎的在線情緒變量集,以研究不同類別在線情緒對(duì)股票波動(dòng)的預(yù)測(cè)能力,具體的擴(kuò)展HAR_M 模型如下。
為研究股吧在線情緒對(duì)股票波動(dòng)的預(yù)測(cè)價(jià)值,在HAR_M 模型的基礎(chǔ)上引入日和周平均的股吧情緒和關(guān)注,構(gòu)建HAR_M_Posts:
為研究新聞在線情緒對(duì)股票波動(dòng)的預(yù)測(cè)價(jià)值,在HAR_M 模型的基礎(chǔ)上引入日和周平均的新聞情緒和新聞關(guān)注,構(gòu)建HAR_M_Online:
為研究搜索引擎在線情緒對(duì)股票波動(dòng)的預(yù)測(cè)價(jià)值,在HAR_M 模型的基礎(chǔ)上引入日和周平均的投資者關(guān)注,構(gòu)建HAR_M_Searching:
對(duì)模型運(yùn)用“滑動(dòng)時(shí)間窗”的樣本外預(yù)測(cè)方法,具體如下。 以2011 年 1 月 1 日至 2012 年 12 月 31日為訓(xùn)練窗口期,用訓(xùn)練窗口期數(shù)據(jù)訓(xùn)練的模型進(jìn)行未來20 天的預(yù)測(cè)。 然后保持訓(xùn)練窗口的長(zhǎng)度不變,將訓(xùn)練窗口向前移動(dòng)20 天,再次進(jìn)行未來20 天的預(yù)測(cè)。 通過在整個(gè)樣本期間重復(fù)滾動(dòng)訓(xùn)練窗口,并且進(jìn)行未來20 天的預(yù)測(cè),獲得了2013 年1 月1日至2019 年12 月31 日的滾動(dòng)預(yù)測(cè)數(shù)據(jù)。 本文用均方百分比誤差(MSPE)和平均絕對(duì)百分比誤差(MAPE)作為判斷模型預(yù)測(cè)精度的標(biāo)準(zhǔn),定義如下:
HAR_M 類模型的樣本外預(yù)測(cè)性能列在表5 中。上部面板列出的是2013 年至2019 年 MSPE 值,下部面板列出的是2013 年至2019 年MSAE 值。
從表5 可知:①與HAR_M 模型相比,HAR_M_Online 和 HAR_M_Posts 模型的 MSPE 和 MSAE 降低的年份較少,而HAR_M_Searching 幾乎所有年份的MSPE 和MSAE 都有降低。 這表明,在對(duì)股票波動(dòng)的預(yù)測(cè)上,新聞和股吧在線情緒的額外預(yù)測(cè)能力微弱,搜索引擎的額外預(yù)測(cè)能力最強(qiáng)。 ②三種在線情緒同時(shí)引入時(shí)的HAR_M_Media 模型的預(yù)測(cè)性能最好,這表明三種在線情緒在對(duì)股票波動(dòng)預(yù)測(cè)上有互補(bǔ)價(jià)值。
表5 HAR_M 類模型樣本外預(yù)測(cè)結(jié)果
本文借鑒Davydenko 等提出的平均相對(duì)平均絕對(duì)誤差(AvgRelMAE)和平均相對(duì)均方誤差(AvgRelMSE),以評(píng)估引入不同類型在線情緒代理的不同模型之間的相對(duì)波動(dòng)性預(yù)測(cè)精度來進(jìn)一步檢驗(yàn)實(shí)證結(jié)果的穩(wěn)健性。 定義如下:
本文使用HAR_M 模型作為計(jì)算AvgRelMSE 和AvgRelMAE 的基線模型,若 AvgRelMSE 和 AvgRel-MAE 小于1,說明擴(kuò)展模型提高了基線模型的預(yù)測(cè)性能。 HAR_M 類模型的滾動(dòng)預(yù)測(cè)相對(duì)性能見表6。
表6 HAR_M 類模型相對(duì)預(yù)測(cè)性能
從表6 可以看出,擴(kuò)展HAR_M 模型的AvgRelMSE和AvgRelMAE 均小于1,其中 HAR_M_Media 的值最小,其次是HAR_M_Searching,再是 HAR_M_Online 和HAR_M_Posts,可以得出與上文一致的結(jié)論。
本文選取上海和深圳證券交易所的A 股作為研究對(duì)象,通過收集三種社交媒體的數(shù)據(jù)(搜索引擎、股吧和新聞媒體)構(gòu)建不同類別的在線情緒代理,以HAR_M 模型為基線模型,并將在線情緒代理引入基線模型構(gòu)建擴(kuò)展HAR_M 模型,通過比較HAR_M 類預(yù)測(cè)精度的差異研究在線情緒代理對(duì)股票波動(dòng)額外的預(yù)測(cè)能力。 研究結(jié)果表明:①股市波動(dòng)存在周一效應(yīng),周末信息會(huì)對(duì)周一股市波動(dòng)產(chǎn)生顯著的正向沖擊,且控制周一效應(yīng)的HAR_M 模型優(yōu)于傳統(tǒng)HAR 模型;②來源于新聞、股吧和搜索引擎的在線情緒代理均包含對(duì)股票波動(dòng)的預(yù)測(cè)信息,其中來源于搜索引擎的變量包含的預(yù)測(cè)信息最多,其次是新聞,最后是股吧;③三種在線情緒在對(duì)股票波動(dòng)的預(yù)測(cè)上有互補(bǔ)價(jià)值,三種在線情緒一起引入預(yù)測(cè)模型時(shí),模型的預(yù)測(cè)性能最好。
本文的研究結(jié)果具有重要的實(shí)踐意義。 由于社交媒體信息包含對(duì)股市波動(dòng)的額外預(yù)測(cè)能力,因此,政府部門一方面應(yīng)該重視社交媒體對(duì)股市的影響,充分挖掘社交媒體信息隱含的金融價(jià)值,實(shí)時(shí)把握股市動(dòng)態(tài),維持股票市場(chǎng)穩(wěn)定;另一方面要加強(qiáng)對(duì)相關(guān)媒體的監(jiān)管,防范不法公司或個(gè)人非法利用網(wǎng)絡(luò)媒體操縱股市,發(fā)揮政府“無(wú)形的手”的力量。 此外,當(dāng)下經(jīng)濟(jì)形勢(shì)復(fù)雜多變,各種社交媒體信息充斥股票市場(chǎng),難辨真?zhèn)?,投資者應(yīng)保持理性,多方位、全面了解公司和各類市場(chǎng)信息,提升決策水平。