馬俊偉,王鐵軍,李 慶,林漳希,2
(1.西南財經(jīng)大學(xué)金融智能與金融工程重點實驗室,成都 611130;2.德克薩斯理工大學(xué)商務(wù)智能高級研究中心,美國德克薩斯州 79409)
促使投資者在金融市場做出交易決策,從而最終形成股票的市場價格,這個問題一直是經(jīng)濟學(xué)、行為金融學(xué)關(guān)注的一個熱點。以Stiglitz和Kyle為代表的市場微觀結(jié)構(gòu)學(xué)者對這個問題的解釋是:市場存在不同類型的投資者,投資者根據(jù)自己擁有的信息進(jìn)行交易,這些交易行為促成市場價格的形成。與此同時,投資者的私有股票信息也通過價格傳遞出去,循環(huán)往復(fù),最終形成市場定價機制[1-3]。
雖然對這個問題的理論解釋已比較完備,但對這些理論進(jìn)行驗證一直是個難題。由于影響投資者行為的信息來源非常廣泛,其中包括報刊、影視和網(wǎng)絡(luò)信息。因此很難對這些信息進(jìn)行收集、量化并進(jìn)行實證。隨著信息技術(shù)的發(fā)展,特別是數(shù)據(jù)挖掘技術(shù)在經(jīng)濟、金融領(lǐng)域的應(yīng)用,近10年來媒體信息和股票市場相關(guān)關(guān)系的實證研究大量出現(xiàn)[4-6]。Tetlock等[5]通過人工收集《華爾街日報》中的文本信息,并進(jìn)行詞匯情感分析,發(fā)現(xiàn)媒體信息與股票價格高度相關(guān),證明了公共媒體信息對股票市場具有導(dǎo)向作用。相比于傳統(tǒng)媒體,網(wǎng)絡(luò)有信息來源公開、信息傳遞速度快的優(yōu)點,更能驗證信息對金融市場的影響。因此Antweiler等[7]收集了Yahoo金融板塊中45個與美國上市公司相關(guān)的信息,證實這些信息與股票當(dāng)天波動率和交易量顯著相關(guān)。
在我國,公共媒體信息對股票市場的研究剛剛起步,楊繼東[8]基于理性投資者和有限理性投資者假設(shè),分析媒體信息影響股票市場的傳導(dǎo)過程并建立了理論模型。董大勇[9]通過問卷調(diào)查方式,證實了我國金融類論壇的內(nèi)容能幫助投資者獲得真實信息,并體現(xiàn)出投資者的投資意愿。饒育蕾等[10]使用新浪網(wǎng)搜索引擎,通過人工檢索的方式獲取網(wǎng)絡(luò)信息,通過因子模型證實了網(wǎng)絡(luò)信息量對我國股票的收益率有顯著影響。
但以上研究受制于技術(shù)水平,普遍采用人工記錄的方法搜集數(shù)據(jù)。因此,樣本數(shù)據(jù)相比于整體數(shù)據(jù)較少,無法有效地代表投資者面對的海量網(wǎng)絡(luò)信息。筆者針對國內(nèi)57家上市公司股票,使用信息抓取技術(shù)取得與之相關(guān)的2 854 061條網(wǎng)絡(luò)文本信息,解決了數(shù)據(jù)獲取難題。通過建立因子模型和時間序列模型,進(jìn)行以下兩方面研究:1)我國金融論壇上的信息是否能代表投資者獲取的私人信息,是否會影響投資者的投資行為,最終影響股票價格走勢;2)在我國,網(wǎng)絡(luò)媒體信息是否會對股票波動率產(chǎn)生影響,不同質(zhì)量的網(wǎng)絡(luò)信息能否對股票市場的作用水平是否一致。
筆者利用Java程序(程序由作者設(shè)計調(diào)試,使用NETBEANS 7.2和HTML PARSER工具包完成)從東方財富“股吧”(股吧網(wǎng)絡(luò)地址:http://guba.eastmoney.com/)獲取公司板塊中的論壇文本信息,作為網(wǎng)絡(luò)輿論的數(shù)據(jù)來源。根據(jù)CNNIC(China National Network Information Center)第31次《中國互聯(lián)網(wǎng)發(fā)展統(tǒng)計報告》,截至2012年12月底,我國網(wǎng)民規(guī)模達(dá)到5.64億,互聯(lián)網(wǎng)普及率為42.1%。由此可見,網(wǎng)絡(luò)中的信息以裂變方式傳播,較報紙、電視等傳統(tǒng)媒體,其傳遞速度更快,影響范圍更廣[11]。因此,選取網(wǎng)絡(luò)論壇信息衡量投資者獲得的公共投資信息,能使結(jié)果更具說服力。
根據(jù)咨詢機構(gòu)iResearch對國內(nèi)信息媒體的調(diào)研結(jié)果證實,“股吧”是中國股民關(guān)注度最高的股票論壇。而東方財富股吧更是創(chuàng)業(yè)板上市公司——東方財富(股票代碼:300059)的核心資源,相對其他論壇,其數(shù)據(jù)內(nèi)容豐富完整,信息散布速度也更快。所以東方財富股吧中的帖子有很強的代表性,有很高的學(xué)術(shù)研究價值。因此在這個論壇上抓取了與57家代表性上市公司相關(guān)的、從2007年1月到2012年3月的所有帖子,總共2 854 061條記錄。圖1描述了在這段時間文本信息數(shù)量的變動,可以看出,具有明顯的季節(jié)效應(yīng),在公司年報發(fā)布前后信息發(fā)布量會放大。在整理每日新貼數(shù)的統(tǒng)計特征后發(fā)現(xiàn),整個分布具有明顯的有偏和厚尾(有偏表現(xiàn)為偏度不為零;厚尾表現(xiàn)為高于正態(tài)分布的峰度,分布函數(shù)的尾端較長)特征,證明新貼數(shù)量激增的情況經(jīng)常出現(xiàn)。而這段時間往往與宏觀信息發(fā)布、企業(yè)年報發(fā)布等重大事件相關(guān),一定程度上證明貼吧信息量和股市波動有相關(guān)關(guān)系。如,在2011年10月20日,財政部發(fā)布地方債試點的相關(guān)法規(guī),造成其后幾日股票市場大幅震蕩,相應(yīng)的,這幾日的網(wǎng)絡(luò)文本信息數(shù)量也顯著高于平均水平。
圖1 文本信息量隨時間變動曲線Fig.1 Number of new posts
筆者進(jìn)行信息采集時分別記錄了以下信息:1)該文本信息所針對的股票;2)該信息公布的時間(精確到秒);3)信息發(fā)布的論壇賬號;4)文本信息內(nèi)容(包括帖子本身信息及跟帖信息)。股吧中的所有信息都依據(jù)討論的股票區(qū)分版塊,版塊的名稱是對應(yīng)股票的簡稱。因此,在進(jìn)行信息采集時,通過信息在論壇中的位置對信息進(jìn)行定位和識別。在帖子發(fā)布日期的歸類方面,考慮到收市后的信息只能影響第2天的股票交易,所以取每日下午3點為分割點,在此時間之后的信息都?xì)w入第2天,使文本信息和股價信息的時間順序統(tǒng)一。圖2描述了浦發(fā)銀行(600000)相關(guān)帖子的字?jǐn)?shù)分布。數(shù)據(jù)來源于20 000個實際樣本。在這些樣本中,發(fā)現(xiàn)99%的帖子字?jǐn)?shù)都小于189,平均數(shù)約為30。分布圖有很明顯的長尾特征,有部分帖子字?jǐn)?shù)非常多,甚至接近400字,后面的實證研究將進(jìn)一步分析不同字?jǐn)?shù)帖子的質(zhì)量區(qū)別,以及其對股票的影響。
根據(jù)以上統(tǒng)計結(jié)果,筆者將依據(jù)帖子字?jǐn)?shù)的經(jīng)驗分布對網(wǎng)絡(luò)信息進(jìn)行分類。具體分類方法是將帖子依照字?jǐn)?shù)排序,然后取4個分位數(shù)(分別為23、43、63、85),依據(jù)分位數(shù)對所有帖子依字?jǐn)?shù)分割成5組:QUA1、QUA2、QUA3、QUA4和QUA5。這樣可以保證每組的帖子數(shù)量相同,而不同組分別代表不同字?jǐn)?shù)區(qū)間的帖子。Rieh[12]的實證證明,網(wǎng)絡(luò)文本信息的字?jǐn)?shù)和信息容量、信息的可信度及發(fā)帖者的情緒和意圖有顯著關(guān)系,因而這種分組方法,能將具有相似內(nèi)容特征的網(wǎng)絡(luò)文本歸類。
圖2 股票600000相關(guān)帖子字?jǐn)?shù)經(jīng)驗分布Fig.2 Posting empirical distribution on words number of firm 600000
目前股票的價格模型主要有兩類:一類是以資產(chǎn)定價模型(CAPM:Capital Asset Pricing Model)為代表的因子模型;另一類是以條件異方差模型(GARCH:Generalized Autoreg Ressive Conditional Heteroskedasticity)為代表的時間序列模型。筆者將使用參考文獻(xiàn)[4-7]的結(jié)果,驗證以下假設(shè):1)股票收益率序列與當(dāng)日文本信息的總體數(shù)量相關(guān),信息量越大的組,對股票影響力越大;2)股票收益率的波動率序列與當(dāng)日的網(wǎng)絡(luò)文本數(shù)量呈正向相關(guān)關(guān)系,網(wǎng)絡(luò)關(guān)注度越高的股票,在第2日的市場波動也越大。
在早期的股票價格模型研究中,因子模型表現(xiàn)出了非常好的實證結(jié)果,而且這個模型直觀地展示出了因子間的相互作用關(guān)系[13,14]。因此,首先在CAPM模型的基礎(chǔ)上加入了當(dāng)日新發(fā)布帖子數(shù)目,以此驗證文本信息數(shù)量和股票價格間的關(guān)系。模型1為
表1 模型1回歸結(jié)果Tab.1 Regression result of model 1
從總體回歸結(jié)果可看出,與國外研究一樣,中國股票收益率與網(wǎng)絡(luò)文本信息有顯著的相關(guān)性。其中αi的系數(shù)非常小,但t統(tǒng)計量和F統(tǒng)計量都足夠大,說明雖然網(wǎng)絡(luò)文本信息對股票價格的影響很顯著,但影響的效果非常小。為解釋這個結(jié)果,筆者將模型1中的變量依照表1的方法,分成5組,重新進(jìn)行回歸,模型2為
表2 模型2回歸結(jié)果Tab.2 Regression result of model 2
因子模型的回歸結(jié)果證實假設(shè)1是成立的,證明我國網(wǎng)絡(luò)輿論對股票收益率有顯著的影響,而且不同字?jǐn)?shù)的網(wǎng)絡(luò)文本對股票價格走勢的作用方向并不相同。
為增加以上實證結(jié)果的穩(wěn)健性,筆者采用條件異方差模型(GARCH)對第1個假設(shè)再次進(jìn)行檢驗,并通過波動率建模,驗證第2個假設(shè),研究波動率與網(wǎng)絡(luò)文本信息的相關(guān)性。
金融資產(chǎn)波動率具有時變性、長記憶性、聚集效應(yīng)、非對稱性等特點。面對波動率的這些性質(zhì),以條件異方差模型和SV(Stochastic Volatility)模型為代表的波動率模型被廣泛使用[15,16],大量實證也證實了這些模型描述波動率沖擊的效果很好[17,18],而且波動率對資產(chǎn)管理和資產(chǎn)組合的選擇具有重大影響。因此,筆者選用能準(zhǔn)確捕捉到以上特征的GJR-GARCH(1,1)模型對所有57支股票進(jìn)行估計,模型3、模型4分別為
使用當(dāng)日總發(fā)帖量作為解釋變量,分別對新息和歷史波動率進(jìn)行回歸,回歸方程為
表3 式(5)回歸結(jié)果Tab.3 Regression result of formula(5)
接著用分組數(shù)據(jù)對式(5)進(jìn)行拓展,得到
并用固定效應(yīng)面板回歸計算參數(shù)。表4為式(6)的回歸結(jié)果。
表4 式(6)回歸結(jié)果Tab.4 Regression result of formula(6)
從式(5)和式(6)的回歸結(jié)果可以看出,未進(jìn)行文本分類的式(5),網(wǎng)絡(luò)總體信息量對收益率新息εi的影響因子很小;而在進(jìn)行了文本分類的式(6)中,第2組到第5組信息對εi的影響因子都變大了,而且,第1組網(wǎng)絡(luò)文本信息對εi的影響不夠顯著。這說明,網(wǎng)絡(luò)上字?jǐn)?shù)較少、信息量較少的帖子和第2天股票收益率相關(guān)性不大。但信息量較大的帖子與收益率有更顯著的關(guān)系,但第2組到第4組的影響方向是負(fù)的,只有字?jǐn)?shù)最大的一組關(guān)系是正的。這一結(jié)論再次印證了因子模型的結(jié)論,證明假設(shè)一成立。
對于收益率方差序列hi,式(5)的結(jié)果顯示,日新帖數(shù)量越多,第2日收益率的波動率hit越大,但影響系數(shù)很小。而從式(6)的分組回歸結(jié)果來看,字?jǐn)?shù)最少的第1、第2組文本信息和字?jǐn)?shù)最多的第5組文本信息對歷史波動率的影響都非常顯著,但每組影響因子并不相同,體現(xiàn)為如果當(dāng)日字?jǐn)?shù)較少的網(wǎng)絡(luò)信息較多,往往會造成相關(guān)股票第2日的劇烈波動。從統(tǒng)計特征上看,這部分網(wǎng)絡(luò)信息的作用類似于噪音,雖然能引起價格的震蕩,但對價格的引導(dǎo)缺乏方向性,所以這些信息只對第2天的波動產(chǎn)生影響,而與收益率的作用反而不顯著。因此假設(shè)二也成立,股票的網(wǎng)絡(luò)文本數(shù)量與第2日的市場波動率正向相關(guān),但不同字?jǐn)?shù)的文本體現(xiàn)出的相關(guān)性并不相同。
使用網(wǎng)絡(luò)抓取技術(shù),獲得了與57家上市公司相關(guān)的2 854 061網(wǎng)絡(luò)輿情信息,分析其中的內(nèi)容并進(jìn)行歸類,使用這些信息代表投資者獲得的金融媒體信息。通過建立因子模型和時間序列模型,研究了不同類型網(wǎng)絡(luò)文本信息和股票市場的相關(guān)性,得到以下結(jié)論。
1)對于單只股票,其網(wǎng)絡(luò)信息量和第2天的市場收益率有顯著的相關(guān)性,但影響力不大。這個結(jié)果與其他學(xué)者針對報紙等傳統(tǒng)媒體進(jìn)行的,股票市場影響因素的研究具有相似的結(jié)論接近。因此,我國金融論壇上的信息能很好地代表投資者獲得的金融類公共媒體信息。
2)通過分析不同信息量的金融論壇新帖與股票收益率的相關(guān)性,發(fā)現(xiàn)信息量越大的網(wǎng)絡(luò)新帖對股票隔日收益率的作用越明顯。因此可以證明,信息量越大的帖子,對投資者的影響力越大,最終對市場的作用力也更強。
3)網(wǎng)絡(luò)信息量同GARCH模型下股票收益率的歷史波動率也有相關(guān)性。表現(xiàn)為字?jǐn)?shù)較少的網(wǎng)絡(luò)信息越多,股票在第2日的波動性越大??梢詫⑦@一現(xiàn)象解釋為:信息量過少的新帖大量涌現(xiàn),說明投資者,特別是散戶投資者對這一股票的關(guān)注度增加,因而造成第2日市場交易活躍,從而收益的波動率增大。但這部分帖子數(shù)量激增也體現(xiàn)出了投資者對這只股票的未來走勢分歧較大,所以這些信息不能對股票第2日的走勢造成一致性影響,最終無法對股票收益率產(chǎn)生顯著的影響。
總之,我國網(wǎng)絡(luò)金融輿情信息和股票市場有顯著但很復(fù)雜的相關(guān)性,證明在我國,公共網(wǎng)絡(luò)媒體已成為眾多投資者搜集信息、散布信息的重要途徑。使用信息挖掘技術(shù)分析網(wǎng)絡(luò)文本數(shù)據(jù)能為投資者提供很好的投資建議,同時也能為監(jiān)管機構(gòu)監(jiān)督市場運行提供巨大幫助。
[1]GROSSMAN S J,STIGLITZ J E.On the Impossibility of Informationally Efficient Market[J].The American Economic Review,1980,70(3):393-408.
[2]KYLE A S.Continuous Auctions and Insider Trading[J].Econometrica,1985,53(6):1315-1335.
[3]LAMBERT R A,LEUZ C,VERRECCHIA R E.Information Asymmetry,Information Precision and the Cost of Capital[J].Review of Finance,2012,16(1):1-29.
[4]TETLOCK P C.Giving Content to Investor Sentiment:The Role of Media in the Stock Market[J].The Journal of Finance,2007,62(3):1139-1168.
[5]TETLOCK P C,TSECHANSKY M S.More Than Words:Quantifying Language to Measure Firms'Fundamentals[J].The Journal of Finance,2008,63(3):1437-1467.
[6]MITCHELL M L,MULHERIN J H.The Impact of Public Information on the Stock Market[J].The Journal of Finance,1994,49(3):923-950.
[7]ANTWEILER W,F(xiàn)RANK M Z.Is All That Talk just Noise?the Information Content of Internet Stock Message Board[J].The Journal of Finance,2004,59(3):1259-1294.
[8]楊繼東.媒體影響了投資者行為嗎?——基于文獻(xiàn)的一個思考[J].金融研究,2007,329(11):93-102.YANG Jidong.Does Media Effects Investors Behavior?——Research Based on Literature[J].Journal of Financial Research,2007,329(11):93-102.
[9]董大勇.投資者參與股票論壇的影響因素[J].系統(tǒng)工程,2011,205(1):51-56.DONG Dayong.Influencing Factors of Investors'Participation in Stock Forums[J].Systems Engineering,2011,205(1):51-56.
[10]饒育蕾,彭疊峰,成大超.媒體注意力會引起股票的異常收益嗎?——來自中國股票市場的經(jīng)驗證據(jù)[J].系統(tǒng)工程理論與實踐,2010,30(2):287-297.XIAO Yulei,PENG Diefeng,CHENG Dachao.Does Media Attention Cause Abnormal Return?——Evidence from China's Stock Market[J].Systems Engineering-Theory & Practice,2010,30(2):287-297.
[11]田占偉,隋玚.基于復(fù)雜網(wǎng)絡(luò)理論的微博信息傳遞實證分析[J].圖書情報工作,2012,56(8):42-46.TIAN Zhanwei,SUI Yang.The Empirical Analysis of Micro-Blog Information Flow Based on Complex Network Theory [J].Library and Information Service,2012,56(8):42-46.
[12]RIEH S Y.Judgment of Information Quality and Cognitive Authority in the Web[J].Journal of the American Society for Information Science and Technology,2002,53(2):145-161.
[13]BLUME M E,F(xiàn)RIEND I.A New Look at the Capital Asset Pricing Model[J].Journal of Finance,1973,28(1):19-34.
[14]FAMA E F,F(xiàn)RENCH K R.Common Risk Factor in the Returns on Stocks and Bonds[J].Journal of Financial Economics,1993,33(1):3-56.
[15]BAILLIE R T,BOLLERSLEV T,MIKKELSEN H O.Fractionally Integrated Generalized Autoregressive Heteroskedasticity[J].Journal of Econometrics,1996,74(1):3-30.
[16]GLOSTEN L R.Runkle,Relationship between the Expected Value and the Volatility of the Nominal Excess Return on Stocks[D].Department of Finance,Columbia University,1989.
[17]ENGLE R F,NG V K.Measuring and Testing the Impact of News on Volatility[J].Journal of Finance,1993,48(5):1749-1779.
[18]ENGLE R F.Forecasting Intraday Volatility in the US Equity Market:Multiplicative Component GARCH [J].Journal of Financial Economics,2012,10(1):54-83.