孫延風(fēng) 王朝勇
1)(吉林大學(xué)計算機(jī)科學(xué)與技術(shù)學(xué)院,長春 130012)2)(吉林工程技術(shù)師范學(xué)院信息工程學(xué)院,長春 130021)
(2017年11月21日收到;2018年3月22日收到修改稿)
復(fù)雜網(wǎng)絡(luò)能夠解決許多金融問題,能夠發(fā)現(xiàn)金融市場的拓?fù)浣Y(jié)構(gòu)特征,反映不同金融主體之間的相互依賴關(guān)系.相關(guān)性度量在金融復(fù)雜網(wǎng)絡(luò)構(gòu)建中至關(guān)重要.通過將多元金融時間序列符號化,借鑒文本特征提取以及信息論的方法,定義了一種基于文本互信息的相關(guān)系數(shù).為檢驗方法的有效性,分別構(gòu)建了基于不同相關(guān)系數(shù)(Pearson和文本互信息)和不同網(wǎng)絡(luò)縮減方法(閾值和最小生成樹)的4個金融復(fù)雜網(wǎng)絡(luò)模型.在閾值網(wǎng)絡(luò)中提出了使用分位數(shù)來確定閾值的方法,將相關(guān)系數(shù)6等分,取第4部分的中點作為閾值,此時基于Pearson和文本互信息的閾值模型將會有相近的邊數(shù),有利于這兩種模型的對比.數(shù)據(jù)使用了滬深兩地證券市場地區(qū)指數(shù)收盤價,時間從2006年1月4日至2016年12月30日,共計2673個交易日.從網(wǎng)絡(luò)節(jié)點相關(guān)性看,基于文本互信息的方法能夠體現(xiàn)出大約20%的非線性相關(guān)關(guān)系;在網(wǎng)絡(luò)整體拓?fù)渲笜?biāo)上,本文計算了4種指標(biāo),結(jié)果顯示能夠使所保留的節(jié)點聯(lián)系更為緊密,有效提高保留節(jié)點的重要性以及挖掘出更好的社區(qū)結(jié)構(gòu);最后,計算了閾值網(wǎng)絡(luò)的動態(tài)指標(biāo),將數(shù)據(jù)按年分別構(gòu)建網(wǎng)絡(luò),縮減方法只用了閾值方法,結(jié)果顯示本文提出的方法在小世界動態(tài)和網(wǎng)絡(luò)度中心性等指標(biāo)上能夠成功捕捉到樣本區(qū)間內(nèi)存在的兩次異常波動.此外,本文構(gòu)建的地區(qū)金融網(wǎng)絡(luò)具有服從冪律分布、動態(tài)穩(wěn)定性、一些經(jīng)濟(jì)欠發(fā)達(dá)地區(qū)在金融地區(qū)網(wǎng)絡(luò)中占據(jù)重要地位等特性.
統(tǒng)計物理方法有助于從系統(tǒng)復(fù)雜性的角度理解社會和經(jīng)濟(jì)問題[1],解釋復(fù)雜系統(tǒng)隨時間演化的過程.金融物理學(xué)(econophysics)則運用統(tǒng)計物理方法來研究金融復(fù)雜系統(tǒng)中各個領(lǐng)域的相關(guān)問題[2?4].由于受到政治、戰(zhàn)爭、宏觀經(jīng)濟(jì)以及社會輿論等多種因素的影響,至今沒有一個完美的理論能完全揭示出金融系統(tǒng)整體的運行規(guī)律.現(xiàn)今金融系統(tǒng)中的很多研究都是基于各種假說,比如套利定價理論(arbitrage pricing theory,APT),有效市場假說(efficient markets hypothesis,EMH)[5,6]等.借助于復(fù)雜網(wǎng)絡(luò)建模思想,可以在較少市場假說下,實現(xiàn)對整個金融系統(tǒng)中各種變量相互關(guān)系的研究,能夠從整體上研究金融主體之間的相互依賴性,反映金融市場整體的拓?fù)浣Y(jié)構(gòu)[7].
許多金融市場問題都可以使用復(fù)雜網(wǎng)絡(luò)方法建模,常見的有股票市場[8?14]、外匯市場[15?17]、銀行信貸關(guān)系[18]、信用卡市場[19]、期貨市場[20,21]以及房地產(chǎn)市場[22?24]等.數(shù)據(jù)上使用較多的是低頻數(shù)據(jù)(主要是每日數(shù)據(jù)),也有些研究使用了高頻數(shù)據(jù)[17,25?27].金融復(fù)雜網(wǎng)絡(luò)模型主要有最小生成樹(minimal spanning trees,MST)[14?16]、最大生成樹(maximal spanning trees)[28]、平面極大過濾圖(planar maximally filtered graph,PMFG)[24]、閾值網(wǎng)絡(luò)(threshold networks,TN)[11,29,30]、隨機(jī)矩陣?yán)碚?random matrix theory,RMT)[8,23,31]、差分網(wǎng)絡(luò)(differitial network)等[32].通過選擇不同的網(wǎng)絡(luò)節(jié)點、不同的數(shù)據(jù)類型、不同邊的連接方式(有向[17]或無向)構(gòu)造出不同的金融復(fù)雜網(wǎng)絡(luò)模型,研究各種金融拓?fù)浣Y(jié)構(gòu)、計算金融風(fēng)險統(tǒng)計特征,用來解決不同的金融問題,構(gòu)建金融投資組合以及度量金融系統(tǒng)風(fēng)險大小[15]等.
金融復(fù)雜網(wǎng)絡(luò)建模中一個重要的步驟是計算節(jié)點之間的相關(guān)矩陣.一種方法是使用Pearson相關(guān)系數(shù).Mantegna[9]在1999年將其用于美國股票市場,并構(gòu)造了一個MST網(wǎng)絡(luò).此后Pearson相關(guān)系數(shù)被廣泛應(yīng)用于金融復(fù)雜網(wǎng)絡(luò)中,Wang和Xie[24]使用Pearson相關(guān)系數(shù)構(gòu)造了20個國家不動產(chǎn)證券市場的三個網(wǎng)絡(luò)模型,即MST,HT和PMFG;Wang等[14]則將Pearson相關(guān)系數(shù)用于57個股票市場動態(tài)網(wǎng)絡(luò)的構(gòu)建.Pearson相關(guān)系數(shù)是一種線性相關(guān)系數(shù),然而金融系統(tǒng)具有典型的非線性特征,為此一些學(xué)者在計算相關(guān)矩陣時使用節(jié)點間的互信息(mutual information,MI)來度量節(jié)點之間的相關(guān)性[15,17,33].互信息以信息論[34]為基礎(chǔ),能夠度量兩個不同序列之間包含多少相同的信息,反映兩個變量序列之間的非線性相關(guān)關(guān)系,因此在金融復(fù)雜網(wǎng)絡(luò)中得到了廣泛應(yīng)用,并在此基礎(chǔ)上發(fā)展了很多其他度量非線性相關(guān)的方法,比如互信息率(mutual information rate,MIR)[33]、偏互信息(partial mutual information,PMI)[30,35]等.
Fiedor[33]引入互信息和互信息率作為相似性度量指標(biāo),用來替代Pearson相關(guān)系數(shù),使用Lempel-Ziv復(fù)雜度[36]來估計MI和MIR.網(wǎng)絡(luò)縮減模型采用的是MST和PMFG模型,并應(yīng)用于紐約證券交易所100指數(shù)(NYSE100)的91家企業(yè)在2003—2013年的日收盤數(shù)據(jù).為檢驗替換效果,采用了平均最短路徑(average shortest path,ASP)等指標(biāo),從節(jié)點、聚類以及網(wǎng)絡(luò)等三個層面與Pearson相關(guān)性進(jìn)行了對比.結(jié)果顯示MI具有比Pearson相關(guān)性更優(yōu)秀的特征,但MIR效果差一些.You等[35]對上海股票市場的復(fù)雜網(wǎng)絡(luò)的非線性相關(guān)問題進(jìn)行了討論,使用PMI度量節(jié)點間的相關(guān)性,并與Pearson相關(guān)性做了對比.假定樣本服從Dirichlet分布,使用熵(entropy)的Schurmann-Grassberger來估計PMI,分別采用MST和PMSG模型為網(wǎng)絡(luò)縮減方法.使用Pearson相關(guān)性、MI和PMI作為相關(guān)性度量方法,得到6組不同的網(wǎng)絡(luò).從相關(guān)性、經(jīng)濟(jì)部門結(jié)構(gòu)、節(jié)點度分布以及網(wǎng)絡(luò)中重要程度不同的股票(從節(jié)點度大小的角度度量)在經(jīng)濟(jì)上每股收益率的變化等方面進(jìn)行了對比研究.Fiedor和Holda[15]將MI用于外匯市場,使用Lempel-Ziv算法估計MI,采用了MST和PMFG模型,分析了匯率之間的非線性相互依存關(guān)系.認(rèn)為根據(jù)熵率的不同,不同匯率變化的可預(yù)測性是不同的,因此匯率投資組合中不但要考察VaR等風(fēng)險指標(biāo),還要考察可預(yù)測性.此外,可以通過復(fù)雜網(wǎng)絡(luò)中節(jié)點的遠(yuǎn)近直接觀察出兩種貨幣之間的相關(guān)性(或互信息)的大小關(guān)系,相關(guān)性越低則風(fēng)險越小,越適合作為投資組合的組成部分.與其他在一維空間使用Lempel-Ziv復(fù)雜度的文獻(xiàn)不同,Fiedor[13]為計算互信息率,將Lempel-Ziv復(fù)雜度擴(kuò)展到多維信號,來研究不同金融工具序列之間的高階相關(guān)性,然后將其轉(zhuǎn)換成歐幾里德度量,采用MST和PMFG模型,以便找到網(wǎng)絡(luò)建模金融市場的合適的拓?fù)浣Y(jié)構(gòu).結(jié)果表明這種方法會導(dǎo)致與大多數(shù)研究中使用基于相關(guān)的方法不同的結(jié)果.
參考文獻(xiàn)[33,35]在計算互信息時假定樣本服從Dirichlet分布,并且需要將樣本離散成幾個不同的狀態(tài)(比如人為分成4個部分或8個部分[33]).本文借鑒文本特征提取的互信息方法以及時間序列符號化方法,構(gòu)造一個簡單的非線性相關(guān)性度量方法,該方法不再假定樣本服從Dirichlet分布,也不進(jìn)行人為的離散化.為檢驗該方法的效果,將其用于中國滬深兩地證券市場的地區(qū)指數(shù)收盤價數(shù)據(jù)集,建立地區(qū)金融網(wǎng)絡(luò)模型,分別進(jìn)行靜態(tài)與動態(tài)分析,考察所建立模型的拓?fù)湫再|(zhì).
本文安排如下:第2節(jié)完整敘述本文的模型,建立4個不同的地區(qū)金融網(wǎng)絡(luò)模型;第3節(jié)介紹使用的數(shù)據(jù)來源、數(shù)據(jù)前期處理以及數(shù)據(jù)相關(guān)的統(tǒng)計特征以及地區(qū)金融網(wǎng)絡(luò)拓?fù)涮卣鞯?第4節(jié)從節(jié)點相關(guān)性、網(wǎng)絡(luò)拓?fù)渲笜?biāo)、度分布的冪律檢驗以及動態(tài)網(wǎng)絡(luò)拓?fù)渲笜?biāo)等多個不同的角度對本文提出的方法進(jìn)行數(shù)值檢驗,并與Pearson相關(guān)系數(shù)對比;第5節(jié)進(jìn)行概括性的總結(jié)與展望.
本節(jié)在金融時間序列符號化基礎(chǔ)上,使用改造的文本互信息方法計算相關(guān)系數(shù),隨后建立4個金融復(fù)雜網(wǎng)絡(luò)模型.這些模型的相同點是節(jié)點都是地區(qū)指數(shù),節(jié)點間的相互鏈接都用相關(guān)性表示,相鄰邊的權(quán)值都用相關(guān)系數(shù)的大小表示;不同之處在于使用的網(wǎng)絡(luò)精簡方法以及獲得相關(guān)系數(shù)的方法不同.
互信息在文本特征選擇中有廣泛的應(yīng)用[37],互信息能夠度量兩個隨機(jī)變量的相互依賴性.如果設(shè)文本特征項為t,類別為TC,則它們之間的互信息可定義為
其中p(t,TC)為文本特征項t和類別TC的聯(lián)合分布,p(t)和p(TC)分別是特征項t和類別TC的邊際分布.本文將文本互信息公式改造后應(yīng)用到兩個金融時間序列的相關(guān)性度量中.
為此需要將時間序列符號化,進(jìn)一步可以估計出符號序列的統(tǒng)計信息,計算出兩個序列之間互信息的大小.符號化的處理方法在很多金融復(fù)雜網(wǎng)絡(luò)相關(guān)文獻(xiàn)中被廣泛使用,并已取得了良好的效果[38,39].對于一個金融時間序列,可以利用(2)式將其符號化,
其中 st為第t天符號化序列,rt為第t天地區(qū)指數(shù)收盤價的對數(shù)收益率.
對于兩個金融時間序列X,Y,在給定的第t天,可以定義4種模式,它們分別是:{+,+}{?,?}{+,?}{?,+},統(tǒng)計這4種模式在給定區(qū)間內(nèi)的總數(shù),分別記為A,B,C,D.則可利用(3)式計算這兩個金融時間序列在給定區(qū)間內(nèi)的互信息相關(guān)性:
其中N=A+B+C+D.
由(3)式可見,兩個序列的互信息是完全對稱的,即I(X,Y)=I(Y,X);互信息越大,兩個序列同漲同跌的可能性越大,兩個序列的相關(guān)程度也越大;當(dāng)兩個序列完全相關(guān)時,B=C=0,N=A+D,則I=1;兩個序列完全無關(guān)時p(t,TC)=p(t)p(TC),A+D=0則I=0.
但(3)式定義的互信息相關(guān)系數(shù)不能滿足距離的3個條件.本文采用很多金融復(fù)雜網(wǎng)絡(luò)文獻(xiàn)普遍使用的方法[9]將其轉(zhuǎn)化為距離:
此時0 6 d 6 2,并且滿足距離的3個條件.
為考察MI相關(guān)系數(shù)在構(gòu)建地區(qū)金融網(wǎng)絡(luò)方面的優(yōu)勢,將其與使用Pearson相關(guān)系數(shù)的相同金融網(wǎng)絡(luò)從相關(guān)性分析、網(wǎng)絡(luò)拓?fù)渲笜?biāo)數(shù)值大小、度的冪律分布以及動態(tài)網(wǎng)絡(luò)特性等幾個方面進(jìn)行了比較.
使用不同的相關(guān)系數(shù)(線性的Pearson方法,非線性的MI方法)和網(wǎng)絡(luò)精簡方式(TN和MST)構(gòu)建4個金融地區(qū)指數(shù)的復(fù)雜網(wǎng)絡(luò),見表1.這4個地區(qū)金融網(wǎng)絡(luò)模型都是無向的、加權(quán)的復(fù)雜網(wǎng)絡(luò).
表1 不同相關(guān)系數(shù)和精簡方式構(gòu)建的模型Table1.Models created with Different correlation coefficient and Different simplified method.
為檢驗4個地區(qū)金融網(wǎng)絡(luò)模型,使用中國滬深兩地證券市場的真實數(shù)據(jù).數(shù)據(jù)采集于深圳市財富趨勢科技股份有限公司的通達(dá)信Windows版軟件[40]中的地區(qū)指數(shù)收盤價,共32個地區(qū)(不包括港澳臺,深圳單獨算一個地區(qū)),時間區(qū)間從2006年1月4日到2016年12月30日,共計2673個交易日.
采用這組數(shù)據(jù)的優(yōu)勢在于:1)每個地區(qū)都涵蓋了本地區(qū)滬深上市公司的A股、創(chuàng)業(yè)板、中小板等板塊,這些地區(qū)指數(shù)基本上代表了滬深兩地全部的上市公司,能夠較全面地刻畫中國滬深證券市場的情況,反映證券市場整體的運行信息;2)這些地區(qū)指數(shù)在所選時間段內(nèi)幾乎沒有因停牌等原因造成的數(shù)據(jù)缺失或異常(除了貴州板塊指數(shù)數(shù)據(jù)在2006年5月19日至2006年5月24日數(shù)據(jù)異常,處理方法是將此區(qū)間內(nèi)數(shù)據(jù)全部使用前一日即2006年5月18日的數(shù)據(jù)代替),不需要對數(shù)據(jù)進(jìn)行人為的刪除或更新;3)與其他文獻(xiàn)不同的是,本文把證券市場按地區(qū)劃分,并從復(fù)雜網(wǎng)絡(luò)的角度研究證券市場的地區(qū)性質(zhì),從而得出一些關(guān)于地區(qū)板塊指數(shù)的結(jié)論.
為消除個別數(shù)據(jù)異常波動造成的影響,使數(shù)據(jù)更加平穩(wěn),采用滬深股票市場地區(qū)板塊指數(shù)的對數(shù)收益率,
其中rt為第t天的日對數(shù)收益率;pt為地區(qū)板塊指數(shù)在第t天的日收盤價.
網(wǎng)絡(luò)的精簡方式分別使用TN和MST,這兩種方法都能夠過濾掉一些次要信息,便于對金融網(wǎng)絡(luò)中最重要的信息進(jìn)行分析,有助于理解金融市場的動態(tài)拓?fù)涮卣?
MST在最大程度上對網(wǎng)絡(luò)精簡,只研究金融網(wǎng)絡(luò)中最相關(guān)的依賴關(guān)系,降低了金融網(wǎng)絡(luò)模型的復(fù)雜度,更有利于大型網(wǎng)絡(luò)分析,對于金融市場的海量數(shù)據(jù)來說有重要意義.
在構(gòu)建TN時,一項重要的工作是選擇閾值,通常的做法是人為給定閾值,也有學(xué)者使用均值和方差來確定閾值,或者繪制經(jīng)驗密度函數(shù)[11,41].本文采用分位數(shù)的方法確定閾值:將相關(guān)系數(shù)(變成距離d并去掉0后)在其最小值和最大值的區(qū)間內(nèi)若干等分,然后取其中一個區(qū)間的中點為閾值.經(jīng)過對地區(qū)指數(shù)數(shù)據(jù)的不同時間段與不同相關(guān)系數(shù)的反復(fù)測算,發(fā)現(xiàn)將數(shù)據(jù)6等分并取第4個區(qū)間的中點為閾值較為合理,大約能夠涵蓋25%的數(shù)據(jù)值,這比Brida和Risso[41]建議覆蓋50%的累積分布值略少.這樣選擇的閾值,能夠使得所保留的邊數(shù)適中,保留較為重要的節(jié)點連接和便于觀察的網(wǎng)絡(luò)拓?fù)浣Y(jié)構(gòu),得到相應(yīng)的統(tǒng)計指標(biāo),更為重要的是能夠使得MI和Pearson方法得到的連邊數(shù)最為接近,便于兩種方法的對比.
圖1 Model 1的網(wǎng)絡(luò)拓?fù)鋱D(閾值為0.91)Fig.1.Network topology of Model1(threshold is 0.91).
圖2 Model 2的網(wǎng)絡(luò)拓?fù)鋱D(閾值為0.61)Fig.2.Network topology of Model 2(threshold is 0.61).
圖1—圖4給出了4種網(wǎng)絡(luò)模型Model 1—Model 4在整個數(shù)據(jù)區(qū)間的網(wǎng)絡(luò)拓?fù)鋱D.從4個模型的網(wǎng)絡(luò)拓?fù)鋱D可以看出,度值大的結(jié)點在網(wǎng)絡(luò)中占較少的部分,但對金融網(wǎng)絡(luò)中的多數(shù)節(jié)點都有較大影響.
在Model 1和Model 2中,閾值的確定采用上面提出的分位數(shù)方法,此時兩個模型的連邊數(shù)分別為117和116條,較為接近,便于對比兩種方法的拓?fù)浣Y(jié)構(gòu)與拓?fù)渲笜?biāo).
對于TN網(wǎng)絡(luò)(圖1和圖2),MI和Pearson方法在節(jié)點度上大于21的節(jié)點共有4個,并且這4個節(jié)點完全相同,只是在北京板塊和西藏板塊的節(jié)點度上有所不同:北京板塊的度值在MI中為25,在Pearson中為22;西藏板塊在MI中為22,而Pearson中為26.MI方法提高了北京板塊的度,降低了西藏板塊的度,本文認(rèn)為這種改變應(yīng)該更合理一些.在MST網(wǎng)絡(luò)中(圖3和圖4),兩種相關(guān)系數(shù)模型中,度大于6的節(jié)點共有3個,黑龍江(度值為7)和遼寧(度值為7)板塊相同,度的大小也相近.另外的節(jié)點在Model 3中為湖北板塊(度值為7),而Model 4中為山東板塊(度值為9),存在一些差異.
圖3 Model 3的網(wǎng)絡(luò)拓?fù)鋱DFig.3.Network topology of Model 3.
圖4 Model 4的網(wǎng)絡(luò)拓?fù)鋱DFig.4.Network topology of Model 4.
在以地區(qū)指數(shù)為節(jié)點的4個金融復(fù)雜網(wǎng)絡(luò)模型中,從度的大小看,西藏、貴州、青海等西部板塊以及黑龍江、遼寧等東北板塊占據(jù)了重要的地位,說明在中國的股票市場中,經(jīng)濟(jì)欠發(fā)達(dá)地區(qū)的股票有重要的地位,這一點在后面逐年的復(fù)雜網(wǎng)絡(luò)中得到了進(jìn)一步的證實.分析其中的原因發(fā)現(xiàn),這些地區(qū)中有如600519貴州茅臺、600338西藏珠峰、600117西寧特鋼等活躍度較高的上市公司,因此從證券投資的角度看,重視這些地區(qū)的上市公司的投資將會對收益產(chǎn)生一定的影響.
由上文的分析可以看出,1974年和1992年的公約對波羅的海沿岸國如何攜手共同對抗波羅的海海洋污染所涉及的方方面面做出了細(xì)致、清晰、周全的規(guī)定和安排,加上公約設(shè)立赫爾辛基委員會、重視科學(xué)技術(shù)成果的引入、靈活利用區(qū)域和國際組織、不斷自我更新的特色,開啟了波羅的海沿岸國在海洋環(huán)境保護(hù)領(lǐng)域的正式合作,為持續(xù)數(shù)十年并取得積極進(jìn)展的波羅的海環(huán)保實踐,提供了極為關(guān)鍵的框架性法律保障。
為反映中國股票市場整體狀況,考察上述數(shù)據(jù)區(qū)間對應(yīng)的上證綜指收盤價,因為其能夠代表整個市場的運行狀態(tài).這期間(即從2006年1月4日—2016年12月30日)包含了2次較大的波動:2007年10月16日附近(最高6092.06點)以及2015年6月12日附近(最高5166.35點).接下來在4.4節(jié)動態(tài)網(wǎng)絡(luò)逐年對比分析中將重點考察不同模型對這兩次大幅波動的捕捉能力.
使用上節(jié)的地區(qū)板塊指數(shù)數(shù)據(jù)以及第2節(jié)建立的4個地區(qū)金融網(wǎng)絡(luò)模型(Model 1—–Model 4),本節(jié)從節(jié)點的相關(guān)性分析、網(wǎng)絡(luò)整體拓?fù)渲笜?biāo)、度的冪律分布檢測以及動態(tài)網(wǎng)絡(luò)拓?fù)涮卣?這里只討論TN網(wǎng)絡(luò))4個方面分別討論以MI與Pearson為相關(guān)系數(shù)的地區(qū)金融網(wǎng)絡(luò)的優(yōu)缺點.
為對比使用MI與Pearson相關(guān)系數(shù)的不同效果,首先計算4個地區(qū)金融網(wǎng)絡(luò)模型中每個節(jié)點的接近度(closeness)中心性,介值(betweenness)中心性,平均最短路徑長度(average shortest path length,ASPL),特征中心性(eigencen)等4個指標(biāo);然后計算TN網(wǎng)絡(luò)即Model 1和Model 2的節(jié)點序列在上述4個指標(biāo)上的相關(guān)度,結(jié)果見表2第1行;最后計算MST網(wǎng)絡(luò)即Model 3和Model 4的節(jié)點序列在上述4個指標(biāo)上的相關(guān)度,結(jié)果見表2第2行.
從表2可見,除了MST(Model 3與Model 4)的ASPL相關(guān)度為0.4358,其他都在0.76—–0.94之間,這說明本文提出的文本互信息方法大約體現(xiàn)了20%左右的非線性相關(guān)關(guān)系.與You等[35]的結(jié)果很相近,而與Fiedor[33]的30%相比少了一些(文獻(xiàn)[33]的結(jié)果中也存在0.8以上的相關(guān)度).產(chǎn)生這種現(xiàn)象的原因我們認(rèn)為與數(shù)據(jù)有關(guān),You等[35]使用的數(shù)據(jù)是上交所上市公司的數(shù)據(jù),與本文的數(shù)據(jù)源很相近,而Fiedor[33]使用的數(shù)據(jù)是相對成熟的市場,即紐交所(New York Stock Exchange)的數(shù)據(jù).
表2 節(jié)點相關(guān)性分析Table2.Correlation analysis for nodes.
本小節(jié)從網(wǎng)絡(luò)的層面對4個模型的拓?fù)渲笜?biāo)進(jìn)行對比.分別計算不同網(wǎng)絡(luò)的平均加權(quán)度、介值中心性、網(wǎng)絡(luò)聚類系數(shù)以及模塊度等,計算結(jié)果見表3.
表3 MI和Pearson相關(guān)系數(shù)的指標(biāo)Table3.The index of MI and Pearson correlation coefficient.
平均加權(quán)度(average weighted degree,AWD)是一種度量網(wǎng)絡(luò)中節(jié)點的平均重要程度的指標(biāo),考慮了每個邊權(quán)重大小的不同,計算時將邊的權(quán)重求和,然后除以節(jié)點數(shù).不論TN(Model 1)還是MST(Model 3)網(wǎng)絡(luò),使用MI相關(guān)系數(shù)所保留的節(jié)點的平均加權(quán)度均高于Pearson相關(guān)系數(shù),體現(xiàn)了MI相關(guān)系數(shù)在保留重要節(jié)點上優(yōu)于Pearson相關(guān)系數(shù).
網(wǎng)絡(luò)介值中心性(network betweenness centralization,NBC)為金融網(wǎng)絡(luò)中所有最短路徑中經(jīng)過該節(jié)點的路徑的數(shù)目占最短路徑總數(shù)的比例,是衡量網(wǎng)絡(luò)節(jié)點作為橋梁中介程度的指標(biāo),介值數(shù)高的節(jié)點(地區(qū)指數(shù))在金融網(wǎng)絡(luò)信息傳輸中起著至關(guān)重要的作用.從表3可見,MST中MI(Model 3)和Pearson(Model 4)的NBC值都是0.7左右,但TN中,MI(Model 1)的值要比Pearson(Model 2)的值高出30%左右,說明對于TN網(wǎng)絡(luò)而言,MI能夠有效提高所保留節(jié)點的介值重要性.
聚類系數(shù)體現(xiàn)了節(jié)點的集聚程度.在Pajek軟件[42]中有加權(quán)和不加權(quán)兩種:網(wǎng)絡(luò)的 Watts-Strogatz聚類系數(shù)(Watts-Strogatz clustering coefficient,WSCC)是所有節(jié)點的聚類系數(shù)的非加權(quán)平均;網(wǎng)絡(luò)集聚系數(shù)(network clustering coefficient,NCC)是所有節(jié)點的聚類系數(shù)的加權(quán)平均.從表3可見,在TN網(wǎng)絡(luò)中(Model 1和Model 2),地區(qū)指數(shù)的WSCC都為0.84左右,而NCC分別為0.36和0.296,數(shù)值較大,說明我國上市公司地區(qū)指數(shù)網(wǎng)絡(luò)的集聚程度較高,具有小世界網(wǎng)絡(luò)的集聚特征.從三角節(jié)點數(shù)量上看,在使用的邊差不多的情況下,MI(Model 1)提取出的三角數(shù)量比Pearson(Model 2)多出20多個,說明MI能夠提高節(jié)點的質(zhì)量.
從模塊化程度上看,模塊度(modularity)能測量社區(qū)劃分的質(zhì)量,是一種衡量網(wǎng)絡(luò)社區(qū)結(jié)構(gòu)強(qiáng)度的方法.本文采用了Blondel等[43]的算法計算模塊度,參數(shù)為默認(rèn)的(隨機(jī),使用邊的權(quán)值,Resolution取1).在MST網(wǎng)絡(luò)中模塊度均大于0.6,劃分質(zhì)量較好,描述了網(wǎng)絡(luò)中強(qiáng)大的社區(qū)結(jié)構(gòu)和明確的社區(qū)劃分[44];而TN網(wǎng)絡(luò)的模塊度均小于0.1,劃分質(zhì)量差一些.從數(shù)量上看,不論是MST網(wǎng)絡(luò)還是TN網(wǎng)絡(luò),MI均大于Pearson,這一點在TN網(wǎng)絡(luò)中尤其明顯,說明MI方法更能挖掘出更好的社區(qū)結(jié)構(gòu).此外,從社區(qū)結(jié)構(gòu)的數(shù)量(number of communities,NOC)看,在相同的情況下,MI方法(Model 1和Model 3)均略少于Pearson方法(Model 2和Model 4),說明MI方法保留的節(jié)點關(guān)系更為密切,聯(lián)系更為緊密.
圖5 雙對數(shù)坐標(biāo)下度分布及線性擬合圖Fig.5.Degree distribution in LogLog and their linear fitting.
對于給定的數(shù)據(jù)和網(wǎng)絡(luò)結(jié)構(gòu),每個節(jié)點的度都是固定的.本節(jié)使用Clauset等[45]的方法來考察節(jié)點度的分布情況.
Model 1—Model 4這4種網(wǎng)絡(luò)的雙對數(shù)坐標(biāo)下的節(jié)點度分布以及相應(yīng)的線性擬合見圖5,從圖中可以看出明顯的冪律分布特征.
與前面幾節(jié)中使用整個數(shù)據(jù)集構(gòu)建網(wǎng)絡(luò)不同的是,本節(jié)將數(shù)據(jù)按年度劃分,分別構(gòu)建11個網(wǎng)絡(luò).由于MST網(wǎng)絡(luò)過于精簡,本小節(jié)將只考慮TN網(wǎng)絡(luò),分別使用MI和Pearson為相關(guān)系數(shù),分別對11個年份數(shù)據(jù)構(gòu)造金融網(wǎng)絡(luò),閾值均采用上面提到的分位數(shù)統(tǒng)計方法,主要考慮MI和Pearson兩種方法的可對比性(連邊數(shù)最為接近).分別從小世界動態(tài)指標(biāo)、網(wǎng)絡(luò)度中心性以及Jaccard指標(biāo)等3組動態(tài)指標(biāo)上考察捕捉2007年和2015年上證綜指兩次大幅波動的能力.
小世界動態(tài)指標(biāo)(dynamics of the smallworld)定義為網(wǎng)絡(luò)平均最短路徑長度與網(wǎng)絡(luò)聚類系數(shù)之間的比值[46].圖6中MI(實線)小世界動態(tài)指標(biāo)的值在2015年達(dá)到極值,并且在2007年也出現(xiàn)了一個局部峰值.與其對比的是圖6中Pearson(虛線)小世界動態(tài)指標(biāo)峰值出現(xiàn)在2012年,2015年次之.這兩個圖的對比說明對于異常年份的反應(yīng)能力MI比Pearson有所提高.
圖6 TN網(wǎng)絡(luò)的小世界動態(tài)指標(biāo)Fig.6.Dynamics of the small-world of TN.
逐年的網(wǎng)絡(luò)度中心性(network degree centralization)指標(biāo)如圖7所示,可以看出,MI(實線)在2015年達(dá)到次高峰值,2007年也出現(xiàn)了局部峰值;而Pearson(虛線)則在2007年沒有出現(xiàn)峰值.此外,考察每年節(jié)點度的大小,MI和Pearson兩種方法中,貴州板塊除了2015年度較小外(MI為13,Pearson為15),其他年度均具有較大的度值(30左右),說明近些年貴州板塊發(fā)揮了重要的作用.
Jaccard指標(biāo)[47]能夠識別動態(tài)TN的穩(wěn)定性,2個閾值網(wǎng)絡(luò)之間的Jaccard指標(biāo)定義為[29]
其中N1是兩個閾值網(wǎng)絡(luò)間相同節(jié)點對的連接數(shù)目;N是這兩個閾值網(wǎng)絡(luò)總的連接數(shù)目.
Jaccard指標(biāo)計算結(jié)果如圖8所示,MI(實線)的平均值為0.397(2012—2013年間的最小值為0.292,這段時間上證綜指波動幅度較小).Pearson(虛線)的平均值為0.519.從Jaccard指標(biāo)看,MI和Pearson模型的Jaccard值多數(shù)都在0.3以上[29],說明地區(qū)指數(shù)數(shù)據(jù)具有網(wǎng)絡(luò)的動態(tài)穩(wěn)定性[47].
圖7 TN網(wǎng)絡(luò)的網(wǎng)絡(luò)度中心性指標(biāo)Fig.7.Network degree centralization of TN.
圖8 TN網(wǎng)絡(luò)的Jaccard指標(biāo)Fig.8.Jaccard index of TN.
復(fù)雜網(wǎng)絡(luò)被廣泛地應(yīng)用于金融領(lǐng)域,能夠反映金融市場整體的拓?fù)浣Y(jié)構(gòu)、動態(tài)運行規(guī)律以及金融主體之間的相互依賴關(guān)系.本文使用文本互信息方法來度量地區(qū)金融指數(shù)節(jié)點的相關(guān)性,分別構(gòu)建了MST與TN網(wǎng)絡(luò),并將其與Pearson相關(guān)系數(shù)的網(wǎng)絡(luò)從節(jié)點相關(guān)度、網(wǎng)絡(luò)拓?fù)渲笜?biāo)數(shù)值大小、度分布的冪律檢驗以及動態(tài)網(wǎng)絡(luò)特征等方面進(jìn)行了對比,數(shù)值結(jié)果表明文本互信息方法在多數(shù)指標(biāo)上優(yōu)于Pearson方法.1)在金融網(wǎng)絡(luò)中引入基于文本互信息的相關(guān)性度量方法,計算時不需要將樣本人為離散化成幾個不同的狀態(tài),也不需要假設(shè)樣本服從Dirichlet分布;2)在閾值網(wǎng)絡(luò)中提出使用分位數(shù)來確定閾值的方法,考慮到兩種方法對比的實際需要,本文將數(shù)據(jù)6等分并取第4個區(qū)間的中點為閾值;3)將中國滬深兩地證券市場按地區(qū)(不含港澳臺)劃分,并從復(fù)雜網(wǎng)絡(luò)的角度對證券市場的空間性質(zhì)進(jìn)行研究,從中得出一些關(guān)于地區(qū)指數(shù)的結(jié)論;4)從地區(qū)金融網(wǎng)絡(luò)的拓?fù)浞治鲋锌梢钥闯?中國地區(qū)金融網(wǎng)絡(luò)服從冪律分布;該網(wǎng)絡(luò)具有動態(tài)的穩(wěn)定性;一些經(jīng)濟(jì)欠發(fā)達(dá)地區(qū)處于網(wǎng)絡(luò)中心位置,在分析中國滬深證券市場時不應(yīng)該被忽略.
在計算動態(tài)指標(biāo)時使用了靜態(tài)閾值,由于金融市場存在波動率長程關(guān)聯(lián),下一步將考察動態(tài)閾值對指標(biāo)的影響[48].此外,導(dǎo)致經(jīng)濟(jì)欠發(fā)達(dá)地區(qū)在地區(qū)復(fù)雜網(wǎng)絡(luò)中重要的原因是什么,是因為這些地區(qū)股票家數(shù)過少,還是市場本身還有沒被發(fā)掘的現(xiàn)象?這也是值得進(jìn)一步討論的工作.將本文提出的方法推廣到其他金融領(lǐng)域如外匯市場,在引入量化系統(tǒng)后應(yīng)用于實際投資以及金融危機(jī)的預(yù)測等也是值得研究的方向.