申 敏,吳和成
(1.南京工業(yè)大學(xué) 數(shù)理科學(xué)學(xué)院,南京 211816;2.南京航空航天大學(xué) 經(jīng)濟管理學(xué)院,南京211100)
R-vine copula模型與PCBN模型的比較
申 敏1,2,吳和成2
(1.南京工業(yè)大學(xué) 數(shù)理科學(xué)學(xué)院,南京 211816;2.南京航空航天大學(xué) 經(jīng)濟管理學(xué)院,南京211100)
文章對比了兩類刻畫高維變量相依結(jié)構(gòu)模型——R-vine copula模型和PCBN模型,并將其應(yīng)用于國民經(jīng)濟九大行業(yè)信用風(fēng)險相依結(jié)構(gòu)分析,結(jié)果表明,與R-vine copula模型相比,PCBN模型能更好地兼顧模型的準確性和簡潔性目標(biāo)。通過PCBN模型可以發(fā)現(xiàn):國民經(jīng)濟整個系統(tǒng)內(nèi)行業(yè)間存在條件獨立關(guān)系,其中七個行業(yè)構(gòu)成的子系統(tǒng)是整個系統(tǒng)內(nèi)風(fēng)險傳染的關(guān)鍵媒介,而在子系統(tǒng)內(nèi)部,水電燃氣、批發(fā)零售、信息軟件及金融業(yè)是信用風(fēng)險傳染的關(guān)鍵媒介。
R-vine copula;PCBN;行業(yè)信用風(fēng)險;相依結(jié)構(gòu)
近年涌現(xiàn)了大量與二元copula族相關(guān)的文獻,但除了橢圓類或阿基米德類copula函數(shù)外,很少有能直接推廣到多元情形的copula。已有的多維copula函數(shù)往往因為對參數(shù)的唯一性要求較高、不能很好地刻畫多變量之間復(fù)雜的相依關(guān)系而逐漸被一種基于copula的分層結(jié)構(gòu)方法所取代。目前較流行的分層結(jié)構(gòu)算法是R-vine copula算法。在Joe[1]的基礎(chǔ)上,Bedford&Cooke[2,3]對該方法進行了系統(tǒng)深入的研究。由于這種分層方法可以集結(jié)所有潛在雙變量的pair-copula(PC),具有高度的靈活性,能夠為種類繁多的復(fù)雜相依結(jié)構(gòu)進行建模,非常適宜為高維數(shù)據(jù)建模,因此備受學(xué)者們青睞。然而,這種方法也有一定缺陷,其中主要的問題是隨著變量維度的增加,可選結(jié)構(gòu)的種類以及待估參數(shù)數(shù)量將隨之以平方函數(shù)速度增加,運算量較大。
因此,如何簡化R-vine copula模型,既能快速有效地確定模型結(jié)構(gòu)又能減少待估參數(shù)數(shù)量,是一個亟待解決的問題。事實上,當(dāng)多變量中存在某兩變量間的獨立或條件獨立關(guān)系時,其PC函數(shù)值恒為1,無需估計,此時待估PC數(shù)量將會減少。于是,為簡化R-vine copula模型,Brechmann等[4]指出,鑒于R-vine copula結(jié)構(gòu)估計算法建立在第一棵樹具有最強相依關(guān)系的基礎(chǔ)上,因此可以假定后面的樹中所有的pair變量間均條件獨立。然而,這種事先設(shè)定變量間滿足條件獨立關(guān)系的構(gòu)建方式在現(xiàn)實中顯得不盡合理。
如何合理地簡化多元統(tǒng)計建模?為隨機變量族的條件獨立結(jié)構(gòu)建模的圖模型提供了強有力的工具。根據(jù)圖模型所得到的條件獨立關(guān)系可以很方便地由圖中表示變量的節(jié)點以及表示變量間內(nèi)在關(guān)系的邊所表達[5],其優(yōu)點是只需要考慮局部的分布而不需要直接考慮全局分布模型。因此,可以應(yīng)用于高維模型避免維數(shù)災(zāi)難。圖模型中應(yīng)用最為廣泛的是貝葉斯網(wǎng)絡(luò)(BN),其Markov性質(zhì)可以通過有向無環(huán)圖(DAG)所表現(xiàn)。貝葉斯網(wǎng)絡(luò)方法可以認為是高維相依結(jié)構(gòu)的一種稀疏的表現(xiàn)形式。利用有限的數(shù)據(jù)對相依性進行稀疏化建模的研究近年受到越來越多的關(guān)注[6]。其中較為典型的是Bauer[7,8]提出的將pair-copula構(gòu)建方法與貝葉斯網(wǎng)絡(luò)結(jié)合的新型多元統(tǒng)計模型——Pair-copula Bayesian Network(PCBN)。
基于上述討論,本文將從模型簡化的角度,對R-vine copula模型與PCBN模型進行比較,并將其應(yīng)用于國民經(jīng)濟九大行業(yè)的信用風(fēng)險相依結(jié)構(gòu)分析中。
1.1 R-vine copula模型
由Sklar定理[9]知,高維數(shù)據(jù)的聯(lián)合分布可由邊緣分布與copula函數(shù)聯(lián)合表出,而R-vine copula算法將聯(lián)合copula函數(shù)以一列樹集的形式進行分層分解。
具體地,對非空有限點集V,令d∶= ||V,則在V上定義的 R-vine是一列樹集 υ:=(T1,…,Td-1),其中T1=(V1,E1),…,Td-1=(Vd-1,Ed-1),V1=V ,Vi=Ei-1(i≥2)即樹Ti的點是樹Ti-1的邊,用{v,w}表示Ti的一條邊,即Ei?{ }{v,w}|v≠w∈Vi,υ中的每棵樹Ti滿足鄰近條件,即對?{v,w}∈Ei有 ||vΔw=2,其中vΔw=(v∪w) (v∩w)。
為了方便地表達聯(lián)合概率分布的分解形式,Mo-rales-Nápoles等[10]提出利用約束集矩陣來存儲R-vine的所有樹和邊的集合υ,這樣每一個條件分布可以根據(jù)約束集集合CM=CM(i)∪…∪CM(d-1)來表達,其中第i個約束集是CM(i)={({mi,i,mk,i},D)|k=i+1,}…,d,D={mk+1,i,…,md,i} (i=1,…,d-1){mi,i,mk,i}稱為被條件集,D為條件集。
根據(jù)Bedford and Cooke[11的推導(dǎo),運用約束集矩陣的符號表示,可得x=(x1,…,xd)的R-Vine分布密度可以分解為一系列二維PC和邊緣分布密度之積。
其中:
建立一個d維R-vine copula模型結(jié)構(gòu)υ需要定義的PC數(shù)量是,其值隨d以二次函數(shù)速度增長。DiBmann等[12]提出在眾多可能的模型中確定最恰當(dāng)模型的最大遍歷樹算法,其中每棵樹Ti的選擇都以使得Vi上滿足所有邊的pair變量相關(guān)性之和最大的一棵樹。當(dāng)d較大時,模型結(jié)構(gòu)的確定及相應(yīng)PC類型及參數(shù)估計的運算量非常大。
然而,當(dāng)pair變量(pair copula所對應(yīng)的變量稱為pair變量)間存在獨立或條件獨立關(guān)系時,其PC函數(shù)值恒為1,此時待估PC數(shù)量將會減少。因此,確定變量間的條件獨立關(guān)系可以使多元copula函數(shù)的分解變得更簡潔。而通過貝葉斯網(wǎng)絡(luò)(BN)的有向無環(huán)圖(DAG)可以直觀地發(fā)現(xiàn)所有具有條件獨立關(guān)系的變量。
1.2 PCBN(Pair-copula Bayesian Network)模型
設(shè)D=(V,E)是一個DAG,P為d維空間上的概率測度,X為d維隨機變量,則對任意兩兩不相交的集合I,J,K?V,都滿足XK∶=(Xk)k∈K給定時XI與XJ條件獨立,記為則稱P具有全局D-Markovian性質(zhì);對所有v∈V,若滿足則稱P具有局部D-Markovian性質(zhì)。Lauritzen[13]證明了兩個性質(zhì)是等價的。此時P的概率密度 f可表示為D-遞歸分解形式:
顯然,f的D-遞歸分解形式是以確定的DAG結(jié)構(gòu)(即D=(V,E))為基礎(chǔ)的。定義D最簡便的方法是通過專家知識,但應(yīng)用范圍有限,因為專家知識通常很有限或不可得。因此,目前較流行兩類基于數(shù)據(jù)驅(qū)動的DAG結(jié)構(gòu)估計算法——基于約束的算法和評分-搜索算法,其中前者通過一系列條件獨立檢驗來推斷D,后者通過在恰當(dāng)?shù)乃阉骺臻g中優(yōu)化給定的得分函數(shù)(如AIC和BIC)來發(fā)現(xiàn)D。
于是,在給定D結(jié)構(gòu)及所有父節(jié)點排序的基礎(chǔ)上,相應(yīng)的聯(lián)合概率密度便可分解為如下邊緣分布密度和一系列二元條件copula的乘積[7]。
這種通過DAG和pair copula來構(gòu)造聯(lián)合分布的模型稱為PCBN(Pair-copula Bayesian Network)模型。
2.1 樣本與數(shù)據(jù)的選擇
本文選取的樣本來自按證監(jiān)會行業(yè)分類標(biāo)準劃分的國民經(jīng)濟18個門類行業(yè),選擇其中行業(yè)市值占全行業(yè)市值比重始終處于前9位的行業(yè),即采礦業(yè)B、制造業(yè)C、電熱水燃氣業(yè)D、建筑業(yè)E、批發(fā)零售業(yè)F、交通運輸倉儲業(yè)G、信息軟件業(yè)I、金融業(yè)J、房地產(chǎn)業(yè)K,由于9行業(yè)總市值始終占全行業(yè)總市值的90%以上,因此對樣本行業(yè)信用風(fēng)險的分析可以代表整個國民經(jīng)濟的信用風(fēng)險狀況。樣本期為2008年1月至2014年9月,共81個月。本文所有數(shù)據(jù)均來源于銳思數(shù)據(jù)庫。
2.2 行業(yè)信用風(fēng)險的R-vine copula建模
依或有權(quán)益法(CCA)得出9行業(yè)信用風(fēng)險的表征——違約距離DD,并對違約距離的經(jīng)驗分布函數(shù)序列ui(i=1,…,9)做K-S檢驗(見表1)。
表1 K-S檢驗結(jié)果
由表1顯見,各行業(yè)違約距離的經(jīng)驗分布序列均在1%水平下接受服從均勻分布U(0,1)的假設(shè),因此可用于PC模型構(gòu)建。
根據(jù)行業(yè)Kendall'τ相關(guān)系數(shù)矩陣,通過最大生成樹MST-PRIM算法,挑選Kendall'τ相關(guān)系數(shù)絕對值較大的行業(yè)對,同時兼顧“初始節(jié)點要保證相關(guān)性最強的節(jié)點間連接成邊”及“保證每個節(jié)點都至少有其中的一條邊與之連接”原則,選擇的pair行業(yè)對分別是J-C、C-B、K-I、I-B、B-D、D-G、E-G、G-F,從而確定R-vine的第一棵樹形結(jié)構(gòu)圖,如圖1所示。
圖1 R-vine的第一棵樹形結(jié)構(gòu)圖
類似地,可選擇R-vine的另外7棵樹的結(jié)構(gòu),從而得到R-vine copula結(jié)構(gòu)矩陣,如圖2所示。
圖2 R-vine copula結(jié)構(gòu)矩陣
圖3 R-vine PC類型矩陣
依據(jù)AIC或BIC最小原則,在常見的五類分別用于刻畫變量間的不同相依特征的copula類型族中(Gaussian、t、Clayton、Gumbel、Frank copula,分別用N、t、C、G、F來表示),通過計算每個pair copula(PC)在相應(yīng)copula族中的AIC或BIC值,最終確定36對PC的類型,與結(jié)構(gòu)矩陣相對應(yīng)的PC類型矩陣如圖3所示。并通過極大似然估計法,估計所有38個copula參數(shù)(限于篇幅,暫未列出)。
2.3 行業(yè)信用風(fēng)險的PCBN建模
以9行業(yè)信用違約距離的累計經(jīng)驗分布序列ui(i=1,…,9)為對象,分別利用基于約束的PC算法和基于評分-搜索的爬山算法(HC)對九維貝葉斯網(wǎng)絡(luò)進行結(jié)構(gòu)學(xué)習(xí),結(jié)果發(fā)現(xiàn)PC算法對網(wǎng)絡(luò)邊及方向的識別弱于HC算法,因此,本文采納HC算法得到網(wǎng)絡(luò)結(jié)構(gòu)。為使得到的DAG為良序,本文將行業(yè)序號重排如下:1→B,2→C,3→G,4→J,5→I,6→F,7→D,8→K,9→E。結(jié)果如圖4所示。通過計算圖4中各節(jié)點與其相應(yīng)父節(jié)點的Kendell相關(guān)系數(shù),依從大到小的順序得到父節(jié)點排序,其矩陣表示如圖5所示,其中每一列的非零元素個數(shù)表示相應(yīng)列所對應(yīng)元素的父節(jié)點個數(shù),其數(shù)值表相應(yīng)行所對應(yīng)元素在相應(yīng)列對應(yīng)元素的父節(jié)點排序,例如,由第K列可知,I<KC<KF<KD。
圖4 良序DAG圖
圖5 父節(jié)點順序矩陣
為了與R-vine copula模型相比較,根據(jù)良序DAG及父節(jié)點排序可得與R-vine約束集矩陣M=(mi,j)i,j=1,…,d定義方式相同的結(jié)構(gòu)矩陣來存儲DAG所包含的所有路徑及邊的集合,結(jié)果如圖6所示,其中“×”表示該位置的變量與對角線元素變量存在條件獨立關(guān)系,因此可以不予考慮。根據(jù)網(wǎng)絡(luò)學(xué)習(xí)原理,網(wǎng)絡(luò)結(jié)構(gòu)矩陣第一行元素與對角線元素構(gòu)成的pair變量間的相依性捕捉了多元相依結(jié)構(gòu)中最重要的相依關(guān)系,相應(yīng)的八對pair行業(yè)分別是E-G、K-I、D-G、F-G、I-B、J-C、G-B、C-B。
由圖6得九維聯(lián)合分布可分解為如下形式:
圖6 貝葉斯網(wǎng)絡(luò)結(jié)構(gòu)矩陣
圖7 貝葉斯網(wǎng)絡(luò)PC類型矩陣
依據(jù)AIC或BIC最小原則,依然在上述五類copula類型族中通過計算每個pair copula(PC)在相應(yīng)copula族中的AIC或BIC值,最終確定16對PC的類型,與結(jié)構(gòu)矩陣相對應(yīng)的PC類型矩陣如圖7所示。通過極大似然估計法,得出所有18個PC參數(shù)以及整個模型的極大似然估計值及AIC、BIC值。(篇幅所限,各參數(shù)的估計結(jié)果暫未列出)
2.4 R-vine copula與PCBN模型比較及結(jié)果分析
現(xiàn)將兩模型整體估計結(jié)果及相關(guān)特征如表2所示。
表2 R-vine copula與PCBN模型比較
由表2可以看出,從模型簡潔性來看,PCBN待估PC數(shù)目遠遠小于R-vine copula,因而更為簡潔,更適宜為高維數(shù)據(jù)建模;同時,從模型準確性來看,雖然R-vine copula模型的似然值較大且AIC較小,但當(dāng)樣本容量較大時,BIC準則更傾向于選擇較簡潔模型,而PCBN的BIC值相對更小,因此可以較好地刻畫高維數(shù)據(jù)相依結(jié)構(gòu);事實上,觀察圖2和圖6,比較R-vine copula結(jié)構(gòu)矩陣和貝葉斯網(wǎng)絡(luò)結(jié)構(gòu)矩陣的第一行元素和對角線元素,兩者所確定的pair行業(yè)對除了兩對行業(yè)不同以外,其他均相同,說明兩模型在捕捉多元相依結(jié)構(gòu)中最重要的相依關(guān)系方面基本一致。而且由于構(gòu)建R-vine時要滿足“鄰近原則”的約束,因此在捕捉最重要相依關(guān)系時的表現(xiàn)甚至稍遜于沒有約束的貝葉斯網(wǎng)絡(luò);此外,從模型所蘊含的信息量來看,由于PCBN所對應(yīng)的網(wǎng)絡(luò)結(jié)構(gòu)是有向無環(huán)圖(DAG),可發(fā)現(xiàn)節(jié)點間的因果關(guān)系。并且,由于DAG具有D-Markovian性質(zhì),可發(fā)現(xiàn)節(jié)點集間的條件獨立關(guān)系,因此模型所含信息量更為豐富?;谝陨鲜聦崳疚膶⒁訮CBN模型估計結(jié)果對國民經(jīng)濟9大行業(yè)信用風(fēng)險相依關(guān)系進行分析。
首先,由圖3的DAG圖可見,網(wǎng)絡(luò)中的邊數(shù)較多,說明行業(yè)間存在錯綜復(fù)雜的相互關(guān)系,其中包含節(jié)點K和節(jié)點G的邊最多,說明這兩個行業(yè)與其他行業(yè)聯(lián)系最廣泛。聯(lián)合概率測度滿足D-Markovian性質(zhì),其中{B,C}⊥{E}| {D,F(xiàn),G,I,J,K},即,在能源、貨幣、信息、商品等7個廣義上的流通類行業(yè)條件下,{采礦、制造業(yè)}與{建筑業(yè)}這兩大類實體行業(yè)信用風(fēng)險相互獨立。整個系統(tǒng)的危機傳遞路徑從采礦、制造業(yè)開始通過流通類行業(yè)蔓延到建筑業(yè),從而形成國民經(jīng)濟系統(tǒng)信用危機。因此,防范系統(tǒng)危機的關(guān)鍵是防范流通類行業(yè)的信用危機。而在流通類行業(yè)子系統(tǒng)中,存在{G}⊥{K}|{D,F(xiàn),I,J},即交通運輸業(yè)與房地產(chǎn)業(yè)在其余4個行業(yè)條件下相互獨立,在該子系統(tǒng)中危機傳染路徑從交通運輸業(yè)經(jīng)這4個行業(yè)傳遞至房地產(chǎn)業(yè)。因此,防范流通類行業(yè)子系統(tǒng)信用危機的關(guān)鍵在于防范水電燃氣、批發(fā)零售、信息軟件及金融業(yè)的信用危機。此外,在流通類行業(yè)子系統(tǒng)中,G、J、F兩兩相連,構(gòu)成全網(wǎng)絡(luò),說明3行業(yè)關(guān)系密切,且由邊的方向可以看出,交通運輸業(yè)G可直接影響也可通過金融業(yè)J間接影響批發(fā)零售業(yè)F的信用風(fēng)險狀況。
另外,從圖6結(jié)構(gòu)矩陣的第一行可以看出,與節(jié)點G和節(jié)點B構(gòu)成無條件pair相依關(guān)系的節(jié)點較多,說明交通運輸業(yè)和采礦業(yè)在國民經(jīng)濟行業(yè)系統(tǒng)的相依結(jié)構(gòu)中起到相對更重要的樞紐作用,其他行業(yè)間的信用風(fēng)險聯(lián)系大多以這兩個行業(yè)為條件。而從圖7的PC類型矩陣可以看出,K-I、D-G、C-B適用Clayton copula,,即存在下尾相關(guān),有同時暴跌的可能;E-G、I-J|B適用Gumbel copula,即存在上尾相關(guān),可實現(xiàn)共同繁榮;E-K|G、G-B適用t copula,即存在對稱的尾部相關(guān)性;而其他pair變量間則沒有明顯的尾部相關(guān)性。
本文以國民經(jīng)濟9大行業(yè)信用風(fēng)險相依結(jié)構(gòu)為研究對象,分別利用R-vine copula模型和PCBN模型為相依結(jié)構(gòu)建模,并從準確性、簡潔性及信息含量豐富性等方面對兩模型進行比較,選出表現(xiàn)較好的模型并對實證結(jié)果進行分析。實證結(jié)果表明,PCBN模型的BIC值最小,即在兼顧模型的準確性和簡潔性時,PCBN相比R-vine copula模型更適合于為國民經(jīng)濟行業(yè)系統(tǒng)的信用風(fēng)險相依結(jié)構(gòu)建模。而通過PCBN模型可以發(fā)現(xiàn):國民經(jīng)濟整個系統(tǒng)內(nèi)行業(yè)間存在條件獨立關(guān)系,流通類行業(yè)子系統(tǒng)是系統(tǒng)風(fēng)險傳染的關(guān)鍵媒介,而在流通類行業(yè)子系統(tǒng)中,水電燃氣、批發(fā)零售、信息軟件及金融業(yè)是信用風(fēng)險傳染的關(guān)鍵媒介。另外,實證結(jié)果還發(fā)現(xiàn)了交通運輸業(yè)和采礦業(yè)在國民經(jīng)濟行業(yè)系統(tǒng)的相依結(jié)構(gòu)中起到相對更重要的樞紐作用,并發(fā)現(xiàn)了不同行業(yè)及條件行業(yè)間的尾部相關(guān)性。
[1]Joe H.Families of M-variate Distributions With Given Margins and M (M-1)/2 Bivariate Dependence Parameters[J].Institute of Mathemati?cal Statistics,Hayward.1996,(28).
[2]Bedford T,Cooke R M.Probability Density Decomposition for Condi?tionally Dependent Random Variables Modeled by Vines[J].Annals of Mathematics and Artificial Intelligence,2001,(32).
[3]Bedford T,Cooke R M.Vines—A New Graphical Model for Depen?dent Random Variables[J].Annals of Statistics.2002,30(4).
[4]Brechmann E C,Czado C,Aas K.Truncated Regular Vines in High Dimensions With Application to Nancial Data[J].Canadian Journal of Statistics 2012.(40).
[5]Lauritzen S L.Graphical Models[M].Oxford:Oxford University Press, 1996.
[6]Kurowicka D.Cooke R.Uncertainty Analysis With High Dimensional Dependence Modelling[J].Technometrics,2007,49(1).
[7]Bauer A,Czado C.Pair-copula Bayesian Networks.[DB/OL]http://arx?iv.org/abs/1211.5620.23 Nov 2012.
[8]BauerA,Czado C, Klein T.Pair-copula Constructions for Non-gaussian DAG Models[J].The Canadian Journal of Statistics. 2012,40(1).
[9]Sklar M.Fonctioms de Répartition à N Dimension Et Leurs Marges [J].Publ.Inst.Statist.Univ.Paris,1960,(8).
[10]Morales-Nápoles O,Cooke R M,Kurowicka D.About the Number of Vines and Regular Vines on N Nodes[DB/OL].http://scholar.google. ca/citations.2010.
[11]Bedford T,Cooke R M.Probability Density Decomposition for Condi?tionally Dependent Random Variables Modeled by Vines[J].Annals of Mathematics and Articial intelligence,2001,32(1).
[12]Diβanna J,Brechmanna E C,Czadoa C,et al.Selecting and Estimat?ing Regular Vine Copulae and Application to Financial Returns[J]. Computational Statistics and Data Analysis.2013(59).
[13]Lauritzen S L.Graphical Models[M].Oxford:Oxford University Press, 1996.
(責(zé)任編輯/浩 天)
0212.4
A
1002-6487(2016)23-0073-04
國家自然科學(xué)基金資助項目(71401074);江蘇省哲學(xué)社會科學(xué)基金重點項目(14GLA003);江蘇省高校研究生科研創(chuàng)新計劃項目(KYZZ_0099);江蘇省教育廳高校哲學(xué)社會科學(xué)研究項目(2016SJB630030)
申 敏(1978—),女,安徽鳳陽人,博士研究生,講師,研究方向:金融風(fēng)險管理。
吳和成(1963—),男,江蘇啟東人,教授,博士生導(dǎo)師,研究方向:金融風(fēng)險管理、區(qū)域創(chuàng)新管理。