王雙成,鄭 飛,趙大平
1(上海立信會(huì)計(jì)金融學(xué)院 信息管理學(xué)院,上海 201620) 2(上海立信會(huì)計(jì)金融學(xué)院 數(shù)據(jù)科學(xué)交叉研究院,上海 201209) 3(上海立信會(huì)計(jì)金融學(xué)院 國(guó)際經(jīng)貿(mào)學(xué)院,上海 201620)
人類對(duì)現(xiàn)實(shí)世界中現(xiàn)象的一種強(qiáng)烈渴望就是因果聯(lián)系,從古至今人們不間斷地從不同層次和角度探索因果理論和發(fā)現(xiàn)因果關(guān)系的方法,以達(dá)到更好地認(rèn)識(shí)和改造世界的目的.早期的因果關(guān)系屬于哲學(xué)的范疇,現(xiàn)代更強(qiáng)調(diào)從數(shù)據(jù)中的因果關(guān)系發(fā)現(xiàn).時(shí)間序列是現(xiàn)實(shí)世界數(shù)據(jù)的重要表現(xiàn)形式之一,對(duì)時(shí)間序列已有許多研究,如胡衍坤[1]、楊超[2]和任守綱[3]等.在宏觀經(jīng)濟(jì)與金融等領(lǐng)域,數(shù)據(jù)主要以時(shí)間序列的形式存在,大量宏觀經(jīng)濟(jì)與金融時(shí)間序列真實(shí)地記錄了系統(tǒng)在不同時(shí)間點(diǎn)(或時(shí)間片)的各種重要信息,其中蘊(yùn)含著豐富而有價(jià)值的因果關(guān)系和映射規(guī)則等方面的知識(shí),這些知識(shí)往往是診斷宏觀經(jīng)濟(jì)與金融體系運(yùn)行情況,揭示經(jīng)濟(jì)運(yùn)行規(guī)律,以及制定相應(yīng)的調(diào)控政策的重要依據(jù).具有不充分信息的時(shí)間序列數(shù)據(jù)普遍存在,對(duì)其進(jìn)行因果建模和信息傳遞計(jì)算也有著廣泛的需求.關(guān)于時(shí)間序列變量的因果關(guān)系研究主要從兩個(gè)方面展開(kāi),分別是連續(xù)變量(或數(shù)據(jù))和離散變量(或數(shù)據(jù))的因果關(guān)系,它們各有優(yōu)勢(shì)與不足,并具有互補(bǔ)性.
對(duì)連續(xù)數(shù)據(jù)的因果關(guān)系研究主要采用回歸計(jì)算和檢驗(yàn)的方法,如David[4]采用廣義回歸發(fā)現(xiàn)因果關(guān)系,Ryutah[5]使用線性分位數(shù)回歸研究因果關(guān)系,Luo[6]依據(jù)逐步回歸的因果效應(yīng)分析,Maxim[7]關(guān)于全球化與轉(zhuǎn)型后歐盟國(guó)家社會(huì)經(jīng)濟(jì)發(fā)展的面板因果關(guān)系和回歸分析,Rothenhusler[8]采用錨回歸(Anchor regression)研究因果關(guān)系.這些因果關(guān)系發(fā)現(xiàn)(或檢驗(yàn))方法所依據(jù)的是逐步回歸計(jì)算和對(duì)回歸的貢獻(xiàn),往往具有較強(qiáng)的經(jīng)濟(jì)學(xué)含義,但一般是針對(duì)特定的問(wèn)題和具體的方面.
關(guān)于離散數(shù)據(jù)因果關(guān)系的研究一般采用貝葉斯網(wǎng)絡(luò)(Bayesian network)[9]或動(dòng)態(tài)貝葉斯網(wǎng)絡(luò)(Dynamic Bayesian network)[10]方法.貝葉斯網(wǎng)絡(luò)[1]是通過(guò)條件獨(dú)立性(或概率分布)來(lái)描述隨機(jī)變量(簡(jiǎn)稱為變量)之間的影響與制約關(guān)系的有向概率圖模型,在許多領(lǐng)域都得到了廣泛的應(yīng)用.它由結(jié)構(gòu)(有向無(wú)環(huán)圖)和參數(shù)(條件概率分布表)兩部分構(gòu)成,其結(jié)構(gòu)中弧的方向具有因果語(yǔ)義[10],因此是研究因果關(guān)系的有力工具,基于貝葉斯網(wǎng)絡(luò)進(jìn)行時(shí)間序列變量因果建模與分析是一種發(fā)展趨勢(shì),這種貝葉斯網(wǎng)絡(luò)一般也被稱為因果圖或因果關(guān)系網(wǎng)絡(luò)(本文采用這種稱呼).對(duì)貝葉斯網(wǎng)絡(luò)已有許多研究,主要集中在貝葉斯網(wǎng)絡(luò)學(xué)習(xí)、貝葉斯網(wǎng)絡(luò)推理和貝葉斯網(wǎng)絡(luò)應(yīng)用3個(gè)方面,如Constantinou[11]、Caravagna[12]和王雙成[13]等的貝葉斯網(wǎng)絡(luò)學(xué)習(xí)研究,Mitchell[14]、Zhang[15]和Jorge[16]等的貝葉斯網(wǎng)絡(luò)推理研究,Li[17]、Yan[18]和Wang[19]等的貝葉斯網(wǎng)絡(luò)應(yīng)用研究等,但這些貝葉斯網(wǎng)絡(luò)研究是針對(duì)非時(shí)間序列數(shù)據(jù).
動(dòng)態(tài)貝葉斯網(wǎng)絡(luò)[10,20]是貝葉斯網(wǎng)絡(luò)的擴(kuò)展,可用于解決與時(shí)間有關(guān)的不確定性問(wèn)題.1998年Friedman給出受平穩(wěn)性與馬爾可夫性兩個(gè)假設(shè)約束的動(dòng)態(tài)貝葉斯網(wǎng)絡(luò)定義和基于打分-搜索的學(xué)習(xí)方法,2002年Murphy比較系統(tǒng)地論述了動(dòng)態(tài)貝葉斯網(wǎng)絡(luò)的理論、方法和應(yīng)用,從此揭開(kāi)了動(dòng)態(tài)貝葉斯網(wǎng)絡(luò)的研究進(jìn)程.早期的動(dòng)態(tài)貝葉斯網(wǎng)絡(luò)主要關(guān)注的是隱馬爾科夫模型(Hidden Markov model)、卡爾曼濾波模型(Kalman filtering model)和兩個(gè)模型的變體,以及它們?cè)谡Z(yǔ)音識(shí)別、視頻分析和信息濾波等方面的應(yīng)用研究.目前,對(duì)動(dòng)態(tài)貝葉斯網(wǎng)絡(luò)的研究主要從3個(gè)方面展開(kāi),分別是Friedman動(dòng)態(tài)貝葉斯網(wǎng)絡(luò)的變體、減弱平穩(wěn)性和馬爾科夫性兩個(gè)假設(shè),以及動(dòng)態(tài)貝葉斯網(wǎng)絡(luò)的應(yīng)用,如Liu[21]、Harries[22]和Zakaria[23]等對(duì)變體的研究,Wu[24]、Shafiee[25]和Qiu[26]等對(duì)減弱兩個(gè)假設(shè)的研究,王雙成[27-31]和Liu[32]等的應(yīng)用研究.建立這些動(dòng)態(tài)貝葉斯網(wǎng)絡(luò)均需要大量的面板數(shù)據(jù)或時(shí)間序列數(shù)據(jù),對(duì)高維小樣本時(shí)間序列情況不具有實(shí)用性.
近些年,對(duì)因果關(guān)系的研究是一個(gè)熱點(diǎn),這些研究主要面向非時(shí)間序列數(shù)據(jù),并從兩個(gè)方面展開(kāi),一個(gè)方面是如何建立因果關(guān)系網(wǎng)絡(luò)(因果關(guān)系網(wǎng)絡(luò)學(xué)習(xí)),另一個(gè)方面是局部因果推斷.本文研究高維小樣本時(shí)間序列數(shù)據(jù)的因果關(guān)系網(wǎng)絡(luò)學(xué)習(xí)與因果影響計(jì)算,采用主流的搜索-打分方法建立因果關(guān)系網(wǎng)絡(luò),并將把經(jīng)典的統(tǒng)計(jì)抽樣方法與機(jī)器學(xué)習(xí)分類思想相結(jié)合的抽樣分類技術(shù)用于變量之間的信息傳遞和影響計(jì)算.
本文的主要貢獻(xiàn)如下:
1)當(dāng)時(shí)間序列數(shù)據(jù)集中所蘊(yùn)含的信息不充分時(shí),采用一般的依賴分析或搜索-打分方法所建立的因果關(guān)系網(wǎng)絡(luò)結(jié)構(gòu)的可靠性無(wú)法得到保障,本文首先將匯聚結(jié)構(gòu)與似然函數(shù)相結(jié)合,提出了匯聚遞減變量排序方法,在變量排序的基礎(chǔ)上,通過(guò)局部貪婪搜索-打分進(jìn)行因果關(guān)系網(wǎng)絡(luò)結(jié)構(gòu),可降低對(duì)數(shù)據(jù)量的需求,并能夠提高學(xué)習(xí)效率和可靠性.
2)具有不充分信息時(shí)間序列數(shù)據(jù)的因果關(guān)系網(wǎng)絡(luò)學(xué)習(xí),不可避免地會(huì)丟失一些弱因果關(guān)系,從而損失部分傳遞信息,本文通過(guò)建立信息提取變量來(lái)獲取壓縮的變量組信息,以彌補(bǔ)由弱因果關(guān)系的缺失所導(dǎo)致的傳遞信息丟失和實(shí)現(xiàn)高維數(shù)據(jù)的降維,并提出基于遞歸匯聚結(jié)構(gòu)和后驗(yàn)分布抽樣識(shí)別準(zhǔn)確率的信息傳遞計(jì)算方法.
3)基于遞歸匯聚結(jié)構(gòu)和后驗(yàn)分布抽樣識(shí)別準(zhǔn)確率,本文分別給出了時(shí)間序列變量之間的影響程度計(jì)算、影響的敏感性計(jì)算和匯聚與擴(kuò)散影響計(jì)算方法,而且還具有明顯的語(yǔ)義,并使用宏觀經(jīng)濟(jì)時(shí)間序列數(shù)據(jù)進(jìn)行了相應(yīng)的實(shí)驗(yàn)驗(yàn)證與分析.
文章分為5個(gè)部分,第1部分對(duì)貝葉斯網(wǎng)絡(luò)和動(dòng)態(tài)貝葉斯網(wǎng)絡(luò)的發(fā)展進(jìn)行回顧與分析;第2部分是時(shí)間序列變量之間的因果關(guān)系網(wǎng)絡(luò)學(xué)習(xí);第3部分給出了時(shí)間序列變量之間的信息傳遞計(jì)算方法;第4部分是使用宏觀經(jīng)濟(jì)時(shí)間序列數(shù)據(jù)進(jìn)行的實(shí)驗(yàn)與分析;第5部分是結(jié)論和進(jìn)一步的工作.時(shí)間序列變量之間的因果關(guān)系研究需要解決兩個(gè)問(wèn)題,一個(gè)是時(shí)間序列變量之間的因果關(guān)系網(wǎng)絡(luò)學(xué)習(xí),另一個(gè)是時(shí)間序列變量之間的信息傳遞計(jì)算,本文以宏觀經(jīng)濟(jì)指標(biāo)時(shí)間序列數(shù)據(jù)為背景,研究具有不充分信息的高維時(shí)間序列因果關(guān)系網(wǎng)絡(luò).另外,文中將概率模式中的變量和圖形模式中的結(jié)點(diǎn)有時(shí)不加區(qū)分,對(duì)變量、因素和指標(biāo)有時(shí)也不加區(qū)分.
針對(duì)具體情況和實(shí)際需求,我們將高維時(shí)間序列分成兩部分,一部分是核心時(shí)間序列(根據(jù)專業(yè)知識(shí)確定),另一部分是外圍時(shí)間序列;在時(shí)間序列數(shù)據(jù)預(yù)處理的基礎(chǔ)上(包括缺失值處理和離散化),對(duì)于核心時(shí)間序列,需要建立因果關(guān)系網(wǎng)絡(luò);而關(guān)于外圍時(shí)間序列,由于時(shí)間序列較多,首先根據(jù)專業(yè)領(lǐng)域知識(shí)(或聚類算法)進(jìn)行分組,然后建立每一個(gè)組的信息提取變量,最后將所有信息提取變量融入核心時(shí)間序列的因果關(guān)系網(wǎng)絡(luò),從而可實(shí)現(xiàn)高維時(shí)間序列變量的降維.使用X1[t],X2[t],…,Xn[t]表示具有離散值的時(shí)間序列變量,x1[t],x2[t],…,xn[t]是具體的取值,D[n,T]={x1[t],x2[t],…,xn[t]|1≤t≤T}表示具有n個(gè)時(shí)間序列變量和T個(gè)記錄的時(shí)間序列數(shù)據(jù)集.
雖然有許多方法可用于時(shí)間序列的因果關(guān)系網(wǎng)絡(luò)學(xué)習(xí),但對(duì)于具有不充分信息的時(shí)間序列數(shù)據(jù),本文結(jié)合變量排序和具有代表性的局部貪婪搜索-打分進(jìn)行核心時(shí)間序列變量的因果關(guān)系網(wǎng)絡(luò)學(xué)習(xí),學(xué)習(xí)過(guò)程包括變量排序、因果關(guān)系網(wǎng)絡(luò)結(jié)構(gòu)學(xué)習(xí)與因果關(guān)系網(wǎng)絡(luò)參數(shù)學(xué)習(xí)3個(gè)部分.
1)變量的排序
圖1 以為父結(jié)點(diǎn)的匯聚結(jié)構(gòu)Fig.1 Aggregation structure with as parent node
根據(jù)似然函數(shù)的定義和和圖1中的條件獨(dú)立性關(guān)系,可以得到:
(1)
算法1.核心變量組中變量的排序
輸入:時(shí)間序列數(shù)據(jù)集D(0)[n(0),T]
輸出:核心變量組中變量的順序
1.Forv=1 ton(0)-1
2. 計(jì)算1+n(0)-v個(gè)變量的似然打分
3. 在其中選擇具有最大似然打分的變量排在第v個(gè)位置
4.End for
5.將最后一個(gè)變量排在n(0)的位置,得到核心變量組中變量的順序
2)因果關(guān)系網(wǎng)絡(luò)學(xué)習(xí)
算法2.核心變量組的因果關(guān)系網(wǎng)絡(luò)學(xué)習(xí)
輸出:核心變量組的因果關(guān)系網(wǎng)絡(luò)(包括結(jié)構(gòu)和參數(shù))
1.Fori=2 ton(0)
2. Fork=1 to Δ//Δ為父結(jié)點(diǎn)的最大數(shù)量
5. Else
6. Exit for
7. End if
8. End for
9.End for
10.基于最大似然方法估計(jì)因果關(guān)系網(wǎng)絡(luò)中的參數(shù)
11.得到核心變量組的因果關(guān)系網(wǎng)絡(luò)
圖2 第m個(gè)外圍變量組的信息提取變量局部結(jié)構(gòu)Fig.2 Local structure of information extraction variable for the m-th peripheral variable group
根據(jù)概率公式和圖2中的條件獨(dú)立性關(guān)系,可以得到:
(2)
其中α是與Hm[t]無(wú)關(guān)的量.
對(duì)(2)式進(jìn)行歸一化處理,記:
ω(j)=
對(duì)生成的隨機(jī)數(shù)λ,變量Hm[t]的修正值為:
(3)
其中1
算法3.第m組外圍變量的信息提取變量學(xué)習(xí)
輸出:信息提取變量數(shù)據(jù)集{hm[t]|1≤m≤M,1≤t≤T}
3.Forv=1 toV∥迭代次數(shù)循環(huán),V是最大迭代次數(shù)
4. Fort=1 toT∥數(shù)據(jù)集記錄循環(huán)
5. 估計(jì)p(hm[t])和p(hm[t]|hm[t-1])
6. Fork=1 ton(m)//組內(nèi)變量循環(huán)
8. End for
12. End for
13.End for
14.得到信息提取變量時(shí)間序列數(shù)據(jù)集{hm[t]|1≤t≤T}
信息提取變量學(xué)習(xí)算法的主要運(yùn)算是條件概率估計(jì),對(duì)每一個(gè)信息提取變量值的修正需要進(jìn)行n(m)+2次的概率估計(jì),修正完T個(gè)信息提取變量值實(shí)現(xiàn)一次迭代,達(dá)到V次結(jié)束迭代,因此,相對(duì)于條件概率估計(jì),算法的時(shí)間復(fù)雜度是O(VTn(m)).用D[n+M,T]表示具有信息提取變量的數(shù)據(jù)集.
在因果關(guān)系網(wǎng)絡(luò)學(xué)習(xí)的基礎(chǔ)上,本文基于后驗(yàn)分布抽樣識(shí)別準(zhǔn)確率進(jìn)行時(shí)間序列變量之間的信息傳遞計(jì)算.
圖的影響因素局部結(jié)構(gòu)Fig.3 Local structure of influencing factors for
accuracy(sampling,X[t],Ω(X[t]),D[n,T])
(4)
其中:
可以將Ω(X[t])和X[t]分別看做屬性和類,那么accuracy(sampling,X[t],Ω(X[t]),D[n,T])便是基于分布抽樣的分類準(zhǔn)確率,相對(duì)于經(jīng)典的依據(jù)最大似然的分類準(zhǔn)確率(易于出現(xiàn)極端化情況)能夠更好地傳遞分布信息,而且關(guān)于分類的理論也均可被應(yīng)用.
當(dāng)accuracy(sampling,X[t],Ω1(X[t]),D[n,T])>
accuracy(sampling,X[t],Ω2(X[t]),D[n,T])時(shí),Ω1(X[t])能夠比Ω2(X[t])為X[t]提供更多的分類信息,也就是Ω1(X[t])向X[t]傳遞的信息比Ω2(X[t])向X[t]傳遞的信息量大,這樣,便可以通過(guò)抽樣識(shí)別準(zhǔn)確率來(lái)計(jì)算和比較時(shí)間序列變量之間的信息傳遞.
在信息傳遞計(jì)算的基礎(chǔ)上,進(jìn)行時(shí)間序列變量之間的影響計(jì)算,包括影響程度計(jì)算、敏感性計(jì)算和匯聚與擴(kuò)散影響計(jì)算,這些計(jì)算可為決策提供支持.
1)影響程度計(jì)算
(5)
其中Φ表示空集.
2)敏感性計(jì)算
(6)
其中Dbefore_disturbance[n,T]和Dafter_disturbance[n,T]分別是關(guān)于Z[t]的擾動(dòng)前和擾動(dòng)后時(shí)間序列數(shù)據(jù)集.
3)匯聚與擴(kuò)散影響計(jì)算
(7)
(8)
本文從國(guó)家數(shù)據(jù)網(wǎng)站下載宏觀經(jīng)濟(jì)指標(biāo)時(shí)間序列數(shù)據(jù),按照國(guó)家數(shù)據(jù)網(wǎng)站的布局進(jìn)行時(shí)間序列變量(指標(biāo))分組,采用滑動(dòng)平均的方法修復(fù)稀疏的丟失數(shù)據(jù),對(duì)成段的丟失數(shù)據(jù)則用隨機(jī)數(shù)填充(不增加信息,也盡量避免引入噪聲),使用差分的方法去除時(shí)間序列的單調(diào)性,依據(jù)時(shí)間序列的增減變化對(duì)其進(jìn)行離散化,分別從因果關(guān)系網(wǎng)絡(luò)結(jié)構(gòu)學(xué)習(xí)、信息提取變量學(xué)習(xí)的迭代收斂性、變量之間的影響程度計(jì)算、變量之間的敏感性計(jì)算和匯聚與擴(kuò)散影響計(jì)算5個(gè)方面進(jìn)行實(shí)驗(yàn)與分析.
根據(jù)數(shù)據(jù)量、內(nèi)容的重復(fù)性和內(nèi)容的重要性等選擇24個(gè)宏觀經(jīng)濟(jì)指標(biāo)時(shí)間序列數(shù)據(jù)集,關(guān)于時(shí)間序列數(shù)據(jù)集的具體情況如表1所示.
表1 宏觀經(jīng)濟(jì)指標(biāo)時(shí)間序列數(shù)據(jù)集Table 1 Time series data set of macroeconomic indicators
本文只給出房地產(chǎn)投資數(shù)據(jù)集的因果關(guān)系網(wǎng)絡(luò)結(jié)構(gòu)(取Δ=4).房地產(chǎn)投資數(shù)據(jù)集排序后的指標(biāo)為:商業(yè)營(yíng)業(yè)用房竣工面積(X1[t])、商業(yè)營(yíng)業(yè)用房施工面積(X2[t])、商品住宅竣工面積(X3[t])、商品住宅施工面積(X4[t])、辦公樓施工面積(X5[t])、本年實(shí)際到位資金合計(jì)(X6[t])、房地產(chǎn)竣工面積(X7[t])、房地產(chǎn)施工面積(X8[t])、商品房銷售面積(X9[t])、商品住宅銷售額(X10[t])、辦公樓銷售面積(X11[t])、辦公樓銷售額(X12[t])、房地產(chǎn)業(yè)土地成交價(jià)款(X13[t])、商品住宅銷售面積(X14[t])、房地產(chǎn)業(yè)土地購(gòu)置面積(X15[t])、商業(yè)營(yíng)業(yè)用房銷售額(X16[t])、商業(yè)營(yíng)業(yè)用房銷售面積(X17[t])、商品房銷售額(X18[t])和辦公樓竣工面積(X19[t]),均是累計(jì)增長(zhǎng)率,19個(gè)指標(biāo)之間的因果關(guān)系如表2和圖4所示.
由于房地產(chǎn)投資數(shù)據(jù)集中只有231個(gè)記錄,因此無(wú)可避免地會(huì)導(dǎo)致一些因果關(guān)系的丟失,但通過(guò)與經(jīng)濟(jì)領(lǐng)域的專家交流,他們認(rèn)為圖4比較好的反映了主要的因果關(guān)系,還有一些因果關(guān)系超出了經(jīng)驗(yàn)的范疇,具有理論和實(shí)際意義,適合于小樣本時(shí)間序列數(shù)據(jù)的因果關(guān)系網(wǎng)絡(luò)結(jié)構(gòu)學(xué)習(xí).在24個(gè)宏觀經(jīng)濟(jì)指標(biāo)時(shí)間序列數(shù)據(jù)集中許多因果關(guān)系網(wǎng)絡(luò)結(jié)構(gòu)并不連通,因果關(guān)系網(wǎng)絡(luò)結(jié)構(gòu)由幾部分構(gòu)成,還有存在孤立點(diǎn)或孤立因果關(guān)系弧的情況.
表2 房地產(chǎn)投資數(shù)據(jù)集的父子結(jié)點(diǎn)情況Table 2 Parent child nodes of real estate investment data set
圖4 房地產(chǎn)投資因果關(guān)系網(wǎng)絡(luò)Fig.4 Causality network of real estate investment
信息提取變量學(xué)習(xí)迭代的收斂與否會(huì)影響變量組所蘊(yùn)含信息的提取效果,本文結(jié)合遞歸匯集結(jié)構(gòu)和Gibbs抽樣進(jìn)行信息提取變量的遞進(jìn)迭代學(xué)習(xí),迭代次數(shù)V=40,收斂檢驗(yàn)閾值ε=0.05,工業(yè)增加值、房地產(chǎn)投資、固定資產(chǎn)投資額、社會(huì)消費(fèi)品零售總額和居民消費(fèi)價(jià)格指數(shù)5個(gè)數(shù)據(jù)集的信息提取變量學(xué)習(xí)迭代情況如圖5所示,其中橫軸表示迭代次數(shù),縱軸表示相鄰兩次迭代非一致數(shù)據(jù)的比例.
從圖5中我們能夠發(fā)現(xiàn),經(jīng)過(guò)20次迭代后,非一致數(shù)據(jù)比例均小于5%,沒(méi)有出現(xiàn)大幅度的波動(dòng),這說(shuō)明信息提取變量的結(jié)構(gòu)與數(shù)據(jù)中所蘊(yùn)含的結(jié)構(gòu)具有相容性,而且能夠?qū)崿F(xiàn)通過(guò)信息提取變量對(duì)變量組數(shù)據(jù)集中信息的提取,其它變量組的信息提取變量學(xué)習(xí)迭代也具有類似的情況.
圖5 信息提取變量學(xué)習(xí)迭代的收斂情況Fig.5 Convergence of learning iteration for information extraction variables
本文基于后驗(yàn)分布抽樣識(shí)別準(zhǔn)確率進(jìn)行時(shí)間序列變量之間的影響程度計(jì)算,具體的計(jì)算方法見(jiàn)公式(5).分別使用工業(yè)增加值(同比增長(zhǎng)率)、房地產(chǎn)投資(累計(jì)增長(zhǎng))、固定資產(chǎn)投資(累計(jì)增長(zhǎng))、社會(huì)消費(fèi)品零售總額(同比增長(zhǎng))和居民消費(fèi)價(jià)格指數(shù)(上年同月)5個(gè)數(shù)據(jù)集進(jìn)行影響程度計(jì)算.在對(duì)一個(gè)變量的影響計(jì)算中,本文首先計(jì)算這個(gè)變量的馬爾科夫毯(核心變量馬爾科夫毯)中變量的影響,然后再分別計(jì)算當(dāng)給定馬爾科夫毯中變量時(shí),其它核心變量的信息提取變量、時(shí)滯變量(所有核心變量的時(shí)滯變量)和外圍變量組的信息提取變量的影響,再計(jì)算3種情況影響與馬爾科夫毯中變量影響的差值,最后得到在給定馬爾科夫毯中變量時(shí)的影響程度,具體情況如表3所示.
表3 影響程度統(tǒng)計(jì)表Table 3 Statistical table of impact degree
從表3中能夠發(fā)現(xiàn),當(dāng)給定馬爾科夫毯中變量時(shí),3種情況的平均值均大于0,這說(shuō)明補(bǔ)充信息提取變量、時(shí)滯變量和外圍信息提取變量均能提供額外的正向識(shí)別信息,有利于提高識(shí)別準(zhǔn)確率,5個(gè)數(shù)據(jù)集的平均影響程度依次是0.0036(補(bǔ)充信息提取變量)、0.0114(時(shí)滯變量)和0.0407(外圍信息提取變量),可見(jiàn),外圍信息提取變量的影響最大,時(shí)滯變量的影響次之,也不能被忽視,而補(bǔ)充信息提取變量的影響較小,在一些情況可以被忽略.再看最大值,同樣也都提供正向識(shí)別信息,5個(gè)數(shù)據(jù)集的平均影響程度從大到小的順序是外圍信息提取變量(0.0887)、時(shí)滯變量(0.0608)和補(bǔ)充信息提取變量(0.0356).關(guān)于最小值,5個(gè)數(shù)據(jù)集的平均影響程度都小于0,都提供負(fù)向識(shí)別信息,會(huì)降低識(shí)別準(zhǔn)確率,降低的幅度由小到大的順序是外圍信息提取變量(-0.0061)、時(shí)滯變量(-0.0174)和補(bǔ)充信息提取變量(-0.0174),最后可以得出結(jié)論:外圍信息提取變量的正向影響最大,負(fù)向影響最小;補(bǔ)充信息提取變量的正向影響最小,負(fù)向影響最大;時(shí)滯變量介于二者之間.
通過(guò)影響程度計(jì)算驗(yàn)證了補(bǔ)充信息提取變量、時(shí)滯變量和外圍信息提取變量均能夠彌補(bǔ)由弱因果關(guān)系的缺失所導(dǎo)致的傳遞信息丟失,尤其是外圍變量組的信息提取變量,平均提升程度達(dá)到了4%,而且實(shí)現(xiàn)了困難的降維.
本文只關(guān)注不同的影響因素之間的敏感性比較,因此只需要計(jì)算一個(gè)固定的擾動(dòng)數(shù)據(jù)比率即可,取δ=0.1.也是使用影響程度計(jì)算中的5個(gè)數(shù)據(jù)集,但選擇5個(gè)數(shù)據(jù)集的綜合指標(biāo),5個(gè)綜合指標(biāo)分別是:工業(yè)增加值同比增長(zhǎng)率、房地產(chǎn)投資累計(jì)增長(zhǎng)率、固定資產(chǎn)投資累計(jì)增長(zhǎng)率、社會(huì)消費(fèi)品零售總額同比增長(zhǎng)率和居民消費(fèi)價(jià)格指數(shù)(上年同月),從核心因素和外圍因素兩個(gè)方面進(jìn)行對(duì)5個(gè)綜合指標(biāo)的敏感性計(jì)算,具體情況如圖6所示.
1)核心與外圍因素的敏感性
圖6 敏感性計(jì)算Fig.6 Sensitivity calculation
本文仍然使用后驗(yàn)分布抽樣識(shí)別準(zhǔn)確率進(jìn)行變量之間的敏感性計(jì)算,為計(jì)算一個(gè)綜合指標(biāo)(5個(gè)綜合指標(biāo)中之一)對(duì)其它指標(biāo)(核心指標(biāo)或外圍指標(biāo))的敏感性,首先計(jì)算沒(méi)有擾動(dòng)的后驗(yàn)分布抽樣識(shí)別準(zhǔn)確率,然后計(jì)算以比率δ擾動(dòng)后的后驗(yàn)分布抽樣識(shí)別準(zhǔn)確率,再取兩個(gè)識(shí)別準(zhǔn)確率的差的絕對(duì)值,將其作為敏感性計(jì)算的結(jié)果(敏感程度),具體的計(jì)算方法見(jiàn)公式(6).無(wú)論是核心變量還是外圍變量(外圍信息提取變量)均采用統(tǒng)一的方法進(jìn)行敏感性計(jì)算,具體情況如圖6所示,其中橫軸表示影響因素(變量)的編號(hào),縱軸表示敏感程度.在外圍變量的敏感性計(jì)算中,可以不考慮綜合指標(biāo)所在變量組的信息提取變量的敏感性.對(duì)于沒(méi)有綜合指標(biāo)變量組中的變量,可以采用類似的方法進(jìn)行敏感性計(jì)算.
2)敏感性統(tǒng)計(jì)表
對(duì)生成圖6的數(shù)據(jù)進(jìn)行簡(jiǎn)單的統(tǒng)計(jì)運(yùn)算可得到表4.從圖6和表4中我們能夠發(fā)現(xiàn),大多數(shù)綜合指標(biāo)對(duì)核心因素與外圍因素的敏感性變化相對(duì)較小,只有一個(gè)綜合指標(biāo)-房地產(chǎn)投資累計(jì)增長(zhǎng)率,對(duì)編號(hào)為17,18,19,20,21,22,23,24變量組的信息提取變量非常敏感,敏感性程度依次是0.1342、0.1256、0.0866、0.1039、0.1083、0.1169、0.1385和0.1255.通過(guò)敏感性計(jì)算可以發(fā)現(xiàn)敏感與不敏感的因素,有利于揭示深層次的經(jīng)濟(jì)規(guī)律,加深對(duì)宏觀經(jīng)濟(jì)的認(rèn)識(shí),并為宏觀經(jīng)濟(jì)決策提供支持.
表4 敏感性統(tǒng)計(jì)表Table 4 Statistical table of sensitivity
本文仍然選擇影響程度計(jì)算中的5個(gè)數(shù)據(jù)集和相應(yīng)的因果關(guān)系網(wǎng)絡(luò),使用公式(7)和公式(8)進(jìn)行匯聚與擴(kuò)散影響計(jì)算.
1)匯聚影響
匯聚影響是所有父結(jié)點(diǎn)對(duì)一個(gè)共同的子結(jié)點(diǎn)的影響,是諸多影響中的最主要和最大的影響.在匯聚影響計(jì)算中,本文只選擇有父結(jié)點(diǎn)的變量進(jìn)行匯聚影響計(jì)算,5個(gè)數(shù)據(jù)集的匯聚影響計(jì)算的具體情況如圖7所示,橫軸是被影響因素(子結(jié)點(diǎn))的編號(hào),縱軸是父結(jié)點(diǎn)對(duì)子結(jié)點(diǎn)的影響程度.
圖7 匯聚影響Fig.7 Convergence effect
工業(yè)增加值:平均匯聚影響是0.0584,最大匯聚影響是0.1697,最小匯聚影響是0.0031;房地產(chǎn)投資額:平均匯聚影響是0.1418,最大匯聚影響是0.4156,最小匯聚影響是0.0087;固定資產(chǎn)投資額:平均匯聚影響是0.0511,最大匯聚影響是0.1265,最小匯聚影響是0.0039;社會(huì)消費(fèi)品零售總額:平均匯聚影響是0.2589,最大匯聚影響是0.4239,最小匯聚影響是0.0824;居民消費(fèi)價(jià)格指數(shù):平均匯聚影響是0.0556,最大匯聚影響是0.1656,最小匯聚影響是0.0032.
2)擴(kuò)散影響
擴(kuò)散影響是一個(gè)父結(jié)點(diǎn)對(duì)它的所有子結(jié)點(diǎn)的影響,同樣,在擴(kuò)散影響計(jì)算中,本文也只選擇有子結(jié)點(diǎn)的變量進(jìn)行擴(kuò)散影響計(jì)算,每一個(gè)數(shù)據(jù)集只選擇兩個(gè)變量,用它們排序后的編號(hào)表示變量,并分別給出它們對(duì)子結(jié)點(diǎn)影響的平均值、最大值和最小值,5個(gè)數(shù)據(jù)集的具體情況如表5所示.
在核心變量中的匯聚與擴(kuò)散影響是對(duì)一個(gè)變量的各種影響因素中至關(guān)重要的兩種,而且不具有可替代性.在時(shí)間序列變量之間基于抽樣識(shí)別準(zhǔn)確率的影響程度計(jì)算、敏感性計(jì)算和匯聚與擴(kuò)散影響計(jì)算將為宏觀經(jīng)濟(jì)指標(biāo)的量化分析提供有效實(shí)用的方法,并與計(jì)量經(jīng)濟(jì)和統(tǒng)計(jì)方法形成互補(bǔ).
當(dāng)數(shù)據(jù)中所蘊(yùn)含的信息不充分時(shí),無(wú)法可靠地基于數(shù)據(jù)建立因果關(guān)系網(wǎng)絡(luò),會(huì)有一些因果關(guān)系丟失,從而降低在因果關(guān)系網(wǎng)絡(luò)中信息傳遞的有效性和可靠性.本文結(jié)合變量排序和局部貪婪搜索-打分進(jìn)行因果關(guān)系網(wǎng)絡(luò)結(jié)構(gòu)學(xué)習(xí),最大限度地降低了對(duì)時(shí)間序列數(shù)據(jù)量的需求,并提高了學(xué)習(xí)的效率和可靠性;為彌補(bǔ)因果關(guān)系缺失而導(dǎo)致的信息傳遞不完整性,在給出信息提取變量和學(xué)習(xí)方法的基礎(chǔ)上,通過(guò)建立信息提取變量來(lái)實(shí)現(xiàn)基于后驗(yàn)分布的時(shí)間序列變量組的信息壓縮提取,再結(jié)合時(shí)間序列變量的核心組與外圍組劃分,以及外圍變量的分組,實(shí)現(xiàn)了對(duì)高維時(shí)間序列數(shù)據(jù)的降維,并提高了信息傳遞的完整性;使用宏觀經(jīng)濟(jì)時(shí)間序列數(shù)據(jù),驗(yàn)證了變量之間的影響程度計(jì)算、敏感性計(jì)算和匯聚與擴(kuò)散影響計(jì)算方法的實(shí)用性和有效性.
表5 擴(kuò)散影響統(tǒng)計(jì)表Table 5 Statistical table of diffusion impact
進(jìn)一步的工作是將因果關(guān)系網(wǎng)絡(luò)學(xué)習(xí)、信息提取變量構(gòu)建和信息傳遞計(jì)算等向金融縱向大時(shí)間序列進(jìn)行拓展.