高 磊,劉樂平,盧志義
(1.天津財經(jīng)大學(xué) 大數(shù)據(jù)統(tǒng)計分析中心, 天津 300222; 2.天津商業(yè)大學(xué) 理學(xué)院, 天津 300134)
大數(shù)據(jù)背景下貝葉斯模型平均的理論突破與應(yīng)用前景
高磊1,劉樂平1,盧志義2
(1.天津財經(jīng)大學(xué) 大數(shù)據(jù)統(tǒng)計分析中心, 天津 300222; 2.天津商業(yè)大學(xué) 理學(xué)院, 天津 300134)
摘要:大數(shù)據(jù)統(tǒng)計分析過程中常面臨模型比較和選擇的不確定性問題。貝葉斯模型平均(BMA)方法可以通過先驗和后驗概率度量模型不確定性,并利用后驗概率對模型的結(jié)果進行加權(quán)平均,最終得到更穩(wěn)健的估計結(jié)果。在回顧貝葉斯模型平均發(fā)展歷程的基礎(chǔ)上,介紹貝葉斯模型平均的基本原理,綜述其在一些難點問題上的理論進展,并介紹大數(shù)據(jù)背景下貝葉斯模型平均的應(yīng)用前景。貝葉斯模型平均與復(fù)雜數(shù)據(jù)分析方法相結(jié)合,可能成為大數(shù)據(jù)研究的新思路。
關(guān)鍵詞:大數(shù)據(jù);模型不確定性;貝葉斯模型平均;MCMC
一、引言
在大數(shù)據(jù)的統(tǒng)計實踐中,研究人員常常構(gòu)建一組模型,然后依據(jù)模型選擇準(zhǔn)則,從中挑選 “最優(yōu)”模型進行統(tǒng)計推斷和預(yù)測。這里就有兩個值得考慮的問題:第一,單從模型選擇準(zhǔn)則來分析,可能會得到幾個模型對數(shù)據(jù)擬合均較好的結(jié)論。也就是說,這些模型難分伯仲,舍棄其中任何一個都令人可惜,Breiman就把這種現(xiàn)象稱為模型選擇的“羅生門效應(yīng)”*《羅生門》是一部日本電影,在電影中發(fā)生了一起刑事案件,一名男性被殺,另有一名女性被強奸。案件共有四名目擊者,當(dāng)他們在法庭作證時,面對同樣的事件,卻從自身利益出發(fā)講述了完全不同的事情經(jīng)過。Brieman認(rèn)為統(tǒng)計模型也具有“羅生門效應(yīng)”,即不同模型講述了關(guān)于同一數(shù)據(jù)的不一樣的故事,而且聽起來都非常逼真。(Rashomon Effect)[1];第二,即便可以選出最優(yōu)模型,由于數(shù)據(jù)樣本的隨機性,每次選擇的最優(yōu)模型也可能有所不同,這就是所謂的模型不確定性(Model Uncertainty)[2]。在統(tǒng)計分析中,這兩個問題較為普遍,但經(jīng)常被研究人員所忽略。
貝葉斯模型平均(Bayesian Model Averaging, BMA)方法以貝葉斯理論為基礎(chǔ),將備選模型作為隨機變量,通過賦予先驗概率和后驗概率來度量其不確定性,并利用后驗概率對備選模型的結(jié)果進行加權(quán)平均,最終得到更穩(wěn)健的估計結(jié)果。不妨做一比喻,如果單個模型的結(jié)果是含有金子的渣塊,那么研究人員應(yīng)像淘金者,與其選擇含金量最大的渣塊,不如利用一種方法從所有的渣塊中淘取更多的金子。BMA就是一種從多個模型中“淘金”的方法,即把各模型的結(jié)果綜合起來,發(fā)揮各模型的優(yōu)勢,并融合更多的信息。
BMA方法改變了人們對模型比較和模型選擇的傳統(tǒng)認(rèn)識,是對經(jīng)典建模理論的有益補充。30多年來,隨著計算技術(shù)的不斷進步,特別是MCMC(Markov Chain Monte Carlo)方法的發(fā)展,BMA方法漸趨成熟,其應(yīng)用也愈加廣泛。筆者在回顧BMA方法發(fā)展歷程的基礎(chǔ)上,介紹BMA方法的基本原理,并綜述大數(shù)據(jù)背景下貝葉斯模型平均的理論突破,介紹BMA的一些應(yīng)用。
二、貝葉斯模型平均的發(fā)展歷程
模型平均起源于20世紀(jì)60年代,而BMA是模型平均方法的一個重要分支*模型平均方法另一個重要分支是頻率模型平均(Frequentist Model Averaging, FMA)。。1963年,Barnard在研究民用航空數(shù)據(jù)時首次提出模型綜合的概念。1965年,Roberts考慮了一種結(jié)合兩名專家觀點的預(yù)測分布,該分布本質(zhì)是兩個模型后驗分布的加權(quán)平均。1969年,Bates和Granger通過綜合兩個無偏預(yù)測來預(yù)測航空需求,肯定了模型綜合方法在統(tǒng)計預(yù)測中的優(yōu)勢,他們的論文催生了20世紀(jì)70年代關(guān)于模型綜合的研究。1978年,Leamer進一步完善了模型綜合方法,首次提出了BMA分析的基本范式,Leamer認(rèn)為BMA方法就是從概率的角度度量模型的不確定性。繼Leamer之后,BMA的研究沉寂了一段時期。
20世紀(jì)80年代末90年代初,MCMC方法的發(fā)展極大地促進了現(xiàn)代貝葉斯統(tǒng)計學(xué)的復(fù)興[3],與此同時,忽視模型不確定性所帶來的弊端也再次引發(fā)了學(xué)者的思考。在這種背景下,George、Drapper、Raftery等學(xué)者重新開展了BMA方法的研究,BMA迎來了理論發(fā)展的黃金時期。在10多年的時間里,學(xué)者們針對設(shè)定先驗分布、計算邊際似然和模型搜索等難點問題進行了深入研究,并取得一系列理論進展(見本文第三部分)。1999年,Hoeting等人在國際著名統(tǒng)計期刊《StatisticalScience》上發(fā)表了綜述文章[4],全面回顧90年代 BMA方法的理論進展,并對21世紀(jì)BMA的應(yīng)用前景進行展望,這篇文章標(biāo)志著BMA方法漸趨成熟,目前該文引用已達(dá)2 727次*截至2016年1月1日。。
進入21世紀(jì),BMA在國內(nèi)外得到了迅猛的發(fā)展和應(yīng)用。2005年,Gneiting和Raftery合作在世界頂級學(xué)術(shù)刊物《Science》的氣象科學(xué)板塊撰文,指出利用貝葉斯模型平均方法進行天氣預(yù)測更為有效[5]。除氣象學(xué)研究外,在大數(shù)據(jù)背景下,BMA方法的應(yīng)用領(lǐng)域還包括計量經(jīng)濟學(xué)、醫(yī)學(xué)健康、水文地理、工程技術(shù)等(見本文第四部分)。
三、大數(shù)據(jù)背景下貝葉斯模型平均的理論突破
(一)BMA的基本原理
貝葉斯模型平均是一種從多個模型中“淘金”的方法。若Δ是所感興趣的“金子”(Δ可能是系數(shù)的估計,也可能是未來的預(yù)測),那么在觀測數(shù)據(jù)D給定的條件下,通過BMA方法得到的后驗分布是:
(1)
其中M1,M2,…,MK表示備選模型,p(Mk|D)表示備選模型Mk的后驗概率,而p(Δ|Mk,D)表示在備選模型Mk下Δ的后驗分布。因此,由BMA所得的后驗分布p(Δ|D)是各備選模型下后驗分布p(Δ|Mk,D)的加權(quán)平均,加權(quán)權(quán)重為各備選模型的后驗概率。
根據(jù)Δ后驗分布式(1),可得后驗均值和方差:
(2)
Var[Δ|D]
E[Δ|D]2
(3)
研究表明,由BMA得到的均值預(yù)測式(2)會優(yōu)于單個模型預(yù)測。一個直觀的解釋是,若各模型的預(yù)測結(jié)果均是無偏的,那么選擇單個模型的預(yù)測結(jié)果就如同從多個無偏預(yù)測中隨機抽取一個預(yù)測值,雖然結(jié)果無偏,但其方差的不確定性仍然很大;而利用合適的權(quán)重對各模型的預(yù)測值加權(quán)平均,不僅仍然可以得到無偏估計,還可以降低估計的方差,從而提高估計的準(zhǔn)確性。可證明,在對數(shù)得分標(biāo)準(zhǔn)下,由BMA得到的的預(yù)測不僅優(yōu)于單個模型的預(yù)測,而且比其他加權(quán)平均結(jié)果要好。
備選模型的后驗概率p(Mk|D)非常重要,在式(1)、式(2)、式(3)中均有出現(xiàn),表示對備選模型的“信賴”程度。備選模型的后驗概率可根據(jù)貝葉斯公式得到:
(4)
其中p(Mk)是備選模型Mk的先驗概率,p(D|Mk)是在備選模型Mk下觀測數(shù)據(jù)D的邊際似然,即:
p(D|Mk)=∫p(D|θk,Mk)p(θk|Mk)dθk
(5)
其中θk表示模型Mk中的參數(shù)向量,p(θk|Mk)表示模型Mk中參數(shù)θk的先驗分布,而p(D|θk,Mk)則表示在給定模型Mk和參數(shù)θk下,觀測數(shù)據(jù)D的似然。式(5)涉及積分運算,因此邊際似然又被稱為積分似然。
式(1)~式(5)含義清楚易于理解,涵蓋了BMA的基本方面,但在BMA的應(yīng)用中,仍有不少細(xì)節(jié)需要考慮,某些細(xì)節(jié)至關(guān)重要已然成為BMA的應(yīng)用難點。從20世紀(jì)90年代至今,學(xué)者們圍繞這些難點問題進行了深入研究并取得了一系列理論進展。按照BMA分析的流程,這些難點可歸納為以下三個方面:
1.設(shè)定先驗分布。應(yīng)用BMA時,首先需要設(shè)定參數(shù)和模型的先驗分布。參數(shù)先驗分布出現(xiàn)在計算模型邊際似然的式(5)中,邊際似然是計算模型后驗概率的關(guān)鍵,而模型的先驗概率也會影響模型后驗概率。因此,如果選擇了不穩(wěn)健的先驗分布,不僅會得到失真的模型后驗概率,而且還會降低BMA的預(yù)測能力。
2.求解邊際似然。邊際似然直接影響模型后驗概率。與似然函數(shù)不同,邊際似然是似然函數(shù)在參數(shù)先驗分布下的期望,涉及積分運算。積分運算常常較為復(fù)雜,尤其當(dāng)模型的參數(shù)維度較多時,一般積分算法難以處理這種高維積分問題。不過,在貝葉斯線性回歸模型中,通過把參數(shù)設(shè)置為共軛先驗,也可得到邊際似然解的解析形式,但共軛先驗只是先驗分布的一種特殊情形,在更為復(fù)雜的貝葉斯模型中,如果根據(jù)需要將參數(shù)設(shè)定為非共軛先驗,那么積分運算仍然會非常困難。求解邊際似然是BMA應(yīng)用中必須克服的一個難點。
3.搜索模型空間。利用邊際似然求解的近似或模擬方法,可以得到單個模型的邊際似然,但當(dāng)備選模型的數(shù)量巨大時,要求出所有模型的邊際似然乃至后驗概率,在計算上是不可能完成的。例如陳偉等人在利用貝葉斯模型平均方法預(yù)測中國通貨膨脹率時,考慮了28個解釋變量,在單一模型為線性模型假設(shè)下,備選模型總數(shù)多達(dá)268 435 456個[6]*線性回歸模型中,每個解釋變量都有兩種選擇:進入模型或在模型外,因此若有5個解釋變量,則模型空間中共有25=32個備選模型;若有20個解釋變量,則模型空間中共有220=268 435 456個備選模型,可見備選模型的數(shù)量隨解釋變量個數(shù)增加呈指數(shù)式增長。。實際上,當(dāng)解釋變量個數(shù)超過20個時就不能像式(1)那樣對所有模型加權(quán)平均,而如何設(shè)計一種模型搜索策略,在模型空間中進行搜索、得到模型空間的一個子集、然后在這個子集基礎(chǔ)上進行BMA,則是學(xué)者關(guān)注的又一個難點問題。
(二)設(shè)定參數(shù)先驗分布
回歸模型是BMA方法討論最為成熟的模型。首先介紹回歸模型中常用的先驗形式——Zellner’sg先驗,然后介紹另外兩種設(shè)定參數(shù)先驗的方法。
1.Zellner’sg先驗。設(shè)被解釋變量為Y,解釋變量為X1,X2,…,Xp。完整的回歸模型應(yīng)包括p個解釋變量,而其他備選模型則考慮p個解釋變量的一個子集,用Xk表示X1,X2,…,Xp的子集,則備選模型Mk可表示為:
Mk:Y=Xkβk+ε
(6)
其中 Xk為設(shè)計矩陣,βk為相應(yīng)的回歸系數(shù),ε為誤差向量,一般假設(shè)ε~Nn(0,σ2I)。
(7)
然后將方差σ2設(shè)定為無信息先驗分布:
(8)
式(7)和式(8)構(gòu)成回歸模型的Zellner’sg先驗。在Zellner’sg先驗中,一般令β0=0,因此Zellner’sg先驗只需指定超參數(shù)g即可。在Zellner’sg先驗假設(shè)下,βk和σ2的聯(lián)合后驗密度可以分解為:
p(βk,σ2|D)∝p(βk|D,σ2)p(σ2|D)
(9)
這里分解的兩項p(βk|D,σ2)和p(σ2|D)均是常見的分布形式,其中p(βk|D,σ2)是多元正態(tài)分布,p(σ2|D)是逆伽馬分布。
Zellner’sg先驗由Zellner(1986)提出且應(yīng)用較為廣泛,在BMA方法中使用Zellner’sg先驗的好處是明顯的:首先,Zellner’sg先驗形式簡潔,只需設(shè)定一個參數(shù),而且參數(shù)的后驗分布是常見的分布形式;其次,在Zellner’sg先驗假設(shè)下,備選模型對空模型(不含解釋變量,僅有截距項)的貝葉斯因子容易求出,因此方便進行模型比較;此外,在馬爾科夫鏈蒙特卡洛模型綜合(Markov Chain Monte Carlo Model Composition,MC3)等模型搜索算法中,Zellner’sg先驗可以提高算法計算效率。
2.數(shù)據(jù)依賴先驗(data-dependent prior)。參數(shù)先驗是進行數(shù)據(jù)分析之前關(guān)于參數(shù)的信息,與觀測數(shù)據(jù)聯(lián)系很少,因此“數(shù)據(jù)依賴先驗”的概念可能令人疑惑。然而,當(dāng)研究人員關(guān)于參數(shù)的先驗信息極少時,將先驗分布設(shè)定為數(shù)據(jù)依賴先驗仍是可行的。Wasserman證明,數(shù)據(jù)依賴先驗不僅具有良好的性質(zhì),而且比采用數(shù)據(jù)獨立先驗(data-independent prior)有更好的預(yù)測能力。此外,由于考慮了數(shù)據(jù)信息,數(shù)據(jù)依賴先驗比無信息先驗更為穩(wěn)健。
3.單位信息先驗(Unit Information Prior,UIP)。Kass和Wasserman提出的單位信息先驗的概念為多元正態(tài)分布,其均值為參數(shù)極大似然估計,協(xié)方差矩陣是由一單位觀測數(shù)據(jù)得到的Fisher信息的逆矩陣。用一個例子描述其基本思想,假設(shè)觀測數(shù)據(jù)的分布是正態(tài)分布,即:
Yi~N(ψ,σ2)(i=1,2,…,n)
(10)
這里σ已知;ψ未知,是待估參數(shù),那么ψ的單位信息先驗可設(shè)定為:
ψ~N(ψ0,τ2)
(11)
其中ψ0為觀測數(shù)據(jù)Y1,Y2,…,Yn的樣本均值,而τ=σ,這表示式(11)包含的關(guān)于ψ的信息(由τ2度量),與一單位觀測數(shù)據(jù)包含的關(guān)于ψ的信息(由σ2度量)是相同的,這正是單位信息先驗名稱的由來。由該先驗得到的貝葉斯因子與施瓦茨準(zhǔn)則結(jié)果接近,但也面臨與施瓦茨準(zhǔn)則相同的問題,即其模型選擇結(jié)果比較保守,偏向于較為簡單的模型。
(三)設(shè)定模型先驗概率
Raftery提出模型的均勻先驗,即為所有模型指定相同的先驗概率:
(12)
其中K是模型空間中備選模型的總數(shù)。模型均勻先驗表示對所有備選模型都一視同仁,不偏向也不歧視任何備選模型。在均勻先驗下,模型后驗概率可以進一步簡化:
(13)
可見,由于各模型先驗概率相同,分子分母中先驗概率一項可以消去,模型后驗概率不受模型先驗的影響,只由模型的邊際似然決定。在BMA應(yīng)用研究中,設(shè)定模型均勻先驗較為流行,這是因為從形式上看式(12)簡潔、方便,從應(yīng)用上看這種方式也符合直覺,容易被數(shù)據(jù)分析客戶接受。
Mitchell和Beauchamp提出,在回歸模型中從解釋變量的角度設(shè)置模型先驗:
(14)
其中δkj為指示變量,δkj=1表示解釋變量Xj進入回歸模型Mk中,δkj=0表示解釋變量Xj在回歸模型Mk之外;πj表示解釋變量Xj進入回歸模型的先驗概率,一般假設(shè)π1=π2=…=πp=π。若π=0.5,式(14)就等同于均勻先驗式(12);若π>0.5,表示解釋變量進入回歸模型的可能性大,這種先驗意味著對大模型的偏好;若π<0.5,表示解釋變量進入回歸模型的可能性小,這種先驗則意味著對大模型的懲罰。
(四)求解邊際似然
方便起見,將邊際似然式(5)中關(guān)于模型的信息去掉,邊際似然簡化為:
p(D)=∫p(D|θ)p(θ)dθ
(15)
下面介紹在BMA應(yīng)用中,兩類常用的求解邊際似然方法:近似算法和隨機模擬算法。近似算法主要是拉普拉斯方法(Laplace’sMethod),而隨機模擬算法則包括蒙特卡洛模擬(MonteCarlo,MC)和馬爾科夫鏈蒙特卡洛模擬(MarkovChainMonteCarlo,MCMC)兩種方法。
1.拉普拉斯方法。Tierney和Kadane提出了拉普拉斯方法[7]。該方法分兩步進行:
(16)
p(θ|D)=exp(l(θ))
(17)
其次,運用基本邊際似然等式(Basicmarginallikelihoodidentity,BMI)求解邊際似然:
(18)
(19)
以上是求解邊際似然的拉普拉斯方法,p(D)1就是邊際似然的拉普拉斯近似。
(20)
(21)
(22)
其中p(θ(i))/p*(θ(i))表示樣本點θ(i)處的重要性權(quán)重,式(22)就是求解積分的重要性抽樣方法(ImportanceSampling,IS)。利用重要性抽樣求解積分具有悠久的歷史,但其效率很大程度上依賴于選擇合適的建議分布。在θ維度不高的情況下,建議分布選擇T分布則可以取得較好的估計效果。θ維度較高時,有包括Meng和Wong的橋抽樣(Bridgesampling)、Gelman和Meng的路徑抽樣(Pathsampling)、Chen和Shao的比率重要性抽樣(Ratioimportantsampling)等方法可供選擇。
(23)
由此可見,邊際似然是一種調(diào)和均值估計,屬于一致估計,但由于似然函數(shù)倒數(shù)的方差并不總是有界的,所以該估計的有效性較差。
(24)
(25)
(五)模型搜索策略
利用近似或模擬等方法可以得到單個模型的邊際似然,但當(dāng)備選模型的數(shù)量巨大時,要求出所有模型的邊際似然乃至后驗概率,在計算上是不可能完成的。在這種情況下,可以采用模型搜索策略,搜索重要的模型構(gòu)成模型空間的一個子集,然后在這個子集基礎(chǔ)上進行貝葉斯模型平均。下面介紹三種模型搜索策略:Occam窗口方法、逆跳馬爾可夫鏈蒙特卡羅方法(Reversible Jump Markov Chain Monte Carlo,RJMCMC)、馬爾可夫鏈蒙特卡羅模型綜合方法(Markov Chain Monte Carlo Model Composition,MC3)。
1.Occam窗口方法。Madigan和Raftery提出用Occam窗口方法選擇一個模型子集[11]。令A(yù)表示模型空間{M1,M2,…,MK}。在篩選模型時,有以下兩條準(zhǔn)則:
第一,將后驗概率非常低的模型刪掉,模型后驗概率的高低是相對的,如果具有最大后驗概率的模型Mk*與模型Mk后驗概率相比超過一個閾值,比如20倍,就認(rèn)為Mk后驗概率非常低,考慮將這個模型刪掉。也就是說,如果模型Mk屬于集合:
(26)
就將模型Mk從模型空間A中刪掉,這里C是由研究者選擇的一個閾值。
第二,將后驗概率較低的復(fù)雜模型刪掉。這與Occam剃刀原理相似,即“如無必要,勿增實體”。對于一個復(fù)雜模型,如果其子模型具有更高的后驗概率,就保留子模型而將原模型刪掉。也就是說,如果模型Mk屬于集合:
(27)
就將模型Mk從模型空間A中刪掉。經(jīng)過處理,模型空間中備選模型的數(shù)量大大減少,式(1)簡化為:
(28)
這里 A3=A/(A1∪A2)。
2.逆跳MCMC方法。如果說MCMC方法促進了現(xiàn)代貝葉斯統(tǒng)計學(xué)的復(fù)興,那么Green提出的逆跳MCMC方法則被視為貝葉斯分析的革命。由逆跳MCMC方法構(gòu)建的馬氏鏈不僅可以在單個模型的參數(shù)空間內(nèi)進行轉(zhuǎn)移,還可以在不同模型、不同維度參數(shù)空間之間實現(xiàn)跳躍,從而為BMA模型搜索提供強大工具。設(shè)逆跳MCMC當(dāng)前模型狀態(tài)為k,參數(shù)狀態(tài)為θk, θk的維度為dk,那么從當(dāng)前狀態(tài)(k,θk)向下一狀態(tài)轉(zhuǎn)移的步驟如下:
步驟1從模型建議分布w(k,k*)中,生成一個建議模型k*。
步驟2從建議分布q(μ|θk,k,k*)中,生成隨機向量μ。
α=
(29)
α=
(30)
3.MC3方法。Madigan和York提出馬爾可夫鏈蒙特卡羅模型綜合算法對模型進行抽簽[12]。MC3方法傾向于抽取后驗概率較高的模型,在一定數(shù)量的抽簽后,能保證抽簽結(jié)果收斂于基于所有模型的結(jié)果。與逆跳MCMC算法相似,MC3方法也是構(gòu)造一條關(guān)于模型的馬式鏈:M(1),M(2),…,M(N),并且這條馬氏鏈的平穩(wěn)分布就是模型的后驗概率分布。為了構(gòu)造這樣的馬氏鏈,要為任意一個模型定義相鄰的模型空間,用以從中抽取備選模型。以線性模型為例,第s+1次從如下模型空間中等概率地抽取備選模型:當(dāng)前模型M(s)、當(dāng)前模型M(s)刪減一個解釋變量的模型、當(dāng)前模型M(s)增加一個解釋變量的模型。備選模型生成后,以如下接受概率判斷是否接受備選模型M*:
(31)
其中p(D|M*)和p(D|M(s))是邊際似然,可以用Laplace、MC或MCMC等方法計算得到。如果假設(shè)所有模型先驗概率相等,那么式(31)就簡化為計算兩個模型的貝葉斯因子:p(D|M*)/p(D|M(s))。George和McCulloch提出了與MC3相似的模型搜索策略,即隨機搜索變量選擇(Stochasticsearchvariableselection,SSVS)。在對模型抽簽時,MC3會移除一個解釋變量,但在SSVS中,所有解釋變量被賦予一個概率,一個解釋變量不會真正移除,而是以很大的概率趨于零。
四、大數(shù)據(jù)背景下貝葉斯模型平均的應(yīng)用前景
在大數(shù)據(jù)背景下,借助于便捷的統(tǒng)計軟件工具,BMA在國內(nèi)外得到了廣泛應(yīng)用,特別是考慮到大數(shù)據(jù)價值的稀疏性,范劍青提出利用多個模型擬合數(shù)據(jù),然后按照系統(tǒng)的觀點利用模型平均方法將各模型結(jié)果綜合起來,提取大數(shù)據(jù)的內(nèi)在價值*2015年12月20日,范劍青在中國人民大學(xué)統(tǒng)計與大數(shù)據(jù)研究院暨大數(shù)據(jù)論壇做了題為“大數(shù)據(jù)人才培養(yǎng):復(fù)旦方案”的報告。這里的觀點是筆者根據(jù)報告的部分內(nèi)容整理得到的。。目前,BMA的應(yīng)用領(lǐng)域包括醫(yī)學(xué)健康、計量經(jīng)濟學(xué)、工程技術(shù)、氣象預(yù)報、水文地理等。
在醫(yī)學(xué)健康方面:Volinsky等人研究了美國成年人的中風(fēng)死亡因素,發(fā)現(xiàn)應(yīng)用BMA于Cox比例風(fēng)險模型(Proportional hazard model),可以避免逐步回歸方法忽視的模型不確定性,改善對中風(fēng)的預(yù)測,同時改進潛在中風(fēng)患者的風(fēng)險評價;Annest等在癌癥與基因相關(guān)性的研究中,發(fā)現(xiàn)通過BMA可以選擇數(shù)量較少的預(yù)測基因,但仍能對癌癥的復(fù)發(fā)和轉(zhuǎn)移進行有效預(yù)測;Bobb等人采用1987年至2005年美國105個城市的相關(guān)數(shù)據(jù),構(gòu)建了一組時間序列模型,估計高溫天氣對人類死亡率的影響,然后利用BMA將這些模型的結(jié)果進行綜合,從而系統(tǒng)地解決了模型選擇的不確定性問題;Carroll等人利用BMA方法研究了美國喬治亞州不同區(qū)域腸癌的影響因素,發(fā)現(xiàn)在喬治亞州的北部郡縣,中產(chǎn)階級的收入和非裔人群比例是腸癌的重要預(yù)測變量;在喬治亞州的南部,貧困線下人口比例和非裔人群比例是腸癌的重要影響因素[13]。
在計量經(jīng)濟學(xué)方面:BMA應(yīng)用成果豐碩,F(xiàn)ernández等人利用BMA研究了跨國經(jīng)濟增長回歸模型,發(fā)現(xiàn)擁有不同協(xié)變量的回歸模型后驗概率相差不大,證明模型不確定性的確存在,其實證結(jié)果支持薩拉伊馬丁 的“樂觀”結(jié)論,即多組協(xié)變量在解釋跨國經(jīng)濟增長中具有重要作用;2008年,Wright在《計量經(jīng)濟學(xué)》發(fā)表文章,提出了對匯率預(yù)測的隨機游走模型進行貝葉斯模型平均,研究發(fā)現(xiàn)模型平均的預(yù)測效果比單一模型要好;Wright又使用BMA對單一時間序列預(yù)測模型進行了綜合, 發(fā)現(xiàn)這種方法對美國通脹率的預(yù)測優(yōu)于簡單平均的方法, 也優(yōu)于單一時間序列預(yù)測模型;Jacobson和Karlsson使用類似的方法預(yù)測了瑞典的通脹;Eicher等利用BMA方法,綜合考慮幾種關(guān)于外商直接投資(Foreign Direct Investment,FDI)的模型,并且進一步將BMA擴展為HeckitBMA,解決了模型選擇偏倚問題。
中國學(xué)者陳偉和牛霖琳運用BMA對中國通貨膨脹率進行建模,并對樣本外通脹進行預(yù)測,發(fā)現(xiàn)在均方根誤差標(biāo)準(zhǔn)下,BMA方法的預(yù)測優(yōu)于AR模型、主成分分析模型、菲利普斯曲線模型、利率期限結(jié)構(gòu)模型等單一模型[6];王亮和劉金金采用BMA方法,使用1970—2007年的省際數(shù)據(jù),對影響中國經(jīng)濟增長的因素進行了分析,發(fā)現(xiàn)高等教育發(fā)展階段、工業(yè)化推進速度、對外開放程度、東部區(qū)位優(yōu)勢、消費能力和對內(nèi)開放水平等 6 個解釋變量對中國經(jīng)濟增長具有長期、持續(xù)和穩(wěn)健的影響[14];朱慧明等人采用逆跳MCMC方法選擇分位數(shù)自回歸模型的階次,滬深300指數(shù)的實證研究顯示,貝葉斯方法可以有效地識別分位數(shù)回歸的階次并進行參數(shù)估計;司明和孫大超采用BMA方法分析發(fā)達(dá)國家主權(quán)債務(wù)危機成因,發(fā)現(xiàn)金融危機沖擊、經(jīng)濟增長率下降、失業(yè)率升高、人口老齡化和政府預(yù)算收入降低是債務(wù)危機爆發(fā)的主要原因;高麗君采用中小企業(yè)信用數(shù)據(jù),利用傳統(tǒng)生存模型、Bootstrap生存模型和BMA生存模型估計中小企業(yè)信用違約情況,研究發(fā)現(xiàn)BMA生存模型結(jié)果準(zhǔn)確率較高,Bootstrap生存模型次之,傳統(tǒng)生存模型準(zhǔn)確率最低;李佳蓓等人對多元線性回歸問題中的變量選擇方法進行了研究,改進了現(xiàn)有的貝葉斯自適應(yīng)抽樣方法,數(shù)據(jù)仿真發(fā)現(xiàn)改進后的方法預(yù)測效果比改進前更好[15]。
此外,在工程技術(shù)領(lǐng)域,Raftery和Kárny在傳統(tǒng)BMA方法基礎(chǔ)上,提出了動態(tài)模型平均技術(shù)(Dynamic Model Averaging,DMA),并將其運用到冷軋機輸出的在線預(yù)測中;王華偉等人采用BMA方法,研究了不同失效模式對航空發(fā)動機可靠性的影響;在氣象預(yù)測領(lǐng)域,Raftery等將BMA引入到對各種氣象參數(shù)的預(yù)測中,目前BMA已經(jīng)在氣溫、氣壓、風(fēng)速、能見度等預(yù)測中得到廣泛應(yīng)用。Fang和Li在運用氣候大數(shù)據(jù)對過去1 000年氣候變化模擬時,利用BMA方法綜合考慮了不同氣候模型的模擬結(jié)果,發(fā)現(xiàn)BMA方法能夠發(fā)揮各模型的優(yōu)勢,得到更可靠的氣候變化模擬結(jié)果;在水文地理方面,梁忠民等人發(fā)現(xiàn)基于BMA的水文模型合成預(yù)報,不僅可以提供精度較高的均值預(yù)測,而且可以通過預(yù)測分布評價預(yù)測的不確定性。
五、結(jié)束語
從1978年Leamer提出貝葉斯模型平均方法至今,已有逾30年的歷史,在這30多年里,貝葉斯模型平均方法漸趨成熟,其應(yīng)用也愈加廣泛。筆者回顧了貝葉斯模型平均的發(fā)展歷程,介紹了貝葉斯模型平均的基本原理,綜述了大數(shù)據(jù)背景下貝葉斯模型平均的理論突破,并介紹了大數(shù)據(jù)背景下貝葉斯模型平均在各領(lǐng)域中的應(yīng)用。
貝葉斯模型平均方法不偏好也不摒棄各個模型,而是對各模型結(jié)果進行綜合,以期發(fā)揮各模型優(yōu)勢,融合更多信息。貝葉斯模型平均的魅力不僅在其對模型結(jié)果的綜合,還在于這種方法本身所蘊藏的貝葉斯智慧。貝葉斯模型平均改變了人們對模型比較和模型選擇的傳統(tǒng)認(rèn)識,是對經(jīng)典建模理論的有益補充。本文的目的是系統(tǒng)地介紹貝葉斯模型平均方法的理論進展,為國內(nèi)學(xué)者應(yīng)用貝葉斯模型平均方法提供參考。筆者相信在大數(shù)據(jù)背景下,將貝葉斯模型平均方法應(yīng)用到中國社會、經(jīng)濟各領(lǐng)域的數(shù)據(jù)分析中,將會得到更多有用的信息和有價值的結(jié)論。
參考文獻:
[1]Breiman L. Statistical Modeling: The Two Cultures (with Comments and a Rejoinder by the Author)[J]. Statistical Science, 2001 (3).
[2]Clyde M, George E I. Model Uncertainty[J]. Statistical Science, 2004(1).
[3]劉樂平, 高磊, 楊娜. MCMC 方法的發(fā)展與現(xiàn)代貝葉斯的復(fù)興[J]. 統(tǒng)計與信息論壇, 2014 (2).
[4]Hoeting J A, Madigan D, Raftery A E, et al. Bayesian Model Averaging: A Tutorial[J]. Statistical Science, 1999(4).
[5]Gneiting T, Raftery A E. Weather Forecasting with Ensemble Methods[J]. Science, 2005(10).
[6]陳偉,牛霖琳. 基于貝葉斯模型平均方法的中國通貨膨脹的建模及預(yù)測[J]. 金融研究,2013(11).
[7]Tierney L, Kadane J B. Accurate Approximations for Posterior Moments and Marginal Densities[J]. Journal of the American Statistical Association, 1986(3).
[8]Newton M A, Raftery A E. Approximate Bayesian Inference with the Weighted Likelihood Bootstrap[J]. Journal of the Royal Statistical Society. Series B (Methodological), 1994(1).
[9]Chib S. Marginal Likelihood from the Gibbs Output[J]. Journal of the American Statistical Association, 1995(12).
[10]Chib S, Jeliazkov I. Marginal Likelihood From the Metropolis-Hastings Output[J]. Journal of the American Statistical Association, 2001(3).
[11]Madigan D, Raftery A E. Model Selection and Accounting for Model Uncertainty in Graphical Models Using Occam's Window[J]. Journal of the American Statistical Association, 1994(12).
[12]Madigan D, York J, Allard D. Bayesian Graphical Models for Discrete Data[J]. International Statistical Review/Revue Internationale de Statistique, 1995(8).
[13]Carroll R, Lawson A B, Faes C, et al. Bayesian Model Selection Methods in Modeling Small Area Colon Cancer Incidence[J]. Annals of Epidemiology, 2016(1).
[14]王亮, 劉金全. 中國經(jīng)濟增長的決定因素分析——基于貝葉斯模型平均 (BMA) 方法的實證研究[J]. 統(tǒng)計與信息論壇, 2010(9).
[15]李佳蓓,朱永忠,王明剛. 貝葉斯變量選擇及模型平均的研究[J]. 統(tǒng)計與信息論壇,2015(8).
(責(zé)任編輯:郭詩夢)
On Theoretical Breakthrough and Application Prospect of BMA in Context of Big Data
GAO Lei1,LIU Le-ping1,LU Zhi-yi2
(1.Center for Big Data Analysis, Tianjin University of Finance and Economics, Tianjin 300222, China;2.School of Science, Tianjin University of Commerce, Tianjin 300134, China)
Abstract:Model comparison and selection uncertainty issue is very common in the big data analysis. The Bayesian model averaging (BMA) treats model as stochastic variable and assigns prior and posterior probability for it in order to account for model uncertainty. BMA weights the results of each model by their posterior model probability,and in the end obtatin more robust results. In this paper, we briefly describe the origins and developments of BMA, introduce the paradigm of BMA, and then discuss new progresses of BMA. Some important aspects of application are given in the context of big data.BMA combined with complex data analysis methods will provide new insights in our big data research methods.
Key words:big data; model uncertainty; Bayesian model averaging; MCMC
收稿日期:2016-01-18;修復(fù)日期:2016-04-20
基金項目:國家自然科學(xué)基金項目《Solvency II 框架下非壽險準(zhǔn)備金風(fēng)險度量與控制研究》(71171139);《多重風(fēng)險相依情形下的最優(yōu)保險問題研究》(71371138);《Basel III 框架下商業(yè)銀行監(jiān)管資本套利識別研究》(71303169);《逆周期資本監(jiān)管框架下考慮跳躍行為的信用風(fēng)險度量研究》(71401069);天津財經(jīng)大學(xué)研究生科研資助計劃(2014TCB03)
作者簡介:高磊,男,山東德州人,博士生,研究方向:精算與風(fēng)險管理;
中圖分類號:C829.29∶O212.8
文獻標(biāo)志碼:A
文章編號:1007-3116(2016)06-0014-09
劉樂平,男,江西萍鄉(xiāng)人,經(jīng)濟學(xué)博士,教授,博士生導(dǎo)師,研究方向:貝葉斯數(shù)據(jù)分析,精算與風(fēng)險管理;
盧志義,男,內(nèi)蒙古包頭人,經(jīng)濟學(xué)博士,副教授,碩士生導(dǎo)師,研究方向:精算與風(fēng)險管理。
【統(tǒng)計理論與方法】