許 哲, 錢夕元
(華東理工大學(xué)理學(xué)院,上海 200237)
基于Alpha穩(wěn)定分布的二元響應(yīng)變量回歸模型
許 哲, 錢夕元
(華東理工大學(xué)理學(xué)院,上海 200237)
Logit模型是常用的針對(duì)二元響應(yīng)變量的回歸模型,當(dāng)0-1響應(yīng)變量不平衡時(shí),Logit模型將會(huì)帶來連接函數(shù)設(shè)定錯(cuò)誤。為了更靈活地捕捉帶偏和厚尾特征,提出了以Alpha穩(wěn)定分布作為連接函數(shù)的二元響應(yīng)變量回歸模型,稱之為穩(wěn)定分布模型。借助期望傳播-近似貝葉斯計(jì)算(EP-ABC)方法,克服了Alpha穩(wěn)定分布由于沒有概率密度函數(shù)解析表達(dá)式所帶來的困難,同時(shí)也解決了高維運(yùn)算所導(dǎo)致的低接收率的問題。結(jié)果表明該模型對(duì)平衡或不平衡二元響應(yīng)變量數(shù)據(jù)擬合和預(yù)測(cè)的效果均明顯優(yōu)于Logit、Probit、Cloglog和GEV模型。
Alpha穩(wěn)定分布模型; EP-ABC方法; 廣義線性回歸模型; 不平衡數(shù)據(jù)
在針對(duì)二元響應(yīng)變量建立回歸模型時(shí),由于Logit模型潛在變量的概率響應(yīng)曲線是對(duì)稱的,一般性假設(shè)響應(yīng)變量中的各類樣本數(shù)目基本均衡,而當(dāng)0-1響應(yīng)變量樣本數(shù)差異明顯時(shí),繼續(xù)使用Logit模型,將會(huì)產(chǎn)生連接函數(shù)設(shè)定錯(cuò)誤(Link misspecification),為參數(shù)的估計(jì)帶來較大的偏差和均方誤差[1]。同時(shí),Cloglog模型只有固定的偏度,GEV模型的形狀參數(shù)同時(shí)控制偏度和尾部厚度,偏度特征與尾部特征相互制約,使得模型擬合的靈活性并沒有完全放松[2]。
因此,針對(duì)不平衡的二元響應(yīng)變量,應(yīng)當(dāng)選擇更加靈活的連接函數(shù)來捕捉數(shù)據(jù)的偏度特征,用以達(dá)到更好的擬合效果。鑒于Alpha穩(wěn)定分布可以很好地刻畫數(shù)據(jù)偏度和尾部特征,本文采用Alpha穩(wěn)定分布作為連接函數(shù)構(gòu)建了二元響應(yīng)變量回歸模型,稱為穩(wěn)定分布模型。
假定二元響應(yīng)變量yi是取值為0、1的隨機(jī)變量,yi=1表示事件在第i個(gè)樣本下發(fā)生,而yi=0表示事件在第i個(gè)樣本下不發(fā)生。因此,判斷事件在第i個(gè)樣本下發(fā)生概率的表達(dá)式為
(1)
其中:xi為k維自變量向量;βc為k維回歸系數(shù);F為累積分布函數(shù),而F-1稱為連接函數(shù)。Logit模型中F-1(pi)=lg(pi/(1-pi));在Probit模型中F-1(pi)=Φ-1(pi),Φ表示標(biāo)準(zhǔn)正態(tài)分布的累積分布函數(shù);Cloglog模型中F-1(pi)=lg(-lg(1-pi));GEV模型中F-1(pi)=G-1(pi),G表示標(biāo)準(zhǔn)GEV分布的累積分布函數(shù)。
除了高斯分布(α=2)、柯西分布(α=1,β=0)和Lévy分布(α=1/2,β=1)等少數(shù)幾種情況外,Alpha穩(wěn)定分布的概率密度函數(shù)和累積分布函數(shù)沒有解析表達(dá)式,通??梢杂萌缦碌奶卣骱瘮?shù)來表示:
(2)
依據(jù)特征函數(shù)的性質(zhì),穩(wěn)定分布擁有連續(xù)且單調(diào)的概率密度函數(shù)和累積分布函數(shù)[3],因此,根據(jù)式(1),穩(wěn)定分布模型可以表示為
(3)
EP-ABC方法是綜合了ABC方法和EP方法而形成的一種貝葉斯推斷方法[4]。
ABC方法的提出是為了解決在似然函數(shù)難以計(jì)算或表達(dá)情況下貝葉斯估計(jì)的困難[5]。它主要通過對(duì)模型的模擬產(chǎn)生人工數(shù)據(jù)集,以選定的概要統(tǒng)計(jì)量s(·)(Summary statistics)作為度量,比較人工數(shù)據(jù)集與實(shí)際觀測(cè)數(shù)據(jù)在這個(gè)度量上的距離,如果它們足夠接近(小于設(shè)定的誤差ε),則認(rèn)為用于模擬人工數(shù)據(jù)集的參數(shù)來自與真實(shí)后驗(yàn)分布相同的分布,這樣后驗(yàn)分布就可以直接通過數(shù)值模擬進(jìn)行估計(jì),從而省去了似然函數(shù)的計(jì)算。ABC方法成功的關(guān)鍵取決于概要統(tǒng)計(jì)量s(·)和誤差ε的選取,這對(duì)穩(wěn)定分布模型參數(shù)估計(jì)構(gòu)成了一定的挑戰(zhàn);另外,標(biāo)準(zhǔn)ABC方法計(jì)算還存在效率不高的缺點(diǎn)。
對(duì)于穩(wěn)定分布模型,似然函數(shù)沒有解析的表達(dá)式,這會(huì)使混合分布也同樣不能被解析表達(dá),最小化KL散度的運(yùn)算是十分困難的。EP-ABC方法就是利用ABC方法替代最小化KL散度的過程來估計(jì)混合分布的矩。令概要統(tǒng)計(jì)量取s(yi)=yi,則在EP-ABC方法下,參數(shù)為θ=(βc,α,β)的穩(wěn)定分布模型聯(lián)合后驗(yàn)分布表示為
(4)
3.1 模擬數(shù)據(jù)集
在二元響應(yīng)變量回歸模型中,線性回歸部分模擬產(chǎn)生1個(gè)截距項(xiàng)X1和4個(gè)解釋變量(X2,X3,X4,X5),對(duì)應(yīng)的回歸系數(shù)設(shè)為βc=(β1,β2,β3,β4,β5),其中,設(shè)定X2為服從標(biāo)準(zhǔn)正態(tài)分布的連續(xù)變量,X3為服從伯努利分布的二元0-1虛擬變量,X4和X5為三分類的類別變量,且令樣本容量為n=200。分別模擬產(chǎn)生兩組服從n維伯努利分布的二元響應(yīng)變量:一組為基于Cloglog模型產(chǎn)生的不平衡數(shù)據(jù)集,回歸系數(shù)設(shè)為βc=(0.5,1,1,0.5,-2),稱為模擬數(shù)據(jù)集1;另一組為基于Probit模型產(chǎn)生的平衡數(shù)據(jù)集,回歸系數(shù)設(shè)為βc=(0.5,2,-1,1.5,-2),稱為模擬數(shù)據(jù)集2。
為了驗(yàn)證穩(wěn)定分布模型對(duì)不平衡的模擬數(shù)據(jù)1和平衡的模擬數(shù)據(jù)集2都能進(jìn)行很好的估計(jì),從而進(jìn)一步展示Alpha穩(wěn)定分布連接函數(shù)的靈活性,將穩(wěn)定分布模型的估計(jì)結(jié)果與Logit、Probit、Cloglog和GEV模型進(jìn)行比較。這里所有的模型均采用EP-ABC算法估計(jì),并且每個(gè)待估參數(shù)都選取標(biāo)準(zhǔn)正態(tài)分布作為先驗(yàn)分布。對(duì)于穩(wěn)定分布模型,待估參數(shù)為θ=(βc,α,β),即先驗(yàn)分布βc~N(05,diag(1,1,1,1,1)),Φ-1(α/2)~N(0,1),Φ-1(β+1/2)~N(0,1)。
3.2 實(shí)驗(yàn)結(jié)果與分析
圖1 回歸系數(shù)參數(shù)βc的估計(jì)誤差分布箱線圖
穩(wěn)定分布模型在擬合Cloglog模型模擬產(chǎn)生的不平衡數(shù)據(jù)集1時(shí),模型連接函數(shù)中的特征參數(shù)α和對(duì)稱參數(shù)β的估計(jì)值和95%置信區(qū)間(HPDI)分別為α=1.635(1.435,1.834),β=-0.129(-0.559,0.301),由于Cloglog函數(shù)和Alpha穩(wěn)定分布并不來自相同分布族,在Alpha穩(wěn)定分布中與Cloglog函數(shù)同等的分布的真實(shí)參數(shù)未知,因此這里只通過構(gòu)建Cloglog函數(shù)分位數(shù)和Alpha穩(wěn)定分布分位數(shù)的Q-Q圖來評(píng)價(jià)穩(wěn)定分布模型的參數(shù)估計(jì)效果。從圖2(a)中可見,數(shù)據(jù)點(diǎn)在[-2,4]的區(qū)間內(nèi)均落在一條直線上,可以認(rèn)為以估計(jì)值α=1.635和β=-0.129為形狀參數(shù)的穩(wěn)定分布模型對(duì)Cloglog連接函數(shù)已經(jīng)提供了較好的擬合效果。
穩(wěn)定分布模型在擬合Probit模型模擬產(chǎn)生的平衡數(shù)據(jù)集2時(shí),模型連接函數(shù)中的特征參數(shù)α和對(duì)稱參數(shù)β的估計(jì)值和95%置信區(qū)間(HPDI)分別為α=1.879(1.838,1.920),β=-0.057(-0.304,0.190)。當(dāng)n=200時(shí),真實(shí)值β=0已經(jīng)包含在95%的HPDI置信區(qū)間中,而對(duì)于α而言,真實(shí)值α=2是α取值范圍(0,2]的邊界,因此α的估計(jì)取不到真實(shí)值,α=2也不可能包含在95%的HPDI置信區(qū)間中,盡管如此,估計(jì)值α=1.879已經(jīng)相當(dāng)接近真實(shí)值α=2,可以認(rèn)為α的估計(jì)是比較精確的。與此同時(shí),還可以通過構(gòu)建高斯分布分位數(shù)和Alpha穩(wěn)定分布分位數(shù)的Q-Q圖來評(píng)價(jià)穩(wěn)定分布模型對(duì)高斯分布連接函數(shù)的擬合效果,從圖2(b)中可見,數(shù)據(jù)點(diǎn)幾乎都落在一條直線上,說明以估計(jì)值α=1.879和β=-0.057為形狀參數(shù)的穩(wěn)定分布模型對(duì)高斯分布的連接函數(shù)擬合效果較好,α和β的估計(jì)是精確的。
圖2 穩(wěn)定分布模型對(duì)Cloglog模型(a)和Probit模型(b)近似效果的Q-Q圖
綜上所述,穩(wěn)定分布模型的連接函數(shù)可以靈活捕捉和描述數(shù)據(jù)峰度、尾部及偏度的特征,對(duì)平衡或不平衡的數(shù)據(jù)集都能做到較為精確的估計(jì)。
3.3 模型比較與預(yù)測(cè)
參數(shù)估計(jì)以外,本文還將穩(wěn)定分布模型的估計(jì)能力與Logit、Probit、Cloglog和GEV模型進(jìn)行對(duì)比。依據(jù)表1的模型比較結(jié)果,在DIC準(zhǔn)則方面,穩(wěn)定分布模型的DIC值都明顯小于Probit,Cloglog和GEV模型,說明穩(wěn)定分布模型的復(fù)雜度優(yōu)于其他3個(gè)模型。
表1 模型比較結(jié)果
為了比較不同模型對(duì)于不平衡數(shù)據(jù)集的預(yù)測(cè)能力,計(jì)算各模型5折交叉驗(yàn)證的均方根誤差(RMSE)并繪制其接收者操作特性曲線(ROC),由表1可知穩(wěn)定分布模型的均方根誤差最小,圖3顯示穩(wěn)定分布模型ROC曲線下的面積(AUC值)最大,說明穩(wěn)定分布模型具有最佳的預(yù)測(cè)能力。
由此可見,穩(wěn)定分布模型的擬合和預(yù)測(cè)效果都優(yōu)于其他3個(gè)模型,是二元響應(yīng)變量回歸模型在GEV模型基礎(chǔ)上的合理改進(jìn)。
圖3 模擬數(shù)據(jù)集1中各模型ROC曲線和AUC值
本文對(duì)廣義線性模型進(jìn)行推廣,給出了穩(wěn)定分布模型,針對(duì)不平衡二元響應(yīng)變量回歸分析時(shí),擁有更多偏度和拖尾厚度上的靈活性。針對(duì)穩(wěn)定分布概率密度和累積分布函數(shù)沒有解析表達(dá)式的特點(diǎn),還給出了EP-ABC的估計(jì)方法。最后通過數(shù)值模擬實(shí)驗(yàn),驗(yàn)證了穩(wěn)定分布模型對(duì)二分類不平衡數(shù)據(jù)的估計(jì)效果與預(yù)測(cè)能力優(yōu)于Logit,Probit,Cloglog以及GEV模型,該模型可以廣泛地應(yīng)用于經(jīng)濟(jì)、金融、信號(hào)處理等領(lǐng)域。
[1]CZADO C,SANTNER T J.The effect of link misspecification on binary regression inference[J].Journal of Statistical Planning and Inference,1992,33(2):213-231.
[2]WANG X,DEY D K.Generalized extreme value regression for binary response data:An application to B2B electronic payments system adoption[J].The Annals of Applied Statistics,2010,4(4):2000-2023.
[3]NOPAN J P.Stable Distribution:Models for Heavy Tailed Data[M].Washington D C:Birkhauser,2010.
[4]BARTHELME S,CHOPIN N.Expectation-propagation for likelihood-free inference[J].Journal of the American Statistical Association,2014,109(505):315-333.
[5]TURNER B M,ZANDT T V.A tutorial on approximate Bayesian computation[J].Journal of Mathematical Psychology,2012,56(2):69-85.
[6]SKAR C.The expectation propagation algorithm for use in approximate Bayesian analysis of latent gaussian models[D].Norway:Institutt for Matematiske Fag,2010.
Alpha-Stable Distribution Based Regression for Binary Response Data
XU Zhe, QIAN Xi-yuan
(School of Science,East China University of Science and Technology,Shanghai 200237,China)
Logit model is the most popular binary regression models for modelling binary response data.When dealing with unbalanced data,Logit model will cause link misspecification.A more flexible model of alpha-stable model,is introduced to fit unbalanced data by setting alpha-stable distribution as the link function.For model estimation,since alpha-stable distribution admits no closed-form expression for the density,we employ expectation propagation with approximate Bayesian computation (EP-ABC) algorithm.It overcomes the difficulties that high dimensionality results in low acceptance rate through data partitioning.According to the simulation results,alpha-stable model performs better than Logit,Probit,Cloglog or GEV model in fitting both balanced and unbalanced data.
Alpha-stable model; EP-ABC algorithm; generalized regression model; unbalanced data
1006-3080(2017)01-0129-04
10.14135/j.cnki.1006-3080.2017.01.020
2016-04-19
國家高技術(shù)發(fā)展研究“863”計(jì)劃項(xiàng)目(2015AA20107);上海市經(jīng)信委“軟件和集成電路產(chǎn)業(yè)發(fā)展專項(xiàng)資金”(140304)
許 哲(1991-),女,江蘇南京人,碩士生,研究方向?yàn)榻y(tǒng)計(jì)計(jì)算。E-mail:belle_910803@163.com
錢夕元,E-mail:xyqian@ecust.edu.cn
O212.1
A