陸妍
摘要:分位數(shù)回歸主要描述自變量x和因變量丫的分位數(shù)之間的線性關(guān)系,不僅能夠度量回歸變量對(duì)因變量分布中心的影響,而且也能夠度量回歸變量對(duì)分布上尾和下尾的影響,因此比經(jīng)典的最小二乘回歸法更具有優(yōu)勢(shì)。
關(guān)鍵詞:分位數(shù)回歸;貝葉斯定理;馬爾科夫鏈蒙特卡洛;非對(duì)稱拉普拉斯分布
一、研究背景
回歸分析一自以來(lái)都是社會(huì)科學(xué)定量研究領(lǐng)域的重點(diǎn)內(nèi)容,使用回歸分析的基本目的是為了揭示因變量和自變量之間的關(guān)系,模型主要是條件均值模型。在實(shí)際應(yīng)用中我們會(huì)發(fā)現(xiàn)條件均值模型具有許多的局限性,通常在模型中需要假設(shè)隨機(jī)擾動(dòng)項(xiàng)是服從均值為零且同方.差的分布。但是在實(shí)際生活中,這些假設(shè)是很難被滿足的,為了彌補(bǔ)普通最刁仁乘法在回歸分析中的缺陷,Koenker和Bassett(1978)將均值回歸模型擴(kuò)展到了因變量的條件分位數(shù)模型,首次提出了分位數(shù)回歸的思想。
隨著貝葉斯推理在廣義線性模型的使用越來(lái)越廣泛的時(shí)候,研究者們發(fā)現(xiàn)貝葉斯方法相對(duì)于古典推斷存在很大的優(yōu)勢(shì)。MCMC方法的應(yīng)用也越來(lái)越廣泛,即使是在復(fù)雜的情況下,MCMC方法依然可以獲得人們感興趣的所有參數(shù)的后驗(yàn)分布。結(jié)合這些優(yōu)點(diǎn),貝葉斯理論便能與分位數(shù)回歸完美的結(jié)合起來(lái),很好的發(fā)展了分位數(shù)回歸模型。
二、分位數(shù)回歸
分位數(shù)回歸(Quantile Regression)由Koenker和Bassett在1978年提出,它主要描述自變量X和因變量Y的分位數(shù)之間線性關(guān)系。設(shè)隨機(jī)變量X的分布函數(shù)為F,對(duì)任意0<τ<1,稱F-1(τ)=inf{x:F(x)≥τ}為X的τ-分位數(shù)。
三、非對(duì)稱拉普拉斯分布(LAD)
定義:稱隨機(jī)變量X服從非對(duì)稱普拉斯分布,若其密度函數(shù)為:,記為X~ALD(μ,σ,τ),對(duì)應(yīng)的分位數(shù)函數(shù)為:機(jī)變量X在τ處的分位數(shù)等于位置參數(shù)μ,即F-1(x;μ,σ,τ)|x=τ=μ,這是ALD可以作為分位數(shù)回歸模型誤差分布的重要依據(jù)。
四、貝葉斯估計(jì)的基本原理
(1)貝葉斯定理
對(duì)于給定的觀測(cè)數(shù)據(jù)集y,β的條件分布為:p(β|y)=p(y|β)p(β)/p(y),由于當(dāng)樣本數(shù)據(jù)給定時(shí)p(y)為常數(shù),與參數(shù)β無(wú)關(guān),因此上式可以寫為:p(β|y)∝p(y|β)p(β),上式稱為貝葉斯定理,p(β)為參數(shù)β的先驗(yàn)信息。給定y下的β的似然函數(shù)為:L(β|y)=∏i=1np(yi|β)=p(y1,y2,…,yn|β)=p(y|β),則貝葉斯定理可以寫成:p(β|y)∝L(β|y)p(β)。
(2)后驗(yàn)分布
先驗(yàn)信息與樣本信息相結(jié)合得到后驗(yàn)信息,后驗(yàn)密度綜合了所有參數(shù)的先驗(yàn)信息和樣本信息,是貝葉斯統(tǒng)計(jì)推斷的基礎(chǔ),若后驗(yàn)密度非標(biāo)準(zhǔn)形式,其分布特征可以通過模擬抽樣技術(shù)得到。
(3)MCMC方法
MCMC方法是從函數(shù)f(·)抽取一個(gè)馬爾科夫鏈X1,X2,……,然后用抽樣均值近似總體期望μ=Eπ(f(Xi))其中π為其穩(wěn)定分布。如果密度函數(shù)f(x1,x2,…,xn)=f(X1)∏i=2f(xi|x1,x2,…,xi-1)等式的各個(gè)條件密度不可以自接模擬得到,或者參數(shù)分布函數(shù)是非標(biāo)準(zhǔn)形式,可以在非參數(shù)空間上構(gòu)造一個(gè)馬爾科夫鏈,使其穩(wěn)定分布為目標(biāo)分布,這樣只要馬爾科夫鏈?zhǔn)諗?,其抽樣均值就是?lái)自目標(biāo)分布的扣孵羊序列,這種刊時(shí)羊算法稱為MCMC抽樣算法。
五、分位數(shù)回歸、ALO、貝葉斯估計(jì)相結(jié)合
求解分位數(shù)回歸系數(shù)是最小化損失函數(shù):。在模型:y=x'β+ε中假定ε~ALD(0,σ,τ),則y~ALD(x'β,σ,τ),則樣本的似然函數(shù)為:則在特定的分位數(shù)τ下,(1)式的極小化損失函數(shù)與(2)式的極大化似然函數(shù)是等價(jià)的,因此分位數(shù)回歸的參數(shù)估計(jì)值可以通過優(yōu)化似然函數(shù)得到,由于(2)式連續(xù)但不可導(dǎo),對(duì)參數(shù)求導(dǎo)沒有解析解,在這種情況下采用MCMC模擬的方法得到參數(shù)的后驗(yàn)分布。評(píng)估系數(shù)和尺度參數(shù)的先驗(yàn)密度為f(β)、φ(σ),參數(shù)的聯(lián)合后驗(yàn)密度為p(β,σ|y)∝L(yi;xi',σ,τ)f(β)φ(σ)。
參考文獻(xiàn)
[1]曾惠芳,朱慧明.基于MCMC算法的貝葉斯分位回歸計(jì)量模型及應(yīng)用研[D]湖南大學(xué),2011.