朱桂玲
(昭通學(xué)院數(shù)學(xué)與統(tǒng)計(jì)學(xué)院,云南昭通 657000)
面對(duì)現(xiàn)實(shí)生活中的各種海量數(shù)據(jù),當(dāng)對(duì)這些數(shù)據(jù)進(jìn)行加工清洗之后,還需根據(jù)新的數(shù)據(jù)集做出推斷。近年來(lái),Bayes方法受到眾多研究者的厚愛(ài)[1]。例如,唐年勝、韋博成[2]系統(tǒng)闡述了非線性再生散度模型參數(shù)的Bayes 估計(jì);陳雪冬[3]討論了半?yún)?shù)再生散度模型的Bayes 分析;劉國(guó)旺等[4]采用MCMC 方法對(duì)ARFIMA 模型進(jìn)行Bayes 分析;任曉龍[5]等研究了m維AR(p)模型的Bayes 分析;周在瑩[6]對(duì)若干統(tǒng)計(jì)問(wèn)題的Bayes 理論進(jìn)行研究;朱萬(wàn)闖等[7]對(duì)近似Bayes 計(jì)算前沿進(jìn)展及應(yīng)用進(jìn)行研究;李鑫等[8]對(duì)基于先驗(yàn)信息可信度的制導(dǎo)精度Bayes 分析進(jìn)行研究。因此本文將討論單指標(biāo)眾數(shù)回歸模型的Bayes 局部影響分析,針對(duì)參數(shù)的后驗(yàn)分布,設(shè)定了擾動(dòng)方法來(lái)揭示模型的因變量和自變量的擾動(dòng)的本質(zhì)[1]。
下面給出單指標(biāo)眾數(shù)模型Bayes估計(jì)的預(yù)備知識(shí)。
模型設(shè)定
單指標(biāo)眾數(shù)模型[1]:
其中,α是系數(shù)向量,g(.)是聯(lián)系函數(shù),Mode為眾數(shù)。為了模型的可識(shí)別,
要求‖α‖= 1,α的第一個(gè)非零元素是正的[1]。
將基于樣條和光滑先驗(yàn)分布提出一種可以得到參數(shù)和非參數(shù)的Bayes 估計(jì)方法,采用的是同時(shí)綜合了Gibbs抽樣和MH算法的混合算法。最后得出以下貝葉斯估計(jì):
根據(jù)參數(shù)的先驗(yàn)分布公式,可以得到參數(shù)的聯(lián)合后驗(yàn)分布為:
設(shè)(δ(j),α(j),k(j),ξ(j),(σ2)(j),j= 1,2,…,J) 是從(2)式中抽取的(α,k,ξ,δ,σ2)的隨機(jī)樣本,則α,k,ξ,δ,σ2的Bayes估計(jì)算式分別為
另外,對(duì)于未知的光滑函數(shù)g(αTXi),我們可以通過(guò)如下方式來(lái)進(jìn)行估計(jì):
在本節(jié)中,我們主要針對(duì)單指標(biāo)眾數(shù)模型考慮因變量和自變量的擾動(dòng)情形。首先寫出參數(shù)α的條件分布:
因變量擾動(dòng)模型如下[1]:
其中,wT=(w1,w2,…,wn),w0T=(0,0,…,0)表示沒(méi)有受到擾動(dòng),對(duì)該擾動(dòng)模型取對(duì)數(shù)后得到:
其中,C0是與參數(shù)α無(wú)關(guān)的量,由(5)式可以直接計(jì)算可得
混合導(dǎo)數(shù)矩陣為,
通過(guò)公式(6)和(7),我們可以計(jì)算得到影響矩陣[1]:
假設(shè)只擾動(dòng)矩陣X=(x1,x2,…,xn)T的第t列Xt,即Xt擾動(dòng)為
其中,st為Xt某種模,η=(η1,η2,…,ηn),η0=(0,0,…,0)T代表沒(méi)有受到擾動(dòng),對(duì)該擾動(dòng)模型取對(duì)數(shù)后得到[1]:
這里的ρt是一個(gè)q維單位向量(第t個(gè)分量為1),由上式經(jīng)計(jì)算直接可得[1]:
其中,X(t)表示X的第t列變成Xt+stη,U和W的具體表達(dá)式為
U=diag{Y1-B((X1+stη1ρt)TαT)Tδ,Y2-B((X2+stη2ρt)TαT)Tδ,…,Yn-B((Xn+stηnρt)TαT)Tδ,W=diag{Y1-g(αT(X1+str1δt)),…,Yn-g(αT(Xn+strnδt))},
E(t)表示第t列全為1,其他位置皆為0的n×q矩陣,
把上面式子帶入,即可求出影響矩陣[7]:
在本節(jié)中,我們將通過(guò)一個(gè)模擬實(shí)驗(yàn)和一個(gè)關(guān)于波士頓住房數(shù)據(jù)來(lái)驗(yàn)證前面所提出的方法。
本小節(jié)將利用模擬研究來(lái)說(shuō)明所提出的方法在有限樣本下的效果。所用到的數(shù)據(jù)由以下模型“sine - bump”生成[1]
其中,Xi~U(0,1),且σ= 0.5,。顯然,模型的未知參數(shù)是α和樣條系數(shù)δ,考慮樣本量n為200,對(duì)上述實(shí)驗(yàn)設(shè)計(jì)下產(chǎn)生的實(shí)驗(yàn)數(shù)據(jù),我們打算用上面介紹的Bayes局部影響分析方法,來(lái)判斷哪些點(diǎn)為異常值。
在給定上述信息情況下,將進(jìn)一步考慮未知函數(shù)g(u)的樣條參數(shù)的Bayes估計(jì):
其中,節(jié)點(diǎn)數(shù)k=20,節(jié)點(diǎn)(ξ1,…,ξk)選擇的是區(qū)間[umin,umax]的等距節(jié)點(diǎn)。umin和umax是u中的最小值和最大值。然后給定α和樣條系數(shù)δ的初值,可以得到一條隨機(jī)樣本鏈。
求解出參數(shù)α的局部影響分析結(jié)果如下:
(1)圖1 展現(xiàn)出了局部影響分析響應(yīng)變量Y擾動(dòng)的結(jié)果,從圖1 中,可以明顯地看到第117、169點(diǎn)的值比較大,這些點(diǎn)很可能是異常值。
圖1 因變量Y的擾動(dòng)
(2)圖2展現(xiàn)出了局部影響分析反映變量X的擾動(dòng)的結(jié)果,從圖2中,可以看到第117、169號(hào)點(diǎn)的值比較大,它們對(duì)反映變量X有較大擾動(dòng),由此可以判斷這些點(diǎn)可視為異常點(diǎn)。
圖2 協(xié)變量X的擾動(dòng)
在本小節(jié)中,使用關(guān)于波士頓房?jī)r(jià)數(shù)據(jù)(Boston housing data)來(lái)證實(shí)所提出的方法。數(shù)據(jù)說(shuō)明和模型假設(shè)均與前面相同,此數(shù)據(jù)一共收集了506住房信息[1]。
含有1 個(gè)因變量MEDV(the median value of owner-occupied homes in$ 1000)和13 個(gè)協(xié)變量。我們最感興趣的,是研究MEDV 和其他13個(gè)協(xié)變量之間的關(guān)系。比較完整和詳細(xì)的數(shù)據(jù)描述可以在StatLib中通過(guò)鏈接http://lib.stat.cmu.edu/datasets/boston 找到。在本實(shí)例研究中,主要考慮三個(gè)協(xié)變量RM,DIS和LSTAT(詳細(xì)介紹請(qǐng)見(jiàn)表1)。
表1 波士頓房?jī)r(jià)的主要研究數(shù)據(jù)結(jié)構(gòu)
為了更好地研究這些變量的特征,我們用單指標(biāo)眾數(shù)模型來(lái)抓住這些數(shù)據(jù)中隱藏的非線性關(guān)系和變量分布的有偏特征。這里εi~N(0,1),于是考慮如下單指標(biāo)眾數(shù)模型[1]:
為了得到α1,α2,α3的估計(jì),需要先獲得g(u)的樣條估計(jì),α的局部影響分析結(jié)果如下:
(1)圖3 展現(xiàn)出了局部影響分析響應(yīng)變量Y 擾動(dòng)的結(jié)果,從圖中,很明顯的看到第35、343、379、387、411、433點(diǎn)的值比較大,這些點(diǎn)很可能是異常點(diǎn)。
圖3 因變量Y的擾動(dòng)
(2)圖4,展現(xiàn)出了局部影響分析反映變量X的擾動(dòng)的結(jié)果,從圖中,看到第379、387、411、433號(hào)點(diǎn)的值比較大,它們對(duì)反映變量X有較大擾動(dòng),由此可以判斷這些點(diǎn)可視為異常點(diǎn)。
圖4 自變量X的擾動(dòng)
從Bayes 的角度,探討了基于眾數(shù)回歸的單指標(biāo)模型的Bayes 局部影響分析。針對(duì)參數(shù)的后驗(yàn)分布,設(shè)定了擾動(dòng)方法來(lái)揭示模型的因變量和自變量的擾動(dòng)的本質(zhì)。
同時(shí)用上面的方法通過(guò)模擬研究和波士頓房?jī)r(jià)數(shù)據(jù)來(lái)說(shuō)明提出的方法。從模擬結(jié)果中可以看出,不同的擾動(dòng)模型,可能得到不同的異常點(diǎn)或強(qiáng)影響點(diǎn),但是無(wú)論用什么擾動(dòng)模型,最后研究結(jié)果中都含有第117、169 點(diǎn),這說(shuō)明這些點(diǎn)就是異常點(diǎn)。而真實(shí)數(shù)據(jù)的例子,通過(guò)綜合所有結(jié)果,也得出了共同點(diǎn),它們是第379、387、411、433點(diǎn),這說(shuō)明這些點(diǎn)就是異常點(diǎn)。研究結(jié)果證實(shí),在檢測(cè)異常值方面,本文提出的模型和方法是行之有效的[1]。