劉維奇,赫英迪,邢紅衛(wèi)
選擇重尾閾值k的Bootstrap方法
劉維奇1,2,赫英迪2,3,邢紅衛(wèi)2
(1.山西大學(xué)管理科學(xué)與工程研究所,山西太原030006;2.山西大學(xué)數(shù)學(xué)科學(xué)學(xué)院,山西太原030006; 3.廣東茂名職業(yè)技術(shù)學(xué)院,廣東茂名525000)
詳細(xì)討論了重尾指數(shù)估計(jì)中選取k的Sum-plot方法和Bootstrap方法,并對(duì)Hall提出的Bootstrap方法作了改進(jìn),稱為M-Bootstrap方法.并利用上述三種方法對(duì)已知重尾分布進(jìn)行Monte-Carlo模擬,研究它們的可行性,比較它們的穩(wěn)健性,改進(jìn)的M-Bootstrap方法對(duì)重尾指數(shù)的估計(jì)在某些情況下優(yōu)于Bootstrap方法.
重尾指數(shù);重尾閾值;Sum-plot方法;Bootstrap方法;M-Bootstrap方法
重尾指數(shù)估計(jì)方法總體上分為參數(shù)估計(jì)和半?yún)?shù)估計(jì),都與重尾閾值或估計(jì)中所用次序統(tǒng)計(jì)量的個(gè)數(shù)k有關(guān).k的選取關(guān)系到估計(jì)的精確性,k的偏大或偏小都會(huì)造成估計(jì)的極大誤差.
學(xué)者們從理論上提出了許多選取k的方法.其中一類是作圖法,比如Hill[1]提出的Hill-plot,Kratz和Resnick[2]提出的qq-plot,Beirlant等[3]提出的Pareto分位數(shù)圖,Resnick和Starica[4]給出的對(duì)Hill-plot改進(jìn)的s mooHill-plot以及deHaan和Resnick[5]給出的對(duì)Hill-plot改進(jìn)的AltHill-plot等,這些作圖法都有一定的優(yōu)越性,但整體而言它們都不能適用于所有情況的重尾分布.像Hill-plot,qq-plot,當(dāng)隨機(jī)變量服從Pareto分布時(shí),這兩種方法表現(xiàn)出十分優(yōu)良的性質(zhì),能夠很容易選取k值.一旦隨機(jī)變量不服從Pareto分布,而是廣義Pareto分布時(shí),它們卻不能很好地選取k,甚至無(wú)法選取k.Pareto分位數(shù)圖,s mooHill-plot和AltHill-plot相對(duì)于Hillplot估計(jì)精度稍高一些,但是也不能對(duì)所有的重尾分布較好地選擇k.Sousa[6]在其博士論文中提出的Sumplot方法在一定程度上克服了前幾種方法中選取k所遇到的困難,而且具有比較好的性質(zhì).但是由于Sumplot方法是以觀察圖形得到k,因此選擇k有一定的猜測(cè)性,因而會(huì)對(duì)重尾指數(shù)估計(jì)造成一定誤差.另一類方法就是以估計(jì)重尾指數(shù)的均方誤差(MSE)最小為標(biāo)準(zhǔn)來(lái)確定k,最優(yōu)的k應(yīng)該與均方誤差一致.理論上MSE與k有關(guān),增大k,方差減小,偏差增大.反之,減小k,方差增大,偏差減小.只有權(quán)衡方差和偏差使MSE最小,選取的k才是最優(yōu)的.但是,MSE還與未知分布尾部指數(shù)α和二階參數(shù)ρ有關(guān),不能直接應(yīng)用到實(shí)際問(wèn)題中.基于此,1990年Hall[7]提出了利用Bootstrap方法來(lái)選取k,Danielsson[8]在2001年又對(duì)Hall的方法作了進(jìn)一步改進(jìn),Gomes和Oliveira[9]在2001年給出了一個(gè)選取Bootstrap方法子樣本的準(zhǔn)則,Gomes等①GomesM I,Mendonca S,Pestana D.The bootstrap methodolgy and adaptive reduced-bias tail index and Value-at-Risk estimation.Working paper,2009.在2009年給出了針對(duì)降偏差重尾指數(shù)估計(jì)的Bootstrap方法.由于該方法計(jì)算量很大,有必要在保證估計(jì)特性的前提下提高估計(jì)的收斂速率以減少計(jì)算量.
Sum-plot方法[6]是基于{(k,Sk),1≤k≤n}應(yīng)該是一條直線的理論依據(jù)來(lái)選取k.Sousa通過(guò)對(duì)不同樣本容量的不同分布進(jìn)行模擬,得出無(wú)論是分布的尾部指數(shù)0<α<2還是α≥2,Sum-plot方法對(duì)絕大多數(shù)分布而言都較其它方法優(yōu)越,并且不受樣本異常值影響,即具有穩(wěn)健性.這里隨機(jī)變量
其中Xn(1)≥Xn(2)≥…Xn(k+1)為次序統(tǒng)計(jì)量.
如果選擇k,使Xn(k+1)足夠大,那么對(duì)任意x>Xn(k+1),有Sk~α-1k.近似式表明圖形中直線的斜率等于α-1,而且Sousa證明了α-1可以通過(guò)如下線性回歸模型估計(jì)出來(lái).
容易發(fā)現(xiàn)參數(shù)α-1的估計(jì)值等于回歸模型的斜率^β1,即
進(jìn)一步,如果β0=0,則就是Hill估計(jì).
由于Sum-plot方法需要觀察以坐標(biāo){(k,Sk),1≤k≤n}畫(huà)成的散點(diǎn)圖在哪一點(diǎn)偏離直線,因此選擇的k有一定的猜測(cè)性,因而會(huì)對(duì)重尾指數(shù)估計(jì)造成不可避免的誤差.
Danielsson等[8]對(duì)Hall的方法作了改進(jìn),使用新的統(tǒng)計(jì)量Mn(k)來(lái)代替γn(k).引入統(tǒng)計(jì)量
已經(jīng)證明,當(dāng)k→∞,k/n→0時(shí),Mn(k)/(2γn(k))依概率收斂于γ,統(tǒng)計(jì)量Mn(k)/(2γn(k))-γn(k)和γn(k)-γ有相似的漸近性質(zhì),并且在一定條件下極小化AMSE和極小化AsyE(Mn(k)-2(γn(k))2)2可以得到同階量的k(相對(duì)于n).因此,根據(jù)Bootstrap子樣本X*
n1,選用統(tǒng)計(jì)量:
來(lái)確定k.
我們受Danielsson等[8]提出的Bootstrap方法的啟發(fā),用γ的相合估計(jì)~γn(k)代替γn(k),漸近均方誤差變?yōu)?/p>
根據(jù)Bootstrap子樣本X*n1,通過(guò)極小化AMSEM(n1,k1)和關(guān)系k=k1(n/n1)μ來(lái)確定k1與k.
定理1 假設(shè)k→∞,k/n→0.k(n)由AMSE(n,k)最小確定.則
S-1是函數(shù)S的反函數(shù),A2(t)=∫∞tS(u)du(1+o(1)),t→∞.
假設(shè)A(t)=ctρ,c≠0,ρ>0,則
定理2 假設(shè)k1→∞,k1/n1→∞.假設(shè)A(t)=ctρ,c≠0,ρ<0,n1=O(n1-ε)(0<ε<1),由k1)最小確定k1.則
由定理1和定理2可知,k與n,k1與n1存在同樣的冪指數(shù)關(guān)系式.這與Hall所預(yù)設(shè)的關(guān)系一致.所以我們?nèi)耘f取來(lái)確定k.我們?nèi)ˇ?,無(wú)形中假設(shè)了二階形狀參數(shù)ρ=-1,這證實(shí)了Hall的Bootstrap方法與ρ=-1有關(guān).
隨機(jī)變量Y1,Y2,…,Yn是i.i.d.,其共同分布為G(y)=1-y-1(y≥1),Yn,1≥…≥Yn,n是Y1,Y2,…,Yn的
引理1 0 定理1的證明:U(t)的定義等價(jià)于正則變化函數(shù)|logU(t)-γlogt-C0|以指數(shù)ρ正則變化,其中C0為常數(shù).令A(yù)(t)=ρ(logU(t)-γlogt-C0).由Potter不等式,可得對(duì)任意0<ε<1,存在t0>0,對(duì)于t0>0,tx≥t0有, (2)n→∞,(Pn,Qn)漸近正態(tài),它們的均值為0,方差分別為1,20,協(xié)方差為4,其中 用Yn,k代替t,Yn,i/Yn,k+1代替x迭代不等式(i=1,2,…,k),然后乘以,得到 又 而Y1,…,Yki.i.d具有共同分布函數(shù)1-,于是由弱大數(shù)定律得 即 我們求(12)中右邊的最小值點(diǎn),得到定理1的結(jié)論,定理證畢. 定理2的證明:令Gn表示獨(dú)立變量的均勻分布的經(jīng)驗(yàn)分布函數(shù).令n足夠大,n1=O(n1-ε),則有 于是 因此,對(duì)所有的4≤t≤n1(lognn)2, 用Fn表示Xn的經(jīng)驗(yàn)分布函數(shù).,由(11),(13),(14)得, 所以對(duì)任意的0<ε<1,總存在t0>4,對(duì)于t0 同理 用Yn1,k1+1,Yn1,i(i=1,…,k1)分別代替t和tx,則不等式(15),(16)是以概率成立的.于是有 以概率成立. 我們極小化E((γ*n1(k1)-γn(k))2|Xn). 由定理1的證明過(guò)程可以得到 又ˉγn是γ的相合估計(jì),.定理2得證,定理證畢. 為了更好地說(shuō)明問(wèn)題,我們選用三種熟知的重尾分布,穩(wěn)定分布Stable(1.5)分布、t-分布t(3)以及逆Γ分布IGa(1.5,1),分別采用Sum-plot方法、Danielsson等提出的Bootstrap方法(D-Bootstrap方法)和改進(jìn)的Bootstrap方法(M-Bootstrap方法)進(jìn)行模擬.結(jié)果表明,Sum-plot方法、Bootstrap方法和M-Bootstrap方法都能作為Hill估計(jì)中選擇k的有力工具,它們和Hill估計(jì)結(jié)合起來(lái)估計(jì)重尾指數(shù)將是有效的.為便于比較,我們將三種方法的模擬結(jié)果列表如下(P512見(jiàn)表1). 表1 三種方法用于t,Cauchy,Fréchet,逆Ga,Burr和Pareto的結(jié)果Table 1 Results by the three methods on t,Cauchy,Fréchet,Inverse-Gamma,Burr and Pareto distributions 根據(jù)表1可以看出,應(yīng)用三種方法得到的結(jié)果是令人滿意的.相比之下,Sum-plot方法的精確性優(yōu)于兩種Bootstrap方法.從整體上看,兩種Bootstrap方法估計(jì)的結(jié)果誤差也是比較小的,都可以使用.從k選擇上看,改進(jìn)的M-Bootstrap方法更接近Sum-plot方法結(jié)果,對(duì)重尾指數(shù)的估計(jì)在某些情況下優(yōu)于Bootstrap方法,特別是在計(jì)算量上明顯優(yōu)于Bootstrap方法.所以,M-Bootstrap方法是適用的,有意義的.兩種Bootstrap方法個(gè)別情形下出現(xiàn)了較大偏差,這與方法本身的特點(diǎn)有關(guān).基于兩個(gè)子樣本的Bootstrap方法受異常值的影響,我們所用的數(shù)據(jù)都是隨機(jī)生成的,不免有異常值的出現(xiàn).Bootstrap方法受樣本容量的影響很大,這也是出現(xiàn)偏差的原因. [1] H I LL B.A Simple GeneralApproach to Infererce about The Tail of a Distribution[J].Annals of Statistics,1975,3:1163-1174. [2] KRATZM,RESN ICK S.The qq-estimator and Heavy Tails[J].Stochastic m odels,1996,12(4):699-724. [3] BEIRLANT J,VYNCKIER P,TEUGELSJ L.Tail Index Estimation,ParetoQuantileplots,and RegressionDiagnostics[J].Journal of the Am erican Statistical Association,1996,436:1659-1667. [4] RESN ICK S,STAR I CA C.Smoothing the Hill Estimator[J].Advances in Applied Probability,1997,29:271-293. [5] DREES H,HAAN L D,RESN I CK S.How toMake a Hill Plot[J].Annals of Statistics,2000,28:254-274. [6] SOUSA B.A Contribution to the Estimation of the Tail Indexof Heavy-tailedDistributions[D].TheUniversityof Michigan,2002. [7] HALL P.Using the Bootstrap to Estimatemean Square Error and Select Smoothing Parameters in Non-parametricproblems[J]. Journal of M ultivariate Analysis,1990,32:177-203. [8] DAN IELSSON J.Using a Bootstrap Method Choosethe Sample Fraction in Tail Index Estimation[J].Journal ofM ultivariateAnalysis,2001,76:226-248. [9] GOMESM I,OL I VEIRA O.The Bootstrap Methodology in Statistics of Extremes-choice of the Optimal Sample Fraction[J].Extremes,2001,4(4):331-358. BootstrapM ethod in Selecting Heavy-ta iled Thresholdk L I U Wei-qi1,2,HE Ying-di2,3,XI NG Hong-wei2 We discuss the Sum-plot method and Bootstrap method in selectingkin heavy-tailed index esti mation, and improve the Bootstrap method proposed by Hall,known as the M-Bootstrap Method.The three methods were used to study the known heavy-tailed distributions byMonte-Carlo simulation technology,in cluding their feasibility, Moreover,their robustnesswas compared theM-Bootstrap method was better than the Bootstrap method in some cases for heavy-tailed index estimation. heavy-tailed index;heavy-tailed threshold;Sum-plotmethod;Bootstrap method;M-Bootstrap method O212 A 0253-2395(2010)04-0508-05 2010-07-16; 2010-07-30 教育部人文社會(huì)科學(xué)研究項(xiàng)目(07JA630027;06JA630035);山西省高校人文社科重點(diǎn)研究基地項(xiàng)目(20083006) 劉維奇(1963-),男,山西忻縣人,教授,博士生導(dǎo)師,主要從事金融工程和時(shí)間序列等領(lǐng)域的研究,E-mail:liuwq@sxu.edu.cn4 Monte-Carlo模擬
(1.Institute ofM anagement Science and Engineering,Shanxi University,Taiyuan030006,China; 2.School of M athem atical Science,ShanxiUniversity,Taiyuan030006,China; 3.M aom ing Vocational Technical College,M aom ing525000;China)