王國(guó)琴,吳有富,許 婷,歐永玲
(1.貴州民族大學(xué)數(shù)據(jù)科學(xué)與信息工程學(xué)院,貴州 貴陽(yáng) 550025;2.貴州交通職業(yè)技術(shù)學(xué)院,貴州 貴陽(yáng) 550025)
在統(tǒng)計(jì)學(xué)中一個(gè)比較熱門(mén)的研究問(wèn)題就是變點(diǎn)問(wèn)題,它被用于經(jīng)濟(jì)學(xué)、氣象學(xué)、醫(yī)學(xué)等領(lǐng)域。研究變點(diǎn)的方法主要有最小二乘法、極大似然法、貝葉斯方法、非參數(shù)方法等。隨著人們不斷地研究,在技術(shù)方面得到快速發(fā)展,貝葉斯方法在變點(diǎn)問(wèn)題分析中應(yīng)用越來(lái)越廣泛。
廣義Pareto 分布是由Pickands[1]首次提出,在許多領(lǐng)域得到廣泛應(yīng)用。近年來(lái)許多學(xué)者對(duì)廣義Pareto分布進(jìn)行研究分析。劉媚和湯銀才[2]在完整數(shù)據(jù)下研究混合廣義Pareto 分布的參數(shù)估計(jì);劉金霞和韓立巖[3]利用廣義Pareto 分布對(duì)現(xiàn)金流風(fēng)險(xiǎn)價(jià)值進(jìn)行分析;陳海清和程維虎[4]利用最小二乘法得到兩參數(shù)和三參數(shù)廣義Pareto的參數(shù)估計(jì);張?jiān)碌萚5]在加權(quán)平方損失函數(shù)下,利用經(jīng)驗(yàn)Bayes 估計(jì)對(duì)廣義Pareto分布的形狀參數(shù)進(jìn)行估計(jì),及估計(jì)的收斂速度;馬志遷[6]利用多種參數(shù)估計(jì)方法對(duì)廣義Pareto 模型的參數(shù)進(jìn)行估計(jì),并比較其方法的優(yōu)劣;張中獻(xiàn)[7]基于最小二乘概念,對(duì)廣義Pareto 分布的參數(shù)估計(jì)進(jìn)行更深入的研究。
目前針對(duì)廣義Pareto 分布變點(diǎn)研究情況如下,Chen 等[8]將廣義Pareto 分布應(yīng)用到極端事件變點(diǎn)問(wèn)題分析;Renard等[9]分布考慮了平穩(wěn)、跳躍、線性趨勢(shì)變化下三種情況廣義Pareto 分布變點(diǎn)特征;Dierckx等[10]利用Pareto與指數(shù)分布的關(guān)系,對(duì)Pareto分布于廣義Pareto 分布變點(diǎn)檢測(cè)方法進(jìn)行比較;Susan 等[11]研究廣義Pareto 分布形狀參數(shù)變點(diǎn)檢測(cè),基于Kullback-Leibler 散度的似然比統(tǒng)計(jì)量對(duì)變點(diǎn)檢測(cè),用極大似然方法來(lái)估計(jì)。通過(guò)檢索我們發(fā)現(xiàn),關(guān)于對(duì)廣義Pareto 分布變點(diǎn)研究很少。經(jīng)過(guò)實(shí)驗(yàn)對(duì)比我們發(fā)現(xiàn)Susan方法的估計(jì)精度并不高,在小樣本下估計(jì)效果可行,但發(fā)現(xiàn)大小樣本效果均不如我們的。
文章主要研究廣義Pareto 分布,其分布函數(shù)為;
假設(shè)隨機(jī)變量yi相反獨(dú)立且滿足
變點(diǎn)研究常用方法有極大似然法、貝葉斯方法、非參數(shù)方法等,使用不同的方法會(huì)有不同的估計(jì)效果。文章主要利用貝葉斯方法對(duì)廣義Pareto 分布進(jìn)行變點(diǎn)估計(jì),為了驗(yàn)證貝葉斯方法的有效性,利用極大似然與貝葉斯方法做比較。因此接下來(lái)分別用極大似然法與貝葉斯方法對(duì)參數(shù)進(jìn)行估計(jì)。
利用貝葉斯處理變點(diǎn)問(wèn)題時(shí),會(huì)通過(guò)引入先驗(yàn)分布,根據(jù)先驗(yàn)分布和樣本分布來(lái)確定后驗(yàn)分布,但在這方面的知識(shí)不完全,通常學(xué)者會(huì)選擇無(wú)信息先驗(yàn)分布。文章選用無(wú)信息Jeffreys 分布作為先驗(yàn)分布,在此基礎(chǔ)上討論MCMC 算法估計(jì)廣義Pareto 分布的變點(diǎn)位置,記m 為變點(diǎn),且,似然函數(shù)為
其中
則有
(1)對(duì)變點(diǎn)位置m 取無(wú)信息先驗(yàn)分布取2 到n-1上的均勻分布
其中樣本似然函數(shù)為
則由貝葉斯公式求得的聯(lián)合后驗(yàn)分布為
可得各參數(shù)的滿條件分布為
廣義Pareto 分布單變點(diǎn)模型為
基于上述貝葉斯估計(jì)的討論,下面利用R 軟件對(duì)其進(jìn)行數(shù)據(jù)模擬實(shí)驗(yàn)分析。
表1 參數(shù)的極大似然估計(jì)與貝葉斯估計(jì)
表1 參數(shù)的極大似然估計(jì)與貝葉斯估計(jì)
參數(shù)真實(shí)值估計(jì)值m1估計(jì)值m2 m1 相對(duì)誤差m2 相對(duì)誤差MC誤差1/4 分位數(shù) 均值3/4 分位數(shù)1 4 0.240 0.051 0.004 3.345 3.874 4.352 2 7images/BZ_114_1428_2320_1449_2346.pngimages/BZ_114_1455_2320_1476_2346.pngimages/BZ_114_1474_2320_1495_2347.pngimages/BZ_114_1577_2320_1598_2347.png0.230 0.015 0.021 6.024 7.562 7.938 m 50images/BZ_114_1456_2386_1494_2412.pngimages/BZ_114_1531_2386_1553_2412.pngimages/BZ_114_1577_2386_1615_2412.pngimages/BZ_114_1429_2452_1450_2478.png0.029 0.020 0.086 43.000 49.250 56.000
從圖1,圖2,圖3 知,在抽樣過(guò)程中波動(dòng)較小,絕大多數(shù)都是在參數(shù)位置波動(dòng),則估計(jì)效果較好。圖4是兩條迭代鏈,兩條鏈的初始值分別為(4,7,50),(2,4,50),從圖可以看出,兩條鏈幾乎重合,即收斂性較好。接下來(lái)給出三個(gè)參數(shù)的后驗(yàn)分布的核密度估計(jì)圖。
圖1 參數(shù)1 的迭代圖
圖2 參數(shù)2 的迭代圖
圖3 參數(shù)m 的迭代圖
圖4 參數(shù)m 的兩條迭代圖
圖5 1 后驗(yàn)分布的核密度估計(jì)圖
圖6 2 后驗(yàn)分布的核密度估計(jì)圖
圖7 m 后驗(yàn)分布的核密度估計(jì)圖
表2 不同樣本量下參數(shù)的貝葉斯估計(jì)
表2 不同樣本量下參數(shù)的貝葉斯估計(jì)
總樣本量 100 200 500 1000 1500 2000 1 樣本量 50 120 200 400 800 1300 2 樣本量 50 80 300 600 700 700 1 估計(jì)值 3.794 3.398 4.371 3.921 4.278 4.064 2 估計(jì)值 6.892 6.5952 7.148 6.865 6.613 6.906 m 估計(jì)值 48 118 202 559 800 1287
從表2 知,在總樣本量n=100,200,500,1000,1500,2000 時(shí),三個(gè)參數(shù)的估計(jì)值都非常接近,,m=50。不管樣本量增加多少,估計(jì)值都比較接近真實(shí)值。
將貝葉斯方法與Susan[11]方法做對(duì)比,結(jié)果如表3 所示,表中m 為變點(diǎn)位置,m1 為利用貝葉斯方法得到的估計(jì)值,m2 是基于KL 散度的似然比統(tǒng)計(jì)量的極大似然方法得到的估計(jì)值。
表3 利用貝葉斯與Susan 方法對(duì)變點(diǎn)位置進(jìn)行估計(jì)
從表3 知,變點(diǎn)位置m=250 時(shí),當(dāng)樣本量從500增加到1000 時(shí),貝葉斯變點(diǎn)位置相對(duì)誤差從0.028變化到0.012,而Susan[11]方法的變點(diǎn)位置相對(duì)誤差從0.064 變化到0.316;變點(diǎn)位置m=500 時(shí),當(dāng)樣本量從1000 增加到2000 時(shí),貝葉斯變點(diǎn)位置相對(duì)誤差從0.028 變化到0.014,而Susan[11]的變點(diǎn)位置相對(duì)誤差從0.144 變化到0.38。由此可知,當(dāng)變點(diǎn)位置不變,隨著樣本量的增加,貝葉斯估計(jì)優(yōu)于Susan[11]方法。并且在相同樣本量下貝葉斯估計(jì)相對(duì)誤差均小于Susan[11]的相對(duì)誤差。因此貝葉斯估計(jì)不僅在大樣本下優(yōu)于Susan[11]的方法,而且在小樣本上貝葉斯方法更好。
文章主要研究廣義Pareto 分布單變點(diǎn)問(wèn)題,利用貝葉斯方法對(duì)其進(jìn)行分析,并與極大似然方法和Susan[11]的方法進(jìn)行比較。根據(jù)表1 結(jié)果,極大似然方法與貝葉斯方法都能估計(jì)出參數(shù)值,在對(duì)相對(duì)誤差下比較,貝葉斯方法優(yōu)于極大似然方法。根據(jù)表2 結(jié)果,隨著樣本量的增大,三個(gè)參數(shù)的估計(jì)值都比較接近真實(shí)值。根據(jù)表3 結(jié)果,在大小樣本下,貝葉斯估計(jì)方法均優(yōu)于Susan[11]的方法。以此得出利用貝葉斯方法估計(jì)變點(diǎn)位置會(huì)更好且有效。