陳明光,王源昌
(云南師范大學(xué) 數(shù)學(xué)學(xué)院,昆明 650500)
尖峰厚尾性是許多數(shù)據(jù)具有的分布特點(diǎn),如金融資產(chǎn)收益率、保險(xiǎn)損失數(shù)據(jù)等。以參數(shù)方法擬合此類數(shù)據(jù)主要有兩種方式:一種是單一分布擬合,即以單一分布來(lái)描述數(shù)據(jù)的分布特征[1—3];另一種是構(gòu)造分段函數(shù),即針對(duì)數(shù)據(jù)的不同階段分別采用相應(yīng)分布擬合數(shù)據(jù),最后綜合構(gòu)造最終分布。后者包括拼接分布法和組合分布法,兩者都以多個(gè)分布擬合數(shù)據(jù),但又有明顯區(qū)別:拼接分布法不限分布個(gè)數(shù),不關(guān)心各階段分布間的連續(xù)性和可導(dǎo)性,最后所得分布往往是各階段分布的碎片組合[4];組合分布法一般采用兩個(gè)分布,且在關(guān)注擬合效果的同時(shí),通過(guò)設(shè)置閾值使最后構(gòu)造的分布處處連續(xù)和可導(dǎo)。顯然,組合分布法相比拼接分布法更有優(yōu)勢(shì)。如Luckstead 和Devadoss(2017)[5]構(gòu)造雙帕累托尾部對(duì)數(shù)正態(tài)分布擬合美國(guó)城市規(guī)模數(shù)據(jù),效果良好。
Corry 和Ananda(2005)[6]首次提出組合分布思想并建立了固定權(quán)重的組合分布模型,其后,Preda 和Ciumara(2006)[7]、Corry(2009)[8]進(jìn)行了擴(kuò)展,又經(jīng)Scollnik(2007)[9]、Nadarajah和Bakar(2014)[10]發(fā)展出權(quán)重可變且連續(xù)的組合分布模型,其在實(shí)際研究中已被廣泛應(yīng)用。王明高和孟生旺(2014,2017)[11,12]以不同分布組合構(gòu)建三種組合分布并擬合了保險(xiǎn)損失數(shù)據(jù)和巨災(zāi)損失數(shù)據(jù);徐天群等(2009)[13]以Laplace 分布和Gumbel 分布構(gòu)建組合分布來(lái)擬合深證成指收益率;王永茂和楊曉婷(2014)[14]構(gòu)建了LogGED-GPD 組合分布來(lái)擬合全球洪水巨災(zāi)損失。
盡管組合分布的研究得到不斷推進(jìn)和擴(kuò)展,但其閾值求解難度始終阻礙著某些組合分布的構(gòu)造。那么,組合分布是否能以局部分布的峰值點(diǎn)為閾值點(diǎn)?又是否可采用單一分布構(gòu)造組合分布?基于以上思考,考慮某些數(shù)據(jù)的尖峰厚尾特征,本文采用Gamma 分布構(gòu)造組合分布。Gamma 分布的峰度系數(shù)是關(guān)于形狀參數(shù)α的函數(shù),本文希望組合分布能繼承此特點(diǎn),使之具有顯著的尖峰厚尾特征。因此本文以α>1 時(shí)Gamma 分布的極值點(diǎn)作為閾值點(diǎn),通過(guò)折疊、平移和伸縮變換構(gòu)造完整的組合分布,如此可解決閾值點(diǎn)難求的問(wèn)題。同時(shí),擴(kuò)展Gamma 分布的應(yīng)用范圍,使得新分布可應(yīng)用于實(shí)數(shù)范圍內(nèi)的數(shù)據(jù)。
Gamma 分布是基于Gamma 函數(shù)的正向分布,含有形狀參數(shù)α和尺度參數(shù)λ,可記為Ga(α,λ)。當(dāng)參數(shù)α>1時(shí),Gamma 分布的密度函數(shù)在處取極大值,即此處密度函數(shù)的導(dǎo)數(shù)值為零。本文基于Gamma分布的這一性質(zhì)構(gòu)造折疊Gamma分布。
圖1 折疊Gamma分布的構(gòu)造過(guò)程
由圖1可知,保留部與折疊保留部的函數(shù)解析式為:
準(zhǔn)折疊Gamma 分布右半部和左半部的函數(shù)解析式為:
為了滿足分布的正則性,令Gamma 分布舍棄部的積分為k,最終可得:
借助k對(duì)p1*(x)和p*2(x)進(jìn)行同比例壓縮,使其定義域內(nèi)的積分均為1/2即可,即有:
定理1:若隨機(jī)變量X服從折疊Gamma分布,則其密度函數(shù)具有如下形式:
證明:由式(2)易證折疊Gamma分布的密度函數(shù)為式(3)。
本文成功基于Gamma 分布構(gòu)造了折疊Gamma 分布,折疊Gamma 分布不僅在實(shí)數(shù)域內(nèi)任意點(diǎn)可導(dǎo),滿足非負(fù)性和正則性,而且適用于研究實(shí)數(shù)范圍的數(shù)據(jù)。
1.2.1 對(duì)稱性
由圖1可知,折疊Gamma分布顯然關(guān)于x=0 對(duì)稱,故其任意奇數(shù)階矩為零,即:
其中,k為奇數(shù)。同時(shí),分布的對(duì)稱性表明其偏度系數(shù)始終為零。
1.2.2 尖峰厚尾性
本文將證明折疊Gamma分布的峰度系數(shù)是參數(shù)α的函數(shù),且分布往往具有尖峰厚尾特征。
定理2:對(duì)于折疊Gamma分布,其方差存在,且為:
證明:結(jié)合分布的對(duì)稱性和式(2)有:
即有:
定理3:折疊Gamma 分布的峰度系數(shù)存在,且為參數(shù)α的函數(shù)。
定理3 表明折疊Gamma 分布的峰度系數(shù)為參數(shù)α的函數(shù)。本文將以數(shù)值模擬的方式證明:參數(shù)α在較大范圍內(nèi)的分布具有尖峰厚尾性。具體過(guò)程為:在(1,80)這一范圍內(nèi)生成1000 個(gè)均勻分布隨機(jī)數(shù),然后將其從小到大排序并依次代入式(4)計(jì)算相應(yīng)峰度系數(shù)值,結(jié)果如下頁(yè)圖2所示。
圖2 折疊Gamma分布峰度變化
由圖2 可知,隨著參數(shù)α的增加,折疊Gamma 分布峰度系數(shù)的衰減速度越來(lái)越慢,直至趨于零;當(dāng)α達(dá)到80時(shí),峰度系數(shù)依然在3.15以上。由此可知,折疊Gamma分布的峰度系數(shù)在參數(shù)α的常用范圍內(nèi)大于正態(tài)分布的峰度系數(shù),具有明顯的尖峰厚尾性。
對(duì)折疊Gamma分布而言,需要估計(jì)參數(shù)α和λ,且分布的各奇數(shù)階矩為零,因而需要采用其二階矩和四階矩構(gòu)建方程。設(shè)樣本二階、四階原點(diǎn)矩分別為A2、A4,由定理2和定理3可知,折疊Gamma分布的矩估計(jì)方程如下:
設(shè)θ=(α,λ),在Newton-Raphson 算法下,θ矩估計(jì)的第t+1次迭代式為:
其中,J(θ)為Jacobi矩陣,S(θ)為梯度向量,且有:
由于折疊Gamma 分布的密度函數(shù)含有Γ(α,α-1)項(xiàng),導(dǎo)致其對(duì)參數(shù)α的導(dǎo)數(shù)過(guò)于復(fù)雜,因而在極大似然估計(jì)中仍采用Newton-Raphson 算法迭代出參數(shù)α和λ的近似估計(jì)結(jié)果。
設(shè)θ=(α,λ),在Newton-Raphson 算法下,θ極大似然估計(jì)的第t+1次迭代式為:
其中,H(θ)為Hessian 矩陣,S(θ)為梯度向量。且有:
本文討論了折疊Gamma分布在Newton-Raphson算法下的矩估計(jì)和極大似然估計(jì),給出了相應(yīng)估計(jì)的迭代式。
本文將以數(shù)值模擬證明有關(guān)折疊Gamma分布參數(shù)估計(jì)方法的有效性,表明可將其用于實(shí)際數(shù)據(jù)的研究。在Newton-Raphson 算法下以相鄰兩次迭代結(jié)果之差的絕對(duì)值小于105作為迭代結(jié)束條件。
折疊Gamma 分布可在實(shí)數(shù)域內(nèi)完整取值,故本文以第二類舍選法生成理論隨機(jī)數(shù)。同時(shí)本文以α=4,λ=2為真值,在樣本量為200、500、1000、2000、5000、10000、20000和50000時(shí)分別生成折疊Gamma分布隨機(jī)數(shù)。
本文以相同隨機(jī)數(shù)生成方法生成8組隨機(jī)數(shù),分別作為樣本數(shù)據(jù)對(duì)折疊Gamma分布進(jìn)行矩估計(jì)(MME)和極大似然估計(jì)(MLE),估計(jì)結(jié)果見(jiàn)下頁(yè)表1。
表1 模擬數(shù)據(jù)在Newton-Raphson算法下的估計(jì)結(jié)果
由表1 可知,隨著樣本量的增加,整體而言矩估計(jì)下參數(shù)α和λ的絕對(duì)誤差(AE)隨樣本量增大呈減小趨勢(shì)。在極大似然估計(jì)中,參數(shù)α估計(jì)的絕對(duì)誤差隨樣本量增加的變化趨勢(shì)不穩(wěn)定,但整體依然較??;參數(shù)λ估計(jì)的絕對(duì)誤差總體呈減小趨勢(shì)且都在0.1以下。總體而言,在Newton-Raphson算法下,矩估計(jì)和極大似然估計(jì)中參數(shù)α和λ的估計(jì)結(jié)果隨著樣本量增加逐漸趨于真值,表明估計(jì)結(jié)果較為可靠。
除了單組估計(jì)外,本文還用多組隨機(jī)數(shù)進(jìn)行參數(shù)估計(jì),以估計(jì)的平均結(jié)果考察兩種方法的可靠性。因而,本文在各樣本量下用50 組隨機(jī)數(shù)進(jìn)行參數(shù)估計(jì),并計(jì)算參數(shù)的估計(jì)結(jié)果、絕對(duì)誤差和均方誤差(MSE),結(jié)果見(jiàn)表2。
表2 模擬數(shù)據(jù)在Newton-Raphson算法下的平均估計(jì)結(jié)果(50組)
由表2 可知,與單組估計(jì)相似,矩估計(jì)和極大似然估計(jì)中參數(shù)α和λ的絕對(duì)誤差總體依然隨樣本量增大呈減小趨勢(shì)??傮w而言,參數(shù)α估計(jì)的均方誤差隨樣本量增大而減小,且α的均方誤差在極大似然估計(jì)下更??;參數(shù)λ估計(jì)的均方誤差隨樣本量增大而減小,且在極大似然估計(jì)下更小。因而,隨著樣本量增大,參數(shù)估計(jì)的均方誤差趨于減小,同時(shí),極大似然估計(jì)下的均方誤差總體小于矩估計(jì),即極大似然估計(jì)結(jié)果相對(duì)更為可靠。
本文以滬深300指數(shù)收益率為例,將折疊Gamma分布用于實(shí)際金融收益率數(shù)據(jù)的擬合,并與正態(tài)分布對(duì)比,檢驗(yàn)其效果是否確實(shí)優(yōu)于正態(tài)分布。本文對(duì)折疊Gamma分布進(jìn)行矩估計(jì)和極大似然估計(jì),由于在正態(tài)分布下兩種估計(jì)的參數(shù)估計(jì)結(jié)果相同,因而未對(duì)其加以區(qū)分,統(tǒng)一用Normal 表示。同時(shí),算法迭代結(jié)束條件與數(shù)值模擬時(shí)相同。
選取2017 年12 月14 日 至2022 年6 月28 日滬 深300指數(shù)收益率數(shù)據(jù)作為實(shí)證研究數(shù)據(jù),為了剔除新冠肺炎疫情這一突發(fā)事件的影響,本文剔除了2020 年1 月3 日至6月4日的100個(gè)交易日數(shù)據(jù),整體共有1000個(gè)交易日的收益率數(shù)據(jù)。整體數(shù)據(jù)分布如圖3所示。
圖3 滬深300指數(shù)收益率頻率分布直方圖
由圖3可知,滬深300指數(shù)收益率主要集中在(-3,3),對(duì)稱性較強(qiáng)。經(jīng)計(jì)算,其峰度系數(shù)為5.09,大于正態(tài)分布的峰度系數(shù),且Anscombe-Glynn 峰度檢驗(yàn)的P 值遠(yuǎn)小于0.01,即峰度系數(shù)顯著大于3,數(shù)據(jù)具有顯著的尖峰厚尾性。故以此數(shù)據(jù)檢驗(yàn)折疊Gamma分布對(duì)尖峰厚尾數(shù)據(jù)的擬合效果是合適的。
以所選數(shù)據(jù)為樣本,折疊Gamma 分布和正態(tài)分布的參數(shù)估計(jì)結(jié)果及相應(yīng)AIC和BIC的計(jì)算結(jié)果見(jiàn)表3。
表3 滬深300指數(shù)收益率參數(shù)估計(jì)結(jié)果
由表3可知,對(duì)于折疊Gamma分布,在矩估計(jì)下,參數(shù)α和λ的估計(jì)值都介于1 到2 之間。在極大似然估計(jì)下,參數(shù)α只有在樣本量為800 時(shí)為8.669,其余各組均接近6;參數(shù)λ只有在樣本量為500時(shí)為4.492,其余各組均在2到3之間。在正態(tài)分布的估計(jì)中,參數(shù)μ都處于0附近,參數(shù)σ2則在1.5左右,具有比標(biāo)準(zhǔn)正態(tài)分布更“矮胖”的分布形態(tài)。
同時(shí),表3 呈現(xiàn)了各擬合分布下的AIC 和BIC 值。對(duì)于折疊Gamma 分布和正態(tài)分布,兩種估計(jì)下折疊Gamma分布的AIC和BIC值整體小于正態(tài)分布,因而可認(rèn)為折疊Gamma分布的數(shù)據(jù)擬合效果優(yōu)于正態(tài)分布。對(duì)于折疊正態(tài)分布的兩種估計(jì)方法,除了n=200 以外,其余各組數(shù)據(jù)矩估計(jì)的AIC和BIC值都明顯小于極大似然估計(jì),因而隨著樣本量增大,矩估計(jì)下的分布更適合擬合數(shù)據(jù)。
為了更加直觀地認(rèn)識(shí)折疊Gamma 分布對(duì)滬深300 指數(shù)收益率的擬合情況,本文繪制了兩種分布對(duì)數(shù)據(jù)的擬合圖,如圖4所示。
圖4 滬深300指數(shù)擬合效果
圖4 呈現(xiàn)了兩種分布對(duì)各組樣本數(shù)據(jù)的擬合效果。對(duì)于折疊Gamma分布,隨著樣本量增大,矩估計(jì)下的分布與數(shù)據(jù)的吻合程度逐漸提高,對(duì)數(shù)據(jù)的擬合效果變好;而極大似然估計(jì)的擬合效果在各組數(shù)據(jù)中差異不大。同時(shí),在各擬合圖中,矩估計(jì)的擬合分布相對(duì)于極大似然估計(jì)具有更明顯的尖峰特性,極大似然估計(jì)的擬合分布相對(duì)平滑。相對(duì)于正態(tài)分布而言,矩估計(jì)和極大似然估計(jì)下的折疊Gamma 分布明顯都更具有擬合優(yōu)勢(shì),擬合分布與數(shù)據(jù)的契合度更高。這與AIC和BIC判別結(jié)果一致。
本文基于滬深300 指數(shù)收益率各數(shù)據(jù)樣本量下的已有估計(jì)分布對(duì)2022 年6 月29 日至8 月31 日的滬深300 指數(shù)收益率進(jìn)行預(yù)測(cè)。先以第二類舍選法在已有估計(jì)分布下生成與預(yù)測(cè)部分?jǐn)?shù)量相同的隨機(jī)數(shù)作為預(yù)測(cè)收益率,比較相應(yīng)時(shí)段的實(shí)際收益率與隨機(jī)數(shù)的分布差異,以此衡量各估計(jì)分布的預(yù)測(cè)效果。實(shí)際收益率與預(yù)測(cè)隨機(jī)數(shù)分布情況如圖5所示。
圖5 滬深300指數(shù)實(shí)際收益率與預(yù)測(cè)隨機(jī)數(shù)盒型圖
圖5 呈現(xiàn)了實(shí)際收益率與遞增數(shù)據(jù)樣本量下各分布下預(yù)測(cè)隨機(jī)數(shù)的分布情況。在各樣本量下,正態(tài)分布預(yù)測(cè)隨機(jī)數(shù)與實(shí)際收益率的分布差異最大,折疊Gamma 分布矩估計(jì)和極大似然估計(jì)預(yù)測(cè)隨機(jī)數(shù)的分布與實(shí)際收益率相對(duì)更接近,但兩者對(duì)比則隨樣本量遞增表現(xiàn)不一。這表明兩種估計(jì)下折疊Gamma分布的預(yù)測(cè)效果雖然會(huì)隨樣本量遞增而變化,但總體上優(yōu)于正態(tài)分布,即折疊Gamma分布的預(yù)測(cè)效果相對(duì)更好。
為了量化各組預(yù)測(cè)隨機(jī)數(shù)與實(shí)際收益率的分布差異,本文以各組隨機(jī)數(shù)與收益率分布的JS 距離作為判別依據(jù),計(jì)算結(jié)果如表4所示。
表4 滬深300指數(shù)預(yù)測(cè)隨機(jī)數(shù)與實(shí)際收益率的JS距離
由表4 可知,在各數(shù)據(jù)樣本量下,正態(tài)預(yù)測(cè)隨機(jī)數(shù)與實(shí)際收益率的JS 距離最大,折疊Gamma 分布兩種估計(jì)下預(yù)測(cè)隨機(jī)數(shù)與實(shí)際收益率的JS 距離相對(duì)更小,且全局而言依然小于正態(tài)預(yù)測(cè)隨機(jī)數(shù)與實(shí)際收益率的JS距離的最小值。這進(jìn)一步表明折疊Gamma分布的預(yù)測(cè)效果優(yōu)于正態(tài)分布。
本文從考慮分布的尖峰厚尾特征出發(fā),鑒于Gamma分布的峰度系數(shù)可由參數(shù)α控制,以Gamma 分布為基礎(chǔ)構(gòu)造一種新分布,使其在繼承Gamma 分布峰度系數(shù)特征的同時(shí)彌補(bǔ)Gamma分布只能應(yīng)用于正向數(shù)據(jù)的缺陷。基于以上考慮,本文由Gamma 分布成功構(gòu)造了滿足以上特征的新分布,將其命名為折疊Gamma 分布。折疊Gamma分布的構(gòu)造在采用組合分布構(gòu)造思想的同時(shí)還避免了閾值求解難題。在成功構(gòu)造分布的基礎(chǔ)上,本文簡(jiǎn)單討論了分布的性質(zhì),并在Newton-Raphson 算法下給出了分布的矩估計(jì)和極大似然估計(jì),接著以數(shù)值模擬實(shí)驗(yàn)證明了估計(jì)的可行性,最后以滬深300指數(shù)收益率數(shù)據(jù)進(jìn)行實(shí)證對(duì)比分析,表明折疊Gamma 分布相比于正態(tài)分布更適合擬合具有尖峰厚尾特征的數(shù)據(jù)。
本文構(gòu)造了一種新的、具有尖峰厚尾特征的對(duì)稱分布,為研究具有此種特征的數(shù)據(jù),特別是金融數(shù)據(jù)的分布特征提供了一個(gè)新的分布選擇。另外,本文構(gòu)造的折疊Gamma分布在繼承Gamma分布特征的同時(shí)擴(kuò)展了Gamma分布的應(yīng)用范圍,將Gamma 分布的左偏特性擴(kuò)展到折疊Gamma分布的對(duì)稱性,使之能移植到實(shí)數(shù)范圍的數(shù)據(jù)。
由于折疊Gamma分布的密度函數(shù)含有關(guān)于參數(shù)α的上不完全Gamma 函數(shù),因而本文未能得到分布參數(shù)的確切估計(jì)量,也未能挖掘分布及其估計(jì)量更多的統(tǒng)計(jì)性質(zhì)。因此,在進(jìn)一步的研究中,探尋并描述折疊Gamma分布更多優(yōu)良的統(tǒng)計(jì)性質(zhì)是一個(gè)重要的研究方向。