樊 毅,張 寧
(1.中南林業(yè)科技大學(xué) 經(jīng)濟學(xué)院,長沙 410004;2.湖南大學(xué) 金融與統(tǒng)計學(xué)院,長沙 410006)
近些年來,死亡率的持續(xù)下降帶來的平均預(yù)期壽命的提高成為了世界各國人口發(fā)展的重要特征,我國也不例外。根據(jù)國家統(tǒng)計局發(fā)布的數(shù)據(jù),我國人口的人均預(yù)期壽命已經(jīng)從建國初期的40歲左右增加到了2015年的76.34歲。人的預(yù)期壽命的不確定性也會因人們在生活方式上的變化、醫(yī)療技術(shù)上的創(chuàng)新等因素而增加。預(yù)期壽命變動的隨機性不利于養(yǎng)老金成本的核算,并在很大程度上影響到各種養(yǎng)老金計劃的可持續(xù)發(fā)展,從而很可能會對壽險公司和養(yǎng)老金機構(gòu)造成損失。綜上所述,在與歷史數(shù)據(jù)進行比較的基礎(chǔ)上,選擇與我國人口死亡率分布狀況擬合效果較好的隨機死亡率模型,可以使得死亡率預(yù)測的精準性得以大大改善,這為我國壽險企業(yè)和養(yǎng)老金機構(gòu)的實踐提供了理論支持。
近二十年來,國內(nèi)外學(xué)者對隨機死亡率模型進行了一系列的研究。其中隨機死亡率模型同時考慮了年齡因素和時間因素對死亡率的影響,使得其預(yù)測值更接近實際。目前為止,由Lee和Carter(1992)[1]提出的Lee-Carter(LC)系模型和由Cairns等(2006)[2]提出的CBD系模型是較為經(jīng)典且運用廣泛的模型。
國內(nèi)學(xué)者雖然有利用死亡率模型對中國人口死亡率進行預(yù)測,但是將不同死亡率模型對中國人口的擬合效果進行比較分析的研究相對較少。王曉軍和蔡正高(2008)[3]在全面綜述了各類死亡率模型的基礎(chǔ)上,為中國的死亡率模型選擇提供了合理建議。王曉軍和黃順林(2011)[4]比較分析了幾個較為常用的隨機死亡率模型對我國男性人口死亡率歷史數(shù)據(jù)的擬合效果,發(fā)現(xiàn)在CBD模型基礎(chǔ)上拓展而來的一個模型對中國男性人口死亡率經(jīng)驗數(shù)據(jù)的擬合效果最好。段白鴿和石磊(2015)[5]在動態(tài)死亡率模型的構(gòu)建中考慮了超高齡人口死亡率的因素,建立了超高齡人口動態(tài)死亡率分層模型,分析了我國人口死亡率的變化狀況和該模型預(yù)測的效果。張志強和楊帆(2017)[6]首次在人口死亡率預(yù)測中運用了多變點檢測方法,其將Lee-Carter模型與在主成分分析基礎(chǔ)上建立的死亡率模型對多個國家數(shù)據(jù)進行擬合,發(fā)現(xiàn)采用多變點檢測的基于主成分分析的死亡率模型對人口死亡率預(yù)測的精確度和穩(wěn)定性更優(yōu)。
本文在全面綜述各類死亡率模型的基礎(chǔ)上,選擇了8個運用較為廣泛的隨機死亡率模型,以此對中國1994—2013年總?cè)丝谒劳雎实慕?jīng)驗數(shù)據(jù)(0~89歲)進行比較分析,并在綜合考慮擬合效果的基礎(chǔ)上作出評價,以此得出最優(yōu)模型。
死亡率模型主要劃分為確定型和隨機型兩種。其中確定型死亡率模型不考慮時間因素和死亡率未來趨勢對其造成的影響,只假設(shè)死亡率與年齡相關(guān),且該種模型的參數(shù)由死亡率的經(jīng)驗數(shù)據(jù)確定。目前,隨機死亡率模型可劃分為LC系和CBD系死亡率模型。
在有關(guān)隨機死亡率的研究中,比較著名的是由Lee和Carter于1992年提出的Lee-Carter模型:
其中,αx,βx指年齡因素,kt指隨機時間因素。m(x,t)指在t時刻年齡為x歲的人的中心死亡率,αx指不同年齡段死亡率對數(shù)變動的基數(shù);βx指不同年齡段死亡率對數(shù)變動的趨勢。kx指時間因素變量,可當(dāng)作一個隨機游走過程或一個ARIMA過程,表示在t時刻死亡率的變動情況。
如今進行參數(shù)估計的方法有許多。Lee和Carter(1992)[1]提出的SVD法 (Singular Value Decomposition)是最早進行參數(shù)估計的方法。之后,統(tǒng)計方法更加標準化,注重對全部數(shù)據(jù)的擬合程度[7,8]。但 Lee和 Miller(2001)[9]認為,應(yīng)更加注重對數(shù)據(jù)集最后一年的擬合,因為最后一年的數(shù)據(jù)對未來死亡率預(yù)測的影響要大于其他年份數(shù)據(jù)。
2006年,Renshaw和Haberman[10]第一次將出生年效應(yīng)納入人口死亡率模型:
其中,kt指隨機時間因素,γt-x指隨機的出生年效應(yīng),是(近似)出生年份(t-x)的函數(shù)。Renshaw和Haberman(2006)[10]將英格蘭和威爾士的數(shù)據(jù)進行分析后,發(fā)現(xiàn)相較之前的Lee-Carter模型,加入出生年效應(yīng)會使人口死亡率模型更加完善,但該模型(RH模型)的穩(wěn)定性不佳。CMI(2006)[11]發(fā)現(xiàn)模型的參數(shù)估計值會隨著死亡率數(shù)據(jù)的年齡范圍變化而變化;Cairns等(2008)[12]用不同時間范圍去擬合模型的過程中也意識到了這個缺陷,他們還進一步意識到用該模型擬合的出生年效應(yīng)大致存在一個確定的線性趨勢或二次趨勢,這或許會對模型的擬合效果造成影響。
Haberman和Renshaw(2011)[13]令RH模型中的=1以解決其穩(wěn)定性問題,具體簡化形式如下:
Currie等(2006)[14]在簡化了RH模型后,建立了APC模型:
該模型能夠很好地擬合美國的歷史數(shù)據(jù),也能解決RH模型在上文中提到的穩(wěn)定性問題[11]。
針對高齡人群,Cairns等(2006)[2]提出了一個基于Logistic轉(zhuǎn)換的CBD模型:
其中,q(x,t)=1-exp(-m(x,t)),指在t年內(nèi)x歲的人死亡的概率,-x為樣本年齡均值,為具有漂移項的雙變量隨機游走kt=kt-1+μ+cZt,因此該模型也被稱為雙因素死亡率模型。此外,他們在分析中還詳細說明了如何利用貝葉斯方法在模擬中包含參數(shù)的不確定性。
之后,Cairns等(2007)[15]進一步拓展了CBD雙因素模型:
Cairns等(2008)[12]將原始模型進一步簡化,建立了兩個模型,一個模型是令=0,見公式(7);另一個模型是令是零,用更復(fù)雜的年齡-出生年效應(yīng)因子替換,見公式(8):
Plat(2009)[16]在審查和分析LC系和CBD系等死亡率模型后,建立了四因素死亡率預(yù)測模型:
其中,αx與Lee-Carter模型中的類似;代表各年齡死亡率隨時間的變化程度;指各年齡段的人死亡率改善水平的差別;是指由于濫用藥物、暴力或酗酒等原因而使低齡人群的死亡率出現(xiàn)波動,此處用(-x)+=max(-x,0)來代替-x),目的是使死亡率-年齡曲線變動趨勢與以往數(shù)據(jù)相吻合。若僅僅預(yù)測高年齡組人群死亡率,可剔除,使模型更加簡化:
γt-x指出生年效應(yīng),與前文模型所指意義類似。
下頁表1將前文提到的隨機死亡率模型進行了匯總。其中,LC模型是出現(xiàn)最早的隨機死亡率模型且該模型不包含出生年效應(yīng);RH模型和APC模型把LC模型進一步拓展,但APC模型比RH模型更穩(wěn)定。CBD模型是針對高齡人群、基于Logistic轉(zhuǎn)換的雙因素模型;將M7模型進一步簡化,可得到M6模型和M8模型;因納入二次年齡效應(yīng)和出生年效應(yīng)兩個成分,使得M7模型穩(wěn)定性更強;M8模型同為CBD系拓展模型,它包含了年齡-出生年效應(yīng)因子;Plat模型即四因素死亡率預(yù)測模型。
本文在進行參數(shù)估計時,假設(shè)死亡人數(shù)D(x,t)近似服從Poisson,即:
其中,D(x,t)指在t年時x歲的人的死亡數(shù)量,用E(x,t)指在t年時x歲的人平均死亡風(fēng)險暴露人數(shù),m(x,t)與之前模型類似。為了避免空缺數(shù)據(jù)單位對參數(shù)估計的影響,本文將提前擬定權(quán)數(shù)而準許數(shù)據(jù)過度離散。Yxt指在t年時年齡為x歲的人的死亡數(shù)量。基于Yxt的一階矩和二階矩,可得到關(guān)系式如下:
表1 8個隨機死亡率模型
其中,Φ為比例參數(shù),wxt為權(quán)重函數(shù),V[E(Yxt)]=E(Yxt)為方差函數(shù)。令數(shù)據(jù)缺失時的權(quán)數(shù)等于0,反之等于1。為了使模型之間的比較基礎(chǔ)一致,本文將使用死亡率q(x,t)的模型轉(zhuǎn)換成m(x,t),如下:m(x,t)=-log[1-q(x,ty)]。這樣能夠?qū)Ρ?中的8個模型都使用m(x,t)來計算模型的極大似然估計值。
對于一個給定的模型,要將符號m(x,t)擴展成m(x,t,θ)來代表參數(shù)之間的依賴性,其中θ表示待估計的參數(shù)向量,同樣地:
對上述8個模型進行參數(shù)估計時,使用的是極大似然估計法,具體形式如下:
最后,為了得到各參數(shù)的估計值,使用牛頓迭代法,其公式如下:
2.3.1 殘差圖檢驗
本文使用了中國1994—2013年0~89歲的綜合死亡人數(shù)和平均死亡風(fēng)險暴露人數(shù)數(shù)據(jù),來更好地比較所選取的8個模型的擬合效果。圖2和圖3以殘差圖的形式,在泊松誤差結(jié)構(gòu)假設(shè)下,分別反映了年齡、日歷年和出生年對死亡率的影響。通常按照殘差分布來選擇模型。依據(jù)圖2和圖3,可看出8個模型都捕捉到了時間效應(yīng),但是僅僅只有RH、APC、M6、M7、M8以及Plat模型反映出了出生年效應(yīng)。此外,從CBD模型殘差圖中能夠得知,其年齡殘差圖以及出生年殘差圖都呈現(xiàn)了波動劇烈的特征,這在一定程度上表明了年齡效應(yīng)以及出生年效應(yīng)并沒有在其中得到反映,但是從其時間殘差圖得知,時間效應(yīng)能夠在該模型中得到有效地反映,因為其時間殘差圖是均勻分布在零軸兩側(cè);LC模型也未能較好地捕捉出生年效益,因其對應(yīng)的殘差有輕微的波動,但該模型卻很好地捕捉了年齡效應(yīng)和時間效應(yīng);從殘差圖可看出,RH模型和APC模型的擬合程度很高,三個成分的殘差在零軸兩側(cè)均勻分布,但是RH模型的擬合效果的穩(wěn)定性優(yōu)于APC模型。M7模型的殘差圖分布均勻且最接近零軸,因此該模型的擬合程度較高,優(yōu)于M6模型和M8模型;與M7模型相比,雖然Plat模型的殘差分布均勻,但在零軸附近的偏移程度較大,因此該模型對數(shù)據(jù)的擬合存在一定的偏差。
圖3 M6、M8、M7與Plat模型的殘差圖
2.3.2 AIC和BIC比較法
通常,極大似然估計值的大小受模型中參數(shù)個數(shù)多少的影響,參數(shù)個數(shù)越多估計值越大,則會使模型過度參數(shù)化,可以通過懲罰過度參數(shù)化的模型來避免該問題。本文將運用貝葉斯信息準則(BIC)和赤池信息量準則(AIC)來觀察添加的每一個參數(shù)對模型的極大似然估計值的影響。就比較標準而言,AIC和BIC考慮到了模型的擬合質(zhì)量和簡潔度,同時在比較時不必考慮模型之間有無相互嵌套關(guān)系,此外,BIC沒有假設(shè)先驗?zāi)P偷呐判?。通過得出表1中的8個模型的AIC值和BIC值及其大小順序(見表2),能夠發(fā)現(xiàn)RH模型對中國的死亡數(shù)據(jù)的擬合程度最高,其次是Plat模型,再次是APC模型。
表2 8個隨機死亡率模型的AIC和BIC值及其大小順序(括號中)
2.3.3 嵌套模型的似然比檢驗
嵌套模型是一般模型的特殊形式。例如,在簡化RH模型基礎(chǔ)上提出的APC模型是其嵌套模型。對于嵌套模型,通常采用似然比檢驗的方法,該檢驗的原假設(shè)為嵌套模型的擬合效果好,備擇假設(shè)為更一般的模型擬合效果更優(yōu)。就APC和RH模型而言,設(shè)APC和RH模型的極大似然估計值分別為和,其參數(shù)估計個數(shù)分別為v1=214,v2=304。假設(shè)原假設(shè)成立,極大似然比統(tǒng)計量是2(-l1),可知它近似服從卡方分布,自由度d.f.為α 為置信水平),那么拒絕原假設(shè),得出RH模型的擬合效果更優(yōu)的結(jié)論。
如表3所示,表2中的嵌套模式的模型總共有6對。通過表3可以明顯發(fā)現(xiàn)P值都小于α,因而拒絕原假設(shè),得出一般模型的擬合效果優(yōu)于嵌套模型的結(jié)論。
表3 一般模型與嵌套模型的似然比檢驗
2.3.4 參數(shù)的穩(wěn)定性檢驗
本文選取了RH模型、APC模型和Plat模型,上述三模型均為BIC值較大的死亡率模型,并使用極大似然估計法對年齡0~89歲的人進行參數(shù)估計,然后分別作出參數(shù)分布圖,如圖4所示。本文選取了1994—2013年和1997—2013年的中國綜合死亡人口數(shù)據(jù)和綜合平均死亡風(fēng)險暴露數(shù)據(jù)來對上述三個模型進行參數(shù)估計。1994—2013年以及1997—2013年的數(shù)據(jù)擬合的模型中每一項的分布見圖3,其中,散點使用的是1994—2013年的數(shù)據(jù),折線使用的數(shù)據(jù)為1997—2013年。令年齡在[0,89]內(nèi)取值,日歷年分別在[1994,2013]和[1997,2013]內(nèi)取值。
圖4 RH、APC、Plat模型的擬合穩(wěn)定性檢驗圖
從上述三個模型的檢驗圖中看到它們出生年效應(yīng)顯著,其出生年效應(yīng)曲線在t-x≥1970時均呈現(xiàn)出下降趨勢。
參數(shù)是否具有穩(wěn)定性是衡量模型優(yōu)劣的重要指標。若模型的穩(wěn)定性較好,則該模型在使用不同時間段數(shù)據(jù)的情況下,得到的兩組估計值曲線相吻合。對于APC、RH和Plat模型,它們的參數(shù)估計圖在年齡項的擬合上較為接近,且相對穩(wěn)定,即使在擬合模型參數(shù)時使用的時間段較短,其參數(shù)圖也改變不大。RH模型對于出生年效應(yīng)的擬合效果相對較差:1997—2013年數(shù)據(jù)擬合的出生年指數(shù)圖是先上升后下降的,而1994—2013年數(shù)據(jù)擬合的指數(shù)圖卻有下降趨勢。不同于RH模型,APC模型和Plat模型在時間段較短的情況下,其預(yù)測趨勢與原圖線大致吻合,故其擬合效果較優(yōu),但出生年指數(shù)因數(shù)據(jù)變少,方差變大而擴大了其取值范圍。Plat模型出生年指數(shù)范圍由原來的(-0.2,0.2)擴大至(-0.6,0.6)。
本文對所選取的8個隨機死亡率預(yù)測模型的擬合效果進行比較與分析。發(fā)現(xiàn)當(dāng)以殘差圖的形式,在泊松誤差結(jié)構(gòu)假設(shè)下,每個模型都捕捉到了時間效應(yīng),且除了LC模型和CBD模型外都捕捉到了出生年效應(yīng)。研究表明RH模型、APC模型和M7模型擬合程度最優(yōu),而LC模型和CBD模型擬合程度較弱。就BIC檢驗而言,能夠發(fā)現(xiàn)RH模型對中國的死亡數(shù)據(jù)的擬合程度最優(yōu),其次分別是Plat模型和APC模型。就參數(shù)穩(wěn)定性而言,APC模型、RH模型和Plat模型的參數(shù)估計圖在年齡項的擬合上較為接近,且相對穩(wěn)定,預(yù)測結(jié)果較為準確。因此,在綜合考慮所有的死亡率模型擬合效果后可以得出,APC模型與我國的人口死亡狀況最相適應(yīng)。
從以上結(jié)果能夠得出,并不存在一個可以有效解決我國人口死亡狀況擬合中存在的各種問題的隨機死亡率模型。這不僅在一定程度上反映出難以獲取人的死亡狀況的發(fā)展變化規(guī)律;同時也提出了進一步的要求,需要對現(xiàn)有的關(guān)于人口死亡率預(yù)測的方法及模型進行優(yōu)化。