高怡寧
(中南財經(jīng)政法大學(xué) 統(tǒng)計與數(shù)學(xué)學(xué)院,武漢430073)
死亡率預(yù)測在社會生活、政策制定、風(fēng)險管理等的各個方面有著不容小覷的重要性。對死亡率模型的研究可以一直追溯到18世紀。當時,死亡率模型局限于有關(guān)單一年齡因素對死亡率影響的研究,沒有考慮未來死亡率預(yù)測的不確定性,也不適用于時間趨勢的外推。隨著數(shù)學(xué)模型的發(fā)展,美國學(xué)者Lee(1992)提出了Lee-Carter模型,用一簡潔的模型形式將年齡因素,時間因素包括進死亡率模型中。后來,又有一些學(xué)者對Lee-Carter模型進行了改進或是提出了其他更為復(fù)雜的死亡率預(yù)測模型,但絕大多數(shù)因為其復(fù)雜性沒有得到廣泛的運用。本文立足于經(jīng)典的Lee-Carter模型,在現(xiàn)有研究成果的基礎(chǔ)上,提出了考慮每個時間、年齡組內(nèi)部死亡率差異的Lee-Carter模型改進。
在經(jīng)典的Lee-Carter模型中,死亡年份為t,死亡年齡為x的人群組的中心死亡率mx,t服從以下函數(shù)形式:
其中,αx,βx,κt均為待估計參數(shù):αx代表年齡對中心死亡率的影響,κt代表死亡率隨時間走勢的變化,βx代表年齡對時間因素的敏感度。εx,t是服從N(0,σ2)的獨立同分布的隨機變量。為了克服參數(shù)估計上的困難,Brouhns(2002)提出的死亡人數(shù)Dx,t服從泊松分布的假設(shè)得到了后續(xù)研究的廣泛運用。在泊松分布的假設(shè)下,模型的形式為:
其中,Ex,t為暴露人口數(shù)。
然而,泊松分布的假設(shè)下的模型限制了死亡人數(shù)的均值與方差相等,并假定每個時間、年齡組內(nèi)部死亡率相等。事實上,每個死亡年、年齡組內(nèi)部的死亡率因地區(qū),教育等因素差異而不同,實際中每組的死亡人數(shù)方差很可能大于模型的假定。由此,經(jīng)典的Lee-Carter模型帶來的偏大離差將導(dǎo)致模型假設(shè)的不準確和預(yù)測的不精確。
因此,本文將每個分年齡、分時間組內(nèi)的死亡人口Dx,t分成Nx個相等大小的不同類別組Dx,t(i),并假設(shè)每個年齡,時間組內(nèi)的任意兩個類別組相互獨立,得到第i個類別組的死亡人口分布形式如下:
式中,Zx(i)描述了第i個年齡組內(nèi)類間死亡率水平的差異現(xiàn)象,假設(shè)其均值為1,代表該年齡組的死亡率平均水平。由此易知,Zx(i)>1代表該類的人口死亡率高于該組的平均水平;而1>Zx(i)>0則表示該類的人口死亡率低于該組的平均水平。進一步的,本文選擇廣泛用于描述偏大離差現(xiàn)象的Gamma分布來描述Zx(i)的分布,設(shè)其均值為1,方差為ιx,則可以推得在t年死亡的x歲的人口組內(nèi),第i類的死亡人口數(shù)服從如下分布:
上述兩個死亡率模型的參數(shù)估計均可以通過極大似然法估計。由于模型中非線性參數(shù)的存在,需要編程通過參數(shù)迭代的方法估計參數(shù)值。在本文中,所有參數(shù)根據(jù)Newton迭代公式進行迭代求解。
本文采用《中國人口統(tǒng)計與就業(yè)年鑒》(原名《中國人口統(tǒng)計年鑒》)中1993~2009年分年齡分性別的死亡人口,年暴露人口和死亡率數(shù)據(jù)。其中,1995年的數(shù)據(jù)缺失,2000年的數(shù)據(jù)從《中國2000年人口普查資料》中獲得。為了研究中國死亡率數(shù)據(jù)是否存在隊列效應(yīng),本文年齡段間隔為1歲,并將90歲以上的年齡化為一組。
1993年年鑒中沒有直接給出死亡人口數(shù),本文以其分組死亡率計算得到。1996年的年鑒中沒有85歲及以上的年齡的人口信息,本文按相鄰年的比例進行了估算。
本文運用了R軟件編程估計參數(shù)。在這個過程中,對模型中的待估計參數(shù)設(shè)隨機初始值,進行多次迭代后,使得似然函數(shù)(3)的最后兩次迭代差值控制在10-8以內(nèi),得到分性別的死亡率模型參數(shù)的估計值。為了得到唯一的參數(shù)估計值和使兩個模型具有可比性,借鑒相關(guān)研究,筆者對參數(shù)進行如下限制:Σtκt=0,Σxβx=1。
得到兩個模型的參數(shù)估計情況如下(在下文中,稱泊松分布下的Lee-Carter模型為模型(1),負二項分布下的lee-Carter模型為模型(2)):
圖1 模型參數(shù)估計值比較
從圖1中可以看到,兩個模型下得到的參數(shù)的估計值在趨勢上差異不大。女性αx值持續(xù)小于男性,說明在各個年齡組中,女性的死亡率均值均小于男性。從βx值來看,兩組性別都表現(xiàn)出了低年齡段值較高的現(xiàn)象,而βx值越高,表明該年齡段死亡率對死亡率隨時間變化的敏感度越大。并且,女性的死亡率隨時間變化的敏感度小于男性。另外,從κt值可以明顯看到死亡率隨時間下降的趨勢。
但是,單從參數(shù)估計值上無法判斷模型的優(yōu)劣之分。由于加入了更多的參數(shù),模型二對死亡人口的擬合效果理應(yīng)優(yōu)于模型一。為了更客觀的判斷所建模型的價值,本文運用BIC準則對兩個模型進行判斷比較。BIC的值越大,模型的整體效果就越好??偨Y(jié)兩個模型的情況如表1:
從表1中BIC的值可以看到,女性的兩個模型的BIC值均大于男性,說明對女性所建的死亡率預(yù)測模型優(yōu)于男性。而假設(shè)死亡人數(shù)服從負二項分布的模型的BIC值又大于泊松假設(shè)下模型的BIC值,說明改進后的模型對死亡率數(shù)據(jù)的擬合效果更好。
表1 模型比較
為了直觀判斷模型的擬合效果,進一步按下式計算標準殘差:
做出改進后模型的標準殘差圖(由左到右分別為標準殘差按死亡年,死亡年齡以及出生年排列)如圖2:
由圖2中可知,模型估計得到的殘差序列對于時間平穩(wěn)且?guī)捉鼮榘自肼曅蛄校ㄆ銵B檢驗的p值分別為0.03418和0.1185)。說明建模中已經(jīng)充分提取了參數(shù)信息。同時,為了判斷中國人口死亡現(xiàn)象是否具有隊列效應(yīng),作出標準殘差序列對應(yīng)人口出生年的序列圖(右圖)。從殘差圖上可見,殘差對于出生年分布均勻,沒有明顯周期因素??紤]到在模型設(shè)計中包括隊列效應(yīng)對模型的估計造成的困難和由此帶來的參數(shù)間的交互效應(yīng),本文認為在對中國人口建模時可以忽略男女性的死亡現(xiàn)象的隊列效應(yīng)。
通過對κt建立ARIMA模型可以得到未來的κt值,從而對死亡率進行預(yù)測。通過觀察κt序列的自相關(guān)圖和偏相關(guān)圖,初步判斷模型類別,結(jié)合ARIMA模型擬合殘差以及參數(shù)的顯著性檢驗,最終確定女性的κt序列為ARIMA(0,1,0)模型,而男性為ARIMA(1,1,1)模型。模型的估計結(jié)果為:
其中,括號中的值為參數(shù)t檢驗的p值,隨機項εt為白噪聲序列。運用上述兩個模型,即可預(yù)測出未來時間的κt值,與αx,βx的參數(shù)估計值一起代入式(1),即可得到考慮了每個年齡、時間組內(nèi)部死亡率差異的該組的死亡率均值的預(yù)測值。在圖3中,本文做出了模型對部分年齡人口死亡率的擬合圖,并按κt的預(yù)測序列給出了未來一段時間這些年齡的人口死亡率預(yù)測值。
圖3 代表性年齡死亡率擬合及預(yù)測(放大1000倍)
從圖3中可以看到,對于不同的年齡組,模型對于低年齡段的死亡率擬合優(yōu)于高年齡段:在圖中,模型對于0歲,60歲的死亡率擬合效果很好。實際上,在這兩個年齡段中間的年齡組也能得到很好的擬合。但是另一方面,由于80歲以上的人口的死亡率波動較大且不穩(wěn)定,模型對于這些高年齡段的擬合效果一般。另外,從模型對于2010~2015年分性別死亡率的預(yù)測上來看,死亡率穩(wěn)步下降,符合實際。
眾所周知,死亡率的高低不僅與死亡年齡,時間有關(guān),死亡人口的受教育水平,貧富水平和生活質(zhì)量都使得死亡率呈現(xiàn)出極大的差異。而廣為運用的Lee-Carter模型雖然模型形式簡潔,但其對每個年齡、時間組內(nèi)部死亡率相同的限制卻不可避免地造成了模型的設(shè)定偏差。
本文在經(jīng)典Lee-Carter模型的基礎(chǔ)上將各個時間,年齡組內(nèi)的死亡率個體差異考慮入模型的構(gòu)建中,推導(dǎo)出死亡人口服從一負二項分布的Lee-Carter模型擴展形式。并用中國1993年至2009年分性別分年齡的人口資料對模型進行了量化分析。結(jié)果表明,根據(jù)模型的BIC值,死亡人口服從負二項分布假設(shè)的模型優(yōu)于泊松分布假設(shè)下的模型。并且,無論是在哪種死亡人口分布的假設(shè)下,對女性人口建模的效果均優(yōu)于對男性人口建模。從改進后模型擬合的結(jié)果來看,標準殘差對年齡,人口死亡年,人口出生年均獨立。
特別地,按人口出生年排列的殘差圖分布均勻,這顯示表明中國人口死亡現(xiàn)象沒有呈現(xiàn)隊列效應(yīng)的特征。中國人口死亡的這一現(xiàn)象免去了建模時添加出生年效應(yīng)項的困難。最后,本文通過運用所建模型,對模型中時間因子建ARIMA模型,預(yù)測出未來6年內(nèi)中國分性別分年齡的死亡率數(shù)據(jù)。預(yù)測表明在未來一段時間內(nèi),若沒有特殊因素影響,各個年齡人口的死亡率不斷下降。
從模型的擬合效果來說,改進后的Lee-Carter模型對低年齡段的擬合效果較優(yōu)。而由于高年齡段的死亡率的高度波動性,本文模型對其擬合效果欠佳。鑒于高齡人口的死亡率預(yù)測在養(yǎng)老金制度的安排,企事業(yè)單位的個人退休計劃中起著重要的作用,有必要單獨為高年齡段建立死亡率模型以得到準確的死亡率預(yù)測結(jié)果。由于篇幅所限,本文不再涉及這方面內(nèi)容。另外,完整的死亡率預(yù)測應(yīng)給出預(yù)測值的置信區(qū)間。在這個方面,一些學(xué)者提出了用bootstrap模擬的方法,也有一些學(xué)者提出了Monte Carlo的模擬方法,這些方法都可以后續(xù)用到模型的完善中來,使得模型更加完備。
[1]王曉軍,黃順林.中國人口死亡率隨機預(yù)測模型的比較與選擇[J].人口與經(jīng)濟,2011,(1).
[2]祝偉,陳秉正.中國城市人口死亡率的預(yù)測[J].數(shù)理統(tǒng)計與管理,2009,(4).
[3]LI,Johnny Siu-Hang,HARDY,Mary,TAN,Ken Seng.Uncertainty in Mortality Forecasting:An Extension to the Classical Lee Carter Ap?proach[J].ASTIN Bulletin,2009,(1).
[4]Lee R.D,Carter L.R.Modeling and Forecasting US Mortality[J].Jour?nal of the American Statistical Association,1992,(87).
[5]Andrew J.G.Cairns,David Blake,Kevin Dowd,Guy D.Coughlan,Da?vid Epstein,Alen Ong,Igor Balevich.A Quantitative Comparison of Stochastic Mortality Models Using Data from England and Wales and the United States[Z].Discussion Paper PI-0701,2007.
[6]Renshaw A.E,Haberman S.A Cohort-Based Extension to the Lee-Carter Model for Mortality Reduction Factors[J].Insurance:Mathematics and Economics,2006,(38).