黃榮清,曾憲新
(首都經(jīng)濟貿(mào)易大學 勞動經(jīng)濟學院,北京 100070)
人口死亡統(tǒng)計是人口學研究的起點。1662年,格蘭特(Graunt)提出編制的生命表科學地揭示了在一定時期不同年齡人口的死亡風險和期望壽命的計算方法,開啟了從人口死亡統(tǒng)計數(shù)據(jù)認識死亡規(guī)律的旅程[1]。
人口死亡統(tǒng)計主要研究兩個方面的問題:一個問題是在理論上尋找人口死亡隨年齡變動的規(guī)律。人口死亡規(guī)律的研究又大致可以區(qū)分為三個方向:①人口死亡的直接模型。它的特點是以年齡為自變量,以生命表中某一生命函數(shù)為因變量,以此來揭示不同年齡的死亡風險,基于高質(zhì)量數(shù)據(jù)計算出來的生命表本身就是一種離散形式的直接模型,但生命表只是特定數(shù)據(jù)下的死亡變動規(guī)律,不具有普遍性。直接模型通過數(shù)學建??梢詫⒉煌碇兴从车乃劳鲭S年齡變動的規(guī)律概括為簡潔的函數(shù)形式。直接模型揭示了不同生命表所反映的人口死亡隨年齡變動的普遍性規(guī)律。②人口死亡的間接模型。與直接模型不同,人口死亡關(guān)系模型不是用自身的生命表數(shù)據(jù)來反映人口死亡風險的變動,而是通過構(gòu)建生命表的生命表(模型生命表)之間的關(guān)系來構(gòu)建死亡的變動規(guī)律,因此,稱為人口死亡相對模型,也稱為關(guān)系模型(relational model)。它的主要特點是用數(shù)學模型來揭示兩個不同生命表的函數(shù)關(guān)系。最經(jīng)典的是布勞斯(Brass)的logit體系模型等[2-3]。后來的李和卡特(Lee & Carter)的隨機向量模型也可以歸類于間接模型[4]。③模型生命表。通過對相對可靠的人口死亡數(shù)據(jù)進行統(tǒng)計歸納,編制出一套不同死亡水平(預期壽命)、不同類型的生命表。例如聯(lián)合國在1955年發(fā)表的模型生命表和在1982年編制的發(fā)展中國家的模型生命表[5-6];美國人口學者寇爾(Coale)和德曼尼(Demeny)在1966年發(fā)表和在1983年修訂的分區(qū)域模型生命表等[7-8]。人口死亡統(tǒng)計所研究的另一個主要問題是探討實際的人口死亡處于怎樣的水平?這個問題主要是在對現(xiàn)有的死亡數(shù)據(jù)進行評估、修正;在數(shù)據(jù)不完整的情況下對死亡數(shù)據(jù)進行間接估計。
人口死亡研究的基礎就是死亡統(tǒng)計數(shù)據(jù),模型生命表就是在可靠的人口死亡數(shù)據(jù)進行統(tǒng)計歸納的基礎上形成的。但是,實際研究中的數(shù)據(jù)往往不盡如人意。間接模型為數(shù)據(jù)不完備下的死亡水平估計和人口死亡數(shù)據(jù)存在系統(tǒng)性問題的修正提供了重要的工具。直接模型、間接模型、數(shù)據(jù)修正和死亡水平的間接估計之間的關(guān)系如圖1所示。
圖1 人口死亡數(shù)據(jù)、直接模型、間接模型的關(guān)系
近年來,隨著數(shù)據(jù)的不斷積累和豐富,人口死亡水平間接估計的發(fā)展逐漸脫離了間接模型體系,學者們在方法和實證研究中嘗試運用直接模型的思路借助人口死亡內(nèi)在的年齡規(guī)律,實現(xiàn)在少量數(shù)據(jù)的基礎上對整體死亡水平做出間接估計[9-10]。但這些方法實現(xiàn)間接估計的條件是確認數(shù)據(jù)質(zhì)量相對可靠,至少局部年齡的死亡數(shù)據(jù)是可靠的。當數(shù)據(jù)存在系統(tǒng)性問題時,數(shù)據(jù)修正是一個繞不過去的問題。到目前為止,數(shù)據(jù)修正的主要方法仍然是通過間接模型建立實際死亡數(shù)據(jù)與模型生命表的聯(lián)系。
回顧歷次普查死亡數(shù)據(jù)的修正不難發(fā)現(xiàn),數(shù)據(jù)修正中基準選擇并沒有統(tǒng)一的原則和標準,通常是研究者根據(jù)自己的經(jīng)驗或者對比數(shù)據(jù)與模型生命表的死亡模式做出主觀的選擇[10-12]。間接模型自1968年被提出以來,為了能夠更好地與模型生命表數(shù)據(jù)相擬合有過一些改進[13]。但在實際的數(shù)據(jù)修正中還是以兩參數(shù)的邏吉特模型為主[10-12]。本項研究將從直接模型所揭示的人口死亡的內(nèi)在規(guī)律出發(fā),對間接模型進行理論上的研究,進而改進間接模型,對于間接模型如何更好地用于數(shù)據(jù)修正提出建議。
關(guān)于死亡的間接模型,最常用的當首推英國人口學家布勞斯的logit體系(logit system)模型[1]。
1.布勞斯的logit體系模型
布勞斯在1968年提出,任意兩個生命表中的生存率函數(shù)l1(0)和l0(x)(這里l(0)=1)經(jīng)過logit變換后,其線性關(guān)系成立。所謂logit變換就是如下的函數(shù)變換:
(1)
反過來,若知道logit變換的值Y(x),可以求出l(x)的值:
(2)
設l1(x)和l0(x)經(jīng)過logit變換后的值分別為Y1(x) 和Y0(x),按照logit體系它們有如下的關(guān)系:
Y1(x)=A+BY0(x)
(3)
這里A和B分別為線性方程的常數(shù)項和一次項系數(shù)。
logit體系模型在以后的人口死亡分析中發(fā)揮了重要的作用。其最主要的作用在于兩個領域:其一,數(shù)據(jù)修正。logit體系模型反映了生命表之間的關(guān)聯(lián)。因此,可以用確定高質(zhì)量的死亡率數(shù)據(jù)為基礎的生命表作為標準,利用式(3)對另一個數(shù)據(jù)質(zhì)量不高的l1(x)進行修正。其二,死亡預測。當死亡水平發(fā)生變動時,可以將模型的參數(shù)A、B定義為隨時間變化的量A(t)和B(t),這樣通過估計A和B的時間變化,再利用公式(3),Y1(x,t)=A(t)+B(t)Y0(x)來預測未來死亡率的變化。
在反映Y1(x)和Y0(x)的變化圖中,常數(shù)項A反映兩個生命表在起始值上(或者說截距)的差別,布勞斯把它稱之為死亡水平,一次項系數(shù)B(或者說斜率)反映了兩個生命表中的Y(x)在年齡上的變化,布勞斯把它稱之為死亡模式。
在后來的研究中布勞斯發(fā)現(xiàn),并不是所有的生命表函數(shù)之間都存在很好的線性關(guān)系,他認為這與選擇的生命表函數(shù)有關(guān)。但他同時認為,可以找到和所有其他生命表函數(shù)都有較好線性關(guān)系的某個生命表函數(shù)。為此,他設計了一套各個年齡的l(x),并以它為標準(或者說基礎),通過變動死亡水平A和死亡類型B,按式(3),可得到不同的生命表l(x)[2]。
2.logit體系模型的改進
在運用布勞斯的logit體系模型時,學者們注意到在擬合兩個不同類型或死亡水平相差較大的生命表數(shù)據(jù)時,模型的誤差還是比較大的,特別是在老年和少年兩端,即使調(diào)整參數(shù)A、B,模型的精度并沒有得到顯著改善。對這種情況,布勞斯的學生扎巴(Zaba)提出了改進方法[13]。他的改進模型情況如下:他先引入一個中間的存活率函數(shù)lN(x),
lN(x)=lS(x)+ψκ(x)+χt(x)
(4)
其中,lS(x)為布勞斯標準生命表的l(x)值,κ(x)和t(x) 由lS(x)決定,
κ(x)=1.5lS(x)(1-lS(x)(1-2lS(x)2)
(5)
(6)
Y(x)=α+βYN(x)
(7)
這里Y(x)和YN(x)是l(x)和lN(x)的logit變換值。由公式(4)和(7)可知,Y(x)是由lS(x)和4個參數(shù)ψ、χ、α、β來決定的。參數(shù)ψ、χ是扎巴根據(jù)經(jīng)驗來確定的,α、β是由式(7)回歸確定。扎巴提供的是一個四參數(shù)模型。
尤班克(Ewbank)、弋麥斯(Gomez)和斯托托(Stoto)在1983年提出了另一個四參數(shù)的模型[14]。它們的模型如下:設lS(x)為作為標準的存活率函數(shù),p=1-lS(x),模型形式如下:
(8)
其中
(9)
T(p,κ,λ)表是由作者自己制作的表,通過反復內(nèi)插與迭代尋找κ值和λ值,使其與Y(x)比較接近,最后根據(jù)式(8),回歸確定參數(shù)α和β。
3.間接模型的另一形式
(10)
任意兩個生存率函數(shù)經(jīng)過這樣的變換后,存在著近似的線性關(guān)系:
Y1(x)=A+BY0(x)
(11)
式(11)稱之為l(x)的雙對數(shù)線性模型(簡稱雙對數(shù)模型)。
通過大量的實際數(shù)據(jù)進行驗證,雙對數(shù)模型和logit體系模型的精度大致相當。在兩個死亡水平較高(期望壽命較低)的生命表情況下,用logit體系模型來計算時的精度會略高一些,而在兩個死亡水平較低(期望壽命較高)的生命表情況下,用雙對數(shù)模型的精度會高一些。
布勞斯提出的不同的生命函數(shù)之間可以用兩個參數(shù)的線性關(guān)系來表示的模型,由于其簡單容易操作,且具有一定的準確度,所以獲得了廣泛的應用。為了更好地適應各種情況和提高模型的精度,后人提出了改進的模型,出現(xiàn)了四參數(shù)模型。四參數(shù)模型雖然對模型的精度有一定程度的提高,但由于增加了參數(shù),使模型結(jié)構(gòu)變得復雜,并增加了計算的難度。另外,在上面提到的改進的兩個四參數(shù)模型,都必須用到提出者自己歸納出的被稱為標準的先驗數(shù)據(jù),但這種數(shù)據(jù)是否普遍有效,無法得到證明。由于以上原因,上述的四參數(shù)模型在實際應用中并不廣泛。
盡管間接模型的研究在方法層面得到了一些發(fā)展和推進,但由于仍然存在一些問題,后來的幾個間接模型并沒有在實際的數(shù)據(jù)修正和間接估計中得到廣泛的應用。本文試圖從人口死亡的內(nèi)在規(guī)律入手構(gòu)建另外類型的間接模型,以找到不同死亡類型間的關(guān)系。
上面提到,人口死亡的直接模型是以年齡為自變量的函數(shù)。我們提出如下人口死亡的數(shù)理模型(1)數(shù)理模型構(gòu)建的細節(jié)和參數(shù)估計在筆者主持的社科基金項目結(jié)項報告和另一篇待發(fā)表的文章中,考慮到數(shù)理模型及其參數(shù)的估計不是本文重點,由于篇幅有限這里不再展開。有興趣的讀者可與作者聯(lián)系。。
1.人口死亡風險模型
首先假設:
(12)
這里U(x)為從出生到x歲的死亡力之和,可以把它分解為U0(x)和1+C(x)兩部分之積;其中,U0(x)表示死亡力的基本部分(簡稱基本部分),1+C(x)為影響因子。C(x)為死亡力的干擾因子。在干擾因子作用下,U(x)或大于U0(x),或小于U0(x)。對式(12)取對數(shù):
ln(U(x))=lnU0(x)+ln(1+C(x))≈lnU0(x)+C(x)
(13)
則公式(13)可以改成:
ln(U(x))=A+B(x)ln(x)+C(x)
(14)
我們稱公式(14)為人口死亡(力)風險模型。人口死亡風險模型還可以有另外一種形式,對公式(14)兩邊求導:
(15)
這里B1(x)為B(x)ln(x)的導函數(shù),c(x)為C(x)的導函數(shù)。
(16)
(17)
此處,波動函數(shù)c(y)用以極大值為中心的對稱分布來表示(不同死亡數(shù)據(jù)可能反映出不同的波動特征,后面將會對波動函數(shù)進行進一步的討論):
c(x)=c1e-c2(x-c0)2
(18)
模型中A可以稱為死亡水平,B1(x)反映死亡模式,死亡模式用一個函數(shù)來表示。
人口死亡風險模型將人口死亡分解為可轉(zhuǎn)換為線性函數(shù)的基本部分和一個非線性函數(shù)的波動部分。基本死亡力部分包含死亡水平和死亡模式函數(shù)。通過對實際數(shù)據(jù)的驗證,人口死亡力的基本部分是死亡力的主要部分,大概能解釋死亡力變化的95%以上,而干擾部分對死亡力影響較小,只在5%以下。對預期壽命計算的影響,大多在1歲以內(nèi)。
2.基本死亡力、死亡模式和波動函數(shù)
這里通過以聯(lián)合國的模型生命表數(shù)據(jù)為基礎的進一步分析來理解數(shù)理模型中的基本死亡力、死亡模式和波動函數(shù)。
(1) 基本死亡力。首先,針對同一類型同死亡水平的數(shù)據(jù)計算出B(x),如圖2所示??梢钥闯觯珺(x)表現(xiàn)出如下特征:①為單調(diào)上升函數(shù)。②在同一死亡類型中,在前期,預期壽命越大,B(x)值越??;在后期,預期壽命越大,B(x)值越大。
圖2 同一類型、不同死亡水平下的B(x)值(一般,男性)
進一步地,對同一死亡水平不同類型的死亡數(shù)據(jù)計算出B(x),如圖3所示。可以看出B(x)的特征為:“一般”、“拉美”、“南亞”三種死亡類型的B(x)比較接近,與“智利”和“遠東”模型明顯不同?!爸抢盉(x)值的特點是在前期(30歲以前)較?。欢斑h東”模型B(x)值的特點是在30歲以后較大。
圖3 不同類型、相同死亡水平下的B(x) (男性,e0=65)
(2) 波動函數(shù)和影響因子。前面分析的數(shù)理模型中波動函數(shù)的延伸可以用如下公式來表示:
c(x)=c1e-c2(x-c0)2cos(c3(x-c0))
(19)
之所以稱它為延伸,是因為波動圖形呈對稱狀:在x=c0達到最大值時沒有變化, 只是在兩側(cè)尾端,發(fā)生了符號改變。針對不同的死亡數(shù)據(jù)我們還給出另外三種波動函數(shù):①變形和非對稱形式。當波動函數(shù)呈非對稱的情況下,它可以用以下函數(shù)來表示:c(x)=c1(x-c0)e-c2(x-c0)2。②退化的情形。在這種場合下,c(x)=0。③其他情形(不規(guī)則)。
以下還是以寇爾-德曼尼模型生命表數(shù)據(jù)為基礎來討論不同死亡水平和不同死亡模式的波動函數(shù)特點。
首先,以西方模式中不同水平的數(shù)據(jù)計算出死亡力的波動函數(shù)的圖形(見圖4)。由圖4可以清楚看出,對于同一死亡模式,死亡波動具有相近的函數(shù)形式,而且最大值的年齡位置相近。但峰值高度并不相同,在大部分情況下,預期壽命越大,峰值越高,但e0=80和e0=85時兩者的峰值高度接近。
圖4 西方模式中不同水平下死亡力的波動函數(shù)的對稱形式
接下來,選定一個東方模式的死亡水平(e0=65),分別以區(qū)域模型生命表中四種模式在這一死亡水平(e0=65)下的數(shù)據(jù)為基礎來計算死亡力的波動函數(shù)(見圖5)。東方模式和西方模式非常接近,南方模式呈對稱的延伸形式,且極大值年齡在35歲左右,峰值的絕對值較小,而北方模式的死亡力的波動函數(shù)呈非對稱形式。
圖5 不同模式下的波動函數(shù)(e0=65)
由上述基于數(shù)據(jù)的分析可以看出,波動函數(shù)還有一個特點:它與死亡力大小無關(guān)。死亡力大(預期壽命低),波動函數(shù)的極大值不一定大,死亡力小(預期壽命高),波動函數(shù)的極值不一定小。對于一個固定(地區(qū))的人口,在不太長的時期內(nèi),或者說死亡水平變化不大的情況下,波動函數(shù)往往變化不大。
從整體上說,由波動函數(shù)產(chǎn)生的其他影響因子C(x)對死亡力的影響并不大。但在局部年齡,如在波動函數(shù)呈對稱情況下,在波動函數(shù)達最大值x=c0的前后幾個年齡,c(x)的值甚至大于B1(x),說明在這些年齡段,干擾因素對死亡力作用的影響是不能忽視的。
數(shù)理模型揭示了人口死亡隨年齡變動的關(guān)系。模型生命表數(shù)據(jù)的驗證說明數(shù)理模型是普遍適用的。而間接模型是不同死亡模式之間的聯(lián)系,那么我們可以利用前述數(shù)理模型的形式、性質(zhì)和特征,從理論上對人口死亡的間接模型做進一步的探討。
1.基本死亡力和間接模型的導出
波動函數(shù)比較復雜,但同時波動對死亡力全體來說影響不大,所以在構(gòu)建兩個死亡力的關(guān)系模型時,可以先不考慮而后單獨處理。
設兩個人口的死亡力的基本部分分別為Y(x)和YS(x),按照前面的研究:
(20)
B(x)是以年齡x為自變量的多項式,表示死亡力的年齡變化。以我國的人口死亡數(shù)據(jù)估算,發(fā)現(xiàn)有些情況下多項式系數(shù)b0,b1,…,bn為正負相間,且它們的絕對值差得很大,前面的系數(shù)比后面的系數(shù)要大很多。設W為生命表中最大年齡,本文設定為W=100,令:
(21)
則B(y)可改寫成:
(22)
因為y<1, 所以B(y)的值主要由前面的系數(shù)所決定。
設另一個人口的基本死亡力為:
YS(x)=AS+BS(x)ln(x)
(23)
以下我們來討論若一個人口死亡力函數(shù)YS(x)已知時,如何估計另一個人口的死亡力,或者說Y(x)和YS(x)可以通過何種函數(shù)形式聯(lián)系,即是所謂的間接模型或關(guān)系模型。
間接模型一(二參數(shù)模型):
(24)
式(24)右邊可寫成:
(25)
(26)
另有:
Y(x)-A=β[YS(x)-AS]
(27)
整理后得:
Y(x)=α+βYS(x) (α=A-βAS)
(28)
這就是前面所說的一元線性模型。現(xiàn)實中兩個不同的生命表函數(shù)死亡模式B(x) 和BS(x)的系數(shù)成比例的情況是極少的。如果我們要用式(28)來表示兩個不同的生命表函數(shù)的死亡力,則式(25)的第二項就是公式(28)這一模型的誤差。
對式(25)的第二項再分解,令:
(29)
(30)
(31)
(32)
整理后可得間接模型二(三參數(shù)模型):
Y(x)=α+β·YS(x)+β1·x·(YS(x)-As)
(33)
式(31)右邊分子的第二項為公式(33)模型的誤差。
順著上面的思路,我們可以對式(31)右邊的第二項再進行分解,并構(gòu)筑如下間接模型三(四參數(shù)模型):
Y(x)=α+βYS(x)+β1x(YS(x)-AS)+β2x2(YS(x)-AS)
(34)
考慮到死亡力的結(jié)構(gòu)函數(shù)形狀類似于指數(shù)函數(shù)形狀(參考圖2、圖3):
(35)
B(x)≈b0eb1x
(36)
BS(x)≈b0Seb1Sx
(37)
(38)
于是,就有模型另一個三參數(shù)的間接模型——間接模型四:
Y(x)=α+β1eβ1x(YS(x)-AS)
(39)
考慮到兒童期的死亡力u(x)隨年齡增加而減小,成年后死亡力隨年齡增加而增大的差別,則有:
(40)
這里B1(x)=b1x+b2x2+…,B1S(x)=b1Sx+b2Sx2+…
類似以上的處理方法,可以得到另一個三參數(shù)的間接模型——間接模型五和兩個四參數(shù)模型——間接模型六和間接模型七:
Y(x)=α+βln(x)+β1YS(x)
(41)
Y(x)=α+βln(x)+β1YS(x)+β2x(YS(x)-AS-b0Sln(x))
(42)
Y(x)=α+βln(x)+β1eβ2x(YS(x)-AS-b0Sln(x))
(43)
在間接模型中,我們總是假定在兩個死亡力函數(shù)中的一個死亡力函數(shù)YS(x)是確定的,所以AS,b0S可認為是已知的。
通過上述推導過程,我們一共推導出七個模型形式:一個兩參數(shù)模型——公式(23);三個三參數(shù)模型——公式(33)、(39)和(41);三個四參數(shù)模型——公式(34)、(42)、(43)。接下來通過數(shù)據(jù)對模型的精度和引用范圍進行測試和分析。
2.各種模型的精度比較
以下我們將利用寇爾-德曼尼的分區(qū)模型生命表的部分數(shù)據(jù)(死亡水平在60歲及以上),按照模型生命表的不同死亡類型和死亡水平兩個不同角度來對各種模型的精度作比較。
(44)
(45)
以下假定,當Δy≤10 時,認為模型誤差“小”,10<Δy≤50時,認為模型誤差為“較小”,當50<Δy≤100時,模型誤差為“較大”,Δy>100時為“大”。當Δq≤1 時,認為模型誤差為“小”,1<Δq≤5時,認為模型誤差為“較小”,當5<Δq≤10時,模型誤差為“較大”,Δq>10時為“大”。當Δy和Δq處于“小”和“較小”的情況下,我們可認為模型的精度較“高”,當兩者的誤差在“較大”或“大”的情況,則可以認為模型的精度較“低”。
下面先觀察模型一在不同情況下的精度,并以它為基礎和其他模型作比較,以確定在不同場合下使用哪一個模型更合適。
在分區(qū)模型生命表中,死亡類型分為東方、西方、南方和北方四種類型,為書寫簡單,這里分別用“E”、“W”、“S”、“N”來表示,“W-E”表示關(guān)系模型中一方為西方型,另一方為“東方”型,而“S-N”則表示一方為南方型,另一方為北方型,等等。
(1)在同一死亡類型下根據(jù)間接模型估計不同死亡水平的誤差比較。這里說的同一死亡類型指作為標準的死亡力和估計對象的死亡力為上面所說的同屬某一類型。例如,同屬西方型。
首先,考察固定死亡水平差異情況下,七個模型的估計誤差。具體做法是死亡水平在60—85歲范圍內(nèi),對同一個死亡類型,以上一個死亡水平(以預期壽命來衡量)的死亡力為基準(Ys(x)),利用不同的模型,推算下一個死亡水平(與基準相差2.5歲)的死亡力Y(x)并進行估計,得出各種模型精度如下。
模型一:無論男女,誤差Δy普遍小于5,誤差Δq普遍小于1。說明當死亡水平相差不大的情況下,對同一類型,模型的精度是高的。
模型二至模型七:Δy一般都較模型一小,其中模型四、模型六、模型七的Δq小于模型一。
固定死亡水平差異情況下,七個模型的估計精度都是比較高的。
我們進一步對模型在不同死亡水平差異下估計出來的Y(x)的精度進行比較。這里固定一個死亡水平(這里為65歲)作基準,分別用七個模型對其他死亡水平(即不同的期望壽命)的死亡數(shù)據(jù)進行估計并比較估計精度隨死亡水平差異增加的變動特點。比較結(jié)果總結(jié)如下。
模型一:隨著估計死亡水平與基準死亡水平差異加大,模型估計誤差Δy也迅速加大,出現(xiàn)從“小”升至“較小”到“較大”,甚至“大”的情況。其中以西方類型的男性數(shù)據(jù)為基礎的模型估計誤差增加得最快。當基準死亡水平與估計的死亡水平相差10歲及以上時,Δy達到100以上。其他死亡水平差異下,模型估計誤差Δy處于“較大”程度。估計誤差Δq的變化與Δy的情況有所不同,雖然誤差也會略有加大,但始終保持在“小”和“較小”的狀態(tài)。且誤差并不是隨兩者的死亡水平加大而加大,而是在死亡水平相差10歲左右會最大,過了10歲以后,誤差Δq會保持在一個“小”的水平。
模型二至模型七:與模型一相比,估計誤差Δy變小。但模型二和模型三的誤差變化并不顯著,模型四至模型七的改變明顯,沒有再出現(xiàn)誤差“大”的情況,模型六和模型七的Δy大多處于“較小”和“小”的狀態(tài)。對于誤差Δq,各個模型的誤差都處于在“小”和“較小”的狀態(tài)。其中,模型二至模型五與模型一相比,Δq互有高低;而模型六和模型七則明顯有所降低。
(2)不同死亡類型下各種模型的誤差比較。這里說的不同死亡類型指作為標準的死亡力和估計對象的死亡力分屬不同類型。例如,以西方型的數(shù)據(jù)為標準來估計東方型數(shù)據(jù),簡寫為“W-E”。
模型一在相同的死亡水平,即關(guān)系模型雙方有相同的預期壽命的情況下,模型一的Δy值都比較大,除了“W-E”關(guān)系外,其他關(guān)系的Δy值都大于100,即屬于誤差“大”的情況。男性“W-E”預期壽命在70歲以上,Δy<10,誤差屬于“小”的一類,在70歲以下,屬于“較小”類;女性的各種類型,模型的估計誤差Δy值基本屬于“較小”。死亡概率Δq的誤差,以“W-E”的男性為最小,大多屬于“小”類,而女性的Δq,大多屬于“較小”類,“W-N”和“E-N”的Δq值,也大多屬于“較小”類,若一方為南方(S)類,如“W-S”、“E-S”、“N-S”類,誤差都比較大,基本上都可歸入“大”類。
模型二至模型七,在各種模型下的模型估計誤差Δy值幾乎都小于模型一,但以模型六的Δy的減幅最為明顯。在不同類型和不同水平下,模型六的估計誤差都可歸入“小”和“較小”范圍。死亡概率的誤差Δq,模型二至模型五與模型一相比,情況互有高低,而模型六和模型七的的估計誤差Δq則普遍減小。其中,模型六的模型估計誤差Δq大都屬于“小”和“較小”范圍,僅在“S-N”女性且期望壽命在70歲時模型誤差屬“較大”范圍。
與相同死亡水平相比,不同死亡水平下,在同一的相互關(guān)系中,模型一的Δy和Δq會加大,并且相互關(guān)系的雙方死亡水平相差越大,Δy和Δq一般也越大。但“W-N”關(guān)系中女性是例外,Δy處于“小”和“較小”的范圍,Δq處于“小”的范圍。死亡概率的誤差,男性在“W-S”、“E-S”的關(guān)系時,女性在“W-S”、“S-N”時,數(shù)值在“較大”和“大”的范圍,在其他情況下,在“小”和“較小”的范圍。模型二至模型七與模型一相比,Δy的值一般都減小,但Δq值在模型二至模型五中不一定減小,只有在模型六和模型七中,Δq值都能減小,且大部分能在“小”和“較小”范圍。
通過上面的比較可以得到如下的結(jié)論:在間接模型中,當作為基準的死亡力和被估計的死亡力屬于相同的死亡類型時,且兩者的死亡水平相差不大時(一般在5歲以內(nèi)),模型一的精度是較高的,而在其他情況下,模型一的精度就不能保證。模型二至模型五雖然能減小死亡力估計的誤差,但不能保證減小死亡概率的估計誤差,但模型六和模型七,不論在何種情況下,一般都能有較高的模型精度。這一分析結(jié)論對于間接模型在數(shù)據(jù)修正時的應用有一定的指導意義。
根據(jù)前面的研究,可以得出如下的結(jié)論:其一,當兩個死亡力函數(shù)所反映的死亡類型和死亡水平有較大差別時,若使用類似logit體系模型或者說用線性模型表示死亡力函數(shù)關(guān)系,則模型的誤差往往是大的;其二,判斷間接模型是否準確,不僅要用模型函數(shù)Y的誤差來檢驗,還需結(jié)合其他有關(guān)死亡風險指標進一步檢驗。如上面所述,用Y檢驗時,模型二至模型五的Δy普遍小于模型一,但Δq卻時大時小,說明在提高模型精度上,這些模型的效果不能確定。
間接模型的一大用途是修正死亡率數(shù)據(jù)。由于死亡風險中“干擾”因素的存在,增加了構(gòu)建模型的復雜和難度。以下是本文提出應用間接模型修正數(shù)據(jù)的方案(設數(shù)據(jù)修正的對象的死亡力函數(shù)為Y(x))。
首先,作為標準的YS(x)的數(shù)據(jù)質(zhì)量一定要高。
其次,選擇和Y(x)有接近的死亡類型和比較接近的死亡水平和作為標準的YS(x)。
再次,觀察Y(x)和YS(x)是否存在相近的“干擾”,Y(x)和YS(x)的導數(shù)圖形中波動函數(shù)是否類似?觀察死亡力是否存在“干擾”。可以通過求Y(x)和YS(x)的導函數(shù)并觀察導函數(shù)的圖形,或者觀察兩者的死亡率或死亡概率的圖形,觀察它們在“青壯年”期是否有“高低起伏”的圖形?如果Y(x)和YS(x)基本接近,在使用模型時,我們就可以不加考慮,直接通過間接模型對Y(x)的數(shù)據(jù)作修正。
最后,若兩者的“波動”有明顯不同,則需要作數(shù)據(jù)處理。比較穩(wěn)妥的方法是先把標準函數(shù)YS(x)的波動部分除去,留下YS(x)的基本部分。用上面已經(jīng)討論的模型來估計目標函數(shù)的基本部分,然后再加上目標函數(shù)的“波動”。令YS(x)和Y(x)的基本部分為YS0(x)和YS(x)。
作為例子,以下我們來修正2010年新疆男性的死亡數(shù)據(jù)。按照2010年人口普查的數(shù)據(jù)計算,2010年,新疆男性人口的平均預期壽命為74.03歲。選擇區(qū)域模型生命表中死亡水平等于74歲,死亡類型為南方型的死亡力函數(shù)作為標準函數(shù),以直接模型中得到的波動函數(shù)c(x)作初值,按照上面所述的(1)—(5)的步驟,得到的死亡概率Q(x)的修正值,各年齡Q(x)的觀測值和修正值見圖6。
本文的基本思路是從人口死亡風險隨年齡變動的規(guī)律入手分析死亡風險的內(nèi)在構(gòu)造。借助于構(gòu)建死亡風險和累積風險隨年齡變化的數(shù)理模型將人口死亡隨年齡的變動拆分為相對穩(wěn)定的基本部分和特定年齡的波動部分。我們以此為基礎對人口死亡的間接模型進行了理論上的探討和改進。提出兩參數(shù)模型一個、三參數(shù)和四參數(shù)模型各三個(共計七個間接模型)。以寇爾-德曼尼區(qū)域模型生命表的數(shù)據(jù)對間接模型進行了檢驗并對不同情況下模型的精度進行了討論和分析,就分析結(jié)果提出間接模型在數(shù)據(jù)修正時的原則。作為案例本文以六普新疆死亡數(shù)據(jù)為例,利用上述原則對數(shù)據(jù)進行了修正。
通過本文的研究可以看到作為對死亡規(guī)律的刻畫,直接模型(數(shù)理模型)和間接模型之間存在著密切的內(nèi)在聯(lián)系。深入探討其內(nèi)在聯(lián)系不僅具有理論研究價值而且在實際的數(shù)據(jù)修正中也有重要的指導意義。