蔡吉花,唐光平,姚 君
( 1.黑龍江科技大學理學院,哈爾濱150022; 2.湖南大學信息科學與工程學院,長沙410082)
馬爾可夫鏈的離散人口預測模型及其應用
蔡吉花1,唐光平2,姚 君1
( 1.黑龍江科技大學理學院,哈爾濱150022; 2.湖南大學信息科學與工程學院,長沙410082)
為準確預測我國未來人口發(fā)展趨勢,以我國近10年來人口數(shù)據(jù)為依據(jù),對中國人口老齡化進程加快的問題進行統(tǒng)計分析。利用絕對分布的馬爾可夫鏈人口預測模型,預測了未來中國人口結(jié)構(gòu),建立了基于模糊權(quán)馬爾可夫鏈人口預測模型,對人口出生率和死亡率以及人口總數(shù)進行了預測,同時檢驗了這些預測模型的可靠性。最后討論了基于平穩(wěn)分布的人口結(jié)構(gòu)控制問題。
人口結(jié)構(gòu);馬爾可夫鏈;模糊權(quán);人口預測
收稿日期: 2013-12-18
基金項目:黑龍江省教育廳科學技術(shù)研究項目( 12521479)
第一作者簡介:蔡吉花( 1963-),女,黑龍江省尚志人,教授,碩士,研究方向:微分方程與隨機過程,E-mail: caijh2003@163.com。
馬爾可夫鏈模型是一種隨機預測模型,與其他統(tǒng)計方法不同,它不需要從復雜的預測因子中尋求各因素之間的相互規(guī)律,只需考慮事件本身歷史狀況的演變特點,通過計算狀態(tài)轉(zhuǎn)移概率預測未來狀態(tài)的變化趨勢[1]。國內(nèi)學者運用馬爾可夫鏈模型對我國各地區(qū)的人均GDP的變化趨勢及房價指數(shù)、人均旅游消費進行了預測分析。2011年,郭嗣琮等進一步對模糊馬爾可夫鏈預測模型作了探討。通過分析人口數(shù)據(jù)及歷史狀況的演變特點,馬爾可夫鏈模型可以應用于建立離散人口預測模型。筆者利用我國近10年來人口數(shù)據(jù),通過選取適當?shù)臓顟B(tài)變量,建立相應的離散人口模型,并用Matlab軟件計算分析,修正模型,較準確預測了我國未來人口問題的發(fā)展趨勢,分析了人口老齡化發(fā)展進程及控制問題。
1. 1絕對分布馬爾科夫鏈預測模型
定義1[1]設(shè){ X}是隨機序列,狀態(tài)空間E =
n{ 1,2,…,N},若P{ Xm + k=j Xm= i} = P(ijk)與m無關(guān),稱{ Xn}為時齊的Markov鏈。其中p(ijk)叫由狀態(tài)i出發(fā)經(jīng)k步到達狀態(tài)j的轉(zhuǎn)移概率。P( k)= ( p(ijk))N×N叫k步轉(zhuǎn)移概率矩陣;當k =1時,P( 1)簡記為P,P為一步轉(zhuǎn)移概率pij所組成的矩陣,稱為一步轉(zhuǎn)移概率矩陣。k步轉(zhuǎn)移概率矩陣由一步轉(zhuǎn)移概率矩陣得到,即P( k)= Pk。
定義2 Markov鏈{ Xn}初始時刻各狀態(tài)的概率P{ X0= i} = pi( i∈E),稱為初始分布;在時刻n ( n≥0)取各狀態(tài)的概率P{ Xn= i} = p(in)( i∈E),稱為絕對分布,且
稱π= (π1,π2,…,πN)為平穩(wěn)分布,式( 2)也可寫成矩陣形式:π=πP。
定理1對狀態(tài)有限的馬爾可夫鏈,如果存在k>0,使pij( k)>0,i,j =1,2,…,N,則此馬爾可夫鏈是遍歷性的[2]。
通過構(gòu)造馬爾可夫鏈的轉(zhuǎn)移概率矩陣及初值分布,計算絕對分布及平穩(wěn)分布,對未來各狀態(tài)的結(jié)構(gòu)進行預測的模型稱為絕對分布馬爾科夫鏈預測模型。
1. 2 人口生滅模型
定義4設(shè)齊次馬爾可夫過程{ X( t),t≥0}的狀態(tài)空間為E = { 0,1,2,…},轉(zhuǎn)移概率為pij( t),如果則稱{ X( t),t≥0}為生滅過程,λi為出生率,μi為死亡率。
運用生滅過程建立的人口生滅模型可以簡單地描述:
設(shè)λi為第i年的人口出生率,μi為第i年的人口死亡率,Si為第i年的人口數(shù),S^i為第i年的預測人口數(shù),用生滅鏈推導的人口數(shù),有如下關(guān)系成立:
其中,λi和μi都不為0,式( 3)可用于中國人口總量的中長期預測。
1. 3模糊權(quán)馬爾可夫鏈預測模型
模糊權(quán)馬爾可夫鏈是改進的馬爾可夫鏈模型,其基本求解步驟:
( 1)馬爾可夫鏈的權(quán)重
首先計算指標樣本序列的各階自相關(guān)系數(shù)
再將自相關(guān)系數(shù)規(guī)范化
并將其作為各階馬爾可夫鏈的權(quán)重( m為需要計算的時滯數(shù))。
( 2)狀態(tài)的劃分
分五個步驟進行:
①選擇統(tǒng)計指標和標定方法
設(shè)U = { u1,u2,…,un}為待分類的全體,ui表示第i個指標,用rij表示指標ui和uj的相似系數(shù),0≤rij≤1 ( i,j =1,2,…,n)。rij計算常用絕對值減數(shù)法:
其中c適當選取,使rij在[0,1]中且盡量分散,記模糊矩陣R = ( rij)。
②模糊聚類
對模糊矩陣R,用逐次平方法求出其傳遞閉包珚R為模糊等價矩陣,再選擇閥值λ,對U進行分類[3]。在選擇一個閥值λ后,對傳遞閉包做如下處理:
③狀態(tài)劃分
U的分類數(shù)就是馬氏鏈的狀態(tài)數(shù),同時還得到各指標所對應的狀態(tài)及具體劃分范圍。
④計算轉(zhuǎn)移概率矩陣
根據(jù)各指標所對應狀態(tài)進行統(tǒng)計,計算出一步以及多步轉(zhuǎn)移概率矩陣。
⑤預測和檢驗
利用馬爾可夫鏈權(quán)重ωk,結(jié)合k轉(zhuǎn)移概率矩陣,預測某年處于狀態(tài)i的概率值pi,
取max{ pi}的狀態(tài)i作為某年預測狀態(tài)[4]。通過對已知樣本進行預測,檢驗預測的效果。
將馬爾可夫鏈的預測模型應用于中國人口指標的預測,包括人口結(jié)構(gòu)、死亡率與出生率、人口總數(shù)預測及人口的控制。文中數(shù)據(jù)均來源于中國統(tǒng)計年鑒人口各項指標數(shù)據(jù)[5]。
2. 1絕對分布馬氏鏈的人口結(jié)構(gòu)預測
將人口按照0~14、15~34、35~49、50~64、65歲以上(對應于1~5狀態(tài))來劃分,由2004~2009年各年齡段人口數(shù)據(jù)計算出各年齡段的人口所占比例,如表1所示。65歲及以上人口比例走勢圖如圖1所示。
表1中國2004~2009年人口年齡結(jié)構(gòu)數(shù)據(jù)Table 1 2004~2009 data of Chinese population age structure
圖1 各年份65歲及以上人口所占比例Fig.1 Each year proportion of population for 65 years old and above 65
2.1.1轉(zhuǎn)移概率矩陣
每相鄰兩年為一步,狀態(tài)轉(zhuǎn)移概率的計算方法如下[6]:
( 1)一步狀態(tài)轉(zhuǎn)移只會發(fā)生于其本身和相鄰狀態(tài)之間,且是狀態(tài)i向狀態(tài)j( j≥i)轉(zhuǎn)移;
( 2)在相同狀態(tài)i下,若n + 1年比n年的數(shù)據(jù)比例升高了,則記為pii= 1,而pij= 0,j = 1,2,…,5 ( j≠i) ;
( 3)在相同狀態(tài)i下,若n + 1年比n年的數(shù)據(jù)比例下降了,則pii應該為n + 1年的比例與n年的比例的商值,而pi,i +1的值恰等于1-pii,pij= 0,j = 1,2,…,5( j≠i,i +1) ;
( 4)在n年到n +1年的過程中,若有狀態(tài)i-1轉(zhuǎn)移到狀態(tài)i的數(shù)據(jù)發(fā)生,則計算狀態(tài)i的轉(zhuǎn)移概率時,應考慮加進狀態(tài)i-1轉(zhuǎn)移到狀態(tài)i的數(shù)據(jù)部分,并加到計算比值的分母部分;
( 5)若狀態(tài)5轉(zhuǎn)移的部分不是全發(fā)生在本狀態(tài),且同年狀態(tài)1的比例比前一年增加了,則記狀態(tài)1增加的比例為狀態(tài)5轉(zhuǎn)移出的數(shù)據(jù)部分,依此類推。
按此轉(zhuǎn)移概率計算方法,則2004~2005年的狀態(tài)轉(zhuǎn)移概率矩陣為
同樣,計算2005~2006、2006~2007、2007~2008、2008~2009年的狀態(tài)轉(zhuǎn)移概率矩陣分別記為P2、P3、P4、P5。為了消除樣本隨機性影響,更好地描述狀態(tài)規(guī)律,在此取P1、P2、P3、P4、P5的平均值作為狀態(tài)轉(zhuǎn)移概率矩陣P:
2.1.2遍歷性與平穩(wěn)分布
利用Matlab軟件計算P14,其所有元素p(ij1
4)都大于0,該過程具有遍歷性。
設(shè){πj,j∈I}是該馬爾可夫鏈的平穩(wěn)分布,則由一步轉(zhuǎn)移概率矩陣式( 8),可建立如下方程組,
解上述方程組,得平穩(wěn)分布:
π1=0. 102 8,π2=0.070 8,π3=0.086 0,π4=0.192 2,π5=0.548 2。
說明按照現(xiàn)行人口政策長此以往,中國人口的年齡結(jié)構(gòu)比例中老年人口將達到54. 82%。
2.1.3人口年齡結(jié)構(gòu)預測
采用2007~2009年這三年各年齡段所占比例的均值作為初始概率分布:
P( 0) = ( 17. 356 7 28. 263 3 26. 213 3 18. 630 0 9. 536 7)λ0。
利用式( 1)求絕對分布律,即把2009年作為初始年份,經(jīng)過n年的人口結(jié)構(gòu)分布記為
λn=λ0Pn。
2010~2012年的人口年齡構(gòu)成進行預測:
λ2010=λ0P( 16. 908 3 27. 581 8 26. 493 0 19. 244 8 9. 772 1),
λ2011=λ0P2= ( 16. 474 1 26. 915 8 26. 734 5 19. 859 8 10. 015 7),
λ2012=λ0P3= ( 16.053 8 26.265 2 26.939 9 20.473 6 10.267 5)。
這個計算結(jié)果與2010、2011、2012年人口年齡構(gòu)成實際值基本吻合。
同理,經(jīng)過20年、30年、50年、100年的人口年齡構(gòu)成如下:
λ20=λ0P20= ( 10.713 2 17.317 7 26.464 8 29.826 7 15.677 7),
λ30=λ0P30= ( 8.830 5 13.630 5 24.199 6 33.721 6 19.617 9),
λ50=λ0P50= ( 6.918 2 8.817 1 18.635 3 37.496 8 28.132 6)。
圖2 可以直觀地看出各年齡段人口比例變化趨勢。從預測值分析得到,按照現(xiàn)行的人口政策,20、30年后,我國老年人口比例分別接近15%、20%; 50年后,老年人口比例占到近30%。我國人口老齡化進程在不斷加快,這樣必然造成社會撫養(yǎng)系數(shù)過大,不利于社會經(jīng)濟的持續(xù)發(fā)展。政府應適當調(diào)整人口政策,使人口結(jié)構(gòu)趨向合理。
圖2 2012~2112年各年齡段人口比例預測情況Fig.2 2012~2112 proportion of population forecast for all ages
2. 2模糊權(quán)馬爾可夫鏈的人口死亡率與出生率預測
利用表2數(shù)據(jù)對人口死亡率作模糊權(quán)馬爾可夫鏈的相關(guān)分析[7]。出生率預測方法類似得到。
表2 1981~2010年人口出生率和死亡率Table 2 1981~2010 birth rate and mortality rate %
2.2.1人口死亡率預測
人口死亡率的基本求解步驟為:
( 1)馬爾可夫鏈的權(quán)重
由表2和式( 4)求得人口死亡率序列的1~4階自相關(guān)系數(shù):
γ1=0.883 4,γ2=0.655 8,γ3=0.404 0,γ4=0.028 9。再由規(guī)范化式( 5)得到各階馬爾可夫鏈權(quán)重:
ω1=0.447 9,ω2=0.332 5,ω3=0.204 9,ω4=0.014 7。
( 2)模糊聚類
設(shè)U = { u1,u2,u3,…,u28,u29,u30}表示1981~2010年死亡率。由絕對值減數(shù)法( 6),取l = 1,c = 1.3,有rij=1-1.3× xi-xj,得到30階模糊相似矩陣R = ( rij)30×30,再計算R的傳遞閉包珚R,得
選擇閥值λ,求矩陣Rλ,并按Rλ將U分成若干個等價類。當λ= 0.80,將U分為一類;當λ= 0.92,將U分為兩類,即{ u1,u2,u3,…,u25,u26,u27} 和{ u28,u29,u30} ;當λ= 0.94,U分為三類,即{ u1,u2,u7,u8,u9,u10,u11,u12,u13,u14,u15,u16,u17,u18,u19,u20,u21,u22,u23,u24,u25}、{ u3,u4,u5,u6,u26, u27}、{ u28,u29,u30} ;當λ= 0.96時,可將U分為七類。經(jīng)計算分析后可以得到,當λ=0.94,將U分為三類時比較合理。
( 3)狀態(tài)劃分
U分為三類時對應的馬爾可夫鏈取1、2、3三個狀態(tài),由表2的數(shù)據(jù),可以劃分各狀態(tài)對應的死亡率區(qū)間分別為ui<0.675%、0.675%≤ui≤0.700%和ui>0.700%。
( 4)計算轉(zhuǎn)移概率矩陣
根據(jù)各年份對應狀態(tài),求得死亡率的1步到4步轉(zhuǎn)移概率矩陣
( 5)預測和檢驗
首先預測2011年的人口死亡率。由以上各步轉(zhuǎn)移概率及式( 7),預測情況如表3。
表3 2011年死亡率的加權(quán)預測值Table 3 2011 weighted prediction of mortality rate
表3的最后一行是加權(quán)求和的結(jié)果,其中狀態(tài)3的概率最大為0. 991 3,說明2011年人口死亡率狀態(tài)等級為3,死亡率≥0.700%與2011年實際人口死亡率0.714%相符合。由這個預測值進一步預測2011年之后的死亡率情況表4,可以得到未來三年死亡率都在0.700%以上。
表4 2011年之后三年內(nèi)死亡率預測值Table 4 Predictive value of mortality rate within three years after 2011
2.2.2人口出生率預測
類似死亡率預測方法,計算得到: ( 1)出生率的各階馬爾可夫鏈權(quán)重
ω1=0.266 7,ω2=0.254 6,ω3=0.245 1,ω4=0.233 6。
( 2)模糊聚類
記V = { v1,v2,v3,…,v28,v29,v30}表示1981~2010年人口出生率。利用rij= 1-0. 08× xixj,求得珚R = R16。經(jīng)計算,當λ= 0. 94時,V分為五類,即{ v7}、{ v1,v2,v3,v4,v5,v6,v8,v9,v10,v11}、{ v12,v13,v14,v15,v16,v17}、{ v18}和{ v19,v20,…,v29,v30}。
( 3)狀態(tài)的分類及轉(zhuǎn)移概率矩陣
對應的馬爾可夫鏈的五個狀態(tài)記為1、2、3、4、5,根據(jù)表2得到各狀態(tài)出生率對應區(qū)間分別為vi>2.250%、1.950% ( 4)預測和檢驗 利用出生率的各步狀態(tài)轉(zhuǎn)移概率矩陣及式( 7),預測2011、2012、2013、2014年的人口出生率均為≤1.500%,處于狀態(tài)5,與2011、2012年人口出生率實際值相符。 2. 3生滅鏈的人口總數(shù)預測 運用人口生滅模型( 3) : S^i +1= Si( 1 +λi +1-μi +1),預測2010年和2011年人口總數(shù)為: S^ 2010=134 090萬人,S^2011=134 730萬人。而人口調(diào)查實際值為S2010= 134 091萬人,S2011= 134 735萬人,誤差率分別為1. 323×10-5( 2010 年),1. 265×10-5( 2011年),預測效果較好。根據(jù)前面預測的2012、2013年死亡率μi≥0.700%,出生率λi≤1.500%相關(guān)數(shù)據(jù)[8],預測2012年、2013年人口總數(shù)值為: S^ 2012≤135 810萬人,S^2013≤135 816萬人。 按照此方法,可以繼續(xù)預測2014年之后的人口數(shù)范圍。利用預測的人口總數(shù)及結(jié)合2. 1中預測的人口結(jié)構(gòu)比例,可得到相應各年齡段的人口數(shù)。 人口結(jié)構(gòu)的自我控制是指既要抑制人口增長過快的趨勢,又要使人口的年齡結(jié)構(gòu)有一個合理的分布,使未來人口年齡結(jié)構(gòu)珔a*更合理且穩(wěn)定的增長趨勢。從現(xiàn)在的人口結(jié)構(gòu)出發(fā)[9],讓各狀態(tài)每年進入下一狀態(tài)的人數(shù)在總進入人數(shù)中的比例珋r依賴于時間t年,希望從現(xiàn)在的人口結(jié)構(gòu)出發(fā),逐步調(diào)控珋r( t)盡快達到合理的人口結(jié)構(gòu)珔a*。人口年齡結(jié)構(gòu)的合理控制分析(不妨設(shè)人口狀態(tài)為五個),得到控制方程 其中r珋 = ( r1,r2,…,r5),ri( i = 1,2,…,5)為每年進入第i狀態(tài)的人數(shù)在總進入人數(shù)中的比例,ri≥0且為合理的年齡結(jié)構(gòu); E為單位矩陣; Q = ( qij)為準轉(zhuǎn)移陣( qij表示每年從i級轉(zhuǎn)到j(luò)級人數(shù)在i級總?cè)藬?shù)中的百分比) ; w珔 = ( w1,w2,…,w5),wi為每年從第i級退出的比例,于是 。由于要求ri≥0,所以a珔( EQ)中的每一項即,因此對于珔a∈,j∈I},由式( 9)找到r珋,可見合理的穩(wěn)定分布必須在集合A中。 取理想的人口結(jié)構(gòu)珔a = ( 0. 18,0. 24,0. 26,0. 24,0. 08),由表1和表2數(shù)據(jù)及式( 9)計算得到: 珋r = ( 0. 236 8,0. 236 3,0. 228 2,0. 196 8,0. 083 3)。這表明目前我國應適當加大生育比例,使0~14歲的人口比例要逐步增加到23. 6%。為使人口結(jié)構(gòu)能夠維持一個合理的穩(wěn)定水平,先從控制珋r = ( r1,r2,…,r5)開始。2013年國家出臺生育二胎的政策會使未來中國人口結(jié)構(gòu)更趨于合理。 [1]孫榮恒.隨機過程及其應用[M].北京:清華大學出版社,2004: 74-76. [2]劉次華.隨機過程[M].4版.武漢:華中科技大學出版社,2008: 89-92. [3]高新波.模糊聚類分析及其應用[M].西安:西安電子科技大學出版社,2004: 68-73. [4] 徐 娟,康 寧,張希娜.權(quán)馬爾可夫鏈在人口死亡率時序誤差預測中的應用[J].數(shù)學理論與應用,2008,28 ( 1) : 121-125. [5]中華人民共和國國家統(tǒng)計局.中國統(tǒng)計年鑒[M].北京:中國統(tǒng)計出版社,2004~2011. [6] 張 雯,靳軍會,翟 彬.Markov鏈在中國人口年齡結(jié)構(gòu)預測中的應用[J].河南商業(yè)高等??茖W校學報,2008,21( 4) : 45-48. [7] 張 宸,林啟太.模糊馬爾可夫鏈狀模型及其工程應用[J].武漢理工大學學報,2004,26( 11) : 63-66. [8] 卞煥清,夏樂天.基于灰色馬爾可夫鏈模型的人口預測[J].數(shù)學的實踐與認識,2012,42( 7) : 89-94. [9] 蔣遠營,王 想.人口發(fā)展方程模型在我國人口預測中的應用[J].統(tǒng)計與決策,2011,15( 339) : 52-56. [10]彭志捌.AR( p)模型在中國總?cè)丝陬A測中的應用[J].河北工程大學學報:自然科學版,2007,24( 4) : 109-112. (編輯 晁曉筠) Markov chain-based discrete population prediction model and its application CAI Jihua1,TANG Guangping2,YAO Jun1 ( 1.School of Sciences,Heilongjiang University of Science&Technology,Harbin 150022,China; 2.School of Information Science&Engineering,Hunan University,Changsha 410082,China) Aimed at accurately predicting future demographic trends in China,this paper draws on population data in recent 10 years in our country and presents a statistical analysis of the accelerating process of China’s aging population,and a prediction of the future structure of China’s population using the population prediction model based on the absolute distribution Markov chain.And coupled with these is the development of a population projection model based on Fuzzy weighted Markov chain,the birth and death rates,on which to predict the total population and test the reliability of these prediction models.The paper ends with the discussion of the demographic control problem based on stationary distribution. population structure; Markov chain; Fuzzy weights;population forecast 10. 3969/j.issn.2095-7262. 2014. 01. 024 O211. 6 2095-7262( 2014) 01-0108-07 A3基于理想人口結(jié)構(gòu)的人口控制