王振杰,鄭翩翩,孫陳希
1北京大學(xué)人口研究所,北京,100871;2北京大學(xué)信息科學(xué)技術(shù)學(xué)院機(jī)器感知與智能教育部重點(diǎn)實(shí)驗(yàn)室,北京,100871
人口問題是我國社會(huì)經(jīng)濟(jì)可持續(xù)發(fā)展面臨的一項(xiàng)重大問題。我國的人口結(jié)構(gòu)正伴隨著社會(huì)經(jīng)濟(jì)發(fā)展、生育政策的調(diào)整經(jīng)歷著深刻的變化。出生人口規(guī)模和總體生育水平下降是一大顯著趨勢。我國總和生育率從20世紀(jì)80年代平均在2.6左右,下降到20世紀(jì)90年代的更替水平(2.1)以下[1]。2020年第七次全國人口普查數(shù)據(jù)匯總得出我國總和生育率僅為1.3[2]。黨的十九大報(bào)告指出,促進(jìn)生育政策和相關(guān)社會(huì)經(jīng)濟(jì)政策配套銜接,加強(qiáng)人口發(fā)展戰(zhàn)略研究。我國正在面對人口結(jié)構(gòu)呈現(xiàn)出的新變化趨勢,人口發(fā)展戰(zhàn)略調(diào)整以及相關(guān)政策體系也積極進(jìn)行調(diào)整。2013年11月,中國共產(chǎn)黨第十八屆三中全會(huì)頒布實(shí)施“單獨(dú)兩孩”政策,“單獨(dú)兩孩”政策一定程度上遇冷,并沒有達(dá)到預(yù)期的效果。2015年10月29日,中共十八屆五中全會(huì)決定進(jìn)一步實(shí)施“全面兩孩”政策。在實(shí)施生育政策調(diào)整后,出生率在短時(shí)間內(nèi)恢復(fù),之后逐漸下降,并在低水平上徘徊。根據(jù)第七次人口普查,2020年的總?cè)丝跒?4億1千萬人,與2010年的“第六次人口普查”相比,總?cè)丝诘钠骄暝鲩L率僅為0.53%,將在2025-2030年間達(dá)到頂峰[3]。這表明中國高速或超高速人口增長的時(shí)代正在逐漸過去,人口慣性增長階段接近尾聲,零增長或負(fù)人口增長的時(shí)代正在越來越近。
在此基礎(chǔ)上,探究我國在婚育齡婦女生育二孩問題尤為重要?,F(xiàn)有研究指出,年齡、戶口、民族等個(gè)體基本特征,疾病、身體機(jī)能、生殖能力等健康因素,收入水平、住房條件和職業(yè)類型等經(jīng)濟(jì)條件,婚姻狀況、兄弟姐妹數(shù)和已育孩子的性別、年齡等家庭情況都與育齡人口二胎生育存在顯著關(guān)系[4-5]。但是,因素之間的復(fù)雜關(guān)系可能使其在不同的人群中呈現(xiàn)相異的影響程度、影響方向。因而生育問題的相關(guān)研究通常選擇某類典型群體開展具體剖析,如流動(dòng)人口、農(nóng)村居民、獨(dú)生子女、城市青年夫婦等[6-7]。出于對健康、照料、就業(yè)等個(gè)體生育成本的考慮,在婚育齡婦女的再生育選擇往往比男性更加謹(jǐn)慎。目前,聚焦在在婚育齡婦女群體的生育研究仍需進(jìn)一步豐富。本文欲通過隨機(jī)森林算法與logistic回歸模型相結(jié)合方式,分析我國在婚育齡婦女生育二孩影響因素,依據(jù)研究結(jié)果提出相關(guān)政策建議。
本研究使用的數(shù)據(jù)來源于原國家衛(wèi)生計(jì)生委組織實(shí)施的“2017年全國生育狀況抽樣調(diào)查”,調(diào)查對象為截至2017年7月1日零時(shí)中國大陸15-60歲的中國籍女性,該調(diào)查覆蓋全國31個(gè)省(區(qū)、市)和新疆生產(chǎn)建設(shè)兵團(tuán),涉及2737個(gè)縣(市、區(qū))的6078個(gè)鄉(xiāng)(鎮(zhèn)、街道),共12500個(gè)村(居)級(jí)樣本點(diǎn),采用分層三階段與規(guī)模成比例的概率抽樣方法概率抽樣,最終樣本規(guī)模近25萬人。本研究選取的對象為20-49歲在婚的育齡婦女,剔除變量中的缺失值,最終樣本量為123398人。
隨機(jī)森林算法是基于決策樹的集合學(xué)習(xí)算法,預(yù)測精度高,對異常值和噪聲的耐受性高,沒有過度適應(yīng)的傾向。隨機(jī)森林是利用變量(列)和數(shù)據(jù)(行)隨機(jī)生成許多分類樹,并總結(jié)分類樹的結(jié)果[8-9]。在計(jì)算量沒有大幅增加的前提下,隨機(jī)森林可以大幅提高預(yù)測精度。隨機(jī)森林最大可預(yù)測數(shù)千個(gè)說明變量的影響,因此隨機(jī)森林算法被稱為最佳算法之一。隨機(jī)森林還可以為引用值高的從屬變量提供各變量的重要等級(jí)。使用隨機(jī)森林減少數(shù)據(jù)的維度,使用邏輯回歸分析,可以提高測試效率[10-12]。
本研究根據(jù)自變量對因變量的影響重要性排序結(jié)果,進(jìn)行逐步隨機(jī)森林分析,將袋外估算誤差率最小的自變量再納入logistic回歸模型進(jìn)行分析。所有分析在R 3.6.2中進(jìn)行,α=0.05作為檢驗(yàn)水準(zhǔn)。
本次研究納入分析123398人,發(fā)現(xiàn)人口學(xué)特征、經(jīng)濟(jì)狀況、家庭狀況的不同,一孩的性別和年齡的不同,育齡婦女的二孩生育行為均具有差異。分析樣本中,約50%的育齡婦女已經(jīng)生育過二孩。僅有50%的在婚育齡婦女年齡范圍在20-39歲,47%的在婚育齡婦女兄弟姐妹數(shù)量大于等于3個(gè),41%的在婚育齡婦女完成義務(wù)教育、26%的在婚育齡婦女受教育程度為小學(xué)及以下。見表1。
2.2.1 隨機(jī)森林?jǐn)?shù)目選擇。根據(jù)隨機(jī)森林模型誤差率與隨機(jī)森林規(guī)模變化圖進(jìn)行確定,圖1中3條誤差曲線分別代表生育二孩(賦值為“是”)、生育二孩(賦值為“否”)及生育二孩(賦值為“是”和“否”)。本研究隨機(jī)森林模型隨機(jī)種子數(shù)設(shè)為222,分析結(jié)果顯示,當(dāng)樹的數(shù)量大于400棵樹以后,我國在婚育齡婦女生育二孩隨機(jī)森林模型誤差率平穩(wěn)。因此,我國在婚育齡婦女生育二孩隨機(jī)森林模型樹的數(shù)量近似選擇整數(shù)400。
表1 我國在婚育齡婦女變量描述 n(%)
表1(續(xù))
圖1 我國在婚育齡婦女生育二孩隨機(jī)森林模型
2.2.2 變量重要性排序。隨機(jī)森林模型隨機(jī)種子數(shù)設(shè)為222,分析結(jié)果顯示,我國在婚育齡婦女生育二孩隨機(jī)森林模型各變量重要性由高到低依次為(圖2):第一個(gè)孩子性別、受教育程度、居住地、年齡、家庭總收入、住房面積、初婚年齡、就業(yè)狀況、兄弟姐妹數(shù)、民族、健康狀況。由此可見家中第一個(gè)孩子性別對該家庭是否生育二孩最為重要。
圖2 我國在婚育齡婦女生育二孩隨機(jī)森林變量重要性排序
2.2.3 降維。根據(jù)重要性評分排序結(jié)果,從評分最高的變量開始進(jìn)行逐步隨機(jī)森林。我國在婚育齡婦女生育二孩隨機(jī)森林模型分析結(jié)果顯示(圖3),當(dāng)變量數(shù)為10-11時(shí)袋外估算誤差率最低。重要性評分排名前10的變量依次是第一個(gè)孩子性別、受教育程度、居住地、年齡、家庭總收入、住房面積、初婚年齡、就業(yè)狀況、兄弟姐妹數(shù)、民族。
圖3 我國在婚育齡婦女生育二孩逐步隨機(jī)森林分析結(jié)果
2.2.4 多因素logistic回歸分析。在本研究的多因素logistic回歸分析中,所有變量均與我國在婚育齡婦女二孩生育行為存在相關(guān)關(guān)系。見表2。
表2 我國在婚育齡婦女生育二孩logistic回歸分析
從各變量與我國在婚育齡婦女生育二孩的關(guān)系強(qiáng)弱來看,性別、年齡與二孩生育行為存在較強(qiáng)的相關(guān)關(guān)系。相較于第一個(gè)孩子性別為男孩的婦女,一孩為女的在婚育齡婦女生育二孩的概率上升了546%。在婚育齡婦女的年齡與二孩生育行為存在倒“U”型相關(guān),年齡的增加會(huì)使得生育二孩的概率上升,35-39歲升至最高,該年齡階段的在婚育齡婦女二孩生育概率是20-24歲婦女的7.35倍。
此外,在婚育齡婦女受教育程度越高生育二孩的概率越低(P趨勢<0.001)。相較于居住在城市的婦女,農(nóng)村婦女生育二孩的可能性下降42%。家庭收入越高生育二孩的概率越低、住房面積越大生育二孩概率越高、初婚年齡越晚生育二孩概率越低(P趨勢<0.001)。農(nóng)業(yè)就業(yè)的婦女的二孩生育概率是非農(nóng)就業(yè)的1.38倍。兄弟姐妹數(shù)越多越可能生育二孩(P趨勢<0.001)。少數(shù)民族、健康對二孩生育也存在顯著的正向促進(jìn)作用。
本文基于2017年全國生育狀況抽樣調(diào)查數(shù)據(jù),采用隨機(jī)森林算法分析我國在婚育齡婦女生育二孩影響因素,并得出重要性排序:第一個(gè)孩子性別、受教育程度、居住地、年齡、家庭總收入、住房面積、初婚年齡、就業(yè)狀況、兄弟姐妹數(shù)、民族、健康狀況。而從logistic回歸模型的結(jié)果來看,這些因素確實(shí)與婦女的二孩生育行為存在一定的相關(guān)關(guān)系,并且第一個(gè)孩子性別、年齡的作用最強(qiáng)。雖然以往部分研究結(jié)果顯示婦女的經(jīng)濟(jì)狀況是影響婦女二孩生意意愿的核心因素[13],但從現(xiàn)實(shí)的生育行為分析可以發(fā)現(xiàn),第一個(gè)孩子的性別才是目前促使婦女是否生育二孩的最強(qiáng)有力因素,并且體現(xiàn)了男性偏好。這對我國生育政策和生育文化的調(diào)整具有重要的啟示意義。
3.2.1 人口學(xué)因素。從人口學(xué)特征分析,在婚育齡婦女的年齡與二孩生育行為呈現(xiàn)倒“U”型相關(guān),隨著在婚育齡婦女年齡的增加,生育二孩的可能性持續(xù)上升,并在35-39歲升至最高。這可能是因?yàn)橄噍^于35歲以下的年輕婦女,35-39歲的育齡婦女已經(jīng)經(jīng)歷了更長的生育年齡,有更充分的備孕時(shí)間,甚至擁有更優(yōu)、穩(wěn)定的經(jīng)濟(jì)狀況。同時(shí),相較于40歲以上的婦女,她們的健康水平仍保持在較好的水平。因而,從年齡段來看,35-39歲的育齡婦女應(yīng)該成為目前人口生育政策重點(diǎn)關(guān)注的對象。需要注意的是,低年齡段育齡婦女雖生于二孩的概率偏低,但并不代表她們沒有生育二孩意愿,有可能是正在備孕只是目前暫未生育,從而造成低年齡組生育二孩的概率偏低,對結(jié)果造成一定的影響,未來的相關(guān)研究需要考慮這一點(diǎn)。受教育程度越高、初婚年齡越晚的育齡婦女生育孩子的可能性越小,可能是由于初婚年齡較晚、受教育程度較高的育齡婦女往往生育年齡較高或事業(yè)發(fā)展較好,生育的健康成本和機(jī)會(huì)成本隨之增加,從而抑制了其生育行為。受到以往差異化的生育規(guī)定和生育文化影響,少數(shù)民族二孩生育意愿顯著高于漢族群體。
3.2.2 經(jīng)濟(jì)因素。從經(jīng)濟(jì)狀況分析,在婚育齡婦女的就業(yè)狀況對二孩生育行為具有顯著影響,非農(nóng)就業(yè)生育孩子的可能性小于其他就業(yè)形式群體。這也能夠?yàn)槲磥泶龠M(jìn)育齡婦女生育行為帶來有益的政策啟示,如何平衡家庭與工作是后續(xù)值得研究的熱點(diǎn)問題。從個(gè)體來看,收入水平更高的婦女可能有更強(qiáng)的個(gè)人和職業(yè)發(fā)展意愿。從家庭分析,孩子是家庭的耐用消耗品,家庭收入的不斷提高會(huì)使得父母選擇減少生育數(shù)量轉(zhuǎn)而提升生育質(zhì)量。本研究結(jié)果印證此結(jié)果,家庭收入越高生育二孩的概率越低。同時(shí),許多發(fā)達(dá)國家的生育水平更是驗(yàn)證了這一結(jié)論。但是,也有學(xué)者認(rèn)為收入與生育之間并非呈現(xiàn)簡單的線性關(guān)系,而是呈倒U型分布[13]。本研究發(fā)現(xiàn)住房面積越大越能增加生育二孩的可能性,這與其他學(xué)者“較小面積的房屋會(huì)抑制生育欲望和生育數(shù)量”的結(jié)論相互印證[14]。更大面積的住房能夠?yàn)樯^程提供良好的物質(zhì)環(huán)境,并且房價(jià)變動(dòng)帶來的財(cái)富效應(yīng)與抵押效應(yīng)也能促進(jìn)生育選擇。
3.2.3 家庭因素。從家庭狀況分析,育齡婦女現(xiàn)有子女的孩次性別結(jié)構(gòu)是影響女性再生育行為的強(qiáng)有力因素,育齡婦女在第一個(gè)孩子為女孩的情況下生育二孩的可能性更大,這與其他學(xué)者的研究結(jié)論一致[15]。此外,在婚育齡婦女擁有的兄弟姐妹數(shù)量對生育行為具有較為顯著的影響,擁有多個(gè)兄弟姐妹的在婚育齡婦女生育二孩的可能性最大。這反映了育齡婦女的生育價(jià)值取向會(huì)受到原生家庭的影響,兄弟姐妹數(shù)量多的育齡婦女更可能延續(xù)原生家庭的多生育模式。