• 
    

    
    

      99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看 ?

      基于高維變量選擇的中國人口增長影響因素研究

      2023-10-14 09:42:24楊雙雙李興平
      統(tǒng)計理論與實踐 2023年9期
      關(guān)鍵詞:出生率高維人口

      楊雙雙 王 亮 李興平

      (云南師范大學數(shù)學學院,云南 昆明 650500)

      一、引言

      人口問題是國家的全局性、長期性、戰(zhàn)略性問題,關(guān)乎民生大計、發(fā)展大局以及國家和民族前途命運。近年來我國人口出生率持續(xù)下降,人口增長數(shù)量不斷減少,出現(xiàn)人口負增長。國家統(tǒng)計局數(shù)據(jù)顯示,2020 年我國人口出生率為8.52‰,人口自然增長率為1.45‰,人口凈增長204 萬人;2021 年人口出生率下降到7.52‰,人口自然增長率下降到0.34‰,人口凈增長48 萬人,有11 個省(區(qū)、市)的人口出現(xiàn)了負增長;2022 年人口出生率降到6.77‰,人口自然增長率降到-0.60‰,人口凈增長-85 萬人。人口長期負增長會造成內(nèi)需不足、經(jīng)濟增長乏力、社會老齡化等一系列問題,給經(jīng)濟社會發(fā)展帶來很多危害。因此,亟須對引發(fā)人口增長持續(xù)下降的因素進行全面、系統(tǒng)挖掘,在此基礎(chǔ)上對人口增長進行合理規(guī)劃。

      影響人口增長的因素眾多,各因素之間關(guān)系錯綜復雜。隨著信息技術(shù)的快速發(fā)展,數(shù)據(jù)的采集、存儲和處理能力不斷提高,影響人口增長的因素數(shù)據(jù)呈現(xiàn)“高維小樣本”特性。當從高維小樣本變量數(shù)據(jù)中選擇出分辨力較好的變量時,普通變量選擇方法需消耗高昂的時間成本,有時其結(jié)果并不佳,而高維變量選擇方法可以快速從海量數(shù)據(jù)中選擇出分辨力較好的變量。

      現(xiàn)階段采用高維變量選擇挖掘人口增長影響因素的文獻較少,運用相關(guān)性分析、因果檢驗、正則化方法和灰色關(guān)聯(lián)分析方法等對我國人口增長影響因素進行分析的相對較多。沈巍和武鑫(2013)[1]選擇人口、經(jīng)濟、消費、就業(yè)、教育、收入、通信7 類指標共53 個因素,用相關(guān)性檢驗和格蘭杰因果檢驗,挖掘出教育、經(jīng)濟、人口是影響北京市人口增長的主要因素。劉麗萍(2018)[2]選擇經(jīng)濟、人口層面下的7 個變量,用LASSO分析得出GDP、人均薪酬和少兒撫養(yǎng)比與出生率正相關(guān)的結(jié)論。張夏雨(2021)[3]選取經(jīng)濟、社會、人口層面下的16 個變量,用LASSO、MCP、SCAD、自適應LASSO分析,發(fā)現(xiàn)教育、撫養(yǎng)負擔和婚姻對出生率影響較大。李華炯和尹喆軒等(2022)[4]通過灰色關(guān)聯(lián)分析,從86個因素中選出43 個與出生率強相關(guān)的因素,采用回歸分析法,得出養(yǎng)老保險、儲蓄率、性別比等因素對出生率影響較大的結(jié)論。郭良箴(2022)[5]選取經(jīng)濟、社會維度下與出生率相關(guān)的因素,建立線性回歸模型,得出GDP、人均支配收入與湖北省人口出生率正相關(guān)的結(jié)論。

      只采用一種或一個系列的高維變量選擇方法對人口增長的影響因素進行研究,不能合理評估各方法的變量選擇效果。因此,本文首先運用多種高維變量選擇方法對我國人口增長影響因素進行系統(tǒng)、全面挖掘,接著對挖掘出的重要影響因素進行定量分析,得到最終的變量選擇結(jié)果,對改善當前嚴峻的生育形勢具有重要的現(xiàn)實意義,對今后選擇合適的高維變量方案以及解決類似問題,具有借鑒意義。

      二、人口增長影響因素實證分析

      當高維數(shù)據(jù)的自變量相關(guān)性較高時,會導致難以抓住重點、費時費力,還可能造成后續(xù)建模過擬合等問題。因此,對于高維數(shù)據(jù),通常需要對數(shù)據(jù)進行處理,篩選出重要且獨立性好的自變量[6]?;诖耍瑢ξ覈丝谠鲩L具有重要影響的因素,應該是獨立性較好且具有顯著重要性。

      本文變量選擇的主要思路是將高維人口增長影響因素降至低維人口增長影響因素,并使用線性回歸模型定量分析低維人口增長影響因素,得到最終變量選擇結(jié)果。其分析步驟為:首先,運用Pearson 相關(guān)系數(shù)、Spearman 相關(guān)系數(shù)、距離相關(guān)系數(shù)、灰色關(guān)聯(lián)度、最小深度、根節(jié)點的分裂頻次、置換重要性、節(jié)點純度增加的重要性、嶺回歸、LASSO、彈性網(wǎng)絡(luò)回歸、ALASSO、SCAD、MCP 和集成方法對人口增長影響因素進行重要性排序。其次,選取各方法下重要性較大的變量過濾掉冗余變量。再次,將各方法選出的變量輸入主流機器學習模型KNN、RF、SVR 和MLP 中,依據(jù)回歸模型性能指標的平均值,綜合評估各方法的變量選擇效果,形成幾種較優(yōu)的變量選擇方案。最后,用每種變量選擇方案下選出的變量建立多元線性回歸模型,挑選性能較好的模型做預測分析。

      (一)樣本區(qū)間及數(shù)據(jù)說明

      1.樣本區(qū)間

      研究影響我國人口增長的因素時,選取2010—2020 年全國人口的相關(guān)數(shù)據(jù)。數(shù)據(jù)主要來源于2010—2020 年的《中國統(tǒng)計年鑒》,以及2010 年第六次全國人口普查和2020 年第七次全國人口普查。

      2.變量選取

      (1)因變量

      數(shù)據(jù)顯示,2010—2020 年我國人口死亡率在7.04‰ —7.14‰ 之間,保持在相對平穩(wěn)的水平。一個國家或地區(qū)的人口自然增長率等于人口出生率減去人口死亡率。當人口死亡率相對平穩(wěn)時,人口自然增長率和人口出生率的趨勢線非常相似,幾乎平行,因此研究影響我國人口增長的因素時,選用人口出生率和人口自然增長率作為因變量,效果相差不大。鑒于現(xiàn)在“低生育”話題較熱,本文選擇人口出生率(Y)作為因變量,來衡量我國的人口增長和出生情況。

      (2)自變量

      影響我國人口增長的因素錯綜復雜,人口增長與政治、經(jīng)濟、文化、社會、生態(tài)和人口自身等方面息息相關(guān)。通過查閱相關(guān)文獻,參考變量一級、二級、三級指標的歸類,結(jié)合數(shù)據(jù)的可獲取性、代表性和簡潔性等原則,從政治、經(jīng)濟、文化、社會、生態(tài)和人口自身等層面分別展開變量選取,并依次命名為Xi(i=1,2,…,92),具體指標選取見表1。

      (二)變量選擇的實證分析

      1.變量重要性排序

      分別使用Pearson 相關(guān)系數(shù)、Spearman 相關(guān)系數(shù)、距離相關(guān)系數(shù)、灰色關(guān)聯(lián)度、最小深度、根節(jié)點的分裂頻次、置換重要性、節(jié)點純度增加的重要性、嶺回歸、LASSO、彈性網(wǎng)絡(luò)、自適應LASSO、SCAD 和MCP 等方法,對92 個自變量,按與因變量的重要性進行排序,得出各方法排名前20 的變量。

      由于最小深度、根節(jié)點的分裂頻次、LASSO、彈性網(wǎng)絡(luò)、自適應LASSO、SCAD 和MCP 選出的變量有限,因此只用置換重要性、節(jié)點純度增加的重要性、Pearson相關(guān)系數(shù)、Spearman 相關(guān)系數(shù)、距離相關(guān)系數(shù)、灰色關(guān)聯(lián)度、嶺回歸構(gòu)建的集成式變量選擇方法,同樣得到排名前20 的變量。

      2.冗余變量過濾

      對各方法下排名前20 的變量進行冗余變量過濾,各方法剩余的10 個自變量見表2。

      表2 各變量選擇方法選出的10 個變量

      3.變量選擇方法對比

      分別將各方法下選出的10 個自變量與因變量送入機器學習回歸模型KNN、RF、SVR 和MLP 中,根據(jù)4 個回歸模型預測性能指標的平均值綜合評估各方法的變量選擇效果。

      從表3 可以發(fā)現(xiàn),以MAE 指標來說,節(jié)點純度增加的重要性變量選擇效果最好;從MSE、RMSE 和R2指標來說,置換重要性的變量選擇效果較好;從MAPE指標來說,集成方法的變量選擇效果較好;綜合說,置換重要性、節(jié)點純度增加的重要性、集成方法、距離相關(guān)系數(shù)的變量選擇效果較好。

      表3 各方法的變量選擇效果綜合排名

      (三)影響因素的定量分析

      1.幾種較優(yōu)的變量選擇方案

      由上可知置換重要性、節(jié)點純度增加的重要性、距離相關(guān)系數(shù)和集成方法的變量選擇效果較好,用其構(gòu)建出15 種變量選擇方案,具體見表4。

      表4 幾種較優(yōu)變量選擇方案下選出的變量

      表5 最優(yōu)模型結(jié)果

      15 種較優(yōu)的變量選擇方案中有5 種方案選出變量為X90、X46和X33,即結(jié)婚登記數(shù)、就業(yè)人員數(shù),以及甲、乙類法定報告?zhèn)魅静∷劳雎蕦ξ覈丝谠鲩L影響較大;從其所屬的二級指標看,婚姻情況、就業(yè)水平和醫(yī)療水平對我國人口增長影響較大;從其所屬的一級指標看,人口因素、社會因素(頻數(shù)為2)對我國人口增長影響較大,其中社會因素對我國人口增長的影響最大。

      2.最優(yōu)的定量預測模型

      (1)統(tǒng)計意義檢驗

      將15 種較優(yōu)變量選擇方案下的變量輸入回歸方程中,并進行逐步回歸,發(fā)現(xiàn)有9 種方案都顯示只有變量時,模型和回歸系數(shù)的顯著性較好,因此得到統(tǒng)計意義上的“最優(yōu)”回歸方程為:

      最優(yōu)回歸結(jié)果顯示,殘差與標準化預測值序列的相關(guān)圖中各相關(guān)點的分布沒有呈現(xiàn)出明顯的規(guī)律性,說明不存在異方差現(xiàn)象;標準化殘差的直方圖顯示殘差服從正態(tài)分布,說明模型滿足高斯假設(shè)。

      (2)理論意義檢驗

      對因變量和自變量進行單位根檢驗,發(fā)現(xiàn)因變量序列為2 階單整序列,自變量序列為0 階單整序列,二者之間具有協(xié)整關(guān)系(回歸殘差序列屬于無常數(shù)均值和無趨勢的1 階自相關(guān)平穩(wěn)序列,ADF 檢驗中P 值=0.01205)。因此統(tǒng)計意義上的“最優(yōu)”回歸方程可以擬合其長期的均衡關(guān)系。

      為了解釋序列之間的短期波動關(guān)系,建立誤差修正模型如下:

      其回歸模型和回歸系數(shù)都比較顯著。從回歸系數(shù)看,每增加1 單位的全國就業(yè)人員數(shù),會增加0.004165單位的人口出生率;上期誤差對人口出生率當期波動影響較大,單位調(diào)整比例為-1.290789。

      3.最優(yōu)定量模型的預測結(jié)果

      2021 年全國人口出生率為7.52‰ ,用模型預測的2021 年全國人口出生率為7.01‰ ,預測誤差率為6.78%,預測值曲線和真實值的擬合效果較好。

      三、結(jié)論及建議

      (一)主要結(jié)論

      1. 置換重要性和距離相關(guān)系數(shù)的變量選擇效果較好

      通過實證分析,發(fā)現(xiàn)置換重要性、節(jié)點純度增加的重要性、距離相關(guān)系數(shù)、集成方法的變量選擇效果均較好。但集成方法計算量大,節(jié)點純度增加的重要性對離散特征存在偏向性,且重要性分析結(jié)果與特征變量的選擇順序有關(guān)。因此,做變量選擇時首選置換重要性和距離相關(guān)系數(shù)。

      隨機森林對異常值與噪音也有很好的容忍度,穩(wěn)健性較強,不易出現(xiàn)過擬合,對特征變量選擇也有很好的適用性?;陔S機森林變量重要性測度指標中的置換重要性可直接度量每個特征變量對模型精確率的影響程度,不存在偏向問題。

      距離相關(guān)系數(shù)距離協(xié)方差的構(gòu)造方式,使其在揭示兩變量間相關(guān)關(guān)系時有著獨特的優(yōu)越性。一是可以直接計算兩個不同維度變量之間的距離相關(guān)系數(shù);二是只要距離相關(guān)系數(shù)為0,即說明被檢驗的兩個變量之間相互獨立。

      2. 就業(yè)問題是導致我國人口出生率下降的核心因素

      國內(nèi)外有關(guān)人口增長影響因素方面的研究文獻,共性是認為教育、就業(yè)等是影響人口增長主要的因素。本文搜集了政治、經(jīng)濟、文化、社會、生態(tài)和人口層面下可能影響我國人口增長的92 個因素,運用多種高維變量選擇方法將變量維數(shù)降到低維,發(fā)現(xiàn)婚姻、醫(yī)療、就業(yè)是影響人口增長的主要因素,進一步實證分析發(fā)現(xiàn)就業(yè)是影響我國人口增長的核心因素。

      原因可能在于人類能主動勞動創(chuàng)造,并已形成了相對完備的社會消費財富配給體系,現(xiàn)代社會一切生存競爭幾乎都是圍繞主動勞動創(chuàng)造的工作崗位展開。當供人類主動勞動創(chuàng)造的工作崗位增加時,人類社會的總?cè)丝诰蜁鲩L;反之,總?cè)丝诰蜁p少。

      (二)對策建議

      1.穩(wěn)住就業(yè)崗位,擴大就業(yè)容量

      幫助企業(yè)紓困解難。近幾年,經(jīng)濟下行壓力持續(xù)增大,很多企業(yè)為了生存,采取縮招、降薪、裁員等措施,導致就業(yè)崗位縮減。就業(yè)是最大的民生,也是發(fā)展最大的保障,因此政府部門需千方百計穩(wěn)住就業(yè)崗位,可通過稅費減免、優(yōu)惠貸款等措施幫助企業(yè)渡過難關(guān)。積極開發(fā)服務業(yè)、公益性就業(yè)崗位。隨著經(jīng)濟轉(zhuǎn)型升級,第三產(chǎn)業(yè)的就業(yè)崗位呈增多趨勢,政府部門應大力支持新興服務業(yè)的發(fā)展,充分發(fā)揮服務業(yè)的就業(yè)吸納作用。同時,可以通過政府出資、社會扶持等方式,在政府部門、高校等設(shè)立公益性崗位,就業(yè)困難人員。

      2.開展技能培訓,調(diào)整人才供應

      積極開展職業(yè)技能培訓。政府部門可以依托社區(qū)聯(lián)合招聘單位開展職業(yè)技能培訓,提升轄區(qū)內(nèi)居民的就業(yè)能力;也可以依托高校聯(lián)合招聘單位開展專業(yè)技能培訓,提升畢業(yè)生的專業(yè)素養(yǎng)。瞄準市場走勢,做好人才儲備。人才培養(yǎng)是為了適應市場需求,但人才培養(yǎng)需要時間,而市場需求卻在不斷變化,因此政府部門需要提前做好市場分析調(diào)研,找準未來市場需求,做好人才儲備,保障人才供應。

      3.了解求職意向,精準幫扶就業(yè)

      根據(jù)求職意向推送招聘信息。政府部門可依托社區(qū)了解轄區(qū)內(nèi)未就業(yè)人員的就業(yè)意向,針對性地推送真實可靠的招聘信息;也可依托高校了解畢業(yè)生的就業(yè)意向,針對性地開展就業(yè)服務。實施專人負責,精準幫扶就業(yè)。政府部門可依據(jù)未就業(yè)人員的具體情況,針對性地安排就業(yè)導師開展就業(yè)宣講,組織技能培訓,助力多渠道就業(yè)。

      猜你喜歡
      出生率高維人口
      《世界人口日》
      人口轉(zhuǎn)型為何在加速 精讀
      英語文摘(2022年4期)2022-06-05 07:45:12
      No.5 2020年出生率創(chuàng)新低
      出生率創(chuàng)新低,都是壓力惹的禍嗎?
      婦女之友(2021年12期)2021-12-15 08:27:37
      一種改進的GP-CLIQUE自適應高維子空間聚類算法
      人口最少的國家
      1723 萬人,我國人口數(shù)據(jù)下滑引關(guān)注
      基于加權(quán)自學習散列的高維數(shù)據(jù)最近鄰查詢算法
      電信科學(2017年6期)2017-07-01 15:44:37
      一般非齊次非線性擴散方程的等價變換和高維不變子空間
      高維Kramers系統(tǒng)離出點的分布問題
      千阳县| 平泉县| 浮山县| 垦利县| 余干县| 阜城县| 新郑市| 嘉义县| 锡林浩特市| 巴楚县| 延吉市| 桂林市| 嘉定区| 宁陕县| 尼勒克县| 罗田县| 泰宁县| 郧西县| 客服| 唐海县| 行唐县| 潜山县| 兴义市| 高陵县| 庆元县| 宁阳县| 曲阜市| 安陆市| 博客| 佛冈县| 缙云县| 侯马市| 石家庄市| 峨眉山市| 赤壁市| 宁陵县| 安多县| 东莞市| 辽阳县| 会同县| 五台县|