□ 趙三武
2023 年,浙江持續(xù)推進(jìn)共同富裕示范區(qū)建設(shè),2023 年浙江全體居民人均可支配收入為63830 元,位列全國第三,城鄉(xiāng)居民人均收入倍差為1.86,比上年縮小0.04。為了更好地促進(jìn)浙江共同富裕建設(shè),蘭溪市通過構(gòu)建“空白”人群群體結(jié)構(gòu)數(shù)據(jù)庫,為全省群體結(jié)構(gòu)數(shù)據(jù)庫建設(shè)提供實踐經(jīng)驗,對科學(xué)確定全省“擴(kuò)中”“提低”對象、建立體系化幫扶場景、推進(jìn)全省共同富裕建設(shè)具有現(xiàn)實意義。
本文對照開展共同富?;A(chǔ)數(shù)據(jù)庫建設(shè)工作試點的內(nèi)容和要求,對“空白”人群進(jìn)行探索和分析,制定“空白”人群精準(zhǔn)畫像方案,對“空白”人群進(jìn)行篩選及特征分析,并根據(jù)分析結(jié)果提出對策建議。
“空白”人群的研究在國內(nèi)屬于新興領(lǐng)域,可借鑒的成熟經(jīng)驗與做法較少。由于無法直接獲取工作信息和收入信息等行政記錄,因此重要數(shù)據(jù)的缺失給實際統(tǒng)計環(huán)節(jié)帶來了挑戰(zhàn)。本次“空白”人群精準(zhǔn)畫像試點工作,通過建立數(shù)據(jù)分析模型,合理預(yù)測“空白”人群收入分布情況,為后續(xù)摸清全省“空白”人群的規(guī)模和特征、推進(jìn)“擴(kuò)中”“提低”行動和高質(zhì)量建設(shè)共同富裕示范區(qū)提供探索經(jīng)驗。
首先,通過各種渠道收集、挖掘信息,建立“空白”人群篩選規(guī)則,并以蘭溪常住人口表為基礎(chǔ),對數(shù)據(jù)進(jìn)行清洗,通過設(shè)計“空白”人群調(diào)查問卷,開展試點調(diào)查,并對篩選規(guī)則的正確性進(jìn)行驗證;其次,根據(jù)試點中發(fā)現(xiàn)的問題,不斷完善“空白”人群的篩選規(guī)則,逐步定位“空白”人群;最后,通過抽樣調(diào)查,收集“空白”人群信息,運用模型預(yù)測收入分布情況,為政府精準(zhǔn)幫扶提供決策支撐。
1.組織召開會議,走訪對接部門。組織人社局、醫(yī)保局和農(nóng)業(yè)農(nóng)村局等部門參加會議20 余次;多次赴稅務(wù)局、市場監(jiān)管局、公安局、人行等相關(guān)部門單位對接工作,挖掘部門可利用的信息,試點以來完成對17 個部門、8 個民間組織和企業(yè)數(shù)據(jù)的收集;兩次邀請村書記召開座談會,聽取相關(guān)意見建議。
2.對接數(shù)智平臺,獲取可用信息。對接蘭溪一體化智能化公共數(shù)據(jù)平臺的130 張表,從400 多項信息中篩選230 項可用信息。通過大數(shù)據(jù)歸集及部門收集的數(shù)據(jù),按信息屬性可分六類:①收入相關(guān)信息:如社保繳費金額、公積金繳費基數(shù)等;②職業(yè)相關(guān)信息:如資格證書信息、騎手信息、私人診所信息等;③助貧類信息:如助學(xué)人員信息、殘疾人員信息等;④資產(chǎn)類信息:如房產(chǎn)信息、車輛信息等;⑤消費信息:如電話通信費、水電費信息等;⑥特殊人群信息:如退役軍人信息。
3.構(gòu)建數(shù)據(jù)體系,清洗整理數(shù)據(jù)?;?020 年第七次全國人口普查(以下簡稱七人普)數(shù)據(jù),剔除死亡人員、流出人口,新增出生人口、流入人口等數(shù)據(jù),構(gòu)建2022 年蘭溪常住人員數(shù)據(jù)庫;實現(xiàn)作用同質(zhì)表合并,針對諸如《中華人民共和國殘疾人證——省回流》《數(shù)字殘聯(lián)——蘭溪本地》等用途一致的數(shù)據(jù)表進(jìn)行合并,保證同質(zhì)功能表的唯一性;實現(xiàn)維表創(chuàng)建,依據(jù)大數(shù)據(jù)中心提供的省回流數(shù)據(jù)字典,進(jìn)行鄉(xiāng)鎮(zhèn)街道代碼和鄉(xiāng)鎮(zhèn)街道名稱等維表創(chuàng)建,以及社保繳費單位類型、學(xué)校等級等維表創(chuàng)建。
1.進(jìn)行數(shù)據(jù)探索,制定篩選規(guī)則。構(gòu)建人員多維信息數(shù)據(jù)表過程中,針對信息項缺失、字段取值異常和數(shù)據(jù)間不一致等情況進(jìn)行定位分析;針對省回流社保數(shù)據(jù)表人員數(shù)據(jù)不足等現(xiàn)狀,通過數(shù)據(jù)表二次歸集等手段進(jìn)行信息擴(kuò)充;從年齡、學(xué)歷、社保繳納等多維度查看人員分布情形;以清洗得到的蘭溪常住人口表為基礎(chǔ),通過規(guī)則探索逐步定位“空白”人群。
2.開展抽樣調(diào)查,建立數(shù)據(jù)模型。開展鄉(xiāng)鎮(zhèn)試點,結(jié)合業(yè)務(wù)部門基礎(chǔ)數(shù)據(jù)表、參考文獻(xiàn)、人口抽樣等專業(yè)調(diào)查表進(jìn)行討論分析,形成“空白”人群調(diào)查問卷設(shè)計。綜合樣本總量、所需時間精力及相關(guān)調(diào)查費用等因素,以電話詢問的形式進(jìn)行抽樣調(diào)查,采用分層抽樣方法,按照蘭溪城區(qū)、中心鎮(zhèn)及鄉(xiāng)鎮(zhèn)行政區(qū)劃,分1 類、2 類鄉(xiāng)鎮(zhèn)街道,再抽取部分鄉(xiāng)鎮(zhèn)街道,其中1 類鄉(xiāng)鎮(zhèn)街道3 個,2 類鄉(xiāng)鎮(zhèn)街道8 個。所選鄉(xiāng)鎮(zhèn)街道樣本總量為19342 個,以約8%的比例進(jìn)行隨機(jī)抽樣,考慮回收效率,最終選取1600 個樣本作為調(diào)查對象。
針對“空白”人群抽樣數(shù)據(jù),運用方差分析進(jìn)行特征選擇,通過決策樹劃分群體收入分布,以反映“空白”人群特征與其收入?yún)^(qū)間的關(guān)系,實現(xiàn)“擴(kuò)中”“提低”重點對象劃分,為推動浙江全省共同富裕示范區(qū)建設(shè)提供現(xiàn)實依據(jù)。
對照浙江省試點內(nèi)容和要求,形成篩選規(guī)則,將“空白”人群的概念界定為:男性年齡在16—60 周歲、女性年齡在16—55 周歲(法律上有勞動能力),無法通過行政記錄(或其他可收集的相關(guān)記錄)直接獲取工作信息和收入信息的人群。
1.“空白”人群的篩選規(guī)則。本文以清洗得到的蘭溪常住人口表為基礎(chǔ),通過規(guī)則探索逐漸定位“空白”人群。2022 年蘭溪常住人口為57.8 萬人,其中男性年齡在16—60 周歲、女性年齡在16—55 周歲的常住人口約34.49 萬人。通過輪詢接口等方式,初篩獲得第一輪“空白”人群9.3 萬人,后又經(jīng)過討論完善篩選形成“空白”人群6.6 萬人,占常住人口比重為11.4%。如表1 所示,獲得TOP5 有效命中規(guī)則的分別是三險繳納、企業(yè)園區(qū)職工人員、學(xué)生、領(lǐng)取農(nóng)業(yè)補(bǔ)貼以及公積金。其中,三險繳納可以過濾45.47%的人員。
表1 不同篩選規(guī)則命中的人數(shù)(單位:人、%)
2.“空白”人群的區(qū)域分布。6.6 萬“空白”人群占蘭溪常住人口的比重為11.4%。對6.6 萬“空白”人群進(jìn)行區(qū)域分布研究可知,占比排前三的分別為蘭江街道、上華街道和云山街道,這3 個街道剛好是蘭溪市主城區(qū)所在地,尤其是蘭江街道,其“空白”人群人數(shù)占比高達(dá)22.88%,是蘭溪唯一常住人口突破10 萬人(145624 人)的街道。
3.“空白”人群的群體特征。一是男女性別總體均衡,男性人口占比高于女性。在“空白”人群中,男性為36406 人,女性為30080 人,男女性別比為1.21:1,其中性別差距最大的為靈洞鄉(xiāng),差距最小的為水亭畬族鄉(xiāng)。二是年齡結(jié)構(gòu)分布適度,略微向中老年傾斜。蘭溪市第七次人口普查數(shù)據(jù)顯示,15—59 歲的人口為345222 人,占常住人口的比重為60.06%,“空白”人群中的年齡分布也同樣呈現(xiàn)相同的特點,中老年人口的占比相對較高。三是受教育程度普遍偏低,主要以初中學(xué)歷為主。據(jù)統(tǒng)計,初中學(xué)歷人群有31267 人,占比為47.37%,在總體“空白”人群中占比最高(圖1)。四是醫(yī)?;緦崿F(xiàn)全覆蓋,城鄉(xiāng)居民基本醫(yī)療保險參保比例高。蘭溪市“空白”人群當(dāng)中,基本醫(yī)療保險參保覆蓋面達(dá)95.64%,其中參加城鄉(xiāng)居民基本醫(yī)療保險的人群比例最高(占比為66.57%),參加職工基本醫(yī)療保險的人群比例最低(占比為4.47%)。五是未工作原因較為復(fù)雜,女性以料理家務(wù)而未工作為主流原因。根據(jù)調(diào)查數(shù)據(jù),深入了解“空白”人群未工作的具體成因,其中料理家務(wù)成為主流歸因選項,離退休、喪失工作能力等原因的占比相對較低。
圖1 “空白”人群總體學(xué)歷分布情況(單位:人)
1.抽樣調(diào)查問卷總體情況。本次抽樣調(diào)查面向蘭溪市11 個鄉(xiāng)鎮(zhèn)街道,共計發(fā)放問卷1600 份,實際回收有效問卷1519 份,回收有效率為94.94%。對問卷數(shù)據(jù)進(jìn)行效度檢驗,結(jié)果如表2所示,KMO值為0.709,顯著性水平小于0.05,說明數(shù)據(jù)來自正態(tài)分布總體。
表2 KMO和Bartlett的檢驗表
2.“空白”人群收入分布模型構(gòu)建探索。圍繞抽樣調(diào)查中的“空白”人群數(shù)據(jù),運用SPSS26.0、Python 和Power BI 軟件,通過方差分析、決策樹、邏輯回歸等機(jī)器學(xué)習(xí)和統(tǒng)計分析方法構(gòu)建模型,探索“空白”人群群體特征與收入分布的關(guān)系(表3)。
表3 機(jī)器學(xué)習(xí)和統(tǒng)計分析方法介紹
將11 個鄉(xiāng)鎮(zhèn)街道作為因子,將年收入作為因變量進(jìn)行方差分析,結(jié)果如表4 所示,顯著值為0.000,小于0.05。由此說明蘭溪市11 個鄉(xiāng)鎮(zhèn)街道的年收入水平存在顯著差異,地理位置可能為影響居民年收入的因素之一。
表4 鄉(xiāng)鎮(zhèn)街道與年收入的單因素方差分析
本文以年收入作為研究因變量,嘗試建立以年齡、性別、受教育程度等為因子的方差分析模型,用以初篩影響年收入水平的特征變量。結(jié)果顯示,受教育水平、電費、電話費、車房資產(chǎn)情況等因子,對年收入水平具有顯著影響?;谏鲜龇治?,嘗試運用決策樹模型,構(gòu)建預(yù)測“空白”人群年收入分布的模型。
受限于抽樣數(shù)據(jù)的數(shù)據(jù)量,年收入暫時按照高收入(10 萬元及以上)與低收入(10 萬元以下)兩檔進(jìn)行劃分(圖2)。結(jié)果表明,基于抽樣數(shù)據(jù)和特征選擇,目前決策樹模型的正確率達(dá)63%,對“空白”人群的收入水平分布能夠進(jìn)行一定程度上的預(yù)測。
圖2 “空白”人群收入分布預(yù)測決策樹示意圖
3.對照浙江省共同富裕目標(biāo)分析。根據(jù)出臺的《浙江省“擴(kuò)中”“提低”行動方案》(以下簡稱《行動方案》),《行動方案》的目標(biāo)之一就是到2025 年,家庭年可支配收入10—50 萬元群體比例達(dá)到80%、20—60 萬元群體比例達(dá)到45%。
結(jié)合目前抽樣數(shù)據(jù)中的蘭溪市“空白”人群收入分布情況,從而對蘭溪市整體“空白”人群的收入分布進(jìn)行統(tǒng)計推斷分析。由于本研究針對的是“空白”人群個體收入情況,而《行動方案》中的測算指標(biāo)為家庭年可支配收入,故在推斷估計時進(jìn)行了簡要模糊換算,選定置信度95%,推斷目前蘭溪“空白”人群家庭年可支配收入10—50 萬元群體比例約為71.25%,20—60 萬元群體約為22.26%,較《行動方案》中的目標(biāo)仍有一定差距。
針對行政記錄有所缺失的“空白”人群進(jìn)行深入研究,不僅可以填補(bǔ)現(xiàn)有統(tǒng)計制度的空白,而且可以更有效地了解該人群的社會現(xiàn)狀和收入分布狀況,為浙江省高質(zhì)量發(fā)展建設(shè)共同富裕示范區(qū)提供政策參考?,F(xiàn)結(jié)合本文研究結(jié)果,提出如下對策建議:
“空白”人群的研究尚處于探索階段,浙江需制定相關(guān)指導(dǎo)意見,明確界定“空白”人群概念,并制定相配套的統(tǒng)計標(biāo)準(zhǔn)與統(tǒng)計制度。因此需要加強(qiáng)頂層設(shè)計,做好謀篇布局。一是政府層面需要制定體現(xiàn)普遍性和指導(dǎo)性的頂層政策。對于“空白”人群的概念、內(nèi)涵以及覆蓋范圍等較為模糊的相關(guān)議題,需要全省在立法層面確定統(tǒng)一標(biāo)準(zhǔn)。二是形成跨部門協(xié)作機(jī)制,加快制定配套措施。依據(jù)文件,形成自上而下、主體明確的“空白”人群支持體系。
定期開展抽樣調(diào)查,聚焦“空白”人群主要特征,不斷拓展研究深度、廣度。通過不斷嘗試探索新的關(guān)鍵變量,持續(xù)優(yōu)化決策樹模型,提升預(yù)測準(zhǔn)確性。精準(zhǔn)了解“空白”人群的收入水平分布,為政府決策提供參考依據(jù),為浙江建設(shè)共同富裕示范區(qū)提供有力支撐。
以“空白”人員為切入口,延伸建立家庭譜系,進(jìn)而研究“空白”家庭,分析家庭收入水平相關(guān)影響因素,實現(xiàn)“空白”人群信息全面覆蓋的目標(biāo)。在借鑒經(jīng)驗的基礎(chǔ)上,逐個研究解決存在的障礙,建立可持續(xù)性模型來跟蹤和掌握這類人群的情況,從而精準(zhǔn)施策。
高度重視對“空白”人群的扶持和保護(hù),針對全省地域差異,要因地制宜制定實施社會保障政策,特別是針對浙江山區(qū)26 縣,需建立健全“空白”人群的社會保障機(jī)制;還要立足地方實情,堅持與時俱進(jìn),完善社會保障制度建設(shè)。同時加強(qiáng)宣傳和教育工作,做好政策的宣講,使其真正服務(wù)于有需要的人群,實現(xiàn)社會保障政策有效落地。
搭建政企協(xié)同“數(shù)據(jù)橋”,形成“空白”人群多元化社會支撐網(wǎng)絡(luò),加大政府對“空白”人群的服務(wù)供給。要加強(qiáng)“空白”人群數(shù)智信息管理平臺的建設(shè),將大數(shù)據(jù)、人工智能、云計算的技術(shù)優(yōu)勢以及各類數(shù)字化平臺的信息和組織優(yōu)勢,與“空白”人群的管理相結(jié)合,實現(xiàn)數(shù)據(jù)的有效傳輸與深度融合,發(fā)揮其潛在的聯(lián)動價值。