摘 要:根據(jù)凱里市鄉(xiāng)村振興局提供的2021年脫貧戶幫扶臺賬數(shù)據(jù),建立風險度量的統(tǒng)計模型.首先,使用混料多項式模型構(gòu)建年收入預測模型;其次,使用logistics回歸模型建立返貧風險預測模型,并結(jié)合SVM等機器學習算法得到“三類戶”的線性分類模型;然后,通過評價得分數(shù)據(jù)構(gòu)建與年人均年收入的非參數(shù)回歸模型.通過多重模型的分析,為基層開展返貧風險排查工作提供技術輔助參考.
關鍵詞:鄉(xiāng)村振興;混料模型;logistics回歸;非參數(shù)回歸
中圖分類號:C812" 文獻標識碼:A" 文章編號:1673-9329(2024)03-0081-12
0引言
“民族要復興,鄉(xiāng)村必振興”,鄉(xiāng)村振興是黨和國家的重大戰(zhàn)略.脫貧攻堅是鄉(xiāng)村振興的基礎,而鄉(xiāng)村振興是脫貧攻堅的延續(xù)和提升,鞏固脫貧攻堅成果是全面推進鄉(xiāng)村振興建設的關鍵.21世紀以來,國家出臺了十九個關于“三農(nóng)”問題的中央一號文件,全面推進鄉(xiāng)村振興是2022年中央一號文件的核心內(nèi)容.從整體來看,打贏脫貧攻堅戰(zhàn)是實現(xiàn)鄉(xiāng)村振興的前提和基礎,瞄準特定貧困群眾精準幫扶,激發(fā)貧困人口脫貧內(nèi)生動力,不僅能促進區(qū)域經(jīng)濟發(fā)展,也有利于社會大環(huán)境的穩(wěn)定與和諧.從局部來看,貴州是全國脫貧攻堅主戰(zhàn)場之一,更是鄉(xiāng)村振興的先行先試地區(qū).作為貴州省脫貧攻堅主戰(zhàn)場的黔東南苗族侗族自治州,截至2020年底,實現(xiàn)了130.19萬貧困人口脫貧,1853個貧困村脫貧出列,15個貧困縣脫貧摘帽,如期完成脫貧攻堅目標任務,實現(xiàn)了現(xiàn)行標準下農(nóng)村貧困人口全部脫貧、貧困縣全部摘帽[1].雖然脫貧攻堅取得了令人矚目的成就[2-6],但要深刻認識到:脫貧摘帽不是終點,而是新生活、新奮斗的起點[7].要持續(xù)鞏固脫貧攻堅成果,全面推進鄉(xiāng)村振興,需要研究鄉(xiāng)村振興與社會發(fā)展的各種聯(lián)系,許多文獻從不同角度提出了各種研究的理論與方法,如文獻[8]探索了鄉(xiāng)村振興的行為路徑,文獻[9-11]從教育扶貧的角度研究了鄉(xiāng)村振興的有關問題,文獻[12-16]從不同視角下研究了鄉(xiāng)村振興的建設以及扶貧政策的制定.要實現(xiàn)鄉(xiāng)村振興,鞏固脫貧攻堅的成果,十分重要的一項工作就是控制返貧風險.近年來,有很多文獻都對返貧風險問題進行了研究,如文獻[17-21]就是從不同角度研究建立返貧風險預警模型.
不論使用何種理論與方法、從何種視角來研究鄉(xiāng)村振興的相關問題,目的都是為了更好地鞏固脫貧攻堅的成果,為鄉(xiāng)村振興提供更好的理論支持與參考依據(jù).關注民生問題,要重點監(jiān)測易返貧人群,關注脫貧戶的生活訴求.鑒于此,本文以貴州省凱里市的脫貧戶為研究對象,根據(jù)凱里市鄉(xiāng)村振興局提供的2021年脫貧戶幫扶臺賬數(shù)據(jù),建立“個人”“戶”“村”三個維度的指標體系.從脫貧戶的角度來研究鄉(xiāng)村振興的問題,研究脫貧戶群眾最關心的問題.以戶為單位,從脫貧戶的基本結(jié)構(gòu)、醫(yī)療保障、生活幫扶、住房條件、農(nóng)產(chǎn)置業(yè)、收支情況、居住環(huán)境7個方面構(gòu)建了評價測度,結(jié)合人均年收入,“三類戶”類別[22]等數(shù)據(jù),除了“兩不愁三保障”之外,還提供了一套測量的參照標準,預防脫貧戶返貧,為鞏固脫貧攻堅的偉大成果提出有力的理論支撐.
本文首先基于脫貧戶的人均年收入數(shù)據(jù)提出年收入預測模型;其次結(jié)合脫貧戶的類別等數(shù)據(jù),使用logistic模型,SVM模型構(gòu)建返貧風險預測模型;然后,由評價得分與收入情況構(gòu)建非參數(shù)回歸模型;最后,綜合模型分析結(jié)果,提出相應的理論依據(jù)和參考,提出可以進一步研究的問題.
1數(shù)據(jù)來源與模型基礎
貴州省黔東南州凱里市總?cè)丝诩s70萬,是一個以苗族和侗族為主體,多民族聚居的城市.2014年,全市共識別國家標準貧困村81個,建檔立卡貧困戶16 044戶61 516人.5年來,凱里市依托東西部扶貧協(xié)作,建成了一批高質(zhì)量的協(xié)作項目,共獲得對口幫扶資金8 700萬元,幫助貧困人口實現(xiàn)就業(yè)3 107人.2018年底,全市貧困發(fā)生率由2014年的19.74%下降到2.34%.2019年12月,凱里市作為代表貴州省5個縣市之一,接受了國家脫貧攻堅成效第三方評估考核,取得了優(yōu)異成績.
本文以凱里市的脫貧戶為研究對象,根據(jù)凱里市鄉(xiāng)村振興局提供的2017-2021年脫貧戶幫扶臺賬提取出脫貧戶個人的相關數(shù)據(jù),結(jié)合黔東南州2021年統(tǒng)計年鑒獲取凱里市20個鎮(zhèn)街166個行政村的基礎數(shù)據(jù),構(gòu)建返貧風險預測模型.由于脫貧戶幫扶臺賬是以“個人”為單位進行記錄的,在構(gòu)建模型之前,我們已經(jīng)建立了一套以戶為單位的評價體系,即每一戶都有一個綜合得分,它是由以下幾部分構(gòu)成的:個人級指標(共59項)可計算出基本結(jié)構(gòu)(P1)、醫(yī)療保障(P2)、生活幫扶(P3)三項評價得分;以戶為單位的指標(99項)可計算出住房條件(H1)、農(nóng)產(chǎn)置業(yè)(H2)、收支情況(H3)三項評價得分;由各個行政村的基礎數(shù)據(jù)可計算出反映居住環(huán)境(V)的得分,其中此項得分又由村基礎設施、村級規(guī)模和留守人口三項計分得到.
將“個人級”指標匯總至“戶級”指標,再由每戶對應的“村級”指標,經(jīng)過因子篩選確定出導致返貧的顯著因子,并根據(jù)重要因子確定需要收集的數(shù)據(jù).假設收集到的數(shù)據(jù)服從某種分布,這是需要通過數(shù)據(jù)對分布中的未知參數(shù)進行估計.即指標集、數(shù)據(jù)集、參數(shù)集所確定的因子、數(shù)據(jù)和參數(shù)估計的值,代入由多種統(tǒng)計模型共同構(gòu)建加權風險預測模型中,當輸入以“戶”為單位的數(shù)據(jù)時,返貧值為返貧風險的概率,風險預測模型的構(gòu)建過程如圖1所示.
衡量脫貧戶的生活水平的重要指標就是其年均收入,本文需要使用混料多項式模型對脫貧戶家庭人均年收入進行分析.
一般地,假設一戶家庭有n個人,在指標B的q個水平下各有n1,n2,…,nq個人,將一戶家庭中在B指標下各水平的人員占比記為x1,x2,…,xq,即
xi=nin,i=1,2,…,q,
令x=x1,x2,…,xqT是一個q維混料試驗點,記
Sq-1=(x1,x2,…,xq):∑qi=1xi=1,xj≥0,j=1,2,…,q
是q-1維空間中的一個單純形[23].本文中規(guī)定,在單純形坐標系中的一個點就代表一戶家庭,其各分量代表該戶家庭在該指標的各水平下人數(shù)所占比例.規(guī)定xi中的下標i越大,代表的層級越高,根據(jù)文[24-26]中討論的格子點集性質(zhì)與剖分算法,使用二階單純形格子點集將單純形剖分為若干個區(qū)域,如圖2所示.
例如,使用單純形分析脫貧戶的民族分布情況,20 850戶脫貧戶中,共有13 523戶家庭其成員全是苗族,占總體脫貧戶的64.86%,7.87%的家庭全部是其他少數(shù)民族,4.61%的家庭其成員全是漢族,2.98%的家庭是侗族家庭.
2年均收入預測模型
脫貧戶的人均年收入是體現(xiàn)精準扶貧的重要指標,如文獻[27-28]都是以其作為研究問題的因變量.以y表示2021年20 850戶脫貧戶的人均年收入,使用單純形剖分方法脫貧戶家庭的人均年收入進行統(tǒng)計建模,確定影響顯著的因子.以下建立年均收入與文化程度、健康狀況以及勞動力情況之間的混料多項式回歸模型.
2.1 文化程度
在一戶家庭中,記低學歷人數(shù)為文盲或半文盲、小學、學齡前兒童、學前教育以及小學生的總?cè)藬?shù);記中學歷人數(shù)表示初中學歷、高中學歷以及初中生、中職學生、高中生、高職學生的總?cè)藬?shù);高學歷人數(shù)表示大專學歷、本科及以上學歷以及大專生、本科生、碩士研究生及以上的總?cè)藬?shù).以x21,x22,x23表示一戶家庭低學歷,中學歷,高學歷人員所占比例.
經(jīng)過統(tǒng)計整理得到不同文化程度脫貧戶家庭分布情況如表1所示,由其最后一行可見3 055戶家庭中,中學歷與低學歷的人員各占一半,這類家庭的成員主要是低學歷人員的家長和讀高中及以上的在校生,這類家庭占總體的14.65%;有2 855戶家庭,其家庭成員都是低學歷,這類家庭占總體的13.69%.由此可見,有超過1/4的家庭文化程度都是低的.
在單純形坐標系S3-1上建立3階混料多項式模型為
y=13 045.73x21+18 278.63x22+24 938.61x23-9 570.54x21x22-2 086.98x21x23-12 162.63x22x23+1 388.19x21x22(x21-x22)-6 772.75x21x23(x21-x23)-15 580.03x22x23(x22-x23)-11 129.11x21x22x23
在S3-1坐標系中繪制出分布情況,并繪制出模型的等高線圖如圖3(a)所示,模型的曲面圖如圖3(b)所示.
模型的檢驗結(jié)果如表2所示,模型的系數(shù)在方差分析結(jié)果中都達到極顯著,3階混料模型能反映出學歷與人均年收入的關系.在脫貧戶家庭中,低學歷家庭占絕大多數(shù),高學歷家庭的收入明顯高于低學歷家庭,從單純形頂點來看,低學歷家庭人均年收入不足1.2萬元,中學歷家庭近1.6萬元,而高學歷家庭達到2.2萬元.因此,學歷是影響年均收入的顯著因子.
從該模型可見,一戶家庭中高學歷人員占比每提高10個百分點,人年均收入會增加0.24萬元.所以,提高脫貧戶家庭的文化程度是脫貧的重要舉措,這是文[9-11]中的主要觀點.
2.2健康狀況
在一戶家庭中,健康的家庭成員所占比例記為x51;單一疾病或殘疾人數(shù)等于長期慢性病、殘疾以及患有大病的人數(shù)總和,在家庭中所占比例為x52;多重疾病及殘疾人數(shù)等于長期慢性病且殘疾、患有大病且殘疾、長期慢性病且殘疾以及患有大病的總?cè)藬?shù),所占比例為x53.根據(jù)2021年脫貧戶幫扶臺賬數(shù)據(jù)顯示,有51.95%的家庭中人員都是健康家庭,其余的家庭都存在有非健康人員.
家庭健康狀況與人均年收入的3階混料模型及檢驗結(jié)果如表3所示.其中2階交互項x51x52,x51x53,3階交互項x52x53(x52-x53),x51x52x53都未通過檢驗,這些交互項對模型的影響不顯著.
各類家庭戶的分布情況如圖4(a)所示,表3中的三階混料多項式模型的曲面圖4如(b)所示.從模型的推斷來看,健康家庭的年均收入最高,但值得注意的是,病殘混合家庭的收入?yún)s不低,對此,一方面需要進一步檢驗模型,此外,通過核對數(shù)據(jù),可知這類家庭的人均年收入均值為12 820.94元,主要是政府兜底,轉(zhuǎn)移性收入較高. 可見一個家庭中人員的健康狀況對返貧影響是極顯著的,因病返貧問題就是鞏固脫貧成果的重中之重了[29-30].
2.3 勞動力狀況
設一戶家庭中的正常勞動人數(shù)是由普通勞動力和技能勞動力人員構(gòu)成;弱勞動力人數(shù)是指家庭中的弱勞動力或半勞動力人數(shù)之和;無勞動力人數(shù)是指無勞動力和喪失勞動力的人數(shù)總和.
根據(jù)統(tǒng)計,共有2 806戶家庭為正常勞動力家庭,占總體的13.46%,其余的家庭中都含有弱勞動力或無勞動人員.值得注意的是有1 234戶家庭是弱勞動力家庭,占總體的5.92%.有422戶家庭中沒有正常勞動力,弱勞動力人員和無勞動力人員各占一半,這類家庭中僅有留守兒童與無勞動力的老人.勞動力分布情況如圖5(a)所示.
建立勞動力狀況與人均年收入的3階混料模型及檢驗結(jié)果如表4所示.
結(jié)合圖5 (b)可直觀地看到,正常勞動力家庭的收入明顯高于其他類型的家庭.如果一個家庭是以弱勞動或無勞動能力的成員為主,其年均收入是明顯低于正常勞動家庭的.根據(jù)x61的系數(shù)可知:完全正常勞動力的家庭,年均收入的均值能達到21 468.3元,比其他類家庭高出近一倍.
根據(jù)混料模型可以預測不同類家庭的年收入情況.健康狀況、文化程度、勞動力狀況都是家庭收入的影響因素,不同類別的家庭,年收入差異是顯著的.文化程度、健康狀況、勞動力情況這三大因素是影響脫貧戶家庭人均年收入的顯著因子.教育扶貧政策是脫貧攻堅、鄉(xiāng)村振興的重要工作,是長期堅持實施的基本政策.
3 返貧Logistic風險度量模型
凱里市2021年末20 850戶脫貧戶中,有875戶為邊緣易致貧戶,有87戶為突發(fā)嚴重困難戶,有765戶為脫貧不穩(wěn)定戶,這三類家庭共計1 727戶,占總體的8.28%.評價一戶家庭是否屬于易返貧戶,除了根據(jù)其人均年收入,生活條件以及物質(zhì)保障等方面來衡量,也與家庭的各個方面息息相關.為了全面精準地監(jiān)測脫貧戶的基本狀況,及早判斷其可能返貧的各種情況,有效地制定相關政策,做好幫扶工作,這些都需要建立全面的判別模型.
本節(jié)將邊緣易致貧戶、突發(fā)嚴重困難戶和脫貧不穩(wěn)定戶三類家庭的監(jiān)測類別屬性賦值為0,其余的脫貧戶家庭賦值為1,并將這一指標令作變量Y.
Logistic回歸模型是用于風險度量的一類重要模型,在脫貧攻堅的工作中有著廣泛的應用.我們以變量屬性分別建立兩個Logistic模型,其中模型I選取的變量主要是家庭戶中不同成員所占的比例,這樣建立的模型以前文中討論的混料模型為基礎;模型II主要選取家庭戶的離散指標下的數(shù)據(jù),再由兩個模型構(gòu)建加權l(xiāng)ogistic模型.經(jīng)過多輪反復嘗試,可以驗證這兩個模型都具有良好的顯著性與穩(wěn)健性.
3.1 logistic模型I
經(jīng)過多輪變量篩選,最終確定戶級指標中的10個作為自變量,分別為:家庭人口(x1),老年人員所占比例(x2),低學歷人員所占比例(x3),單一疾病或殘疾人員所占比例(x4),多重疾病及殘疾人員所占比例(x5),弱勞動人員所占比例(x6),不能勞動人員所占比例(x7),非在校生平均工作時長(x8),人均年收入(x9),農(nóng)業(yè)用地面積(x10).將得到的logistic回歸模型進行檢驗,得到結(jié)果如表5所示.
這里,是令q表示有返貧風險的概率,x=(1,x1,x2,…,x10)T,估計的系數(shù)向量為I=(0.035 2, 0.204 0, 1.108 0, -0.391 5, 0.661 6, 1.623 0, -1.794 0, -1.432 0, 0.047 2, 0.000 2, 0.013 6)T.則對應的logistic模型I為
1-q(x)=exp(xTI)1+exp(xTI)(1)
當一戶家庭的10項指標數(shù)值代入模型中,計算出返貧風險大于0.5的,結(jié)合其他評價指標,應該給予重點關注.從模型I的系數(shù)可見,如果一個家庭中的多重疾病及殘疾人員所占比例越高,這戶家庭返貧的概率會急劇增加.
3.2 logistic模型II
在戶級指標和農(nóng)業(yè)用地面積方面,令年齡類別(z1)、家庭民族類別(z2)、學歷類別(z3)、健康等級(z4)、勞動力等級(z5)、工作時長等級(z6)、農(nóng)業(yè)用地面積(z7)、住房面積(z8).經(jīng)過計算,家庭民族類別(z2)的影響并不顯著,所以在下面的討論中不考慮這一解釋變量.令z=(1,z1,z3,z4,…,z8)T,估計的系數(shù)向量為II=(0.944 008, 0.158 299, 0.200 959, -0.061 95, -0.303 151,0.418 033,0.016 528,0.001 8)T.對應的logistic II號模型為
1-q(z)=exp(zTII)1+exp(zTII).(2)
將得到的logistic回歸模型進行檢驗,得到結(jié)果如表6所示.
當一戶家庭的10項指標數(shù)值代入模型中,計算出返貧風險大于0.5的,結(jié)合其他評價指標,應該給予重點關注.根據(jù)不同顯著因子定義的各個水平,使用以下的向量
b1=(1,2,3,4,5)T,b3=(1,2,3,4)T,b4=(1,2,3,4)T,b5=(1,2,3,4)T, b6=(1,2,3,4)T,b7=(10,20,30,40,50)T,b8=(30,60,90,120,150)T.
分別對應了7個解釋變量(不考慮民族類別z2)的各個水平.將各個水平進行完全組合,令z1=b116400,z3=15b311600,z4=120b41400,z5=180b51100,
z6=1320b6125,z7=11280b715,z8=16400b8.
其中“”表示矩陣的Kronecker積,1k表示元素全部為1的k維列向量.
矩陣Z=(z1,z3,z4,…,z8)=(zij),Z是一個32 000×7階矩陣,計算出在各個組合下模型II的結(jié)果,令向量(t1,t2,…,t32 000)T=ZII,將所有值代入模型中計算得到
qi=11+exp(ti),i=1,2,…,32 000
是各種不同水平組合下返貧的風險值.
3.3 加權預測模型
如果將20850戶脫貧家庭的數(shù)據(jù)代入模型中,分析得到各戶人家的返貧風險值.整理于表7中,由此可見,在沒有疾病以及其他不可抗力因素的影響下,仍然有98%的家庭返貧的風險在0.3—0.4之間.
由上表可見,模型I是以各類人員占比作為解釋變量,即解釋變量都是連續(xù)型的數(shù)據(jù),而模型II中的7個解釋變量有5個是離散型數(shù)據(jù).由于解釋變量的選取不同,導致模型分析的結(jié)果不同,但差異不大,兩類模型計算出的返貧風險都在0.26—0.46之間.為了綜合的度量一個家庭的返貧風險,令
q(x,z)=α1+exp(xTI)+1-α1+exp(zTII),α∈(0,1)
為評價家庭的返貧風險.
這里之所以沒有將所有變量都列入同一個logistic模型,是因為經(jīng)過多次的逐步回歸與變量篩選,最終才確定了兩個系數(shù)極顯著的模型,用兩個模型的加權組合是合理的.
返貧風險預測模型是作為貧困標準的一個輔助參考,綜合結(jié)合監(jiān)測對象類型,查看這些家庭的具體情況,多維度分析深層次原因,控制返貧率,鞏固脫貧攻堅成果,這些工作任重而道遠.
4 年均收入的非參數(shù)回歸預測模型
根據(jù)收集到的2017—2021年脫貧戶幫扶臺賬數(shù)據(jù),我們已經(jīng)建立了一套以戶為單位的評價體系,即每一戶都有一個綜合得分,分別為:基本結(jié)構(gòu)(P1)、醫(yī)療保障(P2)、生活幫扶(P3)、住房條件(H1)、農(nóng)產(chǎn)置業(yè)(H2)、收支情況(H3)以及居住環(huán)境(V)的得分.以2021年的脫貧戶數(shù)據(jù)為基礎,計算每一戶的綜合得分.令
si1=Pi1+Pi2+Pi3
是按第i戶家庭的個人級指標反映的基本結(jié)構(gòu)、醫(yī)療保障、生活幫扶三項得分總和;同理,令
si2=Hi1+Hi2+Hi3與si3=V
分別為戶級指標和村級指標的綜合得分,其中Pij,Hij,Vij,i=1,2,…,20 850,j=1,2,3是以戶為單位計算得到的相應得分.
令矩陣S=s1,s2,s3=sij20 850,3i,j=1,以變量y表示各戶的人均年收入,首先分析三組得分,即人(S1)、戶(S2)、村(S3)是否存在共線性.計算三者的相關系數(shù),并繪制出散點相關矩陣圖如圖6所示.
由圖6可見,三個指標并沒有強的相關性.一方面,需要建立以人均年收入為因變量,各組得分為解釋變量的模型,以此來預測得分變化與收入變化之間的關系;另一方面,以戶為單位,考慮每一戶的總得分情況與人均年收入之間的關系.以S1,S2,S3為自變量,y為因變量,根據(jù)數(shù)據(jù)得到的二次回歸方程為
y=12 433.68 + 198.84S1 -401.13S2 -766.07S3 "+ 21.89S1 S2 "+ 40.24S1 S3 "+ 27.74S2 S3 -1.49S1 S2 S3
經(jīng)過檢驗,這個方程并不顯著.考慮將三個變量兩兩進行組合,再與y聯(lián)立回歸模型.這是得到三個回歸方程,其回歸曲面與散點分布如圖7所示.
由圖7可見,回歸方程不能很好地擬合得分與人均年收入的數(shù)據(jù),回歸曲面僅僅給出了趨勢的預測,在圖7(a)和(b)中,會看到隨著分數(shù)的增加,收入有顯著的提高.這說明了兩個問題:(1)打分系統(tǒng)不能準確地預測人均年收入,這是必然,但是隨著分數(shù)的增高,收入有顯著提升;(2)回歸模型在某點(s01,s02,s03)的響應值,基本上位于在該點處所有數(shù)據(jù)的均值,根據(jù)95%置信區(qū)間可以推斷出這點響應的預測值區(qū)間,是很有參考價值的.
如果使用綜合得分作為解釋變量,人均年收入y作為因變量,使用Nadaraya-Watson核估計[31]建立非參數(shù)回歸模型.設K(t)為給定的核函數(shù),令
Kh(t)=1hK(th)
其中hgt;0為窗寬參數(shù),回歸函數(shù)m(x)在x0點的Nadaraya-Watson核估計為
NW(x0)=∑ni=1Kh(Xi-x0)Yi∑ni=1Kh(Xi-x0)=∑ni=1K(Xi-x0h)Yi∑ni=1K(Xi-x0h)
若記Wni(x0)=1hK(Xi-x0h)1h∑ni=1K(Xi-x0h),則關于函數(shù)值的加權函數(shù)估計為
NW(x0)=∑ni=1Wni(x0)Yi
繪制出關于(S,y)的散點圖,然后在上式中,我們將所有的綜合得分數(shù)據(jù)代入非參數(shù)模型中,取窗框參數(shù)h=0.5,繪制出非參數(shù)回歸的曲線,如圖8所示.根據(jù)文[32]中提出的方法,我們構(gòu)造出非參數(shù)回歸模型的置信區(qū)間為
[NW(x0)-σ*nzα/2,NW(x0)+σ*nzα/2]
即在x0點處的置信區(qū)間,其中記號zα/2表示標準正態(tài)分布的α/2分位點.這里的σ*n我們以不同的區(qū)間[30,35],[35,40],…,[75,80]上,y值的標準差來定義.計算表得到NW(x0)的95%置信區(qū)間,如圖8中兩條綠色曲線所示.
由圖8可見,由于人均年收入方差較大,在擬合的曲線左邊界出現(xiàn)很強的邊界效應,并且有極少數(shù)戶收入超過10萬元,影響了擬合曲線的趨勢.
使用非參數(shù)模型建模,優(yōu)點與缺點同樣明顯.一方面,非參數(shù)模型沒有顯示表達,根據(jù)實際數(shù)據(jù)得到的擬合方程,有更優(yōu)良的預測性;另一方面,根據(jù)非參數(shù)模型可以建立起綜合評價得分與年均收入之間的聯(lián)系,在后期決策與政策制定方面,都可以根據(jù)以往的數(shù)據(jù)進行建模,預測出在各種情形下的收入預測值.如果因變量選擇為其他變量,則同樣可以根據(jù)非參數(shù)模型進行預測.
5 總結(jié)
考慮到人均年收入是鞏固拓展脫貧攻堅成果的關鍵變量,據(jù)此建立了三個混料多項式模型來尋找影響人均年收入的主要因素:文化程度、健康程度和勞動力狀況.人均年收入預測模型能夠分析研究不同類型家庭的收入狀況.
以混料多項式回歸方法建立年均收入預測模型,使用logistic模型建立返貧風險預測模型,再結(jié)合SVM建立監(jiān)督學習算法,構(gòu)建脫貧的分類模型.經(jīng)過SVM分類后的數(shù)據(jù),對于識別的脫貧戶,無須過多檢驗.通過比較分析,選取識別效果最好的LightGBM模型作為最終的易返貧戶識別模型.
在實際中需要結(jié)合多個模型優(yōu)勢,綜合分析脫貧戶的基礎數(shù)據(jù),一方面能輔助基層工作者開展返貧風險排查,聚焦目標,極大地提高基層工作者的工作效率,這對全面推進鄉(xiāng)村振興建設具有極其重要的意義;另一方面,為鞏固脫貧成效政策制定和精準落實提供建議和方向,為基層開展返貧風險排查工作提供技術輔助參考.
誠然,無論是年收入預測模型還是返貧風險預測模型,終究不是放之四海而皆準的模型,在實際工作中,需要因地制宜,結(jié)合當?shù)卣吲c脫貧戶的具體情況,整體宏觀地進行研究,所有的模型只是在鄉(xiāng)村振興實現(xiàn)過程中的數(shù)據(jù)支撐與輔助參考.例如易返貧戶識別模型的改進就可以結(jié)合數(shù)據(jù)重采樣和人工數(shù)據(jù)合成法等不平衡樣本處理技術對模型進行改進,同時可以探索集成學習和代價敏感學習等方法進一步提高模型精度.
參考文獻:
[1]
吳會武. 擔當創(chuàng)奇跡,偉業(yè)炳史冊—— 黔東南州決戰(zhàn)決勝脫貧攻堅成就回眸[N]. 黔東南日報,2021-03-11(5).
[2]楊陽洋. 云南取得新時代脫貧攻堅的全面勝利[N]. 云南法制報,2022-09-07(001).[3]周洪. 全省484萬貧困人口全部脫貧[N]. 合肥晚報,2022-09-02(A04).
[4]陸青劍. 為人民書寫 為時代存照[N]. 貴州日報,2022-08-26(005).
[5]孫玉環(huán),王琳,王雪妮,等.后精準扶貧時代多維貧困的識別與治理——以大連市為例[J].統(tǒng)計與信息論壇,2021,36(2):78-88.
[6]楊朔,李博,李世平.新型農(nóng)業(yè)經(jīng)營主體帶動貧困戶脫貧作用研究——基于六盤山區(qū)7縣耕地生產(chǎn)效率的實證分析[J].統(tǒng)計與信息論壇,2019,34(2):78-84.[7]王莉.從脫貧攻堅到鄉(xiāng)村振興[J].今日中國,2021,70(3):18-19.
[8]洪名勇,李富鴻,婁磊,等.探索從脫貧攻堅到鄉(xiāng)村振興的路徑選擇——來自2047縣(區(qū))2006~2018年的實踐經(jīng)驗[J].貴州財經(jīng)大學學報,2021(6):87-98.
[9]鄒培,雷明.教育幫扶:從脫貧攻堅到鄉(xiāng)村振興[J].首都師范大學學報(社會科學版),2022(S1):72-84.
[10]雷明,王璠,劉曦飛.賦能:教育扶貧之根本——中國脫貧之道[J].首都師范大學學報(社會科學版),2022(S1):7-21.[11]李佳健,林廣成,釗劍,等.精準教育扶貧視域下“以學習者為中心”的智慧研修生態(tài)構(gòu)建與應用研究[J].首都師范大學學報(社會科學版),2022(S1):114-122.[12]李澤環(huán). 脫貧攻堅視角下和龍市鄉(xiāng)村振興的路徑與對策[D].長春:吉林大學,2020.[13]劉溢文,曾秀蘭.人才振興視角下專家服務隊賦能鄉(xiāng)村振興探索——以清遠市為例[J].南方農(nóng)機,2022,53(17):107-111,116.[14]黃銳,王飛,章安琦,等.民族地區(qū)防返貧機制研究——基于多維返貧視角[J].中央民族大學學報(哲學社會科學版),2022,49(1):119-129. [15]陳哲,李曉靜,劉斐,等.政治信任、村莊民主參與與扶貧政策滿意度研究[J].統(tǒng)計與信息論壇,2019,34(8):84-89.[16]張夢林,李國平,侯宇洋.從脫貧攻堅到鄉(xiāng)村振興:金融素養(yǎng)如何防范返貧[J].統(tǒng)計與信息論壇,2022,37(2):117-128.[17]王睿,駱華松.貧困退出背景下返貧風險預警與評價[J].統(tǒng)計與決策,2021,37(20):81-84.[18]李賀,趙榮.貴州獨山縣返貧風險監(jiān)測預警機制實踐探討[J].林草政策研究,2021,1(3):67-75.[19]陳茜,王子,周舟.返貧風險因素分析與化解返貧路徑研探——基于貴州省的實際情況[J].鄉(xiāng)村論叢,2022(4):115-120.[20]汪儒軍. 返貧風險預測及防返貧對策研究[D].南昌:江西財經(jīng)大學,2022.[21]趙爽,胡麗娜.脫貧人口返貧風險預警研究[J].中國管理信息化,2022,25(11):223-225.
[22]廖冰,鄺曉燕,鄒佳敏.后扶貧時代“三類戶”返貧風險識別與測度研究[J].干旱區(qū)資源與環(huán)境,2022,36(10):25-33.
[23]CORNELL J A. Experiments with mixtures: Designs, models, and the analysis of mixture data[M]. New York: John Wiley, 2011.
[24]李光輝,李俊鵬,張崇岐.復雜約束域內(nèi)混料最優(yōu)設計的格點評價[J].應用概率統(tǒng)計,2022,38(2):253-266.
[25]李光輝,李俊鵬,張崇岐.混料格點設計的性質(zhì)及應用[J].高校應用數(shù)學學報A輯,2021,36(4):379-388.
[26]ZHAO H Q, LI G H, LI J P. Uniform test on the mixture simplex region[J]. Symmetry, 2022,14(7): 1371.
[27]趙正,侯一蕾,溫亞利.精準扶貧項目與農(nóng)村居民收入增長——基于傾向得分匹配模型的分析[J].統(tǒng)計與信息論壇,2018,33(11):104-110.
[28]周迪,鐘紹軍.中國多維減貧成效的統(tǒng)計測度研究[J].統(tǒng)計與信息論壇,2019,34(2):85-96.[29]劉曉宇,劉長君.后扶貧時期建立健全防止農(nóng)村“因病返貧”長效機制研究[J].中國衛(wèi)生法制,2021,29(6):116-119.
[30]蔡高成,趙海清,李光輝.基于Logistic回歸的扶貧滿意度評價模型[J].凱里學院學報,2019,37(6):10-13.
[31]吳喜之, 趙博娟. 非參數(shù)統(tǒng)計[M]. 北京:中國統(tǒng)計出版社, 2009.
[32]薛留根. 非參數(shù)回歸函數(shù)的置信區(qū)間[J]. 應用科學學報, 2002(1): 77-79.
[責任編輯:劉紅霞]
Prediction Model of the Poverty Return Risk from the Perspective of Poverty Alleviation
LI Guanghui1,2,JIANG Zeqin2,F(xiàn)ENG Shu2
(1. Kaili University, Kaili, Guizhou, 556011, China;2. Kaili Statistics Bureau, Kaili, Guizhou, 556001, China)
Abstract:
According to the 2021 poverty alleviation account data provided by Kaili Rural Revitalization Bureau, a statistical model for risk measurement is established. First, the mixed polynomial model is used to build the annual income prediction model. Secondly, the logistics regression model is used to build the poverty risk prediction model, and the linear classification model of \"three categories of households\" is obtained by combining SVM and other machine learning algorithms. Then, the non parametric regression model with the annual per capita annual income is built through the evaluation score data. Through the analysis of multiple models, it provides technical assistance for grass-roots units to carry out poverty alleviation risk screening.
Key words:
Rural revitalization; mixture model; logistic regression; nonparametric regression