解浩周, 劉婧宜, 高賢謖, 湯夢(mèng)琪, 丁 曼, 喬 晶
(中國(guó)移動(dòng)通信集團(tuán)設(shè)計(jì)院有限公司, 北京 100080)
鄉(xiāng)村振興是中國(guó)國(guó)家戰(zhàn)略之一,實(shí)施鄉(xiāng)村振興戰(zhàn)略是解決新時(shí)代中國(guó)社會(huì)主要矛盾、實(shí)現(xiàn)“兩個(gè)一百年”奮斗目標(biāo)和中華民族偉大復(fù)興中國(guó)夢(mèng)的必然要求。為更有效、更有針對(duì)性地實(shí)現(xiàn)鄉(xiāng)村振興戰(zhàn)略,需要對(duì)各區(qū)域的發(fā)展程度進(jìn)行評(píng)估和預(yù)測(cè),以制定合理的政策和規(guī)劃。區(qū)域發(fā)展程度是一個(gè)綜合性的概念,涉及經(jīng)濟(jì)、社會(huì)、環(huán)境、文化等多個(gè)方面的指標(biāo)。
在“東西不平衡、城鄉(xiāng)不平衡”的發(fā)展格局下,各區(qū)域由于地理環(huán)境、人力資本、設(shè)施服務(wù)、內(nèi)生發(fā)展動(dòng)力等基礎(chǔ)發(fā)展條件方面的差異性,造成不同區(qū)域鄉(xiāng)村振興水平呈現(xiàn)參差不齊的情況。因此,如何有效準(zhǔn)確地識(shí)別區(qū)域發(fā)展程度,是一個(gè)具有重要意義和挑戰(zhàn)性的問(wèn)題。
目前,關(guān)于區(qū)域發(fā)展程度的識(shí)別方法主要有兩類(lèi):一類(lèi)是基于統(tǒng)計(jì)分析的方法,如主成分分析[1]、聚類(lèi)分析[2-3]、因子分析[3]等;另一類(lèi)是基于機(jī)器學(xué)習(xí)的方法,如支持向量機(jī)[4]、決策樹(shù)[5]、神經(jīng)網(wǎng)絡(luò)[6]等。這些方法都有各自的優(yōu)點(diǎn)和局限性,但是都存在一個(gè)共同的問(wèn)題,就是如何評(píng)估結(jié)果的可信程度,即預(yù)測(cè)結(jié)果的置信度。
針對(duì)上述問(wèn)題,提出一種基于置信度評(píng)估模型的區(qū)域發(fā)展程度預(yù)測(cè)方法。首先構(gòu)建區(qū)域發(fā)展程度預(yù)測(cè)模型,然后基于預(yù)測(cè)結(jié)果及其后驗(yàn)概率設(shè)計(jì)置信度評(píng)估模型,以提升區(qū)域發(fā)展程度預(yù)測(cè)模型的識(shí)別準(zhǔn)確率和泛化能力。
《鄉(xiāng)村振興戰(zhàn)略規(guī)劃(2018-2022年)》明確指出,按照“產(chǎn)業(yè)興旺、生態(tài)宜居、鄉(xiāng)風(fēng)文明、治理有效、生活富?!钡目傄?科學(xué)有序地推動(dòng)鄉(xiāng)村產(chǎn)業(yè)、人才、文化、生態(tài)和組織振興。實(shí)施鄉(xiāng)村振興,產(chǎn)業(yè)興旺是建設(shè)現(xiàn)代化經(jīng)濟(jì)體系的重要基礎(chǔ),生態(tài)宜居是建設(shè)美麗中國(guó)的關(guān)鍵舉措,鄉(xiāng)風(fēng)文明是現(xiàn)代文明建設(shè)的重要保障,治理有效是政治建設(shè)的重要保障,生活富裕是社會(huì)主義的本質(zhì)要求。
基于以上對(duì)鄉(xiāng)村振興內(nèi)涵的闡述,徐雪和王永瑜[7]在遵循科學(xué)性、可行性、可測(cè)性和數(shù)據(jù)可獲得性等原則的基礎(chǔ)上,構(gòu)建包含產(chǎn)業(yè)興旺、生態(tài)宜居、鄉(xiāng)風(fēng)文明、治理有效和生活富裕五個(gè)子系統(tǒng),共包含30個(gè)具體指標(biāo)的中國(guó)鄉(xiāng)村振興評(píng)價(jià)指標(biāo)體系,如表1所示。
在上述指標(biāo)基礎(chǔ)上,徐雪和王永瑜[7]采用熵值法測(cè)度評(píng)價(jià)我國(guó)鄉(xiāng)村振興綜合指數(shù)和各子系統(tǒng)指數(shù),其具有客觀賦權(quán)的優(yōu)點(diǎn),可以避免專(zhuān)家賦權(quán)的主觀性,能夠?qū)嵤虑笫堑胤从掣髦笜?biāo)在綜合指標(biāo)中的重要性。
基于表1和熵值法,測(cè)算得到31個(gè)省份(因數(shù)據(jù)缺失,未包括港澳臺(tái)地區(qū))2002-2022年鄉(xiāng)村振興30個(gè)評(píng)價(jià)具體指標(biāo)和綜合指數(shù)。對(duì)于個(gè)別年份缺失的數(shù)據(jù)借鑒徐雪和王永瑜[7]中的處理方法。指標(biāo)體系中的所有數(shù)據(jù)主要來(lái)源于《中國(guó)農(nóng)村統(tǒng)計(jì)年鑒》《中國(guó)人口和就業(yè)統(tǒng)計(jì)年鑒》《中國(guó)城鄉(xiāng)建設(shè)統(tǒng)計(jì)年鑒》《中國(guó)教育統(tǒng)計(jì)年鑒》《中國(guó)城鄉(xiāng)統(tǒng)計(jì)年鑒》《中國(guó)社會(huì)統(tǒng)計(jì)年鑒》《中國(guó)民政統(tǒng)計(jì)年鑒》《中國(guó)第三產(chǎn)業(yè)統(tǒng)計(jì)年鑒》《中國(guó)農(nóng)產(chǎn)品加工業(yè)年鑒》,以及各省份統(tǒng)計(jì)年鑒、Wind數(shù)據(jù)庫(kù)、中國(guó)經(jīng)濟(jì)社會(huì)大數(shù)據(jù)研究平臺(tái)。
使用測(cè)算得到的31省份2002-2022年30個(gè)鄉(xiāng)村振興評(píng)價(jià)具體指標(biāo)作為樣本特征,針對(duì)樣本特征數(shù)據(jù)量綱不一致,采用Min-Max歸一化對(duì)樣本特征數(shù)據(jù)進(jìn)行預(yù)處理。使用由熵值法計(jì)算得到的31個(gè)省份2002-2022年鄉(xiāng)村振興綜合指數(shù)作為樣本標(biāo)簽,其中,綜合指數(shù)高于平均值的樣本為正樣本,表示該地區(qū)發(fā)展較好,低于平均值的樣本為負(fù)樣本,表示該地區(qū)發(fā)展欠佳。
置信度評(píng)估模型搭建流程如圖1所示。
圖1 置信度評(píng)估模型流程
在獲取數(shù)據(jù)后,首先使用機(jī)器學(xué)習(xí)分類(lèi)模型對(duì)預(yù)處理后得到的樣本特征和標(biāo)簽進(jìn)行訓(xùn)練,得到區(qū)域發(fā)展程度預(yù)測(cè)模型。
(1)
理想情況下,p為一個(gè)獨(dú)立向量以產(chǎn)生正確的預(yù)測(cè)結(jié)果。然而研究表明在實(shí)際情況下,p通常呈均勻分布,因此p可被用作構(gòu)建置信度評(píng)估模型的特征。
因此,為了進(jìn)一步提高區(qū)域發(fā)展程度預(yù)測(cè)模型的準(zhǔn)確度,構(gòu)建置信度評(píng)估模型以計(jì)算分類(lèi)模型對(duì)每個(gè)區(qū)域預(yù)測(cè)結(jié)果的置信程度。
置信度評(píng)估模型的數(shù)學(xué)表達(dá)式為
(2)
β被設(shè)計(jì)為一個(gè)可通過(guò)有監(jiān)督算法學(xué)習(xí)的參數(shù)。將訓(xùn)練得到的區(qū)域發(fā)展程度預(yù)測(cè)模型分類(lèi)結(jié)果用作Conf(p*,β)的訓(xùn)練數(shù)據(jù),分類(lèi)結(jié)果表示為
(3)
(4)
更新后的分類(lèi)結(jié)果數(shù)據(jù)集表示為
(5)
考慮到更高的Conf(p*,β)對(duì)應(yīng)于更準(zhǔn)確的預(yù)測(cè),以及被正確預(yù)測(cè)或錯(cuò)誤預(yù)測(cè)的樣本過(guò)多導(dǎo)致T不平衡的問(wèn)題,定義有效置信度為
(6)
式中:EC∈[-1,1];Tc僅由正確的分類(lèi)結(jié)果數(shù)據(jù)(l=1)組成;Te僅由錯(cuò)誤的分類(lèi)結(jié)果數(shù)據(jù)(l=-1)組成;Tc和Te的樣本數(shù)分別為N1和N2。基于式(6),參數(shù)β的優(yōu)化過(guò)程可被表示為
(7)
(8)
實(shí)驗(yàn)將數(shù)據(jù)集按照80%、10%、10%的比例分為訓(xùn)練集、驗(yàn)證集和測(cè)試集,超參數(shù)γ1和γ2分別選為0和1,閾值α選為0.5。具體實(shí)驗(yàn)方法為:首先使用訓(xùn)練集訓(xùn)練區(qū)域發(fā)展程度預(yù)測(cè)模型,然后將模型在驗(yàn)證集上的預(yù)測(cè)結(jié)果的后驗(yàn)概率矩陣以及根據(jù)式(4)更新后的預(yù)測(cè)結(jié)果分別作為新的樣本特征和標(biāo)簽訓(xùn)練置信度評(píng)估模型,最后在測(cè)試集上分別測(cè)得區(qū)域發(fā)展程度預(yù)測(cè)模型的準(zhǔn)確率和經(jīng)過(guò)置信度評(píng)估模型修正后的預(yù)測(cè)模型的準(zhǔn)確率,以驗(yàn)證置信度評(píng)估模型的有效性。
首先,分別使用邏輯回歸、支持向量機(jī)(support vector machian,SVM)、隨機(jī)森林和XGBoost四種算法訓(xùn)練四個(gè)區(qū)域發(fā)展程度預(yù)測(cè)模型,以下是關(guān)于上述四種算法的簡(jiǎn)要描述。
邏輯回歸[8]:是一種廣義線(xiàn)性模型,是一種用于解決二分類(lèi)問(wèn)題的機(jī)器學(xué)習(xí)方法,其本質(zhì)是假設(shè)數(shù)據(jù)服從某一分布,然后使用極大似然估計(jì)做參數(shù)的估計(jì)。
SVM[9-10]:是一類(lèi)按監(jiān)督學(xué)習(xí)方式對(duì)數(shù)據(jù)進(jìn)行二元分類(lèi)的廣義線(xiàn)性分類(lèi)器,其決策邊界是對(duì)學(xué)習(xí)樣本求解的最大邊距超平面。
隨機(jī)森林[11]:是利用多棵樹(shù)對(duì)樣本進(jìn)行訓(xùn)練并預(yù)測(cè)的一種分類(lèi)器,并且其輸出的類(lèi)別是由個(gè)別樹(shù)輸出的類(lèi)別的眾數(shù)而定。
XGBoost[12]:對(duì)梯度提升算法的改進(jìn),求解損失函數(shù)極值時(shí)使用了牛頓法,將損失函數(shù)泰勒展開(kāi)到二階,另外損失函數(shù)中加入了正則化項(xiàng)。旨在實(shí)現(xiàn)高效,靈活和便攜的模型訓(xùn)練。
然后使用多層感知器(MLP)訓(xùn)練置信度評(píng)估模型。MLP是一種前饋神經(jīng)網(wǎng)絡(luò),它由輸入層、隱藏層和輸出層組成。輸入層接收輸入數(shù)據(jù),隱藏層負(fù)責(zé)處理數(shù)據(jù),輸出層輸出處理后的結(jié)果。MLP是在不同領(lǐng)域復(fù)雜問(wèn)題的優(yōu)化中應(yīng)用最廣泛的進(jìn)化算法之一。與許多其他啟發(fā)式算法相比,它具有更好的全局搜索能力。
3.2.1 模型效果對(duì)比
為了驗(yàn)證置信度評(píng)估模型對(duì)區(qū)域發(fā)展程度預(yù)測(cè)模型分類(lèi)準(zhǔn)確度的提升作用,以及其泛化能力的優(yōu)越性,對(duì)四種區(qū)域發(fā)展程度預(yù)測(cè)模型及其對(duì)應(yīng)構(gòu)建的置信度評(píng)估模型分別進(jìn)行了對(duì)比實(shí)驗(yàn),實(shí)驗(yàn)結(jié)果如圖3所示。
圖3 置信度評(píng)估模型在不同分類(lèi)模型上的性能對(duì)比
由圖3可知,所有構(gòu)建的置信度評(píng)估模型均使原區(qū)域發(fā)展程度預(yù)測(cè)模型的準(zhǔn)確度產(chǎn)生了不同程度的提升。同時(shí),在未使用置信度評(píng)估模型的四種區(qū)域發(fā)展程度預(yù)測(cè)模型中,XGBoost具有最高的分類(lèi)準(zhǔn)確度。
3.2.2 最佳模型特征解釋
使用SHAP值對(duì)訓(xùn)練區(qū)域發(fā)展程度預(yù)測(cè)模型時(shí)表現(xiàn)最好的XGBoost模型進(jìn)行全局特征解釋,一方面展示重要性較高的特征,另一方面展示特征對(duì)模型輸出的貢獻(xiàn),全局解釋圖如圖4所示。
圖4 區(qū)域發(fā)展程度預(yù)測(cè)模型全局解釋
由圖4可知,對(duì)模型預(yù)測(cè)結(jié)果影響最大的特征是農(nóng)民人均純收入,其余產(chǎn)生主要影響的特征有農(nóng)村居民平均受教育年限、農(nóng)藥化肥施用量、農(nóng)業(yè)勞動(dòng)生產(chǎn)率、農(nóng)村居民教育文化娛樂(lè)支出占比、村主任書(shū)記“一肩挑”比例、農(nóng)村居民恩格爾系數(shù)、農(nóng)民人均收入增長(zhǎng)率等。繼續(xù)分析上述主要特征可明顯發(fā)現(xiàn),除去農(nóng)村居民恩格爾系數(shù)和農(nóng)民人均收入增長(zhǎng)率,其余特征對(duì)預(yù)測(cè)結(jié)果的影響均是正向的,即農(nóng)民人均純收入越高、農(nóng)村居民平均受教育年限越長(zhǎng)、農(nóng)藥化肥施用量越多、農(nóng)村居民恩格爾系數(shù)越低,該區(qū)域發(fā)展相對(duì)越好,這也從另一角度驗(yàn)證了方法、模型和實(shí)驗(yàn)設(shè)計(jì)的合理性。
根據(jù)實(shí)驗(yàn)得到的結(jié)果可知,對(duì)區(qū)域發(fā)展程度影響較大的因素較多,不同指標(biāo)和區(qū)域發(fā)展程度的相關(guān)性也不盡相同。因此,針對(duì)發(fā)展程度相對(duì)較好和欠佳的區(qū)域,可從不同方面提出促進(jìn)其發(fā)展的對(duì)策和建議。
對(duì)于發(fā)展較好的區(qū)域。第一,發(fā)揮比較優(yōu)勢(shì),充分利用資源、技術(shù)、人才等優(yōu)勢(shì),推動(dòng)產(chǎn)業(yè)升級(jí)和創(chuàng)新發(fā)展;第二,加強(qiáng)要素流動(dòng)和集聚,吸引更多的人才、資金和技術(shù)向該區(qū)域流動(dòng),促進(jìn)要素的高效配置和集聚;第三,加強(qiáng)創(chuàng)新發(fā)展,鼓勵(lì)加大科技創(chuàng)新投入,培育新興產(chǎn)業(yè)和高技術(shù)企業(yè),提升經(jīng)濟(jì)增長(zhǎng)質(zhì)量和效益;第四,構(gòu)建高質(zhì)量發(fā)展的動(dòng)力系統(tǒng),加強(qiáng)基礎(chǔ)設(shè)施建設(shè),提升交通、能源、信息等基礎(chǔ)設(shè)施水平,為經(jīng)濟(jì)發(fā)展提供有力支撐;第五,增強(qiáng)經(jīng)濟(jì)和人口承載能力,加強(qiáng)經(jīng)濟(jì)發(fā)展優(yōu)勢(shì)區(qū)域的建設(shè),提升其經(jīng)濟(jì)和人口承載能力,為周邊區(qū)域提供更多就業(yè)機(jī)會(huì)和發(fā)展空間。
對(duì)于發(fā)展欠佳的區(qū)域。第一,壯大龍頭企業(yè),培育一批省、市、縣級(jí)龍頭企業(yè),發(fā)揮其引領(lǐng)驅(qū)動(dòng)作用;第二,搭建融合載體,引導(dǎo)資源集聚、企業(yè)集中、功能集合,引導(dǎo)農(nóng)業(yè)與加工流通和服務(wù)業(yè)等滲透交叉、融合發(fā)展;第三,創(chuàng)響鄉(xiāng)土品牌,發(fā)掘農(nóng)業(yè)多種功能和鄉(xiāng)村多重價(jià)值,強(qiáng)化市場(chǎng)營(yíng)銷(xiāo)與綠色引領(lǐng)的對(duì)接,發(fā)掘鄉(xiāng)土資源“新綠金”;第四,支持創(chuàng)新創(chuàng)業(yè),創(chuàng)建一批農(nóng)村創(chuàng)新創(chuàng)業(yè)和實(shí)訓(xùn)孵化基地,運(yùn)用現(xiàn)代信息技術(shù),發(fā)展農(nóng)村電商、數(shù)字農(nóng)業(yè)和智慧農(nóng)業(yè);第五,加強(qiáng)教育和人才培養(yǎng),加大教育事業(yè)投入,提升人才培養(yǎng)質(zhì)量,為該區(qū)域提供更多人力資源支持。
為提高地區(qū)發(fā)展程度的識(shí)別準(zhǔn)確率及泛化性能,在基礎(chǔ)分類(lèi)模型基礎(chǔ)上構(gòu)建了置信度評(píng)估模型。模型以分類(lèi)模型的后驗(yàn)概率和預(yù)測(cè)效果為樣本,減少被錯(cuò)誤分類(lèi)的區(qū)域樣本數(shù)量,提高區(qū)域發(fā)展程度預(yù)測(cè)模型的準(zhǔn)確度,從而在對(duì)區(qū)域發(fā)展提出對(duì)策和建議時(shí)提供更可靠的分析依據(jù)。
經(jīng)過(guò)實(shí)驗(yàn)與分析,得到如下結(jié)論。
1)在中國(guó)鄉(xiāng)村振興評(píng)價(jià)指標(biāo)體系數(shù)據(jù)集上的實(shí)驗(yàn)驗(yàn)證了所構(gòu)建的置信度評(píng)估模型對(duì)各種分類(lèi)預(yù)測(cè)模型準(zhǔn)確度均具有提升效果,表明置信度評(píng)估模型提升分類(lèi)預(yù)測(cè)模型準(zhǔn)確度的有效性和高泛化性。
2)使用SHAP全局解釋圖對(duì)表現(xiàn)最好的分類(lèi)預(yù)測(cè)模型進(jìn)行特征解釋,篩選出重要性較高的特征并對(duì)其對(duì)模型輸出的貢獻(xiàn)進(jìn)行分析。
3)發(fā)展較好的區(qū)域可從發(fā)揮比較優(yōu)勢(shì)、加強(qiáng)要素流動(dòng)和集聚、加強(qiáng)創(chuàng)新發(fā)展、構(gòu)建高質(zhì)量發(fā)展的動(dòng)力系統(tǒng)和增強(qiáng)經(jīng)濟(jì)和人口承載能力等五方面進(jìn)一步促進(jìn)發(fā)展。發(fā)展欠佳的區(qū)域可以壯大龍頭企業(yè)、搭建融合載體、創(chuàng)響鄉(xiāng)土品牌、支持創(chuàng)新創(chuàng)業(yè)、加強(qiáng)教育和人才培養(yǎng)等五個(gè)方向作為切入點(diǎn)帶動(dòng)區(qū)域發(fā)展。