賀遠(yuǎn)珍 樊重俊 熊紅林
(1.上海理工大學(xué)管理學(xué)院 上海 200093)(2.上海交通大學(xué)安泰經(jīng)濟(jì)與管理學(xué)院 上海 200240)
隨著“互聯(lián)網(wǎng)+”的普及,信息化應(yīng)用到社會(huì)生活與政府機(jī)構(gòu)的各方面,尤其是國家各部門相關(guān)工作。在《社會(huì)救助暫行辦法》和《關(guān)于改革完善社會(huì)救助制度的意見》中,國務(wù)院明確表示救助業(yè)務(wù)要本著公平公正的原則,促進(jìn)社會(huì)和諧和人民共同富裕,科技化精準(zhǔn)救助是其中必不可少的部分。目前,國內(nèi)外民政部門的社會(huì)救助管理系統(tǒng)的設(shè)計(jì)和實(shí)現(xiàn)都趨向成熟。但精準(zhǔn)識(shí)別被救助人員任務(wù)上仍存在缺陷,比如救助范圍較寬且標(biāo)準(zhǔn)不清晰,因此在決定被救助人員和救助金額時(shí)往往存在不確定性。當(dāng)前各個(gè)基層單位是救助業(yè)務(wù)的主要管理者和實(shí)踐者,被救助人員及金額大多由基層工作人員憑借經(jīng)驗(yàn)來判定,這容易造成評(píng)判標(biāo)準(zhǔn)的隨意性和不統(tǒng)一。因此,在信息化這樣一個(gè)大背景下,如何實(shí)現(xiàn)精準(zhǔn)救助是一個(gè)亟待解決的問題。
社會(huì)救助對(duì)象的類型判定需要多方了解家庭的困難情況,需要考慮家庭各個(gè)特征并按照政策進(jìn)行分類,在這個(gè)過程中業(yè)務(wù)員的判斷是確定救助類型的主要依據(jù)。但現(xiàn)實(shí)生活中各家庭在各指標(biāo)上存在參差,并且業(yè)務(wù)員受自身的家庭環(huán)境、教育環(huán)境影響和對(duì)政策的理解不同等因素導(dǎo)致判定結(jié)果具有主觀性,這會(huì)增加判定工作的難度。對(duì)此,在機(jī)器學(xué)習(xí)的步步發(fā)展下,各種能解決該問題的機(jī)器學(xué)習(xí)模型也相繼被提出。目前,針對(duì)被救助對(duì)象困難等級(jí)判定的預(yù)測方法主要有層次分析法[1],隨機(jī)森林[2]等,這些模型的應(yīng)用都已經(jīng)取得了很好的效果。還有一些其他貧困等級(jí)的判定,文獻(xiàn)[3]利用所有相關(guān)專家的匯總信息,描述為概率語言術(shù)語集,將貧困家庭進(jìn)行排名和聚類。文獻(xiàn)[4]通過SOFM 網(wǎng)絡(luò)對(duì)河北省貧困縣進(jìn)行等級(jí)劃分。文獻(xiàn)[5]構(gòu)建了基于REAHCOR 新型特征選擇算法與GBDT 分類算法結(jié)合的模型,并把該模型應(yīng)用到貧困分級(jí)評(píng)價(jià)系統(tǒng)中。
一般來說,社會(huì)救助常見類型有低保、低收入、重殘無業(yè)、特困、支出型救助、臨時(shí)救助等。在實(shí)際的研究過程中,因?yàn)闃颖緮?shù)據(jù)分布極度不均衡,傳統(tǒng)分類器會(huì)在多數(shù)類樣本中表現(xiàn)效果更佳,甚至忽略少數(shù)類樣本對(duì)于整體問題的影響。這就使得社會(huì)救助困難類別的預(yù)測成為不平衡數(shù)據(jù)多分類問題。傳統(tǒng)的分類方法通?;诟黝悩颖镜臄?shù)據(jù)分布大致相當(dāng),各類樣本錯(cuò)分的代價(jià)也大致相同的假設(shè),往往不能達(dá)到理想的分類效果。常見的不平衡數(shù)據(jù)問題包括入侵檢測[6]、醫(yī)療診斷[7]、信用風(fēng)險(xiǎn)評(píng)價(jià)[8]等。目前,解決數(shù)據(jù)的不平衡性的方法有很多,主要分為3 類:第1 類是采樣法,包括欠采樣[9]、過采樣[10]和混合采樣[11];第2類是代價(jià)敏感學(xué)習(xí)[12~13],通過為少數(shù)類賦予相對(duì)高的錯(cuò)分代價(jià)和為多數(shù)類賦予相對(duì)低的錯(cuò)分代價(jià)來提高少數(shù)類的分類性能;第3類是集成學(xué)習(xí)[14]。
基于此,本文提出一種新的用于解決不平衡多分類問題的模型,該模型結(jié)合了代價(jià)敏感學(xué)習(xí)和集成學(xué)習(xí)兩種方式嘗試構(gòu)建代價(jià)敏感的AdaBoost 雙層分類算法來對(duì)社會(huì)救助類型的進(jìn)行分類分析和研究,探討更有效的精準(zhǔn)社會(huì)救助技術(shù)手段與應(yīng)對(duì)策略。實(shí)驗(yàn)結(jié)果表明,與多個(gè)模型比較,本文所提出模型在社會(huì)救助的精準(zhǔn)識(shí)別有更高的預(yù)測精度和更強(qiáng)的穩(wěn)定性,能為社會(huì)救助事業(yè)的精準(zhǔn)識(shí)別提供更好的輔助決策參考。
由于社會(huì)救助本身就是一個(gè)復(fù)雜的事務(wù),且各個(gè)省市政策不同評(píng)判標(biāo)準(zhǔn)也具有很大差異,僅依靠人力對(duì)被救助對(duì)象進(jìn)行分類是十分耗時(shí)和繁雜的。因此,應(yīng)用數(shù)據(jù)能很好地為社會(huì)救助事業(yè)提供客觀化、高效化的結(jié)果。眾所周知,社會(huì)救助中被救助人員大多屬于低保、低收入等類型,積累的數(shù)據(jù)集具有很高的不平衡性且分類標(biāo)簽多。因此,本文針對(duì)上海市社會(huì)救助政策尋求構(gòu)建一種新的基于不平衡性多分類問題的模型,以獲得救助過程中的客觀且精細(xì)的決策,它也為各省的社會(huì)救助信息化事業(yè)提供一個(gè)參考。
AdaBoost是一種經(jīng)典的集成算法之一,是通過有限次迭代生成多個(gè)泛化能力較差的弱分類器,并在最后通過弱分類器的權(quán)重組合生成一個(gè)具有良好分類效果的強(qiáng)分類器,從而提高整個(gè)分類器的精確度。具體的算法思想[15]如下:
令訓(xùn)練集S={(x1,y1),(x2,y2),…,(xm,ym)},其中xi為第n個(gè)樣本的n維特征向量,yi為樣本標(biāo)簽,令迭代次數(shù)為T。
1)初始化訓(xùn)練樣本權(quán)重
給定各訓(xùn)練樣本一個(gè)初始權(quán)重值,在第一輪迭代中各樣本的權(quán)值平均分布,即:
其中,ω1i表示第一輪迭代中第t=1,2,…,T個(gè)樣本權(quán)重;初始化各樣本的權(quán)重為t=1,2,…,T,t=1,2,…,T為總樣本數(shù)。
2)對(duì)t=1,2,…,T重復(fù)以下操作得到T個(gè)弱分類器:
(1)按照樣本權(quán)值向Dt訓(xùn)練數(shù)據(jù),根據(jù)htk(x)=σ(S,Dt),k=1,2,…,j的各個(gè)特征參量獨(dú)立生成一個(gè)分類器htk(x):
其中,S為訓(xùn)練樣本集;σ(?)為基學(xué)習(xí)算法。
(2)根據(jù)式(3)分別計(jì)算j個(gè)分類器的加權(quán)誤差率ωti,取ωti最小的分類器為最終弱分類器,記為ωti,誤差率為ωti:
其中,ωti為第t輪迭代中第i個(gè)樣本的權(quán)重值。
(3)計(jì)算ht(x)的系數(shù)(即在最終集成得到的強(qiáng)學(xué)習(xí)器中所占權(quán)重值):
(4)更新訓(xùn)練樣本的權(quán)重向量D,以降低正確分類的樣本權(quán)重值,提高錯(cuò)分的樣本權(quán)重值,引入的Zt是規(guī)范化因子,使Dt+1的所有元素和為1。
3)經(jīng)過T輪迭代,通過弱學(xué)習(xí)器加權(quán)線性組合構(gòu)建最終的強(qiáng)分類器G(x)為
根據(jù)文獻(xiàn)[16]對(duì)多項(xiàng)邏輯回歸模型的定義,項(xiàng)邏輯回歸模型是邏輯回歸的推廣,可用于多類分類。假設(shè)離散型隨機(jī)變量Y 的取值集合是{1,2,…,K},那么Softmax回歸模型:
其中,xRN+1,wkRN+1。
Softmax 回歸模型是一個(gè)判別式模型,具有多種模型正則化的方法,在實(shí)際運(yùn)用中可避免多重共線性的問題。與決策樹、支持向量機(jī)相比,Softmax回歸模型可以得到一個(gè)可解釋的概率架構(gòu),并且能輕松通過新數(shù)據(jù)的加入對(duì)模型進(jìn)行實(shí)時(shí)更新。由于Softmax 回歸模型具有在分類時(shí)計(jì)算量小,計(jì)算速度快,儲(chǔ)存空間占用低等優(yōu)點(diǎn),因此廣泛應(yīng)用于數(shù)據(jù)量大,特征空間小的工業(yè)問題上。
根據(jù)救助數(shù)據(jù)具備類別數(shù)量呈現(xiàn)極端趨勢的特點(diǎn),設(shè)計(jì)一個(gè)“多轉(zhuǎn)二”機(jī)制將數(shù)據(jù)集由多分類問題轉(zhuǎn)化為二分類問題,即將樣本數(shù)量相當(dāng)?shù)淖鳛橐活?,幾個(gè)多數(shù)類合成總體多數(shù)類,幾個(gè)少數(shù)類合成總體少數(shù)類。將總體分為兩類,但這個(gè)二分類問題具有極度不平衡性。
本文引入有代價(jià)敏感機(jī)制的AdaBoost模型(又稱Adacost 模型)來對(duì)這個(gè)極度不平衡的二分類問題進(jìn)行分類。Adacost 模型的實(shí)現(xiàn)方法是在Ada?Boost 機(jī)制里的調(diào)整系數(shù)中增加一個(gè)代價(jià)因子bi,所以新的權(quán)重更新公式如下:
綜上,可以得到總體多數(shù)類和少數(shù)類的二分類結(jié)果。然后在二分類結(jié)果的基礎(chǔ)上,將問題進(jìn)一步轉(zhuǎn)化為兩個(gè)數(shù)量相當(dāng)?shù)木舛喾诸悊栴},再利用能有效規(guī)避多重有線性的Softmax回歸模型對(duì)它們分別進(jìn)行分類。從而構(gòu)成針對(duì)不平衡數(shù)據(jù)集的多分類問題的CA-SF模型結(jié)構(gòu)如圖1所示。
圖1 CA-SF模型結(jié)構(gòu)圖
CA-SF模型的建模步驟如下:
Step1 對(duì)不符合救助條件的樣本刪除,將反映家庭個(gè)體的樣本特征維度通過比例法轉(zhuǎn)化為家庭總體特征。
Step2 對(duì)經(jīng)過Step1 的數(shù)據(jù)進(jìn)行標(biāo)準(zhǔn)化處理,消除量綱影響。再給樣本集基于類別數(shù)量均衡原則增加一個(gè)二類標(biāo)簽列,并將其按照7∶3 的比例分為訓(xùn)練集和測試集。
Step3 通過式(1)~(4)、式(6)~(7)和式(10)對(duì)Step2得到的二類數(shù)據(jù)集的訓(xùn)練集進(jìn)行二分類訓(xùn)練,得到強(qiáng)學(xué)習(xí)分類器H(x),獲得測試集的二分類的預(yù)測結(jié)果y*。
Step4 根據(jù)Step2 得到的二類標(biāo)簽為準(zhǔn)將訓(xùn)練集中分為兩個(gè)子樣本訓(xùn)練集。再根據(jù)Step3得到預(yù)測值將測試集分為兩個(gè)子樣本集,分別是少數(shù)類和多數(shù)類測試集。對(duì)兩個(gè)子訓(xùn)練集分別用Softmax回歸進(jìn)行分類,并在子測試集中進(jìn)行測試,得到總測試集預(yù)測值y′。
為驗(yàn)證本文提出的模型有效性,本文對(duì)此開展了實(shí)證分析。本研究得到了上海市民政局信息研究中心的支持,研究數(shù)據(jù)社會(huì)救助相關(guān)人員家庭情況數(shù)據(jù)來自于上海市2020 年救助人員數(shù)據(jù)庫。根據(jù)上海市民政局相關(guān)政策將不符合條件的救助對(duì)象刪除,余下的數(shù)據(jù)作為研究對(duì)象。由于數(shù)據(jù)集中的文化特征反映的是家庭每個(gè)成員的個(gè)人特征,而不是家庭總體特征,因此將文化特征分為文盲、義務(wù)教育和高水平教育三個(gè)級(jí)別按照比例法進(jìn)行計(jì)算分類,得到新的家庭文化特征,其他特征均為原始數(shù)據(jù),數(shù)據(jù)集中被救助家庭的相關(guān)變量描述如表1 所示,分別從家庭的經(jīng)濟(jì)情況、年齡分布、文化水平、勞動(dòng)能力四個(gè)方面對(duì)數(shù)據(jù)進(jìn)行了描述。
表1 被救助家庭的相關(guān)變量描述
根據(jù)上海市社會(huì)救助類別等級(jí)分類政策,將社會(huì)救助類別劃分為五個(gè)類別,多數(shù)類別包括低保、低收入和重殘無業(yè),少數(shù)類類別包括支出型貧困和特困,對(duì)各類別進(jìn)行編碼得到:1)重殘無業(yè),2)支出型,3)特困,4)低收入,5)低保,部分?jǐn)?shù)據(jù)如表2 所示。該數(shù)據(jù)集共包括162299 例樣本,考慮13 個(gè)特征維度,按照7∶3 的比例對(duì)樣本集進(jìn)行劃分為訓(xùn)練集和測試集兩部分,樣本分布的情況如表3 所示。用各類別間的數(shù)量差來表示該樣本集的不平衡度??梢钥吹皆谖鍌€(gè)類別中,支出型救助類型占比最少,不足百分之一;低保救助類型占比最多,超過百分之五十;其他三種類型分布仍然不均衡。兩個(gè)類別之間的不平衡度最高可達(dá)1∶70,最低低至1∶1.66。
表2 社會(huì)救助數(shù)據(jù)集類別編碼后的部分?jǐn)?shù)據(jù)展示
表3 數(shù)據(jù)集中被救助家庭類型分布情況
由于在樣本中經(jīng)濟(jì)特征的數(shù)值與其他特征的數(shù)值差異較大,為避免差異過大影響算法的迭代過程,因此對(duì)數(shù)據(jù)進(jìn)行標(biāo)準(zhǔn)化處理。對(duì)每一列特征屬性計(jì)算均值、最大值和最小值,然后通過式(11)對(duì)所有樣本屬性值進(jìn)行歸一化處理。
在不平衡的社會(huì)救助數(shù)據(jù)中僅僅使用準(zhǔn)確率作為評(píng)價(jià)標(biāo)準(zhǔn)是不合理的,因?yàn)樯贁?shù)類數(shù)量占比極少,若這些少數(shù)類全部預(yù)測為多數(shù)類,準(zhǔn)確率依舊可以保持在一個(gè)相當(dāng)高的水平。因此,本文采用各類別分別的查準(zhǔn)率(precision)、查全率(recall)、F1值對(duì)分類能力進(jìn)行衡量,相應(yīng)的計(jì)算公式如下。
為驗(yàn)證CA-SF 算法的有效性與優(yōu)越性,本文將與其他常見的經(jīng)典多分類模型進(jìn)行對(duì)比實(shí)驗(yàn),包括支持向量機(jī)(SVM)、人工神經(jīng)網(wǎng)絡(luò)(ANN)、隨即森林(RF)、多項(xiàng)邏輯回歸(SF)、具有樣本權(quán)重機(jī)制的梯度提升隨機(jī)樹(LightGBM)。其中SVM 采用的核函數(shù)為RBF 核,LightGBM 模型中的樣本權(quán)重矩陣為w=[1,1.3,1.2,1.1,1]。
通過多次試驗(yàn),CA-SF在第一層的不平衡二分類問題中最佳代價(jià)矩陣如表4 所示。通過實(shí)驗(yàn)得到以上六種模型的查準(zhǔn)率、查全率和F1值的最終結(jié)果,其對(duì)比情況如表5 所示。為了更加直觀地比較和分析各個(gè)模型的分類效果,并將其繪制成折線圖,具體如圖2~4所示。
表4 Adaboost二分類模型代價(jià)矩陣
表5 各算法的查準(zhǔn)率、查全率、F1值對(duì)比情況
從各類別的F1值上來看,CA-SF與四個(gè)經(jīng)典多分類模型比較有三個(gè)最大值,其余兩個(gè)也與最大值差異較小,這說明本文模型相比于傳統(tǒng)分類模型在不平衡數(shù)據(jù)集上的分類效果更好,有著更強(qiáng)的穩(wěn)定性。同時(shí),無論是常規(guī)模型還是本文所提出的模型在類型1、2、5 中表現(xiàn)相較于3、4 更好,說明在訓(xùn)練過程中1、2、5 的特征表現(xiàn)更加突出,而3、4 的特征表現(xiàn)不太突出,數(shù)據(jù)集可能存在高類重疊率。在其中表現(xiàn)最不好的模型是SVM,在第二個(gè)類別中有著最高召回率,但是卻擁有最低精確率,這樣的結(jié)果對(duì)于最終的分類來說缺乏說服力。
圖2~圖4 反映出CA-SF 模型的最大值數(shù)量在查準(zhǔn)率、查全率和F 值均高于其他算法,因此在社會(huì)救助精準(zhǔn)識(shí)別問題上CA-SF 模型是表現(xiàn)最優(yōu)異的,它可以有效地減少不平衡性對(duì)分類的影響。此外,進(jìn)一步計(jì)算出SVM、ANN、RF、SF、LightGBM 和CA-SF 各模型的總體準(zhǔn)確率值,分別為0.8280、0.8299、0.8385、0.8255、0.8391、0.8617,以及F1值的方 差,分 別 為0.0968、0.0540、0.0317、0.0320、0.0301、0.0206。由此也可說明,在不平衡的多分類問題中,本文所提出模型具有更好的有效性和穩(wěn)定性。
圖2 各算法查準(zhǔn)率對(duì)比圖
圖3 各算法查全率對(duì)比圖
圖4 各算法F1值對(duì)比圖
CA-SF 模型在第一層分類中將不平衡部分單獨(dú)進(jìn)行處理,充分抓住了問題的根節(jié)點(diǎn),盡可能減少不平衡性對(duì)多分類效果帶來的干擾,使最終分類更具有效性,并第二層中的Softmax 回歸對(duì)數(shù)量均衡的多分類問題有著很好的分類能力。將CA-SF模型與帶有樣本權(quán)重機(jī)制的LightGBM 模型的F1比較顯示CA-SF 模型也具有更明顯的優(yōu)勢,據(jù)此可以推測將不平衡性的問題放在二分類中解決比直接對(duì)多分類問題進(jìn)行“一刀切”式解決更加有效。
在社會(huì)救助精準(zhǔn)識(shí)別業(yè)務(wù)數(shù)據(jù)集上,當(dāng)救助對(duì)象的類型劃分為比較少見的特困類型和支出型困難類型或者劃分為比較多見的低保、低收入、重殘無業(yè)類時(shí),Softmax 回歸對(duì)數(shù)據(jù)集進(jìn)行分類,可以使得整體多分類達(dá)到很好的效果,會(huì)降低數(shù)量不均衡導(dǎo)致的訓(xùn)練器偏好性影響。由此可見,CA-SF模型可以更好地去處理救助對(duì)象的精準(zhǔn)識(shí)別問題,為社會(huì)救助的困難識(shí)別提供一個(gè)可行的方案,推進(jìn)了社會(huì)救助的信息化建設(shè),同時(shí)推動(dòng)了民政事業(yè)在數(shù)字經(jīng)濟(jì)中的發(fā)展。
針對(duì)救助業(yè)務(wù)數(shù)據(jù)集的各類別的極度不平衡性,根據(jù)CA-SF 模型來對(duì)這個(gè)數(shù)據(jù)集進(jìn)行分類分析,并以上海市社會(huì)救助數(shù)據(jù)為實(shí)證進(jìn)行驗(yàn)證,結(jié)果表明該方法效果明顯。由于數(shù)據(jù)的隱私性,本研究內(nèi)容中的家庭救助指標(biāo)選擇和分類標(biāo)簽僅針對(duì)上海市政策指向,但方法模型普遍適用于不平衡多分類問題的研究。本研究成果對(duì)于民政局準(zhǔn)確判斷被救助人員的救助類型有著重要的參考意義。該模型能在訓(xùn)練過程中有效利用錯(cuò)誤率和代價(jià)因子來區(qū)分少數(shù)類和多數(shù)類,保證了樣本的最佳可分離性。模型的立足點(diǎn)在于樣本數(shù)據(jù)的多個(gè)特征均被運(yùn)用于優(yōu)化分類任務(wù)結(jié)果,對(duì)救助類別進(jìn)行分類分析。通過實(shí)驗(yàn)表明該算法對(duì)不平衡多分類問題的處理有著明顯的效果。
社會(huì)救助類型的預(yù)測準(zhǔn)確率存在提升空間。一方面本文對(duì)救助類別的研究中只考慮了家庭經(jīng)濟(jì)中的現(xiàn)金流和貨幣資產(chǎn)的影響,實(shí)際上影響困難判定的經(jīng)濟(jì)因素是多種多樣的,如家庭擁有的固定資產(chǎn)和醫(yī)療保險(xiǎn)支出等綜合因素;另一方面,本文是從數(shù)據(jù)的不平衡性出發(fā),實(shí)際上不平衡數(shù)據(jù)通常具有類重疊性,這個(gè)特點(diǎn)對(duì)預(yù)測精度具有一定的影響。后續(xù)筆者另行撰文將進(jìn)一步研究增加這些因素以及優(yōu)化算法降低類重疊率的預(yù)測分析。