吳朝霞 常慶麗 王偉
摘 要 目前,部分企業(yè)與政府部門已經(jīng)針對(duì)扶貧工作開(kāi)發(fā)了對(duì)應(yīng)的系統(tǒng),這些系統(tǒng)提供了對(duì)貧困用戶的精準(zhǔn)識(shí)別、精確幫扶、精確管理以及數(shù)據(jù)分析決策功能。但是常用的精準(zhǔn)扶貧很難進(jìn)行量化評(píng)估,為了解決該問(wèn)題,本文通過(guò)大量的數(shù)據(jù)樣本,結(jié)合數(shù)據(jù)本身的特點(diǎn)選擇了決策樹(shù)算法對(duì)扶貧數(shù)據(jù)進(jìn)行研究。最后通過(guò)大量的樣本數(shù)據(jù)和ID3算法得出了基于高校學(xué)生的精準(zhǔn)扶貧模型,可以很好的評(píng)價(jià)度量學(xué)生的資助政策。
關(guān)鍵詞 幫扶模型 決策樹(shù) ID3
中圖分類號(hào):O1 文獻(xiàn)標(biāo)識(shí)碼:A 文章編號(hào):1007-0745(2021)11-0056-03
在習(xí)近平總書(shū)記提出堅(jiān)決打贏脫貧攻堅(jiān)戰(zhàn)后,為響應(yīng)國(guó)家的號(hào)召,各個(gè)地區(qū)開(kāi)始投入資源,推進(jìn)扶貧工作的實(shí)行。而傳統(tǒng)的扶貧工作存在一些問(wèn)題,如信息查詢不夠方便、人工采集容易出錯(cuò)等。因此需要一款針對(duì)精準(zhǔn)扶貧工作的系統(tǒng)來(lái)進(jìn)行輔助,使扶貧信息管理更加細(xì)化,提升扶貧信息管理的效率,滿足扶貧機(jī)構(gòu)的相關(guān)工作需求。[1]
為了使系統(tǒng)能夠進(jìn)行精準(zhǔn)識(shí)別,可以在高校精準(zhǔn)扶貧系統(tǒng)中添加決策樹(shù)算法,利用決策樹(shù)算法實(shí)現(xiàn)趨勢(shì)分析、提供輔助決策等功能,并建立相應(yīng)的信息化支撐體系。
1 決策樹(shù)算法
決策樹(shù)就是數(shù)據(jù)結(jié)構(gòu)中的樹(shù),每一個(gè)葉子節(jié)點(diǎn)都是一種選擇的結(jié)果,而每個(gè)分叉路代表該特征的具體內(nèi)容。決策樹(shù)算法是根據(jù)離散函數(shù)值進(jìn)行分析的方法,是一種分類算法。[2]對(duì)數(shù)據(jù)進(jìn)行預(yù)處理,然后歸納總結(jié)出一個(gè)可讀的規(guī)則和決策樹(shù),根據(jù)總結(jié)的決策樹(shù)對(duì)新的數(shù)據(jù)進(jìn)行預(yù)測(cè)分析,推測(cè)新數(shù)據(jù)的決策結(jié)果。本質(zhì)上決策樹(shù)就是通過(guò)數(shù)據(jù)特征歸納出的規(guī)則對(duì)數(shù)據(jù)進(jìn)行分類的過(guò)程。
預(yù)測(cè)模型分類結(jié)果是決策樹(shù)其中一個(gè)用途。決策樹(shù)中的每個(gè)非葉子節(jié)點(diǎn)都是根據(jù)不同的分類算法在所有的特征中相互比較得出的,從根節(jié)點(diǎn)到葉子節(jié)點(diǎn),其中的每一條路徑都是一條分類規(guī)則,決策樹(shù)就是把這些規(guī)則都統(tǒng)計(jì)組合在一起,用來(lái)進(jìn)行預(yù)測(cè)。[3]
2 決策精準(zhǔn)扶貧模型
2.1 數(shù)據(jù)的預(yù)處理
本研究采用的是以某高校經(jīng)濟(jì)困難學(xué)生數(shù)據(jù)為模型構(gòu)建的數(shù)據(jù)訓(xùn)練集。訓(xùn)練集共包含計(jì)算機(jī)科學(xué)與技術(shù)400人,獲得補(bǔ)助的有50人,涉及的分類屬性分別是“是否建檔立卡”、“是否最低生活保障學(xué)生”、“是否特困救助學(xué)生”、“是否孤兒”、“是否事實(shí)撫養(yǎng)兒童”、“是否烈士子女”、“是否殘疾學(xué)生”、“是否殘疾人子女”(如表1家庭情況調(diào)查表所示)。
2.2 數(shù)據(jù)模型的構(gòu)建
常用的決策樹(shù)實(shí)現(xiàn)算法有下述三種。
2.2.1 ID3算法
2.2.2 C4.5算法
C4.5算法是對(duì)ID3算法進(jìn)行了改進(jìn),如果X是一個(gè)連續(xù)型隨機(jī)變量,此時(shí)采用ID3算法就無(wú)法計(jì)算了,而C4.5算法把連續(xù)型隨機(jī)變量用區(qū)間表示,這樣就可以使用ID3算法的計(jì)算過(guò)程進(jìn)行計(jì)算,并在此基礎(chǔ)上計(jì)算出信息增益比來(lái)進(jìn)行比較,信息增益比的計(jì)算公式:
2.2.3 CART算法
CART算法是選出基尼指數(shù)選出最大的屬性作為最佳分裂屬性進(jìn)行劃分,假設(shè)有K種分類,樣本點(diǎn)屬于第k類的概率為pk,基尼指數(shù)為Gini(p)=∑Kk=11-pk2,如果樣本集合D根據(jù)特征被劃分為D1和D2兩部分,此時(shí)集合D的基尼指數(shù)Gini(D,A)=Gini(D1)+Gini(D21)。[7]
由于本研究的數(shù)據(jù)不存在連續(xù)性,因此采用ID3算法進(jìn)行模型的構(gòu)建。首先計(jì)算集合整體的熵-(log2+log2),[8]然后計(jì)算各個(gè)分類的條件熵和信息增益,計(jì)算結(jié)果如表2特征信息增益表所示。
然后選出信息增益最大的作為根節(jié)點(diǎn),根據(jù)根節(jié)點(diǎn)的特征取值,繼續(xù)選出下一節(jié)點(diǎn)。[9]直到特征值取完為止,最后生成決策樹(shù),結(jié)果如圖1所示。決策者可以利用圖1生成的決策信息對(duì)學(xué)生進(jìn)行精準(zhǔn)資助。
3 結(jié)論
本文通過(guò)對(duì)高校資助學(xué)生的基礎(chǔ)數(shù)據(jù)進(jìn)行研究,結(jié)合機(jī)器學(xué)習(xí)的決策樹(shù)算法,經(jīng)過(guò)大量的樣本訓(xùn)練,最后基于ID3的決策樹(shù)算法生成了基于高校精準(zhǔn)扶貧的決策樹(shù)模型。[10]為高校的扶貧資助工作提供參考,為扶貧工作的量化估計(jì)提供了解決方案。
參考文獻(xiàn):
[1] 劉鳴,許鐘元,齊云鶴.基于決策樹(shù)算法的高校學(xué)生精準(zhǔn)資助策略[J].黑河學(xué)院學(xué)報(bào),2019,10(10):118-120,140.
[2] 劉筱曼.基于決策樹(shù)算法的5M1E在GS公司外貿(mào)服裝產(chǎn)品質(zhì)量控制中的應(yīng)用[D].上海外國(guó)語(yǔ)大學(xué),2021.
[3] 宋歌.基于模糊神經(jīng)網(wǎng)絡(luò)的勘探資源數(shù)據(jù)挖掘方法研究與實(shí)現(xiàn)[D].中國(guó)石油大學(xué)(北京) ,2018.
[4] 曹琦.基于數(shù)據(jù)挖掘的錄井剖面歸位解釋處理方法研究[D].東北石油大學(xué),2019.
[5] 賴國(guó)鴻.面向數(shù)據(jù)挖掘的招生迎新信息系統(tǒng)的設(shè)計(jì)與實(shí)現(xiàn)[D].華南農(nóng)業(yè)大學(xué),2018.
[6] 李云.大數(shù)據(jù)分析技術(shù)及其在貧困生幫扶工作中的應(yīng)用研究[D].貴州大學(xué),2018.
[7] 田昆.基于Logistic回歸分析的返貧預(yù)測(cè)模型研究[D].西北師范大學(xué),2018.
[8] 唐業(yè)喜. 基于AHP和CM模型的貧困生精準(zhǔn)認(rèn)定與實(shí)證分析[J].教育財(cái)會(huì)研究,2017(05):47-53.
[9] 唐雪.大數(shù)據(jù)時(shí)代高校精準(zhǔn)資助體系構(gòu)建與發(fā)展策略[J].高等建筑教育,2017(04):132-135.
[10] 白華,徐英.扶貧攻堅(jiān)視角下高校建檔立卡生精準(zhǔn)資助探析[J].國(guó)家教育行政學(xué)院學(xué)報(bào),2017(03):16-21.