吳朝霞 常慶麗 王 偉
(安陽工學(xué)院,河南 安陽 455000)
在習(xí)近平總書記提出堅(jiān)決打贏脫貧攻堅(jiān)戰(zhàn)后,為響應(yīng)國家的號(hào)召,各個(gè)地區(qū)開始投入資源,推進(jìn)扶貧工作的實(shí)行。而傳統(tǒng)的扶貧工作存在一些問題,如信息查詢不夠方便、人工采集容易出錯(cuò)等。因此需要一款針對(duì)精準(zhǔn)扶貧工作的系統(tǒng)來進(jìn)行輔助,使扶貧信息管理更加細(xì)化,提升扶貧信息管理的效率,滿足扶貧機(jī)構(gòu)的相關(guān)工作需求。[1]
為了使系統(tǒng)能夠進(jìn)行精準(zhǔn)識(shí)別,可以在高校精準(zhǔn)扶貧系統(tǒng)中添加決策樹算法,利用決策樹算法實(shí)現(xiàn)趨勢(shì)分析、提供輔助決策等功能,并建立相應(yīng)的信息化支撐體系。
決策樹就是數(shù)據(jù)結(jié)構(gòu)中的樹,每一個(gè)葉子節(jié)點(diǎn)都是一種選擇的結(jié)果,而每個(gè)分叉路代表該特征的具體內(nèi)容。決策樹算法是根據(jù)離散函數(shù)值進(jìn)行分析的方法,是一種分類算法。[2]對(duì)數(shù)據(jù)進(jìn)行預(yù)處理,然后歸納總結(jié)出一個(gè)可讀的規(guī)則和決策樹,根據(jù)總結(jié)的決策樹對(duì)新的數(shù)據(jù)進(jìn)行預(yù)測(cè)分析,推測(cè)新數(shù)據(jù)的決策結(jié)果。本質(zhì)上決策樹就是通過數(shù)據(jù)特征歸納出的規(guī)則對(duì)數(shù)據(jù)進(jìn)行分類的過程。
預(yù)測(cè)模型分類結(jié)果是決策樹其中一個(gè)用途。決策樹中的每個(gè)非葉子節(jié)點(diǎn)都是根據(jù)不同的分類算法在所有的特征中相互比較得出的,從根節(jié)點(diǎn)到葉子節(jié)點(diǎn),其中的每一條路徑都是一條分類規(guī)則,決策樹就是把這些規(guī)則都統(tǒng)計(jì)組合在一起,用來進(jìn)行預(yù)測(cè)。[3]
本研究采用的是以某高校經(jīng)濟(jì)困難學(xué)生數(shù)據(jù)為模型構(gòu)建的數(shù)據(jù)訓(xùn)練集。訓(xùn)練集共包含計(jì)算機(jī)科學(xué)與技術(shù)400人,獲得補(bǔ)助的有50人,涉及的分類屬性分別是“是否建檔立卡”、“是否最低生活保障學(xué)生”、“是否特困救助學(xué)生”、“是否孤兒”、“是否事實(shí)撫養(yǎng)兒童”、“是否烈士子女”、“是否殘疾學(xué)生”、“是否殘疾人子女”(如表1家庭情況調(diào)查表所示)。
表1 家庭情況調(diào)查表
常用的決策樹實(shí)現(xiàn)算法有下述三種。
2.2.1 ID3算法
ID3算法是選出信息增益最小的屬性作為最佳劃分屬性進(jìn)行劃分,信息增益是用來度量兩種概率分布的差異,其計(jì)算公式是g(D,A)=H(D)-H(D|A),其實(shí)H(D)是集合D的熵,H(D|A)是給定條件下D的條件熵。[4]熵表示某種結(jié)果可能出現(xiàn)的程度:設(shè)Y是有限離散隨機(jī)變量,其概率為:P(Y=xi)=pi,i=1,2,3…則隨機(jī)變量Y的熵例如:一個(gè)硬幣拋10次,其中6次正面朝上,4次反面朝上,則硬幣朝上的熵為:[5]
2.2.2 C4.5算法
C4.5算法是對(duì)ID3算法進(jìn)行了改進(jìn),如果X是一個(gè)連續(xù)型隨機(jī)變量,此時(shí)采用ID3算法就無法計(jì)算了,而C4.5
算法把連續(xù)型隨機(jī)變量用區(qū)間表示,這樣就可以使用ID3算法的計(jì)算過程進(jìn)行計(jì)算,并在此基礎(chǔ)上計(jì)算出信息增益比來進(jìn)行比較,信息增益比的計(jì)算公式:
2.2.3 CART算法
CART算法是選出基尼指數(shù)選出最大的屬性作為最佳分裂屬性進(jìn)行劃分,假設(shè)有K種分類,樣本點(diǎn)屬于第k類的概率為pk,基尼指數(shù)為如果樣本集合D根據(jù)特征被劃分為D1和D2兩部分,此時(shí)集合D的基尼指數(shù)
由于本研究的數(shù)據(jù)不存在連續(xù)性,因此采用ID3算法進(jìn)行模型的構(gòu)建。首先計(jì)算集合整體的熵[8]然后計(jì)算各個(gè)分類的條件熵和信息增益,計(jì)算結(jié)果如表2特征信息增益表所示。
表2 特征信息增益表
然后選出信息增益最大的作為根節(jié)點(diǎn),根據(jù)根節(jié)點(diǎn)的特征取值,繼續(xù)選出下一節(jié)點(diǎn)。[9]直到特征值取完為止,最后生成決策樹,結(jié)果如圖1所示。決策者可以利用圖1生成的決策信息對(duì)學(xué)生進(jìn)行精準(zhǔn)資助。
圖1 生成的決策樹結(jié)果圖
本文通過對(duì)高校資助學(xué)生的基礎(chǔ)數(shù)據(jù)進(jìn)行研究,結(jié)合機(jī)器學(xué)習(xí)的決策樹算法,經(jīng)過大量的樣本訓(xùn)練,最后基于ID3的決策樹算法生成了基于高校精準(zhǔn)扶貧的決策樹模型。[10]為高校的扶貧資助工作提供參考,為扶貧工作的量化估計(jì)提供了解決方案。