褚蕾蕾 孟利霞 鄭健 夏光峰 劉年生
摘 要:在高等院校的不斷擴(kuò)招形勢(shì)下,貧困生已經(jīng)成為一類典型的大學(xué)生群體。為促進(jìn)高校教育的公平公正發(fā)展,保證大學(xué)生身心發(fā)展的健康,對(duì)貧困生的資助已經(jīng)成為國(guó)家的一項(xiàng)重要政策,同時(shí),如何進(jìn)行高校貧困學(xué)生的精準(zhǔn)資助已經(jīng)成為貧困生資助的熱點(diǎn)問(wèn)題。本文研究了一種高校虛假貧困生的辨識(shí)算法,通過(guò)采集貧困生的校園卡消費(fèi)數(shù)據(jù),提取其中關(guān)鍵指標(biāo),再采用孤立森林異常點(diǎn)檢測(cè)法對(duì)其中的異常數(shù)據(jù)進(jìn)行監(jiān)測(cè),從而辨識(shí)出虛假貧困。采用實(shí)際算例進(jìn)行分析,其結(jié)果表明了本文提出方法的有效性。
關(guān)鍵詞:高校;虛假貧困;精準(zhǔn)資助;孤立森林
中圖分類號(hào):TP393.1 文獻(xiàn)標(biāo)識(shí)碼:A 文章編號(hào):1671-2064(2019)06-0044-02
0 引言
隨著中國(guó)高等教育普及化,以及高等學(xué)校不斷擴(kuò)招的形勢(shì)下,一種典型的大學(xué)生群體:貧困生群體已經(jīng)越來(lái)越受到人們的關(guān)注。為保證高等教育公平公正的原則,國(guó)家出臺(tái)了一系列政策,建立了完善的貧困生資助體系,保障了貧困生順利的完成學(xué)業(yè)和研究。然而,現(xiàn)有的條件下,仍然在少數(shù)場(chǎng)合存在著資助準(zhǔn)確性不高的問(wèn)題,即少數(shù)貧困生未能獲得國(guó)家資助,反而少數(shù)非貧困生卻受到了資助。因此,如何實(shí)現(xiàn)精準(zhǔn)資助一直是貧困生認(rèn)定和資助領(lǐng)域的重點(diǎn)和難點(diǎn)問(wèn)題。
近年來(lái),人工智能理論的發(fā)展為貧困生的精準(zhǔn)資助提供了一種基于實(shí)際消費(fèi)數(shù)據(jù)的新思路。與傳統(tǒng)的走訪或調(diào)查問(wèn)卷的方法不同,基于數(shù)據(jù)的方法完全依賴于大學(xué)生的實(shí)際消費(fèi)數(shù)據(jù),提高了資助認(rèn)定的客觀性和可靠性,已成為新的研究熱點(diǎn)。例如,文獻(xiàn)[1]基于校園一卡通數(shù)據(jù),采用支持向量機(jī)(SVM)算法,歸納了高校大學(xué)生消費(fèi)的兩種消費(fèi)模式;文獻(xiàn)[2]基于校園一卡通、宿舍門(mén)禁、圖書(shū)館借閱信息,結(jié)合k-means聚類方法,對(duì)大學(xué)生的貧困程度進(jìn)行預(yù)測(cè)。文獻(xiàn)[3]基于高校學(xué)生消費(fèi)數(shù)據(jù),采用描述性統(tǒng)計(jì)和非參數(shù)檢驗(yàn)的方法,描述了貧困生和非貧困生在消費(fèi)上的差異性。
本文采用孤立森林算法對(duì)高校虛假貧困現(xiàn)象進(jìn)行檢測(cè)與辨識(shí),首先采集高校學(xué)生的校園一卡通數(shù)據(jù),再抽取其中關(guān)鍵特征,使用孤立森林算法進(jìn)行異常數(shù)據(jù)檢測(cè)。對(duì)其異常數(shù)據(jù)進(jìn)行分析,便可精準(zhǔn)監(jiān)測(cè)到虛假貧困現(xiàn)象并對(duì)其預(yù)警。采用實(shí)際算例進(jìn)行算法論證,其結(jié)果表明了本文方法的有效性和實(shí)用性。
1 背景知識(shí)
1.1 虛假貧困
所謂虛假貧困現(xiàn)象是指某些非貧困生通過(guò)各種手段獲得國(guó)家貧困生資助的現(xiàn)象。雖然這類現(xiàn)象屬于極少數(shù)個(gè)例,但是卻嚴(yán)重影響了貧困生資助的公平公正性,在高校學(xué)生群體之間造成不良的影響。因此,如何對(duì)虛假貧困現(xiàn)象進(jìn)行辨識(shí)是精準(zhǔn)資助領(lǐng)域的重要子問(wèn)題。
1.2 高校一卡通數(shù)據(jù)
我國(guó)高校內(nèi)的消費(fèi)大多采用校園卡的方式進(jìn)行結(jié)算。消費(fèi)種類一般為:(1)食堂消費(fèi);(2)超市消費(fèi);(3)打水消費(fèi);(4)洗浴消費(fèi);(5)電費(fèi),網(wǎng)費(fèi),圖書(shū)償還費(fèi)用等其他消費(fèi)。其中,食堂和超市消費(fèi)的差異與學(xué)生的貧困水平成正相關(guān),需著重監(jiān)測(cè)這兩類消費(fèi)數(shù)據(jù)。
2 數(shù)據(jù)預(yù)處理與特征抽取
采集校園一卡通的食堂消費(fèi)數(shù)據(jù)和超市消費(fèi)數(shù)據(jù),進(jìn)行預(yù)處理和特征提取。提取的特征為:(1)30天日消費(fèi)均值Maverage;(2)30天日消費(fèi)總額Msum;(3)30天食堂消費(fèi)總額Mshitang;(4)30天超市消費(fèi)總額Mchaoshi。將Maverage、Msum、Mshitang、Mchaoshi分別進(jìn)行歸一化處理作為算法的輸入數(shù)據(jù)。則最后的輸入數(shù)據(jù)X為:X={X∈R4|Maverage、Msum、Mshitang、Mchaoshi}[4]。
3 孤立森林法
本文所用的孤立森林模型是基于隔離思想的異常點(diǎn)檢測(cè)算法,其檢測(cè)流程如圖1所示,將采集到的數(shù)據(jù)做為總數(shù)據(jù)集X,從X中隨機(jī)采樣得到子數(shù)據(jù)集(X1,X2…Xm),進(jìn)而進(jìn)行隔離樹(shù)和孤立森林的構(gòu)建,再通過(guò)計(jì)算路徑的長(zhǎng)度得到各個(gè)點(diǎn)的異常分值,最后,根據(jù)其分值的大小進(jìn)行異常數(shù)據(jù)的辨識(shí)。
3.1 孤立樹(shù)
圖2所示為隔離樹(shù)的建立方法。主要步驟為:(1)隨機(jī)選取子數(shù)據(jù)集X中的某一列數(shù)據(jù)作為主要維度q,在其取值范圍[qmin,qmax]內(nèi),選取一隨機(jī)值p,并基于是否q
p將總數(shù)據(jù)分為左子集Xl和右子集Xr,同時(shí)隨機(jī)產(chǎn)生一個(gè)子結(jié)點(diǎn);(2)需對(duì)其結(jié)點(diǎn)進(jìn)行判斷,判斷其是否為內(nèi)部結(jié)點(diǎn)還是葉結(jié)點(diǎn),并循環(huán)重復(fù)1步驟,除非內(nèi)部結(jié)點(diǎn)滿足其葉結(jié)點(diǎn)的條件:對(duì)于子采樣數(shù)據(jù)X={x1,…,xn},通過(guò)選取隨機(jī)特性q和分割值p,直到樹(shù)高h(yuǎn)達(dá)到高度限制hlim,或者分割后的子采樣集只剩下唯一數(shù)據(jù)為止。
4 算例分析
以某學(xué)校為例,采集該校大一至大四學(xué)生的一卡通消費(fèi)數(shù)據(jù)共十萬(wàn)條。使用第3章所述的數(shù)據(jù)類別作為算法輸入數(shù)據(jù),并將其數(shù)據(jù)輸入至第四章所述的孤立森林算法中。算法計(jì)算完成后,對(duì)每個(gè)學(xué)生的異常分?jǐn)?shù)進(jìn)行排序,選擇異常分?jǐn)?shù)靠前的400名同學(xué)進(jìn)行分析。同時(shí),對(duì)這400名同學(xué)的家庭進(jìn)行摸查,以確認(rèn)真實(shí)情況。使用本文方法與異常因子(LOF)以及單類支持向量機(jī)(one-class SVM)進(jìn)行比較,檢測(cè)精度如表1所示。正確率為被檢測(cè)出的異常點(diǎn)占總數(shù)的比例;誤測(cè)率為正常點(diǎn)被檢測(cè)為異常的比例??梢钥闯?,孤立森林法較其他方法檢測(cè)準(zhǔn)確度更高。
5 結(jié)語(yǔ)
本文研究了一種高校虛假貧困生的辨識(shí)算法,通過(guò)采集貧困生的校園卡消費(fèi)數(shù)據(jù),提取其中關(guān)鍵指標(biāo),再采用孤立森林異常點(diǎn)檢測(cè)法對(duì)其中的異常數(shù)據(jù)進(jìn)行監(jiān)測(cè),從而辨識(shí)出虛假貧困。采用實(shí)際算例進(jìn)行分析,其結(jié)果表明了本文提出方法的有效性。
參考文獻(xiàn)
[1] 唐穎,李明江.數(shù)據(jù)挖掘在高校貧困生消費(fèi)信息管理中的應(yīng)用研究[J].湖南商學(xué)院學(xué)報(bào),2011,18(6):45-49.
[2] 李明君.基于數(shù)據(jù)挖掘的貧困助學(xué)金認(rèn)定方法研究[D].華中師范大學(xué),2017.
[3] 李珊娜.基于校園一卡通平臺(tái)的數(shù)據(jù)挖掘應(yīng)用研究[J].鐵路計(jì)算機(jī)應(yīng)用,2010,19(6):55-58.
[4] 費(fèi)小丹,董新科,張暉.基于校園一卡通消費(fèi)數(shù)據(jù)的高校貧困生分析[J].電腦知識(shí)與技術(shù),2014(20):4934-4936.