王雨萌,武小軍,羅雅晨
(同濟(jì)大學(xué),上海 201804)
高校提供助學(xué)金資助貧困學(xué)生完成學(xué)業(yè)是實(shí)現(xiàn)教育公平的重要手段。但是目前助學(xué)金的資助體系存在諸多問題,其中主要的一項(xiàng)是貧困生的認(rèn)定缺乏可操作性。由于高校無法獲取學(xué)生的真實(shí)家庭情況,目前的貧困生認(rèn)定主要依賴貧困證明,貧困生申請書以及班級民主測評等證明文件。而有些學(xué)生通過開虛假貧困證明,夸大家庭貧困程度或?qū)W生之間拉選票等方式得到助學(xué)金名額,使得部分真正的貧困學(xué)生無法得到資助。[1]而大數(shù)據(jù)的高速發(fā)展,使得傳統(tǒng)領(lǐng)域更多的融入了互聯(lián)網(wǎng)思維,為越來越多的現(xiàn)實(shí)難以解決的問題提供了新的思路。由于各高校的學(xué)生信息系統(tǒng)的建立與完善,學(xué)生校園一卡通具有該學(xué)生的消費(fèi)信息、學(xué)習(xí)情況、學(xué)習(xí)興趣和生活習(xí)慣等數(shù)據(jù),該數(shù)據(jù)難以造假,同時(shí)高校擁有學(xué)生的一卡通數(shù)據(jù)權(quán)限,這些都為準(zhǔn)確判定學(xué)生是否為貧困學(xué)生提供了良好的基礎(chǔ)。文章采用大數(shù)據(jù)挖掘方法,對學(xué)生的各項(xiàng)指標(biāo)進(jìn)行知識發(fā)現(xiàn),對學(xué)生是否為貧困學(xué)生進(jìn)行分類判定。從而為完善學(xué)生的助學(xué)金評價(jià)提供科學(xué)的決策,實(shí)現(xiàn)學(xué)生助學(xué)金的精準(zhǔn)資助。
DUCATIONAL數(shù)據(jù)挖掘是數(shù)據(jù)挖掘技術(shù)在教育數(shù)據(jù)中的應(yīng)用[2],其目的是解決教育研究問題。隨著大數(shù)據(jù)挖掘的教育數(shù)據(jù)的增長,如何選取合適的方法對海量數(shù)據(jù)進(jìn)行分析是當(dāng)前的挑戰(zhàn)。如今數(shù)據(jù)挖掘技術(shù)與機(jī)器學(xué)習(xí)算法已經(jīng)應(yīng)用于分析高校平臺系統(tǒng)數(shù)據(jù):Y Qian[3]等人基于校園卡平臺數(shù)據(jù),分別運(yùn)用K-Means和時(shí)間序列算法,分析和預(yù)測學(xué)生的行為和食堂的現(xiàn)狀,從而改進(jìn)高校管理。數(shù)據(jù)挖掘技術(shù)與機(jī)器學(xué)習(xí)算法還可以用于判定給予貧困補(bǔ)貼:Utomo[4]等通過比較五種數(shù)據(jù)挖掘分類算法在印度尼西亞學(xué)生教育成本分類應(yīng)用上的結(jié)果,優(yōu)化政府對高等教育的補(bǔ)貼。通過數(shù)據(jù)挖掘和機(jī)器學(xué)習(xí)的算法判斷出應(yīng)享有的補(bǔ)貼,能夠?qū)崿F(xiàn)資源的有效利用,克服了主觀傳統(tǒng)方法的低效。此外,數(shù)據(jù)挖掘技術(shù)與機(jī)器學(xué)習(xí)算法可以通過高校校園卡數(shù)據(jù)進(jìn)行貧困學(xué)生認(rèn)定。Fang、Yongsheng[5]等采用基于校園卡系統(tǒng)消費(fèi)數(shù)據(jù)的數(shù)據(jù)挖掘技術(shù)對學(xué)生貧困程度進(jìn)行聚類分析,從而建立一套科學(xué)的貧困生決策資助系統(tǒng)。唐穎[6]等采取關(guān)聯(lián)規(guī)則和支持向量機(jī)算法,對學(xué)生的日常消費(fèi)和特殊消費(fèi)進(jìn)行數(shù)據(jù)挖掘,從而發(fā)現(xiàn)貧困生的動(dòng)態(tài)生活消費(fèi)水平,為貧困生評定工作提供輔助依據(jù)。Ma、Hong wei[7]等建立基于學(xué)校一卡通系統(tǒng)數(shù)據(jù)的C4.5決策樹模型,結(jié)合K-Means算法,幫助學(xué)校發(fā)現(xiàn)貧困學(xué)生,為學(xué)校管理決策提供建議。
不過,將數(shù)據(jù)挖掘和機(jī)器學(xué)習(xí)算法應(yīng)用到校園一卡通系統(tǒng)的方法,主要是基于學(xué)生的消費(fèi)情況進(jìn)行分析,未綜合考慮學(xué)習(xí)情況,成績排名,學(xué)習(xí)興趣,生活習(xí)慣等多維度指標(biāo);在方法上,主要是采用簡單的機(jī)器學(xué)習(xí)單模型方法,未考慮采用集成的算法以及多種分類方法進(jìn)行對比。因此文章根據(jù)我國高?,F(xiàn)狀,采用多維度分析,比較多種機(jī)器學(xué)習(xí)算法,選擇最優(yōu)模型,從而得出數(shù)據(jù)挖掘及機(jī)器學(xué)習(xí)算法(RF)在助學(xué)金判定上具有可行性,有重大的研究價(jià)值。
文章所有數(shù)據(jù)來源于數(shù)據(jù)城堡某高校一卡通兩年的脫敏數(shù)據(jù)集。數(shù)據(jù)集包含消費(fèi)行為數(shù)據(jù)、圖書館門禁數(shù)據(jù)、寢室門禁數(shù)據(jù)、助學(xué)金分類數(shù)據(jù)、學(xué)生成績排名數(shù)據(jù)以及圖書館借閱數(shù)據(jù)等測試集和訓(xùn)練集分別6個(gè),共計(jì)12個(gè)文本數(shù)據(jù)集(見表1)。由于test數(shù)據(jù)集沒有分類標(biāo)簽,而實(shí)際的分類標(biāo)簽又未知,不能進(jìn)行數(shù)據(jù)測試集的擬合優(yōu)度和泛化能力的測量,所以助學(xué)金模型的數(shù)據(jù)完全基于訓(xùn)練集的數(shù)據(jù),同時(shí)采用交叉驗(yàn)證進(jìn)行模型訓(xùn)練。預(yù)留30%的數(shù)據(jù)用于測試。
表1 數(shù)據(jù)集的規(guī)模和含義
續(xù)表
在輸入模型進(jìn)行訓(xùn)練之前,首先對各個(gè)數(shù)據(jù)集合分別進(jìn)行數(shù)據(jù)預(yù)處理。主要包括構(gòu)建新特征以及填充空值,去除重復(fù)數(shù)據(jù)等。另外,由于數(shù)據(jù)不同特征的量級存在較大差異,為避免模型訓(xùn)練過程中由于數(shù)據(jù)規(guī)模差異造成分類不準(zhǔn)確,對數(shù)據(jù)進(jìn)行Z分?jǐn)?shù)標(biāo)準(zhǔn)化,使數(shù)據(jù)變?yōu)榉臉?biāo)準(zhǔn)正態(tài)分布的數(shù)據(jù)。合并清洗后的數(shù)據(jù)集共有10885個(gè)樣本,511個(gè)特征(包括學(xué)生ID和助學(xué)金等級),其中分類為0的樣本有9325個(gè),分類為1000的樣本有741個(gè),分類為1500的樣本有465個(gè),分類為2000的樣本有354個(gè)(如表2)。樣本分類不平衡。為避免對模型訓(xùn)練造成嚴(yán)重偏差,對樣本數(shù)據(jù)進(jìn)行SMOTE[8]采樣,既保留了數(shù)據(jù)主要的特征,又有效地避免模型過擬合。采樣后的數(shù)據(jù)共有26060個(gè)樣本,每類樣本均為6515個(gè)。再對數(shù)據(jù)采用特征工程[9]技術(shù)篩選出對助學(xué)金分類模型重要的30個(gè)特征。文章采用Sklearn包中的ExtraTreesClassifier算法,這是一種基于樹的預(yù)測模型,能夠用來計(jì)算特征的重要程度,因此能用來去除不相關(guān)的特征。
表2 樣本分類分布
對進(jìn)行特征工程后的數(shù)據(jù),分別采用單機(jī)器學(xué)習(xí)算法[10]:邏輯回歸、決策樹、人工神經(jīng)網(wǎng)絡(luò)、貝葉斯、支持向量機(jī),集成模型算法[11]:adaboost,GDBT,bagging,Randomforest,以及模型融合的stacking[12]方法進(jìn)行訓(xùn)練。實(shí)驗(yàn)采用MacroF1值,AUC值和用時(shí)作為模型評價(jià)標(biāo)準(zhǔn)。MacroF1綜合考慮模型的預(yù)測結(jié)果的正確率(Precision)和召回率(Recall),時(shí)間來評估模型的復(fù)雜度。由于隨機(jī)森林(RandomForest)的結(jié)果已經(jīng)很優(yōu),且網(wǎng)格調(diào)參算法很耗時(shí),所以在進(jìn)行調(diào)參時(shí),僅對GDBT算法進(jìn)行調(diào)參以比較調(diào)參前后結(jié)果。
分析結(jié)果可知(如表3)。
(1)在單模型中,邏輯回歸和樸素貝葉斯的分類結(jié)果不是很好。因?yàn)闊o法保證特征之間是相互獨(dú)立的,衍生特征之間很可能存在多種相關(guān),所以樸素貝葉斯的結(jié)果很差,而邏輯回歸容易欠擬合,分類精度不高。實(shí)驗(yàn)表明決策樹模型簡單,且在該數(shù)據(jù)集上表現(xiàn)良好。同時(shí)在模型復(fù)雜度上,決策樹也最為簡單。
(2)集成算法中,boosting算法中,GDBT算法表現(xiàn)優(yōu)于Adaboost,bagging算法表現(xiàn)都優(yōu)于boosting算法。因?yàn)殡S機(jī)森林(RandomForest)的抗干擾性能較強(qiáng),表現(xiàn)最為優(yōu)越,且用時(shí)最短。而模型融合的方法Stacking算法的表現(xiàn)結(jié)果優(yōu)于各個(gè)基學(xué)習(xí)器,但是并沒有顯著提高,且耗時(shí)最久。因?yàn)榛鶎W(xué)習(xí)其分類結(jié)果差則復(fù)合后的結(jié)果也會表現(xiàn)得不是很好。
(3)通過網(wǎng)格搜索算法和手動(dòng)進(jìn)行調(diào)參,優(yōu)化GDBT模型的參數(shù),模型的性能得到較大幅度的提升,性能得以優(yōu)化,但是耗時(shí)較久。
表3 各模型結(jié)果展示
續(xù)表
在大數(shù)據(jù)挖掘技術(shù)和機(jī)器學(xué)習(xí)算法的日益快速發(fā)展的背景下,以及高校對于獎(jiǎng)助學(xué)金的評價(jià)提供新的探索方式的基礎(chǔ)上,文章基于高校大學(xué)生一卡通消費(fèi)行為信息的脫敏數(shù)據(jù),利用數(shù)據(jù)挖掘和機(jī)器學(xué)習(xí)的技術(shù),針對性地提出了基于RandomForest算法的分類模型。實(shí)驗(yàn)過程涉及對數(shù)據(jù)進(jìn)行預(yù)處理,特征工程,平衡分類樣本(SMOTE采樣),比較單模型和混合模型的分類算法的泛化性能,并進(jìn)行網(wǎng)格搜索算法調(diào)節(jié)參數(shù)進(jìn)一步提高模型的性能這5個(gè)主要的數(shù)據(jù)挖掘的過程。綜合結(jié)果表明,基于RandomForest算法的模型的效果比更優(yōu)分類預(yù)測的泛化性更好,更能夠有效剔除虛假的助學(xué)金申請者,保證助學(xué)金給最需要的學(xué)生。