嚴(yán)帆,劉曉蘭,毛文卉,劉雅琴,秦楠
摘要:在高校認(rèn)定家庭經(jīng)濟(jì)困難學(xué)生的工作中,提高認(rèn)定的科學(xué)性和合理性是難點(diǎn)。該文基于校園卡消費(fèi)數(shù)據(jù)建立了一套評(píng)價(jià)學(xué)生經(jīng)濟(jì)困難程度的指標(biāo)體系,計(jì)算出每個(gè)學(xué)生的經(jīng)濟(jì)困難指數(shù)。實(shí)驗(yàn)結(jié)果表明,疑似經(jīng)濟(jì)困難學(xué)生表現(xiàn)出日均食堂三餐金額偏低、食堂就餐率偏高的低消費(fèi)水平特征,部分經(jīng)濟(jì)困難認(rèn)定學(xué)生表現(xiàn)出日均食堂三餐金額偏高、食堂就餐率偏低的高消費(fèi)水平特征。該指數(shù)較真實(shí)地反映了學(xué)生的生活消費(fèi)水平,可作為經(jīng)濟(jì)困難學(xué)生認(rèn)定的重要參考依據(jù)。
關(guān)鍵詞:校園卡消費(fèi)數(shù)據(jù);綜合評(píng)價(jià);經(jīng)濟(jì)困難指數(shù);相對(duì)熵
中圖分類號(hào):TP399? ? ? ? 文獻(xiàn)標(biāo)識(shí)碼:A
文章編號(hào):1009-3044(2022)33-0100-04
做好家庭經(jīng)濟(jì)困難學(xué)生的認(rèn)定工作是高等教育改革和發(fā)展的焦點(diǎn)問題。經(jīng)濟(jì)困難學(xué)生認(rèn)定的主要依據(jù)是來自于學(xué)生填報(bào)的家庭經(jīng)濟(jì)狀況信息以及相關(guān)貧困證明[1-2]。由于信息采集較單一,并且信息的真實(shí)性較難核實(shí),傳統(tǒng)的認(rèn)定過程缺乏科學(xué)性、合理性。基于校園卡消費(fèi)數(shù)據(jù)的挖掘分析,對(duì)于建立科學(xué)合理的精準(zhǔn)資助管理體系具有重要作用[3]。
當(dāng)前已經(jīng)有較多的研究分析校園卡消費(fèi)數(shù)據(jù),建立算法模型評(píng)估學(xué)生的經(jīng)濟(jì)水平[4]。王澤原等人提出利用隨機(jī)森林算法對(duì)經(jīng)濟(jì)困難學(xué)生進(jìn)行判別和分類[5]。陳桂明等人采用XGBoost(Extreme Gradient Boosting)模型建立經(jīng)濟(jì)困難學(xué)生的分類預(yù)測(cè)方法[6]。歐陽鐵磊等人通過卡方自動(dòng)交互診斷器算法找到最佳分組變量和最佳分組點(diǎn),設(shè)計(jì)判別經(jīng)濟(jì)困難學(xué)生的模型[7]。李斌等人通過鄰域分量分析和貝葉斯優(yōu)化調(diào)參改進(jìn)經(jīng)濟(jì)困難學(xué)生分類模型[8]。莫媛媛等人結(jié)合譜聚類算法與支持向量機(jī)對(duì)學(xué)生校園卡消費(fèi)數(shù)據(jù)進(jìn)行聚類分析,區(qū)分出學(xué)生的經(jīng)濟(jì)困難程度[9]。上述研究對(duì)經(jīng)濟(jì)困難學(xué)生進(jìn)行定性判斷,存在缺少定量分析、可解釋性較差的弊端。
本文運(yùn)用綜合評(píng)價(jià)法對(duì)學(xué)生的經(jīng)濟(jì)困難程度進(jìn)行評(píng)價(jià),最后對(duì)評(píng)價(jià)結(jié)果進(jìn)行了經(jīng)濟(jì)困難層級(jí)分析、疑似經(jīng)濟(jì)困難分析和消費(fèi)異常分析。
1 實(shí)驗(yàn)設(shè)計(jì)
實(shí)驗(yàn)流程如圖 1所示。首先,基于預(yù)處理后的校園卡消費(fèi)數(shù)據(jù)建立評(píng)價(jià)經(jīng)濟(jì)困難程度的指標(biāo)體系;然后,對(duì)評(píng)價(jià)指標(biāo)作歸一化處理并確定相應(yīng)權(quán)重,將各指標(biāo)的加權(quán)和作為量化學(xué)生經(jīng)濟(jì)困難程度的評(píng)價(jià)結(jié)果,并將該評(píng)價(jià)結(jié)果定義為“經(jīng)濟(jì)困難指數(shù)”,最后對(duì)評(píng)價(jià)結(jié)果進(jìn)行統(tǒng)計(jì)分析。
1.1 數(shù)據(jù)預(yù)處理
將學(xué)生劃分為經(jīng)濟(jì)困難學(xué)生和非經(jīng)濟(jì)困難學(xué)生兩類。選取學(xué)生樣本S,將該樣本中的經(jīng)濟(jì)困難認(rèn)定學(xué)生名單作為經(jīng)濟(jì)困難學(xué)生的樣本S0,其他學(xué)生作為非經(jīng)濟(jì)困難學(xué)生的樣本S1,則S= S0 + S1。
采集學(xué)生樣本S的校園卡消費(fèi)數(shù)據(jù),使用校園卡賬戶字典、商戶字典關(guān)聯(lián)上學(xué)號(hào)、消費(fèi)地點(diǎn)、消費(fèi)場(chǎng)所,選取學(xué)號(hào)、消費(fèi)時(shí)間、消費(fèi)地點(diǎn)、消費(fèi)場(chǎng)所、消費(fèi)金額等字段形成消費(fèi)數(shù)據(jù)集。
1.2 建立評(píng)價(jià)指標(biāo)體系
評(píng)價(jià)學(xué)生經(jīng)濟(jì)困難程度的指標(biāo)體系如表 1所示。
三餐的消費(fèi)時(shí)間依次為6點(diǎn)到10點(diǎn)、10點(diǎn)到16點(diǎn)、16點(diǎn)到23點(diǎn),各指標(biāo)的計(jì)算公式如表 2所示。
將餐均金額指標(biāo)除以對(duì)應(yīng)性別的學(xué)生樣本均值得到餐均水平指標(biāo)。
1.3 歸一化評(píng)價(jià)指標(biāo)
歸一化評(píng)價(jià)指標(biāo)是指將評(píng)價(jià)指標(biāo)x經(jīng)歸一化函數(shù)處理后映射到0和1之間。歸一化函數(shù)的詳細(xì)設(shè)計(jì)如表 3所示。
1.4 確定指標(biāo)的權(quán)重
指標(biāo)權(quán)重的確定參考各指標(biāo)在經(jīng)濟(jì)困難學(xué)生與非經(jīng)濟(jì)困難學(xué)生之間頻率分布的相對(duì)熵,相對(duì)熵越大,則權(quán)重越大。相對(duì)熵,又被稱為KL散度,是兩個(gè)概率分布P和Q之間差異的非對(duì)稱性度量。在信息論中,KL(P||Q)表示當(dāng)用概率分布P來擬合Q時(shí)產(chǎn)生的信息損耗,其中P表示真實(shí)分布,Q表示P的擬合分布[10]。在離散隨機(jī)變量的情形下,相對(duì)熵的計(jì)算公式如下:
[KL(P||Q)=PxlnPxQx]
設(shè)經(jīng)濟(jì)困難認(rèn)定學(xué)生名單S0的人數(shù)為m,將區(qū)間[0,1]劃分為[log2m+1]個(gè)子區(qū)間,式中[]表示四舍五入取整。計(jì)算出經(jīng)濟(jì)困難學(xué)生的指標(biāo)xi在子區(qū)間上的頻率分布Pi,非經(jīng)濟(jì)困難學(xué)生的指標(biāo)xi在子區(qū)間上的頻率分布Qi,將指標(biāo)xi在各子區(qū)間上的頻率近似為概率,根據(jù)式(1)計(jì)算出指標(biāo)xi的頻率分布Pi和Qi的相對(duì)熵KLi,定義指標(biāo)xi的權(quán)重wi的計(jì)算公式如下:
[wi= KLii=1nKLi]
1.5 計(jì)算經(jīng)濟(jì)困難指數(shù)
將評(píng)價(jià)結(jié)果定義經(jīng)濟(jì)困難指數(shù)F,取值在0到1之間,數(shù)值越大表示經(jīng)濟(jì)越困難。設(shè)指標(biāo)xi的歸一化函數(shù)為fi(xi) ,權(quán)重為wi,則該指數(shù)的計(jì)算公式如下:
[F=i=1nfixiwi]
1.6 評(píng)價(jià)結(jié)果分析
將學(xué)生樣本S按經(jīng)濟(jì)困難指數(shù)降序排序,將該指數(shù)排名作為學(xué)生的經(jīng)濟(jì)困難排名,計(jì)算經(jīng)濟(jì)困難排名百分比,對(duì)評(píng)價(jià)結(jié)果進(jìn)行分析。
(1)經(jīng)濟(jì)困難層級(jí)分析,是指按照經(jīng)濟(jì)困難排名百分比從高到低排序,以10%為間隔劃分學(xué)生樣本S。將經(jīng)濟(jì)困難排名百分比按區(qū)間[90%,100%], [80%,90%),…, [0%,10%)依次劃分為層級(jí)1,層級(jí)2,…,層級(jí)10;然后,分析不同層級(jí)的學(xué)生在校園卡消費(fèi)和受資助方面的特征趨勢(shì)。
(2)疑似經(jīng)濟(jì)困難分析和消費(fèi)異常分析,是指篩查疑似經(jīng)濟(jì)困難的學(xué)生和消費(fèi)異常的經(jīng)濟(jì)困難認(rèn)定學(xué)生,分析篩查結(jié)果的學(xué)生在校園卡消費(fèi)和受資助方面的特征。篩查方法:將經(jīng)濟(jì)困難排名前25%的學(xué)生記為P,經(jīng)濟(jì)困難排名后20%的學(xué)生記為R,則疑似經(jīng)濟(jì)困難學(xué)生名單等于P∩S1,消費(fèi)異常的經(jīng)濟(jì)困難認(rèn)定學(xué)生名單等于R∩S0。
2 實(shí)例研究
選取某高校2015級(jí)、2016級(jí)共14255名本科生為學(xué)生樣本S,該樣本在2017-2018學(xué)年的經(jīng)濟(jì)困難學(xué)生認(rèn)定名單共3726人。同時(shí)選取學(xué)生樣本S在2016年10-12月份、2017年3-5月份共6個(gè)月的校園卡消費(fèi)數(shù)據(jù)。
按照上述實(shí)驗(yàn)流程計(jì)算出食堂消費(fèi)占比、食堂就餐率、早餐餐均水平、午餐餐均水平、晚餐餐均水平的指標(biāo)權(quán)重依次為9.59%,21.03%,15.93%,28.01%,25.43%。同時(shí),計(jì)算出每個(gè)學(xué)生樣本的經(jīng)濟(jì)困難指數(shù)。
2.1 評(píng)價(jià)結(jié)果分析
2.1.1 經(jīng)濟(jì)困難層級(jí)分析
統(tǒng)計(jì)不同經(jīng)濟(jì)困難層級(jí)的學(xué)生在校園卡消費(fèi)和受資助方面的情況。將月均電瓶車充電次數(shù)≥1的消費(fèi)行為視為擁有電瓶車;日均食堂三餐金額等于早中晚餐均金額之和。統(tǒng)計(jì)結(jié)果如圖2、圖3所示。
分析圖 2、圖3可知,隨著經(jīng)濟(jì)困難層級(jí)的遞增,學(xué)生群體的經(jīng)濟(jì)困難指數(shù)整體上遞增,表現(xiàn)出日均食堂三餐金額的均值遞減、超市次均消費(fèi)金額的均值遞減、擁有電瓶車的人數(shù)比例遞減、經(jīng)濟(jì)困難認(rèn)定學(xué)生的比例遞增、勤工助學(xué)人數(shù)比例遞增、助學(xué)貸款人數(shù)比例遞增的趨勢(shì)。與第1層級(jí)相比,第10層級(jí)的日均食堂三餐金額的均值大約是該層級(jí)1/2,擁有電瓶車人數(shù)比例大約是該層級(jí)的1/8,表明經(jīng)濟(jì)困難層級(jí)在首尾兩端的消費(fèi)水平差距較大。
2.1.2 疑似經(jīng)濟(jì)困難分析和消費(fèi)異常分析
經(jīng)過經(jīng)濟(jì)困難指數(shù)的篩查,在非經(jīng)濟(jì)困難學(xué)生名單10529人中,發(fā)現(xiàn)疑似經(jīng)濟(jì)困難學(xué)生1946人,占比18%;在經(jīng)濟(jì)困難學(xué)生認(rèn)定名單3726人中,發(fā)現(xiàn)消費(fèi)異常的學(xué)生270人,占比7%。
統(tǒng)計(jì)經(jīng)濟(jì)困難認(rèn)定學(xué)生、疑似經(jīng)濟(jì)困難學(xué)生、消費(fèi)異常的經(jīng)濟(jì)困難認(rèn)定學(xué)生等三類學(xué)生(在下圖中分別用認(rèn)定、疑似、異常表示)在日均食堂三餐金額、食堂就餐率等指標(biāo)上的分布情況,以及在擁有電瓶車、勤工助學(xué)、助學(xué)貸款等方面的人數(shù)比例,統(tǒng)計(jì)結(jié)果如圖 4、圖 5所示。
分析圖 4、圖 5可知:(1)疑似經(jīng)濟(jì)困難學(xué)生,主要表現(xiàn)為日均食堂三餐金額偏低(均值18.7,中位數(shù)19.3)、食堂就餐率偏高(均值74.9%,中位數(shù)75.8%)、擁有電瓶車人數(shù)比例低于經(jīng)濟(jì)困難認(rèn)定學(xué)生,表明物質(zhì)生活較差,勤工助學(xué)和助學(xué)貸款的人數(shù)比例也偏低,可能與申請(qǐng)資助的積極性偏低有關(guān)。(2)消費(fèi)異常的經(jīng)濟(jì)困難認(rèn)定學(xué)生,主要異常表現(xiàn)為日均食堂三餐金額偏高(均值29.5,中位數(shù)29.0)、食堂就餐率偏低(均值36.8%,中位數(shù)37.9%)、擁有電瓶車人數(shù)比例明顯高于經(jīng)濟(jì)困難認(rèn)定學(xué)生,表明物質(zhì)生活較好。
3 結(jié)束語
本文基于校園卡消費(fèi)數(shù)據(jù)建立了一套綜合評(píng)價(jià)學(xué)生經(jīng)濟(jì)困難程度的指標(biāo)體系,提出了計(jì)算學(xué)生的經(jīng)濟(jì)困難指數(shù)的方法。實(shí)驗(yàn)結(jié)果表明,通過該指數(shù)篩查出的疑似經(jīng)濟(jì)困難學(xué)生表現(xiàn)出日均食堂三餐金額偏低、食堂就餐率偏高為主的低消費(fèi)水平特征,部分經(jīng)濟(jì)困難認(rèn)定學(xué)生表現(xiàn)出日均食堂三餐金額偏高、食堂就餐率偏低的高消費(fèi)水平特征。同時(shí)該指數(shù)具備良好的可解釋性。
該經(jīng)濟(jì)困難指數(shù)較真實(shí)地反映了學(xué)生的生活消費(fèi)水平,可作為經(jīng)濟(jì)困難學(xué)生認(rèn)定的重要參考依據(jù),提高了經(jīng)濟(jì)困難學(xué)生認(rèn)定的科學(xué)性和合理性,讓資助更加精準(zhǔn)。
參考文獻(xiàn):
[1] 杜志欣,付靖嵋,李悅寧.高校貧困生資助工作的困境及策略——以肇慶學(xué)院為例[J].高教探索,2019(2):116-121.
[2] 宋美喆.基于模糊綜合評(píng)價(jià)方法的高校貧困生認(rèn)定研究[J].黑龍江高教研究,2016,34(7):16-20.
[3] 邵天勤,朱自猛.基于一卡通數(shù)據(jù)挖掘下的高校精準(zhǔn)資助工作研究[J].價(jià)值工程,2018,37(16):232-233.
[4] 何秀全.校園一卡通數(shù)據(jù)分析及應(yīng)用相關(guān)研究述評(píng)[J].華中師范大學(xué)學(xué)報(bào)(自然科學(xué)版),2017,51(S1):63-65.
[5] 王澤原,趙麗,胡俊.大數(shù)據(jù)環(huán)境下利用隨機(jī)森林算法和決策樹的貧困生認(rèn)定方法[J].湘潭大學(xué)自然科學(xué)學(xué)報(bào),2018,40(6):115-120.
[6] 陸桂明,張?jiān)?,周志?基于機(jī)器學(xué)習(xí)的貧困生分類預(yù)測(cè)研究[J].計(jì)算機(jī)應(yīng)用與軟件,2019,36(1):316-319.
[7] 歐陽鐵磊,葉玲肖.基于大數(shù)據(jù)分析的高校貧困生精準(zhǔn)資助策略研究[J].計(jì)算機(jī)應(yīng)用與軟件,2020,37(8):45-47,129.
[8] 李斌,王衛(wèi)星.NCA降維和貝葉斯優(yōu)化調(diào)參對(duì)分類模型的改進(jìn)[J].計(jì)算機(jī)應(yīng)用與軟件,2019,36(8):281-287,299.
[9] 莫媛媛,顧明言,張輝宜.基于譜聚類與支持向量機(jī)的高校經(jīng)濟(jì)困難學(xué)生認(rèn)定方法研究[J].中國教育信息化,2017(15):48-51.
[10] 李建國,趙海濤,孫韶媛.基于KL散度的策略優(yōu)化[J].計(jì)算機(jī)科學(xué),2019,46(6):212-217.
【通聯(lián)編輯:王力】