周靜 龍小宏
摘要:目前,我國(guó)高職院?;径家呀?jīng)建立了較為全面的貧困大學(xué)生資助體系,但是由于學(xué)生的貧困生申請(qǐng)信息偏于主觀、貧困指標(biāo)難以量化等因素,使得貧困生認(rèn)定工作仍然是高職院校資助決策中的難點(diǎn)問(wèn)題。一般高職院校貧困生評(píng)定流程,一是讓學(xué)生在家庭所在地開(kāi)貧困證明,二是學(xué)生在學(xué)校填寫(xiě)貧困生申請(qǐng)表,三是由學(xué)生所在院系組織評(píng)議小組對(duì)申請(qǐng)人進(jìn)行評(píng)議。但是,學(xué)生向?qū)W校提交的家庭貧困證明,往往會(huì)出現(xiàn)虛假信息的情況,這就給高職院校資助工作帶來(lái)了難題。因此,如何在高職院校缺乏學(xué)生的真實(shí)家庭情況以及助學(xué)金的金額有限的背景下,將助學(xué)金發(fā)放到最需要幫助的學(xué)生手上成為亟待解決的問(wèn)題。本文利用大數(shù)據(jù)技術(shù),對(duì)學(xué)生在學(xué)校使用一卡通產(chǎn)生的消費(fèi)、進(jìn)出圖書(shū)館、進(jìn)出教室寢室等數(shù)據(jù)進(jìn)行挖掘與分析,判斷高職院校目前采用的貧困生評(píng)判規(guī)則是否合理,并找出其中“偽貧困生”和真正需要幫助的學(xué)生,為高職院校學(xué)工部在貧困生資助管理工作中提供參考意見(jiàn)。
關(guān)鍵詞:貧困生;SVM;異常行為
中圖分類號(hào):TP391.41 文獻(xiàn)標(biāo)識(shí)碼:A 文章編號(hào):1007-9416(2020)07-0103-03
1 高職院校貧困學(xué)生認(rèn)定的現(xiàn)狀
高職院校認(rèn)定貧困學(xué)生的方法,大部分采用的是證明、消費(fèi)和評(píng)議三個(gè)關(guān)卡,班級(jí)、院系、學(xué)校三級(jí)評(píng)審[1]。
貧困證明,學(xué)生提供在當(dāng)?shù)卣?、街道出具的家庭?jīng)濟(jì)困難證明或者殘疾證明。
消費(fèi)水平,一個(gè)消費(fèi)比較低的學(xué)生不一定是貧困生,但消費(fèi)高的學(xué)生一定不是貧困生,因此,消費(fèi)水平作為認(rèn)定貧困生的一個(gè)重要參考依據(jù)。
評(píng)議,需要認(rèn)定貧困的學(xué)生,在輔導(dǎo)員監(jiān)督下,貧困申請(qǐng)學(xué)生所在班級(jí)的同學(xué)根據(jù)該學(xué)生提交的材料及貧困生本人的綜合情況,對(duì)其進(jìn)行評(píng)議,投票決定是否上報(bào)上一級(jí)進(jìn)行公示。
以上認(rèn)定方法,流程雖然清楚,但是有一些參數(shù)或指標(biāo)不能夠定量,人為因素較大,容易出現(xiàn)偏差,不符合貧困生工作公平公正的原則。
2 模型的選取及應(yīng)用
2.1 支持向量機(jī)理論
支持向量機(jī)(Support Vector Machine,SVM)是Cortes和Vapnik于1995年首先提出的,是一種從線性可分?jǐn)?shù)據(jù)的“最優(yōu)分類面”求解方法發(fā)展而來(lái),基于結(jié)構(gòu)風(fēng)險(xiǎn)最小化原理(Structure Risk Minimization,SRM)的機(jī)器學(xué)習(xí)方法。該理論在解決小樣本、非線性及高維模式識(shí)別中,具有許多特有的優(yōu)勢(shì),能夠推廣應(yīng)用到函數(shù)擬合等其他機(jī)器學(xué)習(xí)問(wèn)題中。
SVM算法在非線性映射時(shí),將低維樣本特征映射到高維特征空間,讓非線性可分的問(wèn)題性質(zhì)轉(zhuǎn)化成線性可分,但是在無(wú)形中增加了計(jì)算的難度,還有可能出現(xiàn)維數(shù)災(zāi)難,SVM解決此類難題的方法是利用核函數(shù)方法。
2.2 計(jì)算過(guò)程及結(jié)果
2.2.1 數(shù)據(jù)預(yù)處理
高職院校學(xué)生入學(xué)報(bào)到時(shí),學(xué)工部提供了迎新系統(tǒng)中學(xué)生的基本信息,輔導(dǎo)員讓學(xué)生填寫(xiě)學(xué)生基本信息表,教務(wù)處提供教務(wù)管理系統(tǒng)中學(xué)生成績(jī),輔導(dǎo)員負(fù)責(zé)管理學(xué)生并與學(xué)生進(jìn)行深度溝通交流,做好相關(guān)記錄,學(xué)生到校后,在校園內(nèi)所有消費(fèi)均使用一卡通交易,為本次實(shí)驗(yàn)奠定了良好的基礎(chǔ)。
本次實(shí)驗(yàn)選取了瀘州職業(yè)技術(shù)學(xué)院2017級(jí)500多名學(xué)生,2018年9月到2019年9月的原始記錄,包括406名訓(xùn)練樣本和104名實(shí)驗(yàn)數(shù)據(jù),再獲得2018級(jí)602名學(xué)生2018年9月到2019年9月的原始數(shù)據(jù)作為實(shí)驗(yàn)數(shù)據(jù),并認(rèn)真整理分析了此類信息。
2.2.2 提取相關(guān)數(shù)據(jù)
實(shí)驗(yàn)前向?qū)W工部有經(jīng)驗(yàn)的學(xué)生管理人員了解情況,深入分析以往已形成的理論與案例,大致了解高職院校貧困學(xué)生異常行為[2]有關(guān)的因素,如學(xué)生家庭情況(家庭成員是否有殘疾、是否為單親)、家庭經(jīng)濟(jì)情況(是否有貧困證明)、與同學(xué)的關(guān)系(是否與學(xué)生存在過(guò)節(jié))、是否有心理疾病、是否當(dāng)過(guò)班委、是否有男(女)朋友、是否參加了學(xué)校的社團(tuán)、是否做過(guò)兼職、是否獲得過(guò)獎(jiǎng)學(xué)金等。在進(jìn)行實(shí)驗(yàn)時(shí),提取貧困學(xué)生以上九個(gè)維度的相關(guān)數(shù)據(jù)。本次的訓(xùn)練樣本一共包含406個(gè)學(xué)生對(duì)象,其中重點(diǎn)關(guān)注學(xué)生是否為重點(diǎn)分類標(biāo)簽?;诜诸悩?biāo)簽構(gòu)建訓(xùn)練數(shù)據(jù)矩陣406×9及一個(gè)分類結(jié)果406×1,使用支持向量機(jī)算法。首先提取學(xué)生的數(shù)據(jù)特征,訓(xùn)練樣本并獲得分類模型,這是測(cè)試階段進(jìn)行判斷的基礎(chǔ)條件。訓(xùn)練過(guò)程中重點(diǎn)關(guān)注學(xué)生作為負(fù)樣本,即說(shuō)明學(xué)生可能存在學(xué)業(yè)方面的問(wèn)題,在學(xué)業(yè)方面存在異常行為。非學(xué)業(yè)重點(diǎn)關(guān)注的學(xué)生,即正樣本,這部分學(xué)生在學(xué)業(yè)方面并不存在較大的問(wèn)題。
2.2.3 求最優(yōu)化問(wèn)題
采集的數(shù)據(jù)可能存在缺失或者不夠具體,無(wú)法準(zhǔn)確的表達(dá)學(xué)生的詳細(xì)信息,如學(xué)生由于種種原因,并不會(huì)坦白自己是否失戀過(guò),因此線性分類器無(wú)法準(zhǔn)確以此為依據(jù)進(jìn)行分類。本次引入基于最小二乘的支持向量機(jī)法進(jìn)行分類,以期實(shí)現(xiàn)精確的分類,此種方法在構(gòu)造最優(yōu)決策函數(shù)[3]方面引入了間隔的概念,不使用高維特征空間復(fù)雜運(yùn)算,而是使用原空間核函數(shù)進(jìn)行計(jì)算,不僅能夠達(dá)到優(yōu)化目標(biāo)的目的,而且同時(shí)選取損失函數(shù),有助于規(guī)避錯(cuò)誤數(shù)據(jù)?;诖朔N情況下的優(yōu)化問(wèn)題,應(yīng)符合如式(1)和式(2)。
2.2.4 訓(xùn)練和測(cè)試結(jié)果
利用SVM分類獲得最終結(jié)果,測(cè)試時(shí)在經(jīng)過(guò)訓(xùn)練的分類器中,輸入測(cè)試貧困學(xué)生數(shù)據(jù),并結(jié)合訓(xùn)練結(jié)果來(lái)判定學(xué)生是否存在異常行為。整個(gè)實(shí)驗(yàn)過(guò)程較為簡(jiǎn)單,僅需要預(yù)先將統(tǒng)計(jì)好的學(xué)生數(shù)據(jù)輸入系統(tǒng)即可完成異常行為判斷。其測(cè)試結(jié)果如圖1所示。
在圖1中,用藍(lán)色、紅色表示分別表示2017級(jí)、2018級(jí)的學(xué)生。橫坐標(biāo)分別表示非學(xué)業(yè)重點(diǎn)、實(shí)際學(xué)業(yè)重點(diǎn)、預(yù)測(cè)非學(xué)業(yè)重點(diǎn)、預(yù)測(cè)學(xué)業(yè)重點(diǎn)關(guān)注對(duì)象。我們提前與學(xué)工部學(xué)生管理人員進(jìn)行深入的溝通,了解學(xué)生的情況,并對(duì)比分析實(shí)際所調(diào)查的情況,以驗(yàn)證該方法的正確率。如表1所示,其正確率可達(dá)到:
3 結(jié)語(yǔ)
精準(zhǔn)扶貧是高職貧困認(rèn)定需解決的一個(gè)重要問(wèn)題,因而對(duì)貧困生異常行為的研究是高職院校精準(zhǔn)扶貧重點(diǎn)關(guān)注的話題。針對(duì)高職院校的精準(zhǔn)扶貧,本文選取了SVM算法進(jìn)行對(duì)貧困生異常行為研究,采用對(duì)某高職院校貧困生總計(jì)1106條數(shù)據(jù)進(jìn)行實(shí)證分析。實(shí)驗(yàn)結(jié)果表明,支持向量機(jī)模型可以較好地根據(jù)有學(xué)生家庭情況、家庭經(jīng)濟(jì)情況、與同學(xué)的關(guān)系、是否有心理疾病、是否當(dāng)過(guò)班委、是否有男(女)朋友、是否參加了學(xué)校的社團(tuán)、是否做過(guò)兼職、是否獲得過(guò)獎(jiǎng)學(xué)金等參數(shù)評(píng)估真正貧困生的概率,為大數(shù)據(jù)背景下高職院校精準(zhǔn)扶貧提供了新的思路和方法。
參考文獻(xiàn)
[1] 朱虹,覃向梅,陸蕾.高校精準(zhǔn)扶貧工作的落實(shí)與路徑分析[J].職業(yè),2019(13):114-115.
[2] 鄧晗.基于機(jī)器學(xué)習(xí)和大數(shù)據(jù)技術(shù)的高校學(xué)生行為分析[D].北京:北京郵電大學(xué),2017.
[3] 戴海輝.基于Hadoop的校園卡數(shù)據(jù)挖掘的研究與實(shí)現(xiàn)[D].南昌:南昌航空大學(xué),2017.
數(shù)字技術(shù)與應(yīng)用2020年7期