田 威
(常德職業(yè)技術(shù)學(xué)院,湖南 常德 415000)
近年來,大量研究資料表明,高校“00后”中有相當(dāng)一部分人存在心理問題,且數(shù)量逐年上升,關(guān)注、解決高校學(xué)生存在的這種問題刻不容緩。據(jù)統(tǒng)計,獨(dú)生子女、留守兒童經(jīng)歷、家長對子女的教育等因素都會對學(xué)生的心理健康產(chǎn)生很大的影響。常德職業(yè)技術(shù)學(xué)院對學(xué)生的心理普查非常重視,對于有問題的學(xué)生會積極予以干預(yù)輔導(dǎo)和教育。但是當(dāng)前學(xué)院對學(xué)生的心理普測仍然采用傳統(tǒng)的問卷調(diào)查方法,即通過組織全院學(xué)生填寫SCL-90量表,篩查結(jié)果往往不盡人意。原因如下:(1)篩查結(jié)果不準(zhǔn)確,學(xué)生在填寫問卷答題時,刻意隱瞞、隨意亂填或者當(dāng)時環(huán)境因素不好都會造成調(diào)查結(jié)果出現(xiàn)較大的偏差,而且問卷答題只能收集某一時刻學(xué)生的心理狀態(tài),缺乏時效性。(2)心理問題是一個相對動態(tài)的過程,對有潛在心理問題的學(xué)生沒有辦法進(jìn)行及時輔導(dǎo)。(3)老師需要組織全院學(xué)生,且要保證學(xué)生在一個相對比較理想不受外界干擾的環(huán)境中填寫,成本比較大[1]。
為了解決上述問題,本文從大數(shù)據(jù)和數(shù)據(jù)挖掘的角度,使用XGBoost分類算法,設(shè)計了學(xué)生心理健康問題預(yù)測應(yīng)用,應(yīng)用對比調(diào)查問卷具有高準(zhǔn)確率、低成本等優(yōu)點(diǎn),能識別出有潛在心理問題的學(xué)生,還能夠根據(jù)學(xué)生的特征數(shù)據(jù)變化不斷自適應(yīng)優(yōu)化,保證高準(zhǔn)確率。
XGBoost算法采用了集成思想,將多個弱分類器逐步迭代,集成組合在一起形成一個強(qiáng)分類器,是梯度提升決策樹(GBDT)的一種高效實(shí)現(xiàn)。相對于GBDT,XGBoost具有能并行學(xué)習(xí)的優(yōu)點(diǎn),快速實(shí)現(xiàn)迭代運(yùn)算。同時,算法也設(shè)置了懲罰因子來防止過擬合,具體算法步驟如下。
優(yōu)化目標(biāo)函數(shù):l(yi,yi')=(yi-yi')2
每棵決策樹逐步迭代,形成一個強(qiáng)分類器。
決策樹如果葉子節(jié)點(diǎn)太多,會增加過擬合的風(fēng)險,通常目標(biāo)函數(shù)還需加入正則項Ω(ft)來對決策樹進(jìn)行剪枝。
式中,γ為正則化強(qiáng)度;T為葉子節(jié)點(diǎn)個數(shù);w為葉子節(jié)點(diǎn)權(quán)重。
加入正則化項后要優(yōu)化的完整目標(biāo)函數(shù)為
分別記gi,hi為l的一階和二階導(dǎo)數(shù)
最終求出目標(biāo)函數(shù)最優(yōu)解為
根據(jù)上式,作為樹分裂結(jié)構(gòu)的分?jǐn)?shù),分?jǐn)?shù)越高,則樹的結(jié)構(gòu)越優(yōu)異,最終獲得最優(yōu)的樹結(jié)構(gòu)。算法的停止取決于預(yù)設(shè)的樹深度或者分裂后的結(jié)果值小于某個閾值[2]。
高職院校往往由于傳統(tǒng)業(yè)務(wù)系統(tǒng)存在信息孤島問題,管理人員僅僅只能看到學(xué)生的一維數(shù)據(jù),如通過教務(wù)系統(tǒng),管理人員只能查看到學(xué)生的學(xué)籍、學(xué)分、掛科、處分、考生評價等信息,無法獲取學(xué)生綜合管理系統(tǒng)、一卡通消費(fèi)、上網(wǎng)行為、社交評論等信息數(shù)據(jù)。本文基于學(xué)校搭建的數(shù)據(jù)中臺,在數(shù)據(jù)高度共享的前提下構(gòu)造數(shù)據(jù)集,采用XGBoost分類算法實(shí)現(xiàn)對學(xué)生的自動分類。模型訓(xùn)練基本實(shí)現(xiàn)流程如圖1所示。
圖1 模型訓(xùn)練流程
通過數(shù)據(jù)中心,獲取了教務(wù)系統(tǒng)、學(xué)生綜合管理系統(tǒng)、一卡通平臺、網(wǎng)絡(luò)行為管理日志、微信企業(yè)號等多個業(yè)務(wù)系統(tǒng)中學(xué)生的多維度信息數(shù)據(jù),并對其中某些字段缺失的數(shù)據(jù)、文本類型數(shù)據(jù)和異常數(shù)據(jù)進(jìn)行預(yù)處理,通過特征轉(zhuǎn)換,最終構(gòu)造學(xué)生個人畫像特征[3]。學(xué)院健康教育中心按照心理問題嚴(yán)重程度,統(tǒng)計出一級問題學(xué)生831人、二級問題1 105人、三級問題1 487人、心理狀況良好人數(shù)11 056人,將以上數(shù)據(jù)作為模型樣本。
本文基于XGBoost的python實(shí)現(xiàn)。將一級、二級、三級、良好的學(xué)生分別標(biāo)識為A,B,C,D。通過數(shù)據(jù)中臺抽取學(xué)生特征并進(jìn)行特征轉(zhuǎn)化。
學(xué)生學(xué)籍特征:性別、專業(yè)、民族、所屬省份、生源地區(qū)、戶籍性質(zhì)、家庭經(jīng)濟(jì)情況等,這些特征均屬于離散類特征,對這類特征進(jìn)行one-hot編碼,如性別特征轉(zhuǎn)化如表1所示。
表1 性別特征轉(zhuǎn)化
其他特征則類似編碼。
學(xué)生教務(wù)特征:成績、處分次數(shù)、是否惡意評價教學(xué)等。對于成績特征,以優(yōu)、良、不及格來取值,然后將各科成績按照取值次數(shù)進(jìn)行匯聚計算,學(xué)生教務(wù)特征具體如表2所示。
表2 學(xué)生教務(wù)特征
處分次數(shù)屬于連續(xù)性特征,以正常數(shù)值表示即可,是否惡意評價則按照上述離散類特征處理。
學(xué)生事務(wù)特征:學(xué)生請假、學(xué)生個人操行分、宿舍缺勤、班級排名等。
學(xué)生一卡通特征:圖書借閱、消費(fèi)情況等。
上網(wǎng)行為特征:學(xué)生上網(wǎng)時長、App使用類型等。
最終,特征轉(zhuǎn)換編碼規(guī)則為:對于無序離散類特征采用one-hot編碼,對于有序離散類特征通過數(shù)值大小作為標(biāo)識,再進(jìn)行歸一化,對于連續(xù)性特征,進(jìn)行歸一化。
隨機(jī)將數(shù)據(jù)集按照7∶3分為訓(xùn)練集和測試集,模型評價指標(biāo)采用多分類F1-score,通過交叉驗證選取模型參數(shù)如表3所示。
表3 模型超參數(shù)選擇
通過XGBoost算法模型在測試集進(jìn)行測試,結(jié)果如表4所示,從表中可以看出模型對心理健康狀況良好和存在一級問題的學(xué)生預(yù)測準(zhǔn)確率分別為98.00%和96.78%,對二級問題的學(xué)生預(yù)測準(zhǔn)確率相對較低。模型總體識別的準(zhǔn)確率遠(yuǎn)遠(yuǎn)優(yōu)于SCL-90量表調(diào)查問卷的結(jié)果。通過分析結(jié)果,對模型識別的特征重要性進(jìn)行排序,如圖2所示。其中,是否有留守經(jīng)歷、是否單親家庭、成績的特征重要性所占權(quán)重最大。同時,可以通過模型計算出學(xué)生屬于各分類的概率,將概率接近分類閾值的學(xué)生劃分為該類下有潛在心理疾病風(fēng)險的學(xué)生,讓心理輔導(dǎo)老師對學(xué)生提前進(jìn)行干預(yù)輔導(dǎo)[4-5]。
表4 測試集識別準(zhǔn)確率
圖2 特征重要性排序
本文通過運(yùn)用數(shù)據(jù)中心,打通了各業(yè)務(wù)系統(tǒng)信息孤島,獲取了學(xué)生在各個業(yè)務(wù)系統(tǒng)多維度數(shù)據(jù),采用XGBoost算法從分類的角度,設(shè)計了預(yù)測模型,相對于采用SCL-90量表的測評,能高效識別出有心理問題的學(xué)生,極大地降低了學(xué)校管理的成本,并且模型數(shù)據(jù)具有一定的可解釋性,心理老師也可以根據(jù)數(shù)據(jù)為學(xué)生進(jìn)行個性化干預(yù)輔導(dǎo)。但是模型對二級問題的預(yù)測還存在比較大的誤報率,后續(xù)還應(yīng)該多分析數(shù)據(jù),挖掘?qū)W生有效特征,提升模型的準(zhǔn)確率。