楊華民, 于 志, 底曉強, 梁鐘予, 張興旭
(長春理工大學 a. 計算機科學技術學院; b. 吉林省網(wǎng)絡與信息安全重點實驗室; c. 信息化中心, 長春 130012)
近年來, 大學生的心理健康得到了社會各界的普遍關注。然而, 大部分學生對心理障礙的認識較為模糊, 主動就診率較低且存在部分學生隨意填寫心理調查問卷, 導致心理調查問卷不能如實反映學生的心理健康狀態(tài)[1]。因此如何高效準確地發(fā)現(xiàn)存在心理健康問題的學生并進行及時干預與疏導是非常必要的。隨著高校信息化的發(fā)展, 學生在校內的行為逐漸被數(shù)據(jù)化, 保存在數(shù)據(jù)庫中, 這為排查有心理健康問題的學生提供了數(shù)據(jù)基礎?;谛@大數(shù)據(jù)的學生心理健康預測可避免傳統(tǒng)方法的抽樣誤差、 環(huán)境約束導致的數(shù)據(jù)采集偏差等問題, 還可大幅提高效率, 降低成本, 并從多維度、 多視角展現(xiàn)學生的行為屬性與個性特征, 實現(xiàn)評價的公正性、 效率性以及真實性。
筆者利用某校學生日常行為數(shù)據(jù)以及學生開學一個月后測評的《大學生人格問卷UPI》(以下簡稱問卷)結果數(shù)據(jù), 分析學生日常行為與心理健康狀態(tài)的關系, 其中學生日常行為數(shù)據(jù)包括學生消費和上網(wǎng)數(shù)據(jù), 提取時間范圍為學生開學至學生進行心理測評期間, 學生心理測評問卷結果數(shù)據(jù)包括心理狀態(tài)正常和異常兩種結果。
目前有關心理健康的研究主要關注兩個方面, 一個是心理問題的文本分析與治療, 另一個是關注心理健康的影響因素分析及預測。針對第1方面的研究, Chen等[2]收集了精神分裂癥群體、 抑郁癥群體以及心理健康群體等299人的語音數(shù)據(jù), 并基于該數(shù)據(jù)集提出了一種基于嵌入式混合特征堆疊稀疏自編碼器集成的心理健康語音識別算法, 實驗結果表明該算法可根據(jù)患者語音準確地對不同心理狀態(tài)的群體進行分類; Ahmed等[3]基于心理患者的文本描述提出了一種基于可解釋注意力網(wǎng)絡的深度自適應聚類模型, 實驗結果表明該方法有助于標記文本并提高對精神障礙癥狀的識別率; Li[4]基于人工智能在線技術設計了心理健康教育系統(tǒng), 可方便快捷地根據(jù)心理患者的文本描述信息查詢日常心理問題, 并且提供智能在線心理咨詢, 以幫助患者克服心理問題。
針對第2方面的研究, Chen等[5]基于認知計算, 結合來自中國和美國不同地區(qū)學生的癥狀自評估量表(SCL_90), 社會評級規(guī)模和健康認知問卷(HCQ-127)測試數(shù)據(jù)分析心理健康的影響因素, 研究表明發(fā)達地區(qū)的學生更容易產生心理問題。Zhou[6]采用1 264名中國貴州大學新生的癥狀自評估量表(SCL_90)數(shù)據(jù), 使用決策樹C4.5算法對大學新生心理健康狀況進行分類, 分類結果表明, 軀體化和敵意是影響學生心理健康的重要因素。Liu等[7]基于學生心理、 個人基本信息和社會經(jīng)濟等數(shù)據(jù)應用BP(Back Propagation)神經(jīng)網(wǎng)絡預測學生的心理問題, 實驗結果表明該方法的預測精度較高, 可有效預測學生的心理問題。
然而, 這些研究都未考慮行為與心理健康的關系。但校園大數(shù)據(jù)為心理學研究提供了新的契機, 隨著高校信息化的建設發(fā)展, 學生的日常行為數(shù)據(jù)都以記錄的形式逐條保存在學校信息化部門的數(shù)據(jù)庫中, 基于這些日常行為數(shù)據(jù), 并利用相關機器學習和深度學習方法, 可以實現(xiàn)心理學的預測和干預。筆者基于學生行為和學生心理測評結果數(shù)據(jù), 首先使用自定義公式法進行相關學生行為特征提取, 然后應用Jenks Natural Breaks算法對所提取的特征數(shù)據(jù)進行標簽化, 并應用Apriori算法分析學生行為特征與學生心理健康狀態(tài)的關系, 最后基于特征分析結果利用所提出的PDNN(Particle Difference Neural Network)神經(jīng)網(wǎng)絡模型預測學生的心理健康狀態(tài)。
筆者使用學生一卡通中的消費數(shù)據(jù)、 網(wǎng)管系統(tǒng)中的上網(wǎng)數(shù)據(jù)等學生日常行為數(shù)據(jù)進行研究。其中消費數(shù)據(jù)包括學號、 商家賬戶、 消費時間、 消費地點、 賬戶余額以及消費金額等信息; 上網(wǎng)數(shù)據(jù)包括學號、 登錄和登出時間、 總流量以及上網(wǎng)時長等信息。所用的學生行為數(shù)據(jù)集的基本統(tǒng)計信息如表1所示。
表1 學生行為數(shù)據(jù)集的基本統(tǒng)計信息
1.1.1 學生消費特征提取
消費行為是學生日常行為的重要組成部分, 學生的心理健康狀態(tài)可能會影響其在校的消費行為[8], 因此筆者對學生的消費數(shù)據(jù)進行特征提取以探究其與學生心理健康狀態(tài)的關系。
1) 飲食規(guī)律性。在探究飲食規(guī)律性時, 將每日3餐按30 min的間隔劃分時間區(qū)間, 統(tǒng)計學生在每個時間區(qū)間內的消費次數(shù), 利用信息熵的計算公式, 得到學生的飲食規(guī)律性。每日3餐開放和關閉時間經(jīng)詢問食堂窗口相關人員, 劃分結果如表2所示。
表2 3餐的時間區(qū)間劃分
學生飲食規(guī)律性計算公式為
(1)
其中D為學生在食堂進餐使用校園卡付款的天數(shù),Td為統(tǒng)計的總天數(shù),pi為學生在各個時間區(qū)間的消費頻率,n為所劃分的時間區(qū)間數(shù)量。
2) 勤奮性。筆者將學生每天第1次校園卡消費記錄作為他們的第1項日?;顒印S捎谑程玫挠貌拖M占所有消費記錄的絕大部分, 因此計算了每個學生每天第1次用餐刷卡的時間, 然后將其作為衡量學生勤奮水平的標準。從而改變原始日期時間格式將其轉換為Unix時間戳。因此, 學生勤奮性SDG的計算方法為
(2)
其中T為學生刷卡消費的總天數(shù),tj為學生在第j天第1次用餐刷卡的時間。
3) 共餐人數(shù)。假設如果兩名同學在同一班級, 吃飯時在同一樓層食堂窗口刷卡消費且刷卡間隔時間小于120 s, 則視為在一起吃飯。筆者統(tǒng)計了每個學院在各校區(qū)每個食堂窗口的學生共餐人數(shù)情況, 為防止部分同學通過手機支付、 定外賣或去外面吃飯對實驗結果造成的影響, 將一個月內在食堂刷卡消費次數(shù)低于30條記錄的同學移除, 之后將每個食堂窗口得到的統(tǒng)計結果根據(jù)學生學號對應相加, 進而得到最終的結果。其中在一個食堂窗口所有學生與其同班同學一起進餐的人數(shù)統(tǒng)計流程如下。
算法1 學生共餐人數(shù)計算流程。
輸入: 學生消費數(shù)據(jù)集C, 食堂窗口編號N和與N對應的該層的食堂窗口編號列表Nlist。
輸出: 所有學生與其同班同學在該食堂窗口一起進餐的人數(shù)列表。
1) 根據(jù)學生消費數(shù)據(jù)集C獲取班級列表major_class;
2) 循環(huán)遍歷班級列表獲取一個班級的同學stu_major, 并根據(jù)消費日期得到該班同學的消費月份month;
3) 循環(huán)遍歷month列表, 獲取該班學生在某個月份的消費記錄stu_month;
4) 循環(huán)遍歷stu_month獲取一個學生在當前月份的消費記錄stu_one;
5) 判斷stu_one長度是否大于等于30, 如果大于等于30, 循環(huán)遍歷stu_one, 得到食堂窗口編號等于N的消費數(shù)據(jù), 轉換其消費時間為Unix時間戳, 存入timestmp_1列表;
6) 獲取除了該生以外的該班其他學生在與食堂窗口N所對應的該層食堂窗口Nlist的消費數(shù)據(jù)集, 將所獲取到的消費數(shù)據(jù)集中的時間轉化為戳列表timestmp_2;
7) 循環(huán)遍歷timestmp_1列表和timestmp_2列表, 如果timestmp_1中的時間戳與timestmp_2中的時間戳相差小于等于120, 則計數(shù)器count加1;
8) 將count存入學生與其同班同學在食堂窗口N一起進餐的人數(shù)列表consume_num, 并將count置0, 轉至步驟3), 直至所有循環(huán)執(zhí)行完成。
1.1.2 學生上網(wǎng)特征提取
研究表明, 學生的心理健康狀態(tài)與網(wǎng)絡成癮水平具有一定的相關性[9], 因此提取學生上網(wǎng)的相關特征以探究學生心理健康狀態(tài)與其上網(wǎng)習慣的關系。
1) 工作日及周末平均上網(wǎng)時長。考慮到學生在工作日和周末的上網(wǎng)習慣不同, 因此將工作日和周末區(qū)分開提取學生的上網(wǎng)特征。學生每次的上網(wǎng)時長可由學生上網(wǎng)記錄數(shù)據(jù)集獲得, 學生工作日或周末平均上網(wǎng)時長
(3)
其中T為學生在工作日或者周末上網(wǎng)次數(shù),Ii為學生每次上網(wǎng)花費時間,Td為統(tǒng)計天數(shù)。
2) 工作日及周末平均上網(wǎng)最晚下線時間。學生工作日或周末平均上網(wǎng)最晚下線時間指學生在工作日或周末最后一次登出校園網(wǎng)系統(tǒng)的時間平均值, 如果該日學生零點之前還未下線則將第2天最早下線時間作為當天最晚下線時間。將學生登出校園網(wǎng)的時間轉換為Unix時間戳的形式, 學生工作日或周末平均上網(wǎng)最晚下線時間
(4)
其中M為統(tǒng)計天數(shù),Li為學生在工作日或周末每天最后一次登出校園網(wǎng)系統(tǒng)的Unix時間戳。
3) 工作日及周末日均使用流量數(shù)。學生工作日或周末日均使用的流量數(shù)的計算公式為
(5)
其流量單位為MByte。其中n為使用流量的總次數(shù),Fi為每次使用流量所消耗的流量數(shù),d為使用校園網(wǎng)流量的天數(shù)。
為探究心理健康與心理異常學生群體在相關行為上的差異, 首先應用Jenks Natural Breaks算法對上述提取的特征數(shù)據(jù)進行標簽化。Jenks Natural Breaks 算法又稱為自然間斷點分級法, 核心思想與聚類一樣: 使每組內部的相似性最大, 而外部組與組之間的相異性最大[10], 然后應用Apriori算法分別挖掘心理健康和心理異常學生群體的行為特征標簽化數(shù)據(jù)集, 并設置最小支持度閾值為0.5, 最小置信度閾值為0.5, 所得強關聯(lián)規(guī)則如表3所示。
表3 Apriori算法產生的強關聯(lián)規(guī)則
由表3可知, 心理異常學生群體通常呈現(xiàn)飲食較不規(guī)律、 較不勤奮、 共餐人數(shù)較少、 上網(wǎng)時長較長且使用流量數(shù)較多、 工作日上網(wǎng)下線時間較晚的特點; 而心理正常學生群體通常呈現(xiàn)飲食較為規(guī)律、 較為勤奮的特點。
BP神經(jīng)網(wǎng)絡的性能很大程度上取決于BP神經(jīng)網(wǎng)絡的層間權重, 如果初始化層間權重出現(xiàn)偏差, 網(wǎng)絡則會出現(xiàn)易陷入局部極小值以及收斂速度慢等問題。因此, 為解決神經(jīng)網(wǎng)絡層間權重選取不精準的問題, 筆者基于改進的粒子群優(yōu)化算法, 構建了PDNN(Particle Difference Neural Network)神經(jīng)網(wǎng)絡模型, 以此動態(tài)選取BP神經(jīng)網(wǎng)絡的層間權重, 進而根據(jù)學生行為實現(xiàn)對學生心理健康狀態(tài)的預測。以兩層隱藏層, 每層結點數(shù)都為5的BPNN(Back Propagation Neural Network)模型為例, 給出PDNN模型的總體結構如圖1所示。其中w1、w2和w3為輸入層與隱藏層1、 隱藏層1與隱藏層2、 隱藏層2與輸出層之間的權值矩陣, 該權值矩陣應用改進的粒子群優(yōu)化算法動態(tài)獲取。對應于圖1中PDNN模型的每個粒子構造如圖2所示。
圖1 PDNN模型結構 圖2 粒子基本結構 Fig.1 PDNN model structure Fig.2 Basic structure of particles
粒子群優(yōu)化(PSO: Particle Swarm Optimization)算法源于人類對鳥類捕食行為的研究[11], 該算法基于從環(huán)境中獲得的適應度信息, 通過粒子群迭代尋找問題的最優(yōu)解, 粒子在迭代過程中利用局部最優(yōu)解與全局最優(yōu)解調整迭代速度與粒子位置, 以更新粒子群[12]。目前粒子群優(yōu)化算法已被廣泛應用于求解如路徑規(guī)劃、 優(yōu)化調度、 參數(shù)辨識、 圖像分割等實際優(yōu)化問題[13]。
假設一組粒子在d維搜索空間中以一定的速度飛行, 則粒子i的當前位置為Xi=(xi1,xi2,…,xid), 當前速度為Vi=(vi1,vi2,…,vid)。粒子i所經(jīng)歷過的最優(yōu)位置為Pi_best=(Pi_best1,Pi_best2,…,Pi_bestd), 整個粒子群搜索到的最優(yōu)位置為Gbest=(Gbest1,Gbest2,…,Gbestd)。因此粒子i的速度與位置更新公式為
(6)
(7)
其中w為慣性權重,Vi為當前粒子速度,c1為認知系數(shù),c2為社會系數(shù),r1和r2均為[0,1]之間的隨機數(shù),t為當前迭代次數(shù)。
2.2.1 慣性權重的改進
在粒子進行搜索過程中, 較大的慣性權重有利于對整個搜索空間進行探索, 并增加群體多樣性, 而較小的慣性權重則會提升種群的局部開發(fā)能力。因此, 慣性權重是平衡粒子群局部搜索和全局搜索的關鍵因素, 慣性權重的選取對算法的優(yōu)化效果具有一定的影響[14]。筆者結合慣性權重線性遞減和慣性權重非線性遞減方法[15], 提出了動態(tài)慣性權重, 其公式為
(8)
其中wmax為慣性權重的最大值,wmin為慣性權重的最小值,t為當前迭代次數(shù),T為最大迭代次數(shù), rand為產生隨機數(shù)函數(shù)。
圖3給出了線性慣性權重、 非線性慣性權重以及動態(tài)慣性權重隨迭代次數(shù)的變化圖像, 其中線性慣性權重和非線性慣性權重的公式為
(9)
(10)
圖3 不同的慣性權重對比Fig.3 Comparison of different inertia weights
如圖3所示, 對線性慣性權重, 當開始迭代時, 線性慣性權重值較大, 粒子的速度也較大, 此時粒子具有較好的全局搜索能力。隨著迭代次數(shù)的增加, 線性慣性權重的值越來越小, 粒子的速度也越來越小, 此時粒子具有較好的局部搜索能力, 但由于斜率恒定, 所以速度的改變總是相同的。如果迭代初期沒有產生較好的初始值, 則隨著迭代次數(shù)的增加以及速度的迅速衰減最后很可能導致粒子陷入局部最優(yōu)解。對非線性慣性權重, 雖然其斜率相比于線性慣性權重下降較慢且斜率不斷改變。但隨著迭代次數(shù)的增加, 其慣性權重始終維持在一個較高水平, 不利于粒子的局部搜索。雖然在迭代后期慣性權重有所降低, 但仍難以找到全局最優(yōu)解。對動態(tài)慣性權重, 在迭代初期, 慣性權重取得較大的值并隨著迭代次數(shù)的增加逐漸下降, 有利于粒子對整個搜索空間進行探索。在迭代后期, 慣性權重快速減小, 有利于增強粒子的局部搜索能力。此外, 動態(tài)慣性權重隨著迭代次數(shù)的增加不斷發(fā)生改變, 可有效避免線性慣性權重或非線性慣性權重隨著迭代次數(shù)增加容易陷入局部最優(yōu)解或難以找到全局最優(yōu)解的情況。綜上所述, 筆者提出的動態(tài)慣性權重可以平衡粒子的全局搜索與局部搜索, 并且其權重隨著迭代次數(shù)的增加而交替改變, 滿足粒子在搜索過程中的復雜性以及快速收斂性。
2.2.2 劣勢粒子的識別
劣勢粒子是造成整個粒子群無法獲取全局最優(yōu)解的主要原因, 識別劣勢粒子并對劣勢粒子進行處理使其跳出局部最優(yōu)解, 可以有效優(yōu)化種群的尋優(yōu)。結合全局最優(yōu)粒子位置和個體歷史最優(yōu)粒子位置, 引入pinf參數(shù)對劣勢粒子進行識別,pinf的定義為
(11)
其中ba(i)為粒子a在第i次迭代下的歷史最優(yōu)位置,g(i)為粒子群在第i次迭代下的全局最優(yōu)位置,f為適應度函數(shù)。如果pinf<10-4, 則表示該粒子陷入了局部最優(yōu)解, 識別其為劣勢粒子; 如果pinf>104, 則表示全局最優(yōu)解暫無更新, 若pinf=NAN, 則表示整個種群陷入了局部最優(yōu)解, 對以上兩種情況, 則識別整個種群的粒子為劣勢粒子, 對整個種群的粒子進行變異處理。
2.2.3 劣勢粒子的變異
受差分進化算法[16]的思想啟發(fā), 對識別出的劣勢粒子進行變異。粒子的變異公式為
XVi,g=Xr1,g+F(Xr2,g-Xr3,g)
(12)
在粒子變異過程中, 隨機選取當前迭代次數(shù)下的3個不同的粒子, 通過變異公式, 得到新的變異粒子, 以幫助劣勢粒子跳出局部最優(yōu)解, 繼續(xù)尋優(yōu)。其中Xr1,g、Xr2,g和Xr3,g為當前迭代次數(shù)下的3個隨機粒子,F為變異率。
2.2.4 粒子的選擇
在對劣勢粒子進行變異后, 計算原粒子和變異后粒子的適應度函數(shù)值, 如果變異后的粒子的適應度函數(shù)值小于原粒子的適應度函數(shù)值, 則將變異后的粒子放入到下一代粒子種群中。否則將原粒子放入到下一代粒子種群中, 并更新粒子的個體歷史最優(yōu)值和最優(yōu)位置, 粒子群的全局最優(yōu)值和最優(yōu)位置。
2.2.5 螢火蟲擾動策略
受螢火蟲算法[17]啟發(fā), 假設全局最優(yōu)解為最亮的螢火蟲, 其他的粒子為較暗的螢火蟲, 根據(jù)螢火蟲算法思想, 較暗的螢火蟲會朝著較亮的螢火蟲移動。因此整個螢火蟲種群都會朝著最亮的螢火蟲移動, 使粒子群逐漸向全局最優(yōu)解方向靠攏。而全局最優(yōu)解根據(jù)劣勢粒子的識別變異以及選擇策略不斷更新優(yōu)化, 進而使整個粒子群向優(yōu)化問題的最終全局最優(yōu)解收斂, 加速粒子尋優(yōu)。其粒子群位置更新如下
(13)
(14)
該模型的構建過程如下。
1) 根據(jù)數(shù)據(jù)集的特征數(shù)目確定神經(jīng)網(wǎng)絡的拓撲結構, 搭建神經(jīng)網(wǎng)絡模型。
2) 初始化改進的粒子群優(yōu)化算法的最大迭代次數(shù)max_iter、 當前迭代次數(shù)i=1、 粒子變異率F、 粒子總數(shù)和粒子結構,并設定粒子速度范圍和位置范圍。
3) 初始化粒子的歷史最優(yōu)位置, 應用BP神經(jīng)網(wǎng)絡的損失函數(shù)作為適應度函數(shù)初始化粒子歷史最優(yōu)值, 利用粒子群的最小歷史最優(yōu)值初始化粒子的全局最優(yōu)值, 使用粒子群的最小歷史最優(yōu)值對應的粒子位置初始化粒子群的全局最優(yōu)位置。
4) 根據(jù)式(11)識別劣勢粒子, 如果滿足pinf>104、pinf<10-4或pinf=NAN條件則根據(jù)式(12)對劣勢粒子進行變異處理, 幫助其擺脫劣勢, 繼續(xù)尋優(yōu)。
5) 根據(jù)式(6)~式(8)更新粒子速度與位置。
6) 根據(jù)適應度函數(shù)值對原粒子和變異后的粒子進行選擇。
7) 根據(jù)式(13)和式(14)加速粒子群向全局最優(yōu)解收斂。
8) 更新粒子歷史最優(yōu)值與歷史最優(yōu)位置、 更新粒子全局最優(yōu)值和全局最優(yōu)位置, 迭代次數(shù)i=i+1。
9) 若i≥max_iter, 則轉至步驟10); 否則, 轉至步驟4)。
10) 得到全局最優(yōu)位置, 封裝BP神經(jīng)網(wǎng)絡的權值矩陣, 應用該權值訓練BP神經(jīng)網(wǎng)絡, PDNN模型構建完成。
筆者選取特征關聯(lián)分析得到的強關聯(lián)規(guī)則特征數(shù)據(jù)進行實驗, 選擇70%的數(shù)據(jù)用于訓練模型, 30%的數(shù)據(jù)用于測試模型, 實驗評價指標采用加權平均, 權重為每個類別樣本數(shù)量在總樣本中的占比。在改進的粒子群優(yōu)化算法中設置粒子數(shù)量為5, 粒子群的最大迭代次數(shù)max_iter設為50, 慣性權重的最大值為0.9、 最小值為0.4, 粒子的變異率為0.6, 基于Eberhart的理論[18], 將認知系數(shù)c1和社會系數(shù)c2設為區(qū)間[1.494 45, 2]中的隨機數(shù), 粒子的速度范圍設為-3≤v≤3, 粒子的位置范圍設為-1≤p≤1, 粒子速度和位置的初始值均為[0,1]區(qū)間內的隨機數(shù)。為避免不同特征數(shù)據(jù)的數(shù)據(jù)范圍不一致對模型性能的影響, 在實驗前需要對特征數(shù)據(jù)進行標準化, 選取最大最小標準化方法對特征數(shù)據(jù)進行標準化, 使每個特征數(shù)據(jù)的范圍均落在[0,1]區(qū)間內。最大最小標準化方法為
(15)
實驗評測指標采用準確率(a)、 精確率(p)、 召回率(r)以及F1分數(shù)(F1), 其表達式為
(16)
(17)
(18)
(19)
其中TP為預測值為正, 實際值也為正的樣本數(shù)量;FP為預測值為正, 實際值為負的樣本數(shù)量;FN為預測值為負, 實際值為正的樣本數(shù)量;TN為預測值為負, 實際值也為負的樣本數(shù)量。
為避免模型對數(shù)據(jù)集劃分的依賴性, 每次實驗選擇不同的測試集和訓練集。具體過程, 將數(shù)據(jù)集按從前到后的順序平均劃分為10份, 假設每份的標號分別為1、2、3、…、9、10, 則第1次實驗將選取1~7份作為訓練集, 其余作為測試集。第2次實驗將選取2~8份作為訓練集, 其余作為測試集。以此類推, 直到取完第10次劃分為止, 然后取每個評價指標的平均值。實驗選用的對比模型為: Nave Bayes、 SVM(Support Vector Machines)、 邏輯回歸(LR: Logistic Regression)、 BPNN(Back Propagation Neural Network), 各模型的實驗結果如表4所示。
表4 各模型實驗結果
如表4所示, 筆者提出的PDNN模型在4個評價指標中均取得了最優(yōu)結果, 并且其預測學生心理健康狀態(tài)的準確率為86%、 F1分數(shù)為0.86, 而LR模型的效果最差, 其準確率為82%, F1分數(shù)為0.82。
此外, 在模型訓練過程中筆者還對比了GA-BPNN(Genetic Algorithm Back Propagation Neural Network)、 IPSONN(Improved Particle Swarm Optimization Neural Network)、 ABC-BPNN(Artificial Bee Colony Back Propagation Neural Network)、 BPNN和PDNN模型隨著迭代次數(shù)的增加損失函數(shù)值的變化。如圖4所示, 從圖4中可以發(fā)現(xiàn), 在模型訓練過程中BP神經(jīng)網(wǎng)絡的損失函數(shù)值大于其他模型, 因為智能算法已根據(jù)BP神經(jīng)網(wǎng)絡的損失函數(shù)值對其進行尋優(yōu), 將尋優(yōu)得到的權值賦給BP神經(jīng)網(wǎng)絡模型進行訓練, 因此經(jīng)過智能算法優(yōu)化得到的損失函數(shù)值小于按BP神經(jīng)網(wǎng)絡權重初始值得到的損失函數(shù)值。同時, 從圖4中還可以發(fā)現(xiàn), 在模型訓練過程中筆者提出的PDNN模型相比于其他模型其損失函數(shù)值一直保持最低的狀態(tài), 說明提出的改進粒子群優(yōu)化算法得到的BP神經(jīng)網(wǎng)絡的層間權重可以較好擬合數(shù)據(jù), 表明該模型學習能力和泛化能力較強, 可快速收斂并保持著較優(yōu)的結果。最后, 基于上述對數(shù)據(jù)集的劃分方法, 筆者還對比了GA-BPNN、IPSONN、ABC-BPNN、PDNN模型在各評價指標上的實驗結果, 如圖5所示。從圖5中可以發(fā)現(xiàn), 筆者提出的PDNN模型相較于其他智能算法優(yōu)化后的神經(jīng)網(wǎng)絡模型, 其效果仍是最優(yōu)的, 在accuracy、precision、recall以及F1-score等4個評價指標上均取得了最優(yōu)的結果, 其值分別為86%、87%、86%和0.86, 表明PDNN模型可以根據(jù)學生的日常行為更加有效地預測學生的心理健康狀態(tài), 以幫助學校及時發(fā)現(xiàn)有心理問題的學生, 并進行相關的干預與疏導, 使其重新回到正常的生活和學習, 具有一定的現(xiàn)實意義。
圖4 各模型隨著迭代次數(shù)增加損失函數(shù)值的變化圖像 圖5 各智能優(yōu)化算法的模型實驗結果對比 Fig.4 Change image of loss function value of each model with the increase of iteration times Fig.5 Comparison of model experiment results of various intelligent optimization algorithms
筆者基于學生的日常行為數(shù)據(jù)預測學生的心理健康狀態(tài)。首先, 應用自定義公式法進行相關特征提??; 然后應用Jenks Natural Breaks算法和Apriori算法進行特征分類和挖掘, 特征關聯(lián)分析結果表明, 學生飲食規(guī)律性、 勤奮性、 共餐人數(shù)、 上網(wǎng)習慣與學生的心理健康狀態(tài)具有一定的相關性; 最后, 基于改進的粒子群優(yōu)化算法, 構建了PDNN神經(jīng)網(wǎng)絡模型, 用于預測學生的心理健康狀態(tài)。實驗結果表明, 筆者提出的PDNN神經(jīng)網(wǎng)絡模型相比于其他傳統(tǒng)機器學習和相關深度學習模型其準確率較高性能較好并且模型可快速收斂, 更加準確有效地預測學生的心理健康狀態(tài), 以幫助學校及時發(fā)現(xiàn)心理問題學生并進行相關的干預與疏導。
未來將進一步探究學生成績以及學生靜態(tài)特征, 如學生民族、 年齡、 來源省份、 性別等與學生心理健康狀態(tài)的關系。