楊 娟
(湖南工業(yè)職業(yè)技術學院 湖南長沙 410208)
教育部黨組頒發(fā)了《高等學校學生心理健康教育指導綱要》進一步提出:“堅持育心與育德相統(tǒng)一,要求完善心理危機預防和快速反應機制,更好地適應和滿足學生心理健康教育服務需求?!爆F(xiàn)階段高職院校的學生心理健康預測主要集中在一年一次的新生入校心理普查,側重于數據收集及統(tǒng)計,沒有進一步挖掘更深層次的信息,總結發(fā)展規(guī)律,導致問題預測準確性較低。
在大數據挖掘中發(fā)現(xiàn)關鍵的關系信息或屬性類別中的規(guī)律性聯(lián)系,并挖掘潛在的信息,通過關聯(lián)規(guī)則分析,進一步找出發(fā)生的事件并導致其他事件順序或時間上的形成規(guī)律。前期研究表明,高職生心理健康狀況有其群體特征,人際交往問題比較明顯,同時對比分析了不同專業(yè)、生源地、社會支持對心理健康的影響,結果表明之間有較顯著的關聯(lián)性,具有不同屬性特征。在此研究基礎上,通過找出發(fā)現(xiàn)數據的內在信息,根據樣本數據進行大量特征分類,抽取概括出這些信息的共質性及較明顯特點,自動匹配最具代表性的其他特征,自動匹配最佳權重指標。[1]
通過數據挖掘技術,從大量學生的心理健康評估數據庫里提取有用信息,為高職學生心理問題預測做參考。具體流程圖如下:
圖1 高職學生心理健康測評數據挖掘流程圖
本文中所選用數據來源于湖南工業(yè)職業(yè)技術學院、湖南科技職業(yè)技術學院和湖南工程職業(yè)技術學院的心理健康測評系統(tǒng)中自評量表SCL-90及個人基本信息的數據,具體從在校大一、大二學生中選取260名,其中男生157人,女生103人。所涉及職院的心理測評數據庫采用SQL Server 2008來存儲管理,個人信息主要收集性別、年齡、專業(yè)、生源地、家庭經濟收入、個體社會支持利用程度,共6項內容。學生自評量表SCL-90包含90個評定項目,10個因子分,每個項目采用五級評分制(1-5分),分數越高,表示癥狀越嚴重。[2]
數據預處理是數據挖掘過程中一項重要環(huán)節(jié),在處理相關數據時因各種因素會產生很多不準確噪聲數據,對噪聲數據進行預處理能極大提升挖掘效率,減少后續(xù)分析時間。1.進行數據清洗環(huán)節(jié),具體操作過程中:“學生基本信息表”中刪除身份證號碼、姓名、出生年月等無效屬性,保留所在年級、性別、所學專業(yè)、是否獨生子女、生源地情況、家庭經濟情況;“學生自評SCL-90量表”刪除學院、姓名、學號等屬性,保留90個評定項目總分、平均分及10個因子分,作為數據挖掘的內容。最后確定高職學生基本信息表由年級(NJ)、性別(XB)、專業(yè)(ZY)、生源地(SYD)、家庭經濟(JTJJ)組成。高職學生自評SCL-90量表由強迫(QP)、抑郁(YY)、軀體化(QTH)、敵對(DD)、焦慮(JL)、人際敏感(RJMG)、精神病性(JSBX)、恐怖(KB)、偏執(zhí)(PZ)、其他(QT)因子組成。2.數據清洗環(huán)節(jié),不僅需篩選重復數據,刪除或糾正不正確的數據,還需不斷完善數據。從高職學生心理健康測評系統(tǒng)導出的數據,除去沒有參加測評、項目缺失比較嚴重的12位同學,經過數據清理處理后,可用于數據挖掘數據一共2460條。3.數據集成環(huán)節(jié),將多個相關數據集合中的記錄集成構建到新的數據集的過程。在本文中通過關聯(lián)學號對學生基本信息表和SCL-90心理自評表進行連接,由系統(tǒng)中“數據選擇” 確定生成新的高職學生心理健康測評表。4.數據規(guī)范,具體操作為數據離散化:針對高職學生SCL-90自評表中每個因子分超過2分,篩選為陽性,視為有癥狀,小于2分為無癥狀。[3]
表1 “高職學生心理健康測評表”規(guī)范表(部分)
關聯(lián)規(guī)則(Association Rules)是反映某事件與其他事件之間的關聯(lián)依賴程度,表示形式一般為關聯(lián)規(guī)則的支持度:Support(A? B)=P(A B),當項集A出現(xiàn)時,項集B也出現(xiàn)概率為該關聯(lián)規(guī)則的置信度:Confidence(A ? B)=p(B/A)。在實現(xiàn)過程中,通過查找全部頻繁項集,貫串連接步和剪枝步,用于挖掘大量數據間的相關性。具體指連接步通過Ln產生Cn,多次連接,把Cn中符合限制條件的項集保存下來,連接產生Cn,多次循環(huán)操作后最大頻繁項集Ln即可產生。剪枝步主要在生成候選項Ck的過程中減少搜索范圍,刪除小于或等于預設最小支持度閾值的項值,剩下的規(guī)則達到預設最小置信度閾值,以達到挖掘出強關聯(lián)規(guī)則。[4]
高職學生自評SCL-90量表中選取有代表性的字段和記錄進行算法的演練模擬(表3),字段主要是由抑郁(YY)、軀體化(QTH)、敵對(DD)、焦慮(JL)、人際敏感(RJMG)等組成,并將原始數據中有癥狀的信息輸入事務數據庫中,選取5位同學的數據記錄,最后得出事務數據庫D(表4)。
表2 選取部分用于Apriori 算法的數據記錄
表3 事務數據庫D 及記錄
關聯(lián)規(guī)則Apriori算法具體如下:假設最小支持度計數,掃描事務D多次迭代,反復運用過濾、連接及剪枝,生成新的項集。示例:第1次迭代:掃描事務D,得到1項候選項集C1,假設最小支持度計數為2,則最小支持度為(min=0.18),由C1過濾生成頻繁1項集L1;第2次迭代:L1與L2自身連接,生成候選項集C2,由C2計數過濾生成2項集L2;第3次迭代:運用連接和剪枝由L2生成新的3項集C3。
流程如下:對L2連接,產生新集合{I1,I3,I4}{I1,I2,I4}、{I1,I4,I5}.對L2進行剪枝,生成候選3項集C3。
{I1,I3,I4}的兩項子集分別是{I1,I3}{I1,I4}與{I3,I4},其中舍棄非頻繁子集{I3,I4};
{I1,I2,I4}的兩項子集分別是{I1,I2}{I1,I4}與{I2,I4},其中舍棄非頻繁子集{I2,I4};
......
一般候選支持度計數等于最小支持度計數2,以上多次迭代生成了候選3項集C3,L3則無法再生成候選項集。同時,過濾規(guī)則根據支持度篩選,通常最小的置信度,用于找出最小置信度下的最大支持度,找出符合條件的實例數。通過數據挖掘軟件中的Apriori進行挖掘,不斷設置最小置信度和最小支持度等,從結果輸出中選擇有價值的規(guī)則。如:
JL=JL3 KB=KB3 PZ=PZ3 135? YY2 1 43 conf:0.99 lif:(1.18)lev:(0.13)[24] conv(12.45)
K B=K B2 PZ=PZ 2 JSBX=JS2 142?QT H=QT H2 YY=YY2 151< conf:0.97>lif:(1.13)lev:(0.11[22] conv(4.07)
RJGX=RJ2 PZ=PZ2 JSBX=JS2 138? YY=YY2 146 <conf:(0.98)> lift:(1.13) lev:(0.1)[24] conv:(3.87)
QTH=QTH2 RJGX=RJ2 Y Y=Y Y2 151? KB=KB2 139 <conf:(0.92)>lift:(1.23) lev:(0.09)[23]conv:(5.45)
......
對挖掘樣本進行了規(guī)則分析,得出軀體化癥狀明顯的學生,在抑郁、人際敏感等方面可能性比較大;同時在偏執(zhí)、焦慮程度較高的學生更容易產生軀體化和抑郁癥狀,這些數據挖掘的信息說明了個體各心理因子間均有潛在關聯(lián),每個因子關聯(lián)程度不同,對高職學生心理問題預測有一定的指導作用。[5]
本文將數據挖掘技術應用于高職心理健康問題預測中,僅采用了SCL-90量表的測評數據,沒有更多采用其他形式的心理測評調查,在今后研究中應豐富測評樣本數據,進一步完善心理健康數據的挖掘,使心理問題預測更加精準。