王以伍,舒 暉*,曾滿江
(1. 成都醫(yī)學院現(xiàn)代教育技術(shù)中心,成都 610050;2. 成都醫(yī)學院圖書館,成都 610050)
大學生作為一個特殊的社會文化群體,正處于人生發(fā)展的重要時期,有孤僻感[1]的大學生往往伴隨各種心理問題,不能與人保持正常的人際交往,是不健康的社會行為模式,需要及時矯正。2011 年,教育部印發(fā)了《普通高等學校學生心理健康教育工作基本建設(shè)標準(試行)》的通知,強調(diào)要加強大學生心理危機預(yù)防與干預(yù)體系建設(shè)。高校一般根據(jù)要求建立了心理健康中心,由思政指導(dǎo)教師來負責學生的思想工作,學生助理負責跟蹤學生思想動態(tài),宿舍管理密切關(guān)注等多級心理預(yù)警機制,采取新生心理健康狀況普查、心理危機[2]定期排查等途徑和方式,及時發(fā)現(xiàn)學生存在的心理危機情況。但孤僻人群往往具有不主動交流、逃避問題等特征,人工的篩選、觀察具有時效性差、數(shù)據(jù)反映不真實等弊端。教務(wù)、學工、一卡通、圖書借閱、宿舍管理等系統(tǒng)作為高校的基礎(chǔ)業(yè)務(wù)管理系統(tǒng),有效推進了學校管理水平,隨著高校信息化集成、智慧校園工作的普遍開展,這些業(yè)務(wù)系統(tǒng)積累了海量學生行為數(shù)據(jù)[3]。通過對學生行為大數(shù)據(jù)本身的挖掘,能夠更客觀、真實地反映學生的校園生活、學習狀態(tài),更精細化地了解和引導(dǎo)學生,針對不同學生群體采取不同的教學手段,提升學生管理工作水平[4]。
國內(nèi)不少研究通過分析、挖掘校園數(shù)據(jù)來提取隱藏信息,輔助提升學校管理水平。朱錦龍[5]通過學習數(shù)據(jù)挖掘構(gòu)建學生畫像,挖掘出了跨群體的共性問題。楊彩霞[6]構(gòu)建師生教學行為指標體系,指導(dǎo)學生自主學習,幫助教師完善教學策略。楊光瑩等[7]基于校園行為數(shù)據(jù)實現(xiàn)學生思想特征畫像,對學生不良情況進行預(yù)警,提升學生工作管理水平。龔黎旰等[8]基于校園一卡通數(shù)據(jù)通過大數(shù)據(jù)技術(shù)分析不同群體的消費組成結(jié)構(gòu)和消費行為特征,輔助學校資助部門開展精準助學工作,構(gòu)建學生共現(xiàn)網(wǎng)絡(luò),研究學生社交關(guān)系并發(fā)現(xiàn)學生群體中的孤獨者??梢姰斍搬槍Ω咝W生行為數(shù)據(jù)挖掘,反映學生學習生活狀態(tài)、生活規(guī)律的研究已經(jīng)在不同程度上開展起來,但是心理問題的復(fù)雜性導(dǎo)致相關(guān)研究較少且不夠深入。但這項研究極具研究價值和實際意義,若能結(jié)合大數(shù)據(jù)與人工智能技術(shù),通過教育數(shù)據(jù)挖掘,及時、準確地知曉學生生活學習狀態(tài),挖掘他們的學習生活規(guī)律,對他們的學習和生活風險進行預(yù)警,并給予正確的引導(dǎo),便能極大程度地抑制高校極端事件的發(fā)生,進而維系高校正常教學秩序、教學質(zhì)量和就業(yè)質(zhì)量。
本文研究數(shù)據(jù)為某高校2020—2021 年度第二學期全校本科生五百多萬條的行為數(shù)據(jù),包括一卡通消費數(shù)據(jù)、考勤數(shù)據(jù)、門禁數(shù)據(jù)、各樓棟人臉識別攝像頭數(shù)據(jù)、無線AP 接入數(shù)據(jù)等。為保護學生個人隱私,上述數(shù)據(jù)均經(jīng)過脫敏處理。為提升數(shù)據(jù)質(zhì)量,將各系統(tǒng)數(shù)據(jù)通過數(shù)據(jù)清洗、數(shù)據(jù)集成、數(shù)據(jù)轉(zhuǎn)換、數(shù)據(jù)規(guī)約等環(huán)節(jié)進行數(shù)據(jù)預(yù)處理,清理數(shù)據(jù)集中與目標數(shù)據(jù)無關(guān)或關(guān)聯(lián)較小的數(shù)據(jù)。
具體方法是先通過行為數(shù)據(jù)時間按一定間隔鎖定部分同學身份,如以某個宿舍樓出口為采集點,在非出行高峰期,篩選出前5 秒和后5秒都沒有同行人員的學生身份,以此部分同學為研究對象,再專門采集該部分同學在其他場所出入口出現(xiàn)的同行人員身份和出現(xiàn)間隔時間,建立數(shù)據(jù)分組模型。如圖1所示,A 同學符合鎖定目標,進行鎖定,采集A 同學校內(nèi)軌跡,出現(xiàn)如圖1的數(shù)據(jù)組模型。
圖1 疑似孤僻學生鎖定
可以看到,A 同學在不同時間、不同地點、多類型場所出入,身邊沒有一名固定身份的同學伴行。當鎖定A 同學一定時間周期(如連續(xù)1個月)的在校軌跡時,如果絕大部分是上述類數(shù)據(jù)組模型,則可判斷此同學具有孤僻傾向,存在一定程度的孤獨感。再通過線下印證,則可將此模型設(shè)置為孤僻度典型業(yè)務(wù)模型。另外,為增強業(yè)務(wù)模型價值,可再輔以A 同學的一卡通消費數(shù)據(jù)、無線AP 接入數(shù)據(jù),如是否有消費窗口相同、消費時間相近、伴隨消費同學身份不變、同一AP 接入時間相近的多次現(xiàn)象,如有,也可作為判斷是否孤僻的數(shù)據(jù)支持。
上述數(shù)據(jù)組模型在建模過程中還有反向典型模型,如圖2所示。
圖2 反向典型模型
可以看到,當鎖定A 同學為觀察對象時,在不同類型場所出入口、不同時間段絕大部分數(shù)據(jù)組內(nèi),多次出現(xiàn)了B 同學。通過更長時間周期(如連續(xù)1個月)的觀察,則可判定A同學與B 同學屬于親密度較高的伙伴。再通過線下印證,則可以將此模型定義為親密數(shù)據(jù)組模型。另外,還可以通過調(diào)整間隔時間,如A 同學前后3秒采集到的人員數(shù)據(jù),來更進一步縮小數(shù)據(jù)采集范圍,進行數(shù)據(jù)提煉。如圖3所示。
圖3 3秒共現(xiàn)時間窗口驗證
再進一步縮小采集時間范圍,如A 同學出現(xiàn)的前后1秒之內(nèi)采集到的其他人員數(shù)據(jù),如圖4所示。
圖4 1秒共現(xiàn)時間窗口驗證
則可以判定為A 同學和B 同學屬于親密度較高的伙伴關(guān)系。如果再通過較長周期的數(shù)據(jù)采集,此類數(shù)據(jù)組又多次出現(xiàn),又占A 同學出行軌跡數(shù)據(jù)組的較高比例,則可將親密度級別進一步提高。此模型也為親密度典型業(yè)務(wù)模型。
算法基于學生在校行為記錄數(shù)據(jù)[9],抽取所有學生連續(xù)N個月的行為記錄進行行為軌跡數(shù)據(jù)挖掘,假設(shè)相似學生/關(guān)系相近學生會傾向于在一定時間段內(nèi)采取相同的行動,通過關(guān)聯(lián)規(guī)則挖掘算法,找出經(jīng)常在同一時間范圍、同一行為地點的學生組合,以此為基礎(chǔ)進行學生的行為軌跡相似性判斷。統(tǒng)計任兩名學生的共現(xiàn)次數(shù)并轉(zhuǎn)化為學生的關(guān)系指數(shù),共同行動/共現(xiàn)次數(shù)越多,則學生之間的相似度/關(guān)系越相近。根據(jù)學生關(guān)系指數(shù),對每名學生構(gòu)建個人社交圖,并通過社交圖的組合,形成全校學生的社交網(wǎng)絡(luò),學生對象為網(wǎng)絡(luò)中的節(jié)點,關(guān)系指數(shù)為網(wǎng)絡(luò)中的距離。同時,在社交網(wǎng)絡(luò)中,任兩個未直接相連的節(jié)點,可通過共有節(jié)點統(tǒng)計相似度/關(guān)系指數(shù)。
3.2.1 共現(xiàn)
共現(xiàn),特指在某一地點Li,給定時間窗口[T-t,T+t]內(nèi),同時存在學生SA和SB的行為記錄,有關(guān)聯(lián)規(guī)則SA →SB,則表示學生SA和SB在地點Li存在一次共現(xiàn)。
3.2.2 時間窗口
時間窗口為判斷學生行為記錄是否可歸為“共現(xiàn)”的范圍區(qū)間,判斷條件可轉(zhuǎn)化為|TA-TB|≤2*tl,h。其中TA為學生A的某次行為記錄時間,TB為學生B的某次行為記錄時間,2*tl,h為判斷條件可容忍的區(qū)間大小。參數(shù)tl,h為地點Li在h(h∈[ 1,24 ])小時段的閾值。
3.2.3 關(guān)系指數(shù)
參照聶敏[10]所描述的親密度概念與計算方式,設(shè)定任意兩名學生的親密度為RA(B),即對學生A而言,學生B對其的親密度為RA(B)。計算公式為
其中:L為所有學生行為記錄的地點;CA(i)表示在給定統(tǒng)計時間周期內(nèi)學生A在地點Li的記錄總次數(shù)表示在給定統(tǒng)計時間周期內(nèi),學生A和學生B在地點Li的共現(xiàn)次數(shù);|S|表示學校學生總?cè)藬?shù);SA(i)表示與學生A在地點Li共現(xiàn)的學生總?cè)藬?shù)。
3.2.4 相似度特征
參照聶敏[10]所描述的相似度計算方式,對于給定任意兩名學生i和學生j,兩者相似度計算方式為
對任一地點Li,存在參數(shù)集合為確定合適的tl,h,設(shè)置參數(shù)LBi、UBi和pi分別表示tl,h的下限、上限和增長步長。對于地點Li的h小時段,可選擇的tl,h有候選集合TS=以秒為單位,則對于每種選擇TSi,可將小時段劃分為個區(qū)間,則對于地點l在時間周期d的h小時,有:
其中:n為時間周期內(nèi)對應(yīng)小時段的行為記錄人數(shù)。即有:
其中:oi,l,h,k表示在地點i的h小時段第i個區(qū)間內(nèi),時間周期的第k天的共現(xiàn)人數(shù)。
基于每個地點、每小時段的每個區(qū)間,對集合W計算泊松分布的概率,得到Possion(X=2)和Possion(X≥2)的概率。
從公式可以看到,地點l、時間周期d、小時段h可視為已知的參數(shù),因此影響到概率的參數(shù)為TSi,通過調(diào)整TSi,可以影響到Possion(X= 2)和Possion(X≥2)的結(jié)果。TSi的選擇,應(yīng)控制在泊松分布概率值0.5以下。
對學生m,計算其與其他學生的共現(xiàn)次數(shù),可得到矩陣:
其中:OLn,sm表示學生m與學生s在地點Ln的共現(xiàn)次數(shù)。
對學生m,通過親密度計算公式可得到矩陣:
基于實際實況考慮,全校學生的關(guān)系指數(shù)矩陣很大可能會是一個稀疏矩陣,為了更好探究任意兩名學生之間的關(guān)系情況,將學生的社交關(guān)系構(gòu)造成網(wǎng)絡(luò),以學生為網(wǎng)絡(luò)節(jié)點,關(guān)系指數(shù)的倒數(shù)為節(jié)點間的距離,通過最短路徑Dijkstra算法,獲取任意兩名學生之間的社交路徑和最短關(guān)系距離。
考慮到親密度公式RA(B)為正向指標,為了支持最短路徑算法,采用其倒數(shù)作為關(guān)系距離,得到矩陣:
通過最短路徑算法計算后,更新距離矩陣D得到距離矩陣D`,其中vms表示學生m和學生s間最短關(guān)系距離和路徑矩陣P,Pms即學生m到學生s的社交路徑(社交網(wǎng)絡(luò)中通過的節(jié)點),根據(jù)親密度公式RA( )B,可以知道關(guān)系距離是有向的,因此在這之中,Pms≠Psm:
因此,對于社交網(wǎng)絡(luò)中的任意學生,存在
Ns=[D`s,Ps]表示學生的社交關(guān)系情況。
門禁道閘(人臉識別攝像頭)、食堂消費刷卡等設(shè)備流水數(shù)據(jù)均可用來反映學生的社交行為,用圖G(V,E)表示社交網(wǎng)絡(luò),其中V表示節(jié)點集合,E表示連邊集合,其中節(jié)點表示學生,連邊表示學生之間的社交關(guān)系。任意兩個節(jié)點之間存在一條連邊需要同時滿足三個條件:①被同一個設(shè)備捕獲(刷卡行為或被同一個人臉識別攝像頭識別);②被同一個設(shè)備捕獲的間隔時間小于2分鐘;③觀測周期內(nèi)同時滿足條件①和②的次數(shù)大于閾值T。
通過設(shè)置距離閾值H對學生的社交集合Ns中的關(guān)系距離D`s進行過濾,獲取D`s 圖5 社交網(wǎng)絡(luò)圖 本文介紹了基于學生行為數(shù)據(jù)挖掘?qū)W生社交網(wǎng)絡(luò)的方法,根據(jù)學校積累的消費、門禁、考勤、無線網(wǎng)絡(luò)接入等海量數(shù)據(jù),通過建模構(gòu)建出學生社交網(wǎng)絡(luò)的關(guān)系距離,距離的長短反映學生日常生活的親密度、孤僻度,比傳統(tǒng)的調(diào)查問卷、田野調(diào)查等調(diào)研方式更具客觀性和真實性,模型驗證表明,無明顯孤僻的學生更擅長社交。5 結(jié)語