姜 攀
(蘇州工業(yè)園區(qū)服務(wù)外包職業(yè)學(xué)院 信息中心,江蘇 蘇州 215123)
行為分析是一個新興的研究領(lǐng)域,目前,我國對于校園學(xué)生行為的管理手段大都停留在事后定性分這析上,無法將校園悲劇消滅在萌芽狀態(tài),這已經(jīng)無法滿足智慧校園的需要,更不符合大數(shù)據(jù)時代的發(fā)展方向。據(jù)相關(guān)研究發(fā)現(xiàn),我國高等學(xué)校中有心理問題的大學(xué)生約占20%,按照病情輕重劃分,其中15%的大學(xué)生屬于一般心理問題,3.5%的大學(xué)生屬于有心理障礙,1.5%的大學(xué)生屬于有精神病,失去自我控制能力,分不清現(xiàn)實(shí)與幻覺[1]。這些都是不容忽視的數(shù)據(jù)。隨著校園突發(fā)事件等學(xué)生異常行為的發(fā)生趨向年輕化和多發(fā)性,通過大數(shù)據(jù)技術(shù)對校園突發(fā)事件中學(xué)生行為的監(jiān)測和預(yù)測顯著極其重要。
本研究從用戶需求和系統(tǒng)功能需求出發(fā),搭建學(xué)生行為分析的大數(shù)據(jù)平臺總體框架,設(shè)計成績預(yù)警、貧困生預(yù)測、生活習(xí)慣分析等,從學(xué)校的教務(wù)管理系統(tǒng)、學(xué)工系統(tǒng)、一卡通系統(tǒng)、上網(wǎng)行為審計系統(tǒng)、視頻監(jiān)控系統(tǒng)中抽取學(xué)生行為數(shù)據(jù),對數(shù)據(jù)進(jìn)行清洗和儲存,實(shí)現(xiàn)對校園學(xué)生不良行為的監(jiān)測,以提升相關(guān)教育管理部門的早期監(jiān)測能力。
在校園環(huán)境中,監(jiān)測和分析學(xué)生的行為數(shù)據(jù)來源主要有以下四方面:
1)傳統(tǒng)數(shù)據(jù)庫。是指現(xiàn)有的關(guān)系數(shù)據(jù)庫、數(shù)據(jù)倉庫、數(shù)據(jù)集市或任何其他產(chǎn)生結(jié)構(gòu)化數(shù)據(jù)的信息系統(tǒng)。在這個類別中,有關(guān)于學(xué)生、課程、考試等信息,還有大學(xué)的食堂、超市、宿舍等都可能有數(shù)據(jù)庫在運(yùn)行?,F(xiàn)有的數(shù)據(jù)庫可能會在缺失的數(shù)據(jù)庫基礎(chǔ)上增加一些額外的信息,如課程表、教室和實(shí)驗室的分配,建筑物的開放時間,教師的辦公時間等。
2)個人數(shù)據(jù)。通常是數(shù)字或非數(shù)字形式的,是非結(jié)構(gòu)化或半結(jié)構(gòu)化的,不可以在未經(jīng)個人許可之前獲取這些數(shù)據(jù)。數(shù)字?jǐn)?shù)據(jù)包括電子郵件、手機(jī)通話、短信、數(shù)字照片、音頻資料、視頻資料、網(wǎng)上購物和信用卡使用情況。非數(shù)字?jǐn)?shù)據(jù)可以是紙質(zhì)文件、手寫筆記、紙質(zhì)照片、剪報等形式。
3)網(wǎng)絡(luò)數(shù)字痕跡。人們每天基于網(wǎng)絡(luò)的許多行為都會留下數(shù)字痕跡。網(wǎng)絡(luò)數(shù)字痕跡通常使用的來源是網(wǎng)絡(luò)挖掘和文本挖掘(來自服務(wù)器的日志),從社交網(wǎng)絡(luò)中挖掘輿論以及從公共門戶網(wǎng)站收集的數(shù)據(jù)。很多數(shù)據(jù)都是在微信、QQ和微博等社交網(wǎng)站公開的,數(shù)據(jù)是非結(jié)構(gòu)化的。
4)戶外活動數(shù)據(jù)。這些數(shù)據(jù)的一部分來源是由校方控制的,視頻監(jiān)控、車輛識別系統(tǒng)、門禁授權(quán)系統(tǒng)等通常遍布全校。這些系統(tǒng)的數(shù)據(jù)以隔離方式進(jìn)行監(jiān)測和存儲,通??晒┍镜胤治?,以發(fā)現(xiàn)安全漏洞和任何其他違反規(guī)則的行為。
基于大數(shù)據(jù)技術(shù)對校園突發(fā)事件中學(xué)生行為監(jiān)測,其大數(shù)據(jù)平臺總體架構(gòu)如圖1所示。
圖1 學(xué)生行為監(jiān)測大數(shù)據(jù)平臺總體架構(gòu)
該平臺主要由校園基礎(chǔ)數(shù)據(jù)源、大數(shù)據(jù)基礎(chǔ)運(yùn)行平臺以及各種智慧應(yīng)用平臺組成。其中,大數(shù)據(jù)基礎(chǔ)運(yùn)行平臺主要包括數(shù)據(jù)采集存儲平臺、綜合分析挖掘平臺、智能預(yù)警平臺,安全運(yùn)行管控平臺。具有智能預(yù)警、數(shù)據(jù)挖掘、多維分析、關(guān)鍵指標(biāo)、專題分析等多種應(yīng)用。
1)數(shù)據(jù)采集和存儲平臺:將各平臺的基礎(chǔ)信息和與學(xué)生行為相關(guān)大數(shù)據(jù)收集后的結(jié)果進(jìn)行結(jié)構(gòu)化存儲和清洗。
2)綜合分析挖掘平臺:通過對收集到的大數(shù)據(jù)分析和建模,對其進(jìn)行更深層次的數(shù)據(jù)挖掘和分析。
3)智能預(yù)警平臺:根據(jù)平臺分析結(jié)果對監(jiān)測到的異常行為進(jìn)行智能預(yù)警以及自動生成對應(yīng)的監(jiān)督措施。
4)安全運(yùn)行管控平臺:該平臺是對整個系統(tǒng)進(jìn)行數(shù)據(jù)管控,以保障數(shù)據(jù)安全以及系統(tǒng)運(yùn)行的穩(wěn)定。
行為分析是一項復(fù)雜的工作,學(xué)生的行為受多個因素的影響,需要我們具有能夠收集、存儲和處理大量數(shù)據(jù)的技術(shù),同時具有足夠的靈活性,以適應(yīng)功能的逐步增加。
通過收集一卡通系統(tǒng)中各類終端設(shè)備的海量數(shù)據(jù),針對具體的分析場景建模。分析數(shù)據(jù)庫中的有關(guān)上課考勤、宿舍出入等刷卡記錄表,建立學(xué)生日常行為預(yù)警系統(tǒng),記錄學(xué)生上課遲到、早退和曠課次數(shù),加入教務(wù)管理系統(tǒng)中的學(xué)生成績信息后,該記錄也可以作為預(yù)測學(xué)生成績的關(guān)鍵指標(biāo)。通過在系統(tǒng)中預(yù)設(shè)閥值來實(shí)現(xiàn)自動預(yù)警功能,學(xué)生管理者可以根據(jù)這些預(yù)警信息及時響應(yīng)。
通過分析學(xué)工系統(tǒng)中的學(xué)生、家庭基本信息以及一卡通系統(tǒng)中的圖書借閱情況、食堂和餐廳消費(fèi)情況、宿舍購水電記錄情況、醫(yī)務(wù)室就診情況,加上上網(wǎng)審計系統(tǒng)中學(xué)生上網(wǎng)審計記錄等,通過這些數(shù)據(jù)的抓取,建立學(xué)生綜合行為分析系統(tǒng),該系統(tǒng)可以預(yù)測成績預(yù)警、貧困生預(yù)警、健康狀況預(yù)警、節(jié)能預(yù)警等。
處理大數(shù)據(jù)時,在云計算服務(wù)的幫助下使用Hadoop平臺。Hadoop是由許多不同的模塊(超過150個)組成,是一個處理大數(shù)據(jù)的強(qiáng)大平臺[2]。
1)HDFS是一個分布式、可擴(kuò)展、可移植的文件系統(tǒng),用來存儲大文件(可以是千兆字節(jié)和兆字節(jié))。因此,Hadoop可以有幾百甚至幾百萬個獨(dú)立的文件,這些文件分布在許多計算機(jī)上(可以是幾千臺),并且都通過軟件相互連接。
2)Map Reduce是Hadoop的另一個關(guān)鍵部分,負(fù)責(zé)執(zhí)行分布式處理。這個過程由Map和Reduce組成。Map是將一個任務(wù)及其相關(guān)的數(shù)據(jù)分割成許多片段,以便可以被發(fā)送到幾個不同的服務(wù)器上進(jìn)行并行處理。Reduce過程是從不同的計算機(jī)取出結(jié)果并將它們結(jié)合起來,得出一個單一的結(jié)果。
3)Pig是Hadoop中的一個平臺,用來編寫Map Reduce程序,使用Pig拉丁語編程語言。
4)Hive是Hadoop中的一個數(shù)據(jù)倉庫,它可以用于數(shù)據(jù)查詢、匯總和分析。它使用HiveQL(一種類似SQL的語言)進(jìn)行查詢。
此外,還可以使用其他組件。其中比較常用的有HBase(NoSQL數(shù)據(jù)庫)、Storm(允許處理流數(shù)據(jù))、Spark(允許快速內(nèi)存處理)和Giraph(用于分析社交網(wǎng)絡(luò)數(shù)據(jù))。
學(xué)生行為大數(shù)據(jù)分析過程如圖2所示。
圖2 學(xué)生行為大數(shù)據(jù)分析過程
1)學(xué)生學(xué)習(xí)異常行為大數(shù)據(jù):學(xué)生缺勤、掛課、偏科、抄襲等異常行為大數(shù)據(jù)分析。
2)學(xué)生日常生活異常行為大數(shù)據(jù):根據(jù)學(xué)生進(jìn)出校園打卡記錄、食堂就餐、晨練打卡、活動軌跡等異常生活行為大數(shù)據(jù)分析。
3)學(xué)生上網(wǎng)習(xí)慣異常行為大數(shù)據(jù):根據(jù)學(xué)生上網(wǎng)習(xí)慣,對登錄非常規(guī)如暴力、色情、賭博、詐騙等網(wǎng)站的學(xué)生,計算機(jī)進(jìn)行上網(wǎng)異常行為大數(shù)據(jù)分析。
4)校園視頻監(jiān)控學(xué)習(xí)異常行為大數(shù)據(jù):通過對校園視頻圖像分析,查找學(xué)生異常行為大數(shù)據(jù)。
5)學(xué)生家庭等社會環(huán)境異常大數(shù)據(jù):非普通家庭和非普通社會環(huán)境。
6)其他異常行為大數(shù)據(jù):通過班主任、同學(xué)、教師等反映的其他異常行為進(jìn)行大數(shù)據(jù)分析。
通過遍歷數(shù)據(jù)源,對所需數(shù)據(jù)源的數(shù)據(jù)進(jìn)行抽取,即將學(xué)生行為數(shù)據(jù)從源數(shù)據(jù)庫抽取出來,在此過程中加入ODS(操作性數(shù)據(jù)),用作數(shù)據(jù)抽取。ODS可以整合來自不同來源、不同系統(tǒng)、甚至不同地點(diǎn)的數(shù)據(jù),由于ODS數(shù)據(jù)是非常不穩(wěn)定的,其數(shù)值的變化接近于實(shí)時,一個ODS的內(nèi)容可能從一個時刻到另一個時刻發(fā)生巨大的變化,這取決于目標(biāo)來源的性質(zhì)。但其好處是抽取過程中極大降低了數(shù)據(jù)轉(zhuǎn)化的復(fù)雜性,而主要關(guān)注數(shù)據(jù)抽取的接口、數(shù)據(jù)量大小、抽取方式等方面的問題。抽取后的數(shù)據(jù)最終在數(shù)據(jù)倉庫(DW)中完成整合。數(shù)據(jù)抽取過程如圖3所示。
圖3 數(shù)據(jù)抽取過程
數(shù)據(jù)抽取工作是對源數(shù)據(jù)進(jìn)行全量抽取,通過各類接口提取原始數(shù)據(jù),并將數(shù)據(jù)源中的表或者視圖中的數(shù)據(jù)完整地抽取出來并轉(zhuǎn)換為自己的ETL工具可以識別的格式。數(shù)據(jù)采集則根據(jù)業(yè)務(wù)數(shù)據(jù)的不同種類定制合適的數(shù)據(jù)抽取策略[3-4]。
數(shù)據(jù)清洗是修復(fù)或刪除數(shù)據(jù)集中不正確的、損壞的、格式不正確的、重復(fù)的或不完整的數(shù)據(jù)的過程。當(dāng)結(jié)合多個數(shù)據(jù)源時,可能會出現(xiàn)數(shù)據(jù)重復(fù)或錯誤標(biāo)記的情況。如果數(shù)據(jù)不正確,結(jié)果和算法都是不可靠的,即使它們可能看起來是正確的。沒有一個絕對的方法來規(guī)定數(shù)據(jù)清理過程中的確切步驟,因為不同的數(shù)據(jù)集的過程會有所不同。但是,為數(shù)據(jù)清洗過程建立一個模板是至關(guān)重要的。這些數(shù)據(jù)包含了學(xué)校各個業(yè)務(wù)系統(tǒng)中的數(shù)據(jù):①基礎(chǔ)數(shù)據(jù),包括教務(wù)和學(xué)工系統(tǒng)中學(xué)生的基本信息和家庭信息等;②管理系統(tǒng)數(shù)據(jù),主要來自學(xué)工、教學(xué)、一卡通、上網(wǎng)審計等系統(tǒng)中的各類數(shù)據(jù),如學(xué)生上課情況、請假、消費(fèi)、上網(wǎng)時長等;③學(xué)生行為數(shù)據(jù),主要來自各業(yè)務(wù)系統(tǒng)中的包含與學(xué)生個人行為有關(guān)的信息,如校園卡消費(fèi)時間、上課考勤情況、上網(wǎng)時間段等。
數(shù)據(jù)清洗將學(xué)工、教務(wù)、一卡通、上網(wǎng)審計等與學(xué)生行為相關(guān)的全量業(yè)務(wù)數(shù)據(jù),通過各類數(shù)據(jù)清洗方法(一般包括刪除多列、更改數(shù)據(jù)類型、變量轉(zhuǎn)換、缺失數(shù)據(jù)檢查、刪轉(zhuǎn)換時間等)清洗后形成標(biāo)準(zhǔn)化數(shù)據(jù)。按照近源模型層、整合模型層、共性加工層和集市應(yīng)用層進(jìn)行構(gòu)建。數(shù)據(jù)清洗過程模型如圖4所示。
在圖4中,①近源層是在保證業(yè)務(wù)系統(tǒng)數(shù)據(jù)接口不變的情況下,對業(yè)務(wù)系統(tǒng)的原始明細(xì)數(shù)據(jù)進(jìn)行存儲。②整合模型層通過各類主題(如學(xué)工主題、教務(wù)主題、一卡通主題、上網(wǎng)審計等)模型來存儲管理各個業(yè)務(wù)系統(tǒng)之間相同類型的數(shù)據(jù),且保留數(shù)據(jù)的歷史明細(xì)。③匯總層以分析的主題對象作為建模驅(qū)動,基于各類匯總數(shù)據(jù)(如學(xué)生匯總、教務(wù)匯總、一卡通匯總、網(wǎng)絡(luò)審計匯總等)指標(biāo)需求構(gòu)建公共粒度的匯總表。匯總數(shù)據(jù)層的一個表通常會對應(yīng)一個統(tǒng)計粒度(維度或維度組合)及該粒度下若干派生指標(biāo)。④集市應(yīng)用層(如大數(shù)據(jù)應(yīng)用、學(xué)生行為應(yīng)用、系統(tǒng)對接應(yīng)用等)主要為特定內(nèi)容建立維度摘要信息并建立摘要數(shù)據(jù)區(qū)域[5-7]。
圖4 數(shù)據(jù)清洗過程模型
應(yīng)用服務(wù)器首選以Apache Tomcat為基礎(chǔ)開發(fā)大數(shù)據(jù)可視化分析系統(tǒng),此系統(tǒng)共包含了主題數(shù)據(jù)集、數(shù)據(jù)可視化圖表、主題面板、用戶管理、預(yù)警管理和決策分析管理這六大模塊。
1)分類分析:根據(jù)一定的分類準(zhǔn)則將具有不同特征的數(shù)據(jù)劃分到不同類別的過程。如,按時上課、遵守紀(jì)律這類學(xué)生的學(xué)習(xí)行為為正常;而缺勤、不做作業(yè)、沉迷于游戲,掛課、補(bǔ)考課程數(shù)量較多,這類學(xué)生常常出現(xiàn)學(xué)習(xí)異常行為。
2)回歸分析:通過對自變量和因變量做一定的相關(guān)性分析,建立回歸方程。根據(jù)學(xué)生的食堂和日常生活消費(fèi)異常情況可以推測學(xué)生是否出現(xiàn)校園貸,如學(xué)生經(jīng)常曠課有可能沉迷于游戲等異常行為。
3)聚類分析:是一種處理數(shù)據(jù)的統(tǒng)計方法。是根據(jù)項目之間的密切聯(lián)系將其組織成組,或稱聚類。就像縮小空間分析(因子分析)一樣,關(guān)注的是那些事先沒有將變量劃分為標(biāo)準(zhǔn)與預(yù)測子集的數(shù)據(jù)矩陣。聚類分析的目的是找到相似的受試者群體,其中每對受試者之間的“相似性”是指對整個特征集的某種全局衡量。聚類分析通常用于對數(shù)據(jù)中可能存在的關(guān)系不做任何假設(shè)的情況下。它提供了關(guān)于數(shù)據(jù)中存在的關(guān)聯(lián)和模式的信息,但不是這些關(guān)聯(lián)和模式可能是什么或它們意味著什么。在本研究中是根據(jù)學(xué)生各種異常行為數(shù)據(jù)進(jìn)行聚類分析,得出某些高發(fā)的異常行為。
4)關(guān)聯(lián)分析:在海量數(shù)據(jù)中挖掘出數(shù)據(jù)間潛在的關(guān)聯(lián)關(guān)系。通過分析學(xué)生在校園中的打卡軌跡,就可以初步判斷出他是在學(xué)習(xí),還是在做其他事情。上網(wǎng)經(jīng)常瀏覽自殺等不正常網(wǎng)頁和獨(dú)處異常行為就要關(guān)聯(lián)他是否有自閉癥和自殺傾向。學(xué)生未歸或晚歸就要關(guān)聯(lián)他是否到校外喝酒或其他異常行為。
5)圖像視頻分析:采用視頻識別分析算法,對各監(jiān)控采集的視頻進(jìn)行行為異常分析。
6)大數(shù)據(jù)分析學(xué)生異常行為預(yù)警。對于出現(xiàn)的學(xué)生異常行為,平臺要及時通過短信等信息方式通知班主任或輔導(dǎo)員,甚至家長。
7)大數(shù)據(jù)分析學(xué)生異常行為可視化。通過標(biāo)簽云、文本語義結(jié)構(gòu)樹、動態(tài)文本時序信息可視化、圖和樹可視化、流式地圖、時空立體圖、多維可視化等直觀表示。采用可視化技術(shù),將海量大數(shù)據(jù)分析結(jié)果以各種圖表、GIS、動態(tài)圖等形式進(jìn)行展現(xiàn),支持?jǐn)?shù)據(jù)的查詢和報表的下載,預(yù)警查詢、學(xué)生行為等級分級、預(yù)警信息定向推送等功能。
通過數(shù)據(jù)挖掘整理分析與預(yù)警及可視化等技術(shù),對校園突發(fā)事件中學(xué)生行為進(jìn)行監(jiān)測,預(yù)判學(xué)生是否有出現(xiàn)意識形態(tài)的偏差而導(dǎo)致暴力等異常行為傾向,及時有效地遏制暴力等異常行為所帶來的其他負(fù)面影響,確保校園這片凈土,為學(xué)生營造一個良好的學(xué)習(xí)氛圍。利用大數(shù)據(jù)技術(shù),分析和預(yù)判大學(xué)生異常行為,為學(xué)校和社會相關(guān)職能部門早期監(jiān)測提供對策支持。