摘要:為改變依靠說教和事后分析找對策的傳統(tǒng)學生管理方式,基于大數(shù)據(jù)的視角,構(gòu)建了校園學生行為數(shù)據(jù)的分析模型,并通過大數(shù)據(jù)處理框架Hadoop和數(shù)據(jù)分析語言R設(shè)計了學生行為分析平臺架構(gòu),基于此架構(gòu),實現(xiàn)了學生行為特征的分析,為學生管理的科學化、全面化和個性化提供了技術(shù)服務,為學校的高層決策提供智力支持。
關(guān)鍵詞:互聯(lián)網(wǎng)+教育;教育大數(shù)據(jù);學生行為分析;Hadoop框架;R語言
中圖分類號:G718? ? 文獻標識碼:A? ? 文章編號:1672-5727(2020)08-0076-05
2015年8月,國務院發(fā)布了《促進大數(shù)據(jù)發(fā)展行動綱要》,指出加快大數(shù)據(jù)部署,深化大數(shù)據(jù)應用,已成為穩(wěn)增長、促改革、調(diào)結(jié)構(gòu)、惠民生和推動政府治理能力現(xiàn)代化的內(nèi)在需要和必然選擇。2019年10月,教育部辦公廳發(fā)布的《關(guān)于推薦遴選“基于教學改革、融合信息技術(shù)的新型教與學模式”實驗區(qū)的通知》明確要求,通過云計算、區(qū)塊鏈技術(shù)等采集學習過程中的生成性行為數(shù)據(jù),開展教學分析與過程性評價,提升課堂教學和育人的有效性,從而促進學生個性化全面發(fā)展的成長路徑??梢钥吹?,大數(shù)據(jù)已經(jīng)成為國家實施創(chuàng)新驅(qū)動發(fā)展戰(zhàn)略的內(nèi)在需要和必然選擇,在教育領(lǐng)域也已成為促進學生全面發(fā)展和個性化發(fā)展的重要技術(shù)支撐[1]。
隨著“互聯(lián)網(wǎng)+教育”的深入推進,教育信息化得到快速發(fā)展,在很大程度上支撐和引領(lǐng)著教育現(xiàn)代化的發(fā)展。伴隨著新一代信息技術(shù)的催生和應用,在有力推動教育理念更新、模式變革和體系重構(gòu)的同時,也產(chǎn)生了記錄學生學習和生活的海量數(shù)據(jù)。通過這些大數(shù)據(jù),一方面,能夠發(fā)現(xiàn)學生在校期間的成長變化規(guī)律,捕獲學生不同行為背后的特征及相關(guān)性;另一方面,可以實現(xiàn)更加科學化、全面化和個性化的校園管理和服務,進而引導學校形成健康科學的學生培養(yǎng)模式和教學生活管理方式,同時也為學校發(fā)展決策提供科學依據(jù)。
一、大數(shù)據(jù)與學生行為分析
麥肯錫認為,大數(shù)據(jù)是一種規(guī)模大到在獲取、存儲、管理、分析方面大大超出了傳統(tǒng)數(shù)據(jù)庫軟件工具能力范圍的數(shù)據(jù)集合。因此,大數(shù)據(jù)代表了存儲和處理海量數(shù)據(jù)的一種技術(shù),所以,大數(shù)據(jù)既是一種資源或工具,更是一場革命。這場革命需要大數(shù)據(jù)技術(shù)才能使得大數(shù)據(jù)發(fā)揮其重要的價值,以此來提供更強的決策力、洞察力和發(fā)現(xiàn)力。
在教育領(lǐng)域,隨著近年來教育信息化的大力發(fā)展,產(chǎn)生了大量的教育數(shù)據(jù),即教育大數(shù)據(jù)。教育大數(shù)據(jù)記錄了教育教學活動中所產(chǎn)生的各種數(shù)據(jù),以及學生在校期間的各種行為數(shù)據(jù),這些數(shù)據(jù)在某一個時間點上是靜態(tài)離散的,反映了學生的學習狀態(tài)、成果,但在特定的時段內(nèi),這些數(shù)據(jù)是動態(tài)連續(xù)的,反映了學習及生活活動的行為軌跡。因此,基于教育大數(shù)據(jù)的分析和挖掘,對于學生的全面發(fā)展和個性化培養(yǎng),具有非常重要的意義和價值。
行為分析源自心理學,由美國心理學家亨特提出,他指出應該盡量避免應用帶有心靈色彩的術(shù)語,力求通過外在行為來描述、解釋、預測和控制有機體。在校園里,傳統(tǒng)的學生行為管理主要通過學校的政策文件和學生行為手冊來規(guī)范和約束,這種管理方式通常是固定的、模式化的、路徑依賴式的,與科學化的學生管理相比,還有很大的差距。基于教育信息化下的教育大數(shù)據(jù),真實、準確地記錄了學生的學習和生活行為,通過對這些數(shù)據(jù)的挖掘和分析,可以充分了解學生的“個性”,進而制定和實施個性化的管理方案,實現(xiàn)對學生個性化的人文關(guān)懷,為學生提供個性化的過程預警。
學生在校期間所產(chǎn)生的行為數(shù)據(jù),既有課堂學習、參加考試的結(jié)構(gòu)化數(shù)據(jù),也有上網(wǎng)購物、瀏覽頁面的非結(jié)構(gòu)化數(shù)據(jù),以及通過校園一卡通進入學校餐廳、超市、圖書館等場所消費及學習的其他數(shù)據(jù),這些數(shù)據(jù)記錄了學生個體層面在校的行為軌跡[2]。為了方便后續(xù)的分析,這里對行為數(shù)據(jù)進行進一步的梳理,構(gòu)建了行為數(shù)據(jù)分析模型,如圖1所示。學生行為數(shù)據(jù)通過學生基本數(shù)據(jù)、課堂學習、課外學習、學生成績、校園生活、校園活動六個方面來獲取,這六個方面形成了學生行為數(shù)據(jù)分析的六個維度,通過這六個維度可以全方位刻畫學生的學習和生活概況,也可以分析不同維度下的指標關(guān)系,還可以進行深層次的數(shù)據(jù)挖掘。
二、學生行為分析平臺的架構(gòu)
(一)數(shù)據(jù)處理框架和分析語言的選擇
目前,對于大數(shù)據(jù)的處理框架主要包括Hadoop、Spark和Storm,這些框架具有特定的優(yōu)勢和不同的應用場景:Hadoop通過HDFS實現(xiàn)海量數(shù)據(jù)的存儲,通過MapReduce進行分布式計算,非常適合處理批量離線數(shù)據(jù),同時,針對不同的需求有不同的支持工具,所以,Hadoop目前是一個龐大的Hadoop生態(tài)系統(tǒng);Spark是專門為大規(guī)模數(shù)據(jù)處理而設(shè)計的快速通用的計算引擎,基于內(nèi)存計算,支持分布式數(shù)據(jù)集上的迭代作業(yè),支持交互式計算和復雜算法,現(xiàn)已成為一個高速發(fā)展且應用廣泛的生態(tài)系統(tǒng);Storm是一個分布式實時大數(shù)據(jù)處理系統(tǒng),高性能、可擴展、高容錯。綜合比較來看,Hadoop擅長批處理、吞吐量大、做全量數(shù)據(jù)的離線分析;Spark適合構(gòu)建大型的、低延遲的數(shù)據(jù)分析應用程序;Storm在實時方面具有先天的優(yōu)勢,但單位時間內(nèi)的吞吐量要小于Hadoop。分析學生的行為數(shù)據(jù),對實時性沒有特定要求,故不考慮基于流式的Storm計算框架,而Spark本身也沒有提供分布式文件系統(tǒng),所以,本文最終選擇Hadoop作為學生行為數(shù)據(jù)的處理框架。這是因為Hadoop提供了成熟的海量數(shù)據(jù)存儲方案,還有大量可供選擇的第三方存儲工具,比如HBase、Hive等,以及基于HDFS讀寫數(shù)據(jù)吞吐量大,進行離線分析不會影響到正常的業(yè)務系統(tǒng)的運行。
對于數(shù)據(jù)分析編程語言,目前應用最多的是Python和R。R是一種自由、開源的語言和操作環(huán)境,在統(tǒng)計分析、繪圖和統(tǒng)計編程上具有先天的優(yōu)勢,目前大量應用在統(tǒng)計分析、數(shù)據(jù)挖掘、機器學習、生物信息、金融分析等領(lǐng)域,擁有大量的支持包,能夠調(diào)用C、C++、Fortran、Java等其他編程語言;Python是一個高層次的結(jié)合了解釋性、編譯性、互動性和面向?qū)ο蟮哪_本語言,目前在數(shù)據(jù)分析、機器學習、矩陣計算、科學數(shù)據(jù)可視化、數(shù)字圖像處理、Web應用、網(wǎng)絡爬蟲、系統(tǒng)運維等方面都具有特定的優(yōu)勢,擁有大量的第三方庫,已形成了較為龐大的生態(tài)系統(tǒng)。由于本文的研究目前在實驗分析階段,所以選擇R作為數(shù)據(jù)分析語言。
(二)平臺架構(gòu)設(shè)計
基于大數(shù)據(jù)處理框架Hadoop和數(shù)據(jù)分析編程語言R,學生行為分析平臺的架構(gòu)設(shè)計如圖2所示。
從圖2可以看出,整個架構(gòu)設(shè)計分為五層,從下到上分別是:業(yè)務系統(tǒng)層、數(shù)據(jù)集成層、數(shù)據(jù)存儲層、數(shù)據(jù)分析層和業(yè)務應用層。業(yè)務系統(tǒng)層是目前支持校園各項業(yè)務運作的系統(tǒng),比如用于教務管理的教務管理系統(tǒng)、用于開展線上教學的在線教學系統(tǒng)、用于學生購物消費的一卡通系統(tǒng)、用于進出圖書館以及圖書借閱的圖書借閱系統(tǒng)、用戶跟蹤學生定崗實習的定崗實習系統(tǒng)等。系統(tǒng)集成層可以通過kafka connect、Sqoop等將業(yè)務系統(tǒng)中產(chǎn)生的數(shù)據(jù)統(tǒng)一集成到數(shù)據(jù)存儲層中。數(shù)據(jù)存儲層通過Hadoop提供的HDFS實現(xiàn)海量的數(shù)據(jù)管理,同時基于HDFS可以支持HBase以及Hive等具體的數(shù)據(jù)應用環(huán)境。數(shù)據(jù)分析層根據(jù)業(yè)務需求實現(xiàn)對數(shù)據(jù)的各種分析,包括基本的統(tǒng)計分析、關(guān)聯(lián)分析、相關(guān)及回歸分析、分類及聚類分析、時間序列分析等。業(yè)務應用層實現(xiàn)對學生科學化、精細化及個性化的管理,比如學生畫像、心理及身體健康關(guān)注、成績預測、學生管理等。除此之外,還有保證整個系統(tǒng)穩(wěn)定健康運行的安全機制,包括安全管理、運維監(jiān)控、調(diào)度管理、質(zhì)量管理等。
三、學生行為特征分析
(一)數(shù)據(jù)預處理
在進行具體分析前,需要對不同業(yè)務領(lǐng)域獲取到的數(shù)據(jù)進行有效清洗和預處理,具體包括:剔除無效數(shù)據(jù)、數(shù)據(jù)壓縮(歸約處理)、生成新的度量指標、數(shù)據(jù)拆分、數(shù)據(jù)變換(比如取對數(shù))、歸一化處理等。例如,針對學生一卡通的消費數(shù)據(jù),由于學生可以通過一卡通進行就餐消費、學校超市購物消費等,所以數(shù)據(jù)量非常龐大,在單獨進行一卡通的消費數(shù)據(jù)分析時,可以將這些數(shù)據(jù)按時間進行拆分處理,這樣可以對不同數(shù)據(jù)段的消費單獨處理,然后再對處理結(jié)果進行合并[3]。
為了對學生的行為特征進行綜合全面的分析,需要將不同數(shù)據(jù)源(業(yè)務系統(tǒng))獲取到的數(shù)據(jù)進行連接操作,形成一個大的數(shù)據(jù)表,連接的字段是學生的學號。通過這種連接操作,一方面可以過濾掉對分析目標沒有貢獻的無效數(shù)據(jù),另一方面也可以適當降低總數(shù)據(jù)量的大小,最后將連接形成的數(shù)據(jù)集(表)存放到Hive數(shù)據(jù)倉庫中。
Hive是一種底層封裝了Hadoop的數(shù)據(jù)倉庫處理工具,可以將結(jié)構(gòu)化的數(shù)據(jù)文件映射為一張數(shù)據(jù)庫表,并提供完整的SQL查詢功能,也就是說通過Hive可以在HDFS上使用SQL語句執(zhí)行MapReduce的計算任務。而R可以通過JDBC來連接Hive,具體操作需要在R中安裝rJava、DBI、RJDBC等包,同時還需要將集群中Hive JDBC的驅(qū)動包拷貝出來放在R程序所在的本地。R連接Hive成功后,就可以對Hive中的數(shù)據(jù)進行各種分析和圖表展示。
(二)學生畫像
為了對學生的總體信息和行為特征進行全方位的展示,或?qū)μ囟〞r間段內(nèi)的行為進行具體描述,就需要通過學生行為特征數(shù)據(jù)對其畫像。有效地構(gòu)建學生畫像,有利于精準剖析學生成長過程和特點,有助于提供個性化的培養(yǎng)和指導。由于學生在校的行為是多元化的,所以學生畫像也是多元化的。學生畫像,一方面是對學生信息和行為的匯總輸出;另一方面也是對學生行為特征數(shù)據(jù)背后的深層次挖掘。
在實現(xiàn)學生畫像前,需要構(gòu)建有效的畫像模型,即畫像設(shè)計??梢栽趯W生行為數(shù)據(jù)分析模型的基礎(chǔ)上,將畫像抽取為五個維度,即:總體信息概覽、課程學習成績、就餐消費展示、圖書館進出及借閱統(tǒng)計、校園影像。每一維度下,又有具體的輸出設(shè)計,比如,總體信息概覽有學習、就餐消費、購物消費等的頻次描述,針對這些頻次數(shù)據(jù)可以給學生打上不同的標簽,比如是否學霸、消費水平高低等;課程學習成績分年級(一年級、二年級、三年級)和課程類型(公共基礎(chǔ)、專業(yè)基礎(chǔ)、專業(yè)核心、專業(yè)選修)等,以餅圖、直方圖、折線圖、雷達圖對比展示,以說明在不同時間節(jié)點上成績的波動情況;校園影像根據(jù)學生在校期間參加社團、參加各種比賽、超市消費、進出澡堂等數(shù)據(jù),展示學生的興趣特長、購物偏好、衛(wèi)生健康等。在此基礎(chǔ)上,對學生行為數(shù)據(jù)進行結(jié)構(gòu)化和標簽化處理,提取出精準的學生特征標識,然后通過文字描述、圖表展示等不同的載體方式呈現(xiàn)出來,這里主要使用到了R中的描述統(tǒng)計分析方法,對用戶的行為數(shù)據(jù)進行高度概括,同時圖表的輸出使用到了R中的ggplot2包。
(三)日常行為與學業(yè)表現(xiàn)相關(guān)性分析
在校園里,不同學生有不同的行為方式,優(yōu)秀學生和成績不理想學生在日常的行為中同樣存在不同的差異,對這些差異可以根據(jù)學生的行為數(shù)據(jù)來進行分析。比如,線上教學環(huán)境下,學生是否關(guān)注課程通知、學習視頻觀看長度、參與課堂互動等行為是否與課程的學習成績有關(guān);線下學生出入圖書館的次數(shù)、早中晚餐的就餐規(guī)律等是否與學業(yè)成績有關(guān)。由于學生的行為數(shù)據(jù)在總體上可分為離散型變量和連續(xù)性變量,所以在度量不同類型的行為變量與學業(yè)關(guān)系時,其計算指標也不相同。比如,在R中,對于連續(xù)性行為數(shù)據(jù),可以通過cor()函數(shù)中的pearson系數(shù)和spearman系數(shù)來分析相關(guān)性,而對于離散型行為變量,可以通過箱線圖來刻畫和描述,因為箱線圖能夠從平均水平(中位數(shù))、波動程度(箱子高低)以及異常值等方面來對分類變量進行直觀比較。
通過分析發(fā)現(xiàn),在連續(xù)性變量中,學生課堂學習得分、進出圖書館的次數(shù)與學習成績之間存在明顯的正相關(guān)性,相關(guān)系數(shù)高達0.75;而與購物次數(shù)、在線學習時長相關(guān)性不大。對于此結(jié)果,可以這樣理解,學業(yè)成績優(yōu)異的學生有自己學習和思考的方式,這些學生可能大部分時間花費在了圖書館看書和思考問題上面了。度量離散型變量和學業(yè)成績之間的關(guān)系,可以通過箱線圖來直觀地進行展示,從結(jié)果來看,就餐時間的規(guī)律性、借閱書籍的類型與學業(yè)成績有較大關(guān)系,而消費水平與學業(yè)成績關(guān)系不大。
以上只是從變量的角度度量了學生行為相關(guān)指標與學業(yè)之間的相關(guān)關(guān)系。由于影響學生學業(yè)的因素可能有很多,這些單個因素的影響可能是微不足道的,但是這些因素聯(lián)合起來就會對學業(yè)起到非常突出的影響。所以,為了更準確建立學業(yè)與日常行為之間的數(shù)量關(guān)系,本文選取眾多的行為指標數(shù)據(jù),采用隨機森林算法構(gòu)建學生行為與學業(yè)表現(xiàn)的預測模型。與其他機器學習模型相比,隨機森林能夠充分發(fā)揮決策樹的分類優(yōu)勢,并有效避免了單個決策樹容易產(chǎn)生過擬合的缺陷,同時對多元共線性不敏感,結(jié)果對缺失數(shù)據(jù)和非平衡的數(shù)據(jù)比較穩(wěn)健。使用隨機森林來構(gòu)建學生行為與學業(yè)之間的關(guān)系,可以很好地發(fā)揮隨機森林在預測多達幾千個解釋變量方面的作用優(yōu)勢。
在R中,隨機森林的支持包為randomForest,其核心函數(shù)為importance()、MDSplot()、rfImpute()、treesize()和randomForest()。在預測學業(yè)時,將學業(yè)輸出分為優(yōu)秀、良好、中等、合格和不合格五個等次,在建模過程中,需要多次調(diào)用set.seed()設(shè)置隨機數(shù)生成器初始值,而且每次設(shè)置不一樣,這意味著每次隨機抽樣的結(jié)果會不相同。從結(jié)果輸出可以看出,模型包含500棵決策樹,總的預測誤差為33.76%,并且能夠針對優(yōu)秀、良好、中等、合格和不合格五個等次輸出預測正確和錯誤的樣本數(shù)以及預測誤判率,同時可以通過importance()函數(shù)查看到對模型影響重要的變量。具體有:就餐率(早餐、中餐)、圖書館進出次數(shù)、借閱圖書數(shù)量、參加專業(yè)技能比賽等。事實上,從預測誤差上來看,這個輸出不是特別理想,需要進行優(yōu)化,優(yōu)化時,需要改變randomForest()函數(shù)的默認參數(shù),同時針對決策樹分支節(jié)點變量個數(shù),以及決策樹數(shù)量,采用逐一增加變量的方法不斷測試,最終構(gòu)建的最優(yōu)化模型,節(jié)點變量個數(shù)為2,決策樹數(shù)量為450,此時總體誤判率為21.94%,與之前輸出相比,預測準確率得到明顯提升。
(四)情感分析
學生在校期間,受某些事件的影響,個人情感會產(chǎn)生波動,如果是負面的,在一個特定的時間段內(nèi)如果得不到調(diào)節(jié)和改變,就會影響到學習以及身心健康。在目前“互聯(lián)網(wǎng)+教育”環(huán)境下,通過學生的網(wǎng)絡行為可以提取出與情感相關(guān)的信息,對其進行深入分析,可以檢測到學生基于情感的異常行為,從而進行及時的干預和引導。
情感分析主要針對文本,核心是利用計算技術(shù)對文本的主客觀性、情緒等進行挖掘和分析,從而對文本的情感傾向做出分類判斷。目前,情感分析的方法主要包括情感詞典法和機器學習法。對于情感詞典法,主要是通過分詞技術(shù)提取出待分析文本中的關(guān)鍵詞,然后與情感詞典中的詞通過相似度計算判斷情感傾向。所以,該方法的關(guān)鍵是分詞技術(shù)和情感詞典的構(gòu)建和擴充,比如,“好難過啊”如果拆分為“好”和“難過”,就會失去句子的本意。對于機器學習法,需要標注文本語料(有人工標注和機器自動標注之分),然后運用SVM、NBM等機器學習分類算法進行情感分析,最后得到情感的分類結(jié)果。相比較而言,通過機器學習進行情感分析,具有一定的優(yōu)勢,這是因為機器學習算法在識別準確性上有很大的提升空間,比如參數(shù)優(yōu)化、算法可選空間大等,同時在R中均有很好的支持。當然,在移動互聯(lián)網(wǎng)環(huán)境下,隨時隨地都會誕生很多網(wǎng)絡新詞,比如,“我太難了”“藍瘦香菇”,而這些網(wǎng)絡新詞最受大學生的喜愛,所以,在進行情感分析時,網(wǎng)絡新詞應該受到極大的關(guān)注[4]。
從學生的行為數(shù)據(jù)中,可以獲取學生最近借閱的圖書、使用PC或手機終端發(fā)布的學習和生活方面的主題信息,從而提取這些文本數(shù)據(jù),作為學生情感分析的輸入。接下來,通過R中的tm包、RTextTools包、text2vec包、glmnet包等實現(xiàn)情感分析,選擇知網(wǎng)情感詞典HowNet獲得情感信息特征,然后對學生文本數(shù)據(jù)進行分詞、修剪,并消除低頻詞、增加文字信息量n-gram、實現(xiàn)TFIDF、構(gòu)建DTM、生成情感模型等,在此基礎(chǔ)上完成情感的預測和識別。需要說明的是,text2vec是一個R包,為文本分析和自然語言處理提供了一個簡單高效的API框架,通過該包可以實現(xiàn)文本向量化、主題模型分析、Word2Vec的“升級版GloVe詞嵌入表達”、相似性度量等功能。
學生是教育的主體,對學生科學化、全面化和個性化的管理是教育管理者一直追求的目標。本文基于大數(shù)據(jù)視角,對學生在校期間的行為數(shù)據(jù)進行了梳理,獲得了行為數(shù)據(jù)模型,在此基礎(chǔ)上,比較分析了大數(shù)據(jù)處理框架和數(shù)據(jù)分析編程語言,構(gòu)建了學生行為分析平臺架構(gòu),然后使用R提供的函數(shù)和功能模塊,對學生進行行為特征分析。通過對學生行為數(shù)據(jù)的深入挖掘和分析,一方面,可以為學生管理提供科學化指導;另一方面,可以對學生的學習行為起到預警,對學生的負面情感及時進行疏導,同時,也為學校的科學管理提供有價值的決策信息。
參考文獻:
[1]鄧逢光,張子石.基于大數(shù)據(jù)的學生校園行為分析預警管理平臺建構(gòu)研究[J].中國電化教育,2017(11):60-64.
[2]李有增,曾浩.基于學生行為分析模型的高校智慧校園教育大數(shù)據(jù)應用研究[J].中國電化教育,2018(7):33-38.
[3]胡茜茜.基于學生個人大數(shù)據(jù)的行為特征分析[D].武漢:華中師范大學,2019.
[4]劉麗,岳亞偉.面向高校學生微博的跨粒度情感分析[J].計算機應用研究,2019(6):1618-1622.
(責任編輯:張宇平)
Behavior Analysis of Higher Vocational Students Based on Big Data
CHENG Guang-sheng
(Ningxia Vocational College of Finance and Economics, Yinchuan Ningxia 750021,China)
Abstract:To change the traditional way of student management, which depends on preaching and post-analysis to find countermeasures, the analytic model of campus student behavior data is constructed based on the perspective of big data, and the platform architecture of student behavior analysis platform is designed through the Hadoop of big data processing framework and R of data analysis language. On this basis, students' behavior characteristics are analyzed, providing technical services for the scientific, comprehensive and individualized management of students, and intellectual support for the high-level decision-making of the university.
Key words:Internet+ education; educational big data; student behavior analysis; Hadoop framework; R language
作者簡介:程光勝(1981—),男,碩士,寧夏財經(jīng)職業(yè)技術(shù)學院講師,研究方向為職業(yè)教育、數(shù)據(jù)科學、軟件工程。
基金項目:2019年度寧夏財經(jīng)職業(yè)技術(shù)學院重點立項課題“‘互聯(lián)網(wǎng)+教育下基于大數(shù)據(jù)的高職學生行為分析研究”(項目編號:NCYHLW201929)