王軍 何旭
摘? 要:隨著學校數(shù)字化、信息化與智慧校園建設的不斷深入發(fā)展,校園信息系統(tǒng)的應用已經(jīng)融入學生學習、生活的方方面面,各個信息系統(tǒng)存在大量的學生行為數(shù)據(jù),分析研究這些行為數(shù)據(jù)是目前的研究重點。利用數(shù)據(jù)倉庫技術(shù)將存在于各個信息系統(tǒng)中的學生行為數(shù)據(jù)集成至數(shù)據(jù)倉庫,通過數(shù)據(jù)挖掘分析建立高職學生行為分析模型,進而可以為學生修正學習方法、教師調(diào)整教學方式、管理部門精準學生管理提供幫助和建議。
關(guān)鍵詞:高職學生;學生行為;數(shù)據(jù)挖掘;聚類分析
中圖分類號:TP311.13? ? ? ?文獻標識碼:A 文章編號:2096-4706(2020)18-0119-03
Abstract:With the continuous in-depth development of school digitization,informatization and smart campus construction,the application of campus information system has been integrated into all aspects of students study and life. Each information system has a large amount of student behavior data. Analysis and research of these behavior data is recent research focus. Use the data warehouse technology method to integrate the student behavior data existing in various information systems into the data warehouse,and establish the behavior analysis model of higher vocational student through data mining analysis,which can then modify the learning methods for students,adjust the teaching methods for teachers,and provide help and suggestions of accurate student management for management department.
Keywords:vocational student;student behavior;data mining;cluster analysis
0? 引? 言
隨著學校的信息化發(fā)展,在眾多的信息應用系統(tǒng)中存在大量的與學生生活和學習等方面相關(guān)的行為數(shù)據(jù),如果能夠通過提取各個信息系統(tǒng)中相關(guān)學生行為數(shù)據(jù)進行整理、關(guān)聯(lián),并進行行為分析,建立行為分析模型,挖掘其中潛在有用信息,可以極大地推動學校各項管理工作的高效運行,實現(xiàn)校園各種信息和資源的高度集中融合?;诖?,本文主要將大數(shù)據(jù)、數(shù)據(jù)挖掘技術(shù)應用到學生的行為分析中,構(gòu)建和研究可行的高職學生行為分析模型。
1? 研究數(shù)據(jù)范圍和相關(guān)技術(shù)
1.1? 研究數(shù)據(jù)范圍
本研究的研究數(shù)據(jù)范圍主要是江蘇工程職業(yè)技術(shù)學院校內(nèi)的各類信息系統(tǒng)、教務系統(tǒng)、圖書借閱、圖書館進出、課堂考勤、一卡通系統(tǒng)以及相關(guān)信息系統(tǒng)的數(shù)據(jù)。
上述系統(tǒng)的相關(guān)學生行為數(shù)據(jù)分散在各個系統(tǒng)中,需要利用數(shù)據(jù)倉庫技術(shù)(ETL)集中至統(tǒng)一的數(shù)據(jù)倉庫中,筆者選擇了Kettle開源ETL工具進行數(shù)據(jù)的抽取、數(shù)據(jù)格式的轉(zhuǎn)換和數(shù)據(jù)最后的加載,Kettle抽取分散存放在各個信息系統(tǒng)中的學習行為數(shù)據(jù),然后按照標準數(shù)據(jù)格式轉(zhuǎn)換成滿足分析要求的標準數(shù)據(jù),最后將這些數(shù)據(jù)存放至數(shù)據(jù)倉庫中,如圖1所示。
從上述系統(tǒng)中抽取的數(shù)據(jù)主要包含:
(1)一卡通系統(tǒng)及其附屬系統(tǒng)中的日常消費數(shù)據(jù)(包含流水號、姓名、交易賬戶、流水時間、入賬時間、POS機代碼、事件類型、交易額,證件號,卡號等信息);
(2)教務系統(tǒng)中的學生成績數(shù)據(jù)(包含學號、姓名、成績狀態(tài)、成績、補考、重修、類型等信息),課程基本信息(包含課程名稱、課程代碼、學分、周學時、總學時、開課部門、專業(yè)方向、課程類別、課程性質(zhì)等信息);
(3)圖書館系統(tǒng)、各類門禁、考勤系統(tǒng)中的考勤信息(包含學號、姓名、考勤時間等信息)。
1.2? 關(guān)鍵技術(shù)介紹
數(shù)據(jù)挖掘是一種從數(shù)據(jù)庫的數(shù)據(jù)中發(fā)現(xiàn)知識的手段,利用機器學習、統(tǒng)計學習等相關(guān)方面的知識和技術(shù),從海量數(shù)據(jù)中整理、歸納、發(fā)現(xiàn)、提取出新穎的、有效的、潛在的、有價值并且可被理解的信息數(shù)據(jù)的處理過程。
數(shù)據(jù)挖掘的常用方法是聚類和關(guān)聯(lián),本研究主要是采用合適的聚類和關(guān)聯(lián)算法分析構(gòu)建行為分析模型,數(shù)據(jù)倉庫采用SQL Server 2010,從各個信息系統(tǒng)中抽取數(shù)據(jù)至數(shù)據(jù)倉庫中,通過數(shù)據(jù)挖掘分析研究構(gòu)建模型如圖2所示。
2? 構(gòu)建行為分析模型
本研究構(gòu)建的行為分析模型包含:貧困生分析模型、個人信息畫像模型、學生畫像模型、學業(yè)預警模型、圖書館進出模 型、體育鍛煉打卡模型、宿舍門禁打卡模型以及異常預警模型。
2.1? 行為分析模型基本評價參數(shù)
在構(gòu)建分析模型之前首先要建立基本評價參數(shù),根據(jù)獲取到的數(shù)據(jù)和本研究的研究目標,確定基本評價參數(shù):一卡通消費的單筆最高消費值、每月的消費總數(shù)、每月的消費筆數(shù)、消費水平、成績績點值、成績等級、每日門禁(圖書館、體育館、宿舍)進出人數(shù)、每月門禁進出次數(shù)統(tǒng)計(圖書館、體育館、宿舍)、早中晚消費次數(shù)、學生行為狀態(tài)等,下面主要以消費水平和學生行為狀態(tài)為例。