任培花,阮 超
(山西大同大學計算機與網(wǎng)絡工程學院,山西大同037009)
隨著我國教育制度的改革,高校招生規(guī)模不斷擴大,勞動力市場供過于求,大學生就業(yè)形勢十分嚴峻。近年來隨著信息化技術的不斷使用高校積累了大量的教學與管理數(shù)據(jù),但目前并不能有效地對這些數(shù)據(jù)進行使用與分析,高校的教務系統(tǒng)一般只是對學生成績的錄入與展示,而對成績分析的涉及很少,將成績數(shù)據(jù)與就業(yè)回訪數(shù)據(jù)進行交叉分析的更是少之又少。即使有個別高校嘗試運用數(shù)據(jù)分析方法研究這些數(shù)據(jù)來解決學生的就業(yè)問題,最后大多不能提取出有效的信息,不能很好的為在校學生的就業(yè)提供合理的指導意見。然而對于就業(yè)單位而言,招聘學生時,面對學生眾多的科目成績,很難確定該學生的崗位能力水平,因此急需采用有效的數(shù)據(jù)挖掘方法將在校學生的各科成績轉化為能力成績,這些能力成績可以直接為在校學生就業(yè)單位提供參考依據(jù)。
將數(shù)據(jù)挖掘技術運用于教育教學領域稱之為教育數(shù)據(jù)挖掘,國外在教育方面進行數(shù)據(jù)挖掘起步較早。Hashmia Hamsa采等用決策樹和模糊遺傳算法建立模型,通過預測模型可用于識別每個學科的學生表現(xiàn)[1];Prabal Verma等基于物聯(lián)網(wǎng)節(jié)點的感知能力收集學生日?;顒訑?shù)據(jù),使用集成了硬件、軟件和網(wǎng)絡技術的智能計算技術,為系統(tǒng)提供實時狀況感知和自動分析,并且結合教育數(shù)據(jù)挖掘算法和學生成績數(shù)據(jù)集的結果來計算每個課程的學生表現(xiàn)[2];Yin Fei Dai等利用Apriori關聯(lián)規(guī)則算法,對數(shù)百名學生成績進行綜合挖掘,結合理論和事實基礎對這些數(shù)據(jù)進行合理的開發(fā)和利用,找出學生與課程之間的相關性。在課程設置和安排方面具有重要意義[3]。
國內(nèi)研究數(shù)據(jù)挖掘技術始于90年代中期。近年來將數(shù)據(jù)挖掘技術應用與成績分析方面的研究逐漸增多,如針對學生成績問題,用決策樹建立分析預測模型,找出影響學生成績的因素[4];采用Apriori算法挖掘出對學生通過等級考試最有影響的因素以及各科目試卷成績的優(yōu)良影響關系[5];從歷年來的學生成績及其相關數(shù)據(jù)庫中找到符合條件的規(guī)則,學校對教學內(nèi)容進行調(diào)整和教學方法進行改進以適應學生的學習和教學質(zhì)量的提高[6];蘇州大學夏華老師融合統(tǒng)計學、數(shù)據(jù)挖掘方法實現(xiàn)對成績數(shù)據(jù)的指標量化和全面管理,通過各項統(tǒng)計指標清晰展現(xiàn)學生成績的總體水平和個體差異,運用關聯(lián)規(guī)則和決策樹對成績數(shù)據(jù)進行挖掘,發(fā)現(xiàn)成績背后的潛在規(guī)律和關系[7];青島理工大學胡在林老師將關聯(lián)規(guī)則和決策樹結合算法用于本校計算機學生成績分析與預測研究工作,分析預測結果更加全面、可靠,預警功能更加有針對性。成績分析和預警的結果能夠為學校教學提供信息支持[8]。
地方高校普遍存在業(yè)務數(shù)據(jù)分散,數(shù)據(jù)分析欠缺,學生能力指標脫離實際,就業(yè)指導水平低下等問題。通過深入研究分析,構建了一個高校畢業(yè)生精準就業(yè)中的數(shù)據(jù)分析模型,該模型將高校中部分業(yè)務數(shù)據(jù)重構數(shù)據(jù)中心,然后采用決策樹算法進行學生能力指標計算,進而給出學生一個較為準確的就業(yè)方向推薦。
地方高校的業(yè)務數(shù)據(jù)種類很多,如學生成績數(shù)據(jù)、教師數(shù)據(jù)、科研數(shù)據(jù)、設備數(shù)據(jù)、社團數(shù)據(jù)、就業(yè)數(shù)據(jù)等等。以實現(xiàn)地方高校畢業(yè)生精準就業(yè)為視角開展研究,將分散的學生成績數(shù)據(jù)與就業(yè)數(shù)據(jù)進行整合研究,即建立包含學生成績和就業(yè)數(shù)據(jù)的數(shù)據(jù)中心,然后從學生精準就業(yè)的角度,對數(shù)據(jù)中心中的數(shù)據(jù)進行模型化研究。由于決策樹算法具有分類精度高、生成模式簡單、對噪聲數(shù)據(jù)有很好的健壯性等優(yōu)點,故該模型中的數(shù)據(jù)分析方法采用決策樹算法。下面是高校畢業(yè)生精準就業(yè)數(shù)據(jù)分析流程圖,如圖1所示。
圖1 高校畢業(yè)生精準就業(yè)數(shù)據(jù)分析流程圖
具體的做法:
以某高校計算機專業(yè)為例,使用python腳本從不同部門的數(shù)據(jù)庫系統(tǒng)中,實時獲取學生成績數(shù)據(jù)與就業(yè)回訪數(shù)據(jù),建立數(shù)據(jù)中心。其中學生成績數(shù)據(jù)包括已就業(yè)學生和在校生兩種。就業(yè)回訪數(shù)據(jù)只包含已就業(yè)的學生回訪數(shù)據(jù)。
對整合后的學生數(shù)據(jù)進行導出,為了便于各種數(shù)據(jù)分析工具的使用,導出的格式類型要豐富。
以已就業(yè)學生為樣本,采用決策樹算法挖掘出影響學生就業(yè)的各科課程的權重,從而得出在校學生的能力指標分數(shù),以此對在校學生進行就業(yè)精準推薦。
圖1 的分析結果不是一成不變的。隨著時間的推移,業(yè)務系統(tǒng)的數(shù)據(jù)不斷增多,數(shù)據(jù)中心分析得出的各科權值在實時更新,通過實時獲取數(shù)據(jù)模塊來實時獲取各業(yè)務系統(tǒng)的最新數(shù)據(jù),保證了數(shù)據(jù)中心數(shù)據(jù)集的更新度,從而分析計算得出最有效的能力指標分數(shù)。
經(jīng)過調(diào)研分析,數(shù)據(jù)分析模型主要涉及的用戶包括學生、系統(tǒng)管理員。學生享有瀏覽成績、查詢自己能力指標的功能。系統(tǒng)管理員負責判別各業(yè)務系統(tǒng)的數(shù)據(jù)庫,區(qū)分出主流數(shù)據(jù)庫如MySQL、Oracle、SQL Server或是電子表格等,然后啟動Python腳本或手工導入。將不同業(yè)務部門數(shù)據(jù)導入數(shù)據(jù)中心,運行SQL腳本關聯(lián)更新數(shù)據(jù)中心學生表,以及維護系統(tǒng)的穩(wěn)定性。如圖2所示為高校畢業(yè)生精準就業(yè)路徑模型。
圖2 高校畢業(yè)生精準就業(yè)路徑模型
根據(jù)業(yè)務系統(tǒng)數(shù)據(jù)庫類型的不同,數(shù)據(jù)抽取的方式也不同。針對主流數(shù)據(jù)庫如MySQL、Oracle、SQL Server等,先將數(shù)據(jù)預處理后進入數(shù)據(jù)中心,之后運行寫好的Python腳本,將最新的數(shù)據(jù)更新進入數(shù)據(jù)中心。為保證數(shù)據(jù)不會丟失,Python腳本每30秒執(zhí)行一次,每次抽取5分鐘之內(nèi)的數(shù)據(jù),重復數(shù)據(jù)replace,既可以保證數(shù)據(jù)的實時性又可以保證數(shù)據(jù)的有效性與準確性;針對于電子表格等,需要手動將導入數(shù)據(jù),可使用數(shù)據(jù)庫工具Navicat將Excel數(shù)據(jù)導入數(shù)據(jù)庫,并執(zhí)行SQL腳本將數(shù)據(jù)關聯(lián)更新進入數(shù)據(jù)中心。待之后業(yè)務系統(tǒng)數(shù)據(jù)庫升級為主流數(shù)據(jù)庫,可采用上述方式實現(xiàn)實時抽取數(shù)據(jù)。
關于學生能力指標的制定,為了保證能力指標的有效性,以人才培養(yǎng)方案為指導,以已就業(yè)學生回訪數(shù)據(jù)為基礎,進行課程權重分析。下面以某高校2016年計算機專業(yè)人才培養(yǎng)計劃為例,通過分析2016年~2017年學生就業(yè)中心計算機專業(yè)學生的回訪數(shù)據(jù),首先抽取和該專業(yè)就業(yè)密切相關的課程分類表,如表1所示。
表1 計算機專業(yè)科目分類表
經(jīng)過抽取分析可以得出,課程大類分為學科與專業(yè)基礎課程、專業(yè)選修課程和實踐教學課程三大類。然后參照用人單位的招聘要求,將這三類分別對應學生的理論學習能力、實踐應用能力和綜合素質(zhì)能力,這三種能力可以作為學生能力指標使用,如表2所示。
表2 學生能力指標科目分類表
數(shù)據(jù)分析模塊使用數(shù)據(jù)中心的數(shù)據(jù)采用數(shù)據(jù)挖掘中的決策樹算法對學生成績數(shù)據(jù)進行分析。決策樹算法屬于監(jiān)督學習的范疇,分析過程如下:
①加載數(shù)據(jù)集,根據(jù)數(shù)據(jù)集設置樣本X與標簽Y;
②采用機器學習算法庫sklearn中的決策樹CART算法,對X與Y進行訓練,畫出決策樹;
③根據(jù)決策樹可以得出每個因子的重要程度,以此來劃分權值。
具體實現(xiàn)過程:系統(tǒng)管理員將數(shù)據(jù)中心學生表數(shù)據(jù)導出,運行Python代碼對學生表數(shù)據(jù)進行分析,得出影響學生就業(yè)的各科目權值。如表3所示為,由于字段過多只顯示部分。
表3 學生各課權值表
參考表2學生能力指標科目分類表,計算加權平均數(shù)即可得出學生各個能力指標分數(shù),如表4所示。
表4 學生能力指標分數(shù)表
目前地方高校的信息化建設雖然取得了較為顯著的成就,但仍然存在一些問題:各業(yè)務部門的信息化程度參差不齊,有些部門沒有專門的數(shù)據(jù)庫,業(yè)務數(shù)據(jù)甚至以電子表格的形式存在;缺乏統(tǒng)一的數(shù)據(jù)標準,增加了數(shù)據(jù)分析的困難;業(yè)務部門之間數(shù)據(jù)整合水平普遍低下等等??紤]到現(xiàn)存的問題,數(shù)據(jù)回收采用手工和Python腳本實時抽取兩種方式。另外目前數(shù)據(jù)中心涉及的業(yè)務數(shù)據(jù)僅包括成績數(shù)據(jù)和就業(yè)數(shù)據(jù),以后可以圍繞學生就業(yè),刻畫包含學業(yè)、創(chuàng)新創(chuàng)業(yè)、社團活動、競賽、就業(yè)等方面的學生全維度畫像(如圖3所示),進而增加數(shù)據(jù)中心的多維度數(shù)據(jù),這樣有助于算出更全面的學生能力指標分數(shù),幫助管理者全面認識學生,推動大數(shù)據(jù)畫像技術服務于大學生精準就業(yè)。
圖3 學生全維度畫像圖