任鎖平
(陜西職業(yè)技術學院 教務處,陜西 西安 710100)
近年來隨著信息技術的快速發(fā)展,產生越來越多的數(shù)據(jù),然而這些數(shù)據(jù)中隱含著很多無法用眼睛觀察的信息,數(shù)據(jù)挖掘技術能夠通過對大量的數(shù)據(jù)進行分析、挖掘,尋找數(shù)據(jù)背后的關系,幫助人們正確的進行決策判斷。
而隨著國民經濟的轉型,職業(yè)教育也迎來了良好的發(fā)展機遇,如何更好的實現(xiàn)職業(yè)教育的內涵式發(fā)展,是每一位職教工作需要考慮的。高職教育質量監(jiān)控評價系統(tǒng)正是在這個背景下誕生的一種評價工具。但是僅僅靠評價系統(tǒng)難以做到真實而有效的評價,借助數(shù)據(jù)挖掘技術,實現(xiàn)對評價系統(tǒng)中產生的大量數(shù)據(jù)進行挖掘、分析,探尋數(shù)據(jù)背后的隱含意義,并幫助管理部門進行正確的決策和判斷,有效提升高職教育教學質量,加快實現(xiàn)職業(yè)教育現(xiàn)代化。
近年來數(shù)據(jù)挖掘技術引起了廣泛關注,其主要原因在于信息技術與互聯(lián)網(wǎng)的迅猛發(fā)展,大量基礎數(shù)據(jù)的產生,人們需要了解這些數(shù)據(jù)背后的隱藏內容,因而誕生了數(shù)據(jù)挖掘的概念及技術。
數(shù)據(jù)挖掘(Data Mining,DM)一般是指從大量的數(shù)據(jù)中通過算法搜索隱藏于其中信息的過程。數(shù)據(jù)挖掘通常與計算機科學有關,并通過統(tǒng)計、在線分析處理、情報檢索、機器學習、專家系統(tǒng)(依靠過去的經驗法則)和模式識別等諸多方法來實現(xiàn)上述目標[1]。同時它也被認為數(shù)據(jù)庫中知識發(fā)現(xiàn)(KDD)的一個環(huán)節(jié),大多數(shù)情況下認為數(shù)據(jù)挖掘比數(shù)據(jù)庫中知識發(fā)現(xiàn)是兩個等同概念,但數(shù)據(jù)挖掘更加注重于算法分析來探尋海量數(shù)據(jù)背后的隱含知識的目標。數(shù)據(jù)挖掘結合了統(tǒng)計學、計算機學科等多學科,支持多種數(shù)據(jù)格式的挖掘,無論是結構化的還是非結構化的數(shù)據(jù)都可以通過處理后進行數(shù)據(jù)挖掘,有較高的應用價值。
數(shù)據(jù)挖掘的功能主要有兩方面:描述和預測[2]。描述功能主要是用來數(shù)據(jù)之間的共同特點及聯(lián)系,主要包括數(shù)據(jù)分類、聚類分析、匯總與歸納、偏差檢測等;而預測功能主要是通過對現(xiàn)有數(shù)據(jù)分析來預測未知的數(shù)據(jù),主要包括有統(tǒng)計方法、關聯(lián)規(guī)則、決策樹與回歸、序列模式等。
數(shù)據(jù)挖掘的過程主要包括:確定對象、數(shù)據(jù)準備、模型建立、數(shù)據(jù)挖掘與結果分析等步驟,具體如圖1[3]所示。
數(shù)據(jù)挖掘過程中算法是其核心內容,以SQL Server2008為例,如圖2所示。SQL Server2008中提供的數(shù)據(jù)挖掘算法主要有以下幾種:決策樹、聚類分析、Naive Bayes、關聯(lián)規(guī)則、順序分析和聚類分析、時序、神經網(wǎng)絡、線性回歸、邏輯回歸等。
圖1 數(shù)據(jù)挖掘的一般過程Fig.1 The general process of data mining
圖2 SQL Server2008創(chuàng)建數(shù)據(jù)挖掘結構Fig.2 SQL Server2008 create data mining structure
隨著現(xiàn)代職業(yè)教育的快速發(fā)展,職業(yè)教育信息化也將成為助力現(xiàn)代職業(yè)教育快速發(fā)展的重要手段。2012年教育部成立職業(yè)院校信息化教學指導委員會,也標志著職業(yè)教育信息化步入快速發(fā)展的軌道,教育信息化包括很多方面,不僅僅是教學的信息化,還包括教育管理的信息化等,而現(xiàn)階段的職業(yè)教育信息化更多的進行事務處理,利用數(shù)據(jù)挖掘技術進行數(shù)據(jù)分析還很少,利用數(shù)據(jù)挖掘進行教育信息化數(shù)據(jù)進行分析,將成為教育信息化發(fā)展的重要方向。
目前,數(shù)據(jù)挖掘在電子商務、醫(yī)療、金融、交通等方面取得了廣泛應用,并促進了其快速發(fā)展。而數(shù)據(jù)挖掘在職業(yè)教育方面也必將能夠解決教育教學管理中的問題,促進職業(yè)教育信息化的快速發(fā)展,實現(xiàn)現(xiàn)代職業(yè)教育建設。
教學質量監(jiān)控評價系統(tǒng)主要目的在于實現(xiàn)形成相互銜接的多元評價機制和質量預警機制,依托數(shù)字化校園網(wǎng)絡平臺,實現(xiàn)信息及時交換、傳輸、匯總、分析和反應,形成涵蓋人才培養(yǎng)全過程、全方位、多元參與的教學質量監(jiān)控評價平臺。評價主體包括有政府、學校、教師、學生、行業(yè)企業(yè)、第三方、家長等,各主體在登錄頁面通過身份驗證進行客觀評價,最終通過對數(shù)據(jù)的挖掘分析,為提高教育教學質量提供決策支持。詳細流程圖如圖3[4]所示。
圖3 教學質量監(jiān)控評價系統(tǒng)流程圖Fig.3 Flow chart of evaluation system of teaching quality monitoring
2.2.1 功能需求概述
基于數(shù)據(jù)挖掘技術的高職教學質量監(jiān)控評價系統(tǒng)具備不同用戶通過身份驗證進行系統(tǒng)登錄,實現(xiàn)數(shù)據(jù)的收集或評價,系統(tǒng)門戶首頁包括登陸模塊、資源和課程的展示,各類大賽的視頻及資料展示,企業(yè)、行業(yè)、教師、政府等對學院課程、教材、人才培養(yǎng)方案、課程標準評價展示等。系統(tǒng)同時支持手機端訪問和使用,隨時隨地可使用系統(tǒng)進行評價或者資源的使用。系統(tǒng)提供權限管理、信息上傳、下載、刪除、修改、更新、數(shù)據(jù)導出(提供多種類型的數(shù)據(jù)導出)項目添加等功能,同時為方便配合SQL Server2008數(shù)據(jù)庫進行數(shù)據(jù)挖掘,對數(shù)據(jù)輸入進行限定,方便后期數(shù)據(jù)處理。同時系統(tǒng)要實現(xiàn)數(shù)據(jù)自動備份功能,提高系統(tǒng)安全性。
2.2.2 系統(tǒng)總體設計
基于數(shù)據(jù)挖掘技術的高職教學質量監(jiān)控評價系統(tǒng)設計上充分考慮不同用戶的需求和條件,采用B/S模式架構,具有靈活性和方便性,對客戶端的硬件要求低等特點。數(shù)據(jù)庫采用SQL Server2008,由于它具備SQL Server Analysis Service組件,故而在數(shù)據(jù)挖掘方面減少了大量的數(shù)據(jù)采集和整理的工作,提高了工作效率。系統(tǒng)開發(fā)技術采用J2EE,開發(fā)語言采用JAVA。數(shù)據(jù)備份采用日、周、月策略進行備份。具體如表1所示。
表1 系統(tǒng)主要實現(xiàn)技術Tab.1 System main implementation techniques
在硬件方面,考慮后期產生的數(shù)據(jù)量較大,為長期實現(xiàn)系統(tǒng)正常運行和使用,服務器配備了4*E7-4820的CPU,256GB內存,8TB硬盤,完全能夠滿足系統(tǒng)正常運行和要求。
本系統(tǒng)結構設計融合了基于B/S模式的CMS(內容管理系統(tǒng))系統(tǒng)和MIS(管理信息系統(tǒng))系統(tǒng),基于B/S的MIS系統(tǒng)是本系統(tǒng)結構中設計中的重要部分,系統(tǒng)涉及的大部分功能均在MIS系統(tǒng)中實現(xiàn),同時由于其基于B/S模式,簡化了操作流程和使用門檻,提高了系統(tǒng)的可用性和實用性。在CMS系統(tǒng)中主要設計了新聞通知、學院榮譽、行業(yè)、企業(yè)評價機構簡介、家長評價等信息。而基于B/S模式的MIS中設計了各主體評價的評價內容、評價標準、評價方法等設計,同時針對高等職業(yè)教育的特色,添加了企業(yè)針對學生實習和帶隊教師的評價標準及方法。
數(shù)據(jù)庫設計是系統(tǒng)較為重要的部分,由于本系統(tǒng)設計中存在CMS和MIS兩個不同的管理系統(tǒng),因此在數(shù)據(jù)庫設計上也有所不同,而最重要的則是MIS系統(tǒng)中的數(shù)據(jù)庫設計,文章以MIS系統(tǒng)中行業(yè)用戶的數(shù)據(jù)庫設計描述數(shù)據(jù)庫的實現(xiàn)。
行業(yè)用戶評價主要是針對學院人才培養(yǎng)方案的設計合理性進行評價,行業(yè)用戶名的基本信息用HY-Users用戶表來保存用戶基本信息,如單位名稱、用戶名、密碼、聯(lián)系電話、地址等。結構如表2所示。
表2 用戶表Tab.2 Industry user table
其中單位名稱是指行業(yè)名稱,而聯(lián)系人則是指該行業(yè)評價學院人才培養(yǎng)方案的聯(lián)系人,用戶備注信息主要是備注該行業(yè)是針對某一院系或某一大類專業(yè)。
SQLServer2008數(shù)據(jù)庫中,數(shù)據(jù)挖掘主要是依靠Analysis Services來實現(xiàn)的。其中包含了數(shù)據(jù)挖掘解決方案中需要用到的大部分工具和模型。與其他數(shù)數(shù)據(jù)庫比較具有以下幾個特點[5],一是多個挖掘模型之間進行交叉驗證,在相同結果之間的模型之間進行對比,有利于決策者做出更加明智的決斷,例如在高職教學質量監(jiān)控評價系統(tǒng)中對學生成績分析,一般的分析往往只能看到結果,無法對原因進行分心,通過交叉驗證可以探尋具體的原因;二是算法上的改進,在時序算法中除了基于ARTxp算之外,新增加了一種基于ARIMA算法,兩種算法并無優(yōu)劣之分,前者適于短期預測,后者適于長期預測;三是數(shù)據(jù)挖掘模型中實現(xiàn)鉆取,但鉆取功能有一定的限制,并非所有的算法都支持鉆取功能。
SQLServer2008數(shù)據(jù)庫在高職教學質量監(jiān)控評價系統(tǒng)中進行數(shù)據(jù)挖掘時需要根據(jù)實際情況進行數(shù)據(jù)的收集、整理、模型選擇、分析等。以最常見的評教舉例,以往的評教僅僅是得到一個評教結果,其造成結果的原因無法知道。為了能夠發(fā)現(xiàn)教師本身素質與學生評教結果之間的內在聯(lián)系,選用關聯(lián)規(guī)則結構進行數(shù)據(jù)挖掘,其采用了Apriori算法進行挖掘,探尋內在聯(lián)系。具體的步驟分[6]為:首先準備評教結果數(shù)據(jù),包含了評教結果與教師的各項基本信息,其次是進行關聯(lián)規(guī)則挖掘,例如將準備好的數(shù)據(jù)進行教師學歷、職稱、分類,總評分為有、良、中、及格幾個等級,采用基于Apriori算法對數(shù)據(jù)進行處理,得出關聯(lián)規(guī)則,其中可設0.2位最小支持度,再次利用支持度算法求出每個子項集的支持度,最后在得出的頻繁項集,設置置信度為0.3,根據(jù)算法求出每一項關聯(lián)規(guī)則的置信度[7],并對結果進行分析解釋,得出結論,用以改進和提高教育教學質量。
隨著信息技術的不斷發(fā)展,數(shù)據(jù)挖掘技術的不斷成熟,基于數(shù)據(jù)挖掘技術來解決高職教學質量監(jiān)控與評價系統(tǒng)將會為重要的教育管理評價技術,為教育管理者提供決策判斷,也必將推動現(xiàn)代職業(yè)教育的快速發(fā)展。
[1]百度百科.數(shù)據(jù)挖掘 [EB/OL].[2015-01-28].http://baike.baidu.com/view/7893.htm.
[2]鄭碧嶷.基于數(shù)據(jù)挖掘技術的高校輔助決策系統(tǒng)設計與實現(xiàn)[D].北京:北京工業(yè)大學,2013.
[3]吳建蘭.基于數(shù)據(jù)倉庫的教學質量監(jiān)控評價系統(tǒng)[D].泉州:華僑大學,2005.
[4]中國高職高專教育網(wǎng).陜西職業(yè)技術學院“國家示范性高等職業(yè)院校建設計劃”骨干高職院校建設方案.[EB/OL].[2014-12-28].http://61.164.87.131/web/articleview.aspx?id=20121225104748212&cata_id=gspf.
[5]IT專家網(wǎng).在SQL Server 2008 R2上實現(xiàn)人工智能數(shù)據(jù)挖掘[EB/OL].[2014-12-28]http://database.ctocio.com.cn/analysis/385/9416385.shtml.
[6]張震.基于數(shù)據(jù)挖掘技術的教學質量評價系統(tǒng)研究[D].合肥:合肥工業(yè)大學,2006.
[7]丁留寶.PQDIF文件生成方法及在多操作系統(tǒng)下的實現(xiàn)[J].陜西電力,2014(7):83-87.DING Liu-bao.The method and implementation of creating PQDIF file in different operating systems[J].Shaanxi Electric Power,2014(7):83-87.