【摘 要】今年,我院在新能源類專業(yè)教學(xué)資源庫(kù)申報(bào)與建設(shè)中取得了非常大的成績(jī),近兩年學(xué)生在資源庫(kù)管理與學(xué)習(xí)平臺(tái)的在線考試系統(tǒng)進(jìn)行相關(guān)課程的考試以及職業(yè)能力鑒定已經(jīng)得到參建聯(lián)盟院校廣泛認(rèn)同和使用,積攢了大量的數(shù)據(jù)資源,為實(shí)施數(shù)據(jù)挖掘提供了基礎(chǔ)。本文針對(duì)考試系統(tǒng)的大量數(shù)據(jù)進(jìn)行數(shù)據(jù)挖掘,從而找到數(shù)據(jù)信息里的潛在規(guī)則以指導(dǎo)教學(xué)管理和教學(xué)決策。
【關(guān)鍵詞】數(shù)據(jù)挖掘;關(guān)聯(lián)分析;在線考試
一、數(shù)據(jù)挖掘及其技術(shù)
(一)數(shù)據(jù)挖掘
數(shù)據(jù)挖掘(Data Mining),又稱數(shù)據(jù)庫(kù)中的知識(shí)發(fā)現(xiàn)(Knowledge Discovery in Database,KDD),是指從大型數(shù)據(jù)庫(kù)或數(shù)據(jù)倉(cāng)庫(kù)中提取隱含的、未知的、非平凡的及有潛在應(yīng)用價(jià)值的信息或模式,它是數(shù)據(jù)庫(kù)研究中的一個(gè)很有應(yīng)用價(jià)值的新領(lǐng)域,融合了數(shù)據(jù)庫(kù)、人工智能、機(jī)器學(xué)習(xí)、統(tǒng)計(jì)學(xué)等多個(gè)領(lǐng)域的理論和技術(shù)。
(二)數(shù)據(jù)挖掘系統(tǒng)
一個(gè)完整的數(shù)據(jù)挖掘系統(tǒng)包括規(guī)則生成子系統(tǒng)和應(yīng)用評(píng)估子系統(tǒng)兩個(gè)部分。規(guī)則生成子系統(tǒng)主要完成根據(jù)數(shù)據(jù)倉(cāng)庫(kù)提供的歷史數(shù)據(jù),統(tǒng)計(jì)并產(chǎn)生相關(guān)規(guī)律,并輸出相關(guān)結(jié)果;應(yīng)用評(píng)估子系統(tǒng)可以理解為系統(tǒng)中的挖掘代理程序,根據(jù)生成子系統(tǒng)產(chǎn)生的規(guī)則按照一定的策略對(duì)數(shù)據(jù)進(jìn)行分類預(yù)測(cè),通過(guò)系統(tǒng)的任務(wù)計(jì)劃對(duì)數(shù)據(jù)產(chǎn)生評(píng)估指標(biāo)。
(三)數(shù)據(jù)挖掘過(guò)程
數(shù)據(jù)挖掘過(guò)程包括對(duì)問(wèn)題的理解和提出、數(shù)據(jù)收集、數(shù)據(jù)處理、數(shù)據(jù)變換、數(shù)據(jù)挖掘、模式評(píng)估、知識(shí)表示等過(guò)程,以上的過(guò)程不是一次完成的,其中某些步驟或者全過(guò)程可能要反復(fù)進(jìn)行。
(四)數(shù)據(jù)挖掘的主要功能
概念/類描述、特征化和區(qū)分:對(duì)每個(gè)類的匯總、簡(jiǎn)潔、精確的描述可以通過(guò)數(shù)據(jù)特征化、數(shù)據(jù)區(qū)分和數(shù)據(jù)比較來(lái)實(shí)現(xiàn)。數(shù)據(jù)特征化是指目標(biāo)類數(shù)據(jù)的一般特征或特征的匯總,如一年的成績(jī)匯總;數(shù)據(jù)區(qū)分是將目標(biāo)類對(duì)象的一般特征與一個(gè)或多個(gè)對(duì)比類對(duì)象的一般性比較,如A學(xué)校和B學(xué)校的比較。
關(guān)聯(lián)分析:是尋找數(shù)據(jù)庫(kù)中值的相關(guān)性,揭示屬性與屬性值在數(shù)據(jù)集中一起出現(xiàn)的條件。這種關(guān)聯(lián)規(guī)則可以是單維關(guān)聯(lián)規(guī)則或多維關(guān)聯(lián)規(guī)則。
分類與預(yù)測(cè):利用某種數(shù)據(jù)挖掘算法的某種規(guī)則自動(dòng)對(duì)海量數(shù)據(jù)進(jìn)行分類,把握分析對(duì)象發(fā)展的規(guī)律,對(duì)未來(lái)的趨勢(shì)做出預(yù)見。
聚類分析:聚類是根據(jù)最大化類內(nèi)的相似性、最小化類間的相似性原則對(duì)海量數(shù)據(jù)進(jìn)行聚類或分組,從而產(chǎn)生屬性相近的各個(gè)類。
偏差的檢測(cè):對(duì)分析對(duì)象的少數(shù)的、極端的特例的描述,揭示內(nèi)在的原因。
演變分析:可以根據(jù)數(shù)據(jù)的特征對(duì)數(shù)據(jù)的發(fā)展變化作出相應(yīng)的預(yù)測(cè)與分析。主要應(yīng)用于對(duì)時(shí)間序列數(shù)據(jù)的分析、序列或周期模式匹配和基于類似性的數(shù)據(jù)分析。
二、在線考試系統(tǒng)結(jié)構(gòu)與數(shù)據(jù)分析
(一)系統(tǒng)結(jié)構(gòu)分析
資源庫(kù)管理與學(xué)習(xí)平臺(tái)中在線考試系統(tǒng)結(jié)構(gòu)采用四層應(yīng)用模式,第一層為應(yīng)用層(管理與學(xué)習(xí)平臺(tái)),這一層主要由兩部分組成,考生通過(guò)瀏覽器進(jìn)行在線考試,管理員通過(guò)工作平臺(tái)直接管理試題庫(kù)及系統(tǒng)環(huán)境,同時(shí)對(duì)考生考試數(shù)據(jù)及考生行為進(jìn)行數(shù)據(jù)提取、分析、評(píng)價(jià)等;第二層為Web層(Web Server),Web服務(wù)器接受應(yīng)用層的請(qǐng)求與業(yè)務(wù)邏輯層的接口進(jìn)行信息交換,以響應(yīng)用戶信息并提供用戶界面;第三層為業(yè)務(wù)邏輯層用來(lái)實(shí)現(xiàn)業(yè)務(wù)邏輯,包括一些具體的組件模塊。如:題庫(kù)管理組件模塊、用戶考試組件模塊、評(píng)卷組件模塊、成績(jī)管理組件模塊等;第四層為數(shù)據(jù)層,使用SQL Server 2008數(shù)據(jù)庫(kù)系統(tǒng)來(lái)存儲(chǔ)待處理的各種數(shù)據(jù),包括各種記錄用戶行為的數(shù)據(jù)以及Web層與業(yè)務(wù)邏輯層之間進(jìn)行通訊和信息傳遞時(shí)所產(chǎn)生的數(shù)據(jù)等。
本文要在考試系統(tǒng)的應(yīng)用層中添加具有數(shù)據(jù)挖掘功能的“成績(jī)分析系統(tǒng)\",用以補(bǔ)充成績(jī)管理模塊的功能,使之能夠?qū)忌痤}記錄進(jìn)行數(shù)據(jù)挖掘分析。
(二)系統(tǒng)數(shù)據(jù)分析
考試系統(tǒng)中的數(shù)據(jù)量非常大,其間必然存在大量的噪聲數(shù)據(jù)。究其產(chǎn)生原因,如在考試過(guò)程中某些考題因被考生漏答而造成數(shù)據(jù)的空缺;管理人員或教師在測(cè)試系統(tǒng)時(shí)會(huì)留下大量的測(cè)試記錄……這些噪聲數(shù)據(jù)的存在會(huì)對(duì)挖掘的結(jié)果產(chǎn)生很大的影響。數(shù)據(jù)記錄中還包括一些冗余的數(shù)據(jù)域,這些數(shù)據(jù)域在考試系統(tǒng)的正常運(yùn)行中是不可缺少的,但是在進(jìn)行數(shù)據(jù)挖掘中卻會(huì)影響挖掘的效率,并產(chǎn)生毫無(wú)意義的規(guī)則。另外還有很多不確定因素也會(huì)使數(shù)據(jù)庫(kù)中產(chǎn)生大量的噪聲數(shù)據(jù)。噪聲數(shù)據(jù)的存在會(huì)直接影響挖掘結(jié)果的有效性,盡可能的去除這些噪聲數(shù)據(jù)才能提高挖掘的效率并得到有效性更高的結(jié)果和規(guī)則。因此,在進(jìn)行數(shù)據(jù)挖掘之前,有必要對(duì)數(shù)據(jù)源進(jìn)行清洗和處理,最終得到干凈的、有效的、符合挖掘要求的數(shù)據(jù)。
三、數(shù)據(jù)挖掘算法應(yīng)用
(一)關(guān)聯(lián)規(guī)則挖掘算法應(yīng)用
關(guān)聯(lián)分析的目的是挖掘隱藏在數(shù)據(jù)間的相互關(guān)系。對(duì)于物品與事務(wù)的關(guān)系:事務(wù)1中出現(xiàn)了物品A,事務(wù)2中出現(xiàn)了物品B,事務(wù)3中出現(xiàn)了物品A和B。在數(shù)據(jù)庫(kù)的發(fā)現(xiàn)知識(shí)中,關(guān)聯(lián)規(guī)則就是描述這種在一個(gè)事務(wù)中物品之間同時(shí)出現(xiàn)的規(guī)律的知識(shí)模式。更確切的說(shuō)關(guān)聯(lián)規(guī)則通過(guò)量化的數(shù)字描述物品A的出現(xiàn)對(duì)物品B的出現(xiàn)有多大的影響。
本文主旨在于通過(guò)對(duì)考生的答題記錄信息進(jìn)行數(shù)據(jù)挖掘,最終找到知識(shí)點(diǎn)間的關(guān)聯(lián)關(guān)系。在關(guān)聯(lián)規(guī)則的挖掘中,需要的數(shù)據(jù)是考生的具體答題正誤的記錄、所答題目?jī)?nèi)容以及題目所歸屬的知識(shí)點(diǎn)。根據(jù)挖掘的需要,應(yīng)從龐大復(fù)雜的源數(shù)據(jù)庫(kù)中生成不同的數(shù)據(jù)子表作為關(guān)聯(lián)挖掘的數(shù)據(jù)源。本文選取了一份“光伏單片機(jī)控制技術(shù)”課程考試試卷,并將所有使用這份試卷的考生的答題記錄進(jìn)行歸納整理,再利用數(shù)據(jù)挖掘中關(guān)聯(lián)規(guī)則算法進(jìn)行分析、研究,找尋知識(shí)點(diǎn)間的潛在規(guī)則。
通過(guò)分析,最終得到了知識(shí)點(diǎn)之間潛在的關(guān)聯(lián)關(guān)系,如:“單片機(jī)振蕩頻率”知識(shí)點(diǎn)與“計(jì)算定時(shí)器初值”知識(shí)點(diǎn)之間、“鎖存器工作原理”知識(shí)點(diǎn)與“段選、位選控制”知識(shí)點(diǎn)之間,都存在著很強(qiáng)的關(guān)聯(lián)關(guān)系。在教學(xué)中,強(qiáng)調(diào)這些知識(shí)點(diǎn)之間的關(guān)聯(lián)關(guān)系,將有利于教學(xué)效果的提高。
(二)決策樹挖掘算法應(yīng)用
決策樹是以實(shí)例為基礎(chǔ)的歸納學(xué)習(xí)算法。它是一種逼近離散值函數(shù)的方法,對(duì)噪聲數(shù)據(jù)有很好的健壯性并且能夠?qū)W習(xí)析取表達(dá)式。在這種方法中學(xué)習(xí)到的函數(shù)被表示為一棵決策樹。一棵決策樹的每個(gè)非葉節(jié)點(diǎn)均表示考察數(shù)據(jù)項(xiàng)目的測(cè)試或決策。根據(jù)測(cè)試結(jié)果,選擇某個(gè)分枝,為了分類一個(gè)特定數(shù)據(jù)項(xiàng)目,我們從根節(jié)點(diǎn)開始,一直向下判定,直到達(dá)到一個(gè)終端節(jié)點(diǎn)(葉子節(jié)點(diǎn))為止。這樣,一個(gè)決策就形成了。
本文在分類模塊中以學(xué)生期末考試的通過(guò)狀態(tài)為分類屬性,以第二學(xué)年第一學(xué)期、第二學(xué)期期末成績(jī)?yōu)闇y(cè)試屬性進(jìn)行分類,從而分析學(xué)生期末考試的通過(guò)狀態(tài),為學(xué)校制定教學(xué)策略提供決策支持,同時(shí)也幫助廣大考生對(duì)照檢查自身情況,調(diào)整學(xué)習(xí)狀態(tài)提供理論指導(dǎo)。
通過(guò)對(duì)考生的答題記錄進(jìn)行挖掘,最終找到了知識(shí)點(diǎn)之間存在關(guān)聯(lián)關(guān)系,建立了本校學(xué)生首次參加課程考核通過(guò)情況的決策樹,并得到了有效的預(yù)測(cè)考試通過(guò)情況的規(guī)則。最后,把挖掘的結(jié)果進(jìn)行整理并導(dǎo)入到數(shù)據(jù)庫(kù)中,使教學(xué)的決策者和教師可以隨時(shí)察看,幫助教師提高教學(xué)質(zhì)量,使我校的考試成績(jī)可以得到提高。
課題項(xiàng)目:
本文為天津市高等職業(yè)技術(shù)教育研究會(huì)2013年度課題《高職院?;A(chǔ)數(shù)據(jù)建設(shè)與數(shù)據(jù)挖掘研究》(XIII418)。