鄧郁旭
( 銅仁學院 物理與電子科學系,貴州 銅仁 554300 )
數(shù)據(jù)挖掘在計算機教學中的應(yīng)用
鄧郁旭
( 銅仁學院 物理與電子科學系,貴州 銅仁 554300 )
利用數(shù)據(jù)挖掘技術(shù)對在線答題系統(tǒng)中的錯題信息進行數(shù)據(jù)挖掘,從中發(fā)現(xiàn)有用的關(guān)聯(lián)規(guī)則,進而指導教師查找教學漏洞,提高教學質(zhì)量。實驗證明提出的方法能有效找到各錯題之間的關(guān)聯(lián)信息。
關(guān)聯(lián)規(guī)則挖掘; 計算機教學; 在線答題系統(tǒng)
計算機教學存在知識點內(nèi)容分散,但各知識點之間又存在著緊密的相互依賴關(guān)系的現(xiàn)象。學習是一個循序漸進的過程,各知識點之間存在關(guān)聯(lián)和前后順序關(guān)系。某個知識點未能掌握會影響后續(xù)幾個知識點的學習。隨著信息化在高校中的深入,不少高校已經(jīng)開始使用網(wǎng)上教學系統(tǒng)。教師通過該系統(tǒng)向?qū)W生們發(fā)放試題,學生在線進行答題并提交答案。教師利用該系統(tǒng)可以查看作業(yè)的完成情況和錯題分布。雖然可以獲得有關(guān)錯題分布的詳細數(shù)據(jù),但教師只能了解錯誤率高的題目,卻不能通過數(shù)據(jù)發(fā)現(xiàn)各種錯題之間潛在的聯(lián)系。
數(shù)據(jù)挖掘是對大量的、無規(guī)律的數(shù)據(jù)進行分析和處理,從中發(fā)現(xiàn)人們感興趣的、有潛在價值的規(guī)律,找到隱藏的模式。[1]其中的關(guān)聯(lián)規(guī)則挖掘可以根據(jù)事件出現(xiàn)的歷史信息進行挖掘,從而發(fā)現(xiàn)不同事物之間的潛在規(guī)律。網(wǎng)上教學系統(tǒng)利用關(guān)聯(lián)規(guī)則對錯題數(shù)據(jù)進行挖掘可以發(fā)現(xiàn)錯題之間潛在的聯(lián)系,從而找到學生中普遍存在的知識難點,進而指導教師彌補教學漏洞,提升教學質(zhì)量。
若兩個或多個變量取值之間存在某種規(guī)律性稱為關(guān)聯(lián)。[2]一組數(shù)據(jù)中,各個字段之間存在著各種各樣的關(guān)系,這些關(guān)系就隱含在數(shù)據(jù)庫所包含的數(shù)據(jù)中,關(guān)聯(lián)規(guī)則挖掘的目的是找出這些隱藏的關(guān)聯(lián)。
關(guān)聯(lián)規(guī)則也稱為關(guān)聯(lián)模式,是形如X→Y的邏輯蘊含式,其中X和Y是關(guān)于數(shù)據(jù)庫中屬性取值的判斷。例如有這樣一條關(guān)聯(lián)規(guī)則:{尿布,牙刷}→{啤酒}(30%,2%),其含義是購買尿布和牙刷的顧客還將購買啤酒,30%和2%分別是該規(guī)則的置信度和支持度,支持度2%表示分析的全部事務(wù)中有2%同時購買了尿布、牙刷和啤酒,置信度 30%意味著購買尿布和牙刷的顧客中有30%的顧客也購買了啤酒。
則A→B稱為T中的強關(guān)聯(lián)規(guī)則。關(guān)聯(lián)規(guī)則挖掘就是在事務(wù)集合中挖掘強關(guān)聯(lián)規(guī)則。典型算法是Apriori算法。
Apriori算法是一種最有影響的挖掘布爾關(guān)聯(lián)規(guī)則頻繁項集的算法。其核心是基于兩階段頻集思想的遞推算法。該關(guān)聯(lián)規(guī)則在分類上屬于單維、單層、布爾關(guān)聯(lián)規(guī)則。在這里,所有支持度大于最小支持度的項集稱為頻繁項集,簡稱頻集。
該算法的基本思想是[3]:首先找出所有的頻集,這些項集出現(xiàn)的頻繁性至少和預定義的最小支持度一樣。然后由頻集產(chǎn)生強關(guān)聯(lián)規(guī)則,這些規(guī)則必須滿足最小支持度和最小可信度。然后使用第 1步找到的頻集產(chǎn)生期望的規(guī)則,產(chǎn)生只包含集合的項的所有規(guī)則,其中每一條規(guī)則的右部只有一項,這里采用的是中規(guī)則的定義。一旦這些規(guī)則被生成,那么只有那些大于用戶給定的最小可信度的規(guī)則才被留下來。為了生成所有頻集,使用了遞推的方法。
從以往的教學經(jīng)驗來看,兩道或多道出錯率高的題目往往具有某種客觀的聯(lián)系。對某道做錯的題目中知識點掌握得不好,往往也容易做錯相關(guān)知識點的其他題目。
學生通過網(wǎng)上答題系統(tǒng)進行聯(lián)機答題,將答案提交到系統(tǒng)。教師利用該系統(tǒng)對學生的答案進行評判,系統(tǒng)自動將錯題的題號和學生的學號記錄到系統(tǒng)數(shù)據(jù)庫中。從而在錯題數(shù)據(jù)庫中,每一個學生可以看成是一個事務(wù),每一個事務(wù)包含該學生做錯的所有錯題題號。對錯題數(shù)據(jù)庫進行預處理后,可以方便地使用Apriori方法進行關(guān)聯(lián)規(guī)則挖掘,從而發(fā)現(xiàn)錯題之間的聯(lián)系,幫助教師找到出錯根源,進而及時糾正教學漏洞、調(diào)整教學方法,提高教學質(zhì)量。
在利用Apriori方法進行關(guān)聯(lián)規(guī)則挖掘之前必須進行錯題數(shù)據(jù)的預處理。
(1)錯題信息整理
為方便通過Apriori方法進行關(guān)聯(lián)規(guī)則挖掘,需要將錯題信息采集到數(shù)據(jù)庫的表中。我們將錯題信息記錄到錯題表中,該表包含兩個屬性,分別為學生學號和錯題編號,每一個學生有唯一的學號,每一個題目有唯一的錯題編號,主鍵為全碼。
(2)大項集的搜索
利用Apriori算法和事先設(shè)定的最小支持數(shù)找到大項集。
(3)利用大項集產(chǎn)生關(guān)聯(lián)規(guī)則
對于每一個大項集L,檢查L的每個非空子集X,生成規(guī)則“X→L?X ”,它的支持度為Pr(L),置信度為Pr(L)/Pr(X ),只有那些不小于用戶給定的置信閾值的規(guī)則才被保留下來。根據(jù)大項集以及設(shè)定的支持度與置信度得到關(guān)聯(lián)規(guī)則。
本文利用某大學 2009級計算機專業(yè)學生課程的網(wǎng)上作業(yè)系統(tǒng)的答案數(shù)據(jù)作為實驗的數(shù)據(jù)源。該數(shù)據(jù)源中包含了該專業(yè)32名學生2個月的作業(yè)答題信息,記錄了每一個學生的每一個錯題。我們將該數(shù)據(jù)源進行初步的信息抽取,得到的錯題信息表,見表1。
通過Apriori算法,以具有相同學號的記錄為一個事務(wù),從錯題信息表中計算大項集,計算結(jié)果見表2。
表1 錯題信息表
表2 大項集
通過表 2中的大項集和設(shè)定的置信閾值,得到了13條規(guī)則,見表3。
表3 關(guān)聯(lián)規(guī)則
對于表中的形如{T1,T5}→ T13的規(guī)則,該規(guī)則的支持度和置信度分別為35%和95%,這說明有70%的同學同時做錯了T1、T5和T13這三道題,其中有95%的做錯了T1和T5的同學同時也做錯了T13,這說明T1和T5中涉及的知識點沒有掌握好而導致T13出錯。教師應(yīng)該以這些挖掘出的關(guān)聯(lián)規(guī)則為依據(jù),找出導致出錯率高的教學盲點,并及時彌補,以提高教學質(zhì)量。
教學中存在著大量可以用來提高教學質(zhì)量的數(shù)據(jù),數(shù)據(jù)挖掘技術(shù)可以找到這些數(shù)據(jù)之間隱藏的信息,從而發(fā)現(xiàn)某些對提高教學質(zhì)量很有幫助的潛在規(guī)則。本文利用關(guān)聯(lián)規(guī)則挖掘技術(shù)對在線答題系統(tǒng)中的錯題信息進行了數(shù)據(jù)挖掘,得出了一些錯題之間相互存在的因果關(guān)系,幫助教師及時發(fā)現(xiàn)教學漏洞,提高教學質(zhì)量。關(guān)聯(lián)規(guī)則挖掘中的置信度和支持度的設(shè)定對挖掘效果的影響很大,如果設(shè)置得過小,會產(chǎn)生大量的缺乏實際意義的規(guī)則;反之,如果設(shè)置得過大,又無法發(fā)現(xiàn)一些有用的規(guī)則。隨著實際應(yīng)用的發(fā)展,置信度和支持度的設(shè)定還需要進一步探討。
[1] 史忠植.知識發(fā)現(xiàn)[M].北京:清華大學出版社,2002.
[2] Berry M J A,Linoff G S. Mastering Data Mining[M].New York:John Wiley and Sons Inc,2000.
[3] 陳安,陳寧,周龍驤.數(shù)據(jù)挖掘技術(shù)及應(yīng)用(第2版)[M].北京:科學出版社,2007:61-65.
The Application of Data Mining in Computer Teaching
DENG Yu-xu
( Department of Physics and Electronic Science, Tongren University; Tongren, Guizhou 554300 China )
By using data mining technique to excavate information of wrong questions in the online answering system, it aims at discovering useful relevant rules to guide teachers to find teaching flaws and improve their teaching quality. Experiments show that the proposed methods can effectively find the relevant information among wrong questions.
relevant rules mining;computer teaching;online answering system
(責任編輯 王婷婷)
TP311.131 < class="emphasis_bold">文獻標識碼:A
A
1673-9639 (2011) 03-0142-03
2010-05-03
鄧郁旭(1978-),女,貴州銅仁人,計算機專業(yè)講師,研究方向:計算機應(yīng)用。