□李 毅
目前學(xué)校教學(xué)管理中,對學(xué)生試卷分析側(cè)重于借助統(tǒng)計手段得到相關(guān)的試卷統(tǒng)計數(shù)據(jù),比如,最高得分、最低得分、平均成績、難度系數(shù)等一系列指標(biāo),缺乏針對考題知識點的評價,對學(xué)生取得這些成績的知識層面的原因較難深入了解,對教學(xué)支持作用存在局限性。多數(shù)教師在試卷講評環(huán)節(jié)中,對錯誤率高的題目進(jìn)行重點講解,再結(jié)合自身經(jīng)驗進(jìn)行擴(kuò)展延伸,這會導(dǎo)致試卷講解過于主觀。如何利用成績數(shù)據(jù)理性分析學(xué)生知識點掌握情況,找出知識點間關(guān)聯(lián),是廣大教師共同關(guān)心的問題。
Apriori算法是經(jīng)典的關(guān)聯(lián)規(guī)則挖掘算法之一,能夠探究事物間的關(guān)聯(lián)關(guān)系,建立關(guān)聯(lián)規(guī)則。本文使用Apriori算法,依據(jù)學(xué)生答題數(shù)據(jù),分析出了試卷中各題目對應(yīng)知識點間的關(guān)聯(lián)性,從而指導(dǎo)教師合理地開展教學(xué)。
關(guān)聯(lián)規(guī)則挖掘方法由R.Agrawal等人在1993年提出,用此算法可對商店顧客的購物數(shù)據(jù)進(jìn)行分析,基本思想如下:
設(shè)I={i1,i2,…,im} 是二進(jìn)制集合,其中元素稱為項(item),項的集合稱為項集(itemset),包含k項的集合為k-項集。記D為交易(transaction)T的集合,這里交易T是項的集合,并且T?I。交易的唯一標(biāo)識記作TID。設(shè)X是一個I中項的集合,如果X?T,那么稱交易T包含X。
關(guān)聯(lián)規(guī)則形如X→Y,其中X?I,Y?I,并且X∩Y=?。規(guī)則X→Y在交易數(shù)據(jù)庫D中的支持度(support)為交易集當(dāng)中,同時包含X與Y的交易數(shù)與全部交易數(shù)的比值,記為support(X→Y)。
支持度(support)能夠反映X與Y在同一時間內(nèi)出現(xiàn)的概率。如果二者在同一時間出現(xiàn)概率較小,代表二者關(guān)系不大,若二者同一時間出現(xiàn)概率較大,那么說明二者是相關(guān)的。
規(guī)則X→Y在交易集中的置信度(confidence)為同時包含X和Y的交易數(shù)與包含X的交易數(shù)比值,記為confidence(X→Y)。
通過置信度(confidence)我們能夠判斷關(guān)聯(lián)性的強(qiáng)弱,如果置信度較高,那么X與Y的關(guān)聯(lián)性很強(qiáng)。
挖掘特定交易集D的相關(guān)規(guī)則問題,就是產(chǎn)生那些支持度和置信度分別大于最小支持度和最小置信度的關(guān)聯(lián)規(guī)則。
計算頻繁項集是關(guān)聯(lián)規(guī)則挖掘的關(guān)鍵,主要有兩種算法:R.Agrawal提出的Apriori算法,與Jiawei Han 提出的FP-growth 算法。本文采用Apriori算法計算頻繁項集,并對知識點的關(guān)聯(lián)性進(jìn)行分析。
步驟1:確定最小支持度與最小置信度。
步驟2:對事務(wù)集D進(jìn)行掃描,分析事務(wù)中出現(xiàn)的項目,如果首次遇到該項目,那么加入候選集C1,并將對應(yīng)的計數(shù)置為1;如果該項數(shù)據(jù)已加入C1,則將其計數(shù)值加上1 得到了候選1-項集。掃描C1,對于計數(shù)小于最小支持度的數(shù)據(jù)項集進(jìn)行刪除,得到頻繁項集L1。
步驟3:對Lk-1和Lk-1進(jìn)行連接生成Lk,得到所有長度為k的候選k-項集Ck。
步驟4:對Ck進(jìn)行剪枝,刪除所有(k-1)-子集不全包含在Lk-1中的Ck中的數(shù)據(jù)項集。
步驟5:掃描事務(wù)集D中的所有事務(wù),如果它包含Ck中的候選數(shù)據(jù)項集C,則將C的計數(shù)加1(初始值為0)。掃描Ck刪除那些出現(xiàn)計數(shù)小于最小支持度的數(shù)據(jù)項集,得到頻繁項集Lk。
步驟6:重復(fù)步驟3 到步驟5,直到Lk為空。
步驟7:對L1到Lk取并集最終即為頻繁項集L。
本文以某中學(xué)初一年級上學(xué)期期末數(shù)學(xué)考試卷面成績?yōu)閿?shù)據(jù)基礎(chǔ),結(jié)合學(xué)科知識結(jié)構(gòu)及教學(xué)主要知識點分布。首先,對試卷各試題所包含的知識點進(jìn)行統(tǒng)計,如表1所示。然后,對學(xué)生題目的作答成績進(jìn)行錄入,如表2所示。
表1 題目知識點對應(yīng)關(guān)系
續(xù)表
表2 學(xué)生題目得分表
重點檢查數(shù)據(jù)缺失的情況,對于成績的缺失,通常采用錄入平均值的方式。對學(xué)生答題情況進(jìn)行記錄,客觀題采用“0”和“1”來描述學(xué)生試題的正確與否,主觀題以得分率進(jìn)行記錄。針對試卷知識點的關(guān)聯(lián)分析中,那些難度過大或過小的題目會導(dǎo)致分析結(jié)果對這些題目的關(guān)聯(lián)性過強(qiáng),影響分析結(jié)果。因此需計算各題目的難易度,將過于簡單或困難的題目排除。
由于關(guān)聯(lián)分析只能對處于區(qū)間數(shù)據(jù)進(jìn)行分析,需要對數(shù)據(jù)進(jìn)行離散化處理,處理后,連續(xù)的數(shù)值會被區(qū)域數(shù)值代替。得分率小于或等于0.5 的量化為0,得分率大于0.5 的量化為1,如表3所示。
表3 題目分?jǐn)?shù)離散化處理
利用Apriori算法對形如表3所示的數(shù)據(jù)進(jìn)行關(guān)聯(lián)規(guī)則挖掘。當(dāng)最小支持度下限設(shè)為0.5,最小置信度下限設(shè)為0.7 時,產(chǎn)生如表4的部分挖掘結(jié)果。
表4 挖掘結(jié)果
以下為得到的部分關(guān)聯(lián)規(guī)則:
規(guī)則1:一元一次方程的應(yīng)用=>數(shù)軸
此規(guī)則的意思是:在一元一次方程的應(yīng)用知識點得分較高的學(xué)生對包含數(shù)軸知識點的題目得分也會高。這表明考察數(shù)軸知識點的題目會結(jié)合一元一次方程應(yīng)用的知識,教師在講解數(shù)軸時,注意帶領(lǐng)學(xué)生回顧一元一次方程解法的相關(guān)內(nèi)容。
規(guī)則2:有理數(shù)的混合運(yùn)算=>頻數(shù)直方圖、用樣本估計總體
此規(guī)則的意思是:在解有理數(shù)混合運(yùn)算題目得分較高的學(xué)生解包含頻數(shù)直方圖和用樣本估計總體的題目得分也較高。這說明掌握有理數(shù)混合運(yùn)算是解包含頻數(shù)直方圖和用樣本估計總體知識點的基礎(chǔ)。
通過對試題知識點進(jìn)行關(guān)聯(lián)分析,能夠幫助教師發(fā)現(xiàn)一些隱含的知識點間的關(guān)聯(lián)關(guān)系。教師可以了解各知識點間的相互影響,為教學(xué)提供參考,對日常教學(xué)活動進(jìn)行針對性的調(diào)整,提高教學(xué)質(zhì)量和效率。