[摘 要] 機(jī)器學(xué)習(xí)可幫助教師挖掘試卷中知識點之間的關(guān)系,檢測學(xué)生知識點掌握情況,為評價反饋提供支持。使用深度學(xué)習(xí)Apriori算法,通過模擬研究和實證研究,針對具有不同知識點結(jié)構(gòu)的試卷進(jìn)行挖掘分析。模擬研究發(fā)現(xiàn):Apriori算法能針對知識點屬性復(fù)雜的試題進(jìn)行知識點間關(guān)聯(lián)規(guī)則的挖掘,準(zhǔn)確率較高;隨著樣本量的增加,挖掘的準(zhǔn)確率增加。實證研究發(fā)現(xiàn):Apriori算法可對中小學(xué)的語文、數(shù)學(xué)、小學(xué)科學(xué)、中學(xué)物理等學(xué)科的試卷進(jìn)行知識點間關(guān)聯(lián)規(guī)則挖掘,但學(xué)科間挖掘結(jié)果有差異。經(jīng)過粒度優(yōu)化、刪除基礎(chǔ)知識點后,Apriori算法可較好挖掘中小學(xué)語文、數(shù)學(xué)剩余知識點間的關(guān)聯(lián)關(guān)系,但對跨學(xué)科的知識點關(guān)系挖掘有待提升。
[關(guān)鍵詞] 知識關(guān)聯(lián)規(guī)則;Apriori算法;學(xué)科;跨學(xué)科;不同知識點結(jié)構(gòu)
[中圖分類號] G424.74 [文獻(xiàn)標(biāo)識碼] A
[文章編號] 1673—1654(2024)05—009—015
一、問題緣起
測試有助于評價學(xué)生對學(xué)科的某一單元、某個學(xué)期、某個學(xué)年知識點的掌握情況。教師結(jié)合測試結(jié)果判斷學(xué)生知識點缺失情況,針對學(xué)生欠缺的知識點進(jìn)行專題彌補(bǔ),能夠有效提升教學(xué)效率。
已有研究利用數(shù)據(jù)挖掘的方式對試卷內(nèi)在知識結(jié)構(gòu)進(jìn)行挖掘,常見算法包括決策樹、Apriori算法、聚類算法等。Bello等人通過分類算法和聚類算法(NB、KNN、C4.5、SVM、K-means)分析試卷,從海量的學(xué)習(xí)數(shù)據(jù)里面挖掘出潛藏在成績背后的知識結(jié)構(gòu)、學(xué)生學(xué)習(xí)結(jié)果產(chǎn)出的原因,從而對教學(xué)提出建議[1]。Kahya采用新的K-means算法分析學(xué)生測試數(shù)據(jù),找出學(xué)生某門科目學(xué)習(xí)的內(nèi)在知識點關(guān)聯(lián)[2]。Tsytsarau M.等人則引入Bayesian 理論,提升學(xué)生成績挖掘的準(zhǔn)確度[3]。
在我國,有研究者利用機(jī)器學(xué)習(xí)的算法對試卷中的內(nèi)在知識關(guān)聯(lián)進(jìn)行挖掘,并將得到的結(jié)果投入到教學(xué)應(yīng)用中。如2016年,劉愛萍采用KNN算法,訓(xùn)練預(yù)測因子,提高了數(shù)據(jù)挖掘的準(zhǔn)確度和預(yù)測速度[4]。馬瑩等人基于知識關(guān)聯(lián)規(guī)則和聚類算法,挖掘影響學(xué)生成績的真實原因[5]。
在知識點關(guān)聯(lián)的挖掘研究中,Apriori算法是一種常見的算法,用來建立知識點間的關(guān)聯(lián)規(guī)則。早期,學(xué)者們基于分而治之的思想,采用蟻群算法,對Apriori算法結(jié)構(gòu)進(jìn)行優(yōu)化[6]。2010年,有學(xué)者使用Apriori算法挖掘網(wǎng)絡(luò)平臺的學(xué)習(xí)成績[7]。2012年,白彥輝使用Apriori算法,對試題上的重點知識點、難點知識點進(jìn)行了數(shù)據(jù)劃分,將每個知識點下的分?jǐn)?shù)都劃分為三或四個等級,拓寬了知識點粒度,挖掘到學(xué)生的薄弱知識點[8]。2014年,黃藝?yán)な褂肕I-Apriori算法構(gòu)建高頻集,進(jìn)行學(xué)生群體劃分,通過矩陣壓縮建立項集索引表,挖掘出教學(xué)重難點,解決了自動組卷中的教學(xué)評價問題[9]。李志軍等人利用Apriori算法分析學(xué)生成績,找出了課程之間的隱含的聯(lián)系[10]。2018年,李毅使用Apriori算法,依據(jù)學(xué)生答題數(shù)據(jù),分析出試卷中各題目對應(yīng)知識點間的關(guān)聯(lián)性[11]。又有研究者針對2017年常州市某中學(xué)七年級的6套題目,根據(jù)知識點掌握程度,通過學(xué)生作答,挖掘兩者之間的深層次的關(guān)聯(lián)[12]。2017年,袁路妍、李鋒利用改進(jìn)的關(guān)聯(lián)規(guī)則 Apriori 算法,減少無效比較的次數(shù)[13]。2018年,李毅在細(xì)致劃分?jǐn)?shù)學(xué)試卷考查知識點的基礎(chǔ)上,運(yùn)用Apriori算法分析了試卷中各知識點間的隱含關(guān)聯(lián)關(guān)系[11]。已有研究的算法均基于頻繁項集的查找,每運(yùn)行一次算法就要遍歷一次數(shù)據(jù),生成所有的項集集合,增加了計算的功耗,計算效率較低。自2020年,有學(xué)者通過對算法進(jìn)行性能分析,在生成的集合中剔除非頻繁集合項,改善挖掘效率,提升Apriori算法的支持度和可信度[14]。
前人的學(xué)術(shù)成果為后續(xù)研究打下了堅實的基礎(chǔ)。但是,已有研究只針對單一學(xué)科,且沒有比較不同類型的知識結(jié)構(gòu)情況的挖掘效果,缺乏大數(shù)據(jù)集的實證檢驗。因此,本研究開展模擬研究和實證研究,試圖探究Apriori算法對擁有不同知識點關(guān)聯(lián)的試卷挖掘的適用性。
二、Apriori算法在試卷知識點關(guān)聯(lián)中的應(yīng)用研究
Apriori算法是關(guān)聯(lián)規(guī)則挖掘算法中最經(jīng)典的算法。20世紀(jì)60年代,學(xué)者Hájek、Havel和Chytil提出了算法思想[15]。20世紀(jì)90年代,Agrawal 等人改善了算法。學(xué)者們對單層、多層、基于圖等關(guān)聯(lián)規(guī)則進(jìn)行挖掘,實現(xiàn)了算法的具體操作。Apriori算法從大數(shù)據(jù)集中挖掘頻繁項集,找出關(guān)聯(lián)規(guī)則。
(一)Apriori算法的指標(biāo)
Apriori算法有三個重要的判斷指標(biāo):支持度、置信度、提升度。
支持度(support)是一個用來表明頻繁項在整個項集中(D)出現(xiàn)的頻繁程度的指標(biāo)。計算公式為:
Support(X)=count(X)/count(D) (1)
關(guān)聯(lián)規(guī)則支持度指的是X=gt;Y的支持度,等于集合X∪Y的支持度。表示集合X和集合Y中的項在全部的數(shù)據(jù)集中出現(xiàn)的概率。計算公式為:
Support(X=gt;Y)=Support(X∪Y)=count(X∪Y)count(D)" " " " " " (2)
關(guān)聯(lián)規(guī)則置信度(confidence)表明在X集合出現(xiàn)的情況下,Y集合出現(xiàn)的概率的大小,等于集合X∪Y的支持度和集合X的支持度的比例,從概率論的意義來說就是P(X|Y)=P(XY)/P(Y)。計算公式為:
Confidence(X=gt;Y)=Support(X∪Y)/Support(X)" " " (3)
關(guān)聯(lián)規(guī)則提升度(lift)可以用來判斷一個題項對另一個題項提升的程度。主要有兩個數(shù)值需要注意,一個是liftgt;1,表明這樣的關(guān)聯(lián)是存在意義的,也就是說一個題項跟另一個題項之間是存在正相關(guān)關(guān)系的。但如果要尋找有用的關(guān)聯(lián),則需要liftgt;3。用概率論的思想來解釋lift,為P(X|Y)/P(Y)=(P(XY)/P(Y))/P(Y)。計算公式為:
lift(X=gt;Y)=confidence(X=gt;Y)/Support(X)" (4)
一般而言,支持度和置信度的值越大,關(guān)聯(lián)規(guī)則的可靠性越高。而提升度越大,表明兩者關(guān)聯(lián)關(guān)系越緊密。
(二)Apriori算法的運(yùn)行
Apriori算法運(yùn)行過程如圖1所示:
三、研究思路
(一)研究問題
第一,基于模擬研究,Apriori算法在不同樣本量條件下,針對擁有不同類型的知識點關(guān)聯(lián)規(guī)則的試卷的適用性如何?
第二,基于實證數(shù)據(jù),Apriori算法在對擁有不同知識點關(guān)聯(lián)規(guī)則的語文、數(shù)學(xué)、小學(xué)科學(xué)、中學(xué)物理等試卷的適用性如何?
(二)研究步驟
研究一:基于認(rèn)知診斷理論下的DINA模型,模擬在不同的樣本量、知識點屬性結(jié)構(gòu)及個數(shù)條件下學(xué)生的作答反應(yīng),使用Apriori算法對知識點關(guān)聯(lián)規(guī)則及知識點間屬性層次結(jié)構(gòu)進(jìn)行驗證,判斷Apriori算法的準(zhǔn)確度。
研究二:基于實證研究的數(shù)據(jù),針對知識點關(guān)聯(lián)程度不同的語文、數(shù)學(xué)和科學(xué)試卷,Apriori算法推斷的知識關(guān)聯(lián)關(guān)系存在的差異,再針對“科學(xué)”學(xué)科在不同年級間的差異,進(jìn)行詳細(xì)分析和比較。
本研究使用R軟件中的arules包對數(shù)據(jù)進(jìn)行分析與挖掘。
首先需要對數(shù)據(jù)運(yùn)行和清理,并將其轉(zhuǎn)化為Apriori算法可識別和運(yùn)行的數(shù)據(jù)形式,生成試卷內(nèi)知識點間關(guān)聯(lián)關(guān)系,并進(jìn)行可視化處理。挖掘過程如圖2所示:
第一步:異常數(shù)據(jù)或特殊作答模式清理。查看數(shù)據(jù)集相關(guān)的統(tǒng)計匯總信息,通過計算項目答對率并繪制各題答對率分布圖,使用arules包中的sample函數(shù)對異常數(shù)據(jù)或特殊模式進(jìn)行識別和清理,獲得可進(jìn)一步分析關(guān)聯(lián)規(guī)則的挖掘庫。
第二步:對數(shù)據(jù)庫進(jìn)行知識點關(guān)聯(lián)規(guī)則的挖掘。Apriori算法arules包中的apriori()函數(shù)默認(rèn)參數(shù)值設(shè)定為支持度(support)=0.1,置信度(confidence)=0.8。為了避免參數(shù)設(shè)置不當(dāng)而產(chǎn)生大量不可靠的規(guī)則,在實際數(shù)據(jù)分析中對支持度和置信度的參數(shù)進(jìn)行適當(dāng)調(diào)整,以便能夠挖掘到合理數(shù)量并且有意義的關(guān)聯(lián)規(guī)則。經(jīng)上述過程可得到知識點的關(guān)聯(lián)規(guī)則,通常將規(guī)則劃分為三大類:
第一種有效規(guī)則(actionable),是指規(guī)則鮮明清晰、有價值;
第二種基本規(guī)則(trivial),是指規(guī)則是顯而易見的,直觀明確但價值不大;
第三種難以解釋規(guī)則(inexplicable),是指一些難以解釋的規(guī)則,需要進(jìn)行額外的研究來判定。
同時,這種關(guān)聯(lián)規(guī)則可以實現(xiàn)可視化。如圖3所示,x軸代表的是支持度,y軸代表的是置信度。其中每一個關(guān)聯(lián)規(guī)則顏色的深淺,是由支持度和置信度這兩個度量值所對應(yīng)的參數(shù)值和提升度lift的值來決定的。顏色越深表明提升度比較高,越淺表明有相關(guān)但并非強(qiáng)有效的規(guī)則。當(dāng)知識點屬性過多的時候,支持度會比較低,關(guān)聯(lián)規(guī)則的挖掘是交互式的,需要不斷地檢查、優(yōu)化。
第三步:進(jìn)一步優(yōu)化知識點關(guān)聯(lián)規(guī)則的挖掘。如果知識點關(guān)聯(lián)規(guī)則挖掘得不夠好,可以從知識點粒度屬性上進(jìn)行優(yōu)化,刪除一些簡單的知識點,重新挖掘關(guān)聯(lián)規(guī)則,得到有意義的關(guān)聯(lián)信息。
四、研究結(jié)果
(一)模擬研究
1. 研究問題
基于模擬研究,對比Apriori算法針對不同樣本量、不同知識點關(guān)聯(lián)規(guī)則的試卷的適用性如何?
研究方法如下:
第一步,模擬數(shù)據(jù)。根據(jù)認(rèn)知診斷理論DINA模型(Deterministic Inputs,Noisy“and”Gate Model)(JunKer amp; Sijtsma,2001),構(gòu)建單一知識點和復(fù)雜知識點的Q矩陣,使用R package使CDM中的DINA模型生成學(xué)生作答反應(yīng)。
根據(jù)DINA模型的項目反應(yīng)函數(shù)如下:
P(Yij=1|αk)=(1?si)[ηij]gi[1-ηij] (5)
其中,[ηij=k=1Kαqjkik]" (6)
研究重點關(guān)注兩個條件下,Apriori算法對試卷中知識規(guī)則挖掘的適用性。第一是知識點關(guān)聯(lián)的復(fù)雜程度,包括了一個單一知識點和兩個復(fù)雜知識點類型。第二是學(xué)生樣本數(shù)的多少,樣本數(shù)設(shè)置為50、500、1000、5000、10000等人數(shù)的條件。題目數(shù)設(shè)定為5道題和5個屬性,樣本參數(shù)中的猜測參數(shù)和失誤參數(shù)范圍為(0.1,0.3)。
具體說來:
(1)單一知識點是指知識點之間相互獨立,且知識點間為平行關(guān)系,也就是每個知識點的掌握與否并不影響其他知識點的掌握。那么,在驗證之前預(yù)先判定,知識點間無關(guān)聯(lián),或者關(guān)聯(lián)強(qiáng)度不大,知識點關(guān)聯(lián)規(guī)則可能會出現(xiàn)無序狀態(tài)。圖4為第一種情況下的知識點屬性Q矩陣列表。
(2)復(fù)雜知識點的Q矩陣
復(fù)雜知識點有兩種子類。
第一種復(fù)雜知識點的Q矩陣見圖5?;趫D5,可能挖掘出來的知識點關(guān)聯(lián)規(guī)則包括:A4—gt;A1、A2;A5—gt;A4、A2、A1、A3。例如若要掌握知識點A4,需要先掌握知識點A1和A2,即不同知識點之間存在層級關(guān)系。
第二種復(fù)雜知識點屬性Q矩陣見圖6?;趫D6,可能挖掘出來的知識點關(guān)聯(lián)規(guī)則包括:A4—gt;A1、A2、A3;A5—gt;A4、A1、A2、A3。
基于上述知識點結(jié)構(gòu),分析在不同的樣本量下知識點關(guān)聯(lián)規(guī)則的規(guī)律。
第二步,利用Apriori算法進(jìn)行探索,分析其生成的知識點關(guān)聯(lián)規(guī)則與假設(shè)是否一致,從而判斷算法的適用性。
2.研究結(jié)果
(1)單一知識點和復(fù)雜知識點條件下,知識關(guān)聯(lián)規(guī)則散點圖對比
研究對比了不同樣本量情況下Apriori算法在單一知識點和復(fù)雜知識點條件下的挖掘效果,通過散點圖可以直接觀察到知識點間的關(guān)聯(lián)關(guān)系。
由表1可知:
第一,對于單一知識點來說,單一知識點的散點分布較多,Apriori算法所生成的知識點關(guān)聯(lián)沒有規(guī)律;且隨著樣本數(shù)的增加,單一知識點的知識點之內(nèi)產(chǎn)生了許多虛假的關(guān)聯(lián)。
第二,對于復(fù)雜知識點來說,隨著樣本量的增加,Apriori算法所估計出來的知識點間關(guān)聯(lián)規(guī)則越來越具有規(guī)律性。其中提升度(lift)值大于1的關(guān)聯(lián)規(guī)則較多。
(2)單一知識點和復(fù)雜知識點條件下知識關(guān)聯(lián)規(guī)則對比
研究發(fā)現(xiàn),隨著樣本量的變化,單一知識點間沒有出現(xiàn)固定的關(guān)聯(lián)規(guī)則,表明知識點間不存在有意義的關(guān)聯(lián);而隨著樣本量增加,復(fù)雜知識點的關(guān)聯(lián)規(guī)則呈現(xiàn)出穩(wěn)定性和規(guī)律性。表2是不同模擬條件下,算法生成的知識關(guān)聯(lián)規(guī)則。
第一,在單一知識點條件下,知識關(guān)聯(lián)規(guī)則產(chǎn)生于support=0.2,confidence=0.6的參數(shù)條件。無論樣本量多少,Apriori算法所挖掘出來的知識點關(guān)聯(lián)規(guī)則均未呈現(xiàn)固定的結(jié)構(gòu)。這表明,Apriori算法無法針對存在平行關(guān)系的知識點間挖掘出穩(wěn)定的關(guān)聯(lián)結(jié)構(gòu)。
第二,在復(fù)雜知識點條件下,知識關(guān)聯(lián)規(guī)則產(chǎn)生于support=0.1,confidence=0.4的參數(shù)條件下。如對于復(fù)雜知識點屬性結(jié)構(gòu)一來說,知識關(guān)聯(lián)規(guī)則包括item5=gt;item1,item2,item3,item4=gt;item1,item2,item3。即若學(xué)生掌握了題目4或題目5的知識點,則大概率是已掌握了題目1、2、3所考查的知識點。這符合在數(shù)據(jù)模擬的時候?qū)τ陬}目之間關(guān)系的架構(gòu)。同時,隨著樣本量的增多,Apriori算法進(jìn)行知識點關(guān)聯(lián)規(guī)則挖掘的準(zhǔn)確度也會增加。
(3)單一知識點和復(fù)雜知識點條件下知識關(guān)聯(lián)規(guī)則可視化對比
根據(jù)以上規(guī)則進(jìn)行規(guī)則的可視化。以下是不同類型知識點生成的強(qiáng)關(guān)聯(lián)規(guī)則可視化:
在單一知識點條件下,不同樣本量下規(guī)則出現(xiàn)了無序的變化。而在復(fù)雜知識點條件下,屬性層級結(jié)構(gòu)一和二的關(guān)聯(lián)規(guī)則可視化圖顯示,隨著樣本量增加,規(guī)則趨于穩(wěn)定結(jié)構(gòu)。
關(guān)于圓圈顏色深淺lift和圓圈support大?。侯伾缴?,說前因子集對后因子的提升力越強(qiáng),影響程度越大;圓圈越大,表明前因子集和后因子集共同出現(xiàn)概率越高,關(guān)聯(lián)越強(qiáng)。基于模擬數(shù)據(jù),屬性層級結(jié)構(gòu)一和二結(jié)論是相同的,同樣item4和item5之間的關(guān)聯(lián)性較弱,但相較知識點層級結(jié)構(gòu)一,層級結(jié)構(gòu)二生成的關(guān)聯(lián)規(guī)則會有細(xì)微差別,代表知識點屬性層級結(jié)構(gòu)的差別會帶來知識點關(guān)聯(lián)規(guī)則的差別。兩項研究均表明,Apriori算法可以驗證知識點關(guān)聯(lián)結(jié)構(gòu)。
(二)實證研究
1. 研究問題
基于實證數(shù)據(jù),對比Apriori算法對擁有不同知識點關(guān)聯(lián)規(guī)則的不同年級、不同學(xué)科(語文、數(shù)學(xué)、小學(xué)科學(xué)和中學(xué)物理等)的試卷的適用性如何?
2. 研究方法
第一步,利用算法對試卷進(jìn)行知識關(guān)聯(lián)分析。
第二步,為了判斷知識關(guān)聯(lián)的準(zhǔn)確性,經(jīng)過與學(xué)科專家及一線教師的討論,對試題的層級結(jié)構(gòu)和知識點屬性進(jìn)行標(biāo)定。
對某市六年級和九年級共計14600余名學(xué)生的教育質(zhì)量監(jiān)測評價試卷作答數(shù)據(jù)進(jìn)行知識點關(guān)聯(lián)關(guān)系的研究。包括每個年級的語文、數(shù)學(xué)、科學(xué)(或物理)。其中,試題僅保留了客觀題,刪除了主觀題。并且對客觀題得分進(jìn)行了二級計分轉(zhuǎn)換處理,以保證算法的可實施,提高結(jié)果的準(zhǔn)確度。
3. 研究結(jié)果
(1)不同學(xué)科題目的掌握程度的描述性分析
圖7為該批學(xué)生對各部分知識點的掌握情況,即每道題目的正確作答概率。
可以發(fā)現(xiàn),得分率較高的普遍是基礎(chǔ)知識點,知識點難度較低;得分率中等或較低的則是屬于同一層次類型的復(fù)雜知識點,知識點屬性層級較高,難度較大。
(2)不同學(xué)科知識點關(guān)聯(lián)規(guī)則的可視化展示
針對上述結(jié)果,采用可視化方式進(jìn)行展示,可以更加直觀地得到學(xué)科知識點間的關(guān)聯(lián)關(guān)系。
散點圖顯示:
第一,不同學(xué)科的知識關(guān)聯(lián)規(guī)則存在差異。語文和數(shù)學(xué)學(xué)科所生成的知識關(guān)聯(lián)規(guī)則比較緊密,科學(xué)相對來說則比較分散。語文學(xué)科大部分規(guī)則的支持度在0.6以上,置信度在0.8以上;數(shù)學(xué)學(xué)科大部分規(guī)則的支持度在0.4以上;科學(xué)學(xué)科大部分規(guī)則的支持度在0.2以上。語文學(xué)科知識點間關(guān)聯(lián)性最強(qiáng),數(shù)學(xué)次之,科學(xué)最低。
第二,不同年級的知識關(guān)聯(lián)規(guī)則存在差異。如小學(xué)科學(xué)和中學(xué)物理相比,在相似的支持度和置信度的條件下,中學(xué)物理的提升度大于1.6,而小學(xué)科學(xué)的提升度lift在1.04左右,說明中學(xué)物理知識點間生成了強(qiáng)有效的關(guān)聯(lián)規(guī)則。這是由于小學(xué)科學(xué)傾向于描述知識點,知識點偏基礎(chǔ)性,結(jié)構(gòu)單一,知識點間呈平行結(jié)構(gòu);中學(xué)物理則要求較多定量分析、技能掌握、邏輯判別,知識點間環(huán)環(huán)相扣,緊密相連。
(3)知識點關(guān)聯(lián)規(guī)則挖掘優(yōu)化分析
① 基于粒度優(yōu)化分析的知識點關(guān)聯(lián)規(guī)則挖掘
為了深入挖掘知識關(guān)聯(lián)規(guī)則,基于粒度優(yōu)化再次分析,通過刪除基礎(chǔ)知識點,找尋更加有意義的知識點關(guān)聯(lián)規(guī)則。研究發(fā)現(xiàn),在高粒度的情況下,不同學(xué)科之間剩余知識點間的關(guān)聯(lián)狀況有所變化。
第一,在高粒度情況下,語文和數(shù)學(xué)學(xué)科的知識點關(guān)聯(lián)規(guī)則挖掘比較符合客觀認(rèn)知,但是科學(xué)和物理的知識點關(guān)聯(lián)沒有語文和數(shù)學(xué)的強(qiáng)。
對小學(xué)語文學(xué)科來說,有一條知識規(guī)則,始終會影響其他知識點間的關(guān)聯(lián),例如小學(xué)語文的第19個知識點。通過分析試卷發(fā)現(xiàn),這個知識點需要學(xué)生調(diào)動日常生活背景進(jìn)行推論。由表4可見,在沒有任何知識點與它產(chǎn)生關(guān)聯(lián)的情況下,support=0.9,confidence=0.9,lift=1;所以這是一條沒有意義的關(guān)聯(lián)項,應(yīng)當(dāng)將之刪除。與之關(guān)聯(lián)度較高的第9、27、24、28知識點均是基礎(chǔ)知識點。對于中學(xué)語文知識點結(jié)構(gòu),13、21、12、14、25知識點均為基礎(chǔ)知識點;對于數(shù)學(xué)學(xué)科來說,小學(xué)數(shù)學(xué)試卷中1、4、5、6知識點偏基礎(chǔ)內(nèi)容,中學(xué)數(shù)學(xué)試卷1(1)、1(2)、2(7)題目涵蓋知識點難度較低??梢?,Apriori算法能夠?qū)Σ煌y度層級的知識點進(jìn)行明顯區(qū)分。中小學(xué)的語文、數(shù)學(xué)學(xué)科具有相似的知識點粒度分布狀況。但是,科學(xué)試卷刪除了基礎(chǔ)知識之后,其關(guān)聯(lián)規(guī)則變得非常奇怪。
第二,在高粒度情況下,不同年級的知識點關(guān)聯(lián)也存在明顯的差異。
科學(xué)在小學(xué)段和中學(xué)段的關(guān)聯(lián)有所不同。對小學(xué)科學(xué)試卷知識點進(jìn)行分析發(fā)現(xiàn),題目1(1)、1(2)、1(6)屬于基礎(chǔ)知識點,分別考查小學(xué)科學(xué)三年級下冊“動物的生命周期”、五年級上冊“種子發(fā)芽”、四年級下冊“食物”單元的科學(xué)概念,而食物的加熱這一科學(xué)概念又與我們的日常生活息息相關(guān),所以體現(xiàn)了很高的支持度和關(guān)聯(lián)性?;谶@一特性,它與其他知識點間頻繁產(chǎn)生關(guān)聯(lián)關(guān)系不能直接認(rèn)定為與之相關(guān)的知識點間的關(guān)聯(lián)價值。同樣的,對中學(xué)物理來說,1(1)和2(1)分別考查沸騰現(xiàn)象和大氣壓強(qiáng),沸騰現(xiàn)象雖然對于大氣、密度計算有知識規(guī)則高相關(guān),但是,這個現(xiàn)象經(jīng)過深入分析發(fā)現(xiàn),沸騰、大氣壓強(qiáng)的答對率很高,因此它對所有題目都會有貢獻(xiàn);除此之外,這個沸騰現(xiàn)象與大氣壓一樣,都是需要記憶的。
② 在細(xì)粒度條件下優(yōu)化知識點關(guān)聯(lián)挖掘
為了找尋有意義的知識點關(guān)聯(lián)規(guī)則,在細(xì)粒度情況下研究不同學(xué)科知識點屬性的關(guān)聯(lián)。這里采用了關(guān)聯(lián)規(guī)則的可視化圖,其內(nèi)容是與上圖的關(guān)聯(lián)規(guī)則對應(yīng)的。
第一,細(xì)粒度優(yōu)化后,科學(xué)學(xué)科出現(xiàn)了更多知識規(guī)則,但對語文、數(shù)學(xué)學(xué)科無太大改善。
在細(xì)粒度情況下,科學(xué)知識點關(guān)聯(lián)規(guī)則挖掘得到了優(yōu)化,這可能是因為科學(xué)——單一知識點的結(jié)構(gòu)居多,而物理作為一門相對成熟的學(xué)科,知識點結(jié)構(gòu)具有較強(qiáng)的屬性層級關(guān)系,所以對科學(xué)學(xué)科來講是有一定程度的改善的。
第二,在細(xì)粒度情況下,不同年級的科學(xué)學(xué)科也存在很大差異。
通過降低支持度,除去頻繁出現(xiàn)的知識點,可以觀察到剩余知識點結(jié)構(gòu)間有價值的信息。在細(xì)粒度下,科學(xué)學(xué)科間差異性依舊顯著。圓圈顏色深淺,即提升度(lift),以及圓圈大小,即支持度(support),體現(xiàn)了關(guān)系差異。顏色越深,說前因子集對后因子的提升力越強(qiáng),影響程度越大;圓圈越大,表明前因子集和后因子集共同出現(xiàn)概率越高,關(guān)聯(lián)越強(qiáng)。而除去基礎(chǔ)知識后,中學(xué)物理知識點關(guān)聯(lián)強(qiáng)度明顯高于小學(xué)科學(xué)。
具體舉例來看,1(5)題考查了血液流動知識點,1(8)考查了沉和浮知識點,1(14)考查空氣壓縮這一知識點,與1(15)題考查的地球的運(yùn)動知識點間形成了正相關(guān),Lift=1.3。但是單從知識點字面意思來看,這些知識點間并不能構(gòu)成理論意義上的強(qiáng)相關(guān),小學(xué)科學(xué)知識點分布結(jié)構(gòu)松散,這些關(guān)聯(lián)其實是偶然的。而中學(xué)物理則可發(fā)現(xiàn)知識點屬性可解釋的相關(guān)。例如,3(5)考查密度計算,3(4)考查物體質(zhì)量的觀測,在物理學(xué)科中,密度計算就等于質(zhì)量除以體積。相較于小學(xué)科學(xué),中學(xué)階段知識點前后繼承性更強(qiáng)。這種關(guān)聯(lián)規(guī)則的發(fā)現(xiàn),能夠為教師編制試卷,提升學(xué)生知識點掌握情況提供新的思路。科學(xué)知識點相較于其他兩門學(xué)科,學(xué)生知識點掌握分布差異性較大。
③ 基于提升度參數(shù)開展優(yōu)化知識點關(guān)聯(lián)挖掘
為了進(jìn)一步區(qū)分有用關(guān)聯(lián)規(guī)則和無用關(guān)聯(lián)規(guī)則,針對兩個年級三門學(xué)科形成的知識點關(guān)聯(lián)規(guī)則中l(wèi)iftgt;3的有用關(guān)聯(lián)規(guī)則進(jìn)行挖掘。
想找出有用關(guān)聯(lián)規(guī)則,需要降低支持度和置信度,挖掘出不頻繁出現(xiàn)的知識點中所隱藏的、不易發(fā)現(xiàn),但強(qiáng)有效的關(guān)聯(lián)規(guī)則。
從表7可見:語文學(xué)科和數(shù)學(xué)學(xué)科知識點提升度(lift)沒有科學(xué)學(xué)科高,但語文和數(shù)學(xué)知識點間關(guān)聯(lián)程度高,整張試卷知識點間的共線性很強(qiáng)。兩門學(xué)科存在許多知識點間得分的關(guān)聯(lián),知識點掌握頻度也很高,所以強(qiáng)規(guī)則下的強(qiáng)有效關(guān)聯(lián)規(guī)則較少。而小學(xué)科學(xué)很多知識點間存在割裂現(xiàn)象,所以知識點掌握概率有高有低,低頻度知識點與其他知識點間可以發(fā)現(xiàn)一些平時發(fā)現(xiàn)不到的規(guī)則。中學(xué)物理知識點相對于小學(xué)科學(xué)知識點強(qiáng)度更高、范圍更廣,存在更有效的關(guān)聯(lián)。中學(xué)知識點強(qiáng)有效關(guān)聯(lián)規(guī)則生成參數(shù)中l(wèi)ift均大于3,而小學(xué)科學(xué)的均大于2,但是科學(xué)學(xué)科比語文和數(shù)學(xué)的lift參數(shù)值均高,從參數(shù)上體現(xiàn)了知識點關(guān)聯(lián)結(jié)構(gòu)的分布。
五、結(jié)論
基于Apriori算法,開展模擬和實證研究,探索Apriori算法在挖掘試卷知識關(guān)聯(lián)規(guī)則的可行性。研究發(fā)現(xiàn):
第一,在模擬研究中,Apriori算法能夠很好地驗證復(fù)雜知識的關(guān)聯(lián)關(guān)系。而單一知識點關(guān)聯(lián)規(guī)則的判斷,隨著樣本量增加,規(guī)則越來越呈現(xiàn)出不規(guī)律性。這說明,Apriori算法無法甄別出單一知識點所具有的點狀的知識規(guī)則。
第二,在實證研究中,Apriori算法可以得到不同學(xué)科間的知識點關(guān)聯(lián)規(guī)則,但科學(xué)學(xué)科的知識點關(guān)聯(lián)規(guī)則與語文、數(shù)學(xué)學(xué)科之間的規(guī)則具有比較明顯差異。語文和數(shù)學(xué)的關(guān)聯(lián)比較多,說明兩科試卷內(nèi)部的知識點關(guān)聯(lián)的邏輯性和整合性較強(qiáng);而小學(xué)科學(xué)知識點間結(jié)構(gòu)性不強(qiáng),更多考查基礎(chǔ)知識點,類似于單一知識點的結(jié)構(gòu),為此,Apriori算法無法很好地實現(xiàn)小學(xué)科學(xué)的知識點關(guān)聯(lián)規(guī)則的挖掘。
第三,通過粒度優(yōu)化、更新提升度參數(shù)之后,Apriori算法可得到更加有意義的關(guān)聯(lián),但對不同學(xué)科而言,優(yōu)化算法的效果不同。對于知識關(guān)聯(lián)較強(qiáng)的語文、數(shù)學(xué)學(xué)科而言,優(yōu)化無太大改善,但對科學(xué)學(xué)科而言,其知識點關(guān)聯(lián)規(guī)則的挖掘結(jié)果改善較大。
本研究還有很多不足。例如,模擬研究尚未考慮到更多復(fù)雜的知識點關(guān)聯(lián)的狀態(tài),也沒有針對有關(guān)題目的答對率情況進(jìn)行設(shè)置。又如,實證研究尚未能考慮到更多的學(xué)科,只能關(guān)注到每學(xué)科一套試卷,尚未能考慮到更多的學(xué)科范疇。未來,可以在答對率、樣本量等方面做出更多的嘗試。
參考文獻(xiàn):
[1] Bello-Orgaz G,Menendez H,Okazaki S,et al. Combining Social-Based Data Mining Techniques to Extract Collective Trends from Twitter [J]. Malaysian Journal of Computer Science,2014,27(2):95-111.
[2] Yilmaz C A,Kahya Y P. Multi-channel Classification of Respiratory Sounds [C] // International Conference of the IEEE Engineering in Medicine amp; Biology Society. IEEE,2016.
[3] Tsytsarau M,Palpanas T. Survey on Mining Subjective Data on the Web [J]. Data Mining and Knowledge Discovery,2012,24(3):478-514.
[4] 劉愛萍.數(shù)據(jù)挖掘技術(shù)在高職院校學(xué)生成績分析中的應(yīng)用[D].華僑大學(xué),2016.
[5] 馬瑩,趙輝,崔巖.基于Hadoop平臺的改進(jìn)KNN分類算法并行化處理[J].長春工業(yè)大學(xué)學(xué)報(自然科學(xué)版),2018,39(5):6.
[6] 宋潔,劉華,譚慶,等.蟻群算法在最大頻繁項集挖掘問題中的應(yīng)用[J].計算機(jī)工程與設(shè)計,2008,(20):5290-5292.DOI:10.16208/j.issn1000-7024.2008.20.031.
[7] 朱艷麗,高國紅.Apriori算法研究及其在學(xué)生成績分析中的應(yīng)用[J].福建電腦,2010,(1):147.
[8] 白彥輝.關(guān)聯(lián)規(guī)則挖掘在試卷分析系統(tǒng)中的應(yīng)用[J].內(nèi)蒙古民族大學(xué)學(xué)報(自然科學(xué)版),2012,27(2):159-161.
[9] 黃藝?yán)?改進(jìn)的APRIORI算法在試卷系統(tǒng)數(shù)據(jù)挖掘中的應(yīng)用[J].網(wǎng)絡(luò)安全技術(shù)與應(yīng)用,2014,(09):37+40.
[10] 李志軍.Apriori算法在學(xué)生成績分析中的應(yīng)用——以中職學(xué)生的考試成績?yōu)槔齕J].福建電腦,2016,32(008):148-149.
[11] 李毅.基于Apriori算法的試卷知識點關(guān)聯(lián)分析[J].新校園(上旬),2018,(07):52-53.
[12] 王小越,吳筱萌.基于知識點決策樹的學(xué)生學(xué)習(xí)成績預(yù)測研究——以七年級數(shù)學(xué)為例[J].數(shù)字教育,2020,6(05):70-74.
[13] 袁路妍,李鋒.改進(jìn)的關(guān)聯(lián)規(guī)則Apriori算法在課程成績分析中的應(yīng)用[J].中國教育信息化,2017,(17):62-65.
[14] 郝林倩.基于關(guān)聯(lián)規(guī)則的數(shù)據(jù)挖掘算法分析[J].太原學(xué)院學(xué)報(自然科學(xué)版),2020,38(03):42-45.DOI:10.14152/j.cnki.2096-191X.2020.03.009.
[15] Hájek P,Havel I,Chytil M. The GUHA Method of Automatic Hypotheses Determination [J]. Computing,1966,1(4):293-308.
Study on the Association Structure of Knowledge in Test Paper Based on Apriori Algorithm
Zhao Ningning1" Ye Nan2" Chen Xiaohan3" Wang Di4" Wen Hongbo3
1 School of Chinese Language and Literature of Beijing Normal University,Beijing,100875
2 Shenzhen Longgang Tongxin Experimental School,Shenzhen,Guangdong,518116
3 China Basic Education Quality Monitoring Collaborative Innovation Center,Beijing Normal University,Beijing,100875
4 Chaoyang District Educatioanl Science Academy,Beijing,100028
Abstract:In recent years,some researchers have used machine learning to mine the relationship among the items knowledge and provide support for teachers' feedback. This study is based on Apriori algorithm,through simulation and empirical research,mining and analyzing test papers with different knowledge point structures. The simulation study shows that Apriori algorithm can mine the association rules among knowledge points for the test questions with complex attributes of knowledge points,and has a high accuracy. With the increase of samples,the accuracy of Apriori algorithm in mining test papers with complex knowledge points increases. The empirical study finds that Apriori algorithm can mine the association rules among knowledge points in the test papers of Chinese,mathematics,primary school science,middle school physics in primary and secondary schools. And the mining results of association rules among disciplines are different. After optimizing the granularity and deleting the basic knowledge points,Apriori algorithm can mine the association relationship between Chinese and mathematics residual knowledge points in primary and secondary schools,and the mining of interdisciplinary knowledge points in primary schools needs to be improved.
Key words:Knowledge Association Rules,Apriori Algorithm,Disciplin,Interdisciplin,Differences in Knowledge Point Structure
(責(zé)任編輯:陳暢)