丁澤元,梁嘉輝,張?jiān)骑w,郝 飛,李 鵬,郭龍江
(陜西師范大學(xué) 計(jì)算機(jī)科學(xué)學(xué)院,陜西 西安 710119)
認(rèn)知診斷是指對(duì)個(gè)體知識(shí)結(jié)構(gòu)、加工技能或認(rèn)知過(guò)程的診斷評(píng)估[1],主要應(yīng)用在游戲、教育、醫(yī)療診斷等領(lǐng)域,其中在智慧教育領(lǐng)域應(yīng)用最為廣泛[2]。認(rèn)知診斷對(duì)傳統(tǒng)考試的測(cè)驗(yàn)與評(píng)價(jià)體系進(jìn)行了改進(jìn),它旨在探究學(xué)生在學(xué)習(xí)過(guò)程中的狀態(tài)。通過(guò)分析學(xué)生的答題記錄和試卷信息,推斷出學(xué)生當(dāng)前的知識(shí)狀態(tài),進(jìn)一步得到學(xué)生對(duì)知識(shí)點(diǎn)的熟練程度,進(jìn)而全方位地對(duì)被測(cè)者認(rèn)知的長(zhǎng)處與不足進(jìn)行評(píng)估和診斷,以達(dá)到具有針對(duì)性地促進(jìn)被測(cè)者全面發(fā)展的目的。
具體過(guò)程如圖1所示。
圖1 認(rèn)知診斷過(guò)程
學(xué)生選擇一組練習(xí)(例如,e1,…,e4),之后寫(xiě)下他們的答案(例如,對(duì)或錯(cuò))。然后,根據(jù)相應(yīng)的概念(例如線性代數(shù))來(lái)推斷他們的實(shí)際知識(shí)狀態(tài)以及掌握程度。可以看到,e1-e4每個(gè)題目都對(duì)應(yīng)知識(shí)點(diǎn)相關(guān)內(nèi)容,可以看到這個(gè)同學(xué)e1題目作對(duì)了,那么在診斷報(bào)告中會(huì)認(rèn)為這位同學(xué)對(duì)于e1所考察的線性代數(shù)的掌握度比較高,若e3題目做錯(cuò)了,那么就會(huì)得出學(xué)生對(duì)操作系統(tǒng)、數(shù)據(jù)結(jié)構(gòu)和高等數(shù)學(xué)掌握的不夠好。
該文從ASSISTments 2009-2010 Skill-builder data數(shù)據(jù)集獲得了346 860條樣本,首先進(jìn)行數(shù)據(jù)預(yù)處理;其次通過(guò)特征選擇選出有助于認(rèn)知診斷任務(wù)的特征;由于IRT和DINA模型分別是最為典型的連續(xù)型和離散型認(rèn)知診斷模型,因此二者能較好表征出傳統(tǒng)認(rèn)知診斷模型的特點(diǎn)。MIRT是IRT模型最具代表性的變體,體現(xiàn)了認(rèn)知診斷由僅關(guān)注學(xué)生的單一維度的能力到聚焦學(xué)生多維能力的視野變化,是認(rèn)知診斷領(lǐng)域發(fā)展的一個(gè)重要里程。而NeuralCD模型是認(rèn)知診斷領(lǐng)域最新的產(chǎn)物,它以人工神經(jīng)網(wǎng)絡(luò)為基礎(chǔ),體現(xiàn)了認(rèn)知診斷領(lǐng)域與深度學(xué)習(xí)領(lǐng)域的進(jìn)一步緊密結(jié)合,是認(rèn)知診斷領(lǐng)域發(fā)展的又一重要里程。因此,該文選用了這4個(gè)模型,以Precision,Recall,F1_score和Accuracy作為模型認(rèn)知準(zhǔn)確度的誤差分析指標(biāo),并比較了不同模型的可解釋性。最后,分析了比較結(jié)果并總結(jié)了不同模型在現(xiàn)代智慧教育中的適用場(chǎng)景,為認(rèn)知診斷研究提供了新視角。
17世紀(jì),真分?jǐn)?shù)理論開(kāi)始萌芽,這也是經(jīng)典測(cè)量理論(CTT)的前身[3]。1904年,C.Spearman提出對(duì)于測(cè)量誤差引起的衰減的相關(guān)系數(shù)的校正思路[3],正式標(biāo)志著經(jīng)典測(cè)量理論的誕生。迄今為止,經(jīng)典測(cè)量理論仍是最為廣泛的一種測(cè)量理論。
1972年,Cronbach提出了概化理論(GT)[3]。它綜合使用方差分析模型等統(tǒng)計(jì)方法在一定范圍內(nèi)對(duì)誤差進(jìn)行控制,提高了測(cè)量的可信度。相比CTT,GT可以更加有效地去提升測(cè)量精度與準(zhǔn)確性。
1951年,F.Lord發(fā)表的博士論文《A Theory of Test Scores》標(biāo)志著IRT理論的誕生[3]。同時(shí)期,丹麥數(shù)學(xué)家G. Rasch提出了IRT的函數(shù)形式和單參數(shù)模型。而在隨后的30年中,F.Lord依次提出IRT的雙參數(shù)模型和三參數(shù)模型[3],并最終于1980年出版了《Applications of Item Response Theory to Practical Testing Problems》,完善了整個(gè)IRT理論的框架,使得IRT理論與CTT,GT并列為教育測(cè)量領(lǐng)域最為重要的三大理論。
隨著現(xiàn)代教育技術(shù)水平的精進(jìn),Frederiksen等人于1993年在《Test Theory for a New Generation of Tests》中提出了新一代測(cè)量理論的概念,并將CTT,GT和IRT都?xì)w為標(biāo)準(zhǔn)測(cè)量理論的范疇[4-5]。書(shū)中指出標(biāo)準(zhǔn)測(cè)量理論只會(huì)給被測(cè)者一個(gè)整體的能力水平測(cè)量及評(píng)估,缺乏對(duì)被試者心理認(rèn)知能力的研究。而新一代測(cè)量理論同時(shí)兼具整體診斷和細(xì)節(jié)分析、囊括能力水平測(cè)量和認(rèn)知水平評(píng)估。時(shí)至今日,新一代測(cè)量理論已然演變?yōu)檎J(rèn)知診斷。
現(xiàn)有的認(rèn)知診斷研究主要分為三大類:基于傳統(tǒng)的認(rèn)知診斷角度、基于數(shù)據(jù)挖掘角度以及基于人工神經(jīng)網(wǎng)絡(luò)。
基于傳統(tǒng)的認(rèn)知診斷角度的模型的主要特點(diǎn)是將學(xué)生回答練習(xí)的結(jié)果建模為學(xué)生的特質(zhì)特征和練習(xí)之間的交互作用。此類模型由原始的IRT模型和DINA模型,衍生出了MIRT等一系列新模型。其中,IRT屬于能力水平研究范式,強(qiáng)調(diào)整體的能力水平測(cè)量及評(píng)估;而DINA和MIRT屬于認(rèn)知水平研究范式,強(qiáng)調(diào)理解個(gè)體心理層面的認(rèn)知加工過(guò)程和對(duì)被試的認(rèn)知狀態(tài)做出詳細(xì)分析。
近年來(lái),一些基于數(shù)據(jù)挖掘角度的認(rèn)知診斷方法發(fā)現(xiàn)了矩陣分解在認(rèn)知診斷中的可行性與適用性。學(xué)生在矩陣分解中被認(rèn)為是用戶,而習(xí)題對(duì)應(yīng)于矩陣分解中的項(xiàng)目。如Thai-Nghe等人[6]在教育背景下應(yīng)用了矩陣分解等技術(shù)實(shí)現(xiàn)了推薦系統(tǒng),并與傳統(tǒng)的回歸方法進(jìn)行了比較。Thai-Nghe等人[7]提出了一種多關(guān)系因子分解方法用于智能輔導(dǎo)系統(tǒng)中學(xué)生建模。Liu等人[8]為平衡模型的認(rèn)知準(zhǔn)確度和可解釋性,以矩陣分解為基礎(chǔ)提出了同時(shí)考慮主觀和客觀測(cè)驗(yàn)類型的FuzzyCDF。然而矩陣分解獲得的潛在特質(zhì)向量中的元素與特定知識(shí)概念之間沒(méi)有明確的對(duì)應(yīng)關(guān)系,因此并不能推斷出學(xué)生對(duì)于知識(shí)點(diǎn)的掌握情況等信息。
基于人工神經(jīng)網(wǎng)絡(luò)的認(rèn)知診斷技術(shù)主要有深度知識(shí)追蹤(DKT)以及神經(jīng)認(rèn)知診斷等模型。深度知識(shí)追蹤[9]對(duì)學(xué)生的學(xué)習(xí)過(guò)程進(jìn)行建模,繼而跟蹤學(xué)生知識(shí)狀態(tài)的動(dòng)態(tài)變化。然而,DKT更多的是預(yù)測(cè)下一時(shí)刻學(xué)生答對(duì)各道題目的概率,并不區(qū)分試題本身與其蘊(yùn)含知識(shí)點(diǎn),因此DKT并不適合直接用作認(rèn)知診斷方法。而對(duì)于NeuralCD這一模型在后續(xù)的2.4節(jié)中會(huì)詳細(xì)介紹。
項(xiàng)目反應(yīng)理論是用來(lái)分析考試成績(jī)的標(biāo)準(zhǔn)測(cè)量檢驗(yàn)?zāi)P?。IRT基于3個(gè)基本假設(shè)建立了項(xiàng)目性能、被試潛在特質(zhì)水平與項(xiàng)目應(yīng)答正確概率之間的關(guān)系[10]。相比CTT,IRT是非線性的概率模型,因此它對(duì)被試者的分析、對(duì)測(cè)試項(xiàng)目的分析更加細(xì)致與具體,常被視為CTT的升級(jí)。
IRT的3個(gè)假設(shè)如下:
單維性假設(shè):假設(shè)某個(gè)試題只測(cè)量學(xué)生的某一種能力。
獨(dú)立性假設(shè):假設(shè)學(xué)生在每一個(gè)試題上的作答反應(yīng)是相互獨(dú)立的,且作答反應(yīng)只與學(xué)生自身的能力水平有關(guān),與其他因素?zé)o關(guān)。
模型假設(shè):學(xué)生在測(cè)驗(yàn)上的正確作答概率與被試的能力水平可以通過(guò)函數(shù)關(guān)系反應(yīng)。
IRT的核心公式是:
(1)
此公式代表的含義是在當(dāng)前的學(xué)生能力參數(shù)、試題區(qū)分度以及試題難度的情況下,學(xué)生做對(duì)該題的概率。其中,Xji代表第j位學(xué)生做對(duì)第i道題的概率;θj代表第j位學(xué)生的能力參數(shù);αi代表第i道題的區(qū)分度;βi代表第i道題的試題難度。
隨著IRT模型較多地用于實(shí)踐,大家逐漸認(rèn)識(shí)到IRT模型的單維性假設(shè)不符合現(xiàn)實(shí)場(chǎng)景:人們?cè)谕瓿赡稠?xiàng)測(cè)驗(yàn)任務(wù)時(shí)需要多種能力去協(xié)調(diào)配合是吻合的,極少有測(cè)驗(yàn)它只評(píng)定人們單維度的能力[11]。
因此,人們基于項(xiàng)目反應(yīng)理論和因素分析理論發(fā)展出了多維項(xiàng)目反應(yīng)理論。由于其兼?zhèn)淞隧?xiàng)目反應(yīng)理論和因素分析的優(yōu)點(diǎn),多維項(xiàng)目反應(yīng)理論和認(rèn)知診斷、計(jì)算機(jī)化自適應(yīng)測(cè)量共同被看作是當(dāng)代心理測(cè)量理論的3個(gè)重要的發(fā)展方向[12]。
實(shí)用性最好的Logistics多維項(xiàng)目反應(yīng)模型的項(xiàng)目反應(yīng)函數(shù)表達(dá)式為[13]:
(2)
其中,θi=(θi1,θi2,…,θik)表示學(xué)生i的第k維能力的向量;αj=(αj1,αj2,…,αjk)表示試題j在第k維的區(qū)分度的向量;dj表示和MIRT難易程度相關(guān)的參數(shù),它雖和IRT模型的難度參數(shù)不同,但二者可以相互轉(zhuǎn)換;cj表示為試題猜測(cè)度參數(shù)。
DINA模型是一種典型的離散型認(rèn)知診斷模型[14]。該模型結(jié)合Q矩陣,將學(xué)生看作一個(gè)多維的知識(shí)點(diǎn)掌握向量。DINA模型簡(jiǎn)單,易于識(shí)別,且具有很好的模型擬合度,因此具有較好的發(fā)展趨勢(shì)[15]。
DINA模型也是一種潛在性分類模型,適合用于二值記分的項(xiàng)目評(píng)測(cè),從而實(shí)現(xiàn)認(rèn)知診斷[15]。該模型可以診斷被試者的認(rèn)知屬性掌握的概率,相比其他復(fù)雜的、多參數(shù)的模型,DINA模型僅有兩項(xiàng)參數(shù),即“失誤”和“猜測(cè)”。兩項(xiàng)參數(shù)所對(duì)應(yīng)的數(shù)學(xué)符號(hào)為sj(學(xué)生熟練掌握了試題j所考知識(shí)點(diǎn)的情況下丟分的概率)和gj(學(xué)生在未掌握試題j所考知識(shí)點(diǎn)下得分的概率)。在已知學(xué)生i的知識(shí)點(diǎn)掌握情況的前提下,試題j成功答對(duì)的概率表達(dá)式如下所示:
(3)
其中,Yij表示學(xué)生i對(duì)試題j的作答情況;αi=(αi1,αi2,…,αik)表示學(xué)生i的知識(shí)狀態(tài),k代表試題j所考察的知識(shí)點(diǎn)個(gè)數(shù);Pj(αi)為學(xué)生i在知識(shí)狀態(tài)為αi的情況下正確作答試題j的概率;ηij代表學(xué)生i在試題j上面的潛在的作答情況[15]。
傳統(tǒng)的認(rèn)知診斷不能具體清晰地捕捉學(xué)生與試題之間復(fù)雜的關(guān)系,比如IRT模型只能給出學(xué)生單一的能力值、DINA模型對(duì)知識(shí)點(diǎn)掌握程度的評(píng)價(jià)只有掌握和沒(méi)掌握[16]。
而神經(jīng)認(rèn)知診斷框架,通過(guò)將神經(jīng)網(wǎng)絡(luò)用于比較復(fù)雜的非線性交互建模,避免了依賴人工定義的函數(shù)[2]的弊端。該文使用的NeuralCD模型通過(guò)將學(xué)生和試題投影到因子向量,使用多層建模去模擬學(xué)生回答試題這一復(fù)雜的交互,為了保證該神經(jīng)網(wǎng)絡(luò)有良好可解釋性,引入教育理論中的單調(diào)性假設(shè),從傳統(tǒng)的Q矩陣中去提取試題的因子向量,并通過(guò)使用全連接層去保證單調(diào)性。
認(rèn)知診斷模型,通常需要考慮的因素有3個(gè):學(xué)生、試題以及學(xué)生和試題之間的相互作用。NeuralCD框架的結(jié)構(gòu)如圖2所示[1]。
圖2 神經(jīng)認(rèn)知診斷框架
對(duì)于學(xué)生的每一條做題記錄,使用對(duì)應(yīng)學(xué)生和試題的獨(dú)熱編碼作為輸入。學(xué)生和試題的診斷因子被輸入進(jìn)交互層。在框架的全連接層,假設(shè)在學(xué)生知識(shí)水平的任何維度上,正確回答練習(xí)的概率都是單調(diào)遞增(即掌握知識(shí)越多,答對(duì)概率越高)的單調(diào)性假設(shè)來(lái)保證框架的可解釋性。該框架的輸出為學(xué)生個(gè)體正確回答具體一道試題的概率.
(1)學(xué)生因素。
學(xué)生因素即每一位學(xué)生對(duì)每一個(gè)知識(shí)點(diǎn)的熟練程度(即掌握情況,不采用0/1值,而采用0-1之間的連續(xù)值),采用DINA模型中使用的方法,將[0,1]二值變?yōu)檫B續(xù)值[2]。
使用Fs向量來(lái)描述學(xué)生個(gè)體,Fs為知識(shí)熟練度向量,其中每一個(gè)元素都是連續(xù)的,表示具體學(xué)生對(duì)具體一個(gè)知識(shí)點(diǎn)的掌握程度。
(2)試題因素。
試題因素就是試題與知識(shí)點(diǎn)之間的關(guān)系和其他因素這兩類。試題和知識(shí)點(diǎn)之間的關(guān)系是考慮的最基本的因素,其每個(gè)元素對(duì)應(yīng)著所診斷的目標(biāo)的具體的知識(shí)點(diǎn),即知識(shí)相關(guān)向量,用Fkn表示,它的維度和Fs是一樣的,表示試題與知識(shí)點(diǎn)之間的相關(guān)性。其他因素可以使用IRT模型和DINA模型中采用的因素,比如知識(shí)難度、試題難度和試題的區(qū)分度等。
(3)交互函數(shù)。
該文是通過(guò)人工神經(jīng)網(wǎng)絡(luò)來(lái)獲得交互作用函數(shù)的,讓神經(jīng)網(wǎng)絡(luò)從數(shù)據(jù)中去學(xué)習(xí)。神經(jīng)網(wǎng)絡(luò)可以逼近任何連續(xù)函數(shù)并且其強(qiáng)大的擬合能力是可以捕捉到學(xué)生與試題因素之間的復(fù)雜關(guān)系的;其次,神經(jīng)網(wǎng)絡(luò)的交互函數(shù)從數(shù)據(jù)中學(xué)習(xí),使得該模型具有更好的通用性,可以廣泛應(yīng)用推廣。
該模型的輸出公式表達(dá)為:
y=φn(…φ1(Fs,Fkn,Fother,θf(wàn)))
(4)
其中,φi表示多層神經(jīng)網(wǎng)絡(luò)的第i層,Fother就是指試題因素中的其他因素,θf(wàn)表示為神經(jīng)網(wǎng)絡(luò)交互層的模型參數(shù)。
數(shù)據(jù)集選用的是2009-2010 ASSISTment Skill Builder Data這個(gè)最經(jīng)典的認(rèn)知診斷數(shù)據(jù)集,由346 860條記錄以及student id,problem id,tutor mode,skill name,skill id等30個(gè)特征組成。
首先,對(duì)于數(shù)據(jù)集進(jìn)行特征選擇:根據(jù)特征相關(guān)性,篩選出user_id,problem_id,skill_id和correct 4個(gè)特征,并建立4個(gè)特征之間的聯(lián)系。
接著,刪除了答題數(shù)過(guò)少的學(xué)生信息,因?yàn)閷W(xué)生答題數(shù)過(guò)少不能讓模型有效建立答題信息和能力水平之間的關(guān)系,從而無(wú)法正確對(duì)學(xué)生的知識(shí)點(diǎn)掌握情況做出合理診斷。
最后,將經(jīng)過(guò)預(yù)處理的數(shù)據(jù)集按照7∶1∶2的比例劃分訓(xùn)練集、驗(yàn)證集、測(cè)試集。
(1)IRT模型訓(xùn)練采用EM算法,對(duì)P(Xji=1 |θj,αi,βi)進(jìn)行最大似然估計(jì):
E步:根據(jù)當(dāng)前的θ,α,β,求出似然函數(shù)的條件期望。
M步:根據(jù)E步給出的對(duì)數(shù)似然函數(shù)的條件期望,求出新的參數(shù)的值。
(2)模型輸入:訓(xùn)練集。
(3)模型參數(shù):學(xué)生個(gè)數(shù)、試題個(gè)數(shù)、迭代次數(shù)epoch、收斂條件ε。
(4)模型輸出:學(xué)生能力參數(shù)θ、試題區(qū)分度α、試題難度β。
(1)MIRT模型由學(xué)生個(gè)數(shù)、試題個(gè)數(shù)和試題維度這3個(gè)參數(shù)初始化而成。通過(guò)傳入的參數(shù)初始化生成2.2節(jié)所述的θi,αj,dj這3個(gè)向量,分別用θ,a和b來(lái)表示。輸出為:
(5)
其中,°表示哈達(dá)瑪積。
(2)模型輸入:訓(xùn)練集。
(3)模型參數(shù):用戶個(gè)數(shù)、題目個(gè)數(shù)、維度。
(4)模型輸出:被試者能力參數(shù)向量θ、試題區(qū)分度向量α和試題難度d。
DINA模型如圖3所示。
圖3 DINA模型
模型輸入:
(1)學(xué)生-試題矩陣Y(學(xué)生實(shí)際作答信息)。
(2)試題-知識(shí)點(diǎn)矩陣Q(試題所含知識(shí)點(diǎn)信息)。
模型輸出:學(xué)生-知識(shí)點(diǎn)矩陣A(記錄學(xué)生是否掌握知識(shí)點(diǎn))。
NeuralCD模型如圖4所示。
圖4 NeuralCD模型
(1)學(xué)生因素。
每一位學(xué)生都用一個(gè)知識(shí)熟練度向量來(lái)表示,即上面提到的Fs是通過(guò)學(xué)生的獨(dú)熱編碼xs乘上一個(gè)可以訓(xùn)練的矩陣A得到:
Fs=sigmoid(xs,A)
(6)
其中,Fs∈(0,1)1×k,xs∈{0,1}1×n,A∈Rn×k。
(2)試題因素。
對(duì)于每一道試題,Fkn知識(shí)相關(guān)向量是從傳統(tǒng)Q矩陣中獲取Fkn=xe×Q。
其中,xe∈{0,1}1×m是試題的獨(dú)熱編碼表示,Fkn∈(0,1)1×k。
其他因素采用:試題難度hdiff∈{0,1}1×k、試題區(qū)分度hdisc∈(0,1)。
hdiff=sigmoid(xe×B)
(7)
hdisc=sigmoid(xe×C)
(8)
其中,B∈Rm×k和C∈Rm×1。
(3)交互函數(shù)。
交互層的輸入受到MIRT模型的啟發(fā),輸入為:
x=Fkn°(Fs-hdiff)×hdisc
(9)
接下來(lái)的兩個(gè)全連接層和最后的輸出層為:
f1=φ(W1×xT+b1)
(10)
f2=φ(W2×xT+b2)
(11)
f3=φ(W3×xT+b3)
(12)
其中,φ表示激活函數(shù),這里采用sigmoid函數(shù)。
該文采用了一個(gè)比較簡(jiǎn)單的方法來(lái)滿足單調(diào)性假設(shè):就是限制W1,W2,W3的每個(gè)元素為正。
模型的損失函數(shù)采用輸出的預(yù)測(cè)值和真實(shí)值之間的交叉熵:
(13)
上述提到的A,B,C都是可訓(xùn)練的參數(shù)矩陣,分別代表學(xué)生對(duì)知識(shí)點(diǎn)的掌握程度、試題和知識(shí)點(diǎn)的相關(guān)度和試題的區(qū)分度。
該文選用Precision,Recall,F1_score和Accuracy 4個(gè)指標(biāo)作為模型誤差分析的評(píng)判標(biāo)準(zhǔn):
(14)
(15)
(16)
(17)
其中,TP代表被模型預(yù)測(cè)為正類的正樣本,FP代表被模型預(yù)測(cè)為正類的負(fù)樣本,FN代表被模型預(yù)測(cè)為負(fù)類的正樣本,TN代表被模型預(yù)測(cè)為負(fù)類的負(fù)樣本。
圖5為4個(gè)模型在相同測(cè)試集上的Precision,Recall,F1_score和Accuracy。可以看出:
圖5 不同模型測(cè)試集結(jié)果展示
在Precision上:IRT>NeuralCD>MIRT>DINA;
在Recall上:NeuralCD>IRT>MIRT>DINA;
在F1_score上:NeuralCD>IRT>MIRT>DINA;
在Accuracy上:NeuralCD>IRT>MIRT>DINA。
綜合4個(gè)指標(biāo)來(lái)看:
NeuralCD>IRT>MIRT>DINA
NeuralCD模型效果最好的原因是它采用神經(jīng)網(wǎng)絡(luò)為核心結(jié)構(gòu),通過(guò)神經(jīng)網(wǎng)絡(luò)強(qiáng)大的擬合能力使其能夠從數(shù)據(jù)中學(xué)到更為復(fù)雜且貼近現(xiàn)實(shí)的交互函數(shù),因此它比其余3個(gè)模型具有更強(qiáng)的泛用性,也具有更強(qiáng)的擬合能力,效果也更好。
IRT模型是基于單維性假設(shè)和獨(dú)立性假設(shè)的,因此在該模型中得到的學(xué)生能力參數(shù),是一個(gè)具體的數(shù)值,該數(shù)值僅描述的是當(dāng)前學(xué)生在當(dāng)前這一道試題上的能力。
MIRT模型是對(duì)IRT模型的一個(gè)擴(kuò)展,因?yàn)樵趯?shí)際的認(rèn)知診斷過(guò)程中,試題之間是存在關(guān)聯(lián)的。而要正確回答一道試題需要學(xué)生多方面能力間的相互作用。所以MIRT模型會(huì)得到的學(xué)生能力參數(shù)向量,表示該學(xué)生在多個(gè)維度上分別的能力值。
這兩個(gè)模型理論上只是根據(jù)我們訓(xùn)練集的數(shù)據(jù)訓(xùn)練得出學(xué)生的“能力值”,盡管MIRT模型可以將維度的大小定為總的知識(shí)點(diǎn)個(gè)數(shù),但是并沒(méi)有體現(xiàn)出學(xué)生對(duì)于這個(gè)知識(shí)點(diǎn)的具體掌握程度。
而DINA和NeuralCD這兩個(gè)模型,加入了知識(shí)點(diǎn)和每一道試題之間的關(guān)系,即人工標(biāo)注的Q矩陣(描述了每道試題考察了哪些知識(shí)點(diǎn))。
DINA模型雖然引入了Q矩陣,但是從結(jié)果上來(lái)看,將學(xué)生對(duì)知識(shí)點(diǎn)的掌握程度進(jìn)行0/1劃分,即對(duì)于一個(gè)知識(shí)點(diǎn)只有掌握和沒(méi)掌握這兩種情況。雖然有效解決了IRT模型和MIRT模型無(wú)法體現(xiàn)對(duì)知識(shí)點(diǎn)掌握情況的這一問(wèn)題,但是最后體現(xiàn)的掌握情況過(guò)于絕對(duì),不符合實(shí)際的教學(xué)評(píng)估標(biāo)準(zhǔn)。
最新提出的NeuralCD模型利于神經(jīng)網(wǎng)絡(luò)的架構(gòu)來(lái)進(jìn)行認(rèn)知診斷,但是NeuralCD模型與傳統(tǒng)的神經(jīng)網(wǎng)絡(luò)認(rèn)知診斷最大的不同在于它打破了神經(jīng)網(wǎng)絡(luò)難以獲得可解釋性結(jié)果的特性。在輸入層中包含知識(shí)熟練度向量Fs和試題相關(guān)向量Fkn按元素相乘得到的結(jié)果,即保證Fs中的每一維和Fkn中對(duì)應(yīng)維的知識(shí)點(diǎn)是相對(duì)應(yīng)的,同時(shí)在連接層通過(guò)單調(diào)性假設(shè)使得可以輸出學(xué)生的知識(shí)掌握程度。
因此,從模型得到的結(jié)果的可解釋性角度來(lái)看,IRT模型和MIRT模型得到的結(jié)果僅僅是學(xué)生能力的描述,沒(méi)有引入試題和知識(shí)點(diǎn)的關(guān)系,因此并沒(méi)有體現(xiàn)出學(xué)生對(duì)知識(shí)的掌握情況。DINA模型雖然體現(xiàn)了掌握情況,但0/1描述過(guò)于絕對(duì),不符合現(xiàn)實(shí)情況下對(duì)學(xué)生學(xué)習(xí)狀態(tài)的評(píng)估。而NeuralCD模型得到的學(xué)生認(rèn)知狀態(tài)是用連續(xù)值進(jìn)行描述,更加準(zhǔn)確具體,具有高度的可解釋性。
所以在可解釋性上:
NeuralCD>DINA>MIRT>IRT
經(jīng)過(guò)對(duì)4個(gè)模型的分析,得出以下結(jié)論:
(1)IRT模型、MIRT模型和DINA模型都是傳統(tǒng)的認(rèn)知診斷模型,其中IRT模型和MIRT模型基于連續(xù)值,DINA模型基于離散值。而NeuralCD模型是基于神經(jīng)網(wǎng)絡(luò)架構(gòu)的。
(2)在交互函數(shù)上3個(gè)傳統(tǒng)認(rèn)知診斷模型依賴于人工所定義的函數(shù),采用邏輯回歸函數(shù)或者是向量的內(nèi)積,而NeuralCD模型是通過(guò)神經(jīng)網(wǎng)絡(luò)去學(xué)習(xí)數(shù)據(jù),不再依賴于人工定義的交互函數(shù)。
(3)IRT模型和MIRT模型診斷的結(jié)果表現(xiàn)為學(xué)生的“能力”值。因?yàn)閮蓚€(gè)模型并未引入Q矩陣,所以并不能準(zhǔn)確體現(xiàn)出學(xué)生對(duì)知識(shí)點(diǎn)的掌握情況。
(4)DINA模型和NeuralCD模型引入Q矩陣后實(shí)現(xiàn)了學(xué)生對(duì)于知識(shí)點(diǎn)的掌握,但是DINA模型得到學(xué)生對(duì)于一個(gè)知識(shí)點(diǎn)掌握的結(jié)果只是0(未掌握)和1(掌握),而NeuralCD模型得到的結(jié)果是[0,1]這個(gè)區(qū)間內(nèi)的值,符合現(xiàn)實(shí)教育中對(duì)于知識(shí)點(diǎn)的掌握是階段性的實(shí)際情況。
(5)將NeuralCD模型的Q矩陣變?yōu)橐粋€(gè)等維度的單位矩陣,將多層神經(jīng)網(wǎng)絡(luò)求和后再使用sigmoid函數(shù)激活,NeuralCD模型就變成了MIRT模型。
(6)IRT模型診斷的其實(shí)是學(xué)生的單一做題記錄,MIRT模型、DINA模型和NeuralCD模型診斷的是學(xué)生的多個(gè)歷史做題記錄,是多交互的診斷過(guò)程。
上述結(jié)論也并不表示NeuralCD模型就可以完全替代其它3個(gè)模型所具有的效果。從目前在教育領(lǐng)域的認(rèn)知診斷來(lái)看,有整體的診斷,也存在對(duì)具體一個(gè)階段的診斷,因此,對(duì)于認(rèn)知診斷模型的選取有如下建議:
(1)NeuralCD模型適合用于大樣本數(shù)據(jù),是對(duì)學(xué)生之前歷史做題記錄的總結(jié)診斷,并且知識(shí)點(diǎn)覆蓋是較大的,全面的診斷工作。
(2)IRT模型適合用于在教育中對(duì)具體一個(gè)知識(shí)點(diǎn)相關(guān)的習(xí)題測(cè)試中,根據(jù)學(xué)生對(duì)習(xí)題回答的正確與否來(lái)估計(jì)學(xué)生在這一知識(shí)點(diǎn)上所具有的能力值。
(3)MIRT模型適合用于在知識(shí)點(diǎn)個(gè)數(shù)已知,考查學(xué)生在與這些知識(shí)點(diǎn)相關(guān)聯(lián)的習(xí)題中的作答情況,分析出學(xué)生在這幾個(gè)知識(shí)點(diǎn)上所具有的能力值。
(4)DINA模型適合用于對(duì)二值計(jì)分測(cè)驗(yàn)進(jìn)行認(rèn)知診斷,如一場(chǎng)考試中的判斷題只有兩種答案的場(chǎng)景,用DINA模型可以獲得較高的認(rèn)知準(zhǔn)確度。
首先,介紹了認(rèn)知診斷的基本概念、研究目的、歷史發(fā)展以及研究現(xiàn)狀;接著,基于研究開(kāi)源的數(shù)據(jù)資料建立了IRT等4個(gè)認(rèn)知診斷模型,并對(duì)4個(gè)模型在相同數(shù)據(jù)集上的認(rèn)知準(zhǔn)確度和模型可解釋性能力進(jìn)行對(duì)比;最終,得出NeuralCD模型認(rèn)知準(zhǔn)確度最高且具有最好的可解釋性的結(jié)論。此外,通過(guò)調(diào)研和實(shí)驗(yàn)總結(jié)出不同模型的適用場(chǎng)景,為認(rèn)知診斷研究提供了新視角。
但是,該文僅研究了學(xué)生的答題準(zhǔn)確率與學(xué)生能力水平以及題目信息的關(guān)系。未來(lái),希望探究不同因素對(duì)學(xué)生知識(shí)點(diǎn)掌握程度的影響以及學(xué)生掌握知識(shí)點(diǎn)的普遍練習(xí)次數(shù)等,從多因素多角度進(jìn)行認(rèn)知診斷,推動(dòng)認(rèn)知診斷研究領(lǐng)域的發(fā)展。