王立東,郭 衎,孟 夢
?
認知診斷理論在數(shù)學(xué)教育評價中的應(yīng)用
王立東1,郭 衎2,孟 夢3
(1.中國人民大學(xué)附屬中學(xué),北京 100080;2.北京師范大學(xué)數(shù)學(xué)科學(xué)學(xué)院,北京 100875;3.西南大學(xué)數(shù)學(xué)與統(tǒng)計學(xué)院,重慶 400715)
質(zhì)性地比較論證了基于認知診斷理論的數(shù)學(xué)教育評價工具開發(fā)的可行性.通過分析實際測試數(shù)據(jù),比較幾種不同認知診斷模型中的參數(shù)估計方法實際應(yīng)用于分析數(shù)學(xué)評價測驗的可能性.研究發(fā)現(xiàn),認知屬性概念可以幫助研究者和實踐者分析影響學(xué)生解答數(shù)學(xué)題目背后的認知結(jié)構(gòu).人工神經(jīng)網(wǎng)絡(luò)模型能夠充分利用理論設(shè)計的認知模型,克服測驗題目有限、題型多樣、認知屬性差異大等不易分析的困難,較好評價學(xué)生的數(shù)學(xué)學(xué)業(yè)成就,為后續(xù)教學(xué)提供診斷性信息,達到了診斷性測驗的目的.
數(shù)學(xué)教育評價;多維評分;認知診斷模型;屬性層次模型;人工神經(jīng)網(wǎng)絡(luò)模型
通常的數(shù)學(xué)測驗只給出一個籠統(tǒng)的測驗分數(shù),而對于具有相同分數(shù)的學(xué)生,既不易區(qū)分他們可能具有的不同數(shù)學(xué)認知結(jié)構(gòu)[1],也沒有具體給出學(xué)生在數(shù)學(xué)學(xué)習(xí)的哪個方面存在不足.在教育研究中,這種測驗分數(shù)無法提供精細化的學(xué)生學(xué)業(yè)成就評價;在教學(xué)實踐中,這種測驗分數(shù)對于后續(xù)數(shù)學(xué)教學(xué)的指導(dǎo),也往往依賴于教師對于試卷的經(jīng)驗性分析.
心理測量學(xué)中的認知診斷理論(Cognitive Diagnose: CD)依據(jù)測量學(xué)理論和統(tǒng)計分析技術(shù)給出了對于學(xué)生學(xué)習(xí)狀況的標準化多維評價,為后續(xù)的教學(xué)實踐提供了精細化的指導(dǎo)信息.心理學(xué)工作者開發(fā)了多種認知診斷模型和技術(shù),如規(guī)則空間模型(Rule Space Model: RSM)[2]、DINA模型[3]、屬性層次模型(Attribute Hierarchy Method: AHM)[4]等.在具體的模型下,又有多種不同的統(tǒng)計分析方法,如在AHM模型的理論框架下,就有多種屬性掌握概率的參數(shù)估計方法[5].
研究將以大規(guī)模七年級學(xué)生代數(shù)學(xué)業(yè)成就測試的編制與實施為案例,嘗試將認知診斷理論中的AHM模型應(yīng)用于數(shù)學(xué)學(xué)業(yè)成就的診斷性評價中,通過質(zhì)性分析論證其應(yīng)用于數(shù)學(xué)教育理論與實踐的可行性.
2.1 AHM模型概述
AHM模型是在規(guī)則空間模型的基礎(chǔ)上發(fā)展起來的一種重要的認知診斷模型.該方法的核心概念是認知屬性(Attribute),對于該概念,心理測量界有多種描述,但詳細考察其間沒有本質(zhì)上的區(qū)別.綜合Tatsuoka(2009)、Leighton等(2004)的觀點,認知屬性可以被認為是一般性的知識與認知技能,或程序與陳述性知識,在課程標準為教學(xué)目標的教學(xué)系統(tǒng)中,可以將屬性等同于課程標準中的具體教學(xué)目標的條目.在數(shù)學(xué)背景下的認知屬性可以是具體的數(shù)學(xué)知識(如掌握有理數(shù)的定義)、技能(如能夠求解二元一次方程組),也可以是相對抽象的數(shù)學(xué)思想(如數(shù)學(xué)類比的思想)等.它是一種將考生在測驗項目上的作答情況與特定認知屬性掌握情況建立數(shù)量關(guān)系的統(tǒng)計方法,進而能夠?qū)τ趯W(xué)生學(xué)業(yè)成就進行多維度評價,為后續(xù)的教學(xué)提供診斷信息(指出學(xué)生在哪個認知屬性的掌握上存在不足)[6].
該方法以認知結(jié)構(gòu)理論為基礎(chǔ),在操作上,先由學(xué)科專家確定要測量的各個認知屬性及其層次關(guān)系,將此作為指導(dǎo)測驗編制的認知結(jié)構(gòu)模型.如:圖1表示分別被稱為直線型和收斂型的認知結(jié)構(gòu)模型,各自由4個和6個需要測量的認知屬性組成.
(直線型)
(收斂型)
圖1 屬性層次結(jié)構(gòu)圖示例
在數(shù)學(xué)學(xué)習(xí)上,這若干個認知屬性應(yīng)存在邏輯先決關(guān)系(由箭頭表示),如A1A2表示學(xué)生掌握A2屬性必須是以掌握A1屬性為前提(如掌握二元一次方程組的解法必須是以掌握一元一次方程解法為基礎(chǔ)),即直接的先決關(guān)系.
這樣在測量高級屬性的過程,可以提供低級屬性的測量信息.如,正確回答二元一次方程題目的學(xué)生,可被判定是掌握了二元一次方程屬性,同時,也在一定程度上掌握了一元一次方程屬性.此外,正確回答了一元一次方程題目,但錯誤回答二元一次方程題目的學(xué)生,要比錯誤回答了一元一次方程題目和二元一次方程題目的學(xué)生在二元一次方程屬性的掌握情況上更好(雖然他們錯誤地回答了二元一次方程題目).
在屬性層級關(guān)系的基礎(chǔ)上,可以獲得一個可達矩陣(Reachability Matrices):表示各屬性間的直接或間接的先決關(guān)系.
在可達矩陣的基礎(chǔ)上,通過擴張算法(丁樹良等,2009)[7]得到包含各類可能的屬性組合的完全的矩陣,該矩陣建立了題目與屬性的關(guān)系.
基于這個過程設(shè)計的題目能夠整合已有的認知理論對于各類屬性層次結(jié)構(gòu)的認識,可以從內(nèi)容效度的角度保證了所設(shè)計的測驗?zāi)軌驕y量、區(qū)分學(xué)生不同的認知結(jié)構(gòu).
通過矩陣,可以獲得若干個學(xué)生的期望反應(yīng)模式,這個模式假設(shè)學(xué)生完全依照認知模型作答,不受任何隨機因素(如猜測,發(fā)揮失常等)影響.也可以獲得與期望反應(yīng)模式相對應(yīng)的屬性掌握模式(即在理想狀態(tài)下,具有某種屬性掌握模式的學(xué)生的答題結(jié)果是期望反應(yīng)模式).如圖1中,直線型結(jié)構(gòu)給出的認知結(jié)構(gòu)樣例中,學(xué)生應(yīng)有4種理想的反應(yīng)模式包括(1, 0, 0, 0)、(1, 1, 0, 0)、(1, 1, 1, 0)、(1, 1, 1, 1),其中4個數(shù)字分別表示學(xué)生回答4道試題(由矩陣決定)的正誤情況.即按照圖1中的層次關(guān)系,在理想的情況下,學(xué)生如果正確回答了第二題,在無其它隨機因素影響的前提下,應(yīng)正確地回答第一題.對應(yīng)的屬性掌握模式為(1, 0, 0, 0),即僅答對第一題的學(xué)生在理想狀態(tài)下,應(yīng)是僅掌握第一個認知屬性.
在教育實踐中,學(xué)生對于某種屬性的掌握情況無法僅由掌握和不掌握來描述,同時實際答題的過程中還受到許多隨機因素的影響.AHM模型可以基于學(xué)生的實際答題情況(稱為反應(yīng)類型),如:(1, 0, 0, 1)代表學(xué)生正確回答第一、第四題,錯誤回答了第二、第三題.AHM模型通過估計屬性掌握概率(對于各個屬性掌握情況都用一個屬于[0, 1]的數(shù)來刻畫)更加細致地刻畫屬性掌握情況,如(0.1, 0.5, 0, 0.8)可代表學(xué)生對于4個認知屬性的掌握情況(該學(xué)生較好地掌握了第四個屬性,對于第二個屬性掌握一般,沒有掌握第一、第三個屬性).認知診斷模型對于學(xué)習(xí)者在某個屬性上的掌握情況做出判斷,進而從中獲得反饋指導(dǎo)相應(yīng)的教學(xué)(如學(xué)生在第一、第三個認知屬性的學(xué)習(xí)上需要重點加強,補充學(xué)習(xí)).
2.2 測驗框架設(shè)計與試題編制
評價模式選擇為標準參照的診斷性評價,以課程標準中的有關(guān)數(shù)學(xué)教學(xué)內(nèi)容的具體條目為測量目標,將其作為AHM模型中的認知屬性.
在征詢了部分一線教學(xué)專家的意見的基礎(chǔ)上,將七年級的代數(shù)和幾何內(nèi)容分開編制測試問卷.(由于在七年級的教學(xué)要求中,代數(shù)幾何的綜合內(nèi)容可以忽略不計,同時忽略統(tǒng)計教學(xué)內(nèi)容和一次不等式(組)的教學(xué)內(nèi)容.由于在七年級第二學(xué)期期中考試后(5月底,6月初)對于學(xué)生進行測量,按照基本教學(xué)計劃,多數(shù)學(xué)校還未教授這兩個內(nèi)容.)
針對代數(shù)測試卷(編碼為卷Ⅰ)先在16個涉及代數(shù)的屬性中(不包括不等式的內(nèi)容)由多位有中學(xué)教學(xué)經(jīng)驗的數(shù)學(xué)教育專業(yè)博士生從上述屬性中,抽取認為處于核心知識地位的8個屬性(總數(shù)的50%),具體見表2.
表2 代數(shù)內(nèi)容認知屬性
在此基礎(chǔ)上,得到各測試卷認知模型.屬性層次結(jié)構(gòu)圖見圖2.
圖2 屬性層次結(jié)構(gòu)
以上屬性層次結(jié)構(gòu)給出了需要測量的8個屬性的層次結(jié)構(gòu)關(guān)系,如掌握屬性A1.1是掌握屬性A1.2和A1.3的直接先決條件.
用矩陣的形式給出如圖2所示結(jié)構(gòu)圖,得到如表3所示的可達矩陣.
表3 可達矩陣(卷Ⅰ)
在可達矩陣的基礎(chǔ)上,獲得縮減矩陣.這個矩陣考慮了8個具體層級關(guān)系屬性理論上可以在相關(guān)題目中實現(xiàn)各種組合情況,同時也考慮到了數(shù)學(xué)學(xué)科內(nèi)容的特點,包括按照理論上的屬性搭配模式編制的問題可能不是在初中范圍內(nèi)實質(zhì)上的,有意義、有價值的數(shù)學(xué)問題(如強行將兩個數(shù)學(xué)內(nèi)容聯(lián)系在一起或者產(chǎn)生如二元一次方程組與絕對問題相結(jié)合的難度過大的題目),或者這些問題是否過于復(fù)雜、難度過大的問題,同時也考慮是否會造成試卷過長的問題.如是否考慮屬性A1.2(相反數(shù)與絕對值內(nèi)容)會造成題目大量增加(因為A1.2相對“獨立”).
在可達矩陣的基礎(chǔ)上,獲得了如下的縮減矩陣(包括11類題目),如表4所示.
表4 縮減Q矩陣(卷Ⅰ)
上述矩陣表明,在開發(fā)測驗中,需要編制11類題目.
在此基礎(chǔ)上,形成卷Ⅰ的各個測試題目.
正確回答該題目需要掌握涉及A1.1和A1.2兩個屬性的知識與能力.正確回答該問題說明學(xué)生較好地掌握了屬性A1.1(有理數(shù)的意義、數(shù)軸上的點表示有理數(shù)、比較有理數(shù)的大?。┖蛯傩訟1.2(會求有理數(shù)的相反數(shù)與絕對值(絕對值符號內(nèi)不含字母)).
2.3 屬性掌握分數(shù)的參數(shù)估計模型
針對如何通過學(xué)生的題目反應(yīng)模式獲得學(xué)生對于各個屬性的掌握分數(shù)的問題,現(xiàn)有文獻提供了多種針對AHM模型的參數(shù)估計方法.
方法一:Leighton, et al(2004)提出了依據(jù)“滑動”(slips),觀測反應(yīng)模式(Observed Response Pattern)向期望反應(yīng)模式判定的方式中的A方法,結(jié)合Tatsuoka(2009)中屬性掌握概率的概念獲得一個新的屬性掌握分數(shù)估計方法,具體過程如下:
計算其由某個特定的期望反應(yīng)模型“滑動”而來的后驗似然:
方法二:朱金鑫等(2009)[8]提出了非IRT的屬性掌握概率的估計方法.首先,計算學(xué)生在包含屬性的項目中答對的比例,利用這個比例估計學(xué)生掌握某個屬性的概率,同時將答對某個項目的概率定為該項目涉及的所有屬性掌握概率估計的乘積,這個項目答對的概率可以修正上述學(xué)生掌握某個屬性的估計,進而獲得學(xué)生在某個屬性掌握概率的
估計:
朱金鑫等(2009)認為這個估計方法可以消除屬性間的影響,但研究者認為屬性間可能存在的影響恰恰可以為屬性掌握情況的估計提供更為豐富的信息.如:如正確回答二元一次方程的學(xué)生,即使在求解一元一次方程的題目中出錯,但在有關(guān)一元一次方程的認知屬性的評價中,應(yīng)當考慮屬性層次提供的信息,不應(yīng)評為0.
方法三:Gierl, et.al(2007),(2008)[9]提出了應(yīng)用人工神經(jīng)網(wǎng)絡(luò)學(xué)習(xí)模型(Artificial Neural Networks,以下簡稱ANN)估計屬性掌握概率的方法.ANN方法是由生物神經(jīng)網(wǎng)絡(luò)啟發(fā)的計算模型,包含多組不連接的人工神經(jīng)元.在學(xué)習(xí)的過程中,通?;趦?nèi)部或外部的信息修正激發(fā)函數(shù).通常被用來建立輸入與輸出的復(fù)雜關(guān)系以發(fā)現(xiàn)數(shù)據(jù)的模型.
該方法采用Logistic函數(shù)(S型曲線)作為隱藏層(Hidden Layer)和輸出層(Output Layer)的激發(fā)函數(shù)(Activition Function):
可以看到該種方式的模型決定了各個項目的結(jié)果都為各個屬性掌握的結(jié)果的估計提供了信息,這就建立了屬性之間的聯(lián)系,可用學(xué)生的答題情況估計學(xué)生的屬性掌握情況.
下文將基于一個實證大樣本調(diào)查研究的數(shù)據(jù)比較上述3種參數(shù)估計方法的運算結(jié)果,質(zhì)性地論證將認知診斷理論應(yīng)用于數(shù)學(xué)教育評價的可行性.
針對性地搜集了理論框架設(shè)計所需的數(shù)據(jù),從而保證了研究的系統(tǒng)性.數(shù)據(jù)來自北京師范大學(xué)與美國Vanderbilt大學(xué)的MIST-CHINA國際合作項目的數(shù)據(jù)庫,樣本來自中國3個大城市學(xué)區(qū)的教師與學(xué)生.
用分層隨機抽樣的方法從重點中學(xué)(示范中學(xué))與非重點中學(xué)(普通中學(xué))中近似隨機選擇若干所初級中學(xué)(包括完全中學(xué)的初中部).從每所學(xué)校的七年級隨機選取5~7名數(shù)學(xué)教師作為教師樣本,選取每位教師教授的一個班的學(xué)生為學(xué)生樣本(隨機選擇每位教師的一半的學(xué)生完成代數(shù)測試),有效數(shù)據(jù)為:1?304名學(xué)生的代數(shù)測試數(shù)據(jù).
利用實際施測數(shù)據(jù)對于幾種方法進行了比較,討論了各種方法的差異,進而獲得了適合該研究數(shù)據(jù)分析的相對高效度的分析方法.
嘗試一:利用綜述中的方法一獲得對于學(xué)生屬性掌握分數(shù)的估計,每個學(xué)生的屬性掌握情況由一個八維向量來表示,但通過計算各個維度屬性掌握分數(shù)的相關(guān)系數(shù),發(fā)現(xiàn)該方法在分析研究數(shù)據(jù)的計算結(jié)果存在一定的問題,如表5所示.
表5 屬性掌握分數(shù)的相關(guān)性的案例
通過相關(guān)分析,學(xué)生在某些屬性的掌握概率與另外一些屬性的掌握概率呈現(xiàn)負相關(guān)(如表5中用下劃線標識的),而且相關(guān)系數(shù)較大(統(tǒng)計顯著),項目反應(yīng)理論(IRT)估計的學(xué)生數(shù)學(xué)能力數(shù)值(在表格中以BILGdata表示)與部分屬性能力數(shù)值呈現(xiàn)負相關(guān)的現(xiàn)象.
這種現(xiàn)象與教育實踐經(jīng)驗無疑是不相符的,通常的認識是在同一個領(lǐng)域的學(xué)習(xí)中,不同的內(nèi)容間的學(xué)習(xí)情況在一個群體中應(yīng)當是具有一定的一致性的,呈現(xiàn)強負相關(guān)的情況無疑是值得懷疑的.
這是由于在對于學(xué)生進行多維認知評價的時候使用具有單維假設(shè)(假設(shè)學(xué)生的能力能夠用一個數(shù)值來表示)的IRT模型所帶來的問題.即在計算滑動似然的時候,單維的IRT模型不易精確刻畫相應(yīng)的似然,同時此研究的測試在使用IRT分析時,鑒于實際作答情況,采取了3參數(shù)的IRT模型(有兩道非選擇試題也做了3參數(shù)分析),這在某種程度上降低了IRT分析的精確性.
從這個意義上講,對于項目反應(yīng)理論模型估計參數(shù)效果不佳,即具有一定數(shù)量的非選擇題,并且涉及的知識內(nèi)容較為寬泛(屬性之間的差異較大,不滿足IRT的單一維度假設(shè))的測驗,不宜采用上述模型分析.
在這樣的情況下,嘗試不基于IRT模型的分析方法.
嘗試二:利用綜述中的方法二,其估計結(jié)果不存在上一方法中所出現(xiàn)的負相關(guān)和估計值過小的問題.但出現(xiàn)一個新的問題,即部分涉及項目較少的屬性的掌握分數(shù)估計結(jié)果較為單一(只有3種分數(shù),對應(yīng)3種屬性掌握情況),如屬性A4.3(有兩個題目涉及),不易區(qū)分出學(xué)生對于該屬性的不同掌握情況.屬性A4.3的掌握分數(shù)估計結(jié)果見表6.
表6 屬性A4.3的掌握分數(shù)估計結(jié)果
這種單一的現(xiàn)象使得對于某些屬性的掌握分數(shù)的估計過于依賴單一的題目,而忽略了各個屬性之間的相關(guān)性對于估計某些屬性掌握概率的貢獻,如有理由期望在低一層次掌握較好的學(xué)生比掌握較差的學(xué)生更有可能掌握更為高級的屬性(恰恰后文分析的神經(jīng)網(wǎng)絡(luò)模型可以實現(xiàn)這點).這種現(xiàn)象是由于對于屬性A4.3僅有兩道題目測試,造成分母值較為單一.
同時,該結(jié)果出現(xiàn)了低水平屬性和高水平屬性能力“倒掛”的現(xiàn)象,如所有學(xué)生屬性A1.1的屬性能力的均值為0.045?087,作為最基礎(chǔ)需要掌握的屬性,其得分反而低于其它所有的屬性,這無疑有悖于教育經(jīng)驗.出現(xiàn)這種現(xiàn)象的原因是因為該種估計方法依賴于項目的數(shù)量,由于測試條件限制(時間限制),代數(shù)測試的項目數(shù)量有限,這就使得隨機因素影響了參數(shù)估計結(jié)果.同時這也是一種基于實際數(shù)據(jù)的模型,拋開了屬性的層級結(jié)構(gòu)的假設(shè),因此產(chǎn)生了“倒掛”現(xiàn)象的可能.
從這個意義上講,對于題目數(shù)量有限但需要評價的認知屬性較多(且相關(guān)關(guān)系“緊密”)的測驗,該評價方法不易充分利用理論設(shè)計中的認知結(jié)構(gòu)模型來高效度地測量學(xué)生的屬性掌握情況.
分析上述不足,研究者嘗試第三種參數(shù)估計方式:
將20個與期望屬性掌握模式相對應(yīng)的期望反應(yīng)模式(由矩陣生成的學(xué)生對于各個屬性的掌握的各種情況(對于每種屬性僅限制于沒有掌握和完全掌握兩種情況))作為樣本(Examplers),即20個十二維向量做為模型訓(xùn)練的輸入.而將20個期望反應(yīng)模式作為期望變量(Desired Varibales),即20個八維向量作為模型訓(xùn)練的輸出.
選擇SPSS16.0的默認設(shè)置(如,多層感知器(Multilayer Perceptron)過程,Batch類型的訓(xùn)練類型,自動生成隱藏層單元數(shù)等),獲得估計結(jié)果,形成權(quán)重矩陣.這個權(quán)重矩陣和激發(fā)函數(shù)即作為連接前文所述實際反應(yīng)模式與屬性能力的映射.注意這是一個基于理論假設(shè)而非基于數(shù)據(jù)的模型.
進而將學(xué)生的項目反應(yīng)作為向量,輸入屬性能力,SPSS自動生成了16個隱藏層:即學(xué)生的8個屬性掌握能力的八維向量到一個虛擬隱藏層的十六維向量再到學(xué)生答題結(jié)果(12道題)的十二維向量的映射,從而可以通過學(xué)生的答題結(jié)果回歸估計學(xué)生的屬性掌握能力.
需要注意的是,這是一種不受數(shù)據(jù)影響的估計方法,其參數(shù)估計完全基于測驗內(nèi)容的理論設(shè)計(不由實測數(shù)據(jù)估計參數(shù)的模型),而不受到學(xué)生回答情況的影響,因此相對于施測情況不是特別理想的測驗(如學(xué)生不認真作答)相對有效.
表5的數(shù)據(jù)表明模型的擬合較好.
表5 模型擬合指標
對于前述兩個模型出現(xiàn)的問題,神經(jīng)網(wǎng)絡(luò)模型都提供了很好的解決方法.各個屬性之間呈現(xiàn)正向相關(guān).這個結(jié)果與周超(2009)[10]的研究結(jié)果相一致(雖然對于認知水平的認識和處理方式(如基于題目和基于教學(xué)目標、內(nèi)容)有所差異).
神經(jīng)網(wǎng)絡(luò)模型能夠很好地利用各個屬性之間的聯(lián)系(特別是層次結(jié)構(gòu)關(guān)系)來更精細地估計屬性分數(shù).不同題目的反應(yīng)對通過權(quán)重為屬性分數(shù)的估計提供了貢獻.例如:對于兩個都錯誤地回答了A4.3有關(guān)的題目的學(xué)生,很好地掌握了屬性A4.3上位屬性(包括A1.1、A1.3、A1.4、A3.2、A4.2)的學(xué)生對于A4.3的掌握情況,估計很可能好于未能很好地掌握這些屬性的學(xué)生.
通過上述分析,可以看到,對于有如下特征的測驗,人工神經(jīng)網(wǎng)絡(luò)模型能夠很好的分析.(1)基于認知結(jié)構(gòu)模型設(shè)計的;(2)題目數(shù)量有限;(3)要測量的屬性較為寬泛;(4)題型豐富(選擇,填空,解答)且不易用IRT模型分析.
至此,應(yīng)用人工神經(jīng)網(wǎng)絡(luò)模型可以獲得對于學(xué)生在各個數(shù)學(xué)學(xué)習(xí)目標(認知屬性)的學(xué)習(xí)評價結(jié)果,每位同學(xué)都得到了一個標準化的成績報告,包括其在8個代數(shù)學(xué)習(xí)內(nèi)容上的評分.這個成績報告可以為后續(xù)教學(xué)實踐活動提供指導(dǎo),如:為教學(xué)質(zhì)量提供系統(tǒng)的反饋,針對性地設(shè)計“補償性”教學(xué)(包括采用“微課”等信息技術(shù)的方式).
通過測試工具的編制與實施的過程分析可以看到,認知診斷可以幫助數(shù)學(xué)教育工作者系統(tǒng)地設(shè)計結(jié)構(gòu)效度較高的診斷性測驗工具.認知屬性概念,可以幫助研究者和實踐者分析影響學(xué)生解答數(shù)學(xué)題目背后的認知結(jié)構(gòu).同時,通過比較幾種參數(shù)估計方法,找到可以相對合理的對測驗結(jié)果數(shù)據(jù)進行多維分析的統(tǒng)計模型——人工神經(jīng)網(wǎng)絡(luò)模型.該模型能夠充分地利用理論設(shè)計的認知模型,克服測驗題目有限、題型多樣、認知屬性差異大等不易分析的困難,較好地評價學(xué)生的數(shù)學(xué)學(xué)業(yè)成就,為后續(xù)教學(xué)提供診斷性信息,達到了診斷性測驗的目的.
這些評價數(shù)據(jù)信息不僅可以用于有針對性的教學(xué)改進,也為大樣本教育政策研究,如教育效能、學(xué)校效能、教師效能研究等,提供了精細的學(xué)生評價數(shù)據(jù).
[1] 涂冬波,蔡艷,戴海崎,等.現(xiàn)代測量理論下四大認知診斷模型述評[J].心理學(xué)探新,2008,(2):64-68.
[2] Tatsuoka K K.[M]. New York and London: Routledge Taylor & Francis Group, 2009.
[3] 孫佳楠,張淑梅,辛濤,等.基于矩陣和廣義距離的認知診斷方法[J].心理學(xué)報,2011,(9):1?095-1?102.
[4] Leighton J P, Gierl M J, Hunka S M. The Attribute Hierarchy Method for Cognitive Assessment: A Variation on Tatsuoka’s Rule-Space Approach [J]., 2004, 41(3): 205-237.
[5] 王立東.數(shù)學(xué)教師對學(xué)生學(xué)業(yè)成就的影響研究[D].北京師范大學(xué),2012.
[6] 朱文芳.俄羅斯數(shù)學(xué)教育評價改革的動態(tài)與研究[J].課程·教材·教法,2006,(2):90-92.
[7] 丁樹良,祝玉芳,林海菁,等.Tatsuoka矩陣理論的修正[J].心理學(xué)報,2009,(41):175-181.
[8] 朱金鑫,張淑梅,辛濤.屬性掌握概率分類模型——一種基于矩陣的認知診斷模型[J].北京師范大學(xué)學(xué)報,2009,(2):117-122.
[9] Gierl M J, Wang C, Zhou J. Using the Attribute Hierarchy Method to Make Diagnostic Inferences about Examinees’ Cognitive Skills in Algebra on the SAT [J]., 2008, 6(6): 53.
[10] 周超.八年級學(xué)生數(shù)學(xué)認知水平的檢測與相關(guān)分析[D].華東師范大學(xué),2009.
Application of Cognitive Diagnose Model in Mathematics Educational Assessment
WANG Li-dong1, GUO Kan2, MENG Meng3
(1. The High School Affiliated to RENMIN University of China, Beijing 100080, China;2. School of Mathematical Science, Beijing Normal University, Beijing 100875, China;3. School of Mathematics and Statistics, Southwest University, Chongqing 400715, China)
Qualitatively illustrating the feasibility of developing mathematics education assessment tool based on Cognitive Diagnose Model. Several different parameter estimation model based on survey data were compared. The results indicated that the concept of cognitive attributes could help both the researchers and the practitioners to analyze the cognitive structure behind students’ solutions of mathematical problems. Artificial neural networks model could fully make use of the cognitive model to solve the problems of limited amount of rubrics as well as diversity of different cognitive attributes, and assess students’ mathematical achievement with high validity, which provide diagnosestic information for future instruction.
mathematics educational assessment; multi-dimensional scoring; CDM; HLM; ANN
G40-034
A
1004–9894(2016)06–0015–05
2016–08–14
全國教育科學(xué)“十二五”規(guī)劃2015年度青年專項課題——數(shù)學(xué)教育視角下的影子教育研究(EHA150424);國家自然科學(xué)基金課題——用于多級評分認知診斷的統(tǒng)計模型研究(11171029)
王立東(1983—),男,黑龍江哈爾濱人,教育學(xué)博士,主要從事數(shù)學(xué)教學(xué)論、教育測量評價、超常兒童教育的理論研究與實踐.
[責(zé)任編校:周學(xué)智]