張 怡
教育與心理測量學(xué)經(jīng)歷了由傳統(tǒng)的經(jīng)典測量理論、概化理論,到20世紀60 年代的項目反應(yīng)理論,再到20 世紀90 年代的認知診斷理論的發(fā)展過程。經(jīng)典測量理論一般只報告測驗總分。項目反應(yīng)理論則基于被試在項目水平上的反應(yīng),利用項目反應(yīng)模型分析被試整體或多個領(lǐng)域上的潛在能力水平。然而,無論是經(jīng)典測量理論還是項目反應(yīng)理論均不能反映被試作答項目時的心理特征和認知過程,更不能獲得被試在細粒度知識點上的掌握情況。[1]為了解決經(jīng)典測量理論和項目反應(yīng)理論存在的這一弊端,認知診斷理論應(yīng)運而生。
認知診斷理論是以項目的形式給反應(yīng)者呈現(xiàn)任務(wù),把被試的測驗結(jié)果作為診斷的數(shù)據(jù),把被試的潛在特質(zhì)作為屬性,并將這些屬性表示為潛在變量的變量,再用心理測評模型加以分析,得到認知診斷結(jié)果的測評技術(shù)。[2]認知診斷測驗通過被試外在反應(yīng)來了解其內(nèi)部知識掌握狀態(tài),通過知識鏈間的關(guān)系獲取更恰當?shù)膶W(xué)習(xí)路徑和學(xué)習(xí)進階,可以更好地指導(dǎo)教學(xué)實踐。[3]可見,認知診斷測驗非常適合先依據(jù)學(xué)生知識或技能的掌握狀態(tài)對學(xué)生進行精細化分類,再實施形成性評價,進而根據(jù)評價結(jié)果制定個性化的補救方案,這就在理論上和技術(shù)上做到了因材施教。但是,認知診斷是一項專業(yè)化很強的測評手段,要將它廣泛應(yīng)用于教育實踐尚有一定的難度。因此,本研究從教育使用者的角度,以美國心理測量學(xué)家Tatsuoka 的分數(shù)減法測驗[4]為例,對認知診斷測驗的編制和結(jié)果進行詳細的剖析,試圖為教育工作者提供可操作的教育測量新方法。
屬性是認知診斷理論中的一個重要概念,認知診斷本質(zhì)上是對認知屬性的診斷。Tatsuoka 認為認知屬性就是程序性操作、產(chǎn)生式規(guī)則、項目類型或者一般的認知任務(wù)。Leighton 等人認為認知屬性在教育測量中一般指完成一項任務(wù)所具備的操作技能和知識結(jié)構(gòu)。[5]可見,認知屬性是對被試問題解決過程中心理內(nèi)部加工過程的描述,是被試正確完成任務(wù)所需的知識、策略、技能等。[6]對被測驗領(lǐng)域的認知屬性的界定是認知診斷測驗編制的第一步,也是最為重要的一步。但界定屬性尤其是理清屬性之間的層次關(guān)系往往是很困難的,因為屬性層次既要符合學(xué)科邏輯思維,又要遵循學(xué)生認知規(guī)律。這要求屬性層次建構(gòu)者在基于學(xué)科理解的基礎(chǔ)上,充分了解學(xué)生的認知規(guī)律。有研究認為,目前的認知診斷屬性在評估和診斷目的方面存在困難。[7]為了解決這一困難,國際上較為成熟的方法是學(xué)科專家、心理測評專家和一線教師協(xié)作,共同構(gòu)建認知診斷屬性層次。在具體操作方面,除了用傳統(tǒng)的文獻法,借鑒已有研究成果中屬性的界定,再用專家論證法對屬性進行修正,研究者還可以采用心理研究方法來構(gòu)建適合認知診斷的屬性層次,如口語報告法、眼動研究等。[8]一般來說,屬性層次關(guān)系分為5 種類型,如圖1[9]所示。
圖1 屬性層次關(guān)系的基本類型
Tatsuoka 的分數(shù)減法測試作為認知診斷領(lǐng)域類公認的典型測驗,得到了大量學(xué)者的應(yīng)用。該測驗分為8 個屬性,分別為:A1 將整數(shù)轉(zhuǎn)換為分數(shù),A2 將整數(shù)與分數(shù)分開,A3 在相減之前進行簡化,A4 找公分母,A5 從整數(shù)部分借位,A6 第一個分子借一位減去第二個分子,A7 分子相減,A8 化簡結(jié)果。Tatsuoka 的分數(shù)減法測驗采用的是獨立型的屬性層次關(guān)系,沒有考慮屬性之間的關(guān)系。[10]
認知診斷測驗的編制需要依據(jù)屬性結(jié)構(gòu)建立的Q 矩陣,Q 矩陣的核心功能是將被試不可觀察的認知狀態(tài)和測驗試題中可觀察的作答反應(yīng)相連接,從而推測被試的知識狀態(tài)。Q 矩陣的產(chǎn)生首先依賴于認知屬性層次關(guān)系,依據(jù)屬性層次關(guān)系圖,可產(chǎn)生鄰接矩陣,得到可達矩陣。依據(jù)可達矩陣,測驗編制者可計算出理想掌握模式、理想測驗?zāi)J郊袄硐敕磻?yīng)模式。Tatsuoka 的分數(shù)減法測驗中20 道試題對應(yīng)的Q 矩陣如表1[4]所示。
表1 Tatsuoka的分數(shù)減法測驗中20 道試題屬性考察表
(1)認知診斷模型的選擇
自20 世紀80 年代,認知診斷已經(jīng)開發(fā)出大量的認知診斷模型。在認知診斷測驗中,選擇恰當?shù)恼J知診斷模型是準確檢驗與評估的重要前提。[2]不同的模型針對不同的問題開發(fā),因此研究者需要依據(jù)自己研究內(nèi)容的性質(zhì),選擇合適的模型進行診斷。Tatsuoka 的分數(shù)減法測驗共收集了536 名學(xué)生的數(shù)據(jù),用于對測評方法和測評指標的檢驗和校正。依據(jù)認知診斷分析平臺(flexCDMs)①,表2 給出了DINA,DINO,RRUM,ACDM,LLM,G-DINA 及Mixed Model 等模型進行參數(shù)估計的結(jié)果。
參數(shù)個數(shù)代表了該模型評估過程中的負荷,數(shù)目越小負荷越小。AIC(Akaike information criterion)指標是基于熵的、檢驗擬合數(shù)據(jù)優(yōu)良性和模型復(fù)雜性的一種指標。AIC 的值越小,表明該模型數(shù)據(jù)擬合越好。BIC(Bayesian information criterion)與AIC 相似,值越小,表明該模型數(shù)據(jù)擬合越好??梢?,一個好的模型在這3 個參數(shù)上應(yīng)該都相對較小。通過表2 的比較可知,LLM 模型的AIC 和BIC 的值都最小,因此,該模型是擬合數(shù)據(jù)最好的模型。
表2 不同模型的參數(shù)統(tǒng)計[11]
(2)屬性層次一致性指標(HCI)分析
HCI 指標用來檢驗被試作答模式與屬性層次結(jié)構(gòu)的一致性,旨在評估被試是否使用與解決測試項目時屬性層次結(jié)構(gòu)所指示的不同的認知技能。HCI 可用于評估被試反應(yīng)模式與認知模型是否一致并且確定整體模型數(shù)據(jù)是否擬合。盡管HCI 是在AHM 框架中開發(fā)的,但它適合檢驗Q 矩陣的屬性層次一致性。在認知診斷模型中,HCI 可以直接用于評估觀察到的反應(yīng)向量與Q 矩陣的擬合程度,并因此確定被試的認知過程是否與Q 矩陣中假設(shè)的認知過程一致。研究者通過計算給出每個被試對層次的一致性的HCI 值,這代表了不同的被試在屬性層次方面的一致性程度。但就整個測驗而言,研究者往往更關(guān)注平均HCI值,該值代表了Q 矩陣屬性層次一致性的整體水平。[12]Cui 等人的研究表明,HCI 值高于0.60 表明模型中等數(shù)據(jù)擬合,而高于0.80 表明模型擬合度非常好,HCI 超過0.70 就表示模型—數(shù)據(jù)擬合得很好。在Tatsuoka 的分數(shù)減法測驗中,該指標的值僅為0.4659,屬性層次一致性指標較低。[13]
(1)項目區(qū)分度分析
項目區(qū)分度是經(jīng)典測量理論和項目反應(yīng)理論下重要的項目質(zhì)量評價指標。同樣,在認知診斷測驗中項目區(qū)分度也是刻畫項目質(zhì)量和影響屬性分類準確率的重要因素。[14]對測驗項目區(qū)分度的檢驗也一定程度上可以反映測驗的質(zhì)量,必要時也可以作為選擇項目優(yōu)劣的評判指標。
在認知診斷測驗中,區(qū)分度dj通常被定義為
其中,pj(1)是指掌握項目j 所有屬性答對該題的概率;pj(0)是指未掌握項目j 任一屬性而答對該題的概率。通俗地講,認知診斷測驗中的區(qū)分度就是完全掌握所有屬性答對某一題的概率和完全靠猜測答對這一題的概率之間的差距。dj越小,說明掌握屬性對答題的影響越小,即區(qū)分度越??;反之,區(qū)分度越大。當然,我們希望答對題目都是因為掌握屬性起到關(guān)鍵作用,因此,較大的區(qū)分度是優(yōu)質(zhì)試題的標志。通過LLM 模型計算,我們可以得出Tatsuoka 的分數(shù)減法測驗中20道試題的區(qū)分度,如表3 所示。
依據(jù)表3 可以看出:這20 道試題的整體區(qū)分度較高,有3/4 的試題區(qū)分度達到0.80,在區(qū)分度上表現(xiàn)優(yōu)良;僅有第6 題、第8 題和第9 題3 道試題區(qū)分度小于0.50,區(qū)分度一般,尚有改進的空間。
表3 Tatsuoka的分數(shù)減法測驗中20 道試題的區(qū)分度
(2)項目擬合度分析
認知診斷模型能否擬合測驗數(shù)據(jù),直接決定了測驗診斷結(jié)果是否準確。[15]然而,傳統(tǒng)的基于卡方的擬合檢驗方法不適用于認知診斷測驗,這是由認知診斷的特性及卡方檢驗的使用條件決定的。[2]在認知診斷測驗中,關(guān)于擬合度的分析一般有兩種計算方式:一種是計算S-χ2統(tǒng)計量,另一種是計算殘差統(tǒng)計量。S-χ2統(tǒng)計量與傳統(tǒng)的χ2統(tǒng)計量的不同之處在于它根據(jù)被試的能力或知識狀態(tài)進行分組。[16]S-χ2統(tǒng)計量的優(yōu)點是根據(jù)被試作答數(shù)據(jù)進行分組,克服了將在一個連續(xù)尺度上的能力進行分組的武斷性,其擬合效果更符合認知診斷特征。[17]殘差則是某一被試組所預(yù)期的項目反應(yīng)理論成績與該組實際成績的差。[18]認知診斷測驗通常使用殘差統(tǒng)計量RMSEA 分析項目的擬合度。RMSEA主要比較不同潛在分類下的觀察反應(yīng)和預(yù)測反應(yīng)平方根誤差。項目j 的RMSEA 計算公式[19]為:
其中,π(θc)表示第c類潛在特質(zhì)水平的分類概率,Pj表示由項目反應(yīng)函數(shù)估計的概率,njkc表示第c類潛在特質(zhì)水平在第j個項目中的第k維度的期望人數(shù),Njc表示第c類潛在特質(zhì)水平的期望人數(shù)。依據(jù)公示(2)計算可以得到Tatsuoka 的分數(shù)減法測驗中20 道試題的殘差項目擬合度,如表4 所示。
RMSEA的值越接近0,說明項目擬合越好。在Oliveri 等人的研究中,RMSEA的臨界值被設(shè)定為0.10,RMSEA>0.10 時說明項目擬合較差。[20]由表4 可見,Tatsuoka 的分數(shù)減法測驗在RMSEA擬合指標上整體表現(xiàn)較差。
表4 Tatsuoka的分數(shù)減法測驗中20 道試題的殘差項目擬合度
(3)項目功能差異分析
測驗的公平性是編制大規(guī)模測驗時被廣泛關(guān)注的問題,它直接影響著測驗是否公平和科學(xué)。[21]如果一項測試存在公平性問題,那么測驗分數(shù)的解釋是無效的,依據(jù)測驗結(jié)果做出的決定及其后果都將是不合理的甚至是有害的。[22]功能差異是針對測驗的公平性而言的,測驗開發(fā)者期望開發(fā)出的測驗對不同的被試而言是公平的,然而,測驗在研發(fā)和應(yīng)用過程中不可避免地會受到一些無關(guān)因素的影響,這些因素可能會對不同被試群體產(chǎn)生不同的影響,使得能力相同的被試表現(xiàn)出不同程度的差異,這種差異就被解釋為項目功能差異(differential item function,DIF),其定義是:具有相同能力水平的被試,若在某試題上的得分因為被試組別的不同而顯著不同,則該試題可能存在DIF。具有DIF 的試題可能對某一組別的考生不利而對其他組別的考生有利,從而有違考試的公平性原則。[23]在Tatsuoka 的分數(shù)減法測驗中,研究者利用Wald 檢驗了測驗是否存在DIF,得到的數(shù)據(jù)如表5 所示。
一般來說,p值小于0.05 的項目被認為存在DIF。依據(jù)表5,第4 題、第10 題、第13 題、第19 題及第20 題存在項目功能差異。項目功能差異往往由不合理的測驗內(nèi)容所導(dǎo)致,因此在對測驗進行檢驗時,測驗編制者應(yīng)該考慮DIF 對于學(xué)生作答的影響。[24]
表5 Tatsuoka的分數(shù)減法測驗DIF 檢驗
(4)信度分析
認知診斷測驗可以從3 個方面考查信度,分別為經(jīng)典測量理論中定義的信度、屬性重測一致性指標、分類一致性指標。Templin 等人提出的屬性重測一致性指標與經(jīng)典測量理論的標準參照測驗中決策一致性的Subkoviak 方法類似,即在假設(shè)被試所掌握的屬性概率不變的情況下,計算相同被試在先后兩次測量中屬性掌握概率的相關(guān)性。[25]Cui 等人的分類一致性指標則是依據(jù)經(jīng)典測量理論和項目反應(yīng)理論中計算分類一致性信度的思路而提出的。[26]關(guān)于Tatsuoka 的分數(shù)減法測驗,通過計算得到如表6 所示結(jié)果。
通過表6 可以發(fā)現(xiàn):Tatsuoka 的分數(shù)減法測驗在經(jīng)典測量理論的信度、屬性重測一致性指標上表現(xiàn)較好,屬性重測一致性指標平均值達到了0.8854,各屬性的信度都在0.60 以上,并且大部分達到了0.90;分類一致性指標則相對偏低,這可能與其信度的定義方式有關(guān)。
表6 Tatsuoka的分數(shù)減法測驗信度檢驗
對于經(jīng)典測量理論而言,研究者只能通過總分來體現(xiàn)學(xué)生的能力水平。但由于存在不同題型、不同內(nèi)容以及不同學(xué)科之間的差異,不同性質(zhì)的分數(shù)所代表的含義不盡一致,不同內(nèi)容、不同題型存在等值性問題,所以簡單相加求總分的方式本身存在不合理的因素。項目反應(yīng)理論雖然解決了試題和內(nèi)容之間的等值性問題,將被試放在整體中考察能力值,但依然不能進行知識點內(nèi)部的分析,得不到個性化診斷的效果。認知診斷測驗了解學(xué)生在多維、細粒度的潛在認知屬性上的差異[27],充分體現(xiàn)了學(xué)生診斷性、個性化的形成性評估,這也是認知診斷最大的優(yōu)點。認知診斷測驗可以分析每個學(xué)生在不同屬性上的掌握概率,即知識結(jié)構(gòu),這是一類以屬性為基本分析單位的精細化測量模型。如圖2 所示,編號12 和編號31 的學(xué)生在Tatsuoka 的分數(shù)減法測驗中有著不同的知識結(jié)構(gòu)。
依據(jù)圖2 可以看出,編號12 和編號31 的學(xué)生得分相同,都為15 分,但是他們表現(xiàn)出了不同的知識結(jié)構(gòu)。通過認知診斷LLM 模型進行參數(shù)估計,得到編號12 的學(xué)生知識狀態(tài)為(00011111),這說明該被試掌握了后5 個屬性卻沒有掌握前3 個屬性;編號31 的學(xué)生知識狀態(tài)為(11001110),他掌握了第A1,A2,A5,A6,A7 屬性,而沒有掌握A3,A4,A8 屬性。認知診斷測驗不僅可以報告被試的知識狀態(tài),而且可以進一步得到被試在測驗中各個屬性掌握的概率。通過不同的屬性掌握模式以及屬性掌握模式的概率,教師可以進一步了解不同學(xué)生的知識結(jié)構(gòu),進而為個性化的評價和進一步制定補救學(xué)習(xí)方案提供重要依據(jù),讓因材施教成為可能。
圖2 得分相同(編號12 和編號31)的學(xué)生的知識結(jié)構(gòu)比較
認知診斷測驗作為新興的測量理論,融合了認知心理學(xué)和現(xiàn)代測量學(xué)的理論和方法,不僅可以對被試的微觀認知結(jié)構(gòu)進行診斷分析,還能對被試群體的宏觀能力進行評估。對被試群體的宏觀能力評估主要體現(xiàn)在兩個方面。其一是學(xué)習(xí)路徑,所謂學(xué)習(xí)路徑,也就是知識狀態(tài)的層級結(jié)構(gòu),刻畫了存在偏序關(guān)系的知識狀態(tài)之間的關(guān)系。[10]其二是學(xué)習(xí)進階,學(xué)習(xí)進階和學(xué)習(xí)路徑具有相似之處,前者強調(diào)發(fā)展階段,后者強調(diào)發(fā)展軌跡。雖然學(xué)習(xí)進階自提出到現(xiàn)在已有20 多年,但仍然沒有統(tǒng)一的定義。從學(xué)生的認知發(fā)展角度分析,學(xué)習(xí)進階是將兒童在概念方面的發(fā)展介入具體的教育領(lǐng)域,進而深化對兒童認知發(fā)展規(guī)律的認識。[28]學(xué)習(xí)進階將學(xué)生抽象的概念理解過程具體化,用進階水平表示學(xué)生的認知發(fā)展過程。[29]認知診斷理論為解決學(xué)習(xí)進階的問題提供了新的思路:首先需要通過聚類分析,依據(jù)不同知識狀態(tài)的能力值建立學(xué)習(xí)路徑,然后進一步通過能力值劃分得到學(xué)習(xí)進階。
在學(xué)習(xí)路徑建立的過程中,可以假設(shè)學(xué)生對概念的理解遵從先易后難的順序,即學(xué)生先掌握屬性層次關(guān)系中的基本屬性,再掌握難度較大的高階屬性。因此,位于低水平的屬性應(yīng)該相對容易掌握,位于高水平的屬性應(yīng)該相對較難掌握。依據(jù)這一特點,研究者通過各種不同知識狀態(tài)的聚類,將聚類后的知識狀態(tài)按照能力值繪制出Tatsuoka 的分數(shù)減法測驗的學(xué)習(xí)路徑,如圖3 所示。在該路徑圖中,教師可以為不同知識狀態(tài)的學(xué)生選擇不同的學(xué)習(xí)路徑。在學(xué)習(xí)路徑的基礎(chǔ)上,教師可以依據(jù)能力值的不同對被試群體劃分進階水平,每一個進階水平包含了多種屬性掌握模式,這些屬性掌握模式可以為該進階水平提供更豐富的信息,由此可對學(xué)習(xí)進階各水平進行科學(xué)界定。
據(jù)圖3 可知,屬性掌握模式(00010010)和(00111110)相比,位于知識狀態(tài)(00111110)的被試掌握了位于知識狀態(tài)(00010010)的所有屬性,同時還多掌握了其他屬性,可記為(00010010)≤(00111110),也就是說這兩個知識狀態(tài)之間存在層次關(guān)系,即存在(00010010)→(00111110)的路徑。由于(00000000)≤(00010010)≤(00111110)≤(11111111),因此這些知識狀態(tài)之間可以刻畫出一條學(xué)習(xí)路徑:(00000000)→(00010010)→(00111110)→(11111111)。學(xué)習(xí)路徑從低端到頂端代表了不同的能力水平,反映了知識狀態(tài)之間的能力關(guān)系,可以清楚地刻畫學(xué)生的發(fā)展過程,為學(xué)生從低層次學(xué)習(xí)水平發(fā)展到高層次學(xué)習(xí)水平指出了明確的路徑和方向。因此,學(xué)習(xí)路徑不僅可以為學(xué)生提供個性化、精細化的診斷報告,而且可以為教師補救教學(xué)提供依據(jù)。
圖3 Tatsuoka的分數(shù)減法測驗的學(xué)習(xí)路徑
在學(xué)習(xí)路徑的基礎(chǔ)上,教師還可以為學(xué)生進一步制定學(xué)習(xí)進階,如圖3 所示,所有知識狀態(tài)所包括的能力值,可以0.5 為一個單位進行劃分,將整個知識狀態(tài)劃分為5 個能力區(qū)間,依次從低到高,這就形成了5 層次水平的學(xué)習(xí)進階。由于各個能力值范圍內(nèi)都包括了具體的知識狀態(tài),知識狀態(tài)又對應(yīng)具體的屬性,因此可以通過屬性包括的具體內(nèi)容對學(xué)習(xí)進階的各水平做出較為準確的界定。
認知診斷測驗是將測驗的目標整合在測驗編制的過程中,測驗的編制嚴格依據(jù)屬性以及屬性間的層次關(guān)系,每個項目都承載著不可替代的診斷信息,同時也追求以最少的測試項目測出學(xué)生最大的認知信息,因此認知診斷測驗的試題本身就具有認知診斷的功能。它與傳統(tǒng)的依據(jù)雙向細目表得到的經(jīng)典測量理論試題最大的區(qū)別在于:認知診斷測驗具有嚴格的內(nèi)部結(jié)構(gòu),項目的編制依據(jù)認知規(guī)律將學(xué)生認知過程和項目緊密地結(jié)合在一起;依據(jù)經(jīng)典測量理論編制的測驗僅強調(diào)試題考查的覆蓋面,內(nèi)部結(jié)構(gòu)相對較差??梢?,將認知診斷應(yīng)用到教育測驗中,既可以幫助教育工作者系統(tǒng)地設(shè)計結(jié)構(gòu)效度較高的測評工具,也可以幫助研究者和實踐者分析影響學(xué)生作答試題背后的認知結(jié)構(gòu)。[30]認知診斷測驗依據(jù)學(xué)生行為能力表現(xiàn)推測學(xué)生能力水平,達到了通過學(xué)生外在表現(xiàn)推測其內(nèi)隱特征的目的。這種測驗將學(xué)生的能力水平按照不同的理想掌握模型進行細分,可以將教育測驗的籠統(tǒng)性、混沌性更加清晰化,并且提供了明確的學(xué)習(xí)路徑,讓測評成為學(xué)生學(xué)習(xí)的一部分,促進了學(xué)習(xí)測評觀念從“為了學(xué)習(xí)的評價”到“評價是學(xué)習(xí)的一種方式”的轉(zhuǎn)變。[31]
認知診斷測驗通過分析學(xué)生在多維、細粒度知識點的潛在認知屬性上的差異,充分體現(xiàn)了學(xué)生診斷性、個性化的形成性評估;同時通過知識鏈間的關(guān)系獲取更為恰當?shù)膶W(xué)習(xí)路徑和學(xué)習(xí)進階,關(guān)注了統(tǒng)整性的終結(jié)性評價。因此,認知診斷是一種兼具形成性測評和終結(jié)性測評功能的綜合評價形式。[32]認知診斷測驗可以匯報每一個學(xué)生的診斷信息,包括每個學(xué)生掌握的屬性以及各個屬性掌握的概率,可以依據(jù)不同知識狀態(tài)之間的包含關(guān)系,為不同知識狀態(tài)下的學(xué)生選擇個性化的學(xué)習(xí)路徑和補救方案,同時有針對性地找到每個學(xué)生在學(xué)習(xí)中存在的問題,以及在整體中所處的水平,為學(xué)生準確地自我定位和自我診斷提供參考。在終結(jié)性評價方面,認知診斷測驗通過對不同知識狀態(tài)的聚類分析,得到學(xué)生的學(xué)習(xí)路徑圖,進一步通過能力水平的劃分得到測驗內(nèi)容的學(xué)習(xí)進階,該進階為測驗的垂直量尺化提供了可能。所謂垂直量尺化就是將測試同學(xué)科的不同水平測驗轉(zhuǎn)換到同一分數(shù)量尺上。[33]學(xué)習(xí)進階本身就是修訂課程標準、編寫教材、教學(xué)與學(xué)習(xí)評價的重要基礎(chǔ),為整個教育教學(xué)的發(fā)展提供了有效支持。由此可見,認知診斷的過程性、個性化測評特點,為學(xué)習(xí)測評提供了可操作的抓手;建立在整體認知規(guī)律基礎(chǔ)上的認知診斷測驗則為學(xué)習(xí)測評指明了方向。
學(xué)習(xí)測評發(fā)展的趨勢是走向計算機自動化?!盎ヂ?lián)網(wǎng)+”時代的到來,給信息與通信技術(shù)(ICT)在學(xué)習(xí)測評中的應(yīng)用提供了巨大的發(fā)展空間。美國的ICT 測評技術(shù)已經(jīng)開啟了從“明確考試的范式”到“嵌入式評價范式”的轉(zhuǎn)變。在“明確考試的范式”中,測評強調(diào)精準測查學(xué)生的學(xué)業(yè)表現(xiàn);在“嵌入式評價范式”中,測評強調(diào)有針對性的及時反饋。[34]可見,學(xué)習(xí)測評技術(shù)自適應(yīng)性具有傳統(tǒng)測評無法達到的眾多優(yōu)點,學(xué)習(xí)測評走向計算機自適應(yīng)化是必然的。目前,國際學(xué)生評估項目(PISA)和國際測評項目-科學(xué)素養(yǎng)(NAP-SL)測試已全部使用計算機自適應(yīng)測試進行學(xué)業(yè)測評。認知診斷理論為計算機自適應(yīng)測驗起到了基礎(chǔ)性的理論支撐作用,認知診斷測評為學(xué)習(xí)測評的計算機自適應(yīng)測試提供了前提條件。現(xiàn)有的學(xué)習(xí)測評分析工具,可以通過學(xué)生的在線學(xué)習(xí)和測評,將結(jié)果以可視化形式呈現(xiàn)給學(xué)生,幫助學(xué)生分析自身學(xué)習(xí)的問題,促進反思,調(diào)整學(xué)習(xí)策略,以獲得更大進步。[35]無論學(xué)習(xí)測評的理念如何發(fā)展都是以促進學(xué)習(xí)為目的的評價。未來的學(xué)習(xí)測評可以通過數(shù)字化工具以及大數(shù)據(jù)、云計算等技術(shù),將心理測量模型和具體的學(xué)科知識無縫嵌入學(xué)生的學(xué)習(xí)和測評過程,對學(xué)生的學(xué)習(xí)過程進行動態(tài)的隱形評價,以促進學(xué)生更好地學(xué)習(xí)。[36]
注釋:
①本文數(shù)據(jù)處理使用了江西師范大學(xué)涂冬波團隊開發(fā)的認知診斷分析平臺(flexCDMs),網(wǎng)址為:http://www.psychometrics-studio.cn。