李心鈺 陸 宏
計算機化線性測驗與自適應(yīng)測驗的等效性研究
李心鈺 陸 宏[通訊作者]
(山東師范大學(xué) 教育學(xué)部,山東濟南 250014)
基于計算機的測驗已逐漸普及,但不同的計算機測驗形式在測量相同任務(wù)時可能會產(chǎn)生測驗結(jié)果的偏差,從而導(dǎo)致教育測量與評價結(jié)果的不公平性。文章基于項目反應(yīng)理論,探討了計算機化線性測驗與計算機自適應(yīng)測驗在測驗效率、測驗結(jié)果的統(tǒng)計學(xué)特征及其對考生個體心理特質(zhì)的影響是否等效等問題,并以師范生“現(xiàn)代教育技術(shù)”課程為例開展了實證研究,結(jié)果顯示:兩種測驗中考生的分數(shù)具有可比性,計算機自適應(yīng)測驗具有更高的測驗效率與測驗信度,但有無即時反饋對考生測驗焦慮的影響較大;而計算機化線性測驗具有更合理的內(nèi)容效度,有無即時反饋對考生測驗焦慮的影響較小。文章的研究不僅對教學(xué)評價中測驗形式的選擇是否公平合理進行了科學(xué)分析,而且為施測者根據(jù)測驗場景有針對性地選擇測驗形式提供了理論參考。
計算機化線性測驗;計算機自適應(yīng)測驗;等效性;即時反饋;測驗焦慮
計算機技術(shù)與測驗理論的發(fā)展日新月異,其中計算機化線性測驗(Computerized Linear Testing,CLT)與計算機自適應(yīng)測驗(Computerized Adaptive Testing,CAT)已在教育評價領(lǐng)域中得到了廣泛的認可。CLT是目前教育教學(xué)實踐中常用的計算機測驗形式,它不僅能針對各學(xué)科與測驗群體的特點控制測驗內(nèi)容的平衡,還能提供文字、圖像、視頻、交互等多種形態(tài)的試題,在測驗中給予考生實時反饋,對測驗分數(shù)進行即時計分,通過計算機高效地進行數(shù)據(jù)統(tǒng)計,幫助教師了解學(xué)生的整體水平。然而,固定序列的CLT容易帶來測驗安全的隱患,增加試題曝光的風(fēng)險,且測驗的時間、地點也受一定的約束,在大型測驗中這些弊端顯得尤為突出。而以項目反應(yīng)理論(Item Response Theory,IRT)為指導(dǎo)的CAT,在題庫構(gòu)建、能力與試題參數(shù)估計、選題策略及評分標(biāo)準方面都與CLT有明顯差異:CAT能在保證測量精確度的前提下,為不同考生選擇符合其能力水平的試題,從而用較少的試題更精確地測出考生的真實能力,實現(xiàn)測驗的個性化需求;另外,CAT的考生也可以靈活選擇測驗的時間、地點,使得測驗方式更加便捷。簡言之,CLT為考生提供的是固定試題,縱使在同一測驗中采用多套平行試卷,考生所測的試題仍是出題人依據(jù)測驗?zāi)繕?biāo)組合好的難度、內(nèi)容大致相同的試卷,測驗需統(tǒng)一時間,以免出現(xiàn)泄題事件;而CAT能夠做到“對癥下藥”,為每位考生匹配最適合其能力水平的試題。
CLT、CAT是現(xiàn)代教育測量領(lǐng)域的兩大主流測驗形式,施測者可以根據(jù)測驗?zāi)康淖灾鬟x擇。例如,在日常課堂測驗中,CLT有助于教師掌握學(xué)生的階段性學(xué)習(xí)成果,從而幫助教師合理地調(diào)整教學(xué)計劃。而在常模參照測驗中,CAT可以根據(jù)測驗需求設(shè)定正答概率、選題策略,更好地發(fā)揮測驗選拔人才的功能;另外,采用線上CAT的形式也便于教師靈活地選擇測驗時間、地點,不必過于擔(dān)心試題的安全性與測驗的公平性——而解決測量與評價形式不同所引發(fā)的公平性問題一直是教育領(lǐng)域的重要話題。例如,《美國國家教育技術(shù)計劃》強調(diào),在學(xué)習(xí)評價方面要通過技術(shù)的變革給學(xué)習(xí)者提供實時反饋,實現(xiàn)對學(xué)習(xí)者的自適應(yīng)評價[1]。而在我國,《中國教育現(xiàn)代化2035》指出,在推進教育現(xiàn)代化的過程中,要注重因材施教,建立科學(xué)公正的考試評價制度[2];《深化新時代教育評價改革總體方案》強調(diào),教育評價的重點任務(wù)之一就是改革學(xué)生評價,改變相對固化的試題形式、增強試題的開放性[3]。由上可以看出,在將信息技術(shù)融入教育測量與評價、為學(xué)習(xí)者提供個性化的評價方式方面國內(nèi)外已達成共識。
評價是教學(xué)活動開展的重要環(huán)節(jié),評價學(xué)生學(xué)習(xí)結(jié)果的主要方式是測驗。當(dāng)前,測驗的形式已從最初的紙筆測驗逐步發(fā)展至計算機化測驗,受新冠肺炎疫情影響,越來越多的測驗采用計算機進行,大到招生招聘測驗,小到課程日常測驗。隨著CLT與CAT在教育實踐領(lǐng)域的廣泛應(yīng)用,這兩種測驗形式的測量結(jié)果是否具有等效性的問題引起了研究者的關(guān)注。美國在2014年修訂的《教育與心理測試標(biāo)準》中指出,由于多種測驗形式并存,不同測驗形式在執(zhí)行相同的測試任務(wù)時,測量結(jié)果的比較研究是非常必要的,包括測驗分數(shù)的分布、測驗信度、考生的排名等[4]。基于此,本研究梳理了CLT與CAT等效性研究的定義與內(nèi)容,并以師范生“現(xiàn)代教育技術(shù)”課程為例開發(fā)了CLT與CAT系統(tǒng)進行實證研究,探究兩者的等效性。需說明的是,本研究中的CLT、CAT試題均基于項目反應(yīng)理論進行設(shè)計開發(fā),兩種測驗的終止規(guī)則相同且提交答案后無法返回上一題進行修改。不同的是,CLT的選題策略、組卷方式與傳統(tǒng)的計算機化測驗相似,需要經(jīng)過嚴密科學(xué)的人工組卷確定測驗試題,考生面對的是一套固定序列的試卷;而CAT以極大似然估計的方法逐題對考生的能力水平進行評估,每位考生面對的試題因其能力水平的高低不同也各不相同,且隨著測驗的進行,試題的難度值將逐漸趨近于考生的真實能力水平。
等效性研究是指進行不同形式的測驗時,對具有相同測試任務(wù)的測量結(jié)果在測驗形式與效率、統(tǒng)計學(xué)特征、個體心理特征等方面是否效果等同的研究[5]。等效性研究涉及的內(nèi)容主要如下:
在測驗形式的比較方面,CLT允許考生對答案進行反復(fù)檢查與修改,而檢查與修改答案的行為在CAT中受到約束。究其原因,在于CAT的選題策略是以考生先前的作答結(jié)果為依據(jù),若允許考生返回修改答案,不僅會影響考生能力水平的估計值和測量的精確度,也必然會增加選題算法的復(fù)雜性?,F(xiàn)今大規(guī)模應(yīng)用的CAT均無法返回修改答案,雖然已有學(xué)者對允許修改答案的CAT展開了研究,但暫未推廣至實踐中進行應(yīng)用,其效果還有待考量[6]。
在測驗效率的比較方面,由于CLT與CAT的測驗原理存在本質(zhì)差異,兩者的測驗效率亦有不同:CLT是將傳統(tǒng)的紙筆測驗變換到計算機上,運用計算機全面管理測驗數(shù)據(jù),其測驗效率并沒有發(fā)生實質(zhì)性的改變;而CAT為考生選擇信息量最大的試題進行測試,這種“量體裁衣”的測驗方式使CAT可以更快地達到與CLT相同測量精確度的測驗要求。鄧遠平等[7]運用特質(zhì)焦慮量表進行了CAT模擬測驗,發(fā)現(xiàn)59.2%的考生僅作答了原有試題30%的題量即完成測驗,可見測驗效率顯著提升。在大型測驗中,CAT的高測驗效率能有效降低題庫試題的曝光風(fēng)險,在測量精確度與CLT要求一致的情況下縮短測驗長度與測驗時長,可快速、高效地獲取測驗結(jié)果。而在日常測驗中,為了便于查找考生的知識短板、查缺補漏,雖然CLT的測驗效率較低,但在試題內(nèi)容的全面性上更具優(yōu)勢。
在考生分數(shù)與試題參數(shù)的比較方面,傳統(tǒng)的紙筆測驗按觀測分數(shù)的權(quán)重線性累加賦分,考生分數(shù)和試題參數(shù)的估計具有對測驗難度、樣本水平的依賴性。而以IRT為指導(dǎo)對考生分數(shù)與試題參數(shù)進行估計時,常采用極大似然估計、貝葉斯估計等方法,得到的考生分數(shù)與試題參數(shù)不隨測驗和考生樣本的變化而變化,體現(xiàn)了參數(shù)不變性的特點(此為理想狀態(tài))[8]。在實踐過程中,有研究者提出,在對CLT、CAT的考生分數(shù)和試題參數(shù)進行比較時,對參加CLT、CAT的同組考生而言,縱使最終得到的能力值與試題參數(shù)存在差異,只要兩者的排列順序相似,就可作為等效的標(biāo)志之一[9]。在信度的比較方面,在經(jīng)典測量理論中,信度的概念建立在平行測驗假設(shè)的基礎(chǔ)之上,對參加同一測驗的不同能力的考生而言,其信度系數(shù)均為固定值。而IRT中的信度與測量精確度有關(guān),信度的大小取決于測驗的終止規(guī)則——若以固定測量精確度作為終止規(guī)則,那么不同考生的信度系數(shù)均相同;若采用固定長度法(即測驗達到一定長度即終止),那么考生呈現(xiàn)出的測量精確度不同,其測驗的信度也就有所差異,這時需計算出信度范圍再加以比較。在內(nèi)容效度比較方面,CLT可以按照試卷編制的原則、教師的教學(xué)經(jīng)驗等進行科學(xué)嚴格的組卷,確保其具有良好的內(nèi)容效度;CAT則因使用最大信息量選題策略,或?qū)?nèi)容效度產(chǎn)生一定的負面影響。而在效標(biāo)效度比較方面,可以選取客觀、可靠的校標(biāo)作為參照,將其與CLT、CAT的測量結(jié)果進行相關(guān)分析,驗證其等效性。
目前,研究者在CLT、CAT比較中關(guān)注的個體心理特質(zhì)主要是測驗焦慮。測驗焦慮在我國各學(xué)齡階段的學(xué)生當(dāng)中普遍存在,過度的測驗焦慮會影響學(xué)生的學(xué)業(yè)成績、記憶力、注意力等認知能力,甚至有學(xué)生會產(chǎn)生肺部功能、免疫系統(tǒng)等身體健康問題[10]。部分研究者認為,在傳統(tǒng)的紙筆測驗中,大多數(shù)考生需要作答高于自身能力水平的試題,會產(chǎn)生較高的測驗焦慮[11];而CAT憑借其選題策略,能減少考生能力水平之外的試題,從而有效降低考生的測驗焦慮。但Ortner等[12]的研究發(fā)現(xiàn),與固定序列的測驗相比,在正答概率為0.5的CAT中,部分考生會產(chǎn)生更高的測驗焦慮,其結(jié)果可能導(dǎo)致測驗不公平的問題。因此,關(guān)于CLT、CAT中個體心理特質(zhì)的比較研究,相關(guān)結(jié)論尚處于爭議與探索階段。
目前,國外對CLT、CAT的等效性探討多聚焦于對某一維度或某項具體指標(biāo)的比較,而缺乏全面的對比;國內(nèi)相關(guān)研究多從理論層面展開,少有實證分析。與以往研究不同,本研究一方面將通過實驗對CLT、CAT的差異進行整體性比較,包括對兩者測驗效率、統(tǒng)計學(xué)特征的比較和兩種測驗環(huán)境對考生個體心理特質(zhì)的影響研究,從而使教育工作者對這兩種測驗形式的優(yōu)劣有更全面的理解。另一方面,依據(jù)桑代克“效果律”中有關(guān)反饋的觀點,測驗中的反饋不僅能為考生提供有效信息[13],而且會影響考生的測驗焦慮。但是,在CLT、CAT中反饋對測驗焦慮的影響有何不同,目前還鮮有研究涉及?;诖?,本研究將采用雙因素方差分析法,來探究不同測驗環(huán)境下、有無即時反饋對測驗焦慮的影響。
本研究以華東地區(qū)S大學(xué)在2020-2021學(xué)年開展的“現(xiàn)代教育技術(shù)”課程為例進行等效性研究實驗。該課程前17周為教學(xué)周,第18周為復(fù)習(xí)周,第19、20周為考試周,測驗時間選在第18周進行。實驗被試為文學(xué)院學(xué)習(xí)該課程的469名師范生,這些學(xué)生通過獨立組測驗設(shè)計的方式被隨機分為四組:①有即時反饋CAT組,有學(xué)生124名;②無即時反饋CAT組,有學(xué)生128名;③有即時反饋CLT組,有學(xué)生114名;④無即時反饋CLT組,有學(xué)生103名。四組學(xué)生參加的測驗均設(shè)有75道選擇題(含63道單選題、12道多選題),測驗時長均為50分鐘。測驗結(jié)束后,所有學(xué)生立即作答計算機版本的測驗焦慮量表,量表回收率達到100%。
由于CAT在國內(nèi)測驗領(lǐng)域的普及程度有限,故在本次測驗開始前,工作人員對參加CAT測驗的考生進行了考前培訓(xùn)。培訓(xùn)分為兩個部分,每部分均歷時45分鐘:第一部分的培訓(xùn)主要向考生介紹CAT的基本原理,如CAT通常是從一道中等難度的試題開始,通過動態(tài)的選題策略為每一名考生提供與其能力相匹配的試題;第二部分的培訓(xùn)主要向考生講解在CAT測驗過程中應(yīng)該注意的問題,如不能隨意切換某道試題,必須作答當(dāng)前試題后才能跳轉(zhuǎn)至下一題試題,且不能回顧并修改已經(jīng)做過的試題。
(1)測驗題庫
本研究中的CLT、CAT試題均來源于S大學(xué)“現(xiàn)代教育技術(shù)”題庫。題庫試題依據(jù)“現(xiàn)代教育技術(shù)”課程的教學(xué)目標(biāo)與教學(xué)內(nèi)容進行編制,試題內(nèi)容涉及現(xiàn)代教育技術(shù)概述、現(xiàn)代教育技術(shù)的理論基礎(chǔ)、教學(xué)設(shè)計與教學(xué)評價、教學(xué)媒體與信息化教學(xué)環(huán)境、網(wǎng)絡(luò)教育資源檢索、素材的采集與處理、教學(xué)課件的設(shè)計與制作、技術(shù)推動下教育的發(fā)展和演變等八個主要知識點,共設(shè)有單選題198道、多選題42道,總計240道題。
(2)CLT系統(tǒng)
參加本次測驗的考生均已按要求修完“現(xiàn)代教育技術(shù)”課程。為了保證CLT、CAT在考查內(nèi)容、試題難度、測驗題型等方面的公平性,CLT的試卷由學(xué)科教師與教育測量學(xué)的專家共同進行編制,試題內(nèi)容及認知層次與“現(xiàn)代教育技術(shù)”題庫相符,試題的難度、區(qū)分度均體現(xiàn)了題庫的統(tǒng)計學(xué)特征。同時,試題采用并列直進式(即按知識點由易到難的順序)的排序方式,將1~63題設(shè)為單選題、64~75題設(shè)為多選題。
(3)CAT系統(tǒng)
本研究使用的CAT試題庫已通過有效性檢驗,且滿足單維性和局部獨立性假設(shè)。CAT試題庫中的試題均符合雙參Logistic模型,試題參數(shù)分布合理,能滿足CAT測驗的實際施測需求。另外,CAT利用最初5道試題的應(yīng)答結(jié)果作為初始能力,通過最大信息量法進行選題,采用極大似然估計法進行考生能力參數(shù)估計,以測驗長度達到75道試題時即終止答題作為CAT測驗的終止規(guī)則,而試題類型、題型順序均與CLT相同。
(4)測驗焦慮量表
測驗焦慮量表(Test Anxiety Inventory,TAI)簡表由美國心理學(xué)家Spielberger編制的TAI簡化而成[14]。TAI簡表由TAI憂慮性、情緒性分量表以及不屬于任何一個分量表的五道題目組成,經(jīng)過長期的實踐應(yīng)用,TAI簡表的信效度已經(jīng)得到充分驗證[15]??紤]到本次實驗主要用于測量考生在測驗過程中的狀態(tài)焦慮,不涉及考生在測驗之前、之后的焦慮感受,因此本研究使用的測驗焦慮量表是對TAI簡表進行部分修改而成:保留了原有TAI簡表中的2道試題,同時在TAI量表中篩選出3道適用于測量考生在測驗中焦慮程度的試題,最終的測驗焦慮量表設(shè)有五個測驗焦慮指標(biāo),如表1所示。其中,每個指標(biāo)按Likert四點量表計分,得分越高,表示考生的測驗焦慮越高。經(jīng)計算,此量表的內(nèi)部一致性信度系數(shù)是0.892,表明該量表能夠有效測量考生的狀態(tài)焦慮程度。
表1 測驗焦慮量表
本研究采用MySQL對四組學(xué)生(有即時反饋CAT組、無即時反饋CAT組、即時反饋CLT組和無即時反饋CLT組)參與“現(xiàn)代教育技術(shù)”課程CLT、CAT測驗的考試成績和所填測驗焦慮量表的數(shù)據(jù)進行了統(tǒng)計?;谏鲜鰯?shù)據(jù)分析,本研究從測驗效率、考生分數(shù)、測驗信度、測驗效度、個體心理特質(zhì)等五個方面全方位、多角度地分析兩種測驗的等效性。
在本研究中,IRT以測量的標(biāo)準誤表示測量精確度,考生標(biāo)準誤的大小取決于測驗信息函數(shù),如公式(1)所示。在CLT中,即使兩組學(xué)生(即時反饋CLT組和無即時反饋CLT組)面對的試題內(nèi)容、數(shù)量相同,但對不同能力水平的考生而言,試題所提供的信息量不同,考生標(biāo)準誤也不同。如前所述,CAT的標(biāo)準誤取決于其終止規(guī)則,本研究中的CAT終止規(guī)則采用固定長度法,因此對不同能力水平的考生而言,他們參加CAT得到的測量精確度各不相同。由上可知,若要對CLT、CAT的測驗效率進行比較,以CLT、CAT標(biāo)準誤的范圍作為比較的指標(biāo)更為合理。
如前所述,本研究中的CLT、CAT試題均來源于同一個題庫——S大學(xué)“現(xiàn)代教育技術(shù)”題庫。該題庫試題的相關(guān)參數(shù)在先前的研究中已進行標(biāo)注,故本研究不再進行試題參數(shù)方面的比較。CLT、CAT的測驗方式雖不同,但其測量目標(biāo)與測量內(nèi)容相同,因此本研究依然將考生分數(shù)的比較作為兩種測驗形式是否等效的考察維度。CLT、CAT測驗中考生的能力值均依據(jù)項目反應(yīng)理論計算,其范圍控制在區(qū)間(-4, 4)。由于參加CLT、CAT的考生不同,實驗數(shù)據(jù)無法對同組考生的分數(shù)排列順序進行一致性比較。但因?qū)嶒灧纸M方式為隨機分配,故可以比較兩組考生分數(shù)的部分統(tǒng)計學(xué)特征是否相似,由此判斷兩種測驗的考生分數(shù)是否具有可比性。
本研究根據(jù)實驗統(tǒng)計獲得的考生分數(shù)與頻次數(shù)據(jù),分別繪制了CLT、CAT考生分數(shù)直方圖(如圖1、圖2所示),可以看出:CLT、CAT考生分數(shù)曲線均呈現(xiàn)一定程度的負偏態(tài),但偏斜程度較小,幾乎趨近于正態(tài)分布,大多數(shù)考生的能力值分布在0~1之間。本研究中的CLT、CAT屬于標(biāo)準參照測驗,這與選拔性較強的常模參照測驗不同,故測驗的主要功能是考查考生對“現(xiàn)代教育技術(shù)”課程基礎(chǔ)知識與基本技能的掌握情況,而不是根據(jù)分數(shù)高低對考生進行區(qū)分從而選拔出高分考生,因此考生分數(shù)呈現(xiàn)出略微的負偏態(tài)分布具有合理性。
圖1 CLT考生分數(shù)直方圖
圖2 CAT考生分數(shù)直方圖
CLT、CAT考生分數(shù)的描述性統(tǒng)計如表2所示,可以看出:CLT與CAT中考生分數(shù)的平均值、最大值、最小值差異甚微,確有可比性。
表2 CAT、CLT考生分數(shù)的描述性統(tǒng)計
通過前述測驗效率的比較,本研究中CLT、CAT的標(biāo)準誤范圍已明確,而兩者的信度范圍可在此基礎(chǔ)上通過公式(2)加以求解(其中,r為測驗的信度系數(shù))。經(jīng)計算,本研究得到CLT、CAT的測驗信度系數(shù)值,如表3所示。一般來說,當(dāng)能力與學(xué)業(yè)成就測驗的信度系數(shù)<0.7時,既不能用測驗分數(shù)對個體做評價,也不能在組別間做比較;當(dāng)信度系數(shù)>0.7時,可用于組別間比較;只當(dāng)信度系數(shù)>0.85時,才可用于評價個體。由表3數(shù)據(jù)可知,CAT的測驗信度系數(shù)的平均值接近于0.9,可靠性程度較高且能用于個體評價;而CLT的測驗信度系數(shù)的平均值偏低,可用于組別間比較但不能用于個體評價,其測驗結(jié)果的穩(wěn)定性、一致性還有待商榷。
表3 CLT、CAT的測驗信度系數(shù)值(rxx)
本研究重點關(guān)注CLT、CAT在內(nèi)容效度方面的等效性。CLT、CAT的組卷方式不同:CLT試題編制由“現(xiàn)代教育技術(shù)”課程的任課教師與學(xué)科專家依據(jù)課程目標(biāo)、豐富的教學(xué)及考試命題經(jīng)驗從題庫中選取而成,并按知識點由易至難排列,使得本次CLT試題具有良好的內(nèi)容效度;而CAT采用最大信息量法進行適應(yīng)性選題,未對試題考查的內(nèi)容范圍加以控制,這就意味著考生的能力水平不同,其所做的試題不同,試題考查的知識點亦存在不平衡性。
針對上述情況,本研究按照考生能力水平范圍分布,將參加CAT的考生能力值劃分為三個區(qū)間:(1.264,3.020)為高能力值,(0.525,1.234)為中能力值,(-2.573,0.508)為低能力值;同時,選擇每個區(qū)間的中間值作為考生代表,分析其所做試題的內(nèi)容效度。CLT、CAT中各部分知識點的試題數(shù)量與所占比例如表4所示,可以看出:在本次測驗主要考查的八個知識點中,CLT各知識點的試題數(shù)量依據(jù)題庫相應(yīng)知識點所占的比例進行組卷,試題設(shè)計較為科學(xué);而CAT試題中各知識點的試題數(shù)量與CLT中各知識點的試題數(shù)量存在較大差異,且CAT中高、中、低能力值考生代表的知識點試題考查所占比例也有明顯不同,可見CLT內(nèi)容效度明顯優(yōu)于CAT。
表4 CLT、CAT中各部分知識點的試題數(shù)量(道)與所占比例(%)
為了更全面地探討CLT與CAT測驗的等效性,有研究者通過雙因素方差分析,驗證了不同測驗類型、測驗有無即時反饋對考生測驗焦慮的影響[16][17]。在此基礎(chǔ)上,本研究進行了測驗類型、測驗有無即時反饋對測驗焦慮影響的雙因素方差分析,結(jié)果如表5所示,可以看出:測驗類型對測驗焦慮的主效應(yīng)影響不顯著(=0.517),測驗有無即時反饋對測驗焦慮的主效應(yīng)影響顯著(=0.000***),測驗類型、測驗有無即時反饋的交互效應(yīng)對測驗焦慮的影響顯著(=0.047)。
表5 測驗類型、測驗有無即時反饋對測驗焦慮影響的雙因素方差分析
注:因變量為測驗焦慮,***≤0.001。
本研究采用SPSS可視化呈現(xiàn)了測驗類型與測驗有無即時反饋的交互效應(yīng),結(jié)果如圖3所示。圖3顯示,整體而言,有即時反饋測驗中的考生平均測驗焦慮明顯高于無即時反饋測驗中的考生;無即時反饋時,參與CLT測驗的考生平均測驗焦慮略高于參與CAT測驗的考生,這與Fritts的研究結(jié)果一致[18];有即時反饋時,參與CLT測驗的考生平均測驗焦慮明顯低于參與CAT測驗的考生。導(dǎo)致出現(xiàn)上述結(jié)果的原因,可能在于CAT測驗中的試題難度與考生的能力水平更為匹配,使有無即時反饋對考生測驗焦慮水平的影響更大[19]。
圖3 測驗類型與測驗有無即時反饋的交互效應(yīng)
本研究基于高校師范生“現(xiàn)代教育技術(shù)”課程的評價內(nèi)容,從測驗效率、考生分數(shù)、測驗信度、測驗效度、個體心理特質(zhì)等五個方面,對CLT、CAT測驗的等效性進行了探討。實驗結(jié)果顯示,兩種測驗中考生的分數(shù)具有可比性,且測驗效果互有優(yōu)劣。具體而言,CAT具有更高的測驗效率和測驗信度,這與以往的研究結(jié)論一致;CLT則表現(xiàn)出更為合理的內(nèi)容效度。另外,雙因素方差分析結(jié)果顯示,CAT中有無即時反饋對考生測驗焦慮的影響更大,參加有即時反饋的CAT考生的測驗焦慮水平最高。需要指出的是,本研究中的CAT采用最大信息量法進行選題,選題過程會過度依賴題庫試題的統(tǒng)計學(xué)特征,難以控制CAT試題知識點內(nèi)容的平衡。此外,本研究中的CAT正答概率設(shè)定在=0.5水平,即考生答對或答錯試題的概率均為50%,對考生而言這是一個頗具難度的測驗環(huán)境。為解決上述問題,后續(xù)研究可通過變化CAT的選題策略,如增加控制試題曝光度、采用內(nèi)容平衡的程序算法,來改善CAT內(nèi)容效度較低的問題;同時,可以嘗試將CAT正答概率設(shè)定在=0.7水平,以弱化測驗環(huán)境對考生測驗焦慮水平的影響。
[1]U.S. Department of Education Office of Educational Technology. Future ready learning: Reimagining the role of technology in education[OL].
[2]新華網(wǎng).中共中央、國務(wù)院印發(fā)《中國教育現(xiàn)代化2035》[OL].
[3]教育部.中共中央國務(wù)院印發(fā)《深化新時代教育評價改革總體方案》[OL].
[4]American Educational Research Association, American Psychological Association, National Council on Measurement in Education. Standards for educational and psychological testing[M]. Washington, DC: American Educational Research Association, 2014:59-61.
[5][9]關(guān)丹丹.紙筆考試與計算機自適應(yīng)考試的等效研究探討[J].中國考試,2011,(10):13-16.
[6]高旭亮,涂冬波,王芳,等.可修改答案的計算機化自適應(yīng)測驗的方法[J].心理科學(xué)進展,2016,(4):654-664.
[7]鄧遠平,戴海琦,羅照盛.計算機自適應(yīng)測驗在特質(zhì)焦慮量表中的運用[J].心理學(xué)探新,2014,(3):272-275、283.
[8]羅照盛.項目反應(yīng)理論基礎(chǔ)[M].北京:北京師范大學(xué)出版社,2012:1-7.
[10]黃瓊,周仁來.中國學(xué)生考試焦慮的發(fā)展趨勢——縱向分析與橫向驗證[J].中國臨床心理學(xué)雜志,2019,(1):113-118.
[11][18]Fritts B E, Marszalek J M. Computerized adaptive testing, anxiety levels, and gender differences[J]. Social Psychology of Education, 2010,(3):441-458.
[12]Ortner T M, Caspers J. Consequences of test anxiety on adaptive versus fixed item testing[J]. European Journal of Psychological Assessment, 2011,(3):157-163.
[13]李中亮.桑代克成人學(xué)習(xí)理論及其啟示[J].成人教育,2007,(1):30-32.
[14]Taylor J, Deane F P. Development of a short form of the test anxiety inventory (TAI)[J].Journal of General Psychology, 2002,(2):127-136.
[15]董云英,周仁來,高鑫,等.考試焦慮簡表在大學(xué)生中應(yīng)用的信效度[J].中國心理衛(wèi)生雜志,2011,(11):872-876.
[16]Beckmann J F, Beckmann N. Effects of feedback on performance and response latencies in untimed reasoning tests[J]. Psychology Science, 2005,(2):262-278.
[17][19]Ling G, Attali Y, Finn B, et al. Is a computerized adaptive test more motivating than a fixed-item test[J]. Applied Psychological Measurement, 2017,(7):495-511.
Research on the Equivalence of Computerized Linear Test and Adaptive Test
LI Xin-yu LU Hong[Corresponding Author]
Computer-based tests have gradually become popular, while, different patterns of computer tests may produce deviations in test results when measuring the same task, leading to unfairness in educational measurement and evaluation results.Based on item response theory, this paper explored the question of whether computerized linear tests and computer adaptive tests were equivalent in testing efficiency, the statistical characteristics of test results, and the effects on the individual psychological characteristics of the test takers. Meanwhile, this paper conducted empirical research by taking the course “Modern Educational Technology” as an example. The results demonstrated that the scores of the candidates in the two tests were comparable. and the computer adaptive test had higher test efficiency and testing reliability, but the presence or absence of immediate feedback had a greater influence on examinees’ test anxiety. Nevertheless, computerized linear test had more reasonable content validity, and the presence or absence of immediate feedback had less influence on examinees’ test anxiety. The research of the paper not only scientifically analyzed whether the choice of test format in teaching evaluation was fair and reasonable, but also provided theoretical reference for the tester to choose the test format in a targeted manner according to the test scenario.
computerized linear test; computerized adaptive test; equivalence; timely feedback; test anxiety
G40-057
A
1009—8097(2022)01—0085—09
10.3969/j.issn.1009-8097.2022.01.009
李心鈺,山東師范大學(xué)教育學(xué)部科研助理,碩士,研究方向為計算機教育應(yīng)用,郵箱為Echo_lixinyu@163.com。
2021年6月30日
編輯:衍洐