楊丹 劉漢明
摘要:本文在項(xiàng)目反應(yīng)理論的基礎(chǔ)上,提出了自適應(yīng)參數(shù)估計(jì)數(shù)學(xué)模型,并根據(jù)模型,設(shè)計(jì)并實(shí)現(xiàn)了基于原始題植入的《現(xiàn)代教育技術(shù)》CAT題庫建設(shè)方法,解決了樣本采集異常困難、項(xiàng)目參數(shù)估計(jì)與等值問題,有效提高了題庫的容量與質(zhì)量。
關(guān)鍵詞:原始題植入;《現(xiàn)代教育技術(shù)》;CAT;題庫
中圖分類號(hào):Tp311.56 文獻(xiàn)標(biāo)識(shí)碼:A 論文編號(hào):1674-2117(2016)20-0088-06
● 引言
師范生教育技術(shù)能力測評(píng)是對(duì)應(yīng)用能力的測評(píng)。計(jì)算機(jī)化考試(Computer-Based Testing,CBT)和傳統(tǒng)筆試均未初估被試能力,常常導(dǎo)致出現(xiàn)“高者低測,低者高測”的情況。計(jì)算機(jī)自適應(yīng)考試(Computerized Adaptive Test,CAT)能夠根據(jù)被試者的作答情況不斷地估計(jì)其能力,并選擇難度合適的項(xiàng)目施測,主動(dòng)適應(yīng)考生實(shí)有水平,以達(dá)到“因人施測”的目的,這開拓了教育測量的新領(lǐng)地。近幾年,計(jì)算機(jī)自適應(yīng)考試逐漸被應(yīng)用于師范生教育技術(shù)能力測試。
題庫是影響自適應(yīng)測試信度和效度的重要因素,題庫的建設(shè)是CAT編制中最基礎(chǔ)也是工作量最大的工程。課程題庫是一個(gè)功能強(qiáng)大的平臺(tái),可以實(shí)現(xiàn)課程、學(xué)習(xí)者、教師以及管理者的有機(jī)連接,發(fā)揮助學(xué)、助教、管理及評(píng)價(jià)功能。[1]一個(gè)優(yōu)秀的題庫不僅要提供測試的題目,還要提供必要的試題參數(shù),以確保自適應(yīng)優(yōu)質(zhì)試卷的生成。目前,研究[2][3][4]主要關(guān)注以項(xiàng)目反應(yīng)理論(Item Response Theory,IRT)為指導(dǎo)所做的項(xiàng)目分析、參數(shù)等值等工作,對(duì)《現(xiàn)代教育技術(shù)》CAT題庫的建設(shè)、擴(kuò)充鮮有提及。題庫的重復(fù)使用,必然會(huì)使部分試題的曝光率升高,使其安全性受到威脅;且隨著時(shí)間的推移,題庫中的一些項(xiàng)目會(huì)因?yàn)榇嬖谌毕?、過時(shí)、過度曝光等問題需要用新題去替換或增補(bǔ)。[5]有研究指出,一個(gè)合適的自適應(yīng)考試的題庫容量必須在3000道以上,這樣產(chǎn)生的標(biāo)準(zhǔn)差和偏差較小。[6][7]為了達(dá)到足夠的題庫規(guī)模,研究[8]通過網(wǎng)絡(luò)征集試題和組織抽樣測試建立題庫,這雖然解決了試題源的問題,但存在試題曝光的風(fēng)險(xiǎn)和樣本采集困難的問題。在試題參數(shù)處理上,張鴻嘗試使用經(jīng)典測量理論(Classical Test Theory,CTT)采集樣本,結(jié)合項(xiàng)目反應(yīng)理論的三參數(shù)模型,確定試題的3個(gè)質(zhì)量參數(shù)。[9]用CTT采集樣本解決了初始樣本的問題,但若要?jiǎng)討B(tài)擴(kuò)充題庫,仍存在再續(xù)樣本采集困難的問題。同時(shí),CTT采集的樣本與IRT的三參數(shù)轉(zhuǎn)換,也存在等值的問題。因此,現(xiàn)有題庫建設(shè)仍存在以下不足:①初始試題建設(shè)容易,但動(dòng)態(tài)擴(kuò)充題庫困難;題庫量也不夠大,遠(yuǎn)遠(yuǎn)沒有達(dá)到自適應(yīng)考試需要的題目數(shù)量[10];②項(xiàng)目參數(shù)估計(jì)與等值的問題;③樣本采集異常困難。
● 原始題植入
1.原始題植入
原始題是沒有設(shè)置任何項(xiàng)目參數(shù)的試題。原始題植入是在被試者參加自適應(yīng)測試的過程中插入原始題供多名被試者作答(但不參與能力估值),以收集被試者對(duì)原始題的作答反應(yīng),并根據(jù)這些反應(yīng)對(duì)原始題進(jìn)行項(xiàng)目參數(shù)估計(jì)。采用自適應(yīng)參數(shù)估計(jì)法(Adaptive Estimating Method,AEM)擴(kuò)充題庫步驟主要有:①由命題專家命制一批原始題;②在CAT測試的同時(shí)植入原始題,獲得原始題的作答反應(yīng),估出項(xiàng)目參數(shù);③挑選出一批優(yōu)質(zhì)的原始題連同項(xiàng)目參數(shù)一并入庫,成為正式測試試題。采用AEM方法有如下優(yōu)點(diǎn):一是無需單獨(dú)尋找被試者對(duì)新題進(jìn)行測試,成本低,安全性好。參與CAT測試的師范生數(shù)量巨大,解決了樣本采集難的問題,而且原始題是在樣本毫不知情的狀態(tài)下植入,提高了試題的安全性。二是題庫擴(kuò)充方便,不受新試題量的限制。三是原始題是在CAT測試時(shí)植入,基于項(xiàng)目參數(shù)不變性的特點(diǎn)使其參數(shù)無需再做等值。
2.原始題自適應(yīng)參數(shù)估計(jì)模型
項(xiàng)目反應(yīng)理論是一種新興的心理與教育測量理論,它突破了經(jīng)典測量理論的局限性,將被試者特質(zhì)水平與被試者在項(xiàng)目上的行為關(guān)聯(lián)起來,并將其參數(shù)化、模型化。[11]根據(jù)這一理論建立的考試模型稱為IRT模型,它以概率論來解釋被試者對(duì)試題的反應(yīng)與其潛在能力特質(zhì)之間的關(guān)系。單參數(shù)Logistic(One-Parameter Logistic Model,1PLM)和雙參數(shù)Logistic(2PLM)模型分別表示為、。其中D=1.7,參數(shù)為項(xiàng)目的難度參數(shù);i表示項(xiàng)目作答次數(shù);j表示項(xiàng)目數(shù);表示第j個(gè)項(xiàng)目第i次被作答時(shí)的作答反應(yīng);為第j個(gè)項(xiàng)目第i次被作答時(shí)對(duì)應(yīng)被試能力值; 表示能力為被試答對(duì)難度為的項(xiàng)目的概率;表示能力為被試答錯(cuò)難度為的項(xiàng)目的概率。
自適應(yīng)參數(shù)估計(jì)方法[12]指在被試者參加自適應(yīng)測試的過程中插入一些新的原始試題,并收集被試者對(duì)新題的作答反應(yīng),再對(duì)這些原始試題作項(xiàng)目參數(shù)估計(jì)。自適應(yīng)參數(shù)估計(jì)模型是單參數(shù)和雙參數(shù)模型的組合:被試能力值已知,采用1PLM條件極大似然估計(jì)法(Conditional Maximum Likelihood Estimation,CMLE)估計(jì)項(xiàng)目難度參數(shù);將已估出的原始題的難度作為已知值,采用2PLM條件極大似然估計(jì)法估計(jì)原始題的項(xiàng)目區(qū)分度。
當(dāng)被試能力值已知,采用條件極大似然估計(jì)分別對(duì)新項(xiàng)目的難度、區(qū)分度進(jìn)行估計(jì)。由此可以得出似然函數(shù):
(1)
(2)
對(duì)式(1)(2)的對(duì)數(shù)似然函數(shù)分別求二階偏導(dǎo)數(shù)后,所得難度參數(shù)表達(dá)式是非線性方程,并使用Newton-Raphson迭代法求解,便可估出項(xiàng)目難度b和區(qū)分度a。
項(xiàng)目反應(yīng)理論與經(jīng)典測驗(yàn)理論相比最大的優(yōu)點(diǎn)便是項(xiàng)目參數(shù)的不變性,所以估出的參數(shù)無需再做等值。
● 原始題植入的《現(xiàn)代教育技術(shù)》CAT題庫建設(shè)
《現(xiàn)代教育技術(shù)》題庫是CAT系統(tǒng)中最基礎(chǔ),也最為關(guān)鍵的工程。其不僅需要提供大量且分布科學(xué)合理的測試試題,而且每道試題還需提供必要的項(xiàng)目參數(shù),以確保優(yōu)質(zhì)的自適應(yīng)測試試卷的生成。
1.試題開發(fā)
試題開發(fā)包括制定命題規(guī)劃和編制試題兩個(gè)階段。命題規(guī)劃是題庫建設(shè)的起點(diǎn),也是關(guān)鍵點(diǎn),對(duì)試題的規(guī)劃不科學(xué)或不全面, 均會(huì)影響題庫的質(zhì)量。教育部頒布的《中小學(xué)教師教育技術(shù)能力標(biāo)準(zhǔn)》(以下簡稱《標(biāo)準(zhǔn)》)[13]從意識(shí)與態(tài)度、知識(shí)與技能、應(yīng)用與創(chuàng)新和社會(huì)責(zé)任等方面解讀了中小學(xué)教師的教育技術(shù)能力要求??紤]到師范生與在職教師的異同點(diǎn)和實(shí)際教學(xué)環(huán)境,筆者以《標(biāo)準(zhǔn)》的4個(gè)維度為基準(zhǔn),考慮教學(xué)目標(biāo)、學(xué)科特性、試題分布、題量和師范生的特點(diǎn),制定命題規(guī)劃(如圖1)。
2.試測、參數(shù)估計(jì)
為了保證試題的質(zhì)量,試題編制好后需要對(duì)其進(jìn)行質(zhì)量分析, 包括定性分析與定量分析兩個(gè)方面。[14]定性分析主要檢查試題與測試目標(biāo)的一致性,包括試題是否符合命題規(guī)劃要求、測試內(nèi)容是否有意義、試題表述是否清晰等。定量分析主要檢查試題難度和區(qū)分度的合理性,采用聯(lián)合極大似然估計(jì)法[15]估計(jì)試題的區(qū)分度a和難度b,保留區(qū)分度合適的試題,淘汰區(qū)分度低的試題;檢查試題難度分布是否合理,如不合理則加以調(diào)整,以確保在測量各種特質(zhì)水平的被試者時(shí)都有足夠的試題。
3.試題組織方式
試題通常包括試題正文、選項(xiàng)、正確答案、試題參數(shù)等信息。在整理試題時(shí),可以根據(jù)認(rèn)知目標(biāo)層次、內(nèi)容、難度、區(qū)分度等進(jìn)行分區(qū)。為了便于CAT在施測時(shí)選題,本題庫根據(jù)區(qū)分度不同分區(qū)存儲(chǔ)。
4.題庫動(dòng)態(tài)擴(kuò)充
題庫的重復(fù)使用,必然會(huì)導(dǎo)致部分試題的曝光率升高,從而使試題的安全性降低,如區(qū)分度高的題目經(jīng)常會(huì)被使用。[16]為了有效降低試題的曝光率,不但要建立一個(gè)規(guī)模足夠大、分布合理的題庫,而且題庫內(nèi)容還要隨時(shí)更新,以確保試題內(nèi)容的效度和統(tǒng)計(jì)質(zhì)量,保障題庫的有效性和安全性。
(1)原始題開發(fā)
原始題的來源有三個(gè):①由經(jīng)驗(yàn)豐富的教師出題,可以確保試題行文通順和目標(biāo)指向;②從網(wǎng)絡(luò)下載,依據(jù)命題規(guī)劃挑選修改;③依據(jù)命題規(guī)劃,以作業(yè)的形式布置學(xué)生出題,教師挑選修改,但不作為本班學(xué)生測試。值得注意的是,雖然第二個(gè)來源的試題來源廣泛,但容易曝光,存在安全隱患。第三個(gè)來源的作業(yè)形式用語親切、有趣,但行文不夠嚴(yán)謹(jǐn),需要教師做適度修改。
(2)原始題植入算法
在對(duì)考生做CAT施測過程中,插入的原始題必須是在不被考生察覺的狀態(tài)下植入,且植入順序由系統(tǒng)隨機(jī)產(chǎn)生,同時(shí)其作答反應(yīng)不參與被試能力的估值。系統(tǒng)要求每道原始題作答150次,每個(gè)被試者作答6道原始題,且同一原始題不能被同一被試者重復(fù)作答。原始題庫中的原始題會(huì)隨機(jī)地呈現(xiàn)給被試者作答,當(dāng)所有被試者都完成CAT測試以后,用極大似然估計(jì)法對(duì)原始題的項(xiàng)目參數(shù)進(jìn)行估計(jì)。
在被試者完成6道真題(已經(jīng)設(shè)置好項(xiàng)目參數(shù)的用作估計(jì)被試能力的試題)的作答后,系統(tǒng)會(huì)每隔3道真題植入一道原始題。若被試者在完成25道真題之前信息量已大于25,則連續(xù)植入未被植入的原始題,算法如下頁圖2所示。
(3)原始題自適應(yīng)參數(shù)估計(jì)
被試能力值已知,設(shè)難度參數(shù)的初值=0,采用1PLM條件極大似然估計(jì)法估計(jì)原始題難度參數(shù)b。之后,將已經(jīng)估出的難度作為已知值,采用2PLM條件極大似然估計(jì)法估計(jì)原始題的項(xiàng)目區(qū)分度a。具體代碼如下:
void AEM(NriScoreType* Ns, ItemsPara* IP)
{
int i, Nb;
double a0, b0, sP, f1, f2, Z, r;
//估計(jì)b
b0 = 0.0;
for(Nb = 0; Nb < 100; Nb++) {//N-R迭代
f1 = f2 = 0.0;
for(i = 0; i < Ns->Seta.size(); i++) {
sP = 1.0 / (1.0 + exp((-1.0) * D * (Ns->Seta(i) - b0)));
f1 = f1 - D * (Ns->Score(i) - sP);
f2 = f2 - D * D * sP * (1.0 - sP);
}
if(f2 == 0.0) break; //如果f2為0,則迭代失敗,退出迭代
else b0 = b0 - f1 / f2;
if(fabs(f1 / f2) < 0.01) break; //迭代精度小于0.01則終止迭代
if(b0 > 3.0) b0 = 3.0; //限制b上限為3
if(b0 < -3.0) b0 = -3.0//限制b下限為-3
}
IP->b = b0;
//估計(jì)a
Z = GetZ(Ns);//計(jì)算Z
r = Z / b;
if(r < 0.0) r = 0.0;
if(r > 0.9486) r = 0.9486;
a0 = r / sqrt(1.0 - r * r);
for(Nb = 0; Nb < 100; Nb++) {//N-R迭代
f1 = f2 = 0.0;
for(i = 0; i < Ns->Seta.size(); i++) {
sP = 1.0 / (1.0 + exp((-1) * D * a0 * (Ns->Seta(i) - b)));
f1 = f1 + D * (Ns->Seta(i) - b) * (Ns->Score(i) - sP);
f2 = f2 + D * D * (Ns->Seta(i) - b) ^ 2.0 * sP * (1.0 - sP);
}
if(f2 == 0.0) break;//如果f2為0,則迭代失敗,退出迭代
else a0 = a0 - f1 / f2;
if(fabs(f1 / f2) < 0.01) break; //迭代精度小于0.01則終止迭代
if(a0 > 3.0) a0 = 3.0;//限制a上限為3
if(a0 < 0) a0 = 0.0; //限制a下限為0
}
IP->a= a0;
}
(4)優(yōu)質(zhì)原始題入庫
原始題的項(xiàng)目參數(shù)估計(jì)完成后,開始挑選優(yōu)質(zhì)試題入庫。首先,審查原始題的區(qū)分度,淘汰區(qū)分度低的原始題,保留區(qū)分度合適的原始題。其次,為了保證新題與舊題的融合,調(diào)整原始題難度分布至科學(xué)合理。原始題入庫后形成新的題庫。再次,審查題庫的區(qū)分度與難度的分布,并暫時(shí)屏蔽曝光率高的試題,以保證有足夠多且安全的試題量適合各種特質(zhì)水平的被試者施測。
● 模擬仿真
首先以標(biāo)準(zhǔn)正態(tài)分布模擬生成1000名被試者的能力真值~N(0,1),并產(chǎn)生編號(hào)和姓名等信息項(xiàng)后導(dǎo)入被試者信息表。然后模擬生成1000個(gè)區(qū)分度為a、難度為b的項(xiàng)目作為試題庫,并導(dǎo)入題庫信息表,項(xiàng)目區(qū)分度參數(shù)a和難度b的分布分別為對(duì)數(shù)標(biāo)正態(tài)分布lna~N(0,1)和標(biāo)準(zhǔn)正態(tài)分布b~N(0,1),能力真值介于-3至3之間,b介于-3至3之間,a介于0.2至2.5之間。最后任意生成100個(gè)項(xiàng)目作為原始題并導(dǎo)入原始題信息表。
在原始題數(shù)為100、被試者為1000的情況下,令難度參數(shù)的初值=0,采用條件極大似然估計(jì)法估計(jì)項(xiàng)目難度參數(shù)。實(shí)驗(yàn)獨(dú)立重復(fù)模擬30次,其結(jié)果如圖3所示。
在原始題數(shù)為100、被試者為1000的情況下,采用1PLM估計(jì)原始題難度,再把已經(jīng)估計(jì)原始題的難度作為已知值,采用CMLE方法估計(jì)原始題的項(xiàng)目區(qū)分度。實(shí)驗(yàn)獨(dú)立重復(fù)模擬30次,其結(jié)果如圖4所示。
ABS、RMSD值越小,其估計(jì)準(zhǔn)確度就越高。實(shí)驗(yàn)結(jié)果表明,原始題的項(xiàng)目參數(shù)估計(jì)的精確度隨其植入次數(shù)的增加而增加。
● 結(jié)束語
師范生的教育技術(shù)能力測評(píng)CAT題庫建設(shè)還存在兩個(gè)突出的技術(shù)問題:項(xiàng)目參數(shù)估計(jì)和等值。原始題在被試者進(jìn)行自適應(yīng)測試的過程中植入,解決了樣本采集異常困難的問題,并保證了試題的安全性。采用自適應(yīng)參數(shù)估計(jì)法對(duì)原始題進(jìn)行參數(shù)估計(jì),確保了項(xiàng)目參數(shù)的精度,并無需再做等值。隨時(shí)更新題庫的內(nèi)容,確保試題的內(nèi)容效度和統(tǒng)計(jì)質(zhì)量,保障題庫安全和測試公平,對(duì)自適應(yīng)測試發(fā)展具有重要意義。本題庫建設(shè)主要應(yīng)用于客觀題方面,并正在師范生的《現(xiàn)代教育技術(shù)》自適應(yīng)測試系統(tǒng)中應(yīng)用,效果良好,但如何做主觀題原始題的參數(shù)估計(jì)還有待進(jìn)一步研究。
參考文獻(xiàn):
[1]鄭紹紅.開放大學(xué)課程題庫建設(shè)研究[J].中國遠(yuǎn)程教育研究,2014(1).
[2]陳仕品,張劍平.《現(xiàn)代教育技術(shù)》精品課程自適應(yīng)測試系統(tǒng)的設(shè)計(jì)[J].中國電化教育,2008(9):93-96.
[3]邱紅霞.基于Web的自適應(yīng)測試系統(tǒng)的設(shè)計(jì)與實(shí)現(xiàn)——以《現(xiàn)代教育技術(shù)》國家精品課程為例[D].金華:浙江師范大學(xué),2009.
[4]張倩倩.IRT在《現(xiàn)代教育技術(shù)》題庫構(gòu)建中的應(yīng)用[D].濟(jì)南:山東師范大學(xué),2011.
[5]毛秀珍,辛濤.認(rèn)知診斷CAT中項(xiàng)目曝光控制方法的比較[J].心理學(xué)報(bào),2013(6).
[6][10]田懷鳳,袁琰,王立,陳玉泉.機(jī)助自適應(yīng)考試(CAT)系統(tǒng)題庫的仿真研究[J].計(jì)算機(jī)仿真,2005(7):246-260.
[7]王建忠,張萍,等.考試系統(tǒng)中題庫量與試題量的關(guān)系研究[J].計(jì)算機(jī)應(yīng)用研究,2010(2):611-613.
[8]余勝泉,何克抗.網(wǎng)絡(luò)題庫系統(tǒng)的設(shè)計(jì)與實(shí)現(xiàn)[J].中國遠(yuǎn)程教育,2000(9):53-57.
[9]張鴻.計(jì)算機(jī)自適應(yīng)題庫的建立[J].電子技術(shù)應(yīng)用,2009(8):152-154.
[11]漆書青,戴海崎,丁樹良.現(xiàn)代教育與心理測量學(xué)[M].南昌:江西教育出版社,1998.
[12]游曉峰.CAT中原始題項(xiàng)目參數(shù)的估計(jì)[D].南昌:江西師范大學(xué),2008.
[13]特稿.中小學(xué)教師教育技術(shù)能力標(biāo)準(zhǔn)(試行)[J].中國電化教育研究,2005(2):5-9.
[14][16]劉麗平,王文杰,等.計(jì)算機(jī)自適應(yīng)考試(CAT)系統(tǒng)題庫的設(shè)計(jì)與實(shí)現(xiàn)[J].計(jì)算機(jī)系統(tǒng)應(yīng)用,2006(3):10-12.
[15]Debevec P,YiZhou Yu,et al.Efficient Wiew-Dependent Image-based Renderiing with Perspective exture-Mapping[C].9th Eurographics Rendering Workshop,1998:105-106.
作者簡介:楊丹(1978—),女,江西樟樹人,講師,碩士,主要從事現(xiàn)代教育技術(shù)、教學(xué)設(shè)計(jì)研究;劉漢明(1970—),男,江西南康人,副教授,博士,主要從事軟件工程研究。
基金項(xiàng)目:江西省教學(xué)改革研究項(xiàng)目“基于原始題植入的《現(xiàn)代教育技術(shù)》CAT題庫系統(tǒng)研究”(項(xiàng)目編號(hào):JXJG-12-11-17)階段性研究成果。