韓曉杰 任 杰
等值是將不同測(cè)驗(yàn)版本的分?jǐn)?shù)統(tǒng)一到一個(gè)量表上的過(guò)程[1]。 等值不僅有利于保證測(cè)驗(yàn)的公平,為分?jǐn)?shù)使用者提供來(lái)自不同測(cè)驗(yàn)版本上具有同等意義的分?jǐn)?shù),讓不同版本的測(cè)驗(yàn)分?jǐn)?shù)具有可比性;同時(shí),等值也是題庫(kù)建設(shè)中的重要一環(huán), 通過(guò)等值可以將不同測(cè)驗(yàn)版本的題目參數(shù)統(tǒng)一到一個(gè)量尺上, 讓題目參數(shù)具有可比性,等值誤差越小,越有利于科學(xué)化題庫(kù)的建設(shè)。
為保證測(cè)驗(yàn)的安全性, 某些全國(guó)性大型測(cè)驗(yàn)經(jīng)常以平行試卷的形式對(duì)全國(guó)考生進(jìn)行施測(cè)。 在題庫(kù)建設(shè)時(shí),需對(duì)所有平行試卷進(jìn)行等值處理。不同地區(qū)的考生在平行試卷上得分不同,究其原因,一方面是試卷難度不同, 另一方面是不同地區(qū)考生能力存在差異。涂冬波(2004)指出,我國(guó)教育存在地區(qū)間發(fā)展不平衡的問(wèn)題, 且該問(wèn)題直接造成了地區(qū)間人才培養(yǎng)上的差距[2],即地區(qū)教育水平差異很大程度上會(huì)影響考生能力。那么,不同地區(qū)考生能力分布不同是否會(huì)影響不同平行試卷等值到基準(zhǔn)卷上的結(jié)果? 這一問(wèn)題直接關(guān)系到題庫(kù)建設(shè)的科學(xué)化程度。
一般認(rèn)為, 基于項(xiàng)目反應(yīng)理論 (item response theory,IRT)的等值的一大優(yōu)點(diǎn)在于不依賴(lài)被試。 但是,Holland & Rubin(1982)提出,等值或多或少存在樣本依賴(lài)性[3]。 羅照盛等(2007)指出,當(dāng)前關(guān)于等值誤差問(wèn)題的研究, 基本上都是在固定被試參數(shù)總體的情況下,并未系統(tǒng)研究錨題設(shè)計(jì)情形下,使用不同分布形態(tài)的被試組估計(jì)項(xiàng)目特征曲線(xiàn)等值系數(shù)時(shí)可能帶來(lái)的等值誤差;其研究結(jié)果表明,在實(shí)際等值估計(jì)過(guò)程中,不應(yīng)只考慮樣本量的大小,必須重視被試樣本的分布形態(tài)[4]。 吳佳儒、陳柏熹(2008)針對(duì)等值過(guò)程中不同受試者人數(shù)與能力分布形態(tài)對(duì)試題參數(shù)與能力估計(jì)精準(zhǔn)度的影響進(jìn)行了研究, 研究結(jié)果表明: 能力以均等分布時(shí), 等值的均方根誤差(Root Mean Square Error,RMSE)值最高[5]。 Sevilay&Nukhet(2012)基于IRT 理論,根據(jù)樣本量與被試分布形態(tài)對(duì)分別估計(jì)下的四種等值方法進(jìn)行了比較研究;研究結(jié)果表明,Stocking-Lord 法的等值誤差最小,且被試樣組分布形態(tài)越接近,等值誤差越小[6]。 以往研究中,試卷題目參數(shù)與考生能力參數(shù)均采用模擬數(shù)據(jù)。本研究將采用實(shí)際題目參數(shù), 考生能力參數(shù)將根據(jù)實(shí)際考生能力參數(shù)進(jìn)行模擬。 本文意在探討與基準(zhǔn)卷能力分布一致的被試以及與基準(zhǔn)卷能力分布差異較大的被試對(duì)等值誤差的影響, 并研究這種誤差是否可以通過(guò)增大被試量來(lái)解決。
本研究基于IRT 理論中的LOGISTIC 雙參數(shù)模型,采用共同題非等組設(shè)計(jì)。共同題非等組設(shè)計(jì)是等值設(shè)計(jì)中最為靈活有效的設(shè)計(jì)[7]。其具體方案是將同一測(cè)驗(yàn)的不同版本對(duì)兩組考生進(jìn)行施測(cè), 兩個(gè)測(cè)驗(yàn)版本之間存在約20%的共同題目。 兩組考生的得分受到考生能力與題目難度兩方面的影響, 通過(guò)考生在共同題上的作答表現(xiàn)可以分離出考生能力的差別,從而得到試卷難度差異。
在進(jìn)行兩份試卷等值時(shí), 本研究采用項(xiàng)目特征曲線(xiàn)法。 該方法的優(yōu)點(diǎn)在于充分利用了題目參數(shù)與考生能力參數(shù)的信息, 增加了等值結(jié)果的可靠性。1980 年,Haebara 率先提出基于項(xiàng)目特征曲線(xiàn)法來(lái)完成量表的轉(zhuǎn)換。 Raju & Arenson(2002)認(rèn)為,對(duì)于具有一定能力水平的參與者, 項(xiàng)目特征曲線(xiàn)的差值為每個(gè)項(xiàng)目的項(xiàng)目特征曲線(xiàn)平方和[8]。 Haebara 提出了使這一差值最小的方程常數(shù)和方程曲線(xiàn)。 1983年,Stocking 和Lord 提出與之類(lèi)似的方法[9]。 兩種方法均基于以下公式:
其中,θ 為考生的能力參數(shù),a 為題目的區(qū)分度參數(shù),b 為題目的難度參數(shù),α為標(biāo)桿卷,β 為待等值試卷,Pij為被試j 正確作答題目i 的概率。 A 為等值方程中的斜率,B 為截距。 將測(cè)驗(yàn)樣本的項(xiàng)目參數(shù)估計(jì)值帶入,會(huì)存在誤差ε,誤差最小時(shí)的A、B 值即為理想的等值系數(shù)值。 下面將分別介紹Haebara 法與Stocking-Lord 法對(duì)A、B 值的估計(jì)原理。
Haebara 法首先對(duì)誤差求平方,可得:
若存在n 個(gè)被試,m 個(gè)題目, 則將上式對(duì)i 與j進(jìn)行求和,得到:
Stocking & Lord 法與Haeraba 的方法稍有差別。由于同一被試在同一批項(xiàng)目上的正確作答概率是相等的,Stocking-Lord 法首先將被試j 固定, 對(duì)題目i的正確作答概率進(jìn)行累加,可得:
此時(shí),再帶入?yún)?shù)估計(jì)值,計(jì)算誤差方差,可得:
若存在m 個(gè)題目, 則需要對(duì)上式中的j 進(jìn)行求和,并記為F2,可得:
當(dāng)誤差方差最小時(shí),即令F1與F2最小,求出A、B 值即為理想的等值系數(shù)。 一般方法為求導(dǎo)并采用牛頓迭代法迭代求出最佳A、B 值。
等值方法不同會(huì)帶來(lái)不同的等值誤差。 誤差分為隨機(jī)誤差和系統(tǒng)誤差。 隨機(jī)誤差是由抽樣造成的,增大樣本量,隨機(jī)誤差會(huì)隨之降低。 因此,本研究旨在通過(guò)對(duì)考生能力分布與被試量以及等值方法的研究,為降低等值誤差提供參考。 同時(shí),采用等值分?jǐn)?shù)標(biāo)準(zhǔn)誤、等值系數(shù)標(biāo)準(zhǔn)誤、共同題參數(shù)穩(wěn)定性三種方法對(duì)等值結(jié)果進(jìn)行評(píng)價(jià)。
本研究涉及某漢語(yǔ)考試某兩個(gè)年份的試卷X 和Y。 這兩份試卷為平行試卷,其中X 試卷為基準(zhǔn)卷,Y試卷為待等值試卷。X 與Y 包含20%的共同題。作答X 試卷的考生組記為P, 作答Y 試卷的考生組記為Q。 模擬不同被試量下P 考生分布以及Q 考生分布去作答Y 試卷,再將Y 試卷與X 試卷等值,以此研究不同等值方法下考生分布及被試量對(duì)等值結(jié)果的影響。
本研究采用WINGEN3 對(duì)考生作答數(shù)據(jù)進(jìn)行模擬,采用R 語(yǔ)言自編程序進(jìn)行參數(shù)估計(jì)和試卷等值。
首先利用R 語(yǔ)言自編程序根據(jù)Q 組考生在Y試卷上的作答反應(yīng)估計(jì)出Q 組考生的能力值, 并計(jì)算Q 組考生能力值的平均值與標(biāo)準(zhǔn)差。 經(jīng)計(jì)算,平均值θQ為-0.064,標(biāo)準(zhǔn)差θQ為0.85。再根據(jù)P 與Q 兩組考生在共同題上的作答反應(yīng)估計(jì)出兩組考生的能力差異,記為θε。 由此可得與Q 組考生在同一能力量尺上的P 組考生的能力為θP=θQ+θε。 經(jīng)計(jì)算θP為-2.7。
利用WINGEN3 對(duì)考生作答進(jìn)行模擬, 試卷參數(shù)使用Y 試卷的真實(shí)參數(shù), 考生能力參數(shù)為正態(tài)分布,平均值分別采用θP和θQ,標(biāo)準(zhǔn)差采用原始能力值的標(biāo)準(zhǔn)差, 被試量分別為500、1000、5000 三個(gè)批次, 每個(gè)批次分別模擬15 次, 共90 批考生作答數(shù)據(jù)。 將90 批考生數(shù)據(jù)分別與基準(zhǔn)卷X 進(jìn)行等值,采用等值分?jǐn)?shù)標(biāo)準(zhǔn)誤、等值系數(shù)標(biāo)準(zhǔn)誤、共同題穩(wěn)定性三種方法對(duì)等值結(jié)果進(jìn)行評(píng)價(jià)。
因此, 根據(jù)考生能力分布與被試量共模擬了以下6 種情況:
①被試量為500,考生能力分布服從[N(-2.7,1)]
②被試量為1000,考生能力分布服從[N(-2.7,1)]
③被試量為5000,考生能力分布服從[N(-2.7,1)]
④被試量為500,考生能力分布服從[N(-0.064,0.85)]
⑤被試量為1000,考生能力分布服從[N(-0.064,0.85)]
⑥被試量為5000,考生能力分布服從[N(-0.064,0.85)]
以下簡(jiǎn)稱(chēng)N(-2.7,1)為P 分布,N(-0.064,0.85)為Q 分布。
學(xué)界對(duì)于等值結(jié)果的評(píng)價(jià)標(biāo)準(zhǔn)不一。張建、任杰(2018)提出,可以根據(jù)評(píng)價(jià)的對(duì)象不同,將等值結(jié)果評(píng)價(jià)標(biāo)準(zhǔn)劃分為評(píng)價(jià)等值分?jǐn)?shù)的標(biāo)準(zhǔn)和評(píng)價(jià)等值參數(shù)的標(biāo)準(zhǔn)[10]。 本研究擬采用以上兩類(lèi)評(píng)價(jià)標(biāo)準(zhǔn)中的等值分?jǐn)?shù)標(biāo)準(zhǔn)誤、等值系數(shù)標(biāo)準(zhǔn)誤、共同題參數(shù)穩(wěn)定性三種評(píng)價(jià)方法對(duì)等值結(jié)果進(jìn)行評(píng)價(jià)。
等值分?jǐn)?shù)標(biāo)準(zhǔn)誤是在評(píng)價(jià)等值分?jǐn)?shù)時(shí)采取的主要評(píng)價(jià)標(biāo)準(zhǔn), 其實(shí)質(zhì)是考察樣本量對(duì)等值分?jǐn)?shù)的影響。一般而言,樣本量越大,等值誤差越小,等值結(jié)果越穩(wěn)定。 Bootstrap 法和Delta 法均可計(jì)算等值誤差。戴海崎(1999)認(rèn)為,Bootstrap 法對(duì)等值誤差的估計(jì)更接近于等值標(biāo)準(zhǔn)誤差的定義[11]。 Bootstrap 法的計(jì)算步驟如下:
(1)分別在參加X(jué) 測(cè)驗(yàn)與Y 測(cè)驗(yàn)的考生中抽取樣本量為nX、ny的樣本;
(2)采用適當(dāng)?shù)牡戎捣椒▽蓚€(gè)樣本進(jìn)行等值,可得:
由于抽樣的復(fù)雜性, 一般采用特定的程序進(jìn)行抽樣和等值。等值后不僅會(huì)產(chǎn)生等值分?jǐn)?shù),也會(huì)產(chǎn)生等值分?jǐn)?shù)標(biāo)準(zhǔn)誤。等值分?jǐn)?shù)標(biāo)準(zhǔn)誤越小,等值結(jié)果越穩(wěn)定。
表1 等值分?jǐn)?shù)標(biāo)準(zhǔn)誤平均值
綜合表1、圖1 及圖2 可知,Stocking-Lord 法與Haebara 法下等值分?jǐn)?shù)標(biāo)準(zhǔn)誤的趨勢(shì)基本一致,Stocking-Lord 法等值結(jié)果更穩(wěn)定。 當(dāng)考生能力服從P 分布時(shí),等值分?jǐn)?shù)標(biāo)準(zhǔn)誤較Q 分布低。 即考生能力分布越接近,等值分?jǐn)?shù)的標(biāo)準(zhǔn)誤越低。 兩種分布下,等值分?jǐn)?shù)標(biāo)準(zhǔn)誤均隨樣本量的增加呈現(xiàn)出降低趨勢(shì)。 P 分布中的等值分?jǐn)?shù)標(biāo)準(zhǔn)誤在不同批次及不同樣本量中的變化均較為平穩(wěn);Q 分布中的等值分?jǐn)?shù)標(biāo)準(zhǔn)誤則波動(dòng)較大,當(dāng)樣本量增至5000 時(shí),變化趨于穩(wěn)定, 但是其值仍高于P 分布中樣本量為500 時(shí)的等值分?jǐn)?shù)標(biāo)準(zhǔn)誤。 本研究結(jié)果與羅照盛(2007)的研究結(jié)果不謀而合。在實(shí)際等值中,不能僅依靠增加樣本量來(lái)降低等值誤差, 還需關(guān)注兩組考生的能力分布。當(dāng)兩組被試分布差異較大時(shí),僅靠增加樣本量并不能有效降低等值誤差。
圖1 Stocking-Lord 法下等值分?jǐn)?shù)標(biāo)準(zhǔn)誤
圖2 Haebara 法下等值分?jǐn)?shù)標(biāo)準(zhǔn)誤
表2 等值系數(shù)標(biāo)準(zhǔn)誤平均值
等值系數(shù)是兩份試卷之間分?jǐn)?shù)轉(zhuǎn)換與參數(shù)轉(zhuǎn)換的關(guān)鍵所在,也是等值的核心環(huán)節(jié)。等值系數(shù)一般用A、B 表示。 兩份試卷以及考生能力之間存在以下轉(zhuǎn)換關(guān)系[12]:
采用不同的等值方法會(huì)得到不同的等值系數(shù),同時(shí)也會(huì)產(chǎn)生不同的等值系數(shù)標(biāo)準(zhǔn)誤。 等值系數(shù)標(biāo)準(zhǔn)誤是衡量等值系數(shù)穩(wěn)定性的標(biāo)準(zhǔn),一般而言,等值系數(shù)標(biāo)準(zhǔn)誤越小,等值系數(shù)越穩(wěn)定,等值結(jié)果越好。
從表2 及圖3-6 可知, 兩種等值方法下等值系數(shù)A、B 的標(biāo)準(zhǔn)誤變化趨勢(shì)一致,均隨樣本量的增加而降低。 不同分布下標(biāo)準(zhǔn)誤變化幅度不同,P 分布下的等值系數(shù)標(biāo)準(zhǔn)誤較為穩(wěn)定,Q 分布下的等值系數(shù)標(biāo)準(zhǔn)誤隨樣本量變化波動(dòng)較大。Stocking-Lord 法下,Q 分布中樣本量為5000 時(shí)等值系數(shù)A 的標(biāo)準(zhǔn)誤與P 分布中樣本量為500 時(shí)的等值系數(shù)A 的標(biāo)準(zhǔn)誤較為接近。 此外,Q 分布下的等值系數(shù)標(biāo)準(zhǔn)誤均高于P分布下的等值系數(shù)標(biāo)準(zhǔn)誤。樣本量一定時(shí),無(wú)論采用何種等值方法, 兩種分布下B 值的等值系數(shù)標(biāo)準(zhǔn)誤均高于A(yíng) 值的等值系數(shù)標(biāo)準(zhǔn)誤。
圖3 Stocking-Lord 法下等值系數(shù)A 的標(biāo)準(zhǔn)誤
圖4 Stocking-Lord 法下等值系數(shù)B 的標(biāo)準(zhǔn)誤
圖5 Haebara 法下等值系數(shù)A 的標(biāo)準(zhǔn)誤
圖6 Haebara 法下等值系數(shù)B 的標(biāo)準(zhǔn)誤
圖7 Stocking-Lord 法與Haebara 法的等值系數(shù)標(biāo)準(zhǔn)誤差異
圖7 為Stocking-Lord 法下的等值系數(shù)標(biāo)準(zhǔn)誤與Haebara 法下的等值系數(shù)標(biāo)準(zhǔn)誤之間的差異。圖7 及表2 表明,Stocking-Lord 法下A 系數(shù)的標(biāo)準(zhǔn)誤明顯低于Haebara 法,但P 分布下B 系數(shù)的標(biāo)準(zhǔn)誤略高于Haebara 方法; 在Q 分布下,Haebara 法中A 值與B值的標(biāo)準(zhǔn)誤分別約為Stocking-Lord 法中A 值與B值標(biāo)準(zhǔn)誤的1.5-2 倍。
共同題參數(shù)穩(wěn)定性是項(xiàng)目反應(yīng)理論(IRT)分別估計(jì)方法下獨(dú)有的等值結(jié)果判斷標(biāo)準(zhǔn)。 不同組考生均作答共同題,會(huì)產(chǎn)生不同的作答反應(yīng),但是經(jīng)過(guò)分別估計(jì)等值后, 理論上等值后的題目參數(shù)應(yīng)該與基準(zhǔn)卷上的題目參數(shù)是一致的。 但是受到等值誤差的影響, 等值后的題目參數(shù)與基準(zhǔn)卷上的題目參數(shù)往往不一致,題目參數(shù)之間會(huì)存在一定的差異。題目參數(shù)之間的差異用均方根偏差(Root Mean Square Deviation,RMSD)來(lái)計(jì)算,計(jì)算公式如下:
其中m 為共同題題目數(shù)量,xi為基準(zhǔn)卷的共同題題目參數(shù),xi' 為等值后的題目參數(shù)。 Sevilay Kilmen & Nukhet Demirtasli (2012) 研 究 中 采 用RMSD 值評(píng)價(jià)等值結(jié)果[13],RMSD 值越小,等值結(jié)果越好。
表3 為共同題參數(shù)穩(wěn)定性的RMSD 值。 由表3可知,當(dāng)分布一定、被試量確定時(shí),Stocking-Lord 法下的共同題難度參數(shù)的RMSD 值小于Haebara 法;區(qū)分度參數(shù)的RMSD 值則稍有不同:P 分布下區(qū)分度的RMSD 值波動(dòng)較小,難度的RMSD 值變化稍大;Q 分布下難度的RMSD 值變化較大, 不同樣本量間RMSD 變 化 幅 度 在0.078 (1.598-1.520=0.078)到0.562(4.340-3.778=0.562)之間。當(dāng)分布一定、等值方法確定時(shí), 共同題參數(shù)的RMSD 值均隨被試量的增加而降低。P 分布中的RMSD 值較Q 分布更為平穩(wěn);Q 分布中的RMSD 值變化較大,Haebara 難度平均值最大降低了2.742(4.340-1.598=2.742)。 當(dāng)被試量一定、 等值方法確定時(shí),P 分布中共同題難度參數(shù)的RMSD 值遠(yuǎn)低于Q 分布, 區(qū)分度參數(shù)的RMSD 值稍低于Q 分布。
表3 共同題參數(shù)的RMSD 值
首先,考生能力分布差異較大將顯著影響等值的準(zhǔn)確性。 待等值試卷上的考生能力分布與基準(zhǔn)卷上的考生能力分布越接近,等值分?jǐn)?shù)的標(biāo)準(zhǔn)誤越小,等值系數(shù)的標(biāo)準(zhǔn)誤越小,共同題參數(shù)越穩(wěn)定。如果兩組考生能力差別過(guò)大,會(huì)嚴(yán)重影響等值結(jié)果的精度。
另外,增加被試量可以降低等值誤差,但是如果兩組考生能力分布差異過(guò)大,此時(shí),即使大量增加被試量也不能有效降低等值誤差。 如果兩組考生能力分布非常接近, 則只需較少的被試就可以得到較為準(zhǔn)確的等值結(jié)果。
此外,不同的等值方法帶來(lái)不同的等值誤差。當(dāng)兩組考生能力分布一致時(shí), 在等值系數(shù)B 的標(biāo)準(zhǔn)誤以及區(qū)分度參數(shù)的穩(wěn)定性方面,Haebara 方法表現(xiàn)略好。 但是,整體來(lái)看,Stocking-Lord 法較Haebara 方法更為穩(wěn)定,誤差更小。
因此,在實(shí)際等值操作中,不能僅關(guān)注采用增加被試量來(lái)降低等值誤差的方法, 考生能力分布同樣值得重視。在題庫(kù)建設(shè)的等值過(guò)程中,如果發(fā)現(xiàn)兩組考生能力差異過(guò)大, 為獲得更加準(zhǔn)確的入庫(kù)題目參數(shù), 建議在待等值試卷中抽取一個(gè)與基準(zhǔn)卷被試分布相似的被試樣本,再與基準(zhǔn)卷進(jìn)行等值,以有效降低等值誤差。
本研究?jī)H基于正態(tài)能力分布下的兩種考生能力分布情況,針對(duì)考生能力分布對(duì)等值精度的影響進(jìn)行探討,其他情況未加以討論。 此外,在Q 分布下,Haebara 法中A 值與B 值的標(biāo)準(zhǔn)誤分別約為Stocking-Lord 法中A 值與B 值標(biāo)準(zhǔn)誤的近1.5-2倍, 這一結(jié)果在本研究的不同被試量下均適用,但是在其他情況下是否適用這一結(jié)論仍需要進(jìn)一步討論研究。