王菲 任杰 張泉慧 曹文靜
等值是指調(diào)整不同版本平行測(cè)驗(yàn)間的分?jǐn)?shù),使之統(tǒng)一在一個(gè)量表上、實(shí)現(xiàn)分?jǐn)?shù)互換的過(guò)程;在保證測(cè)驗(yàn)的公平性和測(cè)驗(yàn)分?jǐn)?shù)的可比性方面具有重要的作用,是建設(shè)題庫(kù)、開(kāi)發(fā)計(jì)算機(jī)化測(cè)驗(yàn)和適應(yīng)性測(cè)驗(yàn)過(guò)程中的關(guān)鍵步驟。我國(guó)是一個(gè)考試大國(guó),數(shù)量繁多的考試被廣泛應(yīng)用于社會(huì)的各個(gè)領(lǐng)域。然而,我國(guó)的大部分測(cè)驗(yàn)和考試卻沒(méi)有實(shí)現(xiàn)等值,等值研究現(xiàn)階段仍是我國(guó)測(cè)量研究中一個(gè)比較薄弱的環(huán)節(jié),盡快實(shí)現(xiàn)等值是國(guó)內(nèi)許多考試所共同面臨的重要任務(wù);少數(shù)經(jīng)過(guò)等值的考試中,大多只限于對(duì)二級(jí)記分題目的等值,對(duì)多級(jí)記分題目的等值研究更是少之又少。
隨著實(shí)踐中教育測(cè)驗(yàn)評(píng)價(jià)形式的豐富,多種多樣的考試題型應(yīng)運(yùn)而生,對(duì)我們的等值工作提出了新的要求。許多考試中不僅包含有“0,1”記分的題目,還出現(xiàn)了正確答案為多個(gè)選項(xiàng),按照答對(duì)數(shù)目賦分的多級(jí)記分題目。該研究正是針對(duì)包含多級(jí)記分題目的國(guó)內(nèi)某大型語(yǔ)言類(lèi)考試,選擇了目前普遍應(yīng)用于多級(jí)記分等值的等級(jí)反應(yīng)模型,使用同時(shí)校準(zhǔn)法、固定共同題參數(shù)法以及鏈接獨(dú)立校準(zhǔn)法中的平均數(shù)標(biāo)準(zhǔn)差方法、平均數(shù)平均數(shù)方法、Haebara法和Stocking-Lord法六種方法進(jìn)行等值,在各試卷版本之間利用共同題進(jìn)行連接,通過(guò)比較六種方法的跨樣本一致性,并以此作為評(píng)價(jià)等值效果的標(biāo)準(zhǔn),為該考試選擇最優(yōu)的等值方法。
研究使用某語(yǔ)言類(lèi)大型考試2011年正式考試的3份試卷作為實(shí)驗(yàn)材料,其中1份為標(biāo)桿卷,另外2份待等值的試卷分別稱(chēng)為新卷1、新卷2。等值以分測(cè)驗(yàn)為單位進(jìn)行,進(jìn)行等值的包括其中兩個(gè)分測(cè)驗(yàn),分測(cè)驗(yàn)一包含四種題型,共28道題,滿分35分;分測(cè)驗(yàn)二包含三種題型,共25道題,滿分35分。該考試不同于一般“0,1”記分的考試,區(qū)別在于其記分方式不僅有“0,1”記分的題目,還包括“0,2”、“0,0.5”這樣的二級(jí)記分題目,而且出現(xiàn)了“0,0.5,1”這樣的多級(jí)記分題目。
等值的過(guò)程涉及等值數(shù)據(jù)的收集和等值數(shù)據(jù)的處理兩個(gè)方面。該考試采用非等組錨題設(shè)計(jì)(Non-Equivalent groups with Anchor Test,NEAT)收集數(shù)據(jù),也稱(chēng)為共同題設(shè)計(jì)或錨題設(shè)計(jì),即兩組水平不一樣的考生分別參加兩個(gè)不同考卷的測(cè)驗(yàn),這兩份試卷中包含一部分相同的題目。
在最常用的NEAT設(shè)計(jì)中,采用IRT理論對(duì)考試數(shù)據(jù)進(jìn)行等值處理,第一個(gè)問(wèn)題是模型的選取。研究采用的是目前普遍應(yīng)用于多級(jí)記分測(cè)驗(yàn)的等級(jí)反應(yīng)模型(Grade Response Model,GRM)中的同質(zhì)模型,即每個(gè)項(xiàng)目只有一個(gè)區(qū)分度、每個(gè)等級(jí)上的區(qū)分度都是相同的。
設(shè)θ為被試潛在的特質(zhì),ui為一隨機(jī)變量,作為對(duì)項(xiàng)目i的分級(jí)題目反應(yīng)的記號(hào),以u(píng)i(ui=0,1,2,…,mj)記錄實(shí)際反應(yīng)。記能力為θ的被試在第i題上得到ui分的概率為Pui(θ),Pui'(θ)表示該被試在第i題目上的得分大于或等于ui的概率,則有
經(jīng)分析,式1可以通過(guò)將多等級(jí)評(píng)分題目作“0,1”劃分將Pui'(θ)轉(zhuǎn)換成二級(jí)記分題目中的題目特征函數(shù)。在題目i中,令所有得分在ui或ui之上的被試為“通過(guò)”或“得1分”,得分小于ui的被試為“不通過(guò)”或“得0分”,則有Pui'(θ)=1,Pui+1'(θ)=0,等級(jí)反應(yīng)模型的表達(dá)式為
其中,D為常數(shù),ai為題目i的區(qū)分度,bui是題目i第ui等級(jí)的難度值,且第i題的等級(jí)難度是遞增的,即b0<b1<…<bmi。
等值處理的第二步是完成兩個(gè)試卷版本的IRT量表轉(zhuǎn)換。進(jìn)行IRT量表轉(zhuǎn)換的方法主要有3種:
1)固定共同題參數(shù)法(Fixed common item parameters):先估計(jì)標(biāo)桿卷上共同題的參數(shù),在進(jìn)行目標(biāo)卷的參數(shù)估計(jì)時(shí)把這些共同題參數(shù)固定為已經(jīng)得到的值,這樣就使得目標(biāo)卷的參數(shù)自動(dòng)與標(biāo)桿卷位于一個(gè)量表中。該方法可分為固定共同題單參數(shù)、雙參數(shù)和三參數(shù)方法。
2)鏈接獨(dú)立校準(zhǔn)法(Linking separate calibration):首先分別估計(jì)標(biāo)桿卷和目標(biāo)卷的題目參數(shù),然后再依據(jù)一定的數(shù)學(xué)方法求解等值系數(shù),將目標(biāo)卷的參數(shù)轉(zhuǎn)換到標(biāo)桿卷上。
在NEAT設(shè)計(jì)中,由于不同考生群體分布可能不盡相同,經(jīng)過(guò)參數(shù)估計(jì),同一個(gè)錨題可以得到兩個(gè)不同的能力分?jǐn)?shù)θx和θy,還可以得到兩組不同的題目參數(shù)ax、bx、cx和ay、by、cy,這兩組參數(shù)估計(jì)值滿足如下關(guān)系:
等值轉(zhuǎn)換系數(shù)可采用矩估計(jì)法或特征曲線法求取。
(1)矩估計(jì)法(Moment method):該方法使用題目參數(shù)的矩統(tǒng)計(jì)量來(lái)估計(jì)等值系數(shù),主要方法包括平均數(shù)/平均數(shù)法、平均數(shù)/標(biāo)準(zhǔn)差法等。
平均數(shù)標(biāo)準(zhǔn)差法(Mean/Sigma,MS)。Marco在1977年提出該方法,MS法使用錨題的b參數(shù)標(biāo)準(zhǔn)差及其均數(shù)來(lái)獲得轉(zhuǎn)換系數(shù)A和B,其公式如下:
σbxv是從X測(cè)驗(yàn)估計(jì)出的錨題b參數(shù)的標(biāo)準(zhǔn)差,σbyv是從Y測(cè)驗(yàn)估計(jì)出的錨題b參數(shù)的標(biāo)準(zhǔn)差。
平均數(shù)平均數(shù)法(Mean/Mean,MM)。該方法是Lord和Hoover于1980年提出的,其做法是使用錨題的a參數(shù)的均值和b參數(shù)的均值來(lái)獲得轉(zhuǎn)換系數(shù)A和B,其公式如下:
特征曲線法(Characteristic curve method):該方法是基于題目特征曲線的轉(zhuǎn)換方法,其實(shí)質(zhì)是通過(guò)減少題目特征曲線的差異實(shí)現(xiàn)量表轉(zhuǎn)換。對(duì)于量表J和量表I,具有特定能力考生i和考生 j回答不同量表中試題的答對(duì)概率是相同的,其數(shù)學(xué)含義如下:
此式對(duì)于任何一個(gè)考生和任何一個(gè)題目理論上都是成立的。但是用測(cè)驗(yàn)樣本的題目參數(shù)估計(jì)值代入,則會(huì)存在誤差。求其誤差平方有兩種方法,由此引出兩種基于題目特征曲線等值數(shù)據(jù)處理方法。
Haebara法。1980年黑巴諾(Haebara)首先提出用題目特征曲線法完成量表的轉(zhuǎn)換,此方法是將一定能力的考生對(duì)每個(gè)題目的反應(yīng)的題目特征曲線間的平方差進(jìn)行累加,充分利用了更多參數(shù)信息,其數(shù)學(xué)表達(dá)式如下:
該函數(shù)式是錨題 j:V的總和。等式是將兩個(gè)測(cè)驗(yàn)中每個(gè)題目特征曲線間的差的平方進(jìn)行相加。Hdiff是在考生的基礎(chǔ)上進(jìn)行加和,其估計(jì)方式如下:
Stocking-Lord法。該方法是Stocking和Lord于1983年提出。Stocking-Lord方法與Haebara方法稍微不同,它是在固定考生的基礎(chǔ)上,對(duì)題目i進(jìn)行累加,由上式可推知:
上式的含義是同一考生在同一批題目上的真分?jǐn)?shù)是相等的,并不受題目參數(shù)估計(jì)依據(jù)哪個(gè)群體的影響。代入具體的參數(shù)估計(jì)值,則兩真分?jǐn)?shù)之間存在誤差,平方可得:
該函數(shù)式是錨題 j:V的特征曲線之和的差的平方。SLdiff是在題目基礎(chǔ)上進(jìn)行加和,其估計(jì)方法如下:
SLdiff(θi)表達(dá)式為給定能力值考生在錨題上的測(cè)驗(yàn)特征曲線在不同量表間差異的平方。相反,Hdiff(θi)表達(dá)式為對(duì)某一給定能力的考生在所有錨題上的題目特征曲線差異的平方和。無(wú)論是Hcrit還是SLcrit,均是在它們最小的條件下計(jì)算出A和B。將它們分別對(duì)A和B求偏導(dǎo),并分別令其為0,可獲得二元非線性方程組。一般采用牛頓迭代法估計(jì)出A和B。通常A和B初值采用均數(shù)標(biāo)準(zhǔn)差所估計(jì)的值為好(漆書(shū)青,2002:217)。
3)同時(shí)校準(zhǔn)法(Concurrent calibration,CC):與鏈接獨(dú)立校準(zhǔn)法不同,同時(shí)校準(zhǔn)是將兩個(gè)測(cè)驗(yàn)的數(shù)據(jù)合并,看成同一個(gè)測(cè)驗(yàn),將一組被試未作答的另一個(gè)測(cè)驗(yàn)中非共同題上的反應(yīng)當(dāng)作缺失值,從而一次完成參數(shù)估計(jì),得到的不同測(cè)驗(yàn)的題目參數(shù)自然就在同一個(gè)量尺之上。
等值過(guò)程會(huì)存在誤差,等值效果的優(yōu)劣依賴(lài)于不同等值方法引入等值誤差的大小。為了評(píng)價(jià)等值的精確性,一般都采用比較等值誤差大小的方法。一種等值設(shè)計(jì)或者方法產(chǎn)生的誤差越小,這種等值設(shè)計(jì)或等值方法的效果就越好。
為評(píng)價(jià)等值效果,研究選擇穩(wěn)定性標(biāo)準(zhǔn),主要通過(guò)計(jì)算評(píng)價(jià)樣本敏感度的根均平方差(Root Mean Squared Difference,RMSD)和期望的差異平方根(REMSD)進(jìn)行跨樣本的一致性檢驗(yàn)。跨樣本一致性從另一個(gè)角度來(lái)說(shuō)是等值的一個(gè)性質(zhì),理論上等值結(jié)果不受樣本的影響。但實(shí)際上等值或多或少都存在樣本的依賴(lài)性(Holland&Rubin,1982)。如果一種等值方法在不同的子樣本中表現(xiàn)一致,雖然我們不能做出該方法是最好方法的結(jié)論,但是如果跨樣本不一致,即這種方法對(duì)樣本敏感,則該方法一定不是好的等值方法。
跨樣本檢驗(yàn)的具體做法是:把總體劃分為有限的排他的幾個(gè)樣本,然后用總體和樣本分別進(jìn)行等值,進(jìn)而比較樣本等值結(jié)果與總體等值結(jié)果的差異。差異最小的方法即在不同樣本中表現(xiàn)最為一致的方法就是較好的方法。下圖以從考生群體O等值到考生群體Q為例說(shuō)明跨樣本檢驗(yàn)框架。
圖1 跨樣本檢驗(yàn)示意圖
在NEAT設(shè)計(jì)中涉及兩個(gè)被試群體,將被試群體P和Q各劃分為不同的樣本:{Pj}和{Qj}。WPj是指樣本Pj的相應(yīng)權(quán)重,WQj表示Qj在Q中的相應(yīng)權(quán)重。WPj和WQj可被設(shè)定為某個(gè)值,只要總和為1。T是由被試組P和被試組Q按照一定比例組成的綜合組。由此可知:
對(duì)于P和Q的樣本{Pj}和{Qj},也有相應(yīng)的樣本綜合組Tj,可以定義為:
RMSD公式中的權(quán)重表示為:
用eTj(x)表示Tj中將X卷分?jǐn)?shù)等值到Y(jié)卷上的分?jǐn)?shù),eT(x)表示綜合組T上X卷分?jǐn)?shù)等值到Y(jié)卷上的分?jǐn)?shù)。eTj
(x)和eT(x)的等值方法相同。von Davier,Holland&Thayer(2003)把NEAT設(shè)計(jì)中的RMSD(x)定義為:
由于Y卷分?jǐn)?shù)在綜合組T中并不能直接觀測(cè)到,因此綜合組T中Y卷分?jǐn)?shù)的標(biāo)準(zhǔn)差σYT的計(jì)算依賴(lài)于所選的等值方法。由公式可知,X卷上的每一個(gè)分?jǐn)?shù)點(diǎn)對(duì)應(yīng)到Y(jié)卷上都能計(jì)算出一個(gè)RMSD值,有的RMSD值比較小,有的則比較大,這樣我們就無(wú)法直接客觀地得出跨樣本是否一致的結(jié)論。為了得到單一值,可計(jì)算REMSD指標(biāo),即期望的差異平方根。
上式中,ET{}是指T組在X卷上分部的平均數(shù)。
在計(jì)算統(tǒng)計(jì)量時(shí),需要考慮的問(wèn)題是統(tǒng)計(jì)量達(dá)到多大就可認(rèn)為是顯著的,即RMSD值和REMSD值都需要一個(gè)標(biāo)準(zhǔn)來(lái)衡量。Dorans,Holland,Thayer&Tateneni(2003)建議用DTM(Difference that mat-ters)這個(gè)指標(biāo)。ETS多年來(lái)也是采用了這個(gè)標(biāo)準(zhǔn)。DTM是指報(bào)告分?jǐn)?shù)的半個(gè)單位,即我們采用四舍五入時(shí)可以忽略的分?jǐn)?shù)的一半。比如在某測(cè)驗(yàn)分?jǐn)?shù)中,以1為分?jǐn)?shù)單位,此時(shí)DTM=0.5。由于RMSD和REMSD這兩個(gè)統(tǒng)計(jì)量通過(guò)σYT實(shí)現(xiàn)標(biāo)準(zhǔn)化,DTM也常常用它來(lái)實(shí)現(xiàn)標(biāo)準(zhǔn)化,標(biāo)準(zhǔn)化后的DTM常常用SDTM表示。如果RMSD值和REMSD值均小于SDTM,則說(shuō)明等值的跨樣本具有一致性。而且RMSD值和REMSD值值越小,則說(shuō)明等值結(jié)果越精確、跨樣本一致性越高;RMSD指標(biāo)的變化趨勢(shì)越平穩(wěn),則說(shuō)明等值結(jié)果越穩(wěn)定、跨樣本一致性越高。
使用業(yè)內(nèi)公認(rèn)的處理含有多級(jí)記分題目的考試的標(biāo)準(zhǔn)軟PARSCALE軟件進(jìn)行參數(shù)估計(jì),其他程序均使用Visual Foxpro 6.0自行編寫(xiě)。
由表1可以看出:新卷的原始平均分都遠(yuǎn)低于標(biāo)桿卷;3個(gè)考生群體的分布(標(biāo)準(zhǔn)差)基本穩(wěn)定;3份試卷各部分都略微偏難,新卷均比標(biāo)桿卷稍難;3份試卷都具有較好的題目區(qū)分度;全卷的Alpha信度也是比較好的,分測(cè)驗(yàn)時(shí)Alpha信度略有降低,可能與題量的減少有關(guān)。
表2 標(biāo)桿卷與新卷1共同題與分測(cè)驗(yàn)的相關(guān)
表3 標(biāo)桿卷與新卷2共同題與分測(cè)驗(yàn)的相關(guān)
由于等值設(shè)計(jì)中,新卷1和標(biāo)桿卷與新卷2和標(biāo)桿卷進(jìn)行連接的題型不同,故新卷1、新卷2包含的來(lái)自標(biāo)桿卷共同題各不相同,但共同題題目數(shù)均在各分測(cè)驗(yàn)部分題目總數(shù)的一半左右。上表中列出了兩份試卷共同題的相關(guān)分析結(jié)果。結(jié)果顯示:該考試中共同題與所在分測(cè)驗(yàn)得分之間的相關(guān)較高,相關(guān)系數(shù)的P值均小于0.01。
研究以跨樣本一致性檢驗(yàn)結(jié)果作為評(píng)價(jià)等值方法的標(biāo)準(zhǔn),所以首先對(duì)拆分的子樣進(jìn)行了代表性檢驗(yàn)。樣本代表性檢驗(yàn)步驟如下:將參加新卷1的考生群體O(896人)、參加新卷2的考生群體P(906人)和參加標(biāo)桿卷的考生為群體Q(1 420人)各隨機(jī)分為兩個(gè)獨(dú)立的人數(shù)相等的樣本(即O1和O2、P1和P2、Q1和Q2),然后通過(guò)獨(dú)立樣本T檢驗(yàn)來(lái)檢驗(yàn)六個(gè)樣本的代表性。經(jīng)檢驗(yàn),各樣本均是各總體的無(wú)差樣本,都能很好地代表該總體。
表1 各試卷分測(cè)驗(yàn)描述統(tǒng)計(jì)
跨樣本一致性檢驗(yàn)分別從六種方法的RMSD值和REMSD值的大小,以及RMSD指標(biāo)的變化趨勢(shì)來(lái)比較他們對(duì)樣本的敏感性。
(1)RMSD值
圖2 新卷1分測(cè)驗(yàn)一同時(shí)校準(zhǔn)法RMSD值
將每種方法各個(gè)分?jǐn)?shù)點(diǎn)的RMSD值與SDTM標(biāo)準(zhǔn)的情況作圖如上(限于篇幅,文中僅列一圖)。結(jié)果顯示,每種方法對(duì)各個(gè)部分的等值的過(guò)程中,每個(gè)分?jǐn)?shù)點(diǎn)跨樣本的RMSD值,除低分段的個(gè)別分?jǐn)?shù)點(diǎn)外,都基本低于SDTM的標(biāo)準(zhǔn),即在RMSD指標(biāo)上,四種方法都通過(guò)了SDTM標(biāo)準(zhǔn)的衡量,由此可見(jiàn),四種方法都是可以實(shí)現(xiàn)跨樣本等值的。
(2)REMSD值
從以上REMSD值表可以看出:新卷1和新卷2兩個(gè)分測(cè)驗(yàn)四個(gè)部分的REMSD值都遠(yuǎn)低于SDTM的標(biāo)準(zhǔn),在REMSD指標(biāo)上,六種方法也通過(guò)了SDTM標(biāo)準(zhǔn)的衡量,由此可知,六種方法都實(shí)現(xiàn)了跨樣本一致。另外,比較六種方法REMSD值的大小,分測(cè)驗(yàn)一時(shí),兩份試卷均是平均數(shù)平均數(shù)法的REMSD值最小,Stocking-Lord法次之;分測(cè)驗(yàn)二時(shí),兩份試卷均是固定共同題參數(shù)法的REMSD值最小,同時(shí)校準(zhǔn)法次之。
(3)六種方法的RMSD指標(biāo)比較
圖3 新卷1分測(cè)驗(yàn)一四種方法RMSD值比較
表4 新卷1分測(cè)驗(yàn)一六種方法的REMSD值
表5 新卷2分測(cè)驗(yàn)一六種方法的REMSD值
表6 新卷1分測(cè)驗(yàn)二六種方法的REMSD值
表7 新卷2分測(cè)驗(yàn)二六種方法的REMSD值
圖4 新卷2分測(cè)驗(yàn)一四種方法RMSD值比較
圖5 新卷1分測(cè)驗(yàn)二四種方法RMSD值比較
圖6 新卷2分測(cè)驗(yàn)二四種方法RMSD值比較
從六種方法各分?jǐn)?shù)點(diǎn)RMSD值的大小和變化趨勢(shì)來(lái)看,分測(cè)驗(yàn)一時(shí),兩份試卷大多數(shù)分?jǐn)?shù)點(diǎn)均是平均數(shù)平均數(shù)法的RMSD值最小,同時(shí)也是起伏變化最小、最穩(wěn)定的,Stocking-Lord法次之;分測(cè)驗(yàn)二時(shí),兩份試卷大多數(shù)分?jǐn)?shù)點(diǎn)均是固定共同題參數(shù)法的RMSD值最小,同時(shí)也是起伏變化最小、最穩(wěn)定的,同時(shí)校準(zhǔn)法次之。
從六種方法的跨樣本一致性檢驗(yàn)結(jié)果可以看出,六種方法在每個(gè)分?jǐn)?shù)點(diǎn)的RMSD值和平均的REMSD值都基本低于SDTM的標(biāo)準(zhǔn),都是可以作為該考試等值備選方法的。通過(guò)具體比較六種方法對(duì)樣本的敏感性,從六種方法在每個(gè)分?jǐn)?shù)點(diǎn)的RMSD值和平均的REMSD值的大小、以及RMSD指標(biāo)的變化趨勢(shì)的情況來(lái)進(jìn)行優(yōu)選,無(wú)論是精確性還是穩(wěn)定性,分測(cè)驗(yàn)一均以平均數(shù)平均數(shù)法的等值效果最好,分測(cè)驗(yàn)二則以固定共同題參數(shù)法為佳。需要注意的是,該考試較高的試卷質(zhì)量是各種等值方法效果較好的保證,現(xiàn)有的試卷結(jié)構(gòu)是得到這一結(jié)論的前提。
研究對(duì)幾種等值方法的探討和比較都是基于同一個(gè)模型——等級(jí)記分模型之下進(jìn)行的,未能涉及其他已有的多級(jí)記分模型,基于不同模型之下等值方法的比較仍是一個(gè)有待研究的內(nèi)容。另外,等值效果的評(píng)價(jià)標(biāo)準(zhǔn)問(wèn)題一直是等值研究中的難點(diǎn),研究采用跨樣本一致性指標(biāo)這樣的穩(wěn)定性標(biāo)準(zhǔn)來(lái)進(jìn)行檢驗(yàn)。常用的幾種評(píng)價(jià)標(biāo)準(zhǔn)——循環(huán)等值、模擬等值、大樣本標(biāo)準(zhǔn)和研究采用的穩(wěn)定性標(biāo)準(zhǔn)都各有其局限性,相比較起來(lái)穩(wěn)定性的標(biāo)準(zhǔn)雖然不失為一種比較有說(shuō)服力、可操作的標(biāo)準(zhǔn),但其不能排除等值方法自身存在的“穩(wěn)定的誤差”的局限性,使比較的結(jié)果具有一定的不確定性,尋找一種更理想的方法作為評(píng)價(jià)標(biāo)準(zhǔn)是值得進(jìn)一步研究的課題。
[1] 漆書(shū)青,戴海崎,丁樹(shù)良.現(xiàn)代教育與心理測(cè)量學(xué)原理[M].北京:高等教育出版社.2002.
[2] 韓寧.應(yīng)用項(xiàng)目反應(yīng)理論等值含有多種題型考試的一個(gè)實(shí)例[J].中國(guó)考試,2008(7):3-8.
[3] 謝小慶.對(duì)15種測(cè)驗(yàn)等值方法的比較研究[J].心理學(xué)報(bào),2000:32-2.
[4] 周駿,歐東明,徐淑媛,戴海琦,漆書(shū)青.等級(jí)反應(yīng)模型下題目特征曲線等值法在大型考試中的應(yīng)用[J].心理學(xué)報(bào),2005(6):832-838.
[5] Brennan,R.L,(Ed.).Educational measurement(4th ed),Westport:American Council on Education and Praeger Publishers.2006.
[6] Dorans,N.J.,&Holland,P.W.Population invariance and the equatability of tests:Basic theory and the linear case.Journal of Educational Measurement,2000.37(4):281–306.
[7] Dorans,N.J.,Holland,P.W.,Thayer,D.T.,&Tateneni,K.Invariance of scoring across gender groups for three Advanced Placement Program examinations.In N.J.Dorans,(Ed.),Population invariance of score linking:Theory and applications to advanced placement program examinations.ETS RR-03-27.2003:79-118.
[8] Haebara,T.Equating logistic ability scales by a weighted least squares.Japanese Psychological Research,1980.22:144-149.
[9] Holland,P.W.,&Rubin,D.B.(Ed.).Test equating,New York:Academic Press.1982.
[10] Loyd,B.H.,&Hoover,H.D.Vertical equating using the Rasch model.Journal of Educational Measurement,1980.17:179-193.
[11] Marco,G.L.Item characteristic curve solutions to three intractable testing problems.Journal of Educational Measurement,1977.14:139-160.
[12] Samejima,F.Estimation of a latent ability using a response pattern of graded scores.Psychometrika Monograph Supplement,1969:17.
[13] Stocking,M.L.,&Lord,F.M.Developing a common metric in item response theory.Applied Psychological Measurement,1983.7(2):201-210.
[14] von Davier,A.A.,Holland,P.W.,&Thayer,D.T.Population invariance and chain versus post-stratification methods for equating and test linking.In N.Dorans(Ed.),Population invariance of score linking:Theory and applications to advanced placement program examinations.ETS RR-03-27.2003:19-36.
[15] Wingersky,M.S.,&Lord,F.M.An investigation of methods for reducing sampling error in certain IRT procedures.Applied Psychological Measurement,1984.8(3):347-364.