何 壯 袁淑莉 趙守盈
采用專題的方式命題是現(xiàn)代考試中的一種常見的方式,如高考英語(yǔ)全國(guó)卷中聽力、閱讀、寫作等內(nèi)容均可視為一個(gè)專題;文科綜合試卷中,政治、歷史、地理各成一個(gè)專題。這些專題的題目數(shù)量都很少,如英語(yǔ)試卷中聽力20題、閱讀20題、寫作2題;文科綜合選擇題中政治12題、歷史12題、地理11題。短測(cè)驗(yàn)在教育測(cè)量中非常流行,測(cè)驗(yàn)質(zhì)量一直是命題者關(guān)注的問題。
命題質(zhì)量關(guān)系到評(píng)價(jià)結(jié)果的客觀公正,為確保測(cè)驗(yàn)質(zhì)量,教育測(cè)量學(xué)者提出了一系列的方法。近年來(lái),以項(xiàng)目反應(yīng)理論(Item Response Theory,IRT)為代表的現(xiàn)代測(cè)量理論逐漸成為教育測(cè)量的主流,幫助教育者通過難度、區(qū)分度、猜測(cè)度、一致性等了解試卷質(zhì)量,對(duì)考試實(shí)踐產(chǎn)生了深遠(yuǎn)的影響。
按照項(xiàng)目分析時(shí)所用統(tǒng)計(jì)量的不同,項(xiàng)目反應(yīng)理論可以分為參數(shù)項(xiàng)目反應(yīng)理論(Parameter Item Response Theory,P-IRT)和非參數(shù)項(xiàng)目反應(yīng)理論(Non-parameter Item Response Theory,NIRT)。P-IRT模型以區(qū)分度a、難度b、猜測(cè)度c、能力參數(shù)θ、信息量I等統(tǒng)計(jì)量為參數(shù)進(jìn)行項(xiàng)目分析。常見的P-IRT模型有Rasch模型、Logistic模型、等級(jí)反應(yīng)模型等。N-IRT使用正答概率的次序、哥特曼錯(cuò)誤數(shù)、同質(zhì)性系數(shù)H(coefficients of homogeneity)等指標(biāo)進(jìn)行項(xiàng)目分析。目前在教育測(cè)量中運(yùn)用最為廣泛的N-IRT 模型是摩根模型(Mokken Model)[1]。
P-IRT多應(yīng)用于大試題量、大樣本的測(cè)驗(yàn)中。在處理短測(cè)驗(yàn)、小樣本數(shù)據(jù)時(shí)P-IRT存在很大的誤差,N-IRT理論可以彌補(bǔ)這一缺陷[2],幫助研究者全面了解測(cè)驗(yàn)的質(zhì)量。兩種理論都遵循IRT的基本假設(shè):潛在特質(zhì)單維、被試作答局部獨(dú)立、項(xiàng)目特征曲線(item characteristic curve,ICC)單調(diào)遞增。在摩根模型中,如果測(cè)驗(yàn)數(shù)據(jù)滿足三個(gè)假設(shè),就構(gòu)成了單調(diào)同質(zhì)模型(monotonely homogeneous model,MH)[3]。其ICC曲線類似于P-IRT中的Logistic模型:每個(gè)題目的ICC曲線都滿足單調(diào)遞增,但由于區(qū)分度不同,ICC曲線可能相交(圖1-1)。如果數(shù)據(jù)擬合MH模型,說(shuō)明被試能力與試題得分之間單調(diào)相關(guān)。P-IRT中用擬合指數(shù)等進(jìn)行維度檢驗(yàn),擬合差則說(shuō)明測(cè)量結(jié)果中可能受到了目標(biāo)特質(zhì)之外的其它因素的影響。如Rasch模型中的Outfit MNSQ和Infit MNSQ,理想值為1,越接近理想值擬合越好,測(cè)驗(yàn)過程沒有受到潛在特質(zhì)之外的因素影響[4]。
如果測(cè)驗(yàn)數(shù)據(jù)滿足這三個(gè)假設(shè)且不同題目的ICC曲線不相交(N-IRT中稱之為題目間單調(diào))這就構(gòu)成了摩根模型中的雙重單調(diào)模型(doubly monotone model,DM)[3]。DM模型可以用來(lái)對(duì)試卷進(jìn)行項(xiàng)目功能差異(differential item functioning ,DIF)檢驗(yàn)。一份優(yōu)秀的試卷要求試題難度排序具有不變性的特點(diǎn)。即對(duì)于同一群體的不同子群體(如考試中的男、女兩個(gè)子群體),按照正答率對(duì)試題排序,排序結(jié)果應(yīng)當(dāng)一致。出現(xiàn)不一致的情況則表明不同子群體在同一題目上的正答率不同,這些題目可能存在DIF。P-IRT中也有許多方法進(jìn)行DIF檢驗(yàn)。體現(xiàn)在ICC曲線上,不同被試子群體的ICC曲線不重合(圖1-3),曲線越不重合,DIF越嚴(yán)重。
圖1 ICC曲線
本研究的樣本是貴州省貴陽(yáng)市某高三文科班學(xué)生。研究數(shù)據(jù)為貴陽(yáng)市2011年一模文綜考試的地理部分,共11個(gè)題目。樣本量為194人,其中,男生71人,女生123人。
3.2.1 Rasch分析結(jié)果
Rasch模型是一種單參數(shù)模型,本研究選擇該模型對(duì)數(shù)據(jù)進(jìn)行P-IRT分析,并與N-IRT的分析結(jié)果進(jìn)行比較。Rasch分析采用Winsteps軟件。利用Rasch模型對(duì)試卷進(jìn)行分析可以得到難度b、信息量I、擬合指數(shù)等參數(shù)(表1)。
表1 Rasch分析結(jié)果
圖2 Rasch分析信息曲線
Rasch分析結(jié)果顯示Infit MNSQ 均值為1.00、Outfit MNSQ均值為0.97。擬合指數(shù)等于或接近理想值1[5],說(shuō)明數(shù)據(jù)與模型擬合良好,測(cè)量過程沒有受到目標(biāo)特質(zhì)之外的因素影響。整套試題測(cè)量的特質(zhì)為地理知識(shí)能力。
一般認(rèn)為試題的難度應(yīng)在[-2,2]之間,難度太大(>2)或太?。ǎ?2)的題目對(duì)潛在特質(zhì)的測(cè)量效用不大[6]。這套試題中有兩個(gè)題目(題目2、10)的難度大于2,超出上述標(biāo)準(zhǔn)。對(duì)剩余9個(gè)題目難度作進(jìn)一步分析,發(fā)現(xiàn)有6個(gè)題目難度為負(fù),占總數(shù)的66%。這說(shuō)明對(duì)樣本群體來(lái)說(shuō)這套試題比較簡(jiǎn)單。測(cè)驗(yàn)信息函數(shù)表示能力估計(jì)的精確程度,它被定義為測(cè)量誤差平方[SE(θ)2]的倒數(shù)[7]。測(cè)驗(yàn)信息曲線(圖2)的峰值對(duì)應(yīng)的能力值為-0.35,表明這套試題在對(duì)于地理知識(shí)能力中等偏低的學(xué)生測(cè)量精度最高。峰值處的信息量為2.125。一般認(rèn)為一個(gè)好的試卷,測(cè)驗(yàn)誤差應(yīng)當(dāng)在0.25以下,信息量為16;一個(gè)更好的試卷,測(cè)驗(yàn)誤差在0.2以下,信息量為25[8]。地理試卷的測(cè)驗(yàn)信息未達(dá)到上述標(biāo)準(zhǔn)。測(cè)驗(yàn)信息量是全部題目信息量加總后得到的,整套試卷信息量太低可能與每個(gè)題目信息量太低、題目數(shù)量太少有直接關(guān)系。此次分析只涉及了客觀題部分,但一套完整的試卷除此之外還有簡(jiǎn)答、論述、綜合等主觀題,應(yīng)當(dāng)結(jié)合整套試卷判斷試題質(zhì)量,而不是簡(jiǎn)單按照參數(shù)標(biāo)準(zhǔn)刪除或修改題目。
Rasch模型還可以比較題目難度與被試能力的分布,常見的Rasch分析軟件都以Wright Map的方式輸出結(jié)果。Wright Map中通過對(duì)數(shù)轉(zhuǎn)換,將被試能力和題目難度轉(zhuǎn)換成同一單位——Logit,這樣就可以在同一坐標(biāo)系中比較被試和題目[9]。圖3中左側(cè)為被試分布,能力由上至下逐漸降低;右側(cè)為題目分布,難度由上至下遞減。
Wright Map顯示被試能力分布區(qū)間約為[-2,3],題目難度分布在[-1.52,2.08];表明題目難度未能涵蓋所有被試(圖3)。理想的測(cè)驗(yàn)應(yīng)該是測(cè)驗(yàn)項(xiàng)目集中在學(xué)生能力分布周圍[10]。這套試題的難度與被試能力分布存在一定差異,試題偏簡(jiǎn)單。
選擇Mantel-Haenszel法對(duì)試卷進(jìn)行性別DIF分析。若題目p值小于0.05則表明該題目存在顯著的DIF。結(jié)果表明(表1)整套試卷不存在性別DIF。
圖3 題目難度與被試能力
3.2.2 Rasch測(cè)量的誤差
Rasch分析結(jié)果表明(表2)參數(shù)估計(jì)的標(biāo)準(zhǔn)差(standard error,SE)在[0.17,0.21]之間,平均值0.18。隨機(jī)抽取3、5、7、9個(gè)題目進(jìn)行參數(shù)估計(jì),結(jié)果表明(表2):隨著題目數(shù)量的減少,測(cè)量的誤差逐漸增大。這說(shuō)明測(cè)驗(yàn)越短,P-IRT估計(jì)的結(jié)果越不穩(wěn)定,按照參數(shù)估計(jì)的結(jié)果判斷題目質(zhì)量可能會(huì)將好的題目刪除或?qū)⒉畹念}目保留。例如題目4,抽取7個(gè)題目進(jìn)行參數(shù)估計(jì)時(shí)的SE=0.21,抽取11個(gè)題目時(shí)SE=0.19。
P-IRT追求的是對(duì)題目和能力參數(shù)的準(zhǔn)確估計(jì),力求將誤差降低到最小。這就需要不斷增加題目和被試數(shù)量,如此次研究中將題目數(shù)量增加到9題以上時(shí)平均誤差降低到0.2以下。但在實(shí)際的教育測(cè)量情境中,題目數(shù)量在10題左右的短測(cè)驗(yàn)經(jīng)常出現(xiàn)。尤其是當(dāng)題目與模型擬合較差時(shí),參數(shù)估計(jì)的誤差更大,結(jié)果更不穩(wěn)定。
針對(duì)P-IRT的這一局限,有研究者提出了N-IRT模型作為補(bǔ)充[11]。Mokken模型是最具代表性的非參模型之一,它以同質(zhì)性系數(shù)、正答率、哥特曼錯(cuò)誤數(shù)等統(tǒng)計(jì)量進(jìn)行項(xiàng)目分析。這些統(tǒng)計(jì)量(如正答率次序)不受題目數(shù)量的影響[12]。
利用Mokken模型對(duì)試卷進(jìn)行分析,常用的統(tǒng)計(jì)量稱為同質(zhì)性系數(shù)H。共有三種類型的同質(zhì)性系數(shù):題目i與題目j之間的同質(zhì)性系數(shù)Hij、題目i與剩余題目的同質(zhì)性系數(shù)Hi、全部題目的同質(zhì)性系數(shù)H。H值越高,測(cè)驗(yàn)總分對(duì)被試潛在特質(zhì)的排序越準(zhǔn)確,Mokken提出:Hij應(yīng)大于0,Hi和H至少為0.3。0.3≤H<0.4表明試卷的測(cè)量準(zhǔn)確程度較弱;0.4≤H<0.5表明試卷測(cè)量準(zhǔn)確程度中等;0.5≤H≤1時(shí),試卷測(cè)量準(zhǔn)確程度強(qiáng);H<0.3表明試卷不合格[13]。
Mokken分析主要從兩個(gè)方面進(jìn)行:對(duì)試卷的維度進(jìn)行分析、篩選題目;DIF檢驗(yàn)。本研究使用MSP5軟件對(duì)數(shù)據(jù)進(jìn)行Mokken分析。
Mokken模型利用同質(zhì)性系數(shù)進(jìn)行維度檢驗(yàn),當(dāng)數(shù)據(jù)擬合MH模型,同時(shí)滿足以下兩個(gè)條件時(shí),題目所測(cè)量的是同一特質(zhì)。任意兩個(gè)項(xiàng)目之間同質(zhì)性系數(shù)Hij>0;特定題目與剩余題目間同質(zhì)性系數(shù)Hi>0.3[1]。分析結(jié)果顯示(表3):11個(gè)題目中有7個(gè)題目達(dá)到上述標(biāo)準(zhǔn),這些題目測(cè)量的是同一潛在特質(zhì),另外4個(gè)題目(題目3、5、8、10)測(cè)量的可能不是地理能力,或測(cè)量過程受到了其它因素影響。這些題目應(yīng)當(dāng)刪除或改進(jìn)。
篩選后的整套試卷同質(zhì)性系數(shù)H=0.37,表明利用試卷對(duì)學(xué)生的地理能力進(jìn)行測(cè)量,準(zhǔn)確程度接近中等。
如果數(shù)據(jù)擬合DM模型,就可以通過比較不同子群體題目正答率次序進(jìn)行DIF檢驗(yàn)。性別DIF檢驗(yàn)結(jié)果顯示(表4),男生組數(shù)據(jù)中有7個(gè)題目與DM模型擬合,女生組有5個(gè)題目擬合。以正答率為指標(biāo)分別對(duì)這些題目進(jìn)行排序,男女生兩組的排序結(jié)果相同,且正答率非常接近;題目不存在性別上的差異。
表2 隨機(jī)篩選題目參數(shù)估計(jì)時(shí)的標(biāo)準(zhǔn)差
表3 Mokken分析結(jié)果
表4 項(xiàng)目功能差異結(jié)果
將P-IRT中的題目按照難度值由高到低排列,并與N-IRT中按照正答率由低到高排列的結(jié)果比較。結(jié)果證明二者是等效的,即難度越高的題目,正答率越低。這一結(jié)果與其他研究者的結(jié)論一致[14]。
在Rasch模型中依據(jù)難度篩選題目,結(jié)果有9個(gè)題目達(dá)到統(tǒng)計(jì)學(xué)要求,2個(gè)題目需要改進(jìn)或刪除。在Mokken模型中,依據(jù)同質(zhì)性系數(shù)篩選題目,結(jié)果有7個(gè)題目達(dá)到統(tǒng)計(jì)學(xué)要求,4個(gè)題目需要改進(jìn)或刪除。對(duì)比兩個(gè)結(jié)果,在題目篩選上Mokken模型比Rasch模型更加嚴(yán)格。
需要特別指出的是對(duì)題目2和題目10的分析結(jié)果。在Rasch模型下,兩個(gè)題目的難度相當(dāng),分別為2.08、2.04,均稍高于Rasch標(biāo)準(zhǔn)。在Mokken模型下,項(xiàng)目2的同質(zhì)性系數(shù)Hi=0.54、P=0.54,是符合Mokken標(biāo)準(zhǔn)中難度最大的題目。這表明在P-IRT中參數(shù)不合格或處在合格與不合格分界處的題目對(duì)潛在特質(zhì)的測(cè)量仍然有用。這有可能是Rasch在分析短測(cè)驗(yàn)試卷時(shí)的不穩(wěn)定性造成的。另有研究者指出這類題目反映出被試的得分概率與潛在特質(zhì)之間的關(guān)系可能不是Logistic類型,而是簡(jiǎn)單的非遞減函數(shù)關(guān)系。這些題目對(duì)提高測(cè)驗(yàn)的質(zhì)量意義也很大,以往研究中,簡(jiǎn)單的按照參數(shù)標(biāo)準(zhǔn)刪除或修改的做法有待商榷。對(duì)于超出Rasch標(biāo)準(zhǔn)很高的題目是否也會(huì)出現(xiàn)類似現(xiàn)象,由于此次研究中未出現(xiàn)這類題目,這一問題需要在之后的研究中做進(jìn)一步的討論。
從維度檢驗(yàn)的結(jié)果來(lái)看,Rasch模型下單維的數(shù)據(jù),在Mokken模型下不一定單維,這表明后者對(duì)數(shù)據(jù)的要求更為嚴(yán)格。在重要考試中,可以采用Mokken模型進(jìn)行維度檢驗(yàn),保證試題質(zhì)量。
兩種理論的DIF檢驗(yàn)結(jié)果一致。Mokken模型下進(jìn)行DIF檢驗(yàn)的過程要將各分組的數(shù)據(jù)分別進(jìn)行處理,結(jié)果發(fā)現(xiàn)有些題目在整體處理中能與模型擬合,分組后卻并不一定能與模型擬合。這類信息是Rasch分析無(wú)法得到的,但卻對(duì)命題非常重要。
P-IRT分析可以估計(jì)出準(zhǔn)確的題目參數(shù),依照相應(yīng)的標(biāo)準(zhǔn)評(píng)價(jià)題目和試卷;N-IRT分析只能得出正答率及其次序、同質(zhì)性系數(shù)、哥特曼錯(cuò)誤數(shù)。項(xiàng)目分析時(shí)使用最多的方法是排序。排序方式?jīng)]有參數(shù)標(biāo)準(zhǔn)精確,但對(duì)P-IRT是個(gè)重要的補(bǔ)充。
P-IRT更適用于大規(guī)模的測(cè)驗(yàn),題量越大、被試越多,參數(shù)估計(jì)結(jié)果越準(zhǔn)確、穩(wěn)定。而在教育測(cè)量中常會(huì)遇到由少數(shù)題目組成的短測(cè)驗(yàn)或被試數(shù)量很少的情況。尤其是高考等重要考試中,以專題、短測(cè)驗(yàn)形式命題已經(jīng)成為命題的主流。N-IRT為這類測(cè)驗(yàn)的分析提供了思路,可以為測(cè)驗(yàn)的準(zhǔn)確性和公平性提供重要參考。它在題量小、被試少的測(cè)驗(yàn)分析上所表現(xiàn)出的優(yōu)勢(shì)備受研究者青睞[15]。N-IRT對(duì)計(jì)算機(jī)自適應(yīng)測(cè)驗(yàn)的題庫(kù)建設(shè)也具有深遠(yuǎn)的意義。在題庫(kù)建設(shè)階段施測(cè)的被試越少,越能有效地降低題目的曝光率。
兩種理論比較體現(xiàn)出來(lái)的差異,其原因是多方面的。既有理論本身的原因,也有所運(yùn)用軟件的原因。Rasch分析的結(jié)果比較豐富與其軟件更為成熟也有一定的關(guān)系。目前基于P-IRT計(jì)算機(jī)軟件不論是數(shù)量還是商業(yè)化程度都遠(yuǎn)超基于N-IRT的軟件。相關(guān)軟件的開發(fā)也將會(huì)是N-IRT理論發(fā)展的一個(gè)突破口。
近年來(lái)N-IRT的研究取得了長(zhǎng)足的進(jìn)步,但受其項(xiàng)目分析結(jié)果不夠精確等特點(diǎn)的限制,研究者在實(shí)際應(yīng)用中將其多作為P-IRT的補(bǔ)充。隨著模型和算法的不斷完善,它將逐漸減少人們對(duì)P-IRT的依賴。兩種理論互補(bǔ),共同提高教育測(cè)量的質(zhì)量。
[1]張軍.非參數(shù)項(xiàng)目反應(yīng)理論在維度分析中的運(yùn)用及評(píng)價(jià)[J].心理學(xué)探新,2010(3):80-83.
[2]辛濤.項(xiàng)目反應(yīng)理論研究的新進(jìn)展[J].中國(guó)考試,2005(7):18-21.
[3]Van Schuur W H.Mokken scale analysis:between the Guttman scale and parametric item response theory[J].Political Analysis.2003,11(2):139-163.
[4]晏子.心理科學(xué)領(lǐng)域內(nèi)的客觀測(cè)量——Rasch模型之特點(diǎn)及發(fā)展趨勢(shì)[J].心理科學(xué)進(jìn)展,2010(8):1298-1305.
[5]Smith Jr EV,Others.Detecting and evaluating theimpact of multidimensionality using item fit statistics and principal component analysis of residuals.[J].Journal of applied measurement.2002,3(2):205.
[6]余嘉元.項(xiàng)目反應(yīng)理論及其應(yīng)用[M].南京:江蘇教育出版社.1992.
[7]楊建原,柏檜,趙守盈.計(jì)算機(jī)自適應(yīng)測(cè)驗(yàn)開發(fā)的程序研究[J].中國(guó)考試,2012(3):3-7.
[8]涂冬波,蔡艷.信息函數(shù)在標(biāo)準(zhǔn)參照測(cè)驗(yàn)中的應(yīng)用研究[J].江西師范大學(xué)學(xué)報(bào)(自然科學(xué)版),2005,29(2):167-172.
[9]趙守盈,何妃霞,陳維,等.Rasch模型在研究生入學(xué)考試質(zhì)量分析中的應(yīng)用[J].教育研究,2012(6):61-65.
[10]張金勇,何妃霞.教育測(cè)試中學(xué)生能力水平與測(cè)驗(yàn)項(xiàng)目難度的Rasch模型分析——個(gè)體能力與題目難度之間的對(duì)應(yīng)關(guān)系[J].當(dāng)代教育科學(xué),2012(12):11-14.
[11]劉欣,徐海波.國(guó)外非參數(shù)項(xiàng)目反應(yīng)理論的回顧與展望[J].統(tǒng)計(jì)教育,2002(1):43-44.
[12]Engelhard Jr G.Historical perspectives on invariant measurement:Guttman,Rasch,and Mokken[J].Measurement.2008,6(3):155-189.
[13]Mokken R J.A theory and procedure of scale analysis[M].Mouton The Hague,1971.
[14]雷新勇.非參數(shù)項(xiàng)目反應(yīng)理論模型及其在教育考試中的應(yīng)用[J].考試研究,2006(3):53-71.
[15]Junker BW,Sijtsma K.Nonparametric item response theory in action:An overview of the special issue[J].Applied Psychological Measurement.2001,25(3):211-220.