摘 要:項目反應理論( Item Response Theory, 簡稱IRT ) 是現(xiàn)代教育測量的代表,它是針對傳統(tǒng)真分數(shù)測量理論的不足而建立起來的,在檢測外語試題尤其是在標準參照測試( CRT ) 模式中更具有科學性。通過應用項目反應理論的BILOG軟件對沈陽師范大學2011級大學英語六級部分聽力考題的分析,說明與傳統(tǒng)真分數(shù)測試理論相對而言,項目反應理論對試題分析尤其是CRT模式中更具科學性,其分析的結果對試題設計者在具體設計過程有所啟示。
關鍵詞:項目反應理論; BILOG軟件運用; 聽力考試;CET
[中圖分類號]:G431[文獻標識碼]:A
[文章編號]:1002-2139(2012)-15-0069-01
一、引言
項目反應理論也被稱為潛在特質理論,是現(xiàn)代心理測量方面的先進理論代表之一。項目反應理論應用的意義主要在于可以指導測驗項目的編制和篩選。理論認為被試在項目測驗中獲得的的成績與他們自身存在的潛在特質存在某種特殊的關系。通過項目反應模型獲得的各種項目參數(shù)具有不變性的特點,這也就意味著根據(jù)不同量表獲得的測量分數(shù)具有統(tǒng)一性。理論通過測試中各個項目反應曲線分析和獲得項目難度、區(qū)分度等項目資料,從而為我們進行項目篩選和測驗編制提供數(shù)據(jù)基礎和理論框架。本文以沈陽師范大學2011級大學英語聽力考試的成績分析結果為例來展開分析, 以展示項目反應理論的分析效果。
二、BILOG軟件數(shù)據(jù)分析方法
1.聽力測試共有20道客觀題,均采用0、1計分法。20道試題均不存在全部答對或答錯的情況,適合作為案例進行數(shù)據(jù)分析。
2.本文采用二參數(shù)項目反應理論模型,運用邊際極大似然法進行項目參數(shù)估計,同時結合貝葉斯(Bayes)估計法和期望后驗法(EAP)對被試者的能力值進行估計。
3.通過數(shù)據(jù)分析,BILOG軟件可以輸出以下信息:項目參數(shù)表、項目特征曲線、測驗信息函數(shù)以及被試者的能力估計值。
三、具體數(shù)據(jù)分析
BILOG軟件的項目分析主要從整體上反映項目的測量特性,不僅包括項目特征曲線圖形還報告了刻畫項目特征曲線的幾何性質參數(shù)如截距(INTERCEPT)、斜率(SLOPE)和閾值(THRESHOLD)。根據(jù)這些曲線參數(shù)就可導出模型參數(shù)的難度和區(qū)分度。通過軟件對20道試題的初次估計,得到表一的各項目特征曲線參數(shù):
我們可以根據(jù)表一提供的曲線參數(shù)求得各項目的難度和區(qū)分度。根據(jù)統(tǒng)計可以知道20道試題的平均難度為0.312,其中除第5題為4.933,15題,4.612外,其余均分布于區(qū)間(-3,3)內(nèi)。區(qū)分度的平均數(shù)為2.455,最小值為18題的1.213。從難度的平均值來看,試題的難度適中,但試題的區(qū)分度有待改善。
我們還可以通過數(shù)據(jù)分析中的項目特征曲線(簡稱ICC )來反映個項目的具體情況。我們可以根據(jù)不同的形態(tài)特征,將它們劃分為三種類型, 以試題4 、1 2 、16 (圖略)為例,它們的 分別反映了該項目對不同能力水平的被試鑒別力的高低。我們可以從ICC圖中得到試題4對中、高聽力水平的考生較適用; 試題12僅局限于反映聽力水平較低的考生狀況; 而試題16則可以對各種能力水平不同的被試都具有鑒別力, 試題適用的范圍較大。以試題4 為代表的IC C (高能型) 占全部IC C 的24 % , 以試題12 為代表的ICC (低能型)占32 % , 以客觀題16為代表的ICC ( 全能型) 占44 %, 據(jù)此結果我們可以判定整個聽力測試中的試題對于聽力水平處于中等和中等偏低的考生較為適用。
表二試題項目信息函數(shù)表(表略)
表二展現(xiàn)的是20道試題的項目信息函數(shù),分別提供了各個項目產(chǎn)生的試題最大信息量以及與之相對應的被試能力值。從中我們可以得到以下結論:試題中的各個項目都可以在被試相應的能力范圍中提供一定的項目信息,當中試題2、12、20所提供的信息量較大。從項目信息函數(shù)圖(圖略)可以看出,聽力測驗對處于中等偏低的被試能夠提供較大的信息量。這也就說明了該測驗比較適合能力水平處于中等偏低的被試。
四、數(shù)據(jù)分析結果及對今后的啟示
通過對沈陽師范大學大學英語聽力測試部分數(shù)據(jù)的具體分析, 我們可以得到以下結論和啟示:
項目反應理論中的BILOG分析軟件并不僅僅是提供項目分析的難度、區(qū)分度、猜測度來判定項目的好壞優(yōu)劣,而是以ICC的形態(tài)特征來對測試中的各個項目性能進行描述,從而可以讓我們對測試項目有一個更全面的認識和理解。
語言測試理論包括以下六要素: 測驗的信度、效度、影響和可操作性、真實性、交互性。所以, 對于那些對測試真實性和交互性要求較高的聽力測驗, 我們更需要注重測試試題的相關特性, 并在規(guī)模較大的考試環(huán)境中, 注意測試信度和效度的提高, 從而規(guī)避被試因試題難度太大而注重猜測策略的現(xiàn)象。
參考文獻:
[1]、Lyle F. Bachman. Language Testing in Practice[M ]. 上海:上海外語教育出版社,1997:202
[2]、漆書清。 現(xiàn)代教育測量理論在考試中的應用[M ]。 武漢: 華中師范大學出版社, 2003: 87。
[3]、黃銳。 現(xiàn)代教育理論在標準參照語言測試中的應用與案例研究[D]。廈門: 廈門大學,2007。
[4]、黃銳。 項目反應理論在英語考試中的應用研究[ J]。 英語考試研究,2007 ( 9): 55-59。