趙 娟,楊建芹
(大連教育學(xué)院 學(xué)習(xí)質(zhì)量監(jiān)測中心,遼寧 大連 116021)
項目反應(yīng)理論在中考命題質(zhì)量評價中的應(yīng)用
趙 娟,楊建芹*
(大連教育學(xué)院 學(xué)習(xí)質(zhì)量監(jiān)測中心,遼寧 大連 116021)
應(yīng)用項目反應(yīng)理論對中考命題質(zhì)量進行分析,可以排除抽樣干擾,準(zhǔn)確評估試題的難度,客觀精細地描述試題的區(qū)分度,評估整套試卷和各試題對學(xué)生能力估計的精度,查找賦分標(biāo)準(zhǔn)和閱卷過程中存在的問題。
中考命題;項目反應(yīng)理論;質(zhì)量評價
項目反應(yīng)理論是建立在潛在特質(zhì)理論基礎(chǔ)上的現(xiàn)代測量理論,簡稱IRT。潛在特質(zhì)是指被試者不能被直接觀察到的某種穩(wěn)定的、支配其對相應(yīng)的測驗項目做出反應(yīng),并對反應(yīng)表現(xiàn)出一致性的內(nèi)在特征(記為θ)。被試者的某個潛在特質(zhì)與測量該特質(zhì)的項目反應(yīng)之間存在著如下關(guān)系:隨著潛在特質(zhì)θ的提高,正確反應(yīng)該項目的概率P(θ)也提高。IRT是研究θ與P(θ)之間的函數(shù)關(guān)系,并用一定的數(shù)學(xué)模型來反映兩者關(guān)系的一種測量理論。[1]
IRT有三個理論假設(shè):一是能力單維性假設(shè),指組成某個測驗的所有項目都是測量同一潛在特質(zhì);二是局部獨立性假設(shè),指對某個被試而言,項目間無相關(guān)存在;三是項目特征曲線假設(shè),指對被試某項目的正確反應(yīng)概率與其潛在特質(zhì)之間的函數(shù)關(guān)系所作的模型。
學(xué)業(yè)質(zhì)量測量可以建立學(xué)生能力這一潛在特質(zhì)與對試題的正確反應(yīng)概率之間的函數(shù)模型。目前,IRT已廣泛用于評價試卷(試題)質(zhì)量,指導(dǎo)試題篩選和測驗編制等方面。
大連市中考是大規(guī)模的標(biāo)準(zhǔn)化考試,在命題過程中關(guān)注局部獨立性假設(shè),保證項目間無顯著相關(guān)。對測試數(shù)據(jù)進行因素分析,證明各學(xué)科的測驗滿足能力單維性假設(shè)。所以可以借助IRT對測驗質(zhì)量進行分析評價。
鑒于大連市中考各學(xué)科的數(shù)據(jù)特點,依據(jù)兩參數(shù)模型(2-PL模型)和分步評分模型(GPCM),使用PARSCALE4軟件對中考各學(xué)科測驗作出參數(shù)估計,為命審題教師反思試題質(zhì)量提供實證的參考依據(jù);也為后繼的中考命題積累基礎(chǔ)項目和數(shù)據(jù),逐步提高中考命題的質(zhì)量。
基于項目反應(yīng)模型可以估算出試題的難度參數(shù)b,并可通過項目特征曲線直觀地表示出來。
在經(jīng)典測驗理論中,難度系數(shù)是指0、1計分試題的通過率,或非0、1計分試題的得分率。同一試題的難度系數(shù)會因抽樣不同而發(fā)生變化。在項目反應(yīng)理論中,難度被定義為試題本身固有的潛在特質(zhì),是指項目特征曲線拐點處的被試能力值。同一試題的難度不會因抽樣不同而發(fā)生變化。2-PL模型中,難度是指被試正確作答概率為0.5時對應(yīng)的能力值。當(dāng)被試能力高于試題難度時,其正確作答的概率大于0.5;反之,則小于0.5。
項目特征曲線表示被試能力(θ)與項目正確反應(yīng)概率P(θ)的關(guān)系,如圖1,橫軸表示被試的能力量尺,b表示項目的難度參數(shù),可見被試的能力值和項目難度值在同一量尺上;縱軸表示不同能力被試正確作答該項目的概率。項目特征曲線可以依據(jù)被試的能力值預(yù)測出被試可能正確作答該項目的概率。
圖1 項目特征曲線1
根據(jù)圖1,能力為-2.125的被試(能力非常低)正確作答該項目的概率為50%,高于該能力的被試正確作答的概率高于50%,能力在0左右(能力中等)的被試,正確作答的概率接近100%。根據(jù)圖2,能力值為1.978的被試(能力非常高)正確作答該項目的概率為50%,低于該能力的被試正確作答該項目的概率低于50%,能力在0左右(能力中等)的被試,正確作答該項目的概率接近0。
圖2 項目特征曲線2
在經(jīng)典測驗理論中,用來表示區(qū)分度的鑒別指數(shù)是指高能力水平被試與低能力水平被試在某一題目上得分率的差值。也可以用被試在某一題目上的得分與總分的相關(guān)系數(shù)表示試題的區(qū)分度。在項目反應(yīng)理論中,試題的區(qū)分度就是項目特征曲線上正確作答概率為0.5時曲線的斜率(a)。因此,項目特征曲線的斜率越大,則項目的區(qū)分度越高。
例1將16 000 000用科學(xué)記數(shù)法表示為__ 。
例1是一道非常簡單的試題(P=0.97),由于抽取的樣本中能力非常低的學(xué)生數(shù)量少,所以,借助于經(jīng)典測量理論計算出的鑒別指數(shù)非常低(D=0.08)。項目特征曲線(圖3)則能夠清晰地呈現(xiàn)出該試題對能力非常低的考生群體有非常高的區(qū)分能力(a=1.279)。
圖3 例1的項目特征曲線
例2如圖(圖略),拋物線與y軸相交于點A,與過點A平行于x軸的直線相交于點B(點B在第一象限)。拋物線的頂點C在直線OB上,對稱軸與x軸相交于點D。平移拋物線,使其經(jīng)過點A、D,則平移后的拋物線的解析式為__。
例2是一道比較難的試題(P=0.10)。借助經(jīng)典測量理論計算出的鑒別指數(shù)沒有達到非常好的程度(D=0.32)。這是由于一些中上等的學(xué)生因為不能一下子解答出來而放棄作答。而項目特征曲線(圖4)則能夠清晰地表明該試題對能力高的考生群體有非常高的區(qū)分能力(a=1.3)。
圖4 例2的項目特征曲線
由此可見,經(jīng)典測量理論中試題的區(qū)分度也明顯依賴于抽取的樣本,而IRT中的項目參數(shù)估計獨立于樣本,區(qū)分度參數(shù)a能更客觀精細地描述試題的區(qū)分度。
在項目理論中,信息函數(shù)是用以刻畫一個測試或一道試題的有效性,它直接反映測驗分數(shù)對學(xué)生能力估計的精度。信息函數(shù)值越大,估計就越精確,測量誤差越小。
測驗信息函數(shù)則是項目信息函數(shù)的累加和,測驗信息函數(shù)反映了整個測驗在評價不同特質(zhì)水平被試時的測量精度。測驗提供的信息量越大,則該測驗在評價該被試特質(zhì)水平時越精確,測量誤差越小。
一般認為,當(dāng)測驗的信息量達到25時,即測量標(biāo)準(zhǔn)誤差等于0.2時,測驗質(zhì)量良好;信息量為16~25時,測驗有待改進。[2]由于大連市中考是水平考試和選拔考試合二為一的考試,要求測驗的信息量不低于16,但對每道試題的信息量沒有硬性規(guī)定。
圖5 數(shù)學(xué)學(xué)科的信息函數(shù)曲線
圖5是2013年大連市中考數(shù)學(xué)學(xué)科的信息函數(shù)曲線,由該圖可以看出,被試能力在-1.24 處,信息量最大,超過18。對能力在-1.64~0.78之間的考生(覆蓋了考生的73%)而言,信息量均不小于16。由此可見,2013年大連市中考數(shù)學(xué)學(xué)科的測驗對絕大部分考生而言,測量精度比較高。
圖6是某試題的信息函數(shù)曲線,顯示該試題對于能力水平在0左右(中等能力水平)的考生測量誤差小,而對于能力非常高或低的考生測量誤差較大。
圖6 某題的信息函數(shù)曲線
例3下面是從網(wǎng)上搜索的關(guān)于宋詞的資料,請分別提煉出主要信息。(不超出所給字格)(2分)
(1)在宋代的多種文學(xué)樣式中,宋詞代表著宋代文學(xué)的最高成就。兩宋期間,大批詞人不斷開闊寫作視野,創(chuàng)新寫作技巧,詞壇呈現(xiàn)出名家輩出、精品如林的鼎盛局面。
圖7 例3的項目特征曲線
(2)從藝術(shù)風(fēng)格上看,宋詞有以蘇軾、辛棄疾的作品為代表的豪放派,詞風(fēng)灑脫曠達、氣象恢弘,還有以柳永、李清照的作品為代表的婉約派,詞調(diào)蘊藉清雅、意境柔婉。
該題設(shè)置了5個評分等級1、2、3、4、5,對應(yīng)的分值分別為0、0.5、1、1.5、2分。
圖7的特征曲線顯示,被試獲得2、4等級(0.5分、1.5分)的概率幾乎不隨被試能力的變化而變化。經(jīng)測算,跨步難度從1等級跨到2等級(0分~0.5分)需要的能力水平為4.972,幾乎不存在能達到此能力水平的被試。同樣,由3等級跨到4等級(1分~1.5分)也幾乎是不可能的,具體見表1。
表1 例3的項目參數(shù)
借助以上分析,可以看出在這一試題上,沒有必要設(shè)5個等級,設(shè)3個等級(0、1、2分)即可。
例4生活中一定有讓你感到“是在愛的中心,在幸福的中心”的那一刻。請描述當(dāng)時情景。(7分)
圖8 例4的信息函數(shù)曲線
這是語文學(xué)科中一道讀寫結(jié)合試題。圖8是該題的信息函數(shù)曲線。從整體上看,此試題的信息量大,測試精度高。但0~1能力段的信息量低于其他能力段。鑒于以上分析,結(jié)合閱卷的實際情況可以推斷:在閱卷過程中,評卷者對中檔到中上檔的作答沒有能夠進行精細的區(qū)分,評分誤差相對大。因此,以后類似試題的批閱應(yīng)該對中檔到中上檔的作答之間作出更細致的劃分,同時增加評分標(biāo)準(zhǔn)的可操作性。
[1]鐘軼,季曉輝.兩種教育測量理論在試卷質(zhì)量控制和評價中的應(yīng)用及其展望[J].南京醫(yī)科大學(xué)學(xué)報:社會科學(xué)版,2013(1):66-69.
[2]趙守盈,石艷梅,朱丹.項目反映理論在大規(guī)模選拔考試試題質(zhì)量評價中的應(yīng)用[J].教育學(xué)報,2013(1):74-76.
On Application of Item Response Theory to Evaluate the Test Question Quality of Senior High School Entrance Examination
ZHAO Juan,YANG Jian-qin
(Study Quality Monitoring Center,Dalian Education University,Dalian 116021,China)
The application of item response theory to analyze the test question quality of senior high school entrance examination can eliminate sampling disturbance,evaluate accurately the difficulty degrees of test questions,describe objectively and elaborately the discrimination of test questions,evaluate the assessment precision of students’ability by using the whole set of papers and the test questions,and find the problems of the grading standards and the scoring process.
question-setting of senior high school entrance examination;item response theory;quality evaluation
G632.4
A
1008-388X(2014)01-0017-03*
2014-01-03
趙娟(1966-),女,遼寧撫順人,教授。
惠人]