范思穎 武天琪
【摘要】項目反應(yīng)理論可通過測試各個項目反應(yīng)曲線分析項目區(qū)分度、難度、猜測度等項目參數(shù),從而為測試項目的編制和篩選提供數(shù)據(jù)基礎(chǔ)和理論框架。本研究用項目反應(yīng)理論分析西安交通大學(xué)2013年大學(xué)英語考試聽力試題,發(fā)現(xiàn)該項目難度中等,題目的區(qū)分度比較理想,聽力理解水平較低的考生僅憑猜測而答對的概率在正常范圍內(nèi)。但也個別項目提供的信息量不足、質(zhì)量不高。因此,對質(zhì)量較低的題項,應(yīng)提高區(qū)分度 、改善試題對聽力能力的貢獻大小等方法提高命題質(zhì)量。
【關(guān)鍵詞】項目反應(yīng)理論;英語聽力試題;項目參數(shù)
【作者簡介】范思穎,武天琪,西安交通大學(xué)外國語學(xué)院。
一、引言
項目反應(yīng)理論(IRT)是心理與教育測量理論的新發(fā)展,其理論應(yīng)用的意義主要在于可以指導(dǎo)測驗項目的編制和篩選。理論通過測試各個項目反應(yīng)曲線分析項目區(qū)分度、難度、猜測度等項目參數(shù),從而為項目的編制和篩選提供數(shù)據(jù)基礎(chǔ)和理論框架。
本研究以西安交通大學(xué)2013年大學(xué)英語考試為例展示項目反應(yīng)理論在試題質(zhì)量評價中的應(yīng)用。本研究數(shù)據(jù)來自西安交通大學(xué)2013年大學(xué)英語考試結(jié)果,本次考試試卷結(jié)構(gòu)如表1所示。本次考試包含A級和B級兩套試卷,其中A級和B級的聽力和閱讀一樣,詞匯不一樣。本研究抽取A級與B級944份學(xué)生試卷作為樣本,只涉及試卷聽力部分客觀題的分析,題目數(shù)為25個。
二、試題分析
1.單維性假設(shè)檢驗。單維性假設(shè)檢驗是指測驗只測量被試的某一種潛在特質(zhì),可以忽略其他潛在特質(zhì)對測驗結(jié)果的影響。單維性假設(shè)檢驗的主要方法是因素分析法。對考試結(jié)果進行因素分析,當(dāng)抽取的第一個公共因素的特征根值明顯大于第二特征根值的3倍或以上,則認為測驗符合單維性條件。對于詞匯部分題目的KMO檢驗值為0.88,大于0.7,說明題目適合進行因子分析。對題目的因子維度分析中我們采用主成分分析法,因子提取標(biāo)準為特征值大于1。
從提取的因子解釋的總方差可以看出,第一個因子解釋的方差占總方差的16.640%,而第二個因子解釋的方差僅占5.169%,抽取的第一個公共因素解釋變異大于第二個公共因素解釋變異的3倍,可以認為本次英語聽力測試的維度是單維的。
2.試題信度檢驗。測試信度主要指測量的一致性程度??寺“秃障禂?shù)(Cronbach’s alpha)是心理或教育測試中最常用的信度評估工具,它依據(jù)一定公式估量測驗內(nèi)部的一致性,作為信度的指標(biāo)。通??寺“秃障禂?shù)的值在0和1之間,如果系數(shù)不超過0.6,一般認為內(nèi)部一致性信度不足;達到0.7-0.8表明測試具有相當(dāng)?shù)男哦?達到0.8-0.9表明測試信度非常好。根據(jù)SPSS的分析結(jié)果,克隆巴赫系數(shù)為0.784,表明本次測試聽力客觀題的信度可以接受。
3.項目分析。在 IRT中,將任一個項目參數(shù) 、考生能力值與考生對題目的答對率以一個指數(shù)函數(shù)來表示,再根據(jù)每個人在每道題目上的回答情況,直接估計題目的參數(shù)和考生能力值 。這種做法的好處, 是將題目的難度值與考生的能力值都放在同一個量尺上, 有助于理解考生能力與其在各個題目上答對率的關(guān)系。本研究采用 IRT 模型,使用 BILOG-MG3.0軟件對西安交通大學(xué)2013年大學(xué)英語考試聽力部分做項目分析。
BILOG-MG3.0首先輸出聽力項目的經(jīng)典測量項目分析指標(biāo): 難度(答對百分比)和區(qū)分度(分別以項目和總分之間的皮爾遜相關(guān)系數(shù)和點雙列相關(guān)系數(shù)表示)。軟件提示,所有項目的區(qū)分度(皮爾遜相關(guān)系數(shù)為和點雙列相關(guān)系數(shù)均大于0.1)比較理想。第二步輸出項目參數(shù)估計值以及單維性檢驗中項目對單因子的負荷值,即項目對聽力理解的貢獻大小 。
整體來講, 聽力項目的平均區(qū)分度為0.956 ,標(biāo)準差為0.188;平均難度為0.442, 標(biāo)準差為0.578;平均猜測度為 0.348,標(biāo)準差為0.082。所有項目的區(qū)分度都在0.5以上;難度較大的試題為第2、3、4、13題。也就是說, 西安交通大學(xué)2013 年大學(xué)英語考試聽力項目的難度中等,題目的區(qū)分度比較理想。而聽力理解水平較低的考生憑猜測而答對的概率為34.8%。由于本研究中學(xué)生作答數(shù)據(jù)為只用01表示對錯的兩級答案,聽力理解項目猜測度在正常范圍內(nèi)。
參數(shù)估計表明,幾乎所有的聽力項目的參數(shù)指標(biāo)都非常理想,難度、區(qū)分度和猜測度等指標(biāo)大都符合要求。通過項目特征曲線,發(fā)現(xiàn)第23題和第1題的項目特征曲線都比較吻合理論曲線,但第23題區(qū)分度明顯比第1題大。信息函數(shù)曲線則可以進一步驗證試題質(zhì)量的好壞。例如,ITEM0023最大信息量約為0.86,質(zhì)量良好;而ITEM0001最大信息量則低于0.25,質(zhì)量較差。
三、結(jié)論
本研究運用IRT方法并結(jié)合具體試題對西安交通大學(xué)2013年大學(xué)英語考試聽力理解項目質(zhì)量進行了分析,發(fā)現(xiàn)該項目難度中等,題目的區(qū)分度比較理想,聽力理解水平較低的考生僅憑猜測而答對的概率在正常范圍內(nèi)。但也個別項目提供的信息量不足、質(zhì)量不高。因此,應(yīng)該對項目質(zhì)量較低的題目, 可試情況分別采用提高區(qū)分度 、改善試題對聽力能力的貢獻大小等方法提高命題質(zhì)量。
參考文獻:
[1]黃銳,虞秋玲.項目反應(yīng)理論在聽力測試中應(yīng)用的案例研究——以2006年英語專業(yè)四級聽力試題為例[J].集美大學(xué)學(xué)報(哲學(xué)社會科學(xué)版),2009,12,3.
[2]彭康洲,李清華.應(yīng)用IRT模型分析TEM 4聽力理解項目的質(zhì)量[J].外語教學(xué)理論與實踐,2009,3.
[3]趙守盈,石艷梅,朱丹.項目反應(yīng)理論在大規(guī)模選拔性考試試題質(zhì)量評價中的應(yīng)用[J].教育學(xué)報,2013,9,1.