摘要:基于項(xiàng)目反應(yīng)理論,以高中化學(xué)平衡測(cè)驗(yàn)的編制為例,探索了化學(xué)測(cè)驗(yàn)的編制方法。首先,基于高中化學(xué)課程標(biāo)準(zhǔn)、考試大綱、高考試題等文本材料,構(gòu)建了化學(xué)平衡內(nèi)容的屬性模型;其次,編制了3份化學(xué)平衡的預(yù)測(cè)卷,利用項(xiàng)目反應(yīng)理論軟件——BILOG-MG3.0,估算每個(gè)項(xiàng)目的難度、區(qū)分度、信息量等參數(shù)和被試的能力值(θ);最后,基于信息函數(shù)的測(cè)驗(yàn)編制法,組建了一份效度較好、信度較高的測(cè)驗(yàn)卷。
關(guān)鍵詞:項(xiàng)目反應(yīng)理論;化學(xué)測(cè)試;化學(xué)平衡;試卷編制
文章編號(hào): 1005–6629(2012)4–0056–04 中圖分類號(hào): G633.8 文獻(xiàn)標(biāo)識(shí)碼: B
1 引言
學(xué)生學(xué)業(yè)的認(rèn)知診斷,類似于醫(yī)院的醫(yī)生給病人看病。當(dāng)我們用診斷性測(cè)驗(yàn)來(lái)探測(cè)學(xué)生的“病情”時(shí),我們希望診斷性測(cè)驗(yàn)準(zhǔn)確、穩(wěn)定,具有較高的信度、效度,不隨被試人群不同而變化。顯然,以經(jīng)典測(cè)量理論為指導(dǎo)的傳統(tǒng)測(cè)驗(yàn)不能達(dá)到上述目的,這是因?yàn)榻?jīng)典測(cè)量理論的理論基礎(chǔ)嚴(yán)重依賴于被試:項(xiàng)目的難度用學(xué)生的通過(guò)率表示,項(xiàng)目的區(qū)分度則以題目與總分的相關(guān)或高低能力組的通過(guò)率之差表示,測(cè)驗(yàn)信度建立在平行測(cè)驗(yàn)基礎(chǔ)之上。如何解決上述問(wèn)題,克服經(jīng)典測(cè)量理論的先天不足?項(xiàng)目反應(yīng)理論應(yīng)運(yùn)而生。
2 項(xiàng)目反應(yīng)理論簡(jiǎn)介
項(xiàng)目反應(yīng)理論(Item Response Theory,簡(jiǎn)稱為IRT)是在克服經(jīng)典測(cè)驗(yàn)理論的局限性上發(fā)展起來(lái)的一種現(xiàn)代心理與教育測(cè)驗(yàn)理論。它以考生對(duì)題目的作答模式為依據(jù),將考生在項(xiàng)目上的答對(duì)概率和潛在特質(zhì),以及項(xiàng)目的參數(shù)(如難度、區(qū)分度和猜測(cè)度),以概率模型的形式確定下來(lái),估算出不依賴于項(xiàng)目樣本和考生樣本的能力值和項(xiàng)目參數(shù),而且考生的能力值與項(xiàng)目的難度值定義在同一等距量尺上,這就給組卷時(shí)針對(duì)被試水平選擇相應(yīng)難度項(xiàng)目提供了極大的便利。
2.1 項(xiàng)目反應(yīng)理論的基本假設(shè)
項(xiàng)目反應(yīng)理論與心理學(xué)上的潛在特質(zhì)理論緊密相關(guān),有3個(gè)基本假設(shè):(1)潛在特質(zhì)的單維性,即測(cè)驗(yàn)僅測(cè)被試的一項(xiàng)特質(zhì)(知識(shí)、技能、人格等)。單維假設(shè)是不能嚴(yán)格滿足的,因?yàn)榭倳?huì)有一些認(rèn)知的、人格的影響測(cè)驗(yàn)表現(xiàn),只要有一個(gè)主導(dǎo)因素即可;(2)局部獨(dú)立性假設(shè),它指考生對(duì)每道題目的作答行為相互獨(dú)立,考生之間的成績(jī)互不影響;(3)項(xiàng)目特征曲線假設(shè)(Item Characteristic Curve,簡(jiǎn)稱ICC),ICC反應(yīng)了被試對(duì)某一測(cè)驗(yàn)項(xiàng)目的正確反應(yīng)概率與該項(xiàng)目所對(duì)應(yīng)的特質(zhì)或能力水平之間的一種函數(shù)關(guān)系,這種函數(shù)關(guān)系稱為項(xiàng)目反應(yīng)模型[1]。
2.2 常用模型和項(xiàng)目參數(shù)
到目前為止,項(xiàng)目反應(yīng)理論已經(jīng)提出了許多模型,其中最成熟、最常用還是logistic模型。根據(jù)參數(shù)估計(jì)所涉及的個(gè)數(shù),可分為單參數(shù)模型,只估計(jì)項(xiàng)目難度;雙參數(shù)模型,估計(jì)項(xiàng)目難度和區(qū)分度;三參數(shù)模型,估計(jì)項(xiàng)目難度、區(qū)分度和猜測(cè)度。項(xiàng)目反應(yīng)理論中項(xiàng)目參數(shù)的含義與經(jīng)典測(cè)量理論項(xiàng)目參數(shù)的比較見(jiàn)表1。
圖1中橫軸表示被試的能力量尺,b表示項(xiàng)目的難度參數(shù),可見(jiàn)被試的能力值和項(xiàng)目難度值在同一量尺上;縱軸表示不同能力被試答對(duì)該項(xiàng)目的概率;截距表示項(xiàng)目的猜測(cè)參數(shù),它的值越大,說(shuō)明能力水平低的被試更容易猜對(duì)項(xiàng)目。因此,利用ICC曲線,只要已知考生的能力值,就可預(yù)測(cè)出被試可能答對(duì)某個(gè)項(xiàng)目的概率。
2.4 信息函數(shù)
一般來(lái)說(shuō),信息可以看成是不肯定性的消除,當(dāng)信息量增大時(shí),這種不肯定性會(huì)隨之進(jìn)一步消除。項(xiàng)目反應(yīng)理論用信息函數(shù)來(lái)代替經(jīng)典測(cè)量理論中的信度概念。項(xiàng)目信息函數(shù)曲線如圖2所示。橫軸表示被試的能力量尺,縱軸表示項(xiàng)目針對(duì)某一被試特質(zhì)水平θ所能提供的信息量,隨θ取值的不同而變化。信息函數(shù)還具有如下重要性質(zhì):(1)每個(gè)項(xiàng)目在某一特質(zhì)水平處所能提供的信息量,還受項(xiàng)目自身特性的影響,區(qū)分度越大,所能提供的信息量越多;(2)每個(gè)項(xiàng)目所提供的信息不受其他項(xiàng)目的影響,測(cè)驗(yàn)中各項(xiàng)目均獨(dú)立地對(duì)測(cè)驗(yàn)總信息作貢獻(xiàn);(3)測(cè)驗(yàn)信息函數(shù)在某一特質(zhì)水平上的值的平方根的倒數(shù),就是該點(diǎn)特質(zhì)水平估計(jì)值的估計(jì)標(biāo)準(zhǔn)誤[1]。
3 研究方法
3.1 認(rèn)知屬性模型的構(gòu)建
認(rèn)知診斷根據(jù)測(cè)驗(yàn)的觀察分?jǐn)?shù)推斷被試的心理結(jié)構(gòu),需要施測(cè)者將想要了解的認(rèn)知屬性投射在測(cè)驗(yàn)中。研究表明,基于認(rèn)知屬性模型編制診斷性測(cè)試卷較之傳統(tǒng)的測(cè)試卷編制方法具有結(jié)構(gòu)效度上的優(yōu)勢(shì)[2]。本研究以化學(xué)平衡內(nèi)容為載體,認(rèn)知屬性模型以Tatsuoka所構(gòu)建的TIMSS數(shù)學(xué)測(cè)試認(rèn)知屬性模型為框架[3],以高中化學(xué)課程標(biāo)準(zhǔn)、考試大綱、高考試題等文本性材料為內(nèi)容素材,構(gòu)建了包含5個(gè)知識(shí)內(nèi)容屬性、8個(gè)過(guò)程技能屬性的化學(xué)平衡屬性模型。
3.2 項(xiàng)目的編制及預(yù)測(cè)卷的形成
在項(xiàng)目的編制過(guò)程中遵循以下基本原則:一是依據(jù)化學(xué)平衡屬性模型;二是能實(shí)現(xiàn)對(duì)每個(gè)屬性的多次觀察;三是難度適中。歷年高考化學(xué)試題具有較高的信度和效度,所以關(guān)于化學(xué)平衡的高考測(cè)試題是本研究選編測(cè)試項(xiàng)目的主要來(lái)源,共選編了75個(gè)項(xiàng)目。選編好試題之后,征求了測(cè)試對(duì)象的任課教師的意見(jiàn),并根據(jù)他們的反饋意見(jiàn)刪除了部分項(xiàng)目,并對(duì)部分測(cè)試項(xiàng)目作了修改,共保留65個(gè)項(xiàng)目,以確保測(cè)試項(xiàng)目的科學(xué)性和有效性。為了使所有的項(xiàng)目具有同一性,最好的辦法就是使這些項(xiàng)目都在相同的被試上實(shí)施,但是這是不現(xiàn)實(shí)的,因?yàn)檫@樣做不僅需要耗費(fèi)大量的時(shí)間,另外被試的疲勞和倦怠也會(huì)對(duì)測(cè)驗(yàn)結(jié)果產(chǎn)生不良影響。因此,本研究采用項(xiàng)目反應(yīng)的鉚試題等值技術(shù),從編選的65個(gè)項(xiàng)目中挑選5個(gè)作為鉚試題,其余60個(gè)按照上述編制試題的原則分布在測(cè)試卷1、測(cè)試卷2、測(cè)試卷3等3套試卷中,每套試卷各包括25個(gè)項(xiàng)目(其中含5個(gè)鉚題)。
3.3 測(cè)試對(duì)象
被試均是高二學(xué)生,完成了化學(xué)平衡內(nèi)容的學(xué)習(xí),具體構(gòu)成如表2所示。發(fā)放測(cè)試卷520份,收回520份,剔除無(wú)效試卷19份,最后得到有效試卷501份。
3.4 測(cè)試過(guò)程
在各學(xué)校以班級(jí)為單位進(jìn)行集體施測(cè)。采用紙筆測(cè)試,由各班級(jí)的化學(xué)教師擔(dān)任主試,測(cè)試前跟學(xué)生交代這是一次考試,但不限制作答時(shí)間,做完測(cè)試題即可上交。從實(shí)際情況來(lái)看,能一小時(shí)左右完成的學(xué)生居多。
3.5 測(cè)試數(shù)據(jù)的評(píng)分
施測(cè)的測(cè)試題有選擇題、填空題等,但這些測(cè)試題均是以(1、0)形式計(jì)分,答案對(duì)計(jì)1分,答案錯(cuò)或者沒(méi)有作答均計(jì)0分。
3.6 統(tǒng)計(jì)處理
本研究使用BILOG-MG3.0軟件進(jìn)行項(xiàng)目參數(shù)的估計(jì),測(cè)驗(yàn)等值及項(xiàng)目信息函數(shù)的估計(jì),用SPSS 13.0軟件進(jìn)行因素分析等。
4 研究結(jié)果與討論
4.1 單維性假設(shè)檢驗(yàn)
本文采用SPSS 13.0中因素分析主成分方法對(duì)數(shù)據(jù)進(jìn)行單維性檢驗(yàn)。從表3可以看出:3套預(yù)測(cè)卷的KMO檢驗(yàn)值均大于0.7;Bartlett球形檢驗(yàn)的P值均小于0.5,這表明3套預(yù)測(cè)卷完全適合進(jìn)行因子分析。另外,3套預(yù)測(cè)卷的第一特征值與第二特征值的比值均大于或等于3.0,這表明3套預(yù)測(cè)卷的單維性假設(shè)是成立的,適合用項(xiàng)目反應(yīng)理論進(jìn)行分析[1]。
4.2 擬合度檢驗(yàn)
本研究采用二參數(shù)Logistic模型,使用BILOGMG 3.0軟件“極大似然法(Maximum Likelihood)”進(jìn)行項(xiàng)目參數(shù)估計(jì)和模型—資料擬合度檢驗(yàn)(Assessment of model-Data Fit)。從χ2(prob)估計(jì)擬合度情況來(lái)看,項(xiàng)目8(測(cè)試卷1中項(xiàng)目12)、項(xiàng)目28(測(cè)試卷2中項(xiàng)目4)的p值小于0.05,χ2檢驗(yàn)不接受該模型,說(shuō)明這兩個(gè)項(xiàng)目參數(shù)估計(jì)擬合度較差。從校正卡方值(Chi/df)來(lái)看,項(xiàng)目28的校正卡方值則是正無(wú)窮,大于3,說(shuō)明該項(xiàng)目與模型擬合度的確較差;而項(xiàng)目8的校正卡方值為2.1,小于3,滿足擬合度要求,暫時(shí)予以保留[4]。
4.3 項(xiàng)目初選
在使用BILOG-MG 3.0軟件估計(jì)項(xiàng)目參數(shù)時(shí)發(fā)現(xiàn)項(xiàng)目8(測(cè)試卷1中項(xiàng)目12)的參數(shù)值無(wú)法估計(jì),其得分與測(cè)試卷1測(cè)驗(yàn)總分的二列相關(guān)系數(shù)rb=-0.061。項(xiàng)目55(測(cè)試卷3中項(xiàng)目14)的參數(shù)值也無(wú)法估計(jì),其得分與測(cè)試卷3測(cè)驗(yàn)總分二列相關(guān)系數(shù)rb=-0.017。二列相關(guān)為負(fù)表明,能力值越低的學(xué)生反倒越能準(zhǔn)確回答該項(xiàng)目,不符合測(cè)量理論的要求。因此,從測(cè)試卷1中刪除項(xiàng)目12,從測(cè)試卷2中刪除項(xiàng)目14。經(jīng)過(guò)項(xiàng)目初選后,共刪除了3個(gè)項(xiàng)目,測(cè)試卷1、測(cè)試卷2、測(cè)試卷3均保留了24個(gè)項(xiàng)目。
4.4 測(cè)驗(yàn)等值
采用鉚測(cè)驗(yàn)設(shè)計(jì)的做法,把待等值的測(cè)驗(yàn)分別向不同的被試施測(cè),使用BILOG-MG 3.0軟件進(jìn)3套試卷的項(xiàng)目參數(shù)等值轉(zhuǎn)換。研究結(jié)果表明,不同測(cè)驗(yàn)間區(qū)分度參數(shù)、難度參數(shù)的P值均大于0.05,說(shuō)明各試卷的項(xiàng)目(包括等值后的所有項(xiàng)目)結(jié)構(gòu)是一致的。另外,項(xiàng)目區(qū)分度的分布范圍是0.353到1.195,項(xiàng)目難度的分布范圍是-2.802到3.000。區(qū)分度參數(shù)a<0.5或a>3的項(xiàng)目有18個(gè),在項(xiàng)目終選階段列為替補(bǔ)項(xiàng)目。
4.5 測(cè)試卷的形成
一般來(lái)說(shuō),測(cè)量的標(biāo)準(zhǔn)誤在能力分布較為集中的區(qū)域需控制在0.4以內(nèi)[5]。從初測(cè)情況來(lái)看,學(xué)生的能力值基本上分布在-1.5—1這段區(qū)域內(nèi),集中了80 %多的學(xué)生。因此,測(cè)試卷在這段能力值范圍內(nèi)的信息量必須達(dá)到6.25。在遴選項(xiàng)目的過(guò)程中,如果兩個(gè)或多個(gè)項(xiàng)目考查的屬性相同或相似,則選擇信息量最大的項(xiàng)目,這樣既能使被選的項(xiàng)目的區(qū)分度得到保證,又能使測(cè)驗(yàn)以較少的項(xiàng)目達(dá)到預(yù)定信息函數(shù)的要求,節(jié)約了測(cè)試的時(shí)間成本。
在測(cè)試卷組卷的過(guò)程中研究者將項(xiàng)目的難度、區(qū)分度、信息函數(shù)以及項(xiàng)目涉及的屬性等內(nèi)容整合在一張表格中,形成高中化學(xué)平衡內(nèi)容組卷信息表(如表4),那么組卷過(guò)程中各項(xiàng)目的信息以及整張測(cè)試卷的信息就一目了然。
依據(jù)上述挑選項(xiàng)目的原則,利用組卷信息表共挑選了22個(gè)項(xiàng)目,使得本測(cè)試卷達(dá)到了目標(biāo)函數(shù)的要求,信息量與測(cè)量標(biāo)準(zhǔn)誤差如圖3所示。
從圖3可以看出,該測(cè)試卷在能力值-1.5—1之間的信息量在6.25以上,標(biāo)準(zhǔn)誤差在0.4以下,達(dá)到目標(biāo)信息函數(shù)的要求。其中,在能力值-0.3處最大信息量達(dá)到11.40,測(cè)量標(biāo)準(zhǔn)誤僅為0.29。因此,該份測(cè)試卷能夠保證一定的測(cè)試精度。另外,從項(xiàng)目屬性的初步編碼來(lái)看,除了化學(xué)平衡中的思維策略(P5)這一屬性只被觀察了2次,其余屬性均被觀察了3次或3次以上,達(dá)到了屬性觀察次數(shù)的基本要求。
5 研究結(jié)果
本研究主要取得了以下幾方面的研究成果:
?。?)根據(jù)高中化學(xué)課程標(biāo)準(zhǔn)、考試大綱、高考試題等內(nèi)容,建構(gòu)了高中化學(xué)平衡內(nèi)容的認(rèn)知屬性模型,該模型獲得了專家、一線教師的高度認(rèn)可;
(2)在認(rèn)知屬性模型框架下,編制了3套高中化學(xué)平衡內(nèi)容的預(yù)測(cè)卷并施測(cè),利用項(xiàng)目反應(yīng)中的BILOGMG 3.0軟件估算項(xiàng)目的性能參數(shù),淘汰擬合度不佳、區(qū)分度較低的項(xiàng)目;
(3)在認(rèn)知屬性模型框架下,基于各項(xiàng)目的特征曲線、信息曲線編制測(cè)試卷,并征求一線教師的意見(jiàn),編制了一套效度較高、信度可靠的化學(xué)平衡內(nèi)容診斷性測(cè)試卷。
參考文獻(xiàn):
[1]漆書青.現(xiàn)代測(cè)量理論在考試中的應(yīng)用[M].武漢:華中師范大學(xué)出版社,2003.
[2]李峰等.小學(xué)四、五年級(jí)數(shù)學(xué)診斷性測(cè)驗(yàn)的編制——基于規(guī)則空間模型的方法[J].心理發(fā)展與教育,2009,(3):113~118.
[3] C