張宇堯
【摘 要】本文選取河南省某市一重點(diǎn)中學(xué)某次期末考試的初一數(shù)學(xué)卷。同時根據(jù)經(jīng)典測量理論中抽樣要有代表性和項目反應(yīng)理論中樣本量要大、被試范圍要廣等要求,隨機(jī)抽取530名考生的數(shù)學(xué)試卷,對題型、總分、每題得分進(jìn)行了統(tǒng)計。
【關(guān)鍵詞】試卷質(zhì)量;經(jīng)典測量理論;SPSS
經(jīng)典測量理論要求全部測試所用參數(shù)從考生樣本中獲得。在一組樣本中實(shí)際測量的分?jǐn)?shù)稱為觀測分?jǐn)?shù),大多情況下真分?jǐn)?shù)模型中的假設(shè)能夠借助實(shí)驗數(shù)據(jù)得到驗證,這種理論建立在隨機(jī)抽樣理論的基礎(chǔ) 上,測驗結(jié)果可信度高,較普遍化。真分?jǐn)?shù)模型是經(jīng)典測 量理論的基礎(chǔ)模型,根據(jù)真分?jǐn)?shù)的假設(shè)可以延伸出與其 相關(guān)聯(lián)的假設(shè)定理,即經(jīng)過足夠多次數(shù)的測試,觀測 分?jǐn)?shù)會無限接近于真分?jǐn)?shù),那么隨機(jī)誤差就會被無限縮小化,真分 數(shù)就等于測量實(shí)際得到分?jǐn)?shù)的期望值,因此在數(shù)學(xué)上可以認(rèn)定測量上被試的觀測分?jǐn)?shù)就是真分?jǐn)?shù)??捎孟率奖硎荆?/p>
T=E(X) (2-1)
式中的X為被試在測驗上的實(shí)得分?jǐn)?shù),E代表期望,T代表被試的真分?jǐn)?shù)[1]。如果按數(shù)學(xué)上定義的真分?jǐn)?shù)來求解的話發(fā)現(xiàn)這里的真分?jǐn)?shù)不能夠被直接測量,因為這里的真分?jǐn)?shù)是在經(jīng)過足夠多次重復(fù)試驗以后得到的平均觀測分?jǐn)?shù)。由于任何測驗都存在不可避免的誤差,因此在經(jīng)典測量理論的假設(shè)中規(guī)定觀測分?jǐn)?shù)應(yīng)等于真分?jǐn)?shù)與隨機(jī)誤差之和,這也使得觀測分?jǐn)?shù)不是某一固定值,而是會在一定范圍內(nèi)上下波動,如果從信息論的角度理解可知在眾多的信息當(dāng)中包含著有用信息和無用信息,而教育測量的目的是排除干擾信息,保留有用信息,在經(jīng)典測量理論中前者稱為誤差,后者稱為真分?jǐn)?shù)。
一、典測量理論的相關(guān)指標(biāo)
(一)難度
難度從字面上理解就是難易程度,難度的計算實(shí)質(zhì)上就是計算題目的得分率。由于難度是一個相對的指標(biāo),會 因為樣本的不同所得出的難度值也會不一致。試題難度的計算方法很多,本文將試題分為客觀題和主觀題,采用如下兩種計算公式:
(1)客觀性試題難度P計算公式:P=K/N
K為答對該題的人數(shù),N為參加考試的總?cè)藬?shù)。
(2)主觀性試題難度P計算公式:P=X/M
X為試題平均得分,M為試題滿分。
(二)區(qū)分度
區(qū)分度是指 測試題目對水平不同的學(xué)生的區(qū)分程度或 鑒別能力。具有良好區(qū)分度的考試,實(shí)際水平高的被試應(yīng) 得高分,水平低的被試應(yīng)得低分。它是測驗是否有效的“指示器”,被作為評價試題質(zhì)量,篩選試題的主要 指標(biāo)。計算區(qū)分度的方法很多,比較普遍的一種 方法是兩端分組法。該方法比較得分在高、低兩端的被試通過該題的比率得到區(qū)分度。假設(shè)PH和PL分別為高分組和低分組通過某個題目的百分比,則下式即為區(qū)分度的計算方法:
D=PH-PL
二、試題的難度分析
本試卷共有22道試題,根據(jù)抽樣的數(shù)據(jù),顯示試題難度如圖1所示:
一般地說,試題的難度測量可參照表1進(jìn)行評價,
整卷難度發(fā)展變化 的總體趨勢是從易到難,從每種題型分開來看,同樣呈由易到難的趨勢;總體來說,試題的難度偏低,試題難度值大部分在0.66~0.83之間,試卷整體難度平均值為0.75,說明試卷較為簡單,但由于本試卷為期末考試試卷,通常期末考試試卷為目標(biāo)參照性考試,平均難度在0.7左右為宜。
三、試題的區(qū)分度分析
本文采取一種較 方便的方法。對于客觀題,使用等級相關(guān)分析,使用斯皮爾曼等級相關(guān)分析,即求總分與每個試題得分間的相關(guān)系數(shù);對主觀題,看成是非等間距測度的連續(xù)變量,并且樣本數(shù)大于30,采用皮爾遜相關(guān)分析來對試題進(jìn)行分析,即求總分與每個試題得分間的積差相關(guān)系數(shù)作為實(shí)體的區(qū)分度[2]。對區(qū)分度的評價如下表所示:區(qū)分度D?艸0.4很好,0.3?艽D<0.4良好,如能改進(jìn)更好;0.2?艽D<0.3尚可,需改進(jìn);D<0.2差,需淘汰。
在本文使用的樣本中,第1~8題為客觀題,第9~22題為主觀題利用SPSS對區(qū)分度進(jìn)行分析,輸出結(jié)果的最后一行每小題與總分之間的相關(guān)系數(shù)即為區(qū)分度,輸出整理結(jié)果如下表:
由各題的區(qū)分度表可以看出,只有第1題的區(qū)分度不夠,需要淘汰,第4、5、12題的區(qū)分度需改進(jìn),其余題目的區(qū)分度均在良好水平以上,這說明該試卷的整體區(qū)分度良好,對水平不同的學(xué)生具有較好的鑒別能力。
四、結(jié)論及建議
在本文中,以經(jīng) 典測量理論為理論指導(dǎo)對試卷的分析得到了大體一致的結(jié)論,即樣本試 卷區(qū)分度一般。同時,本文表明,簡單將學(xué)生的總分看成能力的指標(biāo)是不夠 科學(xué)嚴(yán) 謹(jǐn)?shù)?。?很多人的觀念中,分?jǐn)?shù)是一個評價學(xué)生能力的最有效指標(biāo)。但事實(shí)上,分?jǐn)?shù)并不能承載這么多的內(nèi)涵??荚嚪?jǐn)?shù)在一定程度上可以反映學(xué)生對書本知識掌握的情況,但不一定能反映學(xué)生的實(shí)際 能力;單一按照總分得到的排名也不能作為衡量學(xué)生的綜合能力的唯 一標(biāo)準(zhǔn),而只能作為一個參考。因而,我們應(yīng)采用一種更客觀的參數(shù)來代替分?jǐn)?shù),能更公 正地反映學(xué)生的真實(shí)水平。試卷的質(zhì)量分析不僅要對所命制試題是 否 符合命題規(guī)則和考核目標(biāo)等方面進(jìn)行定性分析,同時也需要根據(jù)考生的作答情 況進(jìn)行量化分析。
參考文獻(xiàn):
[1]梁晶.基于經(jīng)典測量理論的試卷分析系統(tǒng)的設(shè)計與實(shí)現(xiàn)[D].內(nèi)蒙古大學(xué),2013.
[2]董喆.利用統(tǒng)計軟件SPSS進(jìn)行試卷質(zhì)量分析[J].中國科技信息,2009,15:100