劉艷娜 劉敏 王瑞
在“以學(xué)生為中心”的現(xiàn)代教育理念中,考試的診斷性功能和發(fā)展性功能在不斷強(qiáng)化。通過測量與評(píng)價(jià),判斷課程整體的教學(xué)效果,幫助測評(píng)者與被測評(píng)者盡快發(fā)現(xiàn)問題,及時(shí)調(diào)整與修正教學(xué)中存在的不足,可以達(dá)到以考促教、以考促學(xué)、以考促建的目的。
2017—2020年,我院《工程數(shù)學(xué)》課程使用試卷庫隨機(jī)抽題的形式進(jìn)行課程終結(jié)考核。隨著考核方式的優(yōu)化,規(guī)范地、科學(xué)地開展教育測量與評(píng)價(jià),挖掘并反饋數(shù)據(jù)關(guān)系中隱藏的大量教育信息,準(zhǔn)確地把握學(xué)生對(duì)知識(shí)的掌握程度,對(duì)于后續(xù)課程的教學(xué)和考核評(píng)價(jià)工作具有重要的意義和價(jià)值,準(zhǔn)確、科學(xué)的試卷質(zhì)量評(píng)價(jià)工作使試卷庫考核評(píng)價(jià)方式形成閉環(huán)。
一、試卷質(zhì)量分析指標(biāo)體系
根據(jù)教育測量學(xué)的理論,常用衡量試卷質(zhì)量的檢驗(yàn)指標(biāo)主要有信度、效度、難度和區(qū)分度,即試卷的成績能否反映學(xué)員的學(xué)習(xí)水平、考核內(nèi)容能否反映教學(xué)重點(diǎn)、考核難度是否適中、學(xué)員水平是否能區(qū)分等,下面分別說明四個(gè)指標(biāo)的含義和計(jì)算方法。
(一)信度
信度即測驗(yàn)結(jié)果的可信程度,它是反映測驗(yàn)結(jié)果的一致性、可靠性和穩(wěn)定性的指標(biāo)。常用的信度系數(shù)有三種:再測信度系數(shù)、復(fù)本信度系數(shù)、內(nèi)部一致性系數(shù)。內(nèi)部一致性系數(shù)是反映一個(gè)測驗(yàn)中被測各題所得分?jǐn)?shù)的一致性指標(biāo),可用來估計(jì)測驗(yàn)內(nèi)部一致性信度,常用的內(nèi)部一致性系數(shù)有分半信度系數(shù)、庫德—理查遜系數(shù)和克倫巴赫系數(shù)三種。針對(duì)不同的測驗(yàn)可使用以上三種方法中的一種。
(二)效度
效度是指測驗(yàn)結(jié)果的有效程度。通俗地說,效度是度量測驗(yàn)是否達(dá)到了預(yù)期目的的指標(biāo),是評(píng)鑒測驗(yàn)質(zhì)量的重要指標(biāo)。效度是教育測量中最基本也是最重要的問題。根據(jù)不同的角度,可將效度分為不同的類型,按照測驗(yàn)?zāi)繕?biāo)對(duì)效度進(jìn)行分類:內(nèi)容效度、構(gòu)想效度和效標(biāo)關(guān)聯(lián)效度、結(jié)果效度。內(nèi)容效度是指測驗(yàn)內(nèi)容與預(yù)定要測的內(nèi)容之間的一致程度,它反映了測驗(yàn)題目在所要測量的內(nèi)容范圍和教學(xué)目標(biāo)內(nèi)取樣是否充分和確切的問題,主要用于學(xué)科成績測驗(yàn)。內(nèi)容效度的評(píng)估方法分為定性分析和定量分析兩種。定性分析的方法為專家判斷法。定量分析的統(tǒng)計(jì)分析法有:克倫巴赫法、前后測對(duì)比法、評(píng)分一致性考查法。
(三)難度
難度是指測驗(yàn)題目的難易程度,一般以能夠正確回答試題的人數(shù)與參加測驗(yàn)的總?cè)藬?shù)之比作為難度指標(biāo)。測驗(yàn)試題的難度可以反映出被測者的能力水平能否得到真實(shí)的體現(xiàn),因而恰當(dāng)?shù)碾y度是一個(gè)好的測驗(yàn)的重要質(zhì)量指標(biāo)。
(四)區(qū)分度
區(qū)分度是指試題對(duì)不同考生的知識(shí)、能力水平的鑒別程度。計(jì)算區(qū)分度的方法有:極端分組法和相關(guān)法。
二、試卷質(zhì)量分析指標(biāo)等級(jí)判定
以2017年《概率論與數(shù)理統(tǒng)計(jì)》試卷為例說明分析過程,其他年份方法相同。首先使用SPSS軟件對(duì)考核結(jié)果進(jìn)行描述性統(tǒng)計(jì)分析。
(一)試卷成績的頻率直方圖和箱線圖
為了直觀反映學(xué)員的成績分布情況,繪制成績的頻率直方圖和箱線圖,如圖1、圖2所示。
由圖1頻率直方圖可以看到:成績有一個(gè)峰,中間高、兩頭低,比較對(duì)稱,接近正態(tài)分布,可進(jìn)行正態(tài)分布的檢驗(yàn)。箱線圖是基于最小值、第一四分位數(shù)、中位數(shù)、第三四分位數(shù)、最大值以上5個(gè)數(shù)的圖形概括,圖上標(biāo)出了第一四分位數(shù)67、中位數(shù)76、第三四分位數(shù)85三條數(shù)值線。
從圖2箱線圖中,我們可以看到:箱線圖從最小值到最大值被分成四個(gè)區(qū)間,區(qū)間的長短反映了成績的集中程度,即區(qū)間越短說明成績落在該區(qū)間比較集中,說明學(xué)員成績不存在兩極分化的現(xiàn)象。箱線圖中位數(shù)所在的位置就是數(shù)據(jù)集的中心,若中位數(shù)位于箱子的中間位置,則數(shù)據(jù)分布較為對(duì)稱。另外,最小值與中位數(shù)的距離比最大值與中位數(shù)的距離大,說明成績的數(shù)據(jù)分布向左傾斜,由頻率直方圖也可以發(fā)現(xiàn)此規(guī)律。將成績低于45分的標(biāo)為離群點(diǎn),并在圖上可以看到對(duì)應(yīng)的編號(hào)。
(二)試卷成績的描述性統(tǒng)計(jì)分析
2017年《概率論與數(shù)理統(tǒng)計(jì)》結(jié)課試卷成績的描述性統(tǒng)計(jì)分析見表1。
表1 2017年概率統(tǒng)計(jì)試卷描述性統(tǒng)計(jì)分析
標(biāo)準(zhǔn)差:學(xué)生成績的標(biāo)準(zhǔn)差一般在滿分的5%—10%以內(nèi)是正常的,即100分試題的標(biāo)準(zhǔn)差為5—10分是合理的。經(jīng)計(jì)算2017年試卷的標(biāo)準(zhǔn)差為13.84分,成績離散度比較大,說明學(xué)員兩極分化的情況比較嚴(yán)重,例如最低分17分,與平均分相距過大導(dǎo)致。
偏度值:描述數(shù)據(jù)分布的對(duì)稱性。經(jīng)計(jì)算偏度值為-0.803,說明大部分學(xué)員的成績集中于平均分左側(cè),即學(xué)員成績小于平均分的人數(shù)略多于高于平均分的人,屬于負(fù)偏態(tài)分布。正態(tài)分布是一種不作任何教學(xué)要求的成績的隨機(jī)分布,教師期待的學(xué)生成績分布不應(yīng)該是正態(tài)分布。對(duì)于有教學(xué)目標(biāo)、有教學(xué)要求的教學(xué),學(xué)生成績的頻率呈負(fù)偏態(tài)分布是更期望的結(jié)果。
峰度值:描述數(shù)據(jù)圍繞平均分分布的緊密程度。經(jīng)計(jì)算峰度值為1.109,屬于低峰態(tài),成績中間部分的少,兩端人數(shù)相對(duì)較多,屬于兩極分化。
(三)試卷信度分析
分半信度系數(shù)是將一個(gè)測驗(yàn)分成兩個(gè)等值且獨(dú)立的部分,如按照奇數(shù)、偶數(shù)將試題分成兩部分。分組之后,求兩部分得分的積差相關(guān)系數(shù),即分半信度系數(shù)。由于計(jì)算題共九道大題,為了使分類后兩組試題分?jǐn)?shù)和相同,舍去最后一道大題,每組有十道題目,對(duì)分好后的兩組得分?jǐn)?shù)據(jù)進(jìn)行分半信度系數(shù)的計(jì)算。首先計(jì)算每一名學(xué)生的奇數(shù)題總分和偶數(shù)題總分;其次由積差相關(guān)系數(shù)公式計(jì)算分類的兩組題目的相關(guān)系數(shù)作為分半信度系數(shù)rxy=0.58;最后使用斯皮爾曼—布朗公式校正分半信度系數(shù)得到矯正后的信度系數(shù)r=0.735。信度是測驗(yàn)中隨機(jī)誤差大小的反映,試卷信度大于0.5為宜,故該試卷測得的分?jǐn)?shù)具有較高的可靠性。
(四)試卷效度分析
計(jì)算試卷的效度采用計(jì)算克倫巴赫系數(shù)的方法??藗惏秃辗ㄍㄟ^計(jì)算克倫巴赫系數(shù)a來判別測驗(yàn)的內(nèi)容效度。克倫巴赫認(rèn)為,內(nèi)容效度可由一組被測在測驗(yàn)試卷的兩個(gè)等值復(fù)本上得分的相關(guān)系數(shù)來表示。當(dāng)相關(guān)系數(shù)較高時(shí),可以推斷測驗(yàn)具有較高的內(nèi)容效度;當(dāng)相關(guān)系數(shù)較低時(shí),則說明測驗(yàn)的內(nèi)容效度較低。經(jīng)計(jì)算本套試卷的克倫巴赫系數(shù)為0.713,可見試卷內(nèi)容具有較高的效度。效度是對(duì)測驗(yàn)中系統(tǒng)誤差大小的反映,是對(duì)測試所要研究的問題而言,檢驗(yàn)測試是否測量了想測量的知識(shí)和技能,主要回答測量工具是否合適,即測試結(jié)果的正確性問題。
(五)試卷難度分析
針對(duì)不同的題型類別計(jì)算試題難度的方法是不同的,一般的試題難度評(píng)判等級(jí)如下:極高(0.3以下),較高(0.3—0.6),中等(0.6—0.8),較低(0.8以上)。下面針對(duì)不同題型分別給出其計(jì)算方法。
二值記分題就是每個(gè)題目只有兩種評(píng)分結(jié)果,比如選擇題,答對(duì)記3分,不答或答錯(cuò)記0分,這些屬于二值記分題。二值記分題的難度值計(jì)算公式為P=K/N;其中P為難度值,N為被測試的人數(shù),K為答對(duì)該題目的人數(shù)。難度值P越大說明這道題越容易做,即難度越小。選擇題第6小題難度值為0.425,級(jí)別屬于較高。多值記分題的難度值計(jì)算方法:多值記分題至少有3種可能的記分結(jié)果,學(xué)科測試中的簡答題、計(jì)算題論述題等都屬于多值記分題。多值記分題的難度值計(jì)算公式為P=X/Xmax,其中P代表題目難度,X為被試在某題目上的平均得分,Xmax為該題目的滿分。填空題、計(jì)算題4、5難度值接近較高的級(jí)別,計(jì)算題1、綜合題1、2、3都屬于中等難度的題目。整張?jiān)嚲淼钠骄譃?4.46分,故試卷的難度值為0.7446,屬于難度中等。
(六)試卷區(qū)分度分析
區(qū)分度計(jì)算方法也依據(jù)主觀性試題和客觀性試題具有不同的計(jì)算方法。一般的考試成績的區(qū)分度評(píng)判等級(jí)如下:好(0.4—1),良好(0.3—0.4),尚可(0.2—0.3),差(0.2以下)。下面根據(jù)不同的題型給出其計(jì)算方法:
客觀性試題的區(qū)分度計(jì)算公式D=PH-PL,其中D為區(qū)分度,PH為高分組通過率,PL為低分通過率。客觀性試題(選擇題)的區(qū)分度良好和好的題目有第5題和第6題。主觀性試題的區(qū)分度計(jì)算公式:D=(XH-XL)/N(H-L),其中D為區(qū)分度,XH為高分組的總分,XL為低分組的總分,H為該試題的最高得分,L為該試題的最低得分,N為考生總?cè)藬?shù)的25%。主觀題(填空題、計(jì)算題)區(qū)分度良好的題目有填空題和計(jì)算題1;區(qū)分度好的題目有計(jì)算題4、5,綜合題2、3。最后,試卷客觀題區(qū)分度為0.201,屬于尚可等級(jí);主觀題區(qū)分度為0.356,屬于良好等級(jí);試卷的區(qū)分度為0.326,屬于良好等級(jí)。
三、試卷質(zhì)量分析的結(jié)論與啟示
《概率論與數(shù)理統(tǒng)計(jì)》作為我院最早開始建設(shè)試題庫的課程,2017年投入使用。筆者從四個(gè)維度對(duì)試卷的質(zhì)量進(jìn)行分析,得到以下的一些結(jié)論和啟示:
(一)試卷質(zhì)量的情況
表 2017—2020年概率統(tǒng)計(jì)試卷質(zhì)量分析指標(biāo)值
通過對(duì)試卷質(zhì)量多項(xiàng)指標(biāo)體系進(jìn)行定量的計(jì)算,并依據(jù)評(píng)定標(biāo)準(zhǔn)對(duì)概率統(tǒng)計(jì)試卷的質(zhì)量做出評(píng)定結(jié)論。由表可以看到,四年的試卷在效度、難度和區(qū)分度上都比較接近,并且其評(píng)定結(jié)論也比較理想,說明試卷達(dá)到了科學(xué)有效地評(píng)估學(xué)生學(xué)習(xí)成績的目的。同時(shí),為了突出試卷的診斷性和發(fā)展性功能,我們對(duì)試卷難度和區(qū)分度進(jìn)行詳細(xì)的分析和評(píng)估,并對(duì)難度較大、區(qū)分度較好的知識(shí)點(diǎn)進(jìn)行了梳理,如一維隨機(jī)變量的綜合題、抽樣分布判別參數(shù)、無偏性等知識(shí)點(diǎn)失分較多,針對(duì)每類失分較多的題目總結(jié)其原因有:綜合性題目涉及多個(gè)知識(shí)點(diǎn)對(duì)分析能力有要求、如抽樣分布等抽象概念學(xué)生存在原理理解困難的情況、無偏性等題目題型靈活要求學(xué)生邏輯推理能力等。
(二)注重核心概念和數(shù)學(xué)思想的考查
通過對(duì)四年試卷的題型進(jìn)行分析,試卷的計(jì)算題和綜合題側(cè)重考查課程的基本方法和應(yīng)用,試卷的選擇題和計(jì)算題則側(cè)重考查基本概念和基本理論。在題目內(nèi)容的設(shè)計(jì)上,選擇題和填空題雖然分值略少,但是一部分題目分量不小,很多核心概念和性質(zhì)的考查非常細(xì)致,學(xué)生對(duì)于概念的掌握稍微模糊一點(diǎn)就會(huì)出錯(cuò)。在綜合題中,試卷設(shè)計(jì)了考查學(xué)生對(duì)區(qū)間估計(jì)思想方法的題目,構(gòu)造教材上沒有給出的參數(shù)的置信區(qū)間。對(duì)于抽象性強(qiáng)的課程而言,學(xué)生能夠理解并準(zhǔn)確地使用數(shù)學(xué)語言描述問題、解決問題是考查的一個(gè)重點(diǎn),因此對(duì)于核心概念和數(shù)學(xué)思想的考查應(yīng)成為課程考核和試卷質(zhì)量分析的關(guān)注點(diǎn)。
(三)增加應(yīng)用問題的考查
當(dāng)下,學(xué)生用數(shù)學(xué)解決問題的能力已經(jīng)成為很多選拔性考試關(guān)注的焦點(diǎn)。數(shù)學(xué)應(yīng)用意識(shí)是主體運(yùn)用所獲得的數(shù)學(xué)觀點(diǎn)和方法,主動(dòng)地從數(shù)學(xué)的角度觀察事物,闡述現(xiàn)象,分析問題,用數(shù)學(xué)的語言、知識(shí)、思想方法描述、理解和解決各種問題。課程考核中,可以將應(yīng)用性問題以大作業(yè)的形式作為形成性考核的內(nèi)容,還可以設(shè)計(jì)數(shù)學(xué)實(shí)驗(yàn),引導(dǎo)學(xué)生了解、使用數(shù)學(xué)計(jì)算平臺(tái)進(jìn)行數(shù)值模擬和計(jì)算,在實(shí)踐中增加用數(shù)學(xué)解決實(shí)際問題的體驗(yàn)感,反過來對(duì)數(shù)學(xué)的繼續(xù)學(xué)習(xí)起到引導(dǎo)作用。
(四)提倡開放性問題的考查
教師要鼓勵(lì)學(xué)生一題多解,從不同的角度對(duì)問題進(jìn)行分析與求解。一題多解要求學(xué)生對(duì)問題有深入的思考,對(duì)知識(shí)體系還要能夠達(dá)到融會(huì)貫通的能力。
運(yùn)用數(shù)理統(tǒng)計(jì)的方法分析試卷可以準(zhǔn)確地掌握學(xué)員在知識(shí)學(xué)習(xí)中集中存在的問題,幫助教師準(zhǔn)確掌握本班級(jí)的教學(xué)情況,發(fā)現(xiàn)學(xué)生在學(xué)習(xí)中存在的困難與問題,準(zhǔn)確掌握學(xué)生學(xué)習(xí)的知識(shí)點(diǎn)盲區(qū),包括對(duì)概念、定理和計(jì)算方面存在的不足等,從而及時(shí)對(duì)教學(xué)內(nèi)容進(jìn)行完善與優(yōu)化,進(jìn)而科學(xué)地制定、改進(jìn)教學(xué)計(jì)劃,提出改進(jìn)策略。通過對(duì)試卷進(jìn)行科學(xué)、規(guī)范地分析,還可以為試題庫或試卷庫的建設(shè)提供數(shù)據(jù)支撐,刪除或替換區(qū)分度、效度不高的題目,提高試題庫質(zhì)量,達(dá)到有效合理使用教學(xué)測量與評(píng)價(jià)的目的。
(焦? 佳)