張東海++趙留莊++剛君++徐德穎+劉雙
[摘要] 評價考試質(zhì)量常用有8個指標(biāo),包括涉及試卷的信度以及效度、難度、區(qū)分度,還包括平均分?jǐn)?shù)以及標(biāo)準(zhǔn)差、分?jǐn)?shù)分布狀態(tài)、成績。本文主要對上述指標(biāo)的一般常用方法做簡要介紹,其方法適合一般結(jié)業(yè)試卷分析。
[關(guān)鍵詞] 助理全科醫(yī)師;試卷分析;信度;難度系數(shù);區(qū)別度
[中圖分類號] R-4 [文獻(xiàn)標(biāo)識碼] C [文章編號] 1673-9701(2017)02-0125-03
Brief introduction to commonly used indicators of assistant general practitioner's examination paper
ZHANG Donghai1 ZHAO Liuzhuang2 GANG Jun3 XU Deying4 LIU Shuang3 MA Xiuhua2
1.Department of Gastroenterology, Daxing Hospital, Capital Medical University, Beijing 102600, China; 2.Office of Hospital, Daxing Hospital, Capital Medical University, Beijing 102600, China; 3.Department of Science and Education, Daxing Hospital, Capital Medical University, Beijing 102600, China; 4.General Practice and Continuing Education of Capital Medical Unicersity School, Beijing 100069, China
[Abstract] Eight indicators are used in evaluating examination quality, including reliability, validity, difficulty, discrimination testing and average marks, standard deviation, score distribution, grade. Commonly used methods for the above indexes which are suitable for general graduation examination paper analysis would be introduced briefly.
[Key words] Assistant general practitioners; Examination paper analysis; Reliability; Difficulty coefficient; Difference degree
試卷分析是針對大量的成績數(shù)據(jù)進(jìn)行統(tǒng)計、計算、分析,進(jìn)而得出科學(xué)結(jié)論的過程。試卷分析屬于“教育測量學(xué)”的范疇。通過試卷分析可能提煉出諸多對考試質(zhì)量進(jìn)行評價的數(shù)據(jù),此時試卷就不是單純地“考試”,而是變(升華)為“試卷分析”。通過試卷分析所得到的比較科學(xué)的分析結(jié)果,可以進(jìn)一步展開對教學(xué)活動評價,了解教學(xué)質(zhì)量以及學(xué)生的學(xué)習(xí)質(zhì)量(如對知識的掌握程度)等[1-7]。評價考試質(zhì)量常用8個指標(biāo),包括涉及試卷的信度以及效度、難度、區(qū)分度,還包括平均分?jǐn)?shù)以及標(biāo)準(zhǔn)差、分?jǐn)?shù)分布狀態(tài)、成績[8-10]。對于上述指標(biāo)進(jìn)行分析的方法學(xué)較多、有的較為繁雜。我們曾做過相應(yīng)試卷分析工作[11,12],現(xiàn)結(jié)合工作體會將適合結(jié)業(yè)試卷分析的一般常用方法做一簡介。
1 主要涉及試卷質(zhì)量指標(biāo)(信度、效度、難度、區(qū)分度)的一般分析方法[8,13-14]
1.1 試卷試題難度分析的常用具體方法
難度系數(shù)(P)通常是指試卷以及試題的難易程度,可以反映或評價大部分學(xué)生對該試題或試卷知識點(diǎn)的掌握程度。難度系數(shù)分析應(yīng)該包括試題難度系數(shù)與試卷難度系數(shù)兩部分,僅進(jìn)行試卷難度系數(shù)分析不易找出具體問題(即總成績可能掩蓋具體得分點(diǎn))。
1.1.1 試卷總體難度分析的常用方法 試卷整體難度一般以0.6~0.8為宜。方法1:難度系數(shù)(P)=試卷的平均得分÷該試卷的滿分值。如:試卷平均分為75分,該試卷滿分為100分,則P=0.75。該方法較為粗糙,故較少采用。方法2:試卷難度系數(shù)(P)=(考試成績前27%學(xué)生的得分之和+考試成績后27%學(xué)生的得分之和)/兩組總?cè)藬?shù)滿分之和(考試成績前27%學(xué)生指考試成績排名在前27%的學(xué)生,將這些學(xué)生的成績相加即為得分之和;考試成績排名在后27%的學(xué)員以此類推)。
1.1.2 試題難度系數(shù)(P)常用計算公式 方法1:難度系數(shù)=試題的平均得分÷該題的滿分值。方法2:難度系數(shù)=該題的總得分÷該題的滿分值。滿分值是指:參加考試人數(shù)×該題卷面的分值。如果所有試題均采用1分制(即:滿分100分,試題100道,每道1分;不采用扣分制),則該題得滿分值就是參考人數(shù)。所得結(jié)果也是該題的答題正確率。此時用方法2就較為方便。
1.2 區(qū)別度分析的具體方法學(xué)
區(qū)別度(D)是指能夠區(qū)分考試(測驗)成績好的學(xué)生和考試(測驗)成績差的學(xué)生的指標(biāo),一般通過計算高分?jǐn)?shù)段和低分?jǐn)?shù)段學(xué)生的難度系數(shù)而得出。要同時分析試題區(qū)別度數(shù)與試卷區(qū)別度,單獨(dú)分析試卷區(qū)別度易于掩蓋試題的區(qū)別指數(shù),誤導(dǎo)選用試題。區(qū)別度越高,區(qū)分能力越強(qiáng)。但是,在結(jié)業(yè)考試中允許D=0的試題出現(xiàn)。一般以<0.15與≥0.15作為區(qū)分點(diǎn)。區(qū)分度的計算方法有多種,其中“極端法”計算較為簡單,故較為常用。(1)試題區(qū)別度(D):D=[2×(總成績前27%學(xué)生的答對人數(shù)-總成績后27%學(xué)生的答對人數(shù))]/兩組考生總?cè)藬?shù)。(2)試卷區(qū)別度:即D=PH-PL(PH為考試成績前27%學(xué)生的難度系數(shù),PL為考試成績后27%學(xué)生的難度系數(shù));該公式也可以換算為D=[2×(高分段學(xué)生得分之和-低分段學(xué)生得分之和)]/兩組總?cè)藬?shù)滿分之和。
1.3 試卷信度分析的具體方法學(xué)
試卷信度(α)評價該試卷檢測結(jié)果的可靠程度、可重復(fù)性的指標(biāo),即為評價被測者在測試中的實際測量值與真實能力是否一致性的指標(biāo)。最好的試卷信度應(yīng)該在0.9以上,若低于0.7以下則不甚可靠。計算方法如下。
1.3.1 克朗巴赫公式[Cronbach系數(shù)(α)] (α)= 試題數(shù)/試題數(shù)-1×[(所有被測者第i題的方差-所有被測者總分的方差)/所有被測者第i題的方差]。該方法適用于非選擇題以及多值計分題(即:試卷試題的類型較多、各題分值不同,如包括多選題、是非題、問答題等)。計算過程較為復(fù)雜,需要每道試題計算后得出結(jié)果,該方法應(yīng)用較多。
1.3.2 庫德-理查遜信度(簡化)公式 適合用于每題1分的選擇題(即試題計分為1分或0分的試題)。信度系數(shù)=[n(s-1)2-X(n-X)]/[(n-1)s2](計算較為簡單)。(n為卷面滿分成績,X為平均總分,s為標(biāo)準(zhǔn)差)[11]。該方法最大的好處是不需要逐題計算通過率。
1.3.3 庫德-理查遜信度(簡化)公式的進(jìn)一步簡化 計算較為簡單。此公式適用于所有試題為每題1分選擇題的試卷。信度系數(shù)=[K/(K-1)]{1-[X(K-X)/Ks2]}。K為測題的數(shù)目,X為平均總分,s為標(biāo)準(zhǔn)差)[5]。
1.3.4 相關(guān)系數(shù)(R)計算[10] 該方法計算較為復(fù)雜。具體公式可以參考相關(guān)文獻(xiàn)。
1.4 試卷效度分析
效度用于評判測量的正確性、有效性(反映測量到的與所要測量的二者之間的符合程度)[5,6,8,14-15]。如果將測驗總分看作是內(nèi)部效標(biāo),則該測題的區(qū)分度也就是該測題的效度(即內(nèi)部效標(biāo)的效度)[5,6,8,14]。所以,如果僅分析試卷本身只要有區(qū)別度即可。因此,在多數(shù)的研究中沒有計算“效度”[1,3,7,11]。其他獲得效度的方法如下。
1.4.1 相關(guān)系數(shù)(R)計算 基本方法是通過計算兩門性質(zhì)相近學(xué)科、或同一學(xué)科前后兩次考試成績的相關(guān)系數(shù)(R)來評價此次考試成績的有效性。
1.4.2 百分一致法 按考試成績將學(xué)生分為高、中、低3組,用各個試題中高、低分組之差除以相應(yīng)的滿分,即可得出此題的效度值。這實際上雷同于“區(qū)分度計算”方式,僅適應(yīng)于本試卷的檢測[16]。
1.5 試題難度系數(shù)(P)與區(qū)別度(D)之間的關(guān)系
P值越大則說明試題難度越?。▋?nèi)容為多數(shù)學(xué)生掌握),P值越小說明試題難度越大(多數(shù)學(xué)生未掌握),此兩種情況試卷或試題的區(qū)別度均較差;要有較好的區(qū)別度,試題難度應(yīng)適中。
較易試題的難度系數(shù)≥0.7;0.4<難度系數(shù)≤0.7屬于中等難度題;較難試題的難度系數(shù)多<0.4。多數(shù)認(rèn)為較好的試卷難、中、易試題的分配比例應(yīng)當(dāng)分別為20%、60%、20%,這在區(qū)別性測試多采用。在結(jié)業(yè)性測試(屬于目標(biāo)參照性測驗[11])中,由于測試目的是了解學(xué)生是否掌握了必須掌握的知識,并非區(qū)別性測試,所以會允許有P=1、D=0的試題出現(xiàn),但為了區(qū)別優(yōu)秀與差生,仍然需要一部分難度較大的試題。例如:作者在一次《臨床綜合課程》學(xué)員結(jié)業(yè)測試時,分配試卷試題難、中、易試題的分配比例分別為11%、22%、67%,因為主要目的是了解學(xué)員是否掌握了培訓(xùn)必須掌握的知識,故試題主要測試教學(xué)大綱要求掌握的部分(定性為“易”),但試卷信度為0.9,說明該次測試符合目標(biāo)參照性測驗的標(biāo)準(zhǔn),該試卷整體的看基本合理[11]。
2 主要體現(xiàn)學(xué)生成績的分析指標(biāo)(成績、平均分?jǐn)?shù)、標(biāo)準(zhǔn)差、分布狀態(tài))[5,6,10,13,14]
2.1 成績
即考生試卷的總得分。這是基本原始數(shù)據(jù),是所有數(shù)據(jù)分析的基礎(chǔ)數(shù)據(jù),必須仔細(xì)輸入。
2.2 平均分?jǐn)?shù)
是最直觀的集中量數(shù)。一般認(rèn)為平均分?jǐn)?shù)的最佳數(shù)值為75(百分制)。
2.3 標(biāo)準(zhǔn)差(s)
例如,甲班與乙班的考試平均分?jǐn)?shù)相近但分?jǐn)?shù)分布差異明顯,則不能說兩個班級的成績相近。此時不僅要考慮到平均分?jǐn)?shù),還要計算分?jǐn)?shù)的離散程度(簡單可以理解為“分?jǐn)?shù)分布情況”,學(xué)術(shù)名稱——差異量數(shù))。常用的差異量數(shù)有多種,經(jīng)常采用的差異量數(shù)是標(biāo)準(zhǔn)差。計算公式可以在統(tǒng)計學(xué)教材查找到。計算標(biāo)準(zhǔn)差,理論上講學(xué)生人數(shù)越多越好。一般認(rèn)為:標(biāo)準(zhǔn)差≤10即能符合要求。標(biāo)準(zhǔn)差過大說明全班分?jǐn)?shù)差異過大,需要教師予以注意;但過小則信度下降,區(qū)別度下降,標(biāo)準(zhǔn)差也可用于信度計算。
2.4 分布狀態(tài)
簡單理解就是看整個班級(年級)學(xué)生的成績分布情況。一般要求是正態(tài)分布,結(jié)業(yè)考試可以允許一定的正偏態(tài)分布,但絕不能完全一邊倒。一般習(xí)慣是利用成績分布曲線分析學(xué)生的考試成績(縱坐標(biāo)為學(xué)生人數(shù),橫坐標(biāo)為分?jǐn)?shù)),可以直觀的下結(jié)論(定性分析);如果要進(jìn)行定量分析,則需進(jìn)一步計算偏態(tài)量數(shù)及峰態(tài)量數(shù)[10]。
試卷分析的方法學(xué)較多,本文僅介紹較為簡單、易于掌握的部分。利用試卷分析結(jié)果,可以評價教學(xué)效果,但其評價的基礎(chǔ)是要有高質(zhì)量的“試卷”(難易程度適當(dāng)、知識點(diǎn)掌握的較好),這同樣涉及教與學(xué)兩方面的努力。試卷分析僅僅是手段而已,也可稱為是教育測量的工具。在進(jìn)行試卷分析的準(zhǔn)備過程中,首先要編制適合測試對象的“試卷”:編制試卷則要根據(jù)測驗?zāi)康倪M(jìn)行,最基本的是要依據(jù)測驗功能決定是進(jìn)行能力傾向測驗(學(xué)生的潛在能力如何?)還是學(xué)業(yè)成績測驗(考察學(xué)生經(jīng)過教育教學(xué)過程后學(xué)業(yè)成績的掌握情況,也稱“考試”)。進(jìn)一步,則要根據(jù)培養(yǎng)目標(biāo)進(jìn)行分?jǐn)?shù)解釋,如果是“目標(biāo)參照性測驗”則其及格就是最基本的教學(xué)要求水平參照點(diǎn),分?jǐn)?shù)愈高說明達(dá)標(biāo)的完滿程度愈高;如果是“常模參照性測驗”,即測驗?zāi)康氖氰b別性測驗(優(yōu)選,如高考),則測驗的難度就要適當(dāng)增加以利于選拔。結(jié)業(yè)測驗一般是“目標(biāo)參照性測驗”,本文介紹的簡便方法學(xué)適用于“目標(biāo)參照性測驗”。
研究結(jié)業(yè)考核標(biāo)準(zhǔn)與模式是不斷探討的課題[17],結(jié)業(yè)試卷分析不僅可以評價本次考核內(nèi)容的學(xué)生掌握情況、教師教學(xué)效果,同時也可以評價不同教學(xué)單位在教授同一課程時其間教學(xué)效果的差異性[18]?!?+2”助理全科醫(yī)師培訓(xùn)[19-21]是一項新的工作,我們在其中的《臨床綜合課程》教學(xué)實踐、教學(xué)管理中,納入試卷分析體系作為評價整體教學(xué)水平、發(fā)現(xiàn)不同教學(xué)單位教學(xué)差異點(diǎn)的手段之一[8,9],取得了較好的效果,不僅了解了教學(xué)效果,同時也為提出新的教學(xué)思路提供啟發(fā)點(diǎn),為集體備課提供了具體依據(jù)。因此,掌握試卷分析方法學(xué),既是教師的基本功(特別是高校教師),也是教學(xué)管理部門應(yīng)該熟悉的管理內(nèi)容與管理技術(shù)。
[參考文獻(xiàn)]
[1] 張正祥,劉國慶,王廷慧,等. 延安大學(xué)醫(yī)學(xué)院藥理學(xué)試卷分析[J]. 中華醫(yī)學(xué)教育雜志,2008,28(4):120-122.
[2] 孫敏,王錦帆,祖勤,等. 醫(yī)學(xué)生學(xué)習(xí)中期評估測試實效分析[J]. 中華醫(yī)學(xué)教育雜志,2013,33(4):617-620.
[3] 盧燕,王培玉,劉寶花. 北京大學(xué)醫(yī)學(xué)部八年制疾病預(yù)防醫(yī)學(xué)期末考試試卷分析[J]. 中華醫(yī)學(xué)教育雜志,2013, 33(5):791-793.
[4] 和永祥,王淵,徐俊麗,等. 內(nèi)科學(xué)考試試卷分析與評價[J].西北醫(yī)學(xué)教育,2006,14(3):304-305.
[5] 王孝玲,教育測量(高等師范院校教材)(第2版)[M]. 上海:華東師范大學(xué)出版社,2005:1-188.
[6] 黃穎,林端宜. 試卷分析研究現(xiàn)狀綜述[J]. 西北醫(yī)學(xué)教育,2005,13(1):39-40.
[7] 宋青,蔡景一. 試卷考核質(zhì)量評價[J]. 中國高等醫(yī)學(xué)教育,2006,(11):30-31.
[8] 高衛(wèi)紅,任俊峰. 利用教育統(tǒng)計學(xué)原理進(jìn)行考試質(zhì)量分析方法初探[J]. 武警醫(yī)學(xué)院學(xué)報,2004,13(3):214-218.
[9] 田考聰,彭斌. 試卷質(zhì)量定量分析系統(tǒng)中的幾個參數(shù)及其應(yīng)用[J]. 醫(yī)學(xué)教育探索,2004,3(4):52-54.
[10] 張玲玲,梅忠義. 對學(xué)生成績評價指標(biāo)體系中一些問題的思考,合肥工業(yè)大學(xué)學(xué)報(社會科學(xué)版),2006,20(2):19-21.
[11] 馬秀華,張東海,黃東明,等. “3+2”助理全科醫(yī)師培訓(xùn)《臨床綜合課程》結(jié)業(yè)試卷評價及相關(guān)因素分析[J]. 中國醫(yī)學(xué)教育技術(shù),2015,29(2):213-217.
[12] 馬秀華,張東海,徐德穎,等. “3+2”助理全科醫(yī)師培訓(xùn)中《臨床綜合課程》結(jié)業(yè)試卷分析評價[J]. 中華醫(yī)學(xué)教育探索雜志,2016,15(5):445-450.
[13] 彭斌. 試卷質(zhì)量定量分析系統(tǒng)中的幾個參數(shù)及其應(yīng)用[J].中華醫(yī)學(xué)教育探索,2004,3(4):52-54.
[14] 劉新平,劉存?zhèn)b. 教育統(tǒng)計與測評導(dǎo)論(第1版)[M]. 北京:科學(xué)出版社,2003:133-156.
[15] 史宏燦,龔衛(wèi)娟,鄭英,等. 以國家執(zhí)業(yè)醫(yī)師資格考試為參照的臨床醫(yī)學(xué)教學(xué)改革思考[J]. 中華醫(yī)學(xué)教育探索雜志,2016,15(5):459-464.
[16] 陳欣,戴社教,趙暹,等. 不同類型試題對醫(yī)學(xué)影像學(xué)考試評價的效能分析[J]. 中華醫(yī)學(xué)教育探索雜志,2016, 15(5):455-458.
[17] 趙麗莉,李嶄,黃艷. “3+2”培訓(xùn)項目結(jié)業(yè)考核標(biāo)準(zhǔn)與模式的研究[J]. 繼續(xù)醫(yī)學(xué)教育,2015,29(11):4-5.
[18] 張東海,馬秀華,趙留莊,等. 通過臨床綜合課程結(jié)業(yè)試卷分析不同教學(xué)單位教學(xué)效果的差異[J]. 衛(wèi)生職業(yè)教育,2016,34(12):101-103.
[19] 黃艷,線福華,趙麗莉,等. “3+2”助理全科醫(yī)師培養(yǎng)模式的探索與實踐[J]. 中華醫(yī)學(xué)教育雜志,2014,34(2):31-33.
[20] 張東海,馬秀華,黃東明,等. “3+2”助理全科醫(yī)師培訓(xùn)<臨床綜合課程>首輪課程實施后的思考[J]. 中華醫(yī)學(xué)教育探索雜志,2015,14(8):837-840.
[21] 馬秀華,張東海,黃東明,等. 病例導(dǎo)入式教學(xué)在《臨床綜合課程》教學(xué)中的初步應(yīng)用[J]. 首都醫(yī)科大學(xué)學(xué)報,2014,(社會科學(xué)版增刊):180-182.
(收稿日期:2016-10-12)