徐 濤 姜晶梅 韓少梅 薛 芳 韓 偉
中國醫(yī)學(xué)科學(xué)院基礎(chǔ)醫(yī)學(xué)研究所/北京協(xié)和醫(yī)學(xué)院基礎(chǔ)學(xué)院流行病及統(tǒng)計(jì)學(xué)系(100005)
醫(yī)學(xué)統(tǒng)計(jì)學(xué)是現(xiàn)代醫(yī)學(xué)科學(xué)教育課程體系中的重要組成部分。但是統(tǒng)計(jì)學(xué)的理論和方法大都建立在較為抽象的科學(xué)假設(shè)之上,計(jì)算量較大,與其他醫(yī)學(xué)專業(yè)課程的理論體系差異較大[1],而且現(xiàn)代統(tǒng)計(jì)學(xué)的教學(xué)與計(jì)算機(jī)知識的關(guān)系密切,導(dǎo)致該門課程較難學(xué)也難教。為了增強(qiáng)學(xué)習(xí)的實(shí)用性,保證學(xué)生能在科研實(shí)踐中能靈活地運(yùn)用統(tǒng)計(jì)學(xué)知識,在經(jīng)過數(shù)輪的教學(xué)改革后,現(xiàn)在的北京協(xié)和醫(yī)學(xué)院的八年制學(xué)生在第五學(xué)年的第一學(xué)期學(xué)習(xí)醫(yī)學(xué)統(tǒng)計(jì)學(xué)。醫(yī)學(xué)統(tǒng)計(jì)學(xué)總學(xué)時(shí)為36學(xué)時(shí),包括理論課28學(xué)時(shí),統(tǒng)計(jì)軟件實(shí)習(xí)6學(xué)時(shí),考試2學(xué)時(shí)。課堂以理論講授為主,采用多媒體教學(xué),結(jié)合實(shí)用案例討論和統(tǒng)計(jì)軟件實(shí)習(xí)等多種教學(xué)方式。課程考試是對課堂教學(xué)進(jìn)行測量和評價(jià)的重要手段[2],對考卷和考試效果進(jìn)行評價(jià)和分析,可以發(fā)現(xiàn)試題本身的不足之處,也可以對教師的教學(xué)質(zhì)量進(jìn)行系統(tǒng)的評估,以利于促進(jìn)教學(xué)改革。
本研究旨在運(yùn)用教育測量學(xué)理論和教育統(tǒng)計(jì)學(xué)方法對北京協(xié)和醫(yī)學(xué)院69名八年制醫(yī)學(xué)生的醫(yī)學(xué)統(tǒng)計(jì)學(xué)考試卷進(jìn)行評價(jià)分析,以期總結(jié)課堂教學(xué)和考卷設(shè)計(jì)等方面的問題,為評定教學(xué)效果和教學(xué)質(zhì)量奠定理論依據(jù)。
本研究分析的試卷是北京協(xié)和醫(yī)學(xué)院2011級八年制學(xué)生的《醫(yī)學(xué)統(tǒng)計(jì)學(xué)》[3]期末考試試卷。試卷包括選擇題、填空題、判斷題、案例分析題和計(jì)算題。其中選擇題為單選題,每題2分,共20分;填空題每空2分,共20分;判斷題要求判斷正誤并對判斷的理由進(jìn)行合理的解釋,每題3分,共21分;案例分析題共1題,9分;計(jì)算題共3題,每題10分,共30分。
采用EP l3.02軟件建立數(shù)據(jù)庫,進(jìn)行數(shù)據(jù)錄入與管理。為保證數(shù)據(jù)的準(zhǔn)確性,由兩個(gè)數(shù)據(jù)管理員獨(dú)立進(jìn)行雙份錄入并校對。錄入完成后,按調(diào)查內(nèi)容分類組織專人對數(shù)據(jù)進(jìn)行再核查,根據(jù)統(tǒng)一的核查原則,將發(fā)現(xiàn)的可疑記錄反饋,與原始表格核對。所有統(tǒng)計(jì)計(jì)算用SAS 9.2統(tǒng)計(jì)分析軟件進(jìn)行,統(tǒng)計(jì)檢驗(yàn)用雙側(cè)檢驗(yàn),以P<0.05作為差異有統(tǒng)計(jì)學(xué)意義。定量資料以均數(shù)和標(biāo)準(zhǔn)差表示,分類變量用例數(shù)和百分?jǐn)?shù)進(jìn)行描述。用難度系數(shù)、區(qū)分度、信度(Cronbachα系數(shù))和覆蓋度等進(jìn)行試卷質(zhì)量分析。
(1)成績分析
69名八年制學(xué)生參加醫(yī)學(xué)統(tǒng)計(jì)學(xué)考試,平均成績?yōu)?0.4±8.4分,最低分60分,最高分93分,沒有不及格的學(xué)生,總體成績偏高。總分在60~69分者有9人,占13.0%;70~79分者有20人,占29.0%;80~89分者有30人,占43.5%;90分及以上者10人,占14.5%。
(2)失分情況分析
每位考生各題被扣分?jǐn)?shù)分別相加,除以總?cè)藬?shù),得出人均失分?jǐn)?shù),再將此數(shù)除以該題滿分?jǐn)?shù),即為人均失分率[4]。統(tǒng)計(jì)表明,試題選擇題平均失分3.0分,失分率為15.0%;填空題平均失分5.2分,失分率為26.0%;判斷題平均失分5.4分,失分率為25.7%;案例分析題平均失分1.9分,失分率為20.7%;計(jì)算題平均失分4.2分,失分率為14.0%??傮w來說,各類考題的失分率差別不大,填空題和判斷題失分率略高,選擇題和計(jì)算題失分率最低。
(1)試卷難度
難度系數(shù)(P)用來評價(jià)一份試卷的難易程度,是評價(jià)試卷質(zhì)量的重要指標(biāo)之一。一般用某題全部考生的平均得分率來衡量該題的難度,計(jì)算公式為:
一般認(rèn)為,P<0.6為難題,0.6≤P<0.7為較難題,0.7≤P<0.8為中等難度題,0.8≤P<0.9為較易題,0.9≤P<1.0為易題[5-8]。
本試卷各類型題目的難度系數(shù)分布見表1,其中,難題占19.4%,較難題占3.2%,中等題占9.7%,較易題占25.8%,易題占41.9%??季淼目傮w平均難度為0.80,說明本考題總體難度適中??季碇杏?個(gè)選擇題的難度系數(shù)為1.0;難度系數(shù)最大的是1道填空題,達(dá)到0.17,全班只有12名同學(xué)得出了正確答案。
表1 試卷題型難度分析(道)
(2)試卷區(qū)分度
區(qū)分度(D)表明考卷對考生成績的鑒別程度,是區(qū)分成績好的學(xué)生和成績差的學(xué)生的一種能力。區(qū)分度是反映學(xué)生掌握知識能力的重要指標(biāo)。一般用高低分組法計(jì)算各題目的區(qū)分度,高分組在某題目上的得分率與低分組在該題目上的得分率之差作為區(qū)分度的指標(biāo),(高分組人數(shù)和低分組人數(shù)各占總?cè)藬?shù)的27%)[5-8],計(jì)算公式如下:
本文各類型題目的區(qū)分度分布情況見表2。31道考題中有17道考題(54.8%)的區(qū)分度優(yōu)秀,另有19.3%的考題的區(qū)分度良好或尚可。
表2 試卷題型區(qū)分度分析(道)
有8道考題的區(qū)分度較差。總分的區(qū)分度為0.21,區(qū)分度尚可,表明該試卷基本滿足試卷命題的要求。
(3)試卷信度
試卷的信度用于說明試卷的可靠性和穩(wěn)定性,說明試卷測試結(jié)果是否代表考生的真實(shí)水平。常用Cronbach α系數(shù)來反映試卷的信度,一般認(rèn)為信度系數(shù)小于0.7,可靠性偏低,信度系數(shù)在0.7以上時(shí)可靠性較好[9]。本試卷的Cronbach α系數(shù)為0.73,說明該試卷的信度較好,整體考試結(jié)果可以信賴,能夠反映學(xué)生的真實(shí)能力。
覆蓋度是基于試卷的全面覆蓋程度,通常用試卷中各題目的相關(guān)系數(shù)矩陣來表示,相關(guān)系數(shù)矩陣中各題目之間的相關(guān)系數(shù)數(shù)值越小,則各題目之間的交叉相關(guān)性越小,試卷覆蓋的內(nèi)容越全面,反之相關(guān)系數(shù)越大,則說明各題目反映的內(nèi)容相關(guān)性越大,覆蓋面越窄。一般來說,各相關(guān)系數(shù)都小于0.2為最好[10]。該試卷中選擇題的4個(gè)題和填空題的1個(gè)題與多個(gè)其他題目的相關(guān)系數(shù)大于0.2,相關(guān)程度較高,其他26個(gè)題目的相關(guān)系數(shù)都小于0.2,表明該考卷的內(nèi)容覆蓋較全面,試卷有效性較高。
69名八年制學(xué)生參加醫(yī)學(xué)統(tǒng)計(jì)學(xué)考試,總體成績較高。這與八年制的學(xué)生在大學(xué)一年級預(yù)科學(xué)習(xí)階段的數(shù)理統(tǒng)計(jì)學(xué)學(xué)習(xí)中打下了一定的統(tǒng)計(jì)學(xué)理論基礎(chǔ)有一定關(guān)系,使得其在選擇題和計(jì)算題的失分率很低,當(dāng)然也可能因?yàn)榭碱}難度較小,考卷中沒有涉及多元統(tǒng)計(jì)相關(guān)知識和統(tǒng)計(jì)軟件操作。其實(shí)八年制學(xué)生雖然第一學(xué)年有過概率統(tǒng)計(jì)基礎(chǔ)理論的學(xué)習(xí),但是這些知識的理論性較強(qiáng),實(shí)用性不足,而我們的應(yīng)用性的醫(yī)學(xué)統(tǒng)計(jì)學(xué)的學(xué)時(shí)數(shù)又較少,不足以教授學(xué)生更多應(yīng)用性更強(qiáng)的知識。醫(yī)學(xué)統(tǒng)計(jì)學(xué)學(xué)習(xí)不能只靠死記硬背,所以應(yīng)該略增加一些學(xué)時(shí),在學(xué)生學(xué)好基礎(chǔ)理論以后,繼續(xù)加強(qiáng)統(tǒng)計(jì)學(xué)軟件教學(xué),教授學(xué)生更多實(shí)用的多元統(tǒng)計(jì)分析方法和軟件操作知識,以滿足醫(yī)學(xué)生能夠靈活應(yīng)用統(tǒng)計(jì)學(xué)軟件來解決科研問題的需求,這樣當(dāng)他們在第七、八學(xué)年進(jìn)行實(shí)際的科學(xué)研究時(shí)就能更加得心應(yīng)手用統(tǒng)計(jì)學(xué)軟件來解釋醫(yī)學(xué)實(shí)際問題。
難度和區(qū)分度是最重要的兩個(gè)評價(jià)考卷質(zhì)量的指標(biāo)。本試卷的總體平均難度為0.80,說明總體難度適中??偡值膮^(qū)分度為0.21,區(qū)分度尚可。有研究認(rèn)為,總體平均難度達(dá)到0.5以上,且總體區(qū)分度達(dá)到0.15以上的考卷,即為難度適中、區(qū)分度良好的考題[11],本考卷基本達(dá)到了這一要求。此外,這份考卷的信度和總體覆蓋度都達(dá)到較好的水平。
但是從試卷的各個(gè)小題的難度、區(qū)分度和覆蓋度分析結(jié)果來看,易題和較易題的比例較高,這可能和選擇題難度太小有關(guān)系,而且選擇題中有幾個(gè)太容易的考題,幾乎所有學(xué)生都能答對,導(dǎo)致這些考題的區(qū)分度偏低,這一方面說明八年制的學(xué)生的整體素質(zhì)偏高,成績較好,而且選擇題有備選答案,學(xué)生在答題時(shí)難度往往較小,所以導(dǎo)致選擇題的整體難度和區(qū)分度較差,但是總體來說,還是應(yīng)該考慮學(xué)生的學(xué)習(xí)情況和對考試重點(diǎn)難點(diǎn)的掌握程度,適當(dāng)增大中等難度考題所占的比例來進(jìn)一步調(diào)整考卷的難度。
總之,這份考卷具有較好的區(qū)分度、信度和總體覆蓋度,平均難度也適中,適于八年制醫(yī)學(xué)生進(jìn)行期末測評,當(dāng)然其中也有部分考題的選擇欠妥當(dāng),應(yīng)進(jìn)一步的調(diào)整。