黃玉平
一、問題提出
檢驗教學質(zhì)量,最常用也最有效的手段,是進行測試。在當今大數(shù)據(jù)廣泛應用的時代,每次測試結(jié)束后,各種閱卷系統(tǒng)都能導出每個學生每道題的得分,如果能對這些得分情況進行深入分析,能夠發(fā)現(xiàn)和提示教學中可能存在優(yōu)勢與不足,優(yōu)勢可以促進管理者發(fā)現(xiàn)優(yōu)秀的教學經(jīng)驗,不足則提醒管理者尋找教學改進的措施,從而不斷提高教學水平。
當考完一套試題,許多教師會進行試卷整體及各小題的得分率進行分析,研究各個群體解得較理想的題,解得不理想的題,評判的標準就是一個問題。
本文將全市同一個年級的學生做為全體,將其中每個學校的學生或每個班級的學生做為群體。
一些分析軟件,將全體得分率超0.7以上的設為容易題,評價為解答較好的題;得分率在0.3與0.7之間的為中檔題,評價為解答一般的題;低于0.3的為難題,評價為解答較差的題。這種絕對標準的方式,適合對整套試題進行難度分布的評價,不適合對具體某個群體的解答情況進行評價。例如,某次考試,某群體在第1小題得分率為0.8,如果按絕對標準,屬解答較好的題,如果其它基礎更弱的群體很多都考了0.8以上,那么這個群體在第1小題的解答情況就不太理想了,反之,這個群體在第10小題得分率為0.2,按絕對標準,屬解答很差的題,如果這是各群體中解答情況最好的,遠遠超過其它群體的得分率,那么第10小題反而是這個群體解答很好的題。
在一些學校,特別是初中和小學,會將同一個年級的每個班的每個小題的得分進行排序,這種方法在各班為平行班,基礎相近時,可以起到一定評判的作用,例如全年級有24個班,A班全卷平均分排名全年級第4,第8小題平均得分排名全年級第23,可以提示A班第8小題解答相對較弱。這種用排名次對基礎不同的群體答題情況進行評價的辦法,比較粗糙,例如:某班基礎最強,全卷平均分和各小題得分均排名第1,無法評判這個班哪個小題解答較理想,哪個解答不理想。
試題研究中,難度系數(shù)是被廣泛應用的一個概念,一道題的難度系數(shù)的簡單定義是:考試的全體人員在這道題上的平均分得分率,即全體人員在這題的得分之和與這道題滿分值與人數(shù)之積的比。
一個較容易的題,基礎較好的群體會解得很好,基礎較弱的群體則會水平低一些;一個較難的題,各群體的得分率都大幅下降,群體之間的差異很大,如果沒有與群體水平對應的評判斷標準,很難判斷各群體的答對情況是否正常,難以從中獲得反思,從而不能充分發(fā)揮考試的價值。
筆者發(fā)現(xiàn),某個群體對某個試題的實際得分率,主要受到兩個因素的影響:試題本身的因素,群體的水平高低。同樣的試題,水平高的群體,得分率相對較高。經(jīng)過對考試后統(tǒng)計出的各群體實際得分率表的長期觀察和思考,本文對試題難度的表示提出了一種新的模型:難度指數(shù)模型。
本文提出試題難度的指數(shù)模型,并給出一種評價標準:用同樣的試題相對某個群體的難度指數(shù)與它相對全體人群的難度指數(shù)的差距,作為這個群體解答這個試題的評價標準。
二、解決方案
(一)將試題得分化為試題得分率
用得分率比直接用得分更科學:得分率排除了試題滿分值對結(jié)果的干擾。例如A題滿分值為12分,實際得分6分,B題滿分值為10分,實際得分也是6分,表面上兩題得分相同,實際A題得分率為0.5,B題得分率為0.6。
群體A對試題N的得分率(或通過率):設群體 A 的人數(shù)為 ,群體A解答試題N的得分數(shù)之和為M,試題N的滿分值為F,則群體A對試題N的得分率。
(二)將較難試題分解為若干環(huán)節(jié)
將試題看做由幾個環(huán)節(jié)串聯(lián)而成,環(huán)節(jié)可以理解為更小的試題。對同一個群體,不同試題的得分率由各題所包括的每個環(huán)節(jié)的得分率決定。較難的試題,一方面是環(huán)節(jié)越多,另一方面是這些環(huán)節(jié)中得分率低的也越多。上圖是試題N由三個環(huán)節(jié)構(gòu)成的示意圖,三個環(huán)節(jié)呈串聯(lián)狀態(tài),只有連續(xù)正確解答三個環(huán)節(jié),才能完成試題N的解答。
(三)定義“標準微環(huán)節(jié)”和“最簡單題”:若全體對某一批試題的得分率的平均值為0.85,由稱這批試題為全體的“最簡單題”,規(guī)定全體的“最簡單題得分率為0.85,同時,稱全體得分率為0.85的環(huán)節(jié)為全體的“標準微環(huán)節(jié)”。計算每個群體在這批試題上的各題得分率平均值,得到每個群體的“最簡單題得分率”,稱同樣得分率的環(huán)節(jié)為該群體的“標準微環(huán)節(jié)”。筆者在實踐中觀察了近十年,在某個城市,由于各群體生源格局相對固定,每個群體這樣的“最簡單題得分率”相當穩(wěn)定,例如,最好的群體各科都在0.95左右,居第二的群體則在0.92左右,最弱的群體則在0.6左右。
如果將一個試題分解為一些環(huán)節(jié)串聯(lián)而成,并且將每個環(huán)節(jié)都看作由一定數(shù)量的“標準微環(huán)節(jié)”串聯(lián)構(gòu)成,則可以認為:每道試題由一定數(shù)量的標準微環(huán)節(jié)構(gòu)成,試題得分率與標準微環(huán)節(jié)的數(shù)量呈指數(shù)函數(shù)關(guān)系,即:標準微環(huán)節(jié)數(shù)量越多的題,得分率越低;對于某個群體來說,將一個試題分解為該群體的“標準微環(huán)節(jié)”,其數(shù)量與得分率呈指數(shù)函數(shù)關(guān)系,其底數(shù)為該群體“標準微環(huán)節(jié)”的得分率。
環(huán)節(jié)四:運用不等式,求最值:
得分率預測:本題中,環(huán)節(jié)一相對簡單,由于有兩個知識點,假設相當于 2 個標準微環(huán)節(jié),環(huán)節(jié)二則比較復雜,假設相當于 4 個標準微環(huán)節(jié),環(huán)節(jié)三有較復雜的計算,因此假設相當于 5 個標準微環(huán)節(jié),環(huán)節(jié)四用到不等式,假設相當于 4 個標準微環(huán)節(jié),這樣全部加起來,相當于 15 個標準微環(huán)節(jié)。
假設群體A和群體 B 的“最簡單題得分率”分別為0.9,0.8,則群體A和群體B對此題估計得分率分別為:fT ( A) = 0.915 = 0.2, fT (B) = 0.815 = 0.03 。
真實的結(jié)果是,這道試題的得分率確實相當?shù)?,即使是全市最強的學校,也僅有不到三分之一的學生能夠正確解答。
(四)難度指數(shù)定義:某個試題對全體的“標準微環(huán)節(jié)”數(shù)量,就是這個試題相對全體的難度指數(shù)。對于某個群體,某個試題的相對本群體的“標準微環(huán)節(jié)”數(shù)量,即這個試題相對本群體的難度指數(shù)。
難度指數(shù)計算方法:在一份試卷各題中,將全市得分率最高的一批試題按得分率由高到低排列,其中得分率在0.7至0.95之間的試題一般須占全卷小題數(shù)量的30%,即8個以上,若這批試題的全市得分率的平均值在0.85左右,則將它們表示為“全市最簡單題”。全市各群體在這批試題上的得分率,是它們的“最簡單題得分率”。實踐中,基礎最好的群體(學校)“最簡單題得分率”在 95%左右,基礎最弱的群體則在60%至80%之間。
如果整卷試卷過難,則將所有題按全體得分率由高到低排列,取前三分之一(至少八個試題)的得分率的平均值,通過折算的辦法,得到理想的全體最簡單題得分率:
與此同時,將某群體對這批試題的得分率的平均值,同樣折算為理想的此群體最簡單題得分率,且。
(五)難度指數(shù)的計算方法:若某題N的全體得分率為,則此題全體的難度指數(shù)為(當時,改用計算)。若某題N的群體A得分率為,且群體A“最簡單題得分率”為,則此題對群體A的難度指數(shù)為(當時,改用)。
三、運用舉例
例1.用“最簡單題得分率”衡量各群體基礎知識的教學質(zhì)量水平以及進步情況。教學質(zhì)量越高的群體,最簡單題得分率越高。同一批對象,每一個群體的相鄰兩次考試的“最簡單題得分率”比較,可以分析出每個群體的基礎知識教學質(zhì)量是否提高。
例2.判斷某一次考試中,各群體在不同試題的優(yōu)劣情況。某一次考試,對于試卷中每一個試題,用試題對全體的難度指數(shù)與試題對某群體的難度指數(shù)之差,判斷某群體在哪些試題上解答優(yōu)于全體(差值為正數(shù)),哪些弱于全體(差值為負數(shù)),特別是差的絕對值較大的那些試題,應特別注意??梢詫⒃嚲戆粗R板塊或考查的學科核心素養(yǎng)等類別將若干題合并為新的題,按以上方法計算,可以每個群體判斷這些板塊或相應的學科核心素養(yǎng)解答是優(yōu),還是弱,從而判斷是否加強這些方面的教學。
例3.命題時,除了預測每個試題的全體得分率外和整個試卷的全體平均分外,還可以預測每個試題的全體難度指數(shù),并根據(jù)每個群體的最簡單題得分率,預測每個群體每個試題的得分率,從而預測整個試卷每個群體的平均分,與目標平均分對比,及時加以調(diào)整,更好地控制試卷的難度。
例4.預測各群體或個人的提升空間,提供明確的發(fā)展目標。
在某份試卷中,當群體的簡單題得分率由 0.8提升到 0.9時,則此群體預測總分由59分提升到 90分,提高了31分;如果這個群體的簡單題得分率由0.9提高到0.95,則此群體預測總分可提升到114分,提高了24分。再如某個學生,如果最簡單題得分率為0.98,則這個學生的預測總分為134分。
四、思考
1.用試題“難度指數(shù)”替代“難度系數(shù)”來分析試題,能獲得對試題更準確的認識。試題的復雜程度和結(jié)構(gòu)特點決定它的客觀難度指數(shù)。不同的群體由于各自基礎掌握程度不同及知識面的寬窄不同,解答同一題的得分率差距非常大,因此不能用直接用各群體實際解答得分率高低來簡單評判它們解答某個試題的水平是否符合預期。本文用全體的難度指數(shù)做為評價標準,數(shù)據(jù)比較穩(wěn)定,參考意義較大。
2.本文提出的總體“簡單題得分率”與各群體“簡單題得分率”,能夠揭示學生學習成效產(chǎn)生的根源??偡指叩模洹昂唵晤}得分率”也明顯地高,兩者呈高度相關(guān)的關(guān)系,大多數(shù)情況兩者的相關(guān)系數(shù)都在0.9 以上。“簡單題得分率”的變高還是變低,直接反映了基礎知識教學的質(zhì)量變高還是變低,為評價基礎知識教學提供了可行的數(shù)據(jù)依據(jù)。
3.認識到試題難度是個客觀的量,能得出結(jié)論:要提升群體的總分,必須提升群體解答各個簡單問題的得分率,并且在思想方法上不能有遺漏,必須在平時大力培養(yǎng)學生的學科核心素養(yǎng)。因此課堂教學必須切實突出教學重點,解決學生理解知識產(chǎn)生與發(fā)展過程中存在的問題,大力提升知識的理解程度和運用的能力,使學生的素養(yǎng)得到真正的改善。
4.用難度指數(shù)進行各題與總分預測,也存在一定的偏差:簡單題得分率比較高的群體,在較難的題上得分預測往往偏高;簡單題得分率比較低的群體,在較難的題上得分預測往往偏低平。在實踐中往往要結(jié)合各群體最初的成績與本次考試的簡單題得分率進行回歸分析,用回歸以后的簡單得分率期望值進行各題與總分預測。
參考文獻:
[1]鮑建生.中英兩國初中數(shù)學期望課程綜合難度的比較【J】.全球教育展望,2002 (9):48-52.