張華 周智良
摘? ?要:在當(dāng)前的教育與心理測量中,Rasch模型分析強(qiáng)調(diào)對被試能力和試題難度水平的排序,具有客觀等距的特征。文章利用高考物理成績的分層抽樣統(tǒng)計(jì)數(shù)據(jù),根據(jù)Rasch模型的多項(xiàng)指標(biāo)對高考試題進(jìn)行了評價(jià),分析了Rasch模型在中學(xué)物理試卷分析中的具體應(yīng)用。研究表明,2018年的高考物理(全國Ⅱ)試題整體良好,強(qiáng)調(diào)了試題的基礎(chǔ)性,但在以后的考試中,部分類型的題目仍需要適度調(diào)整。
關(guān)鍵詞:Rasch模型;高考;試卷分析
中圖分類號:G633.7 文獻(xiàn)標(biāo)識碼:A ? ? 文章編號:1003-6148(2019)6-0068-4
1? ? 引? 言
在我國,高考對教育研究和教育教學(xué)的發(fā)展方向具有重要影響。各級教育部門、廣大師生、家長及社會各界都特別關(guān)注高考試題的質(zhì)量。目前,國內(nèi)考試質(zhì)量分析主要運(yùn)用經(jīng)典測量理論和項(xiàng)目反應(yīng)理論。長期以來,經(jīng)典測量理論被廣泛運(yùn)用于各級各類教育測量中,但在試題質(zhì)量及成績分析等方面,仍存在許多無法克服的技術(shù)問題,如在衡量試題的難易程度、分析考點(diǎn)分布,以及評價(jià)考生的能力水平是否被科學(xué)、客觀、公平地測量等。針對以上問題,項(xiàng)目反應(yīng)理論中的Rasch模型提供了一種新的分析方法。
1960年,丹麥數(shù)學(xué)家、教育學(xué)家G.Rasch提出了一種概率模型——Rasch模型,用來測量被試的潛在特質(zhì),它能夠解決經(jīng)典測量理論難以克服的兩個(gè)典型問題:一是被試樣本及測驗(yàn)試題依賴,二是被試能力與試題難度測量間的彼此干擾,從而使Rasch測量具有了客觀等距的特征[1]。作為潛在特質(zhì)的模型,Rasch 模型通過被試在題目上的作答來測量不可直接觀察的潛在特質(zhì)。
其基本原理如下:被試能力與該試題難度的函數(shù)表示特定被試對特定試題作出的特定反應(yīng)的概率,且兩者的差異決定了被試回答某一試題的正確與否。通過對數(shù)轉(zhuǎn)換,Rasch 模型實(shí)現(xiàn)了在單維尺度上同時(shí)標(biāo)度被試能力和試題難度水平,基于兩者在單維度連續(xù)體上的位置,使試題與試題、試題與被試、被試與被試之間直接進(jìn)行比較[2]。單維性假設(shè)是運(yùn)用Rasch模型分析的條件,即單一變量影響了被試在某一項(xiàng)目上的表現(xiàn),其他因素的影響可忽略不計(jì)。國內(nèi)外大量研究表明,在分析試卷質(zhì)量時(shí),可以利用Rasch模型來檢驗(yàn)和改進(jìn)試卷[3]。本文以某市2018年物理高考試卷(全國Ⅱ)為例,探討Rasch模型在試卷分析中的應(yīng)用。
2? ? 研究方法
2.1? ? 研究樣本
在某市2018年高考理科選考為選修3-3的考生中,采用分層抽樣,抽取1078人。試卷包含選擇題8個(gè)(含單選題5個(gè)和多選題3個(gè)),實(shí)驗(yàn)題2個(gè),論述題2個(gè),選做題1個(gè),共計(jì)13個(gè)計(jì)分點(diǎn)。根據(jù)Rasch模型的要求,將試卷所有13個(gè)題目進(jìn)行等級賦分,其中單選題為二級賦分,答對為1,答錯(cuò)為0;多選題為三級賦分,答對為2,答對部分為1,答錯(cuò)為0;同樣的方法,實(shí)驗(yàn)題、計(jì)算論述題、選做題采用多級賦分。
2.2? ? 研究工具與統(tǒng)計(jì)方法
運(yùn)用SPSS22.0對收集到的原始數(shù)據(jù)進(jìn)行清理和轉(zhuǎn)化等預(yù)處理,進(jìn)行單維性檢驗(yàn),所有測試數(shù)據(jù)以Excel格式和“記事本”格式輸入。利用軟件Winsteps3.72開展Rasch模型分析,分析結(jié)果包含整個(gè)試卷擬合情況、試卷中每個(gè)題目擬合情況、懷特圖及氣泡圖分析。
3? ? 結(jié)果與分析
3.1? ? 測驗(yàn)的單維性檢驗(yàn)
Rasch模型要求所測量的潛在特質(zhì)具有單維性,即被試的作答表現(xiàn)只受其所掌握的物理知識影響,沒有受到閱讀理解能力等其他額外因素的影響。因此,在利用 WINSTEPS3.72進(jìn)行參數(shù)估計(jì)之前,本研究運(yùn)用SPSS22.0對高考數(shù)據(jù)進(jìn)行探索性因素分析,統(tǒng)計(jì)顯示(表1),KMO值為0.901(>0.7),Bartlett檢驗(yàn)顯著性為 P = 0(<0.05)[3],符合探索性因素分析的條件。接下來開展因子分析(表2),采用主成分分析法提取特征根大于1的兩個(gè)因子,其特征根分別為4.407和1.135;結(jié)合碎石圖(圖1),發(fā)現(xiàn)曲線在X軸1處出現(xiàn)明顯的彎折,說明只有一個(gè)因子(所掌握的物理知識)影響了本次測驗(yàn),符合Rasch模型單維性的條件。
情況
Infit和Outfit指標(biāo)常被Rasch模型分析中用來判斷數(shù)據(jù)與模型的擬合程度,Infit表示加權(quán)后的指標(biāo),Outfit表示未加權(quán)指標(biāo)(易受極端值的影響)。Rasch模型常根據(jù)MNSQ和ZSTD(ZSTD是MNSQ的標(biāo)準(zhǔn)化形式)兩個(gè)指標(biāo)進(jìn)行擬合度檢驗(yàn)。MNSQ=1為理想擬合情況,其值在0.7~1.3之間,其擬合程度可被接受 [4]。當(dāng)ZSTD=0時(shí),數(shù)據(jù)與模型的擬合屬于理想狀態(tài),當(dāng)ZSTD取值介于-2~2之間時(shí),認(rèn)為擬合較好[5]。研究中還涉及到信度、區(qū)分度、難度、被試及試題分布等質(zhì)量檢驗(yàn)指標(biāo)。Reliability表示信度,當(dāng)其特征量大于0.70時(shí),表示試卷測試結(jié)果的一致性、可靠性、穩(wěn)定性較好。Separation表示區(qū)分度,當(dāng)其特征量大于2時(shí),表示試題具有較高的區(qū)分度。
統(tǒng)計(jì)顯示,本試題和被試的MNSQ值均大于0.95,說明數(shù)據(jù)和模型擬合度良好;被試和項(xiàng)目的信度均高于0.8,說明測試結(jié)果穩(wěn)定可靠;其Separation值為2.05,說明區(qū)分度合理。從試卷內(nèi)容來看,強(qiáng)化了對基本物理概念、規(guī)律和實(shí)驗(yàn)技能等主干知識的考查。必考部分內(nèi)容主要涵蓋力學(xué)和電磁學(xué),涉及勻變速直線運(yùn)動(dòng)、萬有引力與航天、動(dòng)量與機(jī)械能守恒、靜電場、閉合電路歐姆定律、磁場和電磁感應(yīng)等內(nèi)容;選考部分則主要考查了氣體實(shí)驗(yàn)定律、氣體分子內(nèi)能、光的折射、機(jī)械波等主要內(nèi)容[6]。整個(gè)試卷突出考查了考生對物理學(xué)科基本概念、規(guī)律的理解及實(shí)驗(yàn)探究能力,具有良好的效度。
3.3? ? 被試能力水平與試題難度水平分布關(guān)系圖
在Rasch模型分析中,研究者通常利用懷特圖了解測試工具中各項(xiàng)目的難度分布。懷特圖能夠在同一把標(biāo)尺上,直觀展示被試和被試、題目和題目、被試和題目之間的關(guān)系(圖2)。
中線是 Logit 刻度尺,它是被試能力水平與試題難度水平進(jìn)行比較的重要媒介。M代表平均水平(Mean);S(One Standard Error)與M的距離為一個(gè)標(biāo)準(zhǔn)差(在標(biāo)準(zhǔn)正態(tài)分布中,占68.3%);T(Two Standard Error)與均值的距離為兩個(gè)標(biāo)準(zhǔn)差(在標(biāo)準(zhǔn)正態(tài)分布中,占95.4%)[7]??潭瘸咦髠?cè)是被試的物理學(xué)習(xí)水平分布,每個(gè) # 號代表7個(gè)被試,不夠7用“.”表示,從下往上看,被試能力水平逐漸升高。刻度尺右側(cè)是樣本試卷中13道題目的分布情況。從下往上難度依次升高,有許多題目的難度水平較為接近。其中,實(shí)驗(yàn)題第23題最容易,論述題第25題難度最大。
在1078名考生中,考生能力平均值為0.68logit,考生能力水平高于試題難度,說明本次考試難度偏低。圖2顯示,被試能力水平分布范圍約占7.4個(gè)logit,題目難度水平分布范圍寬度約為3.6個(gè)logit。總體來看,被試能力水平范圍跨度大于題目難度,題目難度沒有覆蓋到全體被試,特別是最高能力水平的考生。第19題和第20題、第16題和第25題之間都有比較大的空白區(qū)間,說明缺乏與被試能力相匹配的題目。
3.4? ? 試卷中每個(gè)題目數(shù)據(jù)與Rasch模型的擬合度
作為理想化的數(shù)學(xué)模型,Rasch模型要求搜集到的數(shù)據(jù)具備規(guī)定的標(biāo)準(zhǔn)和結(jié)構(gòu),才能實(shí)現(xiàn)客觀等距的測量目標(biāo)[8]。每個(gè)題目的測量數(shù)據(jù)與Rasch模型的擬合情況(表3),所有題目的Outfit MNSQ 范圍均在0.50~1.31之間,Infit MNSQ范圍在 0.69~1.21之間。除第24題以外,Infit MNSQ值(0.69)均在可接受的范圍(0.7~1.3)以內(nèi),說明2018年高考物理數(shù)據(jù)與 Rasch 模型擬合較好。另外,利用Rasch模型測量考生能力水平時(shí),其標(biāo)準(zhǔn)誤主要表示測量的穩(wěn)定性。標(biāo)準(zhǔn)誤越小,說明試題對考生能力水平的估計(jì)越穩(wěn)定,題目的信度也就越高。統(tǒng)計(jì)顯示,所有題目的Rasch標(biāo)準(zhǔn)誤均在0.08以下,說明試題的信度較高。此外,試題與試題測量目標(biāo)的擬合程度由相關(guān)系數(shù)表示。0.30是可接受的相關(guān)系數(shù)最低水平,相關(guān)系數(shù)越高,試題就越接近測量目標(biāo)。統(tǒng)計(jì)顯示,所有題目的相關(guān)系數(shù)最小值為0.32,均處于可接受的范圍內(nèi)。
3.5? ? 氣泡圖
圖3橫軸表示Outfit MNSQ,縱軸表示難度。氣泡和題目一一對應(yīng),氣泡的直徑表示標(biāo)準(zhǔn)誤的大小,氣泡的位置表示試題的Outfit MNSQ值。圖3顯示,試題越靠近頂端,難度水平越大。研究顯示,題目難度、擬合度及標(biāo)準(zhǔn)誤等指標(biāo)均可以用氣泡圖形象地描繪出來。所以在命制試題過程中,可運(yùn)用氣泡圖來篩選試題。
在理想的氣泡圖中,所有氣泡都會靠近中軸線 ,且不會有重疊。統(tǒng)計(jì)顯示,除一個(gè)題目的 Outfit MNSQ值在0.7~1.3范圍外(圖3),其余大多數(shù)題目的數(shù)據(jù)與模型擬合較好。同時(shí),發(fā)現(xiàn)有少部分氣泡堆疊在一起,說明測驗(yàn)內(nèi)容或題目的難度水平比較接近。第24題的 Intfit MNSQ值為0.69,Intfit MNSQ值為0.50,說明對被試能力水平的估計(jì)誤差較大,應(yīng)進(jìn)一步探討;第23題、第14題是較易的題目;第25題是較難的題目,而且第25題與其他試題明顯分離,說明此題目與其他題目的難度水平差異較大。
4? ? 結(jié)論與討論
本研究運(yùn)用Rasch模型,通過試題整體分析表、懷特圖及氣泡圖對2018年某市高考物理成績及試卷內(nèi)容進(jìn)行了分析,結(jié)果主要體現(xiàn)在以下兩個(gè)面。
4.1? ? 試卷突出了基礎(chǔ)性
整體難度相對偏低,從試卷整體分析及懷特圖可以看出,在本次測試中試題的難度水平?jīng)]有覆蓋到所有能力水平的考生,考生能力分布的logit值明顯高于試題難度水平的 logit 值,二者相差3.8logit,試卷整體難度偏低。
比如第24題雖然是計(jì)算論述題,但難度僅排在第3。其背景為日常生活中較為常見的小型交通事故,考查被試對勻加速直線運(yùn)動(dòng)、牛頓運(yùn)動(dòng)定律和動(dòng)量守恒定律等力學(xué)基本概念或規(guī)律的掌握程度。本題通過設(shè)置新穎的問題情境,將物理學(xué)主干知識與科學(xué)、技術(shù)、社會緊密聯(lián)系起來,考查學(xué)生是否能夠靈活運(yùn)用物理知識和方法解決生活中的實(shí)際問題。
比如,實(shí)驗(yàn)題中,22題考查被試的基本實(shí)驗(yàn)?zāi)芰驮O(shè)計(jì)簡單電路的能力。在直流電路部分歐姆定律是重要的規(guī)律,要求被試應(yīng)用歐姆定律,根據(jù)實(shí)驗(yàn)?zāi)康母难b電流表和電壓表,利用所給器材設(shè)計(jì)實(shí)驗(yàn)電路,考查被試的基本實(shí)驗(yàn)探究能力。
4.2? ? 個(gè)別題目需要適度調(diào)整
懷特圖顯示,試卷中的所有題目難度沒有呈現(xiàn)出近似的正態(tài)分布,個(gè)別題目的難度、區(qū)分度需加強(qiáng)。
首先,試卷整體難度不平衡。在13個(gè)物理題目中,與被試零水平相對應(yīng)的有一個(gè)題,表3顯示了每個(gè)題目的measure數(shù)值,顯示了題目的難度,數(shù)值越大,難度越高。分析發(fā)現(xiàn),在13個(gè)題目中,1logit~2logit難度的題目處于空白狀態(tài);反而在0~1logit難度的題目多達(dá)7個(gè)。在以后的考試中,需要調(diào)整measure數(shù)值比較接近的題目,使之適當(dāng)分散,使整個(gè)試題難度分布接近于正態(tài)分布。
其次,區(qū)分度仍需調(diào)整。理想擬合情況下的MNSQ值為1,當(dāng) Outfit MNSQ 和 Infit MNSQ 參數(shù)值大于 1 時(shí),區(qū)分度翻轉(zhuǎn),即在作答該題時(shí),許多高能力水平的被試對該題作答錯(cuò)誤,而低能力水平的被試卻回答正確;當(dāng)小于0.7時(shí),區(qū)分度趨同,即測試題目不能區(qū)分被試之間的能力水平,或者說被試的作答結(jié)果差異較小。按此依據(jù),個(gè)別試題的擬合值存在一些問題。如第24題,其Outfit MNSQ值為0.50,說明了無論被試的能力水平高低,被試在本題的作答差異不大,沒有體現(xiàn)出必要的區(qū)分度。
最后,難點(diǎn)的設(shè)置需進(jìn)一步考量。在題目難點(diǎn)的布局上,一般都遵循先易后難的原則。但是在8個(gè)選擇題中,第2個(gè)選擇題(16題)卻成為最難的選擇題,而且在全卷13個(gè)題目中難度值排名第二,這在一定程度上會使被試產(chǎn)生不適應(yīng);同時(shí),在實(shí)驗(yàn)題中,我們發(fā)現(xiàn)第23題,也就是后一個(gè)實(shí)驗(yàn)題,不僅比第一個(gè)實(shí)驗(yàn)題(22題)簡單了1.96logit,而且是本試卷最簡單的題目。按一般的命題規(guī)律,以上兩題均偏離了命題的初衷。因此,在以后的考試中,可以根據(jù)考試大綱對此類試題進(jìn)行適度調(diào)整或修改,使其充分發(fā)揮其高考的選拔功能。
綜上所述,高考抽樣數(shù)據(jù)分析在高考命題評價(jià)過程中具有重要作用。在一線教學(xué)中,為提高命題質(zhì)量,可以在考試評價(jià)中引入項(xiàng)目反應(yīng)理論及Rasch模型,將客觀等距量尺引入到考試中來。這樣,在各級各類考試中,首先指定命題規(guī)范,建立學(xué)科測評量表框架標(biāo)準(zhǔn)(比如雙向細(xì)目表等),明確測試目標(biāo);然后運(yùn)用先進(jìn)的測量技術(shù)和數(shù)理統(tǒng)計(jì)方法,保證試卷對于不同群體考生的公平性,從而提高命題效率與質(zhì)量。
參考文獻(xiàn):
[1]趙守盈,何妃霞,陳維,等. Rasch模型在研究生入學(xué)考試質(zhì)量分析中的應(yīng)用[J].教育研究,2012,389(6):61-66.
[2]戴海琦.基于項(xiàng)目反應(yīng)理論的測驗(yàn)編制方法研究[J].考試研究,2006(10):31-44.
[3]王蕾. Rasch測量原理及在高考命題評價(jià)中的實(shí)證研究[J].中國考試,2008(1):32-39.
[4]王桂桃,嚴(yán)文法,田秀云.例析Rasch模型在化學(xué)試卷質(zhì)量分析中的應(yīng)用[J].化學(xué)教學(xué),2016(11):14-19.
[5]教育部考試中心.聚焦主要內(nèi)容 考查關(guān)鍵能力 凸顯素養(yǎng)導(dǎo)向——2018年高考物理試題評析[J].中國考試,2018,315(7):17-23.
[6]羅德紅,龔婧.Rasch模型在試卷質(zhì)量分析中的應(yīng)用——基于五六年級學(xué)生閱讀素養(yǎng)前測試卷的質(zhì)量分析[J]. 教育測量與評價(jià)(理論版),2015(1):18-22.
[7]袁潔.基于Rasch模型的大學(xué)英語分級考試質(zhì)量分析[J].東南大學(xué)學(xué)報(bào)(哲學(xué)社會科學(xué)版), 2016(6):142-145.
(欄目編輯? ? 張正嚴(yán))