卜文娟,溫紅博,劉先偉
?
初中學(xué)業(yè)水平考試中固定分?jǐn)?shù)法標(biāo)準(zhǔn)設(shè)定的信度分析——以中考數(shù)學(xué)為例
卜文娟,溫紅博,劉先偉
(北京師范大學(xué) 中國(guó)基礎(chǔ)教育質(zhì)量監(jiān)測(cè)協(xié)同創(chuàng)新中心,北京 100875)
綜合應(yīng)用現(xiàn)代測(cè)量理論,分析中國(guó)初中學(xué)業(yè)水平考試中固定分?jǐn)?shù)法標(biāo)準(zhǔn)設(shè)定的信度.分別從中國(guó)東中西部地區(qū)3個(gè)區(qū)縣隨機(jī)抽取3?000名初三學(xué)生為被試,對(duì)被試的數(shù)學(xué)學(xué)業(yè)水平考試數(shù)據(jù)進(jìn)行分析.采用的信度指標(biāo)包括經(jīng)典測(cè)量理論的決策一致性系數(shù)()、概化理論的等級(jí)線決策信度(λ)和項(xiàng)目反應(yīng)理論的信息量(θ).研究結(jié)果顯示,固定分?jǐn)?shù)法標(biāo)準(zhǔn)設(shè)定下,決策信度接近0.7;等級(jí)線決策信度大于0.7,大部分在0.8左右;分界點(diǎn)的信息量大部分低于16.這些結(jié)果表明,中考采用固定分?jǐn)?shù)法進(jìn)行標(biāo)準(zhǔn)設(shè)定的質(zhì)量一般,對(duì)于學(xué)業(yè)水平考試這種高利害性考試來說需要進(jìn)一步提高.
學(xué)業(yè)水平考試;標(biāo)準(zhǔn)設(shè)定;固定分?jǐn)?shù)法;信度
在新課程改革背景下,中考制度進(jìn)行了改革,初中畢業(yè)考試與高中招生考試合二為一形成初中學(xué)業(yè)水平考試(以下統(tǒng)稱“中考”),考試結(jié)果既是決定學(xué)生能否畢業(yè)的主要因素,也是高中階段學(xué)校招生的重要依據(jù)之一[9].改革后的中考具有標(biāo)準(zhǔn)參照測(cè)驗(yàn)的性質(zhì).考試結(jié)果以等級(jí)形式呈現(xiàn),將原始分轉(zhuǎn)化為等級(jí)分的過程中涉及等級(jí)劃定,也叫標(biāo)準(zhǔn)設(shè)定.標(biāo)準(zhǔn)設(shè)定是指在測(cè)驗(yàn)分?jǐn)?shù)分布中劃出一系列分界分?jǐn)?shù),將考生分為兩類或者更多有序類別[2-3].中考標(biāo)準(zhǔn)設(shè)定的結(jié)果與學(xué)生的畢業(yè)與升學(xué)等人生重要轉(zhuǎn)折點(diǎn)息息相關(guān),對(duì)考生具有深遠(yuǎn)影響,因而標(biāo)準(zhǔn)設(shè)定的質(zhì)量至關(guān)重要且廣受關(guān)注.
目前,中國(guó)已有的關(guān)于中考標(biāo)準(zhǔn)設(shè)定質(zhì)量的研究成果主要集中在中考標(biāo)準(zhǔn)設(shè)定的重要性、現(xiàn)有中考標(biāo)準(zhǔn)設(shè)定質(zhì)量存在的問題及改進(jìn)措施等.但這些研究大多采用質(zhì)性的思辨性研究進(jìn)行理論層面的探討.而標(biāo)準(zhǔn)設(shè)定是一個(gè)復(fù)雜的需要綜合多種因素的心理測(cè)量過程,在鼓勵(lì)使用等級(jí)成績(jī)的同時(shí)應(yīng)該加強(qiáng)對(duì)標(biāo)準(zhǔn)設(shè)定的研究和指導(dǎo)[4].因此,如何科學(xué)運(yùn)用現(xiàn)代測(cè)量理論和技術(shù),檢驗(yàn)并加強(qiáng)中考標(biāo)準(zhǔn)設(shè)定的質(zhì)量,為中考考試質(zhì)量的提升提供科學(xué)指導(dǎo),顯得尤為重要和迫切.
從測(cè)量理論上講,無論采用什么方法,標(biāo)準(zhǔn)設(shè)定的結(jié)果必須經(jīng)過實(shí)踐的檢驗(yàn),測(cè)試機(jī)構(gòu)有責(zé)任提供證據(jù)證明標(biāo)準(zhǔn)設(shè)定的質(zhì)量[3,5].標(biāo)準(zhǔn)設(shè)定質(zhì)量的重要指標(biāo)就是分界分?jǐn)?shù)的信度,分界分?jǐn)?shù)的信度也受到了研究者的廣泛關(guān)注[6-8].中國(guó)中考改革強(qiáng)調(diào)務(wù)必保證中考測(cè)試工具的信度,以避免中考結(jié)果出現(xiàn)較大誤差[9].中考作為一個(gè)標(biāo)準(zhǔn)參照測(cè)驗(yàn),按照測(cè)量學(xué)的要求需要報(bào)告標(biāo)準(zhǔn)設(shè)定的信度以證實(shí)其等級(jí)劃定結(jié)果的質(zhì)量.關(guān)于標(biāo)準(zhǔn)參照測(cè)驗(yàn)的信度分析,現(xiàn)代測(cè)量理論基于自身的理論框架提出了不同的信度觀,為解決這個(gè)問題提供有效的方法和指標(biāo).從經(jīng)典測(cè)量理論(Classical Testing Theory,以下簡(jiǎn)稱CTT)的觀點(diǎn)來看,研究者提出了標(biāo)準(zhǔn)參照測(cè)驗(yàn)的信度指標(biāo):決策一致性和決策準(zhǔn)確性,決策一致性(DC)指考生在兩次平行測(cè)驗(yàn)中被一致歸類的程度,其常用指標(biāo)是和系數(shù)[10-11].決策準(zhǔn)確性(DA)根據(jù)考生在考試中得到的觀察分?jǐn)?shù)所作的分類決定和根據(jù)真分?jǐn)?shù)所做決定的一致性,常用的指標(biāo)也是和系數(shù)[10-12].概化理論(Generalizability Theory,簡(jiǎn)稱GT)針對(duì)不同的等級(jí)分?jǐn)?shù)線,提出了相應(yīng)的等級(jí)線決策信度(λ)估計(jì)方法,以此估計(jì)各個(gè)能力水平點(diǎn)的測(cè)量信度[13-14].等級(jí)線的決策信度是用來描述依據(jù)不同的表現(xiàn)類別的臨界分?jǐn)?shù)對(duì)被試進(jìn)行分類的可靠性和穩(wěn)定性.信息函數(shù)則是項(xiàng)目反應(yīng)理論(Item Response Theory,簡(jiǎn)稱IRT)中用以刻畫測(cè)驗(yàn)或試題有效性的工具,它是直接反映測(cè)驗(yàn)分?jǐn)?shù)對(duì)學(xué)生能力估計(jì)精度的指標(biāo)[15-16].作為一種判斷被試合格與不合格的標(biāo)準(zhǔn)參照測(cè)驗(yàn),重要的是要在分界分?jǐn)?shù)及其附近有精確的估計(jì)及高區(qū)分的能力,而這些都反映在測(cè)驗(yàn)在劃界分?jǐn)?shù)點(diǎn)的信息量,因此可根據(jù)測(cè)驗(yàn)在劃界分?jǐn)?shù)點(diǎn)上的信息量來評(píng)價(jià)標(biāo)準(zhǔn)參照測(cè)驗(yàn)[17-18].
等級(jí)劃定的結(jié)果受到其選擇的方法的影響.實(shí)踐中,中國(guó)中考標(biāo)準(zhǔn)設(shè)定常用的一種方法是固定分?jǐn)?shù)法,即按照固定分?jǐn)?shù)來劃分[19-21],而等級(jí)數(shù)目和等級(jí)標(biāo)準(zhǔn)則由各地根據(jù)考試結(jié)果和當(dāng)?shù)貙?shí)際情況確定[22],因而各地有所差異.中國(guó)大部分地區(qū)采用的等級(jí)數(shù)目為4、5、6級(jí),按照固定分?jǐn)?shù)線的劃分,以百分制計(jì)算,4級(jí)劃分通常采用60分、70分和90分3個(gè)分界分?jǐn)?shù)將被試分為4個(gè)等級(jí);5級(jí)劃分是采用60、70、80、90分為分界分?jǐn)?shù)將成績(jī)劃分為5級(jí);6級(jí)劃分則是采用50、60、70、80、90分5個(gè)分界分?jǐn)?shù)劃分為6級(jí).而目前中考采用固定分?jǐn)?shù)進(jìn)行等級(jí)劃分可能會(huì)存在多種不足,進(jìn)而影響中考標(biāo)準(zhǔn)設(shè)定的質(zhì)量.然而目前缺乏相關(guān)的研究對(duì)中考標(biāo)準(zhǔn)設(shè)定的信度進(jìn)行分析.因此,應(yīng)用現(xiàn)代測(cè)量理論對(duì)中國(guó)中考標(biāo)準(zhǔn)設(shè)定的信度進(jìn)行分析以提供其質(zhì)量論證顯得十分必要.
此外,數(shù)學(xué)作為促進(jìn)學(xué)生全面發(fā)展教育的重要組成部分,在培養(yǎng)人的思維能力和創(chuàng)新能力方面的不可替代的作用.義務(wù)教育階段的數(shù)學(xué)課程是培養(yǎng)公民素質(zhì)的基礎(chǔ)課程,在各學(xué)段的學(xué)業(yè)水平考試中占據(jù)重要地位,此外根據(jù)調(diào)查結(jié)果顯示,數(shù)學(xué)是各地中考的必考科目[23],因而擬以中考數(shù)學(xué)為研究對(duì)象進(jìn)行分析.
綜上,以中考數(shù)學(xué)為研究對(duì)象,綜合應(yīng)用CTT、GT和IRT分析中考現(xiàn)有固定分?jǐn)?shù)法標(biāo)準(zhǔn)設(shè)定的決策一致性、等級(jí)線決策信度和分界分?jǐn)?shù)的信息量,對(duì)中考標(biāo)準(zhǔn)設(shè)定的信度進(jìn)行探討.
鑒于中國(guó)中考由各地市統(tǒng)一組織進(jìn)行的現(xiàn)狀,采用分層隨機(jī)抽樣.首先從中國(guó)東部、中部、西部地區(qū)各選一個(gè)地市,然后從所選擇的地市中隨機(jī)抽取3?000名被試作為分析對(duì)象.
將所抽取的3個(gè)地區(qū)的試卷分別記做A試卷、B試卷、C試卷.3個(gè)試卷結(jié)構(gòu)如表1所示,其中部分解答題中包含兩個(gè)或兩個(gè)以上的小題,表中總題量統(tǒng)計(jì)是按照卷面的小題題目數(shù)量進(jìn)行統(tǒng)計(jì).
表1 試卷結(jié)構(gòu)
由于中國(guó)大部分地區(qū)采用的等級(jí)數(shù)目為4、5、6級(jí),因此,分別探討采用固定分?jǐn)?shù)線將被試分為4、5、6個(gè)等級(jí)進(jìn)行標(biāo)準(zhǔn)設(shè)定時(shí)測(cè)驗(yàn)的決策一致性、等級(jí)線決策信度和分界分?jǐn)?shù)的信息量.
采用Livingston和Lewis[11]提出了的LL方法分別估計(jì)測(cè)驗(yàn)決策一致性和決策準(zhǔn)確性的和系數(shù).研究者建議對(duì)大規(guī)模測(cè)驗(yàn)的分類一致性的高于0.7,系數(shù)高于0.6[11,24].
從GT測(cè)量設(shè)計(jì)的角度來看,A、B、C三套試卷的所有被試均需要作答對(duì)應(yīng)測(cè)驗(yàn)的所有題目,測(cè)驗(yàn)均為隨機(jī)單面交叉設(shè)計(jì)(×).概化研究包括G研究和D研究,G研究分析各變異來源,D研究考察不同測(cè)量條件下測(cè)驗(yàn)信度變化.有研究者建議基于GT的信度指標(biāo)需要達(dá)到0.80[25],對(duì)于高利害性的大規(guī)模考試的概化信度指標(biāo)達(dá)到0.85才能滿足需求,理想情況下決策信度達(dá)到0.90則說明決策信度質(zhì)量非常好[26-28].
研究采用SPSS 20.0對(duì)數(shù)據(jù)進(jìn)行管理,使用BB-CLASS[31]進(jìn)行決策一致性分析.使用GENOVA軟件[32]進(jìn)行GT分析.使用Conquest 2.0[33]和江西師大統(tǒng)計(jì)與測(cè)量研究開發(fā)中心自主研制的“現(xiàn)代教育與心理測(cè)量通用分析系統(tǒng)(ANOTE)”進(jìn)行IRT分析.
首先對(duì)測(cè)驗(yàn)題目的質(zhì)量進(jìn)行分析,包括題目的難度和區(qū)分度,并分析測(cè)驗(yàn)的內(nèi)部一致性系數(shù),在此基礎(chǔ)上計(jì)算各測(cè)驗(yàn)的決策一致性和決策準(zhǔn)確性.
3.1.1 題目的難度和區(qū)分度
難度指標(biāo)采用的是項(xiàng)目通過率,區(qū)分度指標(biāo)采用的是題總相關(guān).分析結(jié)果表明,A測(cè)驗(yàn)總體難度為0.74,題目的難度范圍為0.15~0.99;題目的區(qū)分度均大于0.2,大部分題目區(qū)分度大于0.4.B測(cè)驗(yàn)總體難度為0.81,題目的難度范圍為0.11~0.99;題目的區(qū)分度均大于0.2,大部分題目區(qū)分度大于0.4.C測(cè)驗(yàn)總體難度0.72,題目的難度范圍為0.15~0.98;題目的區(qū)分度均大于0.2,大部分題目區(qū)分度大于0.4,題目區(qū)分度良好.
3.1.2 決策一致性
A、B、C三個(gè)測(cè)驗(yàn)的內(nèi)部一致性系數(shù)(系數(shù))分別為0.848、0.873、0.824,表明測(cè)驗(yàn)信度較高.然后使用BB-CLASS軟件,計(jì)算分類一致性和分類準(zhǔn)確性.采用不同等級(jí)數(shù)目等級(jí)劃分時(shí),A、B、C三個(gè)測(cè)驗(yàn)的決策一致性和決策準(zhǔn)確性如表2所示.
由表2可知,采用6級(jí)分類時(shí),測(cè)驗(yàn)的決策一致性和決策準(zhǔn)確性的值均低于0.7,值低于0.6.采用5級(jí)分類,3個(gè)測(cè)驗(yàn)的決策一致性的值高于0.7,值高于0.6,而決策準(zhǔn)確性的值接近0.7,值接近0.6.采用4級(jí)分類時(shí),3個(gè)測(cè)驗(yàn)的決策一致性和決策準(zhǔn)確性系數(shù)均較高.
GT的分析包括G研究和D研究.由于只有D研究能夠提供信度信息,所以在此只呈現(xiàn)D研究結(jié)果.
在G研究的基礎(chǔ)上進(jìn)行D研究,首先計(jì)算測(cè)驗(yàn)的概化系數(shù)和可靠性指數(shù),A、B、C的概化系數(shù)分別為0.86、0.85、0.82,可靠性指數(shù)分別為0.78、0.74、0.74.接著計(jì)算A、B、C測(cè)驗(yàn)在不同等級(jí)劃分時(shí)的決策信度,6級(jí)分類時(shí)各分界點(diǎn)50分、60分、70分、80分、90分對(duì)應(yīng)的等級(jí)線決策信度為(50)、(60)、(70)、(80)、(90),5級(jí)分類對(duì)應(yīng)的等級(jí)線決策信度為(60)、(70)、(80)、(90),4級(jí)分類對(duì)應(yīng)的等級(jí)線決策信度為(60)、(70)、(90),具體結(jié)果如表3所示.由研究結(jié)果可知,首先,3個(gè)測(cè)驗(yàn)在不同等級(jí)劃分情況下分界分?jǐn)?shù)決策信度均大于0.7,從總體上來講可以接受,但部分等級(jí)線的決策信度在0.80以下.其次,相對(duì)而言,低分段的決策信度較高,高分段的決策信度次之,但中等水平的決策信度較差.最后,不同地區(qū)的等級(jí)線決策信度存在差別,A、B兩個(gè)地區(qū)決策信度總體優(yōu)于C測(cè)驗(yàn),其原因可能在于測(cè)驗(yàn)工具的質(zhì)量存在差異,C測(cè)驗(yàn)的內(nèi)部一致性系數(shù)和概化系數(shù)均低于A、B兩個(gè)測(cè)驗(yàn).
表2 各測(cè)驗(yàn)固定分?jǐn)?shù)法的決策一致性
表3 測(cè)驗(yàn)各分界點(diǎn)對(duì)應(yīng)的等級(jí)線決策信度
D研究所采用的測(cè)量結(jié)構(gòu)和測(cè)量模式與G研究相同,進(jìn)一步考察題目側(cè)面的樣本容量對(duì)測(cè)驗(yàn)各等級(jí)線的決策信度的影響[26].研究以各測(cè)驗(yàn)現(xiàn)有題目數(shù)量為基準(zhǔn)(A測(cè)驗(yàn)的現(xiàn)有題目數(shù)為35題,B、C兩測(cè)驗(yàn)題目數(shù)為36題),每種條件增加或減少25%的題目,測(cè)試題目數(shù)量從18~72,每個(gè)測(cè)驗(yàn)共有7種條件.研究結(jié)果分別如下表4、表5、表6所示,研究結(jié)果顯示,隨著測(cè)試題目數(shù)量的增加,各分界分?jǐn)?shù)的等級(jí)線決策信度均持續(xù)提高,但增加到一定程度后決策信度的提升隨著題目數(shù)量的增加而減緩.由表可知一般測(cè)驗(yàn)題目達(dá)到45,測(cè)驗(yàn)的等級(jí)線決策信度可以達(dá)到0.80;題目數(shù)量增加一倍,測(cè)驗(yàn)各等級(jí)線的決策信度可以達(dá)到0.85.
表4 A測(cè)驗(yàn)題目數(shù)量與等級(jí)線決策信度的影響
表5 B測(cè)驗(yàn)題目數(shù)量與等級(jí)線決策信度的影響
表6 C測(cè)驗(yàn)題目數(shù)量與等級(jí)線決策信度的影響
研究首先檢驗(yàn)測(cè)驗(yàn)的單維性,分析測(cè)驗(yàn)是否滿足IRT的前提假設(shè)[34],在此基礎(chǔ)上進(jìn)一步分析題目的質(zhì)量和測(cè)驗(yàn)信息量.
3.3.1 單維性檢驗(yàn)
使用SPSS20.0對(duì)各測(cè)驗(yàn)進(jìn)行因素分析,數(shù)據(jù)結(jié)果表明3個(gè)試卷的第一特征根與第二特征根比值均大于3,可以認(rèn)為測(cè)驗(yàn)符合IRT的單維性假設(shè)[34-35].
3.3.2 題目質(zhì)量分析
研究采用IRT的單參模型對(duì)3個(gè)測(cè)驗(yàn)的題目難度、區(qū)分度和擬合指數(shù)進(jìn)行估計(jì).研究結(jié)果顯示A、B、C測(cè)驗(yàn)的題目難度分布合理,且所有題目擬合指數(shù)(MNSQ)擬合良好[36].測(cè)驗(yàn)題目區(qū)分度均大于0.2,大部分題目大于0.4.總的來說,3個(gè)測(cè)驗(yàn)的題目擬合良好,區(qū)分度較高.
3.3.3 測(cè)驗(yàn)信息量
表7 測(cè)驗(yàn)各分界點(diǎn)對(duì)應(yīng)的信息量
4.1.1 中考標(biāo)準(zhǔn)設(shè)定的信度
綜合應(yīng)用現(xiàn)代測(cè)量理論對(duì)中國(guó)中考標(biāo)準(zhǔn)設(shè)定的信度進(jìn)行分析.通過探索和對(duì)比不同測(cè)量理論框架下的信度指標(biāo),以期為判斷學(xué)業(yè)考試等級(jí)設(shè)定的質(zhì)量提供科學(xué)的理論支持,進(jìn)而為初中學(xué)業(yè)水平考試的實(shí)施和改革提供參考和建議.
從CTT的分析結(jié)果來看,不同的標(biāo)準(zhǔn)設(shè)定等級(jí)數(shù)目下,測(cè)驗(yàn)的決策信度存在較大的差異,采用6級(jí)分類時(shí),測(cè)驗(yàn)的決策信度較差,未能達(dá)到大規(guī)??荚嚨囊螅欢捎?級(jí)分類時(shí),測(cè)驗(yàn)基本達(dá)到了大規(guī)模測(cè)驗(yàn)的要求,采用4級(jí)分類時(shí)測(cè)驗(yàn)?zāi)軌驅(qū)Ρ辉囘M(jìn)行較好的分類,滿足高利害考試的要求.綜合來看,測(cè)驗(yàn)的決策信度受到分界分?jǐn)?shù)數(shù)目的影響,分界分?jǐn)?shù)越少,分類一致性越高,與已有研究結(jié)論一致[37-38].分界分?jǐn)?shù)附近的考生越多,就更容易在兩次劃分中被分到不同的種類中,因此分界分?jǐn)?shù)越多,分類一致性越低.此外,由研究結(jié)果可知,測(cè)驗(yàn)的決策準(zhǔn)確性略低于決策一致性,測(cè)驗(yàn)的測(cè)量準(zhǔn)確性還需進(jìn)一步提高.
概化分析表明,測(cè)驗(yàn)的各分界分?jǐn)?shù)的等級(jí)線決策信度大于0.70,大部分分界分?jǐn)?shù)的決策信度在0.80以上,可以認(rèn)為學(xué)業(yè)水平考試的各等級(jí)線對(duì)被試進(jìn)行分類時(shí)具有較高的穩(wěn)定性和可靠性.而從各等級(jí)線決策信度的比較結(jié)果來看,低分端分界點(diǎn)和高分段的等級(jí)線決策信度高于均值附近分界點(diǎn)的決策信度,由此可知現(xiàn)有中考對(duì)于兩端的被試分類的可靠性和穩(wěn)定性較高,尤其是低分段的決策信度相對(duì)最高.而這一結(jié)果可能與中考考試設(shè)計(jì)有關(guān),目前中考數(shù)學(xué)的考試設(shè)計(jì)要求容易題、中檔題和稍難題的比例大致確定為7:2:1[39-40],由此可知大部分題目集中于較低水平的學(xué)生,因此對(duì)低分段學(xué)生的能力水平測(cè)量更加準(zhǔn)確.為了使各決策線信度均達(dá)到0.80,更符合高利害考試的要求[26],D研究結(jié)果表明題目數(shù)量需要適當(dāng)增加到約45題,如果想要使測(cè)驗(yàn)各等級(jí)線的決策信度達(dá)到0.85,滿足大規(guī)模測(cè)試的要求,題目數(shù)量需要增加一倍.可以看出,隨著題目數(shù)量增加,測(cè)驗(yàn)信度的提升效果逐漸減小,因此,需要結(jié)合考試成本等因素綜合考慮題目的合理數(shù)量.
從IRT的角度去分析各分界點(diǎn)的信度時(shí),其分界點(diǎn)的信息量均低于16,特別是高分段的分界點(diǎn)信息量甚至低于8,遠(yuǎn)不能滿足高利害測(cè)驗(yàn)的測(cè)驗(yàn)精度要求[29].由IRT的結(jié)果可知,目前中考對(duì)分界分?jǐn)?shù)附近的被試的能力水平測(cè)量的準(zhǔn)確性不高,尤其是高分段學(xué)生能力水平的測(cè)量精度.這可能是由于目前的中考測(cè)驗(yàn)中難題的數(shù)量較少,很難對(duì)高水平能力的學(xué)生進(jìn)行準(zhǔn)確的測(cè)量.
值得注意的是,研究結(jié)果中GT和IRT的信度指標(biāo)的變化趨勢(shì)不盡相同,等級(jí)線決策信度呈現(xiàn)一個(gè)U型的變化趨勢(shì),而信息量則是倒U型,對(duì)此Brennan[41]指出是由于原始分與IRT能力值的非線性轉(zhuǎn)化造成的,其中GT和IRT對(duì)于高分段學(xué)生的判斷結(jié)果似乎是矛盾的,但這一點(diǎn)也不難理解.等級(jí)線決策信度反映的是分?jǐn)?shù)線對(duì)被試進(jìn)行劃分的可靠性和穩(wěn)定性,而信息量反映的是分界點(diǎn)對(duì)被試的測(cè)量準(zhǔn)確性.因此,這一結(jié)果可以解釋為目前的中考測(cè)驗(yàn)對(duì)高水平學(xué)生的分類一致性較高,但由于測(cè)驗(yàn)中符合高水平學(xué)生能力的難題數(shù)量較少,很難準(zhǔn)確地測(cè)量高水平學(xué)生的能力,從而導(dǎo)致高分段的分界點(diǎn)信息量較低.
4.1.2 對(duì)中考命題的建議
研究結(jié)合中國(guó)中考標(biāo)準(zhǔn)設(shè)定的現(xiàn)狀,綜合研究結(jié)果,對(duì)中考命題及改革提出如下建議.
(1)中考標(biāo)準(zhǔn)設(shè)定需要借鑒國(guó)內(nèi)外先進(jìn)測(cè)評(píng)項(xiàng)目的經(jīng)驗(yàn),完善課程標(biāo)準(zhǔn),建立合適的表現(xiàn)標(biāo)準(zhǔn),詳細(xì)描述各等級(jí)學(xué)生所需要具備的知識(shí)和技能.標(biāo)準(zhǔn)設(shè)定的標(biāo)準(zhǔn)不僅包括內(nèi)容標(biāo)準(zhǔn),還包括表現(xiàn)標(biāo)準(zhǔn).內(nèi)容標(biāo)準(zhǔn)規(guī)定學(xué)生應(yīng)該掌握什么,表現(xiàn)標(biāo)準(zhǔn)是指期望被試達(dá)到的與內(nèi)容標(biāo)準(zhǔn)對(duì)應(yīng)的測(cè)驗(yàn)表現(xiàn)水平.與國(guó)際大型測(cè)評(píng)項(xiàng)目相比,中國(guó)中考表現(xiàn)標(biāo)準(zhǔn)缺失,從而導(dǎo)致標(biāo)準(zhǔn)設(shè)定的結(jié)果指向不明確,解釋效力不足.因此,借鑒已有研究成果,建立中考各等級(jí)的表現(xiàn)標(biāo)準(zhǔn)顯得緊急而且重要.
(2)中考標(biāo)準(zhǔn)設(shè)定的方法需要各地區(qū)結(jié)合實(shí)際情況和可用資源綜合衡量選擇.各地區(qū)進(jìn)行標(biāo)準(zhǔn)設(shè)定時(shí),需要盡可能的基于測(cè)量學(xué)的指導(dǎo),采用合理的方法進(jìn)行標(biāo)準(zhǔn)設(shè)定,如采用專家判斷法(如Bookmark或者Angoff法)和客觀的標(biāo)準(zhǔn)設(shè)定方法(如聚類分析法)相結(jié)合,建立較為穩(wěn)定的等級(jí)標(biāo)準(zhǔn),使標(biāo)準(zhǔn)設(shè)定的結(jié)果更可靠、有效.
(3)中考標(biāo)準(zhǔn)設(shè)定的等級(jí)數(shù)目方面,研究結(jié)果與大量已有研究得到一致的結(jié)論:等級(jí)數(shù)目越少,分類的一致性越高.因此,建議在能夠滿足實(shí)踐需求的前提下,盡可能地減少等級(jí)數(shù)目,可以考慮采用3級(jí)或者4級(jí)進(jìn)行等級(jí)劃分,不宜采用過多等級(jí).
(4)關(guān)于中考題目數(shù)量方面,現(xiàn)有的中考題目數(shù)量(36題)基本能夠滿足考試需求,根據(jù)GT的研究結(jié)果,適當(dāng)增加題目數(shù)量至45題,能夠使各等級(jí)線的決策信度均達(dá)到大規(guī)模測(cè)量的基本要求(0.8以上).增加題目數(shù)量時(shí),可以考慮適當(dāng)增加有一定難度的題目,以進(jìn)一步提高現(xiàn)有中考對(duì)高水平被試的測(cè)量準(zhǔn)確性.
(5)關(guān)于中考的題目難度分布方面,現(xiàn)有的中考采用的偏態(tài)分布不利于對(duì)能力分布兩端的學(xué)生的測(cè)量.建議題目難度采用多峰分布,具體根據(jù)各地區(qū)劃定的等級(jí)數(shù)量,針對(duì)對(duì)應(yīng)的能力分界點(diǎn)設(shè)計(jì)對(duì)應(yīng)的難度的題目,使各能力分界點(diǎn)附近均有足夠的題目數(shù)量,加強(qiáng)對(duì)各能力分界點(diǎn)附近學(xué)生的測(cè)量精度,從而進(jìn)一步提高等級(jí)劃定的質(zhì)量.
4.1.3 研究的不足與展望
首先,研究的樣本選擇存在不足.研究選擇了3個(gè)地區(qū)的數(shù)學(xué)試卷進(jìn)行分析,標(biāo)準(zhǔn)設(shè)定的等級(jí)數(shù)目?jī)H包含了4、5、6三種常見的等級(jí)劃定,在未來的研究中需要進(jìn)一步豐富研究樣本,選擇更多地區(qū),更多科目的中考試卷進(jìn)行分析,進(jìn)一步驗(yàn)證研究結(jié)論.
此外,研究計(jì)算信息量時(shí),采用的是單參數(shù)模型,估計(jì)方法是極大似然估計(jì).IRT的模型和估計(jì)方法對(duì)參數(shù)估計(jì)結(jié)果會(huì)產(chǎn)生一定的影響,其它的模型和估計(jì)方法產(chǎn)生的結(jié)果需要進(jìn)一步的研究來驗(yàn)證.
其次,研究在進(jìn)行信度分析時(shí),關(guān)于決策一致性的分析僅從CTT的角度進(jìn)行計(jì)算,在未來研究中可以結(jié)合其它理論探討更適合中考決策一致性的計(jì)算方法.
目前中考采用固定分?jǐn)?shù)法進(jìn)行標(biāo)準(zhǔn)設(shè)定的質(zhì)量一般,雖然基本能夠?qū)W(xué)生的能力水平進(jìn)行較好地分類,但對(duì)于一些能力分界點(diǎn)附近的考生的測(cè)量精度還需要進(jìn)一步地提高以滿足大規(guī)模測(cè)驗(yàn)的要求.
[1] 教育部關(guān)于基礎(chǔ)教育課程改革實(shí)驗(yàn)區(qū)初中畢業(yè)考試與普通高中招生制度改革的指導(dǎo)意見[J].中華人民共和國(guó)教育部公報(bào),2005(4):38-41.
[2] 李珍,辛濤,陳平.標(biāo)準(zhǔn)設(shè)定:步驟、方法與評(píng)價(jià)指標(biāo)[J].考試研究,2010(2):83-95.
[3] HAMBLETON R K, PITONIAK M J. Setting performance standards [M] // BRENNAN R L. Educational measurement. 4th ed. Washington, DC: American Council on Education, 2006: 433–470.
[4] 馬嘉賓,張珊珊,涂端午.從國(guó)際視角看我國(guó)中考改革[J].中小學(xué)管理,2014(1):21-24.
[5] AERA, APA, NCME. Standards for educational and psychological testing [M]. Washington, DC: Author, 1999: 35-36.
[6] GREEN D R, TRIMBLE C S, LEWIS D M. Interpreting the results of three different standard-setting procedures [J]. Educational Measurement: Issues and Practice, 2003, 22 (1): 22–32.
[7] KANE M. Validating the performance standards associated with passing scores [J]. Review of Educational Research, 1994, 64 (3): 425–461.
[8] PETERSON C H, SCHULZ E M, ENGELHARD G. Reliability and validity of bookmark-based methods for standard setting: comparisons to angoff-based methods in the national assessment of educational progress [J]. Educationl Measurement Issues & Practice, 2011, 30 (2): 3–14.
[9] 教育部“初中畢業(yè)和高中招生考試制度改革”項(xiàng)目組.解析初中畢業(yè)生學(xué)業(yè)考試改革[J].中小學(xué)管理,2004(6):5-7.
[10] 韓寧.評(píng)價(jià)考試質(zhì)量的新指標(biāo):決策一致性和決策準(zhǔn)確性[J].中國(guó)考試(研究版),2008(6):3-6.
[11] ?LIVINGSTON S A, LEWIS C. Estimating the consistency and accuracy of classifications based on test scores [J]. Journal of Educational Measurement, 1995 (32): 179–197.
[12] ?HANSON B A, BRENNAN R L. An investigation of classification consistency indexes estimated under alternative strong true score models [J]. Journal of Educational Measurement, 1990 (27): 345–359.
[13] ?BRENNAN R L. Generalizability theory [M]. NewYork: Springer-Verlag, 2001: 221-240.
[14] 楊志明,張雷.改進(jìn)普通話測(cè)試的概化理論分析[J].湖南師范大學(xué)教育科學(xué)學(xué)報(bào),2003(1):76-82.
[15] 羅照盛.項(xiàng)目反應(yīng)理論[M].北京:北京師范大學(xué)出版社,2012:4-43.
[16] ?FISCHER G H, MOLENAAR I W. Rasch models: foundations, recent developments and applications [M]. New York: Springer-Verlag, 1995: 77-132.
[17] 涂冬波,蔡艷.信息函數(shù)在標(biāo)準(zhǔn)參照測(cè)驗(yàn)中的應(yīng)用研究[J].江西師范大學(xué)學(xué)報(bào)(自然科學(xué)版),2005(2):167-172.
[18] 熊建華,丁樹良,漆書青,等.用測(cè)驗(yàn)信息量分析試卷質(zhì)量[J].江西師范大學(xué)學(xué)報(bào)(自然科學(xué)版),2002(3):225-228.
[19] 肖永琴.目前中考理化學(xué)科評(píng)價(jià)體系的調(diào)查與分析[J].福建基礎(chǔ)教育研究,2011(5):106-109.
[20] 張雨強(qiáng),魏夢(mèng)其.初中畢業(yè)生學(xué)業(yè)考試的市域比較研究[J].教育參考,2015(5):28-34,53.
[21] 李建平.解析初中畢業(yè)學(xué)業(yè)考試改革新思路[N].中國(guó)教育報(bào),2005-04-04(01).
[22] 教育部辦公廳關(guān)于印發(fā)《國(guó)家基礎(chǔ)教育課程改革實(shí)驗(yàn)區(qū)2004年初中畢業(yè)考試與普通高中招生制度改革的指導(dǎo)意見》的通知[J].中華人民共和國(guó)教育部公報(bào),2004(Z1):70-73.
[23] 王燁暉,韋小滿.初中畢業(yè)生學(xué)業(yè)考試的現(xiàn)狀調(diào)查[J].中國(guó)考試,2014(2):43-47.
[24] ?SUBKOVIAK M J. Decision-consistency approaches [M] // BERK R A. Criterion referenced measurement. Baltimore: Johns Hopkins University Press, 1980: 129-185.
[25] 黎光明,張敏強(qiáng),張文怡.人事測(cè)評(píng)中的概化理論應(yīng)用[J].心理科學(xué)進(jìn)展,2013,21(1):166-174.
[26] 楊志明.標(biāo)準(zhǔn)參照測(cè)驗(yàn)及其等級(jí)線信度的概化理論分析[J].心理學(xué)探新,2003(3):52-56.
[27] 王曉華,文劍冰.多元概化理論在高等教育達(dá)標(biāo)性考試中的應(yīng)用[J].心理科學(xué),2010,33(5):1?223-1?226.
[28] 陸一萍.HSK高等考試信度的多元概化理論研究[J].中國(guó)考試,2011(5):20-23.
[29] 漆書青,周駿,張青華,等.用信息函數(shù)法對(duì)標(biāo)準(zhǔn)參照測(cè)驗(yàn)作質(zhì)量分析[J].心理與行為研究,2003,1(1):34-39.
[30] 漆書青,戴海崎.項(xiàng)目反應(yīng)理論及其應(yīng)用研究[M].南昌:江西高校出版社,1992:324-330.
[31] BRENNAN R L. Manual for BB-class: a computer program that uses the beta-binomial model for classification consistency and accuracy [J]. Casma Research Report, 2004 (9): 1–22.
[32] ?CRICK J E, BRENNAN R L. Manual for GENOVA: a generalized analysis of variance system [J]. Iowa City, IA: American Testing System, 1983: 1–102.
[33] ?WU M L, ADAMS R L, WILSON M R, et al. Manual for ACER conquest version 2.0, Australia [M]. ACER PRESS, 2007: 11–30.
[34] ?SLOCUM S L. Assessing unidimensionality of psychological scales: using individual and integrative criteria from factor analysis [J]. Social Indicators Research, 2005, 102 (3): 443–461.
[35] ?HAMBLETON R K, SWAMINATHAN H. Item response theory: principles and applications [M]. Boston: Klumer Nijhoff Publishing, 1985: 16–22.
[36] ?WRIGHT B D, LINACRE J M. Reasonable mean-square fit values [J]. Rasch Measurement Transactions, 1994 (8): 370.
[37] 陳平,李珍,辛濤,等.標(biāo)準(zhǔn)參照測(cè)驗(yàn)決策一致性指標(biāo)研究的總結(jié)與展望[J].心理發(fā)展與教育,2011,27(2):210-215.
[38] 杜佳萱,陳平,辛濤.基于IRT的決策一致性系數(shù)在大規(guī)模教育測(cè)量中的應(yīng)用[J].北京師范大學(xué)學(xué)報(bào)(自然科學(xué)版),2015(6):643-648.
[39] 徐遠(yuǎn)征.對(duì)普通高中學(xué)業(yè)水平考試命題技術(shù)的初步探討[J].課程·教材·教法,2013,33(2):104-108.
[40] 周彩鶯,沈啟正,季芳.普通高中學(xué)業(yè)水平考試命題研究(二)——難度控制技術(shù)探究[J].教育測(cè)量與評(píng)價(jià)(理論版),2013(10):35-38.
[41] BRENNAN R L. Raw-score conditional standard errors of measurement in generalizability theory [J]. Applied Psychological Measurement, 1998 (22): 307–331.
Reliability of Current Standard Setting Method of Fixed Score in Academic Level Examination for Secondary School
BU Wen-juan, WEN Hong-bo, LIU Xian-wei
(Collaborative Innovation Center of Assessment toward Basic Education Quality at Beijing Normal University, Beijing 100875, China)
The main purposes of this study were to examine the reliability of current standard setting method of Fixed Score in academic level examination for Secondary School. Using stratified random sampling design to select three counties from the East, Middle, and West of China respectively, 3?000 students of each county are chosen. The data from the Academic Level Examination for Secondary School was used. A comprehensive application of modern measurement theory to analyze the reliability indicators of standard setting, including Decision Consistency Index (Kappa) in Classical Testing Theory (CTT), Cut–score Dependability(λ)in Generalizability Theory (GT), and the amount of information index(θ)from Item Response Theory. The results showed that: (i) the Decision Consistency Index of current Entrance Examination for Secondary School approaching 0.7; (ii)(λ)of the cut-scores was greater than 0.7, mostly beyond 0.8; (iii)(θ)were less than 16 regardless of methods to Fix Score or Fix Ratio. All these results suggested that the quality of existing tests’ standards setting method of Fixed Score was barely satisfactory, and it should be improved for high-stakes examinations.
academic level examination; standard setting; fixed score method; reliability
2018–01–03
北京師范大學(xué)研究生院精品課程建設(shè)項(xiàng)目——研究生培養(yǎng)—方法課群教學(xué)團(tuán)隊(duì)建設(shè)—SPSS數(shù)(1601121A2)
卜文娟(1993—),女,陜西商洛人,碩士生,主要從事學(xué)業(yè)質(zhì)量測(cè)評(píng)研究.溫紅博為本文通訊作者.
G632
A
1004–9894(2018)03–0039–06
卜文娟,溫紅博,劉先偉.初中學(xué)業(yè)水平考試中固定分?jǐn)?shù)法標(biāo)準(zhǔn)設(shè)定的信度分析——以中考數(shù)學(xué)為例[J].?dāng)?shù)學(xué)教育學(xué)報(bào),2018,27(3):39-44.
[責(zé)任編校:周學(xué)智]
數(shù)學(xué)教育學(xué)報(bào)2018年3期