• 
    

    
    

      99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看 ?

      關(guān)于公務(wù)員申論閱卷若干問題的研究與探討

      2019-09-06 10:16:52李蔥蔥人力資源和社會保障部北京100011
      關(guān)鍵詞:主觀題試卷閾值

      文/李蔥蔥(人力資源和社會保障部,北京 100011)

      內(nèi)容提要:隨著國家公務(wù)員考試社會關(guān)注度和影響力與日俱增,公共科目筆試申論閱卷方法的科學(xué)性研究也越來越受到重視。從2004 年起,申論網(wǎng)絡(luò)閱卷技術(shù)在實(shí)踐中不斷發(fā)展、完善、廣泛使用。多年實(shí)踐證明,可以通過加強(qiáng)“標(biāo)準(zhǔn)卷”的檢測力度,提升閱卷員評閱的準(zhǔn)確性;探索調(diào)整雙評誤差閾值,嚴(yán)控“保守分”;充分發(fā)揮專家組長的正確引領(lǐng)和指導(dǎo)作用等方式,進(jìn)一步完善申論閱卷的質(zhì)量控制技術(shù),控制和減少評閱過程中的誤差概率。

      隨著國家公務(wù)員考試不斷發(fā)展,規(guī)模日漸擴(kuò)大,社會關(guān)注度和影響力與日俱增,對考試管理的科學(xué)化與規(guī)范化越來越成為考試工作者面臨且亟待解決的一項(xiàng)重要任務(wù)。進(jìn)入21 世紀(jì)后,隨著信息技術(shù)、網(wǎng)絡(luò)技術(shù)突飛猛進(jìn),發(fā)展迅猛,針對公共科目筆試申論閱卷方法的科學(xué)性研究也越來越受到重視。伴隨研究工作的不斷深入,網(wǎng)絡(luò)化閱卷技術(shù)方法開始引入申論閱卷。從2004 年開始,國考申論用網(wǎng)絡(luò)化閱卷代替了人工評閱,其后,網(wǎng)絡(luò)閱卷技術(shù)在實(shí)踐中不斷發(fā)展、完善,逐漸形成較為成熟的主觀題閱卷技術(shù)方法,并逐步在全國31 個省區(qū)市公務(wù)員考試申論閱卷中推廣使用。

      一、主觀題網(wǎng)絡(luò)評閱的理念與方法

      以申論為代表的主觀題網(wǎng)絡(luò)化閱卷的基本工作流程是:信息錄入設(shè)備(光電閱讀器、圖像掃描儀)讀取考生紙質(zhì)答題卡上的答題信息,并錄入計(jì)算機(jī)系統(tǒng),經(jīng)技術(shù)處理后,考生答題信息由掃描系統(tǒng)轉(zhuǎn)入評分系統(tǒng),評分系統(tǒng)隨機(jī)派發(fā)考生答卷給不同的閱卷員,閱卷員在電腦(評卷客戶端)前操作鍵盤進(jìn)行評閱。

      成績計(jì)算一般采取雙評出成績,即每份答卷都要被隨機(jī)分發(fā)給兩個不同的閱卷員分別評閱,即進(jìn)行1 評和2 評。若1 評和2 評的分?jǐn)?shù)差值在誤差允許范圍內(nèi),則取兩者平均數(shù)作為該答卷分?jǐn)?shù);若1 評和2 評分?jǐn)?shù)差值超過誤差允許值,則系統(tǒng)交由第三名閱卷員評閱,即進(jìn)入3 評。若3 評與1 評或2 評的分?jǐn)?shù)差值在誤差允許范圍,則取這兩個分?jǐn)?shù)值的平均數(shù)作為該答卷分?jǐn)?shù);若1 評、2 評和3評兩兩之間的分?jǐn)?shù)差值均超過誤差允許值,試卷進(jìn)入4 評,評分系統(tǒng)交由專家組長進(jìn)行終裁。需要強(qiáng)調(diào)的是,若1 評和2 評兩者分?jǐn)?shù)差距過大,為慎重起見,有些評分系統(tǒng)設(shè)計(jì)成跳過3 評環(huán)節(jié),直接將答卷轉(zhuǎn)入4 評,交由專家組長進(jìn)行終裁。從上述工作流程和成績計(jì)算方法可以看出,網(wǎng)絡(luò)化閱卷環(huán)境下,所有考生的成績(分?jǐn)?shù))至少要經(jīng)過2 名以上閱卷員的評閱才能確定,這種雙評乃至多評的評閱理念和方法,也就是多人次評閱的誤差控制方法,構(gòu)成申論網(wǎng)絡(luò)化閱卷質(zhì)量控制的核心技術(shù),也是迄今主觀題對評分誤差進(jìn)行控制相對有效的一種重要手段。

      針對某年度申論試卷的統(tǒng)計(jì)分析表明,在該年度申論試卷的各個題目上,只有1 評和2 評的試卷份數(shù)占到了試卷總數(shù)的90%以上,換句話說,雙評出成績的試卷占據(jù)了絕大多數(shù)。統(tǒng)計(jì)還表明,1 評分?jǐn)?shù)和2 評分?jǐn)?shù)的平均分、標(biāo)準(zhǔn)差和差異系數(shù)三項(xiàng)統(tǒng)計(jì)指標(biāo)均高度一致,可見1 評分?jǐn)?shù)和2 評分?jǐn)?shù)具有相似的集中趨勢和離散程度。針對各個題目間差異系數(shù)和離散程度的統(tǒng)計(jì)比較,也都從不同的側(cè)面表明加入3 評環(huán)節(jié)降低了分?jǐn)?shù)的偏差、提高了分?jǐn)?shù)的可靠性??傊?,統(tǒng)計(jì)結(jié)果證明,由于采用了多人次評閱以矯正誤差的方法,申論網(wǎng)絡(luò)化閱卷的整體趨勢表現(xiàn)為寬嚴(yán)適當(dāng),評分者之間以及評分者內(nèi)部的一致性較高,只有少數(shù)試卷的評判可能存在過寬或過嚴(yán)的情況,該年度申論網(wǎng)上閱卷質(zhì)量總體上是令人滿意的。

      實(shí)踐證明,通過多人次評閱以矯正誤差,是主觀題閱卷質(zhì)量控制非常有效的一種方法,特別是對于類似申論這種大規(guī)模主觀題閱卷,更是迄今解決主觀題評分誤差相對有效的一種技術(shù)手段。由于該方法只有通過網(wǎng)絡(luò)化閱卷才能做到評閱全覆蓋,從控制和減少評分誤差、提高主觀題評閱科學(xué)性這個角度,這一評閱理念及其方法無疑具有重大的現(xiàn)實(shí)意義。此外,在登分環(huán)節(jié),評分系統(tǒng)自動登錄并合成申論各題的分?jǐn)?shù)及試卷總分,由于評分系統(tǒng)自動實(shí)現(xiàn)登分與核分,徹底解決了人工操作誤差率高、工作量大等弊端,極大的提高了主觀題閱卷的工作效率。

      需要指出,以申論為代表的主觀題網(wǎng)絡(luò)化閱卷是一個系統(tǒng)工程,不僅僅是雙評乃至多評的誤差控制技術(shù),整個閱卷流程與工作環(huán)節(jié)都貫穿著控制評分誤差、確保評閱質(zhì)量的核心思想,這一核心思想在閱卷工作中的具體表現(xiàn),就是閱卷流程實(shí)施嚴(yán)格的質(zhì)量控制以及采取一系列公平性的措施,有效確保了申論閱卷的公平和公正。

      二、當(dāng)前網(wǎng)絡(luò)評閱面臨的主要問題及其原因初探

      心理測量學(xué)理論認(rèn)為,考試評價的基本目標(biāo)是要測量考生在某一方面的知識或能力,而要做出盡可能準(zhǔn)確的評價,必須對測量誤差進(jìn)行有效的控制。一般根據(jù)誤差來源的不同,區(qū)分測量誤差為隨機(jī)誤差和系統(tǒng)誤差兩種類型。隨機(jī)誤差是與測量目的無關(guān)的偶然因素引起的變化無規(guī)律的誤差,它使得多次的測量結(jié)果不一致,測量的準(zhǔn)確性、一致性較差;系統(tǒng)誤差則是與測量目的無關(guān)的因素引起的恒定的有規(guī)律的誤差,由于它穩(wěn)定的存在于每一次測量中,具有重復(fù)性和規(guī)律性,常常導(dǎo)致測量的準(zhǔn)確性較差。

      通常來說,客觀題考試因答案唯一且采用機(jī)器閱卷,一般誤差小,測量信度較高;主觀題考試由于答案不唯一,加之評分者根據(jù)主觀性較強(qiáng)的評分標(biāo)準(zhǔn)賦分,因此誤差相對較大,測量精度較低,特別是因考試測量工具本身或者測驗(yàn)實(shí)施過程中某些規(guī)律性錯誤所造成的系統(tǒng)誤差,往往會對考試測量結(jié)果造成一定的影響。因此,針對形成系統(tǒng)誤差的根源或癥結(jié),區(qū)分不同的情況,可以采取有針對性的措施,努力控制、減少甚至消除考試測量的系統(tǒng)誤差。

      (一)主觀題網(wǎng)絡(luò)評閱中的評分誤差概率

      針對申論評分誤差的控制,當(dāng)前的網(wǎng)絡(luò)評分系統(tǒng)已經(jīng)比較有效的控制了來自不同方面的隨機(jī)誤差和系統(tǒng)誤差,但是在閱卷質(zhì)量控制技術(shù)方面,也還存在一些需要改進(jìn)和完善之處。比如作為網(wǎng)評系統(tǒng)核心技術(shù)手段之一的雙評模式,根據(jù)統(tǒng)計(jì),通過1、2 評決定成績的試卷份數(shù)占到了試卷總量的90%以上,也就是說,絕大多數(shù)考生的成績是由雙評所決定的。然而雙評的具體給分情況如何?雙評所給出的分?jǐn)?shù)是否都是準(zhǔn)確無誤?

      一項(xiàng)針對申論評分誤差概率的研究顯示,申論閱卷的雙評模式也存在少量的誤差概率。所謂誤差概率,該項(xiàng)研究給出如下解釋:“假定某考生的真實(shí)能力以分?jǐn)?shù)表示為X,兩名評分員給該考生的分?jǐn)?shù)分別是X1和X2?!绻鸛1和X2差值的絕對值在規(guī)定的范圍之內(nèi),那么計(jì)算機(jī)閱卷系統(tǒng)認(rèn)為該分?jǐn)?shù)是可以接受的。但是實(shí)際上,兩名評分員給考生的分?jǐn)?shù)有可能同時偏高或偏低。此時,雖然考生是以兩名評分員給出分?jǐn)?shù)的平均數(shù)作為最終得分,但是這個最終得分卻距離其真實(shí)能力X 比較遠(yuǎn),這樣就可能造成評分的誤差。我們將這種誤差的可能性定義為誤差概率?!备鶕?jù)上述解釋,筆者認(rèn)為誤差概率的基本含義,就是指評分員兩兩給分同時偏高或偏低的試卷占試卷總量的比例,也就是試卷總量中雙評誤差(以下簡稱“雙誤”)試卷所占的比例。

      該項(xiàng)研究的基本思路是從模擬真分?jǐn)?shù)推導(dǎo)主觀題網(wǎng)絡(luò)評分的誤差概率。其主要方法是隨機(jī)抽取90 名閱卷員,對50 名考生答卷給出分?jǐn)?shù)。首先,把90 名評分員對某位考生某題的90 個分?jǐn)?shù)的平均值作為該考生在該題目上的真實(shí)能力(即真分?jǐn)?shù)X)。其次,將該考生該題得到的90 個分?jǐn)?shù)兩兩組合,90 個分?jǐn)?shù)任意兩兩組合的對數(shù)為4005 對,計(jì)算多少對分?jǐn)?shù)組合超出了規(guī)定的分?jǐn)?shù)閾值,對剩下的在規(guī)定的分?jǐn)?shù)閾值范圍內(nèi)的分?jǐn)?shù)組合,計(jì)算其分?jǐn)?shù)均值并與前述考生的真分?jǐn)?shù)X進(jìn)行對比。將平均值上下一個標(biāo)準(zhǔn)差之內(nèi)的分?jǐn)?shù)作為可以接受的、在誤差范圍之內(nèi)的分?jǐn)?shù),將平均值上下一個標(biāo)準(zhǔn)差之外的分?jǐn)?shù)作為不可接受的、有評分誤差的分?jǐn)?shù),將落在真分?jǐn)?shù)前后一個標(biāo)準(zhǔn)差之外的分?jǐn)?shù)占全部分?jǐn)?shù)的比例作為不可接受的誤差概率,從而得到某位考生在某題上的誤差概率。將該題多名考生誤差概率進(jìn)行匯總并計(jì)算平均值,就得到了某個題目評分的平均誤差概率。

      通過對申論各題評分誤差概率的計(jì)算,該項(xiàng)研究得出以下結(jié)論:在目前申論的閱卷人數(shù)、時間和質(zhì)量監(jiān)控條件下,絕大多數(shù)考生的得分在考試設(shè)計(jì)的可接受的誤差范圍內(nèi),只有少數(shù)考生的最終得分在自己的真實(shí)能力一個標(biāo)準(zhǔn)差的范圍之外,這個標(biāo)準(zhǔn)差是3.6~5.9 分之間。

      從理論和實(shí)踐兩方面來看,各類考試主觀題的評分誤差都很難完全避免。題目過難或過易、評分標(biāo)準(zhǔn)的培訓(xùn)不到位、評分流程和評分監(jiān)控的管理過程存在疏漏等都有可能產(chǎn)生評分誤差。因此,梳理其中可能存在的某些因素或現(xiàn)象,有助于我們采取有針對性的解決辦法和措施。

      表1 實(shí)驗(yàn)中使用的申論評分?jǐn)?shù)據(jù)

      (二)對評分誤差概率產(chǎn)生原因的簡要分析

      以筆者的研究與觀察,除了個別閱卷員對標(biāo)答的理解與執(zhí)行出現(xiàn)偏差外,評分過程中部分閱卷員打“保守分”是形成并加劇“雙誤”的一個重要原因。所謂打“保守分”,主要是指一些閱卷員打分集中在某一固定的分?jǐn)?shù)區(qū)間。比如某題滿分10 分,誤差閾值2 分,平均分為3 分,如果較多的1 評、2 評給分都集中在3-4 分,由于不超過誤差閾值,雙評成績有效,取1 評、2 評兩者平均數(shù)作為考生成績,分?jǐn)?shù)分布就會在3 分或4 分附近集中,形成分?jǐn)?shù)在較低分?jǐn)?shù)區(qū)間的聚集(統(tǒng)計(jì)學(xué)意義上分?jǐn)?shù)分布的正偏態(tài))。對于這部分閱卷員的打分行為,我們通常稱之為打“保守分”,因?yàn)槠渲酗@然有一些給分并沒有反映出考生在該題上的真實(shí)水平,兩名評分員給出的分?jǐn)?shù)很可能同時偏低,造成“雙誤”,類似情況在中考、高考等知識型考試主觀題評閱(如作文)中也有不同程度的體現(xiàn)。

      從測驗(yàn)分?jǐn)?shù)的解釋和應(yīng)用角度來看,與人的多數(shù)心理特性呈正態(tài)分布相一致,考試分?jǐn)?shù)的正態(tài)分布即兩頭小、中間大,高分與低分段較少、中等分?jǐn)?shù)段居多,原本是一種正常的、合理的分?jǐn)?shù)分布的規(guī)律和特點(diǎn)。但是,閱卷過程中由于一些閱卷員打“保守分”,分?jǐn)?shù)在某一特定的區(qū)間不斷聚集,致使整體的分?jǐn)?shù)分布由原本較為平緩的正態(tài)分布發(fā)生偏移,逐漸形成在某一特定分?jǐn)?shù)上的集中趨勢,而且隨著閱卷過程的持續(xù),打“保守分”的現(xiàn)象逐漸增加,在某一特定分?jǐn)?shù)上的分?jǐn)?shù)聚集越來越多,分?jǐn)?shù)分布的集中度不斷增加,進(jìn)而造成較為嚴(yán)重的分?jǐn)?shù)分布的趨中化。

      申論分?jǐn)?shù)分布的趨中特點(diǎn)可以從試題試卷統(tǒng)計(jì)分析中得到驗(yàn)證。針對閱卷員的打分傾向,某年申論閱卷統(tǒng)計(jì)分析報(bào)告給出了粗略的估計(jì):每個人獨(dú)立打高分的比例很低,約在0.5%左右,依此粗略估計(jì),如果認(rèn)為兩個人打分是完全獨(dú)立的,則被兩個人同時打高分的比例僅為0.03%左右。雖然雙評同時給高分的比例極低,但是一評給高分、另一評給低分的比例還是會比0.03%這個比例要高一些,這樣,試卷便進(jìn)入到3 評乃至4 評。對于進(jìn)入到3 評、4 評的試卷的給分總體趨勢和傾向,該報(bào)告通過進(jìn)一步分析發(fā)現(xiàn):除在第1題上“寬寬試卷”(3 評和4 評評分者給分比前兩評中的高分還高,即采取相對寬容的評分策略)和“嚴(yán)嚴(yán)試卷”(3 評和4 評評分者給分比前兩評中的低分還低,即采取相對嚴(yán)格的評分策略)基本持平外,在其他6 個題目上,“嚴(yán)嚴(yán)試卷”在3 評4 評試卷中所占的比例都明顯高于“寬寬試卷”。這說明第三個人或者組長在大多數(shù)情況下傾向于采用比較嚴(yán)格的評分策略(詳見表2 和表3)。

      表2 搖寬嚴(yán)試卷匯總表(一)

      統(tǒng)計(jì)結(jié)果顯示,3 評和4 評給分一般會受到較低分?jǐn)?shù)的影響,因此考生成績最終還是會落在較低的分?jǐn)?shù)上,整體的分?jǐn)?shù)最終還是會被拉低、并集中在某一分值較低的狹窄區(qū)間(如平均分附近),也就是說,申論各題均不同程度的呈現(xiàn)出分?jǐn)?shù)分布的集中趨勢和低分特征。從實(shí)際評閱過程來看,一些閱卷員打“保守分”無疑在很大程度上形成并加劇了分?jǐn)?shù)分布的集中趨勢,它最直接的后果表現(xiàn)為降低了申論考試的區(qū)分度,影響了申論對考生基本能力的區(qū)分程度和鑒別效果。

      從技術(shù)角度分析,雙評誤差閾值的設(shè)定以及閱卷質(zhì)量監(jiān)控強(qiáng)調(diào)閱卷員間評分的一致性,某種程度上也加劇了閱卷員為規(guī)避雙評誤差而選擇打“保守分”的傾向。由于閱卷員把通過系統(tǒng)的一致性檢驗(yàn)作為首選,為達(dá)此目的,某些閱卷員選擇打“保守分”,趨向同寬同嚴(yán),目的都是規(guī)避雙評誤差風(fēng)險(xiǎn)以通過一致性檢驗(yàn),而且這種非正常的評分現(xiàn)象,有時會掩蓋在評分一致性的表象之下。

      比如某些閱卷員的評分被采用數(shù)多,采用率高,這種情況一方面有可能反映其評分的可信度較高,但另一方面,如果該閱卷員在打“保守分”,并與別的也打“保守分”的閱卷員給分形成匹配,假設(shè)分?jǐn)?shù)匹配多集中在誤差閾值內(nèi),評分系統(tǒng)就會顯示出該閱卷員的高采用率。換句話說,系統(tǒng)顯示某些閱卷員有效試卷的高采用率,其背后很可能隱含著某種危險(xiǎn),實(shí)際存在的評分誤差有可能獲得一種“合法性”的掩蓋,一旦出現(xiàn)這種情況,對主觀題評分誤差的監(jiān)控就會出現(xiàn)盲區(qū)和死角。

      再比如三評率作為衡量評分者一致性的重要指標(biāo),也需要一分為二,客觀看待。所謂三評率,通常指超出誤差閾值進(jìn)入三評的試卷占全部在閱試卷的比率。從一般的意義上說,三評率較低,說明超出誤差閾值進(jìn)入三評的試卷量較少,閱卷員整體標(biāo)準(zhǔn)把握的一致性較好,分?jǐn)?shù)的可信度較高,但這只是問題的一個方面;另一方面,較低的三評率很有可能掩蓋了分?jǐn)?shù)分布的趨中化,即分?jǐn)?shù)的分布在某一區(qū)間高度集中,呈嚴(yán)重的正偏態(tài)或負(fù)偏態(tài),這種情況提示很可能存在打“保守分”的現(xiàn)象。

      具體來說,如果評分?jǐn)?shù)都集中在某一區(qū)間(如平均分附近),且都在誤差閾值范圍內(nèi),試卷不可能進(jìn)入三評,此時表面上看誤差卷很少,三評率很低,但在全距嚴(yán)重縮小、分?jǐn)?shù)分布高度集中的情況下,實(shí)際上存在著閱卷員打“保守分”的現(xiàn)象,由于這種現(xiàn)象通過三評率指標(biāo)較難發(fā)現(xiàn),從三評率角度監(jiān)控評閱質(zhì)量出現(xiàn)盲區(qū),因此,切不可僅以三評率指標(biāo)的高低來輕易判斷、評估閱卷員的閱卷質(zhì)量狀況。

      表3 搖寬嚴(yán)試卷匯總表(二)

      三、完善申論閱卷質(zhì)量控制技術(shù)的可行性分析

      針對申論閱卷雙評模式存在的誤差概率,可以嘗試從技術(shù)和管理等不同角度探討改進(jìn)和完善的策略方法。筆者多年參與申論閱卷的管理工作,認(rèn)為主要應(yīng)從以下三個方面采取有針對性的解決辦法,進(jìn)一步完善申論閱卷的質(zhì)量控制技術(shù),力爭控制和減少評閱過程中的雙評誤差概率。

      (一)加強(qiáng)“標(biāo)準(zhǔn)卷”的檢測力度,提升閱卷員評閱的準(zhǔn)確性

      如何更加精準(zhǔn)地評估、檢驗(yàn)閱卷員標(biāo)答執(zhí)行的準(zhǔn)確性,有效糾正和控制閱卷員打“保守分”,這是解決雙評誤差概率的癥結(jié)所在。筆者認(rèn)為,根據(jù)網(wǎng)絡(luò)閱卷的工作流程,對準(zhǔn)確性的檢驗(yàn)比較可行且有效的監(jiān)控手段,就是加大“標(biāo)準(zhǔn)卷”的檢測力度。

      所謂“標(biāo)準(zhǔn)卷”(又叫“標(biāo)桿卷”),通常指專家組長(核心專家)在標(biāo)答制訂和正評階段從考生答卷中抽取的、具有一致的評價并共同確認(rèn)分?jǐn)?shù)的試卷??紤]到檢測的目的和效果,“標(biāo)準(zhǔn)卷”一般要求盡可能覆蓋到好中差各個不同的分?jǐn)?shù)段,并且要包含一些具有代表性的、可能引發(fā)爭議的答卷,這些“標(biāo)準(zhǔn)卷”直接導(dǎo)入評分系統(tǒng),在評閱過程中按一定比例隨機(jī)發(fā)放給閱卷員進(jìn)行評閱。

      評閱過程中發(fā)放“標(biāo)準(zhǔn)卷”的主要目的,是在設(shè)定“標(biāo)準(zhǔn)卷”分?jǐn)?shù)為整體參照標(biāo)準(zhǔn)、即設(shè)定其分?jǐn)?shù)正確可信的前提下,檢驗(yàn)閱卷員給分與“標(biāo)準(zhǔn)卷”分?jǐn)?shù)的差異情況,通過觀察其分?jǐn)?shù)差異,了解、評價閱卷員個體評分的準(zhǔn)確性,這一方法構(gòu)成申論閱卷一項(xiàng)重要的質(zhì)量控制技術(shù)手段。

      表4 搖第1-4題各個類型標(biāo)準(zhǔn)卷上的均值情況一覽表

      標(biāo)準(zhǔn)卷檢測在閱卷質(zhì)量管理中的重要作用,可以從試卷統(tǒng)計(jì)分析中得到確認(rèn)。表4 為某年申論試卷各題各個類型標(biāo)準(zhǔn)卷上的均值情況一覽表。根據(jù)統(tǒng)計(jì)結(jié)果,第1、2、3 題評分者打分與標(biāo)準(zhǔn)卷分?jǐn)?shù)的分差并不大,兩者差值的平均值基本在誤差允許范圍內(nèi)。第4 題考慮到是寫作題,滿分為40 分,1 評2 評之間的誤差閾值設(shè)定為7 分或8 分,評分者與標(biāo)準(zhǔn)卷兩者分?jǐn)?shù)差值的均值最大為7.71(不到8 分),基本等同于雙評誤差閾值,說明評分者打分與標(biāo)準(zhǔn)卷的分差仍在可控范圍之內(nèi),這就從標(biāo)準(zhǔn)卷檢測角度證明,正評階段閱卷員整體對標(biāo)準(zhǔn)的把握還是相對比較準(zhǔn)確和穩(wěn)定。

      由此可見,“標(biāo)準(zhǔn)卷”作為一個標(biāo)桿,一個參照物,可以很好地檢驗(yàn)閱卷員個體評分的準(zhǔn)確性。針對評分系統(tǒng)發(fā)現(xiàn)的打分與標(biāo)準(zhǔn)卷分差較大的閱卷員,專家組長會重點(diǎn)予以關(guān)注,采取相應(yīng)方法和措施進(jìn)行指導(dǎo),及時糾正其可能存在的評分偏差。從這個角度來看,增加“標(biāo)準(zhǔn)卷”的發(fā)放數(shù)量、發(fā)放頻率、發(fā)放時間等,及時加強(qiáng)對相關(guān)數(shù)據(jù)的研究分析,可以非常直觀、準(zhǔn)確地了解閱卷員標(biāo)準(zhǔn)把握的準(zhǔn)確性程度。更為重要的是,通過“標(biāo)準(zhǔn)卷”檢測,可以非常及時地發(fā)現(xiàn)閱卷員評閱過程中一些帶有系統(tǒng)性、傾向性的問題,諸如對答題要點(diǎn)的錯誤理解、對評分標(biāo)準(zhǔn)和賦分細(xì)則的不當(dāng)把握等,發(fā)現(xiàn)這些帶有規(guī)律性的問題,采取各種技術(shù)手段(重評、限速等)和管理方法(復(fù)核試卷、單獨(dú)指導(dǎo)等),及時進(jìn)行干預(yù),可以有效控制閱卷員打“保守分”,減少評閱過程中的雙評誤差比例。總之,樹立問題導(dǎo)向,加強(qiáng)“標(biāo)準(zhǔn)卷”的檢測,發(fā)揮其重要的監(jiān)控指導(dǎo)作用,在現(xiàn)有的網(wǎng)絡(luò)技術(shù)條件下,不失為控制和減少雙評誤差概率的一種有效的質(zhì)量控制技術(shù)手段。

      (二)探索調(diào)整雙評誤差閾值,控制閱卷員打“保守分”,減輕申論分?jǐn)?shù)分布的趨中特點(diǎn)

      依筆者多年實(shí)際評閱工作的經(jīng)驗(yàn)和體會,嘗試從技術(shù)角度采取措施,控制和減少閱卷員打“保守分,減輕申論分?jǐn)?shù)分布的趨中特點(diǎn),這是減少雙評誤差概率的另一項(xiàng)重要的質(zhì)量控制技術(shù)手段。

      當(dāng)分?jǐn)?shù)全距縮小后,是否仍采用現(xiàn)行的雙評誤差閾值,有必要進(jìn)行深入的量化分析與研究。現(xiàn)行的主觀題雙評誤差閾值設(shè)定一般掌握在題目分值的五分之一(寫作題略寬),這一標(biāo)準(zhǔn)設(shè)定源自于高考主觀題評分,其理論依據(jù)建立在對主觀題評分誤差的統(tǒng)計(jì)測算結(jié)果,即主觀題評分誤差的均值大約是題目分?jǐn)?shù)的五分之一,這一均值大體上構(gòu)成主觀題評分誤差的臨界點(diǎn),超出這個臨界點(diǎn),主觀題的評分誤差變得不可控,分?jǐn)?shù)的可靠性會受到影響。根據(jù)上述測算結(jié)果,各類考試(教育考試、人事考試等)主觀題評分的誤差閾值一般設(shè)定在題目分?jǐn)?shù)的五分之一,比如20 分的題目,五分之一的雙評誤差閾值就是4 分,雙評誤差超過4 分,試卷需要進(jìn)入三評或交由專家組長復(fù)核。

      筆者認(rèn)為,通過計(jì)算題目全距縮小的程度以及具體的分?jǐn)?shù)分布狀況(方差、標(biāo)準(zhǔn)差、峰度等),可以適當(dāng)調(diào)整雙評誤差閾值大小。假設(shè)20 分的試題,雙評誤差閾值由目前的五分之一擴(kuò)大為四分之一,也就是由4 分?jǐn)U大到5 分,理論上存在這樣一種可能性:由于誤差控制標(biāo)準(zhǔn)相對寬松,兩兩分?jǐn)?shù)的匹配空間會適當(dāng)增加,當(dāng)分?jǐn)?shù)全距拉開后,標(biāo)準(zhǔn)差也會相應(yīng)增加,分?jǐn)?shù)分布將趨向平緩,各個分?jǐn)?shù)段的得分有可能變得均衡(當(dāng)然這與題目的分值大小會有一定關(guān)系)。更重要的是,誤差閾值相對寬松后,閱卷員為規(guī)避雙評誤差而采取打“保守分”策略,以增加評分匹配性或采用率的欲望有可能降低或減弱,評分趨中現(xiàn)象有望得到緩解、改善,分?jǐn)?shù)的分布將會趨向合理,題目對考生的區(qū)分鑒別能力將會得到加強(qiáng),從這個意義上說,限制閱卷員打“保守分”,減輕評分趨中現(xiàn)象,有助于控制和減少評閱過程中的雙評誤差概率。

      需要指出的是,雙評誤差閾值擴(kuò)大,分?jǐn)?shù)分布的具體結(jié)果究竟如何,尚需接受一定范圍的實(shí)踐檢驗(yàn),并根據(jù)考生樣本容量和題目評閱的相關(guān)數(shù)據(jù)進(jìn)行測算,絕不是一個簡單拍腦袋就可以回答的問題。但是,探討從技術(shù)角度改進(jìn)評閱方法,控制閱卷員打“保守分”,從根本上解決評閱過程中的雙評誤差現(xiàn)象,這是申論閱卷乃至所有主觀題評閱都需要關(guān)注的重點(diǎn)和難點(diǎn),這方面尚需考試工作者深入進(jìn)行理論研究與實(shí)踐探索,以期進(jìn)一步提高主觀題評閱的科學(xué)性。

      (三)充分發(fā)揮閱卷專家組長的正確引領(lǐng)和指導(dǎo)作用

      實(shí)際評閱過程中除了少數(shù)閱卷員打“保守分”外,個別閱卷員對標(biāo)答的理解與執(zhí)行出現(xiàn)偏差,也是形成并加劇評分誤差的一個重要原因。以筆者的觀察和判斷,出現(xiàn)上述偏差主要在于某些外源性因素的影響。從整體工作流程來看,由于申論標(biāo)答制訂階段嚴(yán)格的質(zhì)量控制程序和質(zhì)量控制標(biāo)準(zhǔn),基于標(biāo)答自身因素所引起的誤差并不顯著,某些外源性因素的影響可能更加重要。

      引起誤差的外源性因素,主要是指閱卷員培訓(xùn)、試評以及正評階段造成誤差的各種疏漏和失誤。比如培訓(xùn)過程中,針對少數(shù)閱卷員提出的不同意見,專家組長(核心專家)未能進(jìn)行有說服力的回應(yīng)、說明和解釋,致使其針對標(biāo)答內(nèi)容的錯誤理解或不同觀點(diǎn)不但未能化解,反而進(jìn)一步得到默認(rèn)和強(qiáng)化;培訓(xùn)、試評和正評過程中,由于不同專家組長之間意見觀點(diǎn)不統(tǒng)一、同一專家組長對標(biāo)答的解釋前后不一致、專家組長對標(biāo)答的解釋說明含混不清等多方面因素,造成閱卷員對標(biāo)答的理解不一致,從而產(chǎn)生執(zhí)行上的偏差;此外,面對人數(shù)眾多的閱卷員群體,專家組長的質(zhì)量管理很難做到全覆蓋無死角,這就造成少數(shù)閱卷員評分過程中的失誤有可能被忽略或遺漏,當(dāng)上述個別的、偶發(fā)的誤差因素經(jīng)疊加、累積,形成擴(kuò)散,就有可能在閱卷員間形成對標(biāo)答一定范圍的誤解和誤用。鑒于此,加強(qiáng)對專家組長的遴選和使用,強(qiáng)化專家組長對閱卷員的正確引領(lǐng)和指導(dǎo)顯得至關(guān)重要。

      申論閱卷過程中一個非常重要的質(zhì)量控制手段,就是專家組長借助網(wǎng)絡(luò)評分系統(tǒng)適時、動態(tài)地進(jìn)行評閱質(zhì)量監(jiān)控,以確保閱卷員整體的評閱工作質(zhì)量和效率。需要指出的是,評分系統(tǒng)的使用在質(zhì)量控制方面呈現(xiàn)更加及時性、動態(tài)性和多樣性,然而該系統(tǒng)只是一個平臺,它只是提示了閱卷員存在評閱誤差的各種可能性,具體到對監(jiān)控指標(biāo)的分析理解以及對監(jiān)控結(jié)果的實(shí)際運(yùn)用,還是需要結(jié)合人工進(jìn)行判斷取舍。因此專家組長及時跟蹤、分析評分系統(tǒng)的監(jiān)控?cái)?shù)據(jù),對閱卷員個體進(jìn)行有針對性地指導(dǎo)與幫助,成為申論閱卷正評階段質(zhì)量控制的一項(xiàng)重要內(nèi)容。

      在這個過程中,專家組長既要樹立全面、審慎的觀點(diǎn)。注意綜合多個指標(biāo),從多個角度,全面、客觀評估閱卷員的工作質(zhì)量,切忌以偏概全,僅憑系統(tǒng)中某一項(xiàng)統(tǒng)計(jì)指標(biāo)或某一個統(tǒng)計(jì)數(shù)據(jù)輕易做出判斷和結(jié)論。同時還必須重視進(jìn)行試卷復(fù)核。通過及時跟蹤分析系統(tǒng)監(jiān)控指標(biāo)和統(tǒng)計(jì)數(shù)據(jù),發(fā)現(xiàn)、鎖定問題閱卷員,運(yùn)用試卷復(fù)核方法,對異常情況進(jìn)行確認(rèn),找出具體原因,進(jìn)行有針對性的指導(dǎo)和幫助。試卷復(fù)核可以抽查閱卷員某一分?jǐn)?shù)段、某一時間段直至全部所閱試卷,它是專家組長發(fā)現(xiàn)問題的最有效手段,也是閱卷質(zhì)量管理最重要、最常用的一種方法。需要強(qiáng)調(diào)的是,針對某一批次的異常分?jǐn)?shù)試卷,或評分存在問題的某一批次試卷,評分系統(tǒng)一般都設(shè)有試卷回收功能,可以做到必要時回收并取消該批次直至全部所閱試卷的分?jǐn)?shù),試卷重新進(jìn)入評分系統(tǒng)進(jìn)行重評。評分系統(tǒng)這一糾錯功能的設(shè)計(jì),為確保申論閱卷質(zhì)量提供了有力的技術(shù)保障。

      針對進(jìn)一步強(qiáng)化專家組長在閱卷質(zhì)量管理中的引領(lǐng)指導(dǎo)作用,需要重點(diǎn)關(guān)注并解決以下問題:首先,要重視專家組長的遴選。務(wù)必確保承擔(dān)閱卷質(zhì)量管理重任的專家組長具有較高的業(yè)務(wù)能力和勇于擔(dān)當(dāng)?shù)呢?zé)任意識,對于某些能力欠缺、責(zé)任心不強(qiáng)的專家組長要堅(jiān)決淘汰。管理部門要通過建立必要的專家競爭機(jī)制,形成良性循環(huán),努力打造一支高水平的閱卷核心專家隊(duì)伍;其次,要根據(jù)專家組長各自不同的特點(diǎn)和能力,優(yōu)化各題組人員搭配組合。配置各題組人選要統(tǒng)籌兼顧,充分考慮不同專家在年齡、性格、能力、經(jīng)驗(yàn)等方面的相互匹配與互補(bǔ),使之盡可能團(tuán)結(jié)協(xié)作,互相補(bǔ)臺,形成合力;第三,要充分重視專家組長與閱卷員間必要的溝通與交流。針對閱卷員提出的有關(guān)標(biāo)答內(nèi)容和評分標(biāo)準(zhǔn)的質(zhì)疑,專家組長必須及時回應(yīng)解釋,通過充分的、有理有據(jù)的分析說明(必要時可結(jié)合具體試卷的點(diǎn)評),務(wù)必說服閱卷員改變錯誤認(rèn)識或不當(dāng)觀點(diǎn),盡可能統(tǒng)一評分標(biāo)準(zhǔn)尺度。專家組長切忌對閱卷員的質(zhì)疑或不同意見視若無睹,不予回應(yīng),從而加劇其對抗情緒和逆反心理,影響評分執(zhí)行的準(zhǔn)確性和穩(wěn)定性。

      總之,充分發(fā)揮核心專家的正確指導(dǎo)和引領(lǐng)作用,主要目的是力求糾正閱卷員對標(biāo)答的錯誤認(rèn)識和理解,盡可能減少和控制主觀題評閱過程中的雙評誤差試卷。

      猜你喜歡
      主觀題試卷閾值
      淺談“立體幾何主觀題”的復(fù)習(xí)備考
      淺談高中政治“認(rèn)識類”主觀題答題技巧
      井岡教育(2022年2期)2022-10-14 03:11:28
      極坐標(biāo)方程主觀題考點(diǎn)分析
      高考政治主觀題對學(xué)生思維能力的考查
      甘肅教育(2021年10期)2021-11-02 06:14:28
      小波閾值去噪在深小孔鉆削聲發(fā)射信號處理中的應(yīng)用
      基于自適應(yīng)閾值和連通域的隧道裂縫提取
      比值遙感蝕變信息提取及閾值確定(插圖)
      河北遙感(2017年2期)2017-08-07 14:49:00
      Module5 A Trip Along the Three Gorges
      Module5 Great People and Great Inventions of Ancient China
      Module 4 Sandstorms in Asia
      崇明县| 建湖县| 宁城县| 秦皇岛市| 舞钢市| 昌邑市| 曲麻莱县| 和静县| 阿尔山市| 白城市| 苗栗市| 仁怀市| 新安县| 滦南县| 仁化县| 尼木县| 长乐市| 香港 | 龙陵县| 弋阳县| 搜索| 定日县| 大悟县| 白玉县| 柳林县| 茶陵县| 广灵县| 游戏| 乌恰县| 分宜县| 南汇区| 卢氏县| 皋兰县| 惠来县| 华坪县| 玛沁县| 饶平县| 横峰县| 徐汇区| 五常市| 华宁县|