李淑姣 羅田野
目標定位與指標選擇:普通高中英語學業(yè)水平考試評價的理論思考
李淑姣 羅田野
普通高中學業(yè)水平考試之考試評價,即考試評價主體依據(jù)一定的標準和目標,選用科學合理的評價指標,運用多樣化的評價方法,對學業(yè)水平考試的過程和效果作出的價值判斷和反思。以普通高中英語學業(yè)水平考試為例,考試評價目標應堅持考試質量評價、教學診斷、探索個性化評價模式以及滿足差異化評價需求的多元統(tǒng)一;考試評價指標在“四度分析”的基礎上還應將課程標準、考試說明納入其內以進行效度分析。
高中英語學業(yè)水平考試;考試評價;目標定位;指標選擇
普通高中學業(yè)水平考試是新課改背景下普通高中學生學業(yè)考核的一個重要手段,也是多元化高校招生制度的重要機制。自上世紀80年代末我國建立高中畢業(yè)會考制度以來,高中學業(yè)水平考試逐步成為社會整個生態(tài)系統(tǒng)中的重要“節(jié)點”。黨的十八屆三中全會明確提出要逐步推行普通高校基于統(tǒng)一高考和高中學業(yè)水平考試成績的綜合評價多元錄取機制。《國務院關于深化考試招生制度改革的實施意見》中也提出進一步完善高中學業(yè)水平考試。普通高中學業(yè)水平考試,已然劃入全面深化改革的總體戰(zhàn)略規(guī)劃之中,而且其科學規(guī)劃與全面推行也就成為當前教育領域綜合改革的重點課題之一。〔1〕
考試是一個有機的活動系統(tǒng),它由考試認識、考試實踐、考試評價三種基本活動組成。這三種活動間的相互依存、相互作用和相互轉化,既構成了考試活動的全部內容和運動形態(tài),同時也形成了考試活動區(qū)別于其他社會活動的本質和運動規(guī)律?!?〕考試評價,一是指考試是評價方法族群中的一種具體方法,即作為評價方法的考試;二是指對特定考試之合其對應的特定價值主體需要和合有關考試規(guī)律(測量規(guī)律)的程度進行判斷的活動?!?〕普通高中學業(yè)水平考試之考試評價,即考試評價主體依據(jù)一定的標準和目標,選用科學合理的評價指標,運用多樣化的評價方法,對學業(yè)水平考試的過程和效果作出的價值判斷和反思,其基本內容包括考試質量評價和價值判斷兩個方面。
現(xiàn)在,考試評價日益成為考試研究的焦點。以普通高中學業(yè)水平考試為例,從教育公平的視角出發(fā),通過教育機會、教育過程和教育結果三個方面對高中學業(yè)水平考試進行分析,可以發(fā)現(xiàn)該考試的確存在公平問題,這些問題體現(xiàn)在考試命題、成績評定和結果應用三種外在形態(tài)?!?〕國內對普通高中學業(yè)水平考試的考試評價主要側重于考試質量評價??梢詮脑囶}和題組功能偏差試題得分與總分的相關系數(shù)識別指數(shù)分析及分類一致性和準確性四個方面對考試的質量進行了定量評價?!?〕以普通高中英語學業(yè)水平考試為例,這種考試質量分析可以從宏觀至微觀,即以試卷、試題質量分析以及對教學的反撥作用作為結構分析模型?!?〕筆者認為,普通高中英語學業(yè)水平考試之考試評價在考試質量評價和價值判斷兩方面內容的基礎上首先要合理定位考試評價目標,并在此基礎上構建科學的考試評價指標體系。
(一)考試質量評價與教學診斷相結合
考試質量評價是指評價主體按照一定的標準,運用定性與定量相結合的方法,對考試過程和效果的價值判斷。它包括考試設計評價、考試實施評價和考試結果評價三部分?!?〕普通高中英語學業(yè)水平考試質量評價,在考試設計方面應主要圍繞試題設計、篩選、組合的優(yōu)劣,試題難度編排、題型組合以及試卷整體設計的質量。考試實施方面應圍繞考試組織管理各方面的統(tǒng)計資料及反饋信息展開。比如,利用某省市考試違規(guī)違紀方面的統(tǒng)計數(shù)據(jù)與反饋信息可以清晰的了解各考點考試管理的質量、考生違紀違規(guī)的分布情況,借此,考試組織和管理部門可以做出具有針對性的考試決策。
同時,還要通過挖掘考試結果所蘊含的教育信息,評價教學質量,進行教學診斷,并針對性地給出教學改進的對策建議,為教學和學生發(fā)展服務??荚嚱Y果使用方面,考試分數(shù)的解讀大有可為。考試評價主體可以借助考試分數(shù)不同層次的反饋信息發(fā)揮考試對高中英語教學的反撥作用。例如,可以利用考試分數(shù)推斷同一地區(qū)不同學校間英語教學水平的差異,也可以詳細分析考生得分和失分相對集中的題型題組,為評價和改進教學提供依據(jù)。
(二)探索個性化評價模式與滿足差異化需求相統(tǒng)一
學業(yè)水平考試的目的在于檢驗學生學習程度,引導學生全面學習,全面發(fā)展,提高學生綜合素質,也為學生畢業(yè)和升學提供重要依據(jù)。這就意味著不同于高考等選拔考試,其考試評價也不能簡單套用選拔考試的評價模式,而應探索較為個性化評價模式。筆者認為,適宜采用全樣本數(shù)據(jù)分析的方式,從試卷、題型、試題三個層面進行高中英語學業(yè)水平考試質量評價。試卷部分主要包括平均分、差異系數(shù)、難度系數(shù)、信度、試卷總體構成差異的縱橫比較評價、效度以及試卷難度編排、總分合格與不合格考生的難度差異等;題型部分,一方面要分析各題型平均分、差異系數(shù)、難度系數(shù)、區(qū)分度、差異系數(shù)等基本統(tǒng)計量,另一方面要重點分析評價各題型的難度與區(qū)分度等級構成;試題部分要重點分析試題得分平均分、標準差、差異系數(shù)、難度系數(shù)、區(qū)分度、試題猜測概率,選擇題干擾項效率、選擇題各選項選大比例及其差異性、試題功能差異等方面。同時,還可以進行歷次考試間的比較分析,包括歷次考試試卷的信度、效度比較與評價,同一省市考生英語水平的總體變化及評價,等等。因此,一份完整的考試評價報告應包括導論(包括研究目的、意義、指標體系、方法、內容提要等內容)、考試評價數(shù)據(jù)分析統(tǒng)計報告、各題型分解報告、考生學習水平評價報告、歷次考試縱向比較、地區(qū)及校際間各等級成績考生橫向比較、問題與建議、附錄等主要內容。
在考試評價中,不同的考試價值主體具有差異化的評價需求。滿足這種差異化評價需求,基本做法是要盡可能完整全面地把握和挖掘樣本數(shù)據(jù),梳理出能夠滿足差異化評價需求的反饋信息。以普通高中英語學業(yè)水平考試為例,可以選取某段時期的全樣本數(shù)據(jù)展開考試評價。對于考試組織方而言,要滿足其試題設計、考試實施與管理、考試結果解釋以及考試改進以及個性化評價探索等價值傾向;對于教師與廣大考生而言,要梳理出滿足教學改進與考生應考需求的評價內容;對于社會來講,要不斷回應其對考試文化與考試行為社會效應的關注。因此,在宏觀層面,可以為市級教育行政部門提供高中學生學習整體情況的信息,反映各區(qū)縣學生學業(yè)整體狀況以及教育教學方面的問題,為制定政策和調配區(qū)縣間教育資源提供決策參考,為考試科目的縱向比較及地方高中教育教學的長期監(jiān)控提供依據(jù);中觀層面,可以使學校把握學校整體學生學業(yè)水平及各學科教育整體情況,透過連續(xù)多年的分析評價實現(xiàn)學校教學質量變化的有效監(jiān)控,為學校進行教學資源優(yōu)化配置和學校戰(zhàn)略改革提供依據(jù);微觀層面,一方面為教師了解自身教學成效,實現(xiàn)自身發(fā)展,提高教學質量提供方向;另一方面,可以為學生把握自身優(yōu)缺,有針對性地查漏補缺,改進學習方法,促進學業(yè)進步提供有效信息。〔9〕
課程標準是國家管理和評價課程的基礎,是教材編寫、教學、評價的依據(jù),也是制定各類考試評價標準的依據(jù)?!?0〕課程標準和考試說明既是課程教學和考試命題的依據(jù),也是考試評價必須參照的標準課程標準是最基本的教學目標,闡明了教學內容和教學要求,考試說明則是考試的要求和命題的規(guī)定性文件,兩者共同構成了考試評價的標準和尺度,是評價結果科學性和客觀性的保證?!?1〕因此,筆者認為在構建考試評價指標體系時在難度、區(qū)分度、信度與效度——“四度分析”的基礎上還要將各省普通高中英語課程標準、普通高中英語學業(yè)水平考試標準/說明/大綱等考慮在內,作為測試效度分析的重要依據(jù)。
(一)項目難度
普通高中英語學業(yè)水平考試評價的難度指標有“通過率”和“平均得分率”兩種計算方法。其中,聽力理解部分和閱讀理解部分的難度指標適宜采用“通過率”來計算;情景作文、翻譯、筆錄要點、摘錄信息與回答問題部分則適宜采用“平均得分率”的計算方法。選擇題、單詞拼寫、摘錄信息、回答問題等客觀性試題的難度用答對該試題的人數(shù)對于被試總數(shù)之比來表示。情景作文和翻譯等主觀性試題難度則以全體考生某測試題目實得分數(shù)的平均值與該測試題目滿分的比值來表示。數(shù)值越大,試題越容易;數(shù)值越小,試題越難。對于聽力技能、知識運用、閱讀理解和寫作技能各模塊的難度指標也要采用“平均得分率”的計算方法。
洛德(Lord F M)認為,“多選一”選擇題的恰當難度,應是比機遇成功概率跟1.00間中點值再略大一點的值?!八膿褚弧鳖}恰當難度為0.749?!?2〕若以此推斷,考慮到難度值轉換后符合正態(tài)分布的情況,普通高中英語學業(yè)水平考試試題的難度水平應大致介于0.60~0.80之間。至于難度評價時,各評價等級(如劃分為極易、較易、中等、較難和極難五個等級)的系數(shù)范圍的確定。筆者認為可以嘗試以下幾個步驟:(1)計算某考區(qū)單次考試全樣本數(shù)據(jù)下合格組與不合格組考生的人數(shù)比例。(2)在上述比例基礎上抽取一定數(shù)據(jù)作為“實驗組”,試測其試題難度,作為難度評價時難度等極劃分的試驗標準。(3)借由全樣本數(shù)據(jù)分析時得到的實際難度系數(shù),進行校正。如果,要進行歷次考試項目難度之比較分析,應以各次實際數(shù)據(jù)差異之平均變化數(shù)值加以校正。同時,實測試題難度與考試大綱預設的試題難度還可以進行橫向比較。之后,我們便可以分析試卷/題型/試題之難度編排、歷次考試難度之變化、各等級成績考生試題難度之比較,評價各難度等級之構成,統(tǒng)計各難度等級試題之數(shù)量,推斷測驗的同質性與異質性等。
(二)項目區(qū)分度
普通高中學業(yè)水平英語情境寫作與翻譯的試題區(qū)分度可以用試題得分與測驗總分的積差相關系數(shù)(rxy)表示,也可以φ相關系數(shù)表示。后者對校標(一般將測驗總分作為校標)是否為連續(xù)變量沒有嚴格要求,應用較廣。選擇題、單詞及詞組聽寫等客觀題可以采用點二列相關系數(shù)(rxy)來計算每一題目的區(qū)分度。若要計算聽力理解、閱讀理解的題型區(qū)分度也可以用積差相關系數(shù)(rxy)。
實際情況是,鑒別能力最好的試題,其區(qū)分度指數(shù)一般在0.50~0.65之間,區(qū)分能力較好的試題,其區(qū)分度指數(shù)多在0.40~0.50之間?!?3〕至于區(qū)分度評價時,各評價等級(如劃為優(yōu)、良、中、差四個等級)的系數(shù)范圍的確定。同樣可以采用類似于難度系數(shù)范圍確定之抽樣實驗的方法。在此基礎上,便可以對試題區(qū)分、鑒別能力做進一步的定性研究與評價。
(三)測試信度
測試信度系數(shù)多以相關系數(shù)表示,主要包括重測信度法、復本信度法、分半信度法和克隆巴赫系數(shù)信度系數(shù)法。其中,克隆巴赫系數(shù)適用于既包含主觀性試題,又包含客觀性試題的試卷的信度分析,且克服了再測信度難以實施,分半信度估計范圍狹窄的不足,是目前考試評價中最常使用的信度分析方法。我們可以利用克隆巴赫系數(shù)來說明、評判學業(yè)水平考試的內部一致性或同質性狀況。當然,如果我們想獲得評分誤差方面的信息,還可以采用評分者信度來觀察。
(四)測試效度
傳統(tǒng)效度理論將效度劃分為效標關聯(lián)效度、內容效度、構念效度三種。而統(tǒng)一效度理論認為只存在構念效度這一種效度,但其驗證實現(xiàn)的數(shù)據(jù)分析方法是多樣的,其中就包括內容效度系數(shù)。而內容相關推論是不可與構念相關推論分開的,測試題目和任務是緊密關聯(lián)并具有代表性,因為他們是構念效度相關測量以及領域知識和技能的代表?!?4〕
普通高中英語學業(yè)水平考試的目的在于科學判斷高中英語教學的成效以及高中學生英語的達標情況。這就決定了作為效標分數(shù)與實得分數(shù)不可能同時出現(xiàn),因此,可以利用預測效度來表示其效標關聯(lián)效度。這種方法適用于全樣本數(shù)據(jù)中依據(jù)某種過特征(學校、班級等)而進行的抽樣檢驗。比如,我們想知道某次考試的效度,可以選取某一高中進行抽樣(基礎數(shù)據(jù)可以通過相關考試主管部門的OMR庫結合報名編碼索引獲得)。其基本做法是:(1)篩選出該高中參加考試的學生成績、花名冊及其準考證編碼。(2)按照花名冊獲取該高中學生參加考試前英語學科課程成績,確保名單上學業(yè)水平成績與學科課程成績按考生姓名一一對應。(3)以英語學科課程成績?yōu)樾?,求其與當次學業(yè)水平成績之相關系數(shù)(不同的評價目的,校標選擇是不同的)。(4)核查對應相關系數(shù)表界值表,確定預測效度,進行考試效度評價分析。
課程標準與考試大綱建立的能力模型是評價指標的一部分,其實質可視為考試的內容效度。其簡便易行的方法是專家評判法?;咀龇ㄊ怯上嚓P英語學科專家組成學科專家評判團隊,依據(jù)考試大綱能力模型制定詳細的具有針對性的雙向細目表,根據(jù)學科知識和經驗對每一個試題進行定性判斷與定量統(tǒng)計。同時,可以運用德爾菲法提高這種定性分析的準確性。內容效度之雙向細目表應包括以下主要條目(主要依據(jù)考試大綱擬定):(1)聽力技能部分,聽力理解、筆錄要點,把握材料中心思想和重要細節(jié)、隱含意思、語言特征。(2)知識運用部分,單項填空和完形填空,猜詞、理解語句關系和段落關系等(3)閱讀技能部分,閱讀理解、摘錄信息、回答問題,辨別、理解中心思想和重要細節(jié)(概念、寓意、觀點、態(tài)度等)、閱讀技巧運用(略讀、查讀)。(4)寫作技能部分翻,雙向翻譯、情境作文,準確用詞、語法結構和表達習慣等。〔15〕
課程標準要求考生在語言技能、語言知識、情感態(tài)度、學習策略等方面達到的各項標準也應納入評價指標之中,屬于構念效度的范疇。構念效度,既要考試分數(shù)解釋的社會意義,也要探索考試使用的社會價值,可以用內容效度系數(shù)來計算。這種方法通常由兩個專家獨立地審查每個題目,決定該題目實際測量到的內容與擬測量的目標之間相關程度如何,并且用四分量表來表示這種相關程度的大小。由于這種方法較為復雜,在統(tǒng)一效度理論下,筆者認為可以參考內容效度的專家評判法來論證。其基本做法是:(1)簡化課程標準要求,并結合考試大綱條目融合,形成課程標準要求與考試內容雙向細目表。(2)利用統(tǒng)計軟件統(tǒng)計相應項目范圍內題目的數(shù)量、百分比、試題與項目一致性指標、未測量項目百分比等基本統(tǒng)計量。(3)學科專家在定量分析的基礎上進項定性判定。
普通高中英語學業(yè)水平考試之考試評價,目前在國內尚屬較新的研究主題。在考試可持續(xù)發(fā)展和深化考試招生制度改革背景下,這種研究尤為重要。筆者認為,首先從評價目標定位和指標選擇兩個方面進行模式探討具有一定的實踐意義。當然,在指標選擇時還應注意指標項目的整合以形成科學、嚴謹?shù)目荚囋u價指標體系。同時,今后應進一步加強在學業(yè)水平考試評價方法方面的研究和探索。
〔1〕錢道賡.基于現(xiàn)實與使命的擴張與超越:高中學業(yè)水平考試改革芻議〔J〕.大學教育科學,2014(3):12-14.
〔2〕廖平勝.論考試的一般原理(連載一)〔J〕.考試研究,2003(1):1-13.
〔3〕張遠增.考試評價:考試研究的新領域〔J〕.考試研究,2005(1):5-11.
〔4〕李欣.教育公平視域下的高中學業(yè)水平考試:聚焦與透視〔J〕.中國考試,2012(8):58-64.
〔5〕周群.高中學業(yè)水平考試研究(二):考試質量評價〔J〕.考試研究,2012(6):20-28.
〔7〕田民,項久海.河北省2012年5月普通高中英語學業(yè)水平考試分析及對我省高中英語教學的啟示〔J〕.校園英語,2014(4):89-94.
〔8〕凌云.考試統(tǒng)計學〔M〕.武漢:華中師范大學出版社,2002:408-409.
〔9〕張青華.淺談高中學業(yè)水平考試評價的功能〔J〕.中國考試,2011(4):61-64.
〔10〕褚慧玲.水平考試與選拔考試的相關問題研究——多元評價中制定考試評價標準研究〔J〕.中國考試,2008(10):10-16.
〔11〕臧鐵軍.構建考試評價系統(tǒng)的理論與實踐研究〔J〕.考試研究,2013(3):23-28.
〔12〕漆書青.現(xiàn)代測量理論在考試中的應用〔M〕.武漢:華中師范大學出版社,2003:95.
〔13〕廖平勝.考試學〔M〕.武漢:華中師范大學出版社,1988:293.
〔14〕黃銳.標準參照語言測試的構念效度驗證〔J〕.西南民族大學學報(人文社會科學版),2012(6):191-195.
〔15〕教育部.普通高中英語課程標準(實驗)〔M〕.北京:人民教育出版社,2003:9-21.
(責任編輯:王偉宜)
李淑姣,女,北京師范大學哲學與社會學學院助教、碩士,主要研究方向為考試與社會的互動(北京100875);羅田野,男,華中師范大學政治學研究院碩士研究生,研究方向為考選制度與考試評價(武漢430079)