初中英語學(xué)業(yè)水平考試(以下簡稱“中考英語”)是初中階段最重要的一項終結(jié)性測試。它依據(jù)《義務(wù)教育英語課程標準(2022年版)》(以下簡稱《義教新課標》)命制,是對學(xué)生完成九年義務(wù)教育后英語學(xué)業(yè)水平的檢驗,也是高一級學(xué)校錄取人才的重要依據(jù)。因此,其試題質(zhì)量對該項測試的分數(shù)解釋和分數(shù)使用都具有極其重要的影響。測試是一項綜合性系統(tǒng)工程,一項完整的測試系統(tǒng)至少包含測試目的明確、測試級別定位、測試構(gòu)念界定、測試規(guī)范和任務(wù)撰寫、試測與試題評估、正式施測、分數(shù)推斷、教學(xué)決策等環(huán)節(jié)(Fulcher,2010)。這個過程會產(chǎn)生一系列文件,如試題、多維細目表、成績分析報告等。但一般情況下,非測試核心人員往往只能獲得試題。本文基于通常情況下僅能獲得試題的現(xiàn)實,以實踐為出發(fā)點,淺談在僅能獲得試題(不包括評分細則)的情況下,如何對中考英語命題質(zhì)量開展評估。以下從宏觀層面和微觀層面兩個角度來展開討論。
從宏觀層面上來評估試題時,評估者應(yīng)首先考慮測試中素材的價值取向;其次,評估者要考慮測試目的,進而從內(nèi)容效度的角度來評估試題的質(zhì)量。
測試是一種社會行為,發(fā)生在特定的社會情境中,發(fā)揮特定的社會功能,如促進社會公平、實現(xiàn)教育機會均等。測試也從來不是價值中立的,它本質(zhì)上是一種政治行為(Fulcher,2009)?!督逃筷P(guān)于加強初中學(xué)業(yè)水平考試命題工作的意見》(以下簡稱《意見》)第一條為“堅持正確導(dǎo)向”,其中將落實立德樹人根本任務(wù)放在首要位置?!兑庖姟诽岢?,考試命題工作要堅持正確政治方向,牢固樹立“四個意識”,堅定“四個自信”,堅決做到“兩個維護”。注重加強對學(xué)生理想信念、愛國主義、品德修養(yǎng)、知識見識、奮斗精神、綜合素質(zhì)等方面的考查,積極培育和踐行社會主義核心價值觀,弘揚中華優(yōu)秀傳統(tǒng)文化、革O7u58m+7U/2NH05kSXamk8TizJ1EElYDMZoqaEWHNo0=命文化和社會主義先進文化,引導(dǎo)學(xué)生樹立正確的國家觀、民族觀、歷史觀、文化觀和宗教觀,促進學(xué)生德智體美勞全面發(fā)展(教育部,2019)。這些內(nèi)容與《義教新課標》的育人理念是完全吻合的。
在測試素材的價值取向方面,評估者要通過閱讀試題中的素材,來判定試題內(nèi)容的價值取向是否與《意見》和《義教新課標》的內(nèi)容吻合。具體操作性表格可參考表1。評估者可以對試題中的素材進行編號,先判斷其是否堅持正確的政治方向,再通過通讀素材,歸納其所傳遞的核心意義,并將之歸屬于不同類別,如體現(xiàn)社會主義核心價值觀、弘揚中華優(yōu)秀傳統(tǒng)文化等。
從語言測試學(xué)角度來說,不論是設(shè)計一項測試,還是評估一項測試,首先要考慮的是測試目的。Ingram(1968:70)曾說過:“所有的測試都有其目的。如果沒有清晰地陳述測試目的,那么這項測試不會是一項好的測試?!盋arroll(1961:314)也指出:“語言測試的目的是提供信息,以幫助人們就可能的行動方案作出明智的決定。”但這些決定是多種多樣的,并且需要人們針對測試的每種預(yù)期用途作出非常具體的決定。從操作層面上看,F(xiàn)ulcher(2010)認為,測試者如果沒有清晰地陳述測試目的,在選擇測試的內(nèi)容和形式時就無法提供令人信服的理據(jù)。具體來說,測試者對測試目的的陳述應(yīng)該包含目標測試群體的信息和他們的水平范圍、目標語言使用域、知識技能能力的范圍等(Fulcher & Davidson,2007)。對測試目的的陳述為測試構(gòu)念(即測試的能力是什么)和內(nèi)容的選擇提供理據(jù),在預(yù)期分數(shù)解釋和分數(shù)使用之間搭起橋梁。
就中考英語來說,根據(jù)《義教新課標》的規(guī)定,它承擔了雙重的考試目的:一方面檢測義務(wù)教育階段結(jié)束時學(xué)生的學(xué)業(yè)成就,另一方面為高一級學(xué)校招生錄取提供依據(jù)。此外,它也為評價區(qū)域和學(xué)校教學(xué)質(zhì)量提供參考,還包含改進教育質(zhì)量和教學(xué)方式的價值取向。從測試學(xué)角度來說,中考英語是一項終結(jié)性測試,兼具學(xué)習(xí)認證(certification)和選拔(selection)的功能;也是一項高風(fēng)險考試,因為其分數(shù)使用會關(guān)系到考生能否畢業(yè)、是否有機會進入下一個階段的學(xué)習(xí)。同時,該考試還承擔教育問責(accountability)的功能。
因此,從考試目的的角度來評估中考英語試題質(zhì)量時,評估者可以考慮試題在依標命題方面的執(zhí)行情況和試題難度控制情況。王薔、葛曉培(2024)對依標命題做了詳細的解讀。筆者認為,從試題出發(fā),評估者可以借助表2來對試題質(zhì)量進行相應(yīng)的評估。在課程理念落實情況中,評估者要關(guān)注試題是否體現(xiàn)對核心素養(yǎng)的考查;是否體現(xiàn)以主題為引領(lǐng),以不同類型的語篇為依托的考查;是否為學(xué)生提供真實情境和真實問題,指向主題意義的探究;是否與《義教新課標》提倡的教學(xué)方法相匹配。課程目標覆蓋情況則需要評估者評判試題在多大程度上涵蓋語言能力、思維品質(zhì)三級學(xué)段目標的內(nèi)容,并兼顧對文化意識和學(xué)習(xí)能力的考查。在課程內(nèi)容涵蓋情況方面,需要評估者評判試題在主題、語篇類型、語言知識、文化知識、語言技能方面在多大程度上綜合反映了《義教新課標》三級的內(nèi)容和能力要求。學(xué)業(yè)質(zhì)量標準的體現(xiàn)情況則需要評估者考量試題背后考查的構(gòu)念與三級學(xué)業(yè)質(zhì)量標準之間是否有對應(yīng)的關(guān)系。在評級方面可采用四級李克特量表。0代表完全不符合,1代表基本不符合,2代表基本符合,3代表完全符合。總分8以上就可以認定為比較積極的評價結(jié)果。
從試題的難度把控上看,既要有反映初中學(xué)段結(jié)束后,學(xué)生應(yīng)該達到的最低要求的題目,體現(xiàn)試題的基礎(chǔ)性,實現(xiàn)學(xué)習(xí)認證的功能;也要有反映《義教新課標》所規(guī)定的初中學(xué)段較高目標達成情況的試題,實現(xiàn)選拔的功能。這里有一個特別值得注意的地方:針對主觀性試題,特別是開放性強的主觀性試題,在評分標準制定中,分步計分中較低層級的得分情況也可以納入基礎(chǔ)性考查目標。試題的總體難度預(yù)估為0.65—0.75是比較理想的。
在閱讀一套試題時,讀者得到的最直接的印象就是測試內(nèi)容。而對測試內(nèi)容的判斷是測試效度驗證的一個重要組成部分。內(nèi)容效度考察的是一項測試在多大程度上測量了欲測的技能或行為(Mousavi,2012)。內(nèi)容效度主要從內(nèi)容相關(guān)性和內(nèi)容覆蓋面兩個維度考察(Bachman,1990)。對內(nèi)容相關(guān)性的考察需要細化目標行為領(lǐng)域及其任務(wù),特別是需要細化測試方法;對內(nèi)容覆蓋面的考察指的則是考察測試中的任務(wù)在多大程度上能夠充分地代表目標行為領(lǐng)域(Mousavi,2012)??疾煸嚲淼膬?nèi)容效度,可以通過審閱多維細目表來比對《義教新課標》與考試內(nèi)容之間的匹配性。通常情況下,多維細目表未公布,因此評估者也可以通過逐題審閱試題,參考林敦來等(2024a)關(guān)于多維細目表編制的建議,反推考試內(nèi)容,從而建構(gòu)起試題與《義教新課標》之間的內(nèi)容匹配情況。如表3所示,評估者可根據(jù)題目情況建構(gòu)試卷結(jié)構(gòu)、分值分布、考查內(nèi)容、題型分布、輸入材料特征等。在完成表3的基礎(chǔ)上,評估者可判斷試題對《義教新課標》要求內(nèi)容取樣的代表性和覆蓋程度??紤]到涉及評估者的主觀判斷,因此建議采用雙人或多人背對背互評。當評估者遇到不同意見時,應(yīng)詳細研討以達成一致意見。
在從宏觀層面對試題進行判斷之后,評估者可對試題做進一步的深入分析。筆者認為,在微觀層面,我們首先可以借鑒Weir(2005)提出的效度驗證的社會認知框架來評估試題的質(zhì)量。首先,情境效度證據(jù)是命題評估者可以參考的重要方面;其次,認知效度證據(jù)也同樣起到重要作用。
關(guān)于情境(context),Weir(1993)的論述頗具啟發(fā)意義。他認為,情境作為交際語言能力的決定性因素是至關(guān)重要的。情境必須是考生和專家考官一致認同的可用于評估特定語言能力的合適條件。在測試這些能力時,測試者應(yīng)盡可能獲得正常執(zhí)行任務(wù)的條件。Weir(1993)還指出,測試者應(yīng)該有意識地努力在測試中建立盡可能多的現(xiàn)實生活場景,且這些生活場景應(yīng)該被測試者及其同行視為是可行的和具有典型性的。如果測試任務(wù)反映了現(xiàn)實生活中的重要情境和操作任務(wù),那么測試者在進行分數(shù)解釋時,就更容易推斷考生可以運用英語完成什么任務(wù)。除非采取措施識別和納入反映現(xiàn)實生活中重要情境和操作任務(wù)的特征,否則測試者很難推斷在未來目標條件下考生的語言能力是怎樣的。
情境效度可以從任務(wù)設(shè)定(考試指令、語言使用目的、應(yīng)答模式、評分標準、權(quán)重、題目順序、測試時間安排)和任務(wù)要求(語篇模式、交流渠道、語篇長度、信息本質(zhì)、話題知識、輸入輸出特征、寫作對象)兩大方面去評估(參閱Weir,2005)。這里對部分內(nèi)容進行解釋。語言使用目的的適切性對考生調(diào)用元認知策略進行作答是很重要的。例如,廣告的目的是勸說大眾購買產(chǎn)品,測試者如果采用廣告作為閱讀素材,在命題時應(yīng)該圍繞勸說購買這個目的去設(shè)置題目。語篇模式會影響測試構(gòu)念。例如,測試者欲測試考生的互動能力,則需要采用考官與考生現(xiàn)場互動的語篇模式,考官需要針對考生的口語產(chǎn)出改變措辭和應(yīng)答內(nèi)容,以適應(yīng)即時性的交流。這時,考官按腳本提問的語篇模式就不合適了。在書面交流渠道方面,測試者往往會運用圖表等方式傳遞信息。但是這些多模態(tài)的內(nèi)容如果運用不當,可能會造成考生的理解困難。信息本質(zhì)則指信息的具體程度和抽象程度。表4詳細列出情境效度證據(jù)評估的觀測點。通過評估者的判斷,可以定位有問題的題目,作為試題質(zhì)量的駁證呈現(xiàn)。
Weir(2005)框架中的認知效度對試題評估同樣具有重要的啟發(fā)意義。Khalifa和Weir(2009)建構(gòu)了閱讀的認知框架,其中主要的認知過程包含詞匯識別、詞匯通達、句法解析、建構(gòu)小句和句子層面的命題意義、推斷、融合新信息建構(gòu)心理模型、創(chuàng)建語篇層面的意義表征和創(chuàng)建跨語篇層面的意義表征。Field(2025)建構(gòu)的聽力認知框架包含三個階段,即話語解析(含輸入材料解碼、詞匯檢索、句法解析)、意義單元(意義建構(gòu))和語篇含義(語篇意義建構(gòu))。在寫作方面,Shaw和Weir(2007)對寫作的認知做了闡釋,包含宏觀規(guī)劃、組織、微觀規(guī)劃、轉(zhuǎn)換、監(jiān)控和修訂。通過評估題目對考生認知層次的考查,評估者可以更加清晰地了解題目是否達到測試者預(yù)期的認知層級。表5呈現(xiàn)了題目考查的認知層面的評估表。需要指出的是,在判斷對應(yīng)題目時,評估者應(yīng)該采納該題目考查的最高認知層次。也就是說,在閱讀中考查了語言層面的意義表征,就自然包含了對詞匯識別、詞匯通達等比它更加初階的成分的考查。通過對應(yīng)題目數(shù)量以及賦分的比例,評估者可以較為清晰地統(tǒng)計出試題所測試的認知層級的分布情況,并依此判斷試題對考生認知層次的考查是否符合《義教新課標》對該學(xué)段學(xué)生思維品質(zhì)方面的要求。
林敦來等(2024b)基于選擇題的設(shè)計原則,對中考英語命題中選擇題命制質(zhì)量的常見問題進行了分析。評估者可以依據(jù)該框架對試題中的選擇應(yīng)答型試題(含匹配題、判斷正誤題、選擇題等)的質(zhì)量進行評估。具體評估指標詳見表6。
Haladyna和Rodriguez(2013)對建構(gòu)應(yīng)答題型的命題原則做了闡釋,詳見表7。該表從內(nèi)容、格式和風(fēng)格、指示語撰寫、情境等方面對建構(gòu)應(yīng)答題目的命題原則進行了規(guī)定。在內(nèi)容方面,強調(diào)了測試的構(gòu)念要清晰、測試的認知要符合初中學(xué)段學(xué)生的認知要求,以及試題中對相同構(gòu)念的處理應(yīng)具有可比性。
表8詳細列出建構(gòu)應(yīng)答題目命題技術(shù)與規(guī)范的觀測點,由于建構(gòu)應(yīng)答題目一般考查學(xué)生綜合運用語言來解決問題的能力,能夠更直接地體現(xiàn)對核心素養(yǎng)的考查,其質(zhì)量評估也體現(xiàn)多層多維的特征。因此筆者認為,對題目質(zhì)量的評估應(yīng)采用評級的方式呈現(xiàn)。在內(nèi)容維度中,除了對構(gòu)念和認知能力的評判,還包含了對相同構(gòu)念的處理是否具有可比性的問題。Bachman和Palmer(2010)介紹了三種不同的構(gòu)念界定方式,即純語言構(gòu)念、語言構(gòu)念加話題構(gòu)念,以及語言融合話題構(gòu)念。在中考英語命題實踐方面,如果測試者在書面表達中選擇的構(gòu)念是寫作能力且不包含話題知識,那么在閱讀表達開放性試題中如果考查寫作能力,就不應(yīng)該把話題知識納入構(gòu)念。建構(gòu)應(yīng)答題目命題技術(shù)與規(guī)范的評估也需要采用雙人或者多人背對背評估的方式,有不同意見需要進行商討達成一致,最終得分在22以上的試題可認為是質(zhì)量較高的題目。
本文以中考英語試題為出發(fā)點,討論如何開展中考英語命題質(zhì)量評估的問題。本文提出的方法主要靠評估者作為專業(yè)人士進行專業(yè)判斷,需要評估者擁有相應(yīng)的評價素養(yǎng),對課程標準、語言能力標準、測試方法的優(yōu)缺點和命題規(guī)范,以及語言測試學(xué)的基本概念有深入的認識。命題評估工作一般建議以3—5人的專家團隊來開展,最好包含有語言測試研究背景的人士、課程專家、一線教師和教研員等。本文提出的評估方法也適用于測試者在題目開發(fā)階段對試題質(zhì)量進行評估,以期改進試題質(zhì)量。
* 本文系國家社科基金項目“核心素養(yǎng)下的國家義務(wù)教育質(zhì)量監(jiān)測英語指標體系和范型題研究”(項目編號:22BYY091)的成果。
Bachman, L. F. 1990. Fundamental considerations in language testing [M]. Oxford: Oxford University Press.
Bachman, L. F. & Palmer, A. S. 2010. Language assessment in practice: Developing language assessments and justifying their use in the real world [M]. Oxford: Oxford University Press.
Carroll, J. B. 1961. Fundamental considerations in testing for English language proficiency of foreign students [A]. Reprinted in H. B. Allen & R. N. Campbell (eds.). 1965. Teaching English as a second language: A book of readings [C]. New York, NY: McGraw Hill: 313—330.
Field, J. 2025. Cognitive insights into first and second language listening [A]. In E. Wagner, A. O. Batty & E. Galaczi (eds.). The Routledge handbook of second language acquisition and listening [C]. London: Routledge: 13—28.
Fulcher, G. 2009. Test use and political philosophy [J]. Annual Review of Applied Linguistics, 29: 3—20.
Fulcher, G. 2010. Practical language testing [M]. London: Hodder Education.
Fulcher, G. & Davidson, F. 2007. Language testing and assessment: An advanced resource book [M]. New York, NY: Routledge.
Haladyna, T. M. & Rodriguez, M. C. 2013. Developing and validating test items [M]. New York, NY: Routledge.
Ingram, E. 1968. Attainment and diagnostic testing [A]. In A. Davies (ed.). Language testing symposium: A psycholinguistic approach [C]. Oxford: Oxford University Press: 70—97.
Khalifa, H. & Weir, C. J. 2009. Examining reading [M]. Cambridge: Cambridge University Press.
Mousavi, S. A. 2012. An encyclopedic dictionary of language testing (5th ed.) [M]. Tehran: Rahnama Press.
Shaw, S. D. & Weir, C. J. 2007. Examining writing: Research and practice in assessing second language writing [M]. Cambridge: Cambridge University Press.
Weir, C. J. 1993. Understanding and developing language tests [M]. New York, NY: Prentice Hall.
Weir, C. J. 2005. Language testing and validation: An evidence-based approach [M]. Basingstoke: Palgrave Macmillan.
教育部. 2019. 教育部關(guān)于加強初中學(xué)業(yè)水平考試命題工作的意見[EB/OL]. (2019-11-22) [2024-09-08]. http://www.moe.gov.cn/srcsite/A06/s3321/201911/t20191128_409951.html.
教育部. 2022. 義務(wù)教育英語課程標準(2022年版) [S]. 北京: 北京師范大學(xué)出版社.
林敦來, 陳芳, 林玉琴. 2024a. 初中英語學(xué)業(yè)水平考試多維細目表的設(shè)計與編制[J]. 英語學(xué)習(xí), (5): 17—22.
林敦來, 羅正清, 李威峰. 2024b. 選擇題的設(shè)計原則、常見問題與建議——以初中英語學(xué)業(yè)水平考試為例[J]. 英語學(xué)習(xí), (6): 19—25.
王薔, 葛曉培. 2024. 依標命題,發(fā)揮考試評價對英語教與學(xué)的積極導(dǎo)向作用[J]. 英語學(xué)習(xí), (5): 4—10.
林敦來 北京師范大學(xué)外國語言文學(xué)學(xué)院副院長、教授、博士生導(dǎo)師。主要研究方向為語言測試與評價。