摘要: 考試效度指考試對(duì)考試構(gòu)念進(jìn)行測(cè)量的有效程度,效度研究指的是為解釋考試分?jǐn)?shù)而收集效度證據(jù)的過(guò)程。英語(yǔ)水平考試旨在測(cè)量考生的英語(yǔ)語(yǔ)言水平,本文以公共英語(yǔ)等級(jí)考試PETS-5為樣卷,以考試題目和語(yǔ)言能力等級(jí)關(guān)系量表(Linking Test Questions to Task Statements)為工具,采用專業(yè)人士的分析評(píng)判為主要研究方法,收集基于考試內(nèi)容的效度證據(jù),對(duì)英語(yǔ)水平考試的效度研究方法進(jìn)行了初步探索。
關(guān)鍵詞: 英語(yǔ)水平考試 PETS-5 考試效度 效度研究
《教育與心理測(cè)試標(biāo)準(zhǔn)》(以下簡(jiǎn)稱《標(biāo)準(zhǔn)》)是教育與心理測(cè)驗(yàn)領(lǐng)域的權(quán)威性文獻(xiàn),體現(xiàn)了考試領(lǐng)域的行業(yè)標(biāo)準(zhǔn)。該文獻(xiàn)認(rèn)為考試的效度是編制和評(píng)價(jià)考試過(guò)程中最關(guān)鍵的因素,是一個(gè)統(tǒng)一的概念,代表了測(cè)試對(duì)構(gòu)念(construct)進(jìn)行測(cè)量的有效程度[1]。自新版《標(biāo)準(zhǔn)》1999年頒布以來(lái),新的效度觀和效度研究方法已經(jīng)成為教育與心理測(cè)量的研究中心之一,但在語(yǔ)言測(cè)試方面此類研究尚不多見。與此同時(shí),我國(guó)英語(yǔ)考試改革趨勢(shì)內(nèi)在需要新的考試研究方法。英語(yǔ)水平考試主要用于測(cè)量學(xué)生的語(yǔ)言能力,基于內(nèi)容的效度證據(jù)證明考試內(nèi)容是否以有效的語(yǔ)言觀為依據(jù),考試結(jié)果在多大程度上可以解釋考生的語(yǔ)言能力及與語(yǔ)言能力相關(guān)的心理特征,效度證據(jù)收集方法主要來(lái)自于對(duì)考試所測(cè)量的各部分內(nèi)容的邏輯分析和專家評(píng)價(jià)。本文采用美國(guó)教育考試服務(wù)中心(ETS)的研究人員研制的用于測(cè)量英語(yǔ)水平考試效度的考試題目和語(yǔ)言能力等級(jí)關(guān)系量表(Linking Test Questions to Task Statements)為研究工具[2],以2006年公共英語(yǔ)等級(jí)考試PETS-5為樣卷[3],通過(guò)專業(yè)人士的分析評(píng)判,收集基于內(nèi)容的效度證據(jù),以考查目標(biāo)考試對(duì)于考生語(yǔ)言能力進(jìn)行測(cè)試的有效程度,即目標(biāo)考試究竟測(cè)試了構(gòu)成考生語(yǔ)言能力的哪些因素,從而探索英語(yǔ)水平考試基于內(nèi)容的效度證據(jù)的效度研究方法。
一、考試效度
語(yǔ)言測(cè)試中的效度理論來(lái)自教育與心理測(cè)量學(xué),效度理論發(fā)展可以分為三個(gè)時(shí)期:?jiǎn)我恍Ф扔^時(shí)期、分類效度觀時(shí)期和效度整體觀時(shí)期[4]。單一效度觀認(rèn)為效度是指一項(xiàng)測(cè)試是否測(cè)量了它所要測(cè)量的東西;而證明效度的典型的方法是:“在多大程度上這項(xiàng)測(cè)試與其它有效且可靠的語(yǔ)言測(cè)試相關(guān)?!保郏担莘诸愋Ф扔^認(rèn)為效度是“從測(cè)驗(yàn)所作出的推論的適當(dāng)性或合理性的程度,反映已有證據(jù)可以在多大程度上支持根據(jù)測(cè)驗(yàn)分?jǐn)?shù)所做出的推論”。按其證據(jù)的不同來(lái)源分為三種:構(gòu)念效度、內(nèi)容效度和標(biāo)準(zhǔn)效度。長(zhǎng)期以來(lái),這種關(guān)于效度的定義和分類,一直是教育與心理測(cè)量學(xué)界研究效度的基本框架。
效度整體觀的概念最初由Messick提出,即“效度證據(jù)和理論依據(jù)在多大程度上支持基于測(cè)試分?jǐn)?shù)的其它評(píng)估方式所做出的推斷或采取的行動(dòng)是充分和適當(dāng)?shù)?,?duì)這個(gè)問(wèn)題的綜合評(píng)價(jià)性判斷就是效度”[6]。新版《標(biāo)準(zhǔn)》確立了構(gòu)念的核心地位,明確了效度研究的對(duì)象是測(cè)試分?jǐn)?shù)的解釋和適用,而不是測(cè)試本身。效度成為關(guān)于測(cè)驗(yàn)分?jǐn)?shù)的特定解釋所得到的支持程度,來(lái)自累積的證據(jù)或理論。該解釋是測(cè)試應(yīng)用的基礎(chǔ)。所謂測(cè)試解釋,是關(guān)于測(cè)試所要測(cè)量的構(gòu)念(construct)或概念(concepts)的解釋,所有的分?jǐn)?shù)都被視為對(duì)構(gòu)念的測(cè)量。構(gòu)念不再是效度證據(jù)的三種來(lái)源之一,而是用來(lái)定義效度。即效度指某測(cè)試對(duì)構(gòu)念進(jìn)行測(cè)量的有效程度,而構(gòu)念則被定義為測(cè)試所要測(cè)量的概念或特征(the concept or the characteristic that a test is designed to measure),構(gòu)念成為教育與心理測(cè)量中最重要、最核心的概念之一。
考試效度的研究指的是為解釋考試分?jǐn)?shù)提供科學(xué)依據(jù)而收集效度證據(jù)的過(guò)程。效度證據(jù)分為五類,即基于內(nèi)容的證據(jù)(evidence based on content)、基于反應(yīng)過(guò)程的證據(jù)(evidence based on response processes)、基于內(nèi)部結(jié)構(gòu)的證據(jù)(evidence based on internal structure)、基于與其他變量之間關(guān)系的證據(jù)(evidence based on relations to other variables)和基于測(cè)驗(yàn)結(jié)果的證據(jù)(evidence based on consequences of testing)。其中,基于內(nèi)容的效度證據(jù)指的是和考試內(nèi)容本身有關(guān)的證據(jù),即證明考試內(nèi)容的代表性即考試構(gòu)念的證據(jù)。測(cè)試的效度依賴于測(cè)試的精心編制,更依賴于編制測(cè)試的理論基礎(chǔ)。對(duì)于語(yǔ)言水平測(cè)試來(lái)說(shuō),測(cè)試的理論基礎(chǔ)即構(gòu)念就是測(cè)試意欲測(cè)量的相關(guān)語(yǔ)言水平和能力。
二、語(yǔ)言能力
當(dāng)代語(yǔ)言學(xué)理論認(rèn)為語(yǔ)言能力指的是語(yǔ)言交際能力(communicative language competence)。社會(huì)語(yǔ)言學(xué)中的語(yǔ)言功能、語(yǔ)言變異和社會(huì)文化原則,功能語(yǔ)言學(xué)中的系統(tǒng)功能原則以及語(yǔ)用學(xué)中的言語(yǔ)行為原則等為語(yǔ)言交際能力理論的產(chǎn)生提供了理論根據(jù)。
交際語(yǔ)言能力模式可以追述到Hymes的交際能力說(shuō)以及在此基礎(chǔ)上Canale和Swain在上世紀(jì)80年代初提出的交際能力理論模式[7]。現(xiàn)行的交際語(yǔ)言測(cè)試模式是90年代初美國(guó)應(yīng)用語(yǔ)言學(xué)家Bachman提出的語(yǔ)言能力觀。他認(rèn)為語(yǔ)言能力就是把語(yǔ)言知識(shí)和語(yǔ)言使用的場(chǎng)景特征結(jié)合起來(lái),創(chuàng)造并解釋意義的能力,即語(yǔ)言交際能力[8]。該能力是由語(yǔ)言知識(shí)和一系列元認(rèn)知策略組成,這兩部分又可分出許多次類別。構(gòu)成語(yǔ)言能力的各部分在具體的語(yǔ)言使用場(chǎng)合下,相互作用,相互影響,不可分割。
本文以Bachman的交際語(yǔ)言能力模式為基本理論框架,對(duì)英語(yǔ)水平測(cè)試所考查的語(yǔ)言能力進(jìn)行檢驗(yàn),探索目標(biāo)考試是否測(cè)試了相關(guān)的語(yǔ)言能力。
三、水平考試的效度研究
(一)全國(guó)英語(yǔ)等級(jí)考試(PETS-5)
全國(guó)英語(yǔ)等級(jí)考試(Public English Testing System,簡(jiǎn)稱PETS)是教育部考試中心設(shè)計(jì)并實(shí)施的全國(guó)性英語(yǔ)水平考試體系。根據(jù)考試大綱,PETS考查的能力是建立在“交際語(yǔ)言行為模式”上,認(rèn)為語(yǔ)言交際需要是掌握外語(yǔ)的目的,將語(yǔ)言能力分為“接受”、“產(chǎn)出”、“互動(dòng)”能力。PETS考試根據(jù)各種情景和任務(wù),在特定主題和話語(yǔ)下,結(jié)合相關(guān)的語(yǔ)言行為進(jìn)行教學(xué)或考查,題型有:客觀性試題——多項(xiàng)選擇、選擇配對(duì)等;半客觀性試題——改錯(cuò)、填空、簡(jiǎn)單概括等;主觀性試題——短文寫作、翻譯、口試等。
PETS共有五個(gè)級(jí)別,PETS-5是最高級(jí)。通過(guò)該級(jí)考試的考生,其英語(yǔ)水平基本滿足在國(guó)外攻讀非英語(yǔ)專業(yè)碩士研究生或從事學(xué)術(shù)研究工作或在國(guó)外從事專業(yè)和管理工作的需要。試題由筆試試卷和口試試卷組成。筆試試卷(140分鐘)分四部分:聽力、英語(yǔ)知識(shí)運(yùn)用、閱讀理解和寫作??谠囋嚲恚?5分鐘)分三節(jié)考查考生的口語(yǔ)交際能力。本文中采用教育部考試中心2006年發(fā)行的全國(guó)英語(yǔ)等級(jí)第五級(jí)考試大綱中的樣題為目標(biāo)試題進(jìn)行研究。
(二)試題聯(lián)系評(píng)估等級(jí)量表(Item Linking Rating Form)
美國(guó)教育考試服務(wù)中心2004年的研究報(bào)證明了通過(guò)試題聯(lián)系評(píng)估等級(jí)量表(Item Linking Rating Form)用來(lái)收集基于內(nèi)容的證據(jù),進(jìn)行有效的語(yǔ)言水平考試效度研究的可行性。該量表把語(yǔ)言能力按其表現(xiàn)形式分為若干微技能,主要采用專家評(píng)價(jià)方法,對(duì)試卷題目和各個(gè)微技能之間的相關(guān)性作出判斷,從而確定試題在內(nèi)容方面對(duì)英語(yǔ)語(yǔ)言水平測(cè)試的效度,是本文采用的主要工具。
(三)實(shí)施過(guò)程
專家評(píng)判是收集基于內(nèi)容的效度證據(jù)的主要方法之一,來(lái)自北京師范大學(xué)和北京外國(guó)語(yǔ)大學(xué)的36名外國(guó)語(yǔ)言學(xué)及應(yīng)用語(yǔ)言學(xué)專業(yè)碩士研究生應(yīng)邀對(duì)目標(biāo)試題進(jìn)行了評(píng)價(jià)。所有參與人員都有十年以上英語(yǔ)學(xué)習(xí)和兩年以上英語(yǔ)教學(xué)經(jīng)驗(yàn),熟悉英語(yǔ)測(cè)試領(lǐng)域的相關(guān)理論知識(shí)。中國(guó)著名英語(yǔ)測(cè)試學(xué)專家鄒申認(rèn)為,“專家”并不是學(xué)銜意義上的專家,而是“有較豐富的相關(guān)領(lǐng)域的知識(shí)或經(jīng)驗(yàn)的專業(yè)工作者”[9]。本研究參與評(píng)判人員符合此要求,他們的評(píng)判是可靠的。本次共發(fā)出量表36套,收回36套,其中用于數(shù)據(jù)分析的有效量表30套。
四、數(shù)據(jù)分析
把有效量表的數(shù)據(jù)輸入SPSS11.0可以得到每個(gè)試題和某一語(yǔ)言技能中所描述的微技能的相關(guān)系數(shù)的評(píng)判平均數(shù),該平均數(shù)反映試題和這種語(yǔ)言技能或微技能的相關(guān)程度。下表中黑體部分平均數(shù)等于或大于1.50(≥1.50),代表的相關(guān)程度為基本相關(guān)。相關(guān)程度平均數(shù)反映該目標(biāo)試卷的測(cè)試?yán)碚摳鶕?jù),即該試題測(cè)試了什么樣的語(yǔ)言知識(shí)和技能。單元格中所標(biāo)注的就是考生可以通過(guò)該目標(biāo)測(cè)試所展示出來(lái)的語(yǔ)言水平知識(shí)和技能。
表中每行顯示了目標(biāo)試卷中某個(gè)試題所測(cè)試的語(yǔ)言技能的數(shù)量,每列顯示的是成功測(cè)試某項(xiàng)技能的試題的數(shù)量,整個(gè)表格反映了目標(biāo)試卷中各個(gè)試題和欲測(cè)技能之間的相關(guān)關(guān)系。
(注:表中黑體部分≥1.50)
從表一中可以看出,所有的聽力試題至少與2項(xiàng)語(yǔ)言技能相關(guān);10項(xiàng)聽力技能中有7項(xiàng)至少和一個(gè)測(cè)試試題相關(guān)。其中第一項(xiàng)(理解事實(shí)性信息和細(xì)節(jié))和第六項(xiàng)(理解主要觀點(diǎn)和支持性信息)在所有的聽力試題中得到體現(xiàn)。
聽力沒有測(cè)試到的語(yǔ)言技能有:第二項(xiàng)(理解說(shuō)話人口頭指示的任務(wù)及其期限);第九項(xiàng)(理解語(yǔ)言各交際功能之間的差異,如提議、建議、指點(diǎn)或警告等)和第十項(xiàng)(識(shí)別說(shuō)話者的態(tài)度信號(hào),如語(yǔ)調(diào)、幽默和諷刺等)。
(注:表中黑體部分≥1.50)
從表二中可以看出,所有的閱讀試題至少與1項(xiàng)語(yǔ)言技能相關(guān);11項(xiàng)閱讀技能中有8項(xiàng)至少和一個(gè)測(cè)試試題相關(guān)。其中第一項(xiàng)(通過(guò)跳讀或略讀的方式,找出并理解文章中明確陳述的信息)在所有的閱讀試題中得到體現(xiàn)。
閱讀部分未能體現(xiàn)的閱讀技能包括;第二項(xiàng)(找出并理解表格、圖表等非敘述性材料中的信息);第三項(xiàng)(根據(jù)上下文確定單詞的意思);第五項(xiàng)(閱讀并理解和課堂練習(xí)或考試有關(guān)的書面指令)。
表三表明PETS-5的寫作部分可以充分測(cè)試所有相關(guān)寫作技能。
從表四中可以看出,口語(yǔ)部分測(cè)試了全部9項(xiàng)相關(guān)語(yǔ)言技能,其中第二項(xiàng)(評(píng)價(jià)性常規(guī)口語(yǔ)表達(dá))、第四項(xiàng)(意義協(xié)商:使用話語(yǔ)加工策略評(píng)價(jià)交際的有效性,并根據(jù)實(shí)際情況做出必要的調(diào)整)和第六項(xiàng)(話語(yǔ)輪交替:理解每個(gè)說(shuō)話人應(yīng)該什么時(shí)候說(shuō),說(shuō)多長(zhǎng)時(shí)間)分別在兩項(xiàng)口語(yǔ)任務(wù)中體現(xiàn),而另外6項(xiàng)技能則在所有口語(yǔ)任務(wù)中均得到了很好的體現(xiàn)。
六、討論
綜上所述,全國(guó)英語(yǔ)等級(jí)考試第五級(jí)的聽力和閱讀部分每個(gè)試題都測(cè)試了某一項(xiàng)聽力技能,但從整體上來(lái)看,閱讀和聽力試題不能涵蓋所有的相關(guān)語(yǔ)言技能。而寫作部分和口語(yǔ)部分的試題則幾乎測(cè)試并涵蓋了所有的相關(guān)技能。也就是說(shuō),從考試內(nèi)容看,PETS-5的聽力和閱讀部分的試題不能夠成功測(cè)試出所有的聽力和閱讀能力,試題的代表性也不夠充分;而寫作和口語(yǔ)部分的試題則能夠反映考生應(yīng)有的寫作和口語(yǔ)水平。
另外,試卷中的第二部分是英語(yǔ)知識(shí)運(yùn)用,其目的在于“不僅考查考生對(duì)連貫性和一致性等語(yǔ)段特征的辨識(shí)能力,還考查考生對(duì)用于一定語(yǔ)境中規(guī)范的語(yǔ)言成分的掌握,這些規(guī)范的語(yǔ)言成分主要是詞匯和語(yǔ)法結(jié)構(gòu)”。這一部分內(nèi)容特殊,屬于語(yǔ)言知識(shí)的考查,是構(gòu)成語(yǔ)言實(shí)際運(yùn)用能力的基礎(chǔ),不適合用上述工具進(jìn)行分析評(píng)判。筆者曾就此問(wèn)題請(qǐng)教于教育部考試中心PETS考試體系的設(shè)計(jì)者和相關(guān)專家,鑒于英語(yǔ)在中國(guó)作為外語(yǔ)學(xué)習(xí)(EFL)的社會(huì)環(huán)境和中國(guó)特有的學(xué)習(xí)文化,筆者認(rèn)為對(duì)此問(wèn)題的討論當(dāng)另作研究。
本文是對(duì)語(yǔ)言水平測(cè)試效度研究的一個(gè)初步嘗試,在整個(gè)試驗(yàn)過(guò)程中還存在著很多這樣那樣的問(wèn)題。期待著在以后的研究中能夠不斷改進(jìn),促進(jìn)測(cè)試研究的科學(xué)化和規(guī)范化。
參考文獻(xiàn):
[1]AERA,APA, NCME.Standards for Educational and Psychological Testing[M].Washington,DC:AERA,1999:9.
[2]Rosenfeld,M.,Oltman,P.K. Sheppard,K.Investigating the validity of TOEFL:A feasibility study using content and criterion-related strategies[J/OL].2008.08.10.http://www.ets.org/Media/Research/pdf/RM-04-03.pdf.
[3]教育部考試中心.PETS-5考試大綱[M].北京:高等教育出版社,2006.
[4]孫曉敏,張厚粲.效度概念演進(jìn)及其新發(fā)展[J].心理科學(xué),2000,(1):234-235.
[5]Lado,R.Language Testing[M].New York:McGraw-Hill,1961:321.
[6]Messick,S.Validity[A].In R.L.Linn(ed.).Educational Measurement(3rd edition)[C].New York:Macmillan,1989:13.
[7]Canale,M. Swain,M.Theoretical bases of communicative approaches to second language teaching and testing[J].Applied Linguistics,1980,(1):1-47.
[8]Bachman,L.F.Fundamental Considerations in Language Testing[M].Oxford:Oxford University Press,1990:683-686.
[9]鄒申.語(yǔ)言測(cè)試[M].上海:上海外語(yǔ)教育出版社,2005:196.