高懷勇,劉鋒,戢煥奇
(四川農(nóng)業(yè)大學(xué)文法學(xué)院,四川雅安 625014)
基于內(nèi)容證據(jù)的PETS-4口試效度研究
高懷勇,劉鋒,戢煥奇
(四川農(nóng)業(yè)大學(xué)文法學(xué)院,四川雅安 625014)
本研究依據(jù)語(yǔ)言測(cè)試效度理論,通過(guò)檢查表、問(wèn)卷調(diào)查和訪談方法收集“內(nèi)容相關(guān)與內(nèi)容覆蓋”、“測(cè)試任務(wù)特征”和“測(cè)試實(shí)施環(huán)境特征”等口試的“內(nèi)容證據(jù)”,檢驗(yàn)了2013年9月PETS-4口試的效度。研究結(jié)果表明:1)PETS-4口試任務(wù)內(nèi)容相關(guān)和內(nèi)容覆蓋恰當(dāng),符合預(yù)設(shè)的考查內(nèi)容與目標(biāo);2)PETS-4口試任務(wù)特征和實(shí)施環(huán)境特征有利于擬測(cè)構(gòu)念的表現(xiàn),具體表現(xiàn)為:(1)口試任務(wù)充分體現(xiàn)了測(cè)試設(shè)計(jì)者預(yù)設(shè)的“交際模式”、“交際功能”、“口試渠道”和“真實(shí)性”等口試特征,考官語(yǔ)言輸出用語(yǔ)嚴(yán)格一致;(2)測(cè)試場(chǎng)景、施測(cè)程序符合測(cè)試整體要求。上述證據(jù)綜合表明2013年9月的PETS-4口試在內(nèi)容證據(jù)方面具有較高的效度。[關(guān)鍵詞]全國(guó)公共英語(yǔ)等級(jí)考試;口試;效度;內(nèi)容證據(jù)
作為行為測(cè)試(performance testing)之一的英語(yǔ)口語(yǔ)測(cè)試歷來(lái)為研究者所關(guān)注,如:口試研究綜述(楊莉芳,2006;王保云,2006;鄒瓊,2007;呂長(zhǎng)宏等,2008),CET口試效度研究(金艷、郭杰克,2002),TEM口試效度研究(王海貞,2007;黃永紅,2006)。PETS(全國(guó)公共英語(yǔ)等級(jí)考試)是教育部考試中心設(shè)計(jì)并組織實(shí)施的全國(guó)性標(biāo)準(zhǔn)化英語(yǔ)考試,在我國(guó)有很強(qiáng)的影響力,其口試研究亦受到學(xué)界廣泛關(guān)注??v觀目前國(guó)內(nèi)PETS口試研究,雖然在口試特點(diǎn)與交際特征(李潔平,2004;龐繼賢、潘文紅,2007;肖德法、向平,2004)、口試體系設(shè)計(jì)及其特色(劉慶思,2008;金啟軍等,2002)、口試與口語(yǔ)教學(xué)之關(guān)系(向平、肖德法,2003)、口試評(píng)分信度(向平,2003)等方面有廣度和深度的發(fā)展,但就PETS口試效度研究而言,相關(guān)研究缺乏。雖然高懷勇等(2011,2014)探討過(guò)PETS口試效度,但其研究?jī)H限于評(píng)分過(guò)程、試題內(nèi)部結(jié)構(gòu)分析和測(cè)試后效研究。作為大規(guī)模、高風(fēng)險(xiǎn)測(cè)試之一的PETS口試,對(duì)其效度的考查不可依賴單一證據(jù),有必要從不同角度收集證據(jù)來(lái)考察其準(zhǔn)確性與科學(xué)性。國(guó)外雖然有學(xué)者用檢查表法(observation checklist)(如O’Sullivan et al.,2002)和會(huì)話分析法(如Lazaraton,2000)從內(nèi)容證據(jù)視角檢驗(yàn)過(guò)英語(yǔ)口試的效度,但其研究對(duì)象為劍橋大學(xué)考試委員(UCLES)編制的英語(yǔ)口試系統(tǒng),PETS口試在內(nèi)容證據(jù)方面效度如何,有待進(jìn)一步驗(yàn)證?;诖?,本研究依據(jù)語(yǔ)言測(cè)試效度理論,采用檢查表(checklist)、問(wèn)卷調(diào)查和訪談方法從以下三方面收集“內(nèi)容證據(jù)”來(lái)檢驗(yàn)PETS-4口試的效度:1)內(nèi)容相關(guān)和內(nèi)容覆蓋;2)口試任務(wù)特征;3)口試實(shí)施環(huán)境特征。
要談測(cè)試,必須從測(cè)試效度的涵義開(kāi)始。效度是“測(cè)量工具確能測(cè)出其所要測(cè)量特質(zhì)的程度”(楊惠中&Weir,1998:1),即測(cè)試的準(zhǔn)確性和有效性。Messick(1989:7)將效度的涵義界定為“證據(jù)和理論依據(jù)支持基于測(cè)試分?jǐn)?shù)或其它評(píng)估方式所做出的推斷或采取的行動(dòng)的程度”。效度是決定語(yǔ)言測(cè)試與評(píng)價(jià)質(zhì)量的關(guān)鍵(Alderson et al.,1995;Bachman,1990;Messick,1989;Weir,2005),是科學(xué)的測(cè)量工具所必須具備的最重要的條件之一。自20世紀(jì)60年代以來(lái),效度問(wèn)題成為“語(yǔ)言測(cè)試國(guó)際研討會(huì)的一個(gè)永恒話題,并將一如既往”(Bachman,2000: 22)。20世紀(jì)90年代后,效度被普遍認(rèn)為是一個(gè)整體概念 (Messick,1989;Bachman,1990; Cronbach,1988;Anastasi,1988;Weir,2005),該效度框架下的基本觀點(diǎn)有:1)效度是一個(gè)整體概論,構(gòu)念效度是其核心,傳統(tǒng)上不同的效度種類是構(gòu)念效度的不同證據(jù)來(lái)源;2)效驗(yàn)即舉證,效度驗(yàn)證過(guò)程是所有測(cè)試使用者舉證說(shuō)明其合理性的過(guò)程。
測(cè)試界對(duì)效驗(yàn)證據(jù)的討論由來(lái)已久,如Bachmann(1990)認(rèn)為,效驗(yàn)證據(jù)應(yīng)包含:內(nèi)容相關(guān)與覆蓋、效標(biāo)關(guān)聯(lián)性、測(cè)試公平性。美國(guó)心理學(xué)會(huì)(APA 1999)則認(rèn)為效驗(yàn)證據(jù)來(lái)源有五類:測(cè)試內(nèi)容、反應(yīng)過(guò)程、內(nèi)部結(jié)構(gòu)、與其他變量關(guān)系和測(cè)試后效。在此基礎(chǔ)上,Weir(2005)和Shaw&Weir(2007)從實(shí)踐操作的角度對(duì)效度證據(jù)進(jìn)行了梳理,他們認(rèn)為效驗(yàn)證據(jù)有以下五方面:1)理論證據(jù)或認(rèn)知效度;2)內(nèi)容證據(jù)或環(huán)境效度;3)評(píng)分證據(jù);4)測(cè)試后效證據(jù);5)效標(biāo)關(guān)聯(lián)證據(jù)。其中“內(nèi)容證據(jù)”是“影響交際語(yǔ)言測(cè)試質(zhì)量的決定性因素”(Douglas,2000)。Bachman將內(nèi)容證據(jù)分為“內(nèi)容相關(guān)”、“內(nèi)容覆蓋”和“測(cè)試方法”(method facets)三方面。內(nèi)容相關(guān)指“對(duì)相關(guān)測(cè)試的表現(xiàn)行為(即相關(guān)能力)與相應(yīng)任務(wù)的具體明細(xì)或說(shuō)明”(1990:244)。具體來(lái)說(shuō),內(nèi)容相關(guān)包括:1)對(duì)擬測(cè)能力理論構(gòu)念的闡述與界定;2)對(duì)擬測(cè)能力所涉及的相應(yīng)任務(wù)和指標(biāo)的詳細(xì)說(shuō)明。內(nèi)容覆蓋指“測(cè)試任務(wù)能代表所測(cè)能力各方面的程度”(Messick,1989:
10)。也就是說(shuō),內(nèi)容相關(guān)與測(cè)試設(shè)計(jì)者對(duì)擬測(cè)能力構(gòu)念與測(cè)試任務(wù)的界定與詳細(xì)指標(biāo)說(shuō)明有關(guān),內(nèi)容覆蓋與測(cè)試任務(wù)代表擬測(cè)能力的程度有關(guān)。換言之,對(duì)內(nèi)容相關(guān)和內(nèi)容覆蓋的考察可以通過(guò)對(duì)比考試設(shè)計(jì)者對(duì)擬測(cè)構(gòu)念和考試內(nèi)容的具體要求與考試相關(guān)者(考官與考生)和測(cè)試專家對(duì)該考試的認(rèn)識(shí)而獲得。Bachman雖然提出了“測(cè)試方法”維度,卻沒(méi)有提出具體的操作方法。鑒于此,Weir對(duì)測(cè)試方法進(jìn)行了細(xì)化,他認(rèn)為“一項(xiàng)測(cè)試中所選擇的任務(wù)……與任務(wù)本身對(duì)語(yǔ)言和應(yīng)試者的能力要求有關(guān),也與任務(wù)本身和任務(wù)實(shí)施環(huán)境所要求的條件有關(guān)”(2005:19)。也就是說(shuō),內(nèi)容證據(jù)除了應(yīng)該考察測(cè)試所要測(cè)量能力的詳細(xì)指標(biāo)(即內(nèi)容相關(guān))和測(cè)試任務(wù)的代表性(即內(nèi)容覆蓋)外,還應(yīng)包括“測(cè)試任務(wù)特征“和“測(cè)試實(shí)施環(huán)境特征”。在討論口試效度驗(yàn)證時(shí),Weir將口試“任務(wù)特征”分為“語(yǔ)言輸入與輸出”和交談考官(interlocutor)兩個(gè)方面。前者主要考量口試參與者在口試過(guò)程中的語(yǔ)言“交際模式”、“交際功能”、“口試渠道”(即測(cè)試口試的方式)和“真實(shí)性”四個(gè)方面(Weir,2005:46)。后者主要考查考官的語(yǔ)言輸出。“實(shí)施環(huán)境特征”是“測(cè)試環(huán)境接近真實(shí)語(yǔ)言使用環(huán)境的程度”(O’Sullivan et al.,2002:33-56),即測(cè)試物質(zhì)環(huán)境應(yīng)符合測(cè)試要求,操作程序應(yīng)一致(李清華,2007)。正是為了突出語(yǔ)言使用的社會(huì)性,Weir才強(qiáng)調(diào)收集“任務(wù)特征”和“實(shí)施環(huán)境特征”的重要性,因?yàn)檎Z(yǔ)言測(cè)試過(guò)程不是發(fā)生在真空中,只有了解測(cè)試任務(wù)特征和真實(shí)的語(yǔ)言使用環(huán)境,我們才有可能使語(yǔ)言測(cè)試任務(wù)盡可能復(fù)制(模擬)這種過(guò)程,從而反映受試使用語(yǔ)言的真實(shí)能力(李清華,2007)。
圖1 口語(yǔ)測(cè)試“內(nèi)容證據(jù)”考查示意圖
上述理論探討促進(jìn)了人們對(duì)測(cè)試內(nèi)容證據(jù)機(jī)理的認(rèn)識(shí),但是作為有影響的大規(guī)模測(cè)試之一的PETS口試,對(duì)其測(cè)試內(nèi)容方面的效度考查不可依賴主觀想象簡(jiǎn)單推測(cè)。有必要在具體的社會(huì)環(huán)境下進(jìn)行實(shí)證研究?;诖耍狙芯繑M考查PETS口試相關(guān)人員(考試中的考官與考生)和測(cè)試專家對(duì)該測(cè)試的認(rèn)識(shí)在多大程度上與測(cè)試設(shè)計(jì)者的預(yù)設(shè)目標(biāo)相一致,其操作機(jī)理如圖1所示。
3.1 研究問(wèn)題
本研究擬回答以下兩個(gè)問(wèn)題:
1)PETS-4口試任務(wù)“內(nèi)容相關(guān)和內(nèi)容覆蓋”是否符合預(yù)設(shè)的考查內(nèi)容與目標(biāo)?具體要回答的問(wèn)題是:(1)PETS-4口試測(cè)試任務(wù)是否考查了擬測(cè)構(gòu)念的詳細(xì)指標(biāo)?(2)PETS-4口試測(cè)試任務(wù)能否充分代表擬測(cè)構(gòu)念?
2)PETS-4口試任務(wù)特征和實(shí)施環(huán)境特征是否有利于應(yīng)測(cè)構(gòu)念的表現(xiàn)?具體要回答的問(wèn)題是:(1)PETS-4測(cè)試任務(wù)是否充分體現(xiàn)測(cè)試設(shè)計(jì)者預(yù)設(shè)的特征?(2)interlocutor的語(yǔ)言輸出是否有利于擬測(cè)構(gòu)念的表現(xiàn)?(3)PETS-4測(cè)試物質(zhì)環(huán)境與操作程序是否有利于擬測(cè)構(gòu)念的表現(xiàn)?
3.2 研究對(duì)象
參加本研究檢查表調(diào)查的對(duì)象為13位國(guó)內(nèi)語(yǔ)言測(cè)試專家(2位為博導(dǎo),11位為博士或博士后研究人員)。參加本研究問(wèn)卷調(diào)查的對(duì)象有:1)參加先導(dǎo)性實(shí)驗(yàn)的60名四川某高職院??忌?均參加了2012年9月PETS-4口試);2)川、陜兩地參加2013年9月PETS-4口試的考生461人,考官38人(其中30人為英語(yǔ)口語(yǔ)教師,8人為專業(yè)從事語(yǔ)言測(cè)試的教育行政人員)。參加本研究訪談的對(duì)象為參加上述問(wèn)卷調(diào)查的10位考官(7位英語(yǔ)口語(yǔ)教師和3位教育行政人員)和20名考生。
3.3 研究工具
本研究根據(jù)《PETS考試指南》下稱《指南》),對(duì)口語(yǔ)能力的界定及考試內(nèi)容的要求并結(jié)合O’Sullivan(2002)的口試內(nèi)容證據(jù)特征量表設(shè)計(jì)了PETS-4口試內(nèi)容證據(jù)調(diào)查問(wèn)卷,訪談提綱和檢查表。在進(jìn)行正式研究之前,本研究進(jìn)行了先導(dǎo)性實(shí)驗(yàn),目的在于確定問(wèn)卷的信度與結(jié)構(gòu)效度。根據(jù)第一次先導(dǎo)性實(shí)驗(yàn)(30名受試)結(jié)果,研究者對(duì)問(wèn)卷進(jìn)行了修改(如拆分、合并部分問(wèn)卷題目;避免使用生僻術(shù)語(yǔ),必要時(shí)在問(wèn)卷中進(jìn)行特別說(shuō)明、解釋,以避免調(diào)查對(duì)象不理解問(wèn)卷內(nèi)容)。并進(jìn)行第二次先導(dǎo)性實(shí)驗(yàn)(另30名受試),通過(guò)SPSS16.0對(duì)實(shí)驗(yàn)結(jié)果進(jìn)行因子分析和信度分析,結(jié)果見(jiàn)表1和圖2。從表1和圖2可見(jiàn):問(wèn)卷中的27個(gè)問(wèn)題包含3個(gè)維度(因子),第一個(gè)維度為問(wèn)題1-12,調(diào)查有關(guān)PETS-4“內(nèi)容相關(guān)與內(nèi)容覆蓋”,其信度為0.816;第二個(gè)維度為問(wèn)題13-25,調(diào)查PETS-4“口試任務(wù)特征”,其信度為0.848;第三個(gè)維度為問(wèn)題26-27,考察PET-4“實(shí)施環(huán)境特征”,其信度為0.864。整個(gè)問(wèn)卷的內(nèi)部一致性系數(shù)為R=0.92。訪談提綱包括有關(guān)內(nèi)容證據(jù)三個(gè)方面的六個(gè)問(wèn)題。檢查表是用專業(yè)術(shù)語(yǔ)對(duì)問(wèn)卷的提煉,與問(wèn)卷內(nèi)容一致。
表1 內(nèi)容證據(jù)調(diào)查問(wèn)卷結(jié)構(gòu)、因子分析與信度分析表
圖2 調(diào)查問(wèn)卷因子結(jié)構(gòu)圖
3.4 研究步驟與數(shù)據(jù)收集
征得考場(chǎng)同意,研究者對(duì)4個(gè)考室進(jìn)行口試過(guò)程全程錄像,并隨機(jī)選擇了8組考生(每個(gè)考室4人,共16人)的錄像文件作為測(cè)試專家在檢查表上評(píng)判的依據(jù)(觀看視頻錄像后作出選擇)。錄像內(nèi)容隨同檢查表及PETS-4口試試卷(見(jiàn)附錄4)一同通過(guò)電子郵件發(fā)給13位專家。檢查表在兩個(gè)月內(nèi)完成。問(wèn)卷調(diào)查在口試結(jié)束后進(jìn)行,時(shí)間約20分鐘。為避免問(wèn)卷調(diào)查本身的局限性,本研究于問(wèn)卷調(diào)查結(jié)束后對(duì)10位口試考官和20名學(xué)生進(jìn)行訪談。對(duì)考官的訪談采用半開(kāi)放一對(duì)一式訪談(semi-structured),時(shí)間為15分鐘/人。對(duì)學(xué)生的訪談以5人/組/15分鐘的形式進(jìn)行。檢查表和調(diào)查問(wèn)卷采用利克特五級(jí)量表。調(diào)查對(duì)象在量表上的選擇表明他們對(duì)選項(xiàng)的態(tài)度:1=完全不同意;2=不同意;3=不知道;4=同意;5=完全同意。分?jǐn)?shù)的高低代表同意的程度。本研究發(fā)出檢查表13份,問(wèn)卷499份,收回有效檢查表11份,問(wèn)卷442份。我們對(duì)訪談內(nèi)容進(jìn)行錄音和文字轉(zhuǎn)換以備后用。
調(diào)查統(tǒng)計(jì)結(jié)果顯示(見(jiàn)表2),測(cè)試專家、考生和考官普遍認(rèn)為PETS-4口試在內(nèi)容證據(jù)方面有較高效度:92.63%的考官和考生(下稱受試)和87.12%的專家認(rèn)為PETS-4口試測(cè)試任務(wù)考查了擬測(cè)構(gòu)念的詳細(xì)指標(biāo),充分代表了擬測(cè)構(gòu)念;92.09%的受試和96.03%的專家贊成PETS-4測(cè)試任務(wù)充分體現(xiàn)了測(cè)試設(shè)計(jì)者預(yù)設(shè)的特征,考官語(yǔ)言輸出用語(yǔ)嚴(yán)格一致,有利于擬測(cè)構(gòu)念的表現(xiàn);88.47%的受試和84.24%的專家贊成PETS-4測(cè)試物質(zhì)環(huán)境與操作程序均有利于擬測(cè)構(gòu)念的表現(xiàn)。為使我們收集的證據(jù)有說(shuō)服力,下面我們結(jié)合問(wèn)卷結(jié)果和訪談結(jié)果進(jìn)一步分析討論“內(nèi)容相關(guān)和內(nèi)容覆蓋”、“口試任務(wù)特征”和“實(shí)施環(huán)境特征”證據(jù)。
4.1 內(nèi)容相關(guān)和內(nèi)容覆蓋
問(wèn)卷中有關(guān)“內(nèi)容相關(guān)與內(nèi)容覆蓋”的問(wèn)題(1-12題)是根據(jù)《指南》對(duì)口語(yǔ)能力的界定及考試內(nèi)容的要求而進(jìn)行設(shè)計(jì)的?!吨改稀分性敿?xì)界定了PETS-4口試的擬測(cè)構(gòu)念及其詳細(xì)指標(biāo),并對(duì)PETS-4口試測(cè)試內(nèi)容有較清晰的界定與闡述(2003:22)。將《指南》對(duì)考試構(gòu)念和內(nèi)容的要求與考試相關(guān)者(考官與考生)以及測(cè)試專家對(duì)該考試的認(rèn)識(shí)進(jìn)行比對(duì),我們可以檢驗(yàn)PETS-4口試“內(nèi)容相關(guān)與內(nèi)容覆蓋”是否達(dá)到了《指南》的總體設(shè)計(jì)目標(biāo)。如果施測(cè)任務(wù)與《指南》要求一致,我們就得到了內(nèi)容相關(guān)和覆蓋的一個(gè)證據(jù)(McNamara,2006)。從表2
可見(jiàn),87.12%的專家和92.63%的受試贊成PETS-4口試測(cè)試任務(wù)考查了《指南》擬測(cè)的口語(yǔ)能力及其詳細(xì)指標(biāo),充分代表了擬測(cè)的口語(yǔ)能力(M分別為3.656和4.194)。這一結(jié)論也在訪談中得到了印證,大多數(shù)訪談?wù)?如I5,I13,I16,I22)①均認(rèn)為PETS-4考查了“英語(yǔ)口語(yǔ)的各方面能力,任務(wù)覆蓋面廣,很全面,類型眾多……要求層次不一”。因此PETS-4各項(xiàng)測(cè)試任務(wù)都滿足了《指南》對(duì)口語(yǔ)能力的要求和覆蓋范圍。因此我們得出結(jié)論:PETS-4口試任務(wù)“內(nèi)容相關(guān)和內(nèi)容覆蓋”符合預(yù)設(shè)的考查內(nèi)容與目標(biāo)。
表2 調(diào)查問(wèn)卷結(jié)果統(tǒng)計(jì)(N=463)
4.2 口試任務(wù)特征
4.2.1 交際模式
口試中誘導(dǎo)出的話語(yǔ)功能和交互性受不同交際模式的影響(Lier,1989)??谠嚨慕换バ猿潭取叭Q于所采用的交際模式,如講座、面試、對(duì)話等”(Weir,2005:71)。對(duì)話是比較理想的交際模式,原因在于在該交際模式下,交際雙方同等擁有話語(yǔ)權(quán)和交際責(zé)任,而不是由考官獨(dú)自控制話語(yǔ)權(quán),承擔(dān)交際責(zé)任(同上)。因此,“一項(xiàng)有效度的口試必須包含交互性”(同上: 72)。從表2可見(jiàn),所有專家和98.75%的受試贊成PETS-4口試的交際模式主要是強(qiáng)調(diào)交際的“互動(dòng)性”與“責(zé)任”的面對(duì)面對(duì)話模式(第13題)。綜合起來(lái),訪談?wù)哒J(rèn)為面對(duì)面對(duì)話模式有利于體現(xiàn)口試的互動(dòng)性(I23,I26)。測(cè)試題目的設(shè)定方便考生參與到交際中去,彼此應(yīng)答,接替話輪,共同承擔(dān)交際責(zé)任、構(gòu)建對(duì)話、完成言語(yǔ)交際任務(wù),實(shí)現(xiàn)口語(yǔ)交際的“社會(huì)性”(Luoma,2004:20)??脊買28認(rèn)為:“有信息差的試題設(shè)計(jì)使得聽(tīng)話者必須根據(jù)講話者的內(nèi)容組織語(yǔ)言,講話者必須根據(jù)聽(tīng)話者的反應(yīng)調(diào)節(jié)自己的詞匯和信息,因?yàn)閷?duì)話雙方持有的信息不均等,需要進(jìn)行真實(shí)的交際溝通。所有的交際都是以信息溝通為出發(fā)點(diǎn),而不是以語(yǔ)言形式為出發(fā)點(diǎn),信息的獲取和信息的表達(dá)都是在參與交際的各方之間互動(dòng)完成。這與傳統(tǒng)的口語(yǔ)考試中考官提問(wèn)考生回答截然不同”。
4.2.2 交際功能
口試中的“交際功能”(即話語(yǔ)的illocutionary force)是口語(yǔ)測(cè)試與評(píng)估中重要的考量因素(ETS 2001)。根據(jù)歐盟2001年制定的《歐洲語(yǔ)言通用參照框架》,交際功能可以分為兩類:宏觀功能和微觀功能(Luoma,2004)。前者指使用語(yǔ)塊描述、敘述、評(píng)價(jià)、解釋等;后者指實(shí)施請(qǐng)求、道歉、邀請(qǐng)、勸說(shuō)、建議等具體語(yǔ)言行為??谡Z(yǔ)任務(wù)應(yīng)該考查這兩方面的能力(O’Sullivan et al.,2002)。由表2可見(jiàn),分別有83.76%受試和84.25%的專家認(rèn)為PETS-4有效考查了語(yǔ)言的交際功能,具體情況見(jiàn)表3。結(jié)合訪談內(nèi)容,訪談?wù)逫1,I26,I29認(rèn)為PETS-4通過(guò)詢問(wèn)考生有關(guān)生活、工作、學(xué)習(xí)等方面的問(wèn)題考查考生問(wèn)候、打招呼、道歉、致謝等微觀功能。而訪談?wù)逫28,I29,I30則認(rèn)為利用有信息差的圖片PETS-4考查了描述、敘述、評(píng)價(jià)、解釋等宏觀功能。PETS-4可以說(shuō)是綜合考查語(yǔ)言宏觀功能和微觀功能的測(cè)試模式典范之一。
4.2.3 口試渠道
“口試渠道”指通過(guò)什么方式來(lái)測(cè)試,是面對(duì)面談話、電話談話、看圖說(shuō)話還是獨(dú)白等。測(cè)試方式不一樣,誘導(dǎo)出的語(yǔ)言產(chǎn)出會(huì)有差別(Weir,2005)。表2顯示,所有專家和94.96%的受試贊成PETS-4口試以面對(duì)面對(duì)話方式為口試渠道。一接受訪談的考官(I21)以一項(xiàng)測(cè)試任務(wù)為例說(shuō)明PETS-4口試的測(cè)試渠道:考官分別給兩考生具體內(nèi)容不同但都是關(guān)于“野外生存”的圖片,要求考生進(jìn)行交互描述,告訴對(duì)方自己圖片的內(nèi)容(如,一考生持有圖片顯示野外生存需要“火柴、帳篷,電話”等工具,而另一考生持有的圖片顯示野外生存需要“手電筒、指南針、藥品、水”等必須品,考生需要就圖片信息進(jìn)行描述、溝通),在溝通的基礎(chǔ)上,考生相互討論、協(xié)商并決定野外生存需要帶哪些物品,并說(shuō)明選用該物品的理由,并最終形成野外生存物品必備清單(問(wèn)題解決)。面對(duì)面口試渠道無(wú)疑有助于誘導(dǎo)出反映受試口語(yǔ)真實(shí)水平的樣本。適當(dāng)?shù)目谠嚽篮筒蓸尤蝿?wù)的多樣化(問(wèn)候-描述-討論-問(wèn)題解決)是保證測(cè)試效度的一個(gè)重要因素(Bachman&Palmer,1996)。
4.2.4 真實(shí)性
真實(shí)性是決定一項(xiàng)測(cè)試質(zhì)量的關(guān)鍵指標(biāo)之一,是“一項(xiàng)測(cè)試任務(wù)特征與目的語(yǔ)使用任務(wù)特征的一致性程度”(Bachman&Palmer,1996:23),一致性程度越高,測(cè)試真實(shí)性就越高(Bachman,1990:123)。測(cè)試任務(wù)真實(shí)性的考查離不開(kāi)對(duì)目的語(yǔ)使用特征的考查。英國(guó)語(yǔ)言測(cè)試專家Weir(1993)對(duì)目的語(yǔ)使用特征作了比較詳盡的描述,他認(rèn)為操本族語(yǔ)者的英語(yǔ)技能主要體現(xiàn)在三個(gè)方面:(1)常規(guī)技能(routine),如問(wèn)候、陳述、解釋等;(2)即席技能(improvisational),如表明目的、確認(rèn)不/理解、尋求提示等;(3)微觀語(yǔ)言技能(micro-linguistic),如話輪轉(zhuǎn)換、補(bǔ)償策略等。調(diào)查結(jié)果顯示(見(jiàn)表2),分別有83.74%的受試和85.92%的專家贊成PETS-4口試任務(wù)考查了這三種口語(yǔ)技能,具有真實(shí)性,具體情況見(jiàn)表4。訪談考官I21和I26認(rèn)為在微觀語(yǔ)言技能方面,PETS-4口試中圖片的描述與討論起著關(guān)鍵的作用。由不同圖片指示誘導(dǎo)難度呈等級(jí)、具有信息差的一般性話題使考生無(wú)論是在“圖片描述”環(huán)節(jié)還是在“討論與問(wèn)題解決”環(huán)節(jié)都要進(jìn)行必要的話輪轉(zhuǎn)換、修正、補(bǔ)救策略甚至尋求提示等以順利完成交際任務(wù)(龐繼賢、潘文紅,2007)。多數(shù)訪談考生與考官都認(rèn)為無(wú)論是從“問(wèn)候”到“描述”,還是從“討論”到“問(wèn)題解決”,PETS-4均對(duì)語(yǔ)言的三種技能進(jìn)行了全面考察??梢哉f(shuō)這是一種符合現(xiàn)代語(yǔ)言交際理論有交際真實(shí)性的口試形式。
表4 PETS-4口試真實(shí)性調(diào)查結(jié)果(N=463)
4.2.5 Interlocutor的語(yǔ)言輸入
“口試考官因素可能是口試中最難界定的變量”(Weir,2005:80)。只要口語(yǔ)測(cè)試中有考官的參與,他們說(shuō)什么、做什么,對(duì)考生的表現(xiàn)都有影響。在PETS-4口試中,考官的語(yǔ)言指令對(duì)考生完成測(cè)試中規(guī)定的任務(wù)有很大影響。如interlocutor的語(yǔ)速、口音、清晰度、語(yǔ)篇長(zhǎng)度等都會(huì)對(duì)考生測(cè)試表現(xiàn)產(chǎn)生影響(Weir,2005:154)。作為interlocutor的考官技能和可比較性是測(cè)試是否公正的重要考量因素(Luoma,2004:52)。因此測(cè)試開(kāi)發(fā)者應(yīng)盡量編制清晰、明白、一致的考官指令,對(duì)考官進(jìn)行培訓(xùn)和認(rèn)證(Bachman&Palmer,1996)。為了保證測(cè)試效度,PETS-4口試對(duì)考官培訓(xùn)、考官資格認(rèn)證,特別是考場(chǎng)指令(如考官在測(cè)試中講話的多少、講話的復(fù)雜程度、話語(yǔ)的所指范圍、語(yǔ)言的功能范圍等)都做出了詳盡規(guī)定(《PETS口試教師指南》,2003:4)。這一點(diǎn)得到了調(diào)查結(jié)果和訪談結(jié)果的印證:所有訪談?wù)摺y(cè)試專家和98.79%的受試均認(rèn)為interlocutor的語(yǔ)言輸入嚴(yán)格一致。其中所有專家和98%的受試認(rèn)為考官主持考試的指導(dǎo)語(yǔ)是嚴(yán)格一致的(第24題),95.58%的受試和所有專家贊成考官的語(yǔ)言輸入不因考生而異、不因考場(chǎng)而異(第25題)確保了口試的公平性。這是直接測(cè)試中非常難得的。
4.3 實(shí)施環(huán)境特征
測(cè)試實(shí)施的物質(zhì)環(huán)境和實(shí)測(cè)程序會(huì)影響考生的測(cè)試體會(huì)從而影響考試結(jié)果,對(duì)保證測(cè)試的公正和可比性尤為重要(Luoma,2004)。測(cè)試物質(zhì)環(huán)境具體指口試考場(chǎng)的布景和座位安排等。在口語(yǔ)測(cè)試中,如果物質(zhì)環(huán)境不能反映出考生將來(lái)所使用的語(yǔ)言,那么考試效度將受到威脅(Khalifa,2003)。實(shí)測(cè)程序的差異會(huì)誘導(dǎo)出不同的語(yǔ)言產(chǎn)出,從而影響考生表現(xiàn)(Weir,2005)。調(diào)查結(jié)果顯示85.47%的受試和84.24%的專家同意PETS-4口試的實(shí)施環(huán)境有利于擬測(cè)構(gòu)念的表現(xiàn)(見(jiàn)表2)。訪談考官I26和I28認(rèn)為,在統(tǒng)一的施測(cè)程序下,PETS-4的施測(cè)程序嚴(yán)格一致。這一點(diǎn)也得到82.36%的受試和86.5%的專家認(rèn)同(第26題)。在考場(chǎng)的布景上,88.58%的受試和81.98%的專家認(rèn)為PETS-4考場(chǎng)的布景創(chuàng)造了輕松的氣氛(第27題)。這一點(diǎn)得到訪談結(jié)果的印證,訪談考官I23和I27認(rèn)為PETS-4口試對(duì)考場(chǎng)房間大小、桌子擺放位置和擺放方式、燈光位置、光線強(qiáng)度等都有具體規(guī)定與要求(如房間不宜過(guò)大,燈光或陽(yáng)光不能從考官的背后照射過(guò)來(lái);應(yīng)該將桌子擺在距門不遠(yuǎn)的地方,避免考生因在口試考官的注視下穿過(guò)房間而緊張;考官應(yīng)該同考生呈直角就坐,避免考生和考官面對(duì)面以減少考生的緊張感)??忌椒潘桑a(chǎn)出語(yǔ)言的采樣量越大,受與構(gòu)念無(wú)關(guān)變量影響也就越少,口試效度也就越高(Messick,1989)。測(cè)試環(huán)境設(shè)置和施測(cè)過(guò)程的人性化是PETS-4口試同等關(guān)注語(yǔ)言測(cè)試社會(huì)認(rèn)知維度的真實(shí)體現(xiàn)。
綜上所述,本研究通過(guò)檢查表、調(diào)查問(wèn)卷和訪談方法收集PETS-4口試“內(nèi)容相關(guān)和內(nèi)容覆蓋”、“任務(wù)特征”和“實(shí)施環(huán)境特征”等口試的“內(nèi)容證據(jù)”,驗(yàn)證了PETS-4口試的效度。
分析結(jié)果表明:1)PETS-4口試測(cè)試任務(wù)考查了《指南》規(guī)定的口語(yǔ)能力詳細(xì)指標(biāo),口試測(cè)試任務(wù)充分代表了擬測(cè)口語(yǔ)能力。表明PETS-4口試“內(nèi)容相關(guān)和內(nèi)容覆蓋”符合預(yù)設(shè)的考查內(nèi)容與目標(biāo)。2)口試任務(wù)充分體現(xiàn)了測(cè)試設(shè)計(jì)者預(yù)設(shè)的“交際模式”、“交際功能”、“口試渠道”和“真實(shí)性”等特征,考官的語(yǔ)言輸出嚴(yán)格一致,增強(qiáng)了測(cè)試的效度。測(cè)試物質(zhì)環(huán)境符合測(cè)試總體要求、施測(cè)程序一致。即PETS-4口試任務(wù)特征和實(shí)施環(huán)境特征有利于擬測(cè)構(gòu)念的表現(xiàn)。這些源自不同渠道的證據(jù)綜合表明2013年9月的PETS-4口試在內(nèi)容證據(jù)方面有很高的效度。
本研究通過(guò)檢查表、調(diào)查問(wèn)卷和訪談方法對(duì)PETS-4口試的內(nèi)容證據(jù)進(jìn)行了研究,雖然由于試題例證的不足(僅限于2013年)以及統(tǒng)計(jì)分析的缺陷(僅僅考查百分比和平均分),本結(jié)論不能概括整個(gè)PETS-4內(nèi)容證據(jù)情況,但管中窺豹,可見(jiàn)一斑。本研究對(duì)PETS口試內(nèi)容效度的探索能為眾多PETS口試研究增加新的例證,對(duì)提高PETS口試的科學(xué)性和有效性作出有益探索,同時(shí),本研究有望能啟發(fā)測(cè)試研究者采用更科學(xué)、有效的研究方法,如有聲思維法(think aloud)、內(nèi)省法(introspection)、回顧法(retrospection)等方法從不同視角對(duì)其他測(cè)量工具的效度進(jìn)行更具普遍意義、更深入、細(xì)致的研究。
*本文在寫作過(guò)程中得到了上海交通大學(xué)金艷教授的悉心指導(dǎo),謹(jǐn)致謝忱!錯(cuò)訛之處,概由本人負(fù)責(zé)。
注釋:
①I表示Interviewee,I11表示第11位接受訪談?wù)?,同理可解釋文中的I18,I13,等。限于篇幅,有興趣者可向作者索取有關(guān)錄音、視頻、文字資料。
[1]Alderson,J.C.,C.Clapham&D.Wall.Language Test Construction and Evaluation[M].Cambridge:Cambridge University Press,1995.
[2]Anastasi,A.Psychological Testing(6th ed.)[M].New York:Macmillan,1988.
[3]APA.Standards for Educational and Psychological Testing[Z].Washington,DC:APA,1999.
[4]Bachman,L.F.Fundamental Considerations in Language Testing[M].Shanghai:Shanghai Foreign Language Education Press,1990.
[5]Bachman,L.F.Modern language testing at the turn of the century:Assuring that what we count counts[J].Language Testing,2000,17(1):1-42.
[6]Bachman,L.F&A.Palmer.Language Testing in Practice[M].Oxford:Oxford University Press,1996.
[7]Cronbach,L.J.Five Perspectives on validity Argument[C].In H.Wainer&H.Braun(eds.).Test Validity.Hillsdale,NJ:Lawrence Erlbaun,1988.3-17.
[8]Douglas,D.Assessing Language for Specific Purposes:Theory and Practice[M].Cambridge:CUP,2000.
[9]ETS.Test of Spoken English and Speak Score User Guide[Z].Princeton,NJ:Educational Testing Service.http://www.toefl.org/tse/tesindex.html.2001.[2014-03-05]
[10]Khalifa,H.(ed).Student Achievement Test Development Manual[Z].Egypt:USAID,2003.
[11]Lazaraton,A.A qualitative approach to the validation of oral language tests[J].Studies in Language Testing,Ser.14.Cambridge:Cambridge University Press,2000.
[12]Lier,L.Reeling,writhing,drawling,stretching and fainting in coils:Oral proficiency interviews as conversa-
tion[J].TESOL Quarterly,1989,23(3):489-503.
[13]Luoma,S.Assessing Speaking[M].Cambridge:Cambridge University Press,2004.
[14]McNamara,T.Assessment of second language proficiency[A].In Keith Brown(ed.).Encyclopedia of Language and Linguistics[C].Elsevier Science,2006.251-271.
[15]Messick,S.A.Validity[C].In R.L.Linn(ed.).Educational Measurement(3rd.ed.).New York:Macmillan,1989.3-103.
[16]O’Sullivan,B.,C.Weir&N.Savill.Using observation checklists to validate speaking test tasks[J].Language Testing,2002,19(1):33-56.
[17]Shaw,S.&C.J.Weir.Examining writing in a second language[A].Studies in Language Testing 26[C].Cambridge:Cambridge University Press/Cambridge ESOL,2007.
[18]Weir,C.J.Understanding and Developing Language Tests[M].New York:Prentice Hall,1993.
[19]Weir,C.J.Language Testing and Validation:An Evidence-Based Approach[M].Palgrave:Macmillan,2005.
[20]高懷勇,戢煥奇,劉峰,汪定明.基于試題內(nèi)部結(jié)構(gòu)和評(píng)分過(guò)程的口試構(gòu)念效度研究——以PETS四級(jí)為例[J].山東外語(yǔ)教學(xué),2011,(4):49-55.
[21]高懷勇,劉峰,戢煥奇.基于測(cè)試后效證據(jù)的PETS口試效度研究[J].解放軍外國(guó)語(yǔ)學(xué)院學(xué)報(bào),2014,(5):40-48.
[22]黃永紅.英語(yǔ)專業(yè)四級(jí)口語(yǔ)測(cè)試的信度和效度[J].外語(yǔ)研究,2006,(3):36-38.
[23]教育部考試中心.全國(guó)英語(yǔ)等級(jí)考試PETS口試教師指南[R].北京:教育部,2003.
[24]教育部考試中心.全國(guó)英語(yǔ)等級(jí)考試PETS考試指南(第二版)[R].北京:教育部,2003.
[25]金啟軍,李思國(guó),梁興莉.全國(guó)公共英語(yǔ)等級(jí)考試體系:理論與實(shí)踐[J].外語(yǔ)與外語(yǔ)教學(xué),2002,(4):38-46.
[26]金艷,郭杰克.大學(xué)英語(yǔ)四、六級(jí)考試非面試型口語(yǔ)考試效度研究[J].外語(yǔ)界,2002,(5):72-79.
[27]李潔平.PETS口試特點(diǎn)及信度和效度:兼談口試中的失誤與應(yīng)試策略[J].繼續(xù)教育研究,2004,(4): 90-92.
[28]李清華.《語(yǔ)言測(cè)試與效度驗(yàn)證——基于證據(jù)的研究方法》述介[J].現(xiàn)代外語(yǔ),2007,(2):214-217.
[29]劉慶思.全國(guó)英語(yǔ)等級(jí)考試(PETS)計(jì)算機(jī)輔助口語(yǔ)考試研究[J].中國(guó)外語(yǔ),2008,(2):7-9.
[30]呂長(zhǎng)宏,宋冰,王焰,劉文麗.口語(yǔ)測(cè)試評(píng)分標(biāo)準(zhǔn)比較研究[J].外語(yǔ)教學(xué)與研究,2008,(6):453-458.
[31]龐繼賢,潘文紅.PETS-3口試的會(huì)話分析[J].外語(yǔ)與外語(yǔ)教學(xué),2007,(10):12-17.
[32]王保云.外語(yǔ)口試的形式評(píng)析——面試、錄音口試和機(jī)助測(cè)試[J].外語(yǔ)電化教學(xué),2006,(1):60-64.
[33]王海貞.基于評(píng)分過(guò)程證據(jù)的英語(yǔ)專業(yè)四級(jí)口試效度研究[J].解放軍外國(guó)語(yǔ)學(xué)院學(xué)報(bào),2007,(4):49-53.
[34]肖德法,向平.交際策略與PETS口試研究[J].外語(yǔ)與外語(yǔ)教學(xué),2004,(12):16-18.
[35]向平.論提高PETS口試評(píng)分的信度——對(duì)一次PETS口試量分統(tǒng)計(jì)結(jié)果的思考[J].中國(guó)成人教育,2003,(12):87-89.
[36]向平,肖德法.PETS口試對(duì)成人英語(yǔ)口語(yǔ)教學(xué)的啟示[J].中國(guó)成人教育,2003,(10):74-75.
[37]楊惠中,C.J.Weir.大學(xué)英語(yǔ)四、六級(jí)考試效度研究[M].上海:上海外語(yǔ)教育出版社,1998.
[38]楊莉芳.近二十年口語(yǔ)測(cè)試研究中存在的主要問(wèn)題[J].外語(yǔ)教學(xué),2006,(1):42-48.
[39]鄒瓊.普通高校大學(xué)英語(yǔ)口語(yǔ)水平測(cè)試模式研究[J].四川外語(yǔ)學(xué)院學(xué)報(bào),2007,(6):71-74.
Validation Study of PETS-4 Oral Test:A Study Based on Content Evidence
GAO Huai-yong,LIU Feng,JI Huan-qi
(College of Literature and Law,Sichuan Agricultural University,Ya’an 625014,China)
This study,employing checklist,questionnaire and interview,validated PETS-4 oral test administered in Sep 2013,on the basis of content-related evidence by collecting evidence from“content-related”,“content-coverage”,“task demand”and features of“the context of oral test”.The results indicate that:1)test tasks in PETS-4 do represent and cover the target domain;2)The characteristics of test tasks and contexts both facilitate the construct supposed to be tested,specifically:(1)test-tasks in PETS-4 fully represent the presupposed characteristics of oral communication in terms of discourse mode,communicative function,channel and authenticity.Language input of interlocutors is strict and uniform;(2) settings and administration settings all meet the general requirements of oral test.Considering the evidence listed above,we may conclude that PETS-4 oral test administered in Sep 2013 is of high validity in term s of content-related evidence.
Public English Test System;oral test;validity;content-related evidence
H319
A
1002-2643(2015)03-0047-10
10.16482/j.sdwy37-1026.2015-03-006
2014-09-08
本文為國(guó)家社科基金項(xiàng)目“整體效度觀下的語(yǔ)言測(cè)試效度研究:基于證據(jù)的效度驗(yàn)證”(項(xiàng)目編號(hào):13BYY085)的部分成果。
高懷勇(1974-),男,四川雅安人,碩士,副教授。研究方向:語(yǔ)言測(cè)試。劉峰(1980-),男,江西吉首人,博士,講師。研究方向:二語(yǔ)習(xí)得、語(yǔ)言測(cè)試。戢煥奇(1975-),男,四川眉山人,碩士,講師。研究方向:應(yīng)用語(yǔ)言學(xué)。