摘要: 本文作者通過測(cè)試?yán)碚撗芯亢蛿?shù)據(jù)分析,探討了全國公共英語等級(jí)考試口語測(cè)試的信度和效度。就測(cè)試的信度而言,要側(cè)重施測(cè)(準(zhǔn)備形式和測(cè)試過程)、測(cè)試內(nèi)容(長度、難易程度)和評(píng)分(評(píng)分標(biāo)準(zhǔn)、評(píng)分依據(jù)、評(píng)分者)等方面的可靠性。測(cè)試的效度則應(yīng)檢驗(yàn)該測(cè)試是否具有內(nèi)容效度、表面效度、標(biāo)準(zhǔn)效度(預(yù)示效度和共時(shí)效度)和理論效度,同時(shí)利用可靠系數(shù)檢驗(yàn)該測(cè)試的信度。
關(guān)鍵詞: 全國公共英語等級(jí)考試口語測(cè)試信度效度
口語測(cè)試?yán)碚撌钦Z言測(cè)試學(xué)的一個(gè)重要組成部分,同時(shí)也是應(yīng)用語言學(xué)研究的一個(gè)領(lǐng)域,即外語口語理論在外語口語教學(xué)測(cè)試方面的實(shí)際應(yīng)用。國內(nèi)對(duì)于口語考試的效度和信度的研究很少,對(duì)于公共英語等級(jí)考試口語測(cè)試的效度和信度的研究更是寥寥無幾。由教育部考試中心推出的全國公共英語等級(jí)考試(PETS),是一種非學(xué)歷性的英語等級(jí)考試,包括筆試和口試兩部分。其口試的目的是測(cè)試考生的口頭表達(dá)能力,屬主觀性測(cè)試??谡Z考試正是由于其主觀性,評(píng)分的最大難度在于其公正性和一致性。PETS口試近十年來,是否真實(shí)地反映了考生的口語水平呢?其效度和信度如何?筆者以語言測(cè)試學(xué)和口語語言學(xué)理論為指導(dǎo),根據(jù)多年的口語教學(xué)和測(cè)試經(jīng)驗(yàn),以山東某高??键c(diǎn)2008年下半年P(guān)ETS口試結(jié)果進(jìn)行研究,從信度和效度兩個(gè)方面來分析該口語測(cè)試的質(zhì)量。
1.全國英語等級(jí)考試口語測(cè)試簡(jiǎn)介
PETS口試通常包括三部分,旨在考查考生的口頭交際能力:
A節(jié):考查考生提供個(gè)人信息、回答有關(guān)他們?nèi)粘I睢⒓亦l(xiāng)、家庭、工作、學(xué)習(xí)等問題的能力。
B節(jié):考查考生就信息卡上的圖片或文字討論有關(guān)問題的能力。
C節(jié):要求考生就信息卡上的圖片或文字作簡(jiǎn)短描述,之后與另一考生就同一話題闡述個(gè)人觀點(diǎn)??谠嚢?分制計(jì)分,3分以上為合格。
2.全國英語等級(jí)考試口語測(cè)試的信度
信度指測(cè)試的穩(wěn)定性。信度和效度有密切的關(guān)系,但這種關(guān)系卻是單方面的。Alderson等認(rèn)為,作為科學(xué)的語言測(cè)試,最關(guān)鍵的就是信度和效度,尤其是信度,沒有信度就談不上效度。[1]信度差則效度差,但效度差不一定信度也差。[2]因此可以得出結(jié)論:只有PETS口試具有高信度,才能為它的高效度提供保障。
2.1施測(cè)信度
所謂施測(cè)信度,是指測(cè)試的準(zhǔn)備形式和測(cè)試過程是否具有可靠性。在這方面,PETS口試具有很高的信度。首先,該測(cè)試在統(tǒng)一時(shí)間進(jìn)行,考生在語言實(shí)驗(yàn)室同時(shí)考,同時(shí)錄音,保證了測(cè)試的公平與保密。其次,每個(gè)考點(diǎn)的口語考官都要接受培訓(xùn),保證考試的順利進(jìn)行。
2.2內(nèi)容信度
影響內(nèi)容信度的因素主要有三方面:內(nèi)容的長度、難度與區(qū)分度。[3]就長度而言,從理論上來講,測(cè)試的內(nèi)容題目越多,覆蓋面越大,長度越長,其信度越高。有一定長度的口語測(cè)試不僅提供了充足的語言使用范例,還有助于盡量減少評(píng)卷人偏見的影響。從這一點(diǎn)來看,PETS口試的信度值得信賴。該測(cè)試的時(shí)間(不包括說明及監(jiān)考人員分發(fā)、收回磁帶的時(shí)間)大約是15分鐘,基本滿足了長度要求。當(dāng)然,如果時(shí)間能達(dá)到20~30分鐘,其信度會(huì)更高。就難度與區(qū)分度而言,無論測(cè)試是過易還是過難,都會(huì)影響區(qū)分度。所以高信度的測(cè)試應(yīng)該是有難有易,先易后難。而PETS口試的難度和區(qū)分度掌握得很好。前邊兩部分的內(nèi)容簡(jiǎn)單些,第三項(xiàng)內(nèi)容則稍難,而且從學(xué)生成績的分布也體現(xiàn)了區(qū)分度。
2.3評(píng)分信度
首先,評(píng)分信度取決于評(píng)分標(biāo)準(zhǔn)。評(píng)分標(biāo)準(zhǔn)是否具體、準(zhǔn)確、便于操作,直接決定了評(píng)分的信度。PETS口試的評(píng)分標(biāo)準(zhǔn)非常具體。PETS的口試評(píng)分采用分項(xiàng)評(píng)分法(Analytic scoring)和總體評(píng)分法(Global scoring)相結(jié)合的標(biāo)準(zhǔn),保證了其標(biāo)準(zhǔn)信度有很高的可靠性。PETS口試采取兩名口試教師和兩名考生的形式。一名口試教師(assessor)不參與交談,專事判分,負(fù)責(zé)打出各分項(xiàng)分;另一名口試教師(interlocutor)主持口試,同時(shí)與考生交談并負(fù)責(zé)評(píng)定總體印象分(Impression-based score)。PETS一級(jí)和二級(jí)的能力分項(xiàng)包括語法與詞匯、語音語調(diào)和交際互動(dòng)三方面。PETS三級(jí)至五級(jí)的能力分項(xiàng)則包括語法與詞匯、話語運(yùn)用、語音語調(diào)和交際互動(dòng)四方面。每分項(xiàng)有五個(gè)等級(jí),每個(gè)等級(jí)都有詳細(xì)的文字描述。總體分和分項(xiàng)分各有0-5分六個(gè)等級(jí),3分為及格??忌?jǐn)?shù)由總體分和分項(xiàng)分組成,按照以下公式合成口試成績:考生實(shí)際得分=(interlocutor給分×2+accessor給分)÷6。
其次,評(píng)分信度取決于評(píng)分依據(jù)。為防止考官對(duì)考生先入為主的印象,或者由于疲勞忽略部分內(nèi)容,評(píng)分先松后緊或先緊后松等現(xiàn)象的發(fā)生,該考點(diǎn)對(duì)PETS口試采用錄音的方式。為考生的復(fù)議和今后的復(fù)查提供了客觀依據(jù),同時(shí)這對(duì)考官也可以起到監(jiān)督作用,保持考官自身評(píng)分的一致性(intra-rater consistency),提高評(píng)分效度。
再次,評(píng)分信度取決于評(píng)分人。要實(shí)現(xiàn)評(píng)分人的客觀評(píng)分,必須做到以下兩點(diǎn):1)評(píng)分人要用分析法;2)評(píng)分人應(yīng)該經(jīng)過訓(xùn)練。[2]PETS口試在評(píng)分過程中的確采用了分析法。例如,第二部分的看圖說話和第三部分的個(gè)人陳述,評(píng)分者從語音、語法、用詞、交際能力等方面進(jìn)行評(píng)定。PETS口試由兩位評(píng)分人同時(shí)評(píng)分后進(jìn)行合成計(jì)算。而且評(píng)分人在評(píng)分前都接受了培訓(xùn),這就保證了評(píng)分人之間的評(píng)分一致性(inter-rater consistency)。
綜上所述,PETS口試具有很高的評(píng)分信度。
2.4公式法對(duì)PETS口試信度的檢驗(yàn)
檢驗(yàn)測(cè)試的信度,可以利用重測(cè)法、重評(píng)法等。但是因?yàn)閷W(xué)生只參加一次考試,所以采用重測(cè)法是不實(shí)際的。而重評(píng)法也只能在評(píng)卷中心進(jìn)行。因此,本文采用公式法。公式法利用公式求出試題的可靠系數(shù),如果可靠系數(shù)小于0.4,則試題的信度偏低。
利用上面的公式,通過對(duì)2008年下半年P(guān)ETS考生口語測(cè)試成績進(jìn)行分析,1-5級(jí)口試的可靠系數(shù)為2.33、2.12、1.65、2.21、2.31,均超過了可靠系數(shù)最低值0.4。這一數(shù)據(jù)表明,PETS口試具有高信度。
3.PETS口語測(cè)試的效度
所謂效度,是指根據(jù)測(cè)試成績得出的具體推斷是否合理、有意義、有作用[5]。根據(jù)Bachman和劉潤清的著述,筆者將效度分為內(nèi)容效度、表面效度、標(biāo)準(zhǔn)效度(預(yù)示效度和共時(shí)效度)和理論效度。[2][3]
3.1內(nèi)容效度
內(nèi)容效度是最重要的一項(xiàng)。它包括兩方面:內(nèi)容的相關(guān)性和覆蓋面。
在內(nèi)容的相關(guān)性方面,Popham(1978)指出應(yīng)包含三個(gè)因素:測(cè)試的目的是什么;賦予應(yīng)試者的刺激的屬性;應(yīng)試者可能提出的答案的性質(zhì)。[6]
PETS各級(jí)口試評(píng)價(jià)目標(biāo)如下:
PETS 1該級(jí)考生應(yīng)能在熟悉的情景中進(jìn)行簡(jiǎn)單信息交流,例如詢問或傳遞基本的事實(shí)性信息,能適當(dāng)運(yùn)用基礎(chǔ)的語法知識(shí)。
PETS 2該級(jí)考生應(yīng)能在熟悉的情景中進(jìn)行簡(jiǎn)單對(duì)話,例如詢問或傳遞基本的事實(shí)性信息,應(yīng)能提供或是要求得到更清楚的闡述,同時(shí)口才也能表達(dá)簡(jiǎn)單的觀點(diǎn)和態(tài)度,能適當(dāng)運(yùn)用基本的語法知識(shí)。
PETS 3該級(jí)考生應(yīng)能在生活和工作的多數(shù)情景中進(jìn)行對(duì)話,不僅能夠詢問事實(shí),還能詢問抽象的信息,應(yīng)能提供或是要求得到更清楚的闡述,同時(shí)口才也能表達(dá)簡(jiǎn)單的觀點(diǎn)和態(tài)度,能適當(dāng)運(yùn)用基本的語法知識(shí)。
PETS 4該級(jí)考生應(yīng)能參與一般性或?qū)I(yè)學(xué)術(shù)話題的討論,不僅能夠詢問事實(shí),還能詢問抽象的信息,能夠就某一觀點(diǎn)的正確與否進(jìn)行爭(zhēng)論,詳細(xì)說明一個(gè)問題、一個(gè)過程或一個(gè)事件。此外還能就某個(gè)一般性問題或所熟悉領(lǐng)域的問題進(jìn)行闡述,能適當(dāng)運(yùn)用基本的語法知識(shí)。
PETS 5該水平的英語也能滿足他們?cè)趪鴥?nèi)外從事專業(yè)和管理工作的基本需要。該級(jí)考生應(yīng)能就各種話題自如地進(jìn)行對(duì)話與討論。能就其工作的多方面與他人進(jìn)行深入廣泛的交流,并能進(jìn)行有效辯論,清楚地闡述自己的需求,能適當(dāng)運(yùn)用基本的語法知識(shí)。[7]
PETS口語測(cè)試就是依據(jù)該目標(biāo)要求設(shè)計(jì)了三項(xiàng)測(cè)試內(nèi)容。從測(cè)試目的上看,該測(cè)試體現(xiàn)了對(duì)正確表達(dá)思想,語音、語調(diào)自然,無重大語法錯(cuò)誤,語言基本得體等方面的考查。在刺激的屬性方面,PETS口試的測(cè)試內(nèi)容都與學(xué)生的生活和學(xué)習(xí)有關(guān),而且絕大多數(shù)題目的選材范圍合理。
在內(nèi)容的覆蓋面方面,PETS口試采用了多個(gè)題目以期真實(shí)地反映學(xué)生的口語水平,并能考慮到語言的文化因素。另外,在語言的得體性方面,PETS口試的設(shè)計(jì)應(yīng)該更完善。語言要得體,應(yīng)試者就要注意符合場(chǎng)景中的角色、身份、話題的要求,注意和自己的工作和學(xué)習(xí)實(shí)際相結(jié)合。
3.2表面效度
表面效度是指一個(gè)測(cè)試至少要從表面上看來是合適的。第一部分日常會(huì)話,目的是給考生創(chuàng)造一個(gè)友好的考生氣氛,降低其考試焦慮,使考生的口語水平發(fā)揮更有保障。另外兩部分都是按照考試要求,模擬現(xiàn)實(shí)生活會(huì)話,能夠很好地檢測(cè)考生在實(shí)際生活中運(yùn)用英語進(jìn)行溝通交流的能力。因此,PETS口試具有很好的表面效度。
3.3標(biāo)準(zhǔn)效度
標(biāo)準(zhǔn)效度包括預(yù)示效度和共時(shí)效度。預(yù)示效度是指一次測(cè)試與后來的測(cè)試相比較所得的系數(shù);共時(shí)效度是指一次測(cè)試與另一次時(shí)間較為接近的測(cè)試結(jié)果比較得出的系數(shù)。通過實(shí)踐,筆者得出PETS各級(jí)別的口試的兩個(gè)系數(shù)都在+1.00和-1.00之間,由此可以得出結(jié)論:PETS口試具有標(biāo)準(zhǔn)效度。
3.4理論效度
理論效度是指測(cè)試是否有理論依據(jù)。在這方面,筆者認(rèn)為關(guān)于“口語”的概念值得考慮。早在19世紀(jì)英國語言學(xué)家H.Sweet 就開始了對(duì)口語的研究。他在1890年出版的《英語口語初步》(A Primer of Spoken English) 中提出英語口語是“受過教育的英國人的口語”這一概念。20世紀(jì)50年代英國語言學(xué)家H.Palmer撰寫了許多關(guān)于口語和口語教學(xué)的書籍,在《英語口語語法》中提出“英語口語是受過教育的人(特別在英國的南部)在日常會(huì)話或給親密的朋友的信件中所使用的那種英語”。[8]綜上所述,“口語是操標(biāo)準(zhǔn)語的人,主要用口頭形式(對(duì)話或獨(dú)白),在非正式場(chǎng)合使用的、無準(zhǔn)備、無拘束的言語”。[8]
基于這一概念,PETS口試中有幾個(gè)問題仍值得商榷:1)口試的內(nèi)容是否體現(xiàn)了口語概念的界定?真正的口語水平應(yīng)該是在無準(zhǔn)備的狀態(tài)下體現(xiàn)的。在PETS口試符合這個(gè)條件,可以被稱作是在自然的交際狀態(tài)下進(jìn)行的。但是在第一部分中,雖然沒有準(zhǔn)備時(shí)間,但所考內(nèi)容考生完全可以憑經(jīng)驗(yàn),就所考查的話題提前準(zhǔn)備好,這在一定程度上就降低了考試的效度。所以,在PETS口試中,命題者應(yīng)該對(duì)該部分進(jìn)行必要的改革。2)考生應(yīng)該使用什么樣的詞匯;口語化的、不正式的還是書面語化的、正式的?PETS口試在這方面沒有明確的要求和說明,因此,考生所用的語言沒有明顯地體現(xiàn)出口語與書面語體的不同。3)有關(guān)言語的其它理論如合作原則、禮貌原則在最后一部分對(duì)話任務(wù)中有所體現(xiàn),但是漢語和英語在這方面的差異,如量的準(zhǔn)則、贊揚(yáng)準(zhǔn)則、謙虛準(zhǔn)則等方面的文化差異,應(yīng)該被考慮進(jìn)來。
4.結(jié)語
綜上所述,PETS口試無論是在內(nèi)容、施測(cè)還是評(píng)分方面都具有很高的信度,這一點(diǎn)已得到了公式法的檢驗(yàn)。這反映了出題者的精心設(shè)計(jì)。從效度來看,PETS口試具有很高的標(biāo)準(zhǔn)效度;在內(nèi)容效度和表面效度方面有很多值得肯定的方面,當(dāng)然也有許多地方有待進(jìn)一步提高,在理論效度方面還需加強(qiáng)。
另外,還有三方面的問題需要引起注意。
其一,PETS口試的第一項(xiàng),雖然在評(píng)分時(shí)強(qiáng)調(diào)如果是背誦現(xiàn)成的文章即扣分,但這個(gè)尺度畢竟不好把握。因此,PETS口試可以考慮把文化知識(shí)揉和進(jìn)去,這樣考生的口語水平會(huì)得到更真實(shí)的體現(xiàn)。
其二,PETS口試采用交換評(píng)分人的做法,這在一定程度上降低了評(píng)分信度。同一名考生在不同的評(píng)分人評(píng)分時(shí)會(huì)造成很大的差異。例如:對(duì)于考生C,考官A給他2分,考官B給他3分,如果輪換評(píng)分,則該生成績分別為:(2×2+3×4)/6=2.67;(3×2+2×4)/6=2.33。如果采用四舍五入的方法,僅僅因?yàn)檩啌Q考官就會(huì)造成考生一次合格、一次不合格的巨大差異。
其三,PETS口試采取直接面試的形式,考官培訓(xùn)及與逐個(gè)考生進(jìn)行交流費(fèi)時(shí)費(fèi)力;另外,考官對(duì)考生來講,也會(huì)形成一定的心理壓力,影響考生的正常發(fā)揮。
PETS口試推廣近十年來,比較客觀地反映了學(xué)生的口語水平,在信度和效度上達(dá)到了較好的平衡。但對(duì)于如何提高PETS口試的效度和信度仍舊有必要進(jìn)行進(jìn)一步研究,是其真正成為高水平的口語測(cè)試。
參考文獻(xiàn):
[1]Alderson,J.C.,Clapham,C.,Wall.,D.LanguageTest Construction and Evaluation[M].Cambridge:Cambridge University Press,1995.
[2]劉潤清.語言測(cè)試和它的方法[M].北京:外語教學(xué)與研究出版社,1991.
[3]Bachman,L.F.Fundamental Considerations in Language Testing[M].上海:上海外語教育出版社,1999.
[4]蔡整瑩.口語課程測(cè)試的可靠性與有效性[C]∥語言文化教學(xué)研究集刊(第三輯).北京:華語教學(xué)出版社,1999.
[5]American Psychological Association.Standards for Educational and Psychological Testing[M].Washington, D.C. American Psychological Association,1985.
[6]Popham,W.J.Criterion-Referenced Measurement[M]. Englewood Cliffs,NJ:Prentice Hall,1978.
[7]全國公共英語等級(jí)考試指南——評(píng)價(jià)目標(biāo)[DB/OL]http://www.pets12345.com/exam/dt_3307.asp
[8]徐翁宇.現(xiàn)代俄語口語概論[M].上海:上海外語教育出版社,2000.