文 宇
(湛江師范學(xué)院 廣東湛江 524048)
口語(yǔ)測(cè)試量表設(shè)計(jì)方法的審視與思考
文 宇
(湛江師范學(xué)院 廣東湛江 524048)
從介紹的角度審視現(xiàn)成口語(yǔ)測(cè)試量表設(shè)計(jì)的主要種類和特點(diǎn);對(duì)比量表設(shè)計(jì)的優(yōu)劣;探討合適的設(shè)計(jì)方法和可行性。
口語(yǔ)測(cè)試;口語(yǔ)測(cè)試;量表;設(shè)計(jì)方法
編寫口語(yǔ)測(cè)試量表并不容易,這主要是因?yàn)閷?duì)口語(yǔ)學(xué)習(xí)過程缺乏確切的描述,而且把這些相關(guān)的特征言簡(jiǎn)意賅的表述清楚以便測(cè)試時(shí)使用也并非易事。所以,口語(yǔ)測(cè)試時(shí),英語(yǔ)教師常常選擇現(xiàn)成的量表對(duì)學(xué)生的口語(yǔ)水平進(jìn)行考核(Luoma,2004)。這些量表通常都是受到主要的標(biāo)準(zhǔn)化考試體系(如IELTS、CET 等)青睞,從而更容易得到使用者們的信任。筆者通過審視一些現(xiàn)成的量表設(shè)計(jì)方法,探討和思考這些方法對(duì)本土英語(yǔ)口語(yǔ)教學(xué)測(cè)試的啟示。
自從 Clark and Clifford (1988) 提出 ILR 量表(Interagency Language Roundtable)以來,常見的口語(yǔ)測(cè)試量表有:芬蘭的National Certificate 量表, ACTFL量表,Test of Spoken English (TSE)量表,歐洲通用體系(CEF)口語(yǔ)量表, 墨爾本醫(yī)科學(xué)生診斷性口語(yǔ)量表(Melbourne medical students’diagnostic speaking scale) (分別參照ACTFL, 2012; ETS, 2001:29; Council of Europe, 2001; Grove and Brown,2001)。
近年,在我國(guó)高校英語(yǔ)口語(yǔ)教學(xué)研究領(lǐng)域?qū)虒W(xué)法的探討較多,對(duì)大規(guī)??荚囉昧勘淼挠懻撘矠閿?shù)不少,但是對(duì)大學(xué)英語(yǔ)課口語(yǔ)測(cè)試評(píng)價(jià)系統(tǒng)的研究較少。這些圍繞大學(xué)英語(yǔ)考試(CET)的研究基本上都傾向于參考國(guó)外現(xiàn)成的評(píng)價(jià)量表,比如借鑒美國(guó)外語(yǔ)教育學(xué)會(huì)(ACTFL)語(yǔ)言能力量表(ACTFL,2012),按量表要求設(shè)定口語(yǔ)測(cè)試形式,讓測(cè)試等級(jí)參照值更加具體化和標(biāo)準(zhǔn)化(王鶯鶯,2008)。對(duì)于我國(guó)大學(xué)生口語(yǔ)測(cè)試,有學(xué)者并不贊同照搬現(xiàn)成的量表,認(rèn)為有必要在對(duì)在校大學(xué)生口語(yǔ)學(xué)習(xí)現(xiàn)狀進(jìn)行大規(guī)模的研究的基礎(chǔ)上進(jìn)行綜合分析,提出了分析性口語(yǔ)評(píng)估體系(劉芹,2010)。
的確,在特定的教學(xué)背景下,現(xiàn)成量表未必是有效、合適而且是設(shè)計(jì)完美的(Luoma,2004)。例如,ACTFL (2012)的設(shè)計(jì)者把口語(yǔ)表現(xiàn)分為5大等(distinguished, superior, advanced, intermediate, novice),每一等分3個(gè)級(jí)別(high, mid, low),每個(gè)等級(jí)的描述平均字?jǐn)?shù)大概300字之多,但自從1986年該量表發(fā)布以來,其效度是否來自其測(cè)試任務(wù)的順序抑或來自對(duì)被測(cè)語(yǔ)言表現(xiàn)的測(cè)試一直未有共識(shí)(Kramsch, 1986; Bachman, 1990)。筆者認(rèn)為,在我國(guó)EAL/EFL的教學(xué)背景下,權(quán)衡各種量表設(shè)計(jì)的優(yōu)劣以及研究設(shè)計(jì)方法,有利于我國(guó)高??谡Z(yǔ)課堂建立合適和方便使用的測(cè)試工具。
1.直覺法。設(shè)計(jì)口語(yǔ)測(cè)驗(yàn)或考試的時(shí)候,教師們最常使用的也許是直覺設(shè)計(jì)法(intuitive method)。教師通過參考自己的教學(xué)經(jīng)驗(yàn),從過往的測(cè)試活動(dòng)中可歸納出一些參考值,以此來設(shè)計(jì)口語(yǔ)量表。雖然許多現(xiàn)成的量表的設(shè)計(jì)遵循的是直覺設(shè)計(jì)法,但缺乏必要的定量和定性分析,很難滿足實(shí)際測(cè)試的需要(Luoma, 2004)。但是這種方式的方便性是不言而喻的,但是面對(duì)數(shù)十人甚至上百人的一次考試,未受經(jīng)測(cè)試培訓(xùn)的教師依靠教學(xué)或測(cè)試“經(jīng)驗(yàn)”對(duì)學(xué)生進(jìn)行評(píng)估時(shí),往往會(huì)受到“印象”影響,測(cè)量結(jié)果可能有偏差。面對(duì)這種問題,可以考慮和其他設(shè)計(jì)實(shí)現(xiàn)交叉設(shè)計(jì),優(yōu)勢(shì)互補(bǔ)。以下介紹兩種可以交叉使用的方法。
2.定性法。對(duì)比之下,定性設(shè)計(jì)法 (Qualitative method)的采用,也許能解決缺乏“權(quán)威標(biāo)準(zhǔn)”的難題。設(shè)計(jì)者通過讓語(yǔ)言教育專家參與描述、標(biāo)準(zhǔn)范例(sample)甚至每個(gè)等級(jí)的常見詞組的采樣收集工作 (Brown et al,2001)。被測(cè)者的表現(xiàn)可以被分為不同等級(jí),此時(shí),專家意見的統(tǒng)一顯得尤其重要。筆者認(rèn)為,大學(xué)口語(yǔ)測(cè)試可以參考雅思(IELTS)口語(yǔ)考試的評(píng)分標(biāo)準(zhǔn)的定性設(shè)計(jì)(Alderson, 1991)。在英語(yǔ)課堂測(cè)試或考試時(shí)使用定性法,可以讓專家或資深的教學(xué)團(tuán)隊(duì)組成設(shè)計(jì)小組,按照從大到小的順序,逐個(gè)級(jí)別劃分評(píng)分等級(jí)。次等級(jí)的多少將取決于設(shè)計(jì)者能否找到區(qū)分每個(gè)等級(jí)的語(yǔ)言表現(xiàn)。在討論語(yǔ)言表現(xiàn)的時(shí)候,最好筆錄重點(diǎn)和要點(diǎn),這些討論對(duì)于最后設(shè)定等級(jí)描述的部分將提供參考 (Pollitt and Murray, 1996)。
3.定量法。如果評(píng)估者具備良好的統(tǒng)計(jì)學(xué)基礎(chǔ),定量設(shè)計(jì)法(Quantitative method)可能是不錯(cuò)的選擇。Fulcher(1996)曾為測(cè)量口語(yǔ)流利性而設(shè)計(jì)的量表,就是在大量話語(yǔ)分析(discourse analysis)基礎(chǔ)上,捕獲大量話語(yǔ)流利性(fluency)的表現(xiàn)特征,再用多元回歸分析(multiple regression analysis)歸納出與流利性相關(guān)的顯著的特征。這些特征便可以用來分級(jí)描述說話者的流利性。更深入和細(xì)化的測(cè)試分析來源于項(xiàng)目反應(yīng)(IRT)理論,該理論包括了一系列心理統(tǒng)計(jì)學(xué)模型(參閱Rasch, 1980)。該IRT理論已被應(yīng)用于包括CEF等口語(yǔ)量表(Council of Europe, 2001)中特征描述(descriptor)的編寫。不過,由于這種方式較費(fèi)時(shí),在當(dāng)前高校英語(yǔ)教學(xué)測(cè)驗(yàn)和考試的量表設(shè)計(jì)中很少見。
最近,也有學(xué)者建議在語(yǔ)料庫(kù)分析(corpus analysis)的基礎(chǔ)上測(cè)試口語(yǔ)(Barker, 2013)。筆者認(rèn)為,在直覺法分析的基礎(chǔ)上進(jìn)行專家組討論,讓設(shè)計(jì)小組成員從語(yǔ)料庫(kù)中選范例,進(jìn)行定性設(shè)計(jì);如果成員缺乏經(jīng)驗(yàn),和可以請(qǐng)具備統(tǒng)計(jì)學(xué)基礎(chǔ)的人員參與,在話語(yǔ)分析基礎(chǔ)上選擇定量設(shè)計(jì)。
一旦口語(yǔ)測(cè)試的量表制成,在口語(yǔ)課堂內(nèi)往往被長(zhǎng)期使用,這主要是出于設(shè)計(jì)時(shí)間和人力成本的考慮。因此,筆者認(rèn)為,雖然口語(yǔ)教學(xué)人員未必能在短時(shí)間內(nèi)編寫合適的量表,但可以在上述方法中尋找折中的方法,在參考現(xiàn)成量表時(shí)有所取舍。
由于篇幅所限,本文尚未涉及量表設(shè)計(jì)各方法中的細(xì)節(jié),僅僅嘗試做了幾種原則和思路的淺析,而由此制成的各種量表的效度與信度,以及設(shè)計(jì)過程中可能遇到的實(shí)際問題還有待進(jìn)一步的研究。
[1] ACTFL. The ACTFL Proficiency Guidelines: Speaking [S]. Yonkers, NY:ACTFL. 2012.
[2] Alderson, J.C. Bands and scores [C]. In J. C. Alderson and B. North (eds), Language Testing in the 1990s, London: Macmillan, 1991.
[3] Bachman, L. F. Fundamental Considerations in Language Testing[M]. Oxford: OUP, 1990.
[4] Barker, F. Using Corpora to Design Assessment[J/ OL]. The Companion to Language Assessment[DB], 2013. DOI: 10.1002/9781118411360.wbcla102
[5] Brown,A.,McNamara,T.,Iwashita,N.,and O’Hagan, S. Investigating raters’ orientations in specific-purpose task-based oral assessment[R]. TOEFL 2000 Research and Development Project Report, Submitted June 2001.
[6] Clark, J.L.D. and Clifford, R.T. The FSI/ILR/ACTFL proficiency scales and testing techniques: development, current status and needed research[J]. Studies in Second Language Acquisition,1988.
[7] ETS. TSE and SPEAK score user guide. 2001-2002
[8] Kramsch, C. From language proficiency to interaction competence[J]. The Modern Language Journal,1986.
[9] Luoma, S. Assessing Speaking[M]. Cambridge: Cambridge University Press. 2004
[10] Rasch, G. Probabilistic Models for Some Intelligence and Attainment Tests[M]. Chicago: University of Chicago Press.1980.
[11] Pollitt, A. and Murray, N. What raters really pay attention to[C]. In M. Milanovic and N. Saville (eds), Performance Testing, Congnition and Assessment. Selected papers from the 15th Language Testing Research Colloqium, Cambridge and Arnhem. Cambridge: CUP,1996.
[12]劉芹.中國(guó)大學(xué)生英語(yǔ)口語(yǔ)分析性評(píng)估體系的構(gòu)建與效驗(yàn)[M].上海:復(fù)旦大學(xué)出版社,2010.
[13]王鶯鶯.ACTFL語(yǔ)言能力量表對(duì)構(gòu)建CET口語(yǔ)測(cè)試評(píng)估新體系的啟示[J].長(zhǎng)沙大學(xué)學(xué)報(bào),2008(6).
Speculations and Thoughts on Methods of Designing Scales for Oral Tests
Wen Yu
(Zhanjiang Normal University, Zhanjiang Guangdong,524048, China)
This paper speculates on the kinds of current scales used for assessing speaking in terms of their particular features; Comparison between their advantages and disadvantages is made; Discussions also include methods of designing scales and their feasibility.
assessing speaking; oral test; scales; methods of designing scales
G442
A
1000-9795(2014)06-0388-01
[責(zé)任編輯:劉麗杰]
2014-03-08
文 宇(1979-),講師,從事英語(yǔ)教學(xué)方向的研究。