甘 凌 夏紀(jì)梅
(1.中南財(cái)經(jīng)政法大學(xué) 外國(guó)語(yǔ)學(xué)院, 武漢 430073; 2.中山大學(xué) 大學(xué)外語(yǔ)教學(xué)中心, 廣州 510275)
?
語(yǔ)言測(cè)試倫理問(wèn)題研究:回顧與啟示
甘凌1夏紀(jì)梅2
(1.中南財(cái)經(jīng)政法大學(xué)外國(guó)語(yǔ)學(xué)院, 武漢430073; 2.中山大學(xué)大學(xué)外語(yǔ)教學(xué)中心, 廣州510275)
摘要:語(yǔ)言測(cè)試是一項(xiàng)利益相關(guān)性很高的活動(dòng),牽涉到個(gè)人和社會(huì)的方方面面,不可避免地存在倫理問(wèn)題,但國(guó)內(nèi)語(yǔ)言測(cè)試學(xué)界對(duì)測(cè)試倫理問(wèn)題重視不夠?;跍y(cè)試倫理和效度的關(guān)系,對(duì)語(yǔ)言測(cè)試者倫理問(wèn)題(測(cè)試者責(zé)任、專業(yè)化、道德準(zhǔn)則和行為準(zhǔn)則)和語(yǔ)言測(cè)試環(huán)節(jié)倫理問(wèn)題兩大方面進(jìn)行回顧,在此基礎(chǔ)上闡釋了倫理問(wèn)題對(duì)中國(guó)語(yǔ)言測(cè)試研究的啟示,希望喚起語(yǔ)言測(cè)試界對(duì)該問(wèn)題的重視,確保測(cè)試的科學(xué)性和公平性。
關(guān)鍵詞:語(yǔ)言測(cè)試; 倫理問(wèn)題; 回顧與啟示
一、引言
“倫理”一詞源自于哲學(xué),指的是道德上的是非、善惡、平等非平等、公正不公正等。在語(yǔ)言測(cè)試領(lǐng)域,倫理主要指的是語(yǔ)言測(cè)試者、測(cè)試使用者等測(cè)試?yán)嫦嚓P(guān)者實(shí)施良好行為所要遵守的準(zhǔn)則和規(guī)范。語(yǔ)言測(cè)試倫理問(wèn)題長(zhǎng)期以來(lái)都是在測(cè)試效度和信度的框架之下進(jìn)行研究(Spolsky,1997;Kunnan,1999;Taylor,2013:1)。這和Bachman(2000:23)的觀點(diǎn)不謀而合。他認(rèn)為,語(yǔ)言測(cè)試一方面要避免盲目追求構(gòu)念,另一方面要堅(jiān)定倫理信念。因此,語(yǔ)言測(cè)試倫理研究既要包含傳統(tǒng)的信度和效度指標(biāo),又要考慮測(cè)試使用的后果和倫理問(wèn)題。國(guó)際語(yǔ)言測(cè)試期刊LanguageTesting(1997)和LanguageAssessmentQuarterly(2004)以及語(yǔ)言測(cè)試學(xué)術(shù)研究大會(huì)(LTRC, 1997)均以“語(yǔ)言測(cè)試倫理”為主題進(jìn)行熱烈討論。該主題已成為語(yǔ)言測(cè)試領(lǐng)域公認(rèn)的必不可少的研究問(wèn)題之一,而且仍將不斷從倫理學(xué)和道德哲學(xué)等領(lǐng)域得到擴(kuò)展(Kunnan, 2008)。正如Davies(2014:33)所說(shuō),效度,或者說(shuō)倫理,將繼續(xù)在語(yǔ)言測(cè)試研究中占據(jù)重要地位。但在我國(guó),語(yǔ)言測(cè)試倫理問(wèn)題并未得到很多關(guān)注,只有少數(shù)人的研究涉及到語(yǔ)言測(cè)試倫理問(wèn)題(梅昳,等,2009;詹先君,等,2010;徐世紅,2012;陳曉扣,等,2013)。
二、語(yǔ)言測(cè)試倫理問(wèn)題研究述評(píng)
隨著效度研究范疇和界限的擴(kuò)展,倫理道德研究越來(lái)越受到關(guān)注,已經(jīng)成為效度研究不可或缺的一個(gè)維度(陳曉扣,等,2013)。鑒于此,本文根據(jù)現(xiàn)有文獻(xiàn)從兩個(gè)方面討論語(yǔ)言測(cè)試界對(duì)語(yǔ)言測(cè)試倫理問(wèn)題研究:一是與測(cè)試者有關(guān)的倫理問(wèn)題。語(yǔ)言測(cè)試者指所有參與到測(cè)試決策活動(dòng)中使測(cè)試行為得以實(shí)現(xiàn)的人(Shohamy, 2001:145),包括測(cè)試設(shè)計(jì)者、撰寫(xiě)者、數(shù)據(jù)統(tǒng)計(jì)者、研究者、決策者等,這些人都承擔(dān)著一定的社會(huì)責(zé)任;二是與測(cè)試本身有關(guān)的倫理問(wèn)題。與測(cè)試本身有關(guān)的環(huán)節(jié)包括測(cè)試開(kāi)發(fā)、實(shí)施、使用、評(píng)分、分?jǐn)?shù)報(bào)道解釋等。
(一)測(cè)試者倫理問(wèn)題探討
1.語(yǔ)言測(cè)試者責(zé)任
語(yǔ)言測(cè)試者的倫理問(wèn)題首先是他們需承擔(dān)的責(zé)任問(wèn)題。語(yǔ)言測(cè)試由設(shè)計(jì)、開(kāi)發(fā)、實(shí)施到使用都會(huì)對(duì)測(cè)試?yán)嫦嚓P(guān)者以及相關(guān)的社會(huì)機(jī)構(gòu)產(chǎn)生或正面或負(fù)面的影響。測(cè)試工作者必須從倫理上對(duì)考試的影響及其使用負(fù)責(zé)(Hamp-Lyons, 1989)。語(yǔ)言測(cè)試者究竟承擔(dān)什么責(zé)任,目前尚未達(dá)成共識(shí)。梅昳等(2009)認(rèn)為測(cè)試者責(zé)任可能涉及到四個(gè)方面:?jiǎn)栘?zé)、反撥、社會(huì)影響以及測(cè)試使用倫理。問(wèn)責(zé)制指向語(yǔ)言測(cè)試設(shè)計(jì)者或開(kāi)發(fā)者,他們必須負(fù)責(zé)解釋測(cè)試本身的質(zhì)量、測(cè)試結(jié)果的使用和分?jǐn)?shù)報(bào)道和使用的解釋等,如果測(cè)試結(jié)果被誤用或曲解,他們必須承擔(dān)一定的社會(huì)責(zé)任(Hamp-Lyons, 2000)。反撥以及社會(huì)影響是指測(cè)試對(duì)語(yǔ)言教學(xué)和社會(huì)所產(chǎn)生的影響,測(cè)試者的責(zé)任就是要盡可能使測(cè)試產(chǎn)生積極反撥作用。測(cè)試使用倫理是指語(yǔ)言測(cè)試者必須確保他們開(kāi)發(fā)的測(cè)試符合倫理道德,測(cè)試使用恰當(dāng),以確??荚囀褂霉?,避免考試潛在的誤用(Bachman, 2000)。相比反撥作用,測(cè)試倫理走得更遠(yuǎn),不僅考慮測(cè)試產(chǎn)生的影響,還考慮開(kāi)發(fā)或使用測(cè)試在道義上適當(dāng)與否。
對(duì)于語(yǔ)言測(cè)試者的擔(dān)責(zé)討論主要有三種觀點(diǎn):一種觀點(diǎn)認(rèn)為語(yǔ)言測(cè)試者必須承擔(dān)所有的責(zé)任。Hamp-Lyons(1989, 1997b, 2000)認(rèn)為,語(yǔ)言測(cè)試者必須為所有能意識(shí)到的預(yù)期或非預(yù)期的測(cè)試后果承擔(dān)責(zé)任,因此,必須建立一個(gè)包含多種因素的倫理框架,加強(qiáng)對(duì)語(yǔ)言測(cè)試后效的研究(Hamp-Lyons, 1997b);第二種觀點(diǎn)是語(yǔ)言測(cè)試者只需承擔(dān)部分責(zé)任。Davies(1997a, 1997b)堅(jiān)稱,作為測(cè)試專業(yè)成員的測(cè)試者不應(yīng)該也不可能承擔(dān)所有的社會(huì)后果,測(cè)試者責(zé)任只能限于合理的范圍之內(nèi),即只能負(fù)責(zé)有限的、可預(yù)測(cè)的社會(huì)后果;第三種觀點(diǎn)是責(zé)任分擔(dān)。Shohamy(2001:148)認(rèn)為,測(cè)試者必須承認(rèn)他們的知識(shí)有限,不可能提供解決所有測(cè)試問(wèn)題的答案。他們必須與受試者、使用者一起共同合作,構(gòu)建解決測(cè)試問(wèn)題的知識(shí),通過(guò)民主化方式將測(cè)試?yán)嫦嚓P(guān)者參與到測(cè)試決策中,共同承擔(dān)決策后果。Fulcher、Davidson(2012:157) 對(duì)此表示贊同。持相同觀點(diǎn)的還有Bachman、Palmer(2010)。他們提出,測(cè)試責(zé)任應(yīng)該由測(cè)試開(kāi)發(fā)者和測(cè)試使用者即測(cè)試決策者共同分擔(dān),但兩者在測(cè)試不同階段所承擔(dān)的責(zé)任側(cè)重點(diǎn)不同。在測(cè)試開(kāi)發(fā)和使用階段,測(cè)試開(kāi)發(fā)者的主要責(zé)任是測(cè)試設(shè)計(jì)、測(cè)試可操作化和試測(cè),而測(cè)試決策者在測(cè)試計(jì)劃和測(cè)試使用階段承擔(dān)主要責(zé)任。在依據(jù)AUA(Assessment Use Argument)進(jìn)行舉證階段,測(cè)試開(kāi)發(fā)者必須了解和意識(shí)到測(cè)試使用的預(yù)期后果以及決策者所做的決定,但他的主要責(zé)任在于確保測(cè)試結(jié)果具有一致性,基于測(cè)試結(jié)果的解釋是有意義的、公正的、可概括的、相關(guān)的和充分的,而測(cè)試決策者的主要責(zé)任則是要說(shuō)服其他利益相關(guān)者,他們所做的決定具有價(jià)值敏感性和平等性,測(cè)試后果具有獲益性。
語(yǔ)言測(cè)試領(lǐng)域?qū)y(cè)試者所承擔(dān)的責(zé)任雖然沒(méi)有達(dá)成一致意見(jiàn),但可以肯定的是,語(yǔ)言測(cè)試者首先必須對(duì)測(cè)試本身問(wèn)責(zé),即保證測(cè)試質(zhì)量,同時(shí)向測(cè)試相關(guān)各方,如測(cè)試使用者、受試者、測(cè)試開(kāi)發(fā)者或社會(huì)機(jī)構(gòu)負(fù)責(zé)說(shuō)明測(cè)試從開(kāi)發(fā)、設(shè)計(jì)、實(shí)施、使用、分?jǐn)?shù)報(bào)道到分?jǐn)?shù)解釋的過(guò)程。測(cè)試開(kāi)發(fā)者和測(cè)試使用者都必須為測(cè)試的使用(決策和后果)對(duì)測(cè)試?yán)嫦嚓P(guān)者負(fù)有責(zé)任。
2.語(yǔ)言測(cè)試專業(yè)化
在過(guò)去的十幾年間,測(cè)試專業(yè)化一直與測(cè)試者倫理責(zé)任和社會(huì)責(zé)任的討論分不開(kāi)(Spolsky, 2008)。Hamp-Lyons(2000)認(rèn)為,解決測(cè)試者責(zé)任承擔(dān)程度的辦法之一就是要考慮到語(yǔ)言測(cè)試者是作為測(cè)試行業(yè)的從業(yè)人員以及是具有道德意識(shí)的個(gè)體。Standsfield(1993)將專業(yè)化與倫理聯(lián)系起來(lái)討論,認(rèn)為測(cè)試專業(yè)化就是“語(yǔ)言測(cè)試者在執(zhí)行其行業(yè)職責(zé)時(shí)所實(shí)施的道德行為”。從個(gè)人層面看,道德行為是展現(xiàn)專業(yè)化的方式之一;從整體層面看,專業(yè)倫理準(zhǔn)則、語(yǔ)言測(cè)試開(kāi)發(fā)及實(shí)施標(biāo)準(zhǔn)可以為測(cè)試者個(gè)人解決倫理問(wèn)題提供指導(dǎo)。Davies(1997b)指出,語(yǔ)言測(cè)試既是一門社會(huì)科學(xué),又是一門實(shí)踐活動(dòng),應(yīng)該建立在行業(yè)道德之上。他提出要建立“倫理環(huán)境”,通過(guò)兩方面來(lái)實(shí)現(xiàn):一是成為專業(yè)語(yǔ)言測(cè)試者的要求,二是語(yǔ)言測(cè)試專業(yè)領(lǐng)域“良好”行為的標(biāo)準(zhǔn)。在總結(jié)Standfield和Davies的研究基礎(chǔ)上,Bachman(2000)提出,語(yǔ)言測(cè)試專業(yè)化有兩個(gè)要點(diǎn):語(yǔ)言測(cè)試專業(yè)化培訓(xùn)和行為標(biāo)準(zhǔn)及其執(zhí)行機(jī)制的制定。但是語(yǔ)言測(cè)試專業(yè)化培訓(xùn)仍有很長(zhǎng)的路要走,因?yàn)楹芏鄬I(yè)化培訓(xùn)都沒(méi)有專門針對(duì)語(yǔ)言測(cè)試的專業(yè)課程或是實(shí)訓(xùn)課程,結(jié)果很多開(kāi)發(fā)和使用測(cè)試的從業(yè)者并沒(méi)有或很少得到專業(yè)培訓(xùn)(Bachman, 2000:19; Jin, 2010)。為此,Bachman(2000)倡議,為提高語(yǔ)言測(cè)試專業(yè)培訓(xùn)質(zhì)量,我們不僅需要制定測(cè)試專業(yè)能力標(biāo)準(zhǔn),而且要將這些標(biāo)準(zhǔn)納入到培訓(xùn)標(biāo)準(zhǔn)以及語(yǔ)言教師執(zhí)教資格當(dāng)中。
目前為止,該行業(yè)已經(jīng)成立了一些國(guó)際的、國(guó)家的或地區(qū)的專業(yè)機(jī)構(gòu),如,國(guó)際語(yǔ)言測(cè)試協(xié)會(huì)(ILTA)、歐洲語(yǔ)言測(cè)試者協(xié)會(huì)(ALTE)、歐洲語(yǔ)言測(cè)試與評(píng)估協(xié)會(huì)(EALTA)、日本語(yǔ)言測(cè)試協(xié)會(huì)(JALT)以及旨在推動(dòng)亞洲地區(qū)語(yǔ)言測(cè)試與評(píng)估發(fā)展的亞洲語(yǔ)言測(cè)試協(xié)會(huì)(AALA)。這些機(jī)構(gòu)為在語(yǔ)言測(cè)試領(lǐng)域建立倫理價(jià)值、實(shí)施專業(yè)行為做出了巨大貢獻(xiàn)。在我國(guó),還沒(méi)有諸如ILTA 或ALTE這樣的會(huì)員制組織,但國(guó)內(nèi)的外語(yǔ)期刊卻為更多的語(yǔ)言測(cè)試專家、研究者和愛(ài)好者提供了學(xué)習(xí)交流的平臺(tái),凝聚了越來(lái)越多語(yǔ)言測(cè)試從業(yè)者。
3.語(yǔ)言測(cè)試的道德準(zhǔn)則和行為準(zhǔn)則
語(yǔ)言測(cè)試成為一個(gè)行業(yè),就意味著如同法律、醫(yī)療行業(yè)一樣也需要建立一定的行業(yè)標(biāo)準(zhǔn)和準(zhǔn)則,對(duì)從業(yè)者的職業(yè)道德及行為進(jìn)行規(guī)范和約束(陳建林,2014)。Davies(2008:433)指出,道德準(zhǔn)則和/或行為準(zhǔn)則有助于創(chuàng)建“倫理環(huán)境”。道德準(zhǔn)則可以在測(cè)試專業(yè)成員(測(cè)試開(kāi)發(fā)者)和測(cè)試客戶(測(cè)試使用者)之間建立直接聯(lián)系。只有實(shí)施道德準(zhǔn)則、發(fā)布行業(yè)行為標(biāo)準(zhǔn)、認(rèn)可測(cè)試相關(guān)方的權(quán)利,語(yǔ)言測(cè)試的專業(yè)化才得以真正體現(xiàn)(Davies, 2008:433; Hamp-Lyons, 2000)。ILTA于2000年公布了《道德準(zhǔn)則》,這是語(yǔ)言測(cè)試倫理研究發(fā)展史上的一個(gè)重要里程碑?!兜赖聹?zhǔn)則》共有9條基本原則,每一原則都有一系列詳細(xì)的注釋,規(guī)定了ILTA成員應(yīng)該做什么和不該做什么以及成為ILTA成員具備的條件,以及違反規(guī)則將要受到的懲罰。
Hamp-Lyons(1998)提出,“語(yǔ)言測(cè)試必須像其他行業(yè)一樣,為其從業(yè)者制定行為規(guī)則,包括測(cè)試備考行為和測(cè)試教材編制行為?!币?yàn)榈赖聹?zhǔn)則只是關(guān)于行業(yè)道德規(guī)范,行為準(zhǔn)則才是對(duì)專業(yè)不當(dāng)行為和不專業(yè)行為的具體說(shuō)明以及對(duì)測(cè)試行為的最低要求,是道德準(zhǔn)則的具體示例(Boyd, et al, 2002; Davies, 2008: 433)。因此,有必要單獨(dú)制定一個(gè)《行為準(zhǔn)則》,對(duì)從業(yè)者的實(shí)踐行為進(jìn)行規(guī)范和要求。2005年,ILTA頒布了《行為準(zhǔn)則草稿》,2007年才最終確認(rèn)了作為《道德準(zhǔn)則》具體實(shí)踐的《行為方針》。
除了ILTA,ALTE早在1994年就頒布了歐洲語(yǔ)言測(cè)試者協(xié)會(huì)行為準(zhǔn)則(ALTE Code of Practice),主要應(yīng)用于考試開(kāi)發(fā),考試結(jié)果的解釋,向考生傳遞信息等。2006年,EALTA頒布?xì)W洲語(yǔ)言測(cè)試和評(píng)估協(xié)會(huì)良好測(cè)試和評(píng)估行為準(zhǔn)則(EALTA Guidelines of Good Practice in Language Testing & Assessment),規(guī)定了課堂測(cè)試與評(píng)估行為準(zhǔn)則、教師培訓(xùn)行為準(zhǔn)則和大型考試機(jī)構(gòu)的開(kāi)發(fā)行為準(zhǔn)則。此外,美國(guó)ETS的質(zhì)量和公平標(biāo)準(zhǔn)(ETS Standards of Quality and Fairness),對(duì)考試的開(kāi)發(fā)、實(shí)施、使用等環(huán)節(jié)進(jìn)行嚴(yán)格的質(zhì)量控制,從而確保整個(gè)考試流程和環(huán)節(jié)公平、公正和科學(xué)。
(二)與測(cè)試環(huán)節(jié)有關(guān)的倫理問(wèn)題探討
除了探討語(yǔ)言測(cè)試者責(zé)任、測(cè)試專業(yè)化以及行業(yè)標(biāo)準(zhǔn)制定之外,研究者還探討從測(cè)試設(shè)計(jì)、開(kāi)發(fā)、實(shí)施到使用一系列環(huán)節(jié)的實(shí)踐是否符合倫理道德。
Shohamy(1997)從語(yǔ)言測(cè)試方法和測(cè)試后果兩方面討論語(yǔ)言測(cè)試是否符合倫理、是否具有公平性。她認(rèn)為,測(cè)試方法例如測(cè)試類型、風(fēng)格或測(cè)試任務(wù)對(duì)測(cè)試分?jǐn)?shù)有影響,從而對(duì)某些受試者產(chǎn)生偏差。也就說(shuō),測(cè)試方法對(duì)所有受試者并不完全公平,這樣的測(cè)試不符合倫理。同樣,如果測(cè)試結(jié)果被用來(lái)控制和操控測(cè)試相關(guān)方,而不是提供有關(guān)語(yǔ)言水平信息,這樣的測(cè)試也不道德。最后,Shohamy(1997)提出,測(cè)試者要隨時(shí)注意確保測(cè)試方法和測(cè)試使用不能偏頗。
研究者還探討分?jǐn)?shù)解釋和使用的倫理問(wèn)題。例如O’Loughlin (2011)以測(cè)試使用者(行政人員和學(xué)術(shù)員工)為對(duì)象,研究IELTS分?jǐn)?shù)作為選擇國(guó)際留學(xué)生的衡量標(biāo)準(zhǔn),其分?jǐn)?shù)解釋和使用在多大程度上符合倫理。研究結(jié)果表明,由于沒(méi)有對(duì)IELTS最低錄取分?jǐn)?shù)做理論上的規(guī)定,沒(méi)有對(duì)學(xué)生后續(xù)學(xué)習(xí)進(jìn)行追蹤,根據(jù)申請(qǐng)者測(cè)試分?jǐn)?shù)是否錄用的決定也沒(méi)有被充分告知受試者,這樣的決定是無(wú)效且不道德的。有關(guān)分?jǐn)?shù)使用和評(píng)分的倫理研究在我國(guó)始于梅昳(2008)。她通過(guò)追蹤2007年某省高考英語(yǔ)寫(xiě)作評(píng)卷過(guò)程,考察影響評(píng)卷人員評(píng)分公平性的因素,并調(diào)查高考寫(xiě)作評(píng)分對(duì)個(gè)人、機(jī)構(gòu)及全社會(huì)的影響,試圖提出一套符合現(xiàn)實(shí)情況的高考評(píng)卷人員道德行為規(guī)范,以期提高高考評(píng)分人員的職業(yè)道德意識(shí),并使高考英語(yǔ)這樣的高風(fēng)險(xiǎn)語(yǔ)言測(cè)試評(píng)分更加科學(xué)公正。
關(guān)于測(cè)試專業(yè)倫理,Spolsky(1997)和Bachman(2000)認(rèn)為,測(cè)試相關(guān)各方參與到語(yǔ)言測(cè)試當(dāng)中有助于改善測(cè)試的倫理性。但Mathew(2004)卻對(duì)此提出了質(zhì)疑。她以印度兩種測(cè)試為研究對(duì)象,試圖回答:測(cè)試相關(guān)方的參與是否有助于,且多大程度上有助于改進(jìn)測(cè)試倫理性。結(jié)果表明,測(cè)試相關(guān)方的參與使得一種測(cè)試顯得不符合倫理道德,在另一測(cè)試中卻提升了測(cè)試的倫理性。Mathew認(rèn)為,由于很難認(rèn)定利益相關(guān)方在語(yǔ)言測(cè)試中的作用,以上問(wèn)題仍是未解之謎。
測(cè)試倫理研究還涉及測(cè)試使用倫理。Reed 和Stanfield(2004)從5個(gè)倫理問(wèn)題檢測(cè)使用現(xiàn)代語(yǔ)言學(xué)能測(cè)試(Modern Language Aptitude Test,MLAT)來(lái)診斷學(xué)生外語(yǔ)學(xué)習(xí)不足是否符合倫理道德。他們的結(jié)論是,如果測(cè)試保護(hù)措施到位,且得到專業(yè)指導(dǎo),MLAT用來(lái)診斷個(gè)人學(xué)習(xí)不足是符合倫理的。
終上所述,國(guó)內(nèi)外學(xué)者從實(shí)踐上、理論上都認(rèn)可測(cè)試專業(yè)化或行業(yè)化。盡管大家對(duì)語(yǔ)言測(cè)試者應(yīng)該承擔(dān)多少責(zé)任沒(méi)有形成一致,但作為測(cè)試者個(gè)人或是測(cè)試機(jī)構(gòu)的成員,其最重要的職責(zé)就是依據(jù)道德準(zhǔn)則和行為標(biāo)準(zhǔn),對(duì)測(cè)試行為做出專業(yè)判斷,盡可能保證測(cè)試的公平性和科學(xué)性。測(cè)試倫理問(wèn)題十分復(fù)雜,國(guó)內(nèi)外研究只是討論什么是符合倫理的測(cè)試行為或?qū)I(yè)行為,并提供了《道德準(zhǔn)則》和《行為準(zhǔn)則》等指導(dǎo)綱領(lǐng)。但目前,將道德準(zhǔn)則和行為標(biāo)準(zhǔn)運(yùn)用到對(duì)具體測(cè)試行為進(jìn)行檢驗(yàn)的實(shí)證研究卻很少(O’Loughlin,2011;梅昳,2008)。一項(xiàng)測(cè)試,尤其是高風(fēng)險(xiǎn)、大規(guī)模測(cè)試從測(cè)試命題、設(shè)計(jì)、方法、類型、測(cè)試實(shí)施、使用、評(píng)分、分?jǐn)?shù)解釋和報(bào)道各個(gè)方面是否符合道德準(zhǔn)則和行為準(zhǔn)則,都有待于語(yǔ)言測(cè)試者進(jìn)行更多的實(shí)證研究。
三、對(duì)中國(guó)語(yǔ)言測(cè)試研究的啟示
(一)制定并實(shí)踐語(yǔ)言測(cè)試標(biāo)準(zhǔn)及測(cè)試人員的道德準(zhǔn)則和行為準(zhǔn)則
由于各國(guó)歷史文化的差異,ILTA的《道德準(zhǔn)則》和《行為綱領(lǐng)》并不是放之四海而皆準(zhǔn)的真理。因此,我們必須根據(jù)具體的語(yǔ)言測(cè)試情況,制定語(yǔ)言測(cè)試標(biāo)準(zhǔn)和符合中國(guó)語(yǔ)言國(guó)情的道德準(zhǔn)則和行為準(zhǔn)則,使中國(guó)的語(yǔ)言測(cè)試行為有理可依,有法可據(jù)。楊惠中和桂詩(shī)春(2007)提出,由相關(guān)部門制定“教育測(cè)量與心理測(cè)量標(biāo)準(zhǔn)”并頒布執(zhí)行,制定“語(yǔ)言能力等級(jí)統(tǒng)一量表”等。為此,劉建達(dá)等(2015)進(jìn)行了“中國(guó)學(xué)生英語(yǔ)能力等級(jí)量表”制定研究,分別包括聽(tīng)力、口語(yǔ)、寫(xiě)作、翻譯、語(yǔ)用能力量表。能力量表的制定有利于制定科學(xué)合理的考試目標(biāo)和能力要求,有利于促進(jìn)外語(yǔ)考試的科學(xué)性和標(biāo)準(zhǔn)化。范勁松(2011)對(duì)中國(guó)英語(yǔ)考試行為準(zhǔn)則的制定做了一項(xiàng)探索性研究。他提出制定語(yǔ)言測(cè)試標(biāo)準(zhǔn)的基本模型,并運(yùn)用這一模型起草制定了具有教育性、啟發(fā)性而非強(qiáng)制性的《行為準(zhǔn)則》。此類研究在國(guó)內(nèi)語(yǔ)言測(cè)試界尚屬首次,具有積極的啟示意義。盡管中國(guó)在標(biāo)準(zhǔn)和準(zhǔn)則的制定方面已經(jīng)取得開(kāi)拓性的成就,但還未看到將標(biāo)準(zhǔn)和準(zhǔn)則用于指導(dǎo)和評(píng)估測(cè)試實(shí)踐的研究。
(二)語(yǔ)言測(cè)試人員專業(yè)化
語(yǔ)言測(cè)試標(biāo)準(zhǔn)、道德準(zhǔn)則和行為準(zhǔn)則的制定和實(shí)施,需要有一支專業(yè)的語(yǔ)言測(cè)試隊(duì)伍。盡管有些高校已經(jīng)開(kāi)設(shè)了語(yǔ)言測(cè)試與評(píng)估的課程,但現(xiàn)有的教師隊(duì)伍中具備一定語(yǔ)言測(cè)試專業(yè)知識(shí)的教師并不多(梅昳,等,2009:94;Jin,2010)。中國(guó)現(xiàn)行的大多數(shù)外語(yǔ)測(cè)試,在命題、施考、評(píng)卷等環(huán)節(jié)都是隨機(jī)抽調(diào)人員,這些人員語(yǔ)言測(cè)試知識(shí)參差不齊,造成測(cè)試環(huán)節(jié)出現(xiàn)各種問(wèn)題,嚴(yán)重?fù)p害考生利益。所以,有必要對(duì)語(yǔ)言教師進(jìn)行語(yǔ)言測(cè)試專業(yè)培訓(xùn),推廣語(yǔ)言測(cè)試知識(shí),推進(jìn)測(cè)試專業(yè)認(rèn)證,提高師資隊(duì)伍測(cè)評(píng)素養(yǎng)。語(yǔ)言測(cè)試專業(yè)化的實(shí)現(xiàn)可以有兩個(gè)途徑:一是語(yǔ)言測(cè)試專業(yè)機(jī)構(gòu)或組織的建立。楊惠中和桂詩(shī)春(2007)指出,由政府部門組織成立相關(guān)專家學(xué)者組成的語(yǔ)言政策咨詢委員會(huì),將有利于推動(dòng)語(yǔ)言測(cè)試專業(yè)化進(jìn)程。剛剛成立的中國(guó)外語(yǔ)測(cè)評(píng)中心就是這樣的組織。二是語(yǔ)言測(cè)試教師培訓(xùn)。培訓(xùn)形式包括職前開(kāi)設(shè)語(yǔ)言測(cè)評(píng)課程,在職教師可以參加工作坊、講座、項(xiàng)目培訓(xùn)等,學(xué)習(xí)語(yǔ)言測(cè)試?yán)碚撝R(shí),比如測(cè)試命題設(shè)計(jì)、分?jǐn)?shù)報(bào)道和解釋、評(píng)分等,并進(jìn)行動(dòng)手實(shí)踐操作。在教師語(yǔ)言測(cè)試培訓(xùn)中,明確作為測(cè)試者應(yīng)該承擔(dān)的責(zé)任和義務(wù),避免對(duì)語(yǔ)言測(cè)試做出專業(yè)的不良行為以及不專業(yè)行為。
(三)以批判角度重新審視語(yǔ)言測(cè)試倫理問(wèn)題
Lynch(2001)從批判角度構(gòu)建了一個(gè)測(cè)試倫理和效度框架,認(rèn)為要重新考慮用更民主的方式進(jìn)行測(cè)試。即通過(guò)測(cè)試之外的多種方式收集考生測(cè)試行為的相關(guān)信息并進(jìn)行評(píng)估,包括觀察、訪談、個(gè)人陳述、參與課堂活動(dòng)、建立學(xué)生個(gè)人檔案等。這樣的民主測(cè)評(píng)實(shí)際上是將形成性評(píng)估和終結(jié)性評(píng)估結(jié)合起來(lái),真實(shí)全面地考核學(xué)生的語(yǔ)言能力。但在中國(guó)這樣一個(gè)長(zhǎng)期用單一測(cè)試作為評(píng)價(jià)方式的國(guó)家,推行以多種手段考查學(xué)生語(yǔ)言能力的方式還存在一定困難,可以由點(diǎn)及面地逐步展開(kāi)。
從批判角度審視語(yǔ)言測(cè)試倫理問(wèn)題更不能忽視測(cè)試的公平性研究。正如Shohamy(2000:340)提到的:“采用對(duì)所有受試者不公平測(cè)試方法的一切測(cè)試都是不符合倫理的?!北M管倫理和公平性在研究范疇上不完全重合,但語(yǔ)言測(cè)試者能注意到測(cè)試倫理問(wèn)題,就會(huì)更加關(guān)注他們所做的測(cè)試決策對(duì)測(cè)試?yán)嫦嚓P(guān)方的影響,其中就包括對(duì)不同受試群體的影響,而這正是語(yǔ)言測(cè)試公平性要研究的問(wèn)題(Xi, 2010)。中國(guó)的語(yǔ)言測(cè)試往往規(guī)模巨大、考生人數(shù)眾多、生源覆蓋面廣、語(yǔ)言學(xué)習(xí)背景多樣,測(cè)試的公平性研究更有必要。
四、結(jié)語(yǔ)
隨著效度理論的不斷發(fā)展,人們?cè)絹?lái)越關(guān)注語(yǔ)言測(cè)試作為權(quán)力和社會(huì)控制工具所引起的倫理問(wèn)題。倫理不僅僅體現(xiàn)在語(yǔ)言測(cè)試的各個(gè)環(huán)節(jié),而且要求語(yǔ)言測(cè)試者承擔(dān)責(zé)任,符合行業(yè)標(biāo)準(zhǔn),遵守行業(yè)規(guī)則、道德準(zhǔn)則和行為規(guī)范。但該問(wèn)題并沒(méi)有在中國(guó)語(yǔ)言測(cè)試領(lǐng)域引起足夠的重視。未來(lái)在中國(guó)的語(yǔ)言測(cè)試環(huán)境下,可以從各個(gè)角度通過(guò)不同方法對(duì)倫理問(wèn)題進(jìn)行更深入的研究,例如符合中國(guó)國(guó)情的語(yǔ)言測(cè)試標(biāo)準(zhǔn)、道德準(zhǔn)則、行為準(zhǔn)則制定的探索性研究和應(yīng)用研究,各級(jí)語(yǔ)言教師測(cè)試專業(yè)化培訓(xùn)需求及模式研究,語(yǔ)言教師測(cè)評(píng)能力標(biāo)準(zhǔn)的制定及應(yīng)用研究,大規(guī)模考試公平性研究等。只有不斷加強(qiáng)語(yǔ)言教師對(duì)語(yǔ)言測(cè)試的了解,才能真正解決語(yǔ)言測(cè)試的倫理問(wèn)題,實(shí)現(xiàn)測(cè)試的科學(xué)性和公平性。
參考文獻(xiàn):
陳建林.2014.語(yǔ)言測(cè)試社會(huì)屬性研究綜述[J].外語(yǔ)測(cè)試與教學(xué)(2):1-11.
陳曉扣,李紹山.2013.倫理道德語(yǔ)言測(cè)試效度研究——一個(gè)不可或缺的維數(shù)[J].外語(yǔ)測(cè)試與教學(xué)(3):1-7,47.
范勁松.2011. 中國(guó)英語(yǔ)考試行為準(zhǔn)則制訂:一項(xiàng)探索性研究[D].上海:上海交通大學(xué).
劉建達(dá),金艷,等. 2015.Developing Scales for Chinese EFL Learners[C]∥語(yǔ)言測(cè)試與評(píng)價(jià)國(guó)際研討會(huì)論文集.廣州:廣東外語(yǔ)外貿(mào)大學(xué).
梅昳.2008. 高考英語(yǔ)寫(xiě)作評(píng)分倫理問(wèn)題研究[D].太原:山西大學(xué).
梅昳,聶建中.2009. 語(yǔ)言測(cè)試倫理問(wèn)題研究述評(píng)[J].外語(yǔ)界(4):91-96.
徐世紅.2011.大規(guī)模語(yǔ)言測(cè)試的道德問(wèn)題[J].南通大學(xué)學(xué)報(bào)(社會(huì)科學(xué)版)(4):2-7.
楊惠中,桂詩(shī)春.2007.語(yǔ)言測(cè)試的社會(huì)性思考[J].現(xiàn)代外語(yǔ)(4):368-374.
詹先君,王后雄.2010.中國(guó)外語(yǔ)考試的倫理期待與制度改革[J].中國(guó)教育導(dǎo)刊(5):23 -26.
BACHMAN L F.2000.Modern Language Testing at the Turn of the Century: Assuring that What We Count Counts[J].Language Testing,17(1):1-42.
BACHMAN L F,PALMER A S.2010.Language Assessment in Practice[M].Oxford UK: Oxford University Press.
BAILEY A L,BUTLER F A.2004. Ethical Considerations in the Assessment of the Language and Content Knowledge of US School-age English Learners[J].Language Assessment Quarterly,1(2/3):177-193.
BOYD K,DAVIES A.2002.Doctors’ Orders for Language Testers: the Origin and Purpose of Ethical Codes[J].Language Testing,19(3):296-322.
DAVIES A.1997a.Introduction the Limits of Ethics in Language Testing[J].Language Testing, 14(3):235-241.
DAVIES A.1997b.Demands of Being Professional in Language Testing[J].Language Testing,14(3):328-339.
DAVIES A.2004. Introduction: Language Testing and the Golden Rule[J].Language Assessment Quarterly,1(2/3):97-107.
DAVIES A.2008.Ethics, Professionalism, Rights and Codes[C]∥SHOHAMY E,HORNBERGER N(eds.).Encyclopedia of Language and Education—Language Testing and Assessment (Volume 7).New York:Springer Science Business Media LLC:429-443.
DAVIES A.2014. Fifty Years of Language Assessment[C]∥KUNNAN A(eds.).The Companion to Language Assessment.New York:John Wiley & Sons:1-19.
FULCHER G.2009.Test Use and Political Philosophy[J].Annual Review of Applied Linguistics(29):3-20.
FULCHER G,DAVIDSON F.2012.The Routledge Handbook of Language Testing[M].London & New York:Routledge.
GREEN A.2014.Exploring Language Assessment and Testing: Language in Action[M].London & New York:Routledge.
HAMP-LYONS L.1989.Language Testing and Ethics[J].Prospect(5):7-15.
HAMP-LYONS L.1997a.Ethics in Language Testing[C]∥CLAPHAM C,CORSON D (eds.).Encyclopedia of Language and Education (Volume 7):Language Testing and Assessment.Dordrecht:Kluwer Academic.
HAMP-LYONS L.1997b.Washback, Impact and Validity: Ethical Concerns[J].Language Testing,14(3):295-303.
HAMP-LYONS L.1998.Ethical Test Preparation Practice: The Case of the TOEFL[J].TESOL Quarterly,32(2):329-337.
HAMP-LYONS L.2000.Social, Professional and Individual Responsibility in Language Testing[J].System(28):579 -591.
HAMP-LYONS L.2001.Ethics, Fairness(es), and Development in Language Testing[C]∥ELDER C,et al (eds.).Experimenting with Uncertainty: Essays in Honor of Alan Davies.Cambridge: Cambridge University Press:211-221.
JIN YAN.2010.The Place of Language Testing and Assessment in the Professional Preparation of Foreign Language Teachers in China[J].Language Testing,27(4):555-584.
KANE M.2012.Validating Score Interpretation and Uses: Messick Lecture, Language Testing Research Colloquium, Cambridge, April 2010[J].Language Testing,29(1):3-17.
KUNNAN A.1999.Recent Development in Language Testing[J].Annual Review of Applied Linguistics(19):235-253.
KUNNAN A.2008. Towards a Model of Test Evaluation: Using the Test Fairness and Test Context Frameworks[C]∥TAYLOR L,WEIR C J(eds.).Multilingualism and Assessment: Achieving Transparency, Assuring Quality, Sustaining Diversity—Proceedings of the ALTE Berlin Conference, May 2005.Cambridge:UCLES and Cambridge University Press.
LYNCH B.1997.In Search of the Ethical Test[J].Language Testing,14(3):328-339.
LYNCH B.2001.Rethinking Assessment from a Critical Perspective[J].Language Testing,18(4): 351-372.
MATHEW R.2004.Stakeholder Involvement in Language Assessment: Does it Improve Ethicality?[J].Language Assessment Quarterly,1(2/3):123-135.
MCNAMARA T,ROOVER C.2006.Language Testing: The Social Dimension[M].Oxford: Blackwell.
O’LOUGHLIN K.2011.The Interpretation and Use of Proficiency Test Scores in University Selection: How Valid and Ethical Are They?[J].Language Assessment Quarterly,8(2):146-160.
REED D,STANSFIELD C.2004.Using the Modern Language Aptitude Test to Identify a Foreign Language Learning Disability: Is It Ethical?[J].Language Assessment Quarterly,1(2/3):161-176.
SHOHAMY E.1997.Testing Methods,Testing Consequences: Are They Ethical? Are They Fair?[J].Language Testing,14(3):340-349.
SHOHAMY E.2000. Fairness in Language Testing[C]∥KUNNAN A J (eds.).Fairness and Validation in Language Assessment.Cambridge:Cambridge University Press.
SHOHAMY E.2001.The Power of Tests: A Critical Perspective on the Use of Language Tests[M].Harlow,England:Longman.
SPOLSKY B.1997.The Ethics of Gatekeeping Tests: What Have We Learned in One Hundred Years?[J].Language Testing,14(3):242 -247.
SPOLSKY B.2008.Introduction——Language Testing at 25: Maturity and Responsibility?[J].Language Testing,25(3):297-305.
STANSFIELD C.1993.Ethics, Standards and Professionalism in Language Testing[J].Issues in Applied Linguistics,4(2):15-30.
TAYLOR L.2013.Ethics in Language Assessment[C]∥CHAPELLE C A (eds.).The Encyclopedia of Applied Linguistics.Dordrecht:Blackwell Publishing Ltd:2008-2014.
Xi X.2010.How Do We Go about Investigating Test Fairness?[J].Language Testing,27(2): 147-170.
[責(zé)任編輯:許蓮華]
Ethics in Language Testing: Review and Implication
GAN Ling1XIA Jimei2
(1.SchoolofForeignLanguages,ZhongnanUniversityofEconomicsandLaw,Wuhan430073;2.ForeignLanguagesTeachingCenter,SunYat-senUniversity,Guangzhou510275,China)
Abstract:Language testing is usually high-stake, for it involves such various stakeholders as test users and test takers who make decisions or are made decisions based on the scores of the tests. Henceforth, the decisive role of language testing on individual’s lives must involve issues about ethicality. This article presents and discusses the existing researches concerning ethics in language testing from two aspects: testers and tests. In view of the discussion, it elucidates the implications for researches on ethics in Chinese language testing.
Key words:language testing; ethics; review and implication
收稿日期:2015-09-01
基金項(xiàng)目:中央高?;究蒲袠I(yè)務(wù)費(fèi)專項(xiàng)資金項(xiàng)目“語(yǔ)言測(cè)試倫理問(wèn)題研究——以大學(xué)英語(yǔ)四、六級(jí)為例”(31541410209)。
作者簡(jiǎn)介:甘凌(1980-),女,廣西賓陽(yáng)人,碩士,中南財(cái)經(jīng)政法大學(xué)外國(guó)語(yǔ)學(xué)院講師,研究方向?yàn)檎Z(yǔ)言測(cè)試與外語(yǔ)教學(xué)。夏紀(jì)梅(1950-),女,中山大學(xué)大學(xué)外語(yǔ)教學(xué)中心教授,華中農(nóng)業(yè)大學(xué)“楚天學(xué)者”主講教授,研究方向?yàn)橥庹Z(yǔ)教育。
中圖分類號(hào):H08
文獻(xiàn)標(biāo)識(shí)碼:A
文章編號(hào):1672-0962(2016)02-0058-07