潘茹君 王佶旻
對接(linking或alignment)指將兩個獨立的測量工具連接起來的研究過程,它包括考試與考試對接、考試與量表對接、量表與量表對接[1]??荚嚺c量表對接實質上是將考試成績關聯(lián)到描述語言能力表現(xiàn)的語言標準,這種關聯(lián)將抽象的考試分數(shù)賦予具體的意義[2],提高了考試的使用效度[3],促進考試之間的溝通和互認[4]。自《連接語言考試與歐洲語言共同參考框架手冊》(Relating Language Examinations to the Common European Framework of Reference for Language,以下簡稱《對接手冊》)及修訂版發(fā)布以來,對接研究在國際語言測試領域迅速發(fā)展。我國以《中國英語能力等級量表》的研制和發(fā)布為契機,也展開了一系列量表與大型考試或校本考試對接的相關研究。漢語作為第二語言的評價領域,也應考量漢語各類測試與語言能力標準的現(xiàn)狀,積極建立二者之間的關聯(lián)。
歐洲理事會于2001年正式出版《歐洲語言共同參考框架》(Common European Framework of Reference for Languages,簡稱CEFR),為語言教學和評估提供了標準,也為歐洲語言教學的課程指南和教材編寫提供了共同的參考框架。CEFR研制并發(fā)布后,歐洲各國的考試研發(fā)機構開始嘗試將自己研發(fā)的考試與框架進行對接,但很多對接未采取科學的方法,缺乏效度。為了改變這種現(xiàn)狀,歐洲理事會于2003年和2009年分別頒布了《連接語言考試與歐洲語言共同參考框架手冊》及修訂版,為對接工作提供了科學、系統(tǒng)、有效的框架和依據(jù)。自此,語言考試與量表對接的研究和實踐在全球范圍內展開?!秾邮謨浴穼⒄麄€對接工作分為內在相互聯(lián)系的三個階段:框架熟悉(familiarization)和試題檢視環(huán)節(jié)(specification,又稱考試說明)、標準設定(standard setting)、效度研究(validation)。
(1)框架熟悉和試題檢視環(huán)節(jié)
框架熟悉和試題檢視是整個對接流程的開始,是對接工作開展的先決條件。框架熟悉指經(jīng)過一系列培訓,確保對接專家深度熟悉語言能力標準框架、等級描述語,以及每個等級的典型特征??蚣苁煜ぐ蚣苁煜h的前期準備、對框架的質性分析、評分準備工作等。試題檢視則是通過一系列練習和培訓幫助對接專家了解將要對接的考試的要求和題型,然后通過一系列將考試與描述語進行對照的練習,幫助對接團隊了解考試能夠多大程度覆蓋語言能力框架中的能力要求。
(2)標準設定
標準設定是整個對接流程至關重要的一環(huán)。這一環(huán)節(jié)實質上是專家依據(jù)標準判斷將考生劃分等級,再劃定臨界分數(shù)的過程。主觀判斷在這一環(huán)節(jié)的每一個步驟中均有體現(xiàn),諸如:決定水平的等級數(shù)量、培訓和挑選評判專家、挑選標準設定方法等。標準設定常用的方法有很多種,大致可分為試題中心法和考生中心法。試題中心法指專家對臨界水平考生在每道題目上的預期表現(xiàn)做出判斷。常用的方法有:投籃法、Angoff法、書簽法等。其中Angoff法是最常用的方法之一,它被稱作“行業(yè)標準”(the industry standard),是最簡便、最廣泛應用和最易解釋的一種方法[5]。考生中心法指以考生為中心,專家憑借對考生的了解而非考試題目或成績判定考生等級。典型的方法包括臨界組法、對照組法和分析判斷法。其中最常用的是對照組法。
(3)效度驗證
由于標準設定的每一個環(huán)節(jié)都涉及主觀判斷,效度驗證就尤為重要。需要明確的是,效度驗證并不是整個對接的最后一步,而是貫穿對接的整個過程,且是一個循環(huán)論證的過程[6]?!秾邮謨浴诽岢鰪囊韵氯齻€角度收集效度證據(jù):內部、外部和程序。內部效度即專家自身判斷一致性、專家之間的判斷一致性、結果穩(wěn)定性以及標準設定分類的準確性和一致性[8]。外部效度指通過收集外部證據(jù)驗證專家組的對接結果,例如收集同一批考生在不同測試中的成績或同一批專家采用不同標準設定方法所得到的結果[8]。程序效度指對接程序的每一步驟是否確保對接的有效實施,如專家對量表的熟悉程度、對考試和對接步驟的充分認識等。
國外的對接研究由來已久。歐美著名的語言教學機構和測試研發(fā)機構都將自己推行的語言測試產(chǎn)品與CEFR對接,使考試分數(shù)獲得統(tǒng)一的解釋[9]。Tannenbaum和Wylie采用改良Angoff法和行為檔案法(Performance Profile Approach)將托業(yè)(TOEIC)、托福(TOFEL)、托業(yè)橋考試(TOEIC Bridge)與CEFR進行了對接[10]。Tannenbaum和Baron又沿用改良Angoff法將托福ITP分數(shù)與CEFR進行對接,為政策制定者提供與CEFR的A2、B1、B2等級相對應的臨界分數(shù)建議[11]。劍橋ESOL考試中心推出的雅思(IELTS)和培生學術英語考試(PTE Academic)也通過對接,使其成績報告同時包含CEFR和GSE(Global Scale of English,全球英語能力等級量表),以便更詳盡地解釋考生的語言水平[12]。Bechger等人將荷蘭語國家考試(State Examination of Dutch)中的兩項產(chǎn)出性技能測試與CEFR進行對接,并得出結論:以進入荷蘭學習普通課程或獲得較低技術要求的工作為目的,需達到CEFR的B1水平;以接受高等教育或進行技術性工作為目的,則需達到B2水平[13]。加拿大的語言能力標準CLB(Canadian Language Benchmarks)也完成了與CEFR的對接[14]。
研究者們不僅完成了對接,同時還關注對接的效度問題。Fleckenstein等人將托福(TOEFL iBT)寫作考試與CEFR等級進行了對接:研究不僅為德國和瑞士的大學準入考試劃定了分數(shù)線,探究了托??荚?、CEFR等級和兩國高中教育評價標準的一致性程度,更重要的是,研究還通過專家填寫反饋的方式為對接提供了程序效度證據(jù),通過專家間和專家內部的一致性提供了內部效度證據(jù),又通過其他考試的成績的關聯(lián)度提供了外部效度,同時還討論了分數(shù)線設定是否合理,是否符合兩國學生的實際水平,為后續(xù)效度提供了證據(jù)[15]。De Jong認為測試的先驗和后驗效度同樣重要,他采用先驗和后驗效度驗證相結合、考生為中心和試題為中心相結合的方式,以CEFR為模型框架編寫試題,實現(xiàn)了培生考試(Person Test of English Academic)與CEFR的對接,為考試提供了效度證據(jù),也為考生在高利害考試中所獲分數(shù)提供了更加充分的解釋[16]。
自《對接手冊》發(fā)布以來,國外測評與量表的對接已然經(jīng)過了較為充分的理論探討和實踐積累。根據(jù)考試的類型、題型、目的等采取不同的標準設定方法、臨界分數(shù)劃定方法和效度驗證等。這些研究基本都遵循了《對接手冊》的步驟,研究成果為語言測試提供了詳盡的分數(shù)解釋,也為語言能力標準的設定提供了重要的證據(jù)。
我國對接研究起步較晚。在中國擁有符合國情的英語能力等級量表之前,有一些與CEFR相關聯(lián)的研究[17-20]。中國英語能力等級量表(以下簡稱“量表”)的研發(fā)為國內量表與考試的對接提供了契機,相關研究集中在國內大型英語考試和校本測驗的對接。揭薇嘗試對接大學英語四級考試(College English Test Band Four)和量表中的口語分量表,她運用了邏輯回歸和中點分析法計算臨界分數(shù),同時檢驗了專家決策一致性和標準設定的結果[21]。王華采用“共同被試設計”和調查問卷將校本英語水平考試與量表進行了對接,將考試的7個等級對接到量表的四級到八級[22]。同樣關注校本考試對接的還有閔尚超、姜子蕓,他們采用改良Angoff法和對照組法將校本聽力考試對接至量表五級,同時收集了程序效度、內部效度和外部效度證據(jù)[23]。校本考試的對接能夠為學生提供更加明確的反饋信息和學習目標,同時也為教學大綱和教學設計提供了參考。
除了對接考試的嘗試,還有針對效度驗證的研究。何蓮珍對內部、外部和程序效度的證據(jù)收集觀點提出質疑,認為這一效度框架具有明顯的缺點:證據(jù)零散不全面,三方面效度的簡單疊加不等于對接效度;只針對對接結果進行解釋,忽略對接結果使用的后效[24]。因此她基于Bachman&Plamer[25]的評估使 用 論 證 框 架(Assessment Use Argument,簡 稱AUA)提出對接使用論證框架(Linking Use Assessment,簡稱LUA)。該框架通過四條主張,描述對接后效、對接決策、對接結果解釋、對接紀錄以及考生表現(xiàn)五者之間的線性循環(huán)關系。她主張通過一系列理據(jù)和相應證據(jù)將各個重要屬性有機聯(lián)系記起來,構建對接效度整體觀?;谠摽蚣?,閔尚超以雅思閱讀試卷與量表為例,以對接專家團體對雅思閱讀樣題的判斷為數(shù)據(jù),得出結論:雅思閱讀卷與量表對接結果一致性較高,但是高級別對接結果一致性有待提高,專家團隊之間的反饋能夠有效提高判斷結果的一致性[26]。蔡宏文研究發(fā)現(xiàn),雅思考試寫作與量表描述語描述的內容一致性程度高,涉及語言知識運用及表達策略的描述語覆蓋程度較高,但不同文體的描述語覆蓋程度較低,涉及互動的描述語則更少[27]。吳莎同樣基于LUA框架,從對接項目管理者和參與標準設定的專家視角,以調查問卷和訪談的方式對雅思、托福、普思(APTIS)等國際英語考試對接量表進行了預期后效的探究,認為對接的后續(xù)積極效應體現(xiàn)在三個方面:(1)宏觀層面推動國家外語教育現(xiàn)代化發(fā)展;(2)中觀層面推動教學和評價方式的改進;(3)微觀層面促進學生自主學習能力和教師能力[28]。張潔和王偉強同樣從對接團隊的培訓師職責視角探討對接效度問題,認為培訓師是標準設定環(huán)節(jié)中的關鍵人物,培訓師的專業(yè)知識、經(jīng)驗及嚴謹?shù)淖黠L為標準設定提供了效度保障[29]。
總之,對接研究在我國剛剛起步,現(xiàn)有的研究主要集中關注國內大型考試及校本測試與量表的關聯(lián)性,同時圍繞內部一致性和概推性、后效性等效度驗證框架展開實證研究,這些研究促進了中國英語能力評價體系的完善和規(guī)范,也為中國英語能力評價體系與國際接軌提供了切實的證據(jù)。
語言測試與能力標準的對接具有十分重大的意義,但目前漢語作為第二語言的量表與考試對接工作還未展開。由此,提出漢語能力標準與來華留學預科結業(yè)考試對接的初步設想。
對接工作具有重要的實際意義和社會影響,對接的考試必須確保高質量、高信度,且具有社會影響力和認可度。來華留學生預科教育是漢語作為第二語言測評領域的重要一環(huán)?!皾h語綜合統(tǒng)一考試”是面向中國政府獎學金本科來華留學生的預科結業(yè)考試??荚嚫鶕?jù)漢語教學和社會實際需求開發(fā),在考試設計、考試實施、分數(shù)解釋和選拔標準等環(huán)節(jié)中貫徹了預科教育的理念,體現(xiàn)了預科綜合考試對學習者的要求[30]。預科考試具有以下兩個不同于一般漢語考試的特點,使對接的展開具有重要性和必要性:首先,預科結業(yè)考試用來衡量學生的漢語水平是否能夠達到進入本科進行專業(yè)學習的要求,是對考生具有重要意義的高利害考試。第二,已有研究和實踐證實,漢語綜合統(tǒng)一考試試卷質量優(yōu)良,能夠滿足對中國政府獎學金預科留學生的漢語教學成果的考查和對學生漢語水平的評測需求[31],是具有高質量高信度的考試。將來華留學生預科考試與漢語能力標準相關聯(lián)有助于探查來華留學預科生的語言能力處于漢語能力標準的何等級別,這一對接對于漢語預科教育評價體系和漢語作為第二語言能力標準的制訂均有重大意義。
“漢語綜合統(tǒng)一考試”依據(jù)學生的專業(yè)需求,分類設置文科、經(jīng)貿、醫(yī)學和理工四個試卷版本,每個版本均由基礎漢語部分和專業(yè)漢語部分組成。基礎漢語部分四個版本的試題相同,用于考查基礎語言知識及日常交際能力,共81道題。專業(yè)漢語部分依據(jù)不同專業(yè)設置,用于考查專業(yè)領域的語言運用能力,共40道題。試卷均由聽力理解、綜合閱讀和書面表達三大部分組成,全卷共121題,12種題型,考試時間約160分鐘,各部分設置詳細信息見表1。由于專業(yè)漢語部分的題目因專業(yè)不同有所變化,因此可將面向所有考生的基礎漢語試題作為與語言能力標準對接的對象。
表1 “漢語綜合統(tǒng)一考試”試卷結構
與考試對接的能力標準為“漢語作為第二語言能力標準”(以下簡稱能力標準)。該能力標準是2015年度國家社科基金重大項目“漢語交際能力標準與測評研究”的重要成果,對漢語作為第二語言能力的評價體系具有重大現(xiàn)實意義和參考價值,同時也為來華留學預科教育評價、海外華人華僑漢語水平考試以及少數(shù)民族漢語水平考試提供了參考。該標準遵循科學、全面、實用和兼容的原則,通過定性定量相結合的方式,構建了適用于漢語作為第二語言的能力標準體系。體系包括三個部分:語言水平等級描述、配套水平測驗和詞匯大綱。其中,語言水平等級描述是主體。能力描述語指標庫由聽、說、讀、寫四個子庫組成,每個子庫都包括總說、描述語及其分類、難度值與能力等級。總說是概括描述該語言技能具有的區(qū)別性特征。聽、說、讀、寫每一項技能的描述語都被歸為初級、中級和高級三個水平等級,每個等級下再分低、高兩等。各等級描述語均包含相應的難度值,能夠較好地描述該等級的二語者“能做”什么。各等級描述語數(shù)量如表2。該描述語指標庫為考試提供了詳盡的對標對象。
表2 漢語作為第二語言能力等級描述語數(shù)量
考慮到來華留學預科結業(yè)考試的特性和重大意義,將其中的基礎漢語考試部分與漢語作為第二語言能力標準進行對接,能夠為中國政府獎學金來華留學生語言能力水平提供強有力的解釋和評價,促進來華留學生預科教育規(guī)范化和體系化。
對接是一項復雜且意義重大的工作,基于《對接手冊》的科學步驟及前人研究經(jīng)驗,結合漢語能力標準以及預科考試的特性,可以首先將輸入型技能測驗即“漢語綜合統(tǒng)一考試”中聽力和閱讀的基礎漢語部分試題與能力標準對接,對接的具體步驟和關鍵問題如下:
(1)確定對接程序
《對接手冊》為對接的研究和實踐提供了具有可行性的操作框架,但需要明確的是,不能完全照搬前述的四個步驟。既要以《對接手冊》提供的科學步驟為基準,還要依據(jù)漢語考試的題型和能力標準描述語的實際情況,對實施步驟進行適當調整。除對接的基本四個步驟外,還需要提前將以下三個具體問題納入對接框架的設定考量:①項目描述語庫中的描述語仍存在匱乏或模糊等問題,可能會導致專家判斷面臨挑戰(zhàn),因此需要將其再度完善、修改和增加;②經(jīng)過試題檢視和熟悉量表環(huán)節(jié)后,為驗證專家對量表的理解沒有偏差,需要設計專門的調查問卷和訪談,了解專家的熟悉度;③試題檢視和框架熟悉環(huán)節(jié)之間沒有明顯界限,但需要考慮兩環(huán)節(jié)的過渡問題,或將兩環(huán)節(jié)交替進行,再輔以問卷和訪談,確保專家對試題和框架的熟悉度。
(2)組建對接專家團隊及培訓
專家對量表等級描述語和試題的理解直接影響其做出的判斷,而專家的判斷又會直接影響對接的有效性。因此,對接團隊必須由組織者、協(xié)調者和富有測試及教學經(jīng)驗的專家組成。此外,專家培訓也必不可缺,尤其要重視培訓師角色,讓培訓師真正發(fā)揮職能,提升專家團隊整體的專業(yè)性和協(xié)調性。
(3)熟悉框架和試題
該環(huán)節(jié)是對接真正開始的重要工作。該環(huán)節(jié)的重點在于基于《對接手冊》中試題檢視環(huán)節(jié)的練習和培訓,利用對接的目標描述語庫和考試題目,設計制定描述語和能力匹配的練習題,促進和檢驗專家對能力標準及考試內容的熟悉程度。此外,需要提取每個等級的顯著特征制定成表,幫助專家厘清各等級之間的差異,達成關于等級劃分的共識。
(4)設定標準和臨界分數(shù)
標準設定是對接的關鍵環(huán)節(jié)。這一環(huán)節(jié)的重中之重是選擇適當?shù)臉藴试O定方法。不同題型、不同類型的考試適用于不同的標準設定方法,不同的方法又會帶來不同的結果。需要經(jīng)過前期的預測及與專家的討論,商定出適用于輸入性技能的標準設定方法。需要考慮的問題有:①預科考試中,一張試卷包含聽力題目35道、閱讀題目35道,如采用最廣泛運用的Angoff法,題量是否超出評判負荷,導致專家疲憊度增加,判斷正確率下降?②專家對被試的熟悉度如何,即應該選擇試題中心法還是考生中心法,或采用二者相結合的方法?③標準設定程序經(jīng)過幾輪方能滿足程序效度需求?此外,標準設定實質上是向考試機構提交臨界分數(shù)建議的過程,高利害考試與量表的對接如采用不恰當?shù)呐R界分數(shù)可能會產(chǎn)生嚴重的社會后果。來華留學生預科結業(yè)考試的成績將直接決定學生能否進入更高學府,是具有重大意義的高利害考試,作為考試的研發(fā)者和對接的組織者,需要考慮是否需要對專家建議的臨界分進行調整后再公布使用。
(5)確立效度驗證框架
嚴密的效度驗證框架是對接具備良好效度的保障,是對接工作展開的前提。標準設定方法的選擇、專家判斷的一致性與有效性、對接流程的科學性和可操作性、考試構念與標準構念的匹配度、考試自身的信度與效度、標準及描述語的清晰度與一致性等因素都會影響對接的整體效度。效度的驗證貫穿在對接程序當中的每一環(huán)。在確立效度框架時要結合AUA框架和LUA框架,除前面幾個步驟中提出的關于內部效度、程序效度的檢驗證據(jù),還需要從對接后效、對接結果解釋和考生表現(xiàn)等方面考量和收集效度證據(jù)。需要先行計劃的包括:①設計用于探查學校、教育工作者、學生等層面后期效應的調查問卷及訪談,從國家政策制定的宏觀層面、學校和分數(shù)使用的中觀層面以及學生和教師個體發(fā)展的微觀層面廣泛地收集效度證據(jù);②建立來華留學預科生進入本科學習階段的長期監(jiān)測平臺,切實觀測依據(jù)對接所做出的決策是否有助于完善和發(fā)展?jié)h語國際教育的評價體系,是否對學生的自我評價、自我發(fā)展和教師的教學產(chǎn)生積極作用,以及是否需要及時作出政策調整。
最后,對接是一個持續(xù)的動態(tài)發(fā)展過程??荚嚺c量表的對接還會隨著教育政策、評價體系等因素的變化而變化,因此效度驗證也是一個循環(huán)往復的過程。后期效應的證據(jù)收集還需隨著教育政策、考試規(guī)劃、教育水平等其他因素的變化而不斷進行調整。
量表與考試的對接是對漢語作為第二語言能力評價標準的重要推進,漢語能力等級量表與考試的對接研究對于漢語作為第二語言的評價體系建設具有重要意義。一方面可以為不同的考試提供更為詳實的分數(shù)解釋,為不同考試之間搭建橋梁,促進學習成果的溝通與互認;同時促進考試質量的提升,發(fā)揮考試對教學的正向反撥作用。另一方面,能夠為政策制定者、教育者和分數(shù)使用者提供重要的參考依據(jù)。隨著漢語作為第二語言的評價體系的逐漸完善和能力標準的逐漸成型,量表與考試的對接研究亟待展開。應充分借鑒國內外對接研究的方法和經(jīng)驗,積極開展科學有效的對接,促進漢語作為第二語言能力評價體系的完善。