許 鵬,周春艷,陳曉紅
(1.南通開放大學,江蘇 南通 226000;2.南通市衛(wèi)生高等職業(yè)技術學校,江蘇 南通 226000)
口語能力是衡量學習者外語能力的顯著標志,同時也是能力短板。一直以來,缺乏科學有效的評價機制是造成這種能力短板的一大原因。學習者口語能力評價也由此成為外語教學界重視的話題。近年來口語考試逐步納入許多標準化外語測試體系中,成為其重要組成部分。
口語考試的評分是考試信度和效度的重要保證[1],一直是各種口語考試的研究重點。作為評分標尺的口語能力評分量表(rating scales,也稱評分標準或等級)更是得到國內(nèi)外研究者的廣泛關注,其對于口語教學、教材開發(fā)和編寫以及提升教育系統(tǒng)的透明度都有重要的意義。[2]
國內(nèi)已有研究者從歷史的角度對口語能力量表(評分標準)相關研究進行了縱向分析,將其發(fā)展劃分“專家型經(jīng)驗”“實踐者認知”“學習者發(fā)展”[3]以及“萌芽期”“發(fā)展期”“轉變與成熟期”[4]等幾個階段。在一定語言觀影響下,口語能力量表(或口語能力元素的相關語言能力量表)編制呈現(xiàn)出階段性特征,大致經(jīng)歷了三個階段。20 世紀50 年代,受結構主義語言觀影響,早期量表注重對語言知識和語言技能的測評,評價標準制定依賴于專家經(jīng)驗。1955 年由美國外交學院制定的FSI 量表就是這一時期的代表,該表分語音、語法、詞匯、流利度和理解度五個方面來評價美國外派軍事人員的口語水平。FSI 量表影響很大,后來美國的ILR量表和澳大利亞的ISLPR量表都是在此基礎上制定的。至20世紀70年代,社會語言學的發(fā)展和語言研究的功能性轉向使得交際語言能力觀得到推崇,人們意識到語言使用不僅涉及結構規(guī)則,還受到社會語言學因素影響,語言測試隨之進入社會語言學時期。自Hymes[5]提出“交際能力”這個概念,一系列交際能力模型的提出為量表研制提供了理論框架,其中以Bachman[6][7]提出的交際語言能力模型最有影響力,應用也最為廣泛。歐洲的語言能力共同量表、加拿大的CLB量表以及ALTE 量表都深受這種模型的影響。Wilkins[8]、North[9]等人也基于交際語言能力設計出功能意念大綱或量表。進入21 世紀,功能主義語言觀的盛行使量表更加地關注現(xiàn)實生活中的語言運用能力,實證研究成為主流研究范式。目前歐美多國(地區(qū))已制定出自己的統(tǒng)一語言量表,如芬蘭的“國家證書描述量表”、美國的“美國口語測試量表”、歐洲的“歐洲語言通用參照框架”,實現(xiàn)了語言測試的科學化、規(guī)范化。
歷史分析有助于把握口語能力量表的發(fā)展軌跡,但容易忽視研究對象中部分與部分以及部分與整體間的關系,且上述研究都是以國外文獻作為分析文本的。隨著語言測試學科在我國的發(fā)展成熟,口語能力量表研究也引起人們的廣泛關注。本文對國內(nèi)口語能力量表10 年來的相關文獻從共時的角度加以剖析,分別以“口語量表”“口語評分標準”“口試評價”和“口試評分表”為主題詞在中國知網(wǎng)上進行文獻檢索,主要選取了來自中文社會科學引文索引(CSSCI)的核心刊物文獻共44 篇。在所得文獻基礎上進行文本研究撰寫綜述,以求把握國內(nèi)研究的歷史發(fā)展、目前狀況及未來趨勢。
高一虹[10]將研究方法分為兩大類:實證性研究和非材料性研究。實證性研究又稱為材料性研究,以系統(tǒng)的材料采集和分析為特點,包括量化研究和質(zhì)化研究。非材料性研究指不以系統(tǒng)采集的材料為基礎的研究,包括用思辨的方法討論理論及其應用、具體操作性描述和評價、個人經(jīng)驗與觀點。據(jù)此方法,對收集到的44 篇國內(nèi)口語能力量表研究文獻進行了分類整理,結果見表1。
表1 國內(nèi)口語能力量表研究方法
總的來說,國內(nèi)研究非材料性方法研究比例高于實證性研究比例,但近幾年實證性研究比例呈逐漸上升趨勢。在實證性研究中,以往由于條件和認識水平限制,量表研制中通常采用經(jīng)驗法,如依賴專家經(jīng)驗對描述語進行分類分級。這種做法由于主觀而缺乏科學性。近年來,隨著統(tǒng)計分析理論和方法在語言測試中的廣泛應用,量表編制的科學性得以提高。概化理論、方差分析、因子分析、Rasch 模型等理論和方法逐漸引入到描述語量化和量表質(zhì)量檢驗中。[11]-[13]
根據(jù)對象主體、使用目的和風險規(guī)模三個方面,對國內(nèi)口語能力量表研究進行分類。
根據(jù)量表針對的不同對象主體,所編制出的口語量表可以說涵蓋了大學、高初中等各階段的學生群體。劉芹等[14]在大規(guī)模調(diào)研的基礎上構建并驗證了適用于我國理工科大學生英語口語測試的分析性評估體系。劉東杰[15]從語言運用、語言表達、交際策略、文化知識和行為表現(xiàn)五個維度構建用于評價高中英語課堂口語展示的標準,并運用多面Rasch模型測評該標準。高淼[16]針對初中生群體的大規(guī)模低風險的口語測試制定了EBB 評分標準,并利用多面Rasch 模型對其進行效度驗證。而另一方面,專門針對其他學習群體(如成人學習者)的量表幾乎沒有。
根據(jù)不同的使用目的,量表研究多針對通用英語使用情境,很少針對特殊英語使用情境(如商務職場情境)。在國外,為滿足工作實際需求,由企業(yè)、語言機構等主體機構共同開發(fā)的用于內(nèi)部參考的商務英語量表在20 世紀50 年代便已出現(xiàn)。1976 年,首個專門用于ESP 教學和評估的ELTDU 量表也被開發(fā)出來。此外許多量表(如澳大利亞的ISLPR 量表和加拿大的CLB 量表)都包含了特殊情境中外語使用能力的描述。這些量表采用需求分析的方式構建,對接的是企業(yè)員工的實際工作或英語為二語的移民的學習需求。對于用于特殊情境中的口語評價量表,國內(nèi)已開始有學者開始進行初步的理論初探[17]、實際量表編制[18]和綜述介紹[19]。隨著特殊英語教學的蓬勃發(fā)展和使用的日益頻繁,編制針對特殊使用目的的英語能力等級量表的必要性日益凸顯,成為今后相關研究努力的方向。
根據(jù)不同的風險規(guī)模,研究既包括大規(guī)模、高風險的量表(如大學英語考試口語評分標準),大規(guī)模、低風險的量表(如中國英語等級量表),也包括小規(guī)模、低風險的量表(如基于校本測試的量表)。目前研究多集中在大規(guī)模、高風險量表,這類量表多經(jīng)過多輪質(zhì)量檢驗,受到社會普遍認可。但同時值得一提的是,近年來,根據(jù)自身教學評價需求,包括復旦大學[20]、清華大學[21]、中國人民大學[22]在內(nèi)的不少一流高校都已開發(fā)出相應的校本測試項目。這也許是今后量表研究的一個趨勢。
歐美澳地區(qū)制定的語言量表較為成熟,影響也最為廣泛。國內(nèi)相關研究首先從介紹、評價這些量表開始,從中不僅得到教學上的啟示和借鑒,也為建設符合我國國情的科學的語言能力量表提供了寶貴經(jīng)驗。韓寶成[23]介紹了ILR(FSI)量表、ACTFL量表、ISLPR量表等國外幾個有影響的語言能力量表,并評述每個量表的優(yōu)缺點。鄢家利[24]介紹了加拿大語言量表CBL2000 的口語標準,并從教學的角度探討了該量表對語言口語能力培養(yǎng)的啟示。王鶯鶯[25]則探討了ACTFL 量表對構建我國CET口語測試評估新體系的啟示。
上述量表是為了適應不同的教學需求或工作需要產(chǎn)生的,因此在描述體系和等級劃分上存在差異,不利于相互之間認證。因此,歐洲相關語言政策部門力圖建立共同的參照標準,并經(jīng)二十余年努力最終形成“歐洲語言能力等級共同量表”。在這一趨勢影響下,考慮我國外語教學層次復雜、測試種類多樣的現(xiàn)狀,同時面對缺乏統(tǒng)一參照標準產(chǎn)生的語言能力描述參數(shù)設置不一、精度不一、等級劃分不一等諸多問題[26],國內(nèi)語言教師和測試研究者越來越認識到有必要統(tǒng)一外語評價標準,構建具有中國特色的英語教學“一條龍”體系,以利于組織銜接全國范圍內(nèi)各層次教學,提高教學質(zhì)量和效率,也便于測試用戶對合理評價人才。同時我國的外語測試標準也需要逐步與國際語言測試界接軌。[23][26]-[29]
量表制定是統(tǒng)一我國外語測試標準的基礎工程。在這一認識下,我國學者圍繞著構建科學統(tǒng)一規(guī)范、符合我國國情的外語能力等級量表的原則方法開展了一系列卓有成效的理論探索,提出了一系列理論、原則和方法。楊惠中等[30]認為統(tǒng)一量表制定要以從社會需求出發(fā),注重科學性、實用性和可操作性為根本原則,具化為五個方面:以交際語言能力理論為基礎;分別描述聽、說、讀、寫能力;對語言能力進行“能做”描述;語言能力等級描述根據(jù)需要決定詳略;統(tǒng)一量表須便于理解和使用。在這些原則指導下,他們確立了具體可操作的工作步驟,并以口語能力評價標準為例,具體闡述了英語口語能力描述語量化與口語能力等級量表制定的原理和工作方案。劉建達[31]指出科學性、實用性和可操作性是我國英語能力等級量表研制中要注重的原則。其中科學性是要求量表的制定必須基于先進的語言能力和心理測量理論,采用科學的研究方法。圍繞著科學性原則,專家們紛紛建言獻策,提出自己的思路方法。劉建達和彭川[32]在指出《歐洲語言共同參考框架》存在問題的基礎上,結合我國外語教學實際,從量表建設的總體原則、描述框架、描述語表述及分級驗證等方面探討了如何確保量表研制的科學性。
2018 年4 月12 日,教育部、國家語言文字工作委員會正式發(fā)布了《中國英語能力等級量表》(China's Standards of English,簡稱CSE)。CSE 量表的建設立足我國外語教育基本國情,同時借鑒國際上量表研制的成功經(jīng)驗,以面向使用為原則,分階段、分項目地對各等級的能力特征進行描述,保障了量表的科學性、規(guī)范性。[33]可以說,CSE 量表的成功研制與前期扎實有效的理論研究是分不開的。
在以能力構念為基礎的結構框架下收集描述語,并對描述語進行分類分級,進而建立口語能力描述語庫,是量表建設的關鍵步驟,也是描述語量化研究關注的主要方面。其中描述語的分類分級是量表編制的技術難點與核心任務。我國研究人員借鑒反思了國外相關研究的優(yōu)缺點,摸索出適合我國國情的科學實施方法。對于中國英語等級量表中描述語的分級分類,一些國內(nèi)研究者指出,與《歐框》主要通過定量分析不同,CSE量表描述語的實證和分級采用質(zhì)性分析與量性分析相結合的方式,最大程度保障了分級的科學性[32][34]。此外,也有學者從定性角度分析了描述語的結構組成和語義特征。朱正才[35][36]不但從量化的角度提出了描述語量表化的可行性方案,還從定性的角度論述了描述語的語義結構和規(guī)范表述。揭薇和金艷[37]則從詞匯特征、高頻詞、詞類分布和名詞化等方面分析了中國英語能力等級量表的口語能力描述語的語體特征。定性研究相對還是比較少。
量表的信度和效度是其質(zhì)量的重要保證。首先,信度是效度的基礎和前提,沒有信度的測試不可能有效度。因此口語評分量表的信度倍受國內(nèi)研究者的關注,他們主要從評分員執(zhí)行量表的一致性和嚴厲度上加以分析研究。但傳統(tǒng)的信度研究僅考慮評分員因素,忽略了口語評分是受多種因素共同影響的事實,因而具有一定的局限性。而效度將評分員、評分標準、評分流程等多個因素考慮在內(nèi),能更為全面地體現(xiàn)評分的準確性,被預測為是21 世紀語言測試研究的熱點問題之一[38]。效度對于口語、寫作等表現(xiàn)型測試評分而言更是至關重要的[39]。因此,如何保證量表的效度成為語言測試研究者,特別是口語測試研究者關心的首要問題。
近年來,國內(nèi)語言測試領域圍繞效度從理論和實證兩個方面展開了一些研究,研究過程也逐漸從單純的理論引介轉向運用創(chuàng)新。理論上主要探討了用于效度驗證的框架模型。朱正才[40]嘗試從時間、科學道德和教育生活三個維度為中國英語能力等級量表的效度研究構建一個完整的理論框架。這一框架包括了即時效度、延時效度、構念效度、公平效度、教學反撥效度、社會影響效度幾個概念,較為全面地涵蓋了效度驗證所涉及的方面。實證上主要針對實際量表編制中的效度質(zhì)量控制。一些大規(guī)模標準化的外語口語考試評分量表(標準)都進行了多次的效度檢驗,包括大學英語考試口試[41]、英語專業(yè)四級口試[42]、高等學校英語應用能力考試口試[43],在此過程中量表不斷得以改進完善,提高了考試的科學化水平。此外,研究者還對一些自主開發(fā)的用于校本口語測試的量表進行了效度檢驗[44][45]。
以上研究說明效度檢驗已成為量表編制過程中不可缺少的一部分。但總的來說,國內(nèi)語言測試評分效度研究中針對口語的研究依然有限。同時這些有限的研究多集中在評分過程和評分員方面,專門針對評分量表的研究更不多見。
國內(nèi)口語能力等級量表的相關研究起步雖晚,但十多年來取得了不俗的成果。這既得益于借鑒國外已有成熟量表(尤其是歐框)的寶貴經(jīng)驗,更是與國內(nèi)研究者自身努力分不開。我國特有的外語教學環(huán)境和教育體制決定了我們不可能直接照搬國外現(xiàn)成的語言能力等級量表。因此,我國學者立足國內(nèi)實際教情學情,面向我國的語言能力量表建設,秉持服務本國外語學習者的理念,進行了扎實有效的理論研究和實踐探索,使口語量表研究逐漸朝著科學化、規(guī)范化、標準化方向發(fā)展。
目前國內(nèi)研究呈現(xiàn)以下特點:研究方法上,以非材料性研究為主,量表編制的實證研究相對缺乏;研究對象上,量表編制的目標群體主要為在校學生(尤其是大學生),幾乎沒有以其他社會群體(如成人等在職學習者)為對象專門編制的量表,量表使用情境也多以一般使用目的為主,很少針對特殊使用目的(如商務、職場環(huán)境);研究內(nèi)容基本涉及了能力構念、描述語、效度等量表本身研制中的各核心方面,但量表應用研究較少,比如如何建立量表與教學評價的關聯(lián);研究趨勢上,統(tǒng)一化、大規(guī)模、高風險的量表編制成為趨勢,但小規(guī)模、低風險、基于校本的診斷性量表研究缺乏。不容否認,口語評分標準(量表)的研究仍處于起步階段[46]。
回顧歷史,展望未來,國內(nèi)口語能力量表研究可以進一步地從以下兩個方面進行拓展。一是拓展研究對象。未來研究可以收集代表多個語言使用群體和多種語言使用情境的口語實證數(shù)據(jù),進一步擴展量表使用范圍。二是擴展研究視角?,F(xiàn)有量表多是從言語的單模態(tài)角度對學習者的口語能力進行評價。副語言和非語言特征是口語活動區(qū)別于其他語言活動的獨特之處[47],這使得評價口語能力相對復雜。近年來雖有學者從非言語層面對口語評估進行了研究,但這類研究數(shù)量較少且缺乏系統(tǒng)性。未來研究可從多模態(tài)視角研究口語能力量表的編制。