岳斌
【摘 要】 完型填空這種測(cè)試項(xiàng)目被多種語言測(cè)試所采用,但卻一直具有爭(zhēng)議性。內(nèi)容效度為測(cè)試效度中最重要的一個(gè)方面,而完型填空的內(nèi)容效度如何仍然存有爭(zhēng)議,基于對(duì)該問題的興趣,作者決定對(duì)完型填空的內(nèi)容效度進(jìn)行綜述,有助于理清該領(lǐng)域的研究思路與發(fā)展方向,促進(jìn)語言測(cè)試效度,尤其是內(nèi)容效度的提高。
【關(guān)鍵詞】語言測(cè)試 完形填空 內(nèi)容效度
一.語言測(cè)試的內(nèi)容效度
評(píng)估一項(xiàng)測(cè)試有四個(gè)因素:信度、效度、難度和區(qū)分度。其中效度是最重要的因素,“因?yàn)槿绻豁?xiàng)測(cè)試對(duì)其設(shè)計(jì)目的是無效的,那么分?jǐn)?shù)也就沒有意義”(Alderson&Urquhart,1983)。.作為語言測(cè)試最關(guān)鍵的因素,在效度在語言測(cè)試領(lǐng)域引起了眾多研究者的關(guān)注。效度通常是指測(cè)試或其組成部分的適當(dāng)性,作為其應(yīng)測(cè)量?jī)?nèi)容的衡量標(biāo)準(zhǔn)(Herming,2001年)。因此,效度是測(cè)試應(yīng)該遵循的基本標(biāo)準(zhǔn)。效度可分為表面效度、內(nèi)容效度和建構(gòu)效度。本文主要從內(nèi)容效度的角度對(duì)完形填空測(cè)試進(jìn)行研究。
(1)效度的分類
效度根據(jù)不同標(biāo)準(zhǔn)的分類吸引了眾多學(xué)者的關(guān)注。學(xué)者們對(duì)效度進(jìn)行了幾種分類,如Davies(1986)和Alderson等人(2000年)。Alderson提出的分類法是最廣泛采用的一種。他指出,效度分為三種類型:表面效度、內(nèi)容效度和結(jié)構(gòu)效度。表面效度是根據(jù)觀察者的主觀判斷,測(cè)試似乎是衡量了其應(yīng)該要衡量的知識(shí)或能力。如果一個(gè)考試對(duì)教師和考生看起來說是正確的,那就可以說它具有表面效度。內(nèi)容效度是指測(cè)試內(nèi)容必須對(duì)于課程中所教的內(nèi)容具有代表性和典型性。結(jié)構(gòu)效度是指一個(gè)測(cè)驗(yàn)實(shí)際測(cè)到所要測(cè)量的理論結(jié)構(gòu)和特質(zhì)的程度,是指實(shí)驗(yàn)與理論之間的一致性。然而,由于時(shí)間和精力的限制本研究?jī)H探討內(nèi)容效度。
(2)內(nèi)容效度的定義和意義
如果考試的內(nèi)容構(gòu)成了語言技能、結(jié)構(gòu)等的代表性樣本,則認(rèn)為該考試具有內(nèi)容效度(休斯1989:22)。正如Kerlinger(1973)所說,“內(nèi)容效度就是內(nèi)容的代表性和抽樣的充分性”。Bachman認(rèn)為,內(nèi)容效度主要包括兩個(gè)方面:內(nèi)容相關(guān)性和內(nèi)容覆蓋面(Bachman,1990)。對(duì)于相關(guān)性,考試越與考試規(guī)范或考試大綱相關(guān),它就越有效。內(nèi)容覆蓋面關(guān)系到測(cè)試任務(wù)在目標(biāo)語境中充分展示的程度,這可以通過隨機(jī)選擇的代表性樣本實(shí)現(xiàn)。
Alderson(2000)提出,內(nèi)容效度在國際效度中是最重要的,因?yàn)楦叩膬?nèi)容效度的測(cè)試傾向于準(zhǔn)確地測(cè)量應(yīng)該測(cè)量的內(nèi)容。如果沒有可靠的內(nèi)容效度,分?jǐn)?shù)解釋可能會(huì)被曲解。Hughes(2000)指出,“內(nèi)容效度越高,測(cè)試越能準(zhǔn)確地測(cè)量出它應(yīng)該測(cè)試的內(nèi)容”。一種測(cè)試,其中測(cè)試規(guī)范中所要求的內(nèi)容領(lǐng)域或語言行為表示不足或根本不表示,往往是不準(zhǔn)確的。此外,他(2000)還指出,僅包含部分內(nèi)容的測(cè)試,將不利于指導(dǎo)教學(xué)或提高實(shí)踐語言能力。
(3)內(nèi)容效度的分析方法
一般來說,語言測(cè)試的內(nèi)容效度構(gòu)建和評(píng)估分為兩個(gè)階段:測(cè)試前和測(cè)試后。
在測(cè)試前階段,測(cè)試設(shè)計(jì)者的任務(wù)是構(gòu)建語言行為或待測(cè)試內(nèi)容領(lǐng)域的類別,并給出測(cè)試任務(wù)的清晰藍(lán)圖。最后,測(cè)試設(shè)計(jì)者使用測(cè)試規(guī)范來確定要測(cè)試的語言行為。該規(guī)范必須描述測(cè)試中所涉及的特定語言技能和領(lǐng)域的詳細(xì)術(shù)語。
對(duì)于測(cè)試后階段,分析語言測(cè)試內(nèi)容效度的一種常見方法是將其與內(nèi)容應(yīng)該是什么的陳述進(jìn)行比較。在這里,內(nèi)容陳述可以是測(cè)試規(guī)范、正式的教學(xué)大綱、課程或領(lǐng)域規(guī)范(Alderson等人,1995)。這類似于Bachman對(duì)內(nèi)容相關(guān)性的觀點(diǎn)。當(dāng)測(cè)試規(guī)范和測(cè)試內(nèi)容進(jìn)行比較時(shí),很容易發(fā)現(xiàn)內(nèi)容相關(guān)性的程度。通過這種方式,測(cè)試應(yīng)該通過反映語言行為和應(yīng)該覆蓋的區(qū)域來實(shí)現(xiàn)內(nèi)容效度。(Hilton,2000)。
二.語言測(cè)試中的完形填空
完形填空廣泛應(yīng)用于各個(gè)層次的語言測(cè)試。完形填空有四種類型:按固定比率刪詞的完形填空、意向刪詞完形填空、多項(xiàng)選擇完形填空和C-test。完形填空與閱讀、語法和詞匯有著密切的關(guān)系,這是完形填空研究中不可避免的問題。
(1)完形填空的定義、起源和發(fā)展
基于“閉合”心理格式塔理論,完形填空即是通過回憶不完整的視覺形狀從而趨向于閉合.1953年,Wilson Taylor首次使用完形填空法,稱為“cloze”。從那時(shí)起,許多研究人員和學(xué)者使用完形填空來衡量學(xué)生的閱讀理解力,其前提是完形填空不僅僅是一個(gè)完成任務(wù)的模式,也涉及從上下文推理(Rye,1982)。而以O(shè)ller為代表的一些研究者則認(rèn)為完形填空是一種既能測(cè)試閱讀理解力又能測(cè)試全球語言能力的有效方法,因?yàn)樗蟊粶y(cè)試中整合所有相關(guān)的系統(tǒng)知識(shí),以便理解整體語境。到目前為止,對(duì)完形填空程序的研究仍在進(jìn)行中,但爭(zhēng)議仍然懸而未決。
盡管得到了一些贊譽(yù)并且在應(yīng)用語言學(xué)和語言測(cè)試中取得一些實(shí)證結(jié)果,完形填空的效度一直存在較大的爭(zhēng)議。然而,大多數(shù)研究者都認(rèn)為完形填空是一種綜合性測(cè)試,而不是離散點(diǎn)測(cè)試。這導(dǎo)致了完形填空在各種語言測(cè)試中的應(yīng)用發(fā)生了變化。
(2)完形填空測(cè)試內(nèi)容效度的相關(guān)要素
完形填空與語法和詞匯有關(guān),這已被廣泛接受。完形填空沒有語法和詞匯是不可能存在的。為了做出正確的選擇,考生必須對(duì)選項(xiàng)有一個(gè)全面而嚴(yán)謹(jǐn)?shù)闹R(shí)??忌仨氄莆栈镜恼Z法知識(shí),才能理解話語,找出并解釋所提供的線索,選擇最合適的單詞。正如Darnell(1968)提出的,完形填空可以有效地評(píng)估語法和詞匯,因?yàn)檎Z篇提供了與語法和詞匯相關(guān)單詞的關(guān)系和線索。
完形填空也與閱讀有關(guān)。在完形填空測(cè)試中,考生使用閱讀技巧來識(shí)別單詞和理解上下文。實(shí)驗(yàn)證明完形填空能有效地評(píng)價(jià)學(xué)生的閱讀能力。完形填空與閱讀有著密切的關(guān)系,這兩種測(cè)試需要相似的技巧和能力。Guning(1988)還指出,完形填空可以作為閱讀測(cè)驗(yàn)的替代品,因?yàn)槿绻忌焕斫馑x的內(nèi)容,他就不知道要如何填空。
三.完形填空內(nèi)容效度的研究綜述
在完形填空60多年的發(fā)展歷程中,效度研究一直是研究的核心。相關(guān)研究主要有兩種觀點(diǎn)。
John·Oller 所代表的一種觀點(diǎn)認(rèn)為完形填空在評(píng)估整體語言能力方面是有效的。根據(jù)他的定義,語用測(cè)試必須是綜合性的,因?yàn)樗噲D評(píng)估考生同時(shí)使用多種語言知識(shí)或技能的能力。因此,在語用測(cè)試中,為了完成任務(wù),測(cè)試者必須將給定的語言序列與必須推斷的外部語境聯(lián)系起來(Oller,1979)。他的理論得到了許多統(tǒng)計(jì)證據(jù)的支持。Cohen(1980)稱完形填空評(píng)估整體語言能力,包括語言知識(shí)、文本知識(shí)和單詞知識(shí)。Ahluwalia (1992年)還指出完形填空是一種綜合的、全球性的語言能力測(cè)試。Steinman(2002)甚至認(rèn)為完形填空可以取代結(jié)構(gòu)測(cè)試、詞匯測(cè)試和閱讀理解測(cè)試。Azevedo(1998)也列舉了完形填空的優(yōu)點(diǎn),認(rèn)為它是以被測(cè)試者為導(dǎo)向的,因?yàn)樗脑u(píng)估和反饋是同時(shí)進(jìn)行的。
相反,還有另一種關(guān)于完形測(cè)試的觀點(diǎn)。Alderson (1979)指出,完形填空是一個(gè)離散的點(diǎn)狀測(cè)試,因?yàn)樗鼉H僅是句子綁定,似乎衡量的是“低階”而不是“高階”語言技能。他(1983)認(rèn)為,很難保持完形填空的效度和信度之間的一致性,因?yàn)閯h除不同的單詞會(huì)導(dǎo)致不同的結(jié)果。此外,Brown(1998)證明了完形填空的效度在19%到83%之間,其信度在3%到96%之間。Namara(2000)認(rèn)為,完形填空總體上似乎與語法和詞匯的離散點(diǎn)測(cè)試相同。
到目前為止,關(guān)于完形填空是離散還是的語言測(cè)試的爭(zhēng)論一直沒有平息下來,也沒有得出任何結(jié)論。但研究者更傾向于將完形填空作為一種綜合性的語言能力測(cè)試。
四.結(jié)語
完形填空廣泛應(yīng)用于國內(nèi)各類別、各級(jí)別的語言測(cè)試中,其效度如何,尤其是效度中最重要的內(nèi)容效度如何,具有重要意義。對(duì)此方面的研究進(jìn)行綜述,將有助于我們?nèi)媪私馔晷翁羁盏奶攸c(diǎn),提高語言測(cè)試的效度。由于個(gè)人精力有限,完形填空的表面效度和結(jié)構(gòu)效度的研究綜述可以留待學(xué)者繼續(xù)分析,以得出更加全面的結(jié)論。