【摘要】如何科學有效地測量學習者的詞匯量,以及測量其對詞匯的掌握程度是當前語言研究者十分關(guān)注的問題。文章根據(jù)詞匯的廣度、深度之間的相關(guān)性,提出了在廣度測試的基礎(chǔ)上進行深度測試的思想,并將項目反應(yīng)理論的測試方法、設(shè)計思想,應(yīng)用到實際測試系統(tǒng)中,最終設(shè)計實現(xiàn)了基于項目反應(yīng)理論的大學英語四、六級在線自適應(yīng)單詞測試系統(tǒng)。
【關(guān)鍵詞】詞匯測試;廣度測試;深度測試;IRT;單詞庫
【中圖分類號】G434 【文獻標識碼】B 【論文編號】1009—8097 (2008) 12—0087—04
一 引言
語音、詞匯和語法是語言的三大要素。學習語言的最終目的是為了交際,詞匯是語言交際的核心。對于ESL(English As A Second Language)學習者,詞匯是外語學習的主要瓶頸與最大障礙。在國內(nèi),大學英語考試(College English Test)是教育部主管的一項全國性的教學考試,其中四級考試(CET-4)自從1987年,六級(CET-6)自從1989年在我國實行以來,其目的是在于準確地衡量我國在校大學生的英語綜合應(yīng)用能力,為實現(xiàn)大學英語課程教學目標發(fā)揮積極作用。其對學習者詞匯量的要求又是針對大學英語教學大綱而制定,大致為4500個單詞700個詞組(CET-4)和5500個單詞與1200個詞組(CET-6),詞匯量水平以及掌握程度在很大程度是直接影響四、六級成績的首要因素。因此,如何科學有效的測量學習者的詞匯量,以及對詞匯的掌握程度的研究成為語言研究者在教學研究活動中十分關(guān)注的問題。
為了幫助學習者進行詞匯的記憶與學習,以便有效地進行詞匯測試,作者構(gòu)建了基于IRT的大學英語詞匯在線自適應(yīng)測試系統(tǒng),其中的自適應(yīng)算法設(shè)計是該系統(tǒng)的核心問題。本文首先論述詞匯廣度和深度的內(nèi)涵及其測試;其次引入項目反應(yīng)理論(Item Response Theory,簡稱為IRT)以及詞匯知識衡量等級(Vocabulary Knowledge Scale,簡稱為VKS)來進行單詞的廣度與深度測試;再次詳細介紹了詞匯測試系統(tǒng)的設(shè)計實現(xiàn);最后提出了本系統(tǒng)的一些不足以及今后的研究方向。
二 詞匯廣度與深度及其測試
詞匯測試分為廣度測試(Vocabulary Breadth Measures)和深度測試(Assessment of The Depth of Vocabulary Knowledge)。廣度測試是估計語言使用者的詞匯總量,深度測試是了解語言使用者對詞匯知識掌握的程度。詞匯量以及詞匯深度知識均可有效預測語言綜合能力(包含聽力、閱讀、完型、寫作,下同),其中詞匯深度知識對語言綜合能力的預測能力強于詞匯廣度知識,特別體現(xiàn)在四、六級的完型填空與寫作的預測中,而總體來說詞匯廣度與深度呈高度正相關(guān)[1]。
詞匯量測試,一般稱為廣度測試,其重要性以及與語言綜合能力關(guān)系的研究成果頗多,國外具有代表性的是詞匯量與閱讀(Koda 1989;Laufer 1989,1992;Laufer Nation 1996;Qian 1999,2002)[2-7]及語言綜合能力(Meara Jones 1988)[8]呈顯著正相關(guān)關(guān)系。國內(nèi)具有代表性的有詞匯量與語言綜合能力成高度正相關(guān)關(guān)系(桂詩春 1983,1985)[9-10]。當前常用單詞量測試的方法有以下幾種:一是概率統(tǒng)計法。即一定樣本中隨機抽取單詞,選擇其正確的意思,根據(jù)其抽樣單詞答對百分比來做樣本總量的推斷;二是詞表是否測試法。即認識為是,不認識為否;三是Nation(1983,1990)[11-12]的分級詞匯測試法等。
學習者對詞匯知識(深度)的習得,是一個由不同層面和水平組成的連續(xù)體,而不是一個“習得”或“未習得”、“知道”或“不知道”的簡單二分的過程。詞匯深度有以下的分類方法:從多個維度(Dimensional Approach)界定,主要代表人物有Cronbach, Richards, Nation, Qian[13-15][6];從發(fā)展的角度(Developmental Approach)出發(fā),主要代表人物有Dale,PARIBAKHT Wesche[16-17];主要的測試工具有新西蘭維多利亞大學瑞德John Read設(shè)計的詞匯聯(lián)想測試(Word Associate Test)和PARIBAKHT Wesche的詞匯知識衡量等級(VKS)等。
三 項目反應(yīng)理論(IRT)與詞匯知識衡量等級(VKS)
一直以來, 學生為了備考大學英語四、六級考試所做的第一件事往往是背單詞。大多數(shù)學生僅是單純的背誦單詞的拼寫,對詞組的記憶,而忽略了如何將單詞與語法、句法聯(lián)系起來運用。綜合作者所做的文獻調(diào)研得知,如何有效科學地進行單詞量評估與施測,以及對一定單詞量(廣度)的基礎(chǔ)上再進行“質(zhì)”(深度)的測試目前還沒有一個行之有效的方法。
上文提及的幾種詞匯量測試方法,即詞匯廣度測試,均不能體現(xiàn)學習者的能力特征,從而很難保證學習者的測試效度。其次測試中的施行效率也不高,即抽取的樣本量以及如何抽取等。因此本系統(tǒng)采用當前測試中普遍使用的項目反應(yīng)理論(IRT)[18]來進行單詞量自適應(yīng)測試。由于國內(nèi)外單詞量測試題型主要有選擇題與翻譯,而前者應(yīng)用更廣,且具有較高的信度、效度(婁喜祥2005:2)[19],故而本文的單詞量測試也采用選擇題。然后在此基礎(chǔ)上運用PARIBAKHT Wesche的VKS工具再進行深度測試。
項目反應(yīng)理論(IRT)最大優(yōu)越性在于測試系統(tǒng)可以主動適應(yīng)受測者狀況的“因人施測”問題。試題參數(shù)的估計獨立于被試樣本,而能力參數(shù)的估計又獨立于試題樣本。也就是說,項目反應(yīng)理論中的這些參數(shù)具有不變性,它們不隨被試的樣本而變化,從而提高了測試效率和測試效度,以及避免了測試過程中被測能力與題目難度的密切關(guān)系。理論中最常用的是拉希模型、雙參數(shù)和三參數(shù)邏輯斯蒂(Logistics)模型,運用極大似然法或貝葉斯方法來估計項目的參數(shù)難度—區(qū)分度和偽隨機參數(shù)。本文系統(tǒng)采用了三參數(shù)邏輯斯蒂模型以及極大似然法,其中三參數(shù)邏輯斯蒂模型的函數(shù)表達式如下:
上式中, 表示能力水平為 的人答對題目i的概率;
:表示受測者的能力水平;
D:表示量表因子,D=1.702
e:表示自然對數(shù)的底,e=2.71828
ai:表示題目i的區(qū)分度;
bi:表示題目i的難度;
ci:表示題目i的猜測度;
計算機化自適應(yīng)測試(Computerized Adaptive Testing,簡稱為CAT)是建構(gòu)在項目反應(yīng)理論(IRT)基礎(chǔ)上的,從題庫的建設(shè)、參數(shù)的估計到試題的選擇再到最后評分,都是以此為指導進行的。由于理論分析和實踐經(jīng)驗都證明,只有當題目難度跟受測者水平相適應(yīng)時,題目所提供的信息量才最大,受測者的積極性最高,誤差最小,測試效度才會最高。CAT的核心思想是:系統(tǒng)會根據(jù)答題情況不斷計算受測者的能力值及信息量,并實時地根據(jù)這些參數(shù)調(diào)整出題策略,選取與受測者能力相對應(yīng)的試題,最終給受測者的能力與特質(zhì)一個恰當?shù)脑u價。
下面介紹下本文采用的單詞深度測試算法,即廣泛應(yīng)用的PARIBAKHT Wesche的VKS工具,該工具使用五個等級將自述與所表現(xiàn)的語言能力結(jié)合起來以得出研究對象對各個詞的掌握程度,該表包括五項,每項意義如下表1:
四 詞匯測試系統(tǒng)的設(shè)計
本系統(tǒng)是在大學英語四、六級單詞庫的基礎(chǔ)上,首先應(yīng)用IRT理論進行大學英語詞匯的廣度測試,然后使用IRT工具來進行詞匯深度測試,并最終反饋給受測者關(guān)于詞匯量與詞匯掌握程度的度量結(jié)果。
其中單詞量測試的具體流程如下,先根據(jù)受測者的能力初值從單詞庫中選取一個單詞實施測試,如果受測者答對了就選取一個較難的單詞再施測;如果受測者答錯了就選取一個相對簡單的單詞再施測;不斷重復測驗過程,一直到受測者的能力值被精確估計出來為止。
本系統(tǒng)對于受測者有三種方式確定能力初始值。其一,選擇歷史記錄,系統(tǒng)會自動選取該受測者最近的一次測試記錄最終能力值作為初始值施測;其二,選擇自定義初始值,系統(tǒng)將根據(jù)受測者自定義的初始能力值選取單詞;其三,選擇隨機單詞測試,這樣系統(tǒng)會隨機抽取一組單詞,根據(jù)受測者的答題結(jié)果利用極大似然法初步估計其特質(zhì)水平,然后繼續(xù)施測。這里要注意的是,如果抽取的一組單詞全對或者全錯,會再次抽取一組施測,如果仍然是全對或全錯,則說明題庫中的試題對于受測者而言太難或太易,無法測出其真實水平,此時則終止施測,并向受測者反饋預測結(jié)果。在施測過程中,系統(tǒng)會根據(jù)受測者的答題結(jié)果動態(tài)評測其能力值,然后動態(tài)調(diào)整與之對應(yīng)的單詞難易程度。對于如何終止施測,也有幾種方法,如題目數(shù)控制、測驗估計精度、或者強制退出等??紤]到測量的精度需求以及效率、避免隨機猜測等方面,本系統(tǒng)采用了受測者最后3次的估算能力值誤差,如果此3次誤差值皆小于指定誤差范圍內(nèi),則可以終止施測。其中選擇隨機單詞測試的具體流程圖和使用本系統(tǒng)單詞量測試生成的能力值曲線圖分別參見圖1和圖2所示:
然后,對于能力值的解釋,本系統(tǒng)采用了極大似然法估算能力值,其近似正態(tài)分布的,從而對能力終值通過一個線性轉(zhuǎn)換,其分布仍是正態(tài),并得到其置信區(qū)間值,對應(yīng)于本系統(tǒng)即是單詞量的范圍。最后按照單詞的頻率高低內(nèi)選取前1%的單詞再進行VHS深度測試,可進一步測試受測者單詞的掌握程度,并反饋給受測者。整個測試流程如圖3所示:
本系統(tǒng)的單詞庫建立是一個關(guān)鍵,要確定每個單詞的難度、區(qū)分度、猜測度等參數(shù),而其中難度又尤為重要。通常做法可以根據(jù)大綱要求的單詞,然后按歷年四、六級考試的詞頻劃分,再與專家審核相結(jié)合后確定難度值等,或者由樣本測試后統(tǒng)計分析確認參數(shù)值,本系統(tǒng)綜合此兩種方法,實現(xiàn)參數(shù)動態(tài)維護,更好的實現(xiàn)單詞庫的本身自適應(yīng),有效改進結(jié)果精度與測試效度。
五 結(jié)束語
本文就當前詞匯測試提出了一個新的思路與嘗試,即在自適應(yīng)測試單詞量的基礎(chǔ)上再進行單詞的深度測試,讓學習者更方便有效地進行自身單詞量的評估,進行下一階段的復習。不僅可以做到“因人施測”,大幅提高測試效率,還可以反饋給受測者對于不同單詞的掌握程度,更好的應(yīng)用于大學英語教學改革。目前系統(tǒng)尚有許多不足,比如沒有引入多值法自適應(yīng)測試、受測者答題時間對于能力值的影響、以及與常用的概率統(tǒng)計等單詞量測試方法的比較分析,此外,單詞廣度與深度對于低級、中級、高級詞匯量的學習者所體現(xiàn)的不同相關(guān)度的介入等等,這些都值得我們的進一步深入研究與探討。
參考文獻
[1] 李曉.詞匯量、詞匯深度知識與語言綜合能力關(guān)系研究[J].外語教學與研究,2007,39(5):424-450.
[2] Koda, K.The effects of transferring vocabulary knowledge on the development of L2 reading proficiency [J].Foreign Language Annals,1989,22(4):529-540.
[3] Laufer, B. A factor of difficulty in vocabulary learning:Deceptive transparency [J].AILA Review,1989,6(1):10-20.
[4] Laufer, B.How much is necessary for reading comprehension? [A] In H. Bejoint P.Arnaud(eds.).Vocabulary and Applied Linguistics [C].London:MacMillan,1992:126-132.
[5] Laufer, B. P.Nation.Vocabulary size and use:Lexical richness in L2 written production [J].Applied Linguistics,1996,16(3):307-322.
[6] Qian D D.Assessing the Roles of Depth and Breadth of Vocabulary Knowledge in Reading Comprehension [J].The Canadian Modern Language Review,1999,56(2):282-307.
[7] Qian D D.Investigating the Relationship between Vocabulary Knowledge and Academic Reading Performance:An Assessment Perspective[J].Language Learning,2002,(52):513-536.
[8] Meara,P. G.Jones.Vocabulary size as a placement indicator [A].In P.Grunwell (ed.).Applied Linguistics in Society [C].London:Center for Information on Language Teaching and Research,1998:80-87.
[9] 桂詩春(編).中國學生英語詞匯量調(diào)查,公共外語教學研究文集 [C].上海:上海外語教育出版社,1983.
[10] 桂詩春.我國英語專業(yè)學生詞匯量的調(diào)查與分析[J].現(xiàn)代外語,1985,(1):1-6.
[11] Nation I S P.Testing and teaching vocabulary [J].Guideline,1983,5(1):12-25.
[12] Nation I S P.Teaching and Learning Vocabulary [M]. Victoria University of Wellington:English Language Institute,1990.
[13] Cronbach L J.An Analysis of Techniques for Diagnostic Vocabulary Testing [J].Journal of Educational Research,1942,(36):206-217.
[14] Richards J.The role of vocabulary [J].TESOL Quarterly,1976,(10):77-89.
[15] Nation I S P.Learning Vocabulary in another language [M]. Cambridge,England:Cambridge University Press,2001.
[16] Dale E.Vocabulary Measurement:Techniques and Major Findings [J] .Elementary English,1965,(42):895-907.
[17] PARIBAKHT T S,W ESCHE M B.The relationship between reading comprehension and second language development in a comprehension-based ESL program [J].TESL Canada Journal,1993,(11):9-29.
[18] Howard Wainer Robert J. Mislevy.Item Response Theory Item Calibration, and Proficiency Estimation.Computerized Adaptive Testing:A Primer Second Edition,2000,4.
[19] 婁喜祥.兩種常用的外語詞匯量測試方式的信度及效度對比[J].外語與翻譯,2005,(2):220-241.
[20] 劉紹龍.論二語詞匯深度習得及發(fā)展特征[J].外語教學與研究,2001,(6):436-441.
[21] Lawrence M. Rudner. An On-line Interactive Computer Adaptive Testing Tutorial[Z].< http://EdRes.org/Scripts/cat,1998,11.>