鄧海龍
(贛南師范大學(xué),江西 贛州 341000)
詞匯是英語運用能力的基礎(chǔ),也是占用學(xué)習(xí)時間和精力較多的部分。 然而,英語詞匯學(xué)習(xí)效率在總體上并不理想。 隨著計算機技術(shù)的迅速發(fā)展,各類計算機輔助詞匯學(xué)習(xí)(Computer Assisted Vocabulary Learning)系統(tǒng)得到開發(fā)和應(yīng)用,給外語學(xué)習(xí)者詞匯識記相關(guān)教學(xué)提供了諸多便利,有力地提升了英語詞匯學(xué)習(xí)效果。 然而,由于主客觀條件限制,現(xiàn)有大多數(shù)詞匯學(xué)習(xí)系統(tǒng)并沒有充分參考當(dāng)代詞匯教學(xué)理論研究成果,鮮少借鑒當(dāng)代人工智能發(fā)展的最新技術(shù),在科學(xué)性、智能化和個性化設(shè)計方面存在一定發(fā)展空間。 詞匯學(xué)習(xí)實證研究表明,語義相似性對英語單詞學(xué)習(xí)存在重要影響[1]。 有研究指出,英語單詞記憶是外語學(xué)習(xí)中最為枯燥乏味、最具挑戰(zhàn)性的任務(wù),這主要是由于大多數(shù)單詞之間缺乏直接的結(jié)構(gòu)或語義關(guān)聯(lián)性[2]。 為改進現(xiàn)有計算機輔助英語詞匯教學(xué)系統(tǒng),推動人工智能技術(shù)在外語教育中的應(yīng)用,本研究嘗試引入自然語言處理領(lǐng)域的詞向量技術(shù),結(jié)合學(xué)習(xí)者心理詞匯網(wǎng)絡(luò)表征理論和二語詞匯教學(xué)理論,設(shè)計構(gòu)建基于詞向量的英語詞匯智能教學(xué)系統(tǒng),以進一步增強英語詞匯教學(xué)效果。
由于智能手機的廣泛普及,計算機詞匯學(xué)習(xí)系統(tǒng)得到蓬勃發(fā)展,移動終端應(yīng)用市場上涌現(xiàn)大量單詞記憶軟件。 相比傳統(tǒng)單詞識記方法,其有諸多優(yōu)勢。 第一,這些軟件界面友好,單詞呈現(xiàn)方式豐富多樣,其中包含發(fā)音實例、圖片說明(動畫提示)、例句及其譯文與朗讀等。 第二,詞庫種類齊全,配有英語四、六級考試詞匯、考研英語、雅思托福英語等各類詞匯記憶項目可供選擇。 有些軟件提供特定教材書籍的生詞列表進行學(xué)習(xí),比如,新概念、許國璋英語等[3]。 第三,單詞練習(xí)與測試形式較為豐富,其中包括聽寫、多項選擇和例句填空等。 第四,交互性強,系統(tǒng)根據(jù)用戶操作情況動態(tài)調(diào)整學(xué)習(xí)內(nèi)容。 有些詞匯學(xué)習(xí)系統(tǒng)還融入游戲元素,有助于增強趣味性和提升成就感。 第五,一些軟件參考心理學(xué)理論,運用抗遺忘單詞記憶策略,如根據(jù)艾濱浩斯遺忘曲線等算法設(shè)計詞匯學(xué)習(xí)周期等。
最新研究表明,移動技術(shù)條件下的計算機詞匯學(xué)習(xí)系統(tǒng)對學(xué)習(xí)者詞匯學(xué)習(xí)具有積極作用。 曹進、鄧向姣以“百詞斬”應(yīng)用為例調(diào)查了大學(xué)生移動詞匯學(xué)習(xí)現(xiàn)狀,指出移動學(xué)習(xí)背景下的計算機輔助詞匯教學(xué)系統(tǒng)可以提供多樣化的學(xué)習(xí)場景和個性化的學(xué)習(xí)內(nèi)容,其便攜性特點有利于學(xué)生充分利用邊角時間進行碎片化學(xué)習(xí),對大學(xué)生英語單詞擴張有積極效果[4]。 此外,移動終端中的計算機詞匯教學(xué)系統(tǒng)相對容易記錄和追蹤學(xué)習(xí)者詞匯學(xué)習(xí)活動,更加有利于設(shè)置和推送個性化詞匯學(xué)習(xí)方案。 研究人員通過綜合分析2005 至2018 年間33 項移動終端詞匯學(xué)習(xí)試驗結(jié)果發(fā)現(xiàn),移動技術(shù)條件下的計算機輔助詞匯教學(xué)對學(xué)習(xí)者單詞記憶(Word Retention)有顯著且積極的影響。
值得注意的是,雖然計算機輔助詞匯學(xué)習(xí)系統(tǒng)逐漸增多,并在教學(xué)實踐中日益發(fā)揮重要作用,但其科學(xué)性、智能化以及個性化程度仍有待提高。 第一,現(xiàn)有詞匯學(xué)習(xí)系統(tǒng)鮮少有明確的二語詞匯學(xué)習(xí)理論支撐。 盡管應(yīng)用市場上的計算機輔助詞匯學(xué)習(xí)系統(tǒng)類型比較多樣,功能也比較齊全,但大多以應(yīng)考為主要目的,教學(xué)內(nèi)容組織方式往往缺乏科學(xué)依據(jù)。 第二,現(xiàn)有詞匯學(xué)習(xí)系統(tǒng)較少借鑒當(dāng)代人工智能技術(shù)成果。 從軟件開發(fā)角度來看,計算機輔助詞匯學(xué)習(xí)系統(tǒng)的研發(fā)門檻并不高,但相較于其他信息技術(shù)應(yīng)用領(lǐng)域,其所帶來的經(jīng)濟效益往往也較難吸引計算機專業(yè)人才。 第三,大多數(shù)英語詞匯學(xué)習(xí)系統(tǒng)尚未充分利用學(xué)習(xí)日志數(shù)據(jù)為用戶制訂個性化學(xué)習(xí)方案。 現(xiàn)有系統(tǒng)在詞匯學(xué)習(xí)計劃制訂和學(xué)習(xí)策略運用并不夠理想。 用戶的詞匯基礎(chǔ)、學(xué)習(xí)目標(biāo)、時間及精力條件等情況各有不同,系統(tǒng)應(yīng)當(dāng)參照外語學(xué)習(xí)規(guī)律,分別提供個性化單詞訓(xùn)練方案設(shè)計,以取得理想效果。
人類語言的詞匯組織結(jié)構(gòu)(常稱作心理詞庫,Mental Lexicon)可以類比為一個龐大的詞匯網(wǎng)絡(luò)(Lexical Network 或Word Web),單詞之間通過語義相關(guān)性相互鏈接在一起。 詞匯知識并非僅僅包括詞形與意義之間的簡單對應(yīng)關(guān)系,還涉及單詞之間的橫組合(如反義、近義與上下義)與縱聚合(如搭配)關(guān)系。 通常情況下,本族語者的詞匯網(wǎng)絡(luò)密度(Density)比學(xué)習(xí)者要大;隨著語言水平提高,學(xué)習(xí)者的詞匯網(wǎng)絡(luò)密度也隨之增大。 由此可見,詞匯教學(xué)并不適宜采用孤立記憶方法,應(yīng)當(dāng)將相互關(guān)聯(lián)的單詞組織起來集中呈現(xiàn)和學(xué)習(xí),這樣才更加有利于擴張學(xué)習(xí)者詞匯數(shù)量和深化二語詞匯知識。
詞匯網(wǎng)絡(luò)理論對計算機輔助詞匯學(xué)習(xí)系統(tǒng)設(shè)計有重要啟示。 詞匯學(xué)習(xí)系統(tǒng)的設(shè)計重點在于如何組織和安排不同單詞的先后學(xué)習(xí)順序。 每個學(xué)習(xí)批次的單詞數(shù)量、單詞識記難度、相鄰學(xué)習(xí)單詞的意義相關(guān)度以及學(xué)習(xí)時間間隔等不同因素都可能對詞匯學(xué)習(xí)產(chǎn)生消極或者積極影響。 一般而言,將單詞進行離散化(Spacing)分開學(xué)習(xí)比聚集化(Massing)更有利于促進顯性與刻意詞匯識記效果[5]。 離散化是指盡量將存在語義相關(guān)性的詞匯分散組織學(xué)習(xí)。 具體來說,學(xué)習(xí)者同時學(xué)習(xí)多個形式或意義相近的初次接觸單詞容易產(chǎn)生一定程度的相互干擾;若從已經(jīng)掌握的單詞出發(fā),學(xué)習(xí)與之存在關(guān)聯(lián)的其他單詞,則往往有利于提高教學(xué)效果。
換言之,計算機詞匯學(xué)習(xí)方案設(shè)計主要涉及單詞分組規(guī)劃及其先后次序安排,其中應(yīng)當(dāng)考慮三個主要因素:重要性、熟悉度與相關(guān)性。 重要性主要影響詞匯分級,一般常見詞要比罕見詞重要,需要優(yōu)先安排。 熟悉度主要關(guān)系到詞匯分組,熟悉程度較低的單詞容易受到其他相似詞的干擾,不宜與相關(guān)詞同時學(xué)習(xí)。 相關(guān)性主要涉及詞匯擴張策略,針對具有足夠熟悉度的單詞,系統(tǒng)通過推送以其為中心的詞匯網(wǎng)絡(luò)相關(guān)詞,強化學(xué)習(xí)者的詞匯語義網(wǎng)絡(luò)知識,以此達到高效擴大詞匯量的目的。 重要性與熟悉度兩個因素的量化方法相對簡單,前者一般以大型通用語料庫中的詞匯頻數(shù)為標(biāo)準(zhǔn),后者則通常根據(jù)用戶詞匯學(xué)習(xí)日志和測試成績進行評定。 關(guān)于詞匯相關(guān)性的度量,本研究將采用自然語言處理領(lǐng)域中的詞向量方法進行計算。
2013 年,谷歌公司推出了開源Word2vec 工具,其中參考了神經(jīng)概率語言模型的基本思想,但專門用于訓(xùn)練詞向量。 2014 年,斯坦福大學(xué)自然語言處理小組提出了Glove 模型。 Glove 與Word2vec 在計算方法上有所差異,但兩者并無本質(zhì)區(qū)別。 詞向量訓(xùn)練屬于無監(jiān)督學(xué)習(xí)(Unsupervised Learning),只要使用大規(guī)模語料進行充分訓(xùn)練,所生成的詞向量模型能夠準(zhǔn)確捕捉語料庫文本中的詞匯語義特征。 換言之,基于足量合適文本,詞向量訓(xùn)練程序無須人工干預(yù),可以準(zhǔn)確學(xué)習(xí)得到語言中的詞匯語義特征。
經(jīng)過大規(guī)模語料訓(xùn)練得到的Word2vec 詞向量模型能夠計算詞匯語義相似度。 這一特點可用于相關(guān)詞查找和詞匯語義網(wǎng)絡(luò)構(gòu)建。 詞向量在詞匯語義網(wǎng)絡(luò)構(gòu)建上表現(xiàn)出較大優(yōu)勢。 雖然一些人工編制的詞匯網(wǎng)絡(luò)資源如WordNet 也可構(gòu)建詞匯語義網(wǎng)絡(luò),但相比詞向量方法,其存在諸多缺陷。 首先,WordNet 的編制費時費力,詞匯數(shù)量有限,可拓展性差。 其次,WordNet 的詞匯語義網(wǎng)絡(luò)相對固定不變,很難反映語言使用的動態(tài)性。
為改進現(xiàn)有詞匯學(xué)習(xí)軟件設(shè)計現(xiàn)狀,充分利用當(dāng)代人工智能技術(shù),本研究的計算機輔助詞匯學(xué)習(xí)系統(tǒng)設(shè)計盡量滿足以下三個基本原則。 第一,科學(xué)性原則。 詞匯學(xué)習(xí)系統(tǒng)是計算機輔助外語教學(xué)中的重要應(yīng)用之一。 由于硬件條件限制,早期詞匯學(xué)習(xí)系統(tǒng)主要關(guān)注軟件基本功能實現(xiàn)。 隨著信息技術(shù)的迅速發(fā)展,英語詞匯教學(xué)軟件的功能越來越復(fù)雜,界面也越來越友好。 隨著智能手機的普及,英語詞匯教學(xué)軟件的應(yīng)用日益廣泛。 這種條件下,詞匯學(xué)習(xí)系統(tǒng)應(yīng)該借助語言學(xué)、外語教學(xué)、心理學(xué)研究的最新成果,在各個細節(jié)上朝著科學(xué)規(guī)范的方向發(fā)展。 第二,個性化原則。 由于個體心理特質(zhì)、語言基礎(chǔ)和目標(biāo)需求等各方面差異,詞匯學(xué)習(xí)方法也因人而異。許多網(wǎng)絡(luò)服務(wù)應(yīng)用程序開發(fā)設(shè)計了個性化學(xué)習(xí)方案,單詞學(xué)習(xí)系統(tǒng)也應(yīng)該充分考慮用戶差異,進行個性化的學(xué)習(xí)曲線設(shè)計,包括單詞學(xué)習(xí)的順序、數(shù)量、形式等各方面細節(jié)。 第三,智能化原則。 學(xué)生用戶的個體差異并非靜態(tài)的,而是隨著時間的推移和學(xué)習(xí)的進展發(fā)生動態(tài)變化。 人工智能在計算機輔助外語教學(xué)方面將發(fā)揮積極作用。 智能化詞匯學(xué)習(xí)系統(tǒng)應(yīng)該記錄和評估學(xué)生的歷史學(xué)習(xí)行為,并根據(jù)學(xué)習(xí)發(fā)展?fàn)顩r對后續(xù)詞匯學(xué)習(xí)計劃進行動態(tài)調(diào)整。
根據(jù)上述原則,本研究提出基于詞向量的計算機輔助詞匯學(xué)習(xí)系統(tǒng)基本框架(如圖1)。 如前所述,除了單詞信息呈現(xiàn)設(shè)計,以識記為主要目標(biāo)的詞匯學(xué)習(xí)系統(tǒng)關(guān)鍵在于科學(xué)合理地進行詞匯分組與順序規(guī)劃。 詞匯學(xué)習(xí)系統(tǒng)主要分為三大部分:數(shù)據(jù)、執(zhí)行和呈現(xiàn)。 數(shù)據(jù)部分包括分級詞表、詞向量模型和用戶行為日志。 分級詞表基于大型通用語料庫詞頻統(tǒng)計數(shù)據(jù),一般頻數(shù)越高的單詞,越早學(xué)習(xí)。 詞向量模型通常運用大規(guī)模語料庫訓(xùn)練得到,用于提取詞匯相似度和構(gòu)建詞匯網(wǎng)絡(luò)。 用戶行為日志則源于系統(tǒng)使用記錄。 執(zhí)行部分主要體現(xiàn)為詞匯學(xué)習(xí)方案,其接受詞匯教學(xué)理論指導(dǎo),并根據(jù)分級詞表、詞向量模型和用戶行為日志等數(shù)據(jù)信息進行設(shè)計和制訂。用戶界面用于呈現(xiàn)單詞學(xué)習(xí)信息,并提供用戶交互功能,同時記錄和保存用戶學(xué)習(xí)行為。
圖1 系統(tǒng)基本框架
執(zhí)行部分的學(xué)習(xí)方案是系統(tǒng)運行流程的集中體現(xiàn),主要涉及不同學(xué)習(xí)環(huán)節(jié)中的詞匯學(xué)習(xí)計劃設(shè)置。系統(tǒng)運行流程包括三個環(huán)節(jié):詞匯學(xué)習(xí)環(huán)節(jié)、詞匯鞏固環(huán)節(jié)和詞匯擴張環(huán)節(jié)(如表1)。 詞匯學(xué)習(xí)環(huán)節(jié)按組別依次呈現(xiàn)單詞及其釋義或圖示以供學(xué)習(xí)者識記。 依據(jù)詞匯教學(xué)理論,學(xué)習(xí)者在初次接觸生詞時應(yīng)該盡量減少干擾,故本環(huán)節(jié)采用單詞離散化間隔處理,即盡量分散學(xué)習(xí)存在關(guān)聯(lián)的詞匯,避免語義相關(guān)單詞編入同一分組。 語義相關(guān)性檢驗使用詞向量模型進行向量余弦相似度計算,同一分組內(nèi)單詞需要低于預(yù)先設(shè)置的相似度閾值。 詞匯鞏固環(huán)節(jié)是對已經(jīng)學(xué)習(xí)過單詞進行強化記憶,主要采用回憶辨認(rèn)等方式進行測試練習(xí)。 本環(huán)節(jié)根據(jù)單詞記憶規(guī)律,遵循艾濱浩斯遺忘曲線,結(jié)合學(xué)習(xí)者測試準(zhǔn)確率,采用逐步擴大間隔方式鞏固記憶具有初步印象的詞匯。 詞匯擴張環(huán)節(jié)是對已經(jīng)完成前兩個環(huán)節(jié)并達到基本熟識的單詞進行以詞匯語義網(wǎng)絡(luò)為基礎(chǔ)的關(guān)聯(lián)詞匯增長學(xué)習(xí)。 本環(huán)節(jié)采用詞向量模型提取相似詞,構(gòu)建語義相關(guān)詞匯語義網(wǎng)絡(luò),并結(jié)合詞匯分級過濾機制,推送目標(biāo)學(xué)習(xí)詞匯。
表1 系統(tǒng)運行流程各環(huán)節(jié)一覽表
基于詞向量的計算機輔助詞匯學(xué)習(xí)系統(tǒng)可以從詞匯學(xué)習(xí)和詞匯擴張兩個環(huán)節(jié)對已有系統(tǒng)進行科學(xué)化和智能化改進。 在學(xué)習(xí)環(huán)節(jié),系統(tǒng)通過詞向量語義相似性計算方法將目標(biāo)詞進行過濾,以達到離散化分組目的,有助于減少記憶干擾。 在擴張環(huán)節(jié),系統(tǒng)以目標(biāo)詞為中心,通過詞向量相似詞查找,構(gòu)建相關(guān)詞匯網(wǎng)絡(luò),可以提高詞匯學(xué)習(xí)效率。 此外,系統(tǒng)追蹤和記錄學(xué)習(xí)者行為,并基于行為日志制訂后續(xù)學(xué)習(xí)計劃,具有個性化學(xué)習(xí)特點。 研究表明,由于詞向量模型在詞匯語義相似性計算和詞匯語義網(wǎng)絡(luò)建構(gòu)方面的便捷性,詞向量技術(shù)在計算機輔助英語詞匯學(xué)習(xí)系統(tǒng)中具有較好的應(yīng)用價值。