楊虹
(咸陽師范學(xué)院外國語學(xué)院,陜西咸陽 712000)
在科學(xué)技術(shù)高速發(fā)展的時代,伴隨高速推進的數(shù)據(jù)傳輸技術(shù)、不斷下降的網(wǎng)絡(luò)成本、不斷提升的移動設(shè)備覆蓋率,網(wǎng)絡(luò)線上學(xué)習(xí)的發(fā)展速度也大幅度提高,隨之而來的就是不斷改頭換面的線上課程以及線上學(xué)習(xí)平臺[1-2]。線上學(xué)習(xí)的主場地也從網(wǎng)站逐漸漫延到移動MOOC 平臺、微信應(yīng)用程序、喜馬拉雅應(yīng)用程序,甚至是一些教育相關(guān)的用戶創(chuàng)造內(nèi)容平臺。
語言學(xué)習(xí)屬于線上學(xué)習(xí)的核心方向,不管是在客戶端還是在手機上,到處都在進行相應(yīng)的學(xué)習(xí)。MOOC 平臺以及各個教育機構(gòu)都開展了新一輪的課堂直播和視頻錄制。在手機應(yīng)用市場上有近100 款英語學(xué)習(xí)軟件,如流利英語、Happy 詞場、VOA 慢速英語、常用英語閱讀等,還有在線更正網(wǎng)站、微信推送等,這說明語言學(xué)習(xí)者比以往任何時候都能獲得更多的資源。學(xué)習(xí)者也慢慢地改變傳統(tǒng)觀念,逐漸適應(yīng)內(nèi)容少、結(jié)構(gòu)多樣的碎片化學(xué)習(xí)方式[3],這在英語詞匯學(xué)習(xí)上的變現(xiàn)更加顯著。在這種情況下,也會導(dǎo)致一系列問題產(chǎn)生,學(xué)習(xí)者不知道怎樣進行應(yīng)用程序的選擇,已經(jīng)出現(xiàn)的單詞記憶軟件的功能有很大的重疊,軟件的設(shè)計方式?jīng)]有區(qū)別性,難以滿足學(xué)習(xí)者的個性化需求。
基于此,文中基于自適應(yīng)學(xué)習(xí)的實質(zhì)性特征和學(xué)習(xí)風(fēng)格理論基礎(chǔ),構(gòu)建英語智能詞匯推薦系統(tǒng)的各模型,從而完整建立該系統(tǒng)模型,為提高英語學(xué)習(xí)者的詞匯學(xué)習(xí)效率提供有效方式。
自適應(yīng)學(xué)習(xí)本質(zhì)上是一類計算機程序[4]。該程序能夠在解決問題的同時生成新的規(guī)則,也可在過程中添加新的規(guī)則,進而使得類似的問題得到高效解決。自適應(yīng)學(xué)習(xí)包括4 個方面,分別是目標者、出處、時間和方式,進而能夠分析自適應(yīng)學(xué)習(xí)研究過程中學(xué)習(xí)核心因素的答案。
自適應(yīng)學(xué)習(xí)可以被理解為個體自主解決問題的一種學(xué)習(xí)方式,也就是適應(yīng)性學(xué)習(xí)能夠?qū)W(xué)習(xí)內(nèi)容進行改變,或者通過辨別任務(wù)的難度水平進而改變內(nèi)容的表現(xiàn)形式以及路徑選擇方式。個體學(xué)習(xí)內(nèi)容的變化主要關(guān)注的幾個維度包括學(xué)習(xí)的對象、學(xué)習(xí)參數(shù)、與系統(tǒng)的互動以及教與學(xué)之間的變量。在什么時間進行改變則要先根據(jù)學(xué)習(xí)對象的特征進行調(diào)整,接著根據(jù)交互性參數(shù)進行連續(xù)建模及調(diào)試。自適應(yīng)學(xué)習(xí)過程中,個體具體的改變方式需要考慮系統(tǒng)控制的適應(yīng)性,包含學(xué)習(xí)對象進行學(xué)習(xí)環(huán)境和內(nèi)容的完全控制,以及對適應(yīng)的共享控制。
我國對學(xué)習(xí)風(fēng)格的通用定義是,具有持續(xù)性人格特征的學(xué)習(xí)者的學(xué)習(xí)風(fēng)格,屬于學(xué)習(xí)方式以及學(xué)習(xí)傾向的集合[5]。學(xué)習(xí)風(fēng)格的基本屬性有3個:1)學(xué)習(xí)對象具有不同的學(xué)習(xí)風(fēng)格傾向,這一屬性通常比較穩(wěn)定且持續(xù)的時間較長。2)產(chǎn)生學(xué)習(xí)風(fēng)格的過程不但包括內(nèi)在的心理和生理因素,還包括外在的環(huán)境影響,比如受教育的程度、家庭氛圍、外界社會和文化因素。3)學(xué)習(xí)對象會因為學(xué)習(xí)風(fēng)格不一而具有不同的信息處理習(xí)慣和態(tài)度,學(xué)習(xí)行為也存在差異,比如學(xué)習(xí)策略等。根據(jù)相關(guān)研究,可以把學(xué)習(xí)風(fēng)格分為4 個方面[6]:首先是學(xué)習(xí)觀,指的是學(xué)習(xí)對象在學(xué)習(xí)過程中具有怎樣的態(tài)度以及理解方法,比如在完成家庭作業(yè)時具有怎樣的想法,對教師角色的認識是什么。其次是學(xué)習(xí)動機,指的是學(xué)習(xí)對象進行學(xué)習(xí)的目的是什么,包括學(xué)習(xí)對象的目的、意愿以及學(xué)習(xí)的期待。最后是加工和調(diào)節(jié)方式,加工方式指的是學(xué)習(xí)對象在學(xué)習(xí)活動中使用的不同認知加工方法,如有的學(xué)習(xí)對象擅于使用詞根詞綴完成聯(lián)想,有的則運用多次重復(fù)的方法進行單詞記憶。而調(diào)節(jié)方式是需要學(xué)習(xí)對象對學(xué)習(xí)行為進行管理協(xié)調(diào)以及控制的方法。Vermont 的分類精簡高效,可以準確地描述所有學(xué)習(xí)風(fēng)格元素,是文中所參考的學(xué)習(xí)風(fēng)格基礎(chǔ)理論。
首先,構(gòu)建學(xué)習(xí)對象特征模型。準確的推薦算法應(yīng)該基于對學(xué)習(xí)者特征和資源特征的合理提取。單詞記憶軟件的資源特征更加顯著,根據(jù)語音到文本、文本分割、提取關(guān)鍵詞以及文本關(guān)聯(lián)計算等方法,能夠?qū)Ω鞣N資源特征進行有效地提取。學(xué)習(xí)對象的特征提取與教學(xué)有關(guān),它的實施需要基于教學(xué)理論展開。基于學(xué)習(xí)對象的能力組成,把智能詞匯推薦系統(tǒng)中對每種學(xué)習(xí)能力的評價變成實際能夠進行測量的學(xué)習(xí)對象數(shù)據(jù)。經(jīng)過提取和清洗學(xué)習(xí)對象的基本信息以及學(xué)習(xí)相關(guān)數(shù)據(jù),可以獲得用于量化和對比的數(shù)據(jù)信息[7],使得學(xué)習(xí)對象特征模型能夠順利構(gòu)建,如圖1 所示。
圖1 學(xué)習(xí)對象特征模型
衡量記憶、理解等陳述性知識的基本學(xué)習(xí)能力,可以根據(jù)學(xué)習(xí)對象在階段測試中表現(xiàn)的統(tǒng)計來判斷。從學(xué)習(xí)對象注冊時的學(xué)習(xí)目標、線上學(xué)習(xí)時間和自我評價能力等方面對自主學(xué)習(xí)、主動學(xué)習(xí)和同伴幫助進行測量,發(fā)現(xiàn)學(xué)習(xí)對象的學(xué)習(xí)積極性和學(xué)習(xí)動機水平。針對學(xué)習(xí)對象的習(xí)慣和方式、解決難題的能力、發(fā)散性思維能力等學(xué)習(xí)能力的挖掘,上述信息的挖掘要展開初步的模型建立以及驗證??纱龠M詞匯記憶的方面包括分析學(xué)習(xí)對象的上網(wǎng)時間、時間間隔同學(xué)習(xí)規(guī)律的關(guān)系,資源收集次數(shù)、學(xué)習(xí)的平均時間、上網(wǎng)間隔同時間間隔測試之間有沒有關(guān)聯(lián)。從不同維度對學(xué)習(xí)對象的能力特征進行衡量,可以促進對學(xué)習(xí)對象的詳細描繪,有利于挖掘同類型學(xué)習(xí)對象,從而進行詞匯推薦[8]。
其次,構(gòu)建學(xué)習(xí)對象的學(xué)習(xí)風(fēng)格模型。文中對不同學(xué)習(xí)風(fēng)格模式的維度進行了分析總結(jié)?;诂F(xiàn)實情況和分析結(jié)果,對不利于詞匯記憶和學(xué)習(xí)情況的項目進行刪除,最后構(gòu)建詞匯記憶學(xué)習(xí)風(fēng)格模型。該模型研究了針對不同學(xué)習(xí)風(fēng)格的學(xué)習(xí)對象定制智能推薦策略和提高智能推薦模型性能的核心功能題,如圖2 所示。
圖2 單詞識記-學(xué)習(xí)風(fēng)格模型
單詞識記學(xué)習(xí)方式分為學(xué)習(xí)目標、學(xué)習(xí)管理以及信息加工3 個維度。學(xué)習(xí)目標是指學(xué)習(xí)的期望,其中模仿型學(xué)習(xí)對象受考試壓力的影響,認為詞匯學(xué)習(xí)是簡單的知識記憶[9]。意義導(dǎo)向型學(xué)習(xí)對象主要受到個人興趣、能力培養(yǎng)等內(nèi)在動機的激勵,他們對詞匯學(xué)習(xí)的看法符合建構(gòu)主義學(xué)習(xí)理論[10]。應(yīng)用型學(xué)習(xí)對象的學(xué)習(xí)目標主要是出國留學(xué)、在大學(xué)工作和學(xué)習(xí)、專業(yè)學(xué)習(xí)等實際需求傾向于實用主義學(xué)習(xí)理論的觀點。信息加工指的是學(xué)習(xí)活動中的認知方法。淺加工指學(xué)習(xí)對象在單詞學(xué)習(xí)中更傾向于使用機械化的記憶方式,這樣花費的時間更少。注重深度加工的學(xué)習(xí)對象就注重知識的重組和構(gòu)詞,經(jīng)常用聯(lián)想、類推以及造句等方式來促進記憶,需要花費很長時間。學(xué)習(xí)管理指的是學(xué)生根據(jù)自己的能力水平調(diào)整學(xué)習(xí)速度,對學(xué)習(xí)活動進行合理規(guī)劃的能力。計劃型學(xué)習(xí)對象的主動性高,知道自己的能力水平,能獨立控制學(xué)習(xí)活動以及進度。隨機學(xué)習(xí)對象則缺乏學(xué)習(xí)積極性,不能清楚認識自己的能力,一般都需要外界的幫助來規(guī)劃學(xué)習(xí)活動,對學(xué)習(xí)進度進行合理分配。
最后,建立智能詞匯推薦模型。在大多數(shù)自適應(yīng)學(xué)習(xí)系統(tǒng)中,用戶建模使用靜態(tài)和動態(tài)數(shù)據(jù)。靜態(tài)數(shù)據(jù)采集需要用戶填寫基本信息,更新學(xué)習(xí)文件,并完成一系列關(guān)于興趣主題和技能水平的問卷,以確定自己的學(xué)習(xí)偏好。然而,學(xué)習(xí)風(fēng)格問卷基于學(xué)習(xí)者對自己有清晰認識的假設(shè),基于自我報告測量,而不是能力測試,其效度存在很大問題。現(xiàn)有的動態(tài)數(shù)據(jù)挖掘方法能夠獲取到大量學(xué)習(xí)者的行為相關(guān)數(shù)據(jù),然后通過貝葉斯網(wǎng)絡(luò)[11]、Markov 模型[12]和其他機器學(xué)習(xí)[13]分類算法或深度學(xué)習(xí)神經(jīng)網(wǎng)絡(luò)[14]來處理學(xué)習(xí)者的動態(tài)交互數(shù)據(jù),從而推斷出學(xué)習(xí)者的風(fēng)格。文中建立的智能詞匯推薦模型如圖3 所示。
圖3 智能詞匯推薦模型
在學(xué)習(xí)對象學(xué)習(xí)時,模型一直進行學(xué)習(xí)對象的行為數(shù)據(jù)收集,把收集到的文本和信息數(shù)據(jù)轉(zhuǎn)換為學(xué)習(xí)對象的特征和資源特征,發(fā)送到服務(wù)器,計算特征向量之間的相似度。在幫助學(xué)習(xí)對象記憶單詞時,系統(tǒng)根據(jù)學(xué)習(xí)對象的能力模型計算單詞使用的數(shù)量。根據(jù)對象特征之間的相似度,為對象匹配學(xué)習(xí)伙伴,并向新對象推薦學(xué)習(xí)伙伴新單詞列表中的單詞。為了提高用戶背誦單詞的效率,可以提前預(yù)測學(xué)習(xí)對象不熟悉的單詞。當(dāng)學(xué)習(xí)對象想學(xué)習(xí)新的話題詞時,學(xué)習(xí)伙伴的新詞也可以成為推薦詞匯的重要來源。對于歷史記錄為空白的新用戶,由于缺乏數(shù)據(jù),很難提取學(xué)習(xí)能力特征。該系統(tǒng)還可以通過挖掘用戶已學(xué)習(xí)單詞的相似單詞來生成推薦詞匯。最后,在將詞匯直接推送給學(xué)習(xí)對象之前,系統(tǒng)根據(jù)詞匯記憶學(xué)習(xí)風(fēng)格模型提取學(xué)習(xí)對象的學(xué)習(xí)風(fēng)格[15]特征,為不同學(xué)習(xí)風(fēng)格的對象實現(xiàn)個性化推薦服務(wù)。它不僅推薦單詞的內(nèi)容,還對推薦的總量、出處、時間以及表現(xiàn)方式都進行個性化的適應(yīng)對策分析,從而大幅提高詞匯學(xué)習(xí)效率。
根據(jù)上文各個模型以及學(xué)習(xí)對象特征分析,建立的英語智能詞匯推薦系統(tǒng)如圖4 所示。
圖4 英語智能詞匯推薦系統(tǒng)
系統(tǒng)分成3 個層:學(xué)習(xí)用戶層、業(yè)務(wù)層以及數(shù)據(jù)信息層。數(shù)據(jù)信息層主要進行數(shù)據(jù)存儲,保證數(shù)據(jù)的可靠性以及安全性。根據(jù)用戶的需要,語料庫包括數(shù)據(jù)存儲層,如用戶評論、測試數(shù)據(jù)等。業(yè)務(wù)層的功能是分析系統(tǒng)的主要業(yè)務(wù)邏輯,包含類似詞挖掘和相似用戶挖掘。采用基于用戶的協(xié)同過濾算法[16]向?qū)W習(xí)者推薦單詞,利用聚類算法定位用戶學(xué)習(xí)方式,進行推送方式的規(guī)劃。學(xué)習(xí)用戶層的功能主要是學(xué)習(xí)對象與系統(tǒng)的交互,服務(wù)器對學(xué)習(xí)對象的請求進行回應(yīng)并顯示交互結(jié)果,如詞匯學(xué)習(xí)、數(shù)據(jù)注冊、應(yīng)用評論、語料庫傳輸、測驗完成等,該層產(chǎn)生的全部學(xué)習(xí)對象行為數(shù)據(jù)信息都會在日志數(shù)據(jù)庫中進行記錄。
1)特征向量標準化處理。文中使用聚類算法進行標準化處理,設(shè)特征向量的數(shù)據(jù)為R,樣本的均值為M,樣本的方差為D,則標準化處理R′的公式為:
2)學(xué)習(xí)風(fēng)格的聚類。利用通用型的K-means 聚類分析算法進行學(xué)習(xí)風(fēng)格聚類,設(shè)開始的聚類對象為N個,把所有數(shù)據(jù)聚類成C個簇,那么簇H的表達公式為:
要使其損失函數(shù)為最小,損失函數(shù)的表達式為:
其中,mx代表簇H的中心點,且:
該算法的優(yōu)點是運算速度快以及效率高,但是需要提前設(shè)定聚類數(shù)C的數(shù)值。
3)運用SPSS26.0 對系統(tǒng)性能以及詞匯統(tǒng)計結(jié)果進行可視化分析。
設(shè)年齡相似度權(quán)重為λ,學(xué)習(xí)對象相似度閾值為γ,根據(jù)提出的算法對系統(tǒng)的語義感知性能進行分析,結(jié)果如圖5 所示。
圖5 系統(tǒng)語義感知性能統(tǒng)計結(jié)果(1:λ=0.1 γ=0.1;2:λ=0.3 γ=0.3;3:λ=0.5 γ=0.5;4:λ=0.7 γ=0.7;5:λ=0.9 γ=0.9)
由圖5 可以看出,系統(tǒng)內(nèi)僅考慮學(xué)習(xí)對象的相似度實現(xiàn)詞匯推薦,將年齡相似度的權(quán)重設(shè)定為0.1~0.9,步長設(shè)定為0.2,用戶相似度閾值同年齡相似度權(quán)重的取值范圍相同,二者都是隨著參數(shù)值的提高而不斷上升,取值到0.8 時,二者都獲得最優(yōu)數(shù)值。
對學(xué)習(xí)對象在系統(tǒng)內(nèi)的詞匯使用記錄以及聚類效果進行統(tǒng)計和分析,結(jié)果如圖6 所示。
圖6 統(tǒng)計和分析結(jié)果
由圖6(b)可以看出,當(dāng)簇數(shù)設(shè)定在13 以內(nèi)時,輪廓系數(shù)值上升迅速,但超過13 以后,增長非常緩慢,說明此時的聚類效果不再明顯,也就表示提出的對應(yīng)模型是有效的。由圖6(a)可以清楚地看到學(xué)習(xí)對象在登錄到系統(tǒng)內(nèi)所學(xué)習(xí)過的單詞記錄,包括該單詞的使用次數(shù),說明對應(yīng)的模型是有效的。
文中基于自適應(yīng)學(xué)習(xí)的實質(zhì)性特征以及對學(xué)習(xí)對象的學(xué)習(xí)風(fēng)格進行理論分析,分別提出學(xué)習(xí)對象特征模型、學(xué)習(xí)對象的學(xué)習(xí)風(fēng)格模型以及智能詞匯推薦模型,運用上述模型設(shè)計了英語智能詞匯推薦系統(tǒng),并對系統(tǒng)的語義感知性能和學(xué)習(xí)對象在系統(tǒng)內(nèi)的詞匯使用記錄以及聚類效果進行統(tǒng)計和分析。結(jié)果表明,通過系統(tǒng)參數(shù)的調(diào)節(jié)能夠獲得語義感知最佳狀態(tài),而且提出的聚類算法和模型都是有效的,能夠?qū)崿F(xiàn)預(yù)期的詞匯推薦效果。該研究也存在一定的不足之處,對于系統(tǒng)的界面沒有進行設(shè)定和構(gòu)建,影響了系統(tǒng)的完整性,這也是下一步的研究重點。