羅曼林,楊高云
(岳陽職業(yè)技術(shù)學(xué)院國際教育學(xué)院,湖南岳陽 414000)
傳統(tǒng)英語課堂訓(xùn)練模式中,主要通過情景模擬提高聽說能力,而情景模擬大多以游戲方式進(jìn)行,難以獲得實(shí)際場(chǎng)景的訓(xùn)練機(jī)會(huì)。此外,英語聽說教學(xué)資源得不到充分利用,訓(xùn)練模式單一,缺乏對(duì)資源的有效整合?,F(xiàn)今大部分學(xué)生擁有移動(dòng)設(shè)備,能夠隨時(shí)在網(wǎng)絡(luò)上獲取感興趣的信息,也為線上教育帶來更多便利。但由于每個(gè)學(xué)生的基本狀況不同,讀、寫能力水平存在一定差異,如何合理匹配訓(xùn)練模式是線上教育面臨的重要問題。
為此,國內(nèi)[1]提出利用知識(shí)庫系統(tǒng)結(jié)合學(xué)生技能水平主動(dòng)為用戶匹配合理的訓(xùn)練模式。基于學(xué)生對(duì)訪問查詢的歷史行為,設(shè)計(jì)一種融合技能的隱語義模型協(xié)同過濾推薦方法,將知識(shí)點(diǎn)難易程度當(dāng)作潛在因子,綜合分析用戶能力水平,預(yù)測(cè)對(duì)訓(xùn)練方式的偏好程度,實(shí)現(xiàn)合理匹配;或?qū)⑸疃戎R(shí)追蹤模型和協(xié)同過濾方法相結(jié)合構(gòu)成一種個(gè)性化匹配方法[2]。利用深度知識(shí)追蹤模型對(duì)學(xué)生知識(shí)掌握情況進(jìn)行建模,再通過協(xié)同過濾算法計(jì)算學(xué)生習(xí)題測(cè)試的正確率,根據(jù)測(cè)試結(jié)果,在一定難度范圍內(nèi)對(duì)訓(xùn)練模式進(jìn)行匹配。國外重點(diǎn)通過對(duì)認(rèn)知主義靈感的形態(tài)分析,設(shè)計(jì)對(duì)碎片進(jìn)行自動(dòng)分類的識(shí)別算法,通過使用可見性評(píng)估技術(shù);首先確定類別的選擇,然后設(shè)計(jì)一種方法,依賴于查找表、決策規(guī)則和模糊字符串匹配來對(duì)所有信息進(jìn)行去識(shí)別。
常規(guī)方法通過了解學(xué)生知識(shí)水平掌握情況進(jìn)行訓(xùn)練模式匹配以達(dá)到個(gè)性化匹配目的,但對(duì)學(xué)生知識(shí)水平情況預(yù)測(cè)得不夠準(zhǔn)確,導(dǎo)致匹配模式并不能滿足用戶要求。因此,本文將樸素貝葉斯方法與數(shù)據(jù)分布特征模式匹配(SMDD,Schema Mapping method based on Data Distribution)算法相結(jié)合完成線上平臺(tái)英語聽說能力訓(xùn)練模式匹配。樸素貝葉斯有著堅(jiān)實(shí)的數(shù)學(xué)基礎(chǔ)和穩(wěn)定分類效率,所需估計(jì)參數(shù)較少,算法簡便,利用該方法對(duì)用戶進(jìn)行特征提取,提高處理效率。此外,SMDD方法采用了神經(jīng)網(wǎng)絡(luò)的模式識(shí)別性能,有利于優(yōu)化匹配結(jié)果,提高用戶滿意度。
與教學(xué)相關(guān)的線上平臺(tái)建設(shè)需要在相關(guān)部門統(tǒng)籌規(guī)劃下,將教育網(wǎng)、校園網(wǎng)作為基礎(chǔ),整合各教育單位的教學(xué)資源,利用云計(jì)算方式集中儲(chǔ)存[3]。該平臺(tái)主要包括云技術(shù)、聽說資源庫、聽說訓(xùn)練、在線交互以及管理模塊。其中訓(xùn)練模式分為以下幾種:
(1)在線教學(xué)
(2)自主學(xué)習(xí)
(3)在線互動(dòng)
(4)聽說測(cè)試
針對(duì)上述四種訓(xùn)練模式,利用樸素貝葉斯方法對(duì)學(xué)生聽說能力進(jìn)行預(yù)測(cè),充分掌握學(xué)生學(xué)習(xí)狀況,根據(jù)預(yù)測(cè)結(jié)果匹配相應(yīng)的訓(xùn)練模式。
利用改進(jìn)的最大信息系數(shù)(MIC,Maximal Information Coefficient)方法通過線上平臺(tái)對(duì)學(xué)生聽說能力水平相關(guān)性進(jìn)行分析,獲取影響聽說能力的有關(guān)因素。
MIC法存在高度普適性與均衡性。其普適性體現(xiàn)在不但能發(fā)現(xiàn)變量之間線性與非線性函數(shù)關(guān)系,還能挖掘函數(shù)與非函數(shù)關(guān)系。均衡性指針對(duì)同樣噪聲水平,MIC度量存在近似值。在統(tǒng)計(jì)學(xué)研究中,它能判斷變量線性與非線性之間的關(guān)聯(lián)程度,當(dāng)結(jié)果等于零時(shí),表明兩變量不相關(guān);若結(jié)果等于1則說明完全相關(guān)。
對(duì)變量(A1,A2)做MIC運(yùn)算,若H(A1)和H(A2)分別表示變量A1、A2的信息熵,I(A1,A2)代表二者互信息,則互信息表達(dá)式如公式(1)所示。
因?yàn)榛バ畔⒉淮嬖谏舷拗担绻鸌(A1,A2)取值范圍過大,會(huì)增加合理判斷的難度。所以需要對(duì)其進(jìn)行歸一化處理,獲得標(biāo)準(zhǔn)的I(A1,A2)。
通常利用歸一化互信息模型[5]對(duì)I(A1,A2)處理,其依據(jù)為I(A1,A2)≤min(H(A1),H(A2)),處理公式(2)如下。
利用公式(2)即可獲得變量對(duì)(A1,A2)的互信息,其最大信息系數(shù)表達(dá)式(3)為:
式(3)中,D={(xi1,xi2),i=1,…,n}代表有序?qū)ψ兞?A1,A2),已知i,j對(duì)A1,A2構(gòu)成的散點(diǎn)圖進(jìn)行網(wǎng)格化。利用G描述D的i×j網(wǎng)格,D中A1被分為i個(gè)箱子,A2被分成j個(gè)箱子,D|G描述變量對(duì)(A1,A2)分割為i×j個(gè)網(wǎng)格。
很容易看出,針對(duì)相同一個(gè)D不同網(wǎng)格G形成不同的D|G。所以利用公式(1)能計(jì)算出D|G的最高互信息值maxI(D|G)。從而分析出影響學(xué)生聽說水平的相關(guān)因素,以此構(gòu)建聽說能力預(yù)測(cè)模型。
3.2.1 用戶英語聽說水平預(yù)測(cè)
為保證訓(xùn)練模式匹配的精確性,需要預(yù)測(cè)學(xué)生的英語聽說水平。因此,利用樸素貝葉斯方法對(duì)用戶聽說能力水平進(jìn)行預(yù)測(cè)[6],從整體上講,此過程分為三個(gè)階段:
(1)準(zhǔn)備階段:主要工作為明確特征屬性。對(duì)線上平臺(tái)用戶英語聽說能力預(yù)測(cè),用戶特征屬性是根據(jù)數(shù)據(jù)預(yù)處理以及相關(guān)性分析結(jié)果獲得的,而得到的數(shù)據(jù)集合是由特征屬性構(gòu)成的。
(2)分類器訓(xùn)練階段:屬于算法對(duì)訓(xùn)練集合的學(xué)習(xí)過程,包括對(duì)訓(xùn)練集合中全部學(xué)生特征屬性進(jìn)行水平類別計(jì)算。
輸入:樣本數(shù)據(jù)集合Xn×q,輸出:分類標(biāo)簽C。
步驟一:將數(shù)據(jù)集合Xn×q引入到訓(xùn)練集與測(cè)試集分類算法中,以此獲取用戶數(shù)據(jù)的訓(xùn)練集與測(cè)試集。
步驟二:分析訓(xùn)練集合中用戶能力水平所屬類別,計(jì)算P(Ci);
步驟三:明確訓(xùn)練集合中所有特征屬性分類的條件概率P(xk/Ci);
步驟五:確定P(xk/Ci)P(Ci)中最大項(xiàng)當(dāng)做測(cè)試樣本所屬類別,并將其當(dāng)做最終用戶聽說能力預(yù)測(cè)結(jié)果;
步驟六:循環(huán)步驟4與5,直至全部樣本的能力水平類別都被預(yù)測(cè),最后輸出類標(biāo)簽C。
3.2.2 英語聽說能力水平分類
貝葉斯分類方法是對(duì)樣本進(jìn)行預(yù)測(cè)的統(tǒng)計(jì)學(xué)方法,通過獲取樣本所屬種類可能性大小,結(jié)合預(yù)測(cè)結(jié)果實(shí)現(xiàn)對(duì)不同類型學(xué)生英語聽說能力水平的大致分類。
假設(shè)X屬于沒有類別標(biāo)簽的數(shù)據(jù),利用q個(gè)屬性測(cè)量值對(duì)其表示,B是X屬于C類的假設(shè)函數(shù),P(B)是B的先驗(yàn)概率,P(B|X)代表在X約束B下的后驗(yàn)概率。則樸素貝葉斯算法分類步驟如下:
(1)已知樣本集合Xn×q=,其中包含n個(gè)樣本與q屬性A1,A2,…,Aq。
(2)假設(shè)存在m個(gè)類別C1,C2,…,Cm,如果已知某個(gè)類別的樣本={x11,x12,…,x1q},分類器會(huì)判斷成為最高后驗(yàn)概率的類。也就是當(dāng)P(Ci|)>P(Cj|)時(shí),對(duì)任意j=1,2,…,m,i≠j均存在最大化值P(Ci|),且1≤i≤m。P(Ci|)中最大類Ci被稱作最大后驗(yàn)假設(shè)[3]。
(4)針對(duì)特征屬性很多的數(shù)據(jù)集合,可利用類條件獨(dú)立的假設(shè)減少計(jì)算P(|Ci)的時(shí)間,認(rèn)為不同屬性之間互不干擾。P(|Ci)的表達(dá)式(4)如下。
公式(4)中,P(|Ci)表示訓(xùn)練集合中種類為Ci、屬性為Ak的條件幾率,若Ak屬于離散量,則存在:
公式(5)中,sik代表訓(xùn)練集合中種類是Ci且屬性是Ak的樣本數(shù)量,si表示種類為Ci的樣本數(shù)量。若Ak為連續(xù)量,并假設(shè)屬性滿足高斯分布,因此有:
公式(6)中,g表示屬性Ak的高斯函數(shù),與分別代表類別為Ci的特征樣本屬性的均值與方差。
在實(shí)現(xiàn)用戶聽說能力預(yù)測(cè)與分類后,提出SMDD(Schema Mapping Method based on Data Distribution)模式匹配方法。傳統(tǒng)模式匹配方法多數(shù)利用編碼形式,通過一定的匹配準(zhǔn)則與固定計(jì)算方式實(shí)現(xiàn)模式匹配。由于數(shù)據(jù)的多樣化與關(guān)聯(lián)程度存在的模糊性使此種方式無法滿足用戶實(shí)際需求。為改善此現(xiàn)象本文利用神經(jīng)網(wǎng)絡(luò)的良好學(xué)習(xí)性能與泛化能力,將其引入到SMDD算法中,為模式匹配提供新思路。該方法對(duì)不同類型數(shù)據(jù)的模式元素進(jìn)行假設(shè),若其中數(shù)據(jù)特征相似,則進(jìn)行模式匹配。通過神經(jīng)網(wǎng)絡(luò)的識(shí)別優(yōu)勢(shì)挑選出存在相同規(guī)律的元素集合,獲取不同元素之間相似程度,最后向用戶推薦候選結(jié)果,完成模式匹配。
(1)獲取數(shù)據(jù)特征矢量
針對(duì)數(shù)據(jù)集合S1中任意模式元素ei,通過特征抽取器隨機(jī)獲取n個(gè)數(shù)據(jù)實(shí)例Ri={r1i,r2i,…,rni},利用等距離分割方法對(duì)Ri做離散化處理,形成數(shù)據(jù)特征矢量。如果元素類型為數(shù)值型,假定rmax=max(Ri),rmin=min(Ri),此時(shí)需要將區(qū)間[rmin,rmax]等距離分割為N個(gè)子區(qū)間△k,運(yùn)算每個(gè)子區(qū)間中數(shù)據(jù)頻率xni,形成數(shù)據(jù)樣本特征矢量,表示為Xi=[x1i,x2i,…,xNi]n。
(2)神經(jīng)網(wǎng)絡(luò)訓(xùn)練
在神經(jīng)網(wǎng)絡(luò)訓(xùn)練過程中,會(huì)構(gòu)成三層前饋網(wǎng)絡(luò)NN,把聚類中心{Ei|i=1,2,…,M}當(dāng)作訓(xùn)練樣本,通過重復(fù)迭代過程,調(diào)節(jié)權(quán)重與閾值,適應(yīng)輸入激勵(lì),獲取識(shí)別類。
假如,某個(gè)神經(jīng)網(wǎng)絡(luò)具有三個(gè)輸入節(jié)點(diǎn)及四個(gè)輸出節(jié)點(diǎn),其誤差閾值為ξ=0.003,針對(duì)的輸入矢量(0.2 0.4 0.4)2,則神經(jīng)網(wǎng)絡(luò)理想的輸出結(jié)果為(1 1 0 0)2。若輸出結(jié)果為(0.85 0.06 0 0.1),此時(shí)還需繼續(xù)迭代,直到誤差低于ξ為止。SMDD方法中的神經(jīng)網(wǎng)絡(luò)訓(xùn)練具體過程如下:
步驟一:建立具有U個(gè)輸入節(jié)點(diǎn)、V個(gè)隱藏節(jié)點(diǎn)、W個(gè)輸入節(jié)點(diǎn)的神經(jīng)網(wǎng)絡(luò),對(duì)權(quán)值矩陣F1=[ωij]U×V=0、F2=[ωij]V×W=0 進(jìn)行初始化處理,其中ωij為輸入值;
步驟二:假定輸入向量為Y0,Y0=ci,i=1,2,…,M。net1與net2分別表示隱含層與輸出層的向量。f1及f2代表兩層次的激活函數(shù),W為輸出值。則激活曲線表示為:
步驟三:對(duì)局部梯度值δ進(jìn)行反向運(yùn)算,d表示期望響應(yīng),δ1與δ2均代表局部梯度值。計(jì)算公式(9)、(10)如下。
步驟四:獲取誤差梯度:
式中F為權(quán)值矩陣,E為輸出向量;
步驟五:設(shè)定ηi為學(xué)習(xí)率參數(shù),t表示時(shí)間變量,a 代表動(dòng)量常數(shù),利用下述公式對(duì)權(quán)值矩陣進(jìn)行修正[7]。
(3)獲取元素相似程度
針對(duì)數(shù)據(jù)集合S2,獲取其模式元素ai具有的數(shù)據(jù)實(shí)例,形成特征矢量,利用神經(jīng)網(wǎng)絡(luò)運(yùn)算和所有聚類中心的相似程度。
SMDD 結(jié)合上述得到的結(jié)果對(duì)學(xué)生匹配候選映射,將具有最高值的元素當(dāng)作候選映射,實(shí)現(xiàn)模式自動(dòng)匹配。
為驗(yàn)證本文訓(xùn)練模式匹配效果,通過神經(jīng)網(wǎng)絡(luò)工具箱,建立三層神經(jīng)網(wǎng)絡(luò)。其中輸入節(jié)點(diǎn)為U=5,隱藏節(jié)點(diǎn)為V=7,輸出節(jié)點(diǎn)W=3,此外其它參數(shù)設(shè)置情況為學(xué)習(xí)參數(shù)η=0.3,訓(xùn)練誤差為0.003。利用本文方法、文獻(xiàn)[1]、文獻(xiàn)[2]方法在匹配速度方面進(jìn)行對(duì)比,結(jié)果如圖1所示。
從圖1中可以看出,三種方法的匹配速度相差較小,但是隨著預(yù)測(cè)樣本集合數(shù)量的增多,其它兩種方法速度有所降低,而所提方法始終保持較高性能,這是因?yàn)樯窠?jīng)網(wǎng)絡(luò)得到很好的訓(xùn)練,減少迭代次數(shù),提高匹配速度。
圖1 不同方法匹配速度對(duì)比
此外,要想驗(yàn)證匹配的訓(xùn)練模式是否能提高學(xué)生聽說能力,對(duì)某班學(xué)生進(jìn)行訓(xùn)練后的效果評(píng)價(jià)。由教師對(duì)學(xué)生評(píng)價(jià)項(xiàng)目作出得分判定,評(píng)價(jià)結(jié)果分為A、B、C、D四個(gè)等級(jí)。
表1 不同匹配模式下學(xué)生訓(xùn)練成果
在不同方法匹配的訓(xùn)練模式下,利用本文方法訓(xùn)練后的學(xué)生聽說能力更加優(yōu)秀,獲得更高教師評(píng)分。主要因?yàn)楸疚耐ㄟ^貝葉斯方法對(duì)學(xué)生聽說能力進(jìn)行深入分析,針對(duì)不同學(xué)生特點(diǎn)進(jìn)行個(gè)性化匹配,每個(gè)學(xué)生的訓(xùn)練模式都是根據(jù)能力水平量身定制,因此得到良好的訓(xùn)練效果。
線上英語教學(xué)作為新型教育方式為人們提供很大方便,由于用戶對(duì)數(shù)據(jù)共享的需求不斷提高,出現(xiàn)了一些匹配方法,本文通過樸素貝葉斯理論與SMDD 方法相結(jié)合對(duì)英語聽說能力訓(xùn)練模式匹配方法進(jìn)行研究。仿真結(jié)果表明,此方法匹配性能優(yōu)越,能夠針對(duì)不同能力水平的用戶匹配出對(duì)應(yīng)的訓(xùn)練模式,增強(qiáng)訓(xùn)練效果,全面提升匹配質(zhì)量。為學(xué)生聽說能力的改善提供有效指導(dǎo),對(duì)線上英語平臺(tái)的發(fā)展起到推動(dòng)作用。
自動(dòng)化技術(shù)與應(yīng)用2022年1期