孫 熒, 王 荊
(1.西北工業(yè)大學(xué)外國語學(xué)院, 西安 7100722;2.國網(wǎng)陜西省電力公司電力科學(xué)研究院, 西安 710100)
中國具有世界最龐大的英語學(xué)習(xí)群體。然而,由于師資力量的不均以及地區(qū)教育的差異,中國的英語學(xué)習(xí)者所接受到的英語教育水平存在著較大的差異?;谌斯ぶ悄艿慕逃虒W(xué)模式是解決這一問題的良好途徑[1-2]。人工智能系統(tǒng)通過學(xué)習(xí)采集到的大量樣本數(shù)據(jù),可以達到一定的智能程度,例如在圖像識別、無人駕駛、語音識別等領(lǐng)域,人工智能已取得出色的成績,在某些方面,尤其是英語翻譯等,完全可以取代人類的工作[3-4]。近年來,基于人工智能的英語翻譯模式一直是業(yè)界的焦點。Hameed等[5]學(xué)者研究智能系統(tǒng)通過采集并學(xué)習(xí)大量的學(xué)生學(xué)習(xí)狀態(tài)、性格及年齡等相關(guān)信息,建立一個學(xué)習(xí)能力的分析模型,并利用這種模型分析人在英語翻譯中的特點,為英語翻譯算法提供幫助。隨著信息技術(shù)的發(fā)展,這種英語翻譯系統(tǒng)可以在一定程度上消除英語教育資源的不均所帶來的教育差異[6]。所以對英語翻譯算法的研究是十分必要的。在英語實際應(yīng)用場景中,Behnamian[7]基于人工智能建立聽力資源的語料庫,可以自動分配聽力資源,同時也可以實現(xiàn)情境交互,從而增強了翻譯的準(zhǔn)確性?;谠破脚_的人工智能技術(shù)是另外一個研究熱點之一,Moradi等[8]研究者利用云平臺的大數(shù)據(jù)處理計算能力,將人工智能引入翻譯,云平臺系統(tǒng)可以追蹤人工翻譯的譯文,及時準(zhǔn)確地了解每個語言場景的翻譯特點從而量化的輸出翻譯結(jié)果[9-13]?;诖?,探索人工智能能否在英語翻譯活動中作用,用粒子群優(yōu)化算法加速神經(jīng)網(wǎng)絡(luò)的訓(xùn)練,使其可以更快地收斂。用真實教學(xué)樣本數(shù)據(jù)進行測試,從而驗證方法的可行性。
假定粒子群中i粒子的粒子坐標(biāo)為Xi=(xi1,xi2,…,xin),最佳位置是記為p1,所有粒子的最佳記錄位置為p2,粒子的移動速度為Vi=(vi1,vi2,…,vid)。在粒子的搜索過程中,每一次迭代過程,粒子在空間中的軌跡如式(1)和式(2)所示。
(1)
(2)
式中:c1和c2分別為加速度常數(shù),其目的是使粒子更快地向最佳位置和所有粒子的最佳位置移動;rand()為[0,1]的隨機數(shù);粒子移動速度的最大值為Vmax。當(dāng)粒子的速度達到最大值Vmax時,速度不會增加,但會保持速度不變。設(shè)定粒子速度最大值的目的就是為了在整個搜索過程中提高搜索精度。當(dāng)粒子速度過高時,會導(dǎo)致粒子錯過當(dāng)前解空間的最優(yōu)值;當(dāng)粒子速度過小時,粒子會陷入局部最優(yōu)解。因此,這種設(shè)置是必要的。
從式(1)可以看出,粒子的速度主要由三部分組成,第一部分是粒子的初始速度運動,描述粒子的運動狀態(tài),在沒有任何干擾,粒子的速度將保持不變。第二部分是粒子的認(rèn)知能力,這個過程可以模擬鳥類的認(rèn)知行為。第三部分是信息的共享,在優(yōu)化過程中粒子之間會有相互作用,可以使整個粒子群共同進化,體現(xiàn)了粒子的社會學(xué)特征。
大多數(shù)優(yōu)化算法都是基于梯度信息進行優(yōu)化的,但粒子群優(yōu)化不需要梯度信息,粒子群優(yōu)化是一種利用概率模糊搜索的方法。在實際優(yōu)化過程中,雖然需要大量的評價函數(shù)來確定粒子的適應(yīng)度,但與傳統(tǒng)的進化算法相比仍有許多明顯的優(yōu)勢。
在粒子群優(yōu)化過程中,問題的整體解的質(zhì)量不會受到個體的影響,因此具有較高的魯棒性。此外,整個粒子群中的個體之間的信息交換并不是直接進行的,因此可以保證整個系統(tǒng)具有良好的可擴展性。在求解粒子群優(yōu)化算法的過程中,可以采用分布式處理模式,通過協(xié)調(diào)多處理器進行并行計算,提高了整體求解的效率。粒子群優(yōu)化算法不需要問題的特定連續(xù)性,與傳統(tǒng)的智能算法相比具有更高的可擴展性。粒子群優(yōu)化算法的一般流程如圖1所示。
圖1 粒子群優(yōu)化的步驟Fig.1 General steps of particle swarm optimization
人工神經(jīng)網(wǎng)絡(luò)通常由多個神經(jīng)元和多個節(jié)點組成,多層前饋神經(jīng)網(wǎng)絡(luò)模型是應(yīng)用最廣泛的神經(jīng)網(wǎng)絡(luò)模型,主要包括輸入層、輸出層和隱藏層。輸入層主要是從外部獲取所需信息,然后將獲取的信息輸入到神經(jīng)網(wǎng)絡(luò)中,等待后續(xù)處理;隱藏層是指加工的過程;輸出層是將處理的結(jié)果輸出到所需的位置。
在英語翻譯的教學(xué)過程中,如何獲得客觀的數(shù)據(jù)并利用這些數(shù)據(jù)進行正確的分析是非常重要的。因此,提出一個應(yīng)用模型來分析學(xué)生在英語翻譯教學(xué)過程中的學(xué)習(xí)能力,即學(xué)習(xí)能力分析模型,如圖2所示。
圖2 學(xué)生學(xué)習(xí)能力分析模型Fig.2 Analysis model of students learning ability
學(xué)習(xí)能力分析模型的目的是分析學(xué)生在英語翻譯學(xué)習(xí)過程中的一些與學(xué)習(xí)相關(guān)的特點,通過分析得出學(xué)生學(xué)習(xí)狀態(tài)的相關(guān)信息,并且利用分析的結(jié)果,為學(xué)生制定有針對性的教學(xué)任務(wù),從而促進英語翻譯教學(xué)的發(fā)展。在數(shù)據(jù)采集階段,主要通過問卷調(diào)查的方式進行初步的數(shù)據(jù)采集。在數(shù)據(jù)提取階段,需要對原始數(shù)據(jù)進行預(yù)處理,消除無用數(shù)據(jù)對整個分析過程的干擾。由于原始數(shù)據(jù)的部分缺失和遺漏,不完整,需要按照一定的標(biāo)準(zhǔn)填寫填充過程,然后將處理后的數(shù)據(jù)輸入神經(jīng)網(wǎng)絡(luò)進行分析。
再者,需要確定神經(jīng)網(wǎng)絡(luò)模型的拓?fù)浣Y(jié)構(gòu)、輸入層的節(jié)點數(shù)、輸出層的節(jié)點數(shù)和隱藏層的節(jié)點數(shù)。隱藏層節(jié)點的計算公式如式(3)所示。
(3)
式(3)中:J為隱藏層節(jié)點數(shù);M為輸出層節(jié)點數(shù);N為輸入層節(jié)點數(shù)。根據(jù)式(3)可以得到網(wǎng)絡(luò)訓(xùn)練次數(shù)與隱藏層節(jié)點數(shù)之間的關(guān)系。為了簡化兩者之間的關(guān)系,繪制網(wǎng)絡(luò)訓(xùn)練次數(shù)和隱藏層節(jié)點數(shù)。如圖3所示,當(dāng)神經(jīng)網(wǎng)絡(luò)隱藏層的節(jié)點數(shù)為4時,整個網(wǎng)絡(luò)模型的訓(xùn)練次數(shù)最短。
圖3 隱藏層節(jié)點數(shù)和訓(xùn)練次數(shù)的關(guān)系Fig.3 The relation of the training time and hidden layer node number
將粒子群算法的優(yōu)化原理引入神經(jīng)網(wǎng)絡(luò),增強了算法的全局尋優(yōu)能力;該復(fù)合算法利用粒子的移動和更新來尋找初始階段神經(jīng)網(wǎng)絡(luò)的最優(yōu)解,算法的執(zhí)行流程如下。
Step 1對特征數(shù)據(jù)的預(yù)處理。
在人工神經(jīng)網(wǎng)絡(luò)的學(xué)習(xí)過程中,為了消除大值數(shù)據(jù)對基于模型的預(yù)測或診斷的影響,對數(shù)據(jù)進行歸一化處理。數(shù)據(jù)的變化被限制在一定范圍內(nèi),通常是在(0,1)。因為Sigmoid函數(shù)用作神經(jīng)網(wǎng)絡(luò)的輸出層的轉(zhuǎn)換函數(shù),Sigmoid傳遞函數(shù)具有特殊的特征,當(dāng)x接近正值時或負(fù)無窮大,輸出值將接近0或1,因此輸出變量范圍為(0,1)。沒有規(guī)范化數(shù)據(jù),小值神經(jīng)元對網(wǎng)絡(luò)的影響可能遠(yuǎn)遠(yuǎn)小于大值神經(jīng)元,從而影響訓(xùn)練結(jié)果,歸一化公式如式(4)所示:
(4)
對輸出值進行反歸一化處理,反歸一化公式如式(5)所示:
(5)
Step 2設(shè)置神經(jīng)網(wǎng)絡(luò)相關(guān)參數(shù)。
采用BP(back propagation)神經(jīng)網(wǎng)絡(luò)對代價模塊進行估計,其中BP神經(jīng)網(wǎng)絡(luò)有幾個重要參數(shù),包括隱藏節(jié)點數(shù)、隱藏層數(shù)、激活函數(shù)、學(xué)習(xí)率、動量系數(shù)。
(1)隱藏節(jié)點數(shù):隱藏節(jié)點越多,收斂速度越慢,但誤差可能越小,尤其是“訓(xùn)練樣本”誤差。但是,當(dāng)數(shù)量增加到一定程度時,再增加數(shù)量也不能減少錯誤,執(zhí)行時間可能會突然延長。采用式(3)計算隱藏層節(jié)點數(shù)。
(2)隱藏層數(shù):隱藏層數(shù)對于網(wǎng)絡(luò)的收斂速度有著重要的影響,通常1~2層較為理想且可以解決大多數(shù)應(yīng)用問題。采用一層進行訓(xùn)練。
(3)激活函數(shù):Sigmoid函數(shù)用來作為激活函數(shù),其計算公式如式(6)所示:
(6)
式(6)中:t為Sigmoid函數(shù)的自變量。
(4)學(xué)習(xí)率及動量系數(shù):學(xué)習(xí)率對網(wǎng)絡(luò)的收斂速度有顯著影響,通常取η=0.1~1.0,一般情況下,學(xué)習(xí)算法會附加一個動量系數(shù),即加入一定比例的之前的權(quán)值變化,以減弱收斂中的振蕩,加速收斂。設(shè)置η+μ=1.0。
Step 3隨機生成粒子群的初始速度和位置
設(shè)置Xi=(xi1,xi2,…,xin)為粒子i初始位置,設(shè)置Vi=(v1,vi2,…,vid)為粒子i初始速度,Pg=min{P0,P1,…,Ps}為所有粒子的最佳位置記錄,即局部最優(yōu)位置,粒子群在n維空間中的速度和位置向量在(0,1)隨機生成。
Step 4計算神經(jīng)網(wǎng)絡(luò)前向的輸出向量。
隱藏層輸出向量H如式(7)、式(8)所示。
(7)
(8)
式中:th表示第h層的輸入加權(quán)和;aih為第i層與第h層之間的聯(lián)接參數(shù);xi為第i層的激活值;θh表示第h層的偏置量。
計算輸出層的向量Y如式(9)、式(10)所示:
(9)
(10)
式中:tj為第j層的輸入加權(quán)和;Yj為第j層的輸出量。
Step 5計算反向差δ:
δj=Yj(1-Yj)(Tj-Yj)
(11)
(12)
Step 6計算權(quán)重矩陣Δw及偏置向量Δθ變化量:
Δwhj=-ηδjHh
(13)
Δθj=-ηδj
(14)
更新權(quán)重矩陣與偏置向量,得:
(15)
(16)
Step 7計算每個粒子的適應(yīng)度。
根據(jù)問題特定的目標(biāo)函數(shù)估計每個粒子的適應(yīng)度,將適應(yīng)度函數(shù)值與記憶中的最佳函數(shù)值進行比較,然后粒子根據(jù)記憶中的最佳值修改下一階段的搜索速度。誤差平方和(sum of squared error,SSE)如式(17)所示:
(17)
式(17)中:Ti為算法擬合出的數(shù)據(jù);Ei為原始數(shù)據(jù)。
Step 8記錄粒子位置并更新其位置速度向量。
將粒子最佳值與全局最佳值進行比較,如果粒子最佳值優(yōu)于全局最佳值,則修改內(nèi)存中的全局最佳值,同時每個粒子修正位置速度,為下一次全局搜索準(zhǔn)備。
(18)
(19)
Step 9應(yīng)用粒子群優(yōu)化的神經(jīng)網(wǎng)絡(luò)算法模型對英語翻譯教學(xué)效果進行驗證。
當(dāng)粒子群達到全局最優(yōu)狀態(tài)時,網(wǎng)絡(luò)訓(xùn)練完成,得到訓(xùn)練集的平均誤差數(shù)據(jù),用樣本集數(shù)據(jù)進行測試得到誤差數(shù)據(jù).
應(yīng)用粒子群優(yōu)化的神經(jīng)網(wǎng)絡(luò)算法模型對英語翻譯教學(xué)效果進行了驗證。首先,完成對學(xué)生英語翻譯學(xué)習(xí)特征的樣本采集,然后分兩個步驟進行,第一步利用粒子群優(yōu)化算法對神經(jīng)網(wǎng)絡(luò)進行訓(xùn)練;第二步對模型的有效性進行評估和測試。
數(shù)據(jù)集作為神經(jīng)網(wǎng)絡(luò)算法實現(xiàn)中關(guān)鍵的一環(huán),對模型輸出結(jié)果的可信起著決定性的作用。從阿里巴巴公司的Tianchi Data Sets中獲取2 000條學(xué)生英語翻譯數(shù)據(jù),在保證樣本多樣性的前提下剔除數(shù)據(jù)集中沒有對應(yīng)翻譯結(jié)果、顯示模糊、無法提取特征點的數(shù)據(jù);同時,為了在不影響模型有效性的前提下增加數(shù)據(jù)量,提高模型的泛化能力,對數(shù)據(jù)進行了增加噪聲等數(shù)據(jù)增廣操作,使數(shù)據(jù)集中包含有4 500條可測試的數(shù)據(jù)。通過上述過程獲得的數(shù)據(jù)集,能夠最大程度的保證英語翻譯特征樣本采集結(jié)果的準(zhǔn)確性和多樣性。
當(dāng)使用粒子群優(yōu)化算法對神經(jīng)網(wǎng)絡(luò)進行訓(xùn)練時,不僅需要對已有的數(shù)據(jù)進行處理,還需要設(shè)置一些參數(shù)。將早熟因子設(shè)置為0.01,其他參數(shù)以隨機形式產(chǎn)生。根據(jù)粒子群算法選擇粒子群規(guī)模的慣例,設(shè)置3個不同的粒子數(shù),即5、10、20,并分析3種不同粒子數(shù)的運行效率。當(dāng)?shù)螖?shù)分別達到243、437、295時,算法輸出的結(jié)果與訓(xùn)練樣本、測試樣本之間的誤差以足夠小,并保持一段時間沒有更優(yōu)的解出現(xiàn)。因此此時結(jié)果即為最優(yōu)解,隨即停止迭代,記錄相關(guān)數(shù)據(jù)如表1所示。
表1 粒子群優(yōu)化的神經(jīng)網(wǎng)絡(luò)模型的案例結(jié)果Table 1 Experimental results of the particle swarm optimization algorithm to train the neural network
結(jié)合英語翻譯的實踐,由表1可以看出,采用粒子群優(yōu)化算法對神經(jīng)網(wǎng)絡(luò)進行訓(xùn)練,可以得到不同粒子數(shù)種群的最優(yōu)解,并且誤差值較小。基于所提出的學(xué)習(xí)分析模型,可以用樣本訓(xùn)練好的粒子群優(yōu)化的神經(jīng)網(wǎng)絡(luò)模型對學(xué)生的英語翻譯能力進行正確程度的分析,幫助教師估計學(xué)生的翻譯能力水平,為下一步的教學(xué)提供參考。
通過研究粒子群優(yōu)化算法的數(shù)學(xué)模型和算法流程,以及人工神經(jīng)網(wǎng)絡(luò)模型的基本原理;并基于粒子群優(yōu)化的神經(jīng)網(wǎng)絡(luò)模型,提出了學(xué)習(xí)能力分析模型,確定了該模型的神經(jīng)網(wǎng)絡(luò)的拓?fù)浣Y(jié)構(gòu)和隱藏層的節(jié)點數(shù);基于英語翻譯教學(xué)的樣本數(shù)據(jù),建立了研究模型。通過對實驗結(jié)果的分析,發(fā)現(xiàn)本文方法可以幫助教師估計學(xué)生的翻譯能力能力水平,為學(xué)生進一步提高英語翻譯水平提供參考。所提出的應(yīng)用人工智能算法幫助英語教學(xué)的研究方法,隨著計算機技術(shù)的進一步發(fā)展,可以在廣泛推廣至英語教學(xué)的眾多方面。