于明誠,黨亞固,吳奇林,吉旭,畢可鑫
(四川大學(xué)化學(xué)工程學(xué)院,四川 成都 610041)
目前學(xué)生英文作文評分主要依靠人工方式,打分過程耗時耗力,且結(jié)果具有明顯主觀性[1]。隨著自然語言處理技術(shù)的發(fā)展,作文自動評分(AES)系統(tǒng)的出現(xiàn)能夠減輕評分員的工作負(fù)擔(dān),同時避免主觀因素影響評分結(jié)果[2-3]。
AES 屬于文本多分類任務(wù),研究方式主要有基于傳統(tǒng)機器學(xué)習(xí)方法和基于深度神經(jīng)網(wǎng)絡(luò)模型方法。傳統(tǒng)機器學(xué)習(xí)方法[4-5]需要手動構(gòu)建特征工程,過程需要耗費大量人力物力,且泛化能力較弱,無法應(yīng)用于大規(guī)模英文文本數(shù)據(jù)集?;谏疃壬窠?jīng)網(wǎng)絡(luò)模型憑借強大的自動特征提取能力,深層次提取作文的高維潛在語義特征。文獻(xiàn)[6]提出增強型混合神經(jīng)網(wǎng)絡(luò)的作文自動評分模型,通過融合文章的語言、語義和結(jié)構(gòu)屬性,更客觀和全面地實現(xiàn)評分,較實驗對比最佳模型的Kappa 系數(shù)平均提高1.4%。文獻(xiàn)[7]通過EssayGAN 網(wǎng)絡(luò)對英文作文數(shù)據(jù)集ASAP進(jìn)行樣本擴充,采用BERT-CLS 模型進(jìn)行作文自動評分,EssayGAN-BERT-CLS 在8 個子集上的平均二次加權(quán)Kappa 系數(shù)(QWK)為78.8%,優(yōu)于實驗對比的其他預(yù)訓(xùn)練模型BERT[8]輸入長度限制為512,對長文本進(jìn)行截斷操作影響上下文語義嵌入。文獻(xiàn)[9]提出基于多層次語義特征的英文作文自動評分方法,通過將卷積神經(jīng)網(wǎng)絡(luò)(CNN)和長短期記憶(LSTM)網(wǎng)絡(luò)模塊相結(jié)合提取深層特征,并手動構(gòu)建淺層語義特征,在ASAP 公開數(shù)據(jù)集上的平均二次加權(quán)的Kappa 值 為79.17%,CNN 和LSTM 模塊無 法關(guān)注到對作文評分結(jié)果影響較大的關(guān)鍵特征,且未能提取句子級別的上下文連貫性語義。文獻(xiàn)[10]提出結(jié)合雙層LSTM 與Attention 作文自動評分,通過雙層LSTM 提取作文上下文語義信息,Attention 模塊識別出關(guān)鍵文本信息,在ASAP 數(shù)據(jù)集上的實驗結(jié)果優(yōu)于實驗對比模型,LSTM 循環(huán)網(wǎng)絡(luò)訓(xùn)練效率較低,特征提取能力不足,僅能捕捉單詞級別的上下文語義特征。文獻(xiàn)[11]提出融合回歸和排序損失微調(diào)BERT(R2BERT)模型,采用BERT 輸出的[CLS]向量作為作文語義表征,綜合考慮回歸和排序信息,取得較優(yōu)的評分性能。文獻(xiàn)[12]提出基于BERT 的作文多尺度特征聯(lián)合學(xué)習(xí),利用2 個BERT 模型來顯式地建模作文的多尺度信息,包括提取文檔和詞匯級特征,缺乏對文章短語級別上下文語義特征的學(xué)習(xí)。文獻(xiàn)[13]將BERT 和XLNet 模型應(yīng)用于英文作文自動評分任務(wù)中,在ASAP 數(shù)據(jù)集上取得了優(yōu)良的表現(xiàn)。文獻(xiàn)[14]考慮句子之間的連貫性特征并將其與深度學(xué)習(xí)模型相融合,進(jìn)一步增強神經(jīng)網(wǎng)絡(luò)模型作文評分的性能,但模型缺乏對作文主題層次相關(guān)特征的捕捉。
本文提出基于多尺度上下文的英文作文自動評分模型MSC。采用XLNet 提取作文單詞和句子級別的語義嵌入,并在單詞嵌入基礎(chǔ)上提取短語級別嵌入,避免因輸入長度序列限制導(dǎo)致無法準(zhǔn)確捕捉嵌入向量的語義表示。多尺度上下文網(wǎng)絡(luò)通過內(nèi)置自注意力簡單循環(huán)單元(BSASRU)分別捕捉單詞、短語和句子級別的上下文語義特征,挖掘深層次的作文潛在特征,全局注意力機制識別出對作文評分結(jié)果影響大的關(guān)鍵特征,避免無關(guān)信息的干擾,并引入句子級別的主題層次相關(guān)特征,以評價文章的扣題程度,最后通過特征融合層和線性層得到作文預(yù)測分?jǐn)?shù)。
基于多尺度上下文的英文作文自動評分模型整體架構(gòu)如圖1 所示,GA 表示全局注意力模塊。MSC模型主要從多個層次提取作文的特征用于自動評分。首先,構(gòu)建多尺度上下文語義網(wǎng)絡(luò),使用XLNet預(yù)訓(xùn)練模型分別獲取作文單詞和句子向量表示,而短語向量表示則通過一維卷積網(wǎng)絡(luò)在單詞向量的基礎(chǔ)上提取,通過相應(yīng)的雙向內(nèi)置自注意力簡單循環(huán)單元(BiBSASRU)網(wǎng)絡(luò)對不同尺度的上下文語義進(jìn)行序列建模,深層次獲取作文的潛在語義特征;其次,將目標(biāo)作文中每個句子的向量表示和作文提示語信息進(jìn)行映射,得到低維的嵌入式表示,通過計算提示語和句子之間的余弦相似度以獲取主題相關(guān)性,從主題層次提取目標(biāo)作文的扣題程度特征。將多尺度上下文語義特征和主題層次相關(guān)性特征融合得到作文的最終表示并進(jìn)行作文自動評分。
圖1 MSC 模型整體結(jié)構(gòu)Fig.1 Overall structure of the MSC model
Transformer 編碼器框架輸入的序列長度有限,導(dǎo)致作文文本序列信息丟失,影響整體上下文語義的準(zhǔn)確率。而基于Transformer-XL 的預(yù)訓(xùn)練模型XLNet[15]通過引入片段循環(huán)機制和雙流自注意力機制能夠在長文本語義編碼中取得更佳效果。因此,本文采用XLNet 模型提取英語作文單詞和句子級別的嵌入表示,具體過程如圖2 和圖3 所示。
圖2 單詞嵌入過程Fig.2 Word embedding process
圖3 句子嵌入過程Fig.3 Sentence embedding process
圖2 中單詞編碼層的輸入由字符向量和分句向量組成。在單詞嵌入中,根據(jù)預(yù)訓(xùn)練模型字典表查找每個單詞的對應(yīng)序號,并將其作為靜態(tài)單詞編碼信息,并設(shè)置截斷長度將作文文本進(jìn)行統(tǒng)一化操作。在文本首位插入標(biāo)志位[CLS],在句末插入分句標(biāo)志[SEP]作為單詞編碼層的輸入之一。由于編碼器無法預(yù)知文本句間的順序關(guān)系,因此通過分句向量編碼使模型獲得子句在文本中的先后關(guān)系。文本中在不同位置的相同字或詞所帶來的信息存在明顯差異,為了提取單詞之間的上下文信息,在注意力計算過程中加入位置編碼以感知詞與詞之間的位置特征。
經(jīng)XLNet 模型訓(xùn)練后得到詞嵌入矩陣Ew=為文本輸入的截斷長度,針對單詞嵌入情況須去除首位[CLS]編碼向量,僅采用后續(xù)的單詞嵌入向量。
圖3 中輸入為原始作文文本,通過對原始作文文本進(jìn)行切分操作,以問號、感嘆號和句號作為標(biāo)識,批量獲取句子集合。為提取每個句子在原文中的上下文句向量表示,在每個單獨句子的前后加上句首標(biāo)記[CLS]和結(jié)束標(biāo)記[SEP],并整體串聯(lián)起來。由于每個英語作文中句子數(shù)量不一致,因此對不定長的句向量集合加入Padding 操作,以符合后續(xù)循環(huán)神經(jīng)網(wǎng)絡(luò)的輸入形式。為后續(xù)獲取句向量特征表示,用于句子級別的上下文語義建模,須記錄每個[CLS]位置,方便后續(xù)提取每個句子對應(yīng)的語義向量。
經(jīng)過預(yù)訓(xùn)練模型XLNet 進(jìn)行上下文語境特征學(xué)習(xí)后,通過事先記錄的每個[CLS]位置在單詞向量矩陣中 提取對 應(yīng)的句 子特征向量
語義的連貫性及上下文的整體表達(dá)效果是影響作文質(zhì)量的重要因素,通過多尺度上下文網(wǎng)絡(luò)更好地提取作文的上下文信息及關(guān)聯(lián)信息,有助于提高作文的評分性能。多尺度上下文網(wǎng)絡(luò)主要由短語級別語義嵌入提取模塊、內(nèi)置自注意力簡單循環(huán)單元模塊和全局注意力機制構(gòu)成。
1.3.1 短語級別語義嵌入提取模塊
為了對英文作文短語級別特征的上下文語義進(jìn)行建模,本文通過一維卷積模塊對原始單詞語義嵌入向量進(jìn)行卷積操作,為不損失整體語義,不使用池化技術(shù)進(jìn)行顯著特征選取,再通過雙向內(nèi)置自注意力簡單循環(huán)單元模塊對局部短語特征進(jìn)行上下文建模,提取不同層次的上下文信息。本文使用卷積模塊對單詞嵌入向量特征輸出Ew進(jìn)行卷積操作得到短語級別特征,具體計算過程如式(1)和式(2)所示:
其中:w代表卷積核,本文設(shè)置卷積核尺寸為2 和3;b表示偏置值;m為卷積過程中滑動窗口大??;?代表卷積操 作;Ti:i+m-1表示T中第i~i+m-1 行作文單詞向量表示;f為非線性函數(shù),增強模型對數(shù)據(jù)集的擬合能力[16],通過滑動窗口進(jìn)行卷積得到短語級別特征向量Ep2和Ep3。
1.3.2 內(nèi)置自注意力簡單循環(huán)單元模塊
內(nèi)置自注意力簡單循環(huán)單元模型在簡單循環(huán)單元[17]的基礎(chǔ)上,引入自注意力機制,有利于模型學(xué)習(xí)到英語作文中當(dāng)前詞對其他詞的重要程度,捕獲句子內(nèi)部語法結(jié)構(gòu)信息[18]。BSASRU 模型結(jié)構(gòu)如圖4所示。
圖4 內(nèi)置自注意力簡單循環(huán)單元模型結(jié)構(gòu)Fig.4 Structure of built-in self-attention simple recurrence units model
圖4 中768 為輸入向量維度,512 為注意力維度大?。籜代表XLNet 預(yù)訓(xùn)練模型最后一層輸出的隱狀態(tài),分別表示單詞、短語和句子級別向量特征Ew、Ep2、Ep3和Es;Elementwise Recurrence 代表元 素循環(huán)迭代計算。Elementwise Recurrence 的計算式如式(3)~式(6)所示:
其中:Wf、W、Wr、vf和vr為可訓(xùn)練權(quán)重參數(shù)矩陣,是模型學(xué)習(xí)優(yōu)化的主要目標(biāo)之一;bf、br為偏置值。由式(6)可知,簡單循環(huán)單元在序列元素循環(huán)迭代計算中當(dāng)前時刻ht不再依賴上1 個時刻的輸出ht-1,可實現(xiàn)大部分運算并行化處理,訓(xùn)練效率優(yōu)于傳統(tǒng)循環(huán)網(wǎng)絡(luò)LSTM[19]和門控循環(huán)單元(GRU)[20]。
為提升簡單循環(huán)單元的特征學(xué)習(xí)能力,BSASRU[21]在簡單循環(huán)單元的基礎(chǔ)上內(nèi)置自注意力機制。自注意力計算過程如式(7)~式(11)所示:
其中:當(dāng)BSASRU 處理單詞和短語級別上下文語義建模時,X?RL×d為詞和 短語向 量矩陣,此處為XLNet 輸出詞向量,針對句子級別上下文建模,X則表示句向量矩陣,L代表句子數(shù)量,d為詞向量維度;為可學(xué) 習(xí)權(quán)重 矩陣為注意力得分矩陣;α?R 是自適應(yīng)訓(xùn)練參數(shù)為實現(xiàn)殘差連接時的參數(shù)矩陣;UT?RL×3×d為輸出張量。
為全面提取詞、短語和句子在特定英語作文文本具體語境中的含義,本文構(gòu)建BiBSASRU,其計算過程如式(12)所示:
1.3.3 全局注意力機制
為突出對評分結(jié)果較為關(guān)鍵上下文語義特征,避免無關(guān)信息對結(jié)果造成干擾[22],全局注意力機制分別計算單詞、短語和句子級別上下文語義特征提取模塊BiBSASRUw、BiBSASRUp2、BiBSASRUp3和BiBSASRUs,每個時間狀態(tài)輸出Ht對作文評分結(jié)果影響的權(quán)重大小αt,加權(quán)求和后分別得到單詞、短語和句子級別的多尺度整體注意力輸出Aw,Ap2,Ap3,As,具體計 算過程如式(13)~式(15)所示:
其中:tanh 為非線性激活函數(shù);exp 表示指數(shù)計算;W為可訓(xùn)練權(quán)重參數(shù)矩陣,為主要的優(yōu)化目標(biāo);b為偏置值。
主題作文是一種根據(jù)材料和提示語所提供的思考范圍和方向,提取作文的主題特征以及更好地衡量作文主題與作文提示語之間的語義相關(guān)性,將會直接影響作文自動評分的性能表現(xiàn)。通過XLNet 模型對每個子集合的提示語進(jìn)行編碼,嵌入過程形式與單詞嵌入原理一致,但不利用提示語中單個詞的語義表示,而是通過[CLS]標(biāo)簽獲取整體語義特征Topic。
本文采用余弦相似度來衡量英語作文與主題提示語的語義相關(guān)度,余弦相似度計算原理如式(16)所示:
其中:Si表示英語作文中第i個句子符合上下文語境的整體語義表示;T表示當(dāng)前子集合對應(yīng)的提示語嵌入表示Topic;SSimilarityi表示第i個句子與主題提示語的語義相關(guān)度。
為全面評價作文文本與主題提示語的語義相似度,本文采用每個句子向量與主題提示語進(jìn)行余弦相似度計算,得出每個句子對提示語的關(guān)聯(lián)度得分,將全部句子的得分拼接得到主題語義相關(guān)特征表示,如式(17)所示:
其中:l表示作文中的句子數(shù)量。為解決作文句子數(shù)量不定長的問題,本文設(shè)置固定長度為L的0 向量矩陣ZeroL,L大于等于所有文章中切分出的最大句子數(shù),確保其能夠接受Similarity 的輸入。通過將主題語義相關(guān)特征Similarity 輸入到ZeroL,得到定長的句子級別與主題相關(guān)聯(lián)的語義特征SL,將作文的切題度融入到評分特征。
本文將單詞、短語和句子級別的多尺度整體注意力輸出Aw,Ap2,Ap3,As與定長的句子級別與主題相關(guān)聯(lián)的語義特征SL進(jìn)行拼接,得到融合后的作文評分特征Fusion,具體計算過程如式(18)所示:
其中:Concat 表示向量拼接函數(shù)。
本文將融合后的評分特征Fusion 輸入到線性層進(jìn)行向量維度降低,將結(jié)果映射到具體作文評分空間,由Softmax 函數(shù)對概率進(jìn)行歸一化操作得到概率Pred,TopMax 函數(shù)取數(shù)值最大值對應(yīng)的作文評分作為最終結(jié)果Result,相關(guān)計算過程如式(19)和式(20)所示:
為訓(xùn)練英語作文自動評分模型,本文采用前饋和反向傳播數(shù)據(jù)更新迭代算法。在反向傳播過程的每次迭代中,通過損失值計算梯度值從而更新模型參數(shù)。其關(guān)鍵目的是減少所有真實類標(biāo)簽和網(wǎng)絡(luò)輸出的平均損失Loss。其中,Loss 采用多分類交叉熵?fù)p失函數(shù)[23]計算,相關(guān)計算原理如式(21)所示:
為驗證MSC 英文作為自動評分模型的性能表現(xiàn),本文分別在公開標(biāo)準(zhǔn)的英文作文數(shù)據(jù)集ASAP中的8 個子集進(jìn)行實驗,將數(shù)據(jù)集按照6∶2∶2 劃分為訓(xùn)練集、測試集和驗證集。ASAP 數(shù)據(jù)集描述如表1所示。
表1 ASAP 數(shù)據(jù)集描述Table 1 Description of ASAP dataset
ASAP 數(shù)據(jù)集 均使用 二次加 權(quán)Kappa[24]系數(shù)對作文評分模型在每個子集的性能表現(xiàn)進(jìn)行評估。QWK 評價指標(biāo)具體計算過程如式(22)和式(23)所示:
其中:i和j分別表示不同的分?jǐn)?shù)大??;N為整體評分等級數(shù);Oi,j表示被評分為i且被評分為j的作文篇數(shù),{Oi,j}表示維度大小為N×N的參數(shù)矩陣。QWK是評估不同評分之間一致性的關(guān)鍵系數(shù),取值范圍為[-1,1]。
深度學(xué)習(xí)模型參數(shù)量較大,優(yōu)化過程需要耗費大量的計算機資源,實驗環(huán)境軟硬件配置如表2所示。
表2 軟硬件環(huán)境Table 2 Hardware and software environment
參數(shù)設(shè)置對模型訓(xùn)練精度影響較大,經(jīng)多次實驗調(diào)整參數(shù)后,最優(yōu)參數(shù)設(shè)置:采用基礎(chǔ)版本英文訓(xùn)練模型XLNet,隱藏層維度大小為768,自注意力頭數(shù)為8。雙向內(nèi)置自注意力簡單循環(huán)單元隱藏層大小為312,層數(shù)為2,投影層維度大小為512;卷積核組合大小設(shè)置為(2,3),特征圖數(shù)量大小均為128;全局注意力機制維度大小為256。
本文采用優(yōu)化器Ranger[25-26]自適應(yīng)調(diào)整學(xué)習(xí)率大小以適應(yīng)訓(xùn)練過程,加速模型收斂和提升英語作文自動分類的性能效果。損失函數(shù)為多分類交叉熵?fù)p失函數(shù)。部分訓(xùn)練參數(shù)設(shè)置如表3 所示。
表3 訓(xùn)練參數(shù)設(shè)置Table 3 Setting of training parameters
為全面驗證本文所提模型MSC 在自動英文作文評分任務(wù)上的有效性,本文主要從XLNet 詞向量模型應(yīng)用效果、與近期優(yōu)秀深度學(xué)習(xí)模型性能對比和消融實驗3 個方面開展實驗。為確保實驗過程的客觀公平,固定隨機數(shù)種子以避免實驗結(jié)果受到隨機誤差的影響,在每個子數(shù)據(jù)集上分別取5 次實驗結(jié)果的平均值作為最終結(jié)果。不同模型的性能指標(biāo)如表4 所示,實驗對比模型的結(jié)果均引用原論文,加粗表示最優(yōu)數(shù)據(jù)。
表4 不同模型的二次加權(quán)Kappa 系數(shù)值Table 4 Quadratic weighted Kappa coefficient values among different models %
從表4 可以看出,本文模型MSC 在ASAP 數(shù)據(jù)集上取得了最高平均QWK,達(dá)到了80.50%,優(yōu)于實驗對比表現(xiàn)優(yōu)良的深度學(xué)習(xí)模型,較HNN-AES、EssayGAN-BERT-CLS、GAT-LSTM、MLSN、R2BERT和BERT-XLNet 分別提高了0.10、1.70、2.29、1.33、1.10 和4.74 個百分點,同時在子集4、子集5、子集6和子集8 中取得最佳效果,證明MSC 模型通過XLNet 能準(zhǔn)確獲取單詞和句子語義嵌入。多尺度上下文網(wǎng)絡(luò)進(jìn)行不同層次的語義特征學(xué)習(xí),以及通過句向量與提示語計算文章的扣題程度,能夠有效提高英文作文自動評分性能。
BERT-XLNet 僅取得了75.76%的平均QWK 值,說明通過簡單的語義特征融合方式得到的評分特征無法很好地捕捉英文作文的高維潛在語義,影響自動評分的準(zhǔn)確性。而R2BERT 綜合考慮回歸和排序信息,英文作文評分效果有顯著提升,平均QWK 值達(dá)到了79.40%。HNN-AES 采用混合神經(jīng)網(wǎng)絡(luò)捕捉作文文章語言、語義和結(jié)構(gòu)屬性特征,取得了80.40%的平均QWK 值,在子集1、子集2 和子集3 評分效果最佳,證明整體文章語義連貫和篇章結(jié)構(gòu)特征對英文作文自動評分任務(wù)的重要性。
MLSN 通過CNN 和LSTM 模塊捕捉局部和上下文語義特征,并加入淺層特征和文章與提示語相似度得分,融合多種特征對作文進(jìn)行評分,性能表現(xiàn)良好,但淺層特征需要人為手動進(jìn)行提取,過程費時費力。
2.3.1 模塊消融實驗
為驗證MSC 模型中各個模塊對整體性能的貢獻(xiàn)程度,本文設(shè)置相應(yīng)模塊消融實驗,試驗軟硬件環(huán)境均保持一致。消融實驗結(jié)果如表5 所示。
表5 消融實驗結(jié)果Table 5 Results of ablation experiment %
MSC(w/o GAp+GAs+GAw)表示在MSC 的基礎(chǔ)上去除各個尺度下的全局注意力模塊。MSC(w/o主題層次特征)表示不加入句子與提示語的主題層次特征。MSC(w/o BiBSASRUw+GAw)、MSC(w/o BiBSASRUp+GAp)和MSC(w/o BiBSASRUs+GAs)分別表示去除單個尺度下的BiBSASRU+GA 特征提取模塊。其中,GAp包含GAp2和GAp3。
從表5 可以看出,加入句向量與主題提示語向量計算語義相似度得到的主題層次特征,MSC 的平均QWK 系數(shù)提高了0.95 個百分點,說明本文提取的句子級別主題層次特征對提高作文評分準(zhǔn)確性幫助較大,也更符合人為打分過程需要考慮作文扣題度的行為。
模型MSC(w/o BiBSASRUw+GAw)在加入單詞級別上下文語義特征后,平均QWK 值提高1.44 個百分點,MSC(w/o BiBSASRUp+GAp)加入短語級別上下文語義特征后,平均QWK 值提高1.29 個百分點,說明單詞和短語尺度下的整體語義特征能夠促進(jìn)模型對英文作文的表征能力,提高作文評分的性能。
MSC(w/o BiBSASRUs+GAs)加入句子上下文語義連貫特征后,平均QWK 值提高0.74 個百分點,表明在句級別上的全文連貫性特征對作文評分有著明顯影響,能夠在更高的維度上提取文章上下文關(guān)聯(lián),增強模型的語義表征能力。
模型MSC(w/o GAp+GAs+GAw)在加入各個尺度下的全局注意力模塊后,平均QWK 值提高0.41 個百分點,表明全局注意力機制能夠更好捕捉不同尺度下的關(guān)鍵評分特征,減小噪聲對評分結(jié)果的干擾,有效地提升作文評分準(zhǔn)確率。
2.3.2 循環(huán)網(wǎng)絡(luò)評分性能和訓(xùn)練效率對比分析
為驗證本文提出的雙向內(nèi)置自注意力簡單循環(huán)單元(BiBSASRU)較其他循環(huán)網(wǎng)絡(luò)在評分性能和訓(xùn)練效率上的優(yōu)勢,本文采用目前性能較佳的循環(huán)網(wǎng)絡(luò)BiLSTM、BiGRU 和BiSRU 作為對比,實驗過程中僅循環(huán)網(wǎng)絡(luò)類型不同,其他模塊和軟硬件環(huán)境均保持相同。采用不同循環(huán)網(wǎng)絡(luò)在8 個子集上的平均QWK 值如表6 所示,在子集上的平均輪次訓(xùn)練時長曲線如圖5 所示。
表6 不同循環(huán)網(wǎng)絡(luò)模型性能Table 6 Performance among different recurrent network models %
圖5 不同循環(huán)網(wǎng)絡(luò)在子集上的平均訓(xùn)練時間Fig.5 The average training time among different recurrent networks on subsets
由表6 結(jié)果可知,MSC(w/o BiBSASRU)模型在8 個子集上的平均QWK 值高于MSC(w/o BiSRU)、MSC(w/o BiGRU)和MSC(w/o BiLSTM),表 明BiBSASRU 通過內(nèi)置自注意力機制,能夠有效捕捉不同語義特征之間的依賴關(guān)系,增強模型的特征表示能力,從而有效地提高作文評分的性能。
從圖5 可以看出,模型MSC(w/o BiBSASRU)、MSC(w/o BiSRU)、MSC(w/o BiGRU)和MSC(w/o BiLSTM)的整體平均訓(xùn)練時長分別為159.3 s、157.1 s、163.4 s 和167.1 s。本文模型MSC(w/o BiBSASRU)整體平均訓(xùn)練時間較MSC(w/o BiGRU)和MSC(w/o BiLSTM)分別縮短了4.1 s 和7.8 s,證明BiBSASRU模塊訓(xùn)練速度優(yōu)于傳統(tǒng)循環(huán)網(wǎng)絡(luò)BiGRU 和BiLSTM。而BiGRU 在BiLSTM 的基礎(chǔ)上簡化門控循環(huán)單元,同時參數(shù)量有所下降,因此BiGRU 模塊訓(xùn)練效率優(yōu)于BiLSTM。模型MSC(w/o BiBSASRU)整體平均訓(xùn)練時長較MSC(w/o BiSRU)增加2.2 s,由于BiBSASRU 在BiSRU 模塊的基礎(chǔ)上內(nèi)置自注意力機制,因此會引入額外的運算量,導(dǎo)致訓(xùn)練時長方面也有所增加,但幅度較小。
針對英文作文自動評分任務(wù),本文提出基于多尺度上下文的英文作文自動評分模型MSC。XLNet提取原始作文的符合上下文語境的單詞和句嵌入,由多尺度上下文網(wǎng)絡(luò)通過結(jié)合內(nèi)置自注意力簡單循環(huán)單元與全局注意力機制,全面捕捉單詞、短語和句子級別的高維作文潛在語義,計算每個句子與提示語得到主題層次特征,更好地表征作文扣題度。實驗結(jié)果表明,該方法在公開英文作文數(shù)據(jù)集ASAP上得到了80.50%的平均QWK 值,高于實驗對比的優(yōu)秀深度學(xué)習(xí)模型,能夠有效捕獲不同層次的上下文語義關(guān)聯(lián)特征,并通過消融實驗驗證各個模塊的有效性。后續(xù)將考慮高效地引入淺層特征,進(jìn)一步提升作文評分性能。此外,由于本文數(shù)據(jù)集為英文,因此開展針對中文作文進(jìn)行自動評分研究也是本文重點研究方向。