陳宇航,楊 勇,帕力旦·吐爾遜
(新疆師范大學計算機科學技術學院,新疆 烏魯木齊 830054)
作文自動評分(Automatic Essay Scoring,AES)是一種依賴自然語言處理和機器學習技術自動評定學生作文質量的方法[1]。在很多考試中,作文寫作都占據了重要的地位。然而,由于考試人數眾多,采用人工方式進行閱卷費時費力。此外,盡管作文評分時提供了評分準則,但由于個人理解不同,而且評分過程中不可避免受到情緒、性格和偏見等主觀因素的影響,導致評分存在一定的主觀性,多個評分人的評分差異可能較大。AES 系統(tǒng)能夠快速高效地對大量作文進行自動評價,不僅顯著縮短了評分的時間、降低了成本,而且提高了作文評分的一致性、促進寫作技能提高和實現及時反饋[2]。
傳統(tǒng)的AES 系統(tǒng)通過提取作文中的語句結構[3]、拼寫[4]、n-gram[5]、內容一致性和連貫性[6],以及主題等特征[7],采用邏輯回歸[8]、支持向量機[9]、隨機森林[10],以及排序算法[11]等方法來進行評分。而基于神經網絡的方法可以自動學習作文的復雜表征,往往能帶來更好的評分效果[12-14]。然而,單一的神經網絡模型不能在多個維度獲取作文語義特征,其性能受到了限制。預訓練語言模型在自然語言處理任務中展現出優(yōu)秀的性能,但將其直接應用到作文自動評分領域,性能并不理想。究其原因,主要是因為作文通常為長文本,采用BERT等預訓練語言模型時可能會丟失關鍵語義特征。此外,預訓練語料與作文語料之間存在顯著的差異,這可能導致模型存在“偏見”,從而影響其性能[15]。
為了更好地提取作文不同維度的特征并對BERT 提取的深度語義特征進行增強,文章提出了一種創(chuàng)新的多維度特征增強的作文自動評分模型(Multi-Dimensional Feature Enhancement,MDFE)。MDFE 模型結合了多種神經網絡結構,旨在全面捕捉作文的豐富語義信息。首先,為了獲取作文中的局部單詞特征,MDFE模型采用了卷積神經網絡(CNN),通過卷積操作,模型能夠有效捕獲詞與詞之間的局部關聯(lián)信息,從而更好地理解作文中每個單詞的語義含義,增強作文局部特征的表達能力;其次,為了獲取作文的全局語義特征,MDFE 模型采用了長短期記憶網絡(LSTM),LSTM 是一種遞歸神經網絡,可以對文章進行序列建模,理解上下文信息,并提取全局的語義特征,通過LSTM,MDFE 能夠更好地捕捉作文整體的語義結構,加強對作文整體意思和脈絡的把握;為了解決長文本作文中的長距離依賴問題,MDFE 模型引入了自注意力機制,自注意力機制能夠計算單詞之間的互相影響,并獲取詞與詞之間的語義相關特征,有效捕捉長距離依賴關系,進一步增強作文語義特征的建模能力;為了更精準地提取作文的深層語義特征,MDFE模型采用了預訓練語言模型BERT 的深層語義信息作為作文特征表示。將BERT 的深層語義特征與多種神經網絡模型獲取的特征相融合,有助于全面挖掘作文的語義信息。文章的主要貢獻如下:
(1)針對作文在評分過程中需要從局部和全局等多種角度進行評價的特點,文章提出的模型MDFE采用多種神經網絡模型分別從局部語義特征、全局語義特征和單詞的語義相關特征等多種維度提取作文語義特征。
(2)針對BERT等預訓練語言模型語料在作文自動評分中存在“偏見”和長文中丟失關鍵信息問題,文章通過將多維度特征與BERT深層語義特征相融合以彌補BERT長文本處理的不足,同時減輕模型的偏見問題。
(3)提出的MDFE 模型在ASAP 數據集的8個子集上進行了實驗,實驗結果表明,MDFE 能夠有效地融合局部語義特征、全局語義特征、單詞的語義相關特征和深層語義特征,能夠有效提升長作文自動評分的性能,相比于基線模型,MDFE具有顯著的優(yōu)勢。
隨著人工智能技術的不斷成熟,作文自動評分成為一個備受關注的研究領域,吸引了學術界、教育界和產業(yè)界的廣泛關注。在作文自動評分領域,近年來神經網絡和預訓練語言模型已經取得了許多研究進展。
神經網絡模型通過對作文進行編碼,提取其語義特征,并根據這些特征來進行作文自動評分。DONG等提出句法特征、語法特征等手工特征能夠有效地提升神經網絡模型的性能,并具有更好的可解釋性[16]。TAFGIPOUR等采用CNN和LSTM進行作文自動評分,作者指出采用神經網絡方法自動提取特征的性能要顯著優(yōu)于手工設計特征的性能[12]。DONG等比較了RNN和CNN的優(yōu)勢,并提出使用CNN-LSTM的混合神經網絡的作文評分性能更好[17]。FARAG等在神經網絡模型訓練中引入了語義連貫性特征,并采用聯(lián)合學習的訓練方式[18]。周險兵等采用CNN、LSTM和手工特征進行作文自動評分,驗證了混合模型比單一模型的性能更好[1]。
預訓練語言模型能夠捕獲作文中的語義信息和句法信息,并且可以學習到作文中的關鍵詞、短語和句式等深層次的語義特征。RODRIGUZE 等首次將BERT 和XLNet 等大型預訓練模型應用于作文自動評分的任務[19]。MAYFIELD 等提出了微調BERT 的方法[20]。YANG 等提出了融合回歸和排序損失來微調BERT 模型[21]。然而,許多實驗表明,直接采用預訓練語言模型進行作文自動評分,其性能并不優(yōu)于傳統(tǒng)的神經網絡方法。針對該問題,WANG 等認為預訓練語言模型在預訓練階段處理的都是句子級文本,而作文評分需要在文檔級別微調模型,任務存在不一致性[22]。此外,作文數據集中的作文數量較少,無法通過微調獲得有效的多層次語義表征,且對于長文本,還存在信息丟失的問題。研究表明,將預訓練模型與深度神經網絡模型相結合后能夠有效地提升預訓練語言模型的性能。LIU等將BERT作為特征提取器,并與前饋神經網絡結合進行自動化作文評分[23]。于明誠等將預訓練模型以及一維卷積模塊分別捕捉句子短語單詞、句子等語義特征,并將主題特征融入進行進一步學習和預測分數[24]。LEE 等通過在BERT 編碼層之上添加雙向LSTM,建模作文的長距離依賴關系,對作文進行自動評分[25]。實驗結果表明,從不同維度提取特征能夠有效提升作文自動評分的性能。
文章提出的多維度特征增強的作文自動評分模型MDFE如圖1所示。MDFE分為兩個模塊,基于神經網絡的特征提取模塊和基于預訓練的特征提取模塊。基于神經網絡的特征提取模塊包括基于CNN 獲取局部語義特征模塊、基于LSTM 的獲取全局語義特征模塊、基于Self-Attention 獲取單詞的語義相關特征模塊。首先為了獲取作文文本不同維度的特征,使用CNN、LSTM 和Self-Attention 分別提取作文文本局部語義特征、全局語義特征和單詞的語義相關特征。其次,為了更好地利用BERT不同層次提取的不同維度特征,將作文作為BERT 模型的輸入,獲取最后一層的輸出作為深層語義特征;然后,為了緩解長文本信息丟失的問題,MDFE 在每個模塊中采用注意力機制提取文本的淺層語義特征作為作文語義特征的增強;最后將上述四種特征融合,進行作文自動評分。
圖1 多維度特征增強的作文自動評分方法模型MDFE
在局部語義提取、全局語義提取和單詞的語義相關提取三個模塊中,設輸入文本的嵌入表示D ={x1,x2,…,xN},xi∈?d,xi為詞嵌入表示,d為詞向量維度。
2.1.1 CNN層
詞匯知識是寫作的一個關鍵因素,因為單詞詞匯量可以提高寫作表現,尤其是提高寫作的精確性和表達能力[26]。顯然,較好地提取作文的局部語義特征能夠提高評分性能。因此文章采用CNN捕捉作文的局部語義特征。CNN計算公式如下:
其中W為權重,xi:i+m-1為輸入文本xi中第i到i+m-1列,b為偏置。
2.1.2 LSTM層
作文質量的評價受到語義連貫性和上下文整體表達效果的重要影響[1]。LSTM 能夠較好地捕捉文本的時序信息和保持文本的長期依賴關系。為了更好地提取語義連貫信息和上下文信息,采用LSTM 來提取作文文本的全局語義特征。LSTM的計算公式如下:
其中x't為t時刻的輸入向量,ht為輸出向量,W{i,f,c,o},U{i,f,c,o}為權重矩陣,b{i,f,c,o}為偏置項,符號°表示矩陣乘法。
2.1.3 自注意力層
使用自注意力機制的目的是讓模型在處理序列數據時能夠準確捕捉到每個位置與其他位置之間的語義關系,從而實現對整個文本的全局理解和把握。該方法可以使每個詞都能夠關注到整篇文本的語義信息,并通過一定的權重分配來確定詞語在模型中的重要性。
其中,xi為詞嵌入表示,WQuery、WKey、WValue為權重矩陣。
2.1.4 池化層
SHEN 等[27]指出同時使用最大池化和平均池化來融合特征的性能明顯優(yōu)于單一池化策略。此外,為了緩解長文本信息丟失的問題,在該模塊中引入注意力機制。因此,本文使用雙池化操作,并且在模塊中加入注意力機制,其計算公式如下:
其中,xi為詞嵌入表示,Pmax,Pavg為各個池化層的特征向量,Patt為注意力機制提取的特征,Concat為拼接函數。
BERT 采用了深層雙向Transformer架構,并使用自注意力機制和位置編碼技術,提高了模型對長距離語義依存信息的學習能力,并加強了對局部和全局特征的捕捉能力。同時,BERT采用基于上下文的詞向量表示,有效地解決了一詞多義的問題,并通過緩解數據集規(guī)模有限所帶來的欠擬合問題,提高了模型的泛化能力。因此,采用BERT模型對作文進行編碼。
前人的研究表明,BERT 不同層次能夠捕獲不同維度的語義[28]。具體而言,BERT 的低層能夠提取短語級別淺層語義信息,中間層能夠捕獲句法特征,而高層能夠捕獲深層次的語義特征。文章采用BERT的高層的深層語義特征進行作文自動評分。
其中,X表示作文文本,BERT_?(·)表示BERT的高層文本的隱藏表示。
為了更好地獲取BERT的高層的深層語義特征,文章沿用了平均池化和最大池化的策略,并采用全連接層進行降維。
綜上所述,提出的MDFE 模型采用CNN 提取局部語義特征、采用LSTM 提取全局語義特征、采用自注意力機制提取單詞的語義相關特征、采用BERT提取深層語義特征。最終將不同維度的語義特征進行融合,采用Sigmoid函數獲得作文的評分。具體而言,評分的計算公式如下:
其中,W1和W2表示權重矩陣,b表示偏置,Score為預測的作文分數,Sc為CNN 層的語義表示,Sl為LSTM 層的語義表示,Ss為自注意力層的語義表示,St為預訓練提取的語義表示。
使用均方誤差損失函數來訓練模型。
其中,k為樣本數,y為真實值為預測值。
ASAP數據集來自Kaggle 競賽,其中包含8 個不同類型的論文提示,包括議論文、回應論文和敘事論文。每篇作文均由專業(yè)教師進行評分。表1 提供了該數據集的部分統(tǒng)計信息。該數據集中的文本長度不一,D3-D6 子集相對較短,而其他子集的文本長度則較長。值得注意的是,D8 子集的文本長度最長。文章使用QWK在ASAP數據集上評估評分性能,這是ASAP競賽中的官方度量。
表1 ASAP數據集信息
由于比賽測試集沒有發(fā)布,為了和前人的工作保持一致,文章采用了5 折交叉驗證,每一折按照6:2:2隨機分為訓練集、驗證集和測試集。在訓練過程中,CNN層的結構和參數如下:卷積核大小為5,過濾器數量為300,填充方式為‘same’,激活函數為RELU。LSTM層和自注意力層的輸出維度為300.以上的神經網絡模型的輸入為隨機初始化的詞向量,維度為50.BERT 采用bert-base-uncased,其隱狀態(tài)向量的維度為768,多頭自注意力頭數為12,編碼器層數為12,在本模型中只使用了第12 層,并凍結了其余11 層。Dense Layer 層使用兩個輸出維度分別為200 和300,激活函數為RELU 的全連接層。FNN Layer 層使用輸出維度為100,激活函數為swish 的全連接層,分別在全連接層前后加入了概率為0.2 和0.1 的Dropout. batch-size 設置為16,epochs設置為20,優(yōu)化函數為Nadam,學習率設置為0.01,損失函數為MSE.
為了驗證文章提出的多維度特征增強的作文自動評分模型MDFE的有效性,文章對比了以下基線方法:
CNN、LSTM[12]方法:分別采用CNN和LSTM對作文進行評分;
CNN+LSTM+ATT[17]:比較了RNN和CNN的優(yōu)勢,并提出使用CNN-LSTM的雙層神經網絡對作文評測。
BERT2[21]:結合回歸和排名來微調BERT 模型;
BERT+XLNet[19]:將多個BERT和XLNet的預測結果進行平均并作為最終作文的預測分數;
BERT+SST+DAT[29]:提出了一種領域自適應的框架,通過引入自監(jiān)督任務來提取不同領域之間的共享知識,從而改善了自動化作文評分模型的適應性;
Tran-BERT-MS-ML-R[22]:利用多尺度來表示論文,同時還從使用多重損失和遷移學習來進一步提升性能;
MDFE:文章提出的多維度特征增強的作文自動評分模型。
表2列出了多維度特征增強的作文自動評分模型和前人工作的對比實驗結果表明:
表2 與基線方法的性能對比(*表示直接引用原文結果)
(1)CNN 能夠提取作文的局部語義特征,LSTM 能夠捕捉長期依賴關系,但單一的神經網絡模型并不能準確地理解作文語義內容,性能較低。相對而言,混合的神經網絡CNN+LSTM+ATT 性能提升顯著。這說明混合的神經網絡模型能夠更好地對作文語義內容進行表征,不同模型的語義能夠相互補充從而更好地對作文進行評分。
(2)BERT 模型的性能優(yōu)于傳統(tǒng)神經網絡方法。BERT 通過雙向建模上下文信息,能夠更好地理解和捕捉作文中的語義和語境信息。然而,采用多種預訓練語言模型的混合模型并沒有顯著提升性能,甚至BERT+XLNet 模型性能下降較多?;旌隙喾N預訓練語言模型會引入更多的參數和復雜性,可能導致模型龐大和冗余,甚至模型之間可能產生沖突和干擾,從而導致性能不佳。此外,預訓練樣本和作文數據集樣本之間存在較大差異,這使得學習過程中可能存在偏見,也是性能不佳的重要原因之一。
(3)文章提出MDEF 模型在D4、D5 和D6 三個短文本作文數據集中性能與基線模型性能可比,在其他的5 個子集上取得了最佳性能,尤其是在所有長文本數據集上取得了最佳性能??傮w而言,MDFE 模型在所有8個子集上的平均性能最佳。實驗結果表明,相比于基線模型,MDFE模型具有較好的泛化性能,能夠更好地提取長文本作文的局部語義特征、全局語義特征、單詞的語義相關特征、句法和深層語義特征。此外,MDFE模型有效結合了CNN、LSTM 和自注意力機制,能夠更好地從作文數據集本身學習語義特征,從而緩解了預訓練模型和下游任務之間差異導致的性能下降問題。
為了探究不同特征提取模塊對模型整體性能的影響,進行了消融實驗。CNN&BERT、LSTM&BERT、Self&BERT、CNN&LSTM&BERT、CNN&Self&BERT和LSTM&Self&BERT分別表示不同網絡模型之間的組合。
表3 展示了MDFE 模型及其他模塊的性能對比。研究結果表明:首先,單一的預訓練模型較低,將預訓練模型與其他神經網絡模型相結合的混合模型性能提升顯著,表明神經網絡模型提取的語義特征對預訓練模型提取的特征在整體性能上有一定加強效果。其次,CNN&Self&BERT 相比其他混合模型,性能小幅度下降0.58%,雖然不同模型之間提取的作文側重點不同,可以相互融合,但不同的模型之間可能產生沖突和干擾,從而導致性能下降,因此模型之間的有效融合是提升模型性能的關鍵因素之一。最后,MDFE 模型在所有的較長文本的作文數據上均性能較優(yōu),其中D8 數據集平均長度最長,模型的性能提升1.38%,提升顯著。在所有混合模型中,平均性能最佳,這是因為MDFE 不但能夠從不同角度提取作文語義特征,并且能夠從更廣泛的上下文中學習作文的多維度的語義特征,采用有效的融合機制后,能夠解決不同模型之間的沖突和干擾,顯著提升作文自動評分性能。實驗結果表明,不同的網絡模型雖然在語義提取能力方面存在差異,但所提取的作文語義可以相互補充,使用多維度特征增強的方式能夠有效提升AES性能。
表3 不同結構網絡及其組合對模型性能的影響
文章圍繞現有的自動作文評分模型在理解多維度特征和處理長文本信息時存在的問題,提出了一種多維度特征增強的作文自動評分方法MDFE。MDFE模型利用CNN提取文本的局部語義特征、利用LSTM提取文本的全局語義特征、利用Self-Attention 提取作文的單詞的語義相關特征、利用BERT提取作文的深層語義特征。在公開的作文評分數據集ASAP 上的實驗結果表明,文章提出的MDFE 模型能夠更有效地學習上述四種特征。相比于最近的基線模型,MDFE表現出更強的性能。
當前的自動評分任務主要針對英文文本,但是隨著全球化的發(fā)展,跨語言自動評分也將變得越來越重要。因此,需要開發(fā)跨語言自動評分系統(tǒng)。此外,在作文自動評分過程中,給出具體的建議從而提升作文寫作水平也是未來需要進一步研究的方向。