周險兵,樊小超,2,任 鴿,楊 勇*
(1.新疆師范大學(xué)計算機科學(xué)技術(shù)學(xué)院,烏魯木齊 830054;2.大連理工大學(xué)計算機科學(xué)與技術(shù)學(xué)院,遼寧大連 116024)
作文自動評分(Automated Essay Scoring,AES)是利用語言學(xué)、統(tǒng)計學(xué)及自然語言處理技術(shù)對書面作文進行自動評估和評分的技術(shù),常用于大型考試當中[1]。AES自1966年提出以來,已成功地應(yīng)用于美國教育考試服務(wù)中心(Educational Testing Service,ETS)、中國大學(xué)生英語等級考試(College English Test,CET)等大型作文考試中,對作文評分起到了較好的輔助作用。此外,AES的評分及反饋信息能夠幫助教師對學(xué)生的寫作提出有益的修改意見,從而改進教學(xué)方法,提高教學(xué)質(zhì)量。作文自動評分能夠避免主觀因素對作文評分的影響,大大減輕閱卷老師的工作量,隨著自然語言處理技術(shù)的快速發(fā)展,AES不僅節(jié)約了人力物力成本,同時還大幅提高了作文評分的公平性和準確性??傊珹ES在計算機輔助閱卷、計算機輔助教育等領(lǐng)域都有著廣泛的應(yīng)用前景。
早期的作文自動評分方法通過構(gòu)建能夠反映作文特點的淺層特征[2-3],例如詞匯、語法、句法和篇章結(jié)構(gòu)特征,然后采用機器學(xué)習(xí)的方式進行特征挖掘,間接地評估作文的分數(shù)。該類基于特征工程的傳統(tǒng)機器學(xué)習(xí)方法,忽略了文本的潛在語義特征,沒有從語義層次真正地理解作文,因此該類方法無法取得令人滿意的成績。此外,該類方法也無法避免在特征構(gòu)建過程中耗時耗力、泛化能力較弱的固有缺陷。近期,基于深度學(xué)習(xí)的神經(jīng)網(wǎng)絡(luò)方法在作文評分任務(wù)中取得較好的性能[4-5]。深度學(xué)習(xí)方法以大規(guī)模語料訓(xùn)練得到的詞嵌入表示為基礎(chǔ),采用神經(jīng)網(wǎng)絡(luò)進行特征的抽取、交叉和融合,能夠從更深層次上提取作文的高維潛在語義特征。但是,作文評分是一項復(fù)雜的人類行為,需要從不同層面對作文進行綜合的評價,顯然單一的神經(jīng)網(wǎng)絡(luò)模型難以全面地捕獲作文的語義特征,因此深度學(xué)習(xí)模型的性能往往受到了一定的限制。許多研究表明,聯(lián)合淺層語義特征和深度語義特征的混合模型[6-7]能夠有效地提升作文自動評分的性能。
為了減少上文中提到的問題對作文評分性能的影響,本文提出了基于多層次語義特征的神經(jīng)網(wǎng)絡(luò)模型(neural network model based on Multi-Level Semantic Features,MLSN)對作文自動進行評分。作文的語義內(nèi)容表達對作文的評分至關(guān)重要,本文根據(jù)不同網(wǎng)絡(luò)結(jié)構(gòu)的特點,分別采用卷積神經(jīng)網(wǎng)絡(luò)(Convolutional Neural Network,CNN)和長短期記憶網(wǎng)絡(luò)(Long Short-Term Memory,LSTM)提取作文的局部語義特征和全局語義特征。作文的主題是否扣題是作為評分不可忽視的重要因素,本文采用篇章級的嵌入表示從主題層次對作文的主題特征進行表征。此外,作文的語法錯誤、語言表達的豐富程度也與評分息息相關(guān),本文采用少量人工特征從淺層對作文的語言學(xué)特征進行表征。綜上所述,MLSN基于作文的局部語義特征、全局語義特征、主題層特征和淺層語言學(xué)特征對作文進行自動評分,實驗結(jié)果表明,文本方法能夠有效提高評分性能。本文的主要工作如下:
1)針對作文的局部和全局語義內(nèi)容表達,分別采用卷積神經(jīng)網(wǎng)絡(luò)和注意力機制(Attention)提取作文的局部語義特征,采用卷積神經(jīng)網(wǎng)絡(luò)和長短期記憶網(wǎng)絡(luò)和注意力機制的混合神經(jīng)網(wǎng)絡(luò)提取作文的全局語義特征,同時采用降維后的特征融合局部語義特征和全局語義特征,從而提升模型性能。
2)針對應(yīng)試作文存在特定主題的特點,采用Doc2Vec獲取目標作文的向量表示和作文提示語的向量表示并計算其語義相似度,從而從主題層次獲取了作文主題特征,融入模型實現(xiàn)性能的進一步提升。
3)針對豐富的語言表達往往使作文得分更高的特點,本文設(shè)計并實現(xiàn)了少量人工特征,分別從詞級和句子級獲取作文的淺層語義特征,進一步提升模型性能。在Kaggle ASAP競賽公開數(shù)據(jù)集的8個子集的實驗結(jié)果表明,本文提出的多層次語義融合的作文評分模型能夠有效提升作文自動評分性能。
作文自動評分是教育研究領(lǐng)域的重要輔助工具,國內(nèi)外已經(jīng)有了許多研究成果。對于AES的研究,根據(jù)使用方法的不同,本章將從基于特征工程的機器學(xué)習(xí)方法、基于深度學(xué)習(xí)的方法和基于混合模型的方法三個方面對前人的工作進行梳理。
基于特征工程的機器學(xué)習(xí)方法根據(jù)作文評分的語法句法規(guī)則,構(gòu)造人工特征,并采用邏輯回歸(Logistic Regression,LR)、支持向量機(Support Vector Machine,SVM)等傳統(tǒng)機器學(xué)習(xí)方法對作文評分。國內(nèi),梁茂成等[8]最早提出了AES的建模方法,并利用語法錯誤、句法信息等特征,采用線性回歸方法對作文進行評分。彭星源等[9]對傳統(tǒng)的詞匯特征進行了改進并對中文論文進行了自動評分。劉明楊等[10]提取了作文文采方面的特征并取得了較好的性能。周明等[11]從詞匯、句法和結(jié)構(gòu)三個層次提取作文特征,并構(gòu)建了基于線性回歸的篇章結(jié)構(gòu)自動評分模型。余立清[12]通過多種人工特征構(gòu)建了作文自動評分系統(tǒng)。國外,PEG(Project Essay Grade)[13]是最早的自動評分系統(tǒng)之一,它通過寫作結(jié)構(gòu)特征等淺層語義特征對作文進行評分。Chen等[3]從內(nèi)容、組織和結(jié)構(gòu)三個方面構(gòu)建了特征并采用排序信息的方法對作文評分。Zupanc等[14]提出了作文一致性和連貫性兩種語義特征來評估作文的內(nèi)容。Pramukantoro等[15]提出了一種基于無監(jiān)督的作文自動評分方法。
近年來,基于神經(jīng)網(wǎng)絡(luò)的深度學(xué)習(xí)方法在AES領(lǐng)域取得了許多研究成果。付瑞吉等[16]采用了混合神經(jīng)網(wǎng)絡(luò)模型對作文中的優(yōu)美句進行識別。黃凱[17]利用卷積神經(jīng)網(wǎng)絡(luò)獲取句子優(yōu)美性特征并融合主題特征對作文評分。Taghipour等[4]采用了CNN、LSTM等神經(jīng)網(wǎng)絡(luò)的方法自動提取作文特征。Alikaniotis等[5]采用兩層的雙向長短期記憶(Bidirectional Long Short-Term Memory,Bi-LSTM)網(wǎng)絡(luò)對作文進行自動評分。Dong等[18]采用分層卷積神經(jīng)網(wǎng)絡(luò)模型,從句子結(jié)構(gòu)和篇章結(jié)構(gòu)兩個層次自動學(xué)習(xí)特征并對作文評分。在他的另一篇文章[19]中,采用了LSTM和CNN,并引入了注意力機制。Jin等[20]提出了兩階段的神經(jīng)網(wǎng)絡(luò)模型,其在處理主題無關(guān)的作文自動評分任務(wù)時取得較好效果。Tay等[21]提出的SkipFlow神經(jīng)網(wǎng)絡(luò)模型能夠更好地對長文本的語義聯(lián)系進行建模。Rodriguez等[22]將BERT(Bidirectional Encoder Representation from Transformers)和XLNet模型應(yīng)用于作文自動評分領(lǐng)域并取得了較好的性能。
許多研究表明,聯(lián)合使用神經(jīng)網(wǎng)絡(luò)模型和人工特征能夠有效地提高作文自動評分的性能。劉浩坤[23]提出了扣題度等特征,并融合了基于詞嵌入表示的語義特征,提出了一種基于詞嵌入表示的多模型融合方法進行自動作文評分。崔建鵬[24]采用了圖神經(jīng)網(wǎng)絡(luò)模型并將語句通順度、文本匹配度融合到神經(jīng)網(wǎng)絡(luò)中提取作文特征。Cozma等[6]將字符級的n-gram特征和詞嵌入表示特征相融合提取語義特征,在ASAP數(shù)據(jù)集上取得了較好性能。Liu等[25]提出了一種兩階段模型TSLF(Two-Stage Learning Framework),通過神經(jīng)網(wǎng)絡(luò)模型提取作文的語義特征、流暢性特征和相關(guān)性特征,融合人工特征后自動對作文評分。Farag等[26]考慮了句子之間的連貫性特征并將其和深度學(xué)習(xí)模型相融合,進一步增強了神經(jīng)網(wǎng)絡(luò)模型作文評分的性能。
前人的許多研究表明,基于特征工程的淺層特征和深度學(xué)習(xí)的潛在語義特征都能夠有效提高作文自動評分的性能。然而大多數(shù)前人采用的深度學(xué)習(xí)方法都只使用單一的網(wǎng)絡(luò)結(jié)構(gòu),并沒有利用不同的網(wǎng)絡(luò)結(jié)構(gòu)從不同維度進行語義特征的提取。同時,由于作文評分的復(fù)雜性,部分特征可能無法通過深度學(xué)習(xí)獲取,所以仍然需要人工構(gòu)造并融入模型當中。因此,本文結(jié)合作文寫作的語言學(xué)特征,從多維語義的角度出發(fā),提出了基于多層次語義特征的英文作文自動評分方法,實驗結(jié)果表明,該模型能夠有效提高作文自動評分性能。
本章將介紹本文提出的多層次語義特征的神經(jīng)網(wǎng)絡(luò)模型(MLSN)的框架結(jié)構(gòu)。基于多層次語義特征的神經(jīng)網(wǎng)絡(luò)自動評分方法能夠從深層語義特征、主題層語義特征和淺層語義特征對作文進行評估,從而提升了英文作文評分的性能。
如圖1所示,基于多層次語義特征的英文作文自動評分方法主要從三個層次提取作文的特征用于自動評分。首先,采用卷積神經(jīng)網(wǎng)絡(luò)提取作文的局部語義特征,然后聯(lián)合使用卷積神經(jīng)網(wǎng)絡(luò)和長短期記憶網(wǎng)絡(luò)提取作文的時序特征,從而從深層次獲取了作文的潛在語義特征。其次,采用預(yù)訓(xùn)練模型Doc2Vec將目標作文和作文提示語信息進行映射,得到低維的嵌入式表示,通過計算二者的語義相似度獲取目標作文和作文提示語的主題相關(guān)性,從而從主題層次提取了目標作文的語義特征。再次,人工構(gòu)建了少量詞級和句子級特征,從語法錯誤和語言表達的豐富性方面對作文進行評估,從而從較淺層次提取了作文的語言學(xué)特征。最后,將三部分語義特征,融合得到作文的最終表示并進行作文自動評分。接下來將詳細介紹本文提出的MLSN各個部分的具體實現(xiàn)。
圖1 多層次語義特征的神經(jīng)網(wǎng)絡(luò)模型結(jié)構(gòu)Fig.1 Structure of neural network model based on multi-level semantic features
作文的語義內(nèi)容及其表達效果對作文的評分起著主要作用[27]?;谔卣鞴こ痰膫鹘y(tǒng)機器學(xué)習(xí)方法通?;谠~袋模型,無法有效地表示作文的語義內(nèi)容信息。詞嵌入表示通過大規(guī)模語料訓(xùn)練而來,包含豐富的語義信息,使得神經(jīng)網(wǎng)絡(luò)模型能夠獲取文本結(jié)構(gòu)和潛在語義特征,從而使得模型能夠更深層次地理解作文[24]。
深度語義特征提取部分包括兩個模塊,局部語義特征提取和全局語義特征提取。接下來分別對兩個模塊進行介紹。
2.1.1 局部語義特征提取模塊
詞匯在英文作文寫作中起著重要的作用,詞匯的語義信息在很大程度上影響著作文的評分[28]。不難看出,對于作文的局部信息的提取對作文的評分起著顯著的作用。CNN能夠較好地提取文本的局部信息,因此本文采用CNN提取作文的局部語義特征。
1)詞嵌入表示層。該層將單詞映射到低維特征空間,得到單詞的低維稠密向量,同時保持了單詞的語義信息。設(shè)作文的嵌入表示D={x1,x2,…,xN},xi∈Rd,xi為詞嵌入表示,d為詞向量維度。
2)卷積層。該層通過利用一個窗口大小為h的卷積核提取作文文本的局部語義信息。卷積得到的局部語義信息通過激活函數(shù)得到最終的文本語義表示,其計算公式如下:
其中:ci為輸出的特征向量,tanh為非線性激活函數(shù),W為參數(shù),xi:i+h-1為輸入向量x中第i到i+h-1列,b為偏置項。
3)注意力池化層。注意力機制可以自動地分配各個詞所占的權(quán)重。其計算公式如下:
其中:Wu和Wm為參數(shù)矩陣,ui為注意力權(quán)重,s為語義表示。
4)全連接層。該層能夠?qū)⒔?jīng)過池化層的作文特征向量進行整合,獲取高維語義特征。其計算公式如下:
其中:W為參數(shù),b為偏置項,即Sl為局部語義特征表示。
2.1.2 全局語義提取模塊
語義的連貫性及上下文的整體表達效果是影響作文質(zhì)量的重要因素[23]。顯然,更好地提取作文的上下文信息及關(guān)聯(lián)信息有助于提高作文的評分性能。LSTM能夠較好地提取文本的時序信息,更好地保持文本的長期依賴關(guān)系。因此,本文采用CNN和LSTM的混合神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)提取作文的全局信息。
1)詞嵌入表示層。該層和局部語義提取模塊共享詞嵌入表示層。
2)卷積層。為了更好地提取長文本的全局語義特征,先通過卷積層獲取作文的語義信息,將其作為下一層神經(jīng)網(wǎng)絡(luò)的輸入。
3)長短期記憶(LSTM)網(wǎng)絡(luò)。為了緩解RNN的梯度爆炸、梯度消失及長期依賴等問題,Hochreiter等[29]提出了長短期記憶網(wǎng)絡(luò)(LSTM)。針對作文的自動評分,許多研究表明,相對于雙向長短期記憶網(wǎng)絡(luò),單向的LSTM具有更好的性能[4]。LSTM利用輸入門、輸出門和遺忘門控制信息序列的狀態(tài)更新,其計算公式如下:
其中:x't為t時刻的輸入向量,ht為輸出向量,W{i,f,c,o},U{i,f,c,o}為權(quán)重矩陣,b{i,f,c,o}為偏置項。符號°表示矩陣乘法,σ表示sigmoid函數(shù)。
為了進一步壓縮參數(shù),整合作文的特征向量,在LSTM層之后,使用了注意力池化層和全連層,最終得到全局語義特征Sg。
主題作文是一種根據(jù)材料和提示語所提供的思考范圍和方向,要求作者圍繞主題進行寫作的作文命題形式。在閱卷過程中,判斷作文是否符合主題是作文評分的重要標準之一[17]。因此,提取作文的主題特征以及更好地衡量作文主題與作文提示語之間的語義相關(guān)性將會直接影響作文自動評分的性能。
傳統(tǒng)的主題特征主要采用詞共現(xiàn)和LDA(Latent Dirichlet Allocation)主題模型等方法提取,該類方法往往只是獲取了作文主題的統(tǒng)計學(xué)特征,無法從語義層次獲取作文和提示語的主題的深層語義相關(guān)性。Doc2Vec模型由Le等[30]提出,是一種非監(jiān)督算法,能從變長的文本,如句子、段落和文檔,學(xué)習(xí)得到固定長度的特征表示。Doc2Vec模型能夠使用單個低維稠密向量表示整個文檔,其結(jié)構(gòu)潛在地克服了傳統(tǒng)方法的缺點。因此,本文采用Doc2Vec獲取作文和作文提示語的文檔向量并用于計算二者的語義相似度。
本文采用Doc2Vec預(yù)訓(xùn)練模型分別獲取作文的向量表示E=(e1,e2,…,eM)和作文提示語的向量表示P=(p1,p2,…,pM),然后,采用余弦相似度來衡量二者之間的語義相似程度以獲取主題層次的語義特征St。計算公式如下:
作文評分是一種復(fù)雜的人類行為,使用深度學(xué)習(xí)模型需要大量的、高質(zhì)量的、不同類型的已評分作文作為訓(xùn)練數(shù)據(jù),而目前的數(shù)據(jù)集規(guī)模有限,從而使得深度學(xué)習(xí)的性能受到了一定的制約。此外,深度學(xué)習(xí)模型能夠較好地從語義層面獲取作文的特征,但是對于語法錯誤、用詞的豐富程度等特征卻難以挖掘,而這些特征已經(jīng)被證明在作文評分中至關(guān)重要[25]。顯然,人工特征和深度學(xué)習(xí)的結(jié)合能夠有效地提高作文自動評分的性能[24-26]。
選取合適的人工特征對作文評分的性能有較大影響。過多的人工特征耗時耗力,且可能造成冗余,從而降低模型的整體性能;而過少的人工特征可能無法成為深度學(xué)習(xí)模型提取特征的有益的補充,從而使得系統(tǒng)的整體性能提升有限。本文主要選取了深度學(xué)習(xí)模型難以挖掘的語法錯誤特征,并且選取了能夠從字符級、詞級和句子級反映作文語義豐富程度的人工特征。具體人工特征如下:
1)語法錯誤。拼寫錯誤、冠詞誤用、單復(fù)數(shù)誤用等語法錯誤的數(shù)量。
2)作文長度。單詞的數(shù)量以及包含字符的數(shù)量。
3)語義復(fù)雜程度。單詞長度的均值和方差。
4)單詞復(fù)雜程度。字符長度大于6的單詞數(shù)量。5)句子的復(fù)雜程度。句子長度的均值和方差。
6)從句的數(shù)量。作文中包含從句的個數(shù)。
本文設(shè)計并實現(xiàn)了以上六類9個人工特征作為淺層語義特征反映作文的質(zhì)量。淺層語義特征可表示為Ss={s1,s2,…,s9}。
綜上所述,本文提出的MLSN模型提取了局部和全局的深層次語義特征、主題層次語義特征和淺層語義特征,融合多層次的語義特征,并將其作為全連接層的輸入,最后通過Sigmoid激活函數(shù)產(chǎn)生作為得分的輸出。其計算公式如下:
其中:W為參數(shù)矩陣,b為偏置項,σ表示Sigmoid函數(shù),Score為預(yù)測的作文分數(shù)。
模型基于反向傳播算法并采用端到端的方式進行訓(xùn)練,本文采用了均方誤差(Mean Square Error,MSE)作為損失函數(shù)。
本章首先介紹數(shù)據(jù)集和評估方法,然后對實驗配置進行說明,詳細對比本文提出模型和基線模型的性能,最后通過消融實驗檢驗MLSN各個模塊的性能。
本文使用了Kaggle ASAP(Automated Student Assessment Prize)競賽公開的數(shù)據(jù)集,該數(shù)據(jù)集在作文自動評分領(lǐng)域被廣泛使用。ASAP包含的作文全部由7~10年級的學(xué)生寫作完成,根據(jù)作文主題內(nèi)容的不同,數(shù)據(jù)集被劃分為8個子集,每個子集中包含一個作文提示語文檔,包含多篇相關(guān)主題作文。數(shù)據(jù)集的詳情如表1所示。
表1 ASAP數(shù)據(jù)集信息Tab.1 ASAPdataset information
為了和競賽與基線方法保持一致,本文采用了二次加權(quán)的卡帕值(Quadratic Weighted Kappa,QWK)作為評價指標。QWK是一種一致性檢驗方法,用于評估模型的結(jié)果與實際結(jié)果是否具有一致性。設(shè)作文的評分可以劃分為N個等級,則QWK的計算公式如下:
其中:O為一個n階直方圖矩陣,Oi,j表示專家評分為i且模型評分為j的作文數(shù)量,W表示基于專家評分和模型評分的差異的二次加權(quán)矩陣,Ei,j表示專家評分為i且模型評分為j的概率的乘積,其中需要對Ei,j和Oi,j進行歸一化處理。
Kaggle ASAP競賽的測試集尚未公開,與參考文獻[4,18-19]相似,本文在實驗中采用了5折交叉驗證的方式評估本文提出的模型。每一折的訓(xùn)練數(shù)據(jù)占比60%,驗證集占比20%,測試集占比20%。
在訓(xùn)練過程中,采用了Word2Vec詞向量,對于未登錄詞,采用隨機初始化。優(yōu)化函數(shù)為RMSProp,衰減率設(shè)置為0.9,學(xué)習(xí)率設(shè)置為0.0002。為了防止過度擬合,在訓(xùn)練過程中使用了早停機制。其他參數(shù)如表2所示。
表2 MLSN參數(shù)設(shè)置Tab.2 MLSN parameter setting
為了驗證本文提出的基于多層次語義特征的作文自動評分方法的有效性,本文對比了以下基線方法:
CNN、LSTM[4]方法:單獨采用卷積神經(jīng)網(wǎng)絡(luò)或長短期記憶網(wǎng)絡(luò)提取作文特征,并對作文進行評分。
SkipFlow LSTM[10]:在LSTM網(wǎng)絡(luò)中加入了SkipFlow機制,該機制利用LSTM隱層之間的語義關(guān)系作為輔助特征進行作文評分。
CNN+LSTM[4]:利用集成學(xué)習(xí)方法,將10個CNN模型和10個LSTM模型的預(yù)測結(jié)果進行平均,并作為最終的預(yù)測結(jié)果。
BERT+XLNet[14]:利用集成學(xué)習(xí)的方法,將6個不同BERT模型和6個不同的XLNet模型的預(yù)測結(jié)果進行平均,并作為最終的預(yù)測結(jié)果。
CNN-LSTM-ATT[8]:將CNN提取的特征作為LSTM的輸入,兩個網(wǎng)絡(luò)中都加入了注意力層。
TSLF[25]:采用LSTM獲取語義特征、一致性特征,語義相關(guān)性特征,結(jié)合語法錯誤等特征,使用XGBoost對作文進行評分。
v-SVR[6]:采用字符串核方法獲取字符特征,并結(jié)合詞向量語義特征,使用v-SVM(v-Support Vector Regression)進行作文評分。
MLSN:本文提出的基于多層次語義特征的英語作文自動評分方法。
表3中列出了本文提出的基于多層次語義特征的神經(jīng)網(wǎng)絡(luò)模型和前人工作的對比,實驗結(jié)果表明:
1)采用端到端的形式訓(xùn)練單獨的CNN或LSTM網(wǎng)絡(luò)的性能較低,說明單獨的神經(jīng)網(wǎng)絡(luò)模型不能很好地提取較長文檔的語義特征并用于作文評分。LSTM在加入了SkipFlow機制對隱層之間的語義關(guān)系進行建模后,模型的性能有小幅度提升。與LSTM相比,僅在D1和D8子集上性能提升較明顯,而在其他子集上性能相當。
2)采用集成學(xué)習(xí)的方法能夠更好地利用神經(jīng)網(wǎng)絡(luò)提取的作文語義特征,在多個數(shù)據(jù)集上的性能強于單模型的性能,但是其提升幅度較小。BERT+XLNet的整體性能比LSTM略高1.15個百分點。說明簡單的融合策略并不能在多個強學(xué)習(xí)算法的集成過程中起到較好的作用。采用CNN和LSTM的混合模型同樣能夠提升作文評分的整體性能,但是僅僅從語義層次提取作文特征,對作文自動評分模型的性能幫助有限。
3)聯(lián)合使用神經(jīng)網(wǎng)絡(luò)模型和基于人工特征的傳統(tǒng)機器學(xué)習(xí)方法能夠有效地提升作文評分的性能。采用字符特征和語義特征的v-SVR模型相對于LSTM平均提升了3.91個百分點。實驗結(jié)果表明,人工特征是對語義特征的有益補充,能夠?qū)ψ魑脑u分模型起到較好的作用。
4)本文提出的MLSN在3個子集上取得了最佳的性能,在其他5個子集上和v-SVR可比,且MLSN在所有數(shù)據(jù)集的平均性能高于v-SVR。相較于LSTM,MLSN提升了4.54個百分點。MLSN能夠從深層次提取作文的語義特征,從主題層次提取作文的主題和提示語的相似度特征,從淺層提取語法錯誤和語言豐富程度等語言學(xué)特征,因此本文提出的模型具有較好的泛化性,且相較于基線模型整體性能最優(yōu)。
為了驗證不同層次語義特征對模型性能的影響,本文對比了不同層次語義特征的性能。我們使用CNN表示模型的局部語義部分;使用CLSTM(CNN-LSTM)表示全局語義部分。CNN+CLSTM表示僅使用局部和全局語義特征;CNN+CLSTM+HF表示同時使用局部、全局和淺層語義特征;MLSM則表示使用全部特征。
表4列出了不同層次語義特征對模型的影響,實驗結(jié)果表明:
表4 不同層次語義特征對模型性能的影響 單位:%Tab.4 Influenceof different levelsof semantic features on model performance unit:%
1)CNN+CLSTM的混合模型有助于提升作文評分模型的整體性能。相較于CNN,混合模型在8個子集上都有較顯著的性能提升,總體性能提升4.95個百分點;相較于LSTM,混合模型除了D6上略低,其他子集上均有較好的表現(xiàn),總體性能提升2.21個百分點。實驗結(jié)果表明,局部語義特征和全語義特征更好地對作文的特征進行表征,能夠有效地提高作文評分的性能。
2)淺層語義特征對模型的性能影響顯著。相較于僅使用深層語義特征的模型,加入了淺層語義特征后,模型性能提升了2.09個百分點。實驗結(jié)果表明,深度學(xué)習(xí)模型很難挖掘語法錯誤、語言豐富程度等語言學(xué)特征,該類人工特征是深度學(xué)習(xí)模型提取的語義特征的有益的補充,能夠顯著地提升作文評分模型的性能。
3)主題特征對模型的性能有一定影響。相較于深層和淺層語義特征,加入主題特征后,所有的8個子集上的作文評分性能都有一定提升,但是提升幅度較小,整體性能提升0.24個百分點。實驗結(jié)果表明,主題特征能夠提升作文評分模型的性能,但是目前的方法對模型的性能影響有限。
本文提出了基于多層次語義特征的方法對作文進行自動評分。針對作文語義內(nèi)容,本文分別采用CNN提取作文的局部語義特征,采用CNN+CLSTM的混合神經(jīng)網(wǎng)絡(luò)模型架構(gòu)提取作文的全局語義特征,從而獲取了作文的深層語義特征;針對應(yīng)試作文存在提示語的特點,本文采用Doc2Vec,將作文和作文提示語表示為向量形式并計算二者的語義相似度作為主題層次特征;針對深度學(xué)習(xí)模型難以挖掘的語法錯誤和語言豐富程度特征,本文構(gòu)造了少量人工特征,從淺層獲取作文的語言學(xué)特征;最后通過多層次的語義融合,對作文進行自動評分。在Kaggle ASAP競賽公開數(shù)據(jù)集的8個子集上的實驗結(jié)果表明,本文方法能夠有效地捕獲不同層次的語義特征,與基線方法相比,取得目前在該數(shù)據(jù)集上的最佳性能。
淺層語言學(xué)特征能夠有效地提升作文自動評分模型的性能,但是如何選擇與構(gòu)建淺層特征仍然是今后所要面臨的挑戰(zhàn)。此外,盡管本文提出的模型能夠有效提高英語作文的自動評分性能,但是中英文的表達在許多方面存在差異,如何對中文作文進行自動評分將是未來研究的重要方向之一。