呂欣,程雨夏
(1.杭州電子科技大學(xué)外國語學(xué)院,浙江杭州310018;2.杭州電子科技大學(xué)計(jì)算機(jī)學(xué)院,浙江杭州310018)
英語作文能夠體現(xiàn)學(xué)生的寫作、思維和分析能力,是平時(shí)測試訓(xùn)練、中考、高考、四六級(jí)、托福、雅思等[1-3]各類英語考試中必不可少的重要考核內(nèi)容。目前,對(duì)作文的評(píng)價(jià)大多由人工完成[4],需要花費(fèi)大量教師較長的時(shí)間。由于教師每天需要評(píng)閱很多份試卷,容易產(chǎn)生視覺疲勞;閱卷老師的主觀偏好、身體疲勞程度、心情好壞等也會(huì)干擾評(píng)閱結(jié)果[5]。因此,作文評(píng)價(jià)具有一定的主觀性,在公平和公正性上難以一而慣制。
近年來,隨著大數(shù)據(jù)、自然語言處理、深度學(xué)習(xí)技術(shù)的迅猛發(fā)展,計(jì)算機(jī)在理解人類語言方面也取得了一些突破性進(jìn)展,例如機(jī)器翻譯,文本摘要等[6]。因此,有必要將計(jì)算機(jī)技術(shù)與語言學(xué)有機(jī)結(jié)合,研發(fā)一套性能優(yōu)異的自動(dòng)評(píng)分系統(tǒng),在保證評(píng)分客觀性的同時(shí),大大降低人工評(píng)閱工作量,節(jié)約人力和物力資源。
作文自動(dòng)評(píng)分主要借助統(tǒng)計(jì)學(xué)、數(shù)學(xué)分析、機(jī)器學(xué)習(xí)和自然語言處理等技術(shù)對(duì)作文進(jìn)行自動(dòng)評(píng)估。英語作文自動(dòng)評(píng)分模型主要分為三類:基于專家系統(tǒng)的作文評(píng)分[7]、基于文本分類與回歸思想的作文評(píng)分[8]和將人工評(píng)分與機(jī)器評(píng)分相結(jié)合的評(píng)分方式[9]。
基于專家系統(tǒng)的作文評(píng)分,是指將語言學(xué)規(guī)則編寫為計(jì)算機(jī)程序,構(gòu)建專家系統(tǒng),對(duì)作文進(jìn)行評(píng)分。1968年,Ellis Batten Page開發(fā)了一套作文自動(dòng)評(píng)分系統(tǒng)PEG(project essay grade),從作文中抽取量化的語言學(xué)特征,作為反映作文質(zhì)量的量化指標(biāo)[1-2]。但由于PEG系統(tǒng)的評(píng)價(jià)角度較單一,完全依賴專家給定的得分指標(biāo)統(tǒng)計(jì)結(jié)果,沒有直接評(píng)測作文的內(nèi)在質(zhì)量,因此打分結(jié)果有所偏頗。而且,這類基于專家系統(tǒng)的模型,容易被考生摸索出得分規(guī)律。盡管如此,PEG系統(tǒng)是第一款公開發(fā)布的商業(yè)化自動(dòng)作文評(píng)分軟件,對(duì)后續(xù)作文自動(dòng)評(píng)分系統(tǒng)的研究與應(yīng)用有重要影響[1-2]。國內(nèi)的批改網(wǎng)、冰果網(wǎng)等作文自動(dòng)評(píng)分和評(píng)語生成系統(tǒng),大多也是基于專家系統(tǒng)的原理進(jìn)行評(píng)價(jià)的[10]。
基于文本分類與回歸思想的作文評(píng)分,是指先將作文映射到結(jié)構(gòu)化的向量空間,再采用分類器或回歸模型進(jìn)行打分。20世紀(jì)90年代末,LARKEY[8]基于分類器構(gòu)建了作文文本分類模型,提升了打分質(zhì)量;FOLTZ[11]基于潛在語義分析(latent semantic analysis LSA)開發(fā)了智能作文評(píng)價(jià)系統(tǒng)(intelligent essay assessor,IEA),IEA首先構(gòu)建詞語的共現(xiàn)矩陣,再基于奇異值分 解(singular value decomposition,SVD)將待評(píng)分作文與人工評(píng)分后的標(biāo)準(zhǔn)作文一起映射到潛在語義空間,求取兩類作文間的相似度,將加權(quán)后的分?jǐn)?shù)作為評(píng)分結(jié)果?;贚SA的方法在一定程度上表達(dá)了文本的語義信息,但無法體現(xiàn)語序信息;另外,LSA沒有嚴(yán)謹(jǐn)?shù)臄?shù)理統(tǒng)計(jì)基礎(chǔ),無法對(duì)文本表層信息進(jìn)行量化評(píng)估,與專家系統(tǒng)相反,其可解釋性較差[12]。文獻(xiàn)[13]用隱狄利克雷分布(latent dirichlet allocation,LDA)對(duì)文檔進(jìn)行向量化降維表達(dá),基于相似度比較構(gòu)建打分模型,得到的準(zhǔn)確度較LSA模型提升了3%~5%。文獻(xiàn)[14]基于貝葉斯理論的分類模型構(gòu)建作文評(píng)分系統(tǒng),但當(dāng)評(píng)分所使用的特征相互不獨(dú)立時(shí),評(píng)分效果較差。CHEN等[15]基于Text Rank對(duì)文章質(zhì)量先進(jìn)行預(yù)排序,再采用分類器對(duì)文章進(jìn)行等級(jí)制評(píng)分。該方法能夠有效識(shí)別考生對(duì)高質(zhì)量詞組的運(yùn)用水平,但仍無法提取深層次的語義特征。魏揚(yáng)威等[16]采用多種級(jí)別的語義特征進(jìn)行英語作文的特征提取,如通過提取英語作文的詞法特征、從句特征、句子關(guān)系特征等,構(gòu)建英語作文的語言學(xué)特征,再使用自編碼器對(duì)特征進(jìn)行重構(gòu),并采用分層多項(xiàng)模型進(jìn)行得分預(yù)測,但這些特征更多的是從寫作技巧上對(duì)英語作文進(jìn)行評(píng)價(jià),對(duì)于寫作內(nèi)容方面的特征,如詞匯、句子與主題的相關(guān)性等,缺乏針對(duì)性提??;劉婷等[17]從單詞、句子、文章整體結(jié)構(gòu)三方面進(jìn)行英語作文的特征提取,并根據(jù)這些特征采用分層指標(biāo)體系對(duì)英語作文進(jìn)行自動(dòng)評(píng)分,但特征提取方法較為簡單,例如在提取單詞特征時(shí)僅采用各種英語等級(jí)的單詞數(shù)量、錯(cuò)誤單詞數(shù)、主題相關(guān)度等作為特征,對(duì)詞義未采用分布式表征。也有將人工與機(jī)器評(píng)分相結(jié)合的作文評(píng)分方式。1990年前后,美國教育考試服務(wù)中心(Educational Testing Service,ETS)開發(fā)了E-rater系統(tǒng),它與閱卷教師同時(shí)給出某篇作文各自的分?jǐn)?shù),通過一定的加權(quán)方式得到綜合得分。目前,E-rater已成為被廣泛關(guān)注的商業(yè)性評(píng)分系統(tǒng),并成功應(yīng)用于GMAT,TOEFL,GRE等考試系統(tǒng)[9,12]。
為了提高英語作文自動(dòng)評(píng)分和評(píng)語標(biāo)簽生成的準(zhǔn)確性,筆者給出了包含具體操作流程的英語作文智能評(píng)價(jià)框架,見圖1。該評(píng)價(jià)框架能從詞、段落、詞性、篇章、主題等多個(gè)維度挖掘作文的深層語義,將訓(xùn)練語料庫中的作文表示為綜合語義特征向量,采用XGBoost算法對(duì)待評(píng)分作文進(jìn)行打分,并基于語義相似度模型給出作文的評(píng)語標(biāo)簽。
圖1 基于語義相似度與XGBoost算法的英語作文智能評(píng)價(jià)框架Fig.1 Automated English essay evaluating framework based on semantic similarity and XGBoost algorithm
1.1.1 離線學(xué)習(xí)訓(xùn)練階段
步驟1將N篇文檔按統(tǒng)一編號(hào)(ID)進(jìn)行歸整,采用數(shù)據(jù)清洗模塊檢查訓(xùn)練語料的完整性(每篇作文需包含作文主體、評(píng)語、分?jǐn)?shù))、編碼的一致性等;
步驟2對(duì)每篇作文主體文本(X_train),依次求取該作文的word2vec,paragraph2vec,pos2vec,LDA的特征向量vw2v,vp2v,vpos2v,vLDA;
步驟3將所有語義向量從左至右進(jìn)行拼接,得到1×M維的綜合特征向量,所有訓(xùn)練作文(N篇)構(gòu)成N×M維的綜合特征向量空間Vall=[Vw2v,Vp2v,Vpos2v,VLDA]T;
步驟4將N篇作文對(duì)應(yīng)的分?jǐn)?shù)(Y_train)進(jìn)行歸一化處理,得到1×N維的分?jǐn)?shù)向量空間W;
步驟5將V和W輸入XGBoost回歸算法中進(jìn)行訓(xùn)練,得到打分模型;
步驟6采用TF-IDF和Text Rank 2種算法對(duì)所有作文的評(píng)語分別計(jì)算評(píng)語標(biāo)簽集,得到P1和P2,取其交集P=P1∩P2作為綜合評(píng)語標(biāo)簽。
步驟7基于kNN算法,查找與待評(píng)測作文相似的訓(xùn)練集作文,利用訓(xùn)練集作文的綜合評(píng)語標(biāo)簽生成待評(píng)測作文的最終評(píng)語標(biāo)簽。
1.1.2 在線評(píng)價(jià)階段
步驟1對(duì)待評(píng)測作文進(jìn)行主體文本、編碼規(guī)范、字?jǐn)?shù)達(dá)標(biāo)等檢查;
步驟2基于已經(jīng)訓(xùn)練好的向量庫,將待評(píng)測作文主體表示為綜合特征向量;
步驟3將待評(píng)測作文的綜合特征向量輸入訓(xùn)練好的打分器,得到作文評(píng)分結(jié)果Y_online;
步驟4采用基于k NN算法的語義相似度模型,找到與該作文最相匹配的前k篇作文,得到評(píng)語標(biāo)簽,并借助基于規(guī)則的語法糾錯(cuò)模塊進(jìn)行語法勘誤,綜合后給出作文的評(píng)語。
以往的文本表示法,主要以one-hot編碼為主,其缺點(diǎn)是維數(shù)過多,而且無法表示深層次的作文語義。本文采用多種分布式表示技術(shù),從不同尺度構(gòu)造文本向量,從詞(word2vec)、段落(paragraph2vec)、篇章(LDA)角度抽取深層語義,共同構(gòu)造綜合特征向量。
1.2.1 基于word2vec的詞表示法
2013年,Mikolov在Hinton的分布式語義表達(dá)基礎(chǔ)上提出了詞向量(word2vec)模型,其核心是基于Skip-Gram語言理論的三層神經(jīng)網(wǎng)絡(luò)模型(neural network model,NNM)[17]。Skip-Gram 的核心思想是根據(jù)當(dāng)前詞去預(yù)測其上下文可能出現(xiàn)的詞,圖2為基于Skip-Gram的word2vec模型原理圖。
在給定訓(xùn)練詞語序列w1,w2,…,w T的情況下,根據(jù)Skip-Gram原理所構(gòu)造的目標(biāo)函數(shù)為
圖2 基于Skip-Gram的word2vec模型原理圖Fig.2 Schematic diagram of word2vec model based on Skip-Gram
其中,c指以w t為中心的訓(xùn)練上下文的詞語數(shù)量,c越大考慮的上下文越廣,需耗費(fèi)的計(jì)算時(shí)間越多。通常用層次Softmax函數(shù)表示式(1)中的語言概率集合p(w t+j|w t),并采用Huffman樹編碼,按詞頻將長度為L的句子表示出來。采用該數(shù)據(jù)結(jié)構(gòu)能夠快速找到高頻詞,極大地降低了計(jì)算復(fù)雜度。
其中,v w和v′w為詞w的輸入向量和輸出向量;W為所有詞的總數(shù);σ(x)=1/[1+exp(-x)];從j節(jié)點(diǎn)到根節(jié)點(diǎn)的路徑為n(w,j),特別地,n(w,1)=root,n(w,L(w))=w。
結(jié)合圖2中預(yù)測最大概率鄰近詞的核心思路,采用多層感知器(multi-layer perceptron,MLP)神經(jīng)網(wǎng)絡(luò)模型求解目標(biāo)函數(shù)(2),根據(jù)輸入詞向量v w,預(yù)測輸出詞向量v′w,即
其中,tanh是神經(jīng)元激活函數(shù),b,d,W,U,H均為待求解參數(shù)。參數(shù)集的尋優(yōu)可采用隨機(jī)梯度下降(stochastic gradient descent,SGD),遺 傳 算 法(genetic algorithms,GA)等求解。
對(duì)于詞性向量(pos2vec,part of speech to vector),將給定詞語序列w1,w2,…,w T對(duì)應(yīng)的詞性序列表示為ps1,ps2,…,psT,其中,詞性主要包括:名詞(n),動(dòng)詞(v),形容詞(adj),副詞(adv)等。該特征主要從詞性角度考核作文的詞語搭配合理性。
1.2.2 基于paragraph2vec的段落表示法
Paragraph2vec的核心計(jì)算原理與word2vec一致,均基于MLP模型,在求取目標(biāo)函數(shù)(1)的過程中得到建模對(duì)象的向量,其差別在于建模對(duì)象的選取。為了更多地考慮單詞排列順序?qū)φZ義的影響,paragraph2vec引入了paragraph id,使每個(gè)句子都有唯一的id,如圖3所示。給定paragraph id,統(tǒng)計(jì)上下文中出現(xiàn)4個(gè)詞的概率,即把句子的位置也當(dāng)成一項(xiàng)重要特征,以記錄段落之間隱含的語義。
圖3 Paragraph2vec模型原理圖Fig.3 Schematic diagram of paragraph2vec model
在訓(xùn)練步驟中,只需在式(1)的詞語序列前增加id的特征,即 paragraph id,w1,w2,…,w T,后續(xù)的參數(shù)求解步驟不變。
1.2.3 基于LDA的篇章表示法
LDA模型是一種生成式的主題模型,是由詞語、主題、文檔構(gòu)成的三層貝葉斯概率模型,其核心在于如何計(jì)算給定文檔的主題變量(即隱變量)的分布[18]。參數(shù)的具體估計(jì)過程如圖4所示。
圖4 LDA的概率圖模型Fig.4 Probability graph model of LDA
圖4 中,各參數(shù)之間滿足:
以下為LDA模型的計(jì)算步驟:
步驟1基于共軛理論,采用Dirichlet計(jì)算每個(gè)主題上特征詞的多項(xiàng)式分布φ=Dir(β),即參數(shù)β刻畫了該分布;
步驟2基于Poisson分布,估計(jì)每篇作文特征詞語的規(guī)模 N=Poisson(ζ);
步驟3基于Dirichlet分布,估計(jì)每篇作文中主題分布概率向量?=Dir(α);
步驟4對(duì)于第m篇作文(m=1,2,…,M;M為作文總數(shù))的某特征詞w,從主題分布概率向量?中隨機(jī)抽取某主題z,再從z中挑選一個(gè)特征詞w。最后通過期望最大化(EM)方法對(duì)參數(shù)α,β進(jìn)行最大似然估計(jì),從而建立LDA三層模型。
綜上所述,LDA通過構(gòu)建概率模型,對(duì)主題分布?和特征詞分布φ之間的關(guān)系進(jìn)行描述。上述2個(gè)變量可以通過Laplace近似估計(jì)、變分推理、Gibbs采樣等方法得到。最終由LDA主題模型得到的語義向量來描述“文本-主題-特征詞”之間的量化關(guān)系。
與傳統(tǒng) GBDT(gradient-based decision tree)方法相比,XGBoost在誤差逼近和數(shù)值優(yōu)化兩方面都進(jìn)行了改進(jìn),近年來,在各類基于機(jī)器學(xué)習(xí)的應(yīng)用和比賽中,XGBoost已成為最受歡迎的方法之一。
假設(shè)有k棵樹組成模型:
其中,Ω(fk)包含兩部分:參數(shù)γ反應(yīng)葉子節(jié)點(diǎn)數(shù)量T對(duì)誤差的影響;參數(shù)λ反應(yīng)葉子節(jié)點(diǎn)權(quán)重w對(duì)誤差的影響,此處采用L 2正則化,以防止葉子節(jié)點(diǎn)過多出現(xiàn)過擬合現(xiàn)象。目標(biāo)函數(shù)(5)的詳細(xì)求解過程參見文獻(xiàn)[20]。
基于kNN算法的作文評(píng)語標(biāo)簽生成方法的總體思路是:首先,通過TF-IDF方法和Text Rank方法篩選出訓(xùn)練集中每篇作文的若干個(gè)典型評(píng)語標(biāo)簽;然后,用1.2節(jié)中的綜合特征向量表示待評(píng)測作文和所有訓(xùn)練集作文,并比較待評(píng)測作文與每篇訓(xùn)練集作文特征向量的余弦相似度;最后,選取kNN算法的k值,將與待評(píng)測作文相似度較高的前k篇訓(xùn)練集作文的典型評(píng)語標(biāo)簽去重后,形成待評(píng)測作文的評(píng)語標(biāo)簽。具體步驟如下:
步驟1針對(duì)第i篇作文的評(píng)語Ci,采用TFIDF方法(式(6))計(jì)算各評(píng)語短句的TF-IDF權(quán)重值,按從大到小排序,得到一組評(píng)語短句序列:
步驟2采用Text Rank方法(式(7))計(jì)算各評(píng)語短句的TR權(quán)重值,按從大到小排序,得到一組評(píng)語短句序列KTextRank:
步驟3分別將TF-IDF權(quán)重值排在前n位的評(píng)語短句記為,將TR權(quán)重值排在前n位的評(píng)語短句記為,取交集得到該篇作文的綜合評(píng)語短句序列,依此類推,計(jì)算得到所有作文的綜合評(píng)語短句序列。
步驟4圖1中,在線計(jì)算評(píng)語時(shí),將待評(píng)測作文i的綜合向量vaill與訓(xùn)練庫中各作文的綜合向量進(jìn)行相似度計(jì)算(式(5)),并按照從大到小的順序進(jìn)行排序:
步驟5最后,基于k NN算法的思想,選取相似度排名前k位的評(píng)語短句,并去除重復(fù)的短句,組合為該作文最后的評(píng)語。
從某高校面向四級(jí)考試進(jìn)行寫作訓(xùn)練的英語作文中收集了900篇進(jìn)行實(shí)驗(yàn),具體情況如表1所示,作文單詞數(shù)在150~200。為了保證原始標(biāo)簽的準(zhǔn)確性與公平性,要求2位老師分別對(duì)每篇作文進(jìn)行評(píng)分,求取該作文的平均得分,將2位老師的評(píng)語進(jìn)行匯總得到綜合評(píng)語。最后得到每個(gè)得分區(qū)間的作文數(shù)量,如表2所示,平均每篇作文包含7.2條評(píng)語短句。
表1 各種主題的作文數(shù)量Table 1 Number of essays on various topics
表2 各得分區(qū)間的作文數(shù)量Table 2 Number of essays in each score range
根據(jù)圖1的技術(shù)路線,將900份作文平均分成5份(即每份180篇),隨機(jī)取其中4份(即80%)作為訓(xùn)練樣本,剩余1份作為測試樣本。采用5輪交叉驗(yàn)證的方式循環(huán)訓(xùn)練和測試5次,每次得到一份評(píng)價(jià)指標(biāo),將5次指標(biāo)的平均值作為評(píng)分結(jié)果。本文方法的打分效果與以往幾類評(píng)分方法效果的比較見表3,其中,本文方法的輸入特征包括四部分:
表3 各類作文評(píng)分方法的評(píng)分效果Table 3 The scoring effect of various essay scoring methods
word2vec,paragraph2vec,pos2vec和LDA,分別取50維、100維、20維、100維,則第i篇作文的綜合特征向量為valli=[vw2v,vp2v,vpos2v,vLDA],即 1×270 維的向量。從表3中可以看出,相比其他方法,本文方法評(píng)分結(jié)果具有最小的均方誤差和最大的皮爾遜相關(guān)系數(shù),說明本文方法與教師評(píng)分結(jié)果的誤差最小,且相關(guān)性最高。
在評(píng)語標(biāo)簽生成過程中,對(duì)TF-IDF權(quán)重值和Text Rank權(quán)重值前5位的綜合評(píng)語短句取交集,并將其作為綜合評(píng)語短句序列,采用k NN算法,取k=3,給出待評(píng)價(jià)的作文評(píng)語。比較新方法生成的作文評(píng)語標(biāo)簽和教師評(píng)語,統(tǒng)計(jì)其平均準(zhǔn)確率(precision)、召回率(recall)和F-score,并與單獨(dú)使用TF-IDF和Text Rank方法進(jìn)行了對(duì)比,結(jié)果如圖5所示。
圖5 作文評(píng)語標(biāo)簽生成方法效果對(duì)比Fig.5 Comparison of essay comment label generation methods
由圖5可知,本文方法通過結(jié)合TF-IDF方法和Text Rank方法,有效篩選出了典型的英語作文評(píng)語標(biāo)簽,較采用單一標(biāo)簽提取算法有較大優(yōu)勢,同時(shí)借助k NN算法使英語作文評(píng)語生成的準(zhǔn)確性達(dá)到了較高水平(F-score大于0.8)。將主要的評(píng)語標(biāo)簽(出現(xiàn)次數(shù)超過 3次)按 5個(gè)評(píng)分等級(jí),即[0,60),[60,70),[70,80),[80,90),[90,100]進(jìn)行聚類,其可視化圖見圖6。
圖6體現(xiàn)了不同分?jǐn)?shù)等級(jí)中,學(xué)生作文的一些集中特點(diǎn),如分?jǐn)?shù)偏低的普遍小錯(cuò)誤較多、語言不流暢、詞匯使用或拼寫存在問題等。相鄰分?jǐn)?shù)區(qū)間的評(píng)語標(biāo)簽有一定的重疊性,跨分?jǐn)?shù)區(qū)間的評(píng)語差異性較大。
提出的英語作文智能評(píng)價(jià)框架的主要?jiǎng)?chuàng)新點(diǎn)在于 :結(jié) 合 了 word2vec、pos2vec、paragraph2vec和LDA等文本表示技術(shù)生成英語作文的綜合特征向量,能夠?qū)τ⒄Z作文多維度的語義特征進(jìn)行深層次提取,為作文評(píng)分和評(píng)語標(biāo)簽生成提供依據(jù);采用了較為先進(jìn)的XGBoost模型和結(jié)合TF-IDF、Text Rank和k NN算法的語義相似度模型進(jìn)行評(píng)分和評(píng)語生成,提高了英語作文自動(dòng)評(píng)分和評(píng)語標(biāo)簽生成的準(zhǔn)確性。另外,通過框架流程的合理設(shè)計(jì),使綜合特征向量可以同時(shí)用于英語作文的評(píng)分和評(píng)語標(biāo)簽生成,有效降低了框架的模型復(fù)雜度。
圖6 評(píng)分等級(jí)對(duì)應(yīng)的作文評(píng)語標(biāo)簽聚類Fig.6 Clustering of essay comment labels corresponding to scoring levels
在本文的評(píng)價(jià)框架中,還有一些語言類的特征沒有考慮在內(nèi),如基于依存句法/語法的特征,以后可將其加入到特征向量中,以提升評(píng)分指標(biāo);還可以研究綜合向量特征與評(píng)語標(biāo)簽、學(xué)生常用詞句的關(guān)系,對(duì)常見問題、常犯錯(cuò)誤和高分用法進(jìn)行關(guān)聯(lián)性挖掘,以便針對(duì)性地指導(dǎo)學(xué)生進(jìn)行規(guī)范寫作。