魏 思,鞏捷甫,王士進,宋 巍,宋子堯
(1. 科大訊飛股份有限公司 AI研究院,安徽 合肥 230088;2. 首都師范大學 信息工程學院和交叉學科研究院,北京 100056; 3. 認知智能國家重點實驗室,安徽 合肥 230088)
語言將人緊密地聯(lián)系在一起。人們在各個人生階段都在經(jīng)歷著語言的學習和運用。寫作是語言學習必不可少的關鍵環(huán)節(jié),可以培養(yǎng)學生的語言理解、運用和表達能力。因此,不管是日常的教學考試,還是中、高考等大型考試,語文寫作都是重點考查內(nèi)容。然而,對學生作文進行評分卻給廣大教師帶來了巨大的工作量。
作文自動評分(Automated Essay Scoring,AES)期望使用機器替代人工評分人員,對作文進行自動評分。機器評分根據(jù)量化過的評價標準進行評分,在保證評分科學、合理的前提下,不僅能提高評分效率,而且可以降低評分老師對于評分標準的主觀波動性,保證了評分的公平性。
目前國內(nèi)外已有很多作文自動評分相關的研究,但這些研究主要針對二外以及少數(shù)民族的漢語水平考試。1966年開發(fā)的(Project Essay Grader,PEG)[1]是AES的先行者。該系統(tǒng)主要從訓練樣本中抽取某些淺層文本特征,其特點是重結構而相對忽略內(nèi)容。PEG使用的主要特征包括單詞平均長度、作文長度(總字數(shù))、逗號的數(shù)量、前置詞的數(shù)量以及生僻字的數(shù)量等。E-rater系統(tǒng)全稱是Essay Rater,1992年應用于GMAT考試,2005年開始應用于托??荚?。不同于傳統(tǒng)的、分析性的作文評分方式,E-rater采用的是整體評分(holistic scoring)[2]。這種評分方式依靠讀者的總體印象,綜合考慮作文的組織結構、詞匯多樣性和句法結構等。我國國內(nèi)也非常重視作文自動評分。1998年和1999年教育部考試中心先后邀請了美國ETS和英國劍橋大學考試委員會的專家來華介紹他們網(wǎng)上評卷和軟件及自動評卷系統(tǒng),希望能夠改進我國的自動評分現(xiàn)狀。他們以E-rater為例,介紹了其工作原理等,討論了在我國的大學英語四、六級考試中使用自動評分系統(tǒng)的可行性。
相對來說,漢語作為母語的作文自動評分的相關研究還處于初級階段,依然停留在比較淺層的語言分析層面,比如字、詞、句、淺層語病分析等,缺乏深層語言分析的過程,這與語文作文評分細則是不相符合的。另外,國內(nèi)也有基于深度神經(jīng)網(wǎng)絡(Deep Neural Networks,DNN)對作文進行篇章表征的自動學習,進而對作文進行自動評分,但這無法解決深度學習模型高性能與低可解釋性之間的矛盾。
基于此,本文提出利用深層語言分析改進中文作文自動評分效果的方法。主要貢獻包括以下幾點:
(1) 實現(xiàn)多層次、多維度深層語言分析功能。從語言運用、語言表達、篇章異常檢測、篇章質(zhì)量評估等多個方面,更加全面、豐富、深入地刻畫和表示作文表現(xiàn)出的寫作能力。
(2) 融合DNN與多層次、多維度語言分析特征的自適應混合評分方法。研究發(fā)現(xiàn),深層語言分析特征的豐富表達和辨別能力可有效提高中文作文評分效果;年級與主題自適應的模型訓練策略,可有效提高模型的遷移能力和預測效果。
本文的組織結構如下: 第1節(jié)介紹相關工作;第2節(jié)介紹面向中文作文評分的深層語言分析;第3節(jié)介紹作文自動評分的實現(xiàn)方案和模型;第4節(jié)介紹實驗數(shù)據(jù)、結果及分析;第5節(jié)對文章工作進行總結。
目前,作文自動評分的主流方法主要分為三類: 一類是基于淺層語言分析構建特征的作文自動評分方法;另一類是基于深度學習的端到端作文自動評分方法;第三類是融合淺層語言分析的深度學習方法。
張晉軍等提出了一個稱為“漢語測試電子評分員”的研究設想,并進行了實踐檢驗[3]。在新疆、內(nèi)蒙、延邊3地選取了幾百份少數(shù)民族漢語水平考試三級作文預測卷,使用字數(shù)、連、介、助動、助詞數(shù)、標點數(shù)、平均句長、句子數(shù)、淺層語病錯誤等量化指標作為評分因素,經(jīng)過回歸分析,選出了5項指標,構建回歸模型,并編寫程序?qū)@些作文進行評分,電子評分員與人工評分的評分一致性達到了較高的程度。臺灣學者林素穗等人在關于非同步式網(wǎng)絡教學評價的研究中,設計了一個漢語作文自動評分的程序[4]。該程序基本上是從語法層面上進行作文評價,沒有語意分析的成分,通過提取學生作文所采用的字詞進行評價。曹亦薇和楊晨對高中生漢語作文進行了自動評分的探索。他們使用202份高中漢語作文作為研究語料,采用了三種方法,分別是: 依據(jù)語言形態(tài)學特征,使用多元回歸的方法進行自動評分;使用詞頻向量空間模型進行自動評分;依據(jù)詞頻、詞頻-逆文檔頻度、信息量的加權向量,使用潛語義分析方法進行自動評分。研究結果表明,三種方法都有一定效果;自動評分和人工評分的相關系數(shù)和國外同類研究相比處于中等水平;一致率達到同等水平。按照自動評分與人工評分的相關系數(shù)從大到小進行排序,所得到的順序為: 潛語義分析、向量空間模型、回歸模型[5]。
近年來,基于DNN的方法也被應用于作文自動評分。這些方法主要通過深度神經(jīng)網(wǎng)絡模型獲取作文的分布式篇章表示進行評分。Dong等[6]使用分層卷積神經(jīng)網(wǎng)絡和平均池化分別對文本的句子層和篇章層表示進行建模。同年,Taghipour等[7]也使用類似的分層網(wǎng)絡結構,句子表示是在單詞序列上使用卷積網(wǎng)絡抽取特征,然后使用循環(huán)神經(jīng)網(wǎng)絡在句子表示上進行篇章特征的抽取,最后取每一個隱含層的求和平均得到作文表示。Dong等提出注意力循環(huán)卷積網(wǎng)絡進行篇章層次建模[8]。近年來,預訓練語言模型也被引入作文評分。Yang等整合回歸與排序損失微調(diào)預訓練語言模型進行作文評分[9]。Song等提出多階段預訓練策略[10],模型訓練分為: 通用弱監(jiān)督數(shù)據(jù)預訓練、跨題目監(jiān)督數(shù)據(jù)繼續(xù)預訓練以及目標題目數(shù)據(jù)微調(diào)三個階段。
Uto等提出將手工提取特征與神經(jīng)網(wǎng)絡特征相結合[11],但使用的特征依然基于淺層語言分析結果。
本文工作融入了更多的深層語言分析特征,包括語言運用、語言表達、篇章異常檢測以及篇章質(zhì)量評估等。這些深層語言分析特征顯著提高了模型的辨別能力,并提供比深度神經(jīng)網(wǎng)絡模型更好的可解釋性。
我們提出的“深層語言分析特征”是指可以明確衡量作文篇章水平的特征,這些特征如語病、優(yōu)秀表達、語言流暢、結構嚴謹?shù)榷际怯忻鞔_的與篇章水平相關含義的?!皽\層語言分析特征”則是一些與篇章水平無明確聯(lián)系的篇章屬性相關的特征,如簡單的統(tǒng)計特征與分布特征。這些特征在前人的工作中被廣泛應用,如字詞句段數(shù)及長度、詞性數(shù)量及比例、主題分布等潛語義分析等。這些特征有助于區(qū)分平均水平作文與較差的作文,因此在面向第二外語的作文評分系統(tǒng)中起到較大作用。但這些淺層特征的區(qū)分性和表達能力不足以處理母語寫作的作文。
為此,本文在深入分析各個學年段評分規(guī)則的基礎上,構建面向中文作文評分的多層次、多維度的深層語言分析系統(tǒng)IFlyEA[12],提供深層語言分析評分特征。如圖1所示,IFlyEA進行多層次、多維度的語言分析:
? 語言運用層: 該層主要用于判斷學生是否能夠正確使用字詞進行交流,包括拼寫和語法錯誤診斷等。
圖1 深層語言分析全景圖
? 語言表達層: 該層主要用于判斷學生是否能夠優(yōu)雅、有文采地表達自己的想法。IFlyEA提供了典型修辭識別、描寫手法識別以及好詞好句檢測等功能。
? 篇章異常檢測: IFlyEA提供抄襲檢測、亂寫檢測、非健康文章識別、流水賬識別等篇章級分析。
? 篇章質(zhì)量評估: IFlyEA提供基于內(nèi)容、表達、結構、發(fā)展相關的11個維度對篇章質(zhì)量進行評估分析。
本節(jié)主要介紹多個層次中可用于作文評分特征構建的深層語言分析模塊。第3節(jié)將具體介紹如何基于深層語言分析結果構建作文自動評分特征。
正確地運用詞語、標點是寫作的基礎,可在一定程度上有助于衡量學生正確運用語言的能力。本節(jié)主要檢測作文中的語法錯誤、標點錯誤等。
對于語法錯誤,本文主要聚焦四類: 冗余、缺失、用詞不當、亂序[13],表1給出了4類語法錯誤的示例和修改結果。
表1 語法錯誤類型表
系統(tǒng)將判斷一句話是否包含語法錯誤,對于有錯誤的句子,指出語法錯誤的具體位置(位置檢錯),并給出修改意見(改錯),整體實現(xiàn)流程如圖2所示。
圖2 語法糾錯方案流程圖
我們把語法糾錯分為兩個階段,一個是錯誤識別階段,另一個是錯誤糾正階段。
在錯誤糾正階段,我們使用BART模型[19]給出改正結果。具體地,我們將錯誤識別階段得到的預測位置進行MASK操作,基于BART的自回歸模式,給出候選改正結果。
另外,在用詞不當錯誤類型中,我們將該類型進行細分,包括選詞錯誤以及音近、形近等別字錯誤。對于別字錯誤,我們基于標注數(shù)據(jù)驅(qū)動,采用soft-masked BERT模型[20],直接給出別字的錯誤位置以及修改結果。受其他相關工作的啟發(fā)[21-23],本文使用音近、形近字表作為輔助資源,進行別字錯誤后處理。在SIGHAN 2015基準測試[24]中取得了論文相當效果。
本文收集中文作文數(shù)據(jù)進行語法錯誤的標注,用于模型訓練,相關實驗結果如表2所示。
表2 語法檢錯實驗結果表
模型在真實學生作文數(shù)據(jù)上的位置級別F1值達到70.34%,但亂序類型較低,經(jīng)過分析發(fā)現(xiàn),亂序的標注主觀性偏高。同時,我們在NLPTEA-2020 CGED評測的句子級、位置級兩個維度上都獲得了排名第一的成績。
語言表達層的分析對于判斷第二語言學習者以及母語低年級寫作者的寫作水平具有重要作用,但是對于更高年級學生來說,基礎語言運用能力不足以區(qū)分高水平與一般水平作文。為此,本文提出優(yōu)秀表達分析,旨在提高識別學生寫作的深層表達能力。
本文把優(yōu)秀表達定義為優(yōu)美句子、修辭、描寫句等。進一步,修辭聚焦到比喻、擬人、排比、引用等,描寫聚焦到語言、動作、神態(tài)、心理、外貌、景物描寫等。按照實現(xiàn)方式,將語言表達層的分析方案分為三類,句內(nèi)優(yōu)秀表達句識別、跨句排比識別、索引類引用識別。
2.2.1 句內(nèi)優(yōu)秀表達句識別
一般情況下,對于優(yōu)美句子、比喻、擬人、描寫等的優(yōu)秀表達,都是集中在一個句子內(nèi)部完成的。另外,我們定義優(yōu)美句子為能夠引起審美感受的句子,這個定義是模糊的,標準是主觀的,與其他優(yōu)秀表達句在一定程度上有重疊,因此,我們以數(shù)據(jù)驅(qū)動和多任務聯(lián)合的方式進行整體識別。本文設計了一種基于多任務聯(lián)合學習的句內(nèi)優(yōu)秀表達句識別模型,如圖3所示。
(5)
其中,i表示第i個任務,Li為第i個任務的損失,λi為第i個任務的損失的權重。
具體實驗結果如表3所示,其中,優(yōu)美句子分不同年級段進行評估,因為評估主觀性等問題,指標相對修辭與描寫稍低。其與評分的相關系數(shù)等,下文將做詳細分析。
圖3 優(yōu)秀表達層多任務聯(lián)合學習方案圖
表3 優(yōu)秀表達句識別實驗結果表
2.2.2 跨句排比識別
排比是中文寫作中常用的修辭手法。排比句,一般是這樣一種結構的句式,位置上臨近,語氣上一致[26],能夠增強氣勢、給人以精神上的振奮,從而達到讓閱卷老師賞心悅目的效果[27]。本文主要采用特征方法來完成排比句識別。主要流程包括字詞的存儲結構建立、候選排比句抽取、過濾、重組與切分、回填等機制,并考察了詞匯、詞性、句法角色、分布式語義等多層次匹配特征完成排比句的判別[28-29]。在中文作文數(shù)據(jù)上的測試結果顯示排比句判別F1值達到75%。
2.2.3 索引類引用識別
引用前人的詞句,如詩歌、格言、諺語等,來闡釋和支持自己的觀點,是寫作中采用的重要手段。我們從互聯(lián)網(wǎng)上收集了從詩歌到諺語的大規(guī)模引用語料庫,并利用信息檢索(IR)技術和語義匹配進行引用句檢測與識別。學生作文內(nèi)提及的已入庫語句的召回率可以達到96%以上。
篇章異常檢測對構建穩(wěn)健的評分系統(tǒng)很重要。例如,抄襲是一種不好的行為,應該被檢測。為此,本文構建了一個范文檢測庫,并利用IR和語義匹配技術來完成抄襲檢測。此外,本文還利用預先訓練的檢測器完成敏感詞、辱罵性詞語、亂寫等的異常檢測。
以上介紹了語言運用、語言表達、篇章異常檢測等深層語言分析過程,但基于各分析器所抽取的用于評分的特征更多地是對于篇章相關分析維度的數(shù)量的評估,缺乏對于篇章的整體視角的質(zhì)量評估。
為此,本文基于以上各分析器,從人對于作文質(zhì)量評估視角出發(fā),從內(nèi)容、表達、結構、發(fā)展四個大維度,基于人工標注的篇章質(zhì)量評估分檔數(shù)據(jù),構建了十一個細粒度篇章質(zhì)量分析器。具體而言,在內(nèi)容方面,主要包括符合題意、思想健康、內(nèi)容充實、中心明確、感情真摯;在表達方面,包括規(guī)范使用字詞、符合習作要求、標點正確以及語言流暢;在結構方面,主要給出結構嚴謹性;在發(fā)展層面,主要分析是否有文采。整體作為篇章質(zhì)量評估的深層細粒度分析依據(jù)。
本文聚焦的是小規(guī)模定標(500份以下)評分場景。所謂定標評分,一般是給定一個固定的主題或者寫作方向,評分人員基本穩(wěn)定,評分尺度與習慣基本一致。我們可以對當前主題的樣本進行篩選,并對篩選的樣本進行打分,基于打分結果去訓練評分模型或者調(diào)整評分方案。
定標評分場景要特別關注兩個指標,一個是考察評分之間的相對順序的相關系數(shù),是為了保障評分的有效性;另一個是為了考查評分與人工打分的一致率,是為了保障評分的準確性。為此,本文設計了如下的作文自動評分方案,并在后續(xù)實驗中對相關指標進行重點比較。
在定標評分場景,有多種評分方案進行自動評分。如圖4方案①所示,基于當次待評分數(shù)據(jù)集進行樣本篩選與人工定標后,基于語言分析結果進行評分特征抽取,訓練專用評分模型進行定標評分。這樣的優(yōu)勢是可以很好地利用當次考試的評分習慣和評分分布等,但劣勢是無法引入更多的外部數(shù)據(jù)信息來提升評分效果;另一種方案是我們使用歷史作文數(shù)據(jù)結合DNN模型以及語言分析結果進行通用評分模型訓練。這樣做的優(yōu)勢是可以利用更多的外部數(shù)據(jù)信息以及結合深度神經(jīng)網(wǎng)絡模型,但這樣做的劣勢是無法很好地擬合當次考試的評分習慣。
圖4 定標評分場景評分方案圖
為此,本文設計了基于通用評分模型的定標評分方案,如圖4方案②所示,首先利用歷史作文數(shù)據(jù)結合DNN模型以及多層次、多維度語言分析特征進行通用評分模型訓練;之后使用當次數(shù)據(jù)集定標評分數(shù)據(jù)進行分數(shù)分布學習,既保證了評分效果,也符合了當次數(shù)據(jù)集的評分習慣。滿足了定標評分場景兩個特別關注的評分指標。
本文實現(xiàn)了如圖4所示方案①與方案②兩種評分方案,并在兩種評分方案的基礎上比較了加入深層語言分析后的評分效果。而實現(xiàn)方案①與方案②,我們要解決兩個問題,一個是作文評分特征的抽?。涣硪粋€是通用評分模型的設計,后兩節(jié)將詳細介紹。
本文基于前面介紹的深層語言分析模塊,再配合淺層的一些語言分析結果,構建了本次作文自動評分的多層次、多維度語言分析特征。我們首先分析各特征抽取器抽取的特征與訓練集分數(shù)數(shù)據(jù)的相關系數(shù),如表4所示。
表4 語言分析特征與分數(shù)相關系數(shù)分析表
淺層統(tǒng)計特征為最基本的作文特征,相關系數(shù)較高,普遍在0.3~0.5之間;在語言運用層和篇章異常檢測層,本文分析了語法類錯誤、標點錯誤、可恢復的拼音占比、不健康句子數(shù)量、亂寫句子占比等,相關系數(shù)普遍為負,基本符合預期;在語言表達層,本文分析了修辭以及描寫數(shù)量與評分的相關系數(shù),基本在0.1左右;在篇章質(zhì)量評估層,大部分篇章級的質(zhì)量評估與評分相關系數(shù)在0.3左右,與語言運用、語言表達和篇章異常檢測層相比,篇章質(zhì)量評估層相關系數(shù)較高。
后續(xù)基于語言分析特征與評分相關系數(shù)的分析結果,進行了部分特征的擴充與完善,構成了后續(xù)評分實驗依賴的相關淺層特征與深層語言分析特征,如表5所示。
表5 作文特征抽取表
基于語言分析的特征工程方法與基于DNN方法各有優(yōu)勢。為了更好地結合兩者的優(yōu)勢,我們提出融合DNN與多層次、多維度語言分析特征的自適應混合評分方法,如圖5所示。模型融入了淺層與深層等多層次、多維度語言分析特征,并提出通用預訓練與定標數(shù)據(jù)微調(diào)的二階段學習策略,以應對年級、主題變化導致的領域遷移問題。
圖5 融合DNN與語言分析特征的自適應評分方法
3.3.1 作文編碼器
首先介紹通用評分模型,該模型可用于構建面向任何一個作文題目的評分模型。
假設作文K有j個句子,其中第i句有一個詞序列si={wi1,wi2,…,win},篇章由全部句子的詞序列{s1,s2,…,sj}組成。本文使用DNN模型對篇章進行編碼,得到篇章表征K,這是基于字詞序列的語義信息。本文分別使用了HBiLSTM模型[30]和BERT模型[25]作為篇章編碼的DNN架構。
3.3.2 年級與主題自適應遷移評分
由于不同年級的評分標準有差異,我們希望提高模型的自適應能力,同時盡量避免維護多個模型。因此,我們將不同年級的評分視為多個任務。不同年級的評分任務,共享作文的篇章級別表示eK,但使用獨立的全連接回歸評分層。如式(6)所示,Y通用_年級i為年級i的回歸評分模型的預測結果,其中,LR_Reg為線性回歸評分層。
Y通用_年級i=LR_Reg年級i(eK)
(6)
我們可以利用多個年級的學生作文,聯(lián)合訓練該年級自適應的通用評分模型。
給定年級自適應通用評分模型,針對新的評分主題,我們希望能夠進一步擬合當次作文集的打分習慣與分布。因此,我們將不同年級的通用評分模型的預測結果作為輸入,使用當次作文數(shù)據(jù)集額外訓練一個貝葉斯嶺回歸模型(BR_Reg),如式(7)所示。
Y定標=BR_Reg({Y通用_年級i})
(7)
多個年級的通用評分模型相當于從不同視角和標準下評估同一作文,提供了更為全面的描述信息。我們在實驗中發(fā)現(xiàn),這種策略比僅利用相對應年級的通用評分模型預測結果更為有效。
這種主題自適應策略可以基于較少的數(shù)據(jù),快速針對當次考試的打分習慣與分布進行分數(shù)調(diào)整,得到符合當次考試的標準和分布的最終分。
本文所用數(shù)據(jù)集主要分為兩部分。一部分為通用評分數(shù)據(jù)集: 用于通用評分模型訓練,使用網(wǎng)上開源的5萬篇小學學段作文語料,包含一至六年級各約8 500篇作文,按照各年級評分要求與細則進行人工標注。另一部分為定標評分數(shù)據(jù)集: 抽取小學三至六年級四個學段共計51個主題作文數(shù)據(jù),每個主題定標集含300~500篇作文,測試集20篇,具體如表6所示。
表6 小學三至六年級作文數(shù)據(jù)統(tǒng)計分析表
其中,定標評分數(shù)據(jù)集,標注人員均完成雙評、仲裁等標注質(zhì)檢等工作。
本文通過以下指標進行評估: 平均分差、相關系數(shù)、評分一致率。
(8)
機器得分與人工評分的相關系數(shù)計算如式(9)所示。
(9)
評分一致率如式(10)所示,主要參考計算機智能輔助評分系統(tǒng)[31]評估固定分差內(nèi)數(shù)據(jù)占比的統(tǒng)計方法。
(10)
本文挑選三組基線方法進行對比,包括基于語言分析特征的評分方法、基于DNN的評分方法以及融合淺層語言分析特征的DNN評分方法。本文提出融合DNN與多層次、多維度語言分析特征的自適應混合評分方法。
后續(xù)相關特征分析包括淺層特征與全部特征,其中,全部特征為包含淺層特征與深層特征的多層次、多維度的語言分析特征。
●基于語言分析特征的評分: 本文使用GBDT作為評分模型,分別使用淺層特征和全部特征進行實驗。
●基于DNN的評分: 本文使用HBiLSTM及BERT等DNN模型對作文進行評分。
●融合淺層語言分析特征的DNN評分: 相關模型結構如圖5所示。其中分別使用了兩種常用的DNN模型: HBiLSTM模型和BERT模型;淺層特征共計57維。
●融合多層次、多維度語言分析特征的自適應DNN評分: 相關模型結構如圖5所示。其中分別使用了兩種常用的DNN模型: HBiLSTM模型和BERT模型;全部特征共計187維。
為了便于模型訓練,將分數(shù)歸一化到0到1之間。訓練時均使用均方誤差作為損失函數(shù)。
●GBDT模型: 設置學習器個數(shù)為100,學習率為0.1。
●HBiLSTM模型: 實驗中句子層BiLSTM和篇章層BiLSTM的隱藏層維度均為128;通用模型訓練時使用AdamW[32]作為優(yōu)化器,學習率為0.001。
●BERT模型: BERT模型使用BERT-base中文模型。通用模型訓練時使用AdamW作為優(yōu)化器,學習率為1e-5。
●特征映射線性層: 輸出維度為30。
●通用評分LR_Reg層: 線性回歸模型輸入為outputDNN+30維,輸出為1維。
●定標微調(diào)BR_Reg層: 貝葉斯嶺回歸模型輸入為6維,輸出為1維。
本文基于小學數(shù)據(jù)集開展相關實驗及分析工作。通用評分階段,使用通用評分數(shù)據(jù)集5萬篇訓練通用模型。定標微調(diào)階段,使用定標數(shù)據(jù)集中每個主題的訓練集進行定標評分微調(diào)。實驗時,通用評分階段與定標微調(diào)階段均使用定標數(shù)據(jù)集中測試集進行相關測試,每套試題單獨進行測試,取宏平均用于最終實驗指標分析。其中,在通用評分階段,使用該主題對應年級的預測分數(shù)作為預測結果。具體實驗結果如表7所示。
表7 評分數(shù)據(jù)實驗結果表
首先對比圖4方案①設置下各方法的表現(xiàn),即不使用通用評分模型,僅使用當次考試數(shù)據(jù)進行定標評分。實驗發(fā)現(xiàn),全部特征在相關系數(shù)、評分一致率方面相比較淺層特征結果有較大幅度提升,相關系數(shù)提升0.049,評分一致率提升3.3%,證明定標評分場景深層語言分析的有效性。而使用DNN模型進行定標評分實驗,在評分一致率、相關系數(shù)方面優(yōu)于基于淺層特征的定標評分結果,但弱于基于全部特征的定標評分結果。可見,在小規(guī)模定標(500以下)場景,基于DNN模型只通過字詞序列學到了淺層以及一部分深層的語言特征,并沒有充分發(fā)揮出DNN的序列表征優(yōu)勢。
繼續(xù)采用圖4中實驗方案②,該方案分為兩個步驟。第一步: 使用通用評分模型進行相關實驗,更加關注相關系數(shù);第二步: 在通用評分結果基礎上,使用每套試題定標數(shù)據(jù)進行分數(shù)微調(diào),看評分一致率提升情況。
在第一步,通過實驗可以發(fā)現(xiàn),在相關系數(shù)方面,加入深層語言分析特征后的全部特征實驗結果優(yōu)于僅僅加入淺層語言分析特征結果優(yōu)于不加入特征的評分結果。具體地,BERT(通用)+全部特征相比較BERT(通用)+淺層特征,在相關系數(shù)方面提升0.015;HBiLSTM(通用)+全部特征相比較HBiLSTM(通用)+淺層特征,在相關系數(shù)方面提升0.01,提升較為穩(wěn)定?;贐ERT模型的相關實驗結果整體優(yōu)于基于HBiLSTM模型的結果。同時,為了公平對比,本文也使用傳統(tǒng)機器學習方法對全部特征進行通用評分,發(fā)現(xiàn)結果弱于基于DNN+特征相關方法,證明DNN相關表示對評分效果提升有積極幫助。
在第二步,如式(7)所示,我們使用線性層對結果進行定標微調(diào),以適應當前主題作文的打分習慣與分布。微調(diào)后,評分一致率有大幅度提升。同時,在定標場景下,加入深層語言分析特征后,相對于只有淺層語言分析特征的模型,相關系數(shù)的提升結論與通用評分階段實驗結論基本一致,證明深層語言分析的有效性。
同時,本文比較了通用評分場景與定標評分場景中評分一致率與相關系數(shù)標準差。相較于通用評分場景,定標評分場景各方法的評分一致率的標準差分別從0.1左右降到了0.07左右,相關系數(shù)的標準差分別從0.2左右降到了0.15左右,各主題的評分效果比較穩(wěn)定。
同時,我們與人人指標進行對比,評估機器評分效果。如表8所示,測試集中的每份試卷均采用雙評標注,并給出仲裁分。為了公平起見,本文在此處實驗階段,機器分不與仲裁分進行比較,而是與人1和人2的分數(shù)進行比較,選取平均值用于與人人結果的比較。
表8 小學與人人結果對比表
從對比中可以看出,機器與人1和人2的平均相關系數(shù)為0.585,超過人人指標的0.552,且在評分一致率(<10%)方面,人機平均評分一致率(<10%)為84.3%,也超過人人指標的78.4%??梢哉f,機器在一定程度上可以超過人的評分效果,這為在更多場景的評分使用提供了保障。
為了驗證不同深層語言分析中不同層對評分效果提升的影響,本文在BERT(通用)+全部特征+定標的最優(yōu)模型基礎上做了多組消融實驗,每次只移除一層,分別移除了語言運用、語言表達、篇章異常檢測和篇章質(zhì)量評估層相關特征來分析其作用。
消融實驗結果如表9所示,移除語言運用層特征對相關系數(shù)有一定影響,表明在小學作文中語言運用是很重要的考察點。移除語言表達層特征對評分影響相對較弱,可能是因為優(yōu)美句子和描寫的召回率較低,導致部分語言表達未能識別。移除篇章異常檢測和篇章質(zhì)量評估特征后相關系數(shù)下降較明顯,說明篇章級相關特征對評分效果的提升作用很大。
表9 消融實驗結果
本文針對中文作文自動評分任務,引入了更多深層語言分析能力,使用融合DNN與多層次、多維度語言分析特征的自適應混合評分方法,有效提升了語文作文評分效果。在深層語言分析基礎上,還可以將多個層次、多個維度的分析進行量化展示,提供批改結果,為后續(xù)針對學生作文的個性化診斷和學習提升提供更多的診斷依據(jù),具有非常大的潛力。
盡管本文的面向語文作文評分的深層語言分析能力已經(jīng)達到國內(nèi)領先水平,但其中修辭分析、篇章結構分析等研究問題還有很大的探索和提高空間。深層語言分析需要多個模塊進行處理,特征獲取效率較低,將多個模塊整合,使用通用的底層共享模型來獲取各種深層語言分析值得進一步的探索。目前,預訓練語言模型處理長文本時計算負載較大,如何提高預訓練語言模型在實際應用場景下的高效配置,進一步提高多層次、多維度深層語言分析的效果和效率也是未來進一步研究的內(nèi)容。