謝海華,陳志優(yōu),程 靜,呂肖慶,2,湯 幟,2
(1. 北大方正信息產(chǎn)業(yè)集團(tuán)有限公司 數(shù)字出版技術(shù)國家重點實驗室,北京 100871;2. 北京大學(xué) 王選計算機研究所,北京 100871; 3. 北京雁棲湖應(yīng)用數(shù)學(xué)研究院,北京 101408)
中文語法錯誤檢測(Chinese Grammatical Error Diagnosis,CGED)的目標(biāo)是自動檢測出中文自然語句中的語法錯誤,如成分缺失或多余,語序不當(dāng)?shù)取GED的檢測任務(wù)一般包含: 是否存在錯誤、錯誤類型及錯誤發(fā)生位置。雖然CGED不能給出糾正錯誤的建議,但對于輔助寫作和文檔審校等場景依然十分有意義。在輔助寫作中,CGED給出語法錯誤類型和位置,讓作者有針對性地修改文章,可以提升寫作的質(zhì)量和效率。另外,在出版行業(yè)的審校環(huán)節(jié),由于正式出版物的格式要求十分嚴(yán)格,CGED可自動檢測出一些基礎(chǔ)的語法錯誤,可以為審校人員節(jié)省大量的時間,而直接糾正語法錯誤則可能造成文章的內(nèi)容和邏輯發(fā)生變化。
目前,有關(guān)語法錯誤檢測的研究大多數(shù)是針對英文的。與英文相比,中文的語法更加復(fù)雜和靈活。中文不存在詞語的單復(fù)數(shù)和時態(tài)等明確的語法規(guī)則,其語法錯誤經(jīng)常涉及隱晦的語義解析,不能基于字詞形態(tài)來判斷。[1]因此,現(xiàn)有的英文語法錯誤檢測方法不能很好地適用于CGED。另外,目前研究者傾向于運用生成式的方法直接進(jìn)行語法改錯,跳過了語法錯誤檢測的步驟[2-4],只有少量的研究采用序列標(biāo)注方法進(jìn)行中文語法錯誤檢測。然而,由于缺乏大規(guī)模高質(zhì)量的標(biāo)注語料作為訓(xùn)練集,CGED的準(zhǔn)確率往往不高,達(dá)不到實用水平。如何在訓(xùn)練數(shù)據(jù)有限的情況下提高語法錯誤檢測的效果是該類研究的一個難點。
針對上述問題,本文提出一種基于數(shù)據(jù)增強和語言學(xué)特征多任務(wù)訓(xùn)練方法來提升中文語法錯誤檢測的效果。針對訓(xùn)練語料不充足的問題,本研究使用大量無標(biāo)簽的正確中文語料,通過詞性規(guī)則、句法規(guī)則以及語言模型概率統(tǒng)計等方法來生成接近真實語法錯誤用例的樣本,以擴充訓(xùn)練語料。此外,本研究采用預(yù)訓(xùn)練語言模型對字詞進(jìn)行表征,以利用大規(guī)模語料蘊含的語義信息,并將詞法學(xué)習(xí)、句法學(xué)習(xí)、語法錯誤檢測等任務(wù)結(jié)合起來進(jìn)行多任務(wù)學(xué)習(xí),進(jìn)一步獲取中文語義和語法信息。本文提出的方法在NLPTEA CGED評測任務(wù)數(shù)據(jù)集上進(jìn)行測試,準(zhǔn)確率和召回率分別為85.16%和72.53%(F1值為0.783),性能優(yōu)于其他對比檢測模型。
中文語法錯誤自動檢測模型采取的方法從最初的統(tǒng)計學(xué)習(xí)方法[5]和基于規(guī)則的分析[6],到現(xiàn)在主流的深度學(xué)習(xí)算法[1,7],以及多種模型混合的方法[8]。大多數(shù)研究采用序列標(biāo)注模型來進(jìn)行語法錯誤檢測,并使用LSTM和CRF來實現(xiàn)[1,7,9]。使用LSTM模型進(jìn)行語法錯誤檢測時,特征的選擇十分重要,除了通常使用的字向量特征、詞向量特征、詞性POS特征,很多研究提出了許多新的特征[1,8-9]。例如,高斯互信息(ePMI)、向量詞的共現(xiàn)(AWC)、依賴關(guān)系詞語的共現(xiàn)(DWC)、基于語境的詞表達(dá)等。也有一些研究針對LSTM模型結(jié)構(gòu)進(jìn)行改進(jìn),比如在LSTM模型中加入策略梯度[10]。這些研究的重點在于學(xué)習(xí)中文語法規(guī)律,基于無標(biāo)注語料統(tǒng)計詞語規(guī)律和詞語用法,并提出相應(yīng)的特征來提高檢測效果。然而,統(tǒng)計特征不能捕獲深層的語法和語義信息,因此無法發(fā)現(xiàn)一些隱晦的語法錯誤。
針對訓(xùn)練語料不足的問題,一些研究者使用未標(biāo)注的中文語料來構(gòu)造錯誤用例。例如,通過隨機增加、刪除、替換字詞和打亂字詞順序來生成錯誤樣本[11];統(tǒng)計已有訓(xùn)練語料中語法錯誤分布,并構(gòu)造相應(yīng)的錯誤樣本[12]。前者采用隨機方式構(gòu)造的語法錯誤樣本,往往顯得不夠真實,其語法錯誤分布與正常寫作者所犯錯誤的分布相差較大。而后者構(gòu)造的錯誤數(shù)據(jù)過于擬合已有的訓(xùn)練樣本,不利于模型的泛化。
近年來,一些學(xué)者利用基于大規(guī)模語料預(yù)訓(xùn)練的語言模型來獲取文本的語言學(xué)特征,以彌補訓(xùn)練語料的不足?;陬A(yù)訓(xùn)練語言模型的語法錯誤檢測模型,其效果優(yōu)于通過融合多種特征構(gòu)建的模型[13-14]。不過這些方法都以英文為研究對象,它們尚未在中文數(shù)據(jù)集上進(jìn)行試驗或者測試性能。
大多數(shù)情況下,語法錯誤檢測的目的是對語法錯誤進(jìn)行糾正。在檢測出語法錯誤的類型和發(fā)生位置之后,可以根據(jù)錯誤類型,采用相應(yīng)的方法來修改語法錯誤。例如,錯誤提示為“成分冗余”,則直接刪除該成分;錯誤提示為“用詞不當(dāng)”,則基于詞語統(tǒng)計信息(如PMI)推薦候選詞語以替換錯誤詞語[1,12]。不過目前中文語法錯誤糾正的研究大多采用端到端的生成式方法,使用統(tǒng)計翻譯模型[2]、深度學(xué)習(xí)模型[3]、融合規(guī)則和統(tǒng)計的算法[4]等,由錯誤句子直接生成正確的句子。但是生成的句子有時會改變原文的表達(dá)方式甚至語義和邏輯,在很多情況下不能產(chǎn)生令人滿意的結(jié)果。
這一節(jié)將詳細(xì)介紹本文提出的語法錯誤檢測模型APM-CGED(APM代表data Augnentation,Pre-trained language model and Multi-tasklearning),其系統(tǒng)框架如圖1所示。為了解決訓(xùn)練語料缺乏的問題,本文采用數(shù)據(jù)增強方法來擴充訓(xùn)練數(shù)據(jù)集,使用預(yù)訓(xùn)練語言模型BERT[15]作為基礎(chǔ)的文本表征提取工具,并運用多任務(wù)訓(xùn)練數(shù)據(jù)來調(diào)整BERT參數(shù)以使它學(xué)習(xí)到更多的語言學(xué)特征。
圖1 APM-CGED系統(tǒng)框架
本文主要貢獻(xiàn)是提出了基于句法分析與預(yù)訓(xùn)練語言模型采樣的數(shù)據(jù)增強方法和基于語言學(xué)特征多任務(wù)學(xué)習(xí)的模型優(yōu)化方法。以下將對圖1所示流程和上述兩項貢獻(xiàn)進(jìn)行詳細(xì)闡述。
中文語法錯誤檢測研究的主要問題之一是訓(xùn)練語料的缺乏。我們使用大量未經(jīng)標(biāo)注的正確語句構(gòu)造含有語法錯誤的訓(xùn)練樣例,以彌補訓(xùn)練數(shù)據(jù)不足的問題。中文維基百科覆蓋面廣且表達(dá)方式豐富,人民日報表達(dá)方式規(guī)整規(guī)范,所以我們以維基百科和人民日報中文數(shù)據(jù)集為基礎(chǔ),抽取其中正確的語句,并對數(shù)據(jù)進(jìn)行處理后構(gòu)造訓(xùn)練樣本。主要步驟的介紹如下。
2.1.1 數(shù)據(jù)集預(yù)處理
主要的處理手段如下:
(1) 增加數(shù)據(jù)的一致性和減少噪聲,例如,將中文維基百科的繁體中文轉(zhuǎn)化成簡體中文,把全角字符轉(zhuǎn)化為半角字符。
(2) 運用中文處理工具對文本進(jìn)行分詞、詞性標(biāo)注、命名實體識別和依存句法分析。
(3) 選擇質(zhì)量較高的句子,例如,去除過長(詞數(shù)超過100個)和過短(詞數(shù)小于3個)的句子。
2.1.2 錯誤樣例構(gòu)造
本步驟將一些正確的語句改造為含有語法錯誤的語句。在語句經(jīng)過分詞、詞性標(biāo)注和依存句法分析之后,我們采用以下措施,構(gòu)建不同類型的語法錯誤的訓(xùn)練樣本。
(1) 成分冗余構(gòu)造: 在語句的詞語之間隨機插入沒有實際意義的詞語。候選的插入詞語選自停用詞表。
(2) 成分缺失構(gòu)造: 從主謂結(jié)構(gòu)片段中刪除主語或者謂語,從動賓結(jié)構(gòu)片段中刪除謂語或者賓語,從狀中結(jié)構(gòu)或者定中結(jié)構(gòu)片段中刪除被修飾成分。
(3) 語序不當(dāng)構(gòu)造: 修改動賓結(jié)構(gòu)、狀中結(jié)構(gòu)、定中結(jié)構(gòu)等結(jié)構(gòu)片段中成分的順序。
(4) 用詞不當(dāng)構(gòu)造: 隨機選取一個詞語并將其遮蓋(用MASK將其替換),然后用BERT的Masked LM預(yù)測出的候選字替換原來的字符。
2.1.3 錯誤樣例構(gòu)造規(guī)則
為了保證改造后的句子在含有語法錯誤的同時,保持語句的基本語義和結(jié)構(gòu),以免發(fā)生意思改變,我們設(shè)計了以下規(guī)則。
(1) 不對命名實體進(jìn)行修改。命名實體在句子中往往是主體成分,修改命名實體會改變句子的意思。例如,句子“協(xié)和醫(yī)院是中國最好的醫(yī)院之一,專治各種疑難雜癥”,如果對“協(xié)和醫(yī)院”進(jìn)行修改,語句的意思就會發(fā)生變化。
(2) 對于短句子,我們構(gòu)造的樣例中只含有一個錯誤。對于15個詞語以上的句子,我們會隨機增加錯誤。
(3) 在成分缺失和語序不當(dāng)構(gòu)造時,避免修改依賴距離很遠(yuǎn)的結(jié)構(gòu)成分,防止破壞語句結(jié)構(gòu)。
(4) 關(guān)于用詞不當(dāng)構(gòu)造,除了構(gòu)造“的、地、得”之間的誤用情況,不對虛詞、語氣詞之類無意義的詞語進(jìn)行修改以構(gòu)造該類錯誤。實際樣例中,虛詞的使用錯誤主要是成分缺失和冗余。
以下是兩個構(gòu)造的錯誤樣例示例。
樣例一: 語序不當(dāng)構(gòu)造
原句:加速推廣菌草技術(shù),將其列入國家開發(fā)計劃。
構(gòu)造句:推廣加速菌草技術(shù),將其列入國家開發(fā)計劃。
樣例二: 用詞不當(dāng)構(gòu)造
原句: 我跟朋友們經(jīng)常用手機打電話聊天。
構(gòu)造句: 我跟朋友們經(jīng)常用手機找電話聊天。
在以往的CGED研究中,研究者使用的主流模型是BiLSTM-CRF結(jié)構(gòu)。由于中文語法錯誤的復(fù)雜性和多樣性,語法的正確使用與語言學(xué)特征高度相關(guān),因此使用少量的訓(xùn)練數(shù)據(jù)很難訓(xùn)練出一個魯棒性好的CGED模型,人們會在模型中加入詞性、N-gram、PMI等語言學(xué)特征。但是,大量特征的使用使得模型結(jié)構(gòu)煩瑣,而且提取這些特征信息也大大降低了模型的運行速度。
本文采用基于BERT的預(yù)訓(xùn)練語言模型作為基礎(chǔ)來構(gòu)建CGED模型,利用它們在預(yù)訓(xùn)練階段學(xué)習(xí)到的深層語義信息。然后,我們采取多任務(wù)學(xué)習(xí)方式對BERT的參數(shù)進(jìn)行調(diào)整,使模型學(xué)習(xí)到各種語言學(xué)知識,并在預(yù)測階段不必進(jìn)行語言學(xué)特征提取,以提高模型的性能和效率。
多任務(wù)學(xué)習(xí)是指為模型設(shè)置多個訓(xùn)練目標(biāo),這些任務(wù)之間具有一定關(guān)聯(lián),并在訓(xùn)練階段可以互相促進(jìn)以達(dá)到更好的訓(xùn)練效果。多任務(wù)學(xué)習(xí)通過在模型上設(shè)置一些共享參數(shù)來實現(xiàn)。本文提出的方法使用BERT作為模型的共享部分,并使用不同結(jié)構(gòu)來實現(xiàn)詞性標(biāo)注、依存句法分析和語法錯誤檢測三個具體任務(wù)。基于語言學(xué)特征的多任務(wù)學(xué)習(xí)進(jìn)行BERT模型優(yōu)化的結(jié)構(gòu)如圖2所示。
圖2 基于語言學(xué)特征的多任務(wù)學(xué)習(xí)模型
在圖2所示的模型的輸出目標(biāo)中,主要包括: 詞性標(biāo)注,依存句法分析和語法錯誤檢測。基于這三項任務(wù)的訓(xùn)練,可以對BERT的參數(shù)進(jìn)行優(yōu)化,以使BERT能學(xué)到更多的語言學(xué)知識。我們認(rèn)為,這三個任務(wù)之間有互相促進(jìn)的作用,詞性和句法分析的結(jié)果能輔助判斷語句是否有語法錯誤。例如圖2中的例句“愛我北京天安門”是一個語法錯誤句,它的詞性標(biāo)注結(jié)果是: 動詞-代詞-名詞,這個詞性序列在中文語句中不常見,因此該句很可能含有語法錯誤。同樣地,判斷出語句含有語法錯誤,也有益于更準(zhǔn)確地分析語句的詞性和句法。這三個任務(wù)的詳細(xì)描述如下。
2.2.1 詞性標(biāo)注
我們采用序列標(biāo)注方法來實現(xiàn)詞性標(biāo)注任務(wù),在BERT之后增加一個全連接層直接輸出詞性結(jié)果。由于BERT采用字符嵌入方式,對于多字符詞語,我們采用“BI”的標(biāo)注方式(‘B’表示詞語開始位置,‘I’表示詞語中間或結(jié)束位置)進(jìn)行詞性標(biāo)注。在準(zhǔn)備訓(xùn)練數(shù)據(jù)時,詞性標(biāo)注的標(biāo)簽可以由中文處理工具(例如pyltp[16])直接生成,標(biāo)注示例如表1所示。
表1 詞性標(biāo)注示例
2.2.2 依存句法分析
依存句法分析的目的是確定語句的句法結(jié)構(gòu),通常以句法樹的形式,用有向弧表示詞語之間的修飾及指向關(guān)系(即依存關(guān)系)。在本文中,我們將句法結(jié)構(gòu)(或詞語之間的依存關(guān)系)用矩陣形式來表示。對于一個含有n個字的句子,用一個n×n的矩陣表達(dá)詞語之間的依存關(guān)系。為了避免關(guān)系矩陣(記為M)過于稀疏,我們將依存關(guān)系進(jìn)行簡化,取消修飾詞和被修飾詞之間的指向關(guān)系,所以M是一個對稱矩陣。假設(shè)語句的第i個詞(含有一個字符,在句子中的序號設(shè)為wi)與第j個詞(含有三個字符,在句子中的序號分別為wj1,wj2,wj3)之間的關(guān)系為動賓關(guān)系(VOB),則有Mwiwj1=Mwiwj2=Mwiwj3=VOB,而且Mwj1wi=Mwj2wi=Mwj3wi=VOB。我們將語句的主干詞對應(yīng)的對角線位置的值設(shè)置為Head,而對角線上其他位置的值設(shè)為0。以矩陣表示的句法結(jié)構(gòu)示例如圖3所示。
圖3 依存句法結(jié)構(gòu)矩陣示例
在準(zhǔn)備訓(xùn)練數(shù)據(jù)時,語句的句法結(jié)構(gòu)矩陣可以由中文處理工具生成的句法樹修改而成。在參數(shù)優(yōu)化階段,假設(shè)輸入語句為S,其文本序列長度為t,經(jīng)過BERT之后的語義表征為SBERT,它的維度為t×768。然后采用式(1)產(chǎn)生兩個中間變量H1和H2。
f表示對矩陣進(jìn)行形變操作的函數(shù),Wi和bi是隨機初始化并在訓(xùn)練中更新的參數(shù)。產(chǎn)生的H1和H2的維度都是64 ×t×12。然后基于式(2)產(chǎn)生句法結(jié)構(gòu)分析結(jié)果。
M的維度64 ×t×t,對應(yīng)t×t矩陣的每個元素的數(shù)值(維度是1 ×64),即句法結(jié)構(gòu)矩陣的結(jié)果。
2.2.3 語法錯誤檢測
我們采用多標(biāo)簽分類的方法完成語法錯誤檢測任務(wù),在BERT之后增加一個全連接層直接輸出分類結(jié)果。分類的結(jié)果是句子含有的語法錯誤的類型。如果語句不含語法錯誤則輸出“沒有錯誤”,如果它含有多個語法錯誤則輸出多個語法錯誤標(biāo)簽。語法錯誤檢測的訓(xùn)練數(shù)據(jù)是由前文所述方法構(gòu)造出來的或者是在實際寫作中產(chǎn)生的。
上述三個任務(wù)模型的損失函數(shù)都用交叉熵來計算。多任務(wù)學(xué)習(xí)模型的損失函數(shù)是這三個模型的損失函數(shù)之和,模型訓(xùn)練的目標(biāo)是最小化該損失函數(shù)。
圖4 中文語法錯誤檢測模型
我們把CGED視為序列標(biāo)注問題,并選用BERT-CRF結(jié)構(gòu)作為模型的基本架構(gòu),其中BERT的參數(shù)經(jīng)過2.2節(jié)所述方法進(jìn)行調(diào)整,見圖4。由于我們處理的對象是中文數(shù)據(jù),我們使用中文BERT模型,它是基于大量中文維基百科語料預(yù)訓(xùn)練而成。在BERT之后使用CRF模型[17],一種經(jīng)典的序列標(biāo)注方法,直接生成語法錯誤檢測的結(jié)果。語法錯誤標(biāo)簽使用“BIO”方式編碼,“B”代表錯誤的開始位置,“I”表示中間或者結(jié)束位置,“O”表示當(dāng)前字符沒有語法問題。例如對于錯誤X,“B-X”代表“X”錯誤的第一個位置,“I-X”表示其他位置。
在訓(xùn)練階段,訓(xùn)練數(shù)據(jù)集的部分?jǐn)?shù)據(jù)來自人們在實際寫作中出現(xiàn)的語法錯誤,而另一部分則來自前文所述方法構(gòu)造出的數(shù)據(jù)。訓(xùn)練模型和預(yù)測模型的結(jié)構(gòu)是一樣的,輸出的結(jié)果包含是否存在錯誤、錯誤類型以及錯誤發(fā)生的位置。
我們采用NLPTEA中文語法錯誤檢測評測數(shù)據(jù)集[18]試驗了我們的方法。NLPTEA提供一份標(biāo)注過的語法錯誤數(shù)據(jù)集,語料來源是漢語非母語的漢語學(xué)習(xí)者在中文寫作中產(chǎn)生的錯誤樣例。該數(shù)據(jù)集將語法錯誤分為四種類型: redundant errors(記為‘R’,即成分冗余),missing words(記為‘M’,即成分缺失), word selection errors(記為‘S’,即用詞不當(dāng))和word ordering errors(記為‘W’,即詞序不當(dāng))。數(shù)據(jù)集里的語句可能沒有語法錯誤,也可能含有一個或多個語法錯誤。語法錯誤檢測系統(tǒng)需要從以下三個方面對語句進(jìn)行檢測:
(1) Detection-level: 檢測語句是否含有語法錯誤。
(2) Identification-level: 語句含有的語法錯誤的類型。
(3) Position-level: 語句含有的語法錯誤的位置。
我們使用pyltp中文處理工具對語句進(jìn)行分詞、詞性標(biāo)注和依存句法分析,同時采用pyltp的標(biāo)注體系。在多任務(wù)學(xué)習(xí)優(yōu)化BERT時,我們使用了一些公開數(shù)據(jù)集來提升分詞的準(zhǔn)確性,以提高詞性標(biāo)注和依存句法分析的準(zhǔn)確度。
我們收集了NLPTEA 2016,IJCNLP 2017和NLPTEA 2018的CGED任務(wù)的評測數(shù)據(jù)集,有語句數(shù)量為20 451,按照句號、問號和感嘆號拆分之后的語句數(shù)量為104 141。選擇其中80%的數(shù)據(jù)作為訓(xùn)練數(shù)據(jù),其余數(shù)據(jù)為校驗數(shù)據(jù)。同時,我們收集和整理了中文維基百科數(shù)據(jù)集和人民日報數(shù)據(jù)集,使用2.1節(jié)介紹的數(shù)據(jù)構(gòu)造方法生成訓(xùn)練數(shù)據(jù)(語句總數(shù)為138 825)并加入到訓(xùn)練集。為了維持正確語句和錯誤語句的比例,我們在數(shù)據(jù)集中加入了同等數(shù)量的不含語法錯誤的語句。
我們按照2.2節(jié)介紹的方法,運用訓(xùn)練數(shù)據(jù)對BERT的參數(shù)進(jìn)行調(diào)整。然后使用訓(xùn)練數(shù)據(jù)對語法錯誤檢測的BERT+CRF模型進(jìn)行訓(xùn)練,使用校驗數(shù)據(jù)進(jìn)行測試。我們同時使用不同的模型進(jìn)行了對比實驗,表2顯示了對比實驗的結(jié)果。其中,B0表示未經(jīng)過優(yōu)化的BERT模型,MTL表示多任務(wù)學(xué)習(xí)方法,DA表示數(shù)據(jù)增強,B0+MTL+DA則表示文本采用的方法。不同的模型分別在NLPTEA 2018 CGED任務(wù)的HSK測試集(NLPTEA-18-HSK)、NLPTEA 2016 CGED任務(wù)的HSK測試集(NLPTEA-16-HSK)和TOCFL(NLPTEA-16-TOCFL)測試集上進(jìn)行了實驗。
對比實驗結(jié)果表明,使用語言學(xué)特征對BERT進(jìn)行優(yōu)化之后,語法錯誤檢測的效果在各方面都有明顯的提升,特別是檢測的召回率得到很大提高。但是隨著召回率的上升,檢測精確率有一定程度的下降,不過數(shù)據(jù)增強的使用很好地彌補了這個問題,使得模型能夠同時提高檢測的召回率和精確率,并使F1指標(biāo)提升。
表2 中文語法錯誤檢測模型的對比實驗結(jié)果
我們與NLPTEA 2018 CGED評測結(jié)果進(jìn)行了橫向?qū)Ρ?。我們沒有采用模型融合以進(jìn)一步提高檢測效果,只用單一模型來與NLPTEA 2018評測效果較好的模型進(jìn)行對比,結(jié)果見表3。HFL、CMMC-BDRC和NCYU是NLPTEA 2018評測結(jié)果里面準(zhǔn)確率、召回率或者F1值較高的模型。在Detection Level和Identification Level這兩個測試指標(biāo)上,我們的單模型都取得了最優(yōu)的F1值。但是在Position Level指標(biāo)上,我們方法的效果不如HFL。經(jīng)過分析,我們認(rèn)為這可能是因為構(gòu)造的錯誤案例與實際測試的錯誤案例錯誤分布不一致而造成的。
表3 BERT+MTL+DA與NLPTEA 2018 CGED評測模型的對比
續(xù)表
本文針對中文語法錯誤檢測研究存在的主要問題之一是訓(xùn)練語料的缺乏,采用數(shù)據(jù)增強、預(yù)訓(xùn)練語言模型和語言學(xué)特征多任務(wù)學(xué)習(xí)的方式,有效地提高了語法錯誤檢測的效果。使用語言學(xué)特征對語言模型進(jìn)行優(yōu)化能夠使它學(xué)習(xí)到顯式的語言學(xué)特征以及隱藏的語義信息,而語言學(xué)特征和語法使用是十分相關(guān)的,所以它對語法錯誤檢測效果有明顯的改善作用。
由于中文語法的復(fù)雜性,我們目前的工作依然存在很多不足,錯誤類型和位置的檢測效果不好。在下一步的工作中,我們將進(jìn)一步提高數(shù)據(jù)構(gòu)造的合理性,使構(gòu)造的錯誤樣本更符合人們實際所犯的語法錯誤。另外,我們會對語言學(xué)特征的多任務(wù)學(xué)習(xí)的結(jié)構(gòu)進(jìn)行改善,以進(jìn)一步提高CGED任務(wù)的檢測效果。