,李 云,吳信東
(1. 揚州大學 計算機科學與技術系,江蘇 揚州 225127;2. 大數(shù)據(jù)知識工程教育部重點實驗室(合肥工業(yè)大學),安徽 合肥 230009;3. 合肥工業(yè)大學 大知識科學研究院,安徽 合肥 230009)
詞匯簡化(Lexical Simplification,LS)在不破壞原有句意的情況下,使用更容易閱讀(或理解)的詞或者短語代替原始文本中的復雜詞。 LS有很多實際應用背景,可作為終端用戶的閱讀輔助工具,也可作為其他自然語言處理任務的預處理步驟。LS是一種能夠降低閱讀難度的有效方式,特別是對有閱讀障礙的人[1]、失語癥患者[2]和讀寫能力差的人[3]。該任務已在不同的語種得到了應用,例如,英語[4-5]、西班牙語[6]、瑞典語[7]和葡萄牙語[3]。
為什么LS是一種有效的簡化文本的方式?心理語言學的有關研究對該問題進行了解釋。 Hirsh和Nation[8-9]的研究表明,英語學習者需要熟悉文章中95%的詞匯才能基本理解文本,熟悉98%的詞匯才能輕易地進行閱讀。他們對那些熟悉文章詞匯的人進行觀察,發(fā)現(xiàn)只要熟悉詞匯,即使不能理解文章中的有些語法,也可以理解文章想表達的意思。這些發(fā)現(xiàn)意味著通過替換復雜詞能夠大大增加文章的可讀性,是一種有效的文本簡化方式。詞語簡化方法作為文本簡化方法的一類,在國外已受到廣泛關注,但是漢語作為一種非常復雜的語言,卻鮮有人研究。因此,本文系統(tǒng)地綜述該領域目前的技術發(fā)展狀況以及面臨的挑戰(zhàn),以期為研究者提供一定的參考。
隨著自然語言處理技術的更新,很多LS方法也相應被提出。一般情況下,LS任務先識別復雜詞,然后尋找復雜詞的最佳替換詞。一個合適的替換詞需要符合目標詞的上下文信息并且使句子更加簡單易懂。大多數(shù)LS方法[10]一般需要以下四個步驟: 復雜詞識別、候選詞生成、候選詞選擇和候選詞排序。具體例子如圖1所示。例如,給定一個句子S=“The cat perched on the mat.”。
圖1 詞匯簡化的框架
(1)復雜詞識別: 判斷給定句子中的哪些詞是復雜詞,如識別出復雜詞“perched”。
(2)候選詞生成: 生成可替換復雜詞的候選詞集合,如產(chǎn)生復雜詞“perched”的候選詞集合“rested, sat,alighted”。
(3)候選詞選擇: 選擇符合復雜詞上下文信息的候選詞,如過濾掉候選詞“alighted”。
(4)候選詞排序: 根據(jù)簡單性、流暢性等特性對候選詞進行排序。候選詞“sat, rested”的排序結(jié)果中排序最高的是“sat”,緊接著是“rested”。最后選擇排序最高的“sat”替代原詞“perched”,得到的最終簡化句子為“the cat sat on the mat.”。
由于不同的目標受眾會有不同的需求,比如不同母語的受眾對第二語言詞匯的不同部分熟悉程度是不一致的,因此這是一項非常具有挑戰(zhàn)性的任務。因此,本文將對主要的詞語簡化方法進行綜述,并討論其優(yōu)缺點。本文的主要貢獻如下:
(1) 提出了一種詞語簡化方法的分類體系,并解釋了它們各自的優(yōu)缺點。本文將詞語簡化方法分為語言數(shù)據(jù)庫、自動規(guī)則、詞嵌入模型、混合模型和預處理語言模型五種類型。
(2) 給出了漢語詞語簡化方法研究存在的難點和詞語簡化方法未來的發(fā)展方向。
本文組織結(jié)構(gòu)如下: 第1節(jié)對文本簡化方法進行了總結(jié);第2節(jié)對詞語簡化框架展開論述;第3節(jié)討論不同的詞語簡化方法,并做了詳細的闡述;第4節(jié)討論漢語詞語簡化方法研究的難點;第5節(jié)對未來的發(fā)展方向與挑戰(zhàn)進行探討;最后為總結(jié)全文。
文本簡化是在保留原有文本信息的情況下,盡可能簡化原有文本的內(nèi)容,從而達到更容易被更廣泛的觀眾閱讀和理解的效果。文本簡化主要針對文本中詞匯和句法進行簡化,主要研究的內(nèi)容分為兩個部分: 詞語的簡化和基于機器翻譯的文本簡化。這里先介紹基于機器翻譯的文本簡化方法,接著簡單介紹詞匯簡化的主要工作。
文本簡化的早期方法[11-13]大多數(shù)都是基于規(guī)則的系統(tǒng),關注的重點是句法操作,如句子分割、刪除和重新排序。之后,由于能夠獲取到“正?!蔽谋竞汀昂唵巍蔽谋窘M成的平行語料,特別是由維基百科語料和兒童維基百科語料組成的平行語料,文本簡化通常被當作單語言的機器翻譯問題,即將原文本轉(zhuǎn)換成目標文本。Specia等人[14]第一個將句子簡化問題映射為單語言的機器翻譯問題,他們使用的語料包含了兩種簡化形式的句子: 一種是由注釋者自動生成的;另一種是按照特定的指示生成的。Specia采用了標準的基于統(tǒng)計的機器翻譯(Statistical Machine Translation, SMT)方法。之后,基于短語的SMT系統(tǒng)[15]也被用來訓練簡化模型,該模型采用了3 383個句子對進行訓練,用額外的500句子對進行參數(shù)調(diào)整, 并使用BLEU[16]和NIST[17]兩個指標對模型進行評估。Coster和Kauchak[18]也采用了SMT模型簡化英文句子,但是他們使用了從英文維基百科(EW)和兒童英文維基百科(SEW)中匹配的13 700個句子對。Wubben等人[19]進一步通過一種非相似度重排機制選擇可能的簡化句子,該重排機制通過Levenshtein編輯距離[20]計算插入、刪除和替換的最小數(shù)目,選擇與復雜句子最不同的n個最好的翻譯句子。但是,以上介紹的基于SMT的簡化模型都是基于N-gram進行學習的,很難學習到句法結(jié)構(gòu)的簡化。
由于神經(jīng)機器翻譯模型取得了很大的成功[21-22],Wang等人[23]和Nisioi等人[24]最先提出采用基于端到端的神經(jīng)機器翻譯來解決句子簡化問題。Zhang等人[25]在循環(huán)神經(jīng)網(wǎng)絡的基礎之上引入了強化學習,設計了針對簡化、流利性和相關性的獎勵措施。為了能更好地處理長句子或者復雜句子,Zhao等人[26]集成了transformer結(jié)構(gòu)和PPDM規(guī)則指導簡化學習過程,Sulem等人[27]聯(lián)合了神經(jīng)機器翻譯模型和句子分割模塊。借助外部語料的文本簡化方法也被提出來。Guo等人[28]引入了多任務機制優(yōu)化神經(jīng)網(wǎng)絡的參數(shù)。Dong等人[29]提出一種神經(jīng)程序員-解釋器模型,可以顯現(xiàn)地預測原句子的編輯操作,這里神經(jīng)程序員預測編輯操作,如保持、刪除和增加,解釋器在考慮上下文的情況下執(zhí)行編輯操作并記錄編輯操作,其中記錄的編輯操作用來輔助未來決策。為了有針對性地控制句子簡化的等級,Scarton和Specia[30]在訓練基于端到端的模型中,給每個句子指定了11個等級水平。Nishihara等人[31]在損失函數(shù)中加入了詞的等級水平,進一步控制簡化句子的等級水平。
詞匯簡化問題是本文主要綜述的工作。通過識別句子中的復雜詞,然后為每一個復雜詞找到最好的候選簡化詞。詞匯簡化方法最先研究的是利用詞典提取規(guī)則進行詞匯簡化[32]。由于基于規(guī)則的方法需要人工定義規(guī)則,因而具有很大的局限性。之后,Horn等人[4]利用平行語料,如EW和SEW,根據(jù)編輯歷史提取簡化規(guī)則。基于平行語料方法的局限性是嚴重依賴平行語料獲取簡化規(guī)則的質(zhì)量。為了避免對語義詞典或者平行語料的依賴,基于詞嵌入的方法被提出[5,10],通過利用詞嵌入模型選擇與復雜詞最相似的詞語作為候選替代詞。在以上所有的詞匯簡化方法產(chǎn)生復雜詞的候選替代詞的過程中,都沒有考慮復雜詞的上下文信息,不可避免地會產(chǎn)生大量的干擾替代詞。Qiang等人[33]和Zhou等人[34]提出了基于預訓練語言模型的算法,充分利用了預訓練語言模型BERT。該方法[33]先掩碼要簡化的復雜詞,然后輸入掩碼的句子并連接復雜句子給BERT,之后利用BERT的掩碼語言模型產(chǎn)生候選替代詞。相對已有的方法,該方法充分利用整個句子產(chǎn)生候選替代詞,而不是僅僅復雜詞本身?;陬A訓練模型的方法解決了以前詞匯簡化無法解決的問題,對詞匯簡化問題提供了很好的研究思路。
目前,已有的詞語簡化方法方面的綜述有Paetzold等人[35]撰寫的論文。本文與該論文的區(qū)別主要有以下四點: ①本文包含了最近幾年提出的詞語簡化方法,包括基于神經(jīng)網(wǎng)絡的方法和基于預訓練語言模型的方法。②論文敘述的角度不同。本文是從方法的角度展開敘述,詳細介紹每一個步驟都是如何完成的。先前的綜述是從步驟的角度進行闡述,詳細介紹每個步驟應采取的策略??梢钥闯?,本文更有助于對每個方法有全面性的掌握。③相對于英語詞語簡化方法,本文還介紹了漢語詞語簡化研究的難點。④本文給出了詞語簡化方法面臨的挑戰(zhàn)和未來的發(fā)展方向。
本節(jié)將對詞語簡化方法的每一步采用的策略進行展開介紹。
基于復雜詞識別策略的不同,本文把復雜詞識別方法分為以下幾類: 簡化所有的詞、基于閾值的方法、基于詞典的方法、隱式復雜詞識別的方法、基于分類的方法和基于序列標注的方法。①簡化所有的詞[32]是最早的復雜詞識別方法,認為所有詞都應該簡化,現(xiàn)在已經(jīng)很少被使用。②基于閾值的方法[6,36]認為大于某種閾值的詞屬于簡化詞或復雜詞,常用的閾值是詞頻或者長度等。③基于詞典的方法[3,37]利用簡化或者復雜的詞典進行識別?;陂撝岛驮~典的方法簡單、容易理解,但是都有一定的局限性。④隱式復雜詞識別[10,38]的方法是把復雜詞也作為一種候選詞,讓后面的步驟決定是否需要替換復雜詞,是一種非常實用的方法。⑤基于分類的方法[39-41]把復雜詞識別作為一種二分類任務,利用標注的數(shù)據(jù)學習分類器。該類方法需要的特征往往很多,不同特征對性能的影響也不同,采用集成的分類模型有著最好的分類性能。⑥基于序列標注的方法[42]是最近提出的一種方法,對整個句子中的標有詞語進行二分類預測,是唯一的一類考慮了上下文對目標詞影響的方法??赡苡捎谠~語復雜度識別語料規(guī)模都比較小,該方面并沒有取得比基于分類方法更好的效果。
候選詞生成是LS方法必不可少的一步。候選詞選擇和候選詞排序兩步關系緊密,許多方法省去了候選詞選擇這一步,直接進行候選詞排序,因為排序過程本身也是一個選擇過程。由于產(chǎn)生候選詞的方式不同,本文針對LS中的候選詞生成進行以下幾種方式劃分。①語言數(shù)據(jù)庫: 最早的LS方法[3,32]使用同義詞替換目標詞,即選擇目標詞的同義詞作為候選詞。②自動規(guī)則: 考慮到詞典的覆蓋性不足問題,利用平行語料自動提取簡化規(guī)則的方法[4,43]被提出,這里平行語料一般指的是復雜句子和對應簡化句子構(gòu)成的句子對集合。 這兩類方法都是基于規(guī)則的方法。③詞嵌入模型: 2010年以后,隨著詞嵌入模型的快速發(fā)展,一些利用詞嵌入模型的方法[5,10]也相應被提出。這些方法通過詞嵌入模型獲取詞語的向量表示,然后計算詞語之間的相似度,尋找最相似的詞語作為候選詞。不同于以前的方法,該類方法不需要語言數(shù)據(jù)庫和平行語料,只需要原始文本訓練詞向量模型。 ④混合模型: 有一些方法把詞嵌入的方法和前面幾類相結(jié)合[38,44]共同獲取詞語的候選替代詞。⑥BERT: 最近兩年,利用無標注的海量文本訓練預訓練語言表示模型,徹底改變了許多自然語言處理任務,例如,ELMo[45]、GPT[46]、BERT[47]和XLNet[48]等。這些自監(jiān)督的語言表示模型大多采用掩碼語言模型(Masked Language Model, MLM)進行學習。MLM先隨機掩碼部分詞語,然后通過上下文信息預測被掩碼的詞語對模型進行優(yōu)化。因此,一些基于BERT的詞語簡化方法[33-34]就是對句子中的復雜詞進行掩碼,利用MLM對掩碼詞進行預測,并選擇預測概率高的詞語作為候選詞。在所有的候選詞生成策略中,基于BERT的方法是唯一一類在生成候選詞的過程中考慮了上下文信息的方法。
候選詞選擇的目標是決定哪些候選詞可以用來替換目標詞,對明顯不合理的候選詞進行過濾。例如,如果復雜詞在句子中是名詞,合理的候選詞在原上下文的環(huán)境中也應該是名詞,因此就可以通過候選詞的詞性,過濾掉不是名詞的候選詞。該步驟并不是必須的,很多詞語簡化方法都省略了該步驟。但是基于以往的候選詞選擇策略,可以大致分為以下幾類。①選擇所有候選詞[32-33]: 將生成的所有候選詞都作為有效候選。②顯式詞義標注[49]: 將該任務轉(zhuǎn)換成詞義消歧(Word Sense Disambiguation, WSD)任務。該策略使用分類方法確定目標詞在句子中具體的詞義標簽,然后選擇具有相同標簽的候選詞作為有效候選。這種詞意標簽可以從語言數(shù)據(jù)庫中找到,例如,WordNet。③詞性標簽過濾[3]: 選擇與目標詞具有相同詞性標簽的候選詞作為有效候選詞。④語義相似度過濾[10]: 語義相似性過濾是考慮復雜詞的上下文情況,計算候選詞與目標詞之間的相似性度量,然后過濾掉與目標詞語義相似度低的候選詞。 ⑤多特征融合過濾[44]: 聯(lián)合多個特征對候選詞進行過濾。
候選詞排序是詞語簡化的最后一步,是在保持原句意義的情況下,采用更簡單的詞語替代原有的復雜詞。該任務要求在該步驟考慮目標受眾的需求,并對詞語的簡單性進行量化,以便將目標候選詞替換為頂級候選詞后能夠產(chǎn)生最簡單的輸出。已有的方法大致分為以下三類。①頻率[10]: 該策略不僅簡單而且非常實用,利用了一種直覺,即更常使用的單詞更容易被人所熟知。②簡單性度量[6,43]: 合并多個特征對單詞的簡單性進行度量是解決基于頻率的排名策略局限性的一種方法。③機器學習[38]: 利用機器學習技術對候選詞進行排序,如SVM排序器[4]和有監(jiān)督的神經(jīng)網(wǎng)絡排序模型。目前最新的方法大多[5,33]都是利用多個規(guī)則對候選詞進行排序,如果候選詞不能很好地滿足多個規(guī)則,則不進行替換。
本文依靠候選詞生成的策略對詞語簡化方法進行分類,每一類選擇一些最具代表性的算法進行詳細介紹,如表1所示。
表1 詞語簡化方法列表
續(xù)表
從專業(yè)人員手動構(gòu)建的數(shù)據(jù)庫中尋找候選詞是一種最常用的策略,因為它將詞典中提供的同義詞和其他相關單詞作為候選詞。由于很多語言都有詞典、或者同義詞詞典等語料,該類方法的優(yōu)點容易理解,也容易實現(xiàn),已經(jīng)被用于多種語言進行詞語簡化。比如,英語常用的WordNet[52]包含了117 659個同義詞集。還有Global WordNet(1)http://globalwordnet.org/是一個囊括不同語言各種版本的WordNet平臺,總共包括了78種不同的WordNet,其中包括了一些多語言的WordNet,例如,Open Multilingual WordNet。
(1) Devin
① 該方法不執(zhí)行復雜詞識別步驟,而是認為句子中所有的詞都可以被簡化。
② 該方法直接從WordNet中提取目標詞的同義詞作為候選詞。
③ 該方法不執(zhí)行候選詞選擇步驟,將生成的所有候選詞都作為有效候選。
④ 該方法利用最簡單的頻率策略對候選詞進行排序,其中統(tǒng)計詞頻的語料選擇的是Brown語料庫[53]。
(2) FACILITA
FACILITA系統(tǒng)是PorSimples項目[3]的一個用于簡化網(wǎng)頁的工具,是面向葡萄牙語識字率較低的讀者的簡化框架。
① 該方法用于識別簡單詞的詞典,主要由三部分組成: 兒童書籍中提取的單詞、新聞文檔中的高頻詞以及由Janczura等人[54]手動標注的具體詞。
② PorSimples工程使用由TeP 2.0數(shù)據(jù)庫[55]和PAPEL(2)http://www.linguateca.pt/PAPEL提供的相關單詞集作為候選詞生成的語義詞典。這兩個語料庫能夠最大程度地覆蓋現(xiàn)有的同義詞和反義詞。
③ 在候選詞選擇這一步,該方法使用詞性標簽過濾并丟棄與目標詞詞性不一致的候選詞。該方法使用的是在NILC tagset語料上訓練的MXPOST分詞器。
④ 在候選詞排序步驟中,該方法采用的是基于詞頻的方法,但是利用搜索引擎作為詞頻統(tǒng)計獲取的來源。具體是利用Google API獲取的頁面數(shù)統(tǒng)計候選詞的頻率,接著依據(jù)詞頻對候選詞進行排序。這種策略對于在線場景中的任務來說非常實用,允許創(chuàng)建輕量級的簡化器。因為它放棄了經(jīng)過數(shù)十億字訓練的大型語言模型,然而,隨著搜索引擎數(shù)據(jù)庫的不斷更新擴展,這些方法的表現(xiàn)不穩(wěn)定且難以復現(xiàn)。
(3) Keskis?rkk?
① Keskis?rkk?[7]使用單詞長度作為單詞復雜性度量。實驗結(jié)果顯示,基于單詞長度的閾值策略能夠有效降低錯誤的數(shù)目。例如,僅簡化長度超過7的單詞生成的句子比簡化所有詞生成的句子具有更高的可讀性。
② 該方法使用SynLex(3)http://folketslexikon.csc.kth.se/synlex.html(瑞典語詞典)來尋找比復雜詞更頻繁出現(xiàn)的同義詞作為候選詞。
③ 該方法不執(zhí)行候選詞選擇步驟。
④ 該方法從瑞典Parole數(shù)據(jù)庫(4)http://spraakdata.gu.se/parole/lexikon/swedish.parole.lexikon.html中提取詞頻對候選詞進行排序。
(4) LexSiS
LexSiS是一種用于西班牙語的詞匯簡化系統(tǒng),利用同義詞詞典提取候選詞。
① 該方法采用基于閾值的方法識別復雜詞。當詞語出現(xiàn)在一個大型語料庫中的句子數(shù)目超過1%時,該單詞被歸為簡單詞。使用的大型語料庫是從網(wǎng)頁中提取含有8 000 000個詞的西班牙文本。
② 從西班牙OpenThesaurus(5)http://openthes-es.berlios.de中查詢西班牙語復雜詞的同義詞。
③ 在候選詞的選擇過程中,主要是將候選詞與復雜詞的上下文進行聚類,然后篩選。為候選詞創(chuàng)建9個詞(左右各4個詞)的窗口共現(xiàn)詞向量C(Sent(t))和C(c),其中,C(Sent(t))表示目標詞t在句子Sent中的詞向量表示,C(c)是候選詞c在大語料中的詞向量表示,詞向量的大小是詞匯表的大小。通過計算C(Sent(t))和C(c)之間余弦距離,丟棄所有值小于0.013的候選詞。這里使用的0.013是通過實驗獲得的閾值。
④ 基于詞語的長度和詞語的頻率,設計一種對候選詞進行排序的度量方法。在此基礎上,設計了兩個加權(quán)數(shù),如式(1)所示。
M(c)=α1scorewl(c)+α2scorefreq(c)
(1)
其中,α1和α2是可調(diào)整的權(quán)重參數(shù)。
為了確定α1和α2,采用啟發(fā)式的方法從一組手工創(chuàng)建的詞匯簡化中搜索最大化評估得分的參數(shù)。式(1)中的scorewl(c)和scorefreq(c)由式(2)和式(3)計算得到,
(2)
scorefreq(c)=log(F(c,Simple))
(3)
其中,F(xiàn)(c,Simple)是從西班牙的Simplext Corpus中提取的詞頻。scorewl(c)公式的動機來源于一項觀察。通過觀察人工制定的西班牙語詞匯簡化規(guī)則,發(fā)現(xiàn)復雜詞平均比簡單詞多四個字符。
(5) Kajiwara
該方法是針對日語的詞語簡化方法。
① 該方法使用基于詞典的方法確定復雜詞。不在簡單詞詞典“Basic Vocabulary to Learn”[56]的詞都被認為是復雜詞,該詞典收集了能夠幫助兒童更易交流的5 404個日語單詞。
② 候選詞是從字典的定義中獲取的。這里使用的字典提供了單詞描述但不包含同義關系。該方法首先在字典中查詢目標詞的定義,然后利用分詞器對定義進行分詞,接著提取和目標詞具有相同詞性標簽的詞作為候選詞。這里選用的日語詞典有三個: EDR[57]、Sanseido[58]和The Challenge[59]。
③ 候選詞排序過程中,將簡單性度量融入了候選詞和復雜詞上下文之間的聯(lián)系。具體計算方法是將簡單性表示為五個指標的加權(quán)和,如式(4)所示。
M(S,t,c)=α1Fcorpus(c)+α2Sense(c,t)
+α3Cooc(c,S)+α4Log(c,S)
+α5Trigram(c,S)+α6Sim(c,t)
(4)
其中,F(xiàn)corpus(c)是候選詞c在證明料中的頻率,Sense(c,t)是候選詞c和目標詞t之間的詞義距離,Cooc(c,S)是句子S中的單詞和候選詞c的詞共現(xiàn)之和,Log(c,S)是c和S之間的歸一化后的詞共現(xiàn)之和,Trigram(c,S)是句子S中圍繞c(用c替換目標詞t)的三元組的頻率和,Sim(c,t)是c和t的分布式相似度??梢园l(fā)現(xiàn),該度量融入了句法、詞義等多個特征,可以認為是候選詞生成和候選詞排序的混合方法。讀者可以在Kajiwara等人[37]的工作中了解Cooc、Log、Trigram和Sim的詳細計算過程。
語言數(shù)據(jù)庫是專家人工編輯的,只能覆蓋一部分詞語,更新速度也比較慢。相對于基于語言數(shù)據(jù)庫的方法,基于自動規(guī)則的方法利用公開的平行語料提取復雜詞的候選詞。
(1) Biran
Biran是一種從維基百科語料(EW)和兒童維基百科(SEW)中學習規(guī)則的方法,這里每個規(guī)則指的是{原詞→簡化詞}。該方法認為EW和SEW中所有不同的單詞對都可能是簡化對。他們用WordNet對這些單詞對進行過濾,去除詞形變化和沒有在WordNet中標記為同義詞或上位詞的單詞對。
① 該方法采用的是隱式的復雜詞識別。定義了詞語簡單性度量標準,放棄替代比目標詞更復雜的候選詞。詞的復雜度使用單詞的詞頻和長度來確定性。具體計算如式(5)所示。
(5)
語料庫復雜度的計算如式(6)所示。
(6)
其中,F(xiàn)(c,Complex)是復雜語料庫Complex中候選詞c的原始頻率。式(6)要求復雜和簡單語料庫必須都包含有復雜詞和簡單詞。他們使用EW和SEW分別表示復雜語料Complex和簡單語料Simple。
該方法利用詞的復雜度對規(guī)則做進一步過濾,只保留規(guī)則原詞復雜度大于簡化詞復雜度的規(guī)則。針對剩下的規(guī)則,他們利用詞語的不同形態(tài)對規(guī)則進行擴展。
② 利用發(fā)現(xiàn)的規(guī)則產(chǎn)生詞語的候選詞。
③ 構(gòu)建復雜詞w的向量表示CVw和對應句子的向量表示SCVs,w。針對每個詞w,創(chuàng)建10個詞的窗口共現(xiàn)詞向量,詞向量的大小是詞匯表的大小,向量中的每一維i對應的值CVw[i]是詞wi在10個詞的窗口中出現(xiàn)的數(shù)目。SCVs,w也是通過類似方法構(gòu)建的,統(tǒng)計句子中圍繞詞w的窗口以內(nèi)的詞的數(shù)目。通過計算CVw和SCVs,w之間的余弦距離,丟棄所有值小于0.1的候選詞,這里的0.1是通過實驗獲得的閾值。
④ 針對規(guī)則{w→c}中的每個候選詞c,構(gòu)建一個公共上下文向量CCVw,c。CCVw,c包含兩個詞共同的特征,其中,特征值取兩者中的最小值,即CCVw,c[i]=min(CVw[i], CVc[i])。計算公共上下文向量和句子上下文向量的相似度,即ContextSim=cos(CCVw,c, SCVs,w)。如果ContextSim的值大于指定閾值0.01,使用該規(guī)則進行簡化。如果多個規(guī)則都滿足,則使用獲取最大相似度值的規(guī)則。
(2) Horn
Horn方法是一種基于平行語料的詞語簡化方法。首先,利用平行語料提取簡化規(guī)則。利用GIZA++方法[60]對匹配的句子進行詞語對齊。對齊的詞都是可能的候選規(guī)則。過濾掉滿足以下條件的規(guī)則: 所帶詞性標簽不同的單詞對;至少有一個詞是專有名詞或者是停用詞的單詞對。為了增加覆蓋范圍,他們將所有單詞對轉(zhuǎn)換為所有形態(tài),進行規(guī)則的擴展。
① 該方法采用的是隱式的復雜詞識別。該方法將目標詞本身也放到候選替代詞的集合中。換句話說,復雜詞本身也變成了候選替代詞。如果系統(tǒng)認為目標詞本身是所有候選詞中最簡單的,那么就不進行替換。
② 從平行的維基百科語料庫中提取復雜詞與簡單詞的對應關系,將相應的簡單詞都作為候選詞。
③ 候選詞排序采用的是基于線性支持向量機的SVMrank方法[61],成對地比較不同排序元素,讓損失函數(shù)值達到最小。使用的特征包括各種語料庫的詞頻、上下文頻率和n元文法語言模型概率。
(3) Simple PPDB
Pavlick和Callison-Burch[50]提出了怎么從PPDB提取子集Simple PPDB的分類方法。PPDB[62]是包含超過一億個復述(Paraphrases)規(guī)則的數(shù)據(jù)庫。數(shù)據(jù)庫中的復述規(guī)則是從各種語言的文本中自動提取的。每個復述規(guī)則都被自動分配從1到5的質(zhì)量得分。該文只給出了候選詞的產(chǎn)生過程,即產(chǎn)生復雜詞的候選詞可以直接從Simple PPDB中的簡化復述規(guī)則中提取。Simple PPDB[50]從PPDB數(shù)據(jù)庫中提取的一個子數(shù)據(jù)集,包含大約450萬個復雜到簡單的英語單詞及復述規(guī)則。
(4) Kri2
Kri2方法的主要工作是構(gòu)建了一個復雜詞識別數(shù)據(jù)集,從而可以用來幫助分類器識別句子的復雜詞。
① 為了采用分類的方法識別句子中的復雜詞,該文利用亞馬遜的眾包平臺標注了一個訓練數(shù)據(jù)集,這里使用的句子是從Newsela中抽取的對齊句子。Newsela(6)https://newsela.com/data是為了滿足不同年級兒童的要求,由專門的編輯人員重新撰寫的新聞文章語料庫。該語料庫包含1 130篇新聞文章,每篇文章為不同年級的兒童重寫了4次,獲得了四個簡化版本。Xu等人[63]從這個語料庫中提取了141 582個對齊句子。實驗過程中,采用支持向量機識別復雜詞,使用的特征主要有長度、頻率、音節(jié)數(shù)目、WordNet中同義詞組的數(shù)量和同義詞的數(shù)目。
② 利用三個數(shù)據(jù)庫(WordNet、PPDB和SimplePPDB)產(chǎn)生候選詞。其文中實驗證明,Simple-PPDB產(chǎn)生的候選詞效果最好。
③ 該方法不執(zhí)行候選詞選擇步驟。
④ 采用了Melamud等人[64]提出的方法,通過測量候選詞與復雜詞和候選詞與上下文的相似度對候選詞進行排序,如式(7)所示。
(7)
其中,c和t分別是候選詞和復雜詞的詞嵌入向量,C是復雜詞的上下文詞的詞嵌入向量集合,|C|表示上下文詞語的數(shù)目。其文中采用的上下文窗口為1,即復雜詞左右各取一個詞。
這類方法利用預訓練的詞嵌入模型獲取詞的向量表示[65],然后利用余弦相似度尋找與復雜詞最相似的詞作為候選詞。
(1) Light-LS
Light-LS不進行復雜詞識別,逐個對所有的內(nèi)容詞(名詞、形容詞、動詞和副詞)進行簡化。Light-LS第一個利用詞嵌入模型獲取詞語的候選詞。提取候選詞后,采用多個特征對候選詞排序,選擇排序最高的詞作為最優(yōu)替代詞。最后,通過對比最優(yōu)替代詞和原詞在大語料中的詞頻來決定是否替換原詞。考慮到替換詞可能和原詞不具有相同的詞性標簽,還需對替換詞進行適當?shù)男螒B(tài)變換。
① 該方法采用的是隱式的復雜詞識別,僅在目標詞的詞頻低于選擇的替代詞的詞頻時才能替換目標詞。
② 利用詞嵌入模型獲取詞語的向量表示,選擇與目標詞相似度最高的10個詞作為候選詞,這里相似度的計算方法選擇的是余弦相似度,但候選詞不包含目標詞的形態(tài)變化詞。
③ 該方法不執(zhí)行候選詞選擇步驟。
④ 提出了一種聯(lián)合不同特征的基于排序的策略。首先,獲取不同特征的排序結(jié)果,選擇的特征有n元文法詞頻、語義相似度、上下文相似度和詞語的信息容量。然后,通過對所有排序的名次求均值,獲取每個單詞的排名得分。最后,根據(jù)單詞的得分進行排序,名次越高的單詞越簡單。這種方法在SemEval 2012詞匯簡化任務[66]中進行評估,優(yōu)于最初提交給該任務的所有系統(tǒng)。
(2) LS-NNS
LS-NNS方法是在Light-LS基礎上進行改進而來的,最主要的創(chuàng)新點是使用了一種新的詞嵌入模型提取候選詞,該詞嵌入模型是在含有詞性標簽的文本訓練中得到的。
① 該方法采用的是隱式的復雜詞識別。
② 該方法不是使用通用的詞向量模型,而是使用含有詞性標簽的文本訓練上下文感知的詞嵌入模型,因而能夠部分解決詞義歧義問題,進一步提高了方法的性能。
③ 提出一種無監(jiān)督的邊界排序方法進行候選詞的選擇。該方法利用Robbins-Sturgeon假設[67],表示一個詞只能由其自身代替。創(chuàng)建目標詞分配標簽“1”和所有其他候選詞分配標簽“0”的訓練數(shù)據(jù)去訓練二類別的線性分類器。因為這些設計允許邊界排序方法在任何無標準的語料上進行訓練,所以該方法是無監(jiān)督的方法。采用以下幾個特征訓練排序方法:
a) 五元文法語言模型對數(shù)概率:si-1c,csi+1,si-1csi+1,si-2si-1c和csi+1si+2,其中,c是候選詞,i是復雜詞在句子s中的位置。該方法利用SRILM在SubIMDB數(shù)據(jù)集上訓練五元文法語言模型。SubIMDB[10]是從有關兒童和家庭的38 102個電影中提取字幕組成的語料庫,總共包含的詞匯數(shù)為62 504 269。
b) 計算復雜詞和候選詞的詞嵌入余弦相似度。
c) 基于復雜詞詞性的候選詞的條件概率p(c|pt)計算如式(8)所示,其中,pt是復雜詞的詞性,C(c,p)是訓練語料中c被賦值為p的數(shù)目,p是所有詞性標簽的集合。
(8)
最后,根據(jù)與分類與“0”的樣本之間的距離對候選詞進行排序,從中選擇一定數(shù)量的候選詞。實驗中采用隨機梯度下降法對模型進行優(yōu)化。
④ 首先使用兒童和家庭的電影字幕語料庫SubIMDB訓練語言模型,然后根據(jù)候選詞的五元文法頻率(候選詞左右各兩個詞)對候選詞進行排序。只有候選詞的五元文法頻率大于復雜詞的五元文法頻率,才能用候選詞替代復雜詞。
由于基于詞向量的思路取得了不錯的效果,還有一些方法將詞嵌入模型與其他資源(如WordNet或并行語料庫)相結(jié)合,達到進一步提高性能的效果。
(1) NNLS
該方法在兩個方面進行改進,一方面通過結(jié)合Newsela語料庫和一個改進的上下文感知詞語嵌入模型來提取候選替換詞,另一方面使用神經(jīng)回歸模型從注釋數(shù)據(jù)中學習如何對候選詞進行排序。
① 該方法采用的是隱式的復雜詞識別。
② NNLS采用Horn等人[4]從平行語料庫Newsela中提取候選詞。然后使用Faruqui等人[68]的算法對LS-NNS中的上下文感知詞向量模型進行調(diào)整。為了使相同聯(lián)系的詞語能夠更接近,可以利用人工創(chuàng)建的語言關系對已經(jīng)訓練好的的上下文感知詞向量模型進行調(diào)整,從而為每個目標詞提供三個互補的候選詞。使用的語義關系有同義詞、上位詞和下位詞,都特別適合于詞匯簡化任務。最后,將詞嵌入模型產(chǎn)生復雜詞的最相似的詞作為候選詞。
③ 候選詞選擇采用和LS-NNS相同的方法。
④ 候選詞排序采用了一種有監(jiān)督的神經(jīng)網(wǎng)絡排序模型決定候選詞的排名。神經(jīng)網(wǎng)絡是一個多層感知器,它接收一對候選詞的一組特征作為輸入,并輸出它們之間的簡單性差異,如圖2所示。
圖2 NNLS的神經(jīng)網(wǎng)絡排序框架
如果輸出值是負值,候選詞1比候選詞2簡單。如果輸出值是正值,候選詞2比候選詞1簡單。該網(wǎng)絡包含三個隱藏層,其中每層有8個節(jié)點。采用詞語簡化數(shù)據(jù)集LexMturk[4]對神經(jīng)網(wǎng)絡排序模型進行訓練,該數(shù)據(jù)集包含500個樣例,其中,每個樣例由一個句子、一個復雜詞和按照簡化性排序的一組候選詞集合組成。假設c1和c2是一個樣例的一對候選詞,r1和r2是它們對應的排序,Φ(ci)是一個映射ci到一組特征值的函數(shù)。對于每個樣例中可能的候選詞對,創(chuàng)建兩個訓練實例,其中,一個是輸入[Φ(c1),Φ(c2)]和參考輸出r1-r2,另一個是輸入[Φ(c2),Φ(c1)]和參考輸出r2-r1。LS-NNS使用的特征是來自于SubIMDB的n元文法特征。神經(jīng)網(wǎng)絡模型完成訓練后,可以對候選詞進行排序。假設M(ci,cj)是候選詞結(jié)合C中的一對候選詞ci和cj的模型估計值。通過式(9)計算所有候選詞的最終得分。最后基于R值對所有候選詞進行排序,分值越低,候選詞越簡單。
R(c1)=∑cj,ci∈CM(ci,cj)
(9)
(2) REC-LS
該方法的第一步利用基于序列標注任務的方法識別詞的復雜度,并選擇高復雜度的詞語作為復雜詞。然后,進行候選詞生成、候選詞過濾和候選詞排序步驟。選定最佳候選詞后,根據(jù)條件判斷是否替代原詞。REC-LS在簡化一個詞之后,會重新計算句子中詞語的復雜度,繼續(xù)選擇高于閾值且復雜度最高的詞作為復雜詞,迭代執(zhí)行,直到句子中沒有復雜詞。
該方法的一個主要問題是更愿意使用原詞,而不是替代詞,很多情況下,達不到簡化的情況。
① 該方法使用的是基于神經(jīng)序列標注模型的復雜詞識別方法[42]。其采用二分類任務識別句子的復雜詞。分類器使用的是神經(jīng)序列標注模型,每個詞語會得到一個0到1之間的概率值。一般情況下,詞對應的概率值大于0.5被認為是復雜詞。數(shù)據(jù)集使用的是CWI 2018數(shù)據(jù)集[66]。該語料包含英語、德語和西班牙語三類語料,其中,英語包含專業(yè)新聞(News)、業(yè)余新聞(WikiNews)和維基百科文章(Wikipedia)三種文體。每類語料又被分割為訓練集、驗證集和測試集,其中,News(6 515/824/739)、WikiNews (3 978/476/507)和Wikipedia(2 903/369/413)。數(shù)據(jù)集中的詞被10個英語母語的和10個非英語母語的人士標注為復雜詞或簡單詞。每一個樣例包含了句子、目標詞(短語)的位置、目標詞被認定為復雜詞的英語母語人士的人數(shù)和非英語母語人士的人數(shù)。
② 候選詞的來源有三種。第一種是從WordNet提取同義詞。第二種是通過從Big Huge Thesaurus(7)https://words.bighugelabs.com中查詢詞和詞干來獲取候選詞。第三種是采用Light-LS的方法,利用詞嵌入模型獲取候選詞。
③ 利用三個特征對候選詞進行閾值過濾。第一個是上下文簡單性。每個詞的簡單性CS是步驟①中的概率值。第二個是上下文語義對等性。利用預訓練語言表示模型ELMo,它不同于上面提到的詞嵌入模型, ELMo獲取詞的向量表示是動態(tài)變化的,即上下文信息不同,相同詞的詞向量也不一樣。這里先利用ELMo獲取復雜詞的向量表示;然后用候選詞替代句子中的復雜詞,獲取候選詞的向量表示;最后,采用余弦距離計算兩個詞的相似度得分CG。第三個是語法性。利用大文本語料COCA,計算二元文法(bigram)的頻率,其中選擇的是候選詞和原來左邊一個詞(右邊一個詞)組成的二元文法。首先,移除左二元文法或者右二元文法頻率為0的候選詞,然后利用上下文語義對等性,移除相似度低于給定閾值的候選詞。實驗中采用的閾值為0.175。
④ 根據(jù)上下文簡單性和上下文語義對等性進行候選詞排序。通過計算CS和CG之和,對候選詞進行排序。
預訓練語言模型BERT[47]使用Transformer的編碼器來作為語言模型,在語言模型預訓練的時候,提出了兩個新的目標任務(即掩碼語言模型MLM和預測下一個句子的任務)。第一個任務MLM在輸入的詞序列中隨機地掩碼上15%的詞,然后就是去預測掩碼上的這些詞。相比傳統(tǒng)的語言模型,MLM可以從任何方向去預測這些掩碼上的詞,而不僅僅是單向的。為了讓模型能夠?qū)W習到句子之間的關系,BERT中的第二個目標任務就是預測下一個句子。如果掩碼的是句子中的復雜詞,則MLM的思想與其中候選詞生成的思想是一致的。因此,很自然想到利用BERT進行候選詞的生成任務。
利用MLM對復雜詞進行掩碼,即用符號[MASK]替代原詞,預測[MASK]對應的詞語概率,選擇高概率的詞語作為候選詞。這樣生成的候選詞充分考慮了上下文信息。如果直接利用[MASK]替代復雜詞進行預測,盡管充分考慮了上下文信息,但忽略了復雜詞本身的意義。為此,下面兩種方法分別采用不同策略引入復雜詞的信息。
(1) Zhou
該方法的核心思想就是在利用MLM生成復雜詞的候選詞的過程中,不是采用[MASK]對復雜詞進行替換,而是將dropout應用到復雜詞的詞嵌入向量中,達到部分屏蔽詞語,同時考慮目標詞的語義和上下文信息的目的。
① 沒有提到復雜詞識別方法,需借助已有復雜詞識別來完成。
② 利用dropout的思想對目標詞輸入的詞向量進行隨機部分遮擋(隨機賦值詞向量的部分維的值為0)后,輸入到BERT中,獲取目標詞對應位置的預測概率。在這種情況下,BERT僅僅利用了復雜詞的模糊信息,同時考慮了復雜詞的上下文信息,產(chǎn)生復雜詞的候選替代詞集合。給定句子s={w1,…,wi,…,wL}和復雜詞wi,定義sp(w′i|s,i)是選擇w′i作為wi的替代詞的概率,如式(10)所示。
(10)
其中,p(w′i|s′,i)是BERT預測s中第i個詞的概率,s中第i個詞wi的詞向量被dropout后表示為s′。分母是預測詞不是wi的概率之和,達到對p(w′i|s′,i)進行歸一化的目的。
③ 該方法不執(zhí)行候選詞選擇步驟。
④ 為了驗證候選詞和復雜詞上下文之間的連貫性,提出了一種結(jié)合替換后句子s′和原來句子s相關性得分的計算,如式(11)所示,對所有候選詞進行排序。
s(w′i|s,i)=Sim(s,s′;i)+α×p(w′i|s′,i)
(11)
其中,Sim(s,s′;i)為s和s′的BERT表示相似度,計算如式(12)所示。
(12)
其中,h(w′k|s′)是句子s中第k個詞的最上面四層表示的連接,cos(x,y)表示向量x和y的余弦相似度。ak,i是第k個位置對第i個位置的所有層中所有頭的平均自我注意力得分,用來驗證每個位置與wi的語義依存關系。
(2) BERT-LS
該方法仍然使用[MASK]對復雜詞進行替換,但是只作為輸入的一部分??紤]到BERT采用了雙句訓練,BERT-LS將聯(lián)合了原句和替換后的句子同時輸入到BERT中對[MASK]進行預測,達到同時考慮目標詞的語義和上下文信息的目的。
① 沒有提到復雜詞識別方法,需借助已有復雜詞識別方法來完成。
② 由于BERT的訓練過程結(jié)合了下一句預測,所以BERT特別適合處理雙句的問題。該方法先對原句s中的復雜詞進行掩碼,掩碼后的句子稱為s′。然后,聯(lián)合原句s和掩碼后的句子s′,輸入到BERT中,獲取掩碼詞對應位置的預測概率。選擇高概率的n個詞作為候選詞。該文中n選擇為20,并去除復雜詞及對應的變形。
③ 該方法不執(zhí)行候選詞選擇步驟。
④ 該步驟參照了Light-LS中候選詞排序過程。相同點是對幾個特征的排序求平均,獲取最終的排名,選擇排名最高的候選詞作為替代詞。不同點是選用了不同的特征。該方法選用了以下四個特征。
第一個是BERT輸出的預測排名。該特征通過候選詞的預測排名可以直接獲取。
第二個是BERT的掩碼語言模型分別計算替換后句子的產(chǎn)生概率,通過從前到后依次對每個詞進行掩碼獲取交叉熵損失值,最后求平均值。
首先,用候選詞替代詞替換原詞,選擇一個上下文窗口。假設從長度為n的原句S中選擇復雜詞w的前后m個詞作為上下文,組成窗口WIN={w-m,…,w-1,w,w1,…,wm},其中,-m≥0和m 接著,從前到后依次掩藏WIN′的每一個字wi,輸入BERT并用式(13)計算掩藏后序列的交叉熵損失值。 (13) 最后,對整個窗口的所有詞的損失值求平均值作為該窗口的損失值。該值越小代表上下文之間的連貫性越好。最后,對所有的候選替代詞的損失值按照從小到大進行排序。 第三個是利用詞嵌入模型計算候選詞和復雜詞的相似度。這里選擇的是余弦相似度,該值越大排名越高。 第四個是候選詞在大語料中出現(xiàn)的數(shù)目,選用的大語料是維基百科語料。該值越大,候選詞對應的排名也越高。 下面將從候選詞生成、候選詞選擇和候選詞排序幾個步驟,分別討論現(xiàn)有方法之間的關系與區(qū)別。 (1) 候選詞生成 基于語言數(shù)據(jù)庫的方法的優(yōu)點是方法簡單、容易理解,也很容易部署到其他語言中,例如,WordNet支持超過70種語言。除了構(gòu)建語言數(shù)據(jù)庫需要強大的人力和財力外,語言數(shù)據(jù)庫有著明顯的對詞語覆蓋性不足的問題,更新的速度滿足不了語言發(fā)展的要求。因此,基于語言數(shù)據(jù)庫的候選詞提取,性能往往不是很高。由于語言數(shù)據(jù)庫都是人工標注,數(shù)據(jù)質(zhì)量較高,現(xiàn)在也通常作為產(chǎn)生候選詞的一些輔助手段。 基于自動規(guī)則的方法的優(yōu)點是不依賴人工標注的語義數(shù)據(jù)庫,但是嚴重依賴提取規(guī)則的平行語料的質(zhì)量。理論上如果平行語料足夠大,該方法能夠解決語言數(shù)據(jù)庫覆蓋率問題,但也帶來了新的問題。由于提取的簡化規(guī)則的數(shù)量太大,如PPDB有上億的規(guī)則,直接導致產(chǎn)生太多候選詞,給詞語簡化后面的候選詞選擇和候選詞排序步驟帶來了許多問題。 基于詞嵌入模型的方法也不存在覆蓋率問題。因為只需要有無標注的大量文本語料,該方法也很容易部署到其他語言中。在詞嵌入模型中,不僅相似的詞語具有很高的相似度,而且高度關聯(lián)的詞語和意思相反的詞語都有很高的相似度,這往往也造成了產(chǎn)生很多不正確的候選詞問題。 基于混合模型的方法就利用以上兩種或者三種方法產(chǎn)生候選詞,繼續(xù)擴展候選詞產(chǎn)生的規(guī)模。具體候選詞是否能夠滿足要求,都交給后續(xù)的步驟進行處理,也給后面的步驟帶來許多問題。 基于預訓練語言模型(BERT)的方法最主要的優(yōu)點就是在候選詞產(chǎn)生的過程中利用了復雜詞的上下文信息,因此可以大大縮減不相關的候選詞。而以上四種方法在候選詞產(chǎn)生的過程只考慮了復雜詞本身,考慮復雜詞的上下文信息都交給了后面的步驟。得益于BERT模型的強大能力,基于BERT的方法不需要候選詞選擇步驟,也不需要考慮候選詞和原來復雜詞的形態(tài)變化。此外,由于BERT也無需任務標注語料就能完成訓練,所以基于BERT的詞語簡化方法也能很容易地部署到其他語言中。該類方法目前存在的一個不足是只能處理一個詞的簡化,不能處理短語的簡化。 (2) 候選詞選擇 候選詞選擇用來對候選詞生成的詞語進行過濾,主要還是因為候選詞生成步驟生成的候選詞太多。最近的詞語簡化模型,在候選詞生成過程中考慮了上下文信息,能夠大大減少候選詞的數(shù)目,該步驟就不是十分必要了。因為候選詞選擇和候選詞排序步驟關系密切,候選詞排序也是間接地把排名較低的候選詞過濾掉。例如,基于BERT的方法在候選詞產(chǎn)生的過程中就已經(jīng)利用了上下文信息,不需要再進行候選詞選擇步驟。已有候選詞選擇的方法主要利用詞性標簽過濾、詞義消歧(Word Sense Disambiguation, WSD)的方法和語義相似度過濾。對比已有的方法,LS-NNS中采用機器學習的策略,是所有候選詞選擇中表現(xiàn)最好的一類策略。同時,經(jīng)典的WSD方法在這項任務中表現(xiàn)不佳。 (3) 候選詞排序 已有的候選詞排序方法主要從詞語的簡單性、上下文的連貫性、候選詞與復雜詞的相似度等幾個方面考慮,其中度量上下文連貫性的方法是從過去的n元文法語言模型到現(xiàn)在的神經(jīng)網(wǎng)絡語言模型,相似度計算采用的表示模型從過去的詞共現(xiàn)到現(xiàn)在的利用預訓練語言模型獲取的詞向量。目前,效果最好的仍然是聯(lián)合多個特征對候選詞進行排序。 相對于其他語言,漢語是一種公認的比較難學的語言。比如,漢語中“妻子”的叫法就有好幾十種,如老婆、婆娘、媳婦、內(nèi)人、孩他娘、對象、夫人、愛人、太太等。可以看出,對漢語的詞語簡化是一項十分有必要的任務,特別是對兒童、漢語非母語人士和一些有智力缺陷的人。但是,據(jù)我們了解,針對漢語的語言研究目前還停留在研究文本的可讀性方面[69-70],主要用來確定漢語文本的難度等級,可以幫助教師為兒童學習者選擇合適的閱讀材料和為教材編寫提供科學依據(jù)。當獲取文本的難度等級后,下一步工作就是研究漢語文本簡化方法,降低文本的難度,達到適合不同用戶的需求。但是,目前對漢語文本簡化方法缺乏足夠的關注,獲取不到公開可用的方法。因此,漢語詞語的簡化研究是一個非常有價值的研究方向。目前研究最多的是英語的詞語簡化方法。相對英語詞語簡化方法,漢語詞語簡化方法難點有如下兩點: (1) 漢語的復雜詞包含多個字。英文中復雜詞都是一個詞,而漢語中復雜詞不僅是一個字,可能更多的是二個字或四個字的情況。確定這種情況后,選擇復雜詞的候選詞的情況更加復雜。在英文詞語簡化中,基于預訓練語言模型BERT的方法是目前最好的方法。如果利用BERT獲取英文復雜詞的候選詞,可以直接使用一個符號[MASK]替代復雜詞進行預測。如果采用BERT處理中文復雜詞,假設復雜詞由多個字組成,這時候必須考慮多種情況,必須分別采用不同數(shù)目的[MASK]進行替代,而且在每一種情況下,還要對不同位置[MASK]的詞進行組合。例如,需要簡化的句子為“句子太長、念起來拗口”,識別出復雜詞“拗口”后,考慮到簡化詞可能存在一個字的情況(如難),兩個字的情況(如別扭)和三個字的情況(如不順口、不通順)。在使用BERT處理該句子時,要想獲取好的結(jié)果,必須分別采用1個、2個和3個[MASK]替代復雜詞。包含多個[MASK]符號進行預測會帶來一個新的問題,即如何組合不同[MASK]的結(jié)果獲取合理的候選替代詞。 (2) 漢語中的成語不存在一一對應關系的替代詞。漢語句子中常常包含成語,不同成語之間的微妙的差別,即使是母語人士的大學生在很多情況下也不能完全理解正確。如果能夠去掉原句子中的成語,必定能夠降低句子的難度。例如,原句子是“這一地區(qū)的居民面臨許多問題,但首當其沖的是污染問題”,包含了成語“首當其沖”。如果該句子能簡化為“這一地區(qū)的居民面臨許多問題,但最應該關注的是污染問題”,就大大降低了句子的難度。但是,在很多情況下,成語沒有可選的替代詞進行替換,而是需要對句子進行重新的復述,這樣就大大增加了問題的難度。目前句子復述任務都需要大量的標注語料,而針對漢語成語簡化任務的標注語料是不存在的。如果想利用句子復述方法完成該任務,則需要有大量的標注語料訓練模型,這也是漢語詞語簡化研究的一個難點。 目前,詞語簡化已經(jīng)成為自然語言處理領域的研究熱點,下面將介紹該領域未來可能的發(fā)展方向。 (1) 預訓練語言表示模型的詞語簡化方法研究 目前,相對于先前的方法,利用預訓練語言表示模型BERT的詞語簡化方法取得了最好的效果,主要歸功于BERT進行候選詞生成時考慮了詞語上下文信息,顯著提高了生成候選詞的準確率,也給后續(xù)步驟降低了很多干擾?;贐ERT的方法對詞匯簡化問題提供了很好的研究思路,但仍有許多問題需要解決。首先,不僅可以利用BERT進行候選詞生成,可以利用BERT進行復雜詞識別,比如可以嘗試采用基于BERT的序列標注方法進行復雜詞識別。其次,現(xiàn)在的基于BERT的方法都是直接進行候選詞生成,沒有對BERT模型進行微調(diào)(Fine-tuning)。BERT在處理很多下游任務時都進行了微調(diào),對BERT微調(diào)后,再進行候選詞生成,可能會有更好的結(jié)果。很多BERT的改進版本也都相應被提出,這些方法對詞語簡化的效果如何,也有待進一步研究。 (2) 大規(guī)模詞語簡化平行數(shù)據(jù)集的自動構(gòu)建 許多與詞語簡化任務相類似的任務,如語法錯誤校驗(Grammatical Error Correction,GEC)[71],它們的共同點都是對句子中的某些詞進行替換。語法錯誤校驗由于更易獲取到大規(guī)模的平行句子對語料,利用神經(jīng)網(wǎng)絡模型已經(jīng)取得了90%以上的準確率,這里的平行句子對指的是一個正確句子和一個錯誤的句子組合的句子對。研究最多的英文詞語簡化方法現(xiàn)在更多采用無監(jiān)督的方法,整體性能還不是很高。如果能夠自動構(gòu)建大規(guī)模的詞語簡化平行數(shù)據(jù)集,將能夠明顯提升詞語簡化模型的性能。 (3) 詞語簡化的應用研究 詞語簡化方法可以應用于文本簡化、機器翻譯、復述生成和文本摘要。隨著詞語簡化方法性能的提升,詞語簡化的應用研究也是一個很好的發(fā)展方向。例如,對于英文句子“John composed these verses”, 采用谷歌翻譯的結(jié)果為“約翰寫了這些經(jīng)文”,而正確的翻譯結(jié)果應該是“約翰寫了這些詩”。但是,采用基于BERT的詞語簡化方法[33]能夠把這個英文句子簡化為“John wrote these poems”,這時候再采用谷歌翻譯,得到的翻譯結(jié)果為“約翰寫了這些詩”。從這個例子可以看出,把詞語簡化作為一個預處理步驟,可以應用于很多自然處理任務,能夠進一步提高方法性能。 本文對近20年來詞語簡化方法進行了綜述。隨著科技的快速發(fā)展和人們生活水平的提高,人們越來越關注特殊人群的閱讀需求。比如,國外很多人關注文本簡化的研究,文本簡化可以輔助閱讀缺陷的人和非母語人士進行閱讀。詞語簡化是文本簡化的重要組成部分,也成為了研究的熱點,涉及計算機科學、語言學、教育學和心理學等多個學科。從最初的基于語義數(shù)據(jù)庫的方法,到近期的預訓練語言表示模型的建立,自然語言處理技術的進步為詞語簡化提供了多種思路和方法。 目前英語的詞語簡化得到了廣泛的關注,本文主要介紹的也都是英文的詞語簡化方法。然而,漢語作為一種更復雜的語言,漢語的文本簡化并沒有得到應有的關注。期待更多研究者加入到文本簡化的研究隊伍中,特別是漢語的文本簡化,也希望本文能對漢語文本簡化在國內(nèi)的研究提供一些幫助。3.6 討論
4 漢語詞語簡化研究
5 未來發(fā)展
6 總結(jié)