尹 華,盧懿亮,季躍蕾,吳梓浩,彭亞男
(1. 廣東財經(jīng)大學(xué) 信息學(xué)院,廣東 廣州 510320;2. 廣東省智能商務(wù)工程技術(shù)研究中心,廣東 廣州 510320;3. 廣州商學(xué)院 現(xiàn)代信息產(chǎn)業(yè)學(xué)院,廣東 廣州 511363)
語義分析是自然語言處理領(lǐng)域亟待突破的瓶頸,精準(zhǔn)把握自然語言語義需要準(zhǔn)確且完備的語義表示方法。語義表示的目標(biāo)是將人類理解的自然語言以一種語義等價的形式轉(zhuǎn)化為計算機能夠理解的表示,以獲得更好的計算性。根據(jù)文本劃分粒度,語義分析可以從詞匯、句子和篇章三個層級展開,其中句子級語義分析通過句子中的句法信息和詞語含義,推導(dǎo)出反映該句含義的某種形式表示[1]。語義角色標(biāo)注(Semantic Role Labeling,SRL)[2]是研究句子級語義問題的一種簡單直接的方法。SRL的理論基礎(chǔ)來源于Filmore提出的格語法[3],以句子的謂詞為中心,分析句子的謂詞-論元結(jié)構(gòu),即句子中各成分與謂詞之間的關(guān)系,用語義角色來描述它們之間的關(guān)系。SRL的表示方法不針對整句進行詳細(xì)語義分析,忽視句子中的其他修飾信息,導(dǎo)致語義信息缺失,是一種淺層語義分析方法。為了盡可能完整地保留語義信息,需要對句子進行深層分析。語義依存分析方法(Semantic Dependency Parsing,SDP)[4]分析句子各個語言單位之間的語義關(guān)聯(lián),并將語義關(guān)聯(lián)以依存結(jié)構(gòu)呈現(xiàn),是一種深層語義理解的表示方式。除此之外還有一些具有代表性的語義表示方式,例如,組合范疇文法(Combinatory Categorial Grammar,CCG)[5]和抽象語義表示(Abstract Meaning Representation,AMR)[6]。CCG的語義不依賴于語義詞典,一般被認(rèn)為是一種特定領(lǐng)域的語義表示方法[1]。Banarescu等提出的AMR則是一種領(lǐng)域無關(guān)的通用語義形式化表示,一定程度上緩解了跨領(lǐng)域整句標(biāo)注的開銷問題,并補充了整句層面的語義表示。AMR目前已經(jīng)被有效應(yīng)用在機器翻譯[7]、文本摘要[8]、信息抽取[9]、對話系統(tǒng)[10]等場景。
2013年,美國賓夕法尼亞大學(xué)的語言數(shù)據(jù)聯(lián)盟(Linguistic Data Consortium,LDC)、南加州大學(xué)、科羅拉多大學(xué)等科研機構(gòu)的多名學(xué)者共同提出AMR定義、AMR標(biāo)注規(guī)范體系以及英文《小王子》AMR標(biāo)注語料庫。AMR將句子抽象成由語義概念節(jié)點和語義關(guān)系標(biāo)簽弧構(gòu)成的有向無環(huán)圖,以此消除句法特質(zhì),并從句法事實中捕捉句子的核心語義。其在原有淺層語義分析(如SRL)的基礎(chǔ)上,進一步以圖的形式表征較為復(fù)雜的多謂詞支配單名詞的論元共享現(xiàn)象,并且支持對概念節(jié)點進行增刪改操作,以補充隱含語義信息,進而能夠完整且無損地表示深層句子語義。2014年,Flanigan等人[11]率先提出解析器JAMR。其后,有關(guān)AMR的相關(guān)研究引起了國內(nèi)外學(xué)者的關(guān)注。圍繞AMR標(biāo)注、AMR解析、AMR生成以及AMR應(yīng)用的研究相繼展開。
我們采用CiteSpace對CNKI、Web of Science和 SCOPUS數(shù)據(jù)庫中自2013年至2023年的文獻統(tǒng)計發(fā)現(xiàn),AMR研究主體呈現(xiàn)增長趨勢,如圖1所示。
圖1 AMR研究趨勢圖
通過設(shè)置時間切片為1,節(jié)點類型為“Institution”“Author”,選擇研究AMR的英文文獻,得到研究作者-機構(gòu)共現(xiàn)圖,共245個節(jié)點、551條邊,網(wǎng)絡(luò)密度為0.018 4,如圖2所示。相關(guān)研究成果數(shù)量較為豐富, 其中以Brandeis大學(xué)和IBM Research等研究機構(gòu)為主導(dǎo)。
圖2 AMR英文文獻作者-機構(gòu)共現(xiàn)圖
同時,選擇研究AMR的中文文獻,得到研究作者-機構(gòu)共現(xiàn)圖,共91個節(jié)點,201條邊,網(wǎng)絡(luò)密度為0. 049 1,如圖3所示。
圖3 AMR中文文獻作者-機構(gòu)共現(xiàn)圖
聚焦于AMR研究領(lǐng)域的國內(nèi)代表性研究機構(gòu)有南京師范大學(xué)和蘇州大學(xué)等,但是國內(nèi)研究成果數(shù)量相對國外較少,尚有較大的發(fā)展空間。從AMR研究內(nèi)容體量看,大部分集中于AMR解析,如圖4所示,因此本文主要聚焦于AMR解析方法的研究。
圖4 AMR相關(guān)研究類別文獻統(tǒng)計柱狀圖
2017年,曲維光等[12]從AMR概念與規(guī)范、解析算法和相關(guān)應(yīng)用的視角對AMR研究成果做了系統(tǒng)性的梳理。而由于時效性因素,亟需深入分析近年來涌現(xiàn)的AMR解析方法。本文梳理了自2013年至2023年以來有關(guān)AMR的國內(nèi)外研究文獻,首先闡述作為AMR研究基礎(chǔ)的語料庫研究現(xiàn)狀與進展;然后從解析的角度分析研究中的難點問題;再根據(jù)AMR解析策略,將AMR解析算法分為四類: 基于圖的、基于轉(zhuǎn)移的、基于序列到序列(Seq2Seq)的和基于形式化的解析方法,并揭示了算法背后的核心思想及其面臨的挑戰(zhàn)。最后,對現(xiàn)有經(jīng)典AMR解析算法性能進行歸納整理和比較,進一步展望AMR解析任務(wù)未來的研究方向。
AMR圖是一個單根有向無環(huán)圖。節(jié)點表示語義概念,由句子中的實詞抽象獲得。邊為帶有語義關(guān)系標(biāo)簽的有向弧,由實詞之間的關(guān)系抽象獲得。Banarescu等[6]提出AMR時建立了統(tǒng)一的標(biāo)注規(guī)范,涵蓋約一百種概念關(guān)系及其逆關(guān)系。此外,每一種關(guān)系都可以具象化為概念節(jié)點[12],并基于該規(guī)范開發(fā)了英文《小王子》AMR標(biāo)注語料庫。
AMR標(biāo)注體系和公開語料庫的維護由LDC負(fù)責(zé),該組織相繼發(fā)布了LDC2017T10(AMR 2.0)、LDC2020T02(AMR 3.0)等語料庫。AMR 3.0擴充了AMR 2.0的規(guī)模,共包含來自新聞、廣播、論壇、網(wǎng)絡(luò)文本等59 255條自然語言文本的語義樹庫。表1為常用AMR語料庫信息,均可從LDC(1)https://www.ldc.upenn.edu/獲取。
表1 AMR語料庫
由于英文中的虛詞相對實詞而言意義不大,為了簡化并加速標(biāo)注流程,英文AMR的標(biāo)注規(guī)范忽略了冠詞、虛詞、時態(tài)、單復(fù)數(shù)等語言現(xiàn)象。以句子“The boy wants to drink water.”為例,該句的AMR圖及序列化表示如圖5所示。解析過程中,首先對句子中概念進行實例化操作并生成對應(yīng)的概念節(jié)點“boy”“want-01”“drink-01”“water”,分別根據(jù)單詞的首字母對概念節(jié)點命名(如“boy”對應(yīng)“b”)。當(dāng)謂詞存在不同義項時,可能會導(dǎo)致論元與謂詞的語義關(guān)系不明確。因此,AMR圖中標(biāo)注有謂詞的義項信息,如謂詞“drink”被標(biāo)注為“drink-01”,這表示采用“drink”的第一個義項。AMR圖中有向弧標(biāo)注“:ARG0”“:ARG1”分別代表了概念關(guān)系“施事對象”與“受事對象”,例如,根節(jié)點“want-01”和“boy”之間的有向弧標(biāo)注“:ARG0”表示了“boy”為“want”的施事對象,而同理“drink”為“want”的“受事對象”。
圖5 英文句子“The boy wants to drink water.”的AMR圖表示形式及其序列化表示形式
英文的特性并不適應(yīng)于所有語種,不同語種引入AMR標(biāo)注規(guī)范的過程可能會有所差異。近年來,AMR對非英文語種的研究陸續(xù)開展。根據(jù)語言的不同特點,研究者們分別建立了西班牙語[13]、韓語[14]、土耳其語[15]和巴西葡萄牙語[16]的AMR標(biāo)注規(guī)范及標(biāo)注語料庫。
南京師范大學(xué)的李斌等[17]借鑒英文AMR的標(biāo)注框架和理論,率先設(shè)計了中文AMR標(biāo)注規(guī)范,并標(biāo)注了對標(biāo)英文《小王子》的中文《小王子》AMR標(biāo)注語料庫。隨后,進一步針對漢語特性,在虛詞表示、概念關(guān)系對齊和特殊語法現(xiàn)象等方面改進。一方面由于在漢語中虛詞對連接上下文有較大的作用,一定程度上表征了上下文語義信息,故而其保留了虛詞并進行標(biāo)注;另一方面,英文AMR缺少概念對齊信息,這為AMR自動解析帶來了不便,故而其通過在中文AMR標(biāo)注中引入編號,實現(xiàn)了概念對齊信息的融合,構(gòu)建了中文AMR標(biāo)注體系[18]。
2019年,南京師范大學(xué)聯(lián)合布蘭迪斯大學(xué)基于中文謂詞庫(CPB)的謂詞框架詞典對中文賓州樹庫(Chinese Penn TreeBank 8.0,CTB)中的博客、論壇等文本標(biāo)注,構(gòu)建了首個較大規(guī)模的中文AMR標(biāo)注語料庫CAMR 1.0,并于2021年在CAMR 1.0的基礎(chǔ)上進一步標(biāo)注CTB 8.0中新聞網(wǎng)絡(luò)等文本,發(fā)布了CAMR 2.0。
AMR標(biāo)注規(guī)范和語料庫為AMR解析、生成和應(yīng)用等各項任務(wù)奠定了數(shù)據(jù)基礎(chǔ)。AMR解析器性能強依賴于概念和關(guān)系的正確識別,需要完善的AMR概念關(guān)系集合和一定規(guī)模的多領(lǐng)域語料庫?,F(xiàn)有的AMR語料庫一方面在規(guī)模上相對有限,難以滿足主流的數(shù)據(jù)驅(qū)動的語言模型;另一方面所涉及領(lǐng)域有限,例如,在法律[19]、醫(yī)療[20]等特定領(lǐng)域中語料庫的構(gòu)建基本空缺。由于難以捕捉特定領(lǐng)域?qū)S眯g(shù)語的概念和關(guān)系,導(dǎo)致AMR在跨領(lǐng)域下的解析性能相差較大。
AMR解析器將自然語言句子無損且準(zhǔn)確地轉(zhuǎn)換為AMR圖的形式化表征。根據(jù)解析模型和解析策略的區(qū)別,曲維光等在2017年的綜述[12]中將AMR解析算法分為四類: 基于圖的方法、基于轉(zhuǎn)移方法、基于組合范疇語法的解析方法和基于機器翻譯的解析方法。隨后,吳泰中等進一步從中英文AMR解析角度簡述AMR解析的研究脈絡(luò)[21]。對于英文AMR解析方法,根據(jù)特征提取方法的不同,將2017年綜述中涉及的四種方法歸類為人工提取特征的基于統(tǒng)計的模型,并將自動提取特征的基于神經(jīng)網(wǎng)絡(luò)的AMR解析模型分為組合特征提取模型、基于循環(huán)神經(jīng)網(wǎng)絡(luò)的特征提取模型和基于卷積神經(jīng)網(wǎng)絡(luò)的特征提取模型。由于該文側(cè)重基于轉(zhuǎn)移的解析方法創(chuàng)新,所以僅簡單呈現(xiàn)英文AMR解析的研究進展,并探討基于轉(zhuǎn)移的中文AMR解析方法。無論哪一種AMR解析器,將句子轉(zhuǎn)化為圖的表示過程對于AMR解析任務(wù)來說是統(tǒng)一的,均涉及圖中節(jié)點和邊的獲取任務(wù)。同時,AMR圖中的節(jié)點和邊是一種概念抽象,必然涉及將句子中的文本實例與生成的概念/關(guān)系對齊的任務(wù)。因此,本文認(rèn)為AMR解析面臨以下三個關(guān)鍵難點問題。
(1) 如何準(zhǔn)確地抽取文本中的概念以及概念關(guān)系?文本中的單詞是概念的具體實例,從實例中抽取抽象概念表示及概念關(guān)系表示,涉及傳統(tǒng)自然語言任務(wù),既可以分步設(shè)計,也可以采用端到端的方式獲得。概念抽取的精度和粒度決定了解析效果。
(2) 如何捕捉AMR與對應(yīng)文本之間復(fù)雜的對齊關(guān)系?自然語言表達的靈活性(主動、被動表示,英文時態(tài)等)增加了對齊任務(wù)的復(fù)雜度,圖6中consider-01這個概念節(jié)點在不同句子中所對齊的文本片段可能是不相同的。另外,由于圖結(jié)構(gòu)數(shù)據(jù)的節(jié)點可重入性質(zhì),文本片段和圖中節(jié)點的對齊并不是簡單的唯一對應(yīng)關(guān)系。所以,捕捉隱式對齊關(guān)系是AMR解析任務(wù)的一大挑戰(zhàn)。
圖6 對齊示例
(3) 如何建模并融合文本的結(jié)構(gòu)信息用以指導(dǎo)AMR解析?文本的結(jié)構(gòu)信息包括但不限于句法結(jié)構(gòu)、語義角色標(biāo)注、AMR本身的圖結(jié)構(gòu)等。這些結(jié)構(gòu)信息獲取雖然源自不同的研究視角,但是從形式和語義上存在著相通之處,相關(guān)早期任務(wù)也證明了依存句法結(jié)構(gòu)信息有益于AMR解析任務(wù)[22-23]。如何有效地利用這些輔助信息,從多維度的特征中抽象出文本的準(zhǔn)確語義,是AMR解析任務(wù)面臨的一大難題。
為了AMR研究的傳承性,我們綜合考慮了文獻[12,24]的劃分思路,再結(jié)合AMR進展,按照解析模型本質(zhì)以及問題驅(qū)動的方法,詳細(xì)分析AMR解析算法研究脈絡(luò)。由于中文具有與英文不同的語言特性,英文AMR解析算法不能直接應(yīng)用于中文AMR解析,且中文AMR解析方法研究起步較晚,文獻數(shù)量較少。因此,我們將中文AMR解析方法的研究單獨分為一個類別。
最早提出的JAMR[11]解析器將解析任務(wù)建模為圖搜索問題: 從由概念關(guān)系集合所構(gòu)成的有向完全圖中搜索符合約束的最大生成連通子圖。該解析器提供了一種串聯(lián)式的兩階段通用解析框架: 第一階段進行概念識別獲得概念圖片段序列;第二階段進行關(guān)系識別,在滿足局部性、簡易性、連通性和確定性的約束下,以Smatch得分最高為優(yōu)化目標(biāo),利用帶標(biāo)記的有向弧鏈接概念圖片段獲得AMR圖,其核心解析思路如圖7所示。JAMR為了訓(xùn)練解析器,根據(jù)啟發(fā)式規(guī)則,利用基于貪心策略的搜索過程實現(xiàn)句子與AMR圖的對齊,建立了自動對齊器。
圖7 JAMR核心解析思路
JAMR采用串聯(lián)式(也稱管道式)方式進行概念和關(guān)系識別,解析效果高度依賴于概念識別的準(zhǔn)確性以及概念識別與關(guān)系識別之間的獨立性。事實上,概念與關(guān)系之間具有強耦合特性,當(dāng)時的概念識別方法并不能達到理想的準(zhǔn)確率。為緩解串聯(lián)式模型存在的誤差傳播問題,Zhou等人[25]提出一種增量式聯(lián)合模型同步執(zhí)行概念識別和關(guān)系識別這兩個子任務(wù),即將句子直接映射到AMR圖,通過定義概念識別和關(guān)系識別的聯(lián)合解碼目標(biāo)函數(shù),設(shè)計搜索概念片段各連通分量之間的最優(yōu)邊集,實現(xiàn)增量式的關(guān)系識別。
由于句子中單詞與AMR圖的對齊并不是顯式存在于數(shù)據(jù)標(biāo)注中,針對這一問題,Lyu等人[26]考慮到概念、關(guān)系和對齊之間的緊密聯(lián)系,對三者進行聯(lián)合建模,將AMR解析聯(lián)合概率模型定義為:
模型包含三個部分: 概念識別模塊Pθ(c|a,w)、關(guān)系識別模塊Pφ(R|a,w,c)以及對齊模塊Qψ(a|c,R,w),其中,θ,φ,ψ均為模型中的參數(shù)。w是長度為n的句子,W=(w1,…,wn),wk∈V,k∈{1,…,n},其中V為詞表;c是個數(shù)為m的概念序列c=(c1,…,cm),ci∈C,i∈{1,…,m},其中,C是概念集合;a是對齊序列a={a1,…,am}ai∈{1,…,n}表示第ai個單詞對齊第i個概念。R為關(guān)系集合。
該聯(lián)合概率模型將對齊信息視為隱變量,再用神經(jīng)網(wǎng)絡(luò)模型求解。由于難以使用深度學(xué)習(xí)方法求解離散隱變量,他們引入Gumbel-Sinkhorn架構(gòu)[27]連續(xù)松弛化對齊問題,并基于變分自動編碼(Variational Auto-Encoder,VAE)[28]架構(gòu)使其得以采用計算可行的近似化方法對上述聯(lián)合概率模型進行估算,最終取得了可觀的解析性能提升。在該聯(lián)合模型的基礎(chǔ)上,Lyu等人[29]進一步發(fā)現(xiàn),在訓(xùn)練對齊器前對概念子圖的分割任務(wù)嚴(yán)重依賴現(xiàn)有規(guī)則定義,難以適配其他語種語料的分割規(guī)則,于是提出對圖分割任務(wù)進行學(xué)習(xí)。他們將分割任務(wù)和對齊任務(wù)建模為一個“節(jié)點生成順序選擇”問題并將其作為VAE架構(gòu)中的隱變量進行處理,最終達到了與基于人工分割規(guī)則的方法相當(dāng)?shù)男阅鼙憩F(xiàn)。
Zhang等人[30]從圖節(jié)點的可重入性質(zhì)角度考慮,當(dāng)節(jié)點有重入邊時,復(fù)制此類具有多語義關(guān)系的節(jié)點并構(gòu)造成樹, 將AMR圖轉(zhuǎn)化為樹結(jié)構(gòu)。進而將標(biāo)記索引節(jié)點的AMR樹作為預(yù)測目標(biāo),把解析任務(wù)形式化為一個兩階段過程: 節(jié)點預(yù)測和邊預(yù)測。使用擴展的指針生成網(wǎng)絡(luò)[31]進行節(jié)點預(yù)測,解決有限AMR標(biāo)注數(shù)據(jù)下的學(xué)習(xí)問題;采用深度雙仿射分類器[32]進行邊預(yù)測,在訓(xùn)練階段聯(lián)合學(xué)習(xí)。該模型不需要顯式對齊器,而是通過注意力機制隱式學(xué)習(xí)源端的節(jié)點復(fù)制機制,如圖8所示。
圖8 節(jié)點預(yù)測的擴展指針生成器網(wǎng)絡(luò)[32]
此外,有研究者嘗試在AMR解析中引用外部結(jié)構(gòu)信息。早期相關(guān)研究[22-23]已經(jīng)證明了依存句法結(jié)構(gòu)有益于AMR解析任務(wù),但其是將結(jié)構(gòu)信息顯式地融入模型中。Zhou等人[23]通過實驗發(fā)現(xiàn),顯式和隱式融入結(jié)構(gòu)信息均可以提高AMR解析性能。他們將輸入句子作為概率圖生成器的先驗來推斷隱式的句法依存圖結(jié)構(gòu),并利用圖神經(jīng)網(wǎng)絡(luò)(Graph Neural Network,GNN)對上述結(jié)構(gòu)信息進行編碼,在無對齊器的模型框架下首次提出隱式地融入依存句法結(jié)構(gòu)信息以降低概念識別等子任務(wù)的錯誤率,進而提升解析性能。
圖搜索是從全圖獲得子圖的過程,而逐步構(gòu)造子圖則是另一種AMR解析建模的思路,如圖9所示。
圖9 基于圖生成的解析思路
Cai等人[33]提出一種自上而下的增量式圖生成解析算法(Graph Spanning based Parsing,GSP)。受“先確定中心思想,再補充相關(guān)細(xì)節(jié)”啟發(fā),GSP從根節(jié)點開始進行迭代操作,每一步迭代將一個新的節(jié)點及其附屬關(guān)系同步地加入圖中,最終實驗表明這種方法對于句子中核心語義的捕捉更有優(yōu)勢。在圖生成的建模思路下,復(fù)雜場景的圖生成可以轉(zhuǎn)化為增量構(gòu)建圖的問題。針對長句子和蘊藏豐富語義的句子的復(fù)雜解析場景,Cai等人[34]提出了基于迭代推理的求解算法,將AMR解析視為輸入序列與增量構(gòu)建圖之間的一系列決策問題,迭代求解互為因果的兩個關(guān)鍵問題: ①應(yīng)該對輸入序列中的哪一部分進行抽象?②應(yīng)該在增量構(gòu)建圖中的何處添加新的概念?迭代推理過程如圖10所示。
圖10 基于迭代推理的AMR解析算法[34]
基于轉(zhuǎn)移的方法的本質(zhì)思想來源于有限自動機,其將自然語言解析任務(wù)轉(zhuǎn)變?yōu)轭A(yù)測一系列轉(zhuǎn)移動作決策問題,根據(jù)預(yù)先定義的轉(zhuǎn)移動作集合,分析當(dāng)前轉(zhuǎn)移狀態(tài),預(yù)測轉(zhuǎn)移動作,如圖11所示。通過一個動作序列,逐步建立起句子對應(yīng)的樹狀或圖狀句法語義結(jié)構(gòu)。其關(guān)鍵問題是如何定義轉(zhuǎn)移系統(tǒng),并根據(jù)預(yù)先定義的轉(zhuǎn)移動作集合,通過當(dāng)前轉(zhuǎn)移狀態(tài)對轉(zhuǎn)移動作進行預(yù)測,搜索最優(yōu)或近似最優(yōu)的動作序列。
圖11 基于轉(zhuǎn)移的方法示意圖
Wang等人[35]在基于轉(zhuǎn)移的依存句法解析器的基礎(chǔ)上提出了CAMR解析器,將AMR解析轉(zhuǎn)移系統(tǒng)定義為四元組S=(C,T,s0,Ct),其中:
(1)C是轉(zhuǎn)移狀態(tài)集合;
(2)T是轉(zhuǎn)移動作集合,其中每個轉(zhuǎn)移動作都是CAMR將輸入句子和其對應(yīng)的依存句法樹映射為初始狀態(tài),而后再執(zhí)行一系列轉(zhuǎn)移動作,進而實現(xiàn)AMR解析。其后,研究者從提高基礎(chǔ)自然語言處理任務(wù)準(zhǔn)確率、優(yōu)化轉(zhuǎn)移動作集合、縮小搜索解空間等角度對這一基準(zhǔn)模型進行改進[36-38]。
一個函數(shù)t:C→C;
(3)s0是一個初始化函數(shù),將輸入句子和其對應(yīng)的依存句法樹映射為初始狀態(tài)。
(4)Ct?C是一組終端狀態(tài)。
CAMR采用依存句法解析器構(gòu)建了樹這一中間表示,再將樹轉(zhuǎn)換為圖。Damonte等人[39]則實現(xiàn)了直接由文本到圖的解析模式,其受到ARC-EAGER轉(zhuǎn)移系統(tǒng)[40]的啟發(fā),自左向右順序讀入文本中的詞,并根據(jù)關(guān)系優(yōu)先的原則,增量式地預(yù)測構(gòu)造AMR圖的轉(zhuǎn)移動作序列。
Ballesteros等人[41]認(rèn)為AMR解析需要解決多個自然語言處理任務(wù),包括命名實體識別、詞義消歧和語義角色標(biāo)注等,而傳統(tǒng)管道式方法依賴于前置任務(wù)的特征,這使得構(gòu)建端到端的系統(tǒng)存在難度。他們采用Stack-LSTMs表示轉(zhuǎn)移狀態(tài),在轉(zhuǎn)移系統(tǒng)的基礎(chǔ)上構(gòu)造了一個直接由文本到圖的端對端解析器。有別于采用外部工具完成依存分析、語義角色標(biāo)注等任務(wù)的方法[39],該解析器利用了神經(jīng)網(wǎng)絡(luò)的向量表示將多個自然語言處理任務(wù)融于解析模型中,并將訓(xùn)練目標(biāo)設(shè)定為極大化轉(zhuǎn)移動作序列的似然。
Naseem等人[42]認(rèn)為以上解析器的目標(biāo)策略存在兩個缺陷: 第一是由于轉(zhuǎn)移動作序列的預(yù)測與對齊信息密切相關(guān),文本片段與圖節(jié)點間的對齊不準(zhǔn)確/不完備會影響解析結(jié)果;第二是即便對齊準(zhǔn)確,解析器所生成的轉(zhuǎn)移動作序列也并非唯一的或者最優(yōu)的轉(zhuǎn)移動作序列,可能導(dǎo)致局部最優(yōu)而非全局最優(yōu)。通過組合對齊方法、預(yù)處理命名實體和概念、引入上下文向量和應(yīng)用強化學(xué)習(xí)自批評序列訓(xùn)練算法(Self-Critical Sequence Training,SCST)[43],將Smatch評測指標(biāo)作為策略學(xué)習(xí)中的獎勵函數(shù)以松弛對齊約束,使得模型得以在更廣泛的轉(zhuǎn)移動作空間中尋得最優(yōu)轉(zhuǎn)移動作序列。同樣從優(yōu)化轉(zhuǎn)移動作搜索空間的角度考慮,Guo等人[44]則關(guān)注目標(biāo)端的AMR圖表示,他們將概念分為Lexical和Non- Lexical兩類,其中Lexical概念對應(yīng)于輸入句子中的具體詞元,Non-Lexical概念則是由子概念產(chǎn)生。通過移除部分Non-Lexical概念、可重入節(jié)點關(guān)系,簡化其中的概念和關(guān)系,并提出了緊湊AMR圖,限制了轉(zhuǎn)移動作搜索空間。
準(zhǔn)確定義轉(zhuǎn)移狀態(tài)是基于轉(zhuǎn)移的解析器取得良好表現(xiàn)的關(guān)鍵因素。Ballesteros等人[41]利用Stack-LSTMs編碼轉(zhuǎn)移狀態(tài),其優(yōu)勢在于對全局狀態(tài)進行了建模。但是依舊存在兩個問題: 一是忽略了局部狀態(tài)的建模,如上下文單詞表征;另一個是Stack-LSTMs處理長文本時,在預(yù)測轉(zhuǎn)移動作的過程中,對于棧和緩沖區(qū)的調(diào)整不可避免地會重用之前步驟的隱狀態(tài),造成誤差傳播。為了兼顧全局和局部的狀態(tài)信息,Astudillo等人[45]引入注意力機制,將Stack-LSTMs替換為Stack-Transformers編碼轉(zhuǎn)移狀態(tài)。采用注意力機制計算任意兩個轉(zhuǎn)移狀態(tài)之間的相關(guān)性以捕捉全局信息和局部信息。該解析器沿用了Ballesteros等人[41]的轉(zhuǎn)移動作集合,如表2所示。盡管基于轉(zhuǎn)移的解析器自左向右順序處理的強約束提供了一種符合AMR特征的歸納偏置形式,但是上述解析器在處理例如可重入節(jié)點時需要頻繁執(zhí)行SWAP動作,導(dǎo)致最終所得到的轉(zhuǎn)移動作序列是冗余的。
表2 轉(zhuǎn)移動作集合
為了避免轉(zhuǎn)移動作序列過長,Zhou等人[46]提出了一個Action-Pointer Transition(APT)系統(tǒng)以簡化轉(zhuǎn)移動作序列。APT系統(tǒng)融合了基于轉(zhuǎn)移的方法和圖構(gòu)造方法的優(yōu)勢,核心思想是將目標(biāo)轉(zhuǎn)移動作序列既作為一種圖構(gòu)造過程,又作為一種圖表征形式。其受到采用指針的解析器啟發(fā),使用自左向右移動的光標(biāo)來替代傳統(tǒng)的棧和緩沖區(qū)結(jié)構(gòu),所提出的轉(zhuǎn)移動作集合如表3所示。APT通過引入指針網(wǎng)絡(luò)并將其應(yīng)用于目標(biāo)端,根據(jù)過去的節(jié)點生成轉(zhuǎn)移動作構(gòu)造生成邊,采用Transformer模型同時對轉(zhuǎn)移動作序列生成任務(wù)和指針預(yù)測任務(wù)建模,利用交叉注意力機制的Mask操作將目標(biāo)節(jié)點與原文本片段相關(guān)聯(lián)。這種轉(zhuǎn)移模式優(yōu)化了可重入節(jié)點的處理過程,使得圖構(gòu)建過程更為簡便自然,同時這也保證了準(zhǔn)確且完備的對齊。
表3 轉(zhuǎn)移動作集合
預(yù)訓(xùn)練模型的嵌入表示中蘊含了豐富的語義表征。Zhou等人[47]嘗試將預(yù)訓(xùn)練語言模型BART集成到轉(zhuǎn)移模型框架APT中。將轉(zhuǎn)移動作集合中的保留預(yù)測動作(如Ballesteros等人[41]中的CONFIRM、Astudillo等人[45]中的PRED)替換為“
文本解析為AMR圖的過程也可以被視為一個機器翻譯的過程,如圖12所示,采用Seq2Seq模型構(gòu)造端到端的解析器,在融合現(xiàn)有深度學(xué)習(xí)模型的同時,避免了其他解析方法煩瑣的串聯(lián)式解析步驟。此類方法主要面臨三個問題: 第一,AMR解析預(yù)測的目標(biāo)詞匯表過大,這可能導(dǎo)致數(shù)據(jù)稀疏問題;第二,Seq2Seq模型基于數(shù)據(jù)驅(qū)動,而AMR可訓(xùn)練語料規(guī)模較小或者訓(xùn)練數(shù)據(jù)質(zhì)量不高,導(dǎo)致模型學(xué)習(xí)效果不佳;第三,模型的語義表示能力有限,難以充分地表征,如文本的句法信息、淺層語義信息和圖結(jié)構(gòu)信息等。根據(jù)Seq2Seq模型的演化,此類AMR解析方法分為三個階段。
圖12 基于Seq2Seq的方法示意圖
3.3.1 神經(jīng)機器翻譯模型
早期相關(guān)工作采用神經(jīng)機器翻譯模型實現(xiàn)AMR解析,沿用了經(jīng)典的Seq2Seq模型[48-50]。Barzdins 和Gosko[51]率先在語義評測競賽中使用帶注意力機制的神經(jīng)機器翻譯模型實現(xiàn)AMR解析,采用單層GRU作為編碼器和解碼器。在PENMAN標(biāo)記方式的AMR序列化表示中,變量名作為實例的別名并不具有語義信息,因此,他們執(zhí)行了數(shù)據(jù)預(yù)處理操作,將變量名、wiki鏈接和實例化標(biāo)簽“/”視為噪聲刪除,以排除對模型語義表征的負(fù)面影響。但是由于受到數(shù)據(jù)稀疏問題的影響,當(dāng)時的模型實驗結(jié)果相較于主流的算法存在一定差距。
Peng等人[52]指出,造成數(shù)據(jù)稀疏問題的本質(zhì)在于模型所要預(yù)測的目標(biāo)詞匯表規(guī)模太大。目標(biāo)詞匯表中包含構(gòu)成概念和關(guān)系標(biāo)簽的數(shù)萬個符號,而可訓(xùn)練數(shù)據(jù)規(guī)模又相對有限。因此針對較小規(guī)模的訓(xùn)練數(shù)據(jù),他們在基于Seq2Seq的成分句法分析模型[53]的基礎(chǔ)上提出了只采用單層LSTM作為編碼器/解碼器的解析模型。同時,對數(shù)據(jù)進行分類(2)也被稱為重新分類(Re-Categorization),將數(shù)據(jù)集源端和目標(biāo)端中出現(xiàn)的低頻概念和部分實體子圖,映射至新的類別,大幅縮減了目標(biāo)詞匯表的規(guī)模。
此外,他們提出新的線性化策略進行AMR序列表示,該策略將關(guān)系弧視為其概念頭節(jié)點的一部分,以標(biāo)識概念與關(guān)系之間的聯(lián)系。將左/右括號和關(guān)系標(biāo)簽進行組合,將其記為關(guān)系范圍的開始符號和結(jié)束符號,此類顯式的劃定方式使得模型能夠較為順利地預(yù)測出結(jié)構(gòu)合法的AMR圖。有別于傳統(tǒng)的概念和關(guān)系獨立區(qū)分的處理方式,在上述策略下模型得以更好地捕捉到概念與關(guān)系之間的關(guān)聯(lián)。
隨后,Konstas等人[54]采用堆疊雙向LSTM作為編碼器,自左向右逐個單詞地建模輸入序列。解碼器則采用了堆疊LSTM進行預(yù)測,同時引入了全局注意力機制在預(yù)測階段感知當(dāng)前輸出和輸入序列的關(guān)聯(lián)信息。為了緩解訓(xùn)練語料不足的問題,采用自學(xué)習(xí)策略對模型進行訓(xùn)練,通過預(yù)測無標(biāo)簽數(shù)據(jù)獲得高置信度數(shù)據(jù),以擴充訓(xùn)練樣本,所提出的模型在AMR解析和AMR生成任務(wù)中都取得了很大程度上的性能提升。
受到Barzdins 和Gosko[51]啟發(fā),Van Noord等人[55]將字符作為基本處理單元并嘗試進一步提升其性能,他們采用開源的機器翻譯工具OpenNMT[56]構(gòu)造了神經(jīng)網(wǎng)絡(luò)機器翻譯模型,其中編碼器與解碼器均采用堆疊LSTM,同時在解碼階段引入局部注意力機制,用以感知輸入序列與當(dāng)前輸出的相關(guān)性程度以指導(dǎo)預(yù)測。其分別從數(shù)據(jù)預(yù)處理、數(shù)據(jù)擴充和優(yōu)化訓(xùn)練過程的角度嘗試并驗證了5種有效的技術(shù),最終取得了當(dāng)時的最優(yōu)性能。與Konstas等人[54]采用自學(xué)習(xí)策略擴充訓(xùn)練數(shù)據(jù)不同,他們利用現(xiàn)有的AMR解析器生成訓(xùn)練數(shù)據(jù),篩選后獲得銀數(shù)據(jù)(Silver Data)以確保訓(xùn)練數(shù)據(jù)高質(zhì)量,避免噪聲對模型的影響。由于當(dāng)以字符為基本處理單元時待處理序列較長,會導(dǎo)致數(shù)據(jù)稀疏問題,且對于長距離關(guān)聯(lián)的學(xué)習(xí)效果較差,后續(xù)的研究者大都還是將單詞作為輸入序列的基本處理單元。
3.3.2 Transformer模型
機器翻譯模型的性能因Transformer模型的提出得到了大幅提升[57]。利用自注意力機制讓模型能夠?qū)W習(xí)到輸入序列中不同部分之間的關(guān)系,其通過計算各部分之間的注意力分?jǐn)?shù),從而能夠更全局地捕捉上下文信息。
為了提升解析模型的語義表示能力,許多研究者關(guān)注于建模和捕捉文本和圖數(shù)據(jù)中所蘊含的結(jié)構(gòu)信息。Ge等人[58]嘗試將語法和語義信息融合到解析器中,采用一種可結(jié)構(gòu)感知的AMR解析器隱式地建模上述信息。Transformer模型對整句層面的上下文信息學(xué)習(xí)更為充分,得以將元素間對齊、句法路徑、句法距離和語義關(guān)系等信息融入編碼之中。
機器翻譯、句法解析和AMR解析3個任務(wù)是從不同的視角捕捉文本中的語言學(xué)知識。Xu等人[59]在微調(diào)階段通過聯(lián)合學(xué)習(xí)上述3個預(yù)訓(xùn)練任務(wù),初始化構(gòu)建AMR解析器模型。此外,他們還嘗試引入預(yù)訓(xùn)練模型BERT[60]對源句子中的語言學(xué)知識進行表征,結(jié)果顯示BERT的引入顯著提升了模型的解析性能。
BERT本身并非生成式模型,其源端和目標(biāo)端詞匯表不共享的特性會給AMR解析任務(wù)帶來困難。Bevilacqua等人[61]提出了一種基于BART的Seq2Seq模型SPRING(Symmetric PaRsIng aNd Generation)實現(xiàn)AMR解析和AMR生成任務(wù)。BART[62]是一種基于Transformer架構(gòu),結(jié)合了BERT雙向編碼和自回歸模型GPT自左向右解碼特點的編碼器-解碼器模型。BART通過降噪自監(jiān)督任務(wù)還原亂序、帶掩碼以及存在損壞的文本,執(zhí)行上述預(yù)訓(xùn)練任務(wù)以增強模型泛化能力。其源端和目標(biāo)端的詞匯表在很大程度上相交,以及生成式模型的特點可以滿足AMR解析任務(wù)的條件。
前述工作中數(shù)據(jù)預(yù)處理是對諸如變量名、wiki關(guān)系等信息進行刪減后以啟發(fā)式的方法進行還原,這將不可避免地導(dǎo)致信息丟失和非法標(biāo)注的問題。SPRING提出了一種無損的同構(gòu)圖線性化技術(shù),引入特定標(biāo)記
圖13 AMR的三種線性化表示示例
其后,許多研究者通過引入額外結(jié)構(gòu)信息進一步提升模型解析性能。引入額外結(jié)構(gòu)信息的本質(zhì)是為了提升模型的文本語義表征能力。Chen等人[63]在SPRING解析器中引入中間任務(wù)學(xué)習(xí)(Intermediate-Task-Learning,ITL)作為輔助任務(wù)訓(xùn)練,選擇語義角色標(biāo)注和依存解析作為中間任務(wù),將其輸出的數(shù)據(jù)轉(zhuǎn)換為偽AMR數(shù)據(jù)(PseudoAMR),然后利用這些數(shù)據(jù)構(gòu)建訓(xùn)練任務(wù)以滿足模型對額外結(jié)構(gòu)信息的學(xué)習(xí)。Yu等人[64]在SPRING的基礎(chǔ)上設(shè)計多種策略將AMR圖節(jié)點的祖先信息添加到解碼器中以指導(dǎo)AMR圖的生成,即引入了圖結(jié)構(gòu)信息。Cheng等人[65]則是在BART模型的基礎(chǔ)上對文本和其對應(yīng)的AMR圖序列聯(lián)合學(xué)習(xí),提出雙向貝葉斯學(xué)習(xí)(Bidirectional Bayesian Learning,BiBL)方法,對上述兩種數(shù)據(jù)形式的聯(lián)合概率分布進行單階段多任務(wù)學(xué)習(xí),通過輔助生成和重構(gòu)這兩項輔助任務(wù),模型得以有效捕捉到概率分布中的潛在信息。
由于先前工作中的預(yù)訓(xùn)練語言模型大都是基于文本數(shù)據(jù)進行的,這導(dǎo)致模型對AMR這種圖結(jié)構(gòu)數(shù)據(jù)的學(xué)習(xí)和結(jié)構(gòu)信息捕捉并不充分。Bai等人[66]嘗試在BART模型的基礎(chǔ)上,引入基于圖結(jié)構(gòu)模型中的圖預(yù)訓(xùn)練策略,類比BART中的降噪自監(jiān)督預(yù)訓(xùn)練策略,通過節(jié)點/邊重構(gòu)和子圖重構(gòu)兩種操作實現(xiàn)圖預(yù)訓(xùn)練任務(wù)的降噪。他們進一步提出一種文本-圖聯(lián)合預(yù)訓(xùn)練框架,將文本和AMR圖同時作為輸入進行聯(lián)合學(xué)習(xí),并輸出期望的文本或圖。這種預(yù)訓(xùn)練框架通過消除預(yù)訓(xùn)練和微調(diào)之間的輸入和輸出格式差異,來使模型在微調(diào)階段中充分利用預(yù)訓(xùn)練知識,對于模型而言能夠同時利用文本和圖的信息,以捕捉更豐富的結(jié)構(gòu)信息。
3.3.3 大語言模型
大語言模型出現(xiàn)后,Lee等人[67]嘗試采用FLAN-T5大語言模型實現(xiàn)AMR解析,為了適配模型輸入,首先對訓(xùn)練數(shù)據(jù)做了一系列AMR預(yù)處理操作,如刪除wiki標(biāo)簽、線性化AMR等。然后對模型采用全參數(shù)微調(diào)、LoRA微調(diào)以及先全參數(shù)微調(diào)后再LoRA微調(diào)三種方式,以實現(xiàn)英文AMR解析。在AMR 2.0和AMR 3.0數(shù)據(jù)集上,加入銀數(shù)據(jù)后,經(jīng)過全參數(shù)微調(diào)再加LoRA微調(diào)的FLAN-T5-XL模型的性能優(yōu)于采用BART預(yù)訓(xùn)練語言模型的性能,達到了目前AMR解析任務(wù)的SOTA。
除上述類別外,還有一類解析方法,通過引入不同的文法、代數(shù)方法對圖結(jié)構(gòu)數(shù)據(jù)進行形式化建模,并生成對應(yīng)的中間形式,進而將AMR解析任務(wù)轉(zhuǎn)換為基于新形式下的相關(guān)問題求解,其示意圖如圖14 所示。
圖14 基于形式化的方法示意圖
3.4.1 超邊替換文法
超邊替換文法HRG[68]是上下文無關(guān)文法(Context-Free Grammar,CFG)在圖結(jié)構(gòu)上的一種表示,而派生的同步超邊替換文法(Synchronous Hyperedge Replacement Grammar,SHRG)能夠被用來實現(xiàn)圖結(jié)構(gòu)與其他結(jié)構(gòu)(線性結(jié)構(gòu)或者樹結(jié)構(gòu))的雙向轉(zhuǎn)換。每一條SHRG規(guī)則由一對相互映射的CFG規(guī)則和HRG規(guī)則組成,根據(jù)SHRG規(guī)則可以并行地生成文本和對應(yīng)的AMR圖。Peng等人[69]首先將文本轉(zhuǎn)換為超圖,其中節(jié)點、超邊分別為單詞或短語,及其之間的關(guān)系,并同時構(gòu)建初始SHRG規(guī)則集,每條規(guī)則將一條超邊替換為一個子圖。然后,根據(jù)文本與超圖的對齊信息構(gòu)建片段分解森林[70],片段分解森林是一個包含所有與輸入文本和AMR圖對齊的可能規(guī)則的集合。再采用馬爾科夫鏈蒙特卡洛算法對片段分解森林進行采樣學(xué)習(xí),根據(jù)規(guī)則得分和采樣策略選擇得到最佳的SHRG規(guī)則。對測試數(shù)據(jù)應(yīng)用所得的規(guī)則,最終實現(xiàn)AMR解析。
3.4.2 組合范疇文法
從計算語言學(xué)的角度看,CCG[68,71]是1類上下文有關(guān)文法,其通過一階邏輯實現(xiàn)從語法到語義的自動推理,較其他語法形式相比更擅長于增量式的句子處理方式。Artz等人[22]率先提出了一個基于CCG的AMR解析算法,其采用CCG的句法分析過程生成組合性的AMR結(jié)構(gòu),再采用因子圖對非組合性語言現(xiàn)象(如指代關(guān)系等)建模求解。具體來說,首先,將文本轉(zhuǎn)換為CCG樹,CCG樹是一種能夠?qū)⒕渥拥木浞ńY(jié)構(gòu)和語義表示相互關(guān)聯(lián)起來的樹形結(jié)構(gòu),其中,樹中每一個節(jié)點都包含一個表示該節(jié)點語法類型的范疇。然后,根據(jù)CCG樹中的范疇信息生成對應(yīng)的邏輯形式,邏輯形式是一種表示句子語義的形式,通常使用Lambda演算表示。最后,在邏輯形式中,每個AMR概念對應(yīng)一個Lambda項,每個AMR關(guān)系對應(yīng)一個應(yīng)用于這些變量的二元謂詞,以此實現(xiàn)AMR解析。
3.4.3 HR代數(shù)
HR代數(shù)是由Courcelle[72]于1993年提出的一種用以研究圖性質(zhì)的代數(shù)系統(tǒng),HR代數(shù)是一種細(xì)粒度的代數(shù),可以靈活地組合語法規(guī)則。Groschwitz等人[73]從代數(shù)圖論的角度進行研究,他們認(rèn)為AMR由多個原子圖所組成,其中每個原子圖對應(yīng)單詞及其在句子中的語義關(guān)系。通過對各原子圖使用HR代數(shù)的通用圖融合操作來實現(xiàn)AMR解析,這導(dǎo)致語法推理的計算量巨大。因此,他們提出AM代數(shù),通過使用將謂詞與補語或修飾語相結(jié)合的操作來進行原子圖(又稱為AM項)融合操作,這不但顯著地減少了候選組合的數(shù)量,而且可以直接對控制、提升和并列等句法現(xiàn)象進行建模。
基于上述研究,Groschwitz等人[74]進一步提出使用AM代數(shù)實現(xiàn)AMR解析,其初衷是提供一種準(zhǔn)確、可控和可擴展的方法以更好地捕捉句子的語義信息,巧妙地將AMR解析任務(wù)轉(zhuǎn)化為計算給定文本的最佳AM依存樹問題。具體來說,首先,利用AM代數(shù)將文本轉(zhuǎn)換為as-graphs的中間形式,as-graph是帶有節(jié)點和邊標(biāo)簽的有向圖,每個 as-graph 對應(yīng)文本中的一個單詞或短語;然后,采用超標(biāo)記方法為每個as-graph分配類型信息;再使用依存句法解析器將as-graphs組合成一個依存句法樹,并通過定義apply(APP)和modify(MOD)這一組操作來組合依存句法樹中的as-graphs,APP操作將一個參數(shù)添加到謂詞中,MOD操作將一個修飾語添加到圖中,最終得到表征整個句子的as-graph,并將其轉(zhuǎn)換為對應(yīng)AMR解析結(jié)果。
中文AMR在英文AMR體系的基礎(chǔ)上進行了較大的調(diào)整和改進,包括新增了概念關(guān)系和原句詞語的對齊,對漢語離合詞、重疊式等特殊語言現(xiàn)象的改進標(biāo)注,對虛詞的標(biāo)注等,以更好地表示中文句子的語義結(jié)構(gòu)[75]。由于中文AMR語料庫2019年才構(gòu)建,其研究起步較晚,因此,我們按照發(fā)展時間線論述中文AMR解析方法的研究成果。
吳泰中等人[76]受依存分析中基于Shift/Reduce的依存分析算法啟發(fā),在依存圖分析基礎(chǔ)上,采用基于雙棧的擴展Shift/Reduce轉(zhuǎn)移解碼算法,解決交叉邊和可重入邊問題,設(shè)計了一個基于轉(zhuǎn)移神經(jīng)網(wǎng)絡(luò)的增量式中文AMR解析模型。該模型在LA、RA、SHIFT、REDUCE四種轉(zhuǎn)移動作的基礎(chǔ)上,增加將主棧中的棧頂元素壓入到次棧中的動作MEM,以處理交叉邊或多個父節(jié)點等特殊情況,然后通過 LSTM模型學(xué)習(xí)語義關(guān)系表示和上下文相關(guān)詞語義表示,并在此基礎(chǔ)上,引入深度雙向LSTM-CRF模型進行概念識別和消歧以對中文AMR進行解析。
Huang等人[77]基于Transformer模型實現(xiàn)了一個適用于中文的序列到序列AMR語義解析系統(tǒng)。該解析系統(tǒng)參考英文AMR解析中的預(yù)處理方法處理中文AMR圖,刪除了共指關(guān)系、對齊信息等,在不改變句子語義的情況下獲得中文AMR的線性化序列,比較了BERT、BERT-wwm、NEZHA等五個預(yù)訓(xùn)練語言模型應(yīng)用于中文AMR解析的性能,發(fā)現(xiàn)在模型中融合BERT-wwm的上下文表征的性能最好。
在2022年第二屆中文AMR解析評測中[78],Chen等人[79]提出了概念預(yù)測和關(guān)系預(yù)測雙階段預(yù)測方法,實現(xiàn)中文AMR解析。在概念預(yù)測階段,設(shè)計了直接對齊、標(biāo)準(zhǔn)化對齊、連續(xù)多字對齊、不連續(xù)多字對齊、分割對齊和空對齊6種不同的對齊規(guī)則,將輸入的單詞與抽象概念相對應(yīng),在關(guān)系預(yù)測階段,利用RoBERTa和BiLSTM對預(yù)測的概念進行編碼,然后輸入到深度雙仿射分類器(Biaffine)中預(yù)測兩個概念之間的關(guān)系。
在同年競賽中,周仕林等人(3)https://github.com/zsLin177/camr使用Chinese-RoBERTa預(yù)訓(xùn)練模型對輸入數(shù)據(jù)進行編碼,并通過BiLSTM將詞性信息和句法依存信息與編碼信息相結(jié)合,解碼器再對編碼器生成的節(jié)點進行動作預(yù)測、對齊預(yù)測、關(guān)系預(yù)測、屬性判斷和根節(jié)點預(yù)測處理。為了使輸出的AMR符合中文規(guī)范,還設(shè)計了節(jié)點對齊、恢復(fù)共指信息等后處理,最后對AMR解析的結(jié)果采用多圖聚合的操作,該模型在此次競賽中取得了最好的成績。
2023年,Gu等人[80]借鑒SPRING的框架結(jié)構(gòu),遷移至中文AMR解析。線性化AMR圖得到AMR序列后,全參數(shù)微調(diào)Chinese-BART-large預(yù)訓(xùn)練語言模型,并將額外的詞性與句法依存信息通過BiLSTM與BART Encoder的輸出相結(jié)合,輸入到BART Decoder中,隨后通過對齊等后處理使得模型生成的AMR序列符合中文AMR的標(biāo)注規(guī)范,最后將該模型輸出的結(jié)果與上一模型輸出的結(jié)果進行多圖聚合操作。他們提出的方法在2023年第三屆中文AMR解析評測中[81]取得了5項第一的成績。
Yang等人[82]利用大型對話語言模型ChatGPT進行零樣本學(xué)習(xí)(Zero-shot)和少樣本學(xué)習(xí)(Few-shot),對ChatGLM-6B進行全參數(shù)微調(diào)和LoRA微調(diào)實現(xiàn)中文AMR解析。由于大模型在Zero-shot和Few-shot的設(shè)定下,長文本輸入導(dǎo)致生成效果不理想,并且無法生成未見過的AMR關(guān)系,這使得解析性能欠佳。實驗結(jié)果表明,經(jīng)過全參數(shù)微調(diào)的ChatGLM-6B雖然具備一定的AMR解析能力,但是會損傷模型的泛化性,而LoRA微調(diào)尚不足以讓模型實現(xiàn)AMR解析。Gao等人[83]選擇對Baichuan-7B模型進行全參數(shù)微調(diào)來實現(xiàn)中文AMR解析,首先線性化AMR圖,然后構(gòu)造數(shù)據(jù)對大模型進行微調(diào)。構(gòu)造的輸入數(shù)據(jù)包含任務(wù)指令、原始句子以及帶有詞編號的分詞后的句子,標(biāo)簽則是線性化后的AMR序列,最后基于規(guī)則匹配等方式對模型輸出的AMR序列進行后處理,以使其符合中文AMR規(guī)范。
大型語言模型的出現(xiàn)及“預(yù)訓(xùn)練-微調(diào)”的范式不斷地提升著AMR解析的性能,但如何將AMR的解析任務(wù)和大型語言模型的預(yù)訓(xùn)練任務(wù)結(jié)合起來是提升大語言模型進行AMR解析性能的關(guān)鍵。
評測AMR解析器性能可以通過將AMR解析圖和人工標(biāo)注AMR圖進行相似度匹配來度量。Smatch[84]用于衡量兩個AMR圖的匹配程度,是目前最主流的AMR解析評測指標(biāo)。Smatch評測中,首先將AMR圖轉(zhuǎn)換為三元組集合的形式,然后采用啟發(fā)式的爬山算法(Hill-climbing Method)進行貪心搜索,以獲取兩個集合在最優(yōu)匹配下的三元組匹配個數(shù),最終返回準(zhǔn)確率P、召回率R和Fβ值等度量指標(biāo)。Smatch三元組集合包含節(jié)點、節(jié)點屬性和有向弧三個子類別,表4給出圖5示例的三元組表示形式。
表4 Smatch三元組表示形式
Smatch評測指標(biāo)基于英文AMR而設(shè)計,無法較好地兼容中文AMR解析評測。一方面是由于英文AMR只關(guān)注實詞,而其所忽略的虛詞以及部分語言現(xiàn)象在漢語中往往蘊藏著語義信息;另一方面是因為英文AMR缺乏對齊信息,中文AMR的概念、關(guān)系對齊結(jié)果并不能由Smatch所體現(xiàn)。為了彌補中文AMR解析評測在對齊信息上的空缺,肖力銘等人[85]在Smatch的基礎(chǔ)上添加了描述概念對齊和關(guān)系對齊的信息,提出Align-Smatch用以評測中文AMR解析器。
Align-Smatch將中文AMR圖轉(zhuǎn)換為一個多元組,每個多元組包含3個或者4個元素。具體而言,對Smatch的三元組集合作了下列修改: ①在原節(jié)點屬性類別中,對其三元組新增了表示概念對齊的三元組; ②在原有向弧三元組類別中,新增了表示關(guān)系對齊的四元組; ③使用有向弧多元組來表示位于根節(jié)點的詞, 而不再使用節(jié)點屬性三元組表示。Align-Smatch評測公式同Smatch評測公式,其中的準(zhǔn)確率P為黃金AMR的多元組集合和解析生成的AMR多元組集合間的最大匹配個數(shù)與解析生成的 AMR多元組總個數(shù)之比; 召回率R為黃金AMR的多元組集合和解析生成的AMR多元組集合之間的最大匹配個數(shù)與黃金AMR的多元組總個數(shù)之比;Fβ值同Smtach。
英文AMR解析器性能評估主要在AMR 2.0、AMR 3.0上進行,中文AMR解析器性能評估則是在CAMR 1.0、CAMR 2.0上進行。為驗證跨領(lǐng)域泛化能力,部分解析模型也會在分布外(Out-of-distribution)設(shè)定下,在如The Little Prince 3(TLP)(4)3https://amr.isi.edu/download.html、BIO[86]等特定數(shù)據(jù)集上進行實驗。評估實驗結(jié)果基于Smatch或Align-Smatch評測指標(biāo)去衡量黃金AMR圖和解析結(jié)果的匹配程度,同時如表5所示的子指標(biāo)也在一定程度上反映了AMR解析器在某項子任務(wù)中的表現(xiàn)。整理歸納現(xiàn)有中英文AMR解析器實驗結(jié)果,表6為AMR 2.0上的評測結(jié)果,表7為AMR 3.0上的評測結(jié)果,表8為CAMR 1.0和CAMR 2.0上的評測結(jié)果。
表5 評測指標(biāo)含義
表6 英文AMR解析器在AMR 2.0上的實驗結(jié)果 (單位:%)
表7 英文AMR解析器在AMR 3.0上的實驗結(jié)果 (單位:%)
表8 中文AMR解析器實驗結(jié)果 (單位:%)
借鑒集成思想,Hoang等人[87]提出使用圖聚合操作來提升解析性能。圖聚合的核心思想是在多個解析器所得到AMR圖集合中,求解最大公共子圖作為最終的聚合圖。Lee等人[88]則進一步提出了極大貝葉斯Smatch集成決策(Maximum Bayes Smatch Ensemble, MBSE)。其受到圖聚合[87]和知識蒸餾[89]啟發(fā),通過集成Smatch-based模型和多種解析器的集成蒸餾模型來生成高質(zhì)量的銀數(shù)據(jù)以達到數(shù)據(jù)增強的目的。最終不僅進一步提高了在公開數(shù)據(jù)集上的AMR解析器性能表現(xiàn),還在特定領(lǐng)域語料和跨語言的場景下均取得了較大的性能提升。因此,我們將此類研究實驗結(jié)果作為四類方法的一種補充。
4.2.1 研究趨勢分析
從時間發(fā)展維度分析發(fā)現(xiàn),如圖15、圖16所示,AMR 2.0發(fā)布早,時間跨度大,其上的解析器性能反映了英文AMR發(fā)展的歷程。前期工作主要以基于圖和基于轉(zhuǎn)移的方法為代表,2021年之后,基于Seq2Seq的方法占據(jù)了主導(dǎo)地位,綜合解析性能超過其他方法。AMR 3.0發(fā)布時間較新,可以反映AMR解析器的前沿研究進展。AMR解析器自動解析性能已經(jīng)達到較好水平,Transformer架構(gòu)和預(yù)訓(xùn)練語言模型的引入使得基于Seq2Seq的AMR解析器性能取得了較大進步,但是近期研究中AMR解析器性能提升趨勢漸緩。
圖15 英文AMR解析器在AMR 2.0上的Smatch值
圖16 英文AMR解析器在AMR 3.0上的Smatch值
4.2.2 英文AMR解析方法對比分析
分析表6、表7發(fā)現(xiàn),早期基于轉(zhuǎn)移的方法以及基于形式化的方法性能較差,且缺少分項指標(biāo)度量。實驗顯示,無論在AMR 2.0上還是AMR 3.0上,基于Seq2Seq的方法均是當(dāng)前的SOTA。
刪除缺少分項指標(biāo)的數(shù)據(jù)后,構(gòu)造折線圖,如圖17、圖18所示。針對否定義項(Neg.)和可重入關(guān)系(Reen.)的識別還有著較大的提升空間,這意味著現(xiàn)有模型對于復(fù)雜的多語義關(guān)系的捕捉亟待加強。Lee等人的解析器在AMR 2.0和AMR 3.0上的Smatch值分別達到了86.4%和84.9%,雖然預(yù)訓(xùn)練技術(shù)乃至大模型的引入顯著提升了解析性能,但是依舊還有不小的上升空間。如何在可承受的計算復(fù)雜度范圍內(nèi)進一步提升預(yù)訓(xùn)練模型的語義表征能力,是一個亟待解決的問題。
圖17 英文AMR解析器在AMR 2.0上的指標(biāo)折線圖
圖18 英文AMR解析器在AMR 3.0上的指標(biāo)折線圖
4.2.3 中文AMR解析方法對比分析
分析表8發(fā)現(xiàn),中文AMR解析方法研究較晚,早期中文AMR解析方法由于缺少對齊信息,仍然采用英文AMR評測指標(biāo)Smatch。中文AMR語料庫引入對齊信息后,主要采用基于圖的方法以及基于Seq2Seq的方法,在CAMR 2.0數(shù)據(jù)集上構(gòu)造指標(biāo)折線圖, 如圖19所示??梢园l(fā)現(xiàn),不同于英文AMR解析中基于Seq2Seq的方法優(yōu)于其他方法,在中文AMR解析器中,基于圖的方法評測效果優(yōu)于基于Seq2Seq的方法。
圖19 中文AMR解析器在CAMR 2.0上的指標(biāo)折線圖
AMR以圖的形式,突破淺層局限實現(xiàn)領(lǐng)域無關(guān)的整句通用語義表示,解析是AMR應(yīng)用的關(guān)鍵步驟。通過CiteSpace工具分析發(fā)現(xiàn),AMR解析方法是當(dāng)前的研究熱點,積累了較多研究成果,但尚缺乏與時俱進的文獻綜述。本文以問題驅(qū)動聚焦AMR解析方法的演化歷程。結(jié)合文獻理解,分析AMR 解析面臨的關(guān)鍵難點問題,包括語料稀疏、對齊缺失、結(jié)構(gòu)信息學(xué)習(xí)等。根據(jù)其解析策略,將AMR解析方法分為四類: 基于圖的解析方法、基于轉(zhuǎn)移的解析方法、基于Seq2Seq的解析方法和基于形式化的解析方法。以方法發(fā)展及問題解決為思路,重點闡述經(jīng)典英文AMR解析方法、中文AMR最新解析方法,最后從評測和經(jīng)典算法實驗結(jié)果分析角度,分析了AMR解析方法的研究趨勢,以及不同方法類型在中英文AMR解析上的性能。
研究發(fā)現(xiàn),AMR解析的早期成果大都延續(xù)依存句法分析的相關(guān)方法進行遷移,而近三年來AMR解析性能的大幅提升主要受益于深度學(xué)習(xí)和預(yù)訓(xùn)練技術(shù)的引入。由于AMR評測語料庫的規(guī)模較小,解析器性能依舊受限于多領(lǐng)域樣本標(biāo)注及數(shù)量,導(dǎo)致對于特定領(lǐng)域數(shù)據(jù)以及復(fù)雜語義現(xiàn)象的學(xué)習(xí)不夠全面。未來AMR研究可以從以下方面展開: 第一,構(gòu)建高質(zhì)量AMR標(biāo)注語料庫。語料庫開發(fā)是AMR解析的基石,尤其在特定領(lǐng)域、其他語種下的語料庫標(biāo)注工作意義重大。第二,英文AMR對齊信息的錯誤和缺失在一定程度上會影響自動解析的效果??梢钥紤]借鑒中文AMR標(biāo)注規(guī)范,將對齊信息顯式地加入到英文AMR標(biāo)注中以緩解對齊問題。第三,盡管中文AMR標(biāo)注有顯式對齊信息,但是在解析器中正確獲取對齊信息是解析的難點,可以重點研究AMR后處理方法或采用隱式學(xué)習(xí)對齊信息的方式,解決中文AMR對齊問題。第四,基于圖的學(xué)習(xí)具有捕捉圖結(jié)構(gòu)信息的天然優(yōu)勢,圖神經(jīng)網(wǎng)絡(luò)等相關(guān)算法有望在未來更好地實現(xiàn)AMR解析。