楊振平,毛存禮,雷雄麗,黃于欣,張勇丙
(1. 昆明理工大學 信息工程與自動化學院,云南 昆明 650500;2. 昆明理工大學 云南省人工智能重點實驗室,云南 昆明 650500;3. 昆明冶金高等??茖W校,云南 昆明 650500)
跨境民族是指隨著社會歷史的發(fā)展,源于同一族系下的民族成員生活在不同國家的民族,例如,中國傣族、緬甸撣族、泰國泰族、老撾佬族以及越南泰族均屬于同一族系下的跨境民族群體,不同的民族進行文化交流并逐漸形成了跨境民族文化。跨境民族文化領(lǐng)域?qū)嶓w關(guān)系抽取的任務是從非結(jié)構(gòu)化的跨境民族文化文本中抽取出飲食、文藝、建筑、節(jié)日實體和實體之間組成的關(guān)系。
目前,研究人員大多關(guān)注實體關(guān)系重疊問題,利用聯(lián)合標注的方法解決實體關(guān)系重疊問題,例如Wei等人[1]提出了一種新型級聯(lián)二進制標注實體策略的聯(lián)合學習模型(A Novel Cascade Binary Tagging Framework for Relational Triple Extraction,CasRel),該框架預測句子中所有頭實體,通過預測的頭實體與對應的關(guān)系類型進行映射來預測尾實體,該模型較好地解決了實體關(guān)系抽取中的重疊實體關(guān)系問題。以上方法在通用領(lǐng)域?qū)嶓w關(guān)系抽取任務上已經(jīng)取得了較好的效果,但是跨境民族文化領(lǐng)域的實體關(guān)系抽取任務相比通用領(lǐng)域還存在領(lǐng)域?qū)嶓w識別不準確、領(lǐng)域信息缺失以及關(guān)系重疊問題。
如表1所示,跨境民族文化文本中實體關(guān)系特征主要體現(xiàn)在單個實體重疊關(guān)系、實體對重疊關(guān)系以及多個實體對關(guān)系;文本中還存在大量的領(lǐng)域詞語,如“浴佛節(jié)”“解夏節(jié)”“象腳鼓”等,這些詞語使得文本的語義信息提取困難。跨境民族文化文本結(jié)構(gòu)復雜,一段文本存在多個實體,實體對有多種不同的關(guān)系交叉互聯(lián)。通用領(lǐng)域?qū)嶓w關(guān)系抽取模型對多實體、多關(guān)系文本進行抽取時,很容易錯誤匹配或者遺漏領(lǐng)域?qū)嶓w對,從而輸出不完整的實體關(guān)系三元組,這也成為跨境民族文化實體關(guān)系抽取任務的挑戰(zhàn)。
表1 文本重疊實體關(guān)系示例分析
針對實體關(guān)系抽取模型缺少領(lǐng)域信息造成上下文語義缺失、實體對存在關(guān)系重疊等問題,本文提出了基于指針標注的跨境民族文化實體關(guān)系抽取方法。本文主要貢獻如下:
(1) 為了讓模型能夠?qū)W習到跨境民族文化領(lǐng)域特征表示,本文利用已構(gòu)建的領(lǐng)域詞典進行詞向量訓練,通過融入領(lǐng)域詞典提取文本中的領(lǐng)域知識表示,進而增強文本領(lǐng)域特征。
(2) 通過Bi-LSTM[2]編碼特征提取上下文語義信息,提升指針網(wǎng)絡對底層實體預測的準確性。
(3) 采用分層的指針網(wǎng)絡標注所有關(guān)系類型中的尾實體,將所有標注的頭實體作為先驗條件,通過多層指針網(wǎng)絡依次對所有關(guān)系條件下標注頭實體對應的尾實體。
利用跨境民族文化領(lǐng)域?qū)嶓w關(guān)系抽取方法獲取領(lǐng)域信息,對于推動跨境民族文化研究工作具有重要的價值,可以有效地補充結(jié)構(gòu)化的領(lǐng)域信息并發(fā)現(xiàn)一些關(guān)聯(lián)關(guān)系,對于領(lǐng)域知識庫的構(gòu)建、信息檢索等任務具有支撐作用。
近年來,深度學習方法逐漸應用在通用領(lǐng)域和特定領(lǐng)域的實體關(guān)系抽取任務中,當前主流的方法是基于流水線和聯(lián)合學習的實體關(guān)系抽取方法。
Zhong等人[3]提出了簡單的流水線模型學習實體和關(guān)系的不同上下文表示、融合關(guān)系模型中的實體信息和整合全局上下文的重要性,流水線模型復雜度低,但是會造成錯誤傳播問題。2016年Miwa等人[5]提出了一種端到端的實體關(guān)系聯(lián)合抽取模型,通過學習句法樹中不同節(jié)點之間的關(guān)系來進行關(guān)系抽取,該模型忽略了標簽之間的長依賴關(guān)系問題。2017年Zheng等人[5]提出用層次級神經(jīng)網(wǎng)絡模型抽取實體與關(guān)系,通過Bi-LSTM層對輸入共享詞嵌入層進行編碼,模型在訓練時會更新共享參數(shù)來實現(xiàn)實體和關(guān)系抽取任務之間的關(guān)聯(lián)。2017年Zheng等人[6]提出了基于聯(lián)合標注策略的實體關(guān)系聯(lián)合抽取方法,把實體標注和關(guān)系分類任務轉(zhuǎn)換為序列標注任務,該模型不能夠?qū)χ丿B實體關(guān)系進行抽取。2018年Zeng等人[7]提出采用copy機制的實體關(guān)系三元組抽取方法,該方法實現(xiàn)了參數(shù)共享,解決了句子中單個實體關(guān)系重疊問題。實體關(guān)系聯(lián)合抽取有效地解決了流水線模型中錯誤傳播問題,但是在解決實體關(guān)系重疊問題上有待提升。
表格填充方法[8-10]在聯(lián)合實體關(guān)系抽取任務中得到廣泛應用,表格填充方法能夠更直接表達實體關(guān)系直接的聯(lián)系,有助于重疊實體關(guān)系的抽取。2019年Fu等人[11]提出了GraphRel模型用于解決實體關(guān)系重疊的問題,該模型利用圖卷積網(wǎng)絡(Graph Convolutional Network, GCN)[12]聯(lián)合學習實體和關(guān)系,通過關(guān)系加權(quán)GCN考慮實體和關(guān)系之間的交互以更好地提取關(guān)系類型。2020年Wang等人[13]提出了TPLinker模型,該模型通過階段聯(lián)合提取實體和重疊關(guān)系,引入了一種新的標記方案對每種關(guān)系類型下的實體對的邊界進行標注并對齊,它彌合了訓練和推理之間的差距。2021年Zheng等人[14]提出了PRGC模型,設計一個預測潛在關(guān)系的組件,將實體提取限制在預測的關(guān)系子集上,然后用特定關(guān)系的標簽處理實體對之間的重疊問題。
在跨境民族文化領(lǐng)域中,毛存禮等人[15]提出一種融合領(lǐng)域知識圖譜的跨境民族文化分類方法,利用人工構(gòu)建的領(lǐng)域知識庫進行領(lǐng)域建模。在生物醫(yī)學領(lǐng)域,曹明宇等人[16]提出了一種基于神經(jīng)網(wǎng)絡的藥物實體與關(guān)系聯(lián)合抽取方法,將藥物實體及關(guān)系的聯(lián)合抽取轉(zhuǎn)化為端對端的序列標注任務進行藥物實體與關(guān)系聯(lián)合抽取,利用藥物與藥物之間的領(lǐng)域交互信息為模型提供領(lǐng)域知識。陸亮等人[17]在對話領(lǐng)域提出融入交互信息的實體關(guān)系抽取,使用交叉注意力機制來捕獲對話交互過程中的關(guān)聯(lián)信息。
以上的方法為解決跨境民族文化實體關(guān)系抽取任務中存在的實體關(guān)系重疊問題和領(lǐng)域問題提供了較好的思路,但是跨境民族文化領(lǐng)域文本中含有較多的領(lǐng)域詞匯,造成模型獲取文本語義信息困難。
針對跨境民族文化文本領(lǐng)域信息缺失的問題,本文構(gòu)建了跨境民族文化領(lǐng)域詞典。通過預訓練語言模型訓練詞向量,本文一共收集了5 360個關(guān)于跨境民族文化的領(lǐng)域詞語。部分領(lǐng)域詞語如表2所示,這些領(lǐng)域詞語邊界模糊,導致現(xiàn)有的模型無法對領(lǐng)域信息做正確的語義表征。
表2 跨境民族文化領(lǐng)域詞語示例
基于切分的領(lǐng)域詞語通過統(tǒng)計多個字符組合得到的字符串的頻率, 并設置合適的閾值來對新詞進行發(fā)現(xiàn),定義的凝固度計算如式(1)所示。
(1)
其中,a、b、c是語料中相鄰的字符,α表示預先設置的凝固度閾值;多個字符組成的詞語一般設置比較高的凝固度閾值,防止如“葫蘆笙”之類的詞被錯誤切分為“葫蘆”和“笙”。
本文提出了基于指針標注的跨境民族文化實體關(guān)系抽取方法,包含了四個部分: 領(lǐng)域詞典信息特征融合層、Bi-LSTM特征編碼層、基于指針網(wǎng)絡的頭實體預測層以及關(guān)系條件下的尾實體預測層,其模型架構(gòu)如圖1所示。
跨境民族文化領(lǐng)域中存在大量的領(lǐng)域詞匯,在沒有外部知識輔助的情況下,實體關(guān)系抽取模型無法有效獲取語義信息,因此本文將領(lǐng)域詞典信息融入模型中,對輸入文本和領(lǐng)域詞典進行特征編碼表示,增強模型對跨境民族文化領(lǐng)域語義的表示能力。
字符特征編碼使用BERT[18]的預訓練模型進行字符向量表征,輸入文本序列X={x1,x2,…,xn},利用BERT模型中的多頭注意力機制計算更新字符向量矩陣,如式(2)所示。
G=BERT(X)
(2)
其中,G表示文本字符向量矩陣,BERT(·)為預訓練語言模型。
采用CNN編碼器提取領(lǐng)域詞典信息特征編碼表示,其目的是提取領(lǐng)域詞典中詞語信息的語義知識。如圖2所示,利用領(lǐng)域詞典對文本進行分詞,然后匹配預訓練詞向量,得到領(lǐng)域詞向量矩陣E。
圖2 領(lǐng)域詞典信息特征編碼表示
通過CNN[19]網(wǎng)絡對詞向量進行卷積操作,提取領(lǐng)域詞典信息特征,通過設置卷積核大小來提取文本的n-gram特征,如式(3)所示。
oi=W·E[i:i+h]
(3)
其中,E表示領(lǐng)域詞向量矩陣,W為權(quán)重矩陣。利用K個不同的卷積核獲取多個特征表示,獲得K維的n-gram特征向量矩陣,通過使用最大池化層匯聚,最后輸出最終的編碼表示,如式(4)所示。
(4)
將得到的字符向量表示和領(lǐng)域詞典信息表示進行融合,得到融入詞典信息的文本表征,如式(5)所示。
D=[G;Z]
(5)
其中,G為式(2)中得到的字符向量表示,Z為式(4)得到的領(lǐng)域詞典信息表示。
為了提升模型預測頭實體的效果,本文采用Bi-LSTM網(wǎng)絡層提取上下文信息表征,如式(6)所示。
(6)
其中,σ(·)表示sigmoid激活函數(shù),Wi、Wf表示訓練參數(shù)矩陣,bi、bf、bc表示偏置向量,tanh(·)表示非線性函數(shù)。將D={d1,d2,…,dn}輸入到Bi-LSTM中提取上下文特征,新的隱藏狀態(tài)hi由上一次的隱藏狀態(tài)hi-1和當前的輸入di計算獲取,如式(7)所示。
(7)
本文采用指針網(wǎng)絡[20]對頭實體的位置進行標注,需要標注文本中所有頭實體片段以確保后續(xù)在所有關(guān)系條件下的尾實體標注的準確性。
如圖1所示,將Bi-LSTM輸出的特征向量hi輸入到兩個指針網(wǎng)絡層中,預測跨境民族文化文本中所有頭實體的開始位置概率和結(jié)束位置概率,如式(8)、式(9)所示。
相鄰指針檢測需要符合開始位置在前、結(jié)束位置在后的原則,這樣的策略能夠保持實體標注的完整性。如果句子中存在多個頭實體,只有滿足開始位置和結(jié)束位置自然連續(xù)性,才能被正確檢測為給定的句子中實體跨度,從輸入文本中標注頭實體的概率如式(10)所示。
(10)
針對跨境民族文化實體關(guān)系抽取中存在的實體關(guān)系重疊問題,本文采用多層指針網(wǎng)絡標注來抽取實體關(guān)系三元組。如圖3所示,文本“泰族著名的香竹飯又稱竹筒飯?!敝写嬖趦蓚€實體關(guān)系重疊的三元組,模型在“特色飲食”關(guān)系類型下標注尾實體“香竹飯”的開始位置和結(jié)尾位置;在“別名”關(guān)系類型下標注尾實體“竹筒飯”的開始位置和結(jié)尾位置。
圖3 重疊實體關(guān)系抽取示例
通過頭實體對應的特征向量融入到Bi-LSTM輸出的特征向量中以增強模型整體的依賴性,更好地標注關(guān)系對應的尾實體位置。輸入向量是融合了已標注的頭實體向量,預測所有頭實體對應關(guān)系下的尾實體開始位置概率和結(jié)束位置概率,如式(11)、式(12)所示。
(11)
(12)
(13)
本文根據(jù)領(lǐng)域特點定義了17種關(guān)系類型,包括跨境節(jié)日、民族歌舞、宗教信仰、建筑特色、民族樂器、跨境民族、包含、民族節(jié)日、活動和別名等關(guān)系。如圖4所示,一共構(gòu)建了18 000條高質(zhì)量的實體關(guān)系數(shù)據(jù)集,統(tǒng)計了訓練集、驗證集和測試集中文本數(shù)量、實體關(guān)系三元組數(shù)量以及重疊實體關(guān)系的數(shù)量。
圖4 數(shù)據(jù)集統(tǒng)計
實驗使用Adamax優(yōu)化器來優(yōu)化所有訓練的參數(shù),實驗具體參數(shù)設置如表3所示。
表3 模型參數(shù)的設置
本文的評價指標是通過精確率(Precision)、召回率(Recall)和F1值來對模型進行評估,如式(14)~式(16)所示。
其中,TP表示模型輸出的正確三元組數(shù)量,FP表示模型輸出的錯誤三元組數(shù)量,FN表示模型未能預測的正確三元組數(shù)量。
為了驗證本文方法有效性,設計了一組對比實驗;設計了兩組消融實驗,分別為模型中不同編碼層對模型效果的影響和卷積層數(shù)量對領(lǐng)域詞典信息抽取的影響。
實驗一: 不同方法實驗結(jié)果對比
為了驗證本文方法的有效性,與基線方法進行了對比,四種對比方法如下:
(1)GraphRel模型: 2019年Fu等人[11]提出了基于圖卷積網(wǎng)絡的實體關(guān)系抽取方法,它將實體對分割為幾個詞對,考慮對所有的詞對進行預測的實體關(guān)系抽取方法。
(2)TPLinker模型: 2020年Wang等人[13]利用實體與關(guān)系的交互信息和依賴關(guān)系,提取出不受偏差影響的各種重疊關(guān)系的聯(lián)合模型。
(3)PRGC模型: 2021年Zheng等人[14]設計的一個預測潛在關(guān)系的模塊,將實體提取限制在預測的關(guān)系子集上,然后用特定關(guān)系的標簽處理實體對關(guān)系重疊的問題。
(4)CasRel模型: 2020年Wei等人[1]提出了基于級聯(lián)二進制標注的實體關(guān)系三元組抽取方法,通過標注頭實體及對應關(guān)系類型下的尾實體實現(xiàn)實體關(guān)系抽取方法。
(5)本文方法: 首先基于BERT生成字符向量表征,通過CNN特征編碼器對領(lǐng)域詞向量進行編碼,然后融入到字符向量表征中增強領(lǐng)域信息,通過LSTM對特征向量進一步提取上下文特征,最后利用指針網(wǎng)絡標注實體關(guān)系的方法。
如表4所示,本文方法F1值達到了82.50%,相較于其他三個對比模型都有一定的提升,本文方法在字符向量表征中融入了領(lǐng)域知識,將領(lǐng)域信息表示更好地融合到了模型中。GraphRel模型將字符向量與詞性表征相融合后輸入到Bi-LSTM中提取信息,通過GCN對句法依賴樹編碼,實驗效果取決于訓練過程中依賴分詞的質(zhì)量和詞性標注的質(zhì)量,在特定領(lǐng)域上的實體關(guān)系抽取效果相對較差。PRGC和TPLinker模型效果相對較好,為了避免偏差影響模型效果,使用了復雜的解碼器,導致稀疏的標簽提取能力較弱。
表4 對比實驗結(jié)果 (單位: %)
本文方法相比于CasRel模型效果提升了2.34%,CasRel模型通過BERT直接生成詞向量表征,然后通過二進制標注器進行頭實體標注,在預測所有頭實體時不準確,使得融入頭實體向量帶來誤差傳播的問題。本文方法效果優(yōu)于CaseRel模型的主要原因是本文方法在BERT生成字符向量的基礎上加入了CNN編碼器提取領(lǐng)域信息之后融入到了字符向量中增強領(lǐng)域信息,然后加入Bi-LSTM進一步提取上下文語義信息,提升了指針網(wǎng)絡標注頭實體位置的正確性。
實驗二: 不同編碼層的實驗結(jié)果對比
為了驗證本文方法融合不同編碼層的有效性,設計了去除領(lǐng)域詞典融入層、去除CNN編碼層以及去除LSTM特征提取層的消融實驗,其他層保持不變進行模型訓練。
如圖5所示,去除領(lǐng)域詞典融入層的實驗相較于本文方法F1值下降了2.29%,僅僅是字符層面的表征,沒有詞語層面的信息融合,模型在缺少領(lǐng)域詞典信息的表示后,會造成模型對文本中的領(lǐng)域詞匯編碼能力下降,不能有效地編碼領(lǐng)域特征表示。
圖5 不同編碼層實驗結(jié)果
對于去除CNN編碼層的實驗,相較于本文方法實驗,F1值下降了0.81%,領(lǐng)域詞典信息表征未通過CNN編碼導致特征表示融合時無法融入重要的特征,使得模型無法有效地利用領(lǐng)域詞典信息,表明CNN對領(lǐng)域詞匯局部特征提取的有效性。對于去除LSTM特征提取層的實驗,相較于本文方法F1值下降了1.66%,表明Bi-LSTM能夠有效地提取特征表示中的長短期時間步的依賴信息,即提取文本上下文的語義信息。本文方法將BERT預訓練模型所表示的字符向量和領(lǐng)域詞典信息向量進行融合, 通過CNN編碼器和Bi-LSTM特征提取層后得到的特征表示對模型效果有明顯的提升。
實驗三: 卷積層數(shù)對領(lǐng)域詞典信息提取的影響
為了驗證CNN卷積層數(shù)對領(lǐng)域詞典信息提取的影響,本文設計了卷積層數(shù)分別為2、3、4、5層進行對比,選擇合適卷積層數(shù)得到集合的最優(yōu)組合,使得模型效果最佳。
如表5所示,當卷積層數(shù)為2時,卷積網(wǎng)絡提升感受野的能力不足,造成模型性能提升不大;卷積網(wǎng)絡在參數(shù)規(guī)模相同的情況下,卷積層越小,計算復雜度就越低。當卷積網(wǎng)絡的層數(shù)為3時,模型達到最佳效果;在第3層后,隨著層數(shù)的增加,模型的整體性能均有所下降。當卷積層數(shù)為5層時,準確率有所提高,但是整體F1值比3層的效果差。
表5 卷積層數(shù)量對實驗的影響 (單位: %)
為了驗證本文方法在跨境民族文化實體關(guān)系抽取上的效果,在本節(jié)中選擇了兩個實例進行分析,將基線CasRel模型方法和本文方法進行了對比。
如表6所示,在第一個實例中,存在重疊的頭實體“傣族”,CasRel模型將三元組中對應的尾實體錯誤標注為“旱傣和水傣”。在第二個實例中,將頭實體和對應的關(guān)系都抽取錯誤,這是由于基線模型在缺乏領(lǐng)域信息的輔助下將“潑水節(jié)”實體錯誤標注為“潑水”,導致實體關(guān)系抽取錯誤。本文方法在融入領(lǐng)域詞典信息后能夠更準確地標注領(lǐng)域?qū)嶓w并正確輸出重疊實體關(guān)系三元組。
表6 實例分析
針對跨境民族文化實體關(guān)系抽取任務中存在的實體關(guān)系重疊和領(lǐng)域信息缺失問題,本文提出了基于指針標注的跨境民族文化實體關(guān)系抽取方法,在字符向量表示中加入領(lǐng)域信息增強上下文表征能力,利用多層指針網(wǎng)絡標注方法提升重疊實體關(guān)系抽取的效果。實驗表明,本文方法在跨境民族文化實體關(guān)系抽取任務上有一定的性能提升。