張心怡 ,馮仕民 *,丁恩杰
(1. 礦山互聯(lián)網(wǎng)應用技術國家地方聯(lián)合工程實驗室(中國礦業(yè)大學),江蘇徐州221008;2. 中國礦業(yè)大學信息與控制工程學院,江蘇徐州221008; 3. 中國礦業(yè)大學物聯(lián)網(wǎng)(感知礦山)研究中心,江蘇徐州221008)
隨著“互聯(lián)網(wǎng)+”與“大數(shù)據(jù)”的發(fā)展,煤礦科學數(shù)據(jù)總量日趨龐大,煤礦安全的相關信息也爆炸式增多,這些離散存儲的資料中包含著不安全事故發(fā)生原因、影響因素、響應措施、預防辦法等重要信息。有效整合利用、充分挖掘這些具有專業(yè)性的資料與文獻,可有效監(jiān)督、把控、預防不安全事件的發(fā)生,在煤礦安全領域是十分迫切的安全需求。而傳統(tǒng)僅靠人力手動提取、整合、管理信息已經(jīng)遠遠無法滿足目前信息抽取的需求。因此,設計模型自動抽取信息已成為目前煤炭行業(yè)的熱點問題。其中,命名實體識別作為信息自動抽取任務的重要一環(huán),對知識圖譜的構建、本體的自動構建等下游任務有著重要意義。
目前,對命名實體識別的研究已有很多,但與通用領域相比,煤礦安全領域的資料由于包含煤礦地理信息以及大量專有名詞,其信息抽取任務難點在于命名實體具有一詞多義或多次同義的現(xiàn)象,并且不同的命名實體間存在一定語義關系,這些語義關系對實體識別有很大影響,應被充分利用。由此,煤礦安全領域的命名實體識別任務依然有很大改進空間。
本文主要針對命名實體的語義多樣性、結構嵌套、長度較長的問題來設計模型,另外,為充分利用實體間關系對實體識別的影響信息,提出同時進行命名實體識別與關系抽取的聯(lián)合學習模型。本文主要工作如下:
1)提出了一種新的詞嵌入方法。使用多種向量模型對輸入進行映射,以解決一詞多義問題并提升低頻詞表示的準確性。
2)提出了一種端到端的聯(lián)合學習模型。該模型將命名實體識別與關系抽取以統(tǒng)一標注的方式視為一個統(tǒng)一的任務,使用本文提出的深層注意力網(wǎng)絡同時完成,從而關注到實體間關系對實體識別的影響信息。
3)提出了兩種模型的加強方案:一種方案是在注意力機制中嵌套雙向長短期記憶(Bi-directional Long Short-Term Memory,Bi-LSTM)模型,以犧牲時間來提升精度;另一種方案是將卷積網(wǎng)絡與注意力機制相結合,從而在保證學習速度的前提下同時關注整體特征與局部特征。
4)提出了在序列標注任務中省略解碼結構。通過對比實驗得出深層網(wǎng)絡足以學習時序特征,無需對標簽解碼也可得到準確率較高的標注結果,解碼結構的省略減少了模型的訓練時間,提高了對未標注詞、低頻詞的識別準確率。
實驗結果表明,本文模型不僅對煤礦安全領域的命名實體識別有較好的識別效果,對關系抽取的效果也有了提升。同時,并行化與編碼層的省略,提高了模型的訓練速度。
傳統(tǒng)的命名實體識別方法主要是基于規(guī)則的方法與基于機器學習的方法。其中基于規(guī)則的方法對專家及規(guī)則庫的要求嚴格,難以遷移,因此,基于機器學習的方法逐漸流行。張海楠等[1]提出將命名實體識別的任務看作是序列標注任務,從而根據(jù)標簽確定實體的邊界與類型。Bikel等[2]提出隱馬爾可夫模型,張玥杰等[3]、Artalejo 等[4]將最大熵引入馬爾可夫模型,Song 等[5]提出條件隨機場(Conditional Random Field,CRF)模型等,以上方法全都旨在使用狀態(tài)轉移矩陣來表示標簽與文本的依賴關系,從而更為科學與靈活地識別出實體的邊界與類別,但需研究者手動提取文本特征并設定特征模板,模型的泛化性較差。同時,針對中文語料,以上方法不可避免地需要基于分詞技術的結果來完成實體的識別,而礦山領域知識體系復雜,現(xiàn)有的分詞算法對該特定領域的語料分詞效果較差。
為避免手工構建并選擇特征的繁瑣以及分詞對實體識別任務的影響,基于字的深度學習方法逐漸成為命名實體識別領域關注的熱點。Lu等[6]將文本表示成字符級的分布式形式送入深度學習模型進行實體識別;Dong 等[7]使用字級別的網(wǎng)絡結構對實體進行識別;王博冉等[8]將字級模型與詞表匹配信息相結合,提出了Lattice LSTM 模型,取得了很好的效果。然而煤礦領域的專業(yè)術語存在嵌套情況,長度較長,僅通過字符級的單一網(wǎng)絡忽略了詞語級的語義信息,且難以學習語句間的依賴關系。不少學者針對這一問題提出了編碼-解碼系列模型,加入標簽間的依賴特征以提高識別性能。如柏兵等[9]提出結合Bi-LSTM 與CRF 的識別方法,在人民日報1998 年語料上取得了很好的效果;李明揚等[10]在 Bi-LSTM 與 CRF 模型的基礎上引入自注意力機制,豐富了文本特征,在命名實體識別微博語料庫中達到了58.76%的成績;谷歌團隊[11]提出使用單純的注意力機制網(wǎng)絡完成實體識別等任務。以上方法在一定程度上提高了實體識別的準確率,但解碼結構的引入帶來了時間上的耗費,同時也增強了模型對標簽的依賴,而礦山領域知識語義多樣,使用該結構的實體識別模型會導致對低頻詞、未標注詞的識別效果不明顯等問題,也忽略了實體間關系對實體識別的影響作用。綜上所述,針對礦山領域術語的識別,一方面需要充分提取文本信息,減少模型對標簽的依賴,避免嵌套術語、未標注術語等無法識別的問題;另一方面可通過彌補實體間關系對實體識別的影響,來提升實體識別效果。
對此,本文提出了聯(lián)合學習實體及實體間關系的深度注意力模型,旨在重點關注文本信息,同時探究解碼結構對時序標注效果的影響,并對二者間的相關性信息進行關注以提升煤礦領域術語的識別效果。
本文將聯(lián)合學習任務看作序列化標注任務進行端到端的直接抽取,即給定一個句子,聯(lián)合學習的目標是識別句子中的所有實體及關系,并對其進行語義分類。本文采用與文獻[12]中相同的標注策略。例如,對句子:“河北海岷工礦集團有限公司坐落于全國標準件集散地河北-邯鄲。”,產(chǎn)生如圖1所示標注。其中,“河北海岷工礦集團有限公司”與“河北-邯鄲”為相同的關系類“屬于(SY)”,且標簽為“1”代表關系中的主語,標簽為“2”代表關系中的賓語。由此可使用關系將兩個實體進行連接,從而得到最終的三元組結果。
圖1 標注策略Fig. 1 Annotation strategy
本文的聯(lián)合學習模型框架主要分為三個模塊,模型整體框架如圖2 所示。訓練過程分別由文本數(shù)據(jù)預處理模塊、投影模塊、特征提取模塊以及分類模塊構成。
首先,將原始話語投影到實值向量中,再將其輸送至下一層;然后,設計了一個深層的多頭自注意力神經(jīng)網(wǎng)絡,該神經(jīng)網(wǎng)絡將嵌入矩陣作為輸入,以捕獲句子的嵌套結構以及標簽之間的依存關系;最后,使用分類層對實體及其關系進行分類。
模型的推理方法為端到端的直接推理,即僅將句子經(jīng)過預處理送入模型后便可得到實體及其關系的序列標注。
圖2 基于深度注意力的聯(lián)合學習模型框架Fig. 2 Framework of joint learning model based on deep attention
2.3.1 數(shù)據(jù)預處理模塊
由于本文模型為實體及其關系的聯(lián)合抽取模型,需對句子中的實體及其關系進行同時關注,為避免句子中實體過多對模型帶來的干擾,本文在模型訓練前對語料進行以下處理:
1)對于以頓號連接的相似實體,生成隨機數(shù)x,僅保留第x個實體,從而減少句子冗余性。
2)分詞:采用jieba分詞軟件對文本進行分詞處理。
2.3.2 投影模塊
投影模塊的整體框架如圖3所示。
圖3 投影模塊Fig. 3 projection module
為豐富句子的語義信息,本文使用三種分布式模型為輸入語句進行編碼,具體如下:
1)使用詞向量(Word to Vector,Word2Vec)[13]對字向量與詞向量進行聯(lián)合訓練。為提升低頻詞表示的準確率,將更細粒度的字向量引入詞表示中,與詞向量一同使用連續(xù)詞袋(Continuous Bag-Of-Words,CBOW)模型聯(lián)合訓練出新的詞表示模型。詞向量與字向量的組合方式如圖4所示。
CBOW的改進公式如下:
其中:N為文本中的中文數(shù)量;cjk為字編碼;系數(shù)保證了字向量與詞向量計算詞語距離的一致性。并且,為了簡化模型,僅對上下文部分引入字向量信息,即最終的target信息是由字向量與詞向量的組合信息預測得到。
圖4 基于CBOW的字詞嵌入模型Fig. 4 Word embedding model based on CBOW
2)使用Fasttext[14]訓練詞向量。為學習詞級的上下文信息及句子結構信息,使用Fasttext訓練詞向量。
3)使 用 全 局 詞 向 量(Global vectors for word representation,Glove)[15]訓練詞。為學習詞間共現(xiàn)信息,使用Glove對詞進行分布式學習。
4)提取相對位置信息。本文使用注意力機制對特征進行提取,而注意力機制本身無法區(qū)分不同的位置特征,因此本文加入每一個字的位置編碼信息。
將前三部分向量進行串聯(lián),生成新的投影向量作為下一模塊的輸入。為避免由于信息重復抽取導致的數(shù)據(jù)偏移,進行以下操作:
1)在拼接好的向量后加入全連接層。主要思想是引入一個權重矩陣,對輸入進行降維。
2)在全連接層后加入Dropout 層。Dropout 層類似于Bagging 的輕量級版,主要思想是以一定概率臨時扔掉一些神經(jīng)元節(jié)點,從而使得每次都在訓練不同結構的網(wǎng)絡。
2.3.3 特征提取模塊
特征提取模塊旨在設計網(wǎng)絡模型,學習輸入語料的嵌套結構及與標簽間的潛在依存關系,模型結構如圖5所示。
圖5 基于深度注意力的特征提取模塊Fig. 5 Feature extraction module based on deep attention
原始模型使用深度注意力機制對實體與實體間關系進行聯(lián)合學習。相較于傳統(tǒng)聯(lián)合學習方案,本文方案無需對樣本與標簽特征進行編碼與解碼的單獨學習,而是使用深層網(wǎng)絡學習文本特征,使用最大似然得到序列的標簽。該模型具體細節(jié)如下:
1)自注意力機制。自注意力是注意力機制的一種特殊情況,其輸入為一個單獨的分布式序列,即在沒有任何額外信息的情況下,仍可從句子中獲取需要關注的信息。自注意力機制已經(jīng)在機器翻譯、文本表示等自然語言處理任務中被成功使用。其計算公式如下:
首先計算當前隱態(tài)與之前隱態(tài)的匹配度得分,作為當前隱藏單元的注意力得分;其次將得分通過歸一化映射轉換成概率值;最后對當前狀態(tài)以前的所有隱藏狀態(tài)加權求和。
2)多頭注意力機制。若只計算一個注意力得分,則難以捕捉到輸入句子中所有空間的信息,因此,Vaswani 等[11]提出多頭注意力機制。多頭注意力機制是點乘注意力的堆疊版,其基本思想是將輸入線性投影到不同空間h 次,每一次分別做點乘注意力計算。本文使用的多頭注意力機制基于自注意力機制之上,詳細過程如圖6 所示:首先將輸入矩陣X 映射為K、Q、V 三個矩陣,再分別對K、Q、V 三個矩陣做h 個不同的線性變化;然后將線性變化后的結果輸入至自注意力機制,并行產(chǎn)生h 個不同的注意力得分;最后將h 個得分進行拼接,并使用線性映射融合三個矩陣通道,得到輸出矩陣Y。
圖6 多頭注意力模型Fig. 6 Multi-head attention model
3)非線性映射層。非線性映射層是避免多層網(wǎng)絡等同于單層線性網(wǎng)絡的重要步驟。由于注意力機制使用加權和來生成輸出向量,其表示能力受到了一定限制。對此,需要采用非線性子層對底層輸入進行非線性映射。在原始模型中,使用類似于多層感知機的全連接層作為非線性映射層。
4)殘差機制。在誤差反向傳播時,由第L 層傳播至輸入的第一層的過程中,會有很多參數(shù)與導數(shù)的連乘計算,從而會導致梯度的消失或者膨脹。對此,He等[16]借鑒了高速公路網(wǎng)絡跨層連接的思想,將原本帶權重的殘差項改為恒等映射,即將某一層的輸出直接短接到兩層之后,而跳過的兩層只需擬合上層輸出和目標之間的殘差即可。計算式如下:
若本層網(wǎng)絡學習到的預測值和觀測值之間的差距較小(或下層誤變大時),則下個學習目標是恒等映射的學習,即使輸入X近似于H(X),從而保持模型精度不會下降。
本文的改進模型1 是在原始模型的基礎上將雙向長短時記憶網(wǎng)絡嵌入于自注意力機制中,以更好地提取文本與標簽的時序特征。改進的具體細節(jié)如下:
1)基于雙向 LSTM 的注意力層。Jozifowicz 等[17]提出雙向LSTM,是前向LSTM 與反向LSTM 結果的拼接,可有效利用文本序列的上下文信息。將注意力機制與雙向LSTM 進行結合,可有效克服注意力機制在時序特征提取方面的不足?;贚STM的注意力層的相關計算公式如下:
其中:T為輸入序列的長度;eki為第i個節(jié)點對第k個節(jié)點的注意力得分;αki即為第i 個節(jié)點對第k 個節(jié)點的注意力權重;hi為前向隱層序列的第i個向量;hk為反向隱層序列的第k 個向量;C 為語義編碼;hk′則為最終的特征向量,最終提取的特征向量對關鍵詞分配了較多注意力,特征提取有效突出了關鍵詞的作用。
2)非線性映射層。該部分的前饋子層由線性整流函數(shù)(Rectified Linear Unit,ReLU)連接的兩個線性層組成,計算公式如下:
其中,W1∈Rd*hf與W2∈Rhf*d是可訓練的權重矩陣。使用殘差機制對LSTM 的改進如下:在雙向LSTM 中使用殘差機制,有選擇地對隱層進行更新,從而提高訓練速度。
本文的改進模型2 則在原始模型的基礎上將注意力機制引入卷積模型中,從而在提取更多信息的基礎上,更好地加速模型訓練。具體細節(jié)如下:
1)加入CNN 的注意力層。對于卷積層,本文使用門控線性單元(Gated Linear Unit,GLU)。與標準卷積神經(jīng)網(wǎng)絡相比,GLU更易于學習,并且在語言建模和及其翻譯的任務上取得了較好的效果。GLU的輸出激活計算如下:
并且分別在卷積網(wǎng)絡之前的輸入層和池化層使用注意力機制,使整個網(wǎng)絡不僅能關注整體信息還能關注到局部信息。
2)非線性映射層。該部分的前饋子層仍由ReLU 連接的兩個線性層組成。
2.3.4 分類模塊
由于語義標簽之間存在依賴性,傳統(tǒng)的大多數(shù)網(wǎng)絡使用解碼層學習標簽間的順序關系。本文所設計的網(wǎng)絡結構將文本與標簽一同作為網(wǎng)絡輸入進行特征提取,為探究深度模型對依賴特征學習的性能,在分類模塊中分別使用CRF 層與Softmax層對實體進行分類,具體算法如下。
1)使用CRF 作為分類層。CRF 層以路徑為單位,考慮路徑概率,其原始目標函數(shù)如下:
為簡化該目標函數(shù)做了兩個假設:首先假設該條件概率為指數(shù)分布;其次,假設輸出間的關聯(lián)僅發(fā)生在相鄰兩個位置上。最終,其目標函數(shù)如下:
對 于 輸 入 序 列 為x=(x1,x2,…,xn),標 簽 序 列 為y={y1,y2,…,yn}的訓練集,使用最大似然法對目標函數(shù)求解參數(shù)值。預測階段,CRF 模型根據(jù)深度注意力網(wǎng)絡的最后一層產(chǎn)生的隱藏狀態(tài)預測相應的標簽。
2)使用Softmax 作為分類層。模型訓練階段,對于給定的輸入x=(x1,x2,…,xn),相應的標簽序列y={y1,y2,…,yn}的似然函數(shù)為:
預測階段,Softmax 模型根據(jù)深度注意力網(wǎng)絡的最高關注子層產(chǎn)生的隱層表示預測相應的標簽,計算式如下:
本文的語料庫以眾源數(shù)據(jù)庫(OpenStreetMap,OSM)和中國礦業(yè)大學測繪學院收集的地理實體作為基礎地名,通過爬取百度百科、維基百科及各種煤礦安全相關文獻的正文及簡介,清洗并標定了實體及關系的數(shù)據(jù)集合。訓練集包含8 233 425 個句子,其中包含23 個可能的關系及1 個不相關負例,實體對921 876 個,關系事實425 871 個;測試集包含2 254 162個句子,其中實體對116 781個,關系事實34 565個。
3.1.1 模型初始化
針對原始模型,設置模型所有子層的初始權重為一個隨機的正交矩陣。設置其他參數(shù)的初始值為基于(0,1d)高斯分布的隨機采樣,其中d為隱層單元數(shù)。嵌入層的初始權重設置為預訓練模型的權重。設置所有Dropout 層參數(shù)為0.8,即以0.8 的概率對神經(jīng)元進行保留。設置隱層個數(shù)為15,隱層單元數(shù)為200。設置多頭自注意力機制的head 數(shù)為8,使用人工手動調參。
3.1.2 學習參數(shù)設置
使 用 Adam(ε= 106,ρ= 0.95)作 為 隨 機 梯 度 下 降(Stochastic Gradient Descent ,SGD)的優(yōu)化算法,即設置初始學習率為1.0,使用梯度的一階矩和二階矩動態(tài)調整學習率,從而使梯度的下降較為平穩(wěn)。同時為避免梯度爆炸,將梯度范數(shù)剪裁為1.0。
3.1.3 評估標準
本文使用F1-score(F1)作為評價指標對命名實體識別與實體關系抽取的效果進行評估。F1的計算公式如下:
其中:P表示精確度;R表示召回率;TP表示測試集中的正例被正確預測為正例的個數(shù);FP表示測試集中的正例被誤分類為負例的個數(shù);FN表示測試集中的負例被誤分類為正例的個數(shù)。
3.2.1 模型深度對結果的影響分析
如表1 所示,本文研究了模型深度對序列標注效果的影響??梢钥吹剑趯訑?shù)為4,詞嵌入模型為Glove 時,F(xiàn)1 僅為73.2%。因此本文對網(wǎng)絡層數(shù)進行不斷疊加,經(jīng)實驗可得,10層的網(wǎng)絡表現(xiàn)接近最佳,并且在12 層可以看到F1 的提升不再明顯,因此網(wǎng)絡深度最佳值為10。
表1 模型參數(shù)實驗對比結果Tab. 1 Experimental comparison results of model parameters
3.2.2 模型寬度對結果的影響分析
同樣,針對網(wǎng)絡隱藏單元的個數(shù)對標注效果的影響,本文也設計了探究實驗,實驗結果見表1??梢钥吹?,在隱藏單元數(shù)為400時F1達到了83.7%,本文模型表現(xiàn)接近最好,再繼續(xù)加寬網(wǎng)絡,模型的提升并不明顯,反而還增加了需要承擔的訓練時間成本,因此網(wǎng)絡寬度最佳值為400。
3.2.3 投影層對結果的影響分析
Gormley等[18]研究表明,可以通過對未標記的詞嵌入進行預訓練來提高下游任務的性能。本文使用多種詞嵌入對網(wǎng)絡進行初始化,其中:Glove 為利用了全局信息的詞嵌入模型;Word2Vec 為淺層的詞嵌入模型;Fasttext 在Word2Vec 基礎上增加了多元語法等信息;Random 為隨機初始化的詞分布式表示。將以上詞嵌入方法與本文提出的詞嵌入方法進行對比,實驗結果見表1??梢钥吹?,使用一種預訓練詞嵌入模型的最佳效果比不使用詞嵌入模型的F1 最高增加了5.3 個百分點,而使用本文嵌入方法相較最好的單一詞嵌入方法的F1又增加了1.2個百分點。
3.2.4 分類層對結果的影響分析
為提取標簽之間的依賴關系,傳統(tǒng)模型普遍采取解碼層提取標簽間的依存關系,但解碼層會大大降低模型的學習速度,因此,本文對深度網(wǎng)絡中的解碼層設計實驗進行探究,結果如表2 所示??梢钥吹?,與Softmax 使用最大似然原理的分類層相比,在深度網(wǎng)絡中使用解碼層的模型性能反而下降。由此說明,深度網(wǎng)絡對特征的學習能力已經(jīng)足夠強大,無需特定的解碼層就可捕獲標簽間的依賴關系。
表2 分類層對模型的影響Tab. 2 Influence of classification layer on model
3.2.5 與其他模型的對比分析
將本文模型與經(jīng)典的實體識別與關系抽取模型在本文數(shù)據(jù)集上進行了如表3 所示的對比實驗。其中多特征組合嵌入模型(Feature-Rich Compositional Embedding Models,F(xiàn)CM)[18]與 LINE(Large-scale Information Network Embedding)[19]為基于串行結構的實體識別與關系抽取模型:FCM 將文本表示與詞向量表示進行融合,然后分步進行實體識別與關系抽??;LINE 則是基于網(wǎng)絡的嵌套方法分步抽取實體及實體間關系。由實驗結果可以看到,聯(lián)合學習兩項任務相較于串行學習效果更好。多實例聯(lián)合抽?。∕ulti-instance Relation extraction,MultiR)模型[20]與增量集束搜索算法和結構化感知器的聯(lián)合抽取算法 DS-Joint[21]為聯(lián)合學習模型,其中:MultiR 針對遠程監(jiān)督的噪聲問題提出了多實例的聯(lián)合學習方法;DS-Joint則在標注數(shù)據(jù)集中使用結構感知器對實體與實體關系進行聯(lián)合抽取。可以看出,與經(jīng)典淺層聯(lián)合模型相比,本文模型的F1 有了近 5 個百分點的提升。LSTM-CRF[12]與 LSTM-LSTM[12]是序列標注任務中的經(jīng)典模型;LSTM-SA-LSTM-Bias[12]則將注意力機制引入LSTM-LSTM,在準確率上達到了更好的效果。與序列標注領域常用的經(jīng)典編碼解碼模型相比,本文方案也有了一定提升;而相較于編碼-解碼結構的前沿模型Transformer[11],本文提出的聯(lián)合深度注意力網(wǎng)絡Joint-DeepAttention 的F1高出了1.5個百分點。上述實驗結果驗證了本文模型的有效性。
表3 本文模型與傳統(tǒng)抽取方法的實驗結果對比 單位:%Tab. 3 Comparison of experimental results between the proposed model and traditional extraction methods unit:%
3.2.6 探究模型有效性
在煤礦安全領域數(shù)據(jù)集上抽取四種主要的實體類型進行模型性能的測試,實驗結果如表4所示。表4中:PER為人名,ORG 為組織結構名,LOC 為區(qū)域名,EQU 為煤礦設備名。可以看到,識別效果較好的實體類型為人名,區(qū)域名、組織機構名與設備名由于類型多變、語義豐富,F(xiàn)1得分相對較低,但相較于人名長度短、位置單一的識別優(yōu)勢,其識別效果的差距可以接受。
同樣對四種關系類型進行抽取,完成模型性能的測試,實驗結果如表5所示。表5中:SY 為地理從屬關系;JZ為人與機構間的從屬關系;SS 為實施者與被實施者的關系,如“運輸工超速駕駛機車”中運輸工與機車間的關系;ZW為職務關系,為機構內(nèi)部人與人的關系??梢钥闯?,由于在煤礦安全領域語料加入地理語料,施事關系與地理從屬關系頻繁出現(xiàn),且由于實體特征較明顯,識別效果較好。
表4 實體識別結果 單位:%Tab. 4 Entity recognition results unit:%
表5 關系抽取結果 單位:%Tab. 5 Relation extraction results unit:%
本文針對礦山領域知識具有的語義豐富等特點,提出了一種端到端的聯(lián)合學習實體及其關系的深度注意力模型,該模型與詞向量融合模型進行結合,并通過實驗驗證了結合不同詞向量的聯(lián)合學習模型可豐富詞的表達、增加任務間的交互特征,同時可提高實體抽取和實體關系抽取兩個任務的準確率。另一方面,探尋了解碼模塊在深度網(wǎng)絡中的作用,證明了解碼模塊在基于深度網(wǎng)絡的序列標注任務中可被省略從而提升模型訓練速度。最后,本文提出了兩種模型增強方法,用戶可根據(jù)對模型的精度與速度的平衡進行模型增強方向的選擇。
下一步工作將在已提取的實體及實體間關系的三元組基礎上,形成本體化的知識表達,同時結合知識融合與知識加工技術,形成面向礦井安全領域的結構化語義知識庫,從而通過聚合大量知識的方式實現(xiàn)礦井安全領域知識的快速響應與推理。