尚福華 馬寧 解紅濤
關鍵詞:命名實體識別;深度學習;主動學習;試油氣井控領域
近年來人工智能飛速發(fā)展,信息化技術被廣泛應用到各個專業(yè)領域,通過知識圖譜系統(tǒng)能夠對信息進行結構化的儲存,在檢索的同時也能夠比較完整地掌握有關知識點。知識圖譜的形成過程中最關鍵、最基礎的過程之一便是命名實體識別。
現(xiàn)階段部分學者對各個專業(yè)領域命名實體進行了研究,例如Tang等進行了司法領域的命名實體識別;Luo等在化學領域上完成了命名實體識別任務;肖瑞等完成對醫(yī)案數(shù)據(jù)的命名實體識別。這些專業(yè)領域有較為豐富的知識庫,可以作為訓練數(shù)據(jù),能夠取得較好的識別效果。經過本實驗室在試油氣井控領域的長期研究,發(fā)現(xiàn)油田試油氣井控領域的數(shù)據(jù)在數(shù)據(jù)類型分類方面缺乏歸納與整理,沒有形成相應知識庫,更沒有相應的標注數(shù)據(jù)。當面對標注數(shù)據(jù)少的問題,眾多學者把視野放到遷移學習,以及監(jiān)督學習的方法上。遠程監(jiān)督的方法也可被考慮是否真的能夠解決問題,如文獻[4]。文獻[5]則通過主動學習的方式也可以達到預期結果,但在每次迭代時都會進行一定數(shù)量的手工標注。K近鄰的方法也被考慮進來,而文獻[6]則將視角鎖定在遷移學習上,通過遷移學習減少了人工標記的工作量,文獻[7]提出了AdaBoost算法的解決思路,對此問題提出了解決方案。無論是遷移學習還是用K近鄰,都是監(jiān)督學習的方法,為了獲得監(jiān)督學習所需要的訓練樣本,增加了整體工作量,不符合減少標注工作量的初衷。主動學習通過選擇方法和選擇算法,在大量初始數(shù)據(jù)集中選擇特色較鮮明的數(shù)據(jù),從而建立更貼合、更符合深度學習模式訓練目標的數(shù)據(jù)子集,采用這種方法有效降低了數(shù)據(jù)標示的工作量。
提出了一種基于主動學習的試油氣井控領域命名實體識別模型。該模型引入了主動學習方法,通過使用少量標注完成的數(shù)據(jù)對未標注的數(shù)據(jù)進行自動標注,解決了試油氣井控領域標注數(shù)據(jù)樣本不足的問題,增加訓練數(shù)據(jù),進而提高命名實體識別的識別效果。
1試油氣井控領域命名實體識別模型
試油氣井控領域命名實體識別模型使用的是深度學習的方法。深度學習的優(yōu)點是對于更復雜的特征工程,依舊具備更優(yōu)秀的泛化學習技術能力,正是根據(jù)此特點,深度學習技術在命名實體識別的各項任務中獲得了更普遍的運用。比如,單向長短期記憶網(wǎng)絡(LSTM)就被廣泛用于任務中,因為LSTM有較強的序列特征提取學習技術能力,并且在與CRF結合(LSTM-CRF)后,能夠獲得更為出色的識別效果。Lample等為了得到上下文特征,使用雙向長短期記憶網(wǎng)絡(BiLSTM),并在分析對比以后,決定與CRF融合,共同構建BiLSTM-CRF神經網(wǎng)絡模式,使得辨識的有效性逐步增強,此后該模式逐步成為深度學習中解決各個應用領域實體識別問題的首選模式。
在BiLSTM-CRF已有常用模型上加入BERT作為詞向量模型,并加入注意力機制,優(yōu)化識別效果。BERT在訓練其詞向量時,會消耗大量的數(shù)據(jù)資源,此過程歸類于無監(jiān)督的方式,正因如此,BERT才可以提取數(shù)目龐大的語法和豐富的語義特征,并得到試油氣井控領域的詞向量表示。BiL-STM負責隨對下層的特征提取進行處理,其結果將以特征向量的形式傳達給注意力機制,注意力機制在分類任務中對特征獲得有著良好的表現(xiàn)。為了預測信號,可以選擇使用CRF,這樣就能夠對BiLSTM的輸出重新編碼,為了讓試油氣井控領域的專業(yè)詞匯獲得更好的識別效果,引入Attention注意力機制,最終完成命名實體識別的任務,模型整體結構如圖1所示。
1.1 BERT模型
BERT的內部模型構造如圖2所顯示,其中,分別是輸入矢量和輸出矢量。其中所要求的參數(shù)通過訓練而得到的數(shù)據(jù)來源是大規(guī)模無標注數(shù)據(jù)。其相比于LSTM能捕捉更遠距離的序列特征。BERT本質上是一種使用遮蔽語言訓練數(shù)據(jù)的過程,它的方法就是針對下一句進行的特征提取與預測。通過對部分任意的詞匯進行數(shù)據(jù)覆蓋,使原始單詞的數(shù)據(jù)集在模型訓練的過程中得到部分數(shù)據(jù)暫時缺失的效果,從而進行預測,進而在文本的前后文中獲得更多的特征。
“井控是對油氣井的壓力控制”這句話中的“井控"80%都會直接進行遮擋,然后隨機選擇10%更改成其他單詞,另外10%則仍然保留原單詞。在設計訓練模型時,一個句子會用上述的方式進行相應處理,再被多次喂到模型中進行參數(shù)學習。下句的預測訓練方法,是指兩個句子中間有無實際關聯(lián),判斷結束后,其結果以標簽的形式進行相應標注。在試油氣井控的數(shù)據(jù)集中選擇連續(xù)兩句話,當IsNext關系超過50%符合后,將對這兩句話的內容進行保留,后續(xù)的任務是,從語料中提取剩余的一句話,此時NotNext則是對應的關系。經過此方法可以提取出更多的句子級特征,讓詞向量獲取更好的特征數(shù)據(jù)。
BERT在獲得詞向量時的優(yōu)點是明顯的,但它的資源消耗是巨大的,使用BERT自帶的微調的方式可以有效解決資源問題,根據(jù)BERT訓練數(shù)據(jù)的格式,對試油氣井控領域的專業(yè)詞匯進行標注,訓練過程中將不會變更BERT內部的相關參數(shù),即直接應用預訓練好的模型。此方法避免了對資源的浪費,優(yōu)化了過程,而且使BERT在專業(yè)領域生成的詞向量更加準確。
1.2BiLSTM和CRF神經網(wǎng)絡模型
BERT獲得的只是試油氣井控的詞向量信息,為了提高識別效果,對試油氣井控數(shù)據(jù)的全局上下文特征的獲取使用BiLSTM,通過它可以獲得更多的特征信息。BiLSTM由兩個部分組成,正向和反向的LSTM,分別是其內部的兩部分,LSTM的內部結構是對RNN的升級。LSTM內部的神經元結構中采用了三門控制單元,這部分正是對RNN升級的部分。三種控制門都有其獨特的功用,對信號監(jiān)控、決定、遺忘的決定權。各司其職,使LSTM具備了記憶功能,可以獲得長序列特征,并且克服了在RNN訓練過程中產生的階梯消失現(xiàn)象,甚至階梯破壞的現(xiàn)象問題。
BiLSTM提取出的依賴關系,需要進一步使用約束條件進行約束,過濾小的分類結果,保留可靠的預測,獲得更為準確的語義特征。CRF主要負責進行一定規(guī)則上的處理,處理的內容是對BiL-STM的輸出內容增加一些約束條件,選擇出可能性小的部分,讓更大可能性的結果更多。比如:“井控是對油氣井的壓力控制”句子的第一個詞“井控”應該是“B一”或“O”而不是“I”?!癇-NAME I-NAME”是正確的,而“B-NAME I-ORG”則是錯誤的。條件隨機場負責對結果進行更深一步的修正,條件隨機場的工作部分十分重要,準確地提取標簽之間的依賴關系,是命名實體識別模型識別的實體結果的關鍵,讓模型可以再標注規(guī)則的范圍內運行。
1.3注意力機制
深度學習方法效果雖然較好,但訓練過程通常難以解釋。注意力機制還能夠了解文本的全局上下文內容,從而克服了對句子的長距離依賴現(xiàn)象。在進行命名實體識別之后,不同的文字往往產生不同影響,比較重要的詞可能僅是幾個專業(yè)詞匯,因此分類時需要關注更加有效的文字。比如,“一級井控”“二級井控”“井噴”“油氣層”等概念更為重要,在模型中需要獲得更多的權重。
在命名實體識別任務中,注意力機制可增加試油氣井控領域的專業(yè)詞匯的權重從而區(qū)分單詞的重要程度。對于句子的深層表示使用注意力機制計算單詞權重的公式如式(1)和式(2)所示:
其中w表示參數(shù)矩陣,Q為參數(shù)向量,6為偏置值。a為權重,代表句子中每個單詞。每個單詞應該具有不同的關注點,關注點的不同,最終句子用加權求和后向量進行表示。
2引入主動學習的命名實體識別模型
為了解決試油氣井控領域標注數(shù)據(jù)缺失的問題,在試油氣井控領域命名實體模型的基礎上采用主動學習方法,可以在標注樣本較少的情況下,達到較好的識別效果,如圖3所示。
主動學習的主要方法是為了從大量未標注數(shù)據(jù)中,計算出可靠性最高的數(shù)據(jù)并加以標記的訓練,該方式克服了需要監(jiān)督練習過程,但又不能擁有大量標記的數(shù)據(jù)作為實驗樣本的困難。以使用盡可能少的標注樣本數(shù)量為目的,從而獲得和監(jiān)督學習相似的結果,是使用主動學習的最后任務。主動學習的算法有很多,被廣泛使用并取得良好效果的方法主要有兩種。
基于流抽樣算法和基于池抽樣算法,但每次迭代都需要一定數(shù)量的手工標注。采用的主動學習是一種在深度學習中融合了聚類算法的方式,使用經過試油氣井控領域的標注詞匯微調后的BERT詞向量模型,獲得標注數(shù)據(jù)和未標注數(shù)據(jù)的詞向量特征信息,使用K-means聚類算法對詞向量進行分類,符合分類要求的數(shù)據(jù)自動標注,并作為訓練集數(shù)據(jù)進入下一個迭代過程,完成主動學習過程。使用聚類算法進行主動學習,充分利用深度學習模型得到的詞向量信息,解決了主動學習中需要人工篩選數(shù)據(jù)的問題,大大降低了人工成本。
在x與y中間的一段距離應該用公式方法d(x,y)表現(xiàn)為x,y間的相似之處,間距與樣品相似性之間成反比,也就是間距越大,樣品間的相似度和關聯(lián)性就越差,證明存在較大的差異,距離較近時則為相反情況。在二維空間使用歐氏距離也有它本身的優(yōu)點,就是運算簡單。而對于更高維空間,則使用馬氏距離或者曼哈頓距離比較合理,也符合實際需要,歐式距離公式如式(3)所示:
應用BERT將已標記的數(shù)據(jù)與尚未標記的數(shù)據(jù)以詞向量的方法加以描述,給定數(shù)據(jù)點為無傾向挑選聚類中心。根據(jù)式(3)計算每個樣本至聚類中心的間距,獲得間距的最小值min計算距離其最近中心,并將樣本歸類到中心所屬的類簇。每個聚類中,所有對象到中心的距離的平均值則為計算的目標,新的中心也就是這個距離的平均值,如式(4)所示:
選取石油地質詞匯和井控概念詞匯兩個領域的專業(yè)詞匯,通過上述的方法進行聚類,生成圖像如圖4所示,用顏色區(qū)分??梢钥闯鰧儆谝活惖脑~匯,會緊密聚集在一起,就此完成了對未標注數(shù)據(jù)的分類。對同屬于一個群的數(shù)據(jù),會按照關聯(lián)程度進行分組,將離聚類中心較近的數(shù)據(jù)作為高置信率數(shù)據(jù)加以標注,并將標注的數(shù)據(jù)加入訓練集,以增加訓練樣本量,較遠的數(shù)據(jù)則作為低置信率數(shù)據(jù),在下次自主學習的迭代練習中加以重新預測。
3實驗設計和結果分析
為驗證上述識別模型效果,使用試油氣井控領域數(shù)據(jù)進行命名實體識別的實驗。
3.1數(shù)據(jù)源
本實驗以測試油氣井控制領域數(shù)據(jù)為例,搜集了試油氣領域的有關教科書、培訓資料和歷年考核試題等作為實驗文本,并加以說明,數(shù)據(jù)源中涉及的主要知識類型有井下氣壓、土壤地層壓力、井控設計、外溢、關井程序、井中氣體、壓井工序、特殊井控方法、井控設備等九種,實體的類別如表1所示。本文共整理歸納了10589條語料作為實驗數(shù)據(jù),采用交叉驗證將標記語料按照5:1的比例分為訓練集、測試集。
3.2標注規(guī)范
標注主流的方式主要有兩種,分別是BIO三段式標注法和BIOES五段式標注法。本文使用的是BIO標記方式,即試油氣井控領域實體的頭文字用B代表,實體的中間文字用I代表,和任何實物均不相關的中問文字則用O統(tǒng)一代表。
3.3評價標準
將通過準確率P,召回值R和F。值對實體分辨結果的有效性做出評估,其計算方法如式(6)~式(8)所示,TP為模型辨識正確的實體數(shù)量,而FP為模型已識別的不關聯(lián)實體數(shù)量,F(xiàn)N為模型未能檢測到的關聯(lián)實體數(shù)量。
3.4實驗結果和分析
命名實體識別模型有許多類型,主流的方法歸納總結后包含CNN_LSTM、CNN_LSTM_CRF、BiLSTM、BiLSTM_CRF、BERT_BiLSTM_CRF、BERT_BiLSTM_CRF_ATTENTION六個,首先選取不同模型對相同數(shù)據(jù)集進行訓練,選取效果最好的模型,然后在效果最好的模型中引入聚類算法形成自主學習方法,比較模型在加入新的未標注數(shù)據(jù)后的訓練效果,確定最佳的識別模型。
3.4.1不同識別模型的對比實驗
在同一實驗環(huán)境下,六種命名實體的識別模型CNN_LSTM、CNN_LSTM_CRF、BiLSTM、BiL_STM_CRF、BERT_BiLSTM_CRF、BERT_BiL_STM_CRF_ATTENTION在準確率、召回率以及F1三項指標上進行了對比,實驗結果如表2示??梢钥闯鯞iLSTM要略優(yōu)于CNN_LSTM的效果,二者在引入CRF后,其識別效果都有了提升??梢缘贸鼋Y論:BiLSTM提取出井控領域的全局上下文特征,隨后進入CRF后,在最終預測的結果標簽中添加一些必要約束,以確保識別的標簽結果是有效的預測數(shù)據(jù),以此提升了準確率和召回率。同時,BERT預訓練模型在語義表征方面的表現(xiàn)也非常出色,能夠為下層的識別任務提供更為準確的詞向量信息,在實驗中確實提升BiLSTM_CRF模型的識別效果。BiLSTM模型對于局部信號丟失的情形,在引入ATTENTION后,能夠增加局部數(shù)據(jù)的權重,以此強調文本數(shù)據(jù)的局部特征,對BERT_BiLSTM_CRF識別模型有顯著的提升。
3.4.2主動學習和非主動學習模型對比
通過上一部分的實驗,得出BERT_BiLSTM_CRF_ATTENTION是較好的識別模型的結論,在此基礎上使用主動學習的方法。分別用5%、10%、15%、20%、25%、30%、35%的標注數(shù)據(jù)作為主動學習模型的訓練集,用100%標注數(shù)據(jù)作非主動學習的訓練集,二者進行實驗比對觀察效果。
通過表3、圖5可以得出結論,在標注數(shù)據(jù)的體量越來越大后,基于主動學習方法的識別效果會逐步變好。并且在30%時,增速開始趨于放緩,數(shù)據(jù)達到35%時,與使用完整數(shù)據(jù)集的非主動學習方法取得了十分相近的結果,由此說明基于主動學習算法的模型可以在少量數(shù)據(jù)的基礎上完成命名實體識別的任務,有效降低了數(shù)據(jù)標注的工作任務。
4結論
研究了試油氣井控領域的命名實體識別問題,并提供了一個基于主動學習的命名實體識別方法。此方法使用了BERT預訓練模式獲得單詞的向量化表示,隨后進入由BiLSTM+CRF所構成的深度學習模式中,當進入注意力機制后,準確率有所上升。為了解決專業(yè)領域數(shù)據(jù)標注不足的問題,引入主動學習的概念,利用聚類算法對預測的標簽進行分類。此模型實現(xiàn)了在較少的標注語料的基礎上,達到與監(jiān)督學習算法結果相近的標注效果。試油氣井控領域的命名實體識別研究,是后續(xù)構建相關領域知識圖譜的基礎,解決了實際中的問題,此方法與傳統(tǒng)機器學習方法相比,不依賴于大量的人工,因此對其他的領域也有借鑒的作用。后續(xù)需要擴大數(shù)據(jù)集的規(guī)模,進一步完善相關數(shù)據(jù),讓此方法在試油氣井控領域得到更好的發(fā)展。