李洋邢林林蔡紅珍徐航蘇展鵬
(1.山東理工大學農業(yè)工程與食品科學學院,山東 淄博 255000;2.山東理工大學計算機科學與技術學院,山東 淄博 255000)
農業(yè)生物質材料是指以植物及加工產品和廢棄物作為基本原料,通過高技術手段進行加工變?yōu)樾阅軆?yōu)異、節(jié)能環(huán)保的新屬性材料。對于生物質[1]能源的開發(fā)和利用,農業(yè)生物質材料的應用可以使農業(yè)由數量型向質量型進行轉變,推進農業(yè)的可持續(xù)發(fā)展,實現美麗鄉(xiāng)村建設;農業(yè)生物質材料有諸多優(yōu)點,如種類多、分布廣、儲量豐富等,這給材料的制備和研發(fā)提供了源頭支持。
隨著技術的進步,越來越多的農業(yè)生物質新材料在市場上出現,但是對于其屬性的檢測有很多問題。如,在送檢過程當中,用戶很難找到適合自己材料屬性檢測的服務提供商,并且服務提供商在提供服務過程中會對材料的尺寸大小作出嚴格要求,對于生物質材料而言,不同規(guī)模的材料可能呈現出的屬性效果會略有差異。在尋找服務的過程中,材料的保存與儲藏也會影響材料的屬性效果,這也對生物質材料的檢測提出了時效性的要求。
目前許多學者開始關注農業(yè)信息技術的重要性,并提出了相應的技術方法,但大多數是從理論角度出發(fā)而忽略了農業(yè)信息挖掘技術的實際應用。很多線上生物質材料檢測平臺對于服務的描述過于單一,無法使用戶精確地檢索信息,因此,本文通過引入對抗訓練和自注意力機制命名實體識別技術可以幫助用戶挖掘產業(yè)信息,提升農業(yè)檢測服務效率,降低工作成本。
命名實體識別技術是自然語言處理的基礎任務,利用網絡模型識別出某一概念的實例,如人名、地名、機構名稱等,其演變過程也是由最初基于規(guī)則的方法到目前深度學習的方法。目前,農業(yè)領域的命名實體識別技術也隨著互聯(lián)網技術的發(fā)展而不斷更新,趙鵬飛等[2]通過引入自注意力機制來解決農業(yè)領域文本實體標記不一致的問題,并通過比較不同數據庫之間的識別效果,發(fā)現其準確率得到一定提升。宋林鵬[3]等通過對比傳統(tǒng)CRF和基于詞向量的雙向長短期記憶網絡模型來提升對于農業(yè)轉移技術中的識別提取效果。李想等[4]針對農業(yè)平臺問答效率問題,提取數據庫中關鍵實體,利用條件隨機場技術進行自動構建關聯(lián)三元組,提升了模型的識別準確率。郭旭超等[5]針對農業(yè)病蟲害命名實體識別技術,提出一種基于注意力機制和部首嵌入的神經網絡模型,利用卷積神經網絡提取農業(yè)實體的部首特征,進而通過長短期記憶網絡和條件隨機場來保證實體輸出結果的準確率。Guo X等[6]提出一種多尺度局部上下文特征和自注意力機制的中文命名實體識別模型,通過不同核大小的卷積神經網絡提取上下文特征,采取自注意力機制來緩解Bi-LSTM-CRF在遠程依賴上的限制。
實體標注任務[7]作為自然語言處理當中較為簡單的基礎步驟,用于解決數據文本中字符的分類問題。實體標注是將文本序列中的每個信息單元進行有規(guī)則的標記,一般待標注的序列表示為X=x1,x2,x3…xn,對于不同領域的任務,實體標注的形式也不同。分詞任務的標注和實體識別的實體標注不相同,分詞任務只是將實體定義為開始、結束、單一實體等;而命名實體識別任務要將實體分為符合概念定義的序列。
對抗訓練[8]是通過定義的生成器與判別器之間的互相博弈來輸出更加準確的結果,計算公式:
(1)
式中,X為輸入信息;δ為輸入信息的擾動;y為樣本的標簽;L(fθ(X+δ),y)為在樣本X上添加擾動δ,進而通過max(L)進行優(yōu)化目標。
在農業(yè)生物質領域數據集中,命名實體識別任務和分詞任務共享著較多的邊界信息,每個任務都有自己特有的信息特征,因此對抗訓練的方式可以過濾掉分詞任務中的特有信息,將共享信息融入到命名實體識別任務中,提升輸出結果的準確率。
李靜等[9]通過局部對抗訓練的方法來解決實體內部邊界信息的歧義問題,通過對抗訓練增強神經網絡模型對于邊界信息的識別能力,提高了樣本的輸出質量。張慶林等[10]通過互補對抗學習的方法,提高分類器的魯棒性能和泛化性能。董哲等[11]首先引入BERT來獲取字向量,并通過對抗訓練的方式來降低中文分詞任務對于命名實體識別任務的噪聲影響。
本文在對抗訓練階段,通過在每一次的迭代過程中選擇實體識別任務或者分詞任務進行參數的更新,選擇Adam優(yōu)化器來優(yōu)化損失,計算過程:
Loss=LossNER·I(X)+LossCWS·(1-I(X))+γLossAdv
(2)
LSTM長短期記憶網絡作為循環(huán)神經網絡RNN的變體,有效解決了在循環(huán)神經網絡RNN的訓練過程當中所產生的梯度爆炸和梯度消失問題,其結構如圖1所示;但是單向的長短期記憶網絡在同一時間內處理數據集的上下文語義信息,而且LSTM針對有序的數據集,只能處理方向為從前向后的語義信息,對于從后往前的信息則無法獲取。
圖1 LSTM結構圖
在更細粒度的分類時,如對于強程度的褒義、弱程度的褒義、中性、弱程度的貶義、強程度的貶義的5分類任務需要注意情感詞、程度詞、否定詞之間的交互,本文采用的前后雙向長短期記憶網絡Bi-LSTM能夠更好地捕獲雙向的語義依賴。LSTM模型的計算過程可以分為以下幾個步驟:
Bi-LSTM[12]神經網絡模型相較于傳統(tǒng)的自然語言處理方法,其優(yōu)勢在于雙向的LSTM模型不僅可以更好地利用以前的上下文信息,還可以利用未來的上下文信息。在實際的命名實體識別任務當中,由于應用場景眾多,所以預測過程可能會使用到整個序列的輸入信息。
Bi-LSTM雙向長短期記憶模型在命名實體識別任務中可以很好處理長距離的語義關系,但是對于臨近的標簽依賴關系,Bi-LSTM則無法處理,因此通過添加CRF條件隨機場能夠有效地解決這一問題。CRF是通過考慮詞向量特征,計算條件可能性的概率模型。CRF條件隨機場可以在相鄰的標簽信息關系中找到最優(yōu)的預測序列,從而保證預測標簽的合法性。Bi-LSTM-CRF總體結構如圖2所示。
圖2 Bi-LSTM-CRF結構圖
對于一個輸入序列Z={z1,z2…,zn},在命名實體識別框架中所得到的預測序列為Y={y1,y2…,yn},得到預測序列Score函數:
(3)
式中,A為分數轉移矩陣,表示前一標簽到下一標簽的分數;P為模型輸出矩陣,計算一個實體的得分情況。預測序列Y的產生概率:
(4)
采用極大似然估計原理,通過取對數得到預測序列Y的似然函數:
(5)
基于極大似然估計原理,優(yōu)化目標函數:
(6)
生物質材料檢測領域文本語句相對較長,Bi-LSTM在訓練的過程中丟失關鍵數據信息。而且中文字詞在不同的語義環(huán)境中所呈現的含義也不同,注意力機制的主要目的在于根據目標信息去關注部分細節(jié)而不是基于全局進行分析,因此多頭注意力機制的引入可以緩解LSTM在訓練過程中的遺失問題,提高檢驗檢測領域的識別效果。主要公式:
(7)
(8)
多頭注意力機制的表達式:
Multihead(Q,K,V)=Concat(head1,…,headn)WO
(9)
式中,Q、K、V分別代表從一開始輸入的向量矩陣。
本文所采用的數據集通過網絡爬取各大檢驗檢測網站的生物質材料檢測信息,選取檢測機構名稱、檢測內容及位置信息作為實驗目標,訓練集共包含標簽數量178834,測試集標簽數量為47106,其數據樣例如表1所示。
表1 數據文本樣例
2.2.1 標簽標注方式及結果
本文采用BIO的標注方式,B表示單位實體的開始,I表示實體的剩余部分,而O則表示非實體類型。由于數據集中選擇檢測機構、檢測內容和檢測設備作為識別目標,所以標注方式共有7種,其標注結果如表2所示。
表2 標注結果
2.2.2 分詞與實體識別任務標簽比較
通過對于農業(yè)生物質材料檢測領域的數據分析,發(fā)現分詞任務與實體識別任務都有著不同的邊界信息,如果單純采用簡單的神經網絡模型進行訓練,很難取得良好的實驗效果,因此通過引入對抗訓練來減少分詞任務和命名實體識別之間的共享信息問題。
表3 NER與CWS對比
本文所采用的實驗環(huán)境基于Tensorflow搭建,具體配置如表4所示。
表4 實驗環(huán)境
為使得本文所采用的方法及神經網絡模型識別效果最優(yōu),本文選擇了多種超參數設置并在公開訓練集上進行實驗效果對比,經對比發(fā)現部分參數的設置確實會對實驗效果產生影響,其中不同學習率對于輸出結果影響較為明顯,如圖3所示。因此,本文的參數設置為字詞向量維度100,學習率0.001,dropout為0.1,batch size為20,lstm層為100。
圖3 不同學習率對比
選擇準確率Precision、召回率Recall、F1值作為本文實驗的評價指標。準確率和召回率是廣泛應用于信息檢索和統(tǒng)計學分類領域的2個度量值,F1值是二者的綜合評價手段,計算公式:
(10)
(11)
(12)
對于農業(yè)生物質材料數據集按照7∶3的比例劃分為訓練集和測試集,不同標簽的實驗結果如表5所示。
表5 生物質材料文本識別效果
根據實驗結果,采用對抗訓練的模型所呈現的識別效果要優(yōu)于其余方法,這表明對抗訓練的引入影響了普通樣本的分類能力,提升了神經網絡的魯棒性,其輸出結果如表6所示。
表6 輸出結果樣例
本文通過引入對抗網絡和自注意力機制應用于命名實體識別技術提升農業(yè)信息識別效果,爬取了各大農業(yè)生物質檢測領域相關數據,針對檢測機構名稱、檢測設備和檢測內容進行數據分析和標簽標注工作;實驗效果表明,本文所提出的模型效果與傳統(tǒng)神經網絡模型相比,呈現出更好的效果。但目前實驗所爬取的數據相對不夠完善,部分數據存在標簽缺失遺漏等問題,因此在后續(xù)的研究工作中,應當提升數據質量,不斷完善數據規(guī)模,優(yōu)化實驗模型。
隨著中國農業(yè)的不斷發(fā)展,各類不同特性的農業(yè)生物質材料在市場上出現,加快了農業(yè)高效率轉化的步伐,因此對于農業(yè)生物質材料的屬性檢測也為創(chuàng)造高效、優(yōu)質、低耗的農業(yè)生產體系起到了推動性的作用,也是完善農業(yè)信息挖掘技術的供需匹配、服務解耦和個性化推薦的關鍵步驟。