方 紅, 張 瀾, 蘇 銘, 馮一鉑
(1. 上海第二工業(yè)大學 文理學部,上海201209;2. 喀什大學 應用與統(tǒng)計學院,新疆喀什844000)
75%的搜索查詢中就包含一個命名實體,研究命名實體可以優(yōu)化搜索結果, 為構建知識圖譜奠定基礎。中文命名實體識別(CNER)是中文自然語言處理領域的一項重要任務,為自然語言處理很多下游應用提供基礎, 例如機器翻譯[1]、自動文本摘要[2]等。命名實體識別(NER) 的目標是從文本中識別實體名稱, 并將其類型分為不同的類別[3], 如人名、地理位置、組織等。若給定一句話“XXX 在北京打籃球”, NER 就可以識別出 “XXX” 為人名,“北京”為地理位置,“籃球”為某個實體。本文通過爬取、清洗處理、人工標注等方式構建產(chǎn)品質量檢測(pruduct quality inspection,PQI)數(shù)據(jù)集,針對PQI數(shù)據(jù)特點, 優(yōu)化NER 模型, 對該領域的NER 展開研究。
NER 實現(xiàn)方式有4 種,第1 種基于規(guī)則和詞典,無需帶有標簽的數(shù)據(jù),僅依賴于手工構造的規(guī)則,這種方法在實際應用中,編寫規(guī)則和構建知識庫容易產(chǎn)生錯誤,且移植性較差,因此很快被淘汰; 第2 種為無監(jiān)督學習方法,根據(jù)語義相似性聚類,從聚類中抽取命名實體, 再用統(tǒng)計的方法判別實體類型; 從傳統(tǒng)機器學習發(fā)展衍生了第3 種方法,在基于特征的監(jiān)督學習方法中,NER 被轉化為一個多分類任務,結合監(jiān)督學習算法和特征工程, Bikel 等[4]提出了第1 個基于NER 的隱馬爾科夫模型(hidden markov model,HMM)[5],用于識別姓名、日期、時間等,這種方法極大提升了識別準確率和簡潔度,但缺點在于特征的選擇和提取會對結果產(chǎn)生影響,且需要大量的時間和資源進行訓練;隨著Word2Vec 的出現(xiàn),基于深度學習的方法廣泛應用于自然語言處理領域,這種方法可以自動學習特征,在NER 中相較于傳統(tǒng)機器學習具有更好的性能。循環(huán)神經(jīng)網(wǎng)絡(recurrent neural network, RNN)在學習句子組成部分[6]的能力非常強大,后來很多的NER 方法都基于RNN 改進,但RNN 在處理長文本序列時,容易丟失重要信息。Lamplel 等[7]將雙向長短時記憶神經(jīng)網(wǎng)絡(Bidirectional long short-term memory,BiLSTM)和條件隨機場(conditional random fields, CRF) 結合, 構成NER 的基本結構, 但該方法處理文本的順序固定無法改變, 識別結果和效率仍有可提升的空間, 后來衍生出的Transformer[8]被證實比傳統(tǒng)的RNN 具有更好的效果。卷積神經(jīng)網(wǎng)絡(convolutional neural network, CNN)與RNN 不同,它可以以前饋方式處理序列,能有效利用GPU 并行性。注意力機制在自然語言處理領域得到廣泛應用,通過添加注意力機制, NER 模型可以捕獲輸入中信息量最大的元素,Pandey 等[9]提出了一種雙向注意機制的神經(jīng)網(wǎng)絡結構,通過文檔級別的注意力機制,更好地獲取標簽之間的關系。
CNER 相比英文實體識別, 挑戰(zhàn)性更高[10], 主要是由于以下幾點: ①中文實體缺乏英文實體特有的表現(xiàn)形式, 比如大小寫字母; ②中文實體依賴于上下文信息,漢字的多重語義在文本中可以作為實體也可以作為非實體,例如“時間是在上海市工作”,其中“時間” 一詞不能被正確識別為人名; ③漢字的復雜性, 也沒有英文的分隔符, 實體邊界難以確定,例如“張凱平常去河北檢查工作”,算法可以理解為 “張凱平/常/去/河北/檢查/工作”,也可以理解 “張凱/平常/去/河北/檢查/工作”。中文領域的文本數(shù)據(jù)訓練有限, 且缺乏完善的詞典, 識別效果相較于英文,仍有很大提升空間。
當前,針對PQI 的NER 研究工作較少,語料庫也存在空白,而研究PQI 的實體識別對后續(xù)的關系抽取、開發(fā)問答系統(tǒng)有重要意義。PQI 數(shù)據(jù)存在以下特點: ①概念和專有名詞多且組成復雜,例如“橡膠密封圈” “車用機油” 等; ② 實體長度不固定, 有“電腦” 這種短文本實體, 也有“塑料絕緣防觸電控制電纜” 這種長文本實體, 特征較為復雜。本文提出一種融合注意力機制的CNN-BiGRU-CRF 模型,識別已標注8 種實體類型,能夠較全面的提取文本的特征,該模型在公開和定制數(shù)據(jù)集上都有很好的效果。
本模型實體識別基本框架如圖1 所示。將構建好的PQI 數(shù)據(jù)進行分詞、人工標注等處理,將CNN層獲取的特征向量和預訓練獲得的詞向量、詞長特征向量結合輸入到BiGRU 層, 在BiGRU 層輸出后分配不同的注意力權重, 最終通過CRF 輸出預測標簽序列。
圖1 CNN-BiGRU-CRF 模型圖Fig.1 CNN-BiGRU-CRF model diagram
CNN 層通常包含卷積層、池化層、全連接層等,一般應用于圖像識別較多。通過CNN 中的濾波器對句子進行卷積操作,提取句子的局部特征??捎嬎愠鰹V波器學習得到的上下文特征:
式中:Cmax為最大特征;c1,c2,··· ,cn為各個特征。
門控循環(huán)單元[12](gated recurrent unit,GRU)是一種由長短期記憶(long short-term memory,LSTM)改進而來的神經(jīng)網(wǎng)絡,簡化了LSTM 復雜的門結構,也能很好地解決序列中時間距離較大的依賴問題,在實現(xiàn)長C 記憶的同時運算速度更快[13]。GRU 的單元結構如圖2 所示,圖中:
圖2 GRU 單元結構圖Fig.2 GRU unit structure diagram
式中:zt為更新門;rt為重置門;σ為 Sigmoid 函數(shù);xt為t時刻的輸入向量;xr為r時刻的輸入向量;bz、br為偏移系數(shù);wxz、whx、whr、whh、wxr為權重系數(shù);ht?1為t ?1 時刻隱含狀態(tài)輸入;ht為t時刻隱含狀態(tài)輸入; ?ht為候選隱藏狀態(tài);?為矩陣的Hadamard 積。
將CNN 獲取的特征向量與預訓練的詞向量、詞長向量拼接輸入。使用GRU 不僅能通過正向計算考慮文本的前序信息,還能通過反向計算提取到文本后續(xù)信息的特征,最終兩個輸出向量值拼接形成BiGRU 層輸出向量, 從而獲取序列的全部信息,圖3 為BiGRU 模型圖。
圖3 BiGRU 模型圖Fig.3 BiGRU model diagram
當輸出序列較長時,引入Attention 機制可以減少關鍵信息丟失,為了把有限的注意力分配給重要信息使輸出更準確,將BiGRU 的輸出層與Attention結合,各特征向量與對應權重的乘積相加后獲得新的輸出向量。
對于i時刻的模型輸出向量, 利用注意力權重分布向量對編碼的源序列的隱藏層輸出進行加權求和計算,得到針對當前輸出的全局特征:
式中:aij為注意力權重;βij、βik為給定向量;va,ωa,ωb為權重矩陣;Ci?1為上一時刻注意力機制的狀態(tài);P=[P1,P2,··· ,Pj]為 BiGRU 神經(jīng)網(wǎng)絡輸出的向量表示;n為輸入元素的數(shù)目;Ci為利用注意力機制輸出新的特征向量。
對于輸入序列x= (x1,x2,··· ,xn), 設C為p×k大小的Attention 輸出矩陣,p為句子的長度,k為標簽數(shù)量,那么預測序列y= (y1,y2,··· ,yn),得到的分數(shù)為:
cmn表示第m個詞的第n個標簽的分數(shù);Amn表示從第m個標簽轉移至第n個標簽的分數(shù)。YX表示所有可能輸出標簽序列的集合, ?y為真實標記預測,產(chǎn)生的序列y的概率為:
得到最佳標簽序列公式:
2005 年之前,NER 的數(shù)據(jù)集主要由包含實體類型的新聞文本構成,適用于粗粒度的NER 任務,例如Conll2003、Onenote5.0 等。此后, 文本源上開發(fā)了很多包括維基百科文章、YouTube 評論和W-NUT中的帖子構成的數(shù)據(jù)集,作為公開數(shù)據(jù)集,被學界廣泛使用。
對于目前還未公開的質量檢測監(jiān)督數(shù)據(jù)集,本文通過數(shù)據(jù)采集、數(shù)據(jù)預處理、數(shù)據(jù)標注3個步驟, 建立產(chǎn)品質量監(jiān)督檢測實體識別語料庫。PQI 數(shù)據(jù)集源于上海市質量監(jiān)督檢測技術研究院 (http://www.sqi.com.cn/sq-iweb-new/index.html),經(jīng)過數(shù)據(jù)預處理后人工標注的產(chǎn)品質量監(jiān)督檢測數(shù)據(jù)集包括全國各地不同產(chǎn)品的質量監(jiān)督檢測報告,數(shù)據(jù)集規(guī)模如表1 所示, 按照一定比例分為7 386條訓練集、1 741 條驗證集和1 741 條測試集,共計10 868 條語句。
表1 PQI 數(shù)據(jù)集規(guī)模(單位: 條)Tab.1 Scale of PQI dataset(unit: sentence)
本數(shù)據(jù)集主要包含8 個實體類型,分別為文教體育用品、家用電器及電器附件、電子信息技術產(chǎn)品、兒童用品、家具及建筑裝飾裝修材料、服裝鞋帽及家用紡織品、交通用具及相關產(chǎn)品、日用化學制品及衛(wèi)生用品和其他(非實體)。表2 為PQI 數(shù)據(jù)集標注標簽、含義及示例。
表2 PQI 數(shù)據(jù)集標注標簽含義及示例Tab.2 PQI dataset annotation label meaning and examples
BIOE 標記比BIO 標記能更清楚地劃分實體邊界。本文對數(shù)據(jù)集的標注使用BIOE 標注模式, 具體標注意義如表3 所示, 其中Type 代表不同實體分類。
表3 BIOE 標記Tab.3 BIOE mark
本文所用的數(shù)據(jù)格式全部為Conll 格式, 分為數(shù)據(jù)和標簽兩列。表4 為部分實體標注的數(shù)據(jù)和標簽對應情況。
表4 部分數(shù)據(jù)集標注Tab.4 Partial dataset annotation
本文采用Python 編程語言3.6 版本, 實驗和硬件具體參數(shù)如表5 所示。
表5 實驗和硬件參數(shù)Tab.5 Experiment and hardware parameters
主要采用網(wǎng)格搜索法來進行參數(shù)調節(jié),一部分來自于現(xiàn)有的實驗結論,另一部分在模型訓練中進行實時調整,具體的實驗參數(shù)配置如表6 所示。
表6 參數(shù)設置Tab.6 Parameter settings
本文實驗中使用序列標注任務常用的準確率(precision rate,P)、召回率 (recall rate,R)和F1值作為模型性能的評價指標:
式中,TP(true positive) 表示被判定為正樣本, 事實上也是正樣本;FP(false positive)表示被判定為正樣本,但事實上是負樣本;FN(false negative)表示被判定為負樣本,但事實上是正樣本。
為了驗證該模型在公共數(shù)據(jù)集(這里采用簡歷數(shù)據(jù)集Resume[14]) 和在PQI 數(shù)據(jù)集的識別性能, 與以下幾個模型(CRF、BiLSTM、BiLSTMCRF、Lattice、CNN-BiLSTM-CRF) 進行對比, 并比較了各模型對實體的識別性能,詳細對比結果如表7、8 所示。
表7 Resume 語料對比結果Tab.7 Resume corpus comparison results
由表7 可知, 由于Resume 數(shù)據(jù)集的文本簡單且結構單一,在各個模型的實驗表現(xiàn)優(yōu)秀。本文的模型相比于BiLSTM-CRF 在各個指標均有所提升,驗證了CNN 和Attention 機制的有效性。由表8 可知, 針對PQI 數(shù)據(jù)集的識別, 單個CRF 識別的準確率為62.5%, 說明傳統(tǒng)的機器學習能夠有效對此類文本抽象建模, 具有良好的適應性。BiLSTM 的準確率比CRF 提升了2.6%, BiLSTM-CRF 在準確率上相對于BiLSTM 提高了5.0%, 在F1值上提高了4.0%, 說明BiLSTM 與CRF 結合可以捕捉長距離信息, 并且能夠充分利用相鄰標簽的關系, 輸出最優(yōu)化標簽序列。CNN-BiLSTM-CRF 的準確率比BiLSTM-CRF 提高了3.0%,F1值提高了4.2%,表明CNN 特征抽取可以有效提升識別效果。本文的模型相較于CNN-BiLSTM-CRF 模型加入了Attention機制解決了序列過長的問題,在3 個指標上均有所提升,并且模型所需訓練時間較短,得到最高F1值74.8%。
表8 PQI 語料對比結果Tab.8 PQI corpus comparison results
本文研究了應用于PQI 領域的NER。首先通過數(shù)據(jù)挖掘、處理和標注, 構建了一個產(chǎn)品質量監(jiān)督檢測語料庫, 填補了在該領域的數(shù)據(jù)集空白。此外提出了一個融合注意力機制的CNN-BiGRU-CRF 模型,將文本的詞向量、詞長向量和CNN 提取的特征向量結合,充分提取文本的全部特征,獲取整個序列最優(yōu)標注。
與其他模型相比,該模型能有效識別8 種實體,不用添加人工特征,通過少量有標注的語料可以學習到文本所包含的特征信息,在小規(guī)模質檢語料上取得了比現(xiàn)有方法更高的P、R和F1值,驗證了該模型的有效性。但由于缺乏完善的詞典庫, 細粒度的中文NER 有很大的提升空間。