楊 云, 宋清漪, 云馨雨, 史雯倩, 尚夢丹
(1.陜西科技大學 電子信息與人工智能學院, 陜西 西安 710021; 2.中央民族大學 信息工程學院, 北京 100081)
自然語言處理[1](Nature Language Processing,NLP)在中文的諸多領域已取得較好的成果,并在大數(shù)據(jù)背景下廣泛應用于各個任務中,如:機器翻譯、情感分析和知識圖譜[2]構建等.目前,中國古代玻璃從商代晚期到清代3 000多年間,文物的數(shù)字化工作已經(jīng)取得了很好的成果,但博物館及考古挖掘保存的大量文物數(shù)據(jù)信息之間仍無法智能化關聯(lián),導致文物研究人員開展文物保護及修復工作有一定的困難.因此,構建玻璃文物知識圖譜是研究人員順利開展文物保護及修復工作的重要需求.充分挖掘文物信息,不僅可以提高文物價值認知的科學性,為文物價值認知及研究提供數(shù)據(jù)及參考.同時,可與智慧博物館、文物知識圖譜等研究項目產(chǎn)生緊密互動,將價值認知研究成果在博物館與互聯(lián)網(wǎng)端進行應用與展示.而構建玻璃文物知識圖譜第一步就是抽取出玻璃文物相關知識點,即需要命名實體識別[3](Named Entity Recognition,NER).
在命名實體方面,許多半自動的方法已經(jīng)被提出,如扈應等[4]提出了一種結合高效預訓練詞向量和領域特征的神經(jīng)網(wǎng)絡邊界組合,但在不同的數(shù)據(jù)集上低于一般領域中類似任務的性能;Li等[5]在實體識別方面提出的雙向長短時記憶網(wǎng)絡結合條件隨機場的模型,改善實體邊界模糊、分詞不準確等問題;崔琳[6]結合領域詞典采用BIO模式標注原始數(shù)據(jù),使用Bi-LSTM+CRF模型對原始數(shù)據(jù)進行實體識別,在少數(shù)民族服飾文化語料庫上有較好的提取效果;張娜[7]使用改進的Tri-training模型,基于少量人工標注的三元組種子模板,從文本數(shù)據(jù)中提取出了文物關系的三元組;杜悅等[8]基于深度學習模型從先秦典籍中抽取了構成歷史事件的實體,并比較了不同規(guī)模語料庫對不同深度模型的影響.
本文以玻璃文物為研究對象,在分詞時需引入玻璃文物名詞詞典,減少噪聲對識別效果的影響,提出BiLSTM-CRF模型結合玻璃文物特征字典的方法,將神經(jīng)網(wǎng)絡抽取出的特征與字典互補,以提高文物知識點抽取效果.
在玻璃文物領域知識圖譜構建過程中,命名實體識別需要從文本中抽取出三類實體類型:玻璃文物名稱、玻璃文物年代和玻璃文物類別.由于市面中缺少已標注的數(shù)據(jù)集,本文使用jieba-Python開源的工具包,預先對文本進行分詞并標注,使用0表示單字詞,1表示第一個字,2表示中間部分.標注方法使用目前主流的BIO標注法,其中B表示實體開頭,I表示實體中間部分,O表示非實體,在文本中分別對文物名稱、年代和類別使用RELIC、ERA和CLA標簽進行標注,以句子“透明藍玻璃尊通體呈透明淺藍色,雍正年制……”為例,數(shù)據(jù)集中實體標注方法如表1所示.
表1 數(shù)據(jù)集實體標注舉例
由于文物領域專有名詞較多,分詞工具無法將玻璃文物知識點正確分詞,為提高命名實體識別的準確率,本文引入自定義的玻璃文物特征詞典及停用詞詞典以減少分詞錯誤,例“透明藍玻璃尊”,未加入字典時分詞情況為透明/v藍/nr玻璃/n尊/q,引入文物特征字典后可以識別這是一個實體.
通過對描述玻璃文物的文本分析創(chuàng)建特征字典,包括特征詞和所屬類別,如表2所示.
表2 特征字典舉例
在神經(jīng)網(wǎng)絡中,數(shù)據(jù)的輸入格式是向量或矩陣,在訓練網(wǎng)絡前要將字嵌入[9],即將文本的分詞信息向低維向量映射,再將每個字向量拼接得到每個字的表示,以“透明藍玻璃尊通體……”為例,文本矩陣的一個字的字向量是4,分詞信息向量是1,文本的向量表示如圖1所示.
圖1 文本向量表示
長短時記憶網(wǎng)絡[10](Long Short Term Memory,LSTM)是一種特殊的循環(huán)神經(jīng)網(wǎng)絡變體,在循環(huán)神經(jīng)網(wǎng)絡[11](Recurrent Neural Network,RNN)的基礎上處理長期依賴問題并有效處理梯度爆炸和梯度消失問題,LSTM[12]的單元結構如圖2所示.
圖2 LSTM的單元結構
LSTM就像一個細胞(Cell),每一條水平線傳輸著一整個向量,從一個節(jié)點輸出再到另一個節(jié)點輸入,×、+表示細胞內(nèi)的運算,分別表示pointwise和向量的和,σ、tanh是矩陣,表示學習到的神經(jīng)網(wǎng)絡層.LSTM用兩個門來控制cell的內(nèi)容:遺忘門和輸入門.遺忘門決定上一時刻ct-1有多少保留到當前時刻ct,輸入門決定當前時刻網(wǎng)絡的輸入xt有多少保留到當前時刻ct,最后,用輸出門控制ct有多少輸出到ht.遺忘門的計算公式為:
ft=sigmoid(Wf·[ht-1,xt]+bf)
(1)
式(1)中:Wf是遺忘門的權重,[ht-1,xt]是指將兩個向量連接成一個向量,bf是遺忘門的偏置項.
輸入門的計算公式為:
it=sigmoid(Wi·[ht-1,xt]+bi)
(2)
(3)
(4)
接著看輸出門的值ot:
ot=sigmoid(Wo·[ht-1,xt]+bo)
(5)
最終得到LSTM的輸出ht,由輸出門和單元狀態(tài)共同決定:
ht=ot·tanh(ct)
(6)
然而,LSTM是單向的,只基于上文或下文分析,所以將前向LSTM和后向LSTM加和組成雙向長短時記憶網(wǎng)絡[13](Bidirectional LSTM,BiLSTM),分別將從左至右和從右至左兩個方向拼接成一個長輸入序列,再輸出概率,最后送入CRF層,如圖3所示.
圖3 雙向長短時記憶網(wǎng)絡示意圖
CRF層[14]的輸入是BiLSTM輸出的每一個單詞對應各個類別的概率值.假設給定句子x,其標簽序列y的概率計算公式為:
(7)
式(7)中:Z(x)是歸一化因子,Z(x)、s(x,y)的計算公式為:
Z(x)=∑y′exp(s(x,y′))
(8)
s(x,y)=∑iEmit(xi,yi)+Trans(yi-1,yi)
(9)
式(9)中:Emit()對應LSTM輸出概率,Trans()對應轉移概率,即CRF轉移矩陣對應的數(shù)值.
以上述文物標注舉例,1.5(B-RELIC)、0.9(I-RELIC)、0.3(B-CLA),類別序列中最高的就是預測結果,如圖4所示.同時,在CRF層加入約束機制,CRF層會自動學習,如句子的開頭應是B或O,而不能是I.
圖4 CRF層結合BiLSTM的預測舉例
為構建玻璃文物基本信息的語料庫[15],本文從中國國家博物館、陜西歷史博物館、臺州博物院和北京故宮博物院等大型國家博物館網(wǎng)站抽取[16]了583個玻璃文本數(shù)據(jù),將這些文本去噪后進行分詞并標注,最后將這些數(shù)據(jù)按8∶1∶1的比例隨機劃分為訓練集、測試集和驗證集.
本文的評價指標使用較為常見的三個評價指標:準確率(Precision,P)、召回率(Recall,R)和綜合評價指標(F1-Measure,F(xiàn)1).
實驗環(huán)境為Tensorflow2.1.0[17]并配合Adam優(yōu)化器進行訓練,BiLSTM-CRF+dict模型,即基于玻璃文物特征字典的雙向長短時記憶網(wǎng)絡的超參數(shù)設置如表3所示.
表3 實驗參數(shù)設置
本文比較了RNN、RNN-CRF、BiLSTM、LSTM-CRF、BiLSTM-CRF和基于字向量的BiLSTM-CRF+dict模型在玻璃文物數(shù)據(jù)集中的識別效果,具體如表4所示,繪制折線圖如圖5所示.
表4 模型比對結果(%)
圖5 不同模型效果對比圖
由表4可知,基于字向量并加入玻璃文物特征字典的BiLSTM-CRF模型識別效果要優(yōu)于其他模型,此模型在對文本進行分詞時,加入了外部詞典,避免產(chǎn)生大量的噪聲信息,使模型結合上下文信息有效學習文物特征.觀察表中其他結果,還可以發(fā)現(xiàn):
(1)由BiLSTM模型和LSTM-CRF模型比較分析得到,雙向的LSTM在序列標注上要優(yōu)于單向LSTM,因為BiLSTM要同時學習前向和后向的序列特征,學習效果更好.
(2)在深度學習模型上加入CRF層后, RNN-CRF相較于RNN、BiLSTM-CRF相較于BiLSTM,其結果的綜合評價指標有明顯提升.證明添加CRF后,在針對玻璃文物實體識別的任務上具有一定的優(yōu)越性.
為進一步研究雙向神經(jīng)網(wǎng)絡和玻璃文物特征字典對模型訓練的影響,比較了LSTM-CRF、BiLSTM-CRF和BiLSTM-CRF+dict三個模型在訓練、測試過程中的模型損失與精度變化曲線,如圖6所示.
圖6 模型訓練、測試過程中的模型損失與精度變化曲線
由圖6可以看出,雙向的長短時記憶網(wǎng)絡要優(yōu)于單向的長短時記憶網(wǎng)絡,且加入字典后的模型損失率降低,正確率也有所提高.此模型的精度在訓練集上達到96.81%,在測試集上達到90.52%,訓練過程與測試過程中模型損失與精度的變化如圖7所示.
(a)模型訓練、驗證過程的精度變化曲線
為探究語料庫的數(shù)據(jù)量對各模型的影響,本文將語料庫分為1/3、2/3和1三種規(guī)模,分別在LSTM-CRF模型、BiLSTM-CRF模型和基于字向量的BiLSTM-CRF+dict模型上進行實驗,選用綜合評價指標F1作為評價指標,結果如圖8所示.
圖8 不同規(guī)模語料的實驗結果對比分析圖
從圖8可以看出,語料庫規(guī)模從1/3增長到2/3時,三個模型的綜合評價指標明顯提升;當語料庫規(guī)模較小時,玻璃文物特征字典對模型效果的提升較小;在三種語料規(guī)模上,本文提出的模型要優(yōu)于LSTM-CRF模型和BiLSTM-CRF模型.
本文提出基于字向量的BiLSTM-CRF模型,同時引入玻璃文物特征字典進行玻璃文物知識點抽取.由于缺少已標注的玻璃文物語料庫,本文將文本數(shù)據(jù)自動分詞并人工標注后構建玻璃文物語料庫,再對標注后的語料庫利用模型訓練,充分學習上下文的信息及特征,最后CRF結合語義信息實現(xiàn)對實體的抽取.同時,比較了不同規(guī)模語料庫對模型的影響.
在后續(xù)研究中,將會繼續(xù)使用模型進行實體間的關系抽取,并將實體抽取的結果和關系抽取的結果整合用于構建玻璃文物知識圖譜.同時,隨著知識抽取技術的不斷發(fā)展,如何將自動化抽取的方法應用于文物領域中也是未來的重點探索和研究方向.