張 碩 趙卓峰 劉 晨
(1.北方工業(yè)大學信息學院 北京 100144)(2.大規(guī)模流數(shù)據(jù)集成與分析技術北京市重點實驗室 北京 100144)
科技服務業(yè)是將科技成果轉化為生產(chǎn)力的突破口[1]。隨著科技的快速發(fā)展,產(chǎn)業(yè)領域產(chǎn)生了大量的科技服務資源,包含論文、專利、項目、咨詢等。這些資源信息隱含著豐富的知識價值,通過信息抽取可以幫助我們分析挖掘科技知識之間的關聯(lián)關系,掌握當代科技研究的熱點,預測科技發(fā)展的動態(tài)規(guī)律。然而,產(chǎn)業(yè)領域科技服務資源所涉及的行業(yè)眾多,大多為半結構化數(shù)據(jù)和非結構化數(shù)據(jù),并且缺乏統(tǒng)一的描述規(guī)范。因此,亟需找到可以將非結構化的產(chǎn)業(yè)領域科技服務資源信息轉化為結構化知識的信息抽取方法,便于之后的數(shù)據(jù)分析和知識挖掘。
命名實體識別是信息抽取的重要步驟[2]。產(chǎn)業(yè)領域科技服務資源實體識別需要抽取出專家人才、專業(yè)技術點、科技方法以及領域術語等信息。現(xiàn)有常用的命名實體方法主要是基于深度學習的方法?;谏疃葘W習的方法包括遞歸神經(jīng)網(wǎng)絡(RNN)[3]、雙向長短期記憶網(wǎng)絡[4](BiLSTM)以及雙向門控循環(huán)網(wǎng)絡(BiGRU)[5]等。為了避免RNN 帶來的梯度消失的問題,能夠獲取文本數(shù)據(jù)的上下文特征信息,提高實體識別的準確率,基于BiLSTM模型的方法在生物醫(yī)學、電子病歷、法律、軍事等領域得到廣泛應用。為了節(jié)省時間和內(nèi)存空間,又提出了采用結構簡單的BiGRU 模型。雖然命名實體識別在許多領域得到廣泛應用,但針對產(chǎn)業(yè)領域科技服務資源命名實體識別的研究較少。
通過分析產(chǎn)業(yè)領域中科技服務資源信息,發(fā)現(xiàn)實體識別時有以下幾個難點:1)產(chǎn)業(yè)領域科技服務資源命名實體識別的邊界模糊,實體詞的長度不一。如“氧化硅”和“氧化硅氣凝膠”,“乙烯”、“苯乙烯”、“聚苯乙烯”和“聚苯乙烯螯合樹脂”均可作為實體出現(xiàn)。2)產(chǎn)業(yè)領域科技服務資源包含大量復雜的專業(yè)術語實體,包含了數(shù)字和特殊符號表示。如“Sm-Al-Co 系Sm 基三元塊體非晶合金”、“Pb-Si-N 三元化合物”和“鄰苯二甲酸二丁酯”等等。3)產(chǎn)業(yè)領域科技服務資源文本描述語句較長,缺乏特定的表述規(guī)則,很難充分獲取詞語的語義特征以及詞語之間的關系特征。如圖1 中,從“發(fā)明”到“氫化物”存在遠距離的VOB 動賓關系,再結合“鑭系”、“金屬”均與“氫化物”的存在近距離ATT定中修飾關系,可以更好地表征“鑭系金屬氫化物”這一實體的存在。
圖1 依存分析圖
因此,為了解決產(chǎn)業(yè)領域科技服務資源命名實體識別的問題,提高實體識別的準確率,本文提出了一種融合圖卷積網(wǎng)絡(GCN)的命名實體識別,記為BERT_pos-BiLSTM-GCN-CRF 模型。由于產(chǎn)業(yè)領域科技服務資源存在大量復雜的專業(yè)術語,為了解決word2Vec 模型只能表示一種靜態(tài)語義,不能表示多義的問題,通過BERT 詞嵌入模型進行字符編碼的表示??梢越Y合句子上下文信息來獲取字符的動態(tài)特征,有效解決一詞多義的問題。此外,BERT模型還可以通過下一句預測句子之間的上下文關系[6],并通過其內(nèi)部多頭注意力機制設置權重來獲取字符間的語義信息。另外,僅通過字符特征很難確定實體邊界,因此,還通過添加詞性特征對BERT 獲得的字符表示向量進行擴展。此外,由于產(chǎn)業(yè)領域科技服務資源文本描述沒有統(tǒng)一的標準,句子結構復雜,沒有充分利用句子中詞語之間的依賴關系進行實體識別。而BiLSTM只能獲取近距離字符間的特征信息,不能充分獲取句子遠距離詞語間的依賴關系。在BERT-BiLSTM-CRF 模型的基礎上引入圖卷積網(wǎng)絡,借助依存句法分析,挖掘字符及字符間關系的結構信息,將BiLSTM 提取到的特征向量與詞語間的依存關系矩陣進行拼接,充分獲取文本的全局特征。實驗結果表明,本文采取的BERT_pos-BiLSTM-GCN-CRF 模型優(yōu)于傳統(tǒng)的實體識別方法。
基于深度學習的方法進行實體抽取是近幾年研究的熱點。文獻[7]提出了一種適用于電力文本基于多個特征的字符級實體識別模型,結合了字符、左鄰熵和詞性來表示電力調(diào)度文本的領域特征,利用BiLSTM對字符序列標簽進行預測,最后利用CRF對預測的標簽進行優(yōu)化。文獻[8]提出一種臨床命名實體識別模型(CNER),先將原始數(shù)據(jù)集的文本序列的字符向量和詞向量有機地結合起來,然后將序列分別輸入多頭自注意模塊和BiLSTM神經(jīng)網(wǎng)絡模塊的并行結構中,以此獲得上下文信息和特征關聯(lián)權值等多層次信息。文獻[9]提出了一種基于BIBC的命名實體識別方法。該方法利用基于整詞掩蔽的BERT-WWM 模型進一步提取中文數(shù)據(jù)中的語義信息,并通過大規(guī)模無標注數(shù)據(jù)補充特征,結合BiLSTM-CRF 模型進行實體識別,實驗結果表明該方法能夠更準確地抽取出糖尿病病歷中的實體信息,獲得良好的實體識別結果,能夠滿足實際應用的要求。此外,由于BiLSTM結構復雜,模型訓練時需要消耗大量的時間和內(nèi)存空間,而雙向門控循環(huán)網(wǎng)絡[8]結構較簡單。文獻[10]提出利用BiGRU 模型學習上下文特征提取肺癌醫(yī)案中的實體。
盡管這些方法在其他領域的實體識別任務上取得了較大的進步,但還是無法有效地應用于產(chǎn)業(yè)領域科技服務資源中的實體識別任務。由于產(chǎn)業(yè)領域科技服務資源文本描述語句較長,很難充分獲取詞語的語義特征以及詞語之間的關系特征,雖然BiLSTM-CRF 方法可以在一定程度上獲取到句子的上下文語義特征,但不能獲取遠距離依賴關系。所以本文引入GCN 層充分獲取句子的全局特征。另外,由于產(chǎn)業(yè)領域科技服務資源中存在大量復雜的專業(yè)術語,僅通過基于字的BERT 模型無法高效關聯(lián)出詞語之間的關系,使得實體邊界的識別變得困難。所以添加詞性特征作為外部輔助特征,將BERT獲取到字符特征、句子特征、位置特征與詞性特征進行拼接融合,可以幫助更好地識別實體的邊界,提高實體識別的準確率,所以本文采用BERT_pos-BiLSTM-GCN-CRF 模型對產(chǎn)業(yè)領域科技服務資源進行實體識別。
本文采用的方法主要包含4 個模塊,分別為BERT 層、BiLSTM 層、GCN 層以及CRF 層。首先采用BERT 層將文本向量化,得到蘊含語義信息的字符表示;然后通過BiLSTM 層和GCN 層聯(lián)合深度學習提取全句特征信息;最后在CRF 層對GCN 模型的輸出特征序列進行解碼,根據(jù)所有標簽概率得分選取一個全局最優(yōu)序列。該模型結構如圖2所示。
圖2 模型總體結構圖
將文本字符輸入,通過BERT 詞嵌入模型輸出每個字符的向量表示。首先對科技服務資源文本中的每一句話進行處理,在每一句話開頭加[CLS]標志,代表一句話的開始,并在該句的末尾加[SEP]標志,代表一句話的結束。例如“[CLS]一種制備氨基乙酸的方法[SEP]”。該模型的最大序列長度seq_length 設為128,采用多退少補的原則,當文本句子字符長度超過128 時,進行截斷操作,當文本句子字符長度小于128 時,使用[PAD]進行填補。通過查找詞向量文件找到每個字符所對應ID映射編碼。然后通過訓練獲取字符ID 對應的向量,批大小batch_size 設為32,映射為768 維的向量??偟那度氡硎鞠蛄渴怯勺址幋a、句子編碼和位置編碼三部分拼接組成[11]。其中,輸入的形狀為(32,128),輸出的形狀為(32,128,768)。
將獲取的總embedding 作為Transformer 層的輸入,Self-Attention 是Transformer 結構的重要組成部分,利用Self-Attention能有效得到蘊含語義信息的序列向量[12]。一共包含12 個layer 層,當前l(fā)ayer層的輸入為前一layer 層的輸出結果,第一個layer層的輸入為embedding 層獲取的向量,輸入的形狀為(4096,768)。每層都包含一個注意力機制,12個layer層共有12個頭??傠[層大小為768,每個頭64 維特征向量,然后將這12 個頭提取的特征向量結果concat 拼接。每個頭擁有不同的3 個Q、K、V矩陣,其中Q、K、V分別表示query,key,value,將上一層的輸出矩陣與該層的Q、K、V相乘得到新的Q、K、V矩陣。注意力權重分數(shù)計算公式如下所示:
該層的輸出形狀為(32,128,768),然后進行歸一化殘差連接。為了提升特征表達的能力,加入全連接層將768 維特征向量提升為3072 維,激活函數(shù)采用gelu。最后將結果再變回一致的維度768。
另外,由于加入了外部特征詞性特征,所以對BERT 層輸出的embedding 進行擴展,加入詞性嵌入pos_embedding。
該層主要是為了提取文本字符的上下文特征信息,將從BERT 層獲取的各個字的embedding 序列作為雙向長短期記憶網(wǎng)絡的輸入。這里采用兩層LSTM,第一層LSTM 網(wǎng)絡計算前向的隱特征,第二層LSTM 網(wǎng)絡計算后向的隱特征,如“我愛你”和“你愛我”是兩個不同的語義特征,所以把這兩個LSTM 層輸出的隱狀態(tài)序列進行concat 拼接。LSTM 隱藏層的特征維度為128,隱層的層數(shù)為1,dropout-rate 為0.5。將LSTM 狀態(tài)類型以元組類型表示輸出,輸出狀態(tài)表示為[ht,ct],包括兩部分內(nèi)容,一部分為細胞狀態(tài)ct,另一部分隱藏層狀態(tài)ht,計算公式如下所示。
其中,it表示輸入門輸出的信息、ft表示遺忘門輸出的信息、ot表示輸出門輸出的信息[13]。ct通過tanh神經(jīng)單元用于計算數(shù)據(jù)的輸入。
ht,ct的維度為當前LSTM單元的hidden_size,輸出的維度大小為128維。由于雙向LSTM 獲取上下文特征,最后將產(chǎn)生的前向隱特征和后向隱特征拼接聯(lián)合輸入到圖卷積網(wǎng)絡層,其輸出的維度大小為256維。
將BiLSTM 層完整的隱藏層狀態(tài)送入GCN層。該層的輸入由兩部分構成:一部分是BiLSTM層輸出的特征向量,另一部分是依存關系分析圖的鄰接矩陣向量。本文采用LTP 工具構建依存分析圖。例如產(chǎn)業(yè)領域科技服務資源文本中的“本發(fā)明涉及新材料領域”其構建的依存分析圖如圖3 所示。
圖3 依存句法樹示例
然后將依存分析圖轉化為鄰接矩陣,若詞語之間存在依賴關系,則為1,否則為0。由于該模型的輸入是以字為單位的,而通過依存關系分析的是詞級別的,因此,對原來的詞鄰接矩陣進行修改,構建出字級別的矩陣向量,如圖4所示。
圖4 鄰接矩陣
圖卷積網(wǎng)絡中單元數(shù)設為128,GCN 層數(shù)為2,第一層作為前向圖卷積網(wǎng)絡層,獲取每個字符的出度信息,即該字符依賴哪些字符;第二層作為后向圖卷積網(wǎng)絡層,獲取每個字符的入度信息,即哪些字符依賴于該字符。然后將這兩層的最終輸出結果進行concat拼接。
首先進行前饋計算,將從BiLSTM 層輸出特征矩陣與每個節(jié)點的權重矩陣矩陣相乘,然后與一個自身相連的鄰接矩陣相乘,通過激活函數(shù)σ,得到融合句子中字符間依賴關系的特征矩陣,其輸出的形狀均為(256,128),兩個GCN 進行拼接輸出的形狀為(512,128)。
其中,L為BiLSTM 層傳入的特征向量,Wo為圖的出邊鄰接矩陣,Wi為圖的入邊鄰接矩陣,W→k和W←k為GCN 的前向權重矩陣和后向權重矩陣,I 為自旋單位矩陣,b為偏移矩陣,選ReLu函數(shù)為激活函數(shù)。
然后將GCN 輸出的每個字的128 維特征向量送入條件隨機場CRF層中。
CRF 的主要作用是通過訓練自動學習最終預測的標簽之間約束關系[14]。如:句子以B 或O 開頭,B-M標簽只能在I-M標簽之前等。
CRF 對從GCN 層輸出的每個字的所有標簽得分進行篩選,對于給定的從BERT 層輸出的文本字序列向量X={x1,x2,…,xn},定義矩陣P為輸入序列X經(jīng)BiLSTM 層和GCN 層聯(lián)合學習后輸出的對應標簽的分值。本研究中包含18 個標簽,分別 為[O、X、[CLS]、[SEP]、B-service、I-service、B-person、I-person、B-organization、I-organization、B-time、I-time、B-domain、I-domain、B-term、I-term、B-tech、I-tech],W為(18,18)維的狀態(tài)轉移矩陣,得到某一個預測序列y={y1,y2,…,yn}與X的聯(lián)合概率,通過損失函數(shù)loss計算真實路徑得分與所有路徑得分的比值,選取給定序列中的最優(yōu)聯(lián)合概率分布,即全局最高的為實體識別的結果,輸出的形狀為(4096,18),即一次訓練32 個樣本句子的所有字符對應的序列標簽。
本文從國家知識產(chǎn)局、知網(wǎng)、科技資源共享平臺、科易網(wǎng)等網(wǎng)站爬取產(chǎn)業(yè)領域科技服務資源信息,包括科技專利資源、科技論文資源、科技咨詢資源、科技項目資源以及儀器設備資源等。一共獲取8954 個科技服務資源的描述文本,通過對產(chǎn)業(yè)領域科技服務文本內(nèi)容進行分析,定義了7 種實體類型:科技服務名稱、專家人才、機構組織、發(fā)布時間、所屬行業(yè)、行業(yè)術語以及技術點。
采用BIO 的方式對產(chǎn)業(yè)領域科技服務信息進行序列標注,利用Brat標注工具對文本進行數(shù)據(jù)標注,“B”代表實體的起始位置,“I”代表實體的中間部分,“O”代表與實體無關的詞[15],“-”代表實體的類型。產(chǎn)業(yè)領域科技服務資源信息實體標注標簽如表1所示。
表1 實體標簽標注
另外,本文在原有標注上加入詞性特征,“-”后代表實體的詞性,標注示例如表2 所示,將經(jīng)過序列標注和詞性標注的文本數(shù)據(jù)作為實驗數(shù)據(jù)集進行訓練預測。
表2 實體標注示例
本文實驗環(huán)境如表3所示。
表3 實驗環(huán)境配置
在實驗中,參數(shù)設置如表4所示。
表4 模型參數(shù)設置
本模型采用實體標簽的準確率(P)、實體標簽的召回率(R)以及實體標簽的調(diào)和平均數(shù)(F1)作為評價指標[16],計算公式如下:
其中,Ec為標注正確的實體數(shù)量,Ei為標注錯誤的實體數(shù)量,Ed為未標注出的實體數(shù)量。
采用交叉驗證的方式,將實驗數(shù)據(jù)的訓練集與測試集按8∶2 比例進行劃分。設置隨機種子為1~5,取5 次測試結果的平均值作為最終的評估值。具體實體標簽分布如表5所示。
表5 實體個數(shù)統(tǒng)計情況
為了驗證BERT_pos-BiLSTM-GCN-CRF 模型的性能,本文通過實驗與常見的實體識別模型BiL?STM-CRF、SelfAtt-BiLSTM-CRF、BERT-BiGRUCRF、BERT-BiLSTM-CRF、BERT-BiLSTM-GCNCRF進行比較。各模型的F1值變化如圖5所示,由圖可知,基于BERT 模型的算法在初始訓練時基本能達到一個較好水平,其中本文的BERTpos-BiL?STM-GCN-CRF模型的實體識別的效果最好。
本文模型與其他模型的對比實驗結果見表6,實驗對比分析結果如下。
表6 相關模型對比
1)對比BERT-BiGRU-CRF 和BERT-BiLSTMCRF 算法,目的是驗證BiLSTM 與BiGRU 兩者之間哪個更有益于實體識別,從圖6 中可以看出,在本實驗中,采用BiLSTM 模型的效果略優(yōu)于BiGRU 模型,可以獲取豐富的上下文特征,幫助提高實體識別的準確率,F(xiàn)1值提高了2.2%。
圖6 第1組實驗結果
2)對比BiLSTM-CRF 算法和BERT-BiLSTMCRF,目的是驗證選取不同的詞詞嵌入模型對實體識別的效果是否存在影響。其中,BiLSTM-CRF 中使用的是word2Vec詞嵌入模型,從圖7中的實驗結果可知,BERT 詞嵌入模型與word2Vec 詞嵌入模型相比,F(xiàn)1 值平均提升了27.10%。結果表明,使用BERT 預訓練語言模型可以,由于它能充分提取字符間關系的特征,能更好地表達科技服務資源文本中字符隱含的語義信息。
圖7 第2組實驗結果
3)對比BERT-BiLSTM-CRF和BERT-BilLSTMGCN-CRF 算法,目的是驗證加入基于依存分析圖的圖卷積網(wǎng)絡是否有助于提高實體識別的準確性。從圖8 中可以發(fā)現(xiàn),在BERT-BiLSTM-CRF 模型基礎上融入圖卷積網(wǎng)絡能更好地提取全局特征,提高了科技服務資源信息實體抽取的準確率,F(xiàn)1值提高了1.21%。
圖8 第3組實驗結果
4)對 比BERT-BiLSTM-GCN-CRF 和BERT_pos-BiLSTM-GCN-CRF 算法,目的是為了驗證添加詞性特征后是否可以更有效地識別實體的邊界,從圖9 中可以看出添加詞性特征后使得實體識別的準確率提高,F(xiàn)1值提高了0.91%。
圖9 第4組實驗結果
為了驗證實驗結論的正確性,使用該模型在CoNLL2003 語料上進行實驗,該語料中包含人名、地名、組織和其他。實驗結果如表7所示。
表7 CoNLL2003語料的實驗結果
由表7 可以看出,與BiLSTM-CRF 和BERTBiLSTM-CRF 模型相比,本模型在CoNLL2003 語料上的訓練集準確率為97.75%,測試集的準確率為96.25%,由此可文中模型可以有效提高實體識別的準確率。
本文提出了一種基于圖卷積網(wǎng)絡的產(chǎn)業(yè)領域科技服務實體識別方法。該模型采用BERT 預訓練語言模型提取產(chǎn)業(yè)領域科技服務資源文本中的上下文語義特征,引入詞性特征作為輔助特征,對BERT 獲取的語義特征進行擴充,并通過GCN 學習文本句子中詞語之間的依存關系,用以獲取句子的遠距離特征。通過實驗發(fā)現(xiàn),該模型優(yōu)于傳統(tǒng)的實體識別方法,能夠有效提取產(chǎn)業(yè)領域科技服務資源中的實體信息。此外,該模型雖在一定程度上提升了產(chǎn)業(yè)領域科技服務資源信息中實體識別的準確性。但為了避免實體抽取模塊產(chǎn)生的誤差影響整個知識圖譜構建的質量,后續(xù)將進一步研究實體關系聯(lián)合抽取的方法,從而完善產(chǎn)業(yè)領域科技服務資源信息的提取。