崔從敏,施運梅,袁 博,李云漢,李源華,周楚圍
(1.北京信息科技大學 網絡文化與數字傳播北京市重點實驗室,北京 100101;2.北京信息科技大學,北京 100101)
隨著政務大數據化的快速發(fā)展,公文文本數據存在量大、增速快、類型多、處理復雜的特點,但是目前處理數據主要依賴于傳統(tǒng)的人工方式,效率低、準確率低,具有時延性,為政府辦公帶來許多挑戰(zhàn),消耗了巨大的人力財力,所以如何準確挖掘出其中的關鍵信息愈加重要。
現階段在政府公文領域中應用NLP技術,可以將非結構化的自然語言文本轉化為結構化的信息,從而挖掘出文本中潛藏的有價值的內容,減輕人工壓力。NLP的一個重要的子任務就是實體關系抽取,將非結構的文本語句轉換為知識三元組,用簡單的數據結構解釋文本中的實體關系?;诒O(jiān)督學習的方法雖然可以通過訓練數據抽取特征,但過程中要達到期望的準確率和召回率需要大量的人工標注數據來輔助訓練。在現如今數據量大、類型多的大背景下,基于遠程監(jiān)督的關系抽取方法因其省去了大量的人工標注加上其能夠在不同領域適用的特性,已成為目前研究熱點。
近年來,深度學習方法被廣泛應用到實體關系抽取任務中,其通過對實體的位置信息進行向量化表示,來提供神經網絡自動提取的文本特征,繼而預測實體中的關系類型?;赗NN、CNN、LSTM的方法為其中三種代表方法,但這些神經網絡模型通常在關系分類中沒有充分考慮標記實體及其位置信息,而實際上實體的位置信息在關系分類中起到非常重要的作用。此外,CNN還需要大量的人工標注語料庫進行訓練才能達到良好的分類效果。因此,有研究將膠囊網絡應用于實體關系抽取,其不需要大量標注的數據集就可以取得不錯的效果。同時隨著對自注意力機制的深入研究,有研究將Transformer架構應用在關系抽取任務上,以及利用語言模型BERT進行關系抽取的工作,都取得了良好效果。
針對預訓練語言模型的研究近年來發(fā)展迅猛[1-3],預訓練語言模型能夠捕捉兩個目標實體的信息,并且基于上下文信息捕捉文本的語義信息。在數據量足夠大的規(guī)模下,預訓練能夠獲取文本的上下文的特征表示,應用于下游任務中,無需大規(guī)模的訓練數據就能取得更好的效果。
由于中文與英文存在語言特性差異,且目前公文領域標注數據集少,所以現有的方法不能很好地解決政府公文領域中的關系抽取問題。因此,該文提出基于ALBERT預訓練語言模型和膠囊網絡相結合的遠程監(jiān)督關系抽取方法(Albert_Capnet)。針對政府公文領域中的人事任免信息,通過基于遠程監(jiān)督的關系抽取技術,抽取人名和職務之間的關系。首先使用ALBERT預訓練模型對文本進行特征表示,獲取文本深層語義信息;然后將其特征向量輸入到膠囊網絡中傳輸低層到高層的特征,用向量的長度對關系進行分類,判斷所屬職務是上任還是卸任;最后使用訓練完成的關系抽取模型對待抽取的文本語料進行抽取。
主要貢獻在于:(1)提出一種基于ALBERT預訓練語言模型和膠囊網絡相結合的關系抽取方法,適用于小樣本數據集,提高了關系抽取質量;(2)將遠程監(jiān)督關系抽取技術應用到政府公文領域,構建人名-職務知識庫,并按該方法實現人名職務關系的實例抽取的迭代擴充,解決公文領域中標記數據集少的問題,大大減輕人工標注成本。
關系抽取作為信息抽取的一項關鍵技術,在知識庫自動構建、問答系統(tǒng)等領域有著極為重要的意義?,F有的關系抽取方法可以分為4類,分別是有監(jiān)督關系抽取、半監(jiān)督關系抽取、遠程監(jiān)督關系抽取和無監(jiān)督關系抽取[4]。
有監(jiān)督實體關系抽取將關系抽取任務視為分類任務,將標記好的數據作為訓練集輸入到分類模型中進行訓練,能得到較高的準確率和召回率,但在構造訓練集的過程中會耗費大量人工成本。為此,Mintz等人[5]提出基于遠程監(jiān)督的關系抽取方法,首先構建外部知識庫,將待標注文本與外部知識庫進行實體對齊,自動標注關系,然后通過分類任務實現關系抽取,大大減少了人工標注的成本。
現階段半監(jiān)督和無監(jiān)督的關系抽取技術還不發(fā)達,遠程監(jiān)督關系抽取方法可以極大地減少人工標注成本,并解決因缺乏標記中文知識庫導致的問題,因而近年來受到了學者們的關注。
由于遠程監(jiān)督的強假設,目前主要采取多示例學習[6-9]和注意力機制[10-14]來緩解數據噪聲問題。PCNN(Piece-Wise-CNN)模型[8]在池化層將兩個實體位置分為三段進行池化,并且將具有相同實體對和關系標注的所有句子看成一個包,將標注的關系作為整個包的標簽進行訓練,從而能夠更好地捕捉兩個實體間的結構化信息。但是PCNN可能會舍棄多個正確標注的句子,造成數據浪費,從而導致提取到的特征可能是片面的,這種數據處理方式對小數據樣本并不友好。隨后清華大學劉知遠團隊提出了PCNN+ATT(Piece-Wise-CNN-ATTention)模型[10],其在句子間特征提取上運用了自注意力機制,為包內每個句子賦予權重,可以更全面提取包的信息,是目前常用的中文遠程監(jiān)督關系抽取模型。
在NLP任務中,隨著近年來算力的不斷提升,基于深度學習的訓練方法成為業(yè)界的主流方法,但是大多依賴于大量標注數據。預訓練模型通過基于特征集成的方式和基于模型微調的方式將語言模型學習到的文本表示當做下游任務的輸入特征進行應用,有效減輕了任務對于標注數據的依賴。
預訓練模型的發(fā)展分為淺層的詞嵌入到深層編碼兩個階段。在淺層詞嵌入階段,研究目標主要聚焦在基于特征的方法上,并不注重上下文的語義關系,其代表方法為NNLM、word2vec等。深層編碼通過一個預訓練編碼器輸出上下文相關的詞向量,解決一詞多義的問題,如Peter等人提出的ELMo模型及Devlin等人提出的BERT模型,使得模型能夠學習到句子與句子間的關系。
BERT的問世證明了預訓練語言模型對下游的NLP任務有很大的提升,可以幫助提高關系抽取效果。Shi P等人[15]簡單地使用BERT預訓練語言模型方式,將句子輸入到BERT模型中獲取文本的語義表征,再連接一個全連接層作分類,完成關系抽取任務,通過實驗結果表明其取得了不錯的效果。Wu等人[16-17]將BERT模型應用于關系抽取任務,使用BERT學習到實體的位置信息及語義特征,從而提高模型對實體的表征能力。Livio等人[18]也證明通過BERT提取實體的位置及句子的語義信息能夠提高關系抽取任務性能。
但是由于BERT模型過大,在參數和梯度的同步上消耗大量訓練時間,因此,Lan等人[19]提出ALBERT模型,通過對嵌入層的參數進行分解、層間參數共享來大幅減少預訓練模型參數量,加快BERT的訓練速度。此外ALBERT還提出用句子順序預測任務代替BERT中的預測下一個句子任務,使得模型能學習到更細粒度的關于段落級的一致性的區(qū)別,提高了下游任務中多句編碼任務的性能。
Google在閱讀理解、文本分類等13項NLP任務中進行了大量對比實驗,結果表明,有233 M參數量的ALBERT_xxlarge模型,全面優(yōu)于有1 270 M參數的BERT_xlarge模型。另外,ALBERT中的albert_tiny模型,其隱藏層僅有4層,模型參數量約為1.8 M,非常輕便。相對于BERT,ALBERT不僅提升了訓練速度、推理預測速度約10倍,且基本保留了精度。
關系抽取任務可被定義為關系分類任務,傳統(tǒng)的機器學習算法如支持向量機(SVM)、邏輯回歸(Logistic Regression)、樸素貝葉斯(Naive Bayes)等,僅適用于小規(guī)模的數據訓練,且隨著數據量增大,處理海量數據過程會費時費力。
近年來,將CNN或RNN與注意力機制結合的方法成為解決關系分類問題的最新方式,但是CNN或RNN難以提取不同卷積核所獲得的特征之間的關系。Sabour等人[20]提出基于動態(tài)路由算法的膠囊網絡模型,彌補了CNN的缺陷,并在MNIST數據集上驗證了該模型在圖像分析領域具有很好的效果。
此后,膠囊網絡被引入到文本領域解決NLP問題,如文本分類[21]、情感分析[22-23]、機器翻譯[24]等任務。目前,在分類模型中,膠囊網絡通常被應用到分類模型的最后一層,以取代最大池化層來完成分類任務。特別是趙等人2018年首次將膠囊網絡應用在文本分類任務中,提出基于膠囊網絡的文本分類模型,其性能超過CNN和LSTM,從而證實了膠囊網絡能夠有效地提升分類任務的準確性。Peng等人[25]將膠囊網絡應用到中文實體關系分類中,提出結合自注意力機制和膠囊網絡的實體關系分類模型,該模型僅需要少量的訓練語料,就能有效地捕捉詞位置信息。
中文關系抽取依賴于文本分類技術。膠囊網絡提供一種基于聚類的思想來代替池化層來完成特征的整合的方案,在分類任務中,能夠學習到文本局部和整體之間的關聯信息,克服CNN池化時信息丟失的局限性,從而更好地進行分類、提取文本段落與全文之間關聯特征信息,最終達到提高關系抽取效果的目的。
對政府公文中領導人職務關系抽取的框架如圖1所示。通過遠程監(jiān)督的思想,構建關系示例公文集,將其劃分為訓練數據集和測試數據集,輸入到Albert_Capnet關系抽取模型中進行關系分類訓練,最終得到關系抽取結果。從而實現將非結構化的人事信息轉化為結構化的三元組信息,描述政府公文領域的人名職務關系,并進行存儲,具體步驟如下:
圖1 關系抽取框架
(1)構建職務任免示例集。
職務任免示例集用于關系抽取模型的訓練,由公文集中存在人事任免關系的句子和人名職務三元組共同構成。公文集中存放的是來自于政府網站的人事任免信息,公文領域知識庫是通過對公文集進行詞法和句法分析,得到的實體對集合V。實體對(E1,E2)∈V,其中E1為人名,E2為職務?;谶h程監(jiān)督的思想,將公文領域知識庫中的實體對和公文集進行實體對齊,為實體對匹配關系標簽,得到人名職務三元組。
(2)關系抽取模型訓練與測試。
將職務任免示例集劃分為訓練數據集和測試數據集,其中,訓練數據集用于訓練關系抽取模型,測試數據集用于評估模型的準確率。
(3)職務關系抽取。
將待抽取公文輸入到Albert_Capnet關系抽取模型中,對職務任免關系進行預測,得到關系抽取結果。
Albert_Capnet模型用于抽取公文中人名-職務關系,模型由四部分組成,分別為輸入層、ALBERT預訓練語言模型層、膠囊網絡層和輸出層。模型具體結構如圖2所示。
圖2 Albert_Capnet關系抽取模型
(1)輸入層。
輸入層中接收的數據是職務任免示例集X,輸入文本采用如式(1)所示的形式化方式表示,其中Xi表示職務任免示例集中的第i個詞。
X=(X1,X2,…,XN)
(1)
(2)ALBERT層。
該層對句子中的詞進行編碼并提取深層語義特征。ALBERT是以單個漢字作為輸入的,輸出為向量形式E,如式(2)所示,其中Ei表示單個字的向量。
E=(E1,E2,…,EN)
(2)
經過多層雙向的Transformer編碼器的訓練,最終輸出文本的特征表示T,如式(3)所示,其中Ti表示文本中第i個詞的特征向量。
T=(T1,T2,…,TN)
(3)
(3)膠囊網絡層。
本層用于傳輸低層到高層的文本特征,實現實體關系分類。該層的輸入是ALBERT的特征向量輸出。首先構建出低級膠囊網絡層,經由動態(tài)路由的方法將低層特征輸入到高層膠囊網絡層中,最終得到與分類結果相匹配的輸出膠囊。
(4)輸出層。
從膠囊網絡的輸出向量中選擇長度最大的類別,作為最終模型預測的關系分類類別。
Albert-Capnet關系抽取模型使用ALBERT預訓練語言模型進行特征提取,采用詞嵌入和位置嵌入的方法,將數據之間的關聯性融入到數據中,使輸入詞學習到文本的語義信息和位置信息,解決特征提取中誤差傳播問題,從而達到提高關系抽取效能的目的。
ALBERT與BERT相同,使用Transformer的編碼器來提取輸入序列的特征信息,自注意力機制將模型上下層直接全部連接,使詞嵌入具有更豐富的語義信息。ALBERT模型結構如圖3所示。其中Ei表示單個詞或字的向量輸入,Trm即Transformer,Ti表示最終隱藏層的輸出,通過編碼器中的注意力矩陣和注意力加權后,每個Ti都具有整句話上下文的語義信息。
圖3 ALBERT層的結構
為了使ALBERT模型定位到兩個實體間的位置信息,在文本中插入實體定位字符。在每個輸入句子的開頭添加[CLS]字符,在頭實體前后添加[E11]和[E12]字符,尾實體前后添加[E21]和[E22]字符,對位置進行標記。將頭實體、尾實體用向量表示,作為實體特征。
自注意力機制公式如式(4),其中Q、K、V分別代表輸入序列中每個詞的query、key和value向量,dk是K矩陣的維度。
(4)
將提取到的全局語義特征和實體特征進行拼接融合,共同作為膠囊網絡層的輸入。
膠囊網絡是基于聚類的思想,利用動態(tài)路由機制實現低層特征與高層特征的融合,提取豐富的文本信息和詞位置信息,在實體關系分類中起到重要作用。膠囊網絡結構如圖4所示,分為低層膠囊網絡層、動態(tài)路由層和高層膠囊網絡層。
圖4 膠囊網絡結構
(5)
通過對輸入向量加權并求和得到向量S,S是高層膠囊網絡的輸入,公式如式(6)所示。
(6)
用非線性函數squash對高層膠囊網絡輸出的向量S進行壓縮,如公式(7)所示。
(7)
低層膠囊網絡通過動態(tài)路由算法將信息傳輸到高層膠囊網絡中,將臨時變量bij初始化為0,以公式(8)和公式(9)進行迭代更新,值保存到cij。
(8)
(9)
膠囊網絡通過傳輸低層到高層之間的特征,學習到文本局部和整體之間的關聯信息,其最終輸出為向量長度,值為類別概率值。
實驗環(huán)境設置如表1所示。
表1 實驗環(huán)境配置
實驗數據選取從中國政府網站獲取的中央、地方、駐外、其他四類人事信息,構成公文集,共4 698篇公文文本。從實驗數據中劃分出訓練集4 000條,測試集698條。該文利用哈工大的LTP(Language Technology Platform)進行詞法和句法分析,對候選實體進行篩選,最終得到實體897例,包括804例人名和93例職務。采用遠程監(jiān)督學習的方式為實體對自動標注關系類型,并構建人名-職務知識庫。人名-職務知識庫格式和部分內容如圖5所示。
圖5 部分人名-職務知識庫
在實驗參數方面,該文通過多次實驗并對實驗結果進行驗證,最終選定最優(yōu)的實驗參數。在預訓練語言模型的選擇中,采用albert_tiny中文預訓練模型。采用Adam優(yōu)化器調整學習率,交叉熵損失函數對模型參數進行調優(yōu),模型具體的參數設置如表2所示。
表2 實驗參數設置
3.4.1 不同分類器效果比較
為驗證膠囊網絡在政府公文領域的分類效果,使用ALBERT提取文本特征,不同的機器學習分類器進行對比實驗,包括:邏輯回歸(Logistic Regression)、樸素貝葉斯(Naive Bayes)和支持向量機(SVM)。
表3為使用ALBERT提取特征,不同機器學習分類器的關系抽取實驗結果。
表3 不同分類器關系抽取效果 %
根據實驗結果分析,Albert-Capnet關系抽取模型在政府公文領域數據集上的分類效果優(yōu)于Logistic Regression、Naive Bayes和SVM的傳統(tǒng)機器學習分類器的分類效果。同時,實驗也證明了膠囊網絡能提取豐富的文本信息和詞位置信息,在小樣本數據集上具有良好的分類效果。
Naive Bayes假設文本中的詞是彼此獨立的,詞之間不具有關聯性,并且只有訓練樣本數量非常多的情況下才能達到非常準確的效果,因此不適合做小樣本數據集上的文本分類器。Logistic Regression和SVM在分類結果上取得了很大的優(yōu)勢,而且分類的時間較深度學習來說縮短了很多,但是需要人工進行特征構造,可擴展性差。Logistic Regression適合處理二分類問題,但是不能解決非線性問題。SVM把高維空間的復雜性問題轉化為求核函數問題,在小樣本訓練集上能夠取得不錯的效果,但是需要大量的存儲空間。
3.4.2 不同關系抽取方法的比較
為對比不同關系抽取方法的抽取效果,選擇兩種在遠程監(jiān)督關系抽取中被廣泛應用的模型作為對比實驗模型,即PCNN和PCNN-ATT。PCNN是常用的遠程監(jiān)督關系抽取模型,PCNN-ATT是目前已知遠程監(jiān)督中文關系抽取數據集上效果最好的模型,也是基準模型。不同關系抽取方法結果對比如表4所示。
表4 不同關系抽取方法的對比效果 %
實驗結果表明,PCNN提取的文本特征是片面的,在小樣本數據集上的效果不好,PCNN-ATT通過提高包中正確標注句子的注意力權重,提高了關系抽取效果。而Albert_Capnet關系抽取方法能夠有效提取文本中的深層語義信息和詞位置信息,在準確率、召回率、F1值上均遠高于PCNN和PCNN-ATT方法。
通過以上兩個實驗,表明Albert_Capnet關系抽取模型在政府公文領域的小樣本數據集上具有更好的抽取性能。
通過分析政府公文領域特點,該文提出了基于ALBERT預訓練模型和膠囊網絡相結合的遠程監(jiān)督關系抽取模型,針對抽取人名-職務間的職務關系,進行分類,大大減少了人工對數據標記所耗費的時間和精力,解決了公文領域標注數據集少的問題。ALBERT通過字嵌入和位置嵌入的方式,提取文本中深層的語義信息,解決特征提取中的誤差傳播問題。對比實驗結果表明,膠囊網絡在公文領域的小樣本數據集上具有良好的分類效果,可以有效提高分類精確度。
對于政府網站日益增加的政府公文,采用遠程監(jiān)督的關系抽取方法可以減少人工標注成本,提高關系抽取效率,進而保證了獲取重要信息的質量和實效性。該方法所獲實例可擴充現有公文領域知識庫,輔助政府工作人員在書寫公文時快速獲取人事信息。
該文聚焦于單一的實體關系抽取,未來將著眼于能否同步抽取多個實體間的多類關系等信息。