張東東,彭敦陸
(上海理工大學(xué) 光電信息與計算機(jī)工程學(xué)院,上海200093)
隨著網(wǎng)絡(luò)信息資源的日漸豐富,信息數(shù)據(jù)呈現(xiàn)出規(guī)模巨大、模態(tài)多樣和高速增長等特點.在互聯(lián)網(wǎng)搜索領(lǐng)域中,當(dāng)用戶輸入查詢信息時,希望計算機(jī)能夠從語義層面理解用戶想要獲取的信息,而不僅是關(guān)鍵字的提取和搜索.這就迫切要求計算機(jī)能快速、準(zhǔn)確地返回用戶真正所需信息.Google在2012年推出知識圖譜并將它應(yīng)用到搜索引擎中增強(qiáng)搜索結(jié)果準(zhǔn)確性,這標(biāo)志大規(guī)模知識圖譜在互聯(lián)網(wǎng)語義搜索中的成功應(yīng)用[1].
信息抽取是構(gòu)建知識圖譜的第1步.它是一種從不同來源、不同結(jié)構(gòu)的數(shù)據(jù)中抽取實體、關(guān)系以及實體屬性等信息的技術(shù)[2].從應(yīng)用的廣泛程度以及研究的深入程度來看,信息抽取任務(wù)主要包含兩個主要的子任務(wù):命名實體識別任務(wù)和實體關(guān)系抽取任務(wù)[3].提高命名實體識別的準(zhǔn)確率,在信息抽取、語篇理解、句法分析以及機(jī)器翻譯等任務(wù)中具有重要意義,但僅僅進(jìn)行實體識別只能得到以離散形式存在的實體,進(jìn)一步的任務(wù)還需要發(fā)掘?qū)嶓w之間的關(guān)系.
在深度學(xué)習(xí)有監(jiān)督領(lǐng)域中,對于實體關(guān)系的抽取研究現(xiàn)階段大部分都是通過已知實體對來判斷實體對之間的所屬關(guān)系,即將實體關(guān)系抽取看作是關(guān)系分類任務(wù).對于有監(jiān)督領(lǐng)域的實體關(guān)系分類研究早期采用的是傳統(tǒng)非深度學(xué)習(xí)方法,根據(jù)關(guān)系實例的表示方式不同,可以分為基于特征的方法[3]和基于核函數(shù)的方法[4].傳統(tǒng)方法一個最大的不足是過于依賴自然語言處理NLP(Natural Language Processing)工具(例如WordNet、詞性標(biāo)記、依存句法分析等),這可能會導(dǎo)致隱式錯誤的積累,同時人工構(gòu)造的特征無法捕獲所需的所有相關(guān)信息.深度學(xué)習(xí)近年來發(fā)展迅猛,因為通過深層神經(jīng)網(wǎng)絡(luò)可以對大規(guī)模的文本語料進(jìn)行學(xué)習(xí).在這些網(wǎng)絡(luò)模型中,在卷積神經(jīng)網(wǎng)絡(luò)CNN(Convolutional Neural Network)或循環(huán)神經(jīng)網(wǎng)絡(luò)RNN(Recurrent Neural Network)中加入注意力機(jī)制(Attention mechanism)被認(rèn)為是目前關(guān)系分類任務(wù)中主流和最佳的解決方法[5-10].新近提出的BERT模型[11]刷新了多項NLP任務(wù)的最佳效果,緊接著便有相關(guān)研究將它應(yīng)用于文本分類和實體關(guān)系分類,但實體關(guān)系分類與文本分類最大的區(qū)別就是關(guān)系分類更關(guān)注兩個實體的信息.因此,針對現(xiàn)有實體關(guān)系分類方法所存在的缺陷,本文試圖將BERT模型與實體對信息相結(jié)合從而構(gòu)建基于有監(jiān)督領(lǐng)域的實體關(guān)系分類模型ENT-BERT.本研究的主要貢獻(xiàn)如下:
·將預(yù)訓(xùn)練模型BERT應(yīng)用于實體關(guān)系分類任務(wù),采用句子向量與實體向量相結(jié)合的方式來突出實體信息,從而提出新的關(guān)系分類模型.
·在句子向量和實體向量的結(jié)合過程中引入了注意力機(jī)制,使得不同特征向量對預(yù)測實體間關(guān)系的貢獻(xiàn)度不同.
·分別在中英文數(shù)據(jù)集上進(jìn)行實驗驗證.實驗結(jié)果表明,與大部分模型相比,ENT-BERT模型能更有效地提高實體關(guān)系分類效果.
論文其余部分的結(jié)構(gòu)如下:第2部分介紹近年來國內(nèi)外有監(jiān)督領(lǐng)域關(guān)系分類任務(wù)的研究現(xiàn)狀;第3部分介紹了本文的實體關(guān)系分類模型ENT-BERT;第4部分通過實驗證明模型的性能;第5部分給出論文的結(jié)論和展望.
近年來得益于深度學(xué)習(xí)的發(fā)展,CNN是第一個被應(yīng)用于關(guān)系分類任務(wù)的深度學(xué)習(xí)模型.Zeng等人[12]將詞向量和相對位置信息作為輸入,然后利用CNN提取局部特征,最終在英文數(shù)據(jù)集上達(dá)到了較好的效果.但是CNN卻無法捕獲句子的層次信息和語法信息,Li等人[13]結(jié)合依存樹和層次卷積方法提出了改進(jìn)的CNN模型并應(yīng)用于關(guān)系分類任務(wù).Santos等人[14]是在CNN模型基礎(chǔ)上做出改進(jìn),引入新的損失函數(shù)后更容易區(qū)分開一些易于分錯的類別.在Socher等人[15]的工作中,他們沒有使用CNN作為基本結(jié)構(gòu),而是開始嘗試將RNN用于關(guān)系分類.Zhou等人[5]更是結(jié)合更簡單的位置特征信息PI(Position Indicators)來突出兩個實體的位置,再使用Att-BLSTM(Attention-Based Bidirectional Long Short-Term Memory Network)模型架構(gòu)來捕獲句中更加重要的語義信息.鑒于注意力機(jī)制在圖像領(lǐng)域中的表現(xiàn),其在文本領(lǐng)域中也用于獲得詞級別和句子級別的權(quán)重特征.Sheng和Huang[10]利用詞級別的注意力機(jī)制使得與實體對相關(guān)的詞語擁有更高的權(quán)重系數(shù),再結(jié)合CNN使得分類效果得到進(jìn)一步提升.為了區(qū)分文本中不同句子對關(guān)系分類的貢獻(xiàn)程度,Meng等人[6]在加入詞級別的注意力機(jī)制后還引入了句子級別的注意力機(jī)制來提高分類效果.由于CNN能提取詞級別的特征和RNN能提取句子級別的特征,Guo等人[9]提出將CNN、RNN和注意力機(jī)制相結(jié)合的Att-RCNN(Attention-Based Combination of CNN and RNN)模型.Wang等人[7]更是通過兩個注意力層結(jié)合CNN來更好識別異構(gòu)的上下文中的模式從而提出Att-Pooling-CNN模型,最終使得實體關(guān)系分類效果達(dá)到新高.以上介紹的都是關(guān)于英文關(guān)系分類的研究,對于中文實體關(guān)系分類而言,Wu等人[16]將所提出的PCNN_ATT模型應(yīng)用于第8屆中文傾向性分析評測(COAE2016)任務(wù)3中并取得較好成績.Li等人[17]提出基于多特征自注意力的實體關(guān)系抽取方法,充分考慮詞匯、句法、語義和位置特征,其在COAE2016任務(wù)3的數(shù)據(jù)集上取得最佳效果.
BERT是最近提出的語言預(yù)訓(xùn)練模型,該模型使用雙向Transformer模型結(jié)構(gòu)[18]對大型的未標(biāo)記語料庫進(jìn)行預(yù)訓(xùn)練,然后通過對下游任務(wù)進(jìn)行微調(diào)的方式在一些NLP任務(wù)(例如分詞、命名實體識別、情感分析和問題解答)上展現(xiàn)模型優(yōu)異性能.但它仍然缺少特定領(lǐng)域相關(guān)知識,為了解決這樣的問題,Xu等人[19]通過構(gòu)造輔助語句從而提出基于BERT的文本分類模型BERT4TC,多個數(shù)據(jù)集上的實驗結(jié)果表明具有適當(dāng)輔助語句的BERT4TC明顯優(yōu)于典型的基于特征的方法和微調(diào)方法.Ma等人[20]直接將BERT所得到的句子向量表示用于中文實體關(guān)系分類并獲得較好的分類效果.
圖1是整體模型架構(gòu),模型主要由3個部分組成:(i)BERT層對句子進(jìn)行編碼得到句子表示H(ii)將組成實體的字向量取平均得到兩個實體向量表示He1,He2(iii)再通過注意力機(jī)制將所得到的句子向量H[CLS]與兩實體向量相結(jié)合,最終通過全連接層和softmax函數(shù)進(jìn)行分類.
圖1 ENT-BERT模型架構(gòu)Fig.1 Architecture of ENT-BERT model
在深度學(xué)習(xí)領(lǐng)域,RNN及其改進(jìn)模型LSTM、GRU(Gated Recurrent Unit)都適用于對序列進(jìn)行建模,但是它們的缺點就是無法并行處理,它們需要遞歸才能獲得全局信息因而計算速度較慢.CNN盡管計算速度快,但事實上它只能獲取局部信息.谷歌提出基于多頭自注意力機(jī)制的Transformer模型[18],并在機(jī)器翻譯任務(wù)領(lǐng)域取得較佳效果,而BERT模型實際上就是多層的雙向Transformer模型的編碼器部分.BERT[11]作為語言模型在處理模型輸入時還在詞向量的基礎(chǔ)上加入了段落向量和位置向量.同時,序列的首位置還加入了特殊標(biāo)記[CLS],H[CLS]是[CLS]經(jīng)過BERT后對應(yīng)的文本表示,而對于一個任務(wù)中擁有多個句子時,[SEP]則用于分隔句子.不同于以往的從左往右或者從右往左的預(yù)訓(xùn)練方式,又或者將兩者結(jié)合使用的方式,BERT采用的是遮蔽詞預(yù)測和下一句判斷方式來進(jìn)行訓(xùn)練,這樣獲得的向量表示擁有更全局的表達(dá).
如圖1所示,給定帶有兩個實體e1,e2的文本sk,輸入文本經(jīng)過BERT模型后的最終輸出為H.不同于一般的文本分類直接利用句子表征向量H[CLS]結(jié)合全連接、softmax函數(shù)得出分類概率,本文為了突出實體信息,通過注意力機(jī)制將句子向量表征與兩個實體向量進(jìn)行結(jié)合.首先將實體中的字向量取平均得到兩個實體向量He1和He2,其計算方式為公式(1)和公式(2),其中i,j對應(yīng)實體e1的首字下標(biāo)和尾字下標(biāo),m,n對應(yīng)實體e2的首字下標(biāo)和尾字下標(biāo).
(1)
(2)
(3)
(4)
α=softmax(wTM)
(5)
(6)
接下來對H"[CLS]用激活函數(shù)tanh使其非線性化,然后進(jìn)行全連接,其中,W,b是待學(xué)習(xí)的權(quán)重矩陣和偏置項.
(7)
最終采用softmax函數(shù)來得到關(guān)系類別輸出概率:
(8)
公式(8)中yl是目標(biāo)關(guān)系類別,θ表示所有需要學(xué)習(xí)的參數(shù).實體關(guān)系分類任務(wù)屬于多分類任務(wù),所以本文采用交叉熵?fù)p失函數(shù)作為目標(biāo)函數(shù),其公式中|D|的表示訓(xùn)練集樣本數(shù)量.同時為了避免過擬合問題,公式(9)中還加入L2正則項.
(9)
本研究進(jìn)行實驗的操作系統(tǒng)是Ubuntu16.04,其它設(shè)備信息是Intel(R) Core(TM) i7-8700K CPU @ 3.70GHz,64GB內(nèi)存以及兩塊NVIDIAGeForce 1080Ti顯卡,然后在深度學(xué)習(xí)框架Keras-GPU 2.2.4下使用Python3.6編程完成實驗.
本研究實驗部分采用的英文數(shù)據(jù)集來源于SemEval-2010任務(wù)8[21],該數(shù)據(jù)集已被廣泛用于關(guān)系分類任務(wù),通過與其他方法的比較可以驗證模型的分類效果.該數(shù)據(jù)集包含10717條文本,其中8000條作為訓(xùn)練集,2717條作為測試集,各種關(guān)系分布如圖2所示,其中“Other”類別表示實體對之間沒有關(guān)系.根據(jù)官方評價標(biāo)準(zhǔn),在SemEval-2010任務(wù)8數(shù)據(jù)集中總共需要考慮19種關(guān)系類型,因為關(guān)系類別Cause-Effect(e2,e1)和關(guān)系類別Cause-Effect(e1,e2)是不同的,下文實驗皆使用SemEval-2010-Task8來表示SemEval-2010任務(wù)8中的數(shù)據(jù)集.
圖2 SemEval-2010-Task8關(guān)系類別及其分布Fig.2 SemEval-2010-Task8 relation type and distribution
現(xiàn)有開放的關(guān)系抽取中文標(biāo)記語料庫相對稀缺,第8屆中文傾向性分析評測增加了知識抽取關(guān)系分類的任務(wù),本文中文實驗是在該任務(wù)提供的數(shù)據(jù)集上進(jìn)行的.數(shù)據(jù)集是由988條文本的訓(xùn)練集和483條文本的測試集組成.在這個任務(wù)中,有10種類型的關(guān)系,但是該任務(wù)當(dāng)時是參賽者提交測試集預(yù)測結(jié)果后由官方組織人員驗證結(jié)果的準(zhǔn)確性,所以該任務(wù)提供的測試集是沒有關(guān)系類別標(biāo)簽的.本文在采用人工標(biāo)注測試集語句關(guān)系的過程中,發(fā)現(xiàn)訓(xùn)練集和測試集中并未出現(xiàn)有語句對應(yīng)“組織機(jī)構(gòu)的成立時間(Cr35)”關(guān)系,所以實驗部分僅考慮剩余9種關(guān)系類別,下文實驗皆使用COAE-2016-Task3來表示COAE 2016任務(wù)3中的數(shù)據(jù)集.
針對每個關(guān)系類別,一般用精確率P(Precision)、召回率R(Recall)和F1(F1_score)值來衡量模型分類效果.實體關(guān)系分類屬于多分類任務(wù),從圖2關(guān)系類別分布情況看可知數(shù)據(jù)分布大致平衡,因此本文采用macro-F1來衡量模型性能.首先分別計算每個類別樣本的P、R和F1值,公式(10)-公式(12)中i表示第i類樣本,TP表示正確預(yù)測的正樣本數(shù),TN表示正確預(yù)測的負(fù)樣本數(shù),F(xiàn)P表示錯誤預(yù)測的正樣本數(shù),F(xiàn)N表示錯誤預(yù)測的負(fù)樣本數(shù):
(10)
(11)
(12)
宏觀精確率Pma就是所有類別精確率的均值,宏觀召回率Rma也是所有類別召回率的均值,宏觀F1值F1ma也是所有類別F1值的均值.
(13)
(14)
(15)
實驗中,因為官方所提供的數(shù)據(jù)集缺少驗證集,考慮到模型超參的選擇,本文使用十折交叉驗證法來驗證不同超參對模型性能的影響.在訓(xùn)練過程中,訓(xùn)練數(shù)據(jù)按照9:1的比例劃分為訓(xùn)練集和驗證集,并將10次驗證結(jié)果的均值作為當(dāng)前模型的評估.實驗結(jié)果表明當(dāng)模型取得最優(yōu)效果時,其主要相關(guān)參數(shù)設(shè)置如下.在數(shù)據(jù)預(yù)處理的過程中,中英文數(shù)據(jù)集的最大句子長度分別為220和100,在模型訓(xùn)練階段,中英文數(shù)據(jù)集的Batch_size都是16.為了防止過擬合,本實驗將L2正則項系數(shù)λ設(shè)為10-5,全連接層的dropout設(shè)為0.1,最終采用Adam算法來優(yōu)化更新迭代參數(shù).
實驗1.SemEval-2010-Task8上關(guān)系分類方法比較
本組實驗將ENT-BERT模型和其它方法在不同特征支持下的分類效果進(jìn)行對比,這些方法包括機(jī)器學(xué)習(xí)方法代表SVM,卷積神經(jīng)網(wǎng)絡(luò)相關(guān)方法CNN和CR-CNN,CNN或者RNN與注意力機(jī)制相結(jié)合的方法有Att-CNN、BGRU-Att、Att-BLSTM、Att-RCNN、Att-Pooling-CNN、BLSTM-Entity_Att.以上多種方法采用的特征集WE、POS、NER、PF、PI分別對應(yīng)著詞嵌入WE(Word Embedding)、詞性標(biāo)注POS(Part-of-speech)、命名實體識別NER(Name Entity Recognition)、PF(Position feature)、PI(Position indicators).
表1中可以看出除了第1種方法SVM外,其它都是基于神經(jīng)網(wǎng)絡(luò)的關(guān)系分類方法.SVM[3]利用人工構(gòu)造特征在所有的傳統(tǒng)方法中取得最好的結(jié)果,其F1ma值達(dá)到了82.2%.CNN[12]利用原始語句序列作為輸入,并利用位置特征來突出實體對的位置信息.顯而易見PF對于實體關(guān)系分類任務(wù)很重要,因為F1ma從69.7%增加到82.7%.CR-CNN[14]更多地考慮“Other”關(guān)系類別的影響,改進(jìn)損失函數(shù)后達(dá)到84.1%的F1ma值.注意力機(jī)制在圖像、文本和語音等不同領(lǐng)域取得的有效成果,使得Att-BLSTM[5]、Att-CNN[10]和BGRU-Att[6]在關(guān)系分類任務(wù)上取得更好效果.
表1 SemEval-2010-Task8上關(guān)系分類方法比較Table 1 Comparison of relation classification methods on SemEval-2010-Task 8
與本文模型最為相關(guān)的模型是BLSTM-Entity_Att[8],Att-RCNN[9]和Att-Pooling-CNN[7].BLSTM-Entity_Att論文中的注意力機(jī)制就是Transformer模型中所提出的多頭注意力機(jī)制,而本文模型中BERT就是多層雙向Transformer的編碼器部分,由實驗數(shù)據(jù)對比可知多層Transfomer的結(jié)合比單層多頭注意力機(jī)制效果好.對于Att-RCNN和Att-Pooling-CNN,這是目前基于CNN和RNN方法在關(guān)系分類任務(wù)上表現(xiàn)較佳的代表,而本文模型是基于BERT和Transformer模型,即完全基于注意力機(jī)制,并未使用CNN或RNN來提取特征,其實驗數(shù)據(jù)表明在SemEval-2010-Task8上取得88.9%的宏觀F1值.
實驗2.實體信息對實體關(guān)系分類的影響
文本經(jīng)預(yù)訓(xùn)練模型BERT后會得到句子向量和字向量,文本分類任務(wù)一般解決方法是將得到的句子向量表示與softmax函數(shù)結(jié)合,這樣便可取得優(yōu)異的分類效果.但實體關(guān)系分類與文本分類任務(wù)主要區(qū)別在于它更需要突出實體信息,本研究為了突出實體從而引入注意力機(jī)制將句子向量表示與兩個實體向量相結(jié)合,因而設(shè)計出圖1的實體關(guān)系分類模型架構(gòu).為了突出本文貢獻(xiàn),進(jìn)一步設(shè)計相關(guān)實驗2.
圖3 模型不同特征組合的影響Fig.3 Influence of different feature combinations of the model
圖3中Sen_PI_ENT就是本文所采用模型架構(gòu),其中Sen表示輸入的句子序列,PI是通過e1和e2來指明Sen中的兩個實體,ENT表示將句子向量與兩實體向量相結(jié)合,所以Sen_PI代表直接將帶有PI特征的句子序列經(jīng)過BERT模型后得到的句子向量用于分類的結(jié)果,Sen_ENT代表將不帶有PI特征的句子序列經(jīng)過BERT模型得到句子向量后再結(jié)合兩實體向量用于分類.Sen_PI與Sen的數(shù)據(jù)對比可以表明PI特征對與實體關(guān)系分類任務(wù)的重要性.與此同時,Sen_PI與Sen_ENT實驗效果相差無幾,即表明通過句子向量和兩實體向量的結(jié)合方式同樣使得分類效果提升顯著,這也說明本文引入注意力機(jī)制將句子向量與實體向量相結(jié)合的方式對于實體關(guān)系分類任務(wù)具有重要意義.因此,在結(jié)合PI特征和特征向量結(jié)合操作后,本文所設(shè)計的模型在SemEval-2010-Task8上取得較佳效果.
實驗3.句子向量與實體向量結(jié)合方式的比較
表2 句子向量與實體向量結(jié)合方式的比較Table 2 Comparison of the combination manner of sentence vector and entity vector
目前對于特征向量的哪種結(jié)合方式較好的相關(guān)研究較少,基本都是通過實驗結(jié)果來選擇結(jié)合方式.盡管采用相加的方式會使得所訓(xùn)練的參數(shù)相對少一點,但從表2中的數(shù)據(jù)可以看出直接將實體向量加入句子向量效果并沒有采用連接的方式好,而且也不如引入注意力機(jī)制的效果.
造成該現(xiàn)象的主要原因是經(jīng)過BERT模型所得到的句子向量其實已經(jīng)包含實體對的信息,當(dāng)特征向量采取直接相加的結(jié)合方式時,這會使得后續(xù)神經(jīng)網(wǎng)絡(luò)無法將句子向量信息與實體向量信息分隔開.當(dāng)特征向量采用連接的方式時,這會使得在訓(xùn)練過程中會有額外的參數(shù)對兩實體向量進(jìn)行擬合.當(dāng)引入注意力機(jī)制后會賦予實體向量和句子向量不同的權(quán)重,進(jìn)一步提升實體關(guān)系分類的效果.
實驗4.COAE-2016-Task3上關(guān)系分類方法比較
表3中ET(Entity Type)表示實體類型,EO(Entity Order)表示實體順序,*表示論文數(shù)據(jù)未列出.實驗數(shù)據(jù)表明使用多種特征的SVM算法[22]的Pma和Rma值差異較大,這是因為該方法在常見關(guān)系類別上的效果較佳,而在一些稀有關(guān)系類別上的表現(xiàn)較差.CNN模型中Pma和Rma較為平衡,但是因為COAE-2016-Task3中訓(xùn)練樣本較少導(dǎo)致效果不佳,當(dāng)訓(xùn)練樣本較大時CNN仍有很大提升空間.PCNN_ATT模型[16]不僅優(yōu)于基于SVM的方法,而且相比CNN模型它相對提升了11.6%的F1ma值,因為它引入了詞級別的注意力機(jī)制和采用了分段最大池化操作的策略,同時也證明了ET有助于區(qū)分某些關(guān)系類別.
表3 COAE-2016-Task3上關(guān)系分類方法比較Table 3 Comparison of relation classification methods on COAE-2016-Task3
相比PCNN_ATT和SelfAtt-BLSTM模型,ENT-BERT模型在中文實體關(guān)系分類任務(wù)COAE-2016-Task3上分類效果能有如此大的提升,其主要原因如下:1)其它方法使用的詞向量需要對文本序列進(jìn)行分詞,所以分詞過程所帶來的錯誤積累會影響實體關(guān)系分類準(zhǔn)確性;2)因為經(jīng)過BERT預(yù)訓(xùn)練的詞向量已經(jīng)是基于上下文特征的字向量,其句子向量含有豐富的文本信息,3)是本文的創(chuàng)新所在,即在句子向量與實體向量的結(jié)合過程中引入注意力機(jī)制使得中文實體關(guān)系分類效果進(jìn)一步提升.以上種種原因使得ENT-BERT模型在COAE-2016-Task3上取得最優(yōu)效果,而且F1ma比SelfAtt-BLSTM模型提高7.39%.
本文利用預(yù)訓(xùn)練語言模型BERT獲得輸入文本的句子向量和字向量,然后通過字向量取平均的操作得到實體向量,再引入注意力機(jī)制將句子向量和實體向量相結(jié)合再用于實體關(guān)系分類任務(wù),從而提出了ENT-BERT模型.該模型不需要任何背景知識和句法特征作輔助信息,僅通過原始文本作為輸入,更加有效地利用實體信息.在SemEval-2010-Task8和COAE-2016-Task3上的實驗效果表明所提出的模型對于實體關(guān)系分類任務(wù)具有更好的效果.
然而有監(jiān)督的實體關(guān)系分類任務(wù)需要大量人工來標(biāo)注數(shù)據(jù)集,進(jìn)而訓(xùn)練出相應(yīng)模型.然而工作量的大小限制了數(shù)據(jù)集的規(guī)模,同時當(dāng)模型面向不同領(lǐng)域時,往往需要重新進(jìn)行數(shù)據(jù)標(biāo)注,這無疑會大大增加模型移植的困難.最后,有關(guān)半監(jiān)督的實體關(guān)系分類任務(wù)的研究將會是接下來的工作.