黃梅根,劉佳樂,劉 川
重慶郵電大學 計算機科學與技術學院,重慶400065
知識圖譜[1]是近些年非常熱門的一個研究方向,它在很多方面都取得了非常不錯的應用效果,例如問答系統(tǒng)[2]、推薦系統(tǒng)[3]、Google的搜索等。隨著近幾年計算機網(wǎng)絡的飛速發(fā)展,產生了海量的數(shù)據(jù),知識圖譜可以結構化地存儲這些數(shù)據(jù),查詢的時候也可以更全面地了解相關知識,提升搜索的深度與廣度。知識圖譜通常是由許多相關知識、類似結構的三元組構成的關系圖,三元組一般是由<實體-關系-實體>這種兩個節(jié)點包含一個關系的結構?,F(xiàn)在關于知識圖譜構建較為普遍的方法是通過機器學習或深度學習的方法對文本進行處理,通過處理后得到實體與關系的三元組,在這個過程中會有許多問題,本文主要解決如下兩個問題:
一是三元組抽取的多關系問題,且句子關系較多時往往會有其他抽取難題。如:“臺灣省,是中華人民共和國省級行政區(qū),省會臺北,地處中國大陸東南海域,由中國第一大島臺灣島和周圍屬島以及澎湖列島等島嶼組成,總面積約3.6萬平方公里?!逼渲锌梢猿槿〕?中華人民共和國-省級行政區(qū)-臺灣>,<臺灣-省會-臺北>,<臺灣-位于-大陸東南海域>,<臺灣-面積-3.6萬平方公里>等多個三元組。這些三元組中都含有“臺灣”的實體,會有實體重疊問題;<臺灣-面積-3.6萬平方公里>中兩個實體相距較遠,不易抽??;<中華人民共和國-省級行政區(qū)-臺灣>實體間含有從屬關系,不能抽取為<臺灣-省級行政區(qū)-中華人民共和國>;若關系詞集合中含有“位于”卻沒有“地處”那么可能不能抽取出<臺灣-位于-大陸東南海域>,或者抽取為<臺灣-地處-大陸東南海域>從而增加三元組的繁雜。面對這些問題使用傳統(tǒng)方法抽取比較復雜,而使用BCMRE可以根據(jù)多標簽分類快速找到句子中所有的關系這就解決了多關系問題;分類同時解決了未標注關系詞或者同義關系詞的問題,如上文的“位于”“地處”都會被歸于一類;根據(jù)關系找出對應實體這就解決了實體重疊、實體相距較遠問題;訓練數(shù)據(jù)中的三元組含有從屬關系,通過模型訓練就能在實體選取中完成從屬的識別。
二是知識圖譜的研究是在國外興起的,所以針對知識圖譜問題大多使用英文數(shù)據(jù)源進行研究,但中文有不同于英文的特點,以中文構建知識圖譜的過程中在進行關系抽取時中會遇到不同于英文的問題,模型可能需要針對中文環(huán)境進行優(yōu)化適配。
基于以上闡述,模型使用中文數(shù)據(jù)源,對構建知識圖譜中的多關系抽取進行研究,并且通過模型解決多關系抽取中遇到的其他問題。
構建知識圖譜通常采用自然語言處理的方法提取三元組,這個過程的關鍵是對句子進行命名實體識別(Named Entity Recognition,NER)[4]與關系抽?。≧elation Extraction)[5-6]。實體關系抽取是構建三元組的重要步驟,主要分為有監(jiān)督學習方法、半監(jiān)督學習方法和無監(jiān)督學習方法,近年來也將深度學習運用到關系抽取任務上取得了不錯的成果[6]。有監(jiān)督學習方法早期通過基于規(guī)則的方法與基于特征的向量等方法進行抽取[6]。Kambhatla等[7]就使用這種方法構造向量作為輸入,建設模型。Oudah等[8]通過一定規(guī)則處理抽取任務。半監(jiān)督實體關系抽取只需要少量的標注就可以對大量無標注樣本進行迭代訓練建立模型[6]。半監(jiān)督方法在抽取任務中應用最廣泛的就是Bootstrapping算法[9]。Glass等[10]使用這種方法進行實體關系抽取。無監(jiān)督的學習方法不依賴標注數(shù)據(jù),基于聚類的思想進行抽取[6]。Hasegawa等[11]首先提出了這種思想,其他人又有一些不同程度的優(yōu)化提高。隨著深度學習在許多NLP領域的成功,文本的信息提取也開始使用深度學習,主要分為流水線方法和聯(lián)合抽取方法。Attardi[12]使用流水線方法,這種模型通常用詞嵌入表示句子,然后標記出的實體,再進行關系分類,實現(xiàn)了任務流程封裝。Wang等[13]使用聯(lián)合抽取實體與關系思想,這種方法直接從句子中抽取實體與關系,聯(lián)合抽取模型雖然將抽取實體與關系作為一個任務具有不錯的效果,但是建模較為復雜,沒有流水線方法靈活。深度學習框架模型主要是基于卷積神經(jīng)網(wǎng)絡(CNN)、遞歸神經(jīng)網(wǎng)絡(RNN)、長短時記憶網(wǎng)絡(LSTM)等。Zeng等[14]基于CNN提出了一種分段卷積神經(jīng)網(wǎng)絡(Piecewise Convolutional Neural Network,PCNN)。為了更好地處理上下文問題,提出了雙向RNN考慮當前狀態(tài)與之前與之后狀態(tài)的關系,RNN雖然能夠處理文本之間的依賴,但當句子很長時或者兩個實體之間相隔比較遠,RNN會產生梯度消失或者爆炸的問題。Hochreiter等[15]使用LSTM解決這個問題,以及衍生的雙向長短時記憶網(wǎng)絡(Bi-directional Long Short-Term Memory,BiLSTM)都是根據(jù)門的概念去解決這個問題。Vaswani等[16]使用注意力機制attention能更好地捕捉上下文關系。Johnson等[17]將字符嵌入、詞語嵌入、詞性嵌入以充分獲取句子的信息并采用注意力機制捕獲當前位置與任意位置之間的內在關系。Devlin等[18]結合之前的算法經(jīng)驗提出了BERT(Bidirectional Encoder Representations from Transformers)預訓練模型,得益于BERT較高的靈活性,使其在以中文為數(shù)據(jù)源的場景以及多個NLP領域取得了較好的效果。Jiang等[19]將BERT與LSTM-CRF結合取得了優(yōu)于其他模型的效果。Lan等[20]通過優(yōu)化BERT提出了ALBERT,證明BERT具有較好的拓展性。傳統(tǒng)的方法大多是在一條語句中抽取一個三元組普通類型,提取多個三元組時效果較差,因為研究對象是多關系抽取,本文利用BERT模型的靈活性進行優(yōu)化,使用流水線方法抽取三元組,提出一種基于BERT的多關系抽取模型BCMRE處理中文多關系抽取任務。
本文提出了一種針對多關系抽取的模型BCMRE,它由兩個任務模型串聯(lián)構成:關系分類任務與元素抽取任務。針對不同任務兩個任務模型設計加入不同的前置模型優(yōu)化BERT模型處理任務,關系分類任務負責計算可能包含的關系,對每一種關系進行標記并復制出一個實例,元素抽取任務再針對每一個實例生成三元組,最后組合得到所有的三元組。BCMRE模型的構成如圖1。
圖1 BCMRE模型Fig.1 BCMRE model
BCMRE模型首先將數(shù)據(jù)源中的json數(shù)據(jù)通過代碼抽取出文本text、關系組合relation和用BIO編碼的分詞標注序列l(wèi)abels,其中relation與labels如果用于訓練就從數(shù)據(jù)源讀入,如果用于測試和驗證就使用默認字符初始化;然后這些關系序列經(jīng)過詞向量處理模型生成各種向量,同時在這一步把訓練數(shù)據(jù)中的分詞標注序列l(wèi)abels輸入模型,可以更充分獲取句子信息,有利于元素抽取任務的分詞訓練;向量生成以后為了針對不同任務進行優(yōu)化、提取出更多特征,在BERT計算之前加入前置模型,并針對關系分類任務與元素抽取任務的區(qū)別設計了不同的前置模型;如圖2、圖3前置模型處理生成可以由BERT計算的token,再由BERT進行編碼解碼計算,BERT計算中針對兩個任務設計有不同的詞向量輸入、不同的損失函數(shù)進行優(yōu)化;最后通過BERT計算之后分別得到分類集合k與三元組集合Q。
關系分類任務如圖2,元素抽取任務如圖3。
圖2 關系分類任務Fig.2 Relationship classification task
圖3 元素抽取任務Fig.3 Element extraction task
BCMRE模型首先要將數(shù)據(jù)源抽象為各種向量,然后才能交給后面的模塊處理。在BERT模型中對于中文文本是按字進行分割的,而原數(shù)據(jù)集中文本已經(jīng)進行了分詞,BERT的分詞方式會浪費掉原有的分詞信息,不利于提取實體關系,所以BCMRE模型將數(shù)據(jù)集中的分詞及詞性信息以BIO編碼的方式輸入到embedding生成labels向量。labels在元素抽取任務用于分詞及分詞標注序列的訓練,而關系分類過程中不需要此向量,如圖2,圖3。因為關系分類任務與元素抽取任務是串聯(lián)起來的任務,所以當關系分類任務得到分類結果后需要更新詞向量,如圖3中融合詞向量。
2.1.1 詞向量生成
因為數(shù)據(jù)集中句子長度等問題,在詞向量中生成向量長度不一致,不利于后續(xù)算法計算,模型規(guī)定了標準長度128位。如圖2通過詞向量模型形成句子向量input(I)、填充標識向量mask(M)、句子標識向量segment(S)、標簽向量relation(R)、分詞標注序列向量labels(L);然后將I、S、M、R輸入到關系分類任務對四個向量進行計算,得出句子可能包含的關系分類{k1,k2,…,km};如圖3,將得到的分類加上偏置值得到分類編碼{t1,t2,…,tm};詞向量處理模型通過復制并針對每個分類編碼進行融入構成一個新向量組I′、S′、
模型中的四個主要向量:I′、S′、M′、L′生成的偽代碼如下:
input:最大長度max,句子text,句子標簽F,關系初始化r,字典vocab,偏置b
output:句子向量I,句子標識向量S,填充標識向量M,分詞標注序列向量L
經(jīng)過上面的算法后得到句子向量I=(cls,w1,w2,…,wn,sep,t1,t2,…,tn,sep,0,0,…,0)128,從cls到sep是通過vocab字典形成的漢字編碼,接下來的ti是分類ki加偏置值b,這樣使每一個句子的每一種分類都能產生不同的向量,為了加強關系的權重會復制n個ti,后面0是填充位;M=(1,1,…,1,0,0,…,0 )128前面2?n個1代表原句子加n個ti,表示整合后的有效句子長度,最后填充0;S=( 0,0,…,0,1,1,…,1,0,0,…,0 )128前面n個0表示第一個句子后面n個1表示n個ti,最后填充0;L=(c,l1,l2,…,ln,s,r,r,…,r,0,0,…,0 )128其中的c與s是cls與sep的編碼,li是詞性信息,r是關系初始化占位,最后填充0。
2.1.2 詞向量嵌入層
詞向量生成之后算法再經(jīng)過嵌入層把幾個向量融合到一起進行降維操作加快后面的計算。因為實體關系三元組抽取的過程需要考慮前后關系,如王華是李紅的丈夫,<王華-丈夫-李紅>,BERT模型中的自注意力機制(self-attention)也需要考慮整個序列的關系,所以需要位置向量。圖4左側因為句子標識向量segment只有0與1兩種情況所以先進行onehot操作,然后再與詞向量input統(tǒng)一成相同維度相加得到output,右側通過隨機初始化產生位置嵌入向量(position),通過將左側output加上右側position形成融合位置向量的詞向量,最后將這個向量進行歸一化處理與dropout操作防止過擬合。詞向量經(jīng)過嵌入層之后就生成完畢了,接下來交給BCMRE模型的下一個模塊前置模型用于特征提取。
圖4 嵌入層Fig.4 Embedded layer
前置模型是在BERT計算之前,通過其他模型先對詞向量處理,提取出一些針對任務的特征、BERT不易提取的特征,再交給BERT用于優(yōu)化結果或者加快速度。BCMRE模型由關系分類任務與元素抽取任務串聯(lián)而成,這兩項任務都是基于BERT的分類任務,但關系分類任務的側重點在于對于句子進行多種關系分類,屬于一個多標簽分類任務,更依賴模型的分類效果;元素抽取任務需要先對于句子分詞及詞性預測,然后根據(jù)每一種關系抽取實體詞組合成一個完整的三元組,屬于一個多類分類的單標簽任務,會需要模型有優(yōu)秀的分詞效果。根據(jù)這兩項任務的不同,模型中不僅設計了不同的損失函數(shù),而且添加了不同的前置模型處理詞向量,處理后再交給BERT處理計算,以優(yōu)化模型的效果。模型中添加了兩種前置模型:為了更好的分類,模型基于AGCNN[21]實現(xiàn)了句子分類器;為了分詞標注序列預測,模型調用了BERT中的BiLSTM與CRF進行處理,前置模型具體處理方法如下。
2.2.1 前置模型AGCNN
為了更好的分類,BCMRE在關系分類任務生成詞向量之后使用AGCNN進行前置處理后再使用BERT計算。AGCNN模型是基于CNN提出的,所以對網(wǎng)絡位置信息不敏感,為了解決這個問題本層將詞向量input與位置向量position通過embedding融合后的帶位置向量的詞向量輸入網(wǎng)絡進行處理。通過拼接融合位置向量AGCNN的處理之后能夠將句子中的關系詞相關特征、權重更好的表達出來。AGCNN的構成方式為Attention(注意力機制)、Gated Linear Units(門控線性單元)、Convolutional Neural Network(卷積神經(jīng)網(wǎng)絡)。模型中用的注意力機制與卷積神經(jīng)網(wǎng)絡使用的較多,而且在BCMRE中的BERT處理也用到了這些機制,所以接下來著重介紹門控線性單元,它具有控制詞權重特征的作用。Gated Linear Units簡稱GLU,它可以調節(jié)上下文窗口,GLU通過控制目標詞或句段特征的影響查找真正對結果重要的特征,計算公式如下:
Y=Conv1D1(X)?sigmoid(Conv1D2(X))
上述公式中Y表示對于每個元素進行兩個權值不同的卷積,Conv1D1與Conv1D2是兩個形式一樣,但權值不同的卷積核。其中一個卷積結果通過sigmoid函數(shù)進行激活作為另一個卷積的gate,類似于LSTM的gata機制,用于控制哪些信息可以通過,哪些信息不可以通過,然后將這兩個計算結果進行點乘運算后得到結果。
GLU在這一步加入殘差網(wǎng)絡用來保證信息的多通道傳輸,于是可將公式更新如下:
Y=X+Conv1D1(X)?sigmoid(Conv1D2(X))
經(jīng)過如下進一步推導可以更清楚地看到信息傳遞過程:
公式(2)通過sigmoid函數(shù)進行激活輸出的值域為(0,1),δ即是該信息的通過的概率,通過公式(1)看出信息以1-δ的概率直接通過,以δ的概率經(jīng)過變換后通過。通過這樣的計算方式能更好地提取出文本中分類詞匯與周圍詞的關系,從而更好地表述向量特征,然后再進入BERT計算實現(xiàn)更好的分類。
2.2.2前置模型BiLSTM與CRF
為了進行分詞及對詞性信息分類,BCMR在元素抽取任務中調用BERT的函數(shù)加入前置模型BiLSTM與CRF,在詞向量生成之后通過BiLSTM與CRF基于神經(jīng)網(wǎng)絡與規(guī)則進行分詞特征提取,然后再用BERT進行詞性分類。這一步元素抽取任務通過輸入的input向量與mask向量計算出實際長度,過濾掉填充位,再輸入到BiLSTM與CRF層。其中BiLSTM是通過神經(jīng)網(wǎng)絡構建雙向LSTM捕捉到較長句子中字或詞的依賴關系,而CRF主要負責進行一定的規(guī)則上的處理,增加一些約束條件,過濾掉可能性小的分類。根據(jù)訓練集中的詞性類別,算法初始化生成對應的轉移矩陣,然后使用似然函數(shù)得到最可能的分詞標注序列。通過BiLSTM與CRF前置模型可以更好地提取分詞特征,從而優(yōu)化BERT的分詞性能,實現(xiàn)更好的關系元素提取效果。
2.3.1 編碼解碼層
BCMRE模型在前置模型處理詞向量提取相應特征后就可以交由BERT計算處理。在BERT中利用多頭(Multi-Head)與自注意力機制(self-attention)充分提取句子中得特征信息。多頭與自注意力機制的運算時通過三個向量Query(Q)、Key(K)、Value(V),這三個向量通過隨機初始化的矩陣W與嵌入層的向量進行矩陣相乘得到,然后隨著訓練過程的進行不斷進行更新優(yōu)化。在計算詞向量的時候使用的Q、K、V三個向量與隨機初始化的矩陣有關,而多頭機制可以初始化產生h個WQ、WK、WV。初始化矩陣的不同可以讓每個頭的運算得到的特征向量的表達也不同,結果進行整合處理得到最終的特征向量Z,這樣多次產生初始化矩陣W可以使模型更充分地學習到句子內部結構。
BCMRE模型通過多頭與自注意力機制提取特征信息,然后由前饋神經(jīng)網(wǎng)絡(Feed-Forward Neural Networks)進行并行加速計算得到特征向量Z。由于在計算的過程中可能會導致某些特征丟失,所以模型在multi-head與self-attention計算完后會加一個殘差連接并進行歸一化(Layer normalization)操作,這樣就形成了編碼層(encoder),這個過程需要迭代N次優(yōu)化效果,所以會有多個編碼層。解碼層(decoder)與編碼層結構是基本一致的,并且也需要N層解碼層對應。解碼層在多頭計算Q、K、V的時候解碼層需要能過濾掉模型中向量的填充位,公式如下:
s=softmax((w-1)?inf) (3)
公式(3)用于過濾填充位,如果之前填充0,通過減一乘無窮得到負無窮,softmax負無窮的結果趨于0,就不會影響整體結果。
2.3.2 損失函數(shù)
BCMRE中關系分類任務與元素抽取任務目的不同,關系分類任務需要對一個句子預測出多種或一種關系類別,只需要一個損失函數(shù)針對關系類別進行預測優(yōu)化;元素抽取任務針對每一種關系進行三元組抽取,既需要對整個句子進行分詞及詞性預測又需要針對當前關系預測對應實體,損失函數(shù)是同時對分詞及詞性預測與三元組預測兩項任務控制,所以有損失函數(shù)包含兩項。
關系分類任務中的關系預測是一個多標簽分類的任務,模型使用sigmoid作為損失函數(shù),損失函數(shù)L1的定義如下:
其中,y=inputs,pi=sigmoid(logitsi)=(1+exp(-logitsi))-1,是交叉熵。
元素抽取任務是多類分類的任務,模型使用softmax作為損失函數(shù),元素抽取任務得到預測關系的損失函數(shù)L2與預測序列的損失函數(shù)L3相加后得到最終損失函數(shù)L4進行訓練,損失函數(shù)L4定義如下:
其中,y=pre_labels,δ=0.5,pi=softmax(pre_logitsi),z=token_labels,qi=log(soft max(token_logitsi))。
數(shù)據(jù)集選自2019語言與智能技術競賽,其中包含20萬條來自百度百科的中文文本。數(shù)據(jù)集中一條數(shù)據(jù)包含自然語言句子,所有的三元組,分詞標注序列。這些三元組包含有
算法的實驗環(huán)境操作系統(tǒng)是Ubuntu20,使用的語言是Python3.7,BERT中文預訓練語言模型使用chinese_L-12_H-768_A-12,深度學習框架tensorflow1.15。句子最大長度設定為128,訓練時的batch_size為8,分類概率閾值為0.5,學習率(Learning rate)2E?5,多頭注意力有12層,多頭數(shù)量有12個,為了防止過擬合,算法中多處加入dropout,其中dropout rate為0.1,關系分類任務與元素抽取任務上面參數(shù)都相同,但是關系分類任務epochs設定是6,元素抽取任務因為更復雜需要訓練更
久,所以epochs設定是9。
本文使用準確率(Precision),召回率(Recall)和F1值評估模型的效果,準確率等于正確預測的數(shù)量/預測為正確的數(shù)量,召回率等于正確預測的數(shù)量/原本正確的數(shù)量,F(xiàn)1是一種較為均衡的評估方法,計算方式是2×Recall×Precision/(Recall+Precision)。模型經(jīng)過多次訓練后F1值逐步提升,關系分類任務訓練2萬次后提升不明顯,元素抽取任務訓練3萬次后提升不明顯,訓練次數(shù)對模型整體效果的影響實驗結果如圖5。
圖5 訓練次數(shù)對整體效果的影響Fig.5 Impact of training times on overall results
BCMRE是由關系分類與元素抽取兩項任務串聯(lián)組成,所以任何一個任務效果不好都會影響到最終結果。本文針對不同的任務進行分析加入了不同的前置模型,根據(jù)圖5的結果,不同前置模型的訓練次數(shù)也基本在2到3萬次。通過實驗對兩項任務交叉添加前置模型,然后經(jīng)過實驗記錄F1的值如表1。
表1 不同任務不同前置模型效果Table 1 Different pre-model effects for different tasks
表1 的目的是為了針對任務選擇合適的前置模型,不含有前置模型的BERT-base在表2的對比中有描述。這里是通過提取出實驗的中間數(shù)據(jù)作為參數(shù),然后對于兩個任務添加不同的前置模型進行效果對比。從表1中可以看出最好的前置模型與任務的組合是AGCNN/BiLSTM-CRF即在分類任務中添加AGCNN前置模型,元素抽取任務添加BiLSTM-CRF前置模型。這與本文之前的分析是對應的,因為模型在開始的時候添加的前置模型都是BiLSTM-CRF,通過后來的研究,針對關系分類任務設計添加了單獨的分類模型AGCNN。從表1中也能看出BiLSTM-CRF在關系分類中也有不錯的表現(xiàn),這可能是因為BiLSTM-CRF在分詞與實體抽取這類任務做的比較好,能通過詞之間的聯(lián)系實現(xiàn)較好的分類,但仍沒有分類模型AGCNN效果好,這也證明BCMRE添加的前置模型正確性。
BCMRE是針對中文文本的多關系抽取任務,比較難找到統(tǒng)一對比的數(shù)據(jù)集與經(jīng)典的算法。為了進一步驗證模型性能,在基于本文的數(shù)據(jù)集基礎上,模型將兩項任務分別與fine-tuning之后的BERT-base、神經(jīng)網(wǎng)絡模型Lattice-BiLSTM-CRF等進行對比,效果如表2。
從表2中可以看出Lattice-BiLSTM-CRF在兩項任務中都沒有取得較好的效果,說明單純的神經(jīng)網(wǎng)絡模型即使加入了BiLSTM-CRF讓模型學習語義結構仍不能勝任這種復雜的任務;BERT-base僅僅在做了fine-tuning的操作整體效果上不錯,在準確率方面關系分類中比Lattice-BiLSTM-CRF有7%的提升,而元素抽取只比Lattice-BiLSTM-CRF提升3%,可能是因為沒有BERT默認按字為單位處理,導致在語義表達上不能取得較好的效果,從而生成三元組的能力較差;基于BERT的模型中加入前置模型BiLSTM-CRF以處理語義表達關系,在元素抽取模型中有較為明顯的提升,證明了BiLSTMCRF能提升分詞效果,也證明了添加前置模型能解決BERT的不足;同時可以看到ALBERT相比傳統(tǒng)BERT在F1上低2%左右,可能因為較為精簡的ALBERT不適合處理這種復雜的情況;最后BCMRE關系分類任務中添加前置模型AGCNN使得關系分類的效果進一步提升,同時對應可以看到添加AGCNN后召回率提升4%~9%而準確率提升3%左右,說明了模型提取所有三元組的能力顯著提高,這是因為在關系分類中前置模型AGCNN能做得更好,同時在元素抽取任務中使用BiLSTM-CRF用來分析語義詞性,可以看到添加對應的前置模型后BCMRE在各方面性能都有了較大的提升。
表2 不同模型關系分類/元素抽取的效果Table 2 Effect of different model relationship classification/element extraction
為了研究中文知識圖譜的構建,本文提出了一種基于BERT的多關系抽取模型BCMRE,將多關系抽取分為關系分類與元素抽取兩項任務串聯(lián)處理。本文的創(chuàng)新點在于針對兩項任務不同的特點分別加入前置模型ADGCNN與BiLSTM-CRF用于提取針對任務的特征、BERT不易提取的特征,加入labels向量,優(yōu)化BERT處理過程,最后通過實驗證明了前置模型的正確性與有效性。
BCMRE由兩項任務模型串聯(lián)構成,體量較大,訓練起來比較耗時,將來會考慮優(yōu)化模型復雜度,減少訓練時間;而且本次的模型沒有去考慮在某些領域的專用詞語,關系類別較少,如果可以后面會考慮獲取一些特定領域的數(shù)據(jù)進行處理,優(yōu)化模型以產生實用價值。