武 惠,呂 立,于碧輝
1(中國科學(xué)院大學(xué),北京 100049)2(中國科學(xué)院 沈陽計(jì)算技術(shù)研究所,沈陽 110168)
命名實(shí)體識(shí)別[1]是自然語言處理領(lǐng)域所研究的基礎(chǔ)性核心課題之一,主要任務(wù)是從非結(jié)構(gòu)化文本中提取能體現(xiàn)現(xiàn)實(shí)世界中已存在的具體實(shí)體或者抽象實(shí)體的單詞或者詞組,例如人名,地名和組織機(jī)構(gòu)名等.
近幾年,隨著深度學(xué)習(xí)的深入研究,深度學(xué)習(xí)在自然語言處理的諸多應(yīng)用中都取得了一些進(jìn)展,例如問答系統(tǒng)、機(jī)器翻譯等.深度學(xué)習(xí)是一種從原始數(shù)據(jù)中自動(dòng)學(xué)習(xí)特征的方法,具有較強(qiáng)的泛化能力,在很大程度上減弱了對繁瑣的人工特征和專家知識(shí)的依賴.于是,采用深度學(xué)習(xí)方法進(jìn)行命名實(shí)體識(shí)別任務(wù)受到學(xué)者們的廣泛關(guān)注,其中,Zhiheng Huang等人[2]構(gòu)建了多種神經(jīng)網(wǎng)絡(luò)模型來解決自然語言處理領(lǐng)域中的序列標(biāo)注問題,實(shí)驗(yàn)證明BiLSTM-CRF模型在序列標(biāo)注上有很好的性能,在CoNLL2003數(shù)據(jù)集上進(jìn)行命名實(shí)體識(shí)別時(shí),F1值達(dá)到了90.10%.Jason P.C.Chiu和Eric Nichols[3]利用BiLSTM和CNN檢測字和字符級特征,完成了命名實(shí)體識(shí)別任務(wù),在CoNLL2003數(shù)據(jù)集上F1值達(dá)到了91.62%,在OntoNotes 5.0的數(shù)據(jù)集上F1值比最好的F1值提高了2.3%.Xuezhe Ma和Edurd Hovy[4]將BI-LSTM、CNN與CRF相結(jié)合通過構(gòu)建BI-LSTM-CNNs-CRF模型來實(shí)現(xiàn)命名實(shí)體識(shí)別任務(wù),在CoNLL2003的數(shù)據(jù)集上,F1值達(dá)到了91.21%.
命名實(shí)體識(shí)別是一種典型的序列標(biāo)注問題,采用深度學(xué)習(xí)方法進(jìn)行命名實(shí)體識(shí)別時(shí),一般需要大規(guī)模的標(biāo)注數(shù)據(jù).但由于人工標(biāo)注的代價(jià)高昂,在一些領(lǐng)域并沒有大規(guī)模的標(biāo)注數(shù)據(jù),所以,基于小規(guī)模標(biāo)注語料進(jìn)行命名實(shí)體識(shí)別成為現(xiàn)階段研究的重點(diǎn)問題之一.
針對中文命名實(shí)體識(shí)別任務(wù),本文提出了一種融合遷移學(xué)習(xí)的神經(jīng)網(wǎng)絡(luò)模型——TrBiLSTM-CRF模型.該模型首先利用基于實(shí)例的遷移學(xué)習(xí)算法對輔助數(shù)據(jù)集進(jìn)行知識(shí)遷移,協(xié)助解決目標(biāo)領(lǐng)域的學(xué)習(xí)問題,然后利用1998年1月份《人民日報(bào)》熟語料對基于上下文詞語的詞向量進(jìn)行訓(xùn)練,得到詞向量表,最后將輸入語句所對應(yīng)的詞向量序列輸入雙向LSTM-CRF模型進(jìn)行關(guān)于中文機(jī)構(gòu)名的命名實(shí)體識(shí)別任務(wù).實(shí)驗(yàn)結(jié)果表明,本文所提出的TrBiLSTM-CRF模型在中文機(jī)構(gòu)名命名實(shí)體識(shí)別任務(wù)中取得了較好的實(shí)驗(yàn)性能.
遷移學(xué)習(xí)[5]是一種新的機(jī)器學(xué)習(xí)方法,通過運(yùn)用已有的知識(shí)對不同但相關(guān)領(lǐng)域問題進(jìn)行求解,主要研究如何把源域的知識(shí)遷移到目標(biāo)域上,其中,已有的知識(shí)記為源域(source domain),要學(xué)習(xí)的新知識(shí)記為目標(biāo)域(target domain).自從被提出之后,遷移學(xué)習(xí)在計(jì)算機(jī)視覺[6],自然語言處理[7],文本分類[8]等領(lǐng)域有著廣泛的應(yīng)用.
2010年,Pan S J和Yang Q[9]按學(xué)習(xí)方法對遷移學(xué)習(xí)進(jìn)行分類,將其分成基于實(shí)例的遷移學(xué)習(xí)方法(Instance based Transfer Learning)、基于特征的遷移學(xué)習(xí)方法(Feature based Transfer Learning)、基于模型的遷移學(xué)習(xí)方法(Model based Transfer Learning)和基于關(guān)系的遷移學(xué)習(xí)方法(Relation based Transfer Learning)四大類.
基于實(shí)例的遷移學(xué)習(xí)方法[10]是根據(jù)一定的權(quán)值生成規(guī)則,對源域樣本進(jìn)行重用,來進(jìn)行遷移學(xué)習(xí).該方法的主要研究內(nèi)容是權(quán)值生成和樣本選擇.這里的權(quán)值是指源域樣本和目標(biāo)域樣本的相似度,若源域樣本與目標(biāo)域樣本越相似,則源域樣本的權(quán)值越大.王紅斌等人[11]提出了一種基于實(shí)例的遷移學(xué)習(xí)算法——TLNER_AdaBoost,實(shí)驗(yàn)證明TLNER_AdaBoost算法不僅提高了中文命名實(shí)體識(shí)別任務(wù)的實(shí)驗(yàn)性能,而且大大減少了人工對語料的標(biāo)注工作.Yang Z等人[12]構(gòu)建了跨域、跨應(yīng)用和跨語言三種融合遷移學(xué)習(xí)于深度層級循環(huán)神經(jīng)網(wǎng)絡(luò)模型,通過實(shí)驗(yàn)驗(yàn)證在深度層級神經(jīng)網(wǎng)絡(luò)的基礎(chǔ)上使用遷移學(xué)習(xí)算法可以顯著提高序列標(biāo)注的性能.
本文提出了一種新異的TrBiLSTM-CRF模型進(jìn)行中文命名實(shí)體識(shí)別.該模型將遷移學(xué)習(xí)和深度學(xué)習(xí)算法相結(jié)合,在小規(guī)模標(biāo)注語料的情況下,遷移學(xué)習(xí)有效緩解了深度學(xué)習(xí)對少量數(shù)據(jù)學(xué)習(xí)能力不足的問題,深度學(xué)習(xí)則利用多層非線性神經(jīng)網(wǎng)絡(luò)自動(dòng)學(xué)習(xí)特征,減少了對人工特征和專家知識(shí)的依賴.
TrBiLSTM-CRF模型共包含四部分:基于實(shí)例的遷移學(xué)習(xí)的數(shù)據(jù)集構(gòu)建模塊,詞向量構(gòu)建模塊,BiLSTM模塊和CRF模塊,其整體框架如圖1所示.
首先,采用基于實(shí)例的遷移學(xué)習(xí)算法,通過權(quán)值生成和樣本選擇,將源域樣本遷移到目標(biāo)域,構(gòu)成新的訓(xùn)練數(shù)據(jù)集;然后通過詞向量模型進(jìn)行訓(xùn)練,得到詞向量表;同時(shí),通過查表將訓(xùn)練數(shù)據(jù)集中每個(gè)句子所對應(yīng)的詞向量序列輸入BiLSTM模塊進(jìn)行特征提取;最后通過CRF模塊將BiLSTM輸出的特征向量解碼為一個(gè)最優(yōu)的標(biāo)記序列.
假設(shè)目標(biāo)域?yàn)镈t,源域?yàn)椴煌嚓P(guān)領(lǐng)域的數(shù)據(jù)集Ds,通過計(jì)算源域樣本和目標(biāo)域樣本的相似度,調(diào)整源域樣本的權(quán)值,實(shí)現(xiàn)源域樣本的更新,生成新的數(shù)據(jù)集Ds′,將新的數(shù)據(jù)集Ds′遷移到目標(biāo)域中,構(gòu)成新的訓(xùn)練數(shù)據(jù)集Dl=Dt∪Ds′,最終的目的是使訓(xùn)練數(shù)據(jù)集在規(guī)模和質(zhì)量上滿足模型訓(xùn)練的需求.這里的樣本是指命名實(shí)體,樣本相似度是指兩個(gè)命名實(shí)體在組成結(jié)構(gòu)上的相似度,主要用來評估源域樣本對目標(biāo)域樣本的貢獻(xiàn)程度.
圖1 TrBiLSTM-CRF模型Fig.1 A TrBiLSTM-CRF model
3.1.1 樣本相似度
基于命名實(shí)體由多個(gè)詞構(gòu)成的特點(diǎn),本文使用了三種計(jì)算樣本相似度的方法進(jìn)行實(shí)驗(yàn):編輯距離、實(shí)體相似性、詞性相似性.這三種樣本相似度的計(jì)算方法都是以詞為單位進(jìn)行計(jì)算的.其中,編輯距離和詞性相似性是從語法層面上計(jì)算樣本相似度,詞性相似性通過考慮詞性標(biāo)注對實(shí)體構(gòu)成的應(yīng)用,判斷指出實(shí)體中每個(gè)詞所扮演的語法角色.實(shí)體相似性是從語義層面上計(jì)算樣本相似度,較好地反映了實(shí)體之間的語義信息.下面分別給出了這三種樣本相似度的具體計(jì)算方法(本文所提到的實(shí)體均指命名實(shí)體).
假設(shè)實(shí)體A=(a1,a2,…,an)和B=(b1,b2,…,bm)分別由n和m個(gè)不同的詞構(gòu)成.
定義1.編輯距離是指對于兩個(gè)實(shí)體,由一個(gè)實(shí)體轉(zhuǎn)化成另一個(gè)實(shí)體所需要的最少操作次數(shù).具體操作方式有:插入一個(gè)詞、刪除一個(gè)詞、替換一個(gè)詞.顯然,edit(A,B)越小,實(shí)體A,B越相似.即:
edit(A,B)=minED(n,m)
(1)
ED(n,m)的計(jì)算公式為:
ED(n,m)=
(2)
其中,i=1,2,…,n,j=1,2,…,m.
定義2.實(shí)體相似性是指在序列相同的前提下,兩個(gè)不同實(shí)體中最大相同的詞的數(shù)量與最大實(shí)體數(shù)量的比值.其計(jì)算公式為:
(3)
其中,x表示在序列相同的前提下,實(shí)體A和實(shí)體B最大相同的詞的數(shù)量.
定義3.詞性相似性是指在序列相同的前提下,兩個(gè)不同實(shí)體中最大相同詞性的數(shù)量與最大實(shí)體數(shù)量的比值.其計(jì)算公式為:
(4)
其中,y表示在序列相同的前提下,實(shí)體A和實(shí)體B最大相同詞性的數(shù)量.
3.1.2 權(quán)值計(jì)算
依據(jù)三種樣本相似度的計(jì)算方法,計(jì)算源域Ds中每個(gè)樣本與目標(biāo)域Dt中樣本的相似度.其中源域Ds中某個(gè)樣本p與目標(biāo)域Dt中樣本的相似度分別為:
ed(p)=min{edit(p,t1),…,edit(p,tk)}
(5)
se(p)=max{Sentity(p,t1),…,Sentity(p,tk)}
(6)
sp(p)=max{Spos(p,t1),…,Spos(p,tk)}
(7)
其中,t1,…,tk為目標(biāo)域Dt中相同類型的樣本,k(k≥1)表示目標(biāo)域Dt中與源域Ds樣本p為同一類型的樣本個(gè)數(shù).
采用數(shù)據(jù)引力[13]得到源域Ds中所有樣本關(guān)于編輯距離、實(shí)體相似性、詞性相似性三種樣本相似度所對應(yīng)的權(quán)值.假設(shè)源域Ds和目標(biāo)域Dt的質(zhì)量分別為ms和mt(ms和mt可以近似表示為數(shù)據(jù)集中同一類型樣本的數(shù)量),則關(guān)于源域Ds中樣本p編輯距離、實(shí)體相似性、詞性相似性所對應(yīng)的權(quán)值為:
(8)
(9)
(10)
考慮以上三種樣本相似性,源域Ds中每個(gè)樣本所對應(yīng)的最終權(quán)值為:
Wp=αWp_dist+βWp_entity+γWp_pos
(11)
其中,α、β、γ分別為常數(shù),并且α+β+γ=1,Wp為歸一化因子.考慮實(shí)體的構(gòu)成與影響因素,借助模糊理論[14]確定α、β、γ的值.α、β、γ權(quán)值反映了不同因素相對于結(jié)果重要性程度的差異,權(quán)值系數(shù)的確定實(shí)際上就是確定對于結(jié)果的重要度.
通過采用模糊數(shù)學(xué)的理論和技術(shù)對受多種因素影響的對象進(jìn)行綜合評價(jià).首先通過實(shí)驗(yàn)確定影響因素Wp_dist、Wp_entity、Wp_pos對命名實(shí)體識(shí)別的影響程度,然后基于結(jié)果分析,確定各個(gè)影響因素之間的相關(guān)度,構(gòu)成模糊評判矩陣.最后,通過求解該句子的特征值,確定各個(gè)影響因素的權(quán)值.
根據(jù)權(quán)值大小,對源域樣本進(jìn)行重用.若源域Ds中某個(gè)樣本對應(yīng)的權(quán)值Wp>φ(其中φ為常數(shù)),則該樣本可以作為目標(biāo)域樣本進(jìn)行訓(xùn)練,通過保留原始數(shù)據(jù),將其遷移到目標(biāo)域中;否則,將該樣本丟棄,無法對其進(jìn)行遷移學(xué)習(xí).
為了減少對人工特征和專家知識(shí)的依賴,本文采用了基于上下文詞語的詞向量方法[15]對詞向量進(jìn)行預(yù)訓(xùn)練.
主要內(nèi)容是利用Word2vec在大規(guī)模的無標(biāo)注中文語料上進(jìn)行訓(xùn)練,得到詞向量表.其中,Word2vec是以神經(jīng)網(wǎng)絡(luò)形式表示的語言模型[16],包含Skip-gram和CBOW兩種語言模型.Skip-gram模型是由當(dāng)前詞語預(yù)測它周圍的上下文詞語,而CBOW是由一個(gè)詞語的上下文詞語作為輸入,來預(yù)測當(dāng)前這個(gè)詞語.本文采用CBOW模型在1998年1月份《人民日報(bào)》語料上訓(xùn)練基于上下文詞語的詞向量.
長短期記憶網(wǎng)絡(luò)(Long Short Term Memory network,LSTM)是2014年由Hochreiter和Schmidhuber[17]提出的一種特殊的循環(huán)神經(jīng)網(wǎng)絡(luò)(recurrent neural network,RNN),該模型能夠?qū)W習(xí)到長期依賴關(guān)系,解決了傳統(tǒng)RNN由于序列過長等問題而產(chǎn)生的梯度消失和梯度爆炸問題.
3.3.1 LSTM單元
LSTM單元由一個(gè)記憶單元和更新門(update gate)、輸出門(output gate)、遺忘門(forget gate)三個(gè)門構(gòu)成,其中,記憶單元的作用是對信息進(jìn)行管理和保存,三個(gè)門的作用是控制記憶單元中信息的更新、衰減、輸入、輸出等動(dòng)作.它的主要思想是通過學(xué)習(xí)LSTM單元中三個(gè)門的參數(shù)來管理記憶單元中的信息,從而使有用的信息經(jīng)過較長的序列也能保存在記憶單元中.其單元結(jié)構(gòu)如圖2所示.
圖2 LSTM單元Fig.2 A LSTM unit
LSTM單元在t時(shí)刻的輸入由輸入層xt、序列中前一個(gè)單元的隱含層ht-1和記憶單元ct-1三部分構(gòu)成,在t時(shí)刻的輸出為該單元的隱含層ht和記憶單元ct.首先通過計(jì)算三個(gè)門的信息輸出,來控制記憶單元的信息,然后計(jì)算記憶單元內(nèi)的信息,最后使用記憶單元值和輸出門計(jì)算該時(shí)刻隱含層的值.具體計(jì)算方式如公式(12)所示.
it=σ(Wu[ht-1,xt]+bu)
ft=σ(Wf[ht-1,xt]+bf)
ot=σ(Wo[ht-1,xt]+bo)
ht=ot*tanh(ct)
(12)
其中σ表示sigmoid激活函數(shù),tanh表示雙曲正切激活函數(shù),所有的W和b均為參數(shù).
3.3.2 BiLSTM
對于命名實(shí)體識(shí)別來說,由于待識(shí)別的實(shí)體在句子的分布不同,其上下文信息的重要程度也不同.為了更好地利用上下文信息,我們采用雙向LSTM(Bidirectional LSTM,BiLSTM)結(jié)構(gòu)進(jìn)行模型訓(xùn)練,其結(jié)構(gòu)圖如圖3所示.
圖3 BiLSTM結(jié)構(gòu)Fig.3 Bidirectional LSTM network
BiLSTM是對LSTM的優(yōu)化改進(jìn),在自然語言處理領(lǐng)域的序列標(biāo)注任務(wù)上有著出色的表現(xiàn)[2-4].從圖3中可以看出,BiLSTM分別用正向和反向的LSTM單位來計(jì)算過去和將來所含的隱藏信息,共同構(gòu)成最終的輸出.
條件隨機(jī)場(conditional random field,CRF)是一種概率無向圖模型[4],該模型是計(jì)算某個(gè)序列中的最優(yōu)聯(lián)合概率,其優(yōu)化的是整個(gè)序列,而不是將每個(gè)時(shí)刻的最優(yōu)解拼接起來,在這一點(diǎn)上CRF要優(yōu)于LSTM.故本文采用CRF對BiLSTM的輸出進(jìn)行解碼,得到全局最優(yōu)的標(biāo)注序列.
若z={z1,z2,…,zn}表示一個(gè)句子的輸入序列,zi為該句子中第i個(gè)詞的詞向量,y={y1,y2,…,yn}表示句子z的標(biāo)簽序列,Y(z)表示句子z的可能標(biāo)簽序列的集合.其CRF概率模型的具體形式為:
(13)
在訓(xùn)練過程中,采用極大似然估計(jì)原理對其進(jìn)行優(yōu)化,其對數(shù)似然函數(shù)為如下形式:
L(W,b)=∑ilogp(y|z;W,b)
(14)
由極大似然估計(jì)原理,最大化對數(shù)似然函數(shù)就是最大化CRF條件概率模型,即優(yōu)化目標(biāo)函數(shù):
(15)
本文使用1998年1月份《人民日報(bào)》數(shù)據(jù)集進(jìn)行中文機(jī)構(gòu)名命名實(shí)體識(shí)別,該數(shù)據(jù)集是由北京大學(xué)計(jì)算語言學(xué)研究所和富士通研究開發(fā)中心有限公司共同制作的標(biāo)注語料庫.實(shí)驗(yàn)過程中,隨機(jī)將其分為目標(biāo)數(shù)據(jù)集、輔助數(shù)據(jù)集、測試數(shù)據(jù)集三部分,其中測試數(shù)據(jù)集占總數(shù)據(jù)集的10%,Dt是含有機(jī)構(gòu)名命名實(shí)體標(biāo)簽和其他詞性標(biāo)簽的目標(biāo)數(shù)據(jù)集,Ds是把所有實(shí)體標(biāo)簽改為NN類型的輔助數(shù)據(jù)集.數(shù)據(jù)集分布情況如表1所示.
表1 數(shù)據(jù)集
Table 1 DataSet
名稱數(shù)量標(biāo)注信息目標(biāo)數(shù)據(jù)集11223句含有機(jī)構(gòu)名命名實(shí)體標(biāo)簽和其他詞性標(biāo)簽輔助數(shù)據(jù)集22475句所有實(shí)體標(biāo)簽改為NN類型測試數(shù)據(jù)集3718句含有機(jī)構(gòu)名命名實(shí)體標(biāo)簽和其他詞性標(biāo)簽
TrBiLSTM-CRF模型的訓(xùn)練集由目標(biāo)數(shù)據(jù)集和基于遷移學(xué)習(xí)更新之后的輔助數(shù)據(jù)集所組成的大規(guī)模數(shù)據(jù)集;其他對比實(shí)驗(yàn),比如:CRF、BiLSTM、BiLSTM-CRF,所使用的訓(xùn)練集為目標(biāo)數(shù)據(jù)集.以上四種算法所使用的測試集數(shù)據(jù)來源于測試數(shù)據(jù)集.
基于上下文詞語的詞向量方法是利用CBOW模型對1998年1月份《人民日報(bào)》數(shù)據(jù)集中的每個(gè)詞進(jìn)行訓(xùn)練,得到相應(yīng)的詞向量表.CBOW模型的參數(shù)設(shè)置為:隱藏層的神經(jīng)元數(shù)量為100,即詞向量的維度為100;上下文的窗口大小為3;采用分層softmax的方法提高訓(xùn)練效率.
BiLSTM的參數(shù)設(shè)置為:詞向量維度為100,BiLSTM隱藏層為1層,前向和反向LSTM的神經(jīng)元數(shù)量為128,學(xué)習(xí)率為0.001,批尺寸batch_size為128,迭代次數(shù)epoch為40.
本文使用BIESO對詞進(jìn)行實(shí)體標(biāo)簽標(biāo)記,采用準(zhǔn)確率P、召回率R和F值作為命名實(shí)體識(shí)別實(shí)驗(yàn)的性能評價(jià)指標(biāo),具體公式如下:
(16)
(17)
(18)
其中,ρ的值設(shè)置為1,表示準(zhǔn)確率和召回率同等重要.最終采用以上三種性能評價(jià)指標(biāo)的加權(quán)平均值作為實(shí)驗(yàn)的性能評測指標(biāo).
為了驗(yàn)證TrBiLSTM-CRF模型進(jìn)行中文命名實(shí)體識(shí)別任務(wù)的實(shí)驗(yàn)性能,本文主要進(jìn)行以下兩組實(shí)驗(yàn),分別為:
1)遷移學(xué)習(xí)的性能試驗(yàn);
2)不同命名實(shí)體識(shí)別方法的對比實(shí)驗(yàn).
4.3.1 遷移學(xué)習(xí)的性能試驗(yàn)
1)權(quán)值參數(shù)討論
本文分別從編輯距離、實(shí)體相似性、詞性相似性所確定的權(quán)值來確定三種權(quán)值對樣本相似度的影響,然后基于模糊理論來計(jì)算源域數(shù)據(jù)集的權(quán)值,實(shí)現(xiàn)基于實(shí)例的遷移學(xué)習(xí)算法.
由表2可以得到以下結(jié)論:
在語法層面上,分別將編輯距離所計(jì)算的權(quán)值Wed和詞性相似性所計(jì)算的權(quán)值Wpos應(yīng)用在TrBiLSTM-CRF模型進(jìn)行中文機(jī)構(gòu)名命名實(shí)體識(shí)別時(shí),其準(zhǔn)確率分別為88.14%和88.21%,比同條件下BiLSTM-CRF模型的準(zhǔn)確率分別高出了12.90%和12.97%,但召回率明顯低于BiLSTM-CRF模型的召回率.故由編輯距離和詞性相似性所確定的權(quán)值主要用于提高模型的準(zhǔn)確率.
表2 不同權(quán)值的實(shí)驗(yàn)結(jié)果
Table 2 Experimental results with different weights
方法權(quán)值準(zhǔn)確率召回率F值BiLSTM-CRF0.75240.69120.7205TrBiLSTM-CRFWed0.88140.53130.6629Wentity0.84130.83710.8392Wpos0.88210.58690.7048Wfuzzy0.91570.72290.8080
在語義層面上,根據(jù)實(shí)體相似性所確定的權(quán)值Wentity進(jìn)行TrBiLSTM-CRF模型訓(xùn)練時(shí),得到的實(shí)驗(yàn)結(jié)果比BiLSTM-CRF模型的實(shí)驗(yàn)結(jié)果在準(zhǔn)確率P、召回率R和F值上分別提升了8.89%、14.59%、11.87%,有效提高了召回率.
本文根據(jù)編輯距離、實(shí)體相似性、詞性相似性對命名實(shí)體識(shí)別的影響,采用模糊理論,由權(quán)值Wed、Wentity和Wpos確定新的權(quán)值Wfuzzy,使得TrBiLSTM-CRF模型的準(zhǔn)確率、召回率和F值分別為91.57%、72.29%、80.80%,顯著高于BiLSTM-CRF模型的實(shí)驗(yàn)結(jié)果,因此,由語法和語義特征共同確定的權(quán)值Wfuzzy應(yīng)用到TrBiLSTM-CRF模型的實(shí)驗(yàn)性能最好,在準(zhǔn)確率、召回率和F值上都有顯著提高.
2)目標(biāo)數(shù)據(jù)集所占比重討論
在目標(biāo)數(shù)據(jù)集大小不同的情況下,分別對TrBiLSTM-CRF和BiLSTM-CRF進(jìn)行了實(shí)驗(yàn),實(shí)驗(yàn)結(jié)果如圖4所示.
圖4 不同目標(biāo)數(shù)據(jù)集的實(shí)驗(yàn)結(jié)果Fig.4 Experimental results for different target datasets
在訓(xùn)練集不變的情況下,隨著目標(biāo)數(shù)據(jù)集所占比重的增大,BiLSTM-CRF模型的F值逐漸上升,但F值的增長越來越緩慢.而在TrBiLSTM-CRF模型中,當(dāng)目標(biāo)數(shù)據(jù)集所占比重增大時(shí),輔助數(shù)據(jù)集所占比重減小,F值先增大后減小.
在輔助數(shù)據(jù)集大于目標(biāo)數(shù)據(jù)集的情況下,TrBiLSTM-CRF模型的性能都顯著優(yōu)于BiLSTM-CRF模型的性能.其中,當(dāng)輔助數(shù)據(jù)集與目標(biāo)數(shù)據(jù)集的比例約為3∶1時(shí),TrBiLSTM-CRF模型的F值最大,性能最好.
4.3.2 中文命名實(shí)體識(shí)別方法的對比實(shí)驗(yàn)
為了更有效的驗(yàn)證TrBiLSTM-CRF算法的性能,本文分別采用以下五種方法進(jìn)行實(shí)驗(yàn)設(shè)置.
1)條件隨機(jī)場CRF
2)TLNER_AdaBoost[11]
TLNER_AdaBoost是文獻(xiàn)[11]提出的一種基于實(shí)例的擴(kuò)展遷移算法,通過該算法擴(kuò)充訓(xùn)練數(shù)據(jù)集,構(gòu)建一個(gè)性能更好地分類器模型,在命名實(shí)體識(shí)別中得到了較好的應(yīng)用.
3)BiLSTM
采用雙向LSTM在數(shù)據(jù)集上進(jìn)行中文機(jī)構(gòu)名命名實(shí)體識(shí)別實(shí)驗(yàn).
4)BiLSTM-CRF
采用BiLSTM-CRF在數(shù)據(jù)集上進(jìn)行中文機(jī)構(gòu)名命名實(shí)體識(shí)別實(shí)驗(yàn).
5)TrBiLSTM-CRF
采用TrBiLSTM-CRF在數(shù)據(jù)集上進(jìn)行中文機(jī)構(gòu)名命名實(shí)體識(shí)別實(shí)驗(yàn).
上述方法的數(shù)據(jù)集和參數(shù)均在4.1和4.2節(jié)進(jìn)行了介紹,CRF、TLNER_AdaBoost、BiLSTM、BiLSTM-CRF和TrBiLSTM-CRF五種方法的實(shí)驗(yàn)結(jié)果如表3所示.
表3 不同方法的實(shí)驗(yàn)結(jié)果
Table 3 Experimental results of different methods
方法準(zhǔn)確率P召回率RF值CRF0.88960.67230.7658TLNER_AdaBoost[11]0.88120.53560.6662BiLSTM0.74030.66530.7008BiLSTM-CRF0.75240.69120.7205TrBiLSTM-CRF0.91570.72290.8080
由表3可知:
與CRF方法相比,TrBiLSTM-CRF算法在準(zhǔn)確率、召回率和F值均高于CRF的結(jié)果,其準(zhǔn)確率、召回率和F值分別達(dá)到91.57%、72.29%、80.80%,并且有效地解決了對復(fù)雜的人工特征和領(lǐng)域知識(shí)的需求問題.
與現(xiàn)有的TLNER_AdaBoost[11]方法相比,本文所提出的的TrBiLSTM-CRF模型優(yōu)于TLNER_AdaBoost模型的實(shí)驗(yàn)結(jié)果,在準(zhǔn)確率、召回率、F值分別提升了3.45%、18.73%、14.18%.表明遷移學(xué)習(xí)與深度學(xué)習(xí)的結(jié)合比單獨(dú)使用TLNER_AdaBoost遷移學(xué)習(xí)模型進(jìn)行命名實(shí)體識(shí)別的性能更好.
與BiLSTM、BiLSTM-CRF方法相比,TrBiLSTM-CRF算法的準(zhǔn)確率遠(yuǎn)遠(yuǎn)高于BiLSTM和BiLSTM-CRF方法的準(zhǔn)確率,主要原因是使用了遷移學(xué)習(xí)算法,將輔助數(shù)據(jù)集和目標(biāo)數(shù)據(jù)集通過實(shí)例遷移學(xué)習(xí)組成新的訓(xùn)練數(shù)據(jù)集,解決了標(biāo)注數(shù)據(jù)集少的問題.
綜上所述,本文所提出的TrBiLSTM-CRF模型,由于采用了基于實(shí)例的遷移學(xué)習(xí)算法,更好地學(xué)習(xí)到更多對目標(biāo)數(shù)據(jù)集有貢獻(xiàn)的知識(shí),從而提升了模型在命名實(shí)體識(shí)別任務(wù)中的性能.
本文以中文機(jī)構(gòu)名為研究對象,提出了基于遷移學(xué)習(xí)和深度學(xué)習(xí)的TrBiLSTM-CRF模型,對命名實(shí)體識(shí)別進(jìn)行了研究.通過基于實(shí)例的遷移學(xué)習(xí)算法對知識(shí)進(jìn)行遷移,一定程度上擴(kuò)充了具有正遷移特性的訓(xùn)練樣本,同時(shí),降低了具有負(fù)遷移特性或零遷移特性的樣本對訓(xùn)練模型的影響,從而緩解了對少量標(biāo)注數(shù)據(jù)學(xué)習(xí)能力不足的問題.另一方面,采用深度學(xué)習(xí)算法從原始數(shù)據(jù)中自動(dòng)學(xué)習(xí)特征,有效地解決了對復(fù)雜的人工特征和領(lǐng)域知識(shí)的需求問題.通過實(shí)驗(yàn)證明,本文所提出的TrBiLSTM-CRF模型在中文機(jī)構(gòu)名命名實(shí)體識(shí)別任務(wù)中獲得了較好的實(shí)驗(yàn)性能,具有一定的有效性.
在未來的研究工作中,將在命名實(shí)體識(shí)別領(lǐng)域圍繞基于遷移學(xué)習(xí)和深度學(xué)習(xí)的相關(guān)算法進(jìn)行進(jìn)一步研究.例如,在采用詞向量特征的基礎(chǔ)上,考慮融入字、詞性等特征進(jìn)一步研究完善深度學(xué)習(xí)模型.另外,將嘗試把本文所提的TrBiLSTM-CRF模型應(yīng)用于專業(yè)領(lǐng)域或者垂直領(lǐng)域.