呂書寧,劉 健,徐金安,陳鈺楓,張玉潔
(北京交通大學(xué) 計(jì)算機(jī)與信息技術(shù)學(xué)院,北京 100044)
命名實(shí)體識別(Named Entity Recognition, NER)要求從自由文本中識別出屬于特定類別的片段,最早由第六屆語義理解會議(Message Understanding Conference,MUC-6)提出,定義了地點(diǎn)、機(jī)構(gòu)、人物等實(shí)體類別。自MUC-6以來,人們對命名實(shí)體識別的興趣不斷增加,各種學(xué)術(shù)研究(如CoNLL03[1]、ACE[2]、IREX[3]、TREC EntityTrack[4]等)都致力于此。從隱馬爾可夫模型(HMM)[5]、支持向量機(jī)(SVMs)[6]和條件隨機(jī)場(CRFs)[7]到近些年流行的深度學(xué)習(xí)神經(jīng)網(wǎng)絡(luò)[8-10],都為命名實(shí)體識別任務(wù)在通用類領(lǐng)域的應(yīng)用,以及各種垂直特定領(lǐng)域的深入推廣打下了堅(jiān)實(shí)的基礎(chǔ)。
實(shí)體邊界識別的準(zhǔn)確度直接影響了命名實(shí)體識別的最終效果[11]。相較于英文命名實(shí)體識別,中文命名實(shí)體的邊界識別效果并不理想,這導(dǎo)致目前中文命名實(shí)體識別任務(wù)效果不佳。為了解決上述問題,現(xiàn)有一些方法提出利用多任務(wù)學(xué)習(xí)將分詞信息融入到命名實(shí)體識別任務(wù)中,在一定程度上提升了識別效果[9,12]。然而,現(xiàn)有方法中仍然存在兩個(gè)主要問題:
(1) 相比起分詞信息,詞性信息能為命名實(shí)體識別提供更具判別性的特征。例如,研究表明命名實(shí)體大多都是名詞詞性[13]。然而,現(xiàn)有的方法只考慮了融入分詞信息,很少考慮詞性信息對命名實(shí)體識別任務(wù)的影響。
(2) 受標(biāo)注成本、環(huán)境影響,目前同時(shí)具備命名實(shí)體、分詞、詞性信息三種標(biāo)注資源的數(shù)據(jù)集非常有限,本文意在關(guān)注更通用的設(shè)定?,F(xiàn)有的多任務(wù)學(xué)習(xí)方法針對不同任務(wù)的數(shù)據(jù)集分開進(jìn)行學(xué)習(xí),在這種模式下,無法學(xué)習(xí)重要的標(biāo)簽一致性信息。例如,命名實(shí)體的開始邊界也應(yīng)該對應(yīng)分詞標(biāo)簽的開始邊界。
針對上述問題,本文提出一種新的基于多任務(wù)學(xué)習(xí)模式的中文命名實(shí)體識別方法: 在融入分詞信息的基礎(chǔ)上進(jìn)一步融入詞性信息,實(shí)現(xiàn)三種任務(wù)的聯(lián)合信息共享;提出標(biāo)簽一致性訓(xùn)練機(jī)制,在訓(xùn)練過程中考慮不同標(biāo)簽之間的一致性關(guān)系,即實(shí)體標(biāo)簽的邊界與分詞和詞性標(biāo)簽邊界的對齊關(guān)系,指導(dǎo)模型更好地學(xué)習(xí)多任務(wù)表示,改善中文命名實(shí)體識別效果。在方法層面,我們的模型主要包含三個(gè)模塊: ①NER數(shù)據(jù)集預(yù)標(biāo)注模塊,以現(xiàn)有的NER數(shù)據(jù)集為基礎(chǔ),融入與原始數(shù)據(jù)相一致的分詞、詞性標(biāo)簽,用于指導(dǎo)后續(xù)多任務(wù)一致性學(xué)習(xí)。②多任務(wù)共享學(xué)習(xí)模塊,為命名實(shí)體識別任務(wù)、中文分詞(Chinese Word Segment,CWS)任務(wù)與詞性標(biāo)注(Part-of-Speech Tagging,POS)任務(wù)構(gòu)建共享的網(wǎng)絡(luò)結(jié)構(gòu),把多個(gè)任務(wù)的數(shù)據(jù)表示嵌入到同一個(gè)語義空間中,達(dá)到多任務(wù)聯(lián)合學(xué)習(xí)的目的。③聯(lián)合訓(xùn)練模塊,在訓(xùn)練過程中考慮不同任務(wù)的解碼結(jié)果是否一致,實(shí)現(xiàn)一致性訓(xùn)練。
為了驗(yàn)證本文方法的有效性,我們分別在新聞和社交媒體兩個(gè)領(lǐng)域的中文命名實(shí)體識別數(shù)據(jù)集上進(jìn)行實(shí)驗(yàn),并且考慮了標(biāo)注數(shù)據(jù)較為充足的全樣本和標(biāo)注數(shù)據(jù)較為缺乏的小樣本兩種環(huán)境的實(shí)驗(yàn)設(shè)置。實(shí)驗(yàn)結(jié)果表明: ①全樣本實(shí)驗(yàn)中,相較于基線模型,本文方法可以提升10.28%的F1值,與現(xiàn)有方法相比提升0.76%以上。②小樣本實(shí)驗(yàn)中,新聞?lì)I(lǐng)域模擬小樣本數(shù)據(jù)集取得了F1值為92.98%的實(shí)驗(yàn)結(jié)果,高于基線系統(tǒng)11.17%,高于現(xiàn)有方法3.05%以上;社交媒體領(lǐng)域真實(shí)低資源小樣本數(shù)據(jù)集中F1值達(dá)到61.33%,高于基線系統(tǒng)8.84%,與現(xiàn)有方法相比提升2.54%以上。綜上所述,本文的主要貢獻(xiàn)包括:
(1) 提出一種新的中文命名實(shí)體識別多任務(wù)學(xué)習(xí)框架,在命名實(shí)體識別模型中融合分詞和詞性信息,實(shí)現(xiàn)多任務(wù)聯(lián)合訓(xùn)練,增強(qiáng)中文命名實(shí)體識別效果。
(2) 提出基于標(biāo)簽一致性機(jī)制的多任務(wù)學(xué)習(xí)模式,可以捕獲不同任務(wù)解碼結(jié)果的一致性關(guān)系,增強(qiáng)邊界信息學(xué)習(xí),優(yōu)化學(xué)習(xí)多任務(wù)表示。
(3) 在新聞和社交媒體兩個(gè)領(lǐng)域中驗(yàn)證了本文方法的有效性。同時(shí),實(shí)驗(yàn)結(jié)果表明,在標(biāo)注資源匱乏的小樣本數(shù)據(jù)集中本文方法效果更為顯著,改善了中文命名實(shí)體識別任務(wù)可利用已標(biāo)注數(shù)據(jù)集資源稀缺、樣本量不充足等現(xiàn)狀。
現(xiàn)有的命名實(shí)體識別方法大致可分為基于統(tǒng)計(jì)特征的方法和基于深度學(xué)習(xí)的方法。在基于統(tǒng)計(jì)特征的命名實(shí)體識別方法中,Bikel等[5]提出了第一個(gè)名為IdentiFinder的基于隱式馬爾科夫模型(HMM)的命名實(shí)體識別系統(tǒng),用于識別和分類名稱、日期、時(shí)間表達(dá)式和數(shù)字?jǐn)?shù)量。Szarvas等[14]利用C4.5決策樹和AdaBoost.M1學(xué)習(xí)算法開發(fā)了多語言命名實(shí)體識別系統(tǒng),通過不同的特征子集訓(xùn)練幾個(gè)獨(dú)立的決策樹分類器,再通過多數(shù)投票方案組合它們的決策。Bikel等[15]運(yùn)用最大熵理論提出了最大熵命名實(shí)體(MENE),MENE能夠利用非常多樣化的知識來源來做標(biāo)記決策,取得了很好的效果。近年來,基于深度學(xué)習(xí)的命名實(shí)體識別模型占據(jù)了主導(dǎo)地位并取得了先進(jìn)的成果。與基于特征的方法相比,深度學(xué)習(xí)方法有助于自動(dòng)學(xué)習(xí)更多隱藏的特征信息。深度學(xué)習(xí)方法多采用字符級別的輸入,Ma等[16]利用卷積神經(jīng)網(wǎng)絡(luò)(CNN)提取單詞的字符級表示,然后將字符表示向量與詞向量融合送入循環(huán)神經(jīng)網(wǎng)絡(luò)(RNN)上下文編碼器提取實(shí)體。Kuru等[17]提出的CharNER,是一種與語言無關(guān)的字符級表示,將句子視為字符序列,并利用長短時(shí)記憶網(wǎng)絡(luò)(LSTM)進(jìn)行表示的提取。目前,基于深度學(xué)習(xí)的命名實(shí)體識別已成為主流方法。
現(xiàn)有研究已經(jīng)開始探索命名實(shí)體識別任務(wù)與其他任務(wù)的關(guān)聯(lián),并提出基于多任務(wù)學(xué)習(xí)的方法。Collobert等[18]訓(xùn)練了一個(gè)Window/Sentence方法網(wǎng)絡(luò)來共同執(zhí)行NER、POS、組塊分析(Chunk)和語義角色標(biāo)注(SRL)任務(wù)。這種多任務(wù)機(jī)制讓訓(xùn)練算法發(fā)現(xiàn)并學(xué)習(xí)對所有任務(wù)都感興趣的有用的內(nèi)部表示。Rei[19]發(fā)現(xiàn),通過在訓(xùn)練過程中加入無監(jiān)督語言建模目標(biāo),可實(shí)現(xiàn)序列標(biāo)注模型性能的改進(jìn)。Lin等[20]提出了一種基于低資源的多語種多任務(wù)架構(gòu),可有效轉(zhuǎn)移不同類型的知識改善主模型。除了考慮命名實(shí)體識別連同其他序列標(biāo)注任務(wù),多任務(wù)學(xué)習(xí)框架還可以應(yīng)用到聯(lián)合提取實(shí)體和關(guān)系[21]上,或?qū)⒚麑?shí)體識別模型分為實(shí)體切分和實(shí)體類別預(yù)測[22],進(jìn)一步提升效果。
現(xiàn)有的中文命名實(shí)體識別方法包括基于字的命名實(shí)體識別、基于詞的命名實(shí)體識別、基于字詞聯(lián)合的命名實(shí)體識別。Li等[23]通過字級別和詞級別統(tǒng)計(jì)方法的對比,證明基于字符的命名實(shí)體識別方法一般有更好的表現(xiàn)。Huang等[24]利用雙向長短時(shí)記憶網(wǎng)絡(luò)(BiLSTM)提取特征,將拼寫、上下文、詞嵌入和地名詞典四種類型的特征融于命名實(shí)體識別任務(wù)。Lu等[25]在基于神經(jīng)網(wǎng)絡(luò)的命名實(shí)體識別模型中采用基于字的命名實(shí)體識別方案。Zhang等[26]提出的Lattice LSTM網(wǎng)絡(luò)結(jié)構(gòu)效果較好,其將傳統(tǒng)的LSTM單元改進(jìn)為網(wǎng)格LSTM,在字模型的基礎(chǔ)上顯性利用詞與詞序信息,避免了分詞錯(cuò)誤傳遞的問題。Zhou等[27]將中文命名實(shí)體識別視為一項(xiàng)聯(lián)合識別和分類任務(wù)。Wang等[22]提出了一種適用于中文命名實(shí)體識別的門控卷積神經(jīng)網(wǎng)絡(luò)(GCNN)模型。在多任務(wù)學(xué)習(xí)方面,Wang等[12]通過將分詞和命名實(shí)體識別聯(lián)合學(xué)習(xí)來融合分詞信息。Peng等[28]與He等[29]在字級別的命名實(shí)體識別方案中又融入了詞的信息,將分詞信息作為Soft Feature來增強(qiáng)識別效果。Peng等[9]提出了基于分詞任務(wù)和中文命名實(shí)體識別任務(wù)聯(lián)合訓(xùn)練的模型。
然而,現(xiàn)有的中文命名實(shí)體識別方法一般只考慮了單純將中文命名實(shí)體識別與中文分詞兩種任務(wù)相結(jié)合,并且沒有在學(xué)習(xí)過程中考慮標(biāo)簽的一致性信息,這可能只會得到次優(yōu)的結(jié)果。針對以上問題,本文提出一種新的針對中文命名實(shí)體識別的多任務(wù)學(xué)習(xí)框架,融入分詞及詞性等詞匯信息,同時(shí)考慮多任務(wù)解碼一致性的信息,實(shí)現(xiàn)更為有效的多任務(wù)學(xué)習(xí)過程。
圖1展示了本文方法的框架,主要包含以下三個(gè)部分,下面將對每一模塊進(jìn)行具體介紹。
(1) NER數(shù)據(jù)集預(yù)標(biāo)注模塊
利用現(xiàn)有的NER數(shù)據(jù)集進(jìn)行預(yù)標(biāo)注處理,通過數(shù)據(jù)預(yù)標(biāo)注融入額外的與原始數(shù)據(jù)具有一致性的分詞、詞性標(biāo)簽,在數(shù)據(jù)層面實(shí)現(xiàn)一定程度的信息共享,用于指導(dǎo)后續(xù)多任務(wù)一致性學(xué)習(xí)。
(2) 多任務(wù)共享學(xué)習(xí)模塊
基于多任務(wù)學(xué)習(xí)的命名實(shí)體識別方法的共享學(xué)習(xí)模塊,由共享表示層及序列解碼層構(gòu)成。多種任務(wù)在本模塊共享參數(shù)與網(wǎng)絡(luò)結(jié)構(gòu)學(xué)習(xí)特征,實(shí)現(xiàn)多任務(wù)學(xué)習(xí)訓(xùn)練的信息交互共享。
(3) 聯(lián)合訓(xùn)練模塊
在基于多任務(wù)學(xué)習(xí)的聯(lián)合訓(xùn)練中,融入基于標(biāo)簽一致性機(jī)制的訓(xùn)練方法,增強(qiáng)基于多任務(wù)學(xué)習(xí)的命名實(shí)體識別方法的識別效果。
現(xiàn)有的多任務(wù)命名實(shí)體識別方法針對不同任務(wù)的數(shù)據(jù)集分別進(jìn)行學(xué)習(xí),不利于學(xué)習(xí)標(biāo)簽一致性信息。本文首先設(shè)置NER數(shù)據(jù)集預(yù)標(biāo)注模塊,在原有的NER數(shù)據(jù)中融入額外的與命名實(shí)體標(biāo)簽相一致的分詞、詞性標(biāo)簽,便于模型學(xué)習(xí)標(biāo)簽一致性信息。具體的流程如圖2所示。
圖2 NER數(shù)據(jù)集預(yù)標(biāo)注流程圖
在預(yù)標(biāo)注的基礎(chǔ)上,我們構(gòu)造多任務(wù)共享學(xué)習(xí)模塊,針對不同任務(wù)聯(lián)合進(jìn)行學(xué)習(xí)。多任務(wù)共享學(xué)習(xí)模塊包括共享表示層與序列解碼層兩個(gè)部分。在以下敘述中,將輸入序列記為A={a1,a2,…,an},其中,an表示序列A的第n個(gè)字。A表示一條預(yù)標(biāo)注NER數(shù)據(jù)集D的輸入,或者原始分詞數(shù)據(jù)集NCWS或原始詞性標(biāo)注數(shù)據(jù)集NPOS的輸入。
2.2.1 共享表示層
BERT層傳統(tǒng)的靜態(tài)詞向量通常無法表征一詞多義,本文選用基于BERT[30]的預(yù)訓(xùn)練語言模型進(jìn)行特征學(xué)習(xí),以表示上下文相關(guān)語義。對于輸入序列A={a1,a2,…,an},將序列統(tǒng)一處理為: 開始token為特殊分類嵌入符“[CLS]”,結(jié)束為特殊分隔符“[SEP]”的形式進(jìn)行編碼。BERT采用多頭自注意力(Self-Attention)機(jī)制來學(xué)習(xí)每個(gè)字與其他字的依賴關(guān)系和上下文語義,然后通過前饋神經(jīng)網(wǎng)絡(luò)對Attention計(jì)算后的輸入進(jìn)行多個(gè)不同線性變換對的投影變換,最終得到序列的全局信息,如式(1)~式(3)所示。
(1)
MultiHead(Q,K,V)=Concat(head1,…,headn)WO
(2)
(3)
經(jīng)過BERT層編碼計(jì)算,我們將A轉(zhuǎn)換為M={m1,m2,…,mn}。
BiGRU層在BERT層基礎(chǔ)上,我們增加雙向門控循環(huán)單元(BiGRU)層[31],進(jìn)一步學(xué)習(xí)多任務(wù)之間的共享信息。我們將BERT層的輸出序列M作為BiGRU層的輸入,對于時(shí)刻t的輸入,計(jì)算如式(4)~式(7)所示。
2.2.2 序列解碼層
其中,y是預(yù)測的標(biāo)簽序列,T是模型參數(shù)。針對不同任務(wù),分別以式(9)~式(11)為三個(gè)優(yōu)化目標(biāo):
(11)
使用pNER(yi|xi),pCWS(yi|xi),pPOS(yi|xi)表示不同解碼模塊將xi標(biāo)注為yi的概率。
在多任務(wù)學(xué)習(xí)基礎(chǔ)上,本文提出基于標(biāo)簽一致性的模型訓(xùn)練機(jī)制,考慮不同任務(wù)的解碼標(biāo)簽是否一致。具體而言,我們定義了損失函數(shù)如式(7)所示。其中,LNER、LCWS、LPOS分別為命名實(shí)體識別任務(wù)、分詞任務(wù)和詞性標(biāo)注任務(wù)的損失函數(shù),分別以各自任務(wù)的標(biāo)準(zhǔn)(Ground-truth)標(biāo)簽計(jì)算損失。
L=w1*LNER+w2*LCWS+
w3*LPOS+w4*LNERconsistency
(12)
LNERconsistency=
(13)
其中,wi(t)代表了每個(gè)任務(wù)i的權(quán)重,Ln(t-1)、rn(t-1)分別代表了任務(wù)n在第t-1步時(shí)的Loss和訓(xùn)練速度,r越小表示任務(wù)訓(xùn)練得越快,其中rn(t-1)∈(0,+∞),N代表任務(wù)的數(shù)量,T是一個(gè)常數(shù),T=1時(shí),w等同于softmax的結(jié)果,T足夠大時(shí),w趨近1,則各個(gè)任務(wù)的Loss權(quán)重相同。在訓(xùn)練過程的每次迭代中,從給定的任務(wù)數(shù)據(jù)集中抽取一批訓(xùn)練實(shí)例,同時(shí)訓(xùn)練NER、CWS、POS三個(gè)任務(wù)來更新參數(shù)。
為了評估本文方法的有效性,我們在兩個(gè)領(lǐng)域的命名實(shí)體識別數(shù)據(jù)集上進(jìn)行了實(shí)驗(yàn),包括Journalism(新聞?lì)I(lǐng)域人民日報(bào)標(biāo)注數(shù)據(jù)集)和Social media(社交媒體領(lǐng)域微博標(biāo)注數(shù)據(jù)集),均將其整合成由人名PER、地名LOC、組織機(jī)構(gòu)名ORG三種實(shí)體類型標(biāo)注的形式。分詞任務(wù)使用的是北大計(jì)算語言所制作的1998年《人民日報(bào)》標(biāo)注語料庫,詞性標(biāo)注使用的是網(wǎng)絡(luò)文庫語料。表1、表2給出的是各個(gè)數(shù)據(jù)集的詳細(xì)信息。
表1 命名實(shí)體識別數(shù)據(jù)集
表2 分詞及詞性標(biāo)注數(shù)據(jù)集
本文選用的是BIO標(biāo)注體系,在測試過程中,只有當(dāng)一個(gè)實(shí)體的邊界和實(shí)體的類型完全正確時(shí),才能判斷該實(shí)體預(yù)測正確。本文采用召回率R、精確率P和F1值來評判模型的性能。各評價(jià)指標(biāo)的計(jì)算方法如式(16)~式(18)所示。
(16)
(17)
(18)
本文采用BERT-Base模型。BERT-Base模型共12層,隱層為768維,采用12頭模式,共110 M個(gè)參數(shù)。將BiGRU的隱藏層設(shè)為100。在模型訓(xùn)練方面,采用Adam優(yōu)化器[33]對損失函數(shù)進(jìn)行優(yōu)化,將Drpout值設(shè)為0.1[34]。我們?yōu)椴煌蝿?wù)設(shè)定了不同的學(xué)習(xí)率,如表3所示。
表3 學(xué)習(xí)率參數(shù)設(shè)置
為驗(yàn)證本文方法的有效性,分別在Journalism(新聞)和Social media(社交媒體)兩個(gè)領(lǐng)域的中文命名實(shí)體識別數(shù)據(jù)集上進(jìn)行實(shí)驗(yàn),并設(shè)置了標(biāo)注數(shù)據(jù)較為充足的全樣本和標(biāo)注數(shù)據(jù)較為缺乏的小樣本兩種實(shí)驗(yàn)環(huán)境。
在新聞?lì)I(lǐng)域的全樣本實(shí)驗(yàn)中,與以下方法進(jìn)行對比: 單任務(wù)學(xué)習(xí)方法: ①GRU-CRF,該方法聯(lián)合GRU和CRF進(jìn)行命名實(shí)體識別。②BiGRU,該方法使用雙向GRU網(wǎng)絡(luò),捕獲過去和將來兩個(gè)方向的信息進(jìn)行命名實(shí)體識別。③BiGRU-CRF,該方法結(jié)合BiGRU和CRF進(jìn)行命名實(shí)體識別。④BERT-CRF,該方法結(jié)合預(yù)訓(xùn)練語言模型BERT與條件隨機(jī)場CRF進(jìn)行命名實(shí)體識別。⑤BERT-BiGRU-CRF,該方法結(jié)合預(yù)訓(xùn)練語言模型,BiGRU和CRF進(jìn)行命名實(shí)體識別。⑥Collobert等[18]的方法采用前饋神經(jīng)網(wǎng)絡(luò),結(jié)合預(yù)處理和詞綴特征進(jìn)行命名實(shí)體識別。⑦Lample等[8]的方法創(chuàng)新性地將BiLSTM與CNN模型結(jié)合進(jìn)行命名實(shí)體識別。⑧Shen等[35]的方法將深度學(xué)習(xí)與主動(dòng)學(xué)習(xí)相結(jié)合進(jìn)行命名實(shí)體識別。多任務(wù)學(xué)習(xí)方法: ①Wang等[12]的方法在聯(lián)合訓(xùn)練中融合分詞信息進(jìn)行命名實(shí)體識別。②Peng等[9]的方法基于分詞和中文命名實(shí)體識別聯(lián)合訓(xùn)練進(jìn)行命名實(shí)體識別。我們將本文提出的基于標(biāo)簽一致性機(jī)制的多任務(wù)學(xué)習(xí)方法記為Multi-task(Label consistency)。實(shí)驗(yàn)結(jié)果如表4所示。
表4 中文命名實(shí)體識別全樣本實(shí)驗(yàn)結(jié)果 (單位: %)
從表4可以看出,本文基于標(biāo)簽一致性機(jī)制的多任務(wù)學(xué)習(xí)方法Multi-task(Label consistency)獲得92.28%的F1值,顯著優(yōu)于其他模型及方法。相比基線模型BERT-CRF、BiGRU-CRF、GRU-CRF、BiGRU分別提升2.44%、7.91%、8.27%、10.28%的F1值;相比BERT-BiGRU-CRF框架下的單任務(wù)訓(xùn)練,提升1.06%的F1值;與同樣融入詞信息的Collobertd等[18]的方法相比F1值提升4.23%;與Lample等[8]的混合模型方法相比F1值提升2.2%;與將深度學(xué)習(xí)和主動(dòng)學(xué)習(xí)相結(jié)合Shen等[35]的方法相比F1值提升1.47%;與Wang[12]等和Peng等[9]的聯(lián)合訓(xùn)練方法相比F1值有0.99%和0.76%的提升??梢?本文方法基于標(biāo)簽一致性機(jī)制在數(shù)據(jù)集階段即強(qiáng)調(diào)實(shí)體邊界的對齊和詞匯信息的增強(qiáng),以及在多任務(wù)學(xué)習(xí)中進(jìn)一步共享編碼、網(wǎng)絡(luò)結(jié)構(gòu)與參數(shù)來進(jìn)行中文命名實(shí)體識別的有效性。
考慮到多任務(wù)學(xué)習(xí)可能更適用于標(biāo)注樣本稀缺的環(huán)境,我們進(jìn)行小樣本實(shí)驗(yàn),實(shí)驗(yàn)結(jié)果如表5所示。
表5 中文命名實(shí)體識別小樣本實(shí)驗(yàn)結(jié)果F1值 (單位: %)
續(xù)表
小樣本實(shí)驗(yàn)設(shè)計(jì)如下:
(1) 模擬環(huán)境: 在新聞?lì)I(lǐng)域人民日報(bào)數(shù)據(jù)集中僅取原數(shù)據(jù)集20%的數(shù)據(jù)作為訓(xùn)練集,驗(yàn)證模型效果。
(2) 真實(shí)環(huán)境: 選用樣本語句數(shù)僅有新聞?lì)I(lǐng)域5%的社交媒體領(lǐng)域微博數(shù)據(jù)集驗(yàn)證本文方法的有效性。主要對比方法包括: ①Peng等[28]基于中文命名實(shí)體識別進(jìn)行嵌入式聯(lián)合訓(xùn)練。②He等[29]提出基于BiLSTM神經(jīng)網(wǎng)絡(luò)的半監(jiān)督學(xué)習(xí)模型,將轉(zhuǎn)移概率和深度學(xué)習(xí)相結(jié)合。③Zhang等[26]重建了12個(gè)神經(jīng)序列標(biāo)記模型,研究構(gòu)建有效和高效的神經(jīng)序列標(biāo)記系統(tǒng)。
本文方法在低資源小樣本的環(huán)境設(shè)置下提升效果顯著: ①在新聞?lì)I(lǐng)域的模擬環(huán)境中,本文方法可達(dá)到92.98%的F1值,相比BERT-BiGRU-CRF模型單任務(wù)與Peng等[28]的多任務(wù)方法的F1值分別提升了3.05%、3.71%。同時(shí),高于Multi-task(Label consistency)全樣本實(shí)驗(yàn)0.70%。②在社交媒體領(lǐng)域的真實(shí)環(huán)境中,相較于現(xiàn)有方法具有顯著提升。其中,與Zhang等[26]、Peng等[28]、He等[29]相比分別提高2.54%、5.28%、6.51%的F1值。以上實(shí)驗(yàn)結(jié)果表明本文提出的基于多任務(wù)學(xué)習(xí)的命名實(shí)體識別方法對標(biāo)注資源匱乏的情況具有更加顯著的效果。
4.3.1 不同多任務(wù)共享方法
在本文選擇的模型框架的基礎(chǔ)上,我們進(jìn)一步對比不同的多任務(wù)學(xué)習(xí)訓(xùn)練模式的影響。本文進(jìn)行了三種多任務(wù)共享方法的實(shí)驗(yàn):①基于聯(lián)合損失函數(shù)的多任務(wù)學(xué)習(xí)Multi-task(Joint loss),三種任務(wù)使用不同數(shù)據(jù)集,只進(jìn)行聯(lián)合損失的計(jì)算,按動(dòng)態(tài)權(quán)重共同作用實(shí)現(xiàn)模型的優(yōu)化。②基于參數(shù)共享的多任務(wù)學(xué)習(xí)Multi-task(Parameter sharing),在聯(lián)合損失的基礎(chǔ)上,三種任務(wù)共享BiGRU層及一個(gè)線性層,三種任務(wù)增加網(wǎng)絡(luò)結(jié)構(gòu)與參數(shù)的共享,使信息交互共享更加全面充分。③基于標(biāo)簽一致性機(jī)制的多任務(wù)學(xué)習(xí)Multi-task(Label consistency),基于本文數(shù)據(jù)預(yù)標(biāo)注模塊進(jìn)行的多任務(wù)共享學(xué)習(xí),在數(shù)據(jù)集階段即實(shí)現(xiàn)實(shí)體邊界的對齊,以及詞匯信息的增強(qiáng),再進(jìn)一步共享編碼、網(wǎng)絡(luò)結(jié)構(gòu)與參數(shù),最后結(jié)合標(biāo)簽一致性機(jī)制計(jì)算聯(lián)合損失。實(shí)驗(yàn)結(jié)果如表6所示。
表6 不同多任務(wù)共享方法測試結(jié)果F1值 (單位: %)
從表6可以看出,基于聯(lián)合損失函數(shù)的多任務(wù)學(xué)習(xí)Multi-task(Joint loss)中全樣本與真實(shí)小樣本的F1值比其單任務(wù)分別提升0.68%、1.98%?;趨?shù)共享的多任務(wù)學(xué)習(xí)Multi-task(Parameter sharing)中全樣本及兩種小樣本比其單任務(wù)F1值分別提升0.84%、0.05%、3.09%,且均高于Multi-task(Joint loss)方法。本文基于標(biāo)簽一致性機(jī)制的多任務(wù)學(xué)習(xí)Multi-task(Label consistency),在全樣本及兩種小樣本中分別比其單任務(wù)提升1.06%、3.05%、3.83%,比上述兩種共享方法F1值漲幅更大,提升效果更顯著。綜上可見,多任務(wù)學(xué)習(xí)共享信息越充分,越能獲得更好的表示學(xué)習(xí)及性能優(yōu)勢。訓(xùn)練效率也是評估的重要指標(biāo),基于本文方法的多任務(wù)學(xué)習(xí)模式,共同處理三種任務(wù),共享編碼特征及網(wǎng)絡(luò)結(jié)構(gòu),大大減少訓(xùn)練參數(shù)量,且樣本量越小效果越明顯,訓(xùn)練速度越快,從而增加資源利用率。
4.3.2 分割實(shí)驗(yàn)
基于真實(shí)環(huán)境低資源小樣本微博數(shù)據(jù)集,進(jìn)行了分割實(shí)驗(yàn),具體方法設(shè)置如下: ①Single-task,基于BERT-BiGRU-CRF框架的命名實(shí)體識別單任務(wù)實(shí)驗(yàn)。②No POS,在本文方法之中去掉詞性信息模塊,僅保留實(shí)體識別與分詞模塊。③No Label consistency,遵循本文方法,但在損失的計(jì)算中不加入標(biāo)簽一致性損失LNER_consistency參與調(diào)整網(wǎng)絡(luò)。④Multi-task(Label consistency),完整的本文方法。實(shí)驗(yàn)結(jié)果如表7所示。從表7可以看出,本文方法中不加入標(biāo)簽一致性損失或詞性信息模塊相較于完整方法F1值均有下降,分別為0.71%和2.38%,驗(yàn)證了融合詞性信息模塊與標(biāo)簽一致性損失對命名實(shí)體識別結(jié)果提升的有效性。
表7 分割實(shí)驗(yàn)結(jié)果F1值 (單位: %)
4.3.3 輔助任務(wù)
最后,我們驗(yàn)證該方法是否可以在提高主任務(wù)中文命名實(shí)體識別結(jié)果的同時(shí),也改善分詞與詞性標(biāo)注兩個(gè)輔助任務(wù)的效果。實(shí)驗(yàn)結(jié)果如表8所示,其中包括單任務(wù)實(shí)驗(yàn)以及基于聯(lián)合損失函數(shù)的多任務(wù)學(xué)習(xí)Multi-task(Joint loss)、基于參數(shù)共享的多任務(wù)學(xué)習(xí)Multi-task(Parameter sharing)、基于標(biāo)簽一致性機(jī)制的多任務(wù)學(xué)習(xí)Multi-task(Label consistency)三種不同共享方式的多任務(wù)實(shí)驗(yàn)。
表8 多任務(wù)學(xué)習(xí)測試結(jié)果F1值 (單位: %)
從表8可以看出,與單任務(wù)相比,Multi-task(Joint loss)為分詞和詞性標(biāo)注兩個(gè)輔助任務(wù)帶來了0.64%和3%的F1值提升。Multi-task(Parameter sharing)方法下分詞與詞性標(biāo)注的結(jié)果分別提升F1值0.78%和5.67%。Multi-task(Label consistency)方法下,詞性標(biāo)注結(jié)果的F1值提升11.74%。
Joint loss方法雖然能夠使用相似任務(wù)來提高命名實(shí)體識別的準(zhǔn)確率,但是這種方案得到的輔助信息較少。Parameter sharing方法是對Joint loss方法學(xué)習(xí)方式的改進(jìn)方案,其中增加了網(wǎng)絡(luò)結(jié)構(gòu)的共享參數(shù),使網(wǎng)絡(luò)中的部分參數(shù)得以進(jìn)行信息共享,從而讓系統(tǒng)能更多地學(xué)習(xí)到相似任務(wù)中的輔助信息,但是在訓(xùn)練的過程中很容易受到一些噪聲的干擾。而Label consistency方法在模型訓(xùn)練中融入了邊界信息,強(qiáng)調(diào)了實(shí)體邊界的對齊以及詞匯信息的增強(qiáng),故而取得了較好的效果。
從多任務(wù)學(xué)習(xí)共享信息的程度上看,三種方法是逐步遞進(jìn)的,分別從不同層次對被共享任務(wù)做出增強(qiáng)信息共享效果的貢獻(xiàn)。不同程度的信息共享適用于不同任務(wù),分詞和詞性標(biāo)注作為基礎(chǔ)任務(wù)在低程度的信息共享方式中即可實(shí)現(xiàn)有效提升,命名實(shí)體識別作為進(jìn)一步的任務(wù),在越高程度的信息共享中效果提升越顯著。
針對中文命名實(shí)體識別任務(wù),本文提出了一種新的基于多任務(wù)學(xué)習(xí)模式的中文命名實(shí)體識別方法,同時(shí)將分詞和詞性標(biāo)注信息融入到命名實(shí)體識別任務(wù)中,實(shí)現(xiàn)多任務(wù)聯(lián)合訓(xùn)練。同時(shí),提出標(biāo)簽一致性機(jī)制,學(xué)習(xí)命名實(shí)體識別、中文分詞和詞性標(biāo)注任務(wù)的解碼相關(guān)性,進(jìn)一步提升效果。在全樣本和小樣本環(huán)境中的實(shí)驗(yàn)結(jié)果表明了本文方法的有效性。后續(xù)將要研究如何在本文方法中融入更多潛在的詞匯信息,深度結(jié)合小樣本學(xué)習(xí)的優(yōu)勢,應(yīng)用到更多資源匱乏的領(lǐng)域進(jìn)行研究,進(jìn)一步提高中文命名實(shí)體識別的性能。