• <tr id="yyy80"></tr>
  • <sup id="yyy80"></sup>
  • <tfoot id="yyy80"><noscript id="yyy80"></noscript></tfoot>
  • 99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看 ?

    基于全局節(jié)點(diǎn)和多片段的格柵命名實(shí)體識(shí)別

    2023-12-16 10:29:22郭江濤彭甫镕
    計(jì)算機(jī)工程 2023年12期
    關(guān)鍵詞:分詞跨度命名

    郭江濤,彭甫镕

    (山西大學(xué) 大數(shù)據(jù)科學(xué)與產(chǎn)業(yè)研究院,太原 030006)

    0 概述

    命名實(shí)體識(shí)別(Named Entity Recognition,NER)的目標(biāo)是標(biāo)記非結(jié)構(gòu)化文本中的實(shí)體詞,并分為對(duì)應(yīng)的類別,是自然語言處理(Natural Language Processing,NLP)領(lǐng)域的一項(xiàng)重要研究?jī)?nèi)容。由于語言的特殊性,中文命名實(shí)體識(shí)別相比英文更加復(fù)雜,在命名實(shí)體識(shí)別研究工作中備受關(guān)注。

    命名實(shí)體識(shí)別任務(wù)的發(fā)展初期主要關(guān)注人名(PER)、地名(LOC)、機(jī)構(gòu)名(ORG)等3 種專有名詞的識(shí)別,隨著任務(wù)的不斷完善,專有名詞的范圍被進(jìn)一步擴(kuò)大,逐步發(fā)展至對(duì)特定領(lǐng)域的特定類別實(shí)體進(jìn)行識(shí)別。在生物醫(yī)學(xué)領(lǐng)域,命名實(shí)體識(shí)別任務(wù)更關(guān)注領(lǐng)域?qū)S忻~的識(shí)別,如蛋白質(zhì)、DNA 等,這也就意味著每個(gè)特定領(lǐng)域都需要標(biāo)注新的數(shù)據(jù)集,但數(shù)據(jù)標(biāo)注的代價(jià)是相當(dāng)大的。研究[1]表明:對(duì)無標(biāo)簽數(shù)據(jù)進(jìn)行準(zhǔn)確的標(biāo)注需要該領(lǐng)域中大量的專家參與,并且標(biāo)注數(shù)據(jù)花費(fèi)的時(shí)間是無標(biāo)簽數(shù)據(jù)的10 倍以上。

    近年來,深度學(xué)習(xí)在命名實(shí)體識(shí)別中取得了相當(dāng)不錯(cuò)的成績(jī),在標(biāo)注豐富領(lǐng)域(如新聞)的數(shù)據(jù)集上表現(xiàn)較好,例 如FLAT[2]和SoftLexicon[3]模型在MSRA 和PeopleDaily 上的F1 值已經(jīng)超過0.95。然而現(xiàn)有深度模型相對(duì)復(fù)雜,需要大量標(biāo)記數(shù)據(jù)對(duì)模型參數(shù)進(jìn)行迭代訓(xùn)練。在這種情況下,設(shè)計(jì)一套面向標(biāo)注稀缺領(lǐng)域的命名實(shí)體識(shí)別模型具有重要的現(xiàn)實(shí)意義和應(yīng)用價(jià)值。

    主動(dòng)學(xué)習(xí)模仿了生物學(xué)習(xí)行為的內(nèi)部過程,將過去學(xué)習(xí)到的經(jīng)驗(yàn)推廣到新的數(shù)據(jù)機(jī)制。通過對(duì)樣本進(jìn)行不確定性排序,可以讓專家(人工)集中精力標(biāo)注模型最不確定的樣本。這有助于模型更快地學(xué)習(xí),使專家無需標(biāo)注對(duì)模型幫助較小的數(shù)據(jù),從而極大地減少所需標(biāo)注的數(shù)據(jù)量。

    現(xiàn)有基于主動(dòng)學(xué)習(xí)的命名實(shí)體識(shí)別大多基于統(tǒng)計(jì)機(jī)器學(xué)習(xí),并側(cè)重于設(shè)計(jì)不同的主動(dòng)學(xué)習(xí)策略,例如:HUANG 等[4]基于條件隨機(jī)場(chǎng)(CRF)[5]模型設(shè)計(jì)一種融合K 均值聚類和信息熵的主動(dòng)學(xué)習(xí)策略。基于主動(dòng)學(xué)習(xí)的命名實(shí)體識(shí)別在深度學(xué)習(xí)方面的研究相對(duì)較少,如何將深度學(xué)習(xí)技術(shù)與已有主動(dòng)學(xué)習(xí)策略相結(jié)合仍是一個(gè)挑戰(zhàn)。

    理論而言,當(dāng)數(shù)據(jù)量很小時(shí),深度學(xué)習(xí)算法會(huì)表現(xiàn)不佳,但隨著大規(guī)模預(yù)訓(xùn)練模型的發(fā)展,該問題會(huì)得到很大改善。SHEN 等[6]將深度學(xué)習(xí)技術(shù)用于基于主動(dòng)學(xué)習(xí)的命名實(shí)體識(shí)別過程,設(shè)計(jì)一種CNNCNN-LSTM 模型,采用CNN 作為字編碼器和詞編碼器,使用LSTM 作為解碼器,但CNN 詞編碼器需要提前將文本分詞,使用自動(dòng)分詞工具容易引入分詞錯(cuò)誤,而人工分詞標(biāo)注成本更高。Lattice LSTM[7]提出一種格柵思想,將字符所有可能的詞都輸入模型,由模型判斷最佳序列。FLAT[2]模型設(shè)計(jì)了Flat-Lattice 結(jié)構(gòu),使得模型可并行計(jì)算,有效提高了模型訓(xùn)練速度。

    本文提出一種基于全局節(jié)點(diǎn)和多片段的格柵命名實(shí)體識(shí)別模型。將FLAT 模型中基于全連接注意力機(jī)制的Transformer[8]改為融合全局節(jié)點(diǎn)和片段節(jié)點(diǎn)的注意力機(jī)制,減少結(jié)構(gòu)復(fù)雜度,從而降低對(duì)標(biāo)注數(shù)據(jù)的需求量?;谌止?jié)點(diǎn)的結(jié)構(gòu)有助于獲取全局語義信息,確定詞匯邊界,片段節(jié)點(diǎn)用于捕獲局部的語義。同時(shí),對(duì)Flat-Lattice 結(jié)構(gòu)進(jìn)行改進(jìn),可以較好地添加詞匯信息而不需要分詞。

    1 相關(guān)工作

    1.1 嵌入表示

    在自然語言處理中,通過嵌入層將文本處理為可由計(jì)算機(jī)計(jì)算的數(shù)值數(shù)據(jù)。早期的嵌入層使用獨(dú)熱碼[9](One-hot)把語料轉(zhuǎn)化為向量表示,但這種方式得到的特征是高維離散稀疏的向量。之后,出現(xiàn)了Word2Vec[10]、GloVe[11]等靜態(tài)詞向量,靜態(tài)詞向量能夠考慮單詞的上下文相關(guān)詞,形成詞向量的固定表征,可以更好地解決詞性孤立且不連貫的問題,但存在一詞多義現(xiàn)象[12]。隨著預(yù)訓(xùn)練模型的發(fā)展,Elmo[13]、GPT[14]、BERT[15]等動(dòng)態(tài)詞向量技術(shù)相繼出現(xiàn),動(dòng)態(tài)詞向量技術(shù)能夠考慮詞之間的相關(guān)性,還能解決詞的多義性問題,從而有效提升最終效果。

    1.2 命名實(shí)體識(shí)別

    目前,命名實(shí)體識(shí)別主要分為基于統(tǒng)計(jì)機(jī)器學(xué)習(xí)和基于深度學(xué)習(xí)。基于統(tǒng)計(jì)機(jī)器學(xué)習(xí)的模型依賴于領(lǐng)域?qū)<抑R(shí)量和人工總結(jié)特征,但泛化能力高,可解釋性強(qiáng)?;谏疃葘W(xué)習(xí)的模型使用深度學(xué)習(xí)自動(dòng)發(fā)現(xiàn)隱藏特征,常結(jié)合統(tǒng)計(jì)機(jī)器學(xué)習(xí)模型以提升可解釋性。近年來,基于深度學(xué)習(xí)的NER 模型成為主流,并取得了較好的結(jié)果。

    Bi-LSTM[16]是基于 深度學(xué)習(xí)的NER 模型中 比較經(jīng)典的模型,但Bi-LSTM 在處理中文NER 時(shí)面臨分詞問題,基于詞編碼器的模型[17]容易引入分詞錯(cuò)誤,基于字編碼器的模型[18-19]無需分詞,但在處理詞匯邊界問題時(shí)精度不高。

    Lattice LSTM[7]對(duì)一系列輸入字符以及與詞典匹配的所有潛在詞進(jìn)行編碼,顯式地利用了單詞和單詞序列信息,不存在切分錯(cuò)誤,因此本文借鑒這種保留所有潛在詞的Lattice 結(jié)構(gòu)。

    SoftLexicon[3]把字典信息編碼到向量表示中來規(guī)避復(fù)雜的模型結(jié)構(gòu),提升運(yùn)算速度,但仍基于LSTM 串行結(jié)構(gòu)。TENER[20]通過帶位置感知的注意力機(jī)制來改進(jìn)Transformer Encoder 結(jié)構(gòu),同時(shí)捕捉單詞的位置和方向信息,建模詞級(jí)別和字符級(jí)別的上下文信息。FLAT 將Lattice 結(jié)構(gòu)轉(zhuǎn)換為由跨度組成的平面結(jié)構(gòu),憑借Transformer 和融入詞匯信息的位置編碼,克服了LSTM 串行結(jié)構(gòu)的缺點(diǎn),具有出色的并行化能力,但FLAT 基于全連接的Transformer,每個(gè)跨度之間都要進(jìn)行注意力計(jì)算,這使得有較多的訓(xùn)練參數(shù),導(dǎo)致需要更多的標(biāo)注數(shù)據(jù)來訓(xùn)練這些參數(shù)。

    LGN[21]設(shè)計(jì)一種具有全局語義的基于詞典的圖神經(jīng)網(wǎng)絡(luò),其中詞典知識(shí)用于連接字符以捕獲局部組成,而全局中繼節(jié)點(diǎn)可以捕獲全局語義和長距離依賴。Star Transformer[22]是一種Transformer 的輕量級(jí)替代方案,將全連接結(jié)構(gòu)替換為星形拓?fù)?,其中每?jī)蓚€(gè)非相鄰節(jié)點(diǎn)通過共享中繼節(jié)點(diǎn)連接。因此,復(fù)雜性從二次型降低到線性型,同時(shí)保留捕獲局部組成和長期依賴的能力。本文借鑒該思路,對(duì)FLAT 模型進(jìn)行改進(jìn),減少不必要的注意力連接和參數(shù)訓(xùn)練,從而降低所需標(biāo)注數(shù)據(jù)量。

    1.3 命名實(shí)體識(shí)別中的主動(dòng)學(xué)習(xí)策略

    大規(guī)模獲取命名實(shí)體識(shí)別標(biāo)注數(shù)據(jù)的成本很高,主動(dòng)學(xué)習(xí)可通過特定策略選擇要注釋的示例來改善這一問題,以更少的注釋獲得更高的性能。目前,有關(guān)命名實(shí)體識(shí)別中主動(dòng)學(xué)習(xí)研究較少,基于主動(dòng)學(xué)習(xí)的CNN-CNN-LSTM[6]模型使用CNN 作為字和詞編碼器,LSTM 作為解碼器,但CNN 詞編碼器需要提前將文本分詞,使用自動(dòng)分詞工具容易引入分詞錯(cuò)誤,人工分詞標(biāo)注成本更高,并且長距離依賴對(duì)于文本處理具有重要意義,而CNN 在獲取長距離依賴方面相對(duì)欠缺。

    綜上,當(dāng)前命名實(shí)體識(shí)別模型對(duì)標(biāo)注數(shù)據(jù)的要求較高,基于主動(dòng)學(xué)習(xí)的命名實(shí)體識(shí)別模型還需分詞,相對(duì)落后。因此,本文綜合考慮已有命名實(shí)體識(shí)別模型和主動(dòng)學(xué)習(xí)策略之間的互補(bǔ)性,提出一種基于全局節(jié)點(diǎn)和多片段的格柵命名實(shí)體識(shí)別模型,通過全局節(jié)點(diǎn)和多片段結(jié)構(gòu)減少模型對(duì)標(biāo)注數(shù)據(jù)的需求,利用Flat-Lattice 結(jié)構(gòu)解決現(xiàn)有主動(dòng)學(xué)習(xí)策略需要分詞的問題,從而在保證模型性能的前提下降低數(shù)據(jù)標(biāo)注代價(jià)。

    2 基于全局節(jié)點(diǎn)和多片段的格柵命名實(shí)體識(shí)別模型

    為了降低標(biāo)注成本,建立一種基于全局節(jié)點(diǎn)和多片段的格柵命名實(shí)體識(shí)別模型,模型結(jié)構(gòu)如圖1所示(彩色效果見《計(jì)算機(jī)工程》官網(wǎng)HTML 版)。該模型主要包括嵌入層、全局節(jié)點(diǎn)和多片段模塊、改進(jìn)的平面格柵模塊、多頭注意力層和殘差網(wǎng)絡(luò)模塊、CRF 輸出層等5 個(gè)部分。

    圖1 基于全局節(jié)點(diǎn)和多片段的格柵命名實(shí)體識(shí)別模型結(jié)構(gòu)Fig.1 Structure of lattice named entity recognition model based on global nodes and multi-fragments

    2.1 嵌入層

    由預(yù)處理得到整個(gè)句子的字和詞后,生成一個(gè)跨度序列,一個(gè)跨度包括一個(gè)標(biāo)記、一個(gè)頭部和一個(gè)尾部??缍仁且粋€(gè)字或一個(gè)詞。頭和尾表示原始序列中標(biāo)記的第一個(gè)和最后一個(gè)字的位置索引,表示標(biāo)記在格中的位置。對(duì)于字而言,頭部和尾部是相同的。所有字按照原本的句子順序位于整個(gè)序列前,詞按照頭部的順序排在字序列后。將整個(gè)序列輸入由預(yù)訓(xùn)練語言模型BERT 組成的嵌入層得到部分跨度的向量表示。

    2.2 全局節(jié)點(diǎn)和多片段模塊

    在FLAT 模型中,每個(gè)字都與整個(gè)句子直接進(jìn)行注意力計(jì)算,這使得注意力連接的復(fù)雜度為O(n2),其中n為單個(gè)句子長度,需要訓(xùn)練的參數(shù)越多,需要標(biāo)注的數(shù)據(jù)也越多。為了降低注意力連接的復(fù)雜度,借鑒Star-Transformer 中的連接方式,但刪除了其中用于多層疊加的ei節(jié)點(diǎn),其中i代表編碼器的層數(shù),因?yàn)樵诿麑?shí)體識(shí)別任務(wù)中僅需一層Transformer 編碼器??紤]僅靠一個(gè)全局節(jié)點(diǎn)可能不能捕獲所有非鄰居節(jié)點(diǎn)間的依賴,設(shè)計(jì)一種融合全局和局部節(jié)點(diǎn)的方案,為每個(gè)跨度向量hx構(gòu)造上下文矩陣Cx,上下文矩陣Cx的計(jì)算方法如式(1)所示:

    其中:x表示跨度在整個(gè)序列中的位置,將整個(gè)序列視為循環(huán)序列,當(dāng)x=0 時(shí)x-1 代表跨度序列的最后一個(gè)跨度;每個(gè)句子平均分為A個(gè)片段,每個(gè)片段擁有一個(gè)片段節(jié)點(diǎn)Fa,F(xiàn)a的初始值為片段內(nèi)節(jié)點(diǎn)的均值;在全局節(jié)點(diǎn)G的作用下,每?jī)蓚€(gè)不相鄰的節(jié)點(diǎn)都是兩跳鄰居,并通過與全局節(jié)點(diǎn)G的注意力計(jì)算獲取長距離依賴。在這種結(jié)構(gòu)下,每個(gè)字僅與對(duì)應(yīng)上下文矩陣Cx進(jìn)行注意力計(jì)算,復(fù)雜度降為O(n)。

    2.3 改進(jìn)的平面格柵模塊

    在中文命名實(shí)體識(shí)別中,詞匯信息能夠幫助確定實(shí)體邊界,平面格柵結(jié)構(gòu)可以很好地支持并行計(jì)算并添加詞匯信息,根據(jù)當(dāng)前模型結(jié)構(gòu)對(duì)其進(jìn)行改進(jìn)。

    相對(duì)距離計(jì)算方式如式(2)~式(5)所示:

    相對(duì)距離編碼計(jì)算方式與Transformer 相同,具體如下:

    其 中:d為表示位 置編碼 的維度索引。

    跨度的最終相對(duì)距離編碼是4 個(gè)距離的簡(jiǎn)單非線性變換,具體如下:

    2.4 多頭注意力層和殘差網(wǎng)絡(luò)模塊

    通過多頭注意力層和殘差網(wǎng)絡(luò)將相對(duì)距離編碼和跨度特征嵌入進(jìn)行融合計(jì)算。Transformer 通過M個(gè)注意力頭分別對(duì)序列進(jìn)行自注意力計(jì)算,然后將M注意力頭的結(jié)果拼接起來。

    將自注意力計(jì)算改為將序列中每個(gè)跨度向量hx與對(duì)應(yīng)上下文矩陣Cx進(jìn)行注意力計(jì)算。為了簡(jiǎn)單起見,忽略多頭注意力層的頭部索引,每個(gè)頭的計(jì)算公式如下:

    多頭注意力層輸出作為殘差網(wǎng)絡(luò)的輸入,殘差網(wǎng)絡(luò)與Transformer 編碼器相同,殘差網(wǎng)絡(luò)輸出后舍去詞的嵌入表示,僅將字符表示嵌入CRF[5]輸出層。

    2.5 CRF 輸出層

    注意力機(jī)制能夠?qū)μ卣鬟M(jìn)行融合,得到每個(gè)跨度的最大概率分布和標(biāo)簽,但標(biāo)簽之間相互獨(dú)立,無法解決相鄰標(biāo)簽之間的合理性問題。CRF 層通過在標(biāo)簽之間添加轉(zhuǎn)移矩陣分?jǐn)?shù)排除部分不合理標(biāo)簽序列,從而更容易獲得最佳預(yù)測(cè)序列。

    3 實(shí)驗(yàn)與結(jié)果分析

    3.1 數(shù)據(jù)集

    在MSRA[23]、OntoNotes 5.0[24]、PeopleDaily、Weibo[25]等4 個(gè)中文NER 數(shù)據(jù)集上評(píng)估所提模型:

    1)MSRA 數(shù)據(jù)集是由微軟亞洲研究院發(fā)布的一個(gè)新聞?lì)I(lǐng)域NER 數(shù)據(jù)集,實(shí)體類型主要包括LOC、ORG、PER。中文分詞在訓(xùn)練集中可用,但在測(cè)試集中不可用。

    2)OntoNotes 5.0 是OntoNotes 數(shù)據(jù)集 的最后 一個(gè)版本,由BBN 科技公司、科羅拉多大學(xué)、賓夕法尼亞大學(xué)和南加州大學(xué)信息科學(xué)研究所合作構(gòu)建。該語料庫由英語、漢語和阿拉伯語3 種語言的文本組成,本文僅使用其中的中文數(shù)據(jù)集。通過腳本將其處理為命名實(shí)體識(shí)別專用的BMES 格式后,包括數(shù)量、日期、事件、語言、法律、位置、金錢、組織、百分比、人名、產(chǎn)品、時(shí)間、藝術(shù)品等18 種粗粒度的實(shí)體類型。

    3)PeopleDaily:由《人民日?qǐng)?bào)》語料標(biāo)注而成,并標(biāo)注了LOC、ORG、PER 3 種命名實(shí)體,不包含人工標(biāo)注分詞。

    4)Weibo 數(shù)據(jù)集:由來自新浪微博的注釋NER信息組成。數(shù)據(jù)集包含PER、LOC、ORG、行政區(qū)名(GPE)等粗粒度實(shí)體類型,且每種實(shí)體都包括特指和泛指兩種細(xì)粒度實(shí)體類型。

    采用BMES 標(biāo)記格式,B 代表實(shí)體的首部,M 代表實(shí)體中部,E 代表實(shí)體尾部,O 代表非實(shí)體。由于BERT 輸入的最大長度限制為512,為了充分利用標(biāo)注數(shù)據(jù),對(duì)數(shù)據(jù)集進(jìn)行分段處理,當(dāng)句子長度大于200 時(shí)將句子以標(biāo)點(diǎn)符號(hào)為分隔符將句子分為多個(gè)片段,標(biāo)點(diǎn)劃分到之后片段的句首。根據(jù)數(shù)據(jù)集規(guī)模,按照不同比例劃分為訓(xùn)練集、驗(yàn)證集和測(cè)試集。處理后的數(shù)據(jù)集規(guī)模信息如表1 所示。

    表1 數(shù)據(jù)集規(guī)模信息Table 1 Dataset scale information

    3.2 評(píng)價(jià)指標(biāo)

    采用F1 值作為模型精度評(píng)價(jià)指標(biāo),F(xiàn)1 值的計(jì)算方法如式(12)~式(14)所示:

    其中:P代表精確率,即預(yù)測(cè)正確的實(shí)體數(shù)占所有預(yù)測(cè)為實(shí)體的數(shù)量的比例;R代表召回率,即預(yù)測(cè)正確的實(shí)體數(shù)占所有實(shí)際為實(shí)體的數(shù)量的比例;TP、FP、FN分別代表預(yù)測(cè)正確的實(shí)體數(shù)、預(yù)測(cè)為實(shí)體但實(shí)際不為實(shí)體的實(shí)體數(shù)、實(shí)際為實(shí)體但預(yù)測(cè)錯(cuò)誤的實(shí)體數(shù)。

    本文的目標(biāo)是在保持精度的情況下降低數(shù)據(jù)標(biāo)注代價(jià),因此還需定義一種標(biāo)注代價(jià)方面的評(píng)價(jià)指標(biāo)。在命名實(shí)體識(shí)別中,數(shù)據(jù)標(biāo)注代價(jià)與標(biāo)注字?jǐn)?shù)被認(rèn)為正相關(guān),且在主動(dòng)學(xué)習(xí)過程中存在波動(dòng),因此設(shè)定在主動(dòng)學(xué)習(xí)的多輪循環(huán)中添加標(biāo)注數(shù)據(jù),當(dāng)3 輪訓(xùn)練結(jié)果達(dá)到設(shè)定對(duì)應(yīng)F1 閾值時(shí),標(biāo)注數(shù)據(jù)集的總字?jǐn)?shù)更少則表現(xiàn)更好。

    3.3 對(duì)比實(shí)驗(yàn)

    3.3.1 實(shí)驗(yàn)設(shè)置

    所有實(shí)驗(yàn)都在主動(dòng)學(xué)習(xí)框架下完成。將已有訓(xùn)練集的2%初始化為標(biāo)注數(shù)據(jù)集,其他放入待標(biāo)注數(shù)據(jù)集(即不使用標(biāo)注,僅使用文本評(píng)估可信度),實(shí)驗(yàn)中的主動(dòng)學(xué)習(xí)策略統(tǒng)一設(shè)定為最低可信度策略。每個(gè)主動(dòng)學(xué)習(xí)循環(huán)添加2%訓(xùn)練集的標(biāo)注數(shù)據(jù),每個(gè)主動(dòng)學(xué)習(xí)循環(huán)通過主動(dòng)學(xué)習(xí)策略從無標(biāo)注數(shù)據(jù)集中選擇訓(xùn)練集句子總數(shù)2%的句子轉(zhuǎn)到標(biāo)注數(shù)據(jù)集(模擬現(xiàn)實(shí)中的人工標(biāo)注)。模型僅使用標(biāo)注數(shù)據(jù)集進(jìn)行訓(xùn)練,默認(rèn)訓(xùn)練100 個(gè)迭代(epoch),且25 次迭代沒有提升精度就結(jié)束訓(xùn)練。主動(dòng)學(xué)習(xí)算法的偽代碼如下:

    3.3.2 對(duì)比模型

    對(duì)比模型具體如下:

    1)基于主動(dòng)學(xué)習(xí)的CNN-CNN-LSTM[6]模型。

    2)在主動(dòng)學(xué)習(xí)框架中復(fù)現(xiàn)的FLAT[2]模型。

    3)Star_Trans 模型:由Star Transformer[22]和平面格柵結(jié)構(gòu)組合而來,在上下文向量Cx=cat(hx-1,hx,hx+1,ei,G)中保留Star Transformer 中用于多層疊加的ei節(jié)點(diǎn)。

    3.3.3 對(duì)比實(shí)驗(yàn)結(jié)果分析

    按照實(shí)驗(yàn)設(shè)置分別對(duì)4 個(gè)中文NER 數(shù)據(jù)集進(jìn)行實(shí)驗(yàn),各數(shù)據(jù)集的實(shí)驗(yàn)結(jié)果如圖2 所示。由圖2 可以看出,所提模型(簡(jiǎn)稱為Star_Frag)在MSRA 數(shù)據(jù)集上明顯優(yōu)于其他模型,且兩種基于全局節(jié)點(diǎn)的模型也都優(yōu)于FLAT 模型;在OntoNotes 5.0 數(shù)據(jù)集上,兩種基于全局節(jié)點(diǎn)的模型相差不多,略優(yōu)于FLAT 模型,明顯優(yōu)于CNN-CNN-LSTM 模型;在Weibo 數(shù)據(jù)集上,Star_Frag 明顯優(yōu)于其他模型,且兩種基于全局節(jié)點(diǎn)的模型也都優(yōu)于FLAT 模型;在PeopleDaily 數(shù)據(jù)集上,3 種模型相差不多,在標(biāo)注字?jǐn)?shù)小于200 000時(shí),F(xiàn)LAT 模型相對(duì)較差。

    圖2 對(duì)比實(shí)驗(yàn)結(jié)果Fig.2 Comparative experimental results

    通過圖2 分析比較直觀,但不夠精確。由于數(shù)據(jù)標(biāo)注代價(jià)與標(biāo)注字?jǐn)?shù)正相關(guān),并且不同數(shù)據(jù)集在主動(dòng)學(xué)習(xí)過程中存在波動(dòng),取模型3 次達(dá)到F1 閾值所需的標(biāo)注字?jǐn)?shù)為評(píng)價(jià)指標(biāo)。F1 閾值的取值以使用20%標(biāo)注數(shù)據(jù)時(shí)模型的平均結(jié)果為基準(zhǔn),結(jié)果如表2所示。根據(jù)表2 中的實(shí)驗(yàn)結(jié)果可得,Star_Frag 模型在4 個(gè)數(shù)據(jù)集上所需標(biāo)注代價(jià)更低,相較于FLAT 模型,達(dá)到對(duì)應(yīng)F1 閾值所需的標(biāo)注數(shù)據(jù)量分別降低了39.90%、2.17%、34.60% 和35.67%,取得了 最好的結(jié)果。

    表2 3 次達(dá)到F1 閾值所需的標(biāo)注字?jǐn)?shù)Table 2 Required number of annotated words to reach F1 threshold three times 單位:字

    3.4 消融實(shí)驗(yàn)

    消融實(shí)驗(yàn)的實(shí)驗(yàn)設(shè)置與對(duì)比實(shí)驗(yàn)相同。

    1)刪除片段節(jié)點(diǎn)(Star_withoutFa)。刪除片段節(jié)點(diǎn)Fa后的上下文矩陣Cx計(jì)算公式如下:

    在相對(duì)距離編碼計(jì)算時(shí),設(shè)定當(dāng)P代表G時(shí),都設(shè)定為1,表示所有跨度到全局節(jié)點(diǎn)的距離為1。

    2)刪除全局節(jié)點(diǎn)(Star_withoutG)。刪除全局節(jié)點(diǎn)G后的上下文矩陣Cx計(jì)算公式如下:

    在相對(duì)距離編碼計(jì)算時(shí),設(shè)定當(dāng)P代表Fa時(shí),都設(shè)定為1,表示所有跨度到片段節(jié)點(diǎn)的距離為1。

    消融實(shí)驗(yàn)結(jié)果如圖3 所示,由圖3 可以看出:在MSRA 數(shù)據(jù)集上,刪除全局節(jié)點(diǎn)的模型表現(xiàn)最差,其次是刪除片段節(jié)點(diǎn)的模型,Star_Frag 模型表現(xiàn)最好;在OntoNotes 5.0 數(shù)據(jù)集上,3 種模型相差不大,無法明顯區(qū)分;在Weibo 數(shù)據(jù)集上,刪除片段節(jié)點(diǎn)的模型表現(xiàn)最差,其次是刪除全局節(jié)點(diǎn)的模型,Star_Frag 模型表現(xiàn)最好;在PeopleDaily 數(shù)據(jù)集上,3 種模型在200 000 字之前相差不大,在200 000 字之后Star_Frag 模型相對(duì)更好。

    圖3 消融實(shí)驗(yàn)結(jié)果Fig.3 Ablation experimental results

    3.5 參數(shù)分析實(shí)驗(yàn)

    Transformer 和Star-Transformer 的編碼 器都設(shè)置了多層疊加結(jié)構(gòu),但在FLAT 模型中僅使用1 層。對(duì)此進(jìn)行參數(shù)分析實(shí)驗(yàn),為了節(jié)約訓(xùn)練時(shí)間,參數(shù)分析實(shí)驗(yàn)僅進(jìn)行10 個(gè)主動(dòng)學(xué)習(xí)循環(huán),每次添加100 句句子。實(shí)驗(yàn)結(jié)果如圖4 所示,由圖4 可以看出,實(shí)驗(yàn)結(jié)果沒有隨著編碼器疊加層數(shù)的增加而變好,在疊加3 層時(shí)F1 值甚至?xí)霈F(xiàn)明顯的下降趨勢(shì),因此多層疊加編碼器在當(dāng)前結(jié)構(gòu)中不會(huì)帶來性能提升。

    圖4 參數(shù)分析實(shí)驗(yàn)結(jié)果Fig.4 Parameter analysis experimental results

    4 結(jié)束語

    本文提出一種融合全局節(jié)點(diǎn)和片段節(jié)點(diǎn)的格柵命名實(shí)體識(shí)別模型,通過全局節(jié)點(diǎn)和片段節(jié)點(diǎn)的結(jié)構(gòu)有效減少了標(biāo)注數(shù)據(jù)的需求量,對(duì)Flat-Lattice 結(jié)構(gòu)的改進(jìn)可有效添加詞匯信息,避免了人工分詞。對(duì)比實(shí)驗(yàn)結(jié)果表明,所提模型達(dá)到對(duì)應(yīng)F1 閾值所需的標(biāo)注數(shù)據(jù)量相比于已有命名實(shí)體識(shí)別模型更少,有效降低了標(biāo)注代價(jià)。后續(xù)將對(duì)主動(dòng)學(xué)習(xí)策略進(jìn)行改進(jìn),利用CRF 層的轉(zhuǎn)移矩陣和輸出分?jǐn)?shù)評(píng)價(jià)樣本質(zhì)量,進(jìn)一步降低標(biāo)注代價(jià)。

    猜你喜歡
    分詞跨度命名
    緩粘結(jié)預(yù)應(yīng)力技術(shù)在大跨度梁中的應(yīng)用
    命名——助力有機(jī)化學(xué)的學(xué)習(xí)
    大跨度連續(xù)剛構(gòu)橋線形控制分析
    結(jié)巴分詞在詞云中的應(yīng)用
    組合鋁合金立柱在超大跨度玻璃幕墻中的應(yīng)用
    上海建材(2018年4期)2018-11-13 01:08:54
    有一種男人以“暖”命名
    東方女性(2018年3期)2018-04-16 15:30:02
    為一條河命名——在白河源
    散文詩(2017年17期)2018-01-31 02:34:08
    值得重視的分詞的特殊用法
    探討大跨度門式起重機(jī)運(yùn)行偏斜的問題
    河南科技(2014年24期)2014-02-27 14:19:37
    高考分詞作狀語考點(diǎn)歸納與疑難解析
    岢岚县| 阳泉市| 彭泽县| 夏河县| 临城县| 罗平县| 南涧| 嘉鱼县| 玉门市| 东阳市| 浦城县| 会东县| 舒城县| 清涧县| 江都市| 连平县| 观塘区| 文化| 淮北市| 菏泽市| 博客| 新巴尔虎左旗| 图片| 汝州市| 长宁县| 景谷| 松阳县| 东乡族自治县| 东阿县| 普安县| 津市市| 孙吴县| 饶阳县| 循化| 陇川县| 修武县| 绵阳市| 明光市| 剑河县| 大安市| 会泽县|