摘 要:
近些年來,提示學(xué)習(xí)在小樣本命名實(shí)體識別任務(wù)上得到了廣泛應(yīng)用。然而,命名實(shí)體識別仍然是一個(gè)令牌級的標(biāo)記任務(wù),在通過提示模板調(diào)動(dòng)預(yù)訓(xùn)練知識時(shí),很容易忽略新實(shí)體類型的語義信息。為此,提出了一個(gè)語義優(yōu)先的提示學(xué)習(xí)方法。具體來說,首先檢測少量示例中實(shí)體類型蘊(yùn)涵的語義信息,然后將實(shí)體語義信息和詢問實(shí)體位置的提示模板輸入模型中,利用模型中的非自回歸解碼器并行預(yù)測來提取實(shí)體;此外,為了確保語義信息與實(shí)體類型的關(guān)聯(lián)性,使用對比學(xué)習(xí)的方法來訓(xùn)練一個(gè)分類器,以去除與實(shí)體類型無關(guān)的語義信息;最后在兩個(gè)常用的公共基準(zhǔn)數(shù)據(jù)集上評估了所提方法,實(shí)驗(yàn)結(jié)果證明了該方法的有效性。
關(guān)鍵詞:小樣本命名實(shí)體識別;提示學(xué)習(xí);語義信息;對比學(xué)習(xí)
中圖分類號:TP391"" 文獻(xiàn)標(biāo)志碼:A""" 文章編號:1001-3695(2024)12-013-3622-06
doi: 10.19734/j.issn.1001-3695.2024.04.0160
Entity semantic-priority prompt learning method for few-shot named entity recognition
He Li1,2, Zeng Xiaoyong1,2, Liu Jie1,2, Duan Jianyong1,2, Wang Hao1,2
(1.School of Information, North China University of Technology, Beijing 100144, China; 2. CNONIX National Standard Application amp; Promotion Laboratory, Beijing 100144, China)
Abstract:
In recent years, prompt learning has been widely applied in few-shot named entity recognition tasks. However, named entity recognition remains a token-level tagging task that can easily overlook the semantic information of new entity types when mobilizing pre-trained knowledge via prompt templates. To address this issue, this paper proposed a semantic-priority prompt learning method. Specifically, the method firstly detected semantic information implied by entity types in a few examples, then the entity semantic information, along with a prompt template for querying entity positions, was input into the model. The model utilized a non-autoregressive decoder for parallel entity extraction. Additionally, considering the correlation between semantic information and entity types, this paper employed a contrastive learning approach to train a classifier, aiming to remove semantic information unrelated to entity types. Finally, the proposed method was evaluated on two common public benchmark datasets, and the experimental results demonstrate its effectiveness.
Key words:few-shot named entity recognition; prompt learning; semantic information; contrastive learning
0 引言
命名實(shí)體識別(named entity recognition, NER)是一項(xiàng)在文本中定位實(shí)體位置并按照預(yù)先定義的類型對其分類的任務(wù),如組織、地點(diǎn)等。傳統(tǒng)的命名實(shí)體識別方法在有大量標(biāo)注的數(shù)據(jù)的基礎(chǔ)上取得了優(yōu)秀的成績[1,2],但標(biāo)注數(shù)據(jù)不足的問題影響了方法的泛用性,于是,只依賴少量示例識別新實(shí)體的方法受到了關(guān)注[3,4]。
在眾多解決小樣本任務(wù)的方法中,提示學(xué)習(xí)將下游任務(wù)轉(zhuǎn)換為語言建模任務(wù)[5],用與人類相似的自然語言的方式構(gòu)建提示,引導(dǎo)模型完成下游任務(wù)與預(yù)訓(xùn)練目標(biāo)的對齊,展現(xiàn)了良好的性能和效率[6]。典型命名實(shí)體識別任務(wù)的提示學(xué)習(xí)方法主要是通過模板引導(dǎo)模型枚舉所有跨度,預(yù)測每個(gè)跨度的實(shí)體類型[7]并假定輸入中的實(shí)體數(shù)量,使用大于假定值數(shù)量的提示模板完成實(shí)體標(biāo)注任務(wù)[8]。假定一個(gè)長度為N,實(shí)體類型數(shù)為C的輸入,提示建立的方法如圖1所示。為了解決這些方法存在過度耗時(shí)的問題,于是提出了無模板的方法[9],通過遠(yuǎn)程數(shù)據(jù)集獲取標(biāo)簽詞來替換實(shí)體進(jìn)行直接預(yù)測的方法減少了耗時(shí),但是遠(yuǎn)程數(shù)據(jù)集的標(biāo)注影響了方法的準(zhǔn)確度和泛用性。
雖然這些方法也取得了相當(dāng)程度的成功,但是實(shí)體類型的語義信息仍然被低估,實(shí)體識別被定義為單純的分類任務(wù),僅僅將實(shí)體類型替換成為了無意義的類別ID,這在小樣本任務(wù)中遇到新領(lǐng)域未見過的實(shí)體類型時(shí)會(huì)影響模型識別能力。比如要識別“武器”這個(gè)新實(shí)體類型,將其簡單地替換為“type12”,會(huì)阻止模型從中了解其中的語義信息,即“用于進(jìn)攻或防御的器械”。
為了解決這個(gè)問題,本文提出了一種面向小樣本命名實(shí)體識別的實(shí)體語義優(yōu)先提示學(xué)習(xí)框架(entity semantics-first prompt learning framework for few-shot named entity recognition, ESPNER),核心思想是通過捕捉實(shí)體類型的語義信息,然后和詢問實(shí)體位置的提示組成提示模板進(jìn)行實(shí)體識別。即通過“武器是刀,手槍,炸彈等,__是武器”的語義提示來引導(dǎo)模型。具體來說,實(shí)體語義優(yōu)先的提示學(xué)習(xí)框架主要由實(shí)體語義檢測和實(shí)體定位兩個(gè)模塊組成。對于實(shí)體語義檢測模塊,首先根據(jù)少量示例提取一組語義信息,即該實(shí)體類型的概念與解釋。然后用對比學(xué)習(xí)思想[10]訓(xùn)練的分類器過濾掉不相關(guān)的語義信息。對于實(shí)體定位模塊,將命名實(shí)體識別任務(wù)轉(zhuǎn)換為填空任務(wù),用實(shí)體類型的語義信息引導(dǎo)模型填補(bǔ)實(shí)體位置空槽,解碼出句子中的實(shí)體位置。值得注意的是,本文方法提問的次數(shù)與實(shí)體類型數(shù)量一致,同時(shí)不依賴遠(yuǎn)程數(shù)據(jù)集,實(shí)現(xiàn)了效率與準(zhǔn)確度的統(tǒng)一。
本文的主要貢獻(xiàn)如下:
a)提出了一個(gè)語義優(yōu)先的提示學(xué)習(xí)網(wǎng)絡(luò)(ESPNER),用于小樣本命名實(shí)體識別任務(wù),首先檢測實(shí)體類型的語義,然后通過提示學(xué)習(xí)提取實(shí)體位置;
b)為了減輕無用信息的負(fù)面影響,保證語義信息與實(shí)體類型的相關(guān)性,利用對比學(xué)習(xí)的思想訓(xùn)練了一個(gè)分類器,過濾不相關(guān)的實(shí)體語義信息;
c)在兩個(gè)公開的小樣本命名實(shí)體識別數(shù)據(jù)集上的實(shí)驗(yàn)結(jié)果表明,本文方法在小樣本任務(wù)下能達(dá)到最優(yōu)水平,且能有效處理未見過的新型實(shí)體類型。
1 相關(guān)研究
1.1 小樣本命名實(shí)體識別任務(wù)
小樣本命名實(shí)體識別任務(wù)受到了研究人員的極大關(guān)注,其基于微調(diào)的方法通過少量實(shí)例重新調(diào)整模型權(quán)重,完成新類型識別任務(wù)[11,12]。該方法效果突出,但有著訓(xùn)練成本高昂的問題,對標(biāo)注數(shù)據(jù)和訓(xùn)練時(shí)間要求較高?;诙攘康姆椒ㄍㄟ^比較新實(shí)例和原型來識別實(shí)體[13],降低了訓(xùn)練要求,但也面臨領(lǐng)域漂移的問題。近些年來,為了解決這些問題,涌現(xiàn)出了很多新方法。Huang等人[14]對小樣本NER任務(wù)進(jìn)行對比研究,發(fā)現(xiàn)帶噪聲的監(jiān)督預(yù)訓(xùn)練可以顯著提高識別準(zhǔn)確度。Huang等人[15]將實(shí)體類別縮寫進(jìn)行補(bǔ)全,然后對跨度和實(shí)體類型用對比學(xué)習(xí)訓(xùn)練。
Chen等人[16]提出一種基于上下文學(xué)習(xí)的NER方法,通過將訓(xùn)練模型與微調(diào)的模型提取特征向量對齊,完成上下文學(xué)習(xí)的預(yù)訓(xùn)練。文獻(xiàn)[17,18]利用雙塔 BERT 來分別對文本和標(biāo)簽進(jìn)行編碼,取得了很好的效果,證明了實(shí)體類型語義的重要性,不過在進(jìn)行小樣本NER時(shí),需要對未見過的實(shí)體類型進(jìn)行手動(dòng)解釋,損害了模型的泛用性。所以本文方法利用示例來挖掘語義信息,而非人為補(bǔ)充。
1.2 提示學(xué)習(xí)
提示學(xué)習(xí)涉及將輸入信息嵌入到預(yù)定義的模板中,并將不同類型的下游任務(wù)轉(zhuǎn)換為一致的填空任務(wù),巧妙地調(diào)用預(yù)訓(xùn)練階段的知識。提示學(xué)習(xí)憑借效率和準(zhǔn)確度在分類和生成任務(wù)中取得了良好的效果[6,19]。Cui等人[7]首次在命名實(shí)體識別任務(wù)中使用提示學(xué)習(xí)。該方法是為每一個(gè)跨度構(gòu)建一個(gè)“[X] is a [MASK] entity”的提示來進(jìn)行實(shí)體識別,一個(gè)簡單句子需要冗長的多輪推理。Ma 等人[9]為了解決這個(gè)問題,提出了無模板的提示學(xué)習(xí)方法,通過尋找文本單詞中近義詞的方法,擺脫了模板的依賴,提高了識別效率,但是在缺乏標(biāo)注的識別場景不能很好地發(fā)揮作用。Lee等人[20]在提示中引入示例,通過舉例引導(dǎo)模型理解命名實(shí)體任務(wù),提高了識別效率。另一類提示學(xué)習(xí)方法是利用問答的方式引導(dǎo)模型進(jìn)行實(shí)體識別[21]。Shen等人[8]在提示中加入多個(gè)實(shí)體和實(shí)體類型的空槽,使用二分匹配一次性為空位分配標(biāo)簽和實(shí)體。Ye等人[22]通過流水線的方法首先定位實(shí)體位置,然后構(gòu)建提示模板完成實(shí)體識別。這些方法完成了標(biāo)注任務(wù)和提示學(xué)習(xí)的結(jié)合。本文方法與上述不同,首先檢測實(shí)體類型的語義,然后通過提示學(xué)習(xí)提取該實(shí)體類型的位置。
2 模型
本章將詳細(xì)介紹整體模型,整個(gè)模型架構(gòu)如圖2所示,由實(shí)體語義檢測模塊和實(shí)體定位模塊兩個(gè)部分組成。
2.1 問題定義
命名實(shí)體識別任務(wù)通常被視為一個(gè)序列標(biāo)注任務(wù)。對于每個(gè)輸入句子χ={x1,x2,…,xi,…,xn},NER 模型旨在為每個(gè)標(biāo)記 xi分配一個(gè)標(biāo)簽 ti∈T,其中T是一個(gè)預(yù)定義的標(biāo)簽集。分配的標(biāo)簽顯示了標(biāo)記是否是命名實(shí)體的一部分或不在任何實(shí)體類別中。
小樣本命名實(shí)體識別任務(wù)即對于新的實(shí)體類別,只為NER模型提供非常有限的注釋作為監(jiān)督。具體來說,在一個(gè)具有標(biāo)簽空間C的數(shù)據(jù)集Dsupport上訓(xùn)練一個(gè)少樣本NER模型,其中每個(gè)實(shí)體類別只有K個(gè)樣本。然后,使用相同標(biāo)簽空間C的查詢集Dquery對模型進(jìn)行評估。預(yù)訓(xùn)練模型需要僅憑少量訓(xùn)練樣本學(xué)習(xí)NER任務(wù)。
2.2 整體框架概述
按照文獻(xiàn)[7],本文將命名實(shí)體識別任務(wù)建模為一個(gè)填空任務(wù)。具體來說,對于一個(gè)長度為N的句子X,按預(yù)設(shè)的模板格式,插入M個(gè)固定的提示和一個(gè)類型語義提示,并與 X 相結(jié)合,形成一個(gè)完整的輸入序列 T,如圖1所示。在這個(gè)序列中,模型在整個(gè)句子中識別出命名實(shí)體,同時(shí)填充至每個(gè)提示的位置插槽 [P]。
利用實(shí)體語義檢測模塊,將少量示例變成詞向量后與初始化向量進(jìn)行注意力計(jì)算,得到實(shí)體類型的語義信息后,進(jìn)行語義篩選,去除不相關(guān)的信息,保證提示的準(zhǔn)確性,最后通過實(shí)體位置查詢提示和實(shí)體類型信息計(jì)算實(shí)體的位置,完成小樣本實(shí)體識別。接下來將分別介紹實(shí)體語義檢測模塊和實(shí)體定位模塊。
2.3 實(shí)體語義檢測模塊
2.3.1 候選語義檢測
為了將少數(shù)有標(biāo)注句子和實(shí)體類型轉(zhuǎn)換為向量表示,使用BERT[23,24]作為特征編碼器。給定訓(xùn)練樣本 χ={x1,x2,…,xi,…,xn}, xi表示這個(gè)句子里面的第i個(gè)字符,然后與需要檢測實(shí)體語義的實(shí)體類型t組成引導(dǎo)模板γ,如該實(shí)體類型t是“weapon”,那么引導(dǎo)模板就是“[CLS] weapon”,即將χ和γ拼接起來作為BERT的輸入:
Q=[CLS]χ[SEP]γ[SEP](1)
其中:[CLS]表示句子的開頭;[SEP]用于提示實(shí)體類型。將引導(dǎo)模板輸入BERT后,可以得出其特征向量。
He=BERT([Q])=BERT([x1,…,xn,t])=[hcls,h1,…,hn,ht](2)
其中:t表示實(shí)體類型;h表示訓(xùn)練樣本和實(shí)體類型的隱藏狀態(tài);He是整個(gè)輸入特征的向量表示。獲得了句子和實(shí)體類型的特征向量之后,使用基于Transformer[25]非自回歸解碼器預(yù)測實(shí)體類型包含在句子中的潛在語義信息。如圖2所示,解碼器的輸入初始化使用nq個(gè)可學(xué)習(xí)的嵌入向量E ∈Euclid ExtraaBpnq×d,其中nq為實(shí)體類型中語義數(shù)量的最大值。在這里使用基于標(biāo)記的交叉注意力,將特征向量He也作為輸入的一部分,經(jīng)過注意力計(jì)算輸出向量表示為Hs ∈Euclid ExtraaBpnq×d,實(shí)體類型的語義由式(3)計(jì)算獲得。
2.3.2 語義篩選
經(jīng)過候選語義檢測模塊之后,獲得實(shí)體類型的語義信息,如“GPE: country, sovereign state,capital”,即該新型實(shí)體類型在少數(shù)標(biāo)注語例中包含的信息,這些信息對于模型識別未見過的實(shí)體類型的實(shí)體有指導(dǎo)作用。而候選語義判斷在預(yù)測一組潛在語義信息后,計(jì)算語義信息和實(shí)體類型的關(guān)聯(lián)程度,過濾掉不相關(guān)的,以有效生成實(shí)體定位提示。將候選語義檢測模塊中解碼器的輸出特征矩陣Hs和[CLS]通過一個(gè)語義篩選模塊即一個(gè)二元分類器[26]解析出一個(gè)布爾掩碼向量M,來對候選語義信息進(jìn)行篩選:
M=σ(Ws[Hs;cls]+bs)(4)
其中:Ws是可訓(xùn)練的權(quán)重;bs是偏置;σ是sigmoid激活函數(shù)。值越高,實(shí)體類包含該實(shí)體語義的可能性就越高,越低則相反。在這一步中,對于每個(gè)實(shí)體類型,分類器過濾掉無用的語義信息,并預(yù)測一個(gè)子集Ri∈Euclid ExtraaBp來保留與實(shí)體類型相關(guān)性高的語義信息。如果實(shí)體類型包含第j個(gè)語義信息,它將被保留在Ri中,然后被輸入到實(shí)體定位模塊中,以幫助識別實(shí)體對。
為了保證指導(dǎo)信息的正向作用,采用對比學(xué)習(xí)的思想訓(xùn)練分類器,以此來過濾不相關(guān)的語義信息。首先利用Wikidata數(shù)據(jù)集建立實(shí)體類別集合x,隨機(jī)抽取Wikidata中每一個(gè)項(xiàng)的各個(gè)屬性值作為正樣本對(xt,v[t]),如圖3所示。然后通過隨機(jī)抽取與該項(xiàng)無關(guān)的分類標(biāo)簽作為負(fù)樣本對,訓(xùn)練分類器縮小與正樣本對之間的表示距離,同時(shí)增大與負(fù)樣本對之間的表示距離。對于標(biāo)記xt,用式(5)計(jì)算對比損失[27]。
2.4 實(shí)體定位模塊
2.4.1 提示構(gòu)建
與以往構(gòu)建提示的方法不同,本文方法將實(shí)體類型和實(shí)體類型的語義統(tǒng)一至提示里面,通過語義信息引導(dǎo)模型完成實(shí)體定位。實(shí)體定位模塊的輸入序列主要由兩部分構(gòu)成:第一部分是實(shí)體類型語義信息,以及預(yù)定義數(shù)量的實(shí)體位置槽作為提示M,通過填充空位的方式完成實(shí)體定位;另一部分是輸入的句子X。例如,對于一個(gè)句子“Musk was not born in the United States”和實(shí)體類型“LOC”,默認(rèn)的實(shí)體語義優(yōu)先的輸入序列可以表示為
T={LOC is country…,[Pi] is a LOC entity}i=1,2…M[cls]Musk was not born in the United State(7)
其中:“[Pi]是某類型的實(shí)體”是第i個(gè)提示;[P]表示其位置槽,表示句子中實(shí)體的位置;M為提示的數(shù)量。
2.4.2 實(shí)體定位
模型運(yùn)行如圖4所示,即根據(jù)語義檢測模塊中抽取出來的實(shí)體類型語義信息組成提示模板,然后根據(jù)提示定位實(shí)體位置,完成實(shí)體識別。
實(shí)體定位模塊同樣使用BERT編碼器對輸入序列T進(jìn)行編碼,如式(2)所示,但在編碼時(shí)使用掩碼阻止提示和句子進(jìn)行交叉注意力計(jì)算。得到提示的特征嵌入和原句的特征嵌入,這個(gè)組件利用語義提示和實(shí)體類型提示定位相應(yīng)實(shí)體的位置,完成實(shí)體識別。即使用與語義檢測模塊相似的非自回歸Transformer解碼器作為實(shí)體對提取器,在每個(gè)Transformer層中,多頭自注意力用于建模提示位置槽與實(shí)體類型語義信息之間的關(guān)聯(lián),查詢、鍵、值都來自提示向量,用自注意力對提示序列內(nèi)部各部分關(guān)聯(lián)程度進(jìn)行計(jì)算,而多頭交叉注意力用于融合輸入序列句子信息,查詢向量來自于提示序列,鍵和值來自文本序列,計(jì)算提示序列中信息與文本序列信息相似度。
M個(gè)提示序列經(jīng)過解碼器之后,轉(zhuǎn)換為M個(gè)輸出嵌入,記為Hd ∈Euclid ExtraaBpM×d。隨后這些輸出嵌入Hd與原始文本的嵌入He表示被獨(dú)立解碼為實(shí)體的左邊界和右邊界。通過前饋神經(jīng)網(wǎng)絡(luò)完成最后的實(shí)體定位。具體而言,給定Hd中的一個(gè)輸出嵌入hd∈Euclid ExtraaBpd,預(yù)測的實(shí)體位置由式(8)(9)給出。
2.5 模型訓(xùn)練
模型使用維基百科數(shù)據(jù)和Wikidata[29]進(jìn)行預(yù)訓(xùn)練,維基百科龐大的原始文本可以使用填空的方式[23]幫助模型提高對文本的基礎(chǔ)理解能力,同時(shí)利用維基百科和Wikidata的關(guān)聯(lián)構(gòu)建文本、實(shí)體、實(shí)體類,Wikidata 中的條目視為實(shí)體,“instance of”“subclass of”和“occupation”作為實(shí)體類。其次,使用 Wikipedia 中的錨文本和其條目頁面前 3的名詞短語作為實(shí)體,通過將其鏈接到其 Wikidata 項(xiàng)目的類型來識別其實(shí)體類型。給定一個(gè)實(shí)體類型,收集與之描述相同實(shí)體的實(shí)體類型作為其語義信息的描述。通過這種方法構(gòu)建了實(shí)體類型和解釋其語義概念的集合,使用通用的交叉熵函數(shù)利用此集合,獲取預(yù)測語義pSσ(i)與實(shí)際語義ysi的差距作為損失值,K為語義信息數(shù)量:
ζ =-∑Ki=1logpSσ*(i)(ysi)(10)
根據(jù)實(shí)體在文本中的順序進(jìn)行排序,實(shí)體定位的損失函數(shù)計(jì)算公式如下:
ζ=-∑Mi=11{ti≠}[logplσ(i)(li)+logprσ(i)(ri)](11)
其中:M是提示的預(yù)定義數(shù)量;1{ti≠}是一個(gè)指示函數(shù),用來判斷提示的位置槽是否為空,如果為空則取值為0,如果不為空則取值為1。句子中相同實(shí)體類型的實(shí)體數(shù)是有限的,所以有一部分提示中實(shí)體位置為空,利用指示函數(shù)將為空提示的損失值直接置為零,計(jì)算非空的提示時(shí),plσ(i)為模型預(yù)測的實(shí)體左邊界, (li)為實(shí)體實(shí)際左邊界,右邊界也是同理,再利用交叉熵函數(shù)計(jì)算左右邊界預(yù)測和實(shí)際之間的差值,然后相加即為該條提示的損失值,進(jìn)行M次累加。
3 實(shí)驗(yàn)
3.1 數(shù)據(jù)集和評價(jià)指標(biāo)
和之前工作一樣[8,11],本文使用開放的維基百科數(shù)據(jù)和Wikidata為模型進(jìn)行預(yù)訓(xùn)練。維基百科含有豐富的實(shí)體知識,這對于命名實(shí)體識別、關(guān)系提取、實(shí)體鏈接等實(shí)體相關(guān)任務(wù)非常有用。維基百科龐大語料庫可以有效訓(xùn)練模型的理解能力。維基百科中的實(shí)體相關(guān)超鏈接稱為wiki錨點(diǎn),這些錨點(diǎn)主要為位置注釋,模型使用這部分注釋的數(shù)據(jù)來訓(xùn)練模型的定位能力。本文使用CoNLL-2003[30] 和MIT-Movie[31]兩個(gè)常用命名實(shí)體識別數(shù)據(jù)集進(jìn)行微調(diào)和評估,主要評估標(biāo)準(zhǔn)為P(準(zhǔn)確率)、R(召回率)、F1分?jǐn)?shù)。
a)CoNLL-2003。該數(shù)據(jù)集最初是為 NER 上的共享任務(wù)創(chuàng)建的,內(nèi)容是路透社新聞報(bào)道的文檔集合,有人名(PER)、組織名(ORG)、地名(LOC)和雜項(xiàng)(Miscellaneous)四種不同類型的命名實(shí)體標(biāo)簽。
b)MIT-Movie。該數(shù)據(jù)集是一個(gè)用于電影劇本解析的數(shù)據(jù)集,它主要關(guān)注于劇本的結(jié)構(gòu)化元素,如場景、行動(dòng)和對話。它包含了劇本中的多種實(shí)體類型,如場景(scene)、行動(dòng)(action)、對話(dialogue)、角色(character)等12種實(shí)體類型。
3.2 基線模型
為了全面評估語義優(yōu)先的提示學(xué)習(xí)方法(ESPNER)的有效性,本文選取了一些具有代表性面向小樣本命名實(shí)體識別任務(wù)的模型作為基線模型:
a)NNShot[32]是一種通過比較每個(gè)標(biāo)記(例如單詞)的相似性來識別新的類別或?qū)嶓w的簡單方法。
b)StructShot[33]在NNShot的基礎(chǔ)上添加了額外的Viterbi解碼器。
c)TemplateNER[7]是一種構(gòu)造提示模板的方法,通過枚舉所有可能的跨度,完成實(shí)體識別。
d)EntLM[9]是一種不構(gòu)造模板的提示學(xué)習(xí)方法,主要方法是預(yù)測實(shí)體位置上與類相關(guān)的中心單詞。
e)COPNER[15]構(gòu)建包含特定類別關(guān)鍵詞(如“person”對應(yīng)人名類別PER)的提示完成實(shí)體識別,并采用對比學(xué)習(xí)技術(shù)來優(yōu)化標(biāo)記的嵌入表示。
f)TFP[34]是一種基于提示的對比學(xué)習(xí)方法,用于小樣本NER,無須模板構(gòu)建和標(biāo)簽詞映射。
3.3 參數(shù)設(shè)置和評估標(biāo)注
使用BERT-Base-Cased English模型作為模型嵌入層,非自回歸解碼器中Transformer塊的數(shù)量被設(shè)置為3。模型采用AdamW優(yōu)化器,批量大小為8,進(jìn)行了100個(gè)周期的訓(xùn)練。對于預(yù)訓(xùn)練參數(shù),設(shè)置學(xué)習(xí)率為1E-5;對于交叉注意力,學(xué)習(xí)率為5E-5;對于其他部分,學(xué)習(xí)率為7E-5。預(yù)定義提示數(shù)量M設(shè)置為10,可學(xué)習(xí)的嵌入數(shù)量nq設(shè)置為8。
模型的最終結(jié)果采用準(zhǔn)確率precision、召回率recall和綜合評價(jià)指標(biāo)F1三個(gè)指標(biāo)作為模型性能的評價(jià)標(biāo)準(zhǔn)。
3.4 對比實(shí)驗(yàn)
在各數(shù)據(jù)集上的實(shí)驗(yàn)結(jié)果如表1所示。本文ESPNER方法和其他常用的小樣本命名實(shí)體識別方法相比,在CoNLL-2003和MIT-Movie上性能均有提升。其中在CoNLL-2003上,樣本條件為5和10的情況下能夠分別提升1.29和1.15百分點(diǎn)。在MIT-Movie上,樣本條件為5和10的情況下能夠分別提升1.59和1.3百分點(diǎn)。實(shí)驗(yàn)結(jié)果證明了ESPNER在小樣本命名實(shí)體任務(wù)的有效性。
通過分析實(shí)驗(yàn)的結(jié)果,可以得出以下結(jié)論:
本文方法與常用的小樣本命名實(shí)體識別方法相比,在CoNLL-2003與MIT-Movie兩個(gè)數(shù)據(jù)集上均有所提升,其中標(biāo)注樣本為5和10時(shí)效果比較明顯,而隨著標(biāo)注樣本量的上升,優(yōu)勢逐漸變小。這說明了本文方法在小樣本情況下的有效性,同時(shí)也說明了對實(shí)體類型語義概念的解釋,可以幫助模型理解命名實(shí)體識別任務(wù)。隨著標(biāo)注數(shù)據(jù)量的增多,效果逐漸不明顯,可能的原因在于,語義信息作為提示可以幫助模型理解命名實(shí)體識別任務(wù)中未見過的實(shí)體類型,而隨著標(biāo)注數(shù)據(jù)量的上升,模型通過標(biāo)注材料上下文得到的語義信息,比直接使用模型總結(jié)出來的信息更為準(zhǔn)確,更加貼近實(shí)體類型的真實(shí)語義。這就導(dǎo)致提示中對實(shí)體類型語義的概括信息在標(biāo)注數(shù)據(jù)充足時(shí),對模型完成實(shí)體識別任務(wù)便無法發(fā)揮正向作用了。所以可以說,本文提出的語義優(yōu)先的提示方法主要針對樣本量不足的情況,通過包含語義信息的提示對新實(shí)體類型和預(yù)訓(xùn)練階段知識進(jìn)行對齊,有效增加了對新實(shí)體類型的理解,提高了模型的泛化能力。
總的來說,本文方法引入實(shí)體語義信息對于缺乏標(biāo)注材料的新領(lǐng)域的實(shí)體識別至關(guān)重要,大大提高了模型遷移預(yù)訓(xùn)練知識的能力。其次,實(shí)體語義檢測模塊的語義篩選,將每個(gè)實(shí)體類型的無用甚至負(fù)面語義信息進(jìn)行了過濾,保證了實(shí)體語義的準(zhǔn)確性。從另一種角度上來說,過濾無關(guān)和負(fù)面語義信息為進(jìn)行實(shí)體提取提供了額外的幫助。
3.5 消融實(shí)驗(yàn)
為了分析語義信息、提示學(xué)習(xí)和語義篩選的有效性,本節(jié)進(jìn)行了以下消融實(shí)驗(yàn):
a)ESPNER w/o semantic。直接使用實(shí)體類型作為提示,不再使用實(shí)體類型的語義信息,例如LOC、ORG。從表2可知,去除了提示中的語義信息之后,兩個(gè)數(shù)據(jù)集的F1值都有一定程度的降低,這證明了語義信息可以幫助模型理解實(shí)體類型完成NER。同時(shí),使用實(shí)體類型作為提示后,在精確度下降的情況下,召回率有所提高,原因可能是實(shí)體類型作為提示相比起包含語義信息的提示放寬了標(biāo)準(zhǔn),識別出來的實(shí)體中假陽性樣本增多,影響了精確度。
b)ESPNER w/o prompt。將實(shí)體定位模塊獲得的提示嵌入替換為可訓(xùn)練嵌入,如結(jié)果所示,性能顯著下降??梢杂^察到,如果提示僅由可訓(xùn)練嵌入表示,則模型無法依靠提示信息完成預(yù)訓(xùn)練知識與新領(lǐng)域識別任務(wù)的對齊,理解識別未見過實(shí)體類型,容易造成實(shí)體識別錯(cuò)誤。說明包含語義信息的提示模板可以捕獲實(shí)體類型的細(xì)粒度語義信息,這有助于提取實(shí)體。
c)ESPNER w/o filter。直接使用實(shí)體語義檢測模塊中生成的語義信息,而不經(jīng)過語義篩選模塊的過濾。實(shí)驗(yàn)表明,去除篩選模塊造成了模型性能下降,這表明該語義篩選模塊有助于減少不相關(guān)的語義信息帶來的噪聲。
3.6 實(shí)體類型的語義
為了驗(yàn)證語義信息的有效性[35],在消融實(shí)驗(yàn)中,將實(shí)體類型的語義簡化為實(shí)體名稱來驗(yàn)證語義對小樣本NER的作用。為了進(jìn)一步驗(yàn)證不同實(shí)體類型的語義作為提示標(biāo)簽對模型性能的影響,本文在CoNLL-2003數(shù)據(jù)上展開了實(shí)驗(yàn),結(jié)果如圖5所示。
a)語義優(yōu)先的提示,即本文方法。b)無語義的提示,即提示中不包含關(guān)于實(shí)體類型有意義的信息。即將實(shí)體類型和其類型的語義改為隨機(jī)的無意義標(biāo)簽,如“l(fā)ocation is port, park, city, country”改為“type11”,這模擬了少數(shù)標(biāo)注樣本無法提供足夠語義信息的情況,同時(shí)評估在輸入中給定無意義信息對模型性能的影響。與語義標(biāo)簽相比,在1和5樣本設(shè)置中結(jié)果下降比較明顯,隨著標(biāo)注樣本的增大,逐漸恢復(fù)到了與語義標(biāo)簽相當(dāng)?shù)乃剑@表明實(shí)體語義信息對模型完成小樣本實(shí)體識別有著重要作用,因此需要保證實(shí)體類型的語義準(zhǔn)確度。c)包含誤導(dǎo)信息的提示,隨機(jī)使用其他實(shí)體類型作為目標(biāo)實(shí)體類型的語義對模型進(jìn)行誤導(dǎo),例如,“l(fā)ocation is miscellaneous”和“ORG is PER”,用錯(cuò)誤的解釋作為提示引導(dǎo)模型進(jìn)行實(shí)體識別,實(shí)驗(yàn)表明,誤導(dǎo)性的標(biāo)簽需要更多的標(biāo)注樣例來糾正提示中給予的錯(cuò)誤信息。從實(shí)驗(yàn)結(jié)果可知,無論是無語義信息的提示還是包含誤導(dǎo)性的信息提示,隨著標(biāo)注樣本的增加,這些提示方法的性能都逐漸與包含語義信息的提示靠近,一方面說明語義優(yōu)先的提示方法的有效性,另一方面也說明隨著可學(xué)習(xí)樣本的增加,模型可以通過學(xué)習(xí)更多標(biāo)注知識來對錯(cuò)誤信息進(jìn)行糾正改進(jìn),通過上下文理解實(shí)體類型的具體語義,完成實(shí)體識別。
3.7 案例分析
實(shí)體從MIT-Movie數(shù)據(jù)集中抽取一個(gè)句子作為例子進(jìn)行示例分析,其中,不再使用實(shí)體類型的語義信息,而是直接使用實(shí)體類型作為提示的方法(w/o semantic)作為模型的對比案例。表3展示了直接使用實(shí)體類型作為提示和使用完整語義提示兩種方法完成實(shí)體識別的結(jié)果。直接使用實(shí)體類型作為提示的方法,面對新實(shí)體類型“Director”,模型無法很好地理解該類型的內(nèi)在含義,于是將“Director”與更常見的實(shí)體類型“Actor”錯(cuò)誤地混為一談,將“John Cassvetes”識別為“Actor”實(shí)體類型,而語義優(yōu)先的提示方法通過含有語義概念解釋的提示“Director is contributor to the creative work, film director…”正確地將“John Cassavetes”識別為“Director”,由此進(jìn)一步說明了本文提出的語義優(yōu)先提示方法的有效性。
4 結(jié)束語
本文介紹了用于小樣本命名實(shí)體識別的語義優(yōu)先提示學(xué)習(xí)方法。與以前的提示學(xué)習(xí)方法相比,語義優(yōu)先的提示方法不再將實(shí)體類型簡單地視為無意義的類別號碼,而是通過挖掘少數(shù)標(biāo)注樣本中蘊(yùn)涵的語義信息構(gòu)建提示模板,并使用非自回歸解碼器完成并行的實(shí)體定位。同時(shí)還利用對比學(xué)習(xí)思想訓(xùn)練分類器來對語義信息進(jìn)行過濾,保證語義與實(shí)體類型的相關(guān)性。在兩個(gè)廣泛使用數(shù)據(jù)集中進(jìn)行了對比實(shí)驗(yàn),證明了語義優(yōu)先的提示方法對于模型檢索預(yù)訓(xùn)練階段的先驗(yàn)知識非常重要。未來工作可對有嵌套結(jié)構(gòu)或多標(biāo)簽屬性的復(fù)雜實(shí)體類型,進(jìn)行有針對性的優(yōu)化。
參考文獻(xiàn):
[1]Lample G, Ballesteros M, Subramanian S, et al. Neural architectures for named entity recognition [EB/OL]. (2016-04-07). https://arxiv.org/abs/1603.01360.
[2]Li Xiaoya, Feng Jingrong, Meng Yuxian, et al. A unified MRC framework for named entity recognition [EB/OL]. (2022-11-22). https://arxiv.org/abs/1910.11476.
[3]Huang Jiaxin, Li Chunyuan, Subudhi K, et al. Few-shot named entity recognition: a comprehensive study [EB/OL]. (2020-12-29). https://arxiv.org/abs/2012.14978.
[4]Wang Yaqing, Chu Haoda, Zhang Chao, et al. Learning from language description: low-shot named entity recognition via decomposed framework [EB/OL]. (2021-09-11). https://arxiv.org/abs/2109.05357.
[5]Shin T, Razeghi Y, Logan Ⅳ R L, et al. Autoprompt: eliciting knowledge from language models with automatically generated prompts [EB/OL]. (2020-11-07). https://arxiv.org/abs/2010.15980.
[6]Ding Ning, Chen Yulin, Han Xu, et al. Prompt-learning for fine-grained entity typing [EB/OL]. (2021-08-24). https://arxiv.org/abs/2108.10604.
[7]Cui Leyang, Wu Yu, Liu Jian, et al. Template-based named entity recognition using BART [EB/OL]. (2021-06-03). https://arxiv.org/abs/2106.01760.
[8]Shen Yongliang, Tan Zeqi, Wu Shuhui, et al. PromptNER: prompt locating and typing for named entity recognition [EB/OL]. (2023-05-26). https://arxiv.org/abs/2305.17104.
[9]Ma Ruotian, Zhou Xin, Gui Tao, et al. Template-free prompt tuning for few-shot NER [EB/OL]. (2022-11-23). https://arxiv.org/abs/2109.13532.
[10]劉楊, 線巖團(tuán), 相艷, 等. 融合相似度負(fù)采樣的遠(yuǎn)程監(jiān)督命名實(shí)體識別方法[J]. 計(jì)算機(jī)應(yīng)用研究, 2024, 41(8): 2322-2328. (Liu Yang, Xian Yantuan, Xiang Yan, et al. Incorporating similarity negative sampling for distantly supervised NER[J]. Application Research of Computers, 2024, 41(8): 2322-2328.)
[11]Chen Jiawei, Liu Qing, Lin Hongyu, et al. Few-shot named entity recognition with self-describing networks [EB/OL]. (2022-03-23). https://arxiv.org/abs/2203.12252.
[12]Das S S S, Katiyar A, Passonneau R J, et al. CONTaiNER: few-shot named entity recognition via contrastive learning [EB/OL]. (2022-03-28). https://arxiv.org/abs/2109.07589.
[13]Yang Yi, Katiyar A. Simple and effective few-shot named entity recog-nition with structured nearest neighbor learning [EB/OL]. (2020-10-06). https://arxiv.org/abs/2010.02405.
[14]Huang Jiaxin, Li Chunyuan, Subudhi K, et al. Few-shot named entity recognition: an empirical baseline study [C]// Proc of Conference on Empirical Methods in Natural Language Processing. Stroudsburg, PA: Association for Computational Linguistics, 2021: 10408-10423.
[15]Huang Yucheng, He Kai, Wang Yige, et al. COPNER: contrastive learning with prompt guiding for few-shot named entity recognition [C]// Proc of the 29th International Conference on Computational Linguistics. [S.l.]: International Committee on Computational Linguistics, 2022: 2515-2527.
[16]Chen Jiawei, Lu Yaojie, Lin Hongyu, et al. Learning in-context learning for named entity recognition [EB/OL]. (2023-05-26). https://arxiv.org/abs/2305.11038.
[17]Li Zhe, Fu Luoyi, Wang Xinbing, et al. RFBFN: a relation-first blank filling network for joint relational triple extraction [C]// Proc of the 60th Annual Meeting of the Association for Computational Linguistics: Student Research Workshop. Stroudsburg, PA: Association for Computational Linguistics, 2022: 10-20.
[18]Ma Jie, Ballesteros M, Doss S, et al. Label semantics for few shot named entity recognition [EB/OL]. (2022-03-16). https://arxiv.org/abs/2203.08985.
[19]Wadden D, Wennberg U, Luan Yi, et al. Entity, relation, and event extraction with contextualized span representations [EB/OL]. (2019-09-10). https://arxiv.org/abs/1909.03546.
[20]Lee D H, Kadakia A, Tan Kangmin, et al. Good examples make a faster learner: simple demonstration-based learning for low-resource NER [EB/OL]. (2022-03-31). https://arxiv.org/abs/2110.08454.
[21]Liu A T, Xiao Wei, Zhu Henghui, et al. QaNER: prompting question answering models for few-shot named entity recognition [EB/OL]. (2022-03-04). https://arxiv.org/abs/2203.01543.
[22]Ye Feiyang, Huang Liang, Liang Senjie, et al. Decomposed two-stage prompt learning for few-shot named entity recognition [J]. Information, 2023, 14(5): 262.
[23]Devlin J, Chang M W, Lee K, et al. BERT: pre-training of deep bidirectional transformers for language understanding [EB/OL]. (2019-05-24). https://arxiv.org/abs/1810.04805.
[24]楊三和, 賴沛超, 傅仰耿, 等. 面向中文小樣本命名實(shí)體識別的BERT優(yōu)化方法 [J/OL]. 小型微型計(jì)算機(jī)系統(tǒng). (2024-02-02) [2024-04-27]. http://kns.cnki.net/kcms/detail/21.1106.TP.20240202.0926.002. html. (Yang Sanhe, Lai Peichao, Fu Yange, et al. A BERT optimization method for Chinese small sample named entity recognition [J/OL]. Microcomputer Systems. (2024-02-02) [2024-04-27]. http://kns.cnki. net/kcms/detail/21.1106.TP.20240202.0926.002.html.)
[25]Vaswani A, Shazeer N, Parmar N, et al. Attention is all you need [EB/OL]. (2023-08-02). https://arxiv.org/abs/1706.03762.
[26]Sui Dianbo, Zeng Xiangrong, Chen Yubo, et al. Joint entity and relation extraction with set prediction networks [J]. IEEE Trans on Neural Networks and Learning Systems, 2024, 35(9): 12784-12795.
[27]Lin Qika, Liu Jun, Zhang Lingling, et al. Contrastive graph representations for logical formulas embedding [J]. IEEE Trans on Knowledge and Data Engineering, 2023, 35(4): 3563-3574.
[28]Chen Ting, Kornblith S, Norouzi M, et al. A simple framework for contrastive learning of visual representations[C]// Proc of the 37th International Conference on Machine Learning. [S.l.]: JMLR.org, 2020: 1597-1607.
[29]Yamada I, Asai Akari, Shindo H, et al. LUKE: deep contextualized entity representations with entity-aware self-attention [EB/OL]. (2020-10-02). https://arxiv.org/abs/2010.01057.
[30]Toutanova K, Klein D, Manning C D, et al. Feature-rich part-of-speech tagging with a cyclic dependency network [C]// Proc of Conference of the North American Chapter of the Association for Computational Linguistics on Human Language Technology. Stroudsburg, PA: Association for Computational Linguistics, 2003: 252-259.
[31]Liu Jingjing, Pasupat P, Cyphers S, et al. Asgard: a portable architecture for multilingual dialogue systems [C]// Proc of IEEE International Conference on Acoustics, Speech and Signal Processing. Piscataway, NJ: IEEE Press, 2013: 8386-8390.
[32]Wiseman S, Stratos K. Label-agnostic sequence labeling by copying nearest neighbors [EB/OL]. (2021-08-20). https://arxiv.org/abs/1906.04225.
[33]Yang Yi, Katiyar A. Simple and effective few-shot named entity re-cognition with structured nearest neighbor learning [EB/OL]. (2020-10-06). https://arxiv.org/abs/2010.02405.
[34]He Kai, Mao Rui, Huang Yucheng, et al. Template-free prompting for few-shot named entity recognition via semantic-enhanced contrastive learning[J/OL]. IEEE Trans on Neural Networks and Learning Systems. (2023-09-26). http://doi.org/10.1109/tnnls.2023.3314807.
[35]潘理虎, 劉云, 謝斌紅, 等. 基于語義增強(qiáng)的多特征融合小樣本關(guān)系抽取 [J]. 計(jì)算機(jī)應(yīng)用研究, 2022, 39(6): 1663-1667. (Pan Lihu, Liu Yun, Xie Binhong, et al. Semantic-enhanced multi-feature fusion for few-shot relation extraction [J]. Application Research of Computers, 2022, 39(6): 1663-1667.)