紀文迪,張森輝,王曉玲,孔維璟
(1. 華東政法大學 刑事法學院,上海 200042;2. 華東師范大學 計算機科學與技術(shù)學院,上海 200062)
事件檢測是自然語言處理與信息抽取的一項重要任務,其目標則是判別一段自然語言的文本描述了何種事件。由于應用廣泛,傳統(tǒng)的事件檢測研究起步較早,也取得了一定的成功,但是這些方法[1-5]大多假設(shè)擁有完整事件類型的標注數(shù)據(jù)集,使用監(jiān)督學習的方式訓練模型。然而在實踐中,獲取高質(zhì)量的標注數(shù)據(jù)需要耗費大量的人力與物力。人工標注也只能提供少量的預定義事件類型,數(shù)據(jù)集中仍存在大量的未定義事件類型。尤其是涉及金融、醫(yī)療等專業(yè)領(lǐng)域時,已標注的事件類型有限,存在大量的未知事件,并不斷地有新事件出現(xiàn),缺少標注數(shù)據(jù)的問題也更加突出。
為了解決這一問題,一些零樣本的事件抽取方法[6-7]被提出,其核心特點便是模型可以在缺少事件標注的情況下,學習識別新的事件類型。根據(jù)已有工作的設(shè)定[7],我們將已知事件定義為已標注過的事件;將新事件或未知事件定義為未被標注的事件,其事件類型和觸發(fā)詞都是模型不可見的。零樣本事件檢測如圖1所示,訓練集包含了少量的已知事件和大量的新事件,模型需要通過少量的標注數(shù)據(jù)和大量的未標注數(shù)據(jù)學習事件描述的表示,對已知事件進行分類,對未知事件進行歸納發(fā)現(xiàn)。由此可見,零樣本事件檢測的難點主要體現(xiàn)在兩個方面,其一是缺少標注樣本,使得有監(jiān)督模型無法對未知事件進行分類;其二是缺少預定義的事件類型,模型缺少關(guān)于未知事件的先驗知識?,F(xiàn)有的零樣本事件檢測方法主要分為基于遷移學習的方法和半監(jiān)督方法?;谶w移學習[6]的方法旨在利用單詞語義關(guān)聯(lián)相似的事件觸發(fā)詞,歸納未知事件類型。然而,上述方法需要預先定義事件的類型,限制了其應用場景。半監(jiān)督方法[7]則無需預定新事件的類型,利用自編碼器實現(xiàn)了對未知事件的特征學習。但是自編碼僅關(guān)于單個樣本的編碼與重構(gòu),忽視了不同事件類型之間的特征差異,導致基于半監(jiān)督的方法只具備了區(qū)別已知與未知事件的能力,無法進一步歸類發(fā)現(xiàn)的未知事件。
圖1 零樣本事件檢測
針對現(xiàn)有方法的局限性,本文提出了一種基于對比學習與數(shù)據(jù)增強的零樣本事件檢測模型ZECL(1)https://github.com/KindRoach/ZeroShotEvent(Zero-Shot Event Detection Based on Contrastive Learning)。其創(chuàng)新之處在于首次在零樣本事件檢測任務中引入對比學習,通過不同事件類型間的對比,幫助模型能夠從復雜文本中學習提取出與區(qū)分事件類別高度相關(guān)的特征,克服自編碼器類間特征學習缺失的缺陷。為了在未知事件上實現(xiàn)對比學習,本文利用事件描述的重構(gòu)與復寫實現(xiàn)數(shù)據(jù)增強,為沒有標注的未知事件樣本提供對比樣本(圖2),這一過程并不需要具體的事件類別作為標注信息。在推理階段,ZECL采用基于距離的分類器和聚類器判斷事件的類型。我們在FewShotED[8]和ACE2005(2)https://catalog.ldc.upenn.edu/LDC2006T06數(shù)據(jù)集上開展了多個對比分析實驗,實驗結(jié)果表明,本文方法能夠提升新事件的識別分類效果。同時,我們提出的對比學習方法不但能夠應用于零樣本事件檢測,還能在有監(jiān)督事件檢測任務中取得較好的結(jié)果。
圖2 對比樣本對構(gòu)造過程
本文的主要貢獻有以下三點:
(1) 提出了一種基于對比學習的零樣本事件檢測模型,通過對比同類與異類樣本的方式,充分利用已知事件的標注數(shù)據(jù)與未知事件的無標注數(shù)據(jù),實現(xiàn)對未知事件類型的自動發(fā)現(xiàn)并歸類。
(2) 提出了一種基于詞性標注與近義詞替換的事件描述重寫方法,通過數(shù)據(jù)增強的方式給對比學習過程中未標注的未知事件提供了同類樣本。
(3) 在FewShotED和ACE2005數(shù)據(jù)集上的對比實驗表明,本文方法在保持對已知類別事件識別能力的同時,能夠顯著提升對未知事件類別識別的準確率。
事件抽取的研究起步相對較早,但是大多數(shù)現(xiàn)有研究[1-3]都是基于監(jiān)督學習的,這意味著需要大量的標注數(shù)據(jù)才能完成模型訓練。雖然這些方法能準確地從文本中抽取已知事件,但是并不能識別未知的新事件。在實際應用場景下,標注數(shù)據(jù)需要高昂的人力成本,而且只能提供少量的預定義事件類型,存在大量的未定義類型。為此,近年來一些針對零樣本場景下的事件抽取模型被提出。以文獻[6]為代表的語義方法,主要依靠事件類型以及事件元素的語義信息(如類型名稱、元素名稱等),實現(xiàn)未知事件到已知事件的相似性映射,從而學習新事件的特征。但此類方法需要預定義事件的結(jié)構(gòu)作為啟發(fā)規(guī)則,并不符合實踐中從“發(fā)現(xiàn)”“歸類”再到“定義”的應用場景。文獻[7]則提出了一種半監(jiān)督的模型,首先預設(shè)一定的未知事件類型數(shù)量,再一同計算已標注和未標注的樣本在已知與未知類型上的概率分布,并通過特別設(shè)計的損失函數(shù),使得已知類型與未知類型的概率差距最大化。雖然該模型能夠區(qū)分出已知類型與未知類型,但是仍然無法有效地將未知類型歸類。為此,本文提出了基于對比學習的零樣本事件抽取模型,通過針對事件類型的對比學習,使得模型具備區(qū)別事件核心特征的能力。
對比學習旨在通過自我監(jiān)督的方式來學習高質(zhì)量的特征表示,最近在計算機視覺與自然語言處理領(lǐng)域取得了顯著的成績。對比學習背后的共同假設(shè)是InfoMax原理[9],它通過對比正樣本和負樣本來學習具有區(qū)分性的表示。在自然語言處理中,最經(jīng)典的模型Word2Vec[10]使用共現(xiàn)單詞和負采樣來學習單詞嵌入。對比學習并不依賴于樣本的具體類別,模型只需知道樣本對是屬于同類還是異類。所以對比學習的核心便是如何構(gòu)造正負樣本對。對于有標注的監(jiān)督數(shù)據(jù),構(gòu)建工作相對簡單,只要從同類樣本集合中隨機抽取對比對象即可。而對于無標注數(shù)據(jù)的無監(jiān)督學習,在計算機視覺中,許多的工作[11-12]通過旋轉(zhuǎn)、鏡像等操作,來為同一張圖像構(gòu)建同類樣本,從而可以最小化多個視角之間的距離來學習自我監(jiān)督的圖像表示。在自然語言處理中,以文獻[13]為代表的工作將目標語句的上下文視為正樣本,從而實現(xiàn)語義相關(guān)性的對比學習。為了貼合零樣本事件檢測的場景,本文選擇與計算機視覺場景類似的數(shù)據(jù)增強思路,通過近義詞替換的方式實現(xiàn)事件描述文本的重寫,從而為無監(jiān)督樣本提供同類的對比對象。
本文所提出的基于對比學習與數(shù)據(jù)增強的零樣本事件檢測模型如圖3所示。
圖3 模型結(jié)構(gòu)圖
? 模型訓練時,已知事件、未知事件和通過事件描述重寫器構(gòu)造的未知事件一起組成正負樣本對。正樣本對包含兩個事件類型相同的樣本,負樣本對包含兩個事件類型不同的樣本。這些樣本輸入事件編碼器,生成對應的特征向量。對比樣本對被用于計算對比損失函數(shù)值,進而通過梯度回傳更新事件編碼器中的模型參數(shù)。
? 模型推理時,輸出的特征向量將被輸入分類器和聚類器,以判別已知事件的類型或者完成對未知事件的聚類任務。
ZECL模型的基本思想是通過對比學習得到更好的事件表示,使類型相同事件的表示距離更近,類型不同事件的表示距離更遠。ZECL在訓練過程中只在對比樣本對的構(gòu)造過程中使用監(jiān)督信息,完全利用對比學習進行模型訓練。針對事件檢測任務,設(shè)計對比樣本構(gòu)建方法,使模型的編碼器能夠更好地對事件描述進行表征。模型的分類器和聚類器無須訓練,在推理中直接采用基于距離的方法判斷事件的類別。
自監(jiān)督的對比學習中的一個重要步驟是構(gòu)建模型訓練所需的正負樣本對, 樣本對中的兩個樣本互為對比對象。正樣本對包含兩個事件類型相同的樣本,負樣本對包含兩個事件類型不同的樣本。模型通過對比同類樣本與不同類樣本之間的差異,學習區(qū)分樣本類別的關(guān)鍵特征。對比樣本對的構(gòu)造過程如圖2所示。
ZECL的一個特點是只在對比樣本對構(gòu)造的過程中使用事件的標注信息。通過有標注的事件描述,我們能夠高效地構(gòu)建對比學習樣本對: 屬于同類的兩個事件構(gòu)成一個正樣本對,屬于不同類的兩個事件構(gòu)成負樣本對。
通過上述方法,已知事件和未知事件都可以構(gòu)建屬于同一事件類型的正樣本對和屬于不同事件類型的負樣本對,使ZECL能夠通過對比學習獲得面向事件檢測任務的事件表示,從而讓同類事件的文本描述距離更近,不同類事件的文本描述距離更遠。
表1 事件重寫的例子
由于事件文本描述中的觸發(fā)詞大概率為名詞和動詞,我們只對非名詞和非動詞的詞進行近義詞替換,以在保證句子所屬事件類型不變的前提下,得到與原句描述不同而事件類型相同的文本,以便構(gòu)造未知事件的正對比樣本。受文獻[6-7]中篩選事件觸發(fā)詞規(guī)則的啟發(fā),事件重寫器將首先對輸入的事件描述進行詞性標記(Part-of-speech Tagging),然后對所有的非名詞(Noun)與動詞(Verb)執(zhí)行隨機的近義詞替換,過程如算法1所示。
Algorithm 1: 重寫事件描述
Input: 事件描述 m
Output: 重寫后的事件描述 mr
1 初始化 mr 為空字符串
2 for word in m do
3 pos = pos_tag(word) //獲取詞性標注
4 if pos = NOUN or pos = VERB or rand_bool() then
5 mr += word //保留原詞
6 else
7 mr += query_similar(word) //查詢近義詞
8 end
9 end
10 return m
事件編碼器的目標是從輸入的事件描述文本中提取低維稠密的特征向量,其結(jié)構(gòu)如圖4所示。本模型將使用預訓練的BERT[14]編碼器編碼事件文本為上下文向量。
圖4 事件編碼器
給定一段事件描述文本mi={w0,w1,w2,…,wL},其中,wi是文本中的第i個詞,w0是BERT分類標記“CLS”,L是事件描述文本的詞序列長度。首先,將單詞映射為低維的單詞編碼向量E∈Rl×dw,如式(1)所示。
E=[e0,e1,…,eL]。
(1)
接下來,這些單詞編碼向量被輸入經(jīng)過預訓練的BERT,得到包含文本信息的上下文向量C,如式(2)所示。
C=BERT(E)=[c0,c1,…,cL]
(2)
為了避免篩選觸發(fā)詞所帶來的累計誤差,我們使用BERT模型中的分類標記“CLS”所對應的輸出向量c0作為整個事件描述文本的輸出向量。最后,該向量經(jīng)過一個全連接層和一個激活函數(shù)降維,成為事件編碼器的輸出隱向量h,如式(3)所示。
h=σ(Whc0+bh),
(3)
其中,Wh和bh是全連接層參數(shù),σ是非線性激活函數(shù)Sigmoid[15]。
區(qū)分已知事件的不同事件類型,發(fā)現(xiàn)未知的新事件類型,都需要事件編碼器提取到事件描述文本中的關(guān)鍵特征,將同一事件類型的樣本映射到隱向量空間中距離相近的位置,將不同事件類型映射到隱向量空間中距離相遠的位置。給定一對樣本x1和x2,為此本文使用文獻[16]中所提出的對比損失函數(shù),損失函數(shù)計算如式(4)所示。
(4)
其中,N為樣本數(shù),y為類別標記: 當兩個樣本事件類型相同時,y=1;當兩個樣本事件類型不同時,y=0。d為樣本對x1和x2隱向量h1和h2的歐氏距離(L2范數(shù))。margin為超參數(shù),表示不同類樣本之間應被拉開的距離。
在事件編碼器的幫助下,對已知事件的分類與對未知事件的聚類任務轉(zhuǎn)化為對隱向量的分類與聚類任務,且同一事件類型的樣本在隱向量空間中距離相近。為此本文采用K近鄰算法K-nearest Neighbors)實現(xiàn)對已知事件的分類,采用K均值算法(K-means Clustering)實現(xiàn)對未知事件的聚類。
本文使用了FewShotED[8]和ACE2005(3)https://catalog.ldc.upenn.edu/LDC2006T06作為實驗數(shù)據(jù)集,用以評估模型效果。為了符合零樣本事件抽取的問題定義,需要將數(shù)據(jù)集中的事件類別劃分為已知與未知兩大類?,F(xiàn)有研究[6-7]采取“前10”的劃分方式,即將所有事件類別按照樣本數(shù)降序排列,取前10個類別作為已知類別,其他類別作為未知類別。這種劃分方式在樣本數(shù)量長尾分布的數(shù)據(jù)集上會導致未知類別的樣本數(shù)量遠小于已知類別。為此,本文采取了交替劃分方式: 取降序排列中偶數(shù)位的類別為已知類別,取奇數(shù)位類別為未知類別。同時,為了保證有充足的樣本進行訓練,本文刪去了樣本數(shù)小于50的事件類別,處理后的數(shù)據(jù)集統(tǒng)計數(shù)據(jù)如表2所示,最后兩行分別表示數(shù)據(jù)集中樣本類型的均值和方差。我們以8∶1∶1的比例將數(shù)據(jù)集隨即劃分為訓練集、開發(fā)集與測試集: 訓練集被用于訓練模型,開發(fā)集被用于模型調(diào)優(yōu),測試集則被用于最終模型評測。
表2 數(shù)據(jù)集統(tǒng)計數(shù)據(jù)
對于預訓練模型,在事件重寫中本文采用了 Stanza(4)https://github.com/stanfordnlp/stanza預訓練語言模型完成詞性標注,隨機使用Word2Vec(5)https://github.com/loretoparisi/word2vec、WordNet(6)https://github.com/nltk/wordnet和context augmentation(7)https://github.com/pfnet-research/contextual_augmentation預訓練模型實現(xiàn)近義詞替換;在事件描述編碼中本文使用 bert-base-cased的預訓練模型。對于模型訓練,本文使用Adam[17]優(yōu)化器對參數(shù)進行更新,初始學習率設(shè)置為1e-4,Dropout概率設(shè)置為0.1,隱向量維度設(shè)置為32。
針對事件抽取任務,現(xiàn)有大多數(shù)研究[1-3]都是基于監(jiān)督學習的,僅有文獻[4] 和文獻[5]兩個工作聚焦零樣本事件抽取問題??紤]到本研究所定義的零樣本事件抽取問題中缺少實現(xiàn)定義的事件類型結(jié)構(gòu),而相關(guān)研究[6]依賴于預先定義事件模板構(gòu)建模型,所以本文選擇了文獻[7]中的方法作為實驗基線。此外,為了更好地驗證基于對比學習的零樣本事件檢測方法的有效性,本文將文本聚類模型SCCL模型[18]和零樣本意圖檢測模型SEG[19]納入基線模型。
?SemiSup[7]: 一種半監(jiān)督的零樣本事件抽取方法,通過特別設(shè)計的損失函數(shù),可以區(qū)別已知與未知事件。
?SemiSup-CL: 在 SemiSup 的基礎(chǔ)上,加入本文提出的對比學習模塊,為已知事件和未知事件構(gòu)造對比樣本對并加入對比損失。
?ZECL-NoRe: 缺少事件描述重寫模塊的 ZECL 模型(即只對已知事件進行對比學習),用作消融實驗以驗證數(shù)據(jù)增強及對比學習對于模型效果的提升。
?SCCL[18]: 表現(xiàn)最好的無監(jiān)督文本聚類模型之一,通過優(yōu)化自上而下的聚類損失來實現(xiàn)文本聚類。
?SEG[19]: 是一個零樣本意圖檢測模型,采用高斯混合模型學習句子的表示。
為了使SCCL和SEG適應零樣本事件檢測任務,本文將應用與SemiSup模型相同的候選觸發(fā)詞篩選規(guī)則,再將候選觸發(fā)詞的表示作為事件描述文本的表示。
與此同時,針對聚類任務還將使用指標NMI、FM、完整性、同質(zhì)性評價模型的聚類效果。NMI、FM、完整性、同質(zhì)性是評價模型聚類效果的重要指標[20],相關(guān)零樣本事件檢測研究[7]也用這幾個指標評估模型對未知事件的歸納聚類能力。
歸一化互信息(Normalized Mutual Info, NMI):是互信息分數(shù)的歸一化,用于度量模型聚類結(jié)果與真實聚類之間的相似程度。
(5)
其中,Y為樣本的真實類型,C為樣本的聚類類型;H(·)為信息熵計算函數(shù),I(Y;C)為Y與C之間的互信息。
FM指數(shù)(Fowlkes-Mallows Index, FM)[21]: 又稱G-measure,是準確率與召回率的幾何平均數(shù),用于評估聚類標簽與數(shù)據(jù)的真實標簽之間的相似性。
(6)
其中,TP為真陽性樣本數(shù)(True Positive),FP為假陽性樣本數(shù)(False Positive),FN為假陰性樣本數(shù)(False Negative)。
完整性(Completeness):用于衡量屬于同一類樣本是否被分到同一聚類,如式(7)所示。
(7)
其中,H(C|Y)為真實類別Y下聚類類別C的條件熵。
同質(zhì)性(Homogeneity):用于衡量同一聚類中樣本的真實類別是否相同,如式(8)所示。
(8)
表3列出了本文提出的ZECL模型與基線模型的對比實驗結(jié)果,其中加粗字體表示該指標下最優(yōu)的數(shù)據(jù),帶下劃線的字體表明未知事件的F1分數(shù)是最直觀表示樣本事件檢測模型對新事件分類歸納能力的評價指標。本文所提出的模型在保證已知事件高識別率的同時,取得了未知事件發(fā)現(xiàn)與聚類任務上的顯著提升。對比基線模型SemiSup,ZECL將對未知事件進行分類的F1分數(shù)在FewShotED數(shù)據(jù)集上從0.458 7提升到0.545 8,提升幅度達到了19%;在ACE2005數(shù)據(jù)集上從0.334 4提升到0.416 6,提升幅度達到了24%。實驗結(jié)果表明: ①對比ZECL與基線模型SemiSup可以發(fā)現(xiàn),半監(jiān)督模型 SemiSup雖然能在已知事件分類任務上取得較好的表現(xiàn),但是在未知類別上的聚類任務表現(xiàn)較差, 說明其設(shè)計只能將未知類別事件從已知事件中區(qū)別出來,但缺少未知事件之間的分辨能力。②在增加了對比學習模塊之后,SemiSup-CL能夠在未知事件的聚類任務上取得一些提升,以對比學習為代表的無監(jiān)督學習技術(shù)能夠更好地應對無標注的數(shù)據(jù)樣本,幫助模型提取事件描述文本中的關(guān)鍵特征。③作為消融實驗對比對象的方法,ZECL-NoRe表現(xiàn)不如 ZECL,出現(xiàn)了與SemiSup相似的問題: 只能區(qū)分已知與未知事件,而無法進一步學習到未知事件之間的差異。考慮到模型只能收到基于已知事件與未知事件組成的負樣本對,而缺少事件重寫模塊所提供的未知事件正樣本對,這一結(jié)果證明了數(shù)據(jù)增強是ZECL能夠?qū)崿F(xiàn)對未知事件類別識別的重要原因。④本文提出的基于對比學習的零樣本方法ZECL比同樣基于對比學習聚類方法SCCL在已知和未知事件的分類任務上都有更好效果,其原因是聚類方法SCCL在訓練中未使用已知事件的信息,無法利用已知的事件學習新事件表示。⑤本文提出的ZECL模型在事件檢測任務上的效果遠好于零樣本意圖檢測模型SEG,其原因與SemiSup相似,SEG著力于區(qū)分已知事件和未知事件,無法很好地學習未知事件的差異性。⑥根據(jù)各個模型在聚類評價指標上的結(jié)果可以看出,本文提出的零樣本事件檢測方法能夠更好地對新事件進行歸納,將相似的事件描述聚類到一起,從而對新事件進行挖掘。
表3 ZECL與基線模型的對比實驗結(jié)果
表4列出了本文提出的ZECL模型與不考慮詞性、不替換動詞、不替換名詞的詞替換方法的對比結(jié)果。本文提出ZECL方法假設(shè)事件描述中的名詞和動詞中包含與事件類型相關(guān)的信息,因此在進行事件重寫時應該保留描述中的名詞和動詞,對其他詞進行同義詞替換。為了驗證這一假設(shè)的有效性,本實驗設(shè)計ZECL的三個變種,在事件重寫中依次不考慮詞性、不替換動詞及不替換名詞。通過對比三個變種方法及原始ZECL,我們觀察到: ①在FewShotED數(shù)據(jù)集中,ZECL模型在未知事件分類任務中取得了最高的F1分數(shù),說明保留描述中的名詞和動詞能夠有效地保持描述所屬事件的類型不變,有利于重寫后的描述文本從類型的角度與原始描述更相似。而在ACE2005數(shù)據(jù)集上,不替換動詞的ZECL模型取得了最好的效果,其原因可能為相較于FewShotED數(shù)據(jù)集,ACE2005數(shù)據(jù)集中事件描述中的觸發(fā)詞多為動詞,在表述重現(xiàn)時保留動詞不變更有利于維持描述的事件類似不變。②四種ZECL模型在未知事件分類任務中的召回率相差不大,但三個變種模型的準確率遠低于原始ZECL,進一步說明了描述中的名詞和動詞與事件的類型密切相關(guān),保留名詞和動詞有利于對比學習能夠更好地針對事件檢測任務學習表述文本的編碼。③在FewShotED數(shù)據(jù)集中,不考慮詞性的ZECL方法能夠在已知事件的分類任務中取得非常好的F1分數(shù),其效果甚至優(yōu)于表3中在監(jiān)督事件檢測任務中表現(xiàn)最好的SemiSup-CL模型。一個可能的原因是模型主要從監(jiān)督信號中獲得已知事件的分類能力,不考慮詞性的對比樣本構(gòu)造方法更加有利于提升模型編碼器對已知事件的表征能力。④從聚類指標上我們也可以看出,保留事件描述中可能的觸發(fā)詞(多為名詞和動詞)能夠更好地學習未知事件的表示,使同類的新事件的描述表示更相似。
表5列出了在不同詞替換比例下ZECL模型的實驗結(jié)果。ZECL利用對比學習的思想,通過對未知事件進行重寫,得到與原事件類型相同但文本表達不同的事件描述,構(gòu)建針對事件檢測任務的對比樣本對。其中,一個事件描述中的詞替換比例能夠體現(xiàn)樣本被重構(gòu)的程度,我們分別替換原始文本描述中20%、50%和100%的詞,分析不同的替換比例對模型分類聚類效果的影響。實驗結(jié)果表明: ①在不同的數(shù)據(jù)集上重寫替換的最優(yōu)比例有所不同。在FewShotED數(shù)據(jù)集上,全部替換事件描述中除名詞與動詞以外的所有詞使ZECL模型在未知事件的分類任務中取得最好的F1分數(shù)。并且,隨著替換率的提高,ZECL模型對新事件的分類效果越來越好,這表明對于FewShotED數(shù)據(jù)集,更高的詞替換比例有利于增大重寫樣本與原始樣本的差異性,構(gòu)造表達能力更強的對比樣本對。而對于ACE2005數(shù)據(jù)集,20%的替換率在未知事件的分類任務中取得最好的效果。②我們發(fā)現(xiàn)50%詞替換比例的ZECL在監(jiān)督事件檢測任務中的F1分數(shù)最高,其效果優(yōu)于表3在的基線模型SemiSup,略差于加入了對比學習的SemiSup-CL。這一結(jié)果表明,本文提出的對比學習方法不但適用于零樣本事件檢測任務,還能夠普遍地提升監(jiān)督事件檢測的效果。③事件重寫時,不同的詞替換率適用于不同的任務: 對ZECL模型而言,50%的替換率更適用于已知事件分類,100%的詞替換率在FewShotED數(shù)據(jù)集上更適用于新事件檢測,20%的詞替換率在ACE2005數(shù)據(jù)集上更適用于新事件檢測。
表5 不同詞替換比例的對比實驗結(jié)果
為了解決實際應用場景下缺少數(shù)據(jù)標注的零樣本事件檢測問題,本文提出了一種基于對比學習與數(shù)據(jù)增強的零樣本事件檢測模型,借助詞性標注與詞向量預訓練語言模型,完成了對未知事件描述的重構(gòu)與復寫,自動為對比學習提供無監(jiān)督的訓練樣本,從而實現(xiàn)大量文本中新事件類型的自動發(fā)現(xiàn)與歸類。實驗表明,與現(xiàn)有的解決方案相比,我們的方法在保證對已知類別事件高識別率的同時,具有更強的未知事件類型的區(qū)分能力,能夠顯著提升對未知事件進行類別識別的準確率。在未來研究中,應以完成聚類的未知事件集合為基礎(chǔ),探索自動化的新事件結(jié)構(gòu)定義與事件要素的抽取,實現(xiàn)從新事件發(fā)現(xiàn)到定義的完整閉環(huán)。