摘要:近年來,預(yù)訓(xùn)練語言模型的出現(xiàn)極大地推動(dòng)了新聞文本實(shí)體識(shí)別領(lǐng)域的發(fā)展。然而,高質(zhì)量、大規(guī)模標(biāo)注數(shù)據(jù)的匱乏仍然是制約模型性能提升的關(guān)鍵因素。文章針對(duì)此問題設(shè)計(jì)了一種增強(qiáng)數(shù)據(jù)生成框架,該框架基于預(yù)訓(xùn)練語言模型,利用關(guān)鍵詞選擇和動(dòng)態(tài)遮蓋的方法構(gòu)建損壞文本,再通過文本重構(gòu)和數(shù)據(jù)選擇生成多樣化且連貫的增強(qiáng)數(shù)據(jù)。將增強(qiáng)數(shù)據(jù)與原有標(biāo)準(zhǔn)數(shù)據(jù)結(jié)合,用于實(shí)體識(shí)別模型的微調(diào)。實(shí)驗(yàn)結(jié)果表明,相比于未使用數(shù)據(jù)增強(qiáng)的基線模型和詞匯替換增強(qiáng)模型,文章提出的DRS增強(qiáng)數(shù)據(jù)生成框架在精確率和召回率上分別取得了3%~7%和2%~9%的提升。
關(guān)鍵詞:預(yù)訓(xùn)練語言模型;增強(qiáng)數(shù)據(jù)生成;關(guān)鍵詞選擇;動(dòng)態(tài)遮蓋;微調(diào)
中圖分類號(hào):TP391 文獻(xiàn)標(biāo)識(shí)碼:A
文章編號(hào):1009-3044(2025)01-0023-04 開放科學(xué)(資源服務(wù)) 標(biāo)識(shí)碼(OSID) :
1 概述
命名實(shí)體識(shí)別(Named Entity Recognition,NER) 作為自然語言處理(NLP) 領(lǐng)域中的重要組成部分,其目標(biāo)是從文本中識(shí)別出具有特定意義的實(shí)體,如人名、地名、組織機(jī)構(gòu)等,并將其分類到預(yù)定義的類別中。NER是眾多高級(jí)NLP應(yīng)用(例如信息抽取、情感分析、自動(dòng)標(biāo)注和問答系統(tǒng)等) 的基礎(chǔ)。近年來,深度學(xué)習(xí)技術(shù),尤其是Transformer架構(gòu)的出現(xiàn),為NER領(lǐng)域帶來了突破性進(jìn)展。
丁建平等人[1]對(duì)NER研究進(jìn)行了綜述,指出基于深度學(xué)習(xí)和Transformer模型的NER表現(xiàn)良好,這類模型能夠通過大規(guī)模的預(yù)訓(xùn)練來學(xué)習(xí)語言結(jié)構(gòu),再通過針對(duì)具體任務(wù)的微調(diào)來進(jìn)一步優(yōu)化模型性能。基于深度學(xué)習(xí)的NER模型最近在多個(gè)領(lǐng)域具有廣泛的研究,如利用BERT-BiGRU-CRF模型對(duì)網(wǎng)絡(luò)文本中的地理信息實(shí)體進(jìn)行識(shí)別[2]、利用一種交融式的Trans?former神經(jīng)網(wǎng)絡(luò)模型對(duì)司法文本實(shí)體進(jìn)行識(shí)別[3]、利用一種基于遷移語料庫訓(xùn)練的BERT-BiGRU-CRF模型對(duì)金融新聞數(shù)據(jù)集中的實(shí)體進(jìn)行識(shí)別[4]等,并均取得了較好的性能結(jié)果。Malmasi等人[5]構(gòu)建了一種用于NER任務(wù)研究的數(shù)據(jù)集,并指出目前方法在低上下文場景和復(fù)雜NER場景下的表現(xiàn)并不理想。盡管有監(jiān)督的學(xué)習(xí)方法能顯著提升NER的性能,但構(gòu)建大批量的高質(zhì)量標(biāo)注數(shù)據(jù)仍然是一項(xiàng)巨大的挑戰(zhàn)。Liu等人[6]和Zhou 等人[7]指出數(shù)據(jù)增強(qiáng)是數(shù)據(jù)稀疏條件下NER的有效解決方案,并在常見NER的基準(zhǔn)數(shù)據(jù)集上表現(xiàn)良好且能生成連貫的增強(qiáng)樣本。然而,數(shù)據(jù)增強(qiáng)也存在一些局限性,在某些情況下,生成的增強(qiáng)樣本可能不夠連貫或不符合事實(shí),這會(huì)導(dǎo)致模型學(xué)習(xí)到錯(cuò)誤的信息,從而影響最終的識(shí)別性能。
為了解決這個(gè)問題,本文提出了一種新的數(shù)據(jù)增強(qiáng)框架,旨在解決數(shù)據(jù)稀疏性問題的同時(shí),生成高質(zhì)量的增強(qiáng)樣本。該增強(qiáng)數(shù)據(jù)生成框架主要分為構(gòu)建損壞文本、文本重構(gòu)和數(shù)據(jù)選擇三個(gè)步驟,稱為DRS(Damage-Refactoring-Selection) 增強(qiáng)數(shù)據(jù)框架?,F(xiàn)有方法通過同類實(shí)體替換等方式生成增強(qiáng)樣本,都是在常見基準(zhǔn)數(shù)據(jù)集上設(shè)計(jì)的,未能為含有語義模糊和復(fù)雜實(shí)體的復(fù)雜NER生成有效的增強(qiáng)樣本。本文提出的框架在數(shù)據(jù)稀疏情況下能夠生成用于復(fù)雜NER的增強(qiáng)數(shù)據(jù),并且通過在增強(qiáng)樣本中保留語義模糊命名實(shí)體的真實(shí)含義,有效緩解上下文與實(shí)體不匹配的問題,從而生成多樣、連貫、事實(shí)準(zhǔn)確和高質(zhì)量的增強(qiáng)樣本,提升NER模型的性能。
2 框架
本文設(shè)計(jì)的DRS增強(qiáng)數(shù)據(jù)框架的應(yīng)用流程如圖1 所示。
首先將原始的訓(xùn)練數(shù)據(jù)輸入DRS增強(qiáng)數(shù)據(jù)框架后,進(jìn)入構(gòu)建損壞文本流程,通過微調(diào)的NER模型提取關(guān)鍵詞,再利用選擇性遮蓋和在實(shí)體詞匯前后添加標(biāo)簽構(gòu)建損壞樣本。然后通過微調(diào)的預(yù)訓(xùn)練語言模型進(jìn)行文本重構(gòu),生成一系列增強(qiáng)樣本,最后通過數(shù)據(jù)選擇得到高質(zhì)量且多樣化的增強(qiáng)數(shù)據(jù)。通過上述過程產(chǎn)生的增強(qiáng)數(shù)據(jù)與原始訓(xùn)練數(shù)據(jù)合并,用于后續(xù)NER模型的訓(xùn)練。
2.1 構(gòu)建損壞文本
第一步構(gòu)建損壞文本基于Facebook AI Research 團(tuán)隊(duì)開發(fā)的XLM-RoBERTa 模型[8],經(jīng)過一定的微調(diào)使其適應(yīng)本文針對(duì)命名實(shí)體識(shí)別任務(wù)的需求。對(duì)于訓(xùn)練所輸入的句子,通過微調(diào)的XLM-RoBERTa模型生成注意力圖,從而獲得一組與句子中實(shí)體最相關(guān)的非命名實(shí)體詞匯,這里稱之為關(guān)鍵詞。該模型旨在識(shí)別與命名實(shí)體具有顯著依賴關(guān)系的非命名實(shí)體詞匯,并通過參數(shù)設(shè)置選取排名靠前的詞作為關(guān)鍵詞。
完成關(guān)鍵詞選擇后,對(duì)句子進(jìn)行選擇性遮蓋操作。具體而言,將除關(guān)鍵詞和實(shí)體詞匯外的其他非實(shí)體詞匯用遮蓋標(biāo)記[M]替換,表示被遮蓋(Masked) 的詞元(token) 。為避免冗余,連續(xù)的遮蓋標(biāo)記將被合并為一個(gè)。此外,為提高后續(xù)文本重構(gòu)的質(zhì)量,在每個(gè)實(shí)體詞匯前后添加標(biāo)簽標(biāo)記,將其視為句子中的正常上下文。圖2展示了完整的損壞樣本構(gòu)建流程。
以這個(gè)句子為例,從句子中提取了5個(gè)非實(shí)體關(guān)鍵詞和1個(gè)實(shí)體詞“人工智能”,然后將其他詞匯進(jìn)行遮蓋,并在實(shí)體詞前后添加標(biāo)簽,這里的實(shí)體詞被標(biāo)記為實(shí)體類型之一的lt;術(shù)語gt;。
為了能夠生成更加多樣化的文本,在迭代生成過程中添加動(dòng)態(tài)遮蓋步驟,應(yīng)用統(tǒng)計(jì)方法從非實(shí)體關(guān)鍵詞中隨機(jī)采樣,進(jìn)行動(dòng)態(tài)的選擇性遮蓋。具體而言,在每次迭代過程中,首先從一個(gè)正態(tài)分布N ( μ,σ2 )中采樣一個(gè)動(dòng)態(tài)的遮蓋率ε,該遮蓋率被控制在[0,1]之間。通過遮蓋率ε 和非實(shí)體關(guān)鍵詞數(shù)量n,確定需要遮蓋的非實(shí)體關(guān)鍵詞數(shù)量,再隨機(jī)選擇出對(duì)應(yīng)數(shù)量的非實(shí)體關(guān)鍵詞進(jìn)行遮蓋。這樣操作的目的是在每次迭代過程中不全部保留非實(shí)體關(guān)鍵詞,通過隨機(jī)采樣能夠產(chǎn)生不同的遮蓋情況,如圖3所示。
當(dāng)采樣的遮蓋率ε = 0時(shí),5個(gè)非實(shí)體關(guān)鍵詞均會(huì)保留;當(dāng)采樣的遮蓋率ε = 0.2時(shí),5個(gè)非實(shí)體關(guān)鍵詞會(huì)被任意遮蓋掉1個(gè)(圖中展示了遮蓋“會(huì)議”和遮蓋“發(fā)展”兩種情況) ,從而能夠生成更多結(jié)構(gòu)不同的損壞文本??傊?,通過迭代完成包含關(guān)鍵詞選擇和動(dòng)態(tài)遮蓋這兩個(gè)核心步驟的構(gòu)建損壞文本流程,即可批量生成所設(shè)計(jì)的損壞文本。
2.2 文本重構(gòu)
文本重構(gòu)是DRS框架的第二步,旨在將損壞文本恢復(fù)為原始文本。為此,本文采用微調(diào)后的BART預(yù)訓(xùn)練語言模型[9]來完成該任務(wù)。BART是一種序列到序列(seq2seq) 的模型,能夠處理自然語言處理任務(wù)中的各種問題,并且通過調(diào)整輸入和輸出的格式即可應(yīng)用于不同的場景。
在編碼階段,BART使用雙向Transformer來構(gòu)建其編碼器。雙向Transformer允許模型對(duì)于給定位置的詞,考慮這個(gè)詞前后的上下文信息。對(duì)于輸入序列x = [ x1,x2,...,xn ],位置i的輸出為:
hi = Bi - Transformer(x1,x2,...,xn ) (1)
式中,Bi - Transformer表示雙向Transformer的內(nèi)部操作,包括多頭注意力機(jī)制和前饋神經(jīng)網(wǎng)絡(luò)層。多頭注意力模塊允許模型在每個(gè)位置關(guān)注輸入序列中的所有位置,從而捕捉長距離依賴關(guān)系;前饋網(wǎng)絡(luò)用于進(jìn)一步提取特征,并增強(qiáng)模型的學(xué)習(xí)能力。每個(gè)編碼器層包含殘差連接和層歸一化,以幫助梯度傳播和加速訓(xùn)練過程。通過多層Transformer編碼器層的堆疊構(gòu)成BART的編碼器。
在解碼階段,BART使用自回歸Transformer解碼器,這是基于GPT系列模型的設(shè)計(jì)。自回歸的解碼器在生成序列中的每個(gè)位置時(shí),僅依賴于序列中之前的位置。對(duì)于生成的序列y = [ y1,y2,...,ym ],解碼器的輸出dj(對(duì)于位置j) 僅依賴于y1,y2,...,yj - 1:
dj = AutoRegressive - Transformer(y1,y2,...,yj - 1 )j (2)
式中,AutoRegressive - Transformer 表示自回歸Transformer的內(nèi)部操作,同樣包括多頭注意力機(jī)制和前饋神經(jīng)網(wǎng)絡(luò)層。但注意力機(jī)制被設(shè)計(jì)成掩碼形式,在生成輸出序列時(shí)會(huì)遮蓋掉未來的位置,以確保在預(yù)測當(dāng)前位置時(shí)不會(huì)利用到未來的信息。通過這種方法,解碼器每次只考慮之前已經(jīng)生成的部分,逐步生成序列。
BART的預(yù)訓(xùn)練包含兩步:首先利用任意一種噪聲函數(shù)破壞文本,然后學(xué)習(xí)一個(gè)模型來重構(gòu)回原來的文本,目標(biāo)是得到一個(gè)基于序列到序列的去噪自編碼器。在訓(xùn)練期間,BART使用隨機(jī)遮掩策略,即隨機(jī)選擇輸入序列的一部分并將其遮掩。遮掩操作包括完全刪除某些片段、替換為[MASK]標(biāo)記或替換成隨機(jī)單詞。這與本文提出的DRS框架中的文本重構(gòu)任務(wù)高度吻合,二者均致力于從受損文本中恢復(fù)原始內(nèi)容。同時(shí),BART模型因采用雙向編碼器及自回歸解碼器的設(shè)計(jì),能夠有效利用上下文信息并生成連貫的序列,因此特別適用于此類文本重構(gòu)任務(wù)。在本文的文本重構(gòu)任務(wù)中,文本的破壞在第一步已經(jīng)完成,這里BART的輸入就是之前構(gòu)建的損壞文本,輸出是原始未受損壞的文本。確定輸入和輸出后即可對(duì)BART預(yù)訓(xùn)練語言模型進(jìn)行訓(xùn)練和微調(diào),得到最終表現(xiàn)良好的文本重構(gòu)模型。
2.3 數(shù)據(jù)選擇
數(shù)據(jù)選擇是DRS框架的最后一步,旨在從生成的候選數(shù)據(jù)中篩選出高質(zhì)量的增強(qiáng)數(shù)據(jù)。通過選擇性遮蔽產(chǎn)生不同的損壞文本,輸入文本重構(gòu)模型后,會(huì)生成額外的訓(xùn)練數(shù)據(jù),以此增強(qiáng)數(shù)據(jù)集的大小和多樣性。但這樣迭代產(chǎn)生的數(shù)據(jù)有些會(huì)與原始訓(xùn)練數(shù)據(jù)過于相似,所以在使用這些迭代產(chǎn)生的數(shù)據(jù)之前需要進(jìn)行數(shù)據(jù)選擇的過程。
首先需要移除和原始句子過于相似的增強(qiáng)樣本,使用多語言Sentence-BERT模型[10]為每個(gè)句子提取嵌入向量e,然后通過下面公式計(jì)算兩個(gè)句子間的語義相似度:
式中,sim(?)表示兩個(gè)句子嵌入向量的余弦相似度,i,j 屬于N,i ≠ j,N 是數(shù)據(jù)集的大小。通過設(shè)定一個(gè)相似度閾值t,當(dāng)生成句子和原始句子的語義相似度sim gt; t時(shí),就移除生成的句子。
在創(chuàng)建損壞文本時(shí),在每個(gè)實(shí)體詞的前后都加入了特殊的標(biāo)簽標(biāo)記。這些符號(hào)在之后的實(shí)體識(shí)別過程中是不需要的,所以在保留下來的生成句子中,需要把這些標(biāo)簽移除。通過這樣的數(shù)據(jù)選擇和處理過程,可以確保增強(qiáng)數(shù)據(jù)的質(zhì)量和可用性。最后,將處理過的增強(qiáng)數(shù)據(jù)與原始數(shù)據(jù)集合并,一同作為訓(xùn)練數(shù)據(jù),用于NER模型的進(jìn)一步訓(xùn)練,這樣可以讓模型從更多樣化的數(shù)據(jù)變體中學(xué)習(xí)到更為廣泛的實(shí)體識(shí)別規(guī)律。
3 實(shí)驗(yàn)
本文使用的數(shù)據(jù)集基于新聞傳媒平臺(tái)積累的中文新聞數(shù)據(jù),通過人工標(biāo)注獲得可用于命名實(shí)體識(shí)別的標(biāo)準(zhǔn)數(shù)據(jù)集。在標(biāo)注規(guī)范方面,提供了詳細(xì)的示例文檔和標(biāo)注結(jié)果來幫助理解標(biāo)注規(guī)則,其中包括實(shí)體類別明確定義、實(shí)體邊界確定、特殊情況處理等內(nèi)容。標(biāo)注一致性檢驗(yàn)包括雙人獨(dú)立標(biāo)注對(duì)比、隨機(jī)抽樣第三方審查、定期培訓(xùn)標(biāo)注員熟悉標(biāo)注規(guī)范等方法。
標(biāo)準(zhǔn)數(shù)據(jù)集的樣本數(shù)量為20 000條,標(biāo)記的實(shí)體分為7種不同類型:人物、地點(diǎn)、機(jī)構(gòu)、時(shí)間、產(chǎn)品、設(shè)施、術(shù)語。按照實(shí)體類別進(jìn)行分層采樣,分別設(shè)置了三種訓(xùn)練集數(shù)量:2 000、4 000和7 000。
本文設(shè)置訓(xùn)練集與測試集樣本數(shù)量比例為1∶9、1∶4和1∶2左右,這樣設(shè)置的目的是模擬大規(guī)模標(biāo)注訓(xùn)練數(shù)據(jù)難以獲得的實(shí)際情況,觀測本文提出的方法在少量訓(xùn)練集上對(duì)NER模型性能的影響。實(shí)驗(yàn)選擇XLM-RoBERTa-large 作為基礎(chǔ)NER 模型,并添加一個(gè)簡單的線性層將XLM-RoBERTa-large的輸出轉(zhuǎn)換為NER任務(wù)所需的輸出。模型使用Adam優(yōu)化器[11]進(jìn)行優(yōu)化,學(xué)習(xí)率設(shè)置為0.01,批次大小為16,訓(xùn)練輪次為100,并使用在訓(xùn)練集上表現(xiàn)最佳的模型對(duì)測試集進(jìn)行測試。
對(duì)比實(shí)驗(yàn)設(shè)置3種方法:一是基線模型(僅使用訓(xùn)練集數(shù)據(jù)) ;二是詞匯替換增強(qiáng)模型(詞匯用相同實(shí)體類別的其他詞匯替換生成增強(qiáng)數(shù)據(jù)) [12];三是本文提出的DRS增強(qiáng)模型。性能指標(biāo)采用精準(zhǔn)率(Precision) 和召回率(Recall) :精準(zhǔn)率表示最終模型識(shí)別出的命名實(shí)體中真正正確的比例,召回率表示所有命中實(shí)體中最終模型成功識(shí)別的比例。通過精準(zhǔn)率關(guān)注模型預(yù)測的準(zhǔn)確性,通過召回率關(guān)注模型是否能夠盡可能多地找出所有實(shí)體,從而全面評(píng)估模型的準(zhǔn)確性和魯棒性。實(shí)驗(yàn)結(jié)果如圖4所示。
分析實(shí)驗(yàn)結(jié)果可以發(fā)現(xiàn),隨著訓(xùn)練數(shù)據(jù)規(guī)模的增加,三種考察方法的精準(zhǔn)率和召回率均有所提升,這表明增加高質(zhì)量訓(xùn)練樣本的數(shù)量確實(shí)有助于改善NER模型的表現(xiàn)。在相同規(guī)模的訓(xùn)練數(shù)據(jù)下,本文提出的DRS 增強(qiáng)模型相較于其他兩種方法表現(xiàn)更為優(yōu)異。
具體而言,在訓(xùn)練集與測試集比例為1∶9時(shí),DRS 框架相較于僅使用原始訓(xùn)練集的方法在精準(zhǔn)率上提升了約7%,相較于采用詞匯替換策略的數(shù)據(jù)增強(qiáng)方法則提高了約3%;當(dāng)比例調(diào)整至1∶4時(shí),相應(yīng)的精確度提升分別約為4%和3%;比例為1∶2時(shí),精準(zhǔn)率分別提高了3%和4%。從整體來看,DRS框架在精準(zhǔn)率方面帶來了3%~7%的提升,在召回率方面則帶來了2%~9%的改善。與僅利用原始訓(xùn)練集的方法相比,這些結(jié)果證實(shí)了數(shù)據(jù)增強(qiáng)技術(shù)的有效性;而與Dai和Adel提出的詞匯替換增強(qiáng)技術(shù)相比,則進(jìn)一步證明了DRS框架能夠產(chǎn)生更加優(yōu)質(zhì)且多樣的增強(qiáng)數(shù)據(jù),從而更有效地提升模型性能。為了評(píng)估動(dòng)態(tài)遮蓋機(jī)制對(duì)模型性能的影響,本文進(jìn)行了消融實(shí)驗(yàn),其結(jié)果如圖5 所示。
實(shí)驗(yàn)結(jié)果表明,在不改變其他條件的情況下,引入動(dòng)態(tài)遮蓋機(jī)制后,模型在精準(zhǔn)率上獲得了1%~2% 的提升,在召回率上實(shí)現(xiàn)了2%~3%的改進(jìn),這證明了動(dòng)態(tài)遮蓋機(jī)制的有效性和重要性。
4 結(jié)論
本文介紹了一種基于DRS增強(qiáng)數(shù)據(jù)框架的數(shù)據(jù)增強(qiáng)技術(shù),旨在解決訓(xùn)練樣本量不足的問題,并提高新聞文本中的NER模型性能。該框架包括文本損壞、文本重構(gòu)以及數(shù)據(jù)篩選三個(gè)主要步驟,能夠從原始訓(xùn)練數(shù)據(jù)中生成高質(zhì)量且多樣化的增強(qiáng)數(shù)據(jù)。通過一系列對(duì)比實(shí)驗(yàn)證明,DRS增強(qiáng)數(shù)據(jù)框架能夠顯著提升NER模型的性能。本文所提出的文本重構(gòu)方法不涉及新實(shí)體的生成或替換,未來計(jì)劃探索如何利用知識(shí)圖譜或記憶網(wǎng)絡(luò)等方法,結(jié)合外部知識(shí)來生成含有新實(shí)體的增強(qiáng)數(shù)據(jù),從而進(jìn)一步提高模型的泛化能力。
本研究的創(chuàng)新之處在于提出了一個(gè)系統(tǒng)性的數(shù)據(jù)增強(qiáng)流程,該流程不僅能夠有效地?cái)U(kuò)大訓(xùn)練數(shù)據(jù)集的規(guī)模,還能保證增強(qiáng)數(shù)據(jù)的質(zhì)量。此外,該方法具有較高的實(shí)用價(jià)值,可以應(yīng)用于多種場景下的NER任務(wù)。尤其是在資源受限的情況下,該方法有助于改善模型性能并促進(jìn)其實(shí)際應(yīng)用。綜上所述,DRS增強(qiáng)數(shù)據(jù)框架是一種有效提升NER模型性能的方法,具有廣泛的應(yīng)用前景。
參考文獻(xiàn):
[1] 丁建平,李衛(wèi)軍,劉雪洋,等.命名實(shí)體識(shí)別研究綜述[J].計(jì)算機(jī)工程與科學(xué),2024,46(7):1296-1310.
[2] 王立,嚴(yán)霞,王斌,等.基于BERT模型的網(wǎng)絡(luò)文本地理信息命名實(shí)體識(shí)別[J].制造業(yè)自動(dòng)化,2024,46(5):145-150.
[3] 王穎潔,張程燁,白鳳波,等.基于Transformer的司法文書命名實(shí)體識(shí)別方法[J].計(jì)算機(jī)科學(xué),2024,51(S1):125-133.
[4] 李淦.面向金融新聞的命名實(shí)體識(shí)別方法[J].電腦知識(shí)與技術(shù),2024,20(18):4-6.
[5] MALMASI S, FANG A, FETAHU B, et al. MultiCoNER: Alarge-scale multilingual dataset for complex named entity rec?ognition[C]//Proceedings of the 29th International Conferenceon Computational Linguistics (COLING 2022), 2022: 6559-6574.
[6] LIU L, DING B, BING L, et al. MulDA: A multilingual dataaugmentation framework for low-resource cross-lingual NER[C]//Proceedings of the 59th Annual Meeting of the Associationfor Computational Linguistics (ACL 2021), 2021: 5486-5497.
[7] ZHOU R, LI X, HE R, et al. MELM: Data augmentation withmasked entity language modeling for low-resource NER[C]//Proceedings of the 59th Annual Meeting of the Association forComputational Linguistics (ACL 2021), 2021:5649-5654.
[8] CONNEAU A, KHANDELWAL K, GOYAL N, et al. Unsuper?vised cross-lingual representation learning at scale[C]//Pro?ceedings of the 58th Annual Meeting of the Association forComputational Linguistics (ACL 2020), 2020: 8440-8451.
[9] LEWIS M, LIU Y, GOYAL N, et al. BART: Denoisingsequence-to-sequence pre-training for natural language gen?eration, translation, and comprehension[C]//Proceedings of the58th Annual Meeting of the Association for Computational Lin?guistics (ACL 2020), 2020: 7871-7880.
[10] REIMERS N, GUREVYCH I. Sentence-BERT: Sentence em?beddings using siamese BERT-networks[C]//Proceedings ofthe 2019 Conference on Empirical Methods in Natural Lan?guage Processing (EMNLP 2019), 2019: 3982-3992.
[11] KINGMA D P, BA J. Adam: A method for stochastic optimiza?tion[EB/OL]. arXiv preprint arXiv:1412.6980, 2014[2024-05-23].https://arxiv.org/abs/1412.6980.
[12] DAI X, ADEL H. An analysis of simple data augmentation fornamed entity recognition[C]//Proceedings of the 28th Interna?tional Conference on Computational Linguistics (COLING2020), 2020: 3861-3867.
【通聯(lián)編輯:唐一東】